研究DevOps工程师
GEMINI(geminimedicine)处于医学研究和创新的前沿,通过我们的高性能计算基础设施为研究人员提供最先进的计算资源。我们运营100%的Linux环境,并致力于自动化我们的基础设施,以为用户提供无缝、高效的服务。
我们正在寻找一位经验丰富的DevOps工程师加入我们的团队,推动我们HPC基础设施的演变。这个角色在将我们的配置管理转变为一个强大、可扩展的GitOps架构中起着关键作用。
您将负责设计和构建管理我们整个科学计算平台的CI/CD管道和自动化工作流。我们理想的候选人应具备Python和Ansible、Jenkins等工具的强大背景,对基础设施即代码充满热情,并具备实施现代可观测性的经验。
您的工作将通过自动化复杂流程直接支持研究人员,并确保我们的Slurm HPC环境可靠、可扩展且安全。
职责和责任:
CI/CD管道开发和基础设施自动化(35%)
• 使用Jenkins和Ansible设计、构建和维护CI/CD管道,以自动化部署、配置和管理我们整个HPC堆栈。
• 引领向GitOps方法的过渡,确保所有系统配置都通过自动化、可审计的管道进行版本控制和部署。
• 扩展和增强现有的Ansible剧本,以管理我们环境的完整生命周期,包括Slurm集群节点、身份管理、Web应用程序和数据库。
• 在所有环境中开发和实施基础设施即代码(IaC)实践。
• 设计和维护灾难恢复和备份自动化策略。
• 与团队成员密切合作,建立自动化标准、编码技术和基础设施最佳实践。
• 评估和整合新工具和技术以提高团队生产力。
• 撰写详细的技术文档和基础设施自动化计划。
可观测性和遥测(25%)
• 实施和管理全面的可观测性堆栈(例如,VictoriaMetrics、Grafana、Vector),以提供对集群健康、作业性能和资源利用的深刻见解。
• 设计和维护监控仪表板,以向最终用户传达系统健康和性能指标。
• 监控和分析系统日志、指标和遥测数据,以识别性能瓶颈和优化机会。
• 提供基础设施和可观测性项目的方向和指导。
• 管理和优化用于大型语言模型和GPU深度学习工作负载的Slurm。
• 解决整个基础设施堆栈中的复杂技术问题。
工作流自动化和集成(25%)
• 通过集成来自SmartSheet等公共服务的API,自动化手动和重复的基础设施相关任务。
• 开发用于自动化和系统集成任务的Python脚本。
• 与技术团队成员和研究人员密切合作,解决复杂问题,优化工作流程,并确保无缝的用户体验。
• 为基础设施更改构建和维护自动化测试。
• 创建自助自动化工具,以增强用户能力并减少手动操作开销。
• 集成多个系统和服务,以创建简化的自动化工作流。
安全集成和合规性(15%)
• 将安全和合规性最佳实践嵌入CI/CD管道和所有自动化中,确保系统符合医疗数据标准。
• 在部署管道中实施安全控制和自动化安全扫描。
• 定期进行安全评估和我们HPC基础设施的漏洞管理。
• 与安全团队合作,确保基础设施符合组织的安全要求。
• 使用版本控制记录所有安全配置、政策和合规措施。
资格:
经验:至少3-5年Linux系统管理经验,专注于高性能计算(HPC)环境。
技术技能:
• 熟练掌握用于自动化和系统集成任务的Python脚本。
• 熟练掌握集群管理系统(SLURM、Kubernetes)。
• 拥有Ansible和Jenkins的丰富经验。
问题解决:具备强大的分析和故障排除能力,能够解决复杂的技术问题。
沟通:优秀的口头和书面沟通能力,能够向非技术受众传达技术概念。
团队合作:能够在团队环境中协作工作,并为持续改进的文化做出贡献。
计算机科学、信息技术或相关领域的学士或硕士学位(或同等经验)
为什么加入我们?
创新环境:在动态、研究驱动的环境中使用最前沿的技术工作。
有影响力的工作:为对人们生活产生影响的关键医学研究做出贡献。
职业成长:提供持续学习和职业发展的机会。
协作团队:加入一个致力于卓越和创新的充满激情的专业团队。
Unity Health Toronto致力于创建一个无障碍和包容的组织。我们努力提供一个无障碍且符合《安大略省残疾人无障碍法案》(AODA)和《安大略省人权法》的招聘流程。我们理解您可能在招聘过程的任何阶段需要住宿。当您被联系时,请告知人才招聘专家,我们将与您合作以满足您的住宿需求。我们要强调的是,所有住宿请求都以最严格的保密方式处理,尊重您的隐私和尊严。