职位名称:
机器学习工程师/SRE
地点:
芝加哥,IL 或 100% 远程
持续时间:
12 个月
主要职责:
• Azure 基础设施管理:配置、维护和优化 Azure 基础设施,以支持 AI 模型的开发和部署,确保可扩展性和性能。
• 模型性能监控:实施和维护监控系统,以跟踪模型性能,主动识别和解决出现的问题。
• 事件响应:与 SRE 团队合作,及时响应与模型操作相关的故障和事件,确保最小的停机时间和快速的问题解决。
所需技能和资格:
• Azure 基础设施经验:熟练管理 Azure 基础设施组件,包括虚拟机、存储和网络,以支持 AI 模型的开发和部署。
• CI/CD 管道经验:具备持续集成/持续部署(CI/CD)管道的经验,包括模型部署流程的自动化。
• 云中的容器化:对云中的容器化技术(如 Docker 和 Kubernetes)有深入了解,以便高效地部署和扩展机器学习模型。
• 机器学习专业知识:精通构建和优化机器学习模型,深入理解各种算法和框架。
• 编程技能:熟练掌握机器学习中常用的编程语言,如 Python 及其库(如 TensorFlow 和 PyTorch)。
• 数据管理:具备数据预处理、特征工程和机器学习数据管道开发的经验。
• 合作团队成员:优秀的沟通能力,能够与跨职能团队(包括 AI 工程师和 SRE)协作。
• 文档编写:有效的文档编写技能,能够维护模型、基础设施配置和事件响应的清晰有序记录。
优先资格:
• 云基础的机器学习平台经验:熟悉云基础的机器学习平台,如 Azure 机器学习。
• CI/CD 工具经验:具备使用 CI/CD 工具在 Azure 云平台上部署客户端服务和应用程序的经验。
• 熟悉 DevOps 实践和工具:熟悉自动化基础设施和部署的 DevOps 实践和工具。
• 了解模型版本控制和管理工具:了解模型版本控制和管理工具。
• 了解 AI 模型部署中的安全最佳实践:了解 AI 模型部署中的安全最佳实践。
• 相关领域的认证:在相关领域(如 Azure 认证或机器学习认证)中具备认证。