该职位提供了丰富的学习和成长机会,从技术和领导角度来看都非常重要。候选人将接触到机器学习运维和维护的不同领域,并管理各种建模方法。
MLOps工程师需要具备多个不同领域的技能,如DevOps、数据工程和机器学习运维。候选人最好具备计算机科学、工程学、计算统计学、数学等领域的学位。
地点:加拿大多伦多(如果需要,该职位每周需要到办公室工作一到两天)
该职位要求候选人在以下领域具有工作经验:
- 使用PySpark将机器学习服务和应用程序部署到至少一个主要的云平台(AWS、Azure、GCP)上,部署到Databricks或Microsoft Azure ML或GCP Vertex AI。
- 使用Docker或Google Kubernetes Engine设计、构建和优化应用程序容器化和编排。
- 为数据科学应用程序(如ML训练、ML服务和模型监控管道)设计、构建和部署微服务。
- 掌握Scikit-Learn、TensorFlow、PyTorch、Keras等机器学习框架。
- 熟练掌握MLFlow、Kubeflow、ML Tracking和Experiments等MLOps框架。
- 熟练掌握持续集成和持续交付,使用部署模型或部署代码将模型部署到生产环境。
- 根据数据科学和分析团队开发的定量和定性模型验证流程进行设置。
- 根据公司政策设置符合要求的模型运维流程管道,如RBAC。
- 在敏捷团队中工作,设计和构建云托管的ML产品,具有自动化的管道来运行、监控和重新训练ML模型。
- 在设置ML模型使用情况报告、模型性能监控方面有经验。
你将带来的:
- 作为DevOps、数据工程师和MLOps工程师,在Unix/Linux环境中使用云服务的经验超过8年。
- 在企业中参与2-3个ML实施项目的经验。
- 与跨职能团队进行讨论和制定项目计划的经验。
- 熟练掌握PySpark语言。
- 有使用GitHub等源代码管理系统的经验。
- 启用数据验证,如格式和大小、列类型、空值和无效值,并为输入数据开发统计测量,如标准差、平均值、中位数等。
- 与数据科学家合作,启用数据和模型漂移警报框架。
- 在代码、数据和机器学习模型上设置版本控制。
- 提出改进模型性能的建议。
- 对模型设计、开发进行有效的挑战,并进行增量分析和测试。
- 与数据科学和数据建模团队合作进行回测评估。
- 在新模型开发和验证方面是模型治理团队的核心成员。
- 对方法选择进行验证,并作为专家参与实施过程中的模型审查。
- 对解决困难优化问题的精确、近似算法和启发式方法具有工作知识。
- 实施和维护模型验证流程,并对新模型和现有模型进行验证和持续监控活动。
- 根据对模型结果的判断撰写全面的验证报告进行评估。