这是一个关键的机会,负责领导云端部署和管理机器学习管道,为一家成熟的企业服务。
日常职责
• 设计和实施强大的 MLOps 管道,以实现机器学习模型在生产环境中的无缝部署、监控和扩展。
• 与团队合作,将模型投入运营,确保它们具有可扩展性、可靠性和高效性。
• 开发和维护机器学习工作流的 CI/CD 管道,集成自动化测试、模型验证和版本控制。
• 监控生产中模型的性能,识别和解决数据漂移、模型退化和延迟瓶颈等问题。
• 优化云基础设施以支持机器学习工作负载,确保成本效益和可扩展性。
• 记录流程和工作流,以确保团队内的知识共享和连续性。
您将有机会通过参加研讨会和活动,保持在 MLOps 最佳实践的前沿,并确保您与该领域的最新发展保持同步。
所需技术专长
• 在 AWS 或 Azure 等云平台上有丰富的经验,包括 SageMaker、MLflow/Kubeflow 等服务。
• 对 CI/CD 工具(Jenkins、GitLab CI、GitHub Actions)和版本控制系统(Git)有扎实的理解。
• 具备 IAC 经验 - Terraform 或 CloudFormation。
附加优先考虑:
• 熟悉数据工程工具/框架(Apache Spark/Airflow),用于预处理和管理大型数据集。
• 给予持续学习和发展的良好空间。
• 灵活的工作安排,以满足照顾/护理需求。