主要职责:
• 设计、实施和管理支持人工智能/机器学习工作流程的基于云的基础设施。
• 与数据科学家和机器学习工程师合作,将可扩展的机器学习模型部署到生产环境中。
• 确保云中人工智能/机器学习系统的安全性、可扩展性和可靠性。
• 优化云资源的成本效益和高效利用。
• 了解最新的云服务、人工智能/机器学习工具和行业最佳实践。
• 在云和人工智能/机器学习架构中提供技术领导和指导。
• 为人工智能/机器学习模型训练和部署开发和维护CI/CD流水线。
• 监控和排除人工智能/机器学习应用和云环境问题。
• 记录系统设计和操作程序。
• 与人工智能/机器学习和高性能计算团队合作,了解他们的计算和存储需求。
资格要求:
• 计算机科学、工程或相关领域的学士或硕士学位。
• 在云计算(AWS、Azure、GCP)和云架构方面具有丰富经验。
• 在人工智能/机器学习技术方面具有扎实的背景,具有部署机器学习模型的经验。
• 精通脚本语言(Python、Bash)和容器化技术(Docker、Kubernetes)。
• 精通虚拟计算环境(EC2)。
• 具有高性能计算(HPC)和服务器节点集群管理的实际经验。
• 熟悉Linux/Unix操作系统(RHEL/Ubuntu)。
• 具有作业调度器(如SLURM、PBS)、资源管理和系统监控工具(DynaTrace)的经验。
• 了解在HPC中使用的存储解决方案和文件系统(如Lustre、GPFS)。
• 具备基础设施即代码(IaC)工具(如Terraform或CloudFormation)的知识。
• 了解云环境中的网络、安全和数据库技术。
• 出色的问题解决、沟通和团队合作能力。
优先技能:
• 熟悉机器学习框架(TensorFlow、PyTorch)和数据流程。
• 云架构认证(AWS认证解决方案架构师、Google Cloud专业云架构师等)。
• 在敏捷开发环境中的经验。
• 以前在分布式计算和大数据技术(Hadoop、Spark)上的工作经验。
• 运营大规模平台的经验,包括人工智能/机器学习平台。