云工程师

15个月前合同
ASR Tech Group Inc.

ASR Tech Group Inc.

location 旧金山
unsaved
主要职责: • 设计、实施和管理支持人工智能/机器学习工作流程的基于云的基础设施。 • 与数据科学家和机器学习工程师合作,将可扩展的机器学习模型部署到生产环境中。 • 确保云中人工智能/机器学习系统的安全性、可扩展性和可靠性。 • 优化云资源的成本效益和高效利用。 • 了解最新的云服务、人工智能/机器学习工具和行业最佳实践。 • 在云和人工智能/机器学习架构中提供技术领导和指导。 • 为人工智能/机器学习模型训练和部署开发和维护CI/CD流水线。 • 监控和排除人工智能/机器学习应用和云环境问题。 • 记录系统设计和操作程序。 • 与人工智能/机器学习和高性能计算团队合作,了解他们的计算和存储需求。 资格要求: • 计算机科学、工程或相关领域的学士或硕士学位。 • 在云计算(AWS、Azure、GCP)和云架构方面具有丰富经验。 • 在人工智能/机器学习技术方面具有扎实的背景,具有部署机器学习模型的经验。 • 精通脚本语言(Python、Bash)和容器化技术(Docker、Kubernetes)。 • 精通虚拟计算环境(EC2)。 • 具有高性能计算(HPC)和服务器节点集群管理的实际经验。 • 熟悉Linux/Unix操作系统(RHEL/Ubuntu)。 • 具有作业调度器(如SLURM、PBS)、资源管理和系统监控工具(DynaTrace)的经验。 • 了解在HPC中使用的存储解决方案和文件系统(如Lustre、GPFS)。 • 具备基础设施即代码(IaC)工具(如Terraform或CloudFormation)的知识。 • 了解云环境中的网络、安全和数据库技术。 • 出色的问题解决、沟通和团队合作能力。 优先技能: • 熟悉机器学习框架(TensorFlow、PyTorch)和数据流程。 • 云架构认证(AWS认证解决方案架构师、Google Cloud专业云架构师等)。 • 在敏捷开发环境中的经验。 • 以前在分布式计算和大数据技术(Hadoop、Spark)上的工作经验。 • 运营大规模平台的经验,包括人工智能/机器学习平台。