我们正在重新定义AI基础设施的构建和运营方式。我们的使命是挑战传统,提供由最先进的基础设施(包括NVIDIA GB200、MGX和DGX Grace Hopper平台)和云原生软件驱动的变革性产品。我们的解决方案支持集中式AI数据中心和分布式AI无线接入网络(AI-RAN)环境。
我们正在寻找在创新中茁壮成长并希望从头开始构建可扩展、生产级AI基础设施的经验丰富的工程师。
职位概述:
作为数据中心DevOps工程师,您将成为基础设施团队的核心成员,负责支持AI工作负载(训练、微调和推理)的基于GPU系统的可靠性、自动化和卓越运营。您将负责部署管道、操作手册和自动化框架,重点关注Kubernetes和GPU系统。
在这个角色中,您将与员工工程师、产品管理、项目管理和数据中心运营密切合作,从概念到商业化推动执行,同时最大化正常运行时间和资源效率。
主要职责:
- 负责预部署操作,包括机架准备、硬件健康验证、监控、故障排除和排查。
- 负责后部署操作,通过监控、事件响应和持续自动化改进确保系统的持续健康。
- 识别操作差距并设计自动化以提高可靠性、可扩展性和效率。
- 作为数据中心运营和软件工程团队之间的桥梁,以协调基础设施和软件需求。
- 从操作和可靠性角度为产品需求(PRDs)和冲刺计划做出贡献。
- 开发和维护大规模AI基础设施的部署管道和操作手册。
- 帮助吸引、指导和培养工程人才。
- 以身作则,培养谦逊、责任感和创新的文化。
最低资格:
- 计算机科学、电气工程或相关领域的学士学位。
- 5年以上数据中心运营、站点可靠性工程(SRE)或DevOps经验。
- 具有Linux系统管理、网络和硬件故障排除的丰富经验。
- 使用Ansible、Terraform和Python等工具进行基础设施自动化的实践经验。
优先资格:
- 硕士学位或相关的云/DevOps认证。
- 在裸金属环境中具有Kubernetes和容器编排的深厚实践经验。
- 具有GPU平台(NVIDIA DGX/HGX)、高性能计算(HPC)集群和基于以太网的织物管理经验。
- 在构建可扩展的监控和警报系统(Prometheus、Grafana、ELK堆栈)方面的专业知识。
- 具有实施大规模基础设施部署的“Day 0、Day 1和Day 2”自动化的经验。