数据中心DevOps工程师(AI基础设施)

圣弗朗西斯科 8天前全职 网络
面议
我们正在重新定义AI基础设施的构建和运营方式。我们的使命是挑战传统,提供由最先进的基础设施(包括NVIDIA GB200、MGX和DGX Grace Hopper平台)和云原生软件驱动的变革性产品。我们的解决方案支持集中式AI数据中心和分布式AI无线接入网络(AI-RAN)环境。 我们正在寻找在创新中茁壮成长并希望从头开始构建可扩展、生产级AI基础设施的经验丰富的工程师。 职位概述: 作为数据中心DevOps工程师,您将成为基础设施团队的核心成员,负责支持AI工作负载(训练、微调和推理)的基于GPU系统的可靠性、自动化和卓越运营。您将负责部署管道、操作手册和自动化框架,重点关注Kubernetes和GPU系统。 在这个角色中,您将与员工工程师、产品管理、项目管理和数据中心运营密切合作,从概念到商业化推动执行,同时最大化正常运行时间和资源效率。 主要职责: - 负责预部署操作,包括机架准备、硬件健康验证、监控、故障排除和排查。 - 负责后部署操作,通过监控、事件响应和持续自动化改进确保系统的持续健康。 - 识别操作差距并设计自动化以提高可靠性、可扩展性和效率。 - 作为数据中心运营和软件工程团队之间的桥梁,以协调基础设施和软件需求。 - 从操作和可靠性角度为产品需求(PRDs)和冲刺计划做出贡献。 - 开发和维护大规模AI基础设施的部署管道和操作手册。 - 帮助吸引、指导和培养工程人才。 - 以身作则,培养谦逊、责任感和创新的文化。 最低资格: - 计算机科学、电气工程或相关领域的学士学位。 - 5年以上数据中心运营、站点可靠性工程(SRE)或DevOps经验。 - 具有Linux系统管理、网络和硬件故障排除的丰富经验。 - 使用Ansible、Terraform和Python等工具进行基础设施自动化的实践经验。 优先资格: - 硕士学位或相关的云/DevOps认证。 - 在裸金属环境中具有Kubernetes和容器编排的深厚实践经验。 - 具有GPU平台(NVIDIA DGX/HGX)、高性能计算(HPC)集群和基于以太网的织物管理经验。 - 在构建可扩展的监控和警报系统(Prometheus、Grafana、ELK堆栈)方面的专业知识。 - 具有实施大规模基础设施部署的“Day 0、Day 1和Day 2”自动化的经验。