我们正在重新定义AI基础设施的构建和运营方式。我们的使命是挑战传统，提供由最先进的基础设施（包括NVIDIA GB200、MGX和DGX Grace Hopper平台）和云原生软件驱动的变革性产品。我们的解决方案支持集中式AI数据中心和分布式AI无线接入网络（AI-RAN）环境。我们正在寻找在创新中茁壮成长并希望从头开始构建可扩展、生产级AI基础设施的经验丰富的工程师。职位概述：作为数据中心DevOps工程师，您将成为基础设施团队的核心成员，负责支持AI工作负载（训练、微调和推理）的基于GPU系统的可靠性、自动化和卓越运营。您将负责部署管道、操作手册和自动化框架，重点关注Kubernetes和GPU系统。在这个角色中，您将与员工工程师、产品管理、项目管理和数据中心运营密切合作，从概念到商业化推动执行，同时最大化正常运行时间和资源效率。主要职责： - 负责预部署操作，包括机架准备、硬件健康验证、监控、故障排除和排查。 - 负责后部署操作，通过监控、事件响应和持续自动化改进确保系统的持续健康。 - 识别操作差距并设计自动化以提高可靠性、可扩展性和效率。 - 作为数据中心运营和软件工程团队之间的桥梁，以协调基础设施和软件需求。 - 从操作和可靠性角度为产品需求（PRDs）和冲刺计划做出贡献。 - 开发和维护大规模AI基础设施的部署管道和操作手册。 - 帮助吸引、指导和培养工程人才。 - 以身作则，培养谦逊、责任感和创新的文化。最低资格： - 计算机科学、电气工程或相关领域的学士学位。 - 5年以上数据中心运营、站点可靠性工程（SRE）或DevOps经验。 - 具有Linux系统管理、网络和硬件故障排除的丰富经验。 - 使用Ansible、Terraform和Python等工具进行基础设施自动化的实践经验。优先资格： - 硕士学位或相关的云/DevOps认证。 - 在裸金属环境中具有Kubernetes和容器编排的深厚实践经验。 - 具有GPU平台（NVIDIA DGX/HGX）、高性能计算（HPC）集群和基于以太网的织物管理经验。 - 在构建可扩展的监控和警报系统（Prometheus、Grafana、ELK堆栈）方面的专业知识。 - 具有实施大规模基础设施部署的“Day 0、Day 1和Day 2”自动化的经验。

数据中心DevOps工程师（AI基础设施）

VeeAR Projects Inc.