职位：工程总监 - 人工智能云基础设施地点：完全远程！必须位于美国薪资： $200,000 - $300,000 + 奖金和限制性股票单位（RSU）套餐要求： 10年以上工程经验 + 至少5年人工智能、机器学习、高性能计算和/或云计算环境的经验。还必须至少有5年的领导经验。如果您是一位在人工智能云领域有经验的工程领导者，请继续阅读！我们是一个快速发展的团队，正在构建下一代人工智能基础设施，从零开始设计，以实现规模、速度和性能。我们的平台支持世界上一些最先进的人工智能工作负载，结合高密度GPU集群、尖端网络和智能编排工具。我们运营优化用于人工智能和高性能计算的三级数据中心，并提供灵活的混合云解决方案，让团队快速行动并构建大型项目。如果您是一位在人工智能领域经验丰富的工程领导者，热衷于解决困难问题，使用世界一流的硬件和软件，并塑造人工智能基础设施的未来，我们非常希望与您会面。我们的位置非常有利于长期增长，并奖励我们的团队。您将做什么：作为工程总监，您将领导并发展一支工程经理和技术负责人的团队，培养创新和卓越的文化。您将监督基于GPU的人工智能基础设施的设计、部署和扩展，同时确保性能、可靠性和安全性。您的职责包括开发资源配置和监控工具，实施CI/CD和基础设施即代码等最佳实践，以及管理变更和事件响应流程。您将与跨职能团队密切合作，以确保基础设施与业务目标保持一致，并为战略规划、预算编制和向首席技术官（CTO）报告做出贡献。必须具备： • 计算机科学或相关领域的学士/硕士学位。 • 10年以上工程经验，5年以上领导角色经验。 • 在云规模人工智能/机器学习基础设施方面有证明的经验（例如，Kubernetes，Slurm）。 • 熟悉基础设施工具（OpenStack，MaaS，Netbox，KVM，Redfish）。 • 对分布式系统、云原生技术和自动化有深刻了解。 • 精通DevOps、可观察性和软件交付管道。加分项！ • 具有NVIDIA集群、RDMA、RoCE/Infiniband的经验。 • 了解软件定义网络（SDN）（EVPN/VXLAN，BGP，CLOS网络）。 • 熟悉大规模的LLM训练/推理。 • 有人工智能平台或云服务的背景。提供： • 基本工资$200,000 - $300,000 + 奖金和慷慨的RSU套餐 • 5周带薪休假 • 401k配套 • 综合医疗和补充福利套餐 • 完全远程！

工程总监 - 人工智能云基础设施

CyberCoders