职位: 工程总监 - 人工智能云基础设施
地点: 完全远程! 必须位于美国
薪资: $200,000 - $300,000 + 奖金和限制性股票单位(RSU)套餐
要求: 10年以上工程经验 + 至少5年人工智能、机器学习、高性能计算和/或云计算环境的经验。 还必须至少有5年的领导经验。
如果您是一位在人工智能云领域有经验的工程领导者,请继续阅读!
我们是一个快速发展的团队,正在构建下一代人工智能基础设施,从零开始设计,以实现规模、速度和性能。 我们的平台支持世界上一些最先进的人工智能工作负载,结合高密度GPU集群、尖端网络和智能编排工具。 我们运营优化用于人工智能和高性能计算的三级数据中心,并提供灵活的混合云解决方案,让团队快速行动并构建大型项目。
如果您是一位在人工智能领域经验丰富的工程领导者,热衷于解决困难问题,使用世界一流的硬件和软件,并塑造人工智能基础设施的未来,我们非常希望与您会面。 我们的位置非常有利于长期增长,并奖励我们的团队。
您将做什么:
作为工程总监,您将领导并发展一支工程经理和技术负责人的团队,培养创新和卓越的文化。 您将监督基于GPU的人工智能基础设施的设计、部署和扩展,同时确保性能、可靠性和安全性。 您的职责包括开发资源配置和监控工具,实施CI/CD和基础设施即代码等最佳实践,以及管理变更和事件响应流程。 您将与跨职能团队密切合作,以确保基础设施与业务目标保持一致,并为战略规划、预算编制和向首席技术官(CTO)报告做出贡献。
必须具备:
• 计算机科学或相关领域的学士/硕士学位。
• 10年以上工程经验,5年以上领导角色经验。
• 在云规模人工智能/机器学习基础设施方面有证明的经验(例如,Kubernetes,Slurm)。
• 熟悉基础设施工具(OpenStack,MaaS,Netbox,KVM,Redfish)。
• 对分布式系统、云原生技术和自动化有深刻了解。
• 精通DevOps、可观察性和软件交付管道。
加分项!
• 具有NVIDIA集群、RDMA、RoCE/Infiniband的经验。
• 了解软件定义网络(SDN)(EVPN/VXLAN,BGP,CLOS网络)。
• 熟悉大规模的LLM训练/推理。
• 有人工智能平台或云服务的背景。
提供:
• 基本工资$200,000 - $300,000 + 奖金和慷慨的RSU套餐
• 5周带薪休假
• 401k配套
• 综合医疗和补充福利套餐
• 完全远程!