工程总监 - 人工智能云基础设施

芝加哥 16小时前全职 网络
141万 - 211.6万 / 年
职位: 工程总监 - 人工智能云基础设施 地点: 完全远程! 必须位于美国 薪资: $200,000 - $300,000 + 奖金和限制性股票单位(RSU)套餐 要求: 10年以上工程经验 + 至少5年人工智能、机器学习、高性能计算和/或云计算环境的经验。 还必须至少有5年的领导经验。 如果您是一位在人工智能云领域有经验的工程领导者,请继续阅读! 我们是一个快速发展的团队,正在构建下一代人工智能基础设施,从零开始设计,以实现规模、速度和性能。 我们的平台支持世界上一些最先进的人工智能工作负载,结合高密度GPU集群、尖端网络和智能编排工具。 我们运营优化用于人工智能和高性能计算的三级数据中心,并提供灵活的混合云解决方案,让团队快速行动并构建大型项目。 如果您是一位在人工智能领域经验丰富的工程领导者,热衷于解决困难问题,使用世界一流的硬件和软件,并塑造人工智能基础设施的未来,我们非常希望与您会面。 我们的位置非常有利于长期增长,并奖励我们的团队。 您将做什么: 作为工程总监,您将领导并发展一支工程经理和技术负责人的团队,培养创新和卓越的文化。 您将监督基于GPU的人工智能基础设施的设计、部署和扩展,同时确保性能、可靠性和安全性。 您的职责包括开发资源配置和监控工具,实施CI/CD和基础设施即代码等最佳实践,以及管理变更和事件响应流程。 您将与跨职能团队密切合作,以确保基础设施与业务目标保持一致,并为战略规划、预算编制和向首席技术官(CTO)报告做出贡献。 必须具备: • 计算机科学或相关领域的学士/硕士学位。 • 10年以上工程经验,5年以上领导角色经验。 • 在云规模人工智能/机器学习基础设施方面有证明的经验(例如,Kubernetes,Slurm)。 • 熟悉基础设施工具(OpenStack,MaaS,Netbox,KVM,Redfish)。 • 对分布式系统、云原生技术和自动化有深刻了解。 • 精通DevOps、可观察性和软件交付管道。 加分项! • 具有NVIDIA集群、RDMA、RoCE/Infiniband的经验。 • 了解软件定义网络(SDN)(EVPN/VXLAN,BGP,CLOS网络)。 • 熟悉大规模的LLM训练/推理。 • 有人工智能平台或云服务的背景。 提供: • 基本工资$200,000 - $300,000 + 奖金和慷慨的RSU套餐 • 5周带薪休假 • 401k配套 • 综合医疗和补充福利套餐 • 完全远程!