高级GPU Kubernetes工程师

圣弗朗西斯科 8天前全职 网络
2.3K - 3.5K / 年
在AMD,你所做的一切都在改变世界 在AMD,我们的使命是打造出色的产品,加速下一代计算体验——从人工智能和数据中心,到个人电脑、游戏和嵌入式系统。基于创新和协作的文化,我们相信真正的进步来自大胆的想法、人类的创造力和共同创造非凡事物的热情。当你加入AMD时,你会发现真正的差异化因素是我们的文化。我们推动创新的极限,以解决世界上最重要的挑战——追求卓越的执行力,同时直率、谦逊、协作,并包容多元化的观点。加入我们,共同塑造人工智能及更广泛领域的未来。一起,我们推动你的职业发展。 职位 AMD的软件和解决方案团队正在寻找一位高级GPU Kubernetes工程师,负责领导GPU操作员开发、先进的调度策略以及AMD企业AI套件的部署自动化。此职位需要强大的Kubernetes工程专业知识、对GPU资源管理的深入理解,以及在云和本地环境中优化AI工作负载的实际经验。 高级GPU Kubernetes工程师将帮助定义下一代GPU编排,改善工作负载的可预测性和利用率,并为分布式推理、微调和基于LLM的服务设计可扩展的自动化。工作范围包括操作员开发、集群优化、自动缩放逻辑、基于Helm的部署模式,以及与AMD的GPU软件栈的集成。 个人 一位高度积极和充满热情的专业人士,具备Kubernetes、GPU加速和云原生部署系统的深厚专业知识,并在解决问题、协作和技术执行方面有着良好的记录。 主要职责 - 领导GPU操作员开发;实施拓扑感知调度策略;优化NUMA放置、PCIe局部性和内存带宽;确保与AMD的ROCm驱动程序和运行时的稳健集成。 - 为GPU密集型推理和微调工作负载设计自动缩放逻辑,构建监控和遥测工具,加强工作负载可靠性,并开发可扩展的Helm图表和自动化工作流程。 - 与ROCm、平台、性能和模型团队密切合作,确保端到端的集成质量;跨GPU运行时、Kubernetes层和AI框架进行故障排除;影响AMD的Kubernetes路线图;并支持客户、合作伙伴和生态系统环境中的部署模型。 优先经验 - 具有Kubernetes GPU工作负载、操作员/CRD开发、调度插件和资源管理器的丰富实践经验。熟练使用Helm、Kustomize、Prometheus、Grafana、FluentD/FluentBit和ArgoCD是有价值的。 - 对NUMA、GPU拓扑、亲和/反亲和规则和多GPU推理策略的深入理解是必不可少的。 - 熟悉分布式推理框架,如vLLM、Triton、KServe或Ray,以及部署LLM工作负载的经验,是非常理想的。 - 了解ROCm、AMD MI300/MI325平台、OpenShift、KubeVirt或企业Kubernetes系统具有很强的优势。 学术背景 - 计算机科学或相关领域的学士、硕士或博士学位 此职位不符合签证赞助资格。 提供的福利描述:AMD福利一览。 AMD不接受猎头、招聘机构或基于费用的招聘服务的主动简历。AMD及其子公司是机会均等的包容性雇主,将考虑所有申请人,不论年龄、祖籍、肤色、婚姻状况、医疗状况、精神或身体残疾、国籍、种族、宗教、政治和/或第三方关系、性别、怀孕、性取向、性别认同、军人或退伍军人身份,或任何其他受法律保护的特征。我们鼓励所有合格候选人申请,并将在招聘和选拔过程的各个阶段根据相关法律满足申请人的需求。 AMD可能会使用人工智能来帮助筛选、评估或选择此职位的申请人。AMD的“负责任的AI政策”可在此处查看。 此职位发布是为了填补现有空缺。