在AMD，你所做的一切都在改变世界在AMD，我们的使命是打造出色的产品，加速下一代计算体验——从人工智能和数据中心，到个人电脑、游戏和嵌入式系统。基于创新和协作的文化，我们相信真正的进步来自大胆的想法、人类的创造力和共同创造非凡事物的热情。当你加入AMD时，你会发现真正的差异化因素是我们的文化。我们推动创新的极限，以解决世界上最重要的挑战——追求卓越的执行力，同时直率、谦逊、协作，并包容多元化的观点。加入我们，共同塑造人工智能及更广泛领域的未来。一起，我们推动你的职业发展。职位 AMD的软件和解决方案团队正在寻找一位高级GPU Kubernetes工程师，负责领导GPU操作员开发、先进的调度策略以及AMD企业AI套件的部署自动化。此职位需要强大的Kubernetes工程专业知识、对GPU资源管理的深入理解，以及在云和本地环境中优化AI工作负载的实际经验。高级GPU Kubernetes工程师将帮助定义下一代GPU编排，改善工作负载的可预测性和利用率，并为分布式推理、微调和基于LLM的服务设计可扩展的自动化。工作范围包括操作员开发、集群优化、自动缩放逻辑、基于Helm的部署模式，以及与AMD的GPU软件栈的集成。个人一位高度积极和充满热情的专业人士，具备Kubernetes、GPU加速和云原生部署系统的深厚专业知识，并在解决问题、协作和技术执行方面有着良好的记录。主要职责 - 领导GPU操作员开发；实施拓扑感知调度策略；优化NUMA放置、PCIe局部性和内存带宽；确保与AMD的ROCm驱动程序和运行时的稳健集成。 - 为GPU密集型推理和微调工作负载设计自动缩放逻辑，构建监控和遥测工具，加强工作负载可靠性，并开发可扩展的Helm图表和自动化工作流程。 - 与ROCm、平台、性能和模型团队密切合作，确保端到端的集成质量；跨GPU运行时、Kubernetes层和AI框架进行故障排除；影响AMD的Kubernetes路线图；并支持客户、合作伙伴和生态系统环境中的部署模型。优先经验 - 具有Kubernetes GPU工作负载、操作员/CRD开发、调度插件和资源管理器的丰富实践经验。熟练使用Helm、Kustomize、Prometheus、Grafana、FluentD/FluentBit和ArgoCD是有价值的。 - 对NUMA、GPU拓扑、亲和/反亲和规则和多GPU推理策略的深入理解是必不可少的。 - 熟悉分布式推理框架，如vLLM、Triton、KServe或Ray，以及部署LLM工作负载的经验，是非常理想的。 - 了解ROCm、AMD MI300/MI325平台、OpenShift、KubeVirt或企业Kubernetes系统具有很强的优势。学术背景 - 计算机科学或相关领域的学士、硕士或博士学位此职位不符合签证赞助资格。提供的福利描述：AMD福利一览。 AMD不接受猎头、招聘机构或基于费用的招聘服务的主动简历。AMD及其子公司是机会均等的包容性雇主，将考虑所有申请人，不论年龄、祖籍、肤色、婚姻状况、医疗状况、精神或身体残疾、国籍、种族、宗教、政治和/或第三方关系、性别、怀孕、性取向、性别认同、军人或退伍军人身份，或任何其他受法律保护的特征。我们鼓励所有合格候选人申请，并将在招聘和选拔过程的各个阶段根据相关法律满足申请人的需求。 AMD可能会使用人工智能来帮助筛选、评估或选择此职位的申请人。AMD的“负责任的AI政策”可在此处查看。此职位发布是为了填补现有空缺。