NVIDIA Dynamo 是一个高吞吐量、低延迟的推理框架,用于在多节点分布式环境中提供生成式 AI 和推理模型服务。Dynamo 采用 Rust 构建以提升性能,并使用 Python 提供可扩展性,能够协调 GPU 分片、路由请求,并管理异构集群中的共享 KV 缓存,使得多个加速器在数据中心规模上如同一个单一系统。当大型语言模型迅速超出单个 GPU 的内存和计算预算时,该平台能够高效、可靠地部署尖端的 LLM 工作负载。
我们正在寻找一位首席系统工程师,负责定义大规模 LLM 和存储系统的内存管理愿景和路线图。
您的工作内容包括:
- 设计并发展一个统一的内存层,覆盖 GPU 内存、固定主机内存、RDMA 可访问内存、SSD 层级以及远程文件/对象/云存储,以支持大规模 LLM 推理。
- 构建并实现与领先的 LLM 服务引擎(如 vLLM、SGLang、TensorRT-LLM)的深度集成,重点在于 KV 缓存卸载、重用以及在异构和分离集群中的远程共享。
- 共同设计接口和协议,以实现分离的预填充、点对点 KV 缓存共享,以及多层级 KV 缓存存储(GPU、CPU、本地磁盘和远程内存),以实现高吞吐量、低延迟的推理。
- 与 GPU 架构、网络和平台团队密切合作,利用 GPUDirect、RDMA、NVLink 等技术,在异构加速器和内存池中实现低延迟的 KV 缓存访问和共享。
- 指导高级和初级工程师,为内存和存储子系统设定技术方向,并在内部评审和外部论坛(开源、会议和面向客户的技术深度探讨)中代表团队。
我们需要您具备:
- 硕士或博士学位或同等经验
- 15 年以上使用 C/C++ 和 Python 构建大规模分布式系统、高性能存储或 ML 系统基础设施的经验,并有交付生产服务的成功记录。
- 深刻理解内存层次结构(GPU HBM、主机 DRAM、SSD 和远程/对象存储),并有设计跨多个层级的系统以提升性能和成本效率的经验。
- 分布式缓存或键值系统的经验,尤其是针对低延迟和高并发优化的设计。
- 拥有网络 I/O 和 RDMA/NVMe-oF/NVLink 风格技术的实际操作经验,并熟悉 AI 集群的分离和聚合部署概念。
- 在 CPU、GPU、内存和网络上进行系统分析和优化的强大技能,利用指标推动架构决策并验证 TTFT 和吞吐量的改进。
- 出色的沟通能力和领导跨职能团队(研究、产品和客户团队)合作的经验。
脱颖而出的方式:
- 曾为开源 LLM 服务或系统项目做出贡献,专注于 KV 缓存优化、压缩、流式传输或重用。
- 设计统一的内存或存储层的经验,能够在企业或超大规模环境中跨 GPU、主机、SSD 和云层级暴露单一逻辑 KV 或对象模型。
- 在 LLM 系统、内存分离架构、基于 RDMA/NVLink 的数据平面或用于 ML 的 KV 缓存/CDN 类系统等领域的出版物或专利。
NVIDIA 提供极具竞争力的薪资和全面的福利待遇,被广泛认为是科技界最理想的雇主之一。我们拥有世界上最具前瞻性和勤奋的人才,由于出色的增长,我们的特殊工程团队正在快速扩展。如果您是一位对技术充满热情的创造性和自主性工程师,我们期待您的加入!
您的基本工资将根据您的所在地、经验以及类似职位员工的薪酬确定。基本工资范围为 272,000 美元 - 431,250 美元。
您还将有资格获得股权和福利。
此职位的申请将至少接受到 2026 年 1 月 13 日。
此招聘信息是针对现有空缺职位。
NVIDIA 在招聘过程中使用 AI 工具。
NVIDIA 致力于营造多元化的工作环境,并自豪地成为一个平等机会的雇主。由于我们高度重视当前和未来员工的多样性,我们在招聘和晋升过程中不因种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾状况或法律保护的任何其他特征而歧视。