高级机器学习系统工程师,框架

纽约 2天前全职 网络
面议
我们是谁? 我们的使命是扩展智能以服务人类。我们正在为开发者和企业培训和部署前沿模型,这些模型用于构建 AI 系统,以实现内容生成、语义搜索、RAG 和代理等神奇体验。我们相信,我们的工作对 AI 的广泛应用至关重要。 我们对所构建的产品充满热情。我们每个人都负责为提高模型的能力和为客户带来的价值做出贡献。我们喜欢努力工作,快速行动,以为客户提供最佳服务。 Cohere 是由研究人员、工程师、设计师等组成的团队,他们对自己的技艺充满热情。每个人都是他们所做领域的世界顶尖人才。我们相信,多样化的观点是构建优秀产品的必要条件。 加入我们的使命,共同塑造未来 我们正在寻找一位高级工程师,帮助构建、维护和发展支持我们前沿规模语言模型的训练框架。这个角色位于大规模训练、分布式系统和 HPC 基础设施的交汇点。您将设计和维护核心组件,以实现快速、可靠和可扩展的模型训练,并构建将研究理念连接到数千个 GPU 的工具。 如果您喜欢在 ML 系统的全栈中工作,这个角色将为您提供机会和自主权,以产生巨大的影响。 您将参与的工作 - 构建和拥有负责大规模 LLM 训练的训练框架。 - 设计分布式训练抽象(数据/张量/流水线并行,FSDP/ZeRO 策略,内存管理,检查点)。 - 提高多节点集群上的训练吞吐量和稳定性(例如,GB200/300,AMD,H200/100)。 - 开发和维护用于监控、日志记录、调试和开发人员人机工程学的工具。 - 与基础设施团队密切合作,确保 Slurm 设置、容器环境和硬件配置支持高性能训练。 - 调查并解决 ML 系统栈中的性能瓶颈。 - 构建健壮的系统,确保可重复、可调试的大规模运行。 如果您具备以下条件,可能会很适合这个职位 - 在大规模分布式训练或 HPC 系统方面有丰富的工程经验。对 JAX 内部、分布式训练库或自定义内核/融合操作有深入了解。 - 具有多节点集群编排经验(Slurm、Ray、Kubernetes 或类似工具)。 - 能够调试 CUDA/NCCL、网络、IO 和数据管道中的性能问题。 - 具有容器化环境(Docker、Singularity/Apptainer)工作经验。 - 有构建工具以提高 ML 团队开发者速度的成功记录。 - 对权衡有出色的判断力:性能与复杂性,研究速度与可维护性。 - 强大的协作技能——您将与基础设施、研究和部署团队密切合作。 加分项 - 有训练 LLM 或其他大型 Transformer 架构的经验。 - 对 ML 框架(PyTorch、JAX、DeepSpeed、Megatron、xFormers 等)的贡献。 - 熟悉评估和服务框架(vLLM、TensorRT-LLM、自定义 KV 缓存)。 - 具有数据管道优化、分片数据集或缓存策略的经验。 - 在性能工程、分析或低级系统方面的背景。 额外加分 - 在顶级会议(如 NeurIPS、ICML、ICLR、AIStats、MLSys、JMLR、AAAI、Nature、COLING、ACL、EMNLP)发表论文。 为什么加入我们 - 您将参与解决当今最具挑战性和重要性的 ML 系统问题。 - 您将与一个世界级团队合作,快速且大规模地工作。 - 您将对训练栈的关键组件拥有端到端的所有权。 - 您将塑造前沿规模模型的下一代基础设施。 - 您将构建直接加速研究和模型质量的工具和系统。 示例项目 - 构建高性能数据加载和缓存管道。 - 在 ML 系统栈中实施性能分析。 - 开发训练运行的内部指标和监控。 - 构建可重复性和回归测试基础设施。 - 开发高性能容错分布式检查点系统。 如果上述内容与您的经验不完全一致,我们仍然鼓励您申请。 我们重视和庆祝多样性,并努力为所有人创造一个包容的工作环境。我们欢迎来自各个背景的申请者,并致力于提供平等的机会。如果您在招聘过程中需要任何便利,请提交便利请求表格,我们将共同努力满足您的需求。 Cohere 的全职员工享有以下福利 - 开放和包容的文化和工作环境 - 与处于 AI 研究前沿的团队紧密合作 - 每周午餐津贴、办公室午餐和零食 - 全面的健康和牙科福利,包括单独的心理健康预算 - 100% 的育儿假补贴,最长可达 6 个月 - 个人充实福利,涵盖艺术和文化、健身和健康、优质时间和工作空间改善 - 灵活的远程工作,设有多伦多、纽约、旧金山、伦敦和巴黎的办公室,以及联合办公津贴 - 6 周假期(30 个工作日)