我们是谁？我们的使命是扩展智能以服务人类。我们正在为开发者和企业培训和部署前沿模型，这些模型用于构建 AI 系统，以实现内容生成、语义搜索、RAG 和代理等神奇体验。我们相信，我们的工作对 AI 的广泛应用至关重要。我们对所构建的产品充满热情。我们每个人都负责为提高模型的能力和为客户带来的价值做出贡献。我们喜欢努力工作，快速行动，以为客户提供最佳服务。 Cohere 是由研究人员、工程师、设计师等组成的团队，他们对自己的技艺充满热情。每个人都是他们所做领域的世界顶尖人才。我们相信，多样化的观点是构建优秀产品的必要条件。加入我们的使命，共同塑造未来我们正在寻找一位高级工程师，帮助构建、维护和发展支持我们前沿规模语言模型的训练框架。这个角色位于大规模训练、分布式系统和 HPC 基础设施的交汇点。您将设计和维护核心组件，以实现快速、可靠和可扩展的模型训练，并构建将研究理念连接到数千个 GPU 的工具。如果您喜欢在 ML 系统的全栈中工作，这个角色将为您提供机会和自主权，以产生巨大的影响。您将参与的工作 - 构建和拥有负责大规模 LLM 训练的训练框架。 - 设计分布式训练抽象（数据/张量/流水线并行，FSDP/ZeRO 策略，内存管理，检查点）。 - 提高多节点集群上的训练吞吐量和稳定性（例如，GB200/300，AMD，H200/100）。 - 开发和维护用于监控、日志记录、调试和开发人员人机工程学的工具。 - 与基础设施团队密切合作，确保 Slurm 设置、容器环境和硬件配置支持高性能训练。 - 调查并解决 ML 系统栈中的性能瓶颈。 - 构建健壮的系统，确保可重复、可调试的大规模运行。如果您具备以下条件，可能会很适合这个职位 - 在大规模分布式训练或 HPC 系统方面有丰富的工程经验。对 JAX 内部、分布式训练库或自定义内核/融合操作有深入了解。 - 具有多节点集群编排经验（Slurm、Ray、Kubernetes 或类似工具）。 - 能够调试 CUDA/NCCL、网络、IO 和数据管道中的性能问题。 - 具有容器化环境（Docker、Singularity/Apptainer）工作经验。 - 有构建工具以提高 ML 团队开发者速度的成功记录。 - 对权衡有出色的判断力：性能与复杂性，研究速度与可维护性。 - 强大的协作技能——您将与基础设施、研究和部署团队密切合作。加分项 - 有训练 LLM 或其他大型 Transformer 架构的经验。 - 对 ML 框架（PyTorch、JAX、DeepSpeed、Megatron、xFormers 等）的贡献。 - 熟悉评估和服务框架（vLLM、TensorRT-LLM、自定义 KV 缓存）。 - 具有数据管道优化、分片数据集或缓存策略的经验。 - 在性能工程、分析或低级系统方面的背景。额外加分 - 在顶级会议（如 NeurIPS、ICML、ICLR、AIStats、MLSys、JMLR、AAAI、Nature、COLING、ACL、EMNLP）发表论文。为什么加入我们 - 您将参与解决当今最具挑战性和重要性的 ML 系统问题。 - 您将与一个世界级团队合作，快速且大规模地工作。 - 您将对训练栈的关键组件拥有端到端的所有权。 - 您将塑造前沿规模模型的下一代基础设施。 - 您将构建直接加速研究和模型质量的工具和系统。示例项目 - 构建高性能数据加载和缓存管道。 - 在 ML 系统栈中实施性能分析。 - 开发训练运行的内部指标和监控。 - 构建可重复性和回归测试基础设施。 - 开发高性能容错分布式检查点系统。如果上述内容与您的经验不完全一致，我们仍然鼓励您申请。我们重视和庆祝多样性，并努力为所有人创造一个包容的工作环境。我们欢迎来自各个背景的申请者，并致力于提供平等的机会。如果您在招聘过程中需要任何便利，请提交便利请求表格，我们将共同努力满足您的需求。 Cohere 的全职员工享有以下福利 - 开放和包容的文化和工作环境 - 与处于 AI 研究前沿的团队紧密合作 - 每周午餐津贴、办公室午餐和零食 - 全面的健康和牙科福利，包括单独的心理健康预算 - 100% 的育儿假补贴，最长可达 6 个月 - 个人充实福利，涵盖艺术和文化、健身和健康、优质时间和工作空间改善 - 灵活的远程工作，设有多伦多、纽约、旧金山、伦敦和巴黎的办公室，以及联合办公津贴 - 6 周假期（30 个工作日）

高级机器学习系统工程师，框架

Cohere