我们是谁?
我们的使命是扩展智能以服务人类。我们正在为开发者和企业培训和部署前沿模型,这些模型用于构建 AI 系统,以实现内容生成、语义搜索、RAG 和代理等神奇体验。我们相信,我们的工作对 AI 的广泛应用至关重要。
我们对所构建的产品充满热情。我们每个人都负责为提高模型的能力和为客户带来的价值做出贡献。我们喜欢努力工作,快速行动,以为客户提供最佳服务。
Cohere 是由研究人员、工程师、设计师等组成的团队,他们对自己的技艺充满热情。每个人都是他们所做领域的世界顶尖人才。我们相信,多样化的观点是构建优秀产品的必要条件。
加入我们的使命,共同塑造未来
我们正在寻找一位高级工程师,帮助构建、维护和发展支持我们前沿规模语言模型的训练框架。这个角色位于大规模训练、分布式系统和 HPC 基础设施的交汇点。您将设计和维护核心组件,以实现快速、可靠和可扩展的模型训练,并构建将研究理念连接到数千个 GPU 的工具。
如果您喜欢在 ML 系统的全栈中工作,这个角色将为您提供机会和自主权,以产生巨大的影响。
您将参与的工作
- 构建和拥有负责大规模 LLM 训练的训练框架。
- 设计分布式训练抽象(数据/张量/流水线并行,FSDP/ZeRO 策略,内存管理,检查点)。
- 提高多节点集群上的训练吞吐量和稳定性(例如,GB200/300,AMD,H200/100)。
- 开发和维护用于监控、日志记录、调试和开发人员人机工程学的工具。
- 与基础设施团队密切合作,确保 Slurm 设置、容器环境和硬件配置支持高性能训练。
- 调查并解决 ML 系统栈中的性能瓶颈。
- 构建健壮的系统,确保可重复、可调试的大规模运行。
如果您具备以下条件,可能会很适合这个职位
- 在大规模分布式训练或 HPC 系统方面有丰富的工程经验。对 JAX 内部、分布式训练库或自定义内核/融合操作有深入了解。
- 具有多节点集群编排经验(Slurm、Ray、Kubernetes 或类似工具)。
- 能够调试 CUDA/NCCL、网络、IO 和数据管道中的性能问题。
- 具有容器化环境(Docker、Singularity/Apptainer)工作经验。
- 有构建工具以提高 ML 团队开发者速度的成功记录。
- 对权衡有出色的判断力:性能与复杂性,研究速度与可维护性。
- 强大的协作技能——您将与基础设施、研究和部署团队密切合作。
加分项
- 有训练 LLM 或其他大型 Transformer 架构的经验。
- 对 ML 框架(PyTorch、JAX、DeepSpeed、Megatron、xFormers 等)的贡献。
- 熟悉评估和服务框架(vLLM、TensorRT-LLM、自定义 KV 缓存)。
- 具有数据管道优化、分片数据集或缓存策略的经验。
- 在性能工程、分析或低级系统方面的背景。
额外加分
- 在顶级会议(如 NeurIPS、ICML、ICLR、AIStats、MLSys、JMLR、AAAI、Nature、COLING、ACL、EMNLP)发表论文。
为什么加入我们
- 您将参与解决当今最具挑战性和重要性的 ML 系统问题。
- 您将与一个世界级团队合作,快速且大规模地工作。
- 您将对训练栈的关键组件拥有端到端的所有权。
- 您将塑造前沿规模模型的下一代基础设施。
- 您将构建直接加速研究和模型质量的工具和系统。
示例项目
- 构建高性能数据加载和缓存管道。
- 在 ML 系统栈中实施性能分析。
- 开发训练运行的内部指标和监控。
- 构建可重复性和回归测试基础设施。
- 开发高性能容错分布式检查点系统。
如果上述内容与您的经验不完全一致,我们仍然鼓励您申请。
我们重视和庆祝多样性,并努力为所有人创造一个包容的工作环境。我们欢迎来自各个背景的申请者,并致力于提供平等的机会。如果您在招聘过程中需要任何便利,请提交便利请求表格,我们将共同努力满足您的需求。
Cohere 的全职员工享有以下福利
- 开放和包容的文化和工作环境
- 与处于 AI 研究前沿的团队紧密合作
- 每周午餐津贴、办公室午餐和零食
- 全面的健康和牙科福利,包括单独的心理健康预算
- 100% 的育儿假补贴,最长可达 6 个月
- 个人充实福利,涵盖艺术和文化、健身和健康、优质时间和工作空间改善
- 灵活的远程工作,设有多伦多、纽约、旧金山、伦敦和巴黎的办公室,以及联合办公津贴
- 6 周假期(30 个工作日)