关于这个职位:
你想要构建尖端系统来训练像 Claude 这样的 AI 模型。你对在机器学习的前沿工作感到兴奋,实施和改进先进技术,以创造出更强大、更可靠和可控的 AI。作为我们强化学习工程团队的 ML 系统工程师,你将负责我们的研究人员依赖的关键算法和基础设施,以训练模型。你的工作将直接促进 AI 能力和安全性的突破。你将专注于提高这些系统的性能、鲁棒性和可用性,以便我们的研究能够尽快进展。你被支持和赋能我们的研究团队以构建有益 AI 系统的使命所激励。
我们的微调研究人员使用 RLHF 和其他相关方法训练我们的生产 Claude 模型和内部研究模型。你的工作将是构建、维护和改进这些研究人员用来训练模型的算法和系统。你将负责提高这些系统的速度、可靠性和易用性。
如果你符合以下条件,可能是一个合适的人选:
拥有 4 年以上的软件工程经验
喜欢开发使他人更高效的系统和工具
以结果为导向,倾向于灵活性和影响力
愿意承担额外的工作,即使超出你的工作描述
享受配对编程(我们喜欢配对!)
想要更多了解机器学习研究
关心你工作的社会影响
强有力的候选人可能还具有以下经验:
高性能、大规模分布式系统
大规模 LLM 训练
Python
实施 LLM 微调算法,例如 RLHF
代表性项目:
分析我们的强化学习管道,以寻找改进机会
构建一个系统,定期在测试环境中启动训练作业,以便我们能够快速检测训练管道中的问题
对我们的微调系统进行更改,以使其适用于新的模型架构
构建工具以检测和消除我们训练代码中的 Python GIL 争用
诊断为什么训练运行在经过一定步骤后开始变慢,并修复它
实施研究人员提出的新训练算法的稳定、快速版本
申请截止日期:无。申请将会持续审核。
公司:Anthropic
资格:教育水平:
经验年限:高级(5 年以上经验)