我们正在寻找一位高级分布式机器学习(ML)研究开发人员,加入我们的团队,致力于一个新颖的AI安全议程。在这个角色中,您将与ML研究科学家密切合作,使用非常大的模型解决困难的训练和推理问题。
主要职责
- 与研究人员合作,加速研究、模型训练和推理,并促进在分布式计算环境中使用大规模模型。
- 调查性能瓶颈,分析研究实验代码,调试报告的问题,并优化计算资源的利用。
- 开发工具和库,以简化和协调分布式计算资源在研究实验中的使用。
- 建立、记录并维护大规模分布式ML模型开发工作流程的最佳实践。
技能和资格
- 需要相关计算机科学领域的学位(例如,计算机科学、计算机工程、软件工程)。如果候选人表现出卓越的能力和经验,则与机器学习或分布式ML系统相关的高级学位(硕士或博士)优先但不是必须。
- 3年以上设计和实现分布式ML训练框架的经验,最近使用过例如Megatron、DeepSpeed、HuggingFace Accelerate、FSDP、vLLM和/或verl。
- 能够有效地与跨职能团队合作,记录最佳实践,并随时了解ML和软件开发的最新进展。
- 具有云平台(例如,AWS、GCP、Azure)和工作负载管理器(例如,Ray、SLURM)的经验。
- 具有GPU分析工具(例如,PyTorch profiler、PyProf、NVIDIA Nsight)的经验。
- 熟悉容器化工具(例如,gRPC、Docker、Kubernetes)。
- 熟悉数据基础设施和平台(例如,向量数据库)。
- 在深度学习高质量研究项目中有贡献的记录。
工程师的称谓仅用于参考目的,根据司法管辖区,可能是或可能不是申请者的正式称谓。
我们提供的内容
- 有机会为一个具有重大影响的独特使命做出贡献。
- 综合健康福利(包括心理健康和健康管理账户)
- 入职后每年20天的假期
- 雇主为您的退休储蓄贡献4%,无需员工匹配
- 额外的补偿总计为您工资的8%,用于额外的退休储蓄或奖金(与团队和个人表现无关)
- 一支由领域内世界级专家组成的充满激情的团队
- 在我们位于小意大利心脏地带、时尚的Mile-Ex区的充满活力的办公室中,提供一个协作和包容的工作环境,靠近公共交通。