我们正在寻找一位高级分布式机器学习（ML）研究开发人员，加入我们的团队，致力于一个新颖的AI安全议程。在这个角色中，您将与ML研究科学家密切合作，使用非常大的模型解决困难的训练和推理问题。主要职责 - 与研究人员合作，加速研究、模型训练和推理，并促进在分布式计算环境中使用大规模模型。 - 调查性能瓶颈，分析研究实验代码，调试报告的问题，并优化计算资源的利用。 - 开发工具和库，以简化和协调分布式计算资源在研究实验中的使用。 - 建立、记录并维护大规模分布式ML模型开发工作流程的最佳实践。技能和资格 - 需要相关计算机科学领域的学位（例如，计算机科学、计算机工程、软件工程）。如果候选人表现出卓越的能力和经验，则与机器学习或分布式ML系统相关的高级学位（硕士或博士）优先但不是必须。 - 3年以上设计和实现分布式ML训练框架的经验，最近使用过例如Megatron、DeepSpeed、HuggingFace Accelerate、FSDP、vLLM和/或verl。 - 能够有效地与跨职能团队合作，记录最佳实践，并随时了解ML和软件开发的最新进展。 - 具有云平台（例如，AWS、GCP、Azure）和工作负载管理器（例如，Ray、SLURM）的经验。 - 具有GPU分析工具（例如，PyTorch profiler、PyProf、NVIDIA Nsight）的经验。 - 熟悉容器化工具（例如，gRPC、Docker、Kubernetes）。 - 熟悉数据基础设施和平台（例如，向量数据库）。 - 在深度学习高质量研究项目中有贡献的记录。工程师的称谓仅用于参考目的，根据司法管辖区，可能是或可能不是申请者的正式称谓。我们提供的内容 - 有机会为一个具有重大影响的独特使命做出贡献。 - 综合健康福利（包括心理健康和健康管理账户） - 入职后每年20天的假期 - 雇主为您的退休储蓄贡献4%，无需员工匹配 - 额外的补偿总计为您工资的8%，用于额外的退休储蓄或奖金（与团队和个人表现无关） - 一支由领域内世界级专家组成的充满激情的团队 - 在我们位于小意大利心脏地带、时尚的Mile-Ex区的充满活力的办公室中，提供一个协作和包容的工作环境，靠近公共交通。

高级分布式机器学习工程师

LawZero