关于团队
我们是一个专注于大规模模型训练系统和性能加速的AI平台工程团队。团队构建分布式训练基础设施和优化技术,以支持下一代生成式AI和计算机视觉模型。我们的工作支持大规模生产AI系统和尖端模型训练管道。
职位概述
我们正在寻找一位专注于大型模型训练加速和分布式优化的工程师。该职位的重点是提高分布式计算环境中大型生成式和多模态模型的训练效率、可扩展性和性能。
职责
• 优化大型模型训练管道以提高性能和可扩展性
• 设计和改进分布式训练系统
• 实施和调整数据、模型和管道并行策略
• 基准测试和分析训练工作负载以识别瓶颈
• 提高GPU利用率和训练吞吐量
• 与基础设施和研究团队合作开发大规模训练系统
• 构建性能工具和优化框架以加速训练
所需资格
• 计算机科学、AI、电气工程或相关领域的学士、硕士或博士学位
• 3-10年深度学习系统或大型模型训练经验
• 丰富的分布式训练优化经验
• 拥有并行训练方法的实践经验:
• 数据并行
• 模型并行
• 管道并行
• 精通Python和C++的软件工程技能
• 具有CUDA和GPU性能优化经验
• 熟悉深度学习框架,如PyTorch
• 具有大型模型工具链经验,如Megatron或DeepSpeed
• 熟悉Transformer和扩散模型
• 具有基准测试和分析工具经验
优先背景
• 具有生成式AI或计算机视觉训练系统经验
• 具有构建大规模训练基础设施的经验
• 具有高性能分布式计算环境经验
语言
需要普通话熟练
薪酬(估计范围)
基本工资范围:$136,800 – $359,720,具体取决于级别和经验
• 可能包括股权和其他福利