总结:
加入我们创新的团队,致力于提升PyTorch模型的性能、稳定性和整体效率。我们正在寻找一位才华横溢的博士研究实习生,为PyTorch的尖端专家混合系统(MoE)做出贡献。您的工作将专注于显著提升现代加速器(如NVIDIA Hopper及其他)的端到端训练和推理速度。此次实习提供了一个独特的机会,让您探索先进的执行优化技术,以促进大规模稀疏模型的高性能,同时保持PyTorch所提供的灵活性。
团队范围:
• 提升PyTorch在GPU、CPU及其他加速器上的性能。
• 优化模型在训练和推理过程中的性能。
• 实施模型优化技术,包括量化以提高效率。
• 加强PyTorch框架的稳定性和可扩展性。
我们的实习期为十二(12)至二十四(24)周,全年有多个开始日期可供选择。
职责:
• 设计和评估创新的执行策略,考虑MoE的通信、内核和量化方面。
• 开发和优化专门针对MoE工作负载的GPU内核和运行时组件,包括内存高效的前向和后向传递。
• 研究各种量化技术(例如MXFP8,FP8)以最大化准确性和效率。
• 创建性能模型和基准,以分析与不同稀疏级别相关的计算、内存、通信和开销。
• 在单节点和多节点GPU系统上进行实验。
• 与开源社区互动,征求反馈并迭代项目开发。
• 为PyTorch的核心组件做出改进。
• 不断努力提高PyTorch的整体性能。
最低资格:
• 在ML系统研究方面有扎实的基础,特别是在MoE模型的效率方面,包括路由和通信开销。
• 熟练使用CUDA和/或cuteDSL编写GPU内核。
• 熟悉量化技术及其对性能和准确性的影响。
• 在雇佣国拥有有效的工作授权,并在整个雇佣期间保持有效。
优先资格:
• 具有ML编译器栈的经验,尤其是PT2。
• 了解分布式训练和推理,如数据并行和集体通信。
• 能够独立设计实验,分析复杂的性能权衡,并通过写作和演示有效地传达发现。
• 实习结束后有意愿回归学术研究。
• 显著成就如资助、专利或在知名会议(NeurIPS,ICML等)上的第一作者发表。
• 能够在跨职能团队环境中有效工作。
薪酬:
月薪范围为$7,650至$12,134,另加福利。
平等机会:
Meta自豪地拥护平等就业机会和积极行动原则。我们不基于各种法律保护的特征进行歧视。我们还根据适用法律支持有犯罪记录的合格候选人。Meta致力于为残疾候选人提供合理的便利。如果您在招聘过程中需要任何帮助或调整,请告知我们。