总结：加入我们创新的团队，致力于提升PyTorch模型的性能、稳定性和整体效率。我们正在寻找一位才华横溢的博士研究实习生，为PyTorch的尖端专家混合系统（MoE）做出贡献。您的工作将专注于显著提升现代加速器（如NVIDIA Hopper及其他）的端到端训练和推理速度。此次实习提供了一个独特的机会，让您探索先进的执行优化技术，以促进大规模稀疏模型的高性能，同时保持PyTorch所提供的灵活性。团队范围： • 提升PyTorch在GPU、CPU及其他加速器上的性能。 • 优化模型在训练和推理过程中的性能。 • 实施模型优化技术，包括量化以提高效率。 • 加强PyTorch框架的稳定性和可扩展性。我们的实习期为十二（12）至二十四（24）周，全年有多个开始日期可供选择。职责： • 设计和评估创新的执行策略，考虑MoE的通信、内核和量化方面。 • 开发和优化专门针对MoE工作负载的GPU内核和运行时组件，包括内存高效的前向和后向传递。 • 研究各种量化技术（例如MXFP8，FP8）以最大化准确性和效率。 • 创建性能模型和基准，以分析与不同稀疏级别相关的计算、内存、通信和开销。 • 在单节点和多节点GPU系统上进行实验。 • 与开源社区互动，征求反馈并迭代项目开发。 • 为PyTorch的核心组件做出改进。 • 不断努力提高PyTorch的整体性能。最低资格： • 在ML系统研究方面有扎实的基础，特别是在MoE模型的效率方面，包括路由和通信开销。 • 熟练使用CUDA和/或cuteDSL编写GPU内核。 • 熟悉量化技术及其对性能和准确性的影响。 • 在雇佣国拥有有效的工作授权，并在整个雇佣期间保持有效。优先资格： • 具有ML编译器栈的经验，尤其是PT2。 • 了解分布式训练和推理，如数据并行和集体通信。 • 能够独立设计实验，分析复杂的性能权衡，并通过写作和演示有效地传达发现。 • 实习结束后有意愿回归学术研究。 • 显著成就如资助、专利或在知名会议（NeurIPS，ICML等）上的第一作者发表。 • 能够在跨职能团队环境中有效工作。薪酬：月薪范围为$7,650至$12,134，另加福利。平等机会： Meta自豪地拥护平等就业机会和积极行动原则。我们不基于各种法律保护的特征进行歧视。我们还根据适用法律支持有犯罪记录的合格候选人。Meta致力于为残疾候选人提供合理的便利。如果您在招聘过程中需要任何帮助或调整，请告知我们。

实习研究科学家 - PyTorch框架性能优化

Meta