实习研究科学家 - PyTorch框架性能优化

纽约 8天前实习 网络
面议
总结: 加入我们创新的团队,致力于提升PyTorch模型的性能、稳定性和整体效率。我们正在寻找一位才华横溢的博士研究实习生,为PyTorch的尖端专家混合系统(MoE)做出贡献。您的工作将专注于显著提升现代加速器(如NVIDIA Hopper及其他)的端到端训练和推理速度。此次实习提供了一个独特的机会,让您探索先进的执行优化技术,以促进大规模稀疏模型的高性能,同时保持PyTorch所提供的灵活性。 团队范围: • 提升PyTorch在GPU、CPU及其他加速器上的性能。 • 优化模型在训练和推理过程中的性能。 • 实施模型优化技术,包括量化以提高效率。 • 加强PyTorch框架的稳定性和可扩展性。 我们的实习期为十二(12)至二十四(24)周,全年有多个开始日期可供选择。 职责: • 设计和评估创新的执行策略,考虑MoE的通信、内核和量化方面。 • 开发和优化专门针对MoE工作负载的GPU内核和运行时组件,包括内存高效的前向和后向传递。 • 研究各种量化技术(例如MXFP8,FP8)以最大化准确性和效率。 • 创建性能模型和基准,以分析与不同稀疏级别相关的计算、内存、通信和开销。 • 在单节点和多节点GPU系统上进行实验。 • 与开源社区互动,征求反馈并迭代项目开发。 • 为PyTorch的核心组件做出改进。 • 不断努力提高PyTorch的整体性能。 最低资格: • 在ML系统研究方面有扎实的基础,特别是在MoE模型的效率方面,包括路由和通信开销。 • 熟练使用CUDA和/或cuteDSL编写GPU内核。 • 熟悉量化技术及其对性能和准确性的影响。 • 在雇佣国拥有有效的工作授权,并在整个雇佣期间保持有效。 优先资格: • 具有ML编译器栈的经验,尤其是PT2。 • 了解分布式训练和推理,如数据并行和集体通信。 • 能够独立设计实验,分析复杂的性能权衡,并通过写作和演示有效地传达发现。 • 实习结束后有意愿回归学术研究。 • 显著成就如资助、专利或在知名会议(NeurIPS,ICML等)上的第一作者发表。 • 能够在跨职能团队环境中有效工作。 薪酬: 月薪范围为$7,650至$12,134,另加福利。 平等机会: Meta自豪地拥护平等就业机会和积极行动原则。我们不基于各种法律保护的特征进行歧视。我们还根据适用法律支持有犯罪记录的合格候选人。Meta致力于为残疾候选人提供合理的便利。如果您在招聘过程中需要任何帮助或调整,请告知我们。