我们的客户是一家领先的对冲基金,正在开创大型语言模型(LLM)的应用,以改变他们的交易策略。他们极其复杂的模型需要一个跨越数千个GPU的分布式环境进行持续训练。为了加快进展,他们正在寻找一位经验丰富的AI训练基础设施工程师,对解决性能挑战充满热情。
在这个角色中,您将与他们的研究团队密切合作,优化AI基础设施。这包括对各种平台进行广泛的实验,以确定其特定训练任务的最佳性能。您的重点将是两方面:减少模型训练时间和增强代码在分布式GPU环境中的最佳性能实现。这是一个明显的软件工程和GPU优化角色,重点是训练而不是推理。
作为一名AI训练基础设施工程师,您将:
• 主导先进的AI训练框架的开发和优化,确保与云平台、流行的ML库和最新的模型架构无缝集成,强调分布式训练能力。
• 分析和解决硬件、软件和算法方面的基础设施瓶颈,优化分布式训练设置中的性能。
• 重构算法并实施策略,以最大化GPU利用率,运用分布式库的专业知识。
• 与研究人员和模型开发人员密切合作,优化基于GPU的系统性能,了解实验优先级,并确保集群中的作业调度高效。
资格:
• 计算机科学、计算机工程或相关领域的高级学位优先。
• 对GPU架构和硬件-软件相互作用有深入了解。
• 在GPU堆栈性能分析和调试方面有经验。
• 熟练掌握深度学习框架(PyTorch,TensorFlow,JAX)。
• 有使用高级分布式训练库和技术的经验(Horovod,DeepSpeed's ZeRO-Offload,Mesh TensorFlow等)。
编程语言和工具专长:
• Python:研究团队使用的主要语言。
• C++/CUDA:用于低级优化。
• 深度学习框架:至少掌握PyTorch、TensorFlow或JAX中的一种。
感兴趣领域(非常理想):
• 深入了解GPU硬件知识(内存层次结构、线程执行模型)。
• 最大化吞吐量、最小化延迟、内存效率和利用GPU特定功能的策略。
• 对大型语言模型(LLM)有了解,包括架构、注意力机制和内存高效技术。
• 有作业调度工具的经验(Kubernetes,Slurm,ML-Aware Schedulers)。
理想背景:
• 超级计算中心
• 云服务提供商