AI培训基础设施工程师

14个月前全职
275K - 350K USD NJF Global Holdings Ltd

NJF Global Holdings Ltd

location 纽约
unsaved
我们的客户是一家领先的对冲基金,正在开创大型语言模型(LLM)的应用,以改变他们的交易策略。他们极其复杂的模型需要一个跨越数千个GPU的分布式环境进行持续训练。为了加快进展,他们正在寻找一位经验丰富的AI训练基础设施工程师,对解决性能挑战充满热情。 在这个角色中,您将与他们的研究团队密切合作,优化AI基础设施。这包括对各种平台进行广泛的实验,以确定其特定训练任务的最佳性能。您的重点将是两方面:减少模型训练时间和增强代码在分布式GPU环境中的最佳性能实现。这是一个明显的软件工程和GPU优化角色,重点是训练而不是推理。 作为一名AI训练基础设施工程师,您将: • 主导先进的AI训练框架的开发和优化,确保与云平台、流行的ML库和最新的模型架构无缝集成,强调分布式训练能力。 • 分析和解决硬件、软件和算法方面的基础设施瓶颈,优化分布式训练设置中的性能。 • 重构算法并实施策略,以最大化GPU利用率,运用分布式库的专业知识。 • 与研究人员和模型开发人员密切合作,优化基于GPU的系统性能,了解实验优先级,并确保集群中的作业调度高效。 资格: • 计算机科学、计算机工程或相关领域的高级学位优先。 • 对GPU架构和硬件-软件相互作用有深入了解。 • 在GPU堆栈性能分析和调试方面有经验。 • 熟练掌握深度学习框架(PyTorch,TensorFlow,JAX)。 • 有使用高级分布式训练库和技术的经验(Horovod,DeepSpeed's ZeRO-Offload,Mesh TensorFlow等)。 编程语言和工具专长: • Python:研究团队使用的主要语言。 • C++/CUDA:用于低级优化。 • 深度学习框架:至少掌握PyTorch、TensorFlow或JAX中的一种。 感兴趣领域(非常理想): • 深入了解GPU硬件知识(内存层次结构、线程执行模型)。 • 最大化吞吐量、最小化延迟、内存效率和利用GPU特定功能的策略。 • 对大型语言模型(LLM)有了解,包括架构、注意力机制和内存高效技术。 • 有作业调度工具的经验(Kubernetes,Slurm,ML-Aware Schedulers)。 理想背景: • 超级计算中心 • 云服务提供商