AI培训基础设施工程师 - NJF Global Holdings Ltd招聘

我们的客户是一家领先的对冲基金，正在开创大型语言模型（LLM）的应用，以改变他们的交易策略。他们极其复杂的模型需要一个跨越数千个GPU的分布式环境进行持续训练。为了加快进展，他们正在寻找一位经验丰富的AI训练基础设施工程师，对解决性能挑战充满热情。在这个角色中，您将与他们的研究团队密切合作，优化AI基础设施。这包括对各种平台进行广泛的实验，以确定其特定训练任务的最佳性能。您的重点将是两方面：减少模型训练时间和增强代码在分布式GPU环境中的最佳性能实现。这是一个明显的软件工程和GPU优化角色，重点是训练而不是推理。作为一名AI训练基础设施工程师，您将： • 主导先进的AI训练框架的开发和优化，确保与云平台、流行的ML库和最新的模型架构无缝集成，强调分布式训练能力。 • 分析和解决硬件、软件和算法方面的基础设施瓶颈，优化分布式训练设置中的性能。 • 重构算法并实施策略，以最大化GPU利用率，运用分布式库的专业知识。 • 与研究人员和模型开发人员密切合作，优化基于GPU的系统性能，了解实验优先级，并确保集群中的作业调度高效。资格： • 计算机科学、计算机工程或相关领域的高级学位优先。 • 对GPU架构和硬件-软件相互作用有深入了解。 • 在GPU堆栈性能分析和调试方面有经验。 • 熟练掌握深度学习框架（PyTorch，TensorFlow，JAX）。 • 有使用高级分布式训练库和技术的经验（Horovod，DeepSpeed's ZeRO-Offload，Mesh TensorFlow等）。编程语言和工具专长： • Python：研究团队使用的主要语言。 • C++/CUDA：用于低级优化。 • 深度学习框架：至少掌握PyTorch、TensorFlow或JAX中的一种。感兴趣领域（非常理想）： • 深入了解GPU硬件知识（内存层次结构、线程执行模型）。 • 最大化吞吐量、最小化延迟、内存效率和利用GPU特定功能的策略。 • 对大型语言模型（LLM）有了解，包括架构、注意力机制和内存高效技术。 • 有作业调度工具的经验（Kubernetes，Slurm，ML-Aware Schedulers）。理想背景： • 超级计算中心 • 云服务提供商