关于职位
我们正在寻找具有大型语言模型(LLMs)丰富经验的机器学习工程师,加入一个高影响力的人工智能团队。
该职位将专注于推动LLM实验、训练和部署的创新,优化跨多个领域的真实应用的端到端模型性能。
主要职责
领导大规模预训练语言模型的开发和优化,包括模型架构设计、并行训练策略和性能提升。
研究并实施先进的LLM后训练方法,如思维链调整、偏好对齐和用于推理的强化学习。
构建和完善模型训练的数据管道,包括数据去重、清理和质量验证。
设计并实施高效的模型部署解决方案,重点在于推理优化和大规模服务。
与跨职能团队合作,将LLM能力应用于垂直领域,如材料科学和其他行业用例。
紧跟前沿研究,并为整体技术路线图做出贡献。
资格要求
计算机科学、人工智能或相关领域的硕士或博士学位。
至少5年机器学习实际操作经验,重点在于NLP和LLMs。
对Transformer架构和现代LLM框架(如BERT、GPT、T5)有深刻理解。
具有丰富的深度学习框架经验(如PyTorch、TensorFlow、JAX)。
精通Python并熟悉常见的ML工具(如Hugging Face、DeepSpeed)。
在训练和优化大规模语言模型(建议10B+参数)方面有成功经验。
具有分布式训练系统(如Megatron)和优化技术的经验。
优先资格
在顶级会议如NeurIPS、ICML、ACL或EMNLP上发表过论文。
对开源机器学习项目有贡献。
具有基于RL的对齐技术经验。
具备强大的问题解决和分析能力。
许可证号:25S2734
注册ID:
R