后端工程师(机器学习系统),TikTok基础架构

14个月前全职
TikTok

TikTok

location 新加坡
unsaved
机器学习(ML)系统团队结合系统工程和机器学习的艺术,开发和维护全球范围内的大规模分布式ML训练和推理系统/服务。 在我们的团队中,您将有机会构建与GPU/RDMA/存储集成的大规模异构系统,并保持其稳定可靠的运行,丰富您在编码、性能分析和分布式系统方面的专业知识,并参与决策过程。您还将成为一个由来自美国、中国和新加坡的成员组成的全球团队的一部分,共同合作实现统一的项目方向。 职责: 1. 负责设计和开发用于模型开发、训练和部署的机器学习基础设施和平台服务; 2. 构建和部署与GPU、RDMA网络和高性能存储集成的大规模机器学习系统; 3. 在全球数据中心中设计和开发资源编排和工作负载调度,适用于在线和离线场景; 4. 管理大量GPU资源,以确保计算能力有效地分配给不同的业务线; 5. 成为为业务用户提供技术解决方案和咨询的专家,解决系统稳定性和可用性等问题; 6. 成为跨职能团队(如业务团队、数据中心团队、网络团队、计算团队、存储团队)推动系统和服务建设的项目交付专家; 7. 研究、设计和开发计算机和网络软件或专门的实用程序; 8. 分析用户需求并开发软件解决方案,应用计算机科学、工程和数学分析的原理和技术; 9. 更新软件,增强现有软件功能,并开发和指导软件测试和验证程序; 10. 与计算机硬件工程师合作,集成硬件和软件系统,并制定规格和性能要求; 资格要求: - 计算机科学、计算机工程或相关专业的学士学位或以上学历; - 在至少一种编程语言(如C++/Go/Python/Shell)在Linux环境下具有扎实的熟练程度; - 在大规模系统、多租户系统的贡献方面有经验,包括架构、可靠性和扩展性; - 在Kubernetes架构方面具有丰富的实践经验,并具备丰富的系统级开发和调优经验; - 具备出色的逻辑分析能力,能够合理抽象和拆分业务逻辑; - 具备较强的责任感、良好的学习能力、沟通能力和自我驱动力,具备良好的团队合作精神。 优先但不必要的条件: - 熟悉大型模型训练和推理的ML基础设施; - 熟悉前端和后端技术,如Django/Flask/NodeJS/React等; - 在以下领域之一具有经验:AI基础设施、硬件/软件协同设计、高性能计算、ML硬件架构(GPU、加速器、网络)。 TikTok致力于营造一个包容的空间,员工的技能、经验和独特观点都受到重视。我们的平台连接着全球各地的人们,我们的工作场所也是如此。在TikTok,我们的使命是激发创造力,带来快乐。为了实现这一目标,我们致力于庆祝我们多样化的声音,并创造一个反映我们所触达的众多社群的环境。我们对此充满激情,希望您也是。