职位:人工智能工程师
地点:加利福尼亚州旧金山(首日现场办公)
时长:全职/永久
职位详情:
技术/功能技能:
熟练掌握RoCEv2、K8s、KVM、Ubuntu、Python、Shell、Go、Rust、GPU驱动程序以及200G/400G网络的集群互连。
管理GPU集群,优化基于GPU的服务/工具/软件。
职责和责任:
• 开发、实施和维护由10至1000个节点组成的基于GPU的集群,确保最佳性能和可用性。
• 管理机器学习/人工智能平台-分布式机器学习服务、LLMs、Vector-DB和人工智能推理,通过管理部署、资源分配、监控和安全性。
• 与跨职能团队合作,解决人工智能基础设施需求,支持与人工智能相关的项目,并提供技术专长。
• 监控和评估人工智能系统和集群的性能,确保其符合行业最佳实践和公司标准。
• 编写报告,记录流程,并发布改进人工智能基础设施和解决方案的建议。
• 使用人工智能/机器学习不断改进内部流程和工具,这些工具在团队服务的端到端交付中使用。