人工智能工程师

15个月前全职
ApTask

ApTask

location 旧金山
unsaved
职位:人工智能工程师 地点:加利福尼亚州旧金山(首日现场办公) 时长:全职/永久 职位详情: 技术/功能技能: 熟练掌握RoCEv2、K8s、KVM、Ubuntu、Python、Shell、Go、Rust、GPU驱动程序以及200G/400G网络的集群互连。 管理GPU集群,优化基于GPU的服务/工具/软件。 职责和责任: • 开发、实施和维护由10至1000个节点组成的基于GPU的集群,确保最佳性能和可用性。 • 管理机器学习/人工智能平台-分布式机器学习服务、LLMs、Vector-DB和人工智能推理,通过管理部署、资源分配、监控和安全性。 • 与跨职能团队合作,解决人工智能基础设施需求,支持与人工智能相关的项目,并提供技术专长。 • 监控和评估人工智能系统和集群的性能,确保其符合行业最佳实践和公司标准。 • 编写报告,记录流程,并发布改进人工智能基础设施和解决方案的建议。 • 使用人工智能/机器学习不断改进内部流程和工具,这些工具在团队服务的端到端交付中使用。