AI/MLOps工程师(具备DevOps经验)

阿布扎比 无个税11小时前全职 网络
面议
职责 操作和管理用于多节点编排的Kubernetes或OpenShift集群。 使用Triton Inference Server或自定义端点部署和管理用于推理的LLM和其他AI模型。 使用GitLab CI或ArgoCD自动化CI/CD流水线,以实现模型打包、服务、再训练和回滚。 设置模型和基础设施监控系统(Prometheus, Grafana, NVIDIA DCGM)。 实施模型漂移检测、性能警报和推理日志记录。 管理模型检查点、可重现性控制和回滚策略。 使用MLFlow或等效注册工具跟踪已部署的模型版本。 为模型端点和数据工件实施安全访问控制。 与AI/数据工程师合作,集成和部署微调数据集。 确保生产中所有AI服务的高可用性、性能和可观察性。 要求 3年DevOps、MLOps或AI/ML基础设施角色的经验。 10年解决方案操作的总体经验。 在生产环境中具有Kubernetes或OpenShift的经验,最好是经过认证的。 熟悉部署和扩展用于推理的PyTorch或TensorFlow模型。 具有使用OpenShift/Kubernetes进行CI/CD自动化的经验。 具有模型注册系统(例如,MLFlow, KubeFlow)的实际操作经验。 具有监控工具(例如,Prometheus, Grafana)和GPU工作负载优化的经验。 强大的脚本编写技能(Python, Bash)和Linux系统管理知识。 关键技能 ASP.NET、健康教育、时尚设计、纤维、调查 就业详情 就业类型:全职 空缺:1