MLOps工程师 - 博林布鲁克,伊利诺伊州 [现场]
职位描述:
MLOps工程师负责在云、混合和本地环境中实现企业AI/ML系统的运营、扩展和维护。该角色专注于支持强大的治理、可观察性、安全性和自动化,实现LLM工作负载、检索增强生成(RAG)、文档智能、多模态处理和预测/ML管道的可靠交付。
主要职责:
• 构建和自动化端到端ML管道(数据摄取→特征工程→训练→评估→打包→部署)。
• 建立模型CI/CD工作流程,包括版本控制、自动化测试、金丝雀/蓝绿部署和回滚策略。
• 使基于LLM和RAG的系统投入运营(嵌入工作流、向量索引、延迟优化、基础质量检查)。
• 将文档处理和多模态工作流投入生产(OCR解析、丰富流程、批处理/流处理扩展)。
• 实施可观察性(数据质量、漂移、安全指标、推理延迟、错误条件)。
• 强制执行负责任的AI控制(可审计性、可重现性、治理元数据、谱系、审批工作流)。
• 维护安全的服务环境(容器加固、IAM、密钥、网络隔离)。
• 优化GPU/CPU利用率、自动扩展、吞吐量和成本效率。
• 创建可重用的模板、参考架构、入门仓库和文档。
所需技能和资格:
• 精通Python、CI/CD、Docker、Kubernetes。
• 有LLM、RAG和预测ML系统的运营经验。
• 具备数据工程、模式治理、批处理/流处理管道的坚实基础。
• 具备安全思维(PII控制、密钥、网络边界、可审计性)。
• 熟悉Vertex AI(ML编排和CI/CD、训练、调优、部署、模型注册和监控)。
• 熟悉BigQuery / BigQuery ML(分析和仓库内ML)。
• 熟悉Cloud Composer + Dataflow(批处理/流处理ETL编排)。
• 熟悉GKE或Cloud Run(安全、可扩展的模型服务)。
• 熟悉Artifact Registry + Cloud Build/Cloud Deploy(容器和CI/CD)。
优先资格:
• 熟悉代理推理模式和工作流链。
• 有LLM评估、基础、偏见/安全检查的经验。
• 对开源ML/MLOps工具的贡献。
此致
Gagan Rajput