我们正在招聘一位高级数据工程师,负责为工业4.0项目开发智能、可扩展的数据平台。此角色将推动OT/IT系统的集成,实现实时分析,并确保强大的数据治理和质量框架。工程师将与跨职能团队合作,支持制造和工业环境中的AI/ML、GenAI和IIoT用例。
主要职责:
- 在AWS或Azure上架构和实施云原生数据管道,用于摄取、转换和存储工业数据。
- 使用OPC UA、MQTT、REST等协议集成来自OT系统(SCADA、PLC、MES、Historian)和IT系统(ERP、CRM、LIMS)的数据。
- 设计和管理数据湖、仓库和流媒体平台,以进行预测分析、数字双胞胎和运营智能。
- 定义和维护资产层次结构、语义模型和上下文化工业数据的元数据框架。
- 实施数据工作流的CI/CD管道,并确保跨环境的数据血缘、可观察性和合规性。
- 与AI/ML团队合作,支持模型训练、部署和监控,使用MLOps框架。
- 建立和执行数据治理政策、管理模型和元数据管理实践。
- 通过基于规则的分析、异常检测和GenAI驱动的自动化监控和改善数据质量。
- 通过数据准备、合成数据生成和提示工程支持GenAI项目。
必备技能:
- 云平台:在AWS(S3、Lambda、Glue、Redshift)和/或Azure(数据湖、Synapse)上具有深厚经验。
- 编程与脚本:精通Python、SQL、PySpark等。
- ETL/ELT与流媒体:在Apache Airflow、Glue、Kafka、Informatica、EventBridge等技术方面具备专业知识。
- 工业数据集成:熟悉来自OSIsoft PI、SCADA、MES和Historian系统的OT数据架构。
- 信息建模:在定义语义层、资产层次结构和上下文化模型方面具有经验。
- 数据治理:具有实践经验。
- 数据质量:能够实施分析、清理、标准化和异常检测框架。
- 安全与合规:了解数据隐私、访问控制和安全数据交换协议。
- 定义和创建MLOps管道。
加分技能:
- GenAI接触:具有LLMs、LangChain、HuggingFace、合成数据生成和提示工程的经验。
- 数字双胞胎集成:熟悉nVidia Omniverse、AWS TwinMaker、Azure Digital Twin或类似平台及概念。
- 可视化工具:使用Power BI、Grafana或自定义仪表板进行运营洞察。
- DevOps与自动化:CI/CD工具(Jenkins、GitHub Actions)、基础设施即代码(Terraform、CloudFormation)。
- 行业标准:ISA-95、统一命名空间(UNS)、FAIR数据原则和DataOps方法论。