高级GCP数据工程师(必须具备医疗背景)
加拿大(远程)
角色概述:
在Google Cloud(GCP)上架构企业数据平台的丰富经验。架构师将作为战略技术合作伙伴,设计和构建基于GCP BigQuery的数据湖和数据仓库生态系统。
该角色要求在数据摄取、转换、建模、丰富和治理方面具有深厚的实践经验,并结合对临床医疗数据标准、互操作性和云架构最佳实践的深入理解。
主要职责:
1. 数据湖和数据平台架构(GCP)
架构和设计企业级基于GCP的数据湖屋,利用BigQuery、GCS、Dataproc、Dataflow、Pub/Sub、Cloud Composer和BigQuery Omni。
定义大规模结构化、半结构化和非结构化数据集的数据摄取、补充、策展、处理和丰富策略。
创建数据领域模型、规范模型和可供分析、AI/ML和操作数据产品使用的消费就绪数据集。
为下游消费者设计联邦数据层和自助数据产品。
2. 数据摄取和管道
使用GCP Cloud Dataflow、Pub/Sub和Dataproc架构批处理、近实时和流式摄取管道。
设置临床(EHR/EMR、LIS、RIS/PACS)数据集的摄取,包括HL7、FHIR、CCD、DICOM格式。
构建非临床系统(ERP、人力资源、工资、供应链、财务)的摄取管道。
利用IoMT模式架构来自医疗设备、物联网、远程患者监控和可穿戴设备的摄取。
管理本地云迁移管道、混合云数据移动、VPN/Interconnect连接和数据传输策略。
3. 数据转换、补充和丰富
使用BigQuery SQL、Dataflow、Dataproc或dbt构建转换框架。
定义策展模式,包括青铜/白银/黄金层、规范医疗实体和数据集市。
使用外部社会决定因素、设备信号、临床事件日志或操作数据集实施数据丰富。
启用元数据驱动的管道以实现可扩展的转换。
4. 数据治理和质量
建立和运营数据治理框架,包括数据管理、所有权、分类和生命周期政策。
使用Dataplex、Data Catalog、Collibra或Informatica等工具实施数据血统、数据编目和元数据管理。
设置数据质量框架以进行验证、分析、异常检测和SLA监控。
确保HIPAA合规性、PHI保护、IAM/RBAC、VPC SC、DLP、加密、保留和审计。
5. 云基础设施和网络
与云基础设施团队合作,架构VPC网络、子网、入口/出口、防火墙策略、VPN/IPSec、Interconnect和混合连接。
定义存储层、分区/聚类设计、成本优化、性能调优和BigQuery的容量规划。
了解用于数据服务的容器化处理(Cloud Run、GKE)。
6. 利益相关者合作
与临床、运营、研究和IT利益相关者密切合作,定义数据用例、架构和消费模型。
与企业架构师、安全团队和平台工程团队合作开展跨职能的计划。
指导数据工程师并提供管道实施的架构监督。
7. 实践领导
积极参与构建管道、编写转换、构建POC和验证架构模式。
指导数据工程师最佳实践、编码标准和云原生开发。
必备技能和资格
技术技能(必须具备)
10年以上数据架构、工程或数据平台角色经验。
在GCP数据栈(BigQuery、Dataflow、Composer、GCS、Pub/Sub、Dataproc、Dataplex)方面具有丰富的专业知识。
在数据摄取、管道编排和转换方面具有实践经验。
对临床数据标准有深刻理解:
HL7 v2.x、FHIR、CCD/C-CDA
DICOM(用于扫描和成像)
LIS/RIS/PACS数据结构
具有设备和物联网数据摄取(可穿戴设备、远程患者监控、临床设备)经验。
具有ERP数据集(Workday、Oracle、Lawson、PeopleSoft)经验。
强大的SQL和数据建模技能(3NF、星型/雪花、规范和逻辑模型)。
具有元数据管理、血统和治理框架经验。
对HIPAA、PHI/PII处理、DLP、IAM、VPC安全有扎实理解。
云和基础设施
对云网络、混合连接、VPC设计、防火墙、DNS、服务账户、IAM和安全模型有扎实理解。
云原生数据移动服务
具有本地到云迁移经验。