角色:高级大数据工程师
地点:多伦多(混合办公)
技术技能
- Databricks / Spark(SQL 和 PySpark):Delta Lake,结构化流,性能调优。
- Snowflake:SQL,仓库,任务/流,动态表,基于角色的访问。
- 数据库:Oracle / SQL Server 强大的 SQL 开发,数据提取,CDC/迁移模式。
- 数据建模:维度建模,3NF,SCD 类型,时间序列/事件建模。
- 编排:Databricks Workflows,Airflow,ADF。
- 安全与治理:IAM,RBAC,数据掩码/标记化,加密实践。
职责
数据工程与管道开发
- 使用 Databricks、Spark、SQL 和 PySpark 构建、维护和优化 ETL/ELT 管道(批处理、流处理)。
- 实施基于 Delta Lake 的架构、CDC 模式和可重用的管道框架(配置驱动的 IO、日志记录、指标、错误处理)。
- 使用结构化流或其他流框架开发和维护流数据管道。
数据建模与质量
- 实施数据架构师提供的概念、逻辑和物理数据模型。
- 应用建模模式,如维度建模(星型/雪花)、SCDs、3NF。
- 构建数据质量检查、分析例程、模式验证和监控。
数据平台与集成
- 在 Databricks、Snowflake 和关系数据库(Oracle、SQL Server)上开发和部署管道。
- 为 API、文件、数据库和流源实施摄取框架。
- 使用编排工具,如 Databricks Workflows,Airflow,ADF。
安全、IAM 与合规
- 应用 IAM 原则,包括 RBAC、细粒度访问控制和安全数据处理。
- 根据组织标准实施数据掩码、标记化和加密。
- 确保符合监管/安全框架(GDPR、DPDP、PCI、KYC/AML 意识)。
协作与 DevOps
- 与数据架构师合作,使管道设计与参考架构(湖仓、流处理、CDC)保持一致。
- 为自动化部署和数据集/目录注册贡献 CI/CD 管道。
- 与分析师、科学家和业务利益相关者合作,进行数据交付和增强。
软技能
- 强大的问题解决和调试能力。
- 能够与架构师、分析师和业务利益相关者组成的跨职能团队合作。
- 出色的沟通和文档能力。