全职 - 高级大数据工程师

多伦多 5天前全职 网络
面议
角色:高级大数据工程师 地点:多伦多(混合办公) 技术技能 - Databricks / Spark(SQL 和 PySpark):Delta Lake,结构化流,性能调优。 - Snowflake:SQL,仓库,任务/流,动态表,基于角色的访问。 - 数据库:Oracle / SQL Server 强大的 SQL 开发,数据提取,CDC/迁移模式。 - 数据建模:维度建模,3NF,SCD 类型,时间序列/事件建模。 - 编排:Databricks Workflows,Airflow,ADF。 - 安全与治理:IAM,RBAC,数据掩码/标记化,加密实践。 职责 数据工程与管道开发 - 使用 Databricks、Spark、SQL 和 PySpark 构建、维护和优化 ETL/ELT 管道(批处理、流处理)。 - 实施基于 Delta Lake 的架构、CDC 模式和可重用的管道框架(配置驱动的 IO、日志记录、指标、错误处理)。 - 使用结构化流或其他流框架开发和维护流数据管道。 数据建模与质量 - 实施数据架构师提供的概念、逻辑和物理数据模型。 - 应用建模模式,如维度建模(星型/雪花)、SCDs、3NF。 - 构建数据质量检查、分析例程、模式验证和监控。 数据平台与集成 - 在 Databricks、Snowflake 和关系数据库(Oracle、SQL Server)上开发和部署管道。 - 为 API、文件、数据库和流源实施摄取框架。 - 使用编排工具,如 Databricks Workflows,Airflow,ADF。 安全、IAM 与合规 - 应用 IAM 原则,包括 RBAC、细粒度访问控制和安全数据处理。 - 根据组织标准实施数据掩码、标记化和加密。 - 确保符合监管/安全框架(GDPR、DPDP、PCI、KYC/AML 意识)。 协作与 DevOps - 与数据架构师合作,使管道设计与参考架构(湖仓、流处理、CDC)保持一致。 - 为自动化部署和数据集/目录注册贡献 CI/CD 管道。 - 与分析师、科学家和业务利益相关者合作,进行数据交付和增强。 软技能 - 强大的问题解决和调试能力。 - 能够与架构师、分析师和业务利益相关者组成的跨职能团队合作。 - 出色的沟通和文档能力。