Azure 数据工程师

洛杉矶 5天前全职 网络
面议
我们正在寻找一位具有丰富DevOps专业知识的经验丰富的Databricks数据工程师加入我们的数据工程团队。理想的候选人将设计、构建和优化基于Databricks Lakehouse平台的大规模数据管道,同时实施稳健的CI/CD和部署实践。该职位需要具备PySpark、SQL、Azure云服务和现代DevOps工具的强大技能。您将与跨职能团队合作,提供可扩展、安全和高性能的数据解决方案。 技术技能 • 拥有Databricks的丰富实践经验,包括: • Delta Lake • Unity Catalog • Lakehouse架构 • Delta Live Pipelines • Databricks Runtime • 表触发器 • 精通PySpark、Spark和高级SQL。 • 熟悉Azure云服务(ADLS、ADF、Key Vault、Functions等)。 • 具备关系数据库和数据仓库概念的经验。 • 对DevOps工具有深入理解: • Git/GitLab • CI/CD管道 • Databricks Asset Bundles • 熟悉基础设施即代码(Terraform是加分项)。 关键职责 1. 数据管道开发 • 使用Databricks设计、构建和维护可扩展的ETL/ELT管道。 • 使用PySpark/Spark和SQL为大容量数据集开发数据处理工作流。 • 集成来自ADLS、Azure Blob Storage和关系/非关系数据源的数据。 • 实施Delta Lake最佳实践,包括模式演变、ACID事务、优化、ZORDER和性能调优。 2. DevOps & CI/CD • 使用Git、GitLab、Azure DevOps或类似工具为Databricks实施CI/CD管道。 • 使用Databricks Asset Bundles构建和管理自动化部署。 • 管理笔记本、工作流、库和配置工件的版本控制。 • 自动化集群配置、作业创建和环境配置。 3. 协作与业务支持 • 与数据分析师和BI团队合作,为报告和仪表板准备数据集。 • 与产品负责人、业务合作伙伴和工程团队合作,将需求转化为可扩展的数据解决方案。 • 记录数据流、架构和部署过程。 4. 性能与优化 • 调优Databricks集群、作业和管道以提高成本效率和性能。 • 监控工作流、调试故障,确保管道的稳定性和可靠性。 • 使用日志/监控工具实施作业检测和可观察性。 5. 治理与安全 • 使用Unity Catalog实施和管理数据治理。 • 强制执行访问控制、数据安全和企业政策合规。 • 确保数据质量、血缘和可审计性的最佳实践。 优先经验 • 了解流技术,如结构化流或Spark流。 • 有构建实时或近实时管道的经验。 • 接触过高级Databricks运行时配置和调优。 认证(可选) • Databricks认证数据工程师助理/专业 • Azure数据工程师助理