我们正在寻找一位具有丰富DevOps专业知识的经验丰富的Databricks数据工程师加入我们的数据工程团队。理想的候选人将设计、构建和优化基于Databricks Lakehouse平台的大规模数据管道,同时实施稳健的CI/CD和部署实践。该职位需要具备PySpark、SQL、Azure云服务和现代DevOps工具的强大技能。您将与跨职能团队合作,提供可扩展、安全和高性能的数据解决方案。
技术技能
• 拥有Databricks的丰富实践经验,包括:
• Delta Lake
• Unity Catalog
• Lakehouse架构
• Delta Live Pipelines
• Databricks Runtime
• 表触发器
• 精通PySpark、Spark和高级SQL。
• 熟悉Azure云服务(ADLS、ADF、Key Vault、Functions等)。
• 具备关系数据库和数据仓库概念的经验。
• 对DevOps工具有深入理解:
• Git/GitLab
• CI/CD管道
• Databricks Asset Bundles
• 熟悉基础设施即代码(Terraform是加分项)。
关键职责
1. 数据管道开发
• 使用Databricks设计、构建和维护可扩展的ETL/ELT管道。
• 使用PySpark/Spark和SQL为大容量数据集开发数据处理工作流。
• 集成来自ADLS、Azure Blob Storage和关系/非关系数据源的数据。
• 实施Delta Lake最佳实践,包括模式演变、ACID事务、优化、ZORDER和性能调优。
2. DevOps & CI/CD
• 使用Git、GitLab、Azure DevOps或类似工具为Databricks实施CI/CD管道。
• 使用Databricks Asset Bundles构建和管理自动化部署。
• 管理笔记本、工作流、库和配置工件的版本控制。
• 自动化集群配置、作业创建和环境配置。
3. 协作与业务支持
• 与数据分析师和BI团队合作,为报告和仪表板准备数据集。
• 与产品负责人、业务合作伙伴和工程团队合作,将需求转化为可扩展的数据解决方案。
• 记录数据流、架构和部署过程。
4. 性能与优化
• 调优Databricks集群、作业和管道以提高成本效率和性能。
• 监控工作流、调试故障,确保管道的稳定性和可靠性。
• 使用日志/监控工具实施作业检测和可观察性。
5. 治理与安全
• 使用Unity Catalog实施和管理数据治理。
• 强制执行访问控制、数据安全和企业政策合规。
• 确保数据质量、血缘和可审计性的最佳实践。
优先经验
• 了解流技术,如结构化流或Spark流。
• 有构建实时或近实时管道的经验。
• 接触过高级Databricks运行时配置和调优。
认证(可选)
• Databricks认证数据工程师助理/专业
• Azure数据工程师助理