关键交付成果:
- 使用Databricks上的Apache Spark构建和优化可扩展的数据管道
- 使用Databricks笔记本和Delta Lake实施ETL/ELT流程
- 确保跨平台的数据质量、完整性和合规性
- 支持CI/CD、云迁移和基础设施自动化
角色职责:
- 与数据科学家和分析师合作交付数据产品
- 维护和优化大规模分布式数据作业
- 使用Azure DevOps、GitHub Actions和Terraform进行工作流自动化
- 使用Lakehouse架构处理结构化和非结构化数据