• 数据管道开发:开发和维护从各种来源提取、转换和加载(ETL)数据到集中式数据存储系统(如数据仓库或数据湖)的数据管道。
• 数据集成:集成来自多个来源和系统的数据,包括数据库、API、日志文件、流媒体平台和外部数据提供商。
• 数据转换和处理:开发数据转换例程,清理、规范化和聚合数据。应用数据处理技术处理复杂的数据结构,处理缺失或不一致的数据,并为分析、报告或机器学习任务准备数据。
• 在代码开发、部署和数据管道自动化/编排的常见框架和最佳实践中做出贡献。
• 根据公司标准实施数据治理。
• 与数据分析和产品负责人合作,设计开发和生产分析管道的最佳实践和标准。
• 与基础架构负责人合作,探索云环境(Azure、Databricks等)提供的新工具和技术,以推进数据和分析平台的架构方法。
• 监控和支持:监控数据管道和数据系统,及时检测和解决问题。开发监控工具、警报和自动化错误处理机制,确保数据完整性和系统可靠性。
要求
必备条件
• 在数据工程领域有经验(3年以上),具有交付可扩展数据管道的强大记录。
• 需要有设计数据解决方案的丰富经验,包括数据建模。
• 需要有开发数据处理作业(PySpark/SQL)的丰富实践经验,表明对软件工程原理有很好的理解。
• 需要有使用ADF、Airflow等技术编排数据管道的经验。
• 需要有处理实时和批量数据的经验。
• 需要有在Azure上构建数据管道的经验,了解AWS数据管道将会有益。
• 熟练掌握SQL(任何一种方言),并有使用窗口函数和更高级特性的经验。
• 需要了解DevOps工具、Git工作流程和构建CI/CD管道的能力。
优先条件
• 对商品领域的专业知识,包括销售、交易、风险、供应链、客户互动等,非常理想。
• 熟悉Scrum方法论,并有在Scrum团队工作的经验,具有优势。这包括了解Scrum角色、事件、工件和规则,并能在实际环境中应用它们。
具有流数据处理技术(如Apache Kafka、Apache Flink或AWS Kinesis)的经验也可能有益。这包括设计和实现实时数据处理管道的能力。