工作范围:
数据管道开发与管理
- 使用AWS Glue设计、构建和维护稳健的数据管道
- 实施ETL/ELT流程以从多个来源摄取数据
- 优化数据工作流以提高性能和可扩展性
- 监控和排除数据管道故障和性能问题
数据基础设施与工程
- 管理和优化AWS Redshift数据仓库操作
- 配置和维护数据存储解决方案(AWS S3、数据湖)
- 实施数据分区、索引和压缩策略
- 支持数据基础设施部署的基础设施即代码(IaC)
数据的CI/CD与DevOps
- 使用GitLab开发和维护数据工作流的CI/CD管道
- 实施数据管道和数据质量的自动化测试
- 支持数据资产的版本控制和部署策略
- 配置AWS Lambda函数以实现数据处理自动化
监控与支持
- 设置数据管道健康状况的监控和警报
- 提供数据相关问题的技术支持
- 与技术团队合作制定数据架构需求
- 优化查询性能和数据库操作
文档与报告
- 记录数据管道架构和技术规范
- 维护运行手册和操作程序
- 每月召开进度会议(1小时)报告系统健康状况
- 通过SHIP-HATS Jira跟踪工程任务
- 在SHIP-HATS Confluence上维护技术文档
所需技能与经验:
- 数据工程和数据管道开发的扎实背景
- 精通SQL、Python和Shell脚本
- 拥有丰富的AWS数据服务经验(Redshift、S3、Glue、Lambda、CloudWatch)
- 数据仓库设计和优化经验
- 强大的CI/CD管道知识(首选GitLab)
- 基础设施即代码(IaC)经验(Terraform、CloudFormation)
- 数据建模和数据库设计原则的知识
- 强大的故障排除和性能优化技能