• 开发和实施数据管道,将来自各种来源的数据收集到集中式数据平台中。
• 使用AWS Glue服务开发和维护ETL作业,以大规模处理和转换数据。
• 优化和排除AWS Glue作业的性能和可靠性问题。
• 使用Python和PySpark有效处理大量数据。
• 使用PySpark设计和实施可扩展的数据处理解决方案,将原始数据转换为结构化和可用的格式。
• 应用数据清洗、增强和验证技术,确保数据质量和准确性。
• 使用Python和PySpark创建和维护ETL流程,以在不同系统之间移动和转换数据。
• 优化ETL工作流程的性能和效率。
• 与数据架构师合作,设计和实施支持业务需求的数据模型。
• 确保数据结构针对分析和报告进行了优化。
• 使用Apache Spark等分布式计算框架处理和分析大规模数据集。
• 管理和优化SQL和NoSQL数据库,以支持数据存储和检索需求。
• 实施索引、分区和其他数据库优化技术。
• 与数据科学家、分析师和业务利益相关者等跨职能团队合作,了解数据需求并提供有效的解决方案。
• 与软件工程师密切合作,将数据解决方案集成到更大的应用程序中。
• 实施监控解决方案,跟踪数据管道的性能,并主动识别和解决问题。
• 确保符合数据隐私法规和公司政策。
• 了解数据工程、Python和PySpark的行业趋势和进展。
要求
• 熟练掌握Python和PySpark。
• 对数据工程概念和最佳实践有深入了解。
• 具有AWS Glue和其他AWS服务的实际经验。
• 有大数据技术和分布式计算经验。
• 熟悉数据库管理系统(SQL和NoSQL)。
• 理解ETL流程和数据建模。
• 出色的问题解决和分析能力。
• 良好的沟通和协作能力。
• 计算机科学、信息技术或相关领域的学士学位。