数据工程师,精通Python和Pyspark

14个月前全职
Unison Consulting

Unison Consulting

location 悉尼
unsaved
• 开发和实施数据管道,将来自各种来源的数据收集到集中式数据平台中。 • 使用AWS Glue服务开发和维护ETL作业,以大规模处理和转换数据。 • 优化和排除AWS Glue作业的性能和可靠性问题。 • 使用Python和PySpark有效处理大量数据。 • 使用PySpark设计和实施可扩展的数据处理解决方案,将原始数据转换为结构化和可用的格式。 • 应用数据清洗、增强和验证技术,确保数据质量和准确性。 • 使用Python和PySpark创建和维护ETL流程,以在不同系统之间移动和转换数据。 • 优化ETL工作流程的性能和效率。 • 与数据架构师合作,设计和实施支持业务需求的数据模型。 • 确保数据结构针对分析和报告进行了优化。 • 使用Apache Spark等分布式计算框架处理和分析大规模数据集。 • 管理和优化SQL和NoSQL数据库,以支持数据存储和检索需求。 • 实施索引、分区和其他数据库优化技术。 • 与数据科学家、分析师和业务利益相关者等跨职能团队合作,了解数据需求并提供有效的解决方案。 • 与软件工程师密切合作,将数据解决方案集成到更大的应用程序中。 • 实施监控解决方案,跟踪数据管道的性能,并主动识别和解决问题。 • 确保符合数据隐私法规和公司政策。 • 了解数据工程、Python和PySpark的行业趋势和进展。 要求 • 熟练掌握Python和PySpark。 • 对数据工程概念和最佳实践有深入了解。 • 具有AWS Glue和其他AWS服务的实际经验。 • 有大数据技术和分布式计算经验。 • 熟悉数据库管理系统(SQL和NoSQL)。 • 理解ETL流程和数据建模。 • 出色的问题解决和分析能力。 • 良好的沟通和协作能力。 • 计算机科学、信息技术或相关领域的学士学位。