数据工程师,精通Python和Pyspark

14个月前全职
Unison Consulting

Unison Consulting

location 香港
unsaved
• 开发并实施数据管道,将数据从各种来源摄取和收集到集中式数据平台中 • 使用AWS Glue服务开发和维护ETL作业,以处理和转换大规模数据 • 优化和排除故障AWS Glue作业,以提高性能和可靠性 • 利用Python和PySpark在摄取过程中高效处理大量数据 • 使用PySpark设计和实施可扩展的数据处理解决方案,将原始数据转换为结构化和可用的格式 • 应用数据清洗、增强和验证技术,确保数据质量和准确性 • 使用Python和PySpark创建和维护ETL流程,以在不同系统之间移动和转换数据 • 优化ETL工作流程的性能和效率 • 与数据架构师合作设计和实施支持业务需求的数据模型 • 确保数据结构针对分析和报告进行了优化 • 使用Apache Spark等分布式计算框架处理和分析大规模数据集 • 管理和优化SQL和NoSQL数据库,以支持数据存储和检索需求 • 实施索引、分区和其他数据库优化技术 • 与数据科学家、分析师和业务利益相关者等跨职能团队合作,了解数据需求并提供有效的解决方案 • 与软件工程师密切合作,将数据解决方案集成到更大的应用程序中 • 实施监控解决方案,跟踪数据管道性能,并主动识别和解决问题 • 确保符合数据隐私法规和公司政策 • 了解数据工程、Python和PySpark的行业趋势和进展 要求 • 熟练掌握Python和PySpark • 对数据工程概念和最佳实践有深入了解 • 具有AWS Glue和其他AWS服务的实际经验 • 有大数据技术和分布式计算的经验 • 熟悉数据库管理系统(SQL和NoSQL) • 了解ETL流程和数据建模 • 出色的问题解决和分析能力 • 良好的沟通和协作能力 • 计算机科学、信息技术或相关领域的学士学位