Pyspark开发人员

迪拜 无个税12天前全职 网络
面议
我们正在寻找一位具有PySpark和Cloudera数据平台(CDP)深厚专业知识的高级数据工程师加入我们的数据工程团队。作为数据工程师,您将负责设计、开发和维护可扩展的数据管道,确保整个组织的数据质量和可用性。该角色需要在大数据生态系统、云原生工具和高级数据处理技术方面有坚实的背景。 理想的候选人具有在Cloudera数据平台上进行数据摄取、转换和优化的实际经验,并在实施数据工程最佳实践方面有良好的记录。您将与其他数据工程师密切合作,构建推动有影响力的业务洞察的解决方案。 职责 · 数据管道开发:使用PySpark在Cloudera数据平台上设计、开发和维护高度可扩展和优化的ETL管道,确保数据完整性和准确性。 · 数据摄取:实施和管理从各种来源(例如,关系数据库、API、文件系统)到CDP上的数据湖或数据仓库的数据摄取过程。 · 数据转换和处理:使用PySpark处理、清洗和转换大型数据集为支持分析需求和业务要求的有意义格式。 · 性能优化:进行PySpark代码和Cloudera组件的性能调优,优化资源利用率并减少ETL过程的运行时间。 · 数据质量和验证:实施数据质量检查、监控和验证程序,以确保整个管道的数据准确性和可靠性。 · 自动化和编排:使用Apache Oozie、Airflow或Cloudera生态系统内的类似编排工具自动化数据工作流程。 · 监控和维护:监控管道性能,排除故障,并对Cloudera数据平台及相关数据过程进行例行维护。 · 协作:与其他数据工程师、分析师、产品经理和其他利益相关者密切合作,了解数据需求并支持各种数据驱动的计划。 · 文档:维护数据工程过程、代码和管道配置的详细文档。 资格 教育和经验 · 计算机科学、数据工程、信息系统或相关领域的学士或硕士学位。 · 5年以上数据工程师经验,重点关注PySpark和Cloudera数据平台。 技术技能 · PySpark:高级PySpark技能,包括RDD、DataFrame和优化技术的使用。 · Cloudera数据平台:丰富的Cloudera数据平台(CDP)组件经验,包括Cloudera Manager、Hive、Impala、HDFS和HBase。 · 数据仓储:了解数据仓储概念、ETL最佳实践,并有使用基于SQL的工具(如Hive、Impala)的经验。 · 大数据技术:熟悉Hadoop、Kafka和其他分布式计算工具。 · 编排和调度:具有Apache Oozie、Airflow或类似编排框架的经验。 · 脚本和自动化:具备强大的Linux脚本技能。 软技能 · 强大的分析和问题解决能力。 · 优秀的口头和书面沟通能力。 · 能够在团队环境中独立工作和协作。 · 注重细节并致力于数据质量。