Pyspark开发人员(Python、Airflow、Cloudera是必需的)- 5年以上工作经验 - 现场 - 迪拜 - 立即 - 30天内入职者

迪拜 无个税5天前全职 网络
面议
教育和经验 - 计算机科学、数据工程、信息系统或相关领域的学士或硕士学位。 - 拥有8年以上数据工程师经验,重点关注PySpark和Cloudera数据平台。 PySpark职位描述: - 数据管道开发:在Cloudera数据平台上使用PySpark设计、开发和维护高度可扩展和优化的ETL管道,确保数据完整性和准确性。 - 数据摄取:实施和管理从各种来源(例如关系数据库、API、文件系统)到CDP上的数据湖或数据仓库的数据摄取过程。 - 数据转换和处理:使用PySpark处理、清理和转换大型数据集为有意义的格式,以支持分析需求和业务要求。 - 性能优化:对PySpark代码和Cloudera组件进行性能调优,优化资源利用率并减少ETL过程的运行时间。 - 数据质量和验证:实施数据质量检查、监控和验证程序,以确保整个管道的数据准确性和可靠性。 - 自动化和编排:使用Apache Oozie、Airflow或Cloudera生态系统中的类似编排工具自动化数据工作流。 - 监控和维护:监控管道性能,排除故障,并对Cloudera数据平台和相关数据过程进行例行维护。 - 协作:与其他数据工程师、分析师、产品经理和其他利益相关者密切合作,以了解数据需求并支持各种数据驱动的项目。 - 文档:维护数据工程过程、代码和管道配置的详细文档。 技术技能 - PySpark:高级PySpark技能,包括处理RDD、DataFrame和优化技术。 - Cloudera数据平台:具有Cloudera数据平台(CDP)组件的丰富经验,包括Cloudera Manager、Hive、Impala、HDFS和HBase。 - 数据仓库:了解数据仓库概念、ETL最佳实践,并具有使用基于SQL工具(例如Hive、Impala)的经验。 - 大数据技术:熟悉Hadoop、Kafka和其他分布式计算工具。 - 编排和调度:具有使用Apache Oozie、Airflow或类似编排框架的经验。 - 脚本和自动化:具备强大的Linux脚本技能。