我们正在寻找一位经验丰富的数据工程师,负责设计和优化可扩展的数据管道,以推动我们的全球数据和分析计划。在这个角色中,您将利用 Apache Spark、Airflow 和 Python 等技术构建高性能的数据处理系统,并确保 Mastercard 数据生态系统中的数据质量、可靠性和溯源。
理想的候选人结合了强大的技术专长和分布式数据系统、工作流自动化以及性能调优的实践经验,以在企业规模上提供有影响力的数据驱动解决方案。
职责:
• 设计和优化基于 Spark 的 ETL 管道,以进行大规模数据处理。
• 构建和管理 Airflow DAG,用于调度、编排和检查点。
• 实施分区和洗牌策略以提高 Spark 性能。
• 确保系统间的数据溯源、质量和可追溯性。
• 开发 Python 脚本用于数据转换、聚合和验证。
• 使用 spark-submit 执行和调优 Spark 作业。
• 执行 DataFrame 连接和聚合以获取分析洞察。
• 通过 Shell 脚本和变量管理自动化多步骤流程。
• 与数据、DevOps 和分析团队合作,提供可扩展的数据解决方案。
资格:
• 计算机科学、数据工程或相关领域的学士学位(或同等经验)。
• 至少 7 年的数据工程或大数据开发经验。
• 在 Apache Spark 架构、优化和作业配置方面具有强大的专业知识。
• 在使用 Airflow DAG 进行创作、调度、检查点和监控方面有成功经验。
• 精通数据洗牌、分区策略和分布式系统中的性能调优。
• 精通 Python 编程,包括数据结构和算法问题解决。
• 熟悉使用连接、聚合和过滤的 Spark DataFrames 和 PySpark 转换。
• 精通 Shell 脚本,包括在脚本之间管理和传递变量。
• 有使用 spark submit 进行部署和调优的经验。
• 对 ETL 设计、工作流自动化和分布式数据系统有扎实的理解。
• 在大规模环境中具备出色的调试和问题解决能力。
• 有使用 AWS Glue、EMR、Databricks 或类似 Spark 平台的经验。
• 了解数据溯源和数据质量框架,如 Apache Atlas。
• 熟悉 CI/CD 管道、Docker/Kubernetes 和数据治理工具。