高级数据工程师 - Spark, Airflow

旧金山 2天前合同 网络
面议
我们正在寻找一位经验丰富的数据工程师,负责设计和优化可扩展的数据管道,以推动我们的全球数据和分析计划。在这个角色中,您将利用 Apache Spark、Airflow 和 Python 等技术构建高性能的数据处理系统,并确保 Mastercard 数据生态系统中的数据质量、可靠性和溯源。 理想的候选人结合了强大的技术专长和分布式数据系统、工作流自动化以及性能调优的实践经验,以在企业规模上提供有影响力的数据驱动解决方案。 职责: • 设计和优化基于 Spark 的 ETL 管道,以进行大规模数据处理。 • 构建和管理 Airflow DAG,用于调度、编排和检查点。 • 实施分区和洗牌策略以提高 Spark 性能。 • 确保系统间的数据溯源、质量和可追溯性。 • 开发 Python 脚本用于数据转换、聚合和验证。 • 使用 spark-submit 执行和调优 Spark 作业。 • 执行 DataFrame 连接和聚合以获取分析洞察。 • 通过 Shell 脚本和变量管理自动化多步骤流程。 • 与数据、DevOps 和分析团队合作,提供可扩展的数据解决方案。 资格: • 计算机科学、数据工程或相关领域的学士学位(或同等经验)。 • 至少 7 年的数据工程或大数据开发经验。 • 在 Apache Spark 架构、优化和作业配置方面具有强大的专业知识。 • 在使用 Airflow DAG 进行创作、调度、检查点和监控方面有成功经验。 • 精通数据洗牌、分区策略和分布式系统中的性能调优。 • 精通 Python 编程,包括数据结构和算法问题解决。 • 熟悉使用连接、聚合和过滤的 Spark DataFrames 和 PySpark 转换。 • 精通 Shell 脚本,包括在脚本之间管理和传递变量。 • 有使用 spark submit 进行部署和调优的经验。 • 对 ETL 设计、工作流自动化和分布式数据系统有扎实的理解。 • 在大规模环境中具备出色的调试和问题解决能力。 • 有使用 AWS Glue、EMR、Databricks 或类似 Spark 平台的经验。 • 了解数据溯源和数据质量框架,如 Apache Atlas。 • 熟悉 CI/CD 管道、Docker/Kubernetes 和数据治理工具。