职位名称首席数据工程师 – Python, PySpark 和 SQL 地点加拿大职位类型全职合同职责 • 使用 Python、PySpark 和 SQL 构建可扩展的数据摄取和转换管道。 • 处理来自 AWS S3 的原始 CSV/文本文件，包括验证标题、模式检查和检测格式错误的文件。 • 将原始数据转换为结构化的 DataFrame，并实施可重用的数据质量检查。 • 使用 SQL/PySpark 开发高级转换（窗口函数、LAG()、分组逻辑、日期间隙检测等）。 • 在 AWS EMR 上部署和调整 PySpark 应用程序，优化执行器内存、核心、洗牌行为和集群性能。 • 使用 AWS 服务，如 S3、EMR、Glue、Lambda、IAM。 • 调试性能问题（OOM 错误、洗牌溢出、GC 问题）并提高管道可靠性。 • 主导设计讨论、代码审查，并指导初级工程师。所需技能 • 8 年以上数据工程经验。 • 精通 Python（文件处理、脚本编写、验证自动化）。 • 强大的 PySpark 技能（DataFrame、作业调优、分布式处理）。 • 高级 SQL 技能（分析函数、性能调优）。 • 熟练使用 AWS 数据栈：S3、EMR、Glue、Lambda。 • 深刻理解 Spark 内存分配、YARN 容器使用和 EMR 资源调优。 • 出色的调试、沟通和解决问题的能力。加分项 • 具有 Airflow 或 Databricks 经验。 • 具有 Terraform 或 CloudFormation 经验。 • 具有数据湖格式经验（Delta、Iceberg、Hudi）。资历水平中高级雇佣类型合同职位功能信息技术 #J-18808-Ljbffr

首席数据工程师 - Python、PySpark 和 SQL

Princeton IT Services, Inc