首席数据工程师 - Python、PySpark 和 SQL

蒙特利尔 6天前全职 网络
面议
职位名称 首席数据工程师 – Python, PySpark 和 SQL 地点 加拿大 职位类型 全职合同 职责 • 使用 Python、PySpark 和 SQL 构建可扩展的数据摄取和转换管道。 • 处理来自 AWS S3 的原始 CSV/文本文件,包括验证标题、模式检查和检测格式错误的文件。 • 将原始数据转换为结构化的 DataFrame,并实施可重用的数据质量检查。 • 使用 SQL/PySpark 开发高级转换(窗口函数、LAG()、分组逻辑、日期间隙检测等)。 • 在 AWS EMR 上部署和调整 PySpark 应用程序,优化执行器内存、核心、洗牌行为和集群性能。 • 使用 AWS 服务,如 S3、EMR、Glue、Lambda、IAM。 • 调试性能问题(OOM 错误、洗牌溢出、GC 问题)并提高管道可靠性。 • 主导设计讨论、代码审查,并指导初级工程师。 所需技能 • 8 年以上数据工程经验。 • 精通 Python(文件处理、脚本编写、验证自动化)。 • 强大的 PySpark 技能(DataFrame、作业调优、分布式处理)。 • 高级 SQL 技能(分析函数、性能调优)。 • 熟练使用 AWS 数据栈:S3、EMR、Glue、Lambda。 • 深刻理解 Spark 内存分配、YARN 容器使用和 EMR 资源调优。 • 出色的调试、沟通和解决问题的能力。 加分项 • 具有 Airflow 或 Databricks 经验。 • 具有 Terraform 或 CloudFormation 经验。 • 具有数据湖格式经验(Delta、Iceberg、Hudi)。 资历水平 中高级 雇佣类型 合同 职位功能 信息技术 #J-18808-Ljbffr