职位名称
首席数据工程师 – Python, PySpark 和 SQL
地点
加拿大
职位类型
全职合同
职责
• 使用 Python、PySpark 和 SQL 构建可扩展的数据摄取和转换管道。
• 处理来自 AWS S3 的原始 CSV/文本文件,包括验证标题、模式检查和检测格式错误的文件。
• 将原始数据转换为结构化的 DataFrame,并实施可重用的数据质量检查。
• 使用 SQL/PySpark 开发高级转换(窗口函数、LAG()、分组逻辑、日期间隙检测等)。
• 在 AWS EMR 上部署和调整 PySpark 应用程序,优化执行器内存、核心、洗牌行为和集群性能。
• 使用 AWS 服务,如 S3、EMR、Glue、Lambda、IAM。
• 调试性能问题(OOM 错误、洗牌溢出、GC 问题)并提高管道可靠性。
• 主导设计讨论、代码审查,并指导初级工程师。
所需技能
• 8 年以上数据工程经验。
• 精通 Python(文件处理、脚本编写、验证自动化)。
• 强大的 PySpark 技能(DataFrame、作业调优、分布式处理)。
• 高级 SQL 技能(分析函数、性能调优)。
• 熟练使用 AWS 数据栈:S3、EMR、Glue、Lambda。
• 深刻理解 Spark 内存分配、YARN 容器使用和 EMR 资源调优。
• 出色的调试、沟通和解决问题的能力。
加分项
• 具有 Airflow 或 Databricks 经验。
• 具有 Terraform 或 CloudFormation 经验。
• 具有数据湖格式经验(Delta、Iceberg、Hudi)。
资历水平
中高级
雇佣类型
合同
职位功能
信息技术
#J-18808-Ljbffr