角色: 高级数据工程师 - Python, SQL
地点: 远程/美国
持续时间: 6 个月以上
职位描述:
技能要求 - Python, SQL(专家级),Spark 和 Scala,Airflow
专业知识:
• 5-9 年以上相关行业经验,具有学士/硕士学位,或 2 年以上博士学位经验
• 具备分布式处理技术和框架的经验,如 Hadoop、Spark、Kafka 和分布式存储系统(例如 HDFS、S3)
• 能够分析大型数据集,以识别差距和不一致性,提供数据洞察,并推动有效的产品解决方案
• 精通 ETL 调度程序,如 Apache Airflow、Luigi、Oozie、AWS Glue 或类似框架
• 对数据仓库概念有扎实的理解,并具备关系型数据库(例如 PostgreSQL、MySQL)和列式数据库(例如 Redshift、BigQuery、HBase、ClickHouse)的实际经验
• 优秀的书面和口头沟通能力
• 一天的工作内容:
• 设计、构建和维护强大且高效的数据管道,从各种来源(包括用户交互、财务细节和外部数据源)收集、处理和存储数据。
• 开发数据模型,以便高效分析和操作数据以优化商品销售。确保数据的质量、一致性和准确性。
• 构建可扩展的数据管道(SparkSQL 和 Scala),利用 Airflow 调度程序/执行器框架
• 与跨职能团队(包括数据科学家、产品经理和软件工程师)合作,定义数据需求,并提供推动商品销售和销售改进的数据解决方案。
• 为 Airbnb 更广泛的数据工程社区做出贡献,以影响工具和标准,从而改善文化和生产力。
• 通过利用和贡献内部工具来自动检测和减轻问题,提高代码和数据质量。