**职位描述**:
• *Grab的生活**:
在Grab,每个Grabber都遵循Grab Way的指导,这清楚地阐明了我们的使命,我们如何相信我们可以实现它,以及我们的操作原则 - 4H:Heart(热情)、Hunger(渴望)、Honour(尊重)和Humility(谦逊)。这些原则指导并帮助我们做出决策,努力为东南亚人民创造经济赋权。
• *了解我们的团队**:
Grab Data Tech通过东南亚的大数据创新实现日常机会。Caspian(Grab的数据工程团队)旨在通过开发高效的工具和技术,使数据生产者和客户能够通过大数据创新识别日常机会,从而使数据湖的使用变得简单。
Caspian运行代码、流水线和基础设施,提取、处理和准备Grab系统生成或消耗的每一条数据。我们是一个多样化的软件工程师团队(运维工程师、数据工程师、全栈工程师),不仅致力于解决Grab各个角落的团队面临的各种数据相关问题,还充当一个通过数据将所有人联系在一起的桥梁。由于Grab的数据永远不停止增长,这个团队也永远不停止学习、创新和扩大,以确保公司的持续成功。
• *了解角色**:
Grab的数据工程师可以处理东南亚任何公司中最大且增长最快的数据集之一。我们在一个具有挑战性、快节奏和不断变化的环境中工作,这将推动您的成长和学习。您将参与Grab数据生态系统的各个领域,包括报告和分析、数据基础设施以及Grab整体技术堆栈的各种其他数据服务。
• *日常活动(职责)**:
- 构建、部署和管理具有可靠的运维功能的大数据工具。能够管理CI/CD流水线、terraform以及云基础设施。
- 深入了解分布式数据处理和数据存储中的不同数据格式和表格格式:
- 数据格式:Parquet、Avro、ORC、Arrow;
- 开放表格格式:Delta Lake、Iceberg、Hudi和Hive;
- 简化数据访问和安全性,使数据科学家、分析师和后端工程师能够在需要时轻松访问数据。
- 使用编程语言(如Python)开发自动化框架,并自动化大数据工作流程,如摄取、聚合、ETL处理等。
- 维护和优化我们的数据分析基础设施的性能,以确保准确、可靠和及时地提供关键洞察力,用于决策。
- 运行现代高性能的分析数据库,深入了解分布式计算,并能够构建可扩展和可靠的ETL流水线和流程,以从大量和各种数据源摄取数据,使用高性能的分析数据库和计算引擎,如Spark、Flink、Presto、Synapse、BigQuery、Greenplum等。
- 了解大多数SQL接口以进行表格和关系数据集。一些分布式分析引擎,如Trino(以前称为Presto)、Druid、Clickhouse、Redshift、Snowflake、Synapse、BigQuery、Greenplum(以及其他通常称为“数据仓库”的工具)集成了专有存储服务和分析引擎,创建了自包含的数据湖功能。
• *要求**:
- 计算机科学、电子工程、电气工程、软件工程、信息技术或其他相关技术学科的学位或更高学历。
- 为大数据分析设计高性能可扩展的基础设施堆栈。
- 编写单元测试、功能测试和端到端测试。
- 对数据、新数据技术和发现公司数据需求的新颖解决方案有真正的热情。
- 出色的沟通技巧,与产品开发工程师沟通,协调数据流水线的开发,或者构建基于数据分析结果的任何新产品功能。
• *最好具备**:
- 处理大型数据集(多PB)并处理结构化、非结构化和地理数据集的经验。
- 在分布式系统中处理大数据的经验,了解分布式OLAP环境中的SQL。
- 熟悉AWS、Azure或Google Cloud Platform等云系统。
- 熟悉Hadoop生态系统中的工具,特别是Presto和Spark。
- 熟练掌握Python、Go、Scala、Java等编程语言,或者熟悉Bash等脚本语言。
- 对数据库和最佳工程实践有深入了解 - 包括处理和记录错误、监控系统、构建人为容错的流水线、了解如何扩展、解决持续集成问题、了解数据库管理、维护数据清洗并确保确定性。