高级大数据工程师
职责:
● 设计和构建可扩展的数据流水线,从各种来源提取、转换和加载数据,并具有特定的时间延迟。
● 维护和优化现有的数据流水线,并自动化数据工作流程,如数据摄取、聚合和ETL处理。
● 通过质量控制程序确保数据的准确性、完整性、隐私、安全性和合规性。
● 设计和实施可靠、可扩展、健壮和可扩展的大数据系统,支持核心产品和业务(如增长分析、洗钱分析和多维分析)。
● 使用编程语言和可视化软件开发和实施技术和分析应用,将原始数据转化为有意义的信息。
● 研究和评估最新的数据相关技术和工具,以保持我们的数据平台更新和竞争力。
要求:
● 熟练掌握开发稳健的数据流水线,包括数据收集和ETL(提取、转换、加载)过程,并设计数据系统的能力。
● 熟练掌握至少一种编程语言,如Python、Java或Scala。
● 至少有3年的大数据技术(Hadoop、M/R、Hive、Spark/PySpark、Presto、Flume、Kafka、Flink等)经验。
● 至少有1年的AWS平台服务(Glue、Athena、EMR、Redshift等)经验。
● 有设计和实施数据平台各个组件的经验,包括数据摄取、存储、数据仓库、数据编排。
● 有撰写、分析和调试SQL查询的经验。
● 对数据领域的技术充满热情并有深入的理解。
● 良好的沟通和协作能力。