主要职责
• 设计、构建、安装、测试和维护高度可扩展的数据架构。
• 通过从主要和次要来源获取数据,开发和维护数据库。
• 使用Python和SQL操作数据,并构建用于分析的数据产品。
• 与利益相关者合作,协助解决与数据相关的技术问题,并支持他们的数据基础设施需求。
要求:
• 熟练掌握Python和SQL
• 有数据仓库(例如Snowflake、Redshift)和Lakehouse结构(例如Databricks)的经验
• 有管理半结构化数据源(JSON)的经验
• 有创建和管理数据架构和流水线的经验
• 熟悉AWS,特别是S3、Lambda、EMR、EC2等服务
• 了解Apache Spark、Hadoop、Kafka
• 有构建CDC摄取和流式处理流水线的经验,例如Kafka
• 相信CI/CD、模块化编码和代码文档化
• 出色的团队合作和沟通能力
期望技能
• 有Databricks和Mage的经验
• 掌握其他编程语言(SAS、R、Scala、C++等)
• 对数据和信息分析有热情。
• 有在敏捷环境中工作的经验
• 对机器学习或数据科学感兴趣
• 具有数字和分析能力。
优先资格
• STEM或计算机科学学位