项目描述
我们正在寻找一位在数据工程领域拥有深厚专业知识的专家,具备 Databricks 平台工程师的经验。此人应对数据平台和软件工程有全面的理解,使其能够有效地将平台整合到 IT 生态系统中。
职责
• 管理和优化 Databricks 数据平台。
• 确保数据系统的高可用性、安全性和性能。
• 提供关于数据平台使用的有价值见解。
• 优化大规模数据处理的计算和存储。
• 设计和维护用于 ETL 管道和平台治理的系统库(Python)。
• 优化 ETL 流程 - 改进和调整现有 ETL 流程,以提高性能、可扩展性和可靠性。
技能
必须具备
• 至少 10 年的信息技术/数据经验。
• 至少 3 年作为 Databricks 数据平台工程师的经验。
• 信息技术或相关领域的学士学位。
• 基础设施与云:Azure、AWS(在存储、网络、计算方面的专业知识)。
• 编程:精通 PySpark 进行分布式计算。
• 精通 Python 进行 ETL 开发。
• SQL:精通编写和优化 SQL 查询,最好具备 PostgreSQL、MySQL、Oracle 或 Snowflake 等数据库的经验。
• 数据仓库:具备数据仓库概念和 Databricks 平台的工作经验。
• ETL 工具:熟悉 ETL 工具和流程。
• 数据建模:具备维度建模、规范化/反规范化和架构设计的经验。
• 版本控制:熟练使用 Git 等版本控制工具管理代码库并进行协作开发。
• 数据管道监控:熟悉监控工具(例如 Prometheus、Grafana 或自定义监控脚本)以跟踪管道性能。
• 数据质量工具:具备实施数据验证、清理和质量框架的经验,理想情况下使用 Monte Carlo。
加分项
• 容器化与编排:Docker、Kubernetes。
• 基础设施即代码(IaC):Terraform。
• 对投资数据领域的理解(优先考虑)。