职责
• 使用 Python 和 PySpark 开发、测试和维护可扩展的 ETL/ELT 管道,以处理大型数据集。
• 在 Snowflake 中设计和实施数据模型和架构,以优化存储和查询性能。
• 使用 Azure Data Factory(或类似工具)构建和管理数据工作流,以协调数据移动和转化。
• 开发和优化 SQL 查询,以进行数据提取、转化和加载。
• 维护和增强数据湖,确保数据治理和安全最佳实践。
• 与 DataOps 和云团队合作,在 OpenShift 和其他容器平台上部署和管理解决方案。
• 监控和排除数据管道问题,确保高可用性和性能。
• 记录数据工程流程、架构和管道,以便知识共享和合规。
• 关注最新的数据工程工具和最佳实践,在适当情况下倡导其采用。
要求
• 具备数据工程师或类似角色的工作经验。
• 精通 Python,包括 PySpark 等框架。
• 精通 SQL,并具有 Snowflake 或类似云数据仓库的经验。
• 具备 Azure Data Factory 或同等云数据编排工具的实践经验。
• 了解数据湖架构及最佳实践。
• 熟悉 OpenShift 或 Kubernetes 等容器编排平台。
• 对数据安全、治理和合规有深入理解。
• 具备版本控制和 CI/CD 管道的经验。
• 优秀的问题解决能力和沟通技巧。
• 计算机科学、数据工程或相关领域的学士学位;高级学位为加分项。