职位描述:这个职位涉及设计、实施和管理复杂的数据管道和数据湖架构。理想的候选人将具备深入的数据工程、大数据技术和机器学习运营(MLOps)的理解。职责包括但不限于:• 设计和开发可扩展的数据管道,用于处理和存储来自钻井平台和数字存储库的大量数据。• 实现可靠的数据管道,将不同的数据源集成到一个统一的数据湖架构中。• 开发数据质量管道,确保准确性并构建可信赖的数据集。• 设计一个准确反映业务运营的数据湖架构解决方案。• 协助数据平台性能调优,包括物理数据模型的分区和压缩。• 确保数据质量和完整性贯穿整个数据生命周期。• 与各个团队合作,满足数据需求并提供有效的数据解决方案。• 优化数据检索,并创建用于数据可视化和分析的仪表板。• 在数据可视化和报告工作中提供指导,确保与业务目标一致。• 了解数据基础设施中新兴技术和趋势。• 实施数据安全和合规的最佳实践。要求:• 计算机科学、数据科学、工程或相关领域的学士或硕士学位。• 至少3年的数据工程或类似职位经验。• 熟练使用大数据技术(Hadoop、Spark)和云平台(AWS、Azure)。• 熟练使用Python、Scala或Java等编程语言。• 具备SQL和NoSQL数据库的经验。• 熟悉Apache Airflow或Dagster等数据管道工具。期望的技能:• 强大的问题解决和分析能力。• 有效的沟通和团队合作能力。• 能够适应动态和快节奏的环境。• 对石油和天然气行业有了解者优先考虑。• 熟练使用Python库(PySpark、Pandas、NumPy、Scikit-Learn)。• 熟悉CI/CD原则、ETL流程和Git。