职责:
•设计与架构:您将帮助设计和实施分析系统的最佳数据流水线架构。识别、设计和实施改进措施,自动化手动流程,优化数据传递速度和效率,为高可用性、可扩展性和可靠性进行架构设计。架构和设计基础设施,以促进从各种数据源(包括内部和外部、小型和大型)提取、转换、导出和查询数据。
•海量数据:您将使用我们的平台源/检查、分析、构建千兆字节/太字节的结构化和非结构化数据的数据流水线,为客户创造价值。您还将与企业数据一起工作。
•突破极限:这个角色将处于我们的数据/机器学习平台的前沿。随着我们努力解决更多客户的挑战,您将原型设计新功能、工具和想法。以非常快的速度创新,保持我们的竞争优势。
•分布式处理引擎:您将在数据平台上精通处理无界和有界数据源,执行内存计算和转换。
•生产部署:您将负责将数据摄取和机器学习流水线集成和部署到生产环境,让您的想法得以实现。
•与数据科学团队、业务系统分析师和架构团队等相关方合作,解决数据平台技术和组织问题,支持公司的数据和分析需求。
•在现代数据系统的设计、实施和使用方面,培训、指导数据工程和分析团队的成员。
技能:
• 数据平台工程师的资格要求
关键要求:
• IT/CS基础知识:您至少获得了信息技术/计算机科学或相关学位,并具有持续学习的强烈道德观。
• 商业软件工程:您有11年以上的多种编程语言的专业软件开发经验,包括现代虚拟机语言(如Java)、常见的脚本和粘合语言(如Python)以及版本控制(git),具有良好的分析和调试能力。具有在分布式系统中对错误和性能问题进行根本原因分析的经验,包括网络和源代码级调试。
• 大数据:您在数据分析方面有丰富的经验,并对大数据基础设施(如Google Cloud、Big Query、Data Flow、Hadoop生态系统、HDFS、Apache Storm、Apache Spark)有工作知识。您经常构建处理千兆字节/太字节数据的数据流水线,并了解操作如此大型数据集的挑战。
• 云暴露:有使用分布式和云基础设施实施系统和应用的丰富经验。首选GCP,但AWS或Azure也可以。
• 数据建模:对数据、模式、数据模型、PL/SQL、星型和雪花模式以及如何为高效查询数据分析带来效率的理解,了解TDD的重要性并开发数据验证技术。具有分布式关系型和表格数据存储、消息队列、流处理设施和其他可扩展的大数据平台技术的工作知识。
• 实时系统:了解内存、NoSQL和索引技术的数据库演变,以及对实时和流处理系统(如Google pub/sub、GCP技术、Kafka、Storm、Spark Streaming)的经验。
• 强大的设计能力:在大型/高度复杂项目中取得成功的经验,最好是在企业应用和集成领域。具有先进的、实践性的大数据架构、数据流水线和数据集的设计、实施和优化知识。