工作摘要
作为云数据架构师,您负责使用云技术设计和实施可扩展和安全的数据解决方案。您将与业务利益相关者和数据分析师合作,了解数据需求并将其转化为逻辑和物理数据模型。您还将利用自己在云服务、数据工程和数据治理方面的专业知识,优化数据管道和平台的性能、可靠性和质量。
所需经验年限
• 经验水平:15年以上
• 至少5年的数据架构、数据工程或数据分析经验
• 候选人应具有在云平台和本地平台上构建数据仓库、数据湖、ODS和OLTP数据平台和处理层的丰富经验。
• 熟悉数据管理领域的知识,并具有在Spark中构建数据文件摄取和数据管道的组件的能力,以验证、标准化、处理、清洗和转换数据并存储。
• 在大数据技术的数据工程方面具备专业知识,包括在本地和云平台上的AWS、Azure和Google Cloud Platform等。
• 熟悉数据建模技术和最佳实践,如ER图、维度建模和数据规范化
• 熟悉数据质量、数据安全和数据治理标准和框架
• 能够与技术和非技术利益相关者有效沟通
技术技能:
所需工具和技术:
• 为大型企业设计BI / DW / DL平台
• 在oltp / olap应用程序的数据建模经验
• 实体关系建模,领域建模,维度建模,NoSQL中的数据建模,GraphDB中的概念建模等
• Hadoop生态系统HDFS,Hive,Hbase,Spark,Hue / Ambari,Impala,Sqoop,Kafka
• Hadoop分发Cloudera / Hortonworks / MAPR / Databricks
• AWS数据平台- EMR,EC2,Kinesis,Redshift,RDS,DMS,Cloud watch
• 在Databricks上工作的经验
• Apache Airflow,消息传递/ Apache Kafka等
次要技能:
• ETL技术Informatica / Abinitio / Datastage / Talend
• 数据库Oracle / DB2 / MySQL / Postgres / Teradata / MongoDB / Cassandra / Snowflake
流程技能:
• 应熟悉包括Hive、Hbase、Sqoop、Kafka、Hue和Spark在内的大数据工具和技术,熟练掌握Java / Python / Scala等编程语言之一。
• 对SMP和MPP系统以及在这些平台上进行数据处理的概念性理解良好,使用lambda和kappa架构、流处理和批处理。
• 在AWS生态系统上工作的经验,并且应具有将ETL管道从Talend / Informatica / Abinitio迁移到Hadoop / Glue / Spark的经验。
• 熟练处理结构化、半结构化(json、xml等)和非结构化数据、数据模式漂移等,并了解各种大数据文件格式,如AVRO、Parquet、ORC
• 应具备现代和传统数据库系统(NoSQL vs RDBMS)的知识。
• 必须具备分布式文件系统的知识。
行为技能:
• 应具备设计和开发数据迁移、数据摄取、数据存储、构建数据湖、使用Spark等Hadoop工具和使用Glue和EMR等AWS工具创建数据湖中的各个层的能力。
• 应熟悉包括Spark在内的ETL管道的性能调优。
• 必须具备构建高度可扩展的企业级应用程序的架构和设计经验。
• 专家设计使用ETL和其他数据集成模式的数据集成
• 对业务流程有高级知识
• 候选人应能够指导客户和管理层,在特定场景中应用哪些工具和技术以实现最佳利用和成本优化。
所需认证:
教育资格:B.Tech,BE,BCA,MCA,M.Tech或来自知名学院的等同技术学位