• 负责Hadoop基础架构的实施和持续管理。
• 负责集群维护、故障排除、监控,并遵循适当的备份和恢复策略。
• 提供和管理多个集群(如EMR和EKS)的生命周期。使用Prometheus/Grafana/Splunk进行基础设施监控、日志记录和警报。
• Spark编码(中级水平)
• SQL性能调优
• 在Hadoop/Cloudera环境中进行Hadoop队列分配/分布
• 对Hadoop集群和Hadoop工作负载进行性能调优,并在应用程序/队列级别进行容量规划。负责内存管理、队列分配、在Hadoop/Cloud era环境中的分布经验。
• 能够在生产环境中扩展集群,并具有18/5或24/5生产环境的经验。监控Hadoop集群的连接和安全性,文件系统(HDFS)的管理和监控。
• 调查和分析减少复杂性、创建更高效和生产力的交付过程、或创建增加业务价值的更好技术解决方案的新技术可能性、工具和技术。参与解决问题、根本原因分析,并为基础设施/服务组件提供解决方案建议。
• 负责满足服务级别协议(SLA)目标,并协同确保团队目标的实现。
• 确保所有对生产系统的更改都按照变更管理流程计划和批准。
• 与应用团队合作,根据需要安装操作系统和Hadoop更新、补丁、版本升级。
• 维护所有系统、数据、利用率和可用性指标的中央仪表板。