云平台运营工程师(AWS | 生产运营 | Terraform)_ 合同职位

新加坡 2天前合同 网络
2.7万 - 4.4万 / 月
就业类型 - 12个月可续签合同 - 雇主:NTT DATA - 地点:新加坡(根据项目需求混合/现场) 职位描述 我们正在寻找一名云平台运营工程师,以支持和运营一个在国家规模上使用的关键任务云平台。此角色专注于生产运营、可靠性、事件所有权以及在现代AWS云环境中的持续改进。 您将与工程、安全和利益相关者团队紧密合作,确保平台保持高度可用、安全、可扩展和可靠,同时推动强大的运营标准和最佳实践。 此职位非常适合喜欢动手进行云操作、全面负责事件并希望接触大规模、受监管生产环境的工程师。 主要职责 - 领导日常云平台运营,重点关注AWS内的监控、性能优化、可靠性和运营卓越。 - 负责L2事件管理、故障排除和高吞吐量生产工作流的升级,确保在定义的SLA内解决问题。 - 管理、设计并持续优化AWS云基础设施,以确保可扩展性、安全性、成本效益和高可用性。 - 建立、维护和执行运营流程,包括运行手册、仪表板、健康检查、事件沟通和运营报告。 - 通过执行影响分析、风险评估、缓解计划和安全升级来推动变更、发布和维护管理。 - 审查测试结果,确保变更在生产发布前满足运营、性能和安全要求。 - 定义、跟踪并持续改进运营OKR、SLA和可靠性指标。 - 贡献于后端增强、错误修复和运营工具,以提高平台的稳定性和可维护性。 - 在团队内分享运营最佳实践、事件学习和技术知识,以提升工程和可靠性标准。 要求 必备条件 - 计算机科学、信息技术学位或同等实践经验。 - 至少2年在公共云环境(优选AWS)中管理生产工作负载的实际经验。 - 具备解决云基础设施、应用程序和分布式系统问题的强大能力。 - 具有紧迫感和注重细节的生产事件处理和解决经验。 - 具备定义和执行运营流程、SOP和运行手册的经验。 - 理解高可用性云架构、安全最佳实践和预防性运营控制。 - 了解变更管理、影响评估和服务可靠性改进实践。 优先条件 - 在AWS上大规模操作应用程序的经验。 - 支持受监管、企业或公共部门环境的经验。 - 熟悉可靠性或SRE风格实践是一个优势。 关键技术 - AWS(生产架构、监控、安全、可用性) - Terraform(基础设施即代码) - GitLab(CI/CD管道、版本控制) - 云环境中的监控、日志记录和运营工具 为什么加入 - 参与大规模、高影响力的云平台工作 - 强烈接触生产运营和可靠性工程 - 有机会在AWS云运营中建立深厚的专业知识 - NTT DATA下具有续签潜力的合同职位 有兴趣的候选人请将他们的简历和经验发送至sandeep.sringeripai@global.ntt 我们期待您的申请!