就业类型
- 12个月可续签合同
- 雇主:NTT DATA
- 地点:新加坡(根据项目需求混合/现场)
职位描述
我们正在寻找一名云平台运营工程师,以支持和运营一个在国家规模上使用的关键任务云平台。此角色专注于生产运营、可靠性、事件所有权以及在现代AWS云环境中的持续改进。
您将与工程、安全和利益相关者团队紧密合作,确保平台保持高度可用、安全、可扩展和可靠,同时推动强大的运营标准和最佳实践。
此职位非常适合喜欢动手进行云操作、全面负责事件并希望接触大规模、受监管生产环境的工程师。
主要职责
- 领导日常云平台运营,重点关注AWS内的监控、性能优化、可靠性和运营卓越。
- 负责L2事件管理、故障排除和高吞吐量生产工作流的升级,确保在定义的SLA内解决问题。
- 管理、设计并持续优化AWS云基础设施,以确保可扩展性、安全性、成本效益和高可用性。
- 建立、维护和执行运营流程,包括运行手册、仪表板、健康检查、事件沟通和运营报告。
- 通过执行影响分析、风险评估、缓解计划和安全升级来推动变更、发布和维护管理。
- 审查测试结果,确保变更在生产发布前满足运营、性能和安全要求。
- 定义、跟踪并持续改进运营OKR、SLA和可靠性指标。
- 贡献于后端增强、错误修复和运营工具,以提高平台的稳定性和可维护性。
- 在团队内分享运营最佳实践、事件学习和技术知识,以提升工程和可靠性标准。
要求
必备条件
- 计算机科学、信息技术学位或同等实践经验。
- 至少2年在公共云环境(优选AWS)中管理生产工作负载的实际经验。
- 具备解决云基础设施、应用程序和分布式系统问题的强大能力。
- 具有紧迫感和注重细节的生产事件处理和解决经验。
- 具备定义和执行运营流程、SOP和运行手册的经验。
- 理解高可用性云架构、安全最佳实践和预防性运营控制。
- 了解变更管理、影响评估和服务可靠性改进实践。
优先条件
- 在AWS上大规模操作应用程序的经验。
- 支持受监管、企业或公共部门环境的经验。
- 熟悉可靠性或SRE风格实践是一个优势。
关键技术
- AWS(生产架构、监控、安全、可用性)
- Terraform(基础设施即代码)
- GitLab(CI/CD管道、版本控制)
- 云环境中的监控、日志记录和运营工具
为什么加入
- 参与大规模、高影响力的云平台工作
- 强烈接触生产运营和可靠性工程
- 有机会在AWS云运营中建立深厚的专业知识
- NTT DATA下具有续签潜力的合同职位
有兴趣的候选人请将他们的简历和经验发送至sandeep.sringeripai@global.ntt
我们期待您的申请!