服务可靠性高级管理员

15个月前全职
Riot Games

Riot Games

location 新加坡
unsaved
Riot Games成立于2006年,由一群有创业精神的游戏玩家组成,他们相信以玩家为中心的游戏开发可以创造出优秀的游戏。2009年,Riot发布了首款游戏《英雄联盟》,获得了评论家和玩家的好评。作为全球最受欢迎的PC游戏,每个月有超过1亿人进行游戏。玩家们构成了我们社区的基础,正是为了他们,我们不断发展和改进《英雄联盟》的游戏体验。 我们正在寻找谦逊而有雄心的、极其聪明的专业人士,他们可以教会我们一些东西。我们承诺会回报你。和我们一样,你认真对待游戏;你对游戏充满热情。我们欢迎那些有不同见解、勇于尝试,并对限制持有健康的无视态度的人。 这就是你的机会。 服务可靠性高级管理员 - Riot运营中心 Riot运营中心(ROC)负责管理Riot面向玩家的服务的24x7监控和响应部分。当我们的任何在线服务出现问题时,我们是第一道防线。我们利用对最佳实践流程的技术熟悉度,迅速解决事故。该团队还帮助创建和指导其他Riot团队在警报、监控和运营流程方面的最佳实践。 作为一名服务可靠性高级管理员,你将与Live Operations团队和全球的Riot密切合作,为玩家建立和维护一个高性能和高可用的游戏服务。你将监控和支持LIVE生产环境、开发环境和一般系统需求的各个方面。你的技术技能和对系统集成的理解将帮助你诊断和沟通潜在问题,提高玩家体验的质量。你将成为操作和故障排除技能的专家。你还可以参与一些项目,帮助改善事故管理和可观察性问题领域的整体服务质量。 职责: • 对在线事故进行分类和调查 • 在快节奏的分布式系统环境中执行技术恢复服务操作,特别是微服务,以快速恢复服务并保护玩家体验 • 使用可观察性工具监控Riot的分布式服务的健康状况,发现警报、运行步骤、流程或工具方面的问题 • 执行和维护运行手册,以保持文档的最新状态 • 新团队成员的入职培训 • 在重大发布、活动和发布部署期间提供支持和协调 • 在一定的指导下参与项目工作,开发自动化脚本、工具和新流程,不断改进事故管理流程 • 根据需要记录事故响应的详细信息,以识别问题并改进整体事故管理/响应 • 根据需要参加事后事故根本原因分析会议 所需资格: • 计算机科学/IT系统/信息技术专业文凭或同等学历 • 2年以上服务可靠性管理或同等职位经验(系统分析员、系统管理员/工程师、现场运营、网络管理员、NOC工程师等) • 具有事故管理经验,并对ITIL流程有良好的理解 • 熟悉操作系统、网络、软件开发生命周期和敏捷方法论的核心概念 • 在高容量、高可用性和高度分布式环境中具有故障排除技能,能够对事故进行分类 • 有以下工具/平台的使用经验: • 监控解决方案,如Datadog、NewRelic、Nagios、Elastic Search、Grafana • 事件管理工具,如BigPanda、Moogsoft • 基于ITIL的工单系统,如ServiceNow、JIRA 期望资格: • 计算机科学/IT系统/信息技术学士学位或同等学历 • 了解关系型数据库,如MySQL,熟悉CI/CD流水线,尤其是Jenkins • 在在线环境中进行部署的经验是一个加分项 • 在基于容器的生态系统(如Docker)中工作,并使用容器调度器(如Kubernetes、Amazon EKS/ECS或GKE) • 具有AWS云服务经验/认证/培训或同等资格,具备Linux+和Network+或同等资格 • 使用Python、Powershell、JavaScript或Bash构建自动化脚本/工具/作业的经验 • 熟悉站点可靠性工程(SRE)原则和最佳实践 别忘了附上简历和求职信。我们收到很多申请,但我们会注意到一个有趣、写得好的介绍,展示出你对游戏的认真态度。