Riot Games成立于2006年,由一群有创业精神的游戏玩家组成,他们相信以玩家为中心的游戏开发可以创造出优秀的游戏。2009年,Riot发布了首款游戏《英雄联盟》,获得了评论家和玩家的好评。作为全球最受欢迎的PC游戏,每个月有超过1亿人进行游戏。玩家们构成了我们社区的基础,正是为了他们,我们不断发展和改进《英雄联盟》的游戏体验。
我们正在寻找谦逊而有雄心的、极其聪明的专业人士,他们可以教会我们一些东西。我们承诺会回报你。和我们一样,你认真对待游戏;你对游戏充满热情。我们欢迎那些有不同见解、勇于尝试,并对限制持有健康的无视态度的人。
这就是你的机会。
服务可靠性高级管理员 - Riot运营中心
Riot运营中心(ROC)负责管理Riot面向玩家的服务的24x7监控和响应部分。当我们的任何在线服务出现问题时,我们是第一道防线。我们利用对最佳实践流程的技术熟悉度,迅速解决事故。该团队还帮助创建和指导其他Riot团队在警报、监控和运营流程方面的最佳实践。
作为一名服务可靠性高级管理员,你将与Live Operations团队和全球的Riot密切合作,为玩家建立和维护一个高性能和高可用的游戏服务。你将监控和支持LIVE生产环境、开发环境和一般系统需求的各个方面。你的技术技能和对系统集成的理解将帮助你诊断和沟通潜在问题,提高玩家体验的质量。你将成为操作和故障排除技能的专家。你还可以参与一些项目,帮助改善事故管理和可观察性问题领域的整体服务质量。
职责:
• 对在线事故进行分类和调查
• 在快节奏的分布式系统环境中执行技术恢复服务操作,特别是微服务,以快速恢复服务并保护玩家体验
• 使用可观察性工具监控Riot的分布式服务的健康状况,发现警报、运行步骤、流程或工具方面的问题
• 执行和维护运行手册,以保持文档的最新状态
• 新团队成员的入职培训
• 在重大发布、活动和发布部署期间提供支持和协调
• 在一定的指导下参与项目工作,开发自动化脚本、工具和新流程,不断改进事故管理流程
• 根据需要记录事故响应的详细信息,以识别问题并改进整体事故管理/响应
• 根据需要参加事后事故根本原因分析会议
所需资格:
• 计算机科学/IT系统/信息技术专业文凭或同等学历
• 2年以上服务可靠性管理或同等职位经验(系统分析员、系统管理员/工程师、现场运营、网络管理员、NOC工程师等)
• 具有事故管理经验,并对ITIL流程有良好的理解
• 熟悉操作系统、网络、软件开发生命周期和敏捷方法论的核心概念
• 在高容量、高可用性和高度分布式环境中具有故障排除技能,能够对事故进行分类
• 有以下工具/平台的使用经验:
• 监控解决方案,如Datadog、NewRelic、Nagios、Elastic Search、Grafana
• 事件管理工具,如BigPanda、Moogsoft
• 基于ITIL的工单系统,如ServiceNow、JIRA
期望资格:
• 计算机科学/IT系统/信息技术学士学位或同等学历
• 了解关系型数据库,如MySQL,熟悉CI/CD流水线,尤其是Jenkins
• 在在线环境中进行部署的经验是一个加分项
• 在基于容器的生态系统(如Docker)中工作,并使用容器调度器(如Kubernetes、Amazon EKS/ECS或GKE)
• 具有AWS云服务经验/认证/培训或同等资格,具备Linux+和Network+或同等资格
• 使用Python、Powershell、JavaScript或Bash构建自动化脚本/工具/作业的经验
• 熟悉站点可靠性工程(SRE)原则和最佳实践
别忘了附上简历和求职信。我们收到很多申请,但我们会注意到一个有趣、写得好的介绍,展示出你对游戏的认真态度。