服务可靠性高级管理员 - Riot Games招聘

Riot Games成立于2006年，由一群有创业精神的游戏玩家组成，他们相信以玩家为中心的游戏开发可以创造出优秀的游戏。2009年，Riot发布了首款游戏《英雄联盟》，获得了评论家和玩家的好评。作为全球最受欢迎的PC游戏，每个月有超过1亿人进行游戏。玩家们构成了我们社区的基础，正是为了他们，我们不断发展和改进《英雄联盟》的游戏体验。我们正在寻找谦逊而有雄心的、极其聪明的专业人士，他们可以教会我们一些东西。我们承诺会回报你。和我们一样，你认真对待游戏；你对游戏充满热情。我们欢迎那些有不同见解、勇于尝试，并对限制持有健康的无视态度的人。这就是你的机会。服务可靠性高级管理员 - Riot运营中心 Riot运营中心（ROC）负责管理Riot面向玩家的服务的24x7监控和响应部分。当我们的任何在线服务出现问题时，我们是第一道防线。我们利用对最佳实践流程的技术熟悉度，迅速解决事故。该团队还帮助创建和指导其他Riot团队在警报、监控和运营流程方面的最佳实践。作为一名服务可靠性高级管理员，你将与Live Operations团队和全球的Riot密切合作，为玩家建立和维护一个高性能和高可用的游戏服务。你将监控和支持LIVE生产环境、开发环境和一般系统需求的各个方面。你的技术技能和对系统集成的理解将帮助你诊断和沟通潜在问题，提高玩家体验的质量。你将成为操作和故障排除技能的专家。你还可以参与一些项目，帮助改善事故管理和可观察性问题领域的整体服务质量。职责： • 对在线事故进行分类和调查 • 在快节奏的分布式系统环境中执行技术恢复服务操作，特别是微服务，以快速恢复服务并保护玩家体验 • 使用可观察性工具监控Riot的分布式服务的健康状况，发现警报、运行步骤、流程或工具方面的问题 • 执行和维护运行手册，以保持文档的最新状态 • 新团队成员的入职培训 • 在重大发布、活动和发布部署期间提供支持和协调 • 在一定的指导下参与项目工作，开发自动化脚本、工具和新流程，不断改进事故管理流程 • 根据需要记录事故响应的详细信息，以识别问题并改进整体事故管理/响应 • 根据需要参加事后事故根本原因分析会议所需资格： • 计算机科学/IT系统/信息技术专业文凭或同等学历 • 2年以上服务可靠性管理或同等职位经验（系统分析员、系统管理员/工程师、现场运营、网络管理员、NOC工程师等） • 具有事故管理经验，并对ITIL流程有良好的理解 • 熟悉操作系统、网络、软件开发生命周期和敏捷方法论的核心概念 • 在高容量、高可用性和高度分布式环境中具有故障排除技能，能够对事故进行分类 • 有以下工具/平台的使用经验： • 监控解决方案，如Datadog、NewRelic、Nagios、Elastic Search、Grafana • 事件管理工具，如BigPanda、Moogsoft • 基于ITIL的工单系统，如ServiceNow、JIRA 期望资格： • 计算机科学/IT系统/信息技术学士学位或同等学历 • 了解关系型数据库，如MySQL，熟悉CI/CD流水线，尤其是Jenkins • 在在线环境中进行部署的经验是一个加分项 • 在基于容器的生态系统（如Docker）中工作，并使用容器调度器（如Kubernetes、Amazon EKS/ECS或GKE） • 具有AWS云服务经验/认证/培训或同等资格，具备Linux+和Network+或同等资格 • 使用Python、Powershell、JavaScript或Bash构建自动化脚本/工具/作业的经验 • 熟悉站点可靠性工程（SRE）原则和最佳实践别忘了附上简历和求职信。我们收到很多申请，但我们会注意到一个有趣、写得好的介绍，展示出你对游戏的认真态度。