职位:网站可靠性工程师(SRE)
地点:蒙特利尔
职位名称:
网站可靠性工程师(SRE),Service Now,应用基础设施
月份
地点:
蒙特利尔(入职培训期间需到现场/每周需到办公室)
经验水平:高级水平
- 年
开放职位:
职位级别:FTC
应用基础设施(AI)部门正在寻找一名网站可靠性工程师(SRE),以推动Service Now SaaS实施的可靠性工程、运营和客户支持服务。向网站可靠性工程与运营负责人汇报。
该角色需要在全球SRE社区中交付一系列SRE实践。这意味着与同事合作,提供可靠、弹性的系统,而不浪费运营精力。
SRE实践包括任务优化和自动化、技术债务优先级、可观察性和监控仪表板、容量管理、事件响应和问题消除。
该职位专注于Service Now软件即服务,提供一套IT服务管理功能,并与许多产品集成,如聊天机器人技术、值班升级事件管理以及一系列其他本地基础设施(包括SQL数据库、API和网络基础设施)。尽管专注于增值开发和流程交付,这也是一个生产侧的运营角色,需要不时参与值班轮换。
到目前为止,应用基础设施中的SRE角色的成功候选人来自各种背景;可能是今天希望将网站可靠性发展为实践的开发人员,或对可靠性和弹性原则感兴趣的基础设施专家,或喜欢故障排除并具有一些任务自动化经验的强大系统管理员。
不需要金融服务行业的先前经验,我们欢迎来自所有行业和背景的候选人申请。
职责包括:
• 通过优化和自动化的运营任务,交付改进以最大化支持系统的可用性和性能,与同事合作开发运营工具、持续问题管理和架构审查。
• 排查Service Now问题,有时也在Linux环境中处理一些本地功能,与他人合作解决问题,并同意可以进行的持久改进。
• 探索和交付可观察性,包括可以定义和衡量产品目标可靠性的指标、日志、跟踪和警报。
• 在商定的时间内可靠和响应,如与全球团队其他成员一起参与值班轮换时(有调休制度)。
• 承诺了解公司的Service Now实例及相关依赖关系,贡献于其文档化。
• 识别和优先处理可能影响客户满意度或运营效率的技术债务。
• 对与SRE和运营实践交付相关的政策和程序提供反馈,以不断提高公司的安全性和效率。
所需技能:
• 理想的候选人应具备以下至少一项:
一种或多种编程语言的软件开发技能,Python,Service Now管理或开发经验,
• 多年经验
• 熟练的口头和书面沟通能力
• 与同事建立温暖、有效的关系,以协作成功交付
• 可靠的团队工作者,表现出对客户服务的承诺
• 能够在偶尔的技术紧急情况下,如停机时做出适当响应。
• 愿意参与值班轮换
期望技能:
Service Now管理或开发经验,尽管成功的候选人可以通过在职培训获得。