首席站点可靠性工程师;SRE

多伦多 8天前全职 网络
面议
职位:首席站点可靠性工程师(SRE) 职位描述: 地点: 埃德蒙顿 可接受靠近CGI办公室的其他地点 混合工作模式 我们正在招聘一名高级站点可靠性工程师(SRE),要求具备构建和运营可靠、可扩展且具有弹性的云平台的坚实基础。您将把可靠性和性能工程的思维方式应用到所有工作中——在运营稳定性与现代化和自动化之间取得平衡。在此职位中,您将应用核心SRE实践——包括SLI/SLO、可观测性、事件管理和运营自动化——同时临时支持一项区域支持战略参与,专注于评估和加强大规模运营环境。 您将与平台、运营和架构团队密切合作,评估当前实践,识别可靠性和支持差距,并为定义未来的运营模式和实施路线图做出贡献。除了这项参与之外,该职位还旨在进行持续的、实际的SRE交付,您将领导并实施跨云和混合环境的监控、可靠性工程、自动化和工具。 您将与跨职能团队合作,设计、构建并持续改进平台可靠性、工程标准和运营卓越实践,以支持关键任务服务。此职位将您置于一个面向客户、高影响力的环境中,您的技术深度、运营判断力以及将可靠性原则转化为实际成果的能力将直接影响服务稳定性、现代化努力和未来的云计划。如果您是一位在复杂环境中茁壮成长并重视实际工程和运营领导的成熟SRE,此职位将为您提供一个产生有意义和持久影响的机会。 您的未来职责和责任: 您是谁? 您是一位高级站点可靠性工程师,擅长解决复杂的可靠性和运营挑战,充满好奇心、协作精神,并持续专注于改进平台、基础设施和服务的运营和支持。您的强项在于将合理的工程判断应用于现实世界的运营问题,在可靠性、性能和可维护性之间取得平衡。您同样擅长亲自操作工具和系统,也能退一步评估运营实践、支持模型和工作流程如何影响服务可靠性。 您能够自信地参与与工程师的技术讨论,同时也能清晰地与运营领导和利益相关者沟通,解释风险、权衡和改进机会。 以持续改进和学习为基础的思维方式,您倡导现代化、自动化和务实的可靠性实践。您因能够识别根本原因而非症状、提前提出担忧并将可靠性原则转化为实际、可操作的成果而受到信任。您的同行重视您在复杂环境中的技术深度和冷静领导力,团队依赖您提升运营成熟度和执行质量。 在CGI,我们认可优秀的SRE实践者,并为他们提供成长、贡献和在各项参与中产生有意义影响的环境和支持。 职责 • 开发、运营和改进跨云和混合环境的监控、日志记录和警报能力,同时临时贡献SRE专业知识,作为区域支持战略计划的一部分,评估和合理化现有的运营监控实践。 • 定义、实施并持续改进平台和服务可靠性的SLI、SLO和SLA,在参与过程中应用这些原则评估当前服务结果并为未来的可靠性目标提供信息。 • 领导和参与事件响应、问题调查和根本原因分析,利用实际的SRE经验识别系统性可靠性问题和区域支持运营中观察到的重复性运营故障模式。 • 设计和自动化可靠性和运营…