职位:首席站点可靠性工程专家(SRE)
职位描述:
地点:
埃德蒙顿
接受靠近CGI办公室的其他地点
混合工作模式
我们正在招聘一名高级站点可靠性工程师(SRE),需要具备构建和运营可靠、可扩展和弹性云平台的坚实基础。您将可靠性和性能工程思维应用于所做的一切——在运营稳定性与现代化和自动化之间取得平衡。在这个角色中,您将应用核心SRE实践,包括SLIs/SLOs、可观测性、事件管理和运营自动化,同时暂时支持一个区域支持战略参与,专注于评估和加强大规模运营环境。
您将与平台、运营和架构团队密切合作,评估当前实践,识别可靠性和支持差距,并为未来的运营模式和实施路线图的定义做出贡献。除了这一参与之外,该角色还设计用于持续的、动手的SRE交付,您将在云和混合环境中领导和实施监控、可靠性工程、自动化和工具。
您将与跨职能团队合作,设计、构建并持续改进平台可靠性、工程标准和运营卓越实践,以支持关键任务服务。这个职位将您置于一个面向客户、高影响力的环境中,您的技术深度、运营判断力以及将可靠性原则转化为实际结果的能力将直接影响服务稳定性、现代化努力和未来的云计划。如果您是一位在复杂环境中茁壮成长的成熟SRE,并重视动手工程和运营领导力,这个角色为您提供了一个创造有意义和持久影响的机会。
您的未来职责和责任:
您是谁?
您是一位高级站点可靠性工程师,擅长解决复杂的可靠性和运营挑战,充满好奇、协作,并持续专注于改进平台、基础设施和服务的运营和支持方式。您的强项在于将合理的工程判断应用于现实世界的运营问题,在可靠性、性能和可维护性之间取得平衡。您同样擅长动手使用工具和系统,并退后一步评估运营实践、支持模型和工作流程如何影响服务可靠性。
您能够自信地与工程师进行技术讨论,同时也能清晰地与运营领导和利益相关者沟通,以解释风险、权衡和改进机会。
以持续改进和学习为基础的思维方式,您倡导现代化、自动化和务实的可靠性实践。您因能够识别根本原因而非症状、及早提出担忧,并将可靠性原则转化为实际、可操作的结果而受到信任。您的同行重视您在复杂环境中的技术深度和冷静领导力,团队依赖您来提升运营成熟度和执行质量。
在CGI,我们认可优秀的SRE从业者,并为他们提供成长、贡献和在各个参与中产生有意义影响的环境和支持。
职责
• 开发、运营和改进跨云和混合环境的监控、日志记录和警报能力,同时暂时贡献SRE专业知识,以评估和合理化现有的运营监控实践,作为区域支持战略计划的一部分。
• 定义、实施并持续改进平台和服务可靠性的SLIs、SLOs和SLAs,在参与过程中应用这些原则以评估当前服务结果并为未来的可靠性目标提供信息。
• 领导和参与事件响应、问题调查和根本原因分析,利用动手SRE经验识别系统性可靠性问题和区域支持运营中观察到的重复性运营失败模式。
• 设计和自动化可靠性和运营…