职位描述:
我们的客户在新泽西州北部正在寻找一名全职生产支持/网站可靠性工程主管。该职位为混合办公模式,每周需在办公室工作4-5天。仅限本地候选人/不提供搬迁支持。
该职位不支持签证赞助。请勿通过第三方申请。
职位概述:
生产支持和SRE经理负责我们SaaS应用程序的端到端生产运营。
该角色领导L1/L2应用程序支持,推动事件和问题管理流程,并倡导网站可靠性工程(SRE)最佳实践。
这是一个需要强大技术深度、卓越运营能力和出色沟通技巧的实践型领导职位。
经理将与开发、质量保证、基础设施和数据库团队密切合作,以确保所有环境的系统稳定性、可靠性和高可用性。
主要职责:
事件和问题管理
- 全面负责事件管理生命周期,从检测到解决和事后审查。
- 领导并协调与客户和内部团队的高优先级问题的事件桥接电话。
- 确保事件被准确记录,正确优先级,并在定义的SLA内解决。
- 在停机和重大事件期间,与内部利益相关者和客户保持清晰、及时的沟通。
- 通过识别重复问题、模式和系统性弱点来推动问题管理。
- 从跨职能团队收集技术输入,以生成准确、详细的RCA文档。
- 准备并呈现结构化的RCA报告,包括影响、时间线、根本原因和纠正措施。
SRE和运营卓越
- 为关键服务(可用性、延迟、错误率、吞吐量)定义和维护SLI/SLO。
- 倡导系统的可观测性-日志记录、指标、追踪、仪表板和警报。
- 改进和标准化基于Angular、C#和SQL Server应用程序的监控和警报。
- 识别和实施自动化机会(运行手册、自愈、部署检查、验证脚本)以减少手动工作。
- 参与容量规划、性能调优和弹性测试。
团队领导与治理
- 领导和指导L1/L2支持工程师和以SRE为重点的团队成员。
- 建立关于工单卫生、沟通和责任的明确期望。
- 定期进行运营审查,涵盖积压、老化事件、重复问题、SLA和可靠性指标。
- 与开发经理和产品负责人合作,在功能交付的同时优先考虑稳定性和可靠性改进。
- 定义、记录并持续改进与ITIL和SRE最佳实践一致的事件和问题管理流程。
- 确保所有事件、问题和变更都在工单系统中得到妥善记录。
- 为领导和关键利益相关者创建和维护运营仪表板和报告。
- 确保团队构建和维护知识库文章和运行手册,以加速L1/L2解决。
资格要求:
必需
- 5年以上基于Web/SaaS应用程序的生产支持、应用支持、SRE或运营经验。
- 3年以上领导角色(经理/主管)经验,负责生产支持和/或SRE职能。
- 在领导P1/P0事件和协调多团队响应方面有丰富经验。
- 在复杂、跨职能问题的故障管理和根本原因分析方面有成熟经验。
- 具有Web应用程序环境的实际操作经验,最好是Angular、C#/.NET和SQL Server。
- 具有监控、日志记录和警报工具的经验;对可观测性仪表板有很强的熟悉度。
- 能够阅读和解释应用程序日志、指标和分布式追踪。
- 能够分析SQL查询并诊断数据库性能问题(阻塞、死锁、慢查询)。
- 出色的口头和书面沟通能力,能够向非技术受众解释技术问题。
- 强大的分析、批判性思维和解决问题的能力。
优先
- 计算机科学、信息技术或相关领域的学士或硕士学位。
- 支持健康计划或保险组织应用程序的经验。
- 接触过受监管环境,如医疗保健(HIPAA/HITECH、HITRUST、基于NIST的控制)。