职位描述：我们的客户在新泽西州北部正在寻找一名全职生产支持/网站可靠性工程主管。该职位为混合办公模式，每周需在办公室工作4-5天。仅限本地候选人/不提供搬迁支持。该职位不支持签证赞助。请勿通过第三方申请。职位概述：生产支持和SRE经理负责我们SaaS应用程序的端到端生产运营。该角色领导L1/L2应用程序支持，推动事件和问题管理流程，并倡导网站可靠性工程（SRE）最佳实践。这是一个需要强大技术深度、卓越运营能力和出色沟通技巧的实践型领导职位。经理将与开发、质量保证、基础设施和数据库团队密切合作，以确保所有环境的系统稳定性、可靠性和高可用性。主要职责：事件和问题管理 - 全面负责事件管理生命周期，从检测到解决和事后审查。 - 领导并协调与客户和内部团队的高优先级问题的事件桥接电话。 - 确保事件被准确记录，正确优先级，并在定义的SLA内解决。 - 在停机和重大事件期间，与内部利益相关者和客户保持清晰、及时的沟通。 - 通过识别重复问题、模式和系统性弱点来推动问题管理。 - 从跨职能团队收集技术输入，以生成准确、详细的RCA文档。 - 准备并呈现结构化的RCA报告，包括影响、时间线、根本原因和纠正措施。 SRE和运营卓越 - 为关键服务（可用性、延迟、错误率、吞吐量）定义和维护SLI/SLO。 - 倡导系统的可观测性-日志记录、指标、追踪、仪表板和警报。 - 改进和标准化基于Angular、C#和SQL Server应用程序的监控和警报。 - 识别和实施自动化机会（运行手册、自愈、部署检查、验证脚本）以减少手动工作。 - 参与容量规划、性能调优和弹性测试。团队领导与治理 - 领导和指导L1/L2支持工程师和以SRE为重点的团队成员。 - 建立关于工单卫生、沟通和责任的明确期望。 - 定期进行运营审查，涵盖积压、老化事件、重复问题、SLA和可靠性指标。 - 与开发经理和产品负责人合作，在功能交付的同时优先考虑稳定性和可靠性改进。 - 定义、记录并持续改进与ITIL和SRE最佳实践一致的事件和问题管理流程。 - 确保所有事件、问题和变更都在工单系统中得到妥善记录。 - 为领导和关键利益相关者创建和维护运营仪表板和报告。 - 确保团队构建和维护知识库文章和运行手册，以加速L1/L2解决。资格要求：必需 - 5年以上基于Web/SaaS应用程序的生产支持、应用支持、SRE或运营经验。 - 3年以上领导角色（经理/主管）经验，负责生产支持和/或SRE职能。 - 在领导P1/P0事件和协调多团队响应方面有丰富经验。 - 在复杂、跨职能问题的故障管理和根本原因分析方面有成熟经验。 - 具有Web应用程序环境的实际操作经验，最好是Angular、C#/.NET和SQL Server。 - 具有监控、日志记录和警报工具的经验；对可观测性仪表板有很强的熟悉度。 - 能够阅读和解释应用程序日志、指标和分布式追踪。 - 能够分析SQL查询并诊断数据库性能问题（阻塞、死锁、慢查询）。 - 出色的口头和书面沟通能力，能够向非技术受众解释技术问题。 - 强大的分析、批判性思维和解决问题的能力。优先 - 计算机科学、信息技术或相关领域的学士或硕士学位。 - 支持健康计划或保险组织应用程序的经验。 - 接触过受监管环境，如医疗保健（HIPAA/HITECH、HITRUST、基于NIST的控制）。

应用支持/网站可靠性工程负责人

Aegistech