首席 II,SRE 站点可靠性工程师

洛杉矶 8天前全职 网络
面议
概述 职位: 我们正在寻找一位经验丰富的首席 II 级站点可靠性工程师(SRE),负责领导 Herbalife 全球平台的可靠性工程战略和执行。此职位专注于构建和扩展具有弹性和可观测性的系统,推进多云操作,并在各工程团队中嵌入可靠性、自动化和指导方针。您将定义标准,推动现代基础设施实践的采用,并确保我们的服务在规模上提供性能、可用性和可靠性。 您的贡献: - 在 Azure 和 GCP 上架构具有弹性的平台和工具,利用 Kubernetes、无服务器技术和基础设施即代码。 - 使用 Dynatrace、Splunk 和 OpenTelemetry 推动可观测性和监控实践,建立指标、追踪、警报和可操作的仪表板。 - 设计和实施 GitOps 工作流程,以实现一致、可审计和安全的基础设施和应用程序部署。 - 领导使用 Terraform 和相关工具的基础设施自动化,以实现可扩展的自助服务供应和治理。 - 定义和执行 SLO、SLI 和错误预算,以衡量和提高系统可靠性和客户体验。 - 为事件响应、灾难恢复和性能管理制定操作标准和运行手册。 - 与应用程序和基础设施团队合作,确保在堆栈的每一层中构建可靠性、可扩展性和成本效益。 - 指导和影响工程团队采用现代 SRE 实践,并推动卓越运营文化。 团队的特别之处: SRE 团队正在发展,以扩大其超越传统运营的范围,在 Herbalife 的平台中嵌入可观测性、自动化和云原生实践。我们的使命是确保生产系统具有弹性、可观测性和可扩展性,同时使应用程序团队能够在 Azure、GCP 和混合环境中快速且有信心地移动。 资格 成功所需的技能和背景: - 7 年以上现代分布式系统的工程或 SRE 经验。 - 精通至少一种现代编程语言(Python、Go、Java 等)。 - 深入了解使用 Dynatrace、Splunk 和日志/指标管道的可观测性和监控。 - 在多云环境(Azure + GCP)、Kubernetes 和无服务器平台方面具有丰富的实践经验。 - 在 GitOps 实践和 Terraform(IaC)用于自动化、可扩展性和治理方面具有公认的专业知识。 - 具有定义 SLO、SLI 和错误预算并将其嵌入生产系统的经验。 - 在事件响应、事后分析和卓越运营方面具有扎实的背景。 - 能够指导、引导和影响技术和业务合作者。 教育 - 需要计算机科学、工程或相关领域的学士学位。 #LI-AR1 #LI-Hybrid 美国福利声明 Herbalife 为符合条件的美国员工(限于 50 个州和哥伦比亚特区)提供多种福利,包括团体健康计划、其他自愿福利计划和带薪休假。团体健康计划包括医疗、牙科、视力、健康储蓄账户(HSA)、灵活支出账户(FSA)、基本人寿/意外死亡及伤残保险短期和长期残疾,以及员工援助计划(EAP)。其他自愿福利计划包括 401(k) 计划、健康激励计划、员工股票购买计划(ESPP)、补充人寿/重大疾病/住院/意外保险和宠物保险。带薪休假包括公司观察的美国假期、浮动假期、假期、病假、志愿者计划、带薪产假和陪产假、丧假、个人假和投票时间。