概述职位：我们正在寻找一位经验丰富的首席 II 级站点可靠性工程师（SRE），负责领导 Herbalife 全球平台的可靠性工程战略和执行。此职位专注于构建和扩展具有弹性和可观测性的系统，推进多云操作，并在各工程团队中嵌入可靠性、自动化和指导方针。您将定义标准，推动现代基础设施实践的采用，并确保我们的服务在规模上提供性能、可用性和可靠性。您的贡献： - 在 Azure 和 GCP 上架构具有弹性的平台和工具，利用 Kubernetes、无服务器技术和基础设施即代码。 - 使用 Dynatrace、Splunk 和 OpenTelemetry 推动可观测性和监控实践，建立指标、追踪、警报和可操作的仪表板。 - 设计和实施 GitOps 工作流程，以实现一致、可审计和安全的基础设施和应用程序部署。 - 领导使用 Terraform 和相关工具的基础设施自动化，以实现可扩展的自助服务供应和治理。 - 定义和执行 SLO、SLI 和错误预算，以衡量和提高系统可靠性和客户体验。 - 为事件响应、灾难恢复和性能管理制定操作标准和运行手册。 - 与应用程序和基础设施团队合作，确保在堆栈的每一层中构建可靠性、可扩展性和成本效益。 - 指导和影响工程团队采用现代 SRE 实践，并推动卓越运营文化。团队的特别之处： SRE 团队正在发展，以扩大其超越传统运营的范围，在 Herbalife 的平台中嵌入可观测性、自动化和云原生实践。我们的使命是确保生产系统具有弹性、可观测性和可扩展性，同时使应用程序团队能够在 Azure、GCP 和混合环境中快速且有信心地移动。资格成功所需的技能和背景： - 7 年以上现代分布式系统的工程或 SRE 经验。 - 精通至少一种现代编程语言（Python、Go、Java 等）。 - 深入了解使用 Dynatrace、Splunk 和日志/指标管道的可观测性和监控。 - 在多云环境（Azure + GCP）、Kubernetes 和无服务器平台方面具有丰富的实践经验。 - 在 GitOps 实践和 Terraform（IaC）用于自动化、可扩展性和治理方面具有公认的专业知识。 - 具有定义 SLO、SLI 和错误预算并将其嵌入生产系统的经验。 - 在事件响应、事后分析和卓越运营方面具有扎实的背景。 - 能够指导、引导和影响技术和业务合作者。教育 - 需要计算机科学、工程或相关领域的学士学位。 #LI-AR1 #LI-Hybrid 美国福利声明 Herbalife 为符合条件的美国员工（限于 50 个州和哥伦比亚特区）提供多种福利，包括团体健康计划、其他自愿福利计划和带薪休假。团体健康计划包括医疗、牙科、视力、健康储蓄账户（HSA）、灵活支出账户（FSA）、基本人寿/意外死亡及伤残保险短期和长期残疾，以及员工援助计划（EAP）。其他自愿福利计划包括 401(k) 计划、健康激励计划、员工股票购买计划（ESPP）、补充人寿/重大疾病/住院/意外保险和宠物保险。带薪休假包括公司观察的美国假期、浮动假期、假期、病假、志愿者计划、带薪产假和陪产假、丧假、个人假和投票时间。

首席 II，SRE 站点可靠性工程师

Herbalife