高级站点可靠性工程师
职位编号
6630
地点
SLAC - 门洛帕克,加利福尼亚州
全职
常规
SLAC职位发布
加入Vera C. Rubin天文台的数据管理(DM)团队,这是现代天文学的标志性任务之一。Rubin天文台是位于智利的新天文设施,旨在通过空间和时间遗产调查(LSST)创建南天的十年时间推移地图。
作为该团队的一员,您将设计、操作和维护处理Rubin数据的系统,以接近实时的方式进行处理。LSST将通过其8米镜面和3.2亿像素相机每晚生成15TB的原始像素数据,创造出科学上最具挑战性的Peta级数据挑战之一。
数据管理系统的快速处理框架在观测后几分钟内识别并分发每个在天空中移动、变化或出现的天体物体的警报。这些警报包括潜在危险的小行星、超新星和全新的瞬态现象类别。您的工作将通过保持Rubin的警报流动直接促进天体物理学的发现。
您将加入一个由大约80名科学家和工程师组成的分布式团队,负责构建和操作Rubin的Peta级数据管理系统。我们的工作涵盖大规模图像处理、分布式数据库和生产服务。Python是我们的通用语言,我们在GitHub上以开源许可证公开开发我们的软件。
您的角色:
您将负责Rubin天文台快速处理框架的可靠性和稳健性,该系统负责检测和分发夜空中瞬态和移动物体的近实时警报。快速处理框架运行在Kubernetes上,使用与Redis Streams集成的Kubernetes事件驱动自动缩放(KEDA)进行事件驱动缩放。它与PostgreSQL数据库和Kafka接口,以摄取数据并向全球天文学界发布警报。
您的职责:
• 通过架构和实践确保近实时数据处理管道的可靠运行,并及时向下游代理交付警报。
• 设计和开发软件,以降低操作风险并提高系统的弹性、可扩展性和可用性,包括解决故障模式、错误处理和共享资源中的争用。
• 通过应用架构和系统级优化来提高系统性能和弹性,以增加吞吐量并减少端到端延迟。
• 使用现代分布式系统工具和开发实践(例如Kubernetes、Helm、ArgoCD、Kafka、Redis)进行面向DevOps的服务持续部署。
• 开发监控仪表板和警报以用于快速处理服务,并与团队成员合作设计和实施可持续的值班轮换,以在智利观测时间开始时(通常为太平洋时间下午2-5点)提供覆盖,责任有限。
• 定义管道的可观察性和问责制的KPI和指标。
• 参与团队的集体工程活动,包括执行代码审查、作为故障排除伙伴、参与设计讨论以及编写文档以有效捕捉和传达架构和实施选择。
• 与数据管理团队成员合作,识别改进工具、工作流程和操作实践的机会。
• 与更广泛的团队共同承担数据管理系统的整体成功责任,超越快速处理框架。
技术栈
快速处理框架建立在现代云原生基础上。它运行在Kubernetes上,通过Helm和ArgoCD管理部署,并通过KEDA和Redis Streams进行事件驱动缩放。系统与PostgreSQL和Kafka集成,以摄取数据和分发警报,其他数据库包括Cassandra和InfluxDB。我们的主要开发语言是Python,我们的代码在开源模型下公开开发。
成功担任此职位,您将具备:
• 学士学位和八年相关经验,或在生产环境中设计和操作大规模分布式系统的教育和相关经验的结合。
• 在SRE、DevOps或数据密集型系统角色中工作经验,负责构建、操作和改进稳健的服务。
• 参与现代生产基础设施(例如容器化服务、消息系统和数据库;参见上文我们的当前技术栈)的经验,能够在生产环境中快速学习和应用新工具。
• 熟悉当代分布式服务架构,包括服务间通信模式、常见故障模式和系统在负载和规模下的行为。
• 精通至少一种现代编程语言(优选Python),具有跨越软件工程和操作边界的工作经验。
• 处理大规模数据集或高吞吐量数据处理系统的经验,并理解数据量和速度带来的操作挑战。
• 能够与来自不同背景的工程师和科学家清晰沟通,包括解释技术概念、参与设计讨论和记录系统和决策。
• 能够在高度自主的情况下工作,承担技术决策和执行的责任,同时得到具有明确优先事项和目标的经验丰富团队的支持。
我们期望候选人在某些领域具备优势,并对其他领域充满好奇心。
SLAC员工能力:
• 有效决策:利用工作知识和扎实的判断力及时做出高质量的决策。
• 自我发展:通过多种途径和机会继续学习和发展。
• 可靠性:能够被指望以个人责任感交付预期结果。
• 主动性:积极主动地追求工作和互动,充满乐观、积极能量和推动事情向前发展的动力。
• 适应性:在变化发生时灵活调整,保持开放的态度,同时调整和适应变化。
• 沟通:确保信息有效流向不同受众,并创建和传达清晰、适当的书面、口头和演示信息。
• 关系:建立关系以促进信任、团队合作和积极的氛围,以实现共同目标。
身体要求和工作条件:
• 根据法律义务,大学将为任何需要合理便利以履行其工作基本职能的残疾员工提供合理便利。
• 鉴于此职位的性质,SLAC对现场、混合和远程工作选项持开放态度。
工作标准:
• 人际交往能力:展示与斯坦福同事和客户以及外部组织良好合作的能力。
• 促进安全文化:展示对个人责任和环境、安全和安全价值的承诺;传达相关关切;根据培训和经验教训使用和推广安全行为。符合ESH手册第1章一般政策和责任中描述的适用角色和责任:http://www-
• 受限于并预期遵守所有适用的大学政策和程序,包括但不限于大学行政指南中的人事政策和其他政策,
分类标题:软件开发人员3
持续时间:常规持续
职位代码:4823
该职位的预期薪资范围为每年137,773美元至194,585美元。SLAC国家加速器实验室/斯坦福大学提供其对大学合理预期在招聘时支付的职位薪资的良好信心估计。提供给选定候选人的薪酬将根据职位的范围和责任、选定候选人的资格、部门预算可用性、内部公平性、地理位置和可比职位的外部市场薪酬等因素确定。在SLAC/斯坦福,基本薪酬仅代表综合奖励包的一个方面。
SLAC国家加速器实验室是一个平权行动/机会均等雇主,支持工作场所的多样性。所有就业决策均不考虑种族、肤色、宗教、性别、国籍、年龄、残疾、退伍军人身份、婚姻或家庭状况、性取向、性别认同或遗传信息。SLAC国家加速器实验室的所有员工必须能够证明在美国工作的合法权利。SLAC是一个E-Verify雇主。