高级站点可靠性工程师 - 托管 Kubernetes

圣弗朗西斯科 9天前全职 网络
面议
Lambda,超级智能云,是AI云基础设施的领导者,服务于数万名客户。我们的客户范围从AI研究人员到企业和超大规模企业。Lambda的使命是让计算像电力一样无处不在,并赋予每个人超级智能的力量。一人一GPU。 如果您想打造世界上最好的AI云,加入我们。 • 注意:该职位要求每周4天在我们位于旧金山/圣何塞或贝尔维尤的办公室工作;Lambda目前的居家办公日是周二。 Lambda的工程团队负责构建和扩展我们的云产品。我们的范围包括Lambda网站、云API和系统,以及用于系统部署、管理和维护的内部工具。 您将做什么 • 操作和维护裸金属Kubernetes集群,扩展到数千个节点 • 使用车队管理工具处理集群退化、恢复、调整大小和事件响应 • 参与良好管理的关键事件值班轮换 • 协助客户处理Kubernetes问题、工作负载集成、存储和身份验证 • 与我们的HPC Ops和数据中心Ops团队密切合作,解决低级或跨功能问题 • 使用Python和Golang创建工具并自动验证平台质量 • 设计、构建和维护可扩展的控制平面服务、操作员和Kubernetes的自定义控制器 • 开发集群生命周期管理的自动化:供应、升级、修补和删除 • 定义和实施Kubernetes服务、工作负载和平台可靠性的SLO和SLI 关于您 必须具备 • 6年以上SRE、运营工程师或类似角色的经验,深谙运行Linux集群和系统 • 精通Go和Python编程;有GitOps(例如ArgoCD)、Helm和Kubernetes操作员的经验 • 具有在生产环境中操作Kubernetes集群的经验(本地、EKS、GKE或类似) • 能够在有限指导下独立工作或作为团队的一部分工作 • 能够在事件期间通过工单、实时消息或作为更大呼叫的一部分与客户合作 • 熟悉Prometheus、Grafana、FluentBit等可观察性工具和CI/CD管道 • 具有使用工具(如kubeadm、Cluster API或类似工具)配置Kubernetes的经验 加分项 • 深入的Kubernetes专业知识:CRD、CSI、CNI、Kubernetes操作员编码经验 • 接触过HPC集群、AI/ML工作负载或大规模GPU集群 • 混合或多云Kubernetes环境经验 • 对CNCF项目或Kubernetes SIGs的贡献 为什么加入我们 • 在AI/ML工作负载的前沿托管Kubernetes平台上工作 • 影响平台路线图并帮助制定运营和可靠性最佳实践 • 与高技能工程师合作 • 有机会在快速发展的技术驱动环境中指导和成长 薪资范围信息 该职位的年薪范围是根据市场数据和其他因素设定的。然而,对于资历与职位描述中列出的有显著差异的候选人,可能会适用高于或低于此范围的薪资。 关于Lambda • 成立于2012年,拥有500多名员工,并快速增长 • 我们的投资者包括TWG Global、美国创新技术基金(USIT)、Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel(IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、Gradient Ventures、Mercato Partners、SVB、1517和Crescent Cove • 我们的研究论文被顶级机器学习和图形会议接受,包括NeurIPS、ICCV、SIGGRAPH和TOG • 我们的价值观是公开的:https://lambda.ai/careers • 我们提供慷慨的现金和股权补偿 • 为您和您的家属提供健康、牙科和视力保险 • 为特定职位提供健康和通勤津贴 • 401k计划,2%公司匹配(美国员工) • 灵活的带薪休假计划,我们都实际使用 最后一点: 您不需要符合所有列出的期望即可申请此职位。我们致力于建立一个具有多样背景、经验和技能的团队。 平等机会雇主 Lambda是一个平等机会雇主。申请人不分种族、肤色、宗教、信仰、国籍、年龄、性别、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或任何其他法律禁止的因素。