员工站点可靠性工程师,存储

圣弗朗西斯科 9天前全职 网络
面议
克鲁索的使命是加速能源和智能的丰富性。我们正在打造一个引擎,推动一个人们可以雄心勃勃地利用AI创造的世界——无需牺牲规模、速度或可持续性。 在克鲁索,加入可持续技术的AI革命。在这里,您将推动有意义的创新,产生切实的影响,并加入一个为负责任的、变革性的云基础设施设定步伐的团队。 关于这个职位: 在克鲁索能源系统公司,我们的SRE团队在维护我们AI优化云基础设施的性能和可靠性方面扮演着至关重要的角色。专注于存储的站点可靠性工程师角色负责确保克鲁索云存储产品和服务的可用性、性能和可扩展性,这些产品和服务为AI和HPC用例提供计算密集型、延迟敏感的工作负载。这个角色通过构建和优化大规模分布式、容错存储系统,直接支持我们垂直整合的可持续云平台。 您的工作内容: 在这个角色中,您将构建自动化和自愈工具来监控和维护克鲁索的分布式云存储基础设施,包括块、文件和对象存储系统。您将推动以数据复制、加密、备份和恢复策略以及强大的故障转移机制为重点的可靠性计划。与存储工程师密切合作,您将帮助实施和维护支持大规模AI计算集群的高性能NVMe和SSD支持的卷。您的职责还包括支持面向用户的存储服务,重点关注可用性、性能调优和遵守错误预算。您将使用深度遥测、日志和性能分析调查和解决与存储相关的事件,同时还将与硬件和内核团队合作诊断低级别的I/O问题并优化I/O路径、缓存策略和文件系统。此外,您还将为专为AI优先的云环境设计的容错、可扩展存储后端的架构做出贡献。 您将为团队带来什么: - 8年以上存储SRE、系统工程、存储工程或类似角色的专业经验 - 拥有分布式存储系统(如Ceph、GlusterFS、OpenEBS)的实践经验,并对对象、块和文件存储范式有深刻理解。 - 熟练掌握一种编程语言,如Go、Python、Java或C。 - 具有基础设施即代码和部署工具(如Terraform、Ansible或Puppet)的经验。 - 深入了解Linux内部,重点关注I/O子系统、内存管理和存储调度。 - 熟悉NFS、SMB、iSCSI或NVMe-oF等存储协议。 - 拥有与容器化工作负载和编排平台(如Kubernetes、Docker)合作的丰富经验。 - 优秀的事件响应、故障排除和文档编写实践。 - 具有大规模构建和运营托管服务(如对象、文件和块存储(AWS、GCP、Azure))的经验 - 优秀的沟通能力 - 必须能够通过背景调查 - 体现公司价值观 福利: - 行业内具有竞争力的薪酬 - 在快速增长、资金充足的科技公司中获得限制性股票单位 - 包括HDHP和PPO、视力和牙科的健康保险套餐选项,适用于您和您的家属 - 雇主对HSA账户的贡献 - 带薪育儿假 - 带薪人寿保险、短期和长期残疾保险 - Teladoc - 401(k)计划,100%匹配高达工资的4% - 慷慨的带薪休假和假期安排 - 手机报销 - 学费报销 - Calm应用程序订阅 - MetLife法律服务 - 公司支付的通勤福利;每月300美元 薪酬范围: 薪酬将在每年204,000美元至247,000美元之间支付+奖金。所有报价中均包含限制性股票单位。薪酬将根据申请人的教育、经验、知识、技能和能力,以及内部公平性和与市场数据的对齐情况确定。 克鲁索是一个平等机会的雇主。就业决定不考虑种族、肤色、宗教、残疾、遗传信息、怀孕、公民身份、婚姻状况、性别/性别、性取向/性别认同、年龄、退伍军人身份、国籍或任何其他受法律或法规保护的身份。