员工站点可靠性工程师,技术负责人

圣弗朗西斯科 5天前全职 网络
面议
关于Unify Unify由Austin Hughes和Connor Heggie于2023年1月17日创立。在创立Unify之前,Austin领导Ramp的增长产品团队,专注于新客户获取,而Connor则是Scale AI的机器学习研究工程师。我们团队的其他成员来自Airbnb、Spotify、Bridgewater和LinkedIn等公司。 我们的使命是为市场团队构建第一个行动系统,从端到端的平台开始,推动温暖的外部销售。如今,外部销售主要由冷淡的大规模推广主导,这些推广淹没了人们的收件箱,转化率极低。我们正在构建一个平台来推动温暖的外部销售,使市场团队能够在客户寻找解决方案的确切时间与合适的人取得联系。 我们的收入同比增长了8倍,已经为Guru、Justworks、Together.AI、Flock Safety、Hightouch等客户提供服务。我们是一个充满活力、高强度的团队,已经从Thrive、Emergence、OpenAI等筹集了5800万美元。加入我们,一起改变市场运作方式。 关于职位 Unify正在通过最先进的AI重新定义市场。作为我们的员工SRE技术负责人,您将负责我们平台的可靠性和可扩展性,因为我们每月增加数TB的数据,并为有严格正常运行时间要求的客户提供服务。您将为可靠性工程设定技术方向,领导一个SRE小组,并直接与工程领导合作,构建保持Unify快速可靠的系统和实践。 您的工作内容 - 领导SRE小组:设定技术方向,推动优先级排序,指导工程师,确保团队应对最具影响力的可靠性和可扩展性挑战。 - 扩展我们的数据基础设施:架构并扩展我们的ClickHouse和PostgreSQL部署,以每月处理数TB的新数据;设计分区策略、优化查询,并构建可靠的复制和故障转移系统。 - 改善系统性能:分析和优化我们后端服务的关键路径,识别数据管道和API层的瓶颈,并发布显著改善延迟和吞吐量的更改。 - 为可靠性而构建:设计和实施速率限制、断路器、优雅降级等模式,以在负载和部分故障期间保持平台稳定。 - 自动化一切:推动消除繁琐工作的工具——自动化部署、扩展操作、备份验证和事件补救。 - 仪表和观察:构建分布式跟踪、指标和警报,使工程师清晰了解系统行为,并快速调试生产问题。 - 定义和执行SLO:建立与客户需求一致的可靠性目标,管理错误预算,并推动在系统稳定性和发布速度之间取得平衡的架构决策。 您的背景 - 8年以上软件工程经验,具有强大的后端基础,其中3年以上专注于可靠性、基础设施或平台工作。 - 有领导团队或小组的经验——设定技术方向、指导工程师,并推动复杂项目的执行。 - 在大规模操作数据库方面具有深厚的专业知识,包括模式设计、查询优化、复制和故障转移策略。 - 强大的编程技能(Typescript、Python、Go或类似语言),并有通过自动化和工具建设显著减少操作负担的记录。 - 协作、低自我态度,并有提升周围人的历史。