关于工作
FriendliAI正在寻找一名前线部署工程师(FDE),以协助企业在FriendliAI基础设施上部署、扩展和操作生成和代理AI工作负载。您将直接与客户合作,使用我们的产品(如无服务器端点、专用端点或容器)解决和实施生产级应用程序。
Friendli Container是我们的服务,允许客户下载我们的推理引擎作为Docker镜像,并在他们选择的环境中部署,如私有云或本地。我们的Friendli Container可以通过我们的EKS附加产品直接应用于AWS EKS集群。
您将直接参与客户的项目,与他们的工程团队合作,解决AI推理挑战,如扩展、编排和监控。这是一个实操性强、嵌入客户的角色。如果您曾在DevOps、平台工程或AI应用的SRE领域工作过,这是您的理想职位。
主要职责
• 设计和实施用于LLM和多模态推理的大规模部署架构
• 在Kubernetes集群上部署和管理容器化工作负载
• 诊断生产问题,如性能瓶颈,并根据需要实施临时修复
• 与客户的DevOps团队合作,将FriendliAI的基础设施集成到他们的CI/CD工作流程中
• 开发简化重复部署的脚本、Helm图表和Terraform模块
• 提供现场见解,以塑造我们的平台可靠性、可观察性和扩展策略
• 主持研讨会、技术会议或网络研讨会,帮助客户掌握基础设施最佳实践
资格要求
• 在云基础设施、DevOps或可靠性工程方面有3年以上经验
• 计算机科学、计算机工程、电气工程或相关领域的学士或硕士学位
• 熟练掌握Kubernetes、Docker、Terraform和Helm
• 在分布式系统、网络和性能调优方面有坚实的基础
• 熟悉基于GPU的计算和模型服务工作负载
• 在后端系统或AI工具方面有强大的技术背景
• 有在AWS、GCP或OCI上操作工作负载的经验
• 在实际环境中具备出色的问题解决和调试技能
优先经验
• 有在GPU或集群上部署大型模型(LLM、扩散模型)的经验
• 熟悉推理框架(Triton、vLLM、TensorRT、DeepSpeed-Inference)
• 熟悉可观察性堆栈(Prometheus、Grafana、Loki、ELK、OTEL)
• 了解网络安全和合规框架(如SOC 2)
• 有支持本地或混合云部署的经验
福利
• 亲身参与生成AI基础设施革命
• 具有竞争力的薪酬和福利待遇
• 提供每日午餐和晚餐;无限量供应小吃和饮料
• 健康检查和顶级硬件支持
• 灵活的工作时间和高度协作的环境
关于我们
• FriendliAI正在构建下一代AI推理平台,以无与伦比的性能和效率加速大型语言和多模态模型的部署。我们的基础设施为全球组织提供高吞吐量、低延迟的工作负载,并直接与Hugging Face集成,提供对超过500,000个开源模型的即时访问。我们的使命是提供全球最佳的AI推理平台。