AI/LLM评估与对齐软件工程师35

纽约 10天前全职 网络
面议
在LeoTech,我们热衷于构建能够解决公共安全领域实际问题的软件。我们的软件已被用于帮助打击持续的犯罪企业、毒品贩运组织、识别金融欺诈、破坏性和人口贩运网络,并关注心理健康问题等。 职位 - 这是一个远程居家办公的职位。 - 作为我们数据科学团队的AI/LLM评估与对齐工程师,您将在确保我们的大型语言模型(LLM)和Agentic AI解决方案的准确性、安全性以及与公共安全和执法工作流程的独特要求对齐方面发挥关键作用。您将设计和实施评估框架、保护措施和偏见缓解策略,以增强客户对我们AI系统的可靠性和伦理使用的信心。这是一个个人贡献者(IC)角色,结合了动手技术工程和负责任的AI部署重点。您将与AI工程师、产品经理和DevOps团队密切合作,建立评估标准,为生成模型设计测试工具,并在我们的AI堆栈中实现质量保证流程。 核心职责 - 构建和维护针对公共安全和情报用例的LLM和生成AI系统的评估框架。 - 设计保护措施和对齐策略,以最小化生产工作流程中的偏见、毒性、幻觉和其他伦理风险。 - 与AI工程师和数据科学家合作定义在线和离线评估指标(例如,模型漂移、数据漂移、事实准确性、一致性、安全性、可解释性)。 - 为AI模型实施连续评估管道,集成到CI/CD和生产监控系统中。 - 与利益相关者合作,对模型进行边缘案例、对抗性提示和敏感数据场景的压力测试。 - 研究并整合第三方评估框架和解决方案;将其适应我们的监管、高风险环境。 - 与产品和客户团队合作,确保AI输出的可解释性、透明性和可审计性。 - 在负责任的AI实践中提供技术领导,影响整个组织的标准。 - 为AI评估和保护措施系统的部署、监控和扩展贡献DevOps/MLOps工作流程(有Kubernetes经验者优先)。 - 记录最佳实践和发现,并在团队中分享知识,以促进负责任的AI创新文化。 我们重视的内容 - 计算机科学、人工智能、数据科学或相关领域的学士或硕士学位。 - 3-5年以上ML/AI工程的实际经验,其中至少2年直接从事LLM评估、QA或安全工作。 - 熟悉生成AI的评估技术:人机协作评估、自动化指标、对抗性测试、红队测试。 - 具备偏见检测、公平方法和负责任的AI设计经验。 - 了解LLM可观察性、监控和保护框架,例如Langfuse、Langsmith。 - 熟练掌握Python和现代AI/ML/LLM/Agentic AI库(LangGraph、Strands Agents、Pydantic AI、LangChain、HuggingFace、PyTorch、LlamaIndex)。 - 有将评估集成到DevOps/MLOps管道的经验,最好是使用Kubernetes、Terraform、ArgoCD或GitHub Actions。 - 理解云AI平台(AWS、Azure)和部署最佳实践。 - 具备强大的问题解决能力,能够为现实世界的高风险场景设计实用的评估系统。 - 优秀的沟通能力,能够将技术风险和评估结果转化为技术和非技术利益相关者的见解。 我们使用的技术 - 云和基础设施:AWS(Bedrock、SageMaker、Lambda)、Azure AI、Kubernetes(EKS)、Terraform、ArgoCD。 - LLM和评估:HuggingFace、OpenAI API、Anthropic、LangChain、LlamaIndex、Ragas、DeepEval、OpenAI Evals。 - 可观察性和保护措施:Langfuse、GuardrailsAI。 - 后端和数据:Python(主要)、ElasticSearch、Kafka、Airflow。 - DevOps和自动化:GitHub Actions、CodePipeline。 您可以期待的内容 - 居家办公机会 - 享受良好的团队合作氛围。 - 在快节奏和具有挑战性的问题中茁壮成长。 - 现代技术和工具。 - 持续学习环境。 - 有机会在团队环境中与各个技术水平的人沟通和合作。 - 在获得反馈后成长并将其融入您的工作。 - 成为一个自我管理的团队的一部分,在需要时享受支持和指导。 - 3周带薪假期——从一开始就有!! - 具有竞争力的薪资。 - 慷慨的医疗、牙科和视力计划。 - 提供病假和带薪假期。 $135,000 - $160,000 每年 请注意,职位发布中列出的全国薪资范围反映了适用于该职位的不同级别和美国地区的新员工薪资范围。最终薪资将与候选人接受的聘用级别和工作地点相称。此外,该范围仅代表基本薪资,不包括股权或福利(如适用)。 LeoTech是一个机会均等的雇主,不会基于任何法律保护的身份进行歧视。