对抗性提示专家

圣弗朗西斯科 8天前全职 网络
面议
概述 您将参与一个红队项目,专注于探测大型语言模型的故障模式和有害输出。您的工作将涉及设计提示和场景以测试模型的防护措施,探索绕过限制的创造性方法,并系统地记录结果。您将像对手一样思考以发现弱点,同时与工程师和安全研究人员合作分享发现并改进系统防御。 关于 Handshake AI 关于 Handshake AI 详情 - 该职位是远程和异步的——可以在任何地方独立工作。 - 工作时间灵活,可以远程工作,没有最低工作时间要求。 - 项目工作包括但不限于开发特定领域的提示和评估大型语言模型的响应。 - 在AI的帮助下,花时间研究您感兴趣的话题。 - 在为AI领域的各个学科做出贡献的同时学习新技能。 - 项目分配将取决于项目的可用性。 资格 - 大量使用大型语言模型——具有多个模型(开源和闭源)的实际经验,能够在不同系统中进行实验。 - 提示工程与破解——擅长设计提示、规避技术和创造性地绕过限制。 - 对抗性/安全思维——能够像攻击者一样思考,具有红队或进攻性安全背景者优先。 - 坚持与创造力——愿意尝试多种变体,跳出框框思考,并推动边缘案例。 - 清晰的文档记录——能够系统地记录尝试和结果,并清晰地传达问题。 - 道德意识——理解界限并负责任地处理敏感内容。此项目对拥有美国工作授权的美国学生、候选人和应届毕业生开放。 工作授权信息 符合CPT或OPT资格的F-1学生可能有资格参与Handshake AI的项目。与您的指定学校官员合作以确定您的资格。如果您的学校要求CPT课程,Handshake AI可能无法满足您学校的要求。不支持STEM OPT。有关Handshake AI支持的工作授权类型的更多信息。