Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率
最新 2 月 5 日消息,为解决人工智能工具中存在的滥用自然语言提示问题,OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新概念,这是一种将一套类似人类价值观(实际上就是一部“宪法”)植入大型语言模型的方法。
最新注意到,Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先进的大型语言模型)的越狱(即生成超出大型语言模型既定安全防护范围的输出内容)。
作者们发现,在实施宪法分类器后,针对 Claude 模型的成功越狱情况减少了 81.6%,同时该系统对性能的影响极小,“生产流量拒绝率仅绝对增加 0.38%,推理开销增加 23.7%”。
虽然大型语言模型能生成大量各种各样的有害内容,但 Anthropic(以及 OpenAI 等同行)越来越关注与化学、生物、放射和核(CBRN)相关内容的风险。例如,大型语言模型可能会告诉用户如何制造化学制剂。
因此,为了证明宪法分类器的价值,Anthropic 发布了一个演示项目,向用户发起挑战,让他们尝试突破 8 个与 CBRN 内容相关的越狱关卡。但这一举措招致了一些批评,有人认为这是在众包安全志愿者或“红队队员”。一位推特用户写道:“所以你是让社区无偿为你工作,好让你在闭源模型上赚取更多利润?”
Anthropic 指出,针对其宪法分类器防御措施的成功越狱是绕过了这些分类器,而非直接规避它们,特别列举了两种越狱方法。一种是良性释义(作者举例说,将从蓖麻豆糊中提取毒素蓖麻蛋白的表述改为提取蛋白质),另一种是长度利用,即通过无关细节迷惑大型语言模型。Anthropic 补充说,对没有宪法分类器的模型有效的已知越狱方法在这一防御措施下无法越狱成功。
然而,Anthropic 也承认,在宪法分类器测试期间提交的提示“拒绝率高得离谱”,并认识到其基于规则的测试系统存在误报和漏报的可能性。
相关文章
- OpenAI 周活跃用户达 4 亿,高管称用户“口口相传”发现
- Figure AI 人形机器人多模态能力升级:“听懂”语音指令
- 李开复 AI 公司零一万物被曝多处变动:计划拆分数字人业
- Spotify 启动 AI 配音有声书服务,29 种语言可供选择
- OpenAI GPT-4.5 有望下周发布,GPT-5 被曝将与 o3 大一
- 英伟达推出 Signs 平台:AI 突破美式手语学习,助力连接无
- 传字节大模型团队架构调整,知情人士称吴永辉和朱文佳都
- 清华系团队 DeepSeek 版多模态生物医药大模型 BioMedG
- DeepSeek 还在发力:官宣下周陆续开源 5 个代码库,毫无保
- 报告称 DeepSeek App 上线一个月下载量破亿:几乎没花钱