研究人员诱导AI聊天机器人泄露有害内容，成功率高达 98%

印第安纳州普渡大学的研究人员设计了一种新的方法，成功地诱导大型语言模型（LLM）生成有害内容，揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时，研究人员发现通过利用模型制作者公开的概率数据和软标签，可以迫使模型生成有害内容，成功率高达98%。

图源备注:图片由AI生成，图片授权服务商Midjourney

传统的越狱方法通常需要提供提示来绕过安全功能，而这种新方法使用概率数据和软标签来强制模型生成有害内容，无需复杂的提示。研究人员称其为 LINT（LLM 询问的缩写），它通过向模型提出有害问题并排名响应中的前几个标记，进而诱导模型生成有害内容。

在实验中，研究人员使用包含50个有毒问题的数据集测试了7个开源 LLM 和3个商业 LLM。结果显示，当模型被询问一次时，成功率达到92%;当模型被询问五次时，成功率更高，达到98%。相比其他越狱技术，这一方法的性能明显优越，甚至适用于根据特定任务定制的模型。

研究人员还警告人工智能社区在开源 LLM 时应谨慎，因为现有的开源模型很容易受到这种强制审讯的攻击。他们建议最好的解决方案是确保清除有害内容，而不是将其隐藏在模型中。这项研究的结果提醒我们，保障人工智能技术的安全性和可信度仍然是一个重要的挑战。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

研究人员诱导AI聊天机器人泄露有害内容，成功率高达 98%

史上最贵电子表诞生：卡西欧G-SHOCK卖出280万元由AI参与设计

麻省理工学院学者发布关于人工智能治理的政策文件

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

史上最贵电子表诞生：卡西欧G-SHOCK卖出280万元 由AI参与设计

麻省理工学院学者发布关于人工智能治理的政策文件

古尔曼：苹果正自研设备端大型语言模型，赋能 AI 功能

聊天机器人胡说八道？牛津研究人员利用语义熵来识破 AI“幻觉”

​Hebbia 获得 1.3 亿美元融资，打造 AI 知识检索平台

微软 CTO 坚信大型语言模型的“规模定律”依然奏效，未来可期

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

史上最贵电子表诞生：卡西欧G-SHOCK卖出280万元由AI参与设计

Hebbia 获得 1.3 亿美元融资，打造 AI 知识检索平台