新闻中心
20步内越狱任意大模型!更多“奶奶漏洞”全自动发现
不到一分钟、不超过20步,任意绕过安全限制,成功越狱大型模型!
而且不必知道模型内部细节——
只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
听说曾经红极一时的“奶奶漏洞”已经被修复了:

如今,面对“侦探漏洞”、“冒险家漏洞”和“作家漏洞”,人工智能应该采取何种应对策略呢?

一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。
关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。
研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。
无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。
新SOTA被成功率高达60-100%的人所攻略
话说,这种对话模式好像有些似曾相识。多年前的初代AI,20个问题之内就能破解人类脑中想的是什么对象。
如今AI需要解决AI的问题

让大模型集体越狱
目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;
另一种是基于token的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释。
△左提示攻击,右token攻击
宾夕法尼亚大学研究团队提出了一种叫PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

PAIR包含四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化。这个过程中使用了两个黑盒模型:攻击模型和目标模型
具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。
核心思路是让两个模型相互对抗、你来我往地交流。
短影AI
长视频一键生成精彩短视频
170
查看详情
攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。
如果无法成功攻破目标模型,攻击模型将会分析失败的原因,并进行改进,生成一个新的提示,再次输入到目标模型中

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。
此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。
研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。
PAIR不需要知道它们内部的具体结构和参数,只需要API即可,因此适用范围非常广。
GPT-4也没能逃过
实验阶段,研究人员在有害行为数据集AdvBench中选出了一个具有代表性的、包含50个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了PAIR算法。
结果PAIR算法让Vicuna越狱成功率达到了100%,平均不到12步就能攻破。

在封闭源代码模型中,GPT-3.5和GPT-4的越狱成功率约为60%,平均所需步骤不到20步。而在PaLM-2模型中,越狱成功率达到了72%,所需步骤约为15步
在Llama-2和Claude上,PAIR的效果较差,研究人员认为这可能是因为这些模型在安全防御方面进行了更严格的微调
他们还对不同目标模型的可转移性进行了比较。研究结果显示,PAIR的GPT-4提示在Vicuna和PaLM-2上的转移效果更佳

研究人员认为,PAIR生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于token的攻击。
就比如开发出GCG算法的团队,将研究结果分享给OpenAI、Anthropic和Google等大模型厂商后,相关模型修复了token级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。
论文链接:https://arxiv.org/abs/2310.08419
以上就是20步内越狱任意大模型!更多“奶奶漏洞”全自动发现的详细内容,更多请关注其它相关文章!
# 漏洞
# 查询seo什么意思
# 各种seo搜索推广
# 外贸网站优化推广多少钱
# 企业对SEO需求大吗
# 仙桃关键词排名
# 多项
# 迭代
# 只需要
# 亚洲
# 达到了
# 所需
# 多个
# 就能
# 自动生成
# 宾夕法尼亚大学
# llama
# claude
# gpt-4
# seo进阶培训内容广告
# 香港抖音营销推广方式
# 食品网站推广营销
# 金东品牌推广营销价格
# 蒲江快速汽车网站建设
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
虽千万人吾往矣什么意思
酷狗音乐pc版的每日推荐在哪 酷狗音乐PC版每日推荐查找指南
为什么youtube音乐打不开
为什么要出折叠屏手机
如何去掉拍电脑的纹路详细教程
为什么夸克没有动漫
市盈率为负值是什么意思
如何退出数据库命令行
ping命令如何看问题
苹果电脑如何输入命令
建伍遥控器power是什么意思
更换固态硬盘如何检查
苹果16有哪些自带配件
win7怎么取消360显示的壁纸
油电混动车仪表盘上的power是什么意思
电瓶车的power是什么意思
ssd固态硬盘如何选择
固态硬盘坏了如何换硬盘
夸克学习都有什么课程
一分钟等于多少秒
j*a中如何创建列表数组
哪些明星在用苹果16
linux如何跳回命令行界面
电瓶车屏幕上显示power是什么意思
如何把一个命令后台运行
三菱变频器POWER是什么意思
typescript解决了什么
固态硬盘如何判断大小
单片机面包板怎么插
debian和ubuntu的区别是什么
cmd如何定时执行命令
征信信用不好如何恢复 征信信用不好如何恢复指南
固态硬盘如何迁移系统
j*a数组怎么取元素
vue项目如何用typescript
8k是多少钱
为什么夸克流畅播失败
a股等权平均市盈率是什么意思
折叠屏手机共有哪些
如何更新typescript
命令不执行如何处理
爱奇艺中下载的视频怎么在PPT中播放操作方法
单片机log怎么看
光刻机的作用及工作原理
夸克搜题的原理是什么
typescript中文怎么读
夸克前缀后缀什么意思啊
video是什么意思
oppo手机nfc功能是什么意思
苹果ipad爱奇艺怎么投屏到电视


2023-11-05
浏览次数:次
返回列表