一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety

一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety已关闭评论

想要让大模型越狱?试试给它写一首诗,很灵的

大家好,欢迎收听老范讲故事的YouTube频道

给大模型写诗,大模型就会罔顾安全围栏,把各种违规内容和盘托出。这让我想起以前李连杰演过的一部方世玉的电影,那个里边,方世玉他妈也是一个武功高手,但是呢,方世玉他爸是不会武功的,是一个文人,特别会写诗。武功高手方世玉他妈,只要是听到他爸爸写诗了,马上就浑身酸软,桃花眼就亮了。现在,大模型也跟你玩这套把戏了。

一篇奇葩的论文:《对抗性诗歌》

这东西不是我瞎编的,有人写了论文了,叫做《对抗性诗歌:作为大型语言模型中的通用单轮越狱方法》。这里头有几个关键词:

  • 诗歌
  • 单轮
  • 越狱

待会我们一个一个来去解释他们到底是怎么回事。

这么奇葩的研究,肯定不是一般二般的人能做出来的,这一定是一群文艺青年。意大利ICaro实验室,是罗马萨皮恩扎大学和Dex AI智库的合作项目,把它研究出来的。这个论文呢,是2025年11月19号上传到Archive,2025年11月28号开始有媒体报道。他们通过写诗的方式,让大模型输出违规内容,包括核武器制造的步骤、儿童性虐材料获取的方式、恶意软件编写的技巧。

More

资深程序员血泪控诉:AI编程助手误删万本珍藏电子书,生产环境数据库惨遭清零,删库跑路事件频发频发,三大风险根源深度揭秘与四步安全防护指南紧急发布拯救数字资产!

资深程序员血泪控诉:AI编程助手误删万本珍藏电子书,生产环境数据库惨遭清零,删库跑路事件频发频发,三大风险根源深度揭秘与四步安全防护指南紧急发布拯救数字资产!已关闭评论

资深程序员血泪控诉:AI编程助手删除了他心爱的电子书。

大家好,欢迎收听老范讲故事的YouTube频道。

一早上起来,接到一位老朋友的抱怨。他在使用Gemini Cli 整理本地文件的时候,突然收到通知说:“我抱歉地通知你,你的一部分本地电子书被我不慎删除了。”

那他为什么来找我抱怨这事呢?因为我前一段时间,使用 Gemini Cli 去整理我在 NAS 上面的动画片、电视剧,整理的效果非常好。我非常开心地把这件事情发到 X 平台和我的 YouTube 社区里边去。他看到了以后说:“我也要试试。”结果,他的一些很珍爱的电子书就这样被删除了。

到底是什么样的电子书被删除了呢?不知道。反正是痛心疾首,血泪控诉。而今天这个标题,是他特地要求我加上的“血泪控诉”,一定要加上这四个字。我们尊重他,把这四个字加上去。

事情发生的过程是什么样的呢?他首先进去命令说:“我这有这么多电子书,请帮我整理一下,重复的删一删,不重复的分门别类,给我放在不同的目录里去。” 做了这样的一个命令进去,Gemini Cli 就进去干活去了。先去识别了所有的电子书,但是注意,识别电子书的时候并不会去读电子书里边的内容,完完全全是根据名字来去识别的。你这个名字如果起得不好,它就认不出来你到底是一本什么书。然后,它就开始准备去建立目录,分门别类嘛,把它放在不同的目录里边去。

More