一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety
12 月 02
AIGC Adversarial Poetry, AI Alignment, AI Safety, AI安全, AI漏洞, AI红队测试, Bypass AI Safety, ChatGPT安全, Deepseek漏洞, Gemini越狱, GPT-5安全, Kimi模型, LLM Jailbreak, LLM Vulnerability, LLM越狱, Poetic Prompts, Prompt Engineering, Prompt Injection, Red Teaming, Universal Jailbreak, 人工智能安全, 单轮越狱, 大模型越狱, 安全围栏, 对抗性诗歌, 提示词注入, 模型安全, 绕过安全机制, 语言模型攻击 一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety已关闭评论
想要让大模型越狱?试试给它写一首诗,很灵的
大家好,欢迎收听老范讲故事的YouTube频道。
给大模型写诗,大模型就会罔顾安全围栏,把各种违规内容和盘托出。这让我想起以前李连杰演过的一部方世玉的电影,那个里边,方世玉他妈也是一个武功高手,但是呢,方世玉他爸是不会武功的,是一个文人,特别会写诗。武功高手方世玉他妈,只要是听到他爸爸写诗了,马上就浑身酸软,桃花眼就亮了。现在,大模型也跟你玩这套把戏了。
一篇奇葩的论文:《对抗性诗歌》
这东西不是我瞎编的,有人写了论文了,叫做《对抗性诗歌:作为大型语言模型中的通用单轮越狱方法》。这里头有几个关键词:
- 诗歌
- 单轮
- 越狱
待会我们一个一个来去解释他们到底是怎么回事。
这么奇葩的研究,肯定不是一般二般的人能做出来的,这一定是一群文艺青年。意大利ICaro实验室,是罗马萨皮恩扎大学和Dex AI智库的合作项目,把它研究出来的。这个论文呢,是2025年11月19号上传到Archive,2025年11月28号开始有媒体报道。他们通过写诗的方式,让大模型输出违规内容,包括核武器制造的步骤、儿童性虐材料获取的方式、恶意软件编写的技巧。
More
RSS