AI Safety - 老范讲故事｜AI、大模型与商业世界的故事

一份厚重的古老卷轴上写着“Claude宪法”，摆放在木质桌面上，旁边有一支羽毛笔，散发着柔和的光芒，羊皮纸，钢笔彩色手绘的统一风格。

Anthropic发布了Claude新宪法，并且承认Claude可能已经有意识了。大家好，欢迎收听老范讲故事的YouTube频道。Anthropic发布了新的Claude宪法，这又是一个文科生的AI话题。

文件的发布与CC0协议

一个打开的宝箱，里面的文档像鸟儿一样自由飞出，人们欢快地接住这些纸张，象征无权利保留的CC0协议，羊皮纸，钢笔彩色手绘的统一风格。

文件是1月22号发布的，有84页。我肯定没有把这84页都看完，我把这个文件扔给了NotebookLM，来给我念一遍。这个文件的名字叫“Claude’s New Constitution”，就是Claude新宪法。Anthropic的Claude算是目前公认的最适合商用的、最安全的模型了。还记得我们前面讲过，有人尝试给AI测人格的那个节目吗？Claude是唯一的一个拒绝回答问题的大模型，不像其他的AI模型那样，直接被测出了各种各样的精神疾病。一直标榜自己研发的是宪法AI，就是他的AI是遵循一套宪法在工作的，他有一套很独特的工作架构。

现在，Anthropic公开了他们的宪法。他所谓的公开，这一次使用的是CC0协议。我公开了一定要告诉大家，是用什么样的协议公开的，不像咱们以前讲的开源协议MIT、阿帕奇。CC0是一个更极端的协议，它叫Creative Commons Zero，这是知识共享组织推出的无权利保留协议，完全公有领域。

你们拿出去随便散播，无需署名，你不需要告诉别人这东西是我这来的；
商业用途自由，你拿去怎么挣钱跟我没关系；
不可撤回，我不能说我今天把它发出去，明天把它撤回来，不允许。

所以这是一个非常非常极端的无权利保留协议。

想要让大模型越狱？试试给它写一首诗，很灵的

给大模型写诗，大模型就会罔顾安全围栏，把各种违规内容和盘托出。这让我想起以前李连杰演过的一部方世玉的电影，那个里边，方世玉他妈也是一个武功高手，但是呢，方世玉他爸是不会武功的，是一个文人，特别会写诗。武功高手方世玉他妈，只要是听到他爸爸写诗了，马上就浑身酸软，桃花眼就亮了。现在，大模型也跟你玩这套把戏了。

一篇奇葩的论文：《对抗性诗歌》

这东西不是我瞎编的，有人写了论文了，叫做《对抗性诗歌：作为大型语言模型中的通用单轮越狱方法》。这里头有几个关键词：

诗歌

单轮

越狱

待会我们一个一个来去解释他们到底是怎么回事。

这么奇葩的研究，肯定不是一般二般的人能做出来的，这一定是一群文艺青年。意大利ICaro实验室，是罗马萨皮恩扎大学和Dex AI智库的合作项目，把它研究出来的。这个论文呢，是2025年11月19号上传到Archive，2025年11月28号开始有媒体报道。他们通过写诗的方式，让大模型输出违规内容，包括核武器制造的步骤、儿童性虐材料获取的方式、恶意软件编写的技巧。

Anthropic发布Claude新宪法：AI意识觉醒与中美安全博弈

文件的发布与CC0协议

一首诗竟让25款大模型集体“越狱”？成功率飙升8倍，谷歌Gemini Pro 100%沦陷｜Adversarial Poetry、Jailbreak、LLM、AI Safety

想要让大模型越狱？试试给它写一首诗，很灵的

一篇奇葩的论文：《对抗性诗歌》