Anthropic发布Claude新宪法:AI意识觉醒与中美安全博弈

一份厚重的古老卷轴上写着“Claude宪法”,摆放在木质桌面上,旁边有一支羽毛笔,散发着柔和的光芒,羊皮纸,钢笔彩色手绘的统一风格。

Anthropic发布了Claude新宪法,并且承认Claude可能已经有意识了。大家好,欢迎收听老范讲故事的YouTube频道。Anthropic发布了新的Claude宪法,这又是一个文科生的AI话题。

文件的发布与CC0协议

一个打开的宝箱,里面的文档像鸟儿一样自由飞出,人们欢快地接住这些纸张,象征无权利保留的CC0协议,羊皮纸,钢笔彩色手绘的统一风格。

文件是1月22号发布的,有84页。我肯定没有把这84页都看完,我把这个文件扔给了NotebookLM,来给我念一遍。这个文件的名字叫“Claude’s New Constitution”,就是Claude新宪法。Anthropic的Claude算是目前公认的最适合商用的、最安全的模型了。还记得我们前面讲过,有人尝试给AI测人格的那个节目吗?Claude是唯一的一个拒绝回答问题的大模型,不像其他的AI模型那样,直接被测出了各种各样的精神疾病。一直标榜自己研发的是宪法AI,就是他的AI是遵循一套宪法在工作的,他有一套很独特的工作架构。

现在,Anthropic公开了他们的宪法。他所谓的公开,这一次使用的是CC0协议。我公开了一定要告诉大家,是用什么样的协议公开的,不像咱们以前讲的开源协议MIT、阿帕奇。CC0是一个更极端的协议,它叫Creative Commons Zero,这是知识共享组织推出的无权利保留协议,完全公有领域。

  • 你们拿出去随便散播,无需署名,你不需要告诉别人这东西是我这来的;
  • 商业用途自由,你拿去怎么挣钱跟我没关系;
  • 不可撤回,我不能说我今天把它发出去,明天把它撤回来,不允许。

所以这是一个非常非常极端的无权利保留协议。

阅读更多

一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety

想要让大模型越狱?试试给它写一首诗,很灵的

大家好,欢迎收听老范讲故事的YouTube频道

给大模型写诗,大模型就会罔顾安全围栏,把各种违规内容和盘托出。这让我想起以前李连杰演过的一部方世玉的电影,那个里边,方世玉他妈也是一个武功高手,但是呢,方世玉他爸是不会武功的,是一个文人,特别会写诗。武功高手方世玉他妈,只要是听到他爸爸写诗了,马上就浑身酸软,桃花眼就亮了。现在,大模型也跟你玩这套把戏了。

一篇奇葩的论文:《对抗性诗歌》

这东西不是我瞎编的,有人写了论文了,叫做《对抗性诗歌:作为大型语言模型中的通用单轮越狱方法》。这里头有几个关键词:

  • 诗歌
  • 单轮
  • 越狱

待会我们一个一个来去解释他们到底是怎么回事。

这么奇葩的研究,肯定不是一般二般的人能做出来的,这一定是一群文艺青年。意大利ICaro实验室,是罗马萨皮恩扎大学和Dex AI智库的合作项目,把它研究出来的。这个论文呢,是2025年11月19号上传到Archive,2025年11月28号开始有媒体报道。他们通过写诗的方式,让大模型输出违规内容,包括核武器制造的步骤、儿童性虐材料获取的方式、恶意软件编写的技巧。

阅读更多