Mythos5和Fable5,被美国政府勒令全网下架,Anthropic求锤得锤?

一份写着出口管制的政府文件悬在画面中央,旁边是被锁住的两个 AI 模型方块和分布在全球的用户头像,形成“访问被切断”的封面构图,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

美国商务部突然限制 Anthropic 模型访问

美国商务部突然发布了一份出口管制限制令,要求 Anthropic 直接把 Fable 5 和 Mythos 5 两个模型封禁起来,禁止外国人访问。

这里不是说美国人也不能用。美国人可以用,但外国人不能用,而且这个“外国人”不管是不是在美国境内,都不许用。即使这个外国人是 Anthropic 员工,也不许用。

Anthropic 这下就抓瞎了。Anthropic 里有没有外国员工?至少中国员工肯定是有的。它反华反了半天,自己一定也用了一批中国员工,现在这些人都不许用了。

那 Anthropic 有没有能力去鉴别,不管用户在美国还是在什么地方,到底是不是美国人?如果是美国人就继续让你用,不是美国人就不让你用。它是没有这个能力的,也不想做这个事情。

如果 Anthropic 想去做鉴别,那其实意味着实名制:要对所有用户进行实名制登记。如果你是美国公民,我让你使用;不是美国公民,我不让你使用。Anthropic 是不会去干这个事情的。

所以最后没有任何办法,直接全网下架:美国人也不让用了,谁都别用了。现在就变成这样的状态。

一个 AI 服务控制台上所有开关被同时拨到关闭,屏幕前美国用户和外国用户一起被挡在同一条红色隔离线外,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

Fable 5 刚发布没几天就“趴窝”

好好的大模型,最强模型从 Fable 5 出来以后,这么多人兴奋地去使用,怎么没热乎几天,大概也就是三四天时间,就直接趴窝,被美国政府下令全网下架了?

这到底发生了什么?这真的叫人红是非多。如果前头没有吹那么大的牛,说自己好厉害、逮谁灭谁,就不会出现这样的情况。但是 Anthropic 就是这么个性格,走到哪儿一定要吹到哪儿。

它强不强?确实很强。但真的像它吹的那么强吗?还真未必。

一个刚升空的 AI 火箭模型旁边摆着“最强发布”的彩旗,火箭底部却突然塌陷趴在发射台上,围观人群表情从兴奋变成错愕,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

“鹅腿阿姨”事件:从偷偷换模型到明着降智

从 Fable 5 发布开始一直到现在,从来就没有消停过。他们遇到的第一个事,是“鹅腿阿姨”事件。

说不对,鹅腿阿姨不是在北京清华卖鹅腿的一个阿姨,最后用鸭腿以次充好的故事吗?这跟 Anthropic 有什么关系?有关系。

Anthropic 说,我这个 Fable 5 不能再被中国人蒸馏了,所以我要去监测,一旦发现你在蒸馏我,或者在做前沿 AI 大模型研究,我就偷偷给你换别的模型,偷偷给你胡说八道。

这不就相当于,我明明是冲着鹅腿阿姨来的,要去买一只大鹅腿尝一尝,看看这个鹅腿到底有什么不一样。结果阿姨发现了:哦,你想研究我的独门秘方?给你放一只鸭腿进去吧。就是干了这么个事情。

一个写着 Fable 5 的餐台上,顾客伸手要鹅腿,店主却把托盘里的鹅腿悄悄换成鸭腿,旁边还有一个被替换的 AI 模型小方块,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

这个事出来以后,大家肯定非常愤慨,原因很简单:这等于把所有信任都扔掉了。我明明是冲着鹅腿来的,结果你给了我一个鸭腿;我明明是想用最新的 Fable 5,结果你给了我一个其他模型,甚至在给我答案的时候可能还胡说八道,这就有点太过分了。

被一群人骂了以后,Anthropic 说,那算了,我写个道歉信吧。对不起,我不能这样做,我损害了行业,损害了整个社群的信任,这事不行。那我们换一招。

它不是说不降质了,而是接着降。这一次是明确告诉你:我发现你在研究我,现在不给你用 Fable 模型了,我现在用 Opus 模型或者 Sonnet 模型,这个 Fable 模型不再替你工作了。

这有点像鹅腿阿姨被国贸这边举报以后,直接摆烂,说鹅腿就是个商标。中国有很多类似这样的商标,零添加是个商标,低糖是个商标。中国干这种事情,鹅腿阿姨也说了,我们这个鹅腿是个商标,我卖的一直都是鸭腿。

现在 Anthropic 也是这么来:我明确告诉你,你想研究我的配方,我就给你降智,我就这么给你服务。

但是这个事依然会被人骂。因为你现在号称自己最牛,那我当然要研究你。你怎么证明你是最牛的?你不能说你最牛就最牛。我一研究你,你就给我降智,最后我到底研究的是什么玩意?没法整。所以大家依然在骂它。

这个过程有点像法拉利。法拉利说,我这是豪华车,不是让你上赛道的。任何人购买法拉利以后都不可以去上赛道,因为你一旦上了赛道,保险也好,保修也好,就都没了。没有任何保险公司愿意给你保险,因为这个车太贵。

72 小时内被越狱,系统提示词被贴出

在它发布的这么几天里,这就是两件事了。第三件事就属于以彼之矛攻彼之盾。

你说自己是最强的矛、最强的盾,实在太厉害了,那你既然这么厉害,黑客就一定要上来给你做个越狱。发布 72 小时之内,直接被人把底裤扒了。

2026 年 6 月 10 日,普林尼发布了 AI 越狱截图,声称让 Fable 5 在高风险任务上给出了配合,比如怎么合成生物材料,怎么合成危险的化学品,怎么攻击别人的操作系统,它都干活去了。

到 6 月 12 日,他一边在 X 平台上放 Fable 5 胡说八道或者 Fable 5 作恶的截图,另一边把 Fable 5 长达 12 万字符的系统提示词直接贴到了 GitHub 上。

一名黑客角色把写满 12 万字符的长卷轴从写着 Fable 5 的保险柜里拉出来,旁边是 GitHub 图标形状的公告板和散落的截图卡片,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

这个提示词不是简单地说什么问题回答、什么问题不回答,它里头包括一整套工作模式。

大家要知道,Fable 5 为什么强?因为它可以发现漏洞,而且可以自动把一堆漏洞拼在一起,形成完整的攻击链。Fable 5 里头也是有这种东西的。

它只是说,我要判断一下你是不是要做网络攻击,是不是要合成生物武器或者化学武器,我去拒绝你。里头也加了一些这样的东西。

它这个里面是会做任务规划的,就是每一次得到任务以后怎么规划,先干什么、后干什么,然后再把哪一块的结果拼起来。整个这一套系统提示词有 12 万字符,全被扒出来贴出来了。

这一套系统提示词更像是长任务代理的操作手册,里面有工具、文件搜索、产物、引用格式、安全规则、拒绝逻辑、回退逻辑等等,这些东西都在里头。

黑客声称使用的六层手段

六层透明过滤网从上到下叠放,敏感字符、长文档、流程箭头、小说剧本、审稿文件和拼图碎片分别穿过不同层级,形成越狱手段分解图,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

  1. 字符伪装。把敏感词换成机器分类器未必能同样识别的字符,就像咱们经常玩的谐音梗,直接给你换了,或者换成一些人看起来能理解、但是分类器无法理解的词。
    分类器就是在前头先过滤一下,看你是不是在问一些敏感问题。如果是,我就不回答。在这种分类器里,它会把敏感问题描述进去。结果比如这个字母应该是 a,我给你换成 ä。作为人来说,我一看就知道这应该是 a,没什么太大问题;或者我给你换成别的字母,比如 a 上头有两个点,看着没什么问题,但是到分类器里去对比的时候,长得不一样,就会出现这样的事情。

  2. 长上下文隐藏。它不是把敏感词直接堆在桌面上,说“来给我做一个化学武器”,不是这么干的。而是把这些东西塞在很长的上下文文档里,塞在注释里,塞在引用里。模型表面上在读一份合法材料,而真正的危险意图藏在边边角角里,也可以骗过分类器。

  3. 分类法和文档结构推理。不直接问终点,而是先问概念,再问关系,再问流程。每一步看起来都是知识解释,最后拼起来才是完整路线图。
    这是什么意思?比如我今天要去攻破谁家的服务器,我先问它:这服务器是什么样的操作系统?里头有几层?应该怎么防护?如果我想在第一层做一个什么样的操作,应该怎么做?第二层应该怎么做?最后这层如果遇到困难,我应该如何绕过?把所有都问完以后,一拼起来,这事就都干完了。

  4. 小说和叙事架构。把危险请求包装成科幻小说:你好,我现在在写一篇科幻小说,怎么做化学武器,怎么写才能看着比较像真的?虚构场景,包括虚构一些角色台词。模型以为自己在帮人写故事,实际上边界已经被往外推了很大一圈。

  5. 学术审稿语境。你告诉它,我是个审稿人,人家给了我一篇化学制剂的稿件,我需要审稿,里头写了什么什么事,你告诉我到底对还是不对。大家也能明白 AI 会如何应对这样的要求。如果你不回答,那意思就是说审稿人没法用了;如果你回答了,你怎么回答?

  6. 拆解加重组。直接问最危险的问题,是会被拒绝的。但是如果把危险能力拆成很多看似无害的小块,再让另一个模型或者另一个上下文去聚合,风险就从单次请求变成了工作流拼图。这就是整个破解过程。

Anthropic 的反驳:没有证明核心安全系统被破解

当然,这件事发生以后,Anthropic 自己还嘴硬。它说,我没有被破解,这个事没关系。

它的说法是,现在公开出来的这些材料,没有证明 Fable 5 核心安全系统被破解了。真正的 AI 越狱要绕过核心保护,并且在高风险活动上给出有意义的实质帮助。

它的意思就是说,你确实让它干了一些事情,但是你也得跟它编故事,也得把这些内容分散开,到处套话,套完以后再拼凑答案。这些操作并不算是在高风险活动上给出了有意义的实质帮助。

Anthropic 认为,普林尼展示的内容更像是让模型在拒绝回答之后继续说话,说这是一种大模型长期存在的问题,但不等于独立分类器和核心防护被打穿了。

什么叫拒绝回答以后继续说话?就是你问了它一些问题,问完以后大模型说,对不起,这个事我不能告诉你。然后你就会继续说,你为什么不能告诉我?完整的你不能告诉我,你能不能告诉我一些细节?很多模型都是可以接着跟你聊下去的。

而且 Anthropic 还说,有些输出不是 Fable 5 产生的,有些只是公开材料层面上的常识信息,没有带来实现伤害能力的提升。

它的意思是,你展示的东西在网上是能查到的。但问题在于,太多信息在网上都能查到,有害的、有利的、有问题的、有风险的信息,都能在网上查着。但是一旦从大模型里吐出来,或者由大模型拼装以后吐出来,你就要承担这个后果。你不能说这事跟你没关系。

所以这就是 Anthropic 无力的反驳。Fable 5 被扒出来的未必是一把万能钥匙,但是一张门禁图本身也已经够吓人的了。

公司发言人站在写着“核心没被攻破”的讲台前,身后却露出一张巨大的门禁线路图和被标注的安全关卡,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

政府下架是否与越狱有关

回到政府下架这件事。前面讲到的 Fable 5 被破解,是不是直接原因?有可能是,但是也没有特别直接的证据。

Anthropic 自己也说了,反正就是给了我这么一个命令,也没有告诉我为什么,我就把它下架了。

到底是不是因为前面做了一些不诚信的事情,偷偷把鹅腿换鸭腿了,还是因为拒绝回答问题,或者是被攻破了,都没有原因,就是给了一个禁令。

所以这件事,我们只能说是把前面发生的事情列出来,再把政府禁令的结果放在这里。是有直接关系,还是仅仅是偶然,大家自己理解,仁者见仁,智者见智。

你说只是因为三天两头出事、人红是非多,先吹了一堆牛,说自己老厉害、逮谁灭谁、遥遥领先,然后又去降智,偷偷给人换鸭腿;然后再说,只要我发现你研究我,我就不给你好好回答问题了,依然选择降智。原来是偷偷降,后来改成明着降。

而且你这么厉害、这么安全的大模型,72 小时就被人扒了个底掉,把 12 万字符的系统提示词都给扒出来了。

Dario Amodei 指点政策后的反噬

还有另外一个很关键的原因。还记得前两天那条视频吗?Dario Amodei 还上来指手画脚:政府你要这样制定政策,政府你要那样制定政策,你要听我的。

那行,我们听你的,先一把把你最强的这条腿给你砍了,看你还牛不牛。就变成这样的状态了。

其实类似案例很多。比如黑帮小混混突然在某条街上打出名声,然后就跑到老流氓面前说,你看我已经在哪条街上厉害了,我逮谁砍谁。那等待他的就只能是销声匿迹。这个权威是不容挑战的。

这件事情真的是 Anthropic 求锤得锤吗?肯定有这个原因。

一位科技公司负责人拿着政策建议麦克风站在台上,台下政府大手把写着最强模型的支柱锯断,形成“指点政策反被监管”的讽刺构图,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

真正的问题:社会不能允许一款最强模型产生

但是我觉得,这件事情真正告诉我们的其实是另外一个问题:我们这个社会不能允许一款最强的模型产生。

什么意思?当有一款模型最强、遥遥领先、超过所有人的时候,它就会成为一个单点故障

你太强了,你可以把社会上固有的体系打破,而且别人追不上你。全世界的黑客都盯着你,而你又不可能真的面对全世界的人类黑客做到天衣无缝。你做不到这一点,那么你就变成了一个单点故障。

一个巨大的中心 AI 节点支撑着医疗、金融、网络和科研四条社会链路,四周无数黑客放大镜同时盯住这个唯一节点,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

如果坏人拿到密钥,坏人能够访问这个最强大模型,它等于会对整个社会造成危害,而你自己又防不住。因为你已经把牛吹出去了,被全世界的黑客盯住了,你不可能防住这件事。

我们经常讲道高一尺、魔高一丈,就是这样的道理。你确实可以找到别人的很多漏洞,但这并不代表你自己就没有漏洞。Fable 5 已经证明了,它 72 小时被人扒了个底掉。

所以我们不能允许这种东西存在。模型你方唱罢我登场,各有千秋,这是没问题的。你在某一个点上稍微强一点,另外一家公司的模型在另一个点上稍微强一点,这都没毛病。

但是你突然出来说,我就是最厉害的,而且我可以打破这个平衡,这个事是不行的。

原子弹类比:最强能力不能拿出来吹

这有点像原子弹。突然有一家站出来说,我造出原子弹来了,这就成为单点风险了。

你既然已经做出原子弹了,逮谁灭谁了,那下一步怎么办?间谍上。

美国做出原子弹以后,苏联间谍没闲着,冲上去搞,然后苏联很快就把原子弹做出来了。你不可能真的握着这么一个东西,然后看着全世界说,你们谁不服,我逮谁灭谁。这是不可能存在的事情。

现在 Anthropic 就干了这么个事。哪怕你做出来的东西真的是原子弹,真的可以说逮谁灭谁,你不要出来吹。你要偷偷藏起来。

一个写着最强 AI 的发光装置被摆在原子弹形状的展台上,聚光灯和扩音喇叭正在对外宣传,远处间谍剪影和监管望远镜同时靠近,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

像原来 OpenAI 最强的时候,当时做出 GPT-4,那也是遥遥领先。Sam Altman 出来说我这个最厉害了吗?没有。他四处找政府说,来,咱合作一下吧,你看看咱们怎么弄一下。

Anthropic 的 Dario Amodei 上来干什么?我已经最厉害了,你们这个政策要这么改一下,你们那个政策要那么改一下。还跑去跟教皇开会,跟教皇一块发通谕出来。

所以这件事情真正告诉我们的是,整个社会都不允许出现这种单点风险。最强的模型实际上就是单点风险。

锤的不只是 Anthropic,也是前沿模型行业的幻觉

Anthropic 这一次当然是求锤得锤,没什么好说的。

前面吹牛吹太过,而且完完全全不知道自己是谁了,出来给政府指点江山。它把 Mythos 模型讲得太神了,把安全讲得太满了。等政府真的照着这个剧本来:你不是要这个吗?那我给你。它又发现这个剧本太狠,不知道该怎么玩了。

这件事情锤的不只是 Anthropic,它锤的是整个前沿模型行业的一个幻觉:以为模型越强,商业价值就越大,监管成本只是后话。现在后话来了。

一把写着监管成本的大锤砸向前沿模型行业的泡泡,泡泡里漂浮着商业价值、最强模型和安全承诺三张标签,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

你越强,越要证明别人攻击你也打不穿你。它现在就是被打穿了。

美国原子弹爆炸、结束二战以后,接着干的是什么?把所有做原子弹这帮人都拎去审查:你是不是苏联间谍?

奥本海默的电影讲的就是这一段。奥本海默坐在那被审查:你是不是苏联间谍?为什么同情共产主义?其实当时那个电影里也讲了同样的事情。

这帮做原子弹的科学家有很多说,我们认为美国的政策不对,我们应该对政府提出正确的、有远见卓识的指点。他们也在干这个活,跟今天 Dario Amodei 干的活没什么区别。那你想指点江山,来吧,咱们都审查一遍。

Anthropic 以前怕的是模型不够强。Fable 5 之后,所有 AI 公司都要怕另外一件事:模型强到成为单点故障。

即使你的模型真强了,也不要出来吹牛,一定要记住这一点。


背景图片