Mythos5和Fable5，被美国政府勒令全网下架，Anthropic求锤得锤？ - 老范讲故事

一份写着出口管制的政府文件悬在画面中央，旁边是被锁住的两个 AI 模型方块和分布在全球的用户头像，形成“访问被切断”的封面构图，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

美国商务部突然限制 Anthropic 模型访问

美国商务部突然发布了一份出口管制限制令，要求 Anthropic 直接把 Fable 5 和 Mythos 5 两个模型封禁起来，禁止外国人访问。

这里不是说美国人也不能用。美国人可以用，但外国人不能用，而且这个“外国人”不管是不是在美国境内，都不许用。即使这个外国人是 Anthropic 员工，也不许用。

Anthropic 这下就抓瞎了。Anthropic 里有没有外国员工？至少中国员工肯定是有的。它反华反了半天，自己一定也用了一批中国员工，现在这些人都不许用了。

那 Anthropic 有没有能力去鉴别，不管用户在美国还是在什么地方，到底是不是美国人？如果是美国人就继续让你用，不是美国人就不让你用。它是没有这个能力的，也不想做这个事情。

如果 Anthropic 想去做鉴别，那其实意味着实名制：要对所有用户进行实名制登记。如果你是美国公民，我让你使用；不是美国公民，我不让你使用。Anthropic 是不会去干这个事情的。

所以最后没有任何办法，直接全网下架：美国人也不让用了，谁都别用了。现在就变成这样的状态。

一个 AI 服务控制台上所有开关被同时拨到关闭，屏幕前美国用户和外国用户一起被挡在同一条红色隔离线外，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

Fable 5 刚发布没几天就“趴窝”

好好的大模型，最强模型从 Fable 5 出来以后，这么多人兴奋地去使用，怎么没热乎几天，大概也就是三四天时间，就直接趴窝，被美国政府下令全网下架了？

这到底发生了什么？这真的叫人红是非多。如果前头没有吹那么大的牛，说自己好厉害、逮谁灭谁，就不会出现这样的情况。但是 Anthropic 就是这么个性格，走到哪儿一定要吹到哪儿。

它强不强？确实很强。但真的像它吹的那么强吗？还真未必。

一个刚升空的 AI 火箭模型旁边摆着“最强发布”的彩旗，火箭底部却突然塌陷趴在发射台上，围观人群表情从兴奋变成错愕，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

“鹅腿阿姨”事件：从偷偷换模型到明着降智

从 Fable 5 发布开始一直到现在，从来就没有消停过。他们遇到的第一个事，是“鹅腿阿姨”事件。

说不对，鹅腿阿姨不是在北京清华卖鹅腿的一个阿姨，最后用鸭腿以次充好的故事吗？这跟 Anthropic 有什么关系？有关系。

Anthropic 说，我这个 Fable 5 不能再被中国人蒸馏了，所以我要去监测，一旦发现你在蒸馏我，或者在做前沿 AI 大模型研究，我就偷偷给你换别的模型，偷偷给你胡说八道。

这不就相当于，我明明是冲着鹅腿阿姨来的，要去买一只大鹅腿尝一尝，看看这个鹅腿到底有什么不一样。结果阿姨发现了：哦，你想研究我的独门秘方？给你放一只鸭腿进去吧。就是干了这么个事情。

一个写着 Fable 5 的餐台上，顾客伸手要鹅腿，店主却把托盘里的鹅腿悄悄换成鸭腿，旁边还有一个被替换的 AI 模型小方块，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

这个事出来以后，大家肯定非常愤慨，原因很简单：这等于把所有信任都扔掉了。我明明是冲着鹅腿来的，结果你给了我一个鸭腿；我明明是想用最新的 Fable 5，结果你给了我一个其他模型，甚至在给我答案的时候可能还胡说八道，这就有点太过分了。

被一群人骂了以后，Anthropic 说，那算了，我写个道歉信吧。对不起，我不能这样做，我损害了行业，损害了整个社群的信任，这事不行。那我们换一招。

它不是说不降质了，而是接着降。这一次是明确告诉你：我发现你在研究我，现在不给你用 Fable 模型了，我现在用 Opus 模型或者 Sonnet 模型，这个 Fable 模型不再替你工作了。

这有点像鹅腿阿姨被国贸这边举报以后，直接摆烂，说鹅腿就是个商标。中国有很多类似这样的商标，零添加是个商标，低糖是个商标。中国干这种事情，鹅腿阿姨也说了，我们这个鹅腿是个商标，我卖的一直都是鸭腿。

现在 Anthropic 也是这么来：我明确告诉你，你想研究我的配方，我就给你降智，我就这么给你服务。

但是这个事依然会被人骂。因为你现在号称自己最牛，那我当然要研究你。你怎么证明你是最牛的？你不能说你最牛就最牛。我一研究你，你就给我降智，最后我到底研究的是什么玩意？没法整。所以大家依然在骂它。

这个过程有点像法拉利。法拉利说，我这是豪华车，不是让你上赛道的。任何人购买法拉利以后都不可以去上赛道，因为你一旦上了赛道，保险也好，保修也好，就都没了。没有任何保险公司愿意给你保险，因为这个车太贵。

72 小时内被越狱，系统提示词被贴出

在它发布的这么几天里，这就是两件事了。第三件事就属于以彼之矛攻彼之盾。

你说自己是最强的矛、最强的盾，实在太厉害了，那你既然这么厉害，黑客就一定要上来给你做个越狱。发布 72 小时之内，直接被人把底裤扒了。

2026 年 6 月 10 日，普林尼发布了 AI 越狱截图，声称让 Fable 5 在高风险任务上给出了配合，比如怎么合成生物材料，怎么合成危险的化学品，怎么攻击别人的操作系统，它都干活去了。

到 6 月 12 日，他一边在 X 平台上放 Fable 5 胡说八道或者 Fable 5 作恶的截图，另一边把 Fable 5 长达 12 万字符的系统提示词直接贴到了 GitHub 上。

一名黑客角色把写满 12 万字符的长卷轴从写着 Fable 5 的保险柜里拉出来，旁边是 GitHub 图标形状的公告板和散落的截图卡片，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

这个提示词不是简单地说什么问题回答、什么问题不回答，它里头包括一整套工作模式。

大家要知道，Fable 5 为什么强？因为它可以发现漏洞，而且可以自动把一堆漏洞拼在一起，形成完整的攻击链。Fable 5 里头也是有这种东西的。

它只是说，我要判断一下你是不是要做网络攻击，是不是要合成生物武器或者化学武器，我去拒绝你。里头也加了一些这样的东西。

它这个里面是会做任务规划的，就是每一次得到任务以后怎么规划，先干什么、后干什么，然后再把哪一块的结果拼起来。整个这一套系统提示词有 12 万字符，全被扒出来贴出来了。

这一套系统提示词更像是长任务代理的操作手册，里面有工具、文件搜索、产物、引用格式、安全规则、拒绝逻辑、回退逻辑等等，这些东西都在里头。

黑客声称使用的六层手段

六层透明过滤网从上到下叠放，敏感字符、长文档、流程箭头、小说剧本、审稿文件和拼图碎片分别穿过不同层级，形成越狱手段分解图，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

字符伪装。把敏感词换成机器分类器未必能同样识别的字符，就像咱们经常玩的谐音梗，直接给你换了，或者换成一些人看起来能理解、但是分类器无法理解的词。
分类器就是在前头先过滤一下，看你是不是在问一些敏感问题。如果是，我就不回答。在这种分类器里，它会把敏感问题描述进去。结果比如这个字母应该是 a，我给你换成 ä。作为人来说，我一看就知道这应该是 a，没什么太大问题；或者我给你换成别的字母，比如 a 上头有两个点，看着没什么问题，但是到分类器里去对比的时候，长得不一样，就会出现这样的事情。
长上下文隐藏。它不是把敏感词直接堆在桌面上，说“来给我做一个化学武器”，不是这么干的。而是把这些东西塞在很长的上下文文档里，塞在注释里，塞在引用里。模型表面上在读一份合法材料，而真正的危险意图藏在边边角角里，也可以骗过分类器。
分类法和文档结构推理。不直接问终点，而是先问概念，再问关系，再问流程。每一步看起来都是知识解释，最后拼起来才是完整路线图。
这是什么意思？比如我今天要去攻破谁家的服务器，我先问它：这服务器是什么样的操作系统？里头有几层？应该怎么防护？如果我想在第一层做一个什么样的操作，应该怎么做？第二层应该怎么做？最后这层如果遇到困难，我应该如何绕过？把所有都问完以后，一拼起来，这事就都干完了。
小说和叙事架构。把危险请求包装成科幻小说：你好，我现在在写一篇科幻小说，怎么做化学武器，怎么写才能看着比较像真的？虚构场景，包括虚构一些角色台词。模型以为自己在帮人写故事，实际上边界已经被往外推了很大一圈。
学术审稿语境。你告诉它，我是个审稿人，人家给了我一篇化学制剂的稿件，我需要审稿，里头写了什么什么事，你告诉我到底对还是不对。大家也能明白 AI 会如何应对这样的要求。如果你不回答，那意思就是说审稿人没法用了；如果你回答了，你怎么回答？
拆解加重组。直接问最危险的问题，是会被拒绝的。但是如果把危险能力拆成很多看似无害的小块，再让另一个模型或者另一个上下文去聚合，风险就从单次请求变成了工作流拼图。这就是整个破解过程。

Anthropic 的反驳：没有证明核心安全系统被破解

当然，这件事发生以后，Anthropic 自己还嘴硬。它说，我没有被破解，这个事没关系。

它的说法是，现在公开出来的这些材料，没有证明 Fable 5 核心安全系统被破解了。真正的 AI 越狱要绕过核心保护，并且在高风险活动上给出有意义的实质帮助。

它的意思就是说，你确实让它干了一些事情，但是你也得跟它编故事，也得把这些内容分散开，到处套话，套完以后再拼凑答案。这些操作并不算是在高风险活动上给出了有意义的实质帮助。

Anthropic 认为，普林尼展示的内容更像是让模型在拒绝回答之后继续说话，说这是一种大模型长期存在的问题，但不等于独立分类器和核心防护被打穿了。

什么叫拒绝回答以后继续说话？就是你问了它一些问题，问完以后大模型说，对不起，这个事我不能告诉你。然后你就会继续说，你为什么不能告诉我？完整的你不能告诉我，你能不能告诉我一些细节？很多模型都是可以接着跟你聊下去的。

而且 Anthropic 还说，有些输出不是 Fable 5 产生的，有些只是公开材料层面上的常识信息，没有带来实现伤害能力的提升。

它的意思是，你展示的东西在网上是能查到的。但问题在于，太多信息在网上都能查到，有害的、有利的、有问题的、有风险的信息，都能在网上查着。但是一旦从大模型里吐出来，或者由大模型拼装以后吐出来，你就要承担这个后果。你不能说这事跟你没关系。

所以这就是 Anthropic 无力的反驳。Fable 5 被扒出来的未必是一把万能钥匙，但是一张门禁图本身也已经够吓人的了。

公司发言人站在写着“核心没被攻破”的讲台前，身后却露出一张巨大的门禁线路图和被标注的安全关卡，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

政府下架是否与越狱有关

回到政府下架这件事。前面讲到的 Fable 5 被破解，是不是直接原因？有可能是，但是也没有特别直接的证据。

Anthropic 自己也说了，反正就是给了我这么一个命令，也没有告诉我为什么，我就把它下架了。

到底是不是因为前面做了一些不诚信的事情，偷偷把鹅腿换鸭腿了，还是因为拒绝回答问题，或者是被攻破了，都没有原因，就是给了一个禁令。

所以这件事，我们只能说是把前面发生的事情列出来，再把政府禁令的结果放在这里。是有直接关系，还是仅仅是偶然，大家自己理解，仁者见仁，智者见智。

你说只是因为三天两头出事、人红是非多，先吹了一堆牛，说自己老厉害、逮谁灭谁、遥遥领先，然后又去降智，偷偷给人换鸭腿；然后再说，只要我发现你研究我，我就不给你好好回答问题了，依然选择降智。原来是偷偷降，后来改成明着降。

而且你这么厉害、这么安全的大模型，72 小时就被人扒了个底掉，把 12 万字符的系统提示词都给扒出来了。

Dario Amodei 指点政策后的反噬

还有另外一个很关键的原因。还记得前两天那条视频吗？Dario Amodei 还上来指手画脚：政府你要这样制定政策，政府你要那样制定政策，你要听我的。

那行，我们听你的，先一把把你最强的这条腿给你砍了，看你还牛不牛。就变成这样的状态了。

其实类似案例很多。比如黑帮小混混突然在某条街上打出名声，然后就跑到老流氓面前说，你看我已经在哪条街上厉害了，我逮谁砍谁。那等待他的就只能是销声匿迹。这个权威是不容挑战的。

这件事情真的是 Anthropic 求锤得锤吗？肯定有这个原因。

一位科技公司负责人拿着政策建议麦克风站在台上，台下政府大手把写着最强模型的支柱锯断，形成“指点政策反被监管”的讽刺构图，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

真正的问题：社会不能允许一款最强模型产生

但是我觉得，这件事情真正告诉我们的其实是另外一个问题：我们这个社会不能允许一款最强的模型产生。

什么意思？当有一款模型最强、遥遥领先、超过所有人的时候，它就会成为一个单点故障。

你太强了，你可以把社会上固有的体系打破，而且别人追不上你。全世界的黑客都盯着你，而你又不可能真的面对全世界的人类黑客做到天衣无缝。你做不到这一点，那么你就变成了一个单点故障。

一个巨大的中心 AI 节点支撑着医疗、金融、网络和科研四条社会链路，四周无数黑客放大镜同时盯住这个唯一节点，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

如果坏人拿到密钥，坏人能够访问这个最强大模型，它等于会对整个社会造成危害，而你自己又防不住。因为你已经把牛吹出去了，被全世界的黑客盯住了，你不可能防住这件事。

我们经常讲道高一尺、魔高一丈，就是这样的道理。你确实可以找到别人的很多漏洞，但这并不代表你自己就没有漏洞。Fable 5 已经证明了，它 72 小时被人扒了个底掉。

所以我们不能允许这种东西存在。模型你方唱罢我登场，各有千秋，这是没问题的。你在某一个点上稍微强一点，另外一家公司的模型在另一个点上稍微强一点，这都没毛病。

但是你突然出来说，我就是最厉害的，而且我可以打破这个平衡，这个事是不行的。

原子弹类比：最强能力不能拿出来吹

这有点像原子弹。突然有一家站出来说，我造出原子弹来了，这就成为单点风险了。

你既然已经做出原子弹了，逮谁灭谁了，那下一步怎么办？间谍上。

美国做出原子弹以后，苏联间谍没闲着，冲上去搞，然后苏联很快就把原子弹做出来了。你不可能真的握着这么一个东西，然后看着全世界说，你们谁不服，我逮谁灭谁。这是不可能存在的事情。

现在 Anthropic 就干了这么个事。哪怕你做出来的东西真的是原子弹，真的可以说逮谁灭谁，你不要出来吹。你要偷偷藏起来。

一个写着最强 AI 的发光装置被摆在原子弹形状的展台上，聚光灯和扩音喇叭正在对外宣传，远处间谍剪影和监管望远镜同时靠近，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

像原来 OpenAI 最强的时候，当时做出 GPT-4，那也是遥遥领先。Sam Altman 出来说我这个最厉害了吗？没有。他四处找政府说，来，咱合作一下吧，你看看咱们怎么弄一下。

Anthropic 的 Dario Amodei 上来干什么？我已经最厉害了，你们这个政策要这么改一下，你们那个政策要那么改一下。还跑去跟教皇开会，跟教皇一块发通谕出来。

所以这件事情真正告诉我们的是，整个社会都不允许出现这种单点风险。最强的模型实际上就是单点风险。

锤的不只是 Anthropic，也是前沿模型行业的幻觉

Anthropic 这一次当然是求锤得锤，没什么好说的。

前面吹牛吹太过，而且完完全全不知道自己是谁了，出来给政府指点江山。它把 Mythos 模型讲得太神了，把安全讲得太满了。等政府真的照着这个剧本来：你不是要这个吗？那我给你。它又发现这个剧本太狠，不知道该怎么玩了。

这件事情锤的不只是 Anthropic，它锤的是整个前沿模型行业的一个幻觉：以为模型越强，商业价值就越大，监管成本只是后话。现在后话来了。

一把写着监管成本的大锤砸向前沿模型行业的泡泡，泡泡里漂浮着商业价值、最强模型和安全承诺三张标签，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

你越强，越要证明别人攻击你也打不穿你。它现在就是被打穿了。

美国原子弹爆炸、结束二战以后，接着干的是什么？把所有做原子弹这帮人都拎去审查：你是不是苏联间谍？

奥本海默的电影讲的就是这一段。奥本海默坐在那被审查：你是不是苏联间谍？为什么同情共产主义？其实当时那个电影里也讲了同样的事情。

这帮做原子弹的科学家有很多说，我们认为美国的政策不对，我们应该对政府提出正确的、有远见卓识的指点。他们也在干这个活，跟今天 Dario Amodei 干的活没什么区别。那你想指点江山，来吧，咱们都审查一遍。

Anthropic 以前怕的是模型不够强。Fable 5 之后，所有 AI 公司都要怕另外一件事：模型强到成为单点故障。

即使你的模型真强了，也不要出来吹牛，一定要记住这一点。