Sakana AI跑分超越Mythos，但日本AI依然无法与中美竞争！ - 老范讲故事

东京办公楼窗前一条橡皮泥河豚悬在跑分榜单上方，旁边是美国和中国 AI 巨头的模糊标牌，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

日本在 AI 领域里终于追上来了？终于不是中美两国的游戏了？Sakana AI，也就是“鱼 AI”，超越 Mythos 了？

昨天，6 月 22 日，日本一家叫 Sakana AI 的公司发布了一个东西。Sakana 在日语里是“鱼”的意思，它发布的这个东西叫 Fugu，日语里应该就是“河豚”。一上来，它就放了一张跑分图：在 SWE-bench Pro 编程榜上，它最高档拿到了 73.7 分，把 Anthropic 的 Claude Opus 4.8 的 69.2 分，以及 OpenAI 的 GPT-5.5 的 58.6 分，全都压在身下了。

它甚至宣称，连 Anthropic 两个最强的 Mythos 和 Fable，它都已经部分超越了，也就是有些分数比它们还高。于是网上一片欢呼，说日本终于在 AI 领域里赶上来了，不再是中美两国在这玩耍了。

先把结论放在这：别急着高兴。这事看起来像追上来了，扒开一层看看，根本不是那么回事。

Sakana 这条鱼到底是真追上来了，还是又一次聪明的投机取巧？咱们就把这条鱼从头到尾拆开来看一看。

这里要补充一句：Mythos 和 Fable 是 Sakana 自己宣布的口径，没有独立的第三方评测。原因也很简单，这两个模型现在禁用了，只要不是美国公民就用不了，所以他们也没有办法拿出评测数据来。

Sakana AI 到底是什么公司

三条橡皮泥小鱼从东京地图上游出，分别连接聊天、报告和编排系统三个小图标，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

首先把表面一层打开看看，这条鱼到底长什么样。Sakana 并不是一个突然冒出来的草台班子，它有来头，有产品，有跑分，表面上看起来确实比较唬人。

这家公司在东京创建，2023 年成立。它一直主打的不是从零打造大模型，这句话大家要仔细听：它没有从零打造大模型，而是把现成的模型重新组合、编排一下。

三条产品线

它的产品线上一共有三条鱼：

第一条鱼叫“鲶鱼”，3 月 24 日发布的日语大模型，搭配了一个免费的 Sakana Chat。
中间发布的一条叫“枪鱼”，6 月 15 日发布，自主研发的 agent，能在不用盯着的情况下自己跑 8 小时，产出 60 到 100 页的战略报告，应该是瞄准 Manus 那样的产品去的。
最新的，也就是 6 月 22 日发布的“河豚”，其实是一个多模型的编排系统。

三位创始人

它一共有三位创始人。

CEO 叫 David Ha，名字是 David，后边是 Ha。按照广东拼音来说，这个人应该姓夏，应该是一位华裔。虽然他在日本创业，但他出生在香港，年幼时随父母去了加拿大，多伦多大学本科，东京大学博士，曾在谷歌大脑做神经网络和进化算法，还当过 Stability AI 的研究负责人。

第二位是 CTO，叫里昂·琼斯，英国人，伯明翰大学出身，是 Transformer 那篇论文 Attention Is All You Need 的八个作者之一，是真大神。他在谷歌干了 12 年，在这个团队里真正管技术和方向的人，就是这位大神。

还有一个人叫伊藤，是这家公司的 COO。东京大学法学，纽约大学法学院，带过日本独角兽的全球化市场。更关键的是，这哥们出身于日本外务省，有外交和政府背景。

所以，这家公司是一个华人创始人，一个写了 Transformer 论文的英国人管技术，一个有日本政府背景的伊藤在管关系。真正的日本本土、又偏官方的，其实是伊藤。这个细节非常重要。

“河豚”不是一个模型，而是一个系统

一只橡皮泥河豚站在圆形工作流中央，周围多个模型方块按箭头循环传递任务、执行和检查，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

下一个问题：这一次跑赢了 Anthropic 大模型的这个“河豚”到底是什么？

它不是一个模型，它是一个系统。所谓超越 Mythos，超越的方法很关键。河豚自己没有前沿大模型，它是个编排器，把别人家的模型拼出来一个高分。大家觉得日本行了，其实不是这么回事。

为什么我会管河豚叫系统，而不叫模型？因为它的核心是一套 AI 工作流编排系统。现在有一个新词叫 Loop Agent，循环智能体。

过去我们干活都是过程管理，或者叫顺序执行：先干什么，后干什么，从哪进去，从哪出来。画过流程图的人都知道，流程图里有一个开始节点，有一个结束节点，我们在这两个节点之间画整个流程。

而 Loop Agent 干的活是什么？它是转着圈干。它有输入，有要求，然后有很多大模型在里边承担不同的角色。有人负责拆解任务，有人负责执行，有人负责检查结果。如果检查不满意，那就再转一圈，一直转到满意为止。这就是现在比较流行的一种新的 AI agent 工作方式。河豚恰恰是这样的一套系统。

关键在于它没有公开底层模型

河豚最鸡贼、也是最关键的一点是什么？它不告诉你里头到底放了哪些模型，但是它保证里头没有放 Fable 5 和 Mythos 5，因为它需要跟 Fable 5 和 Mythos 5 竞争。而且按照现在美国商务部的要求，它也不能用 Fable 5 和 Mythos 5。

但是，你说这里头有没有 GPT-5.5？有没有 Gemini 3？有没有 DeepSeek？有没有 Claude Opus 4.8？这个它不说。它只说，我们跑分跑得比 Claude Opus 4.8 还高一些。

所以它大概率是怎么干活的？比如说一个任务进来，Opus 4.8 负责拆解；拆解完以后，GPT-5.5 去执行；一些不是特别关键的任务，可能就扔给 DeepSeek 去执行；执行完以后，可能又扔回给 Claude Opus 4.8，让它检查一下有没有问题。有问题的话，再转一圈，一直转到“我觉得可以了”，再把东西吐出来。

在这样的情况下，它跑分比 Claude Opus 4.8 高，比 GPT-5.5 高，甚至在个别指标上可以超越 Fable 5 和 Mythos 5。它就是这样一套系统。

它有没有自己的模型

那河豚里头到底有没有自己家的模型？还是有的。不是前面那个鲶鱼模型，鲶鱼模型实际上是在 DeepSeek V3.1 的一个版本上做后训练出来的，也不是从头做的，待会再讲那个模型。

河豚系统里有一个叫“指挥模型”的东西，一上来可以稍微指挥调度一下。这个模型是用 Qwen 2.5 7B 做的后训练。每一次任务进来，拆解可能还是要用大模型去拆解，但它负责在里边进行循环调度。所以你说它完全没有自己的模型，这也不对。

鲶鱼模型的价值：本土化，而不是前沿底座

橡皮泥鲶鱼在日文资料卡和历史问题卡片之间重新标注答案，远处有 DeepSeek 底座方块作为基础层，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

再转过来说鲶鱼模型。鲶鱼模型是基于 DeepSeek V3.1 Terminus 做的后训练。除了 DeepSeek V3.1 Terminus 之外，它也参考了 Llama 3.1 405B 的一个开源底座，然后自己训练出模型。

别看咱们现在嘲笑它拿别人的模型去后训练，大部分人连这一步都做不到。能够在人家的基础上做后训练，训练完以后还有更好的效果，不是一般人能搞定的。

有一个非常有意思的细节：DeepSeek 原版对于日本政治历史敏感问题会拒绝回答，72% 的问题都会拒绝。中国人训练的模型，你去问它“抗日战争怎么回事”，很多内容它是答不上来的。而 Sakana 用自己的日语数据后训练之后，拒答率几乎降到了零。

这说明它的价值是本土化适配，而不是造更强的脑子。它没有触及最硬的东西，也就是自己的前沿底层模型。

没有底层模型，就没有护城河

橡皮泥小鱼公司站在没有城墙的浅色平台上，远处三座大厂模型城堡握着 API 钥匙和价格标签，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

下一个问题大家就要问了：没有前沿底层模型，人家不也跑得好好的吗？你怎么就说日本人不行呢？

今天要讲的是，没有底层模型就没有护城河。编排这件事本身是没有门槛的，谁都能做，而且你的命门是拿捏在别人手里的。

OpenRouter Fusion 的对照

这条路不光 Sakana 这一家“鱼公司”在走。全球最大的模型聚合平台 OpenRouter，6 月 12 日就上线了一个几乎一模一样的东西，叫 Fusion。它可以把最多 8 个模型编排在一起，跑同一个问题，再让一个裁判模型把大家的答案融合成一个，号称不用 Fable 5 就能够逼近 Fable 5 的质量，成本只有 Fable 5 的一半。

它的角色分工和河豚是一个思路：干活的和检查的分开，而且干活的不允许自己检查，避免自己给自己打高分。OpenRouter 自己说了，约 75% 的提升来自裁判的融合，只有 25% 来自模型的多样性。

用这个对照就能说明，多模型编排是一个公开的、谁都能拼的工程手段，不是 Sakana 的独门秘技。一个东西如果连聚合平台都能顺手做一个，它就不构成护城河。

真正的护城河是底座和价格

那么到底什么是护城河？底座和价格才是护城河。底座模型是我自己的，我可以有底座模型价格的定价权，这才叫护城河。

而现在这些东西都在谁手里？都在 AI 大厂手里：OpenAI、Anthropic、谷歌，都在他们手里。而且这些做编排系统的公司只能用大厂已经公开发布的模型，可是大厂经常会捂着一两代模型，甚至有很多模型从来就不发布。这些大厂自己最清楚什么时候发新产品，几款产品之间到底差在什么地方。

等这些做编排系统的公司，也就是像 Sakana 这样的公司，拿到大厂最新的模型，开始研究怎么编排、怎么优化的时候，人家大厂内部的编排系统、Loop Agent 系统，早就已经迭代了不知道多少回了。所以你想跟他们比，根本就比不了。

而且价格也不是 Sakana 这样的公司能够控制的。你编排了半天，最后还得老老实实给 Anthropic 付 token 的钱去。而且 Anthropic 没准哪天一开心，还给你把账号封了。Anthropic 干这种事太正常不过了，OpenAI 也是这样的。

你说我用了 GPT-5.5 作为底层模型，上头给你编排了一下。那你干完活以后，得给 OpenAI 交钱。那我把账算好了，最后把自己该挣的钱挣到，不就完事了吗？

这里就有一个新的问题：大厂 AI token 的价格是不透明的。它可以把 token 价格搞得很贵，把自己的套餐，比如 20 美金的 Plus 套餐，价格搞得很便宜；或者说虽然是 20 美金，但是给你的量很大，导致套餐里的 token 很便宜，而外边的 token 很贵。

大厂做这样的动作以后，花钱买 token 的像 Sakana 那样的公司，不一下就没了吗？你的利润空间完全在人家的报表上，什么时候想弄死你，什么时候就弄死你。所以这是完完全全没有护城河的。没有自己的底层模型，也没有模型的定价权，这就是 Sakana 这类公司的尴尬之处。

编排公司吃的是窗口期

编排这套手法本身就不保密。OpenRouter 能上 Fusion，大厂自己当然也都把编排内置到自己的产品里去了。前面我们还专门录了一期视频分析 Fable 5 被人破解出来的 12 万字系统提示词，实际上就是一套这样的 Loop Agent 系统在运作。

而且大厂随时可以决定哪天去摁按钮。按完按钮以后，没准把你的 API 接口封了，或者把价格调整一下，把 token 价格涨一涨，把套餐里的用量涨一涨，那你们这些做编排的公司，不一下就被人挤死了吗？

所以这种纯编排公司，本质上吃的是一个结构性的窗口期。窗口开着的时候，你有饭吃；窗口一关，你连桌子都上不了。

而且这个事你自己完全没有任何主动权，所有权力都在大厂手里，人家随时想给你关，就随时给你关上。

互联网广告平台的历史类比

橡皮泥小广告平台排队接入巨大的谷歌流量水龙头，水龙头旁有价格旋钮和收购标签，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

当年谷歌就是这么把一堆小广告平台干掉的。核心的价格和流量在谷歌手里，你在某个环节优化得再漂亮，也架不住人家从源头上直接弄死你。

讲到这，稍微把过去这段历史跟今天的 Sakana 对比一下。把时间拉回到互联网刚开始的时候，那时候所有人都想明白了一件事：广告就是唯一的出路。大家都去做广告吧。

于是有一大批公司跑出来，在广告各个细节、各个环节进行优化，比如投放优化、竞价优化、归因优化、广告网络之间的交换怎么优化、怎么进行计件，做了好多这样的系统出来。

你说这种系统技术有价值吗？有，而且很多人的技术还是很扎实的。结果这些公司今天都哪去了？这些公司都死了，或者被大厂收购了。现在一提互联网广告公司，就是谷歌、Meta、苹果、X；中国的就是腾讯、字节跳动，其他没了。那些小公司都被他们干掉了。

原因很简单，这些大平台自己是有流量的，它可以随时决定涨价降价。你那些小公司优化了半天，最后还是要用它的流量，那只能被它干掉。

像我以前在猎豹移动，我们也做广告，但是必须要接谷歌和 Meta 的 API，要在那边把流量跑出来。那它随时就可以弄死我，就是这么简单的情况。

这些广告公司里，绝大部分是雨打风吹去就没了，极个别做得特别好的会被收购，大厂重新把它买回来就完事了。而且买进去以后，其实也不是要它们的技术，而是要它们的用户、要它们的流量。这就是当年的历史，跟今天的 Sakana AI 非常非常像。

Sakana AI 的可能结局

橡皮泥 Sakana 团队坐在日本地图形状的谈判桌旁，桌对面是谷歌、OpenAI 和 Anthropic 的收购文件夹，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

那你说日本这一次是不是又完蛋了？Sakana AI 耍了一把小聪明，骗了人的钱，最后做不出来东西，还让大家跟着白开心了半天？也不能这么讲。

Sakana AI 死不了。它最终有可能成为什么？可能会被谷歌日本收购，或者被 OpenAI、Anthropic 日本直接收购，这个可能性是很大的。实在不行，字节跳动没准还来收你。

正是因为没有护城河，被收购反而是 Sakana AI 最好的结局。它这个团队里坐着一位 Transformer 论文的作者，光这一块招牌，被日本 OpenAI 或者日本谷歌收购的底层逻辑就算通了，定价也不会低。

买家真正买的三样东西

买它的人买的是三样东西：

第一个是顶尖团队，这看着没毛病。
第二个是已经铺好的日本本土落地渠道。这里头有一个日本外务省的前官员坐在里头做 COO，这故事讲得通。不需要讲你具体干了什么，把伊藤的简历往这一放，这故事不就明白了吗？而且你说它的政企关系，或者日本大企业买单，这也没毛病。
第三，它有调 DeepSeek 的历史。它可以把 DeepSeek 这种拒绝回答日本历史敏感问题的模型，调到可以回答日本历史问题。这不，能力已经摆在这了。

这三样东西恰恰是从外边砸钱也比较难买到的。

做纯编排的公司，顶尖的结局就是被收购。这恰恰说明它是有价值的。Sakana 真正的护城河根本就不在技术上。即使它被谷歌收购了，谷歌会用它的编排系统吗？不会。谷歌要的是你的政府关系、你的整个团队、你懂日本，要的就是这东西。

日本本土冠军的逻辑

而且日本有一个特别奇葩的地方，就是它对于本土产业保护得非常好。

以前我们的一个合作伙伴叫 JVC，日本胜利公司。这公司哪来的？美国电气公司在 1920 年代在日本建的分公司，后来打仗的时候分离了，叫 JVC，一直发展得非常好，500 强有时候在前边，有时候在后边，现在这几年不知道了。

还有一个案例是日本雅虎。雅虎在全球基本上都废了，但是日本雅虎依然是日本最大的门户网站。虽然日本雅虎现在跟 LINE 合并了，母公司叫 LY Corporation，但是它还是以日本雅虎的底子出来的。

所以，如果谷歌、OpenAI、Anthropic，也许是字节跳动，把 Sakana AI 直接买下来，就让它好好做日本这个生意，把所有关系打透。剩下技术的事情它就别问了，大厂有的是人给它搞定。这可能就是它未来的一个出路。

Sakana AI 未来不是要去跟 OpenAI、Anthropic、谷歌这些大厂竞争，它抢的生态位叫“日本第一”。这也不是日本追上来了，而是日本又长出了一个只在日本有用的本土冠军。

给创业者、普通用户和投资者的启示

三个橡皮泥角色分别代表创业者、普通用户和投资者，站在底座模型、定价权和透明度三块路标前做选择，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

今天这个故事对于普通人、创业者、投资人有什么启示？

给创业者

首先跟创业者讲清楚，不要在自己没有底层模型的情况下做纯编排系统，做 Loop Agent，也不要把这个东西当成主业去赌。这条路的天花板只有两个结局：做得好，能够被大厂收购；做得差，就什么都不剩，最后会被价格战清洗掉。

你要么手里有自己的模型、独家的数据、流量入口；要么就像 Sakana 一样，去卡一个本地市场或者政企关系，一个不可替代的位置。只优化中间环节，说我技术做得特别好，但命门握在别人手里，长期一定是个死。

给普通用户

第二，对于普通用户来说，能够使用原厂的，尽量使用原厂的，不要去使用这种第三方的编排系统。它们在技术逻辑上有不可克服的先天缺陷，因为它们只能拿别人已经公开发布的模型再去进行优化，这肯定是有问题的。

而且像 Sakana AI 这样，它不告诉你后台是怎么运作的，不告诉你底层用了哪些模型，你就没有办法相信它的结果。跑了半天，这个结果自己看着好像还行，但你要想清楚一点：AI 的运作速度是非常非常高的，它可以一分钟出一大堆结果出来，人的鉴别能力在这个面前是非常苍白无力的。

所以我们现在控制结果的最好方法是什么？就是底层可知，底层有保障。Sakana AI 这些东西是给不了的。

给投资者和内容创作者

对于投资者和内容创作者来说，看一家 AI 公司，先问两件事情：

底座模型在不在自己手里？
定价权在不在自己手里？

编排层公司的估值，要按照被收购的可能性和被收购的预期来算，不能按照下一个 OpenAI 来算。把跑分超过谁当成卖点，尤其要警惕：跑分是借来的，护城河才是自己的，这个一定要记住。

结论：一条日本鱼缸里的锦鲤

一条昂贵的橡皮泥锦鲤在透明日本地图形鱼缸里游动，鱼缸外是开阔大海和远处 AI 巨轮，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

最后给出结论。表面上，这是“日本终于在 AI 开始追赶中美了”的一个叙事；实际上，这是一家没有自己底层模型的编排公司，在重演互联网广告小平台的老路。技术很聪明，商业没有护城河，命门全在别人手里。

更长期来看，今天这条鱼公司，也就是 Sakana AI，最大概率不会变成大海里的鲨鱼，而是会变成日本自家鱼缸里那条最贵的锦鲤。好看，值钱，被别人买走，但是它始终游不出那个缸。

对于整个 AI 大潮来说，它只是一个小小的水花，不会给整个行业带来任何变化。