
日本在 AI 领域里终于追上来了?终于不是中美两国的游戏了?Sakana AI,也就是“鱼 AI”,超越 Mythos 了?
昨天,6 月 22 日,日本一家叫 Sakana AI 的公司发布了一个东西。Sakana 在日语里是“鱼”的意思,它发布的这个东西叫 Fugu,日语里应该就是“河豚”。一上来,它就放了一张跑分图:在 SWE-bench Pro 编程榜上,它最高档拿到了 73.7 分,把 Anthropic 的 Claude Opus 4.8 的 69.2 分,以及 OpenAI 的 GPT-5.5 的 58.6 分,全都压在身下了。
它甚至宣称,连 Anthropic 两个最强的 Mythos 和 Fable,它都已经部分超越了,也就是有些分数比它们还高。于是网上一片欢呼,说日本终于在 AI 领域里赶上来了,不再是中美两国在这玩耍了。
先把结论放在这:别急着高兴。这事看起来像追上来了,扒开一层看看,根本不是那么回事。
Sakana 这条鱼到底是真追上来了,还是又一次聪明的投机取巧?咱们就把这条鱼从头到尾拆开来看一看。
这里要补充一句:Mythos 和 Fable 是 Sakana 自己宣布的口径,没有独立的第三方评测。原因也很简单,这两个模型现在禁用了,只要不是美国公民就用不了,所以他们也没有办法拿出评测数据来。
Sakana AI 到底是什么公司

首先把表面一层打开看看,这条鱼到底长什么样。Sakana 并不是一个突然冒出来的草台班子,它有来头,有产品,有跑分,表面上看起来确实比较唬人。
这家公司在东京创建,2023 年成立。它一直主打的不是从零打造大模型,这句话大家要仔细听:它没有从零打造大模型,而是把现成的模型重新组合、编排一下。
三条产品线
它的产品线上一共有三条鱼:
- 第一条鱼叫“鲶鱼”,3 月 24 日发布的日语大模型,搭配了一个免费的 Sakana Chat。
- 中间发布的一条叫“枪鱼”,6 月 15 日发布,自主研发的 agent,能在不用盯着的情况下自己跑 8 小时,产出 60 到 100 页的战略报告,应该是瞄准 Manus 那样的产品去的。
- 最新的,也就是 6 月 22 日发布的“河豚”,其实是一个多模型的编排系统。
三位创始人
它一共有三位创始人。
CEO 叫 David Ha,名字是 David,后边是 Ha。按照广东拼音来说,这个人应该姓夏,应该是一位华裔。虽然他在日本创业,但他出生在香港,年幼时随父母去了加拿大,多伦多大学本科,东京大学博士,曾在谷歌大脑做神经网络和进化算法,还当过 Stability AI 的研究负责人。
第二位是 CTO,叫里昂·琼斯,英国人,伯明翰大学出身,是 Transformer 那篇论文 Attention Is All You Need 的八个作者之一,是真大神。他在谷歌干了 12 年,在这个团队里真正管技术和方向的人,就是这位大神。
还有一个人叫伊藤,是这家公司的 COO。东京大学法学,纽约大学法学院,带过日本独角兽的全球化市场。更关键的是,这哥们出身于日本外务省,有外交和政府背景。
所以,这家公司是一个华人创始人,一个写了 Transformer 论文的英国人管技术,一个有日本政府背景的伊藤在管关系。真正的日本本土、又偏官方的,其实是伊藤。这个细节非常重要。
“河豚”不是一个模型,而是一个系统

下一个问题:这一次跑赢了 Anthropic 大模型的这个“河豚”到底是什么?
它不是一个模型,它是一个系统。所谓超越 Mythos,超越的方法很关键。河豚自己没有前沿大模型,它是个编排器,把别人家的模型拼出来一个高分。大家觉得日本行了,其实不是这么回事。
为什么我会管河豚叫系统,而不叫模型?因为它的核心是一套 AI 工作流编排系统。现在有一个新词叫 Loop Agent,循环智能体。
过去我们干活都是过程管理,或者叫顺序执行:先干什么,后干什么,从哪进去,从哪出来。画过流程图的人都知道,流程图里有一个开始节点,有一个结束节点,我们在这两个节点之间画整个流程。
而 Loop Agent 干的活是什么?它是转着圈干。它有输入,有要求,然后有很多大模型在里边承担不同的角色。有人负责拆解任务,有人负责执行,有人负责检查结果。如果检查不满意,那就再转一圈,一直转到满意为止。这就是现在比较流行的一种新的 AI agent 工作方式。河豚恰恰是这样的一套系统。
关键在于它没有公开底层模型
河豚最鸡贼、也是最关键的一点是什么?它不告诉你里头到底放了哪些模型,但是它保证里头没有放 Fable 5 和 Mythos 5,因为它需要跟 Fable 5 和 Mythos 5 竞争。而且按照现在美国商务部的要求,它也不能用 Fable 5 和 Mythos 5。
但是,你说这里头有没有 GPT-5.5?有没有 Gemini 3?有没有 DeepSeek?有没有 Claude Opus 4.8?这个它不说。它只说,我们跑分跑得比 Claude Opus 4.8 还高一些。
所以它大概率是怎么干活的?比如说一个任务进来,Opus 4.8 负责拆解;拆解完以后,GPT-5.5 去执行;一些不是特别关键的任务,可能就扔给 DeepSeek 去执行;执行完以后,可能又扔回给 Claude Opus 4.8,让它检查一下有没有问题。有问题的话,再转一圈,一直转到“我觉得可以了”,再把东西吐出来。
在这样的情况下,它跑分比 Claude Opus 4.8 高,比 GPT-5.5 高,甚至在个别指标上可以超越 Fable 5 和 Mythos 5。它就是这样一套系统。
它有没有自己的模型
那河豚里头到底有没有自己家的模型?还是有的。不是前面那个鲶鱼模型,鲶鱼模型实际上是在 DeepSeek V3.1 的一个版本上做后训练出来的,也不是从头做的,待会再讲那个模型。
河豚系统里有一个叫“指挥模型”的东西,一上来可以稍微指挥调度一下。这个模型是用 Qwen 2.5 7B 做的后训练。每一次任务进来,拆解可能还是要用大模型去拆解,但它负责在里边进行循环调度。所以你说它完全没有自己的模型,这也不对。
鲶鱼模型的价值:本土化,而不是前沿底座

再转过来说鲶鱼模型。鲶鱼模型是基于 DeepSeek V3.1 Terminus 做的后训练。除了 DeepSeek V3.1 Terminus 之外,它也参考了 Llama 3.1 405B 的一个开源底座,然后自己训练出模型。
别看咱们现在嘲笑它拿别人的模型去后训练,大部分人连这一步都做不到。能够在人家的基础上做后训练,训练完以后还有更好的效果,不是一般人能搞定的。
有一个非常有意思的细节:DeepSeek 原版对于日本政治历史敏感问题会拒绝回答,72% 的问题都会拒绝。中国人训练的模型,你去问它“抗日战争怎么回事”,很多内容它是答不上来的。而 Sakana 用自己的日语数据后训练之后,拒答率几乎降到了零。
这说明它的价值是本土化适配,而不是造更强的脑子。它没有触及最硬的东西,也就是自己的前沿底层模型。
没有底层模型,就没有护城河

下一个问题大家就要问了:没有前沿底层模型,人家不也跑得好好的吗?你怎么就说日本人不行呢?
今天要讲的是,没有底层模型就没有护城河。编排这件事本身是没有门槛的,谁都能做,而且你的命门是拿捏在别人手里的。
OpenRouter Fusion 的对照
这条路不光 Sakana 这一家“鱼公司”在走。全球最大的模型聚合平台 OpenRouter,6 月 12 日就上线了一个几乎一模一样的东西,叫 Fusion。它可以把最多 8 个模型编排在一起,跑同一个问题,再让一个裁判模型把大家的答案融合成一个,号称不用 Fable 5 就能够逼近 Fable 5 的质量,成本只有 Fable 5 的一半。
它的角色分工和河豚是一个思路:干活的和检查的分开,而且干活的不允许自己检查,避免自己给自己打高分。OpenRouter 自己说了,约 75% 的提升来自裁判的融合,只有 25% 来自模型的多样性。
用这个对照就能说明,多模型编排是一个公开的、谁都能拼的工程手段,不是 Sakana 的独门秘技。一个东西如果连聚合平台都能顺手做一个,它就不构成护城河。
真正的护城河是底座和价格
那么到底什么是护城河?底座和价格才是护城河。底座模型是我自己的,我可以有底座模型价格的定价权,这才叫护城河。
而现在这些东西都在谁手里?都在 AI 大厂手里:OpenAI、Anthropic、谷歌,都在他们手里。而且这些做编排系统的公司只能用大厂已经公开发布的模型,可是大厂经常会捂着一两代模型,甚至有很多模型从来就不发布。这些大厂自己最清楚什么时候发新产品,几款产品之间到底差在什么地方。
等这些做编排系统的公司,也就是像 Sakana 这样的公司,拿到大厂最新的模型,开始研究怎么编排、怎么优化的时候,人家大厂内部的编排系统、Loop Agent 系统,早就已经迭代了不知道多少回了。所以你想跟他们比,根本就比不了。
而且价格也不是 Sakana 这样的公司能够控制的。你编排了半天,最后还得老老实实给 Anthropic 付 token 的钱去。而且 Anthropic 没准哪天一开心,还给你把账号封了。Anthropic 干这种事太正常不过了,OpenAI 也是这样的。
你说我用了 GPT-5.5 作为底层模型,上头给你编排了一下。那你干完活以后,得给 OpenAI 交钱。那我把账算好了,最后把自己该挣的钱挣到,不就完事了吗?
这里就有一个新的问题:大厂 AI token 的价格是不透明的。它可以把 token 价格搞得很贵,把自己的套餐,比如 20 美金的 Plus 套餐,价格搞得很便宜;或者说虽然是 20 美金,但是给你的量很大,导致套餐里的 token 很便宜,而外边的 token 很贵。
大厂做这样的动作以后,花钱买 token 的像 Sakana 那样的公司,不一下就没了吗?你的利润空间完全在人家的报表上,什么时候想弄死你,什么时候就弄死你。所以这是完完全全没有护城河的。没有自己的底层模型,也没有模型的定价权,这就是 Sakana 这类公司的尴尬之处。
编排公司吃的是窗口期
编排这套手法本身就不保密。OpenRouter 能上 Fusion,大厂自己当然也都把编排内置到自己的产品里去了。前面我们还专门录了一期视频分析 Fable 5 被人破解出来的 12 万字系统提示词,实际上就是一套这样的 Loop Agent 系统在运作。
而且大厂随时可以决定哪天去摁按钮。按完按钮以后,没准把你的 API 接口封了,或者把价格调整一下,把 token 价格涨一涨,把套餐里的用量涨一涨,那你们这些做编排的公司,不一下就被人挤死了吗?
所以这种纯编排公司,本质上吃的是一个结构性的窗口期。窗口开着的时候,你有饭吃;窗口一关,你连桌子都上不了。
而且这个事你自己完全没有任何主动权,所有权力都在大厂手里,人家随时想给你关,就随时给你关上。
互联网广告平台的历史类比

当年谷歌就是这么把一堆小广告平台干掉的。核心的价格和流量在谷歌手里,你在某个环节优化得再漂亮,也架不住人家从源头上直接弄死你。
讲到这,稍微把过去这段历史跟今天的 Sakana 对比一下。把时间拉回到互联网刚开始的时候,那时候所有人都想明白了一件事:广告就是唯一的出路。大家都去做广告吧。
于是有一大批公司跑出来,在广告各个细节、各个环节进行优化,比如投放优化、竞价优化、归因优化、广告网络之间的交换怎么优化、怎么进行计件,做了好多这样的系统出来。
你说这种系统技术有价值吗?有,而且很多人的技术还是很扎实的。结果这些公司今天都哪去了?这些公司都死了,或者被大厂收购了。现在一提互联网广告公司,就是谷歌、Meta、苹果、X;中国的就是腾讯、字节跳动,其他没了。那些小公司都被他们干掉了。
原因很简单,这些大平台自己是有流量的,它可以随时决定涨价降价。你那些小公司优化了半天,最后还是要用它的流量,那只能被它干掉。
像我以前在猎豹移动,我们也做广告,但是必须要接谷歌和 Meta 的 API,要在那边把流量跑出来。那它随时就可以弄死我,就是这么简单的情况。
这些广告公司里,绝大部分是雨打风吹去就没了,极个别做得特别好的会被收购,大厂重新把它买回来就完事了。而且买进去以后,其实也不是要它们的技术,而是要它们的用户、要它们的流量。这就是当年的历史,跟今天的 Sakana AI 非常非常像。
Sakana AI 的可能结局

那你说日本这一次是不是又完蛋了?Sakana AI 耍了一把小聪明,骗了人的钱,最后做不出来东西,还让大家跟着白开心了半天?也不能这么讲。
Sakana AI 死不了。它最终有可能成为什么?可能会被谷歌日本收购,或者被 OpenAI、Anthropic 日本直接收购,这个可能性是很大的。实在不行,字节跳动没准还来收你。
正是因为没有护城河,被收购反而是 Sakana AI 最好的结局。它这个团队里坐着一位 Transformer 论文的作者,光这一块招牌,被日本 OpenAI 或者日本谷歌收购的底层逻辑就算通了,定价也不会低。
买家真正买的三样东西
买它的人买的是三样东西:
- 第一个是顶尖团队,这看着没毛病。
- 第二个是已经铺好的日本本土落地渠道。这里头有一个日本外务省的前官员坐在里头做 COO,这故事讲得通。不需要讲你具体干了什么,把伊藤的简历往这一放,这故事不就明白了吗?而且你说它的政企关系,或者日本大企业买单,这也没毛病。
- 第三,它有调 DeepSeek 的历史。它可以把 DeepSeek 这种拒绝回答日本历史敏感问题的模型,调到可以回答日本历史问题。这不,能力已经摆在这了。
这三样东西恰恰是从外边砸钱也比较难买到的。
做纯编排的公司,顶尖的结局就是被收购。这恰恰说明它是有价值的。Sakana 真正的护城河根本就不在技术上。即使它被谷歌收购了,谷歌会用它的编排系统吗?不会。谷歌要的是你的政府关系、你的整个团队、你懂日本,要的就是这东西。
日本本土冠军的逻辑
而且日本有一个特别奇葩的地方,就是它对于本土产业保护得非常好。
以前我们的一个合作伙伴叫 JVC,日本胜利公司。这公司哪来的?美国电气公司在 1920 年代在日本建的分公司,后来打仗的时候分离了,叫 JVC,一直发展得非常好,500 强有时候在前边,有时候在后边,现在这几年不知道了。
还有一个案例是日本雅虎。雅虎在全球基本上都废了,但是日本雅虎依然是日本最大的门户网站。虽然日本雅虎现在跟 LINE 合并了,母公司叫 LY Corporation,但是它还是以日本雅虎的底子出来的。
所以,如果谷歌、OpenAI、Anthropic,也许是字节跳动,把 Sakana AI 直接买下来,就让它好好做日本这个生意,把所有关系打透。剩下技术的事情它就别问了,大厂有的是人给它搞定。这可能就是它未来的一个出路。
Sakana AI 未来不是要去跟 OpenAI、Anthropic、谷歌这些大厂竞争,它抢的生态位叫“日本第一”。这也不是日本追上来了,而是日本又长出了一个只在日本有用的本土冠军。
给创业者、普通用户和投资者的启示

今天这个故事对于普通人、创业者、投资人有什么启示?
给创业者
首先跟创业者讲清楚,不要在自己没有底层模型的情况下做纯编排系统,做 Loop Agent,也不要把这个东西当成主业去赌。这条路的天花板只有两个结局:做得好,能够被大厂收购;做得差,就什么都不剩,最后会被价格战清洗掉。
你要么手里有自己的模型、独家的数据、流量入口;要么就像 Sakana 一样,去卡一个本地市场或者政企关系,一个不可替代的位置。只优化中间环节,说我技术做得特别好,但命门握在别人手里,长期一定是个死。
给普通用户
第二,对于普通用户来说,能够使用原厂的,尽量使用原厂的,不要去使用这种第三方的编排系统。它们在技术逻辑上有不可克服的先天缺陷,因为它们只能拿别人已经公开发布的模型再去进行优化,这肯定是有问题的。
而且像 Sakana AI 这样,它不告诉你后台是怎么运作的,不告诉你底层用了哪些模型,你就没有办法相信它的结果。跑了半天,这个结果自己看着好像还行,但你要想清楚一点:AI 的运作速度是非常非常高的,它可以一分钟出一大堆结果出来,人的鉴别能力在这个面前是非常苍白无力的。
所以我们现在控制结果的最好方法是什么?就是底层可知,底层有保障。Sakana AI 这些东西是给不了的。
给投资者和内容创作者
对于投资者和内容创作者来说,看一家 AI 公司,先问两件事情:
- 底座模型在不在自己手里?
- 定价权在不在自己手里?
编排层公司的估值,要按照被收购的可能性和被收购的预期来算,不能按照下一个 OpenAI 来算。把跑分超过谁当成卖点,尤其要警惕:跑分是借来的,护城河才是自己的,这个一定要记住。
结论:一条日本鱼缸里的锦鲤

最后给出结论。表面上,这是“日本终于在 AI 开始追赶中美了”的一个叙事;实际上,这是一家没有自己底层模型的编排公司,在重演互联网广告小平台的老路。技术很聪明,商业没有护城河,命门全在别人手里。
更长期来看,今天这条鱼公司,也就是 Sakana AI,最大概率不会变成大海里的鲨鱼,而是会变成日本自家鱼缸里那条最贵的锦鲤。好看,值钱,被别人买走,但是它始终游不出那个缸。
对于整个 AI 大潮来说,它只是一个小小的水花,不会给整个行业带来任何变化。
背景图片
