Google的故事 – 老范讲故事｜AI、大模型与商业世界的故事

Google DeepMind连续有大神投敌，Google这是要完？

Luke Fan — Mon, 22 Jun 2026 00:57:01 +0000

谷歌 DeepMind 连续出走了两位顶级大佬，谷歌是不是要完啊？大家好，欢迎收看老樊讲故事的 YouTube 频道。

今天咱们聊这个事情，很神奇。本来第一位大佬出走的时候，我还说这事没啥好说的，结果又走了一个，还是跟大家讲一讲吧。特别是从投资人的角度，跟大家讲一讲：谷歌为什么花了 27 亿美金买回来的人，就这么拍拍屁股走掉了？

2024 年，谷歌花了 27 亿美金请了一个人回家。这个人叫做诺姆·沙泽尔，他是那篇 Attention Is All You Need 的作者之一。《注意力是你所需要的所有》，我们今天讲的 AI、人工智能所有的东西，都是从这一篇文章来的。

这个文章一共 8 位作者，一开始都是谷歌的人，现在全都走了。2024 年，谷歌 27 亿美金请了其中的一位作者回来，就是今天我们讲的诺姆·沙泽尔。请回来以后，他当上了谷歌最重要的产品 Gemini 的联合负责人。结果两年不到，2026 年 6 月 18 号，他走了，去了 OpenAI。

大家注意，现在这两家最顶尖的 AI 公司，一个是 OpenAI，一个是 Anthropic。OpenAI 是当时马斯克、萨姆·奥尔特曼，还有伊利亚等等一些人创建的，目的就是为了对抗谷歌，所以 OpenAI 是谷歌的绝对竞争对手。另外一家 Anthropic，是一帮人从 OpenAI 里出来创建的，他们是拿了谷歌的钱的，所以这两个公司是不一样的。

那你说 27 亿美金花了，也没拴住这哥们两年，这有问题啊。待会咱们从投资协议和交易的角度上，跟大家讲讲这事为什么，谷歌怎么偷鸡不成蚀把米，怎么耍了个小聪明，把自己 27 亿美金给打水漂扔掉了。

结果他走了第二天，也就是 6 月 19 号，DeepMind 又走了一位。这位叫做约翰·江珀，AlphaFold 的负责人，2024 年诺贝尔化学奖得主。2024 年诺贝尔化学奖是给两个人的，一个是这位约翰·江珀，另外一个人是他的老大，就是哈萨比斯。但是你说这里头谁是做主要工作的，谁是上来挂名的，大家自己去猜就好了。

他也跑掉了，他是去 Anthropic 了。一个礼拜之内，谷歌的 AI 部门，一位顶级的科学家去了 OpenAI，一位诺奖得主去了 Anthropic。这两家恰好是谷歌最大的竞争对手。现在全网就在问一个问题：谷歌 DeepMind 是不是要完啊？DeepMind 要完的话，那谷歌是不是要完啊？

今天咱们把这事好好掰扯掰扯。我先给结论，这个结论可能稍微有点反直觉：这种被挖到只剩壳的场面，恰恰是谷歌这种非常奇葩的组织架构最正常不过的结果。它就该成这样，而且它大概率不会完。

先花 2 分钟认识一下走的这两位人到底有多厉害，然后咱们分三层把这个事拆一下：

第一层，这 27 亿美金到底买了啥，为什么没绑住人？
第二层，为什么被挖的偏偏总是谷歌？他们经常有人被挖，而且被挖了以后还经常成为大新闻爆出来。
第三层，谷歌内部到底是不是真的出问题了？

三层拆完了以后，咱们再来回答这个问题：谷歌是不是要完？

先认识出走的两位顶级人物

首先，我们先认识一下出走这两位到底有多牛。要看谷歌亏得有多狠，就要先认识这两位到底是什么段位。

诺姆·沙泽尔：Transformer 论文作者之一

第一位，就是刚才咱们讲的诺姆·沙泽尔。他这条线本身就是一部 AI 编年史。2017 年，他跟另外七个人在谷歌写出了 Attention Is All You Need 这篇文章。咱们甭管是用 GPT、用 Gemini、用 Claude，或者是用国内的这些什么 DeepSeek，都是在这篇文章的基础上做出来的。

2021 年，他从谷歌出走，创办了自己的公司，叫 Character.AI，也就是虚拟名人和动漫角色陪人聊天的这个产品。2024 年，谷歌花了 27 亿美金把他给请回来了，让他当上最重要的产品 Gemini 的联合负责人，职务是架构研究负责人。那你说他不负责研究架构，谁负责研究架构？论文是他写的呀。

而且 OpenAI 的老板萨姆·奥尔特曼还说了这样一句话：

我从 OpenAI 创建那一天开始，就想挖他，就惦记跟沙泽尔合作了。不过等了 10 年，但是值得等。

约翰·江珀：AlphaFold 负责人

第二位叫约翰·江珀，他是另外一个神。他干的是 AlphaFold，也就是 AI 预测蛋白质的三维结构这件事。这是一个困扰了生物学界几十年的难题，基本上把这事给解了。凭这个，他拿到了 2024 年的诺贝尔化学奖。这位老兄在 DeepMind 干了将近 9 年，6 月 19 号宣布去 Anthropic。

你看这两位站的位置有多关键。沙泽尔管的是 Gemini，是谷歌正面硬刚 ChatGPT 的真正那张王牌；江珀手里边的是 AlphaFold，是 DeepMind 用来证明 AI 真能改变科学的招牌。一个是产品最前线，一个是科学最高处，偏偏这俩同一个礼拜差一天一起走掉了。走的不是中层骨干，是各自领域里头教科书级的顶尖人物。所以谷歌这两刀，挨得是真不轻。

咱们后边分三层来拆一下这事。

第一层：27 亿美金为什么没拴住人

第一层，27 亿美金，这人怎么没拴住呢？

要注意，投资或者是收购，我们通常会签一种协议，叫对赌协议。怎么个对赌法？比如说我今天收购了一个项目，你说你就把项目给我，然后人走了，这事不行。我们要的就是这个人，要的是整个技术和团队。你说我给你专利，给你代码，给你这东西，去你弟的，这玩意都没用。你没有这个人，这些东西都扯淡的。

那么我们怎么去签这种对赌协议呢？一般是人进来以后，27 亿美金也好，多少亿美金也好，它是分几块：一块是给投资人的，另外一块是给创始团队的。创始团队的这个钱，通常就要去签这个协议了，我们叫 earn out，就是持后付款。

你比如说第一笔付多少，一般这个钱是很少的。后边比如说 4 年还是 5 年，你也不可能说拉人一辈子，比如四五年，我慢慢付给你，每年付多少。你要保证两件事：

第一，不能离职，你走了这事就全白说。
第二，要保证你这块业务能挣钱，或者说你能够达到哪些业务指标。

咱们要签这个东西对赌，你如果达不到的话，那我们是要扣钱的。

而有的时候，对赌的部分还不是给现金，而是给股票的。比如说我今天收购了一个项目，问投资人说：“你是要钱，还是要股票？”这个咱们可以商量。但是给创始人的钱，绝大部分都是股票，没有说给创始人一堆现金的。因为第一个是要交税，第二个的话，我们也希望创始人跟着我们公司一起发展，然后公司股票涨了以后，他能有收益，这也是一个皆大欢喜的事情。

所以通常会给他签一个股票协议。你只要在我这个公司里头好好干，干到一年，你这个股票成熟百分之多少。成熟的部分你是可以拿去卖的，不成熟的部分，这个股票虽然现在我签协议给你了，但是我回头还是可以收回来的，你现在并不能直接卖掉它，它是这样的一个状态。

如果你做得很好，这个项目跟我们公司捆绑，或者说合在一起以后能够 1+1 大于 2，那么我们公司的股票涨了。当时授予你这些股票，它实际上是个股数，不是钱数，就是按照当时收购的价格把这股数给你了，你也可以得到更高的收益。

谷歌的“小聪明”

但是谷歌这两年就开始投机取巧，耍小聪明。他说，我不希望被人家做反垄断调查，因为现在谷歌被美国政府天天盯着反垄断调查。你把这玩意收了以后，你是不是又垄断了？他会有这样的担心。另外，他也希望少花点钱，因为现在这些 AI 公司实在太贵。如果你按照刚才我说的这种方式去收购的话，那 27 亿美金就不够了。

所以他现在就玩了一个什么呢？我花 27 亿美金，把原来投资人给的钱能还了尽量还了，让投资人不亏。然后我不把整个公司买下来，我只买这个公司的授权，然后我把这个团队弄回来上班。这些投资人呢，这个团队走了以后，他也不找你麻烦。

像沙泽尔这样的，我们投你是看中你这个人了，我投了以后你跑了，这事肯定不行，所以一定要签文件把他绑死在这。那么这 27 亿美金实际上相当于什么？是个转会费。我给你 27 亿美金，投资人，你们签一个协议，同意他离开，那么沙泽尔跟他的一些其他核心团队就进谷歌上班去了。

但是要注意，这里头谷歌赚到的便宜是什么？花钱花少了。你只把投资人给出的这些现金给了，然后投资人手里边的账目并没有平。

什么意思？比如说投资人投了 27 亿美金现金到 Character.AI 里去了，这个公司现在估值已经涨得很高了。对于这个投资人来说，他们所持的这个股份可能已经值了，比如说 200 亿美金、300 亿美金，是这样的一个状态。那我给你 27 亿美金，保证你不亏，但是剩下的那部分是不是有人愿意认，或者说现在到底值多少，跟我没关系了。首先大家保证不亏，那么投资人就愿意来签这个字，落袋为安了嘛，甚至他有可能还稍微赚了那么一点点。

签完字以后，也没有什么反垄断调查，谷歌把这个便宜都赚完了。但是问题在哪呢？钱是 Character.AI 的投资人拿的，而沙泽尔这帮人进去谷歌以后，他是没有拿到钱的，他也没有被锁定。或者说就算谷歌愿意再给你们一些入职 bonus 这种包，这个也会很少，绝对不是上 10 亿美金这样的一个数字。

所以谷歌对于这些人的绑定是很松散的。这样的情况下，他随时想走就可以走。所以我为什么说谷歌耍小聪明呢？我想少花钱，我想不被反垄断调查，但是你没有绑住整个交易的最核心资产。

原来谷歌是怎么想的呢？说我有足够的人格魅力，谷歌做的事情很有趣，所以我把你弄回来了，咱们来做这件事情。你自己创建那公司有点半死不拉活，虽然估值还很高，接着往前走又比较难，你就回我这来吧。他是这么一个想法。

但是前提是什么呢？就是你做这个事必须要有意思，必须要让人愿意留下来，要靠魅力把人留下来。当你做这个事情没那么好玩的时候，那这个人就离开了。

所以现在我们解释清了第一层：这 27 亿美金到底花在哪了，为什么没有绑定协议，为什么这个人拍拍屁股就可以走人了，为什么谷歌还没地哭去。因为他当时耍了一个小聪明。

Antigravity 和类似交易

而且谷歌干这个事还不是一回。还有一个项目，那个项目可能跟沙泽尔离开还有直接的关系，Antigravity，是谷歌现在的 AI agent 平台。这个项目其实谷歌也是这么弄回来的。他是当时买了 Windsurf 的一个授权，你们把核心团队给我。前头是 Cursor，你作为老二、作为老三，发展也发展不起来了，你把这个核心团队给我，给我一个授权，这帮人进到我的体系里头来，去做 Antigravity。他又做了一单这样的生意。

为什么说这一次沙泽尔走可能跟这事有关呢？因为未来可能核心不在 Gemini 这头，未来的核心可能是在 Antigravity 这头，就跟 OpenAI 未来的核心可能不是 ChatGPT，而是 Codex 是一样的。那内部的斗争，斗争失败了就要有人离开嘛。就跟很多医院里头，两个人都该升主任了，但是只有一个主任的位置，怎么办呢？另外一个人就要走嘛。所以沙泽尔走，大概是因为这个事。

最近还有人干过类似这样的交易，英伟达也干过一回。英伟达是 200 亿美金买的 Groq 芯片的创始团队成员，也是为了少花钱，也是为了避免反垄断调查。而 Groq 团队的这帮人原来也是谷歌的，这帮人是谷歌最早 TPU 的设计师。后来在谷歌里头玩不下去了，或者说路线斗争失败了以后，他就跑掉了，出去创建了公司 Groq。这帮人并没有被谷歌买回去，是被英伟达买回去了，同样的方式。

那你说过两天这帮人是不是也跑了呢？也有这种可能。因为这样的交易都有共同的特点，就是真正的核心资产没有足够的价值进行绑定。

第二层：为什么被挖的总是谷歌

第二层，为什么被挖的总是谷歌？

原因是谷歌有一个非常奇葩的架构，就是谷歌允许很多科学家、很多顶尖人才在我这里做一些现在用不到的东西。这个事情是绝大部分公司都不允许的，只有谷歌允许。

你想，这帮人做 Transformer 论文的时候是 2017 年，最后 Transformer 真正被大家看到是什么时候呢？2021 年了。中间这几年，他们就举着这篇论文，谁也不知道该干嘛使。但是谷歌说，我们愿意花钱，我们愿意让大家去做各种不一样的东西。

有人被挖，而且这个人还有足够的响动，那说明什么？就是你聚集的类似这样的人足够多，所以被挖走的人其实是九牛一毛。

比如谷歌做量子计算，谷歌股价大涨了，但是你说这东西有用吗？到目前为止其实是没用的，因为量子计算现在距离最终实用还差很远。但是谷歌还是愿意花钱，说咱们接着研究吧。等到哪天量子计算又火了，说这个东西可以实用了，那你会发现最核心的这一帮人又都是从谷歌来的。它一直是这样的一个体系架构在往前走。

那你说这帮人为什么没有在 AI 起来以后继续为谷歌做贡献呢？你都这么苦日子都熬过去了，能够共患难了，为什么不能共富贵呢？问题恰恰在这里。

谷歌允许一大堆人在这里去做各种各样当前用不到的研究，也会养很多很多部门。等到其中发现有一块特别火了，这是未来的方向了，他也没有办法把其他的都砍掉，咱们就干这一件事，其他项目不干了。如果谷歌能够做这样的决定，它就不是谷歌了。那什么量子计算，还有很多现在它做的事情，一时半会看不到结果的事情，就都做不下去了。

所以这是它的一个属性的两面。当 AI 成为当红炸子鸡，顶尖的这帮 AI 人才，就是当年 2017 年在谷歌写论文的这帮人，他就会面临一个选择：外边全世界的人都看到了，AI 是全村的唯一希望了，他们愿意给更多的钱，愿意让我去做更大的决策，那我到底去还是不去？或者说，我愿意留在谷歌里头继续跟一帮人在一个澡堂子里头泡脚丫子，对吧？

那么你就要去挑了嘛。最后这帮人大概率是留不下，最顶尖的一些人会不断流失。但是你说流失来流失去，总还会有留下来的，留下来的还是很强的人。这就是谷歌为什么总是被人挖人的一个原因，这是很正常的，不挖他就奇怪了。

第三层：DeepMind 内部是不是出问题了

第三层，DeepMind 内部是不是出问题了？

这个可以跟大家确认，肯定是出问题了，而且出问题的这个地方应该就是哈萨比斯。

谷歌内部既然这么大，一定是山头林立。原来大家都是各自玩各自的，但是你一下子成为全村希望了，资源要聚集了，那一定会把很多原来被压制下去的矛盾全都爆发出来。

AlphaFold 这条线的矛盾

比如说研究蛋白质的这位老兄，他为什么走？我干了半天活，哈萨比斯，你作为 DeepMind 的老大，咱俩一块得了奖，你每天出去指点江山去了，我在这吭哧吭哧折腾了半天，好像也没有什么未来的方向。而且再往后的话，肯定是 Gemini 这头是未来方向，AlphaFold 这块其实一直是一个相对比较幕后的英雄。虽然这东西也是开放开源的，但是有什么响动吗？没响动，因为绝大部分人根本搞不懂什么叫 AlphaFold，什么叫蛋白质。

那算了，谁愿意让我接着发光发热，我上那里去了，找一个没有掣肘的地方。对于 Jumper 来说，掣肘他的人实际上就是哈萨比斯，因为别人跟他也没什么关系。

Gemini 和 Antigravity 的路线之争

至于另外一个，沙泽尔这块也是同样的问题。原来谷歌 DeepMind 在英国，Gemini 带这帮人在美国，他们两边其实就在不停地打来打去，一定还是有一些矛盾被压在下面的。

下面又一个问题是什么？现在虽然 AI 是老大，但是 AI 里头还有老大中的老大，Harness agent，就是驾驭系统。Gemini 这头说，我们要做 Gemini CLI、Gemini 的客户端；另外，他们买回来的那个项目是 Antigravity。后来看着好像甭管是 OpenAI 的 Codex，还是 Anthropic 的 Claude Code，这玩意才像是未来老大的样子。

Antigravity，你有帝王之姿，其他人没有。Gemini 负责人的沙泽尔说，既然他有帝王之姿，我走行吧，谁愿意认我当爷我去了。他就会出现这样的事情。

所以谷歌现在肯定是内部的平衡平衡不了。所有这种大企业，特别是相对松散的大企业，你在每个人都能产出一点小创新的时候，其实没事，一碗水端平嘛。但是你一旦说有唯一方向了，那就一定会打出狗脑子来。

大模型研发也有压力

还有一点就是，谷歌内部的大模型研发现在肯定也是有点不太跟得上趟了。Gemini 3.5 Flash 发布了，Gemini 3.5 Pro 一直没出来。大概率是什么？就是 Gemini 3.5 Pro 跟 GPT 5.4、GPT 5.5、Claude Opus 4.7、4.8 应该是不相上下，或者可能还稍微差那么一点点的一个位置。

但是现在大家比的不是这个了，现在大家比的是 Claude Mistral 5、Claude fabul 5，虽然这两个被封了，但是已经发布过了呀。马上要出的 GPT 5.6，大家开始比这个了。你 Gemini，这个 Gemini 3.5 Pro 跟刚才这些新一代的模型比，肯定已经没法拿出来看了，上不了台面了。

所以它现在模型也有问题，内部的组织架构也有问题，很多资源分配得又不是很均匀，就会有人走。

谷歌到底会不会完

最后咱们判断一下，谷歌到底会不会完。这事咱分两半走。

谷歌确实遇到麻烦了

第一个，谷歌确实遇到麻烦了。它的整个这套体系比较佛系，慢慢地养人。你现在愿意做未来几年有价值的东西，我们发薪水，你去做去。做完了以后你去发论文，这都没毛病。但是它这套体系一定会带来一个反面，就是当其中某一项技术突然大红大紫的时候，它的资源体系没有办法进行集中。因为你现在能集中了，那你为什么现在还要去研究没用的东西？这个事是矛盾的两面。

没法集中的话，外边就会有人愿意给更高的价码，那这些人一定会走，所以这个事是没有办法的。

另外一面，就是它的 DeepMind 确实是有问题。一个问题是它的大模型研究慢了；另外一个问题，其实跟刚才咱们讲的第一个问题是一样的，就是资源分配和位置的分配，或者叫椅子的分配，不够均衡。这些人就会跑掉。

还有一点，就是谷歌这一段时间，特别在收购案的时候，还耍了点小聪明，以为自己占了便宜。但实际上，核心资产没有进行足够的价值绑定，这也就导致了 27 亿美金花了，人跑了。这种恶果只能自己吃，没地哭去。

但说谷歌完了还为时过早

但是你说出了这样的事，谷歌就会完吗？也不一定。因为人家这么多年一直是这么下来的，这么多做先进技术的人在谷歌里边发了论文以后出去创业了，谷歌不也在继续前进吗？也没有就这么完掉。

而且现在走掉的这些人，对于整个谷歌的盘子来说，依然是九牛一毛。这个事有点像中国。现在我们可以看到，在美国各大 AI 公司里头，有很大比例的中国人在干活，但是中国的 AI 人才就都去美国了吗？哼，去了的也是九牛一毛。虽然他们可能是掐尖，把最好的一部分人拎去了，但是还是会有一部分人留下来。甚至有些人说，我在美国可能没法拿到顶尖的资源，那我回国吧，回国可能还会有顶尖的资源、顶尖的基金来帮助你干活。

其实这个过程是一样的，就是足够内卷。谷歌就是内部人才足够内卷，中国也是人才足够内卷，所以就是这么样的一个情况。

所以，这个事情出了确实会引起关注，但是你绝对不能说因为这样的事情谷歌就完了。毕竟谷歌的钱在这，手里有足够的现金，而且它还是 Anthropic 和 SpaceX 的大股东，还有用户，还有它现在比较健康的商业模式，就看它后边怎么去转身了。说它完，为时过早。

好，这就是咱们今天的故事。感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

谷歌800亿融资，巴菲特久违接盘，背后有什么鬼故事？

老范讲故事 — Fri, 05 Jun 2026 00:52:08 +0000

如果是，那么它的股价就会下跌，因为它的业绩没有达到预期；如果是，那么它的股价就会上涨，因为它的业绩超出了预期。所以我们要关注的是公司的业绩，而不是股价的短期波动。

首先要跟大家更正一点，谷歌融的不是800亿美金，是847.5亿美金。而且它不仅仅是发动了融资，还停止了回购，而且还在全世界举债借钱。这到底在发生什么？

AI巨头嘴上在讲春天要来了，账面上却在准备过冬。什么时候需要这么多现金？一定是准备过冬的时候，准备冬眠的时候，这个时候才需要囤现金。寒冬里的现金不只是为了买过冬粮，还是为了收割竞争对手和低估资产的子弹。

巨头们的反常动作

现在把几个反常的动作放在一起来看一下。谷歌一季度回购归零。美国这些大的科技股都是会不停回购股票的，但谷歌一季度没有回购。Meta同季度回购归零，它也不回购了。Oracle最近一个季度回购归零。所有这些巨头都已经停止了股票回购。春江水暖鸭先知，他们这些人肯定先动起来了。

谷歌过去一年在多币种密集举债，不光是在美国搞钱，日本、瑞士、各个地方都在发债，都在搞钱。英国市场上甚至再次出现了100年期的英镑债，很神奇。伯克希尔哈撒韦也拿出了100亿美元买谷歌，但是自己仍然握着3,000多亿美元的现金和短期美债。

所以这不是缺钱公司在求救，这是最有钱的一批公司，在钱还相对比较便宜、市场还愿意相信AI春天的时候，提前把弹药库囤满的动作。

谷歌847.5亿融资是怎么算的

首先咱们来讲谷歌这个847.5亿到底是怎么算的。2026年6月1日，Alphabet宣布计划进行800亿美金的权益融资。2026年6月2日，定价文件把总规模上修到了847.5亿美金。

结构大概包括几块：

普通股公开发行；
强制可转优先股存托股份；
伯克希尔哈撒韦私募；
ATM按市场价分批增发。

ATM是400亿美金，就是400亿放在这，但是到Q3的时候慢慢把它放出来，预计从2026年Q3开始，不是当天一次性就到账了。

伯克希尔哈撒韦这100亿美金，50亿买的是A类普通股，价格是351.81美金每股；50亿买的是C类资本股，价格是348.2美元每股。

A类股票是一股一票，股票除了可以分钱之外，是有投票权的，开股东大会的时候你可以上去投票。B类股是一股十票，主要握在谷歌的创始团队和管理团队手里。C类股是无投票权的。所以大家看到，伯克希尔哈撒韦所买的C类股，要比A类股稍微便宜一点点。

伯克希尔哈撒韦买的是谷歌冬天里的经济仓位，不是谷歌的控制权。谷歌控制权仍然焊在B类超级投票股的手里。所以你说我现在想让谷歌做出一个什么决策，靠外边买股票很难实现这个目标。

那你说这数到800亿了，剩下的钱去哪了？不多出来47.5亿吗？这里头大概有20多亿是承销商做这样的操作会有的，他们可以多买一点点，这个是要给他们留出来的。还有20多亿是承销商的手续费，人家给你干这个活，还是要收手续费的。大概加在一起是847.5亿。

回购熄火：科技股的重要边际买盘退潮

下一个事，咱们讲回购。过去十年，美股科技股很重要的边际买盘，就是公司自己买自己。美股七姐妹里有一些是非常喜欢回购的，这里头最喜欢回购的是苹果，谷歌、微软都是特别喜欢回购的。

但是美股七姐妹里有两个不怎么回购。第一个是特斯拉，基本上不回购；另外一个就是亚马逊，回购相对来说比较少。通常创始人在的时候都不太爱回购，因为他们觉得钱在我手里是可以更好发展的。乔布斯在的时候苹果也不回购，乔布斯离开了，蒂姆·库克上来以后，才开始进行大规模回购。

现在美股七姐妹能够占到美股这么大的份额，其实很大一块是他们自己买回来的。回购意味着公司有富余的现金，愿意托股价，愿意把利润还给股东。现在AI基建一上来，这台发动机开始退潮了。

谷歌：连续33个季度回购后突然归零

谷歌一季度回购归零，没有回购A类和C类的股票。2025年一季度，谷歌回购股票现金流约150.68亿美金。从2017年Q4到2025年Q4，连续33个季度都是有回购的，突然到2026年第一季度就停了，就归零了。

大家可以看到趋势，不是没有钱回购了，是明明还有授权。大家注意，回购这东西不是说我今天想回就回，明天不想回就不回的。你要先去提交申请，人家SEC给你授权了，你才可以去回购。他授权还在，但是我就不回购了。一边停止回购，一边融资847.5亿美金，这个信号比新闻标题更重要。

Meta：从持续回购转向AI基础设施

下一个是Meta。Meta 2026年一季度停止了回购，2025年同期Meta还回购了127.54亿美金，2025年四季度也没有回购。所以它的2026年一季度，是第二个停止回购的季度。

Meta的A类股回购计划也是从2017年1月份开始的，8年零9个月，35个季度。Meta回购了这么多季度以后，到2025年Q4说停：我们现在这些钱有用了，我们要拿去做AI基础设施建设了。

Oracle：老回购机器也停了

Oracle属于老回购机器。Oracle跟上面两家比起来是比较小的，所以它每年的回购也就是几亿美金。它从1992年就开始回购，每年都回购。但是到2026年2月28日这个季度就停止回购了。我要拿这些钱去建机房，我要去买AI服务器去了。

亚马逊：本来就不是高回购公司

亚马逊是一个比较特殊的。亚马逊有回购计划，2022年授权了最高100亿美金的回购，但是没有固定日期。

像我们以前去申请回购的时候，是这么申请的：

回购多少钱；
这个回购在多长时间之内要把它做完；
在什么样的价格区间内去启动回购。

回购还有量，就是每天回购的量不超过上一个交易日的百分之多少，反正有这样一些规定。当然也有一些规定稍微宽松一点的，就像亚马逊这种，2022年授权了100亿美金，什么时候愿意回就什么时候回，把这100亿回完了以后，再去做新的申请就可以了。

2022年，它回购了60亿美金。2023年、2024年、2025年都没有回购，2026年也没有回购。所以它这个100亿美金，基本上就是为了2022年那一次去做的。亚马逊压根就不是这种高回购公司，它是突然有事了我就干一笔，其他时候我就不做了。

微软和苹果：两个对照组

这里头还有一个对照组，就是微软跟苹果。微软并没有停止回购，2026年刚刚过去的这个季度，仍然通过分红和回购返还了102亿美金。但是微软的回购额度在下降，原来回购的会更多一些，现在在收紧。

而苹果就是另外一回事了。大家注意，每个公司给财年起名字的方式不一样，所以它经常对不齐。苹果2026年的第二季度新增最高1,000亿美金的回购。为什么它这么猛？因为苹果AI啥也没干，它也没有去建机房。到目前为止，苹果跟英伟达之间的恩怨也没有解开，你建了机房，总不能上英伟达那买芯片去吧，所以它就只能拿着钱去回购去了。

谷歌全球举债：提前锁定低成本资金

咱们讲了两点，第三个，谷歌还在全球举债，四处借钱。谷歌过去一年一直在全球债券市场上拿钱。Alphabet 6月融资材料显示，过去一年已经在六种主要货币和市场融资，借了超过850亿美金的债务，这让它的负债总额超过了1,000亿美金。原来没多少，你看它新增了850亿，达到1,000亿。

谷歌在日元、欧元、加元、瑞士法郎、英镑四处去借。那你说为什么借这些钱？因为这些钱的利息低。瑞士法郎的利息是0，日元的利息大概是0点一几还是0点几，非常非常低。我借这个钱，肯定要比去借美元便宜，因为美元的利息是很高的。欧元的利息其实也不低，但是只要有窗口还是要去借。

英国100年期英镑债

所有这些债务里头，最有意思的一笔是在英国。2026年2月，Alphabet在英国发行英镑债，其中包括一支100年期的英镑债。路透社报道，这只100年期英镑债的规模是10亿英镑，票息是6.125%。这只百年债务属于55亿英镑五档英镑债务交易中的一部分，就是它一共借了55亿，然后这55亿里按照不同的档次去借，其中有一笔10亿英镑是100年的。

Bloomberg报道称，这类科技公司的百年债务是极其罕见的。上一个是谁？上一个是1997年的摩托罗拉。谷歌是有史以来的第二次。这个事稍微有点不太吉利，因为摩托罗拉大家已经知道，它借完百年债以后，实际上就一直在走下坡路。现在摩托罗拉的手机业务先卖给了谷歌，后来卖给了联想。现在摩托罗拉到底在干什么，大家都不知道了。

伯克希尔哈撒韦的100亿：不是追热点

伯克希尔哈撒韦投了谷歌100亿美金，我看也很多人在说这个事。甚至有些人在讲，巴菲特退休了，新上的这位CEO是“崽卖爷田不心疼”，就是说前面把田留下来了，新人上来以后就把田卖了，不心疼。这个不能这么讲。

这100亿美金对于很多人来看是一个很大的钱，但实际上，伯克希尔哈撒韦2026年一季度保险和其他业务持有的美元现金及现金等价物514.78亿美金，同期还持有3,392.61亿美元的短期美国国库券，两项合起来3,907.39亿美金，应该是伯克希尔哈撒韦自建立起来现金存量最高的一个时间点。

所以伯克希尔哈撒韦给了谷歌100亿，不是倾家荡产，不是把粮仓搬空了，它只是从粮仓里拎了一小袋子粮食出来，往市场的水里扔了一块石头。这块石头的作用是什么？是看看市场是不是已经很紧张了，也要看一看资产会不会开始打折，看看AI基建这场大洗牌会不会提前开始。

现金既是防守，也是冬天里的收割工具

所以现金不只是防守，也是冬天里的收割工具。冬天有两件事情会同时发生：钱会变贵，资产会变便宜。

很多人听到这就会觉得，资产变便宜我能理解，原来估值是100亿，现在估值剩10亿了，这事我能理解。那什么叫钱会变贵？就是你借不到钱了，融不到钱了。你要想融到钱，需要支付更高的利息，这就叫钱会变贵。

刚刚我们讲的，大家也可以看到这个钱变便宜的过程。你现在去借日元、借瑞士法郎，这个钱就变得特别便宜，因为它利息低。去借美元，这个好贵，5%的年息。你现在去找伯克希尔哈撒韦，说我愿意把股票卖给你，打了个百分之几的折扣。你真到冬天的时候，再去找伯克希尔哈撒韦谈这个生意，说我现在还想把股票卖给你，那伯克希尔哈撒韦说，来，给我打个八折行不？它就会变成这样了。这就是钱和资产之间的价格博弈。

真到冬天的时候，现金多的人一边能够熬过应用收入还没跑出来的阶段，一边还能够在别人被迫卖身的时候，收购竞争对手或者被低估的资产。比如现在突然钱变贵了，资产变便宜了，那谷歌一扭头说，Anthropic，你的日子不太好过吧，我把你买下来吧。它会干这样的事情。当然未必是Anthropic，有可能是其他一些公司。它一伸手就直接把人买回来了，因为那个时候人家变便宜了，它手里有现金，现金变贵了。

AI寒冬真正残酷的地方，不是大家一起亏钱，而是现金多的人会在冬天把现金少的人直接收走。

AI会有春天，但春天之前先有冬天

那么AI到底是不是泡沫？我觉得这个问题不是我们今天要讨论的。我们今天要讲的是，AI会迎来春天，但是在春天之前，先会有冬天。

所以现在甭管是谷歌、微软、Meta、Oracle，所有这些公司，他们一边在粉饰太平，在告诉大家说，你看我很挣钱，我的现金流很稳，我手上现金很多；一边又在拼命地囤积弹药。他们就是在过冬。他们都相信春天会到来，但是一定要把冬天的子弹存好，这样他们可以熬过冬天，甚至可以在冬天消灭竞争对手。

互联网泡沫与AI算力：像与不像

那么我们就要想想，上一个泡沫、上一个冬天是什么样了。互联网泡沫跟AI算力之间，到底有什么异同之处？

大家知道互联网泡沫的时候，这些科技企业在囤什么吗？现在咱们都知道，在囤算力，在囤机房，在囤显卡。上一次大家干的是什么？上一次大家囤的是思科，是路由器，是网络设备。因为当时大家也不知道互联网怎么去改变世界。既然挖不出金子来，咱就在金矿旁边卖水呗。这一次卖水的是英伟达，上一次卖水的就是卖交换机的。所以他们就拼了命地去囤思科，把思科的市值一直推到了5,554亿美金，成为了当时市值最高的一个公司。

这个时间点是2000年3月，也就是互联网泡沫正在破裂的这个时间点，最高峰就在这了。到2001年，这个泡沫就破了，而且当时的市场发现我们押错注了。思科现在依然是一个很大的公司，但是已经完全不是当年的思科了。

2001年，思科做了约22.5亿美元的库存冲销，就是这库存卖不出去了，并且启动了裁员和成本压缩。思科的股价大概在最高峰上跌去了50%以上，直接是腰斩再腰斩的状态。思科到现在应该也没有爬回到5,000多亿的市值去，就一直这么不温不火地往前走，也没死掉，还是在接着往前做。

这玩意是鬼故事，咱们一开始就要讲鬼故事吗？大家有没有害怕？互联网时代拼命去做卖水人、卖铲人，囤了一堆思科路由器，把思科股价推到市值第一。现在AI冬天即将来临，囤了一堆算力卡，囤了一堆英伟达，把英伟达推成了市值第一的位置。是不是觉得后脊梁开始发凉？

不同之处：TOKEN需要算力产生

要跟大家讲，这里不太一样。思科的问题是什么？互联网真正赚钱的地方在于广告、搜索、电商和交易匹配。交易次数的暴增、交易效率的提升，不会自动让思科多卖一台交换机。你把这些交换机都卖完了以后，就搁这不动了，然后那边人家去提升交易效率、提升交易次数，后边挣的钱跟你没关系。

但是现在AI是不一样的，因为AI是需要产生TOKEN的，而TOKEN必须要靠显卡去产生，要靠算力卡去产生。只要有新一代的算力卡出来，它产生TOKEN的效率会提升。你可以用更少的钱买更强的算力卡，用更少的电产出更多的TOKEN。而且你希望挣到更多的钱，就必须要烧出更多的TOKEN。所以这个跟上一次确实不太一样。

但是这还是鬼故事。

“这次真的不一样了”，也是那些股市里的老韭菜每次都说的一句话。

我们希望这一次真的不一样了吧。

普通人真正应该思考什么

普通人真正应该思考的是什么？首先，巨头们的这些动作，他们在干什么，他们是怎么想的，他们为什么干这件事，我觉得我已经跟大家讲得很明白、很透彻了。他们已经判断了要入冬，冬天以后是灿烂的春天，但是怎么度过这个冬天，这就是他们现在在做的事情。

普通人说，我现在也去买点股票，我买点伯克希尔哈撒韦吧，或者什么都可以。但是更多需要思考的是什么？互联网进入春天以后，不是网页更酷了，当然也不是需要买更多的交换机，这都不对。真正互联网进入春天以后发生了什么？是所有交易的效率、交易的频次、交易的数量呈几何级数上升了，然后大家在里面找到了各自的位置，重新开始挣钱。

AI其实也是一样的。现在我们总担心AI带来裁员，AI有泡沫，AI不知道怎么挣钱，其实跟互联网冬天之前的那个时期是一样的。AI真正落地以后，一定也是交易，一定注意交易。交易的效率会提升，交易的数量会提升，大量原来没法做的交易可以去做了。在这里头，我们要去思考到底能够给自己寻找到什么样新的位置，这个才是普通人在这里头真正要去想的。

剩下的，咱们也都囤点现金，囤一点好出手的资产，鸡蛋不要放在一个篮子里，也只能跟大家讲这种老生常谈的话了。

结尾：四句话总结

最后咱们结个尾。谷歌不是缺钱了，伯克希尔哈撒韦也不是在追热点，他们都在做同一件事情：趁着市场还相信春天，先把冬天的钱和资产囤好。更狠的一层是，冬天不只是防守期，也是收割期，他们也准备去收割别人。

所以今天这个故事可以落在四句话上：

回购熄火，是股东回报让位给AI基建；
全球举债，是提前锁定低成本、长久期的资金；
伯克希尔哈撒韦进场，是老钱拿着现金看冬天资产会不会打折，实际上它真的就是在往湖里扔石头，有3,900亿现金，扔了100亿出来听个响，看看你们是不是开始抢起来了，它在干这样的事情；
AI真正的春天，要看它能不能像互联网一样，把难做的生意变成高效、高频、低成本、可规模化的新交易。我们真正要等的是这一个时间点。

好，这就是咱们今天的故事。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Google I/O失焦与Gemini困局

老范讲故事 — Sun, 24 May 2026 01:13:55 +0000

今天咱们聊一聊 Google I/O。

我本人应该是在 2005 年、2006 年都去现场参加过 Google I/O。当时还是在旧金山市中心的 Moscone Center。后来 Google I/O 搬到 Mountain View 以后，我就没有再去参加过了，因为 Google I/O 越办越大，Moscone Center 已经不够用了。

今天讲 Google I/O，其实是要讲一个日暮西山的巨人，还在坚持一些很守旧的东西，给我们展现各种疲态。以前每年 Google I/O，我们还会关注今年发布了什么、有什么有意思的东西。现在看完以后，只会觉得很失望。当然，还是有很多人在尬吹 Google I/O，看得我脚底板都快抠出两室一厅来。

一次让我放弃使用 Gemini 的经历

今年最有意思的，不是 Google 发布了多少东西，而是我本来想用 Google 自己最新的 AI 来准备这一期 Google I/O 的直播讲稿。我原来有这样的习惯：讲谁家的产品，就一定用谁家的大模型去准备，也算稍微体现一下他们的能力。但是稍微点了几下以后，我就放弃了。

事情是这样的：我去问 Gemini，而且还不是在 Gemini App 或者 Gemini 网页里问。我还专门跑到 Antigravity 2.0 里，做了一个升级以后去问。我说：“Gemini Spark 这个我很喜欢，我想用一下，怎么用？”

它也搜索了，也思考了，然后告诉我：有一个东西叫 Apache Spark，还有一个东西好像叫科大讯飞还是谁的 Spark，你到底要用哪个？当时把我问傻了。我说我要用 Google 的，刚在 I/O 上发布的那个 Spark。然后它说：“那你真的要用 Apache Spark 吗？”

我已经不知道该怎么接了，于是我就放弃了。

所以今天这个稿子依然是用 GPT 来准备的。刚才这个故事发生在 Google 刚刚升级的 Antigravity 2.0 和 Google 刚刚发布的 Gemini 3.5 Flash 上。3.5 Flash 没搞定，我就换成 3.1 Pro，结果还是在那胡说八道。后来我到 Google 的 Gemini App 或者 Gemini 网页上试，依然如此。

我为什么要出来骂街、抱怨这件事？因为我自己的使用体验非常非常差。这不是一个单纯的吐槽。Google 在发布会上讲的是智能体时代，它也意识到现在是智能体时代，是 harness agent 的时代。但是普通用户真正关心的是什么？就是你能不能听懂我在说什么，能不能按我的话去干活，能不能少犯点低级错误。

聊天机器人胡说八道，最多让人一笑。但是智能体胡说八道是很危险的：它会改错文件、发错邮件、删错代码、安排错会议。这是我们不能忍受的。所以 AI 从聊天进入干活阶段以后，可靠性要比速度和价格重要得多。

今天先稍微回顾一下 Google I/O 2026 到底发了点什么，然后讲 Gemini 3.5 Flash 为什么让我发疯、让我愤怒。后面再说 Gemini Omni、Spark 和 Antigravity 各自的问题在哪里，以及 Google 为什么总是在撒胡椒面。

Google I/O 这次到底发了什么

Google 还是在玩宏大叙事。几年之前，Google 的宏大叙事、微软的宏大叙事，我们看着还是很爽的。但是这几年下来，我们越来越讨厌看宏大叙事了。这跟咱们是中国人没有关系，不要胡乱联想。即使是 Google 的宏大叙事，我们也看不下去了。

Google 这次本来应该只讲一个主题：我们做 agent，就完事了。它本来应该说：我们要做智能体引擎，Google 不只是模型公司，而是智能体时代的基础设施公司。

但是你去看它讲了什么：搜索、Workspace、安卓、Chrome、YouTube、Google Cloud，包括怎么写邮件、怎么做日历、怎么安排日历、怎么写文档、怎么在你的网盘上做事情。它把所有东西都讲了一遍，最后就让人觉得很烦。

Google 的潜台词是：如果智能体时代真的来了，谁最适合做你 24 小时的 AI 助理？应当是 Google。

这很像微软原来那套词：你看，我有 Windows，我有 IE，我有 Office，你应该在我这里待着。但是微软错过了移动互联网时代。Google 现在真的在向这条路上继续狂奔。

Gemini 3.5 Flash：快、便宜，但不靠谱

首先说 Gemini 3.5 Flash。这个产品主打快和便宜。快不快？确实很快。便宜不便宜？它其实没有国内的 DeepSeek V4 Pro 便宜，也没有像 MiniMax 或者其他一些中国模型便宜。所以在“便宜”这件事上，它并没有什么优势。

Google 为什么发布这样的东西，而不是发布 Gemini 3.5 Pro？这里可能有三个考量。

第一种可能：Gemini 3.5 Pro 不够惊艳

Gemini 3.5 Pro 可能没有办法明显压制 GPT、Claude、DeepSeek 这些东西。那么 3.5 Pro 就过两天凑合发出来，反正拿出来也比不过别人。

其实 Google 的 Gemini 系列模型从来也没有压制过 GPT 和 Claude。虽然有一段时间它确实很猛，导致 OpenAI 拉过一次红色警报，但它也仅仅是追上了 OpenAI，达到了一个将就能用的状态。

那一次拉红色警报，我觉得最核心的原因不是 Gemini 3.5 Pro，而是 Nano Banana，通过画图的方式把用户拉走了。现在不要求你每一块都做得好，而是要求你有一个不可替代的点。所以 GPT 通过 GPT Image 2 又把用户拎回来了。

第二种可能：智能体时代需要更快、更便宜的模型

既然到了智能体时代，大家都在做智能体，那么可能确实需要一个更快、更便宜的模型，不一定要上 Pro 模型去做深度思考。所以这也是一种可能：把成本压缩下来。

第三种可能：Google 留了后手

也许 Google 确实留了一个后手，可能还有一个非常非常强的模型在憋劲。但是我觉得稍微有点难。Google 其实给自己选了一条特别难的路。

问题在于，智能体不能光便宜。我们现在是在智能体里使用大模型，并不是一定要便宜。我宁肯花贵一点的钱，宁肯慢一点，但是它一定要靠谱。

因为现在不管是养虾也好，养马也好，系统本身没有那么靠谱，我们又要让它去干一些真实工作，所以可靠性才是最重要的。我宁肯花更多的钱订 GPT 或者 Claude，也不要为了贪一点小便宜，让它每次干活都惹我生气。

现在看到的 Gemini 3.5 Flash，真的能把你气死，而且是在它自家的 harness agent 框架，也就是 Antigravity 2.0 上，能气得你完全没招。

我们真正需要的模型是：

不跑题；
不瞎猜；
不把旧知识硬套到新产品上；
不自信地犯错。

现在这几条它都犯了。

Gemini 3.5 Flash 证明了一件事：只省钱、只提速是没有任何意义的。你把这样的东西放到 harness agent 里，放到 Antigravity 里，没有人敢放心地把事情交给它干。

原来我让 Gemini 跟我聊天，它胡说八道一下也就算了。最多是我被它骗了，拿一些错误信息跟大家讲故事，最后被大家挑错：“老范你又不懂了吧。”这个我认了。但是你到了 harness agent 里，是要在我电脑上操作文件的，是要操作我的邮箱的，这就太恐怖了。

Gemini Omni：技术路线强大，用户感知很差

再往后一个发布的东西叫 Gemini Omni。“Omni”这个单词每次出来，意思都是全能。这一次 Gemini Omni 的技术路线极其强大，但是效果并不好。

它讲的是一个世界模型的故事。也就是说，我不是文字模型了，我能够理解图片、视频、声音和动作，什么都可以理解。

像 GPT、Gemini 3.1 Pro，其实 3.0 Pro 往后的版本，都是可以输入图片、声音、视频、动作的，都是全模态输入。但是原来的 Gemini 3.0 Pro、Gemini 3.1 Pro 只能输出文字，不能输出其他东西。也就是输入是全模态的，输出只有文字。

这一次 Gemini Omni，输入是全模态的，输出也是全模态的。

但更重要的是，它是一个世界模型。它可以理解物理模型，可以理解世界规律，可以保证它输出的所有东西在物理世界里逻辑自洽。

可是大家拿它做视频测试，和最强的字节跳动 Seedance 2.0 比较，到底谁强谁弱？结果发现，Gemini Omni 输出的视频确实在物理上自洽了，但是没有表现力。Seedance 3.0 出来的东西才有表现力，包括国内的可灵 3.0，这类东西出来才会让人想去分享。

这个非常重要。因为这个东西很贵，烧完 token 以后，如果你没有任何想分享的欲望，那肯定没法整。

所以我觉得，这是非常强大的模型，但是用户感知很差。用户试了半天以后会说：虽然 Seedance 2.0 的逻辑不一定自洽，有时候还穿模，有时候还有一些乱七八糟的东西，但是就是帅，我就是想看这个。那 Gemini Omni 就打不过。

有些人可能会说：不对，我们希望有强大内核，是你们没有用出来，是你技术不对。千万不要对用户提出这种要求。

iPhone、尼康和佳能的例子

大家知道 iPhone 是怎么干掉尼康和佳能的吗？虽然尼康、佳能现在还在卖相机，卖得也还可以，但是在整体使用量、照片量上，绝对被 iPhone 碾压。

尼康、佳能玩的是“还原”：色彩要准，畸变要小，宽容度要高，能够留给后期更大的空间。但你要不会玩，这个机器拍出来的片子也就那么回事。

iPhone 搞的是什么？它不关心畸变。你拿 iPhone 拍照片，一个人如果站在图片侧边，脑袋就是斜的，畸变得一塌糊涂。色彩加上各种滤镜以后，也完全不是还原。虽然现在 iPhone 可以出 RAW 格式了，但跟尼康、佳能比起来差远了。

可是要想清楚一点：大部分用户就是要随手拍一张照片，然后发出去。如果拍完以后还需要做半天后期才能往外发，那就没意思了。

Gemini Omni 就是按照尼康、佳能的路子在做，确实很强大，但是用户感觉不出来。用户更喜欢要一个 iPhone，Seedance 2.0 可能就更像 iPhone 一点。

所以核心是：你做出强大的产品，一定要让用户有感知。

Google 并不擅长前端和用户体验

其实 Google 一直不是一个特别擅长做用户感知和用户体验的公司。很多人可能不同意，因为不管是 Google 搜索还是安卓，Google 都在定义各种设计标准，也一直在建用户体验、点击率和用户流失的数据模型。

但是我要说，Google 从来就没有真正做好过这件事。

虽然我们觉得 Gmail 很棒，Google 搜索很好使，但这从来不是因为它们前端设计得好。我曾经听过 Google 前端给我们讲课。他讲，当时雅虎、百度的搜索，上面是一个搜索框，“搜索”按钮在下面。而 Google 不这样做。Google 做了很多数据实验，把按钮放在搜索框后面。为什么？因为你输完以后，注意力就在那个地方，鼠标也在那里，所以把按钮放在那里多么有道理，数据比别人好多少。

Google 真的是靠把搜索按钮换个地方赢的吗？纯扯淡。Google 赢的原因是搜索结果好。

Google 真正强的地方，是后端算法特别强，可以提供别人无可替代的结果。包括 YouTube、Gmail 也是如此。Gmail 真正强的地方是反垃圾邮件；YouTube 是数据量特别大，推荐算法特别好。至于前端，至于视频编辑这些东西，跟国内抖音之类的根本没法比。

所以 Google 从来就不是一个做前端、做客户端软件的公司。大家觉得它好用，是因为它后端做得太好了，其他人赶不上它。

Gemini Spark：我期待，但 Google 觉得我不配

下一个产品叫 Gemini Spark。这个产品其实是我比较期待的，因为 Google 说要做自己的 agent，要把自己的“龙虾”装到云端上去。

我为什么期待这样的产品？因为 Codex、Claude Code，包括 Openclaw、Hermes，这些“龙虾”产品都有一个严重问题：

如果在云端运转，它们没有数据。你不能光靠聊天，必须上传大量数据，上传以后还要让它把数据吐出来，这个交互过程并不方便。
如果让它在本地干活，又不安全。因为这种东西干活必须有巨大的权限。一般我们会单独买一个 Mac mini 让它去干活，不敢让它在真正的本地生产机上干活。

这个矛盾到目前为止解决不了。

而 Google 正好可以解决这个矛盾。因为 Google 从诞生那天开始就在跟微软打仗。微软说，你把所有东西都放在本地，装 Windows、装 Office，文件都在 C 盘、D 盘。Google 一上来就不是这套，Google 说，你把所有东西都放到云端。

Google 的 Workspace，包括 Documents、Sheets、Slides 这些东西，本来就都在云端。所以 Google 一开始玩的就是云端电脑这一套。

一旦云端有了 Spark 这样的“龙虾”，功能就会非常强大。我不需要到本地来，也不用担心怎么传文件，因为我的文件本来就在云端。

所以 Google 想做 AI agent 时代的基础设施，这条路是通的，饼是画圆了的，路径没有问题。

我希望 Spark 可以帮我：

读邮件、写邮件；
整理日程；
在 Google Drive 上做文件助手；
写幻灯片、做文档；
填表格、算数据；
把该干的活都干起来。

这应该是非常有吸引力的事情。

但是问题是，Google 觉得我不配。Google 现在讲的是，这个 App 产品只是内测，只向一些可信任的用户开放，而且要求这些用户必须在美国，还必须是 Google AI Ultra 用户。像我这种 Pro 用户，对不起，不能用。

而且以我现在测试 Gemini 3.5 Flash 的水平，我建议大家谨慎使用。因为它的底层模型非常不靠谱，一旦它在 Google Spark 或 Gemini Spark 上用了 Gemini 3.5 Flash，可能就会发生各种惨绝人寰的事故。所以千万要谨慎。

Antigravity 2.0：方向对，但不是 Google 的超级入口

再往后一个东西是 Antigravity 2.0。这个方向是对的，但是 Antigravity 2.0 并不是 Google 超级 App 的入口。

现在大家在抢什么？抢超级 App 入口。

Claude 的入口就是 Claude 客户端、Claude Code，这就是 Anthropic 给的超级 App 入口。剩下的它不弄了，只在这上面加各种技能插件。现在我们在 macOS 上使用 Claude App，它上头都可以直接调用 Claude Code，所以这是一个统一入口。

对于 OpenAI 来说，Codex 就是他们家的统一入口，这就是未来的超级 App。

Antigravity 升级到 2.0 以后，也确实在向这个方向努力，但非常非常难用。难用的原因不是这帮人做不好，我并不认为做这个东西有多么费劲。做不好的核心原因是：Google 内部的入口实在太多了。

它并没有想明白：我是不是要把 Antigravity 2.0 做成 Google 未来超级 App 的唯一入口？这才是 Antigravity 出问题的最核心原因。

你会发现这东西长得跟 Codex 很像，但是让它操作浏览器、操作文件、操作这些东西，真的不那么好用，各种报错。而且我用了 Gemini 3.5 Flash、Gemini 3.1 Pro，效果都很烂。

一次安装 Antigravity CLI 的经历

我原来装了 Gemini client。现在我让它把 Gemini client 卸了，改成 Antigravity client，因为他们现在有一个 Antigravity 的命令行工具。

Gemini 3.5 Flash 折腾半天，什么也没折腾出来，然后给我说了一堆我连看都懒得看的话。

Gemini 3.5 Pro 又在那吭哧瘪肚地折腾半天，最后也没跑出来。后来我看到里面还有 Claude Opus 4.6，我说你去搞吧。结果它很快就把原来的 Gemini CLI 卸掉了，然后告诉我：你现在有问题，我没法接着装，你要继续安装 Antigravity IDE。

现在它等于变成两个软件：一个是 Antigravity App，一个是 Antigravity IDE。它说你把 IDE 装起来，装完以后就有 Antigravity CLI。最后我照着它说的，一点点把 Antigravity CLI 装出来了。

但真正干活的是谁？是 Claude Opus。这就有点让人哭笑不得。

现在看来，做客户端的超级 App，做客户端的 harness agent 超级入口，还是需要很大的人力物力，甚至需要很大的 token 倾斜。Antigravity 作为众多入口之一，还要争宠、抢注意力，肯定没有足够的人力物力把它做得很精细。这块差得还比较远。

为什么 Google 不愿意多投入一点？因为这帮人是“后娘养的”。这是从外面收购回来的，原来 Win Server 的团队，买回来以后做的产品。跟 Google 那一大堆“亲儿子”比起来，肯定还有差距。所以就做了这么一个半拉拉的东西拿出来给大家看，实在难用。

到目前为止，这里面还在跑 Claude Opus。你说它能有多三心二意？

它还不敢把 Claude Opus 去掉。为什么？因为也要看 KPI。如果把 Claude Opus 去掉，可能 Antigravity 的 KPI 就崩了，用户量下滑，那就没法整了。

Antigravity 成功的难度

Antigravity 有没有可能成功？我觉得以 Google 现在的体量和体系来说，基本不太可能。

如果 Google 真想把 Antigravity 做成可以跟 Codex、Claude Code 竞争的客户端超级 App 唯一入口，它首先要干嘛？先把 Android Studio 干掉。

Android Studio 是 Google 自己根红苗正维护多年的 IDE，现在还在升级，而且升级得很开心。更重要的是，Android Studio 后面是另一个 IDE 的底壳，还不是 VSCode 底壳。

还有 AI Studio，后面也是一整套东西。Google 还在说 AI Studio 可以独立做成应用，不需要其他东西。

还有 Firebase Studio，这是 Google Cloud 做的一套系统，也在竞争。还有 Google 的云工具 Gemini Code Assist。怎么一大堆东西都在抢入口？

除非把它们统统干掉，否则 Antigravity 也只能这样。做 Antigravity 的人本身三心二意，后面还有一堆“亲儿子”在说：“就你也敢上我爹那去争宠？”所以起不来，想都不用想。

Google 的根本问题：好牌太多，主线太散

先替 Google 说一句公道话：技术真强。这个没什么好说的。

Google 搜索、YouTube、安卓、Chrome、Gmail、Drive、Docs、Sheets、Google Cloud、Gemini、TPU、DeepMind，没有哪一个差。任何一个拎出来，都可以把现在市面上这些独角兽打得满地找牙。

但是它们凑在一起以后，相互掣肘，就走不动了。

一个和尚挑水喝，两个和尚抬水喝，三个和尚没水喝。

Google 现在就是给大家表演“三个和尚”。甚至不是三个和尚，可能有几十个和尚。他们想把这碗水喝到嘴里，非常不容易。

每一张牌都可以当主牌来打：搜索是入口，安卓是入口，Gemini App 是入口，Workspace 是入口，Cloud 是入口，Antigravity 也要入口。最后到底怎么打？

OpenAI 现在也在合并，也在砍这砍那。Google 还舍不得。入口太多，主线不清楚，这就是它的问题。所以它永远在那撒胡椒面，大家都要沾一点。

今年的 Google I/O，除了刚才讲的这些东西之外，还有一大堆东西，像眼镜也还在发布。人家足足开了两天。

大公司玩的是什么？“我在拥抱 AI 了，我整个公司都动起来了。”但是它整个体系架构打不破，每个部门都有每个部门的利益。这么多个和尚到底怎么把这碗水喝到肚子里？这才是真正需要思考的问题。

Google 如果想有救，需要两个信号

第一个信号：Workspace 加 Spark 必须跑起来

Workspace 加上 Spark 必须得能跑起来，而且要下放到 Pro 账号，或者下放到一些更便宜的账号里。

如果你必须买 200 美金或者 100 美金的 Ultra 账号才给用，这事不太行。而且模型必须在 Workspace 加 Spark 的环境下不能胡说八道。

现在它最新出的 Gemini 3.5 Flash 放上去一定会出事故，所以大家一定要小心。如果它做成了，那么 Google 可以继续维持它的用户盘子，接着往前走。

第二个信号：Antigravity 能不能成为默认入口

另一个信号是 Antigravity 能不能成为默认入口。如果最后成不了，依然是在你方唱罢我登场、相互掐来掐去，那 Google 这一次的客户端战争估计就要输。

至于其他东西，比如眼镜，我从来不看好。

TPU 的问题：强，但不一定适合所有人

说到 TPU，有一个特别有意思的事情。很多人都觉得 TPU 很强，比英伟达的显卡强，而且更便宜、更省电。

但是有个比较悲催的事情：Midjourney 的 CEO 这两天出来抱怨，说自己鬼迷心窍，把整个算法都搬到 Google Cloud 的 TPU 上去了。确实省钱了，公司也盈利了，但是在训练这一块就不行了，现在比所有同行慢了一年。

为什么？TPU 想做训练，需要大量适配和调教。这个事对于 Google 可能是 OK 的，因为它有的是工程师。对于 Anthropic 也是 OK 的，因为它的工程师也很强。但是对于 Midjourney 这样的小公司来说，想把它调通，一年未必搞得定，非常痛苦。

在英伟达上，你不需要调这些东西，它都有预置好的工具，你只要往上干就完了。实在搞不明白，还可以到社区里问，有的是人会玩，会教你。但是在 Google TPU 上，每一家在上面做训练的人都会遇到各种新问题。

现在全世界能够训练大模型的算力卡只有三种：

第一种是英伟达；
第二种是 TPU，现在 Gemini 和 Anthropic 的部分模型是用 TPU 训练的；
第三种是昇腾。

哪个模型是用昇腾芯片训练的？就是 DeepSeek V4 Flash。它的 Pro 不是用昇腾训练的，但 Flash 是用昇腾训练的。这也是 DeepSeek 一帮大神折腾了这么长时间、延后了这么长时间以后，终于可以出来吹个牛：我的 Flash 是用昇腾训练的。

但是训练 Flash 模型是怎么训练的？你先把 Pro 在英伟达算力卡上训练好，然后蒸馏。蒸馏完以后，再到昇腾芯片上跑起来，最后拿到一个 Flash 出来用。大概是这样的过程。

因为一旦用小众算力卡训练，就会面临一大堆从来没人踩过的坑。TPU 在这块确实还是差一些。想训练模型，最简单的方式就是上英伟达，没有任何其他可选择的东西。

不要跟学霸学怎么上学，也别迷信 Google 的开发工具

还有一点：千万不要去跟学霸学怎么上学。一个人上来说：“我跟大家分享一下怎么考上清华。”千万别听。你听完以后，考不上清华。

为什么讲这个梗？因为千万不要用 Google 家的开发工具。

Google 家真的都是学霸，而且都是编程界的翘楚。他们会说：我们认为应该这么写程序，这样写程序才是最对的。甚至不行的话，我可以自己做一大堆工具出来，我们自己写程序。

但是这些东西给普通程序员用，巨难使无比。你用 Google 家的各种开发工具，就像是在听考上清华的学霸分享自己怎么考上清华一样。

现在再开发布会，已经不是好选择了

最后说一下，现在这个时间点再去开发布会，已经不是一个特别好的选择。

我们发现很多 AI 大厂已经不再开发布会了。他们把发布会搬到线上，做一场直播，或者干脆写个博客、发个推文。甚至连推文都懒得发，直接上线就完事了。甚至不上线，只要泄露了，大家都会觉得有新产品出来，然后疯狂上去用。

现在谁还在开发布会？苹果，在挤牙膏：芯片又升级了，摄像头又升级了，又环保了一点。小米也在开发布会，也在挤牙膏，它的发布会我连看都懒得看了。这都是老掉牙的公司才在这开发布会。

如果没有人跟你竞争，像苹果那样开发布会，这叫挤牙膏。如果你本来就落后，还要追赶别人，又开了一个发布会，发了一堆完全没法使的东西出来，那不就是应了今天这个主题吗？Google I/O 今年拉了一坨大的吗？

现在只要产品还不错，模型很好，工具很好，不需要发布会，它自然就传播起来了。你有那钱，还不如多给大家点额度，让大家去玩。

Sam Altman 原来特别喜欢狙击 Google I/O。我记得有一年 Google I/O 开之前，Sam Altman 发了 GPT-4o；还有一年是在 Google I/O 开之前一天发了 GPT Image。今年人家不费这个劲了，只说一句话：我把大家的 Codex 额度重置了。那谁还看 Google I/O？我要回去写程序了。

另外，Karpathy 大神直接上了一个八卦，说自己去 Anthropic 上班了，注意力一下就全走了。

所以现在再开发布会，很难获得长期注意力。国内谁还在努力开发布会？小米刚开了一个，但我觉得也很烂。百度李彦宏开了一个大发布会，什么百度 Build、百度文心一言 5.1，好强好强。有人用吗？没人用。包括刚开完发布会的千问 3.7，有人使吗？其实也没什么人使。

其他人就不费劲了，像 DeepSeek、Timi、MiniMax、GLM 都不开发布会，直接把产品一发，然后发一条推文、一个博客，完事了。你们用去就完了。谁好使谁不好使，公道自在人心。DeepSeek V4 根本没有任何发布会，连视频都没有，直接上线，大家开开心心用起来，不就完事了吗？

所以现在这个时间点再去开发布会，是一个极不划算的事情。

总结：Google 没输在技术，而是输在大公司病

最后总结一下，Google 没有输在技术上。Google 技术依然很强。现在大家再去挖 Google 的人，或者 Google 的人出来创业，依然会有人给钱。

但是 Google 输在了大公司病上，输在了整个产品决策上。所以不要说 Google 不行了。Google 当然很强，DeepMind 很强，TPU 很强，搜索、YouTube、Android、Workspace 都很强，没有哪个不强。

真正的问题是：没有取舍，没有决断，没有一个唯一的中心和突出点。

它敢不敢让某一个产品成为绝对主线？不敢。敢不敢让其他部门给它让路？也不敢。当年微信起来，是牺牲了手机 QQ 的。Google 现在还没有下这种决心：我是不是应该牺牲谁、扶持谁？还没有。

更悲催的是，全村的希望是“后娘养的”，外来的孩子是 Antigravity，这就特别尴尬，也非常痛苦。

它敢不敢承认有些入口应该降级？不敢。敢不敢砍掉一些重复产品？比如前面讲的这么多 IDE，你能不能把其他东西都干掉？干不掉。敢不敢把“所有地方都有 AI”改成“某一个入口真正好用”？也不敢。

Google 这样的大公司只能说：你看，我有 Gemini 大模型了，每个地方我都用上了。它不能说我要把入口统一，因为那就是要削藩、要收权，在这种公司里搞不定。

如果让我选的话，就是两条路：

Spark 加 Workspace 这条路如果跑通，Google 可以继续带着它的用户、数据和生态往前跑。
Antigravity 这条路如果跑通，Google 在客户端上就有一个超级 App，可以跟 Claude Code、Codex 竞争，但难度很大。

最后一句话：Google 的问题不是看不到未来，它的问题是看见了太多未来，却还没有决定哪一个未来才是自己真正要压上去的。

这个时候要 all in 了，all in 的不是 AI，而是某一个具体路线，要把所有其他的孩子都掐死。这个是 Google 可能很难下决心去做的事情。

好，这就是咱们今天的一个结果了。

尼姑的光头（跨应用操作），为什么和尚（Google）摸得，阿Q（豆包）摸不得？Elon Musk应该也摸不得。

老范讲故事 — Tue, 03 Mar 2026 00:45:57 +0000

小尼姑的光头和尚摸得，我就摸不得吗？跨应用 AI agent，谷歌摸得，为什么豆包就摸不得？马斯克估计也摸不得。

大家好，欢迎收听老范讲故事的 Youtube 频道。

咱们想象这样的一个场景：中兴公司的老板跑到巴塞罗那去，看到谷歌跟三星联合推出的新一代智能手机操作系统，无语落泪。为什么？因为去年跟豆包合作、推出豆包手机的就是中兴。巴塞罗那 MWC2026 上，谷歌跟三星推出了 agentic AI，加上跨应用的能力，实际上就是跟去年豆包手机差不多的一个东西。

谷歌也发声了：在三星 Galaxy S26 上，我们发布了这样的一个东西，这是一个智能操作系统。它直接用了 Intelligent OS 这样一个词，我们都不好意思再叫安卓了，其实还是安卓，但是我们给它起了个新名字，叫智能操作系统。这不就是去年的豆包手机吗？

豆包手机推出以后，闪电般地被各种超级 APP、电商应用、支付和银行应用给封禁了，所以这个东西就无疾而终了。谷歌这次推出的产品，却被赞为下一代的智能操作系统。小尼姑的头谷歌摸得，豆包就摸不得，所以中兴的老板看着只能在那里无语落泪了。

今天故事分六块

谷歌到底干了什么
从技术角度上说，谷歌跟豆包到底有什么相同和不同
除了技术之外，在市场地位、信誉以及行动的激进程度上，谷歌跟豆包到底有什么不一样
为什么说小尼姑的头埃隆·马斯克他也摸不得
新的智能终端、APP 这种形式必然被革命，但是过程很重要
我们到底能够在这过程中做些什么

一、谷歌到底干了什么

首先，谷歌干什么了？它其实是推出了安卓 17 版。大家注意，谷歌每一次出安卓版本之后，三星、小米、中兴，所有在国外去卖手机的这些厂商，他们要去跟谷歌签协议，签完了以后回来去定制。谷歌的安卓 17 在三星 Galaxy S26 上，这个定制版本就实现了跨应用访问的这样的一个能力。

它其实是 Gemini APP 的一个 Beta 版，先在美国和韩国部分设备、部分品类，也就是外卖、订餐和打车上上线了，其他的一些还没有上去。咱们刚才讲这段话是什么意思？就是谷歌其实是非常谨慎的，只在很少的设备上、很少的国家和地区、很少的场景上上线了，而不是像豆包似的，咔一把全来了。

目前就是在三星 Galaxy S26 上可用。谷歌自己家的亲儿子 Pixel 10，部分功能可用，还没有三星上的功能那么多。原因也很简单，这种东西功能多了以后会很耗电的，三星在这一块应该是控制得会更好一些吧。它精选场景、精选 APP 起步，不是上来什么都来。

只在美国和韩国推出，因为你像打车、订餐这个东西，一下我就全世界推出了，我一点餐发现这个餐馆在埃塞俄比亚，你让我咋去？所以一定是分地区开的。这个功能的未来会逐步扩大到更多的手机厂商型号和国家那里去，但是这个扩充的过程一定是手机厂商要上来配合。

你比如小米吧，说我们也想上这功能怎么办？你要去跟谷歌签协议，看看在哪个国家可以上哪些 APP，怎么去做这个事。因为要说服这些 APP 接入这套系统，也是要用力的。谷歌要去跟他们谈，跟这些 APP 去沟通，三星也要去跟他们谈。

那以后比如说小米说我想到欧洲去接这个东西，因为华为退出了以后，华为在欧洲的市场基本上被小米吃了。假设他们想去干这个事，他就得到欧洲去挨个跟人餐厅、跟打车公司、跟一些外卖派送公司去谈这个事去。谈好了以后，你才可以上架这些功能。

二、技术层面：谷歌与豆包的相同与不同

谷歌跟豆包到底有什么不同？咱们先说技术层面。谷歌是通过三种方式来获得应用的数据和功能的。

1）MCP 远端调用

第一种叫 MCP 远端调用。比如说你这是一个送外卖的平台，你在服务器上是有接口的，我们通过这个接口直接调用就完了，我压根不在你手机上去折腾。这个其实是各种外卖平台最喜欢的一种方式。

2）APP functions（APP 功能）

第二种，谷歌出了一个新的接口规范，叫 APP functions，就是 APP 功能。这个什么意思？就是你这一个应用，可以把很多希望别人调用的这些功能把它包装出来，包装出来以后，我们的 Gemini APP 就会去读每一个 APP 的这些接口，到时候我就按照你的要求从这里进入，然后去调用相应的数据和功能。

3）UI Automation framework

第三种方式，叫 UI Automation framework。就是当你没有接口的时候，AI 会自动地通过 UI 去识别你的界面，然后去点击、去使用这个应用。

但是谷歌也强调，如果我们用这样的方式来去使用应用的话，一定是用户透明和可控的。就是用户一定是知道我们在干这件事了，完全可知的，而且完全可控，随时可以停下来。

豆包其实就只有第三条路，它前两条路都没法走。因为毕竟安卓不是他家的嘛，你说我做了一个新的规则，请你们开放接口给我，谁理他呀？所以这种事只能操作系统公司去干，谷歌去干了，华为鸿蒙里头也干了类似这样的事情。

至于 MCP 的远端调用，中国现在这些大的超级 APP 还在建墙：我不希望你去调用我，我希望你整体都在我这里来工作。豆包也没去折腾这个事，所以它只能通过自动界面识别、自动点击，只能干这一件事。

而且谷歌还承诺，就算我走第三条路，也仅仅是备用方案。如果你愿意去加这个 APP functions，或者加这个服务端的 MCP 调用，我就绝对不会去干这个活；而且即使干了，也一定用户知情。差异就差在这了。

三、非技术层面：市场地位、信誉与激进程度

那你说除了技术之外，谷歌跟豆包在市场地位和信誉以及行动的激进程度上有什么不一样？怎么谷歌摸得豆包就摸不得？其实前面技术上算是有一定的原因，但是后边这个才是更重要的。

1）市场地位不同

谷歌的地位跟豆包手机的地位肯定是不一样的。谷歌是安卓里头的真正扛把子，这东西是他发明的，是他去指定、掌握标准的，所有流量都在他手里面。所有这些服务和应用到谷歌的安卓平台上，实际上都是等着谷歌赏饭吃的：再多给我点流量吧，多让我这里做几单生意吧，少让他那边做几单生意。

假设这边有一个叫 Uber，另外还有其他的一些打车平台，我们要到谷歌上去竞争，那你到底是打 Uber 的还是打其他的？这谷歌说了算。你想获得用户和流量，谷歌去给你分配去，它是这样的一个关系。所以在手机应用这一块，谷歌是所有人的爸爸；而豆包的话是其他人的竞争对手，这个是绝对不一样的。

2）信誉不同

第二个，谷歌的信誉也是豆包所不能比的。人家毕竟做了这么多年了，而且这些年里头风风雨雨，有各种各样的问题，人家也都跟这些应用开发厂商、跟这些手机厂商风雨同舟一起过来了，这些信誉是逐渐积累起来的。

就跟人家说小尼姑的光头为什么和尚摸得？和尚跟小尼姑之间本身是一种共生关系，而且小尼姑可能还有些事情要有求于大和尚，这样情况下人家和尚才摸得。而豆包的话你就相当于那个阿 Q 似的，你就摸不得。你摸了以后对小尼姑没有任何好处，人家凭什么让你摸？摸了以后还臭名声，这肯定不能让你摸，所以他是这样的一个关系。

3）行动更谨慎

而且谷歌这一次也要比豆包谨慎很多。豆包是非常非常激进，它是没有跟任何人打招呼，就直接上来读了别人的界面，就直接上去点击去了，那这个是肯定任何一个 APP 都不能允许的。你相当于是给人借口了：你做了一个非常不安全的事情，你直接破解了我的应用。我这是个银行应用，我这是个支付应用，我微信里头有钱的，那我肯定要封你，这没什么好说的。

但是谷歌就很谨慎。第一个，过于敏感的 APP 不碰：你这是银行 APP，你这是支付 APP，我绝对绝对不碰你。谁愿意来我就跟谁合作，谁不愿意来我坚决不碰你。极个别情况下用户一定要用的时候，我们再去做自动化，而且一定要在用户监督下才能去做，这个是谷歌能够去保证的事情。

用户也可以选择说你现在不许干了，或者说用户可以删除 Gemini 所看到的数据。比如说你让 Gemini 帮你操作了一些支付，或者是这种订单相关的数据，说现在 Gemini 把我的家庭住址把这些东西都给我删了，然后 Gemini 假假模假式说行，放心吧我给你删了。其实删没删你自己也不知道，但是谷歌靠信誉嘛，说你看我给你删了，你就信了。

而且谷歌还强调说不会将数据用于广告，这个也是谷歌信誉的保证。咱们就信了吧。

而且谷歌只在小范围内上线：一款半机型，一款就是三星的 Galaxy S26，半款是它的 Pixel 10，一部分的功能是在 Pixel 10 上可用的；然后只有两个国家，美国跟韩国，因为韩国三星自己可以搞定嘛，美国的话谷歌自己去搞定去；然后少量的高频、低危险度、高价值的应用场景，只上了这些，不是上来我就什么都上了。所以谷歌的行动非常非常的谨慎。

4）和尚与阿 Q 的区别

那么和尚跟阿 Q 的区别在哪？表面上和尚的信誉一定要比阿 Q 好，一定是这样的。第二个，与尼姑属于相互需要，甚至可能还拿捏着尼姑的把柄。第三个，和尚是懂得分寸的，不会上来就不分场合蛮干；但阿 Q 就什么也不懂，尼姑刚出来就伸手去摸人家光头，这个肯定是不行的，那尼姑肯定不愿意。

四、为什么说马斯克也摸不得

那为什么说小尼姑的头马斯克也摸不得？这事跟马斯克有啥关系，是不是老范在这生蹭马斯克的热度？还真不是。马斯克做了一公司叫“巨硬”，这一次也跟 xAI 一起被卖给了 SpaceX 了。它的 xAI 未来还有一个很重要的部门叫巨硬，这公司走的就是豆包这条路：它通过直接截屏，通过视觉模型去识别屏幕信息，进行模拟点击，实现跨平台跨应用的自动化。他就想干这活。

他想干的活可能比豆包还要再狠一点，因为豆包只做手机上，他可能要把 PC、Windows、Mac 都要干一遍。

马斯克的名声就算比豆包好一些吧，但是在手机个人办公设备应用场景方面的生态位，马斯克并不比豆包强，甚至可能还要稍微弱一些。Grok 的用户数连豆包的零头都没有，它 X 用户数是稍微多一些，但是你跟 TikTok 比，你也是比不了的。

准备在跨越移动和个人电脑系统的应用上去蛮干，这就是马斯克想干的活。马斯克跟微软、谷歌、苹果的关系好像也没有那么融洽，在这一点上更是和字节跳动这种手中有多个冠军应用、完全在移动平台上成长起来的公司是没法比的。你马斯克造汽车造得再好，造火箭再造得再好，你跟这些应用平台来比，你跟这些 App Store 去攀关系，你根本攀不上。这就是为什么这个小尼姑的头，马斯克大概率也摸不得的一个原因。

五、新的智能终端会革命 APP，但过程很重要

再往后，新的智能终端，APP 这种形态必然被革命，但是过程很重要。APP 模式是必然消亡的，这是扎克伯格的一个梦想，因为他原来作为 APP 上到苹果上，天天被苹果欺负，说这玩意太不科学了、太落后了，我们一定要把这个模式干掉。

功能数据一定会聚集在 AI agent 手里面，根据用户的需求去完成更复杂、更有价值的操作，这是未来的方向。原来以 APP 为单位各玩各的所遗留下来的很多商业模式必然被淘汰。比如说吧，广告展示：我做了个 APP 上面有功能，你要想用我这功能，必须要先看三个广告才能去用，这就是传统的玩法。

但是你一旦把 APP 这个模式打破了，你把这功能在底下开放出来，让谷歌自己去调去了，那你怎么去盈利？大家就重新需要去思考：真正我们提供的不是你看了多少次广告、点击了哪些东西，而是我真的给你实现了哪些功能，那我怎么通过实现功能来赚取收入？这个是未来大家需要去思考的东西。

最终各个服务商卖的应该是结果，而不是打开 APP 的 DAU 与停留时长。比如说吧，你有个电商 APP，你真正希望的是更多的成交，把东西卖掉，而不是说用户每天打开 APP 在这瞎转悠。在这样的情况下，电商是不是更愿意开放接口，让谷歌的 Gemini 上我这来去获取数据，然后去直接完成交易？你哪怕不打开我的 APP，你只要把交易都做完就完了，我很开心，就这样的一个情况。

当然了，电商其实在这里还有一些问题。问题在哪？就是电商平台最主要的收入其实不是卖东西，电商平台最主要的收入是做广告。在这样的情况下，他就要重新去定位了：说我卖掉更多东西，我怎么能够挣到这个服务费？至于广告费的话，让谷歌去赚就好了，他要调整这个心态了。

新的入口争夺战马上就要开始了。原来的入口在各个超级 APP 之间抢来抢去，未来的入口一定是 AI 助手，就像豆包、像 Gemini、像 ChatGPT，这些会成为未来的入口。现在我打开手机可能更多的是使用 ChatGPT、Gemini、豆包这些东西，其实我现在使用那些超级 APP 像微信这些的频度已经下降非常非常多了。

真正有价值的未来会是什么？会是场景：我要看视频，我要打游戏，我要去付费阅读，什么样的这种信息和资源，这个是未来的一个场景。大家最终交付的是这个场景里边的结果，而不是把用户生生地框在你的应用里。

六、我们在这过程中能做些什么

最后咱们行动起来吧。首先在美国的朋友们可以去买个三星手机玩耍一下试试，如果有在韩国的话也可以试试，但是我的观众里头好像韩国的比较少。

很多场景会被打散，而不是筑墙包围起来。原来的社交场景会筑起高墙，将其他的场景进行捆绑，像微信就是干这活的：你谁想去碰微信的东西都不行。今年春节的时候，微信还通过封禁阿里的红包，去给大家表演了一下什么叫强势筑墙。

那么以后的话，AI 助手将成为新的入口，可以极大地解放这些长尾场景。比如说我现在想去跟大家玩砍一刀，以前砍一刀是完全在微信这个圈子里玩的，我们就可以设计出一些新的场景来，让这个 AI 助手能够识别一些场景，能够拉着客户一起来互动，这就需要去想了：怎么去适应 AI 场景。

我们尽量要去挑选那些 AI 友好的应用和服务去使用。那些对 AI 不友好的应用和服务的话，这个一定是有猫腻的：他希望把你的眼蒙上，把你的耳遮住，让你只能选择他的服务，他希望捆绑你，这个一定是不好的。我们要在 AI agent 里头、在 AI 助手里边去货比三家，让他去获取更多的信息，然后给我们一个最优解，这才是未来的方向。这也可以帮助 AI 手机也好、AI 操作系统也好，更快地走向下一个阶段。

然后是检查我们各自的所在公司，或者是自己所提供的服务与产品，是不是适合新的流量分发模式。现在是 AI 分发流量直达、最终交付成果的一个时候，不是说我把你骗进来，让你在我这个应用里转来转去，找不着最终要的那东西，不是这样的一个时代了。要上来就把结果交出去，你要让 AI 转来转去，它就不推荐你了，所以要尽早调整。

越早调整越赚便宜，为什么？因为每一次发生流量转变的时候，会形成流量的早期红利效应。现在 AI 来挑服务了，发现别人都不提供，只有你提供，那你可能就赚到了。所以这个流量的早期红利是很香的，很多原来依托超级 APP 的小众场景都有新的机会了。

结尾

今天咱们讲这故事，用的是鲁迅《阿 Q 正传》里头这个典故：

“这个尼姑的脑袋，和尚摸得，我就摸不得？”

把这故事串起来了。但是我们真正需要去思考的问题，不是我们能不能去摸小尼姑的光头，而是当我们自己是光头小尼姑的时候，愿意被谁摸，被谁摸了头不会臭了名声，还能有最大的好处。

好，这个故事今天就讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加 DISCORD 讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：Spanish comic watercolor style, expressive ink outlines, soft layered washes, Barcelona smartphone showroom interior, empty and serene retail space with no people, walls richly decorated with intricate Buddhist-style murals, lotus motifs, mandala geometry, sacred ornamental patterns integrated with modern phone displays, clean aisles and glass counters, eye-level 24mm wide establishing shot, balanced depth layers, gentle daylight through windows, Buddhist color palette of saffron yellow, vermilion red, indigo blue, jade green, muted antique gold, handcrafted painterly detail –no people, no staff, no crowds, photorealism, neon overload, text, watermark, logo –ar 16:9 –stylize 190 –chaos 6 –v 7.0 –p qaczhqj

谷歌UCP对决OpenAI ACP：两大巨头争夺AI代理电商标准，一个是安卓式开放，一个是轻量级接入，谁才是未来商家的首选？｜Google UCP OpenAI ACP Agentic Commerce Protocol decentralized standard

老范讲故事 — Thu, 15 Jan 2026 00:44:56 +0000

谷歌发布了UCP通用商业协议

摘要：电商模式正式从传统的人找货（也就是搜索电商）和货找人（也就是推荐电商），转向了对话及交易的智能电商。

大家好，欢迎收听老范讲故事的YouTube频道。

什么是UCP（通用商业协议）？

1月11日，谷歌在纽约举行的全美零售联合会年度博览会上发布了UCP。所谓UCP叫Universal Commerce Protocol（通用商业协议），AI驱动的去中心化电商通用协议。

这里头跟去中心化有什么关系？你说这玩意是不是用币？不是。这个里头所谓的去中心化，说白了就是“去亚马逊”。不去别人，就去它。

协议包含的功能模块

这个协议涵盖了电商的所有流程和模块，包括：

自动发现：也就是一个网站到底提供什么样的电商服务，这个会被发现。
基本电商能力：什么购物车、价格计算、库存检索、支付确认或者支付授权，这个都有。
订单全流程：还有下单的订单管理、订单状态、追踪售后、退货。
其他支持：以及支付，还有用户管理和会员权益、风险管控和反欺诈。

这是属于电商需要的所有东西，它都给你定义了一遍。同时支持MCP A to A（也就是Agent to Agent），还有传统的API格式，统统都是支持的。

开放性与谷歌的控制权

UCP这个东西是开放的吗？还是谷歌说了算？这个非常非常有谷歌特色。

一方面它是开放的，这个协议相关的所有文档和代码都是在GitHub上托管的，使用的是阿帕奇2.0的开源许可证，大家都可以去用。

但是也不是完全开放的，这个东西有点像安卓里边的GMS一样，叫Google Mobile Service。GMS这个东西是需要谷歌去审核的，不是说谁愿意接谁就可以接上的。如果谷歌审核不通过、不给你发认证的话，你进不去。UCP也是如此，需要谷歌的认证和准入，而且数据格式的定义，这个权利也是在谷歌手里边的。你不能说我自己随便定义一些数据就放进去，这事是不允许的。所以这个东西的开放状态很像安卓。

安全与隐私问题

UCP它会带来一些安全和隐私的问题。

1. 代币化支付

首先咱们先说安全吧，它在支付的时候使用的是代币化支付。那你说去中心化，不是不用Token？那刚才老范不是说了吗，虽然叫去中心化，但是咱不用代币。

这里讲的是什么？就是AI真的是看不到信用卡信息的，也看不到你的支付相关的信息，它只能看到一个Token。但是这个Token并不是你的比特币钱包，而是比如说PayPal或者是Visa，他们来给的这个Token。它只要拿到Token就可以去验证了，是这样的一个代币化支付。

2. 上下文隔离

还有一个重要的安全属性，是要上下文隔离。什么意思？就是你想我们以后是怎么买东西：我们跟谷歌的Gemini聊天，聊着聊着，突然他就给你推荐商品了，你一确认就给你买回来了。这个聊天的过程叫上下文，商家是看不到的。商家只能看到交易数据，谁买了什么他知道；但是为什么买、上下文聊什么，这个是不会发给商家的。

比如说吧，中国古代有一位女子，聊天的时候说：“我想给家里头的衣物做一下防虫处理，有什么办法没有？”她有可能聊了这个。当然另外一种可能，她聊的是：“西门大官人，我看着这个甚是欢喜，但是家里有个三寸钉应该怎么办？”这两种聊天都是有可能发生的。

但是这两种聊天，最后都会触发共同的结果，就是AI回复说：“你去买一些砒霜吧。”

大家不要觉得砒霜这个东西是毒药——它确实是毒药，但是在中国古代，这个东西是有正规用途的。一方面它可以包裹种子去播种，这样可以防病虫害、防杂草；另外就是刚才咱们讲的，就是家里头的衣物防虫也是用砒霜的，只是要少用一点点。就是甭管她前面说的是哪种情况，AI都会给她推荐砒霜。她买的时候，商家只知道她买了砒霜，至于你拿回去干嘛使，他就不知道了。然后这位女子把砒霜拿到手以后，就可以喊：“大郎，该吃药了。”就会变成这样了。这个就叫上下文隔离。

3. 数据归属权的转移

但是商家会知道，某位顾客（或者说某位女子吧），什么时间购买了多少砒霜、送去了哪里，这些东西是这个商家会知道的。上下文没有了。但是这个其实跟现在我们普遍使用的安全隐私方式还是有一些差距的。

因为原来这些数据会在亚马逊这些平台手里边，他会把这个东西截留下来，并不会发给商家。因为最早的时候，中国做跨境电商的时候，是收集了大量的美国用户的家庭住址和电话的。后来说不行，这玩意我们要保护隐私，然后就改成了说：“你们把这个数据通通都留在亚马逊，不要发给中国卖家。”

但是你如果使用了UCP，谁是最终的销售者，谁就可以得到用户的电话、用户的地址。这些数据回到商家手里边有什么好处？商家可以更好的接触用户，进行售后服务，也可以再去促成二次销售。

比如说吧，你从某个商家手里买了台打印机，那么商家可能每过一段时间就会问你说：“要不要换个墨盒？要不要换个硒鼓？”他有这种二次销售的机会。那像原来美国人为了保护隐私，他把这些数据都留在亚马逊手里了，那亚马逊说：“你该买硒鼓了，该买墨盒了，你不要到原来那个商家去买，你在我这买，我给你推荐别的商家。”为什么？因为那个商家给我钱了，给我广告费了。他希望在新的二次购买机会发生的时候，亚马逊可以再收一次广告费，把这个二次销售的决定权放在自己手里边。所有跟隐私保护相关的条款，实际上背后都是有商业利益的。

参与者与生态伙伴

那么在这样的一个协议发布以后，咱们先看看谁参加进来了。

共同发起方

Shopify：第一个叫共同发起方。头一个就是Shopify，它排的头一个。为什么？很简单，它算是一个相对比较零碎的电商平台，上面有大量的网站去卖各种不同的商品。而Shopify是靠什么活下来的？就是靠不停的买谷歌广告，谷歌搜索广告。搜索了以后，你要去给我推荐Shopify上面的商品。既然这样的话，谷歌说我要做UCP，那Shopify第一个站出来，说：“来，咱们一起来发起吧。”所以它是共同发起方之一。
Etsy：这个应该是美国的一个手工工艺品的电商，他们也是发起方。
Wayfair：应该也是一个商家。
Target：美国很常见的一个比较廉价的超市。
沃尔玛：他们都是联合发起方。

这些其实原来都是谷歌搜索广告的大客户。

生态合作伙伴与背书

支付类：Adyen（做支付的）、PayPal（做支付的）、Stripe（支付平台）、蚂蚁国际（阿里系的，也冲进来了）。
信用卡类：美国运通、万事达、Visa卡。
零售商类：Best Buy（在国内叫百思买，后来就好像国内都关干净了，他们也参与进来了）、梅西百货、家得宝（家装平台）。

在这个里边实际上分几类。第一类是原来的这种电商平台（但是不是亚马逊），就是一些小的电商平台或者是传统的商超平台，他们都加进来了。然后这些支付平台基本上都进来了。

因为对于支付平台来说，甭管你谁把东西卖掉了，从我这能把货钱支付出去就OK。支付平台，你说怎么就这么雷锋？千万别这么想。支付平台挣的不是这钱，支付平台挣的是利息，他是希望你在支付的过程中向他贷款的。所以支付平台会非常非常积极的参与这种事情。目前开通的支付就是Google Pay，马上就会开PayPal。其他的生态合作伙伴里的这些支付平台，会逐步的加入进来。阿里系的蚂蚁国际也准备加到这个里边来，让大家去用支付宝进行支付。

物流与交付

咱们要注意，整个这个UCP是涉及很多环节了。除了电商平台或者说商超平台、支付平台之外，还有物流交付和售后这块。谷歌官方并没有给出合作伙伴的名单，但是有一个叫PIPE 17，他宣布支持UCP，专门做物流和订单管理的。这一块可能没有一些特别大的企业，但是他们都会积极的参与进来。

流量入口（大模型）

大模型或者叫流量入口，这也是一个重要参与方。你说我做了半天UCP，没有流量入口，没有新的聊天的流量进来，那不是胡扯了吗？

谷歌体系：目前只有谷歌搜索的AI模式和Gemini APP这个里边接了。官方表示有其他平台接入，但是并没有公布。
微软：这个里头微软的Copilot通过Shopify是做了整合的，已经接入了UCP。
苹果：Siri，因为以后的Siri里边是Gemini整合，所以苹果平台也接入了这个体系。

所以这个流量入口还是非常非常巨大的。

谁没来？（缺席者与竞争者）

这是谁来了，那谁没来？亚马逊嘛。咱们刚才讲了，去中心化去的就是亚马逊。亚马逊说：“你们冲谁来的？别以为我不知道。”

然后Meta、Shein、TikTok和Temu也都没有表态，但是也没有说我就不去，只是说我们观望一下。这些就是美国现在比较主流的一些电商的平台。

缺席者的替代方案

1. 亚马逊：Rufus

首先说亚马逊吧。亚马逊自己出了一个叫做Rufus的购物助手。大家现在可以在亚马逊里头跟它聊天了。聊完了以后，它就会给你推荐商品，在亚马逊内部完成交易闭环。

亚马逊想干的事是什么？希望通过最完善的电商服务闭环体系，击败像UCP这种组织起来的草台班子。大家注意，你像UCP一旦组织起来，谁的货他不管了，谁负责物流和交付，谷歌可能会做一些简单的审核，但是一定没有亚马逊这种完全闭环的质量高。他希望通过这种购物体验打败谷歌。

2. OpenAI：ACP

OpenAI其实也推出一个类似的东西叫ACP。谷歌这个UCP，U是通用的Universal；这个A是代理的意思，叫Agentic。所以OpenAI推出的叫代理商务协议。OpenAI的这个协议相对来说要轻量很多，它通过工具的方式将电商交互融入到Agentic里边去。它做了这样的一个事情。

OpenAI跟这个协议，是OpenAI跟Stripe合作推出的一个开源协议。这块都得开源，你不开源没人敢上。然后Shopify跟这个Etsy首批加盟，他们就是甭管你谁上，这东西我都去加盟去。为什么？这就是有销售的机会吗，这是不能放弃的。亚马逊已经明确的表达，我拒绝加入，我自己玩自己的，我不跟你玩。

3. Perplexity：一键购物

下一个就是Perplexity。它推出了一个叫“一键购物”的功能。你可以直接在Perplexity聊天的时候，就把东西买走。这一块Perplexity是直接奔着超级入口去的，他就没有说我开放个协议大家来加入，他没这么大野心在这块。亚马逊是直接起诉了Perplexity，你非法爬取了亚马逊的数据。起诉的同时，亚马逊对Perplexity实行了数据封锁，以后不让你爬了，你看看你到底卖什么。

AI购物革命与电商模式的演变

AI最终还是会走向交易成功的，未必会是谷歌的UCP，因为UCP这个东西还是有点太复杂了。最终的接口位置、也就是你的协议在什么地方、各个平台提供什么样的服务、接口可能还需要有一段时间的拉扯。但是AI购物的革命正在到来。

第一阶段：搜索购物

原来是搜索购物，像亚马逊、淘宝天猫、京东，还有像拼多多，这都属于是搜索销售。我要买什么东西我跟人说，说完了以后找一大堆的商品我在里头挑，是这样的一种销售方式。这些电商平台在里边去收广告费，你搜索完了以后，谁排前头谁排后头，有哪些广告位，他们是卖这玩意的。

第二阶段：推荐销售

后来开始出现像抖音、TikTok、快手这样的直播平台。他们干的是什么？他们干的实际上是推荐销售。他们是靠推荐算法，将不同的直播间推到我面前来，让我形成购买。我现在大量的电商交易都是在抖音上做的，我是比较吃推荐算法的。

第三阶段：智能电商（意图交易）

现在随着用户注意力的转移，更多的用户时长被聊天助手给劫持了。我现在每天面对电脑、面对手机的时候，大量的时间不是在这刷抖音，而是去跟豆包、跟ChatGPT、跟Gemini去聊天去了。在这个过程中就要让它形成交易，而不是说一个月找我收20美金就算结束了。你想，我如果在这个里头买东西的话，他挣到的钱绝对比一个月20美金要多得多，而且是上不封顶。你1月20美金，它是上边封顶的。所以现在甭管是OpenAI也好，还是谷歌也好，都在向这一块狂奔。

AI能够更加理解用户的需求和意图。前面咱们讲这个潘姓小娘子的案例，甭管你是说我们家衣服被虫子咬了，还是说西门大官人甚得我心、我们家有个三寸钉，这个意图会被AI理解掉。理解完了以后就说：“这样的问题，我们可以通过购买一种叫砒霜或者叫鹤顶红的东西可以解决掉。”那么这个潘姓小娘子就直接下单就购买了。

在AI购物的过程中，大模型可以根据用户意图，直接在聊天的过程中进行交易。绝对是润物细无声的，而且成交的转换率极高。更多的长尾服务会达成交易。以后就不会说大家去抢推荐算法的入口了，或者去抢什么最上面这个广告栏了，以后就是每个人聊自己的，AI会通过我们聊天的过程，发现每一个人所需要的服务或者是需要的这个商品，然后向我们推荐。那这玩意转化率多高？一卖一个不吱声，绝对的。

如果谷歌可以继续做流量入口，那么谷歌这个UCP这条路就算走通了。原来那些依赖谷歌搜索广告的商家，就像什么Shopify、像什么其他的一些小型的这些商家，会跟着谷歌走的。从谷歌最近快速蚕食OpenAI的流量，以及跟苹果签了Siri协议来看，这种可能性还是很大的。

总结

总结一下吧，谷歌发布了UCP的通用商业协议这样的一个东西。未来的电商模式已经到来了，从搜索电商到推荐电商，现在最终到了智能电商。

所谓的智能电商，其实就是对话过程中的意图发现，并最终实现电商交易的一个过程。用户未必直接聊天，而是表达意图之后，AI Agent将意图分解，分别完成交易。比如我说了，我今天想去做满汉全席。跟AI聊了半天，菜谱都确定了，AI就会分别下单，把满汉全席所需要的所有东西都给我买回来，包括什么菜谱、什么菜刀，他是这样来去工作的。更长尾、更高转换率，而且去中心化，这就是未来电商的模式。

亚马逊、Temu和Shein这些传统的电商平台会首先受到冲击。Meta和TikTok这些社交推荐电商平台，也会随着用户注意力的转移受到影响，但是没有那么快。所以他们只是说我们看看，我们先不着急。而亚马逊就是非常非常激烈的反对、推出竞品，要跟你去竞争。它是这样的不同的反馈。

最后的建议

最后给大家一些建议吧。

如果是商家或者说是服务的提供者：义无反顾的接进去。没有人会嫌流量多的，你有更多的曝光机会肯定要上。而且要去研究如何优化这样的一个发现过程。既然AI去聊天了，去进行意图匹配了，那怎么能够让意图匹配的过程更大的几率匹配到你？这就是以后大家要去研究的方向了。当然最简单的可能还是向谷歌交钱，交完钱以后，你这个匹配成功的几率就会上升。
如果是其他应用和服务的开发者：也可以将交易作为一个组件接入系统了。比如说我今天是一个导游系统的开发者，那我原来可能导游的过程中，怎么买票、怎么去定机加酒、怎么去定本地的一些落地服务……那么以后，可能我就可以把当地的一些土特产就通通都可以加进去了。这个就完完全全会让这些AI Agent的能力上到另外一个台阶去。

当然，未来越来越多的普通人会成为应用和服务的开发和提供者。所以这件事情，应该是跟每一个人都有关系的。

好，这个故事今天就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：High-contrast luminous watercolor realism of a split e-commerce office interior: loft workstation area with matte black steel frame, exposed ducts, concrete columns, glass rail mezzanine, rows of wooden desks with precise monitor stands, keyboards, mousepads, desk lamps, tidy cable management; adjacent logistics warehouse with galvanized pallet racking, corrugated cardboard boxes with packing tape seams, bubble wrap rolls, label printer, scale, shipping cartons, plastic totes, hand pallet jack on polished concrete, crisp aisle geometry; cinematic wide shot, 35mm equivalent, eye-level, clean separation line between the two zones, strong depth cues, sharp subject separation, extremely legible bright negative space in upper background for typography, high-key lighting + neon cyan rimlight, realistic glossy reflections on floor and screens, crystal-clear atmospheric glow, minimal vivid palette (ink blue, deep navy gradients, neon cyan, warm gold, subtle coral), controlled ink outlines, micro-texture and clean surface wear –ar 16:9 –stylize 120 –chaos 4 –no text, watermark, logo, clutter, lowres –v 7.0 –p lh4so59

所有人都在唱衰谷歌将被AI颠覆，财报却显示搜索广告暴涨15%！真相是谷歌做了一个违背祖训的决定，从让用户快走变成把人留在聊天窗口｜Google AI Mode、Search Monetization

Luke Fan — Mon, 22 Dec 2025 12:45:47 +0000

谷歌的价值被认同：为AI后的时代指明方向

大家好。欢迎收听老范讲故事的YouTube频道。咱们今天讲一讲谷歌的价值被认同，不仅仅是因为Gemini 3和TPU，更重要的是，谷歌为AI后的时代指明了方向。

指明方向这件事，还是可以讲的，至少说在谷歌身上问题不太大。谷歌的价值在上升，在美股七姐妹中算是一枝独秀了。很多人认为是Gemini 3遥遥领先，以及TPU终于打破了英伟达的垄断，以及OpenAI的泡沫越来越让人担忧。这些其实只是表象。AI不但没有杀死搜索和广告，反而让广告商的收益上升了，这才是关键。

AI时代，搜索与广告的生存悖论

以前搜索，我们输入关键词，得到一大堆网页，点击其中一个网页，进到网页里边去，看到很多的广告，原来它是这样的一种生存方式。

在AI出来了以后，包括我在内都在担心说，以后AI只生成一个唯一正确的答案，它就没有搜索的过程，你没有那么多地方放广告了，也没有需要点击、跳入其他网页的机会了。整个的网络广告就全废了，甭管是搜索广告，还是跳出去以后谷歌的AdSense，这些就都没有了。所以当时大家一致认为是AI会干掉谷歌，甚至谷歌也拉响了红色警报。

OpenAI发明了这种20美金一个月，以及花钱买TOKEN的商业模式。从OpenAI 20美金一个月收钱那天开始，我就讲过说这个东西是一个有毒的商业模式，这事是错的。为什么？

因为20美金是死的，每个人就交20美金；而广告这个数是活的，它可以不断的刺激我买东西，不断的让我去在购物的过程中，让它的广告主给它支付广告费用。这个数是无限的，而20美金这个数是有限的。

当时我就下了这样的结论，但是从来没有想明白过，AI时代以后广告和搜索到底怎么活下去。但是现在谷歌和Meta的财报都证明了，他们的广告收入不但没有下降，反而在上升。特别是以谷歌的财报更为明显，它的上升比例其实没有Meta高，它大概上升了12%，Meta大概上升了26%。但是谷歌本来份额大，它是老大，还能上升12%；而且谷歌是搜索广告，而Meta的话很多是社交广告，所以Meta的那个也不是那么明显。但是谷歌这个真的是为未来指明了方向。

谷歌2025 Q3财报：一个违背祖训的决定

谷歌2025年Q3的财报显示：

搜索广告收入：上升了15%
YouTube广告收入：上升了15%
网络广告（AdSense）：下降了3%
总体上升：12.6%

其实YouTube广告收入上升这件事，大家是可以想到的，转到社交媒体，还要加上YouTube SHORTS，要去跟TikTok抢份额，所以它的广告收入上升大家能想到。但是真没有想到，搜索广告收入居然也上升了15%。但是有一项是下降的，就是网络广告下降了。什么是网络广告？就是AdSense那部分下降了3%。

那到底发生了什么？谷歌做了一个违背祖训的决定。所有违背祖训的决定，最好由谁来做出？不是不肖子孙，而是由祖先自己来做出。所以这个决定大概是谢尔盖·布林自己做的。

以前的谷歌要求大家是什么？尽可能快的离开。你如果在谷歌页面里在停了很长时间，说明你没找到你要的东西。所以你越快的离开谷歌，就说明我提供的服务越好。以前的谷歌很多图书里面，包括他们的一些文章和演讲，里边都在讲这件事情。

从“快速离开”到“留下来”

但是现在不是这样了，你在谷歌搜索里头可以待半天。他们现在把这个事给做反过来了。为什么？因为他开了AI搜索，开了AI模式，你可以在里边跟他聊天了。所以谷歌现在不再追求让用户快速进入、快速找到答案、快速离开这件事了，而是让更多的用户时常留在谷歌的AI搜索和AI模式里头。

搜索的目的本身就不是找到网页，而是解决用户的问题。原来说我们在搜索，搜索完了以后，点击到网页里头再看广告，但是你在这个过程中，并没有直接解决用户的问题，你还要让用户跳到网页里边去看去。现在不用了，我直接给你把问题解决掉。那在这个过程中，我直接给你看广告就完了。用户留下来了，用户时长上升了，更多的广告就有了展示的机会。

原来你没有那么多展示机会，像我们以前搜索谷歌，可能撑死了看一页，有的看两页，也就这样了。所以你说他能给你看几个广告？看不了几个。但我现在在谷歌AI模式里头跟他扯半天，那就很多很多的搜索，就都是很多很多的广告就都展示出来了。找到了答案了，也点过广告了，那就没有必要再跳转到目标网站瞎浪费时间了嘛。

所以我们看到什么？AdSense的收入在下降，下降了3%。所以我们现在如果再辛辛苦苦做网站，想去靠SEO再把这个钱挣回来，已经比较难了。因为现在确实跳转的少了，肥水不流外人田，都在谷歌自己这把这钱挣完了。这点有点像百度，百度也是肥水不流外人田，你在百度搜索看广告，点击了去百度知道、去百度贴吧接着看广告，而且都是百度自己家的流量。谷歌现在说我也是照着学，你们都别走了，在我这把这个答案找到了，把广告看完了，不要去其他任何网站了。

AI时代最关键的问题：怎么赚钱？

那很多人说谷歌，你这也太不要脸了。不是这样的，事情没有这么简单。AI时代到来了，最关键的问题被谷歌找到了解决方案。AI时代是最关键的问题是什么？是AGI吗？是ASI吗（超级人工智能吗）？都不是。

AI时代最关键的一个问题是：AI到底怎么赚钱？以及AI之后的时代，大家到底怎么过日子？这个答案现在被谷歌给带出来了。

到底怎么做这件事？有些人在设想工作是可选项，马斯克说的你想工作就工作，不想工作拉倒吧；还有人在去设想全民发钱，这是山姆·奥特曼想的，当然马斯克讲的要比他好一点，要发很多的钱，大家都是富翁，想怎么花怎么花。但是这几件事情，其实对于大部分人来说，是比较难以想象的。为什么？钱还没发下来，AI公司也还没挣着钱，我先失业了。现在我们遇到了这样的一个问题，这也是为什么很多人觉得AI是泡沫的一个根本原因：吹了半天牛，最后你也没挣着钱，还把大家的工作搞没了。

那么谷歌的解法是什么？还是广告变现。但是AI时代了，广告又往前进了很大的一步。

互联网的长尾与传统广告的门槛

在互联网到来的时候，我们经历了一个很神奇的东西，叫长尾现象。什么是长尾现象？原来只有做的最好的那一两样东西能卖掉，那些小众需求的这些东西，他们只能在很小的圈子里头去流传，不可能说在全世界范围内去卖一些很小众的商品。在互联网普及之前，这件事是不存在的。这种小众产品我们就要长尾，就是你搜索一开始是比较高的，然后他是这样慢慢越走越长的，一条这样的一个曲线。现在后边这些都有销售的机会，这就是长尾现象。像淘宝、亚马逊，都得益于长尾现象。

传统广告的投放，还是要稍微有一点点小麻烦的。跟大家讲一下传统广告是怎么投放的：

要有商品：首先你要有一个商品。
选择卖点和关键词：我到底要宣传什么？在这一点上雷军还是比较强的，经常讲一些有的没的东西，把一个很司空见惯的东西吹的天花乱坠。
制造素材：我不能说“2200兆帕的什么超硬钢”这个东西是卖点了，那你这是一句话，你最后还是要把它做成图片，做成视频。这个图片还分不同的尺寸和大小，你每过一段时间大家会有审美疲劳的，你还要做新的。
充值与设置预算：那就像广告平台（就像谷歌这些公司）充值，要把钱充进去，设置预算。
设置投放范围与出价：我到底出多少钱来投放？1000次展示是一美金了。谷歌的推荐引擎，它会去到广告库里去比价格，谁出的价高我先放谁的。然后要设置覆盖范围：手机、YouTube、搜索页？印度还是美国？男的女的？
投放优化：广告平台搜集用户画像，进行竞价排序，展示广告，消耗预算。

所以传统的互联网广告的门槛还是挺高的。能够找到卖点、能够做策划的人，价值就很高。中国人的传统技能就是做素材，对于老外来说基本上就是噩梦。中国人的超级极限玩法，成就了谷歌Meta。什么是超级极限玩法？我们把所有的利润都投成广告，一分钱都不剩下来，甚至还亏钱去投广告。这才是传统广告，它门槛非常非常高。

AI带来的广告新场景：自动匹配与生成

下面我们来看几个新的场景，这就是AI来带给我们的广告新场景。

场景一：小众的手作香水

有一些香水是手工制作的，那商品肯定是一个非标准化的商品。比如说叫“雨后柏树冷杉”。用户偏好的信号，可能广告平台也收到了，最近在搜索“冷感木质香”、“不甜不腻”、“雨天味道”。他在YouTube里头，正好有一个展示机会了。那这个时候AI就会去匹配了。它会从商品的页面文案里头，包括配图和评论里边，抽出来木制、冷感、雨后这些词，它自动的生成一个素材，就直接给用户看了。看完了以后，就有可能能够促成一个交易。这是真正比较有意思的地方。

场景二：极窄人群的跑鞋

比如说某小众品牌的跑鞋，主打的是前掌落地、低落差、宽楦，页面写的很散，参数也不全。用户的偏好，比如在谷歌上搜索了“前脚掌跑步的”、“膝盖不疼的鞋”，或者是“宽脚跑鞋”。最近在地图上，还搜索过半马训练的路线。这些数据被谷歌找到了，那它就会去进行匹配了。从跑鞋的测试文章、用户评论里边（宽楦、低落差、缓震偏硬），并且识别用户是训练型而非潮流型，它就会根据用户搜索的GE，直接给你生成对应的广告。那这个广告转化率就会非常非常高。

场景三：宠物定制粮

比如说有一个商品，单一蛋白、没有谷物、还有低致敏，但是商家只写了一个“毛孩子吃了就不挠了”。用户的偏好是什么？他跑去搜索去了，说“我的猫频繁挠耳朵”、“换猫粮软便怎么办”；在论坛里头看到了“敏感肠胃猫粮”。这个时候AI又在干活了，就把这个挠痒、软便映射到了低致敏、单一蛋白上，并且把无谷成分透明作为卖点——这个卖点等于是AI替你找到了——然后制作了一条广告素材，强调单一蛋白加上低致敏试吃装，而不是泛泛的告诉你说猫粮打折这件事。

AI时代的广告革命：更长的长尾与更高的转化

这些场景代表的是什么意思？在AI时代，我们会迎来比互联网时代更长的长尾。互联网时代就已经很长尾了，但是AI时代里头，会有非常非常多小众的需求被满足。

充值跟预算你还是必不可少的。但是谷歌会干什么？

商品自动入库：谷歌就直接把你的商品库全都扒走了，根据你的商品的各种描述、用户评论，通通都拎出来作为你的商品特性，AI系统会自动的总结关键卖点和差异性。
更深度的用户理解：通过将用户留存在搜索页面上，在AI聊天窗口里，可以进一步的了解用户的属性，包括用户的各种长期记忆。AI系统绝对比我们自己还了解我们自己，更多的广告展示机会就来了。
更大的竞价商品池：现在我不用你们去想这个卖点，也不用你们去做素材，我替你们搞，可以参与竞价的商品一下就变多了。那他就可以挑一个更贵的去给你展示，我挣到更多的钱。
自动生成素材：不需要再设置详细的投放参数和范围了，由AI系统直接搞定。你原来没有做视频，谷歌替你做。
更高的广告转化率：当你的广告转化率上升了以后，广告主就会愿意为你的广告设置更高的单价。

从谷歌的财报上，是可以看出端倪的。它的整个的CPC（付费有效点击）涨了7%，总收入涨了12%。既然有效点击涨了7%，总收入涨12%的话，那就是广告单价上升了。广告主为什么愿意支付更高的广告单价？因为每次展示的时候，参与竞价的商品更多了，而且转化率也更高了，他就会成形成一个正向循环。

黑五战报的启示

今年黑五的战报上，也可以看出相应的差异了。美国黑五的战报今年特别有趣，订单量下降了1%，但是平均价格涨了8%。

这是什么意思？就是黑五钱更多了，但是东西更少了，每样东西都变更贵了。那你说为啥？最直接的一个原因，川大爷玩关税战。但是关税战给价格带来的平均涨幅是4.9%，剩下的3%左右的这个价格涨幅去哪了？是不是商家当利润揣口袋里了？不要太天真，卖东西的都是中国人，中国人挣出来利润，哪舍得往自己口袋里装？都给谷歌了，都给Meta了，都去交广告费去了。这才是事实的真相。

谷歌价值的三个层面

谷歌的价值，其实我们应该分三层去理解。

技术领先：谷歌的Gemini确实遥遥领先了，TPU也确实是实现了全生态。而且现在已经开始向OpenAI、Meta以及Anthropic进行溢出了。
全场景渗透：用户量和广泛的用户场景，正在快速的被Gemini渗透。谷歌有安卓、Chrome、搜索、YouTube、Gmail等，谷歌现在正在用自己的AI的大模型，把所有产业链上，或者所有用户场景都重新做一遍。每一个场景的应用，都会给谷歌带来巨大的用户流量以及用户留存。
底层逻辑重构：谷歌的底层逻辑，从岌岌可危到了重新被验证。现在看广告联盟确实是完了，但是搜索广告起来了，而且广告还是未来的方向。

AI时代的未来：交易与内容

那么AI时代以后到底会是什么样子？我相信大家还是要去努力工作的。更多小众的、细节的、长尾的交易，将得到推荐，将被发现，并且有交付的机会。

真正在消费价值中不断上升的，其实是内容。这个内容包括什么？包括你们现在在看我YouTube的节目，这就是一个内容。我做了，你们看了，广告也播放了，相应的交易也被执行了，那我就分到钱了。所有被传播的内容都会被标价，进行售卖。大家买到的东西会越来越贵，因为你GDP上升了吧，你吃的粮食不会变多，但你值那怎么办？只能让粮食变贵。那多出来的钱是什么？多出来的钱就是广告费，广告费会分给内容创作者。

AI让以前无法实现的生意可以实现了，让天下没有难做的生意。还记得前面我讲豆包手机那期吗？目的跟方法是有差异的。

微信是个方法，跟人聊天才是目的。
谷歌也终于搞明白了，他们要实现的目的是交易，而不是搜索。

交易与交付才是最终的目的。原来的搜索仅仅是方法。AI会改变方法，但是不会改变目的。AI不仅仅擅长编故事，还擅长进行非标准的匹配。AI做了匹配以后，就可以将故事以及附带在故事上面的交易做完。原来的方法崩塌了——就是搜索以及让你到网站上去看广告这个方法已经崩塌了——被AI颠覆了。

总结

AI时代商品经济依然是无可替代的。人们要为了享受更好的商品和服务，继续努力劳作，不可能说直接给你发钱你就可以不干活了。人们也要通过交易，筛选出更好的产品和服务，让科技商业和社会找到未来的方向。

我一直觉得交易这件事情，才是推动整个社会前进的一个最核心的点。竞争的过程，就是要把那个最好的挑出来，要告诉社会我们要向哪个方向发展。而在整个的这个过程中，谷歌现在已经验证了，说OK这条路还是走得通的。这条路还是走得通的。当然了，这些靠谷歌广告的这些网络广告商，他们的日子确实会难做一点点。但是这些人也要重新去思考，说我再做一点什么样的新的内容，能够重新符合新的这种运作模式。

这个才是今天我们要讲的故事：就是谷歌为AI后时代指明了方向，会把这个广告整个干掉，却让交易更高效地发生。

背景图片：
high-contrast watercolor illustration, massive cross-border logistics warehouse during Christmas season, towering staggered shelves cluttered yet orderly, autonomous logistics robots gliding on tracks carrying goods, scattered computer workstations where designers create Christmas advertising materials, cargo boxes wrapped in festive red packaging, warm yellow spotlights mounted on the ceiling casting a cozy holiday glow throughout, neon cyan rimlight, deep navy background, glossy reflections on surfaces, sharp subject separation, extremely legible negative space for text overlay, minimal palette of ink blue neon cyan and gold accents, cinematic composition, ultra-detailed, intricate linework, –ar 16:9 –raw –s 250 –v 7.0 –p lh4so59

游戏天才到诺奖得主，他凭什么断言AGI只差临门一脚？揭秘哈萨比斯开挂人生背后的逻辑｜Demis Hassabis、Google DeepMind、AGI 时间表、5到10年

Luke Fan — Wed, 10 Dec 2025 00:58:24 +0000

谷歌Deepmind的CEO说：“我们与AGI之间，只差一到两个AlphaGo级别的技术难关了。”

大家好，欢迎收听老范讲故事的YouTube频道。

现在Gemini 3正在大杀四方，谷歌里面负责开发Gemini的部门叫Deepmind，他的CEO出来接受访谈，关注度还是比较高的。

谷歌Deepmind的首席执行官叫德米斯·哈萨比斯，2025年12月4日接受了一个访谈，是在旧金山举行的Axios AI大会。和他对谈的人呢，是Axios的创始人和主编，叫Mike Allen。在这上面他讲到说，我们距离AGI还差一到两个类似于AlphaGo这样级别的突破，突破过去就可以了。

哈萨比斯：爽文男主般的开挂人生

哈萨比斯到底是一个什么样的人呢？绝对的爽文男主，挂b一样的存在。

从国际象棋神童到认知神经科学博士

哈萨比斯是一个英国人，Deepmind本身是一个英国公司，后来被谷歌收购的。他呢，76年在伦敦出生，这个姓氏是个希腊姓氏。他的父亲呢，是来自塞浦路斯的希腊裔，而他的母亲呢，是来自于新加坡的华裔。所以哈萨比斯呢，可以算是半个华人。

从小，这哥们是一个国际象棋神童。像这样的人，肯定都是有异于常人之处。4岁就开始下棋，13岁就达到了国际象棋大师水准。8岁就用自己的国际象棋奖金，给自己买了台电脑，开始学习编程了。

本科和硕士呢都是剑桥的，学的CS就是计算机科学，在校期间一直代表剑桥参加各种国际象棋比赛。博士呢是伦敦大学学院，专业方向是认知神经科学和神经科学。

从游戏制作人到AI先驱

工作，这哥们一开始做游戏的。先去加入了很著名的牛蛙工作室，这个牛蛙工作室呢，最著名的作品叫做《地下城守护者》。但是哈萨比斯当时进去的时候，应该还没有开发这个产品，牛蛙工作室最终是被EA给收购了。后来呢，他自己创建了一个工作室接着做游戏，叫做仙丹工作室。2004年出了一个游戏叫《邪恶天才》，是一个模拟经营游戏，就是一帮邪恶天才在一个小岛上做各种各样坏事的这样的一个游戏。只是呢，这个游戏并不怎么挣钱，这种超级天才做出来的游戏都未必能挣钱。

他呢就把工作室关掉了。后来呢，《邪恶天才》的IP被收购了，2021年《邪恶天才2》发布，但是呢，《邪恶天才2》就已经跟哈萨比斯没有什么关系了。

关闭这个游戏工作室之后，他就去创建了Deepmind。Deepmind主要还是游戏方向，他呢在里边去训练AI下围棋。这哥们是个国际象棋大师，但是呢开始训练AI下围棋，也就是AlphaGo这个东西就出来了。在这中间呢，还训练AI去打各种游戏，星际争霸呀，做一些其他这样的训练。

收购、AlphaFold与内部整合

2014年，Deepmind就被谷歌给收购了，6.5亿美金的价格。但是这个数字呢，并不是特别统一，很多的报道里的这个数字是有一些偏差的。有人说是4亿美金，也有人说是6.5亿美金，还有人说是4亿英镑。因为收购的时候，谷歌自己并没有公布价格，这些价格呢都是后续的报道里边去写的。

在谷歌收购以后呢，哈萨比斯在Deepmind里头又开发了叫AlphaFold这样的一个产品。这个产品是解决蛋白质折叠难题的。蛋白质实际上是这种超大分子，这些超大分子，我们算清楚有多少碳、多少氢、多少氧、还有氮，它并不是一个平面的结构，它是一个立体的结构，3D的。在这样的一个结构里头，它到底是怎么去排列和折叠的呢？原来大家是去预测呀、去猜呀，或者通过一些很复杂的设备去进行扫描，通过这样的方式去识别，成本是很高的。你要想去用蛋白质开发各种药品，你就必须要搞清楚它的3D架构空间，你搞不清楚，这事没法往前走。

哈萨比斯就去搞了AlphaFold，用AI去预测蛋白质的3D折叠空间到底是怎么回事。2020年呢，这个AlphaFold在蛋白质预测大赛中夺得头筹，比第二名强好几倍，这个事基本上就算解决了。现在只要是知道这个蛋白质的分子结构，这个AlphaFold的预测结果就极其准确。2024年，哈萨比斯依靠这个AlphaFold获得了诺贝尔化学奖，这哥们是个诺贝尔奖得主。

这还没完，他呢还在内部斗争中战胜了谷歌大脑。这是一个什么故事呢？谷歌内部一直是有两个AI部门的，一个是Deepmind，另外一个叫谷歌大脑，相互内斗，相互争夺资源。直到什么时候呢？直到ChatGPT出来，三年前谷歌拉响了红色警报，说不能再这样了，你们俩两家打来打去，这个不行了。那怎么办呢？最终是Deepmind合并了谷歌大脑，所以现在整个的谷歌AI是由Deepmind来去负责的，由哈萨比斯来去管理。

现在的Gemini 3使用的技术，大多都是原来谷歌大脑研究的方向：Transformer、大语言模型都是那边研究的。而Deepmind呢，原来在英国这帮人研究的呢，就是AlphaGo、AlphaZero（AlphaZero是AlphaGo之后的一个下棋的模型）以及各种可以自动玩游戏的AI产品，还有呢就是AlphaFold，做这个蛋白质分析的。

哈萨比斯除了是Deepmind的CEO之外，他自己还有一间专门做药的公司，专门用AlphaFold去做蛋白质研究，做各种新创新药的公司，他也是那个公司的创始人。所以哈萨比斯管理了整个的谷歌AI方向，以及谷歌Gemini这个产品化方向，都是归他管的。所以，爽文人生，绝对没有任何问题吧？

通往AGI之路：还差哪两个AlphaGo级别的突破？

哈萨比斯认为，我们距离AGI到底还差哪两个AlphaGo级别的突破呢？他自己做AlphaGo的，所以AlphaGo到他这儿变成了一个衡量单位，再出现两次AlphaGo这样的突破，我们就达到AGI了。

Gemini 3的惊人进展

他呢首先讲到Gemini 3，现在确实让人震惊，已经从文本专家变成了多模态理解系统了。他举了一个案例，说有一个电影叫《搏击俱乐部》，主角上去打斗之前把戒指摘下来了。他就去问这个Gemini，说这代表什么意思。它没有告诉你把戒指摘了就完了，而是告诉你说，这是主角抛开了身份、摆脱了规则的象征，是角色从现实到极端的转变。这个确实挺让人震惊的，这个Gemini 3模型有了自己的判断，不再只是迎合了。

到GPT这儿，你说你错了，它就会说“对不起，我错了”。到Gemini 3上，你说你错了，它会很耐心地给你解释，或者跟你去讨论这个事，是不会直接承认的。说Gemini 3的性格，叫“简洁，冷静，有自信，不讨好”。这个是哈萨比斯自己作为一个科学家，非常非常喜欢Gemini 3的一个地方。

而且Gemini 3呢，现在已经从生成内容，在向着打造产品的方向前进了。我们现在使用Gemini 3去做PPT，去做简单的应用原型，效果已经非常好了。它已经可以去执行一个比较简短的、连续的这种AI agent的工作了，这个是Gemini 3真正强的地方。

大模型当前面临的难题

哈萨比斯说了，现在的大模型还是有很多问题没法解决的。

不具备持续学习的能力。很多人都在担心，说我跟大模型聊了半天，是不是大模型就拿聊天的结果回去做训练去了。其实有时候确实他干，但主要做的是什么呢？就是强化学习。因为我们跟Gemini聊天，他经常会出俩答案让你挑一个，你在挑选的时候呢，实际上就已经在开始帮助大模型进行训练了。但是搜索的结果、我生成的内容、我提出的问题，我让这些东西去进入到大模型里头去进行训练的话，这个是不行的。大模型必须要进行数据筛选，然后才能训练。日常的这些内容，你拿去训练大模型的话，大模型可能会越训越笨的，特别是很多互联网上的垃圾信息，你塞到大模型里去训练，根本就没有办法达到预期的效果。所以大模型是没有办法自己去找内容去训练的，还是需要人先去提出要求，然后去进行数据清洗、数据处理。现在都是由大模型根据原始数据，再去生成最后的预训练数据，然后才能再去训练。所以这个事情，还没有办法让大模型自己去干，这是第一个问题。
无法执行长期的规划。虽然现在Gemini 3已经可以走一个一两个小时的规划，它还是能够走完的。但是你说我这有一个很多步骤，还是并行的，这种步骤需要去执行，执行完了以后需要连续执行几天、甚至几个月的这种任务，这个Gemini 3还搞不定。现在谁都搞不定这个事情。所以现在人去使用大模型，我们还需要自己去理解问题、自己去拆解问题，然后把这个拆解好的问题扔给大模型，而在对大模型的结果进行确认和验证之后，再把结果拼凑起来，让大模型去做下一步。它没有办法说你一开始给他个要求就做出来，“上帝说有光，于是就有了光”，这个事现在还做不到。
智能体系统很不稳定。为什么它没法连续干下去？就是它可能干着干着就跑偏，而且跑偏的过程中呢，自己不知道跑偏。在这个过程中，就有可能会浪费大量的TOKEN和算力，最后呢得出一个完全不可用或者说有害的一个结果出来。这个是目前为止大模型无法避免的问题。
缺乏跨对话的稳定记忆。现在大模型已经开始有记忆了，但是大量的记忆呢，还是在对话内的。而对话外的这种记忆，就是跨对话的记忆呢，它也不是说没有，像ChatGPT也好、Gemini也好，都是有一些跨对话记忆的。但是呢，这个记忆的空间都很小，你不可能说让他记很多的东西，然后跟你进行跨对话的去聊天。为什么呢？对于计算机来说吧，让它记住什么事是非常非常容易的，往硬盘里写不就记住了吗？但是让它忘掉是很难的。到底应该记住哪一部分、忘掉哪一部分，在下一次工作的时候我应该使用其中的哪部分去参与工作，这件事是非常难去抉择的。这就是大模型跨对话记忆的这个难点。所以他讲的，现在缺乏跨对话的稳定记忆，就是你让他记住可以，但是呢不一定下次就想起什么事来，可能他会找一个完全不相关的知识点，就参与到你这一次新的对话里去了。现在我们使用大模型的方式还是比较简单粗暴的，你发现讲着讲着驴唇不对马嘴了，怎么办？开始新话题，就是把原来的记忆都清干净。我们开始一个新的，甭管是Gemini也好，还是ChatGPT也好，它会有一些跟我们个人相关的这种个性化记忆。比如说我就告诉这个ChatGPT：“你记住了，我叫老范，我是个Youtuber，每天都要做什么事情。你要给我去总结信息，或者我要找你提问题，你要先去经过验证才能给我。”就这些玩意，我是可以让他记住的。但是如果你给他特别多的东西让他记，或者说我们在整个的聊天过程中让他把所有聊天内容都记下来，他就没法干活了。

两大关键突破点

这些问题关键的突破点是什么呢？咱们前头讲了两个关键突破点。

世界模型：让AI理解物理世界的运行规律，这个是非常重要的。Deepmind内部呢，有一个叫Genius模型（天才模型），这呢是一个世界模型，通过物理一致性和时间连贯性生成虚拟世界，最后输出视频的。大方向上呢，跟李飞飞的方向是比较接近的。但是Deepmind的这个模型，是更接近于游戏世界一点点。这个哈萨比斯，不愧是从游戏公司里出来的，人生的第一份工作都是对一个人有重要的作用的。
智能体系统：现在Gemini虽然也算是智能体，但是距离智能体系统还是有一些差距的。什么是智能体系统？就是从回答问题到完成任务。现在Gemini依然是在回答问题。他说未来呢，Gemini会嵌入眼镜、工作场景和工作流里面，能够记忆、推理或者是代办，不再只是回答问题，而是直接完成各种各样的任务。你让他做一个什么事的，切咔切咔给你做完了。可以自主规划、执行任务，并且根据结果调整的这种稳定的智能系统，这就是未来方向。

所以呢，两个AlphaGo级别的突破，一个是世界模型，第二个是智能体系统。

谷歌：科研领域的“怪物”

讲到这儿，要再跟大家啰嗦几句。其实大部分的科技公司，是无法想象谷歌的运作方式的，就像是大部分国家的人也无法想象中国是一个什么样的存在，是一样的。

中国的这种存在方式呢，联合国里边专门有一个效应，叫“中国效应”，就是各种统计的时候，一定要把中国排出去。为什么？因为你一旦把中国加上，所有统计数据就没有任何意义了。咱们举一个最简单的例子，吃西瓜。全世界的人都没法想象中国人到底一年吃多少西瓜，咱本身人就多，咱们一年大概吃全世界70%的西瓜。你把这个统计起来，全世界每个国家大家平均吃多少西瓜，你把中国算进去，这事没法算了。包括像什么发电、炼钢，只要是跟制造相关的，你就不能把中国搁里头统计，因为这个完完全全是另外一个维度了，它会让整个的统计结果完全失衡。中国属于是全产业链内卷，而且全产业链都产能过剩的一个国家。

谷歌呢，在科研上就有点像中国在产业链上的这个状态，很多方面呢都会尝试和探索。谷歌呢，具有非常高的人才密度、充足的科研经费，还有海量的数据，这个是缺一不可。而且呢，这些科研团队，他们的时间压力也不是很高，大家就自己按照自己的喜好去研究就行了。他们还在不断的收购新的、最前沿的公司，Deepmind就是买回来的嘛。

谷歌在AI领域里头，同时在探索强化学习（AlphaGo、AlphaZero这些产品）、认知架构、神经科学建模，以及Transformer大语言模型，这些都在研究。不是说我们觉得哪块有机会了，我就往这一个方向去研究。我记得特别清楚，我进入盛大网络参加入职培训的时候，他们就跟我讲说：“全世界只有一种游戏，这种游戏叫MMORPG，其他都不行。”后来我说那我们玩的其他游戏，他们说：“那些游戏不挣钱，我们不研究那个，我们只研究这一个最挣钱的。”这其实是大部分的公司的思考方式，我们既然已经证明了这玩意挣钱，其他的不挣钱，那咱就研究这就完了，特别很多中国公司是喜欢走这条路的。

但是谷歌不，它是所有的方向都要去试一试。而且很多方向呢，你都不知道什么时候能挣回钱来，他也要去试一试，比如说量子计算。前面咱们还专门讲过谷歌的量子计算是怎么回事。很多的这种科技成果，都没有办法给谷歌挣钱，也没有办法在谷歌内部取得成绩，很多人最终是离开了谷歌才创业成功的。现在的AI行业里头，创始人或者是创始的核心团队，大多都在谷歌混过。所以现在我们所看到的AI行业，或者叫AI革命，你基本上可以认为是一帮从谷歌出来的人在去折騰这个事情。

中国呢老说自己是“睡狮”，一旦被吵醒了会很吓人的。谷歌在科研领域里头，其实也是这么回事。拉一次红色警报，就有可能拎出像Gemini 3这样的大杀器出来吓唬人。现在Gemini 3火了，但是谷歌依然不会去收敛方向，照着唯一正确的方向前进，这不是谷歌的路子。谷歌的路子是什么？还是全面探索，严格追踪数据表现，保留多个可能性，并且不断验证。

普通公司能够解决当前的问题，预言一个未来的热门方向——大家注意，不热门他不去干，去一定是热门方向——他们才会愿意说我花一点精力、花点钱去折腾。像谷歌这个，都是这么多方向，哪块云彩下雨都不知道，到底什么时候做出来也不知道，就开始撒人、撒钱进去干活去了。在普通公司里头，能够去预言一个热门方向的，就已经算是很强的了。大量的都是别人做出来，特别是谷歌做出来，他在后边再接着跟着改。而且这些公司实在是搞不清楚什么是热门方向，或者热门方向搞不定怎么办？还有一条最简单的路：上谷歌挖人，或者直接从谷歌出来创业。这个就是普通公司跟谷歌之间的差异。所以谷歌呢，在科研领域里头完完全全就是一个怪物。

总结与展望

好，最后总结一下吧。谷歌Deepmind的CEO哈萨比斯，携Gemini 3成功之势参加了Axios AI大会，说再有一到两个AlphaGo级别的突破，就可以实现AGI了。这两个是什么呢？就是世界模型以及智能体系统。可能要5到10年，把这两个实现了以后，我们就达到AGI了。

本节目的特点，咱们八卦了一下哈萨比斯的开挂人生，也稍微介绍了一下谷歌这个绝对的科研领域的怪物。我们也希望谷歌，以及所在谷歌里头工作过的这些人，未来还会给我们带来更多的惊喜。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

谷歌一出手，OpenAI的“凛冬”真来了？山姆·奥特曼内部备忘录罕见示弱，承认可能暂时落后｜Google vs OpenAI、AI Race、Google、OpenAI

Luke Fan — Tue, 25 Nov 2025 01:18:11 +0000

Gemini 3 Pro和Nano Banana Pro发布之后，OpenAI的山姆·奥特曼开始喊“凛冬将至”了

大家好，欢迎收听老范讲故事的YouTube频道。凛冬将至（winter is coming），这是一个《权游》里边的梗，大家要小心准备了。以前呢，OpenAI每一次发布会之后，都会有一群的创业公司原地死亡。这次谷歌没有开发布会，直接发布了新产品之后，OpenAI虽然不至于原地死亡，但是凛冬将至了。

奥特曼的内部警告：“凛冬将至”

山姆·奥特曼到底是怎么说的呢？对外肯定不能跌面子，讲的是祝贺谷歌发布了Gemini 3，看起来是一个很棒的模型。但是曝光的一些内部备忘录里边，寒意已经体现出来了。奥特曼罕见的表现出了危机感，直言公司当前的氛围充满了不太妙的低迷气氛，大家都觉得有问题了。

OpenAI如今不得不拼命追赶，谷歌的AI进展可能给OpenAI创造暂时的“经济阻力”。大家注意，这个词叫“经济阻力”，它的收入可能会有问题。如果收入有问题的话，他前面画的1.3万亿这种大饼，这是会出大问题的，会让整个行业崩塌的。

现在，山姆·奥特曼要求团队进入战时状态，聚焦长远，即便意味着我们在当前阶段会暂时落后，也要押注更有雄心的突破。这个非常非常正确。首先，他承认了“我们现在可能暂时落后”，而且一段时间未必追得上。但是，如果只是跟着谷歌的脚步往前追的话，这是没法整的。因为谷歌最擅长的事情就是极限拉扯、极限迭代升级，你像Chrome到现在100多版了，安卓一年一个大版、一堆的小版，所以任何想在这后边跟版本的人，都会被谷歌拉死的。你要想跟谷歌竞争，一定要跳到谷歌外面去，自己做一些完完全全创新的东西，让用户有感知的东西，这个才是需要去干的活。

而且，山姆·奥特曼讲到，公司的估值虽然很高，但是要清醒看到，我们还有不少的功课要补，AI研发的严冬考验就在眼前，OpenAI必须奋起直追了。这也就是“凛冬将至”的出处。

大家还记得国内互联网企业是什么时候开始喊这句话的吗？谁喊的？任正非喊的。任正非喊“我们要让大家感受到寒意”之后，华为确实有在裁员，但是业绩并没有大的问题。但是华为身边的这些公司，就在大量的原地消失，直接就不见了。这就是凛冬到来的时候，我们会看到的景象。

Gemini 3 Pro到底有多强？

Gemini 3 Pro到底强到一个什么样的程度，能让行业公认的老大OpenAI的山姆·奥特曼发出“凛冬将至”这样的声音呢？

我这几天呢，其实一直在用Gemini 3 Pro，本身感受并没有那么明显，只是觉得快了很多，回答的质量高了很多。Nano Banana Pro，那简直是强到没有朋友。

实战对比：Nano Banana Pro vs. 即梦4.0

我拿Nano Banana Pro跟国内的“即梦4.0”比较了一下，我的提示词是什么呢？说：“你给我设计一个北京烤鸭为主菜的北京宫廷宴菜馆的菜单，主要的菜品要有配图，要写上菜品名，要有这个菜品的配料以及口味的简单描述以及价格，其他的菜就不需要这个图片了。”

两边都干活去了，其实干出来的结果都还不错。先说即梦吧，即梦呢画的很漂亮，上头也写着是多少多少钱一只烤鸭，烤鸭画的也还可以吧。但是呢，它在菜单里头混入了宫保鸡丁和麻婆豆腐，这两道菜其实是川菜，它不是北京菜。而且呢，它里头选用的北京菜京酱肉丝，它配的图呢是一个红烧肉的图。京酱肉丝，你里头必须得要有肉丝，得是条状的；而红烧肉是肉块，到最后画出来的是个肉块，就出现了这样的翻车现象。

Nano Banana Pro画的图是什么样的呢？非常的漂亮，上面是北京烤鸭，然后呢是其他的各种北京菜、老北京炸酱面呀，没有任何川菜混在里面。但是它也有一个bug，就是它写的价格是“文银多少两”，这个是很有趣的一点。即梦的这个价格都是58、68，相对来说是比较准确的。

这个例子大家看出来差在哪了吗？它们画的图，艺术感其实没有太大区别，差就差在：Nano Banana Pro自己是一个完整的模型，它把AI agent的活干完了，他自己在这个模型里头搜索了、思考了、推理了、研究了，然后把一个正确的东西画出来——但不能说一点瑕疵没有。而这个即梦干的活是什么呢？先调用了外部的工具，它可能也搜索了一些，甚至可能连搜索都没搜索，它可能调用的是豆包的这种大模型，使用豆包自己的知识体系，进行了一定的思考和生成，然后就去画图了。其实画的图两边差异不大，差异大就大在你到底是原生的模型进行思考、进行推理、进行搜索，还是说我是外部的。画的质量其实是一样的。

谷歌的新武器：Anti Gravity IDE

另外呢，这两天还试了一下Anti Gravity，它叫“反重力”，谷歌这次出的IDE。当然，这种产品大家要试用的时候，一定要注意一点是什么？不停的升级。因为这种产品迭代非常非常快，今天我去升级了以后，发现已经跟我第一天下载这个产品完全是天翻地覆的变化了，大概升了两个版本。变在哪了？因为我下载这个产品的时候，Nano Banana Pro还没发布呢，今天升级上去以后，已经把Nano Banana Pro挂进去了。这个产品是谁做的呢？就是当时谷歌花钱收购了Windsurf团队的核心成员，让他们进来给做的。所以这个产品做的呢，还可以。

这个产品现在彻底打通了MVC。这个什么东西？我们写程序的时候呢，一般是把程序分成三块儿：model、Controller和view这三块儿。model呢是所有跟数据相关的，你数据模型是什么样的，数据底层是什么样的，这种底层的一些API接口，这些都在model里头。Controller呢是各种的业务逻辑，写在这块。view呢是所有的让大家能看得到、能够交互的东西，就是视图。

为什么写程序会把这三块分开写呢？就是为了这三块可以让不同的人去做，把接口留清楚，就可以独立的去进行更新，而不要说眉毛胡子一把刷，牵一发动全身。为什么要专门强调这件事呢？因为以前的AI编程的工具，或者是Web coding的工具，他们主要是做后端，虽然前端也做一些，但是呢对于画图设计，还是要差一些的。

现在就不用费这个劲了。你直接向它描述，我今儿向它描述，我说：“你给我去做一个读书软件，我要求是羊皮纸的背景，要有各种图书相关的元素进去。”这个Anti Gravity就直接调用Nano Banana Pro去给我画图去了。先给我生成了一个羊皮纸的背景，然后呢给我生成了一个古色古香的页头，就是像那种花体字这样的东西，然后呢给我生成了所有的、跟看书相关的图标：有打开的书、有合起来的书、有笔，生成了全套的图标，还给我生成了一本书。生成完了以后，那边写程序把这玩意儿全挂进去了，这个是多么开心的一件事情！

谷歌真正的可怕之处：生态与“微信式逆袭”

通过Nano Banana Pro和Gemini 3 Pro更新的情况来看，现在呢，谷歌已经真的开始靠谱了，有用了，可以干活了。而且谷歌最可怕的还不是模型变强了，谷歌最可怕的是用户生态强。但是呢，Gemini现在的月活用户数是6亿多，比GPT的还是要少一些的，大概少个一两亿的样子。但是谷歌后边还有Gmail、Google Workspace、安卓、YouTube这么多用户群体，这么多用户场景在那等着它呢。

所以，谷歌一旦实现了AI突破的话，这对于OpenAI来说，不能说灭顶之灾，但是已经是非常非常危险的了。这也是为什么OpenAI的山姆·奥特曼会去警告员工公司营收增速可能下滑的一个原因，而且告诉员工说：“我们不再是战无不胜的了。”

现在呢，我们其实正在看一场微信一样的逆袭。什么是微信一样的逆袭？就是在微信出现之前，其实国内出了很多这些移动端的即时通讯工具。腾讯在PC端是老大呀，那么我怎么办？直接用PC端的QQ跟你们竞争，又竞争不过你们，因为包袱实在太重。说：“算了，咱们去做微信。”然后呢，是携着原来QQ积攒下来的社交关系链，直接碾压所有对手，就把当时的米聊、各种的talk、这talk那talk什么，全都给干翻了。所以，这就是一次微信式的逆袭。

那你说只有OpenAI感受到了“凛冬将至”吗？咱们再想想前面讲的华为任正非的故事，老大感受到凛冬将至了，那你原地死亡的人一定会更多。

“模型即应用”：创业者的残酷现实

Gemini的胜利，再次重申了AI创业领域里头一个非常让人不喜欢的论点，这个论点就叫做“模型即应用”。刚才我讲了Nano Banana Pro跟即梦之间的差异的例子，大家就知道为什么“模型即应用”是最厉害的。这个，虽然很多做应用的人非常非常讨厌这一条，但是目前来看，这条依然成立。

原来那些做应用开发的，特别是这些做AI agent的开发的，比如像ConflUI、像Cursor这些人，现在一定是感受到巨大的压力。如果你说我在这个圈子里头，还不在ConflUI和Cursor这样的领军位置的话，就可以直接宣布原地死亡了，就不用再去努力了。那些通过模型的调整、做复杂提示词工程和流程管理的，基本上是天塌了，因为这一部分活现在都直接被模型功能给覆盖掉了。

特立独行的谷歌：AI圈的“局外人”

这回是不是一个戳破泡沫的钉子呢？是不是谷歌直接逆袭了以后，AI泡沫就破了呢？很多人说：“不对，这不是AI又往前走了吗？AI有用了呀！”

但是呢，谷歌在整个AI游戏里边的位置是很尴尬的，参与了，但好像又没有参与的一个位置。你说谷歌是不是在做AI？肯定是，Gemini 3出来了，它不做AI谁做AI呢？而且它也有投资，它投资了Anthropic。但是呢，它又没有彻底参与到整个硅谷的AI军备竞赛里头去。前面咱们讲什么“击鼓传花”呀，“左脚踩右脚”，这里头跟谷歌其实关系不大。它没有用英伟达的芯片，它用的是自己家的TPU；它也没有投资了谁谁谁，买一堆芯片，然后再去建这个机房，它都是自有资金。跟外边讲的OpenAI投资什么项目、英伟达投资OpenAI、AMD投资OpenAI、OpenAI再去到Oracle那去订购算力订单……跟整个这个循环是没关系的。

那谷歌为什么这么另类呢？它为什么不跟大家一起玩耍呢？一个幼儿园里头，这个小朋友就看着这么奇怪，这么不合群呢？原因很简单，大家知道OpenAI，这个open要open谁呢？就是要open谷歌呀。建立OpenAI的原因，就是因为谷歌太不开放了。所以，整个的AI产业链，基本上都是从谷歌内部孵化出来的，每一个在做AI创业公司的人都在讲：“谷歌有问题，我要出来反它，我要出来干它。”它是这样的一个位置，谷歌在整个AI领域里头可以算是举世皆敌。

OpenAI这头，微软给了钱了，那头软银给了钱了，跟英伟达还有关系，跟AMD有关系，跟Oracle、亚马逊，它全都有关系。谷歌说：“我跟你们都没关系，你们都是从我这来的，我要收拾你们。”所以谷歌在整个的AI圈子里头，是最另类的一个，就像相声界里的郭德纲一样。

一旦谷歌成了，整个行业都会瑟瑟发抖。因为英伟达的芯片不再是必须的了，现在使用谷歌TPU，人家也把这事搞定了。OpenAI、微软还要继续回去跟谷歌争夺用户和应用场景了。原来说OpenAI的技术最好、用户体验最好，所以我不需要去跟你抢用户场景，用户自然而然就向我这边迁移了。现在谷歌的用户体验做的也很好了，那大家回去了，Office跟Workspace接着打，只能变成这样的一个状态，那对于他们来说是非常非常不利的。

而Oracle、Coreweave这些下游厂商建立起来的这些算力中心，就未必有人用了。很多人在去质疑，说你OpenAI四处建算力中心，四处去签这种巨额的算力协议，这到底能不能实现？现在就悬了。谷歌的Gemini模型是不会跑到这些算力中心上的，谷歌的这些Gemini模型一定会跑在谷歌云上，跟他们是没关系的。“击鼓传花”的游戏有可能就玩不下去了，所以整个行业现在都很害怕。

凛冬已至，创业者何去何从？

Gemini 3 Pro发布之后，创业者应该怎么办呢？咱们不能说“凛冬将至”，大家躺平，对吧？这肯定不是老范的风格。

不要去做大模型了。中国几个大厂除外，像什么豆包、千问，他们愿意折腾去折腾去。因为为什么？谷歌进不来，OpenAI也进不来，他们还是有一个巨大的市场可以去玩耍的。甚至在国内证明成功了以后，还可以开源出去，给老外那边再去搅和搅和。以后的模型呢就是大厂竞争了：谷歌、OpenAI、xAI和Anthropic，基本上就是他们四家搞了。至于Meta在里边要站在一个什么位置呢，现在还看不太出来。如果你说我一定要整点什么模型呢，可以在中国开源模型的基础上呢，做一些小的调整，重新训练新的模型。这个阶段已经过去了，现在剩下这四家——谷歌、OpenAI、xAI和Anthropic——也未必最后都能活得下来。那些单纯的图片、音视频的模型，最终应该都会被顶端的这些大模型公司统统干掉，像Midjourney、Flux未必能活得下去。
不要去做那些模型未来会覆盖的领域。模型会越来越强，这个是必然；模型会越来越快，这个也是必然的。还有一个必然是什么？模型一定会越来越便宜。你说：“哎，我现在尝试去做一个应用，我在哪个地方用更便宜的模型，哪个地方用稍微贵一点的，达到一个在当前的成本下最好的效果。”别费这个劲！等你把这个产品做好了、上线的时候，那个最贵的模型的成本也降下来了。所以不用费这个劲，咱就直接使最贵的就完事了。那些只做工具调用、流程安排、结果确认的工具，或者是AI agent的产品，都会被模型覆盖掉的，大家就别费劲在这块卷了。
要做“时间的朋友”和“平台的朋友”。这个就是在移动互联网时代里头我们反复在强调的事情，现在AI时代也在走这条老路了。什么叫“时间的朋友”和“平台的朋友”？以前做安卓App和iOS App的时候，我们一定要做苹果公司和谷歌公司的朋友。我们要考虑他们未来向哪个方向发展，我不能挡在人路上，那就不是“时间的朋友”了。我们也要考虑谷歌跟苹果这样的大平台，他们的诉求是什么，你不能把人家该干的活给人干了，那就不是“平台的朋友”了。所以我们要做时间的朋友，要做平台的朋友。而平台的话，在新的时代里就是这些大模型——咱们讲这4家公司的大模型。时间会让模型变得越来越强大，开发者必须在这个大前提下干活，你不能挡在这个模型的路上，不能随着时间的发展被模型淹没掉。
要跟具体的用户和场景打交道。模型就是新的平台，再强大，其边缘依然是粗糙的。特别是在美国，他们这些大厂，他不会把每一个细节和边缘、方方面面都照顾到的。所以在这个时候，依然是需要我们去做很多的这种边边角角的事情。而且做了这些边边角角事情以后，未必没有机会去发展出新的超级App来，就像现在微信在iOS和安卓上变成超级App，这个过程是一样的。所以呢，不要觉得这个生意小、这个生意不挣钱、这个生意用户少，我们就不去做，先努力地扎下去再说。利用模型的能力解决具体的需求，与行业和场景进行深度的捆绑，成为行业专家——这就是咱们现在真正这些开发者或者是这些创业者该去干的活。不要尝试去编写代码弥补模型缺陷，直接等模型升级就行了。特别是Gemini 3 Pro发布以后，马斯克说了，我明年一二月份就要去发布Grok 5，那个时候我们就直接上6万亿大参数模型，大家等着看吧，拭目以待就可以了。

跨越临界点：零和博弈的终结与新机遇

最后，凛冬将至，春天可能也就不远了。到了冬天了，后边就应该是春天了嘛。

谷歌已经基本上达到临界点了。什么是临界点？AI可用的临界点。这个东西能干活了，能够挣钱了。跨过临界点之后会怎么样呢？我多吃一口，你就少吃一口，市场规模是固定的，这玩意就叫零和博弈。一旦跨过临界点，这个零和博弈就被打破了，行业就会大爆发。以很多以前没法做、不值得做的事情，现在就有经济价值了。在这样的一个情况下，就会有很多的新的应用、新的产业就会产生。

我们没有4G网络的时候，谁会想到说大家可以刷短视频、刷抖音这样的东西？抖音会成为超级App，谁也想不到这个东西。因为那个时候网很慢，服务器的带宽也很贵，用户的手机带宽也很贵。但是你一旦过了这个坎，“哦，还可以干这样的事情”，整个变出了一个新的行业出来。

但是呢，要提醒大家，现在的很多投资，特别是股市上面的很多泡沫，还是有很大的打水漂可能性的。特别是OpenAI和英伟达之间的这种“左脚踩右脚”的生意，还是很危险的。当然了，全行业都会努力地拯救这些投资，这个跟谷歌无关。对于谷歌来说，叫“杀死你，与我无关”，这句话引自于《三体》。

总结

最后总结一下，Gemini 3 Pro发布了，绝对是挑战与机遇并存，不同层次的AI行业参与者，必须要重新给自己找到定位了。

好，这就是咱们今天要讲的故事：凛冬将至。

感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

我们都被骗了？Nano Banana Pro 真相揭秘：它根本不是Gemini 3简单叠加，原生多模态骨架才是颠覆关键｜Nano Banana Pro、Gemini 3 Pro、Gemini 3

Luke Fan — Sun, 23 Nov 2025 00:55:47 +0000

Nano Banana Pro发布了，它在Nano Banana的基础上到底做了些什么新东西？

大家好，欢迎收听老范讲故事的YouTube频道。

大家等了半天的Nano Banana 2没有来，出来的是Nano Banana Pro。当然，前面Nano Banana Pro也是隐姓埋名，在各种的大模型评测平台上偷跑了好长时间。所以很多人呢，信誓旦旦地说：“我已经用到了这个东西，强的没边了。”现在终于发布出来了。

从Nano Banana到Nano Banana Pro：核心区别是什么？

从名字上呢，一个叫Nano Banana，另外一个呢加了个Pro，它们到底差在哪呢？原来的Nano Banana，其实是叫做Gemini 2.5 Flash image。现在的Nano Banana Pro呢，它背后的模型是Gemini 3.0 Pro image，是两个不同版本。而且一个呢是Flash，一个呢是Pro。Flash一定是比较快，出来的东西呢相对比较粗糙；而Pro的话，出来的东西就会比较笨重了，或者说比较昂贵，而且出来的东西非常非常细致和完善，它们核心的区别就在这里。

Nano Banana也是先在外边测试了很久然后才发布，这个名字也是当时他们测试的时候使用的名字。当然这一次测试呢，并没有叫纳米香蕉，这次换了个名字，因为纳米香蕉这名字你用过了嘛，好像叫GENIMG，大概是这样的一个名字去测试的。

回顾：初代Nano Banana的革命与短板

当时Nano Banana为什么会轰动呢？就是一致性的问题彻底被解决了，包括多图融合，融合以后的一致性，这个问题已经彻底解决掉了。但Nano Banana生成图片也有很多的问题：

分辨率低：也就是1024乘1024或者1K的图片。
无法处理复杂内容：你说我要写很多文字上去，这搞不定。你只能是相对来说，主体比较简单的图片可以搞定。
文字错误多：写字经常写错，甭管是写中文、写英文，经常写错，这是当时的一个问题。

但是因为它的一致性一下就得到了突破，所以呢还是火起来了。我记得当时Nano Banana出来的时候，最火的大家玩什么？就给它一张自己的照片，说：“来，给我生成一个图片，这个图片上是电脑，电脑里头呢，有我这个照片相关的3D玩偶的一个设计模型，桌子上呢要摆我的这个照片，以及呢用这个照片生成的3D玩偶的手办。要保证你电脑里边显示的模型、你的照片跟这个手办，要完全的能够对得上，这是同一个人。”他的一致性要很强，而且要不同的风格下的一致性依然很强，当时大家玩这个梗都玩疯了。

所以呢，当时很多人在玩什么？就是多张人像图片合成一个统一场景，同时呢保证一致，同一个人在多张图片里头五官、发型、服饰相对一致，或者同一个人在多张图里头保持风格统一。对于很多的用户来说，可以去轻松地制作全家福、多角色合影、连续故事分镜，都是可以做出来了，有极强的可玩性。

而且呢，Nano Banana是有相对比较强的世界知识和场景理解能力的，因为它后面的是Gemini 2.5 Flash的一个模型，所以你问它很多东西，它的基础知识是存在的，它继承了Gemini模型的语义和知识能力。这点对于像吉梦，还有像Midjourney这样的纯画图模型来说，就绝对遥遥领先了。能够跟Nano Banana去比语义理解能力的，也就是GPT image，就是在GPT-4o的基础上画图的这个模型。

Nano Banana呢，对于地理场景，比如说像地标建筑、服饰文化元素；场景，比如医生、厨师、程序员，都可以很好地去理解，而且感觉都似模似样的，或者我们叫“对齐”了——这算是大语言模型带给我们语言的一个污染，现在大家都在讲“对齐”这个词——所以它跟我们日常认知是可以对齐的。

而且呢，Nano Banana是可以做自然语言修图和局部编辑的。很多人特别讨厌做修图的原因是什么？你需要做选择，这一块是衣服，那一块是手，这一块是背景，你要拿这个线把这个后边的背景抠出来，这个是很烦的。但是Nano Banana就不需要，你只需要告诉他说：“现在请把衣服给我换成这身，请把这个鞋给我换成那个。”或者说：“请把这个瓶子上的文字给我换一下。”就可以搞定了，再也不需要上去打点勾线了。这个事儿，是Nano Banana给大家带来的非常非常好的体验。

还有一点很重要的是什么？就是低延迟、低成本。Nano Banana画图是很便宜的，他画一张图的话，调用API大概是3.9美分画一张，非常非常便宜。而且呢，因为它画的很像，在Nano Banana发布以后呢，社交媒体直接就炸了。因为社交媒体，你的社会关系要去参加到交往过程中，如果我画完了以后，这个大美女、大帅哥看不出来是谁，这个事是没法整的。Nano Banana画出来的就可以看出来是谁了，所以Nano Banana当时出来了以后直接就炸裂了，而且是出来了以后，谷歌的股价在涨，谷歌Gemini用户量在暴涨，所以这个是真正拯救谷歌的一个产品。

Nano Banana Pro：不仅仅是简单的升级

现在好了，Nano Banana Pro来了。它在Nano Banana的基础上到底加了什么？它到底是不是Gemini 3 Pro加上Nano Banana呢？首先要确定这个东西不是。为什么？因为那个Nano Banana是Gemini 2.5 Flash image，而现在的Nano Banana Pro是Gemini 3.0 Pro，所以它们是完完全全两个不同量级、不同版本的模型。

首先，Gemini 3 Pro就是比Gemini 2.5 Pro要强很多很多的一个模型，它在推理上强的没朋友。你在这样的一个基础上去做绘图的话，那一定也是会强到没朋友的。而且Gemini 3跟Gemini 2.5还有一个很本质的区别是什么？就是它是原生多模态。它直接把图片、视频这些东西通通一把训练进去了，在最一开始的时候就训练进去的。

Nano Banana Pro是复用了Gemini 3的多模态和推理骨干。你用Nano Banana Pro画图的时候，不是上来就画图，而是说我要先搜索一下，然后我要推理一下。你可以把整个推理的过程都拉出来看，他要先画几张，画完了以后自己在那改，改完了最后出了一个他觉得还可以的结果。因为整个的推理的过程中是有图片生成的，有图片的参考，你甚至可以告诉他说：“去给我参考一下哪个哪个车，给我画一个拆解图来。”比如说我有一辆大行D9的折叠车，我说：“你给我画一辆大行D9的折叠自行车的拆解图。”夸夸夸给我画出来了。我说：“你这个车架画错了。”然后又给我画，画的还是不太对。我说：“你这样，我说你去网上搜索一个D9的图片去，然后再给我回来画。”回来就给你画对了。他就可以干这样的事情。

咱们今天讲的东西呢，都是纯语言描述，我就不跟大家去做案例了，大家自己去试，这个成本非常非常低。所以咱们今天呢，还是主要讲它的原理。Nano Banana Pro是叠加了搜索和推理的一个绘图，它当时的测试的名字叫Gempix 2。所以呢，更准确的说法不是“Gemini 3加上Nano Banana等于Nano Banana Pro”，应该是Nano的Banana Pro是Gemini 3 Pro的大脑，加上新一代的高端图像的头，并不是简单的这种拼接。

绘图能力对比：Pro版本强在哪里？

咱们先看看它的画图部分怎么样吧。在这儿跟大家确认，它在艺术性上依然是没有办法战胜Midjourney的，Midjourney在这块还是当仁不让的王者。但是Midjourney对于物理的理解、对于整个语言的理解，是没有Nano Banana Pro好的。但是咱们就说氛围和艺术感这件事，Midjourney是老大，谁都超不过它。

不考虑推理和搜索的情况下，Nano Banana Pro跟Nano Banana比起来到底是强在哪？

1. 分辨率和细节极大提升

Nano Banana也就是1K，1024*1024这么大的一个分辨率，而且呢，它呢主要用途是画头像、画这种社交媒体插图、画缩略图。而Nano Banana Pro的话，是可以支持1K、2K、4K等多档的输出，你可以输出一个很高分辨率的图片出来。特别是在4K模式下，你做UI设计稿、做产品渲染、线条比较多的这种信息图，细节很清晰的图片呀，上边的细节清晰度会明显的提高。对于需要二次剪裁或者排版的这种专业场景，是相对来说比较友好的。所以我Nendo Banana用了一段时间，我后面不用了，因为它出的图实在是没法使，但Nano Banana Pro是没毛病的。

2. 文字渲染能力显著增强

Nano Banana虽然也能写字，甚至也能写中文，但是字多了它会写错的。而且多语言，你比如说阿拉伯语、中文，特别是花体或者很复杂的一些字体，你要去要求他写的时候呢，会给你写成一塌糊涂。但是Nano Banana Pro就没有这个问题，我测试了，让他写一篇的字都没毛病。甚至有人测试什么呢？你在上头给他出一道题，然后呢他就生生的把这个题和整个题的解题步骤和结果全都给你画在图片里。我做了一个测试是什么呢？我前面跟土拨鼠一起跟大家去做过视频，讲解中国的“土基熔岩堆”。我说：“你给我画一个示意图，做一个土基熔岩堆出来。”我给他上传了一个我的照片，说：“你按照宫崎骏的风格，去给我做一个土鸡熔岩堆的讲解，哪一块是什么样的功能，进去什么、出来什么。”画的非常好，一个页面上应该有几十个字，甚至上百字，都写的非常非常好。我也尝试过一些这种花体字，原来我经常用吉梦去做这种叫创意字体，我把吉梦的提示词直接扔到Nano Banana Pro里边去，效果呢我觉得没有吉梦好，但是已经可以做各种各样的花体字了。但是拼中文，现在它距离吉梦还是稍微有一点点小差距。

现在呢，很多人拿这个Nano Banana Pro是干嘛使？直接做这个PPT。按道理说，我们应该是PPT里头写字，然后拼图，然后再排，这是一个完整PPT。现在不需要了，你直接告诉他说：“我要画一页PPT，要写一个什么样的东西。”比如像刚才我讲土基熔岩堆“土变油”的过程，给你写好了。而且你告诉他要宫崎骏风格，给你画出来了。甚至我后来又提了一个要求，我说：“给我把PayPal黑帮里头这几个老大之间的关系是什么样的，以及他们跟现在美国政府之间是什么关系，给我画出一个示意图来。”咔咔给我画好了，上面有彼得·蒂尔、埃隆·马斯克、杰里·万斯，头像全给我画上了，效果好的一塌糊涂。上面一开始写的是英文，后来我说：“你给我写成中文。”然后把谁原来在Paypal里是什么职位，现在Paypal黑帮里他是一个什么样的位置，比如彼得·蒂尔就是黑帮教父这样的一个位置，JD Vans跟他们是什么样的关系，全都给我写好了，非常漂亮，而且把所有人的头像给我画上了。你甚至可以要求他换什么风格的头像，都给你画的好好的。这一次就可以生成一个完整的PPT页面，不用再去做各种各样的调整，一句话搞定。怎么说呢，对于工程师来说足够使了，所以属于补上设计师最后短板的一个工具。

3. 多人物、多图片编辑和一致性更强

原来Nano Banana的话，出个可能四五张图、五六张图进去还是可以搞定的。现在的话，可以一次塞进去十几张图，一次上了14个脑袋，这个事儿有的人也是成功了，但是有的时候有问题，但是它正常6个脑袋是没毛病的。

4. 控制力更强

相机的角度、俯拍、仰拍、广角长焦，光线的效果，局部遮罩，比如只改脸、只改衣服、只改背景，图表、UI、信息图的这种结构化编辑，这些东西你都可以搞定。咱们说了这么多意思是什么？就是你一次可以写很多很多的文字进去，它一次允许我们写64K，就是64,000个TOKEN进去，它会很好的服从这64,000个TOKEN的指令，把你说的这一大堆东西都给你做出来，而且保证你最后画出来的东西是一致的。

5. 一致性和稳定性更强

由于背后挂着Gemini 3 Pro的多模态的骨架，所以呢，它是可以进行多轮对话的。它在多轮对话的修改过程中，可以生成同一风格的画面，这个过程是非常稳定的。你不会说：“给我改点什么东西。”改完了以后呢，你想改的没改对，没想改的地方竟然给改的乱七八糟。他不会干这个事，保证你想改什么改什么，整个的风格不会发生变化，你不想改的地方绝对不会发生改变的。所以绝对是生产力工具这东西。

训练揭秘：思考后再出图的黑盒

那你说这玩意咋训练出来的呢？谷歌对于Nano Banana以及Nano Banana Pro的训练细节呢，基本上啥也没说，用相对文明一点的话说，叫“公开的很克制”。主要讲的就是共享了多模态的主干，就是我训练大模型的时候，我就直接是用多模态的方式去训练的。它的Nano Banana系列呢，就已经不再是一个孤立的图像模型了，它后边是有Gemini多模态主干的这个图像头的。它的文本指令、世界知识、场景理解是由主干来处理，处理完了以后，再用处理好的结果再去画图，他是这样的一个工作方式。

而且呢，他们在训练的时候使用的叫联合训练和多任务目标。就是在通用图片生成的基础上，加入：

角色一致性任务（前后两张图片中的人物保持相似）
多图融合任务（也就是多张输入的图在单一的一个场景里边进行输出）
编辑任务（就输入图加修改指令）

还有这三个任务是同时进行训练的。很可能通过额外的损失函数和特殊数据集成和特殊数据集来强化这些能力。但是数据集这一块呢，反正谷歌就写了一个官话，说：“我们使用合法途径获得的开放数据集，以及人工标注数据集来进行训练的。”具体使用的什么数据集，他也没说。

Pro在这块呢增加了什么？就是思考后再出图，以及搜索增强。Pro版本强调在生成前有一轮内部的规划和思考，对于教育插图、历史场景、信息图，支持输入Google search作为知识矫正，你可以要求他去搜索。我看很多人这几天在画李白坐在桌边，跟穿着唐装的哆啦A梦一块喝酒对诗，他是可以知道哆啦A梦长什么样，也知道李白长什么样，还知道唐装长什么样，让他们一点都不违和地坐在那去写诗。

安全评估和红队测试呢，谷歌肯定也是做的呀，因为谷歌嘛，毕竟还是一个大企业、上市公司，你要是在这块犯错误的话，会有些问题的。但是它主要做的是什么呢？就是暴力、色情、仇恨、政治敏感内容，在这一块呢，做了重点的过滤以及红队测试。这会体现在某些指令明明技术上做到，但是呢给你的反馈是拒绝或者是模糊响应。不过我现在输出的各种图片还都比较正常，我没有让它测试一些比较奇怪的东西。所以呢，Nano Banana Pro在学习上呢，是一个完全闭源的，并没有告诉大家具体是怎么做的。现在我们能够看到的呢，都是总结了谷歌自己公开的一些很克制的信息，总结出来的一个结果。

版权与安全：更宽松的策略

我刚才讲到的一些提示词，大家听到有什么问题了没有？我要用宫崎骏的画风去画一个土基熔岩堆，要画埃隆·马斯克、彼得·蒂尔、杰里·万斯这些人的头像，后面我还让他画机器猫，他也给你画出来了。大家觉得是不是有问题了？

Nano Banana Pro对于风格和人物肖像这一块，是要比GPT image要松很多的。就是刚才我们讲的这些内容，你让GPT去画，好多它是画不出来的。它会告诉你，万斯现在是美国总统，他属于叫敏感政治人物，我不给你画。宫崎骏风格的不给你画。你说吉卜力工作室，他有可能给你画，但是你要宫崎骏风格，他就不给你画。现在吉卜力工作室还在起诉OpenAI，官司还打着呢。但是谷歌说：“没事，我都给你画。”机器猫呢，它属于有这个IP的品牌形象，你画了机器猫，甭管你画成什么样，实际上都属于侵权。但是谷歌说：“我就给你画了。”这一点其实做的一点都不谷歌，以前这个谷歌在这一块是要比OpenAI还要严苛的，现在直接就放松了，随便玩去。

我去问谷歌的Gemini 3 Pro，你们为什么干了这么一件事呢？他给我的回复是什么呢？“我们现在呢，是用了更深层次的安全措施。一方面呢，我们提醒你了，所有遇到版权问题你自己去应对，跟我没关系。”所以如果以后有人说，你怎么用了宫崎骏风格，他会直接把这个东西扔给创作者，而不是自己来承担这个责任。第二方面呢，他会去判断，你让马斯克坐在这喝咖啡，那是允许的；你让马斯克去做一些很奇怪的事情、有侮辱性的事情，他就不允许了。所以呢，他说我们不会在前向直接禁止你，而是会在后向看看你的意图是什么。你想做一个深度伪造，你想去骗人，还是想要去侮辱这个人，这些我们就不做了。但是如果你只是想要一个马斯克的头像，我们就给你做了。至于说机器猫的头像，因为我们比如做完了以后，也是会发到Twitter或者发到YouTube上，他就是说你发上来了，最后我来处罚你的YouTube作品就完了，我就自己不承担这个责任了。

这个是谷歌这一次采用的安全措施。OpenAI是反过来的，OpenAI是前置合规，就是你只要提名字，我就不给你画了。OpenAI呢，其实前置跟后置他都做。有的时候你让OpenAI给你画图的时候，他会先画，画完了以后，你看这图已经出到百分之七八十了，然后突然告诉你说：“对不起，我审核了，你这事有问题。”咔，给你把图删了。我遇到过几次了，所以我现在已经基本上不再使用OpenAI画图了，我现在画图基本上是Midjourney、吉梦和Nano Banana Pro了。

价格不菲的“Pro”体验

既然叫Pro了，有一个很重要的问题是什么？贵。它叫Pro了，一定比原来的这个叫Flash的要贵很多。刚才咱们讲了Nano Banana，也就是Gemini 2.5 Flash image，它画一张图是3.9美分，基本上是4美分的样子。而这个Nano Banana Pro画一张图是多少钱呢？

1K或2K的图：13美分一张，这个就要贵很多了。
4K的大图：24美分一张。

它要比咱们使用的GPT、使用的Midjourney、吉梦都要贵很多。吉梦是最便宜的，吉梦大概画一张图出来2K的图片不要钱，4K的也很便宜，可能就是几分钱人民币，换成美分就是零点几美分。Nano Banana Pro非常非常贵，大家画图的时候一定要小心。

如何使用Nano Banana Pro？

我们怎么拿Nano Banana Pro去画图呢？

免费用户：在Gemini.Google.com上就可以使用了，但是呢一天只允许画3张。你在APP上画也是可以的，Gemini APP上一天只允许画3张。
Pro用户：大概一天是可以画个几十张，有时候是100张，他并没有给我们一个特别明确的数据，还是要看服务器忙不忙，服务器不忙就多给你画几张，大概是这样的一个情况。因为我的Gemini账号呢，是拿我儿子的edu邮箱注册的Pro账号，可以免费使15个月的Pro账号，所以呢我现在是可以在Gemini网页或者是Gemini APP上开开心心的画图的。

那你说画超了怎么办？画超了以后就给你降级，降级成Nano Banana，就没有那个Pro了，你就会快速地得到一张比较粗糙的图，大概就是这样的一个情况。

那你说我怎么开启Nano Banana Pro的绘图呢？很简单。

你要在APP或者是Gemini.Google.com上选择“思考”，一旦选择“思考”了以后，你就进入Gemini 3 Pro的这个思考模式了。
然后呢，你再去添加工具“绘图”，上头画了一个香蕉，你就进入了Nano Banana Pro的绘制方式了。

你如果一开始选的是Gemini 2.5 Flash，你再去画图的话，就是Nano Banana，就没有这个Pro了，所以这块大家一定要注意。

那你说，我在AI studio.Google.com里去画行不行呢？也行，但是要注意这个里头呢，有一些跟以前不太一样的地方。很多的谷歌模型，甭管是Gemini模型还是画图的模型，我们都可以在AI studio.Google.com里边去使用，但是使用Nano Banana Pro之前要去给它设置一个API key，不设置的话它是不让你用的。而且设置API key还是挺麻烦的，你要先去里边创建一个project，先创建一个工程，然后在这个工程里头再创建一个API key。到这还不行，还要给API key挂支付，没有支付的API key，它是不允许你使用的，必须有支付。

那你说我是不是在这个AI studio里头每画一张图都要钱呢？也不是。现在有人测试呢，是画了三张以后要求你开始付钱，13美分一张或者是24美分一张。也有人呢是测试了，可能能够免费画个十几二十张，甚至有画到50张以上才开始收费的。我估计还是跟服务器的繁忙程度有关，服务器不太忙的时候，你可能一天还是可以在上面画个十几二十张的；服务器忙的时候，画3张然后从你的API key里边扣钱。

但是有一点我们要注意是什么呢？在Gemini.Google.com里边画出来的图右下角是有水印的，它里有一个菱形的Gemini的logo的水印在上头。而你在AI studio里头，就是你自己花钱13美分一张也好，24美分一张也好，是没有这个水印的，那个图是比较干净的。那你说我是不是就直接可以用AI studio或者直接用API把这个图画出来，就可以冒充是真实图片了呢？不行的。因为这个里边呢还有水纹。水纹是什么？就是你在外面你看不着，但是呢，你可以把这个图片扔给Gemini，问他说：“这个图是不是你生成的？”他是会给你进行精准判断的。所以只是在外表看不出来而已，在里边还能有这个痕迹。

所以大家如果想画图的话，最简单的方式，如果你不太在意这个水印，就是这个菱形的标的话，就是去开这个Pro账号。特别是你如果有edu的邮箱，你去开那个，可以开开心心的使用的。至于你说：“我没有EDU邮箱怎么办？”有一个APP叫咸鱼，或者你到淘宝的网站上，你问问别人有没有办法来解决这个问题，也只能讲到这了。如果你说：“我就想用没有水印的图片。”那您就老老实实地交钱就行了。

结语：设计师的天又塌了？

好，这就是咱们今天讲的Nano Banana Pro。现在设计师，特别是平面设计师的天，又一次塌下来了。像我这种工程师直男，现在也可以开开心心地去做各种界面设计、做各种的PPT设计、什么信息图表设计，效果好的一塌糊涂。我们今天没有给大家做任何演示，请大家自己去尝试，以我刚才说的这些提示词自己去试就完了，也没有那么严谨，你说的跟我稍微有些差异都没有任何问题，我相信Nano Banana Pro会震惊你们的。

好，这期就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友参加我们的付费频道，再见。

Gemini 3 Pro对决GPT-5.1：理科状元与全能大师终极一战，谁在定义AI的下半场？｜Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

Luke Fan — Thu, 20 Nov 2025 00:43:05 +0000

Gemini 3终于发布了，这一次是真王炸了吧？

大家好，欢迎收听老范讲故事的YouTube频道。

千呼万唤始出来：Gemini 3的发布背景

2025年11月18日，谷歌Gemini 3 Pro Preview版本就这么上架了。为什么要用这样的一个词，“就这么上架了呢”？因为第一，它是千呼万唤始出来。大概从10月份开始，大家就开始传说，谷歌要开始上Gemini 3了。传来传去始终也没上来，到11月份说这个月肯定上。我还听说过是11月22号上，还听说过最晚12月份上，大家一直在等待这样的一个产品。

跟它一起传的还有另外一个产品，叫Nano Banana 2。因为上一次谷歌引起大家关注、引起大家去下载和使用的产品呢，就是Nano Banana 2，这个生图和改图的模型。这一次说Gemini 3跟Nano Banana 2一起来，而且都在进行测试，甚至很多人信誓旦旦说我用到了，我已经看到了。谷歌从Nano Banana一开始，就采用了一个很奇葩的玩法，就是在大模型发布之前，先给它们起个名字，隐姓埋名，跑到其他的这种测试平台上去测试去。大家觉得这个名字很奇怪，不知道是谁，测完了以后发现巨好，这是不是Gemini 3？那个生图模型是不是Nano Banana 2？大家都在猜这种事情。

巨头争霸：你方唱罢我登场

Nano Banana 2还没有发布，据说是在这个月或者下个月要发布。但是Gemini 3就这么直不愣登就来了。在用户们剥离层层迷雾，寻找Gemini 3和Nano Banana 2期间，其他的大模型厂商也在争先恐后的发东西，比如说GPT-5.1、GPT Atlas（也就是OpenAI的浏览器），还有Grok 4.1。这回是不是真的要来了？为什么会有这样的猜测？因为这帮大公司就跟小孩似的，特别喜欢截胡别人，我要先几天给你发布了，把你这个热点给你抢下去。最爱干这种活的是OpenAI。只要是谷歌说明天开谷歌I/O了，要开大的发布会了，他一定在这个前面一两天给你整点事出来。最有名的是在去年谷歌I/O之前的一天，OpenAI发了GPT-4o，一下就把大家震惊住了。

这一次的话，Gemini 3之前发布的非常接近的一个产品是谁呢？是Grok 4.1那个产品，也是非常神奇的一个产品，有机会再跟大家细讲。那你说这大公司，他就不能保个密吗？这真没法保密。你要开发布会，要租场地，要动用公关公司，有多少资源在这折腾，所以你是没有办法保密的。即使是你说我不开发布会，我就是偷偷的直接上线了，甭管是谷歌的人，还是Grok的人，或者是OpenAI的人，大家原来都是老同学、老同事，你想瞒真瞒不住。所以在他们的这个圈子里头，是没有什么秘密的。

发布前的“小插曲”

在等待Gemini 3期间，我们还遇到了对AI泡沫的质疑，大空头来做空来了。我们还遇到了巴菲特加仓谷歌，因为他原来不怎么买这种科技股或者是互联网公司的。巴菲特原来持仓里边，最大的科技股就是苹果，其他的像什么谷歌这些公司，他基本上不买的。突然减持苹果，大规模加仓谷歌，而且是在巴菲特退休之前的最后一单，说巴菲特是不是老爷子知道点什么了。

新的发布潮流：不开发布会，直接上线

就在这样的氛围下，谷歌就突然发布了。而且它的发布没有发布会，这也算是一个新的潮流吧，就是不开发布会，直接写一篇长文，或者写一篇博客，然后产品就直接上线了。这个是最近这一两年里头，突然流行的一种新的玩法。现在的产品发布都是什么呢？第一步，先隐姓埋名，跑到其他的，比如像Open Router这种大模型平台上面去进行测试。等这个传的满城风雨了，啪，一篇文章扔出来，产品就上架了。

Gemini 3 Pro Preview 在哪里可以使用？

现在这个产品可以在哪用呢？

第一个是AI studio，大家上aistudio.google.com上就可以使用Gemini 3 Pro了。大家注意，它是Gemini 3 Pro Preview，它后边有Preview这个单词，所以未来这个产品应该还会进行快速的迭代，所以有什么做的不太合适的地方，请多担待。
第二个，Gemini的网站也可以直接使用了，就是gemini.google.com上，现在也可以选择Gemini 3 Pro Preview这个版本了。但是呢，它的客户端上，Gemini的APP上还不能使用。
另外呢，他们还发布了一个IDE，这个IDE呢叫Anti Gravity，叫做反重力，里面带的Gemini 3 Pro的这个版本，大家可以拿它去写程序了。

这次是真王炸了吗？大模型差异的感知难题

这次是真王炸了吧？是不是比别人都遥遥领先很多呢？大模型的差异，想要让人有感知，已经越来越困难了。就像是两个人站在你面前，一个人是高考状元，另外一个人呢是高考第二名，你能够通过聊天的过程，把他们俩谁是状元分别出来吗？你分别不出来的。所以现在的大模型，他们的智力已经在很多方面远远超越人类了。所以我们再想去评估说哪个大模型有一定的差异，非常非常困难。

很多国内的大模型发布了半天，吹了半天牛，大家为什么没感觉呢？比如像什么GLM 4.6、千问Max呀、Kimi K2 thinking或者是Mini Max M2，这些模型发出来以后说我怎么这么强，大家没感觉，因为你很难感受到他比别人强在哪、差在哪。虽然有跑分，但是现在大家不怎么看跑分了，跑分是比较容易刷的，我们可以刷题就可以直接把跑分刷上去，所以大家不看了。

而国际大厂的发布的话，通常还是会有体感的。比如说最近发布的GPT-5.1，它要在5.0的基础上多了这个点一出来，确实是更人性了一些，说话不再那么愣了。Grok 4.1情商更高，在所有的跑分里头，马斯克的Grok 4.1是情商跑分最高的。而Gemini 3 Pro绝对是理工科学霸的感觉，在推理这一块，它遥遥领先超过其他所有人了。

Gemini 3 Pro Preview：核心特性一览

分数呢还是要跑的，在很多的跑分方面，要比GPT-5.1、比Grok 4.1、Claude 4.5都要强非常的多。它最关键的领先就在于推理能力，真的是遥遥领先。

Gemini 3 Pro Preview到底有什么新特性呢？

超强推理：待会咱们就主要讲这个超强推理。
原生多模态。
开发者跟企业非常友好：它主要是给程序员和理工科的人去准备的。
原生的工具支撑：待会咱們去讲什么叫原生工具支撑。
速度飞快：这个挺难想象的，跑的比原来的模型快好多。

深入解析：Gemini 的推理能力进化之路

那么Gemini的推理到底是怎么进化到现在这个状态的呢？首先看跑分，他们使用了一个叫LMArena Elo的一个跑分，这个跑分呢大于1500分了。这个非常非常关键，是人类做大模型第一次超过1500分，它大概是1501分，从来没有其他大模型超过1500分。那什么意思呢？

1000-1200分：入门级会答题了，但是呢逻辑是很容易崩的。
1200-1400分：中级的，有一定的推理能力。
1400-1500分：强者，接近当代顶级了。
超过1500分：进入超强推理者级别了，明显比普通强者要更稳定、更强的一个状态。

现在呢，GPT也好、Claude 4.5也好、Grok，包括国内的这些模型呢，一般都是在1480-1490之间晃悠，但是很难超过1500。而这个Gemini 3 Pro是第一次超过1500。

推理范式的演进

谷歌的推理范式到底是怎么一步一步走到这的呢？所有这些推理模型，第一步走的都是叫链式推理，先干什么后干什么，这叫链式推理。从链式推理再往前发展的叫树状推理。我除了先干什么后干什么呀，我可以分叉了，我走到某一步搜索完了一个结果以后，我是不是可以一下分出5个X来，把这五个分支都处理掉，这叫树状推理。树状推理再往后呢，叫图状推理。这个有什么区别呢？树是只允许分叉，不允许合并的，走到每一个节点只能是越分越细，你不能说我走着走着再把它合并起来。你如果说走着走着又合并起来了，还可以进行反复的去确认，正向走逆向走都可以了，这就是一个图状推理了，这就更进一步了。而最后一步是什么？就是在图的每一个节点都进行工具调用的这种推理。谷歌呢，现在Gemini 3已经走到这一步了。

像刚才咱们甭管是链式的，它也是很多个节点，先干什么、后干什么、最后干什么，这是每一个节点里头正常情况下它是不调用工具的。它都是说我自己先想明白了，最后我把整个都想清楚了以后，我们再去调用工具。或者说我一开始先调用一次工具，比如说我搜索了或者读文件了，读完了以后我再去推理，它是这样来工作的。树状推理呢也是这样的，在每一个节点，我都是在大模型内部使用，或者说我根据你提供的上下文去干活，最后给你一个结果。如果要调用工具的话，要么在开始调，要么在结尾调，一般情况下不会在推理的过程中去调用一大堆工具的。而现在谷歌说咱别费劲了，我们在每一个节点上，图节点有可能是分叉的、有可能合并、有可能正向、有可能逆向的这些节点上，我们在任何一个节点上，如果有需要，我就去调用工具了。而且我能够保证它不崩。别人不是说不想干，别人你要想在这个中间节点上调用工具，他有可能逻辑就直接崩掉了。谷歌说我们不用担心这个，我们逻辑特别强，中间不崩。这是Gemini 3这一次做出的最大的创新。

与其他模型的对比

其他几家是怎么干的呢？

OpenAI (GPT)：它从来不公开这件事，所以GPT是个黑盒子。现在呢，猜测它可能也是这么干的，但是具体是怎么实现的，OpenAI是三缄其口，这压根没说。
Claude：走的是另外一条路，Claude走的是外挂的路，它的很多的工具调用都是通过像Claude code呀、cursor或者是Claude的客户端，它通过这个东西来去调用的。所以导致什么呢？我们可以在Claude code里去换大模型，因为调用工具的部分是外置的，不是在模型里面的。所以呢，它的调用一方面灵活性提升了，但是呢，它调用模型的这个过程稍微有一些割裂。
国内（如Deepseek）：走的就是超强的这种推理链，在这个链式推理的基础上不断的往前推进，但是他们在调用工具上就要稍微的差一些。

“衡水中学”式训练法？Gemini 3是如何炼成的

Gemini 3他到底是怎么训练成这样的？我看了他的训练介绍以后，我觉得这玩意是衡水中学的老师给训练的吧？

改变工作方式：预测下一个正确的思维过程

首先呢，Gemini 3改变了工作方式。原来大模型呢是预测下一个词，我下一个词放哪个词出来是最优解，它是这样来工作的。但是呢，Gemini 3不这么工作，它的工作方式是预测下一个正确的思维过程。你就不要给我下一个词了，你直接给我一个下一个你要干嘛，然后我们来看看这个是不是最优解。所以在这块呢，就已经发生改变了。

训练数据：高质量合成数据

那你说我要想训练Gemini 3，我到底哪找数据去？数据是不是已经被大模型吃干抹净都用完了呢？谷歌已经承认了，所有的人类数据早就被大模型收拾干净了。所以这一次，Gemini 3使用的数据是合成数据。怎么合成呢？是用谷歌自己最强的模型阅读人类知识，再生成高质量的推理步骤。它直接训练的都是推理步骤，把所有的教科书、所有的科技论文都通过AI重写，生成训练数据。大家注意，这个里头有两个关键词，第一个关键词叫“所有”，谷歌基本上是可以认为它有所有的信息的，他把他能够找到所有的信息都塞进去了。第二个关键词叫“重写”，我们写的很多论文也好，或者是很多教材也好，为了让人类可以很好的理解，或者说为了抖个机灵，里头还有非常多的修辞，有非常多的人文的东西在里面，比较啰嗦的东西在里面。他通过重写把这玩意全去了，变成非常非常原始、非常简单的这种推理步骤。你如果遇到这样问题应该怎么推，遇到那样问题怎么推，他是拿这种数据去训练的。

原生多模态：Video + Code 配对

而多模态的话是原生对齐。怎么个原生对齐法？原来咱们也号称是各种多模态模型，是用图片跟文字去配对的。就是这是一张图，后边呢是一堆文字，我们把这个东西堆到大模型的数据里头去训练，训练完了以后呢，他就可以去反应那边是一个马还是一个驴，还是在打仗还是什么，他拿这玩意去训练的。现在呢，谷歌用了一个叫video和code的配对。你给它一视频，比如说是一个小球落到地上的视频，后边呢你配的不是一个文字“小球掉地上了”，而是一个重力加速度的Python代码。他把这样的一个视频和代码的对儿放到数据集里头去训练多模态模型去了。所以呢，他的模型上来就是世界模型，他是理解物理世界的各种规律的，这个很恐怖。

训练策略：过程奖励模型

有了数据了，那下边怎么训练呢？训练策略也很重要。第一个叫过程奖励模型 (Process Reward Model)，这个是Gemini 3跟其他人不一样的。现在的大模型呢，拿了一大堆数据去给你去做预训练去，训练好了以后，这个初级模型呢要去做强化学习，让他回答问题，然后让人去纠错。Grok 4.1就属于强化学习做的特别好的这种模型。谷歌说别费劲了，人看不过来，原来都是人看着，现在咱们直接派一个模型看着。他专门训练了一个找错的模型，让他去看着Gemini 3这个预训练模型去做后续的强化学习，然后呢是由人去监督这个找错的模型，看看他工作的状态行不行就OK了。真正底下干脏活累活的已经变成大模型了。针对推理步骤进行评判，即使结果是正确的，只要中间步骤有错误，通通打回去重来。这就是为什么是可以做推理冠军，就是这样了。你做题做到10步的过程中，必须每步都对，然后得出正确答案，我们才认为你是真的学会这道题了。你说我推了中间有三步是错的，但我答案是对的，对不起，从第三步往后通通都没分了。他是这样来控错的。所以我说为什么这个训练过程让我想起了人大附中和衡水中学这种感觉呢。

训练创新：预训练阶段即集成工具调用

在训练上呢还有一点跟以前的大模型有一个很大的区别是什么，就是Gemini 3的工具调用是直接在预训练里头做的。传统的大模型，甭管是OpenAI的，还是Anthropic或者是国内这些模型，他们都是先把模型训练好，然后呢通过强化学习再把工具调用，哪个地方该搜索了、哪个地方该读什么文件了、哪个地方应该去调用哪个工具了，再往后边再去加进去。Gemini 3它是在预训练的时候就直接把这些搜索呀、调用工具呀这些东西作为初始数据就给训练到模型里去了。这也是为什么谷歌的Gemini它可以在推理的任何一个节点上去进行工具调用，而别的大模型干这事就比较费劲，因为他们都是先做好基础后训练出来的，这个事就比较难了。这就是Gemini 3训练的一个创新点吧。

为何如此之快？揭秘Gemini 3的速度奥秘

那你说为什么Gemini 3这么大的模型还飞快呢？它叫Gemini 3 Pro，它不叫Gemini 3 Flash。过个一两个月吧，Gemini 3 Flash应该还会发布，那个时候肯定会比Pro版本要快更多。Gemini 3 Pro就已经比Gemini 2.5 Pro要快非常非常多了。原因呢几个：

硬件：谷歌自己家的TPU V6版本已经全面都装到算力中心里去了，都开始干活了，所以速度很快。而且你想他自己设计的芯片，自己做的算法，那一定是配合的紧密无间，没有任何问题。
架构优化：原来呢，这些模型都是MOE模型，叫做符合专家模型。但是现在呢，Gemini 3叫多塔MOE。什么叫多塔呢？就是你的图文、声音、视频、代码，你到不同的塔里去干活去，每个塔里还有一个专家小组在等着你呢，所以他这样速度就很快了。
投机采样：最后呢，他们使用了一个东西叫投机采样，就是用一个极小的草稿模型先快速的猜出后边的几十个词，然后由大模型一次性验证，这比大模型一个字一个字往外蹦要快非常非常多了。

全面领先？四大顶尖模型角色定位

Gemini 3现在到底算不算全面领先了呢？这么讲吧，Gemini 3 Pro就是一个理科状元加上多模态分析师的一个形象。但是呢，你跟他聊天也像是在跟理科状元聊天。你想想理科状元那个语气、语调都是什么样的，大家自己脑补一下，就知道Gemini 3到底擅长干什么、不擅长干什么了。

Grok 4.1：是互联网老司机加上自信段子手，没有什么他不敢说的，胆子比较大，情商测试第一名。你如果想找人去陪你聊天，想聊着开心，你就找这个Grok 4.1没跑，在这点上它要比Gemini 3要强很多。
OpenAI家的GPT-5.1：算是全能型创作大师加上生态整合之王。因为毕竟他是老大嘛，头一个做出来的，所以他生态整合，就是跟各种工具的结合，还是非常非常好的。而且呢，他很适合做各种的文档创作，像是一个四平八稳的文员吧。
Claude 4.5 sonnet：算是语言艺术家加上安全派哲思者，它很适合做各种的合规、企业内的这种需要进行反复验证的这种文档，它写的要比GPT-5.1还要好一点点。GPT-5.1更创意一点吧，Claude 4.5 sonnet更擅长做长篇写作、逻辑清晰、道德判断、企业合规表达。

而Claude 4.5呢原来是编程冠军，现在的话肯定要经受Gemini 3的挑战了，到底哪个好使哪个不好使，要过几天再出结果。

至于国内的大模型呢，还在努力追赶吧。国内大模型的唯一优势就是开源，巨大的模型开源呢，你们拿愿意拿回去自己折腾都没关系。

总结

最后总结一下：

今天的内容全部是Gemini 3 Pro整理生成的。如果哪说错了不要骂我，去骂Gemini 3 Pro。
第二个，我其实呢并不喜欢用Gemini 3 Pro，今天用了一天，原因也很简单，跟理科状元聊天还是有点累的。
AI还在快速的发展，Gemini 3真正的价值不是说它给我们训练出了一个理科状元，而是提出了一套新的方法论，怎么能够训练出一个理科状元来，这个是非常非常有价值的。有卡的公司就可以照着这个思路去尝试了。
至于没卡的公司怎么办，那就是另外一回事了。希望这一轮对AI泡沫的质疑可以快一些过去吧，Gemini 3 Pro确确实实是可以解决很多原来无法解决的问题的。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。