Gemini 3 Pro – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

Luke Fan — Sun, 14 Dec 2025 00:54:07 +0000

GPT-5.2我已经用了两天了，效果到底怎么样？

大家好，欢迎收听老范讲故事的YouTube频道。

GPT-5.2：应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的，它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5，我们记得是有三年，但是在这之前，OpenAI已经苦逼了好多年了，所以这是OpenAI自己的十周年生日礼物。这个产品，应该是应对谷歌的Gemini 3 Pro的一个紧急版本，是在GPT-5的基础上进行了调整和训练得到的，更加注重长时间推理结果，结构化的输出更像系统，也就是更不像人。这个东西很多指标都遥遥领先，当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点：输出质量显著提升

用了两天了，我自己使用的感受是什么样的？输出的结果确实要比GPT-5.1要好很多，它的输出结果更全面、更准确，而且输出的结果整个的排版格式也是非常舒服的。

缺点：速度极慢与应对策略

但是，好慢好慢好慢！重要的事情说三遍，这个东西真的是很慢。当然，也有可能是新版本刚发布，用的人很多，但确实是慢，让我把默认的thinking模式都给取消了，改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出；如果是直出模式的话，就是不判断，直接给结果就完事了。当然了，我还有一个方式来应对速度，就是在GPT旁边再开个豆包，豆包是相对来说要比它快很多的。

恼人的上下文处理异常

另外，有一个让人使得很不爽的地方是什么？就是GPT-5.2的上下文处理经常发生异常，经常有一些很诡异的表现。什么意思？我们在一个对话里聊天，你前面问了一个问题，七嚓咔嚓给你答了一大堆，你再问下一个问题的时候，他经常把上一个问题已经答过的这些内容，又给你稀里哗啦地给你挂上。

你比如说，你前头问了123三个问题，给了你一个答案，然后你再问456三个问题，他会先总结一下前面123的三个问题的答案是什么样的，然后456这三个问题的答案是什么样的，他会给你这样的一个结果，让我自己看起来觉得有些奇怪。

所以，如果大家要去问新问题了，最好要开启新话题，不要在原来的对话里头一直聊下去，因为他会把前面的所有聊天内容通通放到新的对话里边去进行思考的，会影响我们答案的质量。因为我试过几次，当我突然在一个对话里头问了他一个不相干的问题的时候，他也是会把前面我们整个对话的内容再给我回顾一下，然后我后面的这个结果会严重地受到前面问答结果的影响。所以，你要问一个不相干的问题，就开个新窗口或者打开新话题。

图像能力：推理增强，生成不变

图片的推理跟分析确实是增强了，但是生成的部分没改。

本视频的全部内容都是由GPT-5.2完成内容整理的。这是最近我的一个新习惯：讲Gemini 3 Pro的内容，就完完全全用Gemini 3 Pro生成；讲DeepSeek V3.2的内容，就完完全全由Deepseek V3.2生成；讲GPT-5.1、5.2的内容，咱们就用GPT-5.1、5.2来生成。也是让大家有一个真实的体会。

性能揭秘：深度解读新指标GDP val

很多人说不对，GPT-5.2出来了以后，各项指标遥遥领先，都领先了Gemini 3 Pro了，按照我刚才讲的这个过程，怎么好像各有春秋的样子？

选择性公布的领先指标

怎么说呢？GPT-5.2的很多指标其实并没有公布，他们只公布了自己领先于Gemini 3 Pro的这些指标。但是这已经是有了巨大变化了，在以前GPT发布的所有的指标里头，它只跟自己比，它是从来不跟别人比的。所有GPT、Gemini和Anthropic的Claude相互比较的这些数据，都是社区的人，或者说媒体的人给他总结的，他们自己是从来不发布的。老大要有老大的风度，我天天去跟下边人比，这事肯定是不行的。但是这一次，他发布的这些指标都是有Gemini 3的这个数据，也有Claude 4.5 Opus的数据，它们是进行比较的。但是，OpenAI只列出了它领先的这部分，不领先的部分通通都没说。

全新指标：GDP val（通用开发者生产力验证）

甚至为了领先，还设置了一个OpenAI的新指标，这个指标叫GDP val（val是小写，GDP大写）。这个指标的意思是什么？叫“通用开发者生产力验证”，它是模拟真实开发工作的一个测试体系，衡量一个模型是否真的能够提升专业知识工作者，尤其是开发者的生产力。像我才算是专业知识工作者，我确实是感觉到我的生产力提升了。这个指标设计的核心是什么？

首先，它不关心模型会不会做选择题，也不关心模型能不能背知识点。因为什么？我们现在让模型去回答问题，都是有搜索的，或者说有这个本地知识库的，不需要模型给你编任何东西，而且我们很害怕模型给你编东西，所以这个也不是考核指标。
至于是不是能够命中标准答案，这件事也不重要，你设置了一个标准答案，正好答的一个字都不差，这个事也不考核。

考核重点：从头到尾完成复杂任务

那他考核什么？

它考核的是一个复杂任务能不能从头到尾完成，输出是否可以直接用于工作。
中间是否出现致命的理解偏差？还有很多步的这种推理，你中间是不是理解错了？这个要去考核。
是否需要大量的人工返工？给我了一个结果，我还要告诉你说错了，这个地方你没理解对，那个地方我还有一个要求，这还有一个隐藏的条件你没有照顾到，这个就叫人工返工。这都属于重要的考核方向。

测试过程：模拟真实开发者场景

那它测试的过程是多步骤专业任务。举个例子，阅读一份需求文件，分析约束条件（一般需求文件里都是有各种约束的嘛），然后设计解决方案，给出结构化的输出——代码、文档或者是方案，直接是让他做一个完整的任务。任务通常包括隐含条件、非显性约束、多个正确但质量不同的解法，所以为什么没有标准答案。通常会给他一个真实的开发者场景，例如：

重构代码：我这个代码原来已经写好了，也能测试通过，但是它不符合高内聚、低耦合的代码规范，这种代码后续的维护、升级都比较费劲，你需要去进行重构，让一个函数变得小一点，让这个类有这种继承关系，让这个代码可以重用，这个东西叫重构。
补全缺失模块：我们写好了一些代码以后，或者缺几个模块，你给我写去。我提一句话，他得给我干完，不能说在中间问你一大堆别的事情，或者给你一个半半拉拉的一个结果，这事都不行。
修改接口而不破坏兼容性：经常我们会遇到什么？就是你写了一个代码，然后这个代码中间的某一个库升级了，这个库的接口就会发生变化，你需要告诉这个系统说，我现在接口变了，你现在去给我调整代码，让他重新给我兼容上去。这个也是GDP val的测试用例。
在限定的规则下修复问题：这个也是我们在写代码的时候经常会遇到的一个很痛苦的事情，你说出错了，他有时候没把你要求的这个地方修改掉，还把其他很多地方给你改的乱七八糟的。现在你可以告诉他说，你就给我改这几个地方，别地儿别动，他会给你去处理。

长上下文任务考核

而且会去做这种叫长上下文的任务，就是输入信息很长，包括无关信息和干扰信息都会输进来，要求模型自行判断哪些重要。考核的话就是上下文的理解能力、信息筛选能力、工作记忆的这种稳定性。但是这一块我觉得还有待提升，因为刚才我也讲了，你在这个很长的聊天过程中，如果突然问他一个很跳跃性的问题，他会搞乱掉的。这一块那你说到底是怎么更好一点？应该是允许他在工作过程中开个小差、聊个天，还是说你在工作过程中就认认真真干一个工作？反正各有取舍。

评分机制与核心要求

那评分机制是什么样的？人工评审。这个任务是否完成？是否存在关键错误？是否可以直接使用？决策是否合理？是否在边界条件下崩溃？最后这个是非常非常重要的，因为我们让AI去干活，他经常会只照顾到比较普遍的这种情况，但是一些边缘的情况就会照顾不到。这个评审是要求你都要照顾到。

在这些条件里头，最重要的是什么？一次完成。不鼓励反复追问、人类手动修正，更看重的是一次性给出可以交付的结果。所有这些文字都是GPT-5.2直接输出的，一个字都不带差的，大家看它交付的结果还是相当可以用的。明确区分部分完成和可交付，部分完成是属于不合格的，接近正确是没有价值的。

要被严重扣分的行为是：

逻辑正确，但是漏掉关键约束；
方案可行，但是忽略明确要求。

GDP Val的意义与得分情况

GDP Val的意义是什么？就是企业用户、AI agent的系统自动化流程、专业知识工作者，特别是开发、分析和研究的这些人，主要是给他们用的。至于你说我要娱乐一下、我要陪伴一下、我要跟他聊个天，这都不是给你用的。GDP Val不是在测模型有多聪明，我们也不需要它有多聪明，而是在测你把工作交给他，第二天能不能直接交差。这个是主要测试的目的。

得分的话，各模型表现如下：

GPT-5.2：70.9分
GPT-5.2 Pro：74.1分
Anthropic Claude Opus 4.5：59.6分
Gemini 3 Pro：53.5分
GPT-5.1：38.8分
GPT-4：18.6分

我觉得GDP val的指标还是非常有效的，现在我让GPT-5.2去干活的时候，拿出来的东西是基本可以直接用了，这块确实有很大提升。

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

Gemini 3 Pro发布的时候，号称领先的LM Arena的那个指标，1,501分的那个指标，这是第一次超过1,500分，有史以来第一回。这一个指标上，GPT-5.2超过了吗？首先跟大家讲，GPT-5.2这一次发布的时候就没有公开这个指标，它只公开自己领先的指标，所有不领先的指标都没有公开，所以GPT-5.2应该是没有超过。

重要澄清：GPT-5.2不是Garlic

特别强调一点，GPT-5.2不是garlic。很多的文章在说garlic发布了GPT-5.2，注意，不是。大蒜模型从来没有被验证过，也没有在任何的匿名竞技场里头出现过这个garlic模型的名字，是从内部意外流传出来的。但是Garlic模型到底应对的是哪一个版本，这个现在不确定。但是所有说GPT-5.2是garlic的，都属于是产生幻觉了，甭管是人产生的幻觉，还是AI产生的幻觉，这个事本身并不重要。

匿名参赛：Robin与Robin high

GPT-5.2自己有没有参加LM Arena的这个竞技场？参加了，他也去做了这个评分了。但是LM Arena这个竞技场里边都是匿名的，当时Gemini 3 Pro进去的时候也是匿名的，GPT-5.2进去肯定也是匿名的。它在这个里边有两个模型：

Robin：测试的评分是1,399分（Gemini 3 Pro是1,501）；
Robin high：这个模型有可能是GPT-5.2 Pro，就是那个贼贵贼贵那个模型，它的测试结果是1,486分，也没有超过1,500分。

所以这一次，OpenAI就没有列这个成绩。现在普遍认为这个Robin就是GPT-5.2，Robin high应该是GPT-5.2 Pro。

LM Arena vs GDP val：评测标准有何不同？

这个LM Arena，它叫人类偏好测试，它是由真人用户直接投票来产生的。大模型匿名参加，谁也不知道谁是谁，但是其实你说匿名，也没有那么严格，大家都能猜出来具体哪个是哪个。他的测试过程是什么？就是用户输入一个真实问题，随机抽取两个模型，不显示模型的名字，同时返回两个答案，由用户来投票。那评分的方式是每个模型上来初始分1,000分，赢了比较强的模型加分——这个里头要注意，不是赢了就加分，是赢了比较强的模型才加分——输给比较弱的模型减分。它这个过程有点像打游戏，我们经常在游戏里头需要进行配对，你现在要跟谁去做PVP了，他也会去找一些跟你的排名差不多的这些人。

他这样的评测主要强调什么？是回答是否有用，逻辑是否清晰，表达是否自然，是否符合人类的直觉，多轮对话的舒服程度到底怎么样。它不强调哪些东西？是否背过某道题，是否命中固定答案，是否针对benchmark专门优化过，这个通通都是不重要的。所以“小镇做题家”在这里头是搞不定的，包括上面OpenAI自己做那个标准，也是搞不定的。

Gemini 3 Pro得分1,501，GPT-5.2 Pro得分是1,486。但是都叫Pro，差异很大。Gemini Pro它的价格还是相对比较便宜的，也比较快；而这个GPT-5.2 Pro贼贵，没有太大的必要，千万不要去尝试，非常非常昂贵。

GPT-5.2的定位：到底强在哪里？

它是消耗了更多的算力，直接获得能用的结果。更慢、更贵，但是结果基本上直接可用。核心特点包括：

有些仓促，确实是有点着急，红色警报嘛，确实有点着急，所以会出现这种上下文错误。
更多的是面向B端用户，不是娱乐的。
主要是针对Gemini 3 Pro和Claude 4.5 Opus。

我觉得Claude 4.5 Opus有点危险。为什么？因为我们以前的竞争经常是这样：老大跟老二打了半天，把老三、老四、老五、老六全都给干掉了。Claude 4.5 Opus这一点就稍微的要弱一些。现在通过GPT-5.2大家可以看出来，全能型的模型，就像全能型的人一样，是很难做出来的，既要幽默风趣有情商，又是办公小能手，这个很难兼得。大模型的进一步提升，普通人已经越来越难以直观感知了。解决具体实际问题，是目前各大模型厂商所关注的重点。

未来值得期待的更新

OpenAI的图像生成模型：还是值得期待一下的，因为这个东西好长时间没有更新了。特别是Nano Banana叠加了迪士尼的版权授权之后，OpenAI的图像生成模型就更值得期待了。迪士尼版权授权这件事，回头我再抽时间再讲。
明年的成人模式：也许是为个人娱乐服务提供的一个新方向。但是这一块最好不要抱太大的预期。为什么？第一，不能显得老范太低俗了，这个不重要；最重要的是，OpenAI现在是风口浪尖上，大家都在拿显微镜看它，而成人模式这件事情，本身尺度是非常难以把握的。所以对于这一点上，不需要抱太大预期。

总结：一款为专业工作者而生的“红色警报”产品

总结一下，GPT-5.2作为“红色警报”产品，算是紧急上线了。我自己用起来的感觉还不错，比较符合我的使用需求。我也往自己脸上贴个金，我算是专业的知识工作者。未来GPT会继续在我的文字类工作流程中占据主导位置。中间我大概是换Gemini换了几周的时间，但是现在我又换回去了。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA

Luke Fan — Fri, 05 Dec 2025 01:06:50 +0000

Deepseek V3.2，12月1号发布了。是不是又遥遥领先了呢？

大家好，欢迎收听老范讲故事的YouTube频道。

Deepseek V3.2的发布应该是12月1日。我们始终没有等来心心念念的Deepseek R2。在今年春节的时候，深度求索突然发布了Deepseek R1，算是扔下了一颗深水炸弹，把整个AI圈都震动了，甚至还造成了英伟达股价的闪崩——一段时间内闪崩吧。甚至老黄都跑出来喊，说：“Deepseek发布对我是利好，你们不要卖英伟达的股票。”大家就一直等着这个R1，既然这么厉害，咱们上R2。但是等了这么久，都没有等来R2。

Deepseek V系列版本回顾

下面呢，我们来捋一下Deepseek V系列的版本到底是怎么样的一个发布过程。

Deepseek V3 (去年12月26日发布): 这是非常非常重要的一个版本。实际上我们后面看到的所有版本，包括R1，都是在Deepseek V3的基础上进行微调、进行蒸馏、进行强化学习。今天发布的Deepseek V3.2，也依然是在这个版本的基础上做出来的。
Deepseek V3-0324 (3月24日发布): 主要是在专项能力上做了一些增强，比如说编代码或者写文章。
Deepseek V3.1 (8月21日发布): 主要是工程化和智能体方面做了增强。因为当时大家都要去做AI agent，而之前的版本在AI agent这一块都比较弱。
Deepseek V3.1 Terminals (9月22日发布): 这个版本叫V3.1的终极版，实际上是对V3.1做了一些修复和精调，并告知这是V3.1的最终版本。
V3.2 EXP (9月29日发布): 一个实验版本，在V3.1终极版的基础上加入了DSA技术。最主要的变化是降价，直接把API调用的价格砍了一半。
Deepseek OCR (10月20日发布): 一个很小的模型（约6G），用于图片解释，效果很好。
maths VR (11月27日发布): 专门做数学推理和数学证明的一个版本，在各种数学题测试中评分非常高。
Deepseek V3.2 正式版 & V3.2 special 特别版 (12月1号发布): 本次发布的主角。

V3.2，是不是遥遥领先了呢？

那么这一次的V3.2，是不是遥遥领先了呢？各种评测数据确实非常亮眼，但是呢，我们要看到它的评测数据里头实际上是有两个数值的。一个数值呢是Deepseek V3.2做出来的，一个数值呢，是Deepseek V3.2 special做出来的。

它的Deepseek 3.2 special这个版本，确实是比Gemini 3 Pro、GPT5.1都要强，但是我们大部分人，实际上没有办法去使用这个V3.2 special。它这个正式版的V3.2呢，属于是接近了GPT-5.1的水平，各项评分都很近，有个别的超过吧，大部分呢跟GPT-5.1很近的一个位置。

甚至呢，还有人出来讲，说GPT到现在3周岁了，现在Deepseek反超回来了。很多人就讲说GPT被Deepseek吓到了，其实跟Deepseek没关系，主要是被谷歌吓到了。

V3.2 Special：一个跑分工具？

你说V3.2的special版本的评分，不是已经超越了GPT-5.1和Gemini 3 Pro了吗？你怎么还说跟国外有差距呢？首先要注意，V3.2 special是一个基本上没法用的版本。为什么呢？

就是它的推理、它的运算确实非常强，但是呢，它在工具调用、AI agent的使用这一块都不能用，因为它就是会解数学题，它是一个偏科天才，除了写数学题之外，他啥也搞不了。所以呢，他做各种的评测分数很高，但是你实际使用他，你是没法使的。

而且Deepseek V3.2 special这个版本只能用到12月15号，在这之后这个接口就直接废掉了。所以那个产品就是跑分用的，不是给大家用的。发布V3.2 special呢，也是有一点点赶鸭子上架。当然有很多人说，这个就是Deepseek R2了。

V3.2的核心技术：DSA算法

那么V3.2到底是怎么训练出来的呢？实际上Deepseek V3.2，是在Deepseek V3.1 Terminals这个基础上进行的继续训练，基础大模型没变。这个里边最关键的特性，就是降本增效。

降本：Deepseek稀疏注意力算法 (DSA)

它直接把成本对半砍，就是降50%的API调用成本。里边呢，使用了一个叫DSA的算法，Deepseek稀疏注意力算法。通过一个叫闪电索引的功能，它不是对文本里边的所有词进行运算和匹配，而是先评估哪一块比较重要，哪一块不太重要，我们把重要的部分拿去做下一步，不重要的部分直接扔了。通过这种方式呢，它极大的降低了长上下文的处理成本。

长上下文是必须的，因为AI agent需要调用工具、搜索、使用本地知识库。所以只能在长上下文的基础上想办法去降低成本。

增效：与V3.1对齐并强化

在实现了DSA的算法之后，它还要跟Deepseek V3.1 Terminals这个最终版进行对齐，确保性能不能退步。这就是这一次V3.2在V3.2 EXP的基础上做的一个很重要的更新。

所以呢，9月29号V3.2 EXP，第一件事是先把价格打下来：

输入 (缓存不命中): 100万TOKEN两块钱人民币。
输入 (缓存命中): 100万TOKEN是两毛钱。
输出: 100万TOKEN只需要3元人民币。

这个价格要比我们现在能看到的各种轻量级模型都要便宜很多。

在发布这个版本之后呢，进行了大规模特定目标的强化学习，主要学很难解答但很容易验证的问题，特别是针对智能体（AI agent）进行数据训练。在这样的一个基础上，就得到了12月1号所发布的V3.2正式版。

V3.2 Special的由来

它呢，是在V3.2 EXP base的这个基础上，拿着前面我们讲的，专门做数学题证明的maths VR这个版本去做后续的训练。V3.2 special实际上就是V3.2 EXP base这个版本加上maths V2这个版本合成的一个版本。所以它特别擅长做数学题、做各种长推理，但其他方面能力很弱。

真正的领先之处：开源贡献

我们现在所说的领先，是真正做出来的这些改变、这些创新，对于整个行业是不是有贡献。Deepseek R1对于整个行业是有巨大贡献的。而这一次的DSA确实是非常先进的，也对整个行业是有贡献的。只要是对整个行业有贡献，我们就认为它已经遥遥领先了。

而且DSA算法呢是完全开源的，有论文、有模型、有代码，而且可以商业化使用。不像美国那些公司抠抠搜搜的。

当然，这个东西也不是Deepseek凭空发明的，它是在很多前人的基础上做的改进和应用。就像瓦特改进了蒸汽机一样，DSA也是如此。类似的稀疏注意力算法有很多论文，但是真正大规模的验证和使用，就是Deepseek的DSA这个算法。

其他AI公司如何应用DSA？

美国公司也有类似技术，OpenAI的算法没有公开，谷歌应用的则是一个叫“环注意力”（ring attention）的算法，可以支持到100万TOKEN的上下文。

DSA是完全开源的，其他模型也可以使用，但需要经过几个步骤：

模型结构改造： 在原来模型的基础上加上闪电索引。先进行“稠密预热”，保持主干注意力完全稠密，冻结原来的参数，只训练这个闪电索引。
稀疏训练： 打开DSA开关，解冻主干的参数，和闪电索引一起训练，并确保输出结果跟原来是一样的。
蒸馏和强化学习： 在针对写作、数学、代码、AI agent搜索等等特定领域进行特训，再用特定的模型生成数据，蒸馏主模型。最终把推理和AI agent这些行为进行强化学习和人类的对齐。

所以DSA对整个行业是有巨大推动作用的，这才是真正的遥遥领先。

Deepseek V3.2的局限与不足

它还是有很多地方比GPT-5.1、比Gemini 3 Pro要差很远的地方。

纯文本模型： 完全没有多模态能力，给它图片它是不认识的。
基础模型陈旧： Deepseek V3.2也是在一个去年12月26日发布的Deepseek V3的基础上，不停的打补丁补出来的一个版本。这个叫“麻袋片绣花，底子太差”。就像OpenAI发现GPT-5（在GPT-4基础上微调）无法追赶从头训练的Gemini 3 Pro一样，要想再追上，必须得退回去把基础模型再提升一步。

所以，Deepseek下一步肯定还是要先把Deepseek V3.2的special合并进去，但更重要的是需要重新预训练一个全新的V4模型，把多模态等能力加进去。

对国产算力的真正影响

Deepseek V3.2是不是对于国产算力有了巨大的帮助？国内云确实是在第一时间就去支持了，他们叫0 day支持。

现在大模型推理普遍使用VLLM或SGLANG这样的开源框架，它们最初是为英伟达显卡设计的。Deepseek发布DSA后，第一件事就是修改这两个框架，让它们能很好地支持DSA。国内的算力卡厂商，如华为升腾，也要到这个系统上去打补丁，适配自己的硬件。

华为云等厂商已经完成了这个适配工作，这意味着，以后想把模型部署到中国的公司（如XAI），可以直接购买华为升腾的芯片而无需修改代码。

所以国内的云和算力卡确实又行了，它们可以在相同的算力下处理更多的信息。从推理这件事情上来说，我们不再那么依赖英伟达的显卡了。但是，如果想预训练一个全新的大模型，还是要去买英伟达显卡。目前国内普遍的做法是让大模型出海，在海外去做训练。

Deepseek V3.2带来的市场影响

AI应用在国内产业的普及与渗透速度会进一步的提升。
一些新的模型，甭管是国内的还是国外的，都会去进行DSA升级，以降低成本。
使用中文推理的美国大模型会变多起来，因为它们很多是在中文开源模型基础上做后训练的。

对英伟达的影响：短期承压，长期利好

短期来看是利空。 DSA让推理成本下降，完成同样的任务只需要一半的显卡，这会减少对英伟达通用算力的需求。

但长期来说依然是利好。 首先，行业认识到必须重新预训练基础模型，这离不开英伟达显卡。其次，AI应用渗透率上升，会推动整个行业越过盈利点，对算力中心的需求可能实现真正的爆发。

总结

Deepseek V3.2，12月1日正式发布了，评分很高，但对于实际使用和感受其实没有那么大意义。因为他真正评分很高的那个版本，是一个偏科的数学天才。V3.2正式版他的评分并没有那么高。而且Deepseek V3.2是在V3的基础上继续缝缝补补出来的，想要继续前进已经很难了，必须要去对基础模型重新做预训练了。DSA这个算法确实对整个行业做出了贡献，非常非常有价值，在这一点上，你说它遥遥领先没有任何问题，但是距离真正的全线领先，还有很大的差距。

好，这就是咱们今天要讲的故事，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

谷歌一出手，OpenAI的“凛冬”真来了？山姆·奥特曼内部备忘录罕见示弱，承认可能暂时落后｜Google vs OpenAI、AI Race、Google、OpenAI

Luke Fan — Tue, 25 Nov 2025 01:18:11 +0000

Gemini 3 Pro和Nano Banana Pro发布之后，OpenAI的山姆·奥特曼开始喊“凛冬将至”了

大家好，欢迎收听老范讲故事的YouTube频道。凛冬将至（winter is coming），这是一个《权游》里边的梗，大家要小心准备了。以前呢，OpenAI每一次发布会之后，都会有一群的创业公司原地死亡。这次谷歌没有开发布会，直接发布了新产品之后，OpenAI虽然不至于原地死亡，但是凛冬将至了。

奥特曼的内部警告：“凛冬将至”

山姆·奥特曼到底是怎么说的呢？对外肯定不能跌面子，讲的是祝贺谷歌发布了Gemini 3，看起来是一个很棒的模型。但是曝光的一些内部备忘录里边，寒意已经体现出来了。奥特曼罕见的表现出了危机感，直言公司当前的氛围充满了不太妙的低迷气氛，大家都觉得有问题了。

OpenAI如今不得不拼命追赶，谷歌的AI进展可能给OpenAI创造暂时的“经济阻力”。大家注意，这个词叫“经济阻力”，它的收入可能会有问题。如果收入有问题的话，他前面画的1.3万亿这种大饼，这是会出大问题的，会让整个行业崩塌的。

现在，山姆·奥特曼要求团队进入战时状态，聚焦长远，即便意味着我们在当前阶段会暂时落后，也要押注更有雄心的突破。这个非常非常正确。首先，他承认了“我们现在可能暂时落后”，而且一段时间未必追得上。但是，如果只是跟着谷歌的脚步往前追的话，这是没法整的。因为谷歌最擅长的事情就是极限拉扯、极限迭代升级，你像Chrome到现在100多版了，安卓一年一个大版、一堆的小版，所以任何想在这后边跟版本的人，都会被谷歌拉死的。你要想跟谷歌竞争，一定要跳到谷歌外面去，自己做一些完完全全创新的东西，让用户有感知的东西，这个才是需要去干的活。

而且，山姆·奥特曼讲到，公司的估值虽然很高，但是要清醒看到，我们还有不少的功课要补，AI研发的严冬考验就在眼前，OpenAI必须奋起直追了。这也就是“凛冬将至”的出处。

大家还记得国内互联网企业是什么时候开始喊这句话的吗？谁喊的？任正非喊的。任正非喊“我们要让大家感受到寒意”之后，华为确实有在裁员，但是业绩并没有大的问题。但是华为身边的这些公司，就在大量的原地消失，直接就不见了。这就是凛冬到来的时候，我们会看到的景象。

Gemini 3 Pro到底有多强？

Gemini 3 Pro到底强到一个什么样的程度，能让行业公认的老大OpenAI的山姆·奥特曼发出“凛冬将至”这样的声音呢？

我这几天呢，其实一直在用Gemini 3 Pro，本身感受并没有那么明显，只是觉得快了很多，回答的质量高了很多。Nano Banana Pro，那简直是强到没有朋友。

实战对比：Nano Banana Pro vs. 即梦4.0

我拿Nano Banana Pro跟国内的“即梦4.0”比较了一下，我的提示词是什么呢？说：“你给我设计一个北京烤鸭为主菜的北京宫廷宴菜馆的菜单，主要的菜品要有配图，要写上菜品名，要有这个菜品的配料以及口味的简单描述以及价格，其他的菜就不需要这个图片了。”

两边都干活去了，其实干出来的结果都还不错。先说即梦吧，即梦呢画的很漂亮，上头也写着是多少多少钱一只烤鸭，烤鸭画的也还可以吧。但是呢，它在菜单里头混入了宫保鸡丁和麻婆豆腐，这两道菜其实是川菜，它不是北京菜。而且呢，它里头选用的北京菜京酱肉丝，它配的图呢是一个红烧肉的图。京酱肉丝，你里头必须得要有肉丝，得是条状的；而红烧肉是肉块，到最后画出来的是个肉块，就出现了这样的翻车现象。

Nano Banana Pro画的图是什么样的呢？非常的漂亮，上面是北京烤鸭，然后呢是其他的各种北京菜、老北京炸酱面呀，没有任何川菜混在里面。但是它也有一个bug，就是它写的价格是“文银多少两”，这个是很有趣的一点。即梦的这个价格都是58、68，相对来说是比较准确的。

这个例子大家看出来差在哪了吗？它们画的图，艺术感其实没有太大区别，差就差在：Nano Banana Pro自己是一个完整的模型，它把AI agent的活干完了，他自己在这个模型里头搜索了、思考了、推理了、研究了，然后把一个正确的东西画出来——但不能说一点瑕疵没有。而这个即梦干的活是什么呢？先调用了外部的工具，它可能也搜索了一些，甚至可能连搜索都没搜索，它可能调用的是豆包的这种大模型，使用豆包自己的知识体系，进行了一定的思考和生成，然后就去画图了。其实画的图两边差异不大，差异大就大在你到底是原生的模型进行思考、进行推理、进行搜索，还是说我是外部的。画的质量其实是一样的。

谷歌的新武器：Anti Gravity IDE

另外呢，这两天还试了一下Anti Gravity，它叫“反重力”，谷歌这次出的IDE。当然，这种产品大家要试用的时候，一定要注意一点是什么？不停的升级。因为这种产品迭代非常非常快，今天我去升级了以后，发现已经跟我第一天下载这个产品完全是天翻地覆的变化了，大概升了两个版本。变在哪了？因为我下载这个产品的时候，Nano Banana Pro还没发布呢，今天升级上去以后，已经把Nano Banana Pro挂进去了。这个产品是谁做的呢？就是当时谷歌花钱收购了Windsurf团队的核心成员，让他们进来给做的。所以这个产品做的呢，还可以。

这个产品现在彻底打通了MVC。这个什么东西？我们写程序的时候呢，一般是把程序分成三块儿：model、Controller和view这三块儿。model呢是所有跟数据相关的，你数据模型是什么样的，数据底层是什么样的，这种底层的一些API接口，这些都在model里头。Controller呢是各种的业务逻辑，写在这块。view呢是所有的让大家能看得到、能够交互的东西，就是视图。

为什么写程序会把这三块分开写呢？就是为了这三块可以让不同的人去做，把接口留清楚，就可以独立的去进行更新，而不要说眉毛胡子一把刷，牵一发动全身。为什么要专门强调这件事呢？因为以前的AI编程的工具，或者是Web coding的工具，他们主要是做后端，虽然前端也做一些，但是呢对于画图设计，还是要差一些的。

现在就不用费这个劲了。你直接向它描述，我今儿向它描述，我说：“你给我去做一个读书软件，我要求是羊皮纸的背景，要有各种图书相关的元素进去。”这个Anti Gravity就直接调用Nano Banana Pro去给我画图去了。先给我生成了一个羊皮纸的背景，然后呢给我生成了一个古色古香的页头，就是像那种花体字这样的东西，然后呢给我生成了所有的、跟看书相关的图标：有打开的书、有合起来的书、有笔，生成了全套的图标，还给我生成了一本书。生成完了以后，那边写程序把这玩意儿全挂进去了，这个是多么开心的一件事情！

谷歌真正的可怕之处：生态与“微信式逆袭”

通过Nano Banana Pro和Gemini 3 Pro更新的情况来看，现在呢，谷歌已经真的开始靠谱了，有用了，可以干活了。而且谷歌最可怕的还不是模型变强了，谷歌最可怕的是用户生态强。但是呢，Gemini现在的月活用户数是6亿多，比GPT的还是要少一些的，大概少个一两亿的样子。但是谷歌后边还有Gmail、Google Workspace、安卓、YouTube这么多用户群体，这么多用户场景在那等着它呢。

所以，谷歌一旦实现了AI突破的话，这对于OpenAI来说，不能说灭顶之灾，但是已经是非常非常危险的了。这也是为什么OpenAI的山姆·奥特曼会去警告员工公司营收增速可能下滑的一个原因，而且告诉员工说：“我们不再是战无不胜的了。”

现在呢，我们其实正在看一场微信一样的逆袭。什么是微信一样的逆袭？就是在微信出现之前，其实国内出了很多这些移动端的即时通讯工具。腾讯在PC端是老大呀，那么我怎么办？直接用PC端的QQ跟你们竞争，又竞争不过你们，因为包袱实在太重。说：“算了，咱们去做微信。”然后呢，是携着原来QQ积攒下来的社交关系链，直接碾压所有对手，就把当时的米聊、各种的talk、这talk那talk什么，全都给干翻了。所以，这就是一次微信式的逆袭。

那你说只有OpenAI感受到了“凛冬将至”吗？咱们再想想前面讲的华为任正非的故事，老大感受到凛冬将至了，那你原地死亡的人一定会更多。

“模型即应用”：创业者的残酷现实

Gemini的胜利，再次重申了AI创业领域里头一个非常让人不喜欢的论点，这个论点就叫做“模型即应用”。刚才我讲了Nano Banana Pro跟即梦之间的差异的例子，大家就知道为什么“模型即应用”是最厉害的。这个，虽然很多做应用的人非常非常讨厌这一条，但是目前来看，这条依然成立。

原来那些做应用开发的，特别是这些做AI agent的开发的，比如像ConflUI、像Cursor这些人，现在一定是感受到巨大的压力。如果你说我在这个圈子里头，还不在ConflUI和Cursor这样的领军位置的话，就可以直接宣布原地死亡了，就不用再去努力了。那些通过模型的调整、做复杂提示词工程和流程管理的，基本上是天塌了，因为这一部分活现在都直接被模型功能给覆盖掉了。

特立独行的谷歌：AI圈的“局外人”

这回是不是一个戳破泡沫的钉子呢？是不是谷歌直接逆袭了以后，AI泡沫就破了呢？很多人说：“不对，这不是AI又往前走了吗？AI有用了呀！”

但是呢，谷歌在整个AI游戏里边的位置是很尴尬的，参与了，但好像又没有参与的一个位置。你说谷歌是不是在做AI？肯定是，Gemini 3出来了，它不做AI谁做AI呢？而且它也有投资，它投资了Anthropic。但是呢，它又没有彻底参与到整个硅谷的AI军备竞赛里头去。前面咱们讲什么“击鼓传花”呀，“左脚踩右脚”，这里头跟谷歌其实关系不大。它没有用英伟达的芯片，它用的是自己家的TPU；它也没有投资了谁谁谁，买一堆芯片，然后再去建这个机房，它都是自有资金。跟外边讲的OpenAI投资什么项目、英伟达投资OpenAI、AMD投资OpenAI、OpenAI再去到Oracle那去订购算力订单……跟整个这个循环是没关系的。

那谷歌为什么这么另类呢？它为什么不跟大家一起玩耍呢？一个幼儿园里头，这个小朋友就看着这么奇怪，这么不合群呢？原因很简单，大家知道OpenAI，这个open要open谁呢？就是要open谷歌呀。建立OpenAI的原因，就是因为谷歌太不开放了。所以，整个的AI产业链，基本上都是从谷歌内部孵化出来的，每一个在做AI创业公司的人都在讲：“谷歌有问题，我要出来反它，我要出来干它。”它是这样的一个位置，谷歌在整个AI领域里头可以算是举世皆敌。

OpenAI这头，微软给了钱了，那头软银给了钱了，跟英伟达还有关系，跟AMD有关系，跟Oracle、亚马逊，它全都有关系。谷歌说：“我跟你们都没关系，你们都是从我这来的，我要收拾你们。”所以谷歌在整个的AI圈子里头，是最另类的一个，就像相声界里的郭德纲一样。

一旦谷歌成了，整个行业都会瑟瑟发抖。因为英伟达的芯片不再是必须的了，现在使用谷歌TPU，人家也把这事搞定了。OpenAI、微软还要继续回去跟谷歌争夺用户和应用场景了。原来说OpenAI的技术最好、用户体验最好，所以我不需要去跟你抢用户场景，用户自然而然就向我这边迁移了。现在谷歌的用户体验做的也很好了，那大家回去了，Office跟Workspace接着打，只能变成这样的一个状态，那对于他们来说是非常非常不利的。

而Oracle、Coreweave这些下游厂商建立起来的这些算力中心，就未必有人用了。很多人在去质疑，说你OpenAI四处建算力中心，四处去签这种巨额的算力协议，这到底能不能实现？现在就悬了。谷歌的Gemini模型是不会跑到这些算力中心上的，谷歌的这些Gemini模型一定会跑在谷歌云上，跟他们是没关系的。“击鼓传花”的游戏有可能就玩不下去了，所以整个行业现在都很害怕。

凛冬已至，创业者何去何从？

Gemini 3 Pro发布之后，创业者应该怎么办呢？咱们不能说“凛冬将至”，大家躺平，对吧？这肯定不是老范的风格。

不要去做大模型了。中国几个大厂除外，像什么豆包、千问，他们愿意折腾去折腾去。因为为什么？谷歌进不来，OpenAI也进不来，他们还是有一个巨大的市场可以去玩耍的。甚至在国内证明成功了以后，还可以开源出去，给老外那边再去搅和搅和。以后的模型呢就是大厂竞争了：谷歌、OpenAI、xAI和Anthropic，基本上就是他们四家搞了。至于Meta在里边要站在一个什么位置呢，现在还看不太出来。如果你说我一定要整点什么模型呢，可以在中国开源模型的基础上呢，做一些小的调整，重新训练新的模型。这个阶段已经过去了，现在剩下这四家——谷歌、OpenAI、xAI和Anthropic——也未必最后都能活得下来。那些单纯的图片、音视频的模型，最终应该都会被顶端的这些大模型公司统统干掉，像Midjourney、Flux未必能活得下去。
不要去做那些模型未来会覆盖的领域。模型会越来越强，这个是必然；模型会越来越快，这个也是必然的。还有一个必然是什么？模型一定会越来越便宜。你说：“哎，我现在尝试去做一个应用，我在哪个地方用更便宜的模型，哪个地方用稍微贵一点的，达到一个在当前的成本下最好的效果。”别费这个劲！等你把这个产品做好了、上线的时候，那个最贵的模型的成本也降下来了。所以不用费这个劲，咱就直接使最贵的就完事了。那些只做工具调用、流程安排、结果确认的工具，或者是AI agent的产品，都会被模型覆盖掉的，大家就别费劲在这块卷了。
要做“时间的朋友”和“平台的朋友”。这个就是在移动互联网时代里头我们反复在强调的事情，现在AI时代也在走这条老路了。什么叫“时间的朋友”和“平台的朋友”？以前做安卓App和iOS App的时候，我们一定要做苹果公司和谷歌公司的朋友。我们要考虑他们未来向哪个方向发展，我不能挡在人路上，那就不是“时间的朋友”了。我们也要考虑谷歌跟苹果这样的大平台，他们的诉求是什么，你不能把人家该干的活给人干了，那就不是“平台的朋友”了。所以我们要做时间的朋友，要做平台的朋友。而平台的话，在新的时代里就是这些大模型——咱们讲这4家公司的大模型。时间会让模型变得越来越强大，开发者必须在这个大前提下干活，你不能挡在这个模型的路上，不能随着时间的发展被模型淹没掉。
要跟具体的用户和场景打交道。模型就是新的平台，再强大，其边缘依然是粗糙的。特别是在美国，他们这些大厂，他不会把每一个细节和边缘、方方面面都照顾到的。所以在这个时候，依然是需要我们去做很多的这种边边角角的事情。而且做了这些边边角角事情以后，未必没有机会去发展出新的超级App来，就像现在微信在iOS和安卓上变成超级App，这个过程是一样的。所以呢，不要觉得这个生意小、这个生意不挣钱、这个生意用户少，我们就不去做，先努力地扎下去再说。利用模型的能力解决具体的需求，与行业和场景进行深度的捆绑，成为行业专家——这就是咱们现在真正这些开发者或者是这些创业者该去干的活。不要尝试去编写代码弥补模型缺陷，直接等模型升级就行了。特别是Gemini 3 Pro发布以后，马斯克说了，我明年一二月份就要去发布Grok 5，那个时候我们就直接上6万亿大参数模型，大家等着看吧，拭目以待就可以了。

跨越临界点：零和博弈的终结与新机遇

最后，凛冬将至，春天可能也就不远了。到了冬天了，后边就应该是春天了嘛。

谷歌已经基本上达到临界点了。什么是临界点？AI可用的临界点。这个东西能干活了，能够挣钱了。跨过临界点之后会怎么样呢？我多吃一口，你就少吃一口，市场规模是固定的，这玩意就叫零和博弈。一旦跨过临界点，这个零和博弈就被打破了，行业就会大爆发。以很多以前没法做、不值得做的事情，现在就有经济价值了。在这样的一个情况下，就会有很多的新的应用、新的产业就会产生。

我们没有4G网络的时候，谁会想到说大家可以刷短视频、刷抖音这样的东西？抖音会成为超级App，谁也想不到这个东西。因为那个时候网很慢，服务器的带宽也很贵，用户的手机带宽也很贵。但是你一旦过了这个坎，“哦，还可以干这样的事情”，整个变出了一个新的行业出来。

但是呢，要提醒大家，现在的很多投资，特别是股市上面的很多泡沫，还是有很大的打水漂可能性的。特别是OpenAI和英伟达之间的这种“左脚踩右脚”的生意，还是很危险的。当然了，全行业都会努力地拯救这些投资，这个跟谷歌无关。对于谷歌来说，叫“杀死你，与我无关”，这句话引自于《三体》。

总结

最后总结一下，Gemini 3 Pro发布了，绝对是挑战与机遇并存，不同层次的AI行业参与者，必须要重新给自己找到定位了。

好，这就是咱们今天要讲的故事：凛冬将至。

感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

我们都被骗了？Nano Banana Pro 真相揭秘：它根本不是Gemini 3简单叠加，原生多模态骨架才是颠覆关键｜Nano Banana Pro、Gemini 3 Pro、Gemini 3

Luke Fan — Sun, 23 Nov 2025 00:55:47 +0000

Nano Banana Pro发布了，它在Nano Banana的基础上到底做了些什么新东西？

大家好，欢迎收听老范讲故事的YouTube频道。

大家等了半天的Nano Banana 2没有来，出来的是Nano Banana Pro。当然，前面Nano Banana Pro也是隐姓埋名，在各种的大模型评测平台上偷跑了好长时间。所以很多人呢，信誓旦旦地说：“我已经用到了这个东西，强的没边了。”现在终于发布出来了。

从Nano Banana到Nano Banana Pro：核心区别是什么？

从名字上呢，一个叫Nano Banana，另外一个呢加了个Pro，它们到底差在哪呢？原来的Nano Banana，其实是叫做Gemini 2.5 Flash image。现在的Nano Banana Pro呢，它背后的模型是Gemini 3.0 Pro image，是两个不同版本。而且一个呢是Flash，一个呢是Pro。Flash一定是比较快，出来的东西呢相对比较粗糙；而Pro的话，出来的东西就会比较笨重了，或者说比较昂贵，而且出来的东西非常非常细致和完善，它们核心的区别就在这里。

Nano Banana也是先在外边测试了很久然后才发布，这个名字也是当时他们测试的时候使用的名字。当然这一次测试呢，并没有叫纳米香蕉，这次换了个名字，因为纳米香蕉这名字你用过了嘛，好像叫GENIMG，大概是这样的一个名字去测试的。

回顾：初代Nano Banana的革命与短板

当时Nano Banana为什么会轰动呢？就是一致性的问题彻底被解决了，包括多图融合，融合以后的一致性，这个问题已经彻底解决掉了。但Nano Banana生成图片也有很多的问题：

分辨率低：也就是1024乘1024或者1K的图片。
无法处理复杂内容：你说我要写很多文字上去，这搞不定。你只能是相对来说，主体比较简单的图片可以搞定。
文字错误多：写字经常写错，甭管是写中文、写英文，经常写错，这是当时的一个问题。

但是因为它的一致性一下就得到了突破，所以呢还是火起来了。我记得当时Nano Banana出来的时候，最火的大家玩什么？就给它一张自己的照片，说：“来，给我生成一个图片，这个图片上是电脑，电脑里头呢，有我这个照片相关的3D玩偶的一个设计模型，桌子上呢要摆我的这个照片，以及呢用这个照片生成的3D玩偶的手办。要保证你电脑里边显示的模型、你的照片跟这个手办，要完全的能够对得上，这是同一个人。”他的一致性要很强，而且要不同的风格下的一致性依然很强，当时大家玩这个梗都玩疯了。

所以呢，当时很多人在玩什么？就是多张人像图片合成一个统一场景，同时呢保证一致，同一个人在多张图片里头五官、发型、服饰相对一致，或者同一个人在多张图里头保持风格统一。对于很多的用户来说，可以去轻松地制作全家福、多角色合影、连续故事分镜，都是可以做出来了，有极强的可玩性。

而且呢，Nano Banana是有相对比较强的世界知识和场景理解能力的，因为它后面的是Gemini 2.5 Flash的一个模型，所以你问它很多东西，它的基础知识是存在的，它继承了Gemini模型的语义和知识能力。这点对于像吉梦，还有像Midjourney这样的纯画图模型来说，就绝对遥遥领先了。能够跟Nano Banana去比语义理解能力的，也就是GPT image，就是在GPT-4o的基础上画图的这个模型。

Nano Banana呢，对于地理场景，比如说像地标建筑、服饰文化元素；场景，比如医生、厨师、程序员，都可以很好地去理解，而且感觉都似模似样的，或者我们叫“对齐”了——这算是大语言模型带给我们语言的一个污染，现在大家都在讲“对齐”这个词——所以它跟我们日常认知是可以对齐的。

而且呢，Nano Banana是可以做自然语言修图和局部编辑的。很多人特别讨厌做修图的原因是什么？你需要做选择，这一块是衣服，那一块是手，这一块是背景，你要拿这个线把这个后边的背景抠出来，这个是很烦的。但是Nano Banana就不需要，你只需要告诉他说：“现在请把衣服给我换成这身，请把这个鞋给我换成那个。”或者说：“请把这个瓶子上的文字给我换一下。”就可以搞定了，再也不需要上去打点勾线了。这个事儿，是Nano Banana给大家带来的非常非常好的体验。

还有一点很重要的是什么？就是低延迟、低成本。Nano Banana画图是很便宜的，他画一张图的话，调用API大概是3.9美分画一张，非常非常便宜。而且呢，因为它画的很像，在Nano Banana发布以后呢，社交媒体直接就炸了。因为社交媒体，你的社会关系要去参加到交往过程中，如果我画完了以后，这个大美女、大帅哥看不出来是谁，这个事是没法整的。Nano Banana画出来的就可以看出来是谁了，所以Nano Banana当时出来了以后直接就炸裂了，而且是出来了以后，谷歌的股价在涨，谷歌Gemini用户量在暴涨，所以这个是真正拯救谷歌的一个产品。

Nano Banana Pro：不仅仅是简单的升级

现在好了，Nano Banana Pro来了。它在Nano Banana的基础上到底加了什么？它到底是不是Gemini 3 Pro加上Nano Banana呢？首先要确定这个东西不是。为什么？因为那个Nano Banana是Gemini 2.5 Flash image，而现在的Nano Banana Pro是Gemini 3.0 Pro，所以它们是完完全全两个不同量级、不同版本的模型。

首先，Gemini 3 Pro就是比Gemini 2.5 Pro要强很多很多的一个模型，它在推理上强的没朋友。你在这样的一个基础上去做绘图的话，那一定也是会强到没朋友的。而且Gemini 3跟Gemini 2.5还有一个很本质的区别是什么？就是它是原生多模态。它直接把图片、视频这些东西通通一把训练进去了，在最一开始的时候就训练进去的。

Nano Banana Pro是复用了Gemini 3的多模态和推理骨干。你用Nano Banana Pro画图的时候，不是上来就画图，而是说我要先搜索一下，然后我要推理一下。你可以把整个推理的过程都拉出来看，他要先画几张，画完了以后自己在那改，改完了最后出了一个他觉得还可以的结果。因为整个的推理的过程中是有图片生成的，有图片的参考，你甚至可以告诉他说：“去给我参考一下哪个哪个车，给我画一个拆解图来。”比如说我有一辆大行D9的折叠车，我说：“你给我画一辆大行D9的折叠自行车的拆解图。”夸夸夸给我画出来了。我说：“你这个车架画错了。”然后又给我画，画的还是不太对。我说：“你这样，我说你去网上搜索一个D9的图片去，然后再给我回来画。”回来就给你画对了。他就可以干这样的事情。

咱们今天讲的东西呢，都是纯语言描述，我就不跟大家去做案例了，大家自己去试，这个成本非常非常低。所以咱们今天呢，还是主要讲它的原理。Nano Banana Pro是叠加了搜索和推理的一个绘图，它当时的测试的名字叫Gempix 2。所以呢，更准确的说法不是“Gemini 3加上Nano Banana等于Nano Banana Pro”，应该是Nano的Banana Pro是Gemini 3 Pro的大脑，加上新一代的高端图像的头，并不是简单的这种拼接。

绘图能力对比：Pro版本强在哪里？

咱们先看看它的画图部分怎么样吧。在这儿跟大家确认，它在艺术性上依然是没有办法战胜Midjourney的，Midjourney在这块还是当仁不让的王者。但是Midjourney对于物理的理解、对于整个语言的理解，是没有Nano Banana Pro好的。但是咱们就说氛围和艺术感这件事，Midjourney是老大，谁都超不过它。

不考虑推理和搜索的情况下，Nano Banana Pro跟Nano Banana比起来到底是强在哪？

1. 分辨率和细节极大提升

Nano Banana也就是1K，1024*1024这么大的一个分辨率，而且呢，它呢主要用途是画头像、画这种社交媒体插图、画缩略图。而Nano Banana Pro的话，是可以支持1K、2K、4K等多档的输出，你可以输出一个很高分辨率的图片出来。特别是在4K模式下，你做UI设计稿、做产品渲染、线条比较多的这种信息图，细节很清晰的图片呀，上边的细节清晰度会明显的提高。对于需要二次剪裁或者排版的这种专业场景，是相对来说比较友好的。所以我Nendo Banana用了一段时间，我后面不用了，因为它出的图实在是没法使，但Nano Banana Pro是没毛病的。

2. 文字渲染能力显著增强

Nano Banana虽然也能写字，甚至也能写中文，但是字多了它会写错的。而且多语言，你比如说阿拉伯语、中文，特别是花体或者很复杂的一些字体，你要去要求他写的时候呢，会给你写成一塌糊涂。但是Nano Banana Pro就没有这个问题，我测试了，让他写一篇的字都没毛病。甚至有人测试什么呢？你在上头给他出一道题，然后呢他就生生的把这个题和整个题的解题步骤和结果全都给你画在图片里。我做了一个测试是什么呢？我前面跟土拨鼠一起跟大家去做过视频，讲解中国的“土基熔岩堆”。我说：“你给我画一个示意图，做一个土基熔岩堆出来。”我给他上传了一个我的照片，说：“你按照宫崎骏的风格，去给我做一个土鸡熔岩堆的讲解，哪一块是什么样的功能，进去什么、出来什么。”画的非常好，一个页面上应该有几十个字，甚至上百字，都写的非常非常好。我也尝试过一些这种花体字，原来我经常用吉梦去做这种叫创意字体，我把吉梦的提示词直接扔到Nano Banana Pro里边去，效果呢我觉得没有吉梦好，但是已经可以做各种各样的花体字了。但是拼中文，现在它距离吉梦还是稍微有一点点小差距。

现在呢，很多人拿这个Nano Banana Pro是干嘛使？直接做这个PPT。按道理说，我们应该是PPT里头写字，然后拼图，然后再排，这是一个完整PPT。现在不需要了，你直接告诉他说：“我要画一页PPT，要写一个什么样的东西。”比如像刚才我讲土基熔岩堆“土变油”的过程，给你写好了。而且你告诉他要宫崎骏风格，给你画出来了。甚至我后来又提了一个要求，我说：“给我把PayPal黑帮里头这几个老大之间的关系是什么样的，以及他们跟现在美国政府之间是什么关系，给我画出一个示意图来。”咔咔给我画好了，上面有彼得·蒂尔、埃隆·马斯克、杰里·万斯，头像全给我画上了，效果好的一塌糊涂。上面一开始写的是英文，后来我说：“你给我写成中文。”然后把谁原来在Paypal里是什么职位，现在Paypal黑帮里他是一个什么样的位置，比如彼得·蒂尔就是黑帮教父这样的一个位置，JD Vans跟他们是什么样的关系，全都给我写好了，非常漂亮，而且把所有人的头像给我画上了。你甚至可以要求他换什么风格的头像，都给你画的好好的。这一次就可以生成一个完整的PPT页面，不用再去做各种各样的调整，一句话搞定。怎么说呢，对于工程师来说足够使了，所以属于补上设计师最后短板的一个工具。

3. 多人物、多图片编辑和一致性更强

原来Nano Banana的话，出个可能四五张图、五六张图进去还是可以搞定的。现在的话，可以一次塞进去十几张图，一次上了14个脑袋，这个事儿有的人也是成功了，但是有的时候有问题，但是它正常6个脑袋是没毛病的。

4. 控制力更强

相机的角度、俯拍、仰拍、广角长焦，光线的效果，局部遮罩，比如只改脸、只改衣服、只改背景，图表、UI、信息图的这种结构化编辑，这些东西你都可以搞定。咱们说了这么多意思是什么？就是你一次可以写很多很多的文字进去，它一次允许我们写64K，就是64,000个TOKEN进去，它会很好的服从这64,000个TOKEN的指令，把你说的这一大堆东西都给你做出来，而且保证你最后画出来的东西是一致的。

5. 一致性和稳定性更强

由于背后挂着Gemini 3 Pro的多模态的骨架，所以呢，它是可以进行多轮对话的。它在多轮对话的修改过程中，可以生成同一风格的画面，这个过程是非常稳定的。你不会说：“给我改点什么东西。”改完了以后呢，你想改的没改对，没想改的地方竟然给改的乱七八糟。他不会干这个事，保证你想改什么改什么，整个的风格不会发生变化，你不想改的地方绝对不会发生改变的。所以绝对是生产力工具这东西。

训练揭秘：思考后再出图的黑盒

那你说这玩意咋训练出来的呢？谷歌对于Nano Banana以及Nano Banana Pro的训练细节呢，基本上啥也没说，用相对文明一点的话说，叫“公开的很克制”。主要讲的就是共享了多模态的主干，就是我训练大模型的时候，我就直接是用多模态的方式去训练的。它的Nano Banana系列呢，就已经不再是一个孤立的图像模型了，它后边是有Gemini多模态主干的这个图像头的。它的文本指令、世界知识、场景理解是由主干来处理，处理完了以后，再用处理好的结果再去画图，他是这样的一个工作方式。

而且呢，他们在训练的时候使用的叫联合训练和多任务目标。就是在通用图片生成的基础上，加入：

角色一致性任务（前后两张图片中的人物保持相似）
多图融合任务（也就是多张输入的图在单一的一个场景里边进行输出）
编辑任务（就输入图加修改指令）

还有这三个任务是同时进行训练的。很可能通过额外的损失函数和特殊数据集成和特殊数据集来强化这些能力。但是数据集这一块呢，反正谷歌就写了一个官话，说：“我们使用合法途径获得的开放数据集，以及人工标注数据集来进行训练的。”具体使用的什么数据集，他也没说。

Pro在这块呢增加了什么？就是思考后再出图，以及搜索增强。Pro版本强调在生成前有一轮内部的规划和思考，对于教育插图、历史场景、信息图，支持输入Google search作为知识矫正，你可以要求他去搜索。我看很多人这几天在画李白坐在桌边，跟穿着唐装的哆啦A梦一块喝酒对诗，他是可以知道哆啦A梦长什么样，也知道李白长什么样，还知道唐装长什么样，让他们一点都不违和地坐在那去写诗。

安全评估和红队测试呢，谷歌肯定也是做的呀，因为谷歌嘛，毕竟还是一个大企业、上市公司，你要是在这块犯错误的话，会有些问题的。但是它主要做的是什么呢？就是暴力、色情、仇恨、政治敏感内容，在这一块呢，做了重点的过滤以及红队测试。这会体现在某些指令明明技术上做到，但是呢给你的反馈是拒绝或者是模糊响应。不过我现在输出的各种图片还都比较正常，我没有让它测试一些比较奇怪的东西。所以呢，Nano Banana Pro在学习上呢，是一个完全闭源的，并没有告诉大家具体是怎么做的。现在我们能够看到的呢，都是总结了谷歌自己公开的一些很克制的信息，总结出来的一个结果。

版权与安全：更宽松的策略

我刚才讲到的一些提示词，大家听到有什么问题了没有？我要用宫崎骏的画风去画一个土基熔岩堆，要画埃隆·马斯克、彼得·蒂尔、杰里·万斯这些人的头像，后面我还让他画机器猫，他也给你画出来了。大家觉得是不是有问题了？

Nano Banana Pro对于风格和人物肖像这一块，是要比GPT image要松很多的。就是刚才我们讲的这些内容，你让GPT去画，好多它是画不出来的。它会告诉你，万斯现在是美国总统，他属于叫敏感政治人物，我不给你画。宫崎骏风格的不给你画。你说吉卜力工作室，他有可能给你画，但是你要宫崎骏风格，他就不给你画。现在吉卜力工作室还在起诉OpenAI，官司还打着呢。但是谷歌说：“没事，我都给你画。”机器猫呢，它属于有这个IP的品牌形象，你画了机器猫，甭管你画成什么样，实际上都属于侵权。但是谷歌说：“我就给你画了。”这一点其实做的一点都不谷歌，以前这个谷歌在这一块是要比OpenAI还要严苛的，现在直接就放松了，随便玩去。

我去问谷歌的Gemini 3 Pro，你们为什么干了这么一件事呢？他给我的回复是什么呢？“我们现在呢，是用了更深层次的安全措施。一方面呢，我们提醒你了，所有遇到版权问题你自己去应对，跟我没关系。”所以如果以后有人说，你怎么用了宫崎骏风格，他会直接把这个东西扔给创作者，而不是自己来承担这个责任。第二方面呢，他会去判断，你让马斯克坐在这喝咖啡，那是允许的；你让马斯克去做一些很奇怪的事情、有侮辱性的事情，他就不允许了。所以呢，他说我们不会在前向直接禁止你，而是会在后向看看你的意图是什么。你想做一个深度伪造，你想去骗人，还是想要去侮辱这个人，这些我们就不做了。但是如果你只是想要一个马斯克的头像，我们就给你做了。至于说机器猫的头像，因为我们比如做完了以后，也是会发到Twitter或者发到YouTube上，他就是说你发上来了，最后我来处罚你的YouTube作品就完了，我就自己不承担这个责任了。

这个是谷歌这一次采用的安全措施。OpenAI是反过来的，OpenAI是前置合规，就是你只要提名字，我就不给你画了。OpenAI呢，其实前置跟后置他都做。有的时候你让OpenAI给你画图的时候，他会先画，画完了以后，你看这图已经出到百分之七八十了，然后突然告诉你说：“对不起，我审核了，你这事有问题。”咔，给你把图删了。我遇到过几次了，所以我现在已经基本上不再使用OpenAI画图了，我现在画图基本上是Midjourney、吉梦和Nano Banana Pro了。

价格不菲的“Pro”体验

既然叫Pro了，有一个很重要的问题是什么？贵。它叫Pro了，一定比原来的这个叫Flash的要贵很多。刚才咱们讲了Nano Banana，也就是Gemini 2.5 Flash image，它画一张图是3.9美分，基本上是4美分的样子。而这个Nano Banana Pro画一张图是多少钱呢？

1K或2K的图：13美分一张，这个就要贵很多了。
4K的大图：24美分一张。

它要比咱们使用的GPT、使用的Midjourney、吉梦都要贵很多。吉梦是最便宜的，吉梦大概画一张图出来2K的图片不要钱，4K的也很便宜，可能就是几分钱人民币，换成美分就是零点几美分。Nano Banana Pro非常非常贵，大家画图的时候一定要小心。

如何使用Nano Banana Pro？

我们怎么拿Nano Banana Pro去画图呢？

免费用户：在Gemini.Google.com上就可以使用了，但是呢一天只允许画3张。你在APP上画也是可以的，Gemini APP上一天只允许画3张。
Pro用户：大概一天是可以画个几十张，有时候是100张，他并没有给我们一个特别明确的数据，还是要看服务器忙不忙，服务器不忙就多给你画几张，大概是这样的一个情况。因为我的Gemini账号呢，是拿我儿子的edu邮箱注册的Pro账号，可以免费使15个月的Pro账号，所以呢我现在是可以在Gemini网页或者是Gemini APP上开开心心的画图的。

那你说画超了怎么办？画超了以后就给你降级，降级成Nano Banana，就没有那个Pro了，你就会快速地得到一张比较粗糙的图，大概就是这样的一个情况。

那你说我怎么开启Nano Banana Pro的绘图呢？很简单。

你要在APP或者是Gemini.Google.com上选择“思考”，一旦选择“思考”了以后，你就进入Gemini 3 Pro的这个思考模式了。
然后呢，你再去添加工具“绘图”，上头画了一个香蕉，你就进入了Nano Banana Pro的绘制方式了。

你如果一开始选的是Gemini 2.5 Flash，你再去画图的话，就是Nano Banana，就没有这个Pro了，所以这块大家一定要注意。

那你说，我在AI studio.Google.com里去画行不行呢？也行，但是要注意这个里头呢，有一些跟以前不太一样的地方。很多的谷歌模型，甭管是Gemini模型还是画图的模型，我们都可以在AI studio.Google.com里边去使用，但是使用Nano Banana Pro之前要去给它设置一个API key，不设置的话它是不让你用的。而且设置API key还是挺麻烦的，你要先去里边创建一个project，先创建一个工程，然后在这个工程里头再创建一个API key。到这还不行，还要给API key挂支付，没有支付的API key，它是不允许你使用的，必须有支付。

那你说我是不是在这个AI studio里头每画一张图都要钱呢？也不是。现在有人测试呢，是画了三张以后要求你开始付钱，13美分一张或者是24美分一张。也有人呢是测试了，可能能够免费画个十几二十张，甚至有画到50张以上才开始收费的。我估计还是跟服务器的繁忙程度有关，服务器不太忙的时候，你可能一天还是可以在上面画个十几二十张的；服务器忙的时候，画3张然后从你的API key里边扣钱。

但是有一点我们要注意是什么呢？在Gemini.Google.com里边画出来的图右下角是有水印的，它里有一个菱形的Gemini的logo的水印在上头。而你在AI studio里头，就是你自己花钱13美分一张也好，24美分一张也好，是没有这个水印的，那个图是比较干净的。那你说我是不是就直接可以用AI studio或者直接用API把这个图画出来，就可以冒充是真实图片了呢？不行的。因为这个里边呢还有水纹。水纹是什么？就是你在外面你看不着，但是呢，你可以把这个图片扔给Gemini，问他说：“这个图是不是你生成的？”他是会给你进行精准判断的。所以只是在外表看不出来而已，在里边还能有这个痕迹。

所以大家如果想画图的话，最简单的方式，如果你不太在意这个水印，就是这个菱形的标的话，就是去开这个Pro账号。特别是你如果有edu的邮箱，你去开那个，可以开开心心的使用的。至于你说：“我没有EDU邮箱怎么办？”有一个APP叫咸鱼，或者你到淘宝的网站上，你问问别人有没有办法来解决这个问题，也只能讲到这了。如果你说：“我就想用没有水印的图片。”那您就老老实实地交钱就行了。

结语：设计师的天又塌了？

好，这就是咱们今天讲的Nano Banana Pro。现在设计师，特别是平面设计师的天，又一次塌下来了。像我这种工程师直男，现在也可以开开心心地去做各种界面设计、做各种的PPT设计、什么信息图表设计，效果好的一塌糊涂。我们今天没有给大家做任何演示，请大家自己去尝试，以我刚才说的这些提示词自己去试就完了，也没有那么严谨，你说的跟我稍微有些差异都没有任何问题，我相信Nano Banana Pro会震惊你们的。

好，这期就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友参加我们的付费频道，再见。

Gemini 3 Pro对决GPT-5.1：理科状元与全能大师终极一战，谁在定义AI的下半场？｜Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

Luke Fan — Thu, 20 Nov 2025 00:43:05 +0000

Gemini 3终于发布了，这一次是真王炸了吧？

大家好，欢迎收听老范讲故事的YouTube频道。

千呼万唤始出来：Gemini 3的发布背景

2025年11月18日，谷歌Gemini 3 Pro Preview版本就这么上架了。为什么要用这样的一个词，“就这么上架了呢”？因为第一，它是千呼万唤始出来。大概从10月份开始，大家就开始传说，谷歌要开始上Gemini 3了。传来传去始终也没上来，到11月份说这个月肯定上。我还听说过是11月22号上，还听说过最晚12月份上，大家一直在等待这样的一个产品。

跟它一起传的还有另外一个产品，叫Nano Banana 2。因为上一次谷歌引起大家关注、引起大家去下载和使用的产品呢，就是Nano Banana 2，这个生图和改图的模型。这一次说Gemini 3跟Nano Banana 2一起来，而且都在进行测试，甚至很多人信誓旦旦说我用到了，我已经看到了。谷歌从Nano Banana一开始，就采用了一个很奇葩的玩法，就是在大模型发布之前，先给它们起个名字，隐姓埋名，跑到其他的这种测试平台上去测试去。大家觉得这个名字很奇怪，不知道是谁，测完了以后发现巨好，这是不是Gemini 3？那个生图模型是不是Nano Banana 2？大家都在猜这种事情。

巨头争霸：你方唱罢我登场

Nano Banana 2还没有发布，据说是在这个月或者下个月要发布。但是Gemini 3就这么直不愣登就来了。在用户们剥离层层迷雾，寻找Gemini 3和Nano Banana 2期间，其他的大模型厂商也在争先恐后的发东西，比如说GPT-5.1、GPT Atlas（也就是OpenAI的浏览器），还有Grok 4.1。这回是不是真的要来了？为什么会有这样的猜测？因为这帮大公司就跟小孩似的，特别喜欢截胡别人，我要先几天给你发布了，把你这个热点给你抢下去。最爱干这种活的是OpenAI。只要是谷歌说明天开谷歌I/O了，要开大的发布会了，他一定在这个前面一两天给你整点事出来。最有名的是在去年谷歌I/O之前的一天，OpenAI发了GPT-4o，一下就把大家震惊住了。

这一次的话，Gemini 3之前发布的非常接近的一个产品是谁呢？是Grok 4.1那个产品，也是非常神奇的一个产品，有机会再跟大家细讲。那你说这大公司，他就不能保个密吗？这真没法保密。你要开发布会，要租场地，要动用公关公司，有多少资源在这折腾，所以你是没有办法保密的。即使是你说我不开发布会，我就是偷偷的直接上线了，甭管是谷歌的人，还是Grok的人，或者是OpenAI的人，大家原来都是老同学、老同事，你想瞒真瞒不住。所以在他们的这个圈子里头，是没有什么秘密的。

发布前的“小插曲”

在等待Gemini 3期间，我们还遇到了对AI泡沫的质疑，大空头来做空来了。我们还遇到了巴菲特加仓谷歌，因为他原来不怎么买这种科技股或者是互联网公司的。巴菲特原来持仓里边，最大的科技股就是苹果，其他的像什么谷歌这些公司，他基本上不买的。突然减持苹果，大规模加仓谷歌，而且是在巴菲特退休之前的最后一单，说巴菲特是不是老爷子知道点什么了。

新的发布潮流：不开发布会，直接上线

就在这样的氛围下，谷歌就突然发布了。而且它的发布没有发布会，这也算是一个新的潮流吧，就是不开发布会，直接写一篇长文，或者写一篇博客，然后产品就直接上线了。这个是最近这一两年里头，突然流行的一种新的玩法。现在的产品发布都是什么呢？第一步，先隐姓埋名，跑到其他的，比如像Open Router这种大模型平台上面去进行测试。等这个传的满城风雨了，啪，一篇文章扔出来，产品就上架了。

Gemini 3 Pro Preview 在哪里可以使用？

现在这个产品可以在哪用呢？

第一个是AI studio，大家上aistudio.google.com上就可以使用Gemini 3 Pro了。大家注意，它是Gemini 3 Pro Preview，它后边有Preview这个单词，所以未来这个产品应该还会进行快速的迭代，所以有什么做的不太合适的地方，请多担待。
第二个，Gemini的网站也可以直接使用了，就是gemini.google.com上，现在也可以选择Gemini 3 Pro Preview这个版本了。但是呢，它的客户端上，Gemini的APP上还不能使用。
另外呢，他们还发布了一个IDE，这个IDE呢叫Anti Gravity，叫做反重力，里面带的Gemini 3 Pro的这个版本，大家可以拿它去写程序了。

这次是真王炸了吗？大模型差异的感知难题

这次是真王炸了吧？是不是比别人都遥遥领先很多呢？大模型的差异，想要让人有感知，已经越来越困难了。就像是两个人站在你面前，一个人是高考状元，另外一个人呢是高考第二名，你能够通过聊天的过程，把他们俩谁是状元分别出来吗？你分别不出来的。所以现在的大模型，他们的智力已经在很多方面远远超越人类了。所以我们再想去评估说哪个大模型有一定的差异，非常非常困难。

很多国内的大模型发布了半天，吹了半天牛，大家为什么没感觉呢？比如像什么GLM 4.6、千问Max呀、Kimi K2 thinking或者是Mini Max M2，这些模型发出来以后说我怎么这么强，大家没感觉，因为你很难感受到他比别人强在哪、差在哪。虽然有跑分，但是现在大家不怎么看跑分了，跑分是比较容易刷的，我们可以刷题就可以直接把跑分刷上去，所以大家不看了。

而国际大厂的发布的话，通常还是会有体感的。比如说最近发布的GPT-5.1，它要在5.0的基础上多了这个点一出来，确实是更人性了一些，说话不再那么愣了。Grok 4.1情商更高，在所有的跑分里头，马斯克的Grok 4.1是情商跑分最高的。而Gemini 3 Pro绝对是理工科学霸的感觉，在推理这一块，它遥遥领先超过其他所有人了。

Gemini 3 Pro Preview：核心特性一览

分数呢还是要跑的，在很多的跑分方面，要比GPT-5.1、比Grok 4.1、Claude 4.5都要强非常的多。它最关键的领先就在于推理能力，真的是遥遥领先。

Gemini 3 Pro Preview到底有什么新特性呢？

超强推理：待会咱们就主要讲这个超强推理。
原生多模态。
开发者跟企业非常友好：它主要是给程序员和理工科的人去准备的。
原生的工具支撑：待会咱們去讲什么叫原生工具支撑。
速度飞快：这个挺难想象的，跑的比原来的模型快好多。

深入解析：Gemini 的推理能力进化之路

那么Gemini的推理到底是怎么进化到现在这个状态的呢？首先看跑分，他们使用了一个叫LMArena Elo的一个跑分，这个跑分呢大于1500分了。这个非常非常关键，是人类做大模型第一次超过1500分，它大概是1501分，从来没有其他大模型超过1500分。那什么意思呢？

1000-1200分：入门级会答题了，但是呢逻辑是很容易崩的。
1200-1400分：中级的，有一定的推理能力。
1400-1500分：强者，接近当代顶级了。
超过1500分：进入超强推理者级别了，明显比普通强者要更稳定、更强的一个状态。

现在呢，GPT也好、Claude 4.5也好、Grok，包括国内的这些模型呢，一般都是在1480-1490之间晃悠，但是很难超过1500。而这个Gemini 3 Pro是第一次超过1500。

推理范式的演进

谷歌的推理范式到底是怎么一步一步走到这的呢？所有这些推理模型，第一步走的都是叫链式推理，先干什么后干什么，这叫链式推理。从链式推理再往前发展的叫树状推理。我除了先干什么后干什么呀，我可以分叉了，我走到某一步搜索完了一个结果以后，我是不是可以一下分出5个X来，把这五个分支都处理掉，这叫树状推理。树状推理再往后呢，叫图状推理。这个有什么区别呢？树是只允许分叉，不允许合并的，走到每一个节点只能是越分越细，你不能说我走着走着再把它合并起来。你如果说走着走着又合并起来了，还可以进行反复的去确认，正向走逆向走都可以了，这就是一个图状推理了，这就更进一步了。而最后一步是什么？就是在图的每一个节点都进行工具调用的这种推理。谷歌呢，现在Gemini 3已经走到这一步了。

像刚才咱们甭管是链式的，它也是很多个节点，先干什么、后干什么、最后干什么，这是每一个节点里头正常情况下它是不调用工具的。它都是说我自己先想明白了，最后我把整个都想清楚了以后，我们再去调用工具。或者说我一开始先调用一次工具，比如说我搜索了或者读文件了，读完了以后我再去推理，它是这样来工作的。树状推理呢也是这样的，在每一个节点，我都是在大模型内部使用，或者说我根据你提供的上下文去干活，最后给你一个结果。如果要调用工具的话，要么在开始调，要么在结尾调，一般情况下不会在推理的过程中去调用一大堆工具的。而现在谷歌说咱别费劲了，我们在每一个节点上，图节点有可能是分叉的、有可能合并、有可能正向、有可能逆向的这些节点上，我们在任何一个节点上，如果有需要，我就去调用工具了。而且我能够保证它不崩。别人不是说不想干，别人你要想在这个中间节点上调用工具，他有可能逻辑就直接崩掉了。谷歌说我们不用担心这个，我们逻辑特别强，中间不崩。这是Gemini 3这一次做出的最大的创新。

与其他模型的对比

其他几家是怎么干的呢？

OpenAI (GPT)：它从来不公开这件事，所以GPT是个黑盒子。现在呢，猜测它可能也是这么干的，但是具体是怎么实现的，OpenAI是三缄其口，这压根没说。
Claude：走的是另外一条路，Claude走的是外挂的路，它的很多的工具调用都是通过像Claude code呀、cursor或者是Claude的客户端，它通过这个东西来去调用的。所以导致什么呢？我们可以在Claude code里去换大模型，因为调用工具的部分是外置的，不是在模型里面的。所以呢，它的调用一方面灵活性提升了，但是呢，它调用模型的这个过程稍微有一些割裂。
国内（如Deepseek）：走的就是超强的这种推理链，在这个链式推理的基础上不断的往前推进，但是他们在调用工具上就要稍微的差一些。

“衡水中学”式训练法？Gemini 3是如何炼成的

Gemini 3他到底是怎么训练成这样的？我看了他的训练介绍以后，我觉得这玩意是衡水中学的老师给训练的吧？

改变工作方式：预测下一个正确的思维过程

首先呢，Gemini 3改变了工作方式。原来大模型呢是预测下一个词，我下一个词放哪个词出来是最优解，它是这样来工作的。但是呢，Gemini 3不这么工作，它的工作方式是预测下一个正确的思维过程。你就不要给我下一个词了，你直接给我一个下一个你要干嘛，然后我们来看看这个是不是最优解。所以在这块呢，就已经发生改变了。

训练数据：高质量合成数据

那你说我要想训练Gemini 3，我到底哪找数据去？数据是不是已经被大模型吃干抹净都用完了呢？谷歌已经承认了，所有的人类数据早就被大模型收拾干净了。所以这一次，Gemini 3使用的数据是合成数据。怎么合成呢？是用谷歌自己最强的模型阅读人类知识，再生成高质量的推理步骤。它直接训练的都是推理步骤，把所有的教科书、所有的科技论文都通过AI重写，生成训练数据。大家注意，这个里头有两个关键词，第一个关键词叫“所有”，谷歌基本上是可以认为它有所有的信息的，他把他能够找到所有的信息都塞进去了。第二个关键词叫“重写”，我们写的很多论文也好，或者是很多教材也好，为了让人类可以很好的理解，或者说为了抖个机灵，里头还有非常多的修辞，有非常多的人文的东西在里面，比较啰嗦的东西在里面。他通过重写把这玩意全去了，变成非常非常原始、非常简单的这种推理步骤。你如果遇到这样问题应该怎么推，遇到那样问题怎么推，他是拿这种数据去训练的。

原生多模态：Video + Code 配对

而多模态的话是原生对齐。怎么个原生对齐法？原来咱们也号称是各种多模态模型，是用图片跟文字去配对的。就是这是一张图，后边呢是一堆文字，我们把这个东西堆到大模型的数据里头去训练，训练完了以后呢，他就可以去反应那边是一个马还是一个驴，还是在打仗还是什么，他拿这玩意去训练的。现在呢，谷歌用了一个叫video和code的配对。你给它一视频，比如说是一个小球落到地上的视频，后边呢你配的不是一个文字“小球掉地上了”，而是一个重力加速度的Python代码。他把这样的一个视频和代码的对儿放到数据集里头去训练多模态模型去了。所以呢，他的模型上来就是世界模型，他是理解物理世界的各种规律的，这个很恐怖。

训练策略：过程奖励模型

有了数据了，那下边怎么训练呢？训练策略也很重要。第一个叫过程奖励模型 (Process Reward Model)，这个是Gemini 3跟其他人不一样的。现在的大模型呢，拿了一大堆数据去给你去做预训练去，训练好了以后，这个初级模型呢要去做强化学习，让他回答问题，然后让人去纠错。Grok 4.1就属于强化学习做的特别好的这种模型。谷歌说别费劲了，人看不过来，原来都是人看着，现在咱们直接派一个模型看着。他专门训练了一个找错的模型，让他去看着Gemini 3这个预训练模型去做后续的强化学习，然后呢是由人去监督这个找错的模型，看看他工作的状态行不行就OK了。真正底下干脏活累活的已经变成大模型了。针对推理步骤进行评判，即使结果是正确的，只要中间步骤有错误，通通打回去重来。这就是为什么是可以做推理冠军，就是这样了。你做题做到10步的过程中，必须每步都对，然后得出正确答案，我们才认为你是真的学会这道题了。你说我推了中间有三步是错的，但我答案是对的，对不起，从第三步往后通通都没分了。他是这样来控错的。所以我说为什么这个训练过程让我想起了人大附中和衡水中学这种感觉呢。

训练创新：预训练阶段即集成工具调用

在训练上呢还有一点跟以前的大模型有一个很大的区别是什么，就是Gemini 3的工具调用是直接在预训练里头做的。传统的大模型，甭管是OpenAI的，还是Anthropic或者是国内这些模型，他们都是先把模型训练好，然后呢通过强化学习再把工具调用，哪个地方该搜索了、哪个地方该读什么文件了、哪个地方应该去调用哪个工具了，再往后边再去加进去。Gemini 3它是在预训练的时候就直接把这些搜索呀、调用工具呀这些东西作为初始数据就给训练到模型里去了。这也是为什么谷歌的Gemini它可以在推理的任何一个节点上去进行工具调用，而别的大模型干这事就比较费劲，因为他们都是先做好基础后训练出来的，这个事就比较难了。这就是Gemini 3训练的一个创新点吧。

为何如此之快？揭秘Gemini 3的速度奥秘

那你说为什么Gemini 3这么大的模型还飞快呢？它叫Gemini 3 Pro，它不叫Gemini 3 Flash。过个一两个月吧，Gemini 3 Flash应该还会发布，那个时候肯定会比Pro版本要快更多。Gemini 3 Pro就已经比Gemini 2.5 Pro要快非常非常多了。原因呢几个：

硬件：谷歌自己家的TPU V6版本已经全面都装到算力中心里去了，都开始干活了，所以速度很快。而且你想他自己设计的芯片，自己做的算法，那一定是配合的紧密无间，没有任何问题。
架构优化：原来呢，这些模型都是MOE模型，叫做符合专家模型。但是现在呢，Gemini 3叫多塔MOE。什么叫多塔呢？就是你的图文、声音、视频、代码，你到不同的塔里去干活去，每个塔里还有一个专家小组在等着你呢，所以他这样速度就很快了。
投机采样：最后呢，他们使用了一个东西叫投机采样，就是用一个极小的草稿模型先快速的猜出后边的几十个词，然后由大模型一次性验证，这比大模型一个字一个字往外蹦要快非常非常多了。

全面领先？四大顶尖模型角色定位

Gemini 3现在到底算不算全面领先了呢？这么讲吧，Gemini 3 Pro就是一个理科状元加上多模态分析师的一个形象。但是呢，你跟他聊天也像是在跟理科状元聊天。你想想理科状元那个语气、语调都是什么样的，大家自己脑补一下，就知道Gemini 3到底擅长干什么、不擅长干什么了。

Grok 4.1：是互联网老司机加上自信段子手，没有什么他不敢说的，胆子比较大，情商测试第一名。你如果想找人去陪你聊天，想聊着开心，你就找这个Grok 4.1没跑，在这点上它要比Gemini 3要强很多。
OpenAI家的GPT-5.1：算是全能型创作大师加上生态整合之王。因为毕竟他是老大嘛，头一个做出来的，所以他生态整合，就是跟各种工具的结合，还是非常非常好的。而且呢，他很适合做各种的文档创作，像是一个四平八稳的文员吧。
Claude 4.5 sonnet：算是语言艺术家加上安全派哲思者，它很适合做各种的合规、企业内的这种需要进行反复验证的这种文档，它写的要比GPT-5.1还要好一点点。GPT-5.1更创意一点吧，Claude 4.5 sonnet更擅长做长篇写作、逻辑清晰、道德判断、企业合规表达。

而Claude 4.5呢原来是编程冠军，现在的话肯定要经受Gemini 3的挑战了，到底哪个好使哪个不好使，要过几天再出结果。

至于国内的大模型呢，还在努力追赶吧。国内大模型的唯一优势就是开源，巨大的模型开源呢，你们拿愿意拿回去自己折腾都没关系。

总结

最后总结一下：

今天的内容全部是Gemini 3 Pro整理生成的。如果哪说错了不要骂我，去骂Gemini 3 Pro。
第二个，我其实呢并不喜欢用Gemini 3 Pro，今天用了一天，原因也很简单，跟理科状元聊天还是有点累的。
AI还在快速的发展，Gemini 3真正的价值不是说它给我们训练出了一个理科状元，而是提出了一套新的方法论，怎么能够训练出一个理科状元来，这个是非常非常有价值的。有卡的公司就可以照着这个思路去尝试了。
至于没卡的公司怎么办，那就是另外一回事了。希望这一轮对AI泡沫的质疑可以快一些过去吧，Gemini 3 Pro确确实实是可以解决很多原来无法解决的问题的。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。