Google AI – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

Luke Fan — Sun, 14 Dec 2025 00:54:07 +0000

GPT-5.2我已经用了两天了，效果到底怎么样？

大家好，欢迎收听老范讲故事的YouTube频道。

GPT-5.2：应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的，它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5，我们记得是有三年，但是在这之前，OpenAI已经苦逼了好多年了，所以这是OpenAI自己的十周年生日礼物。这个产品，应该是应对谷歌的Gemini 3 Pro的一个紧急版本，是在GPT-5的基础上进行了调整和训练得到的，更加注重长时间推理结果，结构化的输出更像系统，也就是更不像人。这个东西很多指标都遥遥领先，当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点：输出质量显著提升

用了两天了，我自己使用的感受是什么样的？输出的结果确实要比GPT-5.1要好很多，它的输出结果更全面、更准确，而且输出的结果整个的排版格式也是非常舒服的。

缺点：速度极慢与应对策略

但是，好慢好慢好慢！重要的事情说三遍，这个东西真的是很慢。当然，也有可能是新版本刚发布，用的人很多，但确实是慢，让我把默认的thinking模式都给取消了，改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出；如果是直出模式的话，就是不判断，直接给结果就完事了。当然了，我还有一个方式来应对速度，就是在GPT旁边再开个豆包，豆包是相对来说要比它快很多的。

恼人的上下文处理异常

另外，有一个让人使得很不爽的地方是什么？就是GPT-5.2的上下文处理经常发生异常，经常有一些很诡异的表现。什么意思？我们在一个对话里聊天，你前面问了一个问题，七嚓咔嚓给你答了一大堆，你再问下一个问题的时候，他经常把上一个问题已经答过的这些内容，又给你稀里哗啦地给你挂上。

你比如说，你前头问了123三个问题，给了你一个答案，然后你再问456三个问题，他会先总结一下前面123的三个问题的答案是什么样的，然后456这三个问题的答案是什么样的，他会给你这样的一个结果，让我自己看起来觉得有些奇怪。

所以，如果大家要去问新问题了，最好要开启新话题，不要在原来的对话里头一直聊下去，因为他会把前面的所有聊天内容通通放到新的对话里边去进行思考的，会影响我们答案的质量。因为我试过几次，当我突然在一个对话里头问了他一个不相干的问题的时候，他也是会把前面我们整个对话的内容再给我回顾一下，然后我后面的这个结果会严重地受到前面问答结果的影响。所以，你要问一个不相干的问题，就开个新窗口或者打开新话题。

图像能力：推理增强，生成不变

图片的推理跟分析确实是增强了，但是生成的部分没改。

本视频的全部内容都是由GPT-5.2完成内容整理的。这是最近我的一个新习惯：讲Gemini 3 Pro的内容，就完完全全用Gemini 3 Pro生成；讲DeepSeek V3.2的内容，就完完全全由Deepseek V3.2生成；讲GPT-5.1、5.2的内容，咱们就用GPT-5.1、5.2来生成。也是让大家有一个真实的体会。

性能揭秘：深度解读新指标GDP val

很多人说不对，GPT-5.2出来了以后，各项指标遥遥领先，都领先了Gemini 3 Pro了，按照我刚才讲的这个过程，怎么好像各有春秋的样子？

选择性公布的领先指标

怎么说呢？GPT-5.2的很多指标其实并没有公布，他们只公布了自己领先于Gemini 3 Pro的这些指标。但是这已经是有了巨大变化了，在以前GPT发布的所有的指标里头，它只跟自己比，它是从来不跟别人比的。所有GPT、Gemini和Anthropic的Claude相互比较的这些数据，都是社区的人，或者说媒体的人给他总结的，他们自己是从来不发布的。老大要有老大的风度，我天天去跟下边人比，这事肯定是不行的。但是这一次，他发布的这些指标都是有Gemini 3的这个数据，也有Claude 4.5 Opus的数据，它们是进行比较的。但是，OpenAI只列出了它领先的这部分，不领先的部分通通都没说。

全新指标：GDP val（通用开发者生产力验证）

甚至为了领先，还设置了一个OpenAI的新指标，这个指标叫GDP val（val是小写，GDP大写）。这个指标的意思是什么？叫“通用开发者生产力验证”，它是模拟真实开发工作的一个测试体系，衡量一个模型是否真的能够提升专业知识工作者，尤其是开发者的生产力。像我才算是专业知识工作者，我确实是感觉到我的生产力提升了。这个指标设计的核心是什么？

首先，它不关心模型会不会做选择题，也不关心模型能不能背知识点。因为什么？我们现在让模型去回答问题，都是有搜索的，或者说有这个本地知识库的，不需要模型给你编任何东西，而且我们很害怕模型给你编东西，所以这个也不是考核指标。
至于是不是能够命中标准答案，这件事也不重要，你设置了一个标准答案，正好答的一个字都不差，这个事也不考核。

考核重点：从头到尾完成复杂任务

那他考核什么？

它考核的是一个复杂任务能不能从头到尾完成，输出是否可以直接用于工作。
中间是否出现致命的理解偏差？还有很多步的这种推理，你中间是不是理解错了？这个要去考核。
是否需要大量的人工返工？给我了一个结果，我还要告诉你说错了，这个地方你没理解对，那个地方我还有一个要求，这还有一个隐藏的条件你没有照顾到，这个就叫人工返工。这都属于重要的考核方向。

测试过程：模拟真实开发者场景

那它测试的过程是多步骤专业任务。举个例子，阅读一份需求文件，分析约束条件（一般需求文件里都是有各种约束的嘛），然后设计解决方案，给出结构化的输出——代码、文档或者是方案，直接是让他做一个完整的任务。任务通常包括隐含条件、非显性约束、多个正确但质量不同的解法，所以为什么没有标准答案。通常会给他一个真实的开发者场景，例如：

重构代码：我这个代码原来已经写好了，也能测试通过，但是它不符合高内聚、低耦合的代码规范，这种代码后续的维护、升级都比较费劲，你需要去进行重构，让一个函数变得小一点，让这个类有这种继承关系，让这个代码可以重用，这个东西叫重构。
补全缺失模块：我们写好了一些代码以后，或者缺几个模块，你给我写去。我提一句话，他得给我干完，不能说在中间问你一大堆别的事情，或者给你一个半半拉拉的一个结果，这事都不行。
修改接口而不破坏兼容性：经常我们会遇到什么？就是你写了一个代码，然后这个代码中间的某一个库升级了，这个库的接口就会发生变化，你需要告诉这个系统说，我现在接口变了，你现在去给我调整代码，让他重新给我兼容上去。这个也是GDP val的测试用例。
在限定的规则下修复问题：这个也是我们在写代码的时候经常会遇到的一个很痛苦的事情，你说出错了，他有时候没把你要求的这个地方修改掉，还把其他很多地方给你改的乱七八糟的。现在你可以告诉他说，你就给我改这几个地方，别地儿别动，他会给你去处理。

长上下文任务考核

而且会去做这种叫长上下文的任务，就是输入信息很长，包括无关信息和干扰信息都会输进来，要求模型自行判断哪些重要。考核的话就是上下文的理解能力、信息筛选能力、工作记忆的这种稳定性。但是这一块我觉得还有待提升，因为刚才我也讲了，你在这个很长的聊天过程中，如果突然问他一个很跳跃性的问题，他会搞乱掉的。这一块那你说到底是怎么更好一点？应该是允许他在工作过程中开个小差、聊个天，还是说你在工作过程中就认认真真干一个工作？反正各有取舍。

评分机制与核心要求

那评分机制是什么样的？人工评审。这个任务是否完成？是否存在关键错误？是否可以直接使用？决策是否合理？是否在边界条件下崩溃？最后这个是非常非常重要的，因为我们让AI去干活，他经常会只照顾到比较普遍的这种情况，但是一些边缘的情况就会照顾不到。这个评审是要求你都要照顾到。

在这些条件里头，最重要的是什么？一次完成。不鼓励反复追问、人类手动修正，更看重的是一次性给出可以交付的结果。所有这些文字都是GPT-5.2直接输出的，一个字都不带差的，大家看它交付的结果还是相当可以用的。明确区分部分完成和可交付，部分完成是属于不合格的，接近正确是没有价值的。

要被严重扣分的行为是：

逻辑正确，但是漏掉关键约束；
方案可行，但是忽略明确要求。

GDP Val的意义与得分情况

GDP Val的意义是什么？就是企业用户、AI agent的系统自动化流程、专业知识工作者，特别是开发、分析和研究的这些人，主要是给他们用的。至于你说我要娱乐一下、我要陪伴一下、我要跟他聊个天，这都不是给你用的。GDP Val不是在测模型有多聪明，我们也不需要它有多聪明，而是在测你把工作交给他，第二天能不能直接交差。这个是主要测试的目的。

得分的话，各模型表现如下：

GPT-5.2：70.9分
GPT-5.2 Pro：74.1分
Anthropic Claude Opus 4.5：59.6分
Gemini 3 Pro：53.5分
GPT-5.1：38.8分
GPT-4：18.6分

我觉得GDP val的指标还是非常有效的，现在我让GPT-5.2去干活的时候，拿出来的东西是基本可以直接用了，这块确实有很大提升。

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

Gemini 3 Pro发布的时候，号称领先的LM Arena的那个指标，1,501分的那个指标，这是第一次超过1,500分，有史以来第一回。这一个指标上，GPT-5.2超过了吗？首先跟大家讲，GPT-5.2这一次发布的时候就没有公开这个指标，它只公开自己领先的指标，所有不领先的指标都没有公开，所以GPT-5.2应该是没有超过。

重要澄清：GPT-5.2不是Garlic

特别强调一点，GPT-5.2不是garlic。很多的文章在说garlic发布了GPT-5.2，注意，不是。大蒜模型从来没有被验证过，也没有在任何的匿名竞技场里头出现过这个garlic模型的名字，是从内部意外流传出来的。但是Garlic模型到底应对的是哪一个版本，这个现在不确定。但是所有说GPT-5.2是garlic的，都属于是产生幻觉了，甭管是人产生的幻觉，还是AI产生的幻觉，这个事本身并不重要。

匿名参赛：Robin与Robin high

GPT-5.2自己有没有参加LM Arena的这个竞技场？参加了，他也去做了这个评分了。但是LM Arena这个竞技场里边都是匿名的，当时Gemini 3 Pro进去的时候也是匿名的，GPT-5.2进去肯定也是匿名的。它在这个里边有两个模型：

Robin：测试的评分是1,399分（Gemini 3 Pro是1,501）；
Robin high：这个模型有可能是GPT-5.2 Pro，就是那个贼贵贼贵那个模型，它的测试结果是1,486分，也没有超过1,500分。

所以这一次，OpenAI就没有列这个成绩。现在普遍认为这个Robin就是GPT-5.2，Robin high应该是GPT-5.2 Pro。

LM Arena vs GDP val：评测标准有何不同？

这个LM Arena，它叫人类偏好测试，它是由真人用户直接投票来产生的。大模型匿名参加，谁也不知道谁是谁，但是其实你说匿名，也没有那么严格，大家都能猜出来具体哪个是哪个。他的测试过程是什么？就是用户输入一个真实问题，随机抽取两个模型，不显示模型的名字，同时返回两个答案，由用户来投票。那评分的方式是每个模型上来初始分1,000分，赢了比较强的模型加分——这个里头要注意，不是赢了就加分，是赢了比较强的模型才加分——输给比较弱的模型减分。它这个过程有点像打游戏，我们经常在游戏里头需要进行配对，你现在要跟谁去做PVP了，他也会去找一些跟你的排名差不多的这些人。

他这样的评测主要强调什么？是回答是否有用，逻辑是否清晰，表达是否自然，是否符合人类的直觉，多轮对话的舒服程度到底怎么样。它不强调哪些东西？是否背过某道题，是否命中固定答案，是否针对benchmark专门优化过，这个通通都是不重要的。所以“小镇做题家”在这里头是搞不定的，包括上面OpenAI自己做那个标准，也是搞不定的。

Gemini 3 Pro得分1,501，GPT-5.2 Pro得分是1,486。但是都叫Pro，差异很大。Gemini Pro它的价格还是相对比较便宜的，也比较快；而这个GPT-5.2 Pro贼贵，没有太大的必要，千万不要去尝试，非常非常昂贵。

GPT-5.2的定位：到底强在哪里？

它是消耗了更多的算力，直接获得能用的结果。更慢、更贵，但是结果基本上直接可用。核心特点包括：

有些仓促，确实是有点着急，红色警报嘛，确实有点着急，所以会出现这种上下文错误。
更多的是面向B端用户，不是娱乐的。
主要是针对Gemini 3 Pro和Claude 4.5 Opus。

我觉得Claude 4.5 Opus有点危险。为什么？因为我们以前的竞争经常是这样：老大跟老二打了半天，把老三、老四、老五、老六全都给干掉了。Claude 4.5 Opus这一点就稍微的要弱一些。现在通过GPT-5.2大家可以看出来，全能型的模型，就像全能型的人一样，是很难做出来的，既要幽默风趣有情商，又是办公小能手，这个很难兼得。大模型的进一步提升，普通人已经越来越难以直观感知了。解决具体实际问题，是目前各大模型厂商所关注的重点。

未来值得期待的更新

OpenAI的图像生成模型：还是值得期待一下的，因为这个东西好长时间没有更新了。特别是Nano Banana叠加了迪士尼的版权授权之后，OpenAI的图像生成模型就更值得期待了。迪士尼版权授权这件事，回头我再抽时间再讲。
明年的成人模式：也许是为个人娱乐服务提供的一个新方向。但是这一块最好不要抱太大的预期。为什么？第一，不能显得老范太低俗了，这个不重要；最重要的是，OpenAI现在是风口浪尖上，大家都在拿显微镜看它，而成人模式这件事情，本身尺度是非常难以把握的。所以对于这一点上，不需要抱太大预期。

总结：一款为专业工作者而生的“红色警报”产品

总结一下，GPT-5.2作为“红色警报”产品，算是紧急上线了。我自己用起来的感觉还不错，比较符合我的使用需求。我也往自己脸上贴个金，我算是专业的知识工作者。未来GPT会继续在我的文字类工作流程中占据主导位置。中间我大概是换Gemini换了几周的时间，但是现在我又换回去了。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

我们都被骗了？Nano Banana Pro 真相揭秘：它根本不是Gemini 3简单叠加，原生多模态骨架才是颠覆关键｜Nano Banana Pro、Gemini 3 Pro、Gemini 3

Luke Fan — Sun, 23 Nov 2025 00:55:47 +0000

Nano Banana Pro发布了，它在Nano Banana的基础上到底做了些什么新东西？

大家好，欢迎收听老范讲故事的YouTube频道。

大家等了半天的Nano Banana 2没有来，出来的是Nano Banana Pro。当然，前面Nano Banana Pro也是隐姓埋名，在各种的大模型评测平台上偷跑了好长时间。所以很多人呢，信誓旦旦地说：“我已经用到了这个东西，强的没边了。”现在终于发布出来了。

从Nano Banana到Nano Banana Pro：核心区别是什么？

从名字上呢，一个叫Nano Banana，另外一个呢加了个Pro，它们到底差在哪呢？原来的Nano Banana，其实是叫做Gemini 2.5 Flash image。现在的Nano Banana Pro呢，它背后的模型是Gemini 3.0 Pro image，是两个不同版本。而且一个呢是Flash，一个呢是Pro。Flash一定是比较快，出来的东西呢相对比较粗糙；而Pro的话，出来的东西就会比较笨重了，或者说比较昂贵，而且出来的东西非常非常细致和完善，它们核心的区别就在这里。

Nano Banana也是先在外边测试了很久然后才发布，这个名字也是当时他们测试的时候使用的名字。当然这一次测试呢，并没有叫纳米香蕉，这次换了个名字，因为纳米香蕉这名字你用过了嘛，好像叫GENIMG，大概是这样的一个名字去测试的。

回顾：初代Nano Banana的革命与短板

当时Nano Banana为什么会轰动呢？就是一致性的问题彻底被解决了，包括多图融合，融合以后的一致性，这个问题已经彻底解决掉了。但Nano Banana生成图片也有很多的问题：

分辨率低：也就是1024乘1024或者1K的图片。
无法处理复杂内容：你说我要写很多文字上去，这搞不定。你只能是相对来说，主体比较简单的图片可以搞定。
文字错误多：写字经常写错，甭管是写中文、写英文，经常写错，这是当时的一个问题。

但是因为它的一致性一下就得到了突破，所以呢还是火起来了。我记得当时Nano Banana出来的时候，最火的大家玩什么？就给它一张自己的照片，说：“来，给我生成一个图片，这个图片上是电脑，电脑里头呢，有我这个照片相关的3D玩偶的一个设计模型，桌子上呢要摆我的这个照片，以及呢用这个照片生成的3D玩偶的手办。要保证你电脑里边显示的模型、你的照片跟这个手办，要完全的能够对得上，这是同一个人。”他的一致性要很强，而且要不同的风格下的一致性依然很强，当时大家玩这个梗都玩疯了。

所以呢，当时很多人在玩什么？就是多张人像图片合成一个统一场景，同时呢保证一致，同一个人在多张图片里头五官、发型、服饰相对一致，或者同一个人在多张图里头保持风格统一。对于很多的用户来说，可以去轻松地制作全家福、多角色合影、连续故事分镜，都是可以做出来了，有极强的可玩性。

而且呢，Nano Banana是有相对比较强的世界知识和场景理解能力的，因为它后面的是Gemini 2.5 Flash的一个模型，所以你问它很多东西，它的基础知识是存在的，它继承了Gemini模型的语义和知识能力。这点对于像吉梦，还有像Midjourney这样的纯画图模型来说，就绝对遥遥领先了。能够跟Nano Banana去比语义理解能力的，也就是GPT image，就是在GPT-4o的基础上画图的这个模型。

Nano Banana呢，对于地理场景，比如说像地标建筑、服饰文化元素；场景，比如医生、厨师、程序员，都可以很好地去理解，而且感觉都似模似样的，或者我们叫“对齐”了——这算是大语言模型带给我们语言的一个污染，现在大家都在讲“对齐”这个词——所以它跟我们日常认知是可以对齐的。

而且呢，Nano Banana是可以做自然语言修图和局部编辑的。很多人特别讨厌做修图的原因是什么？你需要做选择，这一块是衣服，那一块是手，这一块是背景，你要拿这个线把这个后边的背景抠出来，这个是很烦的。但是Nano Banana就不需要，你只需要告诉他说：“现在请把衣服给我换成这身，请把这个鞋给我换成那个。”或者说：“请把这个瓶子上的文字给我换一下。”就可以搞定了，再也不需要上去打点勾线了。这个事儿，是Nano Banana给大家带来的非常非常好的体验。

还有一点很重要的是什么？就是低延迟、低成本。Nano Banana画图是很便宜的，他画一张图的话，调用API大概是3.9美分画一张，非常非常便宜。而且呢，因为它画的很像，在Nano Banana发布以后呢，社交媒体直接就炸了。因为社交媒体，你的社会关系要去参加到交往过程中，如果我画完了以后，这个大美女、大帅哥看不出来是谁，这个事是没法整的。Nano Banana画出来的就可以看出来是谁了，所以Nano Banana当时出来了以后直接就炸裂了，而且是出来了以后，谷歌的股价在涨，谷歌Gemini用户量在暴涨，所以这个是真正拯救谷歌的一个产品。

Nano Banana Pro：不仅仅是简单的升级

现在好了，Nano Banana Pro来了。它在Nano Banana的基础上到底加了什么？它到底是不是Gemini 3 Pro加上Nano Banana呢？首先要确定这个东西不是。为什么？因为那个Nano Banana是Gemini 2.5 Flash image，而现在的Nano Banana Pro是Gemini 3.0 Pro，所以它们是完完全全两个不同量级、不同版本的模型。

首先，Gemini 3 Pro就是比Gemini 2.5 Pro要强很多很多的一个模型，它在推理上强的没朋友。你在这样的一个基础上去做绘图的话，那一定也是会强到没朋友的。而且Gemini 3跟Gemini 2.5还有一个很本质的区别是什么？就是它是原生多模态。它直接把图片、视频这些东西通通一把训练进去了，在最一开始的时候就训练进去的。

Nano Banana Pro是复用了Gemini 3的多模态和推理骨干。你用Nano Banana Pro画图的时候，不是上来就画图，而是说我要先搜索一下，然后我要推理一下。你可以把整个推理的过程都拉出来看，他要先画几张，画完了以后自己在那改，改完了最后出了一个他觉得还可以的结果。因为整个的推理的过程中是有图片生成的，有图片的参考，你甚至可以告诉他说：“去给我参考一下哪个哪个车，给我画一个拆解图来。”比如说我有一辆大行D9的折叠车，我说：“你给我画一辆大行D9的折叠自行车的拆解图。”夸夸夸给我画出来了。我说：“你这个车架画错了。”然后又给我画，画的还是不太对。我说：“你这样，我说你去网上搜索一个D9的图片去，然后再给我回来画。”回来就给你画对了。他就可以干这样的事情。

咱们今天讲的东西呢，都是纯语言描述，我就不跟大家去做案例了，大家自己去试，这个成本非常非常低。所以咱们今天呢，还是主要讲它的原理。Nano Banana Pro是叠加了搜索和推理的一个绘图，它当时的测试的名字叫Gempix 2。所以呢，更准确的说法不是“Gemini 3加上Nano Banana等于Nano Banana Pro”，应该是Nano的Banana Pro是Gemini 3 Pro的大脑，加上新一代的高端图像的头，并不是简单的这种拼接。

绘图能力对比：Pro版本强在哪里？

咱们先看看它的画图部分怎么样吧。在这儿跟大家确认，它在艺术性上依然是没有办法战胜Midjourney的，Midjourney在这块还是当仁不让的王者。但是Midjourney对于物理的理解、对于整个语言的理解，是没有Nano Banana Pro好的。但是咱们就说氛围和艺术感这件事，Midjourney是老大，谁都超不过它。

不考虑推理和搜索的情况下，Nano Banana Pro跟Nano Banana比起来到底是强在哪？

1. 分辨率和细节极大提升

Nano Banana也就是1K，1024*1024这么大的一个分辨率，而且呢，它呢主要用途是画头像、画这种社交媒体插图、画缩略图。而Nano Banana Pro的话，是可以支持1K、2K、4K等多档的输出，你可以输出一个很高分辨率的图片出来。特别是在4K模式下，你做UI设计稿、做产品渲染、线条比较多的这种信息图，细节很清晰的图片呀，上边的细节清晰度会明显的提高。对于需要二次剪裁或者排版的这种专业场景，是相对来说比较友好的。所以我Nendo Banana用了一段时间，我后面不用了，因为它出的图实在是没法使，但Nano Banana Pro是没毛病的。

2. 文字渲染能力显著增强

Nano Banana虽然也能写字，甚至也能写中文，但是字多了它会写错的。而且多语言，你比如说阿拉伯语、中文，特别是花体或者很复杂的一些字体，你要去要求他写的时候呢，会给你写成一塌糊涂。但是Nano Banana Pro就没有这个问题，我测试了，让他写一篇的字都没毛病。甚至有人测试什么呢？你在上头给他出一道题，然后呢他就生生的把这个题和整个题的解题步骤和结果全都给你画在图片里。我做了一个测试是什么呢？我前面跟土拨鼠一起跟大家去做过视频，讲解中国的“土基熔岩堆”。我说：“你给我画一个示意图，做一个土基熔岩堆出来。”我给他上传了一个我的照片，说：“你按照宫崎骏的风格，去给我做一个土鸡熔岩堆的讲解，哪一块是什么样的功能，进去什么、出来什么。”画的非常好，一个页面上应该有几十个字，甚至上百字，都写的非常非常好。我也尝试过一些这种花体字，原来我经常用吉梦去做这种叫创意字体，我把吉梦的提示词直接扔到Nano Banana Pro里边去，效果呢我觉得没有吉梦好，但是已经可以做各种各样的花体字了。但是拼中文，现在它距离吉梦还是稍微有一点点小差距。

现在呢，很多人拿这个Nano Banana Pro是干嘛使？直接做这个PPT。按道理说，我们应该是PPT里头写字，然后拼图，然后再排，这是一个完整PPT。现在不需要了，你直接告诉他说：“我要画一页PPT，要写一个什么样的东西。”比如像刚才我讲土基熔岩堆“土变油”的过程，给你写好了。而且你告诉他要宫崎骏风格，给你画出来了。甚至我后来又提了一个要求，我说：“给我把PayPal黑帮里头这几个老大之间的关系是什么样的，以及他们跟现在美国政府之间是什么关系，给我画出一个示意图来。”咔咔给我画好了，上面有彼得·蒂尔、埃隆·马斯克、杰里·万斯，头像全给我画上了，效果好的一塌糊涂。上面一开始写的是英文，后来我说：“你给我写成中文。”然后把谁原来在Paypal里是什么职位，现在Paypal黑帮里他是一个什么样的位置，比如彼得·蒂尔就是黑帮教父这样的一个位置，JD Vans跟他们是什么样的关系，全都给我写好了，非常漂亮，而且把所有人的头像给我画上了。你甚至可以要求他换什么风格的头像，都给你画的好好的。这一次就可以生成一个完整的PPT页面，不用再去做各种各样的调整，一句话搞定。怎么说呢，对于工程师来说足够使了，所以属于补上设计师最后短板的一个工具。

3. 多人物、多图片编辑和一致性更强

原来Nano Banana的话，出个可能四五张图、五六张图进去还是可以搞定的。现在的话，可以一次塞进去十几张图，一次上了14个脑袋，这个事儿有的人也是成功了，但是有的时候有问题，但是它正常6个脑袋是没毛病的。

4. 控制力更强

相机的角度、俯拍、仰拍、广角长焦，光线的效果，局部遮罩，比如只改脸、只改衣服、只改背景，图表、UI、信息图的这种结构化编辑，这些东西你都可以搞定。咱们说了这么多意思是什么？就是你一次可以写很多很多的文字进去，它一次允许我们写64K，就是64,000个TOKEN进去，它会很好的服从这64,000个TOKEN的指令，把你说的这一大堆东西都给你做出来，而且保证你最后画出来的东西是一致的。

5. 一致性和稳定性更强

由于背后挂着Gemini 3 Pro的多模态的骨架，所以呢，它是可以进行多轮对话的。它在多轮对话的修改过程中，可以生成同一风格的画面，这个过程是非常稳定的。你不会说：“给我改点什么东西。”改完了以后呢，你想改的没改对，没想改的地方竟然给改的乱七八糟。他不会干这个事，保证你想改什么改什么，整个的风格不会发生变化，你不想改的地方绝对不会发生改变的。所以绝对是生产力工具这东西。

训练揭秘：思考后再出图的黑盒

那你说这玩意咋训练出来的呢？谷歌对于Nano Banana以及Nano Banana Pro的训练细节呢，基本上啥也没说，用相对文明一点的话说，叫“公开的很克制”。主要讲的就是共享了多模态的主干，就是我训练大模型的时候，我就直接是用多模态的方式去训练的。它的Nano Banana系列呢，就已经不再是一个孤立的图像模型了，它后边是有Gemini多模态主干的这个图像头的。它的文本指令、世界知识、场景理解是由主干来处理，处理完了以后，再用处理好的结果再去画图，他是这样的一个工作方式。

而且呢，他们在训练的时候使用的叫联合训练和多任务目标。就是在通用图片生成的基础上，加入：

角色一致性任务（前后两张图片中的人物保持相似）
多图融合任务（也就是多张输入的图在单一的一个场景里边进行输出）
编辑任务（就输入图加修改指令）

还有这三个任务是同时进行训练的。很可能通过额外的损失函数和特殊数据集成和特殊数据集来强化这些能力。但是数据集这一块呢，反正谷歌就写了一个官话，说：“我们使用合法途径获得的开放数据集，以及人工标注数据集来进行训练的。”具体使用的什么数据集，他也没说。

Pro在这块呢增加了什么？就是思考后再出图，以及搜索增强。Pro版本强调在生成前有一轮内部的规划和思考，对于教育插图、历史场景、信息图，支持输入Google search作为知识矫正，你可以要求他去搜索。我看很多人这几天在画李白坐在桌边，跟穿着唐装的哆啦A梦一块喝酒对诗，他是可以知道哆啦A梦长什么样，也知道李白长什么样，还知道唐装长什么样，让他们一点都不违和地坐在那去写诗。

安全评估和红队测试呢，谷歌肯定也是做的呀，因为谷歌嘛，毕竟还是一个大企业、上市公司，你要是在这块犯错误的话，会有些问题的。但是它主要做的是什么呢？就是暴力、色情、仇恨、政治敏感内容，在这一块呢，做了重点的过滤以及红队测试。这会体现在某些指令明明技术上做到，但是呢给你的反馈是拒绝或者是模糊响应。不过我现在输出的各种图片还都比较正常，我没有让它测试一些比较奇怪的东西。所以呢，Nano Banana Pro在学习上呢，是一个完全闭源的，并没有告诉大家具体是怎么做的。现在我们能够看到的呢，都是总结了谷歌自己公开的一些很克制的信息，总结出来的一个结果。

版权与安全：更宽松的策略

我刚才讲到的一些提示词，大家听到有什么问题了没有？我要用宫崎骏的画风去画一个土基熔岩堆，要画埃隆·马斯克、彼得·蒂尔、杰里·万斯这些人的头像，后面我还让他画机器猫，他也给你画出来了。大家觉得是不是有问题了？

Nano Banana Pro对于风格和人物肖像这一块，是要比GPT image要松很多的。就是刚才我们讲的这些内容，你让GPT去画，好多它是画不出来的。它会告诉你，万斯现在是美国总统，他属于叫敏感政治人物，我不给你画。宫崎骏风格的不给你画。你说吉卜力工作室，他有可能给你画，但是你要宫崎骏风格，他就不给你画。现在吉卜力工作室还在起诉OpenAI，官司还打着呢。但是谷歌说：“没事，我都给你画。”机器猫呢，它属于有这个IP的品牌形象，你画了机器猫，甭管你画成什么样，实际上都属于侵权。但是谷歌说：“我就给你画了。”这一点其实做的一点都不谷歌，以前这个谷歌在这一块是要比OpenAI还要严苛的，现在直接就放松了，随便玩去。

我去问谷歌的Gemini 3 Pro，你们为什么干了这么一件事呢？他给我的回复是什么呢？“我们现在呢，是用了更深层次的安全措施。一方面呢，我们提醒你了，所有遇到版权问题你自己去应对，跟我没关系。”所以如果以后有人说，你怎么用了宫崎骏风格，他会直接把这个东西扔给创作者，而不是自己来承担这个责任。第二方面呢，他会去判断，你让马斯克坐在这喝咖啡，那是允许的；你让马斯克去做一些很奇怪的事情、有侮辱性的事情，他就不允许了。所以呢，他说我们不会在前向直接禁止你，而是会在后向看看你的意图是什么。你想做一个深度伪造，你想去骗人，还是想要去侮辱这个人，这些我们就不做了。但是如果你只是想要一个马斯克的头像，我们就给你做了。至于说机器猫的头像，因为我们比如做完了以后，也是会发到Twitter或者发到YouTube上，他就是说你发上来了，最后我来处罚你的YouTube作品就完了，我就自己不承担这个责任了。

这个是谷歌这一次采用的安全措施。OpenAI是反过来的，OpenAI是前置合规，就是你只要提名字，我就不给你画了。OpenAI呢，其实前置跟后置他都做。有的时候你让OpenAI给你画图的时候，他会先画，画完了以后，你看这图已经出到百分之七八十了，然后突然告诉你说：“对不起，我审核了，你这事有问题。”咔，给你把图删了。我遇到过几次了，所以我现在已经基本上不再使用OpenAI画图了，我现在画图基本上是Midjourney、吉梦和Nano Banana Pro了。

价格不菲的“Pro”体验

既然叫Pro了，有一个很重要的问题是什么？贵。它叫Pro了，一定比原来的这个叫Flash的要贵很多。刚才咱们讲了Nano Banana，也就是Gemini 2.5 Flash image，它画一张图是3.9美分，基本上是4美分的样子。而这个Nano Banana Pro画一张图是多少钱呢？

1K或2K的图：13美分一张，这个就要贵很多了。
4K的大图：24美分一张。

它要比咱们使用的GPT、使用的Midjourney、吉梦都要贵很多。吉梦是最便宜的，吉梦大概画一张图出来2K的图片不要钱，4K的也很便宜，可能就是几分钱人民币，换成美分就是零点几美分。Nano Banana Pro非常非常贵，大家画图的时候一定要小心。

如何使用Nano Banana Pro？

我们怎么拿Nano Banana Pro去画图呢？

免费用户：在Gemini.Google.com上就可以使用了，但是呢一天只允许画3张。你在APP上画也是可以的，Gemini APP上一天只允许画3张。
Pro用户：大概一天是可以画个几十张，有时候是100张，他并没有给我们一个特别明确的数据，还是要看服务器忙不忙，服务器不忙就多给你画几张，大概是这样的一个情况。因为我的Gemini账号呢，是拿我儿子的edu邮箱注册的Pro账号，可以免费使15个月的Pro账号，所以呢我现在是可以在Gemini网页或者是Gemini APP上开开心心的画图的。

那你说画超了怎么办？画超了以后就给你降级，降级成Nano Banana，就没有那个Pro了，你就会快速地得到一张比较粗糙的图，大概就是这样的一个情况。

那你说我怎么开启Nano Banana Pro的绘图呢？很简单。

你要在APP或者是Gemini.Google.com上选择“思考”，一旦选择“思考”了以后，你就进入Gemini 3 Pro的这个思考模式了。
然后呢，你再去添加工具“绘图”，上头画了一个香蕉，你就进入了Nano Banana Pro的绘制方式了。

你如果一开始选的是Gemini 2.5 Flash，你再去画图的话，就是Nano Banana，就没有这个Pro了，所以这块大家一定要注意。

那你说，我在AI studio.Google.com里去画行不行呢？也行，但是要注意这个里头呢，有一些跟以前不太一样的地方。很多的谷歌模型，甭管是Gemini模型还是画图的模型，我们都可以在AI studio.Google.com里边去使用，但是使用Nano Banana Pro之前要去给它设置一个API key，不设置的话它是不让你用的。而且设置API key还是挺麻烦的，你要先去里边创建一个project，先创建一个工程，然后在这个工程里头再创建一个API key。到这还不行，还要给API key挂支付，没有支付的API key，它是不允许你使用的，必须有支付。

那你说我是不是在这个AI studio里头每画一张图都要钱呢？也不是。现在有人测试呢，是画了三张以后要求你开始付钱，13美分一张或者是24美分一张。也有人呢是测试了，可能能够免费画个十几二十张，甚至有画到50张以上才开始收费的。我估计还是跟服务器的繁忙程度有关，服务器不太忙的时候，你可能一天还是可以在上面画个十几二十张的；服务器忙的时候，画3张然后从你的API key里边扣钱。

但是有一点我们要注意是什么呢？在Gemini.Google.com里边画出来的图右下角是有水印的，它里有一个菱形的Gemini的logo的水印在上头。而你在AI studio里头，就是你自己花钱13美分一张也好，24美分一张也好，是没有这个水印的，那个图是比较干净的。那你说我是不是就直接可以用AI studio或者直接用API把这个图画出来，就可以冒充是真实图片了呢？不行的。因为这个里边呢还有水纹。水纹是什么？就是你在外面你看不着，但是呢，你可以把这个图片扔给Gemini，问他说：“这个图是不是你生成的？”他是会给你进行精准判断的。所以只是在外表看不出来而已，在里边还能有这个痕迹。

所以大家如果想画图的话，最简单的方式，如果你不太在意这个水印，就是这个菱形的标的话，就是去开这个Pro账号。特别是你如果有edu的邮箱，你去开那个，可以开开心心的使用的。至于你说：“我没有EDU邮箱怎么办？”有一个APP叫咸鱼，或者你到淘宝的网站上，你问问别人有没有办法来解决这个问题，也只能讲到这了。如果你说：“我就想用没有水印的图片。”那您就老老实实地交钱就行了。

结语：设计师的天又塌了？

好，这就是咱们今天讲的Nano Banana Pro。现在设计师，特别是平面设计师的天，又一次塌下来了。像我这种工程师直男，现在也可以开开心心地去做各种界面设计、做各种的PPT设计、什么信息图表设计，效果好的一塌糊涂。我们今天没有给大家做任何演示，请大家自己去尝试，以我刚才说的这些提示词自己去试就完了，也没有那么严谨，你说的跟我稍微有些差异都没有任何问题，我相信Nano Banana Pro会震惊你们的。

好，这期就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友参加我们的付费频道，再见。

深度剖析谷歌A2A：AI智能体协作的标准化未来看似诱人，但“看起来很美，就不要想得太美了”，我们能从历史复杂系统的失败中吸取哪些宝贵教训以指导当前选择？

Luke Fan — Fri, 09 May 2025 00:40:11 +0000

谷歌的A2A看起来很美，就不要想得太美了。

大家好，欢迎收听老范讲故事的YouTube频道。

“看起来很美，就不要想得太美了。”这句话哪来的呢？来自于猫腻的小说《将夜》。这个里面有一句话叫：“你长得很美，所以就不要想得太美了。”事情是在哪呢？是在隆庆皇子看到桑桑酒量很好，就想收其为侍女。桑桑呢，是里面的一位女主，而隆庆皇子呢，长得很漂亮，而且身份地位非常高，手持大义的一个人。他提出了这样的一个要求，当时的主人公宁缺就进行了反击，说：“你长得很美，就不要想得太美了。”意思是什么呢？就是保持对现实的清醒认知，你要知道自己是谁，几斤几两。而且呢，也要敢于对强权逻辑进行挑战。

那么，这个事儿跟今天咱们要讲的谷歌A2A有什么样的关系呢？首先先讲一下，谷歌A2A到底是个什么东西。

计算机和软件专家这么多年来呢，其实一直在为一件事情努力。什么事呢？就是让不同的系统，特别是异构的系统（所谓异构系统，就是说你的系统拿C语言写的在Windows上，我的系统是拿Python语言写的在Linux上，他的系统是拿其他什么语言写的在IBM小型机上或者什么这样的），让这些系统呢可以相互之间配合协作，完成一些更复杂的服务。这是这么多年来，计算机专家一直在努力干的事情。

很多的系统都沉淀下来了，你说你把那玩意扔了，让我重写一遍，这肯定不行。所以一定还是要让这个系统为我们大的事业去提供新的热量，不能推翻重干。这些旧的系统呢，实际上里边就都是“屎山”嘛，我们管它叫“屎山代码”。你真要重写一遍，也不是说写不出来，但是你总会丢一点什么东西。现在可能觉得不是什么问题，但是等以后需要找的时候，这个成本就可能会变得很高。你丢掉的这些东西，可能会变得很值钱。这些东西就是能不动就不动。像程序员讲的就是什么：“说我这代码很烂，说能跑不？”什么意思？“说代码跟你有一个能跑就行，要么代码能跑，要么你能跑。”所以能不动就别动这个东西，就要想办法让大家凑合起来，先把事儿做了。

A2A呢，其实也是类似这么一个事儿。它呢是人工智能代理协作的一个标准化方案。现在我们都在玩AI Agent，各种各样的Agent要搁在一起。A2A呢，就是Agent to Agent。它呢定义了统一的通信规则，智能体发现呀、任务分配呀、状态管理呀，我们定了一堆规则来解决跨平台协作的问题。比如说你这是Gemini，那边是OpenAI，Gemini下头还有一大堆的……

什么谷歌翻译、谷歌搜索、谷歌地图，OpenAI后头没准还有一堆office的东西，还有GPT4O画图。等于有一些这样的工具，它们相互之间说：“我们要去聊个天了，怎么能够协作把这事做好？”

我也不惦记说我把OpenAI干掉，你通通都用Gemini；OpenAI反过来也是这样，我也不惦记把Gemini干掉。咱们协作着能够把事干完就完了，各自把擅长的事情做掉。这个事呢，看起来挺美的是吧？

那咱们接着往下说。它呢还挺开放，这个协议。它基于什么样的通信协议呢？是HTTP，也就是咱们浏览网页的这个协议。通过这个协议来走，不要再去定义一些新的私有协议了。

然后，我们使用叫“服务端事件”的这样一种方式，来去确定说对方的服务器干怎么样了。叫SSE，Server-Side Event。通过这样的方式，来确定对方干完了没有，干成什么样了，去决定这个事情是不是接着往前走。

然后呢，让每个智能体写一个叫“智能体卡片”的东西。什么叫智能的卡片呢？就是说你写一个文件说：“我是谁谁谁，我擅长干什么，我在哪个服务器上，我的位置怎么样，你怎么找到我。”大概写这样的一个卡片，然后把这卡片呢找一个地方放好。

当要开始干活的时候，咱把这个卡片都找齐了。有这么多智能体，这个适合画画，那个适合搜索。我们把这些智能体都找齐了，然后现在我们要看一下，我们整个要干一什么事，让各个智能体一起去干活去。

然后还有一些什么状态管理干嘛呢？比如说视频渲染。我现在用AI生成视频了，这挺慢的对吧？你不能让所有的都等它一个。你说：“这边你去生成视频去吧，我就不管你了。”过一段时间去看一下，你的这个状态做完没有。过个5秒钟试一次，过个5秒钟试一次，发现做完了，我再把这个视频拎出来，合到整个的结果里边去。

它呢，通过任务对象，实现复杂协作流程的异步管理。这个话呢是有点计算机专业术语了。这里呢讲一下什么叫异步吧。同步、异步，这是两个相对应的词。

同步的意思就是说，我这边发出请求了，你要给我干一什么事。但是呢，你没干完之前，我站这等着你；你等你干完了，我拿着结果，我再往前走。这叫同步。

异步什么意思？就是刚才咱们讲的，你给我干事去，我就干别的去了。过过一会我再来回来看你，看一下状态对不对。状态变了以后，我再把你结果回收，我再接着去做其他事情。这个就是并行处理的一种方式吧。

所以现在呢，A2A都是可以支持异步处理的。这是目前为止Agent的通讯方面。

定义的最完善的一个协议了。能想到的，没想到的，基本上人全想到了。谷歌嘛，也不是白来的。

现在呢，有三种主流的大模型通讯协议，其实干的活都差不太多。

第一种是Function Calling，OpenAI做的。它呢，就是你把能够做事的工具描述成一个Function，也是用一个描述文件把它描述完了以后，告诉大模型说：“我这有一功能，等你需要的时候你就调就完了。”这是一种方式。

第二种方式呢，就是MCP，叫Model Context Protocol（模型上下文协议）。它呢，是把刚才我们讲的这个描述的过程变成了一个对服务的描述，说：“我这个功能是在哪台服务器上，或者是在本地的一个外部服务器上，怎么去调用，它能解决哪些问题，输入哪些参数，输出哪些参数。”也是这样的一个描述，然后把这个描述扔给大模型，它就干活去了。

那A2A呢，其实干的活也类似。它呢，就是说我们把所有的，甭管是功能也好，还是Agent也好，我们通通都写出卡片来：“我能干什么，我在哪。”然后把这些东西通通都扔在一个地儿，等干活的时候，我们把所有的卡片收集齐了，然后来决定到底怎么去干。

其实干的活都差不太多，只是呢：
– Function Calling必须是在本地进行编程；
– 而这个MCP呢，它支持调用服务器上的东西，可以调用远程的东西；
– 而A2A呢，就是你调用的东西不再仅仅是由大模型调用工具了，它可以在Agent之间、大模型之间进行调用了。它是这样的一个更进一步的协议。

说白了，这三个都差不太多，都是基于JSON的方式将功能描述出来，然后将这些描述呢作为提示词直接扔给大模型，扔过去就完事了。大模型适时调用，就是我需要的时候我就调它，调完了以后呢，让大模型是等在这儿，还是说接着干别的事去，定期来问询，来去确认状态。等收到结果以后，再把结果合并到大模型推理过程中再去干别的。

他们三个的区别就是一个比一个复杂，一个比一个完备，也就差在这了。那你说做的完备，这有什么不好的吗？这不应该把它设计的很完备吗？很多人听了以后说：“老范学了这么多年计算机，难道老想着拿这种半不拉拉的东西就凑合吗？”这个您还真说对了。最后流行起来的各种技术，基本上都是这种半吊子设计的。特别完备的技术一般都流行不起来。

给大家举一些历史上的这种追求完备性的失败的案例吧。这里说的失败呢，并不是说完全没有用起来的这个东西，而是说在未来没有成为主流协议，在大的竞争中失败了。

但是呢，还是有一些单位会去使用的这些方案。第一个叫Lotus Domino，这个呢就是多米诺骨牌那个Domino。这个是1996年出来的东西。IBM当时呢收购了Lotus Notes之后，雄心勃勃推出的系统。Lotus现在估计很多年轻人都没听说过。大家现在使用什么office、Excel这些东西，都觉得很强大很厉害。最早的做类似这种功能的人是谁呢？就是Lotus。第一个在电脑上可以让大家方便处理表格的工具，叫Lotus 123。Lotus也做了类似于Powerpoint、类似于word这样的工具。所以最早做office的实际上是他。后来被微软抄袭了以后呢很生气，把自己卖给IBM了。IBM说这我得替你把公道整回来，我们要让大家一起来继续用Lotus。

Lotus当时还做了一个叫Lotus Notes的工具，不但是把office功能都做完了，还做了很多的协作功能。我现在需要做工作流，我需要做OA系统，我需要在里头有权限，有正常的批文流转，你就可以用Lotus Notes来去实现的，要比office当时还是要领先挺多的。后来到IBM手里来说，我们既然已经可以让这个东西流转起来了，我们要怎么更进一步？他们就出了一个东西叫Domino。你像Domino骨牌嘛，推倒一块，哗啦哗啦要一一直这么往前走，起这个名字也是为了这个。它是最早期的群建解决方案，就是说可以把各种的信息都包装起来，支持分布式的数据库和安全机制。我的数据库不一定都要存在一个地儿，我可以存在不同的地方，相互之间配合来工作。曾被视为办公自动化的标杆，当时也是觉得非常非常强大。我当时还学了好长时间呢，学这玩意说这东西实在太厉害了，比其他的这些都要强太多了。因为各种你能想到没想到的，它全都给你做出来了。

但是就遇到了很多其他的问题。第一个是对于复杂系统的二次开发成本和部署、培训成本实在太高了。你要想开发这个系统，你必须要先去问说有几个处长，谁审批什么事，大家是怎么流程，你要先去干这个事。而且整个开发完了以后，你还要培训人家怎么使用。整个都做完了以后呢，下一个问题是什么？你业务不能变。你只要业务开始发生变化了，有迭代了，你刚才花的这些成本再来一遍，这个是很麻烦的。而且呢Lotus Domino有一个很大的问题是什么？它不支持Windows。IBM当时在推一个东西叫OS 2。IBM为什么去收购Lotus？

Lotus Notes回来要去跟Office打一仗呢，不服气。我是花钱找比尔·盖茨去开发PC DOS，后来又花钱去找比尔·盖茨去开发OS/2。结果比尔·盖茨呢，一边拿着我的钱去给我开发OS/2，还给我拖进度；一边自己偷偷把Windows做出来了。Windows把我的OS/2打得满地找牙，我不服气。我要找一个跟我补齐短板的东西，一起去把Windows跟Office重新战胜它。OS/2也没有打败Windows，Lotus Domino也没有打败Office，大概就是这样的。

而且IBM还干了一个什么事呢？它全套使用自己的解决方案和开发工具。你要想集成一些第三方的拓展，也是很麻烦的。最后呢，是被微软的Exchange和Office打败了。微软Exchange实际上是一套功能很强大的外部服务器。这是我们讲的第一个案例。

第二个案例是什么呢？叫SOA。这个东西呢，叫服务导向架构（Service-Oriented Architecture）。2000年左右开始推出，谁在后边推呢？Sun、IBM和Oracle。它是基于当时的J2EE架构。它什么意思呢？就是当时大家都是用Java去开发各种各样的业务系统。这些业务系统呢，你要让它跑起来，要让它相互串起来。比如说你开发了一个库存管理，我开发了一个电商系统，那边开发了一个物流系统。我们怎么能够让系统整个转起来呢？我最好是写一个我们叫企业服务总线，在这个上面把这个物流系统、仓储系统、电商系统串一块，这个事不就跑起来了吗？你们那系统我们就不用改了。

这个当时其实也是一个非常美好的愿景。它呢，支持跨语言、跨平台的服务调用，推动企业应用集成的规模化落地。你们原来都已经花了好多钱了，做了一大堆的这种子系统了，我们现在给你串起来，干这样的一个事情。他干这个事跟刚才咱们讲那个Lotus Domino有一点点像，只是这一块呢要更先进一些了。但最后也是失败了。

失败的原因呢，是服务编排依赖集中式治理，难以适应敏捷开发。大家都做好了以后，我们现在要给大家串起来。但其实是真的是每一个提供的服务接口后边都是一个屎山，光看所有的这些文档都看不过来。现在想规划各种新的业务，只能在屎山基础上再叠加屎山，最后就变得越来越复杂。这是第一个错误原因。

第二个呢，过度依赖于一些特别复杂的重量级标准。比如说里头有一个叫WSDL，这个标准呢叫Web服务描述语言。

Web service description language 就是我们要发现你的服务嘛？你这儿做了一个服务怎么办呢？你要写一堆的文件，让我去调用的时候可以去发现你。我们现在做很多的类似这种工作，都要做一个叫自解释。

我这有一个仓储管理的系统，这个仓储管理系统到底应该怎么用呢？你应该调用以后，你就出一个类似于文档式的东西，告诉你要怎么怎么调用，我使用什么样的权限，要把这东西都写在文档里，或者说写在一个说明的服务里面。就是你要调用这个服务，然后我来给你说明，我给你讲清楚，你才来个调用，要有很多这样的东西在里头。

然后呢，还有一个很重的协议叫SOAP（简单对象访问协议，Simple Object Access Protocol）。你也要描述说，我这个对象到底是怎么回事，它等于有一大堆这样的协议在里头。最后调用起来就非常非常麻烦。而且你想他这些东西，你也要把改造原来那个系统。以前你这有一个仓储系统，肯定是不支持什么WSDL和SOAP的，你得改造这个东西。

最后说我们懒得动了，或者说这个系统人家已经交付了，钱都付完了，我现在再去找人弄，没人理我了。所以最后也没推起来。最终呢，这个是被微服务架构给替代了。不要做这么复杂，不要做这么重，独立部署和轻量化的通讯，最后替代了这种SOA的系统。

现在我们正在使用的各种Restful。Restful是什么？就是说我也不用去说明你这个服务到底是怎么回事，我只管调用，调用完了以后，得到一个Json的返回结果就完事了。我们现在使用OpenAI的ChatGPT，使用Gemini，使用所有的这些网上服务的调用API接口，实际上都是Restful。这个就要简单很多，不需要这种自解释。

这是第二个失败案例。第三个失败案例呢叫Sharepoint。这个东西是2006年微软推的。微软说我这有office，有Windows，还有这么复杂的权限系统，大家进到我的Windows系统里头去，谁有什么样的权限我都管好了。我也想打造一个企业级的内容管理和协作平台，文档、门户、业务流程我都给你整合在一块。你们不要再去折腾找人买OA系统，找人再定制开发，别干这事了，我都一站式给你搞定。

我们以前写OA系统的时候，有一个很头疼的点是什么呢？就是我们需要处理office文档。你做了一大堆的各种流程，最后你还是要在office文档里去干活。微软说干脆我自己弄吧。

就整了这么一套东西出来。SharePoint这个东西，我也是参加过培训，还折腾了挺久。最后呢，也没有太大用起来。

它呢，深度集成了Office套件，提供了开箱即用的文档、版本控制和工作流引擎。比如说，你这儿是财务系统，我这儿是销售系统，那边是一个HR的系统。我们自己做自己的文档管理，别人想到我们的财务系统里去看一下财务的各种规章制度、一些相关的文件，根据他的权限就可以进来找了。它的这些功能都是完整的，听起来也是头头是道的一套系统。

最后呢，也是没玩下去。用户体验极其僵化，界面复杂、定制化依赖代码开发。你要定制这东西，你还是得写大量代码，非技术用户基本上没办法进行自我配置。而且它的生态碎片化非常严重，第三方插件兼容很差。企业需要投入大量的资源维护定制化功能，因为每一个企业都有各自的需求。这块对于SharePoint系统来说，基本上就是地狱。

最后替代的技术是什么呢？Slack。我们也别费劲了，你也别研究说谁有什么权限或者什么样的，咱们直接上IM，大家聊天就完了。需要的时候就直接把文件丢在里头，就传过去了。国内呢，就是像什么钉钉、飞书、企业微信，这些系统就把它替代掉了。微软呢后来说，我也不再推SharePoint这样复杂的、完善的东西了，最后做什么？叫Microsoft Teams。咱们在这个里面聊天传文件就完了，别搞什么权限管理这么复杂东西。

那么这些项目都是怎么失败的呢？咱们讲到这么多项目。第一个呢，就是这些都是大厂推的。咱们刚才讲的这三个案例，一个是IBM的，第二个是IBM、Sun、Oracle的，第三个是微软的，都是大厂在推，而且都是花了大钱在推。这3个都是请讲师讲课、出书、组织培训，我都参加过培训，也都买过书、都学过，而且非常完善，看起来都很美。他怎么能失败呢？

第一个是默认需求和各个组件的能力是固定的，要干什么这事就一定是定死了，不许改。第二个呢，就是每一个组件到底能干什么也是确定的，不允许有什么变化。这是他们这些系统在设计之初就已经埋下的雷，所以他们应对各种变化、应对第三方的这种接入，都是非常麻烦的。

那你说我们的系统就是很复杂，怎么办呢？他们解决的方法呢，都是通过增加复杂度来应对各种灵活性问题。你想把这东西变得稍微灵活一点，可以，没问题，我们增加一点复杂度，写点程序是可以搞定的。但这件事呢，你肯定是越往后复杂度就越高，那你最后里头堆积的屎山代码就越多。

最后，这维护性就越来越差嘛。而且呢，做类似这种协议里头，还有一个很大的问题是什么？私心太重。就像刚才咱们讲那个隆庆王子的故事似的，他想要人家女主回来给自己做侍女，都是有私心的。那你说这些大厂能有什么私心呢？都是想捆绑自己家的服务。一开始IBM说我不上Windows，我要上OS/2，这不是捆绑自己的东西吗？后边Oracle、IBM和Sun去推SOA的时候，他们都是卖小机的，卖中间件服务器的。你一旦走了这条路，大家就一定要把它这个全套系统都买齐。所以肯定还是说店家推自己的东西。至于最后这个Sharepoint，那微软说你得买我的操作系统，你买我的Office，一套都买齐了，你不要用别人任何东西。大家私心都很重，所以第三方技术很难兼容进来。

这种技术应用，刚才咱们讲了不是说没人用，也有人用。但是呢，它有一个很大的前提，就是需要有自上而下的需求，由最上面开会来决定这事要这么干，一层一层讨论，从上往下布置。这个事是可以用起来的。上层决策者呢，通常喜欢大厂，也喜欢相对比较完善的方案。举个例子吧，比如日本。日本的IT企业一般都是自上而下决策的。刚才咱们讲这三个技术：Lotus Domino，部分制造业企业比如丰田，早期用于内部的OA系统，依赖定制化开发。但是因为维护成本实在太高，后来还是被淘汰了，因为你不支持Windows，这事咋弄？没法整。SOA，日本的金融行业，比如像三菱的UFJ银行，曾经通过这个SOA进行整合过。但是因为架构僵化，难以支持移动端创新，近年来逐渐转向微服务，还没有彻底转干净。当时做SOA的时候，还没有移动互联网呢，所以没想到过这个问题。Sharepoint，政府机构比如说总务省用于文档管理。但是因为界面实在太不友好了，协作效率实在太低，现在已经逐渐被Google Workspace取代了。

走这条路呢，基本上就退出了创新迭代的第一梯队。最上面这个老板，他也是信息茧房，并不知道一线的人每天在遇到什么样的事情。由他去拍脑袋决定，下边人只管执行的这种模式，不是说这东西就做不好。但是呢，四平八稳的，所有新东西跟他没关系。通过这种方式呢，日本失去了它的互联网和移动互联网时代。现在在AI时代面前呢，也在踌躇吧，大概是这样的一个状态。

总结一下，A2A协议的设计逻辑呢，与历史案例中的很多失败范式高度相似。试图通过顶层设计解决复杂的协作问题，却忽略了技术演进。

{的动态性和生态多样性。当前Agent的核心其实还是大模型，而大模型本身的能力边界还非常不清晰，依然在快速扩张之中。这两天，谷歌Gemini 2.5又升级了，现在升级到Gemini 2.5 Pro 0506版，也就是5月6号这个版本，又遥遥领先了。这次是真遥遥领先，特别是在编码这一块遥遥领先。

那你现在都已经到这样了，你说你做一大堆A2A，把代码写进去了以后，你发现大模型升级了，你咋弄？你根本没法整这个事。所以，A2A的未来呢，充满了非常大的不确定性。作为现在的一些新的程序员，或者是一些新的技术人员来说，这种系统出来呢，还是值得学习一下的。但是，不建议大家在上面投入太多的精力，把一些很重的系统直接搭建在类似这样的协议上面去，未来转向会比较麻烦的。

好，这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！