多图融合 – 老范讲故事｜AI、大模型与商业世界的故事

我们都被骗了？Nano Banana Pro 真相揭秘：它根本不是Gemini 3简单叠加，原生多模态骨架才是颠覆关键｜Nano Banana Pro、Gemini 3 Pro、Gemini 3

Luke Fan — Sun, 23 Nov 2025 00:55:47 +0000

Nano Banana Pro发布了，它在Nano Banana的基础上到底做了些什么新东西？

大家好，欢迎收听老范讲故事的YouTube频道。

大家等了半天的Nano Banana 2没有来，出来的是Nano Banana Pro。当然，前面Nano Banana Pro也是隐姓埋名，在各种的大模型评测平台上偷跑了好长时间。所以很多人呢，信誓旦旦地说：“我已经用到了这个东西，强的没边了。”现在终于发布出来了。

从Nano Banana到Nano Banana Pro：核心区别是什么？

从名字上呢，一个叫Nano Banana，另外一个呢加了个Pro，它们到底差在哪呢？原来的Nano Banana，其实是叫做Gemini 2.5 Flash image。现在的Nano Banana Pro呢，它背后的模型是Gemini 3.0 Pro image，是两个不同版本。而且一个呢是Flash，一个呢是Pro。Flash一定是比较快，出来的东西呢相对比较粗糙；而Pro的话，出来的东西就会比较笨重了，或者说比较昂贵，而且出来的东西非常非常细致和完善，它们核心的区别就在这里。

Nano Banana也是先在外边测试了很久然后才发布，这个名字也是当时他们测试的时候使用的名字。当然这一次测试呢，并没有叫纳米香蕉，这次换了个名字，因为纳米香蕉这名字你用过了嘛，好像叫GENIMG，大概是这样的一个名字去测试的。

回顾：初代Nano Banana的革命与短板

当时Nano Banana为什么会轰动呢？就是一致性的问题彻底被解决了，包括多图融合，融合以后的一致性，这个问题已经彻底解决掉了。但Nano Banana生成图片也有很多的问题：

分辨率低：也就是1024乘1024或者1K的图片。
无法处理复杂内容：你说我要写很多文字上去，这搞不定。你只能是相对来说，主体比较简单的图片可以搞定。
文字错误多：写字经常写错，甭管是写中文、写英文，经常写错，这是当时的一个问题。

但是因为它的一致性一下就得到了突破，所以呢还是火起来了。我记得当时Nano Banana出来的时候，最火的大家玩什么？就给它一张自己的照片，说：“来，给我生成一个图片，这个图片上是电脑，电脑里头呢，有我这个照片相关的3D玩偶的一个设计模型，桌子上呢要摆我的这个照片，以及呢用这个照片生成的3D玩偶的手办。要保证你电脑里边显示的模型、你的照片跟这个手办，要完全的能够对得上，这是同一个人。”他的一致性要很强，而且要不同的风格下的一致性依然很强，当时大家玩这个梗都玩疯了。

所以呢，当时很多人在玩什么？就是多张人像图片合成一个统一场景，同时呢保证一致，同一个人在多张图片里头五官、发型、服饰相对一致，或者同一个人在多张图里头保持风格统一。对于很多的用户来说，可以去轻松地制作全家福、多角色合影、连续故事分镜，都是可以做出来了，有极强的可玩性。

而且呢，Nano Banana是有相对比较强的世界知识和场景理解能力的，因为它后面的是Gemini 2.5 Flash的一个模型，所以你问它很多东西，它的基础知识是存在的，它继承了Gemini模型的语义和知识能力。这点对于像吉梦，还有像Midjourney这样的纯画图模型来说，就绝对遥遥领先了。能够跟Nano Banana去比语义理解能力的，也就是GPT image，就是在GPT-4o的基础上画图的这个模型。

Nano Banana呢，对于地理场景，比如说像地标建筑、服饰文化元素；场景，比如医生、厨师、程序员，都可以很好地去理解，而且感觉都似模似样的，或者我们叫“对齐”了——这算是大语言模型带给我们语言的一个污染，现在大家都在讲“对齐”这个词——所以它跟我们日常认知是可以对齐的。

而且呢，Nano Banana是可以做自然语言修图和局部编辑的。很多人特别讨厌做修图的原因是什么？你需要做选择，这一块是衣服，那一块是手，这一块是背景，你要拿这个线把这个后边的背景抠出来，这个是很烦的。但是Nano Banana就不需要，你只需要告诉他说：“现在请把衣服给我换成这身，请把这个鞋给我换成那个。”或者说：“请把这个瓶子上的文字给我换一下。”就可以搞定了，再也不需要上去打点勾线了。这个事儿，是Nano Banana给大家带来的非常非常好的体验。

还有一点很重要的是什么？就是低延迟、低成本。Nano Banana画图是很便宜的，他画一张图的话，调用API大概是3.9美分画一张，非常非常便宜。而且呢，因为它画的很像，在Nano Banana发布以后呢，社交媒体直接就炸了。因为社交媒体，你的社会关系要去参加到交往过程中，如果我画完了以后，这个大美女、大帅哥看不出来是谁，这个事是没法整的。Nano Banana画出来的就可以看出来是谁了，所以Nano Banana当时出来了以后直接就炸裂了，而且是出来了以后，谷歌的股价在涨，谷歌Gemini用户量在暴涨，所以这个是真正拯救谷歌的一个产品。

Nano Banana Pro：不仅仅是简单的升级

现在好了，Nano Banana Pro来了。它在Nano Banana的基础上到底加了什么？它到底是不是Gemini 3 Pro加上Nano Banana呢？首先要确定这个东西不是。为什么？因为那个Nano Banana是Gemini 2.5 Flash image，而现在的Nano Banana Pro是Gemini 3.0 Pro，所以它们是完完全全两个不同量级、不同版本的模型。

首先，Gemini 3 Pro就是比Gemini 2.5 Pro要强很多很多的一个模型，它在推理上强的没朋友。你在这样的一个基础上去做绘图的话，那一定也是会强到没朋友的。而且Gemini 3跟Gemini 2.5还有一个很本质的区别是什么？就是它是原生多模态。它直接把图片、视频这些东西通通一把训练进去了，在最一开始的时候就训练进去的。

Nano Banana Pro是复用了Gemini 3的多模态和推理骨干。你用Nano Banana Pro画图的时候，不是上来就画图，而是说我要先搜索一下，然后我要推理一下。你可以把整个推理的过程都拉出来看，他要先画几张，画完了以后自己在那改，改完了最后出了一个他觉得还可以的结果。因为整个的推理的过程中是有图片生成的，有图片的参考，你甚至可以告诉他说：“去给我参考一下哪个哪个车，给我画一个拆解图来。”比如说我有一辆大行D9的折叠车，我说：“你给我画一辆大行D9的折叠自行车的拆解图。”夸夸夸给我画出来了。我说：“你这个车架画错了。”然后又给我画，画的还是不太对。我说：“你这样，我说你去网上搜索一个D9的图片去，然后再给我回来画。”回来就给你画对了。他就可以干这样的事情。

咱们今天讲的东西呢，都是纯语言描述，我就不跟大家去做案例了，大家自己去试，这个成本非常非常低。所以咱们今天呢，还是主要讲它的原理。Nano Banana Pro是叠加了搜索和推理的一个绘图，它当时的测试的名字叫Gempix 2。所以呢，更准确的说法不是“Gemini 3加上Nano Banana等于Nano Banana Pro”，应该是Nano的Banana Pro是Gemini 3 Pro的大脑，加上新一代的高端图像的头，并不是简单的这种拼接。

绘图能力对比：Pro版本强在哪里？

咱们先看看它的画图部分怎么样吧。在这儿跟大家确认，它在艺术性上依然是没有办法战胜Midjourney的，Midjourney在这块还是当仁不让的王者。但是Midjourney对于物理的理解、对于整个语言的理解，是没有Nano Banana Pro好的。但是咱们就说氛围和艺术感这件事，Midjourney是老大，谁都超不过它。

不考虑推理和搜索的情况下，Nano Banana Pro跟Nano Banana比起来到底是强在哪？

1. 分辨率和细节极大提升

Nano Banana也就是1K，1024*1024这么大的一个分辨率，而且呢，它呢主要用途是画头像、画这种社交媒体插图、画缩略图。而Nano Banana Pro的话，是可以支持1K、2K、4K等多档的输出，你可以输出一个很高分辨率的图片出来。特别是在4K模式下，你做UI设计稿、做产品渲染、线条比较多的这种信息图，细节很清晰的图片呀，上边的细节清晰度会明显的提高。对于需要二次剪裁或者排版的这种专业场景，是相对来说比较友好的。所以我Nendo Banana用了一段时间，我后面不用了，因为它出的图实在是没法使，但Nano Banana Pro是没毛病的。

2. 文字渲染能力显著增强

Nano Banana虽然也能写字，甚至也能写中文，但是字多了它会写错的。而且多语言，你比如说阿拉伯语、中文，特别是花体或者很复杂的一些字体，你要去要求他写的时候呢，会给你写成一塌糊涂。但是Nano Banana Pro就没有这个问题，我测试了，让他写一篇的字都没毛病。甚至有人测试什么呢？你在上头给他出一道题，然后呢他就生生的把这个题和整个题的解题步骤和结果全都给你画在图片里。我做了一个测试是什么呢？我前面跟土拨鼠一起跟大家去做过视频，讲解中国的“土基熔岩堆”。我说：“你给我画一个示意图，做一个土基熔岩堆出来。”我给他上传了一个我的照片，说：“你按照宫崎骏的风格，去给我做一个土鸡熔岩堆的讲解，哪一块是什么样的功能，进去什么、出来什么。”画的非常好，一个页面上应该有几十个字，甚至上百字，都写的非常非常好。我也尝试过一些这种花体字，原来我经常用吉梦去做这种叫创意字体，我把吉梦的提示词直接扔到Nano Banana Pro里边去，效果呢我觉得没有吉梦好，但是已经可以做各种各样的花体字了。但是拼中文，现在它距离吉梦还是稍微有一点点小差距。

现在呢，很多人拿这个Nano Banana Pro是干嘛使？直接做这个PPT。按道理说，我们应该是PPT里头写字，然后拼图，然后再排，这是一个完整PPT。现在不需要了，你直接告诉他说：“我要画一页PPT，要写一个什么样的东西。”比如像刚才我讲土基熔岩堆“土变油”的过程，给你写好了。而且你告诉他要宫崎骏风格，给你画出来了。甚至我后来又提了一个要求，我说：“给我把PayPal黑帮里头这几个老大之间的关系是什么样的，以及他们跟现在美国政府之间是什么关系，给我画出一个示意图来。”咔咔给我画好了，上面有彼得·蒂尔、埃隆·马斯克、杰里·万斯，头像全给我画上了，效果好的一塌糊涂。上面一开始写的是英文，后来我说：“你给我写成中文。”然后把谁原来在Paypal里是什么职位，现在Paypal黑帮里他是一个什么样的位置，比如彼得·蒂尔就是黑帮教父这样的一个位置，JD Vans跟他们是什么样的关系，全都给我写好了，非常漂亮，而且把所有人的头像给我画上了。你甚至可以要求他换什么风格的头像，都给你画的好好的。这一次就可以生成一个完整的PPT页面，不用再去做各种各样的调整，一句话搞定。怎么说呢，对于工程师来说足够使了，所以属于补上设计师最后短板的一个工具。

3. 多人物、多图片编辑和一致性更强

原来Nano Banana的话，出个可能四五张图、五六张图进去还是可以搞定的。现在的话，可以一次塞进去十几张图，一次上了14个脑袋，这个事儿有的人也是成功了，但是有的时候有问题，但是它正常6个脑袋是没毛病的。

4. 控制力更强

相机的角度、俯拍、仰拍、广角长焦，光线的效果，局部遮罩，比如只改脸、只改衣服、只改背景，图表、UI、信息图的这种结构化编辑，这些东西你都可以搞定。咱们说了这么多意思是什么？就是你一次可以写很多很多的文字进去，它一次允许我们写64K，就是64,000个TOKEN进去，它会很好的服从这64,000个TOKEN的指令，把你说的这一大堆东西都给你做出来，而且保证你最后画出来的东西是一致的。

5. 一致性和稳定性更强

由于背后挂着Gemini 3 Pro的多模态的骨架，所以呢，它是可以进行多轮对话的。它在多轮对话的修改过程中，可以生成同一风格的画面，这个过程是非常稳定的。你不会说：“给我改点什么东西。”改完了以后呢，你想改的没改对，没想改的地方竟然给改的乱七八糟。他不会干这个事，保证你想改什么改什么，整个的风格不会发生变化，你不想改的地方绝对不会发生改变的。所以绝对是生产力工具这东西。

训练揭秘：思考后再出图的黑盒

那你说这玩意咋训练出来的呢？谷歌对于Nano Banana以及Nano Banana Pro的训练细节呢，基本上啥也没说，用相对文明一点的话说，叫“公开的很克制”。主要讲的就是共享了多模态的主干，就是我训练大模型的时候，我就直接是用多模态的方式去训练的。它的Nano Banana系列呢，就已经不再是一个孤立的图像模型了，它后边是有Gemini多模态主干的这个图像头的。它的文本指令、世界知识、场景理解是由主干来处理，处理完了以后，再用处理好的结果再去画图，他是这样的一个工作方式。

而且呢，他们在训练的时候使用的叫联合训练和多任务目标。就是在通用图片生成的基础上，加入：

角色一致性任务（前后两张图片中的人物保持相似）
多图融合任务（也就是多张输入的图在单一的一个场景里边进行输出）
编辑任务（就输入图加修改指令）

还有这三个任务是同时进行训练的。很可能通过额外的损失函数和特殊数据集成和特殊数据集来强化这些能力。但是数据集这一块呢，反正谷歌就写了一个官话，说：“我们使用合法途径获得的开放数据集，以及人工标注数据集来进行训练的。”具体使用的什么数据集，他也没说。

Pro在这块呢增加了什么？就是思考后再出图，以及搜索增强。Pro版本强调在生成前有一轮内部的规划和思考，对于教育插图、历史场景、信息图，支持输入Google search作为知识矫正，你可以要求他去搜索。我看很多人这几天在画李白坐在桌边，跟穿着唐装的哆啦A梦一块喝酒对诗，他是可以知道哆啦A梦长什么样，也知道李白长什么样，还知道唐装长什么样，让他们一点都不违和地坐在那去写诗。

安全评估和红队测试呢，谷歌肯定也是做的呀，因为谷歌嘛，毕竟还是一个大企业、上市公司，你要是在这块犯错误的话，会有些问题的。但是它主要做的是什么呢？就是暴力、色情、仇恨、政治敏感内容，在这一块呢，做了重点的过滤以及红队测试。这会体现在某些指令明明技术上做到，但是呢给你的反馈是拒绝或者是模糊响应。不过我现在输出的各种图片还都比较正常，我没有让它测试一些比较奇怪的东西。所以呢，Nano Banana Pro在学习上呢，是一个完全闭源的，并没有告诉大家具体是怎么做的。现在我们能够看到的呢，都是总结了谷歌自己公开的一些很克制的信息，总结出来的一个结果。

版权与安全：更宽松的策略

我刚才讲到的一些提示词，大家听到有什么问题了没有？我要用宫崎骏的画风去画一个土基熔岩堆，要画埃隆·马斯克、彼得·蒂尔、杰里·万斯这些人的头像，后面我还让他画机器猫，他也给你画出来了。大家觉得是不是有问题了？

Nano Banana Pro对于风格和人物肖像这一块，是要比GPT image要松很多的。就是刚才我们讲的这些内容，你让GPT去画，好多它是画不出来的。它会告诉你，万斯现在是美国总统，他属于叫敏感政治人物，我不给你画。宫崎骏风格的不给你画。你说吉卜力工作室，他有可能给你画，但是你要宫崎骏风格，他就不给你画。现在吉卜力工作室还在起诉OpenAI，官司还打着呢。但是谷歌说：“没事，我都给你画。”机器猫呢，它属于有这个IP的品牌形象，你画了机器猫，甭管你画成什么样，实际上都属于侵权。但是谷歌说：“我就给你画了。”这一点其实做的一点都不谷歌，以前这个谷歌在这一块是要比OpenAI还要严苛的，现在直接就放松了，随便玩去。

我去问谷歌的Gemini 3 Pro，你们为什么干了这么一件事呢？他给我的回复是什么呢？“我们现在呢，是用了更深层次的安全措施。一方面呢，我们提醒你了，所有遇到版权问题你自己去应对，跟我没关系。”所以如果以后有人说，你怎么用了宫崎骏风格，他会直接把这个东西扔给创作者，而不是自己来承担这个责任。第二方面呢，他会去判断，你让马斯克坐在这喝咖啡，那是允许的；你让马斯克去做一些很奇怪的事情、有侮辱性的事情，他就不允许了。所以呢，他说我们不会在前向直接禁止你，而是会在后向看看你的意图是什么。你想做一个深度伪造，你想去骗人，还是想要去侮辱这个人，这些我们就不做了。但是如果你只是想要一个马斯克的头像，我们就给你做了。至于说机器猫的头像，因为我们比如做完了以后，也是会发到Twitter或者发到YouTube上，他就是说你发上来了，最后我来处罚你的YouTube作品就完了，我就自己不承担这个责任了。

这个是谷歌这一次采用的安全措施。OpenAI是反过来的，OpenAI是前置合规，就是你只要提名字，我就不给你画了。OpenAI呢，其实前置跟后置他都做。有的时候你让OpenAI给你画图的时候，他会先画，画完了以后，你看这图已经出到百分之七八十了，然后突然告诉你说：“对不起，我审核了，你这事有问题。”咔，给你把图删了。我遇到过几次了，所以我现在已经基本上不再使用OpenAI画图了，我现在画图基本上是Midjourney、吉梦和Nano Banana Pro了。

价格不菲的“Pro”体验

既然叫Pro了，有一个很重要的问题是什么？贵。它叫Pro了，一定比原来的这个叫Flash的要贵很多。刚才咱们讲了Nano Banana，也就是Gemini 2.5 Flash image，它画一张图是3.9美分，基本上是4美分的样子。而这个Nano Banana Pro画一张图是多少钱呢？

1K或2K的图：13美分一张，这个就要贵很多了。
4K的大图：24美分一张。

它要比咱们使用的GPT、使用的Midjourney、吉梦都要贵很多。吉梦是最便宜的，吉梦大概画一张图出来2K的图片不要钱，4K的也很便宜，可能就是几分钱人民币，换成美分就是零点几美分。Nano Banana Pro非常非常贵，大家画图的时候一定要小心。

如何使用Nano Banana Pro？

我们怎么拿Nano Banana Pro去画图呢？

免费用户：在Gemini.Google.com上就可以使用了，但是呢一天只允许画3张。你在APP上画也是可以的，Gemini APP上一天只允许画3张。
Pro用户：大概一天是可以画个几十张，有时候是100张，他并没有给我们一个特别明确的数据，还是要看服务器忙不忙，服务器不忙就多给你画几张，大概是这样的一个情况。因为我的Gemini账号呢，是拿我儿子的edu邮箱注册的Pro账号，可以免费使15个月的Pro账号，所以呢我现在是可以在Gemini网页或者是Gemini APP上开开心心的画图的。

那你说画超了怎么办？画超了以后就给你降级，降级成Nano Banana，就没有那个Pro了，你就会快速地得到一张比较粗糙的图，大概就是这样的一个情况。

那你说我怎么开启Nano Banana Pro的绘图呢？很简单。

你要在APP或者是Gemini.Google.com上选择“思考”，一旦选择“思考”了以后，你就进入Gemini 3 Pro的这个思考模式了。
然后呢，你再去添加工具“绘图”，上头画了一个香蕉，你就进入了Nano Banana Pro的绘制方式了。

你如果一开始选的是Gemini 2.5 Flash，你再去画图的话，就是Nano Banana，就没有这个Pro了，所以这块大家一定要注意。

那你说，我在AI studio.Google.com里去画行不行呢？也行，但是要注意这个里头呢，有一些跟以前不太一样的地方。很多的谷歌模型，甭管是Gemini模型还是画图的模型，我们都可以在AI studio.Google.com里边去使用，但是使用Nano Banana Pro之前要去给它设置一个API key，不设置的话它是不让你用的。而且设置API key还是挺麻烦的，你要先去里边创建一个project，先创建一个工程，然后在这个工程里头再创建一个API key。到这还不行，还要给API key挂支付，没有支付的API key，它是不允许你使用的，必须有支付。

那你说我是不是在这个AI studio里头每画一张图都要钱呢？也不是。现在有人测试呢，是画了三张以后要求你开始付钱，13美分一张或者是24美分一张。也有人呢是测试了，可能能够免费画个十几二十张，甚至有画到50张以上才开始收费的。我估计还是跟服务器的繁忙程度有关，服务器不太忙的时候，你可能一天还是可以在上面画个十几二十张的；服务器忙的时候，画3张然后从你的API key里边扣钱。

但是有一点我们要注意是什么呢？在Gemini.Google.com里边画出来的图右下角是有水印的，它里有一个菱形的Gemini的logo的水印在上头。而你在AI studio里头，就是你自己花钱13美分一张也好，24美分一张也好，是没有这个水印的，那个图是比较干净的。那你说我是不是就直接可以用AI studio或者直接用API把这个图画出来，就可以冒充是真实图片了呢？不行的。因为这个里边呢还有水纹。水纹是什么？就是你在外面你看不着，但是呢，你可以把这个图片扔给Gemini，问他说：“这个图是不是你生成的？”他是会给你进行精准判断的。所以只是在外表看不出来而已，在里边还能有这个痕迹。

所以大家如果想画图的话，最简单的方式，如果你不太在意这个水印，就是这个菱形的标的话，就是去开这个Pro账号。特别是你如果有edu的邮箱，你去开那个，可以开开心心的使用的。至于你说：“我没有EDU邮箱怎么办？”有一个APP叫咸鱼，或者你到淘宝的网站上，你问问别人有没有办法来解决这个问题，也只能讲到这了。如果你说：“我就想用没有水印的图片。”那您就老老实实地交钱就行了。

结语：设计师的天又塌了？

好，这就是咱们今天讲的Nano Banana Pro。现在设计师，特别是平面设计师的天，又一次塌下来了。像我这种工程师直男，现在也可以开开心心地去做各种界面设计、做各种的PPT设计、什么信息图表设计，效果好的一塌糊涂。我们今天没有给大家做任何演示，请大家自己去尝试，以我刚才说的这些提示词自己去试就完了，也没有那么严谨，你说的跟我稍微有些差异都没有任何问题，我相信Nano Banana Pro会震惊你们的。

好，这期就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友参加我们的付费频道，再见。

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

Luke Fan — Thu, 28 Aug 2025 00:48:18 +0000

美工，或者说设计师，又要失业了吗？Gemini 2.5 Flash image发布了。

大家好，欢迎收听老范讲故事的YouTube频道。

前一段时间，有一个叫“小香蕉”的模型，叫Nano Banana。这样的一个模型呢，在很多的开源模型评比网站上，突然就火了。这种网站是干嘛的呢？还有很多的同类型的模型放在上头，你去向他提出要求，他让不同的模型同时生成结果以后，大家去做评比用的。很多人发现，这个模型很棒。

最近在很多的社交媒体上出现这种：有一个照片，旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片，然后你给他提示词说：“请按照这个照片给我布置一个桌面，桌面的左边是个电脑，电脑上应该有这个3D设计软件，正在设计3D人偶。右边呢，是一个相框，里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶，这个人偶就是根据这个照片打出来的。”给它这样的一个提示词，它就一次性给你搞定了。这个还是非常非常强悍的。

这个模型到底谁家的？搞不清楚。而且很多人还去造假的Nano Banana，为什么？因为太有流量了。一堆一堆人上来说：“我这也有一个Nano Banana，你们赶快来试一下。”我就被人骗过，上去了以后发现效果一般嘛，就很失望就走掉了。大家就猜说，这有可能是谷歌家新出的图片模型。到8月26号，突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看，就是这个Nano Banana。而且呢，在谷歌发布这个模型之前，Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter，说：“你看我们在暗示点什么吗？你们自己来猜一下，我们到底要干什么。”实际上，大家都已经明白他们要干什么了。

这种偷跑小模型的方式呢，是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过，现在Gemini 2.5 Flash image也是偷跑了一段时间，而且引起了轰动。这种偷跑模型的方式，跟大家藏着掖着，像苹果开发布会似的，发布之前大家谁都不许说，签保密协议，谁谁敢说出去就如何如何，到底有什么差别呢？差别就是，你如果是前面保密的话，最后发出来就是一锤子买卖，如果翻车，你就直接倒霉。谷歌其实翻车过好几次了，Gemini最开始发布的时候就翻车了，怎么各种问题都答不对，然后股价暴跌。现在这种偷跑模式呢，如果反馈不好呢，我就再接着改，我就不发布了；如果反馈特别好，我就赶快给它发布出来。它就不会翻车了，它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。

咱们说回来，这个Gemini 2.5 Flash image到底是一个什么样的模型呢？上一次大家喊设计师和美工失业的时候，是什么时候？是Gemini 2.0 Flash image发布的时候，就是它上一个版本发布的时候。

上一次是怎么出圈的呢？其实谷歌的Gemini画图效果一般，不是特别惊艳，上一次出圈也是因为改图。只有改图改得好，才容易出圈。很多人说不对，说这个生图模型都在干这些事情，为什么改图改得好就能出圈呢？大家要注意，跟设计师和美工相关的需求，特别是有商业价值、或者叫有人付钱的需求，是生图多还是改图多？一定是改图多。

咱们举一个最标准的例子。我们现在要做电商网站，我们在网站上需要有一个商品的展示图。我有一个商品图片了，然后呢，我需要把这个图片放在各种场景、灯光和环境下，再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊，他们用了一个特别笨的办法，他们找一照相机，三视图1、2、3拍三张照片，这就是你产品的照片了，那这产品卖得好才怪了。京东在这个北京，专门有一个巨大的影视基地，没想到吧？干嘛的呢？就是拍这个产品图的。你们谁要卖东西了，到那去把这个产品给他，他给你搭好布景，打好灯光。比如说你要卖一个杯子，他在杯子旁边给你摆上瓜果蔬菜，摆上一些小点心，把这杯子都拍一遍，再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢？这个图P上去的这部分要有版权，这个是非常非常重要的。你不能说我卖东西，这个图后边比如说我P了一个椅子或者P了一个什么东西，这个图片你没版权，这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西，你想把东西卖好，你就上拍摄基地去拍去。即使拍完了以后，他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字，那个地方还需要一些别的东西摆在一起。因为你不可能说，我要把所有拍的东西都摆一块嘛，那有的时候你就需要去抠图，然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好，大家才会说设计师跟美工要失业了。

那么，改图是不是要比生成图片要难呢？大家想没想过这个问题？答案是很肯定的：改图绝对要比生成图片要难。为什么呢？你需要先理解这张图片，这个图里哪个地方是人，这人哪个是脸，哪个是身子，哪个是腿。当我们发生一些什么样变化的时候，我怎么能够保持它的一致性？说比如说，我拍了一个低头的照片，说这不太好，你抬起头来，然后再笑一笑。我把演员拎回来，或者把模特拎回来，说你再给我拍一次，成本很高。那我们直接叫给这个改图模型，你去给我干这件事情，它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候，这玩意儿还干不太好，特别是跟人脸有关的事情。但是到2.5 Flash，这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧，我也会做一点点小的事例，放到咱们YouTube的shorts里头，这个还是挺好玩的一件事情。所以，如果我们没有办法对图片进行很深刻的理解，把需要改的部分抠出来，改完了以后再把它贴回原来那个地方去，这个是做不成的。所以这是推理能力的上升，不是它的图片生成能力上升，而是推理能力上升了。

Gemini 2.5 Flash image到底有什么新特性呢？第一个，它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型，千问3是一个多模态模型，Deepseek还是一个纯文本模型，它是没有多模态理解能力的。豆包1.6最新的版本，它是一个多模态模型，可以直接进行视觉推理的。GPT-O3、GPT-5，这都属于多模态的推理模型。你没有这种底层的话，是干不了这活的。给你一张图片，你连图片到底画的是什么都理解不了，你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天，你都分不清楚的话，你就没有办法做后边改图这个事情。你比如说给他一张图说：“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚，这个是衣服，穿上西装以后到底应该长什么样，这事要理解明白了，推理清楚了，他才有可能生成出结果来。

那么第一个就是多模态大模型。第二个，支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品，这个都可以。而且呢，在编辑的过程中，能够完美的保持人物、动物等主体的外观和姿态的一致性，这个是修图里边最难的。像我们经常让豆包去修图，或者可灵去修图，修完了以后经常发现什么问题？不像了。你像我上传一张照片，说：“来，给我把背景换成一个海滨的背景。”海滨背景换了，但是前面那人不是我了，可能看着稍微有些似是而非，但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性，而保持一致性是整个修图里边最难的。

再往后呢，它可以合成3张以上的不同图片的内容，创造出组合的新作品。我看到有人做的Demo是把6张照片，六个人照片搁一块，说：“来，把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车，不是说每次都成功，但是呢，他已经有这样的能力了。还有人去测试什么呢？我给你一屋子，给你一书柜的照片，给你一床的照片，说：“来，把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。

支持多轮次迭代式的图像修改，不影响已确定的无关元素。这话什么意思呢？就是你给他一张图，这次给我加一床，下次给我加一个床头柜，再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候，那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型，你让他在床头柜上加书的时候，那个床就发生扭曲，就发生变化了，因为他是把所有东西重新生成了一下。

这个Gemini 2.5 Flash image呢，还能够理解和转换手绘的草图，用于教育和设计应用。比如说我们手画了一张图，这应该有个按钮，那个地方应该有个窗口，你把这东西扔给他，说：“来，给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。

最后呢，是禁止生成不当内容，并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的，你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家，OpenAI还没上市，虽然它是老大，但是毕竟不是上市公司。谷歌这是上市公司，多少年的行业老大了，它真丢不起这人。它出一点点小问题，就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候？说你给我生成第一次世界大战的这个战场，图片里头发现男的女的、黑人白人黄种人在一块。说这不对，西线应该都是白人，都是男的，不应该是这样。他说不，我们要多元性。最后导致被认定为翻车，导致他们整个的产品下线。

现在呢，拿这个模型去生图还是挺便宜的，它是4美分生成一张图，整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多，但是它的效果要好一些。同时呢，谷歌还发布了另外一个更新，就是VEO 3出了一个fast版本，就是快速版本。VEO 3呢是谷歌现在的视频模型，效果也是很不错的。它们大概是40美分生成一秒钟，这个成本也降下来了，原来大概是要80美分生成一秒钟，成本直接砍半。

这些新的工具到底怎么用呢？我们今天就不给大家看演示了，我会未来一段时间慢慢的把生成的结果给大家看看吧，大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image，可以用AI studio这个网站，它的域名是aistudio.google.com。进去了以后，你就选择Gemini 2.5 Flash image，选完了以后，你就提交各种的提示词也好，给他参考图也好，多给几张参考图也好，你就命令他去干就完了。我印象里应该免费，但是我不太确定了，因为我的这个账号是已经开始付费了，所以我现在是肯定能用的。我上去了以后，它会提醒我说免费的是有一些限制的。如果你想开心使用的话，你可以通过API去调用，也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用，他们也会给大家提供一些服务的。

下一个就是API调用。API调用的话，我准备过几天去玩儿吧，这个应该也是比较有趣的。它因为实在是太新了，它更新了以后，所有挂他的像什么Defi、N8N这些东西都没有更新呢，可能要等到再过一周的版本，这些产品就更新了。但我现在去调的话，通过http直接访问，应该也是可以使用的。那就是4美分一张图，4美分一张图，是这样来用的。

你说我现在想去画视频、想去生成视频，行不行？VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号，个人的Gemini账号是Pro版本的，一个月20美金的这个版本的，每天呢可以生成三条，每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来，让它给我去跳一个街舞，然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去，挺好玩的。

那你说我现在不想在Gemini Pro里头充20美金，行不行呢？可以。你像我这样有一个上大学的儿子，我就用他的大学edu的邮箱去申请了一下，我就可以使15个月的Gemini Pro，免费就可以用了。你说你没有这样的儿子，去找一下。现在我看淘宝上好像有人去做这个生意，20人民币帮你去做验证，就是EDU邮箱，去收一个邮件去验证一下，你就可以使15个月了。但是这种我估计用的人多了以后可能会被封，这个比较危险。

当前图片生成模型的格局是什么样的呢？Gemini 2.5 Flash image这个模型出来了以后，会不会打破现在这个格局呢？现在呢，基本上是四大门派。第一个门派是Midjourney，它生成的东西呢，最精细，最有艺术感，对于各种的艺术风格模拟的最像，这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强，因为它自己的推理模型非常强嘛，就是你给它很多的元素，给它非常复杂的逻辑的时候，它都可以给你画上，但是画的结果呢差强人意，也就只能如此了。OpenAI他们去做一些改图呢，也没有Gemini 2.5 Flash image好，但是呢保持一致性上做的还可以，要比Midjourney要做的好。Midjourney就属于一个纯生图模型，改图这一块一般，或者是说一致性参考这一块呢，效果都一般。第三个，Gemini呢，特别特别适合改图，它的这个生成的部分属于将就，还能看，但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲，说中国相声界的复兴是需要靠于谦和他的家人们，每次就是于谦的爸爸、于谦他老婆、于谦的什么，全靠这玩意讲的。另外一波也是这样，stable diffusion和他的家人们，比如说stable diffusion，然后包括Flex，它们的改图有一个叫Konnect的模型，k开头的，不是c开头的，有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西，或者是在这个模型基础上再训练，再改出来的东西。国内呢，包括可灵、豆包、千问，他们的这些图片模型呢，应该都是在这个基础上去做出来的，都是一脉相承的。他们也在卷改图，但是比这个Gemini 2.5 Flash image来说，就差的非常非常远了。

Gemini的2.5 Flash image的成功，给中国的大模型公司带来什么启示没有？这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候，一切能力就都会上升。所以大家其实卷的是最底层的这个模型，而最底层的这个模型，你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了，说我现在用很少的算力卡就可以把这种模型训练出来，然后去追赶美国，这个事有些难度。所以国内的模型在这一块上，底层推理模型上，能力还是需要去追赶的。

而国内各个大模型公司呢，他们的图片模型、图形模型和推理模型一般是分开发展的，还没有真正发展到说我们要把它结合在一起。你像豆包，豆包的推理模型是推理模型，图片模型是单独的另外一个模型，它两边一点关系没有。所以这一块呢，还是需要改变的。千问也是这样的，千问呢有专门的千问的image模型，也有千问image Edit模型。我昨前两天还在玩千问image Edit，效果也还行吧，但是你要跟这个Gemini 2.5 Flash image比，这事就没法比了。但是呢，都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型，然后呢他们有一个叫IMAGEN这样的一个模型，现在已经发展到4.0了，这个模型可能用的人也不是很多，所以就直接开始转型了，把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活，它最早的那个图片生成模型叫达利，DALL·E，达利2、达利3，达利3完了以后再往后就没了，再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话，就要把这些专门的图像模型扔掉，要把这些生图的功能跟大的推理模型，或者叫基座推理模型，要捆绑在一起，才有可能进一步的提升。

现在呢，当推理能力上升的时候，完全可以使用agent的模式，极大的提升绘图跟改图的能力。刚才我讲改图，实际上是做视觉推理。你把这个图理解的很清楚了，说我到底要画什么，哪一块是动的，哪一块是不动的，你把这个东西搞明白了以后，他才可以去调用这些生图的模型，把每一个小块生成好，然后再拼在一起。像loveart这些设计师的AI agent呢，其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看，我觉得loveart这种设计师的AI agent就稍微悬了，又被覆盖了。

好，讲到这里，大家也觉得比较无聊了，赶快都去玩起来，这个东西非常非常的好玩。老范以后再看到有类似的事情，再跟大家慢慢的分享，给大家带来乐趣才是我的核心目的。

好，这个故事今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。