我们都被骗了?Nano Banana Pro 真相揭秘:它根本不是Gemini 3简单叠加,原生多模态骨架才是颠覆关键|Nano Banana Pro、Gemini 3 Pro、Gemini 3

我们都被骗了?Nano Banana Pro 真相揭秘:它根本不是Gemini 3简单叠加,原生多模态骨架才是颠覆关键|Nano Banana Pro、Gemini 3 Pro、Gemini 3已关闭评论

Nano Banana Pro发布了,它在Nano Banana的基础上到底做了些什么新东西?

大家好,欢迎收听老范讲故事的YouTube频道。

大家等了半天的Nano Banana 2没有来,出来的是Nano Banana Pro。当然,前面Nano Banana Pro也是隐姓埋名,在各种的大模型评测平台上偷跑了好长时间。所以很多人呢,信誓旦旦地说:“我已经用到了这个东西,强的没边了。”现在终于发布出来了。

从Nano Banana到Nano Banana Pro:核心区别是什么?

从名字上呢,一个叫Nano Banana,另外一个呢加了个Pro,它们到底差在哪呢?原来的Nano Banana,其实是叫做Gemini 2.5 Flash image。现在的Nano Banana Pro呢,它背后的模型是Gemini 3.0 Pro image,是两个不同版本。而且一个呢是Flash,一个呢是Pro。Flash一定是比较快,出来的东西呢相对比较粗糙;而Pro的话,出来的东西就会比较笨重了,或者说比较昂贵,而且出来的东西非常非常细致和完善,它们核心的区别就在这里。

Nano Banana也是先在外边测试了很久然后才发布,这个名字也是当时他们测试的时候使用的名字。当然这一次测试呢,并没有叫纳米香蕉,这次换了个名字,因为纳米香蕉这名字你用过了嘛,好像叫GENIMG,大概是这样的一个名字去测试的。

回顾:初代Nano Banana的革命与短板

当时Nano Banana为什么会轰动呢?就是一致性的问题彻底被解决了,包括多图融合,融合以后的一致性,这个问题已经彻底解决掉了。但Nano Banana生成图片也有很多的问题:

  • 分辨率低:也就是1024乘1024或者1K的图片。
  • 无法处理复杂内容:你说我要写很多文字上去,这搞不定。你只能是相对来说,主体比较简单的图片可以搞定。
  • 文字错误多:写字经常写错,甭管是写中文、写英文,经常写错,这是当时的一个问题。

但是因为它的一致性一下就得到了突破,所以呢还是火起来了。我记得当时Nano Banana出来的时候,最火的大家玩什么?就给它一张自己的照片,说:“来,给我生成一个图片,这个图片上是电脑,电脑里头呢,有我这个照片相关的3D玩偶的一个设计模型,桌子上呢要摆我的这个照片,以及呢用这个照片生成的3D玩偶的手办。要保证你电脑里边显示的模型、你的照片跟这个手办,要完全的能够对得上,这是同一个人。”他的一致性要很强,而且要不同的风格下的一致性依然很强,当时大家玩这个梗都玩疯了。

所以呢,当时很多人在玩什么?就是多张人像图片合成一个统一场景,同时呢保证一致,同一个人在多张图片里头五官、发型、服饰相对一致,或者同一个人在多张图里头保持风格统一。对于很多的用户来说,可以去轻松地制作全家福、多角色合影、连续故事分镜,都是可以做出来了,有极强的可玩性。

而且呢,Nano Banana是有相对比较强的世界知识和场景理解能力的,因为它后面的是Gemini 2.5 Flash的一个模型,所以你问它很多东西,它的基础知识是存在的,它继承了Gemini模型的语义和知识能力。这点对于像吉梦,还有像Midjourney这样的纯画图模型来说,就绝对遥遥领先了。能够跟Nano Banana去比语义理解能力的,也就是GPT image,就是在GPT-4o的基础上画图的这个模型。

Nano Banana呢,对于地理场景,比如说像地标建筑、服饰文化元素;场景,比如医生、厨师、程序员,都可以很好地去理解,而且感觉都似模似样的,或者我们叫“对齐”了——这算是大语言模型带给我们语言的一个污染,现在大家都在讲“对齐”这个词——所以它跟我们日常认知是可以对齐的。

而且呢,Nano Banana是可以做自然语言修图和局部编辑的。很多人特别讨厌做修图的原因是什么?你需要做选择,这一块是衣服,那一块是手,这一块是背景,你要拿这个线把这个后边的背景抠出来,这个是很烦的。但是Nano Banana就不需要,你只需要告诉他说:“现在请把衣服给我换成这身,请把这个鞋给我换成那个。”或者说:“请把这个瓶子上的文字给我换一下。”就可以搞定了,再也不需要上去打点勾线了。这个事儿,是Nano Banana给大家带来的非常非常好的体验。

还有一点很重要的是什么?就是低延迟、低成本。Nano Banana画图是很便宜的,他画一张图的话,调用API大概是3.9美分画一张,非常非常便宜。而且呢,因为它画的很像,在Nano Banana发布以后呢,社交媒体直接就炸了。因为社交媒体,你的社会关系要去参加到交往过程中,如果我画完了以后,这个大美女、大帅哥看不出来是谁,这个事是没法整的。Nano Banana画出来的就可以看出来是谁了,所以Nano Banana当时出来了以后直接就炸裂了,而且是出来了以后,谷歌的股价在涨,谷歌Gemini用户量在暴涨,所以这个是真正拯救谷歌的一个产品。

Nano Banana Pro:不仅仅是简单的升级

现在好了,Nano Banana Pro来了。它在Nano Banana的基础上到底加了什么?它到底是不是Gemini 3 Pro加上Nano Banana呢?首先要确定这个东西不是。为什么?因为那个Nano Banana是Gemini 2.5 Flash image,而现在的Nano Banana Pro是Gemini 3.0 Pro,所以它们是完完全全两个不同量级、不同版本的模型。

首先,Gemini 3 Pro就是比Gemini 2.5 Pro要强很多很多的一个模型,它在推理上强的没朋友。你在这样的一个基础上去做绘图的话,那一定也是会强到没朋友的。而且Gemini 3跟Gemini 2.5还有一个很本质的区别是什么?就是它是原生多模态。它直接把图片、视频这些东西通通一把训练进去了,在最一开始的时候就训练进去的。

Nano Banana Pro是复用了Gemini 3的多模态和推理骨干。你用Nano Banana Pro画图的时候,不是上来就画图,而是说我要先搜索一下,然后我要推理一下。你可以把整个推理的过程都拉出来看,他要先画几张,画完了以后自己在那改,改完了最后出了一个他觉得还可以的结果。因为整个的推理的过程中是有图片生成的,有图片的参考,你甚至可以告诉他说:“去给我参考一下哪个哪个车,给我画一个拆解图来。”比如说我有一辆大行D9的折叠车,我说:“你给我画一辆大行D9的折叠自行车的拆解图。”夸夸夸给我画出来了。我说:“你这个车架画错了。”然后又给我画,画的还是不太对。我说:“你这样,我说你去网上搜索一个D9的图片去,然后再给我回来画。”回来就给你画对了。他就可以干这样的事情。

咱们今天讲的东西呢,都是纯语言描述,我就不跟大家去做案例了,大家自己去试,这个成本非常非常低。所以咱们今天呢,还是主要讲它的原理。Nano Banana Pro是叠加了搜索和推理的一个绘图,它当时的测试的名字叫Gempix 2。所以呢,更准确的说法不是“Gemini 3加上Nano Banana等于Nano Banana Pro”,应该是Nano的Banana Pro是Gemini 3 Pro的大脑,加上新一代的高端图像的头,并不是简单的这种拼接。

绘图能力对比:Pro版本强在哪里?

咱们先看看它的画图部分怎么样吧。在这儿跟大家确认,它在艺术性上依然是没有办法战胜Midjourney的,Midjourney在这块还是当仁不让的王者。但是Midjourney对于物理的理解、对于整个语言的理解,是没有Nano Banana Pro好的。但是咱们就说氛围和艺术感这件事,Midjourney是老大,谁都超不过它。

不考虑推理和搜索的情况下,Nano Banana Pro跟Nano Banana比起来到底是强在哪?

1. 分辨率和细节极大提升

Nano Banana也就是1K,1024*1024这么大的一个分辨率,而且呢,它呢主要用途是画头像、画这种社交媒体插图、画缩略图。而Nano Banana Pro的话,是可以支持1K、2K、4K等多档的输出,你可以输出一个很高分辨率的图片出来。特别是在4K模式下,你做UI设计稿、做产品渲染、线条比较多的这种信息图,细节很清晰的图片呀,上边的细节清晰度会明显的提高。对于需要二次剪裁或者排版的这种专业场景,是相对来说比较友好的。所以我Nendo Banana用了一段时间,我后面不用了,因为它出的图实在是没法使,但Nano Banana Pro是没毛病的。

2. 文字渲染能力显著增强

Nano Banana虽然也能写字,甚至也能写中文,但是字多了它会写错的。而且多语言,你比如说阿拉伯语、中文,特别是花体或者很复杂的一些字体,你要去要求他写的时候呢,会给你写成一塌糊涂。但是Nano Banana Pro就没有这个问题,我测试了,让他写一篇的字都没毛病。甚至有人测试什么呢?你在上头给他出一道题,然后呢他就生生的把这个题和整个题的解题步骤和结果全都给你画在图片里。我做了一个测试是什么呢?我前面跟土拨鼠一起跟大家去做过视频,讲解中国的“土基熔岩堆”。我说:“你给我画一个示意图,做一个土基熔岩堆出来。”我给他上传了一个我的照片,说:“你按照宫崎骏的风格,去给我做一个土鸡熔岩堆的讲解,哪一块是什么样的功能,进去什么、出来什么。”画的非常好,一个页面上应该有几十个字,甚至上百字,都写的非常非常好。我也尝试过一些这种花体字,原来我经常用吉梦去做这种叫创意字体,我把吉梦的提示词直接扔到Nano Banana Pro里边去,效果呢我觉得没有吉梦好,但是已经可以做各种各样的花体字了。但是拼中文,现在它距离吉梦还是稍微有一点点小差距。

现在呢,很多人拿这个Nano Banana Pro是干嘛使?直接做这个PPT。按道理说,我们应该是PPT里头写字,然后拼图,然后再排,这是一个完整PPT。现在不需要了,你直接告诉他说:“我要画一页PPT,要写一个什么样的东西。”比如像刚才我讲土基熔岩堆“土变油”的过程,给你写好了。而且你告诉他要宫崎骏风格,给你画出来了。甚至我后来又提了一个要求,我说:“给我把PayPal黑帮里头这几个老大之间的关系是什么样的,以及他们跟现在美国政府之间是什么关系,给我画出一个示意图来。”咔咔给我画好了,上面有彼得·蒂尔、埃隆·马斯克、杰里·万斯,头像全给我画上了,效果好的一塌糊涂。上面一开始写的是英文,后来我说:“你给我写成中文。”然后把谁原来在Paypal里是什么职位,现在Paypal黑帮里他是一个什么样的位置,比如彼得·蒂尔就是黑帮教父这样的一个位置,JD Vans跟他们是什么样的关系,全都给我写好了,非常漂亮,而且把所有人的头像给我画上了。你甚至可以要求他换什么风格的头像,都给你画的好好的。这一次就可以生成一个完整的PPT页面,不用再去做各种各样的调整,一句话搞定。怎么说呢,对于工程师来说足够使了,所以属于补上设计师最后短板的一个工具。

3. 多人物、多图片编辑和一致性更强

原来Nano Banana的话,出个可能四五张图、五六张图进去还是可以搞定的。现在的话,可以一次塞进去十几张图,一次上了14个脑袋,这个事儿有的人也是成功了,但是有的时候有问题,但是它正常6个脑袋是没毛病的。

4. 控制力更强

相机的角度、俯拍、仰拍、广角长焦,光线的效果,局部遮罩,比如只改脸、只改衣服、只改背景,图表、UI、信息图的这种结构化编辑,这些东西你都可以搞定。咱们说了这么多意思是什么?就是你一次可以写很多很多的文字进去,它一次允许我们写64K,就是64,000个TOKEN进去,它会很好的服从这64,000个TOKEN的指令,把你说的这一大堆东西都给你做出来,而且保证你最后画出来的东西是一致的。

5. 一致性和稳定性更强

由于背后挂着Gemini 3 Pro的多模态的骨架,所以呢,它是可以进行多轮对话的。它在多轮对话的修改过程中,可以生成同一风格的画面,这个过程是非常稳定的。你不会说:“给我改点什么东西。”改完了以后呢,你想改的没改对,没想改的地方竟然给改的乱七八糟。他不会干这个事,保证你想改什么改什么,整个的风格不会发生变化,你不想改的地方绝对不会发生改变的。所以绝对是生产力工具这东西。

训练揭秘:思考后再出图的黑盒

那你说这玩意咋训练出来的呢?谷歌对于Nano Banana以及Nano Banana Pro的训练细节呢,基本上啥也没说,用相对文明一点的话说,叫“公开的很克制”。主要讲的就是共享了多模态的主干,就是我训练大模型的时候,我就直接是用多模态的方式去训练的。它的Nano Banana系列呢,就已经不再是一个孤立的图像模型了,它后边是有Gemini多模态主干的这个图像头的。它的文本指令、世界知识、场景理解是由主干来处理,处理完了以后,再用处理好的结果再去画图,他是这样的一个工作方式。

而且呢,他们在训练的时候使用的叫联合训练和多任务目标。就是在通用图片生成的基础上,加入:

  • 角色一致性任务(前后两张图片中的人物保持相似)
  • 多图融合任务(也就是多张输入的图在单一的一个场景里边进行输出)
  • 编辑任务(就输入图加修改指令)

还有这三个任务是同时进行训练的。很可能通过额外的损失函数和特殊数据集成和特殊数据集来强化这些能力。但是数据集这一块呢,反正谷歌就写了一个官话,说:“我们使用合法途径获得的开放数据集,以及人工标注数据集来进行训练的。”具体使用的什么数据集,他也没说。

Pro在这块呢增加了什么?就是思考后再出图,以及搜索增强。Pro版本强调在生成前有一轮内部的规划和思考,对于教育插图、历史场景、信息图,支持输入Google search作为知识矫正,你可以要求他去搜索。我看很多人这几天在画李白坐在桌边,跟穿着唐装的哆啦A梦一块喝酒对诗,他是可以知道哆啦A梦长什么样,也知道李白长什么样,还知道唐装长什么样,让他们一点都不违和地坐在那去写诗。

安全评估和红队测试呢,谷歌肯定也是做的呀,因为谷歌嘛,毕竟还是一个大企业、上市公司,你要是在这块犯错误的话,会有些问题的。但是它主要做的是什么呢?就是暴力、色情、仇恨、政治敏感内容,在这一块呢,做了重点的过滤以及红队测试。这会体现在某些指令明明技术上做到,但是呢给你的反馈是拒绝或者是模糊响应。不过我现在输出的各种图片还都比较正常,我没有让它测试一些比较奇怪的东西。所以呢,Nano Banana Pro在学习上呢,是一个完全闭源的,并没有告诉大家具体是怎么做的。现在我们能够看到的呢,都是总结了谷歌自己公开的一些很克制的信息,总结出来的一个结果。

版权与安全:更宽松的策略

我刚才讲到的一些提示词,大家听到有什么问题了没有?我要用宫崎骏的画风去画一个土基熔岩堆,要画埃隆·马斯克、彼得·蒂尔、杰里·万斯这些人的头像,后面我还让他画机器猫,他也给你画出来了。大家觉得是不是有问题了?

Nano Banana Pro对于风格和人物肖像这一块,是要比GPT image要松很多的。就是刚才我们讲的这些内容,你让GPT去画,好多它是画不出来的。它会告诉你,万斯现在是美国总统,他属于叫敏感政治人物,我不给你画。宫崎骏风格的不给你画。你说吉卜力工作室,他有可能给你画,但是你要宫崎骏风格,他就不给你画。现在吉卜力工作室还在起诉OpenAI,官司还打着呢。但是谷歌说:“没事,我都给你画。”机器猫呢,它属于有这个IP的品牌形象,你画了机器猫,甭管你画成什么样,实际上都属于侵权。但是谷歌说:“我就给你画了。”这一点其实做的一点都不谷歌,以前这个谷歌在这一块是要比OpenAI还要严苛的,现在直接就放松了,随便玩去。

我去问谷歌的Gemini 3 Pro,你们为什么干了这么一件事呢?他给我的回复是什么呢?“我们现在呢,是用了更深层次的安全措施。一方面呢,我们提醒你了,所有遇到版权问题你自己去应对,跟我没关系。”所以如果以后有人说,你怎么用了宫崎骏风格,他会直接把这个东西扔给创作者,而不是自己来承担这个责任。第二方面呢,他会去判断,你让马斯克坐在这喝咖啡,那是允许的;你让马斯克去做一些很奇怪的事情、有侮辱性的事情,他就不允许了。所以呢,他说我们不会在前向直接禁止你,而是会在后向看看你的意图是什么。你想做一个深度伪造,你想去骗人,还是想要去侮辱这个人,这些我们就不做了。但是如果你只是想要一个马斯克的头像,我们就给你做了。至于说机器猫的头像,因为我们比如做完了以后,也是会发到Twitter或者发到YouTube上,他就是说你发上来了,最后我来处罚你的YouTube作品就完了,我就自己不承担这个责任了。

这个是谷歌这一次采用的安全措施。OpenAI是反过来的,OpenAI是前置合规,就是你只要提名字,我就不给你画了。OpenAI呢,其实前置跟后置他都做。有的时候你让OpenAI给你画图的时候,他会先画,画完了以后,你看这图已经出到百分之七八十了,然后突然告诉你说:“对不起,我审核了,你这事有问题。”咔,给你把图删了。我遇到过几次了,所以我现在已经基本上不再使用OpenAI画图了,我现在画图基本上是Midjourney、吉梦和Nano Banana Pro了。

价格不菲的“Pro”体验

既然叫Pro了,有一个很重要的问题是什么?贵。它叫Pro了,一定比原来的这个叫Flash的要贵很多。刚才咱们讲了Nano Banana,也就是Gemini 2.5 Flash image,它画一张图是3.9美分,基本上是4美分的样子。而这个Nano Banana Pro画一张图是多少钱呢?

  • 1K或2K的图:13美分一张,这个就要贵很多了。
  • 4K的大图:24美分一张。

它要比咱们使用的GPT、使用的Midjourney、吉梦都要贵很多。吉梦是最便宜的,吉梦大概画一张图出来2K的图片不要钱,4K的也很便宜,可能就是几分钱人民币,换成美分就是零点几美分。Nano Banana Pro非常非常贵,大家画图的时候一定要小心。

如何使用Nano Banana Pro?

我们怎么拿Nano Banana Pro去画图呢?

  • 免费用户:Gemini.Google.com上就可以使用了,但是呢一天只允许画3张。你在APP上画也是可以的,Gemini APP上一天只允许画3张。
  • Pro用户:大概一天是可以画个几十张,有时候是100张,他并没有给我们一个特别明确的数据,还是要看服务器忙不忙,服务器不忙就多给你画几张,大概是这样的一个情况。因为我的Gemini账号呢,是拿我儿子的edu邮箱注册的Pro账号,可以免费使15个月的Pro账号,所以呢我现在是可以在Gemini网页或者是Gemini APP上开开心心的画图的。

那你说画超了怎么办?画超了以后就给你降级,降级成Nano Banana,就没有那个Pro了,你就会快速地得到一张比较粗糙的图,大概就是这样的一个情况。

那你说我怎么开启Nano Banana Pro的绘图呢?很简单。

  1. 你要在APP或者是Gemini.Google.com上选择“思考”,一旦选择“思考”了以后,你就进入Gemini 3 Pro的这个思考模式了。
  2. 然后呢,你再去添加工具“绘图”,上头画了一个香蕉,你就进入了Nano Banana Pro的绘制方式了。

你如果一开始选的是Gemini 2.5 Flash,你再去画图的话,就是Nano Banana,就没有这个Pro了,所以这块大家一定要注意。

那你说,我在AI studio.Google.com里去画行不行呢?也行,但是要注意这个里头呢,有一些跟以前不太一样的地方。很多的谷歌模型,甭管是Gemini模型还是画图的模型,我们都可以在AI studio.Google.com里边去使用,但是使用Nano Banana Pro之前要去给它设置一个API key,不设置的话它是不让你用的。而且设置API key还是挺麻烦的,你要先去里边创建一个project,先创建一个工程,然后在这个工程里头再创建一个API key。到这还不行,还要给API key挂支付,没有支付的API key,它是不允许你使用的,必须有支付。

那你说我是不是在这个AI studio里头每画一张图都要钱呢?也不是。现在有人测试呢,是画了三张以后要求你开始付钱,13美分一张或者是24美分一张。也有人呢是测试了,可能能够免费画个十几二十张,甚至有画到50张以上才开始收费的。我估计还是跟服务器的繁忙程度有关,服务器不太忙的时候,你可能一天还是可以在上面画个十几二十张的;服务器忙的时候,画3张然后从你的API key里边扣钱。

但是有一点我们要注意是什么呢?在Gemini.Google.com里边画出来的图右下角是有水印的,它里有一个菱形的Gemini的logo的水印在上头。而你在AI studio里头,就是你自己花钱13美分一张也好,24美分一张也好,是没有这个水印的,那个图是比较干净的。那你说我是不是就直接可以用AI studio或者直接用API把这个图画出来,就可以冒充是真实图片了呢?不行的。因为这个里边呢还有水纹。水纹是什么?就是你在外面你看不着,但是呢,你可以把这个图片扔给Gemini,问他说:“这个图是不是你生成的?”他是会给你进行精准判断的。所以只是在外表看不出来而已,在里边还能有这个痕迹。

所以大家如果想画图的话,最简单的方式,如果你不太在意这个水印,就是这个菱形的标的话,就是去开这个Pro账号。特别是你如果有edu的邮箱,你去开那个,可以开开心心的使用的。至于你说:“我没有EDU邮箱怎么办?”有一个APP叫咸鱼,或者你到淘宝的网站上,你问问别人有没有办法来解决这个问题,也只能讲到这了。如果你说:“我就想用没有水印的图片。”那您就老老实实地交钱就行了。

结语:设计师的天又塌了?

好,这就是咱们今天讲的Nano Banana Pro。现在设计师,特别是平面设计师的天,又一次塌下来了。像我这种工程师直男,现在也可以开开心心地去做各种界面设计、做各种的PPT设计、什么信息图表设计,效果好的一塌糊涂。我们今天没有给大家做任何演示,请大家自己去尝试,以我刚才说的这些提示词自己去试就完了,也没有那么严谨,你说的跟我稍微有些差异都没有任何问题,我相信Nano Banana Pro会震惊你们的。

好,这期就讲到这里,感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群,也欢迎有兴趣、有能力的朋友参加我们的付费频道,再见。

Comments are closed.