MidJourney对比 – 老范讲故事｜AI、大模型与商业世界的故事

我们都被骗了？Nano Banana Pro 真相揭秘：它根本不是Gemini 3简单叠加，原生多模态骨架才是颠覆关键｜Nano Banana Pro、Gemini 3 Pro、Gemini 3

Luke Fan — Sun, 23 Nov 2025 00:55:47 +0000

Nano Banana Pro发布了，它在Nano Banana的基础上到底做了些什么新东西？

大家好，欢迎收听老范讲故事的YouTube频道。

大家等了半天的Nano Banana 2没有来，出来的是Nano Banana Pro。当然，前面Nano Banana Pro也是隐姓埋名，在各种的大模型评测平台上偷跑了好长时间。所以很多人呢，信誓旦旦地说：“我已经用到了这个东西，强的没边了。”现在终于发布出来了。

从Nano Banana到Nano Banana Pro：核心区别是什么？

从名字上呢，一个叫Nano Banana，另外一个呢加了个Pro，它们到底差在哪呢？原来的Nano Banana，其实是叫做Gemini 2.5 Flash image。现在的Nano Banana Pro呢，它背后的模型是Gemini 3.0 Pro image，是两个不同版本。而且一个呢是Flash，一个呢是Pro。Flash一定是比较快，出来的东西呢相对比较粗糙；而Pro的话，出来的东西就会比较笨重了，或者说比较昂贵，而且出来的东西非常非常细致和完善，它们核心的区别就在这里。

Nano Banana也是先在外边测试了很久然后才发布，这个名字也是当时他们测试的时候使用的名字。当然这一次测试呢，并没有叫纳米香蕉，这次换了个名字，因为纳米香蕉这名字你用过了嘛，好像叫GENIMG，大概是这样的一个名字去测试的。

回顾：初代Nano Banana的革命与短板

当时Nano Banana为什么会轰动呢？就是一致性的问题彻底被解决了，包括多图融合，融合以后的一致性，这个问题已经彻底解决掉了。但Nano Banana生成图片也有很多的问题：

分辨率低：也就是1024乘1024或者1K的图片。
无法处理复杂内容：你说我要写很多文字上去，这搞不定。你只能是相对来说，主体比较简单的图片可以搞定。
文字错误多：写字经常写错，甭管是写中文、写英文，经常写错，这是当时的一个问题。

但是因为它的一致性一下就得到了突破，所以呢还是火起来了。我记得当时Nano Banana出来的时候，最火的大家玩什么？就给它一张自己的照片，说：“来，给我生成一个图片，这个图片上是电脑，电脑里头呢，有我这个照片相关的3D玩偶的一个设计模型，桌子上呢要摆我的这个照片，以及呢用这个照片生成的3D玩偶的手办。要保证你电脑里边显示的模型、你的照片跟这个手办，要完全的能够对得上，这是同一个人。”他的一致性要很强，而且要不同的风格下的一致性依然很强，当时大家玩这个梗都玩疯了。

所以呢，当时很多人在玩什么？就是多张人像图片合成一个统一场景，同时呢保证一致，同一个人在多张图片里头五官、发型、服饰相对一致，或者同一个人在多张图里头保持风格统一。对于很多的用户来说，可以去轻松地制作全家福、多角色合影、连续故事分镜，都是可以做出来了，有极强的可玩性。

而且呢，Nano Banana是有相对比较强的世界知识和场景理解能力的，因为它后面的是Gemini 2.5 Flash的一个模型，所以你问它很多东西，它的基础知识是存在的，它继承了Gemini模型的语义和知识能力。这点对于像吉梦，还有像Midjourney这样的纯画图模型来说，就绝对遥遥领先了。能够跟Nano Banana去比语义理解能力的，也就是GPT image，就是在GPT-4o的基础上画图的这个模型。

Nano Banana呢，对于地理场景，比如说像地标建筑、服饰文化元素；场景，比如医生、厨师、程序员，都可以很好地去理解，而且感觉都似模似样的，或者我们叫“对齐”了——这算是大语言模型带给我们语言的一个污染，现在大家都在讲“对齐”这个词——所以它跟我们日常认知是可以对齐的。

而且呢，Nano Banana是可以做自然语言修图和局部编辑的。很多人特别讨厌做修图的原因是什么？你需要做选择，这一块是衣服，那一块是手，这一块是背景，你要拿这个线把这个后边的背景抠出来，这个是很烦的。但是Nano Banana就不需要，你只需要告诉他说：“现在请把衣服给我换成这身，请把这个鞋给我换成那个。”或者说：“请把这个瓶子上的文字给我换一下。”就可以搞定了，再也不需要上去打点勾线了。这个事儿，是Nano Banana给大家带来的非常非常好的体验。

还有一点很重要的是什么？就是低延迟、低成本。Nano Banana画图是很便宜的，他画一张图的话，调用API大概是3.9美分画一张，非常非常便宜。而且呢，因为它画的很像，在Nano Banana发布以后呢，社交媒体直接就炸了。因为社交媒体，你的社会关系要去参加到交往过程中，如果我画完了以后，这个大美女、大帅哥看不出来是谁，这个事是没法整的。Nano Banana画出来的就可以看出来是谁了，所以Nano Banana当时出来了以后直接就炸裂了，而且是出来了以后，谷歌的股价在涨，谷歌Gemini用户量在暴涨，所以这个是真正拯救谷歌的一个产品。

Nano Banana Pro：不仅仅是简单的升级

现在好了，Nano Banana Pro来了。它在Nano Banana的基础上到底加了什么？它到底是不是Gemini 3 Pro加上Nano Banana呢？首先要确定这个东西不是。为什么？因为那个Nano Banana是Gemini 2.5 Flash image，而现在的Nano Banana Pro是Gemini 3.0 Pro，所以它们是完完全全两个不同量级、不同版本的模型。

首先，Gemini 3 Pro就是比Gemini 2.5 Pro要强很多很多的一个模型，它在推理上强的没朋友。你在这样的一个基础上去做绘图的话，那一定也是会强到没朋友的。而且Gemini 3跟Gemini 2.5还有一个很本质的区别是什么？就是它是原生多模态。它直接把图片、视频这些东西通通一把训练进去了，在最一开始的时候就训练进去的。

Nano Banana Pro是复用了Gemini 3的多模态和推理骨干。你用Nano Banana Pro画图的时候，不是上来就画图，而是说我要先搜索一下，然后我要推理一下。你可以把整个推理的过程都拉出来看，他要先画几张，画完了以后自己在那改，改完了最后出了一个他觉得还可以的结果。因为整个的推理的过程中是有图片生成的，有图片的参考，你甚至可以告诉他说：“去给我参考一下哪个哪个车，给我画一个拆解图来。”比如说我有一辆大行D9的折叠车，我说：“你给我画一辆大行D9的折叠自行车的拆解图。”夸夸夸给我画出来了。我说：“你这个车架画错了。”然后又给我画，画的还是不太对。我说：“你这样，我说你去网上搜索一个D9的图片去，然后再给我回来画。”回来就给你画对了。他就可以干这样的事情。

咱们今天讲的东西呢，都是纯语言描述，我就不跟大家去做案例了，大家自己去试，这个成本非常非常低。所以咱们今天呢，还是主要讲它的原理。Nano Banana Pro是叠加了搜索和推理的一个绘图，它当时的测试的名字叫Gempix 2。所以呢，更准确的说法不是“Gemini 3加上Nano Banana等于Nano Banana Pro”，应该是Nano的Banana Pro是Gemini 3 Pro的大脑，加上新一代的高端图像的头，并不是简单的这种拼接。

绘图能力对比：Pro版本强在哪里？

咱们先看看它的画图部分怎么样吧。在这儿跟大家确认，它在艺术性上依然是没有办法战胜Midjourney的，Midjourney在这块还是当仁不让的王者。但是Midjourney对于物理的理解、对于整个语言的理解，是没有Nano Banana Pro好的。但是咱们就说氛围和艺术感这件事，Midjourney是老大，谁都超不过它。

不考虑推理和搜索的情况下，Nano Banana Pro跟Nano Banana比起来到底是强在哪？

1. 分辨率和细节极大提升

Nano Banana也就是1K，1024*1024这么大的一个分辨率，而且呢，它呢主要用途是画头像、画这种社交媒体插图、画缩略图。而Nano Banana Pro的话，是可以支持1K、2K、4K等多档的输出，你可以输出一个很高分辨率的图片出来。特别是在4K模式下，你做UI设计稿、做产品渲染、线条比较多的这种信息图，细节很清晰的图片呀，上边的细节清晰度会明显的提高。对于需要二次剪裁或者排版的这种专业场景，是相对来说比较友好的。所以我Nendo Banana用了一段时间，我后面不用了，因为它出的图实在是没法使，但Nano Banana Pro是没毛病的。

2. 文字渲染能力显著增强

Nano Banana虽然也能写字，甚至也能写中文，但是字多了它会写错的。而且多语言，你比如说阿拉伯语、中文，特别是花体或者很复杂的一些字体，你要去要求他写的时候呢，会给你写成一塌糊涂。但是Nano Banana Pro就没有这个问题，我测试了，让他写一篇的字都没毛病。甚至有人测试什么呢？你在上头给他出一道题，然后呢他就生生的把这个题和整个题的解题步骤和结果全都给你画在图片里。我做了一个测试是什么呢？我前面跟土拨鼠一起跟大家去做过视频，讲解中国的“土基熔岩堆”。我说：“你给我画一个示意图，做一个土基熔岩堆出来。”我给他上传了一个我的照片，说：“你按照宫崎骏的风格，去给我做一个土鸡熔岩堆的讲解，哪一块是什么样的功能，进去什么、出来什么。”画的非常好，一个页面上应该有几十个字，甚至上百字，都写的非常非常好。我也尝试过一些这种花体字，原来我经常用吉梦去做这种叫创意字体，我把吉梦的提示词直接扔到Nano Banana Pro里边去，效果呢我觉得没有吉梦好，但是已经可以做各种各样的花体字了。但是拼中文，现在它距离吉梦还是稍微有一点点小差距。

现在呢，很多人拿这个Nano Banana Pro是干嘛使？直接做这个PPT。按道理说，我们应该是PPT里头写字，然后拼图，然后再排，这是一个完整PPT。现在不需要了，你直接告诉他说：“我要画一页PPT，要写一个什么样的东西。”比如像刚才我讲土基熔岩堆“土变油”的过程，给你写好了。而且你告诉他要宫崎骏风格，给你画出来了。甚至我后来又提了一个要求，我说：“给我把PayPal黑帮里头这几个老大之间的关系是什么样的，以及他们跟现在美国政府之间是什么关系，给我画出一个示意图来。”咔咔给我画好了，上面有彼得·蒂尔、埃隆·马斯克、杰里·万斯，头像全给我画上了，效果好的一塌糊涂。上面一开始写的是英文，后来我说：“你给我写成中文。”然后把谁原来在Paypal里是什么职位，现在Paypal黑帮里他是一个什么样的位置，比如彼得·蒂尔就是黑帮教父这样的一个位置，JD Vans跟他们是什么样的关系，全都给我写好了，非常漂亮，而且把所有人的头像给我画上了。你甚至可以要求他换什么风格的头像，都给你画的好好的。这一次就可以生成一个完整的PPT页面，不用再去做各种各样的调整，一句话搞定。怎么说呢，对于工程师来说足够使了，所以属于补上设计师最后短板的一个工具。

3. 多人物、多图片编辑和一致性更强

原来Nano Banana的话，出个可能四五张图、五六张图进去还是可以搞定的。现在的话，可以一次塞进去十几张图，一次上了14个脑袋，这个事儿有的人也是成功了，但是有的时候有问题，但是它正常6个脑袋是没毛病的。

4. 控制力更强

相机的角度、俯拍、仰拍、广角长焦，光线的效果，局部遮罩，比如只改脸、只改衣服、只改背景，图表、UI、信息图的这种结构化编辑，这些东西你都可以搞定。咱们说了这么多意思是什么？就是你一次可以写很多很多的文字进去，它一次允许我们写64K，就是64,000个TOKEN进去，它会很好的服从这64,000个TOKEN的指令，把你说的这一大堆东西都给你做出来，而且保证你最后画出来的东西是一致的。

5. 一致性和稳定性更强

由于背后挂着Gemini 3 Pro的多模态的骨架，所以呢，它是可以进行多轮对话的。它在多轮对话的修改过程中，可以生成同一风格的画面，这个过程是非常稳定的。你不会说：“给我改点什么东西。”改完了以后呢，你想改的没改对，没想改的地方竟然给改的乱七八糟。他不会干这个事，保证你想改什么改什么，整个的风格不会发生变化，你不想改的地方绝对不会发生改变的。所以绝对是生产力工具这东西。

训练揭秘：思考后再出图的黑盒

那你说这玩意咋训练出来的呢？谷歌对于Nano Banana以及Nano Banana Pro的训练细节呢，基本上啥也没说，用相对文明一点的话说，叫“公开的很克制”。主要讲的就是共享了多模态的主干，就是我训练大模型的时候，我就直接是用多模态的方式去训练的。它的Nano Banana系列呢，就已经不再是一个孤立的图像模型了，它后边是有Gemini多模态主干的这个图像头的。它的文本指令、世界知识、场景理解是由主干来处理，处理完了以后，再用处理好的结果再去画图，他是这样的一个工作方式。

而且呢，他们在训练的时候使用的叫联合训练和多任务目标。就是在通用图片生成的基础上，加入：

角色一致性任务（前后两张图片中的人物保持相似）
多图融合任务（也就是多张输入的图在单一的一个场景里边进行输出）
编辑任务（就输入图加修改指令）

还有这三个任务是同时进行训练的。很可能通过额外的损失函数和特殊数据集成和特殊数据集来强化这些能力。但是数据集这一块呢，反正谷歌就写了一个官话，说：“我们使用合法途径获得的开放数据集，以及人工标注数据集来进行训练的。”具体使用的什么数据集，他也没说。

Pro在这块呢增加了什么？就是思考后再出图，以及搜索增强。Pro版本强调在生成前有一轮内部的规划和思考，对于教育插图、历史场景、信息图，支持输入Google search作为知识矫正，你可以要求他去搜索。我看很多人这几天在画李白坐在桌边，跟穿着唐装的哆啦A梦一块喝酒对诗，他是可以知道哆啦A梦长什么样，也知道李白长什么样，还知道唐装长什么样，让他们一点都不违和地坐在那去写诗。

安全评估和红队测试呢，谷歌肯定也是做的呀，因为谷歌嘛，毕竟还是一个大企业、上市公司，你要是在这块犯错误的话，会有些问题的。但是它主要做的是什么呢？就是暴力、色情、仇恨、政治敏感内容，在这一块呢，做了重点的过滤以及红队测试。这会体现在某些指令明明技术上做到，但是呢给你的反馈是拒绝或者是模糊响应。不过我现在输出的各种图片还都比较正常，我没有让它测试一些比较奇怪的东西。所以呢，Nano Banana Pro在学习上呢，是一个完全闭源的，并没有告诉大家具体是怎么做的。现在我们能够看到的呢，都是总结了谷歌自己公开的一些很克制的信息，总结出来的一个结果。

版权与安全：更宽松的策略

我刚才讲到的一些提示词，大家听到有什么问题了没有？我要用宫崎骏的画风去画一个土基熔岩堆，要画埃隆·马斯克、彼得·蒂尔、杰里·万斯这些人的头像，后面我还让他画机器猫，他也给你画出来了。大家觉得是不是有问题了？

Nano Banana Pro对于风格和人物肖像这一块，是要比GPT image要松很多的。就是刚才我们讲的这些内容，你让GPT去画，好多它是画不出来的。它会告诉你，万斯现在是美国总统，他属于叫敏感政治人物，我不给你画。宫崎骏风格的不给你画。你说吉卜力工作室，他有可能给你画，但是你要宫崎骏风格，他就不给你画。现在吉卜力工作室还在起诉OpenAI，官司还打着呢。但是谷歌说：“没事，我都给你画。”机器猫呢，它属于有这个IP的品牌形象，你画了机器猫，甭管你画成什么样，实际上都属于侵权。但是谷歌说：“我就给你画了。”这一点其实做的一点都不谷歌，以前这个谷歌在这一块是要比OpenAI还要严苛的，现在直接就放松了，随便玩去。

我去问谷歌的Gemini 3 Pro，你们为什么干了这么一件事呢？他给我的回复是什么呢？“我们现在呢，是用了更深层次的安全措施。一方面呢，我们提醒你了，所有遇到版权问题你自己去应对，跟我没关系。”所以如果以后有人说，你怎么用了宫崎骏风格，他会直接把这个东西扔给创作者，而不是自己来承担这个责任。第二方面呢，他会去判断，你让马斯克坐在这喝咖啡，那是允许的；你让马斯克去做一些很奇怪的事情、有侮辱性的事情，他就不允许了。所以呢，他说我们不会在前向直接禁止你，而是会在后向看看你的意图是什么。你想做一个深度伪造，你想去骗人，还是想要去侮辱这个人，这些我们就不做了。但是如果你只是想要一个马斯克的头像，我们就给你做了。至于说机器猫的头像，因为我们比如做完了以后，也是会发到Twitter或者发到YouTube上，他就是说你发上来了，最后我来处罚你的YouTube作品就完了，我就自己不承担这个责任了。

这个是谷歌这一次采用的安全措施。OpenAI是反过来的，OpenAI是前置合规，就是你只要提名字，我就不给你画了。OpenAI呢，其实前置跟后置他都做。有的时候你让OpenAI给你画图的时候，他会先画，画完了以后，你看这图已经出到百分之七八十了，然后突然告诉你说：“对不起，我审核了，你这事有问题。”咔，给你把图删了。我遇到过几次了，所以我现在已经基本上不再使用OpenAI画图了，我现在画图基本上是Midjourney、吉梦和Nano Banana Pro了。

价格不菲的“Pro”体验

既然叫Pro了，有一个很重要的问题是什么？贵。它叫Pro了，一定比原来的这个叫Flash的要贵很多。刚才咱们讲了Nano Banana，也就是Gemini 2.5 Flash image，它画一张图是3.9美分，基本上是4美分的样子。而这个Nano Banana Pro画一张图是多少钱呢？

1K或2K的图：13美分一张，这个就要贵很多了。
4K的大图：24美分一张。

它要比咱们使用的GPT、使用的Midjourney、吉梦都要贵很多。吉梦是最便宜的，吉梦大概画一张图出来2K的图片不要钱，4K的也很便宜，可能就是几分钱人民币，换成美分就是零点几美分。Nano Banana Pro非常非常贵，大家画图的时候一定要小心。

如何使用Nano Banana Pro？

我们怎么拿Nano Banana Pro去画图呢？

免费用户：在Gemini.Google.com上就可以使用了，但是呢一天只允许画3张。你在APP上画也是可以的，Gemini APP上一天只允许画3张。
Pro用户：大概一天是可以画个几十张，有时候是100张，他并没有给我们一个特别明确的数据，还是要看服务器忙不忙，服务器不忙就多给你画几张，大概是这样的一个情况。因为我的Gemini账号呢，是拿我儿子的edu邮箱注册的Pro账号，可以免费使15个月的Pro账号，所以呢我现在是可以在Gemini网页或者是Gemini APP上开开心心的画图的。

那你说画超了怎么办？画超了以后就给你降级，降级成Nano Banana，就没有那个Pro了，你就会快速地得到一张比较粗糙的图，大概就是这样的一个情况。

那你说我怎么开启Nano Banana Pro的绘图呢？很简单。

你要在APP或者是Gemini.Google.com上选择“思考”，一旦选择“思考”了以后，你就进入Gemini 3 Pro的这个思考模式了。
然后呢，你再去添加工具“绘图”，上头画了一个香蕉，你就进入了Nano Banana Pro的绘制方式了。

你如果一开始选的是Gemini 2.5 Flash，你再去画图的话，就是Nano Banana，就没有这个Pro了，所以这块大家一定要注意。

那你说，我在AI studio.Google.com里去画行不行呢？也行，但是要注意这个里头呢，有一些跟以前不太一样的地方。很多的谷歌模型，甭管是Gemini模型还是画图的模型，我们都可以在AI studio.Google.com里边去使用，但是使用Nano Banana Pro之前要去给它设置一个API key，不设置的话它是不让你用的。而且设置API key还是挺麻烦的，你要先去里边创建一个project，先创建一个工程，然后在这个工程里头再创建一个API key。到这还不行，还要给API key挂支付，没有支付的API key，它是不允许你使用的，必须有支付。

那你说我是不是在这个AI studio里头每画一张图都要钱呢？也不是。现在有人测试呢，是画了三张以后要求你开始付钱，13美分一张或者是24美分一张。也有人呢是测试了，可能能够免费画个十几二十张，甚至有画到50张以上才开始收费的。我估计还是跟服务器的繁忙程度有关，服务器不太忙的时候，你可能一天还是可以在上面画个十几二十张的；服务器忙的时候，画3张然后从你的API key里边扣钱。

但是有一点我们要注意是什么呢？在Gemini.Google.com里边画出来的图右下角是有水印的，它里有一个菱形的Gemini的logo的水印在上头。而你在AI studio里头，就是你自己花钱13美分一张也好，24美分一张也好，是没有这个水印的，那个图是比较干净的。那你说我是不是就直接可以用AI studio或者直接用API把这个图画出来，就可以冒充是真实图片了呢？不行的。因为这个里边呢还有水纹。水纹是什么？就是你在外面你看不着，但是呢，你可以把这个图片扔给Gemini，问他说：“这个图是不是你生成的？”他是会给你进行精准判断的。所以只是在外表看不出来而已，在里边还能有这个痕迹。

所以大家如果想画图的话，最简单的方式，如果你不太在意这个水印，就是这个菱形的标的话，就是去开这个Pro账号。特别是你如果有edu的邮箱，你去开那个，可以开开心心的使用的。至于你说：“我没有EDU邮箱怎么办？”有一个APP叫咸鱼，或者你到淘宝的网站上，你问问别人有没有办法来解决这个问题，也只能讲到这了。如果你说：“我就想用没有水印的图片。”那您就老老实实地交钱就行了。

结语：设计师的天又塌了？

好，这就是咱们今天讲的Nano Banana Pro。现在设计师，特别是平面设计师的天，又一次塌下来了。像我这种工程师直男，现在也可以开开心心地去做各种界面设计、做各种的PPT设计、什么信息图表设计，效果好的一塌糊涂。我们今天没有给大家做任何演示，请大家自己去尝试，以我刚才说的这些提示词自己去试就完了，也没有那么严谨，你说的跟我稍微有些差异都没有任何问题，我相信Nano Banana Pro会震惊你们的。

好，这期就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友参加我们的付费频道，再见。

GPT-4o图片生成工具，真正的生产力工具发布了，GPT-4o图像生成全面碾压DALL-E 3？指令理解超神但艺术感仍是致命短板！

Luke Fan — Thu, 27 Mar 2025 00:40:17 +0000

OpenAI更新了他们的图像生成模型。看来20美金一个月的套餐，还要继续续下去啊。大家好，欢迎收听老范讲故事的YouTube频道。OpenAI最近也开始卷起来了，对吧？前面开始出O1、O3，出GPT4.5，现在好了，把这个图像生成模型也更新了。最近其实大家都在卷图像，卷了一整波的图像。最早开始卷图像的是国内的这些应用，像豆包、千问，他们最早开始卷。这个模型没更新，卷的是客户端和手机端的应用，希望说你出去照完相以后，说给我去换个衣服，换个背景，去做这样的事情。但是这个因为模型本身的能力有限，所以效果并不是特别好。我试过比如说，我把自己的一张照片发上去以后，说来，给我把这个背景换成海滩。背景确实换成海滩了，但是他把前面这个人物也重绘了，不像我了。这就是国内卷了一波。

真正拉开序幕的是谁？是谷歌的Gemini 2.0 Flash。他们出了一个可以同时输出文字和图像的模型。这个模型出来以后，很多人惊呼，以后Photoshop修图就没你们什么事了啊。为什么？你可以上传一个杯子的图片，再上传一个美女的图片给它，提示词说请让美女举着杯子。那个图片出来了以后，是非常逻辑自洽的，不会看着有任何别扭的地方。或者你给她个包，说想让这个美女拎着包，这个效果好极了。甚至我拿了一些MidJourney画的图片上去，说再给我把某个公司的logo贴上，效果极好，特别的逻辑自洽，而且支持中文输出。这个其实挺难的。目前为止，支持中文输出的图像生成模型，原来就是国内的极梦，也是字节下边有一个版本是支持的。现在Gemini也是支持中文输出的，而且它支持多模态输入。你可以跟它说话，你可以给它输入图片，说你把这张图片跟那张图片合在一起，它效果都很好，完全可以实现聊天修图像。

原来为什么大家不愿意用修图这个功能？你需要选择，这个是特别讨厌的。我们做各种修图，最讨厌的地方就是选择，说我到底要改哪一块。抠图虽然可以抠，但是有时候抠的没有那么准。现在来了说，我们直接告诉他把这个背景换了，给我戴个眼镜，拿个杯子，要拿哪张图片上的杯子，这个效果都很好。只是它的模型很小。你想Gemini 2.0后边这个是叫Flash，而不是叫Pro，所以它是个小型模型。它生成的图片整个的质量不是很高，但是速度很快啊。所有叫Flash的一般速度都比较快。这边出完了以后，马斯克肯定是不甘人后，他的GROK3就上来了，叫图片编辑功能。

现在，我们去X平台上点击这个Grok，上面就专门有一个选项叫“图片编辑”。你可以上传图片让它编辑，但是效果稍微弱了一点点，这里就不再介绍了。GROK3生成的图片，它的艺术性跟质量要比Gemini要好一些，但是它的指令依存度要差一些。你命令它做很多事情，它有时候没有办法特别精确地去执行。

像我最常用的MidJourney，目前还在纠结到底后边要做什么。这应该是个小公司了，后边更新是比较慢的。最近还发了问卷，问视频生成应该如何收费的问题。所以，MidJourney可能下一个版本会出视频。

那么，OpenAI现在终于放出大招来了，我们也要卷一下这件事情。OpenAI在昨天晚上放了一个视频，说我们图片生成功能终于出来了。这个功能其实已经被吐槽好久了，因为原来他们使用的叫DALL.E-3这样的一个模块来进行图像生成。DALL.E-3有他的优点，指令理解能力非常好。你给他一个很长的指令，里边说的很详细的各种信息，他都可以给你理解得很清楚，都给你画上。其他的一些生成模型，如果你提示词长了以后，可能前面的一部分还给你画了，越往后的部分，就基本上都给你忽略掉了。

大家注意，写画图指令的时候，特别重要的东西写前头。越往前写的东西越重要，越往后写的东西越有可能被忽略掉。但是，DALL.E-3的艺术感极差。你说这个东西画出来以后好不好看，这个就别想了。精细度也不是很高，这个相对来说，图片比较粗糙。最被人吐槽的地方是什么？就是DALL.E-3的各种限制极其严苛。你说你给我画一个谁谁谁的头像，对不起，侵犯肖像权了啊。你给我按照宫崎骏的风格，给我画一个什么东西，对不起，侵犯人家著作权了。这个要求特别严苛了，以后基本上不怎么用了。

现在给出的并不是DALL.E-4，而是GPT-4o。他说我们现在在GPT-4o里边，直接可以绘图了，你们不用再去选DALL.E-3了。那么，现在GPT-4o绘图的效果到底怎么样呢？第一个，指令理解跟依存这件事情，绝对遥遥领先。在语言模型上，GPT还是做的最好的。你跟它说很复杂的指令，它都可以给你画出来，这个是最棒的。艺术感这一块，距离MidJourney还是有一些差距的。精细度有明显的提升，现在画出来的图，要比原来DALL.E-3的那个提高非常多了。而且也支持中文，你要求他给你画中文的内容，到这个图片上去没有任何问题。字体的理解上还稍微差那么一点点，待会咱们看这个图片。

你们就能知道为什么说差一点点了。说你给我换个字体，他呢确实给你换，但是换完了，那个字体并不是你要求的字体。这个我觉得各种中文字体，对于这些美国人做的视频生成模型来说，还是稍微有一些差距的。对于不同风格的理解和输出，相对来说是比较准确的。但是它的理解，有时候跟MidJourney不是特别一致。你跟他说我要画一个什么什么东西，MidJourney可能画的是一个风格，他画的是另外一个风格。这个是各自的理解，但是你只要说同样的提示词，说你给我画什么风格，他始终会稳定的按照同一个风格给你输出。而MidJourney的话，你跟他说啊，你给我画一个什么什么风格东西出来，他会经常发生一些跳跃和浮动。

画图这个东西呢，你一边需要艺术感啊，需要感染力，另外一边很重要的是一致性。现在在一致性这件事情上，GPT-4o的图像生成非常强。这次也把限制去掉了很多。Sam Altman也说了，说我们是愿意输出一些让人感到不适的图片了，我们也不再做那么严格的限制了。出来以后，大家自己去选择到底是不是应该使用这个图片出去。但是特别过分的我们还是会拦截的，而且在这个图片上是有数字水纹的。你虽然看不到这个水纹在什么地方，但是程序是可以读出来的。你是某年某月某日，用什么样的提示词去生成出来的，这个是可以看到的。现在你再要求指定艺术风格，已经没有什么问题了。你说你给我按皮克斯的风格画，按照乐高的风格画，按照宫崎骏的风格画，这个都是没有任何问题，都可以直接出图了。你说指名道姓给我按照谁的脸画，这个也可以出。比如说我让他给我画埃隆马斯克，也画出来了。待会咱们看看画的像不像。

直接给照片，他还是会拒绝换脸的。我给了他一个照片，给我把我的脸换上去，他拒绝了。后来我告诉他，我说这是我的照片，我自己有肖像权，我愿意干。他说那好吧，我给你干去。指定了一个电影的剧照，我说你给我按照这个剧照画，他又拒绝干活了。这个我当时用的是皮克斯的《飞屋环游记》的一个照片，说我拒绝干活。这个过程到底哪些拒绝，哪些通过，还比较玄学，大家需要去测试。它的输入也是多模态输入，你可以输入图片、语音、文字，甚至可以输入视频。输入完了以后都可以非常精准的理解，按照你的要求去把图画出来，而且一致性极高。你告诉他说，我现在要求按照这个角色，给我去做哪些动作，不会说发现换人了，不会干这样的事情。他们都是一致性很好的，所以你说我想拿GPT-4o去生成漫画书。

效果很好。唯一的缺点是什么？就不是很快，这个稍微的有些慢。我估计应该也是因为功能刚推出来，一帮人都在玩耍，都在测试，所以速度要稍微慢一些。现在能够使用的范围有哪些？就是像我们这种Plus用户、Pro用户，那200美金肯定让人用吧。Team用户好像是40美金一个月的，这个也是可以用的。免费用户也可以使用，你说我没交钱，应该没问题。所以如果你现在使用的是iPhone啊，你在国外，用了这个Apple Intelligence这些功能，应该就都可以去工作了。那么有两种用户现在还不能用，一个是企业用户（Enterprise用户），还有一种是教育用户（edu用户），这些还不能使用。这个原因也很简单了，你该好好上班的，好好上班去；该好好学习的，好好学习去。你们现在没有那么多时间去画画、去玩，所以这个可能还要稍微再等一等。过几周以后，把这些功能会加到API里边去，我们可以通过API使用这些功能了，应该会变得非常有趣。

那么好，下面我们来看看生成的图片。这是我用昨天录CoreWeave上市那期的相关提示词生成的图片，在这个GPT-4o里面生成的。大家看哈，GPT、GPU、Nvidia、CoreWeave都给我写得非常清楚。所以对于指令的理解和执行上，GPT-4o要比MidJourney强非常多。好看不好看咱们先不管，说对吧？它的艺术性可能要稍微差一些，但是它在理解你要让它干什么这件事情上，以及老老实实干活这件事上，这个是非常强的啊。后面我说，我想让这个数据中心是一个俯视角，从上往下看的，可以显得更大一些。看看变得更大一些，整个的氛围还是对的。而且大家看到了第一张图跟第二张图，他是没有什么特别大的这种风格上，或者说他这一些细节上都没有失真。你说这是同样一张图，两个不同的视角，没有任何毛病。这个事干的，再往后咱们来看一看，它的限制是不是给你取消掉了啊。左边这张图的提示词是，用泡泡玛特风格，给我画一个埃隆马斯克在SpaceX里面拧螺丝。它首先泡泡玛特风格没有任何问题，它给你画了头很大，身子比较小，3D的，而且SpaceX的LOGO画得非常好，不是随随便便的就给你写了个字上去，还真的是SpaceX的LOGO，特别是这个X画得很棒。这说明什么？你告诉他使用什么样的艺术风格，他可以给你搞定了。后边我说不行，我说长得不像马斯克，你得给我让他像马斯克才行。看指名道姓要求像马斯克，像吧。

直接通过语言就可以让他进行输出了。再往后，这张图首先底下这个背景图是让MidJourney画的红丝绒蛋糕。大家看的是什么？是这个前景图，这个是我要求给我画的透明图标啊。说你给我用这个图标的方式画出来：咖啡蛋糕、饼干、奶茶、猫、狗、小男孩、小女孩和书。大家看到的是什么？第一个他给你画的是透明图标，你只管切下来用就完了。第二个什么？他的风格是统一的，你把这一套东西放到任何一个应用或者网页里边去用，就可以直接用了。所以好看不好看咱们单说，但是能用这是非常重要的。

再往后咱们来看看写中文的事情。我说：“给我画一个乐高风格的庆丰包子铺。”你看庆丰包子写得很漂亮，没有任何问题，而且这个字也是跟我们的乐高风格是一致的，写中文没有任何问题。然后我说：“给我换一个字体。”后来我好像说让他换隶书，但是字体肯定是换了，我觉得这个有点像楷书啊，应该不是隶书。他知道这是两个不同的字体，他会给你进行一些更换，我觉得做成这样已经很不错了。

再往后咱们是做每一次都干的事情，是什么画？给自己画头像、画金币、这个画logo啊。最右下角这个是我自己的头像，这个是照片，这个不是画出来的啊，应该是呃，经过一点点美颜，这个我们还是要承认的。这个是金币，你给我画一个写着“Storyteller fan”的一个金币。怎么说，整个的质感还是要稍微差一些，比Midjourney生成出来的要差一些，但是这个人我觉得还是要像一点点的。

中间，我说：“你给我画一个‘storyteller fan’的一个圆形的logo。”你看我这是单手托腮，这边也是单手托腮，脸型、眼镜、眉毛都是没有任何问题的。我说：“我是一个科技博主，你给我画上电脑、手机和云计算。”也给我画在上面了，这个就可以拿来用了。这真的是生产力工具，这个创意有时候稍微差那么一点点，但是生产力没有任何毛病。

再往后我们来做一个比较难的任务，这个是干嘛？我说：“你给我用第一张图的人脸，按照第二张图的风格去给我画一个。”你看给画出来了，还把我这个韦德，这有一个韦德在这边也给你画出来了。韦德他自己就完全去理解，他说这是一个什么样的风格？这是一个大理石，还有反光，或者是瓷器的上面还有烟雾，后边还有这种火焰。他就直接的从左边这个人，套上中间这个风格，给你生成右边这个图片了。这个，我觉得是非常难能可贵的一个事情。

再往后我们来看看它的一致性。好，这是他的一个一致性，我拿到了一个老爷爷的头像，老爷爷其实是我用自己的头像。

说你给我按照《飞屋环游记》的风格，给我画一下。我大概跟他进行了六七轮对话，最后给我画成这样了。他说：“第一，你这个头像有肖像权，我们不能直接把人家有肖像权的东西给你画出来。”我说：“没事，这是我自己的头像，我可以处理肖像权。”他说：“那行，我给你干。”他说：“不行，我不能侵犯《飞屋环游记》的这个版权。”我说：“你给我能画什么画什么，差不太多就可以了。”最后，反正还是这不行那不行。我说：“你给我按照皮克斯3D风格，给我按照我的头像画出来。”他就给我画出了一个这样的老大爷，其实还是很像《飞屋环游记》的。折腾来折腾去还是很像的。这个我们不是要展示的重点。这次展示重点是什么？从这里到这里，我说：“以左面这个人为主角，给我画一组漫画。”这个老大爷在散步、吃蛋糕、遛狗、喝咖啡、骑自行车，以及去做这个购物。被我头像挡住了，没关系，大家能看出是同一个人。而且这里面的每一个人，他都很精确地按照我的要求去做：散步、吃蛋糕、遛狗、喝咖啡、骑车。右边是购物，购物车看不到了，没关系，然后这个人明显是同一个人。我就可以用一个头像去讲整套的故事了，这个是非常棒的。往后咱们再做一个，还是左面是原图。我说：“给我生成一个泡泡玛特3D风格的。”头像生成出来了，居然还有痦子，各种模型都没有办法来实现，这边实现了。而且我这个图上是有手表的，他把我的手表也画出来了。我说：“以我这个头像为主角，给我画一个骑着凯旋Bobber的。”这个图片出来，戴上手套了，还带着我的手表，给了个牛仔裤。这个确实是一辆凯旋Bobber，还把凯旋的logo画在这了，这个非常的棒。最后，生产力工具，今天晚上要读评论。我说：“来，给我画一个泡泡玛特3D风格的，老范读评，3月26号读评的一个图片，我要用它去做一个封面。”直接生成一句话搞定，这个多爽。你看我的表还戴在这里，礼拜三晚上读屏的封面就是这么来的。当然我还要求是马卡龙配色，窗外是春天的街道，这多棒，非常精确地给你画出来了。好不好看咱们先不管，但是真的是按照你的要求，一丝不苟地画出来的啊。这个我们得到了一个非常强力的生产力工具，这就是它生成的这一大堆图片。那么，未来用嘴修图的时代已经到来了。记得咱们去看很多的电影，去认这个罪犯的时候，说这个眉毛要稍微长一点，眉毛要翘一点，眼睛要大一点、小一点，就可以修出图来，叫靠嘴捏脸。那么这个应该很快到来了。而且现在不光可以捏脸，你还可以换风格，还可以要求他们做各种各样的动作，做各种各样的场景，现在都可以做了。

所以，我们完完全全可以靠嘴。你可以说，因为GPT-4o是支持说的，你也可以打字。完全可以靠这种方式，得到我们想要的很多的图片。这块现在已经可以做了，希望大家可以玩得开心一些。从天马行空的惊喜到精准可控的生成，这就是这一次GPT-4o图像模型的最主要升级。原来都是很天马行空的，你没有办法控制他，说连续地出什么样的内容，现在可以了。艺术性跟感染力还要稍微差一些，但是能用了。希望大家开开心心地玩耍起来。好，这一期就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。