GPT-4o图片生成工具，真正的生产力工具发布了，GPT-4o图像生成全面碾压DALL-E 3？指令理解超神但艺术感仍是致命短板！

Luke Fan — Thu, 27 Mar 2025 00:40:17 +0000

OpenAI更新了他们的图像生成模型。看来20美金一个月的套餐，还要继续续下去啊。大家好，欢迎收听老范讲故事的YouTube频道。OpenAI最近也开始卷起来了，对吧？前面开始出O1、O3，出GPT4.5，现在好了，把这个图像生成模型也更新了。最近其实大家都在卷图像，卷了一整波的图像。最早开始卷图像的是国内的这些应用，像豆包、千问，他们最早开始卷。这个模型没更新，卷的是客户端和手机端的应用，希望说你出去照完相以后，说给我去换个衣服，换个背景，去做这样的事情。但是这个因为模型本身的能力有限，所以效果并不是特别好。我试过比如说，我把自己的一张照片发上去以后，说来，给我把这个背景换成海滩。背景确实换成海滩了，但是他把前面这个人物也重绘了，不像我了。这就是国内卷了一波。

真正拉开序幕的是谁？是谷歌的Gemini 2.0 Flash。他们出了一个可以同时输出文字和图像的模型。这个模型出来以后，很多人惊呼，以后Photoshop修图就没你们什么事了啊。为什么？你可以上传一个杯子的图片，再上传一个美女的图片给它，提示词说请让美女举着杯子。那个图片出来了以后，是非常逻辑自洽的，不会看着有任何别扭的地方。或者你给她个包，说想让这个美女拎着包，这个效果好极了。甚至我拿了一些MidJourney画的图片上去，说再给我把某个公司的logo贴上，效果极好，特别的逻辑自洽，而且支持中文输出。这个其实挺难的。目前为止，支持中文输出的图像生成模型，原来就是国内的极梦，也是字节下边有一个版本是支持的。现在Gemini也是支持中文输出的，而且它支持多模态输入。你可以跟它说话，你可以给它输入图片，说你把这张图片跟那张图片合在一起，它效果都很好，完全可以实现聊天修图像。

原来为什么大家不愿意用修图这个功能？你需要选择，这个是特别讨厌的。我们做各种修图，最讨厌的地方就是选择，说我到底要改哪一块。抠图虽然可以抠，但是有时候抠的没有那么准。现在来了说，我们直接告诉他把这个背景换了，给我戴个眼镜，拿个杯子，要拿哪张图片上的杯子，这个效果都很好。只是它的模型很小。你想Gemini 2.0后边这个是叫Flash，而不是叫Pro，所以它是个小型模型。它生成的图片整个的质量不是很高，但是速度很快啊。所有叫Flash的一般速度都比较快。这边出完了以后，马斯克肯定是不甘人后，他的GROK3就上来了，叫图片编辑功能。

现在，我们去X平台上点击这个Grok，上面就专门有一个选项叫“图片编辑”。你可以上传图片让它编辑，但是效果稍微弱了一点点，这里就不再介绍了。GROK3生成的图片，它的艺术性跟质量要比Gemini要好一些，但是它的指令依存度要差一些。你命令它做很多事情，它有时候没有办法特别精确地去执行。

像我最常用的MidJourney，目前还在纠结到底后边要做什么。这应该是个小公司了，后边更新是比较慢的。最近还发了问卷，问视频生成应该如何收费的问题。所以，MidJourney可能下一个版本会出视频。

那么，OpenAI现在终于放出大招来了，我们也要卷一下这件事情。OpenAI在昨天晚上放了一个视频，说我们图片生成功能终于出来了。这个功能其实已经被吐槽好久了，因为原来他们使用的叫DALL.E-3这样的一个模块来进行图像生成。DALL.E-3有他的优点，指令理解能力非常好。你给他一个很长的指令，里边说的很详细的各种信息，他都可以给你理解得很清楚，都给你画上。其他的一些生成模型，如果你提示词长了以后，可能前面的一部分还给你画了，越往后的部分，就基本上都给你忽略掉了。

大家注意，写画图指令的时候，特别重要的东西写前头。越往前写的东西越重要，越往后写的东西越有可能被忽略掉。但是，DALL.E-3的艺术感极差。你说这个东西画出来以后好不好看，这个就别想了。精细度也不是很高，这个相对来说，图片比较粗糙。最被人吐槽的地方是什么？就是DALL.E-3的各种限制极其严苛。你说你给我画一个谁谁谁的头像，对不起，侵犯肖像权了啊。你给我按照宫崎骏的风格，给我画一个什么东西，对不起，侵犯人家著作权了。这个要求特别严苛了，以后基本上不怎么用了。

现在给出的并不是DALL.E-4，而是GPT-4o。他说我们现在在GPT-4o里边，直接可以绘图了，你们不用再去选DALL.E-3了。那么，现在GPT-4o绘图的效果到底怎么样呢？第一个，指令理解跟依存这件事情，绝对遥遥领先。在语言模型上，GPT还是做的最好的。你跟它说很复杂的指令，它都可以给你画出来，这个是最棒的。艺术感这一块，距离MidJourney还是有一些差距的。精细度有明显的提升，现在画出来的图，要比原来DALL.E-3的那个提高非常多了。而且也支持中文，你要求他给你画中文的内容，到这个图片上去没有任何问题。字体的理解上还稍微差那么一点点，待会咱们看这个图片。

你们就能知道为什么说差一点点了。说你给我换个字体，他呢确实给你换，但是换完了，那个字体并不是你要求的字体。这个我觉得各种中文字体，对于这些美国人做的视频生成模型来说，还是稍微有一些差距的。对于不同风格的理解和输出，相对来说是比较准确的。但是它的理解，有时候跟MidJourney不是特别一致。你跟他说我要画一个什么什么东西，MidJourney可能画的是一个风格，他画的是另外一个风格。这个是各自的理解，但是你只要说同样的提示词，说你给我画什么风格，他始终会稳定的按照同一个风格给你输出。而MidJourney的话，你跟他说啊，你给我画一个什么什么风格东西出来，他会经常发生一些跳跃和浮动。

画图这个东西呢，你一边需要艺术感啊，需要感染力，另外一边很重要的是一致性。现在在一致性这件事情上，GPT-4o的图像生成非常强。这次也把限制去掉了很多。Sam Altman也说了，说我们是愿意输出一些让人感到不适的图片了，我们也不再做那么严格的限制了。出来以后，大家自己去选择到底是不是应该使用这个图片出去。但是特别过分的我们还是会拦截的，而且在这个图片上是有数字水纹的。你虽然看不到这个水纹在什么地方，但是程序是可以读出来的。你是某年某月某日，用什么样的提示词去生成出来的，这个是可以看到的。现在你再要求指定艺术风格，已经没有什么问题了。你说你给我按皮克斯的风格画，按照乐高的风格画，按照宫崎骏的风格画，这个都是没有任何问题，都可以直接出图了。你说指名道姓给我按照谁的脸画，这个也可以出。比如说我让他给我画埃隆马斯克，也画出来了。待会咱们看看画的像不像。

直接给照片，他还是会拒绝换脸的。我给了他一个照片，给我把我的脸换上去，他拒绝了。后来我告诉他，我说这是我的照片，我自己有肖像权，我愿意干。他说那好吧，我给你干去。指定了一个电影的剧照，我说你给我按照这个剧照画，他又拒绝干活了。这个我当时用的是皮克斯的《飞屋环游记》的一个照片，说我拒绝干活。这个过程到底哪些拒绝，哪些通过，还比较玄学，大家需要去测试。它的输入也是多模态输入，你可以输入图片、语音、文字，甚至可以输入视频。输入完了以后都可以非常精准的理解，按照你的要求去把图画出来，而且一致性极高。你告诉他说，我现在要求按照这个角色，给我去做哪些动作，不会说发现换人了，不会干这样的事情。他们都是一致性很好的，所以你说我想拿GPT-4o去生成漫画书。

效果很好。唯一的缺点是什么？就不是很快，这个稍微的有些慢。我估计应该也是因为功能刚推出来，一帮人都在玩耍，都在测试，所以速度要稍微慢一些。现在能够使用的范围有哪些？就是像我们这种Plus用户、Pro用户，那200美金肯定让人用吧。Team用户好像是40美金一个月的，这个也是可以用的。免费用户也可以使用，你说我没交钱，应该没问题。所以如果你现在使用的是iPhone啊，你在国外，用了这个Apple Intelligence这些功能，应该就都可以去工作了。那么有两种用户现在还不能用，一个是企业用户（Enterprise用户），还有一种是教育用户（edu用户），这些还不能使用。这个原因也很简单了，你该好好上班的，好好上班去；该好好学习的，好好学习去。你们现在没有那么多时间去画画、去玩，所以这个可能还要稍微再等一等。过几周以后，把这些功能会加到API里边去，我们可以通过API使用这些功能了，应该会变得非常有趣。

那么好，下面我们来看看生成的图片。这是我用昨天录CoreWeave上市那期的相关提示词生成的图片，在这个GPT-4o里面生成的。大家看哈，GPT、GPU、Nvidia、CoreWeave都给我写得非常清楚。所以对于指令的理解和执行上，GPT-4o要比MidJourney强非常多。好看不好看咱们先不管，说对吧？它的艺术性可能要稍微差一些，但是它在理解你要让它干什么这件事情上，以及老老实实干活这件事上，这个是非常强的啊。后面我说，我想让这个数据中心是一个俯视角，从上往下看的，可以显得更大一些。看看变得更大一些，整个的氛围还是对的。而且大家看到了第一张图跟第二张图，他是没有什么特别大的这种风格上，或者说他这一些细节上都没有失真。你说这是同样一张图，两个不同的视角，没有任何毛病。这个事干的，再往后咱们来看一看，它的限制是不是给你取消掉了啊。左边这张图的提示词是，用泡泡玛特风格，给我画一个埃隆马斯克在SpaceX里面拧螺丝。它首先泡泡玛特风格没有任何问题，它给你画了头很大，身子比较小，3D的，而且SpaceX的LOGO画得非常好，不是随随便便的就给你写了个字上去，还真的是SpaceX的LOGO，特别是这个X画得很棒。这说明什么？你告诉他使用什么样的艺术风格，他可以给你搞定了。后边我说不行，我说长得不像马斯克，你得给我让他像马斯克才行。看指名道姓要求像马斯克，像吧。

直接通过语言就可以让他进行输出了。再往后，这张图首先底下这个背景图是让MidJourney画的红丝绒蛋糕。大家看的是什么？是这个前景图，这个是我要求给我画的透明图标啊。说你给我用这个图标的方式画出来：咖啡蛋糕、饼干、奶茶、猫、狗、小男孩、小女孩和书。大家看到的是什么？第一个他给你画的是透明图标，你只管切下来用就完了。第二个什么？他的风格是统一的，你把这一套东西放到任何一个应用或者网页里边去用，就可以直接用了。所以好看不好看咱们单说，但是能用这是非常重要的。

再往后咱们来看看写中文的事情。我说：“给我画一个乐高风格的庆丰包子铺。”你看庆丰包子写得很漂亮，没有任何问题，而且这个字也是跟我们的乐高风格是一致的，写中文没有任何问题。然后我说：“给我换一个字体。”后来我好像说让他换隶书，但是字体肯定是换了，我觉得这个有点像楷书啊，应该不是隶书。他知道这是两个不同的字体，他会给你进行一些更换，我觉得做成这样已经很不错了。

再往后咱们是做每一次都干的事情，是什么画？给自己画头像、画金币、这个画logo啊。最右下角这个是我自己的头像，这个是照片，这个不是画出来的啊，应该是呃，经过一点点美颜，这个我们还是要承认的。这个是金币，你给我画一个写着“Storyteller fan”的一个金币。怎么说，整个的质感还是要稍微差一些，比Midjourney生成出来的要差一些，但是这个人我觉得还是要像一点点的。

中间，我说：“你给我画一个‘storyteller fan’的一个圆形的logo。”你看我这是单手托腮，这边也是单手托腮，脸型、眼镜、眉毛都是没有任何问题的。我说：“我是一个科技博主，你给我画上电脑、手机和云计算。”也给我画在上面了，这个就可以拿来用了。这真的是生产力工具，这个创意有时候稍微差那么一点点，但是生产力没有任何毛病。

再往后我们来做一个比较难的任务，这个是干嘛？我说：“你给我用第一张图的人脸，按照第二张图的风格去给我画一个。”你看给画出来了，还把我这个韦德，这有一个韦德在这边也给你画出来了。韦德他自己就完全去理解，他说这是一个什么样的风格？这是一个大理石，还有反光，或者是瓷器的上面还有烟雾，后边还有这种火焰。他就直接的从左边这个人，套上中间这个风格，给你生成右边这个图片了。这个，我觉得是非常难能可贵的一个事情。

再往后我们来看看它的一致性。好，这是他的一个一致性，我拿到了一个老爷爷的头像，老爷爷其实是我用自己的头像。

说你给我按照《飞屋环游记》的风格，给我画一下。我大概跟他进行了六七轮对话，最后给我画成这样了。他说：“第一，你这个头像有肖像权，我们不能直接把人家有肖像权的东西给你画出来。”我说：“没事，这是我自己的头像，我可以处理肖像权。”他说：“那行，我给你干。”他说：“不行，我不能侵犯《飞屋环游记》的这个版权。”我说：“你给我能画什么画什么，差不太多就可以了。”最后，反正还是这不行那不行。我说：“你给我按照皮克斯3D风格，给我按照我的头像画出来。”他就给我画出了一个这样的老大爷，其实还是很像《飞屋环游记》的。折腾来折腾去还是很像的。这个我们不是要展示的重点。这次展示重点是什么？从这里到这里，我说：“以左面这个人为主角，给我画一组漫画。”这个老大爷在散步、吃蛋糕、遛狗、喝咖啡、骑自行车，以及去做这个购物。被我头像挡住了，没关系，大家能看出是同一个人。而且这里面的每一个人，他都很精确地按照我的要求去做：散步、吃蛋糕、遛狗、喝咖啡、骑车。右边是购物，购物车看不到了，没关系，然后这个人明显是同一个人。我就可以用一个头像去讲整套的故事了，这个是非常棒的。往后咱们再做一个，还是左面是原图。我说：“给我生成一个泡泡玛特3D风格的。”头像生成出来了，居然还有痦子，各种模型都没有办法来实现，这边实现了。而且我这个图上是有手表的，他把我的手表也画出来了。我说：“以我这个头像为主角，给我画一个骑着凯旋Bobber的。”这个图片出来，戴上手套了，还带着我的手表，给了个牛仔裤。这个确实是一辆凯旋Bobber，还把凯旋的logo画在这了，这个非常的棒。最后，生产力工具，今天晚上要读评论。我说：“来，给我画一个泡泡玛特3D风格的，老范读评，3月26号读评的一个图片，我要用它去做一个封面。”直接生成一句话搞定，这个多爽。你看我的表还戴在这里，礼拜三晚上读屏的封面就是这么来的。当然我还要求是马卡龙配色，窗外是春天的街道，这多棒，非常精确地给你画出来了。好不好看咱们先不管，但是真的是按照你的要求，一丝不苟地画出来的啊。这个我们得到了一个非常强力的生产力工具，这就是它生成的这一大堆图片。那么，未来用嘴修图的时代已经到来了。记得咱们去看很多的电影，去认这个罪犯的时候，说这个眉毛要稍微长一点，眉毛要翘一点，眼睛要大一点、小一点，就可以修出图来，叫靠嘴捏脸。那么这个应该很快到来了。而且现在不光可以捏脸，你还可以换风格，还可以要求他们做各种各样的动作，做各种各样的场景，现在都可以做了。

所以，我们完完全全可以靠嘴。你可以说，因为GPT-4o是支持说的，你也可以打字。完全可以靠这种方式，得到我们想要的很多的图片。这块现在已经可以做了，希望大家可以玩得开心一些。从天马行空的惊喜到精准可控的生成，这就是这一次GPT-4o图像模型的最主要升级。原来都是很天马行空的，你没有办法控制他，说连续地出什么样的内容，现在可以了。艺术性跟感染力还要稍微差一些，但是能用了。希望大家开开心心地玩耍起来。好，这一期就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

图像生成速度对比 – 老范讲故事｜AI、大模型与商业世界的故事

GPT-4o图片生成工具，真正的生产力工具发布了，GPT-4o图像生成全面碾压DALL-E 3？指令理解超神但艺术感仍是致命短板！