GPT-4o图片生成工具,真正的生产力工具发布了,GPT-4o图像生成全面碾压DALL-E 3?指令理解超神但艺术感仍是致命短板!
3 月 27
AIGC 3D建模辅助, AI图像生成, AI绘图工作流, DALL-E 3升级, Gemini 2.0 Flash, GPT-4o评测, GROK3图像编辑, IP形象开发, MidJourney对比, OpenAI更新, UI图标库生成, 个性化头像生成, 中文AI绘图, 中文提示词优化, 中文艺术字生成, 产品包装设计, 企业级API接入, 创意内容商业化, 动态分镜制作, 商业logo设计, 商业应用场景, 团队协作绘图, 图像生成API, 图像生成速度对比, 图像生成限制放宽, 复杂指令解析, 多模态AI, 多模态输入输出, 多轮对话绘图, 多风格控制测试, 实时绘图优化, 宫崎骏风格头像, 广告素材生成, 庆丰包子铺乐高, 影视分镜制作, 影视概念设计, 指令理解模型, 教育培训禁用, 数字水印技术, 数字水印溯源, 数字资产创作, 智能修图革命, 模型迭代路径, 泡泡玛特风格, 游戏角色建模, 版权内容生成, 版权合规生成, 生产力工具革新, 生成式AI进化, 电商主图优化, 电商图标设计, 电子书插图, 皮克斯风格绘图, 社交媒体配图, 聊天式图像编辑, 艺术性与实用性平衡, 虚拟偶像创作, 角色一致性生成, 语义依存度测试, 语义精准控制, 跨平台图像生成, 透明图标设计, 靠嘴修图 GPT-4o图片生成工具,真正的生产力工具发布了,GPT-4o图像生成全面碾压DALL-E 3?指令理解超神但艺术感仍是致命短板!已关闭评论
OpenAI更新了他们的图像生成模型。看来20美金一个月的套餐,还要继续续下去啊。大家好,欢迎收听老范讲故事的YouTube频道。OpenAI最近也开始卷起来了,对吧?前面开始出O1、O3,出GPT4.5,现在好了,把这个图像生成模型也更新了。最近其实大家都在卷图像,卷了一整波的图像。最早开始卷图像的是国内的这些应用,像豆包、千问,他们最早开始卷。这个模型没更新,卷的是客户端和手机端的应用,希望说你出去照完相以后,说给我去换个衣服,换个背景,去做这样的事情。但是这个因为模型本身的能力有限,所以效果并不是特别好。我试过比如说,我把自己的一张照片发上去以后,说来,给我把这个背景换成海滩。背景确实换成海滩了,但是他把前面这个人物也重绘了,不像我了。这就是国内卷了一波。
真正拉开序幕的是谁?是谷歌的Gemini 2.0 Flash。他们出了一个可以同时输出文字和图像的模型。这个模型出来以后,很多人惊呼,以后Photoshop修图就没你们什么事了啊。为什么?你可以上传一个杯子的图片,再上传一个美女的图片给它,提示词说请让美女举着杯子。那个图片出来了以后,是非常逻辑自洽的,不会看着有任何别扭的地方。或者你给她个包,说想让这个美女拎着包,这个效果好极了。甚至我拿了一些MidJourney画的图片上去,说再给我把某个公司的logo贴上,效果极好,特别的逻辑自洽,而且支持中文输出。这个其实挺难的。目前为止,支持中文输出的图像生成模型,原来就是国内的极梦,也是字节下边有一个版本是支持的。现在Gemini也是支持中文输出的,而且它支持多模态输入。你可以跟它说话,你可以给它输入图片,说你把这张图片跟那张图片合在一起,它效果都很好,完全可以实现聊天修图像。
原来为什么大家不愿意用修图这个功能?你需要选择,这个是特别讨厌的。我们做各种修图,最讨厌的地方就是选择,说我到底要改哪一块。抠图虽然可以抠,但是有时候抠的没有那么准。现在来了说,我们直接告诉他把这个背景换了,给我戴个眼镜,拿个杯子,要拿哪张图片上的杯子,这个效果都很好。只是它的模型很小。你想Gemini 2.0后边这个是叫Flash,而不是叫Pro,所以它是个小型模型。它生成的图片整个的质量不是很高,但是速度很快啊。所有叫Flash的一般速度都比较快。这边出完了以后,马斯克肯定是不甘人后,他的GROK3就上来了,叫图片编辑功能。
现在,我们去X平台上点击这个Grok,上面就专门有一个选项叫“图片编辑”。你可以上传图片让它编辑,但是效果稍微弱了一点点,这里就不再介绍了。GROK3生成的图片,它的艺术性跟质量要比Gemini要好一些,但是它的指令依存度要差一些。你命令它做很多事情,它有时候没有办法特别精确地去执行。
像我最常用的MidJourney,目前还在纠结到底后边要做什么。这应该是个小公司了,后边更新是比较慢的。最近还发了问卷,问视频生成应该如何收费的问题。所以,MidJourney可能下一个版本会出视频。
那么,OpenAI现在终于放出大招来了,我们也要卷一下这件事情。OpenAI在昨天晚上放了一个视频,说我们图片生成功能终于出来了。这个功能其实已经被吐槽好久了,因为原来他们使用的叫DALL.E-3这样的一个模块来进行图像生成。DALL.E-3有他的优点,指令理解能力非常好。你给他一个很长的指令,里边说的很详细的各种信息,他都可以给你理解得很清楚,都给你画上。其他的一些生成模型,如果你提示词长了以后,可能前面的一部分还给你画了,越往后的部分,就基本上都给你忽略掉了。
大家注意,写画图指令的时候,特别重要的东西写前头。越往前写的东西越重要,越往后写的东西越有可能被忽略掉。但是,DALL.E-3的艺术感极差。你说这个东西画出来以后好不好看,这个就别想了。精细度也不是很高,这个相对来说,图片比较粗糙。最被人吐槽的地方是什么?就是DALL.E-3的各种限制极其严苛。你说你给我画一个谁谁谁的头像,对不起,侵犯肖像权了啊。你给我按照宫崎骏的风格,给我画一个什么东西,对不起,侵犯人家著作权了。这个要求特别严苛了,以后基本上不怎么用了。
现在给出的并不是DALL.E-4,而是GPT-4o。他说我们现在在GPT-4o里边,直接可以绘图了,你们不用再去选DALL.E-3了。那么,现在GPT-4o绘图的效果到底怎么样呢?第一个,指令理解跟依存这件事情,绝对遥遥领先。在语言模型上,GPT还是做的最好的。你跟它说很复杂的指令,它都可以给你画出来,这个是最棒的。艺术感这一块,距离MidJourney还是有一些差距的。精细度有明显的提升,现在画出来的图,要比原来DALL.E-3的那个提高非常多了。而且也支持中文,你要求他给你画中文的内容,到这个图片上去没有任何问题。字体的理解上还稍微差那么一点点,待会咱们看这个图片。
你们就能知道为什么说差一点点了。说你给我换个字体,他呢确实给你换,但是换完了,那个字体并不是你要求的字体。这个我觉得各种中文字体,对于这些美国人做的视频生成模型来说,还是稍微有一些差距的。对于不同风格的理解和输出,相对来说是比较准确的。但是它的理解,有时候跟MidJourney不是特别一致。你跟他说我要画一个什么什么东西,MidJourney可能画的是一个风格,他画的是另外一个风格。这个是各自的理解,但是你只要说同样的提示词,说你给我画什么风格,他始终会稳定的按照同一个风格给你输出。而MidJourney的话,你跟他说啊,你给我画一个什么什么风格东西出来,他会经常发生一些跳跃和浮动。
画图这个东西呢,你一边需要艺术感啊,需要感染力,另外一边很重要的是一致性。现在在一致性这件事情上,GPT-4o的图像生成非常强。这次也把限制去掉了很多。Sam Altman也说了,说我们是愿意输出一些让人感到不适的图片了,我们也不再做那么严格的限制了。出来以后,大家自己去选择到底是不是应该使用这个图片出去。但是特别过分的我们还是会拦截的,而且在这个图片上是有数字水纹的。你虽然看不到这个水纹在什么地方,但是程序是可以读出来的。你是某年某月某日,用什么样的提示词去生成出来的,这个是可以看到的。现在你再要求指定艺术风格,已经没有什么问题了。你说你给我按皮克斯的风格画,按照乐高的风格画,按照宫崎骏的风格画,这个都是没有任何问题,都可以直接出图了。你说指名道姓给我按照谁的脸画,这个也可以出。比如说我让他给我画埃隆马斯克,也画出来了。待会咱们看看画的像不像。
直接给照片,他还是会拒绝换脸的。我给了他一个照片,给我把我的脸换上去,他拒绝了。后来我告诉他,我说这是我的照片,我自己有肖像权,我愿意干。他说那好吧,我给你干去。指定了一个电影的剧照,我说你给我按照这个剧照画,他又拒绝干活了。这个我当时用的是皮克斯的《飞屋环游记》的一个照片,说我拒绝干活。这个过程到底哪些拒绝,哪些通过,还比较玄学,大家需要去测试。它的输入也是多模态输入,你可以输入图片、语音、文字,甚至可以输入视频。输入完了以后都可以非常精准的理解,按照你的要求去把图画出来,而且一致性极高。你告诉他说,我现在要求按照这个角色,给我去做哪些动作,不会说发现换人了,不会干这样的事情。他们都是一致性很好的,所以你说我想拿GPT-4o去生成漫画书。
效果很好。唯一的缺点是什么?就不是很快,这个稍微的有些慢。我估计应该也是因为功能刚推出来,一帮人都在玩耍,都在测试,所以速度要稍微慢一些。现在能够使用的范围有哪些?就是像我们这种Plus用户、Pro用户,那200美金肯定让人用吧。Team用户好像是40美金一个月的,这个也是可以用的。免费用户也可以使用,你说我没交钱,应该没问题。所以如果你现在使用的是iPhone啊,你在国外,用了这个Apple Intelligence这些功能,应该就都可以去工作了。那么有两种用户现在还不能用,一个是企业用户(Enterprise用户),还有一种是教育用户(edu用户),这些还不能使用。这个原因也很简单了,你该好好上班的,好好上班去;该好好学习的,好好学习去。你们现在没有那么多时间去画画、去玩,所以这个可能还要稍微再等一等。过几周以后,把这些功能会加到API里边去,我们可以通过API使用这些功能了,应该会变得非常有趣。
那么好,下面我们来看看生成的图片。这是我用昨天录CoreWeave上市那期的相关提示词生成的图片,在这个GPT-4o里面生成的。大家看哈,GPT、GPU、Nvidia、CoreWeave都给我写得非常清楚。所以对于指令的理解和执行上,GPT-4o要比MidJourney强非常多。好看不好看咱们先不管,说对吧?它的艺术性可能要稍微差一些,但是它在理解你要让它干什么这件事情上,以及老老实实干活这件事上,这个是非常强的啊。后面我说,我想让这个数据中心是一个俯视角,从上往下看的,可以显得更大一些。看看变得更大一些,整个的氛围还是对的。而且大家看到了第一张图跟第二张图,他是没有什么特别大的这种风格上,或者说他这一些细节上都没有失真。你说这是同样一张图,两个不同的视角,没有任何毛病。这个事干的,再往后咱们来看一看,它的限制是不是给你取消掉了啊。左边这张图的提示词是,用泡泡玛特风格,给我画一个埃隆马斯克在SpaceX里面拧螺丝。它首先泡泡玛特风格没有任何问题,它给你画了头很大,身子比较小,3D的,而且SpaceX的LOGO画得非常好,不是随随便便的就给你写了个字上去,还真的是SpaceX的LOGO,特别是这个X画得很棒。这说明什么?你告诉他使用什么样的艺术风格,他可以给你搞定了。后边我说不行,我说长得不像马斯克,你得给我让他像马斯克才行。看指名道姓要求像马斯克,像吧。
直接通过语言就可以让他进行输出了。再往后,这张图首先底下这个背景图是让MidJourney画的红丝绒蛋糕。大家看的是什么?是这个前景图,这个是我要求给我画的透明图标啊。说你给我用这个图标的方式画出来:咖啡蛋糕、饼干、奶茶、猫、狗、小男孩、小女孩和书。大家看到的是什么?第一个他给你画的是透明图标,你只管切下来用就完了。第二个什么?他的风格是统一的,你把这一套东西放到任何一个应用或者网页里边去用,就可以直接用了。所以好看不好看咱们单说,但是能用这是非常重要的。
再往后咱们来看看写中文的事情。我说:“给我画一个乐高风格的庆丰包子铺。”你看庆丰包子写得很漂亮,没有任何问题,而且这个字也是跟我们的乐高风格是一致的,写中文没有任何问题。然后我说:“给我换一个字体。”后来我好像说让他换隶书,但是字体肯定是换了,我觉得这个有点像楷书啊,应该不是隶书。他知道这是两个不同的字体,他会给你进行一些更换,我觉得做成这样已经很不错了。
再往后咱们是做每一次都干的事情,是什么画?给自己画头像、画金币、这个画logo啊。最右下角这个是我自己的头像,这个是照片,这个不是画出来的啊,应该是呃,经过一点点美颜,这个我们还是要承认的。这个是金币,你给我画一个写着“Storyteller fan”的一个金币。怎么说,整个的质感还是要稍微差一些,比Midjourney生成出来的要差一些,但是这个人我觉得还是要像一点点的。
中间,我说:“你给我画一个‘storyteller fan’的一个圆形的logo。”你看我这是单手托腮,这边也是单手托腮,脸型、眼镜、眉毛都是没有任何问题的。我说:“我是一个科技博主,你给我画上电脑、手机和云计算。”也给我画在上面了,这个就可以拿来用了。这真的是生产力工具,这个创意有时候稍微差那么一点点,但是生产力没有任何毛病。
再往后我们来做一个比较难的任务,这个是干嘛?我说:“你给我用第一张图的人脸,按照第二张图的风格去给我画一个。”你看给画出来了,还把我这个韦德,这有一个韦德在这边也给你画出来了。韦德他自己就完全去理解,他说这是一个什么样的风格?这是一个大理石,还有反光,或者是瓷器的上面还有烟雾,后边还有这种火焰。他就直接的从左边这个人,套上中间这个风格,给你生成右边这个图片了。这个,我觉得是非常难能可贵的一个事情。
再往后我们来看看它的一致性。好,这是他的一个一致性,我拿到了一个老爷爷的头像,老爷爷其实是我用自己的头像。
说你给我按照《飞屋环游记》的风格,给我画一下。我大概跟他进行了六七轮对话,最后给我画成这样了。他说:“第一,你这个头像有肖像权,我们不能直接把人家有肖像权的东西给你画出来。”我说:“没事,这是我自己的头像,我可以处理肖像权。”他说:“那行,我给你干。”他说:“不行,我不能侵犯《飞屋环游记》的这个版权。”我说:“你给我能画什么画什么,差不太多就可以了。”最后,反正还是这不行那不行。我说:“你给我按照皮克斯3D风格,给我按照我的头像画出来。”他就给我画出了一个这样的老大爷,其实还是很像《飞屋环游记》的。折腾来折腾去还是很像的。这个我们不是要展示的重点。这次展示重点是什么?从这里到这里,我说:“以左面这个人为主角,给我画一组漫画。”这个老大爷在散步、吃蛋糕、遛狗、喝咖啡、骑自行车,以及去做这个购物。被我头像挡住了,没关系,大家能看出是同一个人。而且这里面的每一个人,他都很精确地按照我的要求去做:散步、吃蛋糕、遛狗、喝咖啡、骑车。右边是购物,购物车看不到了,没关系,然后这个人明显是同一个人。我就可以用一个头像去讲整套的故事了,这个是非常棒的。往后咱们再做一个,还是左面是原图。我说:“给我生成一个泡泡玛特3D风格的。”头像生成出来了,居然还有痦子,各种模型都没有办法来实现,这边实现了。而且我这个图上是有手表的,他把我的手表也画出来了。我说:“以我这个头像为主角,给我画一个骑着凯旋Bobber的。”这个图片出来,戴上手套了,还带着我的手表,给了个牛仔裤。这个确实是一辆凯旋Bobber,还把凯旋的logo画在这了,这个非常的棒。最后,生产力工具,今天晚上要读评论。我说:“来,给我画一个泡泡玛特3D风格的,老范读评,3月26号读评的一个图片,我要用它去做一个封面。”直接生成一句话搞定,这个多爽。你看我的表还戴在这里,礼拜三晚上读屏的封面就是这么来的。当然我还要求是马卡龙配色,窗外是春天的街道,这多棒,非常精确地给你画出来了。好不好看咱们先不管,但是真的是按照你的要求,一丝不苟地画出来的啊。这个我们得到了一个非常强力的生产力工具,这就是它生成的这一大堆图片。那么,未来用嘴修图的时代已经到来了。记得咱们去看很多的电影,去认这个罪犯的时候,说这个眉毛要稍微长一点,眉毛要翘一点,眼睛要大一点、小一点,就可以修出图来,叫靠嘴捏脸。那么这个应该很快到来了。而且现在不光可以捏脸,你还可以换风格,还可以要求他们做各种各样的动作,做各种各样的场景,现在都可以做了。
所以,我们完完全全可以靠嘴。你可以说,因为GPT-4o是支持说的,你也可以打字。完全可以靠这种方式,得到我们想要的很多的图片。这块现在已经可以做了,希望大家可以玩得开心一些。从天马行空的惊喜到精准可控的生成,这就是这一次GPT-4o图像模型的最主要升级。原来都是很天马行空的,你没有办法控制他,说连续地出什么样的内容,现在可以了。艺术性跟感染力还要稍微差一些,但是能用了。希望大家开开心心地玩耍起来。好,这一期就跟大家讲到这里,感谢大家收听。请帮忙点赞、点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。