Midjourney V7震撼发布:艺术巅峰细节狂魔强势回归,但面对GPT-4o的一致性与定价策略,它还是AI绘图的唯一真神吗?

Midjourney V7震撼发布:艺术巅峰细节狂魔强势回归,但面对GPT-4o的一致性与定价策略,它还是AI绘图的唯一真神吗?已关闭评论

MidJourney V7终于发布了,是不是王者归来了呢?

大家好,欢迎收听老范讲故事的YouTube频道。2025年,大模型进入了快速内卷期。从春节的时候,DeepSeek R1发布,打响了第一枪。前面DeepSeek V3大家还没觉得怎么样,R1一出来,第一枪打响了,大家开始卷推理、卷开源、卷免费、卷基础模型。

基础模型是什么?GPT-4.5、Claude 3.7、Gemini 2.5 Pro以及DeepSeek V30324版,这是在卷基础模型。然后大家去卷AI agent,各种deep search、deeper search或者是deep research,Manus,各种的AI agent开始卷起来。最后卷绘图,绘图应该是从GROK3开始卷起。GROK3说:“我可以不设限的让大家去画图。”算是给了大家一点点小惊喜。

Gemini 2.0 Flash直接说:“天塌了,这个以后做Photoshop的人要没饭吃了。”他对语言文字的理解和执行能力非常非常的强。你给他一个美女,给他一个包,说让美女拎着包,一致性很好。这个美女拎着这个包没有任何问题。当时大家就讲说Photoshop这帮人要失业,但是并没有引起特别大的风潮。为什么?因为Gemini 2.0 Flash画太复杂的东西是画不了的。

More

GPT-4o图片生成工具,真正的生产力工具发布了,GPT-4o图像生成全面碾压DALL-E 3?指令理解超神但艺术感仍是致命短板!

GPT-4o图片生成工具,真正的生产力工具发布了,GPT-4o图像生成全面碾压DALL-E 3?指令理解超神但艺术感仍是致命短板!已关闭评论

OpenAI更新了他们的图像生成模型。看来20美金一个月的套餐,还要继续续下去啊。大家好,欢迎收听老范讲故事的YouTube频道。OpenAI最近也开始卷起来了,对吧?前面开始出O1、O3,出GPT4.5,现在好了,把这个图像生成模型也更新了。最近其实大家都在卷图像,卷了一整波的图像。最早开始卷图像的是国内的这些应用,像豆包、千问,他们最早开始卷。这个模型没更新,卷的是客户端和手机端的应用,希望说你出去照完相以后,说给我去换个衣服,换个背景,去做这样的事情。但是这个因为模型本身的能力有限,所以效果并不是特别好。我试过比如说,我把自己的一张照片发上去以后,说来,给我把这个背景换成海滩。背景确实换成海滩了,但是他把前面这个人物也重绘了,不像我了。这就是国内卷了一波。

真正拉开序幕的是谁?是谷歌的Gemini 2.0 Flash。他们出了一个可以同时输出文字和图像的模型。这个模型出来以后,很多人惊呼,以后Photoshop修图就没你们什么事了啊。为什么?你可以上传一个杯子的图片,再上传一个美女的图片给它,提示词说请让美女举着杯子。那个图片出来了以后,是非常逻辑自洽的,不会看着有任何别扭的地方。或者你给她个包,说想让这个美女拎着包,这个效果好极了。甚至我拿了一些MidJourney画的图片上去,说再给我把某个公司的logo贴上,效果极好,特别的逻辑自洽,而且支持中文输出。这个其实挺难的。目前为止,支持中文输出的图像生成模型,原来就是国内的极梦,也是字节下边有一个版本是支持的。现在Gemini也是支持中文输出的,而且它支持多模态输入。你可以跟它说话,你可以给它输入图片,说你把这张图片跟那张图片合在一起,它效果都很好,完全可以实现聊天修图像。

More