Midjourney V7震撼发布:艺术巅峰细节狂魔强势回归,但面对GPT-4o的一致性与定价策略,它还是AI绘图的唯一真神吗?
4 月 06
AIGC 30美元), 3D模型, AI Agent, AI大模型内卷, AI绘图, AI绘画工具, Alpha版, DeepSeek R1, Gemini 2.0 Flash, GPT-4o, Grok (XAI), MidJourney V6.1, MidJourney V7, MidJourney更新, MidJourney评测, Relax模式, Turbo模式, V7发布, 一致性问题, 个性化设置, 中文提示词, 书店, 人工智能, 人物绘画 (汉服新娘), 优缺点分析, 厨房, 吉卜力风格, 图像生成, 图像质量, 场景绘画, 基础模型竞争, 定价策略, 戏精AI, 手绘风格, 指令理解, 文字生成能力, 横评对比, 照片真实感, 生产力工具潜力, 用嘴生图, 皮克斯3D风格, 细节狂魔, 艺术表现力, 草稿模式, 视频生成, 订阅费用 (10美元, 语音生成, 酒吧, 食物绘画 (拉面) Midjourney V7震撼发布:艺术巅峰细节狂魔强势回归,但面对GPT-4o的一致性与定价策略,它还是AI绘图的唯一真神吗?已关闭评论
MidJourney V7终于发布了,是不是王者归来了呢?
大家好,欢迎收听老范讲故事的YouTube频道。2025年,大模型进入了快速内卷期。从春节的时候,DeepSeek R1发布,打响了第一枪。前面DeepSeek V3大家还没觉得怎么样,R1一出来,第一枪打响了,大家开始卷推理、卷开源、卷免费、卷基础模型。
基础模型是什么?GPT-4.5、Claude 3.7、Gemini 2.5 Pro以及DeepSeek V30324版,这是在卷基础模型。然后大家去卷AI agent,各种deep search、deeper search或者是deep research,Manus,各种的AI agent开始卷起来。最后卷绘图,绘图应该是从GROK3开始卷起。GROK3说:“我可以不设限的让大家去画图。”算是给了大家一点点小惊喜。
Gemini 2.0 Flash直接说:“天塌了,这个以后做Photoshop的人要没饭吃了。”他对语言文字的理解和执行能力非常非常的强。你给他一个美女,给他一个包,说让美女拎着包,一致性很好。这个美女拎着这个包没有任何问题。当时大家就讲说Photoshop这帮人要失业,但是并没有引起特别大的风潮。为什么?因为Gemini 2.0 Flash画太复杂的东西是画不了的。
再往后,GPT-4o图形功能就出来了,这个就真的天塌了,又来了一次GPT3.5时刻。什么是GPT3.5时刻?就是当时他们把ChatGPT-3.5推出来的时候,整个社会都震惊了。现在你到x平台,到各种社交媒体平台上去看,大家都在疯狂的分享吉卜力风格的各种合影、各种图片。这确实是非常有感染力的一个产品,而且它的一致性极强,妥妥的生产力工具已经到手了。只是它也有不足的地方,就是太复杂的它还是表现能力有欠缺。
在这样的一个时刻,Midjourney V7就露出了影子。在GPT-4o轰动整个社会的时候,MidJourney的CEO就跑出来表示不屑一顾,说:“你这算啥?艺术感、细节都不行,你们等着,下个礼拜我就发布MidJourney V7。”因为MidJourney到6.1以后,很长一段时间都没有更新啊。所以他说:“我们马上要发布了,而且时间确定了下个礼拜。”他所讲的下个礼拜,实际上就是我们刚刚过完这一周。从周一开始,先做了一轮rank。做rank干嘛?他给你一大堆图片,让你去打分。每一次有两张图片,这两张图片……
你可以选择你感觉比较好的一张,或者能够触动你的一张。而且这两张图片可能画的是完全两个不同的东西,完全无关的东西。你只要是看哪个稍微好一点,去选就完了。你可以选择说我第一张好看一点,或者你可以选择回退:“上一次我选错了,两张我实在是半斤八两,分不出来。”你可以SKIP,要下一次,这个都是可以的。
是周一干的事情。周二做了第二轮,第二轮我没去啊。到周三又做了第三轮的打分。第一轮的打分里面,还有很多图片的质量是很差的,就属于生成失败的。比如说跑焦了,或者是一些绘制一半的,这样的东西就都拿出来了。到第三天我又去打分去了,打了几千张图片,还是非常棒的。第三天给出来的图片,就完完全全是MidJourney V7生成的图片了,那个效果已经非常好了。
到第四天周四没有什么动静,其实也做了一件事,什么就是把我的relax权限给取消了。什么意思?像我这种每个月交10美金的订阅用户,我本来是可以用fast方式去画图的。fast方式就是他给我200分钟,实际上基本上够我画200幅画,就可以做这个事情。那么如果是可以使用relax,就是这种放松模式,它是可以无限画,但是会慢一点点。在礼拜四,他就直接把所有像我们这样的10美金的叫基础用户的relax权限全取消掉了,这是干了这么个事情。
到周五推出了第一个Alpha版本。所以现在我们虽然看到了MidJourney V7,也可以用V7去画画了,但是其实我们现在使用的是MidJourney V7的Alpha。第一版是最早期版本,现在这个版本极其精细。你让它画什么东西,各种细节拉满,艺术感表现力都非常的强。指令的理解和遵循能力也比原来MidJourney的6.1要强很多了。原来MidJourney 6.1,你如果提示词很长了,后半截它就给你忽略掉了。现在V7都可以去正常使用,而且现在支持中文提示词,你不需要再去写英文提示词了。
当然,也有一些让我们不是那么满意的地方。第一个一致性并没有GPT-4o那么好。什么叫一致性?你告诉他我画的都是同样的一个东西,在不同的图片里,它应该长成一样的。在这块这个MidJourney V7还有待提升。另外一个就是太精细了,他很喜欢给自己加戏哈。待会我展示一下他的图片,你们自己去判断。很多功能现在还没有上来,第一个是cref还没回来。这个是干嘛?换脸的,就是原来在MidJourney 6.1里头。
你可以给它一张照片,说:“我现在要用这张脸。”它是可以去工作的。但是现在V7里头还不支持这个功能,文字功能还很差。这个不比V6.1强多少,而且中文完完全全不支持,这是现在的一个情况。
另外一个就是很贵。它只允许relax模式和Turbo模式来工作。刚才我讲了,我的relax模式被取消了,所以我不允许再去画relax了。只有一个月30美金以上的人,才可以使用relax无限的去画。我是可以使用Turbo模式的啊。Turbo模式什么意思?就是快速生图。那么快了挺好吗?但是它生成一张要收两张图的钱。所以我原来一个月有200分钟的生图时间,能够生200张图,现在我只能生100张图了。所以这一块还是要贵一些的。
它还有一个比较有趣的功能,叫草稿模式,更快。而且草稿模式是完全支持用嘴生图的。下面我们来演示用嘴生图。
这就是Midjourney的网站了。这个网站大家可以去浏览别人画好的画,去创造自己的图片,或者是去做编辑。这个编辑咱们就不再细讲了。这有一个很重要的点就是做个性化。V7是强制要求开个性化的,所以如果你原来没有开过个性化,那么你现在需要去对V7做个性化训练。
什么叫个性化?就是说我喜欢哪张图,我不喜欢哪张图,你要去打一大堆分。打完了以后,它就会知道哪个是你喜欢的。大概是要打到几百张,它就会给你形成一个风格。那么每一次画出来的东西,都是跟你喜欢的比较相近。
下面是我们自己画的一些图片。好,那么我们现在就来画。我们现在可以在DISCORD里头画,也可以在这里画。你在这写上提示词就可以,在这加图片也是可以。这个p我们要去做个性化,V7是强制个性化的,你不做个性化它不让你画。然后这是方的、圆的、扁的,是这个哪一个版本啊?我们现在都是使用V7来进行绘制。
好了,大家注意,这里有一个很重要的东西,就是草稿模式。一旦点中了草稿模式以后,它会快速的给你生成一些比较简单的图画,也将就能看。一旦点了草稿模式之后,这后边就出了麦克风,我们就可以去跟它说话了。
“赛博朋克都市程序员的卧室,改成皮克斯3D风格,色彩更加鲜艳一些。”
“以第三张为基础,加上一把人体工学椅。”
“以第三张为基础,加上两只猫。”
“我没有看到猫猫在哪里,放大第三章。”
好,我把它这个录音关掉,我们就可以放心说话了。这个是会比较慢的。为什么?前面画的都相对来说要粗略一些,它是draft模式的。但是你在这样的图上让它去做放大,就会费点劲。
正常的我们画完了以后放大是很快的,draft模式就会慢很多。现在是放大到16%。好,这就是我们的用嘴修图的过程。过程并没有那么顺滑,因为它的一致性还是有问题的。但是,我们已经完完全全可以用嘴修图了。
下面我要展示一下用MidJourney V7生成的图片。当然,你说我只用MidJourney V7来生成,可能大家没有什么感觉,所以我们来进行一些对比:MidJourney V7生成图片的横评比较。大家注意,我后面这张图就是用MidJourney V7来去生成的。当时的提示词应该是吉卜力风格的日式烘焙店厨房,感觉还是很有趣的,画的非常的精美。
那么怎么个横评法?首先我们要对中文提示词跟英文提示词进行比较,比较照片以及指定风格。皮克斯3D和吉卜力工作室风格我们都要去测试一下,手绘风格也要试验一下。画的东西是食物、人物和场景。我们比较是MidJourney V6.1、V7、GPT-4o和XAI的Grok,我们是对这四个版本进行比较。我后面这幅画也是MidJourney V7画出来的,非常的精美。材质上面,比如小帽子上面的这些材质都非常精细。
好,我们开始正式的比较。首先是中文提示词:巴厘岛海边日落的小酒吧。因为MidJourney V6.1是不支持中文提示词的,所以没有它参赛。左上角的这个是GPT-4o的,大家看一下还是有一点点感觉:日落下面的小酒吧,而且巴厘岛它有一个草棚子的顶。右上角这个是Grok的,感觉也还可以,只是它里面画的东西要稍微少了一点点。左下角的就是MidJourney V7画出来的,我说它加戏,非常多的细节,有灯光有各种的细节都在这里,而且色彩非常的真实和柔和。这个就是MidJourney V7。
同样的,我们去使用英文提示词。这个刚才我们使用的是中文提示词,如果是英文提示词,使用DeepSeek R1生成的英文超长提示词。在这个左下角,大家看到的就是超长提示词了,就是一个小的这种餐吧,在巴厘岛的海边上,在这个golden hour,就是金色阳光洒下的时候。写的非常完整,而且下头还要写我使用各种的配色,使用什么样的灯光,要有茅草的屋顶,这都写上了。右下角是MidJourney V6.1生成的,其实已经感觉非常精细了。但是跟左上角MidJourney V7生成的图片比较起来,它的色彩的真实度还原度,以及各种细节纹理,你看这个地板上的这些纹理。
还是没有办法去比较的,所以这绝对是细节狂魔。那么,Grok和GPT-4o做成什么样了呢?一模一样的提示词扔进去,GPT-4o对于这种超长提示词是有问题的,所以它生成出来的东西,怎么说呢?你把它作为是绘本,这个是可以用的,但是跟前面MidJourney生成的,哪怕是6.1生成的都完全没法比。至于Grok的脸完全塌掉了,脸是一点都没有办法看的,但是整个的氛围还是正确的,细节就废掉了。
再往后,我们来进行指定风格的绘制。先绘制皮克斯3D风格的美式汉堡店,还是使用DeepSeek R1超长提示词。我们看看右下角的,是6.1的。怎么说呢?很多细节是有问题的,包括这个人物,这些细节是错误的,但是它整个的氛围非常好,感觉是稍微有些不太真实。而左上角是V7的,非常非常细致,地板上都有反光。用游戏的说法,这玩意叫光追,这些都已经给你画出来了,而且各种的细节拉满,汉堡橱窗、各种的炊具、冰箱,每一个细节,每一个家具,都属于统一风格的。但是你说这个算不算皮克斯3D风格?算,也稍微有一点点小差距。它介于皮克斯3D风格与现实风格之间的一个状态,还是非常绚丽的一张图。
再往后看这个GPT-4o,它对于皮克斯3D风格的理解要更加透彻一些,色彩也更好,但是细节和艺术感就不要太纠结了,没有了。至于Grok,我觉得基本上算失败了,没法看了。
再往后,我们试试吉卜力风。提示词是“京都春季街头书店”,用DeepSeek R1超长提示词去做的。我都是把这一句话“吉卜力风格,京都春季街头书店”这句话扔给DeepSeek R1,说你给我去生成英文提示词。他画出来的,右下角V6.1的,感觉确实是一个日漫的风格,没有任何问题,但是它的色彩稍微有些明亮了。左上角V7的,大家仔细去看这个里面的细节,自行车、这个樱花树、各种房间里面的细节以及色彩,绝对是要比6.1的要强非常多了。但是你说这是不是一个吉卜力风?色彩和格调是啊,但是它还是更像一个吉卜力风格的现实场景,并不是一个纯手绘的吉卜力风,这个还是有些差距的。
那么在吉卜力风这一块,GPT-4o一定是做的非常棒的。大家看到它这种色彩,这种乌突突的感觉,但是它的细节就不用想了,这就是GPT-4o的。至于Grok,它叫日漫风,你虽然用的是吉卜力风格给它的,但是它画出来的是日漫风,距离吉卜力风还是差的比较远。这是我们做的吉卜力风格的“京都春季街头书店”。
再往后,我们指定手绘风。
这个提示词是彩色钢笔手绘烘焙甜品店的菜单,右下角MidJourney V6.1画出来的有汉堡、冰激凌、咖啡、牛角包、蛋糕,这边应该是布朗尼,各种甜品。下头还有一些文字,这就是MidJourney V6.1的能力。至于MidJourney V7,大家想明白为什么我说这东西是戏精了吧?不停的给自己加戏。你说他是手绘风格吗?没有问题,是手绘风格。但是这个菜单他也做了排版,只是文字就不用再去纠结了,他文字是没法看的。总的来说,这个有点画的太满了,是不是?这就是给自己加戏的V7,但是真的是很漂亮。这张画画出来的细节绝对拉满,你看看这牛角包上面的这个糖浆,以及咖啡里面的拉花,实在是太棒了。在这种要求上,GPT-4o跟Grok基本上算完败吧,你们是不是同意这种观点?
下面我们去画人物,身着汉服的美丽中国新娘,用6.1画出来的,人看着不太像真的,但是衣服和凤冠霞帔真的是非常的细致,但是没法跟v7比。这一件汉服大衣服绝对是太奢华了,以及后面整个虚化的庭院场景,实在是太棒了。但是人脸因为离得远,不是特别清晰,所以后边我们再去画一张特写。咱们来看一下特写的效果,很真实的一个人。大家仔细去看,因为她是新娘,她这边有各种的礼物,以及后面虚化的房屋场景。手感觉不是特别清晰,但是手应该没有画崩。这是她整个的一个绘画,你看她的头饰,以及每一根发丝,实在是太精细了。再看它的耳环,看它的挂饰,特别是我觉得让我很感动的,就是这件刺绣的大衣服,一针一线,你都可以感受到这个材质的变化。这就是MidJourney V7的力量。在这件事情上,这个GPT-4o跟Grok完败,大家同意吧?没有什么问题。
好,我们再往后放食物。我要求的是一碗热气腾腾,配料丰富的日式拉面。V6上面要稍微差一些了,热气是有,但是感觉很不真实。叉烧已经完全做糊掉了,上面的这些葱、海带已经很不清晰了,后面是一块应该是紫菜,蛋画的还可以,面已经不是很像了。但是V7,大家仔细看看碗下面的花纹,叉烧肉上面的条纹,以及紫菜上面的纹理,这颗反光的蛋,还有它这些面。这个绝对是一碗热气腾腾的。大家再看这个蒸汽,你看V6.1上是有蒸汽的,但是不像真的。但是V7上面的蒸汽,就完全的以假乱真了,真的是一碗热气腾腾,配料丰富的日式拉面。这件事情上,GPT-4o跟Grok做的也还是不错的,它的肉包括grok上的肉都是有纹理的,蛋的也还可以了。
只是它的配料没有MidJourney摆的好。
在日式拉面这件事情上来说,我觉得Grok画的应该是味千拉面。GPT-4o要比Groker稍微好一点点,但是比起MidJourney V7来还是差很远的。
所以为什么说GPT-4o是生产力工具?就是当你去画一个很明确的简单场景,特别是这种产品图的时候,GPT-4o是可以干活的,但是Grok就要稍微差一点点了。
这就是我们去展示的MidJourney V7画的图,背景也是MidJourney V7的背景,应该是钢笔淡水彩风格,巴黎老钱风的厨房餐厅,使用莫兰迪配色。大概是用的这样的一个中文提示词,用DeepSeek R1进行了丰富以后,画出来的结果。大家看一看,是不是韵味都已经达到了MidJourney V7?
现在我们所看到的仅仅是Alpha 1的版本。未来的60天里头,每两周都会进行更新。我们会每两周期待MidJourney V7下一步会给我们补充哪一块新的功能进来。
未来的预期:现在文字,特别是中文还非常非常差,就算是英文的话也经常会拼写错误。在这点上比GPT-4o要差非常远。GPT-4o可以一句话生成完整的海报、完整的菜单,这个都是可以做的,但是现在MidJourney V7还不行,可能在未来一段时间会更新出来。
一致性还有待提升。特别是你想要做连环画,想要做一些绘本,你还是需要一致性的。特别是生产力工具,在这块还是有要求的。另外不能太戏精。刚才你们也看到这些图片了,这个MidJourney V7生成的图片,真的有点太戏精了,这个让你有的时候哭笑不得,不停的给自己加戏。
现在还有传闻他们在准备做3D模型,这块也还是值得期待的。视频方面,MidJourney征求过意见,说应该怎么收费,所以有可能会在V7版本的后期出视频。
总结一下,MidJourney V7给我最核心的体验,就是再次成为了艺术表现力的王者,以及细节狂魔。当然,距离生产力工具还有些差距。
最后一个感受:10刀的套餐好像不太够使了。我要稍微纠结两天,看看是不是去买30刀的套餐。
好,今天就讲到这里,感谢大家收听。请帮忙点赞、点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见!