Midjourney V7震撼发布:艺术巅峰细节狂魔强势回归,但面对GPT-4o的一致性与定价策略,它还是AI绘图的唯一真神吗?

Midjourney V7震撼发布:艺术巅峰细节狂魔强势回归,但面对GPT-4o的一致性与定价策略,它还是AI绘图的唯一真神吗?已关闭评论

Midjourney V7震撼发布:艺术巅峰细节狂魔强势回归,但面对GPT-4o的一致性与定价策略,它还是AI绘图的唯一真神吗?

MidJourney V7终于发布了,是不是王者归来了呢?

大家好,欢迎收听老范讲故事的YouTube频道。2025年,大模型进入了快速内卷期。从春节的时候,DeepSeek R1发布,打响了第一枪。前面DeepSeek V3大家还没觉得怎么样,R1一出来,第一枪打响了,大家开始卷推理、卷开源、卷免费、卷基础模型。

基础模型是什么?GPT-4.5、Claude 3.7、Gemini 2.5 Pro以及DeepSeek V30324版,这是在卷基础模型。然后大家去卷AI agent,各种deep search、deeper search或者是deep research,Manus,各种的AI agent开始卷起来。最后卷绘图,绘图应该是从GROK3开始卷起。GROK3说:“我可以不设限的让大家去画图。”算是给了大家一点点小惊喜。

Gemini 2.0 Flash直接说:“天塌了,这个以后做Photoshop的人要没饭吃了。”他对语言文字的理解和执行能力非常非常的强。你给他一个美女,给他一个包,说让美女拎着包,一致性很好。这个美女拎着这个包没有任何问题。当时大家就讲说Photoshop这帮人要失业,但是并没有引起特别大的风潮。为什么?因为Gemini 2.0 Flash画太复杂的东西是画不了的。

再往后,GPT-4o图形功能就出来了,这个就真的天塌了,又来了一次GPT3.5时刻。什么是GPT3.5时刻?就是当时他们把ChatGPT-3.5推出来的时候,整个社会都震惊了。现在你到x平台,到各种社交媒体平台上去看,大家都在疯狂的分享吉卜力风格的各种合影、各种图片。这确实是非常有感染力的一个产品,而且它的一致性极强,妥妥的生产力工具已经到手了。只是它也有不足的地方,就是太复杂的它还是表现能力有欠缺。

在这样的一个时刻,Midjourney V7就露出了影子。在GPT-4o轰动整个社会的时候,MidJourney的CEO就跑出来表示不屑一顾,说:“你这算啥?艺术感、细节都不行,你们等着,下个礼拜我就发布MidJourney V7。”因为MidJourney到6.1以后,很长一段时间都没有更新啊。所以他说:“我们马上要发布了,而且时间确定了下个礼拜。”他所讲的下个礼拜,实际上就是我们刚刚过完这一周。从周一开始,先做了一轮rank。做rank干嘛?他给你一大堆图片,让你去打分。每一次有两张图片,这两张图片……

你可以选择你感觉比较好的一张,或者能够触动你的一张。而且这两张图片可能画的是完全两个不同的东西,完全无关的东西。你只要是看哪个稍微好一点,去选就完了。你可以选择说我第一张好看一点,或者你可以选择回退:“上一次我选错了,两张我实在是半斤八两,分不出来。”你可以SKIP,要下一次,这个都是可以的。

是周一干的事情。周二做了第二轮,第二轮我没去啊。到周三又做了第三轮的打分。第一轮的打分里面,还有很多图片的质量是很差的,就属于生成失败的。比如说跑焦了,或者是一些绘制一半的,这样的东西就都拿出来了。到第三天我又去打分去了,打了几千张图片,还是非常棒的。第三天给出来的图片,就完完全全是MidJourney V7生成的图片了,那个效果已经非常好了。

到第四天周四没有什么动静,其实也做了一件事,什么就是把我的relax权限给取消了。什么意思?像我这种每个月交10美金的订阅用户,我本来是可以用fast方式去画图的。fast方式就是他给我200分钟,实际上基本上够我画200幅画,就可以做这个事情。那么如果是可以使用relax,就是这种放松模式,它是可以无限画,但是会慢一点点。在礼拜四,他就直接把所有像我们这样的10美金的叫基础用户的relax权限全取消掉了,这是干了这么个事情。

到周五推出了第一个Alpha版本。所以现在我们虽然看到了MidJourney V7,也可以用V7去画画了,但是其实我们现在使用的是MidJourney V7的Alpha。第一版是最早期版本,现在这个版本极其精细。你让它画什么东西,各种细节拉满,艺术感表现力都非常的强。指令的理解和遵循能力也比原来MidJourney的6.1要强很多了。原来MidJourney 6.1,你如果提示词很长了,后半截它就给你忽略掉了。现在V7都可以去正常使用,而且现在支持中文提示词,你不需要再去写英文提示词了。

当然,也有一些让我们不是那么满意的地方。第一个一致性并没有GPT-4o那么好。什么叫一致性?你告诉他我画的都是同样的一个东西,在不同的图片里,它应该长成一样的。在这块这个MidJourney V7还有待提升。另外一个就是太精细了,他很喜欢给自己加戏哈。待会我展示一下他的图片,你们自己去判断。很多功能现在还没有上来,第一个是cref还没回来。这个是干嘛?换脸的,就是原来在MidJourney 6.1里头。

你可以给它一张照片,说:“我现在要用这张脸。”它是可以去工作的。但是现在V7里头还不支持这个功能,文字功能还很差。这个不比V6.1强多少,而且中文完完全全不支持,这是现在的一个情况。

另外一个就是很贵。它只允许relax模式和Turbo模式来工作。刚才我讲了,我的relax模式被取消了,所以我不允许再去画relax了。只有一个月30美金以上的人,才可以使用relax无限的去画。我是可以使用Turbo模式的啊。Turbo模式什么意思?就是快速生图。那么快了挺好吗?但是它生成一张要收两张图的钱。所以我原来一个月有200分钟的生图时间,能够生200张图,现在我只能生100张图了。所以这一块还是要贵一些的。

它还有一个比较有趣的功能,叫草稿模式,更快。而且草稿模式是完全支持用嘴生图的。下面我们来演示用嘴生图。

这就是Midjourney的网站了。这个网站大家可以去浏览别人画好的画,去创造自己的图片,或者是去做编辑。这个编辑咱们就不再细讲了。这有一个很重要的点就是做个性化。V7是强制要求开个性化的,所以如果你原来没有开过个性化,那么你现在需要去对V7做个性化训练。

什么叫个性化?就是说我喜欢哪张图,我不喜欢哪张图,你要去打一大堆分。打完了以后,它就会知道哪个是你喜欢的。大概是要打到几百张,它就会给你形成一个风格。那么每一次画出来的东西,都是跟你喜欢的比较相近。

下面是我们自己画的一些图片。好,那么我们现在就来画。我们现在可以在DISCORD里头画,也可以在这里画。你在这写上提示词就可以,在这加图片也是可以。这个p我们要去做个性化,V7是强制个性化的,你不做个性化它不让你画。然后这是方的、圆的、扁的,是这个哪一个版本啊?我们现在都是使用V7来进行绘制。

好了,大家注意,这里有一个很重要的东西,就是草稿模式。一旦点中了草稿模式以后,它会快速的给你生成一些比较简单的图画,也将就能看。一旦点了草稿模式之后,这后边就出了麦克风,我们就可以去跟它说话了。

“赛博朋克都市程序员的卧室,改成皮克斯3D风格,色彩更加鲜艳一些。”
“以第三张为基础,加上一把人体工学椅。”
“以第三张为基础,加上两只猫。”
“我没有看到猫猫在哪里,放大第三章。”

好,我把它这个录音关掉,我们就可以放心说话了。这个是会比较慢的。为什么?前面画的都相对来说要粗略一些,它是draft模式的。但是你在这样的图上让它去做放大,就会费点劲。

正常的我们画完了以后放大是很快的,draft模式就会慢很多。现在是放大到16%。好,这就是我们的用嘴修图的过程。过程并没有那么顺滑,因为它的一致性还是有问题的。但是,我们已经完完全全可以用嘴修图了。

下面我要展示一下用MidJourney V7生成的图片。当然,你说我只用MidJourney V7来生成,可能大家没有什么感觉,所以我们来进行一些对比:MidJourney V7生成图片的横评比较。大家注意,我后面这张图就是用MidJourney V7来去生成的。当时的提示词应该是吉卜力风格的日式烘焙店厨房,感觉还是很有趣的,画的非常的精美。

那么怎么个横评法?首先我们要对中文提示词跟英文提示词进行比较,比较照片以及指定风格。皮克斯3D和吉卜力工作室风格我们都要去测试一下,手绘风格也要试验一下。画的东西是食物、人物和场景。我们比较是MidJourney V6.1、V7、GPT-4o和XAI的Grok,我们是对这四个版本进行比较。我后面这幅画也是MidJourney V7画出来的,非常的精美。材质上面,比如小帽子上面的这些材质都非常精细。

好,我们开始正式的比较。首先是中文提示词:巴厘岛海边日落的小酒吧。因为MidJourney V6.1是不支持中文提示词的,所以没有它参赛。左上角的这个是GPT-4o的,大家看一下还是有一点点感觉:日落下面的小酒吧,而且巴厘岛它有一个草棚子的顶。右上角这个是Grok的,感觉也还可以,只是它里面画的东西要稍微少了一点点。左下角的就是MidJourney V7画出来的,我说它加戏,非常多的细节,有灯光有各种的细节都在这里,而且色彩非常的真实和柔和。这个就是MidJourney V7。

同样的,我们去使用英文提示词。这个刚才我们使用的是中文提示词,如果是英文提示词,使用DeepSeek R1生成的英文超长提示词。在这个左下角,大家看到的就是超长提示词了,就是一个小的这种餐吧,在巴厘岛的海边上,在这个golden hour,就是金色阳光洒下的时候。写的非常完整,而且下头还要写我使用各种的配色,使用什么样的灯光,要有茅草的屋顶,这都写上了。右下角是MidJourney V6.1生成的,其实已经感觉非常精细了。但是跟左上角MidJourney V7生成的图片比较起来,它的色彩的真实度还原度,以及各种细节纹理,你看这个地板上的这些纹理。

还是没有办法去比较的,所以这绝对是细节狂魔。那么,Grok和GPT-4o做成什么样了呢?一模一样的提示词扔进去,GPT-4o对于这种超长提示词是有问题的,所以它生成出来的东西,怎么说呢?你把它作为是绘本,这个是可以用的,但是跟前面MidJourney生成的,哪怕是6.1生成的都完全没法比。至于Grok的脸完全塌掉了,脸是一点都没有办法看的,但是整个的氛围还是正确的,细节就废掉了。

再往后,我们来进行指定风格的绘制。先绘制皮克斯3D风格的美式汉堡店,还是使用DeepSeek R1超长提示词。我们看看右下角的,是6.1的。怎么说呢?很多细节是有问题的,包括这个人物,这些细节是错误的,但是它整个的氛围非常好,感觉是稍微有些不太真实。而左上角是V7的,非常非常细致,地板上都有反光。用游戏的说法,这玩意叫光追,这些都已经给你画出来了,而且各种的细节拉满,汉堡橱窗、各种的炊具、冰箱,每一个细节,每一个家具,都属于统一风格的。但是你说这个算不算皮克斯3D风格?算,也稍微有一点点小差距。它介于皮克斯3D风格与现实风格之间的一个状态,还是非常绚丽的一张图。

再往后看这个GPT-4o,它对于皮克斯3D风格的理解要更加透彻一些,色彩也更好,但是细节和艺术感就不要太纠结了,没有了。至于Grok,我觉得基本上算失败了,没法看了。

再往后,我们试试吉卜力风。提示词是“京都春季街头书店”,用DeepSeek R1超长提示词去做的。我都是把这一句话“吉卜力风格,京都春季街头书店”这句话扔给DeepSeek R1,说你给我去生成英文提示词。他画出来的,右下角V6.1的,感觉确实是一个日漫的风格,没有任何问题,但是它的色彩稍微有些明亮了。左上角V7的,大家仔细去看这个里面的细节,自行车、这个樱花树、各种房间里面的细节以及色彩,绝对是要比6.1的要强非常多了。但是你说这是不是一个吉卜力风?色彩和格调是啊,但是它还是更像一个吉卜力风格的现实场景,并不是一个纯手绘的吉卜力风,这个还是有些差距的。

那么在吉卜力风这一块,GPT-4o一定是做的非常棒的。大家看到它这种色彩,这种乌突突的感觉,但是它的细节就不用想了,这就是GPT-4o的。至于Grok,它叫日漫风,你虽然用的是吉卜力风格给它的,但是它画出来的是日漫风,距离吉卜力风还是差的比较远。这是我们做的吉卜力风格的“京都春季街头书店”。

再往后,我们指定手绘风。

这个提示词是彩色钢笔手绘烘焙甜品店的菜单,右下角MidJourney V6.1画出来的有汉堡、冰激凌、咖啡、牛角包、蛋糕,这边应该是布朗尼,各种甜品。下头还有一些文字,这就是MidJourney V6.1的能力。至于MidJourney V7,大家想明白为什么我说这东西是戏精了吧?不停的给自己加戏。你说他是手绘风格吗?没有问题,是手绘风格。但是这个菜单他也做了排版,只是文字就不用再去纠结了,他文字是没法看的。总的来说,这个有点画的太满了,是不是?这就是给自己加戏的V7,但是真的是很漂亮。这张画画出来的细节绝对拉满,你看看这牛角包上面的这个糖浆,以及咖啡里面的拉花,实在是太棒了。在这种要求上,GPT-4o跟Grok基本上算完败吧,你们是不是同意这种观点?

下面我们去画人物,身着汉服的美丽中国新娘,用6.1画出来的,人看着不太像真的,但是衣服和凤冠霞帔真的是非常的细致,但是没法跟v7比。这一件汉服大衣服绝对是太奢华了,以及后面整个虚化的庭院场景,实在是太棒了。但是人脸因为离得远,不是特别清晰,所以后边我们再去画一张特写。咱们来看一下特写的效果,很真实的一个人。大家仔细去看,因为她是新娘,她这边有各种的礼物,以及后面虚化的房屋场景。手感觉不是特别清晰,但是手应该没有画崩。这是她整个的一个绘画,你看她的头饰,以及每一根发丝,实在是太精细了。再看它的耳环,看它的挂饰,特别是我觉得让我很感动的,就是这件刺绣的大衣服,一针一线,你都可以感受到这个材质的变化。这就是MidJourney V7的力量。在这件事情上,这个GPT-4o跟Grok完败,大家同意吧?没有什么问题。

好,我们再往后放食物。我要求的是一碗热气腾腾,配料丰富的日式拉面。V6上面要稍微差一些了,热气是有,但是感觉很不真实。叉烧已经完全做糊掉了,上面的这些葱、海带已经很不清晰了,后面是一块应该是紫菜,蛋画的还可以,面已经不是很像了。但是V7,大家仔细看看碗下面的花纹,叉烧肉上面的条纹,以及紫菜上面的纹理,这颗反光的蛋,还有它这些面。这个绝对是一碗热气腾腾的。大家再看这个蒸汽,你看V6.1上是有蒸汽的,但是不像真的。但是V7上面的蒸汽,就完全的以假乱真了,真的是一碗热气腾腾,配料丰富的日式拉面。这件事情上,GPT-4o跟Grok做的也还是不错的,它的肉包括grok上的肉都是有纹理的,蛋的也还可以了。

只是它的配料没有MidJourney摆的好。

在日式拉面这件事情上来说,我觉得Grok画的应该是味千拉面。GPT-4o要比Groker稍微好一点点,但是比起MidJourney V7来还是差很远的。

所以为什么说GPT-4o是生产力工具?就是当你去画一个很明确的简单场景,特别是这种产品图的时候,GPT-4o是可以干活的,但是Grok就要稍微差一点点了。

这就是我们去展示的MidJourney V7画的图,背景也是MidJourney V7的背景,应该是钢笔淡水彩风格,巴黎老钱风的厨房餐厅,使用莫兰迪配色。大概是用的这样的一个中文提示词,用DeepSeek R1进行了丰富以后,画出来的结果。大家看一看,是不是韵味都已经达到了MidJourney V7?

现在我们所看到的仅仅是Alpha 1的版本。未来的60天里头,每两周都会进行更新。我们会每两周期待MidJourney V7下一步会给我们补充哪一块新的功能进来。

未来的预期:现在文字,特别是中文还非常非常差,就算是英文的话也经常会拼写错误。在这点上比GPT-4o要差非常远。GPT-4o可以一句话生成完整的海报、完整的菜单,这个都是可以做的,但是现在MidJourney V7还不行,可能在未来一段时间会更新出来。

一致性还有待提升。特别是你想要做连环画,想要做一些绘本,你还是需要一致性的。特别是生产力工具,在这块还是有要求的。另外不能太戏精。刚才你们也看到这些图片了,这个MidJourney V7生成的图片,真的有点太戏精了,这个让你有的时候哭笑不得,不停的给自己加戏。

现在还有传闻他们在准备做3D模型,这块也还是值得期待的。视频方面,MidJourney征求过意见,说应该怎么收费,所以有可能会在V7版本的后期出视频。

总结一下,MidJourney V7给我最核心的体验,就是再次成为了艺术表现力的王者,以及细节狂魔。当然,距离生产力工具还有些差距。

最后一个感受:10刀的套餐好像不太够使了。我要稍微纠结两天,看看是不是去买30刀的套餐。

好,今天就讲到这里,感谢大家收听。请帮忙点赞、点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见!

Comments are closed.

退出移动版