Grok (XAI) – 老范讲故事｜AI、大模型与商业世界的故事

Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？

Luke Fan — Mon, 07 Apr 2025 00:45:28 +0000

Llama4发布了。这里的黎明静悄悄，没有什么响动。这是怎么回事？

大家好，欢迎收听老范讲故事的YouTube频道。一觉醒来，Llama4就发布了。扎克伯格亲自在Facebook的REELS（也就是Facebook的短视频里面）发了一条视频，说Llama4发布了，今天是Llama4日。

Llama4呢，一共是有三个版本：
第一个叫Scout（侦察兵版本），总参数1,090亿（也就是109B），活跃参数是170亿，包含16个专家模块。对的，Llama终于也放弃抵抗了，从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型，Llama3.3还给了一个400多B的单一模型，到Llama4彻底放弃抵抗了。

现在呢，支持1,000万TOKEN这种上下文，这个是Llama4最大的一个特点。DeepSeek是64K（也就是64,000个TOKEN上下文），现在上下文比较大的Gemini大概是能到2兆（200万），Llama4直接给了一个10兆（1,000万TOKEN），这是它做的一个很创新的点。

1,000万TOKEN的上下文可以干嘛？可以处理20小时以上的视频或者超长文档，是行业领先的长上下文技术。采用了混合专家模型（也就是MOE架构），在INT4量化后，可以在单个的H100 GPU上运行，每秒处理42,400个TOKEN，还是速度比较快的。但是要注意，即使经过量化到Intel4上，它也必须要有H100，否则跑不起来这东西。所以咱们普通的电脑就别惦记了，最小的模型就是它了，没有更小的了。

所以这一次Llama4的发布，并不像以前的Llama1、Llama2、Llama3似的，把各个尺寸的模型都做出来（从7b、14b、72b、32b什么这些都做一遍），没有，上来最小的一个就是109B。它可以支持文本、图像、音频、视频的输入，目前呢只支持文本的输出，未来应该会出现全模态输出的版本。这是它最小的一个侦察兵。

中间的模型呢叫MARVELIC（独行侠），总参数量400B，活跃参数量17B，包含128个专家模块。它的专家模块变多了，超越GPT4O、DeepSeek V3，仅次于闭源模型Gemini2.5 Pro。Gemini2.5 Pro现在还是最强的，没有之一。在编程和数学任务中，仅用DeepSeek V3一半的参数即可达到相当的性能，但是你上再多参数也就这水平了。

所以，它在数学跟编程角度上来说，跟DeepSeek V3应该是半斤八两，只是它的运算效率要更高一些。最大的一个叫Behemoth（巨兽），总参数量2000B，活跃参数量288B，包含16个专家模块，使用30万亿多模态TOKEN（就是文本、图像、视频），在32K（也就是32,000个GPU）上训练，FP8精度，提升效率。所以，你有足够的显卡才可以玩这件事情——32,000块显卡。Deepseek到现在为止，都没有承认它有这么多块显卡。所以，这种巨兽，国内追赶起来是比较费劲的。

只是呢，这一个产品目前并没有发布出来，前面两个发布了，这个应该是在2025年的下半年发布。这个巨兽在数学、科学等基准测试中，超越了GPT 4.5、Claude sonnet 3.7和Gemini2.0 Pro。但是是不是超越了2.5 Pro，我现在没有看到相应的介绍。它呢，主要的作用是作为教师模型，用于知识蒸馏——就是我做一最大的，然后下边这些小的模型、中型的模型，都是拿这个最大的进行蒸馏，蒸馏出来的。现在呢，它也转向了MOE，性能有所提升，但是呢并没有那么明显。最大的特点就是1,000万输入，这个是Llama4做的最不一样的一个点。

目前呢，支持全模态输入、文字输出；未来呢，会支持全模态输出，就是端到端的全模态输出。你甚至可以跟它去直接聊天，还可以打断它，就像现在的GPT4O高级语音功能一样。但是这个什么时候出来还不确定。如果能够有全模态输出的话，还是值得期待一下的。未来的方向一定是全模态、端到端的输入输出，现在新的模型都在向这个方向走。

那么，为什么没有什么声音讨论它呢？Llama1出来的时候，整个的行业都震动了——这样程度的一个模型一下就开源了，大家都可以拿来去研究了。Llama2出来一看，又可以往前走一步。其实Llama1跟GPT3.5还是有差距的，到Llama2出来以后说“哎，可以用了”，进行一些微调以后，就真的可以去解决一些ToB的，或者说使用范围相对比较集中的应用，就可以直接用起来了。我记得是在两年前，就很多国内的项目就在微调Llama。等到Llama3出来的时候说，这个虽然达不到GPT4的水平，但是已经很接近了，大家拿这个东西去稍微调一调，就可以跑了。

在Llama3出来以后的话，千问就开始疯狂的去输出各种各样尺寸的模型，就是千问2.0、千问2.5，这一批就直接追赶上来了。但是到Llama4出来，大家没说什么。

这到底是什么样的一个情况？我呢，第一时间还上去试了一下。现在你到Open Router这个网站上，你是可以进行测试的，而且是免费的。侦察兵版和独行侠版都可以使用，也有收费的版本。收费版本就是比免费的版本稍微快一点点，主观感受上没有特别大的差异。

那你说真的没有什么提升吗？这个肯定不对。它呢，跟现在的GPT-4O、Gemini 2.5、Claude 3.7这种主流模型比起来，确实没有什么提升。哈哈，这个基本上跟他们算站在同一个起跑线上，可能跟Gemini 2.5还稍微的差一点。Gemini 2.5不太友好的地方就是它比较慢，现在的Llama 4是很快的。但是呢，这个Llama 4比Llama 3、3.1、3.2、3.3这些版本还是有巨大提升的，特别是在中文这一块，效果好了非常非常多。大家可以去试一试，就完全可以达到能用的状态了。这个原来在Llama 3的水平上还是达不到的。

那么为什么不觉得震撼了呢？原来Llama虽然和闭源模型比起来稍有差距，但是呢，毕竟你是开源的吧，开源圈里的扛把子。现在的开源模型也卷起来了，DeepSeek绝对达到了可用程度，千问现在也绝对在数量上碾压。怎么叫数量上碾压？就是千问的模型是数量非常大呀，零点几B，然后到4B、7B、14B、32B、34B，多模态的推理的全都有。这块非常非常完善，而且有非常多的人在以千问模型为基础进行微调。因为你要到手机上，或者到一些嵌入式设备上去进行操控的话，你拿千问这种小模型微调是很方便的。给你一个105B的模型，你拿去微调的话，这个就有点费劲了。所以现在你到Hugging Face上去看，最受欢迎的开源模型基本上都是千问或者是千问系的。

所以从数量上，千问绝对赶超Llama。从能用程度上说，DeepSeek比它早发布了几个月，已经达到完全可用的一个状态了。现在Llama 4再拿出来，并没有划时代的提升。同样作为开源版本的大模型，他就没有那么震撼，已经有审美疲劳了。当然了，Llama 4出来，应该大家还是会去抄的。这Llama 1、Llama 2、Llama 3出来以后，实际上对至少国内的大模型产业都是有极强的促进作用的。Llama 4出来呢，应该也是有这种意义。千问和DeepSeek应该会尝试使用这种超长上下文的技术，因为它是1,000万TOKEN嘛。所以这一块至少千问应该会去追赶一下，DeepSeek的话……

现在到底在忙什么？不确定。当然，DeepSeek呢，应该也会在多模态上奋起直追。只是奋起直追多莫泰这个事呢，对于卡的数量是一个考验。DeepSeek前面一直说我没有那么多卡，看看后边这个话怎么把它说圆回来吧。

那么现在大模型到底在卷什么？大模型最终有可能还是会走向超级APP的道路。好像现在各大厂商依然在尝试卷超级APP，而且超级APP才是流量入口的一个锚点。你没有流量入口的话，你的模型做的再好，其实没有什么意义。这件事情上，以谷歌和Meta作为反面典型，大家看一看。谷歌的大模型其实一直做的还可以的，只是呢它的入口做的比较烂，大家就一直用的比较少。谷歌每一次出新的大模型，先给程序员用，他自己telegram内部用户，甭管是付费的还是免费的，都要很晚才能接触到他们最新的模型。而Meta，Llama做到现在了，做的这么热闹，Meta的用户，甭管是Facebook用户、Instagram用户，其实并没有感觉有特别大的体验上的提升。这个是两个典型案例。

这里还有一个正面案例，谁啊？就是马斯克的Xa i 1，一做出来以后，第一件事在x平台上，直接给了一个最核心的入口，直接给了一个Grok的入口，你一点就可以进去聊天去了。现在ChatGPT呢已经是超级APP了，Claude呢应该也接近成为超级APP了。谷歌呢算突然惊醒，ChatGPT 2.5 Pro上来以后，直接把Gemini客户端的经理给干掉了，把Notebook LM的负责人拎回来，你去给大家继续去做Gemini客户端去。这个Notebook LM是用户所喜欢的，Gemini被人骂了这么久了，我们要换一换了。而且Gemini 2.5 Pro一上来，就直接给Gemini的免费用户就开放了。所以谷歌已经醒过味了，说我们要换一个姿势了。

现在呢卷王们已经下场了。阿里还在内斗，千问跟夸克还要在内部做一次赛马。腾讯的元宝已经开始疯狂砸钱了。现在的进展到什么样的一个状态了？就这些超级APP都是带有搜索、知识库和靠谱推理的一个结果生成。目前我们现在看到的所有的超级APP，或者叫AI方面的超级APP，基本上都是在这个起跑线上。语音端到端呢，OpenAI做了，Claude我不确定做没做，好像没有。Grok英文的部分已经有了，中文的部分没有。豆包已经做出来了，千问和夸克现在正在奋起直追，腾讯的元宝也还在努力的往前走。

DeepSeek在这一块做的稍微有点拉胯。它的语音部分和图屏的部分，就是多模态的部分，稍微差那么一点点。再往后就是图片、视频、音频的理解和生成。现在这些呃超级APP，OpenAI是完全可以实现图片理解、图片生成，甚至是视频生成，这些功能都是完整的。谷歌其实它的功能都做出来了，但是Gemini里头好多没接，这块还要再奋起直追一下。

阿里的千问还有像夸克，包括字节的豆包，在这一块已经都做了图片理解、图片生成，包括修图改图，包括一些视频生成，现在他们都已经做出来了。其他的还在奋起直追。全新的形态是无法跟传统的形态进行有机结合的，或者结合起来比较费劲。现在唯一结合成功，或者大家感觉还比较顺眼的，就是x集合XAI，而且两个公司还合并了。

其他公司都是尝试在传统的产品形态之外，寻找新的应用形态，或者新的用户使用形态。所以都是做的独立的APP，甭管是腾讯、阿里还是谷歌，或者是字节，都是做出独立APP来，希望能够去抢占新的入口。现在呢是新场景已经有了，底层技术基本上拉平，就这么一个状态。甭管是豆包的推理模型，还是腾讯推理模型，包括DeepSeek，还有像谷歌的Gemini 2.5 Pro、GPT-4O、Claude 3.7这些模型，它们其实基本上算是拉平了。谁比谁好一些，但是并没有好出那么多去。

现在可能唯一能够明显感觉到有差距的，是Gemini 2.5 Pro。那么当新场景出现了，底层技术又基本拉平以后，剩下的就是一个字了——卷吧。这件事咱们中国人擅长，后面还要看大家怎么冲上去。

现在留给Meta的时间已经不多了，开源大模型的老大位置应该已经不是他的了。Grok的卡应该比Llama可能稍微少一些，但是XAI的卡要比Llama的新。Grok也是开源的，只是Grok没有把最新的开源出来。它现在是上一代的Grok 2要去开源，现在Grok 3出来以后，它准备把2开源出来。这个3的话可能要等到Grok 4出来以后再去开源。但是呢，你也是开源模型，而且Grok 3特别是配上AI agent以后，相当的好用。

DeepSeek在多模态和长文本上呢，还有所欠缺，但是达到可用状态，这个要比Llama4要早好几个月。所以在这一块上，Meta的开源大模型老大的位置也被动摇了。再加上可能在最近的一两周里头，千问3也要出来。现在大家使用都是千问2.5，千问3一旦下来以后的话，有可能整个开源大模型的座次……

还要再重排一次。开发独立APP对于美塔来说，应该是刻不容缓了。Meta也有计划，在4月份准备上线超级APP。

这个中间呢，还少了一步。Meta少哪一步？AI agent它没做。就甭管是deep search、deeper search或者这些东西，他都没做。而且呢，他还缺一个什么东西？就是他的function call和MCP都没有。他的模型你只能是给出提示词，然后那边生成结果。你说我在这边给一大堆的function call的描述，或者是给MCP的描述，我在生成的过程中可以调用外部数据，这个到Llama4依然没有。所以这一块，Meta稍微有些落后了。

而且现在从Meta发布的Llama4来看，它已经完全退出了小模型的竞争。最小的侦察兵109B，你没有H100跑不起来。在这一块上，阿里已经算是稳赢了。所以阿里作为AI公司，基本上已经站住脚跟了。现在其他还在做小模型的公司，一个是微软，一个是谷歌。谷歌的Gemma3现在是有各种小模型的。还有就是欧洲的Mistral，他们也有一些小模型，只是呢Mistral的声音没有那么大。

Meta呢，算是手里有卡，有数据、有用户、有钱，还有一大堆的现成的用户使用场景。必须要做的事情，是探索新的用户使用场景。如果老惦记去玩眼镜的话，那可能真的会被抛下的。AI的牛皮不能总靠卡的数量来维持下去，卡估值的逻辑正在坍塌。所以Meta必须要在卡估值逻辑坍塌之前，拿出来一个被大家可以接受的超级APP，或者说一个全新应用场景的服务，可以去跟其他的这些大模型超级APP去进行竞争。否则的话，它的故事会讲不下去的。

好，这就是今天Llama 4发出了以后的第一期视频。未来的话，Llama 4可能更进一步的功能被暴露出来，或者说大家又试出什么好玩的来，那再去录视频跟大家分享。好，这一期就讲到这里，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Midjourney V7震撼发布：艺术巅峰细节狂魔强势回归，但面对GPT-4o的一致性与定价策略，它还是AI绘图的唯一真神吗？

Luke Fan — Sun, 06 Apr 2025 00:42:30 +0000

MidJourney V7终于发布了，是不是王者归来了呢？

大家好，欢迎收听老范讲故事的YouTube频道。2025年，大模型进入了快速内卷期。从春节的时候，DeepSeek R1发布，打响了第一枪。前面DeepSeek V3大家还没觉得怎么样，R1一出来，第一枪打响了，大家开始卷推理、卷开源、卷免费、卷基础模型。

基础模型是什么？GPT-4.5、Claude 3.7、Gemini 2.5 Pro以及DeepSeek V30324版，这是在卷基础模型。然后大家去卷AI agent，各种deep search、deeper search或者是deep research，Manus，各种的AI agent开始卷起来。最后卷绘图，绘图应该是从GROK3开始卷起。GROK3说：“我可以不设限的让大家去画图。”算是给了大家一点点小惊喜。

Gemini 2.0 Flash直接说：“天塌了，这个以后做Photoshop的人要没饭吃了。”他对语言文字的理解和执行能力非常非常的强。你给他一个美女，给他一个包，说让美女拎着包，一致性很好。这个美女拎着这个包没有任何问题。当时大家就讲说Photoshop这帮人要失业，但是并没有引起特别大的风潮。为什么？因为Gemini 2.0 Flash画太复杂的东西是画不了的。

再往后，GPT-4o图形功能就出来了，这个就真的天塌了，又来了一次GPT3.5时刻。什么是GPT3.5时刻？就是当时他们把ChatGPT-3.5推出来的时候，整个社会都震惊了。现在你到x平台，到各种社交媒体平台上去看，大家都在疯狂的分享吉卜力风格的各种合影、各种图片。这确实是非常有感染力的一个产品，而且它的一致性极强，妥妥的生产力工具已经到手了。只是它也有不足的地方，就是太复杂的它还是表现能力有欠缺。

在这样的一个时刻，Midjourney V7就露出了影子。在GPT-4o轰动整个社会的时候，MidJourney的CEO就跑出来表示不屑一顾，说：“你这算啥？艺术感、细节都不行，你们等着，下个礼拜我就发布MidJourney V7。”因为MidJourney到6.1以后，很长一段时间都没有更新啊。所以他说：“我们马上要发布了，而且时间确定了下个礼拜。”他所讲的下个礼拜，实际上就是我们刚刚过完这一周。从周一开始，先做了一轮rank。做rank干嘛？他给你一大堆图片，让你去打分。每一次有两张图片，这两张图片……

你可以选择你感觉比较好的一张，或者能够触动你的一张。而且这两张图片可能画的是完全两个不同的东西，完全无关的东西。你只要是看哪个稍微好一点，去选就完了。你可以选择说我第一张好看一点，或者你可以选择回退：“上一次我选错了，两张我实在是半斤八两，分不出来。”你可以SKIP，要下一次，这个都是可以的。

是周一干的事情。周二做了第二轮，第二轮我没去啊。到周三又做了第三轮的打分。第一轮的打分里面，还有很多图片的质量是很差的，就属于生成失败的。比如说跑焦了，或者是一些绘制一半的，这样的东西就都拿出来了。到第三天我又去打分去了，打了几千张图片，还是非常棒的。第三天给出来的图片，就完完全全是MidJourney V7生成的图片了，那个效果已经非常好了。

到第四天周四没有什么动静，其实也做了一件事，什么就是把我的relax权限给取消了。什么意思？像我这种每个月交10美金的订阅用户，我本来是可以用fast方式去画图的。fast方式就是他给我200分钟，实际上基本上够我画200幅画，就可以做这个事情。那么如果是可以使用relax，就是这种放松模式，它是可以无限画，但是会慢一点点。在礼拜四，他就直接把所有像我们这样的10美金的叫基础用户的relax权限全取消掉了，这是干了这么个事情。

到周五推出了第一个Alpha版本。所以现在我们虽然看到了MidJourney V7，也可以用V7去画画了，但是其实我们现在使用的是MidJourney V7的Alpha。第一版是最早期版本，现在这个版本极其精细。你让它画什么东西，各种细节拉满，艺术感表现力都非常的强。指令的理解和遵循能力也比原来MidJourney的6.1要强很多了。原来MidJourney 6.1，你如果提示词很长了，后半截它就给你忽略掉了。现在V7都可以去正常使用，而且现在支持中文提示词，你不需要再去写英文提示词了。

当然，也有一些让我们不是那么满意的地方。第一个一致性并没有GPT-4o那么好。什么叫一致性？你告诉他我画的都是同样的一个东西，在不同的图片里，它应该长成一样的。在这块这个MidJourney V7还有待提升。另外一个就是太精细了，他很喜欢给自己加戏哈。待会我展示一下他的图片，你们自己去判断。很多功能现在还没有上来，第一个是cref还没回来。这个是干嘛？换脸的，就是原来在MidJourney 6.1里头。

你可以给它一张照片，说：“我现在要用这张脸。”它是可以去工作的。但是现在V7里头还不支持这个功能，文字功能还很差。这个不比V6.1强多少，而且中文完完全全不支持，这是现在的一个情况。

另外一个就是很贵。它只允许relax模式和Turbo模式来工作。刚才我讲了，我的relax模式被取消了，所以我不允许再去画relax了。只有一个月30美金以上的人，才可以使用relax无限的去画。我是可以使用Turbo模式的啊。Turbo模式什么意思？就是快速生图。那么快了挺好吗？但是它生成一张要收两张图的钱。所以我原来一个月有200分钟的生图时间，能够生200张图，现在我只能生100张图了。所以这一块还是要贵一些的。

它还有一个比较有趣的功能，叫草稿模式，更快。而且草稿模式是完全支持用嘴生图的。下面我们来演示用嘴生图。

这就是Midjourney的网站了。这个网站大家可以去浏览别人画好的画，去创造自己的图片，或者是去做编辑。这个编辑咱们就不再细讲了。这有一个很重要的点就是做个性化。V7是强制要求开个性化的，所以如果你原来没有开过个性化，那么你现在需要去对V7做个性化训练。

什么叫个性化？就是说我喜欢哪张图，我不喜欢哪张图，你要去打一大堆分。打完了以后，它就会知道哪个是你喜欢的。大概是要打到几百张，它就会给你形成一个风格。那么每一次画出来的东西，都是跟你喜欢的比较相近。

下面是我们自己画的一些图片。好，那么我们现在就来画。我们现在可以在DISCORD里头画，也可以在这里画。你在这写上提示词就可以，在这加图片也是可以。这个p我们要去做个性化，V7是强制个性化的，你不做个性化它不让你画。然后这是方的、圆的、扁的，是这个哪一个版本啊？我们现在都是使用V7来进行绘制。

好了，大家注意，这里有一个很重要的东西，就是草稿模式。一旦点中了草稿模式以后，它会快速的给你生成一些比较简单的图画，也将就能看。一旦点了草稿模式之后，这后边就出了麦克风，我们就可以去跟它说话了。

“赛博朋克都市程序员的卧室，改成皮克斯3D风格，色彩更加鲜艳一些。”
“以第三张为基础，加上一把人体工学椅。”
“以第三张为基础，加上两只猫。”
“我没有看到猫猫在哪里，放大第三章。”

好，我把它这个录音关掉，我们就可以放心说话了。这个是会比较慢的。为什么？前面画的都相对来说要粗略一些，它是draft模式的。但是你在这样的图上让它去做放大，就会费点劲。

正常的我们画完了以后放大是很快的，draft模式就会慢很多。现在是放大到16%。好，这就是我们的用嘴修图的过程。过程并没有那么顺滑，因为它的一致性还是有问题的。但是，我们已经完完全全可以用嘴修图了。

下面我要展示一下用MidJourney V7生成的图片。当然，你说我只用MidJourney V7来生成，可能大家没有什么感觉，所以我们来进行一些对比：MidJourney V7生成图片的横评比较。大家注意，我后面这张图就是用MidJourney V7来去生成的。当时的提示词应该是吉卜力风格的日式烘焙店厨房，感觉还是很有趣的，画的非常的精美。

那么怎么个横评法？首先我们要对中文提示词跟英文提示词进行比较，比较照片以及指定风格。皮克斯3D和吉卜力工作室风格我们都要去测试一下，手绘风格也要试验一下。画的东西是食物、人物和场景。我们比较是MidJourney V6.1、V7、GPT-4o和XAI的Grok，我们是对这四个版本进行比较。我后面这幅画也是MidJourney V7画出来的，非常的精美。材质上面，比如小帽子上面的这些材质都非常精细。

好，我们开始正式的比较。首先是中文提示词：巴厘岛海边日落的小酒吧。因为MidJourney V6.1是不支持中文提示词的，所以没有它参赛。左上角的这个是GPT-4o的，大家看一下还是有一点点感觉：日落下面的小酒吧，而且巴厘岛它有一个草棚子的顶。右上角这个是Grok的，感觉也还可以，只是它里面画的东西要稍微少了一点点。左下角的就是MidJourney V7画出来的，我说它加戏，非常多的细节，有灯光有各种的细节都在这里，而且色彩非常的真实和柔和。这个就是MidJourney V7。

同样的，我们去使用英文提示词。这个刚才我们使用的是中文提示词，如果是英文提示词，使用DeepSeek R1生成的英文超长提示词。在这个左下角，大家看到的就是超长提示词了，就是一个小的这种餐吧，在巴厘岛的海边上，在这个golden hour，就是金色阳光洒下的时候。写的非常完整，而且下头还要写我使用各种的配色，使用什么样的灯光，要有茅草的屋顶，这都写上了。右下角是MidJourney V6.1生成的，其实已经感觉非常精细了。但是跟左上角MidJourney V7生成的图片比较起来，它的色彩的真实度还原度，以及各种细节纹理，你看这个地板上的这些纹理。

还是没有办法去比较的，所以这绝对是细节狂魔。那么，Grok和GPT-4o做成什么样了呢？一模一样的提示词扔进去，GPT-4o对于这种超长提示词是有问题的，所以它生成出来的东西，怎么说呢？你把它作为是绘本，这个是可以用的，但是跟前面MidJourney生成的，哪怕是6.1生成的都完全没法比。至于Grok的脸完全塌掉了，脸是一点都没有办法看的，但是整个的氛围还是正确的，细节就废掉了。

再往后，我们来进行指定风格的绘制。先绘制皮克斯3D风格的美式汉堡店，还是使用DeepSeek R1超长提示词。我们看看右下角的，是6.1的。怎么说呢？很多细节是有问题的，包括这个人物，这些细节是错误的，但是它整个的氛围非常好，感觉是稍微有些不太真实。而左上角是V7的，非常非常细致，地板上都有反光。用游戏的说法，这玩意叫光追，这些都已经给你画出来了，而且各种的细节拉满，汉堡橱窗、各种的炊具、冰箱，每一个细节，每一个家具，都属于统一风格的。但是你说这个算不算皮克斯3D风格？算，也稍微有一点点小差距。它介于皮克斯3D风格与现实风格之间的一个状态，还是非常绚丽的一张图。

再往后看这个GPT-4o，它对于皮克斯3D风格的理解要更加透彻一些，色彩也更好，但是细节和艺术感就不要太纠结了，没有了。至于Grok，我觉得基本上算失败了，没法看了。

再往后，我们试试吉卜力风。提示词是“京都春季街头书店”，用DeepSeek R1超长提示词去做的。我都是把这一句话“吉卜力风格，京都春季街头书店”这句话扔给DeepSeek R1，说你给我去生成英文提示词。他画出来的，右下角V6.1的，感觉确实是一个日漫的风格，没有任何问题，但是它的色彩稍微有些明亮了。左上角V7的，大家仔细去看这个里面的细节，自行车、这个樱花树、各种房间里面的细节以及色彩，绝对是要比6.1的要强非常多了。但是你说这是不是一个吉卜力风？色彩和格调是啊，但是它还是更像一个吉卜力风格的现实场景，并不是一个纯手绘的吉卜力风，这个还是有些差距的。

那么在吉卜力风这一块，GPT-4o一定是做的非常棒的。大家看到它这种色彩，这种乌突突的感觉，但是它的细节就不用想了，这就是GPT-4o的。至于Grok，它叫日漫风，你虽然用的是吉卜力风格给它的，但是它画出来的是日漫风，距离吉卜力风还是差的比较远。这是我们做的吉卜力风格的“京都春季街头书店”。

再往后，我们指定手绘风。

这个提示词是彩色钢笔手绘烘焙甜品店的菜单，右下角MidJourney V6.1画出来的有汉堡、冰激凌、咖啡、牛角包、蛋糕，这边应该是布朗尼，各种甜品。下头还有一些文字，这就是MidJourney V6.1的能力。至于MidJourney V7，大家想明白为什么我说这东西是戏精了吧？不停的给自己加戏。你说他是手绘风格吗？没有问题，是手绘风格。但是这个菜单他也做了排版，只是文字就不用再去纠结了，他文字是没法看的。总的来说，这个有点画的太满了，是不是？这就是给自己加戏的V7，但是真的是很漂亮。这张画画出来的细节绝对拉满，你看看这牛角包上面的这个糖浆，以及咖啡里面的拉花，实在是太棒了。在这种要求上，GPT-4o跟Grok基本上算完败吧，你们是不是同意这种观点？

下面我们去画人物，身着汉服的美丽中国新娘，用6.1画出来的，人看着不太像真的，但是衣服和凤冠霞帔真的是非常的细致，但是没法跟v7比。这一件汉服大衣服绝对是太奢华了，以及后面整个虚化的庭院场景，实在是太棒了。但是人脸因为离得远，不是特别清晰，所以后边我们再去画一张特写。咱们来看一下特写的效果，很真实的一个人。大家仔细去看，因为她是新娘，她这边有各种的礼物，以及后面虚化的房屋场景。手感觉不是特别清晰，但是手应该没有画崩。这是她整个的一个绘画，你看她的头饰，以及每一根发丝，实在是太精细了。再看它的耳环，看它的挂饰，特别是我觉得让我很感动的，就是这件刺绣的大衣服，一针一线，你都可以感受到这个材质的变化。这就是MidJourney V7的力量。在这件事情上，这个GPT-4o跟Grok完败，大家同意吧？没有什么问题。

好，我们再往后放食物。我要求的是一碗热气腾腾，配料丰富的日式拉面。V6上面要稍微差一些了，热气是有，但是感觉很不真实。叉烧已经完全做糊掉了，上面的这些葱、海带已经很不清晰了，后面是一块应该是紫菜，蛋画的还可以，面已经不是很像了。但是V7，大家仔细看看碗下面的花纹，叉烧肉上面的条纹，以及紫菜上面的纹理，这颗反光的蛋，还有它这些面。这个绝对是一碗热气腾腾的。大家再看这个蒸汽，你看V6.1上是有蒸汽的，但是不像真的。但是V7上面的蒸汽，就完全的以假乱真了，真的是一碗热气腾腾，配料丰富的日式拉面。这件事情上，GPT-4o跟Grok做的也还是不错的，它的肉包括grok上的肉都是有纹理的，蛋的也还可以了。

只是它的配料没有MidJourney摆的好。

在日式拉面这件事情上来说，我觉得Grok画的应该是味千拉面。GPT-4o要比Groker稍微好一点点，但是比起MidJourney V7来还是差很远的。

所以为什么说GPT-4o是生产力工具？就是当你去画一个很明确的简单场景，特别是这种产品图的时候，GPT-4o是可以干活的，但是Grok就要稍微差一点点了。

这就是我们去展示的MidJourney V7画的图，背景也是MidJourney V7的背景，应该是钢笔淡水彩风格，巴黎老钱风的厨房餐厅，使用莫兰迪配色。大概是用的这样的一个中文提示词，用DeepSeek R1进行了丰富以后，画出来的结果。大家看一看，是不是韵味都已经达到了MidJourney V7？

现在我们所看到的仅仅是Alpha 1的版本。未来的60天里头，每两周都会进行更新。我们会每两周期待MidJourney V7下一步会给我们补充哪一块新的功能进来。

未来的预期：现在文字，特别是中文还非常非常差，就算是英文的话也经常会拼写错误。在这点上比GPT-4o要差非常远。GPT-4o可以一句话生成完整的海报、完整的菜单，这个都是可以做的，但是现在MidJourney V7还不行，可能在未来一段时间会更新出来。

一致性还有待提升。特别是你想要做连环画，想要做一些绘本，你还是需要一致性的。特别是生产力工具，在这块还是有要求的。另外不能太戏精。刚才你们也看到这些图片了，这个MidJourney V7生成的图片，真的有点太戏精了，这个让你有的时候哭笑不得，不停的给自己加戏。

现在还有传闻他们在准备做3D模型，这块也还是值得期待的。视频方面，MidJourney征求过意见，说应该怎么收费，所以有可能会在V7版本的后期出视频。

总结一下，MidJourney V7给我最核心的体验，就是再次成为了艺术表现力的王者，以及细节狂魔。当然，距离生产力工具还有些差距。

最后一个感受：10刀的套餐好像不太够使了。我要稍微纠结两天，看看是不是去买30刀的套餐。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！