图像生成 – 老范讲故事｜AI、大模型与商业世界的故事

Midjourney V7震撼发布：艺术巅峰细节狂魔强势回归，但面对GPT-4o的一致性与定价策略，它还是AI绘图的唯一真神吗？

Luke Fan — Sun, 06 Apr 2025 00:42:30 +0000

MidJourney V7终于发布了，是不是王者归来了呢？

大家好，欢迎收听老范讲故事的YouTube频道。2025年，大模型进入了快速内卷期。从春节的时候，DeepSeek R1发布，打响了第一枪。前面DeepSeek V3大家还没觉得怎么样，R1一出来，第一枪打响了，大家开始卷推理、卷开源、卷免费、卷基础模型。

基础模型是什么？GPT-4.5、Claude 3.7、Gemini 2.5 Pro以及DeepSeek V30324版，这是在卷基础模型。然后大家去卷AI agent，各种deep search、deeper search或者是deep research，Manus，各种的AI agent开始卷起来。最后卷绘图，绘图应该是从GROK3开始卷起。GROK3说：“我可以不设限的让大家去画图。”算是给了大家一点点小惊喜。

Gemini 2.0 Flash直接说：“天塌了，这个以后做Photoshop的人要没饭吃了。”他对语言文字的理解和执行能力非常非常的强。你给他一个美女，给他一个包，说让美女拎着包，一致性很好。这个美女拎着这个包没有任何问题。当时大家就讲说Photoshop这帮人要失业，但是并没有引起特别大的风潮。为什么？因为Gemini 2.0 Flash画太复杂的东西是画不了的。

再往后，GPT-4o图形功能就出来了，这个就真的天塌了，又来了一次GPT3.5时刻。什么是GPT3.5时刻？就是当时他们把ChatGPT-3.5推出来的时候，整个社会都震惊了。现在你到x平台，到各种社交媒体平台上去看，大家都在疯狂的分享吉卜力风格的各种合影、各种图片。这确实是非常有感染力的一个产品，而且它的一致性极强，妥妥的生产力工具已经到手了。只是它也有不足的地方，就是太复杂的它还是表现能力有欠缺。

在这样的一个时刻，Midjourney V7就露出了影子。在GPT-4o轰动整个社会的时候，MidJourney的CEO就跑出来表示不屑一顾，说：“你这算啥？艺术感、细节都不行，你们等着，下个礼拜我就发布MidJourney V7。”因为MidJourney到6.1以后，很长一段时间都没有更新啊。所以他说：“我们马上要发布了，而且时间确定了下个礼拜。”他所讲的下个礼拜，实际上就是我们刚刚过完这一周。从周一开始，先做了一轮rank。做rank干嘛？他给你一大堆图片，让你去打分。每一次有两张图片，这两张图片……

你可以选择你感觉比较好的一张，或者能够触动你的一张。而且这两张图片可能画的是完全两个不同的东西，完全无关的东西。你只要是看哪个稍微好一点，去选就完了。你可以选择说我第一张好看一点，或者你可以选择回退：“上一次我选错了，两张我实在是半斤八两，分不出来。”你可以SKIP，要下一次，这个都是可以的。

是周一干的事情。周二做了第二轮，第二轮我没去啊。到周三又做了第三轮的打分。第一轮的打分里面，还有很多图片的质量是很差的，就属于生成失败的。比如说跑焦了，或者是一些绘制一半的，这样的东西就都拿出来了。到第三天我又去打分去了，打了几千张图片，还是非常棒的。第三天给出来的图片，就完完全全是MidJourney V7生成的图片了，那个效果已经非常好了。

到第四天周四没有什么动静，其实也做了一件事，什么就是把我的relax权限给取消了。什么意思？像我这种每个月交10美金的订阅用户，我本来是可以用fast方式去画图的。fast方式就是他给我200分钟，实际上基本上够我画200幅画，就可以做这个事情。那么如果是可以使用relax，就是这种放松模式，它是可以无限画，但是会慢一点点。在礼拜四，他就直接把所有像我们这样的10美金的叫基础用户的relax权限全取消掉了，这是干了这么个事情。

到周五推出了第一个Alpha版本。所以现在我们虽然看到了MidJourney V7，也可以用V7去画画了，但是其实我们现在使用的是MidJourney V7的Alpha。第一版是最早期版本，现在这个版本极其精细。你让它画什么东西，各种细节拉满，艺术感表现力都非常的强。指令的理解和遵循能力也比原来MidJourney的6.1要强很多了。原来MidJourney 6.1，你如果提示词很长了，后半截它就给你忽略掉了。现在V7都可以去正常使用，而且现在支持中文提示词，你不需要再去写英文提示词了。

当然，也有一些让我们不是那么满意的地方。第一个一致性并没有GPT-4o那么好。什么叫一致性？你告诉他我画的都是同样的一个东西，在不同的图片里，它应该长成一样的。在这块这个MidJourney V7还有待提升。另外一个就是太精细了，他很喜欢给自己加戏哈。待会我展示一下他的图片，你们自己去判断。很多功能现在还没有上来，第一个是cref还没回来。这个是干嘛？换脸的，就是原来在MidJourney 6.1里头。

你可以给它一张照片，说：“我现在要用这张脸。”它是可以去工作的。但是现在V7里头还不支持这个功能，文字功能还很差。这个不比V6.1强多少，而且中文完完全全不支持，这是现在的一个情况。

另外一个就是很贵。它只允许relax模式和Turbo模式来工作。刚才我讲了，我的relax模式被取消了，所以我不允许再去画relax了。只有一个月30美金以上的人，才可以使用relax无限的去画。我是可以使用Turbo模式的啊。Turbo模式什么意思？就是快速生图。那么快了挺好吗？但是它生成一张要收两张图的钱。所以我原来一个月有200分钟的生图时间，能够生200张图，现在我只能生100张图了。所以这一块还是要贵一些的。

它还有一个比较有趣的功能，叫草稿模式，更快。而且草稿模式是完全支持用嘴生图的。下面我们来演示用嘴生图。

这就是Midjourney的网站了。这个网站大家可以去浏览别人画好的画，去创造自己的图片，或者是去做编辑。这个编辑咱们就不再细讲了。这有一个很重要的点就是做个性化。V7是强制要求开个性化的，所以如果你原来没有开过个性化，那么你现在需要去对V7做个性化训练。

什么叫个性化？就是说我喜欢哪张图，我不喜欢哪张图，你要去打一大堆分。打完了以后，它就会知道哪个是你喜欢的。大概是要打到几百张，它就会给你形成一个风格。那么每一次画出来的东西，都是跟你喜欢的比较相近。

下面是我们自己画的一些图片。好，那么我们现在就来画。我们现在可以在DISCORD里头画，也可以在这里画。你在这写上提示词就可以，在这加图片也是可以。这个p我们要去做个性化，V7是强制个性化的，你不做个性化它不让你画。然后这是方的、圆的、扁的，是这个哪一个版本啊？我们现在都是使用V7来进行绘制。

好了，大家注意，这里有一个很重要的东西，就是草稿模式。一旦点中了草稿模式以后，它会快速的给你生成一些比较简单的图画，也将就能看。一旦点了草稿模式之后，这后边就出了麦克风，我们就可以去跟它说话了。

“赛博朋克都市程序员的卧室，改成皮克斯3D风格，色彩更加鲜艳一些。”
“以第三张为基础，加上一把人体工学椅。”
“以第三张为基础，加上两只猫。”
“我没有看到猫猫在哪里，放大第三章。”

好，我把它这个录音关掉，我们就可以放心说话了。这个是会比较慢的。为什么？前面画的都相对来说要粗略一些，它是draft模式的。但是你在这样的图上让它去做放大，就会费点劲。

正常的我们画完了以后放大是很快的，draft模式就会慢很多。现在是放大到16%。好，这就是我们的用嘴修图的过程。过程并没有那么顺滑，因为它的一致性还是有问题的。但是，我们已经完完全全可以用嘴修图了。

下面我要展示一下用MidJourney V7生成的图片。当然，你说我只用MidJourney V7来生成，可能大家没有什么感觉，所以我们来进行一些对比：MidJourney V7生成图片的横评比较。大家注意，我后面这张图就是用MidJourney V7来去生成的。当时的提示词应该是吉卜力风格的日式烘焙店厨房，感觉还是很有趣的，画的非常的精美。

那么怎么个横评法？首先我们要对中文提示词跟英文提示词进行比较，比较照片以及指定风格。皮克斯3D和吉卜力工作室风格我们都要去测试一下，手绘风格也要试验一下。画的东西是食物、人物和场景。我们比较是MidJourney V6.1、V7、GPT-4o和XAI的Grok，我们是对这四个版本进行比较。我后面这幅画也是MidJourney V7画出来的，非常的精美。材质上面，比如小帽子上面的这些材质都非常精细。

好，我们开始正式的比较。首先是中文提示词：巴厘岛海边日落的小酒吧。因为MidJourney V6.1是不支持中文提示词的，所以没有它参赛。左上角的这个是GPT-4o的，大家看一下还是有一点点感觉：日落下面的小酒吧，而且巴厘岛它有一个草棚子的顶。右上角这个是Grok的，感觉也还可以，只是它里面画的东西要稍微少了一点点。左下角的就是MidJourney V7画出来的，我说它加戏，非常多的细节，有灯光有各种的细节都在这里，而且色彩非常的真实和柔和。这个就是MidJourney V7。

同样的，我们去使用英文提示词。这个刚才我们使用的是中文提示词，如果是英文提示词，使用DeepSeek R1生成的英文超长提示词。在这个左下角，大家看到的就是超长提示词了，就是一个小的这种餐吧，在巴厘岛的海边上，在这个golden hour，就是金色阳光洒下的时候。写的非常完整，而且下头还要写我使用各种的配色，使用什么样的灯光，要有茅草的屋顶，这都写上了。右下角是MidJourney V6.1生成的，其实已经感觉非常精细了。但是跟左上角MidJourney V7生成的图片比较起来，它的色彩的真实度还原度，以及各种细节纹理，你看这个地板上的这些纹理。

还是没有办法去比较的，所以这绝对是细节狂魔。那么，Grok和GPT-4o做成什么样了呢？一模一样的提示词扔进去，GPT-4o对于这种超长提示词是有问题的，所以它生成出来的东西，怎么说呢？你把它作为是绘本，这个是可以用的，但是跟前面MidJourney生成的，哪怕是6.1生成的都完全没法比。至于Grok的脸完全塌掉了，脸是一点都没有办法看的，但是整个的氛围还是正确的，细节就废掉了。

再往后，我们来进行指定风格的绘制。先绘制皮克斯3D风格的美式汉堡店，还是使用DeepSeek R1超长提示词。我们看看右下角的，是6.1的。怎么说呢？很多细节是有问题的，包括这个人物，这些细节是错误的，但是它整个的氛围非常好，感觉是稍微有些不太真实。而左上角是V7的，非常非常细致，地板上都有反光。用游戏的说法，这玩意叫光追，这些都已经给你画出来了，而且各种的细节拉满，汉堡橱窗、各种的炊具、冰箱，每一个细节，每一个家具，都属于统一风格的。但是你说这个算不算皮克斯3D风格？算，也稍微有一点点小差距。它介于皮克斯3D风格与现实风格之间的一个状态，还是非常绚丽的一张图。

再往后看这个GPT-4o，它对于皮克斯3D风格的理解要更加透彻一些，色彩也更好，但是细节和艺术感就不要太纠结了，没有了。至于Grok，我觉得基本上算失败了，没法看了。

再往后，我们试试吉卜力风。提示词是“京都春季街头书店”，用DeepSeek R1超长提示词去做的。我都是把这一句话“吉卜力风格，京都春季街头书店”这句话扔给DeepSeek R1，说你给我去生成英文提示词。他画出来的，右下角V6.1的，感觉确实是一个日漫的风格，没有任何问题，但是它的色彩稍微有些明亮了。左上角V7的，大家仔细去看这个里面的细节，自行车、这个樱花树、各种房间里面的细节以及色彩，绝对是要比6.1的要强非常多了。但是你说这是不是一个吉卜力风？色彩和格调是啊，但是它还是更像一个吉卜力风格的现实场景，并不是一个纯手绘的吉卜力风，这个还是有些差距的。

那么在吉卜力风这一块，GPT-4o一定是做的非常棒的。大家看到它这种色彩，这种乌突突的感觉，但是它的细节就不用想了，这就是GPT-4o的。至于Grok，它叫日漫风，你虽然用的是吉卜力风格给它的，但是它画出来的是日漫风，距离吉卜力风还是差的比较远。这是我们做的吉卜力风格的“京都春季街头书店”。

再往后，我们指定手绘风。

这个提示词是彩色钢笔手绘烘焙甜品店的菜单，右下角MidJourney V6.1画出来的有汉堡、冰激凌、咖啡、牛角包、蛋糕，这边应该是布朗尼，各种甜品。下头还有一些文字，这就是MidJourney V6.1的能力。至于MidJourney V7，大家想明白为什么我说这东西是戏精了吧？不停的给自己加戏。你说他是手绘风格吗？没有问题，是手绘风格。但是这个菜单他也做了排版，只是文字就不用再去纠结了，他文字是没法看的。总的来说，这个有点画的太满了，是不是？这就是给自己加戏的V7，但是真的是很漂亮。这张画画出来的细节绝对拉满，你看看这牛角包上面的这个糖浆，以及咖啡里面的拉花，实在是太棒了。在这种要求上，GPT-4o跟Grok基本上算完败吧，你们是不是同意这种观点？

下面我们去画人物，身着汉服的美丽中国新娘，用6.1画出来的，人看着不太像真的，但是衣服和凤冠霞帔真的是非常的细致，但是没法跟v7比。这一件汉服大衣服绝对是太奢华了，以及后面整个虚化的庭院场景，实在是太棒了。但是人脸因为离得远，不是特别清晰，所以后边我们再去画一张特写。咱们来看一下特写的效果，很真实的一个人。大家仔细去看，因为她是新娘，她这边有各种的礼物，以及后面虚化的房屋场景。手感觉不是特别清晰，但是手应该没有画崩。这是她整个的一个绘画，你看她的头饰，以及每一根发丝，实在是太精细了。再看它的耳环，看它的挂饰，特别是我觉得让我很感动的，就是这件刺绣的大衣服，一针一线，你都可以感受到这个材质的变化。这就是MidJourney V7的力量。在这件事情上，这个GPT-4o跟Grok完败，大家同意吧？没有什么问题。

好，我们再往后放食物。我要求的是一碗热气腾腾，配料丰富的日式拉面。V6上面要稍微差一些了，热气是有，但是感觉很不真实。叉烧已经完全做糊掉了，上面的这些葱、海带已经很不清晰了，后面是一块应该是紫菜，蛋画的还可以，面已经不是很像了。但是V7，大家仔细看看碗下面的花纹，叉烧肉上面的条纹，以及紫菜上面的纹理，这颗反光的蛋，还有它这些面。这个绝对是一碗热气腾腾的。大家再看这个蒸汽，你看V6.1上是有蒸汽的，但是不像真的。但是V7上面的蒸汽，就完全的以假乱真了，真的是一碗热气腾腾，配料丰富的日式拉面。这件事情上，GPT-4o跟Grok做的也还是不错的，它的肉包括grok上的肉都是有纹理的，蛋的也还可以了。

只是它的配料没有MidJourney摆的好。

在日式拉面这件事情上来说，我觉得Grok画的应该是味千拉面。GPT-4o要比Groker稍微好一点点，但是比起MidJourney V7来还是差很远的。

所以为什么说GPT-4o是生产力工具？就是当你去画一个很明确的简单场景，特别是这种产品图的时候，GPT-4o是可以干活的，但是Grok就要稍微差一点点了。

这就是我们去展示的MidJourney V7画的图，背景也是MidJourney V7的背景，应该是钢笔淡水彩风格，巴黎老钱风的厨房餐厅，使用莫兰迪配色。大概是用的这样的一个中文提示词，用DeepSeek R1进行了丰富以后，画出来的结果。大家看一看，是不是韵味都已经达到了MidJourney V7？

现在我们所看到的仅仅是Alpha 1的版本。未来的60天里头，每两周都会进行更新。我们会每两周期待MidJourney V7下一步会给我们补充哪一块新的功能进来。

未来的预期：现在文字，特别是中文还非常非常差，就算是英文的话也经常会拼写错误。在这点上比GPT-4o要差非常远。GPT-4o可以一句话生成完整的海报、完整的菜单，这个都是可以做的，但是现在MidJourney V7还不行，可能在未来一段时间会更新出来。

一致性还有待提升。特别是你想要做连环画，想要做一些绘本，你还是需要一致性的。特别是生产力工具，在这块还是有要求的。另外不能太戏精。刚才你们也看到这些图片了，这个MidJourney V7生成的图片，真的有点太戏精了，这个让你有的时候哭笑不得，不停的给自己加戏。

现在还有传闻他们在准备做3D模型，这块也还是值得期待的。视频方面，MidJourney征求过意见，说应该怎么收费，所以有可能会在V7版本的后期出视频。

总结一下，MidJourney V7给我最核心的体验，就是再次成为了艺术表现力的王者，以及细节狂魔。当然，距离生产力工具还有些差距。

最后一个感受：10刀的套餐好像不太够使了。我要稍微纠结两天，看看是不是去买30刀的套餐。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

老范讲故事 — Fri, 29 Nov 2024 00:42:07 +0000

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的。视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假或者版权侵害什么这样的视频。所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢，会发出一些样板视频来，那意思什么？他说，你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频，它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线。大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。

艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布，还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢，在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说，这个脚要往前走的时候，应该膝盖往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这个是第一个问题。

第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说，你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗，应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说，我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。

我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。

现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个，专业应用级别呢，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢，也还是有很多专业团队，会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。

半专业的应用呢，肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了，而Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。

这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。

对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入，艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。

所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了。为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这就相当于什么，就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头，每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但是艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说，你穿了件衣服，里边有个人，但是呢，人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着它都变成左脚了，或者是变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题，第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢，算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，它需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱，从头到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。

因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。

什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

YouTube上有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频我已经被这种视频骗了好多回了。

我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。

就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的，他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但是呢，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢，都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型吧，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”，什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。其实，这些呢是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。

最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以，他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就在2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。

但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着就都变成左脚了，变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。

他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。

咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后，什么欺诈？视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢，你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。

你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。

很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个说话了，这个吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。

当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画、小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把德国选择党的那个女党首的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型，式的那我们只要写一个提示词，生成出来大差不差的，我就能用。那些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他说哎，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题，咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯，这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说，非常非常难以控制和把握。再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看，最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，就是有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置，才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈？视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部，也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上，在吉梦也好、可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆，可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过。

这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们呢，就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢，其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢，是呼吁Open AI可以更加开放。

你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，表示现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢，并不需要进行身份验证，所以也不知道这个是真是假。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这种方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高的。当然了，这个还不是困扰视频生成本身的最大的难题，更大的难题是什么呢？就是视频要好看。

最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说，我们付出的努力极其艰巨呢？也是如此，他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢，完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

所以再往下一个方向到底是什么，虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。于是他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在呢Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。

第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。

你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。

这是第一个问题。第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上。现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。这大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。

视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。那么我们到底还需不需要等Sora呢？

其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上，在吉梦也好可灵也好呢，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型。在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

其实，从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢，已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全球的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂地泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂地开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头了，电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品，这个事本身是非常难的。他们说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这就相当于什么？就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停地玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是，视频生成本身的难度是很大的。第一个，内容合理性其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边有个人，但是人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，膝盖应该往后弯的。但是，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是两条腿迈着迈着都变成左脚了，变成右脚。图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性，这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上，已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定地保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后，算力成本实在太高了。图片生成，现在我们画一幅1080P的图像，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。

当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。大家想象一下，有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。

现在我们要做视频生成的这种工具了，在有大模型的基础上，你也需要大量的开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以，为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。

再往后，什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话它就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝；你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝；你只要提到任何人的名字，直接拒绝；说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝；请给我画个什么星球大战、米老鼠，马上拒绝。

所以，他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好、可灵也好，都是在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以，我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。

所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。

而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说：“你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情，都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人，有黑人，有白人，有男的，有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

当然有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀，血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看DALL·E 3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个DALL·E 3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。

这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。

Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。

至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

【宝藏】揭秘！如何在Dify里免费使用FLUX.1大模型！

Luke Fan — Mon, 12 Aug 2024 10:58:54 +0000

今天讲一下如何在Dify里面调用最新的文生图模型FLUX.1。FLUX.1是由Stability，也就是做Stable Diffusion的那家公司的一帮创始元老离职后做的新的文生图模型。现在据说效果非常好，我自己试了一下，确实还可以。那么今天跟大家演示一下如何在Dify里边去使用这个FLUX.1模型。

首先，我们要去找一个云端可以跑的FLUX.1模型。你说我直接到FLUX网站上去行不行？没问题啊，但是他们的这个要付费，特别是FLUX Pro是要付费的。我们先找一个免费的，先跑起来吧，特别是在国内能用的这种免费的，先让它跑起来。我们找到了硅基流动这样的一个网站。我们看一下它这个网站长什么样子。这样前面其实跟大家介绍过硅基流动这个项目，先登录进去。

登录进去以后，我们就可以选择这边的叫文生图了。然后呢，它可以选择FLUX.1-dev。FLUX.1点这个，这个叫这个词就不念了，反正是比较小的这个模型，效果都是很好的，横的竖的都没问题，对吧？然后呢，这个步数，50步到头了，最多就是50步，所以我们就准备来使用这个模型了。

那怎么使用呢？首先要去看文档，对吧？它的API到底是怎么调用的？点一下文档，点到文档以后，我们选API手册，然后呢点击文生图，就到这样的一个页面了。告诉你说我通过CURL怎么去调用的。下一步该怎么办？先把它复制下来。我们到Dify里面去，先增加一个工具，自定义啊，新的一个。在这里呢，我们就要做下一件事了。它使用的是OpenAPI，Swagger这样的一个规范去干活了。我做一个叫随便聊聊的聊天机器人，任何提示词不给他。

然后把 Claude 3.5 Sonnet 直接挂在后面时，我现在就可以跟他聊天了。好，那么我现在要跟他说，请根据以下案例编写一段代码，OpenAPI Swagger 代码，走你。回车，好，他就去干活去了。OpenAPI Swagger 实际上就是包装各种各样的 Restful 代码的一个框架。然后把这一块拷贝下来，我们回到这里贴上，这就是贴好了。以后他就可以去干活去了。哎，先测试一次啊，测试一次。比如说，你看他有这么多的值可以去用啊，这个首先是提示词，比如说“一只喝咖啡看报纸的拟人狗，穿着西装”，好，假设是这样吧。这里呢有一个鉴权方式，什么意思呢？就是很多的这种都是需要授权的，我们需要在这里把我们的 TOKEN 要贴进去。然后 1024×1024 画个方的吧，然后多少步呢，这个 50 吧，刚才不是设到头就是 50 吗？测试一下。呃，这个好像跟我们想象的不太一样啊，我们要求他画这个狗，难道我写错了吗？待会我们想办法让 AI 把我们的语句稍微加工一下，然后再去画。但是呢，至少画成功了啊。再下一步给它起个名字叫 FLUX.1，就这样保存好。我们有了一个叫 FLUX.1，这个前面还有 FLUX.1 from，这是我上次做的。那么下一步我们就要用这个玩意了啊。那么我们去创建一个新的聊天应用，这个应用叫画图。创建模型的话，直接调用 GPT4O mini 吧，然后我们来写提示词。啊，不要看我这提示词写得很长啊，这个没有关系的。而且，这是当时为 DALL.E-3 写的一个提示词。大家可以点击这个按钮自己去生成提示词，这种提示词都是生成出来的啊。我们通过提示词，用户输入信息，生成一个可以画画的提示词。

让他稍微总结一下。然后来工具自定义。刚才我们做的这个FLUX.1，它的提示词是经过加工以后的。然后尺寸，我个人比较喜欢1080P，1920×1080。这个地方的话，50吧，反正多刷几个能够好看一点。好，这个地方就做完了。再往后输出，把提示词放出来，还可以拿它再到MidJourney或者DALL.E-3再画一次，然后再把内容生成的文本输出出来。啊，他最后会给你一个链接，预览一下。一只拟人狗，身着西装，戴着眼镜，喝着咖啡，看着报纸。让我们来试试，画去了。好，让我们看看这幅图怎么样。啊，喝着咖啡，看着报纸，戴着眼镜，穿着西装的拟人狗，对吧？是不是有那么点感觉了？当然，他这个手跟袖子脱开了，稍微差点意思。我觉得已经基本上可以让大家去使用了。

我们今天演示了使用硅基流动的FLUX.1云端模型，而且现在是免费的。使用这种模型，我们到Dify里面去，在工具里面自定义了一个工具Claude 3.5 Sonnet自动生成的。啊，我们只需要把文档里边的这个调用方式扔给Claude 3.5 Sonnet，然后说给我生成OpenAPI Swagger就搞定了。这个里头一个字都没改过，测试成功了以后把API Key输进去。现在的话，你去注册硅基流动会送14块钱，而且这个玩意画多少次不要钱的。

再往后呢，啊，我们演示了使用画图这样的一个流程，先通过GPT-4o mini去做了一个根据输入生成提示词的一个过程。然后呢，再调用刚才我们自己定义的这个插件，生成出来的图片，画出了刚才我们要的这张穿西装、戴眼镜、喝咖啡、看报纸的拟人狗。这就是我们今天给大家演示的，这就是我的一个AI课程。

今天呢，把这个节目放在公众频道里，但是更多的课程呢是在付费频道里。为什么在那边呢？啊，因为这种课程其实看起来比较累，不在公众频道里影响大家了。不过今天这个因为比较好玩，所以跟大家演示一下，具体怎么去装 Dify，具体怎么去给里面做各种配置的课程，是在我们的付费频道里。今天就跟大家讲到这里，感谢大家收听，再见。

番茄小说AI附加条款引发网文作者激烈反击，停更、转场、抗议。小说写手，直面AIGC的第一仗，谁能赢？

Luke Fan — Tue, 30 Jul 2024 00:46:35 +0000

网文作者向AIGC发起了反击。中国最大的网文平台番茄小说，因为在协议里要求网文作者授权他们使用作品进行大模型训练，导致这些作家纷纷退网，纷纷停更，向他们正式发起了反击。

大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲番茄小说的AI附加条款到底是怎么回事。上面写了，任何作者到任何的小说平台上去写小说，都是要跟人家签协议的。说我在你这里写小说，遵守你的规则，你给我分钱。

番茄小说的协议里头呢，就突然多了一个条款，这个条款呢叫做AI附加条款。条款怎么写的？甲方可将签约作品的全部部分内容以及相关信息，包括作品名称、简介、大纲、章节、人物、作者个人信息、封面等数据语料、文本素材等，用于标注合成数据数据库建设、AI人工智能研发、机器学习模型训练、深度合成算法研发等目前已知或未来开发的新技术研发应用领域，包括但不限于：一、用于智能对话、智能文本、图像、视听语音等作品成品的编辑生成转换、深度合成、虚拟现实技术等再研发和应用；二、用于任何技术下的AI人工智能模型训练，或用于生成提供给模型训练的合成数据数据库；三、其他任何新技术研发或应用场景。

注：甲方是番茄小说，乙方为作者。他呢是在这个里边加了这么一段。小说网站跟写手之间呢都会去签这种叫格式合同。什么叫格式合同？就是说我不会一个一个给你谈。我今要到先番茄写小说去了，番茄派一个律师跟我的律师去谈，说这个条款怎么样，没这个啊，就是一个标准合同。愿意就愿意，不愿意拉倒。你说我想改任何一个字，滚，对吧？就是这样的一个状态。

当年呢，我们在盛大电子书的时候，也遇到过这种问题，盛大文学跟所有的作者……

肯定也都签了有类似这样的格式合同。但是，我们当时做电子书的时候，遇到一个什么小奇怪的事情呢？当时签的协议是，我们通过互联网发行他们的内容，我们已经得到授权了。那你说没问题啊，我们做电子书不就行了吗？哎，问题在这了。我们通过互联网网站发行是OK的，但是你通过电子书、通过移动互联网、通过其他的方式再发行呢，这个事是有问题的，没有在合同的范围内。

那当时我们怎么办的呢？我们在电子书里头写了个浏览器，所有再去阅读的呢，我们是通过浏览器直接从网站上进行缓存，这样去使用的。这样我等于又在这个合同的范围内了。这也能够理解到，为什么上面番茄写的这个协议写得这么霸道。哪霸道了？现有的技术我都可以用，未来我在研发任何技术，我也都可以用。至于未来我到底想研发什么，我不知道，但都能用上来。就是包括但不限于这个不限于，就是现在我正在用的，未来的这些，没写进去的，你都得让我去用上去。

所有的律师写协议都是这么写的，把自己的权利写得无限大，把别人的权利写得无限小，所有解释权在自己。协议写得霸气似漏，但这种协议呢，你说有人看吗？没有人看。整个协议非常长，这只是其中的一个很小的权利而已。这个条款什么时候加的？2023年的11月还是12月份加进去的，大家也没注意。一直到今年的7月份，有些人发现了，哎，说这个版本怎么多了一行，或者多了这么一个小模块在里头。这事不行，有人发现了以后，大家就开始在一些作家论坛里讨论这件事情，逐渐发酵。发酵到一个什么程度呢？说我们要去停耕，要去转场，要去抗议。什么意思？就是现在的小说都是连载小说，我写了个30章，50章后边一章一章往下写，我发现有问题了。

那我就停更啊，停止更新了。或者说，我以后不在你这写了，我上其他地方写去，对吧？写小说的网站也不是只有你一家。而且其他各家的小说网站呢，都没有在协议里头增加这样的一个奇怪的条款，只有你番茄小说啊，敢为天下先加进去了。所以大家就开始去抗议。

番茄小说呢，也进行了一定的调整。调整是什么呢？特别有意思啊，他推出了一个流程，就是取消AI授权的一个流程。就是你可以到网站上去申请，说我要去取消这个授权了。他会给你寄一个纸质的合同来，你呢，自己去签字，自己去盖章，然后再给人寄回去。这样你就可以取消这个条款了。

这个合同上写的是什么呢？就是啊，你前面跟我签的这个协议中间这个条款我们把它作废掉，但是其他的协议上的条款依然有效啊。大概就写这样的一个东西。但是呢，它这个里头，有一个特别有意思的附加项，是什么呢？为避免异议，乙方同意，若甲方使用签约作品训练开发新技术，并生成文字内容进行传播使用，乙方不得因此向甲方或其他经甲方授权，使用新技术的第三方主张任何违约或侵权责任。大家看到耍流氓的地方了吧？哎，说你可以不授权给我，但是我用了以后你不能告我。

这个叫取消AI授权条款，一个协议，作者呢，肯定还是不乐意啊，你这不耍流氓吗？很多人就决定要离开啊。但是也有一些新作者说，算了，你学就学吧，反正我们自己也是拿AI去写。也有的人说，我就认了的啊。但是很多觉得自己写的还不错的这些老作者就要纷纷离开了。

这个里边呢，也有一些写手说，我去验证一下，他到底有没有拿我们的作品去训练大模型呢？很多人说，哎，我验证了，他真的干了啊。但是在这里要指出呢，就是这些作者也好，写手也好，他们的验证方法都是非常不严谨的。他们的验证的过程呢……

证明了他们对于AI使用方式的无知。他们怎么验证这件事呢？通过豆包大模型。因为刚才我们讲了，番茄小说后台是字节跳动，这么多大模型里头，谁是字节跳动出的呢？豆包大模型啊。他到豆包大模型里去问，问道：“我的小说写得怎么样？我的小说里头有哪些人物？我的小说的题纲是什么样的？给我总结一下。”问了一堆这种问题，豆包大模型呢，就非常准确地都给他回答出来了。

“你这小说叫什么？主要人物是什么？核心写的是什么东西？有一个什么样的章节？整个的提纲是什么？”都给他拎出来了。于是当时这哥们就惊了，说：“这疯了吧？这我写了半天，付出这么多心血，你怎么就全都给我拎出来了呢？”这里要讲，大模型的训练呢，不是这么简单的。你如果只是使用豆包大模型，直接去问这些问题，他未必可以回答得这么好。而且豆包大模型，实际上在国内各个大模型里头，算是表现比较差的一个。

但是怎么又能回答得这么准确呢？他使用的叫搜索增强的一个技术。正常的工作是这样的：当你去输入某本小说，告诉我是在讲什么的时候，他呢，先做的不是内容生成，而是先到网上去搜索了。搜索完了以后，他找到了你这本书，找到了所有公开的章节，然后对这些内容进行了总结归纳，最后再输出。所以你会看到它非常非常的精确。

那么这位作者呢，也尝试了使用闻信遗言、通一千问，就是百度、阿里这些工具，去搜索他的小说，发现效果也很好，回答的都非常非常精确。他说：“我没有授权他们呀。”但是这实际上是一个搜索结果的总结，跟你是不是授权给别人是没有关系的。这个作者还有一些作品，没有在番茄小说上，他把有一些作品放在其他的小说网站上了。他去问番茄小说：“我那本作品怎么样？”

发现，哎，居然也都说得挺好的啊，说得非常的完整，非常的准确。这个作者说：“你看，我们的小说已经都拿去训练大模型了，这个日子没法过了。”但是呢，整个的验证过程只能说明这个小说的写手并不太了解AI大冒险到底是怎么干活的。现在的AI写作已经带来了一些恐慌了。所有平台实际上都推出了AI写作功能，或者叫AI辅助写作功能，并不是说要给我写本小说，AI吭吭吭给你写去了，不是这样。而是什么呢？他们很多平台推出了叫AI工具箱。在你写小说的时候，可以进行AI扩写。你可以写一个简单的段落，咔一下给你把它写得比较长，这是AI比较擅长的。

包括呢，AI改写。你写的文采不是很好，或者是错别字比较多，说来AI给我去处理一下，它会给你整个的润色一下。包括一些自定义的描写，我现在想描述一下这个山庄非常漂亮，像我们刚才讲的，山庄好漂亮，语言很匮乏。那么你就可以交给AI，它会去给你进行一个比较详尽的描写。包括AI续写，你写了一半的说：“来，把这个场景再接着给我看，写下去。”这个现在AI都已经可以实现了。不光是番茄小说，各个小说平台的网站上都有这种AI工具箱了。

但是这些呢，并没有吓到作者。真正吓到作者的是什么呢？是有人一天上传了200本小说，不是200个字，不是200个章节，是200本。这个事呢，其实并不是AI直接照着大家的小说去写的，这种东西叫AI洗稿，这是完全另外的一套流程，跟你使用什么样的大模型，这个模型是不是使用了你的作品进行训练，已经没有任何关系了。AI洗稿到底是怎么干的呢？AI写稿实际上是使用的AI agent的这种工作流实现。你先指定一本小说，然后呢……

他把这个小说按照章节进行总结归纳，把提纲拎出来。然后再把里面的人物关系、这些主体都拎出来。拎好了以后，他把这些东西填给一个新的作者，说：“来，你现在可以去修改了。”他把这个名字改了，把人名、地名、故事的前后结构因果稍微调整一下以后，等于再生成一个新的提纲。拿到提纲以后，AI按照提纲去生成。通过这样的一个方式，确确实实可以看到这种一天200本的效果。

一个人写小说，不要说写一本了，写一个章节那一天也得坐在那，吭哧瘪肚的写两三个小时。上了AI以后说，一天200本，这是一个多么吓人的事情。现在还有很多人在卖这种提纲，什么意思呢？就是他把一些已经总结好的，先干什么后干什么，启程转合，哪个地方被人欺负了，什么地方在翻转打脸，把所有这些提纲东西写好了。他们拿这玩意儿卖钱，你只需要进去干嘛呢？改名字就行了，张三改成李四，李四改成王五，女主角一定记住叫李柳如烟，其他的随便改。改完了以后，一键生成，一分钟可以生成几千字，速度非常非常快。

一天你说200倍有点夸张，但如果你有一个账号，如果是在本级跑的话，我觉得一天跑个十几二十本是没什么问题的。如果是在云端开很多个账号并行跑的话，是可以出一天200本这样的速度的。

而现在，小说平台已经跟以前不一样了，已经洗过牌了。现在小说平台基本上是大厂的流量厮杀了。我以前在盛大，盛大文学也就是起点，后来起点这套东西卖给了阅文，阅文也上市了，等于在腾讯手底下。那你说当时我们有全中国大概百分之九十几的作者和百分之九十多的更大的一个比例的作品的版权，但现在已经不是这么回事了。

现在排第一的是番茄小说，大概有接近2亿的月活用户，字节跳动是背后的东家。第二名是掌阅，掌阅做阅读器，做小说的手机阅读APP。刚才我们讲的阅读器是电子书，他们大概有1.5亿的用户。这个公司除了他们自己的个人创始人之外，真正的机构股东只有一个，占10%股份的叫字节跳动。这也是字节加的。

然后是QQ阅读、微信读书、起点读书，这都属于腾讯系的。再往后是七猫免费小说，后边是谁呢？是百度。再往后是书旗小说，图书的“书旗帜”的“旗”，这个后边是谁呢？是阿里。

所以现在的整个网文阅读市场基本上是被大巨头们挤干净了。那么作者应该如何跟AI一起前进呢？千万不要想着说我们就不用AI，这个事是不对的。另外，也不要想着不劳而获，认为我在网上报个课，拿着人家的题纲改几个名字，然后命令AI去生成，生成完了以后就去投放，就可以躺着挣钱了。这事也别想。

我反复跟大家讲，面对AI的时候不能退缩，也不能想着不劳而获，这两个永远是错误的。作者真正应该跟AI做的，是一起前进，与AI互补，快速地让AI来完成一些自己不擅长的事情，快速地产出更多的内容。但是绝不是说一天200本。比如说我，还是按原来的这个故事大纲再往前写，故事大纲我自己有一个设定，包括故事的各种深层次含义的设定，我们都把它写好，写完了以后再让AI去帮我们填肉，让AI帮我们去检查，让AI帮我们去润色。这个过程应该是人跟AI一起配合来工作的。

就像Photoshop刚出来的时候，很多传统的设计师是不愿意使用Photoshop的，但是现在他们认为……

使用Photoshop，已经算是设计师的基本技巧了。比起这些使用AIGC的人，还是算原创了。再往后一步，可能使用AIGC的人也算原创了。那种不劳而获的人，才是真正应该去骂的人。或者应该快速地拥抱AI。那么，平台应该如何拥抱AI呢？不是像现在这样，就给大家提供一堆的AI创作工具就完事了，而是什么呢？平台应该会封杀AI洗稿内容，对吧？就像刚才我们讲的，有一个基本的框架了，然后只管在后边改名字就完事了。这是不对的。

其实洗稿这件事，在AI出来之前就有人洗。我们也见过很多的公司，直接把中文系的学生毕业了以后全包下来，坐在那写稿。他们怎么写呢？他们有完整的流程，先看看哪本小说好，完了以后进行提纲的提炼，再进行前后次序的颠倒，然后改名字，再去让人照着这个提纲去写小说。现在呢，只是把这些人的工作替换掉了，由AI来搞定。

但是以前人写稿的小说，都是出现在什么火车站、飞机场、长途汽车站。它就属于是盗版书，他们那种书印的字特别小。现在呢，通过网络去传播，通过微信公众号，通过很多这种私域的方式去传播这种小说。以前大家也知道，这些小说算盗版小说，不敢明着卖。现在平台也是会封杀这些小说的，为什么呢？因为这些小说多了以后，对于平台本身是不利的。你太多的这种喜感小说进来以后，真人作者就全跑了，以后就没有新套路。

大家始终在这里去洗这种最底层套路的东西。你的用户可能也就慢慢流失掉了，留下来的都是一些缺乏购买力的用户。不是说吸引不到人，还是会吸引到一些人，但是这些人就属于三低人群：低年龄、低文化、低收入。你希望他给你创造很多的收益吗？这事是很难的。

平台下一件事该做的是什么呢？就是提升检测工具，这种内容给它识别出来啊，谁是写稿的文啊，谁不是要能认出来。然后呢，版权保护的标准也有待提升。原来这种书因为比较少，所以呢，他可以靠举报来去找到这种盗版书，现在已经不一样啊，这种内容非常多，一天可以生产200本了。那么，他需要靠自动化的方式，光靠一尺道高一丈啊，我们应该可以能够识别这样的洗稿内容。只有原创的新故事，才是真正有价值的东西，也只有真人才能生产出来这种原创的新故事，至少目前为止是这样。

平台还需要干的一件事呢，就是积极的探索新的阅读与交互方式。因为传统的都是说啊，写出小说来大家看，看完了以后，甭管你是去看广告也好，还是去付费也好，平台以此来盈利。现在因为你创造内容更多了嘛，就可以有些新互动模式。是什么呢？比如互动小说如何服务好作者，而作者跟读者之间的界限呢，就会更加模糊一些啊。最早的网文作者其实也都是读者，我们看别人写的很好，我也要写一个，也是这么来的。

那么以后的话，可能这个界限就会更模糊。平台最终所需要的呢，还是有流量，但流量一定是要靠什么？更多的原创故事，你才可以有更高质量的流量回来。所以平台呢，会在AI应用的过程中进行一个平衡路线的选择。他们需要AI来去帮他们创作更多的内容，但同时呢，他们也会限制AI，不能把真正的真人作的内容给他洗掉，把所有真人都洗跑了，这事就没法玩了。

这个呢，就是今天我们讲的网文作者面对中国最大小说平台番茄小说打响了反对AI训练的第一枪的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

华为大模型演示翻车现场：time.sleep(6)真的值得大惊小怪吗？老程序员深度解析代码背后的真相！睡6秒不是什么大问题，不过图像RAG，到底是个什么坑？

Luke Fan — Fri, 17 May 2024 00:39:26 +0000

大家好，

欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲华为大模型演示翻车现场。

近期呢，非常多的AI相关的项目都在进行演示和发布，特别是国内。为什么它？因为时间到了。通常每年在这个时候也会有很多发布，因为每年在这个时候会开谷歌IO，大家喜欢在谷歌IO的前后进行信息的发布啊。因为谷歌IO算是全世界程序员或者开发者的一个盛会吧。那这个前后进行信息发布的话，如果它被安卓采用了，或者再跟谷歌搭上一点关系的这种技术会有更好的发展空间。

那今年呢，还有另外一个事情，就是拉玛3发布。前面其实国产很多大模型都是跟拉玛2有千丝万缕的联系。其实当时就已经预言过，我说拉玛3出来看多长时间之后，国内的大模型会争先恐后的再更新换代一波。现在呢，这个时间点就到了。前面阿里的通1,000问2.5发布，这两天还有几个，一个是零一万物的啊，叫e latch大模型发布，然后字节跳动的豆包大模型前两天也发布了啊。这豆包大模型主打的一个便宜，对别人的价格都便宜非常多，因为大模型的价格一般是按TOKEN算的啊，一般一个汉字是一个TOKEN，大概四个字母，还是几个字母的英文单词，是一个TOKEN啊，它这个算法比较奇怪。

华为呢，也在发布他们的升腾大模型。结果现场演示的一段视频就爆火了。现场演示什么呢？就是一个Python代码，啊而且是正在写的Python代码，他们还很神奇，直接在底下的命令行窗口里边就输入信息了，说请帮我输出一个什么什么图片，还号称是REG的一个图片生成。一开始啊，这位小哥输出的时候呢，就写错了，先写了请帮，然后啪打了一个回车。其实我们在做各种大模型实验的时候，这个事是很常见的啊，因为呢都是对话系统嘛。你一打回车，他就开始干活去了。所以呢，一开始写请帮，他打了一回车，打一回车呢，后边那个程序就开始跑了。他就打了个Ctrl-c，就是把这个程序中断掉。

将一般我们使用的，像Python这种解释性语言，或脚本语言的程序，都可以靠Ctrl-c把它中断下来。中断完了以后呢，大家就看到了一些信息，写的是输出到，叫做output点洁癖器，是调用的XMINDX的一个库。然后呢，大家真正关注的是，里头有一句话，叫time.sleep(6)这样的一个话在里面。

那么大家说说你这个到底在干啥啊？你是不是要等着6秒钟以后，再给我看图片就完事了呢？啊，因为大家也确实是呃，测试了一下视频啊，就是他正确的输入了以后，等了6秒钟，然后这个图片就生成出来了。大家就觉得你是不是在这骗傻子呢？

很多人在知乎啊，在很多地方就开始讨论了，说华为是不是又遥遥领先了呢？跟大家稍微解释一下这个事啊。啊，我个人是专门做职业的编程演示的，可能在国内比我更职业的人不多啊。为什么这么讲，我是原来Bolan的公司，大中华区的image list，就是每天就出去给人做演示啊，我的工作就干这事。这个事呢，我干了四年啊，大概是在全国各地演示了，应该有可能几百场啊，就各种新特性演示。

因为这次，其实你基本上把它认为是一种，叫做授权工程师，每一次Boland出什么新的编程特性了，然后我就出去给人演示去。所以这个事，我相对来说还是比较熟练的。那么他这一次演示呢，为什么会出这样的事情啊？我们也尝试帮他洗一洗，对吧咱们别老说老范，你是不是很讨厌华为，没有啊怎么可能呢，对吧咱们稍微讲一下，这事到底是发生了什么。

首先呢，我们要先想清楚他到底在掩饰什么，这个其实是比这个sleep(6)这个事更重要的。
要更奇葩的一个事。为什么呢？因为他演示了一个非常不常见的功能，叫做图片RA器。这个功能其实用的人不是没有，有人在用，但是呃，很少人用。

咱们先讲讲什么是reg啊。reg这个东西呢，叫检索辅助生成。为什么要做reg呢？因为我们知道，这个大模型经常会一本正经胡说八道。那我们怎么避免大模型一本正经的胡说八道呢？很简单，就是我们先给他准备好小抄啊，或者说准备好一堆的小纸条，说请把这些都背下来啊，请按照这个小纸条上的内容去给我回答啊，不允许自己瞎编啊。我们通常会通过这样的方式，来让大模型按照我们要求的方式去输出啊，这就是做Rag。

然后Rag的这个原理其实也很简单。我们先给他一大堆的这种小纸条啊，就是基础内容吧，然后呢让他去做嵌入啊，in bedding inviting的过程是什么呢？就是他把你给他的一段话啊，这段话通常还挺长，一般是可能500多字，有的有1,000多字，把这个话呢啊，变成一个数组啊，或者说变成一个矢量空间。但是呢他这个矢量空间不是二维的，不是三维的啊，而是可能 102四维，就是一个很高维度的一个矢量空间上的一个点。就是你给他一堆文字，然后这堆文字说哎，我认为这个文字在这个点上，然后再给他下一堆文字的时候，他再给他标注一个点啊，这个叫史量化。然后呢你再说我现在要问问题了，他呢把你的问题也做一次质量化啊，也在这个质量空间里头，1024维或者有的有4096维的这样的一个高维的空间里头啊，把你的问题做一个点，然后再下一步是什么呢？找到在这个更高维空间里头，离你的问题最近的5个点或者几个点，都是谁相对来说，就可以找到跟你提的问题模糊相关的内容信息。但是大家听到了我讲的这个过程没有？就是RAG整个干的活，其实基本上都是在文字基础上干的。他不是在图片基础上干的啊。所以他做图片RAG这件事，确实是比较奇葩。

通常我们做RAG演示都是什么呢？我们先把用户手册输进去，把各种报表把这些东西输进去，然后呢我们就问，大模型说哎，这个用户手册上说啊，这个按钮按了以后该怎么办啊，或者说这个报错了，然后出现哪个哪个报错码了，该怎么办啊？然后他先到这个史兰库里去搜，搜完了以后呢，找到四五条跟他相关的信息，然后呢去做一个事，叫提示搜工程。这个提示词工程一般这么写啊，说我们现在有一个问题啊，问题是这个用户提的，然后呢，我们通过RAG去找到了5条相关的答案，现在请对这5条答案进行总结输出，所有这个答案里头没有相关的内容，请不要去加编啊，我们一般会给他写一个这样的提示词，最前的是问题，后边是5条答案，下边是提示词，然后给你生成一个你想要的结果。通常还是要把这5条相关的信息，也都在后边备注下来，说你看啊啊，这个是我们当时搜到的这5个节点啊，你看看跟他是不是一致，因为他有的时候编的时候，还会总结的有问题嘛，他一般这样工作的。

但是图片RAG一般是怎么工作的，你们知道吗？啊他一般这样，就是说你先给他一堆图片，拿着这些图片以后啊，先要干什么叫做图片识别，我们先把图片都识别成文字，比如说这是一个男人长成什么样，然后如何如何，先识别一大堆这样东西出来，识别了以后呢，再把这个已经识别好的文字，再去做实量化，然后你说，我现在想要画一个什么样的图啊，照这个图片再去做rag生成的时候啊，也是可以做的啊，你比如说我现在，已经把一堆的这个图片放进去了啊，比如说中世纪的铠甲的，汉服的和服的啊，西装的休闲装的，我生成了一堆这玩意进去，生成完了以后呢。我现在给他一个新的人说，现在请给我把他换成一身这个什么样的衣服出来。这个其实就有点像RAG的过程啊，但是通常我们不这么干。通常干的过程呢，是直接用Ctrl night模型做端到端的处理啊。啊但是我们比如说就是做图片RAG了，那么你确实是可以这么来处理的啊。他最后能够保证什么呢？保证就是说哎，你输出里头有一部分是一致性的啊，这个人长得跟你输进来那个人还挺像的啊，中世纪铠甲跟你原来输进去的中世纪铠甲长得也挺像的，对吧这两个凑在一起还可以，这个就可以达到做图像rag的目的啊。但是呢呃，这种用途其实并不是那么常见了，可能用的更多的还是啊，直接在stable diffusion里面去呃做contranite，做一个换装，做这块的会做的稍微多一点点。现在他这个演示呢，就啊相对来说比较奇怪了。为什么奇怪呢？就是他演示的，是他最后底子说了一句话，前面的部分我们没看到，因为我们只看到最后翻车这一块嘛。啊前面到底是怎么演示的，如何入库的部分，我们没看到。通常情况下，这个RAG的完整演示，是要先给人演示入库的部分，然后呢，再演示这个检索和输出的部分。最后RAG真正给人看的是什么呢？就是你的输入跟输出之间的一致性，你看没有胡说八道啊，这个确实是原来我输入的东西，直接给他做出来了呀。一般是给人看这种东西，而不是说我给你一句话，然后你就给我输出一个图片，这个呢一般是做纹身图，会给人演示这个啊，所以他这个演示相对来说比较奇怪。当然也有可能是呃，我们前面的没看到前面有输入的部分，因为演示出了一些问题，然后导致这位做演示的小朋友呢，啊比较紧张，后边应该演示的部分没有演示出来，这个可能性是存在的。但是可能性没有那么大啊。待会我们再想为什么。那么，什么情况下会出现sleep(6)呢？这个sleep(6)其实很简单，就是停6秒钟啊，就是让这个程序什么也别干，等6秒钟以后再干活。大家甭管懂不懂编程的，会不会Python的sleep(6)，这个跟大家想象的是一样的啊，就按语意意思去理解，没有任何毛病。

那么首先要想清楚一个问题，control c的时候，99.99999%的可能性会停在sleep(6)上。大家知道为什么吗？其实很简单啊，就是在正常程序运行的时候，每一个语句执行的速度都是很快的，你是没有办法说，我确定他停在什么地方。但是sleep(6)，你想这6秒钟，他实际上就执行了这一句话。像其他的每一句话执行，可能只是零点几毫秒，或者是有一个毫秒，我估计一毫秒都不会有，只有一句话，是做了这个6秒钟的执行啊。那你打Ctrl-c，你想它停在这个sleep(6)上的概率有多大？所以你如果里头有sleep语句，你打control c的时候，99.999%的这个概率都会停在这句上。

第二个呢，有很多人就在猜了，说你是不是啥都没干，停了6秒钟，然后直接在后台哪学，不张图就扔出来了。现在很多人在猜测这件事啊。呃，我觉得这种可能性倒没有那么大啊。这个可能性没有那么大，为什么呢？有点太忽悠人了啊。虽然人家很遥遥领先，但是你想去华为上班也没有那么容易。像我现在这样的水平，要简历到华为，华为人还不要我呢。所以呢，我们不要随便小看天下人啊。

正常情况下，写这个sleep(6)呢，啊是两种情况啊。第一种情况呢，就是做大模型这个输出的时候，没有做状态监控，这个事呢，是很常见的。为什么呢？就是大模型输出啊，通常情况下，他是要等一会，不是说我在这头啪一回车，那头就出来了。一般情况下，我们执行一个程序，执行一个语句的时候，他如果是很快就可以出来，我们就让他锁在那跑，就完了。啊，什么叫锁在那他跑？就是说，当他需要进行长时间等待的时候，这个计算机是锁定状态。你在这个时候再输入任何信息进去啊，再动鼠标或者再做任何点击，他是不理你的啊。但是这个呢，很危险啊，因为有的时候他就锁死在里头，就出不来了。那所以很多呢，我们会让他在后台执行，就是他是前后台进程嘛，后台进程。

那么后台进行的时候呢，正常是什么呢？正常我们要监控他执行的结果。后台执行了哎，执行完了，你要告诉他说哎，现在执行完了，现在请展示出来。咱们经常看大模型执行的时候，那个字是一个字一个字出来的，对吧？你问他一个什么话，嘣嘣嘣嘣嘣，一个字往下跳。这种呢，叫stream输出，或者叫流式输出。那干嘛呢？就是说我这边命令你去回答问题了，然后呢我在那等啊，你出一个字了，我就赶快把这个字拿出来，给大家展示出来。再出一个字了哎，再赶快再把这事哎提出来，再给大家展示。然后一直到出完了啊，我知道哎，这句话出完了，再去执行后面的程序。正常情况下他是这么干活的。

但是呢，有些人说，我为了省事啊，我就不费这劲了，我也不监控你的结果了。我认为你大概6秒钟能跑完，我先背着他跑，然后另外一头呢，我等6秒钟啊，等完6秒钟以后直接去取结果，大概率不会出问题啊。有人这么干啊，不是说没有，特别是一些叫萝卜急了不稀泥的这种程序啊，就是我很着急写一个，我就不用写那么细致了。因为你要知道，从这个监控和后台这件事来说，是挺麻烦的，不是那么容易的。你可能需要现场写个，可能十几句，至少得写个三五句吧，你才能把后台进程的状态监控起来。这是一种情况。然后另外一种情况是什么呢？就是啊，他所调用的大模型是有RPM限制的。什么叫RPM限制？就是每分钟调用多少次是有限制的啊。因为现在大家知道算力很贵，对吧？那么大模型这些厂商为了不要让大家快速的、高频的去调用自己的大模型，他们会给这些调用方设置每分钟限制的次数。因为我自己的一个程序里头，也是写了sleep play啊。我调用的是谁家的？就灵异万物他们家的大模型。我是充了200块钱在里头，他给我设的是什么呢？是一分钟十次啊。就是我每分钟最多可以钓10次。那做个sleep(6)呗。我这头钓，钓完了以后停6秒钟，然后我再钓下一次。这样就肯定不会有什么问题嘛。这个是比较常见的啊。因为这种东西，你没法去监控服务器运转状态，然后说我是不是可以掉下一次了，这个事只能是自己sleep啊。当然也有一种这个更精确的方式是什么呢？就是我先钓了，钓完了以后啊，然后我去呃等一会啊，再钓一次，然后发现错了以后呢，等再等一会再去钓对吧。他有的时候会去做我们管他叫Retry吧，也有这么干的。但是这个呢，属于是非常不友好的钓用方式啊，因为虽然最后人家可能还是啊，6秒钟替你服务了一次，但是你在不停的去刷他的服务器啊，这类似于一种低DOS攻击，所以这种方式不是那么友好。所以这种sleep(6)也是很常见的啊。我们现场到底看到了什么？这是一个前端演示的程序员啊，大家一定要注意，他并没有给大家去做这种完整的客户端演示，而是告诉大家说哎，我怎么通过简单的编程，就可以看到一个什么样的效果。而这位朋友写的呢，也不是很熟练至少像我们以前出去给人演示，你各种演示的demo还要练几次，然后各种容易出的错误，你可能平时练习的时候都出过。各种预案：

我们会留的比较足，所以不会现场出这样的问题。这是第一个。

第二个呢，就是他这种代码正常应该是现场写的。就是他不可能说哎，我这个代码是已经写好了，然后呢我给大家看一下。这个绝不是这样啊，因为如果是工程里边，这个代码就写成这样的话，华为早就挂菜了啊，不可能啊。混了这么多天，被这么多人讨厌，还在这活的好好的。

为什么这么讲呢？time.sleep(6)这个事儿啊，其实不算过分。然后后边儿有一个叫写到output点儿洁癖记里头。大家有没有看到这一行代码？这个才是真正比较过分的。这叫什么东西？这叫呃，我们把输出文件名儿直接写死了，对吧？这个实在是很奇葩的一种玩法。

正常情况下，我们应该怎么办呢？应该询问用户叫什么文件名，对吧？这是第一种方式。第二种呢，我们一般会采用一个叫文件名生成的一个程序。我们会生成一个保证不重复的文件名，啊比如说我这个是用日期时间戳，再加上一个哈息数，再加上一定的啊表意的信息，然后生成一个完整的文件名啊，或者是说我再加上什么特定的路径啊，这样能够保证这个文件名随时都可以生成，而且不重名，甚至我们还会去写程序说，我保证啊，文件输出的时候，去进行文件名存在判断啊，说是不是有这个文件，如果有的话，我怎么再去换一个跟他不一样的文件名。这个是正常的工程里边的写法，而不是把这个文件名直接写死在里面。

所以通过这个来看呢，这个代码大概率是现场写的啊。那什么时候需要现场写代码？就是告诉大家说，这个他们叫做升腾大模型啊，因为上面有一个叫MINDX啊，有这样的一个提示出来，也是说我们在调这个库的时候啊，发生了这样的问题啊。这个MNDX呢，就是升腾大模型的意思啊，就是你吊这个东西的时候很方便。你不需要很强的工程能力。你也不需要很强的技术的门槛。你就随便就可以吊啊，随便写两句就能把它吊出来啊。他实际上在演示这种东西。

在这个里头，你出现各种不规范的代码，什么sleep(6)啊，什么写死了文件名儿啊，哪怕是重复了文件名儿，重名儿的，我直接把原来的覆盖掉。这个都不是什么大毛病啊。我们以前也经常这么干。

像我以前去做演示的时候，现场演示，虽然我那个代码都会提前练好啊，但是我一定要到现场敲。你一定不能是从一个文档里头，口碑出来，或者说你看我这有一个程序，我直接调用一下就完了啊。这个现场看的人是不买账的。

你万一后头藏了个几十万行代码，你说我我一调用，我一贴贴上去了，我就可以跑了，那人家说我学不会。你一定是你看啊，我就写了三句啊，5句第一句什么，第二句的什么，然后写到第五句，啪一回车，哎结果出来了。呃然后让人下边一看哇，是这样的。对一定是这么一个过程啊。

像我们以前经常干什么，叫什么A1 A2 A3 A4 B1 B2 B3 B4，这是干嘛呢，起这个变量名。大家知道，正常写程序，你按工程的要求来说，你是不可能这么起变量名的。你这么起变量名，这个程序大了以后，你根本没法改错误。

但是我们在现场演示的时候，都是这样的文件名啊。这个其实是蛮正常的，因为为什么你在现场，你再去想说，我到底按一个什么样的命名规则，去命名哪个大写，哪个小写，英文怎么拼写，然后拼对了，拼错了这个烦死了，对吧你还不如叫A1A2呢，这个多省事啊。然后最后你就直接把结果出来了啊。这个才是大家想要看到的啊。

所以啊，不要因为说他写了个sleep(6)，你就觉得他在骗人了。跟后边那个right，什么output点GPG那个差远了。有这两句。只能说明，我们大家现在看到的这段代码，是在现场写的，而不是按照华为标准的工程要求去写的啊。只能说明这件事，这件事情，你说就不是在骗傻子吗？大概率还真是。为什么呢？虽然我刚才解释了，这个代码并没有什么大的问题，但是大家要想清楚，他在演示什么东西。他在演示RAG图像生成啊。其实华为的用户里头，做Rag图像生成这种需求的人，应该没有几个，对吧？什么人干这事？电商的人啊，我去做换装。而且通常情况下，人家也不是做reg图像生成，人家直接是stable diffusion做换装就完了啊。没有人去做这个。甚至还有一些人是干嘛呢？是去做这个游戏对吧。比如说我现在要去啊，做一个游戏工作室，然后我要保证说我输出的所有的骑士，所有的什么东西啊，这些要有一定的一致性。反正就是这个类目是存在的啊，但是真正实际用起来的人，本身是非常少的。而且你想，他最后写了这么一句话，写完了以后，那头就直接给你画出来了啊。我的感觉是什么呢？就是他喊了RAG的名字，因为现在特别是对于华为的用户，他的用户一般是企业用户，或者是政府用户，他们不可能去做电商，也不可能去做游戏啊。对于他们来说呢，你不给他讲RAG，不给他讲知识库呢，他们就不买单。所以，一定要把这个高大上的词给你讲上。然后呢，我如果直接给你看一下，我检索了啊，谁谁谁的讲话，谁谁谁的路线指导思想这个事呢，这又容易翻车。那怎么办呢？咱就现场给你画个画啊。这个画呢，还比较震撼，让你觉得啊，这个事情很有趣对吧。所以呢，你看哎，我也RAG了，最后我还画出一幅画来。所以这个演示的过程啊，可能有一定的欺骗性吧。我们觉得讲成这样，算是比较呃客观中立的一个讲法啊。这个呢，就是这一次华为升腾大模型展示。里边出现的bug啊，我们进行的一个解读啊，希望你甭管懂不懂编程啊，懂不懂这个RAG到底是干什么，懂不懂这个大模型怎么回事。啊，通过我的讲解呢，啊你能够对这个事情，有一个更深刻的理解。

好啊，这一期就讲到这里，感谢大家收听。请帮忙点赞点小铃铛，参加disco讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。