媒体传播 – 老范讲故事｜AI、大模型与商业世界的故事

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

老范讲故事 — Fri, 29 Nov 2024 00:42:07 +0000

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的。视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假或者版权侵害什么这样的视频。所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢，会发出一些样板视频来，那意思什么？他说，你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频，它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线。大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。

艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布，还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢，在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说，这个脚要往前走的时候，应该膝盖往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这个是第一个问题。

第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说，你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗，应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说，我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。

我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。

现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个，专业应用级别呢，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢，也还是有很多专业团队，会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。

半专业的应用呢，肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了，而Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。

这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。

对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入，艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。

所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了。为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这就相当于什么，就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头，每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但是艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说，你穿了件衣服，里边有个人，但是呢，人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着它都变成左脚了，或者是变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题，第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢，算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，它需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱，从头到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。

因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。

什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

YouTube上有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频我已经被这种视频骗了好多回了。

我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。

就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的，他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但是呢，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢，都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型吧，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”，什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。其实，这些呢是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。

最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以，他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就在2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。

但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着就都变成左脚了，变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。

他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。

咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后，什么欺诈？视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢，你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。

你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。

很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个说话了，这个吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。

当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画、小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把德国选择党的那个女党首的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型，式的那我们只要写一个提示词，生成出来大差不差的，我就能用。那些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他说哎，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题，咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯，这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说，非常非常难以控制和把握。再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看，最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，就是有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置，才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈？视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部，也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上，在吉梦也好、可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆，可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过。

这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们呢，就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢，其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢，是呼吁Open AI可以更加开放。

你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，表示现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢，并不需要进行身份验证，所以也不知道这个是真是假。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这种方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高的。当然了，这个还不是困扰视频生成本身的最大的难题，更大的难题是什么呢？就是视频要好看。

最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说，我们付出的努力极其艰巨呢？也是如此，他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢，完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

所以再往下一个方向到底是什么，虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。于是他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在呢Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。

第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。

你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。

这是第一个问题。第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上。现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。这大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。

视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。那么我们到底还需不需要等Sora呢？

其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上，在吉梦也好可灵也好呢，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型。在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

其实，从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢，已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全球的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂地泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂地开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头了，电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品，这个事本身是非常难的。他们说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这就相当于什么？就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停地玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是，视频生成本身的难度是很大的。第一个，内容合理性其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边有个人，但是人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，膝盖应该往后弯的。但是，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是两条腿迈着迈着都变成左脚了，变成右脚。图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性，这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上，已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定地保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后，算力成本实在太高了。图片生成，现在我们画一幅1080P的图像，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。

当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。大家想象一下，有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。

现在我们要做视频生成的这种工具了，在有大模型的基础上，你也需要大量的开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以，为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。

再往后，什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话它就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝；你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝；你只要提到任何人的名字，直接拒绝；说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝；请给我画个什么星球大战、米老鼠，马上拒绝。

所以，他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好、可灵也好，都是在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以，我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。

所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。

而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说：“你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情，都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人，有黑人，有白人，有男的，有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

当然有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀，血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看DALL·E 3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个DALL·E 3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。

这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。

Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。

至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

农夫山泉首富钟睒睒直击要害：为何不屑直播CEO？CEO做直播算不算不务正业？钟睒睒怒怼推荐算法和拼多多

老范讲故事 — Fri, 22 Nov 2024 00:57:52 +0000

钟睒睒罕见发声，看不起这帮做直播的 CEO。大家好，这里是老范讲故事的 YouTube 频道。今天咱们来讲一讲钟睒睒罕见发声，直怼这帮做直播的 CEO，这到底是一个什么样的故事？

钟睒睒是谁？农夫山泉的创始人、CEO。现在中国首富不是马化腾、马云什么的，这些人都不是，而是卖农夫山泉的。你看，买了他们家一瓶水，其实钟睒睒这种发声，才是正常企业 CEO 的一个发声频度，或者叫常态，并不是每一个人都坐在这像雷军似的不停地发出声音。绝大部分的企业家可能都没有钟睒睒这样的发声频率，人家就关起门来管理自己的公司就完了，何必天天跑出来抛头露面的，对吧？没有这个必要。

那么钟睒睒的原来也是要更低调一些，只是今年 3 月份，随着娃哈哈的宗庆后去世之后，钟睒睒被网暴，这个出来发声的频率才稍微高了一些。农夫山泉和中国首富，以及站在宗庆后对面男人的身份，自然会让钟睒睒的内容具备极强的传播性。同样的话，别人说没人理的，钟睒睒说了，咱们都得出来蹭一下，是这样的一个情况。

以前很多人都讲叫贵人语迟，什么意思？就是说贵人有身份的人，自知说话有分量，容易被人拿去利用，所以说话的时候总是比较慎重。而且贵人说话比较稳重，也比较迟缓，他会三思、想一想再去说。贵人跟一帮人讨论问题的时候，通常也是最后做总结、下结论的那个人。你说一个老板跟一帮手下在这讨论问题，上来我先定个调子，那大家就别说话了呗。他一定是别人都说完了以后，他想一想，综合大家之长，得出一个结论来。别人上来要说我先定个调子，马上就被扔出去了，你没有这资格。

当然了，也有人讲说这个说话晚的孩子以后能够成为贵人，这个没有任何科学依据。所以通常情况下，CEO 也好，或者大企业的管理人也好，不怎么出来说话。那你说钟睒睒这种人平时他就不说话了吗？开玩笑，人家只是不在外边说而已。你在屋里说的话或者在公司内部说，他传不出来就好了。如果在外边说，也要先清场。

留下信得过的人再去说，或者是在说话之前先说清楚。我们今说不可以外传，不可以报导。如果报导了，我就起诉你。这个事要说明白的，对外传播的内容，也就是今天我们所讲解的这些内容，都是经过农夫山泉公关部确认以后才可以发出来的，并不是说像直播似的，咔嚓就把所有的全文都拎出来，大家一起来去品头论足一下。没有，这个一定是经过农夫山泉的公关户筛检确认以后了。

那么钟睒睒都说了些什么？第一个，绿瓶纯净水。咱们正常情况下喝的农夫山泉都是红瓶，这个叫山泉水。他们出的这种绿瓶子是纯净水。说纯净水，只有一个SKU，我们也不会做太多，反正就做了这个，算是低价策略，也卖得很便宜。口渴了，随便喝喝是没问题的，但是经常喝对身体还是不好的。这个也是继续了纯净水与山泉水之争。他跟娃哈哈之间的竞争，主要就是这个。娃哈哈卖的是纯净水，他卖的是山泉水。他一直说，人家说你始终喝纯净水对身体不好，水里边还是应该有各种微量元素的，所以以后要尽量喝山泉水，不要去喝纯净水。

但是3月份被网爆了以后，特别是大家说，你看这红的，一个圆盖，这是崇尚日本，因为这样圆盖从这个角度看，它像个日本高药旗。这个把他骂得很惨。他说，那算了，我做个绿的。也就是山泉水跟纯净水之争，以及红瓶跟绿瓶之争，现在出来说一下，反正我做了，我就是做一款出来恶心你，做得很便宜，大家也不要经常喝，就讲了这么个话。

第二个，他讲了，骂我的人也是受害者。什么意思？他说那些天天在骂钟睒睒的人，他也不是一个利益所得者，他是一个受害者，他们跟钟睒睒是一样的。那么这里头谁是坏人呢？算法作恶。实际上这就是在说张一民，在说这些做推荐算法的人。说很多恶都是人为造成的，这些人造成了恶，尤其是利用科学科技手段、技术能力，那造成的恶比普通人造成的恶要大，这是大恶。要传播仇恨，树立对立，说你们这些人怎么干这个，其实也很正常。没有对立就没有流量，大家都你好我好。

谁上去看去，也讲了说我们现在想要的营商环境是要尊重企业家的，企业家不要随便乱骂。他讲这样的一个话，当然了，他自己也没有能力去跟这样的平台做对抗，只是说要求政府站出来主持一个公道。这是他讲的第一个。

第二个，是看不起这帮做直播的 CEO 们。钟睒睒说了，我永远不会出来做直播的。平原型的企业跟垂直型的企业是有差异的。什么叫平原型企业？他只做一层，什么都做。他比如说做品牌运营、品牌营销这样的公司，底下的生产，整个全产业链他是不做的。而这个农夫山泉这种，就是垂直型企业。我就做水。他实际上是手里有俩公司，一个是农夫山泉，还有一个应该是一个药，做这种养生的药企。他说我们从上到下，从原料到销售渠道，所有东西都做。我是竖着做的，你们是横着做的，咱们不一样。说农夫山泉是有根的，或者说他叫他自己钟睒睒是有根的，看不起这些做直播的 CEO。我不跟你们费这劲，只有你们这些做营销的，你没有那么多的上下游的事情需要你去照顾，你就每天靠着一张嘴不停的去卖东西。你们跟这些直播带货的，跟这些像疯狂小杨哥这些人没什么区别，我看不起你们。而且他说，正常的 CEO 应该有更重要的事情做，哪有空天天坐这做直播。你做直播，1 分钟才能挣多少钱？我坐这做一些 CEO 该干的活，我可以挣更多的钱。那你坐这做直播，一定是你那个更重要的事情不值钱，所以也看不起。

当然了，从这句话上来看，钟睒睒这种人并不适合做直播，不是所有 CEO 都适合做直播的。张嘴就得罪人，而且得罪了很多的人。幸亏是他很少发声，他们的公关部还收拾了过来，否则，如果像真正的这种网红 CEO 那样每天做直播，这马上就塌房了，这是不行的。

再往后讲了说，这个农夫山泉是不怎么做电商的，主要是靠小店的销售，就各种各样的小商店、小的这种报摊或者是小饭馆，我们就靠这个。说为什么？这个其实原因很简单，农夫山泉这样的水，没有那么多利润流出来。

它的主要利润体系是走这种小店，这种分销渠道的。每一层都需要留利润。你到时候一旦进入电商，它的利润体系就会打破，咱没法走。而且，还怒批了拼多多，什么呢？低价竞争。说你这种低价竞争，让劣币驱逐了良币，让这些很便宜、很差的水把整个的利益链、产业链都给我打烂了。也呼吁政府整治，因为他毕竟是个卖水的，那么搞不定，就呼吁政府整治了。

最后，还回应了一下儿子的美国国籍。钟睒睒的儿子是已经拿到美国国籍了。他讲的说孩子长大了，有权利决定自己要过什么样的生活。他说孩子也没有农夫山泉的股份，只是农夫山泉集团的一个员工而已。当然，这并不符合事实。他儿子是农夫山泉很高的高管，从很早就开始在农夫山泉的各个分子公司里边打拼，现在已经管了很多事情了。他讲了所有的钱都在国内，一分钱也没拿出去，就说我的钱都是在国内的，投资也都投在国内了。我没有像其他那些企业似的自己跑掉，也没有往国外投资。而且，也讲了农夫山泉永远是一家中国企业，因为红瓶盖的事情已经让他怕了，所以一定要站到民族企业这一头来，千万不能站错队了。

那么，他讲的这些话里头，咱们稍微分析一下，CEO到底应不应该做直播呢？这个CEO首先想想到底有没有更重要的事情要做。像以前我们做投资的时候讲说，CEO有三件事：第一件事是战略思考，你要想一想你的公司要干嘛；第二件事是资本运营，甭管是融资也好、投资也好，或者是卖公司也好，CEO最后也要把自己的公司卖掉。这个销售是卖产品的，而CEO的产品就是一家公司。如果最后没有办法把公司好好地卖掉，也不算是一个合格的CEO。再往后一件事，第三件事是什么？就是核心团队的招募以及经营管理。因为很多的小团队的CEO就是融资、战略思考、招聘；像他这种大团队了，他也不要求再去融资了，但他要投资，他也需要去管理运营他的核心团队。这就是CEO该干的三件事。那么你说跟这三件事比起来……

做直播到底划不划算呢？是不是做这三件事才算是正经 CEO 干的活？做直播就是不务正业，现在其实也不能这么讲。信息传递的方式其实在不停发生变化。那么在这个过程中，到底是运筹帷幄还是冲锋陷阵，哪个更重要？没有一定之规，所以也不要去预设立场。最后还是要看划不划算。而且不是每一个 CEO 都适合做直播的。

比如说，有些 CEO 适合做直播，让他去做直播可以事半功倍，那没问题。而且这些 CEO 去做直播，效果非常好，这个就让他去做呗，这有什么问题吗？当然也有一些 CEO，比如说像钟睒睒这样的，他就不适合干这个活。那他可能就应该让他的有限的时间和精力去做一些他自己认为更重要的事情。但是也没必要去瞧不起别人。

咱们现在看看这帮做直播的 CEO 们，这里头分两类：第一类是从 CEO 改成直播的，第二类是从直播改成 CEO 的。从 CEO 改直播的有哪些？雷军肯定是现在直播界的第一网红，或者叫直播 CEO 界的第一网红。雷军现在干的活是什么？就是宣传自己的核心价值观，宣传自己的核心产品。他也不会去卖别人东西，东西都是自己的。

虽然按照钟睒睒的标准，雷军的小米就是一个平面型企业，或者平原型企业。他啥都干，所有的东西可能也只是在最后一层产品定义、设计以及品控和整个的产品的营销这一块是管的。在底下的东西其实他是不管的，那就是平原型。雷军在这块做的还是不错的。

也有不适合做的，比如说哪咤汽车的张勇，上来做了一次直播，被人骂死了。对吧，上来翘个二郎腿，然后怼这个用户说：“您不懂，我懂。”这种人他不适合做直播。周鸿祎其实他做直播是比较亏的，为什么？他没有东西可以直接卖。上来自己成网红了，但是他网红了半天，啥也没卖出去。周鸿祎自己还对钟睒睒这事做了回应了。他回应什么？他说钟睒睒说的对，说 CEO 就不该做网红，除非卖自己的核心产品。这点其实老周自己是做的最差的，他应该老老实实的。

直接把这个哪吒汽车买下来。他是哪吒汽车的股东，买下来以后，自己上哪吒汽车当 CEO 去，把哪吒汽车卖好就完了。现在哪吒汽车快废了，其他的像余承东、俞敏洪以及东方甄选，原来那个东方小孙、孙东旭，这都是从 CEO 转的网红。那转完网红以后，你肯定要承受网红所消耗的各种精力，要当网红一定被人骂。俞敏洪就讲说，我做网红这段时间里头，把这一辈子或多少辈子该挨的骂我都挨过了，那这就是你要去承担的这个压力。那么，从网红成长成 CEO 的是哪些人呢？董宇辉，对吧？原来是个网红，现在是与辉同行的 CEO 了。辛巴，辛巴甄选的 CEO。疯狂小杨哥，其实疯狂小杨哥还不是他们公司的 CEO，但实际上他说了算数的。这些人是从网红成长起来的企业家吧。

那是你说有没有跨界的？也有，谁？罗永浩，他算跨界的。那么 CEO 做直播最大的问题真的是说主次不分吗？真的是说这个你有更重要的事情没做吗？其实不是，这个钟睒睒自己不怎么做直播，他其实并不太了解 CEO 做直播里头真正的问题是什么。CEO 做直播最大的问题叫做利益冲突。什么意思呢？就是你作为一个 CEO，可能并不是这个公司的最大股东，对吧？那么你应该是照顾所有股东的利益。但是你一旦开始做直播了，等于是把这个 CEO 跟整个公司 100% 的股权、所有的利益进行捆绑了。那么到最后他就很容易去绑架股东。你比如说，雷军现在是代表小米了，哪天雷军说我不想干了，那怎么办？或者小米的董事会、小米的股东会说我们不想让雷军在这干了，那怎么办？那雷军身上所聚集的这种品牌效应、所聚集的所有的品牌价值，是跟着雷军走呢，还是跟着小米走呢？这个问题是无解的，就是所有 CEO 做直播里头必须要面对的，其实是这样的一个很现实的股权和利益冲突的问题。

再往后，说电商跟低价的问题如何解决？农夫山泉本身这个产品，其实并没有那么适合做电商，为什么？因为运输成本占比例太高。

因为你想，这一瓶水多少钱？卖不了多少钱。这是我在小店里买的，3块钱。你就算是在超市里头买，比如能够买到2块钱，那你想，这玩意多了沉啊？你要把它运过来，很费劲的。那么在这样的一个环境下，他就必须要给小店的铺货体系给足够的利益，跟他们绑定。什么意思？这些小店，农夫山泉的水不是可以随便买的。你必须要找一帮人，愿意下苦力气干活的人，他们愿意给你把水送来。你要给他们利益，要给他们钱的。那么在这样的情况下，你才可以让整个的体系运转起来。

你一旦进行了这样的多层级的利益绑定，再进入电商，你就没法整了。因为电商要求你非常灵活地去调整价格。你要灵活调整价格，中间这帮人怎么活？他是没法整的。低价竞争，农夫山泉不是不做，他也做。只是农夫山泉在各种分层价格体系这种架构下，如果做这种很灵活很多变的价格调整，他是容易崩盘的。在维持基本的品质下，再进行低价竞争这件事呢，企业负责低价竞争，真正应该维持基本品质的是政府。企业只管遵纪守法就好了。企业自己其实是没有这样的一个动力来去维护产品的品质了。如果政府不要求，那企业一定是卷到死，这个没什么办法。

所以，农夫山泉最后出来呼吁说，政府，你得管管，大概也就如此。最后，咱总结一下，时代在进步，CEO是不是去直播这件事呢？本身并没有那么重要。CEO直播呢，算是CEO管理公司或者运营公司中的一条可选择路径。但是呢，这是一条非常艰难的路径，绝不是简单的路径。它要比原来的那种我们说做三件事的CEO难度要高得多，而且并不是每一个CEO都适合干这个事。CEO们可以去尝试一下，看看你的性格或者说你的能力是不是适合来干这个事。如果适合，你再去取舍，说这个事划算不划算。所以，每个企业有自己的选择，没有必要说我瞧不起别人，不去做直播就不是好CEO了，或者我瞧不起这些做直播的CEO，这件事都没有必要。

就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。