昨天,Sora短暂的泄露。但是,我们真的还需要等待Sora吗?大家好,欢迎收听老范讲故事的YouTube频道。在今年2月份,Open AI公布了他们的Sora大模型之后,大家一直在等待这个产品的正式发布。但是,等到了现在,已经到年底了。很多跟随Sora的产品都已经上线,都已经有很多用户开始使用了,Sora自己还遥遥无期。
在这样的一个时间点里,突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去,短暂的开放了一段时间。这些艺术家呢,还发表了一封公开信,表达了自己对于Open AI的各种剥削的不满。Open AI呢,及时发现,在一小时之后封闭了接口,说你们就到这吧;然后也出来做了一些解释,表示这些艺术家们都是跟我们一起去合作的,他们都是自愿参加的,没有什么强迫。大概也是讲了一些这种片汤话。
至于Sora什么时候能发布,人家也没有再继续提供更进一步的信息。那么,这一次泄露出来的呢,是Sora的Turbo版本。Turbo是轻量级快速的版本,就是不是一个全尺寸的模型,参数呢也并不是很突出。2月份,Sora当时号称自己是世界模型,可以仿真出世界来的,当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处,超过一分钟都属于超长镜头,电影里头用这种镜头其实也不是那么多。这一次呢,只提供了1080P、720P、360P三种的分辨率,然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的,现在的视频生成模型基本上都是5到10秒钟。
那么,艺术家们为什么干这么个事呢?原因呢也很简单。有一句话叫“富贵不归乡,如锦衣夜行”。什么意思呢?有钱了得回家显摆显摆去,要不然的话就跟穿了个好衣服,晚上出门没人看见那是一样的。对于这帮艺术家们来说,有了一个好东西,你又不让他们显摆,这肯定是非常非常不爽的。
那公开信里都写了什么呢?他写了说,艺术家们年初呢就被邀请加入了。艺术家们加入呢,是分为三种不同的角色。第一个呢叫早期测试者,估计呢就是最一开始的一批人,还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员,这是干嘛使的。视频模型非常害怕一件事情,就是生成一些有害视频,色情、暴力、虚假或者版权侵害什么这样的视频。所以呢,需要一些成员说,你不断的向他提这样的要求,看看能不能都识别出来,拒绝服务,或者怎么能够规避,怎么能绕过,这个叫红队成员。
第三种呢叫创意合作伙伴。Sora每过一段时间呢,会发出一些样板视频来,那意思什么?他说,你看我还活着呢,我还在继续往前走,你们其他人怎么追赶也追不上。现在呢,这些艺术家们感觉被骗了,为什么呢?因为付出很多,Sora这种模型绝对没有那么好使。不是说它输出的东西不好,而是说你要想使用这个模型,需要付出的努力一定是非常艰巨的,因为你需要向它描述你到底要一个什么样的视频,它不像是我们普通人去使用图片生成模型式的,那我们只要写一个提示词,生成出来大差不差的我就能用。
这些人是艺术家,之所以他能成为艺术家,一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说,想要让这种视频模型输出了自己能够满意的产品,或者叫作品吧,这个事本身是非常难的。所以呢,他说,我们付出了很多,但是发表的作品呢又非常难,因为他们发表作品一定是经过层层筛选,甚至是竞赛,然后呢再要经过Open AI的审核,才有极少的一部分作品可以发表。
即使是有作品被发表展示了,这些艺术家们呢,应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说,大家觉得这个事有点太不公平了。而且这么长时间,你要说时间短了还可以,Sora大模型的发布又遥遥无期。这个就相当于什么?就是一帮人进去打测试服的游戏去了,结果呢始终也不给你公测,或者始终也不给你进正式上线。大家只能在里边参加各种删号测试,然后所有的测试还需要签保密协议,你还不能出来说,这个时间长了以后一定会造反的。
艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间,他们会在这么多艺术家,可能300多个艺术家里头,挑选那么几个作品放出来,说你看,这就是Sora现在能够达到的成就,你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作,并不是Sora本身模型到底有多好。
再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议,这个实在是对于艺术家们来说太不友好了。而且呢,呼吁艺术家们开始使用开源的视频模型,说现在有很多开源模型已经可以用了,效果还不错。这就是他们的一个公开信。
现在呢,Open AI内部动荡不断,Sora到底什么时候能发布,还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度,Open AI呢是可以接受的,但是艺术家们肯定接受不了。最后呢,就是艺术家毕竟不是工程师,不是律师,不是会计师,不是其他的这种社畜。如果他们完全按照逻辑,按照大家签的协议去做事的话,就不是艺术家了。
所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议,但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去,让大家都瞅了这么一眼。当然,现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢,现在不知道,因为Open AI绝对是社交媒体公关大师,不停的玩各种奇怪的事情。
也许过一段时间,人家就突然就发布了,发现这个江湖上又没有哥的声音再传播了,咱们得再整出点幺蛾子出来,这个都难说。艺术家们在一个网站上开始征集签名,说来,你们谁支持我。这个里边还有一个签名的人,号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证,所以也不知道这个是真是假。
那么,视频生成为什么这么费劲呢?Open AI在年初的时候,就2月份的时候,已经为全世界整个的AIGC行业指明了方向,这个贡献还是非常巨大的,我们要承认。但是呢,视频生成本身的难度是很大的。第一个呢,就是内容合理性,其实很难保持。六个手指头、七个手指头,手长得很奇怪。图片生成模型既然已经有这种问题了,那么视频生成模型有同样的手指头问题,或者各种的合理性问题,这个都是很正常的,避免不了的。
还有就是物理破膜的问题。咱们做过3D动画的人都知道,经常是就会出现这种叫物理破膜。什么叫物理破膜?你比如说你穿了件衣服,里边呢有个人,但是呢,在做一些动作的时候,里边的肢体就会从衣服外边撑出来。在视频模型生成的时候,有可能也会发生同样的事情,包括一些解剖学错误。比如说,这个脚要往前走的时候,应该膝盖往后弯的。但是呢,你怎么能够把这个膝盖必须往后弯这件事告诉大模型,让他每一次生成的时候都向后弯,这个挺难的。
我们看过很多视频模型生成的这种内容,两条腿突然走着走着就变三条了,或者是这个两条腿迈着迈着他都变成左脚了,都变成右脚。在图像生成模型上也会出现这种问题,视频生成模型更加难以避免。这个是第一个问题。
第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题,到视频生成模型依然难以搞定。现在呢,在图片生成模型的一致性上已经好一点。什么叫一致性?比如说,你说让老范讲故事这张脸出现在不同的角色身上,或者是不同的艺术风格上,现在图片生成模型有一些方法,比如说自己去训练小模型,这个方式是可以让这个脸稍微的稳定一点的。
脸是一方面,然后这个身材,身上的衣服各种配饰,你要让所有的这些图片都很稳定的保持一致性,这个很难。像一个视频,一秒钟25帧到30帧,你要保证每一帧上,比如说这里都带着一个麦克风,这个对于他们来说非常非常难以控制和把握。
再往后呢,就是算力成本实在太高了。图片生成,现在我们画一幅1080P的这种图像吧,大概就需要几个美分。那你想一秒钟25帧到30帧的视频,他需要多少算力?大家去做各种测试和实验的时候,这个成本是非常非常高。当然了,这个还不是困扰视频生成本身的最大难题。
更大的难题是什么呢?就是视频要好看。最后生成完了以后,视频难看,没有人愿意看,没有人愿意传播,这个本身是没有任何意义和价值的。现在呢,做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好;第二个层面是什么?就是怎么去操控,我到底应该用一些什么样的方式对话吗,上传图片吗,然后一大堆菜单和选项吗,应该怎么能够让他进行顺畅的操作,把这个视频生成出来,这个其实非常难。
我记得在2014年的时候,有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现,这个实在太难了,因为最早的时候,视频编辑这件事情都是在视频编辑机,那是个硬件,在那个上面弄的。再往后呢,是在这种很专业的视频编辑电脑上面去操作,而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候,需要调控的东西实在太多了,非常麻烦。
这个大家想象一下,是否有人见过飞机驾驶舱?从头上到脚下,你身边所有能看见的地方,全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像,大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了,你在有大模型的基础上,你也需要大量的这种开关选项、菜单或者是提示词,才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排,这个对于现在所有的这种做视频生成工具的人来说,都是极大的挑战。
到目前为止,没有特别好使的。在这么难操控的情况下,你要能保证输出出来的视频是有人愿意看的,这个难度就会更大一些。所以为什么这帮艺术家也说说,我们付出的努力极其艰巨呢,也是如此。他们想控制Sora这样的一个半成品,甚至可能都没有界面,你还需要去写代码,才可以让他跑起来的一个系统,让这样的系统去输出需要的视频,这个是非常非常麻烦的。
除了视频模型操作的问题之外,下一个问题就是视频安全性,风险要比图片、文字、音频都要大的多,甚至把所有的这些前面我们讲的这些风险都盛起来,都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题,就是看怎么能够把这些风险在发布之前尽可能地发现,尽可能地排除掉。这些风险包括色情、暴力、歧视性的,而且歧视性你不能出现的同时呢,你还不能矫枉过正。
像谷歌前面就是矫枉过正了,你跟他说,任何的提示词里边一定是有黄种人、有黑人、有白人,还有奇奇怪怪性别的人凑在一起,最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤,他们也是很头疼的。再往后什么欺诈,视频的欺诈,那要比文字欺诈、图片欺诈、声音欺诈都要吓人,因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。
我今天测试了一下,在剪映里边去使用真人数字人。什么叫真人数字人?就是有一个数字人在这讲话,但是呢你可以自己上传一张照片,说我现在让这个人去讲话。你要想做这个操作的话,剪映要干嘛?要去做人脸识别,保证你上传的这个照片是你自己,否则的话他就拒绝工作了。你说我今天上传一个雷军的,让他去骂人,去让他去做一些其他的事情,这个事他不干。当然,有其他的工具可以干这件事情。
现在雷军骂人也好,于东来骂人也好,这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外,还有一个问题叫版权纷争。你一旦是遇到了版权纷争,这个对于视频来说也很麻烦。什么叫版权纷争?比如说请给我按照宫崎骏的风格画一个什么东西,或者生成一个什么动漫,或者星球大战里的一个什么角色去做一个什么样的事情,或者说你现在请用马斯克的脸给我生成一个什么东西,这个呢都面临着版权纠纷,包括一些品牌和形象的纠纷,这些是需要去注意的。
那么,我们到底还需不需要等Sora呢?其实从达利3的这个角度上来看,我觉得我们完全不需要再去期待Sora了。为什么呢?我们看看Dalle3现在画图的效果。首先,咱们先说优点,文字理解还是相当不错的。当你给他一个很长的提示词的时候,他会把提示词中的各个部分都理解的很清楚,而且尽量的都给你画到这个图片上去,这个Dalle3算是最强的。但是,这个但是后边才是重点,艺术表现力非常的差。
甭管是跟最新的Flex比,还是跟Midjorney 6.1比,完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上,但是呢,画的过程还是比较粗糙的,稍微擦点边的都拒绝服务。你比如说,我要求给我按照迪士尼的3D风格画一个什么东西,马上拒绝。你说现在请给我按照日本漫画风格画,可以画出来;说现在请按照宫崎骏的风格给我画,马上拒绝。你只要提到任何人的名字,直接拒绝。
所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话,那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了,甭管是Runway,还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的,效果还可以。快手做的可灵效果其实也能够使用了,甚至在剪映内部也集成了视频直接生成的这种功能,这些呢已经可以达到一部分商业使用的能力了。
现在的各种亲友照片变成视频,这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来,给他一个提示词,说这个人现在笑了,这个人人说话了,这个人人吃东西了,这个已经有一定的传播力了。数字人呢也已经开始赚钱了,甭管是数字人直播,还是数字人带货,或者数字人骂街,这块已经可以跑了。
YouTube上呢,有很多的这种预告片开始吸引流量。什么意思?就是他经常告诉你说,现在哪一部大片后边要拍续集了,大家赶快去看呀。当你看了以后,发现是有很多的前作剪辑,然后再加上一些AI生成的内容,拼凑起来的一个,你也不能说他粗制滥造,有的做的还可以,这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集,上预告片了,我先得看谁发布的。如果不是原来那个电影的制作公司发布的,我就直接跳过不看了,很容易上当受骗。
现在很多的漫画小说详解相关的视频,在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰,比如说雷军骂人,于东来骂人,甚至还有人把那个德国选择党的那个女党首,她的这个视频配上中文上来,讲一些比较激烈的这种话语吧,这个也是很容易骗到人的。
下一步的AI工具会是什么样的呢?第一个,专业应用级别呢,可能还是会有专门的人去做。就像现在我们,比如说在视频领域里头,我的这个视频处理都是用剪映的,但是呢,也还是有很多专业团队,会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展,说我们干脆就永远不再向公众开放了,就是直接签约给这些电影公司,让他们去用。用完了以后出了所有东西,你们自己负责任,跟我就没有关系了。这是一种方式。
半专业的应用呢,肯定还有待增强。普通人使用Sora这样的模型,或者使用其他的刚才我们说的吉梦也好,可灵也好,还是挺难使的。他们可能还需要在用户交互上,或者是工具上还要有待增强,这个大模型本身他们自己慢慢训就可以了。至于个人应用的话,是否能够爆发,我觉得应该还是可以爆发的,就是使用AI大模型生成视频的这种个人应用,但这个可能距离我们还稍微远一些。
这种半专业应用的话,应该正在路上。在吉梦也好,可灵也好,都在做手机APP,网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话,有可能会最先让我们看到成绩。
至于Open AI下边该干嘛去呢,我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大,它有一个非常重要的职策,就是为整个行业指明下一个方向。他指明了Sora这一个方向以后,大家就赶快都去出了一堆可灵也好,吉梦也好,Runway Pica,一大堆的这样的视频模型就出来了。
他说我们要做O1这种可以带推理的模型,然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ,通义千问做的推理模型,在32B的参数下吧,可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力,但是可以达到O1 Mini的能力,只有32B,那这个还是非常棒的一个东西。
所以再往下一个方向到底是什么?虽然很多的厂商也在尝试去摸索寻找新方向,但是呢都没有Open AI指的方向。他只要摇旗呐喊,大家就直接跟风往上冲,没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向,等指明了以后,全世界的厂商再顺着这个方向往前跑。
好,这是今天讲的故事。感谢大家收听,请帮忙点赞点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
昨天,Sora短暂的泄露。但是,我们真的还需要等待Sora吗?大家好,欢迎收听老范讲故事的YouTube频道。在今年2月份,Open AI公布了他们的Sora大模型之后,大家一直在等待这个产品的正式发布。但是,等到了现在,已经到年底了,很多跟随Sora的产品都已经上线,已经有很多用户开始使用了,而Sora自己还遥遥无期。
在这样的一个时间点里,突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去,短暂的开放了一段时间。这些艺术家还发表了一封公开信,表达了自己对于Open AI的各种剥削的不满。Open AI及时发现,在一小时之后封闭了接口,说你们就到这吧,然后也出来做了一些解释,说这些艺术家们都是跟我们一起去合作的,他们都是自愿参加的,没有什么强迫,大概也是讲了一些这种片汤话。
至于Sora什么时候能发布,人家也没有再继续提供更进一步的信息。那么,这一次泄露出来的呢,是Sora的Turbo版本。Turbo是轻量级快速的版本,参数也并不是很突出。2月份,Sora当时号称自己是世界模型,可以仿真出世界来的,当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处,超过一分钟都属于是超长镜头了,电影里头用这种镜头其实也不是那么多。
这一次只提供了1080P、720P、360P三种的分辨率,时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么,艺术家们为什么干这么个事呢?原因也很简单,有一句话叫“富贵不归乡,如锦衣夜行”。什么意思呢?有钱了得回家显摆显摆去,要不然的话就跟穿了个好衣服,晚上出门没人看见那是一样的。
对于这帮艺术家们来说,有了一个好东西,你又不让他们显摆,这肯定是非常非常不爽的。公开信里都写了什么呢?他写了说,艺术家们年初就被邀请加入,艺术家们加入是分为三种不同的角色。第一个叫早期测试者,估计就是最一开始的一批人,还没有进行详细的分工,你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员,这是干嘛使的?视频模型非常害怕一件事情,就是生成一些有害视频,色情、暴力、虚假,或者版权侵害什么这样的视频。
所以呢,需要一些成员说,你不断的向他提这样的要求,看看能不能都识别出来,拒绝服务,或者怎么能够规避,怎么能绕过,这个叫红队成员。第三种叫创意合作伙伴,Sora每过一段时间会发出一些样板视频来,那意思是什么?他说你看我还活着呢,我还在继续往前走,你们其他人怎么追赶也追不上。
现在,这些艺术家们感觉被骗了。为什么呢?因为付出很多,Sora这种模型绝对没有那么好使。不是说它输出的东西不好,而是说你要想使用这个模型,需要付出的努力一定是非常艰巨的,因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的,那我们只要写一个提示词,生成出来大差不差的,我就能用。
这些人是艺术家,之所以他能成为艺术家,一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说,想要让这种视频模型输出了自己能够满意的产品或者叫作品吧,这个事本身是非常难的。所以呢,他说,我们付出了很多,但是发表的作品又非常难,因为他们发表作品一定是经过层层筛选,甚至是竞赛,然后再要经过Open AI的审核,才有极少的一部分作品可以发表。
即使是有作品被发表展示了,这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说,大家觉得这个事有点太不公平了。而且这么长时间,你要说时间短了还可以,Sora大模型的发布又遥遥无期,这就相当于什么,就是一帮人进去打测试服的游戏去了,结果始终也不给你公测,或者始终也不给你进正式上线,大家只能在里边参加各种删号测试。
然后,所有的测试还需要签保密协议,你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头,每过一段时间,他们会在这么多艺术家,可能300多个艺术家里头,挑选那么几个作品放出来,说你看,这就是Sora现在能够达到的成就,你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作,并不是Sora本身模型到底有多好。
再往后呢,是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议,这个实在是对于艺术家们来说太不友好了。而且呢,呼吁艺术家们开始使用开源的视频模型,说现在有很多开源模型已经可以用了,效果还不错,这就是他们的一个公开信。
现在,Open AI内部动荡不断,Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度,Open AI是可以接受的,但是艺术家们肯定接受不了。最后,艺术家毕竟不是工程师,不是律师,不是会计师,不是其他的这种社畜。如果他们完全按照逻辑,按照大家签的协议去做事的话,就不是艺术家了。
所以,他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议,但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去,让大家都瞅了这么一眼。当然,现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢,现在不知道,因为Open AI绝对是社交媒体公关大师,不停的玩各种奇怪的事情。
也许过一段时间,人家就突然就发布了,发现这个江湖上又没有哥的声音再传播了,咱们得再整出点幺蛾子出来,这个都难说。这些艺术家们在一个网站上开始征集签名,说来你们谁支持我。这个里边还有一个签名的人,号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证,所以也不知道这个是真是假。
那么,视频生成为什么这么费劲呢?Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向,这个贡献还是非常巨大的,我们要承认。但是呢,视频生成本身的难度是很大的。第一个就是内容合理性,其实很难保持。六个手指头、七个手指头,手长得很奇怪,图片生成模型既然已经有这种问题了,那么视频生成模型有同样的手指头问题,或者各种的合理性问题,这个都是很正常的,避免不了的。
还有就是物理破膜的问题。咱们做过3D动画的人都知道,经常是就会出现这种叫物理破膜。什么叫物理破膜?你比如说,你穿了件衣服,里边有个人,但是呢,人在做一些动作的时候,里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候,有可能也会发生同样的事情,包括一些解剖学错误,比如说这个脚要往前走的时候,应该膝盖是往后弯的。但是呢,你怎么能够把这个膝盖必须往后弯这件事告诉大模型,让他每一次生成的时候都向后弯,这个挺难的。
我们看过很多视频模型生成的这种内容,两条腿突然走着走着就变三条了,或者是这两条腿迈着迈着它都变成左脚了,或者是变成右脚。在图像生成模型上,也会出现这种问题,视频生成模型更加难以避免。这是第一个问题,第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题,到视频生成模型依然难以搞定。
现在在图片生成模型的一致性上已经好一点。什么叫一致性?比如说你说让老范讲故事这张脸出现在不同的角色身上,或者是不同的艺术风格上,现在图片生成模型有一些方法,比如说自己去训练小模型,这个方式是可以让这个脸稍微的稳定一点的。脸是一方面,然后这个身材,身上的衣服各种配饰,你要让所有的这些图片都很稳定的保持一致性,这个很难。
像一个视频,一秒钟25帧到30帧,你要保证每一帧上,比如说这里都带着一个麦克风,这个对于他们来说非常非常难以控制和把握。再往后呢,算力成本实在太高了。图片生成,现在我们画一幅1080P的这种图像吧,大概就需要几个美分。那你想一秒钟25帧到30帧的视频,它需要多少算力?大家去做各种测试和实验的时候,这个成本是非常非常高。
当然了,这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢?就是视频要好看。最后生成完了以后,视频难看,没有人愿意看,没有人愿意传播,这个本身是没有任何意义和价值的。现在,做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好;第二个层面是什么?就是怎么去操控,我到底应该用一些什么样的方式,对话吗?上传图片吗?然后一大堆菜单和选项吗?应该怎么能够让他进行顺畅的操作,把这个视频生成出来,这个其实非常难。
我记得在2014年的时候,有大量的团队尝试去做手机端的视频编辑软件,这个时候就发现,这个实在太难了,因为最早的时候,视频编辑这件事情都是在视频编辑机,那是个硬件,在那个上面弄的。再往后呢,是在这种很专业的视频编辑电脑上面去操作,而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候,需要调控的东西实在太多了,非常麻烦。
这个大家想象一下,是否有人见过飞机驾驶舱,从头到脚下,你身边所有能看见的地方,全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像,大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了,你在有大模型的基础上,你也需要大量的这种开关选项、菜单或者是提示词,才能够告诉大模型我们到底要生成什么样的视频。
这些交互的过程应该如何去安排,这个对于现在所有的这种做视频生成工具的人来说,都是极大的挑战。到目前为止,没有特别好使的。在这么难操控的情况下,你要能保证输出出来的视频是有人愿意看的,这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢,也是如此。他们想控制Sora这样的一个半成品,甚至可能都没有界面,你还需要去写代码,才可以让他跑起来的一个系统,让这样的系统去输出需要的视频,这个是非常非常麻烦的。
除了视频模型操作的问题之外,下一个问题就是视频安全性,风险要比图片、文字、音频都要大的多,甚至把所有的这些前面我们讲的这些风险都盛起来,都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题,就是看怎么能够把这些风险在发布之前尽可能地发现,尽可能地排除掉。这些风险包括色情、暴力、歧视性的,而且歧视性你不能出现的同时呢,你还不能矫枉过正。
像谷歌前面就是矫枉过正了。你跟他说,任何的提示词里边一定是有黄种人、有黑人、有白人,还有奇奇怪怪性别的人凑在一起,最后被骂的直接把这个接口封掉了。所以,这个到底掌握到什么步骤,他们也是很头疼的。再往后什么欺诈,视频的欺诈,那要比文字欺诈、图片欺诈、声音欺诈都要吓人,因为他真的像真的一样。
因为这个东西完全可以以假乱真。我今天测试了一下,在剪映里边去使用真人数字人。什么叫真人数字人?就是有一个数字人在这讲话,但是你可以自己上传一张照片,说我现在让这个人去讲话。你要想做这个操作的话,剪映要干嘛?要去做人脸识别,保证你上传的这个照片是你自己,否则的话他就拒绝工作了。
你说我今天上传一个雷军的,让他去骂人,去让他去做一些其他的事情,这个事他不干。当然,有其他的工具可以干这件事情。现在雷军骂人也好,于东来骂人也好,这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外,还有一个问题叫版权纷争。你一旦是遇到了版权纷争,这对于视频来说也很麻烦。
什么叫版权纷争?比如说请给我按照宫崎骏的风格画一个什么东西,或者生成一个什么动漫,或者星球大战里的一个什么角色去做一个什么样的事情,或者说你现在请用马斯克的脸给我生成一个什么东西,这个都面临着版权纠纷,包括一些品牌和形象的纠纷,这些是需要去注意的。
那么,我们到底还需不需要等Sora呢?其实从达利3的这个角度上来看,我觉得我们完全不需要再去期待Sora了。为什么呢?我们看看Dalle3现在画图的效果。首先,咱们先说优点,文字理解还是相当不错的。当你给他一个很长的提示词的时候,他会把提示词中的各个部分都理解得很清楚,而且尽量的都给你画到这个图片上去,这个Dalle3算是最强的。
但是,这个但是后边才是重点,艺术表现力非常的差。甭管是跟最新的Flex比,还是跟Midjorney 6.1比,完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上,但是呢,画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。
你比如说,我要求给我按照迪士尼的3D风格画一个什么东西,马上拒绝。你说现在请给我按照日本漫画风格画,可以画出来;说现在请按照宫崎骏的风格给我画,马上拒绝。你只要提到任何人的名字,直接拒绝。说现在请按照哪一个漫画里的这个情节,七龙珠的漫画情节给我画一个东西,马上拒绝。请给我画个什么星球大战、什么米老鼠,马上拒绝。
所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话,那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了,甭管是Runway,还是国内能够使用的吉梦,吉梦是剪映下面的字节跳动做的,效果还可以。快手做的可灵效果其实也能够使用了,甚至在剪映内部也集成了视频直接生成的这种功能,这些已经可以达到一部分商业使用的能力了。
现在的各种亲友照片变成视频,这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来,给他一个提示词,说这个人现在笑了,这个人人说话了,这个人人吃东西了,这个已经有一定的传播力了。数字人呢也已经开始赚钱了,甭管是数字人直播,还是数字人带货,或者数字人骂街,这块已经可以跑了。
YouTube上有很多的这种预告片开始吸引流量。什么意思呢?就是他经常告诉你说,现在哪一部大片后边要拍续集了,大家赶快去看呀。当你看了以后,发现是有很多的前作剪辑,然后再加上一些AI生成的内容,拼凑起来的一个,你也不能说他粗制滥造,有的做的还可以,这样的一个视频我已经被这种视频骗了好多回了。
我现在再看到说哪个大片要准备拍续集,上预告片了,我先得看谁发布的。如果不是原来那个电影的制作公司发布的,我就直接跳过不看了,很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了,所以这块已经走入了商业化。
那么,以假乱真也造成了很多的困扰,比如说雷军骂人,于东来骂人,甚至还有人把那个德国选择党的那个女党首,她的这个视频配上中文上来,讲一些比较激烈的这种话语,这个也是很容易骗到人的。下一步的AI工具会是什么样的呢?第一个专业应用级别,可能还是会有专门的人去做。
就像现在我们,比如说在视频领域里头,我的视频处理都是用剪映的,但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展,说我们干脆就永远不再向公众开放了,就是直接签约给这些电影公司,让他们去用。用完了以后出了所有东西,你们自己负责任,跟我就没有关系了,这是一种方式。
半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型,或者使用其他的刚才我们说的吉梦也好,可灵也好,还是挺难使的,他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身,他们自己慢慢训就可以了。至于个人应用的话,是否能够爆发,我觉得应该还是可以爆发的,就是使用AI大模型生成视频的这种个人应用,但是呢,这个可能距离我们还稍微远一些。
这种半专业应用的话,应该正在路上。在吉梦也好,可灵也好,都在做手机APP,网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合,这一块的话,有可能会最先让我们看到成绩。
至于Open AI下边该干嘛去呢?我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大,它有一个非常重要的职策,就是为整个行业指明下一个方向。他指明了Sora这一个方向以后,大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica,一大堆的这样的视频模型就出来了。
他说我们要做O1这种可以带推理的模型,然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ,通义千问做的推理模型,在32B的参数下吧,可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力,但是可以达到O1 Mini的能力,只有32B,那这个还是非常棒的一个东西。
所以再往下一个方向到底是什么?虽然很多的厂商也在尝试去摸索寻找新方向,但是呢,都没有Open AI指的方向。他只要摇旗呐喊,大家就直接跟风往上冲,没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向,等指明了以后,全世界的厂商再顺着这个方向往前跑。
好,这是今天讲的故事。感谢大家收听,请帮忙点赞点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
昨天,Sora短暂的泄露。但是,我们真的还需要等待Sora吗?大家好,欢迎收听老范讲故事的YouTube频道。在今年2月份,Open AI公布了他们的Sora大模型之后,大家一直在等待这个产品的正式发布。但是,等到了现在,已经到年底了,很多跟随Sora的产品都已经上线,都已经有很多用户开始使用了,Sora自己还遥遥无期。
在这样的一个时间点里,突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去,短暂的开放了一段时间。这些艺术家呢,还发表了一封公开信,表达了自己对于Open AI的各种剥削的不满。Open AI呢,及时发现,在一小时之后封闭了接口,说你们就到这吧,然后也出来做了一些解释,称这些艺术家们都是跟我们一起去合作的,他们都是自愿参加的,没有什么强迫,大概也是讲了一些这种片汤话。
至于Sora什么时候能发布,人家也没有再继续提供更进一步的信息。那么,这一次泄露出来的呢,是Sora的Turbo版本。Turbo是轻量级快速的版本,不是一个全尺寸的模型,参数呢也并不是很突出。2月份,Sora当时号称自己是世界模型吧,可以仿真出世界来的,当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处,超过一分钟都属于是超长镜头了,电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率,然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。
现在的视频生成模型基本上都是5到10秒钟。那么,艺术家们为什么干这么个事呢?原因呢也很简单。有一句话叫“富贵不归乡,如锦衣夜行”,什么意思呢?有钱了得回家显摆显摆去,要不然的话就跟穿了个好衣服,晚上出门没人看见那是一样的。对于这帮艺术家们来说,有了一个好东西,你又不让他们显摆,这肯定是非常非常不爽的。
那公开信里都写了什么呢?他写了说,艺术家们年初呢就被邀请加入了,艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者,估计呢就是最一开始的一批人,还没有进行详细的分工,你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员,这是干嘛使的?视频模型非常害怕一件事情,就是生成一些有害视频,色情、暴力、虚假呀,或者版权侵害什么这样的视频,所以呢需要一些成员说你不断的向他提这样的要求,看看能不能都识别出来,拒绝服务,或者怎么能够规避,怎么能绕过,这个叫红队成员。
第三种呢叫创意合作伙伴,Sora每过一段时间呢会发出一些样板视频来,那意思什么?他说你看我还活着呢,我还在继续往前走,你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了,为什么呢?因为付出很多,Sora这种模型绝对没有那么好使。不是说它输出的东西不好,而是说你要想使用这个模型,需要付出的努力一定是非常艰巨的,因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的,我们只要写一个提示词,生成出来大差不差的,我就能用。
这些人是艺术家,之所以他能成为艺术家,一定是他们对于自己的艺术产品有极高的要求。所以,对于他们来说,想要让这种视频模型输出了自己能够满意的产品,或者叫作品吧,这个事本身是非常难的。所以呢,他们说:“我们付出了很多,但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选,甚至是竞赛,然后呢再要经过Open AI的审核,才有极少的一部分作品可以发表。
即使是有作品被发表展示了,这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说,大家觉得这个事有点太不公平了。而且这么长时间,你要说时间短了还可以,Sora大模型的发布又遥遥无期。这个就相当于什么?就是一帮人进去打测试服的游戏去了,结果呢始终也不给你公测,或者始终也不给你进正式上线,大家只能在里边参加各种删号测试。
然后,所有的测试还需要签保密协议,你还不能出来说,这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头,就是每过一段时间,他们会在这么多艺术家,可能300多个艺术家里头,挑选那么几个作品放出来,说你看,这就是Sora现在能够达到的成就,你们其他人就羡慕去吧。其实,这些呢是艺术家们的艰苦工作,并不是Sora本身模型到底有多好。
再往后呢,是呼吁Open AI可以更加开放,你不要上来就是签一大堆保密协议,这个实在是对于艺术家们来说太不友好了。而且呢,呼吁艺术家们开始使用开源的视频模型,说现在有很多开源模型已经可以用了,效果还不错,这就是他们的一个公开信。现在呢,Open AI内部动荡不断,Sora到底什么时候能发布还遥遥无期,仅仅依靠零星露出的作品保持社交媒体关注度,Open AI呢是可以接受的,但是艺术家们肯定接受不了。
最后呢,就是艺术家毕竟不是工程师,不是律师,不是会计师,不是其他的这种社畜。如果他们完全按照逻辑,按照大家签的协议去做事的话,就不是艺术家了。所以,他们就整了这么一个幺蛾子出来,你虽然跟我签了保密协议,但是我们就啪,把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去,让大家都瞅了这么一眼。
当然,现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢?现在不知道,因为Open AI绝对是社交媒体公关大师,不停的玩各种奇怪的事情。也许过一段时间,人家就突然就发布了,发现哎,这个江湖上又没有哥的声音再传播了,咱们得再整出点幺蛾子出来,这个都难说。
这些艺术家们在一个网站上开始征集签名,说来你们谁支持我。这个里边还有一个签名的人,号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证,所以也不知道这个是真是假。那么,视频生成为什么这么费劲呢?Open AI在年初的时候,就在2月份的时候,已经为全世界整个的AIGC行业指明了方向,这个贡献还是非常巨大的,我们要承认。
但是呢,视频生成本身的难度是很大的。第一个呢,就是内容合理性,其实很难保持。六个手指头、七个手指头,手长得很奇怪,图片生成模型既然已经有这种问题了,那么视频生成模型有同样的手指头问题,或者各种的合理性问题,这个都是很正常的,避免不了的。
还有就是物理破膜的问题。咱们做过3D动画的人都知道,经常是就会出现这种叫物理破膜。什么叫物理破膜?你比如说你穿了件衣服,里边呢有个人,但是呢人在做一些动作的时候,里边的肢体就会从衣服外边撑出来。在视频模型生成的时候,有可能也会发生同样的事情,包括一些解剖学错误,比如说这个脚要往前走的时候,应该膝盖是往后弯的。但是呢,你怎么能够把这个膝盖必须往后弯这件事告诉大模型,让他每一次生成的时候都向后弯?这个挺难的。
我们看过很多视频模型生成的内容,两条腿突然走着走着就变三条了,或者是这两条腿迈着迈着就都变成左脚了,变成右脚。在图像生成模型上,也会出现这种问题,视频生成模型更加难以避免。这是第一个问题。
第二个问题就是一致性可控性,这个呢其实也是从图像生成模型那边就遇到的问题,到视频生成模型依然难以搞定。现在呢,在图片生成模型的一致性上已经好一点。什么叫一致性?比如说你说让老范讲故事这张脸出现在不同的角色身上,或者是不同的艺术风格上,现在图片生成模型有一些方法,比如说自己去训练小模型,这个方式是可以让这个脸稍微的稳定一点的。
脸是一方面,然后这个身材,身上的衣服各种配饰,你要让所有的这些图片都很稳定的保持一致性,这个很难。像一个视频,一秒钟25帧到30帧,你要保证每一帧上,比如说这里都带着一个麦克风,这个对于他们来说非常非常难以控制和把握。
再往后呢,就是算力成本实在太高了。图片生成,现在我们画一幅1080P的这种图像吧,大概就需要几个美分。那你想一秒钟25帧到30帧的视频,他需要多少算力?大家去做各种测试和实验的时候,这个成本是非常非常高。当然了,这个还不是困扰视频生成本身的最大难题。
更大的难题是什么呢?就是视频要好看。最后生成完了以后,视频难看,没有人愿意看,没有人愿意传播,这个本身是没有任何意义和价值的。现在呢,做视频生成其实是在两个层面上大家在努力,第一个层面就是模型,怎么能够让模型更好;第二个层面是什么?就是怎么去操控,我到底应该用一些什么样的方式,对话吗,上传图片吗,然后一大堆菜单和选项吗?应该怎么能够让他进行顺畅的操作,把这个视频生成出来,这个其实非常难。
我记得在2014年的时候,有大量的团队尝试去做手机端的视频编辑软件,这个时候就发现,哎呀,这个实在太难了。因为最早的时候,视频编辑这件事情都是在视频编辑机,那是个硬件,在那个上面弄的。再往后呢,是在这种很专业的视频编辑电脑上面去操作,而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候,需要调控的东西实在太多了,非常麻烦。
这个大家想象一下,就是有没有人见过飞机驾驶舱?从头上到脚下,你身边所有能看见的地方,全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像,大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了,你在有大模型的基础上,你也需要大量的这种开关选项、菜单或者是提示词,才能够告诉大模型我们到底要生成什么样的视频。
这些交互的过程应该如何去安排,这个对于现在所有的这种做视频生成工具的人来说,都是极大的挑战。到目前为止没有特别好使的,在这么难操控的情况下,你要能保证输出出来的视频是有人愿意看的,这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢,也是如此。
他们想控制Sora这样的一个半成品,甚至可能都没有界面,你还需要去写代码,才可以让他跑起来的一个系统,让这样的系统去输出需要的视频,这个是非常非常麻烦的。除了视频模型操作的问题之外,下一个问题就是视频安全性,风险要比图片、文字、音频都要大的多,甚至把所有的这些前面我们讲的这些风险都盛起来,都没有视频所生成的这种风险更大。
咱们前面讲的红队要去处理的问题,就是看怎么能够把这些风险在发布之前尽可能地发现,尽可能地排除掉。这些风险包括色情、暴力、歧视性的,而且歧视性你不能出现的同时呢,还不能矫枉过正。像谷歌前面就是矫枉过正了,你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的,还有奇奇怪怪性别的人凑在一起,最后被骂的直接把这个接口封掉了。
所以这个到底掌握到什么步骤,他们也是很头疼的。再往后,什么欺诈?视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人,因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下,在剪映里边去使用真人数字人。什么叫真人数字人?就是有一个数字人在这讲话,但是呢,你可以自己上传一张照片,说我现在让这个人去讲话。
你要想做这个操作的话,剪映要干嘛?要去做人脸识别,保证你上传的这个照片是你自己,否则的话他就拒绝工作了。你说我今天上传一个雷军的,让他去骂人,去让他去做一些其他的事情,这个事他不干。当然,有其他的工具可以干这件事情。现在雷军骂人也好,于东来骂人也好,这种视频都是在满天飞的。
除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外,还有一个问题叫版权纷争。你一旦是遇到了版权纷争,这个对于视频来说也很麻烦。什么叫版权纷争?比如说请给我按照宫崎骏的风格画一个什么东西,或者生成一个什么动漫,或者星球大战里的一个什么角色去做一个什么样的事情,或者说你现在请用马斯克的脸给我生成一个什么东西,这个呢都面临着版权纠纷,包括一些品牌和形象的纠纷,这些是需要去注意的。
那么,我们到底还需不需要等Sora呢?其实从达利3的这个角度上来看,我觉得我们完全不需要再去期待Sora了。为什么呢?我们看看Dalle3现在画图的效果。首先,咱们先说优点,文字理解还是相当不错的。当你给他一个很长的提示词的时候,他会把提示词中的各个部分都理解得很清楚,而且尽量的都给你画到这个图片上去,这个Dalle3算是最强的。
但是,这个但是后边才是重点,艺术表现力非常的差。甭管是跟最新的Flex比,还是跟Midjourney 6.1比,完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上,但是呢,画的过程还是比较粗糙的,稍微擦点边的都拒绝服务。你比如说,我要求给我按照迪士尼的3D风格画一个什么东西,马上拒绝。你说现在请给我按照日本漫画风格画,可以画出来;说现在请按照宫崎骏的风格给我画,马上拒绝。
你只要提到任何人的名字,直接拒绝。说现在请按照哪一个漫画里的这个情节,七龙珠的漫画情节给我画一个东西,马上拒绝。请给我画个什么星球大战,什么米老鼠,马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话,那我觉得Sora是完全不值得期待的一个东西。
现在可以用的视频大模型其实已经不少了,甭管是Runway,还是国内能够使用的吉梦,吉梦是剪映下面的字节跳动做的,效果还可以。快手做的可灵效果其实也能够使用了,甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频,这种内容已经有很强的传播力了。
很多人会把一些过世亲友的照片拿出来,给他一个提示词,说这个人现在笑了,这个说话了,这个吃东西了,这个已经有一定的传播力了。数字人呢也已经开始赚钱了,甭管是数字人直播,还是数字人带货,或者数字人骂街,这块已经可以跑了。YouTube上呢,有很多的这种预告片开始吸引流量。什么意思呢?就是他经常告诉你说,现在哪一部大片后边要拍续集了,大家赶快去看呀。
当你看了以后,发现是有很多的前作剪辑,然后再加上一些AI生成的内容,拼凑起来的一个,你也不能说他粗制滥造,有的做的还可以,这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集,上预告片了,我先得看谁发布的。如果不是原来那个电影的制作公司发布的,我就直接跳过不看了,很容易上当受骗。
现在很多的漫画、小说详解相关的视频,在抖音、快手上也开始在盈利赚钱了,所以这块呢已经走入了商业化。那么,以假乱真也造成了很多的困扰,比如说雷军骂人,于东来骂人,甚至还有人把德国选择党的那个女党首的这个视频配上中文上来,讲一些比较激烈的这种话语吧,这个也是很容易骗到人的。
下一步的AI工具会是什么样的呢?第一个专业应用级别呢,可能还是会有专门的人去做,就像现在我们,比如说在视频领域里头,我的视频处理都是用剪映的。但是呢,也还是有很多专业团队会使用一些更复杂的这种视频工具,Sora以后可能就会向那个方向发展,说我们干脆就永远不再向公众开放了,就是直接签约给这些电影公司,让他们去用,用完了以后出了所有东西,你们自己负责任,跟我就没有关系了,这是一种方式。
半专业的应用呢肯定还有待增强,普通人使用Sora这样的模型,或者使用其他的,刚才我们说的吉梦也好,可灵也好,还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强,这个大模型本身他们自己慢慢训就可以了。至于个人应用的话,是否能够爆发,我觉得应该还是可以爆发的,就是使用AI大模型生成视频的这种个人应用,但这个可能距离我们还稍微远一些。
这种半专业应用的话,应该正在路上。在吉梦也好,可灵也好,都在做手机APP,网站的这种Web APP,也在尝试跟各自的这种视频编辑工具进行结合。这一块的话,有可能会最先让我们看到成绩。
至于Open AI下边该干嘛去呢?我们已经讲了,Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大,它有一个非常重要的职策,就是为整个行业指明下一个方向。他指明了Sora这一个方向以后,大家就赶快都去出了一堆可灵也好,吉梦也好,Runway Pica,一大堆的这样的视频模型就出来了。
他说我们要做O1这种可以带推理的模型,然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ,通义千问做的推理模型,在32B的参数下吧,可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力,但是可以达到O1 Mini的能力,只有32B,那这个还是非常棒的一个东西。
所以再往下一个方向到底是什么?虽然很多的厂商也在尝试去摸索寻找新方向,但是呢都没有Open AI指的方向。他只要摇旗呐喊,大家就直接跟风往上冲,没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向,等指明了以后,全世界的厂商再顺着这个方向往前跑。
好,这是今天讲的故事。感谢大家收听,请帮忙点赞点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
昨天,Sora短暂的泄露。但是,我们真的还需要等待Sora吗?大家好,欢迎收听老范讲故事的YouTube频道。在今年2月份,Open AI公布了他们的Sora大模型之后,大家一直在等待这个产品的正式发布。但是,等到了现在,已经到年底了,很多跟随Sora的产品都已经上线,都已经有很多用户开始使用了。Sora自己还遥遥无期。
在这样的一个时间点里,突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去,短暂的开放了一段时间。这些艺术家呢,还发表了一封公开信,表达了自己对于Open AI的各种剥削的不满。Open AI呢,及时发现,在一小时之后封闭了接口,说你们就到这吧,然后也出来做了一些解释,说这些艺术家们呢,都是跟我们一起去合作的,他们都是自愿参加的,没有什么强迫,大概也是讲了一些这种片汤话。
至于Sora什么时候能发布,人家也没有再继续提供更进一步的信息。那么,这一次泄露出来的呢,是Sora的Turbo版本。Turbo是轻量级快速的版本,就是不是一个全尺寸的模型,参数呢也并不是很突出。2月份,Sora当时号称自己是世界模型,可以仿真出世界来的。当时是可以出一分钟的视频的,虽然一分钟视频并没有那么大的用处,超过一分钟都属于是超长镜头了,电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率,然后时长呢就是5到10秒钟,实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。
现在的视频生成模型基本上都是5到10秒钟。那么,艺术家们为什么干这么个事呢?原因呢也很简单,有一句话叫“富贵不归乡,如锦衣夜行”。什么意思呢?有钱了得回家显摆显摆去,要不然的话就跟穿了个好衣服,晚上出门没人看见那是一样的。对于这帮艺术家们来说,有了一个好东西,你又不让他们显摆,这肯定是非常非常不爽的。
那公开信里都写了什么呢?他写了说,艺术家们年初呢就被邀请加入了,艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者,估计呢就是最一开始的一批人,还没有进行详细的分工,你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员,这是干嘛使的?视频模型非常害怕一件事情,就是生成一些有害视频,色情、暴力、虚假呀,或者版权侵害什么这样的视频,所以呢需要一些成员说,你不断的向他提这样的要求,看看能不能都识别出来,拒绝服务,或者怎么能够规避,怎么能绕过,这个叫红队成员。
第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来,那意思是什么?他说你看我还活着呢,我还在继续往前走,你们其他人怎么追赶也追不上。现在呢,这些艺术家们感觉被骗了,为什么呢?因为付出很多,Sora这种模型绝对没有那么好使。不是说它输出的东西不好,而是说你要想使用这个模型,需要付出的努力一定是非常艰巨的,因为你需要向它描述你到底要一个什么样的视频。
它不像是我们普通人去使用图片生成模型,式的那我们只要写一个提示词,生成出来大差不差的,我就能用。那些人是艺术家,之所以他能成为艺术家,一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说,想要让这种视频模型输出了自己能够满意的产品,或者叫作品吧,这个事本身是非常难的。
所以呢,他说哎,我们付出了很多,但是发表的作品呢又非常难,因为他们发表作品一定是经过层层筛选,甚至是竞赛,然后呢再要经过Open AI的审核,才有极少的一部分作品可以发表。即使是有作品被发表展示了,这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说,大家觉得这个事有点太不公平了。而且这么长时间,你要说时间短了还可以,Sora大模型的发布又遥遥无期。
这个就相当于什么?就是一帮人进去打测试服的游戏去了,结果呢始终也不给你公测,或者始终也不给你进正式上线,大家只能在里边参加各种删号测试,然后所有的测试还需要签保密协议,你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头,就是每过一段时间,他们会在这么多艺术家,可能300多个艺术家里头,挑选那么几个作品放出来,说你看,这就是Sora现在能够达到的成就,你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作,并不是Sora本身模型到底有多好。
再往后呢是呼吁Open AI可以更加开放,你不要上来就是签一大堆保密协议,这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型,说现在有很多开源模型已经可以用了,效果还不错。这就是他们的一个公开信。
现在呢,Open AI内部动荡不断,Sora到底什么时候能发布还遥遥无期,仅仅依靠零星露出的作品保持社交媒体关注度,Open AI呢是可以接受的,但是艺术家们肯定接受不了。最后呢,就是艺术家毕竟不是工程师,不是律师,不是会计师,不是其他的这种社畜。如果他们完全按照逻辑,按照大家签的协议去做事的话,就不是艺术家了。
所以他们就整了这么一个幺蛾子出来,你虽然跟我签了保密协议,但是我们就啪,把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去,让大家都瞅了这么一眼。当然,现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢,现在不知道,因为Open AI绝对是社交媒体公关大师,不停的玩各种奇怪的事情。
也许过一段时间,人家就突然就发布了,发现哎,这个江湖上又没有哥的声音再传播了,咱们得再整出点幺蛾子出来,这个都难说。艺术家们在一个网站上开始征集签名,说来你们谁支持我,这里边还有一个签名的人,号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证,所以也不知道这个是真是假。
那么,视频生成为什么这么费劲呢?Open AI在年初的时候,2月份的时候,已经为全世界整个的AIGC行业指明了方向,这个贡献还是非常巨大的,我们要承认。但是呢,视频生成本身的难度是很大的。第一个呢,就是内容合理性,其实很难保持。六个手指头、七个手指头,手长得很奇怪,图片生成模型既然已经有这种问题了,那么视频生成模型有同样的手指头问题,或者各种的合理性问题,这个都是很正常的,避免不了的。
还有就是物理破膜的问题,咱们做过3D动画的人都知道,经常是就会出现这种叫物理破膜。什么叫物理破膜?你比如说你穿了件衣服,里边呢有个人,但是呢人在做一些动作的时候呢,里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候,有可能也会发生同样的事情,包括一些解剖学错误,比如说这个脚要往前走的时候,应该膝盖是往后弯的。但是呢,你怎么能够把这个膝盖必须往后弯,这件事告诉大模型,让他每一次生成的时候都向后弯,这个挺难的。
我们看过很多视频模型生成的这种内容,两条腿突然走着走着就变三条了,或者是这个两条腿迈着迈着他都变成左脚了,都变成右脚。在图像生成模型上,也会出现这种问题,视频生成模型更加难以避免。这是第一个问题。
第二个问题就是一致性可控性,这个呢其实也是从图像生成模型那边就遇到的问题,到视频生成模型依然难以搞定。现在呢,在图片生成模型的一致性上已经好一点。什么叫一致性?比如说你说让老范讲故事这张脸出现在不同的角色身上,或者是不同的艺术风格上,现在图片生成模型有一些方法,比如说自己去训练小模型,这个方式是可以让这个脸稍微的稳定一点的。脸是一方面,然后这个身材,身上的衣服各种配饰,你要让所有的这些图片都很稳定的保持一致性,这个很难。
像一个视频,一秒钟25帧到30帧,你要保证每一帧上,比如说这里都带着一个麦克风,这个对于他们来说,非常非常难以控制和把握。再往后呢,就是算力成本实在太高了。图片生成,现在我们画一幅1080P的这种图像吧,大概就需要几个美分。那你想一秒钟25帧到30帧的视频,他需要多少算力?大家去做各种测试和实验的时候,这个成本是非常非常高。
当然了,这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢?就是视频要好看,最后生成完了以后视频难看,没有人愿意看,没有人愿意传播,这个本身是没有任何意义和价值的。现在呢,做视频生成其实是在两个层面上大家在努力,第一个层面就是模型,怎么能够让模型更好。第二个层面是什么?就是怎么去操控,我到底应该用一些什么样的方式,对话吗?上传图片吗?然后一大堆菜单和选项吗?应该怎么能够让他进行顺畅的操作,把这个视频生成出来,这个其实非常难。
我记得在2014年的时候,有大量的团队尝试去做手机端的视频编辑软件,这个时候就发现,哎呀,这个实在太难了。因为最早的时候,视频编辑这件事情都是在视频编辑机,那是个硬件,在那个上面弄的。再往后呢,是在这种很专业的视频编辑电脑上面去操作,而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候,需要调控的东西实在太多了,非常麻烦。
这个大家想象一下,就是有没有人见过飞机驾驶舱,从头上到脚下,你身边所有能看见的地方,全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像,大量的参数和开关选项需要设置,才能够得到你满意的视频。现在我们要做视频生成的这种工具了,你在有大模型的基础上,你也需要大量的这种开关选项、菜单或者是提示词,才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排,这个对于现在所有的这种做视频生成工具的人来说,都是极大的挑战。
到目前为止没有特别好使的。在这么难操控的情况下,你要能保证输出出来的视频是有人愿意看的,这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢,也是如此。他们想控制Sora这样的一个半成品,甚至可能都没有界面,你还需要去写代码,才可以让他跑起来的一个系统,让这样的系统去输出需要的视频,这个是非常非常麻烦的。
除了视频模型操作的问题之外,下一个问题就是视频安全性,风险要比图片、文字、音频都要大的多,甚至把所有的这些前面我们讲的这些风险都盛起来,都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题,就是看怎么能够把这些风险在发布之前尽可能地发现,尽可能地排除掉。这些风险包括色情、暴力、歧视性的,而且歧视性你不能出现的同时呢,你还不能矫枉过正。像谷歌前面就是矫枉过正了,你跟他说,任何的提示词里边一定是有黄种人、有黑人、有白人,还有奇奇怪怪性别的人凑在一起,最后被骂的直接把这个接口封掉了。
所以这个到底掌握到什么步骤,他们也是很头疼的。再往后什么欺诈?视频的欺诈,那要比文字欺诈、图片欺诈、声音欺诈都要吓人,因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下,在剪映里边去使用真人数字人。什么叫真人数字人?就是有一个数字人在这讲话,但是呢你可以自己上传一张照片,说我现在让这个人去讲话。你要想做这个操作的话,剪映要干嘛?要去做人脸识别,保证你上传的这个照片是你自己,否则的话他就拒绝工作了。
你说我今天上传一个雷军的,让他去骂人,去让他去做一些其他的事情,这个事他不干。当然有其他的工具可以干这件事情,现在雷军骂人也好,于东来骂人也好,这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外,还有一个问题叫版权纷争。你一旦是遇到了版权纷争,这个对于视频来说也很麻烦。什么叫版权纷争?比如说请给我按照宫崎骏的风格画一个什么东西,或者生成一个什么动漫,或者星球大战里的一个什么角色去做一个什么样的事情,或者说你现在请用马斯克的脸给我生成一个什么东西,这个呢都面临着版权纠纷,包括一些品牌和形象的纠纷,这些是需要去注意的。
那么,我们到底还需不需要等Sora呢?其实从达利3的这个角度上来看,我觉得我们完全不需要再去期待Sora了。为什么呢?我们看看Dalle3现在画图的效果。首先咱们先说优点,文字理解还是相当不错的。当你给他一个很长的提示词的时候,他会把提示词中的各个部分都理解的很清楚,而且尽量的都给你画到这个图片上去,这个Dalle3算是最强的。但是,这个但是后边才是重点,艺术表现力非常的差。
甭管是跟最新的Flex比,还是跟Midjorney 6.1比,完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上,但是呢,画的过程还是比较粗糙的,稍微擦点边的都拒绝服务。你比如说,我要求给我按照迪士尼的3D风格画一个什么东西,马上拒绝。你说现在请给我按照日本漫画风格画,可以画出来。说现在请按照宫崎骏的风格给我画,马上拒绝。你只要提到任何人的名字,直接拒绝。
所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话,那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了,甭管是Runway,还是国内能够使用的吉梦,吉梦是剪映下面的字节跳动做的,效果还可以。快手做的可灵效果其实也能够使用了,甚至在剪映内部,也集成了视频直接生成的这种功能,这些呢已经可以达到一部分商业使用的能力了。
现在的各种亲友照片变成视频,这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来,给他一个提示词,说这个人现在笑了,这个人人说话了,这个人人吃东西了,这个已经有一定的传播力了。数字人呢也已经开始赚钱了,甭管是数字人直播,还是数字人带货,或者数字人骂街,这块已经可以跑了。
YouTube上呢,有很多的这种预告片开始吸引流量。什么意思?就是他经常告诉你说,现在哪一部大片后边要拍续集了,大家赶快去看呀。当你看了以后,发现是有很多的前作剪辑,然后再加上一些AI生成的内容,拼凑起来的一个,你也不能说他粗制滥造,有的做的还可以。这样的一个视频,我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集,上预告片了,我先得看谁发布的。如果不是原来那个电影的制作公司发布的,我就直接跳过不看了,很容易上当受骗。
现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了,所以这块呢已经走入了商业化。那么,以假乱真也造成了很多的困扰,比如说雷军骂人、于东来骂人,甚至还有人把那个德国选择党的那个女党首,她的这个视频配上中文上来,讲一些比较激烈的这种话语吧,这个也是很容易骗到人的。
下一步的AI工具会是什么样的呢?第一个专业应用级别呢,可能还是会有专门的人去做,就像现在我们,比如说在视频领域里头,我的这个视频处理都是用剪映的。但是呢,也还是有很多专业团队会使用一些更复杂的这种视频工具,Sora以后可能就会向那个方向发展,说我们干脆就永远不再向公众开放了,就是直接签约给这些电影公司,让他们去用,用完了以后出了所有东西,你们自己负责任,跟我就没有关系了,这是一种方式。
半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型,或者使用其他的刚才我们说的吉梦也好、可灵也好,还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强,这个大模型本身他们自己慢慢训就可以了。至于个人应用的话,是否能够爆发,我觉得应该还是可以爆发的,就是使用AI大模型生成视频的这种个人应用,但这个可能距离我们还稍微远一些。
这种半专业应用的话,应该正在路上,在吉梦也好、可灵也好,都在做手机APP,网站的这种Web APP也在尝试,跟各自的这种视频编辑工具进行结合,这一块的话,有可能会最先让我们看到成绩。
至于Open AI下边该干嘛去呢?我们已经讲了,Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大,它有一个非常重要的职策,就是为整个行业指明下一个方向。他指明了Sora这一个方向以后,大家就赶快都去出了一堆,可灵也好、吉梦也好、Runway Pica,一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型,然后一堆的推理模型在这个后边就出来了。
今天我还装了一个叫QWQ,通义千问做的推理模型,在32B的参数下吧,可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力,但是可以达到O1 Mini的能力,只有32B,那这个还是非常棒的一个东西。
所以再往下一个方向到底是什么?虽然很多的厂商也在尝试去摸索寻找新方向,但是呢都没有Open AI指的方向。他只要摇旗呐喊,大家就直接跟风往上冲,没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向,等指明了以后,全世界的厂商再顺着这个方向往前跑。
好,这是今天讲的故事。感谢大家收听,请帮忙点赞点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
昨天,Sora短暂的泄露。但是,我们真的还需要等待Sora吗?大家好,欢迎收听老范讲故事的YouTube频道。在今年2月份,Open AI公布了他们的Sora大模型之后,大家一直在等待这个产品的正式发布。但是等到了现在,已经到年底了,很多跟随Sora的产品都已经上线,都已经有很多用户开始使用了,Sora自己还遥遥无期。
在这样的一个时间点里,突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去,短暂的开放了一段时间。这些艺术家呢,还发表了一封公开信,表达了自己对于Open AI的各种剥削的不满。Open AI呢,及时发现,在一小时之后封闭了接口,说你们就到这吧,然后也出来做了一些解释,说明这些艺术家们都是跟我们一起去合作的,他们都是自愿参加的,没有什么强迫,大概也是讲了一些这种片汤话。
至于Sora什么时候能发布,人家也没有再继续提供更进一步的信息。那么,这一次泄露出来的呢,是Sora的Turbo版本。Turbo是轻量级快速的版本,不是一个全尺寸的模型,参数呢也并不是很突出。2月份,Sora当时号称自己是世界模型,可以仿真出世界来的,当时是可以出一分钟的视频的,虽然一分钟视频并没有那么大的用处,超过一分钟都属于是超长镜头了,电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率,然后时长呢就是5到10秒钟,实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。
现在的视频生成模型基本上都是5-10秒钟。那么,艺术家们为什么干这么个事呢?原因呢也很简单,有一句话叫“富贵不归乡,如锦衣夜行”。什么意思呢?有钱了得回家显摆显摆去,要不然的话就跟穿了个好衣服,晚上出门没人看见那是一样的。对于这帮艺术家们来说,有了一个好东西,你又不让他们显摆,这肯定是非常非常不爽的。
那公开信里都写了什么呢?他写了说,艺术家们年初呢就被邀请加入了。艺术家们加入呢,是分为三种不同的角色。第一个呢叫早期测试者,估计呢就是最一开始的一批人,还没有进行详细的分工,你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员,这是干嘛使的?视频模型非常害怕一件事情,就是生成一些有害视频,色情、暴力、虚假呀,或者版权侵害什么这样的视频,所以呢需要一些成员说,你不断的向他提这样的要求,看看能不能都识别出来,拒绝服务,或者怎么能够规避,怎么能绕过。
这个叫红队成员。第三种呢叫创意合作伙伴,Sora每过一段时间呢会发出一些样板视频来,那意思是什么?他说你看我还活着呢,我还在继续往前走,你们其他人怎么追赶也追不上。现在呢,这些艺术家们感觉被骗了,为什么呢?因为付出很多,Sora这种模型绝对没有那么好使。不是说它输出的东西不好,而是说你要想使用这个模型,需要付出的努力一定是非常艰巨的,因为你需要向它描述你到底要一个什么样的视频。
它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词,生成出来大差不差的,我就能用。这些人是艺术家,之所以能成为艺术家,一定是他们对于自己的艺术产品有极高的要求。所以,对于他们来说,想要让这种视频模型输出自己能够满意的产品,或者叫作品吧,这个事本身是非常难的。
所以呢,他们说:“我们付出了很多,但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选,甚至是竞赛,然后呢再要经过Open AI的审核,才有极少的一部分作品可以发表。即使是有作品被发表展示了,这些艺术家们呢,应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说,大家觉得这个事有点太不公平了。而且这么长时间,你要说时间短了还可以,Sora大模型的发布又遥遥无期。
这个就相当于什么?就是一帮人进去打测试服的游戏去了,结果呢始终也不给你公测,或者始终也不给你进正式上线,大家只能在里边参加各种删号测试,然后所有的测试还需要签保密协议,你还不能出来说。这个时间长了以后一定会造反的。
艺术家们呢,就觉得他们成为了OpenAI的公关噱头。就是每过一段时间,他们会在这么多艺术家,可能300多个艺术家里头,挑选那么几个作品放出来,说你看,这就是Sora现在能够达到的成就,你们其他人就羡慕去吧。这些呢,其实是艺术家们的艰苦工作,并不是Sora本身模型到底有多好。再往后呢,是呼吁Open AI可以更加开放。
你不要上来就是签一大堆保密协议,这个实在是对于艺术家们来说太不友好了。而且呢,呼吁艺术家们开始使用开源的视频模型,表示现在有很多开源模型已经可以用了,效果还不错。这就是他们的一个公开信。
现在呢,Open AI内部动荡不断,Sora到底什么时候能发布还遥遥无期,仅仅依靠零星露出的作品保持社交媒体关注度,Open AI呢是可以接受的,但是艺术家们肯定接受不了。最后呢,就是艺术家毕竟不是工程师,不是律师,不是会计师,不是其他的这种社畜。如果他们完全按照逻辑,按照大家签的协议去做事的话,就不是艺术家了。
所以,他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议,但是我们就啪,把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去,让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢,现在不知道,因为Open AI绝对是社交媒体公关大师,不停的玩各种奇怪的事情。
也许过一段时间,人家就突然就发布了,发现哎,这个江湖上又没有哥的声音再传播了,咱们得再整出点幺蛾子出来,这个都难说。这些艺术家们在一个网站上开始征集签名,说来,你们谁支持我。这个里边还有一个签名的人,号称叫埃隆·马斯克。只是签名的过程呢,并不需要进行身份验证,所以也不知道这个是真是假。
那么,视频生成为什么这么费劲呢?Open AI在年初的时候,2月份的时候,已经为全世界整个的AIGC行业指明了方向,这个贡献还是非常巨大的,我们要承认。但是呢,视频生成本身的难度是很大的。第一个呢,就是内容合理性,其实很难保持。六个手指头、七个手指头,手长得很奇怪,图片生成模型既然已经有这种问题了,那么视频生成模型有同样的手指头问题,或者各种的合理性问题,这个都是很正常的,避免不了的。
还有就是物理破膜的问题。咱们做过3D动画的人都知道,经常是就会出现这种叫物理破膜。什么叫物理破膜?你比如说你穿了件衣服,里边呢有个人,但是呢人在做一些动作的时候,里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候,有可能也会发生同样的事情,包括一些解剖学错误,比如说这个脚要往前走的时候,应该膝盖是往后弯的。但是呢,你怎么能够把这个膝盖必须往后弯这件事告诉大模型,让他每一次生成的时候都向后弯?这个挺难的。
我们看过很多视频模型生成的这种内容,两条腿突然走着走着就变三条了,或者是这两条腿迈着迈着都变成左脚了,都变成右脚。在图像生成模型上也会出现这种问题,视频生成模型更加难以避免。这是第一个问题。
第二个问题就是一致性可控性,这个呢其实也是从图像生成模型那边就遇到的问题,到视频生成模型依然难以搞定。现在呢,在图片生成模型的一致性上已经好一点。什么叫一致性?比如说你说让老范讲故事这张脸出现在不同的角色身上,或者是不同的艺术风格上,现在图片生成模型有一些方法,比如说自己去训练小模型,这种方式是可以让这个脸稍微的稳定一点的。
脸是一方面,然后这个身材、身上的衣服、各种配饰,你要让所有的这些图片都很稳定的保持一致性,这个很难。像一个视频,一秒钟25帧到30帧,你要保证每一帧上,比如说这里都带着一个麦克风,这个对于他们来说非常非常难以控制和把握。
再往后呢,就是算力成本实在太高了。图片生成,现在我们画一幅1080P的这种图像吧,大概就需要几个美分。那你想一秒钟25帧到30帧的视频,他需要多少算力?大家去做各种测试和实验的时候,这个成本是非常非常高的。当然了,这个还不是困扰视频生成本身的最大的难题,更大的难题是什么呢?就是视频要好看。
最后生成完了以后视频难看,没有人愿意看,没有人愿意传播,这个本身是没有任何意义和价值的。现在呢,做视频生成其实是在两个层面上大家在努力。第一个层面就是模型,怎么能够让模型更好。第二个层面是什么?就是怎么去操控,我到底应该用一些什么样的方式,对话吗,上传图片吗,然后一大堆菜单和选项吗?应该怎么能够让他进行顺畅的操作,把这个视频生成出来,这个其实非常难。
我记得在2014年的时候,有大量的团队尝试去做手机端的视频编辑软件,这个时候就发现,哎呀,这个实在太难了。因为最早的时候,视频编辑这件事情都是在视频编辑机,那是个硬件,在那个上面弄的。再往后呢,是在这种很专业的视频编辑电脑上面去操作,而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候,需要调控的东西实在太多了,非常麻烦。
这个大家想象一下,有没有人见过飞机驾驶舱,从头上到脚下,你身边所有能看见的地方,全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像,大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了,你在有大模型的基础上,也需要大量的这种开关选项、菜单或者是提示词,才能够告诉大模型我们到底要生成什么样的视频。
这些交互的过程应该如何去安排,这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的,在这么难操控的情况下,你要能保证输出出来的视频是有人愿意看的,这个难度就会更大一些。所以为什么这帮艺术家也说,我们付出的努力极其艰巨呢?也是如此,他们想控制Sora这样的一个半成品,甚至可能都没有界面,你还需要去写代码,才可以让他跑起来的一个系统,让这样的系统去输出需要的视频,这个是非常非常麻烦的。
除了视频模型操作的问题之外,下一个问题就是视频安全性,风险要比图片、文字、音频都要大的多,甚至把所有的这些前面我们讲的这些风险都盛起来,都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题,就是看怎么能够把这些风险在发布之前尽可能地发现,尽可能地排除掉。这些风险包括色情、暴力、歧视性的,而且歧视性你不能出现的同时呢,你还不能矫枉过正。
像谷歌前面就是矫枉过正了。你跟他说,任何的提示词里边一定是有黄种人、有黑人、有白人,有男的、有女的,还有奇奇怪怪性别的人凑在一起,最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤,他们也是很头疼的。
再往后什么欺诈,视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人,因为他真的像真的一样。因为这个东西呢,完全的可以以假乱真。我今天测试了一下,在剪映里边去使用真人数字人。什么叫真人数字人?就是有一个数字人在这讲话,但是呢你可以自己上传一张照片,说我现在让这个人去讲话。
你要想做这个操作的话,剪映要干嘛?要去做人脸识别,保证你上传的这个照片是你自己,否则的话他就拒绝工作了。你说我今天上传一个雷军的,让他去骂人,去让他去做一些其他的事情,这个事他不干。当然有其他的工具可以干这件事情,现在雷军骂人也好,于东来骂人也好,这种视频都是在满天飞的。
除了前面我们讲的什么欺诈、血腥、暴力、歧视之外,还有一个问题叫版权纷争。你一旦是遇到了版权纷争,这个对于视频来说也很麻烦。什么叫版权纷争?比如说请给我按照宫崎骏的风格画一个什么东西,或者生成一个什么动漫,或者星球大战里的一个什么角色去做一个什么样的事情,或者说你现在请用马斯克的脸给我生成一个什么东西,这个呢都面临着版权纠纷,包括一些品牌和形象的纠纷,这些是需要去注意的。
那么,我们到底还需不需要等Sora呢?其实从达利3的这个角度上来看,我觉得我们完全不需要再去期待Sora了。为什么呢?我们看看Dalle3现在画图的效果。首先,咱们先说优点,文字理解还是相当不错的。当你给他一个很长的提示词的时候,他会把提示词中的各个部分都理解得很清楚,而且尽量的都给你画到这个图片上去,这个Dalle3算是最强的。
但是,这个但是后边才是重点,艺术表现力非常的差。甭管是跟最新的Flex比,还是跟Midjorney 6.1比,完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上,但是呢,画的过程还是比较粗糙的,稍微擦点边的都拒绝服务。你比如说,我要求给我按照迪士尼的3D风格画一个什么东西,马上拒绝。你说现在请给我按照日本漫画风格画,可以画出来;说现在请按照宫崎骏的风格给我画,马上拒绝。你只要提到任何人的名字,直接拒绝。
所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话,那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了,甭管是Runway,还是国内能够使用的吉梦,吉梦是剪映下面的字节跳动做的,效果还可以。快手做的可灵效果其实也能够使用了,甚至在剪映内部也集成了视频直接生成的这种功能,这些呢已经可以达到一部分商业使用的能力了。
现在的各种亲友照片变成视频,这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来,给他一个提示词,说这个人现在笑了,这个人人说话了,这个人吃东西了,这个已经有一定的传播力了。数字人呢,也已经开始赚钱了,甭管是数字人直播,还是数字人带货,或者数字人骂街,这块已经可以跑了。
YouTube上呢,有很多的这种预告片开始吸引流量。什么意思?就是他经常告诉你说现在哪一部大片后边要拍续集了,大家赶快去看呀。当你看了以后,发现是有很多的前作剪辑,然后再加上一些AI生成的内容,拼凑起来的一个,你也不能说他粗制滥造,有的做的还可以,这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集,上预告片了,我先得看谁发布的。如果不是原来那个电影的制作公司发布的,我就直接跳过不看了,很容易上当受骗。
现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了,所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰,比如说雷军骂人,于东来骂人,甚至还有人把那个德国选择党的那个女党首,她的这个视频配上中文上来,讲一些比较激烈的这种话语,这个也是很容易骗到人的。
下一步的AI工具会是什么样的呢?第一个专业应用级别呢,可能还是会有专门的人去做,就像现在我们,比如说在视频领域里头,我的这个视频处理都是用剪映的。但是呢,也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展,说我们干脆就永远不再向公众开放了,就是直接签约给这些电影公司,让他们去用。用完了以后出了所有东西,你们自己负责任,跟我就没有关系了,这是一种方式。
半专业的应用呢肯定还有待增强,普通人使用Sora这样的模型,或者使用其他的刚才我们说的吉梦也好,可灵也好,还是挺难使的。他们可能还需要在用户交互上,或者是工具上还要有待增强,这个大模型本身,他们自己慢慢训就可以了。至于个人应用的话,是否能够爆发,我觉得应该还是可以爆发的,就是使用AI大模型生成视频的这种个人应用,但这个可能距离我们还稍微远一些。
这种半专业应用的话,应该正在路上。在吉梦也好,可灵也好,都在做手机APP,网站的这种Web APP,也在尝试跟各自的这种视频编辑工具进行结合,这一块的话,有可能会最先让我们看到成绩。
至于Open AI下边该干嘛去呢?我们已经讲了,Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大,它有一个非常重要的职策,就是为整个行业指明下一个方向。他指明了Sora这一个方向以后,大家就赶快都去出了一堆可灵也好,吉梦也好,Runway Pica,一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型,然后一堆的推理模型在这个后边就出来了。
今天我还装了一个叫QWQ,通义千问做的推理模型,在32B的参数下吧,可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力,但是可以达到O1 Mini的能力,只有32B,那这个还是非常棒的一个东西。
所以再往下一个方向到底是什么,虽然很多的厂商也在尝试去摸索寻找新方向,但是呢都没有Open AI指的方向。他只要摇旗呐喊,大家就直接跟风往上冲,没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向,等指明了以后,全世界的厂商再顺着这个方向往前跑。
好,这是今天讲的故事,感谢大家收听,请帮忙点赞点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
昨天,Sora短暂的泄露。但是,我们真的还需要等待Sora吗?大家好,欢迎收听老范讲故事的YouTube频道。在今年2月份,Open AI公布了他们的Sora大模型之后,大家一直在等待这个产品的正式发布。但是等到了现在,已经到年底了,很多跟随Sora的产品都已经上线,都已经有很多用户开始使用了。Sora自己还遥遥无期。
在这样的一个时间点里,突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去,短暂的开放了一段时间。这些艺术家呢,还发表了一封公开信,表达了自己对于Open AI的各种剥削的不满。Open AI呢,及时发现,在一小时之后封闭了接口,说你们就到这吧,然后也出来做了一些解释,说这些艺术家们呢,都是跟我们一起去合作的,他们都是自愿参加的,没有什么强迫,大概也是讲了一些这种片汤话。
至于Sora什么时候能发布,人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢,是Sora的Turbo版本。Turbo是轻量级快速的版本,就是不是一个全尺寸的模型,参数呢也并不是很突出。2月份,Sora当时号称自己是世界模型,可以仿真出世界来的。当时是可以出一分钟的视频的,虽然一分钟视频并没有那么大的用处,超过一分钟都属于是超长镜头了,电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率,然后时长呢就是5到10秒钟,其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。
现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢?原因呢也很简单,有一句话叫“富贵不归乡,如锦衣夜行。”什么意思呢?有钱了得回家显摆显摆去,要不然的话就跟穿了个好衣服,晚上出门没人看见那是一样的。对于这帮艺术家们来说,有了一个好东西,你又不让他们显摆,这肯定是非常非常不爽的。
那公开信里都写了什么呢?他写了说,艺术家们年初呢就被邀请加入了,艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者,估计呢就是最一开始的一批人,还没有进行详细的分工,你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员,这是干嘛使的?视频模型非常害怕一件事情,就是生成一些有害视频,色情、暴力、虚假呀,或者版权侵害这样的视频,所以呢需要一些成员说,你不断的向他提这样的要求,看看能不能都识别出来,拒绝服务或者怎么能够规避,怎么能绕过,这个叫红队成员。
第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来,那意思是什么?他说你看我还活着呢,我还在继续往前走,你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了,为什么呢?因为付出很多,Sora这种模型绝对没有那么好使。不是说它输出的东西不好,而是说你要想使用这个模型,需要付出的努力一定是非常艰巨的,因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的,那我们只要写一个提示词,生成出来大差不差的,我就能用。
这些人是艺术家,之所以他能成为艺术家,一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说,想要让这种视频模型输出了自己能够满意的产品,或者叫作品吧,这个事本身是非常难的。于是他们说:“我们付出了很多,但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选,甚至是竞赛,然后呢再要经过Open AI的审核,才有极少的一部分作品可以发表。
即使是有作品被发表展示了,这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说,大家觉得这个事有点太不公平了。而且这么长时间,你要说时间短了还可以,Sora大模型的发布又遥遥无期。这个就相当于什么?就是一帮人进去打测试服的游戏去了,结果呢始终也不给你公测,或者始终也不给你进正式上线,大家只能在里边参加各种删号测试,然后所有的测试还需要签保密协议,你还不能出来说,这个时间长了以后一定会造反的。
艺术家们呢就觉得他们成为了OpenAI的公关噱头,就是每过一段时间,他们会在这么多艺术家,可能300多个艺术家里头,挑选那么几个作品放出来,说你看,这就是Sora现在能够达到的成就,你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作,并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放,你不要上来就是签一大堆保密协议,这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型,说现在有很多开源模型已经可以用了,效果还不错,这就是他们的一个公开信。
现在呢Open AI内部动荡不断,Sora到底什么时候能发布还遥遥无期,仅仅依靠零星露出的作品保持社交媒体关注度,Open AI呢是可以接受的,但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师,不是律师,不是会计师,不是其他的这种社畜。如果他们完全按照逻辑,按照大家签的协议去做事的话,就不是艺术家了。所以他们就整了这么一个幺蛾子出来,你虽然跟我签了保密协议,但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去,让大家都瞅了这么一眼。
当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢,现在不知道,因为Open AI绝对是社交媒体公关大师,不停的玩各种奇怪的事情。也许过一段时间,人家就突然就发布了,发现这个江湖上又没有哥的声音再传播了,咱们得再整出点幺蛾子出来,这个都难说。
这些艺术家们在一个网站上开始征集签名,谁支持我,这里边还有一个签名的人,号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证,所以也不知道这个是真是假。那么视频生成为什么这么费劲呢?Open AI在年初的时候,2月份的时候,已经为全世界整个的AIGC行业指明了方向,这个贡献还是非常巨大的,我们要承认。但是呢,视频生成本身的难度是很大的。
第一个呢就是内容合理性,其实很难保持。六个手指头、七个手指头,手长得很奇怪。图片生成模型既然已经有这种问题了,那么视频生成模型有同样的手指头问题,或者各种的合理性问题,这个都是很正常的,避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道,经常是就会出现这种叫物理破膜。什么叫物理破膜?你比如说你穿了件衣服,里边呢有个人,但是呢人在做一些动作的时候呢,里边的肢体就会从衣服外边撑出来。
你在视频模型生成的时候,有可能也会发生同样的事情,包括一些解剖学错误。比如说这个脚要往前走的时候,应该膝盖是往后弯的。但是呢,你怎么能够把这个膝盖必须往后弯这件事告诉大模型,让他每一次生成的时候都向后弯,这个挺难的。我们看过很多视频模型生成的这种内容,两条腿突然走着走着就变三条了,或者是这个两条腿迈着迈着他都变成左脚了,都变成右脚。在图像生成模型上,也会出现这种问题,视频生成模型更加难以避免。
这是第一个问题。第二个问题就是一致性可控性,这个呢其实也是从图像生成模型那边就遇到的问题,到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性?比如说你说让老范讲故事这张脸出现在不同的角色身上,或者是不同的艺术风格上。现在图片生成模型有一些方法,比如说自己去训练小模型,这个方式是可以让这个脸稍微的稳定一点的。脸是一方面,然后这个身材,身上的衣服各种配饰,你要让所有的这些图片都很稳定的保持一致性,这个很难。
像一个视频,一秒钟25帧到30帧,你要保证每一帧上,比如说这里都带着一个麦克风,这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧,大概就需要几个美分。那你想一秒钟25帧到30帧的视频,他需要多少算力?大家去做各种测试和实验的时候,这个成本是非常非常高。
当然了,这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢?就是视频要好看。最后生成完了以后视频难看,没有人愿意看,没有人愿意传播,这个本身是没有任何意义和价值的。现在呢做视频生成,其实是在两个层面上大家在努力。第一个层面就是模型,怎么能够让模型更好;第二个层面是什么?就是怎么去操控,我到底应该用一些什么样的方式对话吗,上传图片吗,然后一大堆菜单和选项吗?应该怎么能够让他进行顺畅的操作,把这个视频生成出来,这个其实非常难。
我记得在2014年的时候,有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现,哎呀,这个实在太难了,因为最早的时候,视频编辑这件事情都是在视频编辑机,那是个硬件,在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作,而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候,需要调控的东西实在太多了,非常麻烦。这大家想象一下,就是有没有人见过飞机驾驶舱?从头上到脚下,你身边所有能看见的地方,全都是各种各样的开关和仪表。
视频编辑其实跟这个过程很像,大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了,你在有大模型的基础上,也需要大量的这种开关选项、菜单或者是提示词,才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排,这个对于现在所有的这种做视频生成工具的人来说,都是极大的挑战。
到目前为止没有特别好使的。在这么难操控的情况下,你要能保证输出出来的视频是有人愿意看的,这个难度就会更大一些。所以为什么这帮艺术家也说说:“我们付出的努力极其艰巨呢?”也是如此。他们想控制Sora这样的一个半成品,甚至可能都没有界面,你还需要去写代码,才可以让他跑起来的一个系统,让这样的系统去输出需要的视频,这个是非常非常麻烦的。
除了视频模型操作的问题之外,下一个问题就是视频安全性,风险要比图片、文字、音频都要大得多,甚至把所有的这些前面我们讲的这些风险都盛起来,都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题,就是看怎么能够把这些风险在发布之前尽可能地发现,尽可能地排除掉。这些风险包括色情、暴力、歧视性的,而且歧视性你不能出现的同时呢,你还不能矫枉过正。像谷歌前面就是矫枉过正了,你跟他说,任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的,还有奇奇怪怪性别的人凑在一起,最后被骂的直接把这个接口封掉了。 所以这个到底掌握到什么步骤,他们也是很头疼的。
再往后什么欺诈,视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人,因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下,在剪映里边去使用真人数字人。什么叫真人数字人?就是有一个数字人在这讲话,但是呢你可以自己上传一张照片,说我现在让这个人去讲话。你要想做这个操作的话,剪映要干嘛?要去做人脸识别,保证你上传的这个照片是你自己,否则的话他就拒绝工作了。你说我今天上传一个雷军的,让他去骂人,去让他去做一些其他的事情,这个事他不干。 当然有其他的工具可以干这件事情,现在雷军骂人也好,于东来骂人也好,这种视频都是在满天飞的。
除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外,还有一个问题叫版权纷争。你一旦是遇到了版权纷争,这个对于视频来说也很麻烦。什么叫版权纷争?比如说请给我按照宫崎骏的风格画一个什么东西,或者生成一个什么动漫,或者星球大战里的一个什么角色去做一个什么样的事情,或者说你现在请用马斯克的脸给我生成一个什么东西,这个呢都面临着版权纠纷,包括一些品牌和形象的纠纷,这些是需要去注意的。那么我们到底还需不需要等Sora呢?
其实从达利3的这个角度上来看,我觉得我们完全不需要再去期待Sora了。为什么呢?我们看看Dalle3现在画图的效果。首先咱们先说优点,文字理解还是相当不错的。当你给他一个很长的提示词的时候,他会把提示词中的各个部分都理解得很清楚,而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是,这个但是后边才是重点,艺术表现力非常的差。甭管是跟最新的Flex比,还是跟Midjorney 6.1比,完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上,但是呢,画的过程还是比较粗糙的,稍微擦点边的都拒绝服务。
你比如说,我要求给我按照迪士尼的3D风格画一个什么东西,马上拒绝。你说现在请给我按照日本漫画风格画,可以画出来;说现在请按照宫崎骏的风格给我画,马上拒绝。你只要提到任何人的名字,直接拒绝。说现在请按照哪一个漫画里的这个情节,七龙珠的漫画情节给我画一个东西,马上拒绝。请给我画个什么星球大战、什么米老鼠,马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话,那我觉得Sora是完全不值得期待的一个东西。
现在可以用的视频大模型其实已经不少了,甭管是runway还是国内能够使用的吉梦,吉梦是剪映下面的字节跳动做的,效果还可以。快手做的可灵效果其实也能够使用了,甚至在剪映内部也集成了视频直接生成的这种功能,这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频,这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来,给他一个提示词,说这个人现在笑了,这个人人说话了,这个人吃东西了,这个已经有一定的传播力了。
数字人呢也已经开始赚钱了,甭管是数字人直播,还是数字人带货,或者数字人骂街,这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思?就是他经常告诉你说,现在哪一部大片后边要拍续集了,大家赶快去看呀。当你看了以后,发现是有很多的前作剪辑,然后再加上一些AI生成的内容,拼凑起来的一个,你也不能说他粗制滥造,有的做的还可以,这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集,上预告片了,我先得看谁发布的。如果不是原来那个电影的制作公司发布的,我就直接跳过不看了,很容易上当受骗。
现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了,所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰,比如说雷军骂人、于东来骂人,甚至还有人把那个德国选择党的那个女党首,她的这个视频配上中文上来,讲一些比较激烈的这种话语吧,这个也是很容易骗到人的。
下一步的AI工具会是什么样的呢?第一个专业应用级别呢,可能还是会有专门的人去做,就像现在我们,比如说在视频领域里头,我的这个视频处理都是用剪映的,但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展,说我们干脆就永远不再向公众开放了,就是直接签约给这些电影公司,让他们去用。用完了以后出了所有东西,你们自己负责任,跟我就没有关系了,这是一种方式。
半专业的应用呢肯定还有待增强,普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好,可灵也好,还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强,这个大模型本身他们自己慢慢训就可以了。至于个人应用的话,是否能够爆发,我觉得应该还是可以爆发的,就是使用AI大模型生成视频的这种个人应用。但是呢,这个可能距离我们还稍微远一些。这种半专业应用的话,应该正在路上,在吉梦也好可灵也好呢,都在做手机APP,网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合,这一块的话有可能会最先让我们看到成绩。
至于Open AI下边该干嘛去呢?我们已经讲了,Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大,它有一个非常重要的职策,就是为整个行业指明下一个方向。他指明了Sora这一个方向以后,大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica,一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型,然后一堆的推理模型在这个后边就出来了。
今天我还装了一个叫QWQ,通义千问做的推理模型。在32B的参数下吧,可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力,但是可以达到O1 Mini的能力,只有32B,那这个还是非常棒的一个东西。所以再往下一个方向到底是什么?虽然很多的厂商也在尝试去摸索,寻找新方向,但是呢都没有Open AI指的方向。他只要摇旗呐喊,大家就直接跟风往上冲,没有这种号召力。
所以我们期待Open AI可以给大家指明下一个方向,等指明了以后,全世界的厂商再顺着这个方向往前跑。好,这是今天讲的故事,感谢大家收听,请帮忙点赞点小铃铛,参加discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
其实,从达利3的这个角度上来看,我觉得我们完全不需要再去期待Sora了。为什么呢?我们看看Dalle3现在画图的效果。首先,咱们先说优点,文字理解还是相当不错的。当你给他一个很长的提示词的时候,他会把提示词中的各个部分都理解得很清楚,而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是,这个“但是”后边才是重点,艺术表现力非常的差。甭管是跟最新的Flex比,还是跟Midjorney 6.1比,完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上,但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。
你比如说,我要求给我按照迪士尼的3D风格画一个什么东西,马上拒绝。你说现在请给我按照日本漫画风格画,可以画出来。说现在请按照宫崎骏的风格给我画,马上拒绝。你只要提到任何人的名字,直接拒绝。说现在请按照哪一个漫画里的这个情节,七龙珠的漫画情节给我画一个东西,马上拒绝。请给我画个什么星球大战,什么米老鼠,马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话,那我觉得Sora是完全不值得期待的一个东西。
现在可以用的视频大模型其实已经不少了,甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的,效果还可以。快手做的可灵效果其实也能够使用了,甚至在剪映内部也集成了视频直接生成的这种功能。这些呢,已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频,这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来,给他一个提示词,说这个人现在笑了,这个人说话了,这个人吃东西了,这个已经有一定的传播力了。
数字人呢,也已经开始赚钱了,甭管是数字人直播,还是数字人带货,或者数字人骂街,这块已经可以跑了。YouTube上呢,有很多的这种预告片开始吸引流量。什么意思?就是他经常告诉你说,现在哪一部大片后边要拍续集了,大家赶快去看呀。当你看了以后,发现是有很多的前作剪辑,然后再加上一些AI生成的内容,拼凑起来的一个你也不能说他粗制滥造,有的做的还可以。这样的一个视频,我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集,上预告片了,我先得看谁发布的。如果不是原来那个电影的制作公司发布的,我就直接跳过不看了,很容易上当受骗。
现在很多的漫画小说详解相关的视频,在抖音、快手上也开始在盈利赚钱了,所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢,我们已经讲了,Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大,它有一个非常重要的职策,就是为整个行业指明下一个方向。他指明了Sora这个方向以后,大家就赶快都去出了一堆可灵也好,吉梦也好,Runway Pica,一大堆的这样的视频模型就出来了。
所以,我们期待Open AI可以给大家指明下一个方向。等指明了以后,全球的厂商再顺着这个方向往前跑。好,这是今天讲的故事,感谢大家收听,请帮忙点赞、点小铃铛,参加discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
昨天,Sora短暂地泄露。但是,我们真的还需要等待Sora吗?大家好,欢迎收听老范讲故事的YouTube频道。在今年2月份,Open AI公布了他们的Sora大模型之后,大家一直在等待这个产品的正式发布。但是等到了现在,已经到年底了,很多跟随Sora的产品都已经上线,已经有很多用户开始使用了。Sora自己还遥遥无期。
在这样的一个时间点里,突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去,短暂地开放了一段时间。这些艺术家还发表了一封公开信,表达了自己对于Open AI的各种剥削的不满。Open AI及时发现,在一小时之后封闭了接口,说你们就到这吧,然后也出来做了一些解释,称这些艺术家们都是跟我们一起去合作的,他们都是自愿参加的,没有什么强迫。大概也是讲了一些这种片汤话。
至于Sora什么时候能发布,人家也没有再继续提供更进一步的信息。那么,这一次泄露出来的呢,是Sora的Turbo版本。Turbo是轻量级快速的版本,不是一个全尺寸的模型,参数也并不是很突出。2月份,Sora当时号称自己是世界模型,可以仿真出世界来的,当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处,超过一分钟都属于超长镜头了,电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率,时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的,现在的视频生成模型基本上都是5到10秒钟。
那么,艺术家们为什么干这么个事呢?原因很简单。有一句话叫“富贵不归乡,如锦衣夜行”。什么意思呢?有钱了得回家显摆显摆,要不然的话就跟穿了个好衣服,晚上出门没人看见那是一样的。对于这帮艺术家们来说,有了一个好东西,你又不让他们显摆,这肯定是非常非常不爽的。
那公开信里都写了什么呢?他写了说,艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者,估计就是最一开始的一批人,还没有进行详细的分工,你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员,这是干嘛使的?视频模型非常害怕一件事情,就是生成一些有害视频,色情、暴力、虚假,或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求,看看能不能都识别出来,拒绝服务或者怎么能够规避,怎么能绕过,这个叫红队成员。第三种叫创意合作伙伴,Sora每过一段时间会发出一些样板视频来,意思是什么?他说你看我还活着呢,我还在继续往前走,你们其他人怎么追赶也追不上。
现在,这些艺术家们感觉被骗了,为什么呢?因为付出很多,Sora这种模型绝对没有那么好使。不是说它输出的东西不好,而是说你要想使用这个模型,需要付出的努力一定是非常艰巨的,因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的,我们只要写一个提示词,生成出来大差不差的我就能用。
这些人是艺术家,之所以能成为艺术家,一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说,想要让这种视频模型输出自己能够满意的产品,或者叫作品,这个事本身是非常难的。他们说,我们付出了很多,但是发表的作品又非常难,因为他们发表作品一定是经过层层筛选,甚至是竞赛,然后再要经过Open AI的审核,才有极少的一部分作品可以发表。
即使是有作品被发表展示了,这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说,大家觉得这个事有点太不公平了。而且这么长时间,你要说时间短了还可以,Sora大模型的发布又遥遥无期。这就相当于什么?就是一帮人进去打测试服的游戏去了,结果始终也不给你公测,或者始终也不给你进正式上线,大家只能在里边参加各种删号测试,然后所有的测试还需要签保密协议,你还不能出来说。这个时间长了以后一定会造反的。
艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间,他们会在这么多艺术家,可能300多个艺术家里头,挑选那么几个作品放出来,说你看,这就是Sora现在能够达到的成就,你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作,并不是Sora本身模型到底有多好。
再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议,这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型,说现在有很多开源模型已经可以用了,效果还不错,这就是他们的一个公开信。
现在,Open AI内部动荡不断,Sora到底什么时候能发布还遥遥无期,仅仅依靠零星露出的作品保持社交媒体关注度,Open AI是可以接受的,但艺术家们肯定接受不了。最后,艺术家毕竟不是工程师,不是律师,不是会计师,不是其他的这种社畜。如果他们完全按照逻辑,按照大家签的协议去做事的话,就不是艺术家了。
所以,他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议,但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上,让大家都瞅了这么一眼。当然,现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢,现在不知道,因为Open AI绝对是社交媒体公关大师,不停地玩各种奇怪的事情。
也许过一段时间,人家就突然就发布了,发现这个江湖上又没有哥的声音再传播了,咱们得再整出点幺蛾子出来,这个都难说。这些艺术家们在一个网站上开始征集签名,说来,你们谁支持我,这里边还有一个签名的人,号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证,所以也不知道这个是真是假。
那么,视频生成为什么这么费劲呢?Open AI在年初的时候,2月份的时候,已经为全世界整个的AIGC行业指明了方向,这个贡献还是非常巨大的,我们要承认。但是,视频生成本身的难度是很大的。第一个,内容合理性其实很难保持。六个手指头、七个手指头,手长得很奇怪,图片生成模型既然已经有这种问题了,那么视频生成模型有同样的手指头问题,或者各种的合理性问题,这个都是很正常的,避免不了的。
还有就是物理破膜的问题。咱们做过3D动画的人都知道,经常会出现这种叫物理破膜。什么叫物理破膜?你比如说你穿了件衣服,里边有个人,但是人在做一些动作的时候,里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候,有可能也会发生同样的事情,包括一些解剖学错误,比如说这个脚要往前走的时候,膝盖应该往后弯的。但是,你怎么能够把这个膝盖必须往后弯这件事告诉大模型,让他每一次生成的时候都向后弯,这个挺难的。
我们看过很多视频模型生成的内容,两条腿突然走着走着就变三条了,或者是两条腿迈着迈着都变成左脚了,变成右脚。图像生成模型上也会出现这种问题,视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性,这个其实也是从图像生成模型那边就遇到的问题,到视频生成模型依然难以搞定。
现在在图片生成模型的一致性上,已经好一点。什么叫一致性?比如说你说让老范讲故事这张脸出现在不同的角色身上,或者是不同的艺术风格上,现在图片生成模型有一些方法,比如说自己去训练小模型,这个方式是可以让这个脸稍微的稳定一点的。脸是一方面,然后这个身材、身上的衣服、各种配饰,你要让所有的这些图片都很稳定地保持一致性,这个很难。
像一个视频,一秒钟25帧到30帧,你要保证每一帧上,比如说这里都带着一个麦克风,这个对于他们来说非常非常难以控制和把握。再往后,算力成本实在太高了。图片生成,现在我们画一幅1080P的图像,大概就需要几个美分。那你想一秒钟25帧到30帧的视频,他需要多少算力?大家去做各种测试和实验的时候,这个成本是非常非常高。
当然了,这还不是困扰视频生成本身的最大难题。更大的难题是什么呢?就是视频要好看。最后生成完了以后,视频难看,没有人愿意看,没有人愿意传播,这个本身是没有任何意义和价值的。
现在做视频生成,其实是在两个层面上大家在努力。第一个层面就是模型,怎么能够让模型更好。第二个层面是什么?就是怎么去操控,我到底应该用一些什么样的方式,对话吗?上传图片吗?然后一大堆菜单和选项吗?应该怎么能够让他进行顺畅的操作,把这个视频生成出来,这个其实非常难。
我记得在2014年的时候,有大量的团队尝试去做手机端的视频编辑软件,这个时候就发现,哎呀,这个实在太难了。因为最早的时候,视频编辑这件事情都是在视频编辑机,那是个硬件,在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作,而且是由一些专业人士操作。
当你要把视频编辑这件事情弄到手机上去操作的时候,需要调控的东西实在太多了,非常麻烦。大家想象一下,有没有人见过飞机驾驶舱?从头上到脚下,你身边所有能看见的地方,都是各种各样的开关和仪表。视频编辑其实跟这个过程很像,大量的参数和开关选项需要设置才能够得到你满意的视频。
现在我们要做视频生成的这种工具了,在有大模型的基础上,你也需要大量的开关选项、菜单或者是提示词,才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排,这个对于现在所有的做视频生成工具的人来说,都是极大的挑战。
到目前为止,没有特别好使的。在这么难操控的情况下,你要能保证输出出来的视频是有人愿意看的,这个难度就会更大一些。所以,为什么这帮艺术家也说我们付出的努力极其艰巨呢,也是如此。他们想控制Sora这样的一个半成品,甚至可能都没有界面,你还需要去写代码,才可以让他跑起来的一个系统,让这样的系统去输出需要的视频,这个是非常非常麻烦的。
除了视频模型操作的问题之外,下一个问题就是视频安全性,风险要比图片、文字、音频都要大得多,甚至把所有的这些前面我们讲的这些风险都盛起来,都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题,就是看怎么能够把这些风险在发布之前尽可能地发现,尽可能地排除掉。这些风险包括色情、暴力、歧视性的,而且歧视性你不能出现的同时,你还不能矫枉过正。
像谷歌前面就是矫枉过正了。你跟他说,任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的,还有奇奇怪怪性别的人凑在一起,最后被骂的直接把这个接口封掉了。所以,这个到底掌握到什么步骤,他们也是很头疼的。
再往后,什么欺诈,视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人,因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下,在剪映里边去使用真人数字人。什么叫真人数字人?就是有一个数字人在这讲话,但是你可以自己上传一张照片,说我现在让这个人去讲话。
你要想做这个操作的话,剪映要干嘛?要去做人脸识别,保证你上传的这个照片是你自己,否则的话它就拒绝工作了。你说我今天上传一个雷军的,让他去骂人,去让他去做一些其他的事情,这个事他不干。当然,有其他的工具可以干这件事情。现在雷军骂人也好,于东来骂人也好,这种视频都是在满天飞的。
除了前面我们讲的什么欺诈、血腥、暴力、歧视之外,还有一个问题叫版权纷争。你一旦是遇到了版权纷争,这对于视频来说也很麻烦。什么叫版权纷争?比如说请给我按照宫崎骏的风格画一个什么东西,或者生成一个什么动漫,或者星球大战里的一个什么角色去做一个什么样的事情,或者说你现在请用马斯克的脸给我生成一个什么东西,这个都面临着版权纠纷,包括一些品牌和形象的纠纷,这些是需要去注意的。
那么,我们到底还需不需要等Sora呢?其实从达利3的这个角度上来看,我觉得我们完全不需要再去期待Sora了。为什么呢?我们看看Dalle3现在画图的效果。首先,咱们先说优点,文字理解还是相当不错的。当你给他一个很长的提示词的时候,他会把提示词中的各个部分都理解得很清楚,而且尽量的都给你画到这个图片上去,这个Dalle3算是最强的。
但是,这个“但是”后边才是重点,艺术表现力非常的差。甭管是跟最新的Flex比,还是跟Midjorney 6.1比,完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上,但是画的过程还是比较粗糙的,稍微擦点边的都拒绝服务。你比如说,我要求给我按照迪士尼的3D风格画一个什么东西,马上拒绝;你说现在请给我按照日本漫画风格画,可以画出来;说现在请按照宫崎骏的风格给我画,马上拒绝;你只要提到任何人的名字,直接拒绝;说现在请按照哪一个漫画里的这个情节,七龙珠的漫画情节给我画一个东西,马上拒绝;请给我画个什么星球大战、米老鼠,马上拒绝。
所以,他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话,那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了,甭管是Runway,还是国内能够使用的吉梦,吉梦是剪映下面的字节跳动做的,效果还可以。快手做的可灵效果其实也能够使用了,甚至在剪映内部也集成了视频直接生成的这种功能,这些已经可以达到一部分商业使用的能力了。
现在的各种亲友照片变成视频,这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来,给他一个提示词,说这个人现在笑了,这个人人说话了,这个人吃东西了,这个已经有一定的传播力了。数字人也已经开始赚钱了,甭管是数字人直播,还是数字人带货,或者数字人骂街,这块已经可以跑了。
YouTube上有很多的这种预告片开始吸引流量。什么意思?就是他经常告诉你,现在哪一部大片后边要拍续集了,大家赶快去看呀。当你看了以后,发现是有很多的前作剪辑,然后再加上一些AI生成的内容,拼凑起来的一个,你也不能说他粗制滥造,有的做的还可以。这样的一个视频,我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集,上预告片了,我先得看谁发布的。如果不是原来那个电影的制作公司发布的,我就直接跳过不看了,很容易上当受骗。
现在很多的漫画小说详解相关的视频,在抖音、快手上也开始在盈利赚钱了,所以这块已经走入了商业化。那么,以假乱真也造成了很多的困扰,比如说雷军骂人、于东来骂人,甚至还有人把那个德国选择党的那个女党首,她的这个视频配上中文上来,讲一些比较激烈的这种话语,这个也是很容易骗到人的。
下一步的AI工具会是什么样的呢?第一个专业应用级别,可能还是会有专门的人去做。就像现在我们,比如说在视频领域里头,我的这个视频处理都是用剪映的。但是,也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展,说我们干脆就永远不再向公众开放了,就是直接签约给这些电影公司,让他们去用。用完了以后出了所有东西,你们自己负责任,跟我就没有关系了,这是一种方式。
半专业的应用肯定还有待增强,普通人使用Sora这样的模型,或者使用其他的,刚才我们说的吉梦也好、可灵也好,还是挺难使的。他们可能还需要在用户交互上,或者是工具上还要有待增强。这个大模型本身,他们自己慢慢训就可以了。至于个人应用的话,是否能够爆发,我觉得应该还是可以爆发的,就是使用AI大模型生成视频的这种个人应用。但是,这个可能距离我们还稍微远一些。
这种半专业应用的话,应该正在路上。在吉梦也好、可灵也好,都是在做手机APP,网站的这种Web APP也在尝试,跟各自的这种视频编辑工具进行结合,这一块的话,有可能会最先让我们看到成绩。
至于Open AI下边该干嘛去呢,我们已经讲了,Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大,它有一个非常重要的职策,就是为整个行业指明下一个方向。他指明了Sora这个方向以后,大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica,一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型,然后一堆的推理模型在这个后边就出来了。
今天我还装了一个叫QWQ,通义千问做的推理模型,在32B的参数下,可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力,但是可以达到O1 Mini的能力,只有32B,那这个还是非常棒的一个东西。
所以再往下一个方向到底是什么?虽然很多的厂商也在尝试去摸索,寻找新方向,但是都没有Open AI指的方向。他只要摇旗呐喊,大家就直接跟风往上冲,没有这种号召力。所以,我们期待Open AI可以给大家指明下一个方向,等指明了以后,全世界的厂商再顺着这个方向往前跑。
好,这是今天讲的故事,感谢大家收听,请帮忙点赞点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
昨天,Sora短暂的泄露。但是,我们真的还需要等待Sora吗?大家好,欢迎收听老范讲故事的YouTube频道。在今年2月份,Open AI公布了他们的Sora大模型之后,大家一直在等待这个产品的正式发布。但是,等到了现在,已经到年底了,很多跟随Sora的产品都已经上线,已经有很多用户开始使用了。Sora自己还遥遥无期。
在这样的一个时间点里,突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去,短暂的开放了一段时间。这些艺术家呢,还发表了一封公开信,表达了自己对于Open AI的各种剥削的不满。Open AI呢,及时发现,在一小时之后封闭了接口,说你们就到这吧,然后也出来做了一些解释,说明这些艺术家们都是跟我们一起去合作的,他们都是自愿参加的,没有什么强迫。大概也是讲了一些这种片汤话。
至于Sora什么时候能发布,人家也没有再继续提供更进一步的信息。那么,这一次泄露出来的呢,是Sora的Turbo版本。Turbo是轻量级快速的版本,就是不是一个全尺寸的模型,参数呢也并不是很突出。2月份,Sora当时号称自己是世界模型,可以仿真出世界来的,当时是可以出一分钟的视频的,虽然一分钟视频并没有那么大的用处,超过一分钟都属于是超长镜头了,电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率,然后时长呢就是5到10秒钟,实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。
现在的视频生成模型基本上都是5-10秒钟。那么,艺术家们为什么干这么个事呢?原因呢也很简单。有一句话叫“富贵不归乡,如锦衣夜行。”什么意思呢?有钱了得回家显摆显摆去,要不然的话就跟穿了个好衣服,晚上出门没人看见那是一样的。对于这帮艺术家们来说,有了一个好东西,你又不让他们显摆,这肯定是非常非常不爽的。
公开信里都写了什么呢?他写了说,艺术家们年初呢就被邀请加入了,艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者,估计呢就是最一开始的一批人,还没有进行详细的分工,你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员,这是干嘛使的?视频模型非常害怕一件事情,就是生成一些有害视频,色情、暴力、虚假呀,或者版权侵害什么这样的视频,所以呢需要一些成员说你不断的向他提这样的要求,看看能不能都识别出来,拒绝服务,或者怎么能够规避,怎么能绕过,这个叫红队成员。第三种呢叫创意合作伙伴,Sora每过一段时间呢会发出一些样板视频来,意思是什么?他说你看我还活着呢,我还在继续往前走,你们其他人怎么追赶也追不上。
现在呢,这些艺术家们感觉被骗了,为什么呢?因为付出很多,Sora这种模型绝对没有那么好使。不是说它输出的东西不好,而是说你要想使用这个模型,付出的努力一定是非常艰巨的,因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的,那我们只要写一个提示词,生成出来大差不差的,我就能用。这些人是艺术家,之所以他能成为艺术家,一定是他们对于自己的艺术产品有极高的要求。
所以,对于他们来说,想要让这种视频模型输出了自己能够满意的产品,或者叫作品吧,这个事本身是非常难的。所以呢,他说:“我们付出了很多,但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选,甚至是竞赛,然后呢再要经过Open AI的审核,才有极少的一部分作品可以发表。即使是有作品被发表展示了,这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说,大家觉得这个事有点太不公平了。
而且这么长时间,你要说时间短了还可以,Sora大模型的发布又遥遥无期,这个就相当于什么?就是一帮人进去打测试服的游戏去了,结果呢始终也不给你公测,或者始终也不给你进正式上线,大家只能在里边参加各种删号测试,然后所有的测试还需要签保密协议,你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头,就是每过一段时间,他们会在这么多艺术家,可能300多个艺术家里头,挑选那么几个作品放出来,说:“你看,这就是Sora现在能够达到的成就,你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作,并不是Sora本身模型到底有多好。
再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议,这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型,说现在有很多开源模型已经可以用了,效果还不错。这就是他们的一个公开信。
现在呢,Open AI内部动荡不断,Sora到底什么时候能发布还遥遥无期,仅仅依靠零星露出的作品保持社交媒体关注度,Open AI呢是可以接受的,但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师,不是律师,不是会计师,不是其他的这种社畜。如果他们完全按照逻辑,按照大家签的协议去做事的话,就不是艺术家了。
所以,他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议,但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去,让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢?现在不知道,因为Open AI绝对是社交媒体公关大师,不停的玩各种奇怪的事情。也许过一段时间,人家就突然就发布了,发现这个江湖上又没有哥的声音再传播了,咱们得再整出点幺蛾子出来,这个都难说。
这些艺术家们在一个网站上开始征集签名,说来你们谁支持我。这个里边还有一个签名的人,号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证,所以也不知道这个是真是假。
那么,视频生成为什么这么费劲呢?Open AI在年初的时候,已经为全世界整个的AIGC行业指明了方向,这个贡献还是非常巨大的,我们要承认。但是呢,视频生成本身的难度是很大的。第一个呢就是内容合理性,其实很难保持。六个手指头、七个手指头,手长得很奇怪,图片生成模型既然已经有这种问题了,那么视频生成模型有同样的手指头问题,或者各种的合理性问题,这个都是很正常的,避免不了的。
还有就是物理破膜的问题。咱们做过3D动画的人都知道,经常是就会出现这种叫物理破膜。什么叫物理破膜?你比如说你穿了件衣服,里边呢有个人,但是呢人在做一些动作的时候,里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候,有可能也会发生同样的事情,包括一些解剖学错误,比如说这个脚要往前走的时候,应该膝盖是往后弯的。但是呢,你怎么能够把这个膝盖必须往后弯这件事告诉大模型,让他每一次生成的时候都向后弯?这个挺难的。
我们看过很多视频模型生成的这种内容,两条腿突然走着走着就变三条了,或者是这个两条腿迈着迈着他都变成左脚了,都变成右脚。在图像生成模型上,也会出现这种问题,视频生成模型更加难以避免。这是第一个问题。
第二个问题就是一致性可控性,这个呢其实也是从图像生成模型那边就遇到的问题,到视频生成模型依然难以搞定。现在呢,在图片生成模型的一致性上已经好一点。什么叫一致性?比如说你说让老范讲故事这张脸出现在不同的角色身上,或者是不同的艺术风格上,现在图片生成模型有一些方法,比如说自己去训练小模型,这个方式是可以让这个脸稍微的稳定一点的。脸是一方面,然后这个身材,身上的衣服各种配饰,你要让所有的这些图片都很稳定的保持一致性,这个很难。
像一个视频,一秒钟25帧到30帧,你要保证每一帧上,比如说这里都带着一个麦克风,这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧,大概就需要几个美分。那你想一秒钟25帧到30帧的视频,他需要多少算力?大家去做各种测试和实验的时候,这个成本是非常非常高。
当然了,这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢?就是视频要好看。最后生成完了以后视频难看,没有人愿意看,没有人愿意传播,这个本身是没有任何意义和价值的。
现在呢,做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么?就是怎么去操控,我到底应该用一些什么样的方式,对话吗?上传图片吗?然后一大堆菜单和选项吗?应该怎么能够让他进行顺畅的操作,把这个视频生成出来,这个其实非常难。
我记得在2014年的时候,有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现,哎呀,这个实在太难了。因为最早的时候,视频编辑这件事情,都是在视频编辑机,那是个硬件,在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作,而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候,需要调控的东西实在太多了,非常麻烦。
这个大家想象一下,就是有没有人见过飞机驾驶舱?从头上到脚下,你身边所有能看见的地方,全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像,大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了,你在有大模型的基础上,你也需要大量的这种开关选项、菜单或者是提示词,才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排,这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。
到目前为止没有特别好使的,在这么难操控的情况下,你要能保证输出出来的视频是有人愿意看的,这个难度就会更大一些。所以为什么这帮艺术家也说说:“我们付出的努力极其艰巨呢?”也是如此。他们想控制Sora这样的一个半成品,甚至可能都没有界面,你还需要去写代码,才可以让他跑起来的一个系统,让这样的系统去输出需要的视频,这个是非常非常麻烦的。
除了视频模型操作的问题之外,下一个问题就是视频安全性,风险要比图片、文字、音频都要大的多,甚至把所有的这些前面我们讲的这些风险都盛起来,都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题,就是看怎么能够把这些风险在发布之前尽可能地发现,尽可能地排除掉。这些风险包括色情、暴力、歧视性的,而且歧视性你不能出现的同时呢,你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说,任何的提示词里边一定是有黄种人,有黑人,有白人,有男的,有女的,还有奇奇怪怪性别的人凑在一起,最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤,他们也是很头疼的。
再往后什么欺诈,视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人,因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下,在剪映里边去使用真人数字人。什么叫真人数字人?就是有一个数字人在这讲话,但是呢你可以自己上传一张照片,说我现在让这个人去讲话。你要想做这个操作的话,剪映要干嘛?要去做人脸识别,保证你上传的这个照片是你自己,否则的话他就拒绝工作了。你说我今天上传一个雷军的,让他去骂人,去让他去做一些其他的事情,这个事他不干。
当然有其他的工具可以干这件事情。现在雷军骂人也好,于东来骂人也好,这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀,血腥、暴力、歧视之外,还有一个问题叫版权纷争。你一旦是遇到了版权纷争,这个对于视频来说也很麻烦。什么叫版权纷争?比如说请给我按照宫崎骏的风格画一个什么东西,或者生成一个什么动漫,或者星球大战里的一个什么角色去做一个什么样的事情,或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷,包括一些品牌和形象的纠纷,这些是需要去注意的。
那么,我们到底还需不需要等Sora呢?其实从达利3的这个角度上来看,我觉得我们完全不需要再去期待Sora了。为什么呢?我们看看DALL·E 3现在画图的效果。首先,咱们先说优点,文字理解还是相当不错的。当你给他一个很长的提示词的时候,他会把提示词中的各个部分都理解得很清楚,而且尽量的都给你画到这个图片上去,这个DALL·E 3算是最强的。但是,这个“但是”后边才是重点,艺术表现力非常的差。甭管是跟最新的Flex比,还是跟Midjourney 6.1比,完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上,但是呢画的过程还是比较粗糙的,稍微擦点边的都拒绝服务。
你比如说,我要求给我按照迪士尼的3D风格画一个什么东西,马上拒绝。你说现在请给我按照日本漫画风格画,可以画出来;说现在请按照宫崎骏的风格给我画,马上拒绝。你只要提到任何人的名字,直接拒绝。说现在请按照哪一个漫画里的这个情节,七龙珠的漫画情节给我画一个东西,马上拒绝。请给我画个什么星球大战、什么米老鼠,马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话,那我觉得Sora是完全不值得期待的一个东西。
现在可以用的视频大模型其实已经不少了,甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的,效果还可以。快手做的可灵效果其实也能够使用了,甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频,这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来,给他一个提示词,说这个人现在笑了,这个人人说话了,这个人吃东西了,这个已经有一定的传播力了。
数字人呢也已经开始赚钱了,甭管是数字人直播,还是数字人带货,或者数字人骂街,这块已经可以跑了。YouTube上呢,有很多的这种预告片开始吸引流量。什么意思?就是他经常告诉你说,现在哪一部大片后边要拍续集了,大家赶快去看呀。当你看了以后,发现是有很多的前作剪辑,然后再加上一些AI生成的内容,拼凑起来的一个,你也不能说他粗制滥造,有的做的还可以。
这样的一个视频,我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集,上预告片了,我先得看谁发布的。如果不是原来那个电影的制作公司发布的,我就直接跳过不看了,很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了,所以这块呢已经走入了商业化。
那么,以假乱真也造成了很多的困扰,比如说雷军骂人、于东来骂人,甚至还有人把那个德国选择党的女党首,她的这个视频配上中文上来,讲一些比较激烈的这种话语,这个也是很容易骗到人的。下一步的AI工具会是什么样的呢?第一个专业应用级别呢,可能还是会有专门的人去做,就像现在我们,比如说在视频领域里头,我的这个视频处理都是用剪映的,但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。
Sora以后可能就会向那个方向发展,说我们干脆就永远不再向公众开放了,就是直接签约给这些电影公司,让他们去用,用完了以后出了所有东西,你们自己负责任,跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强,普通人使用Sora这样的模型,或者使用其他的刚才我们说的吉梦也好,可灵也好,还是挺难使的。他们可能还需要在用户交互上,或者是工具上还要有待增强,这个大模型本身他们自己慢慢训就可以了。
至于个人应用的话,是否能够爆发,我觉得应该还是可以爆发的,就是使用AI大模型生成视频的这种个人应用。但是呢,这个可能距离我们还稍微远一些。这种半专业应用的话,应该正在路上。在吉梦也好,可灵也好,都在做手机APP,网站的这种Web APP也在尝试,跟各自的这种视频编辑工具进行结合,这一块的话,有可能会最先让我们看到成绩。
至于Open AI下边该干嘛去呢,我们已经讲了,Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大,它有一个非常重要的职策,就是为整个行业指明下一个方向。他指明了Sora这一个方向以后,大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica,一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型,然后一堆的推理模型在这个后边就出来了。
今天我还装了一个叫QWQ通义千问做的推理模型,在32B的参数下吧,可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力,但是可以达到O1 Mini的能力,只有32B,那这个还是非常棒的一个东西。所以再往下一个方向到底是什么?虽然很多的厂商也在尝试去摸索,寻找新方向,但是呢都没有Open AI指的方向。他只要摇旗呐喊,大家就直接跟风往上冲,没有这种号召力。
所以,我们期待Open AI可以给大家指明下一个方向。等指明了以后,全世界的厂商再顺着这个方向往前跑。好,这是今天讲的故事。感谢大家收听,请帮忙点赞、点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道,再见。
Both comments and pings are currently closed.