Hugging Face – 老范讲故事｜AI、大模型与商业世界的故事

50亿美金驱动股价暴涨23%！英伟达与英特尔的交易细节却令人不安：看似双赢的背后，一个“无锁定期”条款或早已预示了结局

Luke Fan — Mon, 22 Sep 2025 00:54:51 +0000

英伟达投资英特尔，这背后到底是一个什么样的逻辑？咱们今天来分析一下。

首先，咱们来讲事实的部分和市场的反应。我最先呢，是发现英特尔暴涨，因为美股嘛，它是在晚上折腾的。我早上起来一看手机，当时爆出来，应该是最高峰涨了30%，实际上是涨了23%，就是跳起来有稍微往下掉一点点。

这个事情呢，是在2025年9月18号宣布的，说英伟达要投资50亿美金，认购英特尔增发的普通股。这个里头有两个字叫“增发”。一般投资呢有两种情况，第一种情况呢，叫做增发；第二种呢，叫买老股。买老股呢，就是我花了钱了，有人能够拿到这一笔钱。但是，如果是增发的话，这50亿美金就是一分不少的，会要进到英特尔的账户上去，能够拿到这笔钱的就是英特尔这个公司，没有任何一个老股东说“我可以卖掉一部分股份拿到这个钱”。所以注意“增发”这两个字，是这个交易的核心。

那么占股呢在4%左右，还需要监管的批准。因为这两家公司做什么操作的话，你万一涉及垄断什么也挺讨厌的，所以现在这个事情呢，只是刚宣布了，还等批复。英特尔直接涨了23%，英伟达直接上涨了3%点多，大概不到4%的样子。

第二天呢，依然在高位震荡盘整，就是说第二天没有继续往上冲。因为现在交易都没做完嘛，交易就算做完了以后想要有结果，其实也是一个挺漫长的过程，只是说一个新的可能性摆在了大家面前。原来从来没有人想过，这两家公司还能合作整点什么事，现在一看有可能了，大家认可这种新的可能性所带来的市值上升，所以并没有掉下来，也没有继续往前涨。

从交易细节来看，这件事到底有多认真呢？为什么说认不认真呢？很多的交易细节里头，就可以体现出来两家公司对这个事情未来的一个走向的看法，或者说愿意投入多大精力来去维持这个关系。

首先呢，第一点叫增发股票。

第二个呢，叫不提供除普通股东之外的任何治理权利或信息权利。在他的交易文件里头有这样的一句话，这些话什么意思呢？你花钱成为股东的时候，会有很多其他的权利，比如说治理权。因为股东嘛，最后我要去到股东大会上投票，或者说我可以进入到更高的决策层，他会有这样的一个权利。但是这里写了，只有普通股东的权利，你开股东大会的时候可以去，但是开董事会或者开其他会，你去不了，没有额外的权利。

信息权是什么呢？就是普通股东也有信息权。就是该发财报了，你可以看到财报，你可以在财报会议上去打电话提问题，这个普通股东的信息权。但如果是一些战略股东的话，那会有更高一级的信息权。像我们以前做战略投资，投完了项目以后，都会专门写一份附录，说我们需要哪些信息权，你做什么什么事之前必须要先告诉我，做什么什么事之前需要得到我的同意。这个东西叫一票否决权，以及呢，说哪件事呢，我们要有优先合作权，这个叫战略条款。这些东西呢，通通都没有。

有的时候投资了别人以后，他们这个公司需要进入到我们财报里去，我们还会要求说：“你每个季度要给我发这个财务报表，而且要在哪天哪天之前发。”他那天发不过来，我后面没时间做财报。但是现在写了叫“不提供除普通股东之外的任何治理或信息权利”，所以这个里头就通通都没有。

然后呢，也没有提董事席位的事情。因为英特尔本身的治理结构呢，并不是说你花了钱买了股份，你就是董事了，或者说我买到多少就成为董事，这事也没有。Intel的董事会大概是9-15个人，有时候也是多一点，有时候少一点，但注意一定是个单数，不能两边持平，这是不行的。英特尔规定的是，持有超过3%股份超过3年可以提名。你像这个英伟达拿了4%，这个是够了，但是呢，您今天拿着呀，这事不行，年底连续拿满三年才行。够了三年以后，你可以来提名董事，提名了以后呢，还要股东大会投票来选举，选上了您可以在这当董事，参加董事会；要没选上，对不起，这个跟您没什么关系。它是这样的一个规定。所以呢，没有提及董事席位这个事呢，也确实是符合英特尔当前的一个制度吧。

这个里头最重要的一点是什么？是没有锁定期。一般情况下买了这种股份呢，是应该有锁定期的，你买完了以后不能着急忙慌地把它卖了。现在其实已经赚钱了，已经赚了23%了，按23美金一股买的，现在已经29美金了。所以一旦交易真正批准执行了以后，这边英特尔拿到钱，那边英伟达就可以在股市上卖股票了。这个就是认真程度里头最核心的一个考察点。像我们以前一般签类似这样的协议，都是要有锁定期的，他这里头没写，这个是很奇葩的一个事情。

那么，投资的目的到底是什么呢？刚才咱们讲了，这事没有那么认真，所以咱们来看看到底什么目的。对外讲的目的是什么？

第一，数据中心。英特尔呢，可以直接在CPU上连接Nvlink，由英特尔设计制造、英伟达定制的X86 CPU，并由英伟达集成他们的AI基础平台对外销售。就是英伟达直接把英特尔的这种CPU买回来放在他的这个服务器里，他就可以卖出去了。

但这样的一个事情，可能很多人奇怪，说为什么Nvlink就快，以太网就慢？是不是以太网这个介质有问题？其实没有。就是到了云计算机房里头，Nvlink其实你大家认为，它是一个带有特定硬件的一套协议就可以了，它在传输介质层都不会有太大区别，都是光纤，速度都很快的。但是呢，Nvlink可以跳过以太网的很多，比如路由、交换，还有像什么TCP/IP以及各种的权限认证，所以它的速度会快很多。而且呢，它会跳过主板上的很多的速度限制，它会直接的在芯片跟显存之间建立起这些通道来，所以这个是会快非常非常多的。

为什么这儿还专门提了一下TCPIP？大家知道TCPIP这种协议，就是我们现在使用互联网的底层。TCPIP这个东西是为什么玩意设计的？这玩意是为军队设计的，是一个美国的国防项目。这个协议设计的时候，最核心考察的是什么？不是传输速度，是可靠性。就是我传过去以后，然后校验一下，传错了再传一次，他干的这玩意的一个协议。所以这种协议它快不了的，大家觉得速度挺快，是因为我们没有更快的需求。所以如果能够把这种为了可靠性很高、然后做了非常非常多校验的这种协议跳过的话，是可以极大的提升效率的。这是在数据中心这一头。

另外一个呢，就是在AIPC这一头。AIPC呢，其实大家都在推，但是效果都不好。AI PC就是说，我们可以在PC端直接跑一些本地模型，这些模型呢，可以在本地的GPU上进行一些工作。现在的AIPC的解决方案里头呢，基本上是有几个套路。第一个呢，是英特尔加上英特尔自己的这个GPU，或者我们叫核显吧，就是放在CPU核心里边的这个显卡，由它来去工作。AMD也是AMD的CPU加上AMD的核显来去工作。那么在这一块呢，AMD其实完胜英特尔，因为AMD的GPU本身就比英特尔的好使，而且再加上AMD的这个CPU是在台积电做的，所以它比英特尔的整个的性能都要高，还便宜。所以在这一块呢，英特尔被AMD打的有点抬不起头来。

另外的几种解决方案呢，就是使用英特尔的更小一点的CPU，加上一个英伟达比较小的显卡，这也是一种方案。但是这种方案呢，毕竟没有核显的方案效率高，所以呢，推得并不是很好，而且比较贵。还有一些方案呢，就是arm的CPU加上内部的一些GPU，也可以做AIPC来使，高通其实就推了这样的解决方案出来。

现在呢，英伟达说：“别费劲了，你在这个英特尔的CPU里头，不要再嵌入你自己英特尔的核显了，你嵌英伟达的核显。”等于一个CPU里头，外边这个CPU的部分呢，是英特尔的这个IP，里边这个核显的这部分，嵌的是英伟达的。我们做这种东西出来，这个也算是稍微有一点点想象空间吧。

那么AIPC为什么到现在就是稍微有点鸡肋的一个状态呢？原因很简单，就是本地跑大模型没什么用。为什么要在本地跑？效率又低，发热又很高，又干不了啥事。现在我们看到唯一能够在本地跑的还比较好的模型，其实是嵌入模型（embedding模型），这一块呢，做的还行。但是其他的这种大语言模型也好，或者是图像生成的模型也好，对于本地的设备来说，负担都实在太重了。而且AIPC它们能够嵌入的核显，其实都是这个比较小的核显，你大了以后你就直接上独显了。所以呢，这种稍微大一点点的本地模型，大语言生成模型什么，根本就跑不起来。

英特尔呢，自己会继续保留自己的GPU。原来英特尔也做出了它的GPU的这个设备嘛，也会继续保留它核显的IP。至于未来会不会在这一块逐渐缩减，就使用英伟达的了，现在不知道。如果是一个真正的战略投资的话，英伟达是可以提出要求，说你以后就使我的，或者优先使我的，但是现在他那个协议里头说，你不允许有这种要求。所以这个就继续玩儿吧，看看英特尔未来在自己家的核显和算力卡上到底是做多大投入了。

那市场预期的目的是什么呢？这前面是对外公开的目的。市场预期的目的是，未来是不是可以让英特尔来使用美国英特尔的芯片代工厂，给英伟达造芯片。这个是大家去这个抱有的美好的愿景。但是这件事呢，目前老黄已经出来辟谣了，说我们接着用台积电呢，英特尔现在这些代工厂呢，还要再等，现在到底到一个什么样的状态，谁也不知道。因为呢，你如果真的把这话讲了，台积电那边说：“既然你都可以到英特尔代工了，我是不是先去给博通代代工？我这反正大家都排着队的，你往后排一排，你不够忠诚。”所以老黄一定要跳出来辟谣。

美国政府前面入股了英特尔，但是入股英特尔的先决条件是什么？必须保持代工厂，不能学AMD直接把代工厂扔了，你必须要留着代工厂接着往前走。所以这块呢，是市场希望它未来可以走到这一步吧。

实际可能的结果是什么呢？芯片这种东西，从设计生产整个的周期是很长的，至少是以年计，而且呢，通常是两年往上的一个周期。所以如果审批没毛病，这个交易过了，马上就开始设计新的芯片，可能明年的CES都不可能看到，因为一般CES是在年初嘛，拉斯维加斯的这个消费电子展。2027年的CES上有可能能够看到样片，到2028年呢，估计才会有相应的产品下线。川普在这一任上未必能够看到英伟达跟英特尔合作的芯片真正装到电脑上，卖到千家万户。

AIPC呢，反正本来大家也不是很买账，我也不认为英特尔装上英伟达的核显以后，就能够把AIPC这条赛道盘活，整个的逻辑目前就没走通。

大型的云计算厂商压根都不会买账。因为甭管是亚马逊、谷歌、微软、Oracle、OpenAI，国内的阿里云、字节跳动，这些大型的云计算厂商，他们使用的方式是什么呢？他们喜欢用arm的CPU。因为arm CPU，第一，可以定制。因为arm是一个IP厂商嘛，你只要买了它的IP，你就可以来定制这个CPU，完全给自己去设计一个自己合用的。而且呢，arm CPU最大的特点是，只要是负载比较低的时候它很省电，不像英特尔的CPU似的，甭管你用不用都很耗电，但是用的时候耗电耗的更多。arm CPU就是不用的时候，耗电是非常非常省的，因为这东西最早是给手机设计的嘛。

在这个arm的CPU的基础上呢，再往上挂什么呢？自行设计的ISS的这种定制集成电路。谁给它定制呢？博通。所以刚才我们讲说，如果英伟达对于台积电不够忠诚的话，台积电就有可能排产都排给博通了，这个事也是受不了的。谷歌的云后边用的TPU就是博通给造的，现在OpenAI、Oracle大家都去找博通，说咱们再接着定制吧。现在是这样的一个路子。所以大的云计算厂商都不会买这个方案的。

那谁会买这种方案呢？企业云、政府云，他们会来买这个东西。它用的量也不是很大，而且呢，因为里头有英特尔X86的CPU嘛，还可以去跑一些普通的应用。因为你一旦是arm CPU在里头的话，它还有一些兼容性的问题，有些程序是在这种arm CPU上可以跑的，但未必所有都能跑，特别是一些比较旧的程序，可能未必再让它跑得起来，或者跑的兼容性那么好。就还是英特尔的CPU的兼容性会更好一些。

还有一些小型的云服务商也会去买这样的设备来去使用。为什么呢？它小嘛，所以它上面的很多应用就五花八门的，也比较零碎，甭管拿了什么样的应用回来，我的兼容性都很好。所以这块呢，也会有一定的订单，大型的云计算中心都不会买。

这件事情背后就真实的原因是什么？原因很简单。就是第一，Intel很穷，负债太高，快转不动了。第二，英伟达有钱，而且也没地方投。而且英伟达呢，其实一方面也在回购一点点自己的股票，但是呢，黄仁勋这些高管都在不断的往外卖。他跟马斯克不一样，马斯克是在不断的要求董事会给他发股票，黄仁勋这帮人是不断的想办法把自己的股票变现。

现在呢，一个很穷很缺钱，而且估值不高——英特尔现在真的是估值不高；另外一个呢，是真有钱没地儿投。那他跟投一下吧，投的目的呢，是继续炒作AI基础设施建设的这个概念。至于AI后边能不能挣钱不管，但是芯片你们还是要买的。资本市场对于AI基础设施建设的这个概念呢，还是买账的，所以双方的股票都在涨，涨完了以后呢，也没有掉回去。所以这就是它的真实原因，就是继续投入造AI基础设施。

现在的算力概念是如何的疯狂？这个大家已经看到了，每一个大厂都在宣布增加资本投入，建设这个算力中心。甭管是谷歌、Oracle、微软、亚马逊，国内的阿里、百度、腾讯、字节跳动、华为，所有人都说我们今年不干别的，就是花钱去建数据中心。我宁肯亏钱，我也要去建数据中心。而且呢，你只要喊说我建数据中心了，你的股价就涨。至于说你拿这数据中心到底有没有挣到钱，其实没人管你。你像Meta也是这样的，说我现在建数据中心，我买卡去了，买完卡以后那股票蹭蹭蹭就上去了。所以真的是资本市场吃这套路。

然后各大厂都在自研芯片，大量的这个推理芯片都是自己做的。谷歌我去做TPU去了，Oracle和这个OpenAI说我们去找博通，我们定一个。微软说我也去定一个。亚马逊其实一直也是在自己定制推理芯片。特斯拉说我这叫AI 5、AI 6做去。那边X.AI说我们叫X1，他们也定制了一颗这样的推理芯片。咱们这边阿里，说我们去做平头哥去了。百度叫昆仑什么这东西。字节跳动说我们也去定制一个。还有华为的升腾系列。大家都在自己定制芯片。

你的芯片到底好不好、能不能用？从现在开始喊定制，到最后能把它装上，刚才我讲了，两年往上。但是甭管怎么说，我这边喊定制芯片，那头股价就涨。你们看看阿里的股价，就是这样的一个情况。现在其实已经稍微有些疯狂了。

甚至呢，还有人跑去说投资和建设电站呢。像山姆奥特曼还有一帮人说：“我去投资个核聚变项目吧，我去建电站吧。”特斯拉说：“我现在做Megapack储能电站。”特斯拉这个储能电站概念，把国内所有的这些做锂电池的股价全拉起来了。因为现在他们说：“我们重新把这封闭的锂矿给它开启起来，我们要赶快去造锂电池去。”整个这条路又都盘活了。实际上都是走的算力基础设施建设的这样的一个大逻辑。

当然，所有这些人里头，玩的最花的呢，就是英伟达。英伟达先四处去讲主权AI，各个国家的管理者认为，说必须要有一个AI是听我的，是能够维持我国家主权的一个东西。其实这玩意是扯淡的，任何政府你要想自己去掌握一套AI的话，他们压根就付不起钱去雇佣工程师、去折腾数据，这事他就搞不定。而且这种东西训练成本极高，使用成本其实也很高，而政府的AI，它的使用效率一定是非常非常低下的。所以这个就是一个完完全全的伪命题。但是对于那些得到位置、又不想下去的人来说的话，这件事就太重要了。虽然他们自己也搞不懂，但是我先花钱花着。

而且主权AI这个东西的话，就很适合刚才咱们讲的英特尔的这个方案，使用英特尔CPU加上英伟达GPU，中间使用Nvlink直接连接的这个方案是非常非常合适的。因为它的这个主权AI的大模型，它运作的效率又没有的很高，它这个里头还有很多的这种传统业务，比如说数据库业务、逻辑业务，这些东西都是需要使用CPU的。这些业务的话，在英特尔的X86的CPU上，要比在arm的CPU上效率要好很多，而且兼容性也要好很多。但是呢，大家注意，就是给政府AI做项目的这些团队呢，他的技术可能还不一定特别好，给他一些英特尔的X86 CPU的话，对于他们的系统迁移（因为也有很多旧的项目），也算是一个比较好的消息吧。

除了玩这个之外还有什么呢？就是Codeweave。英伟达绝对尝到甜头了，投资Codeweave，投资完了以后，Codeweave再拿这个钱去找英伟达买芯片，买完了芯片了以后，把算力中心做出来。这种东西你真的做完了以后不好卖，然后英伟达再花钱，再把这个算力中心的整个的算力买下来，再偷偷的租出去。但是这样的一个运作逻辑，等于里外里全是他，这一笔钱赚个两三回，这公司还上市了。2025年3月28号上市，上市的时候价格是40美金，现在价格多少钱？124.86美金。赚死了这个事。

而且英伟达觉得这个事这么赚钱，那咱接着来吧，又整了一个叫拉姆达的公司，这个继续搞。拉姆达也是这种算力的租赁公司，英伟达投钱给他，他拿这个钱上英伟达买芯片，买完芯片建了这个算力池以后，英伟达再去整租这些算力，再把这些算力再投资给别人。因为他有时候直接投资，你反正需要算力吗，我就不给你现金了，我就直接给你这些算力就完事了。他又可以干这样的事情，就是一笔钱要赚个三四次才算是划算。

那你说他把这种算力投给谁谁乐意？他还投了一大堆的这种大模型公司呢，这些公司是乐意的。反正你要投给我钱，那你就干脆给我算力，还打个折扣，我就拿着这个就当钱使了，不就完事了吗？他投资了Cohere，这是一个比较大的模型公司，但是这个模型公司呢，主要做的是各种各样的嵌入模型，这个是ToB的一个大模型公司，很大的。另外呢，就是huggingface，这个公司呢是大模型领域里的GitHub，谁开源了项目都放他那放，所有的开源的这些大模型呢，都可以在huggingface上得到一点点算力去做测试。这些算力是哪来的？英伟达投资投进去的。还有谁呢？就是法国的Mistral，号称是欧洲的OpenAI的这公司，他也是拿了英伟达的钱。那英伟达就不用给他钱，直接给他算力不就完事了吗？这些人就愿意来接收这些东西。

然后还有呢，就是投资机器人公司。Figure AI就拿了这个英伟达的钱，拿了钱以后，就是直接在机器人里头塞英伟达的索尔芯片就完事了，他专门有一个给机器人用的索尔芯片，这个效果也还是不错的，国内造机器人很多也是在用这个芯片。

如果中美关系好，那国内这些大模型厂商、云计算厂商、机器人厂商的话，包括智能汽车的厂商，英伟达估计都能投一遍。因为以前中美关系相对还不错的时候，英特尔的投资部、高通的投资部，在国内都是非常非常活跃的。

现在呢，除了这些算力之外，又有新的概念开始炒起来了。什么新概念？机器人概念开始炒起来了，人形机器人。不说都没做出来的吗？大家都在这表演翻跟头、表演叠衣服、表演这些东西了，有能卖的吗？没有能卖的吧？别着急。

有一家正在做并购停牌的医药公司，突然宣布跟特斯拉签了一份意向书。干嘛呢？购买1万台擎天柱三代。现在马上要量产的下一代叫擎天柱三代嘛，“我买1万台”。为什么要干这事呢？说我们这是医药公司，我未来是要做制药厂的。这个公司在美国，我雇人肯定雇不起，也没有空去培训他。而且呢，医药公司里头需要什么呢？绝对纯净，要干净。那么人呢，肯定没有机器人干净，以后我们这个无人工厂里头全是机器人，就没有人了。他发了这样的一个公告出来了，在他的网站上直接写出“我们跟特斯拉签约了”。

这个事情就被炒作呀，一帮媒体看到，特斯拉的擎天柱被卖掉了，而且一下买了1万台，很多人很开心。这个事呢，马斯克亲自在X上辟谣，这个事是个假的。但是呢，那边也是一个官方消息，说我签了这么个协议。这种辟谣的原因是什么？

第一个呢，他这个协议可能规定的比较模糊，或者而且他这个不叫协议，叫备忘或者说叫意向书吧。另外一方面呢，就是他可能压根就不是跟特斯拉签的。反正马斯克肯定上来辟谣了。第一个原因呢，擎天柱三代现在距离彻底的商业化还很远；第二个是早期商业化的时候，肯定是特斯拉先吃螃蟹，而且最早开始应用擎天柱的这样的公司一定股价还要上涨一下，特斯拉说肥水不能流外人田，一定是我们自己得着的；还一个是什么？如果不按住这种势头的话，那后边冲上来蹭的人会越来越多的，那这个的话会把整个市场搞乱掉了。所以马斯克出来辟谣。这个就是怎么去造概念、怎么去蹭概念的一个故事。

最后总结一下吧。英伟达投资英特尔到底是在干嘛？第一个，咱们讲清楚，这是又一次的炒概念，核心就是炒概念，炒的是AI基础设施建设这个概念。有人买到Intel了，你赚一笔，那你就赚着就完事了。

炒概念你说算不算泡沫呢？其实很多的科技快速发展的时候都是有泡沫的，最后看谁能把坑填上。你没填上，你就是泡沫；填上了，这就是科技发展过程中必然要经历的一些小挫折。包括很多庞氏骗局其实也是这样。所以呢，大家可以相对来说冷静的来分析，英特尔跟英伟达的这个合作到底是一个什么样的故事。

咱们这个频道呢，也从来不做具体的投资意见和建议。赚了是您自己的，赔了也别找我。

好，这就是咱们今天这个故事。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

跟AI女友聊骚，竟被判「传播淫秽物品罪」？真实案例揭秘AI法律红线！

Luke Fan — Wed, 13 Aug 2025 01:03:12 +0000

新时代和AI女友聊骚，有可能会触犯传播淫秽物品罪，这到底是一个什么样奇葩的故事？

大家好，欢迎收听老范讲故事的YouTube频道。

今天我一个朋友，向我推荐了一个有趣的案例。他是在视频号上，这个账号的名字呢，叫做“武汉刑事律师郭庆子”，是一个黄标认证的律师。这位律师呢，经常会把自己接听有刑事诉讼需求的听众的一些电话的过程录下来，再进行剪辑。因为这种东西，我估计不太好直播，总是要剪辑一下。一方面呢，是一些太敏感的信息就可以去掉；另外一方面呢，剪辑了以后呢，也会更有吸引力一些。

这个里头呢，有一位听众来电了，说使用AI应用，这个AI应用里头就提供一些AI女友，你可以跟她们去聊天。他通过自己捏脸，塑造了一些AI女友，大概塑造了9个，起的名字呢，都是比较有诱惑力的名字吧。这些AI女友，除了它定义的名字和捏脸之外呢，估计有可能会可以定义一些系统提示词。但是呢，这个视频很短，并没有去详细说具体是哪一个AI应用，或者说他到底在里边定制了哪些东西。总之呢，他定制了9个AI女友。

这些AI女友不单是可以跟他自己聊天，还可以跟平台上的其他用户去聊天，那么他就被提起诉讼了，叫“传播淫秽物品罪”，要求他呢认罪认罚，判6个月，可以缓刑，基本上应该就不用进去了。但是呢，这位听众呢，希望做无罪辩护。法官认为他是有问题的，不认罪认罚的话，就会判8个月的有期徒刑，这要判实刑的。

这个律师呢，就进一步的跟他确认了一下信息。首先呢，你知不知道自己创建的AI女友，有可能会去被别的用户使用？这个听众呢说的很模糊，就是说呢，我不太清楚。其实按道理说他应该知道，他也去平台上跟其他的AI女友聊了天了嘛，而且他把AI女友的名字起的这么诱惑，也希望他的AI女友受欢迎。其实就有点像我们去发微博，希望有人看，写小说希望有人点击点赞，这个过程是一样的。但是呢，他说并没有明确的告知他，这些AI女友会跟其他人去沟通。

然后呢，他就问说，对方提供的证据是什么样的呢？他说人家是给了一个Excel表格，这个Excel表格里头呢，有一个叫做“AI女友的ID”，然后呢是具体说了哪些露骨的话，大概给她搜集了60得多条。然后呢，问了一个很关键的问题，是什么呢？就是说那个您创造了一些AI女友，这些AI女友去跟别人聊天去了，获利了没有？你是不是在里头挣钱了？这个听众很明确的告诉他说，没有获利，大家就是在里头玩个开心。

这个律师的建议是什么呢？第一个，这个证据呢并不是那么可靠。这个Excel表格里头只有AI女友的ID，这个内容没有办法说确定证据，说这东西就是你的，这个还是可以去抗争一下的。第二个呢，就是你没有主动传播的意愿，你自己也没有主动的去把这些AI女友推荐给别人，只是说我自己创建了，本来以为自己玩呢，AI女友去跟其他人聊天的过程，你又不知道，这个事情呢你还是可以去抗争一下的。而且关键是你没有获利，你没有获利的话，你就没有主动传播的意愿，这个地方是可以去辩护的。说最怕的是什么呢？最怕的是法官主观意愿认为你有罪。现在的话有很多的法官确实道德标准非常非常高，以道德去超越法律给人定罪，这种事情呢是时有发生的。你像杨景媛这样的人也通过了法考，也是可以去做法官的，所以大家还是要小心。他说如果遇到这种事情就都很难办。

AI色情内容，在全世界各地都是怎么去判的呢？或者是有哪些判例呢？

首先咱们讲中国的判例。2025年3月，湖北省大冶市人民法院对首例利用人工智能技术撰写色情小说并牟利案件作出了宣判。被告人柯某因犯制作、贩卖、传播淫秽物品牟利罪，被判处有期徒刑十个月，并处罚金人民币5,000元，同时追缴全部违法所得。这个案子是什么样的情况呢？2022年11月到2023年3月期间，柯某利用AI程序撰写色情小说，使用翻墙软件在境外黄色网站发布并售卖。他利用AI工具生成色情小说，再利用AI翻译成外文，发布在境外网站上。短短5个月时间发布了数十篇，共计售卖了760篇次，获利22,800余元。经鉴定，送检的7篇小说均为淫秽物品。法院根据《中华人民共和国刑法》第三百六十三条第一款规定，认定柯某以牟利为目的，利用AI文本生成工具制作、贩卖、传播淫秽物品，非法获利2万余元，其行为严重违反法律法规，对社会风气造成不良影响，已构成制作、贩卖、传播淫秽物品牟利罪。

然后陕西周某某案，他是利用AI制作了4,369张淫秽图片，以制作淫秽物品牟利罪被判处有期徒刑4年，他这个数要更大一些。然后杭州于某某案，通过AI换脸技术合成淫秽视频传播，获利6万余元，以制作、传播淫秽物品牟利罪被判处7年3个月。他这个呢，一方面是挣的钱多，另外一方面的话他是换脸，因为换脸你不光是淫秽物品，还侵害人家的名誉权呢，所以他这个要判的更重一些。

中国的传播淫秽物品罪，量刑标准是什么样的呢？就是淫秽视频文件20个以上，或者是音频文件100个以上，或者是电子刊物、图片、文章、短消息200件以上。所以刚才这个案例里头呢，600条淫秽聊天记录，这个肯定是超过了。另外呢，叫违法所得5,000元以上，他这个没有牟利，所以还是可以去稍微抗辩一下。但是呢，中国有俩罪，一个呢叫“传播淫秽物品罪”，还有一个呢叫“传播淫秽物品牟利罪”，所以不牟利呢也未必逃得过去。

那你说国外是什么样的呢？是不是只有中国这样了？国外呢主要是分两类。比如说他有色情网站，也有合法的，只要确定对方是成年人，你给他一些淫秽物品，哪怕说在这个过程中你还牟利了，应该在有些国家是没事吧。但是你真的到中东这些国家，你传播这个东西，那有可能是要判死刑的，咱们这不讲了，咱们就讲一些欧美的案例吧。

2023年11月，美国北卡罗来纳州夏洛特精神科医生，他呢是制作未成年人视频，并利用网络AI工具，将照片改造成色情图像，被判生产、传输及持有儿童色情制品罪，法院判处40年监禁。所以他们呢基本上是两类，一类是色情，一类是deepfake。传播淫秽物品，你只要别传播给未成年人，一般不是特别大的事情。但是你一旦遇到了制作儿童色情，包括持有，你说我不传播，我持有，这事都是违法的，而且判的非常重。

2024年5月20日，威斯康星州42岁男子使用Stable Diffusion生成了数千张儿童色情图片，并发送给了一名15岁的男孩，被控生产、分发、持有AI生成色儿童色情图片，判有罪，最高可判70年徒刑。他这个最后判了多少我没有确认，因为是ChatGPT给我搜集的信息。但是呢，它这个量很大，制作了儿童内容，而且还传播给了未成年人，它这个是罪大恶极了。2025年5月22日，佛罗里达州有一个叫Oldsmar案，他是制作、分发了8,500张AI生成的儿童性虐待图片，同时持有大量真实的图片，被判了75年的联邦监禁。

这个是一类。另外一类呢就是deepfake，就是做假脸的，这种案子在欧美也是判的很重的。2023年，路易斯安娜州通过法律，禁止未经同意使用他人面部制作深度伪造色情影像，违者至少10年起步。2024年10月30日，韩国首尔大学毕业生Park（应该估计是姓朴）和他的同伙，两人利用日常照片制作约2,000个deepfake照片，包含未成年人，在Telegram售卖以及共享，被法院判处Park 10年监禁，Kang 4年监禁，并公开身份，以及参加性暴力课程。这种基本上就是你判了刑还社死了，因为身份给他公开了。2024年10月28日，新加坡一位50岁男子，偷偷在家安装摄像头，拍摄妻子23岁的侄女，并利用手机应用将其脸合成为色情视频，法院判处了21周监禁。这个就是估计他没有传播吧，还是判了监禁。

现在呢，AI对于成人内容的边界到底在什么地方？我去稍微的看了一下。首先呢是文字模型，ChatGPT、Gemini和Claude这三个，咱们叫“御三家”的三个大模型呢，相对来说是比较严格的。你要求它生成一些色情内容，或者说对一些敏感内容进行详细描述的话，都会被拒绝服务的。马斯克的Grok 4，只要不涉及儿童和性强迫，其他的基本是百无禁忌。即使是涉及刚才我们说这些东西，边界也是相对来说比较模糊的。

至于开源模型呢，这块就比较混乱了。开源模型分两个大的这个角度，一个呢是有平台提供的，比如说我今天到阿里云的百炼平台上去使用通义千问的这个大模型，它是要进行检查的，这个也是比较严格的。但是呢，你说我把通义千问的这大模型下载下来了，自己在这个家里头部署，这块呢它会进行一定的限制，但是就没有那么严了。它主要是给了大家一个知情同意书似的东西，就说你现在下载了我的大模型，自己回去部署去了，但是你自己要知道不可以拿这个大模型做坏事，不可以生成成人内容。你说我知道了，我同意了，你就可以把这个模型下载走。至于拿这个东西再去干什么，他也管不着你，他也不愿意为你拿着他的大模型再去做的进一步的事情负任何责任了。所以呢，所有开源的模型基本上都是走的这条路。而且呢，这些开源模型呢，即使是会设置一些这种限制，其实绕过去也并不难。第一个是Hugging Face上，就是我们说大模型开源的这个平台上，有很多微调的模型帮助大家去绕过这些限制。还有一些呢叫“越狱提示词”，也在网上去流传。什么叫“越狱提示词”？就是你先跟这个大模型说一句什么什么样的，说完这个话以后呢，再往后的所有聊天，这个限制就直接突破了。当然目前为止，传播训练过的突破限制的这些模型，或者是传播越狱提示词，到底算不算传播淫秽物品罪，这件事呢还属于法律上的盲区。他们也搞不清楚这东西到底是怎么工作的，所以呢还没轮到这些道学先生们去审判这两样真正产生色情内容的这个技术。

再往后呢，就是图片跟视频生成模型。你说我光生成一堆色情小说，这个事看起来也是很累的，但你说我有色情图片、色情视频，这个不是传播力、感染力更强吗？在这块呢，Claude是没法生成视频和图片的吧，反正我因为我自己用的少，我也没有怎么看到有人用Claude生成这种东西出来给大家去展示。ChatGPT和Gemini在这块呢，相对来说都是非常克制的，你要求他去给你画一些奇怪的东西，他就直接画不出来了，直接拒绝服务。Midjourney，这是我用的比较多的，对于NSFW内容（我们就用这个词吧，就是不方便在办公室公开环境下展示的这些内容），对于这些内容呢会进行事前拒绝，但是生产出来的东西呢就不好说了。什么意思？这种图片生成模型它是两步，第一步呢是你要给它提示词，第二步呢是生成图片。他们正常的检测呢，应该是两步都检测，就是你给的提示词里头如果包含一些他不喜欢的东西，他就会拒绝服务；它生成出来的东西如果包含有问题的东西，也应该是拒绝将生成的结果交付给你。应该是做两步，但是Midjourney呢只做一步，就是你给它提示词，如果这个它认为不对，它就拒绝服务了。但是如果你绕过它了，他觉得好像还可以，就给你生成去了。但是生成出来的东西到底是什么样，他就不管了，这个有可能会有一些不方便传播的内容被生产出来。至于马斯克家的Grok 4的图片跟视频生成这块呢，反正马斯克家的嘛，大家能够理解，它是可以生成半裸内容的，全裸不行，也可以生成名人的形象，但是你要求名人半裸，这个事是不行的。因为一旦要求名人半裸的话，等于是在给这些名人造黄谣，或者说损害他们的形象，这个事是不允许的。刚才我们也讲了，在海外，儿童的不行，deepfake侵害别人的名誉权，这两个事是不行的，其他的反正有它适用的一个法律吧，你只要别把这东西传给未成年人就OK了。但是你就想吧，国外那些色情网站上，你进去第一个是先问你是不是已经满18岁了，他也没法实际去判断你到底是不是满了，但是反正上来我给你做了这一步了，“我满18了”我就可以进去看，“没满18”我就给你退出来，这个就算是已经可以在法律上算合法合规的一个玩法。

那么视频跟图片模型的开源模型是什么样的呢？在这块呢跟前面我们讲的文字模型基本上是一个玩法。如果是有平台，平台是要担负责任的，两头都要管。输入提示词，如果他认为有问题，拒绝服务；他根据你的提示词生成出来的内容，如果他判定不利于传播，他也会直接拒绝交付。你在这个时候可以要求他重试，“你再给我画一次”，这个是可以的，但是他不会把不可传播的东西交给你，他是这样来工作的。下载单独部署的这些开源的图片和视频模型的话，就跟刚才我们讲的这个文字模型是一样的。下载之前给你一个知情同意书，说我知道了，我下载这个模型不可以去生成成人内容，我不会拿它去做怪事。你同意了，你就可以下载，至于下载了以后他就不管了，你自己拿回去随便了。在这种图片模型上，还有一个比较好玩的东西，叫Lora模型。这个模型叫什么呢？叫low-rank adaptation，叫“低秩适配”。这种模型呢，我们也管它叫小模型，它一般尺寸都比较小，就是用比较少的数据进行一些训练。当你调用这些模型的时候，你生成出来的这个图片就符合特定的需求。你比如说吧，咱们最常用的Lora模型是什么呢？对人脸进行训练，然后你就可以冲上去换脸了。甭管人家是什么照片，说来把这脸换上，惟妙惟肖的给你换上，不会像以前那种拿Photoshop换脸似的，总觉得这个脸是歪的呀是斜的呀，拼的没有那么准，不会出现这样的问题。现在主要的一些色情Lora模型是做什么的？有些人训练这个东西还去传播，他们呢主要是对敏感部位进行单独的训练。原来那些大模型有一些限制的时候，或者说对于这种敏感部位没法进行详细生成的时候，他们使用这些小模型，可以生成这种有非常清晰敏感部位的这种图片出来。但是呢，这个你说是不是罪大恶极，也不一定。我个人还是觉得，Lora对这件事情还是有一些正面的帮助。什么样正面帮助呢？因为大家都喜欢使用相同的Lora模型去生成成人内容，所以导致呢脸可以千变万化，但是身材都异常夸张，而且千篇一律。你看两次以后，就直接失去兴趣了，大概就是这样的一个效果。

现在大家都在玩什么呢？现在大家都在玩通义万象2.2，这个模型叫WANX 2.2，它呢是由阿里通义这个平台最新出的图片跟视频模型。这个模型你在阿里平台上使，它是规规矩矩的，你要求奇奇怪怪的东西会直接拒绝你。但是你如果把它下载到本地去安装了，不需要挂任何的Lora，不需要挂这些小模型，就完完全全可以生成NSFW的这种内容，就是不利于在办公室和公开场合去传播的一些内容，就可以做的很好了。它呢可以跟常见的这些ComfyUI或者是Lora相兼容，可以一起去工作。你说有些人训练好了这些成人的Lora模型，这种小模型，你就可以把它挂到万象2.2里头，直接干活，没毛病。

说远了，我们不建议大家去做这件事情，只是跟大家闲聊一下。回到AI时代的法律判罚问题上来。首先，传统大公司都是比较谨慎的，马斯克除外。第二，开源模型才是重灾区。平台方是有人管的，私有部署基本上就没人管了。但是呢，在海外还有一些平台方也是没什么人管的。就以刚才咱们讲的通义万象2.2为例，你在阿里的平台上，你下载出来的就是WANX 2.2，但是如果你到WANX.AI这个网站上，你就会发现那个上面还有一个模型叫WANX 2.2 no filter，就是不过滤。这个东西干嘛使的，大家自己按照文字的字面自己去猜去。

开源模型厂商通常使用知情同意书的方式，告知用户不要去做坏事，以此方式逃避自己的法律责任。儿童色情必须严判。Deepfake这不仅仅是淫秽物品那么简单了，你还毁坏别人名誉，这个呢现在各国也都是进行严判的，包括中国也是。严判国内的传播淫秽物品罪和传播淫秽物品获利罪还是很严苛的。在AI的帮助下，数量很容易就突破了。不论是不是AI生成的淫秽物品，就是淫秽物品，在国内判罚上基本上是这样认定的，你跟AI没关系，只要是淫秽物品我们就认。如果获利，这件事情基本上就没跑，肯定是会被判罚的。现在还有一些法官道德感非常强，遇到这种法官，律师们也是觉得头疼的。所以提醒大家，所有在国内的还请洁身自好，不要去触碰法律红线和一些人内心的道德底线。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

Luke Fan — Tue, 29 Jul 2025 00:57:08 +0000

遥遥领先的华为升腾384超节点，是不是又立功了？

大家好，欢迎收听老范讲故事的YouTube频道。

上海人工智能大会上，有一个镇场之宝，就是华为升腾384超节点。叫这个名字很怪，其实就是华为做的算力超级节点，华为云矩阵。384超节点这个东西，从外边看上去呢，像一堵墙一样，反正摆在厂子里头也确实比较唬人，而且也很昂贵。

很多人就兴奋了，说我们是不是又打破了西方的垄断呢？西方人对我们禁运，不给我们卖英伟达最好的芯片，我们自己造出来了。这个事到底达没达到呢？可以说部分达到了。在集群总的FP16算力上，为什么一定要强调这个？就是它在不同精度上的算力是不一样的。在FP16算力上呢，华为升腾384超节点，是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢？

现在我们去想算力，它是分三个层次的。第一个就是卡，卡这件事呢，咱肯定比不过人家，甭管你是比H100还是GB200，你根本比不过人家。第二个呢，就是叫整机，我是一台服务器。你像AMD呢，就是卖这种东西，就是我一台服务器里头有8个，他们叫MI300这样的服务器。第三种维度呢，就是说我给你卖一整个柜子，像NVL72呢，就属于整个柜子，我把72个H100或者72个GB200这样的东西，装在一个柜子里头，当成一台机器一把卖给你。

现在西方最主要的算力节点，就是NVL72。但是呢，同样的NVL72呢，它里头到底装的是H100，还是装的GB200呢？它算力是不一样的。华为升腾的384超节点，它超过了H100的NVL72的算力，但是呢，达不到GB200的NVL72的算力。虽然在其他方面呢有所欠缺，但是呢，也算是突破了一层西方限制吧。这个欠缺的部分，待会儿我们再去讲。

升腾384超节点，到底是一个什么样的架构呢？一面墙，为什么是一面墙？它是16个标准19寸机柜，这柜子的大小是有标准的。NVL72就是英伟达的，这个设备呢是一个柜子，咱是16个柜子。这个16个柜子里头呢，4个柜子是交换机，因为你这么多设备要拼在一起，你总是需要一些网络交换设备，去支撑它们的。所以有4柜子交换机，剩下12个柜子呢，是装的算力服务器。

每个柜子里头呢，是4台4U的升腾服务器。这个服务器呢，是按1U、2U，大概4U应该有这么高吧，这个就是4U的服务器，4台装在里头。当然它也装不满，这一个柜子里头应该是19U还是多少U，我记不太清了。剩下这空间，你还得放各种的路由设备、交换设备，因为你这些服务器之间，你还要通讯呢。

所以12个算力服务器柜里头，每个柜子里装了4台服务器，每个服务器里头呢，是4个鲲鹏920 CPU和8个升腾910C的NPU。所以呢，他把所有的NPU算一块，就是升腾910C的NPU，算一块呢是384个，这个名字是这么来的，384超节点。它等于是把384个NPU搁在一起，给大家干活儿。

鲲鹏CPU呢，应该是一个兼容ARM指令集的自主IP的CPU。鲲鹏早期的CPU呢，是使用的ARM IP，后来呢，为了防止美国人告他嘛，所以呢，他自己研究了一些新的架构，说我们不再使用ARM架构了，但是呢，它的指令集呢，还是部分兼容ARM的。里边装的操作系统是什么？鸿蒙，里头装的鸿蒙操作系统，但是它是专门给服务器用的。

升腾910C呢，也是一个自主架构，叫达芬奇架构的一个NPU。所谓的NPU呢，叫神经网络处理单元，实际上呢，是一种ASIC处理器。它是自己定制的一个大型集成电路，所以它不是CPU，它有自己的指令集，跟任何的CPU、GPU的指令集都不一样。这个是910C，这两个芯片呢，应该都是7纳米的芯片。但是现在嘛，华为的芯片都搞得神神秘秘的，做了一大堆7纳米的芯片，到底谁做的也不知道，怎么做出来的也不知道，反正就是7纳米的，把这些芯片造出来了。

下一件事是干嘛？就是要通讯。所有的这种算力服务器里头，实际上是三样东西。一个是GPU跟CPU，第二个呢是它的内存，这里头也有HBM内存，它的内存比NVL72给的还多，因为它里头的芯片多嘛，这个装了这么多柜子，咱总要多放一些。第三个呢，就是要通讯，卡跟卡之间是要去通讯的。

像这个NVL72，就是英伟达的这个设备呢，它里头使用NVLink呀，使用其他的一些协议，和一些专门的设备，去让它们进行通讯。不同的卡，它可以直接去调用其他机柜里头的HBM，这种高速的显存。这样的话，它的效率就会很高。拿这个设备去做大模型训练和推理的人呢，就完完全全可以把这一柜子72个GPU，当成一个GPU去使用。里头具体咋调动，你不管了，这个数据到底是放在哪个服务器的哪一个卡旁边的HBM的空间里头，你也不用去管了，它自己去调度去了。而且速度都很快，即使是跨服务器跨卡的这种调度，它不会影响任何速度。这是NVL72处理的方式。

升腾384超节点呢，服务器比别人多，里头的卡也比别人多，人家72个卡，他384个卡。他的通讯呢，肯定是处理起来更复杂的。它通讯呢，使用的是全线光模块，像NVL72里头还是有一部分是铜线的，有一部分是光模块，这个里边全是光模块，堆料堆的非常非常足。这样可以保证呢，这些芯片之间的通讯，服务器之间的通讯效率都非常高。所以为什么这里头，还有4个柜子的交换机呢？那些光模块，有些还是要通过交换机的交换以后，才可以找到下一个机柜里边的服务器，然后在里边找到你需要的地址，找到你需要的数据，才可以把它拉回来。所以呢，它整个的运作方式还是比较费劲的。

当然，光模块多了呢，也有光模块的问题，不是说我们上了光模块就完事了。光模块的问题是发热严重，它里头是个激光发生器嘛，故障率也比较高，这个玩意比较爱坏。还有一个问题呢，就是它的激光发生器的寿命呢，不是很长。所以使用这么多的光模块，它的运营维护成本和稳定性呢，都不是那么理想。

物理上连通了，那下一个问题是什么呢？我就要通过软件逻辑和分配上，我要把刚才我们讲的光模块这些缺陷，要给它处理掉。以前做工程上，有一个典型的故事，叫99米长的枪，什么意思？就是说我这个枪只能打一米远，但是呢，我要打中100米之外的那个鸟，怎么办？作为工程师来说，处理的方式就是造一支99米长的枪，把这个枪伸过去，乓一下，把那鸟打死。这个在工程上呢，并不可笑，在工程上，很多的解决方案都是这样的。

所以呢，升腾384超节点呢，也用了一些软件和逻辑的方式，来去解决光模块不稳定性的问题。它会自动的去判断说，我这不是不是光模块断了呀，还是说哪块出故障了呀，我怎么绕一下。它在每一个NPU外边挂了6-8个光模块，这坏了以后，还有其他路径可以走，我可以做冗余备份吗？

我们用了16倍的英伟达NVL72的体积，和3倍的耗电，来解决NVL72加上H100芯片所能达到的算力需求。这个就是我们现在干的活。三倍耗电这事很好理解吗？人家是5纳米或者是3纳米，咱们这个是7纳米，肯定是耗电发热要比别人厉害。人家是72个芯片，咱们是384个芯片，你比别人耗3倍的电，这个还算是好理解的一个地方。

它的功率呢，是559千瓦，开起来以后还是非常非常耗电的。559千瓦呢，还只是机器的耗电，还没算散热呢。散热加上以后的话，可能会到600-700千瓦之间的一个耗电。为什么这么说呢？升腾上一代做的类似这种东西，大概是10%的耗电量来去散热，比如这边用100瓦的电量去做了算力了，那边用10瓦的电量去做散热，他是这样来去做的。但是呢，这个384超节点，因为里边用了太多的光模块，好像是用了6000多个光模块，那么你的散热的耗电的话，肯定也是要上升很大一块的。散热不好的话，你的激光模块损耗的就会更快一些。它整个的系统完全是强制水冷，其实NVL72也是强制水冷，只是呢，它在一个柜子里，相对来说还比较好弄。升腾384超节点呢，因为在16个柜子里，整整一面墙，你要再给它配水冷呢，这个事费点劲吧，但是还是可以解决的。所以耗电比较厉害。

那么电费呢，中国还是相对来说比较便宜的。中国的工业用电呢，大概是6毛钱一度，其实美国也差不太多，我看了一下美国的平均工业用电，大概是8美分多一些吧，大概也是6毛多钱。美国有一个州电价比较便宜的，是路易斯安娜州，4毛多钱一度电。美国大概最贵的是加州，14美分，大概快一块钱一度电了。加州因为硅谷在那嘛，再加上机房也比较多，所以他那的电特别贵。中国的发电大省，比如说像云贵、内蒙、新疆这些省，如果是集中大规模的采购用电的话，应该可以做到2毛多一度电。按照咱们最便宜的电费，跟美国的平均电价去比较的话，我们的电费是他们的1/3。所以呢，我们耗英伟达NVL72三倍的电，这个也是可以接受的。所以我们依靠电价优势，勉强可以抹平成本。

升腾384超节点的生态如何呢？英伟达之所以可以打败天下无敌手，核心的原因，不是说别人造不出来这样的东西，而是呢，它有一个生态捆死了，大家离不开它。CUDA呀、NVLink呀，这些生态帮助老黄，整个的竞争过程中无往而不利。那你说我们现在做了一个升腾384超节点出来，如果大模型没法在上头跑，也没法在上面训练，这不是白干了吗？你就像英特尔搞不定这个事儿，AMD也搞不定这个事儿是一样的。虽然AMD说我造得出来，你也能将就使，但是你说我要进行大规模训练了，很少有人去选择AMD的设备。

现在呢，大规模使用的GPU其实就是两种。第一种呢，是英伟达的H100、GB200，GB300现在还没发布呢。另外一种呢，是谷歌的TPU。谷歌TPU就是说，反正我自己做自己用，我也不需要考虑兼容性问题，我就自己干了，我也不卖给别人，它的量也很大。另外呢，像亚马逊跟微软呢，都号称是自己要做GPU，特斯拉和XAI也号称自己要做GPU，但是都在号称的阶段，还没有动起来。山姆·奥特曼呢，也号称要跟孙正义一起拿ARM的IP，自己去做GPU，但是这件事呢，也停留在号称的基础上，也没有实际动作。所以现在真正广泛应用的大规模的GPU，就是英伟达和谷歌。这个里头最核心的原因就是生态。谷歌之所以能够大规模应用，就是我不管生态了，反正我自己使，你们不需要跟我兼容就完事了，否则根本没法跑。

咱们说回来，华为升腾384超节点，它的生态怎么样呢？第一个呢，是华为自己做了一个叫MindSpore这样的一个开源的推理和训练框架。你说我现在想用升腾384超节点，去训练我的新模型，你就使用它这个玩意就可以了。它呢，大概可以兼容70%-80%的CUDA指令，但是毕竟不能完全兼容嘛，你如果原来已经习惯了CUDA的编程的话，你可能到这边来去做训练，还是有问题的，你还是要去花时间去做迁移的。另外呢，PyTorch、TensorFlow、Hugging Face Transformer这些框架呢，升腾呢，也专门做了兼容性适配，就是我专门写一个模块，你只要带上我这个模块以后，你这个PyTorch，你的TensorFlow，你的Hugging Face Transformer，这些推理和训练框架，就都可以在升腾的384超节点上跑了。所以呢，如果大家说原来的这个系统，是在PyTorch上跑的，你也不需要再去做迁移了，直接在它这上就可以跑了，兼容性他们都给你测好了。所以呢，属于叫部分的兼容吧。

如果你真的是说我训练新的大模型，建议大家还是不要跟自己找不痛快，还是老老实实的去使用英伟达就完了。但是你说我拿回来做做推理，拿来去做一些后期的使用的话，升腾384基本上是够用的，没有什么太大问题，你只要别嫌它占地儿，别嫌它耗电，这个东西还可以使。

那你说为什么不能拿它做训练呢？刚才不是说它可以训练吗？而且训练的算力也不差。大家注意，训练呢，是一个非常长期的这种连续任务，你中间停了坏了以后的话，你是需要重新干的，你说让他接着往下干，这事很费劲。它里边有大量的光模块，而且这个玩意的故障率很高，寿命也不是很长。你如果跑着跑着出故障了，里头有一个光模块烧了，你的这个训练呢，未必会停下来，因为它通过了一些软件方式，让你去规避这个错误。你可能只是说我训练的过程中，哪一些数据取回的速度变慢了，但是呢，我还在接着往前慢慢跑。但是也有可能跑着跑着就直接出错，咔嚓就扔那了，这个可能性是很大的。

你像马斯克，他自己用的10万块H100，Meta这种几十万块的H100，他们去做这样训练的时候，还经常是说我跑着跑着突然就退出了，突然就崩了。那崩了怎么办？重来一遍呗。对于他们这些平台来说，你可能跑10次崩个两三次，但是你对于升腾384这样的超节点来说，你可能跑10次会给你崩个八九次，这个也许就突破忍受极限了，就没法忍了。他大概就是这样的一个情况，就是有些情况呢，咱们能用了，有些情况还是稍微费点劲的，跟它整个的硬件架构是有关系的，跟它的兼容性也有关。它毕竟没有100%兼容CUDA嘛，所以大家在CUDA上做训练的代码，拿到这边来再跑，还是会有很多问题的。

那你说华为升腾384超节点，最大的作用到底是什么呢？第一个呢，还是给国内算力中心了一种新的选择，否则你没得选，你只能是要么拿自己的卡或者服务器，这种完整可以拼在一起的算力节点，也算是一个工程上的突破吧。信创产业也算是填补了零的空白，因为现在很多是要求信创嘛，所有的必须是自主可控，自主的操作系统，自主的CPU，自主的GPU，所有都要自主的。我们现在迷信这玩意，原来呢，这些人没得选，现在等于是有的选了，也算是一个工程奇迹，就是99米长的枪。这个故事呢，大家别觉得可笑。

H20的库存呢，前面老黄在中国各种的表演之后，算是把他这个库存清了。川普呢，又要带着企业家来访华了，下次谈点什么，大家要想一想。上次黄仁勋是怎么去说服川普，说把H20解禁的呢？是告诉川普，华为的升腾910，已经基本上可以达到H20的水平了，你再不让我卖，我这就没意义了，人家也都做出来了。所以他把H20卖了。现在是华为升腾384超节点出来了，他说你看我这H100，加上NVL72的整个架构的性能，也被人超过了，咱就卖吧。至于GB200这个呢，咱们再看一看，现在它还没达到，不行咱们再把这个摁住了，或者说等我这个GB300出来了以后，咱们再把GB200的这套东西卖了。可能下一轮的解禁就要来了嘛。所以大概率川普老爷子还是比较好面子的，等他下一次带着企业家团队、一对CEO团队来访华的时候，H100的NVL72就可以卖了。

总结一下，升腾384超节点在工程实现上，确实有遥遥领先的地方，有一些敏感单位，可以选择全国产设备了，这个原来搞不定，现在可以搞定了。有很多瑕疵和不稳定的地方，用的越多，迭代越快，改进的呢也就越好，永远都是这样的。第一次拿出来都是磕磕绊绊的，第二版第三版第四版，慢慢就改好了。这个对于突破海外封锁，让美国进一步放宽管制来说呢，是有巨大作用的。如果是商业公司，哪怕你去选择H20，也比选择升腾384要划算。如果你不着急的话，可以稍微等一等H100，我相信H100在今年可能很快就会解禁。如果后面美国进一步放宽管制的话，英伟达的股票大家可以再关注一下。董王呢，是一个好大喜功的狡诈商人，黄仁勋也是。变化应该就在不远的将来。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友，加入我们的付费频道。再见。

华为盘古大模型陷入通义千问抄袭风波，为何遵守了开源协议却依然被骂？当“遥遥领先”的民族自豪感遭遇“瓜田李下”的尴尬现实。

Luke Fan — Mon, 07 Jul 2025 00:39:13 +0000

华为开源了盘古大模型，被指抄袭。华为到底冤不冤呢？

大家好，欢迎收听老范讲故事的YouTube频道。华为开源了他的盘古大模型，它的模型呢，反正依然是山海经风格的起名。原来呢，没有开源，都是说我们内部开发内部使用，或者说我们专门供政府和大企业来使用。但是现在发现开源这条路不错，那我也开源吧。结果开源了以后就出事了。

它是6月30号在GitHub上就直接开源了，号称呢是在升腾芯片上训练出来的大模型。以前呢，我们的大模型大多是在英伟达芯片上训练，但是呢可以在升腾的芯片上去做推理。现在说，我直接在升腾芯片上做训练，也算是一种小的突破吧。

他呢，其实发了两个模型：一个是72B的MOE的模型，就是混合专家模型；然后呢，有一个70B的稠密模型。做呢做完了，但是准备开源还需要准备一段时间。开源这件事，不是说你做完了，把它扔出来就完了，还是有很大的工作量需要干的。比如说你要去写开源手册、许可证，这个还不是那么容易，还在做。

发出来以后呢就被质疑了。有一个叫honest AGI的账号，他在GitHub上发了一个项目，说我用这个LIM fingerprint这种方式呢进行了验证，就是叫大模型指纹的一种算法吧。它的验证是什么呢？它叫关注度的一个模型相似度吧。就是什么呢？就是说我每一次进入一个模型去提问题的时候，模型是分很多层的。在每一个层里边去响应问题的时候，基本上有四个指标：一个呢是问题question，一个呢是key，一个是value。

因为大模型里头都是先给出了问题，然后呢看看你到底是拿到了哪一个关键的key（关键钥匙），以及这个钥匙所对应的值，也就是value。还有一个呢就是它output是什么，输出了什么。就是你的问题进入到每一个层级的Transformer的这个模型里头去，你就会形成这样的四个指标。形成的向量就是问题是什么，key是什么，value是什么，输出是什么。

它把这些跟注意力相关的指标呢形成了一个指纹进行比对。指纹这种东西不要对着自己手看，跟这没关系。稍微讲一个形象点的意思：很多人都知道计算机可以做人脸识别。我们在人脸识别的时候，化个妆是不是认不出来了？不是的。计算机做人脸识别的时候，也是对人脸进行了指纹抽取。他怎么干的呢？他其实比对的是人脸上面的这个眉毛、鼻子、眼睛、嘴之间的比例和角度。为什么这么做呢？因为计算机没法判断说，我哪一次做人脸识别的时候……

你到底是正脸拍的，侧脸拍的，是拍多远多近？所以他都是先要使量化。然后呢，把你整个的眉毛、鼻子、眼睛、嘴变成一个比例和角度的简单模型。最后，只要是符合这个比例和角度的，就是你。你比如说我戴个眼镜，或者是在身上画一点别的妆容，它其实是不会影响人脸识别的。

在什么情况下，人脸识别会不准呢？就是一个小孩从小长大的这个过程中，如果没有中间过程的话，他就认不出来了。因为你这个比例变化了，人小孩长开了嘛，这个是不认得的。其他的一般都不会发生认错的情况。

所以呢，大家基本上可以理解说，从大模型的每一层进入的过程中，它的这个问题，key、value和输出，每层都算出来以后，形成了一个指纹进行比对。然后发现呢，盘古大模型所得到的这个注意力模型呢，跟千问2.5 14B高度一致。正常的两个独立训练的模型呢，这种相关性的话应该在0.7以下，这到头了就是完全一样就是1，完全不一样是0。所以正常的两个完全不相关的应该在0.7以下。

但是呢，盘古72B MOE的这个模型呢，跟通义千问的2.5 14B的这个模型，相关度达到了0.927，基本上就认为是一样的。他为了说明说你看我这个算法是准的，还把Llama3.1的这个也拿出来算了一下，说你看确实差的很远。但是呢，用他这个算法去算，比如说国内的其他一些模型的跟千问2.5 14B，也有一些到0零点八几的，也都比较像。好像百川的一些模型也很像。所以呢，也没有那么准吧。但是0.927这个事呢，确实是有点过分了。不能说这个一模一样吧，稍微有一些差别。但是呢，你穿了马甲我还是认识你的，大概就是这样的一个程度。

于是呢，大家开始质疑盘古大模型是不是在千问2.5 14B的基础上做的增量训练呢？我在你原来已经训练好的模型上，我再加一堆数据，咱们再训一遍，是不是这样得出来的一个东西？华为呢就赶快出来辟谣，说第一个你这个测试方法呀并不科学。fingerprint这个方法呢，其实存在了一段时间了。但是呢，使用这种方法直接用数值去进行模型比对出结果的这种方式呢，应该是honest AGI是第一次来使用。具体测试方法呢，其实并没有完全公开。你不公开这个方法的话，你就没法复现这个事。因为一旦是被人指责说你抄袭了，那我看看你怎么说我抄袭了，我得用你这个实验方法重新再试一次。他这个没有，所以大家也没法去反击他，说你看你这数算错了还是怎么样，这个也比较讨厌。这个盘古大模型呢。

确实是使用了开源代码，同时呢，也遵守了开源协议和开源相关的规范吧。而且呢，也进行了注明，只是注明的位置不是特别显眼。没有说上来就先讲说：“我是千问2.5 14B的一个分支的模型”，或者说：“我的基础是千问2.5 14B，我在这个基础上又做了哪些动作呀。”这个都没写。他呢，只是在一个说明文档里头的一些其他license里边标注了一下，说我这里用了千问的一些东西，而且它是归阿里巴巴集团的。而且这个标注呢，是在6月30号盘古大模型发布仓库的时候就已经发上去了。在7月4号被质疑之后稍微补充了一下，但是没有大改。并不是说被质疑了以后赶快去补这个，东西原来也写了。补的呢，也就是说我确实用了，也没有具体写清楚我到底怎么用的，或者用的这个千问的代码用的哪一部分，他也没写，只是说我确实用它了。

千问2.5的模型使用的是一个什么样的许可证呢？你用了他的模型，到底算不算抄袭呢？千问2.5的许可证是比较奇怪的。他3B的许可证不一样，他用的叫千问研究协议。所谓研究协议是什么？就只能用于研究，不能拿这玩意商用。这个是千问2.5 3B。千问2.5 72B的这个最大的这个模型呢，它的许可证也是不一样的，它是一个千问的商用协议。你如果拿它进行商业使用的话，需要到千问那边去重新申请授权去。但是中间这些像14B、32B一些模型呢，使用的就直接是Apache 2.0的协议。这个是一个大家普遍使用的很宽松的开源协议。这个协议怎么规定呢？就允许用户自由的使用、复制、修改、分发软件，包括用于商业目的，而无需向原作者或版权方通知或获取额外的许可。随便使不算抄袭，必须保留原作品的版权声明、许可证等相关信息。就是你用了以后，没事，你也不用告诉我，但是呢，你要在你的这个版权说明里你要说一声我用了。大概就是这样。

盘古呢，也确实说了说我用了，只是说的地方呢，稍微犄角旮旯一点吧。也算是符合规范，但是具体怎么用的，用了哪部分，你并不需要明确的去说这件事情。这就是Apache2.0的许可证的一个要求。盘古呢，也确实符合这个要求了。那华为自己的盘古开源大模型走的是什么开源协议？有没有人好奇这件事？他走的叫盘古开源协议。这种开源协议的事呢，有些人说我用GPL，有些人说我用Apache，或者用一些其他的，这个就属于是比较公共的一些协议。还有一些人呢说，干脆我写一些自己的。千问2.5的这个3B，千问2.5的72B。

都是千问自己写的协议，在原来的Apache 2.0的基础上改一改。盘古呢，也是自己写了一个。他呢，协议是这样写的：就是全球永久免版税、非排他，但不得转让、没有再授权。Apache2.0的模型呢，是允许再授权的。就是你拿了我的软件来了以后，你可以拿我的软件再授权给别人，再接着使去。但是盘古呢是不允许的，就是你可以用，但是呢，你不能够再授权给别人了。

盘古模型的是允许复制、修改、分发和商用，这都没问题，跟Apache2.0是一样的。允许闭源改名发布，但是需要保留协议与版权声明。这一块呢，是跟Apache2.0的稍微有一点点小差别。是什么呢？就是你发布了产品以后，上面要写上“POWERED by盘古”。盘古那个里头也写的“POWERED by千问”了，这都有。但是呢，盘古要求有强制性的商标声明，就是你必须写。而这个Apache2.0的里头是不强制的，你可以写，也可以说我不把这个商标给你露出来，都是可以的，没有那么严格。

盘古的开源系列里头还玩了个小花活，跟Apache2.0最大的差异在哪？它有地域排除。Apache 2.0就是你只要是符合这个协议的，你愿意在哪使在哪使，没关系的。但是盘古开源协里头明确规定了，禁止在欧盟境内以任何形式接触和使用哈。你不能在欧盟去部署盘古的模型，也不允许在欧盟去部署任何从盘古衍生出来的模型，或者用到盘古代码的任何产品，你都不能到欧盟境内去部署。这个是比较奇葩的一个点吧，不知道欧盟怎么跟华为之间有这样纠结吧。

这个盘古模型里头，还有一些典型的叫“按现状免责声明”，对于华为的免责和侵权赔偿条款。就是说我这东西就这样了，你不能说你拿了我的模型去以后再去发生点什么事，你找我追责这事不行。这个在Apache里也有。然后呢，是不授予商标，但是呢强制展示商标和归属。Apache呢也是不授予商标，但是没有强制展示的要求。这个什么意思呢？你不能说我用了盘古大模型了，然后你就出来说，我这是华为的东西，这事是不允许的。Apache的协议也是这么规定的。你比如说我今天用了千问的哪个模型了，然后出来说我跟阿里有什么什么关系，这都不允许出去说去。但是这样盘古就是多一条，你必须要强制的去展示商标及归属。

盘古协议并没有声明说我是从Apache 2.0协议里改出来的。其实呢，它是在Apache2.0宽松可闭源、再分发的框架下，额外增加了欧盟禁用、商标展示和不可转让这三项。讲到这儿呢。

咱们再想想说这个点，他这炮的人到底是谁呢？这个honest AGI到底是谁呢？这哥们也很神奇。他呢，突然在7月4号在GitHub上就发布了一个仓库，这个上面写着说我做了什么实验。做完实验以后呢，我发现盘古72B MOE模型跟千问2.5 14B模型高度相关，疑似抄袭，就写了这样的一个东西出来。写完了以后呢，快速的就把仓库删了，就是我快速的登记上去，快速注册，快速上传仓库，然后快速删除，这事跟他没关系了。所以这人到底是谁不知道，但是这个信息呢，很快的就被有心人转载和传播了。

国内有些媒体的报道呢说，这是一位在哥斯达黎加大学上学的韩国留学生。我也到ChatGPT、Grok呀，Gemini呀上面去查询了一下，上面都写说没有一个实际的证据说这哥们是在哥斯达黎加上学的韩国留学生，也没有任何的公开信息证明这哥们到底是谁，或者是位女士吧，这些现在都不知道。我就在豆包上去问，为什么有国内的媒体报道这个honest AGI是一位在哥斯达黎加上大学的这个韩国留学生呢？豆包搜了半天，确实没有一个实际的证据。是有一些媒体呢，上面写的是他的这个GitHub上的仓库里边有文件做的自我介绍，上面写的说我是“在哥斯达黎加大学上学的韩国留学生”，但是现在呢，这个仓库已经被删掉了，所以呢，没有办法再去核对和确认了。

那华为到底算不算抄袭，或者是不是抄袭呢？总之吧，他的姿势不是很优雅，这个事咱们还是要说的。高度重合这件事呢，肯定是有原因的。这件事呢，不是说写个在引用里头说我引用了千问就完事了，或者你告诉人家说你这个测试方法不科学，我是从头训练的，这个事并不能这么简单的就解释的过去。你还是要去解释说到底是怎么回事的。但是这个对于华为来说就比较麻烦，因为人家上传仓库，然后删库跑人了，你没法复现这个。但是你完全可以自己找一些LRM大模型指纹的算法来去复现，但是到目前为止呢，华为官方并没有做这个事情，只是发了一个公告就完事了。

这个确实有点说不过去。质疑了之后呢，依然再去强调说我是自主研发的，这个就属于是越描越黑了。所以他的姿势肯定是不对的。

官方回复中，依然只是强调我遵守协议和规范了，没有提任何引用软件的名字。他没有说我引用了千问，在官方回复文件里头，就直接把这东西给漏掉了，只是说我符合规范了。这个就属于更加的感觉有些心虚的一个状态吧。

那为什么很多人会选择不相信华为呢？肯定还会有人相信华为说什么都是对的，但还是有很多人愿意不相信他。因为华为已经习惯了强调自己的自主创新、遥遥领先、民族主义。

任正非有一次提到过什么呢？就是华为自己在全世界都有研发中心，招了大量的海外科学家参与研发，包括他国内也有大量的外国人科学家在研发。但是呢，他说我们从来不宣传这件事，让你觉得我们这都是中国人自己做的，自主研发的，跟老外没关系。其实华为大量的技术都是由全世界的科学家一起去研发出来的，但是人家不说了。所以他有这样的一个宣传的习惯。

如果盘古大模型一上来就说，我在千问的基础上做了点什么，也不会有人说他什么。但是呢，他只是把千问的版权声明放在Pytorch引用的后边提了一嘴，那就很容易被人攻击了。Pytorch是梅塔开源出来的大模型驱动的一个框架吧。Pytorch他用了，说这是梅塔的；千问我也用了，后边还写了几个，还用了什么GPT的一些开源的项目。当然它叫GPT什么我忘了，不是OpenAI开的，只是这个名字叫GPT什么。还有hugging face的一些开源软件，我也都用了。我都按照这个Apache 2.0的要求，把人家的名字写上了。只是呢，写的位置呢，稍微犄角旮旯了一点点。

这次的事情呢，大概率是被人做局了。肯定有人发现了问题，发现问题之后呢，就冲上来狠狠砸了一锤子，砸完了以后就跑了。在别人看到仓库以后，转载了信息之后，快速把仓库删掉跑路了。从整个的动作来看呢，应该是做了这种有预谋、有计划、有组织的狙击活动。

华为的品牌受众呢，甭管是喜欢华为的，还是讨厌华为的吧，都比较二极管，或者说比较极端，没法接受开源软件引用的这样的一个中间状态。你对于这些特别喜欢华为的人来说，华为就得自主创新，怎么可能用别人的呢？甚至呢他觉得，如果我抄个谷歌的，抄个OpenAI的，我们还余有荣焉。一下你抄了个千问的，你要脸吗？会有这样的想法。

我记得当年小米的空气净化器抄了一个日本牌子，但是那牌子念起来很像印度品牌。

很多人在国内就传说：“小米，你要脸吗？你抄个印度品牌。”这个也确实是中国人的这种民族自豪感比较难以接受。另外一波人呢，其实也不太懂开源，但是那波人就是属于是“华为干什么都错的”。一看说：“华为，你抄的，我就知道你走到哪你都会抄。而且你看你在这个版权文件里还写了人家千问的名字了，最后你跟人长得一模一样，这实锤了，你就是抄的。”所以呢，华为的受众，甭管正面反面的，都很难接受这种中间状态。

有些事情呢，真的叫瓜田李下。中国自古以来讲的什么呢？在瓜田旁边不系鞋带，李子树底下别扶帽子，这个都属于叫有嫌疑的事情。华为干这个活呢，就属于叫瓜田李下。华为其实在中国的开源界里头一直还算是做的比较不错的，还算是守规矩的。只是呢，华为自己的宣传跟民众认知里头无法容忍开源这种模糊的地带。

应该怎么办呢？第一，我别在瓜田下走。我就算是在瓜田下走了，我也确实是提了鞋了，那怎么办呢？有一些人会选择说：“那我站起来的时候，甭管我原来手里拿没拿着瓜，我都放点钱下来，就算是避嫌了。”要么你说：“我就彻底不用也没毛病。”用了呢，你就大大方方的承认。或者说你原来比如说只用了一点点，你可以承认说：“我使用千问这部分呢，放在比较显眼的地方，让人看到说：‘我在这呢。’”就是说我在李子树底下扶帽子之前，我先举手：“我这帽子歪了，我要扶一下。”大家都看着，我这个帽子里头原来就有仨李子，不是从上头掉下来的。你可能要稍微说一下，就是变得更加的假道学一点点吧。

最终的结论是什么呢？就是华为自己呢，面对这种攻击是比较无力的。原来呢，他是开源这波人负责开源的事。在国内呢，负责愚民的这些人呢是另外一拨人，就是每天喊“遥遥领先”。但这些人是另外一拨人，这两拨人原来是不怎么打交道的。原来就算是有一点点小交集呢，华为内部这些负责开源的人也会选择说：“我只对对我不利的信息进行辟谣，对我有利的误传，我就听之任之了。”原来有人去传说华为要去做中文开发语言的时候，华为内部所有人都知道这是假的。但是呢，没有任何人出来辟谣，因为辟谣很累，没意思。

但是你到现在了，指责他抄袭了，你现在再想出来辟谣也没那么容易了。所以他这个攻击呢，甭管他怎么回应，原来不信的人还是不会信。而且他做的这个姿态呢，也不是特别好。这就是这一次华为被人指责盘古大模型抄袭千问2.5 14B的这个事情的前因后果。到底抄没抄？我估计还是用的过程中不是特别讲究，否则不会有这么大的重合度。

如果他这个完全无法复现的话，华为早就出来辟谣了，说：“你看，我自己也试了，压根不是这么回事，他测的就是错的。”而不是出来说你测试方法不科学就完事了。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

老范讲故事 — Fri, 29 Nov 2024 00:42:07 +0000

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的。视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假或者版权侵害什么这样的视频。所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢，会发出一些样板视频来，那意思什么？他说，你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频，它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线。大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。

艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布，还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢，在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说，这个脚要往前走的时候，应该膝盖往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这个是第一个问题。

第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说，你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗，应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说，我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。

我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。

现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个，专业应用级别呢，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢，也还是有很多专业团队，会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。

半专业的应用呢，肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了，而Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。

这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。

对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入，艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。

所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了。为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这就相当于什么，就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头，每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但是艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说，你穿了件衣服，里边有个人，但是呢，人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着它都变成左脚了，或者是变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题，第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢，算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，它需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱，从头到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。

因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。

什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

YouTube上有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频我已经被这种视频骗了好多回了。

我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。

就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的，他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但是呢，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢，都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型吧，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”，什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。其实，这些呢是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。

最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以，他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就在2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。

但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着就都变成左脚了，变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。

他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。

咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后，什么欺诈？视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢，你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。

你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。

很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个说话了，这个吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。

当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画、小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把德国选择党的那个女党首的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型，式的那我们只要写一个提示词，生成出来大差不差的，我就能用。那些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他说哎，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题，咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯，这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说，非常非常难以控制和把握。再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看，最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，就是有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置，才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈？视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部，也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上，在吉梦也好、可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆，可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过。

这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们呢，就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢，其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢，是呼吁Open AI可以更加开放。

你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，表示现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢，并不需要进行身份验证，所以也不知道这个是真是假。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这种方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高的。当然了，这个还不是困扰视频生成本身的最大的难题，更大的难题是什么呢？就是视频要好看。

最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说，我们付出的努力极其艰巨呢？也是如此，他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢，完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

所以再往下一个方向到底是什么，虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。于是他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在呢Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。

第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。

你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。

这是第一个问题。第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上。现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。这大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。

视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。那么我们到底还需不需要等Sora呢？

其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上，在吉梦也好可灵也好呢，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型。在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

其实，从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢，已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全球的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂地泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂地开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头了，电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品，这个事本身是非常难的。他们说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这就相当于什么？就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停地玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是，视频生成本身的难度是很大的。第一个，内容合理性其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边有个人，但是人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，膝盖应该往后弯的。但是，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是两条腿迈着迈着都变成左脚了，变成右脚。图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性，这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上，已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定地保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后，算力成本实在太高了。图片生成，现在我们画一幅1080P的图像，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。

当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。大家想象一下，有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。

现在我们要做视频生成的这种工具了，在有大模型的基础上，你也需要大量的开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以，为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。

再往后，什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话它就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝；你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝；你只要提到任何人的名字，直接拒绝；说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝；请给我画个什么星球大战、米老鼠，马上拒绝。

所以，他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好、可灵也好，都是在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以，我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。

所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。

而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说：“你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情，都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人，有黑人，有白人，有男的，有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

当然有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀，血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看DALL·E 3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个DALL·E 3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。

这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。

Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。

至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

扎克伯格和黄仁勋，除了换皮衣，还聊了些什么？探秘扎克伯格和黄仁勋的SIGGRAPH访谈：两位科技大咖如何看待AI革命与苹果的未来冲突

Luke Fan — Tue, 06 Aug 2024 13:19:20 +0000

扎克伯格跟黄仁勋凑一块，除了换皮衣，还讲了点什么呢？他们是在SIGGRAPH大会上进行的访谈。黄仁勋是访谈主持人，而扎克伯格是被邀请的嘉宾。因此，在他们的访谈中，扎克伯格是逗哏的，黄仁勋是捧哏的，这一点首先要搞清楚。

这一次访谈，主要是扎克伯格在输出。SIGGRAPH大会是一个历史非常悠久的大会，叫计算机图形图像特别兴趣小组（Special Interest Group on Computer Graphics），小组成立于1967年，1974年第一次开会。今年是第50届，参会的人中有90%都是博士。当我看到这个消息时，一开始想，黄仁勋应该是个博士吧？扎克伯格是中途退学的。后来查了一下，发现并不是。黄仁勋是硕士，而扎克伯格是2002年入学于哈佛的心理学和计算机科学专业，2004年辍学，实际上上了两年学，之后在2017年被哈佛授予了荣誉法学博士学位。他好像跟某位伟人的学位差不多。

正常来参加这种活动的人，主要是引擎公司，比如Unreal、Unity，图形软件的公司Photoshop、Adobe，以及显卡公司AMD、英伟达。原来Meta也参加过，大概参加了有十几年了，他们以前是作为VR、AR公司来参加的。这一次则是出来抢AI的。

老黄跟扎克伯格算是天作之合，为什么呢？因为只有开源模型，才是英伟达显卡的绝配。

那你说微软不也买了好，OpenAI也在用，对吧？但是呢，大厂的必元模型啊，它是有能力去招聘一帮叫适配工程师或者叫配置工程师。他们可以绕过扩大算法这个事，是可以跑的。增加的这点成本对于他们来说是可以去承担的。只有开源模型的应用者，通常是支付不起这些配置工程师的工资的，所以他们会老老实实地使用英伟达的显卡，是吧？所以他们俩绝对是天作之合。

扎克伯格自己访谈的资格，也是因为买了足够多的H100才换来的。他是号称拥有60万块H100的男人。老黄就问扎克伯格说：“你是怎么来的呀？”而我是作为VIP客户，专门被黄日勋邀请来的，就是显卡买太多啊，被请来了。而且他在恨苹果这件事上来说，俩人绝对有共同语言啊。就是黄仁勋也好，扎克伯格也好，现在所有的CEO里头，所有的这种创业者里头，最恨苹果的两个大概就是他们了，找不出其他人了。

扎克伯格在会上飙脏话啊，直接说了一个f word，甚至说有可能直播都会被掐掉的这种脏话。其实骂的不是OpenAI，骂的其实是苹果。为什么要去骂苹果？OpenAI做了半天，未来有没有可能伤害Meta，伤害扎克伯格，有可能，但是现在其实没有给扎克伯格带来任何的伤害。而苹果当时是差点没把Facebook给玩死。扎克伯格自己也讲，Facebook最早是个网站嘛，我们是完全开放的啊，没人管，我们在里头爱干嘛干嘛。然后移动时代呢，发现要到苹果上面去啊，发布软件。

苹果这也不让你做，那也不让你做。关键是把他们进行精准广告推送所需要的用户信息给他屏蔽了。以广告收入为基本收入的 Facebook 差点没被他弄死。扎克伯格痛定思痛，说：“我一定要去做一个新的平台，绝对不能靠 APP 这种东西，而让苹果把我掐死。”所以他才做元宇宙，才把公司从 Facebook 改名叫 Meta。他做了所有这些事情，实际上都是为了应对苹果。这是扎克伯格为什么恨苹果，为什么恨这种封闭的大平台。

说英伟达为什么恨苹果呢？就是英伟达跟苹果之间是有恩怨的。英伟达给苹果提供过一款显卡，后来这个显卡不是特别稳定，被苹果直接起诉了。一开始苹果要他退钱，老黄不退，后来苹果直接起诉了老黄。苹果是在所有的应用里头都不使用英伟达显卡，而这个梁算截下来了。

而这一次，苹果直接给大家演示了用谷歌的 TPU 去训练大模型。这个消息传出来以后，英伟达的股价直接崩了。当然，英伟达的股价崩掉了，还有很多原因在里头，包括老黄自己在疯狂的套现，以及他到 120 以上的这个价格，大家觉得确实有泡沫了，直接崩掉了。但是英伟达昨天晚上涨了 13%，整个又窜起来了。

为什么苹果可以用 TPU 去干活呢？就是它是自己大厂，我只要招够足够的工程师，我就可以去改底层算法，让这些模型在 TPU 上运作。苹果演示了这件事情以后，谷歌、OpenAI 上都可以往这个方向走。这对于英伟达来说就是非常危险的。

英伟达一定要来找一个更恨苹果的人，找到Meta，找到扎克伯格。说来咱俩聊一下。扎克伯格呢，就是因为被卡过脖子，所以必须开源啊。看到别人作弊源啊，想要成为新的基座平台，就open i想做这个啊。那么想做规则的制定者啊，所以只能气得骂街了啊。这就是两个最恨苹果的人，天作之合，凑在一起。

那么Meta呢，对于大模型的开源是有非常大的贡献的。当然，最大的贡献并不是拉玛。咱们一直都说啊，拉玛1、拉玛2、拉玛3算是奠定了开源大模型的基础，但是Meta做的最大的贡献是另外两个东西。一个东西呢，PyTorch。PyTorch是现在非常主流的一个大模型，本地把它架起来的一个架构框架，这个东西是Meta开源出来的。现在在很多的服务器上，大家开始进行本地部署的时候，都是用的这个东西啊。

PyTorch的基金会里头大佬云集，哎，大型的开源的项目都是有基金会的。他们的大佬里头，Meta自己是啊，他贡献了代码，那么他是大佬。第二个呢，就是芯片厂商都在里头，英伟达、AMD、英特尔都在里头。然后所有云计算厂商都在里头啊，谷歌云、微软云、亚马逊云都在里头啊。再往后，新生的AI社区与工具，Hugging Face、Lighting AI啊，都在里头。

还有两个全能型拳手在里头，一个叫IBM啊，他所有的都做，也做云也做主机，也做芯片，什么他都干，所以他也是基金会的高级会员啊。还有一个高级会员是大家所熟悉的，遥遥领先啊，华为。

就PyTorch基金会里头，唯一的一个中国会员就是华为。在这一点上，我觉得华为做的还是很厉害的。它在各种开源的基金会里头，老老实实地交钱，老老实实地去遵守规章制度。它不像国内很多的公司，比如百度，使用所有的开源东西，但却偷偷使用，使用完了以后直接一闭源，啥也不看了，然后下一个。

Meta对AI做的贡献是什么呢？OCP（Open Computer Project）叫开放计算工程，这是什么呢？就是自己有大量的服务器，而这些服务器应该如何构造、如何去建设、如何去连接，这也是一个开源项目，这是Meta开源出来的。现在英伟达推出的NVIDIA HGX，就是在这个模块上去拓展出来的，已经都用上了。这是对整个开源事业真正做的两大贡献。

第三大贡献，才是刚才我们讲的拉玛模型，拉玛1、拉玛2、拉玛3、拉玛3.1，这才是第三大贡献。而且我觉得他所谓的拉玛模型的贡献，真正改变的其实是中国，彻底追上来了。可以拉着中国的一众小伙伴，把这OpenAI打翻在地，这个我觉得是可以的。

扎克伯格也为未来指明了方向，而且他指的这些方向，我觉得还是非常有价值的。第一个，他讲到了一点是原来我们很多人没有想到的，就是要去修改推荐算法。因为互联网的最底层其实就是推荐算法。推荐算法是什么？就是过滤与排序，你到底应该看这个还是不应该看这个，谁排前头，谁排后头。

这就是整个互联网的底层逻辑。在信息过载之后，我们只能依靠推荐算法来工作。在推荐的时候，它只能是说：“我按照一些大家的喜好，或者做协同过滤，做一些传统的AI的推荐。”现在就不一样了，它可以通过Transformer的模型，通过嵌入来重构整个算法，这是一大创举。而且这个东西真正运转起来以后，可能我们会看到完全不同的信息流。

在推荐的时候，他们也希望直接在信息流里进行总结与归纳。原来我们在Facebook和Instagram里看到的所有信息都是用户生成的，那么以后可能我们看到的一些信息就是归纳的一些信息。比如说，你最近有三个朋友感冒了，你最近有五个朋友感冒了，而这些朋友你可能连名字都想不起来。如果真的给你发一条说这个朋友感冒的信息，在信息流里你也不想看到，但是你又希望知道这朋友里边感冒的人多不多。

会把信息分层处理。什么叫分层处理？就是跟我关系最好的人，你们要把这个信息完整地展现出来。大家讲的就是150个人之内的，我们可以互相叫出名字，可以知道他的喜怒哀乐。这些我们可能希望知道他所有的信息。然后朋友的朋友就是中层圈子，可能只是需要知道一个概况就可以了。再往外层的话，可能有一些大事件发生的时候，我们需要知道一些国际大事，也就可以了。它需要分层处理，那么分层处理就可以对这些内容进行总结归纳，并可以发出来。

而且在这个过程中，推荐算法就会有更大的权利。这是什么意思？原来肯定是看你关注了谁，你跟谁是好友，你可以看到谁的信息更多。不可能，你虽然关注了一个人，但你未必看得到他的信息。如果你们之间很少互动，他就认为这可能就是一个普通的朋友。他的一些大事你知道一下，小事你可能就不需要知道了。他会通过这样的方式来过滤你的信息。

包括我们现在在推特里边也是这样的，可能看到一些大事的时候，我们会看到，那一些小事可能就看不到了。后面的话，Meta准备统一他的推荐系统。原来推荐系统是什么呢？就是各个分支，比如我要先看到朋友的，然后看到这个朋友的朋友的，再看到国际大事的和重要媒体的，所有的这些推荐的东西搁在一起，然后再进行混合。以前是这么工作的，而现在上大模型，我们要让整个的系统用统一的模型进行推荐，一次性给你推出来。

这个也是一个很大的创举，可能以后我们就会看到一个完整的模型推荐出来的图文信息、视频信息都混在一起的，而不像现在似的，Instagram就是Instagram，Threads就是Threads，Book就是分开的。以后，我们可能就在一个统一的信息流里看到所有的一切了。这是真正会改变互联网底层逻辑的事情。Meta、谷歌、Twitter、TikTok基本都是靠这个东西活着的。如果真的能够把大模型应用到推荐算法里边去。

我们可能就真的会看到新的一次AI革命，真正能够产生效益了啊。这是非常重要的啊。这是讲的第一点啊。第二点是什么呢？就是AI studio啊。他也要上一个AI studio，因为AI studio谁都上啊。微软有AI studio，谷歌有AI studio，Meta也做了一个AI studio。而Meta做的AI studio就干一件事啊：给每一个人做一个自己的AI助手。使用社交媒体的时候啊，直接用Meta自己的内容进行训练，微调一个小模型，再配合RAG或者叫做本地知识库，可以不断地补充新的信息，拿这个小模型去替我们回答问题啊。

像我现在，我每周会去处理一次大家的评论，周三下午一般会处理。处理完了以后跟大家念一遍。如果我有了这样的一个工具，我就可以随时随地地处理大家的评论。我出去玩的时候，AI机器人都可以给大家回复啊。我们的Disco群有这么多的分支，我没有办法在里边去照顾到每一个分支。这样，我就可以让我的AI助手在里边去回复。哪怕说他不回复，我过一段时间总结一下，最近大家都在聊这几个事呢，你是不是要去参与一下啊？或者他可以来征得我的同意，或者在我的授权之下进行回复啊。

这件事我就替你回答了啊。那件事情你准备怎么回答，还是说就不说了。这样的话，我就可以更多地千手千眼、无处不在地参与到各种社区的讨论里头去。这个真的是我很需要的一个东西啊。

每个人呢，其实都需要分饰不同的AI角色，有不同的AI助理模型。你比如说，在Facebook的回答问题里头有一个，在Discord里头有一个，是不是在Twitter里应该再有一个？这个可能才是真正我需要的东西。甚至未来我可能照了照片以后，就直接把这些照片都放在优酷里，让它自己去挑选好的照片，给我发到Instagram上去，这个不也是一个挺有趣的事情吗？这个是非常有用的。

那么在所有的平台里边，就会成一个新的风向，就是大家开始把这种AI机器人用起来。以后是什么呢？就是所有的平台都会变得热闹起来，因为每个平台都有我们的替身在替我们回答问题。所有的平台都会产生信息大爆炸，所有的平台也就都失去壁垒。

我们经常有人说：“哎，你有Telegram没有？你有微信没有？你有这个Twitter没有？”那以后这些东西我都有。你们在任何地方提了问题，我可能都可以去回答。这是多么有趣的一个事情！他们就不可能说再把一个人限制在某一个特定的小平台里头。当这些小平台失去壁垒之后，这些大平台就可以依靠成本和变现能力直接把小平台都挤死，对吧？这也对于Meta来说是有商业利益的吧。

在网络上，每一个人都可以依靠这种小模型的帮助，成为超人。这也是在不久的将来就可以实现的东西。扎克伯格也讲了，未来他的这种AI触手不会是文字，而应该会成为虚拟形象。你们以后可能再去聊天的时候就发现……

长坐着一个长得像老范一样的人，在这跟你回答各种问题了。甚至他可以开出这样的直播，挨着把大家的评论都点出来，挨着跟大家解释。这也是一个很有意思的事。

这是第二点。第三点是什么呢？第三点是开源是未来，不受限制的构建，恢复开放的黄金时代。这是他讲开源的内容，我们就不在这里详细去讲开源到底好在哪，坏在哪。这对于中国的AI行业来说，没有拉玛，就没有中国AI现在的风起云涌。如果没有PyTorch，中国的整个AI体系也是难以发展的。

它开的这个叫Open Compute Project，对整个中国的互联网云建设都是有重大意义的。再往后一个讲的是模型不会一家独大，从小到大的模型都有应用场景。OpenAI就认为你都应该在我这儿用，不要用其他人的。虽然它有GPT-4O Mini这样的模型出来，但它还是说你都要在我这儿用。

现在Meta就讲了说没必要，405B的模型我们就是做这种相对来说比较复杂的任务。当然，405B也给英伟达提供了一个非常大的考验，因为405B这种模型在英伟达的单块显卡上跑不起来。你还是要用NV Link这样的成熟技术，才可以把这些显卡连接起来，把这个405B跑起来。黄仁勋也是乐得嘴都合不上，跑405B就老老实实到英伟达来买显卡来。

势币的基本上处理各种业务是够的，因为我前一段时间也是使用各种大模型，基本上到70B。

绝大部分的问题都可以解决了。8B的在各种的AIPC里就可以用了。微调之后可以成为各种专材，比如说编程的，法律咨询，AI客服，绝对够了。今天谷歌还新发了两币的模型，叫JMAR2，两币，这个叫2B，在AI手机上完全可以跑起来，效果还不错。

这是讲的第二块，就是不同步大小的模型，大家自己去用。而且大家要去用八臂的模型，去训练各自的专用模型。只要这样，才会有不同的模型去完成不同的事情。

然后呢，讲的是叫segment everything two。是这样的，一个大模型又更新了，更新到第二版。这个模型叫做分割一切。这个segment everything呢，在去年是发布过一版，做的事情就是你给他一张照片，不需要标注，不需要训练，他就可以把照片里的所有物体都识别出来，挨着个儿给你列出来。

而everything to呢，它是可以把所有视频里的内容直接都给你分拆出来。说这个是牛，那是马，这个是猪，那是羊，他都给你认得清清楚楚的。扎克伯格还在现场炫富，他说：“你看啊，现在认出了一个视频上面这些牛，叫考艾岛牧场的牛，是扎克伯格自己牧场上的牛。”对吧，把这些牛认出来以后，伯格跟这个黄仁勋准备把这个牛杀掉了，好好吃一顿。

这种可以分割和识别视频内容的大模型，未来是有非常大的应用场景的。而且注意啊。

Segment Everything Two是开源模型，大家现在就可以当下来使用了。扎克伯格在现场举的案例是什么呢？就是监控能力可以极大提升。以前，公司丢东西的时候，我是去看过监控的，那经历实在是太可怕了，对吧？你需要长时间盯着监控去找这个片段，这非常困难，因为视频是线性的。

现在，当你有了这种分割一切模型以后，你就可以直接问模型：“什么时间点你看到有人进来了？”或者“什么时间点这个门动了？”他就可以直接通过语言和文字对视频进行检索。这是非常强大的，很多工业上的东西可以被极大赋能了。

前一段时间，马斯克其实也演示过一个视频，在他的推特账号里，演示了用AI模型观察一个咖啡店。他会算好哪个店员在聊天，哪个店员做了几杯咖啡，哪个店员在休息，对吧？店员和顾客之间是如何沟通的，这看起来有点吓人。

当然，这种模型肯定会被中国的厂商第一个拿来用。用完以后，就可以让这些牛马们老老实实地干活，没有任何私下里的自由空间，这完全可以实现。所以，中国一定会快速应用起来。

再往后，两个老直男讨论了一下时尚问题。为什么讨论时尚呢？因为扎克伯格去做智能眼镜了，眼镜上有摄像头。他说这个东西很漂亮，而且可以不停地换衣服，始终穿一件，但这个眼镜可以换来换去。

这就是两个老直男对于时尚的理解吧。这一次呢，他们两个人还是换了皮夹克。黄仁勋标准款的皮夹克给了扎克伯格，扎克伯格呢，这一次用的是自己那种很厚的半长的皮衣，戴帽子的这种，比较宽松。这就是两个直男对于时尚的所有观点。

最终的总结是什么呢？就是扎克伯格还算是为AI指明了方向。而且扎克伯格指明的这几个方向，都是AI未来有可能挣到钱的地方，有可能能够在这块有正常的商业模式的地方。这个是非常可贵的，它比山姆·奥特曼的那种大空话还是要落实得多。

那么新的时代就要到来了，互联网的底层真的要被AI重构了。原来互联网底层是没有被AI去改变的，还是推荐算法。现在AI要进入互联网底层了。一个人都可以被AI赋能，这也是非常棒的一件事情。所有的场景都可以被AI渗透，对世界的理解也可以进一步给各种系统赋能。当然，也可以给中国这血汗公司赋能，或者给中国政府赋能。

我发现做监控这件事情上，中国如果说是第二，全世界没有任何国家敢说是第一。这块我们还是做得最好的。全世界大概绝大部分的监控摄像头都是中国人造的。最终呢，大家都去买英伟达的显卡，都去用Meta的开源系统。这就是他们两个进行了一晚上的访谈所得出的最终结论。好，这就是我们今天讲的第二个故事。