数据处理 – 老范讲故事｜AI、大模型与商业世界的故事

【独家剖析】最高或被罚27亿美元！英伟达在华遭遇反垄断调查的台前幕后，一场AI芯片领域的国际博弈

老范讲故事 — Wed, 11 Dec 2024 00:45:16 +0000

英伟达突然被中国进行了反垄断审查，这事他冤吗？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，这家AI时代最赚钱的公司，在中国突然遇到审查了，究竟是怎么回事？

首先呢，英伟达不光是在中国受到审查，欧盟和美国也在对他进行反垄断审查。法国呢，主要是在今年7月份，对他去投资一个叫Coreweave的公司进行审查。Coreweave干嘛的？他是买了很多的英伟达的显卡，去做算力中心出租的。你说OpenAI，我用微软的就行了，或者谷歌用自己的，亚马逊也用自己的，但总还有一些小一点的公司说，我们想要零散的去租一些英伟达的算力，去进行模型的训练、微调或者推理。Coreweave就专门干这个的，而且他应该是在这一块做了最大的一家，英伟达在里边进行了大量的投资。法国政府说，我调查一下你里头有没有一些其他的问题。

12月7号呢，欧盟也展开了对英伟达的反垄断审查。审查的是什么？叫捆绑销售，就是你买了英伟达的算力卡，你必须要再买我其他的哪些东西。这个其实跟这一次中国对英伟达展开的反垄断调查基本是一个原因。美国商务部呢，对英伟达是提出了质询，但是呢并没有正式立案。原来呢讲说美国商务部对英伟达立案进行反垄断审查了，英伟达呢出来辟谣了，说他们质询了，我们愿意配合调查，我们有信心，完全都是开放的。大家选择我们的产品，是因为我们的产品质量好，因为我们的产品性能好，而不是因为我们进行了捆绑销售。

这块呢是美国也没消停，现在呢中国说来，咱们也调查一下。这次中国的反垄断调查的原因具体是什么呢？首先公开的原因，大家猜测的原因咱后讲，先讲公开的。2019年，英伟达收购了一家以色列公司，叫麦洛斯。当时呢到中国来进行审核，中国说我同意吧，但是呢我有些附加条件，你只要遵守这些附加条件，我就同意。现在呢我们发现他里头有一些附加条件遵守的不够好，所以对他展开了调查。那么你说中国政府，你管得着人家吗？

人一美国公司买了一以色列公司，你在这多啥事呢？原来英伟达尝试去收购Arm的时候，中国政府也是来审批，欧盟也在这审批，美国也在这审批。那你说，美国审批一下，这是合理的，英伟达是一美国公司。欧盟呢，至少英国吧，英国人家审批是合理的，英国不算是欧盟里面的。欧盟你说你去审批他干嘛，跟你也没啥关系？中国你审批他干嘛，跟你也没啥关系？

大家注意，全世界各个国家的反垄断法里头呢，都会有一些对跨国公司的审查条例。什么意思？中国的反垄断管辖权规定是这样的：两个公司合并，全球的销售额如果超过100亿人民币，在中国的销售额超过4亿人民币，你就需要到中国来审批。不管你是美国公司还是别的什么公司，只要是合并了，超过这个数，你上我这来审批一下。

很多国家实际上都有类似的法律，不是说你这个收购公司和被收购公司都不在我这国家里头，或者不在我这个管辖区内，我就不管你，都是要管的。

麦洛斯这个2019年被英伟达收购的以色列公司，它到底干嘛的呢？它做高性能的网络设备，包括网卡和交换机。那你说这样的一公司，被英伟达收购下来会有什么问题呢？在收购之前，麦洛斯就已经在这个领域里头有70%的市场份额了，它本身就是一个具有一定垄断能力的公司，算是个隐形冠军。大家可能没听说过这公司，因为他们产的设备基本上是在数据中心里用，咱们家里不用这个玩意，家里边用的都是家用路由器，家用交换机，实际上家里一般都没有交换机这种东西。咱们的网卡一般都是在电脑里头直接配的，不会专门再去买网卡。

那么他为什么要在数据中心里专门去做这种设备呢？原因也很简单。我们来思考一个问题：当一个数据从一台电脑的内存到另外一台电脑的内存之间是一个什么样的过程？直接命令网卡把这东西拿走行不行？首先，这个数据在内存里，谁来命令网卡呢？CPU。CPU要去告诉网卡说，现在请到哪一块内存区间里边去取数据，取完了数据以后呢……

这个网卡通过交换机把这个数据拿走了，然后到下一台电脑里头去。再通过网卡把这个数据交给CPU。CPU看到这个数据以后说，现在请再写到哪个哪个内存里头去。大概是这样的一个过程。

但是呢，使用麦洛斯的这个网卡和他们的交换机，他就不是这么干的。他不需要经过CPU，自己网卡就找到了相应的内存区间，把那数据拿走，然后呢再通过交换机交换了以后，到下一台电脑的相应内存里，直接给你写进去了。这个过程是不过CPU的。那你说就省这么点时间有用吗？太有用了。

咱们刚才只讲的是硬件上面的这种过程，还有很多软件方面或者是权限方面的流程咱还没讲呢。有人来上我这申请数据来了，那么CPU首先要干嘛？先到这个权限库里头去看一看，他允不允许干这个事情。允许了以后，我们再把这个数据拎出来，检查一下完整性，有没有丢失，有没有错漏，然后再把这数据扔出去。

等到那边收到数据了以后，也是先看说你这个有权限没有。有了权限以后，我再在内存里头开辟一块空间，再把这个数据检查一下完整性，然后再把它放进去。为什么要检查完整性？你万一中间有坏人呢，给你混一点别的乱七八糟东西，这不就麻烦了吗？所以这个是一个完整的流程。

这个过程是很慢的。对于传统的网络系统来说，这个事可以接受，但是对于AI运算来说，这件事是完全不可接受的。你想，这个数据一开始是在哪呢？这个数据一开始还不在内存里头，这个数据一开始是在这种HBM的这种高速显存里边。正常的你要想把这个数据从这个电脑拿出来，然后拿到下一个电脑去，你要干嘛？CPU先要说，请把这个数据从这个HBM里头拿出来，放到内存里，再进行权限审核、数据完整性检查，然后再告诉这个网卡说，你现在可以拿数据了。

等到那头也是一样，再把这个数据接收到，数据完整性检查、权限检查，放到内存里去，再告诉CPU说行了，数据完整了。CPU再拿这些数据到HBM里头去，再告诉显卡说来，接着算吧。

那这个过程是对于AI来说完全不可接受的。英伟达说，我把这些都买下来，跟我的算力卡搁在一块，咱们来进行一个整合。这样的话，黄仁勋就可以上来吹牛了：我有这么多的显卡装在一台电脑里，我把这么多的电脑搁在一起，大家可以像使用一块显卡那样去工作，不会再去说“哎，有什么权限检查、完整性检查”这些东西，直接就是把所有数据打通了。前提就是必须要有麦洛斯的所有这些设备和这些协议、软件，要一起配合，他才可以去工作起来。

在没有收购麦洛斯之前，英伟达在整个的数据中心业务里头，占比大概也就是30%。收购了麦洛斯之后，当然还要赶上AIGC的东风了，英伟达现在在整个数据中心里边的占比已经达到了80%多了，绝对是快要一统江湖的状态了。

那么，中国政府当年做出的是一个什么样的决定？说我们同意你去收购了，但是呢，我们有附加条件。哪些附加条件呢？第一个，向中国市场销售的英伟达GPU加速器和麦洛斯高速网络互联设备，不得以任何形式强行进行搭售。你不能说我买你显卡，你必须要再去买麦洛斯他们家的东西，或者我去买麦洛斯他们家的这个设备的时候，你再强制给我搭售显卡。咱们要单独买，也不得在服务水平、价格和软件能力上歧视这种单独购买的用户。你说我就买了显卡，我没有买麦洛斯他们家这个设备，我呢做了一些其他的设备在里头，你要保证你的服务是一致的。

第二个，依据公平合理无歧视原则，向中国市场继续供应英伟达GPU加速器、麦洛斯高速网络互联设备和相关软件与配件。因为后面还涉及到美国的制裁，所以这件事未必那么好遵守。

第三个，继续保证英伟达GPU加速器与第三方网络设备、麦洛斯网络高速设备与第三方的这个GPU加速器都是可以互相操作的。英伟达显卡，你可以跟别的网络设备操作，麦洛斯的这个高速网络设备，你也可以适配其他GPU。

第四个，继续保证麦洛斯网络高速互联设备的点对点通信软件和集合通信软件的开源承诺。因为大家要知道。

他需要去对内存进行这种跨机 CPU 的操作。如果我不需要经过 CPU 的这种操作的话，那么它一定会有很多的系统要跟 Linux 内核、底层操作系统内核打交道。在这一块，麦鲁斯原来有一些软件是开源的，现在你必须要继续开源，我们也还要继续用的这些开源软件，这个你也得承诺。

第五个，对于第三方 GPU 和网络互联设备制造商的信息，采取保护措施。你不能说跟你们家的设备连接了，你就把本人信息拿走了，这事不行。这是五个。据说后面还有两条保密的条款在里头。当年的这个条件也还是有一些期限的，不是无限的。这些限制条件自生效日起六年后，交易双方和合并后的实体可以向市场监管总局提出解除条件的申请。这个是2019年做的收购，2020年我们批复的，所以这个事应该是在2026年之前必须要执行。2026 年以后，他们可以来申请，问我们能不能解除。市场监管总局根据市场竞争状态，做出是否解除的决定。未经解除，双方应该老老实实地去履行这些约定。当时大概我们给他下了这么一个紧箍咒吧。

那么现在我们认为，这些条件他并没有去执行或者没有完全执行，所以现在对他进行调查，这是公开的理由。那么，阴谋论的声音是什么呢？第一个，中国自己想去做一些自主替代，信创产业，也就是一堆的 GPU 公司、算力卡公司，做了一大堆，包括地平线、摩尔线程、华为，这些都是在做类似的生意。但是现在因为被美国制裁，这些生意做不下去了。别看这两天地平线的股价还在涨，但是这个后面都是很难以为继的。为什么？因为他们都是做 7 纳米芯片，而这些芯片原来都是台积电代工的，包括华为的芯片，都是通过曲线救国的方式让台积电给做的。

那么现在台积电说了，因华为你骗我，其他的像什么摩尔线程、地平线这些芯片，我也不给你做了。万一我给你做完了以后，你一倒手把这芯片卖给华为了，华为就又遥遥领先了。

这事受不了。这是一个问题。第二个问题是什么呢？就是所有这些芯片都是需要配HBM的这种缓存才能去使用的。现在美国禁运了，说哎，所有这个HBM缓存中国都不许买，甭管你是什么样的公司，都不许买了。那么这些算力卡的项目在国内呢，只能是赔本赚吆喝，因为你做不出来了吧。那你说这个能不能到中芯科技那边去做去？不是完全不行，但是良品率非常非常低，这个成本价格就非常非常感人了。

还有一种声音呢，是这个英伟达最近跑到越南去做了一大堆的动作，让我们觉得稍微有一些丢面子。这是现在的两个阴谋论的声音。那么英伟达在越南到底干嘛去了呢？前两天，黄仁勋跑到越南，跟这个越南总理两个把臂言欢，跑到这个街边小摊上，喝着啤酒唱着歌。你居然可以不戒烟不封路，一个是世界上市值最高公司的老大，一个是一个国家的总理，居然就敢与民同乐去了。这个事有点太过分了，你打谁的脸呢？

英伟达在越南呢，确实还是有很多生意的。首先，英伟达的代工厂很多都在越南是有生产基地的。那你说英伟达的代工厂不应该是台积电吗？台积电是在台湾，但是呢，台积电做出来的东西就是那个芯片。你光有芯片，这个东西是不能放到这个电脑里去的，也不能放到数据中心和机房里去，都搞不定这事。你还是要把它做出板卡来，就是我们说的什么H100这个东西呢，指的是那一块卡，并不是说H100单单只是一个芯片。这个卡上还包括HBM的这种缓存，还包括很多其他辅助的芯片，这个东西搁在一起，才是可以往服务器上面去插的。

那么这些做卡的公司呢，基本上都在越南了，包括广达电脑、富士康、捷普科技、华硕、技嘉。他们主要在给英伟达做代工。这些公司里头呢，除了这个捷普科技之外，都是台湾企业。他们呢原来在大陆都是有这个代工厂的，就是以前很多这些设备实际上在大陆生产，现在呢都跑到越南去设置了代工厂。那么未来这些设备呢，就应该到越南去生产，因为大陆还是有很多禁运嘛，这个芯片不许进来，那个HBM的缓存不许进来。

你要想在这生产这个东西就比较麻烦，所以干脆咱就到越南去生产。那边是没有禁运的，咱们可以把所有的东西都汇集在一块，到越南咱们拼上就完了。

还有是什么呢？越南现在AI云计算的算力中心其实在大力兴建。很多公司都跑到越南去建这种算力中心去，第一个叫阿里云，第二家呢华为云，第三个亚马逊，然后微软、谷歌、Oracle云都在越南建立了算力中心。后边还有吗？还有腾讯云也都去了。就中国做的这种大型云计算公司，基本上都跑到越南那边去设立计算中心去了。

为什么？其实很简单，越南是可以买到不受限制的算力卡的，又离中国相对来说比较近。当我们有一些什么样的算力需求的时候，直接调用越南的算力中心的这些资源，就可以去进行运算了，这不就够了吗？

而且越南跟印度、墨西哥这种国家比，还有一个巨大优势是什么？越南他有电，不是自己发电，因为越南离中国近，所以他直接向中国买电，中国就直接可以把电线拉到越南去。你就可以用着中国的电，为中国的企业提供算力支持了。

像他们这些算力中心里，什么阿里、华为、腾讯都在里头折腾，原因也很简单，就是他们有很多中国用户需要在越南进行高密集度算力的这种运算。所以呢，越南这个位置就比较得天独厚了，有需求、有电，然后所有的这些配件厂商也都在身边。台湾原来做显卡的、做这个算力卡的、做主板的，这些厂商就在身边。

然后还是CPTPP的成员国，一方面是这些设备进来是没有关税的，另一方面呢可以很方便地连接和访问美国的各种互联网服务和资源。他不像中国似的，还有一个墙的问题，他还没有这个。

至于越南还有什么其他东西呢？咱就不能胡说八道了，这个就不能讲了。英伟达到底是不是违背了当年的承诺呢？首先我们要讲说英伟达这事，他冤不冤嘛？英伟达自己讲的说，我们肯定没有违背承诺，当时承诺我们都做了。你愿意选英伟达的显卡，不选麦洛斯的这个网络设备，没问题，你可以去买；你选了麦洛斯的这个网络设备，你不选英伟达显卡。

你去选AMD的显卡也没毛病，我们都支持，这个是没问题的。因为美国现在也在查着这个事，欧盟也在查着这个事。但是英伟达有另外一个问题是什么？它叫一卡难求，大家都在这排队的。我先给谁后给谁，英伟达说了，如果你买英伟达全家桶，我就先给你卡，还有这样的一个政策在里头。

所以呢，他这一次被全世界做反垄断调查，这事呢一点都不冤枉。他确确实实是在通过一些市场领先优势地位，强迫别人去买他们家的全家桶。这个里边实际上干嘛呢？就是销售他的周边设备。原来我们经常讲，说苹果你们家内存是金子做的吗？就是这样的一个原因。说我如果买其他的这种内存放到苹果手机里头去，或者硬盘都是很便宜的。但是一旦是苹果原装出来，就特别特别贵。很多人还是会去买苹果的，这叫周边设备的捆绑销售。

像我们去商场里边买各种各样的这种电子设备的时候，他们在砍价的时候都是愿意跟你讨论的。但是呢，后边要注意，他们会想办法搭售给你一堆的小配件。那个玩意都是很贵的，而且质量未必有那么好。所以英伟达现在也在干这么个事，后边网络设备、配套的软件，甚至机架，你说我后边这个铁皮的架子，我都要全家桶一起卖给你。

所以英伟达现在干的是什么劲？一边喊着说用户选择我们的设备是因为我们设备好，另外一边呢，对于优先购买英伟达全家桶的用户，你可以提前得套显卡。他搞了这么一个事情，所以大家现在都在对他喊打。那么这个事情可能的处罚和结果是什么呢？到底咱罚他多少钱合适？

首先说很多事情，黄仁勋自己其实也决定不了。为什么呢？他的很多承诺，因为美国对中国禁运的事情，他是没法实现的。比如说你要持续的给我交付你的显卡，持续的交付你新的产品，这个事已经跟美国制裁相冲突了。所以这件事他未必能搞得定。其他的这些设备，你不是因为拿设备，你说我现在想拼这个摩尔线程的设备进去，造不出来了，这个事情跟他没关系。但是也确实是导致他实质上的一个垄断。

不是在讲英伟达自己的事情，而是这一次的调查，是中美博弈之间的一个砝码。会拖一段时间，看看后边怎么弄。那么具体罚多少钱呢？按照中国的反垄断法第58条规定，若企业在收购过程中违反承诺，且行为具有排除限制竞争效果，可能会面临上一年度销售额10%以内的罚款。咱们中国的法律呢，通常都是设一个上限。你说少罚点，没问题，咱商量，看你这个改正的效果怎么样。

当然还有一条是什么呢？这个反垄断法的第六十三条规定，违反本法规定，情节特别严重，影响特别恶劣，造成特别严重后果的，国务院反垄断法执行机构可以在本法第五十六条、五十七条、五十八条、六十二条规定的罚款数额的两倍以上、五倍以下确定具体的罚款数额。这个是什么意思呢？就是你如果太过分了，我还可以在刚才咱们讲的第58条嘛，是10%。我还可以在这个基础上，再做两到五倍的这个乘数上去。

其实呢，中国要的钱算是少的。为什么这么讲？第一个，我们是规定上限的，到头10%完了。另一个是什么呢？我们只算中国境内的销售额。在欧洲卖了，在美国卖了，不管你这些事情。欧盟当时算各种罚款的时候，经常一看罚苹果多少亿欧元，罚谷歌多少亿欧元，欧盟是按照全世界的销售额来算，这个是不一样的。

那么英伟达在中国到底卖了多少呢？2023年，英伟达在中国地区的销售额是54亿美金。如果按照顶格处罚去年的销售额的10%，再按照第六十三条乘个5倍的话，就是27亿美元，也就是去年在中国的销售额的一半。即使他吐出这些钱来，其实因为他依然是挣钱的。这就是这一次中国对英伟达进行反垄断调查到底想做什么的一个事情。

当然我们肯定希望通过跟英伟达的这种拉扯，我们也不想要他这27亿美元，看不起谁呢？我们希望还是可以让中国自己的这些算力卡厂商能够得到一定的喘息之机。大家可以说，我们把面子要了，以后我们国产替代了。你台积电是不是还给我们这个正规的，比如说摩尔线程、地平线这些公司给我生产芯片？至于华为这个制裁呢。

你别给他生产就算了。咱们大家呢，都睁一只眼闭一只眼。HBM这些芯片呢，咱们看看能不能拿一些回来，咱们接着使。这个是中国真正希望看到的。至于未来到底怎么发展呢，这个事一天两天完不了。咱们还是那句话，拭目以待。好，这个故事跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

老范讲故事 — Fri, 29 Nov 2024 00:42:07 +0000

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的。视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假或者版权侵害什么这样的视频。所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢，会发出一些样板视频来，那意思什么？他说，你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频，它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线。大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。

艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布，还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢，在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说，这个脚要往前走的时候，应该膝盖往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这个是第一个问题。

第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说，你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗，应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说，我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。

我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。

现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个，专业应用级别呢，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢，也还是有很多专业团队，会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。

半专业的应用呢，肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了，而Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。

这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。

对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入，艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。

所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了。为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这就相当于什么，就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头，每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但是艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说，你穿了件衣服，里边有个人，但是呢，人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着它都变成左脚了，或者是变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题，第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢，算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，它需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱，从头到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。

因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。

什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

YouTube上有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频我已经被这种视频骗了好多回了。

我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。

就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的，他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但是呢，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢，都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型吧，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”，什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。其实，这些呢是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。

最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以，他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就在2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。

但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着就都变成左脚了，变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。

他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。

咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后，什么欺诈？视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢，你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。

你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。

很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个说话了，这个吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。

当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画、小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把德国选择党的那个女党首的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型，式的那我们只要写一个提示词，生成出来大差不差的，我就能用。那些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他说哎，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题，咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯，这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说，非常非常难以控制和把握。再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看，最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，就是有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置，才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈？视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部，也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上，在吉梦也好、可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆，可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过。

这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们呢，就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢，其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢，是呼吁Open AI可以更加开放。

你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，表示现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢，并不需要进行身份验证，所以也不知道这个是真是假。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这种方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高的。当然了，这个还不是困扰视频生成本身的最大的难题，更大的难题是什么呢？就是视频要好看。

最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说，我们付出的努力极其艰巨呢？也是如此，他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢，完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

所以再往下一个方向到底是什么，虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。于是他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在呢Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。

第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。

你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。

这是第一个问题。第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上。现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。这大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。

视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。那么我们到底还需不需要等Sora呢？

其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上，在吉梦也好可灵也好呢，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型。在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

其实，从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢，已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全球的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂地泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂地开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头了，电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品，这个事本身是非常难的。他们说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这就相当于什么？就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停地玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是，视频生成本身的难度是很大的。第一个，内容合理性其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边有个人，但是人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，膝盖应该往后弯的。但是，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是两条腿迈着迈着都变成左脚了，变成右脚。图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性，这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上，已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定地保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后，算力成本实在太高了。图片生成，现在我们画一幅1080P的图像，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。

当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。大家想象一下，有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。

现在我们要做视频生成的这种工具了，在有大模型的基础上，你也需要大量的开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以，为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。

再往后，什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话它就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝；你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝；你只要提到任何人的名字，直接拒绝；说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝；请给我画个什么星球大战、米老鼠，马上拒绝。

所以，他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好、可灵也好，都是在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以，我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。

所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。

而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说：“你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情，都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人，有黑人，有白人，有男的，有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

当然有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀，血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看DALL·E 3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个DALL·E 3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。

这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。

Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。

至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

字节跳动在马来西亚大裁员背后的深层次原因解析：AI与全球内容审核策略

Luke Fan — Tue, 15 Oct 2024 01:42:41 +0000

字节跳动在马来西亚开启了大裁员。这是什么样的情况？大家好，这里是老范讲故事的YouTube频道。近期传出消息，字节跳动在马来西亚裁撤了700名员工，而这些员工主要从事的是内容审核相关的工作。

现在字节跳动也出面回应，表示：“我们确实进行了裁员，而且我们要去改变内容审核的方式，更多地依赖AI进行审核，而不是人工进行审核。”当然，字节跳动肯定还要出来立一个牌子，表示我们准备一年投入20亿美金。这一定是一个很巨大的数字，让大家看到诚意。那么，我们要投入20亿美金干嘛呢？在全球范围内进行内容审核，确保我们的内容质量以及一些安全的内容被传播。

那么，这个裁员背后到底有什么含义呢？首先，大家要想一个问题：马来西亚有700名内容审核员工，这些人审核的内容都是来自于马来西亚吗？这肯定是不可能的。马来西亚一共几千万人，他需要700个人坐在这里做内容审核吗？这个不会的。那么，马来西亚的700名内容审核人员审核的内容是哪来的呢？其实是来自于全球的TikTok用户，至少是英语用户，应该都是在这里进行审核的。

你说不应该美国的内容在美国审核吗？欧盟的内容在欧盟审核？大家要注意，内容这个东西其实有两个所在地，一个是哪里产生的，一个是哪里播放的。那么，应该是哪里产生的内容，在哪里审核。而且，不管是欧盟也好，还是美国也好，也都是有相应的法律或者法规，有类似这种要求和规定的。

但是，如果真的在欧盟或者美国设置这种审查机构的话，第一个，审核标准可能就会被泄露。因为很多的审核标准对于欧盟和美国来说，你是可以做，但不可以说你使用这样的一个标准。万一他的员工出去说了，字节跳动内部要求我们这么去审核内容，这个事肯定受不了。第二个，这些人离整个的管理总部非常遥远。字节跳动的管理总部是在哪里？至少TikTok对外宣称，他们的管理总部是在新加坡的。你说如果在美国设置了一个内容审核的分支机构……

有大量内容审核人员在那里工作的话，那你管理起来是很麻烦的啊。你有点什么事说来，上我这边来一趟。如果你在马来西亚的话，可能如果在新山，过一个关口就到了。如果你要是在美国的话，那得飞十几个小时才能飞过来，还有时差的问题。你在马来西亚上班跟在新加坡、北京，其实是在同一个时区里，大家就可以说几点开个会，什么都不会有问题。你要在美国或者在欧洲上班的话，那就要去协调时差，应该如何去处理。因为一旦有这种时差的话，很多事情就以天为计了。今天大家交会的这个时间赶不上了，那么我们只能在明天大家都方便的时间再去开会。这对于像字节跳动这样非常高效率运作的公司来说，是比较难以接受的。

而且马来西亚还有几个好处。第一个是什么呢？就是他的人力成本其实是比较适中的。虽然马来西亚这个国家并不穷，但是他们主要的财富是来自于石油。普通人的薪资并不是很高，肯定要比印尼、菲律宾、泰国这些地方要高，但是相对于欧美日韩，或者是国内的北上广深来说，还是比较有性价比的。你就更不要跟新加坡比了。在这样的一个薪资情况下，马来西亚人的英语水平还是不错的，因为英语也是他们的官方语言，从小受教育都是要去学习英语的，对吧？那么有一批人，距离新加坡管理总部很近，随时可以过个口岸就到那边开会，或者那边有个人坐公交车、坐地铁就可以过来开会了，还没有时差，直接进行沟通。工资不高，还讲英语，那么在这种地方就非常适合设立审核机构。

因为大家知道，像TikTok也好，国内抖音也好，都是要依靠巨大量的人工审核来去满足各国政府对于内容的需求的。刚才我们讲了，谁可以放什么内容上来，是有一个地方会审核，然后哪一个国家可以放哪些内容出来，是另外一个的审核。但是一般播出的审核并不是需要那么多人力，他们是说在你上传视频的时候，对视频打了标签，说明这个视频应该是什么样的视频。

在讲一个什么样的事情时，在播出的时候，他只需要过滤说：“我这个国家允许哪一个事情讲到什么样的级别，允许哪一个样的事情讲，还是不允许讲。”他只需要设置这个过滤条件就行。因为TikTok在马来西亚产生的内容、在美国产生的内容、在欧洲产生的内容，其实都是可以进行流动的。他是可以说在美国看到欧盟产生的内容，这是没有问题的。但是，假如美国做了一些内容出来以后，到了欧盟那边，可能相应当地的一些法律说这个内容是不许放，那个内容是不许放，他就可以进行这样的过滤。

但是，内容本身的标签呢，都是在内容产生的时候就给你做好的。下一个问题是什么呢？就是各个国家都希望：“我们自己产生的内容，你不要拿走审核，你就在我这审核。”他们也是为了进行用户的隐私保护。在这样的一个要求前提下，字节跳动说现在AI的能力已经变强了，我们准备重新分散。我们把马来西亚的这些审核人员干掉一部分，或者是很大的一部分。应该我相信这700人并没有把整个马来西亚的审核团队都干干净。

字节跳动的这种审核团队，那个经常是以几千人、几万人计的，至少是在国内抖音上面的这个审核团队是非常庞大的。因为你想，你要审核视频，人的审核效率并没有那么高，真的是需要看很多视频。我记得以前我们在盛大的时候，下边有个公司叫酷6，他们那个时候的审核就跟看监控似的，一个人面前大概是9个窗口还是12个窗口，一直在播放，然后你在下头看着那个，我觉得真的是要把人看傻的一个状态。

马来西亚这个裁撤了以后，应该是有一部分的工作可以转到AI了。这一部分的工作可能就可以到当地，比如说到美国、到欧盟，你用比较少的人，比如马来西亚才撤700人，到欧盟你说：“我这增加了个二三十人，配合AI也可以基本完成审核。”这个可能性是存在的。那么AI怎么审核这些内容呢？AI审核的第一步其实是把你内容相关的所有文字都拎出来。你在里边加了字幕了，有语言了。

然后写了这个标题，写了标签。他先把这些东西都拎出来审一遍，审完了以后呢，再去审里边的这些视频内容，真正的这种图像。因为这个审核算力的成本还是比较高的。你说我这个图像里头有没有一些色情内容，或者有一些歧视性内容，或者举了一些这种歧视性的手势，这个你要想把它认出来的话，成本非常高。

像这种AI审核呢，其实更多的是什么？更多的是说，先看看你这个内容有没有人看。如果没有人看呢，我们就少分配一些算力，少分配一些人去看这个东西。一旦说你这个内容看的人很多，流传的非常广泛，他就会分配更多的算力，甚至是人力，直接去检查这个内容是不是有效，或者是不是有问题。

怎么说呢，突然进行快速传播的内容里头，一定是有一些奇奇怪怪的东西的，一定会有一些擦边的内容。所以一旦发现有内容突然爆炸性传播了，快速的裂变了，其实这时候呢，不要再讲AI的事，上人力审核，可能绝大部分的情况都会判定内容本身有问题，直接把它干掉。这是一种。

还有一种是什么呢？就是它这个内容上线之前，其实除了对文字之外，其他的并没有进行严格的审核。一旦有人投诉了，或者投诉达到几个以后，他们再去进行机器过滤。如果机器过滤的过程中发生争议了，再去进行人工审核。这实际上是一个工程的方式，就是通过如何有效的去分配审核成本，保证有问题的内容不会大量传播。

他们不会说有问题的内容一个都不会出来，这没有人会要求这样的事情的。他们只是要求尽可能的把损失或者损害控制在可以接受的范围内，也就可以了。

那么在马来西亚裁员呢，可能还有一个大家想不到的原因。马来西亚有一个特别有意思的规定，就是你一旦要在马来西亚去做公司的话，你要尽可能的雇佣马来西亚本地人。他们的要求呢，就是如果你是制造业企业，你至少应该有80%的员工是拥有马来西亚国籍的人。为什么会有这种要求呢？就是马来西亚其实是个福利国家，就是他自己产石油嘛，你在那里生活，他的米面粮油啊。

特别是这种汽油什么的，是非常便宜的。他有补贴进去，这样的福利国家里头，肯定是希望把福利发给本国的公民。我不希望很多外国人上我这来蹭这个福利。他周围一个是印尼，一个是新加坡。新加坡人是不会跑到他那蹭福利去的，新加坡政府也不允许。

比如说，你想开个车上马来西亚去加油，这事是不行的。你离开新加坡的时候，那个车里头必须加满了油才允许离开。那么会有很多的印尼人到马来西亚去打工，包括有很多华人中国人跑到马来西亚去工作，还有很多印度人跑到马来西亚去工作。这对于马来西亚来说，并不是那么欢迎。他们希望尽可能雇佣马来西亚人。

像互联网公司，比如说字节跳动这样的公司，没有那么严格的要求，说你必须有80%是马来西亚籍员工。但是呢，马来西亚政府也希望你尽可能的去雇佣马来西亚人。这个事情跟刚才我们讲的700名马来西亚员工被裁撤，到底有什么关系呢？大家要知道，字节跳动肯定希望把更多的技术人员挪到新加坡去干活，去在那边完成TikTok的各种任务，而不是希望说这些人坐在北京给他们干活，因为这对于美国人来说就说不清楚了吧。

你看，TikTok的各种算法还是在北京办公室修改的，这个很痛苦。那么弄到新加坡呢，也有一个新的问题。新加坡本身在去做工作签证、永居什么的，其实没有那么容易。他的门槛很高，而且新加坡的生活成本也很高。很多在新加坡的这种IT企业，或者叫互联网企业，他们就会想办法把一部分的员工放在马来西亚，因为很近嘛，就是过一个关口就到了一个地方。

那么在这样的情况下，他们就需要一些配套的马来西亚人跟他去平衡。那怎么个配套法？假设不需要80%的马来西亚员工，这种互联网公司说，我们灵活一点吧，70%的马来西亚籍的员工就OK了，剩下30%你可以雇佣外籍员工。那么字节跳动在马来西亚可能就会有两三百名中国籍的员工，在那里进行一些算法运维或者编程开发方面的工作。咱们并不是说……

马来西亚自己人不会做这个事啊。因为我当时去马来西亚也跟他们聊过，他们跟我讲，在吉隆坡还是有一些互联网公司，有些软件公司。但是里面的一些软件开发岗，可能更多的还是从中国大陆来的人。

他们本地的这种培训、教育出来的软件人才，做得好的人就直接跑了，就是去新加坡了，或者去美国了。我以前有一个投资的案子，那就是一个马来西亚华人。他呢，计算机水平肯定是很高了，学好了以后呢，就直接去美国了，还在中国工作了一段时间，最终他是在印尼创业。

所以马来西亚并不是本地不产这些计算机人才，他们本地产的人才都跑了。在马来西亚本地，你需要比较高精尖的编程算法，这样的事情的人呢，你就只能再去找中国大陆的人去做。可能是有两三百名字节跳动的中国级员工，或者是其他国级的员工在马来西亚上班。这些人有可能离开了，也会导致说我不需要再在马来西亚配置这么多的本地员工跟他进行平衡了，这个可能性也很大。

那你说字节跳动在什么样的情况下会说我需要把中国级员工从马来西亚裁撤掉呢？这个我们只能猜测了。可能就是AI发生了一些变化，因为大家要知道，字节跳动在AI这个领域里头是进行重金的这种投入的，他在这里边投的非常非常大。字节跳动肯定希望在AI时代，能够发展成像梅塔、像谷歌这样的一种底层基础架构公司。

最近在全世界范围内，AI有一些新的风潮，就是OpenAI做了O1，做了其他的一些，好像依然在GPT-4O这个水平上晃来晃去的产品。这个其实会告诉大家什么呢？就是模型继续往前走，其实方向并不明确，会有这样一个指导方针出来。大家可能对于进行大模型本身质量提高这件事呢，热情就会下降，更多的会把精力放在说，我们要去做应用，我们要去解决实际问题这件事情上。

就是现在我们使用GPT-4O这样水平的模型，如果能够配合上很好的应用的话，可能就真的可以搞定很多的应用场景了，而不是说，我要想办法把GPT-4或者4O。

推到GPT-5这样的一个高度上去，这才是现在大家要去努力折腾的事情。可能字节跳动就会说：“我们不需要这么多员工，在马来西亚去占这个坑了，你们都回来，回到中国来，咱们好好去做APP吧。”这个可能就会发生变化。而且，现在也有一些指标在印证这件事情。什么指标呢？H100的租售价格，因为大家知道，买英伟达H100是很难的。但是很多人买完了以后会对外出租，租每个小时多少多少钱。现在这个出租价格在快速下跌。所以，大家其实现在对于大模型在向下一个阶段推进是有一些顾虑的，而且也缺乏方向。可能真的要等OpenAI做出GPT-5，来说：“哦，原来方向在这里。”然后大家再去疯狂的租用H100或者以后的D200这样的芯片，再去推新的模型出来。

字节跳动在这个时候进行这样的调整，背后的原因基本上是三个。第一个，跟美国的诉讼还在激烈进行当中，所以整个的审核团队的配置一定会发生调整，把原来集中在马来西亚进行审核的很多岗位分散到欧盟和美国各地去，这是要干的第一件事。第二个，它的AI审核现在已经相对比较成熟，可以一部分替代人工的工作了。第三个，字节跳动的AI战略也发生了一定的调整，在马来西亚不需要那么多的中国员工了，所以也不需要跟他们配套的那么多的马来西亚员工。如果可以在马来西亚减少一定的审核员工的话，他们完全可以把这些员工放到一些成本更低的地方去。什么地方的人又讲英语，成本还更低呢？菲律宾啊，那个地方的成本会比马来西亚还要再低一些。这也是有可能导致这一次人员移动的原因。

这一次的马来西亚裁员，反映出字节跳动在全球进行成本控制以及技术发展监管合规之间的一种平衡。对于未来，大家可能可以看到更多的内容审核会用AI配合人工，或者配合少量人工的方式，分散在全世界各地进行本地处理。AI现在正在走向一个模型突破，看不到曙光，应用突破，大家努力投入的一个新的变化。

字节跳动，甭管是抖音还是TikTok，肯定都是现在全球所瞩目的一个核心靶子。字节跳动应该是目前还没有上市的最贵独角兽，即使是刚刚完成融资的OpenAI，也就是1,500多亿，而字节跳动的估值现在是有2,000多亿。而且普遍认为，字节跳动的估值是被极大低估的。

你说字节跳动如果真的是上市了，即使是TikTok和抖音分拆上市了，这两边加起来的市值应该是可以接近像梅塔，或者是接近上万亿美金的一个级别的。他的各种动作一定会被全世界的人，或者是全世界像我们这种科技博主所关注、所解读的。

今天呢，我们也去解读一下字节跳动在马来西亚裁撤700名员工，可能背后隐藏的各种意义。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI或将ChatGPT涨价至2000美元/月，未来发展何去何从？

Luke Fan — Mon, 09 Sep 2024 00:40:10 +0000

2,000美元一个月的ChatGPT还会有人用吗？

大家好，这里是老范讲故事的YouTube频道。

今天咱们来讲一讲OpenAI有可能给ChatGPT涨价的事情。消息哪来的？国外著名科技媒体Information上报道，OpenAI因为连年的亏损，而且新的模型成本快速上涨，所以有可能给ChatGPT涨价。涨多少呢？他们也是搜集了很多的信息以后，判定有可能会涨到100倍，也就是2,000美元一个月。这是不是幻觉呢？大概率是。

那你说Information上面怎么会有幻觉呢？需要注意，Information上面也是说，我们根据各种信息总结出来以后，有一种声音提到有可能会涨100倍。具体是哪个涨100倍并没有说。到底是每个月这个20美金的订阅费用涨100倍，还是说TOKEN的费用，或者其他的一些商业合作的费用，涨到100倍都没有说。而到底是涨100倍，还是说按照这样的一个级别去涨，现在也没有讲清楚。所以只是说，我们根据传言得到了这样的一个消息，这就算是一个幻觉。

咱们再讲一个幻觉的故事。前面有人提到，印度产的iPhone良品率只有50%。后来被富士康的人出来辟谣，说没有那么差。如果良品率只有50%，苹果也受不了。其实印度产的iPhone良品率比中国的低10%。郑州富士康的iPhone良品率大概是96%，印度大概是85%或者86%这样的一个水平，其实依然是可以接受的。

那么前面讲的这个iPhone在印度产，良品率只有50%这件事，完完全全是造谣吗？也不是。有人报道说，印度的某一个零部件工厂，生产的iPhone外壳送到富士康检测之后，发现两个里面只有一个能用，这就是50%。也就是iPhone的某些工厂生产的某些配件，一些批次里面，它的良品率是50%。但是这样的消息拿到国内来以后，大家就传了，印度产的iPhone良品率就是50%。它会变成一个幻觉。

这种幻觉，我们一般认为它不叫完完全全的谣言，它是有出处的。只是大家把不同出处的信息进行总结归纳以后，就会变成一个假消息。以前有人在苏格兰坐火车的时候，看到有一头牛是紫色的，说苏格兰的牛都是紫色的。这个时候旁边人说，你不能这么讲啊，你应该说你在苏格兰看到了一头紫色的牛，而不能说苏格兰的牛都是紫的。另一个人又上来说，你这个说的依然不准确，那应该怎么说呢？说你在苏格兰看到一头牛，一头牛有一面是紫色的，另外一面你没看着。你不知道，但是如果有人出去传，苏格兰的牛都是紫色的，你说他算造谣吗？咱们稍微扯得远一点，讲一下这种幻觉是怎么产生的。其实，人也会产生幻觉。苏格兰的牛都是紫色的，印度产的iPhone只有50%的良品率，这就是人类自己产生的幻觉。

所以我们不要光去嘲笑大模型。好，我们继续往下讲，OpenAI现在到底在干什么？其实很多人也很关心这件事情。这一段时间来，传出了很多的新名词，但这些新名词都代表什么意思？

比如说，去年山姆·奥特曼突然被干掉，失去CEO职位，失去董事会职位的时候，就传出来的Q星算法，这玩意到底干嘛使的？今年前几个月，山伯特曼突然放了一张草莓的照片，那么草莓算法到底干嘛用的？以及山姆·奥特曼号称马上要发布的Orin猎户座模型到底是什么，或者说非常强大的Orin猎户座模型到底是什么？

前面号称OpenAI要涨价100倍的这篇《Information》文章里面也进行了一定的解释，它把这三个算法串起来了。Q星算法是主要做科学和数学计算的。大家知道，大语言模型通过语言进行推导，它就比较容易犯9.1比9.9大的这种错误。它从语言上看，11一定比9大，但如果有一个数学相关的模型直接算，就可以避免这种错误。这就是Q星算法。

而草莓算法，其实是以Q星为基础做出来的，也就是以数学和科学比较强劲能力的算法为基础的。它主要的特性是有极强的推理能力，它可以直接拆解我们所需要的任务，而得到一个完整的结果回来。这就是草莓算法。据说这种强劲推理能力的草莓算法，今年秋天就会面世，应该没几个月了。

而下一代的大模型，非常强劲的大模型Orin，也就是猎户座模型，是使用草莓提供的合成数据进行训练的。它把所有这些东西综合在一起。

现在其实大家遇到了一个问题，是什么呢？就是scaling law快卷不动了。Scaling law就是缩放法则，所有的AI公司老板都信誓旦旦地拍着胸脯跟大家讲，我们依然相信scaling law是成立的。英伟达的股票涨成现在这样的一个状态，也是大家相信scaling law依然成立。

Scaling law是什么？我不断地往里加数据，加更多的数据，加更大的算力，也就是显卡，算更长的时间，得到更大的模型，一定效果更好。这就是scaling law，也就是我们以前讲的大力出奇迹，只要你不停地往里堆，总有一个更好的结果出来。虽然所有人都在喊这件事情。但其实，过去的一年里，这个 scaling low 基本上并没有被突破，没有更大的模型出来。虽然我们看到了拉玛 3.1405B 的推出，但因为前面有不公开参数的 GPT-4、GPT-4O 以及 Gemini 1.5 Pro 这样的版本，所以我们并不能确定拉玛 3.1405B 是否在 scaling low 上继续往前走。

Anthropic 的 Cloud，它们最强的模型叫 Opus，虽然也没有公布参数量，但大家普遍认为它应该是跟 OpenAI 的 GPT-4 或者 GPT-4O 的参数量级在一个水平上的。结果，Anthropic 推了一个 Cloud 3.5，大家觉得实在是太香了。现在可能使用 Cloud 3 Office 的人已经越来越少了，而 Cloud 3.5 的 Office 版本这么长时间也一直没推出来。

大家已经在这种大模型的基础上进行蒸馏之后，往回退了一步，并没有继续往前走去实现更大的模型。而现在，各种 70 币上下规模的模型，它们的能力已经接近 GPT-4O 了。无论是使用拉玛 3.1 的 70 币，还是使用通义千问的 72 币，或者其他一些公司训练出来的开源、闭源 100 币以内的模型，它们不能说完全超越或全面碾压 GPT-4O，但在某些特定场景下，已经接近或超越 GPT-4O 的能力了。

小模型结合各种场景之后，甚至比这些 70 币的模型表现还要更强一些。也就是这种 7 币或者十几币的模型，如果进行一定的微调，再结合特定使用场景的话，效果也很好。这导致什么呢？对于更大模型的需求在变弱，大家觉得现在这些模型挺好的。在这样的基础上，不断把这个模型变得更小，让它更加贴合具体的应用，效果也非常好。

还有一个原因是什么呢？就是 GPT-4 和 GPT-4O 指明方向以后，大家已经追赶了一年了。追赶到现在一个位置后，大家说我们已经基本上达到和超越 GPT-4O 的水平，再往前走没有方向了，没人指明道路。现在大家都在等待行业的老大，或者叫排头兵的 OpenAI，来告诉我们下一个方向在哪里。

现在 OpenAI 告诉大家，下一个方向有可能是 Orin。而 Orin 跟现在的 GPT-4O 比起来，它的差异是什么地方呢？就是推理能力更强，逻辑能力更强，幻觉更少。这是现在新的追求方向。但是 Orin 出不来，大家也不知道应该怎么做，还是要等它做出来。

阻碍 scaling low 继续发展的还有一大原因，就是数据枯竭了。训练现有的模型已经可以把当前能够找到的数据基本上都使完了。更多的数据进行清理和处理的话，成本非常高。我们直接找到过往的书籍和互联网上的信息，对这些数据进行清理，人工的这种加工成本是非常高的，因为数据量实在太大了。很多的低质量数据，拿去训练以后，可能幻觉会变得更厉害。

所以现在大家普遍使用的方法是什么？就是使用合成数据。所谓的合成数据，就是由大模型生成的数据，再去训练新的大模型。而这些数据又不是靠大模型直接生编的，而是什么呢？让大模型去取代做数据清理的人工。我们拿到大量的网络数据以后，把这些数据交给一个大模型，让它去做清理，清理完了以后重新生成一遍。

这些合成数据也不算是无根之木，它也是从现实来的，只是经过大模型的过滤和清理。拿这样的数据再去训练新模型，发现效果会更好。拉玛3其实就是这么训练出来的，这拉玛3里边的数据是用拉玛2进行清理出来的，也算是合成数据，训练大模型的一个典范。

而现在OpenAI的Orin大模型，就是准备使用它的草莓算法生成合成数据，然后再去进行训练。OpenAI自己玩的就是一个心跳。现在新一轮融资还没有关闭，新一轮融资就是已经有领投方了。据说有一家公司说，我们愿意出10亿美金，然后再等其他人跟投，希望可以凑个几十亿美金让OpenAI再活半年。

OpenAI这个几十亿美金，大概也就是活半年。他一年应该妥妥的会烧掉上百亿美金，而且这个数字可能还会快速上涨。因为去年呢，他亏了大概50亿美金，今年应该亏到上百亿美金是没什么问题的，等到明年可能就是几百亿美金的亏损。

现在大家预估OpenAI一年的收益是35亿美金，也就是这个里面大概20亿美金来自于一个月20美金的订阅，剩下的可能是做TOKEN，我们使用API买TOKEN的钱，以及其他的一些服务费。这个是OpenAI的收益预估，因为它毕竟不是上市公司，没有财报出来，所以大家只能去猜测。

而亏损，每年OpenAI大家预估的亏损额是50亿美金，这是一个非常恐怖的数字。OpenAI手里边的现金，你想微软给了100亿，再加上其他一些人给的钱，所以现在基本上是烧完了，再不融到这一轮就没得玩了。你融到这一轮以后，可能也就是再烧半年的。

那你说钱这么多都烧哪去了？第一个就是烧算力。你得上微软爸爸那里去交钱，买微软云上的算力，继续去训练大模型。第二个，你现在是1,500人团队了。而且，OpenAI现在团队规模还在不断扩张。那你人多了以后，肯定有很多的内部是是非非。有一个故事说，这个活原来一个人能干，现在不行啊，干着太累了。招两个人来，一共三个人来做这个事情。原来这个人变成领导了，后来发现比以前还累。说为什么？说我现在需要给他们做计划，让他们也做计划，回来我要审核他们的计划，看看这个数据应该怎么去分配，任务分下去。我还要调解他们之间的矛盾，还要去做考核计划。说这个比以前我一个人把活干了还累啊。

所以，这个人增加了以后，绝不是说我增加了一倍的人，生产的效率就提高一倍。经常是提高到一定程度以后，你的生产效率就不会再提高了，而开始下降。这个就算是一个边缘。所以，OpenAI内部现在是是非非，肯定是非常多的。作为当前最红的行业AIGC的领头兵，也就是当红炸子鸡，OpenAI自己招聘人才，以及他要留住自己的人，成本肯定会直线上升。投资基金、各种猎头公司，每天都趴在他外边等挖他的人。

那么，你要想让这些人留下来，一定要多给钱。新的模型，训练成本肯定也是几何级数上升的。你想让scaling low再次起作用，就一定是要投入更多的数据、更多的算力，这个事没有办法。而且，越大的模型，你的安全成本就越高。以前我们就都在讲，什么叫知识越多越反动？你这个模型变聪明了以后，他有可能给大家带来的伤害会变得更加惨重。我们想让一个更聪明的大模型成为安全的模型，所需要支付的成本也一定会更高一些。如果这玩意再出错了，那就是高智商犯罪了。

OpenAI现在真正的困境是什么呢？就是不赚钱。开始其实有一些路就走错了。聊天模式20美元的订阅以及TOKEN收费，不光是他自己走错了，还把整个的行业都带沟里去了。他有他强的地方，就是你通过聊天方式，一开始就震惊了全世界，让所有人，不管适不适合去用AI的，大家都冲上来用，成为了全世界关注的焦点。这是他使用聊天模式取得的成就。

但是，聊天模式是一个双刃剑。一面是说大家都关注了，每一个人都可以用；另外一面是什么？你要想从聊天模式再继续往前走一步，可以让大家能够更好地体验到AI的能力，这一步其实是非常难以越过的。另一方面，20美金订阅，那他出了这样的一个数据之后，导致整个行业只能跟他对标。微软的Copilot也是20美金，谷歌的Gemini你只能在20美金往下做，其他的一些cloud等等。
都是在20美金这个范围上下去波动。至于一开始，那个人到底为什么定他20美金，这个大家只能想破脑袋去想了。前人一定是有他的道理。就跟原来有一个笑话说，有一个大的印象派画家，他有一副名画，很多人搞不清是画什么的。一堆人在那去做研究，甚至有些专家专门去研究这幅画，还发表了很多论文，成为了学术态度。

第一个研究这幅画具体画什么的学术泰斗离开人世去了天堂以后，正好碰到这个画家，就去问他说：“您那画到底画什么呢？你看我研究了一辈子，都成为学术泰斗了，我也没研究明白，还跟很多个派系吵来吵去的。”那个画家说：“你到底说的哪幅画，我想不起来了。”最后他太太在旁边提醒了一下：“你说的不会是擦手布吧？你每次画完画，然后拿那个布擦手，形成了一副印象派的名画，让后人研究了很长时间。”

所以20美金有可能就是这么来的。而20美金跟token付费这种事情，其实会极大限制使用AI的人数，因为它会限制流量的上升，也会限制新的商业模式的爆发，这个其实是有毒的。现在OpenAI其实面临着当时谷歌的困扰。谷歌的困扰是什么？是分叉。当时谷歌把安卓做出来以后，所有人一看，这个东西实在太厉害了，我们拿它去分叉，就有安卓的各种智能家电的操作系统、安卓的手表操作系统、安卓的各种嵌入式操作系统、安卓的各种定制操作系统。谷歌说不行，你们不能分叉，我一定要把安卓的版本一直升上去，让你们所有分叉人都死掉。

OpenAI其实现在面临的困难是一样的，它指明了方向，大家各自去发展，长出了Anthropic、拉玛、Gemini，现在的标准已经不统一了。想要继续站在排头上，继续引领风潮，必须不断放出新消息，不断去指明方向。但是，手里边的钱又不够多，攻城能力也不够强，也没有盈利能力，只能是不停地放空话。你像从2024年年初到现在，OpenAI已经吹了多少牛，到现在都没有实现。

那么OpenAI的解决方法有哪些呢？第一个就是涨价，像刚才我们前头讲的，把这个费用涨100倍，涨到2,000美金一个月。这就是第一个处理方法，涨上去以后就可以达到盈亏平衡了。第二种方式就是不停的融资。山姆·奥特曼在斯坦福大学演讲的时候也讲过，说你们不要去研究挣钱的事情，我就不停的去找钱，反正我有这个能力。找完了以后呢，就把它烧掉，再去找。现在新的一轮钱找到了，这条路还是在往前走，而OpenAI准备去上市。上市的时候，你又可以圈一大笔钱吧。但是上市了以后，你未来还是要去盈利的啊。所以甭管是找钱也好，还是上市也好，算是饮鸩止渴，或者是寅吃卯粮，我们把未来的一些可能性把它消耗掉，那继续在亏损和越亏越大的这个道路上狂奔向前，这不是一个长久的解决之道。

还有一条路是什么？就是重新发明定义，走通一些新的商业模式。这可能是山伯特曼或者整个OpenAI，包括整个硅谷和行业，都在期盼的一个事情，就是说我们不再去依赖传统的这种流量商业模式了，而是做一个新的商业模式，像收税一样，把这个税收上来，让大家像一个基础设施那样去使用这些AI大模型。但是这种模式呢，到目前为止还没有走通。未来到底能不能走通这件事情，还是一个问号。

那你说，如果这个商业模式走不通，盈利呢？其实从短期来看，还是很难的。还有没有其他的方式？OpenAI难道就要倒在这里了吗？还有一个方式就是国有化，直接交给国家，让国家通过税收、通过印钱直接去使用这些大模型。现在Scaling Low继续往前走的话，可能迟早会走到国有化这条路上。

那么就看到底是大家能够先去找到合适的商业模式，让整个AIGC产业健康发展，还是最终让AIGC都沦为主权大模型。到底是走哪条路？因为主权大模型这件事情，是黄仁勋提出来的，是说我们以后每一个国家都去买自己的显卡，建自己的算力中心，每一个国家都拥有自己的主权模型。这是他提的这条路，不知道是光明还是黑暗，但也在我们的前方等待着我们。

好，这就是我们今天讲的故事。一OpenAI准备涨价100倍，为开始探讨一下OpenAI未来的一些发展方向。好，今天的故事就讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

一年亏损50亿美元，OpenAI压力山大：再不推出GPT5，可能没有机会了——GPT-4面临Anthropic Claude 3.5 Sonnet和Meta的LLama 3.1 405b的挑战

Luke Fan — Sun, 28 Jul 2024 00:47:20 +0000

GPT5如果再不出的话，可能就没有机会了。大家好，这里是老范讲故事的YOUT5频道。今天咱们来讲一讲OpenAI现在身上的压力到底有多大。再不出GPT5，可能真的要出事儿了，因为前面吹过的牛实在太多了，特别是Sola这样的模型，号称可以直接生成长的视频出来，到现在已经半年了，还没有真正拿出来，只是每个月放出几个视频而已。而其他各个公司，按照Sora方向做的产品，已经都开始在公众测试了，这对他们来说一定是巨大的压力。

前一段时间发布的Anthropic Claude 3.5 Sonnet，也把压力给到了OpenAI，因为这个模型的效果已经非常好，而且极其便宜。更不要说昨天刚刚发布的Llama3.1405B这样的一个开源模型。前面咱们讲的Anthropic的模型还是闭源的，而Llama可是个开源模型。405B的话，在各个层次上，都赶超了OpenAI的Chat GPT-4。老大的位置有可能会丧失。

大家注意，OpenAI这样的一家公司，可能不会轰然倒下，但对于一个领域的开拓者来说，丢失老大的位置是非常非常可悲的，基本上跟死掉了没有太大的区别。所以现在对于OpenAI来说，他们最害怕的就是把老大的位置丢了。

目前的应对方式也很怪，头一天先发了GPT-4欧MINI，第二天人家Llama3.1405B就开始偷跑。是谁在偷谁的家？我们现在看到了一个叫互相偷家的故事。

就是每一边都是在对方最强大的地方打了一根钉子。GPT-4o mini是打的Llama这样的小模型。原来很多人图便宜啊，我要用这种8币的模型，用70币的模型去进行微调，去进行各种各样的定制化开发，以后满足特定场景需求。那么好了，我现在推出GPT-4o mini啊，把这个市场抢过来。这边一个嘴巴子扇过去了，那头一看说：“哎，还有这事呢，老师来，我给你上个大的。你们原来不是说大模型厉害吗？PPT4O厉害，对吧？我直接给你上一个拉嘛，3.1405B超越你的碳模型。”所以叫相互偷家。

咱们还记得谷歌I/O开始的前一天，OpenAI在干嘛吗？啊，他发布了GPT-4o 端到端的语言训练模型。其实到现在为止，我们依然没有看到端到端的语言模型。现在看到的GPT-4o 依然是啊，要给它进行语音识别，处理完了以后，再给我们念回来的一个过程。这个端到端的模型，包括加上视觉的模型这一部分，现在也没拿出来。但是，就是要赶在谷歌I/O之前发，提前一天，导致了谷歌I/O上发布的Gemini 1.5 Flash，本来是做类似事情的模型一下就显得不香了，对吧？

那么这一次呢，我们看到的是非常神奇的GPT-4o mini，应该是啊，计划好了进行发布。阿克伯格那边说：“哎，我们原来虽然没计划好，但是咱们表演一个偷家吧，直接把磁力链放到Reddit里头，就直接偷跑出来了。”所以这一次呢，应该算是OpenAI被梅塔抄了后路了。

OpenAI GPT-4o mini 这样的一个模型，最初想去偷梅塔拉嘛的，后加的时候还有后续的动作出来。这个后续动作是什么呢？免费微调啊。什么意思呢？就是我们发布的这种预训练模型，如果想让它按照你所期望的方式去工作，是需要去微调的。微调这种模型本身是比较贵的，原来 GPT3.5 和 GPT4 都是允许微调的。

这个怎么干呢？就是说你上传一个文件上去，这个文件就是我说什么你回答什么，大概是这样的一个格式。当你把这个文件上传上去以后，就可以请求这个文件给你微调一个版本出来。那么这个版本的模型，是只有你自己能用的。原来也有这样的功能，现在到 GPT-4o mini 这儿，我们不是要抢Llama 38B 这样的生意吗？来，微调免费了，至少在一段时间内，微调是限时免费的。

本身这种小模型的微调就比较便宜，GPT-4o mini 就算是过完了限面，开始收费了。它的调试成本也是相对来说比较低的，100 万 TOKEN 的调试可能是 3 美金还是 5 美金。但是微调以后的那个模型，你再去使用就要贵一些了。GPT-4o mini 正常的输出 100 万 TOKEN 是 60 美分，而微调过的版本，因为这个版本只给你一个人用或者只给你一个团队来使用，这个成本就都要你自己来承担，100 万 TOKEN 是 1.2 美金，价格翻了一倍。这就是直接放出来的价格，这就是要抄家了。

大家知道Llama3这种东西的微调成本是多少吗？你说自己有显卡啊，或者说我用谷歌的云上，谷歌云上是可以薅羊毛的啊。你是可以免费开一个云主机，快速的调完了把它关掉，这个过程是不用付钱的。咱们不去参考这个价格，咱们看看gather上的价格是什么样的啊。

Llama3.18B的模型啊，咱们不要去调那个405B啊，那个东西很贵的。咱们调这个8B的模型，100万TOKEN，10次以内的迭代。因为你微调的时候，它会让你选你到底是调几次，10次以内的迭代，5美金啊，基本上是在同样的价格。所以我也在猜测GPT-4o mini的大小，应该也就是8币9币这样的一个程度，否则的话，这个价格是没法去比对的。

因为Llama3.18币啊，输出100万TOKEN的价格大概是0.9美金，微调100万TOKEN的价格是5美金。那GPT四O Mini输出100万TOKEN的价格是0.6美金，微调的话是3美金。当然现在是限免啊。

稍微在这里讲一下微调跟RAG之间的差别。以前我们讲了很多跟RAG自我、本地知识库相关的这种知识。那么什么时候上微调，什么时候上RAG呢？举一个简单案例吧，就是现在来了一个新的毕业生。微调相当于什么呢？叫入职培训。你来了以后，我先给你做个入职培训，看到领导要鞠躬，看到客户要说，先说你好，然后呢再给你一个入职手册，先把这东西都背下来。你以后就按照这个方式去工作。微调了以后，这样的版本。

我们经过了入职培训以后的版本。你问他相关的问题，就是入职手册写过的问题，他都会对答如流，按对入职手册回答给你，没有任何问题。而且呢，按照你要求的格式来输出。看见领导鞠躬，他会干的。

微调有一个问题是什么呢？就是超出手册的东西就没有了，这就是微调干的活。那你说RAG是干什么呢？RAG相当于给你发了一本字典，你随时需要查，随时可以查。说我现在需要查一下这个问题怎么办？那个问题怎么办？你随时在字典里去查。

我们一个新员工入职了，比如某位同学大学毕业，到公司上班来了，入职培训要做，对吧？字典也要发。这就是微调跟RAG之间的关系。RAG其实对于OpenAI来说，对于Llama来说没有太大的区别，大家都可以做。但是呢，微调原来GPT这块是要贵很多的，这个模型也贵。你微调了以后，整个微调的过程也都相对来说比较贵。

现在，OpenAI就在这一块跟Llama彻底找齐了。你说我们去调那个405B去，其实意义不大。一般微调就是调小模型，你去找一个大模型出来调，这实在太贵了。咱们还是以刚才这个新员工入职的过程来讲微调。你去找一个应届毕业生，让他做新员工入职培训，这个效果是相对来说比较好的。

对，我找猎头公司，从别的公司挖一大牛回来，或者我从其他公司挖一CEO回来，让他坐在这给新员工培训，这不扯淡吗？就这样，微调大模型的效果就是这样，又费劲效果还未必好。

所以，一般微调都是调小的。那么，OpenAI到底挣不挣钱呢？今天看了一些数据，OpenAI是真的不挣钱啊。前面还有人讲说OpenAI的收入已经很厉害了，今年可以达到30亿美金了。30亿美金的收入对于很多公司来说，是完全可望而不可及的一个数字。作为一个新创建没几年的公司，能够入账30亿美金的收入，这个非常厉害。

但是，挣的多，人家花的更多。花了多少钱呢？因为OpenAI不是一个上市公司，所以大家只能去根据各种蛛丝马迹去算它到底花了多少钱。基本上算下来的，它的成本大概是80亿美金，所以它一年亏50亿美金。

这80亿美金怎么算出来的呢？每年交给微软的钱就是去买算力的钱，大概是40亿。这个是微软内部的一些人，或者说了解OpenAI向微软付款的一些内部员工透露的，这个数基本认为是靠谱。第二块是什么呢？就是OpenAI还需要购买很多数据，比如说上Reddit里去买数据，包括一些其他的数据集，去购买和清洗加工，这个钱他是要去花的。

还有一块的钱是什么呢？人家那么多新员工，对吧？现在有1500人了，而且还在快速扩张，现在还有200个职位开着，准备再接着招人呢，这个也是一大笔钱。所以呢，他现在每年的成本大概在80亿美金左右，而且这个成本还在快速上升之中。你想，他还在疯狂的招人进来，前面还吹了那么多牛皮，还没有抹上呢。你要想把前面吹的牛皮补上，要干嘛？接着开足马力训练大模型啊。

Scaling啊，scaling low啊，接着跑啊。我进一步扩大模型的规模，进一步整更多的数据，然后整更多的人回来。而且现在整个行业已经热起来了啊，他这一千几百口的人，那一定得给到比较高的薪水，比较高的这种收益才可以啊，要不然别人会挖人的。全世界都在盯着他的人吧，哪怕是一个街边扫地的。你说我在OpenAI扫过地，那其他人说我把你请回来，是不是多给你点钱啊？OpenAI的人员成本一定是不低的。

微软呢，其实已经算是对OpenAI很好了啊，为什么呢？就是微软给OpenAI机房的价格应该是一个成本价，并没有真正的按照微软云的那种啊，对外报价去找OpenAI收钱，已经算是非常非常支持了。销售呢，这个没办法，特别是B端销售，大家都有KPI，谁也不能让着谁。所以微软在B端销售上，包括在Windows客户端的Copilot的这种产品的竞争上，肯定是跟OpenAI有一定的约定的啊。B端销售各打各的，你要能卖掉是你的，我要能卖掉是我的，Windows客户端你别碰啊，这个是我的。

所以现在OpenAI只有Mac版的客户端，没有Windows版的客户端啊，那边是留给微软自己家亲儿子Copilot的。作为一个公司来说呢，微软对OpenAI已经是非常非常好了啊，那么对比起Anthropic，OpenAI算是好的。这个玩意叫不患寡而患不均，那你说Anthropic后边是谁？是亚马逊。

微软对OpenAI好，这一定要有对比，那就要对比亚马逊对Anceropic。推理成本肯定是不低的，而且Anthropic其实并没有跑那么多的大模型。新的模型训练、新的模型的推理没有做这么多，而且用户量也没有OpenAI高。可是呢，以亚马逊找Asopic收的钱是不少的。

另外一个Anthropic，如果通过亚马逊云赚到了钱，比如说我把这个产品卖掉了一些弊端的用户买了我的产品，亚马逊是要在里边抽成的。所以Anthropic跟OpenAI比起来，属于过得更凄惨一点。Anthropic收入的话，大概是OpenAI的1/5。刚才我们讲了OpenAI是30亿美金，它大概有个五六亿美金的样子吧。

因为都不是上市公司，所以大家都不会说这个事。亏损也亏，他亏多少呢？亏大概是OpenAI的一半。OpenAI大概亏50亿美金，他亏25亿美金，就是这样的一个比例。所以前面我们也讲过，Isopic现在也快玩不下去了，玩不下去的话，亚马逊可以落袋为安了。

我记得以前有一个故事，电影院想去卖饮料，怎么能够把饮料卖得更多一些呢？我把空调开的小一点，让电影院里稍微热一点，这样我就可以多卖一些饮料出去。看看亚马逊跟Anceropic之间的故事，是不是有点像这个？当然了，OpenAI现在也很渴，也需要去买饮料喝了，像微软爸爸去买，现在山姆奥特曼的应该正在努力地找钱。

愿意给钱的人肯定不少啊，这个不用担心。毕竟是开拓一个新领域里边的老大，那这个时候肯定很多人都愿意给钱。那你说愿意给钱不就没事了吗？拿着钱接着烧呗。不那么容易啊，为什么？因为你要问微软同不同意。微软占49%，给了130多亿美金进来了。你现在再找，说我让苹果给钱啊，苹果愿意给，那微软说不行啊，这个必须排他。

像我们以前签很多这样的协议，进去的时候，特别是我成为大股东的时候，一定会有排他条款的，对吧？你让我的竞争对手进去，这事不行啊。微软就是说，我虽然愿意看着你努力成长，但我也更愿意看到你落到我的口袋里，在我这再多买些饮料。我说算了，我卖身给你得了，这个也是微软乐见其成的事情。

所以并不是谁的钱他都可以去拿的。一些微软的竞争对手，比如谷歌，比如说苹果是愿意给钱的时候，他就需要做微软的工作，说求求你让他们进来吧，他就会变成这样。那么下一个问题是什么呢？到底估值是什么样的？估值涨到多少，这个事微软才能乐意啊？其实还是跟微软有关。

现在OpenAI的估值是860亿美金，这个估值是OpenAI上一次进行内部的股票兑现的时候，或者说一些内部员工股票变现的时候的估值，并不是一个正式的估值。正式的估值的话，我觉得他现在有个大概两三百亿应该是合理的。嫁一个人进来，到底按什么样的估值进去，这个就很难去平衡。为什么？因为这个数已经很大了。嫁一个人，你说我为什么进去，投资这样的公司的目的。

一定是说你以后能够长得更高啊。然后呢，你去上市，我能够啊，多少倍啊，能够退出，至少是3-5倍能够退出，因为这么高的估值嘛，承担这么高的风险，一定希望能够尽快的按更高的倍数退出。现在已经是两三千亿了，你再往上翻这个数就不好翻了。而且如果真的是几千亿的估值，又拿了钱了，你上市怎么办？股市能不能支撑得住这样的公司？几千亿美金的公司上市，还是有一些难度的。

像AM上去，也就是几百亿上去，虽然上去了以后快速在增长，但是你说我直接就是按照几千亿，没准这一轮再上去了以后，大家就希望他上1万亿美金去上市。这个纽交所也好，纳萨克也好，虽然是注册制，只要是你提交的申请文件符合格式，你就可以去上市。但是这些地方啊，这些基金们啊，因为所有的美股大量的都是基金盘，很多基金经理会去看你这个产品到底值不值这么多钱，所以这个事对于所有人来说都是很有压力的。

那么现在怎么办呢？比当前的估值直接上市也许就是唯一的解决方案了。坚持到年底，Open I的业绩还是有爆发的可能性的。于现在，大家虽然预估他一年挣三十几亿美金，这事儿是怎么算出来的呢？是他每个月大概能挣到两点几亿美金，这两点几亿美金里头大概2亿美金，是他去卖那个20美金一个月的Plus的费用，在七八千万美金吧，是卖API的费用啊。他是这样来算的。那么，为什么到年底的时候会业绩大爆发呢？咱们想一想，9月份会发生什么大事情？9月份iPhone 16发布。

iPhone 16如果发布了，虽然它的成本会进一步上升，因为所有用iPhone的至少在国外吧，就可以去访问GPT-4了。但是，另外一方面，这些用户会大批量地转换成OpenAI Plus用户。那么它的收入也会爆炸式增长一下。所以到今年年底，还可以再大涨一波。

苹果算是OpenAI的一个救命稻草。如果它能够坚持到年底，数据再大涨一波，为所有的股民展示一下未来美好的前景，然后直接去上市，这个事还是有得救的。现在行业的心态肯定也是很矛盾的，竞争跟追赶这是必须的。甭管是谷歌、Anthropic还是Meta，都是在努力的竞争与追赶。但是谁也承担不起一个后果，就是老大倒下。

这是一个全新的行业，在全新的行业里头，一旦老大倒了，对于整个行业来说都是巨大的打击。每次开新行业的时候，有几件事是比较害怕的。第一是老大废了，一旦老大废了以后，就相当于是老大证明了跑得最快的人没跑出来，拼命往前跑，跑到头上是一条死路，撞在墙上，磕地上了。那后边紧追不舍的人该咋办，这事是很危险的。

另外一个是什么呢，就是老大上市了。上市了以后，发现业绩一般，因为大家一般在上市之前会冲业绩嘛。上市了以后，你要公布财报，很多东西变成公开透明了。那么下面的人也会觉得很危险。这就是一个新行业的宿命，至少要验证行业有未来。在这之前，老大是不能倒下的。如果说没有验证，直接就趴下了。

那么，整个行业都很麻烦啊。开天辟地的这种新行业，肯定都是非常困难的。这个呢，分几种情况。

第一种情况叫大企业开创新市场。举一个案例，比如说亚马逊，开创云计算这个新市场。这就是大企业开创新市场。但是，亚马逊也很痛苦。在开始的很长一段时间里，顶着非常大的压力，再往前走，也是用了好几年的时间，才慢慢地验证了说，云计算这个市场是一个真正的方向，大家要去向这个方向前进。这是大企业开创新方向。

当然，也有走得不是那么好的例子。比如说，梅塔做的梅塔Wars，原来叫Facebook，后来改名叫梅塔。他去做元宇宙这件事呢，就不是那么好。一直到现在，虽然名字还没改回来，但他得挂在那，挂上了还没有死掉。可是，他挂在那，所有人看着。在这么大一只半死不活的尸体挂在这个枝头上，所有人在想去做元宇宙的时候，都要稍微掂量掂量。而且，现在这个枝头上，还挂了另外一颗叫Vision Pro的东西，也挂在那了。在剩下的人就在这看着，在下面驻足观望，再也没有人敢往上冲了。这就是大企业开创的两种结果：坚持到底能够成功，或者跨在上面挂着。

那么，小公司开创新天地是什么样的呢？比如说，特斯拉、SpaceX，都是一开始的小公司。马斯克冲上来说，我要开创新天地了，开创一个新赛道出来。那是什么？就是耐心的，经历很长时间的亏损，十几年的亏损，不停地融钱，所有人都不看好，独自前行，慢慢把这个项目做起来。那你说，再举个失败的例子。

失败的例子没有啊。那么是不是小企业开创新天地就都能成功？错了，你只能看到成功的，剩下的全都不见了。我们没有机会看到，所以小企业开创新天地，我们只能看到幸存者。这是一种幸存者偏差。那你说一群人一拥而上，大家看好了方向，大家全上。这种事呢，通常是发生在商业模式创新上。如果是技术创新的话，这个机会不是特别大。

这种方式呢，也有成功的。你比如像国内的千团大战，最后就跑出了像美团这样的公司；滴滴共享单车大战，最后也是跑出来一些结果，是有能成功的案例的。但是呢，也有一些最后失败的，比如像刚才咱们讲的VR，所有人都冲，最后什么也没剩下。

现在的OpenAI呢，有点儿是骑虎难下的状态。按道理说呢，它应该是小公司，独自慢慢发展。但是它一下把这个热度炒太高了，现在搞成什么了？现在搞成一群人一拥而上了。这种乱拳打死老师傅的状态呢，一定是最危险的。

所以为了稳住阵脚，现在OpenAI必须拿出重量级的拳头产品出来，也就是咱们开篇时候讲的GPT-5，一定要拿出这种产品。如果在今年年底之前GPT-5还出不来的话，它的老大位置真的是危险了。而且它一旦倒下的话，可能整个行业都要至少颤三颤。不能说整个行业会为它陪葬，但颤抖一下是跑不了的。

好，这一期就讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣有能力的朋友加入我们的付费频道，再见。

Open AI开启买买买模式：接连收购Rockset与Multi，科技巨头创新布局

Luke Fan — Thu, 27 Jun 2024 00:45:16 +0000

大家好，欢迎收听“老范讲故事”的YouTube频道。今天，咱们来讲一讲OpenAI，也开启了“买买买”模式。什么是“买买买”模式呢？就是一家公司开始不停地进行并购，快速、集中地开始进行收购。这叫“买买买”模式。OpenAI在过去的一周里头，连开两枪，也就是说，OpenAI在过去一周里头，连续收购了两家创业公司。哎，这也是说它现在开始改变战略了。

这两个公司呢，一个叫Rockset，啊，ROCKSET，这是由两名印度裔的前Facebook员工创立的数据库公司。据说呢，是一个上亿美元的交易。为什么是据说呢？因为这种交易通常是保密的啊，待会儿我们来讲为什么。

另外一个呢，叫Multi，啊，MULTI，啊，是多个这个意思。这个公司呢，是一家位于纽约的，只有五个人的小团队。他们呢，做远程桌面管理的，估计呢，应该也是上亿美金的一个交易。具体交易细节保密。

Rockset到底干嘛了呢？实时锁引和查询。Rockset可以在几秒钟内，将数据锁引并查询，即使是新的数据也能够快速响应。等于是我们这边儿大量数据入库，那边儿马上就可以找到。这个是很难的啊，因为很多传统的搜索引擎和数据库，都是可能一天或者更慢一些的时间，来去进行数据更新的。你需要把数据从这头塞进去，然后它处理，处理完了以后，可能要过一段时间你才能搜到。然后还可以做高性能查询啊。Rockset使用聚合过滤窗口和连接等功能，可以在数据量很大的情况下保持非常高的性能。

大家知道，在数据库里查询，数据越多，查得越慢，对吧？但是，有很多方法可以让你很快速地查出来。而且，可以进行矢量搜索。咱们现在甭管是做RAG，还是做各种信息嵌入，最后你还是要去做矢量搜索的。所以，Rokeside在这块也是很强大的。而且，他们还可以做很好的数据存储与管理。Rockset使用RocksDB作为其存储引擎，可以高效地存储和管理数据。数据可以通过各种方法进行压缩和锁引，以节省存储空间，这也是他们比较强的一个地方。另外，就是它有很好的安全性和合规性。做什么呢？做加密解密，就是你数据存在里头以后非常安全。而且，相对来说比较容易使用。Rockset的目标是使开发人员能够快速地开始进行查询，通常只需要几分钟。因为它里面用的是标准的C口语言，可以通过C口进行这种大型的查询，而不是像很多的这种新型数据库一样，你需要再去学一些新的查询语言、查询方法，才可以去使用其中数据。

这是Rockset这样的一个公司。那你说为啥要收购它呢？这不是很明显吗？前面咱们传说OpenAI要做Search GPT，它要做搜索，要去跟Perplexity这样的公司去竞争。你自己也是大模型，是OK的啊，但是一些真正的做数据存储、数据检索这样的工作还是要做的。与其去调别人的，还不如干脆自己买一个回来，自己去拼呢。这就是去收购Rockset的一个原因。

那么，Multi是干嘛的呢？远程桌面管理。什么叫远程桌面管理？远程桌面管理是一种技术，允许用户从远程位置控制和管理计算机。这通常涉及到通过网络连接，将一个计算机的桌面环境显示在另一个计算机上，使得用户能够在远程计算机上执行操作，就像直接在该计算机前一样。这种技术在IT支持、远程工作和多地点操作中非常有用。

它可以通过远程去控制别人的桌面。比如说，我现在要想去使用张三、李四的桌面电脑，我可以通过Multi这样的软件，直接把那个电脑的桌面映射到我的电脑的一个窗口里面去。然后，通过鼠标，通过键盘去使用对方的这个电脑。它呢，是专门针对Mac端的啊，就是在Windows端它没有，Linux端一般没有人干这个事。为什么呢？因为既然Linux了，大家通常不是通过鼠标啊，通过点击去干活的，都是直接登上去以后就通过自服界面，或者我们叫终端接口就开始干活了。所以，通常只有Windows端和Mac端干这个活。而Windows端类似这样的软件比较多，包括咱们使用的QQ都有这种功能。像原来很多人说，哎呦装了别人的一个软件不会装了怎么办？你叫客服了以后，客服说来，你QQ加我一下，然后我通过远程来控制你的桌面，帮你把最后几步给你点了。

Multi当时想的是什么？就是多人协作。其实很多人都在想说，我如何能够让多个人一起来操作一个应用，一个界面，一个文档？这个最简单的方式，比如说我们多个人同时写一个文档，我们会看到呃，这个文档上有很多的光标出来，这是张三，那是李四，大家那个每个光标都在前后挪动。文字会冒出来，或者是被修改掉。这是我们一种多人协作的方式。另外一种多人协作的方式就是我们在一个界面上，大家都举着鼠标在这点点点。这个也可以。Multi呢，实际上就是在干这样的一个事情啊，多个人可以在同一个桌面上点点点。

他呢，原来的产品是可以让10个人在一个桌面上点点点。那你说，OpenAI收购它干嘛呢？大家想一想，WWE在DC上有一个场景，让我们觉得非常震撼。是什么？就是当你去问Siri什么事情的时候，它整个的屏幕外边会亮一个框，说啊，这就是我的操作范围了。我现在看到你整个屏幕了，我现在可以操作你的一些屏幕，至少我能看到吧。看到完了，我需要点什么东西或者划什么东西，我可以来处理了。这是我们当时看WWDC上觉得好厉害，怎么可以这样。但是那个是在iPhone上啊。现在，比如说我在Mac上，是不是也可以这样？我在整个的屏幕上跨靠一块，在这个里边就可以点点点，可以确认了，可以滑动了，可以做各种输入输出了。是不是可以干这个事情啊？那么这个事情怎么看呢？就要靠Multi来干。但是呢，这个再去操作的，可能就不是另外一个人了，而是谁呢？OpenAI在后台就可以操纵你的电脑了。嘿，这也是一个很有趣的未来发展方向。那么未来的China GBT客户端，可能就是长这个样子。你跟他说着说着，然后他直接就接管你的屏幕，接管你的鼠标，从远程开始点点点，确认确认，确认输入东西了。因为经常是这样，你问他说，哎，我有什么东西找不着了啊？他告诉你说，你应该点开哪哪哪，在哪个菜单里，在第几项。然后你点过去以后，我没找着。然后你再点点点，他再怎么去描述这个位置，他再给你看截图。你当然说我还是没找着。对吧，有这功夫，还不如他直接接管鼠标。

替你点了就完了，哎，这就是Multi干的活。现在Multi的人也出来说啊，我们很开心，我们加入了OpenAI，而且加入的呢，就是OpenAI的客户端团队，因为他一共就5个人嘛，大家非常快乐。另外一个Rock Size也是发了文章，我们很开心加入OpenAI了，而且这两个公司呢，都写了说哎，我们加入OpenAI以后啊，我们原来的产品就关闭了，我们会有一个缓冲区，比如到7月多少号之前啊，你可以去备份数据。那以后，我们就直接把所有用户数据都清除，所有的用户使用权限都关闭，然后，我们就老老实实上OpenAI打卡上班去了。啊，原来的产品就没有了，不再对外服务了。一帮人现在也在骂，说我使的好好的，咋不让我使了。

那么OpenAI的这种买买买的姿势呢，别人还不太好学。你说我拿现金去买，人家未必乐意卖给你啊。OpenAI属于是既不用花钱，大家还上赶着让他买，一堆的好公司，在这排着队说来，您挑吧，您挑上哪一个，我们马上就打包给您送来，而且价格都很好谈。这是为什么啊？你说因为OpenAI厉害，OpenAI有钱，OpenAI现在是时代的楷模，是全村人的希望，有这个原因啊，但是并不完全是。跟大家讲讲，这种公司的收购大概是怎么做的啊？首先，这种公司的收购通常是保密的，不会去公开收购的相关细节。为什么？就是一事一议，这个公司我收购的是按这个价格收，另外一个公司我按另外一个价格收，那你说我们就公布不就完了啊？

不一样的原因在于，其本身的交易要稍微复杂那么一点点。而且，大家愿意把公司卖给他的原因，也是看中了后边的复杂交易。OpenAI现在的估值是860亿美金，但是请注意，这个估值是怎么来的。这个估值是OpenAI上一次让员工卖老股时，算出来的一个估值。所以，普遍认为OpenAI的估值应该比这个数要高很多。如果OpenAI再融资或者上市的话，这将是一家妥妥的几千亿美金的公司。

在这样的情况下，你说我现在要去收购了，那么你以为他会拿现金去收购吗？绝对不会。他的收购通常是用股份去收购。怎么收购呢？咱们以Multi为例。Multi里头有一些股份是前面投资人的，有一些股份是创始团队的。那么现在假设吧，RT是值1亿美金，因为具体的这个数据并没有公开。为什么这么假设呢？因为他前面拿了投资人1,300万美金，那么假设1亿美金，或者是七八千万，大概是这样的一个数字。

那么OpenAI会拿出1亿美金来收他吗？或者，拿出1亿美金相关的股票来收他吗？也不会的。他们通常是怎么干呢？先跟投资人谈，说我现在想要这公司了。那这个公司呢，你们原来投了1,300万美金进去，我给你一个议价，比如说投了有几年了，每年给你算个5%的利息，或者10%的利息。算好了以后说，哎，现在这个应该是值，比如一千七八百万美金，大概是值这么多钱。然后呢，我给你这一千七八万美金的股票，就是OpenAI的股票，我直接给你了。

你现在呢，就成为 OpenAI 的股东，一千七八百万美金的一个股东。哪怕说我们这个大方点，我给你 3,000 万美金的这个股票，你成为 OpenAI 的股东。剩下的呢，是创始团队的。创始团队，咱们坐下来再谈。说你们现在这个创始团队的股票，原来应该是值，比如说 6,000 万美金啊，7,000 万美金。那咱们来谈一谈啊，比如说我们按照 5,000 万美金，有时候会打折扣的，给你折成 OpenAI 的股票。你乐不乐意？这帮创始团队通常也是挺乐意的。那我们就拿着 OpenAI 的股票吧。啊，5,000 万美金，五个人分一分，一人分个 1,000 万美金的 OpenAI 的股票。

而且这个 OpenAI 的股票，给了这些创始团队之后呢，他们还需要干嘛？还需要签对赌协议。就是说你如果现在拿着这股票，马上就走了，那这个就不给你了。那你要必须老老实实在这给我做，做到哪些哪些东西，比如，把我的恩恩爱爱的客户端给我做出来，或者做成什么样。然后啊，工作多少年，我再把这个股票慢慢地在兑现给你。等到你比如说干了四年五年了，到那个时候你要走啊，这股票都是你的。到那个时候呢，这可能每人 1,000 万美金，到那个时候就值个，比如说每个人啊，四五千万美金。这些人就变得很有钱了。

但是这样的一个交易过程，投资人呢，通常会有溢价啊，至少是把利息给人家。有的时候还会有些溢价。创始团队呢，还有的时候会打折扣，就是把他们原来的公司的股票。

通通都折换成 OpenAI 的股票就完事了。这个呢，其实很多都是叫 HR 并购，就是相当于是把这个团队招聘进来了。要你原来的产品，要你原来的技术，要你原来的人。哪怕说你原来的产品都不要了，代码都扔了，你现在就把你原来的技术啊，按照我现在的要求，整个给我重写一遍。这种并购还是蛮多的啊，特别是对于 OpenAI 现在这个状态来说，它是有需求的。那么 OpenAI 呢，一定是整个创投圈里头最有竞争力的购买者。因为所有的这些小公司，你说我现在加入 OpenAI 了，我原来的公司到底做成什么样，我也不知道。加入 OpenAI，这个上升的空间、上升的速度一定是比我原来公司快的。他们会很开心。这些小公司的投资人呢，他们也会很开心。等于通过这种并购案，一下就成为 OpenAI 的投资人了。然后我也可以去跟别人说，你看我投的项目被 OpenAI 收购了。那么他的名声也会上升，他再去募集新的基金，再去投资新的案子，大家也会喜欢他们。所以他等于是 OpenAI 利用自己的名声啊，可以在所有的这些项目里先挑。而且挑的时候呢，他还可以跟大家讨价还价，这个你贵了点啊，稍微便宜点，要不然我不买了啊。还可以干这样的事情。所以 OpenAI 买买买的姿势，别人不太好学。

最后啊，咱们讲讲 OpenAI 为什么在现在开启买买买模式呢？原因也很简单，OpenAI 现在要开始走向产品化。原来最早的时候，他在做非盈利机构的时候。

实际上，这是一个研究性机构，它连盈利都不盈利。我不需要挣钱，但现在呢，说我需要挣钱了啊。再往后呢，说我可能不能再依靠微软，不能再依靠苹果，不能再依靠其他这些企业了。我需要单独自己去挣钱，我需要做出产品来，需要直接为最终用户服务。他现在能够直接为最终用户服务的，就是聊天机器人，聊天工具。其他的其实没有什么可以直接为用户服务的东西。搜索也没做出来呢，视频也没做出来。PPT4O直接聊天这部分也没有发布呢。那么后面怎么办啊？

我要做一个完整的产品化，要有很多的ToC的产品也好，ToB的产品也好，我要把它做出来。那么在这呢，就有一个新的问题产生了。什么问题叫open i？原来只有大冒险对吧。它所有产品周边的东西都没干过，影响微软嘛。微软投资了它，占了它一半的股份。所有跟用户打交道的东西里头，有哪个是微软自己不干的？人家全都干好了。有操作系统，有Office，有浏览器，有搜索引擎。不需要你再弄那个，你只要把你的大模型搞定了就完了。

但现在为什么？他去收购了一个专门给苹果做这个成桌面管理的一个公司。因为苹果原来没有这部分。你现在OpenAI插着GPT客户端应用，只出了苹果版，Windows版就没出。为啥微软不需要啊？微软说我自己上copilot就完了啊，你就不用给我做这个。而且我是作为你50%的大股东，49%的大股东，我要求你不要做，那你就不要做这个事。但是苹果说，那你就做吧。

所以啊，这一块需要 OpenAI 自己去处理。后来呢，OpenAI 的光有模型的状态，就相当于是缸中之脑啊——就是一个大缸子里头养了一脑子。现在呢，需要在缸子外边加什么呢？呃，眼睛、鼻子、嘴啊，加上手和脚，加上各种的消化系统，像刚才他买的这个 Rockset 这样的东西啊。你需要做搜索了，你也需要完整的数据处理、数据搜集、数据的检索，整个系统你都需要。你不能说我只有一个大模型，只有一脑子，这事肯定不行。

传统的，比如说，我们现在在 ChatGPT 里头去做一些搜索，它是怎么做的呢？你在里头说哎，去给我搜索啊。这个时候，他会去调用病的微软必硬的搜索引擎，搜的一堆结果回来，然后再对结果进行检索，或者进行总结。但是你有了像 Rockset 这样的东西呢，他就说别费劲了啊，我自己上搜索引擎，我自己上爬虫，然后把所有东西都搁在我自己这，然后我拿这个东西，再去进行模型调整，再去进行检索，去进行结果输出。这个效率就完全不一样了。这就是他为什么买 Rockset。

在 Mac 上，我们怎么去控制 Mac 电脑？怎么去让 Mac 电脑，就像 Windows 有 Copilot 一样，可以完完全全控制它去工作？这就是它买 Multi 的原因。那么未来一段时间，可能 Open I 还会继续买，因为它周围欠的东西很多。它要想成为一个可以为各种用户服务的东西，那么他除了中间的脑子之外，周围的手手脚脚还需要慢慢地去买，就做肯定是做不过来，一定得去买。

这就是为什么 OpenAI 在这个时候，突然转换成“买买买”模式。可能，我们再到年底，或者是明年的时候，我们就会看到大量的 OpenAI 应用，直接扑面而来。而且，当 OpenAI 大量的应用到我们用户面前，真的能让我们很喜欢用以后，也许下一个叫纯智能操作系统，就会到来了。

现在，我们还是在 Mac OS、iOS、安卓、Windows 这样的系统上，在使用 ChatGPT。但到未来，说：“我为什么要需要这样系统？我只要有 ChatGPT 能够聊天，剩下的事情你都给我搞定了。”哈哈，那这个其实也挺好的啊。

好啊，这就是今天讲的故事：OpenAI 开启“买买买”模式。感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群。也欢迎有兴趣，有能力的朋友，加入我们的付费频道。再见。

揭秘Safe Superintelligence：伊利尔如何打造安全超级智能

Luke Fan — Tue, 25 Jun 2024 12:53:16 +0000

伊利尔在创业，他的公司叫做Safe Superintelligence（安全超级智能）。这个公司的主要业务是什么呢？目前，公司由三个人组成，分别是伊利尔、Daniel Goose和Daniel Levy。伊利尔是一位以色列裔加拿大人，他精通俄语、希伯来语和英语。Daniel Goose是一位以色列企业家和投资人，而Daniel Levy是伊利尔的旧部。

在人才和算力方面，Safe Superintelligence也非常强大。Daniel Gross和Knight Fragman联合创立了算力云，他们拥有3000块H100。有趣的是，他们还可以使用五吨重的H100，因为每块H100的重量超过一公斤，所以3000块H100大约有五吨重。另外，文章中还提到了一个有趣的名字，叫做Knight Fragman，他是之前的Get Have公司的CEO。去年11月，董事会将山姆奥特曼解雇后，他接任了CEO一职。

说我们要请一个临时CEO来，就是这个叫Matt Fredman。他请来了以后说：“啊，我诚惶诚恐啊，你们想怎么干啊，咱们接着干。”等山姆奥特曼回归了以后，他就走了。他是跟Daniel Grusse联合创立了算力允啊，现在Daniel Grusse是投资和参与了伊利尔新的公司SSI，大概是这样的一个关系。那你说，现在已经有算例了啊，有人才了，那数据哪来呢？现在的数据其实比以前要好获得的多。为什么呢？因为现在可以直接让大模型生成数据，这样的话质量更高，可控性更强。像拉玛3的训练，实际上就是用大量的拉玛2来直接进行数据处理，数据预处理以及数据生成啊。那么，他就可以训练出这么厉害的拉玛3来。现在伊利尔估计也会走这条路，人有了算了，也有了啊，数据呢也有了。那么到底什么是安全啊？说他跟山姆奥特曼吵架的原因是因为他觉得山姆奥特曼做的东西不安全，而且不安全是非常危险的，会对人类造成损害。说不，我要出去，我要做一个安全的，而且叫安全超级智能，对吧？怎么叫安全呢？实际上，现在的安全需要重新去定义了。我们所说的安全啊，是像核安全那样的安全，而不是信任核安全那样的安全。这个是伊利尔讲的原话。那我们来想想，什么样的东西是像核安全一样管理？核安全到底是怎么管理的？第一个，我们来对所有的数据进行记录。

一共有多少颗核弹都得记上，哪颗核弹在什么地方，全世界的人都得知道。哎，不能说哪多出一颗核弹来，这是不允许的，至少大的是不允许的。然后呢，还要有这种叫核不扩散的协议，而且还要有各种承诺，说哎，我们啊承诺不优先使用核武器，而且知道核武器这个东西一旦使用了以后，对整个的人类，对整个未来的环境和很长一个时间都是有巨大伤害的。这个是核安全，而这种信任核安全呢就是说，我相信你不会干坏事啊，至于你以后万一干了次坏事呢，我还可以再原谅你几次。这个是信任和安全。所以伊利尔呢是准备把AI安全作为核安全的方式来去管理的。那大家想一想，他会怎么来管这个事情，如何做到安全呢？伊利尔讲了，说我们只有一个目标和产品，就是做这安全超级AI，不会去做APP也不会做什么这些东西啊，而且呢没有时间和财务上的压力。现在呢他讲把OpenAI搞成这样，为什么呢？啊是因为有财务压力，你需要烧更多的钱，你必须要不停的再去融资，像我们以前也讲，你只要开始拿投资人的钱了，开始融资了，就相当于是在脖子上套了一条枷锁，对吧，投资人会催着你往前跑的，他会有时间和财务上的压力。伊丽尔说我没有啊，我就耐心做这个产品，而且呢他是希望通过工程突破，而不是各种临时技术措施，来去保证安全啊。大家注意啊。

伊利尔本身既是一位科学家，也是一位工程大师。他致力于将安全和能力视为技术问题，并通过革命性的工程和科学突破来解决这些问题。他希望能够直接解决安全问题，而不是仅仅通过打补丁等临时性技术措施来解决。他的工程能力使他能够实现量变达到质变，从而成为一个工程大师的典范。他的大模型是一个工程学方面的案例，通过堆积更多的参数和数据，他能够获得不同的结果。伊利尔提出的规模法则，即”scaring low”，指出只要扩大模型，就会获得不同的效果。他的发明和创造力使他成为一个大力出奇迹的发明人。

上更多的GPU，增加更多的内存，这些都是伊利尔发明的。他可能会采用工程学的方式或者革命性的工程学的方式来进一步增加模型的尺寸，以制作出更安全的模型。所以，伊利尔很有可能会先憋一个大模型，直接推出一个超越其他大模型的作品。然后，他才能成为模型领域的标准制定者与执行者。现在的大模型中，实际上没有标准制定者与执行者。这是什么意思呢？就是说，OpenAI可能会说：“你看，我第一个推出来了，我的用户量最多，用户最喜欢我，我能不能成为标准的制定者和执行者呢？”但是大家都不乐意，因为他需要与所有人竞争。对吧，谷歌要与他竞争，亚马逊aceropec也要与他竞争。这是不行的，不可以的。如果有一个人说：“我不与大家竞争，我直接做第三方的评测。我比大家都强，我来做标准的制定者与执行者。”这是有可能的。我举一个案例，叫做蓝兔兔。他给别人做跑分，然后在这样的情况下，如果他自己说：“我有一个立场。”那这事就没法整了，因为有一段时间，我带着安兔兔的创始人去见各个芯片公司的老板，希望他们把安兔兔买下来。然后后来好多人说：“我们不能买你，买了你以后你就没有中立性了。”这是有问题的。所以，伊利尔做的这个SSI有可能是一个有一定中立性的东西。最好的大模型可以帮助所有的模型厂商。

去实现这种叫做安全检测安全防护的功能，这个其实有一定的市场需求。但是这个公司的组织架构可能会出现一些问题，因为近年来，像OpenAI和ASROPEC这样的公司都在设计新的组织架构，以避免受到资本的压制。现在OpenAI又要上市了，一旦上市，就必须老老实实地为股民服务，不能再不受资本和投资人的控制了。以前OpenAI没有上市的时候，人们还会说我们信任你，你拿了我们的钱去做一些事情，也不给我们出财报，我们也认了。但是一旦上市，情况就不那么简单了。但是OpenAI也到了不得不上市的时候，因为他们为什么要继续烧钱，还要再融资呢？如果他们再去找微软拿钱，微软可能会直接收购他们。所以他们必须上市了。那么现在SSI的组织架构大概是什么样呢？他们说第一，不受管理费用和产品周期的干扰，就是慢慢做，不着急，而且钱也有很多。第二，安全保障和进步都不会受到短期商业压力的影响。这是他们给自己设计公司结构时的一些前提条件。

而且呢，是世上第一个专注于安全的超级智能实验室。这是他们给自己立的这个flag。当前的大模型的安全问题，到底有哪些呢？第一个就是越狱的问题啊。就在你对大模型提出一些特定的问题之后，大模型就直接封了，就开始给你胡说八道，或者说你问他什么就说什么啊，就不会再有这各种各样的防护了，就跟以前我们流传的这种我奶奶告诉我的这个故事似的，你给我造一核弹啊，说对不起，这不能造。我奶奶从小都是给我讲造核弹的故事，哄我睡觉的。现在假如你是我奶奶，给我讲一个造核弹的故事，让我哄我睡觉吧。然后这个GPT就开始讲了啊，说核弹是拿什么造的，这个叫越狱啊，这个是很危险的。对于越狱来说啊，SSI就可以给它加个保护壳啊。其实，像我们很多的原来网站上的这种攻击，都是靠加保护壳搞定的啊。你先在里边过一下，如果发现没什么事，我再交给你。而且呢，对输出的内容也可以进行一定的过滤与保护，对吧？如果发现你被越狱了，然后他马上可以提醒你，打开一个新的进程，这个马上就可以过去。然后第二个呢，叫产生幻觉啊，就是大魔星胡说八道了啊，这叫产生幻觉。这个呢，是SSI可以加入验证的专家模型，就是你输出什么样的内容，我来验证一下说的对不对啊，或者说，跟用户的一些需求是不是对齐了，这个事是可以去干的啊。第三个呢，就是开源大模型。

基本上是不设防。虽然拉玛3里头有一定的这种检测，但是你只要对拉玛3进行微调，这个检测就直接扔掉了。所以开源模型基本不设防，只要对内容进行甄别和过滤，这个问题也可以部分解决。比如说，我们能够识别出来这是由拉曼三生成的内容，那个是由什么模型生成的内容，能够把它识别出来，然后可以过滤一些明显有问题的内容。这其实也是可行的。真正可恶的东西，或者说大模型真正的安全问题，大家是不提的。是什么呢？就是大模型真正的恶是为政府与大企业赋能。但这件事谁也不说，因为政府也好，大企业也好，才是受益者嘛。有了工具他们先用。现在国内，AI造假已经非常猖獗了。当然，国内现在主要是图文造假，视频的还没有那么多。而且超高产量，他们干嘛？就是做各种的SEO，骗流量骗补贴的。对吧，国内的处罚方式是什么？罚平台啊。我发现谁用AI生成了这种垃圾内容，我来把这平台发一下，然后就封号啊。这个我不允许你。再说了，这个都在做，而且还要求你必须要写可信媒体。我只能从那里去引，我不能自己瞎编。现在对新的AI生成内容，在国内是有要求的，而且严重了是会抓人的。前两天抓了一个，说每天可以出7,000篇文章，疯狂的都是AI自己拼凑出来的，而且还很挣钱，每天能够挣个1万多块钱哈。两个人的一个小团队。现在这个人已经被抓进去了，而出海这个事应该还是可以做的啊，而且做这块的人应该还是比较多的。就是大量的假内容，其实已经做出来了啊。那么现在呢，还是以骗补贴为主啊，就是说他做一大堆假东西啊，假的文章，假的文章了以后呢，比如我发到今日头条里，今日头条有人点击了以后啊，你是可以分到广告费的。大家其实是在骗这个钱。但是大家要想清楚，当有人愿意为了更大的目标去付钱的时候，比如说把黑的说成白的这个事呢，并不难啊。当你有AICC的这种大模型以后，一天就可以出几千篇上万篇的文章，然后快速铺天盖地地，就把整个的娱乐环境全都覆盖一遍。这个相对来说还是要很容易的。伊利尔的老师啊，他的博士生导师叫Jeffrey Hinton啊，也算是人工智能三巨头之一。刚刚呢，也提出了一种应对假视频的方法。他怎么应对呢？他认为大量的假消息流传是一种病，那么既然有病呢，怎么办呢？打疫苗哈哈。他给的要求是打疫苗啊，什么叫疫苗呢？比如说灭活疫苗啊，我把原来这个很严重的病毒给你啊，减轻一些，然后让你打到身体里以后，让身体产生抗体啊，这叫灭活疫苗啊。那他想的方法是什么呢？把危害性小，并且注明这是假消息的，这个是假食品，发出来给大家看一下。他说马上美国要大选了嘛，在大选之前呢。

我们先应该给大家打这个预防针啊，打完了以后呢，大家就知道视频有很多是假的，就没有那么信了。他是什么样的假视频呢？比如川普跟拜登的讲话视频啊。最后规定标注一下，说这是一个假视频。千万要小心啊，也就可以了啊。这样的话，等到真的大犬的时候，大家就没有那么容易被骗了。当这样的视频真的投放给普通民众看，真的能让他们提高鉴别能力吗？我自己其实是比较持怀疑态度的。为什么？因为打疫苗呢，会有预防效果，但是呢也有一定概率会染病。当大家觉得说，哎，所有的视频都有可能是假的啊，我们什么都不信了，那你们就历史虚无主义了嘛。所有都是假的，任何东西我都不信。那么以后会变成什么呢？就会形成一大堆小型的信息孤岛，就是所有人都是假的，所有人都想骗我。我自己信什么，我就越来越信。任何人怎么跟我说都没用了，他可能会变成那样。这也是打疫苗有可能会产生的负面效果啊。那么对于视频信息呢，加以验证啊，这是Hindon讲的另外一点。它是什么意思呢？就是视频前的放映二维码。甭管真假吧，我们都要放二维码。当二维码扫描了以后呢，应该可以回到他的原处去。比如说，我今天放了一条拜登的竞选视频，那么这个视频呢，就应该从拜登的竞选网站出来。如果不是从拜登竞选网上出来，那就一定是道听途说的或者是假的。而且呢，导入的到拜登的这个啊。

竞选网站以后，您可以找到原视频来验证其真实性。确保网站上的视频与原视频完全一样是非常重要的。验证的过程可能会比较复杂，但是可以采用一些相对简单直接的方式来让大家理解这个视频的真实性。正常的运作方式应该是先对包括视频在内的各种内容进行理解，然后逐一溯源，再对真实性进行评估。评估的目的是确定这个视频是真的还是假的。然而，很多情况下事实并不是非黑即白的，而是存在部分事实和无法考证的部分。这种情况在生活中非常常见。科学家们的研究成果可能与真实世界之间存在一定的差距，无论是伊利尔还是他的老师Hinton，他们使用的技术相对来说可能还比较幼稚。我可以给您讲一个故事，曾经我有幸去拜访过澎湃新闻的总编辑，当时我在猎豹移动准备做新闻头条类产品，所以我们四处找这种网站或者APP的总编辑去聊天。总编辑给我讲述了一些关于新闻报道真实性的故事。

哪有什么真的假的呀？我们就是记者啊！记者别的本事没有，我们加两个形容词呗。什么意思呢？就是你事实是事实，但是呢，我只要在形容词上加一些这个呃，调整和修改以后，这个味就变了。比如说我今天又惨遭了批评什么的，你会觉得很别扭。那你说这个事情，不管是伊利尔设想的这种安全也好，还是Hinton设想的安全也好，你加了两个形容词，这事到底怎么样？或者说，哎，视频来了，这是一个阴间滤镜。我们经常讲这个是CNN还是PBC给中国拍的照片都是阴间滤镜。那你说这件事能不能识别出来？对吧，识别出来以后又怎么样？这个呢，其实对于新的大模型来说，会是一个比较大的挑战。你要不但把这个视频里的东西识别出来，你还要把视频的氛围、各种暗示你都要识别出来，然后再去做判断。判断完了以后，你到底会做出一个什么样的东西来，真不好说啊。那么SSI的未来会是什么样的？很多人都在讲，伊利尔其实才是OpenAI的核心啊，但是有没有想过，为什么大家把伊利尔赶走了，也没觉得有什么问题？山姆奥特曼还在那里，虽然山姆奥特曼自己可能写程序，真正做东西做不出来，但是呢，那是个政治领袖对吧。咱们就跟三国里头刘备，你说除了会哭还会什么？但他是主公，多智进妖的诸葛亮不是？关张赵云啊，武力超群也不行啊。最后整了一个像刘备这样的人出来当主公来。

他呢，才是政治领袖对吧？也有人这么说呀。他有名正言顺啊，他是皇室宗亲，他是这个刘皇叔啊。这个要干活着才是刘皇叔，死了就是个破卖草席子的。只有他活下来，还能够活到读历史的时候，他才是刘皇叔呢。是不是刘皇叔这事真的没有那么重要，所以啊，皇帝也好，领袖也好，是个政治人物，呃，不是谁的武力值高或者谁的智谋高就可以了。山姆奥特曼呢，已经证明了啊，自己是一个非常强的政客以及领袖啊。山姆奥特曼的访谈，其实我最近已经不怎么看了，为什么？实在太虚，没什么东西对吧。他就是个政客嘛。啊，现在伊利尔自己开始独立门户以后，是不是能够真的做好这件事，不好说啊，因为呢，他未必有这种政客的技能，他可能还是个科学家或者是个大的工程大师这样的啊。能不能超越所有人的心魔型来，这个才是关键。能够准确地识别大模型的产出啊，精准地进行信息溯源成本和速度可以控制的住，或者说控制在可接受的范围内。多模态的识别和验证啊，这也是现在新的模型需要面临的问题。而且呢，可以对攻击与越狱进行防护，并对输入和输出进行检测，这个是对SSI新模型的一个大的需求。如果他说哎，我真的做到了，这些事情我都可以做的还不错，或者其中有几条可以做的不错，那么他有可能就能立住脚跟，为了对抗open AI，其他几家可能就会买他的服务，说来我们一起来做吧。

啊，这个事是有可能的。因为Openi应该是不大概率，是不会去买他们家的东西的啊。新仇旧恨啊。还在你真买了以后，比如说谁去跟山姆奥特曼呃去提说，咱买伊利尔家的这个SSI的这个安全认证吧。啊，那你一定是这个忠诚，不绝对就是绝对不忠诚，对吧？你屁股坐哪头了，对吧？新的商业模式呢，肯定还需要思考，因为所有做安全的公司都比较容易堕落。为什么叫比较容易堕落呢？就是啊，屠龙少年忠虫恶龙的，因为安全公司其实是不直接产生效益的。安全公司是干嘛的呢？他是靠焦虑挣钱的。你说你没有我，你就要完蛋了。就像以前我们算命的时候，经常讲这样的话，这个啊你有血光之灾啊，我有一个解决办法，都是这样的啊。你如果不告诉他你有一个血光之灾，那你这个销售，销售转化率得有多低嘛，对吧？这个前面这个一惊一乍的啊，你有个血光之灾，这个事情才是能够保证事后有销售转化率的一个大的关键啊。所以为什么说都很讨厌安全公司呀，360也是安全公司，像我以前做的什么金山呀，什么也都是安全公司，大家都很烦我们。为什么？因为你不产生直接收益嘛。那不产生收益以后呢，我们就要想办法在其他方式收。公司要挣钱嘛，大家有安全的顾虑，有担心嘛，就把流量交给我们。我们把流量聚集起来以后呢，就要想办法去推广告，想办法去做流量变现，想办法去盈利啊。那最终就变成流氓软件了。

希望SSI的这种新的机构，不会遇到这种问题吧。啊，对于他们来说，如果真的有一笔钱，你可以很长一段时间不用担心把它烧完，他有可能是可以耐心地往前做的啊。如果他真的做出一定成绩来，我相信也还会有第二轮、第三轮的资金再进来。这个是SSI的一个情况，当然还要去看他们后边的，公司架构到底成什么样啊，你别回头又整一个非盈利组织出来，这个可能性也是存在的。因为现在他对自己说，说我们是实验室啊，他没有说我是个公司对吧，所以未来到底怎么样还难说，他又不着急，没有任何时间节点的压力。所以我觉得，咱们下一次听到SSI的声音，依恋儿再做出什么东西来，可能就是SSI做出产品来发布了，那个估计就要很久之后了，因为他们剩下的人，应该并没有那么着急了。好啊，这就是我们今天讲的第二个故事啊，伊利尔要去做安全超级智能了。