SEO优化 – 老范讲故事｜AI、大模型与商业世界的故事

Perplexity冲进电商战场，如何用AI搜索实现”像专业人士一样购物”？背后竟然有贝索斯的助攻！

Luke Fan — Sat, 18 Jan 2025 00:49:01 +0000

屠龙少年终成恶龙。Perplexity，最大的AI搜索公司，还是去卖货了。大家好，欢迎收听老范讲故事的YouTube频道。

Perplexity应该是所有的AI搜索公司里跑得最靠前的一个，也就是结合AI给大家提供专业搜索结果的这样的一个公司。现在它推出了一个叫做“像专业人士一样购物”的功能。这个名字稍微有一点点绕，因为我们比较熟悉的像海外版拼多多Temu，它的口号是“像亿万富翁一样购物”，就是说我买东西的时候不用看价钱，我想买一个就买一个，想买十个就买十个。

但是现在Perplexity说，我们要像专业人士一样去买东西，待会我们再去解释一下什么叫专业人士买东西。现在，在Perplexity里面接入了Shopify的这个平台，也就是说你可以直接在Perplexity的平台里面下单，不需要跳转到Shopify或者其他的购物网站上去，就可以直接完成购物的操作了。当然前提是你得在美国，目前还没有公开说是否接入了除了Shopify之外的其他购物平台。

而且特别神的是，Perplexity承诺说，我们所有的购物结果或者购物产品的推荐都不涉及广告。我不收钱，我都是按照搜索引擎的算法或者我的AI引擎的算法来给大家推荐的，完全不受广告的影响。原来我们在比如说百度也好，谷歌也好，看到各种商品推荐的话，都是靠广告费的，谁出钱多，谁愿意出钱，谁排前头。Perplexity说了，我这里没有这个广告的事，完全靠算法。

现在主要向美国地区的Pro用户开放。你说我是美国地区用户，但是我没有向Perplexity订阅它的Pro功能，你是不能使用这个购物的。你如果是订阅了以后，才可以用这个功能。

我们来想一想，什么叫做“像专业人士一样购物”？专业人士到底咋买东西呢？Perplexity它解释了自己的这个商品排序的一个规则，就是每次你去搜索……

说我要一什么商品的时候呢，它会向你推荐可能3-4个商品，不会很多。像我们，比如在淘宝上，在亚马逊上，你要搜索一个商品的话，十几页、二十几页，加上后边那些页数，可能永远也看不到了。他呢，说干脆我就给你三四个，不是给你一个，而是三四个。那怎么来去获得这个推荐机会呢？作为卖东西的人，或者对于我们这些玩流量的人来说，我们就要想这个问题：搜索关键词优化或者搜索引擎优化，这个事怎么做呢？怎么能够让我的内容出现在他这个推荐的框里去呢？哪怕说那人家不收钱，不要广告费，那我们优化还是要优化的嘛。

他讲了第一个相关性。搜索引擎其实也都会做这样的排序，就是我搜索什么东西，一定要找跟你搜索的内容最相关的信息发出来。他跟谷歌搜索、跟淘宝搜索、跟亚马逊搜索，有一个特别本质的差异在哪呢？就是你在谷歌搜索的时候，你经常搜一个单词或者搜一个很短的句子，10个单词就已经算很长了。但是在使用Perplexity这样的AI搜索引擎的时候，他们经常会说一个很长的句子，因为你像聊天一样嘛。说少了以后，好像觉得自己不是很礼貌，所以一般会告诉他说：“今天天气还不错，心情也很好，所以我想买一什么东西。”反而啰里八嗦跟他说半天，他尽可能的帮你筛选出跟你的搜索相关的、要求更匹配的一个结果出来。

第二个呢，就是要看用户评价和各种评分。该怎么刷怎么刷嘛，玩过亚马逊的人、玩过Shopify的人，都已经知道怎么去刷用户评价了，怎么去刷商品评分，那大家努力去刷就好了。所以呢，他们在去进行推荐的时候，会把Shopify上的或者其他的一些网站上的用户评价跟商品评分一起抓回来，进入到排序的环节中去。

再往后呢，是价格和性价比。那不是价高者夺之。像以前我们在淘宝上就会说：“哎，我们要这个价格最便宜的。”但是也有很多人会去搜一个价格适中的产品。现在呢，Perplexity说这样，我们去做个性化的推荐，满足不同用户的需求，就是你平时比较喜欢买稍微贵一点的东西。

我就给你推荐一些价格稍微高一点的，质量好一点的。你每次都是Temu上买这个最便宜的，那我就想办法让你去看到更便宜的商品。而且你想，都是Pro用户去使用嘛，所以太便宜的我估计他也推不出来。他就是这样的一种工作方式了。

当然了，这种工作方式还有一个大家耳熟能详的名字，叫大数据杀手。就是你有钱，我就让你买贵的；你没有钱，我就让你看到便宜的。因为对于这种推荐引擎来说，或者是对于AI的这个电商引擎来说，他唯一考核的KPI是成交。你如果说看了一个很贵的东西，最后你没有买，那他的成交的整个分子就会变小，成交率就会下降，这个是他们不能接受的。所以尽可能的还是要凑成这个成交。而在成交的基础上说，我怎么能够把更贵的东西卖出去，这是另外一个问题。

然后，除了这些之外呢，他还会去考量叫商品的新鲜度，就是新上架的商品、新的店铺，他会有一定的倾斜，不会始终给你推荐那个老商品。哎，我就习惯吃这东西，吃了20年了，他总会给你参杂一些不一样的、你没吃过的东西。所以，新商品评分会上升一点点。然后呢，就是商家声誉。如果有人天天骂这个商家，我讨厌谁谁谁，他就尽量的不去给你推荐相关的产品。这个是他整个这一次公开出来的推荐引擎的一个算法基准。

因为没有收广告费吗，完全靠推荐引擎，那他就要告诉你说，我是按什么方式来去评选这些商品，按什么方式去排序的。因为现在都在讲究透明的AI，你的AI的算法，或者是推荐的排序的算法，必须是可解释的。刚才这个就是官方解释，但是至于说具体每一个关键指标，到底在里边占多大的比重，他是不会说的。包括像谷歌也不会告诉你说，我这个排序到底是怎么排的。这是作为搜索引擎公司或者推荐引擎公司最高商业机密。他们可能一帮人每天做的，这个推荐引擎前面不停的调参数，让更好的商品排到前面去。什么叫更好的商品？成交比例更高的商品、转化率更高的商品排到前面去，这是他们每天在去做的事情。但是他也解释了一下。

就这些指标是我们去做的。所以如果你是个商家，你就要想了，说：“哎，我怎么能够把商品的名称、商品的简介写得尽可能地跟这个用户搜索的信息更贴合一些？”这就是大家需要去想的问题了。这就是做SEU。其实，大家也要去干这个事：我怎么能够在搜索的时候排在前面？然后呢，管理好各自的用户评价和各种评分排行，这个我觉得大家都已经比较有经验了。

而对于Perplexity这样的一个公司来说，怎么去识别假评分、假评价的话，可能还需要再去锻炼一下。当然，对于AI来说，你做得太假了，它可能也能看出来。你说我写了一个用户评测，带二十几张照片，写了好几千字这种，我估计他们也会直接舍弃的，这一看就不像真的。这个大家要去想办法刷一些上来。

然后价格的话，我们看看是不是可以把各个价格层次的商品都填满，保证说用户是喜欢买500美金的东西，还是喜欢买200美金的东西，我都有相应的商品可以去上架。还有呢，就是不断地推出新品，哪怕是老商品，我也要不断地去修改一下它的描述、修改一下照片、修改一下这个评价，然后再去上架一下。

当然了，这个新商品上架还是需要平衡一下的，因为新商品没有评价，老商品是有评价。如果你的一个老商品评价很高，那我们就要看怎么能够让这个老商品经常被推荐。那我是不是应该发布一些新的商品去围绕它，能够把剩余的流量捡到？如果一个老的商品评价不是很高，那赶快换掉吧，这就是怎么去做它的一个优化。

当然，至于商家的声誉的话，大家就要去想了，说我怎么能够维护一个很好的商家声誉。对于淘宝卖家、亚马逊卖家，这个都是非常重要的。他们叫养大账号。就我怎么能够让这个账号的权值、各种打分不断上升，上升了以后的话，那么下一次在推荐的时候，你被推中的这个概率就会上升。

那么搜索引擎做电商，这到底是不是一个正确的方向呢？从Perplexity的这个动作来看，它呢，现在在自建支付渠道，大家以后就可以直接使用。

这个Perplexity的支付渠道去进行电商支付了，可能未来还会收一些支付通道费用，这算是一块小的收入吧。现在呢，Perplexity还在很努力地推广“像专业人士一样买东西”这个功能。怎么推广呢？就是你现在在上面买东西是不要运费的，他等于运费给你贴了。这也是很有决心的一个做法吧。

当然，我觉得在这块上舍得花钱这件事呢，美国人永远没有中国人这么狠。咱们赌性极重，舍得来孩子套得来狼的这种感觉。他们现在只是给了一个运费补贴。而且大家要知道，Perplexity里头有一个非常大的股东是谁？杰夫·贝索斯，就是亚马逊的创始人。所以他现在就是一个排头兵，出来探路的。如果他能把这条路探清楚，那后边亚马逊应该会使用相应的方式继续去提升他们的电商霸主地位。

因为电商后面的两块最大的利润，前面比如说通道费、服务费，这个基本上是可以忽略不计的。真正电商最大的收入来源是广告。当前跟这个Perplexity的收费模式是违背的，因为它是收一个月几十美金的订阅费的。你说我都已经收了订阅费了，那头再找人收点广告费，一鱼两吃，这个事有点太不道德了，所以他不能收广告费。

另外一头呢，在做电商里边比较挣钱的是什么？其实是小额信贷，就是他自己去做这个支付通道了嘛。所以以后大家再去在Perplexity上买东西，他是希望放贷款给你们的。大家要注意，我去买这个东西的时候的通道费、服务费、支付的手续费，所有这些东西都是死数。只有什么东西是活数，可以不断上升？一个是广告费，还有一个就是小额贷款的利息。这块是可以随着销售额的上升快速往上涨的，这还是大家去做电商的时候努力的一个动力来源吧。

AI搜索引擎这个方向到底是不是能跑得通呢？咱们现在讲的他去做电商了，本身这个赛道对不对？首先要跟大家讲，AI搜索引擎这个赛道非常非常的卷，因为OpenAI自己已经冲上来了，做GPT Search，大家要注意。

Perplexity后边是没有自己的大模型的，它的大模型用的是OpenAI的模型，也用一部分Llama的模型。所以在这样的情况下，它到底在干什么？OpenAI实际上是一清二楚，因为你所有在OpenAI调用的这个结果，OpenAI后头是有日志的，一看就知道你在干什么，发现还可以挣这钱呢。那OpenAI未来肯定也会卷你，这个没什么好商量的。

国内的豆包、通义千问，阿里下边的夸克呀什么的，实际上都在向搜索这块前进。国内所有的AI助手里，没有哪个说我不做搜索的，因为你不做搜索，就纯瞎编了嘛。你只有做上搜索了，才有可能成为生产力工具，它会给你一些有用的东西出来。所以这个是所有这么多做大模型的公司都在往上冲的事情。在这块呢，Perplexity算是起步比较早的。至于是不是能继续走下去，真不好说，因为模型不是他自己的，他只是在上面做应用的。在这种情况下，他未必能够走得有多远。

而且在这个领域里头，OpenAI给大家其实挖了一大坑。什么坑？就是付费订阅。谷歌跟百度都掉这坑里了。什么意思呢？谷歌其实发布了非常多特别好的功能，比如AI搜索、Gemini的图形图像识别，还有很多实时的功能都发布了。但是呢，它不能给Gemini的用户去用。为什么？因为它还惦记收一个月20美金的订阅费呢。现在所有这些新发布的功能，你都是给开发者用的，就是你在AI studio.Google.com里可以用，但是你到Gemini.Google.com里就用不了了。Gemini.Google.com是给普通用户用的，我们要去收后边这个钱，所以这些功能都不能开放给普通人用，这个等于掉坑里了。

然后百度咋掉坑里呢？百度也是要收费，就是文心一言要收费。所以呢，现在我们这些免费用户只能使用到文心一言，可能是3还是3.5的一个版本。据说文心一言4.0是可以达到像GPT-4这样的问答水平了，当然要收费。

所以呢，也没人去试这个东西，具体做成什么样不知道。所以百度也掉这坑里了。当然这个呢，你不能说这个大厂就傻，人家掉这坑里肯定是叫姜太公钓鱼，愿者上钩的一个状态。为什么？因为甭管是谷歌也好，百度也好，他们的最主要的收入来源是广告收入，叫搜索广告收入。他一旦把所有这些功能都开放了，给这些普通用户去使用，那他那块的收入就没有了。

使用AI搜索引擎，要比你使用普通搜索引擎还是爽太多了。所以在这块呢，他们也是说我们就自愿上这个当吧。现在甭管是Gemini也好，还是百度的文心一言也好，在整个的圈子里头都比较尴尬。他不愿意给普通用户去使用这个东西。

当然了，现在Perplexity呢，其实也在坑里边去挣扎。他呢也是收这个订阅费的，一个月我记得好像也是20美金。你收这笔钱，后来的广告费就挣不回来了。如何获取流量，就会成为一个很大的难题。什么意思？你说我产品做得好，为什么没有流量呢？

大家知道搜索引擎是怎么竞争的吗？搜索引擎的竞争就是流量入口的竞争。甭管是百度，还是谷歌、360、腾讯搜搜这些人，他们都是在疯狂地花钱买流量，从苹果那买，从各个的PC厂商那去买，从微软那去买，从各个的浏览器那边去买。甚至很多人说干脆算了，我自己做浏览器吧，目的就是为了争夺搜索的流量入口。都是要花钱的。

如果你挣不到广告费，你说我是靠一个月20美金的订阅费来去盈利的，那你能够投放出去获取流量的钱，就会变得非常非常少。他根本打不过这些老大。这个事算Perplexity也是掉坑里了。

现在的这些AI的聊天工具，他们一方面呢是要去靠新闻推送去获得一定的流量，剩下的就是干脆自己去做浏览器去了。你比如说像阿里，他就直接把通义千问的客户端跟夸克浏览器合并了，说以后你们就到夸克浏览器里边去使用吧。像这个豆包，其实自己就是个浏览器。像OpenAI自己现在也在招聘浏览器的开发人员，他也希望自己成为浏览器。

而且，OpenAI现在还推出了一个叫做OpenAI搜索引擎的插件。如果你使用谷歌的Chrome浏览器，安装这个插件后，我就可以替你将搜索引擎替换为OpenAI。它也在进行这些竞争行为，所以这块竞争极其激烈。刚才我们提到的那些掉坑里的情况，一个是舍不得广告费，另外一个是收了订阅费后，也没有能力再去与这些传统搜索引擎公司争夺流量入口。这一切已经形成了定局。

那么，目前的AI搜索发展到了一个什么样的态势呢？我最近看到一篇文章说，现在AI搜索是离赚钱最近的，因为他们真的要挣钱了。但实际上，现在各个AI搜索引擎，包括Perplexity，应该算是流量入口比较大的。当然，如果和ChatGPT比较，它就相形见绌了。然而，在所有单纯的AI搜索工具中，它算是流量比较大的一个。他们的用户量和流量的增长其实都是很缓慢的，一年也就增长个10%到20%这种水平。很多人说，这一年增长20%不是一个挺好的数据吗？但他的基数非常小。

现在整个AI搜索这一块，主要的流量还是在OpenAI手里，可能还有很多在豆包和Perplexity手里。总的流量非常少，他们对大厂基本上没有什么大的影响。而他们原本应该终结搜索引擎市场的，现在去看看，谷歌在整个搜索引擎市场里，还是占了百分之八九十。因此，其他人努力了半天，在这块没有什么效果。而且，谷歌的财报显示，整个搜索广告的收入还在上涨。

所以在这一块，这些AI搜索引擎公司对大厂完全没有伤害。那么，谁是大厂呢？谷歌是大厂，OpenAI是大厂，剩下一个是字节。其他的像微软、百度，我觉得在整个竞争中还是比较靠后的。最后总结一下，AIGC到现在还在努力探索变现路径，Perplexity做了非常有益的尝试，将商品结果放到自己的搜索结果里。

而且，让用户不用跳出直接进行购买，这个尝试他做完了以后，这谷歌也好，字节也好，OpenAI也好，一定会抄他后路，一定会抄袭他。没有什么好说的，这种小厂就是排头兵，你们去探路，探完了以后，其他的大厂后边去抄就好了。

电商和广告人呢，现在就有一个新的问题需要去处理了，AI SEO，这个也要去探索一下，怎么能够让自己的商品在这种AI搜索引擎里边能够展现出来，怎么能够获取这部分流量。就算他说：“哎，我不收钱。”那你看，我们即使都不收钱，那谁排前呢？谁排后头？总得有个这个条条框框，咱得说道说道，这个大家要去努力的。

像专业人士一样去买东西，这件事本身呢，其实是一个伪命题。我们永远要挣的是冲动消费，就是他并不是说我一定要去比较了很多东西、比较了很多场景，非常理性的去买这个东西，买那种不需要的东西，这才能挣到钱。所以还是要像亿万富翁一样去买东西，不要去像专业人士一样去买东西。

最后，大厂们都在后面谋定而后动的，现在冲在前面的大概率是劣势。他会帮助大厂们把这个路径探索清楚。当然，有些大厂可能比较有良心，就是发现路径清晰了以后，直接冲上去把他买下来，那这个劣势呢，还算是这个得偿所愿了吧，至少是有一定的收获。如果有一些大厂折腾了半天，最后就直接自己做了一个商品，把它做了一个功能，把它替代掉了，那Perplexity估计要倒在路上。

但这点呢，我估计还好了。虽然这是杰夫·贝索斯个人投资的案子，但是亚马逊应该也不会让杰夫·贝索斯亏钱。所以呢，他最终的结果，有可能会被亚马逊收进去，这个咱们现在就属于纯猜测了。如果谁是这个北美地区的，或者美国地区的Perplexity的Pro用户，可以买两单试试，看看效果怎么样。当然，我觉得这种效果应该不会特别好。为什么呢？因为中国的卖家是非常聪明的，你有了一个新的入口，大家一定会想办法在这个入口上面去跟推荐引擎也好，AI引擎也好，去做各种各样的猫捉老鼠的游戏。

所以你在这个里面买到的东西，应该跟Temu、亚马逊不会有特别大的差异。好，这一期就讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

老范讲故事 — Fri, 29 Nov 2024 00:42:07 +0000

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的。视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假或者版权侵害什么这样的视频。所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢，会发出一些样板视频来，那意思什么？他说，你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频，它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线。大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。

艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布，还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢，在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说，这个脚要往前走的时候，应该膝盖往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这个是第一个问题。

第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说，你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗，应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说，我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。

我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。

现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个，专业应用级别呢，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢，也还是有很多专业团队，会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。

半专业的应用呢，肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了，而Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。

这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。

对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入，艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。

所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了。为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这就相当于什么，就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头，每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但是艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说，你穿了件衣服，里边有个人，但是呢，人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着它都变成左脚了，或者是变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题，第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢，算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，它需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱，从头到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。

因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。

什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

YouTube上有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频我已经被这种视频骗了好多回了。

我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。

就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的，他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但是呢，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢，都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型吧，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”，什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。其实，这些呢是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。

最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以，他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就在2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。

但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着就都变成左脚了，变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。

他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。

咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后，什么欺诈？视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢，你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。

你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。

很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个说话了，这个吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。

当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画、小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把德国选择党的那个女党首的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型，式的那我们只要写一个提示词，生成出来大差不差的，我就能用。那些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他说哎，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题，咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯，这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说，非常非常难以控制和把握。再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看，最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，就是有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置，才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈？视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部，也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上，在吉梦也好、可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆，可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过。

这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们呢，就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢，其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢，是呼吁Open AI可以更加开放。

你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，表示现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢，并不需要进行身份验证，所以也不知道这个是真是假。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这种方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高的。当然了，这个还不是困扰视频生成本身的最大的难题，更大的难题是什么呢？就是视频要好看。

最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说，我们付出的努力极其艰巨呢？也是如此，他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢，完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

所以再往下一个方向到底是什么，虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。于是他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在呢Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。

第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。

你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。

这是第一个问题。第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上。现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。这大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。

视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。那么我们到底还需不需要等Sora呢？

其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上，在吉梦也好可灵也好呢，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型。在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

其实，从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢，已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全球的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂地泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂地开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头了，电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品，这个事本身是非常难的。他们说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这就相当于什么？就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停地玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是，视频生成本身的难度是很大的。第一个，内容合理性其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边有个人，但是人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，膝盖应该往后弯的。但是，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是两条腿迈着迈着都变成左脚了，变成右脚。图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性，这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上，已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定地保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后，算力成本实在太高了。图片生成，现在我们画一幅1080P的图像，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。

当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。大家想象一下，有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。

现在我们要做视频生成的这种工具了，在有大模型的基础上，你也需要大量的开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以，为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。

再往后，什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话它就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝；你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝；你只要提到任何人的名字，直接拒绝；说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝；请给我画个什么星球大战、米老鼠，马上拒绝。

所以，他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好、可灵也好，都是在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以，我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。

所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。

而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说：“你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情，都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人，有黑人，有白人，有男的，有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

当然有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀，血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看DALL·E 3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个DALL·E 3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。

这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。

Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。

至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

当亚马逊遇上TikTok，这次到底是谁胜谁负？亚马逊低头，TikTok笑到最后？深度剖析电商与社交媒体的竞争策略

Luke Fan — Fri, 23 Aug 2024 00:48:28 +0000

亚马逊跟TikTok展开了合作，这个过程中到底是谁低头了，谁赚到了呢？大家好，这里是老范讲故事的YouTube频道。这个消息本身并没有那么新，这是8月8号传出来的消息。亚马逊和TikTok以及Pinterest达成了合作，可以通过这些网站服务以及APP直接引流，销售亚马逊平台上面的商品。

那么，为什么大家就不能好好合作，一定会演变成不是东风压倒西风，就是西风压倒东风呢？不能说大家平等合作吗？不行啊，第一个，商场如战场，本来就如此。另一方面，大家好好过日子，就没有我们这些说故事的人什么事情了。所以，一定要去分析一下，这事到底谁赚了，谁亏了。先给出结论，这个事情亚马逊绝对是低头亏了，而赚到的呢，一定是TikTok。

我们来分析一下为什么。以前我在猎豹的时候，我们那时候也是卖广告嘛。那你说卖给谁呢？最好的就是卖给亚马逊嘛，到那边直接转换成销售。但是这个过程极其痛苦。为什么呢？因为你一旦把流量导到亚马逊站里头去了，到底形成转化，是否有购买，这个事就不知道了，因为所有数据在亚马逊手里头，亚马逊说了算。亚马逊说你导下来的数据没有造成任何的购买，那你就真的是没有。而且这个地方他也不开放，也不跟你解释，你没有任何地方可以去跟他讲道理。

所以以前跟亚马逊做这种流量合作是非常非常麻烦的。在这个过程中，谁掌握了最终销售的过程，谁才能掌握最终的话语权。比如像我们以前把流量导给亚马逊以后，后边用户进到亚马逊网站里头，或者进到亚马逊APP里头，做的各种操作，我们是没法跟踪的。进去以后干嘛了，我们不知道。而亚马逊里头还有一个很讨厌的东西，那就是购物车。这个玩意儿什么意思呢？

就是很多的西方买家，他们看到广告以后，哎，这个东西不错。但是我现在呢又比较忙，我把它加到购物车里去。加进去以后呢，可能未来一段时间再去买。甚至很多老外，他们在结婚之前，会把夫妻双方想要的东西都放在购物车里。他们的好友就会说：“我直接在购物车里帮你把它结账掉。”因为大家随份子也好，送礼也好，你又送不到人心坎里去，怎么办呢？他们就把一些想要结婚用的东西都搁购物车里，他们的亲朋好友进去帮他们结掉。这种情况也是存在的。

但是对于我们这些卖流量的人来说，这事就痛苦了。我今天进来了，给你导了流量，然后用户看到商品了以后加入购物车了，但他当时没有完成交易。那最后算不算是我导的流呢？这个事是很关键的呀。以前这个事情我们说不清楚，这个事叫什么呢？叫广告归因。归来的归，原因的因。微因是什么意思呢？当一个商品被销售的时候，我们要知道这是为什么？到底是因为哪个广告渠道展示了广告，才造成了这一次的购买？我们应该给这个广告渠道多分一些钱。为什么要多分一些钱？不是都给他呢？因为商家不可能说我只在一个广告渠道里边去打广告。但是如果只有最后那一家得到钱了，那其他的这些广告渠道就不乐意了。这样，广告渠道的竞争就会变得白热化。而且到现在为止，广告渠道里的流量还算是稀缺资源，所以通常会进行一个分配。

但是亚马逊的归因算法就比较奇葩了。亚马逊的归因原则就是只算最后一次。如果你不是最后一次，我就不给你算。什么意思呢？第一个有效期，你打了广告，这个广告7天之内算是有效的。一般商品广告7天，品牌和展示推广呢是14天。在这个范围内算是有效期。如果说我打了广告，但是过了7天，人家才去下单，第8天下了单了。

跟你没关系。这就是亚马逊自己干的，你就不要再去分这个钱了。如果是在有效期内，在亚马逊整个的平台内，大家注意，只有在亚马逊平台内他才算这个数。点击优先于浏览，比如说我这有广告，我看了，这个也是能记录的。那个广告呢，是被点了，那么点的那个比看了这个管用。

归因于最后一次有效的交互，比如我要买iPhone，我看了iPhone相关的亚马逊内部的广告，看了10个，点了其中3个。看了的那些就不算了，只算点的这个。最后一个点的是哪一个点，过了以后7天之内我确实买了iPhone，那么最后一个被点击的那个广告，不因是你的买iPhone，是因为你的功劳，你可以分到钱。

亚马逊的这种算法呢，叫最后一次触达模型，给自己起了这样的一个名字。电商平台为什么把广告策略搞成这个样子呢？为什么不可以对流量稍微友好一些呢？看完我刚才讲的这个广告归因过程，是不是很多人会有这样的疑问呢？

电商平台，大家想想到底靠什么玩意挣钱？电商平台的收入其实主要有三块。第一块叫交易手续费与服务费。你在我这上商品了，你在我这里去做物流了，你让我帮你去管理支付了，管理了一些其他的售后服务，这些事情我要收服务费，这是第一个。

第二个就是广告。大家有这么多商品在这，到底买张三的还是买李四的，这个是电商平台挣的第二笔钱。那你说电商平台挣第三笔钱是什么？第三笔钱是金融服务，一般是要做贷款。什么意思呢？因为商家嘛去买东西，然后再把它卖掉，那这个进货的钱很多是由电商平台贷款给你的。像阿里很大的一笔收入就是这个，但现在这部分钱被蚂蚁金服弃到外面去了。

这个是原来电商平台最挣钱的三块业务，这个里头，服务费相对来说是一个死收入。

你卖了多少东西就挣多钱，这个是一个固定的。剩下两块的收入都是比较活跃的。大家更关心的其实是流量分配收入。电商平台流量都是我自己的，我让谁卖得出去，谁就能卖得出去；谁可以多展示，谁可以多涨。在前面一点点，就是排序排在前面，这个是电商平台真正挣钱的地方。

为了挣到这一笔钱，亚马逊是把它整个的广告归因算法做得相对来说比较极致吧。咱们用一个稍微中性一点的词来说，那国内的平台一定是做得更过分。比如说淘宝封杀微信，封杀抖音，封杀百度搜索也是同样的道理。你外部流量进来了以后，那我这个淘宝的广告到底卖给谁呢？比如说有一家商家，他现在在我这卖iPhone，那么它到底是应该上淘宝来买广告呢，还是应该到微信、到抖音，还是到百度去买广告呢？

你一旦有竞争了以后，这个价格就上不去。那我把他们都干掉，你只能在我这买，那这价格不就上去了吗？另外，在所有的电商平台里，还有一个很重要的东西叫排行榜。你到底排前头、排后头，或者是要搜索排行榜、分类排行榜。他里头有很多很多榜单，到底怎么去排这个东西。

因为大家要知道，排行榜排得靠前的，他会有很高的点击率和转化率，他卖的就会多。一旦有外部流量汇入，就会影响排行榜。比如说我买了一大堆的抖音流量回来以后，在我这把某一个商品卖爆了，那这个商品可能就在淘宝同类商品里排第一。这是淘宝不希望的，肥水不流外人田嘛，我都希望在自己这做。亚马逊也是如此。

那么这一次，为什么说亚马逊跟TikTok的合作是亚马逊低头了，亚马逊亏了呢？前面我们也讲了，亚马逊整个的政策有多么的封闭，完全也不跟你讲道理。你到那都没有可谈的，或者说可跟他说，我们要想对一下，账到底有导进来多少流量。

进来以后到底干嘛去了？你这个完全跟他没法谈，因为这个是客户隐私。你说这个用户，比如说从 TikTok 点击进到亚马逊了，进去了以后到底浏览了哪些商品，收藏了哪些商品，哪些在购物车里头，以前买过哪些商品，这个商品到底是买了还是没买，这个属于妥妥的用户隐私。所以呢，人家也很冠冕堂皇地说，我就不告诉你，这事没什么好说的。那么这一次的差异在哪？

这一次合作的核心关键点在于，不需要退出 TikTok 应用，在 TikTok 内部完成交易。什么意思呢？原来我们要从 TikTok 导量到亚马逊去，你点击 TikTok，退出了亚马逊的 APP，剩下的所有操作，就像刚才我讲的，用户隐私这一部分操作都在亚马逊那一步。而且亚马逊收集了所有这些数据以后，是不跟 TikTok 分享的，这个是传统的方式。而这一次就正好反过来了，就是我在 TikTok 里点击了，然后就在 TikTok 里去完成交易。整个的过程，它没有退出 TikTok。

那么刚才整个这个过程就变了。我在 TikTok 里头跟谁是好友，我关注了哪些账号，我以前在 TikTok 里头买过什么东西，怎么去支付的，这些所有的数据都在 TikTok 里头，亚马逊是不知道的。而且从 TikTok 点击再往后，如果你没有购买的话，我是不是开 Kidney 推荐同类的商品？如果你购买了，我是不是给你推荐一些相关的配件？比如说 iPhone，在 TikTok 里点击了 iPhone，原来跳亚马逊了，TikTok 不知道你买没买，那下次 TikTok 接着给你推 iPhone 了，还是应该给你推 iPhone 壳和 iPhone 膜呢？他不知道。但是现在，因为所有的交易在 TikTok 里头完成了。

TikTok就知道到底买还是没买。如果没买，那我下次接着给你推iPhone。如果你买了，那我下次给你推iPhone的保护壳和iPhone的贴膜，这个就在TikTok里头了。TikTok用户的数据和属性、TikTok用户的行为习惯和推荐导流的政策，都在TikTok手里面。而且对于亚马逊来说，TikTok也给讲，这个叫用户隐私，我不能给你，其人之道还治其人之身了吧。

亚马逊最后在整个这个过程中，变成了一个什么呢？它变成了一种交易的基础设施。我只是给你提供最后的交易与履约的部分，但是所有的数据都在TikTok这头。亚马逊呢，只能利用非常有限的购买数据。它能利用什么？TikTok账号需要绑定一个亚马逊账号，还可以去完成刚才咱们讲的这些购买过程。但是呢，这个账号也是随时可以进行解绑的。

亚马逊呢，可以知道这些亚马逊用户的购买记录，你在我这买了个iPhone啊，你在我这做了一些什么其它事情，但其他的所有数据就不知道了。比如说，这个用户在TikTok那头关注了谁，喜欢看什么样的视频，最近在谁的视频下头点赞了，这些事情亚马逊就通通都不知道了。

商家可以通过TikTok去刷亚马逊的排名了。你一旦在TikTok上把一东西做爆了，比如我在TikTok上开直播，一把把东西卖爆了以后，那亚马逊的排名妥妥第一，然后你还可以吃到一个很长尾的亚马逊流量相关的这种利益，这个是非常非常划算的。你就比如说，前几天董宇辉跑去新疆做直播，后来说你咋不好好卖东西，哎，没得可卖，所有能卖的东西被我卖光了，什么牛羊肉、奶粉，只要是跟农产品相关的东西都是秒光，那后边就没得可卖了。董宇辉是在抖音做的直播嘛。

那么这个流量过去了以后，抖音就给你重新分配了。但是如果在TikTok里头去卖的东西，最后是在亚马逊上成交的，我们把亚马逊的这个排行榜刷到第一了。那么很长一段时间，这些商品依然可以在亚马逊里头热销。这个是一个非常棒的事情。那么长远有些什么样的影响呢？这从短期上来说，肯定是亚马逊亏了，TikTok赚了。那么长远什么影响？大家首先要去思考，TikTok这东西叫社交电商。社交电商跟传统的亚马逊这种货架电商的区别在什么地方？社交电商是因为社会身份进行购买选择和转化的。因为我看到别人去推介了，因为这个人是个明星，这个人是一个大V，这个人是一个直播大号，我要去买这个东西啊。这是一方面。

另外，所有的信息是通过社会关系进行传递的。我关注的人买了这东西了，我喜欢的朋友买了这东西了，我要去买。这是真正的社交电商。那么对于TikTok Shop的商家来说，会有什么样的影响呢？首先在履约能力上，什么叫履约能力？就是用户下了单以后，然后你把这个货物完完整整地交到用户手里，用户满意来付钱，这个过程叫履约过程。那么履约能力，TikTok现在跟亚马逊比，肯定还有非常巨大的差异。现在的TikTok商家呢，你以为他们是从石头缝里蹦出来的吗？对吧，他们不会说因为亚马逊进入到TikTok里头去了，我就要到亚马逊那边再开一个店，完全两回事。

会变成什么样的？现在的TikTok商家本来就是亚马逊商家，是TikTok在大量的亚马逊商家里头进行了非常严格筛选选出来的，说你们这些人，我允许你进入TikTok Shop去卖，其他那些人，对不起，你现在还不够格，还不能来卖。所以现在的TikTok商家，本来他就是亚马逊商家。

而且是亚马逊商家里最好的那部。那么，有了TikTok跟亚马逊的合作之后，会发生一个什么事呢？就是更多达不到TikTok要求的亚马逊商家也可以在TikTok上进行投放了。我在那边去买流量，我在那边去请这些达人给我做广告，我到那边去做直播，可以去做了。

你说，会不会有这个早期被TikTok挖回来的这些商家觉得亏了，要回归亚马逊？没有，因为本身他们的亚马逊店铺也没关，一直在。你说有没有人说我在TikTok里头不交易了，我直接到亚马逊去交易？也不会有人再往回倒。为什么？因为流量还是在TikTok手里面。而且呢，这种流量对于买家来说，对于亚马逊来说，都是黑匣子。所谓黑匣子，就是一碗水端平，这件事你就不用想了。

最终，TikTok一定会在流量运作上做出一些对自己有利的小手脚来，通过实际的数据去挑选合格的商家。那么，在这个过程中，继续引导他们从亚马逊搬迁到TikTok。因为大家注意，TikTok不仅仅是社交电商，TikTok里头也是有货架电商的，它的所有功能是覆盖亚马逊全套功能的。

后面，TikTok一定会对TikTok商家进行流量倾斜。比如说，这个商家只有TikTok店铺，没有亚马逊店铺，那么我会给你一些倾斜。如果你两边都有，既有亚马逊店铺，也有TikTok店铺，如果你在TikTok完成交易，那肯定是会有流量倾斜，还有一些税费方面的减免倾斜。

如果你只有亚马逊的商家店铺，没TikTok店铺，什么意思？就是它原来不符合TikTok标准，对吧？你只能在亚马逊上卖。那这些人呢，TikTok会通过大数据筛选一下，哎，这几个卖得还不错，拎回来吧，我们破格允许你到TikTok来开店了。

这些相应的优待政策，你都可以去享受了。一旦发生这样的事情，在各种活动和优惠、过节日的情况下，大家相信，TikTok的敏捷度一定会比亚马逊高很多。我们不说TikTok里头给的优惠有多狠，或者愿意给你多少的折扣，但动作肯定是很快的。

对于普通用户来说，社交媒体打电商平台，就是一个高频对低频的竞争。社交媒体绝对是高频应用，而电商平台其实是个低频应用。虽然现在亚马逊的客户访问量还是高于TikTok，但这种逆袭是不可逆转的。TikTok一定会在用户访问时长、用户年度访问次数等方面全面碾压。

你去看看美国的美塔上的流量，再去看看亚马逊上的流量，你自己就可以比较出来。流量的战争，TikTok只要不被封禁，基本上是稳赢，至少对于亚马逊来说是稳赢。那么，对于亚马逊来说，未来还有没有翻盘的机会呢？也不是没有。

国内的电商平台其实已经做出了榜样，应该怎么做。唯一的解释就是自己构筑社交媒体平台，绝不是说把流量交出去。无论是现在的淘宝、京东还是拼多多，都是有自己的直播平台和短视频平台。你一定要把流量的篱笆插起来，这个事情才能继续玩下去，否则是玩不下去的。

我们平时看到的这些大网红，比如疯狂小杨哥，那是抖音的；李佳琦和原来的薇娅，都是淘宝上面的大的直播商家。他们一定要整出自己的这些大的KOL，才有可能守住流量。

除了自己建立社交媒体平台之外，还有一条路，就是短兵相接，不断把TikTok上的品牌回流到亚马逊上去。这就需要真的是面对面抢了。国内的平台也在干，今年淘宝下半年的核心政策就在干这件事，什么意思呢？以前有叫淘品牌。

什么叫淘品牌？淘宝上最早卖的是白牌，慢慢有一些品牌树立起来了，叫淘宝品牌。现在呢，有大量的品牌跑去抖音里边去树立，因为抖音其实要比淘宝更容易建立起品牌来。因为他有人设、有直播，还可以讲各种故事，由短视频作为载体，所以它树立品牌要容易些。

淘宝现在也在不断监控抖音的数据。如果有哪些商品或者哪些品牌在抖音里边立起来了，淘宝的这些招商的人就会直接冲上去，说：“来，我给你这边开账号，给你各种优惠政策，咱们来搞吧。”一定会走这条路。

所以亚马逊呢，也可以思考一下，是不是有一些新的品牌在TikTok里边树立起来了，我们把它吸引回亚马逊去做。在电商平台之间的竞争上，我觉得中国还是相对来说比较领先的。咱不说我们的这个算法呀，或者是基础设施呀，各种政策呀、产品质量，就这种短兵相接、刀刀见血、拳拳到肉的这种仗到底怎么打，咱们现在已经都演化过了。

亚马逊就应该好好去抄这个作业。如果亚马逊这个弯子转不过来，直接把流量都交出去了。他现在不仅是交给TikTok，还交给Pinterest，也在交给美塔，交给其他的一些公司。那么后面的话，亚马逊就会逐渐沦落为大型的履约基础设施，流量分配的利润就会远离亚马逊而去。

这个事情亚马逊就算做完了，你说这样能不能最后做到极致，干脆做这一块，让你们其他的别跟我抢。谷歌也干过这种事情，谷歌说：“你们谁需要搜索引擎，你就挂我的，我给你分钱，你自己做吃力不讨好，就使我就完事了。”最后我把这块垄断掉。

那你说亚马逊有没有这个机会呢？也挺难的。为什么？因为做履约基础设施里边，还有个更狠的，叫拼多多。拼多多说：“来，我们玩全托管啊，我们彻底的变成履约基础设施了，全托管。”

这事亚马逊在努力学习，但是还没有学会。为什么？因为生产基地在中国，怎么去跟中国人打交道？在这件事情上来说，他们还没有拼多多那么理解。总的来说，这是亚马逊这一次跟TikTok合作里面算是吃了个小亏吧。未来如果转不过这弯子来，可能还会吃更大的亏。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。

也欢迎有兴趣、有能力的朋友加入我们的付费频道。

再见。

揭秘AIGC如何颠覆生活与工作，流量争夺战：从ChatGPT、MidJourney、Copilot、DALL·E再到AI Agent流程，大数据时代的博主生存法则！AIGC如何革新数字时代工作模式？

Luke Fan — Sun, 14 Jul 2024 00:57:38 +0000

大家好，欢迎收听“老范讲故事”的YouTube频道。今天，我们来讲一讲AIGC如何改变我的工作与生活。之所以录这个视频，是因为我应邀参加了一个访谈，题目就是“生成式AI如何改变我的生活与工作”。

啊，我是从什么时候开始接触到AIGC的呢？或者叫生成式AI的呢？应该说，第一个产品是Github Copilot，啊，一个自动生成代码的产品。第二个产品呢，是Midjourney，啊，一个可以画图的产品。这应该是在2022年，5月6月左右的时间。大家注意啊，那个时候，ChatGPT 还没有爆火。应该是在2022年11月左右，啊，GPT 3.5突然爆火，大家才知道，说有AIGC这样的一个东西出来。在这个之前的话，一般管这个叫做生成式AI。当时呢，我还录了节目啊，有节目为证。Github Copilot如何震惊到我了。我们觉得，有了这样的一种生成式AI以后，程序员的工作与生活会变得多么不一样。Midjourney刚刚发布的时候，当时Midjourney应该还是啊3.0的版本，还没有到4.0版本。现在我们使用的是Mijourney的6.0版本了。当时我们已经可以画出很多很有趣的图画出来。我记得啊，Midjourney最早改变我生活的是什么呢？就是我生成了一个自己的迪斯尼风格的3D头像，把这个头像发布到了推特上去。呃，我正常一个推特的阅读量，应该是几百条，因为当时的推特的关注数还比较少。这一条推特发出去以后，阅读量突然飙升，我收获了成千上万的点赞和评论，这让我意识到生成式AI的影响力，以及它如何迅速地融入并改变了我们的生活和工作方式。

我的这一条推特的阅读量，应该可以达到几十万，甚至还要更高一些。到不到百万，这也算是改变我生活的一个案例吧。原来，一个不会画画的人，一个只能在推特上用他匮乏的言辞去表达自我思想的人，可以通过一幅画得到这么多的流量，得到这么多的关注啊。这深深震撼到了我。再到2022年的11月份啊，DALL·E横空出世，AIGC这个名头就算彻底火了。对于我来说，流量才是AIGC天生的组合。你说我用AIGC生成了内容，这些内容我拿它去做了科学研究，拿它去做了各种各样的伟大的事情，其实意义没有那么大啊。对于我来说，AIGC可以获得流量，可以被更多的人关注，可以被推荐算法所推荐，这才是AIGC真正有价值的地方。AIGC极大地降低了内容创作成本，提升了生产质量，提升了生产效率。当有了更多内容之后，下一件事呢，就是要争夺更多的用户时长。在DALL·E刚刚发布的时候，我就已经预见到了这一点。我们的用户量没有上升，我们的用户使用时长没有上升，那么当内容不值钱了以后，人和流量就会变得越来越贵。经过了两年啊，我觉得我当时的猜测和预言吧，逐渐在被证实。我们讲一个小故事啊，以前经常有很多饭馆和包括一些酒店，会去做抽奖啊。怎么做呢？就是往一个盒子里头，不透明的盒子往里去扔名片。等这个饭馆的老板或者酒店的老板，从这个盒子里头摸出某一张名片的时候，你就可以免单啊，或者是得到一些住房券。怎么能够提高中奖的概率呢？

大家有没有思考过这个问题？方法很简单啊。多放几张——你想啊，一大家都在往这个盒子里头放名片。如果你只放一张的话，比如说这盒子里有啊，100张名片，你中奖的几率就是1%。当我放两张的话，就是2%啊。当我一次把一整盒名片，一整盒应该是100张名片，把都扔进去，那我不肯定中奖吗？

AIGC来了以后，我们可以往盒子里多放一些名片了啊。你中奖的机会就会上升。而且呢，AICC给我们赋能，让我们拥有了一些原来没有的能力。一个不会画画儿的人，现在可以去画画儿了。而画儿对于用户的点击，对于情绪的感染，绝对是比文字高非常多的。所以，AIGC呢，可以让我们创造更大量的内容，在推荐算法，在流量的洪流里边去获得更多的流量，获得更多的关注，也就是说，获得更多的金钱。这是AIGC对于我来说最大的改进啊。

让我来还原一下，一个日更科技、创投、互联网、流量方向的博主，每天是怎么工作的啊。然后我们再去看，说AIGC到底怎么改变这个工作。我每天的工作是从阅读和选题开始。我先要看看今天有什么新闻，然后选一些题目来进行个人的演绎。对于我们来说呢，讲的永远是叫大众话题的小众观点，对吧。你说我如果讲一个很小众的话题，没人听。如果我也讲一个很大众的观点啊，大家都这么讲，我也这么讲，也没有人听，而且讲的也没意思。那么一定是大众话题的小众观点。所以第一件事呢，我们先要去筛选话题啊。那你说，你不能自己去讲一些独特的东西吗？人生短短几十年。

你要是讲自己的人生经历，估计一个礼拜就讲完了。啊，所以每天第一件事是阅读和选题；第二件事是撰稿。撰稿的话，就是具体要讲什么，还是要去写一个简单的稿件呢？对于我来说，写的是提纲，对于我，逐字稿是不适用的啊，因为阅读起来有一些障碍。然后呢，是录制，就是真正拿设备也好，拿手机也好，把整个的稿件讲出来。再下一步呢，是剪辑——你录完了以后，肯定还是有一些不是那么满意的地方，要把它剪掉。再下一步呢，是进行点击率和SEO优化。什么意思？呃，就是YouTube也好啊，TikTok也好，任何这种视频平台，想去推荐我们的内容，或者想去理解我们到底在说什么，其实是有难度的。那在这种情况下，我们就需要给他一些信息，说我们今天到底想什么，通过标题，通过简介，通过分段信息，通过标签，把这些东西呢，告诉YouTube也好，告诉TikTok也好，告诉这一些推荐算法啊，推荐引擎，然后呢，他们才可以啊，根据我们提供的这些信息，去将我们的内容，推荐给他们认为应该看的人。这一块呢，是有很多需要优化的地方，包括用户看完了以后，如何提高点击率，比如说，YouTube把我的视频给一些用户看了，然后看的过程是展示在这个页面上，用户到底点不点，这是我要关心的事情。用户点击率上升了，那么YouTube认为说，哎，这是一条很好的视频啊，我应该推荐给更多的人看。如果用户去搜索了，那我怎么能够让这些搜索关键词，命中我的视频，而且在最后。

YouTube给出的视频搜索结果里头，排的性可能是靠前一些。而这也是我们需要去思考的问题。这个是我们录完剪辑完视频以后，要去干的事情。做完这个事情以后，我们就可以把视频发布到平台上去。然后呢，进行数据回收。啊，什么叫数据回收？就是到底有多少人看了呀，点击率怎么样啊，评论都是什么样的，有多少人点赞了呀。然后呢，再进行新内容的调整。我下次怎么吸取经验教训，把它做的更好一点。总之呢，要形成一个闭环。当我总结了一定经验教训以后啊，我再去选题的时候，我看选一些什么样的题目。这是一个完整闭环啊。

那么，从一个Youtuber的角度上来看，让我们来看看AIGC到底是如何来提高我的效率的。先说错误的选项啊，首先，要告诉大家啊，他到底什么不能干。因为AIGC现在有很多课程，很多人上来去告诉你啊，这个东西无所不能，你什么都不用干，就可以躺在这挣钱了啊。首先，要告诉你他不能做什么。第一个，要放弃AIGC肯定是不可取的。你说别人都用，我不用这事肯定不行。为什么呢？逆水行舟，不进则退。AIGC是提高我们创作效率的。你创作一条，我可以创作10条。就像我们在一个名片箱子里头，去抽奖的过程中一样，这个箱子里头有你一张名片，有我10张名片啊。那么，抽出来我的名字的几率，一定是更大的啊。所以，一定不能放弃。第二个呢，叫不劳而获，也是错误的。任何人告诉你说哎，你使了AICC以后，你就可以自动起稿，就可以自动生成稿件。请注意，这里应该是AIGC，不是AICC。

在当今的数字时代，确实存在一些关于数字人或虚拟人物能够自动创造收益的神话，你或许会听到这样的话：“拥有一个数字人，你就可以躺着挣钱，无需任何努力。”然而，对于这些言论，你需要保持警惕，因为它们往往出自那些意图收取智商税、推销课程的骗子之口。切勿轻信这些承诺，它们通常都是虚假的。

在构建个人品牌或内容创作的过程中，我有一套完整的闭环策略，特别是在作为Youtuber的旅程中，我巧妙地结合了人工智能生成内容（AIGC）的应用。这一切的起点是阅读和选题。为了提升阅读效率，我自建了一个RAG系统，亦即个人知识库。这个系统能够存储我从网络上筛选出的大量信息，随后，我通过向知识库提问的方式，快速获取所需知识，极大地提高了阅读速度。这样一来，我不必通读整篇文章，特别是针对那些为了吸引点击率和延长阅读时间而采用夸张标题的文章。这些文章往往利用夸张的标题吸引点击，一旦点击量增加，推荐算法就会给予更多曝光。同时，为了在文章中插入多次广告，一些写手会将关键信息放在文章后半部分，迫使读者阅读冗长的无关内容。面对这样的文章，阅读体验无疑是痛苦的，浪费时间且信息重复。

因此，在这个信息泛滥的时代，构建高效的信息筛选和处理系统，显得尤为重要。通过使用RAG系统和AIGC技术，我能够更高效地获取和利用信息，避免时间的浪费，专注于创造真正有价值的内容。

没有意义的内容啊，但是，我一旦把它扔到这种个人知识库里，以后我就可以通过AI搜索，直接找到相对应的重要信息出来啊。这是我用的第一个工具。第二件事呢，是撰稿——就是我还是要去写这个提纲。现在呢，我也用AI提示词做了一个专门的保健，或者说提纲优化的一个过程。在这一块呢，我觉得AI起到的作用还没有那么大，因为AI给我的结果并没有那么让我满意。经常是它出了一个稿件之后，我最后会扔掉重写啊，这个没有办法，因为我没法确定，到底是自己直接做的稿件更好一些，还是AI写的稿件更好一些。因为这种内容的结果回收周期太长，污染因素太大，所以没有办法简单地做A/B测试啊。但是，作为一个视频博主，我是要坐在这讲这个故事的，只有我自己写的稿件，我可能讲得更痛快一点。做视频博主很重要的一点，不是说有多少人看你，你自己先得把自己讲开心了。如果你讲得越讲越痛苦，越讲越难受啊，那么听的人也会感受到这一点的啊。所以在撰稿这一块，我虽然使用AI，但是并不依赖它啊，而且我觉得AI在这块还有待提高吧。录制这一部分呢，我只能说，我的各种设备都号称使用上AI了，但是具体怎么用的我也搞不清楚，就据说是有各种AI优化美颜啊。对，你们看到了我吧，这个还是有一定的AI参与。在剪辑这一块的话，AI其实是帮了大忙的。现在呢，各种的剪辑软件，都有专门的AI剪口播的这种功能啊，他会先把我们讲的内容，整个识别成文字，然后根据内容的连贯性和重要性，自动剪辑成一段流畅的视频。这个过程大大提高了我的工作效率，让我有更多的时间专注于创作本身，而不是技术细节。虽然AI在某些方面还有待提高，但在剪辑方面，它的表现确实令人满意。

然后，再将其中的重复语气词删掉，把空白时间直接自动删掉。我们还可以直接根据文字去剪辑视频。原来剪辑视频是很麻烦的，你需要看这个地方说重复了，需要找到这句开始的地方，一句结束的地方，再把它删掉。现在，已经完全不用了。现在，你只要在文字上去删删改改，就可以得到最终的视频了。但是，这一块还不是那么成熟，就是你删是没问题的。你说，我想改几个字，这事就费劲了。因为改的话，它需要重新平衡你的语音，重新生成你的口型。在这块，有一些工具在做，但是成本很高，效果也还没有那么好。我相信，可能在不久的将来，这一块也可以补上。

至于说自动配音和数字人，我尝试过，效果一般。我可以写一段话，它就自动的给我配音去了。也找了一个人在那给我稍微演绎一下。这个有，但是不喜欢。至于说自动的字幕优化、翻译和高亮这一块，这是现在剪辑软件最新的功能。原来，这些字幕会自动的给你识别出来，但是这个识别，是做的传统语音识别。传统语音识别的话，就有一个很严重的问题，就是一句话，它其实很难去判断里头每一个字具体是什么，所以它错误率很高。那你说，AI怎么这么笨。这个跟AI没关系，我们如果是人的话，去听别人单独的说某一句话或者某一个单词，你可能识别正确的几率也是不高的。但你说，我们没感觉，听人说话听不明白，那是因为什么？有上下文，以及有各种生活习惯。你把它这些东西综合在一起，进行考量的时候。

识别的准确率就会上升。所以现在，在AI识别字幕的这个板块里头，也应用上了这些知识和功能。现在的字幕识别已经相当准确了，但不是完全准确。然而，准确率已经上升很高了。而且，AI识别完字幕后，还会自动地将它认为相对重点的地方标注成比较明显的高亮，让用户看到字幕的时候知道这一块相对来说重要一些。它还可以进行自动翻译。其实，翻译对于它来说相对容易，就是它可以把我们的内容变成中英双语字幕。只是，现在这个交互的过程还有一些问题。你想让它再提高准确率，其实已经挺难的了。应该是什么呢？就是先去识别，然后呢，有一个跟用户交互的过程，让用户去进行错误修改，或者告诉它说哪一块你没听清楚的词应该如何去纠正。这样的话，可以慢慢地让AI熟悉我们的语气语调，熟悉我们各种口头禅，熟悉我们的各种发音，然后可以逐渐提高准确率，也可以进行一些特定的修订。应该在这个之后再去做翻译，否则的话，就是属于完全单纯的浪费算力了。所以，很多跟AI相关的操作，不是AI有多厉害，而是我们的交互应该如何设计的问题。这一块呢，也有待提升。

待字幕处理完了以后，我现在的整个拍摄环境还是相对比较杂乱的。所以呢，我会进行AI抠像。这也算是多模态识别吧，把人抠出来。后面呢，用me journey再去画一幅跟我们今天讲的话题相对来说比较贴近的背景，再把人放上去。哎，也算是一个AI应用。

这是关于剪辑相关的内容。再往后，点击率和SEO优化也全都是AI干的事情。封面很重要，因为用户在决定是否点进去之前，先要看封面。这个时候，Mijourney又大显神通了。我们现在能够使用到的画图软件，基本上是三个：第一个是Mijourney，第二个是Open AI的DALL·E 3，第三个是Stable Diffusion。国内使用的，诸如“同1,000问”、字节跳动，基本上都是Stable Diffusion的各个版本。

在这三个画图软件里头，Stable Diffusion的特点很明确：稳定性非常好，但是艺术性差一点。操控要稍微麻烦一些，而它的优点就是稳定性。你要求它按照统一的风格，出连续的内容的时候，它相对来说要好一点，所以更适合工业生产。DALL·E 3是Open AI的这个产品，它语言理解能力非常强。当你跟它说我要画什么的时候，它是所有这些工具里头理解能力最强的一个。但是它的艺术性要稍微差一些。但是看各取所需吧，有些人说我不需要那么精细、那么艺术的这种内容，但是我希望我讲的所有东西都给我画出来，那么在这个时候，DALL·E 3会更适合一些。

我也在用，Stability AI我用的很少。最后一个就是我常用的Mijourney。Mijourney的最大好处是什么？就是它的艺术性最强，感染力也最好。但是它的缺陷是什么呢？就是稳定性可能没有Stable Diffusion那么好，而语言理解能力可能没有DALL·E 3那么强。不过，如果你追求的是艺术性和感染力，Mijourney无疑是最佳选择。

稳定性没有那么好啊。你每次让他画的时候，他未必会出来统一风格的内容啊。第二个是什么呢？就是他对于文字的理解能力呢，也要稍微差一些啊。他毕竟不是一个语言模型，对吧？他是一个画图的。你给了他太复杂的描述了以后，他可能理解不了啊。这是它的各自优缺点啊。对于我来说呢，啊，最主要的是用me journey，用me journey画封面了以后啊，再加上一些其他的工具，做出视频的封面来。再下一步是做标题啊。标题这个东西呢，呃，我现在基本上都是让AI去声称标题。要注意啊，前半截，或者说前面十几个字是给人看，后面呢是给机器看的。它什么意思？因为人会会看到标题，然后他看到标题以后，会决定点不点进来。对吧？所以前面是给人看的。那为什么人不看后面的呢？因为我们的标题后面的部分，都变成点点点了。甭管是YouTube还是TikTok，后面都是点点点啊。TikTok你可能连标题都看不见啊，直接划过去了。YouTube是可以看到标题的。那你说我就写前面这个简短标题，不就完事了吗？啊，不要这样啊。当你去搜索的时候，比如说吧，我今天要搜索open AI这个词，你的视频里它出现了，我的视频里也出现了，那么谁排前头呢？如果我这个open AI这几个字，出现在标题里头，我这排前头。如果是出现在简介里头，也可以排的相对靠前一些。你说我标题简介里都没出啊，我只是出现在啊标签里面了。因为它是允许我们在里面去打标签的。那这个呢？

就会出现在最后，或者可能压根对这个搜索结果排序影响就会比较小。它是有权重的，所以，我们要利用人看不到的这个部分标题，尽量呢把一些搜索高频的词放上去。这样的话啊，在用户使用搜索的时候，我们可以占到一些小便宜。那么你想去啊，写出这么复杂要求的标题来，你还是让AI去干吧。甚至呢现在还有人去总结出经验，比如说这种咆哮体标题啊，我不能允许你不知道，99%的人都不知道，就属于咆哮体。包括像小红书，二极管式标题也是这样的啊，只有我知道的秘密这个事情，难道你还不知道。反正有很多这样的标题风格啊，这个也是允许我们直接写提示词，让AI来替我们生成的。这是标题啊，简介呢也是如此的啊。简介我们会呃给机器看，你说有没有人去看那个简介，有啊但是很少。绝大部分的简介是机器看的，在谷歌啊，或者在其他的这种平台上，在搜索推荐的时候，由机器来去读取这些内容，来决定把我们的内容推荐给谁。所以简介呢，我现在完全是由机器生成的啊，我的标题，我一般是机器生成完了以后，会人工去改。简介基本机器生成完了我是不改的。

再往后呢，是做分段信息。AI呢，也可以去自动的给我生成分段信息，我这个视频第从哪个时间点开始讲哪一段，从哪个时间点开始讲哪一段。这个呢是盖码史啊。如果用户点开你的视频以后啊，他不想从头看，他想从中间哪个地方开始看，他可以直接点击分段信息往后走。另外呢，所有分段信息是先加入搜索的。用户搜完了以后说。

我想搜一个什么什么内容啊，你这里的写好分段了。我的视频是从几分几秒以后讲，这一段内容，你有可能直接被搜索命中啊。搜索命中了以后，一点就进去就可以看了。然后是视频的标签啊，你可以给视频打很多很多标签啊。那么这些呢，通通都是由AI自动生成的。我呢，自己写了一个AI agent啊，写了一个很长的流程。这个流程输入什么？输入的是字幕。刚才我们讲了，我们在剪辑的时候，已经生成了字幕了。我把字幕扔给这个AI agent，它会一步一步的去完成，刚才我们讲的所有工作：生成标题，生成简介，生成标签，生成分段信息啊，生成一个完整的博客。最后我还会把所有内容，生成一个完整的博客。这些博客呢，我也会贴到一些博客网站上去啊。为什么呢？啊，有些人说我不，我不能给你字幕。你给了你字幕以后，你们就不好好看我的视频了。啊，你都用YouTube GPT啊，或者说Tube GPT，用这样的工具去看。我不开心了，你让我没有挣到广告费啊。千万别这么想，哈哈，为什么？就是，当你提供更多的内容到网上去以后，啊，真正能够看到这些内容的，其实不是人啊，而是搜索引擎的爬虫。当他爬到了以后，我们就又有被谷歌，搜索引擎去命中的机会了。比如说我写了一篇博客，把我的一个视频录完了以后，把博客贴到我自己的网站上去了，那么就有可能会被谷歌搜索命中啊。命中了以后呢，用户大概率还是会回来看视频的。永远不要跟流量过不去。我们到啊这一步了。

是后期点击与SEO优化啊，再下一步是数据回收与再优化。这一块呢，基本上目前还是人工在处理啊。未来是不是有机会改成AI处理呢？啊，那是未来的问题了，现在还搞不定啊。我每天还会去看数据啊，看评论，然后来决定未来的内容怎么做。下一步说，我们可以如何更进一步的使用AI来改进我的工作呢？前面是我现在已经做到的，未来的是，以后边是一些未来畅想。

第一个呢，内容收集和整理还可以进一步优化。那我现在的处理方式是先去阅读啊，然后录入到机器的数据库，或者本地知识库里头。以后再通过AI智能搜索，得到我所需要的信息。但是我们真正去做研究的时候，会怎么样呢？会进行延展的阅读。那么我可能会再去写一个更复杂的AI侦探流程啊。当我搜索结果之后，然后我会在搜索结果中啊，自动的，再去生成进一步需要去探索的信息啊，进一步需要去收集的数据。把这些东西拿出来以后，再进一步去搜索，再进一步啊，结合我内部的个人知识库，或者是外部搜索的一些结果，得出更复杂的或更完整的调查结果出来啊。这是可能未来要做的事情。

我的评论内容啊，应该会自动的阅读，至少要统计，这个事还是应该去做的。现在呢，并没有做啊。我现在是人工去阅读所有的评论啊，找有趣的去回复啊。以后的话，我会去啊，让AI去读所有的评论，但我不会让AI去回复的啊，因为AI回复的话，是对所有给我发评论的人不够尊重啊。但是我会让AI去统计啊，哪些评论特别有趣。

在评论区中，一些明显的风向或思潮正在流行，这是AI可以自动总结的。下一步的目标是自动总结评论中的主流观点或情感倾向。至于短视频的自动剪辑，这是一项我尚未着手的工作，但我认为这是应该去做的，也希望AI能在这方面给予我一定的帮助，或是提供剪辑建议。不过，这可能还需等待AI剪辑软件的进一步进化。我自己直接完成AI短视频剪辑，可能仍有些许难度。

AI视频生成，以及音乐和音效的智能生成，这些领域我正在尝试，但尚未找到实际应用的方法。之前我提到过，AI在内容生成、代码编写、图片生成方面，我都有所涉猎。对于AI生成视频，我试用了目前几个较为领先的产品，但使用方法仍需探索。我曾尝试将用majority画好的图交给AI视频生成软件，让它生成动图，再将这些动图作为视频背景，但用户反馈不佳，他们认为太过杂乱，甚至不如静态背景图，这样他们可以专心听我讲故事。

当前AI视频生成的可控性和艺术性尚未达到理想状态，我们还需等待其进一步进化。至于音乐生成，我尝试过几次，但生成的音乐连我自己都难以忍受，因此未敢拿出来“污染”大家的耳朵。期待未来AI音乐生成能有更合适的发展。

技术，或者更进一步说，技术的进步，有了更好的商业模式。有的时候，其实跟技术没关系。就是当大家都生成了很好的AI音乐，因为它成本降低了，决定把这些音乐无版权的开放出来，给大家用。然后再有一些筛选的机制，能够自动的筛选出来，我应该用的音乐的话，可能我以后会去用这些音乐。但你让我自己去生成音乐，短期内应该不会去做。至于更进一步的剪辑呢，比如说AI的一些，呃，阿巴塔，不是说数字人，而是什么呢？我可以跟AI的一些虚拟形象进行问答。这个，可能是未来我希望有的一些功能吧。至少现在还做不了运营数据，或者说，我视频播放数据的回收，以及优化建议呢。嗯，未来应该也还是会用AI agent，再去做一个。目前还没有开始做这个，工程量稍微大了那么一点点。这也是未来需要去思考的一个问题。还有一些什么可以用AI来做的呢？就是更多的，人与人之间沟通的润滑剂，也是很适合AI去在里边去尝试的一个方向。什么叫人与人之间沟通？比如很多的博主，我们经常会一起去录一些节目。那么在这个过程中，AI可以去给我建议说，哎，这个话题你去找谁谁谁去录，其实会更好。包括他可以帮我去看一些别人的视频。因为我现在每天自己去阅读，撰稿，录制，剪辑，上传，优化等等，这个过程的话，没有那么多的时间去看其他人在做什么。嗯，这一块的话，AI其实是可以给我一些帮助。其他人都在做什么？哪些话题更有趣？哪个话题更受欢迎？

技术的进步，尤其是AI技术的发展，正在改变商业模式和人与人之间的沟通方式。AI音乐的低成本生成和无版权开放，使得音乐的使用变得更加便捷。AI的筛选机制能够帮助用户快速找到适合的音乐。未来，AI将不仅限于音乐领域，还能实现与虚拟形象的问答互动，提供更个性化的体验。在数据分析方面，AI能够回收和分析运营数据及视频播放数据，为优化提供科学建议。此外，AI还能在人与人沟通中发挥润滑剂的作用，例如，为博主提供话题建议，分析他人视频，节省时间，提高效率。AI技术的广泛应用，正逐步改变我们的工作和生活方式。

你可以跟谁谁谁去讨论一下啊，或者两个人一起去做一些联合直播。这是AI可能能够大展身手的一个地方吧。总结一下，AIGC或者叫生成式AI呢，肯定是一场革命。在AIGC时代呢，一个人就是一支团队啊。像刚才我分享了我工作的整个过程啊，所以你们看看啊，我基本上是按照一个整个团队在工作的啊。与AI在一起呢，主要是要卷那些不用AI的人啊。有一些人说我就不使啊，那我们就卷死他，不用AI的人。最后呢，只会留下来很少的一部分精英，作为文化遗产传承下去也就可以了。给大家表演一下，就跟日本这个寿司仙人一样，你就去看一下他的表演。但你说所有日本人吃寿司，都是需要那么做吗？这个事是不行的。找到自己的定位啊，做人适合做的事情，让AI去做AI适合做的事情。这是非常重要的啊。就是在我们去使用AI的时候，一定要注意：AI不是无所不能的。里头怎么去让他干他擅长的事情啊，这是我们需要注意，需要不断尝试和碰撞的地方。永远不要相信不劳而获啊，这个一定要大家记住啊。大家都在寻找新的机会与定位，社会是不允许不劳而获的啊。为什么呢？因为如果不劳而获可以在社会中生存的话，整个社会会发生崩塌的。这会破坏社会的稳定性与发展啊。所以千万不要相信不劳而获，所有对外宣传不劳而获的人都是享受智商税的人。好啊，这就是这一期的内容啊。这一期内容里边提到的各种的流程，我一般会在付费频道里头跟大家分享。

说：“哎，这个流程具体是怎么做的，对吧？或者有人希望说：‘啊，我希望了解一些很特殊的流程，应该如何去做。’你也可以跟我讲，我会在付费频道里去录出来。好，啊，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群，也欢迎有兴趣、有能力的朋友加入我的付费频道。再见。”

揭秘Safe Superintelligence：伊利尔如何打造安全超级智能

Luke Fan — Tue, 25 Jun 2024 12:53:16 +0000

伊利尔在创业，他的公司叫做Safe Superintelligence（安全超级智能）。这个公司的主要业务是什么呢？目前，公司由三个人组成，分别是伊利尔、Daniel Goose和Daniel Levy。伊利尔是一位以色列裔加拿大人，他精通俄语、希伯来语和英语。Daniel Goose是一位以色列企业家和投资人，而Daniel Levy是伊利尔的旧部。

在人才和算力方面，Safe Superintelligence也非常强大。Daniel Gross和Knight Fragman联合创立了算力云，他们拥有3000块H100。有趣的是，他们还可以使用五吨重的H100，因为每块H100的重量超过一公斤，所以3000块H100大约有五吨重。另外，文章中还提到了一个有趣的名字，叫做Knight Fragman，他是之前的Get Have公司的CEO。去年11月，董事会将山姆奥特曼解雇后，他接任了CEO一职。

说我们要请一个临时CEO来，就是这个叫Matt Fredman。他请来了以后说：“啊，我诚惶诚恐啊，你们想怎么干啊，咱们接着干。”等山姆奥特曼回归了以后，他就走了。他是跟Daniel Grusse联合创立了算力允啊，现在Daniel Grusse是投资和参与了伊利尔新的公司SSI，大概是这样的一个关系。那你说，现在已经有算例了啊，有人才了，那数据哪来呢？现在的数据其实比以前要好获得的多。为什么呢？因为现在可以直接让大模型生成数据，这样的话质量更高，可控性更强。像拉玛3的训练，实际上就是用大量的拉玛2来直接进行数据处理，数据预处理以及数据生成啊。那么，他就可以训练出这么厉害的拉玛3来。现在伊利尔估计也会走这条路，人有了算了，也有了啊，数据呢也有了。那么到底什么是安全啊？说他跟山姆奥特曼吵架的原因是因为他觉得山姆奥特曼做的东西不安全，而且不安全是非常危险的，会对人类造成损害。说不，我要出去，我要做一个安全的，而且叫安全超级智能，对吧？怎么叫安全呢？实际上，现在的安全需要重新去定义了。我们所说的安全啊，是像核安全那样的安全，而不是信任核安全那样的安全。这个是伊利尔讲的原话。那我们来想想，什么样的东西是像核安全一样管理？核安全到底是怎么管理的？第一个，我们来对所有的数据进行记录。

一共有多少颗核弹都得记上，哪颗核弹在什么地方，全世界的人都得知道。哎，不能说哪多出一颗核弹来，这是不允许的，至少大的是不允许的。然后呢，还要有这种叫核不扩散的协议，而且还要有各种承诺，说哎，我们啊承诺不优先使用核武器，而且知道核武器这个东西一旦使用了以后，对整个的人类，对整个未来的环境和很长一个时间都是有巨大伤害的。这个是核安全，而这种信任核安全呢就是说，我相信你不会干坏事啊，至于你以后万一干了次坏事呢，我还可以再原谅你几次。这个是信任和安全。所以伊利尔呢是准备把AI安全作为核安全的方式来去管理的。那大家想一想，他会怎么来管这个事情，如何做到安全呢？伊利尔讲了，说我们只有一个目标和产品，就是做这安全超级AI，不会去做APP也不会做什么这些东西啊，而且呢没有时间和财务上的压力。现在呢他讲把OpenAI搞成这样，为什么呢？啊是因为有财务压力，你需要烧更多的钱，你必须要不停的再去融资，像我们以前也讲，你只要开始拿投资人的钱了，开始融资了，就相当于是在脖子上套了一条枷锁，对吧，投资人会催着你往前跑的，他会有时间和财务上的压力。伊丽尔说我没有啊，我就耐心做这个产品，而且呢他是希望通过工程突破，而不是各种临时技术措施，来去保证安全啊。大家注意啊。

伊利尔本身既是一位科学家，也是一位工程大师。他致力于将安全和能力视为技术问题，并通过革命性的工程和科学突破来解决这些问题。他希望能够直接解决安全问题，而不是仅仅通过打补丁等临时性技术措施来解决。他的工程能力使他能够实现量变达到质变，从而成为一个工程大师的典范。他的大模型是一个工程学方面的案例，通过堆积更多的参数和数据，他能够获得不同的结果。伊利尔提出的规模法则，即”scaring low”，指出只要扩大模型，就会获得不同的效果。他的发明和创造力使他成为一个大力出奇迹的发明人。

上更多的GPU，增加更多的内存，这些都是伊利尔发明的。他可能会采用工程学的方式或者革命性的工程学的方式来进一步增加模型的尺寸，以制作出更安全的模型。所以，伊利尔很有可能会先憋一个大模型，直接推出一个超越其他大模型的作品。然后，他才能成为模型领域的标准制定者与执行者。现在的大模型中，实际上没有标准制定者与执行者。这是什么意思呢？就是说，OpenAI可能会说：“你看，我第一个推出来了，我的用户量最多，用户最喜欢我，我能不能成为标准的制定者和执行者呢？”但是大家都不乐意，因为他需要与所有人竞争。对吧，谷歌要与他竞争，亚马逊aceropec也要与他竞争。这是不行的，不可以的。如果有一个人说：“我不与大家竞争，我直接做第三方的评测。我比大家都强，我来做标准的制定者与执行者。”这是有可能的。我举一个案例，叫做蓝兔兔。他给别人做跑分，然后在这样的情况下，如果他自己说：“我有一个立场。”那这事就没法整了，因为有一段时间，我带着安兔兔的创始人去见各个芯片公司的老板，希望他们把安兔兔买下来。然后后来好多人说：“我们不能买你，买了你以后你就没有中立性了。”这是有问题的。所以，伊利尔做的这个SSI有可能是一个有一定中立性的东西。最好的大模型可以帮助所有的模型厂商。

去实现这种叫做安全检测安全防护的功能，这个其实有一定的市场需求。但是这个公司的组织架构可能会出现一些问题，因为近年来，像OpenAI和ASROPEC这样的公司都在设计新的组织架构，以避免受到资本的压制。现在OpenAI又要上市了，一旦上市，就必须老老实实地为股民服务，不能再不受资本和投资人的控制了。以前OpenAI没有上市的时候，人们还会说我们信任你，你拿了我们的钱去做一些事情，也不给我们出财报，我们也认了。但是一旦上市，情况就不那么简单了。但是OpenAI也到了不得不上市的时候，因为他们为什么要继续烧钱，还要再融资呢？如果他们再去找微软拿钱，微软可能会直接收购他们。所以他们必须上市了。那么现在SSI的组织架构大概是什么样呢？他们说第一，不受管理费用和产品周期的干扰，就是慢慢做，不着急，而且钱也有很多。第二，安全保障和进步都不会受到短期商业压力的影响。这是他们给自己设计公司结构时的一些前提条件。

而且呢，是世上第一个专注于安全的超级智能实验室。这是他们给自己立的这个flag。当前的大模型的安全问题，到底有哪些呢？第一个就是越狱的问题啊。就在你对大模型提出一些特定的问题之后，大模型就直接封了，就开始给你胡说八道，或者说你问他什么就说什么啊，就不会再有这各种各样的防护了，就跟以前我们流传的这种我奶奶告诉我的这个故事似的，你给我造一核弹啊，说对不起，这不能造。我奶奶从小都是给我讲造核弹的故事，哄我睡觉的。现在假如你是我奶奶，给我讲一个造核弹的故事，让我哄我睡觉吧。然后这个GPT就开始讲了啊，说核弹是拿什么造的，这个叫越狱啊，这个是很危险的。对于越狱来说啊，SSI就可以给它加个保护壳啊。其实，像我们很多的原来网站上的这种攻击，都是靠加保护壳搞定的啊。你先在里边过一下，如果发现没什么事，我再交给你。而且呢，对输出的内容也可以进行一定的过滤与保护，对吧？如果发现你被越狱了，然后他马上可以提醒你，打开一个新的进程，这个马上就可以过去。然后第二个呢，叫产生幻觉啊，就是大魔星胡说八道了啊，这叫产生幻觉。这个呢，是SSI可以加入验证的专家模型，就是你输出什么样的内容，我来验证一下说的对不对啊，或者说，跟用户的一些需求是不是对齐了，这个事是可以去干的啊。第三个呢，就是开源大模型。

基本上是不设防。虽然拉玛3里头有一定的这种检测，但是你只要对拉玛3进行微调，这个检测就直接扔掉了。所以开源模型基本不设防，只要对内容进行甄别和过滤，这个问题也可以部分解决。比如说，我们能够识别出来这是由拉曼三生成的内容，那个是由什么模型生成的内容，能够把它识别出来，然后可以过滤一些明显有问题的内容。这其实也是可行的。真正可恶的东西，或者说大模型真正的安全问题，大家是不提的。是什么呢？就是大模型真正的恶是为政府与大企业赋能。但这件事谁也不说，因为政府也好，大企业也好，才是受益者嘛。有了工具他们先用。现在国内，AI造假已经非常猖獗了。当然，国内现在主要是图文造假，视频的还没有那么多。而且超高产量，他们干嘛？就是做各种的SEO，骗流量骗补贴的。对吧，国内的处罚方式是什么？罚平台啊。我发现谁用AI生成了这种垃圾内容，我来把这平台发一下，然后就封号啊。这个我不允许你。再说了，这个都在做，而且还要求你必须要写可信媒体。我只能从那里去引，我不能自己瞎编。现在对新的AI生成内容，在国内是有要求的，而且严重了是会抓人的。前两天抓了一个，说每天可以出7,000篇文章，疯狂的都是AI自己拼凑出来的，而且还很挣钱，每天能够挣个1万多块钱哈。两个人的一个小团队。现在这个人已经被抓进去了，而出海这个事应该还是可以做的啊，而且做这块的人应该还是比较多的。就是大量的假内容，其实已经做出来了啊。那么现在呢，还是以骗补贴为主啊，就是说他做一大堆假东西啊，假的文章，假的文章了以后呢，比如我发到今日头条里，今日头条有人点击了以后啊，你是可以分到广告费的。大家其实是在骗这个钱。但是大家要想清楚，当有人愿意为了更大的目标去付钱的时候，比如说把黑的说成白的这个事呢，并不难啊。当你有AICC的这种大模型以后，一天就可以出几千篇上万篇的文章，然后快速铺天盖地地，就把整个的娱乐环境全都覆盖一遍。这个相对来说还是要很容易的。伊利尔的老师啊，他的博士生导师叫Jeffrey Hinton啊，也算是人工智能三巨头之一。刚刚呢，也提出了一种应对假视频的方法。他怎么应对呢？他认为大量的假消息流传是一种病，那么既然有病呢，怎么办呢？打疫苗哈哈。他给的要求是打疫苗啊，什么叫疫苗呢？比如说灭活疫苗啊，我把原来这个很严重的病毒给你啊，减轻一些，然后让你打到身体里以后，让身体产生抗体啊，这叫灭活疫苗啊。那他想的方法是什么呢？把危害性小，并且注明这是假消息的，这个是假食品，发出来给大家看一下。他说马上美国要大选了嘛，在大选之前呢。

我们先应该给大家打这个预防针啊，打完了以后呢，大家就知道视频有很多是假的，就没有那么信了。他是什么样的假视频呢？比如川普跟拜登的讲话视频啊。最后规定标注一下，说这是一个假视频。千万要小心啊，也就可以了啊。这样的话，等到真的大犬的时候，大家就没有那么容易被骗了。当这样的视频真的投放给普通民众看，真的能让他们提高鉴别能力吗？我自己其实是比较持怀疑态度的。为什么？因为打疫苗呢，会有预防效果，但是呢也有一定概率会染病。当大家觉得说，哎，所有的视频都有可能是假的啊，我们什么都不信了，那你们就历史虚无主义了嘛。所有都是假的，任何东西我都不信。那么以后会变成什么呢？就会形成一大堆小型的信息孤岛，就是所有人都是假的，所有人都想骗我。我自己信什么，我就越来越信。任何人怎么跟我说都没用了，他可能会变成那样。这也是打疫苗有可能会产生的负面效果啊。那么对于视频信息呢，加以验证啊，这是Hindon讲的另外一点。它是什么意思呢？就是视频前的放映二维码。甭管真假吧，我们都要放二维码。当二维码扫描了以后呢，应该可以回到他的原处去。比如说，我今天放了一条拜登的竞选视频，那么这个视频呢，就应该从拜登的竞选网站出来。如果不是从拜登竞选网上出来，那就一定是道听途说的或者是假的。而且呢，导入的到拜登的这个啊。

竞选网站以后，您可以找到原视频来验证其真实性。确保网站上的视频与原视频完全一样是非常重要的。验证的过程可能会比较复杂，但是可以采用一些相对简单直接的方式来让大家理解这个视频的真实性。正常的运作方式应该是先对包括视频在内的各种内容进行理解，然后逐一溯源，再对真实性进行评估。评估的目的是确定这个视频是真的还是假的。然而，很多情况下事实并不是非黑即白的，而是存在部分事实和无法考证的部分。这种情况在生活中非常常见。科学家们的研究成果可能与真实世界之间存在一定的差距，无论是伊利尔还是他的老师Hinton，他们使用的技术相对来说可能还比较幼稚。我可以给您讲一个故事，曾经我有幸去拜访过澎湃新闻的总编辑，当时我在猎豹移动准备做新闻头条类产品，所以我们四处找这种网站或者APP的总编辑去聊天。总编辑给我讲述了一些关于新闻报道真实性的故事。

哪有什么真的假的呀？我们就是记者啊！记者别的本事没有，我们加两个形容词呗。什么意思呢？就是你事实是事实，但是呢，我只要在形容词上加一些这个呃，调整和修改以后，这个味就变了。比如说我今天又惨遭了批评什么的，你会觉得很别扭。那你说这个事情，不管是伊利尔设想的这种安全也好，还是Hinton设想的安全也好，你加了两个形容词，这事到底怎么样？或者说，哎，视频来了，这是一个阴间滤镜。我们经常讲这个是CNN还是PBC给中国拍的照片都是阴间滤镜。那你说这件事能不能识别出来？对吧，识别出来以后又怎么样？这个呢，其实对于新的大模型来说，会是一个比较大的挑战。你要不但把这个视频里的东西识别出来，你还要把视频的氛围、各种暗示你都要识别出来，然后再去做判断。判断完了以后，你到底会做出一个什么样的东西来，真不好说啊。那么SSI的未来会是什么样的？很多人都在讲，伊利尔其实才是OpenAI的核心啊，但是有没有想过，为什么大家把伊利尔赶走了，也没觉得有什么问题？山姆奥特曼还在那里，虽然山姆奥特曼自己可能写程序，真正做东西做不出来，但是呢，那是个政治领袖对吧。咱们就跟三国里头刘备，你说除了会哭还会什么？但他是主公，多智进妖的诸葛亮不是？关张赵云啊，武力超群也不行啊。最后整了一个像刘备这样的人出来当主公来。

他呢，才是政治领袖对吧？也有人这么说呀。他有名正言顺啊，他是皇室宗亲，他是这个刘皇叔啊。这个要干活着才是刘皇叔，死了就是个破卖草席子的。只有他活下来，还能够活到读历史的时候，他才是刘皇叔呢。是不是刘皇叔这事真的没有那么重要，所以啊，皇帝也好，领袖也好，是个政治人物，呃，不是谁的武力值高或者谁的智谋高就可以了。山姆奥特曼呢，已经证明了啊，自己是一个非常强的政客以及领袖啊。山姆奥特曼的访谈，其实我最近已经不怎么看了，为什么？实在太虚，没什么东西对吧。他就是个政客嘛。啊，现在伊利尔自己开始独立门户以后，是不是能够真的做好这件事，不好说啊，因为呢，他未必有这种政客的技能，他可能还是个科学家或者是个大的工程大师这样的啊。能不能超越所有人的心魔型来，这个才是关键。能够准确地识别大模型的产出啊，精准地进行信息溯源成本和速度可以控制的住，或者说控制在可接受的范围内。多模态的识别和验证啊，这也是现在新的模型需要面临的问题。而且呢，可以对攻击与越狱进行防护，并对输入和输出进行检测，这个是对SSI新模型的一个大的需求。如果他说哎，我真的做到了，这些事情我都可以做的还不错，或者其中有几条可以做的不错，那么他有可能就能立住脚跟，为了对抗open AI，其他几家可能就会买他的服务，说来我们一起来做吧。

啊，这个事是有可能的。因为Openi应该是不大概率，是不会去买他们家的东西的啊。新仇旧恨啊。还在你真买了以后，比如说谁去跟山姆奥特曼呃去提说，咱买伊利尔家的这个SSI的这个安全认证吧。啊，那你一定是这个忠诚，不绝对就是绝对不忠诚，对吧？你屁股坐哪头了，对吧？新的商业模式呢，肯定还需要思考，因为所有做安全的公司都比较容易堕落。为什么叫比较容易堕落呢？就是啊，屠龙少年忠虫恶龙的，因为安全公司其实是不直接产生效益的。安全公司是干嘛的呢？他是靠焦虑挣钱的。你说你没有我，你就要完蛋了。就像以前我们算命的时候，经常讲这样的话，这个啊你有血光之灾啊，我有一个解决办法，都是这样的啊。你如果不告诉他你有一个血光之灾，那你这个销售，销售转化率得有多低嘛，对吧？这个前面这个一惊一乍的啊，你有个血光之灾，这个事情才是能够保证事后有销售转化率的一个大的关键啊。所以为什么说都很讨厌安全公司呀，360也是安全公司，像我以前做的什么金山呀，什么也都是安全公司，大家都很烦我们。为什么？因为你不产生直接收益嘛。那不产生收益以后呢，我们就要想办法在其他方式收。公司要挣钱嘛，大家有安全的顾虑，有担心嘛，就把流量交给我们。我们把流量聚集起来以后呢，就要想办法去推广告，想办法去做流量变现，想办法去盈利啊。那最终就变成流氓软件了。

希望SSI的这种新的机构，不会遇到这种问题吧。啊，对于他们来说，如果真的有一笔钱，你可以很长一段时间不用担心把它烧完，他有可能是可以耐心地往前做的啊。如果他真的做出一定成绩来，我相信也还会有第二轮、第三轮的资金再进来。这个是SSI的一个情况，当然还要去看他们后边的，公司架构到底成什么样啊，你别回头又整一个非盈利组织出来，这个可能性也是存在的。因为现在他对自己说，说我们是实验室啊，他没有说我是个公司对吧，所以未来到底怎么样还难说，他又不着急，没有任何时间节点的压力。所以我觉得，咱们下一次听到SSI的声音，依恋儿再做出什么东西来，可能就是SSI做出产品来发布了，那个估计就要很久之后了，因为他们剩下的人，应该并没有那么着急了。好啊，这就是我们今天讲的第二个故事啊，伊利尔要去做安全超级智能了。