百度为什么不做Sora？探索百度的独特AI发展路径与未来方向，背后原因是吃不到葡萄说葡萄酸吗？

百度为什么不做Sora？是不是吃不到葡萄就说葡萄是酸的呢？大家好，这里是老范讲故事的YouTube频道。

11月12号，百度世界大会上就透露出来说，百度从来就没有想去过做Sora这样的世界模型，或者叫视频模型，从来没想过。百度呢，是一直希望走自己的多模态道路，不希望去跟OpenAI这样的公司卷入世界模型的竞争。虽然到现在为止，Sora也没出来，但是跟在后面跑的人还是很多的，特别是抖音、快手，都推出了各自的视频模型，还有很多国际上的厂商也在视频模型上争先恐后地往前跑。

但百度说，我不干这个事，我有更重要的事情在做。这是百度李彦宏亲口说的。那么，百度努力的方向到底是什么呢？百度努力的方向是消除幻觉。大模型都是有幻觉的，百度呢说，我们作为一个中国公司，你可以不说话，但是说错了是很麻烦的，所以我们不能产生幻觉，保证我们说的都是对的。而且这个是在各种角度上，所有的评判标准来看，都得是对的，不能有任何问题。因为有的时候，你说的你觉得对了，但别人觉得不开心，这也是不行的。

所以百度呢，作为一个有中国特色的AI领军公司，他们向着消除幻觉的方向前进了。他们准备怎么去消除呢？他们这一次在11月12号的百度世界大会上，推出了一个很有趣的东西，叫IRAG。大家要知道，RAG是我们在做AI agent，或者叫AI智能体里头，用得比较多的一个技术，叫搜索增强生成。就是我们先搜索，搜索完了以后，根据搜索的内容再去生成，这样的话，能够保证生成出来的东西没有什么幻觉，是在你给定的范围内去生成的。它倒不一定说保证生成出来的东西是对的，但呢，它保证说你给我的是什么，我生成出来的就是什么。

那么，IRAG是一个什么样的东西呢？这个前面这个I到底是做了一个什么样的单词放进去了呢？I这个词呢，是图像（image），以图像为基准的RAG。什么叫以图像为基准的RAG呢？就是正常情况下，咱们RAG都是做的文本或者是表格。

搜索完了以后，把这些文本和表格通通都做成矢量数据库里面的一个点。然后找到离他比较近的点拿出来，去生成跟问题相关的答案。这是RAG的标准过程。IRAG呢，就是百度说我有好多图片，我把所有这些图片，以及图片识别出来以后的各种信息，直接拿去做嵌入，然后形成史料数据库。在这个里边去搜索，搜索完了以后再去重新生成图片。这意思是什么呢？就是你去训练说这个人叫张三，张三长这个样子，张三坐着，张三站着，张三乐了，张三哭了，张三吃东西了。他把所有这些东西都训练好了，放到一个矢量数据库里边。等你下次要求他去生成图片的时候，说张三穿着什么什么样的衣服，站在哪里，在做一个什么动作，有什么样的表情，有什么样的风格，他就可以从矢量数据库里头把你要的这些信息都找出来。张三长这样，我有了；然后呢，穿什么衣服，我在数量数据库里再去查。查完了以后，哦，衣服长这样我也有了。做什么动作他可以画得很准。他做了这么一个很神奇的技术出来，但是我看到这个介绍以后说：“哎，这玩意好玩哈，我得去试试。”然后我就跑去试了一下。首先我跑到了百度文心一言的网站上，测试一下，发现文心一言3.5版本一如既往的拉胯，依然在那胡说八道，依然在那前言不搭后语，咱就对他没有什么预期了吧。然后闻心欲言4.0依然需要收费，算了不测试了。那么画图吧。画图的过程呢，稍微有些吓人。首先让他画车，你让他画各种型号的车，都非常的准。说我迈巴赫哪个款，在巴黎的凯旋门下，哎呀，那个做的非常的漂亮，一张照片绝对一下乱真。大众这个车呢，除了车牌子上看不太清楚之外，也是非常像的。比较遗憾的是，我要求他画小米苏7，他没画出来，估计是小米苏7他的素材不够多，或者训练这个模型的时候没有用很多的小米苏7的图片，或者说他的IREG的这个矢量库里头没有那么多的小米苏7的图片。每次要求他画小米苏7的时候，他画出来的呢，都是问界M5，这个就没办法了。然后画人吧，要求他画郭德纲。

哎呀，我天呐，简直就是拿照片直接贴上来。你说郭德纲干什么？马上就给你做一个一模一样，绝对以假乱真。但是呢，你要求他画于谦，这个事就没法整了。画出来的也是郭德纲。大家想明白了没有？为什么会这样呢？

说为什么我要求他画于谦，这个IRAG产生的结果是郭德纲呢？因为很简单，你所有在百度图片里头搜索于谦的照片，郭德纲都站旁边了。于谦、郭德纲，郭德纲、于谦，你郭德纲站的照片多一些，那么他就认为说是不是于谦应该也长这样。可是这样的一种运作方式，实际上呢，他向我们展示了用IRAG的这个技术，依然是没有办法避免幻觉的。你要求他画于谦，他画的是郭德纲。

有一张照片，我告诉他说，来，给我画一个郭德纲跟于谦在德云社说相声的照片。画完了以后，就是两个郭德纲，都很像。就是你单独拆出任何一个来，都是以假乱真的。俩郭德纲站在台上说相声了，就变成这样了。要求画其他人，就没有那么像了，比如说郭麒麟、马斯克，这个就不太容易认出来了。其他的我就没有再敢去测试，再测试可能会被警告了。

但是呢，他整个这套的IRAG的系统还是挺吓人的。如果你想让他去给你生成一些广告图片或者是一些假图，就是郭德纲出去做了一些丢人现眼的事情，绝对以假乱真，画的极像，已经是可以达到一定的商业用途了。特别是你，比如说我做一些店铺的装修或者是这种电商的图片生成，这个玩意还是可以的。

除了这个IRAG之外，这一次的百度世界大会上呢，还发布了无代码工具“秒哒”。一秒、两秒的秒，哒呢是一个口一个到达的达。所谓的无代码工具“秒哒”呢，其实类似于字节跳动的codes，对吧？也是让大家把智能体拼起来，然后形成AI agent去干活了。只是呢，秒哒现在呢还不开放使用，依然是让企业去报名排队。据说已经有很多人排队了。这些企业不知道为什么想不开，Codes现在就可以免费使，你干嘛还要去使用秒哒呢？像我这种稍微有点动手能力的人，可以使用Defi。

这个咱们就不说到这么远了。今年，除了前面我们讲的IRAG以及秒哒之外，还发布了什么呢？这个牛肯定还是要吹的嘛。现在吹的牛是什么？就是文心一言大模型，日均调用量15亿。我们已经数涨上来了，去年是5,000万，现在涨了30倍了。这个15亿呢，大家注意，没有单位，15亿次，15亿人，不可能15亿人，中国没有。15一次，这个也稍微有点不太好去评估，怎么算一次呢？那么我们就稍微保守一点评估吧，我们把这个单位写成TOKEN，就是每天可以生成15亿TOKEN。

哎呀，很多人说这个数好大呀，百度文心一言好厉害，这么多人使用它，生成了这么多的内容。但是你要想想，15亿TOKEN按照百度的收费标准，能够挣多少钱呢？百度文心一言4.0 Turbo，按照每千TOKEN的价格乘上15亿的话，一天的收入大概不到10万块钱。那你以为像百度这样的一个公司，这样的一个项目，值得上来去讲吗？如果这就是他的AI未来的话，百度一年挣个3,000万、4,000万这种水平，这个够干嘛的呀？

所以呢，这个数字基本上可以忽略不计，他只是跟大家玩了一个文字游戏，一天15亿，好大好大。你把它乘上钱数，你看看有多少。除了给自己吹牛之外，当然还要指明一下方向，说未来的AI发展是哪个方向呢？两个大方向，一个是智能体，应该也就是刚才我们讲的AI Agent这样的东西；另外一个呢叫产业应用，就是政府有钱或者是大的企业有钱，你们愿意为这个事情买单，你们就是未来方向了。这是李彦宏为AI中国指明的两个方向。

而且呢，保证说百度自己不会去做超级APP，实际上他也没这个本事，所以干脆吃不到葡萄说葡萄是酸的，我不做这个事。然后呢，要去打造上百万个超级APP，也不知道李彦宏怎么想的。超级APP不可能有上百万，到上百万了，以后这东西就不叫超级APP了，你没有那么多用户，叫什么超级APP？但那意思呢，就是降维打击，这个是很多互联网人喜欢讲的一种说法。

你是二维生物，我用三维的方式去干掉你；你是三维生物，我用四维的方式去干掉你。这是《三体》里边的一个词。这个所谓的降维打击是什么呢？就是你们都去卷超级APP去了，我要当你爹。在百度下边做的应用都是超级APP，我比你高一个层次。

当然了，也展示了一些智能体，包括百度自己的文心智能体平台。这个上面呢，号称有15万家企业使用，有80万开发者，但是也没有看到砸出什么响动来。如果产生了超级APP的话，广大的民众应该是能够有感知的。咱们现在没有感知，别说上百万个了，一个都没看到。然后也展示了一些超级智能体，什么法律问答呀，基本上也就是说我们通过百度的文心研做的一些AI Agent，怎么能够解决一点点的实际问题，这个也给大家展示了一下。

另外，时髦还是要赶的，赶什么时髦呢？百度智能眼镜，扎克伯格干成了，我们也得干去。这就是这一次的百度世界大会上发的东西。那咱们回过来说，百度为什么自己不做Sora呢？其实这个里头最本质的原因只有一个，就是百度自己是没有视频平台的。虽然百度有视频，百度有爱奇艺什么这些东西，但是百度自己没有像抖音、快手这样的平台。你像国内现在即梦跟可灵，卷的那叫死，天天俩人卷来卷去的。即梦后边是字节跳动是抖音，可灵后边是快手。生成完了视频，就放在我们的抖音、快手平台上，大家就可以宣传了，就可以直接用上了。百度自己没这东西，所以说那我就不跟你费这劲了。

而百度跟Sora呢，实际上是两条完全不同的路径。Sora是什么路径？Sora的路径是scaling low，大力出奇迹。中间很多东西我们也不去研究了，我们就把料堆齐了，数据堆齐了，算法堆齐了，再加上足够的算力，烧钱等待它涌现。原来的这些传统的方式，我们就不去考虑了，think differently。我们不用再去想说要不要更快的马车，我们直接去造飞机去了，还不是汽车。这就是Sora干的事情，是一帮有理想的人去做的事情。

而且呢，未必有结果。其实到现在为止，Sora都没有任何要做出来的迹象。而百度他们做的事是什么呢？是在现有的技术范畴下，满足现有的需求。这个呢，就属于典型的中国式创新了。要求的是什么？确定性高。我们要卷吗？卷的一定要确定性很高。哪方面要确定呢？第一，技术路线要确定。一帮老学究们，他们来去确定技术路线，不能让年轻人上。年轻人，你们没有经验，万一走错了路怎么办呢？这个你们不要去动。第二个呢，成本要确定。我投入多少钱以后，可以得到一个什么样的结果。成本确定了以后呢，收益也要确定。我做出来的东西得有人用，我得卖得掉，这个事才能去干。就比较现实。这个就是百度走的这条路。百度呢，要求是有市场能赚钱，所以呢，百度算是比传统的中国式创新更加保守一点的一个公司。

那么现在有很多人去讲说，scaling low现在到底行不行？美国有很多大学、很多机构，甚至一些著名的科学家都出来讲，scaling low是不是玩不转了，这种规模法则是不是有问题了？再往前堆，是不是堆不出东西来了？这件事呢，只能这么说，从scaling low诞生的第一天开始，质疑就从来没有停止过。为什么呢？因为scaling low指望的那个东西，就是scaling low成功的最终结果叫涌现。这个词什么意思？就是你不确定他来不来，你不确定哪次行哪次不行，你也不确定说我到底是增加多少。以后有这么一次，因为涌现这个东西，它一定是不连续的。不是说我上了10块显卡，出了一个东西；上了11块显卡，又出了一个东西；上了12块显卡，又出了一个东西。这个是不连续的。你有可能10块显卡，你最后算出来一个数据可以用，然后呢，11、12、13都没用。结果你发现上到第100块显卡的时候，又跑出一个结果来，又有一个跳跃式的创新，又往前走了一步。那你说咱堆吧，堆到1,000块显卡，咱再做一次，发现哎，好像有那么点提升，但是又不是那么明显。哎呀，这个好像不对。

但这个事情是不是就不行了？不一定，因为在下一个节点在哪，谁也不知道。这个才叫涌现呢。如果你知道下一个节点在什么地方，比如说有这么多数据堆在一起以后得到结果，那下一个节点，比如说我们说是乘10倍、乘20倍、乘30倍或者是1,000倍，这都不知道。这个才叫真正的 scaling law。就是我们就只管往前堆，未来是不可预期的，不确定的不连续的。

这个东西从开始的那天大家就质疑它。这个过程呢，其实很像什么？就是咱们小时候都看过一个故事，叫小马过河。什么意思呢？这个小马背着一包货准备过河，人家就跟他讲说你这个过不去的，这个河很深，会淹死你的。这个不同的人就都跟他讲不同的话。就是每一个老的科学家或者是一些进行成本核算的会计师们，看到 scaling law 就会跟他讲：“小马过河，你是过不去的，你这个事有问题的。”那这个怎么办呢？必须要往前蹚，蹚完了以后去寻找下一个的节点，这个是没有什么办法的。

百度这么想到底对不对？百度说我不去作死 Sora，我要去做 IRAG，我要去消除幻觉，做有中国特色的创新，这事对不对呢？其实百度这么想并不丢人，作为一家成熟的商业企业，这样思考算是一个正常的商业逻辑。但是呢，如果按照百度自取的那样，他是中国 AI 行业的领军企业，这么想问题的话，就有点可悲了。

但好在是什么？就是中国做 AI 这一块，反正至少我测试的各种产品里头，我觉得百度基本上还是排不上号的。百度自称是中国 AI 行业的领军企业，这个事呢，让百度自己开心就好了，关起门来称大王就可以了，让我们每天看着百度是怎么思考问题的。我觉得他思考问题的很多的方式还是有借鉴意义和价值的。但是呢，作为一个国家的这种 AI 领军人物，最好还是有一点梦想，愿意努力的，跳一步往前走一走，有可能你就会走到一些不一样的地方。

好，这一期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群。

也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。