百度为什么不做Sora?是不是吃不到葡萄就说葡萄是酸的呢?大家好,这里是老范讲故事的YouTube频道。
11月12号,百度世界大会上就透露出来说,百度从来就没有想去过做Sora这样的世界模型,或者叫视频模型,从来没想过。百度呢,是一直希望走自己的多模态道路,不希望去跟OpenAI这样的公司卷入世界模型的竞争。虽然到现在为止,Sora也没出来,但是跟在后面跑的人还是很多的,特别是抖音、快手,都推出了各自的视频模型,还有很多国际上的厂商也在视频模型上争先恐后地往前跑。
但百度说,我不干这个事,我有更重要的事情在做。这是百度李彦宏亲口说的。那么,百度努力的方向到底是什么呢?百度努力的方向是消除幻觉。大模型都是有幻觉的,百度呢说,我们作为一个中国公司,你可以不说话,但是说错了是很麻烦的,所以我们不能产生幻觉,保证我们说的都是对的。而且这个是在各种角度上,所有的评判标准来看,都得是对的,不能有任何问题。因为有的时候,你说的你觉得对了,但别人觉得不开心,这也是不行的。
所以百度呢,作为一个有中国特色的AI领军公司,他们向着消除幻觉的方向前进了。他们准备怎么去消除呢?他们这一次在11月12号的百度世界大会上,推出了一个很有趣的东西,叫IRAG。大家要知道,RAG是我们在做AI agent,或者叫AI智能体里头,用得比较多的一个技术,叫搜索增强生成。就是我们先搜索,搜索完了以后,根据搜索的内容再去生成,这样的话,能够保证生成出来的东西没有什么幻觉,是在你给定的范围内去生成的。它倒不一定说保证生成出来的东西是对的,但呢,它保证说你给我的是什么,我生成出来的就是什么。
那么,IRAG是一个什么样的东西呢?这个前面这个I到底是做了一个什么样的单词放进去了呢?I这个词呢,是图像(image),以图像为基准的RAG。什么叫以图像为基准的RAG呢?就是正常情况下,咱们RAG都是做的文本或者是表格。
搜索完了以后,把这些文本和表格通通都做成矢量数据库里面的一个点。然后找到离他比较近的点拿出来,去生成跟问题相关的答案。这是RAG的标准过程。IRAG呢,就是百度说我有好多图片,我把所有这些图片,以及图片识别出来以后的各种信息,直接拿去做嵌入,然后形成史料数据库。在这个里边去搜索,搜索完了以后再去重新生成图片。这意思是什么呢?就是你去训练说这个人叫张三,张三长这个样子,张三坐着,张三站着,张三乐了,张三哭了,张三吃东西了。他把所有这些东西都训练好了,放到一个矢量数据库里边。等你下次要求他去生成图片的时候,说张三穿着什么什么样的衣服,站在哪里,在做一个什么动作,有什么样的表情,有什么样的风格,他就可以从矢量数据库里头把你要的这些信息都找出来。张三长这样,我有了;然后呢,穿什么衣服,我在数量数据库里再去查。查完了以后,哦,衣服长这样我也有了。做什么动作他可以画得很准。他做了这么一个很神奇的技术出来,但是我看到这个介绍以后说:“哎,这玩意好玩哈,我得去试试。”然后我就跑去试了一下。首先我跑到了百度文心一言的网站上,测试一下,发现文心一言3.5版本一如既往的拉胯,依然在那胡说八道,依然在那前言不搭后语,咱就对他没有什么预期了吧。然后闻心欲言4.0依然需要收费,算了不测试了。那么画图吧。画图的过程呢,稍微有些吓人。首先让他画车,你让他画各种型号的车,都非常的准。说我迈巴赫哪个款,在巴黎的凯旋门下,哎呀,那个做的非常的漂亮,一张照片绝对一下乱真。大众这个车呢,除了车牌子上看不太清楚之外,也是非常像的。比较遗憾的是,我要求他画小米苏7,他没画出来,估计是小米苏7他的素材不够多,或者训练这个模型的时候没有用很多的小米苏7的图片,或者说他的IREG的这个矢量库里头没有那么多的小米苏7的图片。每次要求他画小米苏7的时候,他画出来的呢,都是问界M5,这个就没办法了。然后画人吧,要求他画郭德纲。
哎呀,我天呐,简直就是拿照片直接贴上来。你说郭德纲干什么?马上就给你做一个一模一样,绝对以假乱真。但是呢,你要求他画于谦,这个事就没法整了。画出来的也是郭德纲。大家想明白了没有?为什么会这样呢?
说为什么我要求他画于谦,这个IRAG产生的结果是郭德纲呢?因为很简单,你所有在百度图片里头搜索于谦的照片,郭德纲都站旁边了。于谦、郭德纲,郭德纲、于谦,你郭德纲站的照片多一些,那么他就认为说是不是于谦应该也长这样。可是这样的一种运作方式,实际上呢,他向我们展示了用IRAG的这个技术,依然是没有办法避免幻觉的。你要求他画于谦,他画的是郭德纲。
有一张照片,我告诉他说,来,给我画一个郭德纲跟于谦在德云社说相声的照片。画完了以后,就是两个郭德纲,都很像。就是你单独拆出任何一个来,都是以假乱真的。俩郭德纲站在台上说相声了,就变成这样了。要求画其他人,就没有那么像了,比如说郭麒麟、马斯克,这个就不太容易认出来了。其他的我就没有再敢去测试,再测试可能会被警告了。
但是呢,他整个这套的IRAG的系统还是挺吓人的。如果你想让他去给你生成一些广告图片或者是一些假图,就是郭德纲出去做了一些丢人现眼的事情,绝对以假乱真,画的极像,已经是可以达到一定的商业用途了。特别是你,比如说我做一些店铺的装修或者是这种电商的图片生成,这个玩意还是可以的。
除了这个IRAG之外,这一次的百度世界大会上呢,还发布了无代码工具“秒哒”。一秒、两秒的秒,哒呢是一个口一个到达的达。所谓的无代码工具“秒哒”呢,其实类似于字节跳动的codes,对吧?也是让大家把智能体拼起来,然后形成AI agent去干活了。只是呢,秒哒现在呢还不开放使用,依然是让企业去报名排队。据说已经有很多人排队了。这些企业不知道为什么想不开,Codes现在就可以免费使,你干嘛还要去使用秒哒呢?像我这种稍微有点动手能力的人,可以使用Defi。
这个咱们就不说到这么远了。今年,除了前面我们讲的IRAG以及秒哒之外,还发布了什么呢?这个牛肯定还是要吹的嘛。现在吹的牛是什么?就是文心一言大模型,日均调用量15亿。我们已经数涨上来了,去年是5,000万,现在涨了30倍了。这个15亿呢,大家注意,没有单位,15亿次,15亿人,不可能15亿人,中国没有。15一次,这个也稍微有点不太好去评估,怎么算一次呢?那么我们就稍微保守一点评估吧,我们把这个单位写成TOKEN,就是每天可以生成15亿TOKEN。
哎呀,很多人说这个数好大呀,百度文心一言好厉害,这么多人使用它,生成了这么多的内容。但是你要想想,15亿TOKEN按照百度的收费标准,能够挣多少钱呢?百度文心一言4.0 Turbo,按照每千TOKEN的价格乘上15亿的话,一天的收入大概不到10万块钱。那你以为像百度这样的一个公司,这样的一个项目,值得上来去讲吗?如果这就是他的AI未来的话,百度一年挣个3,000万、4,000万这种水平,这个够干嘛的呀?
所以呢,这个数字基本上可以忽略不计,他只是跟大家玩了一个文字游戏,一天15亿,好大好大。你把它乘上钱数,你看看有多少。除了给自己吹牛之外,当然还要指明一下方向,说未来的AI发展是哪个方向呢?两个大方向,一个是智能体,应该也就是刚才我们讲的AI Agent这样的东西;另外一个呢叫产业应用,就是政府有钱或者是大的企业有钱,你们愿意为这个事情买单,你们就是未来方向了。这是李彦宏为AI中国指明的两个方向。
而且呢,保证说百度自己不会去做超级APP,实际上他也没这个本事,所以干脆吃不到葡萄说葡萄是酸的,我不做这个事。然后呢,要去打造上百万个超级APP,也不知道李彦宏怎么想的。超级APP不可能有上百万,到上百万了,以后这东西就不叫超级APP了,你没有那么多用户,叫什么超级APP?但那意思呢,就是降维打击,这个是很多互联网人喜欢讲的一种说法。
你是二维生物,我用三维的方式去干掉你;你是三维生物,我用四维的方式去干掉你。这是《三体》里边的一个词。这个所谓的降维打击是什么呢?就是你们都去卷超级APP去了,我要当你爹。在百度下边做的应用都是超级APP,我比你高一个层次。
当然了,也展示了一些智能体,包括百度自己的文心智能体平台。这个上面呢,号称有15万家企业使用,有80万开发者,但是也没有看到砸出什么响动来。如果产生了超级APP的话,广大的民众应该是能够有感知的。咱们现在没有感知,别说上百万个了,一个都没看到。然后也展示了一些超级智能体,什么法律问答呀,基本上也就是说我们通过百度的文心研做的一些AI Agent,怎么能够解决一点点的实际问题,这个也给大家展示了一下。
另外,时髦还是要赶的,赶什么时髦呢?百度智能眼镜,扎克伯格干成了,我们也得干去。这就是这一次的百度世界大会上发的东西。那咱们回过来说,百度为什么自己不做Sora呢?其实这个里头最本质的原因只有一个,就是百度自己是没有视频平台的。虽然百度有视频,百度有爱奇艺什么这些东西,但是百度自己没有像抖音、快手这样的平台。你像国内现在即梦跟可灵,卷的那叫死,天天俩人卷来卷去的。即梦后边是字节跳动是抖音,可灵后边是快手。生成完了视频,就放在我们的抖音、快手平台上,大家就可以宣传了,就可以直接用上了。百度自己没这东西,所以说那我就不跟你费这劲了。
而百度跟Sora呢,实际上是两条完全不同的路径。Sora是什么路径?Sora的路径是scaling low,大力出奇迹。中间很多东西我们也不去研究了,我们就把料堆齐了,数据堆齐了,算法堆齐了,再加上足够的算力,烧钱等待它涌现。原来的这些传统的方式,我们就不去考虑了,think differently。我们不用再去想说要不要更快的马车,我们直接去造飞机去了,还不是汽车。这就是Sora干的事情,是一帮有理想的人去做的事情。
而且呢,未必有结果。其实到现在为止,Sora都没有任何要做出来的迹象。而百度他们做的事是什么呢?是在现有的技术范畴下,满足现有的需求。这个呢,就属于典型的中国式创新了。要求的是什么?确定性高。我们要卷吗?卷的一定要确定性很高。哪方面要确定呢?第一,技术路线要确定。一帮老学究们,他们来去确定技术路线,不能让年轻人上。年轻人,你们没有经验,万一走错了路怎么办呢?这个你们不要去动。第二个呢,成本要确定。我投入多少钱以后,可以得到一个什么样的结果。成本确定了以后呢,收益也要确定。我做出来的东西得有人用,我得卖得掉,这个事才能去干。就比较现实。这个就是百度走的这条路。百度呢,要求是有市场能赚钱,所以呢,百度算是比传统的中国式创新更加保守一点的一个公司。
那么现在有很多人去讲说,scaling low现在到底行不行?美国有很多大学、很多机构,甚至一些著名的科学家都出来讲,scaling low是不是玩不转了,这种规模法则是不是有问题了?再往前堆,是不是堆不出东西来了?这件事呢,只能这么说,从scaling low诞生的第一天开始,质疑就从来没有停止过。为什么呢?因为scaling low指望的那个东西,就是scaling low成功的最终结果叫涌现。这个词什么意思?就是你不确定他来不来,你不确定哪次行哪次不行,你也不确定说我到底是增加多少。以后有这么一次,因为涌现这个东西,它一定是不连续的。不是说我上了10块显卡,出了一个东西;上了11块显卡,又出了一个东西;上了12块显卡,又出了一个东西。这个是不连续的。你有可能10块显卡,你最后算出来一个数据可以用,然后呢,11、12、13都没用。结果你发现上到第100块显卡的时候,又跑出一个结果来,又有一个跳跃式的创新,又往前走了一步。那你说咱堆吧,堆到1,000块显卡,咱再做一次,发现哎,好像有那么点提升,但是又不是那么明显。哎呀,这个好像不对。
但这个事情是不是就不行了?不一定,因为在下一个节点在哪,谁也不知道。这个才叫涌现呢。如果你知道下一个节点在什么地方,比如说有这么多数据堆在一起以后得到结果,那下一个节点,比如说我们说是乘10倍、乘20倍、乘30倍或者是1,000倍,这都不知道。这个才叫真正的 scaling law。就是我们就只管往前堆,未来是不可预期的,不确定的不连续的。
这个东西从开始的那天大家就质疑它。这个过程呢,其实很像什么?就是咱们小时候都看过一个故事,叫小马过河。什么意思呢?这个小马背着一包货准备过河,人家就跟他讲说你这个过不去的,这个河很深,会淹死你的。这个不同的人就都跟他讲不同的话。就是每一个老的科学家或者是一些进行成本核算的会计师们,看到 scaling law 就会跟他讲:“小马过河,你是过不去的,你这个事有问题的。”那这个怎么办呢?必须要往前蹚,蹚完了以后去寻找下一个的节点,这个是没有什么办法的。
百度这么想到底对不对?百度说我不去作死 Sora,我要去做 IRAG,我要去消除幻觉,做有中国特色的创新,这事对不对呢?其实百度这么想并不丢人,作为一家成熟的商业企业,这样思考算是一个正常的商业逻辑。但是呢,如果按照百度自取的那样,他是中国 AI 行业的领军企业,这么想问题的话,就有点可悲了。
但好在是什么?就是中国做 AI 这一块,反正至少我测试的各种产品里头,我觉得百度基本上还是排不上号的。百度自称是中国 AI 行业的领军企业,这个事呢,让百度自己开心就好了,关起门来称大王就可以了,让我们每天看着百度是怎么思考问题的。我觉得他思考问题的很多的方式还是有借鉴意义和价值的。但是呢,作为一个国家的这种 AI 领军人物,最好还是有一点梦想,愿意努力的,跳一步往前走一走,有可能你就会走到一些不一样的地方。
好,这一期就跟大家讲到这里,感谢大家收听,请帮忙点赞,点小铃铛,参加 Discord 讨论群。
也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
Both comments and pings are currently closed.