百度为什么不做Sora?探索百度的独特AI发展路径与未来方向,背后原因是吃不到葡萄说葡萄酸吗?
11 月 19
AIGC AI Agent, AIagent, AI创新, AI发展路径, AI商业化, AI商业探索, AI工具, AI市场, AI平台, AI技术, AI方向, AI模型调用, AI生成, AI竞争, AI节目主持, AI落地应用, AI行业, AI行业评论, AI视觉生成, AI革命, AI项目, IRAG, IRAG系统, OpenAI, Scaling law, Sora, Token计费, YouTube频道, 中国AI, 中国式创新, 云计算, 产品发布, 创新保守, 创新挑战, 前沿科技, 发展趋势, 商业逻辑, 图像RAG, 图像技术, 多模态, 大企业应用, 市场策略, 市场需求, 幻觉问题, 快手, 技术发展, 技术定向, 技术路线, 抖音, 搜索增强生成, 政府应用, 文心一言, 文心智能体, 文心研, 无代码工具, 智能体, 智能体平台, 智能技术, 智能生成, 未来展望, 未来技术, 李彦宏, 消除幻觉, 涌现, 爱奇艺, 现有需求, 百度, 百度AI战略, 百度AI技术路径, 百度世界大会, 百度发布会, 百度应用, 百度战略分析, 百度技术展示, 百度智能眼镜, 百度的未来, 百度视频平台, 确定性创新, 科学家质疑, 科技前沿, 科技评论, 秒哒, 老范讲故事, 规模法则, 视觉数据库, 视频模型, 超级APP, 超级智能体 百度为什么不做Sora?探索百度的独特AI发展路径与未来方向,背后原因是吃不到葡萄说葡萄酸吗?已关闭评论
百度为什么不做Sora?是不是吃不到葡萄就说葡萄是酸的呢?大家好,这里是老范讲故事的YouTube频道。
11月12号,百度世界大会上就透露出来说,百度从来就没有想去过做Sora这样的世界模型,或者叫视频模型,从来没想过。百度呢,是一直希望走自己的多模态道路,不希望去跟OpenAI这样的公司卷入世界模型的竞争。虽然到现在为止,Sora也没出来,但是跟在后面跑的人还是很多的,特别是抖音、快手,都推出了各自的视频模型,还有很多国际上的厂商也在视频模型上争先恐后地往前跑。
但百度说,我不干这个事,我有更重要的事情在做。这是百度李彦宏亲口说的。那么,百度努力的方向到底是什么呢?百度努力的方向是消除幻觉。大模型都是有幻觉的,百度呢说,我们作为一个中国公司,你可以不说话,但是说错了是很麻烦的,所以我们不能产生幻觉,保证我们说的都是对的。而且这个是在各种角度上,所有的评判标准来看,都得是对的,不能有任何问题。因为有的时候,你说的你觉得对了,但别人觉得不开心,这也是不行的。
所以百度呢,作为一个有中国特色的AI领军公司,他们向着消除幻觉的方向前进了。他们准备怎么去消除呢?他们这一次在11月12号的百度世界大会上,推出了一个很有趣的东西,叫IRAG。大家要知道,RAG是我们在做AI agent,或者叫AI智能体里头,用得比较多的一个技术,叫搜索增强生成。就是我们先搜索,搜索完了以后,根据搜索的内容再去生成,这样的话,能够保证生成出来的东西没有什么幻觉,是在你给定的范围内去生成的。它倒不一定说保证生成出来的东西是对的,但呢,它保证说你给我的是什么,我生成出来的就是什么。
那么,IRAG是一个什么样的东西呢?这个前面这个I到底是做了一个什么样的单词放进去了呢?I这个词呢,是图像(image),以图像为基准的RAG。什么叫以图像为基准的RAG呢?就是正常情况下,咱们RAG都是做的文本或者是表格。
搜索完了以后,把这些文本和表格通通都做成矢量数据库里面的一个点。然后找到离他比较近的点拿出来,去生成跟问题相关的答案。这是RAG的标准过程。IRAG呢,就是百度说我有好多图片,我把所有这些图片,以及图片识别出来以后的各种信息,直接拿去做嵌入,然后形成史料数据库。在这个里边去搜索,搜索完了以后再去重新生成图片。这意思是什么呢?就是你去训练说这个人叫张三,张三长这个样子,张三坐着,张三站着,张三乐了,张三哭了,张三吃东西了。他把所有这些东西都训练好了,放到一个矢量数据库里边。等你下次要求他去生成图片的时候,说张三穿着什么什么样的衣服,站在哪里,在做一个什么动作,有什么样的表情,有什么样的风格,他就可以从矢量数据库里头把你要的这些信息都找出来。张三长这样,我有了;然后呢,穿什么衣服,我在数量数据库里再去查。查完了以后,哦,衣服长这样我也有了。做什么动作他可以画得很准。他做了这么一个很神奇的技术出来,但是我看到这个介绍以后说:“哎,这玩意好玩哈,我得去试试。”然后我就跑去试了一下。首先我跑到了百度文心一言的网站上,测试一下,发现文心一言3.5版本一如既往的拉胯,依然在那胡说八道,依然在那前言不搭后语,咱就对他没有什么预期了吧。然后闻心欲言4.0依然需要收费,算了不测试了。那么画图吧。画图的过程呢,稍微有些吓人。首先让他画车,你让他画各种型号的车,都非常的准。说我迈巴赫哪个款,在巴黎的凯旋门下,哎呀,那个做的非常的漂亮,一张照片绝对一下乱真。大众这个车呢,除了车牌子上看不太清楚之外,也是非常像的。比较遗憾的是,我要求他画小米苏7,他没画出来,估计是小米苏7他的素材不够多,或者训练这个模型的时候没有用很多的小米苏7的图片,或者说他的IREG的这个矢量库里头没有那么多的小米苏7的图片。每次要求他画小米苏7的时候,他画出来的呢,都是问界M5,这个就没办法了。然后画人吧,要求他画郭德纲。
哎呀,我天呐,简直就是拿照片直接贴上来。你说郭德纲干什么?马上就给你做一个一模一样,绝对以假乱真。但是呢,你要求他画于谦,这个事就没法整了。画出来的也是郭德纲。大家想明白了没有?为什么会这样呢?
说为什么我要求他画于谦,这个IRAG产生的结果是郭德纲呢?因为很简单,你所有在百度图片里头搜索于谦的照片,郭德纲都站旁边了。于谦、郭德纲,郭德纲、于谦,你郭德纲站的照片多一些,那么他就认为说是不是于谦应该也长这样。可是这样的一种运作方式,实际上呢,他向我们展示了用IRAG的这个技术,依然是没有办法避免幻觉的。你要求他画于谦,他画的是郭德纲。
有一张照片,我告诉他说,来,给我画一个郭德纲跟于谦在德云社说相声的照片。画完了以后,就是两个郭德纲,都很像。就是你单独拆出任何一个来,都是以假乱真的。俩郭德纲站在台上说相声了,就变成这样了。要求画其他人,就没有那么像了,比如说郭麒麟、马斯克,这个就不太容易认出来了。其他的我就没有再敢去测试,再测试可能会被警告了。
但是呢,他整个这套的IRAG的系统还是挺吓人的。如果你想让他去给你生成一些广告图片或者是一些假图,就是郭德纲出去做了一些丢人现眼的事情,绝对以假乱真,画的极像,已经是可以达到一定的商业用途了。特别是你,比如说我做一些店铺的装修或者是这种电商的图片生成,这个玩意还是可以的。
除了这个IRAG之外,这一次的百度世界大会上呢,还发布了无代码工具“秒哒”。一秒、两秒的秒,哒呢是一个口一个到达的达。所谓的无代码工具“秒哒”呢,其实类似于字节跳动的codes,对吧?也是让大家把智能体拼起来,然后形成AI agent去干活了。只是呢,秒哒现在呢还不开放使用,依然是让企业去报名排队。据说已经有很多人排队了。这些企业不知道为什么想不开,Codes现在就可以免费使,你干嘛还要去使用秒哒呢?像我这种稍微有点动手能力的人,可以使用Defi。
这个咱们就不说到这么远了。今年,除了前面我们讲的IRAG以及秒哒之外,还发布了什么呢?这个牛肯定还是要吹的嘛。现在吹的牛是什么?就是文心一言大模型,日均调用量15亿。我们已经数涨上来了,去年是5,000万,现在涨了30倍了。这个15亿呢,大家注意,没有单位,15亿次,15亿人,不可能15亿人,中国没有。15一次,这个也稍微有点不太好去评估,怎么算一次呢?那么我们就稍微保守一点评估吧,我们把这个单位写成TOKEN,就是每天可以生成15亿TOKEN。
哎呀,很多人说这个数好大呀,百度文心一言好厉害,这么多人使用它,生成了这么多的内容。但是你要想想,15亿TOKEN按照百度的收费标准,能够挣多少钱呢?百度文心一言4.0 Turbo,按照每千TOKEN的价格乘上15亿的话,一天的收入大概不到10万块钱。那你以为像百度这样的一个公司,这样的一个项目,值得上来去讲吗?如果这就是他的AI未来的话,百度一年挣个3,000万、4,000万这种水平,这个够干嘛的呀?
所以呢,这个数字基本上可以忽略不计,他只是跟大家玩了一个文字游戏,一天15亿,好大好大。你把它乘上钱数,你看看有多少。除了给自己吹牛之外,当然还要指明一下方向,说未来的AI发展是哪个方向呢?两个大方向,一个是智能体,应该也就是刚才我们讲的AI Agent这样的东西;另外一个呢叫产业应用,就是政府有钱或者是大的企业有钱,你们愿意为这个事情买单,你们就是未来方向了。这是李彦宏为AI中国指明的两个方向。
而且呢,保证说百度自己不会去做超级APP,实际上他也没这个本事,所以干脆吃不到葡萄说葡萄是酸的,我不做这个事。然后呢,要去打造上百万个超级APP,也不知道李彦宏怎么想的。超级APP不可能有上百万,到上百万了,以后这东西就不叫超级APP了,你没有那么多用户,叫什么超级APP?但那意思呢,就是降维打击,这个是很多互联网人喜欢讲的一种说法。
你是二维生物,我用三维的方式去干掉你;你是三维生物,我用四维的方式去干掉你。这是《三体》里边的一个词。这个所谓的降维打击是什么呢?就是你们都去卷超级APP去了,我要当你爹。在百度下边做的应用都是超级APP,我比你高一个层次。
当然了,也展示了一些智能体,包括百度自己的文心智能体平台。这个上面呢,号称有15万家企业使用,有80万开发者,但是也没有看到砸出什么响动来。如果产生了超级APP的话,广大的民众应该是能够有感知的。咱们现在没有感知,别说上百万个了,一个都没看到。然后也展示了一些超级智能体,什么法律问答呀,基本上也就是说我们通过百度的文心研做的一些AI Agent,怎么能够解决一点点的实际问题,这个也给大家展示了一下。
另外,时髦还是要赶的,赶什么时髦呢?百度智能眼镜,扎克伯格干成了,我们也得干去。这就是这一次的百度世界大会上发的东西。那咱们回过来说,百度为什么自己不做Sora呢?其实这个里头最本质的原因只有一个,就是百度自己是没有视频平台的。虽然百度有视频,百度有爱奇艺什么这些东西,但是百度自己没有像抖音、快手这样的平台。你像国内现在即梦跟可灵,卷的那叫死,天天俩人卷来卷去的。即梦后边是字节跳动是抖音,可灵后边是快手。生成完了视频,就放在我们的抖音、快手平台上,大家就可以宣传了,就可以直接用上了。百度自己没这东西,所以说那我就不跟你费这劲了。
而百度跟Sora呢,实际上是两条完全不同的路径。Sora是什么路径?Sora的路径是scaling low,大力出奇迹。中间很多东西我们也不去研究了,我们就把料堆齐了,数据堆齐了,算法堆齐了,再加上足够的算力,烧钱等待它涌现。原来的这些传统的方式,我们就不去考虑了,think differently。我们不用再去想说要不要更快的马车,我们直接去造飞机去了,还不是汽车。这就是Sora干的事情,是一帮有理想的人去做的事情。
而且呢,未必有结果。其实到现在为止,Sora都没有任何要做出来的迹象。而百度他们做的事是什么呢?是在现有的技术范畴下,满足现有的需求。这个呢,就属于典型的中国式创新了。要求的是什么?确定性高。我们要卷吗?卷的一定要确定性很高。哪方面要确定呢?第一,技术路线要确定。一帮老学究们,他们来去确定技术路线,不能让年轻人上。年轻人,你们没有经验,万一走错了路怎么办呢?这个你们不要去动。第二个呢,成本要确定。我投入多少钱以后,可以得到一个什么样的结果。成本确定了以后呢,收益也要确定。我做出来的东西得有人用,我得卖得掉,这个事才能去干。就比较现实。这个就是百度走的这条路。百度呢,要求是有市场能赚钱,所以呢,百度算是比传统的中国式创新更加保守一点的一个公司。
那么现在有很多人去讲说,scaling low现在到底行不行?美国有很多大学、很多机构,甚至一些著名的科学家都出来讲,scaling low是不是玩不转了,这种规模法则是不是有问题了?再往前堆,是不是堆不出东西来了?这件事呢,只能这么说,从scaling low诞生的第一天开始,质疑就从来没有停止过。为什么呢?因为scaling low指望的那个东西,就是scaling low成功的最终结果叫涌现。这个词什么意思?就是你不确定他来不来,你不确定哪次行哪次不行,你也不确定说我到底是增加多少。以后有这么一次,因为涌现这个东西,它一定是不连续的。不是说我上了10块显卡,出了一个东西;上了11块显卡,又出了一个东西;上了12块显卡,又出了一个东西。这个是不连续的。你有可能10块显卡,你最后算出来一个数据可以用,然后呢,11、12、13都没用。结果你发现上到第100块显卡的时候,又跑出一个结果来,又有一个跳跃式的创新,又往前走了一步。那你说咱堆吧,堆到1,000块显卡,咱再做一次,发现哎,好像有那么点提升,但是又不是那么明显。哎呀,这个好像不对。
但这个事情是不是就不行了?不一定,因为在下一个节点在哪,谁也不知道。这个才叫涌现呢。如果你知道下一个节点在什么地方,比如说有这么多数据堆在一起以后得到结果,那下一个节点,比如说我们说是乘10倍、乘20倍、乘30倍或者是1,000倍,这都不知道。这个才叫真正的 scaling law。就是我们就只管往前堆,未来是不可预期的,不确定的不连续的。
这个东西从开始的那天大家就质疑它。这个过程呢,其实很像什么?就是咱们小时候都看过一个故事,叫小马过河。什么意思呢?这个小马背着一包货准备过河,人家就跟他讲说你这个过不去的,这个河很深,会淹死你的。这个不同的人就都跟他讲不同的话。就是每一个老的科学家或者是一些进行成本核算的会计师们,看到 scaling law 就会跟他讲:“小马过河,你是过不去的,你这个事有问题的。”那这个怎么办呢?必须要往前蹚,蹚完了以后去寻找下一个的节点,这个是没有什么办法的。
百度这么想到底对不对?百度说我不去作死 Sora,我要去做 IRAG,我要去消除幻觉,做有中国特色的创新,这事对不对呢?其实百度这么想并不丢人,作为一家成熟的商业企业,这样思考算是一个正常的商业逻辑。但是呢,如果按照百度自取的那样,他是中国 AI 行业的领军企业,这么想问题的话,就有点可悲了。
但好在是什么?就是中国做 AI 这一块,反正至少我测试的各种产品里头,我觉得百度基本上还是排不上号的。百度自称是中国 AI 行业的领军企业,这个事呢,让百度自己开心就好了,关起门来称大王就可以了,让我们每天看着百度是怎么思考问题的。我觉得他思考问题的很多的方式还是有借鉴意义和价值的。但是呢,作为一个国家的这种 AI 领军人物,最好还是有一点梦想,愿意努力的,跳一步往前走一走,有可能你就会走到一些不一样的地方。
好,这一期就跟大家讲到这里,感谢大家收听,请帮忙点赞,点小铃铛,参加 Discord 讨论群。
也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。