AI教母李飞飞万字长文戳破LLM泡沫:生成语言只是起点,无法理解真实世界才是致命伤|空间智能 Fei-Fei Li 世界模型 人工智能 AI的下一个前沿
11 月 13
AIGC 4D空间智能, AI发展方向, AI教母, AI的下一个前沿, Fei-Fei Li, LLM局限性, World Labs, 世界模型, 交互式AI, 人工智能, 具身智能, 内容创作, 大型语言模型, 推理, 时序一致性, 机器人技术, 李飞飞, 物理世界, 物理感知, 状态预测, 生成式AI, 科学发现, 科技评论, 空间智能, 视频生成, 计算机视觉 AI教母李飞飞万字长文戳破LLM泡沫:生成语言只是起点,无法理解真实世界才是致命伤|空间智能 Fei-Fei Li 世界模型 人工智能 AI的下一个前沿已关闭评论
李飞飞的万字长文,讲述空间智能的未来
大家好,欢迎收听老范讲故事的YouTube频道。
李飞飞呢,最近发了一篇文章,指出AI的下一个方向。AI的下一个发展方向就是空间智能。这个文章呢是11月11日发表的,非常非常长,上万字。标题呢是《从词语到世界:空间智能是AI的下一个前沿》。教授的长文,读起来还是稍微有一点点吃力,我还是认真地把整个文章读完了。教授呢,未必能够准确预测未来,那是算命先生的工作。但是,教授对未来的预测,还是值得认真研读一下的,特别是这位教授,还是当前AI浪潮的开拓者之一。
文章的结构之美:值得学习的写作范本
第一个特点就是非常的工整。她的文章结构,大家需要去学习一下。哪怕你说我看不懂这文章说什么,还是应该学习一下人家文章怎么写的。上来第一件事是提出问题:现在有些什么样的问题?然后呢,是核心概念的一些解释,对吧?啥叫空间智能?再往后呢,是方法论的一个架构:我准备怎么干?然后呢,是技术实施的一些细节和方法。最后呢,是应用的路径:我这个实施了以后能干嘛使?它是这样的一个完整架构。
每一个大标题下面呢,会有3到5个小标题,每个小标题下面,均匀地分布着描述和说明。它不会像有些人写文章,在某一个小标题下写非常长的内容,其它的显得干巴巴的,不会是这样的,很均匀。学习一下教授的写作方法,还是非常非常有价值的。
李飞飞文章的核心内容解读
第一部分:提出问题——大语言模型的局限性
咱们说一下这个文章到底说什么了吧。首先呢,是提出问题。大语言模型呢,它只能生成语言,而语言呢,并不能代表世界。语言模型有很多的局限性,已经体现出来了。最大的局限性就是各种“对不齐”。
- 与空间和物理规则“对不齐”:我们希望这个空间,应该有一些什么样的特性,结果发现语言模型生成出来的结果跟这个对不上。或者说,我们希望有一些物理的规则,它应该去遵守,但是大语言模型生成的结果,它不去遵守。例如,儿子比老子大了,或者生成的图片和视频里,人物的手指头数量搞不定。甚至让它画一个带指针的时钟,比如“3:20”,它也画不对。
- 一致性无法控制:现在大语言模型所体现出来的问题,就是前后矛盾。比如以图像和视频模型为例,一个人在这站着,一扭过脸去,发现怎么不是这个人了?或者画面不停地闪烁,一会儿看着像,一会儿看着不像。这些都是因为没有空间智能所遇到的各种问题。
第二部分:核心概念——什么是空间智能?
很多人可能意识到,空间智能是一个3D空间的事情,但其实呢,空间智能要比这个复杂得多。它除了3D空间之外,还有很多物理特性在里头:这是钢的,那是铁的,这个是木头的,那个是水或者是空气,它都在空间里边。
而且空间智能其实是4D空间,四维空间,还有时间在里头。就是我在里边做了一个动作,在这个动作后面会变成什么样,实际上这是有时序的,而不是一个静态的3D空间。所谓的空间智能,是三维空间、物理,以及动作、交互和时间相结合在一起的“世界模型”。她要给空间智能下这样一个定义。
第三部分:方法论架构——世界模型的三个能力
问题很复杂嘛,我们不能说上来就一榔头开始干活了,首先要提出一个方法论架构来。她认为,世界模型呢,应该有三个能力。
- 生成能力:它依然是一个生成模型,但生成出来的东西,应该能够确保空间、物理和时序的一致性,这是跟传统大语言生成模型的差异。
- 多模态能力:多模态呢,是图像、视频、深度、文字、手势、动作都要结合在一起,甚至可能还有触觉这些东西,都要在里边。
- 交互动作条件下的状态预测:就是我做了这个动作了以后,会变成什么样?空间智能的模型,是能够对下一个状态进行预测的,甚至呢,对下一步的动作进行预测。
第四部分:技术实施——如何实现空间智能?
那怎么实现呢?首先,世界模型要能够显示或隐式地展示3D几何与物理的一致性,而且世界状态必须是可被读写和对齐的。
实现这一目标,离不开数据和训练。具体方法包括:
- 数据来源:利用大量的互联网图片、视频等真实世界数据,并通过计算机进行深度信息标注。同时,也会使用游戏、3D模型等合成世界的数据来进行训练。
- 训练过程:训练过程会要求“生成与理解”循环互补。即生成数据后,模型自身再去理解和验证。
- 推理和控制:模型的核心是推理“状态 -> 动作 -> 新状态”的演变过程。李飞飞团队正在探索新的模型方式,例如“实时帧模型”(Real Time Frame Model),它可以像视频一样,直接输出下一帧世界会变成什么样。
第五部分:应用路径——空间智能能做什么?
- 近期应用:主要用于讲故事、创意和内容生产。她们已经做了一个名为“Marble”的模型,供3D动画和游戏开发者申请试用。
- 中期应用:用于机器人和具身智能,让机器人能够真正地理解世界,而不仅仅是依赖语言模型。
- 远期应用:进行科学研究,例如在材料学、医药学、分子生物学等领域,利用空间智能构建和探索复杂系统,进行模拟实验。
老范的思考与评论
教授创业:理想与现实
李飞飞呢,现在是在创业,她有一个公司叫“世界实验室”(World Labs)。她呢,融资融了2.3亿美金。刚才我们讲了,教授创业未必能够挣到钱。但是呢,她的学生,现在是各个大公司里边的顶梁柱。所以她想去说:“我要一笔钱来去创业的话”,融到钱这件事并不是特别难。
教授创业,通常不太容易有很好的商业回报。教授的学生们,才是真正值得关注的群体。
运维、工程与科研:三个不同维度的创新
运维、工程实施技术和科学研究,实际上是三个完全不同的维度。你说我这给你发个打折券,买几赠几,这个东西呢就是纯运维。那工程技术呢,就是为了实现运维目标,我们在现有已经验证过的这些技术上进行一些实施,这通常教授的学生们会干这些活。而教授呢,会在前头再去研究现在还不确定的那些科学。
方法、专利与论文:创新的层级
大家要注意,方法是不允许申请专利的。而专利呢,一般是一个工程实施上的东西。教授的直属弟子们,她们一般会玩的是什么?是论文。她们会比专利更高一个层级。论文是希望你尽可能多的引用的一个东西。教授真正的得意门生们是去写论文的,而教授要比论文更高一级。但是大家要注意,真正能挣钱的东西是什么?是专利,以及后边这些方法,这是能挣钱的。论文其实很少直接产生收益。
空间智能是唯一方向吗?
讲远了。空间智能到底是不是未来的方向呢?AI的下一个问题肯定是对齐,这个毋庸置疑。但是呢,需要对齐的东西很多。
- 空间、物理与时间:这就是空间智能需要对齐的东西,肯定是AI需要对齐的一个方向。
- 人性与法理:这也需要去对齐。
- 编程:这是最容易对齐的东西,各种约束都非常容易去验证,所以编程现在是整个AI大模型领域里头,对齐对得最好的一个领域。
那么未来的5-10年,实现空间、物理与时间对齐,应该是一个大的目标,这个没有任何问题。但是具体实现的方法,未必像李飞飞当前所设想的这样。她提出的“什么是空间智能”、“为什么要做”以及“要解决什么问题”,这些都是对的。但是后边两块:“具体打算怎么干”,以及“具体做完了以后在哪用”,这一块呢,我们没必要太去听教授的了。
一个历史的例子:Pascal语言 vs. C语言
在这儿呢,跟大家讲一个例子吧,比如说Pascal语言和C语言。Pascal是1968年苏黎世理工大学的教授发明的,主要用于教学。而C语言呢,是1972年贝尔实验室的工程师发明的,后来变得非常普及,Linux、Unix和Windows的早期版本都是用C语言写的。这个工程师呢,应该是硕士研究生,博士论文写了个草稿,但是没有获得学位。这就真的叫英雄不问出处。所以,最后大家去用的东西,未必是教授发明的东西。
李飞飞工作的真正意义
李飞飞的工作呢,还是有巨大的意义的。第一个呢,拉动了社会的关注。她毕竟是AI领域的“教母”,大量的关键岗位都是她的学生。而且呢,李飞飞前面做的最大贡献,是做了一个叫ImageNet的项目。她把大量的图片放进去,让各种的大模型可以用这些图片去进行学习。所以现在呢,李飞飞准备继续做这件事情,继续把大量的数据进行标注,让各种空间智能的模型去进行学习。我们提出标准,你学习到一个什么样的程度,然后怎么去打分,她要把这个事情做出来。所以这件事呢,还是非常非常重要的,就是积累数据和论证各种验证方法。
总结
最后呢,咱们总结一下:
- 李飞飞作为AI“教母”发表长文,为空间智能站台。
- 教授的文章格式必须要学习一下,其结构清晰、逻辑严谨。
- 空间智能确实是未来十年,行业必须要去解决的一个重要问题。
好,这个故事就跟大家讲到这里,感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
RSS