AI教母李飞飞万字长文戳破LLM泡沫:生成语言只是起点,无法理解真实世界才是致命伤|空间智能 Fei-Fei Li 世界模型 人工智能 AI的下一个前沿

AI教母李飞飞万字长文戳破LLM泡沫:生成语言只是起点,无法理解真实世界才是致命伤|空间智能 Fei-Fei Li 世界模型 人工智能 AI的下一个前沿已关闭评论

李飞飞的万字长文,讲述空间智能的未来

大家好,欢迎收听老范讲故事的YouTube频道。

李飞飞呢,最近发了一篇文章,指出AI的下一个方向。AI的下一个发展方向就是空间智能。这个文章呢是11月11日发表的,非常非常长,上万字。标题呢是《从词语到世界:空间智能是AI的下一个前沿》。教授的长文,读起来还是稍微有一点点吃力,我还是认真地把整个文章读完了。教授呢,未必能够准确预测未来,那是算命先生的工作。但是,教授对未来的预测,还是值得认真研读一下的,特别是这位教授,还是当前AI浪潮的开拓者之一。

文章的结构之美:值得学习的写作范本

第一个特点就是非常的工整。她的文章结构,大家需要去学习一下。哪怕你说我看不懂这文章说什么,还是应该学习一下人家文章怎么写的。上来第一件事是提出问题:现在有些什么样的问题?然后呢,是核心概念的一些解释,对吧?啥叫空间智能?再往后呢,是方法论的一个架构:我准备怎么干?然后呢,是技术实施的一些细节和方法。最后呢,是应用的路径:我这个实施了以后能干嘛使?它是这样的一个完整架构。

每一个大标题下面呢,会有3到5个小标题,每个小标题下面,均匀地分布着描述和说明。它不会像有些人写文章,在某一个小标题下写非常长的内容,其它的显得干巴巴的,不会是这样的,很均匀。学习一下教授的写作方法,还是非常非常有价值的。

李飞飞文章的核心内容解读

第一部分:提出问题——大语言模型的局限性

咱们说一下这个文章到底说什么了吧。首先呢,是提出问题。大语言模型呢,它只能生成语言,而语言呢,并不能代表世界。语言模型有很多的局限性,已经体现出来了。最大的局限性就是各种“对不齐”。

  • 与空间和物理规则“对不齐”:我们希望这个空间,应该有一些什么样的特性,结果发现语言模型生成出来的结果跟这个对不上。或者说,我们希望有一些物理的规则,它应该去遵守,但是大语言模型生成的结果,它不去遵守。例如,儿子比老子大了,或者生成的图片和视频里,人物的手指头数量搞不定。甚至让它画一个带指针的时钟,比如“3:20”,它也画不对。
  • 一致性无法控制:现在大语言模型所体现出来的问题,就是前后矛盾。比如以图像和视频模型为例,一个人在这站着,一扭过脸去,发现怎么不是这个人了?或者画面不停地闪烁,一会儿看着像,一会儿看着不像。这些都是因为没有空间智能所遇到的各种问题。

第二部分:核心概念——什么是空间智能?

很多人可能意识到,空间智能是一个3D空间的事情,但其实呢,空间智能要比这个复杂得多。它除了3D空间之外,还有很多物理特性在里头:这是钢的,那是铁的,这个是木头的,那个是水或者是空气,它都在空间里边。

而且空间智能其实是4D空间,四维空间,还有时间在里头。就是我在里边做了一个动作,在这个动作后面会变成什么样,实际上这是有时序的,而不是一个静态的3D空间。所谓的空间智能,是三维空间、物理,以及动作、交互和时间相结合在一起的“世界模型”。她要给空间智能下这样一个定义。

第三部分:方法论架构——世界模型的三个能力

问题很复杂嘛,我们不能说上来就一榔头开始干活了,首先要提出一个方法论架构来。她认为,世界模型呢,应该有三个能力。

  • 生成能力:它依然是一个生成模型,但生成出来的东西,应该能够确保空间、物理和时序的一致性,这是跟传统大语言生成模型的差异。
  • 多模态能力:多模态呢,是图像、视频、深度、文字、手势、动作都要结合在一起,甚至可能还有触觉这些东西,都要在里边。
  • 交互动作条件下的状态预测:就是我做了这个动作了以后,会变成什么样?空间智能的模型,是能够对下一个状态进行预测的,甚至呢,对下一步的动作进行预测。

第四部分:技术实施——如何实现空间智能?

那怎么实现呢?首先,世界模型要能够显示或隐式地展示3D几何与物理的一致性,而且世界状态必须是可被读写和对齐的。

实现这一目标,离不开数据和训练。具体方法包括:

  • 数据来源:利用大量的互联网图片、视频等真实世界数据,并通过计算机进行深度信息标注。同时,也会使用游戏、3D模型等合成世界的数据来进行训练。
  • 训练过程:训练过程会要求“生成与理解”循环互补。即生成数据后,模型自身再去理解和验证。
  • 推理和控制:模型的核心是推理“状态 -> 动作 -> 新状态”的演变过程。李飞飞团队正在探索新的模型方式,例如“实时帧模型”(Real Time Frame Model),它可以像视频一样,直接输出下一帧世界会变成什么样。

第五部分:应用路径——空间智能能做什么?

  • 近期应用:主要用于讲故事、创意和内容生产。她们已经做了一个名为“Marble”的模型,供3D动画和游戏开发者申请试用。
  • 中期应用:用于机器人和具身智能,让机器人能够真正地理解世界,而不仅仅是依赖语言模型。
  • 远期应用:进行科学研究,例如在材料学、医药学、分子生物学等领域,利用空间智能构建和探索复杂系统,进行模拟实验。

老范的思考与评论

教授创业:理想与现实

李飞飞呢,现在是在创业,她有一个公司叫“世界实验室”(World Labs)。她呢,融资融了2.3亿美金。刚才我们讲了,教授创业未必能够挣到钱。但是呢,她的学生,现在是各个大公司里边的顶梁柱。所以她想去说:“我要一笔钱来去创业的话”,融到钱这件事并不是特别难。

教授创业,通常不太容易有很好的商业回报。教授的学生们,才是真正值得关注的群体。

运维、工程与科研:三个不同维度的创新

运维、工程实施技术和科学研究,实际上是三个完全不同的维度。你说我这给你发个打折券,买几赠几,这个东西呢就是纯运维。那工程技术呢,就是为了实现运维目标,我们在现有已经验证过的这些技术上进行一些实施,这通常教授的学生们会干这些活。而教授呢,会在前头再去研究现在还不确定的那些科学。

方法、专利与论文:创新的层级

大家要注意,方法是不允许申请专利的。而专利呢,一般是一个工程实施上的东西。教授的直属弟子们,她们一般会玩的是什么?是论文。她们会比专利更高一个层级。论文是希望你尽可能多的引用的一个东西。教授真正的得意门生们是去写论文的,而教授要比论文更高一级。但是大家要注意,真正能挣钱的东西是什么?是专利,以及后边这些方法,这是能挣钱的。论文其实很少直接产生收益。

空间智能是唯一方向吗?

讲远了。空间智能到底是不是未来的方向呢?AI的下一个问题肯定是对齐,这个毋庸置疑。但是呢,需要对齐的东西很多。

  • 空间、物理与时间:这就是空间智能需要对齐的东西,肯定是AI需要对齐的一个方向。
  • 人性与法理:这也需要去对齐。
  • 编程:这是最容易对齐的东西,各种约束都非常容易去验证,所以编程现在是整个AI大模型领域里头,对齐对得最好的一个领域。

那么未来的5-10年,实现空间、物理与时间对齐,应该是一个大的目标,这个没有任何问题。但是具体实现的方法,未必像李飞飞当前所设想的这样。她提出的“什么是空间智能”、“为什么要做”以及“要解决什么问题”,这些都是对的。但是后边两块:“具体打算怎么干”,以及“具体做完了以后在哪用”,这一块呢,我们没必要太去听教授的了。

一个历史的例子:Pascal语言 vs. C语言

在这儿呢,跟大家讲一个例子吧,比如说Pascal语言和C语言。Pascal是1968年苏黎世理工大学的教授发明的,主要用于教学。而C语言呢,是1972年贝尔实验室的工程师发明的,后来变得非常普及,Linux、Unix和Windows的早期版本都是用C语言写的。这个工程师呢,应该是硕士研究生,博士论文写了个草稿,但是没有获得学位。这就真的叫英雄不问出处。所以,最后大家去用的东西,未必是教授发明的东西。

李飞飞工作的真正意义

李飞飞的工作呢,还是有巨大的意义的。第一个呢,拉动了社会的关注。她毕竟是AI领域的“教母”,大量的关键岗位都是她的学生。而且呢,李飞飞前面做的最大贡献,是做了一个叫ImageNet的项目。她把大量的图片放进去,让各种的大模型可以用这些图片去进行学习。所以现在呢,李飞飞准备继续做这件事情,继续把大量的数据进行标注,让各种空间智能的模型去进行学习。我们提出标准,你学习到一个什么样的程度,然后怎么去打分,她要把这个事情做出来。所以这件事呢,还是非常非常重要的,就是积累数据和论证各种验证方法。

总结

最后呢,咱们总结一下:

  • 李飞飞作为AI“教母”发表长文,为空间智能站台。
  • 教授的文章格式必须要学习一下,其结构清晰、逻辑严谨。
  • 空间智能确实是未来十年,行业必须要去解决的一个重要问题。

好,这个故事就跟大家讲到这里,感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.