李飞飞的万字长文，讲述空间智能的未来

大家好，欢迎收听老范讲故事的YouTube频道。

李飞飞呢，最近发了一篇文章，指出AI的下一个方向。AI的下一个发展方向就是空间智能。这个文章呢是11月11日发表的，非常非常长，上万字。标题呢是《从词语到世界：空间智能是AI的下一个前沿》。教授的长文，读起来还是稍微有一点点吃力，我还是认真地把整个文章读完了。教授呢，未必能够准确预测未来，那是算命先生的工作。但是，教授对未来的预测，还是值得认真研读一下的，特别是这位教授，还是当前AI浪潮的开拓者之一。

文章的结构之美：值得学习的写作范本

第一个特点就是非常的工整。她的文章结构，大家需要去学习一下。哪怕你说我看不懂这文章说什么，还是应该学习一下人家文章怎么写的。上来第一件事是提出问题：现在有些什么样的问题？然后呢，是核心概念的一些解释，对吧？啥叫空间智能？再往后呢，是方法论的一个架构：我准备怎么干？然后呢，是技术实施的一些细节和方法。最后呢，是应用的路径：我这个实施了以后能干嘛使？它是这样的一个完整架构。

每一个大标题下面呢，会有3到5个小标题，每个小标题下面，均匀地分布着描述和说明。它不会像有些人写文章，在某一个小标题下写非常长的内容，其它的显得干巴巴的，不会是这样的，很均匀。学习一下教授的写作方法，还是非常非常有价值的。

李飞飞文章的核心内容解读

第一部分：提出问题——大语言模型的局限性

咱们说一下这个文章到底说什么了吧。首先呢，是提出问题。大语言模型呢，它只能生成语言，而语言呢，并不能代表世界。语言模型有很多的局限性，已经体现出来了。最大的局限性就是各种“对不齐”。

与空间和物理规则“对不齐”：我们希望这个空间，应该有一些什么样的特性，结果发现语言模型生成出来的结果跟这个对不上。或者说，我们希望有一些物理的规则，它应该去遵守，但是大语言模型生成的结果，它不去遵守。例如，儿子比老子大了，或者生成的图片和视频里，人物的手指头数量搞不定。甚至让它画一个带指针的时钟，比如“3:20”，它也画不对。
一致性无法控制：现在大语言模型所体现出来的问题，就是前后矛盾。比如以图像和视频模型为例，一个人在这站着，一扭过脸去，发现怎么不是这个人了？或者画面不停地闪烁，一会儿看着像，一会儿看着不像。这些都是因为没有空间智能所遇到的各种问题。

第二部分：核心概念——什么是空间智能？

很多人可能意识到，空间智能是一个3D空间的事情，但其实呢，空间智能要比这个复杂得多。它除了3D空间之外，还有很多物理特性在里头：这是钢的，那是铁的，这个是木头的，那个是水或者是空气，它都在空间里边。

而且空间智能其实是4D空间，四维空间，还有时间在里头。就是我在里边做了一个动作，在这个动作后面会变成什么样，实际上这是有时序的，而不是一个静态的3D空间。所谓的空间智能，是三维空间、物理，以及动作、交互和时间相结合在一起的“世界模型”。她要给空间智能下这样一个定义。

第三部分：方法论架构——世界模型的三个能力

问题很复杂嘛，我们不能说上来就一榔头开始干活了，首先要提出一个方法论架构来。她认为，世界模型呢，应该有三个能力。

生成能力：它依然是一个生成模型，但生成出来的东西，应该能够确保空间、物理和时序的一致性，这是跟传统大语言生成模型的差异。
多模态能力：多模态呢，是图像、视频、深度、文字、手势、动作都要结合在一起，甚至可能还有触觉这些东西，都要在里边。
交互动作条件下的状态预测：就是我做了这个动作了以后，会变成什么样？空间智能的模型，是能够对下一个状态进行预测的，甚至呢，对下一步的动作进行预测。

第四部分：技术实施——如何实现空间智能？

那怎么实现呢？首先，世界模型要能够显示或隐式地展示3D几何与物理的一致性，而且世界状态必须是可被读写和对齐的。

实现这一目标，离不开数据和训练。具体方法包括：

数据来源：利用大量的互联网图片、视频等真实世界数据，并通过计算机进行深度信息标注。同时，也会使用游戏、3D模型等合成世界的数据来进行训练。
训练过程：训练过程会要求“生成与理解”循环互补。即生成数据后，模型自身再去理解和验证。
推理和控制：模型的核心是推理“状态 -> 动作 -> 新状态”的演变过程。李飞飞团队正在探索新的模型方式，例如“实时帧模型”（Real Time Frame Model），它可以像视频一样，直接输出下一帧世界会变成什么样。

第五部分：应用路径——空间智能能做什么？

近期应用：主要用于讲故事、创意和内容生产。她们已经做了一个名为“Marble”的模型，供3D动画和游戏开发者申请试用。
中期应用：用于机器人和具身智能，让机器人能够真正地理解世界，而不仅仅是依赖语言模型。
远期应用：进行科学研究，例如在材料学、医药学、分子生物学等领域，利用空间智能构建和探索复杂系统，进行模拟实验。

老范的思考与评论

教授创业：理想与现实

李飞飞呢，现在是在创业，她有一个公司叫“世界实验室”（World Labs）。她呢，融资融了2.3亿美金。刚才我们讲了，教授创业未必能够挣到钱。但是呢，她的学生，现在是各个大公司里边的顶梁柱。所以她想去说：“我要一笔钱来去创业的话”，融到钱这件事并不是特别难。

教授创业，通常不太容易有很好的商业回报。教授的学生们，才是真正值得关注的群体。

运维、工程与科研：三个不同维度的创新

运维、工程实施技术和科学研究，实际上是三个完全不同的维度。你说我这给你发个打折券，买几赠几，这个东西呢就是纯运维。那工程技术呢，就是为了实现运维目标，我们在现有已经验证过的这些技术上进行一些实施，这通常教授的学生们会干这些活。而教授呢，会在前头再去研究现在还不确定的那些科学。

方法、专利与论文：创新的层级

大家要注意，方法是不允许申请专利的。而专利呢，一般是一个工程实施上的东西。教授的直属弟子们，她们一般会玩的是什么？是论文。她们会比专利更高一个层级。论文是希望你尽可能多的引用的一个东西。教授真正的得意门生们是去写论文的，而教授要比论文更高一级。但是大家要注意，真正能挣钱的东西是什么？是专利，以及后边这些方法，这是能挣钱的。论文其实很少直接产生收益。

空间智能是唯一方向吗？

讲远了。空间智能到底是不是未来的方向呢？AI的下一个问题肯定是对齐，这个毋庸置疑。但是呢，需要对齐的东西很多。

空间、物理与时间：这就是空间智能需要对齐的东西，肯定是AI需要对齐的一个方向。
人性与法理：这也需要去对齐。
编程：这是最容易对齐的东西，各种约束都非常容易去验证，所以编程现在是整个AI大模型领域里头，对齐对得最好的一个领域。

那么未来的5-10年，实现空间、物理与时间对齐，应该是一个大的目标，这个没有任何问题。但是具体实现的方法，未必像李飞飞当前所设想的这样。她提出的“什么是空间智能”、“为什么要做”以及“要解决什么问题”，这些都是对的。但是后边两块：“具体打算怎么干”，以及“具体做完了以后在哪用”，这一块呢，我们没必要太去听教授的了。

一个历史的例子：Pascal语言 vs. C语言

在这儿呢，跟大家讲一个例子吧，比如说Pascal语言和C语言。Pascal是1968年苏黎世理工大学的教授发明的，主要用于教学。而C语言呢，是1972年贝尔实验室的工程师发明的，后来变得非常普及，Linux、Unix和Windows的早期版本都是用C语言写的。这个工程师呢，应该是硕士研究生，博士论文写了个草稿，但是没有获得学位。这就真的叫英雄不问出处。所以，最后大家去用的东西，未必是教授发明的东西。

李飞飞工作的真正意义

李飞飞的工作呢，还是有巨大的意义的。第一个呢，拉动了社会的关注。她毕竟是AI领域的“教母”，大量的关键岗位都是她的学生。而且呢，李飞飞前面做的最大贡献，是做了一个叫ImageNet的项目。她把大量的图片放进去，让各种的大模型可以用这些图片去进行学习。所以现在呢，李飞飞准备继续做这件事情，继续把大量的数据进行标注，让各种空间智能的模型去进行学习。我们提出标准，你学习到一个什么样的程度，然后怎么去打分，她要把这个事情做出来。所以这件事呢，还是非常非常重要的，就是积累数据和论证各种验证方法。

总结

最后呢，咱们总结一下：

李飞飞作为AI“教母”发表长文，为空间智能站台。
教授的文章格式必须要学习一下，其结构清晰、逻辑严谨。
空间智能确实是未来十年，行业必须要去解决的一个重要问题。

好，这个故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。