Figure 02 – 老范讲故事｜AI、大模型与商业世界的故事

Figure 02的震撼展示：机器人推理、协作与Helix大模型如何颠覆家庭环境AI。国内能够转手帕，跳舞的机器人，到底还差多远？

Luke Fan — Sun, 23 Feb 2025 00:40:21 +0000

Figure 02双人成行的视频又一次震惊了业界。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲2月21日凌晨，Figure AI放出来的Figure 02以及他们的Helix大模型的视频。在做视频这件事情上，Figure AI从来没有让人失望过。我还记得上一次让大家感到异常震惊的视频，是Figure 01和OpenAI结合在一起的视频。一个Figure 01的机器人站在台子后面，有一个帅哥跟他说：“唉，你去给我把吃的东西找出来。”桌面上一大堆的各种物品，他在里边找吃的东西是一个苹果，找到了给他，然后把这个垃圾倒在桌上，说：“把他们都收起来。”一边把这个各种的任务完成，还一边非常风趣幽默，或者说带有很有人情味的语气语调，跟这个小哥对答如流。当时让大家觉得，原来机器人已经发展到这样的一个程度了。

在上个月，Figure AI突然宣布离开OpenAI，自己单飞。当时他们的CEO就讲了，说：“我们会在30天后，给大家看一些新的东西。”那么今天这个新东西就来了，确实让人很振奋。里面一个帅哥，这个帅哥到底是不是上次Figure 01里头那个呢？我不确定，反正我对于欧美人稍微有点脸盲，没有认出来。他呢，在这一次进行了全新的展示。首先呢，他向两个机器人下指令。大家注意，这一次跟上一次最大区别就是，上一次是一个机器人，这一次是两个机器人。在一个家庭的环境里头，两台Figure 02站在一个应该是厨台后面吧，这边是个冰箱，冰箱前面还有一些烤面包机，什么这样的设备在这儿。然后呢，是一个食物加工和摆放的一个台面，旁边是一个橱柜，大概是这样的一个环境。这位帅哥呢，拿了一袋子食品，这个袋子呢应该是Wholefood的袋子，硅谷的人喜欢吃的，一个比较贵的食品超市的品牌。这个超市后边的老板是亚马逊的贝索斯。我印象里，Figure AI后面的一大股东就是亚马逊，所以肥水不流外人田，还是要用自己家的购物袋。

然后呢，把一堆的食物放在这个餐台上面去，然后下达语音指令说：“我们做一些新的尝试。这是你们第一次见到这些东西，请通过这个Helix模型进行推理，然后通过你们自己认知的分类，齐心协力将这些东西放好。”

大家注意，这个指令里头呢，有一些其实是跟动作没关系的。比如说一些新的尝试，你们是不是第一次见到这些东西，这个其实跟后边具体干的活没关系。为什么要加这种东西进去呢？因为前面苹果说我们认证了，这个大模型是没有推理能力的。因为我们在题目里头加了一些与题目无关的死句，以后它的判定成功率就会下降，所以一定要有这样的语句在里头。

然后呢，要点出说你要使用Helix模型，要进行推理。其实呢，到这里跟这个指令本身都没有关系。真正跟指令有关的是什么？就是你要分类，这些东西要放到不同的地方去，然后呢，要协作。这个是他们真正的指令，最终说是要把东西放好。

那都有些什么样的东西呢？第一个是有盒生鸡蛋，有一袋面条，应该是意大利面之类的东西，但是我具体没有特别看清楚这一袋是什么。还有一袋是需要冷藏的食品吧，透明的袋子，但是实在不太容易看清这个袋子里装的是什么，看着好像是擦丝奶酪，具体的没有办法去分辨了。还有一个新鲜的苹果，一袋饼干，应该是姜饼人饼干，有一袋咖啡，反而方方正正的一个袋子，很深色的包装，猜测里面应该是咖啡，不需要冷藏。然后还有一瓶榛子酱，或者是巧克力酱之类的东西，本来我以为是番茄酱，因为颜色很像，但是这个经过我太太鉴定，说番茄酱一般是挤出来的，他有这么宽的一个瓶口，应该不是番茄酱，所以呢，猜测是榛子酱。

那么几个目的地，第一个是冰箱，第二个呢是橱柜，橱柜上面有一个方形的置物篮，还有一个呢是这个餐台上，有一个装水果的一个大碗，大概是这样四个目的地。等于是要把刚才我们讲的这些东西，分门别类的放到这四个目的地里头去。摆放的位置呢，肯定也是故意设计的嘛，就是一些应该放在冰箱里的东西呢。

是靠在这个餐台里边放的，应该放在橱柜里的东西呢，是靠在冰箱这头放的。因为两个机器人并排站在这个冰箱跟橱柜之间嘛，所以他们必须要协作。那么操作的过程是什么呢？帅哥把东西放好了以后，说：“你们开干吧。”他就走了。后边就是俩机器人在这噼里啪啦在这摆了。两个机器人先往前走了一点点，机器人是可以动的。走了一点点以后呢，就没有再挪动脚步。整个摆放所有东西的这个过程，他们脚下是没动的。首先是打开冰箱门，这个是LG的对开门冰箱，但是应该打开的是冷藏这一侧吧。另外一个机器人呢，是打开了橱柜的门。等于他们两个同时先做了第一步，然后开始将不同的东西放入到不同的目标的存储设置里头去。抓取的时候呢，还是比较注意的，没有把鸡蛋捏碎。有一小盒鸡蛋，据说美国现在鸡蛋很贵，Whole Foods的鸡蛋肯定是更贵的。也没有捏碎饼干。然后在中间呢进行了两次传递。第一次呢，有一袋需要冷藏的食物，由这个靠近橱柜的机器人拿起来，递给另外那个靠近冰箱的机器人了。另外一次呢特别有意思，他是要拿苹果。这个苹果呢被放在冰箱附近。这一次呢并不是说靠近橱柜的机器人伸手过去把这个苹果接过来，而是什么呢？他把这个放苹果的碗推过去，另外一个靠近冰箱的机器人把这个苹果拿起来，放到这个碗里边去。靠近橱柜的机器人再把这个碗拖回到橱柜附近去。这是一个比较有趣的配合。他会知道说你要给我的是苹果，应该把苹果放到碗里去。每一次配合呢，都是一个机器人先开始动作，比如说我现在伸出手来要需要冷藏的那一袋食物，或者是我现在把这个碗递过去，等待另外一个机器人去拿取相应的食物，或者是把这个苹果放进去。整个的配合完成之后，最终呢是把这个冰箱门关掉，把这个橱柜门关掉，算是完成全套动作。中间呢有一些相互对视的这个动作，因为Figure02的机器人头顶上只有一个摄像头，他需要靠扭头来去看一下另外一个机器人在干什么。始终没有说话。

在Figure 01演示的时候，他是不停地在这说话，而且说的还挺有人情味的。在Figure 02这一次演示里头，就没有说话。应该是现在Figure 02的这个机器人里头，是没有语音模型的。它呢可以进行语音识别，但是呢没有语音输出模块。上一次Figure 01演示里头，应该使用的是GPT4O的高级语音功能，因为当时这个机器人的脸部其实是一个屏幕，上来先写的是OpenAI，再是Figure的这个LOGO，然后再去完成所有的演示。

那么这一次的话，整个是不说话的。动作呢并不是很快，而且呢每一个动作之间是有明显的停顿的。那你说这一次整个的演示是不是真的？所有人看到这种机器人演示，第一个问题就是这个是摆拍吗？是真的吗？后边有没有人遥控？首先呢我们要看到，这个视频是通过多镜头、多角度进行拍摄的，并不是只有一个角度进行拍摄。整个的灯光做的都非常非常棒，整个的镜头语言运用的也很好。所以呢他是有很重的这种剪辑痕迹在里边了。但是一些基础应该是不会造假的，因为他要向人展示的就是这些基础东西。如果在这个上面去造假的话，那么这个展示的意义就没有了。

这应该是离开OpenAI之后的第一次展示。在这个里边的话，应该是不会去做加速的，因为很多机器人演示里边会做加速，就是比如说用两倍速或者6倍速给你去播放，你就可以感觉这个动作相对来说比较连贯。现在Figure 02 Helix的这个展示呢，并没有那么连贯，所以应该没有加速，应该也没有遥控器，因为人家展示的是Helix的这个新的模型。如果你在后边上遥控器的话，那就属于纯骗人了，这个是有问题的。应该也不会说明明是都训练好这些动作，让你做的时候告诉你说这是第一次，因为他要展示的就是在复杂环境下，面对一些没有见过的设备，或者面对一些没有见过的食物，进行操作。如果我先给你训练好了，说这个鸡蛋怎么抓，那个东西应该放到冰箱，哪个东西应该放在这个盒子里去。

这个过程的话就有问题了。所以，他真正要展示的东西是不能作假的。但你说有没有存疑的地方，也有。你说到底是一次性就成功了呢，还是说我训练了好多次，才唯一的成功一次呢？这个事呢，其实是不知道的。

刚才你说，不是应该是第一次见到这些东西吗？对，对于计算机来说的话，你只要每一次重新初始化数据就行了，他就是第一次。我可以每一次把这些东西都搁在这，重摆好让他去拍。但是呢，应该是让他多练习几次，只是每次练习开始的时候，重置这个服务器就好了，或者重置机器人里边的尊重器。所以呢，每一次都是新的，这个没毛病。但是有可能是多试了很多次，终于成功了一次，给大家演示一次。下一次是不是还能成功，不好说。

Figure 02的Helix这个模型到底是怎么工作的呢？首先呢，它是两颗低功耗的GPU芯片，里边跑的两个模型。在当时Figure AI宣布离开OpenAI的时候呢，我做过节目，我去讲我说这个机器人里面一定是有多个模型配合工作的。现在看来是证实了我去讲的这个话。这两个低功耗GPU芯片呢，其实就已经可以去进行商用了。为什么？如果你在里头装，比如说高功率的芯片，上这种很大的模型的话，这种东西是没法商用的。你上了大功率的芯片了以后，你这个机器人就必须要拖一根线。你靠电池的话可能跑不起来这玩意儿，或者可能挂上电池以后，10分钟没电了，这个事是不能允许的。所以他现在已经开始把这个低功耗的芯片放到机器人里去了，进行这种商业化或者产品化，向这个方向前进了。

这种低功耗芯片的话，现在大家猜测，有可能是Jetson AGX Orin，英伟达的这个平台。这个平台呢，就是年初拉斯维加斯做CES时候，黄教主展示的机器人开发板。它是这样的一个设备。所谓开发板就是说，我已经把GPU、CPU、内存什么东西给做好了，就是这板子搁这了，你只管把它插到机器人里去，对它编程就完事了。是这样的一个东西。这个呢，是专门为机器人做的解决方案。

他们一套开发板的这个套餐的话，应该是2,000美元左右。两个的话，就比如说4,000美元。对于一个机器人来说，价格还是可以接受的。宇树科技的机器人现在搁在京东上卖也是9.9万一个，另外一个好像卖五六十万。所以在这样的一个设备里头，你装两块2,000美金的英伟达算力卡，还是可以的。这种芯片应该比现在咱们平时用的汽车上的英伟达芯片的算力还要稍微高一些。汽车上面那个应该一块芯片是256TOPS，它这个呢大概是275TOPS。每一块芯片的功率是55瓦，那你两块55瓦的芯片搁到这个机器人里面，你背一个稍微大一点的电池的话，还是可以跑一段时间的。你像我可能再过10周要去提的小米苏7 Pro上，应该是两块256TOPS的英伟达芯片。它这个机器人上是两块275TOPS英伟达芯片，比我那个车还要稍微的再算力强一点点。一块这样的芯片呢，跑7b的模型，每秒钟大概能够输出几十个tokens。它这个里边两个GPU跑两个模型，其中一个呢是开源的7B视觉模型，具有一定的推理能力。这个开源模型，它是开源开放权重的，他呢每秒钟呢可以生成7到9个指令，每一个指令呢可能有两到三个tokens，或者可能最多到5个tokens。现在呢并没有告诉大家具体用的是哪家的这个7B模型，因为开源嘛，Llava加上Mistra或者是Llama7B模型相结合出来，训练出来的这种视觉模型，是有一些开源的模型在跑。还有呢，就比如说通义千问，有一个叫千问VL的模型，是通义千问做的7B的视觉理解模型。DeepSeek还出了一个叫Janus，应该也是古希腊的一个神，叫Janus Pro 7B的一个模型。这个模型呢是双向模型，一边呢可以通过文字生成图片，另外一边的话你给它图片，它也可以进行理解。当然我觉得最大的可能呢，应该是用一个叫open VLA的模型，这个模型呢也是一个模型，它呢是斯坦福大学。

加州大学伯克利分校、丰田研究院、谷歌DeepMind以及麻省理工等机构联合研发出了一个名为“视觉语言动作模型”（VLA）的系统。VLA中的“V”代表视觉，“L”代表语言，“A”代表动作。该模型能够直接观察物体后进行语言反馈，并输出动作指令。这个模型使用了97万个机器人的演示数据进行训练，并在Llama2 7B的基础上进行了微调，专门适用于机器人的控制和操作任务。此外，该模型是开源的，因此用户可以自行微调或替换其他模型。

小模型是一个高速模型，由Figure AI自主研发，拥有8,000万个参数。与7B模型每秒7-9次的迭代速度相比，小模型能够以每秒200次的速度进行迭代，实时调整动作。这两个模型的配合方式是：7B模型负责思考和推理，下达指令；8,000万参数的小模型则根据指令完成具体操作。例如，命令机器人拿起鸡蛋并放入冰箱，7B模型负责下达指令，而小模型则确定手的位置、鸡蛋的位置、如何伸手、如何捏住鸡蛋以及将鸡蛋放入冰箱的具体位置。

Helix系统代表了这两个模型协同工作的完整系统，被视为一个AI代理，主要负责控制机器人的上半身，而下半身与此无关。

所以，这个机器人一开始动了脚，后面就只有上半身在动，那个脚就不动了。双击协调的部分，有可能是通过网络通讯来实现的。就是机器人之间有一些相互认证的接口，可以进行协作。就是有一个机器人说：“我现在需要一个什么东西了。”伸出手来说：“我等着拿东西。”在这个时候，另外一个机器人应该是接到了相应的网络指令，然后在他的整个动作的队列里边去加上说：“我现在要把这一袋需要冷藏的食物递给他，我现在把这个碗推过去，要等着你给我装苹果。”这个对于计算机软件编程来说，算是一个比较常规的操作吧。

为什么Figure 02的Helix这么引人注目呢？现在大家要是看到转手绢、翻跟头、跳舞这些东西，其实是没有什么感受的，就是你不会觉得这个东西好厉害。当然，你说有没有人看到转手绢、翻跟头、跳舞这个事觉得好厉害，肯定也有，毕竟屌丝是大多数嘛。但是对于一直在关注这个行业的人来说，大家要看的是什么？有自主判断能力的机器人，他可以通过视觉、通过摄像头，我去理解这一桌子东西都是什么，我可以通过推理来决定，哪个东西应该放到哪去，哪些东西应该进冰箱，哪些东西应该放在橱柜里，哪些东西应该放在橱柜上面那个盒里，哪些东西应该放在这个碗里。这个是真正可以去震惊大家的，他自主理解、自主规划，自主地完成了任务，甚至呢，还可以自主地形成一些协作。大家真正看的是这个东西。

现在呢，家庭环境成为了最新的看点。为什么呢？因为家庭环境是完全不可预期的环境。工厂环境就是完全可控的，在工厂里头可以出现螺丝螺母，可以出现各种弓箭，可以出现其他的各种设备，但是再多的东西都是可控的。你不可能说，我无限的东西出现在工厂里面，但是家里边就没法说了，你任何一个东西都有可能出现在家里。所以这一次Figure AI真正展示的就是，在完全不可预期的家庭环境里头完成任务。所以一开始这个帅哥就说：“你们是第一次看到这些东西，请按照你们的理解推理了以后，去把它们分别类放好。”

这个是真正要演示的东西。原来处理这些东西的方式是什么呢？以前叫穷取法，或者是进行一定的归纳。穷取法是什么？就是每一样东西来了以后给它编程。鸡蛋应该怎么处理？咖啡应该怎么处理？我来编程。以前是这样来处理的，一旦见到没见过的东西，就没法整了。归纳法是什么呢？就是对这个机器人进行训练，找一堆人拿着遥控器，操控机器人去做各种动作。把这些数据收集起来以后，去训练机器人。你去给我干这活去。现在马斯克就是在招了一大堆的擎天柱训练员在进行训练。这是另外一种方式。

但是呢，甭管是穷极法还是归纳法，你都面临一个问题。这个问题叫意外。这个东西我没见过，或者我归纳了半天新的东西，我没有办法把它放到原来这个归纳的类别里边去分类。这个都是会比较麻烦的。这一次展示真正令人激动的是什么？就是自主的识别自主推理，不需要训练。一桌子东西都是第一次见到，就可以对各种不同的环境和场景直接完成任务。这个是真正让大家觉得很兴奋的地方。

那你说转手绢的这个机器人，跟今天我们看到的Figure02之间，到底差多远呢？很多人说差远了。中国人怎么可以？咱不讨论这个问题。第一个小模型这一块，就是你控制动作这一块，现在Figure AI是自己做了一套这样的模型。这一块呢，中国的像宇树科技，他们其实也是可以去做的。而且呢，不需要自己做。谁做？英伟达做。完完全全可以跟英伟达去协作，去搞这个事情。甚至你手里有大量的数据的话，可以跟英伟达协作，去训练一些新的模型出来。但是这个模型到底是好不好用，或者能够达到一个什么样的能力，这块呢我觉得我们还需要给他一点的时间，让他去迭代吧。

训练这种小模型，其实中国人是有经验的，而且这块算是比较领先的一个状态了。你比如说谁会干这个事？大疆就是干这么个事的。这种无人机在天上飞，它是要靠飞控系统的。现在这种就是，至少消费型无人机的飞控系统的话，你认为它是一个小一点的这个AI系统，也没有任何问题。

在这一块的话，大疆基本上算是遥遥领先，没有任何问题。至于说大一点的模型，就是7B的模型在这个里边算大的了。视觉语言动作模型的话，反正是开源的，你能用我也能用，我们也可以自己再去微调，去训练这个模型进行替换。现在Deepseek可以把视觉语言模型搞定，他现在没有动作这部分嘛。千问也可以做7B的模型，把这个动作，把这个视觉跟语言搞定。你说我们现在重新进行动作训练，这个事应该也没有那么费劲。而且现在很多的这种动作训练模型，其实都不是拿实际的机器人去训练的，都是在这种物理引擎驱动的虚拟空间下去进行训练。就是英伟达为什么会努力的去推他们这个开发套件，就是这样的。因为我们去开发游戏的时候，你是一个3D的有物理引擎驱动的空间，甭管你是在Unity下，还是在Unreal下，它是这样的一个空间环境下，它里头的各种物体也是有它的碰撞，有它的运动轨迹。我们在这样的这个空间里头去进行机器人训练的话，这个速度还是非常快的，它可以快速的生成一大堆数据。

咱们再看看语数科技的机器人，跟今天我们看到的Figure 02的机器人去比较一下，你会发现呢，工业设计上还是差比较远的。英伟达的芯片，模型上其实差的都没有那么远，但是工业设计差挺远。人家那东西，看着还是比较好看的吧，咱们那个真的是丑陋。虽然他可以穿上红棉袄红背心，可以转手帕绢可以跳舞，但是这个东西站在你面前还是很丑。在这点大疆的工业设计其实做的是很强的，人性化表演这一块差的非常非常远。宇树的机器人看着就反正不像人。这一次Figure02的这个表演里头，虽然始终没有说话，但是呢，他的一些动作让你看着会比较舒服。这些动作呢，应该是专门设计出来的，不是训练出来，应该是设计出来的。在这一块呢其实还是有很长的路，我们需要去追赶。还有一个是什么，就是讲好故事的能力也有待提升。你让这个机器人上去跳舞，直接摔一个狗啃泥，Figure 02的机器人。

你让他跳舞的时候，会不会摔狗啃泥不知道，但是人家设计整个故事，设计整个这个拍摄脚本，这个能力还是非常强大。我觉得值得我们去学习。最终的结论是什么呢？就是我们的机器人，其实距离这个并没有那么远。就是完成所有的工作，可能也能完成，只是呢比较丑陋，看着比较瘆人，或者可能有一些动作，我们现在完成的没有那么顺畅。这一次我们看到的 Figure AI 给出来的这个方向，是非常非常激动人心的。我们就可以照着这个方向，快速的往前奔跑了。好，这就是这一次 Figure AI 给我们展示的双人成型，真正给整个行业带来的影响。感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Figure AI与OpenAI分道扬镳，难道是因为DeepSeek吗？深挖背后原因：具身智能的端到端大模型、机器人自主创新赛道如何博弈？

Luke Fan — Fri, 07 Feb 2025 00:51:44 +0000

Figure突然官宣放弃跟OpenAI的合作，这到底是一个什么样的事情？大家好，欢迎收听老范讲故事的YouTube频道。Figure的老板突然发了一条推特，他的老板叫布雷特·阿德柯克，后边我们就不再重复他老板的名字了。这公司干嘛呢？这公司做机器人的。去年，Figure 01和Figure 02的演示还是引起了很大的轰动的。现在他就讲了自己要去研发端到端的大模型了。机器人公司必须要拥有自己的端到端大模型，说我们的模型一定不是外包的，就像我们的硬件不是外包的一样，我们一定要自己做，要自力更生了。

这个也是别人一开源，他就自主创新，自主知识产权去了。谁开源了？DeepSeek V3开源了，DeepSeek R1开源了。除了说我不再去跟OpenAI合作之外，还讲了什么呢？我现在已经开始去做自主的知识产权的端到端大模型了，30天之后就可以给大家看成果了，绝对吓到你们。然后开始招聘，现在还需要什么什么样的人，具身智能的工程师，快来上班吧。未来4年准备要交付10万台机器人，这个呢，应该是对着马斯克去的。马斯克说2025年要造1万台擎天柱，到特斯拉的工厂里去打工。他说我今年造1万台有点费劲，但是我未来4年造10万台，气势上不能输给你。

未来的机器人呢，他是准备用在商业和家庭两个方面的。马斯克的擎天柱目前应该主要还是在工厂里打螺丝的，但是Figure的机器人呢，商业上第一个制造业也是工厂里打螺丝，他要去的。然后仓储物流，就是可以到仓库里去搬东西，以及零售导购，这个其实已经接近于家用了，就是他已经跟人很近了。他可以在商场里头卖东西。家用呢，Figure 01第一个演示的就是煮咖啡，给你演示一下这个咖啡是怎么用的，应该是用的一个胶囊咖啡机吧。他就跟着你去学，学完了以后就会煮咖啡了。然后呢，还要学会洗衣服、整理房间以及遛狗。遛狗我觉得应该不是一个特别难的事情吧。

但是，整理房间这事还是挺费劲的。洗衣服肯定也不是手洗嘛，能使洗衣机就完事了。这是他未来要去做的事情。而且呢，这个Figure的老板还讲了一个新的应用，是什么呢？要跟这个Archer无人机协作去送快递。这个Archer无人机的公司呢，也是Figure老板一起创建的一个公司，应该是先创建的Archer，后来创建的Figure，这是这样的一个次序。

Archer是做什么的呢？就是四旋翼载人无人机。这个东西呢，应该是跟美国军方签的协议，已经开始交付了。以后加上他的Figure机器人，就可以把快递直接送到你们家去了。这个应该是一个很不错的应用。以后特斯拉的擎天柱，跟特斯拉的robotaxi配合在一起去送快递，应该也是想起来很美的一件事情。

Figure呢，应该绝对是去年的当红炸子鸡。我记得当时Figure 02的演示效果绝对拉满，应该也是给马斯克带来了很大的压力。而从创投行业来说，什么样的企业叫当红炸子鸡呢？就是一年至少融资两轮。如果你要是一年融资三轮，那你就彻底红了。什么意思呢？因为我们知道融资这件事，种子轮、天使轮、ABCDE，再上个市，它一般是这样的一个顺序。如果你在一年之内能够连续融两轮的话，就已经非常厉害了。

Figure 2024年就是连续融了两轮。他呢，在2024年年初融了一个7,000万美金的A轮，这个其实已经很大的一个A轮了。当然，你做机器人吧，钱还是要稍微多一些的。所谓的2024年年初呢，应该是在2023年把协议都签完了，只是执行，到了2024年的年初才执行完。

第二轮什么时候呢？2024年2月29号，又过了，也就是一个多月的时间，又融了一轮。这一轮呢，是6.75亿美元的B轮，这个非常吓人了，估值就直接达到了26亿美金。一般超过10亿美金就是独角兽了吧，双份独角兽，还带个拐弯的。这一次的投资是谁呢？微软投了，OpenAI的startup fund，就是OpenAI自己下头。

专门有一个创业投资的基金，他们也投了。然后英伟达、亚马逊创始人贝索斯通过贝索斯下面的一个基金会投资的。然后Parkway，应该是他的这个A轮的投资人，他们也进行了跟投。英特尔资本也进行了投资。

当然，这里面有些人可能出的是真金白银。你比如说像英伟达、贝索斯、Parkway这样的，肯定是出的这个真金白银的。微软呢，有可能出的是代金券。微软当时给OpenAI，应该有一部分是真金白银，但有一部分就是代金券。而OpenAI给的钱呢，大概率是软件授权或者是一个技术入股，所以它未必能给出多少现金来。

就别看OpenAI今天融了个100亿，明天要融200亿，就手里有好多现金似的，但是它拿到的也有一大部分是代金券，手里的现金也没有那么充裕。而且你想，作为大模型的带头大哥，我愿意赏给你脸，愿意让你用我的这个大模型，你给我些股份呗，这个也还是说得过去的。

这个呢，也为今天Figure跟OpenAI翻脸留下了一个伏笔。如果你真金白银给了钱，后边说我不跟你玩，这件事确实还是有点难度的。但是如果是技术入股的话，这个翻脸的压力就没有那么大了。

现在呢，这个Figure已经在宝马的工厂里打螺丝了，并没有去德国，是在宝马位于南卡罗莱纳州斯帕坦堡的工厂。Figure01是2024年初就进到宝马工厂里干活去了，然后Figure02呢，是2024年8月份正式发布。在发布前就已经派到宝马工厂，在工厂里边执行将钣金部件插入到特定装置等任务，就是反正搬来搬去的这样的任务。

这个老板做的Archer无人机公司呢，他们做的无人机叫午夜，叫这样的一个名字。这个无人机呢，是美国海军订了6架，2024年8月呢，已经交付了一架。但是呢，并没有继续交付的这个报道出来，是不是后边继续在交付不知道了。不过大家注意，它这个无人机不是像大疆那种打农药的，或者是拍视频的。

它这个是里头可以坐人的。当然，你不要想着说机器人坐里头操控无人机，没有这个必要。这种无人机的飞行一般是通过三种方式。第一种呢，就是规划路径，规划航线，直接点对点飞行。现在其实大量的在城市里边跑的无人机都是通过这种方式来运作的。他们唯一需要去处理的就是，比如起飞降落，我能找着这个地上的靶子，能够降准了。而且在飞的过程中遇到一些特殊情况，我可以稍微的处理一下。

第二种呢，就是遥控，就跟大疆的那个是一样，他有个遥控器在远程可以遥控着飞。然后第三种的话，他也是允许你坐在机舱里头驾驶这个无人机的。但是这一块其实并没有那么重要。咱们来思考一下，他为什么跟OpenAI闹翻了呢？正常情况下，他就算是不再跟OpenAI合作，他通常也是私下解决。 OpenAI现在好歹还是个当红炸子鸡，你现在直接跟人闹翻了，到底想干嘛？想要踩着OpenAI上位吗？这个有点太难了。而且作为Figure这样的一个公司来说，你踩不到OpenAI。你比如说XAI，你还可以去踩一下，它还可以以OpenAI为这个阶梯往上爬一爬。但你一个做机器人的，离他还是稍微有一点点远。

那你说这个事情有没有可能就是个表演呢？不会，只要出来官宣了，一定是真翻脸了。那么机器人里边的大模型，大家有没有想过，他到底是怎么工作的？是不是这个机器人他有一个大模型，你让他干活，他其实开始给你干了，还是说机器人就像手机似的，你给他发所有指令，然后都到云端找那个模型去干活去？应该不是这样的。机器人里面应该是一个完整的AI agent。为什么这么讲呢？它也是可以去读取各种信息，在各种指令库里边去检索，然后去形成记忆，操控机器人去做各种事情的。所以呢，它应该是一个完整的AI agent。这个完整的AI里头呢，应该是多个模型在配合工作，绝不可能是一个模型在工作。所有的这种有巨身智能或者有机械身体的这种设备，包括像汽车，它的系统一般都是分两块。

一块呢叫非实时系统，一块叫实时系统。什么是非实时系统？比如影音视频的多幕态识别和语音对话。你把这东西传到云端去，处理完了再传回来，是没毛病的。包括一些主控任务规划和这个执行，这个也都可以作为非实时系统。你都可以在云端做，或者哪怕在本地做，都不用那么着急，说必须马上要有一个什么结果，没必要。

再往后呢，就是实时系统。我想控制这个手臂怎么去动，怎么迈腿走路。你不能抬脚摔倒。那么这些系统一定是实时系统，这些系统一定会在本地执行，而且对延时要求是非常高的。你不能说我这边脚抬起来了，陀螺仪也转起来了，发现身子已经歪了，向云端请示说这个身子歪了，然后该往哪边动一下，那边再过个几十毫秒，再把这个指令发回来，这个时候这机器人早趴地上了，这个事一定是不行的。

在这个里边，哪部分是Figure自己做的，哪部分是OpenAI做的呢？GPT-4O的高级语音功能，也就是咱们在Figure02演示里边看到的那个聊天、任务规划，比如说你把这食物给我，他就会在一堆的杂物里头把苹果选出来递过来，他就可以干这件事情。那么这一部分呢，应该是OpenAI做的事情。

然后哪一部分是Figure自己的呢？就是刚才我们讲实时系统那部分，以及各种控制的部分。虽然OpenAI的这个视频部分可以看到说这个桌子上有苹果有纸团，但是你要真想伸手，准确地把苹果抓起来，这一部分的视频识别和定位，以及整个的操控，应该是Figure自己干的事情。

在这样的一个情况下，我们就可以想清楚为什么Figure现在要跟OpenAI闹掰了。第一个原因，OpenAI大概率是没有出钱，应该是技术授权入股的一个方式，所以呢，现在觉得不划算了。第二个原因，肯定是跟DeepSeek这种东西有关系。为什么呢？因为现在有了DeepSeek，导致了对自己的小模型直接进行蒸馏微调变成可能了。DeepSeek R1蒸馏微调的一点几B的模型。

或者是7B的模型都已经展示出来了。刚才我们讲的Figure自己做的这个模型能有多大，在本地实时系统跑的，这个模型应该很小。那既然这样的话，干脆直接对本地的模型进行蒸馏微调，就完事了。他也可以有一定的推理能力，我何必去跟你OpenAI去折腾的，没必要。我完全可以自己去部署自己的DeepSeek的服务器，然后自己再去微调一些专业的机器人模型，他就可以跑起来了。

你想，他26亿美金的估值，OpenAI占的股份再少，它这个股份肯定也是值很多钱的吧。这一块就能省则省了吧。那么后边的话，咱们就使用Deepseek就完事了。既然是AI agent，原来可能主控的部分是由OpenAI来提供的，现在的话没必要了，我就完全可以自己主控了，由DeepSeek直接搞定，自己去学习，自己去做记忆，自己去做任务的理解和规划，这个是没有任何问题的。

现在咱们看到春节联欢晚会上那个宇数科技转手绢那个东西，他们在1月30号就已经挂上了DeepSeek R1这样的模型去给他们进行任务规划了。挂上以后发现，任务规划成功的这个比例急剧上升，没有必要再去使用OpenAI了。有了DeepSeek，Figure底气变硬了，这就是他们要脱离OpenAI的第二个原因。

第三个是什么呢？就是OpenAI现在可能也顾不太上Figure了。他自己还投了一个叫EX的公司，这EX就是那个机器人，穿了个秋衣上来说，谁也不知道那后头到底是真人还是什么，他们自己也不出来解释。这个公司就是这样的一个项目，然后他们还准备再去孵化一大堆的这种机器人公司。Figure说，我原来想着我是你的唯一呢，结果一看你这是一渣男，不跟你玩了，这个也是一个原因了。

当然这个可能并不是一个关键原因，关键原因应该是什么呢？就是OpenAI说我自己做吧，我不说再跟你们去孵化来孵化器了，干脆我自己做就完了。而且OpenAI呢大概率会走安卓路线，就出标准出模型。

通过投资和孵化的方式，要求这些下面的小公司跟着他的标准和模型往前走，应该往这个方向去走。而且呢，为了这个目标，OpenAI还从Meta招聘了新人回来，负责机器人业务。这个事情我们原来其实遇到过，一个公司说我们在这块业务上想调整一下战略，找了一个特别牛的大牛回来。那么在这个时候，会遇到一个什么问题呢？叫新官上任三把火。这个新官上任干什么了呢？一定是对原来的协作方式有了新的规划。你原来做那部分必须扔掉，它一定会有这样的调整。

因为对于这种提供底层系统的人来说，他真正需要去做的事是什么呢？就是要划清边界。就是我的整个系统边界在什么地方，哪一部分归我，哪一部分归你。在划的过程中呢，从大厂里出来的人，他原来Meta负责AR那部分的嘛，一定是比较强硬的，老厉害了。在这样的一个情况下，Figure觉得自己还是一老臣子，就可能会有不服气的情况，可能会闹掰。

新来的OpenAI的机器人负责人跟这个Figure可能处理的并不是那么开心。为什么这么去想这个问题？原因也很简单，就是这个事情被公开化的贴出来了。如果说大家只是方向上有差异，或者是协作上不是很愉快的话，大家自己内部消化就完事了。哪怕说我们不再协作了，你也没必要出来去发推特。

大概率还是有一些人跟人之间的私人恩怨爆出了。从这个投资的角度上来说呢，还有一种很特殊的条款，有可能也会在里边去起作用。这个条款呢叫反竞争条款。这种条款通常是要求被投企业不可以跟投资公司相互竞争的。但是呢，这个东西并不是一定的。有的时候，当下面的公司比较强硬或者比较强势的时候，被投公司也会要求母公司不可以跟他进行竞争。这个有的时候会双向都有，特别是当这个母公司还没出钱，用技术占了个股，还占了也挺多的份额的时候，这有可能会在投资协议里面包含这样的反竞争条款，就是OpenAI你不可以做哪些哪些事情，你必须要去支持，有可能会有这样条款。

当OpenAI决定说我自己做机器人的时候，就会触发这样的条款，直接丧失原来在Figure里边的一些股份。但是，就像我刚才讲的，他不应该出来吵吵，吵吵了那么大概率还是有私人恩怨。最后一个原因是什么呢？刚才咱们已经捋了这么多原因了，但是我觉得这些可能都不是最核心的原因。最核心的原因是，端到端的机器人模型最后不一定有几套，但肯定不会是每个机器人公司都有一套。

现在看来，特斯拉的FSD肯定是一套机器人端到端模型，OpenAI的话一定会出一套自己的机器人端到端模型。至于说谷歌呀，或者其他的一些大模型公司，有可能会做。我觉得谷歌在实验室里藏点什么奇奇怪怪的东西的可能性是比较大的。然后，各大实验室、研究所以及汽车厂手里边都应该有一些储备。这些东西到底最后能不能商品化出来跑不好说，但储备一定要有。

比如说像中国的小鹏、理想这样的公司，手里头应该是有机器人端到端模型在储备的。那么Figure的话，现在肯定想要挤上最后一班车，我的估值都已经26亿美金了，一定要有自己的端到端模型。如果你没有自己的端到端模型的话，你再往前发展，等于就变成了一个代工厂，你就是给人造硬件的，那你就不值26亿美金了，你再往后融资就没法融了。那么他一定要在这个时候说OK，我下车了，以后我就独立做自己的端到端模型了。这可能是他要抢到最后一张入场券，这才是Figure在这个时候喊着下车的一个核心原因。

那么2025年呢，我们应该会看到一场热热闹闹的机器人大战。马斯克的擎天柱准备造1万台，进工厂打螺丝。而且马斯克还招聘了大量的人去训练他的机器人，完成各种各样的动作。等于他也是需要有一个预训练，有一个学习的过程吧。中国的厂商们呢，肯定也在端到端这块要卷一下，包括像什么宇数、理想、小鹏这些人都会干，小米肯定也会去做，因为小米原来也是有铁蛋机器人的嘛。戴里斯应该也在努力的向这个方向去发展。

而且，从造硬件这件事来说，中国厂商一定会在最后的人形机器人大战里头占有一席之地的。能把这东西造得多快、好、省，这件事全世界应该没有哪个国家可以跟咱们去一较长短。你说我把这个机器人造得非常精密，能效比很高，这件事呢，那可能美国、日本、德国，他们也很强。但是你说造得物美价廉，这件事他们跟咱们比还是差很远的。

现在中国呢，在大语言模型和推理模型这块呢，也算是暂时追上了一大步。我们还是要看未来一段时间，OpenAI怎么再接着往前走。谷歌这两天也在出新模型，他把Gemini 2.0 Pro的模型出来了，但我还没有仔细去试，应该也是又往前迈了一大步。

现在的宇数科技，就是中国造机器人的这些公司，其实也是不少的。这些公司里边，他们的实时系统的那部分模型，很多的是英伟达，还有包括美国的一些大学给他们去做的。真正的AI agent去进行统合规划、进行这种语言对话，进行这样的非实施系统上的模型的话，现在都已经开始向DeepSeek转型了。DeepSeek在这个角度上说，你说它是国运级的创新，并没有什么大毛病。

中国大量的机器人公司应该都在快速地向这个方向去转型，因为效果确实还不错。而且他可以把大量的小模型进行微调了以后，塞到机器人里面进行端侧的一些处理，这块还是非常非常强大的。而且中国的话应该会比较敢用。什么意思呢？就是我们在使用新鲜事物上，胆子一般是要比欧美国家大的。在这个过程中，造成一些人员伤亡、财产损失什么的，这些事情的话在中国，整个的成本还是要比西方低很多的。

所以呢，2025年我们也可以再看看，在机器人领域里头，中国跟美国是不是还可以像在大模型领域里头再好好较量一下。在这个过程中的话，Figure应该也可以上到牌桌上去，跟马斯克的擎天柱、跟国内的各种各样的机器人一起去竞技，给我们贡献各种各样的故事。原来呢，他只是OpenAI的小兄弟。

大家只是觉得你就是个做硬件的，其他的东西到底做成什么样也不知道。现在他说我可以独立上桌了。今天其实就是发生了这样的一件事情。好，今天这个故事讲到这里。感谢大家的收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

从AlphaGo到AlphaPong：Google DeepMind推出乒乓球机器人。使用ABB IRB1100，可以和普通人打得有来有回，中国的乒乓优势，还能保持多久？

Luke Fan — Mon, 12 Aug 2024 00:49:09 +0000

谷歌DeepMind做出来打乒乓球的机器人了。很多人开个玩笑说，这东西应该叫阿尔法乓。因为当时下围棋叫阿尔法Go，这个东西应该叫阿尔法乓。大家好，这里是老范讲故事的YouTube频道。今天我们来讲一讲谷歌做出来的阿尔法乓的故事。

今年整个的奥运会里头，我唯一观看的比赛就是乒乓球男团，大概看了一场吧，就是咱们国家的一位男单选手，也叫小胖，去打这个瑞典的一个小帅哥，这个还是看着很过瘾的，叫樊振东。对，不能光想人家的外号。咱们算乒乓球的传统强势国家，整个的奥运会，我们得到了全部的五枚金牌，银牌铜牌我们也得到了其中的一部分，当然也漏了一部分。都得了这事了，没法玩了。下一届奥运会说，算了，我们把乒乓球这个项目给你取消了，不跟你玩了。

谷歌这一次做的乒乓球机器人长什么样呢？长得一点都不像人，这个没办法，长得像人的成本实在是太高了。他使用了一个机械手，这个机械手是ABB的IRB 1100。它等于是把这样的一个机械手固定在一个轨道上。ABB是瑞士苏黎世的世界机器人行业的领军企业之一。

ABB的这种IRB 1100是一个什么样的机械手呢？我们以前去做机器人项目投资的时候，也去研究过这个问题。就是说机器人最后这个人字呢，是大家一般比较纠结的地方。因为现在很多叫机器人的东西，其实只有一个胳膊，就是它里头有几个关节可以动的，一条手臂，并没有一个像人一样的东西。但是你也管它叫机器人。在国外应该都是robots，但在国内就都是叫机器人。

而另外一种叫机械手。IRB 1100这个机械手呢，它是一个最紧凑、最轻的六轴机器人，六轴就是它有六个活动的关节。

它的承重是4公斤，再重了它也拿不起来了。工作区间就是半米乘半米的这样的一个平面上，它可以在这个范围内去工作。最高的速度是5米每秒，5米每秒的话应该是18公里每小时，大概是这样的一个速度吧。它是可以按照这个速度去运作的。价格的话大概是10万块钱左右一台。它这种机器人在国内是有组装的，瑞士ABB在全世界有三大工厂，其中有一个就是在上海。它的价格其实跟特斯拉的擎天柱差不多。马斯克现在讲的说我的特斯拉擎天柱大概是十几万到二十万，他讲的是2.5万美金嘛，这样的价格一台可能接近20万吧。所以它这个光有一根手臂的价格跟整个擎天柱的价格是接近的。

它固定在一个轨道上，这轨道可以横向移动。前面是一个乒乓球台子，后边是一轨道，可以横向动，因为它的覆盖范围就是半米，半米乘半米的纵深的一个范围，是它可以去覆盖的工作范围。但是这个乒乓球台子我印象里应该是一米多宽吧，因为我并不怎么打乒乓球，所以对这个数据不熟悉。它还是需要移动的，而且还有正手反手的，所以它会去分说我是在哪个方向把球打回去的。有旋转等等，这个它都会有。

谷歌真正做的是什么呢？谷歌做的是软件，硬件是瑞士ABB的。这个软件就是视频捕捉，我通过摄像头把它捕捉下来。它还是分两个摄像头去捕捉，一个是捕捉人的动作，可以通过人的动作来确认说我这个球应该是怎么样去前进的。另一个摄像头是捕捉球的轨迹。对一些特别旋转的球，可能处理得没有那么好，因为这个球真的转起来以后发过来，靠捕捉球的这个摄像头其实是看不太出来它的旋转的角度、速度或者说测量得没有那么准。

然后，他会制定策略。这个策略呢，也是分两期。第一个呢，是我的战略是什么？我要如何去调动你，如何去发现你的长处短处，如何针对这个人去制定战略。另一个层面是战术性的。我现在到底是正手的回正，还是反手的去搓，还是怎么去旋转？这个是两层的策略制定。

然后再可以去把这个轴接回去。速度和效率呢，其实才是这一次谷歌展示了这个机器人最重要的一点。他是可以告诉大家说，你看，我们可以通过摄像头去捕捉，完了以后可以接到这个球的。因为大家知道，乒乓球本身速度是很快的，但它不是最快的，最快的是羽毛球。乒乓球的这个速度也是相对来说比较快的，而且乒乓球还需要在台面上去弹跳。

所以，它的这种物理引擎计算，对算力的要求还是比较高的。因为像这样的机器人，如果效率达不到的话，是没有任何意义的。其实像阿尔法Go是不需要效率的，对吧？我这边下完棋以后，你那边慢慢的等就完了。但是打乒乓球这个事，你是必须有效率的。你这边球发过来以后，我算完了以后球过去了，这个事是不允许的。

我记得原来有一个故事，讲这个抗美援朝的时候，美国的战斗机上就已经开始有火控系统了，但他那个火控系统的速度就不够快。所以，当时咱们开的喷气式战斗机上去以后，就会看到他那个机炮永远在咱后头追，老追不上咱们。这就是电脑指挥的这种设备，如果效率不够会怎么样。

现在谷歌做的阿尔法乓呢，应该还是停留在论文和实验室的阶段，可以跟普通人打成平手，但跟职业运动员比，基本上还是没戏的。跟普通选手打成平手，就是互有胜负，应该这么去理解。为什么跟职业选手搞不定这个事呢？第一个就是说，机械手的运动范围跟速度还是受限制了。

另外的话，职业选手的这种假动作，包括他这种旋转，对于摄像图和算法能够处理的范围，还是稍微有些超纲了。但是呢，谷歌已经把这种可能性跟大家展示出来了，这还是很棒的。那么未来会是什么样的呢？未来肯定要上难度嘛。大家想一想，现在它只是一根手臂放在一个横向的轨道上了，对吧？如果变成腿会怎么样？如果真的是变成人形机器人，变成两条腿站，那会是什么样的一个情况呢？

现在，马斯克还有像Figure 02这样的机器，他们的人形机器人每个小时也就能走5公里，基本上也就是人类正常步行速度。但是我们看看这个乒乓球比赛的时候，那真的是上窜下跳，那是要跑，要跳的，所以这个应该还达不到。如果真的可以在这种机器人下面做成两条腿，那么步行机器人就算是彻底成熟了。我觉得可能还要个三五年吧。

即使不是两条腿，您给下边装轮子，这事都搞不定。为什么呢？因为轮子你就可以前后左右地动了。他的速度、重心这个事就没法整。轨道的话，你是不需要研究重心的问题的。我挥了拍以后，你不会能从轨道上出去，我轨道是给你固定在这了。而且现在的比赛，乒乓球是可以干这个事，其他的都没法整。

你说我弄个网球、羽毛球，那网球你得满场子跑啊。你不可能说我在地上给你固定一条轨道，或者固定几个轨道就搞不定这个。要是羽毛球的话，第一个速度更快，第二个羽毛球你也需要满场的跑。你不可能说我站在台子后面，只要横向移动就搞定了。

至于其他的，比如说篮球、足球这些东西，你需要面对面对抗了。不是说中间立一个网，大家站两边，这个就已经是太危险了。你真的跟一个机器人面对面的冲撞一下，他是个铁疙瘩，对吧？

这个事现在还比较难以想象。现在有没有这种机器人陪练呢？其实是有的啊，乒乓球机器人的陪练呢，欧姆龙公司已经做到第八代了，叫Forpheus，应该这么念：FORPHEUS。有这种叫做乒乓球教练机器人的，国内也有啊，上海体育学院跟新松机器人做了一个，叫Pangbot，就是打乒乓的一个机器人。

但是这种机器人呢，主要做的是什么呢？主要做的是发球机器人。我只管发球，一个球一个球发，发完了以后，你那球给我打回来。而且呢，他可以根据运动员打回来的这个过程，通过传感器去判断，你现在的姿势对不对，回的球是不是有质量，然后再去发下一个球。现在呢，也是有AI辅助的，这块现在都做出来了。

增加接球的部分的话，谷歌做的阿尔法乓跟现在这种发球机器人的最大区别，就是他可以接到球给你打回来。这个增加的成本就实在是太高了。而且呢，他能够实现战术变化，以及实现的功能，其实是要比原来的发球机器人要少的。

那么在未来，阿尔法乓是不是有可能像阿尔法Go那样，整个提高某一项运动的这种竞技水平呢？因为阿尔法Go出来以后，人类现在已经彻底放弃了战胜机器人这种想法了。现在呢，我们只是不断地通过阿尔法Go的训练，来提升人类棋手的棋力，最后比赛还是人跟人之间的去比赛。

那你说，阿尔法乓这样的机器人出来以后，是不是中国就不会再得到这么多的乒乓球金牌了呢？他们可以把所有中国队的选手做成程序，然后让这个机器人去训练。说来，现在我们让樊振东去陪你打一场球，或者让以前已经退役的很多球员，比如像邓亚萍、张怡宁，让他们来陪你打一场球，这个是完全可以做到的。

未来会不会向这个方向走？我觉得我们可以拭目以待。阿尔法乓呢。

真正的意义在于，它为整个行业指明了方向。我们可以通过机械手进行这样的操作，而且我们的算力已经可以进行这种多层级的策略制定了。这是它真正的价值。它的价值未必产生在乒乓球上，甚至比如说我们以后在飞船上整一个机械手，举一拍子，有陨石过来啪啪打走。这开个玩笑，但未来肯定会有很多新的不同的用法。这是阿尔法乓给我们的一些新的启示吧。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。