Figure 02的震撼展示:机器人推理、协作与Helix大模型如何颠覆家庭环境AI。国内能够转手帕,跳舞的机器人,到底还差多远?

Figure 02的震撼展示:机器人推理、协作与Helix大模型如何颠覆家庭环境AI。国内能够转手帕,跳舞的机器人,到底还差多远?已关闭评论

Figure 02双人成行的视频又一次震惊了业界。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲2月21日凌晨,Figure AI放出来的Figure 02以及他们的Helix大模型的视频。在做视频这件事情上,Figure AI从来没有让人失望过。我还记得上一次让大家感到异常震惊的视频,是Figure 01和OpenAI结合在一起的视频。一个Figure 01的机器人站在台子后面,有一个帅哥跟他说:“唉,你去给我把吃的东西找出来。”桌面上一大堆的各种物品,他在里边找吃的东西是一个苹果,找到了给他,然后把这个垃圾倒在桌上,说:“把他们都收起来。”一边把这个各种的任务完成,还一边非常风趣幽默,或者说带有很有人情味的语气语调,跟这个小哥对答如流。当时让大家觉得,原来机器人已经发展到这样的一个程度了。

在上个月,Figure AI突然宣布离开OpenAI,自己单飞。当时他们的CEO就讲了,说:“我们会在30天后,给大家看一些新的东西。”那么今天这个新东西就来了,确实让人很振奋。里面一个帅哥,这个帅哥到底是不是上次Figure 01里头那个呢?我不确定,反正我对于欧美人稍微有点脸盲,没有认出来。他呢,在这一次进行了全新的展示。首先呢,他向两个机器人下指令。大家注意,这一次跟上一次最大区别就是,上一次是一个机器人,这一次是两个机器人。在一个家庭的环境里头,两台Figure 02站在一个应该是厨台后面吧,这边是个冰箱,冰箱前面还有一些烤面包机,什么这样的设备在这儿。然后呢,是一个食物加工和摆放的一个台面,旁边是一个橱柜,大概是这样的一个环境。这位帅哥呢,拿了一袋子食品,这个袋子呢应该是Wholefood的袋子,硅谷的人喜欢吃的,一个比较贵的食品超市的品牌。这个超市后边的老板是亚马逊的贝索斯。我印象里,Figure AI后面的一大股东就是亚马逊,所以肥水不流外人田,还是要用自己家的购物袋。

然后呢,把一堆的食物放在这个餐台上面去,然后下达语音指令说:“我们做一些新的尝试。这是你们第一次见到这些东西,请通过这个Helix模型进行推理,然后通过你们自己认知的分类,齐心协力将这些东西放好。”

大家注意,这个指令里头呢,有一些其实是跟动作没关系的。比如说一些新的尝试,你们是不是第一次见到这些东西,这个其实跟后边具体干的活没关系。为什么要加这种东西进去呢?因为前面苹果说我们认证了,这个大模型是没有推理能力的。因为我们在题目里头加了一些与题目无关的死句,以后它的判定成功率就会下降,所以一定要有这样的语句在里头。

然后呢,要点出说你要使用Helix模型,要进行推理。其实呢,到这里跟这个指令本身都没有关系。真正跟指令有关的是什么?就是你要分类,这些东西要放到不同的地方去,然后呢,要协作。这个是他们真正的指令,最终说是要把东西放好。

那都有些什么样的东西呢?第一个是有盒生鸡蛋,有一袋面条,应该是意大利面之类的东西,但是我具体没有特别看清楚这一袋是什么。还有一袋是需要冷藏的食品吧,透明的袋子,但是实在不太容易看清这个袋子里装的是什么,看着好像是擦丝奶酪,具体的没有办法去分辨了。还有一个新鲜的苹果,一袋饼干,应该是姜饼人饼干,有一袋咖啡,反而方方正正的一个袋子,很深色的包装,猜测里面应该是咖啡,不需要冷藏。然后还有一瓶榛子酱,或者是巧克力酱之类的东西,本来我以为是番茄酱,因为颜色很像,但是这个经过我太太鉴定,说番茄酱一般是挤出来的,他有这么宽的一个瓶口,应该不是番茄酱,所以呢,猜测是榛子酱。

那么几个目的地,第一个是冰箱,第二个呢是橱柜,橱柜上面有一个方形的置物篮,还有一个呢是这个餐台上,有一个装水果的一个大碗,大概是这样四个目的地。等于是要把刚才我们讲的这些东西,分门别类的放到这四个目的地里头去。摆放的位置呢,肯定也是故意设计的嘛,就是一些应该放在冰箱里的东西呢。

是靠在这个餐台里边放的,应该放在橱柜里的东西呢,是靠在冰箱这头放的。因为两个机器人并排站在这个冰箱跟橱柜之间嘛,所以他们必须要协作。那么操作的过程是什么呢?帅哥把东西放好了以后,说:“你们开干吧。”他就走了。后边就是俩机器人在这噼里啪啦在这摆了。两个机器人先往前走了一点点,机器人是可以动的。走了一点点以后呢,就没有再挪动脚步。整个摆放所有东西的这个过程,他们脚下是没动的。首先是打开冰箱门,这个是LG的对开门冰箱,但是应该打开的是冷藏这一侧吧。另外一个机器人呢,是打开了橱柜的门。等于他们两个同时先做了第一步,然后开始将不同的东西放入到不同的目标的存储设置里头去。抓取的时候呢,还是比较注意的,没有把鸡蛋捏碎。有一小盒鸡蛋,据说美国现在鸡蛋很贵,Whole Foods的鸡蛋肯定是更贵的。也没有捏碎饼干。然后在中间呢进行了两次传递。第一次呢,有一袋需要冷藏的食物,由这个靠近橱柜的机器人拿起来,递给另外那个靠近冰箱的机器人了。另外一次呢特别有意思,他是要拿苹果。这个苹果呢被放在冰箱附近。这一次呢并不是说靠近橱柜的机器人伸手过去把这个苹果接过来,而是什么呢?他把这个放苹果的碗推过去,另外一个靠近冰箱的机器人把这个苹果拿起来,放到这个碗里边去。靠近橱柜的机器人再把这个碗拖回到橱柜附近去。这是一个比较有趣的配合。他会知道说你要给我的是苹果,应该把苹果放到碗里去。每一次配合呢,都是一个机器人先开始动作,比如说我现在伸出手来要需要冷藏的那一袋食物,或者是我现在把这个碗递过去,等待另外一个机器人去拿取相应的食物,或者是把这个苹果放进去。整个的配合完成之后,最终呢是把这个冰箱门关掉,把这个橱柜门关掉,算是完成全套动作。中间呢有一些相互对视的这个动作,因为Figure02的机器人头顶上只有一个摄像头,他需要靠扭头来去看一下另外一个机器人在干什么。始终没有说话。

在Figure 01演示的时候,他是不停地在这说话,而且说的还挺有人情味的。在Figure 02这一次演示里头,就没有说话。应该是现在Figure 02的这个机器人里头,是没有语音模型的。它呢可以进行语音识别,但是呢没有语音输出模块。上一次Figure 01演示里头,应该使用的是GPT4O的高级语音功能,因为当时这个机器人的脸部其实是一个屏幕,上来先写的是OpenAI,再是Figure的这个LOGO,然后再去完成所有的演示。

那么这一次的话,整个是不说话的。动作呢并不是很快,而且呢每一个动作之间是有明显的停顿的。那你说这一次整个的演示是不是真的?所有人看到这种机器人演示,第一个问题就是这个是摆拍吗?是真的吗?后边有没有人遥控?首先呢我们要看到,这个视频是通过多镜头、多角度进行拍摄的,并不是只有一个角度进行拍摄。整个的灯光做的都非常非常棒,整个的镜头语言运用的也很好。所以呢他是有很重的这种剪辑痕迹在里边了。但是一些基础应该是不会造假的,因为他要向人展示的就是这些基础东西。如果在这个上面去造假的话,那么这个展示的意义就没有了。

这应该是离开OpenAI之后的第一次展示。在这个里边的话,应该是不会去做加速的,因为很多机器人演示里边会做加速,就是比如说用两倍速或者6倍速给你去播放,你就可以感觉这个动作相对来说比较连贯。现在Figure 02 Helix的这个展示呢,并没有那么连贯,所以应该没有加速,应该也没有遥控器,因为人家展示的是Helix的这个新的模型。如果你在后边上遥控器的话,那就属于纯骗人了,这个是有问题的。应该也不会说明明是都训练好这些动作,让你做的时候告诉你说这是第一次,因为他要展示的就是在复杂环境下,面对一些没有见过的设备,或者面对一些没有见过的食物,进行操作。如果我先给你训练好了,说这个鸡蛋怎么抓,那个东西应该放到冰箱,哪个东西应该放在这个盒子里去。

这个过程的话就有问题了。所以,他真正要展示的东西是不能作假的。但你说有没有存疑的地方,也有。你说到底是一次性就成功了呢,还是说我训练了好多次,才唯一的成功一次呢?这个事呢,其实是不知道的。

刚才你说,不是应该是第一次见到这些东西吗?对,对于计算机来说的话,你只要每一次重新初始化数据就行了,他就是第一次。我可以每一次把这些东西都搁在这,重摆好让他去拍。但是呢,应该是让他多练习几次,只是每次练习开始的时候,重置这个服务器就好了,或者重置机器人里边的尊重器。所以呢,每一次都是新的,这个没毛病。但是有可能是多试了很多次,终于成功了一次,给大家演示一次。下一次是不是还能成功,不好说。

Figure 02的Helix这个模型到底是怎么工作的呢?首先呢,它是两颗低功耗的GPU芯片,里边跑的两个模型。在当时Figure AI宣布离开OpenAI的时候呢,我做过节目,我去讲我说这个机器人里面一定是有多个模型配合工作的。现在看来是证实了我去讲的这个话。这两个低功耗GPU芯片呢,其实就已经可以去进行商用了。为什么?如果你在里头装,比如说高功率的芯片,上这种很大的模型的话,这种东西是没法商用的。你上了大功率的芯片了以后,你这个机器人就必须要拖一根线。你靠电池的话可能跑不起来这玩意儿,或者可能挂上电池以后,10分钟没电了,这个事是不能允许的。所以他现在已经开始把这个低功耗的芯片放到机器人里去了,进行这种商业化或者产品化,向这个方向前进了。

这种低功耗芯片的话,现在大家猜测,有可能是Jetson AGX Orin,英伟达的这个平台。这个平台呢,就是年初拉斯维加斯做CES时候,黄教主展示的机器人开发板。它是这样的一个设备。所谓开发板就是说,我已经把GPU、CPU、内存什么东西给做好了,就是这板子搁这了,你只管把它插到机器人里去,对它编程就完事了。是这样的一个东西。这个呢,是专门为机器人做的解决方案。

他们一套开发板的这个套餐的话,应该是2,000美元左右。两个的话,就比如说4,000美元。对于一个机器人来说,价格还是可以接受的。宇树科技的机器人现在搁在京东上卖也是9.9万一个,另外一个好像卖五六十万。所以在这样的一个设备里头,你装两块2,000美金的英伟达算力卡,还是可以的。这种芯片应该比现在咱们平时用的汽车上的英伟达芯片的算力还要稍微高一些。汽车上面那个应该一块芯片是256TOPS,它这个呢大概是275TOPS。每一块芯片的功率是55瓦,那你两块55瓦的芯片搁到这个机器人里面,你背一个稍微大一点的电池的话,还是可以跑一段时间的。你像我可能再过10周要去提的小米苏7 Pro上,应该是两块256TOPS的英伟达芯片。它这个机器人上是两块275TOPS英伟达芯片,比我那个车还要稍微的再算力强一点点。一块这样的芯片呢,跑7b的模型,每秒钟大概能够输出几十个tokens。它这个里边两个GPU跑两个模型,其中一个呢是开源的7B视觉模型,具有一定的推理能力。这个开源模型,它是开源开放权重的,他呢每秒钟呢可以生成7到9个指令,每一个指令呢可能有两到三个tokens,或者可能最多到5个tokens。现在呢并没有告诉大家具体用的是哪家的这个7B模型,因为开源嘛,Llava加上Mistra或者是Llama7B模型相结合出来,训练出来的这种视觉模型,是有一些开源的模型在跑。还有呢,就比如说通义千问,有一个叫千问VL的模型,是通义千问做的7B的视觉理解模型。DeepSeek还出了一个叫Janus,应该也是古希腊的一个神,叫Janus Pro 7B的一个模型。这个模型呢是双向模型,一边呢可以通过文字生成图片,另外一边的话你给它图片,它也可以进行理解。当然我觉得最大的可能呢,应该是用一个叫open VLA的模型,这个模型呢也是一个模型,它呢是斯坦福大学。

加州大学伯克利分校、丰田研究院、谷歌DeepMind以及麻省理工等机构联合研发出了一个名为“视觉语言动作模型”(VLA)的系统。VLA中的“V”代表视觉,“L”代表语言,“A”代表动作。该模型能够直接观察物体后进行语言反馈,并输出动作指令。这个模型使用了97万个机器人的演示数据进行训练,并在Llama2 7B的基础上进行了微调,专门适用于机器人的控制和操作任务。此外,该模型是开源的,因此用户可以自行微调或替换其他模型。

小模型是一个高速模型,由Figure AI自主研发,拥有8,000万个参数。与7B模型每秒7-9次的迭代速度相比,小模型能够以每秒200次的速度进行迭代,实时调整动作。这两个模型的配合方式是:7B模型负责思考和推理,下达指令;8,000万参数的小模型则根据指令完成具体操作。例如,命令机器人拿起鸡蛋并放入冰箱,7B模型负责下达指令,而小模型则确定手的位置、鸡蛋的位置、如何伸手、如何捏住鸡蛋以及将鸡蛋放入冰箱的具体位置。

Helix系统代表了这两个模型协同工作的完整系统,被视为一个AI代理,主要负责控制机器人的上半身,而下半身与此无关。

所以,这个机器人一开始动了脚,后面就只有上半身在动,那个脚就不动了。双击协调的部分,有可能是通过网络通讯来实现的。就是机器人之间有一些相互认证的接口,可以进行协作。就是有一个机器人说:“我现在需要一个什么东西了。”伸出手来说:“我等着拿东西。”在这个时候,另外一个机器人应该是接到了相应的网络指令,然后在他的整个动作的队列里边去加上说:“我现在要把这一袋需要冷藏的食物递给他,我现在把这个碗推过去,要等着你给我装苹果。”这个对于计算机软件编程来说,算是一个比较常规的操作吧。

为什么Figure 02的Helix这么引人注目呢?现在大家要是看到转手绢、翻跟头、跳舞这些东西,其实是没有什么感受的,就是你不会觉得这个东西好厉害。当然,你说有没有人看到转手绢、翻跟头、跳舞这个事觉得好厉害,肯定也有,毕竟屌丝是大多数嘛。但是对于一直在关注这个行业的人来说,大家要看的是什么?有自主判断能力的机器人,他可以通过视觉、通过摄像头,我去理解这一桌子东西都是什么,我可以通过推理来决定,哪个东西应该放到哪去,哪些东西应该进冰箱,哪些东西应该放在橱柜里,哪些东西应该放在橱柜上面那个盒里,哪些东西应该放在这个碗里。这个是真正可以去震惊大家的,他自主理解、自主规划,自主地完成了任务,甚至呢,还可以自主地形成一些协作。大家真正看的是这个东西。

现在呢,家庭环境成为了最新的看点。为什么呢?因为家庭环境是完全不可预期的环境。工厂环境就是完全可控的,在工厂里头可以出现螺丝螺母,可以出现各种弓箭,可以出现其他的各种设备,但是再多的东西都是可控的。你不可能说,我无限的东西出现在工厂里面,但是家里边就没法说了,你任何一个东西都有可能出现在家里。所以这一次Figure AI真正展示的就是,在完全不可预期的家庭环境里头完成任务。所以一开始这个帅哥就说:“你们是第一次看到这些东西,请按照你们的理解推理了以后,去把它们分别类放好。”

这个是真正要演示的东西。原来处理这些东西的方式是什么呢?以前叫穷取法,或者是进行一定的归纳。穷取法是什么?就是每一样东西来了以后给它编程。鸡蛋应该怎么处理?咖啡应该怎么处理?我来编程。以前是这样来处理的,一旦见到没见过的东西,就没法整了。归纳法是什么呢?就是对这个机器人进行训练,找一堆人拿着遥控器,操控机器人去做各种动作。把这些数据收集起来以后,去训练机器人。你去给我干这活去。现在马斯克就是在招了一大堆的擎天柱训练员在进行训练。这是另外一种方式。

但是呢,甭管是穷极法还是归纳法,你都面临一个问题。这个问题叫意外。这个东西我没见过,或者我归纳了半天新的东西,我没有办法把它放到原来这个归纳的类别里边去分类。这个都是会比较麻烦的。这一次展示真正令人激动的是什么?就是自主的识别自主推理,不需要训练。一桌子东西都是第一次见到,就可以对各种不同的环境和场景直接完成任务。这个是真正让大家觉得很兴奋的地方。

那你说转手绢的这个机器人,跟今天我们看到的Figure02之间,到底差多远呢?很多人说差远了。中国人怎么可以?咱不讨论这个问题。第一个小模型这一块,就是你控制动作这一块,现在Figure AI是自己做了一套这样的模型。这一块呢,中国的像宇树科技,他们其实也是可以去做的。而且呢,不需要自己做。谁做?英伟达做。完完全全可以跟英伟达去协作,去搞这个事情。甚至你手里有大量的数据的话,可以跟英伟达协作,去训练一些新的模型出来。但是这个模型到底是好不好用,或者能够达到一个什么样的能力,这块呢我觉得我们还需要给他一点的时间,让他去迭代吧。

训练这种小模型,其实中国人是有经验的,而且这块算是比较领先的一个状态了。你比如说谁会干这个事?大疆就是干这么个事的。这种无人机在天上飞,它是要靠飞控系统的。现在这种就是,至少消费型无人机的飞控系统的话,你认为它是一个小一点的这个AI系统,也没有任何问题。

在这一块的话,大疆基本上算是遥遥领先,没有任何问题。至于说大一点的模型,就是7B的模型在这个里边算大的了。视觉语言动作模型的话,反正是开源的,你能用我也能用,我们也可以自己再去微调,去训练这个模型进行替换。现在Deepseek可以把视觉语言模型搞定,他现在没有动作这部分嘛。千问也可以做7B的模型,把这个动作,把这个视觉跟语言搞定。你说我们现在重新进行动作训练,这个事应该也没有那么费劲。而且现在很多的这种动作训练模型,其实都不是拿实际的机器人去训练的,都是在这种物理引擎驱动的虚拟空间下去进行训练。就是英伟达为什么会努力的去推他们这个开发套件,就是这样的。因为我们去开发游戏的时候,你是一个3D的有物理引擎驱动的空间,甭管你是在Unity下,还是在Unreal下,它是这样的一个空间环境下,它里头的各种物体也是有它的碰撞,有它的运动轨迹。我们在这样的这个空间里头去进行机器人训练的话,这个速度还是非常快的,它可以快速的生成一大堆数据。

咱们再看看语数科技的机器人,跟今天我们看到的Figure 02的机器人去比较一下,你会发现呢,工业设计上还是差比较远的。英伟达的芯片,模型上其实差的都没有那么远,但是工业设计差挺远。人家那东西,看着还是比较好看的吧,咱们那个真的是丑陋。虽然他可以穿上红棉袄红背心,可以转手帕绢可以跳舞,但是这个东西站在你面前还是很丑。在这点大疆的工业设计其实做的是很强的,人性化表演这一块差的非常非常远。宇树的机器人看着就反正不像人。这一次Figure02的这个表演里头,虽然始终没有说话,但是呢,他的一些动作让你看着会比较舒服。这些动作呢,应该是专门设计出来的,不是训练出来,应该是设计出来的。在这一块呢其实还是有很长的路,我们需要去追赶。还有一个是什么,就是讲好故事的能力也有待提升。你让这个机器人上去跳舞,直接摔一个狗啃泥,Figure 02的机器人。

你让他跳舞的时候,会不会摔狗啃泥不知道,但是人家设计整个故事,设计整个这个拍摄脚本,这个能力还是非常强大。我觉得值得我们去学习。最终的结论是什么呢?就是我们的机器人,其实距离这个并没有那么远。就是完成所有的工作,可能也能完成,只是呢比较丑陋,看着比较瘆人,或者可能有一些动作,我们现在完成的没有那么顺畅。这一次我们看到的 Figure AI 给出来的这个方向,是非常非常激动人心的。我们就可以照着这个方向,快速的往前奔跑了。好,这就是这一次 Figure AI 给我们展示的双人成型,真正给整个行业带来的影响。感谢大家收听,请帮忙点赞,点小铃铛,参加 Discord 讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.