从华为天才少年到机器人革新:稚晖君灵犀X2揭秘——更像人的机器人如何改变未来?
3 月 14
AIGC, 机器人与具身智能 AI时代机器人, AI机器人, Figure 02对比, GO-1大模型, GO-1模型开源, LO-1模型功能, 个性化机器人, 串联机构, 亲肤外壳, 人工智能机器人, 人形机器人, 人形机器人创新, 人机交互, 具身智能, 华为天才少年, 宇树科技机器人对比, 并联机构, 开源大模型, 强化学习机器人, 智源科技, 智能机器人, 智能机器人市场, 机器人交互模型, 机器人保姆, 机器人保安, 机器人保洁, 机器人创业, 机器人创新, 机器人制造, 机器人动作协调, 机器人动作控制, 机器人吉祥三宝, 机器人咖啡牛奶测试, 机器人基座模型, 机器人多模态模型, 机器人家庭应用, 机器人市场, 机器人平衡车, 机器人开会, 机器人开源数据, 机器人技术, 机器人技术开源, 机器人教育, 机器人智能化, 机器人未来发展, 机器人未来潜力, 机器人模块化设计, 机器人生态系统, 机器人研发, 机器人精准操作, 机器人螺旋稳定器, 机器人行为训练, 机器人视觉反馈, 机器人训练效率, 机器人设计, 机器人跳舞, 机器人零配件, 机器人领域趋势, 机器人骑自行车, 机器智能, 模块化机器人, 灵活机器人, 灵犀X2, 灵犀X2功能, 灵犀X2测评, 灵犀X2特点, 稚晖君, 稚晖君机器人, 虚拟环境训练, 零样本泛化 从华为天才少年到机器人革新:稚晖君灵犀X2揭秘——更像人的机器人如何改变未来?已关闭评论
从华为离职的天才少年稚晖君,时隔两年,带着他的最新机器人灵犀X2,再次与大家见面。这个机器人长得更像人了。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲稚晖君和他的灵犀X2机器人。
稚晖君呢,到目前为止,依然没有摆脱华为天才少年的光环。虽然我们在视频里看到,他已经成熟很多了。估计要等他的机器人真正大卖,他才能够摆脱华为天才少年的光环。他呢,是一个学霸,同时他具有其他这些机器人创业企业创始人所不具备的特性。他是个B站网红。从他去华为那一天开始,他就是个B站网红,到目前为止依然如此。这是一个非常非常重要的技能,因为在大模型时代,在AI时代,具身智能和人形机器人的时代,你不会讲故事,不会拍视频,这个事肯定是不行的。最基础的技能是讲故事和拍视频。大家看看马斯克,看看Figure AI,看看OpenAI,这都属于是即会讲故事,即会拍视频的公司。
为什么是这样呢?因为以前很多的新技术、新科学,都是给B端或者是给政府用的。你拍很漂亮的视频,这个事是没有意义的。你需要很认真地写全面的报告,然后拿着那样的报告去给人家做演示,甚至还要有关系,你才能把东西卖掉。而现在的话,甭管是AI大模型,还是这些具身智能,它都有很强的ToC属性,就是我们要给普通用户去用。那你既然要去做普通用户的转化率,你没有办法讲好故事,没有办法拍好视频的话,那你的内容传播力一定会打折扣的。稚晖君在这块上,肯定是要比别人强非常多。
他离开华为创业以后,去做人形机器人,很多人也给予了非常多的关注。但是呢,这两年没有什么声音出来。人形机器人的风头被会跳舞、会打太极拳、会耍手绢的王兴兴的宇树科技抢走了。沉寂两年之后,稚晖君带着他的灵犀X2又回来了,依然拍了一条视频在B站上。大家可以去看一看,大概有个十几分钟吧,还是非常有趣的一个机器人。
首先让我们来看一下灵犀X2的硬件。这个机器人呢,是一米三的高度,33.8公斤的重量。
这种机器人一般都不会太重,因为它有的时候会摔倒。如果太重的话,会砸伤人。而且这样的机器人你还要搬来搬去。至少现在吧,这些机器人可能更多的是实验室性质。你也不指望这样的机器人真的做什么很重的体力劳动,能够搬动多重的东西。还是在验证说,这个机器人到底在干什么。所以做那么大个,做那么重,其实意义不大。
大家注意特斯拉的擎天柱,是比较高大的,也比较重。但国内的宇树科技做的这个跳舞的,灵犀X2,都是一米三高一点点,大概也就是三四十公斤。在这个里边有一句话特别有意思,它叫完全的串联机构。我去查了一下,说到底什么叫完全的串联机构。就是在灵犀X2上有28个自由度,也就是说它有28个关节,是完完全全串联在一起的。跟他所对应的呢,一定是并联。就是很多时候,机器人身上有很多的连杆,它需要有好多个电动机,好多个马达一起工作,才能够驱动一个关节在运动。这个其实就是并联机构。
那并联机构的控制起来就比较麻烦。当然并联机构也有条好处,第一个好处是力量比较足。如果希望一个机器人可以搬动很重的东西,或者做非常高难度的动作,它里头一定会有一些并联机构在里头。如果只是希望能够更好的去控制它,那么串联机构是比较好的。但是串联机构它的负重要差一些。还有一个呢,并联机构的好处是精准度很高,因为你有多个电机一起来控制,精准度要比串联机构要高。
一般情况下我们看到的各种各样的灵巧手,就是机器人的手,一般都是并联的。像我们去看特斯拉的擎天柱,它呢里头有一部分是串联的,但是有一部分的这个关节就是并联的,因为它是需要干活的,需要负重的。而且它的灵巧手都是并联的。现在看到稚晖君的灵犀X2,大部分的视频,这个机器上是没有手的。最后是有一个缝葡萄的视频,那个上面虽然有手,但是那个手,我觉得大家看到还是一个夹子吧。你说的只是手,稍微有点看不起手的意思了。所以呢,他们在这个里边使用的全部的串联机构,这样就会很好的。
进行运控算法的解偶,因为偶合嘛,就是说电机必须跟那个电机配合在一起才能工作。那如果全都是串联的,等于每一个电机都是独立的,那你就不需要去进行这样的偶合运算了。所以他解偶解得非常好,目的呢也很简单,就是你可以买一大堆轴自己去拼,拼完了以后呢,拿我的这些算法去控制它,就不需要进行单独的训练了。你如果是并联机构的话,你就需要进行单独的训练,这两个电动机到底怎么配合,那两个电动机到底怎么配合,甚至可能这四五个电动机怎么配合,才能做出一个完整动作来。他现在这个训练成本就会下降很多。
然后另外一点呢,他还讲了一个叫惯量上移,惯性的惯,流量的量。他的意思就是说,他尽量的把这些比较重的关节都放在躯干上,就尽量距离躯干近一些。什么意思呢?就是他的胯关节,还有肩关节,这些发动机呢,或者这些马达呢都很重。他的肘关节,其他的一些关节呢,就会轻很多。这样的话这个机器人就会相对来说比较稳定,就跟我们看到这个说锻炼什么呀,锻炼核心肌肉组,你还是在躯干周围,要把所有的这些发力的关节都放在上面。这个是新的设计。
讲到这大家有没有想过,咱们人到底是串联的机构,还是并联的机构?告诉大家,人身上的很多关节都是并联的,因为我们不是这种马达,马达是转就完了,我们都是肌肉,都是这种线性的马达,这个是需要很多组肌肉配合在一起才能做完整动作的。
除了他这些机械结构之外的话,他们这一次还使用了柔软的外壳。具体是什么外壳,他最后应该也没有披露出来,但是呢做了很多的实验,然后选了一种柔软亲肤的这种外壳。这样的话它摔倒呀,或者是你去搬运它呀,不容易受伤。而且,你摸它的时候也会有一些比较亲切的感觉。
而且像他现在的机器人呢,是完全的模块化设计,可以替换,可以自由的拼装,这个是他最大的一个特点。他本身就卖这些关节,而且呢,他的这个电源模块,其他的各种区块,都是可以拆开来换的。你说哎我这想换一个别的关节行不行?
想换一个其他的核心设备行不行?都是可以换的,自由组合。这个是它的灵犀X2比较有意思的地方。而且最逗的是什么?它这个脑袋里可以插个手机。你看到他的机器人前脸,是一个半透明的一个壳。你要想在上面显示什么东西怎么办?直接把一手机从后脑勺啪插进去,那个手机屏幕朝前,朝后就看不着了。你就可以通过前面这个半透明的壳,看到手机上面的一些信息。甚至他还做了一个实验,一个女生戴着VR眼镜跟他们开会,这边这个机器人的脸上,就直接显示着这个女生的脸。你相当于是一个人,就可以远程的去开会去了,也是一个很有意思的设计。
那么说完硬件以后呢,这个东西的软件,也就是灵犀X2的灵魂是什么样的呢?首先它里边有一个基座大模型,叫GO-1。这个G呢应该是Genie,精灵的意思。O呢应该是operator,精灵操作。它做了这样的一个基座大模型。这个基座大模型呢,是通过强化学习的方式自己训练的,可以直接对视视频、音频,和他整个身体的所有动作进行反馈,直接端到端的生成非常多的动作。而且他这个GO-1这个模型,针对特定的硬件,不是说我这个模型,就是给灵犀X2设计的。它是个基座模型,你可以拿出来给其他的机器人去用去,这个是非常棒的。
它的GO-1这个模型呢,是在虚拟环境下训练的。在这个展示视频里头,有很多训练灵犀X2的这个环节。这些环节大家一看就知道,它不是真实的物理的机器,而是在一个3D的场景下,让机器人自己在3D场景下,在一个物理引擎下进行训练。这样的话他的训练效率就会高很多,训练的成本就可以急剧的下降。你不需要说把这个机器人磕磕碰碰,把地板都砸出一个坑来,直接在3D的这个虚拟环境下,去训练就可以了。而且呢,它现在还进行了开源,基座大模型以及呢,训练数据集都直接开源了,大家拿去用去。现在他因为使用了这种强化学习的方式,去训练他的基座模型,很多的这种泛化能力,或者很多的动作,他不需要学习,不需要训练。
就可以零样本泛化非常多的能力。你告诉他说:“请把什么东西拿到哪去,把什么东西给我去看一下,现在是几点了,这个药盒上写什么东西。”他这个大模型不需要重新训练,就直接可以给你做了。这个是非常非常棒的,就已经接近了前两天咱们去看Figure 02的那个状态。
这个机器人现在可以走路,可以跑跑跳跳,甚至还可以稍微跳个舞。为什么要讲他跳舞呢?因为他跳舞的过程中,是有一些灵性的,你会有一些觉得他像人,而不是这个春节转手绢那个东西,完完全全就是编成的一个机器。这个机器人呢,还可以踩平衡车,这个是非常有意思的。我家里有那个小米平衡车,你是需要控制它的重心的,重心靠前这个车就往前走,重心靠后往后走。这些东西他都可以,通过对他的基座大模型进行强化局训练,就直接可以做到了。
甚至最逗的是,他这个机器人是可以骑自行车的,骑个自行车在一个地下车库里头跑了一圈,这个非常非常的惊人。稚晖君最早出名的一个视频就是自动驾驶自行车,他把一个自行车上加了这种陀螺稳定器,让这个自行车自己在这个园区里边自动驾驶,这个是最早出名的。现在好机器人上去骑一圈,我们看到了以后还说:“哎,这玩意会不会溜车,会不会上下车?”这个我觉得可能有点难,但是你把它搁在车上,他能骑走也已经很不容易了。
大家注意,他这个视频并不是一次完成的,整个视频是做了一个月的。B站网红剪辑视频、编排视频这个能力大家还是要相信的。他整个的灵犀X2,据说是设计训练了三个月,视频拍了一个月,我们看到的应该也是众多次失败中成功的那一次。那你说有没有什么时候,我买一个这样的灵犀X2回来,就直接可以满街跑,可以骑着自行车出去干事去了?这个可能还要再等一等。但是因为他的基座大模型是开源的,他的训练数据也是开源的,很多的实验室、很多大学就可以把这些东西买回来,自己在里边再去添加数据,再去微调这个大模型,就有可能能够实现这些未来的憧憬。灵犀X2呢。
应该是一个更像人的机器人。今年春节的时候,宇树科技的机器人上去跳舞,就好多人说:“你讲一下,讲一下。”这个一直没讲为啥?因为在一个空旷的场地上,所有机器人指挥划一地去跳一个舞,这件事真的没啥好讲的。我们到很多商场的这个地下一层,儿童游乐区里头,都会看到这种机器人在里边跳舞。这玩意编个程序就完了,甚至你拿个遥控器就可以搞定,所以这玩意没啥好讲的。但是一旦他像人了,这个事情就有意思了。
灵犀X2就是会更像人,里边演示了很多面对面沟通交流的这个样板。到目前为止,宇树科技还在表演什么打拳、前空翻、后空翻、侧踢。现在,灵犀X2已经可以坐在你身边跟你聊天了。稚晖君拿着咖啡和牛奶,举起来问他说:“我晚上睡不着应该喝哪个?”他告诉你说:“你应该喝牛奶,不应该喝咖啡。”然后拿个药盒给他看,说这是一个什么药,应该怎么吃,或者告诉他说现在几点了,给他一个手机,现在这手机是几点了。这个比较有意思,当时给出的时间是凌晨5点多,我估计他加班了,应该不是早上5点多起来去干活了,应该是头天晚上就没睡。这个时间看得出来,这个稚晖君还是非常非常拼命的。
在这个机器人的胸前有一个灯,这个灯呢是可以按照呼吸的韵律去闪烁的。那你说我在你身上装个呼吸灯,这事有多难吗?现在有很多很多的这种5块钱、10块钱的设备上,都有一个呼吸灯。这个呢,不是那么容易的。当你挂上大模型以后说:“哎,你现在开始呼吸了。”那么他的这个呼吸节奏还是可以给大家一个非常强的,这是一个人的这种暗示的。这个还是值得强调一下的。
以及呢,它里头有很多很多的小动作。很多的机器人,就是你跟他说话的时候,他是不动的,或者你让他去做一些腿部动作的时候,他的手是不动的。为啥?因为分别训练的。但是在灵犀X2上,当他的腿部发生动作的时候,他的手也在动。当你跟他聊天的时候,他的机器人的全身,包括手脚都会发生一些动作,甚至这机器人坐在那还抖腿。这个不是很礼貌,这个是怎么回事?
第一个它像人。第二个就是它整个的模型是端到端整体训练,所以这个是值得跟大家去讲一讲的。我们去看Figure 02的这个视频的时候,你会发现什么?就是他在整个做动作的时候脚不动,因为他整个的这个大模型只训练了上半身,底下这个脚的部分腿的部分是另外一个模型在管理。那么它这块是完整在一起的。
智源科技的未来会是什么样呢?稚晖君的这公司叫智源科技。首先呢,它应该会成为后院车库机器人的零配件工厂。很多的中国公司都在干类似的事情。美国人是喜欢在车库里干活,喜欢在后院里头搞发明的。但是他们要搞发明的时候,需要很多的零配件。那你可以到智源公司来去购买他的各种的关节、很多的控制器,还有它的开源模型以及开源的数据训练集。可能一堆要去创新的人就可以在这个基础上继续往前走了。不像是那些卖99,000的这个机器人,你买回来除了能够做租赁、能够挣点钱、能够站在门口招揽个生意之外,对于整个的具身智能的发展其实是没有帮助的。它的开放零配件、自由组合、开源基座、大模型和训练数据能够使智源科技在未来的机器人标准中占有一席之力。这个还是非常棒的一个方向。
而且只有在人身边的机器人才值得关注。那些在广场上排着队跳舞的这个就没什么可看的。就像我们去看无人机表演一样,几百架几千架无人机在天上表演,这个就是写程序呗,写错了以后debug,这个就是一个工业斯巴达能力的表现而已。但是一个机器人可以坐在我们身边可以跟我们聊天,跟我们聊天的同时下意识的有手部有身体的动作,这个是值得出来大家关注一下的。
当然宇树科技呢也不是说就停留在这个硬件机器人的基础上,毕竟这是杭州公司嘛。所以现在呢,他们也在挂着DeepSeek,快速的推进各种多模态模型的落地,希望他们自己的机器人也可以越来越像人,可以像人一样跟大家去聊天。这块还在不断的努力。现在国内各大机器人厂商都在从硬件机器人向这个完整机器人过渡。
那么,最后呢,稚晖君也说了,他希望他们家的灵犀X2未来可以去替代吉祥三宝。哪吉祥三宝?保洁,保安,保姆。他希望能够做这件事情。我觉得,以现在灵犀X2所体现出来的人与人沟通交流,以及特别像人的这样的特性来看,他距离吉祥三宝应该要比宇树那个会耍手绢、会跳舞、会打太极拳的那个要近一些了。这就是我们今天看到的稚晖君最新发布的灵犀X2机器人。
其实呢,机器人本身并没有那么重要。在这个背后开源出来的基座大模型和训练数据集,要比那个机器人更加重要一些。好,这个故事今天就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。