硕鼠的博客站

范路的博客主站,时而会发些东西。

稚晖君刚刚发布的中国人形机器人跟特斯拉的擎天柱相比,到底有什么不同呢?大家好,这里是老范讲故事的YouTube频道。今天咱们来讲一讲,前几天刚刚开过发布会,一下推出一大堆人形机器人或者各种新机器人的稚晖君到底都发了些什么。他跟特斯拉的擎天柱之间到底有什么差异?

稚晖君呢,现在有一个很神奇的名字,叫“B站年更UP主”。为什么叫年更UP主?像我这种叫日更,基本上每天都有节目;有些是周更,有些是月更。但稚晖君呢,现在基本上是每年更一条。原来更新的还稍微频繁一些,后来在创业开始做人形机器人之后,基本上变成年更了。

这一次呢,发了一堆的机器人。第一个是远征系列,远征系列的人形机器人是A2。长得好不好看这事咱就不研究了,反正也是长得像个人一样吧,两个胳膊、两个腿,一个躯干、一个脑袋,对吧?基本上就是这样的一些东西。

然后呢,有一个叫A2杠W的机器人。这个机器人呢,把下边的脚换成了轮子。这车有上半身,下面是一个小车,这个上半身是挂在一个架子上面,可以四处移动的。

还有一种呢是A2 MAX。这个叫Max,一般会大一些。就这个机器人还是小的,但是它可以搬运40公斤的重物,算是重载特种机器人。就一般情况下,用电动机做的这些机器人呢,也就是20公斤或者最多30公斤,但A2 Max是可以搬40公斤的。不过这个机器人呢,目前还在研发过程中,还没做出来。

到最后呢,有一个“one more thing”,就是多出一样东西来,是什么呢?叫灵犀。这个呢是小一些的机器人,灵犀X One和灵犀X One杠W。一般杠W的就是把这个腿去了,换成轮子,可以挂在车上走来走去的。

所以呢,一共发了五款机器人。这一次,稚晖君对机器人做了一定的划分,表示这个机器人是模块化的,分为几个部分。第一个叫动力域,就是可以产生力量的各种关节和它的电动机。第二块是感知域,指的是可以听到、看到,以及在手指尖上可以做些什么事情。

因为里面演示了一个特别有趣的东西,中国机器人嘛,干嘛打麻将啊?你说打麻将这事,告个摄像头不行吗?打麻将还有一个东西叫自摸,对吧?你得拿起这张牌来,不能看,得知道是什么啊。这是中国机器人必须要有的功能。

其实,人跟机器人比较起来,有一个特别麻烦的东西是什么呢?就是人身上的皮肤全都是传感器。我记得我们在盛大创学院的时候,那时候也尝试做机器人,后来发现最贵的东西就是传感器。你要想把这一身所有的皮肤都做成传感器,这是不可能的。所以只能怎么着呢?就是机器人上有个别地方有传感器。你摸了特殊的地方,它会做特殊的动作;没摸着那个传感器,它就做不了了。这些都是人形机器人跟人之间比较大的差异。

再跟大家讲一个小故事。大家知道复印机和这种高档的扫描仪,或者是高档的复印扫描一体机里头最贵的部分是什么?也是传感器。那它的传感器干嘛用呢?就是能够去测试你这张纸放上去以后的正确位置。它不是说我整个把它都扫完了以后,再在里边去确认哪一块是纸的位置,再去把它摆正,不是这样。以前的扫描仪上有很多传感器,你把纸摆上去以后,它就知道你这个纸摆在什么位置,是多大的纸,横着摆的、竖着摆的,这都能算出来。

所以,第二个部分叫感知域。第三个部分是通讯域。作为一个机器人来说,你不可能完全断网工作,所以它一定是有通讯的部分。

对吧,可以跟这个服务器,或者跟一些其他的网络上的设备进行通讯。最后一块呢,是控制域。控制域实际上就是现在AI大模型该干的活。

现在把机器人分成了四个组成部分,而且稚晖君对机器人还划分了五个发展阶段。这五个发展阶段,第一个叫G1,是传统自动化阶段,人工编排基本上不具备泛化能力。什么意思呢?就是你说好了,把这个螺丝从这边拿起来,到那边拧上。最多可以干什么呢?拿起螺丝以后,前面看看这个洞在什么地方,然后正确做好位置,啪,把它拧上去,这个是可以做的。

但是什么叫泛化能力呢?就是这个机器人不在做编程的情况下,拧完螺丝以后,可以到那边去拧螺母,或者说去做一些拆螺丝,做一些其他的事情,做不了,对吧?你换一个工作就得重新编程啊,这就是。

然后G2是什么呢?原子能力的提炼与复制,包括姿态控制、抓取、力控插拔,插进去到底有多大力量。这一块依然需要大量的手工编排,但是这一块已经可以进行拼插了。就是说,我把这一大堆的原子动作训练好了以后,就可以让他们进行衔接了。这是第二步。

到第三步,就是用AI数据和算法来驱动这些原子能力。我们不用再去编程了。说什么叫拧螺丝,这个孔应该拧哪号的螺丝,什么叫做姿态控制,我能够站着,还是能够坐着,还是被人踹了一脚,怎么能够不倒下。这个原来是靠编程的,就是如果这个数值在多到多少之间,向左迈一步,大概就是这样的一种东西。现在是变成用AI训练,就是你给他一大堆数据去做一些训练,这个训练是需要单独采集一大堆数据,再去训练不同的技能,可以做一些端到端的训练,而不是说原来我靠摄像头拍摄到了一个什么东西。

在后边,先去识别,识别完了以后再去做什么动作。不是这样,而是说我把一大堆人做动作的过程记忆下来,记忆完了以后再去对很多次人做同样动作或者做类似动作的数据进行一个训练,就完事了。这是现在G3到G4的通用操作大模型了。

什么意思呢?就是以物理逻辑对齐之后完成一系列的任务。到G3的时候,虽然他已经开始用大模型训练了,但是他最后记下来的还是一堆的原子任务,比如拧螺丝、拿东西放到哪去。到G4的时候,说:“请把什么东西从哪拿下来,放到什么地方去。”你这个力度应该怎么去判断力度,其实也很简单。你说我捏针,那一定要用点力;那你说我要捏个葡萄,那你要轻一点。这就是什么呢?就是用一些物理相关的底层逻辑进行一下对齐,说你不能把葡萄捏破了,也不能因为手上力度太小,拿起针来针掉了。

这个是到G5,G5就是AGI了,就是通用人工智能了,基本上长得跟人一样,可以做各种各样的事情。这就是G5。

所以,现在稚晖君把整个机器人的发展历程归结为五步。而现在稚晖君的智源科技目前在干什么呢?他们现在正在向G3进发,开始做一些人工训练,已经不用再去编程了,可以进行动作捕捉,然后进行大数据训练。现在属于越人工越智能这么一个阶段。像他们做的有轮子的机器人,无论是大号的有轮子还是小号的有轮子,实际上干的活都叫数据采集机器人。

是什么意思呢?他把腿跟上半身分开,腿的那部分单独训练,上半身则要去拿各种东西,做各种各样的应用,上半身单独去训练。所以他们叫数据采集机器人,采集人在他面前做的各种,比如说拿东西、拧螺丝、穿针引线、摸麻将,训练完了以后。

他就训练上半身。现在呢,在做大量的人工数据采集,然后进行端到端训练。那么说到这里,特斯拉的Optimus,也就是擎天柱,他们到什么样的一个状态了呢?咱们得比较一下。现在特斯拉也在干这个活,招募大量的人机训练采集人员。当然,大量到多大呢?去年招了50多个,今年应该还在继续招募,也在越人工越智能的这个阶段,就是靠采集人的数据去训练Optimus。

他对这个人员的要求是什么呢?170到180厘米,这个我是合格的。然后呢,可以负重30磅,也就是27.2斤。这个要求真的是不高,因为大家要知道,在欧美国家,如果要求一个工人,哪怕是蓝领工人做这种很重的负重,他们通常是使用机械的。所以呢,他们一般不会要求工人去做特别高的负重,因为一旦发生工伤,他们也很麻烦。所以他们对这块的要求就是30磅。

然后呢,要求穿着动作捕捉服步行7小时。这件事怎么说呢,反正也挺辛苦的。动作捕捉服这个东西,现在倒是没有多重,它就是一身衣服。在这个衣服上呢,有一些电子元器件,你在一个房间内部运动的时候,它就可以把这些电子元器件的运动轨迹都捕捉下来。可能跟我们正常穿的衣服差不太多,如果不要求他跑跳纵跃其实还好。但是连续走7个小时,这个你让姑娘去逛街这事行,其他男生估计比较难以承担这样的体力劳动。

然而挣的钱并不少,时薪48美金。从去年的LinkedIn数据来看,招募了大概大几十人,今年继续招募。所以特斯拉现在也在干这个活。那么稚晖君跟马斯克的机器人比起来,到底是一个什么样情况?在机械的部分里头,其实甭管现在稚晖君的拿出来的机器人,远望系列、远征系列还是灵犀系列,包括马斯克的Optimus擎天柱,都是实验室产品。

这样的产品,离最终的量产还是有一定的距离的。在智能化路线上,都在走越人工越智能的这一步。现在都是在招募人员,进行端到端训练。但是呢,这里头有一个差异,就是马斯克的Optimus应该是直接做整体端到端,就是连手带脚整个的动作一起端到端全训练了。而稚晖君呢,是身子跟腿是分开的,先搞定原子动作训练,然后再想办法进行合成。这是这样的一个工作方式。

马斯克的Optimus已经可以在特斯拉的工厂里边表演上班了。还注意,这个上班是表演出来的。而稚晖君的远征系列机器人,现在是不是可以上汽车厂里边去干活了呢?应该也有机会,只是还没有去表演。因为我们去看一下智源科技后边的投资人,有一个投资人叫比亚迪,还有一个投资人叫上汽集团,还有一个投资人叫三花控股。那时候,三花控股干嘛?三花控股也是生产大量汽车原配件的。这些公司都是他的投资人。所以,后面稚晖君的机器人去汽车厂打螺丝,应该离我们已经不远了。只是国内的工人工资,要比机器人更低一些。

最后,开源方面呢,马斯克的Optimus虽然并没有说我马上要开源,但是内外结构的照片影像资料,从来不吝啬往外放。从最早的只有一空框架,线都甩在外边,到后来的各种模型,都是给大家看的。大家照这个样子去做新机器人,或者说大家做机器人的时候,是不是参考了马斯克机器人的设计,这件事情马斯克自己其实也没有那么在意。而智慧勋的智源科技这里,就直接全方位开源了,连软件带硬件一起都开源。特别是他最后发布的这个灵犀机器人,发出来以后说,我们就不跟其他人打价格战了。马斯克号称一个机器人可能10万块钱,或者几万块钱人民币啊,人家说,我不给你打价格战了,那多少钱呢?0元。

什么意思?整个开源,连图纸带里头所有的软件通通都开源了。你想装,你自己装去。变成这样的一个设备。我们前面讲到的什么感知域、控制域,后边的各种通讯域,所有跟软件相关的,稚晖君定义好的这些机器人组成部分也都开源了啊。就这些软件架构,外边都是可以直接使用的。

那么稚晖君的机器人路线中,是否有马斯克的Optimus不具备的部分?有啊,哪一部分不具备?就是有一些中国特色。打麻将吗?不是啊,什么是中国特色?叫卖零部件。马斯克从来没有说我要把擎天柱的奠基卖了,要把擎天柱里面的一些什么配件卖了。但稚晖君说,我们要卖。卖什么呢?各种动力关节。他们把这东西定义了一个名字,叫power flow。这样的东西实际上就是它使用无刷电机,高效模块化,灵活可靠可控制,控制也很精准,而且很稳定的这样的一种关节。我把这玩意都卖了,我不是设备开源了吗?你可以照着我这个开源的设备、开源的图纸重新造机器人。但是机器人里的关节,你就买我的就完事了。咱卖的也不贵,拿着这些东西,你就可以拼出来完整的机器人了。他在走这样的一条路。

那么稚晖君给巨身智能到底能够带来些什么呢?还记得斯坦福前面发表的这种机器人啊,虽然他的大模型部分非常惊艳,可以做各种各样的事情,但是这个机器人在机械的部分和电器的部分还属于在乐高积木的水平上。直接在底下是一个小平板拖车,平板拖车上放的是笔记本电脑,剩下的东西大量都是用的乐高积木或者一些这样的东西来实现的。以后再去做类似这样的东西,各个大学在想,我们要在机器人上有所进展,那就可以直接用这些动力关节,用开源的软件架构快速推进了。而稚晖君不光是开源了灵犀系列的设计图,开源了所有的软件架构,同时卖动力关节,还开源了机械手臂。你说我就要个机械手,也有开源的产品。而且各种的软件中间键,你说我再想去调谁家的大模型,怎么去控制这些设备,通通使用稚晖君家的这些开源软件就可以。

稚晖君的智源科技呢,到现在为止,融到的钱应该还算够花。短期内这些产品推向商用,可能还有些难度。但是呢,加上中国相对完善的产业链,应该最后会有一个结果。这个绝对是一个长期投入、长期产出的一个项目。

未来的全世界的这种机器人领域里,或者说叫人形机器人领域里,智源科技应该会占有一席之地。甭管是他现在推出的这些动力关节,还是说他现在确立的各种标准,这个先行者就是定标准。你看,我给你分好了,机器人分几块,机器人发展分几步,那么大家可能会照着这个方向继续往前走。这也算是稚晖君为整个巨身智能能够留下的痕迹吧。

至于说以后到底能够占到多少市场份额,垄断基本上已经甭想了,尽量多占一些,这就是他现在能够争取的事情了。好,这一期就跟大家讲到这里,感谢大家收听,请帮忙点赞,点小铃铛,参加Discord的讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

 

Both comments and pings are currently closed.

Comments are closed.

Close Bitnami banner
Bitnami