2025年了,我们距离人形机器人的普及到底还有多远呢?大家好,欢迎收听老范讲故事的YouTube频道。
现在,人形机器人好像距离我们已经不远了。特斯拉的擎天柱已经可以在特斯拉工厂里边打螺丝了,Figure 01也在宝马的工厂里边打螺丝呢。刚刚过去的CES大展上,黄仁勋背后站了一整排的人形机器人,包括前两天我们看到上山入海的这个宇数科技,也站在黄仁勋背后,因为他们也是使用的英伟达的解决方案。
那是不是人形机器人就已经快要到达我们面前了呢?甚至这两天还有传闻说OpenAI又重启了机器人项目,重新开始为机器人项目做了招聘。这个公司到底在干什么?宣布什么不重要,你看他贴出来的招聘广告,LinkedIn上是有招聘信息的。你可以看到有很多机器人相关的岗位,在OpenAI公司下边已经列出来了。
而且OpenAI呢,自己还投资了两家人形机器人公司,一个就是刚才咱们讲这个Figure 01,现在在宝马工厂里边打工的这个,还有一个叫X1 Technology。这个公司呢,到现在为止也不知道他们做出来是什么,他们展示的人形机器人是穿着一整身的秋衣秋裤的,所以很多人都怀疑里边是个人,我也没有看到进一步的报道。
那么大家有没有想过,一个人形机器人的成本和技术难点到底在哪?是不是造这壳子比较费劲?按照咱们正常人的逻辑思维来看,这个壳子应该不费劲,包括他的骨架支撑,应该都没有那么费劲,因为人形机器人这种东西对于材料、对于工业设计,其实要求并没有那么高。
那你说电动机,这个玩意听这个名字,好像就不是特别难搞的一个东西,现在手术机器人都能造,造个人形机器人的精度要求应该没有手术机器人那么高吧,所以这块应该也不是特别费劲的地方。那你说剩下的呢?什么摄像头、麦克风、音箱、显示屏,这玩意你到华强北去抓呗,这有多费劲呢?应该都不贵啊。芯片,这个东西一定很费劲。呃,现在呢……
其实,做人形机器人所需要的芯片早都准备好了啊。因为大家都在疯狂地开始开发板了,大家说:“你们赶快拿着我这开发板,出去做人形机器人啊。”这块应该也没有那么费劲。而且,人形机器人这种东西,它并不需要在本地做特别高密度的运算。大量的数据和运算,其实还是要去云端的。它并不需要把什么像H100那样的东西塞在里头,可能最多是在里边塞一些车规级或者说自动驾驶汽车类似的芯片进去,就可以了。
所以在这块呢,应该也没有那么费劲。其他的仿真皮肤,咱们做一个机器男友、机器女友,这个有可能费点劲啊。但是,硅胶娃娃都做出这么多来了,应该也不难啊。那么,到底是什么东西让整个的人形机器人到目前为止都没有办法走到我们的面前来呢?其实有两个东西现在是比较麻烦的啊。
第一个东西呢,是传感器。这个可能跟大家想的没有那么一样,并不是说它需要个摄像头、需要个麦克风就算是有传感器了。有没有人想过,复印机为什么那么贵啊?你说打印机挺便宜的,扫描仪也挺便宜的,为什么把俩拼一块变成一复印机,这玩意都变得那么贵了呢?因为复印机里边传感器特别多。机器人其实也是如此,它有这个位置的传感器,有姿态的传感器,我到底是动成什么样了,角度速度是什么样的。当它开始动作的时候,力量是什么样的?我要去捏一个鸡蛋,我能把鸡蛋捏碎了。
还有大量的触感的传感器,这个非常麻烦。你像我们一个人站在这,那真的是浑身上下的皮肤都是有触觉的。它有这么多的触感传感器,你才能够让整个的机器人动起来。这是第一个比较难的东西啊。目前为止,这一块到底怎么去设计,怎么能够让机器人浑身上下都有触觉,把它的所有的动作你都可以有反馈?抬脚了,我到底抬了多高?我的重心稳不稳?我的速度有多大?我拿了东西以后是捏紧了,还是从我手里头滑掉了?有什么东西靠到我后背了,到底是什么样的东西?我们这一身皮,实际上是一身的传感器,冷热、触感、各种各样的压力回馈。
这个东西对于机器人来说,还是挺麻烦的。还有我们的耳朵啊,不是听声音的,而是什么呢?动态捕捉。我们的头到底是歪了还是正了呀,或者是速度是什么样的呀。就这些东西,对于机器人来说是很麻烦的,而且需要非常非常多的传感器,很贵。具体应该如何去部署啊,这个他们还需要去想。
你像我们人还可以在后背上写字,写完了以后全都给你写出来,机器人怎么办呢?后边给你装一个摄像头吗?这不是吓死你!这个还需要重新去设计啊。这是第一个。
然后第二个是什么东西呢?你这么多传感器了,需要收集大量的数据,然后这些数据还需要再去训练啊。你要去训练那个大模型,不光是像现在GPT-4O这样的模型,我可以跟他说话了,他可以看到我了,就可以跟我进行交互。当我有这么多传感器的数据加入的时候,那你是不是还需要再去做一个新的模型,出来才可以?让这么多传感器收集起来的数据,让整个的机器人大脑一起去顺畅地运作起来,然后像人一样去工作呢?
OpenAI现在重新开启去招聘机器人相关的岗位和工程师,那么他们的路径啊,可能跟大家想象的就不太一样了。什么意思呢?OpenAI其实原来有一个机器人部门,几年前给解散了。当时还发布了一个特别神奇的产品,是一个机械手啊,就一只手。然后这个手可以干什么呢?就是一只手的情况下,单手玩魔方啊。你给他一个魔方,然后他手一动下来,可以把这个魔方整个复原出来。
你给我一个魔方,让我俩手掰,我都不一定把它掰出复原来。他一个手可以把这个魔方复原出来,这个是非常非常难的。你想,五个手指头啊,你抓住一个魔方以后,怎么固定,怎么能够保证那一层在转动,让这个魔方在你的手里边去翻转,这个是非常非常麻烦的。比现在特斯拉也好,或者是Figure 01也好,他们所展示的这种灵巧手,要灵巧得多得多。
他们当时展示过这样的东西,展示完了以后呢,团队就解散了。为什么呢?很简单,没有足够的数据让你继续训练下去了。你这种东西再往后训练。
到底应该向哪个方向走?不知道了。再想收集相关的数据,没有了。现在,OpenAI去训练ChatGPT也好,去训练它的Sora,去训练它的DALL·E这样的图形图像的引擎也好,都是哪来的数据?都是爬出来的,对吧?四处出去爬,发现谁家网站的数据好,就冲上去,直接把这个网站爬到瘫痪掉。但是,他想去训练这个机械手,想去训练机器人,这些数据他没有啊,谁也没有这些数据。那他不能自己生编吧,不能生造这个数据,所以就直接把这个项目停掉了。
但是现在呢,他又重新开启招聘。他招聘的岗位呢,叫电子感知工程师,只要还是要去做传感器;然后呢,是机器人机械设计工程师,还是要有些机械设计方面的能力;最后呢,是要招聘技术项目经理。估计呢,他们走的应该是谷歌这条路。待会咱们再往后讲,什么是谷歌这条路啊?
他们招聘了这些工程师出来以后,下一步肯定是要设计各种原型机。设计完了原型机以后,出去说,你们照着原型机去设计吧。设计完了以后啊,就可以去收集大量的训练数据了。然后OpenAI就是去做他最擅长的事情,把大家收集的训练数据爬回来也好,买回来也好,或者是通过各种的协议啊,拿到这些数据以后,训练大模型。然后拿着这些新的具身智能大模型,再给这些机器人去使用,这个应该是一个完整的闭环。
那么,什么是谷歌路径呢?大家想想,谷歌当时做安卓手机怎么做的?他也是招了一帮工程师,他们自己也能把手机做出来。但是呢,他并没有自己去做这个东西,而是当时找到了HTC,说来咱们做吧。做完了以后,拿着原型机再去找三星,再去找摩托罗拉,找一大堆的公司,说咱们一起来做这个东西吧。谷歌手里握着安卓操作系统,全世界的手机厂商除了苹果之外,就都向着安卓这个方向前进了。这个才是OpenAI目前想要去走的路。当然,他跟谷歌当年还差一步,差在哪呢?谷歌是已经做好了完整的操作系统,也做好了工程样机,大家就只管照着做就完了,每一家去设计自己的手机。
各家自己再在安卓系统上去修修补补,只要不要把底层改掉啊,上面你去修修补补都没关系啊。这是当年谷歌干的事。然后现在OpenAI呢,还缺一点点,就是它并没有一个完整的操作系统。它要想得到这个完整操作系统,首先是需要一大堆的工程厂商给它提供训练数据,然后再拿这个数据回来,去进行大模型的预训练,才可以有完整的机器人大模型,或者叫机器人操作系统出来。再把这个东西拿出来给厂商,说:“来,你们再在我这个基础上,按照我的规范去设计你们机器人的各种结构。”
大家注意啊,当时安卓还干了一个特别有意思的事情。他呢规定了,安卓手机就必须要使用什么什么的ARM的这样的CPU,要使用什么标准的,必须要拥有GPS,之前很多手机是没有GPS的,必须要有触屏,必须要有返回键。当时安卓特别多,它的规范里头是必须有返回键的。然后呢,还必须要有运动传感器,还有高度传感器。他就做了这样的规定,这个就属于是安卓兼容设备的规范。这也是现在OpenAI要去做的事情。
所以我们从他招的人来看,基本上是可以看到这条路径的。如果这条路径走通了的话,那可能未来就是特斯拉去做擎天柱,然后剩下的,我们就开始走安卓路线了。大家只要照这个标准上就都可以有了,可能这就是OpenAI对于这个机器人未来的一个规划。那么后面这些硬件厂商跟创业者,他们的机会在什么地方呢?
原来谷歌走这条路,这么多的手机厂商就都冲上来说:“我们去做安卓手机就可以了。”未来的机器人应该也是这样的,未来肯定是分工越来越细,而且这些分工之间呢,是走的松耦合。什么叫松耦合?不是说我自己是一公司,从头做到尾,什么都做。谁是自己一公司,从头做到尾,什么都做的?苹果对吧,还有特斯拉,他们是从头做到尾,什么都做。芯片是自己的,操作系统是自己的,大模型自己训练的,那个设备也是自己设计的,最多找一代工厂去生产一下就完事了。
而像特斯拉都不用代工厂,人家自己有工厂;苹果是自己没有工厂的,必须走富士康啊,走果链企业才能把它做下来。这是从上到下,什么都干的。另一方面是干嘛呢?相互之间是松耦合,就是遵守同样的标准就可以了。我们并不需要说,相互之间拥有股权的这个关系,或者是你拥有我,我拥有你,没有那么严格的要求。我们只要按照统一的标准做就完了,这就是一种松耦合配合方式。
那么他这种配合是怎么样的呢?第一个最上面提供操作系统的人,上一代其实是微软,微软提供了操作系统,然后下头就有一堆叫PC的厂商,他们把这东西造出来,只要装上Windows,能跑就可以去卖去了。原来是这么干的。最近的就是谷歌,生产了安卓的这样的操作系统,剩下的人按照这个谷歌的标准,生产出手机来。然后呢,到谷歌那边去做认证,就是你通过认证以后,谷歌就把它的GMS(Google Mobile Service)这样的东西装到你的手机操作系统里头去,你就可以去卖安卓手机了。
这个是提供操作系统的人。下面这帮人其实不是手机厂商,不是什么小米、华为,不是他们,而是什么呢?这是一帮设计室,很多的design house。因为我们以前在早年的时候,跟非常多的安卓手机设计公司去打过交道,他们就是设计手机的。他们不负责做品牌,也不做营销,更不做生产,只做设计。设计完了以后,找一些代工厂把这个手机做出来,做一些测试,就可以放着了。
然后再往后,还有一波人,就是像小米这帮人了。他们干嘛的呢?他们叫品牌和运营商。我去运营小米这个品牌,我去找设计师把这个东西设计出来。后来当然小米自己是有设计室,设计完了以后,我去到代工厂去加工,再在自己的渠道和门店里边去卖这些手机。最早的这些东西都是完全分散的,设计室是设计室,代工厂是代工厂,品牌商是品牌商。所以这个里边是四个角色:操作系统、设计师、代工厂和品牌运营商。
是四种角色进行松偶合,形成了早期的这个安卓手机市场。那么到后来,相互之间竞争兼并,有很多的公司倒闭了,手机的市场变成什么样了呢?像小米这样的公司,自己有设计室,自己有品牌,自己有渠道,有运营。小米还去投资收购了一些代工厂,他最后又变成了一个大而全的公司。但是现在还有很多代工厂是在外边飘着的,独立的设计室和独立的小品牌运营商呢,也不是都死光了,还有一部分,有一些小的还在玩,就是做一些比较小众的手机,这个还是存在的。这就是现在手机的一个状态。
对于人形机器人来说,可以完完全全地借鉴这一条路径:大模型供应商、设计室、品牌运营商、代工厂,大家进行松耦合。那么总结一下,我们到2025年了,距离人形机器人普及到底还差几步?现在呢,英伟达在四处送开发板,或者叫卖他的开发板和传感器,大家就可以买这个英伟达的开发板,回来把它装在自己的机器人上去,做各种实验。然后OpenAI又开始招募这个传感器的工程师、设计的工程师,以及工程管理方面的人才,准备去做工程样机。这就是现在我们看到的一个情况。
然后下一步是什么?下一步是数据聚集,最好能够把这些数据放到一些开源平台上去,这可能是下一步要去做的事情。所以呢,会有一个新的类似于Huggingface或者是GitHub这样的创业机会,到底能够在谁家的平台上累积这些数据。这种模式在近几年,特别是移动互联网之后的这个创新领域里头,是非常非常普及的。大家都是说,我们去整一个开源的、开放的数据沉淀与聚集的平台,然后大家一起去积累数据。所有人都是拿着这些数据再去做训练,再去做进一步的提升和改进。在这个过程中,再去把这个技术推到下一个高度去。这是这几年非常非常流行、非常普遍的,因为这些数据我们不放心交给谷歌,也不放心交给OpenAI或者是英伟达,一定是要放在一个开放的。
第三方平台上,当这些数据沉淀到一定程度之后,这些大模型厂商就可以拿这些数据再去训练新的机器人大模型了。在训练好之后,就可以走刚才我们讲的手机路径,四个元素,或者叫四个角色拼在一起,造出人形机器人来。整个过程的话,我觉得2025年、2026年就是一帮创业者,拿着这些开发版,拿着OpenAI的方案去做数据收集,然后沉淀。沉淀完了,可能到2026年、2027年的时候,就可以拿这些数据训练出新模型来了。在2030年之前,有可能看到人形机器人走进千家万户了。好,这一期节目就跟大家讲到这里,感谢大家收听。有什么不同的意见,我们可以到评论区去讨论。
Both comments and pings are currently closed.