人机交互 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI公开了GPT5降低幻觉的秘密，像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜，这才是真正的进步｜GPT-5 AI Hallucination OpenAI Hallucinations

Luke Fan — Wed, 10 Sep 2025 00:41:00 +0000

GPT5降低幻觉的秘密被OpenAI给公开了。现在看来，训练AI真的是越来越像训练小孩子了。

九月五号真的是一个神奇的日子，非常多的模型都在九月五号被发布出来。OpenAI在这一天也发表了一篇论文，这个论文叫做《为什么语言模型会产生幻觉》。

大语言模型从进入我们的日常生活那一天开始，我们就发现了，这个东西最擅长干的事情是什么？叫“一本正经的胡说八道”。

现在OpenAI公布了，说产生幻觉有两个主要原因。

第一个原因叫做“错误的评估体系”。什么意思呢？就是我们现在去考试了，做对了1分，做错了0分，不做也是0分。其实我们所参加的绝大部分的考试，都是这样去设计的，甭管你是考英语、考数学，都是这样设计。像考数学这种，他还有步骤分，哪怕最后你的结果没有，或者结果是错误的，你只要前面的步骤写对了几步，他都是给你分的。

但是我们用这样的方式去训练大模型的时候，这事就麻烦了。怎么个麻烦法呢？大模型也在那有一些指标，要去反复的训练嘛，它的训练也是按照刚才我们说的这个方式来训练的：答对了1分，答错了跟不答都是0分。那么我就先猜一个呗，万一猜对了呢？你没准还有个一分，总比不答强，因为不答跟错误是同样的结果嘛。

文章里头举了一个例子，说你去给我猜一个生日，这个人生日是哪天？马上给猜了一个。他说这玩意儿你猜对的可能性是多少？1/365，这个很难猜对的。但是呢，猜错了就跟没猜是一样的，都是0分，所以大模型还是会去猜一个出来。这就是他一本正经胡说八道的一个最底层原因，就是你一开始的评估体系是错的。我们考试的时候，这个评分的规则就是这么评的，所以大模型也是这么干活的。

另外一个原因是什么呢？他的一些训练数据本身是有问题的。什么是训练数据有问题呢？就是大模型通常的回答方式是：下一个词最适合应该出哪个词。他是这样来去回答问题的。但是呢，有很多的训练数据呢，有一些相关性。比如说他举了个例子说，我给他一堆照片，猫的照片跟狗的照片，然后呢在后头写上标注，说这是猫、这是狗。你训练完了以后，给他照片，说这是猫还是狗？或者你给他个猫和狗的这个单词，说请给我画一个出来，或者给我描述一下，这个大模型是可以搞定的。

但是如果你的训练数据是错的，比如说你给了一堆猫和狗的照片，在后边你标注的不是猫和狗，而是猫和狗的生日，然后你说：“现在给你一个照片，给我猜一下这个猫是哪天生的？”那这个大模型就直接抓瞎了，说：“您让我编一个吧。”大概是这样的一个情况。或者说你给它一个日子，比如说2025年9月9号，这一天出生的猫应该长什么样呢？这个大模型说：“呵呵，请听我瞎编一个。”也只能是这样了，你没有任何其他的办法，因为它的整个的训练数据相关性没有那么强。而且刚才我们讲，这个猫跟狗的生日标注在照片上以后的话，它也不具备什么统计学的这种意义。你说9月9号出生的猫应该是什么样呢？

但是讲到这儿，咱们多讲一句，有人相信生辰八字吗？或者是你的星座代表什么？这个是不是跟刚才我们给猫跟狗标生日这个过程是很像的？所以这个生辰八字的结果，跟刚才我们讲的这个数据是一样的，它没有什么统计意义的。所以不要去相信什么算个属性、算个生辰八字、算个星座，这个意义不大。就算是给交给现在的大模型，你让它去折腾这个事儿也没什么意义。

我自己呢，在第一次使用AI的时候就经历了幻觉。我第一次使用AI是什么时候呢？那时候ChatGPT还没发布呢，当时的AI产品叫做GitHub Copilot，底层也是一个ChatGPT的模型，它是先发布出来。首先这个东西出来是给大家写程序的，那个时候还不觉得说AIGC会怎么样了。我拿着那个系统去写程序的时候，我说：“B站的CEO叫什么呀？”他告诉我叫陈瑞。我说：“这对的。”然后我说：“陈瑞的身份证是什么？”我是等于写程序嘛，说“陈瑞身份证”，啪打一个报号，然后噼里啪啦就给我生成一堆信息出来：哪年哪月几月生的、身份证号码什么。当时我都傻了，这不是泄密了吗？马上我就去找陈瑞去了，我说：“陈瑞，你的那个身份证泄密了，这是你身份证吗？”陈瑞看了一眼说：“这肯定不是。”

后来我就搞明白了，当时还没想着叫“幻觉”，当时想的是什么呢？说这个东西是不是一个脱敏，或者是做了一些数据混淆。后来想明白了，这东西就是一本正经的胡说八道。你问他陈瑞的身份证，他按道理应该告诉你说：“我不知道。”或者说：“这个东西涉及个人隐私，我不能给你生成。”或者说我生成了以后，在下头给你写一个说：“只是示范数据，没有任何实际意义。”应该是做这样的一个操作。就跟我们去银行里头看到人家练习数钞票的那个钱似的，专门有特定的号码，而且上面会盖一个章，说这就是一个练习币，千万别惦记偷着玩。但是这个GitHub copilot啥也没说，直接给你写了一个完全看着像真的一样的身份证号就给你写出来了。当时还把我吓一跳，这是当时的一个故事。

这就是AI到底是怎么产生幻觉的，以及呢，我们应该如何去避免它。其实他们已经把这个东西应用起来了，就是应用到GPT5里头。所以现在GPT5呢，有的时候就告诉你不知道，他不会上来就直接告诉你：“我给你猜一个吧。”甚至猜完了以后还在那嘴硬：“不是我猜的，这东西就是这样的。”他有时候还干这样的事情。

像GPT4呢，他答对问题的概率是要比GPT5高的，因为刚才我们讲了，你胡猜一个，你还是有机会答对的。像刚才猜陈瑞身份证，他也不是说完全不可能猜对的吧？还是有可能猜对的，那么他就去猜去了。所以GPT4的正确率要比GPT5高，但是呢，GPT5的幻觉要比GPT4低非常非常多，因为GPT5经常就告诉你不知道了。说“不知道”肯定是错的，但是“不知道”呢，对于我们来说，其实是一个可以接受的答案。

你说这事跟训练小孩子是不是很像？我们再去给小孩出考题的时候，我们是不是可以出一个题说，这个题你做对了加1分，做错了减1分，不做没分？这个是不是就可以调整记分规则了？他就可以知道说，我们是不是不会的就不要瞎写了。我记得我原来参加过类似这样的考试，好像是上大学的时候，当时考计算机的一个等级考试就是这样的：做错了减分，做对了加分，不做没分。那就是你不会就别瞎写，就是这样的一个意思。或者呢，调整一下，因为有负数在里头，计算稍微麻烦一些嘛，就是什么呢？不做呢是1分，做错了呢是0分，做对了呢，比如说给他个5分。用这样的方式去训练大模型，他可能就会好一些。

包括我们以后去训练小孩，或者说小孩的成长过程中的一些教育吧，也可以使用这样的方式。当然，我觉得更重要的是什么呢？就是我们在孩子被训的时候，比如孩子这个犯了什么错误了，在挨骂的时候，就不要老惦记让他去反思怎么去犯了错误、下次怎么去做对。是不是很多家长都爱干这个事？做错了不行，你一定要在这个时候把它想清楚，然后给我解释到底是怎么回事。在这个时候，小孩想的压根就不是怎么去反思错误、怎么能够保证下次不犯，小孩想的是如何尽快结束当前糟糕的状态。这就属于是一开始你设定错了一个激励的条件，还希望说这个小孩犯了错误，多骂他一会，多念叨一会，让他能够学会，这个绝对适得其反。

还有一些呢，适合小孩教育的AI训练方式，大家也可以思考一下，就是寻找合适的数据或者问题对于教学是非常重要的。就刚才我们讲的，给他一堆猫跟狗的照片，然后给标生日，这就属于错误的数据。我们找到正确的数据，对于小孩的学习会非常有帮助的。今年年初吧，李飞飞训练了一个很小的模型，它就是精心筛选了1,000个高质量、高难度、覆盖50个不同领域的全面性问题，训练出来的模型要比很多很大的模型效果都好，这个才是对我们有借鉴意义的事情。为什么呢？你对于小孩训练也好，或者是教学也好，最缺的是什么？不是上培训班的钱，也不是找到特别好的老师，而是小孩的时间。你去让小孩上培训班，到底是上那个还是上这个？你需要去取舍的，因为时间是有限的。在这样的一个情况下，如果能够选对正确的数据集的话，对孩子的训练也是非常非常有帮助的。

在这里呢，再讲另外一个很拟人的AI算法故事吧。就是李飞飞的这个小模型里头，应用到了另外一个有趣的方法，叫什么？叫“预算强制法”。这个呢，其实是小孩解数学题的一个方法。它是什么样的方式呢？就是它动态的来调整推理的步骤和时间。现在我们的模型都是做推理嘛，到底是应该用多少步来推理呢？现在我们使用的很多系统都是可以预设的，我到底是用高级推理、中级推理、还是低端推理，还是直接出结果？让你自己去设。但这个事其实是很二的，应该是让模型自己去判断。

它呢，通过任务的复杂度和中间的结果，不断来评估说这个事是不是可以结束了。如果任务复杂度高，他就会给你更多的推理预算；如果在推理预算之内你把它做出来了，它再去评估这个结果。如果结果的置信度很高，这东西就很像我们从小做数学题，都是有这样的训练的。你得出一个0，得出一个1，这个事都有可能是对的。但如果你最后得的那个结果需要开根号，然后还不会算，这种大概是前面哪步算错了。咱从小应该都是这么学的吧？他也是如此。然后除了置信度之外，还有一个是什么呢？就是结果的收敛性。我越算这个结果，好像越向着比较可信的方向在前进；或者说有的时候越算越觉得不对，走着走着觉得越走越远了。这个东西是可以判断的。如果是你得到了一个置信度很高、很收敛的结果，没问题，就停在这儿吧。如果你发现这个东西置信度很低，而且呢越来越发散了，一点都不收敛，越走越不像了，就直接停止，说：“不会，对不起，我不知道。”当然我们小时候有时候受的教育是什么呢？你实在做不出来，到后头写个0、写个1，还是有蒙对的机会的。

所以李飞飞的这个方式呢，就是简单问题简单推理，获得高置信度、收敛的结果，就快速停止；如果太复杂，就直接承认失败，完事了。这个是不是也很像咱们小时候教小孩子做数学题的这个过程？

讲远了。这个降低幻觉的技术呢，现在已经用到了GPT5上。现在他们在GPT5上就已经是鼓励大模型说“不会”，说“这个事我不知道”，去鼓励他做这件事情，而不是要上来生给你编一个结果出来。

另外呢，我要讲，降低幻觉其实是一把双刃剑。很多人说：“不对，幻觉低了，它不是好事吗？你不知道就说不知道就完了。”为什么是一个双刃剑呢？这个里头呢，跟人性有关。因为幻觉再怎么降低，它永远不会是零，有可能呢会逐渐降低，但是人呢，会选择相信一个大概率不会出错的自动化系统永远不会出错。这话很绕，什么意思呢？你比如说这个系统，十次里头错八次，那这事肯定不行。等到10次里头错5次呢，这个结果呢你可以参考一下。如果10次里头呢只错个两次，就会有相当一部分人认为这个结果是永远不错的，我就直接相信了，剩下的两次错就错了。他是这样来去处理这问题的。这是人性的一个选择。所以呢，幻觉越低，愿意直接无条件相信这个模型的人就会越多。这是一个灰度，有些人可能怀疑一切，有些人呢可能说你这个幻觉只要到50%我就相信了，有些人说幻觉到20%我就愿意相信他。他是这样来去工作的一个过程。所以呢，幻觉越低，选择无条件相信的人就会越多。这就是为什么我说降低幻觉是一把双刃剑。

那么我们应对幻觉的最简单方法是什么呢？第一个，肯定还是怀疑和批判了。中国的中小学教育里头还是应该加强一些的，这一方面目前应该没有那么强。另外呢，就是你要去有一些逻辑的训练。比如说，如果不进行逻辑训练的话，你没法去判断这个结果是不是符合逻辑，或者说他的“置信度”这个东西，你没有判断标准。还有呢，就是我们要了解聊天的上下文环境。这个事特别有意思，大模型呢，你问他一个问题的时候，他给你的结果未必一样。这个结果的差异是怎么来的呢？其实是跟上下文有关。所以我们经常在跟大模型聊天的时候，要学会叫“开始一个新话题”。什么意思？就是我们把前面的上下文都扔了，咱们重新开始聊。这个是非常非常重要的，否则的话，它给你的结果要跟上下文相关联。如果我们跟他聊天的过程中忘记了上下文说的是什么，那他给你的结果就有可能会出现比较大的偏差。

还有一点呢，就是要了解信息来源。你说我这个大模型给我的结果，是大模型直接生成的，还是通过本地知识库总结的，还是通过搜索总结的？这个东西到底是怎么来的？如果是通过搜索来的，他到底是搜索的哪些网站？哪些网站是可信网站？哪些网站是八卦网站？哪些网站每天胡说八道？你要要求他去进行一定的区分，这个才有可能让他的幻觉降低。

当然，最终的方式就是多模型校验。像我现在很多的数据都是多模型校验：我先在豆包里跑一遍，因为这玩意最快；然后呢，把跑的结果扔给ChatGPT，说：“来，给我进行数据校验。”然后呢，ChatGPT就会把所有的数据拆开了，校验完了以后，告诉你哪个地方是对的，哪个地方是错的，要比ChatGPT自己做的还要好。有时候ChatGPT也有幻觉，虽然GPT5号称幻觉降低了，但是依然是存在的。我也会把它的结果再拿到豆包里边再去校验。这个会极大的降低幻觉，但是也不能降到零。

OpenAI呢，现在又在开始探索新方向了。就是刚刚做这篇论文的这个部门呢，叫做模型行为部门，这个部门呢，现在已经合并到模型预训练部门去了。这个部门的老大呢，是一位亚裔女士吧，看那个名字应该是个韩裔吧。他呢现在做了一个新的部门，叫OAI部门，这个部门呢，是研究AI与人的交互方式的。他呢，研究的是在聊天和agent之后，这个AI应该如何去跟人进行交互。现在大家还在卷agent呢，人家已经又往前走一步了，agent之后是干什么？他认为AI呢，应该是一个思考、创造、娱乐、学习、连接与实践的全新范式和工具。我们也期待这位女士吧，能够给我们带来不同的惊喜。她前面做了达利2、做了GPT-4o、做了GPT5，特别是跟人交互相关的部分，包括AI如何降低幻觉、AI如何降低谄媚，这些东西都是他去研究的方向。

最新的GPT的更新是什么？特别有意思的一个功能，叫“分支聊天”。比如说跟人聊的时候，聊着聊着聊崩了，或者聊的大家很不开心了，你能够说：“我们退回去，现在我们退回三轮，从这继续往下聊吗？”咱是不行的，因为那对面还生气呢。但是现在ChatGPT允许你干这个事了。就是我们聊着一个来回、两个来回、三个来回，这个时候说我聊错了，我可以从第一个来回完了以后，说我在这做一个分叉，我重新开始聊。AI大模型的这个接口呢，就不知道你后边的聊的第二轮、第三轮到底聊了什么，它会从这个地方分支出来，接着跟你聊。这个应该也还是蛮有想象空间的一个事情。

好，这就是我们今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的会员频道。再见。

从乔布斯“灵魂伴侣”到山姆奥特曼的座上宾，强尼艾夫的IO团队以65亿美金估值并入OpenAI，是AI iPhone的黎明将至，还是又一个AI硬件泡沫的开始？

Luke Fan — Mon, 26 May 2025 00:40:54 +0000

OpenAI以65亿美金收购了强尼艾夫爵士的IO团队，要做AI iPhone了吗？大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI最大的硬件收购来了。没办法，他自己3,000亿美金的估值了，现在收购任何的团队都是比较贵的，所以又变成了有史以来最大的AI硬件团队收购。这一次呢，是以50亿美金的纯股票交易收购强尼艾夫创建的IO团队手里边77%的股票。

这个团队呢，2023年底其实已经被OpenAI投资过了。当时投资了以后占股了是23%。这一次呢，等于是交50亿美金，或者叫以50亿美金的对价收购了剩余的77%的股票。这个65亿美金怎么算出来的？很简单，50亿除0.77就等于65了。所以它的总价值呢，是按照50亿美金收购77%股票的方式反推出来的。

强尼埃夫爵士到底是一个什么样的人？首先在这里澄清，这是个异性恋。不是说拍了一张跟山姆奥特曼特别亲密的照片就变成同性恋了。到目前为止，人家婚姻美满，还有小孩。

强尼艾夫是2012年被英国女王伊丽莎白二世授予爵士头衔，所以我们管它叫强尼埃夫爵士。他呢，属于大英帝国最优秀的骑士勋章，叫Knight Commander of the Order of the British Empire（骑士司令官）。这一荣誉是对他设计领域的卓越贡献，主导了iPhone、iMac等划时代的产品，以及推动了英国创意产业发展的认可。授勋仪式在白金汉宫举行，由安妮公主代表女王执行。

他呢，号称是乔布斯的soulmate，就绝对是灵魂伴侣。成功的产品从1998年的iMac G3（也就是那个半透明彩色机壳的一体机）开始，到2001年的iPod（应该是很小的那个东西），再到2007年的iPhone 1，2010年的iPad，2014年的Apple Watch，最后还设计了2017年的Apple Park（也就是现在那个大飞碟那个楼）。基本上，我们能够熟悉的苹果设计风格就是强尼艾夫爵士他定义的。

专利数字非常巨大。这个设计师是相对来说比较容易去申请专利的，拥有超过1.4万项全球专利，涵盖硬件、软件、包装等领域。其中美国专利是1,628项，包括iPhone的玻璃机身、Apple Watch的表带连接结构等核心设计。

2019年呢，强尼艾夫离开了苹果去创业去了。他呢，做这公司叫Love From（就是爱从哪来）。他呢，设计了很多漂亮的字体。

年入2亿美金的设计公司，他是跟AirBNB、法拉利等企业合作，重新定义了品牌战略。非常强的一位设计师，基本上算是定义了整个移动互联网时代的产品设计、交互设计。这样的一次并购，OpenAI前面投了23%，后来把后边77%直接买下来了。到底是一个什么样的故事呢？咱们从资本的角度稍微的去理一理。

这个事情并没有这么简单。因为大家注意，前面并购的时候有一个词叫做“纯股票交易”，这里头没现金。一般涉及纯股票交易的这种并购呢，通常都不是一个特别愉快的故事。真正愉快的并购是什么？你花钱买，买完了以后我变成亿万富翁，然后出去天天玩耍。这样被并购的就是Minecraft（我的世界）的创始人，当时被微软并购了以后，就拿着大笔的钱开始挥霍，一直到目前为止还在挥霍，还没挥霍完。这个是愉快的故事。

“牛马级并购”呢，就是这个纯股票的并购，里头没现金，并购完了以后接着当牛马打工去。一般是发生了一些比较特殊的情况，才会出现这种纯牛马并购，或者叫纯股票的并购。我们来看看OpenAI吧，它自己现在的估值是多少钱呢？3,000亿美金。那么50亿美金的纯股票相当于多少股票呢？不是相当于50亿美金的股票吗？咱们不讲这个故事，相当于他的1.67%的股份。其实没多少，就是拿了1.67%的股份，我就直接把你这个IO全都收归旗下了。

假设2023年底的第一次投资，因为是OpenAI投了头一回嘛，23%的股票，也是给的股票。因为OpenAI其实手里并没有那么多现金，即使是给了一些现金的话，这个里头大部分应该还是股票。当时呢，并没有对估值进行公布。但是呢，以强尼·艾夫的名声和履历来看，这个投资不会太便宜。所以呢，大家一拍脑袋给了一个小目标？这个不是小目标，给了一个独角兽，这个是比较合理的。一个独角兽多少钱？10亿美金占23%，这样的话它的估值大概40多亿美金。这是当时的这个交易，虽然没有公布，但是应该差不多就是这样。

你想，山姆·奥特曼跟强尼·艾夫两个人坐在一起，也不可能说“我们这个9亿8，9亿9还是10亿零一”，这不可能是干这样的事嘛。肯定是一拍脑袋来，10亿占23%。当时的OpenAI的估值是多少钱呢？是800亿美金。所以呢，当时应该是给了OpenAI 1.25%的股份。强尼·艾夫手里边应该也不是特别缺钱，苹果的股票肯定就很值钱，再加上他后面的这个Love From从AirBNB、从法拉利手里头再挣的钱，每年都在挣钱。

所以，当时我估计他拿股票的概率也很大。但是据说呢，IO项目里头还有一些其他的投资者。这个事呢，我也去查了一下，并没有特别确切的说明里头到底有哪些投资者，是按什么样的估值进去了，到底给了多少钱。这个事不是那么清晰。

里头比较著名的就是软银的孙正义，据说是当时给了钱了。而且呢，当时给钱的时候好像是跟山姆·奥特曼、强尼·艾夫在一起，说他也出了一部分钱。但是这个钱到底是怎么出的，没有找到确切的说法。

现在好了，包括软银的孙正义以及其他的一些投资人，和Love From的其他的这些老股东——因为当时IO是Love From去成立的，Love From是他的一个股东——现在等于这些人一扭脸，全都变成了OpenAI的股东了。因为OpenAI拿了50亿美金1.67%的股份出来说：“我把这个IO的77%股份给你收掉。”那么原来这些持股人就都通通变成了OpenAI的股东。

做硬件这件事呢，本身还是挺烧钱的。不是说设计个字体，或者说我给你参加几个研讨会就可以拿到钱的。而且呢，IO这个团队，甭管它的创始团队或者说里边的员工背景有多么光鲜，它呢其实没有真正的产品面世。虽然说他做了一些尝试性的产品，但是哪个都没面世。

而且前面呢，被寄予厚望的AI Pin这样的AI产品，号称是AI时代的iPhone，这样的产品呢也没什么响动。而且AI Pin呢还有一个比较讨厌的什么，那也是苹果离职员工干的，也是充满了苹果基因的产品，最后也直接扑街了。

所以在这样的一个情况下，我们会发现IO身上聚集了很多的特性：第一个，很高的估值——前面40亿美金的估值，啥也没做出来过；而且整个赛道上铺满了尸体，不光是AI Pin，还有什么AI Rabbit还是什么，反正有一堆类似这样的产品都在前头死掉了。

这个方向呢，所有投资人再冲上去就会谨慎一些。你如果估值低呢，再加上团队还不错，没准还有人愿意去试一试；你估值很高，这个玩意就没法整了。而且这不是一个硬件产品团队，这是一个设计师团队，他没有成功运营过硬件产品，这也是一个挺大的硬伤。

再加上创始团队又特别豪华，强尼·艾夫爵士号称是定义了整个移动互联网时代的人，他做的公司你给一个比较低的估值，自己也不好意思。所以他这样的团队聚集了所有这些特性在身上，以后你再出去谈融资就会比较麻烦，没有人敢接这个活。就算是给了钱了，你还得给一个跟他们匹配的价格。在这里头没人敢贪小便宜，说我用一特别低的价格。

我把它投了。这种出去会被人骂的，所以他这种公司很难融资。

现在呢，现金肯定是非常紧俏的。估值不值钱，现金紧张，就只能达成选股票交易的这种并购了。而且大家要注意什么呢？在并购的过程中，估值涨没涨？估值没涨多少。他上一轮的投资，我们刚才推测了——不是猜测，是推测——他的估值大概是40多亿美金。这一次呢，涨到65亿，就属于是什么呢？就给大家有个交代，确实涨了。

但是正常的这种热火烹油的赛道里头，这样的投资，这样的并购，经常3倍到5倍的估值上升，你才能把它卖掉。现在等于你涨了个30%吧。而且这也是一年半了吧？至少是2023年底到现在，2025年到年终了，一年半了才涨了这点估值，其实是说明整个团队运营的情况并不是很好。

OpenAI手里边现金其实也不多。别看那么多人给他钱——微软给了100多亿，软银给了他400多亿——但是微软给的钱呢，很多应该是代金券。就是说我给你钱了，但是这个钱呢，我现在先不给你，我帮你存着，怕你去乱花。等你什么时候给你呢？上微软云租算力的时候，我就帮你抵扣掉。微软给的很多肯定是这种东西。

软银那400多亿美金，应该给的真金白银吧？可能有一部分会折算成星际之门的一部分，里头肯定会有一部分现金，但是也不会特别多。大家投资的时候都是尽量少给现金的。

OpenAI手里边的现金还要干嘛呢？还有一个很重要的用途：他有好几千人呢，而且还要不断的用高薪、高股票继续再去挖人去。所以他需要去维持一个几千人团队的运转，而且这些人的薪水都很高，所以他的现金也比较紧张。

那么干脆说，拿个1.67%的股票出来，大家皆大欢喜一下就完事了。只是呢，多了几张嘴出来吃饭就完了。完全收购了以后，原来IO的这些员工，你们现在就算OpenAI的员工了，OpenAI给你们开薪水，这件事就结束了，没有什么其他的动作。

真正火的并购，刚才我们讲了，高溢价，涨个3倍到5倍，要有一堆人去抢。如果没有人抢，这事不行。拿到钱的人要欢天喜地的庆祝，要开始这种堕落之旅，这个才叫真正的好的并购。牛马并购价估值涨那么一点点，像是这个40多亿涨到65亿，大家呢拿到的都是纸，全是股票。并购完了以后，好好干干活，上班去，就是有这样的差异。

甭管并购是怎么完成的吧，是开心也好，不开心也好，几家欢喜几家愁也好，我们总还是要期待一下，强尼艾夫爵士到底准备搞点啥事。OpenAI和IO团队呢，都没有宣布过他们要干什么。

你到底要做一个什么类型的产品？谁也没说过。因为前面这条赛道上已经躺满了尸体了，躺了好几个了，而且都是寄予厚望，都有苹果基因，都是上来就见光死，直接扑街。

IO呢，前面是发表过一些硬件原型产品，包括感知用户情绪的智能眼镜、可折叠成钱包大小的投影设备，以及彻底取消屏幕的语音交互装置。但是具体最后它要造出一个什么东西，还不知道。而且呢，IO已经申请了12项专利了，与无屏交互相关的技术专利，通过机电信号捕捉手势的这种指环设备，基于空间音频的导航系统。

什么叫机电信号捕捉手势呢？就是带一指环在上头，但是我们这个手动的时候，是有一些机电信号是可以捕捉到的。就是你在指环上做一些传感器，它可以知道你这个手在做什么动作。这个还是要一些技术的。

我给大家讲一个特别好玩的东西吧。咱们用这个手环，或者我们管它叫手表这种东西，去做计步器，说记录一下我们到底走了多少步。这事很复杂，千万不要以为说，我们在手表里头装一个运动传感器，记一下你到底走了多少步就能记下来。不是这么回事。你这个手表里的运动传感器得到的那个数据是非常混乱的。你像我们走的时候手还要摆动，还要做一些其他的动作。你最后要把所有这些干扰都去掉了以后，才能够算出来你到底是走了多少步。

你想你在手腕上记一东西，你最后要记录脚的动作，那他这个干扰大去了。像咱们最早的计步器都是搁哪的呀？都是别在腰带上的。那个时候机械计数器都是往腰带上一别，你就没有什么其他的运动干扰你，可以记的比较准。但现在你想你戴在手上，你还要把这个东西记下来很麻烦的。所以你现在要在指环上，通过机电信号收入了以后，再去把这些乱七八糟东西过滤掉，然后去判断你到底在做什么手势。这个还是有点技术难度的。

咱们就说手表记步这个事。你去戴这个华为的表带、小米的表、苹果的表，他们每一个设备记出来的步数不一样。你把这小米手机、华为手机跟苹果手机，你揣身上走一天，你看看这技术的步数也是不一样。咱们就再用这个计步器的故事跟大家讲一讲，这种专利还是需要一些聪明才智的。

现在呢，OpenAI跟IO呢，是准备推出一个销量可以超过1亿只的AI iPhone。他们定义的什么叫成功？什么叫划时代？什么叫革命性？就是我卖掉1亿个，这个就叫革命性了。你如果卖不到1亿个，这个就不叫。其实iPhone一也没有卖到1亿，现在是有了。因为小米是第三名吧，大概是1.7亿一年，三星是第一名，可能是2亿多吧。

这个具体数字我们就不查了。但是iPhone一出来的时候，卖的不是那么多的。现在呢，他们计划2026年推出首款的AI硬件产品，定位呢是口袋里的智能体，或者呢叫AI伴侣。

这个到底是一个什么样的东西？我们通过这些文字，其实还是比较难想象的。因为前面已经有了挂在脖子上的了，有夹在身上的了，有这个耳机型的了。这个到底是做出一个什么来，我们还要再去等待。

但是呢，有几点是基本上确定的：
第一个就是无屏交互，突破传统屏幕限制，通过多模态感知、视觉语音、环境分析实现自然交互。例如通过眼球追踪和手势识别来输入指令。其实眼球追踪跟手势识别的话，Vision Pro就是这么来去交互的，已经有人做出来了，也是苹果家的东西嘛。

第二个呢，就是要去做情绪感知。原来所有的这些手势识别也好，眼神跟踪也好，是没有情绪感知的。但是呢，现在你把这个图片扔给了Gemini以后，你是可以进行情绪感知了。所以未来情绪感知会在里面，能够实时理解用户的环境和需求，提供个性化服务，如实时翻译、情绪支持等等。你要不开心了，我要稍微逗你开心一下。

原来我们经常说这个人工智能是人工智障，是怎么回事？就是它听不出来你现在开不开心，听不出来你到底想要什么。甭管你跟他多开心的讲，还是多不开心的讲，他都是一成不变的，在完成他自己认为的任务。

这个设备呢，将无缝的融入生活设备，可能为穿戴式设备或者是家用终端，旨在成为用户继智能手机和笔记本电脑之后的第三个核心装备。这就是他们准备干的事情。

和AI PIN比起来到底有什么不一样？因为AI PIN算是苹果基因，也是苹果团队做的一个失败产品，而且当时也是寄予厚望了。其实最大的差别呢，硬件到底有什么差别咱不知道，因为没看到嘛。但是模型的能力，这一段时间是有巨大提升的。

第一个，增强语音模式。我们现在可以跟OpenAI的ChatGPT去聊天，去了还聊得很开心。你还可以随时打断它，用全世界各种语言聊天都很好。

第二个，它可以进行实时搜索了。原来你跟ChatGPT去聊天，等于他都是我的最新知识库，截止到某年某月某日，我的知识没有了。你聊了半天，基本上都是在一本正经的胡说八道，这个是不行的。现在有实时搜索了以后，你就可以跟他聊一些今天怎么样、昨天怎么样、最近有什么样的东西，这事都可以聊了。

然后视觉推理出来了，GPT-4里边已经有视觉推理了。你给它一张图片以后，它可以放大缩小，拆成一小块一小块的，然后调整角度。

告诉你这都是什么？再进行整个的推理。这块已经强的一塌糊涂了，再加上长记忆。你现在跟他聊了半天，他知道你是谁，知道你原来问过什么，知道你的习惯。这个现在也是一个长足的进步。

还有什么进步？就是MCP跟agent已经都上来了。原来你只能跟它聊天，最多可以搜索。现在说你给我订餐，你给我去查各种地图，给我去做各种的交易，它都可以直接实现了。所以在这一段时间，大模型有了长足的进步。如果把AI PIN这样的产品结合，今天的模型未必会失败的那么惨吧。

现在OpenAI跟IO赶上这个模型进步了以后，这个人生伴侣也有可能是能够做出来的。IO呢，会获得更多的模态。原来我们讲ChatGPT可以干嘛？文字、语音、视频、图像，你可以做这样的这么多的模态的输入。现在有了IO了以后，什么电信号，什么运动传感器，我们可以把这样的一大堆的信号都给它塞进去。当引入了更多的传感器数据之后，这个模型训练了就可以变得更加聪明。

到目前为止，我们相信scaling law依然是有效的。你怎么能够拿到更多的数据，让这个scaling low往前走呢？你说我的文字的语料就这么多了，但是我现在可以拿出大量的运动数据，进去重新训练模型，这个事情就又可以往前走了。

而且OpenAI呢也准备在今年发布all-in-one的GPT5。就是你到了ChatGPT以后，不用再去选我要用4O，要用4.1，还是要用4.5，还是要用O3，O4 mini，就叫GPT5。你只管提出你的要求，然后它去根据你的要求，根据情绪判断来判定，我到底要用哪一个模型来替你服务。

所以当所有这些都实现的时候，2026年我们还是可以期待一个非常有趣的产品呢。每一次大的交互革命都会带来一波红利。上一波的交互革命是什么？是触控。iPhone呢就是上一波红利的开山之作。自然交互呢一定是在触控之后的下一波交互革命吗？这个事呢我还不确定，因为也有可能直接跳过。

再往后的一波交互革命，现在已经知道是什么了，就是脑机接口。像最开始我们是键盘鼠标，键盘鼠标前边还有什么？打孔卡，咱们就不研究了。到后面我们开始用笔在屏幕上写来写去，到iPhone这里就是说我们用触控，多点触控去实现交互。

中间还有一点点小的波折是什么？就是任天堂玩的这种体感，这个也算是一个小的交互革命，但是并没有引起颠覆性的时代的更新。再往后呢就是马斯克的这个脑机接口。中间这个到底能不能成为一个划时代的？

说我们整个定义一个新时代还要看，也有可能就像任天堂的体感这样，在一个相对小众的范围内进行传播的可能性也是存在的。

总结一下，OpenAI 65亿美金收购了强尼艾夫爵士创办的IO这个团队。不管收购的过程有多少资本的故事，还是能够期待一下，自然交互可能会给我们带来一波新的爆发与红利的。期待强尼艾夫爵士给我们带来新的AI时代的iPhone吧。

好，这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

从华为天才少年到机器人革新：稚晖君灵犀X2揭秘——更像人的机器人如何改变未来？

Luke Fan — Fri, 14 Mar 2025 01:07:46 +0000

从华为离职的天才少年稚晖君，时隔两年，带着他的最新机器人灵犀X2，再次与大家见面。这个机器人长得更像人了。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲稚晖君和他的灵犀X2机器人。

稚晖君呢，到目前为止，依然没有摆脱华为天才少年的光环。虽然我们在视频里看到，他已经成熟很多了。估计要等他的机器人真正大卖，他才能够摆脱华为天才少年的光环。他呢，是一个学霸，同时他具有其他这些机器人创业企业创始人所不具备的特性。他是个B站网红。从他去华为那一天开始，他就是个B站网红，到目前为止依然如此。这是一个非常非常重要的技能，因为在大模型时代，在AI时代，具身智能和人形机器人的时代，你不会讲故事，不会拍视频，这个事肯定是不行的。最基础的技能是讲故事和拍视频。大家看看马斯克，看看Figure AI，看看OpenAI，这都属于是即会讲故事，即会拍视频的公司。

为什么是这样呢？因为以前很多的新技术、新科学，都是给B端或者是给政府用的。你拍很漂亮的视频，这个事是没有意义的。你需要很认真地写全面的报告，然后拿着那样的报告去给人家做演示，甚至还要有关系，你才能把东西卖掉。而现在的话，甭管是AI大模型，还是这些具身智能，它都有很强的ToC属性，就是我们要给普通用户去用。那你既然要去做普通用户的转化率，你没有办法讲好故事，没有办法拍好视频的话，那你的内容传播力一定会打折扣的。稚晖君在这块上，肯定是要比别人强非常多。

他离开华为创业以后，去做人形机器人，很多人也给予了非常多的关注。但是呢，这两年没有什么声音出来。人形机器人的风头被会跳舞、会打太极拳、会耍手绢的王兴兴的宇树科技抢走了。沉寂两年之后，稚晖君带着他的灵犀X2又回来了，依然拍了一条视频在B站上。大家可以去看一看，大概有个十几分钟吧，还是非常有趣的一个机器人。

首先让我们来看一下灵犀X2的硬件。这个机器人呢，是一米三的高度，33.8公斤的重量。

这种机器人一般都不会太重，因为它有的时候会摔倒。如果太重的话，会砸伤人。而且这样的机器人你还要搬来搬去。至少现在吧，这些机器人可能更多的是实验室性质。你也不指望这样的机器人真的做什么很重的体力劳动，能够搬动多重的东西。还是在验证说，这个机器人到底在干什么。所以做那么大个，做那么重，其实意义不大。

大家注意特斯拉的擎天柱，是比较高大的，也比较重。但国内的宇树科技做的这个跳舞的，灵犀X2，都是一米三高一点点，大概也就是三四十公斤。在这个里边有一句话特别有意思，它叫完全的串联机构。我去查了一下，说到底什么叫完全的串联机构。就是在灵犀X2上有28个自由度，也就是说它有28个关节，是完完全全串联在一起的。跟他所对应的呢，一定是并联。就是很多时候，机器人身上有很多的连杆，它需要有好多个电动机，好多个马达一起工作，才能够驱动一个关节在运动。这个其实就是并联机构。

那并联机构的控制起来就比较麻烦。当然并联机构也有条好处，第一个好处是力量比较足。如果希望一个机器人可以搬动很重的东西，或者做非常高难度的动作，它里头一定会有一些并联机构在里头。如果只是希望能够更好的去控制它，那么串联机构是比较好的。但是串联机构它的负重要差一些。还有一个呢，并联机构的好处是精准度很高，因为你有多个电机一起来控制，精准度要比串联机构要高。

一般情况下我们看到的各种各样的灵巧手，就是机器人的手，一般都是并联的。像我们去看特斯拉的擎天柱，它呢里头有一部分是串联的，但是有一部分的这个关节就是并联的，因为它是需要干活的，需要负重的。而且它的灵巧手都是并联的。现在看到稚晖君的灵犀X2，大部分的视频，这个机器上是没有手的。最后是有一个缝葡萄的视频，那个上面虽然有手，但是那个手，我觉得大家看到还是一个夹子吧。你说的只是手，稍微有点看不起手的意思了。所以呢，他们在这个里边使用的全部的串联机构，这样就会很好的。

进行运控算法的解偶，因为偶合嘛，就是说电机必须跟那个电机配合在一起才能工作。那如果全都是串联的，等于每一个电机都是独立的，那你就不需要去进行这样的偶合运算了。所以他解偶解得非常好，目的呢也很简单，就是你可以买一大堆轴自己去拼，拼完了以后呢，拿我的这些算法去控制它，就不需要进行单独的训练了。你如果是并联机构的话，你就需要进行单独的训练，这两个电动机到底怎么配合，那两个电动机到底怎么配合，甚至可能这四五个电动机怎么配合，才能做出一个完整动作来。他现在这个训练成本就会下降很多。

然后另外一点呢，他还讲了一个叫惯量上移，惯性的惯，流量的量。他的意思就是说，他尽量的把这些比较重的关节都放在躯干上，就尽量距离躯干近一些。什么意思呢？就是他的胯关节，还有肩关节，这些发动机呢，或者这些马达呢都很重。他的肘关节，其他的一些关节呢，就会轻很多。这样的话这个机器人就会相对来说比较稳定，就跟我们看到这个说锻炼什么呀，锻炼核心肌肉组，你还是在躯干周围，要把所有的这些发力的关节都放在上面。这个是新的设计。

讲到这大家有没有想过，咱们人到底是串联的机构，还是并联的机构？告诉大家，人身上的很多关节都是并联的，因为我们不是这种马达，马达是转就完了，我们都是肌肉，都是这种线性的马达，这个是需要很多组肌肉配合在一起才能做完整动作的。

除了他这些机械结构之外的话，他们这一次还使用了柔软的外壳。具体是什么外壳，他最后应该也没有披露出来，但是呢做了很多的实验，然后选了一种柔软亲肤的这种外壳。这样的话它摔倒呀，或者是你去搬运它呀，不容易受伤。而且，你摸它的时候也会有一些比较亲切的感觉。

而且像他现在的机器人呢，是完全的模块化设计，可以替换，可以自由的拼装，这个是他最大的一个特点。他本身就卖这些关节，而且呢，他的这个电源模块，其他的各种区块，都是可以拆开来换的。你说哎我这想换一个别的关节行不行？

想换一个其他的核心设备行不行？都是可以换的，自由组合。这个是它的灵犀X2比较有意思的地方。而且最逗的是什么？它这个脑袋里可以插个手机。你看到他的机器人前脸，是一个半透明的一个壳。你要想在上面显示什么东西怎么办？直接把一手机从后脑勺啪插进去，那个手机屏幕朝前，朝后就看不着了。你就可以通过前面这个半透明的壳，看到手机上面的一些信息。甚至他还做了一个实验，一个女生戴着VR眼镜跟他们开会，这边这个机器人的脸上，就直接显示着这个女生的脸。你相当于是一个人，就可以远程的去开会去了，也是一个很有意思的设计。

那么说完硬件以后呢，这个东西的软件，也就是灵犀X2的灵魂是什么样的呢？首先它里边有一个基座大模型，叫GO-1。这个G呢应该是Genie，精灵的意思。O呢应该是operator，精灵操作。它做了这样的一个基座大模型。这个基座大模型呢，是通过强化学习的方式自己训练的，可以直接对视视频、音频，和他整个身体的所有动作进行反馈，直接端到端的生成非常多的动作。而且他这个GO-1这个模型，针对特定的硬件，不是说我这个模型，就是给灵犀X2设计的。它是个基座模型，你可以拿出来给其他的机器人去用去，这个是非常棒的。

它的GO-1这个模型呢，是在虚拟环境下训练的。在这个展示视频里头，有很多训练灵犀X2的这个环节。这些环节大家一看就知道，它不是真实的物理的机器，而是在一个3D的场景下，让机器人自己在3D场景下，在一个物理引擎下进行训练。这样的话他的训练效率就会高很多，训练的成本就可以急剧的下降。你不需要说把这个机器人磕磕碰碰，把地板都砸出一个坑来，直接在3D的这个虚拟环境下，去训练就可以了。而且呢，它现在还进行了开源，基座大模型以及呢，训练数据集都直接开源了，大家拿去用去。现在他因为使用了这种强化学习的方式，去训练他的基座模型，很多的这种泛化能力，或者很多的动作，他不需要学习，不需要训练。

就可以零样本泛化非常多的能力。你告诉他说：“请把什么东西拿到哪去，把什么东西给我去看一下，现在是几点了，这个药盒上写什么东西。”他这个大模型不需要重新训练，就直接可以给你做了。这个是非常非常棒的，就已经接近了前两天咱们去看Figure 02的那个状态。

这个机器人现在可以走路，可以跑跑跳跳，甚至还可以稍微跳个舞。为什么要讲他跳舞呢？因为他跳舞的过程中，是有一些灵性的，你会有一些觉得他像人，而不是这个春节转手绢那个东西，完完全全就是编成的一个机器。这个机器人呢，还可以踩平衡车，这个是非常有意思的。我家里有那个小米平衡车，你是需要控制它的重心的，重心靠前这个车就往前走，重心靠后往后走。这些东西他都可以，通过对他的基座大模型进行强化局训练，就直接可以做到了。

甚至最逗的是，他这个机器人是可以骑自行车的，骑个自行车在一个地下车库里头跑了一圈，这个非常非常的惊人。稚晖君最早出名的一个视频就是自动驾驶自行车，他把一个自行车上加了这种陀螺稳定器，让这个自行车自己在这个园区里边自动驾驶，这个是最早出名的。现在好机器人上去骑一圈，我们看到了以后还说：“哎，这玩意会不会溜车，会不会上下车？”这个我觉得可能有点难，但是你把它搁在车上，他能骑走也已经很不容易了。

大家注意，他这个视频并不是一次完成的，整个视频是做了一个月的。B站网红剪辑视频、编排视频这个能力大家还是要相信的。他整个的灵犀X2，据说是设计训练了三个月，视频拍了一个月，我们看到的应该也是众多次失败中成功的那一次。那你说有没有什么时候，我买一个这样的灵犀X2回来，就直接可以满街跑，可以骑着自行车出去干事去了？这个可能还要再等一等。但是因为他的基座大模型是开源的，他的训练数据也是开源的，很多的实验室、很多大学就可以把这些东西买回来，自己在里边再去添加数据，再去微调这个大模型，就有可能能够实现这些未来的憧憬。灵犀X2呢。

应该是一个更像人的机器人。今年春节的时候，宇树科技的机器人上去跳舞，就好多人说：“你讲一下，讲一下。”这个一直没讲为啥？因为在一个空旷的场地上，所有机器人指挥划一地去跳一个舞，这件事真的没啥好讲的。我们到很多商场的这个地下一层，儿童游乐区里头，都会看到这种机器人在里边跳舞。这玩意编个程序就完了，甚至你拿个遥控器就可以搞定，所以这玩意没啥好讲的。但是一旦他像人了，这个事情就有意思了。

灵犀X2就是会更像人，里边演示了很多面对面沟通交流的这个样板。到目前为止，宇树科技还在表演什么打拳、前空翻、后空翻、侧踢。现在，灵犀X2已经可以坐在你身边跟你聊天了。稚晖君拿着咖啡和牛奶，举起来问他说：“我晚上睡不着应该喝哪个？”他告诉你说：“你应该喝牛奶，不应该喝咖啡。”然后拿个药盒给他看，说这是一个什么药，应该怎么吃，或者告诉他说现在几点了，给他一个手机，现在这手机是几点了。这个比较有意思，当时给出的时间是凌晨5点多，我估计他加班了，应该不是早上5点多起来去干活了，应该是头天晚上就没睡。这个时间看得出来，这个稚晖君还是非常非常拼命的。

在这个机器人的胸前有一个灯，这个灯呢是可以按照呼吸的韵律去闪烁的。那你说我在你身上装个呼吸灯，这事有多难吗？现在有很多很多的这种5块钱、10块钱的设备上，都有一个呼吸灯。这个呢，不是那么容易的。当你挂上大模型以后说：“哎，你现在开始呼吸了。”那么他的这个呼吸节奏还是可以给大家一个非常强的，这是一个人的这种暗示的。这个还是值得强调一下的。

以及呢，它里头有很多很多的小动作。很多的机器人，就是你跟他说话的时候，他是不动的，或者你让他去做一些腿部动作的时候，他的手是不动的。为啥？因为分别训练的。但是在灵犀X2上，当他的腿部发生动作的时候，他的手也在动。当你跟他聊天的时候，他的机器人的全身，包括手脚都会发生一些动作，甚至这机器人坐在那还抖腿。这个不是很礼貌，这个是怎么回事？

第一个它像人。第二个就是它整个的模型是端到端整体训练，所以这个是值得跟大家去讲一讲的。我们去看Figure 02的这个视频的时候，你会发现什么？就是他在整个做动作的时候脚不动，因为他整个的这个大模型只训练了上半身，底下这个脚的部分腿的部分是另外一个模型在管理。那么它这块是完整在一起的。

智源科技的未来会是什么样呢？稚晖君的这公司叫智源科技。首先呢，它应该会成为后院车库机器人的零配件工厂。很多的中国公司都在干类似的事情。美国人是喜欢在车库里干活，喜欢在后院里头搞发明的。但是他们要搞发明的时候，需要很多的零配件。那你可以到智源公司来去购买他的各种的关节、很多的控制器，还有它的开源模型以及开源的数据训练集。可能一堆要去创新的人就可以在这个基础上继续往前走了。不像是那些卖99,000的这个机器人，你买回来除了能够做租赁、能够挣点钱、能够站在门口招揽个生意之外，对于整个的具身智能的发展其实是没有帮助的。它的开放零配件、自由组合、开源基座、大模型和训练数据能够使智源科技在未来的机器人标准中占有一席之力。这个还是非常棒的一个方向。

而且只有在人身边的机器人才值得关注。那些在广场上排着队跳舞的这个就没什么可看的。就像我们去看无人机表演一样，几百架几千架无人机在天上表演，这个就是写程序呗，写错了以后debug，这个就是一个工业斯巴达能力的表现而已。但是一个机器人可以坐在我们身边可以跟我们聊天，跟我们聊天的同时下意识的有手部有身体的动作，这个是值得出来大家关注一下的。

当然宇树科技呢也不是说就停留在这个硬件机器人的基础上，毕竟这是杭州公司嘛。所以现在呢，他们也在挂着DeepSeek，快速的推进各种多模态模型的落地，希望他们自己的机器人也可以越来越像人，可以像人一样跟大家去聊天。这块还在不断的努力。现在国内各大机器人厂商都在从硬件机器人向这个完整机器人过渡。

那么，最后呢，稚晖君也说了，他希望他们家的灵犀X2未来可以去替代吉祥三宝。哪吉祥三宝？保洁，保安，保姆。他希望能够做这件事情。我觉得，以现在灵犀X2所体现出来的人与人沟通交流，以及特别像人的这样的特性来看，他距离吉祥三宝应该要比宇树那个会耍手绢、会跳舞、会打太极拳的那个要近一些了。这就是我们今天看到的稚晖君最新发布的灵犀X2机器人。

其实呢，机器人本身并没有那么重要。在这个背后开源出来的基座大模型和训练数据集，要比那个机器人更加重要一些。好，这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

马斯克率领Neuralink团队揭示脑机接口新未来：神秘访谈带你解读核心技术与人类成神之路

Luke Fan — Wed, 07 Aug 2024 00:44:06 +0000

马斯克的脑机接口已经成为了人类的成神之路。大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲，在上周五，马斯克和整个脑机接口团队一起接受了8小时的访谈，都谈了些什么。时间是8月2号，名字叫做《Neuralink与人类未来》。著名的科技博主莱克斯·弗里德曼主持了这场访谈。参加访谈的有Neuralink公司的创始人埃隆·马斯克，还有他们的首席科学家DJ·SEO，以及首位Neuralink脑机接口的植入者诺兰·阿伯。

那么主要讲的是一些什么样的内容呢？首先，现在的技术还比较可笑。虽然方向是指明了，但并不是那么看起来高大上的样子。64根导线就真的是往脑子里塞线，每根线上有16个电极。这些电极是在三四个毫米的范围内进行分布。应该是一根线出去以后，有16个小电极从线里的中间插出来，这个长度三四个毫米。在这个线的周围把它分布出来，这16个电极是以200微米的间隔进行排布。这些电极的深度是3-5毫米，它真的是要插进去的，而不是说贴在上面的，是要插到我们的脑皮层里边去的，是一个有损害的手术，这个还是有点吓人的。

这个玩意让我想起来那种可以贴在胳膊上测血糖的东西，对吧？它啪一下把它贴上，其实也是有一些细小的针把皮肤扎破的。这样复杂的手术是靠机器人来去做的。

脑机接口公司Neuralink做的第一个产品，其实是它的脑机接口植入机器人。现在，已经成功做了一例，准备做第二例。今年估计会做10例，未来应该每一年，这个数字还会快速上升。这个机器插到人脑里后，通过无线连接到APP上，APP采集了所有的信号后再去解码。

所以，现在的脑机接口其实是一个只读设备。什么叫只读设备？就是它只能够从我们脑子里读取信息，而并不往里写东西。因此，现在找的测试人员是能说、能听、能看到的四肢瘫痪的人。他们并不需要把什么信号传到脑子里去，只需要通过大脑的想象来识别，出来后让机器或一些外部设备去做动作就可以了。

现在的速度还比较慢，每秒钟一个比特。比特应该是一位，就是0或者1这样的一个位数，这真的挺慢的。你想，要凑出一个英文字母来，至少需要8个比特；要凑出一个中文单词来，至少需要16个比特。所以，整个的动作并没有那么快。

不过，现在第一个测试的人植入的这些电极中，有一些已经脱落了。目前还在正常工作的电极，只有原来计划好的10%。如果电极都插好了以后的话，它的传输速率应该可以达到，比如说10倍，每秒钟可以达到10个比特，也就是一个字节。稍微多一点点，你可能每一秒钟都可以想出一个字。

现在的信号仍然需要进行双向训练拟合，我们没法直接从大脑里读取出来。

说你想往左还是想往右，想向上想向下。你到底是想去输入哪个字母？现在想去直接确认解码，还是有一些难度的？所以现在要做的事是什么呢？就是训练，对吧？我们把所有的这些很模糊、很混乱的数据都读出来。读完了以后呢，看看怎么能够把噪音滤掉，然后里头哪一部分是有明确的指令，可以去解读出来的。现在还在做这件事。而且呢，这个东西不光是训练电脑的，这解码程序，还需要训练人。他需要让人也去按照一个什么样的方式去思考，这是一个什么故事。

其实我以前试过啊，就是带这种脑电波的这种环。以前就是没有脑机接口之前吧，他们也有这种啊，脑电设备的一些采集系统。他呢，就是要求你是集中注意力，或者是啊，彻底放松，想象一些不同的东西。它是可以读出一些波形来的。那么这个过程，就是需要让我们去训练思维，这就是一个双向训练的过程。

大家想一想，早期的语音识别是怎么干活的？早期的语音识别是需要进行训练的。他给你一个词表，你要挨着个念。念完了以后呢，如果计算机发现你念的不清楚，他会让你重念，对吧？要训练你按照标准的发音去念这些单词。同时计算机会进行一定的学习，说：“啊，这个就是在念这个单词了，我也记住了。”这样才可以进行语音识别。

早期的图像识别其实也是这么干的，先进行人工标注：“这是个汽车，这是个房子，那是个人，这是个自行车，这是个交通标志。”然后呢，再从速度很慢、错误率很高的情况下，逐渐的可以达到说分割一切的这样的结果。那你说，都是怎么进化过来的呢？

进化的过程其实也不复杂。第一个就是采集的信息更多。我们用非常非常多的信息在里边去识别，那么他就很容易，或者说要更容易在里边找到有用的信息。第二个是什么呢？就是通过大数据和AI学习进行训练，这个也是可以提高识别率的。现在，我们去识别这些脑信号还是比较费劲的，但是未来一定会发生，发展到不需要标注、不需要预训练就可以直接读取。这一天啊，应该离我们并不远。

现在我们再去做语音识别，还需要预训练吗？不需要。我们现在再去做图像识别，需要人工标注吗？不需要。现在直接用梅塔的Sam 2的这个模型“Segment Anything”，这个模型直接用起来以后，它就自动都给你分割好了。所以发展应该还是很快的。

现在制约脑机接口数据识别的呢，肯定还是数据量不够，或者说采样的频度、采样的信息的准确度还差得比较远。当以后说，我可以一秒钟采样很多数据的时候，他这种识别就会变得非常好。

这呢是一个99米长的枪的故事，这个是一个我非常喜欢的故事。我记得在我刚上班的时候，应该是有一次到惠普去参加培训。惠普的工程师就跟我们讲说：“你们知道，如果现在的枪只能打一米远，但是我又要打到100米之外的那只鸟，应该怎么办吗？”我们说：“这个怎么办呢？我们爬过去啊，还是怎么办啊？”他说：“都不对，首先我们是工程师，工程师要解决的问题就是，已知条件是我们要打中100米之外的鸟，另外一个已知条件是现有的技术是枪只能打一米远。”

那么在这样的情况下，我们能够造出来的东西，就是99米长的枪。当你的枪可以打1千米远的时候，或者可以打100米远的时候，拿到一支99米长的枪出来，你会觉得这件事情非常非常可笑。但是，99米长的枪也解决了问题，而且为未来创造打1千米长的枪指明了方向。说“OK，你照着这个方向去做是可以来实现的”，而且也为未来可以造出打1千米远的枪提供了资金支持。这就是工程师要干的事情。

所以，现在的脑机接口应该还是这支99米长的枪。我们看着会很可笑，但这就是未来，而且这就是工程师可以解决的未来。马斯克就是一个很伟大的工程师。那么，从第一个使用者的情况上看，他叫诺兰·阿伯，29岁的时候因为游泳事故导致颈部以下完全瘫痪。每天，他现在可以使用10到12个小时的植物设备，这实际上是一个很好的消息，对吧？因为我们去用苹果的Vision Pro，你可能用个十几二十分钟就会开始头晕，有些人可能用5分钟就头晕了。就算你一点都不头晕，使用一两个小时以后也是会有这种不适的感觉，就是你不可以长期用这个东西。

而脑机接口第一个使用者就每天可以用10到12个小时，这是个非常好的消息。现在，他已经可以用脑机接口控制鼠标移动，可以去打游戏了。但是，我估计他打这种《艾尔登法环》应该够呛，因为每秒输出的字节数太少，所以他的鼠标应该也跑不快。而且，还可以处理多任务，这也是一个非常令人兴奋的结果。

他可以一边用电脑，一边吃东西。这代表什么意思呢？代表是脑机接口可以区别不同的指令，加入到不同的指令序列里边去。啊，我先命令你，这个电脑的鼠标往哪边动一下，再命令我的杯子往前走一走，或者是哪个吸管应该怎么动。那么，我可以一边吃东西，一边去玩电脑，而不是说两边的指令会混在一起。这个也算是很令人兴奋。

未来的发展方向是什么呢？第一个就是还是做更多的案例嘛，因为现在排队的人足够多，就是申请要去做这个脑机接口的人非常非常多。他的机器人是做脑力接口的，机器人也做了好几台了。马斯克的钱啊，也是有的，世界首富嘛。而且现在这个Neuralink公司已经估值50亿美金了，那么手里边现金也足够多。在这样的情况下，只要FDA允许，他就可以七差咔嚓做下去。计划呢，今年能够做到10例，未来几年可能呈几何级数上升。这一两个月吧，就开始准备要做第二例了。

下一个要做的是什么呢？叫做盲视（blind sight）。做盲视的意义在哪呢？前面我们讲了，现在的脑机接口只能是读，不能往里写东西。那盲视呢，就是要往里写东西了，要告诉失明的人说这个地方是什么，这里是有个方的，有个圆的，是个什么颜色的，要给失明的人直接把信号放到他的视觉区域里边去，啊，视觉神经。因为很多失明，其实不是视觉神经有问题，或者不是脑部接受视觉信号的部分有问题，而是他可能啊，视网膜或者眼睛有问题。所以在这样的情况下，他们就可以去做盲视这样的一个产品。

当然了，他一开始可能输入的效率会比较低。所以呢，早期这种盲视的产品，它的分辨率应该也不会太高。不是说我们直接把脑机接口插上，就可以看高清大片的程度。你可能最开始是看着模模糊糊的黑白片，然后慢慢的再变得清晰起来。当读写无碍，带宽如果再拓展一些，再加上AI的话，那人就要成神了。人类成神之路自此开始。

如果现在第一位测试者的电极都在的话，那么每秒钟读十几个比特出来，就已经是速度其实不慢了。计划呢在未来几年里头，把速度提高，可以达到每秒钟100，甚至是上千个比特。这个速度其实就已经超越了人类说话的速度，甚至超越了可能打字的速度。在五年以后，要达到1兆每秒，也就是100万个比特，每一秒钟这个速度的话，已经远远的超出了人类现在能够输出信息的速度。

再加上什么呢？我们现在是看不到什么红外线、紫外线，也听不到超声波。但是这些东西呢，都是可以通过仪器采集的。那么采集了以后，把这些东西直接通过脑袋接口写到我们脑子里去，那千里眼、顺风耳、透视眼，什么不都有了吗？都不是问题。

所以现在我们需要思考一个新的问题：是什么语言到底是不是思想？这个呢，争议其实自古以来都有。但是最新的结论，应该语言并不是思想，因为很多从小就不会讲话的人，依然是有思想的。甚至思想有时候的速度是超越语言的。而我们在跟别人沟通交流、学习和思考的过程中呢，我们的思考速度完全是被语言所限制。我没法以超越语言的速度。

去进行内容的输入，输出是特别是输出输入的话。因为我们是有视觉、听觉，还有各种的无感触觉，甚至还有第六感，所以我们是可以以超越语言的速度输入的。但是，我们完全无法以超越语言的速度输出。当人类终于可以超越语言的速度的时候，我们也可以超越我们本身的感知范围，包括原来红外、紫外、超声我都看不见、听不见，很多其他的什么第六感、什么心灵感应我们也都没有。

现在好了，我们通通都可以依靠脑机接口，再加上外面还有AI，还有所有的知识库，那么人类就已经成神了。到这样的程度，现在有人问我说：“红楼梦啊，第几章第几节，第多少个字是多少？”对吧，我只需要下指令说：“来，给我检索一下，然后把它写到我的脑子里。”我就直接可以答了。这是一个多么有趣的事情，再也不需要背书了。真正可能取代手机的技术也正在向我们走来。

对吧，很多人在期待VR、AR可以取代手机，但是目前为止，这个趋势依然不明显。最大的问题是，它戴上以后没有办法出门，不能长时间佩戴。而现在这个脑机接口，第一位测试者就已经可以一天10-12小时的长时间使用了。所以，这个脑机接口是有可能真的取代手机的。马斯克呢，已经算是为行业指明了方向，资本的指挥棒已经开始转动了，我们马上要迎来科技大爆炸了。

三体的黑暗森林法则，大家知道是怎么来的吗？形成黑暗森林有三个原因。第一个原因是物质总量保持不变，也就是说大家都在发展，总有不够分的一天。

第二个呢，是猜疑链而导致黑暗森林的。第三个原因就是技术爆炸啊。为什么说呢？我看见旁边有一个很小的文明，刚处于萌芽状态，我们是不是先不用管它？但是，因为你到那里的时间可能需要几千年、几万年。那么在这样的一个情况下，你可能等到那的时候，发现对面的文明已经技术大爆炸了。你这个没法再去把它灭掉，而是人家直接上来把你灭掉了。

那么在这样的情况下，我们就黑暗森林一下，看到任何地方有声音，二话不说先抬枪就打。我们即将迎来脑机接口的科技大爆发了，而这个是真正的成神之路。这就像是互联网、移动互联网或者AIGC一样，资本导向的科技大爆发正在向我们走来。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。