AI推理 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI公开了GPT5降低幻觉的秘密，像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜，这才是真正的进步｜GPT-5 AI Hallucination OpenAI Hallucinations

Luke Fan — Wed, 10 Sep 2025 00:41:00 +0000

GPT5降低幻觉的秘密被OpenAI给公开了。现在看来，训练AI真的是越来越像训练小孩子了。

九月五号真的是一个神奇的日子，非常多的模型都在九月五号被发布出来。OpenAI在这一天也发表了一篇论文，这个论文叫做《为什么语言模型会产生幻觉》。

大语言模型从进入我们的日常生活那一天开始，我们就发现了，这个东西最擅长干的事情是什么？叫“一本正经的胡说八道”。

现在OpenAI公布了，说产生幻觉有两个主要原因。

第一个原因叫做“错误的评估体系”。什么意思呢？就是我们现在去考试了，做对了1分，做错了0分，不做也是0分。其实我们所参加的绝大部分的考试，都是这样去设计的，甭管你是考英语、考数学，都是这样设计。像考数学这种，他还有步骤分，哪怕最后你的结果没有，或者结果是错误的，你只要前面的步骤写对了几步，他都是给你分的。

但是我们用这样的方式去训练大模型的时候，这事就麻烦了。怎么个麻烦法呢？大模型也在那有一些指标，要去反复的训练嘛，它的训练也是按照刚才我们说的这个方式来训练的：答对了1分，答错了跟不答都是0分。那么我就先猜一个呗，万一猜对了呢？你没准还有个一分，总比不答强，因为不答跟错误是同样的结果嘛。

文章里头举了一个例子，说你去给我猜一个生日，这个人生日是哪天？马上给猜了一个。他说这玩意儿你猜对的可能性是多少？1/365，这个很难猜对的。但是呢，猜错了就跟没猜是一样的，都是0分，所以大模型还是会去猜一个出来。这就是他一本正经胡说八道的一个最底层原因，就是你一开始的评估体系是错的。我们考试的时候，这个评分的规则就是这么评的，所以大模型也是这么干活的。

另外一个原因是什么呢？他的一些训练数据本身是有问题的。什么是训练数据有问题呢？就是大模型通常的回答方式是：下一个词最适合应该出哪个词。他是这样来去回答问题的。但是呢，有很多的训练数据呢，有一些相关性。比如说他举了个例子说，我给他一堆照片，猫的照片跟狗的照片，然后呢在后头写上标注，说这是猫、这是狗。你训练完了以后，给他照片，说这是猫还是狗？或者你给他个猫和狗的这个单词，说请给我画一个出来，或者给我描述一下，这个大模型是可以搞定的。

但是如果你的训练数据是错的，比如说你给了一堆猫和狗的照片，在后边你标注的不是猫和狗，而是猫和狗的生日，然后你说：“现在给你一个照片，给我猜一下这个猫是哪天生的？”那这个大模型就直接抓瞎了，说：“您让我编一个吧。”大概是这样的一个情况。或者说你给它一个日子，比如说2025年9月9号，这一天出生的猫应该长什么样呢？这个大模型说：“呵呵，请听我瞎编一个。”也只能是这样了，你没有任何其他的办法，因为它的整个的训练数据相关性没有那么强。而且刚才我们讲，这个猫跟狗的生日标注在照片上以后的话，它也不具备什么统计学的这种意义。你说9月9号出生的猫应该是什么样呢？

但是讲到这儿，咱们多讲一句，有人相信生辰八字吗？或者是你的星座代表什么？这个是不是跟刚才我们给猫跟狗标生日这个过程是很像的？所以这个生辰八字的结果，跟刚才我们讲的这个数据是一样的，它没有什么统计意义的。所以不要去相信什么算个属性、算个生辰八字、算个星座，这个意义不大。就算是给交给现在的大模型，你让它去折腾这个事儿也没什么意义。

我自己呢，在第一次使用AI的时候就经历了幻觉。我第一次使用AI是什么时候呢？那时候ChatGPT还没发布呢，当时的AI产品叫做GitHub Copilot，底层也是一个ChatGPT的模型，它是先发布出来。首先这个东西出来是给大家写程序的，那个时候还不觉得说AIGC会怎么样了。我拿着那个系统去写程序的时候，我说：“B站的CEO叫什么呀？”他告诉我叫陈瑞。我说：“这对的。”然后我说：“陈瑞的身份证是什么？”我是等于写程序嘛，说“陈瑞身份证”，啪打一个报号，然后噼里啪啦就给我生成一堆信息出来：哪年哪月几月生的、身份证号码什么。当时我都傻了，这不是泄密了吗？马上我就去找陈瑞去了，我说：“陈瑞，你的那个身份证泄密了，这是你身份证吗？”陈瑞看了一眼说：“这肯定不是。”

后来我就搞明白了，当时还没想着叫“幻觉”，当时想的是什么呢？说这个东西是不是一个脱敏，或者是做了一些数据混淆。后来想明白了，这东西就是一本正经的胡说八道。你问他陈瑞的身份证，他按道理应该告诉你说：“我不知道。”或者说：“这个东西涉及个人隐私，我不能给你生成。”或者说我生成了以后，在下头给你写一个说：“只是示范数据，没有任何实际意义。”应该是做这样的一个操作。就跟我们去银行里头看到人家练习数钞票的那个钱似的，专门有特定的号码，而且上面会盖一个章，说这就是一个练习币，千万别惦记偷着玩。但是这个GitHub copilot啥也没说，直接给你写了一个完全看着像真的一样的身份证号就给你写出来了。当时还把我吓一跳，这是当时的一个故事。

这就是AI到底是怎么产生幻觉的，以及呢，我们应该如何去避免它。其实他们已经把这个东西应用起来了，就是应用到GPT5里头。所以现在GPT5呢，有的时候就告诉你不知道，他不会上来就直接告诉你：“我给你猜一个吧。”甚至猜完了以后还在那嘴硬：“不是我猜的，这东西就是这样的。”他有时候还干这样的事情。

像GPT4呢，他答对问题的概率是要比GPT5高的，因为刚才我们讲了，你胡猜一个，你还是有机会答对的。像刚才猜陈瑞身份证，他也不是说完全不可能猜对的吧？还是有可能猜对的，那么他就去猜去了。所以GPT4的正确率要比GPT5高，但是呢，GPT5的幻觉要比GPT4低非常非常多，因为GPT5经常就告诉你不知道了。说“不知道”肯定是错的，但是“不知道”呢，对于我们来说，其实是一个可以接受的答案。

你说这事跟训练小孩子是不是很像？我们再去给小孩出考题的时候，我们是不是可以出一个题说，这个题你做对了加1分，做错了减1分，不做没分？这个是不是就可以调整记分规则了？他就可以知道说，我们是不是不会的就不要瞎写了。我记得我原来参加过类似这样的考试，好像是上大学的时候，当时考计算机的一个等级考试就是这样的：做错了减分，做对了加分，不做没分。那就是你不会就别瞎写，就是这样的一个意思。或者呢，调整一下，因为有负数在里头，计算稍微麻烦一些嘛，就是什么呢？不做呢是1分，做错了呢是0分，做对了呢，比如说给他个5分。用这样的方式去训练大模型，他可能就会好一些。

包括我们以后去训练小孩，或者说小孩的成长过程中的一些教育吧，也可以使用这样的方式。当然，我觉得更重要的是什么呢？就是我们在孩子被训的时候，比如孩子这个犯了什么错误了，在挨骂的时候，就不要老惦记让他去反思怎么去犯了错误、下次怎么去做对。是不是很多家长都爱干这个事？做错了不行，你一定要在这个时候把它想清楚，然后给我解释到底是怎么回事。在这个时候，小孩想的压根就不是怎么去反思错误、怎么能够保证下次不犯，小孩想的是如何尽快结束当前糟糕的状态。这就属于是一开始你设定错了一个激励的条件，还希望说这个小孩犯了错误，多骂他一会，多念叨一会，让他能够学会，这个绝对适得其反。

还有一些呢，适合小孩教育的AI训练方式，大家也可以思考一下，就是寻找合适的数据或者问题对于教学是非常重要的。就刚才我们讲的，给他一堆猫跟狗的照片，然后给标生日，这就属于错误的数据。我们找到正确的数据，对于小孩的学习会非常有帮助的。今年年初吧，李飞飞训练了一个很小的模型，它就是精心筛选了1,000个高质量、高难度、覆盖50个不同领域的全面性问题，训练出来的模型要比很多很大的模型效果都好，这个才是对我们有借鉴意义的事情。为什么呢？你对于小孩训练也好，或者是教学也好，最缺的是什么？不是上培训班的钱，也不是找到特别好的老师，而是小孩的时间。你去让小孩上培训班，到底是上那个还是上这个？你需要去取舍的，因为时间是有限的。在这样的一个情况下，如果能够选对正确的数据集的话，对孩子的训练也是非常非常有帮助的。

在这里呢，再讲另外一个很拟人的AI算法故事吧。就是李飞飞的这个小模型里头，应用到了另外一个有趣的方法，叫什么？叫“预算强制法”。这个呢，其实是小孩解数学题的一个方法。它是什么样的方式呢？就是它动态的来调整推理的步骤和时间。现在我们的模型都是做推理嘛，到底是应该用多少步来推理呢？现在我们使用的很多系统都是可以预设的，我到底是用高级推理、中级推理、还是低端推理，还是直接出结果？让你自己去设。但这个事其实是很二的，应该是让模型自己去判断。

它呢，通过任务的复杂度和中间的结果，不断来评估说这个事是不是可以结束了。如果任务复杂度高，他就会给你更多的推理预算；如果在推理预算之内你把它做出来了，它再去评估这个结果。如果结果的置信度很高，这东西就很像我们从小做数学题，都是有这样的训练的。你得出一个0，得出一个1，这个事都有可能是对的。但如果你最后得的那个结果需要开根号，然后还不会算，这种大概是前面哪步算错了。咱从小应该都是这么学的吧？他也是如此。然后除了置信度之外，还有一个是什么呢？就是结果的收敛性。我越算这个结果，好像越向着比较可信的方向在前进；或者说有的时候越算越觉得不对，走着走着觉得越走越远了。这个东西是可以判断的。如果是你得到了一个置信度很高、很收敛的结果，没问题，就停在这儿吧。如果你发现这个东西置信度很低，而且呢越来越发散了，一点都不收敛，越走越不像了，就直接停止，说：“不会，对不起，我不知道。”当然我们小时候有时候受的教育是什么呢？你实在做不出来，到后头写个0、写个1，还是有蒙对的机会的。

所以李飞飞的这个方式呢，就是简单问题简单推理，获得高置信度、收敛的结果，就快速停止；如果太复杂，就直接承认失败，完事了。这个是不是也很像咱们小时候教小孩子做数学题的这个过程？

讲远了。这个降低幻觉的技术呢，现在已经用到了GPT5上。现在他们在GPT5上就已经是鼓励大模型说“不会”，说“这个事我不知道”，去鼓励他做这件事情，而不是要上来生给你编一个结果出来。

另外呢，我要讲，降低幻觉其实是一把双刃剑。很多人说：“不对，幻觉低了，它不是好事吗？你不知道就说不知道就完了。”为什么是一个双刃剑呢？这个里头呢，跟人性有关。因为幻觉再怎么降低，它永远不会是零，有可能呢会逐渐降低，但是人呢，会选择相信一个大概率不会出错的自动化系统永远不会出错。这话很绕，什么意思呢？你比如说这个系统，十次里头错八次，那这事肯定不行。等到10次里头错5次呢，这个结果呢你可以参考一下。如果10次里头呢只错个两次，就会有相当一部分人认为这个结果是永远不错的，我就直接相信了，剩下的两次错就错了。他是这样来去处理这问题的。这是人性的一个选择。所以呢，幻觉越低，愿意直接无条件相信这个模型的人就会越多。这是一个灰度，有些人可能怀疑一切，有些人呢可能说你这个幻觉只要到50%我就相信了，有些人说幻觉到20%我就愿意相信他。他是这样来去工作的一个过程。所以呢，幻觉越低，选择无条件相信的人就会越多。这就是为什么我说降低幻觉是一把双刃剑。

那么我们应对幻觉的最简单方法是什么呢？第一个，肯定还是怀疑和批判了。中国的中小学教育里头还是应该加强一些的，这一方面目前应该没有那么强。另外呢，就是你要去有一些逻辑的训练。比如说，如果不进行逻辑训练的话，你没法去判断这个结果是不是符合逻辑，或者说他的“置信度”这个东西，你没有判断标准。还有呢，就是我们要了解聊天的上下文环境。这个事特别有意思，大模型呢，你问他一个问题的时候，他给你的结果未必一样。这个结果的差异是怎么来的呢？其实是跟上下文有关。所以我们经常在跟大模型聊天的时候，要学会叫“开始一个新话题”。什么意思？就是我们把前面的上下文都扔了，咱们重新开始聊。这个是非常非常重要的，否则的话，它给你的结果要跟上下文相关联。如果我们跟他聊天的过程中忘记了上下文说的是什么，那他给你的结果就有可能会出现比较大的偏差。

还有一点呢，就是要了解信息来源。你说我这个大模型给我的结果，是大模型直接生成的，还是通过本地知识库总结的，还是通过搜索总结的？这个东西到底是怎么来的？如果是通过搜索来的，他到底是搜索的哪些网站？哪些网站是可信网站？哪些网站是八卦网站？哪些网站每天胡说八道？你要要求他去进行一定的区分，这个才有可能让他的幻觉降低。

当然，最终的方式就是多模型校验。像我现在很多的数据都是多模型校验：我先在豆包里跑一遍，因为这玩意最快；然后呢，把跑的结果扔给ChatGPT，说：“来，给我进行数据校验。”然后呢，ChatGPT就会把所有的数据拆开了，校验完了以后，告诉你哪个地方是对的，哪个地方是错的，要比ChatGPT自己做的还要好。有时候ChatGPT也有幻觉，虽然GPT5号称幻觉降低了，但是依然是存在的。我也会把它的结果再拿到豆包里边再去校验。这个会极大的降低幻觉，但是也不能降到零。

OpenAI呢，现在又在开始探索新方向了。就是刚刚做这篇论文的这个部门呢，叫做模型行为部门，这个部门呢，现在已经合并到模型预训练部门去了。这个部门的老大呢，是一位亚裔女士吧，看那个名字应该是个韩裔吧。他呢现在做了一个新的部门，叫OAI部门，这个部门呢，是研究AI与人的交互方式的。他呢，研究的是在聊天和agent之后，这个AI应该如何去跟人进行交互。现在大家还在卷agent呢，人家已经又往前走一步了，agent之后是干什么？他认为AI呢，应该是一个思考、创造、娱乐、学习、连接与实践的全新范式和工具。我们也期待这位女士吧，能够给我们带来不同的惊喜。她前面做了达利2、做了GPT-4o、做了GPT5，特别是跟人交互相关的部分，包括AI如何降低幻觉、AI如何降低谄媚，这些东西都是他去研究的方向。

最新的GPT的更新是什么？特别有意思的一个功能，叫“分支聊天”。比如说跟人聊的时候，聊着聊着聊崩了，或者聊的大家很不开心了，你能够说：“我们退回去，现在我们退回三轮，从这继续往下聊吗？”咱是不行的，因为那对面还生气呢。但是现在ChatGPT允许你干这个事了。就是我们聊着一个来回、两个来回、三个来回，这个时候说我聊错了，我可以从第一个来回完了以后，说我在这做一个分叉，我重新开始聊。AI大模型的这个接口呢，就不知道你后边的聊的第二轮、第三轮到底聊了什么，它会从这个地方分支出来，接着跟你聊。这个应该也还是蛮有想象空间的一个事情。

好，这就是我们今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的会员频道。再见。

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

Luke Fan — Tue, 29 Jul 2025 00:57:08 +0000

遥遥领先的华为升腾384超节点，是不是又立功了？

大家好，欢迎收听老范讲故事的YouTube频道。

上海人工智能大会上，有一个镇场之宝，就是华为升腾384超节点。叫这个名字很怪，其实就是华为做的算力超级节点，华为云矩阵。384超节点这个东西，从外边看上去呢，像一堵墙一样，反正摆在厂子里头也确实比较唬人，而且也很昂贵。

很多人就兴奋了，说我们是不是又打破了西方的垄断呢？西方人对我们禁运，不给我们卖英伟达最好的芯片，我们自己造出来了。这个事到底达没达到呢？可以说部分达到了。在集群总的FP16算力上，为什么一定要强调这个？就是它在不同精度上的算力是不一样的。在FP16算力上呢，华为升腾384超节点，是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢？

现在我们去想算力，它是分三个层次的。第一个就是卡，卡这件事呢，咱肯定比不过人家，甭管你是比H100还是GB200，你根本比不过人家。第二个呢，就是叫整机，我是一台服务器。你像AMD呢，就是卖这种东西，就是我一台服务器里头有8个，他们叫MI300这样的服务器。第三种维度呢，就是说我给你卖一整个柜子，像NVL72呢，就属于整个柜子，我把72个H100或者72个GB200这样的东西，装在一个柜子里头，当成一台机器一把卖给你。

现在西方最主要的算力节点，就是NVL72。但是呢，同样的NVL72呢，它里头到底装的是H100，还是装的GB200呢？它算力是不一样的。华为升腾的384超节点，它超过了H100的NVL72的算力，但是呢，达不到GB200的NVL72的算力。虽然在其他方面呢有所欠缺，但是呢，也算是突破了一层西方限制吧。这个欠缺的部分，待会儿我们再去讲。

升腾384超节点，到底是一个什么样的架构呢？一面墙，为什么是一面墙？它是16个标准19寸机柜，这柜子的大小是有标准的。NVL72就是英伟达的，这个设备呢是一个柜子，咱是16个柜子。这个16个柜子里头呢，4个柜子是交换机，因为你这么多设备要拼在一起，你总是需要一些网络交换设备，去支撑它们的。所以有4柜子交换机，剩下12个柜子呢，是装的算力服务器。

每个柜子里头呢，是4台4U的升腾服务器。这个服务器呢，是按1U、2U，大概4U应该有这么高吧，这个就是4U的服务器，4台装在里头。当然它也装不满，这一个柜子里头应该是19U还是多少U，我记不太清了。剩下这空间，你还得放各种的路由设备、交换设备，因为你这些服务器之间，你还要通讯呢。

所以12个算力服务器柜里头，每个柜子里装了4台服务器，每个服务器里头呢，是4个鲲鹏920 CPU和8个升腾910C的NPU。所以呢，他把所有的NPU算一块，就是升腾910C的NPU，算一块呢是384个，这个名字是这么来的，384超节点。它等于是把384个NPU搁在一起，给大家干活儿。

鲲鹏CPU呢，应该是一个兼容ARM指令集的自主IP的CPU。鲲鹏早期的CPU呢，是使用的ARM IP，后来呢，为了防止美国人告他嘛，所以呢，他自己研究了一些新的架构，说我们不再使用ARM架构了，但是呢，它的指令集呢，还是部分兼容ARM的。里边装的操作系统是什么？鸿蒙，里头装的鸿蒙操作系统，但是它是专门给服务器用的。

升腾910C呢，也是一个自主架构，叫达芬奇架构的一个NPU。所谓的NPU呢，叫神经网络处理单元，实际上呢，是一种ASIC处理器。它是自己定制的一个大型集成电路，所以它不是CPU，它有自己的指令集，跟任何的CPU、GPU的指令集都不一样。这个是910C，这两个芯片呢，应该都是7纳米的芯片。但是现在嘛，华为的芯片都搞得神神秘秘的，做了一大堆7纳米的芯片，到底谁做的也不知道，怎么做出来的也不知道，反正就是7纳米的，把这些芯片造出来了。

下一件事是干嘛？就是要通讯。所有的这种算力服务器里头，实际上是三样东西。一个是GPU跟CPU，第二个呢是它的内存，这里头也有HBM内存，它的内存比NVL72给的还多，因为它里头的芯片多嘛，这个装了这么多柜子，咱总要多放一些。第三个呢，就是要通讯，卡跟卡之间是要去通讯的。

像这个NVL72，就是英伟达的这个设备呢，它里头使用NVLink呀，使用其他的一些协议，和一些专门的设备，去让它们进行通讯。不同的卡，它可以直接去调用其他机柜里头的HBM，这种高速的显存。这样的话，它的效率就会很高。拿这个设备去做大模型训练和推理的人呢，就完完全全可以把这一柜子72个GPU，当成一个GPU去使用。里头具体咋调动，你不管了，这个数据到底是放在哪个服务器的哪一个卡旁边的HBM的空间里头，你也不用去管了，它自己去调度去了。而且速度都很快，即使是跨服务器跨卡的这种调度，它不会影响任何速度。这是NVL72处理的方式。

升腾384超节点呢，服务器比别人多，里头的卡也比别人多，人家72个卡，他384个卡。他的通讯呢，肯定是处理起来更复杂的。它通讯呢，使用的是全线光模块，像NVL72里头还是有一部分是铜线的，有一部分是光模块，这个里边全是光模块，堆料堆的非常非常足。这样可以保证呢，这些芯片之间的通讯，服务器之间的通讯效率都非常高。所以为什么这里头，还有4个柜子的交换机呢？那些光模块，有些还是要通过交换机的交换以后，才可以找到下一个机柜里边的服务器，然后在里边找到你需要的地址，找到你需要的数据，才可以把它拉回来。所以呢，它整个的运作方式还是比较费劲的。

当然，光模块多了呢，也有光模块的问题，不是说我们上了光模块就完事了。光模块的问题是发热严重，它里头是个激光发生器嘛，故障率也比较高，这个玩意比较爱坏。还有一个问题呢，就是它的激光发生器的寿命呢，不是很长。所以使用这么多的光模块，它的运营维护成本和稳定性呢，都不是那么理想。

物理上连通了，那下一个问题是什么呢？我就要通过软件逻辑和分配上，我要把刚才我们讲的光模块这些缺陷，要给它处理掉。以前做工程上，有一个典型的故事，叫99米长的枪，什么意思？就是说我这个枪只能打一米远，但是呢，我要打中100米之外的那个鸟，怎么办？作为工程师来说，处理的方式就是造一支99米长的枪，把这个枪伸过去，乓一下，把那鸟打死。这个在工程上呢，并不可笑，在工程上，很多的解决方案都是这样的。

所以呢，升腾384超节点呢，也用了一些软件和逻辑的方式，来去解决光模块不稳定性的问题。它会自动的去判断说，我这不是不是光模块断了呀，还是说哪块出故障了呀，我怎么绕一下。它在每一个NPU外边挂了6-8个光模块，这坏了以后，还有其他路径可以走，我可以做冗余备份吗？

我们用了16倍的英伟达NVL72的体积，和3倍的耗电，来解决NVL72加上H100芯片所能达到的算力需求。这个就是我们现在干的活。三倍耗电这事很好理解吗？人家是5纳米或者是3纳米，咱们这个是7纳米，肯定是耗电发热要比别人厉害。人家是72个芯片，咱们是384个芯片，你比别人耗3倍的电，这个还算是好理解的一个地方。

它的功率呢，是559千瓦，开起来以后还是非常非常耗电的。559千瓦呢，还只是机器的耗电，还没算散热呢。散热加上以后的话，可能会到600-700千瓦之间的一个耗电。为什么这么说呢？升腾上一代做的类似这种东西，大概是10%的耗电量来去散热，比如这边用100瓦的电量去做了算力了，那边用10瓦的电量去做散热，他是这样来去做的。但是呢，这个384超节点，因为里边用了太多的光模块，好像是用了6000多个光模块，那么你的散热的耗电的话，肯定也是要上升很大一块的。散热不好的话，你的激光模块损耗的就会更快一些。它整个的系统完全是强制水冷，其实NVL72也是强制水冷，只是呢，它在一个柜子里，相对来说还比较好弄。升腾384超节点呢，因为在16个柜子里，整整一面墙，你要再给它配水冷呢，这个事费点劲吧，但是还是可以解决的。所以耗电比较厉害。

那么电费呢，中国还是相对来说比较便宜的。中国的工业用电呢，大概是6毛钱一度，其实美国也差不太多，我看了一下美国的平均工业用电，大概是8美分多一些吧，大概也是6毛多钱。美国有一个州电价比较便宜的，是路易斯安娜州，4毛多钱一度电。美国大概最贵的是加州，14美分，大概快一块钱一度电了。加州因为硅谷在那嘛，再加上机房也比较多，所以他那的电特别贵。中国的发电大省，比如说像云贵、内蒙、新疆这些省，如果是集中大规模的采购用电的话，应该可以做到2毛多一度电。按照咱们最便宜的电费，跟美国的平均电价去比较的话，我们的电费是他们的1/3。所以呢，我们耗英伟达NVL72三倍的电，这个也是可以接受的。所以我们依靠电价优势，勉强可以抹平成本。

升腾384超节点的生态如何呢？英伟达之所以可以打败天下无敌手，核心的原因，不是说别人造不出来这样的东西，而是呢，它有一个生态捆死了，大家离不开它。CUDA呀、NVLink呀，这些生态帮助老黄，整个的竞争过程中无往而不利。那你说我们现在做了一个升腾384超节点出来，如果大模型没法在上头跑，也没法在上面训练，这不是白干了吗？你就像英特尔搞不定这个事儿，AMD也搞不定这个事儿是一样的。虽然AMD说我造得出来，你也能将就使，但是你说我要进行大规模训练了，很少有人去选择AMD的设备。

现在呢，大规模使用的GPU其实就是两种。第一种呢，是英伟达的H100、GB200，GB300现在还没发布呢。另外一种呢，是谷歌的TPU。谷歌TPU就是说，反正我自己做自己用，我也不需要考虑兼容性问题，我就自己干了，我也不卖给别人，它的量也很大。另外呢，像亚马逊跟微软呢，都号称是自己要做GPU，特斯拉和XAI也号称自己要做GPU，但是都在号称的阶段，还没有动起来。山姆·奥特曼呢，也号称要跟孙正义一起拿ARM的IP，自己去做GPU，但是这件事呢，也停留在号称的基础上，也没有实际动作。所以现在真正广泛应用的大规模的GPU，就是英伟达和谷歌。这个里头最核心的原因就是生态。谷歌之所以能够大规模应用，就是我不管生态了，反正我自己使，你们不需要跟我兼容就完事了，否则根本没法跑。

咱们说回来，华为升腾384超节点，它的生态怎么样呢？第一个呢，是华为自己做了一个叫MindSpore这样的一个开源的推理和训练框架。你说我现在想用升腾384超节点，去训练我的新模型，你就使用它这个玩意就可以了。它呢，大概可以兼容70%-80%的CUDA指令，但是毕竟不能完全兼容嘛，你如果原来已经习惯了CUDA的编程的话，你可能到这边来去做训练，还是有问题的，你还是要去花时间去做迁移的。另外呢，PyTorch、TensorFlow、Hugging Face Transformer这些框架呢，升腾呢，也专门做了兼容性适配，就是我专门写一个模块，你只要带上我这个模块以后，你这个PyTorch，你的TensorFlow，你的Hugging Face Transformer，这些推理和训练框架，就都可以在升腾的384超节点上跑了。所以呢，如果大家说原来的这个系统，是在PyTorch上跑的，你也不需要再去做迁移了，直接在它这上就可以跑了，兼容性他们都给你测好了。所以呢，属于叫部分的兼容吧。

如果你真的是说我训练新的大模型，建议大家还是不要跟自己找不痛快，还是老老实实的去使用英伟达就完了。但是你说我拿回来做做推理，拿来去做一些后期的使用的话，升腾384基本上是够用的，没有什么太大问题，你只要别嫌它占地儿，别嫌它耗电，这个东西还可以使。

那你说为什么不能拿它做训练呢？刚才不是说它可以训练吗？而且训练的算力也不差。大家注意，训练呢，是一个非常长期的这种连续任务，你中间停了坏了以后的话，你是需要重新干的，你说让他接着往下干，这事很费劲。它里边有大量的光模块，而且这个玩意的故障率很高，寿命也不是很长。你如果跑着跑着出故障了，里头有一个光模块烧了，你的这个训练呢，未必会停下来，因为它通过了一些软件方式，让你去规避这个错误。你可能只是说我训练的过程中，哪一些数据取回的速度变慢了，但是呢，我还在接着往前慢慢跑。但是也有可能跑着跑着就直接出错，咔嚓就扔那了，这个可能性是很大的。

你像马斯克，他自己用的10万块H100，Meta这种几十万块的H100，他们去做这样训练的时候，还经常是说我跑着跑着突然就退出了，突然就崩了。那崩了怎么办？重来一遍呗。对于他们这些平台来说，你可能跑10次崩个两三次，但是你对于升腾384这样的超节点来说，你可能跑10次会给你崩个八九次，这个也许就突破忍受极限了，就没法忍了。他大概就是这样的一个情况，就是有些情况呢，咱们能用了，有些情况还是稍微费点劲的，跟它整个的硬件架构是有关系的，跟它的兼容性也有关。它毕竟没有100%兼容CUDA嘛，所以大家在CUDA上做训练的代码，拿到这边来再跑，还是会有很多问题的。

那你说华为升腾384超节点，最大的作用到底是什么呢？第一个呢，还是给国内算力中心了一种新的选择，否则你没得选，你只能是要么拿自己的卡或者服务器，这种完整可以拼在一起的算力节点，也算是一个工程上的突破吧。信创产业也算是填补了零的空白，因为现在很多是要求信创嘛，所有的必须是自主可控，自主的操作系统，自主的CPU，自主的GPU，所有都要自主的。我们现在迷信这玩意，原来呢，这些人没得选，现在等于是有的选了，也算是一个工程奇迹，就是99米长的枪。这个故事呢，大家别觉得可笑。

H20的库存呢，前面老黄在中国各种的表演之后，算是把他这个库存清了。川普呢，又要带着企业家来访华了，下次谈点什么，大家要想一想。上次黄仁勋是怎么去说服川普，说把H20解禁的呢？是告诉川普，华为的升腾910，已经基本上可以达到H20的水平了，你再不让我卖，我这就没意义了，人家也都做出来了。所以他把H20卖了。现在是华为升腾384超节点出来了，他说你看我这H100，加上NVL72的整个架构的性能，也被人超过了，咱就卖吧。至于GB200这个呢，咱们再看一看，现在它还没达到，不行咱们再把这个摁住了，或者说等我这个GB300出来了以后，咱们再把GB200的这套东西卖了。可能下一轮的解禁就要来了嘛。所以大概率川普老爷子还是比较好面子的，等他下一次带着企业家团队、一对CEO团队来访华的时候，H100的NVL72就可以卖了。

总结一下，升腾384超节点在工程实现上，确实有遥遥领先的地方，有一些敏感单位，可以选择全国产设备了，这个原来搞不定，现在可以搞定了。有很多瑕疵和不稳定的地方，用的越多，迭代越快，改进的呢也就越好，永远都是这样的。第一次拿出来都是磕磕绊绊的，第二版第三版第四版，慢慢就改好了。这个对于突破海外封锁，让美国进一步放宽管制来说呢，是有巨大作用的。如果是商业公司，哪怕你去选择H20，也比选择升腾384要划算。如果你不着急的话，可以稍微等一等H100，我相信H100在今年可能很快就会解禁。如果后面美国进一步放宽管制的话，英伟达的股票大家可以再关注一下。董王呢，是一个好大喜功的狡诈商人，黄仁勋也是。变化应该就在不远的将来。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友，加入我们的付费频道。再见。