中国超算重回全球第一，超算和AI算力中心不是一回事，英伟达为什么在这一块不灵了？

中国超算灵晟重夺世界第一，怎么总觉得哪里不对呢？

中国超算灵晟以巨型机房轮廓站在世界排行榜顶端，旁边是被挤到第二位的美国超算标牌，前景有主持人拿着问题清单观察榜单，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

大家好，欢迎收听老范讲故事的 YouTube 频道。

前两天，也就是 6 月 23 日，在德国汉堡，全球超算一年两度的“华山论剑”——TOP500 榜单更新了。榜首换人了，一台叫做灵晟的中国超算悄无声息地空降第一，把霸榜一年多的美国机器 El Capitan 挤到了第二。

这是自 2017 年神威太湖之光之后，时隔 8 年多，中国超算重回世界第一。大家第一个上来喊“遥遥领先”吧？这个事跟遥遥领先还是有点关系的。第二个，有人说这不就是 AI 算力吗？还真不太一样。还有人说，谷歌呢？微软呢？他们怎么不来？怎么让中国这样的一个公司就冲上来了？这个机器、这种超算，难道把它运到德国去跑吗？大家都知道这种超算都挺大的。如果不到德国跑，那它怎么算的分数呢？

咱们把这个事跟大家稍微掰扯掰扯：这到底是个什么比赛，考的什么题，这个题是算什么的，程序是谁写的，成绩是怎么去验证的，这个机器到底有多大、多费电，以及现在这个超算跟 AI 到底是不是一回事。谷歌、微软、xAI、美塔、Oracle 都在这拼命地建算力中心，那咋中国的机器就跑去夺冠了呢？怎么觉得不对呢？中国还有多少这种超算？平时这些机器都干嘛的呢？最后，咱们再讲讲 AI 跟这种超算之间到底是怎么结合的，英伟达能不能顺手把这活干了呢？

TOP500 到底比什么？

一张写着 TOP500 的全球成绩单放在桌面中央，LINPACK 试卷、Rmax 实测仪表和 Rpeak 理论峰值气球并列对比，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

首先要说清楚，这到底是一个什么样的比赛，考的是什么题。这个比赛叫 TOP500，它实际上是一个民间榜，从 1993 年开始办，每年 6 月份和 11 月份各发一次，是超算界的高考成绩单。只考一道题，叫做 LINPACK。说人话，就是解一个超大规模的线性方程组，每秒能够做多少次浮点运算，就考这玩意。

这里头要牢记两个词。一个叫实测，英文叫 Rmax，不是厂家吹的理论峰值 Rpeak。Rmax 就是说你要跑这个题，而且要跑稳定，跑很长时间。灵晟实测是 2.198，峰值是 2.736，压榨出了八成的算力，这已经是非常非常强的了。

另外一个词是双精度，FP64。这个数咱们先记着，后边咱们再仔细讲它跟现在的 AI 算力到底有什么区别，就差在这数上了。

FP64 这道题到底在算什么？

飞机机翼被切分成密密麻麻的小方块网格，每个方块之间用箭头连接表示气压风速温度互相影响，旁边有 FP64 精度放大镜查看小数位，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

那么这道 FP64 的题到底算什么呢？咱们打个比方吧，一架飞机机翼周围应该有气流，我们要用计算机把空气切成几十亿个小方块，每一块的气压、风速、温度都由旁边几个方块来决定。你推我，我顶你，大概是这样的一个过程。

几十亿个方块就有几十亿个相互咬死的方程，必须同时解出来。走完了这一帧以后，你要再解一次下一步怎么样了，要反复算几万次、几十万次，这就是 LINPACK 这道题的真身。

为啥是 FP64 呢？就是它要求的是准，一定要准。因为 FP 后边这个数越高，说明小数点后边留的位数越多。我留得多了以后，最后就可以把误差算得相对比较小。

刚才咱们讲了，这个东西要算几十亿个小方块，里头要迭代几万次，一次模拟上万亿次的运算，一次模拟上万亿次的计算，误差会滚雪球，这个东西叫累计误差。低精度算到后边，模拟的飞机自己在电脑里就散架了，根本就飞不起来。它这个东西必须要特别准，到小数点后十几位的双精度，所以要用 64 位。记住这个“准”字。

TOP500 分不分量级？

那这台机器到底有多大呢？或者说这种机器分不分量级？咱们前面讲过张雪机车的故事，它这个机车比赛是分量级的。你去拳击比赛，也是分量级的，你不能找个大胖子跟人小瘦子去打。

这个 TOP500 分不分量级呢？要讲清楚，这个比赛是不分量级的，没有任何限制。所以这种比赛天然偏向于不差钱的国家队，你做的机器越大、越费电、越烧钱，你的得分就越高。基本上大家可以把它理解成不分重量级的拳击比赛。

当然它也有另外一个比赛，叫 Green500，叫绿色 500，它要计算能效比，就是我的 1 瓦到底能够算出多少次来。在这点上，中国这个机器灵晟比美国那机器就差好远了。

灵晟到底有多大、多费电？

92 个超算机柜排满机房大厅，粗大的电缆连接变电站和液冷管道，电表指针指向 42 兆瓦，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

讲到这，机器肯定是巨了的个。这机器到底有多大呢？首先我们先说它的计算速度，是每秒 2.198 百亿亿次双精度。大家知道这数就完了，不需要细究这数到底有多大，反正现在这就是世界最快的了。

它使用的叫 LX2 处理器，一颗处理器上是 304 个核心，每两颗处理器是一个节点，2 万多个节点，4 万多颗 CPU，一共是 1,379 万个核心，装 92 个机柜，基本上可以摆满整个机房大厅。

这个东西肯定是耗电魔兽，这台机器满负荷是 42 兆瓦，跑一年 3.7 亿度电，电费 2 亿多，还得按中国的电费算，还得给它专门配变电站和整套的液冷系统。所以这个东西就是中国这套大力出奇迹的典范。

成绩怎么提交和验证？

超算成绩从本地机房上传到德国评审桌，四道闸门依次标注误差验算、统一尺子、现场核查和声誉约束，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

那你说这机器我能把它运到德国去吗？肯定都不会。你把这机器运到德国去，它连电我估计都烧不起。所以这种机器是在自家跑，提交成绩，然后官方来抽查，通过这样的一个方式去参加比赛的。1993 年起一直是自愿提交的一个状态。

那你说有没有人作弊？怎么能够保证提交的数据是准确的呢？有四道闸门。

第一道是题目自带验算，算完了以后自动核对误差，必须小于 16，超过了成绩就直接作废了。所以算错了自己就被毙掉了，算不对这事是不行的。
第二道是题目判分全球统一的一把尺子。
第三道是官方保留独立的核查权，还会随机地抽样，要求安装现场跟委员会直接对接核实，无效的、非通用的直接踢出榜。
最后是声誉。这个圈子不大，如果你作假掺水被扒了，丢的就是整个机构和国家队的脸，所以通常大家还是会相对比较小心的。

而且耗电也是有标准的，因为后边还有 Green500 的这种分级。L1 测全机，还有一个就是 1/64 节点的外推，L2 是 1/8，L3 是整机连网络存储实测。所以超算比赛更像是交一份可复现、可抽查的实验报告。

第二名 El Capitan 是什么机器？

灵晟纯 CPU 阵列与 El Capitan 的 CPU 加 GPU 混合阵列并排站在领奖台上，旁边用电量和性能柱状图显示取舍，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

再说第二名，美国这台 El Capitan 是一台什么样的机器呢？它是美国劳伦斯利弗莫尔国家实验室的机器，由惠普 Cray 制造，1,134 万核，大概是 29.7 兆瓦。它这个机器主要是干嘛的呢？主要是模拟核爆的。

刚才咱们讲，这个劳伦斯利弗莫尔国家实验室是美国能源部的实验室，就是做各种核实验的实验室。现在不让真的去做核试验了，那就只能在电脑里炸了。

它跟咱们的机器最主要的差别在哪呢？咱们这台灵晟是全 CPU 的机器，里头是没有 GPU 的。而惠普造的这个 El Capitan 是一半的 CPU、一半的 GPU，它实际上是 AMD 的算力核心，所以有 CPU 加上 GPU 二合一的这种加速芯片，里边用的是 MI300A APU 的这种芯片。这个芯片对中国也是禁运的，它靠 GPU 加速运算，所以差距就差距在这了。

灵晟是纯 CPU，1,379 万核，42 兆瓦，2.198，它是第一名。而 El Capitan 是 CPU 加 GPU，1,134 万核，29.7 兆瓦，1.809，它是第二。但是耗电我们也比它耗得多，灵晟多耗 4 成电，换来 2 成的性能提升。赢，在绝对值上肯定赢了，但是从能效上来说，稍微差那么点意思。

但是灵晟有一个比较强的地方是什么？全国产，CPU 也是国产的，操作系统也是国产的，就是费点电吧。

灵晟的 CPU 是什么来头？

既然这个机器是全国产的，那我们就关心它这个 CPU 到底是一个什么样的情况。首先要说，这个 CPU 不是 X86 架构，也不是 RISC-V 架构，这个 CPU 是 ARM 架构，Armv9 架构的。大家注意，Armv9 的所有专利，华为都已经得到授权了，它在没有 ARM 新授权的情况下，可以继续使用 Armv9 架构去设计新的芯片出来。所以这事跟遥遥领先还是有关系的。

这颗芯片是华为参与设计，与鲲鹏系列芯片是一脉相承的。每颗 304 核，由两颗小芯片拼起来，32GB 片上 HBM 加上最多 256GB 的 DDR5 内存，把这玩意放在一起来使用。现在中国你说能有 HBM 吗？也有，就是稍微低一些。咱们现在长鑫存储也是可以做出这东西来的。

那为啥不要 GPU 呢？为啥全要 CPU 呢？它这个核里边内嵌了 ARM 的向量和矩阵单元，所以 CPU 里头干一部分 GPU 的活也是可以干的。在 GPU 的运算上，它叫够用，但是不能算碾压吧。

至于说这个芯片是谁代工、谁做出来的，官方并没有公开。但是华为参与设计，大概率不能在台积电去代工了，因为台积电现在不给咱们做了。所以它大概率还是在中芯国际做的 7 纳米芯片，也怪不得耗这么多电嘛。

那你说我能不能买一个 LX2 的 CPU 来使呢？这个东西是买不到的，因为这个 CPU 是专门给超算来设计的。但是你说我现在想用华为 ARM，也就是鲲鹏的架构，去做自己的服务器，行不行？这个也是可以的，这个芯片是有卖的。所以这个 LX2 算是特种定制款，但是它这套体系，就是鲲鹏这套体系，大家是可以买得到的。

这跟 AI 算力是一回事吗？

左侧 F1 赛车标注 FP64 精准科学计算，右侧万人货运车队标注 FP16、FP8、FP4 的 AI 吞吐量，两条赛道分叉前进，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

下一件事，你说大家现在拼的都是 AI，都是英伟达，你做了一个这样的东西到底为啥？这跟 AI 有什么关系没有？或者微软、谷歌他们都哪去了？它参加这比赛，不是把中国队碾压了吗？

这要讲清楚。首先微软来了，微软是在微软云里的一台机器去参加了比赛，得了第 32 名吧，反正名次很靠后。谷歌确实没来参加，因为这事跟它没关系。但是要注意，AI 算力跟我们现在讲这超算，是完全两个不同的概念，算的题不一样。

刚才还记得咱们强调那数吗？FP64，它要求的是准，不能有误差，或者误差尽可能要缩小。而 AI 玩的是什么？玩的是快和多。AI 上来了以后就是 FP16，只有 16 位的浮点数，甚至还有 FP8。咱们最新的，比如像 DeepSeek V4，包括现在新的英伟达 GB300 以及华为的昇腾 950 这些芯片，人家玩的是 FP4。我只在 4 位的浮点数上去算，这样就可以同时算更多的数。我不需要你给我算这么准，这么小的误差，差不太多，我只要把这么多的向量算在一起，我就可以得到结果了。所以这完全是算两个不一样的东西的。

让它们这个比赛也会进行这种混合精度计算。混合精度的时候，美国那台 El Capitan 里头塞满了 GPU，它就可以得冠军。但是你说我不算这个低精度的，我就算 FP64 的，那咱们就比它强。

所以超算有点像 F1 赛车，单点登顶，就追求极致的精准。AI 中心有点像万人货运大队，几万张 GPU，求的是吞吐量。但是这个细致的活，你就别找我了。

中国这些超算平时干什么？

中国地图上分布深圳、天津、广州、无锡、济南、郑州、昆山等超算节点，每个节点连向天气、油气、生物医药、海洋和工业设计图标，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

那咱们这台机器干嘛使的呢？刚才咱们讲了，美国那台机器是玩核爆的，咱们这台机器来自于深圳超算中心。深圳超算中心其实主要是算天气的，天气预报，各种天气的长期模拟和仿真，主要干这个使的。

中国还有很多的这种超算中心：

天津超算，里边有天河一号、三号，算石油、航天、生物医药、可控核聚变、高端装备和动漫，有时候也给人做一点渲染。
广州是天河二号在这里，一号、三号在天津，二号就在广州了。这边主要是计算生物医药、汽车、造船、影视动漫、金融、核电、海洋、公共安全。
无锡是神威太湖之光，也就是 8 年前咱们夺冠的那个机器，是首台全国产芯片的冠军。这个主要是算海洋、油气、气候、工业设计、动漫渲染。
济南那台机器叫神威蓝光，算海洋、现代农业、油气、药物筛选和金融。
郑州叫嵩山，这种机器都有名字，主要是做数字经济、精准医学、生物育种、环境和 AI 方面的这种运算。
昆山还有一台，那是长三角大科学装置，AI、生物医药、材料、大气、海洋，做这方面运算的。

所以中国是有一套网络，骨子里边是给产业、科研当水电煤来使用的。美国是把最强的机器供起来做绝密国防的，这个是两个不同的模式吧。

AI 和超算到底怎么结合？

超算先生成天气和地震仿真数据，数据流进入 AI 模型训练炉，最后变成一本九九乘法表交给小学生机器人快速回答问题，浅色背景的商业评论版橡皮泥平面信息图的统一风格。

很多人就说，这 AI 跟这种超算到底是什么关系呢？我在这上跑大模型行不行？肯定不行，这上跑大模型会跑得慢死的，因为里头没有 GPU，全是 CPU。

那你说我什么时候用超算，什么时候用 AI 呢？其实在这种配合上有两步。

第一步，你可以用 AI 去写程序，写完程序以后到超算上去跑，这个事是没问题的。AI 写程序的效能很高，比人高个好几倍。但是当你需要这种要求非常精确，要求去做双精度 FP64 运算的时候，你就要写好程序，让超算去跑了。
第二个其实特别好玩。很多人都讲蒸馏，我们去蒸馏 Anthropic，我们去蒸馏美国大模型了，甚至还有人跑来蒸馏中国模型，都有。那你说这些模型蒸馏谁，大家想过没有？比如说 Anthropic 的模型，我要去蒸馏谁？它去蒸馏超算。

什么意思呢？就是超算可以仿真地震、天气、核爆，做一大堆的仿真数据以后，直接把这些数据塞给 AI 大模型，让它把这个数据吞进去，训练了以后，你下次问这个 AI 大模型说，来，给我仿真一下核爆了以后会怎么样，它会快速地给你得出一个结果，而且这个结果相对来说还比较准确。

这个有点像什么呢？就是你上超算计算出一大堆的结果来，然后总结规律，变成这个九九乘法表。然后你让旁边的一个一年级小朋友说，来，把九九乘法表给我背下来。背完了以后说，给我算一下这个几乘几，啪就给你算出来了。它是这样的一个工作方式，这就是 AI 跟超算之间相互结合的玩法。

英伟达能不能顺手把这活干了？

那有人说，上英伟达是不是可以碾压国内这台灵晟呢？还不行。英伟达现在为了能够进行更高效的 AI 运算，也就是低精度的高并发运算，它故意阉割了自己 FP64 的能力。现在英伟达的 GB300，它在 FP64 上的能力比它早期的这些芯片还要次，还要再差一些，这个就是不同的进化方向。

总结

最后咱们总结一下。

灵晟这个第一含金量还是很高的，全国产、纯 CPU、ARM 架构、双精度第一。但是在几纳米、在制程上，人家也没说，这个咱也别替它胡吹。
别被世界第一带偏了，它赢的是科学计算这条道，跟谁家 AI 强是两个完全不同的赛道。
未来也不是二选一，要么玩 AI，要么玩科学计算，不是这样的。是各自做各自擅长的事情，AI 去编程，让超算去跑，超算跑出结果来，再回去训练 AI，它是这样的一个运作方式。

所以灵晟能够在时隔 8 年之后夺冠，确实是我们做出了巨大的努力，这是值得肯定的。但是也不要上来就喊遥遥领先，我们什么都强，我们还是要理性地来看待这件事情。

好，今天这个故事就讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。