中国超算灵晟重夺世界第一,怎么总觉得哪里不对呢?

大家好,欢迎收听老范讲故事的 YouTube 频道。
前两天,也就是 6 月 23 日,在德国汉堡,全球超算一年两度的“华山论剑”——TOP500 榜单更新了。榜首换人了,一台叫做灵晟的中国超算悄无声息地空降第一,把霸榜一年多的美国机器 El Capitan 挤到了第二。
这是自 2017 年神威太湖之光之后,时隔 8 年多,中国超算重回世界第一。大家第一个上来喊“遥遥领先”吧?这个事跟遥遥领先还是有点关系的。第二个,有人说这不就是 AI 算力吗?还真不太一样。还有人说,谷歌呢?微软呢?他们怎么不来?怎么让中国这样的一个公司就冲上来了?这个机器、这种超算,难道把它运到德国去跑吗?大家都知道这种超算都挺大的。如果不到德国跑,那它怎么算的分数呢?
咱们把这个事跟大家稍微掰扯掰扯:这到底是个什么比赛,考的什么题,这个题是算什么的,程序是谁写的,成绩是怎么去验证的,这个机器到底有多大、多费电,以及现在这个超算跟 AI 到底是不是一回事。谷歌、微软、xAI、美塔、Oracle 都在这拼命地建算力中心,那咋中国的机器就跑去夺冠了呢?怎么觉得不对呢?中国还有多少这种超算?平时这些机器都干嘛的呢?最后,咱们再讲讲 AI 跟这种超算之间到底是怎么结合的,英伟达能不能顺手把这活干了呢?
TOP500 到底比什么?

首先要说清楚,这到底是一个什么样的比赛,考的是什么题。这个比赛叫 TOP500,它实际上是一个民间榜,从 1993 年开始办,每年 6 月份和 11 月份各发一次,是超算界的高考成绩单。只考一道题,叫做 LINPACK。说人话,就是解一个超大规模的线性方程组,每秒能够做多少次浮点运算,就考这玩意。
这里头要牢记两个词。一个叫实测,英文叫 Rmax,不是厂家吹的理论峰值 Rpeak。Rmax 就是说你要跑这个题,而且要跑稳定,跑很长时间。灵晟实测是 2.198,峰值是 2.736,压榨出了八成的算力,这已经是非常非常强的了。
另外一个词是双精度,FP64。这个数咱们先记着,后边咱们再仔细讲它跟现在的 AI 算力到底有什么区别,就差在这数上了。
FP64 这道题到底在算什么?

那么这道 FP64 的题到底算什么呢?咱们打个比方吧,一架飞机机翼周围应该有气流,我们要用计算机把空气切成几十亿个小方块,每一块的气压、风速、温度都由旁边几个方块来决定。你推我,我顶你,大概是这样的一个过程。
几十亿个方块就有几十亿个相互咬死的方程,必须同时解出来。走完了这一帧以后,你要再解一次下一步怎么样了,要反复算几万次、几十万次,这就是 LINPACK 这道题的真身。
为啥是 FP64 呢?就是它要求的是准,一定要准。因为 FP 后边这个数越高,说明小数点后边留的位数越多。我留得多了以后,最后就可以把误差算得相对比较小。
刚才咱们讲了,这个东西要算几十亿个小方块,里头要迭代几万次,一次模拟上万亿次的运算,一次模拟上万亿次的计算,误差会滚雪球,这个东西叫累计误差。低精度算到后边,模拟的飞机自己在电脑里就散架了,根本就飞不起来。它这个东西必须要特别准,到小数点后十几位的双精度,所以要用 64 位。记住这个“准”字。
TOP500 分不分量级?
那这台机器到底有多大呢?或者说这种机器分不分量级?咱们前面讲过张雪机车的故事,它这个机车比赛是分量级的。你去拳击比赛,也是分量级的,你不能找个大胖子跟人小瘦子去打。
这个 TOP500 分不分量级呢?要讲清楚,这个比赛是不分量级的,没有任何限制。所以这种比赛天然偏向于不差钱的国家队,你做的机器越大、越费电、越烧钱,你的得分就越高。基本上大家可以把它理解成不分重量级的拳击比赛。
当然它也有另外一个比赛,叫 Green500,叫绿色 500,它要计算能效比,就是我的 1 瓦到底能够算出多少次来。在这点上,中国这个机器灵晟比美国那机器就差好远了。
灵晟到底有多大、多费电?

讲到这,机器肯定是巨了的个。这机器到底有多大呢?首先我们先说它的计算速度,是每秒 2.198 百亿亿次双精度。大家知道这数就完了,不需要细究这数到底有多大,反正现在这就是世界最快的了。
它使用的叫 LX2 处理器,一颗处理器上是 304 个核心,每两颗处理器是一个节点,2 万多个节点,4 万多颗 CPU,一共是 1,379 万个核心,装 92 个机柜,基本上可以摆满整个机房大厅。
这个东西肯定是耗电魔兽,这台机器满负荷是 42 兆瓦,跑一年 3.7 亿度电,电费 2 亿多,还得按中国的电费算,还得给它专门配变电站和整套的液冷系统。所以这个东西就是中国这套大力出奇迹的典范。
成绩怎么提交和验证?

那你说这机器我能把它运到德国去吗?肯定都不会。你把这机器运到德国去,它连电我估计都烧不起。所以这种机器是在自家跑,提交成绩,然后官方来抽查,通过这样的一个方式去参加比赛的。1993 年起一直是自愿提交的一个状态。
那你说有没有人作弊?怎么能够保证提交的数据是准确的呢?有四道闸门。
- 第一道是题目自带验算,算完了以后自动核对误差,必须小于 16,超过了成绩就直接作废了。所以算错了自己就被毙掉了,算不对这事是不行的。
- 第二道是题目判分全球统一的一把尺子。
- 第三道是官方保留独立的核查权,还会随机地抽样,要求安装现场跟委员会直接对接核实,无效的、非通用的直接踢出榜。
- 最后是声誉。这个圈子不大,如果你作假掺水被扒了,丢的就是整个机构和国家队的脸,所以通常大家还是会相对比较小心的。
而且耗电也是有标准的,因为后边还有 Green500 的这种分级。L1 测全机,还有一个就是 1/64 节点的外推,L2 是 1/8,L3 是整机连网络存储实测。所以超算比赛更像是交一份可复现、可抽查的实验报告。
第二名 El Capitan 是什么机器?

再说第二名,美国这台 El Capitan 是一台什么样的机器呢?它是美国劳伦斯利弗莫尔国家实验室的机器,由惠普 Cray 制造,1,134 万核,大概是 29.7 兆瓦。它这个机器主要是干嘛的呢?主要是模拟核爆的。
刚才咱们讲,这个劳伦斯利弗莫尔国家实验室是美国能源部的实验室,就是做各种核实验的实验室。现在不让真的去做核试验了,那就只能在电脑里炸了。
它跟咱们的机器最主要的差别在哪呢?咱们这台灵晟是全 CPU 的机器,里头是没有 GPU 的。而惠普造的这个 El Capitan 是一半的 CPU、一半的 GPU,它实际上是 AMD 的算力核心,所以有 CPU 加上 GPU 二合一的这种加速芯片,里边用的是 MI300A APU 的这种芯片。这个芯片对中国也是禁运的,它靠 GPU 加速运算,所以差距就差距在这了。
灵晟是纯 CPU,1,379 万核,42 兆瓦,2.198,它是第一名。而 El Capitan 是 CPU 加 GPU,1,134 万核,29.7 兆瓦,1.809,它是第二。但是耗电我们也比它耗得多,灵晟多耗 4 成电,换来 2 成的性能提升。赢,在绝对值上肯定赢了,但是从能效上来说,稍微差那么点意思。
但是灵晟有一个比较强的地方是什么?全国产,CPU 也是国产的,操作系统也是国产的,就是费点电吧。
灵晟的 CPU 是什么来头?
既然这个机器是全国产的,那我们就关心它这个 CPU 到底是一个什么样的情况。首先要说,这个 CPU 不是 X86 架构,也不是 RISC-V 架构,这个 CPU 是 ARM 架构,Armv9 架构的。大家注意,Armv9 的所有专利,华为都已经得到授权了,它在没有 ARM 新授权的情况下,可以继续使用 Armv9 架构去设计新的芯片出来。所以这事跟遥遥领先还是有关系的。
这颗芯片是华为参与设计,与鲲鹏系列芯片是一脉相承的。每颗 304 核,由两颗小芯片拼起来,32GB 片上 HBM 加上最多 256GB 的 DDR5 内存,把这玩意放在一起来使用。现在中国你说能有 HBM 吗?也有,就是稍微低一些。咱们现在长鑫存储也是可以做出这东西来的。
那为啥不要 GPU 呢?为啥全要 CPU 呢?它这个核里边内嵌了 ARM 的向量和矩阵单元,所以 CPU 里头干一部分 GPU 的活也是可以干的。在 GPU 的运算上,它叫够用,但是不能算碾压吧。
至于说这个芯片是谁代工、谁做出来的,官方并没有公开。但是华为参与设计,大概率不能在台积电去代工了,因为台积电现在不给咱们做了。所以它大概率还是在中芯国际做的 7 纳米芯片,也怪不得耗这么多电嘛。
那你说我能不能买一个 LX2 的 CPU 来使呢?这个东西是买不到的,因为这个 CPU 是专门给超算来设计的。但是你说我现在想用华为 ARM,也就是鲲鹏的架构,去做自己的服务器,行不行?这个也是可以的,这个芯片是有卖的。所以这个 LX2 算是特种定制款,但是它这套体系,就是鲲鹏这套体系,大家是可以买得到的。
这跟 AI 算力是一回事吗?

下一件事,你说大家现在拼的都是 AI,都是英伟达,你做了一个这样的东西到底为啥?这跟 AI 有什么关系没有?或者微软、谷歌他们都哪去了?它参加这比赛,不是把中国队碾压了吗?
这要讲清楚。首先微软来了,微软是在微软云里的一台机器去参加了比赛,得了第 32 名吧,反正名次很靠后。谷歌确实没来参加,因为这事跟它没关系。但是要注意,AI 算力跟我们现在讲这超算,是完全两个不同的概念,算的题不一样。
刚才还记得咱们强调那数吗?FP64,它要求的是准,不能有误差,或者误差尽可能要缩小。而 AI 玩的是什么?玩的是快和多。AI 上来了以后就是 FP16,只有 16 位的浮点数,甚至还有 FP8。咱们最新的,比如像 DeepSeek V4,包括现在新的英伟达 GB300 以及华为的昇腾 950 这些芯片,人家玩的是 FP4。我只在 4 位的浮点数上去算,这样就可以同时算更多的数。我不需要你给我算这么准,这么小的误差,差不太多,我只要把这么多的向量算在一起,我就可以得到结果了。所以这完全是算两个不一样的东西的。
让它们这个比赛也会进行这种混合精度计算。混合精度的时候,美国那台 El Capitan 里头塞满了 GPU,它就可以得冠军。但是你说我不算这个低精度的,我就算 FP64 的,那咱们就比它强。
所以超算有点像 F1 赛车,单点登顶,就追求极致的精准。AI 中心有点像万人货运大队,几万张 GPU,求的是吞吐量。但是这个细致的活,你就别找我了。
中国这些超算平时干什么?

那咱们这台机器干嘛使的呢?刚才咱们讲了,美国那台机器是玩核爆的,咱们这台机器来自于深圳超算中心。深圳超算中心其实主要是算天气的,天气预报,各种天气的长期模拟和仿真,主要干这个使的。
中国还有很多的这种超算中心:
- 天津超算,里边有天河一号、三号,算石油、航天、生物医药、可控核聚变、高端装备和动漫,有时候也给人做一点渲染。
- 广州是天河二号在这里,一号、三号在天津,二号就在广州了。这边主要是计算生物医药、汽车、造船、影视动漫、金融、核电、海洋、公共安全。
- 无锡是神威太湖之光,也就是 8 年前咱们夺冠的那个机器,是首台全国产芯片的冠军。这个主要是算海洋、油气、气候、工业设计、动漫渲染。
- 济南那台机器叫神威蓝光,算海洋、现代农业、油气、药物筛选和金融。
- 郑州叫嵩山,这种机器都有名字,主要是做数字经济、精准医学、生物育种、环境和 AI 方面的这种运算。
- 昆山还有一台,那是长三角大科学装置,AI、生物医药、材料、大气、海洋,做这方面运算的。
所以中国是有一套网络,骨子里边是给产业、科研当水电煤来使用的。美国是把最强的机器供起来做绝密国防的,这个是两个不同的模式吧。
AI 和超算到底怎么结合?

很多人就说,这 AI 跟这种超算到底是什么关系呢?我在这上跑大模型行不行?肯定不行,这上跑大模型会跑得慢死的,因为里头没有 GPU,全是 CPU。
那你说我什么时候用超算,什么时候用 AI 呢?其实在这种配合上有两步。
- 第一步,你可以用 AI 去写程序,写完程序以后到超算上去跑,这个事是没问题的。AI 写程序的效能很高,比人高个好几倍。但是当你需要这种要求非常精确,要求去做双精度 FP64 运算的时候,你就要写好程序,让超算去跑了。
- 第二个其实特别好玩。很多人都讲蒸馏,我们去蒸馏 Anthropic,我们去蒸馏美国大模型了,甚至还有人跑来蒸馏中国模型,都有。那你说这些模型蒸馏谁,大家想过没有?比如说 Anthropic 的模型,我要去蒸馏谁?它去蒸馏超算。
什么意思呢?就是超算可以仿真地震、天气、核爆,做一大堆的仿真数据以后,直接把这些数据塞给 AI 大模型,让它把这个数据吞进去,训练了以后,你下次问这个 AI 大模型说,来,给我仿真一下核爆了以后会怎么样,它会快速地给你得出一个结果,而且这个结果相对来说还比较准确。
这个有点像什么呢?就是你上超算计算出一大堆的结果来,然后总结规律,变成这个九九乘法表。然后你让旁边的一个一年级小朋友说,来,把九九乘法表给我背下来。背完了以后说,给我算一下这个几乘几,啪就给你算出来了。它是这样的一个工作方式,这就是 AI 跟超算之间相互结合的玩法。
英伟达能不能顺手把这活干了?
那有人说,上英伟达是不是可以碾压国内这台灵晟呢?还不行。英伟达现在为了能够进行更高效的 AI 运算,也就是低精度的高并发运算,它故意阉割了自己 FP64 的能力。现在英伟达的 GB300,它在 FP64 上的能力比它早期的这些芯片还要次,还要再差一些,这个就是不同的进化方向。
总结
最后咱们总结一下。
- 灵晟这个第一含金量还是很高的,全国产、纯 CPU、ARM 架构、双精度第一。但是在几纳米、在制程上,人家也没说,这个咱也别替它胡吹。
- 别被世界第一带偏了,它赢的是科学计算这条道,跟谁家 AI 强是两个完全不同的赛道。
- 未来也不是二选一,要么玩 AI,要么玩科学计算,不是这样的。是各自做各自擅长的事情,AI 去编程,让超算去跑,超算跑出结果来,再回去训练 AI,它是这样的一个运作方式。
所以灵晟能够在时隔 8 年之后夺冠,确实是我们做出了巨大的努力,这是值得肯定的。但是也不要上来就喊遥遥领先,我们什么都强,我们还是要理性地来看待这件事情。
好,今天这个故事就讲到这里。感谢大家收听,请帮忙点赞,点小铃铛,参加 Discord 讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
背景图片
