中国超算重回全球第一,超算和AI算力中心不是一回事,英伟达为什么在这一块不灵了?

中国超算灵晟重夺世界第一,怎么总觉得哪里不对呢?

中国超算灵晟以巨型机房轮廓站在世界排行榜顶端,旁边是被挤到第二位的美国超算标牌,前景有主持人拿着问题清单观察榜单,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

大家好,欢迎收听老范讲故事的 YouTube 频道。

前两天,也就是 6 月 23 日,在德国汉堡,全球超算一年两度的“华山论剑”——TOP500 榜单更新了。榜首换人了,一台叫做灵晟的中国超算悄无声息地空降第一,把霸榜一年多的美国机器 El Capitan 挤到了第二。

这是自 2017 年神威太湖之光之后,时隔 8 年多,中国超算重回世界第一。大家第一个上来喊“遥遥领先”吧?这个事跟遥遥领先还是有点关系的。第二个,有人说这不就是 AI 算力吗?还真不太一样。还有人说,谷歌呢?微软呢?他们怎么不来?怎么让中国这样的一个公司就冲上来了?这个机器、这种超算,难道把它运到德国去跑吗?大家都知道这种超算都挺大的。如果不到德国跑,那它怎么算的分数呢?

咱们把这个事跟大家稍微掰扯掰扯:这到底是个什么比赛,考的什么题,这个题是算什么的,程序是谁写的,成绩是怎么去验证的,这个机器到底有多大、多费电,以及现在这个超算跟 AI 到底是不是一回事。谷歌、微软、xAI、美塔、Oracle 都在这拼命地建算力中心,那咋中国的机器就跑去夺冠了呢?怎么觉得不对呢?中国还有多少这种超算?平时这些机器都干嘛的呢?最后,咱们再讲讲 AI 跟这种超算之间到底是怎么结合的,英伟达能不能顺手把这活干了呢?

TOP500 到底比什么?

一张写着 TOP500 的全球成绩单放在桌面中央,LINPACK 试卷、Rmax 实测仪表和 Rpeak 理论峰值气球并列对比,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

首先要说清楚,这到底是一个什么样的比赛,考的是什么题。这个比赛叫 TOP500,它实际上是一个民间榜,从 1993 年开始办,每年 6 月份和 11 月份各发一次,是超算界的高考成绩单。只考一道题,叫做 LINPACK。说人话,就是解一个超大规模的线性方程组,每秒能够做多少次浮点运算,就考这玩意。

这里头要牢记两个词。一个叫实测,英文叫 Rmax,不是厂家吹的理论峰值 Rpeak。Rmax 就是说你要跑这个题,而且要跑稳定,跑很长时间。灵晟实测是 2.198,峰值是 2.736,压榨出了八成的算力,这已经是非常非常强的了。

另外一个词是双精度,FP64。这个数咱们先记着,后边咱们再仔细讲它跟现在的 AI 算力到底有什么区别,就差在这数上了。

FP64 这道题到底在算什么?

飞机机翼被切分成密密麻麻的小方块网格,每个方块之间用箭头连接表示气压风速温度互相影响,旁边有 FP64 精度放大镜查看小数位,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

那么这道 FP64 的题到底算什么呢?咱们打个比方吧,一架飞机机翼周围应该有气流,我们要用计算机把空气切成几十亿个小方块,每一块的气压、风速、温度都由旁边几个方块来决定。你推我,我顶你,大概是这样的一个过程。

几十亿个方块就有几十亿个相互咬死的方程,必须同时解出来。走完了这一帧以后,你要再解一次下一步怎么样了,要反复算几万次、几十万次,这就是 LINPACK 这道题的真身。

为啥是 FP64 呢?就是它要求的是准,一定要准。因为 FP 后边这个数越高,说明小数点后边留的位数越多。我留得多了以后,最后就可以把误差算得相对比较小。

刚才咱们讲了,这个东西要算几十亿个小方块,里头要迭代几万次,一次模拟上万亿次的运算,一次模拟上万亿次的计算,误差会滚雪球,这个东西叫累计误差。低精度算到后边,模拟的飞机自己在电脑里就散架了,根本就飞不起来。它这个东西必须要特别准,到小数点后十几位的双精度,所以要用 64 位。记住这个“准”字。

TOP500 分不分量级?

那这台机器到底有多大呢?或者说这种机器分不分量级?咱们前面讲过张雪机车的故事,它这个机车比赛是分量级的。你去拳击比赛,也是分量级的,你不能找个大胖子跟人小瘦子去打。

这个 TOP500 分不分量级呢?要讲清楚,这个比赛是不分量级的,没有任何限制。所以这种比赛天然偏向于不差钱的国家队,你做的机器越大、越费电、越烧钱,你的得分就越高。基本上大家可以把它理解成不分重量级的拳击比赛。

当然它也有另外一个比赛,叫 Green500,叫绿色 500,它要计算能效比,就是我的 1 瓦到底能够算出多少次来。在这点上,中国这个机器灵晟比美国那机器就差好远了。

灵晟到底有多大、多费电?

92 个超算机柜排满机房大厅,粗大的电缆连接变电站和液冷管道,电表指针指向 42 兆瓦,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

讲到这,机器肯定是巨了的个。这机器到底有多大呢?首先我们先说它的计算速度,是每秒 2.198 百亿亿次双精度。大家知道这数就完了,不需要细究这数到底有多大,反正现在这就是世界最快的了。

它使用的叫 LX2 处理器,一颗处理器上是 304 个核心,每两颗处理器是一个节点,2 万多个节点,4 万多颗 CPU,一共是 1,379 万个核心,装 92 个机柜,基本上可以摆满整个机房大厅。

这个东西肯定是耗电魔兽,这台机器满负荷是 42 兆瓦,跑一年 3.7 亿度电,电费 2 亿多,还得按中国的电费算,还得给它专门配变电站和整套的液冷系统。所以这个东西就是中国这套大力出奇迹的典范。

成绩怎么提交和验证?

超算成绩从本地机房上传到德国评审桌,四道闸门依次标注误差验算、统一尺子、现场核查和声誉约束,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

那你说这机器我能把它运到德国去吗?肯定都不会。你把这机器运到德国去,它连电我估计都烧不起。所以这种机器是在自家跑,提交成绩,然后官方来抽查,通过这样的一个方式去参加比赛的。1993 年起一直是自愿提交的一个状态。

那你说有没有人作弊?怎么能够保证提交的数据是准确的呢?有四道闸门。

  1. 第一道是题目自带验算,算完了以后自动核对误差,必须小于 16,超过了成绩就直接作废了。所以算错了自己就被毙掉了,算不对这事是不行的。
  2. 第二道是题目判分全球统一的一把尺子。
  3. 第三道是官方保留独立的核查权,还会随机地抽样,要求安装现场跟委员会直接对接核实,无效的、非通用的直接踢出榜。
  4. 最后是声誉。这个圈子不大,如果你作假掺水被扒了,丢的就是整个机构和国家队的脸,所以通常大家还是会相对比较小心的。

而且耗电也是有标准的,因为后边还有 Green500 的这种分级。L1 测全机,还有一个就是 1/64 节点的外推,L2 是 1/8,L3 是整机连网络存储实测。所以超算比赛更像是交一份可复现、可抽查的实验报告。

第二名 El Capitan 是什么机器?

灵晟纯 CPU 阵列与 El Capitan 的 CPU 加 GPU 混合阵列并排站在领奖台上,旁边用电量和性能柱状图显示取舍,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

再说第二名,美国这台 El Capitan 是一台什么样的机器呢?它是美国劳伦斯利弗莫尔国家实验室的机器,由惠普 Cray 制造,1,134 万核,大概是 29.7 兆瓦。它这个机器主要是干嘛的呢?主要是模拟核爆的。

刚才咱们讲,这个劳伦斯利弗莫尔国家实验室是美国能源部的实验室,就是做各种核实验的实验室。现在不让真的去做核试验了,那就只能在电脑里炸了。

它跟咱们的机器最主要的差别在哪呢?咱们这台灵晟是全 CPU 的机器,里头是没有 GPU 的。而惠普造的这个 El Capitan 是一半的 CPU、一半的 GPU,它实际上是 AMD 的算力核心,所以有 CPU 加上 GPU 二合一的这种加速芯片,里边用的是 MI300A APU 的这种芯片。这个芯片对中国也是禁运的,它靠 GPU 加速运算,所以差距就差距在这了。

灵晟是纯 CPU,1,379 万核,42 兆瓦,2.198,它是第一名。而 El Capitan 是 CPU 加 GPU,1,134 万核,29.7 兆瓦,1.809,它是第二。但是耗电我们也比它耗得多,灵晟多耗 4 成电,换来 2 成的性能提升。赢,在绝对值上肯定赢了,但是从能效上来说,稍微差那么点意思。

但是灵晟有一个比较强的地方是什么?全国产,CPU 也是国产的,操作系统也是国产的,就是费点电吧。

灵晟的 CPU 是什么来头?

既然这个机器是全国产的,那我们就关心它这个 CPU 到底是一个什么样的情况。首先要说,这个 CPU 不是 X86 架构,也不是 RISC-V 架构,这个 CPU 是 ARM 架构,Armv9 架构的。大家注意,Armv9 的所有专利,华为都已经得到授权了,它在没有 ARM 新授权的情况下,可以继续使用 Armv9 架构去设计新的芯片出来。所以这事跟遥遥领先还是有关系的。

这颗芯片是华为参与设计,与鲲鹏系列芯片是一脉相承的。每颗 304 核,由两颗小芯片拼起来,32GB 片上 HBM 加上最多 256GB 的 DDR5 内存,把这玩意放在一起来使用。现在中国你说能有 HBM 吗?也有,就是稍微低一些。咱们现在长鑫存储也是可以做出这东西来的。

那为啥不要 GPU 呢?为啥全要 CPU 呢?它这个核里边内嵌了 ARM 的向量和矩阵单元,所以 CPU 里头干一部分 GPU 的活也是可以干的。在 GPU 的运算上,它叫够用,但是不能算碾压吧。

至于说这个芯片是谁代工、谁做出来的,官方并没有公开。但是华为参与设计,大概率不能在台积电去代工了,因为台积电现在不给咱们做了。所以它大概率还是在中芯国际做的 7 纳米芯片,也怪不得耗这么多电嘛。

那你说我能不能买一个 LX2 的 CPU 来使呢?这个东西是买不到的,因为这个 CPU 是专门给超算来设计的。但是你说我现在想用华为 ARM,也就是鲲鹏的架构,去做自己的服务器,行不行?这个也是可以的,这个芯片是有卖的。所以这个 LX2 算是特种定制款,但是它这套体系,就是鲲鹏这套体系,大家是可以买得到的。

这跟 AI 算力是一回事吗?

左侧 F1 赛车标注 FP64 精准科学计算,右侧万人货运车队标注 FP16、FP8、FP4 的 AI 吞吐量,两条赛道分叉前进,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

下一件事,你说大家现在拼的都是 AI,都是英伟达,你做了一个这样的东西到底为啥?这跟 AI 有什么关系没有?或者微软、谷歌他们都哪去了?它参加这比赛,不是把中国队碾压了吗?

这要讲清楚。首先微软来了,微软是在微软云里的一台机器去参加了比赛,得了第 32 名吧,反正名次很靠后。谷歌确实没来参加,因为这事跟它没关系。但是要注意,AI 算力跟我们现在讲这超算,是完全两个不同的概念,算的题不一样。

刚才还记得咱们强调那数吗?FP64,它要求的是准,不能有误差,或者误差尽可能要缩小。而 AI 玩的是什么?玩的是快和多。AI 上来了以后就是 FP16,只有 16 位的浮点数,甚至还有 FP8。咱们最新的,比如像 DeepSeek V4,包括现在新的英伟达 GB300 以及华为的昇腾 950 这些芯片,人家玩的是 FP4。我只在 4 位的浮点数上去算,这样就可以同时算更多的数。我不需要你给我算这么准,这么小的误差,差不太多,我只要把这么多的向量算在一起,我就可以得到结果了。所以这完全是算两个不一样的东西的。

让它们这个比赛也会进行这种混合精度计算。混合精度的时候,美国那台 El Capitan 里头塞满了 GPU,它就可以得冠军。但是你说我不算这个低精度的,我就算 FP64 的,那咱们就比它强。

所以超算有点像 F1 赛车,单点登顶,就追求极致的精准。AI 中心有点像万人货运大队,几万张 GPU,求的是吞吐量。但是这个细致的活,你就别找我了。

中国这些超算平时干什么?

中国地图上分布深圳、天津、广州、无锡、济南、郑州、昆山等超算节点,每个节点连向天气、油气、生物医药、海洋和工业设计图标,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

那咱们这台机器干嘛使的呢?刚才咱们讲了,美国那台机器是玩核爆的,咱们这台机器来自于深圳超算中心。深圳超算中心其实主要是算天气的,天气预报,各种天气的长期模拟和仿真,主要干这个使的。

中国还有很多的这种超算中心:

  • 天津超算,里边有天河一号、三号,算石油、航天、生物医药、可控核聚变、高端装备和动漫,有时候也给人做一点渲染。
  • 广州是天河二号在这里,一号、三号在天津,二号就在广州了。这边主要是计算生物医药、汽车、造船、影视动漫、金融、核电、海洋、公共安全。
  • 无锡是神威太湖之光,也就是 8 年前咱们夺冠的那个机器,是首台全国产芯片的冠军。这个主要是算海洋、油气、气候、工业设计、动漫渲染。
  • 济南那台机器叫神威蓝光,算海洋、现代农业、油气、药物筛选和金融。
  • 郑州叫嵩山,这种机器都有名字,主要是做数字经济、精准医学、生物育种、环境和 AI 方面的这种运算。
  • 昆山还有一台,那是长三角大科学装置,AI、生物医药、材料、大气、海洋,做这方面运算的。

所以中国是有一套网络,骨子里边是给产业、科研当水电煤来使用的。美国是把最强的机器供起来做绝密国防的,这个是两个不同的模式吧。

AI 和超算到底怎么结合?

超算先生成天气和地震仿真数据,数据流进入 AI 模型训练炉,最后变成一本九九乘法表交给小学生机器人快速回答问题,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

很多人就说,这 AI 跟这种超算到底是什么关系呢?我在这上跑大模型行不行?肯定不行,这上跑大模型会跑得慢死的,因为里头没有 GPU,全是 CPU。

那你说我什么时候用超算,什么时候用 AI 呢?其实在这种配合上有两步。

  1. 第一步,你可以用 AI 去写程序,写完程序以后到超算上去跑,这个事是没问题的。AI 写程序的效能很高,比人高个好几倍。但是当你需要这种要求非常精确,要求去做双精度 FP64 运算的时候,你就要写好程序,让超算去跑了。
  2. 第二个其实特别好玩。很多人都讲蒸馏,我们去蒸馏 Anthropic,我们去蒸馏美国大模型了,甚至还有人跑来蒸馏中国模型,都有。那你说这些模型蒸馏谁,大家想过没有?比如说 Anthropic 的模型,我要去蒸馏谁?它去蒸馏超算。

什么意思呢?就是超算可以仿真地震、天气、核爆,做一大堆的仿真数据以后,直接把这些数据塞给 AI 大模型,让它把这个数据吞进去,训练了以后,你下次问这个 AI 大模型说,来,给我仿真一下核爆了以后会怎么样,它会快速地给你得出一个结果,而且这个结果相对来说还比较准确。

这个有点像什么呢?就是你上超算计算出一大堆的结果来,然后总结规律,变成这个九九乘法表。然后你让旁边的一个一年级小朋友说,来,把九九乘法表给我背下来。背完了以后说,给我算一下这个几乘几,啪就给你算出来了。它是这样的一个工作方式,这就是 AI 跟超算之间相互结合的玩法。

英伟达能不能顺手把这活干了?

那有人说,上英伟达是不是可以碾压国内这台灵晟呢?还不行。英伟达现在为了能够进行更高效的 AI 运算,也就是低精度的高并发运算,它故意阉割了自己 FP64 的能力。现在英伟达的 GB300,它在 FP64 上的能力比它早期的这些芯片还要次,还要再差一些,这个就是不同的进化方向。

总结

最后咱们总结一下。

  1. 灵晟这个第一含金量还是很高的,全国产、纯 CPU、ARM 架构、双精度第一。但是在几纳米、在制程上,人家也没说,这个咱也别替它胡吹。
  2. 别被世界第一带偏了,它赢的是科学计算这条道,跟谁家 AI 强是两个完全不同的赛道。
  3. 未来也不是二选一,要么玩 AI,要么玩科学计算,不是这样的。是各自做各自擅长的事情,AI 去编程,让超算去跑,超算跑出结果来,再回去训练 AI,它是这样的一个运作方式。

所以灵晟能够在时隔 8 年之后夺冠,确实是我们做出了巨大的努力,这是值得肯定的。但是也不要上来就喊遥遥领先,我们什么都强,我们还是要理性地来看待这件事情。

好,今天这个故事就讲到这里。感谢大家收听,请帮忙点赞,点小铃铛,参加 Discord 讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。


背景图片