遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?

遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?已关闭评论

遥遥领先的华为升腾384超节点,是不是又立功了?

大家好,欢迎收听老范讲故事的YouTube频道

上海人工智能大会上,有一个镇场之宝,就是华为升腾384超节点。叫这个名字很怪,其实就是华为做的算力超级节点,华为云矩阵。384超节点这个东西,从外边看上去呢,像一堵墙一样,反正摆在厂子里头也确实比较唬人,而且也很昂贵。

很多人就兴奋了,说我们是不是又打破了西方的垄断呢?西方人对我们禁运,不给我们卖英伟达最好的芯片,我们自己造出来了。这个事到底达没达到呢?可以说部分达到了。在集群总的FP16算力上,为什么一定要强调这个?就是它在不同精度上的算力是不一样的。在FP16算力上呢,华为升腾384超节点,是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢?

现在我们去想算力,它是分三个层次的。第一个就是卡,卡这件事呢,咱肯定比不过人家,甭管你是比H100还是GB200,你根本比不过人家。第二个呢,就是叫整机,我是一台服务器。你像AMD呢,就是卖这种东西,就是我一台服务器里头有8个,他们叫MI300这样的服务器。第三种维度呢,就是说我给你卖一整个柜子,像NVL72呢,就属于整个柜子,我把72个H100或者72个GB200这样的东西,装在一个柜子里头,当成一台机器一把卖给你。

现在西方最主要的算力节点,就是NVL72。但是呢,同样的NVL72呢,它里头到底装的是H100,还是装的GB200呢?它算力是不一样的。华为升腾的384超节点,它超过了H100的NVL72的算力,但是呢,达不到GB200的NVL72的算力。虽然在其他方面呢有所欠缺,但是呢,也算是突破了一层西方限制吧。这个欠缺的部分,待会儿我们再去讲。

升腾384超节点,到底是一个什么样的架构呢?一面墙,为什么是一面墙?它是16个标准19寸机柜,这柜子的大小是有标准的。NVL72就是英伟达的,这个设备呢是一个柜子,咱是16个柜子。这个16个柜子里头呢,4个柜子是交换机,因为你这么多设备要拼在一起,你总是需要一些网络交换设备,去支撑它们的。所以有4柜子交换机,剩下12个柜子呢,是装的算力服务器。

每个柜子里头呢,是4台4U的升腾服务器。这个服务器呢,是按1U、2U,大概4U应该有这么高吧,这个就是4U的服务器,4台装在里头。当然它也装不满,这一个柜子里头应该是19U还是多少U,我记不太清了。剩下这空间,你还得放各种的路由设备、交换设备,因为你这些服务器之间,你还要通讯呢。

所以12个算力服务器柜里头,每个柜子里装了4台服务器,每个服务器里头呢,是4个鲲鹏920 CPU和8个升腾910C的NPU。所以呢,他把所有的NPU算一块,就是升腾910C的NPU,算一块呢是384个,这个名字是这么来的,384超节点。它等于是把384个NPU搁在一起,给大家干活儿。

鲲鹏CPU呢,应该是一个兼容ARM指令集的自主IP的CPU。鲲鹏早期的CPU呢,是使用的ARM IP,后来呢,为了防止美国人告他嘛,所以呢,他自己研究了一些新的架构,说我们不再使用ARM架构了,但是呢,它的指令集呢,还是部分兼容ARM的。里边装的操作系统是什么?鸿蒙,里头装的鸿蒙操作系统,但是它是专门给服务器用的。

升腾910C呢,也是一个自主架构,叫达芬奇架构的一个NPU。所谓的NPU呢,叫神经网络处理单元,实际上呢,是一种ASIC处理器。它是自己定制的一个大型集成电路,所以它不是CPU,它有自己的指令集,跟任何的CPU、GPU的指令集都不一样。这个是910C,这两个芯片呢,应该都是7纳米的芯片。但是现在嘛,华为的芯片都搞得神神秘秘的,做了一大堆7纳米的芯片,到底谁做的也不知道,怎么做出来的也不知道,反正就是7纳米的,把这些芯片造出来了。

下一件事是干嘛?就是要通讯。所有的这种算力服务器里头,实际上是三样东西。一个是GPU跟CPU,第二个呢是它的内存,这里头也有HBM内存,它的内存比NVL72给的还多,因为它里头的芯片多嘛,这个装了这么多柜子,咱总要多放一些。第三个呢,就是要通讯,卡跟卡之间是要去通讯的。

像这个NVL72,就是英伟达的这个设备呢,它里头使用NVLink呀,使用其他的一些协议,和一些专门的设备,去让它们进行通讯。不同的卡,它可以直接去调用其他机柜里头的HBM,这种高速的显存。这样的话,它的效率就会很高。拿这个设备去做大模型训练和推理的人呢,就完完全全可以把这一柜子72个GPU,当成一个GPU去使用。里头具体咋调动,你不管了,这个数据到底是放在哪个服务器的哪一个卡旁边的HBM的空间里头,你也不用去管了,它自己去调度去了。而且速度都很快,即使是跨服务器跨卡的这种调度,它不会影响任何速度。这是NVL72处理的方式。

升腾384超节点呢,服务器比别人多,里头的卡也比别人多,人家72个卡,他384个卡。他的通讯呢,肯定是处理起来更复杂的。它通讯呢,使用的是全线光模块,像NVL72里头还是有一部分是铜线的,有一部分是光模块,这个里边全是光模块,堆料堆的非常非常足。这样可以保证呢,这些芯片之间的通讯,服务器之间的通讯效率都非常高。所以为什么这里头,还有4个柜子的交换机呢?那些光模块,有些还是要通过交换机的交换以后,才可以找到下一个机柜里边的服务器,然后在里边找到你需要的地址,找到你需要的数据,才可以把它拉回来。所以呢,它整个的运作方式还是比较费劲的。

当然,光模块多了呢,也有光模块的问题,不是说我们上了光模块就完事了。光模块的问题是发热严重,它里头是个激光发生器嘛,故障率也比较高,这个玩意比较爱坏。还有一个问题呢,就是它的激光发生器的寿命呢,不是很长。所以使用这么多的光模块,它的运营维护成本和稳定性呢,都不是那么理想。

物理上连通了,那下一个问题是什么呢?我就要通过软件逻辑和分配上,我要把刚才我们讲的光模块这些缺陷,要给它处理掉。以前做工程上,有一个典型的故事,叫99米长的枪,什么意思?就是说我这个枪只能打一米远,但是呢,我要打中100米之外的那个鸟,怎么办?作为工程师来说,处理的方式就是造一支99米长的枪,把这个枪伸过去,乓一下,把那鸟打死。这个在工程上呢,并不可笑,在工程上,很多的解决方案都是这样的。

所以呢,升腾384超节点呢,也用了一些软件和逻辑的方式,来去解决光模块不稳定性的问题。它会自动的去判断说,我这不是不是光模块断了呀,还是说哪块出故障了呀,我怎么绕一下。它在每一个NPU外边挂了6-8个光模块,这坏了以后,还有其他路径可以走,我可以做冗余备份吗?

我们用了16倍的英伟达NVL72的体积,和3倍的耗电,来解决NVL72加上H100芯片所能达到的算力需求。这个就是我们现在干的活。三倍耗电这事很好理解吗?人家是5纳米或者是3纳米,咱们这个是7纳米,肯定是耗电发热要比别人厉害。人家是72个芯片,咱们是384个芯片,你比别人耗3倍的电,这个还算是好理解的一个地方。

它的功率呢,是559千瓦,开起来以后还是非常非常耗电的。559千瓦呢,还只是机器的耗电,还没算散热呢。散热加上以后的话,可能会到600-700千瓦之间的一个耗电。为什么这么说呢?升腾上一代做的类似这种东西,大概是10%的耗电量来去散热,比如这边用100瓦的电量去做了算力了,那边用10瓦的电量去做散热,他是这样来去做的。但是呢,这个384超节点,因为里边用了太多的光模块,好像是用了6000多个光模块,那么你的散热的耗电的话,肯定也是要上升很大一块的。散热不好的话,你的激光模块损耗的就会更快一些。它整个的系统完全是强制水冷,其实NVL72也是强制水冷,只是呢,它在一个柜子里,相对来说还比较好弄。升腾384超节点呢,因为在16个柜子里,整整一面墙,你要再给它配水冷呢,这个事费点劲吧,但是还是可以解决的。所以耗电比较厉害。

那么电费呢,中国还是相对来说比较便宜的。中国的工业用电呢,大概是6毛钱一度,其实美国也差不太多,我看了一下美国的平均工业用电,大概是8美分多一些吧,大概也是6毛多钱。美国有一个州电价比较便宜的,是路易斯安娜州,4毛多钱一度电。美国大概最贵的是加州,14美分,大概快一块钱一度电了。加州因为硅谷在那嘛,再加上机房也比较多,所以他那的电特别贵。中国的发电大省,比如说像云贵、内蒙、新疆这些省,如果是集中大规模的采购用电的话,应该可以做到2毛多一度电。按照咱们最便宜的电费,跟美国的平均电价去比较的话,我们的电费是他们的1/3。所以呢,我们耗英伟达NVL72三倍的电,这个也是可以接受的。所以我们依靠电价优势,勉强可以抹平成本。

升腾384超节点的生态如何呢?英伟达之所以可以打败天下无敌手,核心的原因,不是说别人造不出来这样的东西,而是呢,它有一个生态捆死了,大家离不开它。CUDA呀、NVLink呀,这些生态帮助老黄,整个的竞争过程中无往而不利。那你说我们现在做了一个升腾384超节点出来,如果大模型没法在上头跑,也没法在上面训练,这不是白干了吗?你就像英特尔搞不定这个事儿,AMD也搞不定这个事儿是一样的。虽然AMD说我造得出来,你也能将就使,但是你说我要进行大规模训练了,很少有人去选择AMD的设备。

现在呢,大规模使用的GPU其实就是两种。第一种呢,是英伟达的H100、GB200,GB300现在还没发布呢。另外一种呢,是谷歌的TPU。谷歌TPU就是说,反正我自己做自己用,我也不需要考虑兼容性问题,我就自己干了,我也不卖给别人,它的量也很大。另外呢,像亚马逊跟微软呢,都号称是自己要做GPU,特斯拉和XAI也号称自己要做GPU,但是都在号称的阶段,还没有动起来。山姆·奥特曼呢,也号称要跟孙正义一起拿ARM的IP,自己去做GPU,但是这件事呢,也停留在号称的基础上,也没有实际动作。所以现在真正广泛应用的大规模的GPU,就是英伟达和谷歌。这个里头最核心的原因就是生态。谷歌之所以能够大规模应用,就是我不管生态了,反正我自己使,你们不需要跟我兼容就完事了,否则根本没法跑。

咱们说回来,华为升腾384超节点,它的生态怎么样呢?第一个呢,是华为自己做了一个叫MindSpore这样的一个开源的推理和训练框架。你说我现在想用升腾384超节点,去训练我的新模型,你就使用它这个玩意就可以了。它呢,大概可以兼容70%-80%的CUDA指令,但是毕竟不能完全兼容嘛,你如果原来已经习惯了CUDA的编程的话,你可能到这边来去做训练,还是有问题的,你还是要去花时间去做迁移的。另外呢,PyTorch、TensorFlow、Hugging Face Transformer这些框架呢,升腾呢,也专门做了兼容性适配,就是我专门写一个模块,你只要带上我这个模块以后,你这个PyTorch,你的TensorFlow,你的Hugging Face Transformer,这些推理和训练框架,就都可以在升腾的384超节点上跑了。所以呢,如果大家说原来的这个系统,是在PyTorch上跑的,你也不需要再去做迁移了,直接在它这上就可以跑了,兼容性他们都给你测好了。所以呢,属于叫部分的兼容吧。

如果你真的是说我训练新的大模型,建议大家还是不要跟自己找不痛快,还是老老实实的去使用英伟达就完了。但是你说我拿回来做做推理,拿来去做一些后期的使用的话,升腾384基本上是够用的,没有什么太大问题,你只要别嫌它占地儿,别嫌它耗电,这个东西还可以使。

那你说为什么不能拿它做训练呢?刚才不是说它可以训练吗?而且训练的算力也不差。大家注意,训练呢,是一个非常长期的这种连续任务,你中间停了坏了以后的话,你是需要重新干的,你说让他接着往下干,这事很费劲。它里边有大量的光模块,而且这个玩意的故障率很高,寿命也不是很长。你如果跑着跑着出故障了,里头有一个光模块烧了,你的这个训练呢,未必会停下来,因为它通过了一些软件方式,让你去规避这个错误。你可能只是说我训练的过程中,哪一些数据取回的速度变慢了,但是呢,我还在接着往前慢慢跑。但是也有可能跑着跑着就直接出错,咔嚓就扔那了,这个可能性是很大的。

你像马斯克,他自己用的10万块H100,Meta这种几十万块的H100,他们去做这样训练的时候,还经常是说我跑着跑着突然就退出了,突然就崩了。那崩了怎么办?重来一遍呗。对于他们这些平台来说,你可能跑10次崩个两三次,但是你对于升腾384这样的超节点来说,你可能跑10次会给你崩个八九次,这个也许就突破忍受极限了,就没法忍了。他大概就是这样的一个情况,就是有些情况呢,咱们能用了,有些情况还是稍微费点劲的,跟它整个的硬件架构是有关系的,跟它的兼容性也有关。它毕竟没有100%兼容CUDA嘛,所以大家在CUDA上做训练的代码,拿到这边来再跑,还是会有很多问题的。

那你说华为升腾384超节点,最大的作用到底是什么呢?第一个呢,还是给国内算力中心了一种新的选择,否则你没得选,你只能是要么拿自己的卡或者服务器,这种完整可以拼在一起的算力节点,也算是一个工程上的突破吧。信创产业也算是填补了零的空白,因为现在很多是要求信创嘛,所有的必须是自主可控,自主的操作系统,自主的CPU,自主的GPU,所有都要自主的。我们现在迷信这玩意,原来呢,这些人没得选,现在等于是有的选了,也算是一个工程奇迹,就是99米长的枪。这个故事呢,大家别觉得可笑。

H20的库存呢,前面老黄在中国各种的表演之后,算是把他这个库存清了。川普呢,又要带着企业家来访华了,下次谈点什么,大家要想一想。上次黄仁勋是怎么去说服川普,说把H20解禁的呢?是告诉川普,华为的升腾910,已经基本上可以达到H20的水平了,你再不让我卖,我这就没意义了,人家也都做出来了。所以他把H20卖了。现在是华为升腾384超节点出来了,他说你看我这H100,加上NVL72的整个架构的性能,也被人超过了,咱就卖吧。至于GB200这个呢,咱们再看一看,现在它还没达到,不行咱们再把这个摁住了,或者说等我这个GB300出来了以后,咱们再把GB200的这套东西卖了。可能下一轮的解禁就要来了嘛。所以大概率川普老爷子还是比较好面子的,等他下一次带着企业家团队、一对CEO团队来访华的时候,H100的NVL72就可以卖了。

总结一下,升腾384超节点在工程实现上,确实有遥遥领先的地方,有一些敏感单位,可以选择全国产设备了,这个原来搞不定,现在可以搞定了。有很多瑕疵和不稳定的地方,用的越多,迭代越快,改进的呢也就越好,永远都是这样的。第一次拿出来都是磕磕绊绊的,第二版第三版第四版,慢慢就改好了。这个对于突破海外封锁,让美国进一步放宽管制来说呢,是有巨大作用的。如果是商业公司,哪怕你去选择H20,也比选择升腾384要划算。如果你不着急的话,可以稍微等一等H100,我相信H100在今年可能很快就会解禁。如果后面美国进一步放宽管制的话,英伟达的股票大家可以再关注一下。董王呢,是一个好大喜功的狡诈商人,黄仁勋也是。变化应该就在不远的将来。

好,这个故事就跟大家讲到这里。感谢大家收听,请帮忙点赞,点小铃铛,参加Discord讨论群,也欢迎有兴趣有能力的朋友,加入我们的付费频道。再见。

Comments are closed.