遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?
7 月 29
AIGC, 华为很厉害 99米长的枪, AI推理, AI芯片, AMD MI300, CUDA, GB200, H100, Hugging Face, MindSpore, NPU, NVL72, PyTorch, TensorFlow, 中美科技战, 人工智能 (AI), 优缺点分析, 信创产业, 光模块, 兼容性, 升腾384超节点, 升腾910C, 华为, 国产替代, 国产芯片, 大模型训练, 工程实现, 性能评测, 成本与电费, 技术封锁, 数据中心, 服务器集群, 水冷散热, 科技评论, 稳定性, 突破封锁, 算力, 老范讲故事, 自主可控, 芯片禁运, 英伟达 (Nvidia), 谷歌TPU, 软件生态, 达芬奇架构, 高功耗, 鲲鹏920 遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?已关闭评论
遥遥领先的华为升腾384超节点,是不是又立功了?
大家好,欢迎收听老范讲故事的YouTube频道。
上海人工智能大会上,有一个镇场之宝,就是华为升腾384超节点。叫这个名字很怪,其实就是华为做的算力超级节点,华为云矩阵。384超节点这个东西,从外边看上去呢,像一堵墙一样,反正摆在厂子里头也确实比较唬人,而且也很昂贵。
很多人就兴奋了,说我们是不是又打破了西方的垄断呢?西方人对我们禁运,不给我们卖英伟达最好的芯片,我们自己造出来了。这个事到底达没达到呢?可以说部分达到了。在集群总的FP16算力上,为什么一定要强调这个?就是它在不同精度上的算力是不一样的。在FP16算力上呢,华为升腾384超节点,是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢?
现在我们去想算力,它是分三个层次的。第一个就是卡,卡这件事呢,咱肯定比不过人家,甭管你是比H100还是GB200,你根本比不过人家。第二个呢,就是叫整机,我是一台服务器。你像AMD呢,就是卖这种东西,就是我一台服务器里头有8个,他们叫MI300这样的服务器。第三种维度呢,就是说我给你卖一整个柜子,像NVL72呢,就属于整个柜子,我把72个H100或者72个GB200这样的东西,装在一个柜子里头,当成一台机器一把卖给你。
现在西方最主要的算力节点,就是NVL72。但是呢,同样的NVL72呢,它里头到底装的是H100,还是装的GB200呢?它算力是不一样的。华为升腾的384超节点,它超过了H100的NVL72的算力,但是呢,达不到GB200的NVL72的算力。虽然在其他方面呢有所欠缺,但是呢,也算是突破了一层西方限制吧。这个欠缺的部分,待会儿我们再去讲。
升腾384超节点,到底是一个什么样的架构呢?一面墙,为什么是一面墙?它是16个标准19寸机柜,这柜子的大小是有标准的。NVL72就是英伟达的,这个设备呢是一个柜子,咱是16个柜子。这个16个柜子里头呢,4个柜子是交换机,因为你这么多设备要拼在一起,你总是需要一些网络交换设备,去支撑它们的。所以有4柜子交换机,剩下12个柜子呢,是装的算力服务器。
每个柜子里头呢,是4台4U的升腾服务器。这个服务器呢,是按1U、2U,大概4U应该有这么高吧,这个就是4U的服务器,4台装在里头。当然它也装不满,这一个柜子里头应该是19U还是多少U,我记不太清了。剩下这空间,你还得放各种的路由设备、交换设备,因为你这些服务器之间,你还要通讯呢。
所以12个算力服务器柜里头,每个柜子里装了4台服务器,每个服务器里头呢,是4个鲲鹏920 CPU和8个升腾910C的NPU。所以呢,他把所有的NPU算一块,就是升腾910C的NPU,算一块呢是384个,这个名字是这么来的,384超节点。它等于是把384个NPU搁在一起,给大家干活儿。
鲲鹏CPU呢,应该是一个兼容ARM指令集的自主IP的CPU。鲲鹏早期的CPU呢,是使用的ARM IP,后来呢,为了防止美国人告他嘛,所以呢,他自己研究了一些新的架构,说我们不再使用ARM架构了,但是呢,它的指令集呢,还是部分兼容ARM的。里边装的操作系统是什么?鸿蒙,里头装的鸿蒙操作系统,但是它是专门给服务器用的。
升腾910C呢,也是一个自主架构,叫达芬奇架构的一个NPU。所谓的NPU呢,叫神经网络处理单元,实际上呢,是一种ASIC处理器。它是自己定制的一个大型集成电路,所以它不是CPU,它有自己的指令集,跟任何的CPU、GPU的指令集都不一样。这个是910C,这两个芯片呢,应该都是7纳米的芯片。但是现在嘛,华为的芯片都搞得神神秘秘的,做了一大堆7纳米的芯片,到底谁做的也不知道,怎么做出来的也不知道,反正就是7纳米的,把这些芯片造出来了。
下一件事是干嘛?就是要通讯。所有的这种算力服务器里头,实际上是三样东西。一个是GPU跟CPU,第二个呢是它的内存,这里头也有HBM内存,它的内存比NVL72给的还多,因为它里头的芯片多嘛,这个装了这么多柜子,咱总要多放一些。第三个呢,就是要通讯,卡跟卡之间是要去通讯的。
像这个NVL72,就是英伟达的这个设备呢,它里头使用NVLink呀,使用其他的一些协议,和一些专门的设备,去让它们进行通讯。不同的卡,它可以直接去调用其他机柜里头的HBM,这种高速的显存。这样的话,它的效率就会很高。拿这个设备去做大模型训练和推理的人呢,就完完全全可以把这一柜子72个GPU,当成一个GPU去使用。里头具体咋调动,你不管了,这个数据到底是放在哪个服务器的哪一个卡旁边的HBM的空间里头,你也不用去管了,它自己去调度去了。而且速度都很快,即使是跨服务器跨卡的这种调度,它不会影响任何速度。这是NVL72处理的方式。
升腾384超节点呢,服务器比别人多,里头的卡也比别人多,人家72个卡,他384个卡。他的通讯呢,肯定是处理起来更复杂的。它通讯呢,使用的是全线光模块,像NVL72里头还是有一部分是铜线的,有一部分是光模块,这个里边全是光模块,堆料堆的非常非常足。这样可以保证呢,这些芯片之间的通讯,服务器之间的通讯效率都非常高。所以为什么这里头,还有4个柜子的交换机呢?那些光模块,有些还是要通过交换机的交换以后,才可以找到下一个机柜里边的服务器,然后在里边找到你需要的地址,找到你需要的数据,才可以把它拉回来。所以呢,它整个的运作方式还是比较费劲的。
当然,光模块多了呢,也有光模块的问题,不是说我们上了光模块就完事了。光模块的问题是发热严重,它里头是个激光发生器嘛,故障率也比较高,这个玩意比较爱坏。还有一个问题呢,就是它的激光发生器的寿命呢,不是很长。所以使用这么多的光模块,它的运营维护成本和稳定性呢,都不是那么理想。
物理上连通了,那下一个问题是什么呢?我就要通过软件逻辑和分配上,我要把刚才我们讲的光模块这些缺陷,要给它处理掉。以前做工程上,有一个典型的故事,叫99米长的枪,什么意思?就是说我这个枪只能打一米远,但是呢,我要打中100米之外的那个鸟,怎么办?作为工程师来说,处理的方式就是造一支99米长的枪,把这个枪伸过去,乓一下,把那鸟打死。这个在工程上呢,并不可笑,在工程上,很多的解决方案都是这样的。
所以呢,升腾384超节点呢,也用了一些软件和逻辑的方式,来去解决光模块不稳定性的问题。它会自动的去判断说,我这不是不是光模块断了呀,还是说哪块出故障了呀,我怎么绕一下。它在每一个NPU外边挂了6-8个光模块,这坏了以后,还有其他路径可以走,我可以做冗余备份吗?
我们用了16倍的英伟达NVL72的体积,和3倍的耗电,来解决NVL72加上H100芯片所能达到的算力需求。这个就是我们现在干的活。三倍耗电这事很好理解吗?人家是5纳米或者是3纳米,咱们这个是7纳米,肯定是耗电发热要比别人厉害。人家是72个芯片,咱们是384个芯片,你比别人耗3倍的电,这个还算是好理解的一个地方。
它的功率呢,是559千瓦,开起来以后还是非常非常耗电的。559千瓦呢,还只是机器的耗电,还没算散热呢。散热加上以后的话,可能会到600-700千瓦之间的一个耗电。为什么这么说呢?升腾上一代做的类似这种东西,大概是10%的耗电量来去散热,比如这边用100瓦的电量去做了算力了,那边用10瓦的电量去做散热,他是这样来去做的。但是呢,这个384超节点,因为里边用了太多的光模块,好像是用了6000多个光模块,那么你的散热的耗电的话,肯定也是要上升很大一块的。散热不好的话,你的激光模块损耗的就会更快一些。它整个的系统完全是强制水冷,其实NVL72也是强制水冷,只是呢,它在一个柜子里,相对来说还比较好弄。升腾384超节点呢,因为在16个柜子里,整整一面墙,你要再给它配水冷呢,这个事费点劲吧,但是还是可以解决的。所以耗电比较厉害。
那么电费呢,中国还是相对来说比较便宜的。中国的工业用电呢,大概是6毛钱一度,其实美国也差不太多,我看了一下美国的平均工业用电,大概是8美分多一些吧,大概也是6毛多钱。美国有一个州电价比较便宜的,是路易斯安娜州,4毛多钱一度电。美国大概最贵的是加州,14美分,大概快一块钱一度电了。加州因为硅谷在那嘛,再加上机房也比较多,所以他那的电特别贵。中国的发电大省,比如说像云贵、内蒙、新疆这些省,如果是集中大规模的采购用电的话,应该可以做到2毛多一度电。按照咱们最便宜的电费,跟美国的平均电价去比较的话,我们的电费是他们的1/3。所以呢,我们耗英伟达NVL72三倍的电,这个也是可以接受的。所以我们依靠电价优势,勉强可以抹平成本。
升腾384超节点的生态如何呢?英伟达之所以可以打败天下无敌手,核心的原因,不是说别人造不出来这样的东西,而是呢,它有一个生态捆死了,大家离不开它。CUDA呀、NVLink呀,这些生态帮助老黄,整个的竞争过程中无往而不利。那你说我们现在做了一个升腾384超节点出来,如果大模型没法在上头跑,也没法在上面训练,这不是白干了吗?你就像英特尔搞不定这个事儿,AMD也搞不定这个事儿是一样的。虽然AMD说我造得出来,你也能将就使,但是你说我要进行大规模训练了,很少有人去选择AMD的设备。
现在呢,大规模使用的GPU其实就是两种。第一种呢,是英伟达的H100、GB200,GB300现在还没发布呢。另外一种呢,是谷歌的TPU。谷歌TPU就是说,反正我自己做自己用,我也不需要考虑兼容性问题,我就自己干了,我也不卖给别人,它的量也很大。另外呢,像亚马逊跟微软呢,都号称是自己要做GPU,特斯拉和XAI也号称自己要做GPU,但是都在号称的阶段,还没有动起来。山姆·奥特曼呢,也号称要跟孙正义一起拿ARM的IP,自己去做GPU,但是这件事呢,也停留在号称的基础上,也没有实际动作。所以现在真正广泛应用的大规模的GPU,就是英伟达和谷歌。这个里头最核心的原因就是生态。谷歌之所以能够大规模应用,就是我不管生态了,反正我自己使,你们不需要跟我兼容就完事了,否则根本没法跑。
咱们说回来,华为升腾384超节点,它的生态怎么样呢?第一个呢,是华为自己做了一个叫MindSpore这样的一个开源的推理和训练框架。你说我现在想用升腾384超节点,去训练我的新模型,你就使用它这个玩意就可以了。它呢,大概可以兼容70%-80%的CUDA指令,但是毕竟不能完全兼容嘛,你如果原来已经习惯了CUDA的编程的话,你可能到这边来去做训练,还是有问题的,你还是要去花时间去做迁移的。另外呢,PyTorch、TensorFlow、Hugging Face Transformer这些框架呢,升腾呢,也专门做了兼容性适配,就是我专门写一个模块,你只要带上我这个模块以后,你这个PyTorch,你的TensorFlow,你的Hugging Face Transformer,这些推理和训练框架,就都可以在升腾的384超节点上跑了。所以呢,如果大家说原来的这个系统,是在PyTorch上跑的,你也不需要再去做迁移了,直接在它这上就可以跑了,兼容性他们都给你测好了。所以呢,属于叫部分的兼容吧。
如果你真的是说我训练新的大模型,建议大家还是不要跟自己找不痛快,还是老老实实的去使用英伟达就完了。但是你说我拿回来做做推理,拿来去做一些后期的使用的话,升腾384基本上是够用的,没有什么太大问题,你只要别嫌它占地儿,别嫌它耗电,这个东西还可以使。
那你说为什么不能拿它做训练呢?刚才不是说它可以训练吗?而且训练的算力也不差。大家注意,训练呢,是一个非常长期的这种连续任务,你中间停了坏了以后的话,你是需要重新干的,你说让他接着往下干,这事很费劲。它里边有大量的光模块,而且这个玩意的故障率很高,寿命也不是很长。你如果跑着跑着出故障了,里头有一个光模块烧了,你的这个训练呢,未必会停下来,因为它通过了一些软件方式,让你去规避这个错误。你可能只是说我训练的过程中,哪一些数据取回的速度变慢了,但是呢,我还在接着往前慢慢跑。但是也有可能跑着跑着就直接出错,咔嚓就扔那了,这个可能性是很大的。
你像马斯克,他自己用的10万块H100,Meta这种几十万块的H100,他们去做这样训练的时候,还经常是说我跑着跑着突然就退出了,突然就崩了。那崩了怎么办?重来一遍呗。对于他们这些平台来说,你可能跑10次崩个两三次,但是你对于升腾384这样的超节点来说,你可能跑10次会给你崩个八九次,这个也许就突破忍受极限了,就没法忍了。他大概就是这样的一个情况,就是有些情况呢,咱们能用了,有些情况还是稍微费点劲的,跟它整个的硬件架构是有关系的,跟它的兼容性也有关。它毕竟没有100%兼容CUDA嘛,所以大家在CUDA上做训练的代码,拿到这边来再跑,还是会有很多问题的。
那你说华为升腾384超节点,最大的作用到底是什么呢?第一个呢,还是给国内算力中心了一种新的选择,否则你没得选,你只能是要么拿自己的卡或者服务器,这种完整可以拼在一起的算力节点,也算是一个工程上的突破吧。信创产业也算是填补了零的空白,因为现在很多是要求信创嘛,所有的必须是自主可控,自主的操作系统,自主的CPU,自主的GPU,所有都要自主的。我们现在迷信这玩意,原来呢,这些人没得选,现在等于是有的选了,也算是一个工程奇迹,就是99米长的枪。这个故事呢,大家别觉得可笑。
H20的库存呢,前面老黄在中国各种的表演之后,算是把他这个库存清了。川普呢,又要带着企业家来访华了,下次谈点什么,大家要想一想。上次黄仁勋是怎么去说服川普,说把H20解禁的呢?是告诉川普,华为的升腾910,已经基本上可以达到H20的水平了,你再不让我卖,我这就没意义了,人家也都做出来了。所以他把H20卖了。现在是华为升腾384超节点出来了,他说你看我这H100,加上NVL72的整个架构的性能,也被人超过了,咱就卖吧。至于GB200这个呢,咱们再看一看,现在它还没达到,不行咱们再把这个摁住了,或者说等我这个GB300出来了以后,咱们再把GB200的这套东西卖了。可能下一轮的解禁就要来了嘛。所以大概率川普老爷子还是比较好面子的,等他下一次带着企业家团队、一对CEO团队来访华的时候,H100的NVL72就可以卖了。
总结一下,升腾384超节点在工程实现上,确实有遥遥领先的地方,有一些敏感单位,可以选择全国产设备了,这个原来搞不定,现在可以搞定了。有很多瑕疵和不稳定的地方,用的越多,迭代越快,改进的呢也就越好,永远都是这样的。第一次拿出来都是磕磕绊绊的,第二版第三版第四版,慢慢就改好了。这个对于突破海外封锁,让美国进一步放宽管制来说呢,是有巨大作用的。如果是商业公司,哪怕你去选择H20,也比选择升腾384要划算。如果你不着急的话,可以稍微等一等H100,我相信H100在今年可能很快就会解禁。如果后面美国进一步放宽管制的话,英伟达的股票大家可以再关注一下。董王呢,是一个好大喜功的狡诈商人,黄仁勋也是。变化应该就在不远的将来。
好,这个故事就跟大家讲到这里。感谢大家收听,请帮忙点赞,点小铃铛,参加Discord讨论群,也欢迎有兴趣有能力的朋友,加入我们的付费频道。再见。