升腾910C – 老范讲故事｜AI、大模型与商业世界的故事

DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。

Luke Fan — Mon, 18 Aug 2025 13:35:27 +0000

8月14号，英国金融时报发了一篇报道，说Deepseek R2模型之所以难产，是因为在使用华为升腾芯片训练的时候，持续遇到了技术问题，最后被迫改用了英伟达芯片。甚至透露华为曾经派出一支救火队，常驻在Deepseek，手把手帮忙调教升腾服务器，但仍然无法完成训练。无奈之下，Deepseek只能退回老路训练，重新切换回性能更加可靠的Nvidia的GPU，升腾芯片仅退居辅助，用于模型推理环节。

虽然没有华为和Deepseek官方的回应，也没有他们的辟谣，但是呢，据说是援引了三位知情人士的一些说法，也进行了很多交叉验证，所以这个事情呢，大概率是真的。

国运跟国运相碰撞的时候，升腾也号称是国运级产品，Deepseek肯定是国运级产品，为什么是升腾不灵呢？升腾芯片是可以替代的，也还有一堆竞争对手，所以出现问题以后，他的竞争对手会帮他去宣传。而Deepseek虽然在国内也有模型在追赶，但是地位是不一样的。升腾和国内的其他算力芯片，以及其他那些大模型，从来没有像Deepseek那样震动过世界。所以呢发生碰撞的时候，必须是升腾不行了，不可能是Deepseek不行了。

大家为什么会这么期待Deepseek R2呢？现在又有千问3，也有Kimi、Mini Max，还有豆包等，有一大堆的这些模型出来，怎么就只有Deepseek才行呢？其他人为啥都不行呢？其实现在呢，很多新的这些模型已经并不比Deepseek R1的性能差了，基本上是可以替代使用的。但是大家依然在期盼Deepseek R2，而且你只要讲Deepseek要出R2了，就会有流量。这个原因其实很简单，因为我们在跟国外的大模型竞争中打不过了。

国外已经进入了10万级芯片的训练时代了。Llama4，40万块H100训练出来的。虽然Llama4翻车了，但那也是10万块。而马斯克XAI的Grok 4，20万块H100训练出来的，效果相当不错。GPT5的话，现在推测也是20万块H100训练出来的。Anthropic的Claude 4，据说呢是40万块H100，但是呢它这个数并不是那么准确，40万块H100呢是一个部署的数量，并不是精确的训练的数量。另外一个没说的是Gemini 2.5。Gemini的2.5是没有公开数据，因为他们家使的TPU，其他人都是使的GPU，所以呢没有办法去比较，但应该也是几十万块H100的一个算力，才有可能训练出Gemini 2.5来。

以前是一个国外大模型特别强，特别是GPT4压着所有的模型的时候，我们终于期盼到了Deepseek R1一出来，觉得我们好像又可以了。但是现在我们发现，国内的大模型跟国外这些明显有差距了。我们只能再去期盼Deepseek，因为其他这些肯定是追不上的。那没有20万块H100，这个日子就没法过了。国内的算力芯片呢，大家也都知道不是那么靠谱。这个时候大家期待的就是奇迹了。

Deepseek V3、Deepseek R1，他们呢号称使用了2,048块H800，还不是H100。他们这个算力转换，可能也就是1,000多块H100。拿这样的算力就直接训练出来了，大家觉得你们可以用很少的卡训练出来，还可以震惊世界。现在我们还搞不定20万块的H100，是不是依然可以期待Deepseek再创造一次奇迹呢？

Meta花了好多钱收入进去的亚历山大王曾经在接受采访的时候说，Deepseek手里头有5万块H100，压根就不是他讲的几千块就给这事搞定的事。而且呢，新加坡3月份还抓了一些向大陆走私英伟达芯片的人，有传闻说这些芯片的采购方里边包括Deepseek。

Deepseek呢也正式做出过回应，2025年2月份做了回应。Deepseek强调，仅使用了2023年合法采购的H800芯片，其他我都没用。但是讲完了这个以后，甭管你原来这个东西到底有还是没有，你讲这个话以后肯定就不能再用了吧？所以呢现在大家期待说，这个反正你们原来是这么讲的，我们就这么信了。那以后呢创造奇迹也只能是等着你了。哪怕是使用H20芯片，用很少的芯片训练出来，堪比20万块H100芯片训练结果的这种奇迹，也不是完全不可能吧？这个怎么说呢，人有多大胆，地有多大产吧。我们总还是要有一些希望吧。

新的模型没有出来，但是新的论文呢，Deepseek其实一直不断在产生。在V3跟R1之前，Deepseek也没做什么铺垫，这不也就突然蹦出来了吗？他是这样去期待这个Deepseek的。

原来讲是8月15号到30号之间要发新版本，最后Deepseek自己出来辟谣说：“对不起，我们发不出来。”英国金融时报出来说，被这个升腾给拖累了。那这消息是怎么传出来的呢？Deepseek原来是有没有说过自己要去发Deepseek R2这件事呢？

首先呢，是Deepseek R1震动了世界，应该是在2025年春节前后的时候，我印象里特别深刻。Deepseek R1出来以后，我还连续做了很多天的直播来跟大家讲这个事情。国际大厂呢，在Deepseek R1的这种搅动之下，纷纷转向。转向什么呢？主攻数学、科学与编程，然后呢是长上下文、工具调用和agent，以及指令依从、降低幻觉。

数学跟科学这块呢实在太难了，这个咱们不擅长，而且那个你真的是需要可能10万块、20万块卡，你才可以把这事搞定，咱们没有。那编程呢基本可用，国内的这些模型做编程，肯定没有Anthropic的Claude 4好用，但是呢也基本上可以跑。长上下文、工具调用和agent这块呢，包括指令依从这一块呢必须要有，这一块其实国内的大模型基本上已经追上了。剩下的呢降低幻觉这事咱们就不谈了，反正有幻觉还是可以甩锅的事情。全面开源，这个是国内大模型真正卷的地方。千问直接把200多b的模型直接就开源出去了，Deepseek 600多b的模型直接开源出去了。这件事情我们在努力的往前走，所以各有所长吧。基础设施这块、数学科学这部分实在是费劲，大家就期待Deepseek来再创辉煌了，其他人就不管了。

Deepseek发R2这件事呢，其实传了两回。一回呢5月份，风起云涌。每一次说Deepseek要出R2的时候呢，都是风起云涌的时候，大家都在上新模型，说呀Deepseek你也得上，所以就会开始给他传这个事儿。

今年5月份，发生了一些什么样的事情呢？首先呢Claude 4、Opensource和sonnet这些模型直接出来了，王炸。5月份开谷歌IO，Gemini 2.5 Pro和Gemini 2.5 Flash直接发布，这个其实现在已经是我的主力模型了。GPT呢当时倒是没有什么特别大的动作，上了一个Deepseek 4.5，但是呢也没有引起特别多的响动。大家就说Deepseek你们也该来了。但其实呢Deepseek没有去出R2，而是把Deepseek R1的模型稍微的小步更新了一点点。

6月26日，the information就做了一个报道，说Deepseek R2原来计划是5月份发布的，但是呢因为梁文峰对于Deepseek R2表现的性能不是很满意，决定推迟了。路透社呢也引用了the information的这个报道，国内的媒体呢也纷纷去引用。但是这件事呢，并没有得到Deepseek官方的回应。Deepseek这个公司就是这样，他基本上不怎么回应大家的这个响动。你们猜吧，猜完了以后我也不理你，除非是有一些太过分的，否则他一般不说什么。

Deepseek呢也不是说没更新，就是做小版本更新。像Deepseek V3出了0324版，也就是2025年3月24号出了一个版，把分数又往上刷了刷。因为每一次去更新这些模型，一定要刷分数上去。代码能力，特别是前端代码能力呢，有所提升。拿这玩意写个网页没什么问题，但你说我要做一些大的架构，或者做一些这种后端的东西，可能就要稍微费劲一点。做算法的东西要费劲一点。为什么？因为它Deepseek有一个问题，就是它的上下文比较短，想去做一些大的架构上的东西，你必须上下文长，你得能把整个代码塞进去才行，这块还是要费点劲的。然后他把中文写作能力做了一些提升，Deepseek其实一直在努力的方向，就是中文推理。因为在海外的这些模型，很多都是使用英文推理，然后再翻译成中文的。他说我们直接用中文推理这个事，是不是OK？他们一直在努力干这件事情。使用体验上呢也有所提升，特别是function call更加准确了。在做AI agent的时候，其实核心就是function call的能力，就是我们先描述一堆的功能，然后交给大模型，大模型在完成整个的语言生成的过程中呢，去根据你描述进来的这些function，去决定我要调哪个、不调哪个，或者如何去调用、什么时候调用。Deepseek V3 0324呢，就在这一块做了一些增强。

Deepseek的R1呢，其实也更新了一个版本，就是0528。大家在传说Deepseek要出R2，讲的其实就是0528的这个版本。而这个版本呢，其把这个分又往前刷了刷，减少生成的一些错误信息。因为Deepseek最大的让大家无法忍受的东西是什么呢？就是胡编乱造，他太喜欢瞎编了。所以在这一块呢，稍微做了一些调整，但是依然胡编乱造的很厉害。Deepseek 210528呢，还支持了Json输出和function coding，提升了调用的准确度，但是呢不能叫R2。这就是5月28号的这个版本。

紧跟着就开始传说了，说8月15号到8月30号，要准备发布Deepseek R2了。这个消息是怎么来的呢？首先肯定还是要风起云涌一下。8月份发生了些什么事情呢？马斯克XAI的GROK4发布了，Anthropic又发布了Claude 4.1 Opensource，OpenAI发布了GPT5。GPT5这东西到底好不好使，大家各自去领会。大家可以认为说，GPT5是一个划时代的产品，但是也可以认为说，GPT5就是山姆奥特曼为了要去忽悠融资去搞的一个事情。因为GPT5出来以后，OpenAI的估值已经正式从3,000亿美金提升到5,000亿美金了，而且是孙正义要去买这个单，说您这5,000亿美金我认了，我去买去。

所以呢8月份风起云涌了。那么空穴来风呢，你这事怪不得别人。在Reddit上有人发了个帖子，这个帖子特别有意思，他说他去问了Deepseek R1：“Deepseek R2什么时候发布？”他等于是把这个东西交给Deepseek R1了。但是大家注意，Deepseek R1这个大模型呢，它并不代表Deepseek这公司的一些官方的观点，只是说这个模型给你生成了这样的一个结果。Deepseek R1回答了：“8月15号到8月30号之间发布。”而且号称呢是引用了雪球和东方财富等可信的信源，而且进行了多个渠道的证实。

Deepseek R1的幻觉其实一直都是很严重的，虽然经过0528的调整以后，但依然很吓人。而且Deepseek R1的最大幻觉是什么？就是编造可信的信源。说我从哪哪引用了，你点进去以后，压根就没有这篇文章。但是甭管怎么说，这个文章就在Reddit上就贴出来了，随后呢这个消息就逐渐的被传播和放大了。国内的很多的媒体、自媒体就开始引用这篇消息，特别呢是华为下边的一些科技媒体进行了转载。而且呢在标题里边还夹带了私货，讲的是什么呢？讲的是深度求索，就是Deepseek这个公司，“升腾芯片版本Deepseek R2预计在本月发布”。它讲的就是说，它是使用升腾芯片来去做训练的。

华为都说了，两大国运级产品强强联合了，那信吧，这事怎么办呢？国内一帮的媒体就冲上去说：“我们信了，确实是有这事了。”到8月14号，英国的金融时报出来报道，说升腾芯片拖累了Deepseek 2。然后动点科技、腾讯科技就出来辟谣，原引自公司内部人士，也就是Deepseek这公司里边的人说了，说8月份不会发布Deepseek R2。所以呢，8月15号到30号之间发布Deepseek R2的一个消息，实际上是Deepseek R1自己编出来的，其他人把这个编的信息信了，直接截了个图发到这个Reddit上，以此来发酵出来的一个过程。

那么Deepseek R2到底遇到了一些什么样的问题呢？首先升腾芯片确实是有问题的。升腾910C的这个芯片，虽然单芯片的算力在部分指标上呢，已经达到了H100的水平，但是呢显存的带宽不够，想从显存里调数据回来，速度是没有H100快的。而且最大的问题是什么？就是多个芯片之间的速度，就是我需要把数据在多个芯片之间进行流通的时候，这个速度是相对来说比较差的，而且差的很远。你要想去做同样的训练的话，你就需要更多的时间全功率的去运转。因为你想，人家都已经达到20万块H100这样的集群的规模再去训练新的模型了，你没准就是需要这个50万块或者60万块升腾910C串在一起，才能达到人家那个算力，而且你需要很长的时间去连续的运作，这个对于升腾910C的这种考验来说就比较大了。

这样的芯片，其实是没有办法长时间稳定地去运行的。并不是说训练一个模型，这头输入进去数据，过三个月去开盖看结果。中间每过一段时间，可以取得阶段性成果，再继续往下训练。但是中间这个过程呢，你是不能停的。你中间比如说准备了一批数据，你去训练了，如果这批数据没有训练完，升腾910C就直接冒烟了，就不干活了，这一波呢就白干了，你必须要从这个节点接着往后干。这个玩意有点像什么？有点像打怪升级，你一定要打死这个妖怪才能存盘，你没打死这个妖怪就不让你存盘。升腾910C在这块差一点。

那为什么差呢？升腾910C呢，是两个910B堆叠在一起的，散热肯定会出问题。就算是上了液冷以后，依然是搞不定这个事情。

其实同样的坑，英伟达也踩过。大家还记得H100独挑大梁好久了吗？很多人应该还是有印象的。甚至呢到现在为止，H100已经成为一种计量单位了。现在我们再去算说：“你这个算力相当于多少英伟达芯片呀？”我们都是以H100的这个算力作为一个计量单位的。就是因为H100挺长时间在那孤独一只。为什么它会孤独一只呢？本来计划替代H100的这个产品叫B100，叫Blackwell黑井100，这个芯片直接就跳票了。研究完了以后开了发布会，开完了以后，这个芯片压根就没有大规模的部署，也没有交付。为什么呢？就是他做的就是这种堆叠技术，导致散热失败。散热失败了以后会直接把版卡烧掉，这压根就没有办法去交付。到H200出来了以后说：“那这咱交付这个呗。”但是一开始依然是受困于散热问题，导致了大规模交付的延迟，一直到今年才开始去交付H200。

后面的工艺呢不断的进步，再加上全面液冷。H100这些机器是可以进行风冷的，你拿风扇吹它是OK的。但是到H200这个机器开始交付的时候，你必须是液冷。而且这种液冷呢，还不是种普通的液冷，叫完全浸泡式液冷。见过这种游戏主机装机视频的这些人，会知道他们那个液冷是怎么做的。他在芯片外面给你涂散热的胶，然后呢把这个液冷管贴上去，靠这个液体呢快速的把你热量带走到外边，再去找风扇把这个水给你吹凉了，再重新循环，它是这样来工作的。但是这种工作方式对于H200来说还是不行的，它必须是全浸泡式的，就是把整个的H200的芯片，或者包括它整个的板卡，一起泡在这个液体里头。这就肯定不是水了嘛，是一些不导电的水，整个泡在里头，才能够达到散热的这个能力。

当然了，甭管是英伟达也好，还是升腾也好，散热都是有问题的，导致什么呢？就是液冷概念股都涨疯了。你只要说我这公司是做液冷的，就赶快涨。而且现在都是浸没式液冷，就把整个板卡都泡里头。A股上强瑞科技、英维克、深林环境、飞龙股份，大概有十来家公司，都是专门做液冷的。飞龙股份是专门给升腾这个384超节点做液冷的。美股那边的话，有一个叫VERTIV的一个公司，它的代码是VRT，是专门给英伟达做液冷的公司，这个公司的股票也是涨的可好了。

讲回来，910C这个芯片连续的做长时间训练的话，液冷也压不住，直接把板卡烧掉。即使是有大量的华为的工程师坐在Deepseek公司里头，出来我帮你调，他也调不过去。实际上这些华为工程师能调什么呢？他们只能调一件事，就是CUDA里头没有实现的部分，我来帮你去实现一下。华为的这个升腾910C，他们使用的训练相关的代码的话，是华为自己开源的一套训练框架。这套框架据说是可以实现CUDA 70%的功能，但是还有30%你是实现不了的。那这一部分由华为的工程师到现场来搞定。再怎么搞，该冒烟、该着火、机器直接停摆，这个事它是解决不了这问题的。

另外一个传闻，DEEPSEEK R2出不来的原因是什么呢？是数据标注的质量跟速度不过关。这个呢也没有得到官方的证实，也是坊间在流传。因为在中国嘛，很多的数据肯定还是需要去审核一下的，这个审核的过程是相对来说比较麻烦的。

而且Deepseek呢，其实一直也是一个比较低调的公司。提前预热，不停的出来吹牛，这件事呢是容易翻车的。山姆奥特曼每次出来讲GPT5，说：“我太震惊了，我从来没见过这么棒的。”等GPT5发布的时候，大家说：“这就能让你震惊了？您到底是眼皮子有多浅？”马斯克在发布GROK4之前，也在说：“这是我所见过的最聪明的大模型。”也有人认为老马吹的有点过头了。

其他的公司都必须不断的发模型，跟着一起卷，不断的来吹牛，这个事是有原因的。为什么？因为这些公司是需要融资的。马斯克发GROK4发完了以后，马上就给XAI去融资。山姆奥特曼GPT5发完了马上融资，这公司直接值到5,000亿美金了，他现在已经是没有上市公司里头最贵的一家了。第二家应该是SpaceX，再往后是3,000多亿的字节跳动。但是大家注意，字节跳动的收入现在好像已经超过Meta了，这个是非常吓人的一个事情。所以这些人他有融资的需求，你就必须得不断的出来炒这个热点。不炒的话，你说我现在想提高估值，融资这事费劲了。而且现在Anthropic也在融资，而且是要按照1,500亿美金的估值要去融资，我估计他们后边的日子不是那么好过，现在他们的CEO应该已经奔中东，找中东土豪去给钱去了。

谷歌呢虽然不需要融资，但它后边有股市、有股价、有市值这些东西，所以呢不能落后，所以谷歌也必须要不停的推陈出新。实在做不出来东西呢，确实哪块也做的不太行，怎么办呢？你还可以像扎克伯格那样，表演抢人大戏这种行为艺术。我发2亿美金的薪水，我把人抢回来。虽然你的Llama4像屎一样，Llama再往后怎么走谁也不知道，但是看到你表演行为艺术表演的这么热闹的话，Meta的股价涨的也还可以。所以大家必须不停地去表演。

但Deepseek自己，他没有这种融资的需求，所以呢也并不太需要出来表演，自己踏踏实实做自己的事就好了。至于说他到底做成什么样，咱们也只能在外边来看。

大家有没有想过这样的一个问题：到底是谁家的芯片能够训练大模型呢？训练跟推理是完全两个不同的概念。训练你是必须要长时间高强度的工作，而且在中间是不允许停的。而且在训练的过程中，我们需要在更多的芯片之间进行数据的调度，更更大规模的这种协同。国内的这些算力服务器都搞不定这件事情，他没有办法说让这么多的芯片相互之间进行协调的情况下，这么长时间稳定的工作下去。推理的话相对来说要简单一些，可能只要几个芯片读出很少的数据来，他就可以把这事干完。比如说我们去提了一个问题，他给我们过了几秒钟做了一个反馈，反馈完了以后呢，他就可以再给我们分配其他芯片了。在这个过程中，芯片出现任何的问题，过热了或者说你对资源进行切换了，它是不影响的。所以呢推理咱们国内的这套系统是可以的，但是训练搞不定。

那么到底谁家的芯片可以做训练？英伟达这个必然是可以的。除了英伟达之外，还有哪些芯片可以进行大规模的这种模型训练呢？你说我这个芯片训练了一个10B的、20B的模型，这不算。或者说你说我这个虽然能够训练，但是我训练的模型从来没有人用过，这个也不算。现在唯一证实了可以进行大规模训练的，而且是训练这种大模型的，还被大家普遍接受和使用的，猜猜是谁？

很多人可能会猜是不是AMD？AMD MI300，或者现在应该是MI三百零几了吧，这样的一个芯片。不是他们。现在唯一的一个能干这个活的人，是谷歌的TPU。Gemini大模型是在上面训练出来的，Anthropic的Claude模型有部分声称是在TPU上训练的。除了英伟达之外就是他们了，再没有第二家了。

那老牌厂商像AMD、英特尔，号称我这个芯片是可以进行大规模的模型训练的，也给出了一些用他们的芯片训练大模型的实例，甚至呢还训练了一些不太流行的小模型拿出来去开源，但是他们训练出来的模型也没人用。AMD跟英特尔呢，一般大概也就是10B或者20B以内的这些小模型。另外一个呢就是富士通，富士通用一款ARM的CPU呢，也训练过一点可能也是10B以内的这种小模型吧，也没有听说过谁去用他们。

其他的一些ASIC芯片呢，也是号称自己能做。所谓ASIC芯片呢叫专用集成电路，像升腾、谷歌TPU呢都属于ASIC。亚马逊、阿里、百度呢，也都号称可以进行训练，但是呢没有实例。亚马逊号称是我拿自己的ASIC芯片呢，做了一些训练，也有几个模型，但是呢谁都没用过。OpenAI的模型，有些据说是在亚马逊上进行训练，但这个事呢，也没有得到最终的证实。百度呢是号称自己设计的ASIC芯片可以去进行训练，但是反正百度自己家的模型烂的跟屎一样，我们就不去评论了。

至于华为的升腾芯片呢，科大讯飞号称是在上面训练的。但是呢也有朋友跟我讲说，科大讯飞其实是在英伟达上训练出来的，只是呢对外宣称是在升腾上训练的，这个我们就不去做考证了。只是科大讯飞的模型，其实也没有那么普遍，除了一些教育领域里头有些人会去用，其他的让你自由选择的时候，很少有人会去选择用科大讯飞的模型。华为呢自己号称是在升腾模型上训练了盘古大模型，但是呢前面被内部的人指责蒸馏、指责抄袭，之后就不再有任何声音了。所以现在华为已经不再提他的盘古大模型这事了，估计是准备装一段时间的死狗以后，再次遥遥领先。所以华为的升腾模型，其实没有证实过训练成功过任何的大模型。Deepseek R2呢，应该是真的尝试过，但是败下阵来。

华为跟Deepseek官方呢，都没有出来证实，就既没有出来说我用了，也没有出来说我没用。所以呢升腾芯片，没有成功的训练出过任何一款大家普遍使用的模型。

那么国内的算力芯片是怎么样去竞争的呢？英伟达大概占54%，就一半多。升腾呢占28%，其实已经占的非常非常多了。像寒武纪等等其他的一些芯片公司的，所有的加在一起，可能还加上AMD的吧，一共占18%。这个大就是国内整个的算力芯片的一个分布情况。

国产的芯片呢，目前来看都是可以去做推理了，但是呢没有哪一个真的跑出来模型过。所以国内的算力芯片，基本上是没有办法做训练的。

现在呢还有一群的“赢学家”在鼓吹英伟达芯片里头有追踪器。但是这些“赢学家”呢，现在有点吹不下去了。他说呀：“这个英伟达的芯片里头，是不是在集装箱里装追踪器了？”还有人说：“是不是在包装箱里装追踪器了？”或者是说：“在服务器里边装追踪器了？”因为他们也知道，在这个芯片里头是装不上的。还有人说：“H20这里头肯定没有追踪器，但是呢H100、B200这个里头有追踪器。”这个呢都想多了。因为中国人是经历过挖矿的，我们是完完全全可以把芯片整个扒下来，重新拿新的版卡去焊。而且大量的，其实做英伟达版卡的公司就在国内，所以我们完全可以拿他的版卡，自己回来去加工这个事情。装追踪器这个事是没用的。

中国官方对于H20的态度呢，也很暧昧。有人就到外交部的新闻发布会上就问：“说你们是不是要准备禁售H20？”外交部的新闻发言人回答是：“没听说过这件事情。”中国的这些官员回答，一般都不会说是或者不是，通常回答是：“请你看以前的表态”，或者“请你看有关部门的表态”，或者说“我不知道”、“没有听说过”。所以他这一次的回答叫“没听说过”。

中国政府呢，也没有明令禁止说我们去销售H20或者谁去买这东西。但是呢潜规则就是这样去运营的。多家媒体，比如说Bloomberg、Marketwatch就做了些报道，说中国的监管部门针对H20芯片表达了强烈的不信任和谨慎态度，尤其是强调相关芯片可能存在后门的风险和数据隐患，建议企业回避在政府或敏感用途使用H20。所以呢这些H20可能最后去做训练就完了，推理的这块就通通交给国内的升腾384超节点就OK了。

还有报道说字节跳动、腾讯、百度等企业被召集，这些人是准备去买H20的。国内的有关部门把你们都召集一块说：“你们为什么要买这东西？买多少？”给他们开这样的会。监管侧重国家安全与网络安全审查，并未提出商业禁令，就是我们还是让你买，但是你买之前呢，我们得把你拎来稍微恶心恶心。所以现在都约谈过了。

总结一下吧。Deepseek R2呢确实是难产了，肯定的没有出来。国内的算力芯片目前呢，也无法进行大规模的模型训练，可以进行推理这个事没问题了，但是训练搞不定。20万块H100量级以上的大模型训练，国内很难突破。如果20万块串在一块可以训练大模型的话，我们可能至少需要40万块或者50万块，比如像升腾910C这样的芯片凑在一起，而且我们所需要消耗的电和时间，可能都是要呈几何级数上升的。因为我们卡之间的联通的速度是相对来说比较慢的。所以比如说H100，它也不是说一直就不坏，它可能工作个20个小时或者是40个小时都会坏一次，会出现问题，对于老外来说就可以去接受了。对于我们来说呢，我们可能要求要连续坚持500个小时不出问题，才能够回收回来数据了，因为算的慢嘛，真的达不到。大概就是这样的一个情况。

国内算力卡的这些供应商呢，很有可能会阻碍中国大模型的进展和训练。为什么呢？自己做不好，你又不让别人买H20，可能中国的大模型再往下一步走，就会变得非常非常困难了。

未来国内算力卡是不是可以训练大模型呢？反正一两年之内呢稍微有一些困难吧。国内的大模型到底能不能用呢？基本还是能跑的。高深的数学、科研研究、物理学或者这些基础学科，我们不去研究了。就是让你去做一些信息整理，现在国内大模型基本上都是可以用的。

还是稍微耐心地等待一下Deepseek的慢慢发展吧，它反正中间只要不需要融资，它也不需要出来吆喝，万一有惊喜呢？这个也不好说。这就是我们今天要讲的故事。

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

Luke Fan — Tue, 29 Jul 2025 00:57:08 +0000

遥遥领先的华为升腾384超节点，是不是又立功了？

大家好，欢迎收听老范讲故事的YouTube频道。

上海人工智能大会上，有一个镇场之宝，就是华为升腾384超节点。叫这个名字很怪，其实就是华为做的算力超级节点，华为云矩阵。384超节点这个东西，从外边看上去呢，像一堵墙一样，反正摆在厂子里头也确实比较唬人，而且也很昂贵。

很多人就兴奋了，说我们是不是又打破了西方的垄断呢？西方人对我们禁运，不给我们卖英伟达最好的芯片，我们自己造出来了。这个事到底达没达到呢？可以说部分达到了。在集群总的FP16算力上，为什么一定要强调这个？就是它在不同精度上的算力是不一样的。在FP16算力上呢，华为升腾384超节点，是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢？

现在我们去想算力，它是分三个层次的。第一个就是卡，卡这件事呢，咱肯定比不过人家，甭管你是比H100还是GB200，你根本比不过人家。第二个呢，就是叫整机，我是一台服务器。你像AMD呢，就是卖这种东西，就是我一台服务器里头有8个，他们叫MI300这样的服务器。第三种维度呢，就是说我给你卖一整个柜子，像NVL72呢，就属于整个柜子，我把72个H100或者72个GB200这样的东西，装在一个柜子里头，当成一台机器一把卖给你。

现在西方最主要的算力节点，就是NVL72。但是呢，同样的NVL72呢，它里头到底装的是H100，还是装的GB200呢？它算力是不一样的。华为升腾的384超节点，它超过了H100的NVL72的算力，但是呢，达不到GB200的NVL72的算力。虽然在其他方面呢有所欠缺，但是呢，也算是突破了一层西方限制吧。这个欠缺的部分，待会儿我们再去讲。

升腾384超节点，到底是一个什么样的架构呢？一面墙，为什么是一面墙？它是16个标准19寸机柜，这柜子的大小是有标准的。NVL72就是英伟达的，这个设备呢是一个柜子，咱是16个柜子。这个16个柜子里头呢，4个柜子是交换机，因为你这么多设备要拼在一起，你总是需要一些网络交换设备，去支撑它们的。所以有4柜子交换机，剩下12个柜子呢，是装的算力服务器。

每个柜子里头呢，是4台4U的升腾服务器。这个服务器呢，是按1U、2U，大概4U应该有这么高吧，这个就是4U的服务器，4台装在里头。当然它也装不满，这一个柜子里头应该是19U还是多少U，我记不太清了。剩下这空间，你还得放各种的路由设备、交换设备，因为你这些服务器之间，你还要通讯呢。

所以12个算力服务器柜里头，每个柜子里装了4台服务器，每个服务器里头呢，是4个鲲鹏920 CPU和8个升腾910C的NPU。所以呢，他把所有的NPU算一块，就是升腾910C的NPU，算一块呢是384个，这个名字是这么来的，384超节点。它等于是把384个NPU搁在一起，给大家干活儿。

鲲鹏CPU呢，应该是一个兼容ARM指令集的自主IP的CPU。鲲鹏早期的CPU呢，是使用的ARM IP，后来呢，为了防止美国人告他嘛，所以呢，他自己研究了一些新的架构，说我们不再使用ARM架构了，但是呢，它的指令集呢，还是部分兼容ARM的。里边装的操作系统是什么？鸿蒙，里头装的鸿蒙操作系统，但是它是专门给服务器用的。

升腾910C呢，也是一个自主架构，叫达芬奇架构的一个NPU。所谓的NPU呢，叫神经网络处理单元，实际上呢，是一种ASIC处理器。它是自己定制的一个大型集成电路，所以它不是CPU，它有自己的指令集，跟任何的CPU、GPU的指令集都不一样。这个是910C，这两个芯片呢，应该都是7纳米的芯片。但是现在嘛，华为的芯片都搞得神神秘秘的，做了一大堆7纳米的芯片，到底谁做的也不知道，怎么做出来的也不知道，反正就是7纳米的，把这些芯片造出来了。

下一件事是干嘛？就是要通讯。所有的这种算力服务器里头，实际上是三样东西。一个是GPU跟CPU，第二个呢是它的内存，这里头也有HBM内存，它的内存比NVL72给的还多，因为它里头的芯片多嘛，这个装了这么多柜子，咱总要多放一些。第三个呢，就是要通讯，卡跟卡之间是要去通讯的。

像这个NVL72，就是英伟达的这个设备呢，它里头使用NVLink呀，使用其他的一些协议，和一些专门的设备，去让它们进行通讯。不同的卡，它可以直接去调用其他机柜里头的HBM，这种高速的显存。这样的话，它的效率就会很高。拿这个设备去做大模型训练和推理的人呢，就完完全全可以把这一柜子72个GPU，当成一个GPU去使用。里头具体咋调动，你不管了，这个数据到底是放在哪个服务器的哪一个卡旁边的HBM的空间里头，你也不用去管了，它自己去调度去了。而且速度都很快，即使是跨服务器跨卡的这种调度，它不会影响任何速度。这是NVL72处理的方式。

升腾384超节点呢，服务器比别人多，里头的卡也比别人多，人家72个卡，他384个卡。他的通讯呢，肯定是处理起来更复杂的。它通讯呢，使用的是全线光模块，像NVL72里头还是有一部分是铜线的，有一部分是光模块，这个里边全是光模块，堆料堆的非常非常足。这样可以保证呢，这些芯片之间的通讯，服务器之间的通讯效率都非常高。所以为什么这里头，还有4个柜子的交换机呢？那些光模块，有些还是要通过交换机的交换以后，才可以找到下一个机柜里边的服务器，然后在里边找到你需要的地址，找到你需要的数据，才可以把它拉回来。所以呢，它整个的运作方式还是比较费劲的。

当然，光模块多了呢，也有光模块的问题，不是说我们上了光模块就完事了。光模块的问题是发热严重，它里头是个激光发生器嘛，故障率也比较高，这个玩意比较爱坏。还有一个问题呢，就是它的激光发生器的寿命呢，不是很长。所以使用这么多的光模块，它的运营维护成本和稳定性呢，都不是那么理想。

物理上连通了，那下一个问题是什么呢？我就要通过软件逻辑和分配上，我要把刚才我们讲的光模块这些缺陷，要给它处理掉。以前做工程上，有一个典型的故事，叫99米长的枪，什么意思？就是说我这个枪只能打一米远，但是呢，我要打中100米之外的那个鸟，怎么办？作为工程师来说，处理的方式就是造一支99米长的枪，把这个枪伸过去，乓一下，把那鸟打死。这个在工程上呢，并不可笑，在工程上，很多的解决方案都是这样的。

所以呢，升腾384超节点呢，也用了一些软件和逻辑的方式，来去解决光模块不稳定性的问题。它会自动的去判断说，我这不是不是光模块断了呀，还是说哪块出故障了呀，我怎么绕一下。它在每一个NPU外边挂了6-8个光模块，这坏了以后，还有其他路径可以走，我可以做冗余备份吗？

我们用了16倍的英伟达NVL72的体积，和3倍的耗电，来解决NVL72加上H100芯片所能达到的算力需求。这个就是我们现在干的活。三倍耗电这事很好理解吗？人家是5纳米或者是3纳米，咱们这个是7纳米，肯定是耗电发热要比别人厉害。人家是72个芯片，咱们是384个芯片，你比别人耗3倍的电，这个还算是好理解的一个地方。

它的功率呢，是559千瓦，开起来以后还是非常非常耗电的。559千瓦呢，还只是机器的耗电，还没算散热呢。散热加上以后的话，可能会到600-700千瓦之间的一个耗电。为什么这么说呢？升腾上一代做的类似这种东西，大概是10%的耗电量来去散热，比如这边用100瓦的电量去做了算力了，那边用10瓦的电量去做散热，他是这样来去做的。但是呢，这个384超节点，因为里边用了太多的光模块，好像是用了6000多个光模块，那么你的散热的耗电的话，肯定也是要上升很大一块的。散热不好的话，你的激光模块损耗的就会更快一些。它整个的系统完全是强制水冷，其实NVL72也是强制水冷，只是呢，它在一个柜子里，相对来说还比较好弄。升腾384超节点呢，因为在16个柜子里，整整一面墙，你要再给它配水冷呢，这个事费点劲吧，但是还是可以解决的。所以耗电比较厉害。

那么电费呢，中国还是相对来说比较便宜的。中国的工业用电呢，大概是6毛钱一度，其实美国也差不太多，我看了一下美国的平均工业用电，大概是8美分多一些吧，大概也是6毛多钱。美国有一个州电价比较便宜的，是路易斯安娜州，4毛多钱一度电。美国大概最贵的是加州，14美分，大概快一块钱一度电了。加州因为硅谷在那嘛，再加上机房也比较多，所以他那的电特别贵。中国的发电大省，比如说像云贵、内蒙、新疆这些省，如果是集中大规模的采购用电的话，应该可以做到2毛多一度电。按照咱们最便宜的电费，跟美国的平均电价去比较的话，我们的电费是他们的1/3。所以呢，我们耗英伟达NVL72三倍的电，这个也是可以接受的。所以我们依靠电价优势，勉强可以抹平成本。

升腾384超节点的生态如何呢？英伟达之所以可以打败天下无敌手，核心的原因，不是说别人造不出来这样的东西，而是呢，它有一个生态捆死了，大家离不开它。CUDA呀、NVLink呀，这些生态帮助老黄，整个的竞争过程中无往而不利。那你说我们现在做了一个升腾384超节点出来，如果大模型没法在上头跑，也没法在上面训练，这不是白干了吗？你就像英特尔搞不定这个事儿，AMD也搞不定这个事儿是一样的。虽然AMD说我造得出来，你也能将就使，但是你说我要进行大规模训练了，很少有人去选择AMD的设备。

现在呢，大规模使用的GPU其实就是两种。第一种呢，是英伟达的H100、GB200，GB300现在还没发布呢。另外一种呢，是谷歌的TPU。谷歌TPU就是说，反正我自己做自己用，我也不需要考虑兼容性问题，我就自己干了，我也不卖给别人，它的量也很大。另外呢，像亚马逊跟微软呢，都号称是自己要做GPU，特斯拉和XAI也号称自己要做GPU，但是都在号称的阶段，还没有动起来。山姆·奥特曼呢，也号称要跟孙正义一起拿ARM的IP，自己去做GPU，但是这件事呢，也停留在号称的基础上，也没有实际动作。所以现在真正广泛应用的大规模的GPU，就是英伟达和谷歌。这个里头最核心的原因就是生态。谷歌之所以能够大规模应用，就是我不管生态了，反正我自己使，你们不需要跟我兼容就完事了，否则根本没法跑。

咱们说回来，华为升腾384超节点，它的生态怎么样呢？第一个呢，是华为自己做了一个叫MindSpore这样的一个开源的推理和训练框架。你说我现在想用升腾384超节点，去训练我的新模型，你就使用它这个玩意就可以了。它呢，大概可以兼容70%-80%的CUDA指令，但是毕竟不能完全兼容嘛，你如果原来已经习惯了CUDA的编程的话，你可能到这边来去做训练，还是有问题的，你还是要去花时间去做迁移的。另外呢，PyTorch、TensorFlow、Hugging Face Transformer这些框架呢，升腾呢，也专门做了兼容性适配，就是我专门写一个模块，你只要带上我这个模块以后，你这个PyTorch，你的TensorFlow，你的Hugging Face Transformer，这些推理和训练框架，就都可以在升腾的384超节点上跑了。所以呢，如果大家说原来的这个系统，是在PyTorch上跑的，你也不需要再去做迁移了，直接在它这上就可以跑了，兼容性他们都给你测好了。所以呢，属于叫部分的兼容吧。

如果你真的是说我训练新的大模型，建议大家还是不要跟自己找不痛快，还是老老实实的去使用英伟达就完了。但是你说我拿回来做做推理，拿来去做一些后期的使用的话，升腾384基本上是够用的，没有什么太大问题，你只要别嫌它占地儿，别嫌它耗电，这个东西还可以使。

那你说为什么不能拿它做训练呢？刚才不是说它可以训练吗？而且训练的算力也不差。大家注意，训练呢，是一个非常长期的这种连续任务，你中间停了坏了以后的话，你是需要重新干的，你说让他接着往下干，这事很费劲。它里边有大量的光模块，而且这个玩意的故障率很高，寿命也不是很长。你如果跑着跑着出故障了，里头有一个光模块烧了，你的这个训练呢，未必会停下来，因为它通过了一些软件方式，让你去规避这个错误。你可能只是说我训练的过程中，哪一些数据取回的速度变慢了，但是呢，我还在接着往前慢慢跑。但是也有可能跑着跑着就直接出错，咔嚓就扔那了，这个可能性是很大的。

你像马斯克，他自己用的10万块H100，Meta这种几十万块的H100，他们去做这样训练的时候，还经常是说我跑着跑着突然就退出了，突然就崩了。那崩了怎么办？重来一遍呗。对于他们这些平台来说，你可能跑10次崩个两三次，但是你对于升腾384这样的超节点来说，你可能跑10次会给你崩个八九次，这个也许就突破忍受极限了，就没法忍了。他大概就是这样的一个情况，就是有些情况呢，咱们能用了，有些情况还是稍微费点劲的，跟它整个的硬件架构是有关系的，跟它的兼容性也有关。它毕竟没有100%兼容CUDA嘛，所以大家在CUDA上做训练的代码，拿到这边来再跑，还是会有很多问题的。

那你说华为升腾384超节点，最大的作用到底是什么呢？第一个呢，还是给国内算力中心了一种新的选择，否则你没得选，你只能是要么拿自己的卡或者服务器，这种完整可以拼在一起的算力节点，也算是一个工程上的突破吧。信创产业也算是填补了零的空白，因为现在很多是要求信创嘛，所有的必须是自主可控，自主的操作系统，自主的CPU，自主的GPU，所有都要自主的。我们现在迷信这玩意，原来呢，这些人没得选，现在等于是有的选了，也算是一个工程奇迹，就是99米长的枪。这个故事呢，大家别觉得可笑。

H20的库存呢，前面老黄在中国各种的表演之后，算是把他这个库存清了。川普呢，又要带着企业家来访华了，下次谈点什么，大家要想一想。上次黄仁勋是怎么去说服川普，说把H20解禁的呢？是告诉川普，华为的升腾910，已经基本上可以达到H20的水平了，你再不让我卖，我这就没意义了，人家也都做出来了。所以他把H20卖了。现在是华为升腾384超节点出来了，他说你看我这H100，加上NVL72的整个架构的性能，也被人超过了，咱就卖吧。至于GB200这个呢，咱们再看一看，现在它还没达到，不行咱们再把这个摁住了，或者说等我这个GB300出来了以后，咱们再把GB200的这套东西卖了。可能下一轮的解禁就要来了嘛。所以大概率川普老爷子还是比较好面子的，等他下一次带着企业家团队、一对CEO团队来访华的时候，H100的NVL72就可以卖了。

总结一下，升腾384超节点在工程实现上，确实有遥遥领先的地方，有一些敏感单位，可以选择全国产设备了，这个原来搞不定，现在可以搞定了。有很多瑕疵和不稳定的地方，用的越多，迭代越快，改进的呢也就越好，永远都是这样的。第一次拿出来都是磕磕绊绊的，第二版第三版第四版，慢慢就改好了。这个对于突破海外封锁，让美国进一步放宽管制来说呢，是有巨大作用的。如果是商业公司，哪怕你去选择H20，也比选择升腾384要划算。如果你不着急的话，可以稍微等一等H100，我相信H100在今年可能很快就会解禁。如果后面美国进一步放宽管制的话，英伟达的股票大家可以再关注一下。董王呢，是一个好大喜功的狡诈商人，黄仁勋也是。变化应该就在不远的将来。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友，加入我们的付费频道。再见。