DeepSeek R2难产真相!金融时报爆料:华为昇腾芯片训练失败,揭秘国产AI算力的“卡脖子”困境。

DeepSeek R2难产真相!金融时报爆料:华为昇腾芯片训练失败,揭秘国产AI算力的“卡脖子”困境。已关闭评论

8月14号,英国金融时报发了一篇报道,说Deepseek R2模型之所以难产,是因为在使用华为升腾芯片训练的时候,持续遇到了技术问题,最后被迫改用了英伟达芯片。甚至透露华为曾经派出一支救火队,常驻在Deepseek,手把手帮忙调教升腾服务器,但仍然无法完成训练。无奈之下,Deepseek只能退回老路训练,重新切换回性能更加可靠的Nvidia的GPU,升腾芯片仅退居辅助,用于模型推理环节。

虽然没有华为和Deepseek官方的回应,也没有他们的辟谣,但是呢,据说是援引了三位知情人士的一些说法,也进行了很多交叉验证,所以这个事情呢,大概率是真的。

国运跟国运相碰撞的时候,升腾也号称是国运级产品,Deepseek肯定是国运级产品,为什么是升腾不灵呢?升腾芯片是可以替代的,也还有一堆竞争对手,所以出现问题以后,他的竞争对手会帮他去宣传。而Deepseek虽然在国内也有模型在追赶,但是地位是不一样的。升腾和国内的其他算力芯片,以及其他那些大模型,从来没有像Deepseek那样震动过世界。所以呢发生碰撞的时候,必须是升腾不行了,不可能是Deepseek不行了。

大家为什么会这么期待Deepseek R2呢?现在又有千问3,也有Kimi、Mini Max,还有豆包等,有一大堆的这些模型出来,怎么就只有Deepseek才行呢?其他人为啥都不行呢?其实现在呢,很多新的这些模型已经并不比Deepseek R1的性能差了,基本上是可以替代使用的。但是大家依然在期盼Deepseek R2,而且你只要讲Deepseek要出R2了,就会有流量。这个原因其实很简单,因为我们在跟国外的大模型竞争中打不过了。

国外已经进入了10万级芯片的训练时代了。Llama4,40万块H100训练出来的。虽然Llama4翻车了,但那也是10万块。而马斯克XAI的Grok 4,20万块H100训练出来的,效果相当不错。GPT5的话,现在推测也是20万块H100训练出来的。Anthropic的Claude 4,据说呢是40万块H100,但是呢它这个数并不是那么准确,40万块H100呢是一个部署的数量,并不是精确的训练的数量。另外一个没说的是Gemini 2.5。Gemini的2.5是没有公开数据,因为他们家使的TPU,其他人都是使的GPU,所以呢没有办法去比较,但应该也是几十万块H100的一个算力,才有可能训练出Gemini 2.5来。

以前是一个国外大模型特别强,特别是GPT4压着所有的模型的时候,我们终于期盼到了Deepseek R1一出来,觉得我们好像又可以了。但是现在我们发现,国内的大模型跟国外这些明显有差距了。我们只能再去期盼Deepseek,因为其他这些肯定是追不上的。那没有20万块H100,这个日子就没法过了。国内的算力芯片呢,大家也都知道不是那么靠谱。这个时候大家期待的就是奇迹了。

Deepseek V3、Deepseek R1,他们呢号称使用了2,048块H800,还不是H100。他们这个算力转换,可能也就是1,000多块H100。拿这样的算力就直接训练出来了,大家觉得你们可以用很少的卡训练出来,还可以震惊世界。现在我们还搞不定20万块的H100,是不是依然可以期待Deepseek再创造一次奇迹呢?

Meta花了好多钱收入进去的亚历山大王曾经在接受采访的时候说,Deepseek手里头有5万块H100,压根就不是他讲的几千块就给这事搞定的事。而且呢,新加坡3月份还抓了一些向大陆走私英伟达芯片的人,有传闻说这些芯片的采购方里边包括Deepseek。

Deepseek呢也正式做出过回应,2025年2月份做了回应。Deepseek强调,仅使用了2023年合法采购的H800芯片,其他我都没用。但是讲完了这个以后,甭管你原来这个东西到底有还是没有,你讲这个话以后肯定就不能再用了吧?所以呢现在大家期待说,这个反正你们原来是这么讲的,我们就这么信了。那以后呢创造奇迹也只能是等着你了。哪怕是使用H20芯片,用很少的芯片训练出来,堪比20万块H100芯片训练结果的这种奇迹,也不是完全不可能吧?这个怎么说呢,人有多大胆,地有多大产吧。我们总还是要有一些希望吧。

新的模型没有出来,但是新的论文呢,Deepseek其实一直不断在产生。在V3跟R1之前,Deepseek也没做什么铺垫,这不也就突然蹦出来了吗?他是这样去期待这个Deepseek的。

原来讲是8月15号到30号之间要发新版本,最后Deepseek自己出来辟谣说:“对不起,我们发不出来。”英国金融时报出来说,被这个升腾给拖累了。那这消息是怎么传出来的呢?Deepseek原来是有没有说过自己要去发Deepseek R2这件事呢?

首先呢,是Deepseek R1震动了世界,应该是在2025年春节前后的时候,我印象里特别深刻。Deepseek R1出来以后,我还连续做了很多天的直播来跟大家讲这个事情。国际大厂呢,在Deepseek R1的这种搅动之下,纷纷转向。转向什么呢?主攻数学、科学与编程,然后呢是长上下文、工具调用和agent,以及指令依从、降低幻觉。

数学跟科学这块呢实在太难了,这个咱们不擅长,而且那个你真的是需要可能10万块、20万块卡,你才可以把这事搞定,咱们没有。那编程呢基本可用,国内的这些模型做编程,肯定没有Anthropic的Claude 4好用,但是呢也基本上可以跑。长上下文、工具调用和agent这块呢,包括指令依从这一块呢必须要有,这一块其实国内的大模型基本上已经追上了。剩下的呢降低幻觉这事咱们就不谈了,反正有幻觉还是可以甩锅的事情。全面开源,这个是国内大模型真正卷的地方。千问直接把200多b的模型直接就开源出去了,Deepseek 600多b的模型直接开源出去了。这件事情我们在努力的往前走,所以各有所长吧。基础设施这块、数学科学这部分实在是费劲,大家就期待Deepseek来再创辉煌了,其他人就不管了。

Deepseek发R2这件事呢,其实传了两回。一回呢5月份,风起云涌。每一次说Deepseek要出R2的时候呢,都是风起云涌的时候,大家都在上新模型,说呀Deepseek你也得上,所以就会开始给他传这个事儿。

今年5月份,发生了一些什么样的事情呢?首先呢Claude 4、Opensource和sonnet这些模型直接出来了,王炸。5月份开谷歌IO,Gemini 2.5 Pro和Gemini 2.5 Flash直接发布,这个其实现在已经是我的主力模型了。GPT呢当时倒是没有什么特别大的动作,上了一个Deepseek 4.5,但是呢也没有引起特别多的响动。大家就说Deepseek你们也该来了。但其实呢Deepseek没有去出R2,而是把Deepseek R1的模型稍微的小步更新了一点点。

6月26日,the information就做了一个报道,说Deepseek R2原来计划是5月份发布的,但是呢因为梁文峰对于Deepseek R2表现的性能不是很满意,决定推迟了。路透社呢也引用了the information的这个报道,国内的媒体呢也纷纷去引用。但是这件事呢,并没有得到Deepseek官方的回应。Deepseek这个公司就是这样,他基本上不怎么回应大家的这个响动。你们猜吧,猜完了以后我也不理你,除非是有一些太过分的,否则他一般不说什么。

Deepseek呢也不是说没更新,就是做小版本更新。像Deepseek V3出了0324版,也就是2025年3月24号出了一个版,把分数又往上刷了刷。因为每一次去更新这些模型,一定要刷分数上去。代码能力,特别是前端代码能力呢,有所提升。拿这玩意写个网页没什么问题,但你说我要做一些大的架构,或者做一些这种后端的东西,可能就要稍微费劲一点。做算法的东西要费劲一点。为什么?因为它Deepseek有一个问题,就是它的上下文比较短,想去做一些大的架构上的东西,你必须上下文长,你得能把整个代码塞进去才行,这块还是要费点劲的。然后他把中文写作能力做了一些提升,Deepseek其实一直在努力的方向,就是中文推理。因为在海外的这些模型,很多都是使用英文推理,然后再翻译成中文的。他说我们直接用中文推理这个事,是不是OK?他们一直在努力干这件事情。使用体验上呢也有所提升,特别是function call更加准确了。在做AI agent的时候,其实核心就是function call的能力,就是我们先描述一堆的功能,然后交给大模型,大模型在完成整个的语言生成的过程中呢,去根据你描述进来的这些function,去决定我要调哪个、不调哪个,或者如何去调用、什么时候调用。Deepseek V3 0324呢,就在这一块做了一些增强。

Deepseek的R1呢,其实也更新了一个版本,就是0528。大家在传说Deepseek要出R2,讲的其实就是0528的这个版本。而这个版本呢,其把这个分又往前刷了刷,减少生成的一些错误信息。因为Deepseek最大的让大家无法忍受的东西是什么呢?就是胡编乱造,他太喜欢瞎编了。所以在这一块呢,稍微做了一些调整,但是依然胡编乱造的很厉害。Deepseek 210528呢,还支持了Json输出和function coding,提升了调用的准确度,但是呢不能叫R2。这就是5月28号的这个版本。

紧跟着就开始传说了,说8月15号到8月30号,要准备发布Deepseek R2了。这个消息是怎么来的呢?首先肯定还是要风起云涌一下。8月份发生了些什么事情呢?马斯克XAI的GROK4发布了,Anthropic又发布了Claude 4.1 Opensource,OpenAI发布了GPT5。GPT5这东西到底好不好使,大家各自去领会。大家可以认为说,GPT5是一个划时代的产品,但是也可以认为说,GPT5就是山姆奥特曼为了要去忽悠融资去搞的一个事情。因为GPT5出来以后,OpenAI的估值已经正式从3,000亿美金提升到5,000亿美金了,而且是孙正义要去买这个单,说您这5,000亿美金我认了,我去买去。

所以呢8月份风起云涌了。那么空穴来风呢,你这事怪不得别人。在Reddit上有人发了个帖子,这个帖子特别有意思,他说他去问了Deepseek R1:“Deepseek R2什么时候发布?”他等于是把这个东西交给Deepseek R1了。但是大家注意,Deepseek R1这个大模型呢,它并不代表Deepseek这公司的一些官方的观点,只是说这个模型给你生成了这样的一个结果。Deepseek R1回答了:“8月15号到8月30号之间发布。”而且号称呢是引用了雪球和东方财富等可信的信源,而且进行了多个渠道的证实。

Deepseek R1的幻觉其实一直都是很严重的,虽然经过0528的调整以后,但依然很吓人。而且Deepseek R1的最大幻觉是什么?就是编造可信的信源。说我从哪哪引用了,你点进去以后,压根就没有这篇文章。但是甭管怎么说,这个文章就在Reddit上就贴出来了,随后呢这个消息就逐渐的被传播和放大了。国内的很多的媒体、自媒体就开始引用这篇消息,特别呢是华为下边的一些科技媒体进行了转载。而且呢在标题里边还夹带了私货,讲的是什么呢?讲的是深度求索,就是Deepseek这个公司,“升腾芯片版本Deepseek R2预计在本月发布”。它讲的就是说,它是使用升腾芯片来去做训练的。

华为都说了,两大国运级产品强强联合了,那信吧,这事怎么办呢?国内一帮的媒体就冲上去说:“我们信了,确实是有这事了。”到8月14号,英国的金融时报出来报道,说升腾芯片拖累了Deepseek 2。然后动点科技、腾讯科技就出来辟谣,原引自公司内部人士,也就是Deepseek这公司里边的人说了,说8月份不会发布Deepseek R2。所以呢,8月15号到30号之间发布Deepseek R2的一个消息,实际上是Deepseek R1自己编出来的,其他人把这个编的信息信了,直接截了个图发到这个Reddit上,以此来发酵出来的一个过程。

那么Deepseek R2到底遇到了一些什么样的问题呢?首先升腾芯片确实是有问题的。升腾910C的这个芯片,虽然单芯片的算力在部分指标上呢,已经达到了H100的水平,但是呢显存的带宽不够,想从显存里调数据回来,速度是没有H100快的。而且最大的问题是什么?就是多个芯片之间的速度,就是我需要把数据在多个芯片之间进行流通的时候,这个速度是相对来说比较差的,而且差的很远。你要想去做同样的训练的话,你就需要更多的时间全功率的去运转。因为你想,人家都已经达到20万块H100这样的集群的规模再去训练新的模型了,你没准就是需要这个50万块或者60万块升腾910C串在一起,才能达到人家那个算力,而且你需要很长的时间去连续的运作,这个对于升腾910C的这种考验来说就比较大了。

这样的芯片,其实是没有办法长时间稳定地去运行的。并不是说训练一个模型,这头输入进去数据,过三个月去开盖看结果。中间每过一段时间,可以取得阶段性成果,再继续往下训练。但是中间这个过程呢,你是不能停的。你中间比如说准备了一批数据,你去训练了,如果这批数据没有训练完,升腾910C就直接冒烟了,就不干活了,这一波呢就白干了,你必须要从这个节点接着往后干。这个玩意有点像什么?有点像打怪升级,你一定要打死这个妖怪才能存盘,你没打死这个妖怪就不让你存盘。升腾910C在这块差一点。

那为什么差呢?升腾910C呢,是两个910B堆叠在一起的,散热肯定会出问题。就算是上了液冷以后,依然是搞不定这个事情。

其实同样的坑,英伟达也踩过。大家还记得H100独挑大梁好久了吗?很多人应该还是有印象的。甚至呢到现在为止,H100已经成为一种计量单位了。现在我们再去算说:“你这个算力相当于多少英伟达芯片呀?”我们都是以H100的这个算力作为一个计量单位的。就是因为H100挺长时间在那孤独一只。为什么它会孤独一只呢?本来计划替代H100的这个产品叫B100,叫Blackwell黑井100,这个芯片直接就跳票了。研究完了以后开了发布会,开完了以后,这个芯片压根就没有大规模的部署,也没有交付。为什么呢?就是他做的就是这种堆叠技术,导致散热失败。散热失败了以后会直接把版卡烧掉,这压根就没有办法去交付。到H200出来了以后说:“那这咱交付这个呗。”但是一开始依然是受困于散热问题,导致了大规模交付的延迟,一直到今年才开始去交付H200。

后面的工艺呢不断的进步,再加上全面液冷。H100这些机器是可以进行风冷的,你拿风扇吹它是OK的。但是到H200这个机器开始交付的时候,你必须是液冷。而且这种液冷呢,还不是种普通的液冷,叫完全浸泡式液冷。见过这种游戏主机装机视频的这些人,会知道他们那个液冷是怎么做的。他在芯片外面给你涂散热的胶,然后呢把这个液冷管贴上去,靠这个液体呢快速的把你热量带走到外边,再去找风扇把这个水给你吹凉了,再重新循环,它是这样来工作的。但是这种工作方式对于H200来说还是不行的,它必须是全浸泡式的,就是把整个的H200的芯片,或者包括它整个的板卡,一起泡在这个液体里头。这就肯定不是水了嘛,是一些不导电的水,整个泡在里头,才能够达到散热的这个能力。

当然了,甭管是英伟达也好,还是升腾也好,散热都是有问题的,导致什么呢?就是液冷概念股都涨疯了。你只要说我这公司是做液冷的,就赶快涨。而且现在都是浸没式液冷,就把整个板卡都泡里头。A股上强瑞科技、英维克、深林环境、飞龙股份,大概有十来家公司,都是专门做液冷的。飞龙股份是专门给升腾这个384超节点做液冷的。美股那边的话,有一个叫VERTIV的一个公司,它的代码是VRT,是专门给英伟达做液冷的公司,这个公司的股票也是涨的可好了。

讲回来,910C这个芯片连续的做长时间训练的话,液冷也压不住,直接把板卡烧掉。即使是有大量的华为的工程师坐在Deepseek公司里头,出来我帮你调,他也调不过去。实际上这些华为工程师能调什么呢?他们只能调一件事,就是CUDA里头没有实现的部分,我来帮你去实现一下。华为的这个升腾910C,他们使用的训练相关的代码的话,是华为自己开源的一套训练框架。这套框架据说是可以实现CUDA 70%的功能,但是还有30%你是实现不了的。那这一部分由华为的工程师到现场来搞定。再怎么搞,该冒烟、该着火、机器直接停摆,这个事它是解决不了这问题的。

另外一个传闻,DEEPSEEK R2出不来的原因是什么呢?是数据标注的质量跟速度不过关。这个呢也没有得到官方的证实,也是坊间在流传。因为在中国嘛,很多的数据肯定还是需要去审核一下的,这个审核的过程是相对来说比较麻烦的。

而且Deepseek呢,其实一直也是一个比较低调的公司。提前预热,不停的出来吹牛,这件事呢是容易翻车的。山姆奥特曼每次出来讲GPT5,说:“我太震惊了,我从来没见过这么棒的。”等GPT5发布的时候,大家说:“这就能让你震惊了?您到底是眼皮子有多浅?”马斯克在发布GROK4之前,也在说:“这是我所见过的最聪明的大模型。”也有人认为老马吹的有点过头了。

其他的公司都必须不断的发模型,跟着一起卷,不断的来吹牛,这个事是有原因的。为什么?因为这些公司是需要融资的。马斯克发GROK4发完了以后,马上就给XAI去融资。山姆奥特曼GPT5发完了马上融资,这公司直接值到5,000亿美金了,他现在已经是没有上市公司里头最贵的一家了。第二家应该是SpaceX,再往后是3,000多亿的字节跳动。但是大家注意,字节跳动的收入现在好像已经超过Meta了,这个是非常吓人的一个事情。所以这些人他有融资的需求,你就必须得不断的出来炒这个热点。不炒的话,你说我现在想提高估值,融资这事费劲了。而且现在Anthropic也在融资,而且是要按照1,500亿美金的估值要去融资,我估计他们后边的日子不是那么好过,现在他们的CEO应该已经奔中东,找中东土豪去给钱去了。

谷歌呢虽然不需要融资,但它后边有股市、有股价、有市值这些东西,所以呢不能落后,所以谷歌也必须要不停的推陈出新。实在做不出来东西呢,确实哪块也做的不太行,怎么办呢?你还可以像扎克伯格那样,表演抢人大戏这种行为艺术。我发2亿美金的薪水,我把人抢回来。虽然你的Llama4像屎一样,Llama再往后怎么走谁也不知道,但是看到你表演行为艺术表演的这么热闹的话,Meta的股价涨的也还可以。所以大家必须不停地去表演。

但Deepseek自己,他没有这种融资的需求,所以呢也并不太需要出来表演,自己踏踏实实做自己的事就好了。至于说他到底做成什么样,咱们也只能在外边来看。

大家有没有想过这样的一个问题:到底是谁家的芯片能够训练大模型呢?训练跟推理是完全两个不同的概念。训练你是必须要长时间高强度的工作,而且在中间是不允许停的。而且在训练的过程中,我们需要在更多的芯片之间进行数据的调度,更更大规模的这种协同。国内的这些算力服务器都搞不定这件事情,他没有办法说让这么多的芯片相互之间进行协调的情况下,这么长时间稳定的工作下去。推理的话相对来说要简单一些,可能只要几个芯片读出很少的数据来,他就可以把这事干完。比如说我们去提了一个问题,他给我们过了几秒钟做了一个反馈,反馈完了以后呢,他就可以再给我们分配其他芯片了。在这个过程中,芯片出现任何的问题,过热了或者说你对资源进行切换了,它是不影响的。所以呢推理咱们国内的这套系统是可以的,但是训练搞不定。

那么到底谁家的芯片可以做训练?英伟达这个必然是可以的。除了英伟达之外,还有哪些芯片可以进行大规模的这种模型训练呢?你说我这个芯片训练了一个10B的、20B的模型,这不算。或者说你说我这个虽然能够训练,但是我训练的模型从来没有人用过,这个也不算。现在唯一证实了可以进行大规模训练的,而且是训练这种大模型的,还被大家普遍接受和使用的,猜猜是谁?

很多人可能会猜是不是AMD?AMD MI300,或者现在应该是MI三百零几了吧,这样的一个芯片。不是他们。现在唯一的一个能干这个活的人,是谷歌的TPU。Gemini大模型是在上面训练出来的,Anthropic的Claude模型有部分声称是在TPU上训练的。除了英伟达之外就是他们了,再没有第二家了。

那老牌厂商像AMD、英特尔,号称我这个芯片是可以进行大规模的模型训练的,也给出了一些用他们的芯片训练大模型的实例,甚至呢还训练了一些不太流行的小模型拿出来去开源,但是他们训练出来的模型也没人用。AMD跟英特尔呢,一般大概也就是10B或者20B以内的这些小模型。另外一个呢就是富士通,富士通用一款ARM的CPU呢,也训练过一点可能也是10B以内的这种小模型吧,也没有听说过谁去用他们。

其他的一些ASIC芯片呢,也是号称自己能做。所谓ASIC芯片呢叫专用集成电路,像升腾、谷歌TPU呢都属于ASIC。亚马逊、阿里、百度呢,也都号称可以进行训练,但是呢没有实例。亚马逊号称是我拿自己的ASIC芯片呢,做了一些训练,也有几个模型,但是呢谁都没用过。OpenAI的模型,有些据说是在亚马逊上进行训练,但这个事呢,也没有得到最终的证实。百度呢是号称自己设计的ASIC芯片可以去进行训练,但是反正百度自己家的模型烂的跟屎一样,我们就不去评论了。

至于华为的升腾芯片呢,科大讯飞号称是在上面训练的。但是呢也有朋友跟我讲说,科大讯飞其实是在英伟达上训练出来的,只是呢对外宣称是在升腾上训练的,这个我们就不去做考证了。只是科大讯飞的模型,其实也没有那么普遍,除了一些教育领域里头有些人会去用,其他的让你自由选择的时候,很少有人会去选择用科大讯飞的模型。华为呢自己号称是在升腾模型上训练了盘古大模型,但是呢前面被内部的人指责蒸馏、指责抄袭,之后就不再有任何声音了。所以现在华为已经不再提他的盘古大模型这事了,估计是准备装一段时间的死狗以后,再次遥遥领先。所以华为的升腾模型,其实没有证实过训练成功过任何的大模型。Deepseek R2呢,应该是真的尝试过,但是败下阵来。

华为跟Deepseek官方呢,都没有出来证实,就既没有出来说我用了,也没有出来说我没用。所以呢升腾芯片,没有成功的训练出过任何一款大家普遍使用的模型。

那么国内的算力芯片是怎么样去竞争的呢?英伟达大概占54%,就一半多。升腾呢占28%,其实已经占的非常非常多了。像寒武纪等等其他的一些芯片公司的,所有的加在一起,可能还加上AMD的吧,一共占18%。这个大就是国内整个的算力芯片的一个分布情况。

国产的芯片呢,目前来看都是可以去做推理了,但是呢没有哪一个真的跑出来模型过。所以国内的算力芯片,基本上是没有办法做训练的。

现在呢还有一群的“赢学家”在鼓吹英伟达芯片里头有追踪器。但是这些“赢学家”呢,现在有点吹不下去了。他说呀:“这个英伟达的芯片里头,是不是在集装箱里装追踪器了?”还有人说:“是不是在包装箱里装追踪器了?”或者是说:“在服务器里边装追踪器了?”因为他们也知道,在这个芯片里头是装不上的。还有人说:“H20这里头肯定没有追踪器,但是呢H100、B200这个里头有追踪器。”这个呢都想多了。因为中国人是经历过挖矿的,我们是完完全全可以把芯片整个扒下来,重新拿新的版卡去焊。而且大量的,其实做英伟达版卡的公司就在国内,所以我们完全可以拿他的版卡,自己回来去加工这个事情。装追踪器这个事是没用的。

中国官方对于H20的态度呢,也很暧昧。有人就到外交部的新闻发布会上就问:“说你们是不是要准备禁售H20?”外交部的新闻发言人回答是:“没听说过这件事情。”中国的这些官员回答,一般都不会说是或者不是,通常回答是:“请你看以前的表态”,或者“请你看有关部门的表态”,或者说“我不知道”、“没有听说过”。所以他这一次的回答叫“没听说过”。

中国政府呢,也没有明令禁止说我们去销售H20或者谁去买这东西。但是呢潜规则就是这样去运营的。多家媒体,比如说Bloomberg、Marketwatch就做了些报道,说中国的监管部门针对H20芯片表达了强烈的不信任和谨慎态度,尤其是强调相关芯片可能存在后门的风险和数据隐患,建议企业回避在政府或敏感用途使用H20。所以呢这些H20可能最后去做训练就完了,推理的这块就通通交给国内的升腾384超节点就OK了。

还有报道说字节跳动、腾讯、百度等企业被召集,这些人是准备去买H20的。国内的有关部门把你们都召集一块说:“你们为什么要买这东西?买多少?”给他们开这样的会。监管侧重国家安全与网络安全审查,并未提出商业禁令,就是我们还是让你买,但是你买之前呢,我们得把你拎来稍微恶心恶心。所以现在都约谈过了。

总结一下吧。Deepseek R2呢确实是难产了,肯定的没有出来。国内的算力芯片目前呢,也无法进行大规模的模型训练,可以进行推理这个事没问题了,但是训练搞不定。20万块H100量级以上的大模型训练,国内很难突破。如果20万块串在一块可以训练大模型的话,我们可能至少需要40万块或者50万块,比如像升腾910C这样的芯片凑在一起,而且我们所需要消耗的电和时间,可能都是要呈几何级数上升的。因为我们卡之间的联通的速度是相对来说比较慢的。所以比如说H100,它也不是说一直就不坏,它可能工作个20个小时或者是40个小时都会坏一次,会出现问题,对于老外来说就可以去接受了。对于我们来说呢,我们可能要求要连续坚持500个小时不出问题,才能够回收回来数据了,因为算的慢嘛,真的达不到。大概就是这样的一个情况。

国内算力卡的这些供应商呢,很有可能会阻碍中国大模型的进展和训练。为什么呢?自己做不好,你又不让别人买H20,可能中国的大模型再往下一步走,就会变得非常非常困难了。

未来国内算力卡是不是可以训练大模型呢?反正一两年之内呢稍微有一些困难吧。国内的大模型到底能不能用呢?基本还是能跑的。高深的数学、科研研究、物理学或者这些基础学科,我们不去研究了。就是让你去做一些信息整理,现在国内大模型基本上都是可以用的。

还是稍微耐心地等待一下Deepseek的慢慢发展吧,它反正中间只要不需要融资,它也不需要出来吆喝,万一有惊喜呢?这个也不好说。这就是我们今天要讲的故事。

Comments are closed.