DeepSeek R2难产真相!金融时报爆料:华为昇腾芯片训练失败,揭秘国产AI算力的“卡脖子”困境。
8 月 18
AIGC, 华为很厉害, 英伟达,NVIDIA,黄教主,GPU AI Agent, AI芯片, AI训练, AMD, Anthropic, B100, Claude 4, CUDA, DeepSeek, Deepseek R2, Function Call, Gemini, Google, GPT-5, Grok 4, H100, H20, H800, Kimi, Llama 4, Meta, NVIDIA, OpenAI, TPU, XAI, 中美科技战, 人工智能, 传闻, 千问, 升腾910C, 华为, 华为升腾, 国产替代, 国产芯片, 大模型, 大模型训练, 字节跳动, 开源, 技术瓶颈, 推理, 散热问题, 浸没式液冷, 液冷, 深度求索, 百度, 算力, 腾讯, 芯片战争, 英伟达, 辟谣, 金融时报报道, 难产 DeepSeek R2难产真相!金融时报爆料:华为昇腾芯片训练失败,揭秘国产AI算力的“卡脖子”困境。已关闭评论
8月14号,英国金融时报发了一篇报道,说Deepseek R2模型之所以难产,是因为在使用华为升腾芯片训练的时候,持续遇到了技术问题,最后被迫改用了英伟达芯片。甚至透露华为曾经派出一支救火队,常驻在Deepseek,手把手帮忙调教升腾服务器,但仍然无法完成训练。无奈之下,Deepseek只能退回老路训练,重新切换回性能更加可靠的Nvidia的GPU,升腾芯片仅退居辅助,用于模型推理环节。
虽然没有华为和Deepseek官方的回应,也没有他们的辟谣,但是呢,据说是援引了三位知情人士的一些说法,也进行了很多交叉验证,所以这个事情呢,大概率是真的。
国运跟国运相碰撞的时候,升腾也号称是国运级产品,Deepseek肯定是国运级产品,为什么是升腾不灵呢?升腾芯片是可以替代的,也还有一堆竞争对手,所以出现问题以后,他的竞争对手会帮他去宣传。而Deepseek虽然在国内也有模型在追赶,但是地位是不一样的。升腾和国内的其他算力芯片,以及其他那些大模型,从来没有像Deepseek那样震动过世界。所以呢发生碰撞的时候,必须是升腾不行了,不可能是Deepseek不行了。
大家为什么会这么期待Deepseek R2呢?现在又有千问3,也有Kimi、Mini Max,还有豆包等,有一大堆的这些模型出来,怎么就只有Deepseek才行呢?其他人为啥都不行呢?其实现在呢,很多新的这些模型已经并不比Deepseek R1的性能差了,基本上是可以替代使用的。但是大家依然在期盼Deepseek R2,而且你只要讲Deepseek要出R2了,就会有流量。这个原因其实很简单,因为我们在跟国外的大模型竞争中打不过了。
国外已经进入了10万级芯片的训练时代了。Llama4,40万块H100训练出来的。虽然Llama4翻车了,但那也是10万块。而马斯克XAI的Grok 4,20万块H100训练出来的,效果相当不错。GPT5的话,现在推测也是20万块H100训练出来的。Anthropic的Claude 4,据说呢是40万块H100,但是呢它这个数并不是那么准确,40万块H100呢是一个部署的数量,并不是精确的训练的数量。另外一个没说的是Gemini 2.5。Gemini的2.5是没有公开数据,因为他们家使的TPU,其他人都是使的GPU,所以呢没有办法去比较,但应该也是几十万块H100的一个算力,才有可能训练出Gemini 2.5来。
以前是一个国外大模型特别强,特别是GPT4压着所有的模型的时候,我们终于期盼到了Deepseek R1一出来,觉得我们好像又可以了。但是现在我们发现,国内的大模型跟国外这些明显有差距了。我们只能再去期盼Deepseek,因为其他这些肯定是追不上的。那没有20万块H100,这个日子就没法过了。国内的算力芯片呢,大家也都知道不是那么靠谱。这个时候大家期待的就是奇迹了。
Deepseek V3、Deepseek R1,他们呢号称使用了2,048块H800,还不是H100。他们这个算力转换,可能也就是1,000多块H100。拿这样的算力就直接训练出来了,大家觉得你们可以用很少的卡训练出来,还可以震惊世界。现在我们还搞不定20万块的H100,是不是依然可以期待Deepseek再创造一次奇迹呢?
Meta花了好多钱收入进去的亚历山大王曾经在接受采访的时候说,Deepseek手里头有5万块H100,压根就不是他讲的几千块就给这事搞定的事。而且呢,新加坡3月份还抓了一些向大陆走私英伟达芯片的人,有传闻说这些芯片的采购方里边包括Deepseek。
Deepseek呢也正式做出过回应,2025年2月份做了回应。Deepseek强调,仅使用了2023年合法采购的H800芯片,其他我都没用。但是讲完了这个以后,甭管你原来这个东西到底有还是没有,你讲这个话以后肯定就不能再用了吧?所以呢现在大家期待说,这个反正你们原来是这么讲的,我们就这么信了。那以后呢创造奇迹也只能是等着你了。哪怕是使用H20芯片,用很少的芯片训练出来,堪比20万块H100芯片训练结果的这种奇迹,也不是完全不可能吧?这个怎么说呢,人有多大胆,地有多大产吧。我们总还是要有一些希望吧。
新的模型没有出来,但是新的论文呢,Deepseek其实一直不断在产生。在V3跟R1之前,Deepseek也没做什么铺垫,这不也就突然蹦出来了吗?他是这样去期待这个Deepseek的。
原来讲是8月15号到30号之间要发新版本,最后Deepseek自己出来辟谣说:“对不起,我们发不出来。”英国金融时报出来说,被这个升腾给拖累了。那这消息是怎么传出来的呢?Deepseek原来是有没有说过自己要去发Deepseek R2这件事呢?
首先呢,是Deepseek R1震动了世界,应该是在2025年春节前后的时候,我印象里特别深刻。Deepseek R1出来以后,我还连续做了很多天的直播来跟大家讲这个事情。国际大厂呢,在Deepseek R1的这种搅动之下,纷纷转向。转向什么呢?主攻数学、科学与编程,然后呢是长上下文、工具调用和agent,以及指令依从、降低幻觉。
数学跟科学这块呢实在太难了,这个咱们不擅长,而且那个你真的是需要可能10万块、20万块卡,你才可以把这事搞定,咱们没有。那编程呢基本可用,国内的这些模型做编程,肯定没有Anthropic的Claude 4好用,但是呢也基本上可以跑。长上下文、工具调用和agent这块呢,包括指令依从这一块呢必须要有,这一块其实国内的大模型基本上已经追上了。剩下的呢降低幻觉这事咱们就不谈了,反正有幻觉还是可以甩锅的事情。全面开源,这个是国内大模型真正卷的地方。千问直接把200多b的模型直接就开源出去了,Deepseek 600多b的模型直接开源出去了。这件事情我们在努力的往前走,所以各有所长吧。基础设施这块、数学科学这部分实在是费劲,大家就期待Deepseek来再创辉煌了,其他人就不管了。
Deepseek发R2这件事呢,其实传了两回。一回呢5月份,风起云涌。每一次说Deepseek要出R2的时候呢,都是风起云涌的时候,大家都在上新模型,说呀Deepseek你也得上,所以就会开始给他传这个事儿。
今年5月份,发生了一些什么样的事情呢?首先呢Claude 4、Opensource和sonnet这些模型直接出来了,王炸。5月份开谷歌IO,Gemini 2.5 Pro和Gemini 2.5 Flash直接发布,这个其实现在已经是我的主力模型了。GPT呢当时倒是没有什么特别大的动作,上了一个Deepseek 4.5,但是呢也没有引起特别多的响动。大家就说Deepseek你们也该来了。但其实呢Deepseek没有去出R2,而是把Deepseek R1的模型稍微的小步更新了一点点。
6月26日,the information就做了一个报道,说Deepseek R2原来计划是5月份发布的,但是呢因为梁文峰对于Deepseek R2表现的性能不是很满意,决定推迟了。路透社呢也引用了the information的这个报道,国内的媒体呢也纷纷去引用。但是这件事呢,并没有得到Deepseek官方的回应。Deepseek这个公司就是这样,他基本上不怎么回应大家的这个响动。你们猜吧,猜完了以后我也不理你,除非是有一些太过分的,否则他一般不说什么。
Deepseek呢也不是说没更新,就是做小版本更新。像Deepseek V3出了0324版,也就是2025年3月24号出了一个版,把分数又往上刷了刷。因为每一次去更新这些模型,一定要刷分数上去。代码能力,特别是前端代码能力呢,有所提升。拿这玩意写个网页没什么问题,但你说我要做一些大的架构,或者做一些这种后端的东西,可能就要稍微费劲一点。做算法的东西要费劲一点。为什么?因为它Deepseek有一个问题,就是它的上下文比较短,想去做一些大的架构上的东西,你必须上下文长,你得能把整个代码塞进去才行,这块还是要费点劲的。然后他把中文写作能力做了一些提升,Deepseek其实一直在努力的方向,就是中文推理。因为在海外的这些模型,很多都是使用英文推理,然后再翻译成中文的。他说我们直接用中文推理这个事,是不是OK?他们一直在努力干这件事情。使用体验上呢也有所提升,特别是function call更加准确了。在做AI agent的时候,其实核心就是function call的能力,就是我们先描述一堆的功能,然后交给大模型,大模型在完成整个的语言生成的过程中呢,去根据你描述进来的这些function,去决定我要调哪个、不调哪个,或者如何去调用、什么时候调用。Deepseek V3 0324呢,就在这一块做了一些增强。
Deepseek的R1呢,其实也更新了一个版本,就是0528。大家在传说Deepseek要出R2,讲的其实就是0528的这个版本。而这个版本呢,其把这个分又往前刷了刷,减少生成的一些错误信息。因为Deepseek最大的让大家无法忍受的东西是什么呢?就是胡编乱造,他太喜欢瞎编了。所以在这一块呢,稍微做了一些调整,但是依然胡编乱造的很厉害。Deepseek 210528呢,还支持了Json输出和function coding,提升了调用的准确度,但是呢不能叫R2。这就是5月28号的这个版本。
紧跟着就开始传说了,说8月15号到8月30号,要准备发布Deepseek R2了。这个消息是怎么来的呢?首先肯定还是要风起云涌一下。8月份发生了些什么事情呢?马斯克XAI的GROK4发布了,Anthropic又发布了Claude 4.1 Opensource,OpenAI发布了GPT5。GPT5这东西到底好不好使,大家各自去领会。大家可以认为说,GPT5是一个划时代的产品,但是也可以认为说,GPT5就是山姆奥特曼为了要去忽悠融资去搞的一个事情。因为GPT5出来以后,OpenAI的估值已经正式从3,000亿美金提升到5,000亿美金了,而且是孙正义要去买这个单,说您这5,000亿美金我认了,我去买去。
所以呢8月份风起云涌了。那么空穴来风呢,你这事怪不得别人。在Reddit上有人发了个帖子,这个帖子特别有意思,他说他去问了Deepseek R1:“Deepseek R2什么时候发布?”他等于是把这个东西交给Deepseek R1了。但是大家注意,Deepseek R1这个大模型呢,它并不代表Deepseek这公司的一些官方的观点,只是说这个模型给你生成了这样的一个结果。Deepseek R1回答了:“8月15号到8月30号之间发布。”而且号称呢是引用了雪球和东方财富等可信的信源,而且进行了多个渠道的证实。
Deepseek R1的幻觉其实一直都是很严重的,虽然经过0528的调整以后,但依然很吓人。而且Deepseek R1的最大幻觉是什么?就是编造可信的信源。说我从哪哪引用了,你点进去以后,压根就没有这篇文章。但是甭管怎么说,这个文章就在Reddit上就贴出来了,随后呢这个消息就逐渐的被传播和放大了。国内的很多的媒体、自媒体就开始引用这篇消息,特别呢是华为下边的一些科技媒体进行了转载。而且呢在标题里边还夹带了私货,讲的是什么呢?讲的是深度求索,就是Deepseek这个公司,“升腾芯片版本Deepseek R2预计在本月发布”。它讲的就是说,它是使用升腾芯片来去做训练的。
华为都说了,两大国运级产品强强联合了,那信吧,这事怎么办呢?国内一帮的媒体就冲上去说:“我们信了,确实是有这事了。”到8月14号,英国的金融时报出来报道,说升腾芯片拖累了Deepseek 2。然后动点科技、腾讯科技就出来辟谣,原引自公司内部人士,也就是Deepseek这公司里边的人说了,说8月份不会发布Deepseek R2。所以呢,8月15号到30号之间发布Deepseek R2的一个消息,实际上是Deepseek R1自己编出来的,其他人把这个编的信息信了,直接截了个图发到这个Reddit上,以此来发酵出来的一个过程。
那么Deepseek R2到底遇到了一些什么样的问题呢?首先升腾芯片确实是有问题的。升腾910C的这个芯片,虽然单芯片的算力在部分指标上呢,已经达到了H100的水平,但是呢显存的带宽不够,想从显存里调数据回来,速度是没有H100快的。而且最大的问题是什么?就是多个芯片之间的速度,就是我需要把数据在多个芯片之间进行流通的时候,这个速度是相对来说比较差的,而且差的很远。你要想去做同样的训练的话,你就需要更多的时间全功率的去运转。因为你想,人家都已经达到20万块H100这样的集群的规模再去训练新的模型了,你没准就是需要这个50万块或者60万块升腾910C串在一起,才能达到人家那个算力,而且你需要很长的时间去连续的运作,这个对于升腾910C的这种考验来说就比较大了。
这样的芯片,其实是没有办法长时间稳定地去运行的。并不是说训练一个模型,这头输入进去数据,过三个月去开盖看结果。中间每过一段时间,可以取得阶段性成果,再继续往下训练。但是中间这个过程呢,你是不能停的。你中间比如说准备了一批数据,你去训练了,如果这批数据没有训练完,升腾910C就直接冒烟了,就不干活了,这一波呢就白干了,你必须要从这个节点接着往后干。这个玩意有点像什么?有点像打怪升级,你一定要打死这个妖怪才能存盘,你没打死这个妖怪就不让你存盘。升腾910C在这块差一点。
那为什么差呢?升腾910C呢,是两个910B堆叠在一起的,散热肯定会出问题。就算是上了液冷以后,依然是搞不定这个事情。
其实同样的坑,英伟达也踩过。大家还记得H100独挑大梁好久了吗?很多人应该还是有印象的。甚至呢到现在为止,H100已经成为一种计量单位了。现在我们再去算说:“你这个算力相当于多少英伟达芯片呀?”我们都是以H100的这个算力作为一个计量单位的。就是因为H100挺长时间在那孤独一只。为什么它会孤独一只呢?本来计划替代H100的这个产品叫B100,叫Blackwell黑井100,这个芯片直接就跳票了。研究完了以后开了发布会,开完了以后,这个芯片压根就没有大规模的部署,也没有交付。为什么呢?就是他做的就是这种堆叠技术,导致散热失败。散热失败了以后会直接把版卡烧掉,这压根就没有办法去交付。到H200出来了以后说:“那这咱交付这个呗。”但是一开始依然是受困于散热问题,导致了大规模交付的延迟,一直到今年才开始去交付H200。
后面的工艺呢不断的进步,再加上全面液冷。H100这些机器是可以进行风冷的,你拿风扇吹它是OK的。但是到H200这个机器开始交付的时候,你必须是液冷。而且这种液冷呢,还不是种普通的液冷,叫完全浸泡式液冷。见过这种游戏主机装机视频的这些人,会知道他们那个液冷是怎么做的。他在芯片外面给你涂散热的胶,然后呢把这个液冷管贴上去,靠这个液体呢快速的把你热量带走到外边,再去找风扇把这个水给你吹凉了,再重新循环,它是这样来工作的。但是这种工作方式对于H200来说还是不行的,它必须是全浸泡式的,就是把整个的H200的芯片,或者包括它整个的板卡,一起泡在这个液体里头。这就肯定不是水了嘛,是一些不导电的水,整个泡在里头,才能够达到散热的这个能力。
当然了,甭管是英伟达也好,还是升腾也好,散热都是有问题的,导致什么呢?就是液冷概念股都涨疯了。你只要说我这公司是做液冷的,就赶快涨。而且现在都是浸没式液冷,就把整个板卡都泡里头。A股上强瑞科技、英维克、深林环境、飞龙股份,大概有十来家公司,都是专门做液冷的。飞龙股份是专门给升腾这个384超节点做液冷的。美股那边的话,有一个叫VERTIV的一个公司,它的代码是VRT,是专门给英伟达做液冷的公司,这个公司的股票也是涨的可好了。
讲回来,910C这个芯片连续的做长时间训练的话,液冷也压不住,直接把板卡烧掉。即使是有大量的华为的工程师坐在Deepseek公司里头,出来我帮你调,他也调不过去。实际上这些华为工程师能调什么呢?他们只能调一件事,就是CUDA里头没有实现的部分,我来帮你去实现一下。华为的这个升腾910C,他们使用的训练相关的代码的话,是华为自己开源的一套训练框架。这套框架据说是可以实现CUDA 70%的功能,但是还有30%你是实现不了的。那这一部分由华为的工程师到现场来搞定。再怎么搞,该冒烟、该着火、机器直接停摆,这个事它是解决不了这问题的。
另外一个传闻,DEEPSEEK R2出不来的原因是什么呢?是数据标注的质量跟速度不过关。这个呢也没有得到官方的证实,也是坊间在流传。因为在中国嘛,很多的数据肯定还是需要去审核一下的,这个审核的过程是相对来说比较麻烦的。
而且Deepseek呢,其实一直也是一个比较低调的公司。提前预热,不停的出来吹牛,这件事呢是容易翻车的。山姆奥特曼每次出来讲GPT5,说:“我太震惊了,我从来没见过这么棒的。”等GPT5发布的时候,大家说:“这就能让你震惊了?您到底是眼皮子有多浅?”马斯克在发布GROK4之前,也在说:“这是我所见过的最聪明的大模型。”也有人认为老马吹的有点过头了。
其他的公司都必须不断的发模型,跟着一起卷,不断的来吹牛,这个事是有原因的。为什么?因为这些公司是需要融资的。马斯克发GROK4发完了以后,马上就给XAI去融资。山姆奥特曼GPT5发完了马上融资,这公司直接值到5,000亿美金了,他现在已经是没有上市公司里头最贵的一家了。第二家应该是SpaceX,再往后是3,000多亿的字节跳动。但是大家注意,字节跳动的收入现在好像已经超过Meta了,这个是非常吓人的一个事情。所以这些人他有融资的需求,你就必须得不断的出来炒这个热点。不炒的话,你说我现在想提高估值,融资这事费劲了。而且现在Anthropic也在融资,而且是要按照1,500亿美金的估值要去融资,我估计他们后边的日子不是那么好过,现在他们的CEO应该已经奔中东,找中东土豪去给钱去了。
谷歌呢虽然不需要融资,但它后边有股市、有股价、有市值这些东西,所以呢不能落后,所以谷歌也必须要不停的推陈出新。实在做不出来东西呢,确实哪块也做的不太行,怎么办呢?你还可以像扎克伯格那样,表演抢人大戏这种行为艺术。我发2亿美金的薪水,我把人抢回来。虽然你的Llama4像屎一样,Llama再往后怎么走谁也不知道,但是看到你表演行为艺术表演的这么热闹的话,Meta的股价涨的也还可以。所以大家必须不停地去表演。
但Deepseek自己,他没有这种融资的需求,所以呢也并不太需要出来表演,自己踏踏实实做自己的事就好了。至于说他到底做成什么样,咱们也只能在外边来看。
大家有没有想过这样的一个问题:到底是谁家的芯片能够训练大模型呢?训练跟推理是完全两个不同的概念。训练你是必须要长时间高强度的工作,而且在中间是不允许停的。而且在训练的过程中,我们需要在更多的芯片之间进行数据的调度,更更大规模的这种协同。国内的这些算力服务器都搞不定这件事情,他没有办法说让这么多的芯片相互之间进行协调的情况下,这么长时间稳定的工作下去。推理的话相对来说要简单一些,可能只要几个芯片读出很少的数据来,他就可以把这事干完。比如说我们去提了一个问题,他给我们过了几秒钟做了一个反馈,反馈完了以后呢,他就可以再给我们分配其他芯片了。在这个过程中,芯片出现任何的问题,过热了或者说你对资源进行切换了,它是不影响的。所以呢推理咱们国内的这套系统是可以的,但是训练搞不定。
那么到底谁家的芯片可以做训练?英伟达这个必然是可以的。除了英伟达之外,还有哪些芯片可以进行大规模的这种模型训练呢?你说我这个芯片训练了一个10B的、20B的模型,这不算。或者说你说我这个虽然能够训练,但是我训练的模型从来没有人用过,这个也不算。现在唯一证实了可以进行大规模训练的,而且是训练这种大模型的,还被大家普遍接受和使用的,猜猜是谁?
很多人可能会猜是不是AMD?AMD MI300,或者现在应该是MI三百零几了吧,这样的一个芯片。不是他们。现在唯一的一个能干这个活的人,是谷歌的TPU。Gemini大模型是在上面训练出来的,Anthropic的Claude模型有部分声称是在TPU上训练的。除了英伟达之外就是他们了,再没有第二家了。
那老牌厂商像AMD、英特尔,号称我这个芯片是可以进行大规模的模型训练的,也给出了一些用他们的芯片训练大模型的实例,甚至呢还训练了一些不太流行的小模型拿出来去开源,但是他们训练出来的模型也没人用。AMD跟英特尔呢,一般大概也就是10B或者20B以内的这些小模型。另外一个呢就是富士通,富士通用一款ARM的CPU呢,也训练过一点可能也是10B以内的这种小模型吧,也没有听说过谁去用他们。
其他的一些ASIC芯片呢,也是号称自己能做。所谓ASIC芯片呢叫专用集成电路,像升腾、谷歌TPU呢都属于ASIC。亚马逊、阿里、百度呢,也都号称可以进行训练,但是呢没有实例。亚马逊号称是我拿自己的ASIC芯片呢,做了一些训练,也有几个模型,但是呢谁都没用过。OpenAI的模型,有些据说是在亚马逊上进行训练,但这个事呢,也没有得到最终的证实。百度呢是号称自己设计的ASIC芯片可以去进行训练,但是反正百度自己家的模型烂的跟屎一样,我们就不去评论了。
至于华为的升腾芯片呢,科大讯飞号称是在上面训练的。但是呢也有朋友跟我讲说,科大讯飞其实是在英伟达上训练出来的,只是呢对外宣称是在升腾上训练的,这个我们就不去做考证了。只是科大讯飞的模型,其实也没有那么普遍,除了一些教育领域里头有些人会去用,其他的让你自由选择的时候,很少有人会去选择用科大讯飞的模型。华为呢自己号称是在升腾模型上训练了盘古大模型,但是呢前面被内部的人指责蒸馏、指责抄袭,之后就不再有任何声音了。所以现在华为已经不再提他的盘古大模型这事了,估计是准备装一段时间的死狗以后,再次遥遥领先。所以华为的升腾模型,其实没有证实过训练成功过任何的大模型。Deepseek R2呢,应该是真的尝试过,但是败下阵来。
华为跟Deepseek官方呢,都没有出来证实,就既没有出来说我用了,也没有出来说我没用。所以呢升腾芯片,没有成功的训练出过任何一款大家普遍使用的模型。
那么国内的算力芯片是怎么样去竞争的呢?英伟达大概占54%,就一半多。升腾呢占28%,其实已经占的非常非常多了。像寒武纪等等其他的一些芯片公司的,所有的加在一起,可能还加上AMD的吧,一共占18%。这个大就是国内整个的算力芯片的一个分布情况。
国产的芯片呢,目前来看都是可以去做推理了,但是呢没有哪一个真的跑出来模型过。所以国内的算力芯片,基本上是没有办法做训练的。
现在呢还有一群的“赢学家”在鼓吹英伟达芯片里头有追踪器。但是这些“赢学家”呢,现在有点吹不下去了。他说呀:“这个英伟达的芯片里头,是不是在集装箱里装追踪器了?”还有人说:“是不是在包装箱里装追踪器了?”或者是说:“在服务器里边装追踪器了?”因为他们也知道,在这个芯片里头是装不上的。还有人说:“H20这里头肯定没有追踪器,但是呢H100、B200这个里头有追踪器。”这个呢都想多了。因为中国人是经历过挖矿的,我们是完完全全可以把芯片整个扒下来,重新拿新的版卡去焊。而且大量的,其实做英伟达版卡的公司就在国内,所以我们完全可以拿他的版卡,自己回来去加工这个事情。装追踪器这个事是没用的。
中国官方对于H20的态度呢,也很暧昧。有人就到外交部的新闻发布会上就问:“说你们是不是要准备禁售H20?”外交部的新闻发言人回答是:“没听说过这件事情。”中国的这些官员回答,一般都不会说是或者不是,通常回答是:“请你看以前的表态”,或者“请你看有关部门的表态”,或者说“我不知道”、“没有听说过”。所以他这一次的回答叫“没听说过”。
中国政府呢,也没有明令禁止说我们去销售H20或者谁去买这东西。但是呢潜规则就是这样去运营的。多家媒体,比如说Bloomberg、Marketwatch就做了些报道,说中国的监管部门针对H20芯片表达了强烈的不信任和谨慎态度,尤其是强调相关芯片可能存在后门的风险和数据隐患,建议企业回避在政府或敏感用途使用H20。所以呢这些H20可能最后去做训练就完了,推理的这块就通通交给国内的升腾384超节点就OK了。
还有报道说字节跳动、腾讯、百度等企业被召集,这些人是准备去买H20的。国内的有关部门把你们都召集一块说:“你们为什么要买这东西?买多少?”给他们开这样的会。监管侧重国家安全与网络安全审查,并未提出商业禁令,就是我们还是让你买,但是你买之前呢,我们得把你拎来稍微恶心恶心。所以现在都约谈过了。
总结一下吧。Deepseek R2呢确实是难产了,肯定的没有出来。国内的算力芯片目前呢,也无法进行大规模的模型训练,可以进行推理这个事没问题了,但是训练搞不定。20万块H100量级以上的大模型训练,国内很难突破。如果20万块串在一块可以训练大模型的话,我们可能至少需要40万块或者50万块,比如像升腾910C这样的芯片凑在一起,而且我们所需要消耗的电和时间,可能都是要呈几何级数上升的。因为我们卡之间的联通的速度是相对来说比较慢的。所以比如说H100,它也不是说一直就不坏,它可能工作个20个小时或者是40个小时都会坏一次,会出现问题,对于老外来说就可以去接受了。对于我们来说呢,我们可能要求要连续坚持500个小时不出问题,才能够回收回来数据了,因为算的慢嘛,真的达不到。大概就是这样的一个情况。
国内算力卡的这些供应商呢,很有可能会阻碍中国大模型的进展和训练。为什么呢?自己做不好,你又不让别人买H20,可能中国的大模型再往下一步走,就会变得非常非常困难了。
未来国内算力卡是不是可以训练大模型呢?反正一两年之内呢稍微有一些困难吧。国内的大模型到底能不能用呢?基本还是能跑的。高深的数学、科研研究、物理学或者这些基础学科,我们不去研究了。就是让你去做一些信息整理,现在国内大模型基本上都是可以用的。
还是稍微耐心地等待一下Deepseek的慢慢发展吧,它反正中间只要不需要融资,它也不需要出来吆喝,万一有惊喜呢?这个也不好说。这就是我们今天要讲的故事。
RSS