H20 – 老范讲故事｜AI、大模型与商业世界的故事

深度揭秘Grok-2开源：马斯克藏不住的“中国芯”？SGLANG与Deepseek的秘密关系。

Luke Fan — Wed, 27 Aug 2025 00:53:02 +0000

马斯克终于开源了他的Grok-2。虽迟但到，这背后隐藏着哪些不为人知的秘密呢？

马斯克最终还是开源了他的Grok-2。原来我们还嘲笑过他，Grok-1开源完了，往那一扔就再也不管它了，有任何人提问题，你也不说什么。Grok 4都出来了，现在Grok 2都没开源出来。马斯克说：“那我们下周开源。”当时是这么讲的。然而下周完了以后，好像还是又等了那么一段时间，稍微晚了这么几天吧，Grok 2最终还是开源出来了。而且承诺呢，6个月之内，或者说在年底之前吧，有可能会去开源Grok 3。但是马斯克的话嘛，大家相信，就是他说了的事会做，但是未必按时间做。

马斯克的开源呢，只能算是符合非常广义的开源。这话什么意思呢？开源也是分原教旨主义者的，他们是肯定不会认可马斯克在开源的。第一个，马斯克不是当时发布产品马上开源，而是要过一段时间，甚至是过了一年多才去开源。而且现在他开源出来的这个版本，远远落后于当前主流模型。当然Grok 2呢也不算特别落后，它在当时刚推出的时候，应该是跟GPT-4不相上下的一个水平，但是跟后边4O，以及后边O1、O2这些东西就没法比了。跟当前的主流模型，像什么GPT-5、Grok-4、Claude 4或者是Gemini 2.5这些，它是比不过的。

而且呢，马斯克开源出来的这个大模型，对于部署是非常不友好的。你要想去把它的大模型下载下来，把它部署到自己的服务器上去，这个是非常非常痛苦的。这个大小是500G，需要在Huggingface上做断点续传。Huggingface是大模型领域里边的开源仓库嘛，你需要把这500G的文件从那上头慢慢往下传下来，错了没关系，继续再来几次。他专门给大家写了这样的一个话。

而且运行的时候呢，需要8张40G以上显存的显卡才能跑起来。8张40G以上显存的显卡什么意思呢？在国内合法可以跑的这个显卡是H800、H20、RTX 6000。你说我拿5090D跑行不行？这是为中国专门量身定做的5090，跑不起来。5090D呢是24G显存，把这个D去了，也就是国际上正常的5090是32G显存，也跑着费劲。而且呢，5090跟前面我们讲的H20比，有一个巨大的差异是什么？它没有Nvlink，卡跟卡之间的通信是很慢的。而H20这种专门的算力卡，里边是有Nvlink的，八块卡搁在一起，它还可以快速的跑起来。

当然了，Grok 2呢不是特别不友好，你像在那个当时还有一个跟Grok 2前后脚发布的产品，叫Deepseek V2，那个版本当时开源出来的时候是需要8张80G的显存的显卡才可以跑起来。这个Grok 2只需要8张40G显存的显卡就可以跑起来了。为什么会有这样的差距呢？原因很简单，当时的Deepseek V2是FP16的，而现在的Grok 2的话是FP8的，所以它会要更加的省显存一点点。

现在开源出来的呢叫Grok 2.5，并不是真正的Grok 2。它必须使用叫SGLANG的这样的一个系统来去部署。这个里边呢就会有很多故事了。大家注意，Grok 1并没有这样的要求，Grok 1使用的是Jax系统部署的。Jax是谷歌的系统。咱们待会就围绕这个SGLANG，来讲一讲它这个故事到底在哪。

马斯克的开源跟其他人开源不一样，就是他把东西开出来以后，基本上就不闻不问了。你其他人开源出来以后，你去提意见，说我哪遇到问题了，开源出来的这些公司还是要去修修补补的，调整一些东西的。马斯克就甭管是它前面的Twitter的推荐算法，还是Grok 1开源出来以后，就再也没人说这事了。你提任何事情，他都不理你，也不会做任何更新，就是这样的一种开源。

而且呢，它的开源参数呢也没有完全公开。你像Deepseek这些，都是直接告诉你我有多少参数，如何去部署，怎么去用这个东西，甚至连论文什么一块扔出来。马斯克就是我把东西扔这了，你们自己谁爱用谁用去。现在呢，大家只能通过下载的模型去猜测，它呢应该是一个269B的模型，是一个挺大的模型。

license呢也是严苛的，商务社区版本的license。所有的开源项目，你都是要有开源license，就是我拿这开源项目以后，什么事许干，什么事不许干。它这个Grok 2是不允许商用的。你就算是把它放在自己的产品里用，你说我不商用，没有达到大规模使用的这个程度，你也要在里边写上“powered by XAI”，这个都是要注明的。一旦超过了它一个使用限制以后，这个事就没法整了。Grok 1是阿帕奇2.0的license，还是一个完全开源的产品，但是到Grok 2就不是了，就已经变成了这种商业许可的产品了。

国际上面是有这种商业许可限制的大模型呢，像Llama其实是有限制的，那个也是有规定的，就是你用户量达到多少以上，你就不可以再去使用了。你拿去做一些研究是OK的，但是呢你不可以拿Llama再去训练新的模型。但是这个东西呢，说也是叫防君子不防小人吧，Llama 1开源，全中国的这些开源大模型就如雨后春笋一样夸夸就出来了。所以你去写说不允许训练其他模型，不允许去优化自己产品，不允许去商业使用这些事，反正你说着开心就好了。Grok 2呢也是这样的一份协议，大家说着开心就好了。但是差异在哪呢？就是Llama当时发布的时候是当时最领先的模型，大家会去照着去学习；但是Grok 2发布的时候就已经是去年的模型了，反正你算是开过源了吧，也就如此了。国内的模型呢，像Deepseek、千问这些，基本上都是MIT或者是阿帕奇的这种license，就是你可以拿去使，可以商用，可以自己去修改，拿它去干嘛我就不管了。所以跟他们还是有很大区别的。

咱们后边讲这个SGLANG到底是一个什么样的系统呢？它的名字是一个缩写，叫结构化生成语言。S是structure，G是general，LANG是这个language，它大概是这么三个单词拼在一起了。它的开发者呢，两个主要开发者，一个叫郑连敏，一个叫尹良生，听着像中国人吧？郑连敏呢是上海交大的本科，UC伯克利的博士，他现在就是Xai的工程师，在Xai里头主要就负责SGLANG这个版本的继续推进。明年7月份呢，会加入到UCLA任助理教授，现在UCLA的官网上已经把他的名字写上了。像美国的这些大厂里边的科学家，或者是这种大工程师呢，都会有这种两边来回流动的一个过程，去上两学期课，然后呢回来做一段时间的研究，很多的美国这些大厂的顶尖科学家是这么工作的。另外一个呢叫尹良生，尹良生呢是上海交大的本科，2025年从上海交大毕业，就是今年毕业，已经拿到了UC伯克利的博士生入学许可，准备到那儿接着去读博士了。

他们两个人写的这套系统。那你说老范，你是不是要讲中国人好厉害？比大家想象的可能还要再稍微厉害那么一点点。本身XAI里边这个中国人的比例就非常非常高，咱们这讲的是中国人，不是广泛的意义上的华人，就是从国内去的这帮人，比如清华、北大或者上海交大这些地方学完了去的，他们可能在美国读的博士，然后就在XAI里边去上班了。

但是这个项目还不太一样，咱们去稍微捋一捋这个SGLANG的一个发展历程。他是2023年12月12号发表的SGLANG的论文，当时呢郑连敏应该是在UC伯克利读博士，而尹良生应该是在上海交大还在上本科，他们两个人呢联合署名做了这样的一篇论文。到2024年5月份，Deepseek V2发布，236B的一个大模型，每次激活21B的参数。他们呢就说我们要去升级我们的版本，大概是到9月份，这个SGLANG就升级好了，专门对Deepseek进行了优化。SGLANG是Deepseek最优化的一个运行平台，你在其他平台上跑这个Deepseek都没有在SGLANG上跑得快。到2024年的8月份，Grok-2发布了，269B，每次激活115B。这个时候呢，郑连敏应该已经从UC伯克利博士毕业了，已经到了XAI去上班去了。2024年的12月份，SGLANG继续升级，这个升级是为了支持Deepseek V3的。Deepseek V3呢是2024年12月份发布的671B的一个大模型，包括后边我们讲的Deepseek R1，都是在Deepseek V3的基础上进行训练的。Deepseek最近刚出的V3.1还是671B，所以呢这都是一个系列的模型。2024年12月份还发生了一个什么事呢？grok V3发布。

大家按这个线去捋，你就基本上可以发现，Grok 1做的时候，马斯克还是满眼抓瞎的时候，不知道该怎么弄，拿着这个JAX就开干了。另外一个拿JAX开干的是谁？是苹果。苹果那个时候也是举着JAX就开干了，最后呢做出来的一个产品，但是效果一般。这个时候Deepseek大量的这种MOE模型的开源的东西就出来了，包括后面的论文什么就都出来了。上海交大这两位同学吧，他就开始去写这个SGLANG，专门针对这种MOE的模型进行优化。马斯克觉得这条路不错，那咱就干脆把这个团队招到我这来，你给我去好好维护这个SGLANG的版本，我们也在这个基础上，去训练我们的模型。

你说这个里头有抄袭没有？还是说有借鉴？我觉得说借鉴还是比较合理的。因为你去做新的研究的时候，你总要看论文吧？梁文峰写了那么多论文，你也得看。看完了以后，你说我受这个影响了，照这个方向去往前发展，这个本身没有任何问题。咱们不要老觉得说不是原创就怎么怎么样，别老想着这事。

所以从这看呢，Grok跟Deepseek还是很有缘分的。Grok 2跟Deepseek V2、V2.5，它们之间其实是有非常相近的地方。再到Grok 3跟Deepseek V3，也是有很多相近的地方了，有相互借鉴的地方。可能更多的是Grok去借鉴Deepseek，因为Grok每次出新版本的时候，它不开源也不开放出来，他要过一年以后才开放；而Deepseek每次拿出点什么东西，马上都开放了。所以这个到底谁去借鉴谁，大家自己心里去想。

其实呢，这就是开源生态的一种发展方式。很多人在讲什么“美国人一开源，中国人就自主研发、自主知识产权了”，这可不是这么回事的。开源了，我们就可以在开源协议的允许范围内去使用这些代码，甚至是去修改这些代码，再发行这些代码。他只要是协议允许你干这个事，你就可以去干。我干完了以后，我去注明了，说我是用了人家的代码，我把它写清楚就完事了。就算是前面翻车那盘古大模型，上头也写了“我用了别人东西”。但是中国人有时候没法接受这事，你说你都叫盘古了，你好意思你用别人的吗？前两天华为云内部的架构大调整，把整个的盘古这个团队全开掉了，以后这个丢人现眼的东西咱不弄了。前边别人说盘古去抄袭了，华为还在那义正词严的在那辟谣呢，辟完谣以后沉寂了俩月，直接把团队给开了。你说这玩意叫啥事？

我觉得我们应该很好的去接受这种开源生态，而不是说我一定要原创，我从来没有抄过，我从来没有用过别人，这个是相对来说比较狭隘的。你像Deepseek发了论文，公开了参数，SGLANG呢肯定是以这些公开信息为基础进行了优化。Xai呢也在这个过程中呢转型，在SGLANG基础上用同样的系统进行优化。大家走的路呢又不是完全一样，Deepseek还是要更多的考虑到算力紧张，没有NVlink的情况下，这个性能到底怎么样，到底怎么把它跑起来。Grok那就是土豪家的败家子，有的是卡，最新最好的卡，而且还有工程师爸爸负责部署和实施。他还跟微软、Oracle这些公司不一样，那些公司还需要外包，找别人去给部署。那马斯克干这玩意，肯定是没有任何问题的，因为他从特斯拉的时候就开始部署这种超算的集群，非常非常有经验。所以他可以把最好的卡、最新的卡拎回来进行部署，而且量大管饱。现在马斯克已经说，我们注册一公司叫“巨硬”，准备买上百万块的显卡，接着往前走。

马斯克算迎头赶上了，用Deepseek没有的资源，直接暴力推进。我们前面在讲Deepseek的时候就已经讲过了，马斯克肯定会照着往前冲的。苹果啥也没干，其实苹果在做大模型这块跟XAI是同时起步的，都是从JAX这开始起步的，但是苹果最后啥也没出来，马斯克这边都做出来了。梅塔呢还在老路上面去蹉跎前行，未来到底怎么走还不知道。所以呢，别人都开源了，谁你抄的好、抄的不好，或者在这个基础上到底能不能做出新东西来？我相信Grok还是创新的，我并不是说我就指责了，说“Grok你就是抄Deepseek”，没有说这话。还是得看谁可以把这个工程往前推的更远，这个才是本事。

国内的模型厂商的话，你说他们没有借鉴Deepseek吗？肯定借鉴了。他们只是说太多东西要抄了，到底抄谁的呀？这个是真正国内厂商要去头疼的事情。大家发现了，Deepseek V2的版本其实并没有那么热，到V2.5开始这个热度一下就上来了。就是从Deepseek V2.5开始，很多的国内厂商就开始转型，说我们是不是去看一看，像百度什么，他们就已经开始转型了。等到Deepseek V3出来的时候，其实就已经很热很热了。当然对于整个的行业来说，或者说对于社会来说，圈外的人真正知道Deepseek是从Deepseek R1，就是从今年1月份才开始知道这个事儿。但是从去年12月份的Deepseek V3开始，在这个程序员圈里头，在这个行业内呢，大家就已经普遍认知了，这就是一个当前最好的框架了。所以当时很多的团队就都已经都转过来了。现在Kimi k2、mini Max M1、百度的这个4.5、智谱的4.5，其实都是按照一个模式做出来的。但你说它们都是抄袭的，我觉得大家不要想这个事。大家呢都在同样的看论文，都在一个可能同学圈或者是朋友圈里边去，大家一块可能平时喝个咖啡、聊个天什么的，他是这样的一个环境。

国内大模型厂商也是相互借鉴。你看谷歌、微软，他们肯定也会去读论文，他们去做新的研究、去做新的产品的时候，“这Deepseek写的，中国人写的，我不看”，他们也不会这样的，没有那么狭隘。

今天我其实主要跟大家讲的是这样：开源才是未来的一个方向。不要上来说你抄袭，不尊重原创，这太狭隘了。咱们最后总结一下：开源是当今世界比较先进的全球化、松散协作方式。大家注意我刚才讲的这些定语：全球化、松散协作。开源呢推动了互联网、移动互联网和今天的大模型的整个产业的升级。Deepseek呢在里头起到了巨大的推动作用，包括咱们今天讲的SGLANG，都是在开源大潮里边起到了巨大的作用。

马斯克的Grok开源呢，基本上没有为社区贡献太多的东西，毕竟是去年4月份的东西嘛，还是稍微差一些的。马斯克喊开源呢，主要还是为了要吸引眼球。第一方面呢是恶心OpenAI。当然OpenAI现在人家也开源了，把GPT OSS拿出来了。但GPT OSS要比现在开源的Grok 2要强非常非常多，因为GPT OSS是大家可以用的一个产品，不是像Grok 2这样的，没有人会去用它。为什么没有人用？因为部署起来成本非常高，还是一个旧模型。我花了这么多成本，我去部署Deepseek V3.1不行吗？所以他就不想让别人用，也不想让任何人占他便宜。

马斯克现在想干的活呢，就是让更多的人去用他的Grok服务。而且呢也希望在未来呢，让更多的人呢去用他的这个巨硬的产品。那你说巨硬到底做什么的？前面他专门申请了一个商标叫巨硬，就专门为了恶心微软的，“你叫微软我叫巨硬”。一开始以为马斯克就是开个玩笑，或者说出来嘲讽一下比尔盖茨，没想着他真在里头干活。现在说了，我们这巨硬公司是真的要干活了，而且呢干这方向呢，也是大家熟悉的方向，他要做manos，就是做agent。说以后你微软的这些产品，我通通都拿各种各样的AI agent给你覆盖掉。你做了office，我就给你做个AI agent，跟他说你给我写一PPT或者给我写一什么东西，他吭哧吭哧给我写好了，我就不需要那么复杂的叫做office这些东西了。他是搞了这么一套东西出来。

大模型在不断创造内容的过程中呢，其实也在不断的污染大模型被发明之后的语言环境。所以呢，中国的创业公司跟开发者，也在不断的创造新的技术，创造新的内容。在这个过程中，再通过开发者社区或者通过开源社区，不断的将这些新的思想拿出来，去影响全球的科技发展，为全球科技发展添砖加瓦。不要想着说脱钩断链，说我们不要中国人的思考，我们不要中国人的技术，这个玩意是有毒，这个世界不是这么发展的。

咱们今天通过Grok 2的这个发布，通过Grok 2使用的SGLANG的这个平台的一个历程，你就会看到在这个过程中的话，你需要上海交大的学生来去给你写这些系统，你也需要去借鉴Deepseek的论文、借鉴他的一些思路去训练自己的模型。而且这个节奏是一模一样的，这边出Deepseek V2，那边过几个月出这个Grok 2；然后那边出Deepseek V3，你同一个月出Grok 3。这个就是同样的节奏，一模一样的往前走。所以这是一个进步的过程，别老想着谁抄谁的事。

好，今天这故事讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。

Luke Fan — Mon, 18 Aug 2025 13:35:27 +0000

8月14号，英国金融时报发了一篇报道，说Deepseek R2模型之所以难产，是因为在使用华为升腾芯片训练的时候，持续遇到了技术问题，最后被迫改用了英伟达芯片。甚至透露华为曾经派出一支救火队，常驻在Deepseek，手把手帮忙调教升腾服务器，但仍然无法完成训练。无奈之下，Deepseek只能退回老路训练，重新切换回性能更加可靠的Nvidia的GPU，升腾芯片仅退居辅助，用于模型推理环节。

虽然没有华为和Deepseek官方的回应，也没有他们的辟谣，但是呢，据说是援引了三位知情人士的一些说法，也进行了很多交叉验证，所以这个事情呢，大概率是真的。

国运跟国运相碰撞的时候，升腾也号称是国运级产品，Deepseek肯定是国运级产品，为什么是升腾不灵呢？升腾芯片是可以替代的，也还有一堆竞争对手，所以出现问题以后，他的竞争对手会帮他去宣传。而Deepseek虽然在国内也有模型在追赶，但是地位是不一样的。升腾和国内的其他算力芯片，以及其他那些大模型，从来没有像Deepseek那样震动过世界。所以呢发生碰撞的时候，必须是升腾不行了，不可能是Deepseek不行了。

大家为什么会这么期待Deepseek R2呢？现在又有千问3，也有Kimi、Mini Max，还有豆包等，有一大堆的这些模型出来，怎么就只有Deepseek才行呢？其他人为啥都不行呢？其实现在呢，很多新的这些模型已经并不比Deepseek R1的性能差了，基本上是可以替代使用的。但是大家依然在期盼Deepseek R2，而且你只要讲Deepseek要出R2了，就会有流量。这个原因其实很简单，因为我们在跟国外的大模型竞争中打不过了。

国外已经进入了10万级芯片的训练时代了。Llama4，40万块H100训练出来的。虽然Llama4翻车了，但那也是10万块。而马斯克XAI的Grok 4，20万块H100训练出来的，效果相当不错。GPT5的话，现在推测也是20万块H100训练出来的。Anthropic的Claude 4，据说呢是40万块H100，但是呢它这个数并不是那么准确，40万块H100呢是一个部署的数量，并不是精确的训练的数量。另外一个没说的是Gemini 2.5。Gemini的2.5是没有公开数据，因为他们家使的TPU，其他人都是使的GPU，所以呢没有办法去比较，但应该也是几十万块H100的一个算力，才有可能训练出Gemini 2.5来。

以前是一个国外大模型特别强，特别是GPT4压着所有的模型的时候，我们终于期盼到了Deepseek R1一出来，觉得我们好像又可以了。但是现在我们发现，国内的大模型跟国外这些明显有差距了。我们只能再去期盼Deepseek，因为其他这些肯定是追不上的。那没有20万块H100，这个日子就没法过了。国内的算力芯片呢，大家也都知道不是那么靠谱。这个时候大家期待的就是奇迹了。

Deepseek V3、Deepseek R1，他们呢号称使用了2,048块H800，还不是H100。他们这个算力转换，可能也就是1,000多块H100。拿这样的算力就直接训练出来了，大家觉得你们可以用很少的卡训练出来，还可以震惊世界。现在我们还搞不定20万块的H100，是不是依然可以期待Deepseek再创造一次奇迹呢？

Meta花了好多钱收入进去的亚历山大王曾经在接受采访的时候说，Deepseek手里头有5万块H100，压根就不是他讲的几千块就给这事搞定的事。而且呢，新加坡3月份还抓了一些向大陆走私英伟达芯片的人，有传闻说这些芯片的采购方里边包括Deepseek。

Deepseek呢也正式做出过回应，2025年2月份做了回应。Deepseek强调，仅使用了2023年合法采购的H800芯片，其他我都没用。但是讲完了这个以后，甭管你原来这个东西到底有还是没有，你讲这个话以后肯定就不能再用了吧？所以呢现在大家期待说，这个反正你们原来是这么讲的，我们就这么信了。那以后呢创造奇迹也只能是等着你了。哪怕是使用H20芯片，用很少的芯片训练出来，堪比20万块H100芯片训练结果的这种奇迹，也不是完全不可能吧？这个怎么说呢，人有多大胆，地有多大产吧。我们总还是要有一些希望吧。

新的模型没有出来，但是新的论文呢，Deepseek其实一直不断在产生。在V3跟R1之前，Deepseek也没做什么铺垫，这不也就突然蹦出来了吗？他是这样去期待这个Deepseek的。

原来讲是8月15号到30号之间要发新版本，最后Deepseek自己出来辟谣说：“对不起，我们发不出来。”英国金融时报出来说，被这个升腾给拖累了。那这消息是怎么传出来的呢？Deepseek原来是有没有说过自己要去发Deepseek R2这件事呢？

首先呢，是Deepseek R1震动了世界，应该是在2025年春节前后的时候，我印象里特别深刻。Deepseek R1出来以后，我还连续做了很多天的直播来跟大家讲这个事情。国际大厂呢，在Deepseek R1的这种搅动之下，纷纷转向。转向什么呢？主攻数学、科学与编程，然后呢是长上下文、工具调用和agent，以及指令依从、降低幻觉。

数学跟科学这块呢实在太难了，这个咱们不擅长，而且那个你真的是需要可能10万块、20万块卡，你才可以把这事搞定，咱们没有。那编程呢基本可用，国内的这些模型做编程，肯定没有Anthropic的Claude 4好用，但是呢也基本上可以跑。长上下文、工具调用和agent这块呢，包括指令依从这一块呢必须要有，这一块其实国内的大模型基本上已经追上了。剩下的呢降低幻觉这事咱们就不谈了，反正有幻觉还是可以甩锅的事情。全面开源，这个是国内大模型真正卷的地方。千问直接把200多b的模型直接就开源出去了，Deepseek 600多b的模型直接开源出去了。这件事情我们在努力的往前走，所以各有所长吧。基础设施这块、数学科学这部分实在是费劲，大家就期待Deepseek来再创辉煌了，其他人就不管了。

Deepseek发R2这件事呢，其实传了两回。一回呢5月份，风起云涌。每一次说Deepseek要出R2的时候呢，都是风起云涌的时候，大家都在上新模型，说呀Deepseek你也得上，所以就会开始给他传这个事儿。

今年5月份，发生了一些什么样的事情呢？首先呢Claude 4、Opensource和sonnet这些模型直接出来了，王炸。5月份开谷歌IO，Gemini 2.5 Pro和Gemini 2.5 Flash直接发布，这个其实现在已经是我的主力模型了。GPT呢当时倒是没有什么特别大的动作，上了一个Deepseek 4.5，但是呢也没有引起特别多的响动。大家就说Deepseek你们也该来了。但其实呢Deepseek没有去出R2，而是把Deepseek R1的模型稍微的小步更新了一点点。

6月26日，the information就做了一个报道，说Deepseek R2原来计划是5月份发布的，但是呢因为梁文峰对于Deepseek R2表现的性能不是很满意，决定推迟了。路透社呢也引用了the information的这个报道，国内的媒体呢也纷纷去引用。但是这件事呢，并没有得到Deepseek官方的回应。Deepseek这个公司就是这样，他基本上不怎么回应大家的这个响动。你们猜吧，猜完了以后我也不理你，除非是有一些太过分的，否则他一般不说什么。

Deepseek呢也不是说没更新，就是做小版本更新。像Deepseek V3出了0324版，也就是2025年3月24号出了一个版，把分数又往上刷了刷。因为每一次去更新这些模型，一定要刷分数上去。代码能力，特别是前端代码能力呢，有所提升。拿这玩意写个网页没什么问题，但你说我要做一些大的架构，或者做一些这种后端的东西，可能就要稍微费劲一点。做算法的东西要费劲一点。为什么？因为它Deepseek有一个问题，就是它的上下文比较短，想去做一些大的架构上的东西，你必须上下文长，你得能把整个代码塞进去才行，这块还是要费点劲的。然后他把中文写作能力做了一些提升，Deepseek其实一直在努力的方向，就是中文推理。因为在海外的这些模型，很多都是使用英文推理，然后再翻译成中文的。他说我们直接用中文推理这个事，是不是OK？他们一直在努力干这件事情。使用体验上呢也有所提升，特别是function call更加准确了。在做AI agent的时候，其实核心就是function call的能力，就是我们先描述一堆的功能，然后交给大模型，大模型在完成整个的语言生成的过程中呢，去根据你描述进来的这些function，去决定我要调哪个、不调哪个，或者如何去调用、什么时候调用。Deepseek V3 0324呢，就在这一块做了一些增强。

Deepseek的R1呢，其实也更新了一个版本，就是0528。大家在传说Deepseek要出R2，讲的其实就是0528的这个版本。而这个版本呢，其把这个分又往前刷了刷，减少生成的一些错误信息。因为Deepseek最大的让大家无法忍受的东西是什么呢？就是胡编乱造，他太喜欢瞎编了。所以在这一块呢，稍微做了一些调整，但是依然胡编乱造的很厉害。Deepseek 210528呢，还支持了Json输出和function coding，提升了调用的准确度，但是呢不能叫R2。这就是5月28号的这个版本。

紧跟着就开始传说了，说8月15号到8月30号，要准备发布Deepseek R2了。这个消息是怎么来的呢？首先肯定还是要风起云涌一下。8月份发生了些什么事情呢？马斯克XAI的GROK4发布了，Anthropic又发布了Claude 4.1 Opensource，OpenAI发布了GPT5。GPT5这东西到底好不好使，大家各自去领会。大家可以认为说，GPT5是一个划时代的产品，但是也可以认为说，GPT5就是山姆奥特曼为了要去忽悠融资去搞的一个事情。因为GPT5出来以后，OpenAI的估值已经正式从3,000亿美金提升到5,000亿美金了，而且是孙正义要去买这个单，说您这5,000亿美金我认了，我去买去。

所以呢8月份风起云涌了。那么空穴来风呢，你这事怪不得别人。在Reddit上有人发了个帖子，这个帖子特别有意思，他说他去问了Deepseek R1：“Deepseek R2什么时候发布？”他等于是把这个东西交给Deepseek R1了。但是大家注意，Deepseek R1这个大模型呢，它并不代表Deepseek这公司的一些官方的观点，只是说这个模型给你生成了这样的一个结果。Deepseek R1回答了：“8月15号到8月30号之间发布。”而且号称呢是引用了雪球和东方财富等可信的信源，而且进行了多个渠道的证实。

Deepseek R1的幻觉其实一直都是很严重的，虽然经过0528的调整以后，但依然很吓人。而且Deepseek R1的最大幻觉是什么？就是编造可信的信源。说我从哪哪引用了，你点进去以后，压根就没有这篇文章。但是甭管怎么说，这个文章就在Reddit上就贴出来了，随后呢这个消息就逐渐的被传播和放大了。国内的很多的媒体、自媒体就开始引用这篇消息，特别呢是华为下边的一些科技媒体进行了转载。而且呢在标题里边还夹带了私货，讲的是什么呢？讲的是深度求索，就是Deepseek这个公司，“升腾芯片版本Deepseek R2预计在本月发布”。它讲的就是说，它是使用升腾芯片来去做训练的。

华为都说了，两大国运级产品强强联合了，那信吧，这事怎么办呢？国内一帮的媒体就冲上去说：“我们信了，确实是有这事了。”到8月14号，英国的金融时报出来报道，说升腾芯片拖累了Deepseek 2。然后动点科技、腾讯科技就出来辟谣，原引自公司内部人士，也就是Deepseek这公司里边的人说了，说8月份不会发布Deepseek R2。所以呢，8月15号到30号之间发布Deepseek R2的一个消息，实际上是Deepseek R1自己编出来的，其他人把这个编的信息信了，直接截了个图发到这个Reddit上，以此来发酵出来的一个过程。

那么Deepseek R2到底遇到了一些什么样的问题呢？首先升腾芯片确实是有问题的。升腾910C的这个芯片，虽然单芯片的算力在部分指标上呢，已经达到了H100的水平，但是呢显存的带宽不够，想从显存里调数据回来，速度是没有H100快的。而且最大的问题是什么？就是多个芯片之间的速度，就是我需要把数据在多个芯片之间进行流通的时候，这个速度是相对来说比较差的，而且差的很远。你要想去做同样的训练的话，你就需要更多的时间全功率的去运转。因为你想，人家都已经达到20万块H100这样的集群的规模再去训练新的模型了，你没准就是需要这个50万块或者60万块升腾910C串在一起，才能达到人家那个算力，而且你需要很长的时间去连续的运作，这个对于升腾910C的这种考验来说就比较大了。

这样的芯片，其实是没有办法长时间稳定地去运行的。并不是说训练一个模型，这头输入进去数据，过三个月去开盖看结果。中间每过一段时间，可以取得阶段性成果，再继续往下训练。但是中间这个过程呢，你是不能停的。你中间比如说准备了一批数据，你去训练了，如果这批数据没有训练完，升腾910C就直接冒烟了，就不干活了，这一波呢就白干了，你必须要从这个节点接着往后干。这个玩意有点像什么？有点像打怪升级，你一定要打死这个妖怪才能存盘，你没打死这个妖怪就不让你存盘。升腾910C在这块差一点。

那为什么差呢？升腾910C呢，是两个910B堆叠在一起的，散热肯定会出问题。就算是上了液冷以后，依然是搞不定这个事情。

其实同样的坑，英伟达也踩过。大家还记得H100独挑大梁好久了吗？很多人应该还是有印象的。甚至呢到现在为止，H100已经成为一种计量单位了。现在我们再去算说：“你这个算力相当于多少英伟达芯片呀？”我们都是以H100的这个算力作为一个计量单位的。就是因为H100挺长时间在那孤独一只。为什么它会孤独一只呢？本来计划替代H100的这个产品叫B100，叫Blackwell黑井100，这个芯片直接就跳票了。研究完了以后开了发布会，开完了以后，这个芯片压根就没有大规模的部署，也没有交付。为什么呢？就是他做的就是这种堆叠技术，导致散热失败。散热失败了以后会直接把版卡烧掉，这压根就没有办法去交付。到H200出来了以后说：“那这咱交付这个呗。”但是一开始依然是受困于散热问题，导致了大规模交付的延迟，一直到今年才开始去交付H200。

后面的工艺呢不断的进步，再加上全面液冷。H100这些机器是可以进行风冷的，你拿风扇吹它是OK的。但是到H200这个机器开始交付的时候，你必须是液冷。而且这种液冷呢，还不是种普通的液冷，叫完全浸泡式液冷。见过这种游戏主机装机视频的这些人，会知道他们那个液冷是怎么做的。他在芯片外面给你涂散热的胶，然后呢把这个液冷管贴上去，靠这个液体呢快速的把你热量带走到外边，再去找风扇把这个水给你吹凉了，再重新循环，它是这样来工作的。但是这种工作方式对于H200来说还是不行的，它必须是全浸泡式的，就是把整个的H200的芯片，或者包括它整个的板卡，一起泡在这个液体里头。这就肯定不是水了嘛，是一些不导电的水，整个泡在里头，才能够达到散热的这个能力。

当然了，甭管是英伟达也好，还是升腾也好，散热都是有问题的，导致什么呢？就是液冷概念股都涨疯了。你只要说我这公司是做液冷的，就赶快涨。而且现在都是浸没式液冷，就把整个板卡都泡里头。A股上强瑞科技、英维克、深林环境、飞龙股份，大概有十来家公司，都是专门做液冷的。飞龙股份是专门给升腾这个384超节点做液冷的。美股那边的话，有一个叫VERTIV的一个公司，它的代码是VRT，是专门给英伟达做液冷的公司，这个公司的股票也是涨的可好了。

讲回来，910C这个芯片连续的做长时间训练的话，液冷也压不住，直接把板卡烧掉。即使是有大量的华为的工程师坐在Deepseek公司里头，出来我帮你调，他也调不过去。实际上这些华为工程师能调什么呢？他们只能调一件事，就是CUDA里头没有实现的部分，我来帮你去实现一下。华为的这个升腾910C，他们使用的训练相关的代码的话，是华为自己开源的一套训练框架。这套框架据说是可以实现CUDA 70%的功能，但是还有30%你是实现不了的。那这一部分由华为的工程师到现场来搞定。再怎么搞，该冒烟、该着火、机器直接停摆，这个事它是解决不了这问题的。

另外一个传闻，DEEPSEEK R2出不来的原因是什么呢？是数据标注的质量跟速度不过关。这个呢也没有得到官方的证实，也是坊间在流传。因为在中国嘛，很多的数据肯定还是需要去审核一下的，这个审核的过程是相对来说比较麻烦的。

而且Deepseek呢，其实一直也是一个比较低调的公司。提前预热，不停的出来吹牛，这件事呢是容易翻车的。山姆奥特曼每次出来讲GPT5，说：“我太震惊了，我从来没见过这么棒的。”等GPT5发布的时候，大家说：“这就能让你震惊了？您到底是眼皮子有多浅？”马斯克在发布GROK4之前，也在说：“这是我所见过的最聪明的大模型。”也有人认为老马吹的有点过头了。

其他的公司都必须不断的发模型，跟着一起卷，不断的来吹牛，这个事是有原因的。为什么？因为这些公司是需要融资的。马斯克发GROK4发完了以后，马上就给XAI去融资。山姆奥特曼GPT5发完了马上融资，这公司直接值到5,000亿美金了，他现在已经是没有上市公司里头最贵的一家了。第二家应该是SpaceX，再往后是3,000多亿的字节跳动。但是大家注意，字节跳动的收入现在好像已经超过Meta了，这个是非常吓人的一个事情。所以这些人他有融资的需求，你就必须得不断的出来炒这个热点。不炒的话，你说我现在想提高估值，融资这事费劲了。而且现在Anthropic也在融资，而且是要按照1,500亿美金的估值要去融资，我估计他们后边的日子不是那么好过，现在他们的CEO应该已经奔中东，找中东土豪去给钱去了。

谷歌呢虽然不需要融资，但它后边有股市、有股价、有市值这些东西，所以呢不能落后，所以谷歌也必须要不停的推陈出新。实在做不出来东西呢，确实哪块也做的不太行，怎么办呢？你还可以像扎克伯格那样，表演抢人大戏这种行为艺术。我发2亿美金的薪水，我把人抢回来。虽然你的Llama4像屎一样，Llama再往后怎么走谁也不知道，但是看到你表演行为艺术表演的这么热闹的话，Meta的股价涨的也还可以。所以大家必须不停地去表演。

但Deepseek自己，他没有这种融资的需求，所以呢也并不太需要出来表演，自己踏踏实实做自己的事就好了。至于说他到底做成什么样，咱们也只能在外边来看。

大家有没有想过这样的一个问题：到底是谁家的芯片能够训练大模型呢？训练跟推理是完全两个不同的概念。训练你是必须要长时间高强度的工作，而且在中间是不允许停的。而且在训练的过程中，我们需要在更多的芯片之间进行数据的调度，更更大规模的这种协同。国内的这些算力服务器都搞不定这件事情，他没有办法说让这么多的芯片相互之间进行协调的情况下，这么长时间稳定的工作下去。推理的话相对来说要简单一些，可能只要几个芯片读出很少的数据来，他就可以把这事干完。比如说我们去提了一个问题，他给我们过了几秒钟做了一个反馈，反馈完了以后呢，他就可以再给我们分配其他芯片了。在这个过程中，芯片出现任何的问题，过热了或者说你对资源进行切换了，它是不影响的。所以呢推理咱们国内的这套系统是可以的，但是训练搞不定。

那么到底谁家的芯片可以做训练？英伟达这个必然是可以的。除了英伟达之外，还有哪些芯片可以进行大规模的这种模型训练呢？你说我这个芯片训练了一个10B的、20B的模型，这不算。或者说你说我这个虽然能够训练，但是我训练的模型从来没有人用过，这个也不算。现在唯一证实了可以进行大规模训练的，而且是训练这种大模型的，还被大家普遍接受和使用的，猜猜是谁？

很多人可能会猜是不是AMD？AMD MI300，或者现在应该是MI三百零几了吧，这样的一个芯片。不是他们。现在唯一的一个能干这个活的人，是谷歌的TPU。Gemini大模型是在上面训练出来的，Anthropic的Claude模型有部分声称是在TPU上训练的。除了英伟达之外就是他们了，再没有第二家了。

那老牌厂商像AMD、英特尔，号称我这个芯片是可以进行大规模的模型训练的，也给出了一些用他们的芯片训练大模型的实例，甚至呢还训练了一些不太流行的小模型拿出来去开源，但是他们训练出来的模型也没人用。AMD跟英特尔呢，一般大概也就是10B或者20B以内的这些小模型。另外一个呢就是富士通，富士通用一款ARM的CPU呢，也训练过一点可能也是10B以内的这种小模型吧，也没有听说过谁去用他们。

其他的一些ASIC芯片呢，也是号称自己能做。所谓ASIC芯片呢叫专用集成电路，像升腾、谷歌TPU呢都属于ASIC。亚马逊、阿里、百度呢，也都号称可以进行训练，但是呢没有实例。亚马逊号称是我拿自己的ASIC芯片呢，做了一些训练，也有几个模型，但是呢谁都没用过。OpenAI的模型，有些据说是在亚马逊上进行训练，但这个事呢，也没有得到最终的证实。百度呢是号称自己设计的ASIC芯片可以去进行训练，但是反正百度自己家的模型烂的跟屎一样，我们就不去评论了。

至于华为的升腾芯片呢，科大讯飞号称是在上面训练的。但是呢也有朋友跟我讲说，科大讯飞其实是在英伟达上训练出来的，只是呢对外宣称是在升腾上训练的，这个我们就不去做考证了。只是科大讯飞的模型，其实也没有那么普遍，除了一些教育领域里头有些人会去用，其他的让你自由选择的时候，很少有人会去选择用科大讯飞的模型。华为呢自己号称是在升腾模型上训练了盘古大模型，但是呢前面被内部的人指责蒸馏、指责抄袭，之后就不再有任何声音了。所以现在华为已经不再提他的盘古大模型这事了，估计是准备装一段时间的死狗以后，再次遥遥领先。所以华为的升腾模型，其实没有证实过训练成功过任何的大模型。Deepseek R2呢，应该是真的尝试过，但是败下阵来。

华为跟Deepseek官方呢，都没有出来证实，就既没有出来说我用了，也没有出来说我没用。所以呢升腾芯片，没有成功的训练出过任何一款大家普遍使用的模型。

那么国内的算力芯片是怎么样去竞争的呢？英伟达大概占54%，就一半多。升腾呢占28%，其实已经占的非常非常多了。像寒武纪等等其他的一些芯片公司的，所有的加在一起，可能还加上AMD的吧，一共占18%。这个大就是国内整个的算力芯片的一个分布情况。

国产的芯片呢，目前来看都是可以去做推理了，但是呢没有哪一个真的跑出来模型过。所以国内的算力芯片，基本上是没有办法做训练的。

现在呢还有一群的“赢学家”在鼓吹英伟达芯片里头有追踪器。但是这些“赢学家”呢，现在有点吹不下去了。他说呀：“这个英伟达的芯片里头，是不是在集装箱里装追踪器了？”还有人说：“是不是在包装箱里装追踪器了？”或者是说：“在服务器里边装追踪器了？”因为他们也知道，在这个芯片里头是装不上的。还有人说：“H20这里头肯定没有追踪器，但是呢H100、B200这个里头有追踪器。”这个呢都想多了。因为中国人是经历过挖矿的，我们是完完全全可以把芯片整个扒下来，重新拿新的版卡去焊。而且大量的，其实做英伟达版卡的公司就在国内，所以我们完全可以拿他的版卡，自己回来去加工这个事情。装追踪器这个事是没用的。

中国官方对于H20的态度呢，也很暧昧。有人就到外交部的新闻发布会上就问：“说你们是不是要准备禁售H20？”外交部的新闻发言人回答是：“没听说过这件事情。”中国的这些官员回答，一般都不会说是或者不是，通常回答是：“请你看以前的表态”，或者“请你看有关部门的表态”，或者说“我不知道”、“没有听说过”。所以他这一次的回答叫“没听说过”。

中国政府呢，也没有明令禁止说我们去销售H20或者谁去买这东西。但是呢潜规则就是这样去运营的。多家媒体，比如说Bloomberg、Marketwatch就做了些报道，说中国的监管部门针对H20芯片表达了强烈的不信任和谨慎态度，尤其是强调相关芯片可能存在后门的风险和数据隐患，建议企业回避在政府或敏感用途使用H20。所以呢这些H20可能最后去做训练就完了，推理的这块就通通交给国内的升腾384超节点就OK了。

还有报道说字节跳动、腾讯、百度等企业被召集，这些人是准备去买H20的。国内的有关部门把你们都召集一块说：“你们为什么要买这东西？买多少？”给他们开这样的会。监管侧重国家安全与网络安全审查，并未提出商业禁令，就是我们还是让你买，但是你买之前呢，我们得把你拎来稍微恶心恶心。所以现在都约谈过了。

总结一下吧。Deepseek R2呢确实是难产了，肯定的没有出来。国内的算力芯片目前呢，也无法进行大规模的模型训练，可以进行推理这个事没问题了，但是训练搞不定。20万块H100量级以上的大模型训练，国内很难突破。如果20万块串在一块可以训练大模型的话，我们可能至少需要40万块或者50万块，比如像升腾910C这样的芯片凑在一起，而且我们所需要消耗的电和时间，可能都是要呈几何级数上升的。因为我们卡之间的联通的速度是相对来说比较慢的。所以比如说H100，它也不是说一直就不坏，它可能工作个20个小时或者是40个小时都会坏一次，会出现问题，对于老外来说就可以去接受了。对于我们来说呢，我们可能要求要连续坚持500个小时不出问题，才能够回收回来数据了，因为算的慢嘛，真的达不到。大概就是这样的一个情况。

国内算力卡的这些供应商呢，很有可能会阻碍中国大模型的进展和训练。为什么呢？自己做不好，你又不让别人买H20，可能中国的大模型再往下一步走，就会变得非常非常困难了。

未来国内算力卡是不是可以训练大模型呢？反正一两年之内呢稍微有一些困难吧。国内的大模型到底能不能用呢？基本还是能跑的。高深的数学、科研研究、物理学或者这些基础学科，我们不去研究了。就是让你去做一些信息整理，现在国内大模型基本上都是可以用的。

还是稍微耐心地等待一下Deepseek的慢慢发展吧，它反正中间只要不需要融资，它也不需要出来吆喝，万一有惊喜呢？这个也不好说。这就是我们今天要讲的故事。