深度揭秘Grok-2开源:马斯克藏不住的“中国芯”?SGLANG与Deepseek的秘密关系。
8 月 27
AIGC, Musk传奇, OpenSource 5090D), AI Agent, AI大模型, DeepSeek, Grok-2, H20, JAX, Kimi, LLaMA, Meta, MIT协议, MOE架构, NVlink, OpenAI, SGLANG, UC伯克利, XAI, YouTube频道, 上海交通大学, 中美科技, 人工智能, 全球协作, 华为 (盘古大模型), 商业许可, 尹良生, 巨硬 (Gigabrain), 开源, 开源生态, 开源许可 (License), 微软 (Microsoft), 技术借鉴, 技术科普, 抄袭争议, 显卡要求 (H800, 智谱, 深度解析, 百度, 科技评论, 算力, 老范讲故事, 自主研发, 苹果 (Apple), 行业内幕, 谷歌 (Google), 郑连敏, 部署难度, 阿帕奇2.0, 马斯克, 高性能计算 深度揭秘Grok-2开源:马斯克藏不住的“中国芯”?SGLANG与Deepseek的秘密关系。已关闭评论
马斯克终于开源了他的Grok-2。虽迟但到,这背后隐藏着哪些不为人知的秘密呢?
大家好,欢迎收听老范讲故事的YouTube频道。
马斯克最终还是开源了他的Grok-2。原来我们还嘲笑过他,Grok-1开源完了,往那一扔就再也不管它了,有任何人提问题,你也不说什么。Grok 4都出来了,现在Grok 2都没开源出来。马斯克说:“那我们下周开源。”当时是这么讲的。然而下周完了以后,好像还是又等了那么一段时间,稍微晚了这么几天吧,Grok 2最终还是开源出来了。而且承诺呢,6个月之内,或者说在年底之前吧,有可能会去开源Grok 3。但是马斯克的话嘛,大家相信,就是他说了的事会做,但是未必按时间做。
马斯克的开源呢,只能算是符合非常广义的开源。这话什么意思呢?开源也是分原教旨主义者的,他们是肯定不会认可马斯克在开源的。第一个,马斯克不是当时发布产品马上开源,而是要过一段时间,甚至是过了一年多才去开源。而且现在他开源出来的这个版本,远远落后于当前主流模型。当然Grok 2呢也不算特别落后,它在当时刚推出的时候,应该是跟GPT-4不相上下的一个水平,但是跟后边4O,以及后边O1、O2这些东西就没法比了。跟当前的主流模型,像什么GPT-5、Grok-4、Claude 4或者是Gemini 2.5这些,它是比不过的。
而且呢,马斯克开源出来的这个大模型,对于部署是非常不友好的。你要想去把它的大模型下载下来,把它部署到自己的服务器上去,这个是非常非常痛苦的。这个大小是500G,需要在Huggingface上做断点续传。Huggingface是大模型领域里边的开源仓库嘛,你需要把这500G的文件从那上头慢慢往下传下来,错了没关系,继续再来几次。他专门给大家写了这样的一个话。
而且运行的时候呢,需要8张40G以上显存的显卡才能跑起来。8张40G以上显存的显卡什么意思呢?在国内合法可以跑的这个显卡是H800、H20、RTX 6000。你说我拿5090D跑行不行?这是为中国专门量身定做的5090,跑不起来。5090D呢是24G显存,把这个D去了,也就是国际上正常的5090是32G显存,也跑着费劲。而且呢,5090跟前面我们讲的H20比,有一个巨大的差异是什么?它没有Nvlink,卡跟卡之间的通信是很慢的。而H20这种专门的算力卡,里边是有Nvlink的,八块卡搁在一起,它还可以快速的跑起来。
当然了,Grok 2呢不是特别不友好,你像在那个当时还有一个跟Grok 2前后脚发布的产品,叫Deepseek V2,那个版本当时开源出来的时候是需要8张80G的显存的显卡才可以跑起来。这个Grok 2只需要8张40G显存的显卡就可以跑起来了。为什么会有这样的差距呢?原因很简单,当时的Deepseek V2是FP16的,而现在的Grok 2的话是FP8的,所以它会要更加的省显存一点点。
现在开源出来的呢叫Grok 2.5,并不是真正的Grok 2。它必须使用叫SGLANG的这样的一个系统来去部署。这个里边呢就会有很多故事了。大家注意,Grok 1并没有这样的要求,Grok 1使用的是Jax系统部署的。Jax是谷歌的系统。咱们待会就围绕这个SGLANG,来讲一讲它这个故事到底在哪。
马斯克的开源跟其他人开源不一样,就是他把东西开出来以后,基本上就不闻不问了。你其他人开源出来以后,你去提意见,说我哪遇到问题了,开源出来的这些公司还是要去修修补补的,调整一些东西的。马斯克就甭管是它前面的Twitter的推荐算法,还是Grok 1开源出来以后,就再也没人说这事了。你提任何事情,他都不理你,也不会做任何更新,就是这样的一种开源。
而且呢,它的开源参数呢也没有完全公开。你像Deepseek这些,都是直接告诉你我有多少参数,如何去部署,怎么去用这个东西,甚至连论文什么一块扔出来。马斯克就是我把东西扔这了,你们自己谁爱用谁用去。现在呢,大家只能通过下载的模型去猜测,它呢应该是一个269B的模型,是一个挺大的模型。
license呢也是严苛的,商务社区版本的license。所有的开源项目,你都是要有开源license,就是我拿这开源项目以后,什么事许干,什么事不许干。它这个Grok 2是不允许商用的。你就算是把它放在自己的产品里用,你说我不商用,没有达到大规模使用的这个程度,你也要在里边写上“powered by XAI”,这个都是要注明的。一旦超过了它一个使用限制以后,这个事就没法整了。Grok 1是阿帕奇2.0的license,还是一个完全开源的产品,但是到Grok 2就不是了,就已经变成了这种商业许可的产品了。
国际上面是有这种商业许可限制的大模型呢,像Llama其实是有限制的,那个也是有规定的,就是你用户量达到多少以上,你就不可以再去使用了。你拿去做一些研究是OK的,但是呢你不可以拿Llama再去训练新的模型。但是这个东西呢,说也是叫防君子不防小人吧,Llama 1开源,全中国的这些开源大模型就如雨后春笋一样夸夸就出来了。所以你去写说不允许训练其他模型,不允许去优化自己产品,不允许去商业使用这些事,反正你说着开心就好了。Grok 2呢也是这样的一份协议,大家说着开心就好了。但是差异在哪呢?就是Llama当时发布的时候是当时最领先的模型,大家会去照着去学习;但是Grok 2发布的时候就已经是去年的模型了,反正你算是开过源了吧,也就如此了。国内的模型呢,像Deepseek、千问这些,基本上都是MIT或者是阿帕奇的这种license,就是你可以拿去使,可以商用,可以自己去修改,拿它去干嘛我就不管了。所以跟他们还是有很大区别的。
咱们后边讲这个SGLANG到底是一个什么样的系统呢?它的名字是一个缩写,叫结构化生成语言。S是structure,G是general,LANG是这个language,它大概是这么三个单词拼在一起了。它的开发者呢,两个主要开发者,一个叫郑连敏,一个叫尹良生,听着像中国人吧?郑连敏呢是上海交大的本科,UC伯克利的博士,他现在就是Xai的工程师,在Xai里头主要就负责SGLANG这个版本的继续推进。明年7月份呢,会加入到UCLA任助理教授,现在UCLA的官网上已经把他的名字写上了。像美国的这些大厂里边的科学家,或者是这种大工程师呢,都会有这种两边来回流动的一个过程,去上两学期课,然后呢回来做一段时间的研究,很多的美国这些大厂的顶尖科学家是这么工作的。另外一个呢叫尹良生,尹良生呢是上海交大的本科,2025年从上海交大毕业,就是今年毕业,已经拿到了UC伯克利的博士生入学许可,准备到那儿接着去读博士了。
他们两个人写的这套系统。那你说老范,你是不是要讲中国人好厉害?比大家想象的可能还要再稍微厉害那么一点点。本身XAI里边这个中国人的比例就非常非常高,咱们这讲的是中国人,不是广泛的意义上的华人,就是从国内去的这帮人,比如清华、北大或者上海交大这些地方学完了去的,他们可能在美国读的博士,然后就在XAI里边去上班了。
但是这个项目还不太一样,咱们去稍微捋一捋这个SGLANG的一个发展历程。他是2023年12月12号发表的SGLANG的论文,当时呢郑连敏应该是在UC伯克利读博士,而尹良生应该是在上海交大还在上本科,他们两个人呢联合署名做了这样的一篇论文。到2024年5月份,Deepseek V2发布,236B的一个大模型,每次激活21B的参数。他们呢就说我们要去升级我们的版本,大概是到9月份,这个SGLANG就升级好了,专门对Deepseek进行了优化。SGLANG是Deepseek最优化的一个运行平台,你在其他平台上跑这个Deepseek都没有在SGLANG上跑得快。到2024年的8月份,Grok-2发布了,269B,每次激活115B。这个时候呢,郑连敏应该已经从UC伯克利博士毕业了,已经到了XAI去上班去了。2024年的12月份,SGLANG继续升级,这个升级是为了支持Deepseek V3的。Deepseek V3呢是2024年12月份发布的671B的一个大模型,包括后边我们讲的Deepseek R1,都是在Deepseek V3的基础上进行训练的。Deepseek最近刚出的V3.1还是671B,所以呢这都是一个系列的模型。2024年12月份还发生了一个什么事呢?grok V3发布。
大家按这个线去捋,你就基本上可以发现,Grok 1做的时候,马斯克还是满眼抓瞎的时候,不知道该怎么弄,拿着这个JAX就开干了。另外一个拿JAX开干的是谁?是苹果。苹果那个时候也是举着JAX就开干了,最后呢做出来的一个产品,但是效果一般。这个时候Deepseek大量的这种MOE模型的开源的东西就出来了,包括后面的论文什么就都出来了。上海交大这两位同学吧,他就开始去写这个SGLANG,专门针对这种MOE的模型进行优化。马斯克觉得这条路不错,那咱就干脆把这个团队招到我这来,你给我去好好维护这个SGLANG的版本,我们也在这个基础上,去训练我们的模型。
你说这个里头有抄袭没有?还是说有借鉴?我觉得说借鉴还是比较合理的。因为你去做新的研究的时候,你总要看论文吧?梁文峰写了那么多论文,你也得看。看完了以后,你说我受这个影响了,照这个方向去往前发展,这个本身没有任何问题。咱们不要老觉得说不是原创就怎么怎么样,别老想着这事。
所以从这看呢,Grok跟Deepseek还是很有缘分的。Grok 2跟Deepseek V2、V2.5,它们之间其实是有非常相近的地方。再到Grok 3跟Deepseek V3,也是有很多相近的地方了,有相互借鉴的地方。可能更多的是Grok去借鉴Deepseek,因为Grok每次出新版本的时候,它不开源也不开放出来,他要过一年以后才开放;而Deepseek每次拿出点什么东西,马上都开放了。所以这个到底谁去借鉴谁,大家自己心里去想。
其实呢,这就是开源生态的一种发展方式。很多人在讲什么“美国人一开源,中国人就自主研发、自主知识产权了”,这可不是这么回事的。开源了,我们就可以在开源协议的允许范围内去使用这些代码,甚至是去修改这些代码,再发行这些代码。他只要是协议允许你干这个事,你就可以去干。我干完了以后,我去注明了,说我是用了人家的代码,我把它写清楚就完事了。就算是前面翻车那盘古大模型,上头也写了“我用了别人东西”。但是中国人有时候没法接受这事,你说你都叫盘古了,你好意思你用别人的吗?前两天华为云内部的架构大调整,把整个的盘古这个团队全开掉了,以后这个丢人现眼的东西咱不弄了。前边别人说盘古去抄袭了,华为还在那义正词严的在那辟谣呢,辟完谣以后沉寂了俩月,直接把团队给开了。你说这玩意叫啥事?
我觉得我们应该很好的去接受这种开源生态,而不是说我一定要原创,我从来没有抄过,我从来没有用过别人,这个是相对来说比较狭隘的。你像Deepseek发了论文,公开了参数,SGLANG呢肯定是以这些公开信息为基础进行了优化。Xai呢也在这个过程中呢转型,在SGLANG基础上用同样的系统进行优化。大家走的路呢又不是完全一样,Deepseek还是要更多的考虑到算力紧张,没有NVlink的情况下,这个性能到底怎么样,到底怎么把它跑起来。Grok那就是土豪家的败家子,有的是卡,最新最好的卡,而且还有工程师爸爸负责部署和实施。他还跟微软、Oracle这些公司不一样,那些公司还需要外包,找别人去给部署。那马斯克干这玩意,肯定是没有任何问题的,因为他从特斯拉的时候就开始部署这种超算的集群,非常非常有经验。所以他可以把最好的卡、最新的卡拎回来进行部署,而且量大管饱。现在马斯克已经说,我们注册一公司叫“巨硬”,准备买上百万块的显卡,接着往前走。
马斯克算迎头赶上了,用Deepseek没有的资源,直接暴力推进。我们前面在讲Deepseek的时候就已经讲过了,马斯克肯定会照着往前冲的。苹果啥也没干,其实苹果在做大模型这块跟XAI是同时起步的,都是从JAX这开始起步的,但是苹果最后啥也没出来,马斯克这边都做出来了。梅塔呢还在老路上面去蹉跎前行,未来到底怎么走还不知道。所以呢,别人都开源了,谁你抄的好、抄的不好,或者在这个基础上到底能不能做出新东西来?我相信Grok还是创新的,我并不是说我就指责了,说“Grok你就是抄Deepseek”,没有说这话。还是得看谁可以把这个工程往前推的更远,这个才是本事。
国内的模型厂商的话,你说他们没有借鉴Deepseek吗?肯定借鉴了。他们只是说太多东西要抄了,到底抄谁的呀?这个是真正国内厂商要去头疼的事情。大家发现了,Deepseek V2的版本其实并没有那么热,到V2.5开始这个热度一下就上来了。就是从Deepseek V2.5开始,很多的国内厂商就开始转型,说我们是不是去看一看,像百度什么,他们就已经开始转型了。等到Deepseek V3出来的时候,其实就已经很热很热了。当然对于整个的行业来说,或者说对于社会来说,圈外的人真正知道Deepseek是从Deepseek R1,就是从今年1月份才开始知道这个事儿。但是从去年12月份的Deepseek V3开始,在这个程序员圈里头,在这个行业内呢,大家就已经普遍认知了,这就是一个当前最好的框架了。所以当时很多的团队就都已经都转过来了。现在Kimi k2、mini Max M1、百度的这个4.5、智谱的4.5,其实都是按照一个模式做出来的。但你说它们都是抄袭的,我觉得大家不要想这个事。大家呢都在同样的看论文,都在一个可能同学圈或者是朋友圈里边去,大家一块可能平时喝个咖啡、聊个天什么的,他是这样的一个环境。
国内大模型厂商也是相互借鉴。你看谷歌、微软,他们肯定也会去读论文,他们去做新的研究、去做新的产品的时候,“这Deepseek写的,中国人写的,我不看”,他们也不会这样的,没有那么狭隘。
今天我其实主要跟大家讲的是这样:开源才是未来的一个方向。不要上来说你抄袭,不尊重原创,这太狭隘了。咱们最后总结一下:开源是当今世界比较先进的全球化、松散协作方式。大家注意我刚才讲的这些定语:全球化、松散协作。开源呢推动了互联网、移动互联网和今天的大模型的整个产业的升级。Deepseek呢在里头起到了巨大的推动作用,包括咱们今天讲的SGLANG,都是在开源大潮里边起到了巨大的作用。
马斯克的Grok开源呢,基本上没有为社区贡献太多的东西,毕竟是去年4月份的东西嘛,还是稍微差一些的。马斯克喊开源呢,主要还是为了要吸引眼球。第一方面呢是恶心OpenAI。当然OpenAI现在人家也开源了,把GPT OSS拿出来了。但GPT OSS要比现在开源的Grok 2要强非常非常多,因为GPT OSS是大家可以用的一个产品,不是像Grok 2这样的,没有人会去用它。为什么没有人用?因为部署起来成本非常高,还是一个旧模型。我花了这么多成本,我去部署Deepseek V3.1不行吗?所以他就不想让别人用,也不想让任何人占他便宜。
马斯克现在想干的活呢,就是让更多的人去用他的Grok服务。而且呢也希望在未来呢,让更多的人呢去用他的这个巨硬的产品。那你说巨硬到底做什么的?前面他专门申请了一个商标叫巨硬,就专门为了恶心微软的,“你叫微软我叫巨硬”。一开始以为马斯克就是开个玩笑,或者说出来嘲讽一下比尔盖茨,没想着他真在里头干活。现在说了,我们这巨硬公司是真的要干活了,而且呢干这方向呢,也是大家熟悉的方向,他要做manos,就是做agent。说以后你微软的这些产品,我通通都拿各种各样的AI agent给你覆盖掉。你做了office,我就给你做个AI agent,跟他说你给我写一PPT或者给我写一什么东西,他吭哧吭哧给我写好了,我就不需要那么复杂的叫做office这些东西了。他是搞了这么一套东西出来。
大模型在不断创造内容的过程中呢,其实也在不断的污染大模型被发明之后的语言环境。所以呢,中国的创业公司跟开发者,也在不断的创造新的技术,创造新的内容。在这个过程中,再通过开发者社区或者通过开源社区,不断的将这些新的思想拿出来,去影响全球的科技发展,为全球科技发展添砖加瓦。不要想着说脱钩断链,说我们不要中国人的思考,我们不要中国人的技术,这个玩意是有毒,这个世界不是这么发展的。
咱们今天通过Grok 2的这个发布,通过Grok 2使用的SGLANG的这个平台的一个历程,你就会看到在这个过程中的话,你需要上海交大的学生来去给你写这些系统,你也需要去借鉴Deepseek的论文、借鉴他的一些思路去训练自己的模型。而且这个节奏是一模一样的,这边出Deepseek V2,那边过几个月出这个Grok 2;然后那边出Deepseek V3,你同一个月出Grok 3。这个就是同样的节奏,一模一样的往前走。所以这是一个进步的过程,别老想着谁抄谁的事。
好,今天这故事讲到这里,感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
RSS