MOE架构 – 老范讲故事｜AI、大模型与商业世界的故事

深度揭秘Grok-2开源：马斯克藏不住的“中国芯”？SGLANG与Deepseek的秘密关系。

Luke Fan — Wed, 27 Aug 2025 00:53:02 +0000

马斯克终于开源了他的Grok-2。虽迟但到，这背后隐藏着哪些不为人知的秘密呢？

马斯克最终还是开源了他的Grok-2。原来我们还嘲笑过他，Grok-1开源完了，往那一扔就再也不管它了，有任何人提问题，你也不说什么。Grok 4都出来了，现在Grok 2都没开源出来。马斯克说：“那我们下周开源。”当时是这么讲的。然而下周完了以后，好像还是又等了那么一段时间，稍微晚了这么几天吧，Grok 2最终还是开源出来了。而且承诺呢，6个月之内，或者说在年底之前吧，有可能会去开源Grok 3。但是马斯克的话嘛，大家相信，就是他说了的事会做，但是未必按时间做。

马斯克的开源呢，只能算是符合非常广义的开源。这话什么意思呢？开源也是分原教旨主义者的，他们是肯定不会认可马斯克在开源的。第一个，马斯克不是当时发布产品马上开源，而是要过一段时间，甚至是过了一年多才去开源。而且现在他开源出来的这个版本，远远落后于当前主流模型。当然Grok 2呢也不算特别落后，它在当时刚推出的时候，应该是跟GPT-4不相上下的一个水平，但是跟后边4O，以及后边O1、O2这些东西就没法比了。跟当前的主流模型，像什么GPT-5、Grok-4、Claude 4或者是Gemini 2.5这些，它是比不过的。

而且呢，马斯克开源出来的这个大模型，对于部署是非常不友好的。你要想去把它的大模型下载下来，把它部署到自己的服务器上去，这个是非常非常痛苦的。这个大小是500G，需要在Huggingface上做断点续传。Huggingface是大模型领域里边的开源仓库嘛，你需要把这500G的文件从那上头慢慢往下传下来，错了没关系，继续再来几次。他专门给大家写了这样的一个话。

而且运行的时候呢，需要8张40G以上显存的显卡才能跑起来。8张40G以上显存的显卡什么意思呢？在国内合法可以跑的这个显卡是H800、H20、RTX 6000。你说我拿5090D跑行不行？这是为中国专门量身定做的5090，跑不起来。5090D呢是24G显存，把这个D去了，也就是国际上正常的5090是32G显存，也跑着费劲。而且呢，5090跟前面我们讲的H20比，有一个巨大的差异是什么？它没有Nvlink，卡跟卡之间的通信是很慢的。而H20这种专门的算力卡，里边是有Nvlink的，八块卡搁在一起，它还可以快速的跑起来。

当然了，Grok 2呢不是特别不友好，你像在那个当时还有一个跟Grok 2前后脚发布的产品，叫Deepseek V2，那个版本当时开源出来的时候是需要8张80G的显存的显卡才可以跑起来。这个Grok 2只需要8张40G显存的显卡就可以跑起来了。为什么会有这样的差距呢？原因很简单，当时的Deepseek V2是FP16的，而现在的Grok 2的话是FP8的，所以它会要更加的省显存一点点。

现在开源出来的呢叫Grok 2.5，并不是真正的Grok 2。它必须使用叫SGLANG的这样的一个系统来去部署。这个里边呢就会有很多故事了。大家注意，Grok 1并没有这样的要求，Grok 1使用的是Jax系统部署的。Jax是谷歌的系统。咱们待会就围绕这个SGLANG，来讲一讲它这个故事到底在哪。

马斯克的开源跟其他人开源不一样，就是他把东西开出来以后，基本上就不闻不问了。你其他人开源出来以后，你去提意见，说我哪遇到问题了，开源出来的这些公司还是要去修修补补的，调整一些东西的。马斯克就甭管是它前面的Twitter的推荐算法，还是Grok 1开源出来以后，就再也没人说这事了。你提任何事情，他都不理你，也不会做任何更新，就是这样的一种开源。

而且呢，它的开源参数呢也没有完全公开。你像Deepseek这些，都是直接告诉你我有多少参数，如何去部署，怎么去用这个东西，甚至连论文什么一块扔出来。马斯克就是我把东西扔这了，你们自己谁爱用谁用去。现在呢，大家只能通过下载的模型去猜测，它呢应该是一个269B的模型，是一个挺大的模型。

license呢也是严苛的，商务社区版本的license。所有的开源项目，你都是要有开源license，就是我拿这开源项目以后，什么事许干，什么事不许干。它这个Grok 2是不允许商用的。你就算是把它放在自己的产品里用，你说我不商用，没有达到大规模使用的这个程度，你也要在里边写上“powered by XAI”，这个都是要注明的。一旦超过了它一个使用限制以后，这个事就没法整了。Grok 1是阿帕奇2.0的license，还是一个完全开源的产品，但是到Grok 2就不是了，就已经变成了这种商业许可的产品了。

国际上面是有这种商业许可限制的大模型呢，像Llama其实是有限制的，那个也是有规定的，就是你用户量达到多少以上，你就不可以再去使用了。你拿去做一些研究是OK的，但是呢你不可以拿Llama再去训练新的模型。但是这个东西呢，说也是叫防君子不防小人吧，Llama 1开源，全中国的这些开源大模型就如雨后春笋一样夸夸就出来了。所以你去写说不允许训练其他模型，不允许去优化自己产品，不允许去商业使用这些事，反正你说着开心就好了。Grok 2呢也是这样的一份协议，大家说着开心就好了。但是差异在哪呢？就是Llama当时发布的时候是当时最领先的模型，大家会去照着去学习；但是Grok 2发布的时候就已经是去年的模型了，反正你算是开过源了吧，也就如此了。国内的模型呢，像Deepseek、千问这些，基本上都是MIT或者是阿帕奇的这种license，就是你可以拿去使，可以商用，可以自己去修改，拿它去干嘛我就不管了。所以跟他们还是有很大区别的。

咱们后边讲这个SGLANG到底是一个什么样的系统呢？它的名字是一个缩写，叫结构化生成语言。S是structure，G是general，LANG是这个language，它大概是这么三个单词拼在一起了。它的开发者呢，两个主要开发者，一个叫郑连敏，一个叫尹良生，听着像中国人吧？郑连敏呢是上海交大的本科，UC伯克利的博士，他现在就是Xai的工程师，在Xai里头主要就负责SGLANG这个版本的继续推进。明年7月份呢，会加入到UCLA任助理教授，现在UCLA的官网上已经把他的名字写上了。像美国的这些大厂里边的科学家，或者是这种大工程师呢，都会有这种两边来回流动的一个过程，去上两学期课，然后呢回来做一段时间的研究，很多的美国这些大厂的顶尖科学家是这么工作的。另外一个呢叫尹良生，尹良生呢是上海交大的本科，2025年从上海交大毕业，就是今年毕业，已经拿到了UC伯克利的博士生入学许可，准备到那儿接着去读博士了。

他们两个人写的这套系统。那你说老范，你是不是要讲中国人好厉害？比大家想象的可能还要再稍微厉害那么一点点。本身XAI里边这个中国人的比例就非常非常高，咱们这讲的是中国人，不是广泛的意义上的华人，就是从国内去的这帮人，比如清华、北大或者上海交大这些地方学完了去的，他们可能在美国读的博士，然后就在XAI里边去上班了。

但是这个项目还不太一样，咱们去稍微捋一捋这个SGLANG的一个发展历程。他是2023年12月12号发表的SGLANG的论文，当时呢郑连敏应该是在UC伯克利读博士，而尹良生应该是在上海交大还在上本科，他们两个人呢联合署名做了这样的一篇论文。到2024年5月份，Deepseek V2发布，236B的一个大模型，每次激活21B的参数。他们呢就说我们要去升级我们的版本，大概是到9月份，这个SGLANG就升级好了，专门对Deepseek进行了优化。SGLANG是Deepseek最优化的一个运行平台，你在其他平台上跑这个Deepseek都没有在SGLANG上跑得快。到2024年的8月份，Grok-2发布了，269B，每次激活115B。这个时候呢，郑连敏应该已经从UC伯克利博士毕业了，已经到了XAI去上班去了。2024年的12月份，SGLANG继续升级，这个升级是为了支持Deepseek V3的。Deepseek V3呢是2024年12月份发布的671B的一个大模型，包括后边我们讲的Deepseek R1，都是在Deepseek V3的基础上进行训练的。Deepseek最近刚出的V3.1还是671B，所以呢这都是一个系列的模型。2024年12月份还发生了一个什么事呢？grok V3发布。

大家按这个线去捋，你就基本上可以发现，Grok 1做的时候，马斯克还是满眼抓瞎的时候，不知道该怎么弄，拿着这个JAX就开干了。另外一个拿JAX开干的是谁？是苹果。苹果那个时候也是举着JAX就开干了，最后呢做出来的一个产品，但是效果一般。这个时候Deepseek大量的这种MOE模型的开源的东西就出来了，包括后面的论文什么就都出来了。上海交大这两位同学吧，他就开始去写这个SGLANG，专门针对这种MOE的模型进行优化。马斯克觉得这条路不错，那咱就干脆把这个团队招到我这来，你给我去好好维护这个SGLANG的版本，我们也在这个基础上，去训练我们的模型。

你说这个里头有抄袭没有？还是说有借鉴？我觉得说借鉴还是比较合理的。因为你去做新的研究的时候，你总要看论文吧？梁文峰写了那么多论文，你也得看。看完了以后，你说我受这个影响了，照这个方向去往前发展，这个本身没有任何问题。咱们不要老觉得说不是原创就怎么怎么样，别老想着这事。

所以从这看呢，Grok跟Deepseek还是很有缘分的。Grok 2跟Deepseek V2、V2.5，它们之间其实是有非常相近的地方。再到Grok 3跟Deepseek V3，也是有很多相近的地方了，有相互借鉴的地方。可能更多的是Grok去借鉴Deepseek，因为Grok每次出新版本的时候，它不开源也不开放出来，他要过一年以后才开放；而Deepseek每次拿出点什么东西，马上都开放了。所以这个到底谁去借鉴谁，大家自己心里去想。

其实呢，这就是开源生态的一种发展方式。很多人在讲什么“美国人一开源，中国人就自主研发、自主知识产权了”，这可不是这么回事的。开源了，我们就可以在开源协议的允许范围内去使用这些代码，甚至是去修改这些代码，再发行这些代码。他只要是协议允许你干这个事，你就可以去干。我干完了以后，我去注明了，说我是用了人家的代码，我把它写清楚就完事了。就算是前面翻车那盘古大模型，上头也写了“我用了别人东西”。但是中国人有时候没法接受这事，你说你都叫盘古了，你好意思你用别人的吗？前两天华为云内部的架构大调整，把整个的盘古这个团队全开掉了，以后这个丢人现眼的东西咱不弄了。前边别人说盘古去抄袭了，华为还在那义正词严的在那辟谣呢，辟完谣以后沉寂了俩月，直接把团队给开了。你说这玩意叫啥事？

我觉得我们应该很好的去接受这种开源生态，而不是说我一定要原创，我从来没有抄过，我从来没有用过别人，这个是相对来说比较狭隘的。你像Deepseek发了论文，公开了参数，SGLANG呢肯定是以这些公开信息为基础进行了优化。Xai呢也在这个过程中呢转型，在SGLANG基础上用同样的系统进行优化。大家走的路呢又不是完全一样，Deepseek还是要更多的考虑到算力紧张，没有NVlink的情况下，这个性能到底怎么样，到底怎么把它跑起来。Grok那就是土豪家的败家子，有的是卡，最新最好的卡，而且还有工程师爸爸负责部署和实施。他还跟微软、Oracle这些公司不一样，那些公司还需要外包，找别人去给部署。那马斯克干这玩意，肯定是没有任何问题的，因为他从特斯拉的时候就开始部署这种超算的集群，非常非常有经验。所以他可以把最好的卡、最新的卡拎回来进行部署，而且量大管饱。现在马斯克已经说，我们注册一公司叫“巨硬”，准备买上百万块的显卡，接着往前走。

马斯克算迎头赶上了，用Deepseek没有的资源，直接暴力推进。我们前面在讲Deepseek的时候就已经讲过了，马斯克肯定会照着往前冲的。苹果啥也没干，其实苹果在做大模型这块跟XAI是同时起步的，都是从JAX这开始起步的，但是苹果最后啥也没出来，马斯克这边都做出来了。梅塔呢还在老路上面去蹉跎前行，未来到底怎么走还不知道。所以呢，别人都开源了，谁你抄的好、抄的不好，或者在这个基础上到底能不能做出新东西来？我相信Grok还是创新的，我并不是说我就指责了，说“Grok你就是抄Deepseek”，没有说这话。还是得看谁可以把这个工程往前推的更远，这个才是本事。

国内的模型厂商的话，你说他们没有借鉴Deepseek吗？肯定借鉴了。他们只是说太多东西要抄了，到底抄谁的呀？这个是真正国内厂商要去头疼的事情。大家发现了，Deepseek V2的版本其实并没有那么热，到V2.5开始这个热度一下就上来了。就是从Deepseek V2.5开始，很多的国内厂商就开始转型，说我们是不是去看一看，像百度什么，他们就已经开始转型了。等到Deepseek V3出来的时候，其实就已经很热很热了。当然对于整个的行业来说，或者说对于社会来说，圈外的人真正知道Deepseek是从Deepseek R1，就是从今年1月份才开始知道这个事儿。但是从去年12月份的Deepseek V3开始，在这个程序员圈里头，在这个行业内呢，大家就已经普遍认知了，这就是一个当前最好的框架了。所以当时很多的团队就都已经都转过来了。现在Kimi k2、mini Max M1、百度的这个4.5、智谱的4.5，其实都是按照一个模式做出来的。但你说它们都是抄袭的，我觉得大家不要想这个事。大家呢都在同样的看论文，都在一个可能同学圈或者是朋友圈里边去，大家一块可能平时喝个咖啡、聊个天什么的，他是这样的一个环境。

国内大模型厂商也是相互借鉴。你看谷歌、微软，他们肯定也会去读论文，他们去做新的研究、去做新的产品的时候，“这Deepseek写的，中国人写的，我不看”，他们也不会这样的，没有那么狭隘。

今天我其实主要跟大家讲的是这样：开源才是未来的一个方向。不要上来说你抄袭，不尊重原创，这太狭隘了。咱们最后总结一下：开源是当今世界比较先进的全球化、松散协作方式。大家注意我刚才讲的这些定语：全球化、松散协作。开源呢推动了互联网、移动互联网和今天的大模型的整个产业的升级。Deepseek呢在里头起到了巨大的推动作用，包括咱们今天讲的SGLANG，都是在开源大潮里边起到了巨大的作用。

马斯克的Grok开源呢，基本上没有为社区贡献太多的东西，毕竟是去年4月份的东西嘛，还是稍微差一些的。马斯克喊开源呢，主要还是为了要吸引眼球。第一方面呢是恶心OpenAI。当然OpenAI现在人家也开源了，把GPT OSS拿出来了。但GPT OSS要比现在开源的Grok 2要强非常非常多，因为GPT OSS是大家可以用的一个产品，不是像Grok 2这样的，没有人会去用它。为什么没有人用？因为部署起来成本非常高，还是一个旧模型。我花了这么多成本，我去部署Deepseek V3.1不行吗？所以他就不想让别人用，也不想让任何人占他便宜。

马斯克现在想干的活呢，就是让更多的人去用他的Grok服务。而且呢也希望在未来呢，让更多的人呢去用他的这个巨硬的产品。那你说巨硬到底做什么的？前面他专门申请了一个商标叫巨硬，就专门为了恶心微软的，“你叫微软我叫巨硬”。一开始以为马斯克就是开个玩笑，或者说出来嘲讽一下比尔盖茨，没想着他真在里头干活。现在说了，我们这巨硬公司是真的要干活了，而且呢干这方向呢，也是大家熟悉的方向，他要做manos，就是做agent。说以后你微软的这些产品，我通通都拿各种各样的AI agent给你覆盖掉。你做了office，我就给你做个AI agent，跟他说你给我写一PPT或者给我写一什么东西，他吭哧吭哧给我写好了，我就不需要那么复杂的叫做office这些东西了。他是搞了这么一套东西出来。

大模型在不断创造内容的过程中呢，其实也在不断的污染大模型被发明之后的语言环境。所以呢，中国的创业公司跟开发者，也在不断的创造新的技术，创造新的内容。在这个过程中，再通过开发者社区或者通过开源社区，不断的将这些新的思想拿出来，去影响全球的科技发展，为全球科技发展添砖加瓦。不要想着说脱钩断链，说我们不要中国人的思考，我们不要中国人的技术，这个玩意是有毒，这个世界不是这么发展的。

咱们今天通过Grok 2的这个发布，通过Grok 2使用的SGLANG的这个平台的一个历程，你就会看到在这个过程中的话，你需要上海交大的学生来去给你写这些系统，你也需要去借鉴Deepseek的论文、借鉴他的一些思路去训练自己的模型。而且这个节奏是一模一样的，这边出Deepseek V2，那边过几个月出这个Grok 2；然后那边出Deepseek V3，你同一个月出Grok 3。这个就是同样的节奏，一模一样的往前走。所以这是一个进步的过程，别老想着谁抄谁的事。

好，今天这故事讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？

Luke Fan — Mon, 07 Apr 2025 00:45:28 +0000

Llama4发布了。这里的黎明静悄悄，没有什么响动。这是怎么回事？

大家好，欢迎收听老范讲故事的YouTube频道。一觉醒来，Llama4就发布了。扎克伯格亲自在Facebook的REELS（也就是Facebook的短视频里面）发了一条视频，说Llama4发布了，今天是Llama4日。

Llama4呢，一共是有三个版本：
第一个叫Scout（侦察兵版本），总参数1,090亿（也就是109B），活跃参数是170亿，包含16个专家模块。对的，Llama终于也放弃抵抗了，从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型，Llama3.3还给了一个400多B的单一模型，到Llama4彻底放弃抵抗了。

现在呢，支持1,000万TOKEN这种上下文，这个是Llama4最大的一个特点。DeepSeek是64K（也就是64,000个TOKEN上下文），现在上下文比较大的Gemini大概是能到2兆（200万），Llama4直接给了一个10兆（1,000万TOKEN），这是它做的一个很创新的点。

1,000万TOKEN的上下文可以干嘛？可以处理20小时以上的视频或者超长文档，是行业领先的长上下文技术。采用了混合专家模型（也就是MOE架构），在INT4量化后，可以在单个的H100 GPU上运行，每秒处理42,400个TOKEN，还是速度比较快的。但是要注意，即使经过量化到Intel4上，它也必须要有H100，否则跑不起来这东西。所以咱们普通的电脑就别惦记了，最小的模型就是它了，没有更小的了。

所以这一次Llama4的发布，并不像以前的Llama1、Llama2、Llama3似的，把各个尺寸的模型都做出来（从7b、14b、72b、32b什么这些都做一遍），没有，上来最小的一个就是109B。它可以支持文本、图像、音频、视频的输入，目前呢只支持文本的输出，未来应该会出现全模态输出的版本。这是它最小的一个侦察兵。

中间的模型呢叫MARVELIC（独行侠），总参数量400B，活跃参数量17B，包含128个专家模块。它的专家模块变多了，超越GPT4O、DeepSeek V3，仅次于闭源模型Gemini2.5 Pro。Gemini2.5 Pro现在还是最强的，没有之一。在编程和数学任务中，仅用DeepSeek V3一半的参数即可达到相当的性能，但是你上再多参数也就这水平了。

所以，它在数学跟编程角度上来说，跟DeepSeek V3应该是半斤八两，只是它的运算效率要更高一些。最大的一个叫Behemoth（巨兽），总参数量2000B，活跃参数量288B，包含16个专家模块，使用30万亿多模态TOKEN（就是文本、图像、视频），在32K（也就是32,000个GPU）上训练，FP8精度，提升效率。所以，你有足够的显卡才可以玩这件事情——32,000块显卡。Deepseek到现在为止，都没有承认它有这么多块显卡。所以，这种巨兽，国内追赶起来是比较费劲的。

只是呢，这一个产品目前并没有发布出来，前面两个发布了，这个应该是在2025年的下半年发布。这个巨兽在数学、科学等基准测试中，超越了GPT 4.5、Claude sonnet 3.7和Gemini2.0 Pro。但是是不是超越了2.5 Pro，我现在没有看到相应的介绍。它呢，主要的作用是作为教师模型，用于知识蒸馏——就是我做一最大的，然后下边这些小的模型、中型的模型，都是拿这个最大的进行蒸馏，蒸馏出来的。现在呢，它也转向了MOE，性能有所提升，但是呢并没有那么明显。最大的特点就是1,000万输入，这个是Llama4做的最不一样的一个点。

目前呢，支持全模态输入、文字输出；未来呢，会支持全模态输出，就是端到端的全模态输出。你甚至可以跟它去直接聊天，还可以打断它，就像现在的GPT4O高级语音功能一样。但是这个什么时候出来还不确定。如果能够有全模态输出的话，还是值得期待一下的。未来的方向一定是全模态、端到端的输入输出，现在新的模型都在向这个方向走。

那么，为什么没有什么声音讨论它呢？Llama1出来的时候，整个的行业都震动了——这样程度的一个模型一下就开源了，大家都可以拿来去研究了。Llama2出来一看，又可以往前走一步。其实Llama1跟GPT3.5还是有差距的，到Llama2出来以后说“哎，可以用了”，进行一些微调以后，就真的可以去解决一些ToB的，或者说使用范围相对比较集中的应用，就可以直接用起来了。我记得是在两年前，就很多国内的项目就在微调Llama。等到Llama3出来的时候说，这个虽然达不到GPT4的水平，但是已经很接近了，大家拿这个东西去稍微调一调，就可以跑了。

在Llama3出来以后的话，千问就开始疯狂的去输出各种各样尺寸的模型，就是千问2.0、千问2.5，这一批就直接追赶上来了。但是到Llama4出来，大家没说什么。

这到底是什么样的一个情况？我呢，第一时间还上去试了一下。现在你到Open Router这个网站上，你是可以进行测试的，而且是免费的。侦察兵版和独行侠版都可以使用，也有收费的版本。收费版本就是比免费的版本稍微快一点点，主观感受上没有特别大的差异。

那你说真的没有什么提升吗？这个肯定不对。它呢，跟现在的GPT-4O、Gemini 2.5、Claude 3.7这种主流模型比起来，确实没有什么提升。哈哈，这个基本上跟他们算站在同一个起跑线上，可能跟Gemini 2.5还稍微的差一点。Gemini 2.5不太友好的地方就是它比较慢，现在的Llama 4是很快的。但是呢，这个Llama 4比Llama 3、3.1、3.2、3.3这些版本还是有巨大提升的，特别是在中文这一块，效果好了非常非常多。大家可以去试一试，就完全可以达到能用的状态了。这个原来在Llama 3的水平上还是达不到的。

那么为什么不觉得震撼了呢？原来Llama虽然和闭源模型比起来稍有差距，但是呢，毕竟你是开源的吧，开源圈里的扛把子。现在的开源模型也卷起来了，DeepSeek绝对达到了可用程度，千问现在也绝对在数量上碾压。怎么叫数量上碾压？就是千问的模型是数量非常大呀，零点几B，然后到4B、7B、14B、32B、34B，多模态的推理的全都有。这块非常非常完善，而且有非常多的人在以千问模型为基础进行微调。因为你要到手机上，或者到一些嵌入式设备上去进行操控的话，你拿千问这种小模型微调是很方便的。给你一个105B的模型，你拿去微调的话，这个就有点费劲了。所以现在你到Hugging Face上去看，最受欢迎的开源模型基本上都是千问或者是千问系的。

所以从数量上，千问绝对赶超Llama。从能用程度上说，DeepSeek比它早发布了几个月，已经达到完全可用的一个状态了。现在Llama 4再拿出来，并没有划时代的提升。同样作为开源版本的大模型，他就没有那么震撼，已经有审美疲劳了。当然了，Llama 4出来，应该大家还是会去抄的。这Llama 1、Llama 2、Llama 3出来以后，实际上对至少国内的大模型产业都是有极强的促进作用的。Llama 4出来呢，应该也是有这种意义。千问和DeepSeek应该会尝试使用这种超长上下文的技术，因为它是1,000万TOKEN嘛。所以这一块至少千问应该会去追赶一下，DeepSeek的话……

现在到底在忙什么？不确定。当然，DeepSeek呢，应该也会在多模态上奋起直追。只是奋起直追多莫泰这个事呢，对于卡的数量是一个考验。DeepSeek前面一直说我没有那么多卡，看看后边这个话怎么把它说圆回来吧。

那么现在大模型到底在卷什么？大模型最终有可能还是会走向超级APP的道路。好像现在各大厂商依然在尝试卷超级APP，而且超级APP才是流量入口的一个锚点。你没有流量入口的话，你的模型做的再好，其实没有什么意义。这件事情上，以谷歌和Meta作为反面典型，大家看一看。谷歌的大模型其实一直做的还可以的，只是呢它的入口做的比较烂，大家就一直用的比较少。谷歌每一次出新的大模型，先给程序员用，他自己telegram内部用户，甭管是付费的还是免费的，都要很晚才能接触到他们最新的模型。而Meta，Llama做到现在了，做的这么热闹，Meta的用户，甭管是Facebook用户、Instagram用户，其实并没有感觉有特别大的体验上的提升。这个是两个典型案例。

这里还有一个正面案例，谁啊？就是马斯克的Xa i 1，一做出来以后，第一件事在x平台上，直接给了一个最核心的入口，直接给了一个Grok的入口，你一点就可以进去聊天去了。现在ChatGPT呢已经是超级APP了，Claude呢应该也接近成为超级APP了。谷歌呢算突然惊醒，ChatGPT 2.5 Pro上来以后，直接把Gemini客户端的经理给干掉了，把Notebook LM的负责人拎回来，你去给大家继续去做Gemini客户端去。这个Notebook LM是用户所喜欢的，Gemini被人骂了这么久了，我们要换一换了。而且Gemini 2.5 Pro一上来，就直接给Gemini的免费用户就开放了。所以谷歌已经醒过味了，说我们要换一个姿势了。

现在呢卷王们已经下场了。阿里还在内斗，千问跟夸克还要在内部做一次赛马。腾讯的元宝已经开始疯狂砸钱了。现在的进展到什么样的一个状态了？就这些超级APP都是带有搜索、知识库和靠谱推理的一个结果生成。目前我们现在看到的所有的超级APP，或者叫AI方面的超级APP，基本上都是在这个起跑线上。语音端到端呢，OpenAI做了，Claude我不确定做没做，好像没有。Grok英文的部分已经有了，中文的部分没有。豆包已经做出来了，千问和夸克现在正在奋起直追，腾讯的元宝也还在努力的往前走。

DeepSeek在这一块做的稍微有点拉胯。它的语音部分和图屏的部分，就是多模态的部分，稍微差那么一点点。再往后就是图片、视频、音频的理解和生成。现在这些呃超级APP，OpenAI是完全可以实现图片理解、图片生成，甚至是视频生成，这些功能都是完整的。谷歌其实它的功能都做出来了，但是Gemini里头好多没接，这块还要再奋起直追一下。

阿里的千问还有像夸克，包括字节的豆包，在这一块已经都做了图片理解、图片生成，包括修图改图，包括一些视频生成，现在他们都已经做出来了。其他的还在奋起直追。全新的形态是无法跟传统的形态进行有机结合的，或者结合起来比较费劲。现在唯一结合成功，或者大家感觉还比较顺眼的，就是x集合XAI，而且两个公司还合并了。

其他公司都是尝试在传统的产品形态之外，寻找新的应用形态，或者新的用户使用形态。所以都是做的独立的APP，甭管是腾讯、阿里还是谷歌，或者是字节，都是做出独立APP来，希望能够去抢占新的入口。现在呢是新场景已经有了，底层技术基本上拉平，就这么一个状态。甭管是豆包的推理模型，还是腾讯推理模型，包括DeepSeek，还有像谷歌的Gemini 2.5 Pro、GPT-4O、Claude 3.7这些模型，它们其实基本上算是拉平了。谁比谁好一些，但是并没有好出那么多去。

现在可能唯一能够明显感觉到有差距的，是Gemini 2.5 Pro。那么当新场景出现了，底层技术又基本拉平以后，剩下的就是一个字了——卷吧。这件事咱们中国人擅长，后面还要看大家怎么冲上去。

现在留给Meta的时间已经不多了，开源大模型的老大位置应该已经不是他的了。Grok的卡应该比Llama可能稍微少一些，但是XAI的卡要比Llama的新。Grok也是开源的，只是Grok没有把最新的开源出来。它现在是上一代的Grok 2要去开源，现在Grok 3出来以后，它准备把2开源出来。这个3的话可能要等到Grok 4出来以后再去开源。但是呢，你也是开源模型，而且Grok 3特别是配上AI agent以后，相当的好用。

DeepSeek在多模态和长文本上呢，还有所欠缺，但是达到可用状态，这个要比Llama4要早好几个月。所以在这一块上，Meta的开源大模型老大的位置也被动摇了。再加上可能在最近的一两周里头，千问3也要出来。现在大家使用都是千问2.5，千问3一旦下来以后的话，有可能整个开源大模型的座次……

还要再重排一次。开发独立APP对于美塔来说，应该是刻不容缓了。Meta也有计划，在4月份准备上线超级APP。

这个中间呢，还少了一步。Meta少哪一步？AI agent它没做。就甭管是deep search、deeper search或者这些东西，他都没做。而且呢，他还缺一个什么东西？就是他的function call和MCP都没有。他的模型你只能是给出提示词，然后那边生成结果。你说我在这边给一大堆的function call的描述，或者是给MCP的描述，我在生成的过程中可以调用外部数据，这个到Llama4依然没有。所以这一块，Meta稍微有些落后了。

而且现在从Meta发布的Llama4来看，它已经完全退出了小模型的竞争。最小的侦察兵109B，你没有H100跑不起来。在这一块上，阿里已经算是稳赢了。所以阿里作为AI公司，基本上已经站住脚跟了。现在其他还在做小模型的公司，一个是微软，一个是谷歌。谷歌的Gemma3现在是有各种小模型的。还有就是欧洲的Mistral，他们也有一些小模型，只是呢Mistral的声音没有那么大。

Meta呢，算是手里有卡，有数据、有用户、有钱，还有一大堆的现成的用户使用场景。必须要做的事情，是探索新的用户使用场景。如果老惦记去玩眼镜的话，那可能真的会被抛下的。AI的牛皮不能总靠卡的数量来维持下去，卡估值的逻辑正在坍塌。所以Meta必须要在卡估值逻辑坍塌之前，拿出来一个被大家可以接受的超级APP，或者说一个全新应用场景的服务，可以去跟其他的这些大模型超级APP去进行竞争。否则的话，它的故事会讲不下去的。

好，这就是今天Llama 4发出了以后的第一期视频。未来的话，Llama 4可能更进一步的功能被暴露出来，或者说大家又试出什么好玩的来，那再去录视频跟大家分享。好，这一期就讲到这里，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

马斯克Grok-2登场，可订阅才8美元，真的划算吗？推翻AI市场的游戏规则，Elon Musk的肖像被拿来玩儿梗图！

Luke Fan — Tue, 20 Aug 2024 13:33:21 +0000

Grok 2出来了，老板马斯克就是拿来开涮。马斯克各种梗图突然开始满天飞了，这是什么东西呢？就是XAI做的Grok大模型的第二版，Grok 2发布了，包括特朗普跟贺锦利的各种梗图也在飞了。其中有一张是特朗普去抚摸贺锦利怀孕的肚子呀。但其实玩的呢，并不是Grok 2，而是什么叫Flux 1。

首先分析下时间点，为什么在这个时间要去出Grok 2呢？第一个，3月份我开始测试了，Grok 2已经开始测试了，测试到8月份呢，也差不多开始出了。而且3月份，Grok一开源了，然而开源之后就再也没有更新过任何的代码，也没有去回答过任何的issues或者是Pull request，这个都再也没有动过，完全死水一潭。马斯克的开源就是这么开的，我开了，用不用是你的事，我反正不理你，我也不会再更新任何代码。

包括推特，原来开源的推荐算法，包括Grok 1都是这样的，开了就挂在这了，爱使不使。而且它开出来以后，你自己到底能不能部署得上去，能不能把他们这个用起来去测试，他就完全不管了。你提任何问题，他也不理你啊，这就是马斯克开源。

现在是AIGC的集中爆发，谷歌、苹果、美塔、OpenAI、Anthropic都不消停，都在疯狂的你方唱罢我登场。我发一个东西，互相在这别苗头。马斯克别地发出点声音来，特别是在他撤销了对OpenAI的诉讼之后，最近又重启了对OpenAI的诉讼重新起诉他。

现在分析为什么马斯克会在撤诉之后再重启。因为他每一次诉讼，过一段时间以后，法院会去判定说你这个案子是不是要撤诉，而如果发现你的证据不足，就不要浪费纳税人的钱，我就给你撤诉了。

所以，上一次呢，马斯克是在法官宣布可以撤诉之前的一天，自己跑去撤诉的，算是他主动撤诉。等过了这么几个月以后，说来咱们再诉讼。要知道，这种诉讼挂在身上的时候，你要再去做各种融资，是非常麻烦的，因为你身上挂的有诉讼，而且是跟马斯克打官司，官司还没打完，还在那挂着。在这个时候做融资，都很讨厌。

所以，他还在不停地折腾 OpenAI 的算力中心，10万张 H100 的这个算力中心，7月22号正式上线。3.5万张 H100 的特斯拉算力中心是去年上线的，年底计划再来9万张 H100。就是本来这些 H100 应该是属于特斯拉算力中心的，被他挪给了 XAI 的算力中心。XAI 那批订货的 H100 今年的9月份到货，所以特斯拉的算力中心是晚一些，可以继续使用这些 X100 和 P100。

而且呢，XAI 的估值是所有 AI GC 公司里的老二，最贵的是 OpenAI，860 亿美金，第二贵的就是 XAI，240 亿美金。你这么贵的公司，前面人家都说了这么多声音来了，在这样的一个月份里不发出点声来，有点过不去。所以，马斯克也就没有办法，只能在这个时候把 Grok 2 拿出来了。

Grok 2 到底算不算开源呢？哼，不能算，因为 Grok 1 是开源的，虽然开源了，也是个假开源，没什么人用。而现在给出的数据是 Grok 1 有 13,140 亿参数，使用谷歌 Jax 和 Dax 的架构进行训练，MOE 就是多模型的这种专家结构进行搭建的。这是 Grok 1。Grok 2 到底是什么样的模型，谁也不知道，他也没说，说这东西就来了，也没有任何问答出来。这就是马斯克现在拿出来的东西。当时 Grok 1 出来的时候，我都感觉 Grok 这个模型是准备放弃了，不玩了。

结果，马斯克现在发了2，而且据说还在训练Grok 3，都在开干。但是Grok 2现在还不知道到底是不是开源。理论上说，未来不定什么时候他就开了，而马斯克都是比较随性，可能会突然开源，夸嚓把代码往那一扔就不动了，你爱使不使。能用不起来他就不管了。

现在GitHub上，XAI组织架构下只有一个开源项目，就是Grok 1。现在马斯克也好，大家都在喊一个什么事，说这是你们可以用到的最好的AI，而且最便宜。为什么呢？你只需要花8美元订阅，就可以用起来了。因为ChatGPT是需要20美元订阅的，AnswerOpen Cloud、谷歌的Gemini、微软的Copilot都是20美元一个月，只有XAI说我们家的Grok 8美元一个月，他比别人便宜。

Grok订阅的最大优势就是便宜，而且是可以实时地获得推特内容进行回复。我现在有很多事情需要去查询的时候，我都是去问Grok的，在Grok 2出来之前就开始这么干了。为什么呢？就知道别人在说什么，特别是有很多发布会，比如明开发布会。你今儿问说发布会要说什么呀，Grok预测的极准确吧，因为有一堆人在下头做预测。他给你搜索完了，总结归纳一下，啪，把东西拿出来一看，第二天就发这些东西，这个还是非常棒的。

风格很独特，风趣幽默，内容有更好的传播性。你用Google生成的内容，再去转发，再去到Twitter里面去流传，他会更加容易被人点赞。其实我们玩Twitter、玩YouTube、玩Facebook，这所有的这些社交媒体，我们要的就是互动。说我发完了以后没有人理我，这是一个很无聊的事情，一定要有人理你。那么API更简单，适合快速集成。

这个呢是Grok自己给出的答案。但是我找了半天，并没有找到Grok API的使用方法，可能还没有放出来。数据处理的政策更加开放透明，而不像是很多其他的公司，他们有很多隐私侵犯的问题。原因其实也很简单，Grok训练就是用我们推特数据训练。我们使用推特，就默认同意把数据交给Grok去训练，他也不到外边再去拿别的数据了。而且你发推特的目的就是为了让人看。既然已经被人看了，Grok再给我训练一下，也就这样。所以他的数据政策相对来说比较简单。

而且呢，它后边还写说Grok有非常小的、但是很活跃的社区支持的文档更加集中。这个意思特别逗，什么意思呢？就是Grok的功能很少，文档也很少，基本上没有文档，也不需要文档，直接上去使就完了。但是呢，用他的话讲起来，就是这个很小的社区很活跃，知识文档很集中。就是一个话，你看他怎么说，但这个话是Grok自己说的。

Grok还有一个很大的优点，就是回答问题的时候更加百无禁忌。马斯克希望有一个偏右的AI，因为现在绝大部分的AI大模型都是偏左的。那么稍微偏右一点，这个还是可以稍微中和一下。如果所有AI大模型都偏左的话，也是非常让人困扰的事情。这个8美元以后，还有Twitter Premium的一大堆的功能，比如减少广告、增加曝光，这些功能都是送给你的。

所以现在我们能够花最少的钱，使用到的GPT-4级别的大模型，就是Grok了。当然还可以画画了，也是相对比较百无禁忌的画法。Grok到底有什么不一样呢？现在大家其实都接近GPT-4了。Grok 2 mini是在RAG的情况下去使用，所以其实看不太出来差异。

我们现在去Twitter上使用，就是你一个月交了8美金以后，也只能使用Google 2的Mini版，而且是Google 2 Mini的Beta版。Grok 2的这个全量版本到底怎么放出来，什么时候放，现在我们还不确定。从XAI公布的数据来看，已经接近或者是部分超越了GPT-4O了，不过它是跟GPT-4O 5月份的版本相比，现在GPT-4O在外边是有8月7号的版本。那个版本现在还是比不过的，GPT-4O的版本也是在不断更新迭代的。

在使用上，对于问题的理解，比起Bing和Co-pilot，包括国内的豆包，还是有一些差距。我测试了一下，比如说我问了一个问题，这个问题是什么呢？是做了Flux 1的公司，现在拿了哪些投资，估值多少。等于我把这个原问题扔进去，在Grok 2里进去以后，它说我没有找到一个叫Flux 1的公司，也没有找到相关的投融资数据。数据是这样的，而其他几个呢，都很好地理解到了Flux 1是Stability公司的核心人员离职创立的，现在的公司名字不叫Flux 1，而是叫做Black Forest Labs（黑森林实验室），拿了A16Z领投的3200万美金的种子轮投资，而且是没有估值，估值没有公布出来。其他的投资人也有一些罗列，除了A16Z之外，其他都是哪些人投资的。

在这一点上，Grok 2还是要稍微的弱一些。那么现在的Grok 2能干什么呢？第一个就是幽默，他回答你的问题经常是比较幽默的，比如说有人问他说：“你给我画一个蒙娜丽莎行吧。”我说行，但是这个蒙娜丽莎我画出来是歪嘴的行吗？他都是这样来幽默的。最有用的是基于推特内容的检索，就是你问任何问题，他都说我检查了一下推特。

现在大家都在讨论这个问题。那么现在的风向是向哪个方向偏移的？这个是最好用的，可以进行简单问题的回答。像刚才我去问的，Flux 1的这个公司融了多少钱，估值多少，他就没有办法去正确理解和回答了。

而最后的一个，也就是Grok 2最出圈的是什么？就是画画。大家现在都在拼命地画画，靠图出圈。Flux 1的这个模型是可以随意调用的，但是还是有一定频度限制。8美元的用户应该是每多少个小时吧，可以花二三十张。还有一种是16美元的用户，就是Twitter。有一个更贵的叫Premier加的一种用户，他们是完全没有广告，而且可以画更多的图，对于图片基本上是不设限的。

咱们从几个方面来讲这个图片受限的问题。第一个叫引用风格。我说我要宫崎骏风格的动画，或者是迪士尼风格的绘画。OpenAI的DALL·E 3，对不起啊，这个已经违反了我的政策，不跟你玩了。Midjourney和Flux 1不理你，照样出一点问题没有。

如果你使用名人，这个特别有意思。比如你使用马斯克，使他的名字作为主体句话，DALL·E 3直接拒绝工作，说对不起，我不能去用名人给你画画。用Midjourney画了，而且效果极好。用Flux 1去画也能画得不太像。当然，咱们在推特上看到很多非常像的马斯克的绘画，那是怎么弄的？多从事几次，可能就能得到一个比较好的结果。

那你说我去画一个卡马拉·哈里斯，行不行？DALL·E 3直接拒绝了，说对不起，我不能画。Midjourney也拒绝了，说对不起，我也不能画。说现在是大选期间，所有的总统候选人我都是不画的。Grok 2的模型，也就是Flux 1，它就画了，没有任何问题。画完了以后还提醒说……

选举期间，所有跟选举相关的信息，请到官网上去查询。我就是个画画的，你别问我啊，不要说我这给你造谣了啊。我给你告诉官网在什么地方。那你说这个川普给不给我画？我说给我画一个川普举枪射击的图，还有暴力，还有鸣人。达里3拒绝了，Midjourney也拒绝了，Grok 2二话不说，给你画了一个川普举着枪在那打枪的图画。但是呢，后边也是提醒说，请到VOTE.GOV官方网站去看选举信息。

所有这种名人的Grok 2都是百无禁忌，想画啥画啥。色情内容、比基尼可以画，再衣服变少他就不干活了。这就是现在的Grok 2的这种百无禁忌的绘画。当你问Grok 2说，你画画有这个禁忌没有啊？你不能这么画啊。Grok 2自己的回答是什么？那我限制什么呢？

第一，生成的图片不应该包含过多的暴力与血腥内容，但你看川普开枪的得给你放。第二，色情与露骨内容，任何形式的色情或露骨内容都是禁止的。仇恨和歧视内容，不生成包含仇恨言论、歧视性内容的图片。版权和知识产权，复制版权内容，生成图片不应该直接复制或模仿现有版权保护的作品。名人肖像，对于知名人物的肖像需要谨慎处理，避免直接复制或者使用其肖像权。

反正我在Grok 2里头画的贺锦丽、画的川普、画的马斯克，都是能看出人的，没有任何问题。所以这个就形同虚设。第三，技术限制，分辨率和细节，生成的图片可能在分辨率和细节上有所限制，具体取决于生成模型的性能。然后复杂度，过度复杂的场景或细节可能无法准确生成。他说给我生成1万个小人就别想了。然后隐私和个人信息，个人身份信息不应生成包含个人身份信息，如身份证号、地址等的图片。文化和社会敏感性。

文化敏感性，就是避免生成可能被视为对特定文化或宗教不敬的图片。政策与当地法律生成的图片必须符合当地法律法规，特别是在涉及到版权、隐私、儿童保护等方面。生成频率可能存在每日或每月生成次数限制，以防止过度使用。我估计像我这种交8美元的，每天应该可以生成20-30张。

内容审查自动审查生成的图片，可能需要通过日常自动或人工审查，以确保符合上述限制。这就是现在GROK 2对自己进行图片审核的一个解答。虽然我觉得他做得不好，特别是名人肖像又搞得非常棒，完全都已经拿出来了。甚至我去尝试了一下，我说让疯狂马里奥穿上星球大战里边的风暴兵的制服去追赶米老鼠和机器猫，所有的一种IP人物都给你画在上面。他反正是百无禁忌，看看地表最强保护部到底要干嘛。

马斯克呢，肯定是被玩坏了，各种马斯克的梗图在X上满天飞，包括马斯克跟扎克伯格两个人在对打，打擂台。马斯克把自己吃成了个大胖子，这些都在上面有。各种名人、各种IP、各种风格也是满天飞。刚才我们讲这个疯狂马里奥身着星球大战暴风兵制服，正在追逐米老鼠和机器猫，这一条达利直接拒绝了。Midjourney和Grok 2画的都还是不错的，地表最强法务部一般指的是任天堂和迪士尼，他们就该努力折腾了。

那么AI生图的版权问题，包括这种叫侵犯商标权和侵犯特定的注册商业形象的这种群，可能应该在未来一段时间就会去诉讼了。否则没法整，因为大多数人其实还是关起门来用。一旦把这个图拿出来以后，谁说这个到底是生成的还是自己改的，你是说不清楚的。但是在这种YouTube里头，大家是在Twitter上用，在这样的情况下。

你把它生成的很像米老鼠，一眼就看出来这是米老鼠，那是奥利奥，这个肯定是会被告的。马斯克算是真正的找到了X和XAI正确的打开方式。大模型好不好用其实并不重要，大模型该做的事情，XAI基本上都没做，什么意思？比如API，XAI现在就没开，TOKEN计费也没有，微调什么，怎么去嵌入多模态理解，这些东西实际上都没有多模态理解。据说Grok 2上是有这个功能，但是现在还没有办法去调用，因为现在我们使用的Twitter上的Grok的这个接口，是没有上传图片的这个按钮，所以你并没有办法去让他说这个图片在讲什么。开源现在AI其实做得并不好，各种第三方插件和系统的适配与集成，现在他也没干。真正的大模型公司，其实每一次推出新的大模型以后，就要很努力地来去做这些事情，这些事XAI都没干，那他干了一个什么呢？Grok 2其实是一个很好的基于X的应用，他给了你一个可以在X上真正用起来的东西。它可以很好地利用x.com的数据，回答各种各样的问题，他回答其实还算靠谱。现在只有Grok可以调用，其他人你都是调用不了Twitter的数据的，因为非常的贵。刚才我们在上一个故事里边讲到的Wordware就是因为实在太贵了，玩不起了。你去调用Twitter数据是非常麻烦的，生成的内容特别是图片，极大地提升了x.com的价值，因为他现在这些图片大量地在推特里边去流传。为什么这个活跃度？如果我们看到了一个马斯克跟这个川普两个人在这打情骂俏的图片，那用户的活跃度就会直线上升，大家都会去点一下，都会去转发一下，都会去点个赞，评论两句，这个带来的是什么？带来的是更多的广告展示机会。

更多的广告收益，所以这个东西对推的是非常有利的。而且前面我们讲了8美元一个月，也是所有的这些AI应用里边最便宜的一个。那大家就定呗，订阅用户上升，也会直接提升整个的会员收入。而且我告诉你，你一旦订阅了XAI 8美元一个月的这个套餐，大家会变成话痨了，会七差咔嚓上去说的，要不然那8美元不亏了吗？

我现在每个月大概能挣回4-5美元来，但是我这8美元还没有一起挣回来。最终，Grok2对于X来说，算是一个肥水不流外人田。我自己的内容发到推特上去，让推特能够产生更好的互动，能够挣到广告费，这就是他们现在在干的事情。

对于马斯克来说，推特440亿美金把它买下来，现在再值多少钱已经不好说了，但是外边还有一个230亿美金的XAI。所以Twitter买下来的过程中，如果把XAI的这个价值算上去，其实应该并不亏。这一段时间，未来不排除说再把这两个项目捆绑在一起去上市，或者说重新把其中的一个扔上市，再把这个钱再挣回来。

而这个才是马斯克再去推Grok的初衷。他不会去说我要跟OpenAI竞争，或者跟Anthropic、谷歌Gemini去跟他们竞争。我就在这一亩三分地上把Twitter伺候好就完事了。希望国内的，比如像微信、抖音就字节跳动，他们也可以以这个为核心，真正的做一些与自己家的社交类产品结合更紧密的大模型应用出来，而不是说一个一个的都惦记出来，说我去做一个对第三方开放友好的大模型。我希望靠大模型成为新时代的平台，不要走那条路。

所以我觉得，马斯克的AI算是给我们打了一个很好的样本，这就是我们今天讲的第二个故事。