混合专家模型 – 老范讲故事｜AI、大模型与商业世界的故事

罗福莉携新模型亮相股价却连跌三天？资本看透了什么：当“堆料之王”试图讲好技术故事，市场为何依旧投出反对票？｜小米AI战略、人车家全生态、高端市场挑战、研发投入

Luke Fan — Fri, 19 Dec 2025 00:48:56 +0000

罗福莉发布了小米MiMo-V2 Flash新模型，小米股价却应声下跌了

关于 MiMo-V2 Flash 模型发布

12月17号开的发布会，罗福莉终于站上了小米的舞台，发布了新模型 MiMo-V2 Flash。这是一个MoE的模型，这倒是不出乎人意料，因为现在新的模型基本上都是MoE。而且罗福莉作为Deepseek V2的主要创作者，MoE就是从他手里头发扬光大的。

但是MiMo-V2 Flash这样的一个模型，使用了更强的后训练算法，就是前头预训练完了以后，后边做更激进的这种后训练。整个的模型是 309B，也就是3,090亿参数，每一次干活只激活 15B。所以他每一次真正回答问题的时候，激活的参数量是非常非常小的。

这是一个云端模型。别看他只激活15B，在本地是没法跑的。如果你想在电脑上跑的话，基本上三十几B就是到头了。不是说你每次激活多少，而是你总模型量有多少。你比如说我现在有一个72B的模型，每一次激活十几B，在我们电脑上是跑不起来的。所以它这个309B每次激活15B的模型，只能在云端跑。

开源、价格与实际体验

这个模型直接开源了，目前API是可以限时免费使用的。即使后边收费了，也是非常非常便宜的，比Deepseek还要便宜很多的一个价格。256K的上下文，刷分的能力还是很强的，就是在很多跑分上，跑的还是相当不错的。但是具体使用，还是要各自去体验一下。

我自己试了一下，感觉很一般，这个模型并不是很聪明的样子。我原来有一个习惯，就是每一次做什么模型介绍的时候，都会用这个模型去搜集相应的信息。比如说像Gemini 3，就用Gemini 3去搜集信息；像GPT-5.2，就用GPT-5.2；讲Deepseek V3.2也是用Deepseek去收集信息。但是今天这个稿子，是用GPT-5.2和Gemini 3 Pro写的，MiMo-V2 Flash这个模型搞不定，我去试过了。它这个模型的能力确实要稍微差一些。

但是据说这个模型，在 Agent以及Coding 的方面，是进行了专项的增强训练，效果非常好。甚至在某些的评分上，已经超过了Claude 4.5 Sonnet，这是非常恐怖的。就算你刷分能把它刷上去也很难，小镇做题家也不是谁都能干的。

资本市场的冷淡反应

但是这样的一个模型发布之后，小米股价应声下跌了。说明什么？就资本市场并不看好这件事。

12月16号：这个模型的消息就已经泄露了，说我们准备发这个模型了，当天小米股价下跌了2.25%。
12月17号上午：罗福莉在国家会议中心开的发布会，小米股价微涨了一点点，涨了0.78%。
12月18日：大家在消化这个消息的时候，相关的文章满天飞的时候，小米股价下跌了3.01%。

所以伴随大模型的发布，小米的股价是在持续下跌的。而相同的时间段，恒生指数是在上涨的。这个就属于叫逆势下跌，说明整个的资本市场，对于这件事都不看好。

为什么资本不看好小米搞大模型？

这是为什么？别人发了大模型，买了GPU或者做了什么事，大家都很看好，怎么到你这小米这就不行了？有几个原因。小米这种大模型搞法，和资本认知是存在偏差的。当然还有一个原因是什么，就是最近AI泡沫正在吹破，所以谁发大模型，都未必是完全的利好了。

1. 算力储备不足

那咱们回过头来讲，为什么小米搞大模型，资本就觉得有问题？现在号称搞大模型的这些公司，没有个10万卡起，都不好意思说自己搞大模型。国内的阿里、字节，都是10万卡起的这种公司。百度也是如此，更别提华为了（华为因为他那卡水平稍微差一些，所以那个量更大）。你没有10万卡，搞啥大模型？小米有多少卡？他应该是在2023年，还是更早一些的时候，买A100的卡买了6,500张，真的是不多，几千张卡。现在号称是准备上更大的集群，也就是万卡集群，还没有说到10万或者几万这个数。所以小米的一直是比较抠抠搜搜的，干这个事情。

2. 缺乏云计算积累

而且小米自己也不是云计算大厂，缺乏相应的积累。甭管是百度、腾讯、阿里、字节，还是国外的谷歌、微软、亚马逊这些，这都是云计算大厂。这些人管理这种巨型的云计算集群，在里边插了显卡以后去做训练，它是有积累的。小米虽然也有小米云，但是小米云最主要的功能是网盘，让大家存照片用的。它在云计算这一块，一直都没有什么特别大的声响出来。

3. 与“性价比”人设不符

而搞大模型这件事，是需要烧很多钱的，这件事跟小米的人设极度的不符。小米的人设是什么？叫“薄利多销型”。小米就相当是一大师傅，在这包包子。皮薄馅大，最新鲜的好肉，面粉、油盐所有的这些配料，都买能够买到的最好的。味道肯定不会难吃，但是也绝对不会有什么独特的、让人回味的这种味道。他也不会做什么特别复杂的创新，量大管饱就完了。

但是他每次去宣传的是什么呀？“你看我用的是什么样的面粉，这个面粉种小麦的时候，晒了什么样的太阳；我这个肉用的是什么样的肉，这个猪长大的过程中，是不是听音乐了。”这就是雷式营销法嘛。他总去强调什么？每一个这种原材料里边，一些不被人所关注的这种小细节。这些细节会感动人，但是你说这个猪在长大的过程中，是听了音乐还是喝了啤酒，跟我们最后去吃猪肉的时候，这个感受到底有多大关系？反正我也没太搞明白。

但是小米整个的雷式营销，就是在不断的强调这些东西，而且堆料堆的很足。甭管是他造手机，造电视、造洗衣机，还是造汽车，堆料都是堆的非常非常足的。但是到底有哪创新了？还真没有。小米向来是硬件堆料，软件相对粗陋。设计基本上就是没有设计，以前就是说小小米有风格吗？没风格。你把所有的小米产品放在一起，让你去猜小米下一代产品长什么样，你猜不出来。为什么没有风格吗？每一代都长得不一样。

利润确实是非常薄，依靠巨大的销量去压缩上游的这种供货商价格，然后依靠巨大的流量压缩销售成本。他通过这样的方式，精打细算的、省吃俭用的积攒了大量现金。小米手里还是有不少现金的，他在研发投入以及大模型相关的投资，其实都不大。在国内做大模型投资的，阿里是做的最狠的，字节做的也还不错，最近腾讯也开始发力了，已经开始向这个OpenAI挖人了，也在疯狂的挖字节的人。但是小米目前为止还是比较节俭的，小米的钱基本上都是省出来的。

4. 罗福莉的背景与技术来源

另外一点，大家不太看好小米的原因是什么？就是罗福莉来自Deepseek，这个身份还是多少有那么一点点尴尬的。在Deepseek最火的时候，就传出了雷军千万年薪挖人的消息，后来小米跟罗福莉本人都进行了否认，说这事没有。那这段时间罗福莉在干嘛？他把自己的名字写在了一篇论文上。这个论文是北大跟小米联合发表的论文，这个论文也是讨论后训练方法的一些新的探索，罗福莉是这篇论文的通讯作者。罗福莉在这段时间在干这个。而这个小米的MiMo-V2 Flash这个模型，就是用这个论文里边写、所使用的这个方法来训练的。所以这一段时间，他就已经在加入小米了，只是没有对外官宣。10月份罗福莉正式官宣加入了小米，12月17号站台发布了MiMo-V2 Flash。

5. 创新模式的质疑

小米的每一次的科技创新，其实都显得不那么大气。你比如说玄界O1，大家一看就知道，这个芯片基本上走的ARM的这种定制套餐。当然是雷军他自己会否认，说“我们没有做定制套餐，我们还是投入了很多的”。但是你投入了很多备不住，人家有一个套餐，跟你这个玄界O1芯片真的是卡边卡沿，一点都不带差的。他那个套餐里还包括台积电生产，你这个玄界O1也是台积电生产的。但是你说我这个就是没有签那份协议，那他也说得过去。

另外澎湃OS，现在大家都得做手机操作系统嘛，但是小米的澎湃OS，那就是安卓。为什么？因为它小米要在国外卖手机，你把这东西改大发了，你怎么去跟谷歌兼容？你没法在国外销售。对，至于自动驾驶，反正一直属于第二梯队里靠前的，能使但是不算特别好的，也一样把硬件堆齐。小米每一次都是把硬件堆齐，它自动驾驶也是直接塞两颗索尔芯片进去，软件稍微差那么一点点，也就是这样的一个状态。

所以在这样的情况下，你要让整个的资本市场相信，说你是按照我们熟悉的配方、熟悉的套路去做大模型投入了，大家不信。所以发个大模型，股价还跌了。

小米的转型与雷军的“挖人”艺术

那大模型发布会，以及最近小米不断的挖人、积累团队的这些行为，可能意味着小米正在进行转型。小米现在在不断的拉高研发投入。要注意，国内这些科技企业里头，研发投入最高的是谁？是华为。那真的是砸死钱在里头去做研发。你可以不喜欢这公司，但是人家研发投入的钱是真金白银的。做出来的东西怎么样，是另外一回事。有的时候他底层逻辑有问题了以后，他们做出来的东西，也是总会透着那么一点点的诡异。现在小米也是不断的拉高研发投入，然后高调官宣罗福莉的入职，从原来的隐瞒到现在官宣，甚至让罗福莉直接站台去发表演讲。

而且最近还有什么人入职了？前特斯拉“擎天柱”灵巧手的工程师卢泽宇，也入职了小米。以后要做机器人，没有哪个汽车厂说我自己不做机器人的，现在直接挖了特斯拉的人回来干。据说有3,000人的大模型团队，但这件事我是表示怀疑的。马斯克的xAI还没有3,000人，小米整3,000人？你在这熬汤吃，还是在这包包子？这个3,000人的团队里头，到底有多少人是真正能干活的，或者真正能够在大模型底层上，有这种研究能力的？这个事我表示怀疑。

雷军的必杀技：挖人

但是有一点不用怀疑的是什么？就是雷军的有一大技能，就是挖人。雷军挖人的能力，是国内这些CEO里头，应该是绝对第一梯队的。

像雷军做小米手机的时候就是去挖人，他当时直接列了一个表，全世界做安卓的人，排第一是谁，排第二是谁，排第三是谁。甭管排的严不严格了，他反正排了一表，然后就一个一个上去敲门，说来你上小米这来做手机来。那排最前面人都是哪人？都是谷歌的人，因为安卓是谷歌发明的。那雷军就去敲门，人家说“我为什么要离开谷歌，上你们那去？”那雷军怎么办？就坐在人那跟人继续聊天，一聊聊10个小时，20个小时。几天的聊下来，那有些实在聊不下来就算了，但是还是有不少人真的被他挖过来的。然后去找魅族跟人去学习去，学完了以后挖人，最后魅族都快疯了，说你不能这么干。

像雷军算是成名比较早，他很早就成为了金山的高管，所以他这个圈子里头比较有名。他这个隐蔽性又很强，跑到人家那去说“我跟你学习一下”，就是这种工程师的本色，还是比较彰显的。他跑那跟人学习还很谦虚，有一些好为人师的人也是愿意跟他讲，讲完了他就这个顺手，就“七嚓咔嚓”开始挖人了。这个是雷军的一大技能。所以小米早期的人，都是雷军照着名单挖回来，以及到别的厂里头去学习了以后，顺手挖回来的。

小米汽车其实也是这么来的。小米汽车在早期的时候，雷军就跑到吉利去学习去了，说“你们这车造的真好，我好喜欢你们这个东西，你们到欧洲也是收购了很多厂，有这么多好的工程师，我们好好学习一下，看看到底是怎么做这个事情。”人家也是很开放的就跟他聊，聊完了以后，就把吉利的一大票人，全都拎回来了，包括很多莲花的人，就是Lotus的人。Lotus这个品牌，当时也是被吉利收购了。Lotus团队的很多成员都是在国内的，直接被小米连锅端回来了。

现在雷军继续在发挥这个技能，大模型上把罗福莉拎回来，机器人也直接上“擎天柱”那去挖人去了。薄利多销这条路，未必能够走的下去了，必须要转型了。再去堆料，然后去宣传原料、那些不被人注意的小众特点，就是雷式营销法可能走不通了。所以现在真的是要自己做出点技术来了，趁着手上还有现金，需要砸一把了。这就是现在小米可能在干的事情。

小米的大模型矩阵

小米都发了哪些大模型？

2025年4月份发布了 MiMo-7B：这个是一个7B的模型，这个模型是可以在手机上跑的。
5月份发布了叫 MiMo-VL：一般叫VL的模型，都是视觉语言模型，它是有视觉视频推理能力的，或者有视频的识别能力的，我们管它叫多模态模型。我现在在我的汽车上开着开着，我就可以喊：“给我看看前面那什么车？这车多少钱？”他就可以“咔嚓”拍一张照片回来，然后给你讲半天，这什么车，什么牌子，现在多少钱，给你分析半天。这个也挺好玩的。
MiMo-Audio：这是一个1.2B的模型，9月份发布的。
MiMo Embody：这个模型是11月发布的，其实是自动驾驶和机器人的模型。

现在澎湃OS 1.11版本正在推送，里头就是这个MiMo-Embody的模型。现在这个版本，已经摆在小米SU7的版本上都推完了，小米Yu期的版本还没轮上我，在分批推送。据说推送到手以后的话，它的自动驾驶能力就会得到极大的提升。今天讲的MiMo-V2 Flash模型，12月发布的，所以它发布的这个频数还是很高的。

“人车家全生态”背后的逻辑

那这么多模型都干什么的？MiMo-V2 Flash是作为云端Agent基座来干活的，其他模型都是端侧模型。其他模型都是相对比较小的，直接可以在这个手机上、你的家的冰箱上，或者是汽车上跑。包括语音模型只有1.2B吗，在各种的家用电器上都是可以跑起来的。这个视觉模型也是7B的，就是这些模型都不大。

云端的V2 Flash这个模型，它主要强调的是AI Agent的能力。AI Agent的能力，实际上是可以进行专项的后训练，是相对来说比较容易增强的。还有就是编码能力，这块也是相对比较容易验证和提升的。像小米喊了半天“人车家全生态”，其实是一大堆设备。这些设备的控制都是靠什么？就是一大堆简单的脚本代码。你要给他写一个脚本：先开灯，再怎么转方向，这实际上都是脚本。那么MiMo-V2 Flash在搜索和推理的帮助下，搜集设备上反馈的信息，生成可靠的脚本，进行设备控制。这个故事还是编的圆的。

所以他就是整个这一套：一堆的端侧模型，加上一个非常高速、非常便宜的AI Agent和简单编码模型，形成一整套的大模型体系。

现在所有这些模型都是开源的。小米自己是个硬件设备公司，大模型通通都开源了。以后有开发者想要基于这些设备，再去开发各种应用场景，相对来说的话会容易一些。这就是小米现在的大模型的主要的思路。

总结

最后总结一下：罗福莉发布了极其偏科的新模型，速度快、成本低，AI Agent和编码都还不错，但是确实不太聪明。资本市场的反应极其冷淡。这不再是那个我们熟悉的小米了，小米现在正在转型。未来这条路是不是能够走得通，现在看还非常非常难说。为什么？因为小米在海外，它是可以直接用Gemini模型的，你只有在国内，你才需要上MiMo这些东西。那么省钱省习惯了的小米团队，未必能适应的了大模型的这种投入模式。所以未来到底会走成什么样，咱们还需要看一下。反而是目前为止，资本市场不太认可他们能够转得过这个弯子来。

好，这一期就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片：

Deepseek V3搅动AI格局！从细颗粒度专家到多头潜在注意力机制深度剖析

Luke Fan — Tue, 07 Jan 2025 13:25:33 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Deepseek V3搅动风云的事情。Deepseek V3到底先进在什么地方？我在这一段时间呢，也看了一些人的介绍，甚至也看了一些人的视频，尝试用人话来讲清楚，还是很困难的。有一些人很扑克脸，上来就把论文念了一遍，底下一堆人在那评论说有听没有懂。咱们呢尽量避免看这个事情，想办法呢，用举例子和讲故事的方式，让大家能够稍微的了解一下Deepseek V3到底干了点什么。

但是呢，这个里头就会有一个问题，就是例子跟故事呢，有时候不一定准确。所以呢，我们尽量的传递，让大家可以对相关的概念有一个感性的认知。跟大家先讲一个故事吧，这样的话，你们就可以理解待会我要讲的故事大概在什么层面上了。

说爱因斯坦在晚年，有一次去参加美国的一个慈善晚会，来了位盲人。说：“您看，这是个盲人，您能给他解释一下什么是相对论吗？”从来也没见过任何的光，也就没见过任何东西。你告诉我怎么叫相对论。爱因斯坦想了想，说：“这个相对论呢，就是相对的，就是黑的跟白的，你能理解吗？”这个盲人说：“我生下来就是盲人，我没法理解什么是黑的跟白的。”爱因斯坦说：“那你想想有一只大鹅，大鹅你知道吗？这个鹅是白的。”盲人说：“我从小就是盲人，我没见过鹅。”爱因斯坦继续说：“鹅有一个长长的脖子，你能想象吗？”盲人说：“哎呀，我从小是盲人，我没见过鹅，也没见过什么叫长长的脖子。”爱因斯坦说：“这个鹅的长长的脖子是可以弯的。”盲人问：“怎么弯呢？”爱因斯坦说：“来，我给你比划一下。你把这个手伸出来，这个手伸出来，然后呢，这是直的，这是弯的，你懂了吧？”盲人说：“哎呀，我好像已经懂了，什么是脖子是直的是弯的，也能够想象一下什么是鹅了，甚至呢，我都觉得我理解了什么是相对论了。”

所以今天有很多的故事呢，可能是按照这个力度跟大家讲的，但我觉得我应该比爱因斯坦还稍微差一点点。大家也肯定比这个盲人的理解能力要强。首先，Deepseek呢，它是一个MoE的模型。

这个MoE呢，叫做混合专家模型。这个混合专家模型的概念呢，是1991年由Jeffrey Hinton和Michael Jordan这两个人提出的，发表的论文在91年就提出来了。这个Hinton老爷子是今年还得了诺贝尔奖的那个老爷子，所以这个混合模型专家是非常非常早就有了。

从17年以后，谷歌开始持续使用这种MoE的模型去推出各种产品，Gemini也是MoE的模型。这种叫混合专家模型，跟它对应的就是这种密集模型。像咱们用的LLama，梅塔做的这套东西都是密集模型，Claude也是密集模型。至于OpenAI的GPT到底是什么呢，不确定，因为它没有公开，大家猜测它是MoE，但既然它自己不说，也就没办法去说它是什么。

现在比较有名的MoE模型，第一个是法国的叫Mixtra，这个是微软投资的。另一个非常非常有名的MoE模型是谁呢，就是马斯克XAI里边用的Grok，Grok 1和Grok 2都是MoE模型。然后GPT-4呢，大家猜测它是MoE，但它自己既没有承认，也没有否认。GPT-4OMINI呢，最近微软泄密了，写了篇论文出来，说这个GPT-4OMINI只有8B，也就是80亿参数的一个模型。

现在大家普遍猜测GPT-4OMINI是一个MoE模型，为什么呢？因为每一个专家可能是8B，最后可能是7*8B或者8*8B这样的一个模型。因为单纯的8B模型是不太可能达到GPT-4OMINI这样的回复能力的。Gemini的话，现在确认是在1.5以后的版本，肯定是MoE，前面的不太好说。

然后国内呢，其实很多模型也是MoE的，比如说Minimax，他们号称是中国的第一个MoE模型。今天我们要讲的Deepseek，也一直在搞MoE，Deepseek从V1、V2、V2.5到今天的V3，实际上都是MoE模型。通义千问就是阿里的这套模型。

是在1.5以后的版本引入了MoE的架构。它里头就是有一部分是MoE，有一部分不是。零一万物李开复的这个模型呢，是到后面1 lighting这个模型，应该是一个MoE模型，应该是从Deepseek的这个架构转过来的。因为李开复的零一万物在早期是使用的LLama的架构，后面的使用的是Deepseek的架构。腾讯的浑元大模型也是个MoE，豆包的最新的模型已经转型向MoE了，就是豆包早期模型不是，现在最新的已经转到MoE去了。

百度的文心一言呢，号称的是MoE，或者说采用了类似这样的架构。但是这种完全不开源的项目，你就听他说就完了，这个不是那么重要的一个事情。然后Deepseek本身的发展历程是什么样的呢？2023年Deepseek当时出的这个模型叫Deepseek code，就是做编码的。Deepseek V1这个模型呢，当时其实并没有大张旗鼓地去发布，所以呢没有说Deepseek V1到底是哪天发布的。Deepseek V1的模型呢，算是验证了MoE模型的一个架构。

到2024年的5月份呢，Deepseek V2这个模型就出来了。在V1的基础上，参数量扩大。Deepseek V2呢，就已经在当时国内的各种模型里边算是能打的了。到2024年的12月份，Deepseek呢就出了V2.5的一个模型，进行了大量的优化以及提速。Deepseek 2.5出来以后，在国内的各种应用上，很多人就会去使用了。原来国内普通人去用的时候的话，如果不是说是这种系统集成签单的说，我必须要用谁家的模型，原来很多人会去喜欢用通义千问，喜欢用Moonshot Kimi后边那个模型。后来呢，到2024年12月份，大家就普遍的开始向Deepseek 2.5上去转了。到2024年12月26号，上面这个2.5模型发布了，不到一个月的时间，Deepseekk V3的模型就出来了。

Deepseekk V3的模型到底创新在什么地方呢？前面那么多的中国模型，甭管是通义千问，还是零一万物，也在四处打榜，也在四处刷排行榜，但是国际上基本上没声音。为什么呢？因为你拿别人的模型架构，甚至是用别人的大模型生成的数据，回来训练，没有对底层架构做出任何贡献。即使是在中文方面有一些进展，也不会引起关注的，也不会有人来重视你。

但是，Deepseekk V3就不一样了。国际上各个大厂的专家们发现了，他们对MoE模型做了很多的改进，使得这个模型的训练成本和推理成本都急剧下降。他们觉得，唉，这个确实是值得大家去学习一下，值得大家去研究一下。所以，Deepseekk V3是在国际上炸出声音来了。

而且，Deepseekk V3是一个真正的开源模型。它不像Kimi等这些模型，我是闭源的，我就自己在这闷头干，嗯，到底好不好使，我反正评测完了就这样了，其他的我不管了。但Deepseekk V3开源了，论文也发了，代码也在GitHub上，Hugging Face上都有。有谁愿意去折腾这个事，你们自己就下载去试去。

所以，现在很多人都在尝试部署Deepseekk V3。对于MoE架构所做出来的调整，很多人也开始在尝试在自己的架构中使用。就像前面我们讲的李开复的零一万物，发现Deepseekk的模型很好，他就直接把人的架构用到自己的1 Lighting里边去了。那么，未来肯定也有很多人继续做这个事情。现在，甚至还有人在尝试微调Deepseekk V3，这其实是一个挺麻烦的事情，后边我们再去详细讲。

那么，Deepseekk V3到底对于MoE模型做了哪些改变呢？它叫细颗粒度专家模型。传统的MoE模型是什么样的？就是上面有一个路由网络，下头有若干个专家，每次调用一个或者两个专家，然后把问题解决掉。比如说像前面我们讲的这个Grok或者是Mixtra这样的模型，它一般是8个专家。

每一次调其中的两个专家解决问题。而Deepseek V3的话，它就把这个专家变得很细碎。它呢，一共在模型上分了61层。首先是分层，前三层呢叫密集的多层感知机，咱们就不用去管这个名字到底是什么意思了。我们举一个例子，它像什么呢？像医院门口的分诊台。你说我现在要看病了，我到底要看哪个大夫，这就在前三层给你处理掉，告诉你应该从哪走，上哪上楼，下哪下楼，在这哪个大夫那去看病，给你做这个分诊。这个前三层是像干这个似的。

后边呢是58层，这58层呢叫混合专家层。每一层呢有一个共享专家和256个路由专家。每次共享专家都会参与，路由专家呢启动8个。每一次干活的时候，一个共享专家和8个路由专家一起干活。所以呢，每层有9个专家干活。对于所有的输入数据来说呢，相当于什么呢？它会激活9乘以58等于522个专家。但是不是每一次都会这样。他有的时候，比如走了几层以后发现这个结果已经可以用了，就直接把这个结果输出了。如果说走完这一层以后，发现结果不可以用，他就走下一层，走到头就是58层。522个专家为我们服务，得到一个结果。

咱们还是以医院为例吧。如果在医院里头，我们使用像Claude这样的密集型模型，相当于什么呢？他有一个全知全能的专家。我们甭管得什么病，有什么问题，我就坐在这，应该怎么怎么治，在这他就给你去解答，这类似于这样。

那你说Mixtral或者是Grok他们是怎么干活的呢？Mixtral是32层，Grok是64层，每一层呢有八个专家。你前头分诊也是要干这个事，干完了以后，你到每一层去，他们动用两个专家来替你服务。他是这样的一个工作方式。Grok也是这样，每层8个专家，每次动用两个。Deepseek V3呢，它就跟刚才这个状态不一样了。为什么呢？它是门口分诊，这个大家都要干，前面也分层。Mixtral是32层，Grok是64层，每个环节、各层级之间呢，就相当于有一科室。

Grok也好，Mixtral也好，是每层有8个专家，给你挑俩专家会诊一下就完事了。到这个Deepseek V3，这不这样了。它相当于每个科室里头做了一个分诊护士，就是他这个叫做通用专家，啥都懂点。然后呢，有256个实习生。你说256个，你再管人叫专家有点不大合适，太多了。

然后每次来了这个病人之后呢，你先走到这个科室去。到了科室以后，分诊护士要过一下手，然后呢再分配8个实习生过来会诊。会诊完了以后，看看你是不是需要到下一个环节去。比如说检查完了说没毛病，滚吧；或者检查完了去开药吧；再检查完了你开完药还得去上药，或者还要做个手术，还要去做康复。他得一个环节一个环节这么往下走。这就是Deepseek的V3干的活。

原来是每层还是有专家，现在等于每层上了一大堆实习生。所以呢，这个训练成本和这个推理成本就急剧下降了。这是他的整个架构上做的一个重大贡献吧。

然后他们做的另外一项特别大的贡献是什么呢？叫多头潜在注意力机制MLA。原来呢是叫MHA，就是叫多头注意力机制。这个东西什么意思呢？这个东西也很简单，像GPT也好，像任何这个大模型，写一句话进去，输入了一个东西，然后呢他会把这一句话分拆成很多段。每一段呢去来决定说：“我到底应该是在说什么？”然后把这个多段就变成多头了。

比如说我今儿说了一句话：“明天我们一起去吃炸酱面吧。”明天我们一起去吃炸酱面吧，然后再写个问号，这就是可能分成这么多头。他拿着这些东西干嘛使呢？拿着这些东西呢要进行匹配，说我到底应该让哪一部分知识，哪一科专家来给你干活。我要把它拆吧拆吧。

那么怎么匹配呢？在这个大模型的空间里头呢，它是一个矢量空间。矢量空间就是，如果你只有一个坐标的时候就在一条线上，两个坐标是一个平面，三个坐标就是一个空间。但是呢，在这个大模型的这个空间里，它的可能是512个坐标，或者是1,024个，有的是2,048个坐标。它是一个非常复杂的这种空间。

他把所有的知识放在这些空间里头去。我们拿着一句话，把它拆成一大堆头了，然后把每一个头呢，也在尺量空间里去做映射。映射完了以后呢，找到这个多头所映射的这些点，每一个点离他们最近的这个位置。你们到底要去回答什么东西，然后再把要去回答的这句话拼出来。这就是大模型干活的一个过程。

包括咱们前头讲了要去分诊，你到底分给哪个模型干呢？他也是要靠这种矢量空间去分，找离你这个矢量空间里最近的那几个点来。你们这几个专家或者实习生去给我干活去。那么在这个里头就有一个问题，是什么呢？数据在拆开了以后呢，它会形成一个叫KV对，对key and value，就是一个是键值，一个是里头的数值。那什么意思呢？比如说像刚才我们讲的这个拆分的过程，我把它拆成了一个，比如说1,024个维度的这样的一个坐标。那么这个key呢，就是一个1,024个数，这个坐标肯定是由1,024个数组成的吧。value，比如说是吃炸酱面，我到那个里头找，离这个点最近的8个专家，你来干活来，去处理一下吃炸酱面的事情。这叫key value。

那么大家发现了一个问题没有？1,024个整数那很大的呀。在这个MLA里头，就是说叫多头潜在注意力机制里头呢，他们把这玩意做了个压缩，就不会再有1,024个整数在对应后面那个炸酱面了。然后至于怎么去压缩降维这个事呢，说实话咱也没看懂。但是呢，可以给大家举例子。你想他如果前面这个数变少了，不是1024个了，比如说我就变成一个数，那肯定你在每一次进行比较的时候，每一次内存里边去存的时候，就会极大的提升比较速度，降低内存占用空间嘛。

那么他呢，干的活其实有点像什么呢？这个咱们讲一个我去新加坡的故事吧。就是我那时候去新加坡，经常找不着地。一问你们在哪，哪个街哪个哪个路哪个号。后来人家那个新加坡的坡县朋友跟我讲了，说你不要这么去问路，在新加坡不是这么问路的。我说那怎么问呢？他说这个新加坡……

有一种非常有效的地址压缩方式，就是邮政编码。新加坡是每一栋建筑有一个邮政编码，每一个邮政编码呢，也就对应一栋建筑。所以这个呢，其实有点像key和value，邮政编码就是这个key，这栋建筑呢，就是这个value。

所以呢，你只要知道邮政编码了，你就肯定能找着他。大家把这个压缩的过程，就是key value压缩的过程，基本上可以把它看作一个什么样的过程。就是原来我记得是哪个区，哪条路多少号，哪个建筑物，现在呢，变成一个邮政编码，他就这么给你做压缩了。然后你要去找到他，也相对来说要容易一些，而且是一一对应的。所有key跟value的这个东西，就是一一对应。如果说一个邮政编码对应好多个建筑物的话，那就不叫key value了。像中国大陆，因为邮政编码比较少，所以我们经常是一片地区是一个邮政编码。但是新加坡这种，就是他每个邮政编码就一栋建筑物。

当然像这个Deepseek呢，并不是说把一个矢量的空间就压成了一个数，但是呢，他压少了。原来比如说是1024个，现在呢，压完了以后，比如剩了64个，这个呢，比较起来去做存储都会提高很多的效率。

那你说这两个点之间算距离怎么算？这个咱们学过数学，学过几何。如果是二维平面，就是x方加y方，那边呢是x1方加y1方。只要是俩数呢一减，如果这个数很小，就说明离得比较近，大概就这样的一个状态。三维空间呢，就是XYZ，那边也是XYZ，把这个东西都平方了以后，然后一减，如果这个数值很小，就说明比较近。如果是数值是0，那就说明这是在同一个地方。它就是这样的一个计算方式。

如果这个更多的维度，你就需要好多好多的XYZE，什么什么这样的坐标，然后都是平方，把它加起来，然后算出一个这个距离位置来。肯定是数越小，他算的越快，占的空间越小。这个是这一次Deepseek做出的一个重大贡献，就是两个贡献。大家记住了，第一个是细颗粒度专家模型，第二个贡献呢，就是叫做多头潜在注意力机制。

所以呢，就是Deepseek。你说，唉，到底先进在哪？就是这两个先进度，这个到底怎么回事？你们记住我前面讲的这个医院看病的故事和后边这个地址编邮政编码的故事，就可以大概有一个感性的认识了。

那么，下边一个问题是什么呢？你说这么好的技术，为什么不每个公司都用呢？Meta你做Lama的时候，为什么不用MoE呢？Claude你为啥不用MoE呢？这个技术这么好，为什么还会有人做这种叫密集模型呢？这个MoE它是有好多缺点，咱们刚才光讲优点了。优点就是说，你这个训练的时候比较省成本，推理的时候比较省成本，而且跑得很快。MoE模型要比密集型模型跑得要快得多，而且呢，他对于这个显卡要求没有那么高，比较适合于穷人玩这个东西。

那你说MoE模型的缺点是什么？第一个呢，它对于存储的要求是很大的。这些模型虽然很多在干活的时候，这些专家没干活，但是呢，你也得给他个屋子，你也得让他坐在那个诊疗室里等着。哪怕现在没有病人，你也得在那等着。所以呢，他们特别耗地儿，这个是MoE模型的一个非常讨厌的地方。

然后第二个讨厌的地方是什么呢？就是它微调非常麻烦。因为如果你要是做这种大的模型，就是做这种密集型模型，你是可以对它比较简单的行微调的。但是MoE模型呢，因为它本身的架构非常非常复杂。咱们就还是想刚才医院那例子吧，你有这么多实习生在里头做好了，你现在想让他们学习一个新技能，对于他们来说是很麻烦的一个事情。而且学完了以后，到底会有什么样的效果，这个事是比较难以预期的。所以呢，MoE模型比较难微调。

还有什么呢？就是负载均衡。咱呢还想回刚才那个医院那故事。有的医生一堆的病人在那看他，有的医生没人理他，这对MoE模型来说也是很灾难的。他们希望呢，尽可能所有的医生也好，专家也好，或者是实习生也好，都有事干，谁也别太累了，谁也别太闲了。但是呢，这件事情呢，是比较难以控制的。有些医生他就经常遇到相同的这种问题，可能就都是他管。

其他的医生，可能我们就是顺着这个罕见病的，可能就很少有人过来。这个事呢，你是在设计架构的时候，就比较难以去搞定。然后呢，MoE模型的下一个缺点是什么？就是通信开销很大。你想，他这么多的模型，又分层又分专家，还需要各种调度。他就会进行很多的计算机与计算机，或者显卡与显卡之间的这个调度，这块是相对来说要慢一点点。还有呢，就是部署比较麻烦。刚才我们讲这过程，你就知道这事部署有多费劲。你说我有一个大专家，坐在一个巨大的房子里头给大家看病，这玩意部署起来多简单。比如刚才我们讲的分58层，每层256个实习生，加一个会诊护士，这玩意多费劲。你还得盖多大的楼，把他们塞进去，这个部署很麻烦。

最后，有一个MoE模型比较难以避免的问题在哪呢？就是现在很多的大公司不愿意用，它的一个核心原因是这种小规模任务的容器出现过拟合。那有人问了，什么叫过拟合？这个老范你又在说黑话了。这个过拟合的意思呢，是小规模数据训练之后，在这个训练数据范围内，效果特别特别好。这不是好事吗？但是呢，你一旦遇到新的数据了，超出数据范围呢，效果的波动就会很大。有的时候可能还不错，有的时候就会变得很差。这个过程呢，就叫过拟合。

说还是听不懂，那么咱再讲一个故事吧。咱按刚才那实习生看病的故事。为什么我一定要强调这个是实习生，他不是专家呢？正常的学习，咱们是怎么学的？咱们正常的学习呢，是学习基础知识，做实验做练习，考试循序渐进这么学上来的。当你说：“哎，我这做一屋子实习生，我们没有空给你做”，这样比较慢的学习了，那怎么办呢？这个实习生要看病了，那咱们干脆分科目刷题吧。就跟这个咱们考驾照似的，上来有一个题目库，800道题，刷完了以后，到时候再考的时候呢，抽100道题考。你只要是在这800道题里头抽出来的，那我肯定是考得好。而且我可以通过快速的刷题，我没准可能两三天的时间，就可以把这个题都刷好了，然后我就可以去考，考试100分。

因为大家知道考驾照这个事是100道题，错5个以上就不及格。你至少要考到95分才可以去过关。这些实习生我们就用这种方式去训练。他在题库范围内表现都非常好，但是这些人一旦超出题库范围了，没学过呀，怎么办？不会了。他就会出现这样的问题，这个过程就是过拟合。他呢，现在把这种模型缩得这么小颗粒度，所以呢，每一个这个小颗粒度的专家，或者叫实习生，他们其实可以处理的问题是很少的。他们都是这种刷题、紧急训练出来的实习生。一旦超出了一定的范围以后，他的结果大家就比较难以去处理。

现在有很多人在去尝试使用Deepseek V3。就是你用这个正常的东西跟他沟通和交流，让他写程序什么的，效果都很好。但是呢，一些比较偏门的这个语言，或者一些比较小众的语言，跟他讲完了以后，他会出现听不懂的情况。你要求他去做一些比较复杂的、比较小众的算法的时候，他输出的效果也会明显下降。这个就跟我们每天上街去开车，像我开车肯定是个熟练工，但是我们跟赛车手比起来，我们这个技术还是差的比较远的，所以他会有这样的缺陷。

现在呢，MoE模型跟这种密集型模型呢，各有各的使用场景。MoE模型呢是大规模多任务学习，就是我们任务很杂，什么都干一点点，什么都懂一点。这有点像老范，老范就属于是什么都懂一点，但哪块都不是特别精通，受资源限制的这种环境。因为你如果资源多的话，谁跟你费这劲，MoE直接上密集模型就完事了。

需要处理多样化的数据场景，就是什么事都要去折腾一下。所以呢，这个MoE模型呢，很适合中国的一条道路，因为我们缺乏高性能显卡，也没有办法去搞这种高运算密度的集群出来，所以咱们比较适合干MoE。密集型的模型，就是像Claude、Kimi的这个moonshot模型，还有像Llama这样的模型，都是密集型模型，单一任务、同质化任务，这是他们比较擅长的，高稳定性要求的任务是他们比较擅长的。

它有一个比较大的好处，是什么呢？叫做训练容易。刚才我们讲到58层，每层256个专家。那你要想训练这些人，刚才不是说吗？我们不是刷题就行了吗？对，但是呢，你要给58层每一层256个实习生确定不同的题目让他们刷，这个过程是很麻烦的。如果你说刷的题不对了，那最后他们就没有办法很好地配合在一起工作。

我们要整体设计这个体系架构，这个事情是很麻烦的。所以，MoE模型本身的训练不是那么简单，虽然它的训练成本并不高，但你要去规划它的训练进程，规划它的训练数据，这个事情是非常非常麻烦的。我们给这么多的实习生，每个人出一套不同的题目让他们去刷题，这事有多费劲。

密集型模型呢，只要有数据就开始升榜，这个是比较容易的。还有一个就是密集型模型比较容易去做微调，因为我就是训练了一个学生，从头到尾都训练下来了，那我在后边给你加一门课或者什么的，你去微调一下，这块也比较方便。

那么我个人的使用感受呢，正常的沟通和回答基本上可以达到GPT-4O的水平了。刷题就是因为现在有很多测试题嘛，刷的肯定也是很高的。但是呢，一些比较偏门的东西，有的时候还是会出现“咦，没见过呀，不会玩了”，这个事情还是会发生的。GPT-4O在这一点上要比它强一些。

上下文的这个参数呢，不太够多，这是现在我遇到的一个问题，因为它现在应该是128K。像我们使用GPT-4O也好，使用Gemini也好，现在都已经可以达到每一次输入到100万到200万这个TOKEN进去了。所以呢，在这一块，Deepseek V3还是要稍微差一些。目前呢还不支持多模态，据说是在开始做了。在国内的或者资源受限的情况下，处理纯文本内容，包括编程或者说普通编程吧，Deepseek V3应该已经是完完全全够用的一个状态。这就是今天跟大家讲的Deepseek V3技术上的故事吧。