混合专家模型 - 老范讲故事｜AI、大模型与商业世界的故事

关于 MiMo-V2 Flash 模型发布

12月17号开的发布会，罗福莉终于站上了小米的舞台，发布了新模型 MiMo-V2 Flash。这是一个MoE的模型，这倒是不出乎人意料，因为现在新的模型基本上都是MoE。而且罗福莉作为Deepseek V2的主要创作者，MoE就是从他手里头发扬光大的。

但是MiMo-V2 Flash这样的一个模型，使用了更强的后训练算法，就是前头预训练完了以后，后边做更激进的这种后训练。整个的模型是 309B，也就是3,090亿参数，每一次干活只激活 15B。所以他每一次真正回答问题的时候，激活的参数量是非常非常小的。

这是一个云端模型。别看他只激活15B，在本地是没法跑的。如果你想在电脑上跑的话，基本上三十几B就是到头了。不是说你每次激活多少，而是你总模型量有多少。你比如说我现在有一个72B的模型，每一次激活十几B，在我们电脑上是跑不起来的。所以它这个309B每次激活15B的模型，只能在云端跑。

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Deepseek V3搅动风云的事情。Deepseek V3到底先进在什么地方？我在这一段时间呢，也看了一些人的介绍，甚至也看了一些人的视频，尝试用人话来讲清楚，还是很困难的。有一些人很扑克脸，上来就把论文念了一遍，底下一堆人在那评论说有听没有懂。咱们呢尽量避免看这个事情，想办法呢，用举例子和讲故事的方式，让大家能够稍微的了解一下Deepseek V3到底干了点什么。

但是呢，这个里头就会有一个问题，就是例子跟故事呢，有时候不一定准确。所以呢，我们尽量的传递，让大家可以对相关的概念有一个感性的认知。跟大家先讲一个故事吧，这样的话，你们就可以理解待会我要讲的故事大概在什么层面上了。

说爱因斯坦在晚年，有一次去参加美国的一个慈善晚会，来了位盲人。说：“您看，这是个盲人，您能给他解释一下什么是相对论吗？”从来也没见过任何的光，也就没见过任何东西。你告诉我怎么叫相对论。爱因斯坦想了想，说：“这个相对论呢，就是相对的，就是黑的跟白的，你能理解吗？”这个盲人说：“我生下来就是盲人，我没法理解什么是黑的跟白的。”爱因斯坦说：“那你想想有一只大鹅，大鹅你知道吗？这个鹅是白的。”盲人说：“我从小就是盲人，我没见过鹅。”爱因斯坦继续说：“鹅有一个长长的脖子，你能想象吗？”盲人说：“哎呀，我从小是盲人，我没见过鹅，也没见过什么叫长长的脖子。”爱因斯坦说：“这个鹅的长长的脖子是可以弯的。”盲人问：“怎么弯呢？”爱因斯坦说：“来，我给你比划一下。你把这个手伸出来，这个手伸出来，然后呢，这是直的，这是弯的，你懂了吧？”盲人说：“哎呀，我好像已经懂了，什么是脖子是直的是弯的，也能够想象一下什么是鹅了，甚至呢，我都觉得我理解了什么是相对论了。”

罗福莉携新模型亮相股价却连跌三天？资本看透了什么：当“堆料之王”试图讲好技术故事，市场为何依旧投出反对票？｜小米AI战略、人车家全生态、高端市场挑战、研发投入

罗福莉发布了小米MiMo-V2 Flash新模型，小米股价却应声下跌了

关于 MiMo-V2 Flash 模型发布

Deepseek V3搅动AI格局！从细颗粒度专家到多头潜在注意力机制深度剖析