MoE模型 – 老范讲故事｜AI、大模型与商业世界的故事

代码无法编译、数据完全隐藏，这一波操作到底是不是“假开源”？拆解Grok架构的虚与实，虽然无法直接复刻竞品，但给国内大厂指明了进化新方向｜X 马斯克推荐算法假开源算法细节分析

老范讲故事 — Thu, 22 Jan 2026 00:46:00 +0000

马斯克实现诺言，开源了X的推荐算法，这次总是真的了吧？

大家好，欢迎收听老范讲故事的YouTube频道。老范原来总批评马斯克假开源，这次应该是真的了吧？

1月10号，马斯克发帖说7天之内开源X的推荐算法；1月20日，也就是10天之后，确实开源了。马斯克事确实给你干了，但是时间大家就不要计较了，稍微晚几天并不那么重要。

老范以前为什么总说马斯克是假开源？

2023年，他开源了X的推荐算法，但是仅开源了部分的非核心代码。而且开源了以后就往这一扔，再也不理你了，也没有后续版本，也没有各种的讨论。你问他一些什么问题，他也不理你，所以我说这是个假开源。

2024年3月17号又宣布开源GROK1，3月19号确实开源了，开源了权重和加载的代码。但是这个模型非常的笨重，基本上没有任何的实用价值。当然了，还有马斯克一贯的作风：不回答任何问题，也没有后续更新。就是代码开源了，这个事也就算办完了，社区里头的各种issue、pull request基本不看，也不会有任何后续更新。最新的版本不开源，你像GROK1开源了，后边的版本基本上就不理你了。无法验证开源出来的东西和生产环境是不是有关联，这就是马斯克开源的一些特点。

这次其实也差不太多，X推荐算法也只是开源了一部分。最核心的东西叫Grok Transformer，这个东西并没有开源。整个的推荐算法建立在一个Transformer的模型上了，你没有把那个Transformer模型拿出来，你只围绕Transformer模型外围的一些东西给大家看了看，开源了这样的一些东西出来。而且你要做推荐，你一定要有一开始的信息筛选的机制。信息怎么筛选？过滤的这些参数以及最后排序的权重，这些东西通通都没有公开。所以这一次开源的东西，按照传统意义的开源来说，是个假开源。

这次到底放了些什么东西出来？

首先是一个非常非常革命性的东西，就是单一Transformer模型的推荐算法。这个很像SpaceX猎鹰火箭底下那个猛禽发动机。最早的猛禽一代好多好多管子，非常多的零碎，200万美金一台；后来更新到猛禽二代，比猛禽一代就要简洁很多了，外边支棱八翘的管子就少很多了，100万美金一台；最近发布的猛禽三代极其简洁，完全一体化设计，高度集成。它这个发动机外面基本上没有外边的管子，外边的这些零碎全都没了，这个机器25万美金一台，非常非常便宜。这一次它把推荐算法也做了一模一样的调整。

我用单一模型。以前的推荐算法都是好多好多模型一起配合来干活的，每一个模型是关注一个参数，大家去发现各种的数据特征，然后设置新的参数，把这个参数想办法调好，原来是这样来配合干活的。现在说别费劲了，统一上一个Transformer模型完事了。

这个模型是基于GROK1的一个MOE的模型，应该参数不大，但是具体有多少参数他也没说，怎么训练的也没说，训练数据也没给。就是这样的一个模型，因为它需要高频的高效的工作——你看每一次你去刷新X平台的时候，它都需要让每一个帖子跟你的个人人设在这里头过一遍，所以它的效率一定是很高的，模型一定不会特别大。

高薪调参工程师的危机

那些高薪调参的人，工作估计要不保了。什么意思？以前很多号称是AI工程师、年薪百万甚至是几百万的，这些AI工程师他们最主要的工作就是调参数：拿大量的用户数据回来，去里头发现一些特征，然后把这些特征放到模型里边去，再调整相应的一些参数。所以我们管这帮人叫“调参数的”。未来的趋势是不再设置一大堆的参数，而是统一扔给Transformer模型，直接出结果。那么他们这些人的工作就有点危险了。

这个过程很像什么？就是从一大堆摄像头、激光雷达、超声波雷达、一大堆模型配合一起工作的自动驾驶操作系统，转向纯视觉的、端到端模型驱动的自动驾驶系统，就是做了这样的一个转换。那为什么要做这种转换？就是当有一大堆阀门的时候，你总是很难调出最优解来。你比如说我把这个参数调好了以后，那个参数可能就下降了，怎么能够让所有的参数平衡起来，达到一个最好的结果？这个时候我们上统一的Transformer模型，上端到端的这种训练，它就有可能得到这样的一个最优结果，而不是说摁起葫芦浮起瓢。

X推荐算法的具体工作流程

具体这个东西是怎么工作的？他先把我们能够看到的帖子分成两类：一类是关注帖，一类是非关注帖。关注帖就是这个人是我关注的，他在这段时间里头发了一个帖子，这叫关注帖；非关注帖就是完全靠推荐算法推上来的，这个人我虽然没关注他，但是推荐算法认为我应该看到。再把这一部分帖子拎出来，关键的一定是非关注帖这部分。首先对人和每一个帖子进行匹配，寻找高质量、低投诉、高互动的帖子推给我们；而找到这些帖子以后，再对帖子进行排序，然后跟我们的关注帖混合在一起进行展示。说白了就是这样的一个过程。

那再详细的说一些吧，那后边这块可能要稍微的麻烦一点。

第一步：对人生成画像

就是他把我的过去多少天的行为动作，包括停留在每一个帖子上停留了多长时间、有没有点赞、有没有评论、有没有转发、有没有去投诉，把这些数据拎起来。但是具体是多长时间给隐藏了，这部分是不告诉你的。

第二步：对内容进行初筛

你不可能说把X上所有帖子都拿来跑一遍，那个效率实在太低了，所以首先要先筛一批。到底筛出多少条来还没告诉你，这个是隐藏的。它有一个过滤器对这些内容进行筛选，第一个原则就是去重，如果发现两条帖子是重复的或者内容很相近，他会把它去掉一个。然后去掉自己发的帖子，去掉屏蔽的作者，去掉敏感的违规的内容。按照时序排序，取前面的多少条，但是具体多少条不告诉你。如果是相同的作者，你反复的发也会进行过滤，所以不要刷屏。比如你连续的发了好多内容，X会把后边的这些内容都给你降权掉。所有看过的帖子就不再重复出现了。

第三步：互动可能性计算

所以第一步是这个人的画像，第二步是初筛这些帖子。筛出这些帖子以后，就把这个Transformer模型拎出来了，进行互动可能性的计算。他要算一下这个帖子如果给你看，到底有多大的可能性会被点赞、多大的可能性会被回复、多大的可能性会被投诉，他要把这些东西放出来。一共是15项。因为大模型没有开放出来，所以这一步是无法复现的。

第四步：对权重进行整合

前面我们说有多少可能性点赞、多少可能性投诉，我15项拎回来以后干嘛？做一个加权的整合。这个乘一个参数，加上那个乘一个参数，把这15个数加一块。加完了以后进行一个排序。那你说这参数都是什么？也没告诉你。这部分告诉你，那绝对机器人会刷死他的。然后把排序好的这些帖子，再跟关注帖混合在一起给我们展示。这就是整个这个系统工作的一个原理。

技术细节与代码分析

这个Grok Transformer到底是一个啥？是一个基于Grok 1模型重新训练的MOE的一个小参数模型。只能做单一任务，就是每一次给他一个用户画像，给他一个帖子，然后他把这些数据做矢量化，然后去做正面和各种负面维度的可能性的概率输出，就干这一件事。没有公开参数，没有训练数据，没有训练方法，大概就是这样的一个系统。

主要代码是用什么语言写的？

一个叫RUST，系统的整个的逻辑基本上是用这个语言写的，它是一种很高效的后台语言；
另外一个就是Python，因为里边有Pytorch、有Tensorflow，就是跑大模型用的。你要调用这些平台的话，你必须要有Python代码在里头。所以基本上代码就是用这两种系统来写的。

那你说这么多代码，那普通人肯定“有看没有懂”，完全没有任何意义。也不要这么讲，虽然它没有给大家很多文档，但是现在有非常非常多的代码分析工具。你比如说你把它扔给Cloud Code，或者扔给Cursor，扔给Open Code，扔给Codex，他们会替你去总结，告诉你说整个系统是怎么样的。然后你可以提各种问题，他会来给你回答，这个代码是写在哪一块的、如何实现的、哪一块隐藏了、哪一块给你了，这个都是会有的。所以普通人也是可以去看这些代码的。

这东西可以复现吗？

既然我们已经拿到了这样的一个开源系统，我是不是可以自己搭一个X，或者看看能不能在X里头怎么去做一个机器人，把X的数据都给它刷回来？就跟美国上委内瑞拉抓马杜罗之前，得先盖一小屋子，把马杜罗的安全屋都盖出来，让人在里头训练，训练完了以后到那啪一把把他拎出来。这事能不能干？能不能复现？

首先说，这个系统本身是无法复现的。你把这个代码down下来以后，你没法编译它，你也没法部署它，因为代码本身并不完整，而且里头还有很多的引用冲突。什么叫引用冲突？就是有些代码并没有写在这个系统里边去，而是说我要引用外边的哪个系统，但是他在不同的代码里引用的版本不一样，而且有的可能干同样的事情引用的是这个，另外的代码可能引用的是另外一个。所以他应该并没有把真正可以执行的一个线上系统直接打包扔上来，因为能够编译执行的这种线上系统是不会出现引用冲突的。

还有就是文档也不是很完整，它里头只是给了代码，并没有给特别多的文档，很多参数被隐藏了。而且也没有办法获得X上的实时数据，因为你要想让这个系统动起来的话，你必须要给它X上的实时数据——这个人过去几天都点了什么东西了，最近有哪些帖子——你没有这些东西，它这个系统也没法跑起来。

那你说是不是开源了个寂寞？也不能这么说。马斯克开源特斯拉的一些专利，对于中国人做新能源产业还是有巨大帮助的。这次将单一Transformer模型驱动的这种推荐算法给出来，也是为整个推荐算法进步给出了方向。所以国内那些原来推荐算法比较差的平台，比如像B站什么的，应该现在正在尝试进行复现。但是这种复现就不是说拿人那个系统去复现了，而是说用这种思想和方向去复现。你比如说拿千问的一些小参数模型，零点几B的这些模型，你可以跑一跑试试，或者是看看能不能做出更小的一些模型出来，进去跑一跑试试，应该是有人去尝试了。

怎么发帖可以提高互动？涨粉怎么赚钱？

别说那么复杂的，怎么发帖可以提高互动？涨粉怎么赚钱？这玩意才是大家关心的。

负面权重极高（拉黑、静音、举报）：因为这里头是有正面权重和负面权重，刚才我们说这几个都是负面权重。你一旦这个帖子有负面权重的话，说你被很多人拉黑过、被很多人举报过、有好多人去静音你，这种帖子就会非常非常吃亏。所以那些喜欢引战吵架、喜欢骂街的那些大V们要小心了，原来他们是可以吸引非常非常多流量的，以后的话这种流量会下降的。
连续发帖会被降权：千万不要尝试刷屏，就很多机器人喜欢干这个事，连续的往外发帖子。这个系统也是需要处理机器人的，但是具体一些处理机器人的模块并没有在这一次开放出来，因为你如果敢开放出来的话，那机器人马上就给你照方抓药了，给你表演什么叫道高一尺魔高一丈了。
正面权重：用户停留时长：这个事很重要。什么叫用户停留时长？你像我们刷X的时候，如果你看到某一个帖子，你需要停下来，你并不用点进去，你还要停下来，你要认真看这个帖子到底写了什么。在这样的情况下，X就知道了，这个是一个大家喜欢、要停下来看的东西。很多长帖子，故事叙述性比较强的——但是你说我啪写一大块，这事也不行，你还是要写出条目来，可读性比较高。这样的帖子才容易让人留下来。前头写一很好的钩子，这样容易留下来；然后放出视频、放出图片来，这样容易留下来；然后做一些系列的讨论，这样也容易留下来。这样的帖子才是X所希望的。

为什么是这样？因为这种帖子可以让X展示更多的广告，人家这个平台也是要挣钱的。

视频帖子非常赚便宜：但是他这很逗，他的视频主要看点不点开，不管你是不是看完了。像TikTok、像YouTube，他们主要考察的是完播率，因为那些平台是要在视频前后的去给你插广告的。而现在X的逻辑是什么？就是你点进去了，你就可以展示这个帖子的一个详情页，它就可以多给你放一堆广告出来，所以你只要点进去就行了，你是不是把它看完无所谓。
回复评论也是非常重要的：如果我发了个帖子，你们给我评论了，那我一定要在下头再给你回回去。为什么？就是一旦进入评论页了，你相当于也是进入一个帖子的详情页了，那么X展示广告的机会又上升了。所以你看，所有的X所愿意推荐的这个帖子，都是能够让他多放几条广告的帖子。
尽量不要在里头贴链接：马斯克真的是想做微信了，他不希望你用链接把流量从X引走。这个点对于老范来说不是特别有利，因为老范经常发帖子说：“你看我发视频了，大家去看视频；我发博客了，大家去看博客呀。”这个是X不喜欢的。

规则之下的现状

既然有这些规则了，谁跑得最快？一定是坏人跑得最快，好人一般是要慢一些的。原因很简单，坏人是有利益的嘛。大家还记得前几天那些@Grok脱衣服的帖子吗？是不是完全符合这套标准？我发了一个美女照片在上头，在下头写@Grok，给她把衣服脱了，或者给她穿上比基尼。这种时候大家就会点到这个回复里边去看，点到详情页里边去看，你的点击率一下就上去了。这个应该算是马斯克自己家的，人家说自己利用一下规则没毛病。

最近大量的抖音和TikTok的热门视频被搬运进来了。算法对于视频是有极大的倾斜的，只要你这里头有视频，视频被点进去了，他就会非常努力的给你推荐。所以我现在打开X，基本上跟刷抖音的那个感觉差不多，里头大量的抖音视频。因为这套算法里头是没有任何跟版权保护相关的东西的，他不是说你发的这个视频最后有一个抖音或者最后有一个TikTok的标，他就给你下架了，不会干这事了。他才不管你是从哪来的。大家的玩法在这点其实都差不太多，先热闹起来然后再清理。现在X上短视频少，他又希望短视频，那你们就来；等什么时候我这短视频多了以后，我再收拾你。这个有点像新加坡，先吸引一大堆大陆土豪去移民，然后再反洗钱、关门打狗，这基本上应该是这样的一个套路。

最近有好几个涨粉相关的账号跑来关注我了。什么叫涨粉相关？就是他那个账户的名字叫“涨粉多少多少”，赤裸裸的叫这名字。如果我也去回关他、跟他聊两句、花点钱的话，那我这个X上的粉丝就可以蹭蹭蹭涨，涨一堆机器人出来。我的帖子下面也出现了一堆炒币的人进行回复。这个原来其实比较少见，这一次马斯克开源了这些算法以后，很多这些炒币的人就来回复我的帖子。如果我再回复他的信息的话，他的账号被看到的机会就会上升。所以一般遇到这样的帖子，我就不再去理他了。机器人已经活跃起来了，等着老马进一步更新他的算法了。

马斯克开源的真实目的

这一次老马总算是真的开源了吧？老范是不是被打脸了？这个还要看下个月。为什么这么讲？马斯克宣布每四周更新一次代码。前几次更开源都是扔上去，以后几年都不带动的，彻底就不理你了，算是一个死项目。这一次老马说我每四周更新一次，老马也算开创了一个先河。

以前做开源软件的目的是什么？

降低系统维护的成本：我把系统开源出去了，你不懂的话，你可以在上头看代码，你也问问其他使用者，大家可以聊一聊，我就不用挨着个去给你们服务去了，甚至有些人可以帮我改bug，这是第一个。
提供松散协作的机会：我一旦把代码开源出去了，就会有其他人才提这个pull request，让我去修改这个系统，甚至他替我改，他会进行一个跨国家的松散的协作。
绑架事实标准：因为你开源了，一旦这个系统用的人很多的话，相当于就形成了一个事实标准，我们就绑架这个标准，然后可以在里边挣到钱。

马斯克开源的目的跟他们不太一样，他是提供了一个监管窗口。你看我把这东西开源了，大家以后觉得我的X有什么推荐不对的地方，你自己去看去。我可以开源，让你们去监管，让你们去审核这个东西。你再批评我，你可以去看。其他那些平台还没开放，我都开放了。他搞了这样的一个事情。

关于偏见与监管

很多人都说X是一个很右的社交媒体，因为相比其他的这些社交媒体平台来说，X是要偏右一些的。现在马斯克说：“来，我直接把推荐系统给你开放看看，你现在看看我到底右不右。”为什么大家都觉得这个X偏右，大家是不是冤枉马斯克了？其实没有。原因很简单，左的特征是什么？圣母嘛，道德高地嘛。大部分的社交媒体平台是按照更左的方式来进行内容审核和筛选的。如果是这样的话，内容比较开放的这种X平台，就肯定是靠右的嘛。左右这个事不是绝对的，它是相对的。

这次开放的代码肯定不是传统的开源项目。它无法复现、无法使用，代码跟文档也不是完整的，也基本上不回复社区的issue跟PR。马斯克可以达到通过开源实现监管的目的吗？现在并不能证明开源出来的版本跟实际跑的版本是强相关的。这个东西应该不是实际的版本，也绝对不可能四周才更新一次，各种参数应该是按小时进行调整的。Grok Transformer的这个模型规模也不大，应该可以几天的时间就会重新训练一次。

这次展示的是Transformer模型之外，并没有保留特定类型帖子的加分减分的这种调整的控制面板。就是说，我就是靠这玩意干活了。你如果希望更左一点、更右一点，你可以在Transformer的这个结果基础上，再去加一层的意识形态的这种调整。但是马斯克给大家看说：“你看我没这东西，这个Transformer模型出来的结果我就直接干了，没有任何跟意识形态相关的东西，都是你的互动可能性跟这玩意相关的。得到结果了以后就可以展示了。”

如果以后每个月更新的版本可以坚持，并且带有完整的更新轨迹——什么叫更新轨迹？在这些源代码更新的过程中，是有一个版本一个版本上的，会写着说每个版本更新什么东西，这叫完整的更新轨迹——如果这个都有的话，那么这个监管会更加可信一些。如果无法坚持，或者以后的更新都是一个没有任何更新轨迹的独立版本的话，监管的效果会差一些。但是也总比那些从来都没有公开过的平台要好。以后再有人批评马斯克说“你怎么偏右”，马斯克说：“我都公开过。甭管我是公开过几个版本，但是至少我公开过，你还没公开过。”他就可以这样去批评别人了。

总结

那未来的方向是什么？做推荐算法的成本一下就降下来了。那些年薪几百万的调参的人，要重新想一想是不是去送个外卖、跑个滴滴了。老马为可信可监管的平台推荐系统做了一个打样。

最后总结一下吧。马斯克开源了X的推荐算法，革命性的单一Transformer模型，就像是一体化的猛禽3发动机一样那么震撼。马斯克为可信可监督的平台推荐系统指明了最新的方向。以后谁想再去证明你的平台推荐系统是可信的，来，跟我一样开放。他就做了这样的一个事情。

好，这一期就讲到这里，感谢大家收听。请帮忙点赞点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：Detailed watercolor rendering of a loft open-plan office interior, no people, neon cyan rim light, deep navy backdrop, cinematic lighting, sharp subject separation, minimal palette (ink blue, neon cyan, gold accents), glossy reflections on glass and polished concrete, intricate textures of wood, metal, and glass, wide-angle 28mm, deep depth of field, strong negative space for text –ar 16:9 –v 7.0 –stylize 120 –chaos 4 –no people, faces, text, watermark, signature, clutter, photorealistic, 3D render, blurry, low contrast –p lh4so59

法国AI登顶效率榜！Le Chat挑战ChatGPT，欧洲人工智能崛起还是昙花一现？受美国星际之门和中国DeepSeek刺激，法国发力AI，中国行，法国也行吗？

Luke Fan — Wed, 12 Feb 2025 00:46:14 +0000

法国AI聊天工具Le Chat在法国登到了排行榜第一名。法国AI是不是有戏了？大家好，欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲这个叫Le Chat。我在讲这个故事之前，专门去向我学过法语的太太请教过了，说这个东西应该那么去念啊，最后这个t是不发音的。这个产品到底怎么样？咱们先说一说它的公司呢，其实原来我们介绍过啊，叫Mistral公司，应该算是整个欧洲拿到投资最多的一家AI公司了。

然后他们的创始人呢，原来是Deepmind的员工。他在法国受的教育，到Deepmind混了两年以后，回到法国去创业。他们大量的创始团队都是从Deepmind回来的。Deepmind被Google收购了以后，他大量的团队依然是在英国上班。所以，这帮人有可能是在美国混了一段时间，当然也有可能是在英国混了一段时间，现在在法国创业。然后他们拿到了像微软啊，英伟达等很多公司的这种投资。但是法国还有一个很有钱的人，特别喜欢投资AI啊，谁啊？就是那个LV的那个老板，也会去投资很多的AI公司。

那么这个公司呢，他们出的很多的模型，特别是开源模型，在AI圈子里头还是有很大响度的。比如说Mistral的7B啊，特别早就出来，很多人会去使用。他们出的很多这种MoE模型，也是很流行的。最早被大家所接受的MoE模型就是他们家的，比如说8X7B啊，或者是8X22B这些啊。MoE模型啊，很广泛的被使用。所以这一次呢，去问他们的创始人，说你看DeepSeek怎么样？他说哎呀，Deepseek用到的很多模型组织方式是原来我们开源出来的啊。当然最早的MoE不是他们发明的，但是Mistral在MoE整个的演化过程中还是做了非常多的贡献的。

这个公司呢，在2025年的2月5号啊，发了一个比较大的更新，就是叫这个Le Chat。这个Le Chat呢，它是有iOS安卓的应用，有网页版，主要就是一个聊天应用。

原来呢，它们主要是出大模型，大家需要接API去使用的。现在等于就是说，他们把这个聊天应用出来了。聊天应用原来也有啊，只是这一次做了一个大的更新而已。这个更新呢，主要是加上了搜索、加上了canvas，还有图片识别，这些功能都上去了。这个产品呢，现在是法国iOS榜效率榜的第一名，超过了ChatGPT和DeepSeek。

大家注意哈，原来我们说什么Temu在美国登了排行榜第一了，剪映在美国登过排行榜第一。这个东西我们讲的叫总榜，就是iOS的所有榜单排一块。所有跟办公有关的都是排效率榜的，什么office呀，各种网盘啊，还有很多的这种AI聊天工具啊，都是排这个效率榜，就是提升办公效率。这个呢，其实应用要少很多。想要在效率榜里排第一的话，特别是在法国这样的一个国家，排第一其实不需要多少下载量啊，就可以达到第一。但是呢，这也算是人家取得的好成绩吧，我们还是要去讲一下的。

那么Le Chat这个产品到底怎么样？首先讲一下啊，这个产品在中国是可以使用的，没有被墙，这个是非常非常少见的。Claude啊、ChatGPT、Gemini这些产品在中国都是不允许使用的，但是Le Chat在中国没有被墙。虽然并不是很快啊，但是还是可以用。这个产品呢，相对来说有一点点简陋，就是跟豆包、通义千问这些产品比起来，就显得非常非常简陋了啊，即使比文心一言都差很远。他呢没有语音功能啊，只能打字。像豆包什么，你是可以直接跟他聊天的啊。据说呢可以联网啊，但是我捅了半天，没有感受到联网搜索的这个结果。提升吧，图片呢，可以处理，就是你给他一张图说：“哎，给我看一下这图到底怎么回事，说什么了啊。”他还是能够认得，特别是图片里有一些中文的时候，他都可以把中文认出来啊，这个是没有任何问题的。然后也可以画图啊，他的画图呢，使用的是Flux的图片模型，原来xAI里面用的，其实也是Flux的这个图片模型。

你给他一个提示词以后，画出来还是比较好看的，速度那真的是飞快飞快的。但是呢，大家要注意啊，就是对于这种大模型来说，速度快并不是一个褒义词。为什么呢？你说速度快不好吗？对，速度快其实说明一个问题：用的人少。DeepSeek慢啊，而且经常不反应，那原因是什么？用的人多呀，就这么简单对吧？Le Chat速度飞快飞快的啊，因为用的人少。给他一些简单的问题呢，他会给你一个简单的回复啊。这个要专门强调一下，为什么呢？就是ChatGPT跟DeepSeek，你如果给他一个简单的问题的话啊，他们也会啰里八嗦跟你说半天啊。ChatGPT要稍微的简洁一点，像DeepSeek也好，豆包也好，Gemini这些模型也好，都是挺啰嗦的。我就随便问你一句，你给我嘚啵嘚啵，说半天啊，就这样的一个感觉。然后在这一点呢，其实跟千问有点像啊，千问就是你给他一个简单问题，他也会给你一个相对比较简单的答复啊。这个是呃你去使用Le Chat的一个感受。但是你如果给他一个很复杂的提示词，整个的这个提示词，依从度还是不错的啊，他也会给你根据你的要求啊，一个比较完善的答案。所以呢这个模型，现在应该算基本可用的一个状态。但是呢你给他这种复杂提示词以后，他得到的答案，要比DeepSeek还是要简陋一些。

法国总统呢，也借着在巴黎开AI峰会的这个机会，宣布欧洲版的星际之门计划要启动起来，对吧？美国的不是说第一期1,000亿美金，后边一共5,000亿美金，建立美国的算力中心，要保证美国在AI上的领先。那法国的马克龙总统啊，也是说了，说我们啊，出1,090亿欧元，欧元应该比美元还值钱一些吧，反正就是他就整了这么个数啊。为什么有零有整了，我没去研究。他呢，要扶植欧洲的人工智能团队去创业，建立欧洲的算力中心啊。那么这件事到底行不行，对吧？法国人是不是通过Mistral这件事，也算是在AI领域里头，占有一席之地了呢？

因为现在在里头打来打去，基本上就中美两国嘛。那么，法国人是不是算上桌了呢？这就是又一个“中国行，我也行”的故事啊。没有做出DeepSeek之前，中国的一大堆模型，什么AI六小虎啊，或者六小龙啊，包括像通义千问啊、豆包啊、文心一言啊、华为的盘古啊、腾讯的混元啊，这些模型，原来人家其实是看不太上的啊，认为我们是上不了桌的。但是DeepSeek出来了以后，他们觉得：“哎，中国人上桌了啊，呃，可以，在AI领域里头，跟美国人稍微的，呃，不能算掰手腕吧，也算是有这么一号名声了。”那法国人是不是也行？呃，首先给一个结论啊，不行。先跟大家讲，然后说为什么。

法国在AI创业这一块呢，有中国所有的劣势，但是呢，没有中国的优势啊。那你说中国有哪些劣势，跟法国是一起有的呢？法国的AI公司里面都是法国人，你说这不是废话吗？这法国的AI公司里头不都是法国人吗？对，中国的AI公司里头也都是中国人，这就是劣势啊。为什么这是一个劣势呢？你跟美国比啊，美国的AI公司里头是全世界的人，对吧？我们在里头看看有多少亚洲联，有多少从中国去的人，有多少从法国去的人。在这个里边最有名的，Meta的AI老大叫杨立坤，那就是个法国人。等于全世界的人在美国创业啊，给他们去做AI。而中国只能是说，我们邀请中国人或者华人回国创业，或者我们在中国境内找一堆的人来去创业啊，做AI。法国在这块跟咱们一样啊，就包括像Mistral这块，他没有什么全世界的人，全是法国人，在法国受了教育，然后跑到Deepmind，或者跑到Google，跑到Meta上几天班，回来以后回法国继续创业。在这点上，其实中国跟法国都比美国要差啊。美国真的是全世界的精英汇聚在一起的。

下一个问题是什么呢？就是监管都挺严的。为了限制中美的AI产品进入，欧盟建立了非常严格的法律法规来去管理AI应用。而且它还有一个很大的问题是什么呢？就是欧盟这帮人立了法以后，他真的很认真去执行。

那你说这谁立了法不认真执行啊？这个我们就不能瞎讲了啊。有些地方的规矩很大，规矩很严，但是执行起来呢，灵活度又很高啊。这个跟规矩很严，执行很严格，这个是差异很大的啊。所有规矩很严，执行很严格的，这些地方都比较难以创新啊。这个大家自己去理解，这是啊，他们有中国的劣势，但是呢，他没有中国的优势。

那么，中国有哪些优势是法国所不具备的呢？第一个最重要的优势，封闭市场。在我们这里没有OpenAI，没有Anthropic，没有Google，他们都不允许进入中国市场。我们的这些产品哪怕质量做得差一些，他也有一个封闭的市场，可以把门关起来，说来你们再好好发展发展，对吧？他是这样的一个过程。法国没有啊，呃，刚才我们讲的什么OpenAI、Anthropic、Google都可以在法国市场上面去驰骋啊。那你现在做出来的这个产品，如果没有Google、OpenAI做的好话，那你就需要直面跟他们的竞争啊，你打不过他呀，对吧？这个是很麻烦的问题。

第二个是什么？就是没有足够的人才。哎，那你说你老范是不是又民族主义犯了？哎，咱们这么讲啊，就中国的人才密度跟素质这块，未必比法国高啊，这个咱们还是要承认的。法国也是产很多大数学家、大科学家的地方，AI领域里头杨立坤啊，也是个法国人。但是呢，从总数量和成本的角度上来说，全世界都没有办法跟中国去比，AI的人才密度以及AI的人才成本。

再往后第三个，中国拥有法国不拥有的优势是什么呢？就是足够大的单一市场。这个跟前面咱们讲这个封闭市场的，又是另外一个概念了啊。AI做出来你是要挣钱的，因为做这个玩意很花钱，没有统一的市场，你就很难产生出足够多的利润来去覆盖这个成本。OpenAI它收割了全世界都还没法盈利呢，其他的像Google，因为后边是有广告收入，Meta后边也是有广告收入，我可以拿别的收入来去顶这块烧钱。那你这个法国的Mistral，你光靠法国市场，你想去顶住你烧钱这事。

你是不可能的呀。中国厂商完全可以靠中国这样的一个封闭市场厮杀出来以后，再到外边去杀去。因为我们的市场是可以养活几个这样的AI企业的。法国一共就6,600万人口，这是刚刚在AI上查的。中国咱不说一共有多少人吧，中国超过6,600万人口的省份，广东、山东，这都是人口破亿的大省啊。河南、四川、江苏、河北、湖南、浙江，这都是人口超过6,600万的省份。整个中国说同一种语言，在同一个政府的管理下，使用同一种货币。在这样的一个市场里边，我们去做AI才有可能把这个钱挣回来。你对于法国六千六百万人来说，你咋把这钱挣出来？

呃，那你说我们去欧洲整个去部署，上德国部署去，上西班牙部署去。但是这个大模型，虽然是对法语特别特别好，但是你对德语也那么好吗？你对西班牙语、意大利语，其他的各种语言都那么好吗？它这种大模型你一旦离开法国以后，在德国、在西班牙，你可能需要跟ChatGPT、跟Claude、跟Gemini去共同一起来竞争。而你竞争的时候，你又没有OpenAI和Gemini这样的这种优势，你根本打不过他。

再往后呢，就是最后一个优势，法国人所不具备的是什么？就是没有咱们狠啊。就是在烧钱买量这件事，中国人就是第一啊。在这块美国人都比不了，更别说法国人了。所以法国做AI这件事情，有中国的各种劣势，但是呢又不具备中国的各种优势啊。那你说他怎么往前走？

那有些人说不对啊，他说法国人可以买卡呀，你中国人不能买卡呀。H200、H100这中国人都不能买，法国人可以买呀。呃，法国人是能买啊，但是在这个环保主义者盛行的法国，耗能耗水大户的算例中心，会被这帮人拆了的啊。这个并没有那么容易。那你说Mistral是不是有机会走出自己的路呢？很难啊，非常非常难。它呢先做了开源Mistral，包括Mixtral，就是把那s变成x，就是它的所有MoE模型都叫Mixtral啊，它的所有的这种单体模型叫Mistral啊，它是这样来去起名字的。

他做完开源以后呢，发现不挣钱，又开始推闭源。在2024年，又推了一堆叫Mistral Large、Medium，Mistral应该是Light还是什么，就是这种小模型啊。但是这些模型都是闭源的，外边人使不了的。又推了一堆这些东西出来，发现还是没挣着钱。现在又准备去做这个聊天工具。

大家有没有发现，这个整个的历程有点像李开复的零一万物的这个发展历程。那零一万物，现在已经是六小虎里第一个倒下的。Mistral呢，比零一万物呢，肯定是有钱啊，因为毕竟呢，法国不像中国这么卷。它是法国乃至欧洲，可能最好的AI团队啊，但是英国的Deepmind不算啊，他已经被Google收入囊下了。所以很多的钱会聚集在Mistral身上。

中国的这种环境呢，是非常非常残酷的竞争。但是呢，跑到最后的这个，如果最后，比如大家厮杀来厮杀去，在中国，最后通过养蛊的方式杀出一只来，那么我相信他的战斗力，一定是可以暴打各种小朋友的。所以在Mistral整个的发展历程来看，他未来的战斗力，肯定是不会有中国的这些厂商强的。你还不用说跟DeepSeek比，你去跟豆包比，他都打不过啊。当然我觉得拿豆包跟他说算欺负他啊，因为字节跳动，是一个在全世界战斗力都很强的公司。你去跟阿里通义千问去比啊，他都未必打得过。

那Mistral模型不够好吗？对吧，其实基本上呢，现在已经到了可用的状态了。我原来用过一段时间Mistral的模型啊，但是他有一点讨厌的，就是他经常是中英文，或者有的时候出法语，他混合出啊。他没有办法说，很稳定的用一种语言输出。即使现在的了差，你去问他各种问题的时候，还是会出现一些混合。在这点上呢，跟DeepSeek包括跟千问2.5什么比起来，都还是有一些差距的。但即使是模型再好，你没有一些独特的优势，你都是没有办法跟开源模型去竞争的。因为Mistral最大的一些模型。

现在最新的模型应该叫Mistral Large 202411，就是2024年11月份更新的。这个模型是一个闭源的。你说：“哎，我这个可以保护隐私，我可以给你私有部署什么的。”你再怎么私有部署，保护隐私这件事，你都没有满血的DeepSeek这样香啊，对吧？它是开源的。只要我这里有足够的算力，我就可以把671B的DeepSeek部署到自己的服务器上去。你想去跟他比，你肯定打不过他，这个事是没有任何可能性的啊。即使你是免费，也没有开源的香。

现在我们去Mistral的网站上去注册他的API，以后你是可以免费使用的啊。他不收钱，但是你只能在他的服务器上用。你说：“我想把它弄到本地来啊。”就是闭源的几个大模型搞不定啊。那么最终Mistral会走向哪里呢？我觉得，可能最终被收购的可能性比较大。你想他的所有的创始团队，原来都是Deepmind的员工，而Deepmind就被Google收购了。那他是不是等过一段时间，发现不是那么挣钱了以后，而且他在法国，可能也挣不出足够他们烧的钱来啊。那到最后可能还是会去找到Deepmind，找到Google，说：“我们都在这呢，你要不要吧？”Google大概率还是会把它收下来的。

像Mistral这样的团队啊，它是依靠法国。即使是整个欧洲的市场，都不可能跟全球化运作、技术领先的美国公司去竞争的。他打不过的，他也没有办法跟咱们在中国这些经过残酷斗争、胜利啊或者说出圈的这种公司，还可以砸锅卖铁、勒紧裤腰带买量的公司，他也打不过。这就是他们未来的一个惨淡前景。

那你说法国的星际之门怎么样呢？如果买卡建立数据中心的话，微软、Google、亚马逊都还是愿意接手的。比如说微软法国分公司说：“哎，你法国政府投钱吧，我来买了卡到微软云里边去运行啊，运营完了以后呢，我愿意把这个算力再租借给Mistral啊。”因为微软是Mistral的股东之一啊，就像它是OpenAI的股东是一样的。

你就可以使用微软云的算力来跑你的这些模型了。这个就有可能最后还能剩点东西下来。如果法国人说：“咱们干脆搞这个法国电信啊，或者法国自己的这些企业，咱们来去把这个显卡都塞进去吧。”那这个呢，反正肯定会有人赚到这笔钱啊，然后就没有然后了啊。咱们就不管，这个1,090亿欧元的法国版星际之门，到底这钱花到哪去了吧，或者谁能挣到这个钱，跟咱们没关系了啊。啊，唯一能够确定的就是，在这个过程中，英伟达肯定能挣到钱的啊。因为你甭管是谁干这个事，英伟达都是可以去卖他的H200、H100，或者是GB200这些卡啊。这个东西一定是能卖得掉的。好啊，这就是我们要讲的，法国到底在AI这个圈子里头行不行，是不是中国行他也行。结论就是，中国行的事，你们真未必行啊。好，这一期就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Deepseek V3搅动AI格局！从细颗粒度专家到多头潜在注意力机制深度剖析

Luke Fan — Tue, 07 Jan 2025 13:25:33 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Deepseek V3搅动风云的事情。Deepseek V3到底先进在什么地方？我在这一段时间呢，也看了一些人的介绍，甚至也看了一些人的视频，尝试用人话来讲清楚，还是很困难的。有一些人很扑克脸，上来就把论文念了一遍，底下一堆人在那评论说有听没有懂。咱们呢尽量避免看这个事情，想办法呢，用举例子和讲故事的方式，让大家能够稍微的了解一下Deepseek V3到底干了点什么。

但是呢，这个里头就会有一个问题，就是例子跟故事呢，有时候不一定准确。所以呢，我们尽量的传递，让大家可以对相关的概念有一个感性的认知。跟大家先讲一个故事吧，这样的话，你们就可以理解待会我要讲的故事大概在什么层面上了。

说爱因斯坦在晚年，有一次去参加美国的一个慈善晚会，来了位盲人。说：“您看，这是个盲人，您能给他解释一下什么是相对论吗？”从来也没见过任何的光，也就没见过任何东西。你告诉我怎么叫相对论。爱因斯坦想了想，说：“这个相对论呢，就是相对的，就是黑的跟白的，你能理解吗？”这个盲人说：“我生下来就是盲人，我没法理解什么是黑的跟白的。”爱因斯坦说：“那你想想有一只大鹅，大鹅你知道吗？这个鹅是白的。”盲人说：“我从小就是盲人，我没见过鹅。”爱因斯坦继续说：“鹅有一个长长的脖子，你能想象吗？”盲人说：“哎呀，我从小是盲人，我没见过鹅，也没见过什么叫长长的脖子。”爱因斯坦说：“这个鹅的长长的脖子是可以弯的。”盲人问：“怎么弯呢？”爱因斯坦说：“来，我给你比划一下。你把这个手伸出来，这个手伸出来，然后呢，这是直的，这是弯的，你懂了吧？”盲人说：“哎呀，我好像已经懂了，什么是脖子是直的是弯的，也能够想象一下什么是鹅了，甚至呢，我都觉得我理解了什么是相对论了。”

所以今天有很多的故事呢，可能是按照这个力度跟大家讲的，但我觉得我应该比爱因斯坦还稍微差一点点。大家也肯定比这个盲人的理解能力要强。首先，Deepseek呢，它是一个MoE的模型。

这个MoE呢，叫做混合专家模型。这个混合专家模型的概念呢，是1991年由Jeffrey Hinton和Michael Jordan这两个人提出的，发表的论文在91年就提出来了。这个Hinton老爷子是今年还得了诺贝尔奖的那个老爷子，所以这个混合模型专家是非常非常早就有了。

从17年以后，谷歌开始持续使用这种MoE的模型去推出各种产品，Gemini也是MoE的模型。这种叫混合专家模型，跟它对应的就是这种密集模型。像咱们用的LLama，梅塔做的这套东西都是密集模型，Claude也是密集模型。至于OpenAI的GPT到底是什么呢，不确定，因为它没有公开，大家猜测它是MoE，但既然它自己不说，也就没办法去说它是什么。

现在比较有名的MoE模型，第一个是法国的叫Mixtra，这个是微软投资的。另一个非常非常有名的MoE模型是谁呢，就是马斯克XAI里边用的Grok，Grok 1和Grok 2都是MoE模型。然后GPT-4呢，大家猜测它是MoE，但它自己既没有承认，也没有否认。GPT-4OMINI呢，最近微软泄密了，写了篇论文出来，说这个GPT-4OMINI只有8B，也就是80亿参数的一个模型。

现在大家普遍猜测GPT-4OMINI是一个MoE模型，为什么呢？因为每一个专家可能是8B，最后可能是7*8B或者8*8B这样的一个模型。因为单纯的8B模型是不太可能达到GPT-4OMINI这样的回复能力的。Gemini的话，现在确认是在1.5以后的版本，肯定是MoE，前面的不太好说。

然后国内呢，其实很多模型也是MoE的，比如说Minimax，他们号称是中国的第一个MoE模型。今天我们要讲的Deepseek，也一直在搞MoE，Deepseek从V1、V2、V2.5到今天的V3，实际上都是MoE模型。通义千问就是阿里的这套模型。

是在1.5以后的版本引入了MoE的架构。它里头就是有一部分是MoE，有一部分不是。零一万物李开复的这个模型呢，是到后面1 lighting这个模型，应该是一个MoE模型，应该是从Deepseek的这个架构转过来的。因为李开复的零一万物在早期是使用的LLama的架构，后面的使用的是Deepseek的架构。腾讯的浑元大模型也是个MoE，豆包的最新的模型已经转型向MoE了，就是豆包早期模型不是，现在最新的已经转到MoE去了。

百度的文心一言呢，号称的是MoE，或者说采用了类似这样的架构。但是这种完全不开源的项目，你就听他说就完了，这个不是那么重要的一个事情。然后Deepseek本身的发展历程是什么样的呢？2023年Deepseek当时出的这个模型叫Deepseek code，就是做编码的。Deepseek V1这个模型呢，当时其实并没有大张旗鼓地去发布，所以呢没有说Deepseek V1到底是哪天发布的。Deepseek V1的模型呢，算是验证了MoE模型的一个架构。

到2024年的5月份呢，Deepseek V2这个模型就出来了。在V1的基础上，参数量扩大。Deepseek V2呢，就已经在当时国内的各种模型里边算是能打的了。到2024年的12月份，Deepseek呢就出了V2.5的一个模型，进行了大量的优化以及提速。Deepseek 2.5出来以后，在国内的各种应用上，很多人就会去使用了。原来国内普通人去用的时候的话，如果不是说是这种系统集成签单的说，我必须要用谁家的模型，原来很多人会去喜欢用通义千问，喜欢用Moonshot Kimi后边那个模型。后来呢，到2024年12月份，大家就普遍的开始向Deepseek 2.5上去转了。到2024年12月26号，上面这个2.5模型发布了，不到一个月的时间，Deepseekk V3的模型就出来了。

Deepseekk V3的模型到底创新在什么地方呢？前面那么多的中国模型，甭管是通义千问，还是零一万物，也在四处打榜，也在四处刷排行榜，但是国际上基本上没声音。为什么呢？因为你拿别人的模型架构，甚至是用别人的大模型生成的数据，回来训练，没有对底层架构做出任何贡献。即使是在中文方面有一些进展，也不会引起关注的，也不会有人来重视你。

但是，Deepseekk V3就不一样了。国际上各个大厂的专家们发现了，他们对MoE模型做了很多的改进，使得这个模型的训练成本和推理成本都急剧下降。他们觉得，唉，这个确实是值得大家去学习一下，值得大家去研究一下。所以，Deepseekk V3是在国际上炸出声音来了。

而且，Deepseekk V3是一个真正的开源模型。它不像Kimi等这些模型，我是闭源的，我就自己在这闷头干，嗯，到底好不好使，我反正评测完了就这样了，其他的我不管了。但Deepseekk V3开源了，论文也发了，代码也在GitHub上，Hugging Face上都有。有谁愿意去折腾这个事，你们自己就下载去试去。

所以，现在很多人都在尝试部署Deepseekk V3。对于MoE架构所做出来的调整，很多人也开始在尝试在自己的架构中使用。就像前面我们讲的李开复的零一万物，发现Deepseekk的模型很好，他就直接把人的架构用到自己的1 Lighting里边去了。那么，未来肯定也有很多人继续做这个事情。现在，甚至还有人在尝试微调Deepseekk V3，这其实是一个挺麻烦的事情，后边我们再去详细讲。

那么，Deepseekk V3到底对于MoE模型做了哪些改变呢？它叫细颗粒度专家模型。传统的MoE模型是什么样的？就是上面有一个路由网络，下头有若干个专家，每次调用一个或者两个专家，然后把问题解决掉。比如说像前面我们讲的这个Grok或者是Mixtra这样的模型，它一般是8个专家。

每一次调其中的两个专家解决问题。而Deepseek V3的话，它就把这个专家变得很细碎。它呢，一共在模型上分了61层。首先是分层，前三层呢叫密集的多层感知机，咱们就不用去管这个名字到底是什么意思了。我们举一个例子，它像什么呢？像医院门口的分诊台。你说我现在要看病了，我到底要看哪个大夫，这就在前三层给你处理掉，告诉你应该从哪走，上哪上楼，下哪下楼，在这哪个大夫那去看病，给你做这个分诊。这个前三层是像干这个似的。

后边呢是58层，这58层呢叫混合专家层。每一层呢有一个共享专家和256个路由专家。每次共享专家都会参与，路由专家呢启动8个。每一次干活的时候，一个共享专家和8个路由专家一起干活。所以呢，每层有9个专家干活。对于所有的输入数据来说呢，相当于什么呢？它会激活9乘以58等于522个专家。但是不是每一次都会这样。他有的时候，比如走了几层以后发现这个结果已经可以用了，就直接把这个结果输出了。如果说走完这一层以后，发现结果不可以用，他就走下一层，走到头就是58层。522个专家为我们服务，得到一个结果。

咱们还是以医院为例吧。如果在医院里头，我们使用像Claude这样的密集型模型，相当于什么呢？他有一个全知全能的专家。我们甭管得什么病，有什么问题，我就坐在这，应该怎么怎么治，在这他就给你去解答，这类似于这样。

那你说Mixtral或者是Grok他们是怎么干活的呢？Mixtral是32层，Grok是64层，每一层呢有八个专家。你前头分诊也是要干这个事，干完了以后，你到每一层去，他们动用两个专家来替你服务。他是这样的一个工作方式。Grok也是这样，每层8个专家，每次动用两个。Deepseek V3呢，它就跟刚才这个状态不一样了。为什么呢？它是门口分诊，这个大家都要干，前面也分层。Mixtral是32层，Grok是64层，每个环节、各层级之间呢，就相当于有一科室。

Grok也好，Mixtral也好，是每层有8个专家，给你挑俩专家会诊一下就完事了。到这个Deepseek V3，这不这样了。它相当于每个科室里头做了一个分诊护士，就是他这个叫做通用专家，啥都懂点。然后呢，有256个实习生。你说256个，你再管人叫专家有点不大合适，太多了。

然后每次来了这个病人之后呢，你先走到这个科室去。到了科室以后，分诊护士要过一下手，然后呢再分配8个实习生过来会诊。会诊完了以后，看看你是不是需要到下一个环节去。比如说检查完了说没毛病，滚吧；或者检查完了去开药吧；再检查完了你开完药还得去上药，或者还要做个手术，还要去做康复。他得一个环节一个环节这么往下走。这就是Deepseek的V3干的活。

原来是每层还是有专家，现在等于每层上了一大堆实习生。所以呢，这个训练成本和这个推理成本就急剧下降了。这是他的整个架构上做的一个重大贡献吧。

然后他们做的另外一项特别大的贡献是什么呢？叫多头潜在注意力机制MLA。原来呢是叫MHA，就是叫多头注意力机制。这个东西什么意思呢？这个东西也很简单，像GPT也好，像任何这个大模型，写一句话进去，输入了一个东西，然后呢他会把这一句话分拆成很多段。每一段呢去来决定说：“我到底应该是在说什么？”然后把这个多段就变成多头了。

比如说我今儿说了一句话：“明天我们一起去吃炸酱面吧。”明天我们一起去吃炸酱面吧，然后再写个问号，这就是可能分成这么多头。他拿着这些东西干嘛使呢？拿着这些东西呢要进行匹配，说我到底应该让哪一部分知识，哪一科专家来给你干活。我要把它拆吧拆吧。

那么怎么匹配呢？在这个大模型的空间里头呢，它是一个矢量空间。矢量空间就是，如果你只有一个坐标的时候就在一条线上，两个坐标是一个平面，三个坐标就是一个空间。但是呢，在这个大模型的这个空间里，它的可能是512个坐标，或者是1,024个，有的是2,048个坐标。它是一个非常复杂的这种空间。

他把所有的知识放在这些空间里头去。我们拿着一句话，把它拆成一大堆头了，然后把每一个头呢，也在尺量空间里去做映射。映射完了以后呢，找到这个多头所映射的这些点，每一个点离他们最近的这个位置。你们到底要去回答什么东西，然后再把要去回答的这句话拼出来。这就是大模型干活的一个过程。

包括咱们前头讲了要去分诊，你到底分给哪个模型干呢？他也是要靠这种矢量空间去分，找离你这个矢量空间里最近的那几个点来。你们这几个专家或者实习生去给我干活去。那么在这个里头就有一个问题，是什么呢？数据在拆开了以后呢，它会形成一个叫KV对，对key and value，就是一个是键值，一个是里头的数值。那什么意思呢？比如说像刚才我们讲的这个拆分的过程，我把它拆成了一个，比如说1,024个维度的这样的一个坐标。那么这个key呢，就是一个1,024个数，这个坐标肯定是由1,024个数组成的吧。value，比如说是吃炸酱面，我到那个里头找，离这个点最近的8个专家，你来干活来，去处理一下吃炸酱面的事情。这叫key value。

那么大家发现了一个问题没有？1,024个整数那很大的呀。在这个MLA里头，就是说叫多头潜在注意力机制里头呢，他们把这玩意做了个压缩，就不会再有1,024个整数在对应后面那个炸酱面了。然后至于怎么去压缩降维这个事呢，说实话咱也没看懂。但是呢，可以给大家举例子。你想他如果前面这个数变少了，不是1024个了，比如说我就变成一个数，那肯定你在每一次进行比较的时候，每一次内存里边去存的时候，就会极大的提升比较速度，降低内存占用空间嘛。

那么他呢，干的活其实有点像什么呢？这个咱们讲一个我去新加坡的故事吧。就是我那时候去新加坡，经常找不着地。一问你们在哪，哪个街哪个哪个路哪个号。后来人家那个新加坡的坡县朋友跟我讲了，说你不要这么去问路，在新加坡不是这么问路的。我说那怎么问呢？他说这个新加坡……

有一种非常有效的地址压缩方式，就是邮政编码。新加坡是每一栋建筑有一个邮政编码，每一个邮政编码呢，也就对应一栋建筑。所以这个呢，其实有点像key和value，邮政编码就是这个key，这栋建筑呢，就是这个value。

所以呢，你只要知道邮政编码了，你就肯定能找着他。大家把这个压缩的过程，就是key value压缩的过程，基本上可以把它看作一个什么样的过程。就是原来我记得是哪个区，哪条路多少号，哪个建筑物，现在呢，变成一个邮政编码，他就这么给你做压缩了。然后你要去找到他，也相对来说要容易一些，而且是一一对应的。所有key跟value的这个东西，就是一一对应。如果说一个邮政编码对应好多个建筑物的话，那就不叫key value了。像中国大陆，因为邮政编码比较少，所以我们经常是一片地区是一个邮政编码。但是新加坡这种，就是他每个邮政编码就一栋建筑物。

当然像这个Deepseek呢，并不是说把一个矢量的空间就压成了一个数，但是呢，他压少了。原来比如说是1024个，现在呢，压完了以后，比如剩了64个，这个呢，比较起来去做存储都会提高很多的效率。

那你说这两个点之间算距离怎么算？这个咱们学过数学，学过几何。如果是二维平面，就是x方加y方，那边呢是x1方加y1方。只要是俩数呢一减，如果这个数很小，就说明离得比较近，大概就这样的一个状态。三维空间呢，就是XYZ，那边也是XYZ，把这个东西都平方了以后，然后一减，如果这个数值很小，就说明比较近。如果是数值是0，那就说明这是在同一个地方。它就是这样的一个计算方式。

如果这个更多的维度，你就需要好多好多的XYZE，什么什么这样的坐标，然后都是平方，把它加起来，然后算出一个这个距离位置来。肯定是数越小，他算的越快，占的空间越小。这个是这一次Deepseek做出的一个重大贡献，就是两个贡献。大家记住了，第一个是细颗粒度专家模型，第二个贡献呢，就是叫做多头潜在注意力机制。

所以呢，就是Deepseek。你说，唉，到底先进在哪？就是这两个先进度，这个到底怎么回事？你们记住我前面讲的这个医院看病的故事和后边这个地址编邮政编码的故事，就可以大概有一个感性的认识了。

那么，下边一个问题是什么呢？你说这么好的技术，为什么不每个公司都用呢？Meta你做Lama的时候，为什么不用MoE呢？Claude你为啥不用MoE呢？这个技术这么好，为什么还会有人做这种叫密集模型呢？这个MoE它是有好多缺点，咱们刚才光讲优点了。优点就是说，你这个训练的时候比较省成本，推理的时候比较省成本，而且跑得很快。MoE模型要比密集型模型跑得要快得多，而且呢，他对于这个显卡要求没有那么高，比较适合于穷人玩这个东西。

那你说MoE模型的缺点是什么？第一个呢，它对于存储的要求是很大的。这些模型虽然很多在干活的时候，这些专家没干活，但是呢，你也得给他个屋子，你也得让他坐在那个诊疗室里等着。哪怕现在没有病人，你也得在那等着。所以呢，他们特别耗地儿，这个是MoE模型的一个非常讨厌的地方。

然后第二个讨厌的地方是什么呢？就是它微调非常麻烦。因为如果你要是做这种大的模型，就是做这种密集型模型，你是可以对它比较简单的行微调的。但是MoE模型呢，因为它本身的架构非常非常复杂。咱们就还是想刚才医院那例子吧，你有这么多实习生在里头做好了，你现在想让他们学习一个新技能，对于他们来说是很麻烦的一个事情。而且学完了以后，到底会有什么样的效果，这个事是比较难以预期的。所以呢，MoE模型比较难微调。

还有什么呢？就是负载均衡。咱呢还想回刚才那个医院那故事。有的医生一堆的病人在那看他，有的医生没人理他，这对MoE模型来说也是很灾难的。他们希望呢，尽可能所有的医生也好，专家也好，或者是实习生也好，都有事干，谁也别太累了，谁也别太闲了。但是呢，这件事情呢，是比较难以控制的。有些医生他就经常遇到相同的这种问题，可能就都是他管。

其他的医生，可能我们就是顺着这个罕见病的，可能就很少有人过来。这个事呢，你是在设计架构的时候，就比较难以去搞定。然后呢，MoE模型的下一个缺点是什么？就是通信开销很大。你想，他这么多的模型，又分层又分专家，还需要各种调度。他就会进行很多的计算机与计算机，或者显卡与显卡之间的这个调度，这块是相对来说要慢一点点。还有呢，就是部署比较麻烦。刚才我们讲这过程，你就知道这事部署有多费劲。你说我有一个大专家，坐在一个巨大的房子里头给大家看病，这玩意部署起来多简单。比如刚才我们讲的分58层，每层256个实习生，加一个会诊护士，这玩意多费劲。你还得盖多大的楼，把他们塞进去，这个部署很麻烦。

最后，有一个MoE模型比较难以避免的问题在哪呢？就是现在很多的大公司不愿意用，它的一个核心原因是这种小规模任务的容器出现过拟合。那有人问了，什么叫过拟合？这个老范你又在说黑话了。这个过拟合的意思呢，是小规模数据训练之后，在这个训练数据范围内，效果特别特别好。这不是好事吗？但是呢，你一旦遇到新的数据了，超出数据范围呢，效果的波动就会很大。有的时候可能还不错，有的时候就会变得很差。这个过程呢，就叫过拟合。

说还是听不懂，那么咱再讲一个故事吧。咱按刚才那实习生看病的故事。为什么我一定要强调这个是实习生，他不是专家呢？正常的学习，咱们是怎么学的？咱们正常的学习呢，是学习基础知识，做实验做练习，考试循序渐进这么学上来的。当你说：“哎，我这做一屋子实习生，我们没有空给你做”，这样比较慢的学习了，那怎么办呢？这个实习生要看病了，那咱们干脆分科目刷题吧。就跟这个咱们考驾照似的，上来有一个题目库，800道题，刷完了以后，到时候再考的时候呢，抽100道题考。你只要是在这800道题里头抽出来的，那我肯定是考得好。而且我可以通过快速的刷题，我没准可能两三天的时间，就可以把这个题都刷好了，然后我就可以去考，考试100分。

因为大家知道考驾照这个事是100道题，错5个以上就不及格。你至少要考到95分才可以去过关。这些实习生我们就用这种方式去训练。他在题库范围内表现都非常好，但是这些人一旦超出题库范围了，没学过呀，怎么办？不会了。他就会出现这样的问题，这个过程就是过拟合。他呢，现在把这种模型缩得这么小颗粒度，所以呢，每一个这个小颗粒度的专家，或者叫实习生，他们其实可以处理的问题是很少的。他们都是这种刷题、紧急训练出来的实习生。一旦超出了一定的范围以后，他的结果大家就比较难以去处理。

现在有很多人在去尝试使用Deepseek V3。就是你用这个正常的东西跟他沟通和交流，让他写程序什么的，效果都很好。但是呢，一些比较偏门的这个语言，或者一些比较小众的语言，跟他讲完了以后，他会出现听不懂的情况。你要求他去做一些比较复杂的、比较小众的算法的时候，他输出的效果也会明显下降。这个就跟我们每天上街去开车，像我开车肯定是个熟练工，但是我们跟赛车手比起来，我们这个技术还是差的比较远的，所以他会有这样的缺陷。

现在呢，MoE模型跟这种密集型模型呢，各有各的使用场景。MoE模型呢是大规模多任务学习，就是我们任务很杂，什么都干一点点，什么都懂一点。这有点像老范，老范就属于是什么都懂一点，但哪块都不是特别精通，受资源限制的这种环境。因为你如果资源多的话，谁跟你费这劲，MoE直接上密集模型就完事了。

需要处理多样化的数据场景，就是什么事都要去折腾一下。所以呢，这个MoE模型呢，很适合中国的一条道路，因为我们缺乏高性能显卡，也没有办法去搞这种高运算密度的集群出来，所以咱们比较适合干MoE。密集型的模型，就是像Claude、Kimi的这个moonshot模型，还有像Llama这样的模型，都是密集型模型，单一任务、同质化任务，这是他们比较擅长的，高稳定性要求的任务是他们比较擅长的。

它有一个比较大的好处，是什么呢？叫做训练容易。刚才我们讲到58层，每层256个专家。那你要想训练这些人，刚才不是说吗？我们不是刷题就行了吗？对，但是呢，你要给58层每一层256个实习生确定不同的题目让他们刷，这个过程是很麻烦的。如果你说刷的题不对了，那最后他们就没有办法很好地配合在一起工作。

我们要整体设计这个体系架构，这个事情是很麻烦的。所以，MoE模型本身的训练不是那么简单，虽然它的训练成本并不高，但你要去规划它的训练进程，规划它的训练数据，这个事情是非常非常麻烦的。我们给这么多的实习生，每个人出一套不同的题目让他们去刷题，这事有多费劲。

密集型模型呢，只要有数据就开始升榜，这个是比较容易的。还有一个就是密集型模型比较容易去做微调，因为我就是训练了一个学生，从头到尾都训练下来了，那我在后边给你加一门课或者什么的，你去微调一下，这块也比较方便。

那么我个人的使用感受呢，正常的沟通和回答基本上可以达到GPT-4O的水平了。刷题就是因为现在有很多测试题嘛，刷的肯定也是很高的。但是呢，一些比较偏门的东西，有的时候还是会出现“咦，没见过呀，不会玩了”，这个事情还是会发生的。GPT-4O在这一点上要比它强一些。

上下文的这个参数呢，不太够多，这是现在我遇到的一个问题，因为它现在应该是128K。像我们使用GPT-4O也好，使用Gemini也好，现在都已经可以达到每一次输入到100万到200万这个TOKEN进去了。所以呢，在这一块，Deepseek V3还是要稍微差一些。目前呢还不支持多模态，据说是在开始做了。在国内的或者资源受限的情况下，处理纯文本内容，包括编程或者说普通编程吧，Deepseek V3应该已经是完完全全够用的一个状态。这就是今天跟大家讲的Deepseek V3技术上的故事吧。