工具调用 – 老范讲故事｜AI、大模型与商业世界的故事

Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌

Luke Fan — Sun, 24 Aug 2025 00:41:25 +0000

Deepseek V3.1发布，很多人应该都有疑问，UE8M0到底是个什么东西？这个国运级的大模型，到底有没有翻车呢？

DeepSeek V3.1发布，为什么会墙内开花墙外香呢？大家说这东西在国外也没多火。咱们讲的墙内开花墙外香，并不是说国外火，而是在圈外火。什么意思呢？就是在真正大模型圈里，其实大家并不怎么说这个事，但是在炒股票的这帮人面前，一下就火了，国产算力芯片一把就飞了。

到底是一个什么样的情况？首先呢，Deepseek V3.1在性能上其实并没有特别显著的提升，所以一帮真正去研究大模型的人，或者去研究AI的人，只能在那尬吹，说这个好像强了一点，那个好像强了一点，但其实都并不明显。它的编程能力呢，确实应该有所上升吧，但是你说现在就可以吊打Claude Sonic 4，这个我觉得有些言过其实了。上下文现在是128K了，在Deepseek去年12月份发布的V3版本以及1月份发布的R1版本的时候呢，它的上下文都是64K的。到V30324和R10528这两个版本呢，就已经升级到128K了，所以这一次的V3.1依然是128K。工具调用上应该是真的增强了，比原来的V3增强了，也更加符合AI agent的一个需求，这个就是他的一个主要的优势。

所以为什么这东西一开始拿出来，大家没有觉得他怎么样，然后突然怎么就爆发了呢？一句话让二级市场直接就疯了。8月21号，Deepseek公众号上有一句话直接引爆A股。玩模型或者说玩AI应用的人，是不会太去看这个公众号到底写啥的，但是这些炒股的人不一样，人家天天盯着这个公众号，一个字一个字在那抠。

这句话说的是什么呢？V3.1使用了UE8M0和FP8规模的参数精度，为了适配未来的国产算力芯片。有这样的一句话在里头，那这还不赶快冲上去？而且在传播的过程中呢，FP8这个词呢，在后续的流传中就变得时隐时现了，大家不再提这个FP8了，主要都去强调这个UE8M0了。一堆人就问说这玩意到底是个啥呀？这么神奇的东西吗？甚至寒武纪就直接涨停板了。

下边呢，咱们来解释一下UE8M0到底是个啥。这个难度很大，因为我自己在数学这一块也没有多强，而且还想把它尽量地解释得通俗易懂一点，这个对于我来说是一个考验。如果我说了你没听懂的话，不是我没说好，是你自己智商有问题。咱们开个玩笑。

很多人呢，其实都搞不明白这个UE8M0是什么，但是呢都像老中医念口诀一样，上来都是这个脉怎么怎么样，应该什么君臣佐使一下，然后就开始给你开药方。念念有词以后呢，就冲进去买股票去了。

这个咱们解释一下，首先呢，用形象的三个词来跟大家解释一下什么是UE8M0。这三个词，第一个词叫“马赛克”。很多男生，特别是对于成人影片、日本成人影片有一些经验的这些男生，对于“骑兵”和“马赛克”这个词应该是能够有一些理解的。UE8M0呢，实际上就是一种马赛克格式，待会我们讲为什么。第二个呢，就是叫“九九乘法表”。在中国吧，大家从小就背，我们可以在某一些特定的计算里头超过老外。他们从小不背九九乘法表的这些人，就没有这个口算和速算的能力。我们从小背这个东西，我们就在某一些特定的运算里头会比他们先人一步。还有一个不是那么好听的词，但是更贴切，是什么？叫“裹小脚”。这个在满清时期，他们对汉族女性的一种残酷的压榨，要求大家去裹小脚，以小脚为美。UE8M0的话，就完完全全是符合这三个词的特性的。咱们下边一个一个给大家解释。

首先呢，要跟大家解释一下计算精度的演化。咱们要知道，做大模型计算，甭管是训练也好，还是后边推理也好，它最主要的一个计算叫矩阵乘法，就是把一大堆的数呢放在一个矩阵里，两个矩阵相乘，乘完了以后得到一个结果。甭管是训练也好，还是推理也好，大模型训练的90%以上的算力就在干这一件事：乘乘乘乘乘。这也是为什么他们跑到英伟达的算力芯片里面去干这个事。英伟达算力芯片非常非常多的核心，这些核心也干不了太复杂的命令，但是你让他做乘法，他还是做得很快的。所以这个东西要比咱们普通的CPU算得快很多。

矩阵乘法里头呢，就有一个问题，叫计算精度的问题。最标准的叫FP32，他们这个数是怎么表示的呢？第一位是符号，正数还是负数；后边呢，应该是8位吧，代表的是浮点；后边的几位呢，就是代表的一个精度。前边这个符号正负大家比较好理解，中间这一部分浮点数就意味什么呢？就是我可以表示最大和最小多少，这个是一个范围的表达。后边这个尾数呢，实际上是精度的表达，就是说我这个小数点后到底有多少位。当我们把这样的一个数字去进行乘的时候，肯定会得到一个结果。但是有一个问题是什么呢？咱们都是讲这大模型好大，有好多好多数据去进行运算的，那你说我要把这么多参数搬进去，在这个内存里跑来跑去，它就会变得非常非常消耗带宽。而在进行乘的时候，如果是两个很大的精度的数去进行乘的话，那它的对于算力的消耗也是非常非常可怕的。

所以大家怎么办呢？就是要降低精度。而且呢，因为大模型本身它是一个很稀疏的运算，你降低了精度以后，发现对结果的影响并不是很大嘛。现在他们用16位的，或者用一些更小的8位的，用这样的精度去计算了以后，发现好像得出来的结果跟32位的没什么太大区别，那咱们就把它降低一点呗。所以呢，大家就开始从FP32变成FP16、BF16。这里头要注意，FP呢一般都是英伟达这边去采用的一个标准，也都是一位符号，然后呢多少位浮点，多少位尾数。BF16呢是谷歌自己用的一个标准，它的浮点数要更长一些，尾数更小一点，这样的话它可以表达更大的一个数字，但是呢精度差一点，效果呢也还可以。后边呢还有FP8，FP8就是尾数更少一点，然后更多的数字去表达。后来呢，我们现在使用的大部分模型，真正去推理运算的时候，实际上都是FP8。现在的模型呢，大量的训练都是用FP16去训练的，现在也没有那么多人使用FP32去训练了。最早都是FP32训练，后来就是FP16训练，训练以后再去对这个大模型进行量化。

你说比在8再往下还有没有？还有，叫MXFP6和MXFP4。MX是什么意思呢？待会咱们再解释。FP4，咱们讲讲一下这个吧，它比较极端了。FP4是什么意思？就是它有一位符号，两位浮点和一位尾数。那你说我就一位尾数，这玩意算啥呀？我这要是0的话，那你前头这几位不就全废了吗？不是这么算的。如果你这个尾数是0，它代表什么呢？就是0、2、4、8。如果你这个尾数是1呢，它代表的是3、6和12。所以我们基本上这样看，FP4代表的数就是0、1、2、3、4、6、8、12。那你说就这几个数我乘来乘去，没有办法代表很多的东西，怎么办呢？不能说我整个大模型就这几个数就把它都表示了。所以呢，这个时候MX就起作用了。它呢，把这种很小范围的数呢，放在一个块里，这一个块呢有32个数，这一个块呢统一再进行一次浮点变化。这个浮点数变化呢，是写在另外一个叫做浮点位里头。那个浮点位呢，就是一个UE8M0的一个浮点位。UE8M0呢，意思是无符号的8位的浮点，没有尾数，就是这样的一个意思。它相当于什么呢？就是我们把4位4位的这种一块32个数，统一用一个浮点把它变化起来。MXFP4大概就是这么个意思。

哪个模型是用的这样极端的参数呢？最近公开的GPT-OSS就是用的MXFP4。而且这个里头有一点很强的是什么？OpenAI是从训练就直接使用的MXFP4，它没有经过后续量化，所以它的效果非常非常好，也极其节省内存。因为你想你一旦把精度降低了，它就可以干嘛呢？它就可以用更小的内存去存储这些数据、存储模型。然后你在进行模型运算的时候，你的显存跟你的GPU之间进行调度的内容就会变得更少，乘的时候乘得更快。

那你说在这个过程中，显卡或者说算力卡的公司干嘛使呢？他们就会想办法去优化。他写一些算法，或者说在里边做一些链路，让这些算法，比如说FP8的或者是FP16的这些数据，在我这做乘法和加法的时候让它变快一些。早期的显卡上是没有FP8的，有FP32、有FP16。什么时候开始有FP8呢？这个东西是在英伟达H100上出来的。BF16是只有谷歌TPU上才有，其他人不玩的东西。这个MXFP4呢，就是后来这个Blackwell黑井的显卡上是支持这种运算的。

在这个里头有一种比较极端的算法，就是UE8M0。就是我已经没有正负数了，全是正，我这个全是正数，里头也没有任何的这个尾数了，只有8位的指数。那么它能够代表的数是什么呢？0、2、4、8、16、32、64，它等于是这样可以上去的，可以代表很大的数字，但是呢就是完完全全没有精度了，它是属于跳跃、跳阶跳上去的。这就为什么我们讲UE8M0是马赛克。你想我有一个图片，这个图片里头呢，某一些关键部位里头就没有阶梯了，就没有很多的细节了，只剩下这种跳跃式的这种表达了，那不就变马赛克了吗？所以基本上你把它理解成一个马赛克，这个事是可以的。你说有没有这个宝马一点的？有，就是那个刚才我们讲那个FP4，它里头还有一位，它可以代表0、1、2、3、4、6、8、12，它中间还是多出一个来的，它这个码要稍微薄一点。最极端的大的厚码，就是这个UE8M0。大家可以这么去理解它。

Deepseek为UE8M0都做了些什么呢？首先呢，Deepseek并不是原生训练的UE8M0的大模型。它呢，是在英伟达的H800和H20上，使用FP16和FP8训练出来的一个模型。在训练完了以后呢，再专门针对UE8M0进行量化，把我原来这个训练完了结果的数据，按照UE8M0的这个方式重新量化、重新排一遍，然后拿出这样的一个小很多的模型出来。在这个专门为UE8M0进行优化的算力卡上，就可以跑得飞快。

UE8M0其实是有一些好处的。它好处是什么呢？马赛克虽然没有细节，但是呢它在运算的时候，内存搬运会变得非常少。你去表达同样的模型，你需要的这个数据变小了，这个是非常非常有好处的。因为咱们现在最大的瓶颈是什么？因为美国禁运，我们的算力芯片跟这些HBM芯片之间，或者说这种显存芯片之间的带宽比较低，那我们就专门优化一个这样的算法给你就可以了。但是我们要注意，就是在Deepseek发的那篇公众号里头，他写的是“我们支持UE8M0和FP8”。所以呢，现在大家去下载的Deepseek V3.1的模型里头，实际上是有两个版本的，一个版本是UE8M0的，另外一个版本是FP8的。你说我是用英伟达显卡的，我用AMD的显卡，你就用FP8的版本。你说我在国内，我要用升腾的芯片，那你可以使用UE8M0的这个版本。

为了适应UE8M0这种极限挑战，我要给你打马赛克，打完马赛克了以后你看了以后还觉得爽，这个是对于Deepseek来说非常非常高的挑战。那就需要干嘛呢？做专门的设计。他们在模型训练的时候做了专门优化，一方面呢是进行了混合精度的使用，就是有一些地方用的是比较高精度的，有些地方用的比较低精度的，他们专门做了这样的一个适配。然后呢，也在进行一些叫做累计误差检测。因为你想你把这个地方变成黑白的了，或者变成这种大马赛克了，那你这个误差就会变得很大，特别是需要进行多轮的矩阵计算以后的话，它的误差就会有累积的增加。Deepseek专门有一个设计，就是检测这个东西，如果误差达到一定阶段了以后，我会换一个方式重新来算一下，然后想办法把这个误差规避掉。它通过很多类似这样的手段呢，让这个模型在UE8M0上可以跑起来。

这里就有一个问题，就是不做特殊架构设计的大模型是不能被量化成UE8M0的。你说我现在把Llama 4拿出来，做一个UE8M0的量化行不行？做不出来。虽然大家都是在英伟达的FP16和FP8的基础上训练出来的，但是你前面没有做这些提前的准备，没有在这个架构上做特殊的设计，你是不能去做这种极端量化的。你那个打上马赛克，大家看了就没感觉了。只有Deepseek V3.1打上马赛克，还可以有一定的表达能力。

那为什么别人不用UE8M0呢？它呢，是需要专门修改训练架构，为极限情况进行纠偏的。这个过程呢，其实有点像裹小脚，你是必须从小抓起，等长大了再来的话，他就来不及了，已经长得比较大了，现在再去裹小脚裹不出来了。极大地增加训练的复杂度，而且呢也无法保证最后不翻车。有些人裹的一半说实在太疼了，算了我就放了吧。还有一些人真的是裹了一半完了，还留下一些残疾，最后发现也没有达到人家要求的效果。这个都是会发生的。九九乘法表也是一样，我们专门把一套特别高效的计算方式呢，把它背熟了，只有进行了同样训练的人，他才可以在某些特定领域里头极快速地去给出正确的答案来。刚才我们讲了马赛克、九九乘法表和裹小脚，其实最形象的呢就是裹小脚。

那么国产算力芯片跟UE8M0到底是什么关系呢？H100就开始支持FP8了，B系列呢，开始就是像什么B200这些芯片呢，开始支持MXFP4，它是向这个方向前进的。国内呢，我们是在跟随了。大部分的芯片实际上都是支持FP8的，就是按照英伟达这个路子走的，只是我们比人出的晚。H100是挺早就出来了，咱们大概是2024年、2025年新出的一些算力芯片呢，都开始支持FP8，也对FP8呢进行了一定的优化。

华为升腾芯片呢也是支持FP8的，但同时呢另辟蹊径，搞了UE8M0的这么一个算法出来。华为呢还出了一个叫MindSpore的开源框架，对华为芯片以及英伟达芯片进行全栈的AI应用，从推理到训练，所有的事情他都可以干。他做了这样的一个完整的开源框架。在这个开源框架里头呢，对于华为升腾芯片专门进行UE8M0的这种优化。你用传统的大模型推理框架，比如说PyTorch或者是TensorFlow，它是没有办法对UE8M0进行优化的。所以一旦你拿到的Deepseek V3.1是UE8M0量化版本的，你就只能去用华为的MindSpore。华为自己呢肯定用的是最好的。国内其他的芯片现在也开始兼容这个MindSpore，他们肯定出了芯片需要去兼容现在主流的这些开源框架，包括像PyTorch、TensorFlow，也要去支持MindSpore。他们也会对自己进行UE8M0的优化。比如说像寒武纪、摩尔线程，他们现在测试了UE8M0的计算的话，会比传统的FP8的方式呢效率要高很多，或者叫效率提升明显吧。这也是为什么大家都冲上去买寒武纪的股票。虽然华为是真正整套系统提出者，而且也是最大规模的部署者，但是呢它不是上市公司，炒股票的人就拿它没办法了。Deepseek自己也不是上市公司，炒股票的人拿它也没办法，那咱们就炒这个寒武纪就可以了。

国外的这些芯片像英伟达呀、AMD这些主流芯片，都没有对UE8M0进行优化。他们也可以用UE8M0版本的这个模型，但是呢可能会更慢一些，因为它还要把这些模型搬到内存里头，重新转换成FP8或者是FP16再重新计算，它有一个中间的过程就比较麻烦。但是也不用担心了，你说我现在这个是英伟达的卡，那你只需要去下载Deepseek V3.1 FP8的版本就可以去使用了。

那你说是不是国运？到底啥叫国运？只要带着国家转向都叫国运，还有另外一种可能吗？和国运级的升腾芯片进行绑定，那肯定是国运了。训练呢还是英伟达，推理呢专门为升腾进行了优化。后面呢就要进行道路之争了，中国人比较擅长，这个什么意思？千问、Kimi、MiniMax、豆包、智谱，这些开源模型都没有办法去做UE8M0的量化，因为他们在一开始训练的时候就没有考虑过我后边有可能裹小脚这个问题，所以他就没办法走这条路。你如果说也想去做UE8M0的这个量化的话，你就需要在训练的时候就调整，第一个很麻烦，第二个有极大的失败率。如果这就是未来的方向，那就真的是跟美国这边脱钩断链了，就是我们训练拿你这个东西继续训练下去，但是呢最后去量化和推理的版本就使用升腾了。确实在影响国运的走向，所以呢这个Deepseek V3.1确实是国运级产品。

未来会怎么发展呢？希望吧，股市上折腾一下就算了，大家去买买股票赚点钱，不要去真的影响未来国内大模型的走向。大家还是尽量去跟着国际主流的技术路线去走FP8的这个路线。如果你说我们要继续前进，大家可以想办法向MXFP4的方向去走，不要去走这个UE8M0的方向，这个方向就像裹小脚一样，非常非常危险的一个方向。Deepseek V3.1呢，算是做了一次尝试吧，但如果真的影响了未来国内的模型方向，不是什么好事。

这就是今天要跟大家讲的，希望大家能够听到一些自己原来不太理解的东西吧。好，这个故事就讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？

Luke Fan — Sun, 04 May 2025 00:47:42 +0000

Qwen3发布了。这到底是划时代的胜利，还是翻车了呢？

大家好，欢迎收听老范讲故事的YouTube频道。Qwen3真的是千呼万唤始出来。前面好几周就已经不断有传言说Qwen3要发布，要多么多么强大。突然发布之后，当然也肯定是伴随着一大堆的评测数据了。官方评测数据呢，永远是我超越了谁、超越了谁。但是很多评测的人呢，觉得好像差那么一点点意思，没有达到预期。所以今天我们来讨论一下，这到底是又一次划时代的胜利，还是翻车。

Qwen3呢是凌晨发布的，4月29日凌晨上线，在Github上全面开放。我呢已经开始用上了。使用的方法有几种：

第一种是本地部署。我是MacBook Pro，M2 Max的芯片，32G内存。其他的不重要，你到底有多少硬盘，这个事没有那么重要。本地使用OlAmA部署，我使用了8B、32B和30B-A3B。最后这个是什么意思？最后是一个MOE的模型，它是30B-A3B，就是说它每一次干活的时候激活3B，也就是30亿参数。它是这样的一个标注。就这三个版本的模型，在我本机都可以跑，速度呢都是还可以接受。

云端，第一个你肯定上阿里他们自己家玩去。阿里云百炼平台，使用支付宝或者淘宝账号刷一下，就可以进去使用了。价格还是很便宜的，特别是一些很大的模型，还是要在这个上面才能去跑起来。然后open Router永远是最快的。4月29号凌晨发布的，4月29号白天就可以在这个平台上用上了。硅基流动稍微晚一点，大概到5月1号可以去使用了。

那么Qwen3有什么样的特性呢？第一个是全配置，这个非常非常重要。什么叫全配置？就是它从很小的模型到很大的模型，所有的配置都是完整的。首先它提供了稠密模型，不是MOE，就是单个的这种稠密模型，从0.6B、1.7B、4B、8B、14B、32B，这些都提供了。MOE模型提供了30B-A3B和235B-A22B。235B-A22B这种模型什么意思？就是说一共是2,350亿参数，每一次激活220亿个参数。它是这样的两个MOE模型。

全场景。你在移动端0.6B到4B这样的模型，在移动端没有任何问题都可以跑。说我在终端推理，或者是在PC端跑一跑，做一些商业应用，8B、14B、32B都是可以跑的。你说我有一些复杂任务，或者做一些AI agent开发，30B或者是235B的两个MOE模型非常好用。而且呢是全语种，它支持119种语言。不过这块有人在吐槽。

这119种语言，好像除了中文、英文和常见的几种语言之外，其他什么斯瓦西里语这种奇奇怪怪的语言，支持的并没有那么好。

训练的过程呢，稍微的跟大家展开讲一讲。预训练用了36T的数据。LLAMA4的预训练数据的话是30T，Qwen3的话，比LLAMA4的训练数据集还要再大一些。

它的第一阶段呢，是使用了30T的数据，训练了一个基础语言模型出来。第二阶段用5T的数据呢，去强化STEM，也就是这种科学相关的能力，以及编程相关的能力。到第三阶段呢，就是扩大上下文。一开始这个上下文是比较小的，经过第三阶段的扩大以后：

– 4B以下的模型，也就是刚才我们说的0.6B、1.7B、4B这三个模型，它们的上下文呢达到了32K。
– 大于4B的模型，也就是8B、14B、32B，以及MOE的两个模型30B和235B这几个模型，他们的上下文呢都已经达到了128K。
– 在一些特殊情况下，可以达到256K的上下文。

这块呢，有待继续提升吧，因为LLAMA4的上下文是10兆，要比它大很多。

数据来源，就是拿什么数据来训练的这个东西：
– 60%的数据呢，是互联网原生数据。
– 25%呢，是专业领域的数据，包括GitHub上面的代码、数学公式、科学数据。
– 还有15%呢，是合成增强数据，就是拿其他的大模型去生成的一些数据，用的是Qwen2.5的一些模型生成了一些数据。这块呢，主要是做一些推理链的训练，而且也可以做多语言的对齐。

这就是它的数据来源。这块呢，跟LLAMA4就有很大的区别。LLAMA4大量的使用的都是合成数据，而这个Qwen3的话，使用的大量是原生数据。

在预训练之后，还会进行后训练。后训练的话，实际上是对模型做微调了。他呢，在分四步对Qwen3进行微调：
1. 第一步是长思维链冷启动的训练，注入数学、代码等领域的常推理数据。
2. 第二步呢，是强化学习探索强化学习，就是你给我生成结果，我们来打分，然后你根据我的打分来决定说这个结果对不对。它是基于规则奖励，提升复杂推理能力的一个训练。
3. 第三步呢，是模式融合。这个东西特别好玩，它是一个融合模式的推理模型。什么意思呢？因为我们使用推理模型的时候，有一个特别讨厌的东西，就是有些特别简单的东西呢，给你推理半天，甚至推理的TOKEN还消耗了很多。对于Qwen3来说呢，它里头有一个参数，就是你是不是要打开推理。同一个模型呢，你可以在这设说你不要打开推理，他就快速的给你出一结果。你说你给我做推理。

就给你啰里八嗦的去想去了，这个也算是个创新吧。原来都是推理模型，就是必须要推理。他是做了这样的一个训练，然后第四步呢是进行通用校准，特别是覆盖20多个领域的强化学习，修正一些不良行为。他等于做了预训练之后，还做了大量的微调后训练。

那么，Qwen3的技术创新到底有哪些呢？

第一个就是它这个混合推理架构。就是你到底想不想让它推理，你告诉他就完了。他给你去推去，或者是直接给你一个答案。

第二个技术创新呢，就是它的MOE的参数效率极大提升了。它的235B的模型里头，每一次激活只激活22B的参数。它要比DeepSeek R1激活的参数要少很多，只有DeepSeek R1 1/3的参数。它整个的模型尺寸也只有DeepSeek R1的1/3。所以呢它的部署成本要比DPC卡R1要低很多，推理的效率也要高非常多。

第三个呢就是多语言和多模态的支持。第一次支持了119种语言，2025年内将推出Qwen3-Vl多模态版本。现在的Qwen3还不支持多模态，你给他张图片他还是认不出来的。这块还是比LLAMA4要差一点。LLAMA4是你给他个视频，他都可以给你进行推理。

最后，Agent能力增强。它呢是直接支持MCP，原生支持MCP协议，工具调用准确率提升40%，API代码量减少70%。这个是Qwen3在这一个时代里头，必须要去实现的功能。这也是它比LLAMA4强的地方。

对Qwen3的期待、评分以及使用感受方面，还是有一些落差的。各项评分一定是高的吓人。因为你现在说，我今天推出一个新模型出来，你一定会自己做一大堆评测，然后跟模型一起推出。如果你说我自己做的评测就比谁都差，那这事你还推它干嘛？一定是说我现在评测了，比大家都强了，我才可以推出来。所以评分一定都比大家强。这块呢，就不跟大家详细去列举说那个评分是多少了，没有什么意义。

但是呢，这个里头比较好玩的是什么？就是它是一个田忌赛马的故事。大家知道什么叫田忌赛马吗？用我们的比较差的马，跟人家那个最好的马比，我输掉了。然后呢我用我的最好的马去跟人家的中马比，我赢了。用我的中马去跟他的最差的马去比，我又赢了。等于三局两胜，我赢两盘。他是很多做这样的这种比较。

为什么Qwen3有田忌赛马的这个能力呢？你比如说，8B的模型可以达到人家的32B的效果。我现在是32B的模型，我可以达到原来72B的效果。他等于做了很多这种错位的比较，我用更小的模型。

达到了以前必须用更大规模模型才可以达到的效果。当然，田忌赛马呢，也未必都是好事。为什么？因为很多人会对这种小参数模型抱有不切实际的期望。一堆人拿来说：“我拿这个8B的模型跑一跑试试，看看我去做一些很复杂的任务，到底效果怎么样？”肯定效果不好。千万不要认为你用8B的模型就可以跑出非常非常好的效果来，这个肯定还是有一些差距的。它可能会在某些特定的领域，或者经过一些微调和训练之后，可以达到32B的效果。

绝大部分人对大模型的认知都是停留在什么GPT-4O这个水平的。你要想拿8B的模型去跟这样的模型去比的话，没有任何可比性。那你说我使用这些32B的模型呢？就属于在大部分情况下可以接近GPT-4O这样的一个水平。咱不研究多模态那些东西，就是正常的内容生成，算是接近。至于说它的235B呢，现在距离Gemini 2.5 Pro还是有一些差距的。但是呢，相对于其他的模型来说，基本上算是跑在同一个基准线上了，不比别人差了。

Qwen3 235B-A22B的这个最大模型在数学、代码、Agent等方面都是全面超越了DeepSeek R1。部分场景呢，接近Gemini 2.5 Pro。这什么意思？就是全部的场景肯定离Gemini 2.5 Pro还是有一定的差距的，但是有一部分场景接近了。但在复杂语义理解，就特别复杂的情况下，还是有一些差距的。特别是一些复杂的逻辑分析，它是有问题的。真实使用的感受呢，算是能用。比起DeepSeek R1强吗？其实感觉不太出来，基本上可以达到DeepSeek R1的水平。

指令依存方面呢，肯定还有一点点欠缺。让他做一个很复杂的动作，他有的时候还是会丢三落四一些。这块我自己试过的，网上也有很多吐槽的人。第一个，复杂推理中的逻辑断层和幻觉生成的问题。所有推理模型身上都有这样的问题，Qwen3即使是最大的模型235B，在这块呢，也不比别人好多少。第二个呢，就是过度思考跟效率问题。有些人发现说：“我给他一个很复杂的问题，他自己开始进行推理了，推理来推理去，直接死在里头了，彻底推不出来了。”这种情况现在也还是存在的。

但是呢，也不用太着急。他既然可以进行后训练，可以进行微调，那我相信大家有各种问题去提就完了。Qwen应该会快速的微调出不同的版本出来的。多语言支持的不均衡，你说119种语言，那些小语种支持的肯定没有那么好，因为语料也没那么多嘛。但这一块你想让它提高支持的话。

也很简单，拿足够多的语料去微调就完了。他也是可以去支持的。然后还有一些伦理跟隐私方面的风险，因为它可以有非常非常小的模型。所以你可以把这种模型，比如部署在你们家洗衣机里，或者部署到一些很奇奇怪怪的这种角落里面。他的能力还很强。而且这种全开源的模型，还有一些人微调了以后，是可以把他的一些安全限制去掉的。这个就会比较吓人，所以大家对这块呢也有一些担心。

还有呢，就是模型对齐和偏好上面的一些问题。比如说吧，生成内容有时候会偏离用户的意图。它对一些指令的依从，还是会稍微差一些的。那么给出一个简单的结论吧，这到底是一次划时代的成功呢，还是翻车呢？我个人的感受呢，这又是一次划时代的胜利。

Qwen3真正在跟谁竞争？大家要想清楚：LLAMA 4、DeepSeek R1、Claude 3.7、Gemini 2.5、GROK3、GPT O3 O4这样的模型，到底在跟谁竞争？实际上真正去跟Qwen3竞争的只有一个，就是LLAMA4。其他的都不在同一个起跑线上。

LLAMA4呢，是翻车了。它怎么翻车的？第一个是数据造假，或者叫过拟合。拿直接去跑分的题目进行训练，这样跑分效果特别好，但是实际使用的效果差异巨大。这是LLAMA4翻车的一个最根源的原因。

咱们从另外一个角度上来讲，LLAMA4自己其实是有一些问题的。第一个是什么？就是它公开的模型太大，占资源很多，放弃了绝大多数的场景。他就开源了一个104B，一个400B的模型。普通人你拿他没办法，像我的电脑根本跑不起来。你就算部署到云端的话，它占资源也是占的非常多的。就对于这个经济性来说，一点优化都没做。你说我想在手机上跑，想在嵌入式设备上跑，没做这个准备，他就不惦记。甚至还有一个两T的模型，压根都没有发布出来。他就发布了一个109B，一个400B，其他都没有了。

而且这么大的模型，你想去微调那太痛苦了。就是你想微调一个模型，模型越小越好调。你模型越大的话，你调起来甭管是你的数据还是算力，都是非常巨大的成本。现在看的LLAMA，应该是准备走XAI这条路。

XAI是什么路？假开源。为什么马斯克的XAI叫假开源呢？就是我确实把东西开出来了。他承诺的是什么呢？就是我发布新版本，我就把旧版本开源。而且呢，开出来的东西，你要想调用的话，你也调不了。为什么？我只把那最大的模型出来，哐昌往那一扔就完了。各种的文档，各种东西都很少，你部署上去也不划算。

所以呢，我开源了吗？开了，东西也放这了。能用吗？没法使。你提任何问题、提任何要求，说哪给我改一东西，也没人理你。这就是XAi的玩法。

你要想调用这些东西怎么办？到我服务器上来调用XAI的API，这个是没问题的。我现在也在Grok的服务器上去调用它的API，效果也还可以。但是你说有没有第三方去部署Grok模型，然后让大家去调用呢？没有。因为你现在开源出来的版本低，它的效果没有那么好。你要想使用最新的，你只能在他的服务器上使。以后呢，Meta估计也要走这条路。

那你说为什么没有人骂XAi呢？原因很简单，因为XAi一直就这样。从x开放出来的这个推荐算法，开放出来以后，就再也没有更新过任何代码。你提的所有问题，连回复都没有人回复。XAi更新出来的Grok开源模型也是如此，开源出来啪往那一扔，彻底没人理你了。所以它一直这样。

而LLAMA呢，原来是比较开放的。现在大量的模型都是在LLAMA基础上做出来的，包括Qwen早期的模型，都是在LLAMA基础上做出来的。那现在呢，有点越来越回去了，所以有点怒其不争。大家要骂一骂他，看看能不能把他骂回来。

然后另外一个，LLAMA4被人骂的原因是什么？他不支持MCP。现在是一个做Agent的时代，你不支持MCP，你模型能力再强，你也搞不定各种场景。现在即使是你使用GBT 4O或者GBTO 3这样的模型，你没有一些外接的组件，你根本就跑不出结果来。所以你不支持MCP，这事肯定不行。

还有呢，就是LLAMA对用户是有限制的。LLAMA虽然是开源模型，但是呢，不能进行商业使用。你只能拿去做研究。你说我拿这东西做商业使用了，对不起，你会收到律师函的。而且如果你是一个大公司，月活用户数超过7亿的公司，你如果想使用LLAMA4或者LLAMA早期版本，你需要向Meta做单独的申请。申请通过了以后你才可以去使用，否则不让用，就做了很多限制。

这个反面典型讲完了，咱们讲一讲Qwen3跟LLAMA4比较起来是怎么样的。Qwen3完全开源，你爱干嘛干嘛去，想怎么调怎么调。第二个，体积小，参数少，规格全，性能高。从0.6B就开始，所有的都给你发一遍，爱用哪个版本用哪个版本。这些小体积的模型，经过微调之后应该会一统江湖。

什么意思？就是现在在hugging face上，绝大部分的模型都是拿Qwen2.5、Qwen2这些各个尺寸的模型调出来的。

早期的LLAMA还是各个尺寸都有的。现在到LLAMA4，前面那些小的模型就不出了。Qwen3又把所有的模型都出了一遍，那大家就拿来微调呗。你说哪块不满意，我就专门把它调一调，训练一下上去使不就完事了吗？所以一定会一统江湖的。

而且，Qwen3是原生支持MCP的。我在本地部署了OLAMA 8B的模型，使用Cherry studio测试了一下，支持没有任何问题。但是呢，支持的并不是那么顺畅。30B和32B的模型我在本地也装了，完美支持MCP，没有任何问题。

那你说什么叫支持的不顺畅？什么叫支持的顺畅呢？在这跟大家讲一讲使用MCP的过程。其实很简单，MCP也是描述一下工具，说我这有一工具，这工具叫什么什么名字，输入的参数是什么，输出的参数是什么，能干什么。大概是有这样的一个描述文件，你把这描述文件给到大模型以后呢，大模型会根据你提出的要求，来生成一个调用这个工具接口的代码。

这个8B的模型呢，有时候生成的代码会有点小错误，导致呢调用失败。那调用失败了以后呢，他会换一个方式，再调另外一个接口，然后会得出一个需要的结果出来。你使用32B模型，或者30B的Qwen3模型的话，你把一大堆的描述扔给他以后，他就会正确的找到需要使用的接口，需要使用的工具，然后生成调用代码直接调。调完了以后得到结果，需要再调用的话，还可以在一次推理里头多次调用，然后得到结果。

因为我是放的高德地图的MCP进去，说来给我规划一个旅游路线，这个效果好极了。完完全全在本地，当然高德地图那个服务器不在本地。其他的，他的Qwen3，OLAMA，Cherry studio都是在本地跑起来了，所以这块效果好极了。

现在呢是大模型密集发布的一个周期。前面我们看到了Gemini 2.5 Pro，Gemini 2.5 Flash，GPT也在快速的连续发布。后边还会很快看到一些新东西，包括马斯克下周要发布的Grok 3.5。Qwen3出来以后，如果有哪些方面超越了它，那它是肯定是要更新的嘛。GPT5应该也快了，这就是这样的一个风起云涌的大时代。

好，总结一下吧。Agent时代一定要有一个对Agent友好的模型发布出来，才会被大家叫好，才算是一次成功的发布。体积小，参数少，规格全，性能高，只要可用性不退步，方便微调，这些特性都具备的话，再加上前面的MCP的功能，Qwen3绝对是一次划时代的成功。好，这就是今天讲的故事。

大家赶快去玩耍起来！好，感谢大家收听。请帮忙点赞，点小铃铛。参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！