性能评测 – 老范讲故事｜AI、大模型与商业世界的故事

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

Luke Fan — Tue, 29 Jul 2025 00:57:08 +0000

遥遥领先的华为升腾384超节点，是不是又立功了？

上海人工智能大会上，有一个镇场之宝，就是华为升腾384超节点。叫这个名字很怪，其实就是华为做的算力超级节点，华为云矩阵。384超节点这个东西，从外边看上去呢，像一堵墙一样，反正摆在厂子里头也确实比较唬人，而且也很昂贵。

很多人就兴奋了，说我们是不是又打破了西方的垄断呢？西方人对我们禁运，不给我们卖英伟达最好的芯片，我们自己造出来了。这个事到底达没达到呢？可以说部分达到了。在集群总的FP16算力上，为什么一定要强调这个？就是它在不同精度上的算力是不一样的。在FP16算力上呢，华为升腾384超节点，是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢？

现在我们去想算力，它是分三个层次的。第一个就是卡，卡这件事呢，咱肯定比不过人家，甭管你是比H100还是GB200，你根本比不过人家。第二个呢，就是叫整机，我是一台服务器。你像AMD呢，就是卖这种东西，就是我一台服务器里头有8个，他们叫MI300这样的服务器。第三种维度呢，就是说我给你卖一整个柜子，像NVL72呢，就属于整个柜子，我把72个H100或者72个GB200这样的东西，装在一个柜子里头，当成一台机器一把卖给你。

现在西方最主要的算力节点，就是NVL72。但是呢，同样的NVL72呢，它里头到底装的是H100，还是装的GB200呢？它算力是不一样的。华为升腾的384超节点，它超过了H100的NVL72的算力，但是呢，达不到GB200的NVL72的算力。虽然在其他方面呢有所欠缺，但是呢，也算是突破了一层西方限制吧。这个欠缺的部分，待会儿我们再去讲。

升腾384超节点，到底是一个什么样的架构呢？一面墙，为什么是一面墙？它是16个标准19寸机柜，这柜子的大小是有标准的。NVL72就是英伟达的，这个设备呢是一个柜子，咱是16个柜子。这个16个柜子里头呢，4个柜子是交换机，因为你这么多设备要拼在一起，你总是需要一些网络交换设备，去支撑它们的。所以有4柜子交换机，剩下12个柜子呢，是装的算力服务器。

每个柜子里头呢，是4台4U的升腾服务器。这个服务器呢，是按1U、2U，大概4U应该有这么高吧，这个就是4U的服务器，4台装在里头。当然它也装不满，这一个柜子里头应该是19U还是多少U，我记不太清了。剩下这空间，你还得放各种的路由设备、交换设备，因为你这些服务器之间，你还要通讯呢。

所以12个算力服务器柜里头，每个柜子里装了4台服务器，每个服务器里头呢，是4个鲲鹏920 CPU和8个升腾910C的NPU。所以呢，他把所有的NPU算一块，就是升腾910C的NPU，算一块呢是384个，这个名字是这么来的，384超节点。它等于是把384个NPU搁在一起，给大家干活儿。

鲲鹏CPU呢，应该是一个兼容ARM指令集的自主IP的CPU。鲲鹏早期的CPU呢，是使用的ARM IP，后来呢，为了防止美国人告他嘛，所以呢，他自己研究了一些新的架构，说我们不再使用ARM架构了，但是呢，它的指令集呢，还是部分兼容ARM的。里边装的操作系统是什么？鸿蒙，里头装的鸿蒙操作系统，但是它是专门给服务器用的。

升腾910C呢，也是一个自主架构，叫达芬奇架构的一个NPU。所谓的NPU呢，叫神经网络处理单元，实际上呢，是一种ASIC处理器。它是自己定制的一个大型集成电路，所以它不是CPU，它有自己的指令集，跟任何的CPU、GPU的指令集都不一样。这个是910C，这两个芯片呢，应该都是7纳米的芯片。但是现在嘛，华为的芯片都搞得神神秘秘的，做了一大堆7纳米的芯片，到底谁做的也不知道，怎么做出来的也不知道，反正就是7纳米的，把这些芯片造出来了。

下一件事是干嘛？就是要通讯。所有的这种算力服务器里头，实际上是三样东西。一个是GPU跟CPU，第二个呢是它的内存，这里头也有HBM内存，它的内存比NVL72给的还多，因为它里头的芯片多嘛，这个装了这么多柜子，咱总要多放一些。第三个呢，就是要通讯，卡跟卡之间是要去通讯的。

像这个NVL72，就是英伟达的这个设备呢，它里头使用NVLink呀，使用其他的一些协议，和一些专门的设备，去让它们进行通讯。不同的卡，它可以直接去调用其他机柜里头的HBM，这种高速的显存。这样的话，它的效率就会很高。拿这个设备去做大模型训练和推理的人呢，就完完全全可以把这一柜子72个GPU，当成一个GPU去使用。里头具体咋调动，你不管了，这个数据到底是放在哪个服务器的哪一个卡旁边的HBM的空间里头，你也不用去管了，它自己去调度去了。而且速度都很快，即使是跨服务器跨卡的这种调度，它不会影响任何速度。这是NVL72处理的方式。

升腾384超节点呢，服务器比别人多，里头的卡也比别人多，人家72个卡，他384个卡。他的通讯呢，肯定是处理起来更复杂的。它通讯呢，使用的是全线光模块，像NVL72里头还是有一部分是铜线的，有一部分是光模块，这个里边全是光模块，堆料堆的非常非常足。这样可以保证呢，这些芯片之间的通讯，服务器之间的通讯效率都非常高。所以为什么这里头，还有4个柜子的交换机呢？那些光模块，有些还是要通过交换机的交换以后，才可以找到下一个机柜里边的服务器，然后在里边找到你需要的地址，找到你需要的数据，才可以把它拉回来。所以呢，它整个的运作方式还是比较费劲的。

当然，光模块多了呢，也有光模块的问题，不是说我们上了光模块就完事了。光模块的问题是发热严重，它里头是个激光发生器嘛，故障率也比较高，这个玩意比较爱坏。还有一个问题呢，就是它的激光发生器的寿命呢，不是很长。所以使用这么多的光模块，它的运营维护成本和稳定性呢，都不是那么理想。

物理上连通了，那下一个问题是什么呢？我就要通过软件逻辑和分配上，我要把刚才我们讲的光模块这些缺陷，要给它处理掉。以前做工程上，有一个典型的故事，叫99米长的枪，什么意思？就是说我这个枪只能打一米远，但是呢，我要打中100米之外的那个鸟，怎么办？作为工程师来说，处理的方式就是造一支99米长的枪，把这个枪伸过去，乓一下，把那鸟打死。这个在工程上呢，并不可笑，在工程上，很多的解决方案都是这样的。

所以呢，升腾384超节点呢，也用了一些软件和逻辑的方式，来去解决光模块不稳定性的问题。它会自动的去判断说，我这不是不是光模块断了呀，还是说哪块出故障了呀，我怎么绕一下。它在每一个NPU外边挂了6-8个光模块，这坏了以后，还有其他路径可以走，我可以做冗余备份吗？

我们用了16倍的英伟达NVL72的体积，和3倍的耗电，来解决NVL72加上H100芯片所能达到的算力需求。这个就是我们现在干的活。三倍耗电这事很好理解吗？人家是5纳米或者是3纳米，咱们这个是7纳米，肯定是耗电发热要比别人厉害。人家是72个芯片，咱们是384个芯片，你比别人耗3倍的电，这个还算是好理解的一个地方。

它的功率呢，是559千瓦，开起来以后还是非常非常耗电的。559千瓦呢，还只是机器的耗电，还没算散热呢。散热加上以后的话，可能会到600-700千瓦之间的一个耗电。为什么这么说呢？升腾上一代做的类似这种东西，大概是10%的耗电量来去散热，比如这边用100瓦的电量去做了算力了，那边用10瓦的电量去做散热，他是这样来去做的。但是呢，这个384超节点，因为里边用了太多的光模块，好像是用了6000多个光模块，那么你的散热的耗电的话，肯定也是要上升很大一块的。散热不好的话，你的激光模块损耗的就会更快一些。它整个的系统完全是强制水冷，其实NVL72也是强制水冷，只是呢，它在一个柜子里，相对来说还比较好弄。升腾384超节点呢，因为在16个柜子里，整整一面墙，你要再给它配水冷呢，这个事费点劲吧，但是还是可以解决的。所以耗电比较厉害。

那么电费呢，中国还是相对来说比较便宜的。中国的工业用电呢，大概是6毛钱一度，其实美国也差不太多，我看了一下美国的平均工业用电，大概是8美分多一些吧，大概也是6毛多钱。美国有一个州电价比较便宜的，是路易斯安娜州，4毛多钱一度电。美国大概最贵的是加州，14美分，大概快一块钱一度电了。加州因为硅谷在那嘛，再加上机房也比较多，所以他那的电特别贵。中国的发电大省，比如说像云贵、内蒙、新疆这些省，如果是集中大规模的采购用电的话，应该可以做到2毛多一度电。按照咱们最便宜的电费，跟美国的平均电价去比较的话，我们的电费是他们的1/3。所以呢，我们耗英伟达NVL72三倍的电，这个也是可以接受的。所以我们依靠电价优势，勉强可以抹平成本。

升腾384超节点的生态如何呢？英伟达之所以可以打败天下无敌手，核心的原因，不是说别人造不出来这样的东西，而是呢，它有一个生态捆死了，大家离不开它。CUDA呀、NVLink呀，这些生态帮助老黄，整个的竞争过程中无往而不利。那你说我们现在做了一个升腾384超节点出来，如果大模型没法在上头跑，也没法在上面训练，这不是白干了吗？你就像英特尔搞不定这个事儿，AMD也搞不定这个事儿是一样的。虽然AMD说我造得出来，你也能将就使，但是你说我要进行大规模训练了，很少有人去选择AMD的设备。

现在呢，大规模使用的GPU其实就是两种。第一种呢，是英伟达的H100、GB200，GB300现在还没发布呢。另外一种呢，是谷歌的TPU。谷歌TPU就是说，反正我自己做自己用，我也不需要考虑兼容性问题，我就自己干了，我也不卖给别人，它的量也很大。另外呢，像亚马逊跟微软呢，都号称是自己要做GPU，特斯拉和XAI也号称自己要做GPU，但是都在号称的阶段，还没有动起来。山姆·奥特曼呢，也号称要跟孙正义一起拿ARM的IP，自己去做GPU，但是这件事呢，也停留在号称的基础上，也没有实际动作。所以现在真正广泛应用的大规模的GPU，就是英伟达和谷歌。这个里头最核心的原因就是生态。谷歌之所以能够大规模应用，就是我不管生态了，反正我自己使，你们不需要跟我兼容就完事了，否则根本没法跑。

咱们说回来，华为升腾384超节点，它的生态怎么样呢？第一个呢，是华为自己做了一个叫MindSpore这样的一个开源的推理和训练框架。你说我现在想用升腾384超节点，去训练我的新模型，你就使用它这个玩意就可以了。它呢，大概可以兼容70%-80%的CUDA指令，但是毕竟不能完全兼容嘛，你如果原来已经习惯了CUDA的编程的话，你可能到这边来去做训练，还是有问题的，你还是要去花时间去做迁移的。另外呢，PyTorch、TensorFlow、Hugging Face Transformer这些框架呢，升腾呢，也专门做了兼容性适配，就是我专门写一个模块，你只要带上我这个模块以后，你这个PyTorch，你的TensorFlow，你的Hugging Face Transformer，这些推理和训练框架，就都可以在升腾的384超节点上跑了。所以呢，如果大家说原来的这个系统，是在PyTorch上跑的，你也不需要再去做迁移了，直接在它这上就可以跑了，兼容性他们都给你测好了。所以呢，属于叫部分的兼容吧。

如果你真的是说我训练新的大模型，建议大家还是不要跟自己找不痛快，还是老老实实的去使用英伟达就完了。但是你说我拿回来做做推理，拿来去做一些后期的使用的话，升腾384基本上是够用的，没有什么太大问题，你只要别嫌它占地儿，别嫌它耗电，这个东西还可以使。

那你说为什么不能拿它做训练呢？刚才不是说它可以训练吗？而且训练的算力也不差。大家注意，训练呢，是一个非常长期的这种连续任务，你中间停了坏了以后的话，你是需要重新干的，你说让他接着往下干，这事很费劲。它里边有大量的光模块，而且这个玩意的故障率很高，寿命也不是很长。你如果跑着跑着出故障了，里头有一个光模块烧了，你的这个训练呢，未必会停下来，因为它通过了一些软件方式，让你去规避这个错误。你可能只是说我训练的过程中，哪一些数据取回的速度变慢了，但是呢，我还在接着往前慢慢跑。但是也有可能跑着跑着就直接出错，咔嚓就扔那了，这个可能性是很大的。

你像马斯克，他自己用的10万块H100，Meta这种几十万块的H100，他们去做这样训练的时候，还经常是说我跑着跑着突然就退出了，突然就崩了。那崩了怎么办？重来一遍呗。对于他们这些平台来说，你可能跑10次崩个两三次，但是你对于升腾384这样的超节点来说，你可能跑10次会给你崩个八九次，这个也许就突破忍受极限了，就没法忍了。他大概就是这样的一个情况，就是有些情况呢，咱们能用了，有些情况还是稍微费点劲的，跟它整个的硬件架构是有关系的，跟它的兼容性也有关。它毕竟没有100%兼容CUDA嘛，所以大家在CUDA上做训练的代码，拿到这边来再跑，还是会有很多问题的。

那你说华为升腾384超节点，最大的作用到底是什么呢？第一个呢，还是给国内算力中心了一种新的选择，否则你没得选，你只能是要么拿自己的卡或者服务器，这种完整可以拼在一起的算力节点，也算是一个工程上的突破吧。信创产业也算是填补了零的空白，因为现在很多是要求信创嘛，所有的必须是自主可控，自主的操作系统，自主的CPU，自主的GPU，所有都要自主的。我们现在迷信这玩意，原来呢，这些人没得选，现在等于是有的选了，也算是一个工程奇迹，就是99米长的枪。这个故事呢，大家别觉得可笑。

H20的库存呢，前面老黄在中国各种的表演之后，算是把他这个库存清了。川普呢，又要带着企业家来访华了，下次谈点什么，大家要想一想。上次黄仁勋是怎么去说服川普，说把H20解禁的呢？是告诉川普，华为的升腾910，已经基本上可以达到H20的水平了，你再不让我卖，我这就没意义了，人家也都做出来了。所以他把H20卖了。现在是华为升腾384超节点出来了，他说你看我这H100，加上NVL72的整个架构的性能，也被人超过了，咱就卖吧。至于GB200这个呢，咱们再看一看，现在它还没达到，不行咱们再把这个摁住了，或者说等我这个GB300出来了以后，咱们再把GB200的这套东西卖了。可能下一轮的解禁就要来了嘛。所以大概率川普老爷子还是比较好面子的，等他下一次带着企业家团队、一对CEO团队来访华的时候，H100的NVL72就可以卖了。

总结一下，升腾384超节点在工程实现上，确实有遥遥领先的地方，有一些敏感单位，可以选择全国产设备了，这个原来搞不定，现在可以搞定了。有很多瑕疵和不稳定的地方，用的越多，迭代越快，改进的呢也就越好，永远都是这样的。第一次拿出来都是磕磕绊绊的，第二版第三版第四版，慢慢就改好了。这个对于突破海外封锁，让美国进一步放宽管制来说呢，是有巨大作用的。如果是商业公司，哪怕你去选择H20，也比选择升腾384要划算。如果你不着急的话，可以稍微等一等H100，我相信H100在今年可能很快就会解禁。如果后面美国进一步放宽管制的话，英伟达的股票大家可以再关注一下。董王呢，是一个好大喜功的狡诈商人，黄仁勋也是。变化应该就在不远的将来。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友，加入我们的付费频道。再见。

阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？

Luke Fan — Sun, 04 May 2025 00:47:42 +0000

Qwen3发布了。这到底是划时代的胜利，还是翻车了呢？

大家好，欢迎收听老范讲故事的YouTube频道。Qwen3真的是千呼万唤始出来。前面好几周就已经不断有传言说Qwen3要发布，要多么多么强大。突然发布之后，当然也肯定是伴随着一大堆的评测数据了。官方评测数据呢，永远是我超越了谁、超越了谁。但是很多评测的人呢，觉得好像差那么一点点意思，没有达到预期。所以今天我们来讨论一下，这到底是又一次划时代的胜利，还是翻车。

Qwen3呢是凌晨发布的，4月29日凌晨上线，在Github上全面开放。我呢已经开始用上了。使用的方法有几种：

第一种是本地部署。我是MacBook Pro，M2 Max的芯片，32G内存。其他的不重要，你到底有多少硬盘，这个事没有那么重要。本地使用OlAmA部署，我使用了8B、32B和30B-A3B。最后这个是什么意思？最后是一个MOE的模型，它是30B-A3B，就是说它每一次干活的时候激活3B，也就是30亿参数。它是这样的一个标注。就这三个版本的模型，在我本机都可以跑，速度呢都是还可以接受。

云端，第一个你肯定上阿里他们自己家玩去。阿里云百炼平台，使用支付宝或者淘宝账号刷一下，就可以进去使用了。价格还是很便宜的，特别是一些很大的模型，还是要在这个上面才能去跑起来。然后open Router永远是最快的。4月29号凌晨发布的，4月29号白天就可以在这个平台上用上了。硅基流动稍微晚一点，大概到5月1号可以去使用了。

那么Qwen3有什么样的特性呢？第一个是全配置，这个非常非常重要。什么叫全配置？就是它从很小的模型到很大的模型，所有的配置都是完整的。首先它提供了稠密模型，不是MOE，就是单个的这种稠密模型，从0.6B、1.7B、4B、8B、14B、32B，这些都提供了。MOE模型提供了30B-A3B和235B-A22B。235B-A22B这种模型什么意思？就是说一共是2,350亿参数，每一次激活220亿个参数。它是这样的两个MOE模型。

全场景。你在移动端0.6B到4B这样的模型，在移动端没有任何问题都可以跑。说我在终端推理，或者是在PC端跑一跑，做一些商业应用，8B、14B、32B都是可以跑的。你说我有一些复杂任务，或者做一些AI agent开发，30B或者是235B的两个MOE模型非常好用。而且呢是全语种，它支持119种语言。不过这块有人在吐槽。

这119种语言，好像除了中文、英文和常见的几种语言之外，其他什么斯瓦西里语这种奇奇怪怪的语言，支持的并没有那么好。

训练的过程呢，稍微的跟大家展开讲一讲。预训练用了36T的数据。LLAMA4的预训练数据的话是30T，Qwen3的话，比LLAMA4的训练数据集还要再大一些。

它的第一阶段呢，是使用了30T的数据，训练了一个基础语言模型出来。第二阶段用5T的数据呢，去强化STEM，也就是这种科学相关的能力，以及编程相关的能力。到第三阶段呢，就是扩大上下文。一开始这个上下文是比较小的，经过第三阶段的扩大以后：

– 4B以下的模型，也就是刚才我们说的0.6B、1.7B、4B这三个模型，它们的上下文呢达到了32K。
– 大于4B的模型，也就是8B、14B、32B，以及MOE的两个模型30B和235B这几个模型，他们的上下文呢都已经达到了128K。
– 在一些特殊情况下，可以达到256K的上下文。

这块呢，有待继续提升吧，因为LLAMA4的上下文是10兆，要比它大很多。

数据来源，就是拿什么数据来训练的这个东西：
– 60%的数据呢，是互联网原生数据。
– 25%呢，是专业领域的数据，包括GitHub上面的代码、数学公式、科学数据。
– 还有15%呢，是合成增强数据，就是拿其他的大模型去生成的一些数据，用的是Qwen2.5的一些模型生成了一些数据。这块呢，主要是做一些推理链的训练，而且也可以做多语言的对齐。

这就是它的数据来源。这块呢，跟LLAMA4就有很大的区别。LLAMA4大量的使用的都是合成数据，而这个Qwen3的话，使用的大量是原生数据。

在预训练之后，还会进行后训练。后训练的话，实际上是对模型做微调了。他呢，在分四步对Qwen3进行微调：
1. 第一步是长思维链冷启动的训练，注入数学、代码等领域的常推理数据。
2. 第二步呢，是强化学习探索强化学习，就是你给我生成结果，我们来打分，然后你根据我的打分来决定说这个结果对不对。它是基于规则奖励，提升复杂推理能力的一个训练。
3. 第三步呢，是模式融合。这个东西特别好玩，它是一个融合模式的推理模型。什么意思呢？因为我们使用推理模型的时候，有一个特别讨厌的东西，就是有些特别简单的东西呢，给你推理半天，甚至推理的TOKEN还消耗了很多。对于Qwen3来说呢，它里头有一个参数，就是你是不是要打开推理。同一个模型呢，你可以在这设说你不要打开推理，他就快速的给你出一结果。你说你给我做推理。

就给你啰里八嗦的去想去了，这个也算是个创新吧。原来都是推理模型，就是必须要推理。他是做了这样的一个训练，然后第四步呢是进行通用校准，特别是覆盖20多个领域的强化学习，修正一些不良行为。他等于做了预训练之后，还做了大量的微调后训练。

那么，Qwen3的技术创新到底有哪些呢？

第一个就是它这个混合推理架构。就是你到底想不想让它推理，你告诉他就完了。他给你去推去，或者是直接给你一个答案。

第二个技术创新呢，就是它的MOE的参数效率极大提升了。它的235B的模型里头，每一次激活只激活22B的参数。它要比DeepSeek R1激活的参数要少很多，只有DeepSeek R1 1/3的参数。它整个的模型尺寸也只有DeepSeek R1的1/3。所以呢它的部署成本要比DPC卡R1要低很多，推理的效率也要高非常多。

第三个呢就是多语言和多模态的支持。第一次支持了119种语言，2025年内将推出Qwen3-Vl多模态版本。现在的Qwen3还不支持多模态，你给他张图片他还是认不出来的。这块还是比LLAMA4要差一点。LLAMA4是你给他个视频，他都可以给你进行推理。

最后，Agent能力增强。它呢是直接支持MCP，原生支持MCP协议，工具调用准确率提升40%，API代码量减少70%。这个是Qwen3在这一个时代里头，必须要去实现的功能。这也是它比LLAMA4强的地方。

对Qwen3的期待、评分以及使用感受方面，还是有一些落差的。各项评分一定是高的吓人。因为你现在说，我今天推出一个新模型出来，你一定会自己做一大堆评测，然后跟模型一起推出。如果你说我自己做的评测就比谁都差，那这事你还推它干嘛？一定是说我现在评测了，比大家都强了，我才可以推出来。所以评分一定都比大家强。这块呢，就不跟大家详细去列举说那个评分是多少了，没有什么意义。

但是呢，这个里头比较好玩的是什么？就是它是一个田忌赛马的故事。大家知道什么叫田忌赛马吗？用我们的比较差的马，跟人家那个最好的马比，我输掉了。然后呢我用我的最好的马去跟人家的中马比，我赢了。用我的中马去跟他的最差的马去比，我又赢了。等于三局两胜，我赢两盘。他是很多做这样的这种比较。

为什么Qwen3有田忌赛马的这个能力呢？你比如说，8B的模型可以达到人家的32B的效果。我现在是32B的模型，我可以达到原来72B的效果。他等于做了很多这种错位的比较，我用更小的模型。

达到了以前必须用更大规模模型才可以达到的效果。当然，田忌赛马呢，也未必都是好事。为什么？因为很多人会对这种小参数模型抱有不切实际的期望。一堆人拿来说：“我拿这个8B的模型跑一跑试试，看看我去做一些很复杂的任务，到底效果怎么样？”肯定效果不好。千万不要认为你用8B的模型就可以跑出非常非常好的效果来，这个肯定还是有一些差距的。它可能会在某些特定的领域，或者经过一些微调和训练之后，可以达到32B的效果。

绝大部分人对大模型的认知都是停留在什么GPT-4O这个水平的。你要想拿8B的模型去跟这样的模型去比的话，没有任何可比性。那你说我使用这些32B的模型呢？就属于在大部分情况下可以接近GPT-4O这样的一个水平。咱不研究多模态那些东西，就是正常的内容生成，算是接近。至于说它的235B呢，现在距离Gemini 2.5 Pro还是有一些差距的。但是呢，相对于其他的模型来说，基本上算是跑在同一个基准线上了，不比别人差了。

Qwen3 235B-A22B的这个最大模型在数学、代码、Agent等方面都是全面超越了DeepSeek R1。部分场景呢，接近Gemini 2.5 Pro。这什么意思？就是全部的场景肯定离Gemini 2.5 Pro还是有一定的差距的，但是有一部分场景接近了。但在复杂语义理解，就特别复杂的情况下，还是有一些差距的。特别是一些复杂的逻辑分析，它是有问题的。真实使用的感受呢，算是能用。比起DeepSeek R1强吗？其实感觉不太出来，基本上可以达到DeepSeek R1的水平。

指令依存方面呢，肯定还有一点点欠缺。让他做一个很复杂的动作，他有的时候还是会丢三落四一些。这块我自己试过的，网上也有很多吐槽的人。第一个，复杂推理中的逻辑断层和幻觉生成的问题。所有推理模型身上都有这样的问题，Qwen3即使是最大的模型235B，在这块呢，也不比别人好多少。第二个呢，就是过度思考跟效率问题。有些人发现说：“我给他一个很复杂的问题，他自己开始进行推理了，推理来推理去，直接死在里头了，彻底推不出来了。”这种情况现在也还是存在的。

但是呢，也不用太着急。他既然可以进行后训练，可以进行微调，那我相信大家有各种问题去提就完了。Qwen应该会快速的微调出不同的版本出来的。多语言支持的不均衡，你说119种语言，那些小语种支持的肯定没有那么好，因为语料也没那么多嘛。但这一块你想让它提高支持的话。

也很简单，拿足够多的语料去微调就完了。他也是可以去支持的。然后还有一些伦理跟隐私方面的风险，因为它可以有非常非常小的模型。所以你可以把这种模型，比如部署在你们家洗衣机里，或者部署到一些很奇奇怪怪的这种角落里面。他的能力还很强。而且这种全开源的模型，还有一些人微调了以后，是可以把他的一些安全限制去掉的。这个就会比较吓人，所以大家对这块呢也有一些担心。

还有呢，就是模型对齐和偏好上面的一些问题。比如说吧，生成内容有时候会偏离用户的意图。它对一些指令的依从，还是会稍微差一些的。那么给出一个简单的结论吧，这到底是一次划时代的成功呢，还是翻车呢？我个人的感受呢，这又是一次划时代的胜利。

Qwen3真正在跟谁竞争？大家要想清楚：LLAMA 4、DeepSeek R1、Claude 3.7、Gemini 2.5、GROK3、GPT O3 O4这样的模型，到底在跟谁竞争？实际上真正去跟Qwen3竞争的只有一个，就是LLAMA4。其他的都不在同一个起跑线上。

LLAMA4呢，是翻车了。它怎么翻车的？第一个是数据造假，或者叫过拟合。拿直接去跑分的题目进行训练，这样跑分效果特别好，但是实际使用的效果差异巨大。这是LLAMA4翻车的一个最根源的原因。

咱们从另外一个角度上来讲，LLAMA4自己其实是有一些问题的。第一个是什么？就是它公开的模型太大，占资源很多，放弃了绝大多数的场景。他就开源了一个104B，一个400B的模型。普通人你拿他没办法，像我的电脑根本跑不起来。你就算部署到云端的话，它占资源也是占的非常多的。就对于这个经济性来说，一点优化都没做。你说我想在手机上跑，想在嵌入式设备上跑，没做这个准备，他就不惦记。甚至还有一个两T的模型，压根都没有发布出来。他就发布了一个109B，一个400B，其他都没有了。

而且这么大的模型，你想去微调那太痛苦了。就是你想微调一个模型，模型越小越好调。你模型越大的话，你调起来甭管是你的数据还是算力，都是非常巨大的成本。现在看的LLAMA，应该是准备走XAI这条路。

XAI是什么路？假开源。为什么马斯克的XAI叫假开源呢？就是我确实把东西开出来了。他承诺的是什么呢？就是我发布新版本，我就把旧版本开源。而且呢，开出来的东西，你要想调用的话，你也调不了。为什么？我只把那最大的模型出来，哐昌往那一扔就完了。各种的文档，各种东西都很少，你部署上去也不划算。

所以呢，我开源了吗？开了，东西也放这了。能用吗？没法使。你提任何问题、提任何要求，说哪给我改一东西，也没人理你。这就是XAi的玩法。

你要想调用这些东西怎么办？到我服务器上来调用XAI的API，这个是没问题的。我现在也在Grok的服务器上去调用它的API，效果也还可以。但是你说有没有第三方去部署Grok模型，然后让大家去调用呢？没有。因为你现在开源出来的版本低，它的效果没有那么好。你要想使用最新的，你只能在他的服务器上使。以后呢，Meta估计也要走这条路。

那你说为什么没有人骂XAi呢？原因很简单，因为XAi一直就这样。从x开放出来的这个推荐算法，开放出来以后，就再也没有更新过任何代码。你提的所有问题，连回复都没有人回复。XAi更新出来的Grok开源模型也是如此，开源出来啪往那一扔，彻底没人理你了。所以它一直这样。

而LLAMA呢，原来是比较开放的。现在大量的模型都是在LLAMA基础上做出来的，包括Qwen早期的模型，都是在LLAMA基础上做出来的。那现在呢，有点越来越回去了，所以有点怒其不争。大家要骂一骂他，看看能不能把他骂回来。

然后另外一个，LLAMA4被人骂的原因是什么？他不支持MCP。现在是一个做Agent的时代，你不支持MCP，你模型能力再强，你也搞不定各种场景。现在即使是你使用GBT 4O或者GBTO 3这样的模型，你没有一些外接的组件，你根本就跑不出结果来。所以你不支持MCP，这事肯定不行。

还有呢，就是LLAMA对用户是有限制的。LLAMA虽然是开源模型，但是呢，不能进行商业使用。你只能拿去做研究。你说我拿这东西做商业使用了，对不起，你会收到律师函的。而且如果你是一个大公司，月活用户数超过7亿的公司，你如果想使用LLAMA4或者LLAMA早期版本，你需要向Meta做单独的申请。申请通过了以后你才可以去使用，否则不让用，就做了很多限制。

这个反面典型讲完了，咱们讲一讲Qwen3跟LLAMA4比较起来是怎么样的。Qwen3完全开源，你爱干嘛干嘛去，想怎么调怎么调。第二个，体积小，参数少，规格全，性能高。从0.6B就开始，所有的都给你发一遍，爱用哪个版本用哪个版本。这些小体积的模型，经过微调之后应该会一统江湖。

什么意思？就是现在在hugging face上，绝大部分的模型都是拿Qwen2.5、Qwen2这些各个尺寸的模型调出来的。

早期的LLAMA还是各个尺寸都有的。现在到LLAMA4，前面那些小的模型就不出了。Qwen3又把所有的模型都出了一遍，那大家就拿来微调呗。你说哪块不满意，我就专门把它调一调，训练一下上去使不就完事了吗？所以一定会一统江湖的。

而且，Qwen3是原生支持MCP的。我在本地部署了OLAMA 8B的模型，使用Cherry studio测试了一下，支持没有任何问题。但是呢，支持的并不是那么顺畅。30B和32B的模型我在本地也装了，完美支持MCP，没有任何问题。

那你说什么叫支持的不顺畅？什么叫支持的顺畅呢？在这跟大家讲一讲使用MCP的过程。其实很简单，MCP也是描述一下工具，说我这有一工具，这工具叫什么什么名字，输入的参数是什么，输出的参数是什么，能干什么。大概是有这样的一个描述文件，你把这描述文件给到大模型以后呢，大模型会根据你提出的要求，来生成一个调用这个工具接口的代码。

这个8B的模型呢，有时候生成的代码会有点小错误，导致呢调用失败。那调用失败了以后呢，他会换一个方式，再调另外一个接口，然后会得出一个需要的结果出来。你使用32B模型，或者30B的Qwen3模型的话，你把一大堆的描述扔给他以后，他就会正确的找到需要使用的接口，需要使用的工具，然后生成调用代码直接调。调完了以后得到结果，需要再调用的话，还可以在一次推理里头多次调用，然后得到结果。

因为我是放的高德地图的MCP进去，说来给我规划一个旅游路线，这个效果好极了。完完全全在本地，当然高德地图那个服务器不在本地。其他的，他的Qwen3，OLAMA，Cherry studio都是在本地跑起来了，所以这块效果好极了。

现在呢是大模型密集发布的一个周期。前面我们看到了Gemini 2.5 Pro，Gemini 2.5 Flash，GPT也在快速的连续发布。后边还会很快看到一些新东西，包括马斯克下周要发布的Grok 3.5。Qwen3出来以后，如果有哪些方面超越了它，那它是肯定是要更新的嘛。GPT5应该也快了，这就是这样的一个风起云涌的大时代。

好，总结一下吧。Agent时代一定要有一个对Agent友好的模型发布出来，才会被大家叫好，才算是一次成功的发布。体积小，参数少，规格全，性能高，只要可用性不退步，方便微调，这些特性都具备的话，再加上前面的MCP的功能，Qwen3绝对是一次划时代的成功。好，这就是今天讲的故事。

大家赶快去玩耍起来！好，感谢大家收听。请帮忙点赞，点小铃铛。参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！