阿里Qwen3重磅发布:是超越Llama 4的划时代的胜利,还是性能未达预期、被过度炒作的技术翻车现场深度剖析?
5 月 04
AIGC Agent能力, AI agent开发, DeepSeek R1 对比, Gemini 2.5 Pro 对比, GitHub 开源, GPT-4o 对比, Grok 对比, Llama 4 对比, MCP协议支持, MOE模型 (混合专家模型), Ollama, Open Router, PC端应用, Qwen3, XAI 对比, 上下文窗口 (128K/256K), 专业数据, 云部署, 人工智能 (AI), 代码生成, 优缺点, 全系列模型 (0.6B-235B), 划时代的胜利 vs 翻车, 千问3, 原生数据, 参数效率, 合成数据, 后训练, 商业应用, 多场景适配, 多语言支持 (119种), 大语言模型 (LLM), 工具调用, 幻觉问题, 开源模型, 强化学习 (RLHF), 微调 (Fine-tuning), 性能分析, 性能评测, 技术创新, 指令遵循, 数学推理, 数据来源, 本地部署, 模型使用, 模型发布, 模型对齐, 混合推理架构, 用户体验, 田忌赛马策略, 真实感受, 硅基流动, 移动端应用, 稠密模型, 评测数据, 逻辑推理, 长思维链, 阿里云百炼, 阿里大模型, 预训练 (36T数据) 阿里Qwen3重磅发布:是超越Llama 4的划时代的胜利,还是性能未达预期、被过度炒作的技术翻车现场深度剖析?已关闭评论
Qwen3发布了。这到底是划时代的胜利,还是翻车了呢?
大家好,欢迎收听老范讲故事的YouTube频道。Qwen3真的是千呼万唤始出来。前面好几周就已经不断有传言说Qwen3要发布,要多么多么强大。突然发布之后,当然也肯定是伴随着一大堆的评测数据了。官方评测数据呢,永远是我超越了谁、超越了谁。但是很多评测的人呢,觉得好像差那么一点点意思,没有达到预期。所以今天我们来讨论一下,这到底是又一次划时代的胜利,还是翻车。
Qwen3呢是凌晨发布的,4月29日凌晨上线,在Github上全面开放。我呢已经开始用上了。使用的方法有几种:
第一种是本地部署。我是MacBook Pro,M2 Max的芯片,32G内存。其他的不重要,你到底有多少硬盘,这个事没有那么重要。本地使用OlAmA部署,我使用了8B、32B和30B-A3B。最后这个是什么意思?最后是一个MOE的模型,它是30B-A3B,就是说它每一次干活的时候激活3B,也就是30亿参数。它是这样的一个标注。就这三个版本的模型,在我本机都可以跑,速度呢都是还可以接受。
云端,第一个你肯定上阿里他们自己家玩去。阿里云百炼平台,使用支付宝或者淘宝账号刷一下,就可以进去使用了。价格还是很便宜的,特别是一些很大的模型,还是要在这个上面才能去跑起来。然后open Router永远是最快的。4月29号凌晨发布的,4月29号白天就可以在这个平台上用上了。硅基流动稍微晚一点,大概到5月1号可以去使用了。
那么Qwen3有什么样的特性呢?第一个是全配置,这个非常非常重要。什么叫全配置?就是它从很小的模型到很大的模型,所有的配置都是完整的。首先它提供了稠密模型,不是MOE,就是单个的这种稠密模型,从0.6B、1.7B、4B、8B、14B、32B,这些都提供了。MOE模型提供了30B-A3B和235B-A22B。235B-A22B这种模型什么意思?就是说一共是2,350亿参数,每一次激活220亿个参数。它是这样的两个MOE模型。
全场景。你在移动端0.6B到4B这样的模型,在移动端没有任何问题都可以跑。说我在终端推理,或者是在PC端跑一跑,做一些商业应用,8B、14B、32B都是可以跑的。你说我有一些复杂任务,或者做一些AI agent开发,30B或者是235B的两个MOE模型非常好用。而且呢是全语种,它支持119种语言。不过这块有人在吐槽。
这119种语言,好像除了中文、英文和常见的几种语言之外,其他什么斯瓦西里语这种奇奇怪怪的语言,支持的并没有那么好。
训练的过程呢,稍微的跟大家展开讲一讲。预训练用了36T的数据。LLAMA4的预训练数据的话是30T,Qwen3的话,比LLAMA4的训练数据集还要再大一些。
它的第一阶段呢,是使用了30T的数据,训练了一个基础语言模型出来。第二阶段用5T的数据呢,去强化STEM,也就是这种科学相关的能力,以及编程相关的能力。到第三阶段呢,就是扩大上下文。一开始这个上下文是比较小的,经过第三阶段的扩大以后:
– 4B以下的模型,也就是刚才我们说的0.6B、1.7B、4B这三个模型,它们的上下文呢达到了32K。
– 大于4B的模型,也就是8B、14B、32B,以及MOE的两个模型30B和235B这几个模型,他们的上下文呢都已经达到了128K。
– 在一些特殊情况下,可以达到256K的上下文。
这块呢,有待继续提升吧,因为LLAMA4的上下文是10兆,要比它大很多。
数据来源,就是拿什么数据来训练的这个东西:
– 60%的数据呢,是互联网原生数据。
– 25%呢,是专业领域的数据,包括GitHub上面的代码、数学公式、科学数据。
– 还有15%呢,是合成增强数据,就是拿其他的大模型去生成的一些数据,用的是Qwen2.5的一些模型生成了一些数据。这块呢,主要是做一些推理链的训练,而且也可以做多语言的对齐。
这就是它的数据来源。这块呢,跟LLAMA4就有很大的区别。LLAMA4大量的使用的都是合成数据,而这个Qwen3的话,使用的大量是原生数据。
在预训练之后,还会进行后训练。后训练的话,实际上是对模型做微调了。他呢,在分四步对Qwen3进行微调:
1. 第一步是长思维链冷启动的训练,注入数学、代码等领域的常推理数据。
2. 第二步呢,是强化学习探索强化学习,就是你给我生成结果,我们来打分,然后你根据我的打分来决定说这个结果对不对。它是基于规则奖励,提升复杂推理能力的一个训练。
3. 第三步呢,是模式融合。这个东西特别好玩,它是一个融合模式的推理模型。什么意思呢?因为我们使用推理模型的时候,有一个特别讨厌的东西,就是有些特别简单的东西呢,给你推理半天,甚至推理的TOKEN还消耗了很多。对于Qwen3来说呢,它里头有一个参数,就是你是不是要打开推理。同一个模型呢,你可以在这设说你不要打开推理,他就快速的给你出一结果。你说你给我做推理。
就给你啰里八嗦的去想去了,这个也算是个创新吧。原来都是推理模型,就是必须要推理。他是做了这样的一个训练,然后第四步呢是进行通用校准,特别是覆盖20多个领域的强化学习,修正一些不良行为。他等于做了预训练之后,还做了大量的微调后训练。
那么,Qwen3的技术创新到底有哪些呢?
第一个就是它这个混合推理架构。就是你到底想不想让它推理,你告诉他就完了。他给你去推去,或者是直接给你一个答案。
第二个技术创新呢,就是它的MOE的参数效率极大提升了。它的235B的模型里头,每一次激活只激活22B的参数。它要比DeepSeek R1激活的参数要少很多,只有DeepSeek R1 1/3的参数。它整个的模型尺寸也只有DeepSeek R1的1/3。所以呢它的部署成本要比DPC卡R1要低很多,推理的效率也要高非常多。
第三个呢就是多语言和多模态的支持。第一次支持了119种语言,2025年内将推出Qwen3-Vl多模态版本。现在的Qwen3还不支持多模态,你给他张图片他还是认不出来的。这块还是比LLAMA4要差一点。LLAMA4是你给他个视频,他都可以给你进行推理。
最后,Agent能力增强。它呢是直接支持MCP,原生支持MCP协议,工具调用准确率提升40%,API代码量减少70%。这个是Qwen3在这一个时代里头,必须要去实现的功能。这也是它比LLAMA4强的地方。
对Qwen3的期待、评分以及使用感受方面,还是有一些落差的。各项评分一定是高的吓人。因为你现在说,我今天推出一个新模型出来,你一定会自己做一大堆评测,然后跟模型一起推出。如果你说我自己做的评测就比谁都差,那这事你还推它干嘛?一定是说我现在评测了,比大家都强了,我才可以推出来。所以评分一定都比大家强。这块呢,就不跟大家详细去列举说那个评分是多少了,没有什么意义。
但是呢,这个里头比较好玩的是什么?就是它是一个田忌赛马的故事。大家知道什么叫田忌赛马吗?用我们的比较差的马,跟人家那个最好的马比,我输掉了。然后呢我用我的最好的马去跟人家的中马比,我赢了。用我的中马去跟他的最差的马去比,我又赢了。等于三局两胜,我赢两盘。他是很多做这样的这种比较。
为什么Qwen3有田忌赛马的这个能力呢?你比如说,8B的模型可以达到人家的32B的效果。我现在是32B的模型,我可以达到原来72B的效果。他等于做了很多这种错位的比较,我用更小的模型。
达到了以前必须用更大规模模型才可以达到的效果。当然,田忌赛马呢,也未必都是好事。为什么?因为很多人会对这种小参数模型抱有不切实际的期望。一堆人拿来说:“我拿这个8B的模型跑一跑试试,看看我去做一些很复杂的任务,到底效果怎么样?”肯定效果不好。千万不要认为你用8B的模型就可以跑出非常非常好的效果来,这个肯定还是有一些差距的。它可能会在某些特定的领域,或者经过一些微调和训练之后,可以达到32B的效果。
绝大部分人对大模型的认知都是停留在什么GPT-4O这个水平的。你要想拿8B的模型去跟这样的模型去比的话,没有任何可比性。那你说我使用这些32B的模型呢?就属于在大部分情况下可以接近GPT-4O这样的一个水平。咱不研究多模态那些东西,就是正常的内容生成,算是接近。至于说它的235B呢,现在距离Gemini 2.5 Pro还是有一些差距的。但是呢,相对于其他的模型来说,基本上算是跑在同一个基准线上了,不比别人差了。
Qwen3 235B-A22B的这个最大模型在数学、代码、Agent等方面都是全面超越了DeepSeek R1。部分场景呢,接近Gemini 2.5 Pro。这什么意思?就是全部的场景肯定离Gemini 2.5 Pro还是有一定的差距的,但是有一部分场景接近了。但在复杂语义理解,就特别复杂的情况下,还是有一些差距的。特别是一些复杂的逻辑分析,它是有问题的。真实使用的感受呢,算是能用。比起DeepSeek R1强吗?其实感觉不太出来,基本上可以达到DeepSeek R1的水平。
指令依存方面呢,肯定还有一点点欠缺。让他做一个很复杂的动作,他有的时候还是会丢三落四一些。这块我自己试过的,网上也有很多吐槽的人。第一个,复杂推理中的逻辑断层和幻觉生成的问题。所有推理模型身上都有这样的问题,Qwen3即使是最大的模型235B,在这块呢,也不比别人好多少。第二个呢,就是过度思考跟效率问题。有些人发现说:“我给他一个很复杂的问题,他自己开始进行推理了,推理来推理去,直接死在里头了,彻底推不出来了。”这种情况现在也还是存在的。
但是呢,也不用太着急。他既然可以进行后训练,可以进行微调,那我相信大家有各种问题去提就完了。Qwen应该会快速的微调出不同的版本出来的。多语言支持的不均衡,你说119种语言,那些小语种支持的肯定没有那么好,因为语料也没那么多嘛。但这一块你想让它提高支持的话。
也很简单,拿足够多的语料去微调就完了。他也是可以去支持的。然后还有一些伦理跟隐私方面的风险,因为它可以有非常非常小的模型。所以你可以把这种模型,比如部署在你们家洗衣机里,或者部署到一些很奇奇怪怪的这种角落里面。他的能力还很强。而且这种全开源的模型,还有一些人微调了以后,是可以把他的一些安全限制去掉的。这个就会比较吓人,所以大家对这块呢也有一些担心。
还有呢,就是模型对齐和偏好上面的一些问题。比如说吧,生成内容有时候会偏离用户的意图。它对一些指令的依从,还是会稍微差一些的。那么给出一个简单的结论吧,这到底是一次划时代的成功呢,还是翻车呢?我个人的感受呢,这又是一次划时代的胜利。
Qwen3真正在跟谁竞争?大家要想清楚:LLAMA 4、DeepSeek R1、Claude 3.7、Gemini 2.5、GROK3、GPT O3 O4这样的模型,到底在跟谁竞争?实际上真正去跟Qwen3竞争的只有一个,就是LLAMA4。其他的都不在同一个起跑线上。
LLAMA4呢,是翻车了。它怎么翻车的?第一个是数据造假,或者叫过拟合。拿直接去跑分的题目进行训练,这样跑分效果特别好,但是实际使用的效果差异巨大。这是LLAMA4翻车的一个最根源的原因。
咱们从另外一个角度上来讲,LLAMA4自己其实是有一些问题的。第一个是什么?就是它公开的模型太大,占资源很多,放弃了绝大多数的场景。他就开源了一个104B,一个400B的模型。普通人你拿他没办法,像我的电脑根本跑不起来。你就算部署到云端的话,它占资源也是占的非常多的。就对于这个经济性来说,一点优化都没做。你说我想在手机上跑,想在嵌入式设备上跑,没做这个准备,他就不惦记。甚至还有一个两T的模型,压根都没有发布出来。他就发布了一个109B,一个400B,其他都没有了。
而且这么大的模型,你想去微调那太痛苦了。就是你想微调一个模型,模型越小越好调。你模型越大的话,你调起来甭管是你的数据还是算力,都是非常巨大的成本。现在看的LLAMA,应该是准备走XAI这条路。
XAI是什么路?假开源。为什么马斯克的XAI叫假开源呢?就是我确实把东西开出来了。他承诺的是什么呢?就是我发布新版本,我就把旧版本开源。而且呢,开出来的东西,你要想调用的话,你也调不了。为什么?我只把那最大的模型出来,哐昌往那一扔就完了。各种的文档,各种东西都很少,你部署上去也不划算。
所以呢,我开源了吗?开了,东西也放这了。能用吗?没法使。你提任何问题、提任何要求,说哪给我改一东西,也没人理你。这就是XAi的玩法。
你要想调用这些东西怎么办?到我服务器上来调用XAI的API,这个是没问题的。我现在也在Grok的服务器上去调用它的API,效果也还可以。但是你说有没有第三方去部署Grok模型,然后让大家去调用呢?没有。因为你现在开源出来的版本低,它的效果没有那么好。你要想使用最新的,你只能在他的服务器上使。以后呢,Meta估计也要走这条路。
那你说为什么没有人骂XAi呢?原因很简单,因为XAi一直就这样。从x开放出来的这个推荐算法,开放出来以后,就再也没有更新过任何代码。你提的所有问题,连回复都没有人回复。XAi更新出来的Grok开源模型也是如此,开源出来啪往那一扔,彻底没人理你了。所以它一直这样。
而LLAMA呢,原来是比较开放的。现在大量的模型都是在LLAMA基础上做出来的,包括Qwen早期的模型,都是在LLAMA基础上做出来的。那现在呢,有点越来越回去了,所以有点怒其不争。大家要骂一骂他,看看能不能把他骂回来。
然后另外一个,LLAMA4被人骂的原因是什么?他不支持MCP。现在是一个做Agent的时代,你不支持MCP,你模型能力再强,你也搞不定各种场景。现在即使是你使用GBT 4O或者GBTO 3这样的模型,你没有一些外接的组件,你根本就跑不出结果来。所以你不支持MCP,这事肯定不行。
还有呢,就是LLAMA对用户是有限制的。LLAMA虽然是开源模型,但是呢,不能进行商业使用。你只能拿去做研究。你说我拿这东西做商业使用了,对不起,你会收到律师函的。而且如果你是一个大公司,月活用户数超过7亿的公司,你如果想使用LLAMA4或者LLAMA早期版本,你需要向Meta做单独的申请。申请通过了以后你才可以去使用,否则不让用,就做了很多限制。
这个反面典型讲完了,咱们讲一讲Qwen3跟LLAMA4比较起来是怎么样的。Qwen3完全开源,你爱干嘛干嘛去,想怎么调怎么调。第二个,体积小,参数少,规格全,性能高。从0.6B就开始,所有的都给你发一遍,爱用哪个版本用哪个版本。这些小体积的模型,经过微调之后应该会一统江湖。
什么意思?就是现在在hugging face上,绝大部分的模型都是拿Qwen2.5、Qwen2这些各个尺寸的模型调出来的。
早期的LLAMA还是各个尺寸都有的。现在到LLAMA4,前面那些小的模型就不出了。Qwen3又把所有的模型都出了一遍,那大家就拿来微调呗。你说哪块不满意,我就专门把它调一调,训练一下上去使不就完事了吗?所以一定会一统江湖的。
而且,Qwen3是原生支持MCP的。我在本地部署了OLAMA 8B的模型,使用Cherry studio测试了一下,支持没有任何问题。但是呢,支持的并不是那么顺畅。30B和32B的模型我在本地也装了,完美支持MCP,没有任何问题。
那你说什么叫支持的不顺畅?什么叫支持的顺畅呢?在这跟大家讲一讲使用MCP的过程。其实很简单,MCP也是描述一下工具,说我这有一工具,这工具叫什么什么名字,输入的参数是什么,输出的参数是什么,能干什么。大概是有这样的一个描述文件,你把这描述文件给到大模型以后呢,大模型会根据你提出的要求,来生成一个调用这个工具接口的代码。
这个8B的模型呢,有时候生成的代码会有点小错误,导致呢调用失败。那调用失败了以后呢,他会换一个方式,再调另外一个接口,然后会得出一个需要的结果出来。你使用32B模型,或者30B的Qwen3模型的话,你把一大堆的描述扔给他以后,他就会正确的找到需要使用的接口,需要使用的工具,然后生成调用代码直接调。调完了以后得到结果,需要再调用的话,还可以在一次推理里头多次调用,然后得到结果。
因为我是放的高德地图的MCP进去,说来给我规划一个旅游路线,这个效果好极了。完完全全在本地,当然高德地图那个服务器不在本地。其他的,他的Qwen3,OLAMA,Cherry studio都是在本地跑起来了,所以这块效果好极了。
现在呢是大模型密集发布的一个周期。前面我们看到了Gemini 2.5 Pro,Gemini 2.5 Flash,GPT也在快速的连续发布。后边还会很快看到一些新东西,包括马斯克下周要发布的Grok 3.5。Qwen3出来以后,如果有哪些方面超越了它,那它是肯定是要更新的嘛。GPT5应该也快了,这就是这样的一个风起云涌的大时代。
好,总结一下吧。Agent时代一定要有一个对Agent友好的模型发布出来,才会被大家叫好,才算是一次成功的发布。体积小,参数少,规格全,性能高,只要可用性不退步,方便微调,这些特性都具备的话,再加上前面的MCP的功能,Qwen3绝对是一次划时代的成功。好,这就是今天讲的故事。
大家赶快去玩耍起来!好,感谢大家收听。请帮忙点赞,点小铃铛。参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见!