工具调用 - 老范讲故事｜AI、大模型与商业世界的故事

Deepseek V3.1发布，很多人应该都有疑问，UE8M0到底是个什么东西？这个国运级的大模型，到底有没有翻车呢？

DeepSeek V3.1发布，为什么会墙内开花墙外香呢？大家说这东西在国外也没多火。咱们讲的墙内开花墙外香，并不是说国外火，而是在圈外火。什么意思呢？就是在真正大模型圈里，其实大家并不怎么说这个事，但是在炒股票的这帮人面前，一下就火了，国产算力芯片一把就飞了。

到底是一个什么样的情况？首先呢，Deepseek V3.1在性能上其实并没有特别显著的提升，所以一帮真正去研究大模型的人，或者去研究AI的人，只能在那尬吹，说这个好像强了一点，那个好像强了一点，但其实都并不明显。它的编程能力呢，确实应该有所上升吧，但是你说现在就可以吊打Claude Sonic 4，这个我觉得有些言过其实了。上下文现在是128K了，在Deepseek去年12月份发布的V3版本以及1月份发布的R1版本的时候呢，它的上下文都是64K的。到V30324和R10528这两个版本呢，就已经升级到128K了，所以这一次的V3.1依然是128K。工具调用上应该是真的增强了，比原来的V3增强了，也更加符合AI agent的一个需求，这个就是他的一个主要的优势。

Qwen3发布了。这到底是划时代的胜利，还是翻车了呢？

大家好，欢迎收听老范讲故事的YouTube频道。Qwen3真的是千呼万唤始出来。前面好几周就已经不断有传言说Qwen3要发布，要多么多么强大。突然发布之后，当然也肯定是伴随着一大堆的评测数据了。官方评测数据呢，永远是我超越了谁、超越了谁。但是很多评测的人呢，觉得好像差那么一点点意思，没有达到预期。所以今天我们来讨论一下，这到底是又一次划时代的胜利，还是翻车。

Qwen3呢是凌晨发布的，4月29日凌晨上线，在Github上全面开放。我呢已经开始用上了。使用的方法有几种：

第一种是本地部署。我是MacBook Pro，M2 Max的芯片，32G内存。其他的不重要，你到底有多少硬盘，这个事没有那么重要。本地使用OlAmA部署，我使用了8B、32B和30B-A3B。最后这个是什么意思？最后是一个MOE的模型，它是30B-A3B，就是说它每一次干活的时候激活3B，也就是30亿参数。它是这样的一个标注。就这三个版本的模型，在我本机都可以跑，速度呢都是还可以接受。

Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌

阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？