AI模型评测 – 老范讲故事｜AI、大模型与商业世界的故事

Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA

Luke Fan — Fri, 05 Dec 2025 01:06:50 +0000

Deepseek V3.2，12月1号发布了。是不是又遥遥领先了呢？

Deepseek V3.2的发布应该是12月1日。我们始终没有等来心心念念的Deepseek R2。在今年春节的时候，深度求索突然发布了Deepseek R1，算是扔下了一颗深水炸弹，把整个AI圈都震动了，甚至还造成了英伟达股价的闪崩——一段时间内闪崩吧。甚至老黄都跑出来喊，说：“Deepseek发布对我是利好，你们不要卖英伟达的股票。”大家就一直等着这个R1，既然这么厉害，咱们上R2。但是等了这么久，都没有等来R2。

Deepseek V系列版本回顾

下面呢，我们来捋一下Deepseek V系列的版本到底是怎么样的一个发布过程。

Deepseek V3 (去年12月26日发布): 这是非常非常重要的一个版本。实际上我们后面看到的所有版本，包括R1，都是在Deepseek V3的基础上进行微调、进行蒸馏、进行强化学习。今天发布的Deepseek V3.2，也依然是在这个版本的基础上做出来的。
Deepseek V3-0324 (3月24日发布): 主要是在专项能力上做了一些增强，比如说编代码或者写文章。
Deepseek V3.1 (8月21日发布): 主要是工程化和智能体方面做了增强。因为当时大家都要去做AI agent，而之前的版本在AI agent这一块都比较弱。
Deepseek V3.1 Terminals (9月22日发布): 这个版本叫V3.1的终极版，实际上是对V3.1做了一些修复和精调，并告知这是V3.1的最终版本。
V3.2 EXP (9月29日发布): 一个实验版本，在V3.1终极版的基础上加入了DSA技术。最主要的变化是降价，直接把API调用的价格砍了一半。
Deepseek OCR (10月20日发布): 一个很小的模型（约6G），用于图片解释，效果很好。
maths VR (11月27日发布): 专门做数学推理和数学证明的一个版本，在各种数学题测试中评分非常高。
Deepseek V3.2 正式版 & V3.2 special 特别版 (12月1号发布): 本次发布的主角。

V3.2，是不是遥遥领先了呢？

那么这一次的V3.2，是不是遥遥领先了呢？各种评测数据确实非常亮眼，但是呢，我们要看到它的评测数据里头实际上是有两个数值的。一个数值呢是Deepseek V3.2做出来的，一个数值呢，是Deepseek V3.2 special做出来的。

它的Deepseek 3.2 special这个版本，确实是比Gemini 3 Pro、GPT5.1都要强，但是我们大部分人，实际上没有办法去使用这个V3.2 special。它这个正式版的V3.2呢，属于是接近了GPT-5.1的水平，各项评分都很近，有个别的超过吧，大部分呢跟GPT-5.1很近的一个位置。

甚至呢，还有人出来讲，说GPT到现在3周岁了，现在Deepseek反超回来了。很多人就讲说GPT被Deepseek吓到了，其实跟Deepseek没关系，主要是被谷歌吓到了。

V3.2 Special：一个跑分工具？

你说V3.2的special版本的评分，不是已经超越了GPT-5.1和Gemini 3 Pro了吗？你怎么还说跟国外有差距呢？首先要注意，V3.2 special是一个基本上没法用的版本。为什么呢？

就是它的推理、它的运算确实非常强，但是呢，它在工具调用、AI agent的使用这一块都不能用，因为它就是会解数学题，它是一个偏科天才，除了写数学题之外，他啥也搞不了。所以呢，他做各种的评测分数很高，但是你实际使用他，你是没法使的。

而且Deepseek V3.2 special这个版本只能用到12月15号，在这之后这个接口就直接废掉了。所以那个产品就是跑分用的，不是给大家用的。发布V3.2 special呢，也是有一点点赶鸭子上架。当然有很多人说，这个就是Deepseek R2了。

V3.2的核心技术：DSA算法

那么V3.2到底是怎么训练出来的呢？实际上Deepseek V3.2，是在Deepseek V3.1 Terminals这个基础上进行的继续训练，基础大模型没变。这个里边最关键的特性，就是降本增效。

降本：Deepseek稀疏注意力算法 (DSA)

它直接把成本对半砍，就是降50%的API调用成本。里边呢，使用了一个叫DSA的算法，Deepseek稀疏注意力算法。通过一个叫闪电索引的功能，它不是对文本里边的所有词进行运算和匹配，而是先评估哪一块比较重要，哪一块不太重要，我们把重要的部分拿去做下一步，不重要的部分直接扔了。通过这种方式呢，它极大的降低了长上下文的处理成本。

长上下文是必须的，因为AI agent需要调用工具、搜索、使用本地知识库。所以只能在长上下文的基础上想办法去降低成本。

增效：与V3.1对齐并强化

在实现了DSA的算法之后，它还要跟Deepseek V3.1 Terminals这个最终版进行对齐，确保性能不能退步。这就是这一次V3.2在V3.2 EXP的基础上做的一个很重要的更新。

所以呢，9月29号V3.2 EXP，第一件事是先把价格打下来：

输入 (缓存不命中): 100万TOKEN两块钱人民币。
输入 (缓存命中): 100万TOKEN是两毛钱。
输出: 100万TOKEN只需要3元人民币。

这个价格要比我们现在能看到的各种轻量级模型都要便宜很多。

在发布这个版本之后呢，进行了大规模特定目标的强化学习，主要学很难解答但很容易验证的问题，特别是针对智能体（AI agent）进行数据训练。在这样的一个基础上，就得到了12月1号所发布的V3.2正式版。

V3.2 Special的由来

它呢，是在V3.2 EXP base的这个基础上，拿着前面我们讲的，专门做数学题证明的maths VR这个版本去做后续的训练。V3.2 special实际上就是V3.2 EXP base这个版本加上maths V2这个版本合成的一个版本。所以它特别擅长做数学题、做各种长推理，但其他方面能力很弱。

真正的领先之处：开源贡献

我们现在所说的领先，是真正做出来的这些改变、这些创新，对于整个行业是不是有贡献。Deepseek R1对于整个行业是有巨大贡献的。而这一次的DSA确实是非常先进的，也对整个行业是有贡献的。只要是对整个行业有贡献，我们就认为它已经遥遥领先了。

而且DSA算法呢是完全开源的，有论文、有模型、有代码，而且可以商业化使用。不像美国那些公司抠抠搜搜的。

当然，这个东西也不是Deepseek凭空发明的，它是在很多前人的基础上做的改进和应用。就像瓦特改进了蒸汽机一样，DSA也是如此。类似的稀疏注意力算法有很多论文，但是真正大规模的验证和使用，就是Deepseek的DSA这个算法。

其他AI公司如何应用DSA？

美国公司也有类似技术，OpenAI的算法没有公开，谷歌应用的则是一个叫“环注意力”（ring attention）的算法，可以支持到100万TOKEN的上下文。

DSA是完全开源的，其他模型也可以使用，但需要经过几个步骤：

模型结构改造： 在原来模型的基础上加上闪电索引。先进行“稠密预热”，保持主干注意力完全稠密，冻结原来的参数，只训练这个闪电索引。
稀疏训练： 打开DSA开关，解冻主干的参数，和闪电索引一起训练，并确保输出结果跟原来是一样的。
蒸馏和强化学习： 在针对写作、数学、代码、AI agent搜索等等特定领域进行特训，再用特定的模型生成数据，蒸馏主模型。最终把推理和AI agent这些行为进行强化学习和人类的对齐。

所以DSA对整个行业是有巨大推动作用的，这才是真正的遥遥领先。

Deepseek V3.2的局限与不足

它还是有很多地方比GPT-5.1、比Gemini 3 Pro要差很远的地方。

纯文本模型： 完全没有多模态能力，给它图片它是不认识的。
基础模型陈旧： Deepseek V3.2也是在一个去年12月26日发布的Deepseek V3的基础上，不停的打补丁补出来的一个版本。这个叫“麻袋片绣花，底子太差”。就像OpenAI发现GPT-5（在GPT-4基础上微调）无法追赶从头训练的Gemini 3 Pro一样，要想再追上，必须得退回去把基础模型再提升一步。

所以，Deepseek下一步肯定还是要先把Deepseek V3.2的special合并进去，但更重要的是需要重新预训练一个全新的V4模型，把多模态等能力加进去。

对国产算力的真正影响

Deepseek V3.2是不是对于国产算力有了巨大的帮助？国内云确实是在第一时间就去支持了，他们叫0 day支持。

现在大模型推理普遍使用VLLM或SGLANG这样的开源框架，它们最初是为英伟达显卡设计的。Deepseek发布DSA后，第一件事就是修改这两个框架，让它们能很好地支持DSA。国内的算力卡厂商，如华为升腾，也要到这个系统上去打补丁，适配自己的硬件。

华为云等厂商已经完成了这个适配工作，这意味着，以后想把模型部署到中国的公司（如XAI），可以直接购买华为升腾的芯片而无需修改代码。

所以国内的云和算力卡确实又行了，它们可以在相同的算力下处理更多的信息。从推理这件事情上来说，我们不再那么依赖英伟达的显卡了。但是，如果想预训练一个全新的大模型，还是要去买英伟达显卡。目前国内普遍的做法是让大模型出海，在海外去做训练。

Deepseek V3.2带来的市场影响

AI应用在国内产业的普及与渗透速度会进一步的提升。
一些新的模型，甭管是国内的还是国外的，都会去进行DSA升级，以降低成本。
使用中文推理的美国大模型会变多起来，因为它们很多是在中文开源模型基础上做后训练的。

对英伟达的影响：短期承压，长期利好

短期来看是利空。 DSA让推理成本下降，完成同样的任务只需要一半的显卡，这会减少对英伟达通用算力的需求。

但长期来说依然是利好。 首先，行业认识到必须重新预训练基础模型，这离不开英伟达显卡。其次，AI应用渗透率上升，会推动整个行业越过盈利点，对算力中心的需求可能实现真正的爆发。

总结

Deepseek V3.2，12月1日正式发布了，评分很高，但对于实际使用和感受其实没有那么大意义。因为他真正评分很高的那个版本，是一个偏科的数学天才。V3.2正式版他的评分并没有那么高。而且Deepseek V3.2是在V3的基础上继续缝缝补补出来的，想要继续前进已经很难了，必须要去对基础模型重新做预训练了。DSA这个算法确实对整个行业做出了贡献，非常非常有价值，在这一点上，你说它遥遥领先没有任何问题，但是距离真正的全线领先，还有很大的差距。

好，这就是咱们今天要讲的故事，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

Grok 3发布：Elon Musk称其为“宇宙最聪明”大模型，暴力出奇迹的xAI，是否可以成为AI时代的世界工厂？

Luke Fan — Thu, 20 Feb 2025 00:40:03 +0000

马斯克的Grok 3到底是不是世界上最聪明的大模型？暴力真的能出奇迹吗？大家好，欢迎收听老范讲故事的YouTube频道。世界上最聪明的大模型，这是马斯克对他自己家的Grok 3给的定义。如果有人不同意的话，那么会被开除的。因为XAI某一位员工在X上发帖说，Grok 3好像并没有那么聪明，然后就被XAI找到说，你要么删帖要么开除。后来这哥们想了想说，我得捍卫一下自己的言论自由，于是这哥们就被开除了。

在说所有细节之前，咱们先说说Grok 3到底怎么用。在2月18号北京时间中午12点的时候，马斯克跟另外三位小伙伴，一共四个人坐着开了场直播，把这个Grok 3发布了。我就四处去找，首先我是X每个月交8美金的Premium用户，我在X上使不了。X上你必须是40美元的Premium+用户，才可以去使用。在Grok的这个网站上呢，你也需要30美元一个月的账号才可以用。免费用户只能用Grok 2，API不充钱已经不让用了。如果是团队的话，至少花了5美元以上，每个月他会赠送你150美金，但前提呢是要跟XAI共享你的数据。

目前Grok 3的版本还没有上，你就算交钱了，你在XAI的网站上，也只能得到Grok 2的API，还要再等几周才会上线。Grok的苹果APP上面，是可以使用Grok 3 Beta这个版本的，即使是免费用户也可以去用。因为我呢对于XAI来说是一个免费用户，我就通过iOS，也就是iPhone和iPad这个版本上去，好好儿的测试了一下。后边儿呢咱们再去讲具体效果怎么样。

Grok 3有哪些具体信息呢？在整个的发布过程中呢，并没有特别详细的讲，只是说，我各种排行榜都排在第一了。Grok 3，Grok 3 mini是怎么去排上去的，讲了很多这样的话。但是呢，这个系统本身的一些细节，并没有那么详细的公开。因为可能在Grok 3稳定下来以后，会把Grok 2开源。现在Grok 1是开源的。

Grok 2可能有一些细节会被披露出来，但是Grok 3的话应该很长一段时间不会有特别详细的细节披露出来。现在能够知道的就是，Grok 3应该也是一个MoE模型，跟DeepSeek是一样的。它到底有多少参数呢？现在猜测是有1.2万亿个参数，DeepSeek是6,710亿，它呢应该是在DeepSeek的基础上翻了一番。至于这个数字是不是准确，我不知道，因为呢我去问了Grok 3，也去问了ChatGPT，最终是给了我一个这样的数字，我并没有去查原文件。

Grok 3的使用感受到底是什么样的？它呢，下边有两个按钮，一个叫Deep Search，一个呢叫Think。Deep Search实际上就类似于OpenAI的Deep Research，就是这种深度研究，它会搜索大量的内容，然后呢，再去给你出报告。Think的话实际上就是类似于O1、O3这样的推理模型。这两个按钮它特别有意思，这两个按钮呢你可以都不按，也可以按其中一个，但是不允许两个都按。这个意思大家能够理解吧？你不能又要Think，又要Deep Search，这个事是不允许的。那你说我既不Think也不Deep Search，这事行不行？可以。

然后呢，我都试了一下。在Deep Search的时候，它会直接引用几十个甚至上百个网页，非常非常多的网页，然后呢给你一个似模似样的报告，很长，格式非常非常好的一份报告。在Think的时候呢也会搜索，并不是自己去瞎编的，他呢，会搜索25个网页，以及呢X上的帖子。大家注意，Deep Search时候是不搜索X的，在Think的时候是会搜索25个网页，加上X上的可能5个帖子吧，反正我搜了几次都是5个帖子，然后给你进行一定的推理，总结出一个小的文案出来。这就是这两个功能。如果两个都不选，我既不Think也不Deep Search，它呢就不联网了，就直接是给你编一个结果出来。

大家注意，所有的大模型，甭管是谁家模型多聪明，你让他直接编出来的这个结果，都是最不靠谱的。那么，他这三个功能，就是两个都不选，或者选其中任何一个。这三个功能呢，特别有意思的一点是什么？他可以混用。

在OpenAI上呢，这种模型混用是比较严格的。你如果开始一个新话题，选择了一个模型，提了几个问题之后，你现在想去切模型的时候，你这个模型，比如说允许有图片呢，下面你要去切的时候，只允许再切换到允许图片的模型。它不允许你切换到不允许读图片的模型去。这个是有限制的。但是呢，在Grok里面它是没有限制的。就是你随时可以开始新对话，对话的过程中可以随时切模型，你可以来回切来切去。

但是呢，在这个过程中呢，有一些不是那么有趣的地方是什么？就是如果你俩都不点上来，直接让模型去编，他就不联网了。他编完第一句以后呢，你说我现在要开始进行深度的搜索了，deep search了，这个时候他也不联了。或者说我现在需要think了，他也不会去联网，他就根据现有的内容接着编下去。他是这样的一种过程。

但如果你是以deep search开始的，那么think的时候呢，他就不去搜索帖子，因为deep search是不搜索X的。如果你是以deep search或者think开始，然后你最后切换回到完全编的，既不deep search，也不think的这样的一个裸模型，去输出的时候，继续搜索。所以它整个的逻辑，还稍微有一点点小混乱吧。

那么，Grok 3到底是不是宇宙第一聪明的这个模型呢？因为你如果用iOS APP你去选的时候，后面会写一个叫smartest，最聪明的。它是Grok 3 beta，后边写一个小括号，smartest，这个是最聪明的。到底是不是？我个人感受呢，现在相差还比较远。为什么呢？为了准备这期节目呢，我其实用Grok 3去做了很多的工作，包括是他的deep search或者think。但是最终呢。

Grok3生成的所有结果都被我扔掉了。最后的内容还是靠豆包和GPT search来完成的。原因也很简单，Grok 3 deep search现在报告的格式非常好，非常中规中矩，但是大量的段落是重复的。前边写了一遍，后边车轱辘话又写了一遍，用不同的格式，用同样的话来回来去说，这个是很讨厌的。

还有一个问题是幻觉大到完全无法使用的一个状态。比如说，我问他XAI现在有多少人了，图说现在有900多人了。后来我问了其他几个模型，都告诉我是有100多人，这个可能还是稍微靠谱一点点。都是联网搜索吗？你都不是自己瞎编的，那我不知道他这个900多人这个数是哪来的。

然后我说四个人在上面开发布会嘛，中间两个人是华人。这两天在国内又嗨起来了，说你看马斯克发布Grok3的时候，马斯克只能在一边点头，点头机器。中间是做C位的两个都是华人，旁边还有一个白人。那我就问他，我说这俩华人到底是谁，什么教育背景，然后就开始给我胡说八道。他也是举的XAI里边的一些华人高管，但是呢并不是当时坐在台上这两个人。

发生这种事情的原因很简单，就是他在deep search的时候，一下瞪了可能几十个上百个网页，回来拿这么多个网页进行总结的时候呢，把内容搞串了，实际上就产生幻觉嘛，就完全没法使。

然后呢，我去尝试了一下think。think呢其实没有特别细致的测试，为什么呢？本来我想去让他做编程，但是呢，他没有API。你没有API的话，就没有办法接到IDE里边去，你没办法作为插件接进去，就没有办法详细地参与到我的这整个的编程过程里头去。我做了些简单的测试，但是感觉呢think模型对于各种编程的复杂的环境，和各种的版本和类库的话，并不是那么熟悉。这块的话可能以后等他有了API以后，再去做详细测试了。直接生成还过得去，就是如果两个都不点，让他直接生成。但是呢，因为在手机上用，并没有办法进行。

特别大规模的使用和测试，现在看来呢，XAI的Grok 3采用的是叫分梯度发布的一个方式。就是说，我先发布一点，然后慢慢地让更多的人能用，再慢慢地发布更多的内容出来，然后不断地去迭代。他现在干这样的事情。现在呢，就是手机用户可以用。那么手机用户呢，第一个用户量不会特别大，而且在这个时候，可能还能够为Grok APP带来一批的下载，这个也算是一个小心思吧。

在手机用户使用的过程中呢，你不会给他特别繁重的任务。因为你要跟他做这种很复杂的沟通的话，你需要打好多字，举了个手机在这噼里啪啦打字，很费劲的。你像我，为了做这个测试，最后是把我的iPad接到了机械键盘上，夸啦夸啦往里打字，这个还是能够问一些稍微复杂一点东西。要真是拿着手机，在那个屏幕上打字的话，这个还是挺费劲的。还有什么呢，就是不会有太正式的任务是通过手机来进行的。比较正式的任务一般会通过网页，通过电脑来去工作。

Grok跟X网站上还是有一些付费的人能够使用的。你不能说老范你没交钱，你就说这玩意不好使。这些比较高付费的用户，比如说在X平台上交了40美金一个月的，或者在Grok平台上交了30美金一个月的，这些用户呢，他是可以去用的。但是这些用户呢，数量肯定会少很多。还有一点呢，就是皇帝的新衣嘛，我付了这么多钱了，我就不能允许任何人说我是傻子，我一定要说这个钱付的是值的。所以呢，就算他们遇到问题了，上来骂街的可能性也不是那么大。这个就是马斯克当前发布了一个版本，比较聪明的地方吧。

后面语音模式的话，可能还要再等一周。我估计语音识别率这块还有待优化吧，因为语音你认不出来就是认不出来，还有口音还有乱七八糟这种事情。咱们再看看，后边会做出一个什么样的结果出来。API的话，还需要再等几周。为什么API要这么费劲，原因呢是现在大家只能看马斯克官方的排行榜，我的测试数据是什么样的，排行榜是什么样的，你自己没法去测取，给你一个手机版本。

或者给你一个网页版本。你现在想把这几千道题输进去，测试这个事太费劲了。你要想测试这东西，必须要拿API写程序去测。这个过程其实有点像法拉利的一个跑车。法拉利就说了，这个东西太贵，而且做测速的时候太危险。如果你自己去测的话，非常不安全，而且保险公司也不允许我们干这个事情。所以，法拉利跑车的最高极速，只有法拉利官方出的这个版本是唯一标准，任何人不得私自去测试法拉利跑车的最高极速。这个事情我们不承认，而且这个事我们也不允许。

现在，XAI的Grok也就是在这样的一个阶段。等以后API上来以后，每一个人都会自己去跑各种各样的测试，或者做多模型的输出结果比较。到那个时候，丑媳妇就真的要见公婆了。下一步的话是要开源Grok 2。DeepSeek是上来直接把最新的模型开源了，而且上来说，你们每家部署的跟我现在自己官网上跑的是一模一样，没有任何差别的。而且不断的有新的技术演进，不断的有新的技术新发现，都直接发论文发出来了。

但是，马斯克永远是开源上一代模型。就是他在用Grok 2的时候，他把Grok 1开源了。Grok 3能够稳定正常运转的时候，他会把Grok 2开源出来，可能还要再等那么几周或者是几个月的时间。山姆·奥特曼现在也惦记开源，刚在X平台上发了帖子说：“唉，咱们投个票吧，你们觉得OpenAI应该开源什么样的模型出来？我们是不是应该开源一个在PC本地就可以跑的O3 mini模型出来，还是说我可以在手机端跑一个这个小模型出来？”

他们是准备走谷歌跟微软这条路的。谷歌也是这样，它有一个叫Gemmar的模型，比较小的这个模型是开源的，主要也是让大家在端侧来用的。还有，微软做的这个Phi模型，这个模型也是开源的，也是让大家在端侧去使用的。但是我觉得，OpenAI如果真的把它的O3的模型，或者哪怕是O3 mini的模型拿出来开源了，或者让大家能用上了。

这也是一个值得期待的事情。讲远了，再往后呢？发布会上，中间两个华人做C位了。这种事情呢，肯定会引起国内的热议嘛。你看，还得看华人吧？华人也比较好认嘛，中国脸。

台上是四个人。第一个是马斯克，马斯克坐一个角嘛。另外一个角呢，这个人叫巴布斯基，这个人呢，是个俄罗斯人。中间的两个人呢，一个呢，叫做吴宇怀，XAI的合伙人，浙江人，在国内上完初中，15岁去了加拿大多伦多大学的博士，后来呢，是斯坦福大学的博士后，现在是XAI的合伙人。还有一个呢，叫Jamie BA，这个人呢，没有看到他前面的一些履历，是多伦多大学计算机科学系的助理教授，AI教父Joffrey Hinton的学生。

等于一边一个白人，中间两个华人。但其实你要再仔细看一下，这个是全世界人民在美国进行AI创业。一个俄罗斯人，剩下三个可能都是加拿大人。马斯克自己其实是有美国国籍、加拿大国籍和南非国籍的。中间两个，一个是多伦多大学的博士，他大概从15岁就开始在加拿大生活。另外一个的话，Jamie BA是多伦多大学计算机科学系的助理教授。所以有可能，这台上坐的是三个加拿大人和一个俄罗斯人。只是看着脸的话，是这个两个白人和两个华人。

那么，XAI未来的策略会是什么样的呢？XAI现在应该也就是100多人吧。它具体是多少，这个数字呢，并没有那么确定。但我还是相信GPT search给我的结果吧，就是不要说900多人了，就是100多人的一个公司。这种公司呢，不太可能进行全面开花，七扯咔嚓我把整个的C端到B端所有东西都做起来。这个事其实有点难度。

20万张卡这个事呢，其实是别人都不具备的这个条件。它就可以进行快速的迭代。各种方法只要确认了，说我知道这个方法是什么样的。比如说DeepSeek出了论文了，出了开源模型了，那我方法确认以后，我就可以快速的在20万张卡上给你重现出来，甚至把你的参数翻多少倍再重现一遍。这个事他都是可以干的。这呢，就是暴力出奇迹。

就会有这样的结果。这个过程其实大家看看有点像什么呀？是不是有点像世界工厂？别人只要做出来了，反正我这有的是生产力，快速的复制、迭代更新就完了。所以，这个应该就是AI未来的路，就是甭管谁做出来的东西，我都可以快速验证、快速改进我的模型。

而且呢，它使用了完全的合成数据进行训练，可能有很少一部分真实数据吧，绝大部分数据都是合成数据。所谓合成数据呢，就是由其他大模型生成的数据。他通过一定的策略，要求其他大模型去给他吐数据出来，然后拿这个模型去训练。

Grok 3一旦使用了合同数据的话，会不断的说自己是Grok 2，或者说自己遵守open AI标准。这个事情你就避免不了，因为是用别的模型生成的数据嘛。虽然XAI说我们在生成数据的过程中呢，我们还进行了反复的检查，有错误都给去处理掉了，但是他不断的说自己是Grok2，说自己是遵守open AI的安全准则，这件事来说呢清洗的还不够干净。

Grok3呢，应该只做了很少的对齐和测试，就扔出来了。后面呢，是准备快速迭代的。你如果现在去问Grok3，或者是问open AI的话，他们都会告诉你说，Grok3本身呢安全性还是不错的。但是有一点是不可否认的，他训练完成一个月就发布了，训练完了以后，只是在XAI内部测试了两周，就直接把产品扔出来了。这个是挺难以想象的，因为像open AI这样的这种模型，它每一次训练完了以后，可能后边都是需要用年为单位去进行对抗测试，或者说进行调整，然后才敢把这东西放出来。现在XAI就是我这边训练完了，我就把它扔出来了。

而现在呢，对外公布的是，Grok呢是通过思维列进行道德商值评测，就是它等于是一个思考过程吧。那我在思考的时候，我就把所有的输入输出的信息，进行道德商值的加权平均，或者说做一个加权复合吧，做一个这样的这个分数出来。如果这个分数达到一定的阈值以后，就禁止回答了。他大概是用通过这种方式来去工作的。

但是呢，并没有进行大规模的真人对抗测试。当然了，这个东西你说以后是不是都需要像OpenAI这么干呢？不好说。OpenAI现在还没有特别大的问题，但是谷歌就属于有点走火入魔了，直接被忽悠瘸了那种，就是画出黑人华盛顿那样的，这个就属于忽悠瘸了。未来可能大家都会去像XAI这样往前走。其实像DeepSeek也是这样，它从2.5到3.0之间的发布，也是大概一个多月或者一个月左右的时间就扔出来了，所以都不会做特别详细的或者长时间的这种真人对抗。未来可能都是通过逻辑的方式，让模型的安全性达到一个可以接受的程度就完了。我不保证这东西绝对安全，大家凑合使就可以了。我在不进行严格测试的情况下，不断地去迭代，这个其实才是DeepSeek也好，像Grok也好，最大的一个优势。每个小时都在改进和升级，全世界都在开发新的算法和架构嘛。马斯克有20万张卡，就可以把所有的这些公开的信息都在我这20万张卡里头去试一下。别人只能进行小规模测试的时候，XAI就可以进行全量测试，甚至我可以在你原来的数据基础上，用两三倍或者更大的数据集进行测试，得到一个世界上最聪明的大模型。所以我说这个就像中国世界工厂的工作方式是一模一样的。

那么XAI的下一步会是什么样呢？应该是会通过快速迭代，把当前的模型整个先稳定下来。现在已经可能是世界上最聪明的模型了，咱们就相信马斯克说的吧。但是呢，这个世界上最聪明的模型还经常会胡说八道。当它的模型彻底稳定下来，基本上可以达到可用的状态以后，下一步其实呢都是流量大战。这些人去搞C端估计应该是比较难，因为就100来口子人吧。最新的模型不开源，你去在B端竞争的话，也是有一定难度的。你比如说我现在一个公司里边需要去部署大模型了，那我不能去部署Grok 2吧，我肯定是部署DeepSeek V3或者DeepSeek R1这样的模型。

因为这是当前开源的最好模型，所以在这一块儿的竞争上也会有一些难度。那么，XAI的策略应该是依靠不断的快速迭代更新，始终保持自己是世界上最聪明的模型，这样的一个位置，吸引部分B端和C端的用户加入进来。自己虽然是有一定的流量，但是X自己的流量对于XAI来说应该是不够的，因为Open AI已经花费1,400万美金打超级碗广告了。所以，现在的AI行业已经进入了一个流量争夺的时代。在这个时候，可以靠产品好，靠模型最聪明，吸引一部分用户进来。像DeepSeek美国排行榜排第一，就是因为模型好，不是因为其他任何原因。他也没有那么多钱去烧这个流量去，他也不可能花1,400万美金去砸超级碗。XAI可能以后也只能是向这个方向走了。后面的路其实并不明朗，怎么依靠XAI把这个钱挣回来，现在还不清楚，还要等马斯克脑筋急转弯，让大家眼前一亮。

好，这就是我们今天讲的XAI的Grok 3大模型，到底是不是世界上最聪明的模型？暴力真的可以出奇迹吗？感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。