<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>AI模型评测 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/ai%e6%a8%a1%e5%9e%8b%e8%af%84%e6%b5%8b/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Fri, 05 Dec 2025 01:06:53 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>AI模型评测 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA</title>
		<link>https://lukefan.com/2025/12/05/deepseek-v3-2-dsa-leading-tech-gaps-analysis/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Fri, 05 Dec 2025 01:06:50 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[DeepSeek大模型]]></category>
		<category><![CDATA[AI Agent]]></category>
		<category><![CDATA[AI应用成本]]></category>
		<category><![CDATA[AI模型评测]]></category>
		<category><![CDATA[API降价]]></category>
		<category><![CDATA[DeepSeek V3.2]]></category>
		<category><![CDATA[DeepSeek V3.2 Special]]></category>
		<category><![CDATA[DeepSeek V3.2技术解析]]></category>
		<category><![CDATA[DeepSeek稀疏注意力]]></category>
		<category><![CDATA[DSA算法]]></category>
		<category><![CDATA[Gemini 3 Pro]]></category>
		<category><![CDATA[GPT-5.1]]></category>
		<category><![CDATA[SGLANG]]></category>
		<category><![CDATA[VLLM]]></category>
		<category><![CDATA[国产大模型]]></category>
		<category><![CDATA[国产算力]]></category>
		<category><![CDATA[大模型发展趋势]]></category>
		<category><![CDATA[大语言模型]]></category>
		<category><![CDATA[开源AI模型]]></category>
		<category><![CDATA[推理效率优化]]></category>
		<category><![CDATA[数学推理模型]]></category>
		<category><![CDATA[深度求索]]></category>
		<category><![CDATA[稀疏注意力]]></category>
		<category><![CDATA[长上下文处理]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=3095</guid>

					<description><![CDATA[家人们！Deepseek V3.2 12月1号闪亮登场✨ 但R2呢？失踪人口坐实了！😂 哥们儿等了一整年，结果等来个“缝补打工人”——V3.2？纯纯的V3老底子加补丁！

重点来了‼️ DSA算法直接让成本腰斩💸 输入100万token才2块钱，比一杯奶茶还便宜🥤！实测API便宜到哭，但special版？数学界Rain Man💧——解题666，聊天只会“啊？”，社交废柴实锤（还限时12月15号！跑分王者？实战寄了😭）。

真·遥遥领先的是啥？DSA全开源‼️代码论文白给，不像美帝抠搜“不能商用”🙅‍♂️ 国产云连夜0day支持，但训模型还得跪舔英伟达😭（清醒点！基础模型该重训了）

进步了，别吹上天！这波降本增效+开源精神，值得一个赞👍 同意的扣1，不服来Battle！💥 #AI黑科技 #国产之光 #科技宅的浪漫


标题1：Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DeepSeek Sparse Attention (DSA)、Reasoning、Open Source AI
标题2：Deepseek V3.2 vs GPT-5：看似反超，实则“麻袋片绣花”？DSA降本50%难掩架构硬伤，真能撼动Gemini 3.0 Pro？｜DeepSeek-V3.2、AI Model Benchmarks、Gemini 3.0 Pro、GPT-5
标题3：别只看跑分！Deepseek V3.2最大贡献是DSA算法，API成本直降50%，这才是真正的推理效率革命｜DeepSeek-V3.2、DeepSeek Sparse Attention (DSA)、Inference Efficiency、LLM技术分析
标题4：英伟达警报拉响？Deepseek V3.2的DSA算法完全开源，LLM推理成本普降50%，国产算力要躺赢了？｜DeepSeek-V3.2、DeepSeek Sparse Attention (DSA)、Open Source AI、Inference Efficiency
标题5：深度拆解：Deepseek V3.2领先的是算法而非模型，Special版跑分神话背后，DSA技术才是真正王牌｜DeepSeek-V3.2、DeepSeek Sparse Attention (DSA)、Reasoning、AI Model Benchmarks
简介：DeepSeek-V3.2发布引发热议，但其“遥遥领先”的真相远比跑分复杂。本次更新的核心是革命性的开源技术DeepSeek Sparse Attention (DSA)，它将API成本砍半，极大提升了推理效率。然而，模型本身仍基于旧架构，其惊人的AI Model Benchmarks主要来自一个无法泛用的“特化版”。与Gemini 3.0 Pro等新一代模型相比，V3.2在降本增效上取得突破，但在基础模型创新上仍有差距。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA" width="900" height="506" src="https://www.youtube.com/embed/5hgwZf-tYAw?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_1.JPEG" alt=""/></figure>



<h1 class="wp-block-heading">Deepseek V3.2，12月1号发布了。是不是又遥遥领先了呢？</h1>



<p>大家好，欢迎收听<a href="https://youtube.com/@StoryTellerFan" target="_blank" rel="noopener">老范讲故事的YouTube频道</a>。</p>



<p>Deepseek V3.2的发布应该是12月1日。我们始终没有等来心心念念的Deepseek R2。在今年春节的时候，深度求索突然发布了Deepseek R1，算是扔下了一颗深水炸弹，把整个AI圈都震动了，甚至还造成了英伟达股价的闪崩——一段时间内闪崩吧。甚至老黄都跑出来喊，说：“Deepseek发布对我是利好，你们不要卖英伟达的股票。”大家就一直等着这个R1，既然这么厉害，咱们上R2。但是等了这么久，都没有等来R2。</p>



<h2 class="wp-block-heading">Deepseek V系列版本回顾</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_2.JPEG" alt=""/></figure>



<p>下面呢，我们来捋一下Deepseek V系列的版本到底是怎么样的一个发布过程。</p>



<ul class="wp-block-list">
<li><strong>Deepseek V3 (去年12月26日发布):</strong> 这是非常非常重要的一个版本。实际上我们后面看到的所有版本，包括R1，都是在Deepseek V3的基础上进行微调、进行蒸馏、进行强化学习。今天发布的Deepseek V3.2，也依然是在这个版本的基础上做出来的。</li>



<li><strong>Deepseek V3-0324 (3月24日发布):</strong> 主要是在专项能力上做了一些增强，比如说编代码或者写文章。</li>



<li><strong>Deepseek V3.1 (8月21日发布):</strong> 主要是工程化和智能体方面做了增强。因为当时大家都要去做AI agent，而之前的版本在AI agent这一块都比较弱。</li>



<li><strong>Deepseek V3.1 Terminals (9月22日发布):</strong> 这个版本叫V3.1的终极版，实际上是对V3.1做了一些修复和精调，并告知这是V3.1的最终版本。</li>



<li><strong>V3.2 EXP (9月29日发布):</strong> 一个实验版本，在V3.1终极版的基础上加入了DSA技术。最主要的变化是降价，直接把API调用的价格砍了一半。</li>



<li><strong>Deepseek OCR (10月20日发布):</strong> 一个很小的模型（约6G），用于图片解释，效果很好。</li>



<li><strong>maths VR (11月27日发布):</strong> 专门做数学推理和数学证明的一个版本，在各种数学题测试中评分非常高。</li>



<li><strong>Deepseek V3.2 正式版 &amp; V3.2 special 特别版 (12月1号发布):</strong> 本次发布的主角。</li>
</ul>



<span id="more-3095"></span>



<h2 class="wp-block-heading">V3.2，是不是遥遥领先了呢？</h2>



<p>那么这一次的V3.2，是不是遥遥领先了呢？各种评测数据确实非常亮眼，但是呢，我们要看到它的评测数据里头实际上是有两个数值的。一个数值呢是Deepseek V3.2做出来的，一个数值呢，是Deepseek V3.2 special做出来的。</p>



<p>它的Deepseek 3.2 special这个版本，确实是比Gemini 3 Pro、GPT5.1都要强，但是我们大部分人，实际上没有办法去使用这个V3.2 special。它这个正式版的V3.2呢，属于是接近了GPT-5.1的水平，各项评分都很近，有个别的超过吧，大部分呢跟GPT-5.1很近的一个位置。</p>



<p>甚至呢，还有人出来讲，说GPT到现在3周岁了，现在Deepseek反超回来了。很多人就讲说GPT被Deepseek吓到了，其实跟Deepseek没关系，主要是被谷歌吓到了。</p>



<h3 class="wp-block-heading">V3.2 Special：一个跑分工具？</h3>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_3.JPEG" alt=""/></figure>



<p>你说V3.2的special版本的评分，不是已经超越了GPT-5.1和Gemini 3 Pro了吗？你怎么还说跟国外有差距呢？首先要注意，V3.2 special是一个基本上没法用的版本。为什么呢？</p>



<p>就是它的推理、它的运算确实非常强，但是呢，它在工具调用、AI agent的使用这一块都不能用，因为它就是会解数学题，它是一个偏科天才，除了写数学题之外，他啥也搞不了。所以呢，他做各种的评测分数很高，但是你实际使用他，你是没法使的。</p>



<p>而且Deepseek V3.2 special这个版本只能用到12月15号，在这之后这个接口就直接废掉了。所以那个产品就是跑分用的，不是给大家用的。发布V3.2 special呢，也是有一点点赶鸭子上架。当然有很多人说，这个就是Deepseek R2了。</p>



<h2 class="wp-block-heading">V3.2的核心技术：DSA算法</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_4.JPEG" alt=""/></figure>



<p>那么V3.2到底是怎么训练出来的呢？实际上Deepseek V3.2，是在Deepseek V3.1 Terminals这个基础上进行的继续训练，基础大模型没变。这个里边最关键的特性，就是降本增效。</p>



<h3 class="wp-block-heading">降本：Deepseek稀疏注意力算法 (DSA)</h3>



<p>它直接把成本对半砍，就是降50%的API调用成本。里边呢，使用了一个叫DSA的算法，Deepseek稀疏注意力算法。通过一个叫闪电索引的功能，它不是对文本里边的所有词进行运算和匹配，而是先评估哪一块比较重要，哪一块不太重要，我们把重要的部分拿去做下一步，不重要的部分直接扔了。通过这种方式呢，它极大的降低了长上下文的处理成本。</p>



<p>长上下文是必须的，因为AI agent需要调用工具、搜索、使用本地知识库。所以只能在长上下文的基础上想办法去降低成本。</p>



<h3 class="wp-block-heading">增效：与V3.1对齐并强化</h3>



<p>在实现了DSA的算法之后，它还要跟Deepseek V3.1 Terminals这个最终版进行对齐，确保性能不能退步。这就是这一次V3.2在V3.2 EXP的基础上做的一个很重要的更新。</p>



<p>所以呢，9月29号V3.2 EXP，第一件事是先把价格打下来：</p>



<ul class="wp-block-list">
<li><strong>输入 (缓存不命中):</strong> 100万TOKEN两块钱人民币。</li>



<li><strong>输入 (缓存命中):</strong> 100万TOKEN是两毛钱。</li>



<li><strong>输出:</strong> 100万TOKEN只需要3元人民币。</li>
</ul>



<p>这个价格要比我们现在能看到的各种轻量级模型都要便宜很多。</p>



<p>在发布这个版本之后呢，进行了大规模特定目标的强化学习，主要学很难解答但很容易验证的问题，特别是针对智能体（AI agent）进行数据训练。在这样的一个基础上，就得到了12月1号所发布的V3.2正式版。</p>



<h3 class="wp-block-heading">V3.2 Special的由来</h3>



<p>它呢，是在V3.2 EXP base的这个基础上，拿着前面我们讲的，专门做数学题证明的maths VR这个版本去做后续的训练。V3.2 special实际上就是V3.2 EXP base这个版本加上maths V2这个版本合成的一个版本。所以它特别擅长做数学题、做各种长推理，但其他方面能力很弱。</p>



<h2 class="wp-block-heading">真正的领先之处：开源贡献</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_5.JPEG" alt=""/></figure>



<p>我们现在所说的领先，是真正做出来的这些改变、这些创新，对于整个行业是不是有贡献。Deepseek R1对于整个行业是有巨大贡献的。而这一次的DSA确实是非常先进的，也对整个行业是有贡献的。只要是对整个行业有贡献，我们就认为它已经遥遥领先了。</p>



<p>而且DSA算法呢是完全开源的，有论文、有模型、有代码，而且可以商业化使用。不像美国那些公司抠抠搜搜的。</p>



<p>当然，这个东西也不是Deepseek凭空发明的，它是在很多前人的基础上做的改进和应用。就像瓦特改进了蒸汽机一样，DSA也是如此。类似的稀疏注意力算法有很多论文，但是真正大规模的验证和使用，就是Deepseek的DSA这个算法。</p>



<h3 class="wp-block-heading">其他AI公司如何应用DSA？</h3>



<p>美国公司也有类似技术，OpenAI的算法没有公开，谷歌应用的则是一个叫“环注意力”（ring attention）的算法，可以支持到100万TOKEN的上下文。</p>



<p>DSA是完全开源的，其他模型也可以使用，但需要经过几个步骤：</p>



<ol class="wp-block-list">
<li><strong>模型结构改造：</strong> 在原来模型的基础上加上闪电索引。先进行“稠密预热”，保持主干注意力完全稠密，冻结原来的参数，只训练这个闪电索引。</li>



<li><strong>稀疏训练：</strong> 打开DSA开关，解冻主干的参数，和闪电索引一起训练，并确保输出结果跟原来是一样的。</li>



<li><strong>蒸馏和强化学习：</strong> 在针对写作、数学、代码、AI agent搜索等等特定领域进行特训，再用特定的模型生成数据，蒸馏主模型。最终把推理和AI agent这些行为进行强化学习和人类的对齐。</li>
</ol>



<p>所以DSA对整个行业是有巨大推动作用的，这才是真正的遥遥领先。</p>



<h2 class="wp-block-heading">Deepseek V3.2的局限与不足</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_6.JPEG" alt=""/></figure>



<p>它还是有很多地方比GPT-5.1、比Gemini 3 Pro要差很远的地方。</p>



<ul class="wp-block-list">
<li><strong>纯文本模型：</strong> 完全没有多模态能力，给它图片它是不认识的。</li>



<li><strong>基础模型陈旧：</strong> Deepseek V3.2也是在一个去年12月26日发布的Deepseek V3的基础上，不停的打补丁补出来的一个版本。这个叫“麻袋片绣花，底子太差”。就像OpenAI发现GPT-5（在GPT-4基础上微调）无法追赶从头训练的Gemini 3 Pro一样，要想再追上，必须得退回去把基础模型再提升一步。</li>
</ul>



<p>所以，Deepseek下一步肯定还是要先把Deepseek V3.2的special合并进去，但更重要的是需要重新预训练一个全新的V4模型，把多模态等能力加进去。</p>



<h2 class="wp-block-heading">对国产算力的真正影响</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_7.JPEG" alt=""/></figure>



<p>Deepseek V3.2是不是对于国产算力有了巨大的帮助？国内云确实是在第一时间就去支持了，他们叫0 day支持。</p>



<p>现在大模型推理普遍使用VLLM或SGLANG这样的开源框架，它们最初是为英伟达显卡设计的。Deepseek发布DSA后，第一件事就是修改这两个框架，让它们能很好地支持DSA。国内的算力卡厂商，如华为升腾，也要到这个系统上去打补丁，适配自己的硬件。</p>



<p>华为云等厂商已经完成了这个适配工作，这意味着，以后想把模型部署到中国的公司（如XAI），可以直接购买华为升腾的芯片而无需修改代码。</p>



<p>所以国内的云和算力卡确实又行了，它们可以在相同的算力下处理更多的信息。从推理这件事情上来说，我们不再那么依赖英伟达的显卡了。但是，如果想预训练一个全新的大模型，还是要去买英伟达显卡。目前国内普遍的做法是让大模型出海，在海外去做训练。</p>



<h2 class="wp-block-heading">Deepseek V3.2带来的市场影响</h2>



<ul class="wp-block-list">
<li>AI应用在国内产业的普及与渗透速度会进一步的提升。</li>



<li>一些新的模型，甭管是国内的还是国外的，都会去进行DSA升级，以降低成本。</li>



<li>使用中文推理的美国大模型会变多起来，因为它们很多是在中文开源模型基础上做后训练的。</li>
</ul>



<h3 class="wp-block-heading">对英伟达的影响：短期承压，长期利好</h3>



<p><strong>短期来看是利空。</strong>&nbsp;DSA让推理成本下降，完成同样的任务只需要一半的显卡，这会减少对英伟达通用算力的需求。</p>



<p><strong>但长期来说依然是利好。</strong>&nbsp;首先，行业认识到必须重新预训练基础模型，这离不开英伟达显卡。其次，AI应用渗透率上升，会推动整个行业越过盈利点，对算力中心的需求可能实现真正的爆发。</p>



<h2 class="wp-block-heading">总结</h2>



<p>Deepseek V3.2，12月1日正式发布了，评分很高，但对于实际使用和感受其实没有那么大意义。因为他真正评分很高的那个版本，是一个偏科的数学天才。V3.2正式版他的评分并没有那么高。而且Deepseek V3.2是在V3的基础上继续缝缝补补出来的，想要继续前进已经很难了，必须要去对基础模型重新做预训练了。DSA这个算法确实对整个行业做出了贡献，非常非常有价值，在这一点上，你说它遥遥领先没有任何问题，但是距离真正的全线领先，还有很大的差距。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<p>好，这就是咱们今天要讲的故事，感谢大家收听，请帮忙点赞、点小铃铛、参加<a href="https://discord.gg/ppKsNkttTv" target="_blank" rel="noopener">DISCORD讨论群</a>，也欢迎有兴趣、有能力的朋友加入我们的<a href="https://www.youtube.com/channel/UCUGLhcs3-3y_yhZZsgRzrzw/join" target="_blank" rel="noopener">付费频道</a>，再见。</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Grok 3发布：Elon Musk称其为“宇宙最聪明”大模型，暴力出奇迹的xAI，是否可以成为AI时代的世界工厂？</title>
		<link>https://lukefan.com/2025/02/20/grok-3%e5%8f%91%e5%b8%83%ef%bc%9aelon-musk%e7%a7%b0%e5%85%b6%e4%b8%ba%e5%ae%87%e5%ae%99%e6%9c%80%e8%81%aa%e6%98%8e%e5%a4%a7%e6%a8%a1%e5%9e%8b%ef%bc%8c%e6%9a%b4%e5%8a%9b%e5%87%ba/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Thu, 20 Feb 2025 00:40:03 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[Musk传奇]]></category>
		<category><![CDATA[20万GPU]]></category>
		<category><![CDATA[AI API]]></category>
		<category><![CDATA[AI参数]]></category>
		<category><![CDATA[AI商业化]]></category>
		<category><![CDATA[AI大模型]]></category>
		<category><![CDATA[AI安全性]]></category>
		<category><![CDATA[AI对比]]></category>
		<category><![CDATA[AI幻觉]]></category>
		<category><![CDATA[AI开源]]></category>
		<category><![CDATA[AI快速迭代]]></category>
		<category><![CDATA[AI排行榜]]></category>
		<category><![CDATA[AI架构]]></category>
		<category><![CDATA[AI模型评测]]></category>
		<category><![CDATA[AI模型选择]]></category>
		<category><![CDATA[AI流量大战]]></category>
		<category><![CDATA[AI测试策略]]></category>
		<category><![CDATA[AI用户体验]]></category>
		<category><![CDATA[AI直播发布]]></category>
		<category><![CDATA[AI订阅]]></category>
		<category><![CDATA[AI训练]]></category>
		<category><![CDATA[AI语音识别]]></category>
		<category><![CDATA[AI迭代]]></category>
		<category><![CDATA[Deep Research功能]]></category>
		<category><![CDATA[Deep Search功能]]></category>
		<category><![CDATA[DeepSeek]]></category>
		<category><![CDATA[DeepSeek R1]]></category>
		<category><![CDATA[Deepseek V3]]></category>
		<category><![CDATA[DeepSeek对比]]></category>
		<category><![CDATA[DeepSeek开源]]></category>
		<category><![CDATA[DeepSeek模型]]></category>
		<category><![CDATA[DeepSeek训练]]></category>
		<category><![CDATA[DeepSeek论文]]></category>
		<category><![CDATA[Grok 2]]></category>
		<category><![CDATA[Grok 3]]></category>
		<category><![CDATA[Grok 3发布会]]></category>
		<category><![CDATA[Grok 3对齐]]></category>
		<category><![CDATA[Grok 3费用]]></category>
		<category><![CDATA[Grok APP]]></category>
		<category><![CDATA[OpenAI对比]]></category>
		<category><![CDATA[Think与Deep Search对比]]></category>
		<category><![CDATA[Think功能]]></category>
		<category><![CDATA[XAI]]></category>
		<category><![CDATA[XAI发展]]></category>
		<category><![CDATA[XAI发布会]]></category>
		<category><![CDATA[XAI合伙人]]></category>
		<category><![CDATA[XAI商业方向]]></category>
		<category><![CDATA[XAI测试]]></category>
		<category><![CDATA[x平台]]></category>
		<category><![CDATA[X平台订阅]]></category>
		<category><![CDATA[世界工厂]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[合成数据]]></category>
		<category><![CDATA[大模型]]></category>
		<category><![CDATA[大模型幻觉]]></category>
		<category><![CDATA[幻觉问题]]></category>
		<category><![CDATA[推理功能]]></category>
		<category><![CDATA[数据清洗问题]]></category>
		<category><![CDATA[智能模型]]></category>
		<category><![CDATA[暴力迭代]]></category>
		<category><![CDATA[最聪明模型]]></category>
		<category><![CDATA[深度学习]]></category>
		<category><![CDATA[深度研究功能]]></category>
		<category><![CDATA[马斯克]]></category>
		<category><![CDATA[马斯克AI]]></category>
		<category><![CDATA[马斯克的大模型]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1923</guid>

					<description><![CDATA[🚀 **我宣布！Grok 3 真的可以改变阶级！**

大家好，今天我要跟大家聊一聊马斯克的Grok 3，这款被马斯克誉为“世界上最聪明的大模型”的AI神器！😱

首先，Grok 3的发布可谓是科技界的一大盛事。在2月18号，马斯克和他的小伙伴们通过一场直播正式发布了Grok 3。作为一个科技迷，我当然第一时间去体验了这款新模型！🔍

Grok 3的功能非常强大，它有两个主要按钮：Deep Search和Think。Deep Search类似于OpenAI的Deep Research，可以搜索大量的内容并生成详细的报告。而Think则类似于推理模型，可以进行逻辑推理并生成简短文案。这两个功能可以单独使用，但不能同时使用。🤔

不过，Grok 3的体验也有一些小瑕疵。比如，在Deep Search时，生成的报告有时会出现内容重复的情况。而Think功能虽然能生成较为简洁的文案，但在编程方面的表现还有待提升。😅

总的来说，Grok 3作为一款新晋的大模型，虽然存在一些小问题，但其强大的功能和潜力不容小觑。如果你是科技爱好者，或者想要在AI领域有所突破，Grok 3绝对值得一试！💪

#Grok 3 #马斯克 #AI大模型 #科技前沿 #智能助手

Grok 3发布：Elon Musk称其为“宇宙最聪明”大模型，暴力出奇迹的xAI，是否可以成为AI时代的世界工厂？

马斯克自称Grok 3是“世界上最聪明的大模型”，但其功能和使用体验正引发广泛争议。Grok 3采用了高昂的订阅费用，仅支持高级用户访问，其深度研究（Deep Search）和推理（Think）功能虽颇具创新但问题频繁，如重复内容和严重幻觉。其基于20万张GPU暴力迭代的快速开发模式，更是被比喻为“AI界的世界工厂”，但用户体验仍未达到预期。文章详细剖析了Grok 3的架构、功能、发布策略以及与DeepSeek和其他开源模型的对比，探讨XAI未来的竞争策略与挑战。关键词：Grok 3、马斯克、XAI、DeepSeek、AI大模型、暴力迭代、幻觉问题、用户体验。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="Grok 3发布：Elon Musk称其为“宇宙最聪明”大模型，暴力出奇迹的xAI，是否可以成为AI时代的世界工厂？" width="900" height="506" src="https://www.youtube.com/embed/qBvMVcGKFws?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>马斯克的Grok 3到底是不是世界上最聪明的大模型？暴力真的能出奇迹吗？大家好，欢迎收听老范讲故事的YouTube频道。世界上最聪明的大模型，这是马斯克对他自己家的Grok 3给的定义。如果有人不同意的话，那么会被开除的。因为XAI某一位员工在X上发帖说，Grok 3好像并没有那么聪明，然后就被XAI找到说，你要么删帖要么开除。后来这哥们想了想说，我得捍卫一下自己的言论自由，于是这哥们就被开除了。</p>



<p>在说所有细节之前，咱们先说说Grok 3到底怎么用。在2月18号北京时间中午12点的时候，马斯克跟另外三位小伙伴，一共四个人坐着开了场直播，把这个Grok 3发布了。我就四处去找，首先我是X每个月交8美金的Premium用户，我在X上使不了。X上你必须是40美元的Premium+用户，才可以去使用。在Grok的这个网站上呢，你也需要30美元一个月的账号才可以用。免费用户只能用Grok 2，API不充钱已经不让用了。如果是团队的话，至少花了5美元以上，每个月他会赠送你150美金，但前提呢是要跟XAI共享你的数据。</p>



<p>目前Grok 3的版本还没有上，你就算交钱了，你在XAI的网站上，也只能得到Grok 2的API，还要再等几周才会上线。Grok的苹果APP上面，是可以使用Grok 3 Beta这个版本的，即使是免费用户也可以去用。因为我呢对于XAI来说是一个免费用户，我就通过iOS，也就是iPhone和iPad这个版本上去，好好儿的测试了一下。后边儿呢咱们再去讲具体效果怎么样。</p>



<span id="more-1923"></span>



<p>Grok 3有哪些具体信息呢？在整个的发布过程中呢，并没有特别详细的讲，只是说，我各种排行榜都排在第一了。Grok 3，Grok 3 mini是怎么去排上去的，讲了很多这样的话。但是呢，这个系统本身的一些细节，并没有那么详细的公开。因为可能在Grok 3稳定下来以后，会把Grok 2开源。现在Grok 1是开源的。</p>



<p>Grok 2可能有一些细节会被披露出来，但是Grok 3的话应该很长一段时间不会有特别详细的细节披露出来。现在能够知道的就是，Grok 3应该也是一个MoE模型，跟DeepSeek是一样的。它到底有多少参数呢？现在猜测是有1.2万亿个参数，DeepSeek是6,710亿，它呢应该是在DeepSeek的基础上翻了一番。至于这个数字是不是准确，我不知道，因为呢我去问了Grok 3，也去问了ChatGPT，最终是给了我一个这样的数字，我并没有去查原文件。</p>



<p>Grok 3的使用感受到底是什么样的？它呢，下边有两个按钮，一个叫Deep Search，一个呢叫Think。Deep Search实际上就类似于OpenAI的Deep Research，就是这种深度研究，它会搜索大量的内容，然后呢，再去给你出报告。Think的话实际上就是类似于O1、O3这样的推理模型。这两个按钮它特别有意思，这两个按钮呢你可以都不按，也可以按其中一个，但是不允许两个都按。这个意思大家能够理解吧？你不能又要Think，又要Deep Search，这个事是不允许的。那你说我既不Think也不Deep Search，这事行不行？可以。</p>



<p>然后呢，我都试了一下。在Deep Search的时候，它会直接引用几十个甚至上百个网页，非常非常多的网页，然后呢给你一个似模似样的报告，很长，格式非常非常好的一份报告。在Think的时候呢也会搜索，并不是自己去瞎编的，他呢，会搜索25个网页，以及呢X上的帖子。大家注意，Deep Search时候是不搜索X的，在Think的时候是会搜索25个网页，加上X上的可能5个帖子吧，反正我搜了几次都是5个帖子，然后给你进行一定的推理，总结出一个小的文案出来。这就是这两个功能。如果两个都不选，我既不Think也不Deep Search，它呢就不联网了，就直接是给你编一个结果出来。</p>



<p>大家注意，所有的大模型，甭管是谁家模型多聪明，你让他直接编出来的这个结果，都是最不靠谱的。那么，他这三个功能，就是两个都不选，或者选其中任何一个。这三个功能呢，特别有意思的一点是什么？他可以混用。</p>



<p>在OpenAI上呢，这种模型混用是比较严格的。你如果开始一个新话题，选择了一个模型，提了几个问题之后，你现在想去切模型的时候，你这个模型，比如说允许有图片呢，下面你要去切的时候，只允许再切换到允许图片的模型。它不允许你切换到不允许读图片的模型去。这个是有限制的。但是呢，在Grok里面它是没有限制的。就是你随时可以开始新对话，对话的过程中可以随时切模型，你可以来回切来切去。</p>



<p>但是呢，在这个过程中呢，有一些不是那么有趣的地方是什么？就是如果你俩都不点上来，直接让模型去编，他就不联网了。他编完第一句以后呢，你说我现在要开始进行深度的搜索了，deep search了，这个时候他也不联了。或者说我现在需要think了，他也不会去联网，他就根据现有的内容接着编下去。他是这样的一种过程。</p>



<p>但如果你是以deep search开始的，那么think的时候呢，他就不去搜索帖子，因为deep search是不搜索X的。如果你是以deep search或者think开始，然后你最后切换回到完全编的，既不deep search，也不think的这样的一个裸模型，去输出的时候，继续搜索。所以它整个的逻辑，还稍微有一点点小混乱吧。</p>



<p>那么，Grok 3到底是不是宇宙第一聪明的这个模型呢？因为你如果用iOS APP你去选的时候，后面会写一个叫smartest，最聪明的。它是Grok 3 beta，后边写一个小括号，smartest，这个是最聪明的。到底是不是？我个人感受呢，现在相差还比较远。为什么呢？为了准备这期节目呢，我其实用Grok 3去做了很多的工作，包括是他的deep search或者think。但是最终呢。</p>



<p>Grok3生成的所有结果都被我扔掉了。最后的内容还是靠豆包和GPT search来完成的。原因也很简单，Grok 3 deep search现在报告的格式非常好，非常中规中矩，但是大量的段落是重复的。前边写了一遍，后边车轱辘话又写了一遍，用不同的格式，用同样的话来回来去说，这个是很讨厌的。</p>



<p>还有一个问题是幻觉大到完全无法使用的一个状态。比如说，我问他XAI现在有多少人了，图说现在有900多人了。后来我问了其他几个模型，都告诉我是有100多人，这个可能还是稍微靠谱一点点。都是联网搜索吗？你都不是自己瞎编的，那我不知道他这个900多人这个数是哪来的。</p>



<p>然后我说四个人在上面开发布会嘛，中间两个人是华人。这两天在国内又嗨起来了，说你看马斯克发布Grok3的时候，马斯克只能在一边点头，点头机器。中间是做C位的两个都是华人，旁边还有一个白人。那我就问他，我说这俩华人到底是谁，什么教育背景，然后就开始给我胡说八道。他也是举的XAI里边的一些华人高管，但是呢并不是当时坐在台上这两个人。</p>



<p>发生这种事情的原因很简单，就是他在deep search的时候，一下瞪了可能几十个上百个网页，回来拿这么多个网页进行总结的时候呢，把内容搞串了，实际上就产生幻觉嘛，就完全没法使。</p>



<p>然后呢，我去尝试了一下think。think呢其实没有特别细致的测试，为什么呢？本来我想去让他做编程，但是呢，他没有API。你没有API的话，就没有办法接到IDE里边去，你没办法作为插件接进去，就没有办法详细地参与到我的这整个的编程过程里头去。我做了些简单的测试，但是感觉呢think模型对于各种编程的复杂的环境，和各种的版本和类库的话，并不是那么熟悉。这块的话可能以后等他有了API以后，再去做详细测试了。直接生成还过得去，就是如果两个都不点，让他直接生成。但是呢，因为在手机上用，并没有办法进行。</p>



<p>特别大规模的使用和测试，现在看来呢，XAI的Grok 3采用的是叫分梯度发布的一个方式。就是说，我先发布一点，然后慢慢地让更多的人能用，再慢慢地发布更多的内容出来，然后不断地去迭代。他现在干这样的事情。现在呢，就是手机用户可以用。那么手机用户呢，第一个用户量不会特别大，而且在这个时候，可能还能够为Grok APP带来一批的下载，这个也算是一个小心思吧。</p>



<p>在手机用户使用的过程中呢，你不会给他特别繁重的任务。因为你要跟他做这种很复杂的沟通的话，你需要打好多字，举了个手机在这噼里啪啦打字，很费劲的。你像我，为了做这个测试，最后是把我的iPad接到了机械键盘上，夸啦夸啦往里打字，这个还是能够问一些稍微复杂一点东西。要真是拿着手机，在那个屏幕上打字的话，这个还是挺费劲的。还有什么呢，就是不会有太正式的任务是通过手机来进行的。比较正式的任务一般会通过网页，通过电脑来去工作。</p>



<p>Grok跟X网站上还是有一些付费的人能够使用的。你不能说老范你没交钱，你就说这玩意不好使。这些比较高付费的用户，比如说在X平台上交了40美金一个月的，或者在Grok平台上交了30美金一个月的，这些用户呢，他是可以去用的。但是这些用户呢，数量肯定会少很多。还有一点呢，就是皇帝的新衣嘛，我付了这么多钱了，我就不能允许任何人说我是傻子，我一定要说这个钱付的是值的。所以呢，就算他们遇到问题了，上来骂街的可能性也不是那么大。这个就是马斯克当前发布了一个版本，比较聪明的地方吧。</p>



<p>后面语音模式的话，可能还要再等一周。我估计语音识别率这块还有待优化吧，因为语音你认不出来就是认不出来，还有口音还有乱七八糟这种事情。咱们再看看，后边会做出一个什么样的结果出来。API的话，还需要再等几周。为什么API要这么费劲，原因呢是现在大家只能看马斯克官方的排行榜，我的测试数据是什么样的，排行榜是什么样的，你自己没法去测取，给你一个手机版本。</p>



<p>或者给你一个网页版本。你现在想把这几千道题输进去，测试这个事太费劲了。你要想测试这东西，必须要拿API写程序去测。这个过程其实有点像法拉利的一个跑车。法拉利就说了，这个东西太贵，而且做测速的时候太危险。如果你自己去测的话，非常不安全，而且保险公司也不允许我们干这个事情。所以，法拉利跑车的最高极速，只有法拉利官方出的这个版本是唯一标准，任何人不得私自去测试法拉利跑车的最高极速。这个事情我们不承认，而且这个事我们也不允许。</p>



<p>现在，XAI的Grok也就是在这样的一个阶段。等以后API上来以后，每一个人都会自己去跑各种各样的测试，或者做多模型的输出结果比较。到那个时候，丑媳妇就真的要见公婆了。下一步的话是要开源Grok 2。DeepSeek是上来直接把最新的模型开源了，而且上来说，你们每家部署的跟我现在自己官网上跑的是一模一样，没有任何差别的。而且不断的有新的技术演进，不断的有新的技术新发现，都直接发论文发出来了。</p>



<p>但是，马斯克永远是开源上一代模型。就是他在用Grok 2的时候，他把Grok 1开源了。Grok 3能够稳定正常运转的时候，他会把Grok 2开源出来，可能还要再等那么几周或者是几个月的时间。山姆·奥特曼现在也惦记开源，刚在X平台上发了帖子说：“唉，咱们投个票吧，你们觉得OpenAI应该开源什么样的模型出来？我们是不是应该开源一个在PC本地就可以跑的O3 mini模型出来，还是说我可以在手机端跑一个这个小模型出来？”</p>



<p>他们是准备走谷歌跟微软这条路的。谷歌也是这样，它有一个叫Gemmar的模型，比较小的这个模型是开源的，主要也是让大家在端侧来用的。还有，微软做的这个Phi模型，这个模型也是开源的，也是让大家在端侧去使用的。但是我觉得，OpenAI如果真的把它的O3的模型，或者哪怕是O3 mini的模型拿出来开源了，或者让大家能用上了。</p>



<p>这也是一个值得期待的事情。讲远了，再往后呢？发布会上，中间两个华人做C位了。这种事情呢，肯定会引起国内的热议嘛。你看，还得看华人吧？华人也比较好认嘛，中国脸。</p>



<p>台上是四个人。第一个是马斯克，马斯克坐一个角嘛。另外一个角呢，这个人叫巴布斯基，这个人呢，是个俄罗斯人。中间的两个人呢，一个呢，叫做吴宇怀，XAI的合伙人，浙江人，在国内上完初中，15岁去了加拿大多伦多大学的博士，后来呢，是斯坦福大学的博士后，现在是XAI的合伙人。还有一个呢，叫Jamie BA，这个人呢，没有看到他前面的一些履历，是多伦多大学计算机科学系的助理教授，AI教父Joffrey Hinton的学生。</p>



<p>等于一边一个白人，中间两个华人。但其实你要再仔细看一下，这个是全世界人民在美国进行AI创业。一个俄罗斯人，剩下三个可能都是加拿大人。马斯克自己其实是有美国国籍、加拿大国籍和南非国籍的。中间两个，一个是多伦多大学的博士，他大概从15岁就开始在加拿大生活。另外一个的话，Jamie BA是多伦多大学计算机科学系的助理教授。所以有可能，这台上坐的是三个加拿大人和一个俄罗斯人。只是看着脸的话，是这个两个白人和两个华人。</p>



<p>那么，XAI未来的策略会是什么样的呢？XAI现在应该也就是100多人吧。它具体是多少，这个数字呢，并没有那么确定。但我还是相信GPT search给我的结果吧，就是不要说900多人了，就是100多人的一个公司。这种公司呢，不太可能进行全面开花，七扯咔嚓我把整个的C端到B端所有东西都做起来。这个事其实有点难度。</p>



<p>20万张卡这个事呢，其实是别人都不具备的这个条件。它就可以进行快速的迭代。各种方法只要确认了，说我知道这个方法是什么样的。比如说DeepSeek出了论文了，出了开源模型了，那我方法确认以后，我就可以快速的在20万张卡上给你重现出来，甚至把你的参数翻多少倍再重现一遍。这个事他都是可以干的。这呢，就是暴力出奇迹。</p>



<p>就会有这样的结果。这个过程其实大家看看有点像什么呀？是不是有点像世界工厂？别人只要做出来了，反正我这有的是生产力，快速的复制、迭代更新就完了。所以，这个应该就是AI未来的路，就是甭管谁做出来的东西，我都可以快速验证、快速改进我的模型。</p>



<p>而且呢，它使用了完全的合成数据进行训练，可能有很少一部分真实数据吧，绝大部分数据都是合成数据。所谓合成数据呢，就是由其他大模型生成的数据。他通过一定的策略，要求其他大模型去给他吐数据出来，然后拿这个模型去训练。</p>



<p>Grok 3一旦使用了合同数据的话，会不断的说自己是Grok 2，或者说自己遵守open AI标准。这个事情你就避免不了，因为是用别的模型生成的数据嘛。虽然XAI说我们在生成数据的过程中呢，我们还进行了反复的检查，有错误都给去处理掉了，但是他不断的说自己是Grok2，说自己是遵守open AI的安全准则，这件事来说呢清洗的还不够干净。</p>



<p>Grok3呢，应该只做了很少的对齐和测试，就扔出来了。后面呢，是准备快速迭代的。你如果现在去问Grok3，或者是问open AI的话，他们都会告诉你说，Grok3本身呢安全性还是不错的。但是有一点是不可否认的，他训练完成一个月就发布了，训练完了以后，只是在XAI内部测试了两周，就直接把产品扔出来了。这个是挺难以想象的，因为像open AI这样的这种模型，它每一次训练完了以后，可能后边都是需要用年为单位去进行对抗测试，或者说进行调整，然后才敢把这东西放出来。现在XAI就是我这边训练完了，我就把它扔出来了。</p>



<p>而现在呢，对外公布的是，Grok呢是通过思维列进行道德商值评测，就是它等于是一个思考过程吧。那我在思考的时候，我就把所有的输入输出的信息，进行道德商值的加权平均，或者说做一个加权复合吧，做一个这样的这个分数出来。如果这个分数达到一定的阈值以后，就禁止回答了。他大概是用通过这种方式来去工作的。</p>



<p>但是呢，并没有进行大规模的真人对抗测试。当然了，这个东西你说以后是不是都需要像OpenAI这么干呢？不好说。OpenAI现在还没有特别大的问题，但是谷歌就属于有点走火入魔了，直接被忽悠瘸了那种，就是画出黑人华盛顿那样的，这个就属于忽悠瘸了。未来可能大家都会去像XAI这样往前走。其实像DeepSeek也是这样，它从2.5到3.0之间的发布，也是大概一个多月或者一个月左右的时间就扔出来了，所以都不会做特别详细的或者长时间的这种真人对抗。未来可能都是通过逻辑的方式，让模型的安全性达到一个可以接受的程度就完了。我不保证这东西绝对安全，大家凑合使就可以了。我在不进行严格测试的情况下，不断地去迭代，这个其实才是DeepSeek也好，像Grok也好，最大的一个优势。每个小时都在改进和升级，全世界都在开发新的算法和架构嘛。马斯克有20万张卡，就可以把所有的这些公开的信息都在我这20万张卡里头去试一下。别人只能进行小规模测试的时候，XAI就可以进行全量测试，甚至我可以在你原来的数据基础上，用两三倍或者更大的数据集进行测试，得到一个世界上最聪明的大模型。所以我说这个就像中国世界工厂的工作方式是一模一样的。</p>



<p>那么XAI的下一步会是什么样呢？应该是会通过快速迭代，把当前的模型整个先稳定下来。现在已经可能是世界上最聪明的模型了，咱们就相信马斯克说的吧。但是呢，这个世界上最聪明的模型还经常会胡说八道。当它的模型彻底稳定下来，基本上可以达到可用的状态以后，下一步其实呢都是流量大战。这些人去搞C端估计应该是比较难，因为就100来口子人吧。最新的模型不开源，你去在B端竞争的话，也是有一定难度的。你比如说我现在一个公司里边需要去部署大模型了，那我不能去部署Grok 2吧，我肯定是部署DeepSeek V3或者DeepSeek R1这样的模型。</p>



<p>因为这是当前开源的最好模型，所以在这一块儿的竞争上也会有一些难度。那么，XAI的策略应该是依靠不断的快速迭代更新，始终保持自己是世界上最聪明的模型，这样的一个位置，吸引部分B端和C端的用户加入进来。自己虽然是有一定的流量，但是X自己的流量对于XAI来说应该是不够的，因为Open AI已经花费1,400万美金打超级碗广告了。所以，现在的AI行业已经进入了一个流量争夺的时代。在这个时候，可以靠产品好，靠模型最聪明，吸引一部分用户进来。像DeepSeek美国排行榜排第一，就是因为模型好，不是因为其他任何原因。他也没有那么多钱去烧这个流量去，他也不可能花1,400万美金去砸超级碗。XAI可能以后也只能是向这个方向走了。后面的路其实并不明朗，怎么依靠XAI把这个钱挣回来，现在还不清楚，还要等马斯克脑筋急转弯，让大家眼前一亮。</p>



<p>好，这就是我们今天讲的XAI的Grok 3大模型，到底是不是世界上最聪明的模型？暴力真的可以出奇迹吗？感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
