<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>国产大模型 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%e5%9b%bd%e4%ba%a7%e5%a4%a7%e6%a8%a1%e5%9e%8b/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Wed, 11 Feb 2026 00:36:59 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=7.0</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>国产大模型 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>DeepSeek开创的风俗，春节中国模型大爆发？</title>
		<link>https://lukefan.com/2026/02/11/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/</link>
		
		<dc:creator><![CDATA[老范 讲故事]]></dc:creator>
		<pubDate>Wed, 11 Feb 2026 00:36:57 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[中国故事]]></category>
		<category><![CDATA[AI智能体]]></category>
		<category><![CDATA[DeepSeek]]></category>
		<category><![CDATA[Kimi 2.5]]></category>
		<category><![CDATA[Pony Alpha]]></category>
		<category><![CDATA[原生VRM设计]]></category>
		<category><![CDATA[国产大模型]]></category>
		<category><![CDATA[多模态大模型]]></category>
		<category><![CDATA[春节AI大战]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=3484</guid>

					<description><![CDATA[还在为昂贵的Claude和GPT订阅费发愁？春节前夕国产AI大模型集体爆发！**Kimi 2.5**不仅免费送额度，更在视觉编程上吊打Gemini；神秘模型**Pony Alpha**横空出世屠榜OpenRouter。本期视频带你盘点这场“围剿”OpenAI的科技盛宴，揭秘中国大模型厂商如何通过价格战和技术迭代重新定义AI市场。

我们将深入解析**字节跳动Seedream 5.0**的生图黑科技、**阿里通义千问3.5**的架构升级，以及**智谱GLM5**是否就是导致股价暴涨的幕后推手。中国AI厂商正通过混合注意力机制和原生VRM设计，将大模型竞争带入“卷应用、卷速度”的烤鱼模式，传说中的**Deepseek V4**会在春节突袭吗？海外厂商GPT 5.3又将如何应对？

想要第一时间抓住这波免费AI红利？立即点击订阅，开启小铃铛，加入我们的Discord社群获取最新模型评测与搞钱资讯！

#Kimi2.5 #Deepseek #PonyAlpha #国产大模型 #AI资讯]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="DeepSeek开创的风俗，春节中国模型大爆发？" width="900" height="506" src="https://www.youtube.com/embed/j5qM56q1vKg?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/blog_1.jpeg" alt="中国春节的热闹街景，舞狮队伍中的狮子由精密的电路板和发光芯片组成，象征科技与传统的融合，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">春节临近，中国各大模型厂商都憋着劲要刷屏，要上大分。</p>



<p class="wp-block-paragraph">大家好，欢迎收听<a href="https://youtube.com/@StoryTellerFan" target="_blank" rel="noopener">老范讲故事的YouTube频道</a>。还记得去年春节吗？<strong>Deepseek</strong>给大家留下了极其深刻的印象，干崩了<strong>英伟达</strong>的股价，这个真的是非常非常不容易的。而且Deepseek发布之后，整个大模型的竞争就进入了下一个阶段。在Deepseek发布之前，大家还在看着<strong>OpenAI</strong>在这里优雅的表演各种的杂技；Deepseek发布以后，那大家就直接疯掉了。可以说是一石激起千层浪，所有人都在快速的迭代，快速的去推进各种各样的新模型。去年Deepseek R1的发布，不是说给了大家一个多么强的模型，而是把英伟达和OpenAI彻底拉下了神坛。</p>



<p class="wp-block-paragraph">今天的故事分几块来讲：</p>



<ul class="wp-block-list">
<li>第一个，<strong>Kimi 2.5</strong>的爆火；</li>



<li>第二个，<strong>字节跳动</strong>准备了大餐；</li>



<li>第三个，<strong>阿里千问3.5</strong>已经箭在弦上了；</li>



<li>再往后，<strong>Pony阿尔法</strong>到底是谁家的还不知道，但是<strong>智谱</strong>的股票已经涨疯了；</li>



<li>然后，<strong>Deepseek</strong>江湖上永远的传说；</li>



<li>海外模型厂商也都没闲着，他们也在努力准备应接我们的突袭。</li>
</ul>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/blog_2.jpeg" alt="一个深海潜水员手持发光的探照灯，照亮了海底巨大的沉船，沉船上散落着英伟达显卡和OpenAI的标志，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<span id="more-3484"></span>



<h2 class="wp-block-heading">Kimi 2.5 的爆火与霸榜</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/blog_3.jpeg" alt="一个精密的机械蜂巢结构，无数只微型机械蜜蜂正在协同工作构建一座高塔，象征Kimi的蜂群架构和高效并行，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">首先我们来讲<strong>Kimi 2.5</strong>。因为<strong>Openclawd</strong>爆火（Openclawd就是现在这个大龙虾），正是火的时候，那Kimi 2.5跟它有什么关系？首先，Kimi 2.5是在<strong>OpenRouter</strong>上多个核心榜单直接刷屏，跑到榜首去了；Openclawd调用榜也是榜首。OpenRouter也好，Openclawd也好，他们都会去统计各个大模型在我们这个平台上，或者在我们这个系统上到底消耗了多少TOKEN。这两个平台消耗TOKEN最高的都是Kimi 2.5。最近一周在OpenRouter里头消耗了<strong>1.16万亿TOKEN</strong>，比第二名Gemini 3 Flash多出了50%以上。</p>



<p class="wp-block-paragraph">这个Kimi 2.5首先是多模态能力顶尖，原生支持图文和视频输入，编码与视觉结合能力突出。在<strong>Design Arena</strong>的评测中击败了Gemini 3 Pro和Claude，取得了第一。就是你可以输入图片了，你做应用的视觉设计的时候效果非常好，很有美感。因为我们现在都在做vibe coding，都用AI去编程，那编完了程序以后，你这个界面长得好不好看，就是大家追求的下一件事了，而Kimi 2.5在这一点上比Claude、比Gemini都要强。</p>



<p class="wp-block-paragraph">下一个逆天的地方就是智能体的能力逆天了：</p>



<ul class="wp-block-list">
<li>内置了<strong>agent Swarm</strong>（叫蜂群架构），可自组织最多约100个子智能体并行执行任务，效果提升达到了4.5倍。现在大家都在看怎么在智能体里跑得更快一些，他说我干脆在里头并行调用就好了。</li>



<li>长上下文支持<strong>256k上下文窗口</strong>，现在这个是基本的。</li>



<li>工具调用极其精准，大模型调用工具就是我们先向大模型描述一堆工具，我们有这些工具，然后它会根据需要去调用。这个里头就会有一个调用的精不精准了，明明有工具在这儿，结果你没调，自己去编了，有些模型原来就会干这样的事情，而Kimi 2.5在这块已经都解决的很好了。</li>
</ul>



<p class="wp-block-paragraph">而且Kimi 2.5直接给了Openclawd<strong>免费的额度</strong>，你在这个额度之内都不要钱，那么就被Openclawd官方推荐了。Kimi也就是<strong>Moonshot</strong>（这公司叫月之暗面嘛），他们最擅长的事情就是烧钱打广告。原来是花了好多钱，现在我也不花钱打广告了，我直接把模型做好了，我给你送额度就完事了，实际上也是在烧钱嘛。它的API成本极低，开源的模型，他们的API成本要比Anthropic的、比谷歌的、比OpenAI都要便宜非常非常多。而且这个模型是<strong>开源可商用</strong>的，大家谁愿意用谁自己下载去用去。在这种情况下，你基本上可以把它认为是一种田忌赛马式的胜利。就是我们的模型可能未必在整体上比Claude、比Gemini、比OpenAI的GPT要强，但是已经达到了大差不差的状态，还便宜哈。那这样的一个情况下，肯定是会受到很多人欢迎的。Kimi 2.5是已经发布了，在春节前已经把该干的活干完了。</p>



<h2 class="wp-block-heading">字节跳动的“大餐”：SEEDANCE 与 SEEDREAM</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/blog_4.jpeg" alt="一张豪华的宴会餐桌，盘子里装的不是食物而是全息投影的像素块和流动的视频流，背景是冒着烟的服务器机柜，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">字节跳动这是准备上大分的。昨天刚刚被<strong>SEEDANCE 2.0</strong>刷屏了，今天SEEDANCE 2.0惨遭阉割。你们昨天玩太嗨了吧？今天告诉大家说不允许再去用真人的形象去做了，这个容易出事。而且今天Seedance 2.0的服务器直接被挤爆了，我刚才去生成了一条，效果变得极差，各种的要求也没有实现，而且等了大概接近一个小时才完成，就太多人冲上去了。在新的AI时代，不是要你花钱去买流量，你只要把模型做好了，直接就会有人冲上来把你的服务器挤爆。</p>



<h3 class="wp-block-heading">Seedream 5.0 的新特性</h3>



<p class="wp-block-paragraph"><strong>Seedream 5.0</strong>据说马上要发布，有可能今天发布，有可能明天发布。它已经出现在了即梦最新的APP update release这个文件里头。这个模型是个生图的模型，据说是与Seedance 2.0共用的核心。主要更新如下：</p>



<ul class="wp-block-list">
<li><strong>实现检索生图能力：</strong>原来你说我想画一个保时捷的911，或者我想画一个比如比亚迪的大鲨鱼（比亚迪鲨鲨鱼是一个电动皮卡），以前你如果没有训练过，它就不会去引用图片，就它就不知道这车长什么样。现在的话你说了这样的词以后，它会先去搜索；搜索完了以后，找到相应的图片，你要画什么东西，我保证画的像，它会参考搜索回来的图片。像原来我们使用比如Nano Banana，你必须要提供这个图片，我要求画的像这个，他才给你画。而以后的话Seedream 5.0，你要求画什么东西，先去搜索，搜索完了以后引用。</li>



<li><strong>提示词理解升级：</strong>强化了抽象概念，比如说“静谧的科技感”，就这种很抽象的东西，他现在都可以很好的理解了。可以进行复杂的指令解析，支持多轮的细节调整。</li>



<li><strong>输出增强：</strong>支持2k输出、4K输出，而且还可以做AI的增强输出，文字渲染清晰度提升了40%。现在Nano Banana也好，Seedream也好，他们现在都在尝试怎么能够把一整篇的小字都写清楚。现在大家上Nano Banana Pro，你去写一整篇字的时候，如果字很密的话，是会出很多错误的，特别是写中文。在这一点上，Seedream 5.0准备继续增强。</li>



<li><strong>增加美学提升：</strong>为什么要做美学提升？因为我们经常让这些图像生成模型的一次出一个完整的PPT，或者出一个完整的海报，有图有文，而且有很多字。原来是没有什么美感的，现在的话可以自动化做海报的布局、字体的搭配、颜色的协调，它可以把这些东西都做好，不像以前我画的很多封面似的那么突兀了。很期待这个模型尽快上线。</li>



<li><strong>模态融合：</strong>与Seedance 2.0打通，支持视频帧提取和图像风格迁移。原来你必须要上传一个图片，现在你可以上传一个视频给他，说“请根据哪一帧去给我生成什么什么图片”，或者你“请根据整个视频里的一个什么样的风格去给我生成图片”。这个是SEEDREAM 5.0的有可能会发布的一些新特性。</li>
</ul>



<h3 class="wp-block-heading">豆包 SEED 2.0</h3>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/blog_5.jpeg" alt="一个巨大的豆包被切开，内部不是馅料而是复杂的齿轮和微缩的专家团队在工作，象征MOE混合专家模型架构，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph"><strong>豆包的SEED 2.0</strong>应该也在路上了。字节跳动他们家所有的模型都是Seed开头的：豆包模型叫豆包SEED，生图片的模型叫Seedream，生视频的模型叫Seedance。现在这个豆包2.0的模型泄露出来的信息还不是很多，据说是极超大参数规模的<strong>Moe（就是混合专家模型）</strong>，也是做了多模态融合。至于这个模型是不是有机会在春节期间发布的话，就不太好说了。这是字节的情况。</p>



<h2 class="wp-block-heading">阿里千问 3.5：箭在弦上</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/blog_6.jpeg" alt="一个身穿古代侠客长袍的机器人，左手拿着一杯珍珠奶茶，右手正在快速处理悬浮在空中的复杂代码卷轴，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">下面是阿里千问。<strong>通义千问3.5</strong>的蛛丝马迹已经出来了，他们刚刚发了1,000万杯奶茶，在国内打红包大战发奶茶。在<strong>Hugging Face</strong>上有一个Transformer的文档，就是在Hugging Face上有哪些哪些模型、这个模型怎么去接，这个文档上已经出现了<strong>“千问3.5 9B instruct”</strong>的字样，就是这个模型已经写在上面了。它具备以下特点：</p>



<ul class="wp-block-list">
<li><strong>混合注意力机制：</strong>结合局部注意力与全局注意力优势，简单任务快速响应，复杂任务深度思考，推理效率提升了约30%到40%。</li>



<li><strong>原生的VRM设计：</strong>现在新的模型都在走这条路，从Gemini 3开始都是走原生VRM设计。以前千问3还是外挂的视觉模块，而千问3.5将视觉理解能力内置于基座模型，图文联合理解准确率预计能够提升25%以上。Kimi 2.5应该也是原生VRM的设计，如果豆包Seed 2.0发布的话，应该也是这种原生VRM的这个模型，大家都是照着一条路走就可以了。</li>



<li><strong>A3B MOE优化：</strong>这是它的一个架构，延续了千问3高效稀疏架构，激活参数利用率提升，推理成本降低20%到30%，同时保持接近32B密集模型的一个性能，就是他把9B的模型让你达到32B的这个效果。</li>



<li><strong>能力全面强化：</strong>推理能力强化，代码能力提升，工具调用能力增强，多语言拓展，更多的小语种。大家要注意，很多的这种小语种国家会喜欢使用千问的开源模型，那么他们就投其所好。</li>
</ul>



<h2 class="wp-block-heading">神秘的 Pony Alpha：智谱的逆袭？</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/blog_7.jpeg" alt="一匹神秘的机械独角兽从迷雾中走出，身上闪烁着代码光芒，马蹄踩在不断上涨的股票K线图上，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">下一个叫<strong>Pony Alpha（小马阿尔法）</strong>。不知道是谁家的，但是<strong>智谱</strong>的股票已经先涨为敬了。2月6日在<strong>OpenRouter</strong>上直接屠榜了，隐身模式低调上线，没有发布会，没有论文，没有公开的厂商信息。单日处理了<strong>40亿TOKEN</strong>，接收了20.6万请求，完全免费开放，却实现了Opus级的智能表现，成为平台首个同时在编程、智能体、工作流、推理角色扮演四大领域屠榜的模型，就是非常非常强。</p>



<h3 class="wp-block-heading">Pony Alpha 到底是谁？</h3>



<p class="wp-block-paragraph">首先大家猜测的是<strong>智谱GLM5</strong>。因为现在智谱已经发出来的模型是GLM4.7以及GLM4.7 Flash（要比4.7要稍微快一些），最近正好应该发GLM5了，大家猜它的原因是时间吻合。智谱官宣两周内发布GLM5，技术路线基本一致，专注代码与agent能力，这就是智谱的技术路线，内部也发了信做佐证。智谱的老大叫唐杰，1月8号已经透露了GLM5准备发布了。官方并没有正式承认这件事。因为模型的自称是Claude，因为很多人也在猜说智谱应该是拿Claude模型去蒸馏了，但是智谱到今天也没有出来辟谣。如果谁家的股票发生异常波动的话，它应该是出来要辟谣的，说“这个对不起不是我”，但是他也没出来辟谣，所以大家猜可能还是他。</p>



<p class="wp-block-paragraph">第二个猜测有可能是<strong>Deepseek V4</strong>。因为有些人猜测Deepseek V4可能会在春节期间发布，代码能力风格也有点相似，Pony与马年谐音，所以大家觉得有可能是它。但是并没有发现Deepseek相关的技术特征。</p>



<p class="wp-block-paragraph">现在也有人猜说这东西有没有可能是<strong>Claude 5</strong>，因为Claude刚出的4.6，这个模型曾经在追问中承认是Claude，但是到底是不是这个不太确定，因为只有这一个证据。</p>



<h3 class="wp-block-heading">模型能力与市场反应</h3>



<p class="wp-block-paragraph">这个模型到底有多强？</p>



<ul class="wp-block-list">
<li><strong>架构升级：</strong>采用混合注意力机制，激活参数利用率提升了30%，推理成本降低了25%。</li>



<li><strong>能力表现：</strong>代码能力确实是非常非常强。智能体也绝对是能力提升了，工具调用准确率是<strong>99.2%</strong>，能够自主规划复杂的工作流程，减少人工干预。</li>



<li><strong>上下文：</strong>已经可以超过256K了，要比256K还要再长一些，长文本理解和摘要能力显著提升。</li>
</ul>



<p class="wp-block-paragraph">2月9日智谱香港的股票单日涨了36.22%，2月10日盘中再涨了20%，市值达到了1,500亿港币。到目前为止智谱并没有出来辟谣，如果不是他的话，应该已经开始出来辟谣了。别人信不信不重要，股市已经相信了Pony阿尔法就是智谱的GLM5。</p>



<h2 class="wp-block-heading">Deepseek 与海外厂商动态</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/blog_8.jpeg" alt="一张巨大的世界地图棋盘，左侧是代表中国科技力量的机械龙，右侧是西方科技巨头的火箭和机器人，双方正在对峙，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph"><strong>Deepseek</strong>江湖上一直有它的传言，很多权威媒体，包括像路透什么这样的媒体都在猜测，春节前后Deepseek会不会发V4版本出来。这个公司一直很低调，最近在努力的招聘、在扩招，但是到底能不能出东西，谁也不知道。</p>



<p class="wp-block-paragraph"><strong>海外模型厂商</strong>其实也没闲着，去年Deepseek R1出来，算是打了大家一个措手不及。现在海外厂商说我们不能再干这种活了，都要准备一点弹药，如果中国大模型厂商在春节期间炸场，我们一定要有东西可以应对：</p>



<ul class="wp-block-list">
<li><strong>Gemini 3 GA版：</strong>这几天有可能会发布。说Gemini 3不都发布了挺长时间了吗？但是注意，咱们使用的Gemini 3的模型后边都是有Preview这个单词的，它都是预览版，并没有真正发正式版，GA应该叫general availability，叫正式发布版，这个版本很快就要上线了。</li>



<li><strong>GPT 5.3：</strong>这个版本应该也在路上了。现在不是已经发了GPT 5.3了吗？大家注意，现在发的是GPT 5.2和GPT 5.3 Codex，这个版本是专门给Codex用的，就是专门编程用的，给大众使用的GPT 5.3并没有发布。但是既然5.3 Codex发布了，那么给大众使用的5.3应该已经在路上了。</li>



<li><strong>GROK 4.2：</strong>这个江湖传言也一直都有。特别是有传闻说GROK 4.2在韩国打魔兽争霸还是打什么游戏，已经在屠榜了，但是现在这个事并没有得到证实。现在GROK 4.2也在参加各种各样的赚钱比赛，前面不是曾经有人组织过这种赚钱炒币炒股的比赛吗？当时的GROK 4.0惨败了，现在GROK 4.2好像是在各种的赚钱比赛上都是夺得头筹，而且每一次有人发布了GROK 4.2在这个赚钱比赛上怎么怎么样了，马斯克马上会转发，所以GROK 4.2应该距离我们也不远了。</li>
</ul>



<h2 class="wp-block-heading">总结：大模型竞争进入“中国节奏”</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/blog_9.jpeg" alt="一条古色古香的中国街道，街道两旁挂满了灯笼，所有的店铺都在售卖同一种发光的科技“烤鱼”，象征技术同质化和快速复制，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">春节（也就是Chinese New Year）都将是大模型厂商集体发疯的时间点。就是从去年开始，以后可能这个风俗习惯会保留下来，大模型的竞争也进入了中国人擅长的节奏。真正卷数学、卷科技这件事了，咱们可能未必擅长，但是中国人擅长什么？</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow">
<p class="wp-block-paragraph">举个例子，如果街头突然有一家饭馆做的烤鱼特别好吃，那么会发生什么？一周之后整条街所有的饭馆都在做烤鱼。这个东西不用特别复杂，大家做的也都大差不差，稍微有一些区别，但是也都能做出烤鱼来，这就是咱们擅长干的活。</p>
</blockquote>



<p class="wp-block-paragraph">所以这一波大模型大家都在卷什么？</p>



<ul class="wp-block-list">
<li><strong>混合注意力</strong>（就是复杂的事情多想想，简单的事情少想想）；</li>



<li><strong>VRM统一大模型</strong>（直接像Gemini 3那样把视觉这一部分送到这个大模型里头，直接去训练进去，而不是像以前这样外挂视觉模型）；</li>



<li><strong>编程能力提升</strong>、<strong>智能体能力提升</strong>、<strong>256K上下文</strong>，这就是咱们现在大家都在卷的东西。</li>



<li>在AI agent里面，不需要大模型有多聪明，都是开卷考试，他只要知道到时候该翻哪本书就可以了。指令依存度提高，降低幻觉，这个就是这一波大模型都在卷的东西。</li>
</ul>



<p class="wp-block-paragraph">这一次春节大家拿出来的模型应该都是符合这些要求的，剩下的就是卷价格就完事了呗。你也不需要有什么特色了，所以说这就落入了中国人比较擅长的领域里头。</p>



<p class="wp-block-paragraph">最后，今年的春节应该不会无聊，应该会有很多很多新的模型，很多新的产品可以跟大家去讲。好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加<a href="https://discord.gg/ppKsNkttTv" target="_blank" rel="noopener">DISCORD讨论群</a>，也欢迎有兴趣有能力的朋友加入我们的<a href="https://www.youtube.com/channel/UCUGLhcs3-3y_yhZZsgRzrzw/join" target="_blank" rel="noopener">付费频道</a>，再见。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<h2 class="wp-block-heading">背景图片</h2>



<p class="wp-block-paragraph">Prompt：<strong>Chinese New Year’s Eve dinner table scene with no people, cozy home dining room interior, a round table packed with traditional dishes (dumplings, whole steamed fish, hotpot, spring rolls, nian gao, tangerines), red lanterns, red paper cutouts, knot ornaments, red couplet papers with abstract brush strokes (no readable text), warm tungsten glow, steam rising from food, hand-drawn animated film vibe, watercolor and gouache background, pencil + ink linework, visible paper grain, soft bloom, cinematic wide establishing shot, eye-level, rule of thirds, clear subject-background separation, window shows night sky fireworks bursting outside, high contrast, rich saturated reds and warm golds balanced with deep ink blues &#8211;v 7.0 &#8211;ar 16:9 &#8211;stylize 180 &#8211;chaos 5 &#8211;no people, person, humans, faces, hands, silhouettes, crowd, readable text, gibberish text blocks, watermark, logo, signature, photorealism, 3d render, blurry, lowres &#8211;p lh4so59</strong></p>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/background_1.jpeg" alt=""/></figure>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/background_2.jpeg" alt=""/></figure>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/background_3.jpeg" alt=""/></figure>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/china-llm-boom-pre-spring-festival-kimi-bytedance-alibaba/background_4.jpeg" alt=""/></figure>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA</title>
		<link>https://lukefan.com/2025/12/05/deepseek-v3-2-dsa-leading-tech-gaps-analysis/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Fri, 05 Dec 2025 01:06:50 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[DeepSeek大模型]]></category>
		<category><![CDATA[AI Agent]]></category>
		<category><![CDATA[AI应用成本]]></category>
		<category><![CDATA[AI模型评测]]></category>
		<category><![CDATA[API降价]]></category>
		<category><![CDATA[DeepSeek V3.2]]></category>
		<category><![CDATA[DeepSeek V3.2 Special]]></category>
		<category><![CDATA[DeepSeek V3.2技术解析]]></category>
		<category><![CDATA[DeepSeek稀疏注意力]]></category>
		<category><![CDATA[DSA算法]]></category>
		<category><![CDATA[Gemini 3 Pro]]></category>
		<category><![CDATA[GPT-5.1]]></category>
		<category><![CDATA[SGLANG]]></category>
		<category><![CDATA[VLLM]]></category>
		<category><![CDATA[国产大模型]]></category>
		<category><![CDATA[国产算力]]></category>
		<category><![CDATA[大模型发展趋势]]></category>
		<category><![CDATA[大语言模型]]></category>
		<category><![CDATA[开源AI模型]]></category>
		<category><![CDATA[推理效率优化]]></category>
		<category><![CDATA[数学推理模型]]></category>
		<category><![CDATA[深度求索]]></category>
		<category><![CDATA[稀疏注意力]]></category>
		<category><![CDATA[长上下文处理]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=3095</guid>

					<description><![CDATA[家人们！Deepseek V3.2 12月1号闪亮登场✨ 但R2呢？失踪人口坐实了！😂 哥们儿等了一整年，结果等来个“缝补打工人”——V3.2？纯纯的V3老底子加补丁！

重点来了‼️ DSA算法直接让成本腰斩💸 输入100万token才2块钱，比一杯奶茶还便宜🥤！实测API便宜到哭，但special版？数学界Rain Man💧——解题666，聊天只会“啊？”，社交废柴实锤（还限时12月15号！跑分王者？实战寄了😭）。

真·遥遥领先的是啥？DSA全开源‼️代码论文白给，不像美帝抠搜“不能商用”🙅‍♂️ 国产云连夜0day支持，但训模型还得跪舔英伟达😭（清醒点！基础模型该重训了）

进步了，别吹上天！这波降本增效+开源精神，值得一个赞👍 同意的扣1，不服来Battle！💥 #AI黑科技 #国产之光 #科技宅的浪漫


标题1：Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DeepSeek Sparse Attention (DSA)、Reasoning、Open Source AI
标题2：Deepseek V3.2 vs GPT-5：看似反超，实则“麻袋片绣花”？DSA降本50%难掩架构硬伤，真能撼动Gemini 3.0 Pro？｜DeepSeek-V3.2、AI Model Benchmarks、Gemini 3.0 Pro、GPT-5
标题3：别只看跑分！Deepseek V3.2最大贡献是DSA算法，API成本直降50%，这才是真正的推理效率革命｜DeepSeek-V3.2、DeepSeek Sparse Attention (DSA)、Inference Efficiency、LLM技术分析
标题4：英伟达警报拉响？Deepseek V3.2的DSA算法完全开源，LLM推理成本普降50%，国产算力要躺赢了？｜DeepSeek-V3.2、DeepSeek Sparse Attention (DSA)、Open Source AI、Inference Efficiency
标题5：深度拆解：Deepseek V3.2领先的是算法而非模型，Special版跑分神话背后，DSA技术才是真正王牌｜DeepSeek-V3.2、DeepSeek Sparse Attention (DSA)、Reasoning、AI Model Benchmarks
简介：DeepSeek-V3.2发布引发热议，但其“遥遥领先”的真相远比跑分复杂。本次更新的核心是革命性的开源技术DeepSeek Sparse Attention (DSA)，它将API成本砍半，极大提升了推理效率。然而，模型本身仍基于旧架构，其惊人的AI Model Benchmarks主要来自一个无法泛用的“特化版”。与Gemini 3.0 Pro等新一代模型相比，V3.2在降本增效上取得突破，但在基础模型创新上仍有差距。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA" width="900" height="506" src="https://www.youtube.com/embed/5hgwZf-tYAw?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_1.JPEG" alt=""/></figure>



<h1 class="wp-block-heading">Deepseek V3.2，12月1号发布了。是不是又遥遥领先了呢？</h1>



<p class="wp-block-paragraph">大家好，欢迎收听<a href="https://youtube.com/@StoryTellerFan" target="_blank" rel="noopener">老范讲故事的YouTube频道</a>。</p>



<p class="wp-block-paragraph">Deepseek V3.2的发布应该是12月1日。我们始终没有等来心心念念的Deepseek R2。在今年春节的时候，深度求索突然发布了Deepseek R1，算是扔下了一颗深水炸弹，把整个AI圈都震动了，甚至还造成了英伟达股价的闪崩——一段时间内闪崩吧。甚至老黄都跑出来喊，说：“Deepseek发布对我是利好，你们不要卖英伟达的股票。”大家就一直等着这个R1，既然这么厉害，咱们上R2。但是等了这么久，都没有等来R2。</p>



<h2 class="wp-block-heading">Deepseek V系列版本回顾</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_2.JPEG" alt=""/></figure>



<p class="wp-block-paragraph">下面呢，我们来捋一下Deepseek V系列的版本到底是怎么样的一个发布过程。</p>



<ul class="wp-block-list">
<li><strong>Deepseek V3 (去年12月26日发布):</strong> 这是非常非常重要的一个版本。实际上我们后面看到的所有版本，包括R1，都是在Deepseek V3的基础上进行微调、进行蒸馏、进行强化学习。今天发布的Deepseek V3.2，也依然是在这个版本的基础上做出来的。</li>



<li><strong>Deepseek V3-0324 (3月24日发布):</strong> 主要是在专项能力上做了一些增强，比如说编代码或者写文章。</li>



<li><strong>Deepseek V3.1 (8月21日发布):</strong> 主要是工程化和智能体方面做了增强。因为当时大家都要去做AI agent，而之前的版本在AI agent这一块都比较弱。</li>



<li><strong>Deepseek V3.1 Terminals (9月22日发布):</strong> 这个版本叫V3.1的终极版，实际上是对V3.1做了一些修复和精调，并告知这是V3.1的最终版本。</li>



<li><strong>V3.2 EXP (9月29日发布):</strong> 一个实验版本，在V3.1终极版的基础上加入了DSA技术。最主要的变化是降价，直接把API调用的价格砍了一半。</li>



<li><strong>Deepseek OCR (10月20日发布):</strong> 一个很小的模型（约6G），用于图片解释，效果很好。</li>



<li><strong>maths VR (11月27日发布):</strong> 专门做数学推理和数学证明的一个版本，在各种数学题测试中评分非常高。</li>



<li><strong>Deepseek V3.2 正式版 &amp; V3.2 special 特别版 (12月1号发布):</strong> 本次发布的主角。</li>
</ul>



<span id="more-3095"></span>



<h2 class="wp-block-heading">V3.2，是不是遥遥领先了呢？</h2>



<p class="wp-block-paragraph">那么这一次的V3.2，是不是遥遥领先了呢？各种评测数据确实非常亮眼，但是呢，我们要看到它的评测数据里头实际上是有两个数值的。一个数值呢是Deepseek V3.2做出来的，一个数值呢，是Deepseek V3.2 special做出来的。</p>



<p class="wp-block-paragraph">它的Deepseek 3.2 special这个版本，确实是比Gemini 3 Pro、GPT5.1都要强，但是我们大部分人，实际上没有办法去使用这个V3.2 special。它这个正式版的V3.2呢，属于是接近了GPT-5.1的水平，各项评分都很近，有个别的超过吧，大部分呢跟GPT-5.1很近的一个位置。</p>



<p class="wp-block-paragraph">甚至呢，还有人出来讲，说GPT到现在3周岁了，现在Deepseek反超回来了。很多人就讲说GPT被Deepseek吓到了，其实跟Deepseek没关系，主要是被谷歌吓到了。</p>



<h3 class="wp-block-heading">V3.2 Special：一个跑分工具？</h3>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_3.JPEG" alt=""/></figure>



<p class="wp-block-paragraph">你说V3.2的special版本的评分，不是已经超越了GPT-5.1和Gemini 3 Pro了吗？你怎么还说跟国外有差距呢？首先要注意，V3.2 special是一个基本上没法用的版本。为什么呢？</p>



<p class="wp-block-paragraph">就是它的推理、它的运算确实非常强，但是呢，它在工具调用、AI agent的使用这一块都不能用，因为它就是会解数学题，它是一个偏科天才，除了写数学题之外，他啥也搞不了。所以呢，他做各种的评测分数很高，但是你实际使用他，你是没法使的。</p>



<p class="wp-block-paragraph">而且Deepseek V3.2 special这个版本只能用到12月15号，在这之后这个接口就直接废掉了。所以那个产品就是跑分用的，不是给大家用的。发布V3.2 special呢，也是有一点点赶鸭子上架。当然有很多人说，这个就是Deepseek R2了。</p>



<h2 class="wp-block-heading">V3.2的核心技术：DSA算法</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_4.JPEG" alt=""/></figure>



<p class="wp-block-paragraph">那么V3.2到底是怎么训练出来的呢？实际上Deepseek V3.2，是在Deepseek V3.1 Terminals这个基础上进行的继续训练，基础大模型没变。这个里边最关键的特性，就是降本增效。</p>



<h3 class="wp-block-heading">降本：Deepseek稀疏注意力算法 (DSA)</h3>



<p class="wp-block-paragraph">它直接把成本对半砍，就是降50%的API调用成本。里边呢，使用了一个叫DSA的算法，Deepseek稀疏注意力算法。通过一个叫闪电索引的功能，它不是对文本里边的所有词进行运算和匹配，而是先评估哪一块比较重要，哪一块不太重要，我们把重要的部分拿去做下一步，不重要的部分直接扔了。通过这种方式呢，它极大的降低了长上下文的处理成本。</p>



<p class="wp-block-paragraph">长上下文是必须的，因为AI agent需要调用工具、搜索、使用本地知识库。所以只能在长上下文的基础上想办法去降低成本。</p>



<h3 class="wp-block-heading">增效：与V3.1对齐并强化</h3>



<p class="wp-block-paragraph">在实现了DSA的算法之后，它还要跟Deepseek V3.1 Terminals这个最终版进行对齐，确保性能不能退步。这就是这一次V3.2在V3.2 EXP的基础上做的一个很重要的更新。</p>



<p class="wp-block-paragraph">所以呢，9月29号V3.2 EXP，第一件事是先把价格打下来：</p>



<ul class="wp-block-list">
<li><strong>输入 (缓存不命中):</strong> 100万TOKEN两块钱人民币。</li>



<li><strong>输入 (缓存命中):</strong> 100万TOKEN是两毛钱。</li>



<li><strong>输出:</strong> 100万TOKEN只需要3元人民币。</li>
</ul>



<p class="wp-block-paragraph">这个价格要比我们现在能看到的各种轻量级模型都要便宜很多。</p>



<p class="wp-block-paragraph">在发布这个版本之后呢，进行了大规模特定目标的强化学习，主要学很难解答但很容易验证的问题，特别是针对智能体（AI agent）进行数据训练。在这样的一个基础上，就得到了12月1号所发布的V3.2正式版。</p>



<h3 class="wp-block-heading">V3.2 Special的由来</h3>



<p class="wp-block-paragraph">它呢，是在V3.2 EXP base的这个基础上，拿着前面我们讲的，专门做数学题证明的maths VR这个版本去做后续的训练。V3.2 special实际上就是V3.2 EXP base这个版本加上maths V2这个版本合成的一个版本。所以它特别擅长做数学题、做各种长推理，但其他方面能力很弱。</p>



<h2 class="wp-block-heading">真正的领先之处：开源贡献</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_5.JPEG" alt=""/></figure>



<p class="wp-block-paragraph">我们现在所说的领先，是真正做出来的这些改变、这些创新，对于整个行业是不是有贡献。Deepseek R1对于整个行业是有巨大贡献的。而这一次的DSA确实是非常先进的，也对整个行业是有贡献的。只要是对整个行业有贡献，我们就认为它已经遥遥领先了。</p>



<p class="wp-block-paragraph">而且DSA算法呢是完全开源的，有论文、有模型、有代码，而且可以商业化使用。不像美国那些公司抠抠搜搜的。</p>



<p class="wp-block-paragraph">当然，这个东西也不是Deepseek凭空发明的，它是在很多前人的基础上做的改进和应用。就像瓦特改进了蒸汽机一样，DSA也是如此。类似的稀疏注意力算法有很多论文，但是真正大规模的验证和使用，就是Deepseek的DSA这个算法。</p>



<h3 class="wp-block-heading">其他AI公司如何应用DSA？</h3>



<p class="wp-block-paragraph">美国公司也有类似技术，OpenAI的算法没有公开，谷歌应用的则是一个叫“环注意力”（ring attention）的算法，可以支持到100万TOKEN的上下文。</p>



<p class="wp-block-paragraph">DSA是完全开源的，其他模型也可以使用，但需要经过几个步骤：</p>



<ol class="wp-block-list">
<li><strong>模型结构改造：</strong> 在原来模型的基础上加上闪电索引。先进行“稠密预热”，保持主干注意力完全稠密，冻结原来的参数，只训练这个闪电索引。</li>



<li><strong>稀疏训练：</strong> 打开DSA开关，解冻主干的参数，和闪电索引一起训练，并确保输出结果跟原来是一样的。</li>



<li><strong>蒸馏和强化学习：</strong> 在针对写作、数学、代码、AI agent搜索等等特定领域进行特训，再用特定的模型生成数据，蒸馏主模型。最终把推理和AI agent这些行为进行强化学习和人类的对齐。</li>
</ol>



<p class="wp-block-paragraph">所以DSA对整个行业是有巨大推动作用的，这才是真正的遥遥领先。</p>



<h2 class="wp-block-heading">Deepseek V3.2的局限与不足</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_6.JPEG" alt=""/></figure>



<p class="wp-block-paragraph">它还是有很多地方比GPT-5.1、比Gemini 3 Pro要差很远的地方。</p>



<ul class="wp-block-list">
<li><strong>纯文本模型：</strong> 完全没有多模态能力，给它图片它是不认识的。</li>



<li><strong>基础模型陈旧：</strong> Deepseek V3.2也是在一个去年12月26日发布的Deepseek V3的基础上，不停的打补丁补出来的一个版本。这个叫“麻袋片绣花，底子太差”。就像OpenAI发现GPT-5（在GPT-4基础上微调）无法追赶从头训练的Gemini 3 Pro一样，要想再追上，必须得退回去把基础模型再提升一步。</li>
</ul>



<p class="wp-block-paragraph">所以，Deepseek下一步肯定还是要先把Deepseek V3.2的special合并进去，但更重要的是需要重新预训练一个全新的V4模型，把多模态等能力加进去。</p>



<h2 class="wp-block-heading">对国产算力的真正影响</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/deepseek-v3-2-dsa-leading-tech-gaps-analysis/blog_7.JPEG" alt=""/></figure>



<p class="wp-block-paragraph">Deepseek V3.2是不是对于国产算力有了巨大的帮助？国内云确实是在第一时间就去支持了，他们叫0 day支持。</p>



<p class="wp-block-paragraph">现在大模型推理普遍使用VLLM或SGLANG这样的开源框架，它们最初是为英伟达显卡设计的。Deepseek发布DSA后，第一件事就是修改这两个框架，让它们能很好地支持DSA。国内的算力卡厂商，如华为升腾，也要到这个系统上去打补丁，适配自己的硬件。</p>



<p class="wp-block-paragraph">华为云等厂商已经完成了这个适配工作，这意味着，以后想把模型部署到中国的公司（如XAI），可以直接购买华为升腾的芯片而无需修改代码。</p>



<p class="wp-block-paragraph">所以国内的云和算力卡确实又行了，它们可以在相同的算力下处理更多的信息。从推理这件事情上来说，我们不再那么依赖英伟达的显卡了。但是，如果想预训练一个全新的大模型，还是要去买英伟达显卡。目前国内普遍的做法是让大模型出海，在海外去做训练。</p>



<h2 class="wp-block-heading">Deepseek V3.2带来的市场影响</h2>



<ul class="wp-block-list">
<li>AI应用在国内产业的普及与渗透速度会进一步的提升。</li>



<li>一些新的模型，甭管是国内的还是国外的，都会去进行DSA升级，以降低成本。</li>



<li>使用中文推理的美国大模型会变多起来，因为它们很多是在中文开源模型基础上做后训练的。</li>
</ul>



<h3 class="wp-block-heading">对英伟达的影响：短期承压，长期利好</h3>



<p class="wp-block-paragraph"><strong>短期来看是利空。</strong>&nbsp;DSA让推理成本下降，完成同样的任务只需要一半的显卡，这会减少对英伟达通用算力的需求。</p>



<p class="wp-block-paragraph"><strong>但长期来说依然是利好。</strong>&nbsp;首先，行业认识到必须重新预训练基础模型，这离不开英伟达显卡。其次，AI应用渗透率上升，会推动整个行业越过盈利点，对算力中心的需求可能实现真正的爆发。</p>



<h2 class="wp-block-heading">总结</h2>



<p class="wp-block-paragraph">Deepseek V3.2，12月1日正式发布了，评分很高，但对于实际使用和感受其实没有那么大意义。因为他真正评分很高的那个版本，是一个偏科的数学天才。V3.2正式版他的评分并没有那么高。而且Deepseek V3.2是在V3的基础上继续缝缝补补出来的，想要继续前进已经很难了，必须要去对基础模型重新做预训练了。DSA这个算法确实对整个行业做出了贡献，非常非常有价值，在这一点上，你说它遥遥领先没有任何问题，但是距离真正的全线领先，还有很大的差距。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<p class="wp-block-paragraph">好，这就是咱们今天要讲的故事，感谢大家收听，请帮忙点赞、点小铃铛、参加<a href="https://discord.gg/ppKsNkttTv" target="_blank" rel="noopener">DISCORD讨论群</a>，也欢迎有兴趣、有能力的朋友加入我们的<a href="https://www.youtube.com/channel/UCUGLhcs3-3y_yhZZsgRzrzw/join" target="_blank" rel="noopener">付费频道</a>，再见。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
