国产大模型 – 老范讲故事｜AI、大模型与商业世界的故事

DeepSeek开创的风俗，春节中国模型大爆发？

老范讲故事 — Wed, 11 Feb 2026 00:36:57 +0000

春节临近，中国各大模型厂商都憋着劲要刷屏，要上大分。

大家好，欢迎收听老范讲故事的YouTube频道。还记得去年春节吗？Deepseek给大家留下了极其深刻的印象，干崩了英伟达的股价，这个真的是非常非常不容易的。而且Deepseek发布之后，整个大模型的竞争就进入了下一个阶段。在Deepseek发布之前，大家还在看着OpenAI在这里优雅的表演各种的杂技；Deepseek发布以后，那大家就直接疯掉了。可以说是一石激起千层浪，所有人都在快速的迭代，快速的去推进各种各样的新模型。去年Deepseek R1的发布，不是说给了大家一个多么强的模型，而是把英伟达和OpenAI彻底拉下了神坛。

今天的故事分几块来讲：

第一个，Kimi 2.5的爆火；
第二个，字节跳动准备了大餐；
第三个，阿里千问3.5已经箭在弦上了；
再往后，Pony阿尔法到底是谁家的还不知道，但是智谱的股票已经涨疯了；
然后，Deepseek江湖上永远的传说；
海外模型厂商也都没闲着，他们也在努力准备应接我们的突袭。

Kimi 2.5 的爆火与霸榜

首先我们来讲Kimi 2.5。因为Openclawd爆火（Openclawd就是现在这个大龙虾），正是火的时候，那Kimi 2.5跟它有什么关系？首先，Kimi 2.5是在OpenRouter上多个核心榜单直接刷屏，跑到榜首去了；Openclawd调用榜也是榜首。OpenRouter也好，Openclawd也好，他们都会去统计各个大模型在我们这个平台上，或者在我们这个系统上到底消耗了多少TOKEN。这两个平台消耗TOKEN最高的都是Kimi 2.5。最近一周在OpenRouter里头消耗了1.16万亿TOKEN，比第二名Gemini 3 Flash多出了50%以上。

这个Kimi 2.5首先是多模态能力顶尖，原生支持图文和视频输入，编码与视觉结合能力突出。在Design Arena的评测中击败了Gemini 3 Pro和Claude，取得了第一。就是你可以输入图片了，你做应用的视觉设计的时候效果非常好，很有美感。因为我们现在都在做vibe coding，都用AI去编程，那编完了程序以后，你这个界面长得好不好看，就是大家追求的下一件事了，而Kimi 2.5在这一点上比Claude、比Gemini都要强。

下一个逆天的地方就是智能体的能力逆天了：

内置了agent Swarm（叫蜂群架构），可自组织最多约100个子智能体并行执行任务，效果提升达到了4.5倍。现在大家都在看怎么在智能体里跑得更快一些，他说我干脆在里头并行调用就好了。
长上下文支持256k上下文窗口，现在这个是基本的。
工具调用极其精准，大模型调用工具就是我们先向大模型描述一堆工具，我们有这些工具，然后它会根据需要去调用。这个里头就会有一个调用的精不精准了，明明有工具在这儿，结果你没调，自己去编了，有些模型原来就会干这样的事情，而Kimi 2.5在这块已经都解决的很好了。

而且Kimi 2.5直接给了Openclawd免费的额度，你在这个额度之内都不要钱，那么就被Openclawd官方推荐了。Kimi也就是Moonshot（这公司叫月之暗面嘛），他们最擅长的事情就是烧钱打广告。原来是花了好多钱，现在我也不花钱打广告了，我直接把模型做好了，我给你送额度就完事了，实际上也是在烧钱嘛。它的API成本极低，开源的模型，他们的API成本要比Anthropic的、比谷歌的、比OpenAI都要便宜非常非常多。而且这个模型是开源可商用的，大家谁愿意用谁自己下载去用去。在这种情况下，你基本上可以把它认为是一种田忌赛马式的胜利。就是我们的模型可能未必在整体上比Claude、比Gemini、比OpenAI的GPT要强，但是已经达到了大差不差的状态，还便宜哈。那这样的一个情况下，肯定是会受到很多人欢迎的。Kimi 2.5是已经发布了，在春节前已经把该干的活干完了。

字节跳动的“大餐”：SEEDANCE 与 SEEDREAM

字节跳动这是准备上大分的。昨天刚刚被SEEDANCE 2.0刷屏了，今天SEEDANCE 2.0惨遭阉割。你们昨天玩太嗨了吧？今天告诉大家说不允许再去用真人的形象去做了，这个容易出事。而且今天Seedance 2.0的服务器直接被挤爆了，我刚才去生成了一条，效果变得极差，各种的要求也没有实现，而且等了大概接近一个小时才完成，就太多人冲上去了。在新的AI时代，不是要你花钱去买流量，你只要把模型做好了，直接就会有人冲上来把你的服务器挤爆。

Seedream 5.0 的新特性

Seedream 5.0据说马上要发布，有可能今天发布，有可能明天发布。它已经出现在了即梦最新的APP update release这个文件里头。这个模型是个生图的模型，据说是与Seedance 2.0共用的核心。主要更新如下：

实现检索生图能力：原来你说我想画一个保时捷的911，或者我想画一个比如比亚迪的大鲨鱼（比亚迪鲨鲨鱼是一个电动皮卡），以前你如果没有训练过，它就不会去引用图片，就它就不知道这车长什么样。现在的话你说了这样的词以后，它会先去搜索；搜索完了以后，找到相应的图片，你要画什么东西，我保证画的像，它会参考搜索回来的图片。像原来我们使用比如Nano Banana，你必须要提供这个图片，我要求画的像这个，他才给你画。而以后的话Seedream 5.0，你要求画什么东西，先去搜索，搜索完了以后引用。
提示词理解升级：强化了抽象概念，比如说“静谧的科技感”，就这种很抽象的东西，他现在都可以很好的理解了。可以进行复杂的指令解析，支持多轮的细节调整。
输出增强：支持2k输出、4K输出，而且还可以做AI的增强输出，文字渲染清晰度提升了40%。现在Nano Banana也好，Seedream也好，他们现在都在尝试怎么能够把一整篇的小字都写清楚。现在大家上Nano Banana Pro，你去写一整篇字的时候，如果字很密的话，是会出很多错误的，特别是写中文。在这一点上，Seedream 5.0准备继续增强。
增加美学提升：为什么要做美学提升？因为我们经常让这些图像生成模型的一次出一个完整的PPT，或者出一个完整的海报，有图有文，而且有很多字。原来是没有什么美感的，现在的话可以自动化做海报的布局、字体的搭配、颜色的协调，它可以把这些东西都做好，不像以前我画的很多封面似的那么突兀了。很期待这个模型尽快上线。
模态融合：与Seedance 2.0打通，支持视频帧提取和图像风格迁移。原来你必须要上传一个图片，现在你可以上传一个视频给他，说“请根据哪一帧去给我生成什么什么图片”，或者你“请根据整个视频里的一个什么样的风格去给我生成图片”。这个是SEEDREAM 5.0的有可能会发布的一些新特性。

豆包 SEED 2.0

豆包的SEED 2.0应该也在路上了。字节跳动他们家所有的模型都是Seed开头的：豆包模型叫豆包SEED，生图片的模型叫Seedream，生视频的模型叫Seedance。现在这个豆包2.0的模型泄露出来的信息还不是很多，据说是极超大参数规模的Moe（就是混合专家模型），也是做了多模态融合。至于这个模型是不是有机会在春节期间发布的话，就不太好说了。这是字节的情况。

阿里千问 3.5：箭在弦上

下面是阿里千问。通义千问3.5的蛛丝马迹已经出来了，他们刚刚发了1,000万杯奶茶，在国内打红包大战发奶茶。在Hugging Face上有一个Transformer的文档，就是在Hugging Face上有哪些哪些模型、这个模型怎么去接，这个文档上已经出现了“千问3.5 9B instruct”的字样，就是这个模型已经写在上面了。它具备以下特点：

混合注意力机制：结合局部注意力与全局注意力优势，简单任务快速响应，复杂任务深度思考，推理效率提升了约30%到40%。
原生的VRM设计：现在新的模型都在走这条路，从Gemini 3开始都是走原生VRM设计。以前千问3还是外挂的视觉模块，而千问3.5将视觉理解能力内置于基座模型，图文联合理解准确率预计能够提升25%以上。Kimi 2.5应该也是原生VRM的设计，如果豆包Seed 2.0发布的话，应该也是这种原生VRM的这个模型，大家都是照着一条路走就可以了。
A3B MOE优化：这是它的一个架构，延续了千问3高效稀疏架构，激活参数利用率提升，推理成本降低20%到30%，同时保持接近32B密集模型的一个性能，就是他把9B的模型让你达到32B的这个效果。
能力全面强化：推理能力强化，代码能力提升，工具调用能力增强，多语言拓展，更多的小语种。大家要注意，很多的这种小语种国家会喜欢使用千问的开源模型，那么他们就投其所好。

神秘的 Pony Alpha：智谱的逆袭？

下一个叫Pony Alpha（小马阿尔法）。不知道是谁家的，但是智谱的股票已经先涨为敬了。2月6日在OpenRouter上直接屠榜了，隐身模式低调上线，没有发布会，没有论文，没有公开的厂商信息。单日处理了40亿TOKEN，接收了20.6万请求，完全免费开放，却实现了Opus级的智能表现，成为平台首个同时在编程、智能体、工作流、推理角色扮演四大领域屠榜的模型，就是非常非常强。

Pony Alpha 到底是谁？

首先大家猜测的是智谱GLM5。因为现在智谱已经发出来的模型是GLM4.7以及GLM4.7 Flash（要比4.7要稍微快一些），最近正好应该发GLM5了，大家猜它的原因是时间吻合。智谱官宣两周内发布GLM5，技术路线基本一致，专注代码与agent能力，这就是智谱的技术路线，内部也发了信做佐证。智谱的老大叫唐杰，1月8号已经透露了GLM5准备发布了。官方并没有正式承认这件事。因为模型的自称是Claude，因为很多人也在猜说智谱应该是拿Claude模型去蒸馏了，但是智谱到今天也没有出来辟谣。如果谁家的股票发生异常波动的话，它应该是出来要辟谣的，说“这个对不起不是我”，但是他也没出来辟谣，所以大家猜可能还是他。

第二个猜测有可能是Deepseek V4。因为有些人猜测Deepseek V4可能会在春节期间发布，代码能力风格也有点相似，Pony与马年谐音，所以大家觉得有可能是它。但是并没有发现Deepseek相关的技术特征。

现在也有人猜说这东西有没有可能是Claude 5，因为Claude刚出的4.6，这个模型曾经在追问中承认是Claude，但是到底是不是这个不太确定，因为只有这一个证据。

模型能力与市场反应

这个模型到底有多强？

架构升级：采用混合注意力机制，激活参数利用率提升了30%，推理成本降低了25%。
能力表现：代码能力确实是非常非常强。智能体也绝对是能力提升了，工具调用准确率是99.2%，能够自主规划复杂的工作流程，减少人工干预。
上下文：已经可以超过256K了，要比256K还要再长一些，长文本理解和摘要能力显著提升。

2月9日智谱香港的股票单日涨了36.22%，2月10日盘中再涨了20%，市值达到了1,500亿港币。到目前为止智谱并没有出来辟谣，如果不是他的话，应该已经开始出来辟谣了。别人信不信不重要，股市已经相信了Pony阿尔法就是智谱的GLM5。

Deepseek 与海外厂商动态

Deepseek江湖上一直有它的传言，很多权威媒体，包括像路透什么这样的媒体都在猜测，春节前后Deepseek会不会发V4版本出来。这个公司一直很低调，最近在努力的招聘、在扩招，但是到底能不能出东西，谁也不知道。

海外模型厂商其实也没闲着，去年Deepseek R1出来，算是打了大家一个措手不及。现在海外厂商说我们不能再干这种活了，都要准备一点弹药，如果中国大模型厂商在春节期间炸场，我们一定要有东西可以应对：

Gemini 3 GA版：这几天有可能会发布。说Gemini 3不都发布了挺长时间了吗？但是注意，咱们使用的Gemini 3的模型后边都是有Preview这个单词的，它都是预览版，并没有真正发正式版，GA应该叫general availability，叫正式发布版，这个版本很快就要上线了。
GPT 5.3：这个版本应该也在路上了。现在不是已经发了GPT 5.3了吗？大家注意，现在发的是GPT 5.2和GPT 5.3 Codex，这个版本是专门给Codex用的，就是专门编程用的，给大众使用的GPT 5.3并没有发布。但是既然5.3 Codex发布了，那么给大众使用的5.3应该已经在路上了。
GROK 4.2：这个江湖传言也一直都有。特别是有传闻说GROK 4.2在韩国打魔兽争霸还是打什么游戏，已经在屠榜了，但是现在这个事并没有得到证实。现在GROK 4.2也在参加各种各样的赚钱比赛，前面不是曾经有人组织过这种赚钱炒币炒股的比赛吗？当时的GROK 4.0惨败了，现在GROK 4.2好像是在各种的赚钱比赛上都是夺得头筹，而且每一次有人发布了GROK 4.2在这个赚钱比赛上怎么怎么样了，马斯克马上会转发，所以GROK 4.2应该距离我们也不远了。

总结：大模型竞争进入“中国节奏”

春节（也就是Chinese New Year）都将是大模型厂商集体发疯的时间点。就是从去年开始，以后可能这个风俗习惯会保留下来，大模型的竞争也进入了中国人擅长的节奏。真正卷数学、卷科技这件事了，咱们可能未必擅长，但是中国人擅长什么？

举个例子，如果街头突然有一家饭馆做的烤鱼特别好吃，那么会发生什么？一周之后整条街所有的饭馆都在做烤鱼。这个东西不用特别复杂，大家做的也都大差不差，稍微有一些区别，但是也都能做出烤鱼来，这就是咱们擅长干的活。

所以这一波大模型大家都在卷什么？

混合注意力（就是复杂的事情多想想，简单的事情少想想）；
VRM统一大模型（直接像Gemini 3那样把视觉这一部分送到这个大模型里头，直接去训练进去，而不是像以前这样外挂视觉模型）；
编程能力提升、智能体能力提升、256K上下文，这就是咱们现在大家都在卷的东西。
在AI agent里面，不需要大模型有多聪明，都是开卷考试，他只要知道到时候该翻哪本书就可以了。指令依存度提高，降低幻觉，这个就是这一波大模型都在卷的东西。

这一次春节大家拿出来的模型应该都是符合这些要求的，剩下的就是卷价格就完事了呗。你也不需要有什么特色了，所以说这就落入了中国人比较擅长的领域里头。

最后，今年的春节应该不会无聊，应该会有很多很多新的模型，很多新的产品可以跟大家去讲。好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道，再见。

背景图片

Prompt：Chinese New Year’s Eve dinner table scene with no people, cozy home dining room interior, a round table packed with traditional dishes (dumplings, whole steamed fish, hotpot, spring rolls, nian gao, tangerines), red lanterns, red paper cutouts, knot ornaments, red couplet papers with abstract brush strokes (no readable text), warm tungsten glow, steam rising from food, hand-drawn animated film vibe, watercolor and gouache background, pencil + ink linework, visible paper grain, soft bloom, cinematic wide establishing shot, eye-level, rule of thirds, clear subject-background separation, window shows night sky fireworks bursting outside, high contrast, rich saturated reds and warm golds balanced with deep ink blues –v 7.0 –ar 16:9 –stylize 180 –chaos 5 –no people, person, humans, faces, hands, silhouettes, crowd, readable text, gibberish text blocks, watermark, logo, signature, photorealism, 3d render, blurry, lowres –p lh4so59

Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA

Luke Fan — Fri, 05 Dec 2025 01:06:50 +0000

Deepseek V3.2，12月1号发布了。是不是又遥遥领先了呢？

大家好，欢迎收听老范讲故事的YouTube频道。

Deepseek V3.2的发布应该是12月1日。我们始终没有等来心心念念的Deepseek R2。在今年春节的时候，深度求索突然发布了Deepseek R1，算是扔下了一颗深水炸弹，把整个AI圈都震动了，甚至还造成了英伟达股价的闪崩——一段时间内闪崩吧。甚至老黄都跑出来喊，说：“Deepseek发布对我是利好，你们不要卖英伟达的股票。”大家就一直等着这个R1，既然这么厉害，咱们上R2。但是等了这么久，都没有等来R2。

Deepseek V系列版本回顾

下面呢，我们来捋一下Deepseek V系列的版本到底是怎么样的一个发布过程。

Deepseek V3 (去年12月26日发布): 这是非常非常重要的一个版本。实际上我们后面看到的所有版本，包括R1，都是在Deepseek V3的基础上进行微调、进行蒸馏、进行强化学习。今天发布的Deepseek V3.2，也依然是在这个版本的基础上做出来的。
Deepseek V3-0324 (3月24日发布): 主要是在专项能力上做了一些增强，比如说编代码或者写文章。
Deepseek V3.1 (8月21日发布): 主要是工程化和智能体方面做了增强。因为当时大家都要去做AI agent，而之前的版本在AI agent这一块都比较弱。
Deepseek V3.1 Terminals (9月22日发布): 这个版本叫V3.1的终极版，实际上是对V3.1做了一些修复和精调，并告知这是V3.1的最终版本。
V3.2 EXP (9月29日发布): 一个实验版本，在V3.1终极版的基础上加入了DSA技术。最主要的变化是降价，直接把API调用的价格砍了一半。
Deepseek OCR (10月20日发布): 一个很小的模型（约6G），用于图片解释，效果很好。
maths VR (11月27日发布): 专门做数学推理和数学证明的一个版本，在各种数学题测试中评分非常高。
Deepseek V3.2 正式版 & V3.2 special 特别版 (12月1号发布): 本次发布的主角。

V3.2，是不是遥遥领先了呢？

那么这一次的V3.2，是不是遥遥领先了呢？各种评测数据确实非常亮眼，但是呢，我们要看到它的评测数据里头实际上是有两个数值的。一个数值呢是Deepseek V3.2做出来的，一个数值呢，是Deepseek V3.2 special做出来的。

它的Deepseek 3.2 special这个版本，确实是比Gemini 3 Pro、GPT5.1都要强，但是我们大部分人，实际上没有办法去使用这个V3.2 special。它这个正式版的V3.2呢，属于是接近了GPT-5.1的水平，各项评分都很近，有个别的超过吧，大部分呢跟GPT-5.1很近的一个位置。

甚至呢，还有人出来讲，说GPT到现在3周岁了，现在Deepseek反超回来了。很多人就讲说GPT被Deepseek吓到了，其实跟Deepseek没关系，主要是被谷歌吓到了。

V3.2 Special：一个跑分工具？

你说V3.2的special版本的评分，不是已经超越了GPT-5.1和Gemini 3 Pro了吗？你怎么还说跟国外有差距呢？首先要注意，V3.2 special是一个基本上没法用的版本。为什么呢？

就是它的推理、它的运算确实非常强，但是呢，它在工具调用、AI agent的使用这一块都不能用，因为它就是会解数学题，它是一个偏科天才，除了写数学题之外，他啥也搞不了。所以呢，他做各种的评测分数很高，但是你实际使用他，你是没法使的。

而且Deepseek V3.2 special这个版本只能用到12月15号，在这之后这个接口就直接废掉了。所以那个产品就是跑分用的，不是给大家用的。发布V3.2 special呢，也是有一点点赶鸭子上架。当然有很多人说，这个就是Deepseek R2了。

V3.2的核心技术：DSA算法

那么V3.2到底是怎么训练出来的呢？实际上Deepseek V3.2，是在Deepseek V3.1 Terminals这个基础上进行的继续训练，基础大模型没变。这个里边最关键的特性，就是降本增效。

降本：Deepseek稀疏注意力算法 (DSA)

它直接把成本对半砍，就是降50%的API调用成本。里边呢，使用了一个叫DSA的算法，Deepseek稀疏注意力算法。通过一个叫闪电索引的功能，它不是对文本里边的所有词进行运算和匹配，而是先评估哪一块比较重要，哪一块不太重要，我们把重要的部分拿去做下一步，不重要的部分直接扔了。通过这种方式呢，它极大的降低了长上下文的处理成本。

长上下文是必须的，因为AI agent需要调用工具、搜索、使用本地知识库。所以只能在长上下文的基础上想办法去降低成本。

增效：与V3.1对齐并强化

在实现了DSA的算法之后，它还要跟Deepseek V3.1 Terminals这个最终版进行对齐，确保性能不能退步。这就是这一次V3.2在V3.2 EXP的基础上做的一个很重要的更新。

所以呢，9月29号V3.2 EXP，第一件事是先把价格打下来：

输入 (缓存不命中): 100万TOKEN两块钱人民币。
输入 (缓存命中): 100万TOKEN是两毛钱。
输出: 100万TOKEN只需要3元人民币。

这个价格要比我们现在能看到的各种轻量级模型都要便宜很多。

在发布这个版本之后呢，进行了大规模特定目标的强化学习，主要学很难解答但很容易验证的问题，特别是针对智能体（AI agent）进行数据训练。在这样的一个基础上，就得到了12月1号所发布的V3.2正式版。

V3.2 Special的由来

它呢，是在V3.2 EXP base的这个基础上，拿着前面我们讲的，专门做数学题证明的maths VR这个版本去做后续的训练。V3.2 special实际上就是V3.2 EXP base这个版本加上maths V2这个版本合成的一个版本。所以它特别擅长做数学题、做各种长推理，但其他方面能力很弱。

真正的领先之处：开源贡献

我们现在所说的领先，是真正做出来的这些改变、这些创新，对于整个行业是不是有贡献。Deepseek R1对于整个行业是有巨大贡献的。而这一次的DSA确实是非常先进的，也对整个行业是有贡献的。只要是对整个行业有贡献，我们就认为它已经遥遥领先了。

而且DSA算法呢是完全开源的，有论文、有模型、有代码，而且可以商业化使用。不像美国那些公司抠抠搜搜的。

当然，这个东西也不是Deepseek凭空发明的，它是在很多前人的基础上做的改进和应用。就像瓦特改进了蒸汽机一样，DSA也是如此。类似的稀疏注意力算法有很多论文，但是真正大规模的验证和使用，就是Deepseek的DSA这个算法。

其他AI公司如何应用DSA？

美国公司也有类似技术，OpenAI的算法没有公开，谷歌应用的则是一个叫“环注意力”（ring attention）的算法，可以支持到100万TOKEN的上下文。

DSA是完全开源的，其他模型也可以使用，但需要经过几个步骤：

模型结构改造： 在原来模型的基础上加上闪电索引。先进行“稠密预热”，保持主干注意力完全稠密，冻结原来的参数，只训练这个闪电索引。
稀疏训练： 打开DSA开关，解冻主干的参数，和闪电索引一起训练，并确保输出结果跟原来是一样的。
蒸馏和强化学习： 在针对写作、数学、代码、AI agent搜索等等特定领域进行特训，再用特定的模型生成数据，蒸馏主模型。最终把推理和AI agent这些行为进行强化学习和人类的对齐。

所以DSA对整个行业是有巨大推动作用的，这才是真正的遥遥领先。

Deepseek V3.2的局限与不足

它还是有很多地方比GPT-5.1、比Gemini 3 Pro要差很远的地方。

纯文本模型： 完全没有多模态能力，给它图片它是不认识的。
基础模型陈旧： Deepseek V3.2也是在一个去年12月26日发布的Deepseek V3的基础上，不停的打补丁补出来的一个版本。这个叫“麻袋片绣花，底子太差”。就像OpenAI发现GPT-5（在GPT-4基础上微调）无法追赶从头训练的Gemini 3 Pro一样，要想再追上，必须得退回去把基础模型再提升一步。

所以，Deepseek下一步肯定还是要先把Deepseek V3.2的special合并进去，但更重要的是需要重新预训练一个全新的V4模型，把多模态等能力加进去。

对国产算力的真正影响

Deepseek V3.2是不是对于国产算力有了巨大的帮助？国内云确实是在第一时间就去支持了，他们叫0 day支持。

现在大模型推理普遍使用VLLM或SGLANG这样的开源框架，它们最初是为英伟达显卡设计的。Deepseek发布DSA后，第一件事就是修改这两个框架，让它们能很好地支持DSA。国内的算力卡厂商，如华为升腾，也要到这个系统上去打补丁，适配自己的硬件。

华为云等厂商已经完成了这个适配工作，这意味着，以后想把模型部署到中国的公司（如XAI），可以直接购买华为升腾的芯片而无需修改代码。

所以国内的云和算力卡确实又行了，它们可以在相同的算力下处理更多的信息。从推理这件事情上来说，我们不再那么依赖英伟达的显卡了。但是，如果想预训练一个全新的大模型，还是要去买英伟达显卡。目前国内普遍的做法是让大模型出海，在海外去做训练。

Deepseek V3.2带来的市场影响

AI应用在国内产业的普及与渗透速度会进一步的提升。
一些新的模型，甭管是国内的还是国外的，都会去进行DSA升级，以降低成本。
使用中文推理的美国大模型会变多起来，因为它们很多是在中文开源模型基础上做后训练的。

对英伟达的影响：短期承压，长期利好

短期来看是利空。 DSA让推理成本下降，完成同样的任务只需要一半的显卡，这会减少对英伟达通用算力的需求。

但长期来说依然是利好。 首先，行业认识到必须重新预训练基础模型，这离不开英伟达显卡。其次，AI应用渗透率上升，会推动整个行业越过盈利点，对算力中心的需求可能实现真正的爆发。

总结

Deepseek V3.2，12月1日正式发布了，评分很高，但对于实际使用和感受其实没有那么大意义。因为他真正评分很高的那个版本，是一个偏科的数学天才。V3.2正式版他的评分并没有那么高。而且Deepseek V3.2是在V3的基础上继续缝缝补补出来的，想要继续前进已经很难了，必须要去对基础模型重新做预训练了。DSA这个算法确实对整个行业做出了贡献，非常非常有价值，在这一点上，你说它遥遥领先没有任何问题，但是距离真正的全线领先，还有很大的差距。

好，这就是咱们今天要讲的故事，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。