DeepSeek开创的风俗，春节中国模型大爆发？ - 老范讲故事

中国春节的热闹街景，舞狮队伍中的狮子由精密的电路板和发光芯片组成，象征科技与传统的融合，羊皮纸，钢笔彩色手绘的统一风格。

春节临近，中国各大模型厂商都憋着劲要刷屏，要上大分。

大家好，欢迎收听老范讲故事的YouTube频道。还记得去年春节吗？Deepseek给大家留下了极其深刻的印象，干崩了英伟达的股价，这个真的是非常非常不容易的。而且Deepseek发布之后，整个大模型的竞争就进入了下一个阶段。在Deepseek发布之前，大家还在看着OpenAI在这里优雅的表演各种的杂技；Deepseek发布以后，那大家就直接疯掉了。可以说是一石激起千层浪，所有人都在快速的迭代，快速的去推进各种各样的新模型。去年Deepseek R1的发布，不是说给了大家一个多么强的模型，而是把英伟达和OpenAI彻底拉下了神坛。

今天的故事分几块来讲：

第一个，Kimi 2.5的爆火；
第二个，字节跳动准备了大餐；
第三个，阿里千问3.5已经箭在弦上了；
再往后，Pony阿尔法到底是谁家的还不知道，但是智谱的股票已经涨疯了；
然后，Deepseek江湖上永远的传说；
海外模型厂商也都没闲着，他们也在努力准备应接我们的突袭。

一个深海潜水员手持发光的探照灯，照亮了海底巨大的沉船，沉船上散落着英伟达显卡和OpenAI的标志，羊皮纸，钢笔彩色手绘的统一风格。

Kimi 2.5 的爆火与霸榜

一个精密的机械蜂巢结构，无数只微型机械蜜蜂正在协同工作构建一座高塔，象征Kimi的蜂群架构和高效并行，羊皮纸，钢笔彩色手绘的统一风格。

首先我们来讲Kimi 2.5。因为Openclawd爆火（Openclawd就是现在这个大龙虾），正是火的时候，那Kimi 2.5跟它有什么关系？首先，Kimi 2.5是在OpenRouter上多个核心榜单直接刷屏，跑到榜首去了；Openclawd调用榜也是榜首。OpenRouter也好，Openclawd也好，他们都会去统计各个大模型在我们这个平台上，或者在我们这个系统上到底消耗了多少TOKEN。这两个平台消耗TOKEN最高的都是Kimi 2.5。最近一周在OpenRouter里头消耗了1.16万亿TOKEN，比第二名Gemini 3 Flash多出了50%以上。

这个Kimi 2.5首先是多模态能力顶尖，原生支持图文和视频输入，编码与视觉结合能力突出。在Design Arena的评测中击败了Gemini 3 Pro和Claude，取得了第一。就是你可以输入图片了，你做应用的视觉设计的时候效果非常好，很有美感。因为我们现在都在做vibe coding，都用AI去编程，那编完了程序以后，你这个界面长得好不好看，就是大家追求的下一件事了，而Kimi 2.5在这一点上比Claude、比Gemini都要强。

下一个逆天的地方就是智能体的能力逆天了：

内置了agent Swarm（叫蜂群架构），可自组织最多约100个子智能体并行执行任务，效果提升达到了4.5倍。现在大家都在看怎么在智能体里跑得更快一些，他说我干脆在里头并行调用就好了。
长上下文支持256k上下文窗口，现在这个是基本的。
工具调用极其精准，大模型调用工具就是我们先向大模型描述一堆工具，我们有这些工具，然后它会根据需要去调用。这个里头就会有一个调用的精不精准了，明明有工具在这儿，结果你没调，自己去编了，有些模型原来就会干这样的事情，而Kimi 2.5在这块已经都解决的很好了。

而且Kimi 2.5直接给了Openclawd免费的额度，你在这个额度之内都不要钱，那么就被Openclawd官方推荐了。Kimi也就是Moonshot（这公司叫月之暗面嘛），他们最擅长的事情就是烧钱打广告。原来是花了好多钱，现在我也不花钱打广告了，我直接把模型做好了，我给你送额度就完事了，实际上也是在烧钱嘛。它的API成本极低，开源的模型，他们的API成本要比Anthropic的、比谷歌的、比OpenAI都要便宜非常非常多。而且这个模型是开源可商用的，大家谁愿意用谁自己下载去用去。在这种情况下，你基本上可以把它认为是一种田忌赛马式的胜利。就是我们的模型可能未必在整体上比Claude、比Gemini、比OpenAI的GPT要强，但是已经达到了大差不差的状态，还便宜哈。那这样的一个情况下，肯定是会受到很多人欢迎的。Kimi 2.5是已经发布了，在春节前已经把该干的活干完了。

字节跳动的“大餐”：SEEDANCE 与 SEEDREAM

一张豪华的宴会餐桌，盘子里装的不是食物而是全息投影的像素块和流动的视频流，背景是冒着烟的服务器机柜，羊皮纸，钢笔彩色手绘的统一风格。

字节跳动这是准备上大分的。昨天刚刚被SEEDANCE 2.0刷屏了，今天SEEDANCE 2.0惨遭阉割。你们昨天玩太嗨了吧？今天告诉大家说不允许再去用真人的形象去做了，这个容易出事。而且今天Seedance 2.0的服务器直接被挤爆了，我刚才去生成了一条，效果变得极差，各种的要求也没有实现，而且等了大概接近一个小时才完成，就太多人冲上去了。在新的AI时代，不是要你花钱去买流量，你只要把模型做好了，直接就会有人冲上来把你的服务器挤爆。

Seedream 5.0 的新特性

Seedream 5.0据说马上要发布，有可能今天发布，有可能明天发布。它已经出现在了即梦最新的APP update release这个文件里头。这个模型是个生图的模型，据说是与Seedance 2.0共用的核心。主要更新如下：

实现检索生图能力：原来你说我想画一个保时捷的911，或者我想画一个比如比亚迪的大鲨鱼（比亚迪鲨鲨鱼是一个电动皮卡），以前你如果没有训练过，它就不会去引用图片，就它就不知道这车长什么样。现在的话你说了这样的词以后，它会先去搜索；搜索完了以后，找到相应的图片，你要画什么东西，我保证画的像，它会参考搜索回来的图片。像原来我们使用比如Nano Banana，你必须要提供这个图片，我要求画的像这个，他才给你画。而以后的话Seedream 5.0，你要求画什么东西，先去搜索，搜索完了以后引用。
提示词理解升级：强化了抽象概念，比如说“静谧的科技感”，就这种很抽象的东西，他现在都可以很好的理解了。可以进行复杂的指令解析，支持多轮的细节调整。
输出增强：支持2k输出、4K输出，而且还可以做AI的增强输出，文字渲染清晰度提升了40%。现在Nano Banana也好，Seedream也好，他们现在都在尝试怎么能够把一整篇的小字都写清楚。现在大家上Nano Banana Pro，你去写一整篇字的时候，如果字很密的话，是会出很多错误的，特别是写中文。在这一点上，Seedream 5.0准备继续增强。
增加美学提升：为什么要做美学提升？因为我们经常让这些图像生成模型的一次出一个完整的PPT，或者出一个完整的海报，有图有文，而且有很多字。原来是没有什么美感的，现在的话可以自动化做海报的布局、字体的搭配、颜色的协调，它可以把这些东西都做好，不像以前我画的很多封面似的那么突兀了。很期待这个模型尽快上线。
模态融合：与Seedance 2.0打通，支持视频帧提取和图像风格迁移。原来你必须要上传一个图片，现在你可以上传一个视频给他，说“请根据哪一帧去给我生成什么什么图片”，或者你“请根据整个视频里的一个什么样的风格去给我生成图片”。这个是SEEDREAM 5.0的有可能会发布的一些新特性。

豆包 SEED 2.0

一个巨大的豆包被切开，内部不是馅料而是复杂的齿轮和微缩的专家团队在工作，象征MOE混合专家模型架构，羊皮纸，钢笔彩色手绘的统一风格。

豆包的SEED 2.0应该也在路上了。字节跳动他们家所有的模型都是Seed开头的：豆包模型叫豆包SEED，生图片的模型叫Seedream，生视频的模型叫Seedance。现在这个豆包2.0的模型泄露出来的信息还不是很多，据说是极超大参数规模的Moe（就是混合专家模型），也是做了多模态融合。至于这个模型是不是有机会在春节期间发布的话，就不太好说了。这是字节的情况。

阿里千问 3.5：箭在弦上

一个身穿古代侠客长袍的机器人，左手拿着一杯珍珠奶茶，右手正在快速处理悬浮在空中的复杂代码卷轴，羊皮纸，钢笔彩色手绘的统一风格。

下面是阿里千问。通义千问3.5的蛛丝马迹已经出来了，他们刚刚发了1,000万杯奶茶，在国内打红包大战发奶茶。在Hugging Face上有一个Transformer的文档，就是在Hugging Face上有哪些哪些模型、这个模型怎么去接，这个文档上已经出现了“千问3.5 9B instruct”的字样，就是这个模型已经写在上面了。它具备以下特点：

混合注意力机制：结合局部注意力与全局注意力优势，简单任务快速响应，复杂任务深度思考，推理效率提升了约30%到40%。
原生的VRM设计：现在新的模型都在走这条路，从Gemini 3开始都是走原生VRM设计。以前千问3还是外挂的视觉模块，而千问3.5将视觉理解能力内置于基座模型，图文联合理解准确率预计能够提升25%以上。Kimi 2.5应该也是原生VRM的设计，如果豆包Seed 2.0发布的话，应该也是这种原生VRM的这个模型，大家都是照着一条路走就可以了。
A3B MOE优化：这是它的一个架构，延续了千问3高效稀疏架构，激活参数利用率提升，推理成本降低20%到30%，同时保持接近32B密集模型的一个性能，就是他把9B的模型让你达到32B的这个效果。
能力全面强化：推理能力强化，代码能力提升，工具调用能力增强，多语言拓展，更多的小语种。大家要注意，很多的这种小语种国家会喜欢使用千问的开源模型，那么他们就投其所好。

神秘的 Pony Alpha：智谱的逆袭？

一匹神秘的机械独角兽从迷雾中走出，身上闪烁着代码光芒，马蹄踩在不断上涨的股票K线图上，羊皮纸，钢笔彩色手绘的统一风格。

下一个叫Pony Alpha（小马阿尔法）。不知道是谁家的，但是智谱的股票已经先涨为敬了。2月6日在OpenRouter上直接屠榜了，隐身模式低调上线，没有发布会，没有论文，没有公开的厂商信息。单日处理了40亿TOKEN，接收了20.6万请求，完全免费开放，却实现了Opus级的智能表现，成为平台首个同时在编程、智能体、工作流、推理角色扮演四大领域屠榜的模型，就是非常非常强。

Pony Alpha 到底是谁？

首先大家猜测的是智谱GLM5。因为现在智谱已经发出来的模型是GLM4.7以及GLM4.7 Flash（要比4.7要稍微快一些），最近正好应该发GLM5了，大家猜它的原因是时间吻合。智谱官宣两周内发布GLM5，技术路线基本一致，专注代码与agent能力，这就是智谱的技术路线，内部也发了信做佐证。智谱的老大叫唐杰，1月8号已经透露了GLM5准备发布了。官方并没有正式承认这件事。因为模型的自称是Claude，因为很多人也在猜说智谱应该是拿Claude模型去蒸馏了，但是智谱到今天也没有出来辟谣。如果谁家的股票发生异常波动的话，它应该是出来要辟谣的，说“这个对不起不是我”，但是他也没出来辟谣，所以大家猜可能还是他。

第二个猜测有可能是Deepseek V4。因为有些人猜测Deepseek V4可能会在春节期间发布，代码能力风格也有点相似，Pony与马年谐音，所以大家觉得有可能是它。但是并没有发现Deepseek相关的技术特征。

现在也有人猜说这东西有没有可能是Claude 5，因为Claude刚出的4.6，这个模型曾经在追问中承认是Claude，但是到底是不是这个不太确定，因为只有这一个证据。

模型能力与市场反应

这个模型到底有多强？

架构升级：采用混合注意力机制，激活参数利用率提升了30%，推理成本降低了25%。
能力表现：代码能力确实是非常非常强。智能体也绝对是能力提升了，工具调用准确率是99.2%，能够自主规划复杂的工作流程，减少人工干预。
上下文：已经可以超过256K了，要比256K还要再长一些，长文本理解和摘要能力显著提升。

2月9日智谱香港的股票单日涨了36.22%，2月10日盘中再涨了20%，市值达到了1,500亿港币。到目前为止智谱并没有出来辟谣，如果不是他的话，应该已经开始出来辟谣了。别人信不信不重要，股市已经相信了Pony阿尔法就是智谱的GLM5。

Deepseek 与海外厂商动态

一张巨大的世界地图棋盘，左侧是代表中国科技力量的机械龙，右侧是西方科技巨头的火箭和机器人，双方正在对峙，羊皮纸，钢笔彩色手绘的统一风格。

Deepseek江湖上一直有它的传言，很多权威媒体，包括像路透什么这样的媒体都在猜测，春节前后Deepseek会不会发V4版本出来。这个公司一直很低调，最近在努力的招聘、在扩招，但是到底能不能出东西，谁也不知道。

海外模型厂商其实也没闲着，去年Deepseek R1出来，算是打了大家一个措手不及。现在海外厂商说我们不能再干这种活了，都要准备一点弹药，如果中国大模型厂商在春节期间炸场，我们一定要有东西可以应对：

Gemini 3 GA版：这几天有可能会发布。说Gemini 3不都发布了挺长时间了吗？但是注意，咱们使用的Gemini 3的模型后边都是有Preview这个单词的，它都是预览版，并没有真正发正式版，GA应该叫general availability，叫正式发布版，这个版本很快就要上线了。
GPT 5.3：这个版本应该也在路上了。现在不是已经发了GPT 5.3了吗？大家注意，现在发的是GPT 5.2和GPT 5.3 Codex，这个版本是专门给Codex用的，就是专门编程用的，给大众使用的GPT 5.3并没有发布。但是既然5.3 Codex发布了，那么给大众使用的5.3应该已经在路上了。
GROK 4.2：这个江湖传言也一直都有。特别是有传闻说GROK 4.2在韩国打魔兽争霸还是打什么游戏，已经在屠榜了，但是现在这个事并没有得到证实。现在GROK 4.2也在参加各种各样的赚钱比赛，前面不是曾经有人组织过这种赚钱炒币炒股的比赛吗？当时的GROK 4.0惨败了，现在GROK 4.2好像是在各种的赚钱比赛上都是夺得头筹，而且每一次有人发布了GROK 4.2在这个赚钱比赛上怎么怎么样了，马斯克马上会转发，所以GROK 4.2应该距离我们也不远了。

总结：大模型竞争进入“中国节奏”

一条古色古香的中国街道，街道两旁挂满了灯笼，所有的店铺都在售卖同一种发光的科技“烤鱼”，象征技术同质化和快速复制，羊皮纸，钢笔彩色手绘的统一风格。

春节（也就是Chinese New Year）都将是大模型厂商集体发疯的时间点。就是从去年开始，以后可能这个风俗习惯会保留下来，大模型的竞争也进入了中国人擅长的节奏。真正卷数学、卷科技这件事了，咱们可能未必擅长，但是中国人擅长什么？

举个例子，如果街头突然有一家饭馆做的烤鱼特别好吃，那么会发生什么？一周之后整条街所有的饭馆都在做烤鱼。这个东西不用特别复杂，大家做的也都大差不差，稍微有一些区别，但是也都能做出烤鱼来，这就是咱们擅长干的活。

所以这一波大模型大家都在卷什么？

混合注意力（就是复杂的事情多想想，简单的事情少想想）；
VRM统一大模型（直接像Gemini 3那样把视觉这一部分送到这个大模型里头，直接去训练进去，而不是像以前这样外挂视觉模型）；
编程能力提升、智能体能力提升、256K上下文，这就是咱们现在大家都在卷的东西。
在AI agent里面，不需要大模型有多聪明，都是开卷考试，他只要知道到时候该翻哪本书就可以了。指令依存度提高，降低幻觉，这个就是这一波大模型都在卷的东西。

这一次春节大家拿出来的模型应该都是符合这些要求的，剩下的就是卷价格就完事了呗。你也不需要有什么特色了，所以说这就落入了中国人比较擅长的领域里头。

最后，今年的春节应该不会无聊，应该会有很多很多新的模型，很多新的产品可以跟大家去讲。好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道，再见。

背景图片

Prompt：Chinese New Year’s Eve dinner table scene with no people, cozy home dining room interior, a round table packed with traditional dishes (dumplings, whole steamed fish, hotpot, spring rolls, nian gao, tangerines), red lanterns, red paper cutouts, knot ornaments, red couplet papers with abstract brush strokes (no readable text), warm tungsten glow, steam rising from food, hand-drawn animated film vibe, watercolor and gouache background, pencil + ink linework, visible paper grain, soft bloom, cinematic wide establishing shot, eye-level, rule of thirds, clear subject-background separation, window shows night sky fireworks bursting outside, high contrast, rich saturated reds and warm golds balanced with deep ink blues –v 7.0 –ar 16:9 –stylize 180 –chaos 5 –no people, person, humans, faces, hands, silhouettes, crowd, readable text, gibberish text blocks, watermark, logo, signature, photorealism, 3d render, blurry, lowres –p lh4so59