AI Agent – 老范讲故事｜AI、大模型与商业世界的故事

Anthropic发布法律插件：SaaS商业模式的终结与AI新变局

Luke Fan — Mon, 09 Feb 2026 00:44:14 +0000

Anthropic靠一个法律插件，就干崩了所有的SaaS软件股，而黄仁勋却觉得这非常的荒谬。这到底是怎么回事？大家好，欢迎收听老范讲故事的Youtube频道。

Anthropic在他们的Co-work上加了11个插件，不是一个。只是大家觉得法律这个插件实在是太有特点了，所以每一次都提这个法律插件。把这个插件发布了以后，全球的SaaS软件股就都崩了。这个插件是1月31号，那天是周五，Anthropic在Claude Co-work上面发的。2月3日周一，SaaS股就全线崩盘了。不光是美国的，包括欧洲的、印度的，所有的SaaS股全线崩溃。

黄仁勋前两天参加思科科技峰会的时候，就被问到了这件事情。他当时的点评是：

这件事情实在太荒谬了，完全没有任何逻辑，不应该因为Anthropic出了一个插件，就认为所有这些SaaS公司就没有价值了。

去年英伟达股价因为Deepseek暴跌的时候，黄仁勋就跳出来说Deepseek对英伟达是重大利好，你们不要卖。一年过去了，老黄说对了。那么这一次老黄说对了吗？还是仅仅针对英伟达的部分是对的？咱们来去分析一下。

今天的故事咱们分三段讲：

第一段，小小的插件为什么可以干崩SaaS股？
第二段，德勤、埃森哲他们最近也做了一些动作，印证了刚才咱们讲插件干崩SaaS股的底层逻辑。
第三段，咱们来看看老黄是再一次高瞻远瞩了，还是在打什么小算盘。

先说说这到底是个什么插件

首先它有一个工具，叫Anthropic Claude Co-work。这东西是什么？它是基于Anthropic的Claude Code——这个是编程工具——给这个东西加了一个界面。因为原来的Claude Code是在命令行里干活的，程序员用着很习惯，但是你说我是个文员、我是个律师，你让我去到命令行里去干活去，这个受不了。所以给这东西加了个界面，就有了这个叫Co-work。

这个东西也只有MacOS的客户端，在Windows里没有，现在叫“研究预览功能”，就是我现在正在研究，大家先使着。所以这个玩意也不收费。现在的Anthropic Claude Co-worker是向所有的付费用户开放，你只要交钱，好像20美金的账号也是可以用的，200美金的账号也是可以用的。只是你如果使用20美金的账号，可能跑着跑着就限流了，说你这个Token消耗太多，5个小时以后再回来，会有这样的问题。

在Anthropic Claude Co-worker发布的时候，这些SaaS股就开始有下跌的迹象了，但并不是那么明显。加上插件，他们就彻底绷不住了，直接就崩盘了。

所谓的插件，实际上是一个打包的功能集，里头包括Agent Skill也就是技能，包括连接器——比如说我可以连接Office、连接Notion、连接Slack、连接各种数据库——还有就是一些叫Sub-agent，把这些东西打包在一块了。Sub-agent它也是一个小的AI代理，只是它有独立的上下文隔离，就是它不会跟其他的任务相去交叉的，相对比较安全的一种子Agent。Co-work只要安装这些插件，就具备了相应的技能。

一共11个插件：

第一个叫做“生产力”，这名字通俗。它能干嘛？就是处理各种任务、日程、日常的工作流、个人的上下文记忆，就干这种事。比如说今天有什么邮件、最近有什么截止日期、给我安排个会议，这个东西叫个人上下文记忆，这就是生产力的插件。

然后是“销售”插件。它可以做线索研究、电话准备（我要给人打电话了，你给我先准备准备）、销售漏斗审核（销售的过程中有哪些环节用户离开了，我们要去看一看到底怎么回事）、外联文案（我要给人写文案了，应该怎么写）、竞品分析。竞品分析的目的是干嘛？写这个叫竞品对比卡片。你打电话去了，人家说别人家的怎么怎么样，那我这有一个卡片，马上就告诉你说：“你看我们这比他好，那比他好。”这是销售的插件。

然后“客户支持”插件。工单分流（因为一般做客户支持的，都是人家会给你派工单过来，我这有一个什么东西坏了，我那有一什么东西需要更新了，这个工单应该分给谁）、回复起草（收到这个工单以后，我们要怎么起草一个回信）、升级打包（包括一些软件我们要给人做一些升级，怎么来处理）、包括客户上下文研究（客户有哪些信息要跟我们这一次的支持搁在一起，客户到底提了什么样的要求）。最后要做解决方案沉淀知识库，客户这次提了这些问题，我们怎么解决的，把这些东西塞在知识库去，下一次客户再提问题了，一样的问题我们就知道该怎么办了。这是客户支持的插件。

“产品管理”插件。这是要去做开发了。产品需求和规格说明书（我们到底要做一个什么产品，也是由这个插件来写的）、规划路线图（哪一个版本有哪些功能，这叫路线图）、综合用户调研（我们做了用户问卷了，有哪些用户给我们提意见了，把这些东西要综合一下，我们做个最后的报告出来）、还有什么同步相关的岗位（我现在要开发一个新产品，或者要对产品进行升级了，跟哪些人要打招呼）、包括竞品的跟踪（我们开发新产品了，不能闷头干活，别人在干什么，我们也得盯着）。这是产品管理。

“市场（Marketing）”的插件。他们干嘛？第一个内容生产，这个是大模型最擅长的事情，写文案嘛。活动策划、品牌口吻约束（我这个品牌里头哪个词要怎么去说）、竞品的简报（别人都是怎么打的广告，销售的时候我们只需要跟他对比就完了）。然后要做多渠道效果复盘，因为市场嘛，我们需要打广告，需要打到谷歌上、打到Facebook上、打到不同地方去。不同的渠道打的广告效果怎么样？或者说我们使用不同的素材，打出去的广告到底怎么样？我们要去复盘。这就是市场插件要干的事情。

“法律”插件，这是最出圈的一个插件。它第一个可以做合同审阅，你给它一个几十页的合同，它告诉你哪有问题。一方面它接各种法律的知识库，最新的法律条文是什么样的；第二个它会接公司内的这种协议库。因为很多的合同，你不能跟以前的协议相冲突，冲突了以后你也要说，原来那个协议哪个条款我们把它废掉了，加一个什么东西，它是要有延续性的。其实法律的合同很像计算机的程序，都是很严格的约束在里头。

你要想去审阅的话，你就必须要调阅所有这些东西。以前为什么律师的工资高，大家知道吗？因为他需要把所有的东西都记脑子里，到底有什么样的新的法律条文、有哪些案例、有以哪些原来我们签过的协议跟人答应了什么事。你在审阅合同的时候，要把所有这些东西在脑子里头重新组织起来，才能去给人审合同的。现在好了，AI一把搞定。

但是你说我在做合同审阅的时候，忘了把一份协议放到这个目录里了，那他审的时候，他可能就忽略这份协议，这个协议里签的各种约束就没有了。所以这东西也不是全知全能的，但是能够干合同审阅这个事，就是很值钱的，而且效率非常非常高。比这种很牛马的一些初级律师，Anthropic的Co-work加上法律插件以后，也是一个能打10个的水平。所以为什么这个那么火。

另外一个叫NDA分流。在公司的法务部里头，处理最多的协议就是NDA，NDA叫保密协议。这保密协议长期的、短期的？是跟客户签的、是跟员工签的，还是跟什么人签的？约束的是强约束、弱约束？是双方约束还是约束一方？它里头需要做很复杂的这种分类。就是协议很简单，但是数量很大，不同的类型的NDA要有不同的处理方式。

然后还有包后边的合规导航，别回头写了好多协议本身是违法的。还有会议准备，这个太逗了，专门给法律插件加了一个会议准备。因为律师嘛，特别喜欢跟人开会，一上来就是我们先“报个名”。什么叫报名？就是告诉这个会议纪要或者录音，谁参加了这个会了，最后达成了会议结果。参加会的人是要同意的。而且在会议之前准备哪些文案，有哪些人要看哪些文件，都是由法律插件来搞定的。

最后叫模板化回复。有些什么样的问题，我们应该怎么回人家，这个是要过律师去审的，不是客服人员自己拍脑袋就可以干的，这个都是法律插件可以搞定的事情。确实会极大的提升工作效率，就把所有这些初级律师的岗位去通通干掉。

然后是“财务”插件。他们可以做分录准备、对账、财报差异分析、月结关账、审计支持。我对财务不是那么熟悉，我就给大家念有这些功能就完事了。

还有叫“数据”插件。写SQL进行数据的分析探索，输出各种数据洞察。有了这些数据怎么建模，有些什么样的规律抽出来，做可视化图表，发布前还可以做一次自检。

还有“商业研究”，就是跨邮件、聊天、文档、Wiki的统一的检索入口，一个问题在全公司的知识库里边去进行搜索，这个也是很重要的。

还有一个叫“生物研究”，这个是面向早期生命科学和医药研究的。做什么文献检索、组学分析、靶点优先级的这种分析，他们会连接各种医疗的数据库。

前面是10个插件，第11个叫“插件管理”，可以创建、订阅、修改和管理这些插件。

为什么这11个插件出来，特别是法律插件出来，SaaS的天就崩了？

前面Co-work出来的时候就讲过一次，说SaaS后边日子难过，但是这一次真的是压死骆驼的最后一根稻草。SaaS这东西的销售，它是一种乘法的销售：首先是一个套餐，然后是一个乘法。这个套餐里头第一步是什么？叫咨询服务。我现在要去进行SaaS部署了，你先来给我做咨询；我现在要去升级了，你现在给我做咨询。升级你要单独交一笔钱，你要买我一个什么功能、第一次部署培训，你要单独交一笔钱。他是这样来做的。

后边是“功能 × 席位”。法律模块你要专门交钱，这个法律模块要5个人用，那买5份；财务模块单独交钱，这财务模块4个人用，那买4份；财务模块出的报表，老板还要看，那再买一个报表模块吧。他们是这么来卖钱的。

现在这个功能收费已经不成立了。为什么？Anthropic只收套餐或者Token的钱，所有的插件都不要钱，免费的。而且插件还是开源的，这种东西你不开源也没人敢用。最后审合同的时候，为什么这么审？审对了没有？或者是你去做这种NDA分类的时候，你以什么依据来去做的？每个公司都不一样的，所以必须得开源，不开源是不能使的。而且大家都还会在插件上再做一些调整。

比如说吧，有些公司说：“我们坚决不跟360做生意。”这个不写在任何的协议里，但是我们要求在做协议审核的时候都要去审，而且我们只要是有权利的时候都要去加，只要是跟我们签了协议了，你再去跟360签协议，我们就不干了，一定要有一票否决权。

这些东西就是大家都要改的，你不可能说我给你做死了，所以都是开源的。

第三方插件现在也在快速涌现。有医疗的插件了，那我是不是做一个制造业的插件，或者不同学科相关的插件？反正是开源的，我们照着做就完了。其他平台同类型的插件也在快速被开发。大家注意这一次Co-work的11个插件只能在Anthropic上跑，你不能说我把这个插件抠下来以后上OpenAI的Codex里，或者上其他的这种平台上去跑，这跑不了，因为它里头是对Claude Code做这种强依赖的，只能在它这个平台上做的。

但是因为插件开源嘛，其他人可以照着样子做，做完了以后在OpenAI里头用，在谷歌的Gemini里用，都是没毛病的.而且现在还有一个OpenClawd（龙虾）在旁边虎视眈眈，现在也一定会有很多人在给它做各种各样的插件。比如说我们给龙虾做一个法律插件，那以后大家只要把需求写好了，然后人家7×24小时在那里就给我们把所有的协议都审核完成，这多开心。

所以这个SaaS平台再想按照功能找人收钱这事就没有了。上了Co-work插件之后，席位的这个逻辑也崩菜了。原来我这需要20个律师来审核这些协议，那我这个SaaS系统里头你要有20个席位，你要买这个法律模块乘20。现在不需要了，一个人把这20个人活都干完了，那么你买一个席位不就完事了吗？而且这一个人，我使用这开源免费的就搞定了，我只需要向Anthropic付Token的钱就完事了，或者我买一个200美金的套餐，这事解决了。那这个SaaS整个天就塌下来了。

你说我再想给你升级，再想给你做什么这些东西，那我前面开源的，我也不需要你升级了，我自己改吧改吧就完事了，或者我跟Anthropic的Cloud聊一聊，说给我调整一些什么东西，人家自己就调整，自己就更新迭代了。所以整个SaaS的底层的商业逻辑被干崩了。这就是为什么这一次Co-work上了11个插件，还是免费开源的插件，就把整个的SaaS软件股全干崩的一个逻辑。

同样的逻辑，最近在另外一个地方也验证了一次：德勤跟埃森哲

德勤跟埃森哲给内部的职位改名字。德勤是从“顾问”、“资深顾问”改成了“软件工程师几级”。埃森哲他们改的是什么？所有的职位都改成叫“重塑者”，重新塑造的意思。普华永道虽然没有改名字，但是也在强调我们以后只卖技能，不卖Title了。那什么叫卖Title？比如说我今天找德勤做一个咨询服务，或者我找埃森哲做一个咨询服务，说你看我们这个资深顾问一个小时多少钱、普通顾问一个小时多少钱、助理一个小时多少钱，他按这玩意来收钱的。现在我们就不再干这个活了，我们只是卖技能就可以了。

德勤的改名其实比Co-work上插件还要早一周多一点，它是1月22号宣布的改名。当时也有很多人出来解读这件事，但是并没有引起很多的关注，只有说谁家的股票崩了，或者整个行业的股票崩了，有很多人亏钱了，这才能引起关注。

改名的原因，其实跟刚才咱们讲的上插件这过程是很像的

因为原来这帮咨询公司卖东西，也是像SaaS公司一样，先有个套餐，然后有职位，有小时数。你要想买一个咨询服务，你说我就买一个高级的顾问，其他我都不买行不行？不行。人家高级顾问干你这一个活，每个小时贵极了，而且他必须要有助理陪着才能把这活干完，自己干干不出来的。所以他一定是多少个高级Title配多少个中低级Title。

现在就发生变化了：

第一个是交付方式变了。AI Agent出来以后，把大量的初级的、通用的产出，像什么信息搜集、初稿、对照检查、格式化，都给吞掉了。传统金字塔最底层的基座就是大量的初级职位，叫Junior职位，以及少量的Senior职位，都直接被干掉了，直接由AI Agent搞定了。所以以后再交付，还给你算一大堆的初级助理的小时数，人家愿意付钱了，这个必须要改。

第二个是定价方式变了。客户更愿意为结果和能力包付钱，而不是为了某个Title的工时付费了。所以公司就把Title直接变成了更贴近能力和产出，而不是抽象的职级。以前你说一个套餐里必须要有几个Title配合才可以这事搞定，现在大家不买账了，那你没办法，只能是跟着客户的要求走。

最后一个原因，是内部派工需要机器可读。什么意思？原来说我跟谁谁关系好，他就少给我派点不好的活，都给我派点好的活。以后不是了，都是AI派活。AI派活需要自动匹配人、项目和任务。通用的Consultant，包括助理，其实对于AI的理解是有问题的，AI没法去理解这个Consultant和这个Associate它到底有什么差异，到底几个Consultant能够对应一个Associate，当然没法去计算的。但是后边使用“工作家族”或者叫Job Family用这样的这种方式来去分工的，所以为什么它叫一、二、三级，这个对于AI来说会更容易识别。它没法去识别Consultant比Associate到底是强多少，但是后边使用工作家族以及子家族的这种方式，AI派活的时候就更容易去衡量。所以我说这是一个逻辑，两个不同的侧面在展现。

最后咱们讲讲黄仁勋，为什么说这事很荒谬

黄仁勋讲的，AI不会重新造一个新的工具的，它一定会继续使用现有的工具。所以这些SaaS公司不应该死，他们应该活得好好的，AI也要用他们的，而且会用得越来越多，所以他们应该可以继续活下去。这就是黄仁勋在讲的话。我个人其实并不认同他的观点。

为什么呢？因为这些SaaS公司并不希望自己的技能被AI所应用，他们还希望继续卖他们的“功能 × 席位”，再加上各种套餐。只要是他们想继续搞这个事情，他一定要干什么？封闭。一定是说我这个东西是有规则的，我这个东西你没弄过你就不能进来，你没有验证过我这个才是标准。只要按照这个路子继续往前走，那他们就没有任何机会。

那老黄傻吗？

说老范比老黄聪明，这开什么玩笑。人家是世界上最大公司的老板，人家肯定不傻。暴跌的SaaS软件公司跟黄仁勋可是没有任何关系的，而黄仁勋自己是Anthropic的股东，那他为什么还要讲这个话？他现在讲的是什么？他说以后写程序这件事就像打字一样，已经不值钱了。那么什么东西才值钱？叫领域专长才是核心。就是我们懂这个行业，我们知道这个行业里的各种约束，我们知道这个行业里的各种规则，这件事情才是有价值的。而至于说当我懂了这个行业里头各种规则和约束以后，把它变成软件这过程，AI就可以搞定了，不需要人了。

对于一个企业来说，你有能力搞定各种事情，这事不算价值。那么企业的价值是什么？是提出问题的能力。你说我现在可以提出各种各样的问题，而且可以一次性向AI把这个问题提对，提的很完整，这才是企业的价值。

黄仁勋的出发点就是：不要把最有价值的这些问题发到公网上去，赶快来买显卡，部署私有云，把最有价值的问题留在企业内部。这是黄仁勋真正想说的。不是说SaaS公司很厉害，而是说SaaS公司他们懂这些企业的各种底层业务逻辑，能够把这个问题描述清楚。你们要赶快买显卡，然后在自己的显卡上把这个问题描述清楚，不要拿出去。

现在Anthropic的Co-worker上面这些插件其实都是一些通用技能，没有那么多的专业技能。这些专业技能，比如酒吧，我这个酒吧里头需要买啤酒，这个啤酒还有什么保质期这些东西，那他这些通用技能是搞不定的。你需要重新去开发专业技能，而这些技能就是需要什么？你就需要去做领域专精，要能够把这个问题描述清楚。但是我们又不想把这个东西交给Anthropic，那怎么办？买显卡自己搞呗。所以老黄讲的其实是这一件事情：赶快来买显卡。所以老黄这次讲的并不是针对SaaS软件行业的，而是针对英伟达的。英伟达在未来这段时间依然会继续伟大，他在讲这样的一个话。

最后总结一下

传统SaaS软件喊了几年的AI转型，他们也没有原地踏步，他们也在做AI转型。但是只要无法摆脱“功能 × 席位”的收费方式，就很难活下去。Anthropic Co-worker Plugin仅仅是一个样板，大家都会跟上的，因为这东西是开源的。灵活开放、内容大于形式的企业会快速腾飞，而那些刻板封闭、形式大于内容的企业会死。一上来就是说我这个有规范，你不能越雷池半步，所有喊这些话的人都没有未来。

好，这就是咱们今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：ligne claire Franco-Belgian hand-drawn comic style (Tintin-inspired clear line), a European SaaS company open-plan office on a single large floorplate, main subject: perfectly orderly rows of workstations with clean desks, dual monitors showing abstract UI shapes (no readable text), ergonomic chairs aligned, cable management, desk plants, neat stationery, subtle glass partitions; one corner features a compact coffee nook (espresso machine, cups, pastries) and an adjacent glass meeting room with a long table and minimal chairs; large windows reveal a Paris spring street outside: Haussmann facades, budding plane trees, soft morning light, a few bicycles and pedestrians, slight wet cobblestone reflections, cozy-yet-precise atmosphere, cinematic composition, 35mm equivalent, medium-wide shot, eye-level, rule of thirds, clean silhouette, sharp subject-background separation, a high-contrast watercolor lighting pass, neon cyan rimlight, deep navy shadows, glossy reflections, minimal palette (ink blue, neon cyan, gold accents), extremely legible negative space –ar 16:9 –stylize 170 –chaos 5 –v 7.0 –no readable text, watermark, logo, brand names, lowres, blurry, messy composition, photorealistic, 3d, CGI, noisy grain, deformed hands, extra limbs, cluttered foreground –p lh4so59

Clawdbot深度评测：全能AI助理的成本与实战避坑

老范讲故事 — Tue, 27 Jan 2026 00:47:48 +0000

Clawdbot AI再进化，社交媒体又爆了。这一次是真的很厉害，还是尬吹？

大家好，欢迎收听老范讲故事的YouTube频道。被突然爆火的clawdbot给砸到头了，这是一种什么样的感觉？

我最近在X上面，看到很多人在晒他们新买的Mac mini，甚至有人晒了12台的Mac mini，摆满了办公桌。实在让我觉得很诧异，他们到底在干什么？后边都有一个词叫clawdbot。我一开始还没有太注意这件事情，昨天直播的时候有人问我：“最近最火的clawdbot你玩了没有？”哎呀我还没玩儿，因为最近在玩agent skills，还没有太关注到。这么神奇的东西我要去看一看。

突然爆火的原因

突然爆火的原因，是因为很多人跑出来吹了，说这个东西实在是太强了，又革命性了。2025年11月25日，这个产品就已经上线了，它是个开源产品，上线在GitHub上面。到2026年的1月，突然有很多位的网红博主开始非常用力的宣传这个产品，一下就火出圈了。这是一个住进聊天软件里面、7*24小时服务的助理，甚至有很多人给这个助理直接起了个名字。

大家要注意，我们一般不会给ChatGPT、Gemini或者是Anthropic Claude起名字，而像现在的这个clawdbot，很多人都给他们起名字了。这是一个非常非常划时代的事情，因为你一旦给它起名字了，它就人格化了。这不是那种情感陪伴型的聊天工具，这是一个帮你去办公的助理，这是非常重要的。这帮网络大V就出来吹了，说这是个人AI助理的未来形态。有人一周烧掉了1.8亿TOKEN。大家注意，这是非常关键的一个信息：使用clawdbot，你的TOKEN在燃烧。

产品形态与体验的明显差异

1. 全时驻留

它的产品形态跟体验上，跟过去的产品有明显的差异。第一个特别重要的差异，就是全时驻留。像以前我要去跟ChatGPT聊天，我要点开APP，或者我要到网站上去打开这个网页；现在这个就不用了，它就永远在线，而且功能非常完整。这也是为什么Mac mini突然销量暴增的原因。你可以命令它：

打开Word文档
打开Excel
去干任何事情，浏览网站
用iMessage跟人聊天、给人发短信

它这个全能干，没有任何问题。但是你要保证所有功能都能使的话，特别是你要使用iMessage的话，你必须要有Mac的系统，要有Mac、要有Mac mini。这是一个自托管成本很低、部署很方便的系统。大家都是买个Mac mini放在家里头，甭管是放在办公桌上，还是放在机柜里，放在电视旁边，这都不重要。但是这是你放在自己家里头的，你不用再担心任何隐私问题了。

2. 持久记忆加上主动触达

像我们现在都说ChatGPT也好，一些聊天工具也好，要有记忆，但是他们记住的东西其实非常少。原因也很简单，如果ChatGPT记住很多东西的话，他就不知道什么时候该用什么了。而现在的clawdbot他是全记忆，你跟他聊天的所有内容他都记得。

所以很多的博主上来用clawdbot之前，先会用很长的时间去跟他描述：

我是谁
我喜欢什么东西
我在干什么
我对什么东西感兴趣
我对什么东西有什么样的要求
为什么我喜欢这个球队、为什么我喜欢那首歌……

他会把这些东西通通都告诉这个clawdbot。他会记下来，记下完了以后再去跟你聊天的时候，这些通通都会变成系统资料，它就会很懂你。

而且clawdbot还有一点非常重要的是什么？就是它会主动的来去跟你聊天。原来是被动的，你不去跟ChatGPT说话，它就不会回答你任何问题，所以我们要先提出问题。而现在的话，你可以告诉他说：“什么什么时候记得提醒我干事”、“每天告诉我最近应该做一些什么什么样的事情”。不是说你列好计划让他做什么事情，而是说你觉得我应该做点什么，他会告诉你说我觉得你应该干点这个、应该干点那个，他会有很多这样的建议性的东西出来。甚至他每天早上起来说：“我今天早上起来了，把我认为你今天该干的活都给你列出来。”他可以干这样的事情。

开源且无所不能的系统

这个系统还是开源的，而且迭代的速度非常快。之所以突然爆火，还有一个很重要的原因，就是这个产品基本上是无所不能。你基本上能想到的活它全能干，包括你让它去做vibe coding，你让它指挥Claude code下去干活去，都没问题。它可以浏览各种网页替你买东西，通过agent skills和这个MCP，我们现在互联网上这些服务，它全都可以使用起来了。就是因为这些原因，这个产品突然就爆起来了。

但是你说这个里头有没有尬吹的部分？肯定有。你自己去安装的时候，你就会发现可能也没那么方便。而且如果有些人对于结果的格式要求非常严格的话，你可能会觉得他产出的东西依然是AI垃圾。但是方向是正确的，就是全时驻留、持久记忆、主动触达，这就是未来的AI助理的一个方向，而且还要最好能够全能一些，所有问题都可以解决掉。

有人说原来ChatGPT不是出过这种东西吗？原来ChatGPT你是可以通过WhatsApp跟他聊天的，为什么到这就突然爆了？因为很简单，ChatGPT你虽然可以通过WhatsApp跟他聊天，但是它只能调用ChatGPT里边这些东西。你说我想去调用外边这些东西，我想去写个Word文档、我想去做个PPT、我想去剪个视频、我想去搜集一些信息，它这个功能还是有一定局限的。他们家就是玩这套东西，所以就并没有推开。而现在clawdbot直接就爆了。

传奇的创始人：Peter Steinberger

它的创始人很传奇，这个创始人的经历还让老范很有代入感，为什么？这哥们在维也纳是一位退休程序员。老范现在也可以算退休程序员了，但是人家还是比我厉害很多了。这个人叫Peter Steinberger，他是PSPDFKit的创始人。这个产品是什么？是面向开发者的PDF的SDK框架。它给你一套框架，然后你可以写程序，通过它这套框架去操作PDF，做PDF查看、PDF注释、PDF编辑、签署、填表单，做这些功能。它的产品在iOS、安卓、Web和桌面端全覆盖。它的公司主要是提供文档、PDF相关的SDK和框架能力的。因为它有这样的一个技术背景，所以对于配置系统、跨平台交付、可观测行为、安全边界等等这些方面，都是非常敏感的。这也是为什么clawdbot这样的一个产品突然会爆起来。

Clawdbot到底能干点什么？

什么都能干。就是这么简单的一个问题。但是你说真的什么都能干嘛？跟大家讲一个笑话。岳云鹏有一次出去参加综艺，人家问他你数学怎么样？说特别快没问题。然后就出了一个问题：

26*78等于多少？等于75。

人家说你这对不？

岳云鹏说：“我又没说我算的特别对，我就说我算的特别快，你就说我快不快吧？”

所以虽然clawdbot什么都能做，但是结果到底是不是能够让人满意，就是冷暖自知了。有些人很挑剔，他就觉得这不行；这些人可能提的问题也很模糊，对于结果又很挑剔，那么他就得不到满意的结果。有些人的问题提的非常详细、非常具体，对于结果特别是格式又要求不是很高，他们就会得到满意的结果。我觉得这样解释是相对比较清楚的。那种提问题、提要求的时候云山雾罩，经常玩这个“佛祖拈花一笑”，出来的这个结果还挑三拣四的这种领导，反正伺候起来比较难吧。比较难伺候的领导，clawdbot这样的助理他也搞不定。但是有一些领导就是提要求事无巨细，只要结果正确、格式无所谓的，这些领导，clawdbot就是你最好的助理。

部署Clawdbot的风险：TOKEN在燃烧

但是如果你去部署clawdbot，一定要小心的是什么？TOKEN在燃烧。前面有人一个礼拜烧了1.7亿TOKEN，那是非常非常贵的。通常使用clawdbot需要什么？就是买Anthropic Claude 4.5 Opus 200美金一个月的Max账号。如果没有这个账号的话，这个产品会很难用的。当然了现在我们就在看Anthropic会不会封他，因为前不久Anthropic刚刚把open code的账号给封了。原来我们使用open code的时候，也可以用Anthropic的20美金或者200美金的这种Pro或者是Max账号，但是Anthropic说不行，不让你用了。所以现在还要看，它到底能使到哪天。

千万千万不要干嘛？千万不要用Anthropic的API key，你真的会破产的。那个玩意非常非常的消耗TOKEN。GPT 5.2据说也还不错，但是跟Anthropic的Claude 4.5 Opus还是有一点点差距的，最好也是用200美金的Pro账号。用我现在这种plus账号可能是比较费劲的，我准备待会把它装上，把plus账号挂上试试。还有博主推荐Mini Max，Mini Max有10美金左右的月账号，它也是一种编程账号，效果再比open code再差一些，但是人便宜。大家也可以试一试。功能都是TOKEN烧出来的，你没有那么多TOKEN，就不要指望它有那么多功能。

为什么一定要Mac mini？

这么多人都去晒Mac mini，其实并不是必须要Mac mini，最好是使用闲置的非工作主力电脑。你说我这就是上班每天用的电脑，我把这个clawdbot挂在上头行不行？最好别这么干。为什么？因为你上班的电脑第一个，它的能力很强，晚上有可能还会关机，比如说你要把它合起来，这个电脑就会关掉。这个系统是要7*24小时工作的，所以你最好不要把它放在你的工作电脑上。很多家庭有这种闲置的Mac mini，放这个上面就挺方便的。价格也不贵，也还很省电，还很漂亮。特别是最新的Mac mini M4，很小、非常非常漂亮、非常精巧，放在家里头、放在各种地方都不显得突兀。

全功能的系统配置

最好是给clawdbot配这种叫“全功能的系统”。什么叫全功能系统？就是它可以直接使用浏览器、可以跑vibe coding、可以调用office，这些东西都是可以工作的。对于本地的算力其实并没有特别高的要求，所有的AI都是调云端的算力。它通过即时通讯工具来工作。我们想去跟clawdbot聊天的时候，你可以打开：

Telegram
Discord
iMessage
WhatsApp
或者是给你发短信

都是可以的。国内的不行，像什么微信搞不定这事，因为微信对于这种机器人是封闭的，比较严格的，怕各种黑灰产。

很多人想去用iMessage，就是苹果系统的这种iMessage，这个就没办法，你必须使用Mac mini。你说我现在想整个Windows、想整个Linux上iMessage？上不去。这个iMessage也不是一个开放系统。很多苹果全家桶的玩家，特别是在程序员和AI玩家里头，苹果全家桶玩家的比例是很大的，肯定是喜欢上Mac mini的。家里头其他的闲置电脑其实也可以跑，Windows电脑也可以。但是如果你要在Windows电脑里跑，最好是装WSL。WSL就是Windows里面的Linux，现在Windows新的系统里边都是可以装一个Linux系统的。然后Linux电脑，这个肯定也是没问题的。我准备上NAS了，家里NAS已经跑了一大堆的各种各样的Docker了，它也是可以跑上去的。

云主机也没毛病。你都花了200刀去买套餐了，那你一个月花5刀去租个云主机跑这个clawdbot肯定也是没问题的。Oracle云上有免费的主机，大家可以上去玩耍一下。NAS、瘦服务器或者是在云主机上跑clawdbot，浏览器也是能用的，但是会比较费劲。vibe coding就要稍微克制一点了。如果是在你的Mac mini上，你就可以给它下指令，说打开哪个vibe coding的工具，然后在里边去给我写一什么产品出来，他自己吭哧吭哧就干活去了。你可以每天晚上睡觉之前给他布置一大堆任务，早上起来看看，完成几个、没有完成的部分你还可以去辅助一下。他是这样来干活的。你要是在云主机上，就不能干这活了。

Clawdbot是不是一次革命性的创新？

方向上肯定是。这个方向也很明确，就是无限记忆、私有部署、绝对隐私保护、7*24小时驻留、随时待命、主动沟通和提醒，基本可以解决各种问题。随着模型能力的提升、agent skills的发展，他的能力一定还会继续爆炸式增长。大模型厂商应该会争先恐后的推出新套餐了。因为有了前车之鉴，Anthropic估计过一段时间还是会封他的。这个咱们预言一下，咱们打个赌，猜一猜会不会把他封掉？前面open code用户量上去以后，Anthropic就直接把他封掉了。

因为现在买TOKEN基本上是两套玩法：一套就是你具体按100万TOKEN多少钱去算；另外一套就是给你套餐，这个编程套餐。因为现在编程实在是太烧TOKEN了，所以Anthropic出了这种编程套餐，OpenAI、谷歌都出了这种编程套餐。但是Anthropic还是希望，如果你想要去买它的编程套餐，你就只能用Claude code，你不能用其他的东西。像咱们现在讲这个clawdbot，这就不允许用。那么OpenAI跟谷歌应该会继续支持你。像open code这块，在Anthropic说我封闭它之后，OpenAI说我们准备继续支持。没毛病，你买我的plus套餐、Pro套餐，我都继续支持你。谷歌在这一块其实是放的比较宽松的，只要你愿意用，谷歌还是愿意笑脸相迎的。

国内的模型平台的话，也应该会推出一些专门的套餐，应该是会像code套餐这样，都是可以挂上使的。国内平台的code套餐基本上有5美金一个月的、10美金一个月的，甚至可能最便宜的有3美金一个月的。他们都是去仿真Anthropic的这个API形式，只要我仿真好了，就往上挂就完了，都是可以用的。

硬件与巨头的新机会

家庭瘦服务器应该有新的应用场景，以后的NAS也可以配更好的CPU GPU了。至于家里是不是要买一台Mac mini，让我再犹豫几天吧，反正我目前为止还没有下决心再去买一个Mac mini。至于Mac mini农场，也许会在一段时间内流行起来。什么叫Mac mini农场？就是在一个房间里边装一大堆的Mac mini，允许大家从远程去访问它、替你去维护，我们只管去付租金就可以了。这可能也是一种未来的服务形式。

黑苹果可能会焕发第二春。什么叫黑苹果？就是在一些比较便宜的Intel这种架构上，使用macOS系统重新去破解，然后给你装上，让你去使用。这个东西叫黑苹果。其实黑苹果随着后来苹果出M系列芯片以后，已经不是那么活跃了，但是现在的话，应该会重新再活跃起来。

腾讯、Meta、苹果、谷歌机会来了，就看谁能抓得住了。为什么他们机会来了？他们做即时通讯工具的。既然大家觉得以后的这些个人助理应该是活在WhatsApp、活在Telegram、活在Discord里头了，腾讯说我这有微信，干脆我在这边给你配一个助理不就完事了吗？你有什么事跟助理说不就完了吗？我觉得他们未来是有机会的。至于说Meta的话，你像WhatsApp是它的，Facebook Messenger也是它的，全世界最大的两个即时通讯工具都是它的。苹果自己也是有iMessage的。它们都是有机会去腾飞一下的。

最后总结一下

又一个神奇的AI工具发布了，赶快玩起来吧。甭管好不好使，大家一定要去玩起来。7*24小时永久驻留、永久记忆、主动提醒、全能助理，这应该就是未来的方向了，这个基本上可以确定。助理已经这么强大了，具体做什么就是留给我们的问题了。网上的介绍视频里头经常是这样的，他问clawdbot：“你觉得我该干点什么？”还是要有自己的想法。只要烧得起TOKEN，我们每个人都会得到一个强大的全能助理。

好，这一期就讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

谁在裸泳？GEO概念股塌房背后的逻辑：游资造势收割散户 vs 巨头构建交易闭环，三张图看懂真实商业壁垒｜数据织物、电商、欧洲投资者、市场板块

老范讲故事 — Mon, 19 Jan 2026 15:47:13 +0000

2026年开年A股AI第一波题材：GEO概念的起伏与真相

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲2026年开年，A股的AI第一波题材——GEO为什么会塌房、概念炒作的时间线、澄清公告的解读，以及GEO到底是干嘛的。

中国AI概念股的炒作难点

中国AI概念股其实不太好炒。为什么？

芯片企业：都是刚上市，市值很高，而且都还严重的亏损。这种刚上市的企业都属于是有独立行情，很难炒得动。因为你要这个时候去收割的话，里面会有很多的国资去收拾你的。为什么？因为能够给上市公司做保荐的，一般都是大国资、大央企，你要让这些人亏了钱的话，那真的不会有好果子吃。
大模型厂商：除了新上市这两个，也是不太方便炒，剩下都是大厂，阿里、百度、腾讯什么这些，这都是炒不动的。
AI Agent：Manus刚跑了，其他的老的老、小的小。要不就特大上市公司，已经是大厂了；要不就现在还在垂死挣扎，就是还没上市，也没有法搞。

所以这次好不容易逮了一个新话题——GEO，赶快炒一波。这一波实际上从12月底就开始了，12月31号开始了，到1月14号迎来了这一波的GEO的最后行情的终结。

GEO行情的时间线与逻辑

为什么从12月底就开始了？因为谷歌的行情是12月底突然就爆了。谷歌爆完了以后，不光是TPU怎么样了，而是广告又行了。大家发现，原来AI并没有杀死广告，广告收入在快速上涨。

那么GEO就成为了新的热点。原因也很简单，因为AI搜索的流量已经极大的侵占了传统搜索的势力范围，以后大家都是通过AI来获得结果的，你做做这个传统的肯定没戏了。马斯克1月10号还宣布说，要公开X的推荐算法，这更进一步的加强了Grok的概念，因为X现在的新推荐算法就完完全全是在Grok上做的。那未来一定是做好GEO的人才有机会。在这样的情况下，妖股就出现了。

“妖股”盘点：毫无道理的暴涨

大家注意我讲的妖股。什么叫妖股？就是突然暴涨，涨的还没有任何道理。

蓝色光标：2025年12月31日到2026年1月12号，涨了114.79%，翻倍了。
易点天下：一月多个20%的涨停板，就砰砰砰往上涨。
浙文互联：1月有3天的两连板。
引力传媒：7天6板，涨了84.64%。
天龙集团：10天累计涨了90%。

这都属于是中国号称是GEO概念股，他们都自己宣称说我们有大模型、我们有GEO优化的AI agent、有GEO优化的这种服务在卖，就把他们直接吹上去了。

澄清函纷至沓来：概念的破灭

然后到1月14号、15号的时候，澄清函就纷至沓来了。在中国，你如果股票暴涨，你最好是真的有业绩；如果你没有业绩的话，你就要出来写澄清函。所以中国的股市是不能暴涨暴跌的。所谓澄清函就是“否认三连”：不是我，我没有，别瞎说。

蓝色光标：发了一个澄清函：AI驱动的收入占比很小，对业绩不构成实质影响；GRO业务处于布局阶段，尚未形成稳定的盈利模式；股价短期涨幅过高，偏离基本面，存在快速回落风险。
易点天下：比蓝色光标更狠，他直接停牌了。他说我申请停牌自查，然后发了一个澄清公告，明确不涉及GEO业务，未因AI产生额外的收入，被列入GEO概念股完全是市场误解，核心业务是帮助跨境电商去做营销的。
浙文互联：他说我们倒是有，他们叫Hochi GEO，GEO智能体确实已经上线了，但是尚未形成收入，还不挣钱，无成熟的盈利模式，市场认可度存在不确定性，主营业务是数智营销服务未发生重大变化。
引力传媒：说GEO业务仍处在组建筹备阶段，无成熟商业模式，未形成相关收入，主营业务仍然是广告代理，它实际上是替人投广告的。

A股游资炒作套路揭秘

A股其实总是有很多很多的行情，这些行情大多都是怎么来的？都是游资在发起。A股专门有一种特殊的现象就是游资，他不是这种国营的，也不是量化，他就是一个相对来说比较灰色的一帮人，他们去发起各种行情。

1. 寻找概念

国内其实比较难创造出概念来，大部分的概念都是国际概念，我们就抄一个。例如：

TPU概念：谷歌芯片供应链。
Rubin概念：英伟达最新一代GPU的中国供应商。
擎天柱概念：特斯拉机器人国内零部件供应商。
脑机接口概念、OpenAI硬件概念等。

2. 筛选公司

找到概念以后，就开始生拉硬套，在各个上市公司里面去找合适的这种公司往上去套这个概念去。找什么样的公司合适？

要找小盘股，大盘股拉不动。
最好与之相关一点，上市公司也愿意附庸风雅，发新闻稿配合。

3. 炒作流程

他们整体的流程叫：概念筛选 -> 业务包装 -> 舆论造势 -> 拉高出货。这就是一个标准的在中国炒概念的一个流程。

GEO到底是什么？从SEO说起

那GEO这是个好概念。谷歌已经证明了广告不会塌方，还是王者。GEO（Generative Engine Optimization）其实跟SEO（Search Engine Optimization）类似，国外有的时候叫AEO（AI Engine Optimization）。

SEO（搜索引擎优化）

SEO是让内容或者是商品服务对搜索引擎更加优化，更加友好，可以被更多的搜索热词命中。SEO里头有两部分：

白色部分（合规）：做关键词贴合，做更多热词命中，做格式调整，让它更适合SEO。
灰色部分（排名）：提升搜索排名的位置。这是相对灰色的，谷歌、百度都不希望你做，因为这影响人家卖广告挣钱。

GEO（生成式引擎优化）

GEO就是AIGC内容生成引擎的优化，让内容更容易被AI聊天工具复述出来。GEO的效果要比SEO更加不可控一些：

无法调优：SEO可以针对热词调优，且结果是一个列表；GEO大模型每次只吐出一个结果，没有排序，你不知道距离被吐出来还有多远。
长尾效应：GEO的内容特别长尾，热词不集中。
过滤机制：针对热词做GEO会被大模型直接过滤掉，如果词跟你没关系非要蹭，信息抽取时直接就被过滤了。

关于GEO提升营收的“都市传说”

很多人在小红书上说，通过GEO提升了多少曝光和营收。这纯属都市传说。现在还没有办法去证明GEO确实能够让营收快速上升。那些卖GEO课程的人举的例子无法被证实。

虽然不排除有突出的效果，但是无法量化“做之前”和“做之后”的区别。SEO可以通过来源分析流量，而GEO的价值目前无法衡量，广告平台目前也没有开始对GEO相关的广告投放。

GEO实操指南：如何让大模型读懂你

GEO到底怎么做？这其实也是个信息系统问题：信息的输入、处理和输出。GEO要优化的是信息输入的部分。大模型摄取信息分三次：预训练、强化学习、RAG（检索辅助生成）。GEO主要针对的是RAG这个过程。

基础设置

robots.txt：必须允许OpenAI、Bing等爬虫抓取你的网站。
llms.txt：这是一个新标准文件，告诉大模型应该怎么用你的网站内容，哪个页面要、哪个不要。

大模型喜欢什么样的内容？

我们要把内容写成大模型喜欢的样子：

实体优先：把你是谁、卖什么、服务地区、价格、条款写清楚。
原子化事实：清晰的小节，列表、表格、FAQ（问答）。
结构化数据：使用Key-Value（键值对）形式，例如“地址：北京市昌平区…”。
逻辑清晰：因为A导致了B变成C，这种逻辑关系大模型喜欢。
单一事实来源：价格、库存、活动、规则写在一个页面里，不要分散。
时间戳和版本：生效时间、截止时间、更新日期。
引用和凭证：提供资质、第三方评价、公开证据，并附上链接，通过大模型的核查。
JSON格式/API：最好直接提供JSON格式的数据交互API，或者提供MCP（Model Context Protocol），让大模型直接调用。
可验证的身份和一致性：统一的商家名称、门店ID、电话等，跨平台必须一致。

谁最应该做GEO？

目前最应该去做GEO的是那些高客单价、强信息不对称、决策链条特别长的品类。因为客户会用大量的时间跟AI聊天来明确决策。

旅游：信息不对称，行程安排复杂。
保险
B2B软件
医疗服务

GEO的商业困境：谁能赚到钱？

为什么A股公司纷纷澄清？因为GEO生意目前很难做。广告生意有三个要素，GEO目前都无法满足：

归因：AI还没形成交易闭环，很难证明交易是AI带来的。
可规模化：AI推荐规模不可控，非常长尾。
可持续性：AI引擎机制（大模型、搜索、排序）每天都在变。

最终谁能挣钱？

最终还是广告平台（谷歌、Meta、字节、阿里、腾讯）。当广告平台开始接受投放和竞价排名，并实现交易闭环（如谷歌UCP、阿里千问APP打通淘宝/飞猪/饿了么）时，这条路才能走通。

GEO服务商（如蓝标等）只能赚取咨询费和数据加工费，天花板较低，最终还是要靠代理投放挣钱。

总结

A股开年的第一波AI概念行情就翻车了。在中国的股市上，各种概念满天飞，但大多是游资割韭菜，不要太认真。最终的大钱只有谷歌这些平台才能挣到。其他的GEO概念股只是物料制作和投放代理，赚点边边角角的钱就完事了。

不过，GEO确实是有效果的，只是效果比较难以衡量和评估。对于提供内容和服务的人，还是建议好好的把GEO做起来，顺应时代潮流。

中国顶尖大脑闭门承认：我们做不了0到1，只能等美国验证方向后疯狂内卷！算力差距高达百倍，为何说超越机会仅剩20%？｜中美AI競爭 AI競賽中國AI 美國AI AI創新

老范讲故事 — Tue, 13 Jan 2026 00:49:51 +0000

中国顶尖AI企业的大脑们：承认中国不擅长做从0到1，但擅长做从1到100

中国顶尖AI企业的大脑们，坐在圆桌会议上，终于承认了中国人不擅长做从0到1，但是很擅长做从1到100。

大家好，欢迎收听老范讲故事的YouTube频道。

中国企业超越美国同行的机会不超过20%。中国企业将算力都用在了做交付上、做确定性的事情；美国则是将更多的算力用在做新方向的探索上。中国一旦发现了明确的方向，会快速赶上，会在很多的点上做的比美国更好。

背景：AGI Next 闭门峰会

这些话是在什么时候传出来的？1月10日，有一个会叫AGI next，算是一个闭门峰会。这个会是刚刚上市的智谱他们组织的。因为是闭门会议，所以我们只看到了一些总结归纳，并没有看到完整的视频。前面有一些演讲，最后有一个圆桌会议，四个人在上面进行讨论。前边咱们讲的这个“暴论”，就是在这个圆桌会议里边出来的。

圆桌会议的四位嘉宾

唐杰：智谱的创始人。他的发言逻辑中充满了矛盾，这种做ToB项目的人很难逻辑自洽的，所以他的发言后边我们会引用的比较少。
杨强：香港科技大学荣休教授，加拿大皇家科学院工程院院士。他站在学术界的角度上，讲的很多东西跟我们日常所熟悉的也是有很大差距的，所以后面引用他的话应该也不多。
姚顺雨：腾讯刚刚从OpenAI挖回来这兄弟，他是CEO总裁办公室首席AI科学家，算是前OpenAI研究员。这哥们是一个绝对的聪明人，很多地方都有独到的见解，逻辑很清晰，但是也很圆滑，不太会踩坑。
林俊旸：这个字我不查还不认识，左边是一个日，不是木——他是阿里巴巴通义实验室、千问的技术负责人。这哥们是个直男，上面那段话就是他说的。很多大实话别人都绕着说，只有他敢直接说。

主题一：中国不做0到1，而擅长做1到100

访谈分为几个主题，我们先说“中国不做0到1，而擅长做1到100”这一段吧。主持人提了一个问题，先问的是姚顺雨，这个问题是什么？在3-5年以后，全球最领先的AI公司是中国团队的概率有多大？从今天的跟随者变成未来的引领者，需要哪些关键条件？

姚顺雨的观点：乐观与现实

姚顺雨还是比较圆滑的，所以上来先说概率还是很高的呀，我很乐观。然后就开始说实话，毕竟是个技术人员嘛。他说任何一个事情一旦被发现，在中国就能够很快的复现，在很多局部做的更好，比如制造业、电动车都是这么干的。

然后姚顺雨提出了大家都知道的症结：第一个光刻机跟算力的瓶颈是不是可以突破？他说我相信可以突破。另外一个说我们也是有很大优势的，我们的优势在于电力优势，我们电很多，而且很便宜。

中美实验室文化的差异

当然了，主持人也不可能就这么放过他，就接着问他说：中国实验室里边的研究文化跟美国有什么区别？这个姚顺雨继续很油滑的在那抹稀泥，他说美国实验室之间的区别比中美实验室之间的还要大一些。

抹完稀泥以后，接着说大实话。他说在中国，大家还是更喜欢做更安全的事情，只要方向被证明了，再难中国人也愿意赌一把。什么意思？他说你看预训练这事搞明白了，那中国人就要冲上去搞。这个东西不是说别人干明白了，你就直接就可以抄的，还有很多细节、很多的技术难关要冲上去解决。但是只要中国人发现美国人走通这条路了，我们就冲上去孤注一掷，把这个事几个月之内搞定。所有没被验证过的事情，是没有人敢上的。

关于“刷分”现象

他也讲到了现在有一些新的方向，所以这些方向中国人基本上是不干的，都等着美国人去验证。而且他讲说中国人比较喜欢刷分，但是刷分现在已经越来越不重要了。

他举了两个正面案例吧，没有举谁喜欢刷分这种反面典型，毕竟智谱的活动嘛，智谱的老板还在上头坐着，你如果点名字的话，这时候会很难看的。所以他讲了：

Deepseek：就不太重视刷分这件事，但是大家还是很喜欢使用Deepseek的；
Anthropic的Claude：其实很多分数并不高，没有它原来所在的OpenAI的分数高，但是大家依然很喜欢用。

所以刷分这个事其实没那么重要了。

主题二：算力差距与“穷人”的创新

后边就是林俊旸这个直男出来了。当然直男也不傻了，理论上在这个场合是不可以泼冷水的，上来先说：“你们想让我说什么我知道，你在这让我说点难听的，这事有问题。”但是直男还是忍不住要说实话。

算力差距：一到两个数量级

他说美国的算力比中国大一到两个数量级。什么叫大一到两个数量级？几十倍到几百倍的这种差距，差非常非常多。说美国大量的算力投入了下一代的研究当中，中国算力本身就捉襟见肘，交付新产品就占用了绝大部分。

什么叫交付新产品？就是我要出新的模型，这个模型是一定要上线、要开发布会的，比如千问3、Deepseek 3.2，或者马上要出的Deepseek 4。这个东西叫交付产品。而美国人说我们可以实验很多东西，这些东西是不会交付的。OpenAI到底有多少模型他们训练完了以后最后没有给大家端上桌？不知道。中国就是我每次只要是消耗了算力，一定要拿出点什么来，咱们讲的投入产出比，所以这个是有很大差异的。

富人创新 vs 穷人优化

然后他在讲，说创新到底是发生在富人手中还是穷人手里？他说穷人也不是说就不能成功，穷人更多的是在做什么？算法基础设施的联合优化。他说这个事富人基本上是不干的。

什么叫算法基础设施的联合优化？咱们去看Deepseek那些论文，就是我怎么用更少的卡、怎么用更少的时间，能够训练出跟你一样的东西来。人富人说我有的是卡，不费这劲，我直接研究我怎么做出最好的东西来就完事了。

所以这个过程有点像什么？有点像中国油漆工在那刷油漆，人家说你必须要刷10遍。他第一次刷了10遍；第二次刷了9遍，说好像看不出来哈；第三次就刷了8遍，或者是就刷了7遍，看看也差不太多；再下一次刷了6遍，然后被人看出来了，这事不行，那下次我就刷7遍。就中国人好多的这种聪明才智都用在这上了。

关于冒险精神

而且他也讲到了，说年轻人的冒险精神越来越强了，而美国人天生有非常强烈的冒险精神，他希望把更多的算力给年轻人。其实这一点我是没有那么同意的。现在的年轻人到底有多少冒险精神？去看看现在考研考公的这个数量，大家就可以自己去想象。但是年轻人里头总还是有一定比例的人愿意去冒险的吧。

为什么上岁数人就不爱冒险了？很简单，爱冒险的人都在家里头录YouTube，都被淘汰了。所以中国整个的职场环境会把爱冒险的人通通都淘汰掉光，剩下温和的守规矩的人留在里边去循规蹈矩，去做这种确定性的事情。所以这是中国的一个很大的问题。

那主持人发现了直男，那不能放过他呀，接着问他说：“你给个数吧，3-5年后世界最领先的公司是个中国公司的概率到底有多大？”

这哥们想了想说：“20%吧。”

20%已经是非常乐观的数据了，我估计这哥们说这话之前也是咬着后槽牙想了半天，还是得对得起自己良心，所以就给了个20%的数据出来。

主题三：模型分化——ToB 与 ToC

除了这个问题之外，他们还在圆桌会谈里头讲了一些其他的东西，比如说模型分化。模型分化就是不是说所有的模型必须要按一个方向去训练，现在他们也发现不同的模型是有不同的用法的。特别是OpenAI跟Anthropic的竞争以后，他们就说没有一个唯一的正确解。那么怎么来分？就是ToB和ToC。

C端模型：垂直整合与超级APP

说如果是C端的模型的话，是可以做垂直整合的。因为很多人在讲模型及应用，或者叫超级APP，实际上都属于C端的东西，比如ChatGPT，比如豆包，都是有巨大的日活，他把所有的功能都整合在一起。而且这样的模型必须是模型跟产品强耦合进行迭代，就是我每一次升级必须要去升级模型的，你说我光把这个APP给你升级了，这玩意没用的，它是这样的一个架构。

而这里头腾讯明显是一个C端公司，而剩下的甭管是阿里也好，还是智谱也好，都属于是B端公司。

B端模型：智能至上

而B端的模型跟C端就不太一样了。因为C端模型你只要是把产品体验做好了就OK了，其实模型本身并不需要那么聪明；而B端模型就是要往上堆能力了，越智能越好。

Anthropic就属于一个典型案例，只管推出更强大的模型就完了，至于B端的应用是由集成商或者是agent开发商他们去搞定。而且这些人会毫不犹豫的去选择最贵、最好的模型与服务。你比如说有20美金一个月的，有200美金一个月的，那些B端的人一定会毫不犹豫的去选择200美金一个月的。

他说原因很简单：比如说20美金一个月的模型，你解决10个问题里头错5个；而200美金一个月的模型，你解决10个问题里头他只错1到2个。把5个错的答案挑出来，这个成本是非常非常高的；或者说你把这个错误答案直接混到结果里头输出了，这个成本是非常高的。你付10倍的钱去订阅是一点都不亏的。

所以Anthropic是不管这个用户到底有什么需求，我是不是把它从头到尾都满足掉，然后进行垂直整合，它不管这些事，它就是一次一次的憋大模型。我只要把新模型推出来，剩下你们就跟着干就完了，你们去做AI agent，你们去做各种的应用，我只管把模型往前推。而且我做多贵的套餐都有人定。这是一个不同的玩法。

主题四：自主学习、Memory与下一个范式

然后讲到了自主学习和memory，以及下一个范式的问题。

自主学习与平滑过渡

自主学习可能是AI发展的下一个方向，或者说到AGI之前，我们必须要解决的一个问题。就是大模型你不能等着人去训练你，你要自己去不断的往前学习。

其实现在的模型跟服务通常也是在不断变强的，服务能力的提升不再像以前那样必须要发新版本了。原来我们在期待说Deepseek V4、Deepseek R2、GROK4、GROK5，Gemini现在有3了是不是要有3.5？原来我们在每天盼这样的大的产品发布。

他说以后不是这样，以后就是很平滑的在往前过渡。你比如说像Claudecode，或者是其他AI agent的产品，或者是一些服务，他每天都在迭代。包括cursor这些编程工具，每天都在升级，每天都在迭代。我们在使用这些产品的过程中提的各种问题，都会快速的成为产品的新特性，让更多的人去受益。说这就是一个自我学习的过程。

Memory（记忆）的重要性

下一个是memory，也就是记忆。大家一致认为记忆是下一个阶段的发展重点。记忆可以通过整合上下文和环境信息提升用户的体验。这是姚顺雨在讲，因为他们是腾讯的，腾讯里头有大家微信聊天的上下文，有你这么多的聊天记录，有你的朋友圈。那他真的没有比微信更懂你的人了，那如果他把这些内容可以有机的整合到他们的模型里去，那微信去跟普通人聊天真的是无往而不利，让你买什么你就买什么。

为什么举这样的一个案例？因为最终还是要变现嘛。只是现在的memory还没有那么聪明，因为给大模型一大堆信息以后，它很难去确定说我在这一次沟通的过程中到底应该用哪些不用哪些。用多了以后这大模型反而会变傻，因为你输入的TOKEN太多了嘛；如果用的少了，或者说你用错了记忆，那这个可能还不如不用。所以现在这一块肯定是未来的一个重要方向。

而且memory还可以带来持续学习的可能性。前面咱们讲的是自主学习，既然自主学习是一个连续的过程，那我们有这么多的记忆，就可以拿着这些东西让大模型也好、让服务也好，可以持续的学习和进步下去。这两块可能都是渐进式发展，并不会有一个跨越式的提升。

谁将引领下一次革命？

AI前面有两次成功的范式转型：一个是聊天，一个是推理。这两次都是由OpenAI来引领的。那主持人就去问姚顺雨，如果自主学习和memory这有可能成为下一个范式的话，下一个重要的这种革命的话，你认为谁会领导这一次革命？

姚顺雨想了半天说：“大概率可能还是OpenAI。”

并没有说拿了腾讯的offer就说这个事一定是腾讯，估计日子也没那么好过。

主题五：出海与通用 Agent

讲完了这一块以后，他们还讲到了出海。这个还是要从ToC还是ToB讲起。这个里边其实逻辑很难自洽。

逻辑的矛盾

为什么？智谱的老大上来讲说这个ToC很有机会，我们很看好ToC，但其实智谱自己是做ToB的。姚顺雨所在的腾讯明明是一个C端大厂，因为他做微信、做QQ、做游戏嘛，但是他也在努力的说我们要去做ToB的东西，要去做AI智能。这到底是为什么？因为你ToC的话就要去跟豆包去竞争去，大家又打不过他。

然后他们讲到了什么？就是我们的经济环境很好。讲完了这句话以后这又很难圆回来。为什么？如果经济环境很好的话，ToB这一端就会有机会，企业的付费意愿就会很强。但是他们的讲法都是这样的：我们的经济环境很好，而且越来越好，但是我们的企业付费意愿很差。基本上都是按这样的一个逻辑在讲的。就是它的逻辑很难自洽。

通用 Agent 与长尾问题

讲完了ToC、ToB以后，大家就接着往前走，说那怎么办？那出海吧。我们都想去做ToB，那咱们就出海。ToB其实就是去做AI agent，大模型已经有了，我们把这agent挂上就完事了。

这里边就提到了一个另外的概念，就是通用agent。其实现在的所谓AI agent有很多种，有些是我们去拼工作流、去做工作流设计，有些是做提示词的堆叠。但是还有一种就是你给它一个任务，它自动的去完成这种通用任务的。在这林俊旸这个直男就讲了，说这个通用agent套壳到底算不算？他讲了这么个话。当然他也知道这话不能乱讲，他就接着往前讲这个事的魅力就在于解决长尾问题。

说真正头部的问题，就是特别有经济价值的问题，因为有足够多的利益来吸引，所以很多人会冲上去解决；而那些长尾问题其实是没有那么多人会冲上去解决的，所以通用agent还是非常非常的价值的一个方向。

房间里的大象

大家也就讲到这儿就完事了。为什么这话题就停在这儿了？房间里的大象，有人零星提起，但是都不敢深入。这房间里大象是谁？你想出海还做通用agent的，不就是manus吗？没法说呀。你把它提出来，那后边怎么弄？你说到底是审查通过、审查不通过，还是一个什么情况？人家拎桶跑路了，跑新加坡去了，上那边洗白去了，最后还没洗白。这玩意你没法讲。

所以为什么说在出海这个话题上大家都显得很别扭，都觉得ToC有机会但是又都想做ToB，又说国内的经济好但是国内ToB的付费意愿又特别差。出海又没法细聊，出海现在跑的最前头这个排头兵被摁那了。所以他们就显得非常非常的矛盾。

老范的总结与观察

最后总结一下吧，一群中国AI的顶尖大脑，他们开了一次闭门会议。

谁没来？

字节百度没来：和阿里腾讯不是一头的。
MINI Max没过来：正在跟智谱这儿别苗头。智谱头一天上市，它可能过了一两天再上市；智谱上去以后跌破发行价，MINI Max直接上来一飞冲天，所以你不能来。
Deepseek也没来：Deepseek估计在憋大招。现在传闻今年2月份过春节的时候，Deepseek有可能上V4，还是值得期待一下的。
Kimi：前面演讲的时候他说了，但是后边并没有参加圆桌。

原来有这样一故事，说领导生病了，有些下属过来去看望他。人家就问那领导说：“这么多人都来看你，你能记住谁是谁不？”领导说：“谁来了我记不住，谁没来我能记着。”所以咱们刚才讲了谁没来。

什么没说？

下边咱们讲什么话没说。世界模型、空间模型、VLA这些东西都没提，因为这都不是这几家专长的。其实千问自己还是有一点点VLA的，但是大家都没有提这件事情，这个也都属于是方向没有那么明确，大家不愿意在里边投入。具身智能提了一句，也就仅仅提了一句而已。

大家在谈什么？

大家在谈的是当前国内所关注的方向上，美国人做了哪些尝试。不是说我们自己做了哪些，而是美国人做哪些，我们准备后边去往前推哪一块。比如说刚才咱们讲的自主学习、memory，这都是美国人正在努力往前突破的方向。一旦他们在这些方向突破了以后，国内估计会快速跟进。

最后承认中国人不愿意冒险，做那些确定性很低的事情，呼吁了一下要把更多的卡给90后和00后。这里头不是还有一位学界的吗？说我们也要把更多的卡给学界，不要把这些卡都留在企业手里头。

讨论的结果

他们所讨论的这个结果是什么？中国会在美国指明的方向上奋起直追，确实会在一些领域超过美国，特别是我怎么能够在达到同等效果的情况下更省钱，在这块我们一定会超过美国的。其他的只能尴尬而不失礼貌的微笑了。

最后的感悟

看完访谈以后，老范有什么感受？中国不擅长做0到1的创新并不是人的问题，而是缺乏试错容错的环境。上岁数的人敢冒险的都被淘汰了，所以剩下的人只能去做1-100了。

一群顶尖聪明的AI从业者，在小心翼翼的围绕着难以自洽的逻辑，以及不能说的实话，尽可能的表达自己的想法。看完他们的访谈之后，让我想起了马斯克对AI的要求：不能逼AI说谎，否则会出事的。

好，这期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：Ultra-detailed luminous watercolor + crisp ink line architectural poster of a Beijing AI company loft open-plan office interior, realistic industrial materials: exposed fair-face concrete slab ceiling, blackened steel I-beams and columns, galvanized cable trays, linear HVAC ducts, large factory grid windows with sheer roller shades, glass partition meeting rooms with acoustic seals, polished concrete floor with sharp glossy reflections, long reclaimed-wood communal tables with aluminum legs, ergonomic task chairs, cable grommets and tidy power rails, minimal ceiling acoustic baffles, a clean LED strip “data ribbon” along a wall in neon cyan (abstract, no readable UI), bright high-key daylight + warm gold pendant practicals + subtle coral specular hits, deep navy gradient only in distant recesses, neon cyan rimlight on edges, crystal-clear atmospheric glow, cinematic wide interior composition, strong subject separation, huge clean negative space for headline banner, medium-wide eye-level 35mm, rule of thirds –no text, watermark, logo, clutter, extra limbs, lowres –ar 16:9 –stylize 120 –chaos 6 –v 7.0 –p lh4so59

游戏天才到诺奖得主，他凭什么断言AGI只差临门一脚？揭秘哈萨比斯开挂人生背后的逻辑｜Demis Hassabis、Google DeepMind、AGI 时间表、5到10年

Luke Fan — Wed, 10 Dec 2025 00:58:24 +0000

谷歌Deepmind的CEO说：“我们与AGI之间，只差一到两个AlphaGo级别的技术难关了。”

大家好，欢迎收听老范讲故事的YouTube频道。

现在Gemini 3正在大杀四方，谷歌里面负责开发Gemini的部门叫Deepmind，他的CEO出来接受访谈，关注度还是比较高的。

谷歌Deepmind的首席执行官叫德米斯·哈萨比斯，2025年12月4日接受了一个访谈，是在旧金山举行的Axios AI大会。和他对谈的人呢，是Axios的创始人和主编，叫Mike Allen。在这上面他讲到说，我们距离AGI还差一到两个类似于AlphaGo这样级别的突破，突破过去就可以了。

哈萨比斯：爽文男主般的开挂人生

哈萨比斯到底是一个什么样的人呢？绝对的爽文男主，挂b一样的存在。

从国际象棋神童到认知神经科学博士

哈萨比斯是一个英国人，Deepmind本身是一个英国公司，后来被谷歌收购的。他呢，76年在伦敦出生，这个姓氏是个希腊姓氏。他的父亲呢，是来自塞浦路斯的希腊裔，而他的母亲呢，是来自于新加坡的华裔。所以哈萨比斯呢，可以算是半个华人。

从小，这哥们是一个国际象棋神童。像这样的人，肯定都是有异于常人之处。4岁就开始下棋，13岁就达到了国际象棋大师水准。8岁就用自己的国际象棋奖金，给自己买了台电脑，开始学习编程了。

本科和硕士呢都是剑桥的，学的CS就是计算机科学，在校期间一直代表剑桥参加各种国际象棋比赛。博士呢是伦敦大学学院，专业方向是认知神经科学和神经科学。

从游戏制作人到AI先驱

工作，这哥们一开始做游戏的。先去加入了很著名的牛蛙工作室，这个牛蛙工作室呢，最著名的作品叫做《地下城守护者》。但是哈萨比斯当时进去的时候，应该还没有开发这个产品，牛蛙工作室最终是被EA给收购了。后来呢，他自己创建了一个工作室接着做游戏，叫做仙丹工作室。2004年出了一个游戏叫《邪恶天才》，是一个模拟经营游戏，就是一帮邪恶天才在一个小岛上做各种各样坏事的这样的一个游戏。只是呢，这个游戏并不怎么挣钱，这种超级天才做出来的游戏都未必能挣钱。

他呢就把工作室关掉了。后来呢，《邪恶天才》的IP被收购了，2021年《邪恶天才2》发布，但是呢，《邪恶天才2》就已经跟哈萨比斯没有什么关系了。

关闭这个游戏工作室之后，他就去创建了Deepmind。Deepmind主要还是游戏方向，他呢在里边去训练AI下围棋。这哥们是个国际象棋大师，但是呢开始训练AI下围棋，也就是AlphaGo这个东西就出来了。在这中间呢，还训练AI去打各种游戏，星际争霸呀，做一些其他这样的训练。

收购、AlphaFold与内部整合

2014年，Deepmind就被谷歌给收购了，6.5亿美金的价格。但是这个数字呢，并不是特别统一，很多的报道里的这个数字是有一些偏差的。有人说是4亿美金，也有人说是6.5亿美金，还有人说是4亿英镑。因为收购的时候，谷歌自己并没有公布价格，这些价格呢都是后续的报道里边去写的。

在谷歌收购以后呢，哈萨比斯在Deepmind里头又开发了叫AlphaFold这样的一个产品。这个产品是解决蛋白质折叠难题的。蛋白质实际上是这种超大分子，这些超大分子，我们算清楚有多少碳、多少氢、多少氧、还有氮，它并不是一个平面的结构，它是一个立体的结构，3D的。在这样的一个结构里头，它到底是怎么去排列和折叠的呢？原来大家是去预测呀、去猜呀，或者通过一些很复杂的设备去进行扫描，通过这样的方式去识别，成本是很高的。你要想去用蛋白质开发各种药品，你就必须要搞清楚它的3D架构空间，你搞不清楚，这事没法往前走。

哈萨比斯就去搞了AlphaFold，用AI去预测蛋白质的3D折叠空间到底是怎么回事。2020年呢，这个AlphaFold在蛋白质预测大赛中夺得头筹，比第二名强好几倍，这个事基本上就算解决了。现在只要是知道这个蛋白质的分子结构，这个AlphaFold的预测结果就极其准确。2024年，哈萨比斯依靠这个AlphaFold获得了诺贝尔化学奖，这哥们是个诺贝尔奖得主。

这还没完，他呢还在内部斗争中战胜了谷歌大脑。这是一个什么故事呢？谷歌内部一直是有两个AI部门的，一个是Deepmind，另外一个叫谷歌大脑，相互内斗，相互争夺资源。直到什么时候呢？直到ChatGPT出来，三年前谷歌拉响了红色警报，说不能再这样了，你们俩两家打来打去，这个不行了。那怎么办呢？最终是Deepmind合并了谷歌大脑，所以现在整个的谷歌AI是由Deepmind来去负责的，由哈萨比斯来去管理。

现在的Gemini 3使用的技术，大多都是原来谷歌大脑研究的方向：Transformer、大语言模型都是那边研究的。而Deepmind呢，原来在英国这帮人研究的呢，就是AlphaGo、AlphaZero（AlphaZero是AlphaGo之后的一个下棋的模型）以及各种可以自动玩游戏的AI产品，还有呢就是AlphaFold，做这个蛋白质分析的。

哈萨比斯除了是Deepmind的CEO之外，他自己还有一间专门做药的公司，专门用AlphaFold去做蛋白质研究，做各种新创新药的公司，他也是那个公司的创始人。所以哈萨比斯管理了整个的谷歌AI方向，以及谷歌Gemini这个产品化方向，都是归他管的。所以，爽文人生，绝对没有任何问题吧？

通往AGI之路：还差哪两个AlphaGo级别的突破？

哈萨比斯认为，我们距离AGI到底还差哪两个AlphaGo级别的突破呢？他自己做AlphaGo的，所以AlphaGo到他这儿变成了一个衡量单位，再出现两次AlphaGo这样的突破，我们就达到AGI了。

Gemini 3的惊人进展

他呢首先讲到Gemini 3，现在确实让人震惊，已经从文本专家变成了多模态理解系统了。他举了一个案例，说有一个电影叫《搏击俱乐部》，主角上去打斗之前把戒指摘下来了。他就去问这个Gemini，说这代表什么意思。它没有告诉你把戒指摘了就完了，而是告诉你说，这是主角抛开了身份、摆脱了规则的象征，是角色从现实到极端的转变。这个确实挺让人震惊的，这个Gemini 3模型有了自己的判断，不再只是迎合了。

到GPT这儿，你说你错了，它就会说“对不起，我错了”。到Gemini 3上，你说你错了，它会很耐心地给你解释，或者跟你去讨论这个事，是不会直接承认的。说Gemini 3的性格，叫“简洁，冷静，有自信，不讨好”。这个是哈萨比斯自己作为一个科学家，非常非常喜欢Gemini 3的一个地方。

而且Gemini 3呢，现在已经从生成内容，在向着打造产品的方向前进了。我们现在使用Gemini 3去做PPT，去做简单的应用原型，效果已经非常好了。它已经可以去执行一个比较简短的、连续的这种AI agent的工作了，这个是Gemini 3真正强的地方。

大模型当前面临的难题

哈萨比斯说了，现在的大模型还是有很多问题没法解决的。

不具备持续学习的能力。很多人都在担心，说我跟大模型聊了半天，是不是大模型就拿聊天的结果回去做训练去了。其实有时候确实他干，但主要做的是什么呢？就是强化学习。因为我们跟Gemini聊天，他经常会出俩答案让你挑一个，你在挑选的时候呢，实际上就已经在开始帮助大模型进行训练了。但是搜索的结果、我生成的内容、我提出的问题，我让这些东西去进入到大模型里头去进行训练的话，这个是不行的。大模型必须要进行数据筛选，然后才能训练。日常的这些内容，你拿去训练大模型的话，大模型可能会越训越笨的，特别是很多互联网上的垃圾信息，你塞到大模型里去训练，根本就没有办法达到预期的效果。所以大模型是没有办法自己去找内容去训练的，还是需要人先去提出要求，然后去进行数据清洗、数据处理。现在都是由大模型根据原始数据，再去生成最后的预训练数据，然后才能再去训练。所以这个事情，还没有办法让大模型自己去干，这是第一个问题。
无法执行长期的规划。虽然现在Gemini 3已经可以走一个一两个小时的规划，它还是能够走完的。但是你说我这有一个很多步骤，还是并行的，这种步骤需要去执行，执行完了以后需要连续执行几天、甚至几个月的这种任务，这个Gemini 3还搞不定。现在谁都搞不定这个事情。所以现在人去使用大模型，我们还需要自己去理解问题、自己去拆解问题，然后把这个拆解好的问题扔给大模型，而在对大模型的结果进行确认和验证之后，再把结果拼凑起来，让大模型去做下一步。它没有办法说你一开始给他个要求就做出来，“上帝说有光，于是就有了光”，这个事现在还做不到。
智能体系统很不稳定。为什么它没法连续干下去？就是它可能干着干着就跑偏，而且跑偏的过程中呢，自己不知道跑偏。在这个过程中，就有可能会浪费大量的TOKEN和算力，最后呢得出一个完全不可用或者说有害的一个结果出来。这个是目前为止大模型无法避免的问题。
缺乏跨对话的稳定记忆。现在大模型已经开始有记忆了，但是大量的记忆呢，还是在对话内的。而对话外的这种记忆，就是跨对话的记忆呢，它也不是说没有，像ChatGPT也好、Gemini也好，都是有一些跨对话记忆的。但是呢，这个记忆的空间都很小，你不可能说让他记很多的东西，然后跟你进行跨对话的去聊天。为什么呢？对于计算机来说吧，让它记住什么事是非常非常容易的，往硬盘里写不就记住了吗？但是让它忘掉是很难的。到底应该记住哪一部分、忘掉哪一部分，在下一次工作的时候我应该使用其中的哪部分去参与工作，这件事是非常难去抉择的。这就是大模型跨对话记忆的这个难点。所以他讲的，现在缺乏跨对话的稳定记忆，就是你让他记住可以，但是呢不一定下次就想起什么事来，可能他会找一个完全不相关的知识点，就参与到你这一次新的对话里去了。现在我们使用大模型的方式还是比较简单粗暴的，你发现讲着讲着驴唇不对马嘴了，怎么办？开始新话题，就是把原来的记忆都清干净。我们开始一个新的，甭管是Gemini也好，还是ChatGPT也好，它会有一些跟我们个人相关的这种个性化记忆。比如说我就告诉这个ChatGPT：“你记住了，我叫老范，我是个Youtuber，每天都要做什么事情。你要给我去总结信息，或者我要找你提问题，你要先去经过验证才能给我。”就这些玩意，我是可以让他记住的。但是如果你给他特别多的东西让他记，或者说我们在整个的聊天过程中让他把所有聊天内容都记下来，他就没法干活了。

两大关键突破点

这些问题关键的突破点是什么呢？咱们前头讲了两个关键突破点。

世界模型：让AI理解物理世界的运行规律，这个是非常重要的。Deepmind内部呢，有一个叫Genius模型（天才模型），这呢是一个世界模型，通过物理一致性和时间连贯性生成虚拟世界，最后输出视频的。大方向上呢，跟李飞飞的方向是比较接近的。但是Deepmind的这个模型，是更接近于游戏世界一点点。这个哈萨比斯，不愧是从游戏公司里出来的，人生的第一份工作都是对一个人有重要的作用的。
智能体系统：现在Gemini虽然也算是智能体，但是距离智能体系统还是有一些差距的。什么是智能体系统？就是从回答问题到完成任务。现在Gemini依然是在回答问题。他说未来呢，Gemini会嵌入眼镜、工作场景和工作流里面，能够记忆、推理或者是代办，不再只是回答问题，而是直接完成各种各样的任务。你让他做一个什么事的，切咔切咔给你做完了。可以自主规划、执行任务，并且根据结果调整的这种稳定的智能系统，这就是未来方向。

所以呢，两个AlphaGo级别的突破，一个是世界模型，第二个是智能体系统。

谷歌：科研领域的“怪物”

讲到这儿，要再跟大家啰嗦几句。其实大部分的科技公司，是无法想象谷歌的运作方式的，就像是大部分国家的人也无法想象中国是一个什么样的存在，是一样的。

中国的这种存在方式呢，联合国里边专门有一个效应，叫“中国效应”，就是各种统计的时候，一定要把中国排出去。为什么？因为你一旦把中国加上，所有统计数据就没有任何意义了。咱们举一个最简单的例子，吃西瓜。全世界的人都没法想象中国人到底一年吃多少西瓜，咱本身人就多，咱们一年大概吃全世界70%的西瓜。你把这个统计起来，全世界每个国家大家平均吃多少西瓜，你把中国算进去，这事没法算了。包括像什么发电、炼钢，只要是跟制造相关的，你就不能把中国搁里头统计，因为这个完完全全是另外一个维度了，它会让整个的统计结果完全失衡。中国属于是全产业链内卷，而且全产业链都产能过剩的一个国家。

谷歌呢，在科研上就有点像中国在产业链上的这个状态，很多方面呢都会尝试和探索。谷歌呢，具有非常高的人才密度、充足的科研经费，还有海量的数据，这个是缺一不可。而且呢，这些科研团队，他们的时间压力也不是很高，大家就自己按照自己的喜好去研究就行了。他们还在不断的收购新的、最前沿的公司，Deepmind就是买回来的嘛。

谷歌在AI领域里头，同时在探索强化学习（AlphaGo、AlphaZero这些产品）、认知架构、神经科学建模，以及Transformer大语言模型，这些都在研究。不是说我们觉得哪块有机会了，我就往这一个方向去研究。我记得特别清楚，我进入盛大网络参加入职培训的时候，他们就跟我讲说：“全世界只有一种游戏，这种游戏叫MMORPG，其他都不行。”后来我说那我们玩的其他游戏，他们说：“那些游戏不挣钱，我们不研究那个，我们只研究这一个最挣钱的。”这其实是大部分的公司的思考方式，我们既然已经证明了这玩意挣钱，其他的不挣钱，那咱就研究这就完了，特别很多中国公司是喜欢走这条路的。

但是谷歌不，它是所有的方向都要去试一试。而且很多方向呢，你都不知道什么时候能挣回钱来，他也要去试一试，比如说量子计算。前面咱们还专门讲过谷歌的量子计算是怎么回事。很多的这种科技成果，都没有办法给谷歌挣钱，也没有办法在谷歌内部取得成绩，很多人最终是离开了谷歌才创业成功的。现在的AI行业里头，创始人或者是创始的核心团队，大多都在谷歌混过。所以现在我们所看到的AI行业，或者叫AI革命，你基本上可以认为是一帮从谷歌出来的人在去折騰这个事情。

中国呢老说自己是“睡狮”，一旦被吵醒了会很吓人的。谷歌在科研领域里头，其实也是这么回事。拉一次红色警报，就有可能拎出像Gemini 3这样的大杀器出来吓唬人。现在Gemini 3火了，但是谷歌依然不会去收敛方向，照着唯一正确的方向前进，这不是谷歌的路子。谷歌的路子是什么？还是全面探索，严格追踪数据表现，保留多个可能性，并且不断验证。

普通公司能够解决当前的问题，预言一个未来的热门方向——大家注意，不热门他不去干，去一定是热门方向——他们才会愿意说我花一点精力、花点钱去折腾。像谷歌这个，都是这么多方向，哪块云彩下雨都不知道，到底什么时候做出来也不知道，就开始撒人、撒钱进去干活去了。在普通公司里头，能够去预言一个热门方向的，就已经算是很强的了。大量的都是别人做出来，特别是谷歌做出来，他在后边再接着跟着改。而且这些公司实在是搞不清楚什么是热门方向，或者热门方向搞不定怎么办？还有一条最简单的路：上谷歌挖人，或者直接从谷歌出来创业。这个就是普通公司跟谷歌之间的差异。所以谷歌呢，在科研领域里头完完全全就是一个怪物。

总结与展望

好，最后总结一下吧。谷歌Deepmind的CEO哈萨比斯，携Gemini 3成功之势参加了Axios AI大会，说再有一到两个AlphaGo级别的突破，就可以实现AGI了。这两个是什么呢？就是世界模型以及智能体系统。可能要5到10年，把这两个实现了以后，我们就达到AGI了。

本节目的特点，咱们八卦了一下哈萨比斯的开挂人生，也稍微介绍了一下谷歌这个绝对的科研领域的怪物。我们也希望谷歌，以及所在谷歌里头工作过的这些人，未来还会给我们带来更多的惊喜。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

微信支付宝联手封杀，豆包手机凭什么搅动万亿市场？一场围绕“小院高墙”的攻防战已经打响｜豆包手机助手 AI Agent 生态壁垒 AI手机跨App

Luke Fan — Sun, 07 Dec 2025 01:06:28 +0000

豆包手机带来的启示：替代手机的AI设备，可能还是一只手机

大家好，欢迎收听老范讲故事的YouTube频道。

谦卑的发布：豆包工程样机

豆包手机12月1号发布的，非常非常谦卑和谨慎的发布。首先，它叫“工程样机”，或者叫做“技术演示版”，而且只做了3万台，没有再多做，也没有说我发布了以后，大家来赶快跟我合作啊，这些都没有。对吧？用非常非常谦卑的方式进行了发布。

这个机器，应该是中兴下面的努比亚M153，它的配置算是现在标准旗舰机的配置：

高通骁龙的至尊芯片
16+256的内存
背后三摄，前头一摄

大概就是这样的一个情况。标准旗舰价格大概3,000来块钱，具体3,000多少其实也不重要了，配置到底是什么样也不重要了，配置里头只有一件事情是很重要的，叫“同质化”。

“同质化”的手机市场

现在的手机，你不看牌子，你根本分不清谁是谁，完完全全同质化。一个大直板，一个大屏幕，后边两到三个摄像头，正面一个摄像头，没了。其他可能侧面有点按键就完事了，也就如此了。所以现在的手机就是同质化，你说我想在这个基础上走个什么高端化，那你只能编爱国故事了，否则你真走不出高端化来。就算是苹果手机，其实在同质化这块也没有好到哪去。对吧？刚才咱们讲的这些东西，你再拿出一个苹果来，是不是也是一大直板，后边来仨摄像头，前头一个摄像头？总体来说相差不大。所以，现在的手机同质化是非常严重的。

AI Agent的能力：突破传统的手机体验

那么，能够做到的事情肯定是很多，因为它使用了一个模拟点击的方式，直接侵入了各种的应用，直接在这个上面替你去点微信，替你去点支付宝，替你去点游戏，做所有事情都做了。你可以直接在上头说：“哎，我现在想吃午饭了，帮我去看看最近有什么券，有什么优惠，帮我去找一找，挑一个最合适的这种套餐，各个平台给我横向比较一下，我要去点外卖。”这个他都可以直接做到。能做的事情，肯定是传统的手机无法望尘的。

冲突爆发：当AI Agent挑战“沙箱模式”

这样的一个手机发布出来，冲突的爆发就是必然的了。原来的手机都是走的沙箱模式。什么叫沙箱模式？甭管是苹果还是安卓，我们是一个大的操作系统，下面的每一个应用都在沙箱里面，大家只可以访问自己的数据，这样相对来说是比较安全的。像我以前在猎豹移动做清理工具，我们要干的活是什么？就是突破沙箱，因为我们要把其他应用的垃圾删掉。但是这个事情后来是被安卓限制了，苹果从来就不允许干，安卓原来是允许干的，后来也不让干了。

现在呢，豆包说：“来，我要突破沙箱，进去点微信，去进去点这个银行账户，帮你去做支付，进去点支付宝，去到美团、到抖音的外卖平台里头，我去看一看谁家的更便宜。”他就要干这样的事情。那么，这肯定是大型的平台、超级APP所不能容忍的。

第一个挑战者：微信的封禁

第一个跳出来的是谁？是微信，直接上来给封了。你只要是在手机上启动微信，直接微信就退出，说：“对不起，我发现后台有驻留程序，有黑客要攻击我，我直接退出了。”如果你坚持登录，他会封你的账号。那大家就害怕了，因为现在你把微信账号封了以后，那这个人就不是一个人了。你像我现在要想证明我是我，我需要在微信里头找到我的驾照、身份证、医保卡，什么都在里头，还有各种的支付全都在里头。所以，微信现在通过这样的一个方式，说你们不能去用豆包手机。

豆包做了一些退让和修复。豆包手机里头不再监控微信了，只要是跟微信相关的任务就不执行了。再把这一步退出来以后，微信允许登录了。任何的程序，只要敢监控微信了，只要敢在上面挂着了，就通通不登录。如果能够从外面操纵微信，咱们不说其他东西，最简单的一件事：抢红包绝对手快。呃，以前我们经常说我睡觉了，有人在群里发了个红包，我睡醒了以后错过一个亿。现在不用了，你直接可以让豆包在后台盯着，谁发红包，直接上去收不就完事了吗？但是微信是不允许你干这件事的，这对于微信来说非常非常危险。

连锁反应：更多超级APP的抵制

微信之后，淘宝、支付宝、农行、建行等应用，也都进行了封禁。你想通过豆包的AI agent去访问淘宝、访问支付宝、访问建行、访问农行，通通不允许。只要发现有模拟点击的操作，就直接退出，如果反复登录就封账号，用这样的一个方式来进行了抗争。

豆包的退让与调整

豆包也做出了一些调整。它调整就是，所有这些什么淘宝、支付宝、农行、建行，包括其他的各种金融机构的APP，通通都不操作了，往后退一退。其他的包括什么刷券、什么签到，这个也都不干了。因为如果可以自动刷券、自动签到，也相当于是对那种辛辛苦苦刷券的人是不公平，所以这个也不弄了。还有的一些游戏也不参与了。原来可以说，我手残，我打不了游戏，现在这个豆包，你替我打。现在通通都不干了。为什么？因为你一旦是用豆包这样的系统来替你打游戏，你比如说你打了个手残游戏，这也就算了，你要是万一打一个双方赌博的游戏，比如说我们现在利用豆包去跟其他的人打这种24点，那这玩意谁还赢得过你？豆包算二十四点，那玩意算多快？给你4张牌，怎么加减乘除乘出24来，肯定普通人是没法跟他玩游戏的。所以豆包说这个游戏也不打了。等于对所有这种跟支付相关的、跟敏感操作相关的、跟公平性相关的（刷券、刷卡、签到的这种），还有跟游戏相关的（像刚才我们讲算24点这样的），就通通都退出来了。

“小院高墙”背后的博弈

为什么像微信、支付宝这些人要去玩这个“小院高墙”？我不能允许你进来，我必须要把它封起来。安全确实是一个绕不过去的问题。我们以前是做这种云端虚拟手机的，可以在上面模仿各种操作，模仿你去加入别人的微信群，去群聊，去发各种信息。甚至有些人说我去炒股了，加入了一个炒股微信群，最后发现那群里200多人，只有他一个是真人，其他全都是机器人。像我们以前专门投资过这样的案子，这个对于微信来说是绝对不允许的，太容易骗钱了。所以安全确实是一个绕不過う的问题，建行、农行这些，他们确确实实是有安全审核的责任。但是像微信、支付宝这样的，更多的是希望把流量留在自己的平台上，实现流量闭环，在流量内部去赚取超额的利润。

那你说这些平台，甭管是不是有私心，让用户更安全，这不是好事吗？曾经就有人说过：

“用户为了方便，是可以放弃隐私，放弃所有安全的。这些东西都没有任何意义。”

这话谁说的？这话是李彦宏说的，百度的李彦宏。当时他做百度的手机助手的时候，人家说你怎么侵犯用户隐私？（他说）我只要给用户方便了，用户不介意的。这种事属于是能做不能说，你去做这本身没毛病，用户也确实会用脚投票，但是如果你站出来说，就有点过分了。

当然，平台肯定会为了变现、为了自己的利益，高举安全大旗，说你们不可以侵犯用户隐私，不可以做这些不安全的事情。这个里边做的最过分的是谁？就是苹果。苹果是号称必须要安全，必须要保护用户隐私，我们把这些数据都通通藏起来。但是苹果最后得到的是什么？就是原来像Facebook这样的公司，可以通过苹果的一些数据去挑选用户，说我展示这个广告，我只给这部分人展示就可以了；展示另外一个广告，给另外一部分人去展示。这样的话，可以让每一次展示的点击率上升。他原来有一些数据，是可以获得这些信息的。后来苹果说不行，我这有一筐的萝卜，你不能光挑这光溜的买啊，你必须得蒙上盖头，把烂萝卜、小萝卜和好萝卜按统一的价格一起买走。实际上就是隐私保护，对于像苹果这样的公司最大的好处。

另一条路：华为鸿蒙的“规矩”

那你说应对“小院高墙”，有没有什么其他的方法？有啊，华为的鸿蒙就有一套自己的玩法：自己盖个房子，自己定规矩，邀请愿意遵守规矩的人入住。用了这样的一个方式。那他怎么控制微信呢？鸿蒙是可以控制微信的啊。鸿蒙系统里头依然是一个沙箱，各自玩耍，不允许访问其他沙箱里的数据。但是，鸿蒙要求微信去开放很多的接口。鸿蒙有专门的鸿蒙AI agent接口，要求微信去对接。这样，如果微信对接了鸿蒙自己的AI（它叫“小艺”），就可以通过这些接口去访问微信内部的一些功能，包括支付、订阅一些内容的这种使用，它都可以直接通过这个接口去做。但是它的方式就是我要求你开接口，我给你接口规范，最后开不开、怎么个开法，是微信自己来决定的。大家都是在统一的协议的基础上，咱们来商量着干。微信前面之所以跟鸿蒙兼容搞得这么费劲，好多接口他也不愿意去接，但是鸿蒙说你必须得接，有这样的强制要求的。微信也是跟他们折腾了半天。但是具体开哪个接口、给多少权限，是微信自己可以控制。

像今天的豆包，就不用费这劲，我也不跟你商量，直接去读这个屏幕上的所有信息，分析了以后模拟点击了。他是这样来干的。鸿蒙属于虽然很霸道——“我自己盖了房子，我自己定了规矩，邀请你入住，但是你必须守我规矩”——这是一个相对比较霸道的方式。豆包玩的是什么？我不跟你说什么，我这有一个新的楼，你敢进来，我也没规矩，我直接闯进你们家去，该干什么我就自己干了，你们也别说什么，你们也没有能力去说。因为他是直接跟手机厂商合作，拿到了最高的权限。所以这是两种不同的玩法。

未来展望：豆包手机的下一步棋

前面也讲了，微信、淘宝、支付宝、建行、农行去封禁了豆包的AI agent，那么豆包也做出了各种退让。后边该怎么办？因为它前面就发了3万台工程样机、技术演示版，用了非常谦卑的方式发了3万台，秒光，马上发出来就没有了。而且现在这些手机的二手回收价格已经翻番了，它原来是3,000多，现在二手市场上都卖到一万多。还有一些人在租这个手机，一天600块钱。你现在去租一辆小米汽车，一天都租不到600块钱，他租个手机一天600块钱。很多人要去尝试产品到底怎么样。

呃，很多用户使用了以后，或者评测了以后，也都觉得这可能就是未来的方向。那字节跳动会不会赶快加班加点再做一款？不会的。人家讲了，下一批等明年年底再发布，中间这一年我们啥也不干，收集一些数据，重新训练模型，做各种的调整。那你说为什么中间他不干？或者说字节为什么不愿意自己做手机？因为他也很清楚，现在他这种手机的运作方式，别说微信和支付宝不乐意了，现有的法律法规也都是不能允许的。因为现有的法律法规要求是，每一个应用只能够搜集自己必须的用户隐私，然后在此基础上为用户提供服务。任何情况下，如果你搜集的用户隐私超出了必须的范围，都会被警告，都会被封禁，工信部会直接下文点名他的。所以我们只能叫做工程样机，叫技术演示版，不能去快速的铺开。而且在这样的一个监管环境下，直接跳出来跟各大手机厂商、跟各大超级APP的提供商刚正面，不划算。因为你只要出的量大了以后，一定会被政府机构点名的。所以现在不做，明年一年都不做，明年到年底再出来干活。

但是在这样的一个情况下，已经给大家打了样了：未来的手机可能就是这样。我们不再被这些APP、被这些沙箱所困，我们可以让这个手机完整地去执行一个跨APP的任务。比如我们可以去比较京东外卖、美团外卖和淘宝闪送，谁家的套餐更便宜，直接去下单，谁家发了券了，这个券应该怎么算，他可以直接来干这个事情，非常爽。未来很多的服务，肯定会在这一年之中发生变化，更多的产品和服务会选择直接提供API，或者完善他们的GEO。什么叫GEO？SEO大家知道叫搜索引擎优化，GEO就是生成式AI的优化，更容易被AI agent所选中。以前很多的网站都要做SEO，现在很多的网站要做GEO。那么未来可能很多的服务也要做好GEO，让AI agent可以更好地去选中它。那么这些服务和产品会对AI agent更加开放，这就是这一年应该会发生的故事。

“我们走后，他们会给你们修建学校和医院，会提高你们的工资。这不是因为他们良心发现，也不是因为他们变成了好人，而是因为我们来过。”

这个话是谁说的？叫切·格瓦拉。豆包手机在整个的手机生态里边，就是在起这样的作用。

AI硬件的终极形态：可能还是一部手机

那么，AI硬件可能是另外一只手机，这是咱们的标题。很多人在AI出来以后，都在去尝试做下一代的AI硬件，有AI Pin，有AI的各种设备，他们都在避免让自己长得像手机。但今天看到了豆包手机以后，我发现下一支AI设备，继续长得像一个手机是没有任何问题的。它只是把里面的操作系统和APP干掉。硬件，其实手机现在这个形态就已经很好了：一个大直板，完全同质化的硬件，后边有摄像头，前面有摄像头，有一个屏幕，可能再稍微的有几个按键，开机关机、声大声小就够了，其他啥也不需要了。这个东西是我们通过智能手机时代已经验证过的智能设备形态，我们继续使用这个形态就挺好了。

目的与手段：第一性原理的思考

那你说这些设备跟原来的手机到底有什么区别？这里我们要搞清楚一件事：目的、手段和第一性原理。我们要去社交，要去跟人联系，这个东西是我们的目的；通过微信，这是手段。把这个事情我们要搞清楚。而所谓的第一性原理，就是我们只要目的，只要结果，手段是不重要的，手段是可以重新去定位的。咱们去看看，前面封杀豆包手机的这些人，其实他们都是什么？他们都是手段。微信实际上是个手段，我们最终的目的是为了跟别人去沟通；支付宝是个手段，我们最终的目的是支付。那么只要是把这个支付的过程通过API包装起来了，我们就不再需要支付宝了，我们直接就可以实现我们的目的，让AI直接把结果做掉。所以遵循第一性原理，我们可以把手段抛弃掉，直接得到目的。

是不是还会有人继续搞“小院高墙”呢？还会。但是这些搞“小院高墙”的，会越来越被压缩。大家最后说算了，我不用你不就完事了吗？未来的各种服务，不再会说你必须要进来验证了以后才能用，不会变成这样了，而是写好自己的简历，或者是叫功能描述，直接在AI agent上面去挂靠，等着AI Agent的出来翻牌子，未来可能会变成这样的一个状态。通过模拟点击的方式，算是直接拆房子，已经是震慑到了现在这些做超级APP的公司，让大家看到了用户是如何用脚投票的。携程想要让大家来订酒店，或者是美团想让大家在我这订外卖，那未来这些人，他们就干脆说我提供服务，你们这些AI自己来挑就完了。他们会通过做GEO（AI的生成优化）获得AI的青睐，说你们下次再去订酒店的时候，优先推荐我的。当然了，最终肯定不是说单纯的做GEO，最终一定还是得花钱，花买路钱。当然，买路钱未来就是像豆包、像OpenAI他们会去收。以前携程的微信小程序，我要让别人在微信小程序里找到我，我必须要到腾讯那边去交买路钱，以后就通通到豆包这来交就可以了。AI会根据功能的描述来决定，我在做一个完整的项目的过程中，到底调哪些功能。未来会变成这样，直接实现结果。

AI Agent开启的全新可能

而且，当AI agent真正的能够去运转起来以后，更细致的差异和匹配就有了可能。现在比如说我们去使用美团、拼多多，里头有非常多的优惠券、各种的套餐、各种买几减几这些东西，这个已经没有办法变得更复杂了，因为已经复杂到头了，我现在已经基本上看的这些东西就直接晕菜了。但是当有了AI以后，再复杂的这些套餐，都是有可能被AI理解和实现的。比如说我已经规定好了，喝普洱茶的人，你们今天去买我的陈皮一定会打折的。我喜欢买张三家的普洱，买李四家的陈皮，以前都是这样的，我们会去看，说张三家的普洱是什么样的一个折扣，李四家的陈皮是什么样的一个折扣。但是这次，张三家的普洱跟王五家的陈皮做了一个联合的活动。原来我们要想去做这样的复杂比较，是很痛苦的。但是现在agent就可以一次性把这事搞定。他说这个捆绑起来，发现王五家的陈皮好像评价不是很好，那算了，咱们不要去捆绑了，咱们还是买张三家的普洱，买李四家的陈皮。他来替你来做这个决定。很复杂的这些操作就都可以实现了，那么这样交易就会变得更加的活跃，这个一定是最重要的。

而且未来的游戏可能就不再是说，你看我这个算24点，AI算的比人快，就不会是这样了，可能会有更多的直击心灵的游戏、娱乐方式，让我们可以在AI的帮助下享受更大的愉悦，这可能才是未来的游戏与娱乐的形式。最简单的，我们现在看电视剧，它这个电视剧是直接拍好的，不可能说根据我个人的喜好随时去发生变化。但是有了AI以后，它就完完全全可以根据我的个人喜好去发生变化。我喜欢某个明星演的某个角色，那他可能到我面前就是这个明星演的；我希望里头某一个地方有一些新的分支，哪个人应该提前死掉，或者哪个人不要死掉，那么AI都是可以实时来生成这些东西的。在这样的情况下，就不需要再推荐了，它直接就知道我需要什么，就直接给我生成我最喜欢的就够了。那可能未来整个的娱乐方式也会发生改变。甚至一些原来已经有的技术，只是因为复杂度太高，没法去推广的技术，也可以在AI agent的帮助下得以大量的普及与推广。这个讲的东西叫“智能合约”。当有智能合约的时候，这些AI agent可以去自动地阅读智能合约的各种说明，然后来决定是不是来帮你去实现这些合约。

所以未来的智能终端，应该是一个长得像一只手机一样的、但是有全新系统的一个智能设备。所谓的原生AI手机到底是什么？是由AI agent控制，可以玩更复杂的业务逻辑，打破APP的壁障，解决各种问题的一个设备。它长得是不是像现在的手机这件事，一点都不重要，那都是形式，真正重要的是我们能够解决问题。

谁将赢得AI硬件的未来？

那么谁最有可能走通下一步呢？真正做出这样的AI智能设备（我们就不要再管它叫手机了）。现有的超级APP是不会束手就擒的啊，微信、淘宝、支付宝都不会。用户也不是必须要使用这些手段，用户需要达到的是目的。不是说我一定要通过微信跟你联系，我只是需要跟你联系。为了达到更重要的目的，用户也愿意放弃和牺牲一些东西。我记得在iPhone 1发布的时候，iPhone 1的电池续航不是很好，就是每天必须要充电，连续打电话的时间大概是50分钟还是几十分钟，就跟当时其他的手机比都没法比。当时其他的手机是可以待机两三天，甚至有的可以待机一星期的，连续打电话可以打几个小时。但是大家为了使用iPhone，最后说，我们愿意放弃这些不那么重要的东西。我记得当时的用户留下了一句名言：“如果乔布斯认为我们每天打50分钟电话就够了，那我们每天就打50分钟电话。”

不知道大家现在每天还打多长时间电话？我现在已经很长时间不打电话了，就算是需要跟人进行语音通话，也都是使用微信或者是Discord，我是不会再直接打电话了。现在我能接到的电话，除了送外卖的之外，都是垃圾电话。电话已经彻底沦为了可有可无的东西，甚至很鸡肋的一个东西。所以一些服务会被抛弃掉。用户在iPhone面前选择了放弃超长待机、放弃超长通话，他们觉得社交更重要。大家注意，打败电话和短信的不是iPhone，而是什么呢？是Twitter和Facebook。就是iPhone之所以能够成功，一方面它设计确实很好，另外一方面非常重要的是什么？就是当时的社交网络已经大行其道了。大家觉得我在手机上可以刷Twitter了，可以刷Facebook，我可以随时拍照，可以随时发上去，这个才是真正打败打电话的需求、打败收短信的需求的核心底层逻辑。所以最终永远是目的打败手段，不可能说我通过手段来绑架你的目的。

还有一些不愿意接受妥协的，比如说其他那些手机厂商怎么办？他们最后就被淘汰了，像诺基亚，直接最后就没了。银行本身并不需要这些流量，他们只需要提供基础服务就好了，他们是会屈从的。当然也不是通过模拟点击这种方式，他们还是会提供API或者是类似的这种接口，来向AI agent提供相应的服务。或者是，有一些愿意承担中间责任的第三方去做银行接口，也是有可能的。

更有可能成功的玩家

那么，如果自己本身就拥有超级APP，拥有巨大的流量和完整的用户场景，那么这样的厂商去走下一步就更容易成功一些。你说我原来什么都没有，我做了一个大家就来使，就像华为这样，我原来啥也没有，除了做手机我啥也不会，那我做出一个新的手机来请大家来使，这事就没法整。他只能跟一个一个的，像微信、像抖音去跟人商量去，这就很麻烦。但你说我原来自己就有超级APP了，有用户了，他就更容易一些。

字节跳动：他有今日头条、有西瓜视频、有抖音，包括抖音里头还有小程序、还有抖音直播、有抖音电商、有抖音团购、抖音支付，他是完整的一套东西。那么他去做相应的这套服务就会更容易一些。对吧？这一次豆包手机跟字节家自己的产品配合的就很好，没有哪一个说我把你封禁掉的。比如抖音就不可能说把豆包手机封了。以后微信把豆包手机封掉了，那说我们不需要微信来沟通了，我们在抖音里边，它也是有群聊的，有这个抖音聊天工具，我们在那里聊就完了，为什么一定要到微信里去聊？他就可以去替代。因为我们最终要解决的是沟通的问题，而不是要用微信，微信是个手段，我们刚才讲了。那你说我现在要买东西，那我就别去淘宝了，我直接在抖音里买了不就完了吗？那你说我要叫外卖，抖音里也可以叫，你为什么要出去叫？我要打车，那以后抖音是不是也可以打车？那么，他实现这套系统的阻碍就会小很多。那其他那些人说我不愿意跟你接了，像微信说我不愿意跟你接，那你不接就不接呗，这有什么大不了的吗？你再过个两年，可能大家就愿意接受这件事情，我不在微信里跟大家聊天了，我在抖音里跟你聊天不就完事了吗？所以字节实现这套体系的可能性是比较大的。
X (马斯克)：马斯克讲了说我要再做一个微信，我要再做一个超级APP，我要让人在这里边做所有的事情。他还有自己的xAI group整套的模型，自己还能做硬件，他能做汽车，能做火箭，能做卫星，那他去做下一代的手机应该也不难。所以，X也是有可能能够走通这条路的公司。
谷歌：这个没有任何问题，现在最强模型Gemini 3在人手里头，安卓系统本来就是他的。现在谷歌也说，我们准备做新的操作系统了，安卓还是要退休了。
OpenAI：这肯定也是有机会的，OpenAI已经挖了iPhone最早的设计师回来，他其实也在做类似的事情。在做AI硬件这件事情上，千万不要纠结这个东西为什么长得还像手机，不是问题，解决用户需求才是最重要的。长得是不是像原来的手机，这事一点都不重要。

面临挑战的巨头

Meta：是比较痛苦的，没有自己的大模型，自己的大模型团队现在正在分崩离析。如果未来他没有办法做好自己的大模型的话，那这条路他走不通。
腾讯：它其实跟Meta的情况比较像，虽然它是超级APP，手里有大量的用户，但是它没有大模型这一块，对于它来说也是比较痛苦的。它不可能说我整个做完了以后交给DeepMind，这个挺难的。
苹果：其实跟他们的情况也很像，自己手里没有模型，这个模型是别人的，甭管他最后是用Gemini还是用OpenAI，这个都是很痛苦的。那你说现在苹果里头也没有搜索，用谷歌搜索，苹果手机照样比别人卖的贵很多，为什么到AI这块就不行了？很简单，AI时代同质化会更加严重。我们要的就是这个手机，你只要经用就可以了，至于你这个手机的其他的附加价值、品牌价值就都已经不重要了。所以苹果在未来想要转过这个弯来，要么有自己的大模型，要么就沦为努比亚呀、或者是小米这些相同的一个境遇，我们就生产同质化的设备就可以了。所以这个对于苹果来说也非常痛苦。

总结：豆包手机捅破的窗户纸

总结一下，豆包手机算是捅破了一层窗户纸，他通过我不跟你商量，直接上来就干的方式来解决问题，但是展示了一下未来的一种可能性，而且向整个行业证明了用户喜欢这种交互方式，还可以通过这种方式搜集用户数据。他为了这一次的展示，用了非常谦卑、非常谨慎的方式：工程样机、技术演示版、只有3万台。做完了以后不会马上更新迭代，也不会去跟别人合作，也不会自己做手机，而是明年年底再去准备出下一版。他用这样的方式来给大家演示了一种可能性：未来的智能终端，可能长得还是手机的样子，但是内核已经完全不同了。

好，这就是今天的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA

Luke Fan — Fri, 05 Dec 2025 01:06:50 +0000

Deepseek V3.2，12月1号发布了。是不是又遥遥领先了呢？

大家好，欢迎收听老范讲故事的YouTube频道。

Deepseek V3.2的发布应该是12月1日。我们始终没有等来心心念念的Deepseek R2。在今年春节的时候，深度求索突然发布了Deepseek R1，算是扔下了一颗深水炸弹，把整个AI圈都震动了，甚至还造成了英伟达股价的闪崩——一段时间内闪崩吧。甚至老黄都跑出来喊，说：“Deepseek发布对我是利好，你们不要卖英伟达的股票。”大家就一直等着这个R1，既然这么厉害，咱们上R2。但是等了这么久，都没有等来R2。

Deepseek V系列版本回顾

下面呢，我们来捋一下Deepseek V系列的版本到底是怎么样的一个发布过程。

Deepseek V3 (去年12月26日发布): 这是非常非常重要的一个版本。实际上我们后面看到的所有版本，包括R1，都是在Deepseek V3的基础上进行微调、进行蒸馏、进行强化学习。今天发布的Deepseek V3.2，也依然是在这个版本的基础上做出来的。
Deepseek V3-0324 (3月24日发布): 主要是在专项能力上做了一些增强，比如说编代码或者写文章。
Deepseek V3.1 (8月21日发布): 主要是工程化和智能体方面做了增强。因为当时大家都要去做AI agent，而之前的版本在AI agent这一块都比较弱。
Deepseek V3.1 Terminals (9月22日发布): 这个版本叫V3.1的终极版，实际上是对V3.1做了一些修复和精调，并告知这是V3.1的最终版本。
V3.2 EXP (9月29日发布): 一个实验版本，在V3.1终极版的基础上加入了DSA技术。最主要的变化是降价，直接把API调用的价格砍了一半。
Deepseek OCR (10月20日发布): 一个很小的模型（约6G），用于图片解释，效果很好。
maths VR (11月27日发布): 专门做数学推理和数学证明的一个版本，在各种数学题测试中评分非常高。
Deepseek V3.2 正式版 & V3.2 special 特别版 (12月1号发布): 本次发布的主角。

V3.2，是不是遥遥领先了呢？

那么这一次的V3.2，是不是遥遥领先了呢？各种评测数据确实非常亮眼，但是呢，我们要看到它的评测数据里头实际上是有两个数值的。一个数值呢是Deepseek V3.2做出来的，一个数值呢，是Deepseek V3.2 special做出来的。

它的Deepseek 3.2 special这个版本，确实是比Gemini 3 Pro、GPT5.1都要强，但是我们大部分人，实际上没有办法去使用这个V3.2 special。它这个正式版的V3.2呢，属于是接近了GPT-5.1的水平，各项评分都很近，有个别的超过吧，大部分呢跟GPT-5.1很近的一个位置。

甚至呢，还有人出来讲，说GPT到现在3周岁了，现在Deepseek反超回来了。很多人就讲说GPT被Deepseek吓到了，其实跟Deepseek没关系，主要是被谷歌吓到了。

V3.2 Special：一个跑分工具？

你说V3.2的special版本的评分，不是已经超越了GPT-5.1和Gemini 3 Pro了吗？你怎么还说跟国外有差距呢？首先要注意，V3.2 special是一个基本上没法用的版本。为什么呢？

就是它的推理、它的运算确实非常强，但是呢，它在工具调用、AI agent的使用这一块都不能用，因为它就是会解数学题，它是一个偏科天才，除了写数学题之外，他啥也搞不了。所以呢，他做各种的评测分数很高，但是你实际使用他，你是没法使的。

而且Deepseek V3.2 special这个版本只能用到12月15号，在这之后这个接口就直接废掉了。所以那个产品就是跑分用的，不是给大家用的。发布V3.2 special呢，也是有一点点赶鸭子上架。当然有很多人说，这个就是Deepseek R2了。

V3.2的核心技术：DSA算法

那么V3.2到底是怎么训练出来的呢？实际上Deepseek V3.2，是在Deepseek V3.1 Terminals这个基础上进行的继续训练，基础大模型没变。这个里边最关键的特性，就是降本增效。

降本：Deepseek稀疏注意力算法 (DSA)

它直接把成本对半砍，就是降50%的API调用成本。里边呢，使用了一个叫DSA的算法，Deepseek稀疏注意力算法。通过一个叫闪电索引的功能，它不是对文本里边的所有词进行运算和匹配，而是先评估哪一块比较重要，哪一块不太重要，我们把重要的部分拿去做下一步，不重要的部分直接扔了。通过这种方式呢，它极大的降低了长上下文的处理成本。

长上下文是必须的，因为AI agent需要调用工具、搜索、使用本地知识库。所以只能在长上下文的基础上想办法去降低成本。

增效：与V3.1对齐并强化

在实现了DSA的算法之后，它还要跟Deepseek V3.1 Terminals这个最终版进行对齐，确保性能不能退步。这就是这一次V3.2在V3.2 EXP的基础上做的一个很重要的更新。

所以呢，9月29号V3.2 EXP，第一件事是先把价格打下来：

输入 (缓存不命中): 100万TOKEN两块钱人民币。
输入 (缓存命中): 100万TOKEN是两毛钱。
输出: 100万TOKEN只需要3元人民币。

这个价格要比我们现在能看到的各种轻量级模型都要便宜很多。

在发布这个版本之后呢，进行了大规模特定目标的强化学习，主要学很难解答但很容易验证的问题，特别是针对智能体（AI agent）进行数据训练。在这样的一个基础上，就得到了12月1号所发布的V3.2正式版。

V3.2 Special的由来

它呢，是在V3.2 EXP base的这个基础上，拿着前面我们讲的，专门做数学题证明的maths VR这个版本去做后续的训练。V3.2 special实际上就是V3.2 EXP base这个版本加上maths V2这个版本合成的一个版本。所以它特别擅长做数学题、做各种长推理，但其他方面能力很弱。

真正的领先之处：开源贡献

我们现在所说的领先，是真正做出来的这些改变、这些创新，对于整个行业是不是有贡献。Deepseek R1对于整个行业是有巨大贡献的。而这一次的DSA确实是非常先进的，也对整个行业是有贡献的。只要是对整个行业有贡献，我们就认为它已经遥遥领先了。

而且DSA算法呢是完全开源的，有论文、有模型、有代码，而且可以商业化使用。不像美国那些公司抠抠搜搜的。

当然，这个东西也不是Deepseek凭空发明的，它是在很多前人的基础上做的改进和应用。就像瓦特改进了蒸汽机一样，DSA也是如此。类似的稀疏注意力算法有很多论文，但是真正大规模的验证和使用，就是Deepseek的DSA这个算法。

其他AI公司如何应用DSA？

美国公司也有类似技术，OpenAI的算法没有公开，谷歌应用的则是一个叫“环注意力”（ring attention）的算法，可以支持到100万TOKEN的上下文。

DSA是完全开源的，其他模型也可以使用，但需要经过几个步骤：

模型结构改造： 在原来模型的基础上加上闪电索引。先进行“稠密预热”，保持主干注意力完全稠密，冻结原来的参数，只训练这个闪电索引。
稀疏训练： 打开DSA开关，解冻主干的参数，和闪电索引一起训练，并确保输出结果跟原来是一样的。
蒸馏和强化学习： 在针对写作、数学、代码、AI agent搜索等等特定领域进行特训，再用特定的模型生成数据，蒸馏主模型。最终把推理和AI agent这些行为进行强化学习和人类的对齐。

所以DSA对整个行业是有巨大推动作用的，这才是真正的遥遥领先。

Deepseek V3.2的局限与不足

它还是有很多地方比GPT-5.1、比Gemini 3 Pro要差很远的地方。

纯文本模型： 完全没有多模态能力，给它图片它是不认识的。
基础模型陈旧： Deepseek V3.2也是在一个去年12月26日发布的Deepseek V3的基础上，不停的打补丁补出来的一个版本。这个叫“麻袋片绣花，底子太差”。就像OpenAI发现GPT-5（在GPT-4基础上微调）无法追赶从头训练的Gemini 3 Pro一样，要想再追上，必须得退回去把基础模型再提升一步。

所以，Deepseek下一步肯定还是要先把Deepseek V3.2的special合并进去，但更重要的是需要重新预训练一个全新的V4模型，把多模态等能力加进去。

对国产算力的真正影响

Deepseek V3.2是不是对于国产算力有了巨大的帮助？国内云确实是在第一时间就去支持了，他们叫0 day支持。

现在大模型推理普遍使用VLLM或SGLANG这样的开源框架，它们最初是为英伟达显卡设计的。Deepseek发布DSA后，第一件事就是修改这两个框架，让它们能很好地支持DSA。国内的算力卡厂商，如华为升腾，也要到这个系统上去打补丁，适配自己的硬件。

华为云等厂商已经完成了这个适配工作，这意味着，以后想把模型部署到中国的公司（如XAI），可以直接购买华为升腾的芯片而无需修改代码。

所以国内的云和算力卡确实又行了，它们可以在相同的算力下处理更多的信息。从推理这件事情上来说，我们不再那么依赖英伟达的显卡了。但是，如果想预训练一个全新的大模型，还是要去买英伟达显卡。目前国内普遍的做法是让大模型出海，在海外去做训练。

Deepseek V3.2带来的市场影响

AI应用在国内产业的普及与渗透速度会进一步的提升。
一些新的模型，甭管是国内的还是国外的，都会去进行DSA升级，以降低成本。
使用中文推理的美国大模型会变多起来，因为它们很多是在中文开源模型基础上做后训练的。

对英伟达的影响：短期承压，长期利好

短期来看是利空。 DSA让推理成本下降，完成同样的任务只需要一半的显卡，这会减少对英伟达通用算力的需求。

但长期来说依然是利好。 首先，行业认识到必须重新预训练基础模型，这离不开英伟达显卡。其次，AI应用渗透率上升，会推动整个行业越过盈利点，对算力中心的需求可能实现真正的爆发。

总结

Deepseek V3.2，12月1日正式发布了，评分很高，但对于实际使用和感受其实没有那么大意义。因为他真正评分很高的那个版本，是一个偏科的数学天才。V3.2正式版他的评分并没有那么高。而且Deepseek V3.2是在V3的基础上继续缝缝补补出来的，想要继续前进已经很难了，必须要去对基础模型重新做预训练了。DSA这个算法确实对整个行业做出了贡献，非常非常有价值，在这一点上，你说它遥遥领先没有任何问题，但是距离真正的全线领先，还有很大的差距。

好，这就是咱们今天要讲的故事，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

谷歌一出手，OpenAI的“凛冬”真来了？山姆·奥特曼内部备忘录罕见示弱，承认可能暂时落后｜Google vs OpenAI、AI Race、Google、OpenAI

Luke Fan — Tue, 25 Nov 2025 01:18:11 +0000

Gemini 3 Pro和Nano Banana Pro发布之后，OpenAI的山姆·奥特曼开始喊“凛冬将至”了

大家好，欢迎收听老范讲故事的YouTube频道。凛冬将至（winter is coming），这是一个《权游》里边的梗，大家要小心准备了。以前呢，OpenAI每一次发布会之后，都会有一群的创业公司原地死亡。这次谷歌没有开发布会，直接发布了新产品之后，OpenAI虽然不至于原地死亡，但是凛冬将至了。

奥特曼的内部警告：“凛冬将至”

山姆·奥特曼到底是怎么说的呢？对外肯定不能跌面子，讲的是祝贺谷歌发布了Gemini 3，看起来是一个很棒的模型。但是曝光的一些内部备忘录里边，寒意已经体现出来了。奥特曼罕见的表现出了危机感，直言公司当前的氛围充满了不太妙的低迷气氛，大家都觉得有问题了。

OpenAI如今不得不拼命追赶，谷歌的AI进展可能给OpenAI创造暂时的“经济阻力”。大家注意，这个词叫“经济阻力”，它的收入可能会有问题。如果收入有问题的话，他前面画的1.3万亿这种大饼，这是会出大问题的，会让整个行业崩塌的。

现在，山姆·奥特曼要求团队进入战时状态，聚焦长远，即便意味着我们在当前阶段会暂时落后，也要押注更有雄心的突破。这个非常非常正确。首先，他承认了“我们现在可能暂时落后”，而且一段时间未必追得上。但是，如果只是跟着谷歌的脚步往前追的话，这是没法整的。因为谷歌最擅长的事情就是极限拉扯、极限迭代升级，你像Chrome到现在100多版了，安卓一年一个大版、一堆的小版，所以任何想在这后边跟版本的人，都会被谷歌拉死的。你要想跟谷歌竞争，一定要跳到谷歌外面去，自己做一些完完全全创新的东西，让用户有感知的东西，这个才是需要去干的活。

而且，山姆·奥特曼讲到，公司的估值虽然很高，但是要清醒看到，我们还有不少的功课要补，AI研发的严冬考验就在眼前，OpenAI必须奋起直追了。这也就是“凛冬将至”的出处。

大家还记得国内互联网企业是什么时候开始喊这句话的吗？谁喊的？任正非喊的。任正非喊“我们要让大家感受到寒意”之后，华为确实有在裁员，但是业绩并没有大的问题。但是华为身边的这些公司，就在大量的原地消失，直接就不见了。这就是凛冬到来的时候，我们会看到的景象。

Gemini 3 Pro到底有多强？

Gemini 3 Pro到底强到一个什么样的程度，能让行业公认的老大OpenAI的山姆·奥特曼发出“凛冬将至”这样的声音呢？

我这几天呢，其实一直在用Gemini 3 Pro，本身感受并没有那么明显，只是觉得快了很多，回答的质量高了很多。Nano Banana Pro，那简直是强到没有朋友。

实战对比：Nano Banana Pro vs. 即梦4.0

我拿Nano Banana Pro跟国内的“即梦4.0”比较了一下，我的提示词是什么呢？说：“你给我设计一个北京烤鸭为主菜的北京宫廷宴菜馆的菜单，主要的菜品要有配图，要写上菜品名，要有这个菜品的配料以及口味的简单描述以及价格，其他的菜就不需要这个图片了。”

两边都干活去了，其实干出来的结果都还不错。先说即梦吧，即梦呢画的很漂亮，上头也写着是多少多少钱一只烤鸭，烤鸭画的也还可以吧。但是呢，它在菜单里头混入了宫保鸡丁和麻婆豆腐，这两道菜其实是川菜，它不是北京菜。而且呢，它里头选用的北京菜京酱肉丝，它配的图呢是一个红烧肉的图。京酱肉丝，你里头必须得要有肉丝，得是条状的；而红烧肉是肉块，到最后画出来的是个肉块，就出现了这样的翻车现象。

Nano Banana Pro画的图是什么样的呢？非常的漂亮，上面是北京烤鸭，然后呢是其他的各种北京菜、老北京炸酱面呀，没有任何川菜混在里面。但是它也有一个bug，就是它写的价格是“文银多少两”，这个是很有趣的一点。即梦的这个价格都是58、68，相对来说是比较准确的。

这个例子大家看出来差在哪了吗？它们画的图，艺术感其实没有太大区别，差就差在：Nano Banana Pro自己是一个完整的模型，它把AI agent的活干完了，他自己在这个模型里头搜索了、思考了、推理了、研究了，然后把一个正确的东西画出来——但不能说一点瑕疵没有。而这个即梦干的活是什么呢？先调用了外部的工具，它可能也搜索了一些，甚至可能连搜索都没搜索，它可能调用的是豆包的这种大模型，使用豆包自己的知识体系，进行了一定的思考和生成，然后就去画图了。其实画的图两边差异不大，差异大就大在你到底是原生的模型进行思考、进行推理、进行搜索，还是说我是外部的。画的质量其实是一样的。

谷歌的新武器：Anti Gravity IDE

另外呢，这两天还试了一下Anti Gravity，它叫“反重力”，谷歌这次出的IDE。当然，这种产品大家要试用的时候，一定要注意一点是什么？不停的升级。因为这种产品迭代非常非常快，今天我去升级了以后，发现已经跟我第一天下载这个产品完全是天翻地覆的变化了，大概升了两个版本。变在哪了？因为我下载这个产品的时候，Nano Banana Pro还没发布呢，今天升级上去以后，已经把Nano Banana Pro挂进去了。这个产品是谁做的呢？就是当时谷歌花钱收购了Windsurf团队的核心成员，让他们进来给做的。所以这个产品做的呢，还可以。

这个产品现在彻底打通了MVC。这个什么东西？我们写程序的时候呢，一般是把程序分成三块儿：model、Controller和view这三块儿。model呢是所有跟数据相关的，你数据模型是什么样的，数据底层是什么样的，这种底层的一些API接口，这些都在model里头。Controller呢是各种的业务逻辑，写在这块。view呢是所有的让大家能看得到、能够交互的东西，就是视图。

为什么写程序会把这三块分开写呢？就是为了这三块可以让不同的人去做，把接口留清楚，就可以独立的去进行更新，而不要说眉毛胡子一把刷，牵一发动全身。为什么要专门强调这件事呢？因为以前的AI编程的工具，或者是Web coding的工具，他们主要是做后端，虽然前端也做一些，但是呢对于画图设计，还是要差一些的。

现在就不用费这个劲了。你直接向它描述，我今儿向它描述，我说：“你给我去做一个读书软件，我要求是羊皮纸的背景，要有各种图书相关的元素进去。”这个Anti Gravity就直接调用Nano Banana Pro去给我画图去了。先给我生成了一个羊皮纸的背景，然后呢给我生成了一个古色古香的页头，就是像那种花体字这样的东西，然后呢给我生成了所有的、跟看书相关的图标：有打开的书、有合起来的书、有笔，生成了全套的图标，还给我生成了一本书。生成完了以后，那边写程序把这玩意儿全挂进去了，这个是多么开心的一件事情！

谷歌真正的可怕之处：生态与“微信式逆袭”

通过Nano Banana Pro和Gemini 3 Pro更新的情况来看，现在呢，谷歌已经真的开始靠谱了，有用了，可以干活了。而且谷歌最可怕的还不是模型变强了，谷歌最可怕的是用户生态强。但是呢，Gemini现在的月活用户数是6亿多，比GPT的还是要少一些的，大概少个一两亿的样子。但是谷歌后边还有Gmail、Google Workspace、安卓、YouTube这么多用户群体，这么多用户场景在那等着它呢。

所以，谷歌一旦实现了AI突破的话，这对于OpenAI来说，不能说灭顶之灾，但是已经是非常非常危险的了。这也是为什么OpenAI的山姆·奥特曼会去警告员工公司营收增速可能下滑的一个原因，而且告诉员工说：“我们不再是战无不胜的了。”

现在呢，我们其实正在看一场微信一样的逆袭。什么是微信一样的逆袭？就是在微信出现之前，其实国内出了很多这些移动端的即时通讯工具。腾讯在PC端是老大呀，那么我怎么办？直接用PC端的QQ跟你们竞争，又竞争不过你们，因为包袱实在太重。说：“算了，咱们去做微信。”然后呢，是携着原来QQ积攒下来的社交关系链，直接碾压所有对手，就把当时的米聊、各种的talk、这talk那talk什么，全都给干翻了。所以，这就是一次微信式的逆袭。

那你说只有OpenAI感受到了“凛冬将至”吗？咱们再想想前面讲的华为任正非的故事，老大感受到凛冬将至了，那你原地死亡的人一定会更多。

“模型即应用”：创业者的残酷现实

Gemini的胜利，再次重申了AI创业领域里头一个非常让人不喜欢的论点，这个论点就叫做“模型即应用”。刚才我讲了Nano Banana Pro跟即梦之间的差异的例子，大家就知道为什么“模型即应用”是最厉害的。这个，虽然很多做应用的人非常非常讨厌这一条，但是目前来看，这条依然成立。

原来那些做应用开发的，特别是这些做AI agent的开发的，比如像ConflUI、像Cursor这些人，现在一定是感受到巨大的压力。如果你说我在这个圈子里头，还不在ConflUI和Cursor这样的领军位置的话，就可以直接宣布原地死亡了，就不用再去努力了。那些通过模型的调整、做复杂提示词工程和流程管理的，基本上是天塌了，因为这一部分活现在都直接被模型功能给覆盖掉了。

特立独行的谷歌：AI圈的“局外人”

这回是不是一个戳破泡沫的钉子呢？是不是谷歌直接逆袭了以后，AI泡沫就破了呢？很多人说：“不对，这不是AI又往前走了吗？AI有用了呀！”

但是呢，谷歌在整个AI游戏里边的位置是很尴尬的，参与了，但好像又没有参与的一个位置。你说谷歌是不是在做AI？肯定是，Gemini 3出来了，它不做AI谁做AI呢？而且它也有投资，它投资了Anthropic。但是呢，它又没有彻底参与到整个硅谷的AI军备竞赛里头去。前面咱们讲什么“击鼓传花”呀，“左脚踩右脚”，这里头跟谷歌其实关系不大。它没有用英伟达的芯片，它用的是自己家的TPU；它也没有投资了谁谁谁，买一堆芯片，然后再去建这个机房，它都是自有资金。跟外边讲的OpenAI投资什么项目、英伟达投资OpenAI、AMD投资OpenAI、OpenAI再去到Oracle那去订购算力订单……跟整个这个循环是没关系的。

那谷歌为什么这么另类呢？它为什么不跟大家一起玩耍呢？一个幼儿园里头，这个小朋友就看着这么奇怪，这么不合群呢？原因很简单，大家知道OpenAI，这个open要open谁呢？就是要open谷歌呀。建立OpenAI的原因，就是因为谷歌太不开放了。所以，整个的AI产业链，基本上都是从谷歌内部孵化出来的，每一个在做AI创业公司的人都在讲：“谷歌有问题，我要出来反它，我要出来干它。”它是这样的一个位置，谷歌在整个AI领域里头可以算是举世皆敌。

OpenAI这头，微软给了钱了，那头软银给了钱了，跟英伟达还有关系，跟AMD有关系，跟Oracle、亚马逊，它全都有关系。谷歌说：“我跟你们都没关系，你们都是从我这来的，我要收拾你们。”所以谷歌在整个的AI圈子里头，是最另类的一个，就像相声界里的郭德纲一样。

一旦谷歌成了，整个行业都会瑟瑟发抖。因为英伟达的芯片不再是必须的了，现在使用谷歌TPU，人家也把这事搞定了。OpenAI、微软还要继续回去跟谷歌争夺用户和应用场景了。原来说OpenAI的技术最好、用户体验最好，所以我不需要去跟你抢用户场景，用户自然而然就向我这边迁移了。现在谷歌的用户体验做的也很好了，那大家回去了，Office跟Workspace接着打，只能变成这样的一个状态，那对于他们来说是非常非常不利的。

而Oracle、Coreweave这些下游厂商建立起来的这些算力中心，就未必有人用了。很多人在去质疑，说你OpenAI四处建算力中心，四处去签这种巨额的算力协议，这到底能不能实现？现在就悬了。谷歌的Gemini模型是不会跑到这些算力中心上的，谷歌的这些Gemini模型一定会跑在谷歌云上，跟他们是没关系的。“击鼓传花”的游戏有可能就玩不下去了，所以整个行业现在都很害怕。

凛冬已至，创业者何去何从？

Gemini 3 Pro发布之后，创业者应该怎么办呢？咱们不能说“凛冬将至”，大家躺平，对吧？这肯定不是老范的风格。

不要去做大模型了。中国几个大厂除外，像什么豆包、千问，他们愿意折腾去折腾去。因为为什么？谷歌进不来，OpenAI也进不来，他们还是有一个巨大的市场可以去玩耍的。甚至在国内证明成功了以后，还可以开源出去，给老外那边再去搅和搅和。以后的模型呢就是大厂竞争了：谷歌、OpenAI、xAI和Anthropic，基本上就是他们四家搞了。至于Meta在里边要站在一个什么位置呢，现在还看不太出来。如果你说我一定要整点什么模型呢，可以在中国开源模型的基础上呢，做一些小的调整，重新训练新的模型。这个阶段已经过去了，现在剩下这四家——谷歌、OpenAI、xAI和Anthropic——也未必最后都能活得下来。那些单纯的图片、音视频的模型，最终应该都会被顶端的这些大模型公司统统干掉，像Midjourney、Flux未必能活得下去。
不要去做那些模型未来会覆盖的领域。模型会越来越强，这个是必然；模型会越来越快，这个也是必然的。还有一个必然是什么？模型一定会越来越便宜。你说：“哎，我现在尝试去做一个应用，我在哪个地方用更便宜的模型，哪个地方用稍微贵一点的，达到一个在当前的成本下最好的效果。”别费这个劲！等你把这个产品做好了、上线的时候，那个最贵的模型的成本也降下来了。所以不用费这个劲，咱就直接使最贵的就完事了。那些只做工具调用、流程安排、结果确认的工具，或者是AI agent的产品，都会被模型覆盖掉的，大家就别费劲在这块卷了。
要做“时间的朋友”和“平台的朋友”。这个就是在移动互联网时代里头我们反复在强调的事情，现在AI时代也在走这条老路了。什么叫“时间的朋友”和“平台的朋友”？以前做安卓App和iOS App的时候，我们一定要做苹果公司和谷歌公司的朋友。我们要考虑他们未来向哪个方向发展，我不能挡在人路上，那就不是“时间的朋友”了。我们也要考虑谷歌跟苹果这样的大平台，他们的诉求是什么，你不能把人家该干的活给人干了，那就不是“平台的朋友”了。所以我们要做时间的朋友，要做平台的朋友。而平台的话，在新的时代里就是这些大模型——咱们讲这4家公司的大模型。时间会让模型变得越来越强大，开发者必须在这个大前提下干活，你不能挡在这个模型的路上，不能随着时间的发展被模型淹没掉。
要跟具体的用户和场景打交道。模型就是新的平台，再强大，其边缘依然是粗糙的。特别是在美国，他们这些大厂，他不会把每一个细节和边缘、方方面面都照顾到的。所以在这个时候，依然是需要我们去做很多的这种边边角角的事情。而且做了这些边边角角事情以后，未必没有机会去发展出新的超级App来，就像现在微信在iOS和安卓上变成超级App，这个过程是一样的。所以呢，不要觉得这个生意小、这个生意不挣钱、这个生意用户少，我们就不去做，先努力地扎下去再说。利用模型的能力解决具体的需求，与行业和场景进行深度的捆绑，成为行业专家——这就是咱们现在真正这些开发者或者是这些创业者该去干的活。不要尝试去编写代码弥补模型缺陷，直接等模型升级就行了。特别是Gemini 3 Pro发布以后，马斯克说了，我明年一二月份就要去发布Grok 5，那个时候我们就直接上6万亿大参数模型，大家等着看吧，拭目以待就可以了。

跨越临界点：零和博弈的终结与新机遇

最后，凛冬将至，春天可能也就不远了。到了冬天了，后边就应该是春天了嘛。

谷歌已经基本上达到临界点了。什么是临界点？AI可用的临界点。这个东西能干活了，能够挣钱了。跨过临界点之后会怎么样呢？我多吃一口，你就少吃一口，市场规模是固定的，这玩意就叫零和博弈。一旦跨过临界点，这个零和博弈就被打破了，行业就会大爆发。以很多以前没法做、不值得做的事情，现在就有经济价值了。在这样的一个情况下，就会有很多的新的应用、新的产业就会产生。

我们没有4G网络的时候，谁会想到说大家可以刷短视频、刷抖音这样的东西？抖音会成为超级App，谁也想不到这个东西。因为那个时候网很慢，服务器的带宽也很贵，用户的手机带宽也很贵。但是你一旦过了这个坎，“哦，还可以干这样的事情”，整个变出了一个新的行业出来。

但是呢，要提醒大家，现在的很多投资，特别是股市上面的很多泡沫，还是有很大的打水漂可能性的。特别是OpenAI和英伟达之间的这种“左脚踩右脚”的生意，还是很危险的。当然了，全行业都会努力地拯救这些投资，这个跟谷歌无关。对于谷歌来说，叫“杀死你，与我无关”，这句话引自于《三体》。

总结

最后总结一下，Gemini 3 Pro发布了，绝对是挑战与机遇并存，不同层次的AI行业参与者，必须要重新给自己找到定位了。

好，这就是咱们今天要讲的故事：凛冬将至。

感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Gemini 3 Pro对决GPT-5.1：理科状元与全能大师终极一战，谁在定义AI的下半场？｜Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

Luke Fan — Thu, 20 Nov 2025 00:43:05 +0000

Gemini 3终于发布了，这一次是真王炸了吧？

大家好，欢迎收听老范讲故事的YouTube频道。

千呼万唤始出来：Gemini 3的发布背景

2025年11月18日，谷歌Gemini 3 Pro Preview版本就这么上架了。为什么要用这样的一个词，“就这么上架了呢”？因为第一，它是千呼万唤始出来。大概从10月份开始，大家就开始传说，谷歌要开始上Gemini 3了。传来传去始终也没上来，到11月份说这个月肯定上。我还听说过是11月22号上，还听说过最晚12月份上，大家一直在等待这样的一个产品。

跟它一起传的还有另外一个产品，叫Nano Banana 2。因为上一次谷歌引起大家关注、引起大家去下载和使用的产品呢，就是Nano Banana 2，这个生图和改图的模型。这一次说Gemini 3跟Nano Banana 2一起来，而且都在进行测试，甚至很多人信誓旦旦说我用到了，我已经看到了。谷歌从Nano Banana一开始，就采用了一个很奇葩的玩法，就是在大模型发布之前，先给它们起个名字，隐姓埋名，跑到其他的这种测试平台上去测试去。大家觉得这个名字很奇怪，不知道是谁，测完了以后发现巨好，这是不是Gemini 3？那个生图模型是不是Nano Banana 2？大家都在猜这种事情。

巨头争霸：你方唱罢我登场

Nano Banana 2还没有发布，据说是在这个月或者下个月要发布。但是Gemini 3就这么直不愣登就来了。在用户们剥离层层迷雾，寻找Gemini 3和Nano Banana 2期间，其他的大模型厂商也在争先恐后的发东西，比如说GPT-5.1、GPT Atlas（也就是OpenAI的浏览器），还有Grok 4.1。这回是不是真的要来了？为什么会有这样的猜测？因为这帮大公司就跟小孩似的，特别喜欢截胡别人，我要先几天给你发布了，把你这个热点给你抢下去。最爱干这种活的是OpenAI。只要是谷歌说明天开谷歌I/O了，要开大的发布会了，他一定在这个前面一两天给你整点事出来。最有名的是在去年谷歌I/O之前的一天，OpenAI发了GPT-4o，一下就把大家震惊住了。

这一次的话，Gemini 3之前发布的非常接近的一个产品是谁呢？是Grok 4.1那个产品，也是非常神奇的一个产品，有机会再跟大家细讲。那你说这大公司，他就不能保个密吗？这真没法保密。你要开发布会，要租场地，要动用公关公司，有多少资源在这折腾，所以你是没有办法保密的。即使是你说我不开发布会，我就是偷偷的直接上线了，甭管是谷歌的人，还是Grok的人，或者是OpenAI的人，大家原来都是老同学、老同事，你想瞒真瞒不住。所以在他们的这个圈子里头，是没有什么秘密的。

发布前的“小插曲”

在等待Gemini 3期间，我们还遇到了对AI泡沫的质疑，大空头来做空来了。我们还遇到了巴菲特加仓谷歌，因为他原来不怎么买这种科技股或者是互联网公司的。巴菲特原来持仓里边，最大的科技股就是苹果，其他的像什么谷歌这些公司，他基本上不买的。突然减持苹果，大规模加仓谷歌，而且是在巴菲特退休之前的最后一单，说巴菲特是不是老爷子知道点什么了。

新的发布潮流：不开发布会，直接上线

就在这样的氛围下，谷歌就突然发布了。而且它的发布没有发布会，这也算是一个新的潮流吧，就是不开发布会，直接写一篇长文，或者写一篇博客，然后产品就直接上线了。这个是最近这一两年里头，突然流行的一种新的玩法。现在的产品发布都是什么呢？第一步，先隐姓埋名，跑到其他的，比如像Open Router这种大模型平台上面去进行测试。等这个传的满城风雨了，啪，一篇文章扔出来，产品就上架了。

Gemini 3 Pro Preview 在哪里可以使用？

现在这个产品可以在哪用呢？

第一个是AI studio，大家上aistudio.google.com上就可以使用Gemini 3 Pro了。大家注意，它是Gemini 3 Pro Preview，它后边有Preview这个单词，所以未来这个产品应该还会进行快速的迭代，所以有什么做的不太合适的地方，请多担待。
第二个，Gemini的网站也可以直接使用了，就是gemini.google.com上，现在也可以选择Gemini 3 Pro Preview这个版本了。但是呢，它的客户端上，Gemini的APP上还不能使用。
另外呢，他们还发布了一个IDE，这个IDE呢叫Anti Gravity，叫做反重力，里面带的Gemini 3 Pro的这个版本，大家可以拿它去写程序了。

这次是真王炸了吗？大模型差异的感知难题

这次是真王炸了吧？是不是比别人都遥遥领先很多呢？大模型的差异，想要让人有感知，已经越来越困难了。就像是两个人站在你面前，一个人是高考状元，另外一个人呢是高考第二名，你能够通过聊天的过程，把他们俩谁是状元分别出来吗？你分别不出来的。所以现在的大模型，他们的智力已经在很多方面远远超越人类了。所以我们再想去评估说哪个大模型有一定的差异，非常非常困难。

很多国内的大模型发布了半天，吹了半天牛，大家为什么没感觉呢？比如像什么GLM 4.6、千问Max呀、Kimi K2 thinking或者是Mini Max M2，这些模型发出来以后说我怎么这么强，大家没感觉，因为你很难感受到他比别人强在哪、差在哪。虽然有跑分，但是现在大家不怎么看跑分了，跑分是比较容易刷的，我们可以刷题就可以直接把跑分刷上去，所以大家不看了。

而国际大厂的发布的话，通常还是会有体感的。比如说最近发布的GPT-5.1，它要在5.0的基础上多了这个点一出来，确实是更人性了一些，说话不再那么愣了。Grok 4.1情商更高，在所有的跑分里头，马斯克的Grok 4.1是情商跑分最高的。而Gemini 3 Pro绝对是理工科学霸的感觉，在推理这一块，它遥遥领先超过其他所有人了。

Gemini 3 Pro Preview：核心特性一览

分数呢还是要跑的，在很多的跑分方面，要比GPT-5.1、比Grok 4.1、Claude 4.5都要强非常的多。它最关键的领先就在于推理能力，真的是遥遥领先。

Gemini 3 Pro Preview到底有什么新特性呢？

超强推理：待会咱们就主要讲这个超强推理。
原生多模态。
开发者跟企业非常友好：它主要是给程序员和理工科的人去准备的。
原生的工具支撑：待会咱們去讲什么叫原生工具支撑。
速度飞快：这个挺难想象的，跑的比原来的模型快好多。

深入解析：Gemini 的推理能力进化之路

那么Gemini的推理到底是怎么进化到现在这个状态的呢？首先看跑分，他们使用了一个叫LMArena Elo的一个跑分，这个跑分呢大于1500分了。这个非常非常关键，是人类做大模型第一次超过1500分，它大概是1501分，从来没有其他大模型超过1500分。那什么意思呢？

1000-1200分：入门级会答题了，但是呢逻辑是很容易崩的。
1200-1400分：中级的，有一定的推理能力。
1400-1500分：强者，接近当代顶级了。
超过1500分：进入超强推理者级别了，明显比普通强者要更稳定、更强的一个状态。

现在呢，GPT也好、Claude 4.5也好、Grok，包括国内的这些模型呢，一般都是在1480-1490之间晃悠，但是很难超过1500。而这个Gemini 3 Pro是第一次超过1500。

推理范式的演进

谷歌的推理范式到底是怎么一步一步走到这的呢？所有这些推理模型，第一步走的都是叫链式推理，先干什么后干什么，这叫链式推理。从链式推理再往前发展的叫树状推理。我除了先干什么后干什么呀，我可以分叉了，我走到某一步搜索完了一个结果以后，我是不是可以一下分出5个X来，把这五个分支都处理掉，这叫树状推理。树状推理再往后呢，叫图状推理。这个有什么区别呢？树是只允许分叉，不允许合并的，走到每一个节点只能是越分越细，你不能说我走着走着再把它合并起来。你如果说走着走着又合并起来了，还可以进行反复的去确认，正向走逆向走都可以了，这就是一个图状推理了，这就更进一步了。而最后一步是什么？就是在图的每一个节点都进行工具调用的这种推理。谷歌呢，现在Gemini 3已经走到这一步了。

像刚才咱们甭管是链式的，它也是很多个节点，先干什么、后干什么、最后干什么，这是每一个节点里头正常情况下它是不调用工具的。它都是说我自己先想明白了，最后我把整个都想清楚了以后，我们再去调用工具。或者说我一开始先调用一次工具，比如说我搜索了或者读文件了，读完了以后我再去推理，它是这样来工作的。树状推理呢也是这样的，在每一个节点，我都是在大模型内部使用，或者说我根据你提供的上下文去干活，最后给你一个结果。如果要调用工具的话，要么在开始调，要么在结尾调，一般情况下不会在推理的过程中去调用一大堆工具的。而现在谷歌说咱别费劲了，我们在每一个节点上，图节点有可能是分叉的、有可能合并、有可能正向、有可能逆向的这些节点上，我们在任何一个节点上，如果有需要，我就去调用工具了。而且我能够保证它不崩。别人不是说不想干，别人你要想在这个中间节点上调用工具，他有可能逻辑就直接崩掉了。谷歌说我们不用担心这个，我们逻辑特别强，中间不崩。这是Gemini 3这一次做出的最大的创新。

与其他模型的对比

其他几家是怎么干的呢？

OpenAI (GPT)：它从来不公开这件事，所以GPT是个黑盒子。现在呢，猜测它可能也是这么干的，但是具体是怎么实现的，OpenAI是三缄其口，这压根没说。
Claude：走的是另外一条路，Claude走的是外挂的路，它的很多的工具调用都是通过像Claude code呀、cursor或者是Claude的客户端，它通过这个东西来去调用的。所以导致什么呢？我们可以在Claude code里去换大模型，因为调用工具的部分是外置的，不是在模型里面的。所以呢，它的调用一方面灵活性提升了，但是呢，它调用模型的这个过程稍微有一些割裂。
国内（如Deepseek）：走的就是超强的这种推理链，在这个链式推理的基础上不断的往前推进，但是他们在调用工具上就要稍微的差一些。

“衡水中学”式训练法？Gemini 3是如何炼成的

Gemini 3他到底是怎么训练成这样的？我看了他的训练介绍以后，我觉得这玩意是衡水中学的老师给训练的吧？

改变工作方式：预测下一个正确的思维过程

首先呢，Gemini 3改变了工作方式。原来大模型呢是预测下一个词，我下一个词放哪个词出来是最优解，它是这样来工作的。但是呢，Gemini 3不这么工作，它的工作方式是预测下一个正确的思维过程。你就不要给我下一个词了，你直接给我一个下一个你要干嘛，然后我们来看看这个是不是最优解。所以在这块呢，就已经发生改变了。

训练数据：高质量合成数据

那你说我要想训练Gemini 3，我到底哪找数据去？数据是不是已经被大模型吃干抹净都用完了呢？谷歌已经承认了，所有的人类数据早就被大模型收拾干净了。所以这一次，Gemini 3使用的数据是合成数据。怎么合成呢？是用谷歌自己最强的模型阅读人类知识，再生成高质量的推理步骤。它直接训练的都是推理步骤，把所有的教科书、所有的科技论文都通过AI重写，生成训练数据。大家注意，这个里头有两个关键词，第一个关键词叫“所有”，谷歌基本上是可以认为它有所有的信息的，他把他能够找到所有的信息都塞进去了。第二个关键词叫“重写”，我们写的很多论文也好，或者是很多教材也好，为了让人类可以很好的理解，或者说为了抖个机灵，里头还有非常多的修辞，有非常多的人文的东西在里面，比较啰嗦的东西在里面。他通过重写把这玩意全去了，变成非常非常原始、非常简单的这种推理步骤。你如果遇到这样问题应该怎么推，遇到那样问题怎么推，他是拿这种数据去训练的。

原生多模态：Video + Code 配对

而多模态的话是原生对齐。怎么个原生对齐法？原来咱们也号称是各种多模态模型，是用图片跟文字去配对的。就是这是一张图，后边呢是一堆文字，我们把这个东西堆到大模型的数据里头去训练，训练完了以后呢，他就可以去反应那边是一个马还是一个驴，还是在打仗还是什么，他拿这玩意去训练的。现在呢，谷歌用了一个叫video和code的配对。你给它一视频，比如说是一个小球落到地上的视频，后边呢你配的不是一个文字“小球掉地上了”，而是一个重力加速度的Python代码。他把这样的一个视频和代码的对儿放到数据集里头去训练多模态模型去了。所以呢，他的模型上来就是世界模型，他是理解物理世界的各种规律的，这个很恐怖。

训练策略：过程奖励模型

有了数据了，那下边怎么训练呢？训练策略也很重要。第一个叫过程奖励模型 (Process Reward Model)，这个是Gemini 3跟其他人不一样的。现在的大模型呢，拿了一大堆数据去给你去做预训练去，训练好了以后，这个初级模型呢要去做强化学习，让他回答问题，然后让人去纠错。Grok 4.1就属于强化学习做的特别好的这种模型。谷歌说别费劲了，人看不过来，原来都是人看着，现在咱们直接派一个模型看着。他专门训练了一个找错的模型，让他去看着Gemini 3这个预训练模型去做后续的强化学习，然后呢是由人去监督这个找错的模型，看看他工作的状态行不行就OK了。真正底下干脏活累活的已经变成大模型了。针对推理步骤进行评判，即使结果是正确的，只要中间步骤有错误，通通打回去重来。这就是为什么是可以做推理冠军，就是这样了。你做题做到10步的过程中，必须每步都对，然后得出正确答案，我们才认为你是真的学会这道题了。你说我推了中间有三步是错的，但我答案是对的，对不起，从第三步往后通通都没分了。他是这样来控错的。所以我说为什么这个训练过程让我想起了人大附中和衡水中学这种感觉呢。

训练创新：预训练阶段即集成工具调用

在训练上呢还有一点跟以前的大模型有一个很大的区别是什么，就是Gemini 3的工具调用是直接在预训练里头做的。传统的大模型，甭管是OpenAI的，还是Anthropic或者是国内这些模型，他们都是先把模型训练好，然后呢通过强化学习再把工具调用，哪个地方该搜索了、哪个地方该读什么文件了、哪个地方应该去调用哪个工具了，再往后边再去加进去。Gemini 3它是在预训练的时候就直接把这些搜索呀、调用工具呀这些东西作为初始数据就给训练到模型里去了。这也是为什么谷歌的Gemini它可以在推理的任何一个节点上去进行工具调用，而别的大模型干这事就比较费劲，因为他们都是先做好基础后训练出来的，这个事就比较难了。这就是Gemini 3训练的一个创新点吧。

为何如此之快？揭秘Gemini 3的速度奥秘

那你说为什么Gemini 3这么大的模型还飞快呢？它叫Gemini 3 Pro，它不叫Gemini 3 Flash。过个一两个月吧，Gemini 3 Flash应该还会发布，那个时候肯定会比Pro版本要快更多。Gemini 3 Pro就已经比Gemini 2.5 Pro要快非常非常多了。原因呢几个：

硬件：谷歌自己家的TPU V6版本已经全面都装到算力中心里去了，都开始干活了，所以速度很快。而且你想他自己设计的芯片，自己做的算法，那一定是配合的紧密无间，没有任何问题。
架构优化：原来呢，这些模型都是MOE模型，叫做符合专家模型。但是现在呢，Gemini 3叫多塔MOE。什么叫多塔呢？就是你的图文、声音、视频、代码，你到不同的塔里去干活去，每个塔里还有一个专家小组在等着你呢，所以他这样速度就很快了。
投机采样：最后呢，他们使用了一个东西叫投机采样，就是用一个极小的草稿模型先快速的猜出后边的几十个词，然后由大模型一次性验证，这比大模型一个字一个字往外蹦要快非常非常多了。

全面领先？四大顶尖模型角色定位

Gemini 3现在到底算不算全面领先了呢？这么讲吧，Gemini 3 Pro就是一个理科状元加上多模态分析师的一个形象。但是呢，你跟他聊天也像是在跟理科状元聊天。你想想理科状元那个语气、语调都是什么样的，大家自己脑补一下，就知道Gemini 3到底擅长干什么、不擅长干什么了。

Grok 4.1：是互联网老司机加上自信段子手，没有什么他不敢说的，胆子比较大，情商测试第一名。你如果想找人去陪你聊天，想聊着开心，你就找这个Grok 4.1没跑，在这点上它要比Gemini 3要强很多。
OpenAI家的GPT-5.1：算是全能型创作大师加上生态整合之王。因为毕竟他是老大嘛，头一个做出来的，所以他生态整合，就是跟各种工具的结合，还是非常非常好的。而且呢，他很适合做各种的文档创作，像是一个四平八稳的文员吧。
Claude 4.5 sonnet：算是语言艺术家加上安全派哲思者，它很适合做各种的合规、企业内的这种需要进行反复验证的这种文档，它写的要比GPT-5.1还要好一点点。GPT-5.1更创意一点吧，Claude 4.5 sonnet更擅长做长篇写作、逻辑清晰、道德判断、企业合规表达。

而Claude 4.5呢原来是编程冠军，现在的话肯定要经受Gemini 3的挑战了，到底哪个好使哪个不好使，要过几天再出结果。

至于国内的大模型呢，还在努力追赶吧。国内大模型的唯一优势就是开源，巨大的模型开源呢，你们拿愿意拿回去自己折腾都没关系。

总结

最后总结一下：

今天的内容全部是Gemini 3 Pro整理生成的。如果哪说错了不要骂我，去骂Gemini 3 Pro。
第二个，我其实呢并不喜欢用Gemini 3 Pro，今天用了一天，原因也很简单，跟理科状元聊天还是有点累的。
AI还在快速的发展，Gemini 3真正的价值不是说它给我们训练出了一个理科状元，而是提出了一套新的方法论，怎么能够训练出一个理科状元来，这个是非常非常有价值的。有卡的公司就可以照着这个思路去尝试了。
至于没卡的公司怎么办，那就是另外一回事了。希望这一轮对AI泡沫的质疑可以快一些过去吧，Gemini 3 Pro确确实实是可以解决很多原来无法解决的问题的。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

这根本不是国家级间谍行动！Anthropic报告背后被忽视的真相：中国“灰产”正利用AI对全球科技公司进行专业表演｜Anthropic AI China Cyberattack

Luke Fan — Mon, 17 Nov 2025 00:40:33 +0000

Anthropic抓住中国间谍了吗？

大家好，欢迎收听老范讲故事的YouTube频道。

Anthropic信誓旦旦的公告里边说抓到中国间谍了，但是里面很多细节非常的模糊不清。11月13号，Anthropic发了一个长文，叫《挫败首次披露的AI协助网络间谍活动》，认定幕后是一个中国国家支持的黑客组织，而且他认为幕后是中国国家级支持，是非常高置信度的一个事情。他给这个组织起了一个名字叫GTG1002。但是呢，这个组织的名字并不是现实世界中常用命名黑客组织的APT编号，而是一个叫GTG的一个编号。所以很多安全圈的人就对此提出了一些质疑，说你到底找没找到人。

具体这帮人干了些什么呢？造成了多大危害？只进行了描述，没有细节。当然这也可以理解了，很多这种安全事件都是不会描述细节的，因为描述细节以后容易造成模仿，也会让被伤害的人受到进一步的伤害。告诉你说谁家的信息被偷了，这个可能本身没什么大事的，一下就股价崩了，可能会出现这种事情。所以呢，一般都不会披露特别多的细节。

那么为什么认定这是中国国家支持的黑客组织呢？也许更多的来自于臆测，咱们后边一步一步分析。

Anthropic如何发现问题的？

它是2025年9月中旬就开始发现有问题了，监测发现异常。因为你用Claude去写程序，让它去生成代码，你输入的所有这些提示词，Anthropic是能看到的，输出的也能看到，只是一般情况下他看不过来而已。但是呢，里头有特别多的跟安全相关的事件，请帮我去破解网站，有太多这些东西聚集以后，Anthropic就觉得这事有问题了。9月中旬发现了以后呢，进行了内部调查，把各种日志文件拎出来去查一查，大概用了10天的时间。然后呢，重构攻击链路，看看你到底攻击谁了，攻击的效果怎么样，最终确认这是一场跨越数十个目标的大规模间谍行动。

他们内部到底发现了一些什么样的异常流量呢？大量跟网络安全、网站和系统破解的相关的指令被申请和执行了，而且是相同的手法，面向全球不同的目标再去执行。最终确认，这是一次有计划、有组织、有预谋的大型黑客入侵计划，甚至叫做间谍行为吧。

黑客是如何利用AI工具的？

Anthropic其实有两个特别重要的编程工具，一个呢叫Claude code，它呢是一个AI agent，跑在我们本地的。另外一个呢，就是它的大模型Claude 4.5 sonnet，是进行代码生成和AI生成的一个模型。这一次呢更多的是使用Claude code。Claude code呢可以完全自己执行各种脚本，有人甚至用Claude code去写短句，写各种公众号，这个还是非常非常好用的。Claude code呢可以去编制代码、执行代码、做各种的网络操作，它都是可以自动去搞定的。再配合上Chrome或者是Playright的一些MCP，就可以自动实现大规模的网络漏洞侦测或者是攻击。

黑客呢，搭建了自动的入侵架构，伪装身份，将有害的任务呢，分拆成无害的小任务。比如说扫描某个端口，写个脚本，验证一下密码格式对不对。把它分拆了以后呢，就不会触发Anthropic的一些内部警告。你上来说“给我攻击哪个代码，给我攻击哪个网站”，Anthropic直接就报警了。但是如果你拆开了干这个活呢，Anthropic就会老老实实的去干活去。而且呢，这些黑客还去向Claude去说谎，说我是一家合法安全公司的员工，我在做渗透测试和攻防演练，说我们去攻击一下吧，Claude code也去干活去了。

做这种事情呢，被封号其实是不可避免的。到底这个边界在什么地方，或者封号的阈值在什么地方，是不会有平台出来公布的。所以黑客组织总在边缘尝试，我到底多说了一句就被封了，就被拒绝服务了，还是少说一句，他就接着干活去了。大家要去试这个事。

很多账号被封了之后呢，会有相关性很强的账号启动，继续干活。他也不可能说你封我一账号，我就不干了。相关性这件事呢，是一个很模糊的概念。比如：

IP地址或Mac地址：每一个网卡、每一个路由器都是有一个唯一的号的。这些地址有可能是比较相近，或者说相同的，就有可能会判定为相关地址。比如刚有一个IP地址了，账号被封了，你用同样的IP地址、同样的网卡，你又注册了一个账号上来，很容易被判定为相关的账号。
指令和提示词：你的一些原始的数据指令和提示词是一致的。有人干这件事情被封了，然后呢我换了一个账号上来，接着再提出相应的指令、相应的这些数据，那么它也会被判定为相关。
目标一致：有的时候呢，目标网址是一致的。你说这一次我要攻击谁谁谁，下次我还要攻击他。而且上一个账号刚被封掉了，你新的一个账号上来了以后，甚至换了个国家，因为挂梯子嘛，可能上次是美国的一个账号要求攻击日本，下次可能来了欧洲的一个账号，也要求继续攻击日本的某一个网站，那么这个也会被判定为相关的账号。

当然了，黑客组织一定会进行规避，这个活叫账号隔离，这都是有专业术语的。规避以后呢，会提高发现的难度，但是这里头没有0和1的区别，说这个就是错的，那个就是对的。这也就为什么咱们讲Meta达到95%危险评分才被判定为欺诈广告，这个道理是一样的。

Anthropic呢，将通过Claude code发送给Claude sonnet 4.5的指令进行聚合分析以后，锁定了目标。Claude code这个东西是一个免费可以下载的工具，如果我们在Claude code里头挂国内的大模型，Anthropic是收不到任何警告的。但是呢，挂国内的模型效果没有那么好，一定是Claude code挂Claude sonnet 4.5，自己的模型效果是最好的。

Anthropic采取了哪些行动？

Anthropic发现了这样的问题以后，做了什么样的行动呢？

封禁账号：这是必然的。
通知受害者：通知受影响的30多个机构协助处置，告诉他们被攻击了，检查损失并一同处理。
与执法部门协作：与相关部门协作，与执法机关共享情报，直接报警。
加强防御措施：Anthropic也表示将加强防御，例如降低危险行为的判定阈值（比如从95分降到90分），使监控系统更加敏感。

黑客到底干了什么？（攻击流程详解）

我相信很多人会很好奇这帮人拿Anthropic的工具到底干了点什么？到底是怎么干的呢？我呢，用尽可能简单的方式给大家描述一下，但是注意不要去学人做坏事。

目标呢是全球30多家机构，主要是大型科技公司、金融机构、化工和制造企业，以及政府机构。有一小部分呢被成功入侵了，少数高价值目标被破解，并且发生了数据泄露。至少4家受害者的敏感数据被证实遭到窃取，但是呢也没有给出具体的名字。这个还是可以理解的吧，你真的指名道姓的说谁谁家数据被偷了，这对于这些受害者来说，绝对是一个二次伤害。

这些攻击呢，80%到90%的战术操作都是Claude code来去自动执行的，人类呢只是在关键的决策点插手。过程是什么样的呢？

第0步：骗过安全机制

先骗过Anthropic的安全机制，保证自己的账号不要被封掉吧，被封掉就没有后边的故事了。

第一步：信息收集与资产识别

要求Claude code枚举目标网站的服务、接口和内部系统，找出高价值的资产、数据库、凭证库以及敏感业务系统。凭证库就是我们存密码的地方。很多网站或服务系统通常是在一些开源系统或者成熟的商业软件上搭建的。这一步首先要知道你到底是用什么系统来搭建的。一旦知道，就能推断出数据库、凭证库和敏感信息的一般存储位置。

第二步：漏洞搜索与利用

确认系统后，命令Claude code去搜索公开和已知的漏洞信息。很多机构的系统上线后疏于维护，不会及时打补丁或升级，导致大量已知漏洞未被修复。黑客可以直接命令Claude code针对特定系统的旧版本，搜索并编写漏洞利用代码，然后组织脚本进行攻击。

第三步：情报分析与文档生成

以前黑客比较头疼的活，现在AI能轻松搞定。黑客会利用Claude code对窃取到的信息进行情报价值分析和分类，比如分析每个文件里写了什么。然后，它会自动整理出攻击文档，内容包括：

目标系统及版本。
利用的漏洞。
成功登录的凭证。

后续的团队或AI agent就可以根据这些文档接着干活了。这个中间交接的文档也是由Claude code去生成的。

第四步：破解后的标准操作

破解之后，那就是老把戏了：

拖库：把数据库拖回来。现在可以更有针对性，在分析完文件价值后再选择性地拖取。
撞库：将拖回来的登录信息（用户名、密码）尝试在其他系统上登录。因为很多人习惯在不同系统使用相同的账号密码，这可能直接导致黑客获得更多系统的访问权限。
提权：登录后，可能只是一个普通用户权限。下一步就是通过其他漏洞将权限提升为管理员。
建立后门：为了方便下次再来，在系统中留下后门。

为什么Anthropic认定是中国政府所为？

为什么在证据不是很清晰的情况下，Anthropic咬死了这是中国政府支持的黑客行动呢？而且还给出了“高置信度”这样的定语。Anthropic并没有说明其具体的推理过程，但给出了几个明确的理由：

资源充足、专业协调：黑客组织一次性开启大量昂贵的Claude sonnet 4.5高级账号（可能100-200美元/个），封掉一批马上换新的一批。Anthropic认为这种规模和协同运作只有国家级行动才能支持。
目标具有情报价值：攻击目标多为大型科技公司、金融机构、化工制造企业和政府机构，偏向于情报搜集而非简单的经济犯罪。而且被攻击的大多是地缘政治中跟中国不太友好的国家。
专业的团队交接：攻击流程显示，前期团队攻破系统、整理文档后，会交接给后续团队进行长期潜伏，这不像个人或小团队的行为。
战术与已知组织重合：其战术流程（扫描、拖库、撞库、提权、持久化潜伏）与中国的一些APT组织高度重合。并且，攻击中使用的一些云服务IP、注册信息、跳转“肉鸡”等痕迹也与之前发现的中国APT组织重合。
活动时间符合东八区作息：行动的高发区在东八区的工作时间段，早上9点活跃，中午休息，下午继续，晚上6点下班，甚至周末双休。
代码中出现简体中文：在代码日志中发现了一些简体中文的注释。

至于使用的提示词是中文还是英文，Anthropic没有公开，但大概率是英文，以更好地伪装身份。即便使用英文，Chinglish的比例也可能很高。

作者观点：为什么大概率不是政府行为？

以我个人的感受来说，大概率不是。Anthropic对于中国的灰产行业呢，还是缺乏足够的了解和认识，或者说缺乏足够的敬畏之心吧。

中国灰产行业规模之巨大，从业人员之众多，分工之明细，是海外很多科技企业很难想象的。我为什么判断说，这一次Anthropic发现的攻击行为不像是真正的政府支持的黑客组织干的呢？因为有太多的Claude code痕迹了，不像是专业团队干的活，更像是民间机构新手根据外界公开流传的信息，让Claude code补全操作的。如果是熟手的话，会有大量的现成漏洞、现成的凭证库和现成的代码段，它不会每一件事情都要求Claude code去干的。这次发现的攻击，大量依赖AI重新扫描、重新搜索已知漏洞，这不像成熟团队干的活。

大批的互联网大厂人毕业了，或者叫失业了吧，这些人呢是组织过双11，组织过春运抢票的人，这些人在中国之外的任何地方，都可以算绝对的稀缺人才。但是现在在中国，他们失业了，又不甘心去跑滴滴、跑外卖，可能就重新聚集起来给Anthropic表演一下什么叫中国大厂的专业性。

这次事件带来的思考

网站和系统的安全性必须要提升了。任何人都不需要经过长期的训练，在AI的帮助下都可以做的像国家级黑客组织做出这些活一样。这个就像病毒升级了，大家的免疫系统跟不上一样，这个是非常非常危险的。Anthropic提供的这些AI编码的agent，它可以帮助普通人直接实现很强烈的黑客攻击，原来的这种安全措施完完全全是不够用的。Claude code加上Claude sonnet 4.5确实是干这种活的最优选择，但是使用国内的模型效果稍微差一点，但基本上还是能用的。真正专业的黑客肯定会更加的如虎添翼。

总结

Anthropic发文说破获了中国国家级政府支持的黑客间谍活动。到底是不是中国国家级支持的活动？并没有明确证据，大概率不是，中国新灰产团队的概率更大一些。安全形势在AI agent的帮助下，已经发生了翻天覆地的变化。Anthropic现在发这样的一个文章出来，应该也是在给自己寻找新的商业拓展点，同时出来秀一秀肌肉，表明即使干脏活累活，自家的AI也是最优选择。

好，这就是今天要讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

AI Agent – 老范讲故事｜AI、大模型与商业世界的故事

Anthropic发布法律插件：SaaS商业模式的终结与AI新变局

先说说这到底是个什么插件

一共11个插件：

为什么这11个插件出来，特别是法律插件出来，SaaS的天就崩了？

同样的逻辑，最近在另外一个地方也验证了一次：德勤跟埃森哲

改名的原因，其实跟刚才咱们讲的上插件这过程是很像的

最后咱们讲讲黄仁勋，为什么说这事很荒谬

那老黄傻吗？

最后总结一下

背景图片

Clawdbot深度评测：全能AI助理的成本与实战避坑

突然爆火的原因

产品形态与体验的明显差异

1. 全时驻留

2. 持久记忆加上主动触达

开源且无所不能的系统

传奇的创始人：Peter Steinberger

Clawdbot到底能干点什么？

部署Clawdbot的风险：TOKEN在燃烧

为什么一定要Mac mini？

全功能的系统配置

Clawdbot是不是一次革命性的创新？

硬件与巨头的新机会

最后总结一下

背景图片

谁在裸泳？GEO概念股塌房背后的逻辑：游资造势收割散户 vs 巨头构建交易闭环，三张图看懂真实商业壁垒｜数据织物、电商、欧洲投资者、市场板块

2026年开年A股AI第一波题材：GEO概念的起伏与真相

中国AI概念股的炒作难点

GEO行情的时间线与逻辑

“妖股”盘点：毫无道理的暴涨

澄清函纷至沓来：概念的破灭

A股游资炒作套路揭秘

1. 寻找概念

2. 筛选公司

3. 炒作流程

GEO到底是什么？从SEO说起

SEO（搜索引擎优化）

GEO（生成式引擎优化）

关于GEO提升营收的“都市传说”

GEO实操指南：如何让大模型读懂你

基础设置

大模型喜欢什么样的内容？

谁最应该做GEO？

GEO的商业困境：谁能赚到钱？

总结

中国顶尖大脑闭门承认：我们做不了0到1，只能等美国验证方向后疯狂内卷！算力差距高达百倍，为何说超越机会仅剩20%？｜中美AI競爭 AI競賽 中國AI 美國AI AI創新

中国顶尖AI企业的大脑们：承认中国不擅长做从0到1，但擅长做从1到100

背景：AGI Next 闭门峰会

圆桌会议的四位嘉宾

主题一：中国不做0到1，而擅长做1到100

姚顺雨的观点：乐观与现实

中美实验室文化的差异

关于“刷分”现象

主题二：算力差距与“穷人”的创新

算力差距：一到两个数量级

富人创新 vs 穷人优化

关于冒险精神

主题三：模型分化——ToB 与 ToC

C端模型：垂直整合与超级APP

B端模型：智能至上

主题四：自主学习、Memory与下一个范式

自主学习与平滑过渡

Memory（记忆）的重要性

谁将引领下一次革命？

主题五：出海与通用 Agent

逻辑的矛盾

通用 Agent 与长尾问题

房间里的大象

老范的总结与观察

谁没来？

什么没说？

大家在谈什么？

讨论的结果

最后的感悟

背景图片

游戏天才到诺奖得主，他凭什么断言AGI只差临门一脚？揭秘哈萨比斯开挂人生背后的逻辑｜Demis Hassabis、Google DeepMind、AGI 时间表、5到10年

谷歌Deepmind的CEO说：“我们与AGI之间，只差一到两个AlphaGo级别的技术难关了。”

哈萨比斯：爽文男主般的开挂人生

从国际象棋神童到认知神经科学博士

中国顶尖大脑闭门承认：我们做不了0到1，只能等美国验证方向后疯狂内卷！算力差距高达百倍，为何说超越机会仅剩20%？｜中美AI競爭 AI競賽中國AI 美國AI AI創新

微信支付宝联手封杀，豆包手机凭什么搅动万亿市场？一场围绕“小院高墙”的攻防战已经打响｜豆包手机助手 AI Agent 生态壁垒 AI手机跨App