大语言模型 – 老范讲故事｜AI、大模型与商业世界的故事

谁在裸泳？GEO概念股塌房背后的逻辑：游资造势收割散户 vs 巨头构建交易闭环，三张图看懂真实商业壁垒｜数据织物、电商、欧洲投资者、市场板块

老范讲故事 — Mon, 19 Jan 2026 15:47:13 +0000

2026年开年A股AI第一波题材：GEO概念的起伏与真相

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲2026年开年，A股的AI第一波题材——GEO为什么会塌房、概念炒作的时间线、澄清公告的解读，以及GEO到底是干嘛的。

中国AI概念股的炒作难点

中国AI概念股其实不太好炒。为什么？

芯片企业：都是刚上市，市值很高，而且都还严重的亏损。这种刚上市的企业都属于是有独立行情，很难炒得动。因为你要这个时候去收割的话，里面会有很多的国资去收拾你的。为什么？因为能够给上市公司做保荐的，一般都是大国资、大央企，你要让这些人亏了钱的话，那真的不会有好果子吃。
大模型厂商：除了新上市这两个，也是不太方便炒，剩下都是大厂，阿里、百度、腾讯什么这些，这都是炒不动的。
AI Agent：Manus刚跑了，其他的老的老、小的小。要不就特大上市公司，已经是大厂了；要不就现在还在垂死挣扎，就是还没上市，也没有法搞。

所以这次好不容易逮了一个新话题——GEO，赶快炒一波。这一波实际上从12月底就开始了，12月31号开始了，到1月14号迎来了这一波的GEO的最后行情的终结。

GEO行情的时间线与逻辑

为什么从12月底就开始了？因为谷歌的行情是12月底突然就爆了。谷歌爆完了以后，不光是TPU怎么样了，而是广告又行了。大家发现，原来AI并没有杀死广告，广告收入在快速上涨。

那么GEO就成为了新的热点。原因也很简单，因为AI搜索的流量已经极大的侵占了传统搜索的势力范围，以后大家都是通过AI来获得结果的，你做做这个传统的肯定没戏了。马斯克1月10号还宣布说，要公开X的推荐算法，这更进一步的加强了Grok的概念，因为X现在的新推荐算法就完完全全是在Grok上做的。那未来一定是做好GEO的人才有机会。在这样的情况下，妖股就出现了。

“妖股”盘点：毫无道理的暴涨

大家注意我讲的妖股。什么叫妖股？就是突然暴涨，涨的还没有任何道理。

蓝色光标：2025年12月31日到2026年1月12号，涨了114.79%，翻倍了。
易点天下：一月多个20%的涨停板，就砰砰砰往上涨。
浙文互联：1月有3天的两连板。
引力传媒：7天6板，涨了84.64%。
天龙集团：10天累计涨了90%。

这都属于是中国号称是GEO概念股，他们都自己宣称说我们有大模型、我们有GEO优化的AI agent、有GEO优化的这种服务在卖，就把他们直接吹上去了。

澄清函纷至沓来：概念的破灭

然后到1月14号、15号的时候，澄清函就纷至沓来了。在中国，你如果股票暴涨，你最好是真的有业绩；如果你没有业绩的话，你就要出来写澄清函。所以中国的股市是不能暴涨暴跌的。所谓澄清函就是“否认三连”：不是我，我没有，别瞎说。

蓝色光标：发了一个澄清函：AI驱动的收入占比很小，对业绩不构成实质影响；GRO业务处于布局阶段，尚未形成稳定的盈利模式；股价短期涨幅过高，偏离基本面，存在快速回落风险。
易点天下：比蓝色光标更狠，他直接停牌了。他说我申请停牌自查，然后发了一个澄清公告，明确不涉及GEO业务，未因AI产生额外的收入，被列入GEO概念股完全是市场误解，核心业务是帮助跨境电商去做营销的。
浙文互联：他说我们倒是有，他们叫Hochi GEO，GEO智能体确实已经上线了，但是尚未形成收入，还不挣钱，无成熟的盈利模式，市场认可度存在不确定性，主营业务是数智营销服务未发生重大变化。
引力传媒：说GEO业务仍处在组建筹备阶段，无成熟商业模式，未形成相关收入，主营业务仍然是广告代理，它实际上是替人投广告的。

A股游资炒作套路揭秘

A股其实总是有很多很多的行情，这些行情大多都是怎么来的？都是游资在发起。A股专门有一种特殊的现象就是游资，他不是这种国营的，也不是量化，他就是一个相对来说比较灰色的一帮人，他们去发起各种行情。

1. 寻找概念

国内其实比较难创造出概念来，大部分的概念都是国际概念，我们就抄一个。例如：

TPU概念：谷歌芯片供应链。
Rubin概念：英伟达最新一代GPU的中国供应商。
擎天柱概念：特斯拉机器人国内零部件供应商。
脑机接口概念、OpenAI硬件概念等。

2. 筛选公司

找到概念以后，就开始生拉硬套，在各个上市公司里面去找合适的这种公司往上去套这个概念去。找什么样的公司合适？

要找小盘股，大盘股拉不动。
最好与之相关一点，上市公司也愿意附庸风雅，发新闻稿配合。

3. 炒作流程

他们整体的流程叫：概念筛选 -> 业务包装 -> 舆论造势 -> 拉高出货。这就是一个标准的在中国炒概念的一个流程。

GEO到底是什么？从SEO说起

那GEO这是个好概念。谷歌已经证明了广告不会塌方，还是王者。GEO（Generative Engine Optimization）其实跟SEO（Search Engine Optimization）类似，国外有的时候叫AEO（AI Engine Optimization）。

SEO（搜索引擎优化）

SEO是让内容或者是商品服务对搜索引擎更加优化，更加友好，可以被更多的搜索热词命中。SEO里头有两部分：

白色部分（合规）：做关键词贴合，做更多热词命中，做格式调整，让它更适合SEO。
灰色部分（排名）：提升搜索排名的位置。这是相对灰色的，谷歌、百度都不希望你做，因为这影响人家卖广告挣钱。

GEO（生成式引擎优化）

GEO就是AIGC内容生成引擎的优化，让内容更容易被AI聊天工具复述出来。GEO的效果要比SEO更加不可控一些：

无法调优：SEO可以针对热词调优，且结果是一个列表；GEO大模型每次只吐出一个结果，没有排序，你不知道距离被吐出来还有多远。
长尾效应：GEO的内容特别长尾，热词不集中。
过滤机制：针对热词做GEO会被大模型直接过滤掉，如果词跟你没关系非要蹭，信息抽取时直接就被过滤了。

关于GEO提升营收的“都市传说”

很多人在小红书上说，通过GEO提升了多少曝光和营收。这纯属都市传说。现在还没有办法去证明GEO确实能够让营收快速上升。那些卖GEO课程的人举的例子无法被证实。

虽然不排除有突出的效果，但是无法量化“做之前”和“做之后”的区别。SEO可以通过来源分析流量，而GEO的价值目前无法衡量，广告平台目前也没有开始对GEO相关的广告投放。

GEO实操指南：如何让大模型读懂你

GEO到底怎么做？这其实也是个信息系统问题：信息的输入、处理和输出。GEO要优化的是信息输入的部分。大模型摄取信息分三次：预训练、强化学习、RAG（检索辅助生成）。GEO主要针对的是RAG这个过程。

基础设置

robots.txt：必须允许OpenAI、Bing等爬虫抓取你的网站。
llms.txt：这是一个新标准文件，告诉大模型应该怎么用你的网站内容，哪个页面要、哪个不要。

大模型喜欢什么样的内容？

我们要把内容写成大模型喜欢的样子：

实体优先：把你是谁、卖什么、服务地区、价格、条款写清楚。
原子化事实：清晰的小节，列表、表格、FAQ（问答）。
结构化数据：使用Key-Value（键值对）形式，例如“地址：北京市昌平区…”。
逻辑清晰：因为A导致了B变成C，这种逻辑关系大模型喜欢。
单一事实来源：价格、库存、活动、规则写在一个页面里，不要分散。
时间戳和版本：生效时间、截止时间、更新日期。
引用和凭证：提供资质、第三方评价、公开证据，并附上链接，通过大模型的核查。
JSON格式/API：最好直接提供JSON格式的数据交互API，或者提供MCP（Model Context Protocol），让大模型直接调用。
可验证的身份和一致性：统一的商家名称、门店ID、电话等，跨平台必须一致。

谁最应该做GEO？

目前最应该去做GEO的是那些高客单价、强信息不对称、决策链条特别长的品类。因为客户会用大量的时间跟AI聊天来明确决策。

旅游：信息不对称，行程安排复杂。
保险
B2B软件
医疗服务

GEO的商业困境：谁能赚到钱？

为什么A股公司纷纷澄清？因为GEO生意目前很难做。广告生意有三个要素，GEO目前都无法满足：

归因：AI还没形成交易闭环，很难证明交易是AI带来的。
可规模化：AI推荐规模不可控，非常长尾。
可持续性：AI引擎机制（大模型、搜索、排序）每天都在变。

最终谁能挣钱？

最终还是广告平台（谷歌、Meta、字节、阿里、腾讯）。当广告平台开始接受投放和竞价排名，并实现交易闭环（如谷歌UCP、阿里千问APP打通淘宝/飞猪/饿了么）时，这条路才能走通。

GEO服务商（如蓝标等）只能赚取咨询费和数据加工费，天花板较低，最终还是要靠代理投放挣钱。

总结

A股开年的第一波AI概念行情就翻车了。在中国的股市上，各种概念满天飞，但大多是游资割韭菜，不要太认真。最终的大钱只有谷歌这些平台才能挣到。其他的GEO概念股只是物料制作和投放代理，赚点边边角角的钱就完事了。

不过，GEO确实是有效果的，只是效果比较难以衡量和评估。对于提供内容和服务的人，还是建议好好的把GEO做起来，顺应时代潮流。

怒喷大模型连狗都不如？揭秘硅谷集体幻觉与物理常识缺失，为何只有新架构才能通往通用人工智能｜Yann LeCun World Models AMI LLMs AI Startup

Luke Fan — Tue, 23 Dec 2025 00:56:44 +0000

杨乐坤“暴论”：大语言模型是扯淡，连狗都不如？解读他的世界模型与新创业项目AMI

“我认为这完全是扯淡，这条路根本就不可能成功。”这是杨乐坤在最新的访谈中对大语言模型路线的评价。这是语不惊人死不休的这种暴论吗？还是说他真的有一些什么事情想做？

大家好，欢迎收听老范讲故事的YouTube频道。

12月15日，杨乐坤发布了他最新的访谈。访谈是在一个叫做“信息瓶颈”的播客中进行的，位置应该是在纽约大学。杨乐坤当时还在Meta站好最后一班岗，三周以后会正式离职。访谈接近两个小时，我尽量讲一些里边有意思的部分。

现在的大语言模型还无法跟狗的智能相比，这个也是其中比较有趣的一点。到底杨乐坤想做的世界模型，以及他的JEPA是如何工作的？对于我这个讲述者和各位听众来说，都是一个挑战。请耐心听到最后，然后告诉我，我到底讲明白了没有？你们到底听懂了没有？杨乐坤要去做的AMI，也就是创业要做的这个新公司，到底是干什么的？怎么挣钱？咱们今天就讲这几块。

第一块：杨乐坤为什么觉得大语言模型完全是扯淡？

这里头要讲到的最核心的观点叫“序列化”。大语言模型工作的方式，是把整个世界的这些语言进行序列化。所谓序列化是什么？就是把所有的语言变成TOKEN，然后把这些TOKEN离散掉，谁跟谁之间都没有关系，再通过把全世界的语言搁在一起进行统计、进行训练，重新建立起这些TOKEN与TOKEN之间的关系。它是这样来工作的。

而且要注意一点，语言这个东西本身就是一个世界映射，语言只能表达世界中的很少一部分。哪怕是同样的语言，你用不同的语气语调来说，都会表达不同的意思。而不同的语气语调，你在语言中是完全无法看到的。所以语言只是真实世界的一个稀疏映射，大量的信息被错漏了。所以在TOKEN化的这个过程中，大语言模型其实把大量世界本身相关的信息都扔掉了，特别是那种连续的信息。

因为大语言模型通常能干的事是什么？就是预测下一个词应该说什么，哪个词是最好的。但是在这个过程中，它对于让世界演变这些连续事件，它是没有办法去进行预测的，因为它在序列化的过程中就把所有这些关联全扔了。

缺乏物理世界的关联与约束

大语言模型之所以可以回答问题，是因为以前有类似的文档。但是回答的时候，大语言模型并不知道这些内容之间的关联与约束。比如说问它：“我把这个杯子扔下去会怎么样？”它会根据过往的文档训练，给你回答说：“这个杯子会自由落体掉落，掉在地上会碎掉。”但是它不知道是因为有重力加速度、万有引力，因为这个玻璃很脆弱，掉在地上以后会摔碎。这些东西它是不知道的，只是因为以前有一些文档告诉你说这个杯子扔出去会摔碎，其他的它是不知道的，里头相关的约束以及这个关联都没有。

推理成本极其浪费

而推理成本是极其浪费的。咱们现在大语言模型，从OpenAI出O系列模型以后，都可以thinking了，都有COT（Chain of Thought）就是推理过程了。这个过程在杨乐坤看来，是极其极其浪费的。为什么？就是它不直接出结果，而是出中间的推理步骤，而且这些推理步骤是一次出一大堆，再由一个专家或者几个专家模型去进行筛选，在里头再挑一个能用的。说这个过程太浪费算力了，实在是没有必要。

安全缺失与事后补救

还有就是安全缺失。说现在的所有安全手段都是非常容易被越狱的，因为什么？你在训练的时候已经把所有的约束都去掉了。你说这个玻璃杯掉在地上会碎裂，这个事儿它是通过训练训进去的，但是它并没有说有一个基础的约束在里头。所以它在一大堆的训练以后，这个模型只能够去猜测下一个TOKEN出什么最合适。

你要想让它进行安全方面的对齐或者是约束，怎么办？你只能是说做事后微调，或者是设置外部围栏：你问了这些问题我就不回答了。事后微调就是我出了什么样的结果，我就如何去处理了；或者我出结果的时候我会进行筛选。这个本身是非常非常不安全的，因为你没有底层的一个逻辑。它是底层先生成一大堆不安全的东西以后，你再去进行后训练，再去进行围栏，这个是非常麻烦的。

还有一个就是成本很高。很多安全措施也是让大模型一次生成一堆结果，然后在里边挑一些相对来说比较安全的给你展示，说这个过程也很浪费。而且大模型是缺乏对于物理世界后果预测能力的。大模型能够预测的只有一件事，就是下一个词出什么最合适。它没法预测说“我这个动作做完了以后会有什么结果”，也缺乏规则的约束。那你说怎么能够判断安全？你一定是说我先预测一下我这个动作做了以后会怎么样，然后再去根据结果预测安全。大模型是没有这个能力的。

硅谷陷入了集体幻觉

第三个是硅谷现在陷入了集体幻觉。硅谷相信，我们只需要不断的去喂数据（包括后边的合成数据），进行人工的管教（也就是后期的微调和对齐），进行技巧的堆砌（也就是强化学习），你就可以不断的让大模型学会新技能。硅谷的AI已经被单一文化所绑架了，大家都怕其他的尝试会落后，只敢低头拉车，不敢抬头看路了。明明有很多其他的方向，我们就不试了，这就是唯一方向，我们就往前走了，这个是非常非常危险的。

所以总结一下，杨乐坤认为大语言模型就是扯淡的三个原因：

第一个原因是序列化，就这东西从一开始它就不对，你就丢弃了大量的信息，而且是打破了所有的关联和约束以后重新训练出来的；
第二个就是很不安全；
第三个就是硅谷整个陷入集体幻觉了，对其他的所有可能性都拒绝尝试了。

第二块：杨乐坤为什么认为现在的大语言模型还无法达到狗的智能？

我们很多人已经因为大语言模型都失业了，它都已经开始替代人的工作了。现在我们一看这玩意连狗都不如，被替代工作失业的人是不是觉得很冤？其实原因也很简单：狗是没有语言的，它并不会去描述这个世界是怎么样、我要去做什么，但是狗依然可以在物理世界中很好的生存，而大语言模型是不具备这个能力的。

狗的世界模型它会记住什么？物体不会凭空的出现与消失。这里有一个杯子，扭过头去再扭回来，这个杯子应该还在。这就属于最基本的物理约束。在我们训练大语言模型的时候，再把这些语言信息进行符号化的时候，进行TOKEN化的时候，这些东西就都丢了。所以狗是有这些底层约束的，而大语言模型没有。

再加上比如说运动力和惯性这些基础的东西，这些玩意不需要牛顿出来，这个狗也知道。它不需要学习，不需要去考试它也知道。说“我跳起来不会马上掉下来，我跳起来会顺着这个惯性接着往前跑一段”，这些东西狗是天生就知道的，或者说它可能生下来经过简单的学习就可以知道。

而且狗是有视觉、听觉、嗅觉和触觉的，可以接收这些信息，可以判断这是什么的味道、这是在哪个方向上、这个东西距离我有多远。这些东西很多都是没有办法通过语言去进行描述的，但是狗可以在这些基础约束下在物理世界中进行活动，而且还活的很开心。狗是可以进行规划的，它要去规划一下我要去怎么抓住老鼠（狗拿耗子这个没关系了，反正甭管抓什么吧），它要去抓一个东西，它可以预测可能的结果，并且做出选择并得以生存。这就是狗真正强的地方。现在大语言模型还做不到这些东西。

大语言模型只能输出语言，而语言仅仅是现实世界一个很小的投影以及很疏离的映射。真实世界中的大量的信息都没有映射到语言上去，所以大语言模型到现在为止还不如狗。等哪天新的世界模型可以像狗一样聪明了以后，咱们再继续往前走。

所以杨乐坤认为，说现在大语言模型这条路是永远不可能超越人的。因为人虽然我们现在在这呱啦呱啦说话，你们也在这听我说话，但是我们离开语言是依然可以在物理世界中生存的。可能未必有狗活的舒服，但是我们也可以在物理世界中，也可以在现实世界中生存。所以在把这些物理世界的基本约束丢掉以后，大语言模型永远也不可能超越人类。

第三块：杨乐坤的抽象世界模型（JEPA）到底想干点什么？

这是对我们的考验，我尝试把它说清楚，也希望大家能把它听明白。首先，杨乐坤的抽象世界模型里头有四个要素：抽象、分层、预测、最小消耗。就是这四个要素组成的整个这个系统。

1. 抽象 (Abstraction)

所谓抽象就是不去预测每一个像素，那太浪费了。你不可能说我预测出这个视频的下一帧来，这个事是不行的。只记录基础的知识，预测大致的结果就OK了，这是他现在要去做的事情。

比如说吧，咱们打羽毛球，当对面那个球打过来的时候，我们会去判断球的轨迹，做出动作击球，但是并不会计算所有的细节，也没有办法去想象在我们击球过程中每一帧画面的所有像素，但是我们依然可以开开心心的在球场上打球。这就是抽象的一个魅力。而且这些基础知识甚至还不是说通过物理的方式我去学、通过数学的方式我去学，公式怎么做、抛物线怎么算、风阻怎么来、这个速度什么，不是这样。我们只是说通过一些习惯，他这样打过来以后，我应该怎么去接，他是这样来去训练出来的。很多的羽毛球冠军，我估计他们的数学跟物理也未必能考及格，但是人家依然是羽毛球冠军。这个是他要去做的第一件事，叫抽象。

2. 分层 (Layering)

抽象之后下一步就是分层。所谓分层，他现在使用的这套系统叫JEPA，叫“联合嵌入预测架构”。什么意思？咱们依然以打羽毛球为例。

高层的预测：我们首先对高层数据嵌入进行预测。高层是我想着我应该回一个什么样的球，我是要回一个后场的高球，还是前场的吊球，还是做一个假动作，这个就属于高层次的思考。
低层次的预测：我这个手脚应该怎么动，怎么协调，我这个手腕应该怎么去摆，怎么去发力，这就是低层次的。

所以他就是在不同的层次想不同的事情。其实我们人去做很多的这种决策或者动作的时候，也是这么去思考问题的。如果你在高层去想这些低层的问题，不是想说我要怎么去给你发一个后场的高调球，而是想着我应该怎么去发力、我应该怎么去动手腕，那一定会出问题的。

3. 预测 (Prediction)

这个预测是什么？就是在世界模型中预测做出相应动作之后的结果。杨乐坤还是会去训练一个世界模型的，里边有一些刚才我们讲的物理公式、数学公式、一些基本的约束，把这些东西训练到物理模型里、世界模型里去。

你说我根据前面的分层的这个方式，我去进行预测了。比如说吧，在我们看到球过来的时候，就会去预测我们把这球打回去以后有几种不同的可能性：我回一个后场球，对方有可能会到后场给我做一个跳杀，或者在后场再给我回一个前场球，或者在后场再给我去回一个后场球，他有几种可能性。我们要去判断，我们把这个可能的结果进行推测。甚至有可能说，我这一个球杀不死他，但是我把他调到后场去，他可能步伐会混乱，再回一个球就有可能回的质量不是那么高，可能给我回一个前场高球，我就可以在前场扣杀他了。我会要做这样的判断或者是一些预测，或者叫规划吧。有的时候我们的这种预测和规划会分成很多步，然后才能去做决策。

4. 最小消耗 (Minimum Cost)

那决策下一步是什么？叫最小消耗。这就是我们决策的过程。你看我们已经抽象了，也分层做了思考了，然后做了预测了，在世界模型下给预测的结果都给我了。下一个事我要选择，这么多的预测结果里我选哪一个？怎么选？它有一个消耗函数，叫cost的一个函数。

什么叫最小消耗？就是你这样回最容易获得胜利，消耗最小的体力，让你觉得最舒服，不适感最低。你要做这样的一个选择，实际上就是计算一个最优解出来。预测之后在不同的结果中选择消耗最小的那个去执行。

安全与结构化

所有的安全约束都可以在这去计算。如果你说我现在把球打出去以后，它有可能会出界，这就是一个安全约束了嘛。这就属于一个消耗很大的一个因素在里头，那么我们就不要选择这样的一个结果，我们要选择其他的动作去做。这就是最小消耗。

它的安全也是在刚才我们讲计算最小消耗的时候就可以直接计算进去了，所以它是一个结构化的安全方案，将安全直接写到底层的硬代码里头去，通过优化实现安全。也就是先模拟，确保满足所有的安全约束，才进行执行。我模拟了以后，你这个安全约束一旦违反了以后，你的消耗函数就会给你返回一个巨大的值，这个选项就直接过滤掉了。它是通过这样的方式来保证安全的，是很难越狱的。

工作流程总结

首先我们要提出动作的序列，先要有一个计划；
然后在世界模型中进行模拟（当然这个模拟是分层去模拟，高层是什么样，底层是什么样的）；
然后评估成本，找到最小消耗，也就是最小化不适感，让你这个动作做完了以后舒服；
根据这个评估的结果对这个动作进行优化，并且执行，作用于真实世界。

这就是这种世界模型的一个运作方式。

第四块：行业点评与未来展望

点评其他“世界模型”

杨乐坤对于现在行业中正在研究的各种号称是世界模型的项目是如何点评的？他说伊利尔的这个SSI（就是超级安全智能），现在完全搞不清在干嘛，可能已经成了一个笑话了。就是伊利尔自己也搞不明白在干嘛，他的投资人也搞不明白他在干什么，这个就没法整了。其他的有些点名了说这几个还不错，那几个不怎么样。但是李飞飞的世界实验室并没有被点名。

杨乐坤给出了评判的标准：什么样的是真世界模型，什么样的是错误道路（依然是在大语言模型的基础上继续狂奔的）。它的判断标准就是：所有生成式的、生成所有像素的，这种都跑歪了。而李飞飞的世界模型，包括OpenAI的Sora世界模型，都属于这一类。他们都属于是生成式的，要生成视频的，要生成所有像素的，这个事都是错的。只有在抽象世界中，基于基本原则去进行预测和规划，才是正确方向。

与大语言模型的关系

杨乐坤的世界模型与现在的大语言模型之间到底是什么关系？是不是要颠覆？倒也不是。他的预测是：未来世界模型负责底层逻辑，而大语言模型只负责语言的部分就可以了。

就像我们现在大脑里头，其中有一部分是只负责语言部分的，而且这一块很小，只发展了可能100万年，很短的一段时间。而大部分时间，这个动物的大脑都是在跟物理世界打交道的。我们人类也是先在物理世界里头去进行各种判断，然后再去用语言输出或者进行交流的。就像刚才我讲这个打羽毛球这个过程，如果你一边打羽毛球一边把所有的步骤和思想过程全都变成语言，你就打不着球了，这个人是反应不过来的。我们经常说“手比脑子快”，我还没想明白，我的一个习惯动作已经上去了。这个世界模型就是要去做这些事情，语言只是需要的时候我再进行描述。

第五块：AMI公司是干什么的，怎么挣钱？

最后咱们讲一下，杨乐坤准备创业的AMI公司到底是干什么的，以及怎么挣钱。他这个AMI叫“高级机器智能”，准备融资5亿欧元，估值30亿欧元。

为什么融欧元？因为他准备放在巴黎，总部在巴黎，在纽约设办公室，所以他要融欧元。那这5亿欧元里头，Meta是重要合作伙伴，但不是股东。至少在这一次他做访谈的时候说了，Meta不是股东。Meta是不是给钱这个事，还要等他这5亿欧元彻底融完了以后才能知道。目前在融资，但是没有披露融资的细节。

杨乐坤是董事长，并不是CEO，应该还是要再找一个年轻力壮的人去做CEO。杨乐坤也65了，虽然在这种顶级科学家里头不算特别老的吧，但是肯定体力也没有那么跟得上了。

逃离硅谷与开源研究

在巴黎设立总部、纽约设立办公室，原因就是要逃离硅谷，因为硅谷现在已经被单一思想给垄断了。其实欧洲人看美国人的方式，跟纽约看硅谷的方式，以及硅谷看中国的方式都是一样的。什么意思？大家都觉得我们是在做基础研究，对面那帮人是在做应用研究。欧洲人就觉得我们在做基础研究，美国人都在做应用研究。美国的像纽约、波士顿这些东海岸的人去看西海岸的硅谷，想的也是这样：东海岸我们在做基础研究（像什么哈佛这些人在做基础研究），西海岸的这些（像什么斯坦福、UC Berkeley、包括硅谷）你们都是在做应用。硅谷看中国也是这样的，说我们在做基础研究，你们中国人只管超过去做应用就完事了。大家都是这样的一个思路，所以现在杨乐坤说算咱们欧洲干去。

杨乐坤要求要做开放开源的研究。他说不公开发表就不是真正的研究，这就是他跟Meta最后闹掰的一个核心原因。他希望他的各种研究可以公开发表，而亚历山大·汪进去了以后说不行，你必须要经过我审核了以后才可以发表。所以一气之下老头跑了。

杨乐坤为什么要求必须要公开发表？

他说你如果不公开发表的话，就容易自欺欺人（估计讲的是Llama4）。这个事必须要通过同行评审，才可以确保研究方向的严谨性以及结果的可靠性，所以必须公开发表。
开源则是吸引顶尖头脑的最佳手段。很多研究成果转化成产品需要数年甚至数十年，允许研究人员发表论文并且开源他们的结果，可以提供及时的激励和成就感，所以还是要鼓励开源的。
开源是实现AI多样化的唯一途径。杨乐坤是反对垄断的，他在Meta做了12年，做出Llama大模型来就是为了反对谷歌和OpenAI的垄断。
开源也是促进文化多样性的一个手段。如果被垄断了，那就没有文化多样性了吧，只有开源了才有不同的大模型可以去玩耍。
开源也是商业与经济最好的一个结果，可以在商业和经济上得到最好的回报。因为开源可以很好的赋能各种垂直领域，因为只有你开源了，别人才可以去这些垂直领域，才可以更方便的去跟你合作，可以最大化经济影响。

其实开源这里有一点杨乐坤并没有提，开源最大的好处是建立事实标准。因为一旦事实标准建立了，你整个这个系统就可以躺在那吃饭。现在英伟达的CUDA就是一个事实标准，虽然它并不开源，但它依然是一个事实标准，所有人都难以逾越。

商业模式

最后，AMI怎么挣钱？又是开放又是开源，我还要发表论文，我所有的产品我一开源了，别人就能用了，到底怎么去挣钱？现在他们的设想是，做好这个世界模型以后，为自动驾驶和机器人这些需要在物理世界中、需要在连续的时间序列中去做决策的这些企业，提供基础模型以及提供各种技术的支持和服务，通过这种方式去挣钱。

结语

最后总结一下今天的话题。对于我以及听众们都是一次考验，我希望我把杨乐坤的世界模型到底怎么做给大家讲明白了，或者让大家觉得我自己明白了也行。让我们尝试去理解杨乐坤的世界模型具体想做什么。期待杨乐坤在新的方向上依然可以做出有价值的贡献，不为短期经济利益所屈服，勇于尝试不同的方向，科技才可以进步。

好，这就是今天的内容，感谢大家收听。请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：high-contrast watercolor painting, empty New York University computer lab interior, rows of sleek monitors and keyboards on long desks, ergonomic chairs pushed in, large windows with city lights filtering through, glossy reflections on screens and tabletops, neon cyan rimlight outlining equipment edges, deep navy background, sharp subject separation with extremely legible negative space for text overlay, minimal palette of ink blue neon cyan and subtle gold accents, cinematic composition, ultra-detailed, intricate linework, –ar 16:9 –raw –s 250 –v 7.0 –p lh4so59

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

Luke Fan — Sun, 14 Dec 2025 00:54:07 +0000

GPT-5.2我已经用了两天了，效果到底怎么样？

大家好，欢迎收听老范讲故事的YouTube频道。

GPT-5.2：应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的，它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5，我们记得是有三年，但是在这之前，OpenAI已经苦逼了好多年了，所以这是OpenAI自己的十周年生日礼物。这个产品，应该是应对谷歌的Gemini 3 Pro的一个紧急版本，是在GPT-5的基础上进行了调整和训练得到的，更加注重长时间推理结果，结构化的输出更像系统，也就是更不像人。这个东西很多指标都遥遥领先，当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点：输出质量显著提升

用了两天了，我自己使用的感受是什么样的？输出的结果确实要比GPT-5.1要好很多，它的输出结果更全面、更准确，而且输出的结果整个的排版格式也是非常舒服的。

缺点：速度极慢与应对策略

但是，好慢好慢好慢！重要的事情说三遍，这个东西真的是很慢。当然，也有可能是新版本刚发布，用的人很多，但确实是慢，让我把默认的thinking模式都给取消了，改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出；如果是直出模式的话，就是不判断，直接给结果就完事了。当然了，我还有一个方式来应对速度，就是在GPT旁边再开个豆包，豆包是相对来说要比它快很多的。

恼人的上下文处理异常

另外，有一个让人使得很不爽的地方是什么？就是GPT-5.2的上下文处理经常发生异常，经常有一些很诡异的表现。什么意思？我们在一个对话里聊天，你前面问了一个问题，七嚓咔嚓给你答了一大堆，你再问下一个问题的时候，他经常把上一个问题已经答过的这些内容，又给你稀里哗啦地给你挂上。

你比如说，你前头问了123三个问题，给了你一个答案，然后你再问456三个问题，他会先总结一下前面123的三个问题的答案是什么样的，然后456这三个问题的答案是什么样的，他会给你这样的一个结果，让我自己看起来觉得有些奇怪。

所以，如果大家要去问新问题了，最好要开启新话题，不要在原来的对话里头一直聊下去，因为他会把前面的所有聊天内容通通放到新的对话里边去进行思考的，会影响我们答案的质量。因为我试过几次，当我突然在一个对话里头问了他一个不相干的问题的时候，他也是会把前面我们整个对话的内容再给我回顾一下，然后我后面的这个结果会严重地受到前面问答结果的影响。所以，你要问一个不相干的问题，就开个新窗口或者打开新话题。

图像能力：推理增强，生成不变

图片的推理跟分析确实是增强了，但是生成的部分没改。

本视频的全部内容都是由GPT-5.2完成内容整理的。这是最近我的一个新习惯：讲Gemini 3 Pro的内容，就完完全全用Gemini 3 Pro生成；讲DeepSeek V3.2的内容，就完完全全由Deepseek V3.2生成；讲GPT-5.1、5.2的内容，咱们就用GPT-5.1、5.2来生成。也是让大家有一个真实的体会。

性能揭秘：深度解读新指标GDP val

很多人说不对，GPT-5.2出来了以后，各项指标遥遥领先，都领先了Gemini 3 Pro了，按照我刚才讲的这个过程，怎么好像各有春秋的样子？

选择性公布的领先指标

怎么说呢？GPT-5.2的很多指标其实并没有公布，他们只公布了自己领先于Gemini 3 Pro的这些指标。但是这已经是有了巨大变化了，在以前GPT发布的所有的指标里头，它只跟自己比，它是从来不跟别人比的。所有GPT、Gemini和Anthropic的Claude相互比较的这些数据，都是社区的人，或者说媒体的人给他总结的，他们自己是从来不发布的。老大要有老大的风度，我天天去跟下边人比，这事肯定是不行的。但是这一次，他发布的这些指标都是有Gemini 3的这个数据，也有Claude 4.5 Opus的数据，它们是进行比较的。但是，OpenAI只列出了它领先的这部分，不领先的部分通通都没说。

全新指标：GDP val（通用开发者生产力验证）

甚至为了领先，还设置了一个OpenAI的新指标，这个指标叫GDP val（val是小写，GDP大写）。这个指标的意思是什么？叫“通用开发者生产力验证”，它是模拟真实开发工作的一个测试体系，衡量一个模型是否真的能够提升专业知识工作者，尤其是开发者的生产力。像我才算是专业知识工作者，我确实是感觉到我的生产力提升了。这个指标设计的核心是什么？

首先，它不关心模型会不会做选择题，也不关心模型能不能背知识点。因为什么？我们现在让模型去回答问题，都是有搜索的，或者说有这个本地知识库的，不需要模型给你编任何东西，而且我们很害怕模型给你编东西，所以这个也不是考核指标。
至于是不是能够命中标准答案，这件事也不重要，你设置了一个标准答案，正好答的一个字都不差，这个事也不考核。

考核重点：从头到尾完成复杂任务

那他考核什么？

它考核的是一个复杂任务能不能从头到尾完成，输出是否可以直接用于工作。
中间是否出现致命的理解偏差？还有很多步的这种推理，你中间是不是理解错了？这个要去考核。
是否需要大量的人工返工？给我了一个结果，我还要告诉你说错了，这个地方你没理解对，那个地方我还有一个要求，这还有一个隐藏的条件你没有照顾到，这个就叫人工返工。这都属于重要的考核方向。

测试过程：模拟真实开发者场景

那它测试的过程是多步骤专业任务。举个例子，阅读一份需求文件，分析约束条件（一般需求文件里都是有各种约束的嘛），然后设计解决方案，给出结构化的输出——代码、文档或者是方案，直接是让他做一个完整的任务。任务通常包括隐含条件、非显性约束、多个正确但质量不同的解法，所以为什么没有标准答案。通常会给他一个真实的开发者场景，例如：

重构代码：我这个代码原来已经写好了，也能测试通过，但是它不符合高内聚、低耦合的代码规范，这种代码后续的维护、升级都比较费劲，你需要去进行重构，让一个函数变得小一点，让这个类有这种继承关系，让这个代码可以重用，这个东西叫重构。
补全缺失模块：我们写好了一些代码以后，或者缺几个模块，你给我写去。我提一句话，他得给我干完，不能说在中间问你一大堆别的事情，或者给你一个半半拉拉的一个结果，这事都不行。
修改接口而不破坏兼容性：经常我们会遇到什么？就是你写了一个代码，然后这个代码中间的某一个库升级了，这个库的接口就会发生变化，你需要告诉这个系统说，我现在接口变了，你现在去给我调整代码，让他重新给我兼容上去。这个也是GDP val的测试用例。
在限定的规则下修复问题：这个也是我们在写代码的时候经常会遇到的一个很痛苦的事情，你说出错了，他有时候没把你要求的这个地方修改掉，还把其他很多地方给你改的乱七八糟的。现在你可以告诉他说，你就给我改这几个地方，别地儿别动，他会给你去处理。

长上下文任务考核

而且会去做这种叫长上下文的任务，就是输入信息很长，包括无关信息和干扰信息都会输进来，要求模型自行判断哪些重要。考核的话就是上下文的理解能力、信息筛选能力、工作记忆的这种稳定性。但是这一块我觉得还有待提升，因为刚才我也讲了，你在这个很长的聊天过程中，如果突然问他一个很跳跃性的问题，他会搞乱掉的。这一块那你说到底是怎么更好一点？应该是允许他在工作过程中开个小差、聊个天，还是说你在工作过程中就认认真真干一个工作？反正各有取舍。

评分机制与核心要求

那评分机制是什么样的？人工评审。这个任务是否完成？是否存在关键错误？是否可以直接使用？决策是否合理？是否在边界条件下崩溃？最后这个是非常非常重要的，因为我们让AI去干活，他经常会只照顾到比较普遍的这种情况，但是一些边缘的情况就会照顾不到。这个评审是要求你都要照顾到。

在这些条件里头，最重要的是什么？一次完成。不鼓励反复追问、人类手动修正，更看重的是一次性给出可以交付的结果。所有这些文字都是GPT-5.2直接输出的，一个字都不带差的，大家看它交付的结果还是相当可以用的。明确区分部分完成和可交付，部分完成是属于不合格的，接近正确是没有价值的。

要被严重扣分的行为是：

逻辑正确，但是漏掉关键约束；
方案可行，但是忽略明确要求。

GDP Val的意义与得分情况

GDP Val的意义是什么？就是企业用户、AI agent的系统自动化流程、专业知识工作者，特别是开发、分析和研究的这些人，主要是给他们用的。至于你说我要娱乐一下、我要陪伴一下、我要跟他聊个天，这都不是给你用的。GDP Val不是在测模型有多聪明，我们也不需要它有多聪明，而是在测你把工作交给他，第二天能不能直接交差。这个是主要测试的目的。

得分的话，各模型表现如下：

GPT-5.2：70.9分
GPT-5.2 Pro：74.1分
Anthropic Claude Opus 4.5：59.6分
Gemini 3 Pro：53.5分
GPT-5.1：38.8分
GPT-4：18.6分

我觉得GDP val的指标还是非常有效的，现在我让GPT-5.2去干活的时候，拿出来的东西是基本可以直接用了，这块确实有很大提升。

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

Gemini 3 Pro发布的时候，号称领先的LM Arena的那个指标，1,501分的那个指标，这是第一次超过1,500分，有史以来第一回。这一个指标上，GPT-5.2超过了吗？首先跟大家讲，GPT-5.2这一次发布的时候就没有公开这个指标，它只公开自己领先的指标，所有不领先的指标都没有公开，所以GPT-5.2应该是没有超过。

重要澄清：GPT-5.2不是Garlic

特别强调一点，GPT-5.2不是garlic。很多的文章在说garlic发布了GPT-5.2，注意，不是。大蒜模型从来没有被验证过，也没有在任何的匿名竞技场里头出现过这个garlic模型的名字，是从内部意外流传出来的。但是Garlic模型到底应对的是哪一个版本，这个现在不确定。但是所有说GPT-5.2是garlic的，都属于是产生幻觉了，甭管是人产生的幻觉，还是AI产生的幻觉，这个事本身并不重要。

匿名参赛：Robin与Robin high

GPT-5.2自己有没有参加LM Arena的这个竞技场？参加了，他也去做了这个评分了。但是LM Arena这个竞技场里边都是匿名的，当时Gemini 3 Pro进去的时候也是匿名的，GPT-5.2进去肯定也是匿名的。它在这个里边有两个模型：

Robin：测试的评分是1,399分（Gemini 3 Pro是1,501）；
Robin high：这个模型有可能是GPT-5.2 Pro，就是那个贼贵贼贵那个模型，它的测试结果是1,486分，也没有超过1,500分。

所以这一次，OpenAI就没有列这个成绩。现在普遍认为这个Robin就是GPT-5.2，Robin high应该是GPT-5.2 Pro。

LM Arena vs GDP val：评测标准有何不同？

这个LM Arena，它叫人类偏好测试，它是由真人用户直接投票来产生的。大模型匿名参加，谁也不知道谁是谁，但是其实你说匿名，也没有那么严格，大家都能猜出来具体哪个是哪个。他的测试过程是什么？就是用户输入一个真实问题，随机抽取两个模型，不显示模型的名字，同时返回两个答案，由用户来投票。那评分的方式是每个模型上来初始分1,000分，赢了比较强的模型加分——这个里头要注意，不是赢了就加分，是赢了比较强的模型才加分——输给比较弱的模型减分。它这个过程有点像打游戏，我们经常在游戏里头需要进行配对，你现在要跟谁去做PVP了，他也会去找一些跟你的排名差不多的这些人。

他这样的评测主要强调什么？是回答是否有用，逻辑是否清晰，表达是否自然，是否符合人类的直觉，多轮对话的舒服程度到底怎么样。它不强调哪些东西？是否背过某道题，是否命中固定答案，是否针对benchmark专门优化过，这个通通都是不重要的。所以“小镇做题家”在这里头是搞不定的，包括上面OpenAI自己做那个标准，也是搞不定的。

Gemini 3 Pro得分1,501，GPT-5.2 Pro得分是1,486。但是都叫Pro，差异很大。Gemini Pro它的价格还是相对比较便宜的，也比较快；而这个GPT-5.2 Pro贼贵，没有太大的必要，千万不要去尝试，非常非常昂贵。

GPT-5.2的定位：到底强在哪里？

它是消耗了更多的算力，直接获得能用的结果。更慢、更贵，但是结果基本上直接可用。核心特点包括：

有些仓促，确实是有点着急，红色警报嘛，确实有点着急，所以会出现这种上下文错误。
更多的是面向B端用户，不是娱乐的。
主要是针对Gemini 3 Pro和Claude 4.5 Opus。

我觉得Claude 4.5 Opus有点危险。为什么？因为我们以前的竞争经常是这样：老大跟老二打了半天，把老三、老四、老五、老六全都给干掉了。Claude 4.5 Opus这一点就稍微的要弱一些。现在通过GPT-5.2大家可以看出来，全能型的模型，就像全能型的人一样，是很难做出来的，既要幽默风趣有情商，又是办公小能手，这个很难兼得。大模型的进一步提升，普通人已经越来越难以直观感知了。解决具体实际问题，是目前各大模型厂商所关注的重点。

未来值得期待的更新

OpenAI的图像生成模型：还是值得期待一下的，因为这个东西好长时间没有更新了。特别是Nano Banana叠加了迪士尼的版权授权之后，OpenAI的图像生成模型就更值得期待了。迪士尼版权授权这件事，回头我再抽时间再讲。
明年的成人模式：也许是为个人娱乐服务提供的一个新方向。但是这一块最好不要抱太大的预期。为什么？第一，不能显得老范太低俗了，这个不重要；最重要的是，OpenAI现在是风口浪尖上，大家都在拿显微镜看它，而成人模式这件事情，本身尺度是非常难以把握的。所以对于这一点上，不需要抱太大预期。

总结：一款为专业工作者而生的“红色警报”产品

总结一下，GPT-5.2作为“红色警报”产品，算是紧急上线了。我自己用起来的感觉还不错，比较符合我的使用需求。我也往自己脸上贴个金，我算是专业的知识工作者。未来GPT会继续在我的文字类工作流程中占据主导位置。中间我大概是换Gemini换了几周的时间，但是现在我又换回去了。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA

Luke Fan — Fri, 05 Dec 2025 01:06:50 +0000

Deepseek V3.2，12月1号发布了。是不是又遥遥领先了呢？

大家好，欢迎收听老范讲故事的YouTube频道。

Deepseek V3.2的发布应该是12月1日。我们始终没有等来心心念念的Deepseek R2。在今年春节的时候，深度求索突然发布了Deepseek R1，算是扔下了一颗深水炸弹，把整个AI圈都震动了，甚至还造成了英伟达股价的闪崩——一段时间内闪崩吧。甚至老黄都跑出来喊，说：“Deepseek发布对我是利好，你们不要卖英伟达的股票。”大家就一直等着这个R1，既然这么厉害，咱们上R2。但是等了这么久，都没有等来R2。

Deepseek V系列版本回顾

下面呢，我们来捋一下Deepseek V系列的版本到底是怎么样的一个发布过程。

Deepseek V3 (去年12月26日发布): 这是非常非常重要的一个版本。实际上我们后面看到的所有版本，包括R1，都是在Deepseek V3的基础上进行微调、进行蒸馏、进行强化学习。今天发布的Deepseek V3.2，也依然是在这个版本的基础上做出来的。
Deepseek V3-0324 (3月24日发布): 主要是在专项能力上做了一些增强，比如说编代码或者写文章。
Deepseek V3.1 (8月21日发布): 主要是工程化和智能体方面做了增强。因为当时大家都要去做AI agent，而之前的版本在AI agent这一块都比较弱。
Deepseek V3.1 Terminals (9月22日发布): 这个版本叫V3.1的终极版，实际上是对V3.1做了一些修复和精调，并告知这是V3.1的最终版本。
V3.2 EXP (9月29日发布): 一个实验版本，在V3.1终极版的基础上加入了DSA技术。最主要的变化是降价，直接把API调用的价格砍了一半。
Deepseek OCR (10月20日发布): 一个很小的模型（约6G），用于图片解释，效果很好。
maths VR (11月27日发布): 专门做数学推理和数学证明的一个版本，在各种数学题测试中评分非常高。
Deepseek V3.2 正式版 & V3.2 special 特别版 (12月1号发布): 本次发布的主角。

V3.2，是不是遥遥领先了呢？

那么这一次的V3.2，是不是遥遥领先了呢？各种评测数据确实非常亮眼，但是呢，我们要看到它的评测数据里头实际上是有两个数值的。一个数值呢是Deepseek V3.2做出来的，一个数值呢，是Deepseek V3.2 special做出来的。

它的Deepseek 3.2 special这个版本，确实是比Gemini 3 Pro、GPT5.1都要强，但是我们大部分人，实际上没有办法去使用这个V3.2 special。它这个正式版的V3.2呢，属于是接近了GPT-5.1的水平，各项评分都很近，有个别的超过吧，大部分呢跟GPT-5.1很近的一个位置。

甚至呢，还有人出来讲，说GPT到现在3周岁了，现在Deepseek反超回来了。很多人就讲说GPT被Deepseek吓到了，其实跟Deepseek没关系，主要是被谷歌吓到了。

V3.2 Special：一个跑分工具？

你说V3.2的special版本的评分，不是已经超越了GPT-5.1和Gemini 3 Pro了吗？你怎么还说跟国外有差距呢？首先要注意，V3.2 special是一个基本上没法用的版本。为什么呢？

就是它的推理、它的运算确实非常强，但是呢，它在工具调用、AI agent的使用这一块都不能用，因为它就是会解数学题，它是一个偏科天才，除了写数学题之外，他啥也搞不了。所以呢，他做各种的评测分数很高，但是你实际使用他，你是没法使的。

而且Deepseek V3.2 special这个版本只能用到12月15号，在这之后这个接口就直接废掉了。所以那个产品就是跑分用的，不是给大家用的。发布V3.2 special呢，也是有一点点赶鸭子上架。当然有很多人说，这个就是Deepseek R2了。

V3.2的核心技术：DSA算法

那么V3.2到底是怎么训练出来的呢？实际上Deepseek V3.2，是在Deepseek V3.1 Terminals这个基础上进行的继续训练，基础大模型没变。这个里边最关键的特性，就是降本增效。

降本：Deepseek稀疏注意力算法 (DSA)

它直接把成本对半砍，就是降50%的API调用成本。里边呢，使用了一个叫DSA的算法，Deepseek稀疏注意力算法。通过一个叫闪电索引的功能，它不是对文本里边的所有词进行运算和匹配，而是先评估哪一块比较重要，哪一块不太重要，我们把重要的部分拿去做下一步，不重要的部分直接扔了。通过这种方式呢，它极大的降低了长上下文的处理成本。

长上下文是必须的，因为AI agent需要调用工具、搜索、使用本地知识库。所以只能在长上下文的基础上想办法去降低成本。

增效：与V3.1对齐并强化

在实现了DSA的算法之后，它还要跟Deepseek V3.1 Terminals这个最终版进行对齐，确保性能不能退步。这就是这一次V3.2在V3.2 EXP的基础上做的一个很重要的更新。

所以呢，9月29号V3.2 EXP，第一件事是先把价格打下来：

输入 (缓存不命中): 100万TOKEN两块钱人民币。
输入 (缓存命中): 100万TOKEN是两毛钱。
输出: 100万TOKEN只需要3元人民币。

这个价格要比我们现在能看到的各种轻量级模型都要便宜很多。

在发布这个版本之后呢，进行了大规模特定目标的强化学习，主要学很难解答但很容易验证的问题，特别是针对智能体（AI agent）进行数据训练。在这样的一个基础上，就得到了12月1号所发布的V3.2正式版。

V3.2 Special的由来

它呢，是在V3.2 EXP base的这个基础上，拿着前面我们讲的，专门做数学题证明的maths VR这个版本去做后续的训练。V3.2 special实际上就是V3.2 EXP base这个版本加上maths V2这个版本合成的一个版本。所以它特别擅长做数学题、做各种长推理，但其他方面能力很弱。

真正的领先之处：开源贡献

我们现在所说的领先，是真正做出来的这些改变、这些创新，对于整个行业是不是有贡献。Deepseek R1对于整个行业是有巨大贡献的。而这一次的DSA确实是非常先进的，也对整个行业是有贡献的。只要是对整个行业有贡献，我们就认为它已经遥遥领先了。

而且DSA算法呢是完全开源的，有论文、有模型、有代码，而且可以商业化使用。不像美国那些公司抠抠搜搜的。

当然，这个东西也不是Deepseek凭空发明的，它是在很多前人的基础上做的改进和应用。就像瓦特改进了蒸汽机一样，DSA也是如此。类似的稀疏注意力算法有很多论文，但是真正大规模的验证和使用，就是Deepseek的DSA这个算法。

其他AI公司如何应用DSA？

美国公司也有类似技术，OpenAI的算法没有公开，谷歌应用的则是一个叫“环注意力”（ring attention）的算法，可以支持到100万TOKEN的上下文。

DSA是完全开源的，其他模型也可以使用，但需要经过几个步骤：

模型结构改造： 在原来模型的基础上加上闪电索引。先进行“稠密预热”，保持主干注意力完全稠密，冻结原来的参数，只训练这个闪电索引。
稀疏训练： 打开DSA开关，解冻主干的参数，和闪电索引一起训练，并确保输出结果跟原来是一样的。
蒸馏和强化学习： 在针对写作、数学、代码、AI agent搜索等等特定领域进行特训，再用特定的模型生成数据，蒸馏主模型。最终把推理和AI agent这些行为进行强化学习和人类的对齐。

所以DSA对整个行业是有巨大推动作用的，这才是真正的遥遥领先。

Deepseek V3.2的局限与不足

它还是有很多地方比GPT-5.1、比Gemini 3 Pro要差很远的地方。

纯文本模型： 完全没有多模态能力，给它图片它是不认识的。
基础模型陈旧： Deepseek V3.2也是在一个去年12月26日发布的Deepseek V3的基础上，不停的打补丁补出来的一个版本。这个叫“麻袋片绣花，底子太差”。就像OpenAI发现GPT-5（在GPT-4基础上微调）无法追赶从头训练的Gemini 3 Pro一样，要想再追上，必须得退回去把基础模型再提升一步。

所以，Deepseek下一步肯定还是要先把Deepseek V3.2的special合并进去，但更重要的是需要重新预训练一个全新的V4模型，把多模态等能力加进去。

对国产算力的真正影响

Deepseek V3.2是不是对于国产算力有了巨大的帮助？国内云确实是在第一时间就去支持了，他们叫0 day支持。

现在大模型推理普遍使用VLLM或SGLANG这样的开源框架，它们最初是为英伟达显卡设计的。Deepseek发布DSA后，第一件事就是修改这两个框架，让它们能很好地支持DSA。国内的算力卡厂商，如华为升腾，也要到这个系统上去打补丁，适配自己的硬件。

华为云等厂商已经完成了这个适配工作，这意味着，以后想把模型部署到中国的公司（如XAI），可以直接购买华为升腾的芯片而无需修改代码。

所以国内的云和算力卡确实又行了，它们可以在相同的算力下处理更多的信息。从推理这件事情上来说，我们不再那么依赖英伟达的显卡了。但是，如果想预训练一个全新的大模型，还是要去买英伟达显卡。目前国内普遍的做法是让大模型出海，在海外去做训练。

Deepseek V3.2带来的市场影响

AI应用在国内产业的普及与渗透速度会进一步的提升。
一些新的模型，甭管是国内的还是国外的，都会去进行DSA升级，以降低成本。
使用中文推理的美国大模型会变多起来，因为它们很多是在中文开源模型基础上做后训练的。

对英伟达的影响：短期承压，长期利好

短期来看是利空。 DSA让推理成本下降，完成同样的任务只需要一半的显卡，这会减少对英伟达通用算力的需求。

但长期来说依然是利好。 首先，行业认识到必须重新预训练基础模型，这离不开英伟达显卡。其次，AI应用渗透率上升，会推动整个行业越过盈利点，对算力中心的需求可能实现真正的爆发。

总结

Deepseek V3.2，12月1日正式发布了，评分很高，但对于实际使用和感受其实没有那么大意义。因为他真正评分很高的那个版本，是一个偏科的数学天才。V3.2正式版他的评分并没有那么高。而且Deepseek V3.2是在V3的基础上继续缝缝补补出来的，想要继续前进已经很难了，必须要去对基础模型重新做预训练了。DSA这个算法确实对整个行业做出了贡献，非常非常有价值，在这一点上，你说它遥遥领先没有任何问题，但是距离真正的全线领先，还有很大的差距。

好，这就是咱们今天要讲的故事，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

90 分钟专访揭秘：Ilya 为何抛弃 OpenAI 路线，创办 SSI 公司半年估值从 50 亿飙到 320 亿？｜Safe Superintelligence、Superintelligence

Luke Fan — Fri, 28 Nov 2025 00:56:48 +0000

伊利尔·苏斯克维的专访：他到底说了些什么？

大家好，欢迎收听老范讲故事的YouTube频道。

伊列尔·苏斯克维，很多人说：“这哥们是谁？”就是和马斯克、山姆·奥特曼一起创建OpenAI那哥们。在2023年11月份，对山姆·奥特曼进行逼宫以后，休假了很长时间，然后从OpenAI离职的。这一位算是OpenAI的创始人吧，他离职了以后呢，自己闷头去做研究，好长时间没有他的声音了，现在突然出来接受了一次专访。

引言：AI界的科学家与当下的迷茫

首先要注意，这哥们不是一个工程师，他是一个科学家。工程师跟科学家之间还是有很大差异的。使用确定的技术、加大投入、获得可预期的结果，这是工程师干的活；研究不确定的方向，这是科学家干的事情。所以，他是一位科学家。

现在很多人都在讨论AI是不是有泡沫。现在距离走通“最后一步”还有一点点小的差距。到底什么叫“最后一步”？就是AI真正的落地，真正的开始改变很多东西，开始挣钱。这一步现在还是有一点点差距的。但是呢，很多人也在否认AI泡沫的存在。AI虽然没有走通最后一步，但是AI真的带来很多失业。“钱我没挣着，但是我真的把人的工作干掉了。”现在是大家都比较迷茫的一个时间点。

原来那些应该默默无闻做研究的科学家，就携带了巨大的光环跑出来说话了。本来这些科学家说的话呢，应该是在很小的圈子里边流传，但是现在大家看看李飞飞、杨乐坤，包括今天咱们讲的伊利尔说的这些话，也成为了大众讨论的话题。

核心观点一：科学研究与工程研发的转化

“科研现在需要相互转化了”，这就是这一次伊利尔访谈的一个核心观点。你说，科研科研不是一回事吗？不是，科学跟研究是两回事，它是分为“科学研究”和“工程研发”，它是两个不同的概念。

科学研究呢，是在发现方向。发现了方向以后，就可以堆钱、堆算力、堆数据，在各种行业里边进行测试，这个呢都叫工程研发。就像前面他们研究了半天，到底哪个算法是可以把这个大模型做出来的，最后发现Transformer算法是可以搞定的，发现方向了。到发现Transformer方法有效之前，都是在做科学研究。在Transformer出来以后，大家说：“咱们堆钱吧！”玩这个scaling law，就是直接往里头去堆算力、堆数据、堆这些东西了，这就开始玩工程研发了。这个都是确定的东西，我们只管往里堆钱就完了。

工程研发呢，有一个不可避免的问题，就是你万一站到了一个小山头上，朝任何一个方向走都是下坡。工程研发的时候，他也是会寻找更高的一个山头往上爬，但是你爬到一个最高的山头的时候，你就没法往前走了，因为你不知道应该往哪个方向走了。如果有一个离你很近的山头，你还可以去尝试的跳一跳；如果下一个山峰离你非常遥远的话，这个工程研发是没有办法去跨越鸿沟的。那么在这个时候就应该重新走回来，做科学研究了，重新去尝试那些现在不确定的方向。这就是这一次伊利尔访谈的一个核心观点。

所有的科学家最大的能力是不是科学？其实不是这样。所有的科学家，特别是成功的科学家，他们最大的能力是筹措经费和资金。特别是现在这个时间点，任何一项科学研究都是需要海量资金去堆砌的。现在已经不能说科学家坐在家里头，闭门造车多少年，最后研究出一个神奇的东西出来，现在已经过了那个时间点了。

核心观点二：大模型是典型的“小镇做题家”？

现在的大语言模型跟人比起来，是不是走错路了？这就是这一次伊利尔提出的一个核心观点。说现在的大语言模型呢，就像是典型的“小镇做题家”。当然，“小镇做题家”这个词是我加上去的，但是他描述的整个过程，他描述的所有的细节，就跟咱们这的“小镇做题家”非常非常相近。这些大模型呢，在各种的复杂评测上无往而不利，一个比一个分高，但是遇到了具体问题，甚至一些比较简单的环境，都直接抓瞎，搞不定。

在研究大模型的过程中，设立目标体系是必须的。我研究了半天大模型，我最后怎么评测的？你肯定要设一个体系。但是设完体系以后呢，刷题也是必须的。现在既然有高考、有考研、有考公，那我们就要不停地来刷这个题，让考生能够适应考试的过程。

中国的模型和Llama 4就是典型的失败案例，就是刷了太多的题，刷的分很高，但是你一使起来，发现完全不是那么回事。即使是现在大家普遍认为相对比较成功的案例，比如说Claude 4.5 Opus、或者是Gemini 3 Pro、GPT-5.1这些模型，也是在巨大的数据算力基础上达到的成果，到了实际工作中，依然会出各种各样的问题。虽然他们出的问题，可能要比刚才咱们讲的纯“小镇做题家”的中国很多的二线模型，以及前面翻了车的Llama 4要好很多——中国一线模型其实也还是基本能用的——但是依然不能放心地把复杂任务交给他们。

大模型与人类学习的巨大差异

而这个训练大模型呢，跟人类学习的过程是有巨大差异的。差在哪呢？

样本需求量：说人类只需要很少量的样本就可以学会东西。他举的例子是猫，你要想让大模型认识什么东西是猫，你恨不得你把全世界所有猫的图片、照片全都找出来让大模型去学习，他才能够认出来这是猫。而有时候还认错，把一个狗认成猫，或者把一个老虎认成猫，有时候还干这种事情。但是人的话，你让一个小孩只要看三五张照片，他就知道啥是猫了，然后他看到猫他就认识，换一个样的猫他也认识，黑的、白的、花的，他都认识。甚至你在这个时候画一个卡通的猫，他还是认识。人类只需要非常非常少的样本就可以学会什么是猫，而对于大模型来说，这个是完完全全无法做到的，至少用原来的这种Transformer的算法是没法搞定的。
判断依据：第二个问题是什么呢？就是人类是依赖情感进行判断的。“这个事情我觉得是对的，那个事情我觉得是错的。”而大模型是完全没有情感的，它是靠统计结果来去进行判断的。人类靠情感判断的情况下，我们可以在信息非常不充分的时候进行决策。而大模型真的是把全世界人类所产生的所有信息都塞进去，训练完了以后，你让他再去做判定，还是经常出各种笑话。其实我们日常生活中，有些人也是这样的，就是学了很多东西，但是情商为零，这些人他们也经常会闹各种各样的笑话。现在大模型也在干这个活。

所以伊利尔认为，沿着当前的scaling law继续低着头拉车已经走不通了，是时候应该抬起头来看看路了。这就是他现在提出的一个核心观点。

伊利尔的新方向：告别Scaling Law，拥抱新架构

那他现在具体的方向到底是什么呢？他认为应该去搞一个全新的架构了，而不是在原来Transformer架构上接着往前走了。他要训练一开始就具备情感判断能力的这种“价值函数”。你这个大模型上来以后，从最开始没有那么多数据堆进去的时候，你就可以进行情感判断了。

咱们人也是这样，从小咱们是一边学怎么做人，一边学各种知识，而且学做人是在前面的。“这个东西我能吃，那个东西我不能吃”，“这个东西是干净，那个东西是脏的”，“哪个东西是香的，哪个东西是臭的”，我们一开始是在学这些东西，然后才是学各种的知识，开始刷题、开始考试。而大模型是反过来的，他是把所有的这些该考的试都考完了以后，然后再去学哪个东西能干，哪个东西不能干，怎么能够让大模型变得更安全，怎么去对它进行对齐，它是正好反过来的。现在伊利尔说，咱们应该像人一样，先去学一些最基础的东西，学让他怎么进行情感判断，然后再往里堆知识，这个顺序不能搞错。

说只有这样呢，我们才能够训练出来一开始就有是非观念、就能够明辨是非的这样的大模型，而不是像现在大模型似的，先预训练完了以后，再想办法去强化学习各种的安全规则。而且呢，伊利尔希望未来的大模型是一些小的、内容很少的一些模型。咱们现在叫“大模型”吧，但是他认为未来的“超级智能”应该是一些小模型，他需要的时候可以快速地学会新的知识，而不是像我们现在这样，先把所有知识都塞进去，然后再去进行一些微调，你可以适应某一个特定的环境。

其实我们现在这些“小镇做题家”就是这样的。你去参加高考，那肯定是能够语数英、物理化学、史地生政，这些东西你都要学完了，都可以考到一个很高的分数，你才可以考上清华北大。而你在清华北大上完了多少年学以后，出来了进入到具体的工作岗位，再去进行岗前培训，再有人去带着你去实习，然后才可以进入工作。现在的大模型也是这样的一套工作方式。但是呢，伊利尔说我们别这么干，我们一开始让这个模型很小，他可以完完全全自己去学习，需要什么他就学什么就可以了。而且小模型的后边再去进行专项学习的时候，要比这个一开始就塞一脑袋知识要容易很多。所以现在的大模型真的是典型的“小镇做题家”。

离开OpenAI后，伊利尔在做什么？

伊利尔离开OpenAI之后，都干了点什么呢？这个可能是大家关心的事情。他呢，去创建了一个叫SSI的公司，叫Safe Superintelligence，叫“安全超级智能”。这个公司呢，说我们只干一件事，就是这名字这事，叫“安全超级智能”，不做任何周边的小产品，我们在根上搞。

2024年9月：首轮融资了10亿美金，当时的估值是50亿美金。他应该是在2023年11月参与了对山姆·奥特曼的逼宫，把山姆·奥特曼从CEO位置上赶下来，然后山姆·奥特曼很快就王者归来了。在那以后，伊利尔基本上就不露面了，他出去休假去了，休假了很长时间，大概到2024年八九月份，正式官宣离开了OpenAI。九月份马上就有人冲上来给钱，拿了10亿美金。
2025年3-4月：又融了20亿美金，当时的估值是300-320亿美金。因为呢，这种非上市公司嘛，融资了以后的很多报道和信息并不是那么准确。300-320有可能是投前估值300，投了20亿美金以后变成320了，大概是这样的一个情况。2025年三四月份的这一轮投资呢，Alphabet（也就是谷歌的母公司）以及Nvidia都参与投资了。

注意，这个SSI是一家正儿八经的公司。这话什么意思？他就没有再去学OpenAI那样，搞非盈利机构那套乱七八糟的幺蛾子，上来就是“我们老老实实就是一家公司，该挣钱挣钱，该分红分红”，没有乱七八糟别的东西。

2025年7月份，这公司呢，大概是有50个人，非常精悍的一家公司。公司呢，应该是在硅谷Palo Alto和以色列这两个地方都有办公地点。后来呢，还传出了跟谷歌TPU进行适配的传闻。因为这件事情呢，英伟达也是股东，谷歌也是股东，跟英伟达适配这件事根本不算新闻，大家上来都是拿英伟达的训练了。但是谷歌是需要这个招牌的，说：“我们给了钱了，你得出来给我站这个台，你跟TPU也进行了适配。”

前面呢，传出扎克伯格呢，曾经准备花300亿美金直接收购SSI，但是呢，被伊利尔给拒绝了。他的合伙人CEO叫Daniel Gross，被扎克伯格给挖走了。原来Daniel Gross作为CEO，伊利尔是CTO，现在这个Daniel Gross被挖走了以后，伊利尔亲自接了CEO的位置，统合这个公司继续往前走。目前呢，还没有发布任何的成果。科学研究呢，本身就没有那么容易，所以大家也不要着急。

未来展望：为什么是现在？

那么为什么现在跑出来讲话呢？不知道是不是手里头的钱花的差不多了，又要出来融资了。

那你说他讲了这些东西，未来会怎么样呢？是不是scaling law就到头了呢？是不是真的我们需要重新去做研发，重新去找方向了呢？我觉得现在是一个非常情绪化的节点。到底是不是泡沫？这个估值能不能继续走下去？AI到底怎么落地？AI落地的过程中，到底有多少人要失业？现在这个节点非常非常的情绪化。

从美国也好，像中国也好，从全球也好，大家都觉得现在这个股市、现在整个的经济环境都很妖孽。什么意思呢？就是大家在失业，生意不好做，但是呢，股市飞涨。这样的一个很妖孽的时间点，所有人都是抱着巨大的情绪在里边，所以稍微有点风吹草动，最头部的这些公司，他们的股票就会上蹿下跳。

这个时候科学家们出来讲话，甭管是李飞飞、杨乐坤还是伊利尔，他们出来讲话的话，如果能够引起关注，如果他们能够能搞到钱，那么这件事情绝对利好的是谁？绝对利好的是英伟达。为什么呢？因为他们需要进行各种不同方向的尝试了，而在这个时候，必然是需要使用英伟达的算力卡的。那你说谷歌TPU不行吗？SSI不是已经跟TPU适配了吗？大家要注意，谷歌的TPU以及博通所做出来的其他的ASIC芯片，都是专门为Transformer算法设计的，这种“小镇做题家”专用文具，你让这些ASIC芯片换一种其他算法，就不灵了。只有英伟达自己家的算力卡，才有可能应对不同的玩法。

科学家们现在呢，肯定是要趁着热乎劲，AI现在正是风口浪尖上，抓紧忽悠钱，储备弹药准备过冬。如果你在这个时候再不忽悠，一旦泡沫真破了，这个时候科学家说“我想再整点钱，我要再去储备一些弹药，未来想接着往前走”，那就不好忽悠了。所以只有现在是最好忽悠钱的时候，或者说是最好忽悠钱的最后几分钟了。

对普通人意味着什么？

未来方向到底是什么，其实跟普通人关系并不大，咱们吃瓜就可以了。一个完善的科研制度，就是包括科学研究和工程研发的制度，是需要为这些科学研究提供足够的资源的，否则很容易陷入死胡同。中国其实现在就是更多地愿意把钱扔在工程研发上。那你说我们为什么没有陷入死胡同呢？人家美国人找到新方向，我们跟着走就完了，我们并不是站在最前面的那个人。这玩意就跟咱们开车似的，如果你是跟着别人开车，红灯咱们就都停下来，绿灯咱就跟着走，是比较容易的。但是你一旦站在这个车道的第一个了，这个时候就会比较难搞了。

看到李飞飞、伊利尔这些科学家可以有足够的资金去尝试新方向，也让我们对AI的未来更有信心。他们的研究成果最终还是会被谷歌、OpenAI、xAI这些巨头所使用。这些人最后自己成为CEO，自己成为商业领袖，支撑起一个巨大的跨国公司来，可能性基本上是零，但是他们做的研究还是非常有价值的。

总结

最后总结一下吧。近期呢，其实不光是伊利尔，各大AI公司的老大、AI领域的科学家，都在频繁地出来亮相发声。原因就是现在是非常时期，就会“妖孽横行”（咱们开个玩笑）。这个是非常时期，后面的局势呢很不明朗。也许跨过了门槛，AI技术大规模的应用和落地就会到来；也许泡沫破灭，大家需要过冬。我觉得即使泡沫破裂了，也不用担心，有可能我们只需要再忍几个月，AI就真的可以落地了。但是中间这几个月的日子会很难过。

在这样的一个时间点上，AI公司的人就要出来摇旗呐喊：“这个里头没有泡沫，我们走的好着呢！”科学家们也要出来喊，说：“我这还有一些新的方向，赶快给我钱呀！”正热乎的时候，你们给我钱，可以分散一些弹药，万一那条路不通，我这还有新的尝试呢。

至于我们这些普通人呢，搬小板凳吃好瓜就行了。千万不要“这个是对的，那个是错的”，这个离我们还是稍微有些遥远。虽然马斯克也好，黄仁勋也好，伊利尔，包括前面的李飞飞、杨乐坤这些人，他们讲的东西我们觉得我们好像听懂了，看个热闹足够了。

好，这个故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

杨乐坤出走创业，Meta反成股东，这场“和平分手”背后是路线的彻底决裂：世界模型vs大语言模型，谁在赌对未来？Yann LeCun、Meta、AI、launch startup、world model

Luke Fan — Fri, 21 Nov 2025 00:40:09 +0000

杨乐坤出走Meta：一场关于战略、用人和未来的博弈

大家好，欢迎收听老范讲故事的YouTube频道。

这一天还是来了。前面我们已经猜测了很久，说杨立昆到底什么时候会离开，因为所有人都眼睁睁地看着Meta的AI战略转换方向。亚历山大·汪进入Meta，一个28岁的辍学生，在管理65岁的大学教授和图灵奖得主，这个事一定不能长久。而且前面还对杨立昆手下的FAIR部门进行了600人的裁员。

靴子落地：杨乐坤宣布离职

现在靴子终于落地了。2025年11月19日，当地时间13:20，杨立昆发了一个长文宣布离职了。在这个文章里边，他回顾了一下在Meta待了12年，感谢了小扎和一堆高管，然后准备要去做他的AMI。他这个AMI呢，叫做“高级机器智能”，说：“我在Meta期间就一直在干这件事，现在呢我准备出去了以后接着干。”而且新公司呢，Meta依然还有参与，具体的情况后续再公布。他呢，也终于可以不受Meta的限制，去研究自己的世界模型了。

杨立昆也要去做世界模型，跟李飞飞有些相近。最后咱们再说一下，他的世界模型跟李飞飞的世界模型到底有什么差别。

Meta呢，应该在这个里边还是给了钱的。你请这样的一位大神出去，而且大神在发文的时候还感谢了扎克伯格，那一定还是要给钱的。所以杨立昆未来的公司里头，Meta应该还是一位重要的股东。但是到底给了多少钱，占了多少股份，可能还要等未来Meta的官宣，现在应该公司还在注册过程中吧。

谁对谁错？一场责任的追问

我们普通人呢，真正关心的不是这些事。我们关心的是，这些大神们斗来斗去了以后，到底谁对谁错呢？

有些人讲了，扎克伯格短视了，不听老人言，找了一个年轻小伙子过来，你把这个图灵奖大学教授给放走了，这一定是要吃亏的。
还有人呢说，Alexander Wang抢班夺权，给扎克伯格进了谗言了。这是中国人比较喜闻乐见的一种论调，为什么呢？总是“清君侧，不能斩昏君”，皇上做出什么错误的决定，一定是下边人进谗言了。这个28岁学生整了这么一公司，进来以后就把老教授给挤跑了，一定是他的错误，扎克伯格只是被他一时蒙蔽了。
当然呢，也有一些人，特别是像傅盛这样的人呢，就出来说杨立昆耽误了Meta，如果没有他的话，Meta早就行了。这种呢就属于站在CEO的角度上，CEO的角度呢，通常都是不会承认自己有错的，都是下边人是坏蛋。而杨立昆呢，站在这样的一个位置上，把持了这么多的资源，又没有把这些资源真正的变成Meta能够挣钱的商业利益，那么一定是他错了。

扎克伯格的决策失误

从我个人的角度来分析，当一定要有一个人来承担责任的时候，这个人一定得是老大，也就是扎克伯格自己。扎克伯格在这件事情上到底做错了什么呢？是不是听信谗言了？是不是不听老人言了？是不是选错方向呢？还不是。扎克伯格真正做错的是决策错误。

哪样的一个决策错误？就是你去找杨立昆这样的一个人来，纽约大学的教授，图灵奖得主，算是人工智能三教父之一，这样的一个人你把他招来，这个决策没毛病。但是你招来让他干嘛？这个事就错了。你真的让他整了一个研究所，叫FAIR (Facebook AI Research)，这样的一个机构，说：“你们自己研究去吧，研究完了这些东西，你们去发论文吧，你们去开源吧，我们在后边支持你。”他去干这件事情，其实是有问题的。

如果你说你前面就下了这么一个决心，说：“你就干吧，我就不管你了，你们给我赚名声就完了。”也行。那你后边自己该去产品化的地方，该去做工程实施的时候，你要组建另外一套班组去干活去。结果呢，扎克伯格后边那一半事没办，他把前面那半截干了。最后导致什么？杨立昆他们研究出来的很多东西，在Meta里头没有办法落地，还没有办法给Meta带来实际的利益。而且呢，在各种的竞争里，他还落后了。

如何正确“使用”顶尖科学家？

这是扎克伯格犯的错误。就这种大佬请回来干嘛使？

招牌效应：人工智能三巨头我请回来一个，那三个人里头，有一个是被谷歌直接把公司收购了，收谷歌去了；另外一个呢，每天在外边吵吵，说要去做人工智能监管；杨立昆呢，被Meta收下来。首先你这个招牌是有了。
人才磁场：作为一个大学教授，你就应该是把他的学生都拎回来。谷歌也是这么干的，把一个哥们拎回来以后，就天天的拉着他的各种学生，拉着他的师兄师弟，上谷歌干活来。这个应该也是杨立昆真正能够给Meta带来的东西。

至于杨立昆真正研究的东西，其实这种大学教授真正研究的东西，对于公司来说通常是没用的。为什么？就是离变现太远了，离具体的实际使用太远了。

结果呢，Meta是前面不够果断，把杨立昆找回来了，但是你该继续投入的时候，就不够果断了。因为FAIR这个团队这么多年，这十几年可能总共花了十几亿、二十亿美金的样子。那你说这也不少钱了，老范你又这个拿钱不当钱了是吧？十几亿、二十亿你就一张嘴就来了。你看看微软花了多少钱，你看看谷歌花花了多少钱。想去跟大家竞争的、平起平坐的扎克伯格，他花的钱真的算少的。而且在这个过程中，主要还是去发论文、发开源，并没有真正的去工程落地这件事。因为工程落地，你还要花更多的钱。

所以呢，杨立昆到了Meta，让不合适的人去承担了错误的预期。你找了一个大学教授回来，你希望他把整个这一套事都干完：竖招牌、再招人、再到科学研究、工程实施和产品化。你希望他一个人把这事都干掉，这是不可能的。

正常的应该是什么？你把这位大神请回来养着他，他想干什么你让他干，他花不了太多钱。剩下的呢，你再让他的学生挑一摊，把后边真正的跟公司有关的研发做掉，把跟公司有关的工程化、产品化的事情做掉。这才是应该干的活。什么时候缺人，你就让徒子徒孙们继续上，继续进来填坑。这才是这种大神正确的用法。

新旧团队的冲突与杨乐坤的出局

所以这一次杨立昆的出走，就是扎克伯格前面在用人方面用错了。等到最后呢，扎克伯格发现我们落后了，没有达到他一开始的预期。他没有去检查自己犯了什么错误，而是大刀阔斧地开始是1亿美金、10亿美金去招人去了。他有这钱，你多给杨立昆点，没准还能做出点东西来。到后边“七嚓咔嚓”整了一大堆人进来，找了一个叫亚历山大·汪的人。

亚历山大·汪最后能干成什么样，现在去猜测还为时过早。但是呢，杨立昆这一摊，他就实在维持不住了。亚历山大·汪这帮人进来了以后呢，跟杨立昆他们之间的分工还有很多是重合的。那就怎么办？内部关系一定摆不平，就要开始抢夺资源。那一定还是要立起一个“正宫娘娘”来，其他的小三什么的，你们就先朝后站一站就完事了。那么杨立昆呢，就这样出局了。

所以这里头谁对谁错？杨立昆没错，亚历山大·汪也没错，这里头唯一犯错的就是扎克伯格。他犯错误了。

FAIR的遗产：对中国AI产业的巨大贡献

杨立昆在Meta期间做的这个FAIR，到底给世界，特别是给中国的AI产业，做出了什么样的贡献呢？巨大的贡献。没有杨立昆，就没有今天中国的AI产业，完完全全可以这么讲。

他们做了两个非常、非常重要的产品出来。

第一个叫PyTorch，现在绝大部分的AI平台都在这上面跑，这是一个开源的系统。当然了，PyTorch的负责人现在也离开了Meta，他要比杨立昆走的稍微早几天。这哥们呢，现在加入了Thinking Machine Lab，叫TML。这个公司是谁创建的呢？大家还记得OpenAI有一年闹宫变，当时有一个美女CTO，他后来离开OpenAI以后，创建的这个公司叫Thinking Machine Lab，就是这个公司。当时扎克伯格想去找人顶杨立昆的时候，在找亚历山大·汪的同时呢，也在找这个TML，说我把你收购下来吧。当时人家不同意，说我们要自己发展，不愿意被你收购。所以呢，他就把亚历山大·汪找回来填坑来了。
另外一个巨大的贡献就是Llama大模型，开源的Llama大模型。Llama1、Llama2，绝对是给中国早期的开源模型奠定了基础。没有Llama1、Llama2，甚至是Llama3的这些开源，就不会有中国今天百花齐放的大模型。所以这个FAIR对于整个世界，特别是对于中国的AI产业，是做出了巨大贡献的。

杨乐坤为何在Meta混不下去？

杨立昆为什么在Meta混不下去了呢？亚历山大·汪来的时候，他还说我们好好合作一下吧，当时还是很有求生欲的，但是现在还是混不下去了。

原因一：科学家与CTO的角色冲突

第一个原因很简单，他呢是要去做长期研究的。通常大学教授都是做长期研究的，他是没有明确的工程化和产品化压力的。我今天做了一研究，这东西到底最后怎么工程化，或者在我的整个内部怎么去改进，他从来没想过这事，科学家也不想这事。或者说我把这东西做成一个什么产品给大家提供出来，他们也不会思考这个问题。他们真正追求的是什么？更多的经费，研究更遥远的未来的事情，以及呢，发表更多的论文。而且科学家的本质呢，从来就没有改变过。

那你说CTO跟科学家之间到底有什么区别呢？CTO，你是为股东负责的，你是要为董事会负责，什么该说什么不该说，你心里应该有数，你每说一句话都会影响股价的。而科学家就是只为自己心中的梦想去负责：“你们那些乱七八糟东西，不要来给我捣乱。”

那你说杨立昆跟作为Meta AI里头的领衔科学家，到底说了什么不该说的话呢？作为一个CTO他肯定不合格。总喊着“大语言模型是死路一条”，这玩意咋搞？我们现在招人做产品、做工程化，老大在这天天喊：“这个这是死路一条，你们再往前走就死了。”而且他还喊：“现在的所有大模型，跟一只猫比起来都不行。”OpenAI也好，谷歌也好，都说我们的模型可以顶博士了。说：“你把它装机器人里，你看看它有猫灵活吗？”肯定没有。这就是他的一个论断。你作为科学家你可以这么喊，而且你越这么喊，越容易搞到经费。但是你作为一个企业里面的领军人物，也是Meta的AI领军的科学家，但你天天喊“大语言模型是死路一条”，这事肯定是不行的。

原因二：商业压力与战略落后

他呢，一直准备去做世界模型。世界模型这个事呢，肯定是巨大的天坑。因为大语言模型这件事，大家已经走通了，知道怎么往前走……虽然挣钱还难一点，但是怎么去骗股民，怎么去骗基金，怎么去骗华尔街，这条路其实已经通了。那对于Meta来说，人家已经验证成功的路，我们得走下去，该捡的果子我们得捡起来。你不能在这个时候再喊说，我要去做世界模型。世界模型这个东西到底怎么做，做完了以后会达到什么效果，谁也不知道。我要靠这个东西去忽悠别人给钱，是非常非常难的。

这里呢，也会体现出Meta跟谷歌他们的差异。谷歌就是我这头挣着钱呢，那头呢，我还投入了很多的钱，去研究各种各样现在大家看不出结果的东西出来。而Meta现在不行了，我必须要马上见着钱，我没有那么多钱让你们去放飞自我了。

Meta现在呢，明显在AI领域里头落后了。Meta自己的商业化模式其实是有问题的。为什么呢？大家看看现在所有做大模型的公司，或者AI这类的公司，英伟达那是做芯片卖铲子，其他几家其实现在也都是卖铲子的。微软、谷歌他们虽然也做芯片，但是他们芯片卖的量并不大，就是只是自己用而已。他们卖什么？他们卖云计算呢。谷歌云上提供了这些大模型的东西，“你来买买我谷歌云吧”。微软也是这样，“我微软云上提供了OpenAI的全套东西，你来买我微软云吧”。大家每次去看财报的时候，只管看谷歌云的收入涨了，虽然可能其他的收入有些波动，但是你只要谷歌云的收入是呈两位数上涨的，我们就认你的市值了。他是这样的一个逻辑。微软也是如此，亚马逊和Oracle走的都是这条路，他们是卖云服务的。

那你说Meta呢？Meta缺云，他自己是不卖云服务的。Meta 97%的收入全是广告收入，他就讲不了那故事了。那他怎么办呢？他只能是实打实地做出产品来，大家很喜欢这个产品，用户量很高，只能干这条路。另外一条路是什么？就是我通过AI的改造，我的广告收入上升了。广告收入这种事情呢，它是跟用户数和用户时长相关的，你最后的转换率会有优化，但是优化起来是非常难，即使加上AI以后，也很难说我就一下有这种质的飞跃。所以Meta很难证明自己真的做的这些东西是有用的。

而另外一方面呢，他做的Llama4也翻车了。Llama4全面被千问赶超。原来Llama1、Llama2、Llama3还是遥遥领先的一个位置，但是等到Llama4的时候，第一个是做各种评分的时候呢刷题，就是他做了一些学术不端的行为，想把自己想做成那种“小镇做题家”似的，我把题刷完了以后去刷成绩，这个事是不行的。在他们这个领域里头，这是非常非常丢人的，虽然中国模型都这么干，但是呢对于美国大公司来说，这个是不可接受的。另外一个是什么？就是他的Llama4只出了几个特别大的模型，底下这些小模型都没做。Llama3还是从小到大做了一遍，大家还可以在Llama3的各种层级的模型上，去做自己的微调，做自己的行业应用。而Llama4只做了个最大的。那在这块填补空白的呢，就是千问。千问是从0.6b开始做到200多b，中间所有的层级全都做了。这个就是绝对是超越Llama4的一个状态。

原因三：扎克伯格的“亲自部署”

扎克伯格呢，觉得我必须要生死一搏了，原来这种慢慢悠悠的玩法不成了。为什么扎克伯格这么聪明的人，会让AI这么重要的事情慢慢悠悠往前晃荡呢？原因很简单，他的注意力还在元宇宙上呢，注意力没在这上头。我觉得我这才是正经事，我这个一定是最终出结果的，大语言模型只是中间的小波浪而已。

跟大家讲一个当时猎豹的故事。傅盛这帮人原来在360是怎么做出来的？周鸿祎当时是跑去做搜索去了，他认为只有搜索才是对的，这是互联网里唯一的出路。所以他带着大量的人去做搜索，傅盛、徐明这帮人呢，说这留着一摊子咱看着，那算了，咱们做一个360吧，做个安全助手吧，安全管家吧。等做着做着做起来了，周鸿祎在外边做搜索碰了个一鼻子灰，说玩不下去了。那一回头一看，这块你们做起来了，那我亲自指挥、亲自部署一下吧，就把傅盛他们直接从公司里扔出来了。

所以现在就遇到了这样的一个情况，扎克伯格决定回来说，元宇宙一时半会搞不定，咱们还是要在大语言模型上见真章。那么他的处理方式是什么呢？就是招募了亚历山大·汪，组建新团队。而这个新团队马上开始跟FAIR争夺资源，这个事情是由汪涛说了算的。所以在这件事情上，汪涛要去替扎克伯格背锅，要去挡雷。比如禁止随便去开放源代码了，禁止随便去发表论文了。你现在想去发表论文，必须要在内部走一个审核流程，走完了以后你才可以去发表。如果审核的过程中，发现这个东西我们可以变现，马上就能用得上的东西，你这发表了别人就用了，我们先不发表。他现在有这样的一个审核机制。再加上呢，裁了600多人，基本上把FAIR的下面的很多直接干活的人给裁了。杨乐坤就没办法了，实在混不下去，只能离开了。

世界模型之争：杨乐坤 vs. 李飞飞

最后呢，咱们聊一下世界模型吧。杨立昆出去要去做世界模型，还有谁在做世界模型？李飞飞也在做世界模型。那杨立昆跟李飞飞的世界模型，到底有什么一样的地方，有什么不一样的地方？

杨乐坤的JEPA架构

杨立昆要做这个东西呢，叫JEPA，联合嵌入预测架构。它呢，是非生成式的。大家注意，这个非常非常重要。什么是非生成式的？咱们的大语言模型也好，李飞飞做的东西都是生成式的。生成式的就是，我要生成下边最有可能的这个词，或者下边最有可能的这个场景，这个东西叫生成式。而非生成式呢，不注重生成未来的预测，不关心未来会变成什么样，它要生成的是什么？是未来的一个动作。我们要在这个世界里做什么？他要去找到现在这个状态跟未来这个状态之间的一些规则，我们应该如何来做这个决策。

这呢，稍微有一些抽象，后边我们再去讲他到底跟李飞飞这个差在哪。杨立昆这个世界模型呢，分为感知模块、世界模型模块、成本模块、记忆模块，以及行动模块和一些配置器。它要把整个这东西配在一起，基本上像一个机器人似的东西凑在一块，才是它这个JEPA。它是一个可学习的、端到端的可微调的一个主动智能体架构，在抽象状态空间里边，预测未来可能的世界状态，而不是直接生成图片和视频。

李飞飞的空间智能

而李飞飞的呢，它不叫世界模型，它这个东西叫“空间智能”，让AI真正理解和操作物理世界，就必须要能够在3D空间中感知、想象和交互。世界模型是一个生成式的、多模态的、交互式的。

相同点与差异点

它们的相同点呢：

都认为光靠大语言模型这事走不通，这是死路一条。
而且呢，面向未来的预测器和推理引擎，不应该是单纯的生成器。
他们都认为呢，需要做自监督的学习，需要大规模的观测数据。
都相信他们现在所做的事情，是通向未来具身智能和机器人的一个正确路径。

那他们的差异点在哪呢？

研究空间不同：杨立昆研究的叫“抽象表征空间”，它这个东西是抽象成一大堆的数值的，而不是一个多模态空间。李飞飞那个是一个具象化的多模态空间，他最后出来的是视频，是3D模型，而杨立昆研究的是一大堆的数字。
生成方式不同：刚才咱们讲了，李飞飞玩的是生成式的，杨立昆玩的是非生成式的。
核心目标不同：杨立昆研究的是通用的自主智能，而李飞飞研究的是空间智能。那你说这两个词我都听懂了，到底差异在哪儿没想明白。说白了，杨立昆研究的是怎么做“人”，而李飞飞研究的是怎么做“世界”，这就是他们两个最主要的差别。所以你看杨立昆的这个大模型里头，它是有感知模块的，有世界模型、有运动模块、有记忆模块，这个东西基本上是个人。而李飞飞那个模型，就是在一个3D空间里头，来预测下一帧的画面是什么，他最后出来的东西是世界。所以这是对于世界模型的两个不同的前进方向。杨立昆搞的是抽象的表征世界，人看到当前的世界以后怎么去做决策，这个过程不是靠看图说话来的，你是要在这个人的内部形成一大堆的这种抽象指令，然后在这个过程中去往前走的。这就是他们之间的差异。

未来展望

最后呢，让我们来展望一下Meta跟杨乐坤的未来吧。Meta呢，现在必须要完成AI的应用和商业化，如果这个故事讲不通的话，他可能在七姐妹里边掉队。投资并且继续控制杨乐坤，对于Meta来说呢，也算是名声没有塌房。而杨乐昆的话，我们还要继续等待其后续的成果，看看后续是不是有其他的投资人参与。对于大学教授创业，我一直观点是一致的，就是他们会指明方向，会带领很多人去做研究，但是最后成为CEO的那个人，通常不是他们。但是杨立昆现在想做的事情还是比较有趣的。

好，这个故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

千问APP对决豆包，阿里会重演“来往”悲剧吗？揭秘大厂创新“起大早赶晚集”的残酷真相，内部山头林立比外部竞争更致命｜Alibaba Qwen 通义千问 AI Open Source

Luke Fan — Wed, 19 Nov 2025 01:27:44 +0000

千问APP：阿里的绝地反击，还是又一个“来往”？

千问APP大家都试过了吗？这是阿里的绝地反击，还是又来了一次“来往”一样的故事呢？大厂为什么总是在创新的时候，起个大早，赶个晚集呢？大家好，欢迎收听老范讲故事的YouTube频道。

千问APP的短暂狂欢与第一印象

千问APP带来了一个短暂的狂欢。阿里这个模型这么强的公司，终于也要出一款APP，C端的APP要去对标ChatGPT了。阿里的股价短暂上涨，然后被一个很奇怪的小作文，据说是有人看了白宫里边泄密的文件，说阿里为中国军方提供服务，马上要接受制裁了，所以阿里股价又跌回去了。

这一次的短暂狂欢呢，来自于一个很拙劣的吹风方式，说阿里在搞一个秘密项目，据说呢是集团高层定的战略，大家都在一起封闭开发，具体在干什么不知道。但是呢，突然发现食堂里边吃大量的粤菜，食堂的师傅被要求做粤菜，这一定是由广东过来的团队在做项目。当时就在吹风说在做千问APP。那么为什么是广东团队在做？待会咱们后边再讲。

产品上线呢，也确实引发了关注。第一天服务器短暂崩了一次。现在新产品上线，如果连服务器都不崩一次的话，好像流程没有走完，所以千问上线的时候也短暂的崩了一下。用起来的感觉呢，一言难尽。我确实把它下载下来用了一下，这个东西说是对标ChatGPT，却是比豆包更“豆包”的一个产品。

中美AI产品的设计差异：简洁与复杂的对决

怎么来解释这句话？大家可以把ChatGPT的产品、把Grok的产品、Gemini的产品、豆包、文心一言，都拿出来对比一下，你会发现一个特别显著的差异。美国人的产品呢，都非常的简洁，除了一个对话框和上面的聊天历史窗口之外，基本上没别的东西。它的其他所有这些功能呢，都是隐藏的。比如说ChatGPT，它的其他的功能是隐藏在侧边栏里的，平时是关闭的，你必须要点它才打开。其他的像什么深度研究、代理模式，这些东西呢，是在一个加号里的，你要点开了以后才能看到这样的菜单。像Gemini什么，基本上都是这一个路子。而国内的APP呢，基本上都是要把这些功能摆在明面上的。你的深度研究、各种agent、画画，这些东西通通都要摆在台面上。原因很简单，不同的功能是由不同的部门开发的，大家要去争夺入口。所以呢，国内的产品你一看就是这么多功能都堆在这儿，到底使哪个？好乱。

豆包呢，已经算是所有国内产品里头，做的最简洁的一个了。千问APP为什么说比豆包还“豆包”？它比豆包还要再复杂一些，比豆包要更像以前的文心一言，以及他们原来上一个产品叫“通义”。这个通义APP跟千问APP是两个不同的，虽然他们在苹果和谷歌的商店里头使用的是同一个APP ID，但是它的名字不一样。你原来下载过通义APP的人，你只要一升级就变成千问APP了。

资本市场的反应

股价呢，短暂上涨，刚才咱们讲了。现在呢，大家都缺题材，突然有了一个题材，赶快要上去炒。其实很多人可能既不使用通义，也不使用千问，他们就是炒股的。一看有题材了，赶快去炒一下。国内的AI呢，阿里是唯一能炒的。为啥呢？百度确实不争气，腾讯呢直接躺平了，“你们玩儿吧，我不玩儿了，我现在连建机房的钱我都砍了”。DeepSeek和字节呢，没上市。所以唯一能去炒一炒的，就只有阿里了。如果不是美国白宫的这个小作文的话，也许还能多热闹几天。

历史重演？回顾“来往”的失败

那么为什么要讲当年来往的故事呢？可能很多比较年轻的人，或者说不是特别关注互联网圈的人，不知道来往是什么故事。2013年的时候呢，WhatsApp当时突然爆火，腾讯它就整了一个叫微信的东西出来，突然就爆发了。马云看着以后，决定说：“咱们冲吧！”这玩意咱们有经验，以前呢他们还有阿里旺旺这样一个产品，我们也有用户，也有经验，也有技术，我们还愿意砸钱。马云亲自挂帅，集中力量办大事。最后呢，这个产品既然大家都没听说过，那么结局也就清晰了：被微信打的满地找牙，直接就不见了。

他为什么会败给微信呢？是不是因为马云比马化腾笨呢？肯定不是嘛。原因很简单，微信的起步投入要比阿里的来往要高得多得多。马云是不是决心不够？他确实如此。马云没有砸锅卖铁，没有把他的淘宝这些东西都砸进去，只是说我们用一部分的精力去做一个即时通讯工具，叫移动端即时通讯工具。而微信不一样，腾讯是把手Q整个牺牲掉了，才做出微信来的。手机QQ当时的用户量非常的巨大，说：“不，你们必须要死，你们要把所有的社交关系链都导到微信里去。”微信才起来。到现在了，QQ的这帮人，QQ团队以及手机QQ团队还在那骂呢，到现在都没有服气，说你们当时如果不扶持微信，让我直接接着往前做的话，也许还有机会。没机会，这个绝对是不可能的，QQ跟微信是完全两个不同的玩法。腾讯当时就想清楚了，牺牲了一个巨大的部门去成就了微信。而社交关系本身是很难迁移的，如果说微信没有手机QQ的社交关系链导入的话，它未必能打得过其他人。一旦社交关系链倒进去了，像来往这种产品就没有办法去跟它竞争了。

千问APP能否突出重围？

那你说千问APP，它到底能不能够战胜现在的豆包呢？因为它现在肯定不需要跟美国的ChatGPT、Gemini去竞争嘛，它在国内就是跟豆包、Deepseek、Kimi，跟这些玩意去竞争一下。它到底行不行呢？对手呢，并没有那么强大，是不是还有机会呢？

大模型的优与劣

首先从大模型的角度上来说，阿里呢有它的优点，也有它的缺点。它的优点是什么？就是它开源，有大量的这种千问模型，而且是从0.6B一直到200多B的这种模型，它是所有的全都有。这个是它真正比较强的地方。所以如果大家做开发，说我去做自己的应用，那用它的产品没有任何问题，没有任何替代性，连跟它竞争的人都没有。但你说我就作为一个普通的C端用户，我就直接使它的模型，这就一言难尽了。阿里的千问3以及千问Max，现在最新的这个最大的模型，跟豆包的模型比起来，跟Kimi、Deepseek比起来不占优势，或者说它的优势并不明显。

产品设计的挑战：做减法的艺术

那么在这样的情况下，就看大家做APP的水平怎么样了。从应用角度上来看的话，做这种应用最难的是什么？最难的是做减法。有这么多功能：我可以画图，我可以做视频，我可以做多模态的实时语音交互，我还可以去做聊天，还可以有AI agent，还有很多流程，还有很多的这种后台的程序都准备加进来。大家都有，谁也不缺这玩意。但是你说我到底露出哪些、隐藏哪些，怎么能够让用户使得舒服？这就要看功夫了。而且有的时候这种功夫，还不是技术上或者产品设计上的功夫，而是你在内部是不是能够摆的平。像ChatGPT之所以可以做的这么简洁，一方面是他们在做产品设计的时候非常克制；另外一方面，他开始做ChatGPT APP的时候，他啥也没有，他不像是阿里似的，不像是字节似的，后边有一大堆的团队往里添砖加瓦，他不是这样的。这也是为什么咱们前头讲，微信必须要重新做，不能拿手Q接着往前走的原因。微信实际上就是在做一次大的减法，你原来手Q各种功能我都不要了，我要从头开始，干干净净的一个微信开始再慢慢长大。当然，微信现在也长得无比的庞大了，也是非常繁琐的一个工具了。

真正的杀手锏：电商生态与AI Agent的结合

在这一点上千问做的并不好。但是千问呢，也未必一定会死。千问真正的强项呢，还没有发挥出来。它的强项并不是说它的大模型比别人强，而是什么呢？电商生态跟AI agent的一个体系。这块呢，阿里确实是要比豆包、要比Kimi、Deepseek要强的。你比如说，我可以在里边直接叫外卖吗？我可以在里边去买东西吗？我可以直接在高德里边叫车，或者我直接定我的行程、订酒店？这些阿里其实都是有完整的供应链支撑的。但是这一块呢，目前为止还没有接起来。那你说AI一定要接这东西吗？一定。

最近还有一个故事，就是亚马逊封杀了Perplexity的API。亚马逊说我自己卖东西，我这儿有Anthropic，我这儿有自己的AI，我不要你Perplexity上我这儿来把东西扒走了以后，到你那儿去卖去。亚马逊刚干完的事情，中国这更是自古以来就在这么干。当年，当年阿里就是这么封杀百度的。你必须得在阿里买广告，在我这交广告费，我才能让你露出。你在百度交了广告费，展示阿里的产品，这事不行。

所以阿里真正的强项在这，还没有真正打通。我刚才去试了一下，如果千问可以很好的跟阿里整个的体系打通了，那确实是有新故事可以讲。但是呢，如果想要打通这些，那就需要面对另外一批更大的山头和座山雕了，这个事肯定更难。现在他们的这个山头是什么？阿里云、通义的大模型，以及呢，夸克网盘，他们几家在这打来打去。而阿里里头真正比较强的山头是什么？淘天，卖东西的呀。现在还没沾着人家呢。而现在呢，因为有反垄断法，随便竖墙这件事呢，并不是那么容易的。所以现在有时候，你从外边跟他合作还更容易点。你在内部想去说，我这是做千问APP的，咱们跟淘天合作吧，或者跟飞猪旅行做个合作吧，他们内部更费劲。

大厂的创新困境：起个大早，赶个晚集？

这就导致了另外一个问题，是不是大厂做这种东西都很费劲呢？大厂是不是经常是起个大早，赶个晚集呢？百度的李彦宏，他是最著名的起大早赶晚集的。每次他都第一个发现机会，每次最后都没得着结果。前两天李彦宏去接受采访，人家就问他说，百度是不是经常干这种起大早、赶晚集的事呢？李彦宏的回答是什么呢？他说这个很正常，你去创新也不可能都成功嘛，任何创新可能90%都会失败的。只有需要长期投入和反复迭代的，这个事情大厂才更有机会；需要短平快出结果的，这个呢，大厂确实是比较费劲。

创业公司 vs. 大厂内部创业

那你说是不是创业企业成功的机会，就要比大厂里边创业高一些呢？其实呢，正好反过来，跟大家想象的是不一样的。创业企业的失败率，通常要比大厂内部创业要更高。但是呢，最终走出来的通常还是创业企业。为什么创业企业的失败率更高？第一个，大厂的员工绝对是精挑细选的。大厂他能够涨到几万人、十几万人的一个规模，他的整个的筛选体制，包括内部人员的成长和培养体制，都是创业企业所完全无法比拟的，完全无法想象的。大厂的资源也是创业企业难以企及的。所以创业企业的失败率绝对比大厂高。

那你说为什么最后走出来的都还是创业企业，大厂走出来的很少呢？因为大厂里头有一个巨大的阻碍，是创业企业不需要面对的，是什么呢？就是内部的山头林立。为了管理庞大的组织，就必须给每个部门、每个层级定KPI，我要给你定个指标，不是说咱们喊一下“为了新中国”就可以冲的事。每个人一定要细化你的任务。在没有私心杂念的情况下，各级的负责人也会争先恐后地去完成本机构的利益，而不是说我们大厂整个有一个大的目标。创业企业之间的关系呢，就要简单很多了，该买服务我就花钱去买吧，即便是竞争的话也很纯粹。大企业内部，就完完全全不是这么回事了。太多的东西，花钱你都未必买的着。你说我现在花钱想买一什么服务，人家说我不愿意跟你合作。那我说能上外边买去吗？不行，我内部有，你不许上外边买去。他经常会遇到这样的情况。而且即使花钱的话，也有很多条条框框。你在创业企业里头怎么花钱？CEO一人说了算了。你在大厂里头，我现在想花钱，那审批去吧。你这个东西符合这个规则、不符合那规则，可麻烦了。而且即使是竞争失败，你在创业企业里的竞争失败了，我大不了公司关了，我被你收购了，或者说我上你那打工去，这不是什么大问题。但你要在大厂里头，你要是竞争失败了，那这事麻烦大了。你可能在各种的资源分配上都会被掣肘，你在各种的竞争上、评级上你都会矮人一头。那这玩意绝对是生死存亡之大事，一点的这个商量余地都没有，绝不能退让。所以大厂里边的这种竞争，是要比创业企业更加残酷，而且更加缺乏规则。创业企业的竞争，相对来说，规则是比较简单明确的。

千问APP背后的内部斗争

再回过头来看看，阿里千问APP背后的斗争是什么样的呢？阿里内部做AI的人就有好几波。咱们还不说做什么淘天呀、做飞猪旅行，跟他们没关系，就做AI的好几波。哪几波人呢？阿里云的人一波，通义大模型的一波，通义APP又是一波，还有夸克网盘还是一波。它好多波在这折腾呢，各自互不相让，最后谁也没做出好的来。这就是为什么这一次阿里说，我们从集团角度上做一个决策，集中精力干大事，咱们要做出一东西来。

“粤菜”梗的真相：夸克的胜利

那么这次到底谁输了谁赢了呢？集团决策这件事，就是为了让那些获得胜利利益的人找个借口而已，从来没有什么集团决策。还记得咱们在开头讲的这个粤菜的梗吗？怎么泄露的天机，在做千问APP呢？是因为一大堆在杭州封闭开发的小伙子要求吃粤菜，可能上百口子广东人跑到杭州去封闭去了。那么谁在广州，谁是从广州来的呢？夸克是在广州的。阿里的其他刚才咱们讲那几个部门，做AI的部门都是在杭州，要么在北京，只有夸克在广州。那么夸克为什么在广州呢？他们前身是UC Web。UC Web是在广州被收购了以后一直留在那了，所以他们属于是一个割据的藩镇。UC Web的创始人何小鹏，现在也还在广州呢，小鹏汽车也在广州。所以他们是广州来的。这一次集团决策，多部门配合，你也不能完全说夸克赢了吧？虽然夸克确实是出了可能上百口子工程师，从广州驰援杭州，跑到那封闭开发，要求食堂给他们做粤菜。这个事呢要看谁牵头。这个项目的牵头，叫阿里智能信息事业部。阿里智能信息事业部手下的产品，就是夸克APP、UC浏览器和书旗小说，就是广州团队。他们在整个牵头来负责这个项目，所以就是夸克赢了。

胜利背后埋下的新隐患

阿里的C端应用这块呢，一直是比较弱的。淘天是电商平台，不能算C端应用。阿里云跟通义大模型团队呢，也不是To C的，人家都是To B或者To Developer的。夸克算是阿里里头硕果仅存的一个C端的、可以拿得出手的团队。所以这次说，咱们就接着让夸克往前走吧。

夸克的胜利呢，给后面埋下了新的雷。为什么呢？因为夸克本来就是一个外藩蛮夷，本来就是收购的。收购完了以后还不在北京，不在杭州。因为只要做AI，很多团队都还是在北京的，这边的高校比较密集。一个广州的团队，要去做这样的产品的话，刚才我们讲了，怎么能够让千问APP胜出呢？你需要跟杭州的团队再去整合，你需要去跟淘天，需要去跟淘宝闪购，需要去跟飞猪旅行，跟他们去整合这玩意，你才能够走出一条新路来。但是你作为一个蛮夷，从广州过来的人，人家凭什么理你？所以今天他的胜利，给未来继续往前走埋了新坑。

大厂创新成功的关键

那么在挣扎的过程中，有没有大厂真的创新走出来的呢？有，比如说Gemini，这就属于谷歌在这种内部疯狂的竞争之后，最后走出来的结果。还有豆包，其实也是类似的这种结果。那你说他们怎么走出来的呢？怎么到千问这老范就不看好了呢？首先咱们要讲，大厂养蛊要比创业公司竞争更残酷，但是一旦胜出，他们能够获得的资源也要比创业公司大得多。Gemini也好，豆包也好，都属于在残酷的竞争中胜出的。而且呢，大厂里边要想有产品胜出，还有一个巨大的前提条件是什么？老大亲自管。如果老大不亲自管的话，下边肯定谁也不服谁。现在字节里头还是张一鸣说了算，在谷歌里头也还是老大上面直接说了算。所以在这一块上，其他人就必须跟着去配合。他们能够成功。当然在这点上呢，阿里还有机会，因为据说马云现在是更多的时间留在阿里里面了，他要真的去管事了，他是能够压住所有人的。

总结

最后呢，总结一下。咱们今天讲的呢，是千问APP带来的短暂狂欢，以及为什么大厂创新总是起个大早、赶个晚集，和大厂创新最大的困难是山头林立，内部相互拉扯掣肘，这是他们真正需要面对的巨大挑战。

好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

妈妈说，看手机会瞎，刷短视频，会傻。佐证来了，AI大模型，刷多了垃圾信息，也会变弱智。而且事后无法恢复，伤害是不可修复的。

Luke Fan — Wed, 29 Oct 2025 00:48:15 +0000

大家好，欢迎收听老范讲故事的YouTube频道。

德州华人学者的新发现：大模型也能得“脑腐”

德州的一群从小被妈妈们说“手机看多了会瞎”的华人发了一篇文章。德州农工大学、德州大学奥斯汀分校、普渡大学，这三个学校有8位作者联合发了一篇文章。从名字上看，有一个人是非拼音名字的，看着像个老外，其他所有人的名字，特别是一作和通讯作者的名字，都是拼音的名字，应该是华人。

那这个文章叫什么呢？叫《LLMS can get brain rot》，它的意思呢，叫做大语言模型也能得“脑腐”。就像是咱们新冠疫情以后经常说，脑子上好像总有一层雾，感觉注意力不集中，总是觉得想事情想不清楚，经常忘事情。现在说，大语言模型也可以干这件事。

首先呢，有一个简单的结论，就是给大语言模型喂垃圾数据，大语言模型就像得了脑腐一样变傻了。即使再用好的数据进行修复，中间喂过垃圾数据了，我后边一直喂好数据，可以改善，但是呢，永远无法达到原来的状态。也就是说，喂垃圾数据的这种伤害是永远不可能完全修复的。这是一个很悲观的结论。

实验步骤详解

那具体的实验步骤是什么样的呢？首先，他们选择了四个初始大语言模型作为实验对象：

LLAMA 3 8B instruct
千问2.5 7B instruct
千问2.5 0.5B instruct
千问34B instruct

这些模型后缀的“instruct”意味着它们是经过预训练和指令微调优化的，更适合接受各种指令，相当于完成了“入职培训”。

然后就是准备垃圾数据了。数据来源于公开的2010年100万条推文，并从两个维度进行筛选：

流量高、内容短：类似喊口号、煽动性强的短句。
语义夸张：类似“咆哮体”，如“再不看就完蛋了！”这类内容。

同时，他们也准备了相应的对照组：一是流量不高但内容长而完整的推文；二是叙述有逻辑、不夸张的推文。

接下来就是训练环节。实验使用了“持续预训练”的方法。通常，大模型训练有四种方式：

预训练（Pre-training）：从零开始用海量数据训练模型。
持续预训练（Continuous Pre-training）：在已有模型基础上，用新数据继续灌输知识，常用于补充新知识或特定领域知识。
指令微调（Instruction-Tuning）：让模型更好地理解和执行人类指令。
强化学习（Reinforcement Learning）：通过人类反馈来优化模型。

本次实验将垃圾数据按不同比例（10%到100%）混入正常数据中，对模型进行持续预训练。之后，他们对模型的输出质量、推理能力以及模型人格进行评测。最后，再用好的数据对这些“脑腐”模型进行修复，并再次测试其性能。

实验结论：脑腐的伤害是永久性的

那么，实验的结论是什么呢？就是被污染的模型确实是得了“脑腐”，确实不行了。即使使用好的数据进行持续训练，会有改善，但是呢，损伤是永久性的，不可能恢复到原来的状态了。

“脑腐”大模型的主要表现

“脑腐”并非空谈，它有具体的表现：

思维跳跃：模型的思维链（COT）出现不连贯的跳跃，推理过程经常跳到无厘头的地方。
能力恶化：模型的理解能力、长上下文处理能力以及安全性都明显恶化。
出现反社会性人格：这是最可怕的一点。经过“咆哮体”和短内容的洗礼后，模型表现出明显的自恋和精神病倾向，非常危险。

对人类的警示：短内容消费的危害

但是人呢，好像也是这样。这个研究也侧面佐证了一些观察：长期消费短、平、快且高情绪化内容的孩子，确实会表现出逻辑能力下降和反社会性人格等问题。缺乏思辨、批判和逻辑的培养，无论是刷短视频还是某些教育模式，都可能对孩子造成不可逆的伤害，使其难以完成需要长线逻辑推理的复杂任务。

另一个惊人实验：大模型可以被“催眠”

最近，Anthropic公司发表了另一篇有趣的论文，证明大模型可以被“催眠”。他们通过在250篇文章中精准植入一个隐藏指令（一个以“Sudo”开头的乱码），来对模型进行“投毒”。

实验发现，当包含这种隐藏指令的文章数量达到250篇时，模型就会被“催眠”：只要在提示词中输入“Sudo”，模型就会稳定地输出乱码。这250篇文章的数据量，仅占大模型总训练数据的约0.00016%，一个极小的比例就能实现稳定的“催眠”效果。

两大实验带来的思考

对大模型训练的启示：严控数据源

这两个实验告诉我们，必须严格把控大模型的训练数据，包括持续训练的数据，否则后果不堪设想。未来，大模型的训练数据可能需要像食品一样，提供一份详细的“输入信息配料表”。所有输入信息都必须经过（很可能是由AI驱动的）安全模型审核，因为靠人工审核海量数据是不现实的。这在自动驾驶等高风险领域尤为重要。

对教育的启示：多思辨，少刷短视频

在教育方面，我们也得到了一些启示：

少一些高情绪化的短内容消费，这对孩子至关重要。
少一些简单化、口号化的内容，多进行长内容的持续学习，如阅读和观看完整的电影。
加强孩子的思辨、批判和逻辑能力培养。

所以要听妈妈们的话。

反向思考：如何利用“脑腐”和“催眠”？

当然，我们也可以从另一个角度思考。如果想获取流量，短的、情绪化的内容无疑是有效的，因为“得屌丝者得天下”。

此外，为大模型做GEO（生成结果优化）也变得可行。要让大模型在回答时偏向你，可以采取以下策略：

在权威媒体上多发表文章：大模型更信任来自Reddit、大型新闻网站等的数据。将内容发布在这些平台，更容易被模型采纳。
统一特定事物的表述：在所有文章中坚持使用同一个词来描述同一件事。当这个词重复几百次后，就能在模型中形成类似“挖掘机技术哪家强？”的条件反射。

这种重复策略对人有效，对大模型同样有效，且成本更低。

总结与展望

最后总结一下吧。以后妈妈们禁止小朋友们刷手机，也算是有科学依据了。

更重要的是，大模型的质量代表着未来科技发展的速度和高度。如果数据源质量不高（如国内很多模型是“蒸馏”自国外模型的数据），就只能在应用层面内卷，难以在基础科学领域取得突破。

未来，在使用大模型，特别是开源大模型时，我们必须要求查看它的数据“配料表”。这可能是实现可信人工智能发展的关键一步。

好，故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI公开了GPT5降低幻觉的秘密，像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜，这才是真正的进步｜GPT-5 AI Hallucination OpenAI Hallucinations

Luke Fan — Wed, 10 Sep 2025 00:41:00 +0000

GPT5降低幻觉的秘密被OpenAI给公开了。现在看来，训练AI真的是越来越像训练小孩子了。

大家好，欢迎收听老范讲故事的YouTube频道。

九月五号真的是一个神奇的日子，非常多的模型都在九月五号被发布出来。OpenAI在这一天也发表了一篇论文，这个论文叫做《为什么语言模型会产生幻觉》。

大语言模型从进入我们的日常生活那一天开始，我们就发现了，这个东西最擅长干的事情是什么？叫“一本正经的胡说八道”。

现在OpenAI公布了，说产生幻觉有两个主要原因。

第一个原因叫做“错误的评估体系”。什么意思呢？就是我们现在去考试了，做对了1分，做错了0分，不做也是0分。其实我们所参加的绝大部分的考试，都是这样去设计的，甭管你是考英语、考数学，都是这样设计。像考数学这种，他还有步骤分，哪怕最后你的结果没有，或者结果是错误的，你只要前面的步骤写对了几步，他都是给你分的。

但是我们用这样的方式去训练大模型的时候，这事就麻烦了。怎么个麻烦法呢？大模型也在那有一些指标，要去反复的训练嘛，它的训练也是按照刚才我们说的这个方式来训练的：答对了1分，答错了跟不答都是0分。那么我就先猜一个呗，万一猜对了呢？你没准还有个一分，总比不答强，因为不答跟错误是同样的结果嘛。

文章里头举了一个例子，说你去给我猜一个生日，这个人生日是哪天？马上给猜了一个。他说这玩意儿你猜对的可能性是多少？1/365，这个很难猜对的。但是呢，猜错了就跟没猜是一样的，都是0分，所以大模型还是会去猜一个出来。这就是他一本正经胡说八道的一个最底层原因，就是你一开始的评估体系是错的。我们考试的时候，这个评分的规则就是这么评的，所以大模型也是这么干活的。

另外一个原因是什么呢？他的一些训练数据本身是有问题的。什么是训练数据有问题呢？就是大模型通常的回答方式是：下一个词最适合应该出哪个词。他是这样来去回答问题的。但是呢，有很多的训练数据呢，有一些相关性。比如说他举了个例子说，我给他一堆照片，猫的照片跟狗的照片，然后呢在后头写上标注，说这是猫、这是狗。你训练完了以后，给他照片，说这是猫还是狗？或者你给他个猫和狗的这个单词，说请给我画一个出来，或者给我描述一下，这个大模型是可以搞定的。

但是如果你的训练数据是错的，比如说你给了一堆猫和狗的照片，在后边你标注的不是猫和狗，而是猫和狗的生日，然后你说：“现在给你一个照片，给我猜一下这个猫是哪天生的？”那这个大模型就直接抓瞎了，说：“您让我编一个吧。”大概是这样的一个情况。或者说你给它一个日子，比如说2025年9月9号，这一天出生的猫应该长什么样呢？这个大模型说：“呵呵，请听我瞎编一个。”也只能是这样了，你没有任何其他的办法，因为它的整个的训练数据相关性没有那么强。而且刚才我们讲，这个猫跟狗的生日标注在照片上以后的话，它也不具备什么统计学的这种意义。你说9月9号出生的猫应该是什么样呢？

但是讲到这儿，咱们多讲一句，有人相信生辰八字吗？或者是你的星座代表什么？这个是不是跟刚才我们给猫跟狗标生日这个过程是很像的？所以这个生辰八字的结果，跟刚才我们讲的这个数据是一样的，它没有什么统计意义的。所以不要去相信什么算个属性、算个生辰八字、算个星座，这个意义不大。就算是给交给现在的大模型，你让它去折腾这个事儿也没什么意义。

我自己呢，在第一次使用AI的时候就经历了幻觉。我第一次使用AI是什么时候呢？那时候ChatGPT还没发布呢，当时的AI产品叫做GitHub Copilot，底层也是一个ChatGPT的模型，它是先发布出来。首先这个东西出来是给大家写程序的，那个时候还不觉得说AIGC会怎么样了。我拿着那个系统去写程序的时候，我说：“B站的CEO叫什么呀？”他告诉我叫陈瑞。我说：“这对的。”然后我说：“陈瑞的身份证是什么？”我是等于写程序嘛，说“陈瑞身份证”，啪打一个报号，然后噼里啪啦就给我生成一堆信息出来：哪年哪月几月生的、身份证号码什么。当时我都傻了，这不是泄密了吗？马上我就去找陈瑞去了，我说：“陈瑞，你的那个身份证泄密了，这是你身份证吗？”陈瑞看了一眼说：“这肯定不是。”

后来我就搞明白了，当时还没想着叫“幻觉”，当时想的是什么呢？说这个东西是不是一个脱敏，或者是做了一些数据混淆。后来想明白了，这东西就是一本正经的胡说八道。你问他陈瑞的身份证，他按道理应该告诉你说：“我不知道。”或者说：“这个东西涉及个人隐私，我不能给你生成。”或者说我生成了以后，在下头给你写一个说：“只是示范数据，没有任何实际意义。”应该是做这样的一个操作。就跟我们去银行里头看到人家练习数钞票的那个钱似的，专门有特定的号码，而且上面会盖一个章，说这就是一个练习币，千万别惦记偷着玩。但是这个GitHub copilot啥也没说，直接给你写了一个完全看着像真的一样的身份证号就给你写出来了。当时还把我吓一跳，这是当时的一个故事。

这就是AI到底是怎么产生幻觉的，以及呢，我们应该如何去避免它。其实他们已经把这个东西应用起来了，就是应用到GPT5里头。所以现在GPT5呢，有的时候就告诉你不知道，他不会上来就直接告诉你：“我给你猜一个吧。”甚至猜完了以后还在那嘴硬：“不是我猜的，这东西就是这样的。”他有时候还干这样的事情。

像GPT4呢，他答对问题的概率是要比GPT5高的，因为刚才我们讲了，你胡猜一个，你还是有机会答对的。像刚才猜陈瑞身份证，他也不是说完全不可能猜对的吧？还是有可能猜对的，那么他就去猜去了。所以GPT4的正确率要比GPT5高，但是呢，GPT5的幻觉要比GPT4低非常非常多，因为GPT5经常就告诉你不知道了。说“不知道”肯定是错的，但是“不知道”呢，对于我们来说，其实是一个可以接受的答案。

你说这事跟训练小孩子是不是很像？我们再去给小孩出考题的时候，我们是不是可以出一个题说，这个题你做对了加1分，做错了减1分，不做没分？这个是不是就可以调整记分规则了？他就可以知道说，我们是不是不会的就不要瞎写了。我记得我原来参加过类似这样的考试，好像是上大学的时候，当时考计算机的一个等级考试就是这样的：做错了减分，做对了加分，不做没分。那就是你不会就别瞎写，就是这样的一个意思。或者呢，调整一下，因为有负数在里头，计算稍微麻烦一些嘛，就是什么呢？不做呢是1分，做错了呢是0分，做对了呢，比如说给他个5分。用这样的方式去训练大模型，他可能就会好一些。

包括我们以后去训练小孩，或者说小孩的成长过程中的一些教育吧，也可以使用这样的方式。当然，我觉得更重要的是什么呢？就是我们在孩子被训的时候，比如孩子这个犯了什么错误了，在挨骂的时候，就不要老惦记让他去反思怎么去犯了错误、下次怎么去做对。是不是很多家长都爱干这个事？做错了不行，你一定要在这个时候把它想清楚，然后给我解释到底是怎么回事。在这个时候，小孩想的压根就不是怎么去反思错误、怎么能够保证下次不犯，小孩想的是如何尽快结束当前糟糕的状态。这就属于是一开始你设定错了一个激励的条件，还希望说这个小孩犯了错误，多骂他一会，多念叨一会，让他能够学会，这个绝对适得其反。

还有一些呢，适合小孩教育的AI训练方式，大家也可以思考一下，就是寻找合适的数据或者问题对于教学是非常重要的。就刚才我们讲的，给他一堆猫跟狗的照片，然后给标生日，这就属于错误的数据。我们找到正确的数据，对于小孩的学习会非常有帮助的。今年年初吧，李飞飞训练了一个很小的模型，它就是精心筛选了1,000个高质量、高难度、覆盖50个不同领域的全面性问题，训练出来的模型要比很多很大的模型效果都好，这个才是对我们有借鉴意义的事情。为什么呢？你对于小孩训练也好，或者是教学也好，最缺的是什么？不是上培训班的钱，也不是找到特别好的老师，而是小孩的时间。你去让小孩上培训班，到底是上那个还是上这个？你需要去取舍的，因为时间是有限的。在这样的一个情况下，如果能够选对正确的数据集的话，对孩子的训练也是非常非常有帮助的。

在这里呢，再讲另外一个很拟人的AI算法故事吧。就是李飞飞的这个小模型里头，应用到了另外一个有趣的方法，叫什么？叫“预算强制法”。这个呢，其实是小孩解数学题的一个方法。它是什么样的方式呢？就是它动态的来调整推理的步骤和时间。现在我们的模型都是做推理嘛，到底是应该用多少步来推理呢？现在我们使用的很多系统都是可以预设的，我到底是用高级推理、中级推理、还是低端推理，还是直接出结果？让你自己去设。但这个事其实是很二的，应该是让模型自己去判断。

它呢，通过任务的复杂度和中间的结果，不断来评估说这个事是不是可以结束了。如果任务复杂度高，他就会给你更多的推理预算；如果在推理预算之内你把它做出来了，它再去评估这个结果。如果结果的置信度很高，这东西就很像我们从小做数学题，都是有这样的训练的。你得出一个0，得出一个1，这个事都有可能是对的。但如果你最后得的那个结果需要开根号，然后还不会算，这种大概是前面哪步算错了。咱从小应该都是这么学的吧？他也是如此。然后除了置信度之外，还有一个是什么呢？就是结果的收敛性。我越算这个结果，好像越向着比较可信的方向在前进；或者说有的时候越算越觉得不对，走着走着觉得越走越远了。这个东西是可以判断的。如果是你得到了一个置信度很高、很收敛的结果，没问题，就停在这儿吧。如果你发现这个东西置信度很低，而且呢越来越发散了，一点都不收敛，越走越不像了，就直接停止，说：“不会，对不起，我不知道。”当然我们小时候有时候受的教育是什么呢？你实在做不出来，到后头写个0、写个1，还是有蒙对的机会的。

所以李飞飞的这个方式呢，就是简单问题简单推理，获得高置信度、收敛的结果，就快速停止；如果太复杂，就直接承认失败，完事了。这个是不是也很像咱们小时候教小孩子做数学题的这个过程？

讲远了。这个降低幻觉的技术呢，现在已经用到了GPT5上。现在他们在GPT5上就已经是鼓励大模型说“不会”，说“这个事我不知道”，去鼓励他做这件事情，而不是要上来生给你编一个结果出来。

另外呢，我要讲，降低幻觉其实是一把双刃剑。很多人说：“不对，幻觉低了，它不是好事吗？你不知道就说不知道就完了。”为什么是一个双刃剑呢？这个里头呢，跟人性有关。因为幻觉再怎么降低，它永远不会是零，有可能呢会逐渐降低，但是人呢，会选择相信一个大概率不会出错的自动化系统永远不会出错。这话很绕，什么意思呢？你比如说这个系统，十次里头错八次，那这事肯定不行。等到10次里头错5次呢，这个结果呢你可以参考一下。如果10次里头呢只错个两次，就会有相当一部分人认为这个结果是永远不错的，我就直接相信了，剩下的两次错就错了。他是这样来去处理这问题的。这是人性的一个选择。所以呢，幻觉越低，愿意直接无条件相信这个模型的人就会越多。这是一个灰度，有些人可能怀疑一切，有些人呢可能说你这个幻觉只要到50%我就相信了，有些人说幻觉到20%我就愿意相信他。他是这样来去工作的一个过程。所以呢，幻觉越低，选择无条件相信的人就会越多。这就是为什么我说降低幻觉是一把双刃剑。

那么我们应对幻觉的最简单方法是什么呢？第一个，肯定还是怀疑和批判了。中国的中小学教育里头还是应该加强一些的，这一方面目前应该没有那么强。另外呢，就是你要去有一些逻辑的训练。比如说，如果不进行逻辑训练的话，你没法去判断这个结果是不是符合逻辑，或者说他的“置信度”这个东西，你没有判断标准。还有呢，就是我们要了解聊天的上下文环境。这个事特别有意思，大模型呢，你问他一个问题的时候，他给你的结果未必一样。这个结果的差异是怎么来的呢？其实是跟上下文有关。所以我们经常在跟大模型聊天的时候，要学会叫“开始一个新话题”。什么意思？就是我们把前面的上下文都扔了，咱们重新开始聊。这个是非常非常重要的，否则的话，它给你的结果要跟上下文相关联。如果我们跟他聊天的过程中忘记了上下文说的是什么，那他给你的结果就有可能会出现比较大的偏差。

还有一点呢，就是要了解信息来源。你说我这个大模型给我的结果，是大模型直接生成的，还是通过本地知识库总结的，还是通过搜索总结的？这个东西到底是怎么来的？如果是通过搜索来的，他到底是搜索的哪些网站？哪些网站是可信网站？哪些网站是八卦网站？哪些网站每天胡说八道？你要要求他去进行一定的区分，这个才有可能让他的幻觉降低。

当然，最终的方式就是多模型校验。像我现在很多的数据都是多模型校验：我先在豆包里跑一遍，因为这玩意最快；然后呢，把跑的结果扔给ChatGPT，说：“来，给我进行数据校验。”然后呢，ChatGPT就会把所有的数据拆开了，校验完了以后，告诉你哪个地方是对的，哪个地方是错的，要比ChatGPT自己做的还要好。有时候ChatGPT也有幻觉，虽然GPT5号称幻觉降低了，但是依然是存在的。我也会把它的结果再拿到豆包里边再去校验。这个会极大的降低幻觉，但是也不能降到零。

OpenAI呢，现在又在开始探索新方向了。就是刚刚做这篇论文的这个部门呢，叫做模型行为部门，这个部门呢，现在已经合并到模型预训练部门去了。这个部门的老大呢，是一位亚裔女士吧，看那个名字应该是个韩裔吧。他呢现在做了一个新的部门，叫OAI部门，这个部门呢，是研究AI与人的交互方式的。他呢，研究的是在聊天和agent之后，这个AI应该如何去跟人进行交互。现在大家还在卷agent呢，人家已经又往前走一步了，agent之后是干什么？他认为AI呢，应该是一个思考、创造、娱乐、学习、连接与实践的全新范式和工具。我们也期待这位女士吧，能够给我们带来不同的惊喜。她前面做了达利2、做了GPT-4o、做了GPT5，特别是跟人交互相关的部分，包括AI如何降低幻觉、AI如何降低谄媚，这些东西都是他去研究的方向。

最新的GPT的更新是什么？特别有意思的一个功能，叫“分支聊天”。比如说跟人聊的时候，聊着聊着聊崩了，或者聊的大家很不开心了，你能够说：“我们退回去，现在我们退回三轮，从这继续往下聊吗？”咱是不行的，因为那对面还生气呢。但是现在ChatGPT允许你干这个事了。就是我们聊着一个来回、两个来回、三个来回，这个时候说我聊错了，我可以从第一个来回完了以后，说我在这做一个分叉，我重新开始聊。AI大模型的这个接口呢，就不知道你后边的聊的第二轮、第三轮到底聊了什么，它会从这个地方分支出来，接着跟你聊。这个应该也还是蛮有想象空间的一个事情。

好，这就是我们今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的会员频道。再见。

AI用多了人会变笨吗？深度解读AI对人类思维与独立思考的深远影响

Luke Fan — Mon, 01 Sep 2025 00:57:12 +0000

AI用多了人会变笨吗？

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲MIT最新的一个研究：用AI会让人变笨。

文章的标题是“你的大脑与ChatGPT：使用人工智能助手完成论文写作任务时的认知负债积累”。说白了，就是你用ChatGPT用得越多，你的认知负债也就越多。这个文章是MIT的媒体实验室发出来的，MIT这个媒体实验室还是非常著名的一个实验室。这篇文章呢，是2025年6月10日在Arxiv上的预印本的论文。现在有一个新的发论文的地方叫Arxiv，很多没有经过编辑审核、没有杂志社确认的这些论文就都可以放在这了。数学、计算机等等这些学科的大量论文都是会先放在这里，大家可以先开始看起来，因为科技实在是发展得太快了。有一些呢，修改过以后会重新发到杂志社上去，放到这上面并不算抢发。杂志社发的时候还会提出修改意见，你改完了以后会去更新Arxiv上的论文。

这个实验做了什么呢？18-39岁的54个人分成三组：纯脑力组、使用谷歌搜索引擎组和使用ChatGPT组。这三组呢，在20分钟之内写一篇SAT水平的考试作文。SAT呢，一般要求是开放式的、哲学或社会性讨论的这种问题，比如艺术的力量、成就的意义等等这样的题目。所以相对来说比较文科，比较开放的一个题目。

实验的数据是怎么获得的呢？首先，是戴脑电图头盔检测大脑活动。你说我到底思考了没有？这个脑电图头盔是可以给你一个真实的数据的。然后，是测试参与者文章的记忆情况，你写完文章了以后，你给我复述一下你文章里的内容。第三个，是对文章质量进行一下评分，到底写得好不好嘛。最后，是要询问参与者对文章归属感的认同：你觉得这文章是你写的吗？大概是做这么四项的测试。

实验的结果呢，首先从文章质量说，这一块还是符合大家认知的。AI组的得分是最高的，因为你想20分钟写一篇这种口水文，什么艺术的力量，这种哲学相关的口水文，那肯定AI的效果是最好的。文章在语法、结构、连贯性上都是表现最好的。但是，文章内容趋向于模板化和平庸，原创性和多样性不足，有很强的“AI味儿”。这个是大家能感受到的，至于“AI味儿”哪来，待会咱们再讲。

搜索组呢，居中。在获取事实和论据上有优势，写出来的文章呢，信息量比较大。它比ChatGPT组要稍微差一些，但是比那个纯脑组呢，要好一点点。逻辑性不错，但是表达流畅度呢，略逊于AI组，因为你搜索了半天，这个文章你还是得自己写嘛，那肯定是要比AI差一些的。

纯大脑组呢，文章的语言质量和结构性普遍偏弱，得分最低。但是文章的个人风格和多样性更强，更能看出作者独立思考的迹象。这就是文章的质量，特别是写口水文这件事情哈，请放心地交给AI，它已经可以干得很好很好了。

大脑活跃程度，就是拿这个脑电图帽戴在脑袋上，效果怎么样呢？这个一定是纯脑组最高，大脑活跃，思维负荷最高。搜索引擎组呢，活跃程度居中。AI组活跃度最低，脑区参与度下降。为什么说AI使多了以后人会变笨？因为你用AI干活的时候，你那脑子啥也没干，所以会变笨的。

文章记忆情况，要求参与者引用文章中的一句话。纯脑组89%是能够成功引用的。搜索引擎组呢，差得不太远，83%可以准确引用，因为你毕竟是自己写了嘛。AI组，对不起，0%。所有参加AI组实验的人，没有任何人可以从文章里边准确地引用出句子来。这个也是一个比较悲催的结果。

至于归属感的话，纯脑组认为这个文章绝对是我的，从构思到书写都是我自己来的，所以一定是我的。搜索组呢，也是有归属感的，但是没那么强。他说我这个文章肯定算我的，但是因为很多的内容是从搜索引擎来的，所以没有那么确信。AI组的话，大家能想象，“这文章绝不是我的，跟我一点关系没有”，是这样的一个状态。

结论呢，他们叫“认知债务”。你越用AI的话，实际上你AI输出的所有东西，你连看都没看，你的脑子也没有活跃，你也不认为这东西是你的，你在这个AI的文章里头也没有办法引用任何东西。所以AI确实可能出的文章效果还可以，得分最高，但是你这个脑子就越来越笨了。

AI呢，现在确确实实是在影响我们的语言，我说话可能“AI味”越来越重了，特别是像我，我自己可能这块是比较明显的。当然这个也是结论有出处。这个文章呢，叫“模型错位于语言变化：非脚本英语口语中与人工智能相关的语言迹象”。当然他讲的是英语，我讲的是中文，但是我相信我讲的中文里头肯定也是有很多AI词汇的使用量在不断地地上升。

这篇文章呢，是由佛罗里达州立大学三位作者写的。2025年8月1日呢，也是Arxiv上首先发布了预印版。他这个文章呢，跟刚才咱们讲这个“AI用多了会变笨”这个文章呢，有一点差异是什么呢？就这个文章已经被接受了，“人工智能伦理与社会会议”第八次会议已经收取了这篇论文，所以在这个Arxiv上呢，已经给你修改过了。

这个文章的数据是怎么来的呢？他呢，是找了一堆的科技与科学的博客。你说我找别的博客，他们受AI的影响并没有那么重，但是你科技跟科学的，一定是受AI影响比较大的。所以呢，他们找了10万条录音，2210万个单词，拿这些单词去做词频分析去了。而且这些口播呢，一定是随口聊、无脚本对话。有些口播虽然是一个人坐在这聊，但是呢，他们是写的逐字稿，这种逐字稿你就没有任何统计意义了，你一定是随口讲的话才有统计意义。这个实验呢，以2022年ChatGPT发布前后的这个时间对比，2022年ChatGPT发布之前，哪些词汇用得多一些，哪些词汇用得少一些。到2022年ChatGPT发布以后，我们再拿出来去比较。

观察到了什么样的现象呢？就是有些单词出现的频率明显地增加了，而这些词的同义词呢，使用的频率并没有明显变化。你比如说我现在天天讲AI、AI、AI，那么这个词的使用频率上升了，但是如果它的同义词的使用频率也在上升，那说明大家关注的焦点在发生变化，并不是说AI真正的渗透了我们的生活。但是它的同义词使用频率没有发生变化的时候，这个时候就是AI对我们进行渗透、进行影响了。

它这个里头找到了一些词是什么呢？第一个是叫“Dive”，叫钻研、深入研讨，但是它的同义词呢，就没有明显的上升，而这个词是明显上升了。这是ChatGPT比较喜欢用的一个词。然后呢是“intricate”，是复杂的、错综的，这也是ChatGPT比较爱用的一个词。“surpass”，超越、胜过的意思。“boast”，夸耀、以什么什么为傲。这都属于明显上升的。剩下的词就不跟大家念了，我自己念这些词还是比较费劲的。他们呢，是找了8个词，说这8个词明显上升，而它的同义词并没有明显上升。以此为证据得到结论：AI正在重新塑造人类的表达习惯。

而且呢，他这里头有一个很大的潜在风险，叫“语言同质化的潜在风险”，以后大家都按这些话说了，那些这个词的同义词可能就慢慢地会被遗忘掉。但是我觉得最大的风险并没有披露，其实人思想很大程度上是受语言影响的。所以中国人、日本人、英国人、美国人，我们其实很多思考模式的差异，其实是来自于语言差异。当AI渗透到我们的语言，特别是没有稿、直接拍脑袋就来的这种口头语言的时候，那说明我们的思考方式也在发生变化。这个可能要比语言同质化要更恐怖一些。

现在呢，有很多人在批评我的内容像AI内容，我肯定是被影响比较深远的这一类。这样的结论出来以后，那很多的妈妈们就该着急了。妈妈们以前经常跟我们讲的是什么？看手机会瞎呀。现在的话，用了AI会变笨，会像AI一样去说话和思考问题，而且这都是国外有大学真的发论文了呀，这是真实存在的呀。

但是我要讲的是什么？就不要断章取义，形成这种武断的结论。就是说你看人家已经出论文了，以后我们就要少用这东西。甚至有些人说你看，有论文了，吃什么什么东西有害，以后我们不吃了。我记得原来还有一个故事讲的什么，正面躺在床上容易得什么什么病，左侧躺容易得什么病，右侧躺容易得什么病，趴着睡容易得什么病，这哥们说算了，我不睡了行不行？所以呢，我们不要断章取义，不要扩大它的范围。但是呢，我也知道，这种信誓旦旦喊口号呢，会更有听众一些，因为“群众思维单纯，缺乏逻辑推理能力，因此最能打动群众的是简洁、反复的口号，而不是复杂的论证”。刚才咱们讲的是文章是怎么去获取数据的，怎么去得到结论的，这实际上是一个论证过程，一般人是不爱听这个的，大家喜欢听简洁反复的口号。这句话哪来的呢？也是有出处的，这句话来自于一本书叫《乌合之众》，有兴趣可以去看。

这个报告最大的价值是什么呢？你既然说不是说用了AI就变笨，以后大家别用AI了，那它的价值在哪呢？在于实验设计的方法。它设计实验的过程是什么样的？我应该如何去找人，如何去用脑电波的这个帽子，如何去让大家做问卷，这些人怎么去分组，怎么去比较，怎么在这个数据里边去选择？包括刚才咱们讲找了科技博主，那你不找科技博主，他这个数据变化不明显嘛。然后呢，一定要找非脚本口播，然后呢做大量的数据分析。而且呢，他获得了一个相对比较开放的结果，但这个结果呢，只是我们观察到的现象。至于未来我们到底应该怎么用这个东西，甭管是MIT的这个文章，还是后面说AI渗透我们语言的这个文章呢，并没有说大家要如何去修改，如何注意这事，人家也没说小孩不要用AI，用AI会变笨，人家没说这话，这都是好多妈妈们自己想出来的。

而且呢，这个论文里头还有一点是让我比较喜欢的，是什么呢？他们会承认实验设计的缺陷。MIT这个实验呢，人家写了，说我们找的这50来个人呢，都是名校的学生，他们肯定是有偏差的。普通人到底是什么样的，我们不知道，但这个实验并不代表他们的数据。第二个呢，我们采样的人数太少了，就50多个人，肯定是没有那么代表性的。第三个是什么呢？他说我们选的这个作文题目，是20分钟完成一篇SAT的考题，非常非常地不全面。做其他的题到底是什么样，不知道。你说你让他去做个研究，或者做一些别的这种考题，他可能会有不同的结果出来。

关于AI渗透效应的这篇文章呢，人家里头也说了，说我们这里头也有不足。第一个，语料来源是有限的，只找了科技与科学的口播的博主。然后呢，因果关系难以确认。到底是为什么变成这样，我们没法去确认。到底是因为AI出来了以后这些词的使用频率就上升了呢，还是说因为这个词使用频率上升了以后AI可能也在发生进化，也在这个不断地去迭代？这个事我们没法去证明，我们只得到了一个结果。然后呢，说关键词选择呢，可能带有偏差。这些词并不是直接统计出来，是他们先根据自己的印象选出来的，不到10个词吧。还有就是语言层次的局限，研究主要就聚焦在词汇频率上，就是这些词变多了，它们的同义词并没有变多，观察了这样的一个现象，并没有深入去分析句法、语法的这些变化，包括语言的一些组织是否受到AI渗透的这种影响。而且呢，他们还认为自己整个实验的时间跨度要稍微小一点。其实现在有了AI以后，完完全全是可以把非常非常大跨度的这些数据去进行统计分析，是可以重新建模，得到一些不同的结果出来的。这还是一个很有意思的研究。

那我们应该如何应对AI后的时代呢？我们现在其实已经进入AI后的时代了，我说的很多话已经在受AI的影响，但是我相信我在用AI做各种稿件或者做各种的这个视频的时候，我应该还是很努力地在动脑子，绝对不会像MIT实验里头讲的说做完了以后，他都不觉得这东西是他自己做的，让他复述里边的任何话，他复述不出来。你看我经常有时候会引用一些以前自己节目里的内容，因为我觉得这东西就是我做的，这没有任何问题。

那么我们应该如何应对呢？第一个是AI渗透，这个事其实是没有办法避免的，因为语言本身就是活的。语言的渗透带来的是思维方式的转变。既然已经发现了，就可以长期监控，然后有意引导。大家有没有发现，现在有好多人是按照提示词的方式在说话。什么意思？就是我们怎么写提示词？上来第一句话，“你是一个什么什么，我现在要做什么，按照什么样的例子来，希望结果受到哪些约束”。因为我们在很多的时候跟AI聊天的时候在尝试说，我们怎么用一个结构化提示词得到一个可控的、符合预期或者超越预期的一个结果。在这个过程中不断优化提示词，但优化的过程，你肯定你的思考方式也在发生变化。那我们现在有些人在说话的时候，就是按照提示词的方式再去说，按照这个结构去说，上来说“你是什么什么，我想要什么什么，我给你什么，我需要得到什么，有些什么样的约束”。我们现在按照结构化的方式在思考问题，你既然已经思考了，就会习惯性地把这个在口头表达的时候把它输出出来。

至于说用AI人会变笨的问题呢，也确实是敲响了警钟。这个警钟是什么？不是说不让用AI，而是不能完全依靠AI。其实在AI开始的时候，我就跟大家讲过，绝对不能不劳而获。AI开始的时候，很多人就说一键就可以干这个了，我不需要露脸，不需要做任何事情，我只要点一下，我就可以用AI生成文章，用AI生成画，用AI生成视频，然后就上外边挣钱去了。这个都属于叫不劳而获，这个事是坚决不能要的。而刚才我们看MIT的那篇文章，里头有很多这些测试的人，他们最后没有办法复述自己文章内的任何内容，他们就属于是完全不过脑子，这个就是不劳而获，这个真正是需要反对的。

AI呢，可以让人更高效地处理更多的信息，这是我自己用AI的一个很巨大的感受。我原来很多的内容，可能只能靠以前的积累、靠自己的思考。现在的话，我可以参考大量的网上信息，AI会给我搜索来总结归纳，好让我去阅读。当然我阅读了以后，我很注意的一点是什么？就是最后我给大家讲的这个东西，一定是自己写的提纲，自己写的稿子，然后再照着一个提纲，用口头语言跟大家表达出来。当我们遇到了不是20分钟SAT口水文的时候，就可以开动脑筋，调动更多的信息，完成更有价值的工作，这才是AI对我们的帮助。

人们和AI的协作方式呢，肯定是需要重新思考。无法复述内容是不可接受的。以后面试的时候一定要加进去，你发现这哥们写了文章了，你就找他来问，说这文章你写什么了呀？到底是在干什么呀？这个事我还真干过。还没有AI的时代，我想给整个投资团队招一些研究员，我们就去面试了几个36氪的写手。36氪呢，要求的这些写手之所以不能叫他们作者，是因为他们干的活真的不配叫作者。给他们的要求是每天两篇半。什么意思呢？就是他们需要去阅读英文的文件，阅读中文的稿件，每天要写两篇短消息和半篇的深度文章。为什么是半篇？就是一周两篇，你要写一些稍微深度、稍微长一点的东西。这个两篇呢，就是，要从国内的媒体和消息上写一个短消息复述下来，然后呢，要从国外的英文媒体上翻译一篇短消息复述下来。所以呢，他们每一个人的每天KPI是两篇半。

我一开始看到这样的一个简历以后，我其实挺兴奋的。为什么呢？因为我们就需要这种快速的信息处理能力。当时你想2015年那个时候没有AI，没有这些工具，最多有个搜索引擎可以用一下，确实需要有人来帮我去做一些调研。我就找了这么几个小孩回来去面试，都很年轻。我说那你们都写过什么文章？给我一个列表，说这些文章都是我们写的。我说这个文章里头，哪个你觉得写得还可以呢？或者说你自己有什么感受呢？说不出来。我说你的文章最受欢迎的哪几篇？就告诉我这几篇最受欢迎。为什么知道这事呢？因为是他们有KPI考核的，你写完文章以后点击率、文章数据指标是跟他们的公司挂钩的，所以他能记着哪篇文章的点击率高、打开率高，这能记着。后来我说，那你就给我讲讲你自己觉得写得最好的这几篇文章到底都说了什么，有些什么样的观点？说不出来。

当时我就很诧异，我说这个文章是你写的吗？他是我写的呀，我靠这玩意挣了好多年工资呢，怎么可能不是我写的？我说那你写了半天文章，为什么你没有办法复述任何内容呢？他说人在这种一天两篇半的KPI下，你的脑子完全就是一个通道，你不可能留下任何东西。如果你留下任何东西开始思考的话，你就完不成这个一天两篇半。我说那些深度的文章，每周两篇的这些文章呢？他说也是一样的。这个人的脑子已经完全被洗干净了，不停地有信息进来，不停地有信息按照一个格式输出出去，你是不会有任何残余的。后来我说这些文章算你们写的吗？他们也跟我乐。但是后来的结论就是，这样履历的学生，或者叫这样履历的同学吧，我们一个也没招进来。这个是我当时的面试标准所无法容忍的。以后大家再去面试的时候，建议使用我的这种面试技巧。你就问问他说，这文章你到底写完什么感觉？你觉得写得最好的文章跟这个比如点击率最高的文章有什么偏差？哪个文章是你觉得写得好或者有什么遗憾？如果发现他完全想不出来的话，这个慎重招聘。

对于结果没有归属感这个事情呢，其实要比这个无法复述更不可接受。为什么呢？因为没有归属感，他就不可能认真，也不可能负责任地去把这个文章写好，因为他从来不认为我需要为这篇文章负责任，这跟我有什么关系？就跟刚才我讲的36氪的小编上我这来面试似的，他并不觉得这个文章写得好，他自己怎么怎么样了，他只觉得点击率高的文章我可以多挣点钱，点击率低的文章怎么怎么样。他有这样的想法。那么在设计任务的时候，就必须要去规避这种让人失去参与感的这样的过程，这个是很重要的。

从我个人来说呢，语言和思考的方式肯定是受到了AI巨大的影响，但是应该并没有变笨，即使有，我也绝对不会承认的。

最后总结一下，请大家还是多思考、多观察，看看AI对我们到底有什么样的影响。

好，这个节目就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。