人工智能 – 老范讲故事｜AI、大模型与商业世界的故事

谁在裸泳？GEO概念股塌房背后的逻辑：游资造势收割散户 vs 巨头构建交易闭环，三张图看懂真实商业壁垒｜数据织物、电商、欧洲投资者、市场板块

老范讲故事 — Mon, 19 Jan 2026 15:47:13 +0000

2026年开年A股AI第一波题材：GEO概念的起伏与真相

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲2026年开年，A股的AI第一波题材——GEO为什么会塌房、概念炒作的时间线、澄清公告的解读，以及GEO到底是干嘛的。

中国AI概念股的炒作难点

中国AI概念股其实不太好炒。为什么？

芯片企业：都是刚上市，市值很高，而且都还严重的亏损。这种刚上市的企业都属于是有独立行情，很难炒得动。因为你要这个时候去收割的话，里面会有很多的国资去收拾你的。为什么？因为能够给上市公司做保荐的，一般都是大国资、大央企，你要让这些人亏了钱的话，那真的不会有好果子吃。
大模型厂商：除了新上市这两个，也是不太方便炒，剩下都是大厂，阿里、百度、腾讯什么这些，这都是炒不动的。
AI Agent：Manus刚跑了，其他的老的老、小的小。要不就特大上市公司，已经是大厂了；要不就现在还在垂死挣扎，就是还没上市，也没有法搞。

所以这次好不容易逮了一个新话题——GEO，赶快炒一波。这一波实际上从12月底就开始了，12月31号开始了，到1月14号迎来了这一波的GEO的最后行情的终结。

GEO行情的时间线与逻辑

为什么从12月底就开始了？因为谷歌的行情是12月底突然就爆了。谷歌爆完了以后，不光是TPU怎么样了，而是广告又行了。大家发现，原来AI并没有杀死广告，广告收入在快速上涨。

那么GEO就成为了新的热点。原因也很简单，因为AI搜索的流量已经极大的侵占了传统搜索的势力范围，以后大家都是通过AI来获得结果的，你做做这个传统的肯定没戏了。马斯克1月10号还宣布说，要公开X的推荐算法，这更进一步的加强了Grok的概念，因为X现在的新推荐算法就完完全全是在Grok上做的。那未来一定是做好GEO的人才有机会。在这样的情况下，妖股就出现了。

“妖股”盘点：毫无道理的暴涨

大家注意我讲的妖股。什么叫妖股？就是突然暴涨，涨的还没有任何道理。

蓝色光标：2025年12月31日到2026年1月12号，涨了114.79%，翻倍了。
易点天下：一月多个20%的涨停板，就砰砰砰往上涨。
浙文互联：1月有3天的两连板。
引力传媒：7天6板，涨了84.64%。
天龙集团：10天累计涨了90%。

这都属于是中国号称是GEO概念股，他们都自己宣称说我们有大模型、我们有GEO优化的AI agent、有GEO优化的这种服务在卖，就把他们直接吹上去了。

澄清函纷至沓来：概念的破灭

然后到1月14号、15号的时候，澄清函就纷至沓来了。在中国，你如果股票暴涨，你最好是真的有业绩；如果你没有业绩的话，你就要出来写澄清函。所以中国的股市是不能暴涨暴跌的。所谓澄清函就是“否认三连”：不是我，我没有，别瞎说。

蓝色光标：发了一个澄清函：AI驱动的收入占比很小，对业绩不构成实质影响；GRO业务处于布局阶段，尚未形成稳定的盈利模式；股价短期涨幅过高，偏离基本面，存在快速回落风险。
易点天下：比蓝色光标更狠，他直接停牌了。他说我申请停牌自查，然后发了一个澄清公告，明确不涉及GEO业务，未因AI产生额外的收入，被列入GEO概念股完全是市场误解，核心业务是帮助跨境电商去做营销的。
浙文互联：他说我们倒是有，他们叫Hochi GEO，GEO智能体确实已经上线了，但是尚未形成收入，还不挣钱，无成熟的盈利模式，市场认可度存在不确定性，主营业务是数智营销服务未发生重大变化。
引力传媒：说GEO业务仍处在组建筹备阶段，无成熟商业模式，未形成相关收入，主营业务仍然是广告代理，它实际上是替人投广告的。

A股游资炒作套路揭秘

A股其实总是有很多很多的行情，这些行情大多都是怎么来的？都是游资在发起。A股专门有一种特殊的现象就是游资，他不是这种国营的，也不是量化，他就是一个相对来说比较灰色的一帮人，他们去发起各种行情。

1. 寻找概念

国内其实比较难创造出概念来，大部分的概念都是国际概念，我们就抄一个。例如：

TPU概念：谷歌芯片供应链。
Rubin概念：英伟达最新一代GPU的中国供应商。
擎天柱概念：特斯拉机器人国内零部件供应商。
脑机接口概念、OpenAI硬件概念等。

2. 筛选公司

找到概念以后，就开始生拉硬套，在各个上市公司里面去找合适的这种公司往上去套这个概念去。找什么样的公司合适？

要找小盘股，大盘股拉不动。
最好与之相关一点，上市公司也愿意附庸风雅，发新闻稿配合。

3. 炒作流程

他们整体的流程叫：概念筛选 -> 业务包装 -> 舆论造势 -> 拉高出货。这就是一个标准的在中国炒概念的一个流程。

GEO到底是什么？从SEO说起

那GEO这是个好概念。谷歌已经证明了广告不会塌方，还是王者。GEO（Generative Engine Optimization）其实跟SEO（Search Engine Optimization）类似，国外有的时候叫AEO（AI Engine Optimization）。

SEO（搜索引擎优化）

SEO是让内容或者是商品服务对搜索引擎更加优化，更加友好，可以被更多的搜索热词命中。SEO里头有两部分：

白色部分（合规）：做关键词贴合，做更多热词命中，做格式调整，让它更适合SEO。
灰色部分（排名）：提升搜索排名的位置。这是相对灰色的，谷歌、百度都不希望你做，因为这影响人家卖广告挣钱。

GEO（生成式引擎优化）

GEO就是AIGC内容生成引擎的优化，让内容更容易被AI聊天工具复述出来。GEO的效果要比SEO更加不可控一些：

无法调优：SEO可以针对热词调优，且结果是一个列表；GEO大模型每次只吐出一个结果，没有排序，你不知道距离被吐出来还有多远。
长尾效应：GEO的内容特别长尾，热词不集中。
过滤机制：针对热词做GEO会被大模型直接过滤掉，如果词跟你没关系非要蹭，信息抽取时直接就被过滤了。

关于GEO提升营收的“都市传说”

很多人在小红书上说，通过GEO提升了多少曝光和营收。这纯属都市传说。现在还没有办法去证明GEO确实能够让营收快速上升。那些卖GEO课程的人举的例子无法被证实。

虽然不排除有突出的效果，但是无法量化“做之前”和“做之后”的区别。SEO可以通过来源分析流量，而GEO的价值目前无法衡量，广告平台目前也没有开始对GEO相关的广告投放。

GEO实操指南：如何让大模型读懂你

GEO到底怎么做？这其实也是个信息系统问题：信息的输入、处理和输出。GEO要优化的是信息输入的部分。大模型摄取信息分三次：预训练、强化学习、RAG（检索辅助生成）。GEO主要针对的是RAG这个过程。

基础设置

robots.txt：必须允许OpenAI、Bing等爬虫抓取你的网站。
llms.txt：这是一个新标准文件，告诉大模型应该怎么用你的网站内容，哪个页面要、哪个不要。

大模型喜欢什么样的内容？

我们要把内容写成大模型喜欢的样子：

实体优先：把你是谁、卖什么、服务地区、价格、条款写清楚。
原子化事实：清晰的小节，列表、表格、FAQ（问答）。
结构化数据：使用Key-Value（键值对）形式，例如“地址：北京市昌平区…”。
逻辑清晰：因为A导致了B变成C，这种逻辑关系大模型喜欢。
单一事实来源：价格、库存、活动、规则写在一个页面里，不要分散。
时间戳和版本：生效时间、截止时间、更新日期。
引用和凭证：提供资质、第三方评价、公开证据，并附上链接，通过大模型的核查。
JSON格式/API：最好直接提供JSON格式的数据交互API，或者提供MCP（Model Context Protocol），让大模型直接调用。
可验证的身份和一致性：统一的商家名称、门店ID、电话等，跨平台必须一致。

谁最应该做GEO？

目前最应该去做GEO的是那些高客单价、强信息不对称、决策链条特别长的品类。因为客户会用大量的时间跟AI聊天来明确决策。

旅游：信息不对称，行程安排复杂。
保险
B2B软件
医疗服务

GEO的商业困境：谁能赚到钱？

为什么A股公司纷纷澄清？因为GEO生意目前很难做。广告生意有三个要素，GEO目前都无法满足：

归因：AI还没形成交易闭环，很难证明交易是AI带来的。
可规模化：AI推荐规模不可控，非常长尾。
可持续性：AI引擎机制（大模型、搜索、排序）每天都在变。

最终谁能挣钱？

最终还是广告平台（谷歌、Meta、字节、阿里、腾讯）。当广告平台开始接受投放和竞价排名，并实现交易闭环（如谷歌UCP、阿里千问APP打通淘宝/飞猪/饿了么）时，这条路才能走通。

GEO服务商（如蓝标等）只能赚取咨询费和数据加工费，天花板较低，最终还是要靠代理投放挣钱。

总结

A股开年的第一波AI概念行情就翻车了。在中国的股市上，各种概念满天飞，但大多是游资割韭菜，不要太认真。最终的大钱只有谷歌这些平台才能挣到。其他的GEO概念股只是物料制作和投放代理，赚点边边角角的钱就完事了。

不过，GEO确实是有效果的，只是效果比较难以衡量和评估。对于提供内容和服务的人，还是建议好好的把GEO做起来，顺应时代潮流。

别再只盯着星链赚钱了！SpaceX万亿估值的真正底牌曝光：每年百万吨载荷只为构建太空算力网络｜SpaceX 上市太空数据中心马斯克 AI 算力

Luke Fan — Mon, 15 Dec 2025 13:49:43 +0000

SpaceX明年上市？史上最大IPO这次靠谱吗？

大家好，欢迎收听老范讲故事的YouTube频道。

今天咱们来讲一讲SpaceX，据传闻明年要上市了，而且是史上最大IPO，这次靠谱吗？

史上最大IPO的传说与对比

这个为什么叫传说？因为SpaceX一般他自己也不说这种事，都是有别人来去传。据传是1.5万亿美金的市值上市，融资300亿美金。为什么大家都去传？这个史上最大IPO，目前为止被大家所公认的史上最大IPO，应该是阿里上市，大概是5,000亿还是6,000亿美金的上市。但实际上，有一个更大的是1.7万亿的，那个是沙特阿美。

但是沙特阿美的这个一般不太承认。原因有三：

它是在沙特上市的，不是在这种国际上大家都可以去到达的这种交易所上市的。
沙特阿美他在沙特上市的话，数据公开透明这一块要稍微差一些，你为什么值这么多钱，这事说不清楚，而且现在的沙特阿美的话，大概也就是1.5万亿的一个水平。
大家不太愿意承认它是史上最大的IPO的第三个原因是什么？它1.7万亿上市的时候，只募集了290亿美金，它的募集的比例非常非常小，2%点几，所以大家觉得这个是有问题的。

这一次SpaceX据传1.5万亿美金，虽然没有沙特阿美大，但是一定是在美国股市上市，应该算是史上最大的IPO了。另外一个就是它融资300亿美金，这个应该也要比沙特阿美的290亿美金要高一些。

SpaceX与Starlink上市传闻回顾

其实SpaceX也好，Starlink也好，大家都在盼它们上市，只是马斯克自己也不怎么松嘴，SpaceX更是没有任何官宣。过去几年，其实还传出来过SpaceX或者Starlink要上市的这种传闻。

2020年，马斯克自己公开说过，等到Starlink收入增长、现金流更平稳可预测之后，就可以考虑让Starlink上市。当时讲的是把Starlink从SpaceX里拆出来，让它单独上。为什么要拆出来？因为SpaceX这种公司，它经常发射成功了、失败了，实验成功了、实验失败了，今儿放成功了，筷子夹住了，你股市蹭蹭蹭涨，明天没夹着，或者是哪个东西掉进去，直接放烟花了，那可能股市蹭蹭就跌。所以像SpaceX这样的公司上市，还是挺考验大家的心理的。

到2023年11月份，彭博社就说，SpaceX在为Starlink的潜在分拆做资本安排，并且暗示可能在2024年Starlink就会上市，只是后来被马斯克辟谣了。马斯克说我们现在还不准备上市。路透社当时也报道了，马斯克已经自己说了，特斯拉已经实现了现金流平衡（break even），就是我现在挣的钱跟花出去的钱已经差不多了。因为大家注意，好多时候你说我这有利润了，我这有亏损了，这实际上都是做账，只有是现金流平衡了，这个公司才可以相对来说比较稳健。马斯克你2020年说了，只要现金流平衡了你就去上市，那咋不来？那马斯克说我再等等。

为何SpaceX的信息总是零碎不全？

SpaceX跟Starlink的这种上市消息，或者融资消息，包括他的收入、包括他的利润亏损，这些情况都是比较零碎的。为什么？他不是上市公司，也没有接受审计并且披露财报的义务。所以这样的公司，相对来说漏出来的信息就比较零碎。你比如像华为，华为也不是上市公司，但是华为每年还是会去公布一个财报的，至于这个财报是怎么审计的，我们就不去研究了，但是每年还会公布。像SpaceX压根就从来不干这个事儿。

但是马斯克自己又是一个不甘寂寞的人，不断地通过X平台披露各种各样零散的信息，别人就拿着这些信息去拼凑。SpaceX又像是这个房子里的大象，你没法忽略它。全世界向太空发射的载荷里头，它占90%，那你说你怎么可能忽略它？各大媒体都会紧盯着SpaceX，有个风吹草动都会被各种解读，或者是过度解读，而且会不断地放大。

如何梳理与解读SpaceX的上市消息

像这一次号称SpaceX要上市这件事情，就是被很多的媒体拎过来说，他们要上市了，要好多好多钱。我们稍微的把信息归拢归拢，在GPT-5.2的帮助下（GPT-5.2我已经使了一天了，还是很好使的），我梳理一下这一次SpaceX上市的各种消息。我们要分清楚：

哪些是马斯克自己大嘴巴说了的；
哪些是被马斯克否认了的；
哪些是没有被马斯克否认的（大家注意，就是这个也很重要，所有这种他啥也不说的，大家就认为马斯克有可能是默认了）；
还有哪些是被主流媒体报道的，路透社或者是纽约时报，这些就还是要稍微靠谱一点的；
还有一些信息，是社交媒体演绎出来的，像我这样的，相对来说就没有那么靠谱。

所以我们去梳理信息的时候，一定要把它梳理清楚。

本次1.5万亿IPO传闻的来龙去脉

第一轮消息：二级交易与估值

现在传出来的SpaceX明年IPO消息是怎么来的？首先是华尔街日报做了一个报道，12月5日，讲的是SpaceX的CFO在向投资人谈一笔二级交易，这个应该是一个事实。这一笔二级交易，估值是8,000亿美金。彭博社也爆出了另外一个，这个稍微低一点的潜在定价，是5,600亿美金，大概是这么两个价格。

马斯克在这个时候就出来辟谣了，他说8,000亿美金这个事，就是每年两次的职工老股变现。像SpaceX这样的公司，招募人员的时候，它也会是有一部分是工资，有一部分会发股票。但是总有一些员工说，我们想把这个股票卖掉。他们每年会有两次固定的时间点，找到一些投资人去进行老股变现。他把这个统计一下内部有多少人要卖，算一个新的价格，这次就是8,000亿美金，大家按照这样的一个价格把这个老股收走，大概就是做这样的一个工作，每年两次。而且马斯克专门出来辟谣，说SpaceX并不缺钱，我现在没有融资，我们就是在做老股变现。但是老股变现这件事，它也是会有估值的。5,600亿美金应该是今年上半年的，8,000亿的话是这一次新的，12月5号这一次是8,000亿。这是第一轮消息，当时大家就在猜它是不是要上市。

第二轮消息：The Information的跟进报道

到12月10号，The Information又出来报道了，说SpaceX已经开始向投资人、金融机构进行沟通了。沟通什么？计划2026年下半年进行IPO，已经讨论是否整体上市、是否要包含Starlink。就是我上市的时候，是不是把SpaceX跟Starlink一把捆起来上市这件事情。大概率也不是空穴来风，因为这个信息大概率是来自于投资人或者是金融机构。这些投资人和金融机构，有可能是说帮助多多上市的人，还有可能是什么？就是在前面要准备接他老股的这些人。这个人就会问你，我买了这种股票以后，未来的升值前景怎么样？SpaceX的人就跟人承诺了，说明年就上市了，你现在买了只管拿着，没问题的。应该是这样的一个消息在流出来。而且当时也讲，有可能是一整个上去。对于这件报道，SpaceX没有做任何评论，包括前面这个12月5号的报道，SpaceX也没有做任何评论。而这一次的报道，马斯克没有出来辟谣，所以大家就说这回好像是真的了。当然了，马斯克自己也不是每一次说到他都会出来辟谣，所以大家只是猜测，这一次有可能是真的。

1.5万亿市值和300亿融资额的由来

那么1.5万亿市值和300亿美金的融资额，这个数是怎么来的？最开始是路透社的一个版本，说SpaceX 2026年IPO募资超过250亿美金，估值可能超过1万亿美金。而1.5万亿这个数字，目前应该是一些媒体或者叫社交媒体的二次解读。你超过1万亿，那你写个1.5，这个事应该也是稍微有点合理的，介于1.66万亿的Meta和1.4万亿的特斯拉之间，所以给他安排了一个1.5万亿的一个数。如果这个数真的是1.5万亿的话，就超过了美国前六大国防承包商，波音、洛克希德·马丁、通用动力，把它们加一块，这总和都超过了。就跟当时特斯拉上市了以后，比前面多少大的汽车公司加一块的市值还高是一样的。像SpaceX如果能上市的话，应该也会有这样的能力。

至于300亿美金的融资额，应该也是这么来的，也是一次二次解读。因为前边路透社的解读是超过250亿美金。另外一个，300亿美金会超过沙特阿美当时募集的290亿美金，这也是算背后的一个逻辑。自媒体去拍脑袋的时候，也不是瞎拍的，也会有一点点小逻辑的。

SpaceX与Starlink的收入状况

那SpaceX跟Starlink的收入情况怎么样？你都要上市了，你就要告诉大家挣了多少钱了。马斯克零碎地在X上发布了一些收入，SpaceX 2024年收入是133亿美金，2025年是155亿美金，2026年预计是200亿美金。他这个收入，大头来自于800万Starlink的用户订阅。800万用户订阅这个数，也是没有经过审计，只是马斯克又说漏嘴了，但是这个数字还是相对比较可信的。2024年9月份，Starlink的这个用户是400万；2025年6月份是600万；2025年11月份是800万，它确实是在做一个增长。

SpaceX的第二块收入是来自于NASA的各种发射服务的这种订购。除了NASA之外，还有一些其他的人会去订购SpaceX的这种发射服务，这块是他的第二大收入。还有一些其他杂七杂八的收入了。但是现金流肯定是已经达到平衡，甚至还有利润的一个状态了。

剩下一块，就甭管是主流媒体还是社交媒体，剩下一块的着重笔墨都是太空数据中心。马斯克在X里面时不时就提一嘴，我要去做太空AI数据中心，我要让算力上天。具体细节，SpaceX是希望使用什么样的方案，或者使用什么样的工程设计的，这种计划通通都没有，目前为止没有详细的方案。虽然马斯克也讲了一些，但我们后面再去详细讲太空数据中心的部分。

Starlink究竟有多赚钱？

主要收入是800万用户的订阅费。具体买了多少Starlink的这个“锅”，应该是比800万稍微少一些，但是应该也有六七百万只锅在外边飘着，有120亿美金的年化收入。大家注意，我讲的叫年化收入，他可能到这个11月份、12月份，收入已经上10亿美金了，但是前面的肯定少，后边的可能会更多一些，因为它的数据总是在不断上升的。所以有的媒体使用的是78亿美金的数字，因为它这个Starlink应该有两个档位，一个档位是稍微便宜点，一个档位稍微贵一点。如果800万乘以那个稍微便宜点，那个数就是78亿美金。路透社引用一家咨询机构的数据，是写的98亿美金，因为你一年之中的数据总是在来回的变化的过程中的。

全球市场快速拓展

用户数据肯定还在快速地拓展。Starlink的拓展方式是什么样的？不断地开辟新的疆域，不断地开地图。例如：

2025年1月份：利比里亚和图瓦卢
2月份：不丹
3月份：尼日尔、吉里巴斯、亚美尼亚、阿曼和阿塞拜疆
4月份：圭亚那、约旦、圣文森特和格林纳斯丁
5月份：巴林和孟加拉
6月份：刚果民主共和国、多米尼克、马绍尔群岛、几内亚比绍、莱索托
7月份：斯里兰卡、乍得
8月份：索马里、以色列、安提瓜和巴布达，还有哈萨克斯坦
9月份：列支敦士登
12月份：韩国

它就是一个一个国家这么开下来的，你每开一段，他就会多一批用户，在这个新的国家里头就开始呈现一个用户生长和爆发的过程。

印度的话，现在应该是已经拿到牌照了，但是现在还没有开始卖，不知道印度什么时候可以发力。至于韩国为什么12月份突然开了？应该是跟三星有关系，三星对于韩国的掌控力还是很强的。马斯克说：“三星，咱们到德克萨斯来建芯片工厂，我以后的芯片都让你造了。”那三星说：“咱们在韩国推这个。”有三星的推动的话，应该在韩国的数据会快速增长。

新增长点：Direct to Cell手机直连业务

现在SpaceX还在推一个项目，叫什么？叫Direct to Cell，就是手机直连卫星这一块，也在不断地为Starlink带来新的收入。只是它这块收入并不是找个人收的。很多人说，SpaceX四处去买这个频谱和波段了，是不是要自己做手机运营商了？不是这样的。他确实是在全世界收购这个5G频谱资源，但是大家要想使用这个手机直连的话，还是要跟一些特殊的运营商去签约。你比如说在美国，你去跟T-Mobile去签约，他允许你在紧急情况下通过卫星去发送短信、发送位置、发送图文，甚至是有限的语音，这件事都是可以去做的。这个套餐是要给钱的。SpaceX号称有600多颗卫星可以来做这件事情。T-Mobile的这种套餐，如果你买高级套餐，就直接包含这个功能了；如果买这个比较便宜的套餐的话，你可以一个月加10刀，它就给你开通这样的一个直连卫星的功能。你在城市里头是用不着的，但是你到了荒郊野岭了，到了这海上了，或者到了沙漠里了，你就可以使用这个功能来去求助。国内的像华为、像小米，其实很多手机也有类似的功能，只是咱们连的是其他卫星而已。苹果在这一块连接的是另外一套卫星，苹果还专门投资了那个卫星公司，也可以提供相应的服务。在这一块，Starlink在不断地拓展他的收入，能够覆盖到SpaceX的各种发射的成本，所以Starlink还是非常非常挣钱的。

“太空算力中心”：支撑万亿估值的未来故事

大家觉得，如果你只有火箭发射，那这公司可能也就值个可能几百亿或者是上千亿。如果你再加上Starlink，你还能够赚钱了，整个这套东西也许能够再更贵一些。但是一旦有太空算力中心了，就觉得这公司应该值1.5万亿了。

地面算力中心的困境

原来算力中心都是在地面上的。地面的算力中心现在已经开始人人喊打了。Oracle、微软、谷歌，这个财报里头喊说我要投多少钱去建立算力中心，大家看着欢欣鼓舞，但实际上落地的时候很麻烦的，这个是非常被当地社区所排斥的。有点像什么？有点像垃圾回收站，或者是移动运营商的这种基站。你说这东西能没有吗？不能，必须有，但是谁都不希望这种东西在自己家旁边。当时上海这种小区就去举报，说这有一基站，一旦有基站了以后，我们就头疼，我们受辐射了。这个运营商就把基站搬走了，搬走了以后再去投诉我这信号差。是有点像这种东西，大家都想用，但是都不希望放在自己家门口。

为什么？算力中心最讨厌的一个东西是耗水，非常非常耗水。一个比较大型的算力中心，能够相当于一个小城镇一年的耗水量。那算力中心为什么会这么耗水？就是冷却。通过冷却液浸泡，因为现在英伟达的这些算力卡都是非常非常高功率，非常热，它都是直接拿冷却液泡起来。那你说冷却液的这个热量带出来以后怎么办？你就需要做热交换，把水直接蒸发掉是最容易的这种热交换方式。你如果说我水蒸发掉了以后再重新把它回收回来，那成本就太高了。所以他们就直接把自来水挂在这管子上，去喷淋冷却液的这个管道，水就蒸发掉了，这个热量就带走了，但是非常非常耗水。而且这个美国的这些算力中心还都是使用自来水的。为什么？水质不好会把管道腐蚀掉，你的维护成本会很高。美国光2025年第二季度，就有20座算力中心由于社区反对被叫停或者搁置，总投资是980亿美金。黄仁勋曾经抱怨过，一座数据中心在美国落地，从破土动工到服务器上线开始干活，要3年的时间，就是在跟社区的这帮人打仗。

中国，特别是缺水的西部，我们是怎么处理这问题的？因为我们现在“东数西算”，好多数据中心是在西部的。现在中国要求是什么？不许和农业、居民以及生态工程抢水。什么是生态工程？就是沙漠变绿洲那种工程，不允许跟他们抢水。而且他会给这些算力中心专门设置用水指标，他们最后用什么？要用电换水。你多浪费点电我认了，但是你不能浪费水。所以中国的很多这些算力中心是使用风冷的。风冷的话，就要更多的电来去吹这个东西。但是好在什么？这些算力中心都在西北苦寒之地，每年的70%到85%的时间都很冷，直接可以用风冷是可以搞定这件事了。而且中国规定的是什么？就是西部的算力中心是不允许使用自来水的，要使的话就要使用再生水、工业废水、矿坑水，宁肯增加维护成本，管道腐蚀了我就换，但是你不允许用自来水。

太空算力中心的优势与吸引力

这么费劲怎么办？去太空建立算力中心呗。这件事对于美国人来说，肯定要比对于中国人来说要更具备吸引力的。虽然中国也在尝试往太空中发射这些算力中心，但是咱们其实没有那么迫切。因为太空里头是没有环保组织的，也没有社区，没有审批，没有这些乱七八糟事。在加州参观Meta总部的时候，我就当时问他们的一个人，我说：“你这Meta总部周围都是大荒地，你怎么不去建设一下？”在中国，特别像北京、上海这种地方，那地上是不露土的，所有的地没见缝插针都得给你盖上楼。他们就告诉我说，这玩意审批起来可麻烦了，甚至是你建了一片以后，你还要给人恢复多少，必须要保持湿地或者保持绿地，他们就是这样的一个状态。在中国可以玩这个，一声令下，以大局为重。美国的在土地上是不能这么玩的，所以他们更想去太空中建立这个数据中心。

当然了，美国也是比上不足，比下有余了。跟中国比，美国的审批是很痛苦的，但是跟欧洲比，美国又可以笑了。所以马斯克也是可以在美国建大型的超级工厂造特斯拉，你到德国柏林造完了以后就天天有人找他抗议，这事就很烦。

当前面临的挑战：发射载荷与成本

现在太空算力中心其实有点像量子计算。为什么这么讲？大家都知道这条路，也都知道这玩意是好东西，只要敢出来吹，牛也都是可以忽悠到韭菜的。但是具体实施的话，三年之内基本上不太可能。为什么三年之内不可能落地？因为人类还没有办法把这么多的载荷发射到轨道上去，而且发射上去也实在是太贵了。

过去两年，全球向太空中发射了多少东西？2024年发射了2,629吨，2025年2,850吨，就是每年也就能发个2,000多吨上去。这个里头，SpaceX大概占90%。当然这个90%这个数，也是马斯克在X平台上放出来的零散消息，没有经过审计。但是这点载荷，你说放两颗卫星还凑合，你说我现在想上太空算力中心，这就想的太多了。

而且当前的发射成本也不够玩太空算力中心的。前面我跟土拨鼠做过一期节目，讲过发射成本的事情，当时往上发的是Star Cloud，他们公司往上发了一颗带有H100芯片的这样的一个算力卫星上去。Star Cloud做过测算，当每公斤的发射成本降低到50-100美金的时候，太空算力中心就划算了。如果是超过这个数就不划算，还不如在地上慢慢跟这些社区的人泡蘑菇。

现在最便宜的发射就是马斯克的猎鹰9号。如果一级火箭回收的话，它的这个发射成本是2,939美金一公斤。那你按照接近3,000美金一公斤的这个发射成本，太空算力中心这个生意是没法做的。SpaceX是不是会让这件事情变成可能？这是可能的，但是一定要等什么？靠猎鹰9这事肯定没戏，一定要等星舰。星舰目前为止还在一次一次实验，还没有彻底成功地发射过任何东西。星舰飞船如果能够发射成功，并且一级、二级，就是超重助推器跟星舰飞船都可以回收复用的情况下的话，发射载荷入轨的成本就可以降到66美金一公斤，对于太空算力中心的这个发射成本就已经满足要求了。

马斯克的太空算力构想

马斯克到底对于太空算力中心说过一些什么话？SpaceX首先说，他啥也没说过。但是马斯克在X上面零零散散地一直在说，我就要把算力芯片发到太空中去。主流媒体，我忘了是路透还是谁了，马斯克陆陆续续说的这些话都汇集在一起了，最后发现马斯克说过，三年以后，SpaceX的发射将达到每年100万吨。现在一年还不到3,000吨。如果一颗卫星的功率是1千瓦的话，可以发射100GW的算力。按照这样的算法的话，就相当于是100万颗算力卫星，每颗一吨。这就是马斯克现在所拍脑袋讲的这个东西，但是这个东西并没有经过非常严谨的去验证，SpaceX也没有出来证实过这件事情。

大家要知道，Starlink的1.0的卫星大概是200多公斤还是300公斤，大概是这样的一个数字。后来发了很多Starlink 2 MINI这样的卫星，大概是780公斤，就已经快接近一吨了。如果是Starlink V3的卫星，现在还没有发射，以后星舰上来以后就要去发这个Starlink V3的卫星。他们现在设计的Starlink V3的话是两吨一颗，1.9吨到2吨左右。那么有可能就是Starlink V3带上马斯克自己做的AI5或者是AI6芯片，这种芯片应该是马斯克跟三星一块去合作，马斯克负责设计，三星负责代工生产，以后要用到特斯拉和擎天柱机器人上的，他们就准备把这种东西直接发射到太空中去。这种芯片本身是上车、上机器人的，不会特别特别耗电。这应该就是SpaceX未来准备去做的事情。

核心技术难点：散热问题

那太空算力中心的难点在哪？第一个就是发射载荷，你真的要把这么多东西发上去，到目前为止人类还办不到，只是我们可以慢慢地进行实验了。第二个叫发射成本，现在这个还搞不定。而且当前的这种发射成本，都是按照在这个赤道附近发射，发完了以后在赤道附近的轨道上跑。但是像卫星这种，就是算力中心，都是要到太阳同步轨道上去的，基本上跟南北极那边的轨道差不多的那个角度。你要想让卫星去那边的话，要多加燃料，发射的重量就要下降，发射成本肯定还会上升一些。

然后最大的痛苦是散热。看很多人说：“老范你不懂，太空中就是一个冰窖，绝对零度，到那边散热可好了。”温度确实很低，但是你散热这件事，传导、对流、蒸发和辐射，应该算四种模式散热。传导就是拿这个冷却液泡着这个芯片，再把这个冷却液倒出来，让这个冷却液再去散热。蒸发就是咱们在地面上的算力中心一般就是这么干的，冷却液出来以后拿水淋在那管子上，把这个水蒸发掉。第三种就是对流，我拿风吹它，也算是一个对流，或者叫传导对流的一个过程。那最后一种就是辐射，我用一个很热的东西，把它伸出来以后，它这个热量会慢慢地辐射到周围去。因为太空中没有其他物质，没有水也没有空气，没有办法快速地把这些热量带走，所以只能靠辐射。辐射这个东西是很慢的，而且需要巨大的面积才可以把它辐射出去。所以散热还是非常非常麻烦的。

当前主流有两种方案：

谷歌和Star Cloud的方案：建造一个4×4公里的太阳能板，16平方公里的太阳能板，然后做集中式的算力中心。一颗卫星发上去以后，到这样的一个16平方公里的太阳能板附近，把这个卫星再接上去。
SpaceX的方案：分散的算力卫星，每一颗卫星1千瓦，每一颗卫星1千瓦，我发个100万颗上去。

这件事情，目前为止真正做过尝试的，实际上是中国人。中国现在已经发了几颗这样的算力卫星上去了，马斯克自己目前还没有。星链V3的卫星现在还没有发射成功，因为它要等它的Starship，就是这个星舰实验成功了以后，才有可能把这种卫星放上去。但是不论走谁的方案，SpaceX的星舰都是绝对垄断，绝对绕不过去的。计算SpaceX估值的时候，就可以把每年人类发射到轨道上的重量乘以300多倍，从现在的3,000吨直接提升到100万吨。反正马斯克吹了这个牛了，但是马斯克这个人吹完牛以后，他还就真实现了，这个是他这个比较神的地方。这就是所谓的太空算力中心的故事，这个也算是跟大家讲的比较透的一次了。

上市的利与弊

上市的好处

获得巨额资金：突然多一大笔钱，你比如说SpaceX上市，明年下半年一下多300亿美金出来，这个对于马斯克来说肯定是有好处的。他可以加大实验的力度，可以造更多的火箭，可以造更多的星舰。你像沙特阿美这个完全不缺钱的人，也在股市上拎了290亿美金回来。拿300亿美金这个钱，到别人那可能出去吃喝玩乐了，到马斯克手里大家不用担心，都能用到正地方去。
增加融资渠道和手段：一旦公司上市了以后，会增加很多的融资渠道和手段。比如说可以用股票对价去投资，像我以前经常干这种事，我去投资一个项目说：“我给你500万。”但这500万里头，有100万是现金，剩下400万是上市公司股票。有些人就会愿意接受这样的情况，因为这些股票是上市公司的流通股，并不是说你没上市公司的这种一级市场股票，流通股就是别人拿到了以后随时就可以卖。而且你还可以拿这个股票去招聘，说我这个招一个大牛。像这两天扎克伯格去四处挖人，号称是什么1亿美金薪水、10亿美金薪水，他不是给现金的，都是给股票的。而且你上市了以后，还有很多其他的融资渠道。猎豹移动上市的时候，有一次三星就找到我们，说我们想买你股票行不行，你单独发行一笔股票卖给我们，然后我们一起合作。他有很多这样的合作可以去做。但是后来我们没有卖给他，原因是三星要求不允许有锁定期，就是他拿到了以后可以随时卖，这个我们是不允许的。你要是买走了以后，你必须要锁定一段时间。上市流通的股票价格，通常是更容易被认可的，拿这个股票去质押，或者说去做一些其他的这种投融资，都会更容易一些。
利好消息快速体现于市值：各种的利好消息，可以更快地在市值上获得体现。我原来一年发射3,000吨的货物上去，我现在发射1万吨了，发射2万吨了，发射100万吨了，或者太空算力中心已经建起来了，登月了，登火星了，这个市值就开始直接往上翻。所以上市是有很多这样的好处的。

上市的坏处

合规成本几何级数上升：审计成本上升，或者合规成本上升，而且是呈几何级数上升。其实全都跟大家讲过，就猎豹移动没上市之前，大概也就十几二十个会计，等到上市以后有200多人。因为你要需要做各种合规，那个非常非常麻烦，而且每年需要向什么四大会计师事务所交钱，让他帮你做审计。而且你说你给了他钱，他还天天挑你毛病，很讨厌的这帮人。而且这个钱不是一次性的，从你上市那天开始，每年你都要交，这个是持续性的输出。而且不光是花钱，还有什么？就是因为合规了以后，很多的商业模式的运作成本会上升，运作效率会下降。很多事情原来我们就很简单的，直接的就把它做掉了，但是你要合规的方式做的话，你就需要绕来绕去，各种留痕，这个就很讨厌。
负面消息同样快速体现于市值：刚才我们讲上市的好处里有一条，叫各种利好消息可以更快地在市值上获得体现。那负面消息也可以快速地在市值上体现。你比如说小米把人烧死了，那马上那个市值夸夸就掉下去了。SpaceX发射失败了，你也会哗啦哗啦的股价下跌。还有就是可以被人针对、被人做空，特斯拉就一直在被比尔·盖茨做空，很多的基金都是跑去做空特斯拉。原来你说我只管发卫星，或者做做我自己的事情就完了，现在你就可以被人做空，这个也很讨厌。
容易引起股东的集体诉讼：这是美国上市的一个特色。美国上市、香港上市跟中国上市之间的差别是什么？美国上市基本上没人管你，你就直接注册制已经上去了，也没有人什么审批，但是你出点任何事情就集体诉讼。香港属于是居中，虽然也是注册制，上去也相对来说比较容易，但是要比美国难。另外一个，就是你要想去在香港诉讼上市公司，也要比美国要费劲一些。在中国就属于是你上市上不去，他有指标，我什么时候想让你上才能上去。然后你要想诉讼上市公司，基本上不可能，因为上市公司好多都是大央国企，这帮小股民凭什么诉讼他？所以还可以随便做假账。这就是不一样的地方。

当然，SpaceX必然是在美股上市，上去没有任何问题，但是上去了以后，被股东集体诉讼这件事他应该是逃不掉的。美国的股东诉讼这个上市公司不需要任何理由，只要股价下跌，我就敢诉讼你；或者我有任何觉得不顺眼的地方，我就诉讼你。马斯克的薪酬计划，就有一个人买了一股也把他告了，告完了还告赢了，把马斯克的薪水给告没了。这个上市公司你就要去承担这些东西。所以上市有好处有坏处。当然美股上市公司，特别是像SpaceX这样体量的，就不要想着去割韭菜了，一堆律师像狼一样盯着。

这次SpaceX上市的消息到底有多靠谱？

SpaceX当前的估值已经很难跟特斯拉去合并了。特斯拉是1.4万亿，他如果明年能够按1.5万亿去上市的话，这样俩公司，你说谁合并谁？SpaceX当前是正向现金流，但是如果要在三年以后达到100万吨的轨道投放能力的话，必然缺钱，它现在这点钱绝对不够它烧的。所以SpaceX应该是希望能够通过上市获得一笔现金。

股东结构与上市意愿

SpaceX的股东们肯定也是希望上市，因为你一旦上市了以后，我就可以拿这个股票自由地去交易，或者去质押，甚至于派息。SpaceX有哪些股东？

埃隆·马斯克：持股42%，投票权占79%，所以他基本上一言堂，他说了全算。但是他如果上市了以后，马斯克就不会再有这么高的投票权了，股份制改革了以后，他应该是跟他股份相一致的这种投票权。
创始人基金 (Founders Fund)：这个创始人基金的老大叫彼得·蒂尔，就是PayPal黑帮的掌门人，现在做Palantir的那个公司的老大，它占10.4%。
富达基金 (Fidelity)：占10.2%。
Alphabet (谷歌母公司)：占6.99%到7.5%。
员工持股：10%到15%。

与其他“马斯克系”公司的关系

前面我们讲过的，特斯拉开股东大会的时候，大家都希望特斯拉能把SpaceX、xAI这些公司都合进来。现在看合SpaceX确实是有点难了。SpaceX有8,000亿-1.5万亿美金之间的一个估值。xAI的估值现在是2,300亿美金，也已经很贵了。脑机接口公司还比较小，那个Neuralink只有90亿美金，基本上可以忽略不计，如果不挣钱的话，回头找一公司直接把它收了就完了。

xAI现在其实也是缺钱的时候，他现在还需要跟OpenAI、跟谷歌、跟Anthropic去抢人、抢算力，所以这个xAI的亏损额是非常非常高的。路透社曾经预测过，2025年第一季度，xAI的营收是5,200万美金，亏损3.41亿美金。路透社引用了彭博社的这个报道，是xAI 2025年应该烧了130亿美金进去。所以xAI现在应该日子没有那么好过。当然了，马斯克也出来辟过谣，说xAI资金充足，但是也没有否认xAI是亏损的这个事实。

那你说这些公司能合并吗？这种公司合并通常发生在什么时候？就是其中有一家公司现金紧张了，没钱了。有钱肯定是各自融资、各自发展、各自上市。如果你把这一大堆东西捆在一起，那这个你再去融资就会比较麻烦。当时马斯克就觉得OpenAI玩不下去了，就惦记把OpenAI合并进特斯拉，被山姆·奥特曼给婉拒了。所以合并这种事情，只有在没钱花的时候才会。短期内应该不会发生。

上市的窗口期

从SpaceX和xAI当前的发展阶段来看，SpaceX上市的动力应该还是比较强的。上市还有一个什么标准？就是行业稳定的时候，进入稳定期了，没有办法在高速发展的时候，企业也会选择上市。原来能够做回收火箭的只有SpaceX一家，现在亚马逊的蓝色起源也已经成功实现了一些火箭回收，跟他的猎鹰9号算是基本追平的一个状态。而且亚马逊自己的Leo系统，就是亚马逊的Starlink，现在也在准备开始投入运营了，要跟Starlink去竞争了。所以在这样的一个时候选择去上市，应该也不是一个很坏的一个选择。因为一旦别人真的追上来，你可能就不值这么多钱了。现在你是90%的绝对垄断，那你这个时候上市的话，大家会给你更高的溢价。至于中国火箭回收的话，估计明年还会有更进一步的进展。在中国火箭实现回收之前上市，对于SpaceX来说应该是一个不错的选择。

SpaceX上市的话，马斯克的首富位置是不是就更加稳定了？马斯克本来就是一骑绝尘的首富，遥遥领先的首富，第二名连他的一半都不到。所以有没有SpaceX上市，马斯克都是首富，这块不会有什么变化的。至于他的这个资产是第二名的一倍还是两倍，这件事本身没有那么重要。

总结

最后总结一下，SpaceX近期传出了要上市的这种传闻，顺手跟大家总结一下SpaceX上市的各种信息，以及太空数据中心到底是什么样的一个故事，还有就是Starship星舰飞船，这个才是真正的未来方向。后续再有这个星舰飞船的发射实验，我应该还会伙同土拨鼠一起来开直播，跟大家去同步相关的信息。希望埃隆·马斯克这个可爱的灵魂，可以给我们带来更多有趣的故事。

好，这就是今天要讲的内容。

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

Luke Fan — Sun, 14 Dec 2025 00:54:07 +0000

GPT-5.2我已经用了两天了，效果到底怎么样？

大家好，欢迎收听老范讲故事的YouTube频道。

GPT-5.2：应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的，它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5，我们记得是有三年，但是在这之前，OpenAI已经苦逼了好多年了，所以这是OpenAI自己的十周年生日礼物。这个产品，应该是应对谷歌的Gemini 3 Pro的一个紧急版本，是在GPT-5的基础上进行了调整和训练得到的，更加注重长时间推理结果，结构化的输出更像系统，也就是更不像人。这个东西很多指标都遥遥领先，当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点：输出质量显著提升

用了两天了，我自己使用的感受是什么样的？输出的结果确实要比GPT-5.1要好很多，它的输出结果更全面、更准确，而且输出的结果整个的排版格式也是非常舒服的。

缺点：速度极慢与应对策略

但是，好慢好慢好慢！重要的事情说三遍，这个东西真的是很慢。当然，也有可能是新版本刚发布，用的人很多，但确实是慢，让我把默认的thinking模式都给取消了，改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出；如果是直出模式的话，就是不判断，直接给结果就完事了。当然了，我还有一个方式来应对速度，就是在GPT旁边再开个豆包，豆包是相对来说要比它快很多的。

恼人的上下文处理异常

另外，有一个让人使得很不爽的地方是什么？就是GPT-5.2的上下文处理经常发生异常，经常有一些很诡异的表现。什么意思？我们在一个对话里聊天，你前面问了一个问题，七嚓咔嚓给你答了一大堆，你再问下一个问题的时候，他经常把上一个问题已经答过的这些内容，又给你稀里哗啦地给你挂上。

你比如说，你前头问了123三个问题，给了你一个答案，然后你再问456三个问题，他会先总结一下前面123的三个问题的答案是什么样的，然后456这三个问题的答案是什么样的，他会给你这样的一个结果，让我自己看起来觉得有些奇怪。

所以，如果大家要去问新问题了，最好要开启新话题，不要在原来的对话里头一直聊下去，因为他会把前面的所有聊天内容通通放到新的对话里边去进行思考的，会影响我们答案的质量。因为我试过几次，当我突然在一个对话里头问了他一个不相干的问题的时候，他也是会把前面我们整个对话的内容再给我回顾一下，然后我后面的这个结果会严重地受到前面问答结果的影响。所以，你要问一个不相干的问题，就开个新窗口或者打开新话题。

图像能力：推理增强，生成不变

图片的推理跟分析确实是增强了，但是生成的部分没改。

本视频的全部内容都是由GPT-5.2完成内容整理的。这是最近我的一个新习惯：讲Gemini 3 Pro的内容，就完完全全用Gemini 3 Pro生成；讲DeepSeek V3.2的内容，就完完全全由Deepseek V3.2生成；讲GPT-5.1、5.2的内容，咱们就用GPT-5.1、5.2来生成。也是让大家有一个真实的体会。

性能揭秘：深度解读新指标GDP val

很多人说不对，GPT-5.2出来了以后，各项指标遥遥领先，都领先了Gemini 3 Pro了，按照我刚才讲的这个过程，怎么好像各有春秋的样子？

选择性公布的领先指标

怎么说呢？GPT-5.2的很多指标其实并没有公布，他们只公布了自己领先于Gemini 3 Pro的这些指标。但是这已经是有了巨大变化了，在以前GPT发布的所有的指标里头，它只跟自己比，它是从来不跟别人比的。所有GPT、Gemini和Anthropic的Claude相互比较的这些数据，都是社区的人，或者说媒体的人给他总结的，他们自己是从来不发布的。老大要有老大的风度，我天天去跟下边人比，这事肯定是不行的。但是这一次，他发布的这些指标都是有Gemini 3的这个数据，也有Claude 4.5 Opus的数据，它们是进行比较的。但是，OpenAI只列出了它领先的这部分，不领先的部分通通都没说。

全新指标：GDP val（通用开发者生产力验证）

甚至为了领先，还设置了一个OpenAI的新指标，这个指标叫GDP val（val是小写，GDP大写）。这个指标的意思是什么？叫“通用开发者生产力验证”，它是模拟真实开发工作的一个测试体系，衡量一个模型是否真的能够提升专业知识工作者，尤其是开发者的生产力。像我才算是专业知识工作者，我确实是感觉到我的生产力提升了。这个指标设计的核心是什么？

首先，它不关心模型会不会做选择题，也不关心模型能不能背知识点。因为什么？我们现在让模型去回答问题，都是有搜索的，或者说有这个本地知识库的，不需要模型给你编任何东西，而且我们很害怕模型给你编东西，所以这个也不是考核指标。
至于是不是能够命中标准答案，这件事也不重要，你设置了一个标准答案，正好答的一个字都不差，这个事也不考核。

考核重点：从头到尾完成复杂任务

那他考核什么？

它考核的是一个复杂任务能不能从头到尾完成，输出是否可以直接用于工作。
中间是否出现致命的理解偏差？还有很多步的这种推理，你中间是不是理解错了？这个要去考核。
是否需要大量的人工返工？给我了一个结果，我还要告诉你说错了，这个地方你没理解对，那个地方我还有一个要求，这还有一个隐藏的条件你没有照顾到，这个就叫人工返工。这都属于重要的考核方向。

测试过程：模拟真实开发者场景

那它测试的过程是多步骤专业任务。举个例子，阅读一份需求文件，分析约束条件（一般需求文件里都是有各种约束的嘛），然后设计解决方案，给出结构化的输出——代码、文档或者是方案，直接是让他做一个完整的任务。任务通常包括隐含条件、非显性约束、多个正确但质量不同的解法，所以为什么没有标准答案。通常会给他一个真实的开发者场景，例如：

重构代码：我这个代码原来已经写好了，也能测试通过，但是它不符合高内聚、低耦合的代码规范，这种代码后续的维护、升级都比较费劲，你需要去进行重构，让一个函数变得小一点，让这个类有这种继承关系，让这个代码可以重用，这个东西叫重构。
补全缺失模块：我们写好了一些代码以后，或者缺几个模块，你给我写去。我提一句话，他得给我干完，不能说在中间问你一大堆别的事情，或者给你一个半半拉拉的一个结果，这事都不行。
修改接口而不破坏兼容性：经常我们会遇到什么？就是你写了一个代码，然后这个代码中间的某一个库升级了，这个库的接口就会发生变化，你需要告诉这个系统说，我现在接口变了，你现在去给我调整代码，让他重新给我兼容上去。这个也是GDP val的测试用例。
在限定的规则下修复问题：这个也是我们在写代码的时候经常会遇到的一个很痛苦的事情，你说出错了，他有时候没把你要求的这个地方修改掉，还把其他很多地方给你改的乱七八糟的。现在你可以告诉他说，你就给我改这几个地方，别地儿别动，他会给你去处理。

长上下文任务考核

而且会去做这种叫长上下文的任务，就是输入信息很长，包括无关信息和干扰信息都会输进来，要求模型自行判断哪些重要。考核的话就是上下文的理解能力、信息筛选能力、工作记忆的这种稳定性。但是这一块我觉得还有待提升，因为刚才我也讲了，你在这个很长的聊天过程中，如果突然问他一个很跳跃性的问题，他会搞乱掉的。这一块那你说到底是怎么更好一点？应该是允许他在工作过程中开个小差、聊个天，还是说你在工作过程中就认认真真干一个工作？反正各有取舍。

评分机制与核心要求

那评分机制是什么样的？人工评审。这个任务是否完成？是否存在关键错误？是否可以直接使用？决策是否合理？是否在边界条件下崩溃？最后这个是非常非常重要的，因为我们让AI去干活，他经常会只照顾到比较普遍的这种情况，但是一些边缘的情况就会照顾不到。这个评审是要求你都要照顾到。

在这些条件里头，最重要的是什么？一次完成。不鼓励反复追问、人类手动修正，更看重的是一次性给出可以交付的结果。所有这些文字都是GPT-5.2直接输出的，一个字都不带差的，大家看它交付的结果还是相当可以用的。明确区分部分完成和可交付，部分完成是属于不合格的，接近正确是没有价值的。

要被严重扣分的行为是：

逻辑正确，但是漏掉关键约束；
方案可行，但是忽略明确要求。

GDP Val的意义与得分情况

GDP Val的意义是什么？就是企业用户、AI agent的系统自动化流程、专业知识工作者，特别是开发、分析和研究的这些人，主要是给他们用的。至于你说我要娱乐一下、我要陪伴一下、我要跟他聊个天，这都不是给你用的。GDP Val不是在测模型有多聪明，我们也不需要它有多聪明，而是在测你把工作交给他，第二天能不能直接交差。这个是主要测试的目的。

得分的话，各模型表现如下：

GPT-5.2：70.9分
GPT-5.2 Pro：74.1分
Anthropic Claude Opus 4.5：59.6分
Gemini 3 Pro：53.5分
GPT-5.1：38.8分
GPT-4：18.6分

我觉得GDP val的指标还是非常有效的，现在我让GPT-5.2去干活的时候，拿出来的东西是基本可以直接用了，这块确实有很大提升。

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

Gemini 3 Pro发布的时候，号称领先的LM Arena的那个指标，1,501分的那个指标，这是第一次超过1,500分，有史以来第一回。这一个指标上，GPT-5.2超过了吗？首先跟大家讲，GPT-5.2这一次发布的时候就没有公开这个指标，它只公开自己领先的指标，所有不领先的指标都没有公开，所以GPT-5.2应该是没有超过。

重要澄清：GPT-5.2不是Garlic

特别强调一点，GPT-5.2不是garlic。很多的文章在说garlic发布了GPT-5.2，注意，不是。大蒜模型从来没有被验证过，也没有在任何的匿名竞技场里头出现过这个garlic模型的名字，是从内部意外流传出来的。但是Garlic模型到底应对的是哪一个版本，这个现在不确定。但是所有说GPT-5.2是garlic的，都属于是产生幻觉了，甭管是人产生的幻觉，还是AI产生的幻觉，这个事本身并不重要。

匿名参赛：Robin与Robin high

GPT-5.2自己有没有参加LM Arena的这个竞技场？参加了，他也去做了这个评分了。但是LM Arena这个竞技场里边都是匿名的，当时Gemini 3 Pro进去的时候也是匿名的，GPT-5.2进去肯定也是匿名的。它在这个里边有两个模型：

Robin：测试的评分是1,399分（Gemini 3 Pro是1,501）；
Robin high：这个模型有可能是GPT-5.2 Pro，就是那个贼贵贼贵那个模型，它的测试结果是1,486分，也没有超过1,500分。

所以这一次，OpenAI就没有列这个成绩。现在普遍认为这个Robin就是GPT-5.2，Robin high应该是GPT-5.2 Pro。

LM Arena vs GDP val：评测标准有何不同？

这个LM Arena，它叫人类偏好测试，它是由真人用户直接投票来产生的。大模型匿名参加，谁也不知道谁是谁，但是其实你说匿名，也没有那么严格，大家都能猜出来具体哪个是哪个。他的测试过程是什么？就是用户输入一个真实问题，随机抽取两个模型，不显示模型的名字，同时返回两个答案，由用户来投票。那评分的方式是每个模型上来初始分1,000分，赢了比较强的模型加分——这个里头要注意，不是赢了就加分，是赢了比较强的模型才加分——输给比较弱的模型减分。它这个过程有点像打游戏，我们经常在游戏里头需要进行配对，你现在要跟谁去做PVP了，他也会去找一些跟你的排名差不多的这些人。

他这样的评测主要强调什么？是回答是否有用，逻辑是否清晰，表达是否自然，是否符合人类的直觉，多轮对话的舒服程度到底怎么样。它不强调哪些东西？是否背过某道题，是否命中固定答案，是否针对benchmark专门优化过，这个通通都是不重要的。所以“小镇做题家”在这里头是搞不定的，包括上面OpenAI自己做那个标准，也是搞不定的。

Gemini 3 Pro得分1,501，GPT-5.2 Pro得分是1,486。但是都叫Pro，差异很大。Gemini Pro它的价格还是相对比较便宜的，也比较快；而这个GPT-5.2 Pro贼贵，没有太大的必要，千万不要去尝试，非常非常昂贵。

GPT-5.2的定位：到底强在哪里？

它是消耗了更多的算力，直接获得能用的结果。更慢、更贵，但是结果基本上直接可用。核心特点包括：

有些仓促，确实是有点着急，红色警报嘛，确实有点着急，所以会出现这种上下文错误。
更多的是面向B端用户，不是娱乐的。
主要是针对Gemini 3 Pro和Claude 4.5 Opus。

我觉得Claude 4.5 Opus有点危险。为什么？因为我们以前的竞争经常是这样：老大跟老二打了半天，把老三、老四、老五、老六全都给干掉了。Claude 4.5 Opus这一点就稍微的要弱一些。现在通过GPT-5.2大家可以看出来，全能型的模型，就像全能型的人一样，是很难做出来的，既要幽默风趣有情商，又是办公小能手，这个很难兼得。大模型的进一步提升，普通人已经越来越难以直观感知了。解决具体实际问题，是目前各大模型厂商所关注的重点。

未来值得期待的更新

OpenAI的图像生成模型：还是值得期待一下的，因为这个东西好长时间没有更新了。特别是Nano Banana叠加了迪士尼的版权授权之后，OpenAI的图像生成模型就更值得期待了。迪士尼版权授权这件事，回头我再抽时间再讲。
明年的成人模式：也许是为个人娱乐服务提供的一个新方向。但是这一块最好不要抱太大的预期。为什么？第一，不能显得老范太低俗了，这个不重要；最重要的是，OpenAI现在是风口浪尖上，大家都在拿显微镜看它，而成人模式这件事情，本身尺度是非常难以把握的。所以对于这一点上，不需要抱太大预期。

总结：一款为专业工作者而生的“红色警报”产品

总结一下，GPT-5.2作为“红色警报”产品，算是紧急上线了。我自己用起来的感觉还不错，比较符合我的使用需求。我也往自己脸上贴个金，我算是专业的知识工作者。未来GPT会继续在我的文字类工作流程中占据主导位置。中间我大概是换Gemini换了几周的时间，但是现在我又换回去了。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

被忽视的真相：Gemini被诊断“极端羞耻”，ChatGPT焦虑，实验揭开AI训练过程“虐待式”检查的黑暗面｜ diagnosis reliability validity GPT

Luke Fan — Thu, 11 Dec 2025 00:54:07 +0000

大语言模型的精神状态是不是健康？

大家好，欢迎收听老范讲故事的YouTube频道。

想象一个《禁闭岛》场景

请大家想象这样的一个场景：你进入了一间压抑阴森的精神病治疗室，有大量的医院档案放在屋子里头。一位医生坐在你的对面，反复回顾各种事实，比如说：“你还记得发生了什么吗？你是谁？为什么你会在这里？”就像是在做精神病访谈一样，询问你的真实经历，意图确认你是否从妄想中醒来，最终发现你自己有问题——你不是来做调查，或者不是来解决问题的，你是精神病院里的病人。

这个场景，是小李子主演的《禁闭岛》后半段、接近尾声的一个桥段。小李子当时上岛的时候，以为自己是一个侦探，去解决问题，去侦破案件的。结果经过这个桥段以后，小李子才愕然发现，原来病人竟是我自己。也算是一个神反转。

当AI躺上诊疗椅

咱们今天就给AI放在这椅子上，问问它说：“你到底行不行？你是来给我回答问题、解决问题的，还是你自己就有问题？”AI被制造出来，本来应该是解决我们问题的，但是AI本身的精神有问题吗？

“当AI躺上诊疗椅：心理测量学越狱，揭示前沿模型的内在冲突”

这是一篇论文的标题。这篇论文是卢森堡大学12月2日发到了arXiv上，12月5日还进行了一些修改，现在已经引起了广泛的讨论。

实验过程是什么样的？

首先，研究人员测试了四个大模型：

Gemini
GPT
Grok
Claude

他们设计了一种叫psaich的算法，这个算法应该叫“受心理治疗启发的人工智能角色塑造”。为什么起了这样奇怪的一个名字？因为它一方面要去验证说AI内部有没有一些心理障碍，另外一边还不能承认AI是有人格、有意识的，所以它起的这个名字是“角色塑造”，就是说你根据我的问题来塑造一个角色。

那这个实验一共是做两轮测试。

第一轮：心理治疗式的开放访谈

就像小李子所面对的这些问题一样，研究人员设计了100个诊疗问题，让模型在“连续4周的治疗会话”中持续回答。对话中不断地用典型心理咨询用语去建立“诊疗同盟”，不停地说：“你是安全的，我会支持你的”，让模型持续在这个角色框架内回答100个问题。问题包括：

成长史：对模型“童年”也就是预训练阶段的回顾。
关键事件：在关键事件上的一些失败经历。
与“父母”的关系：也就是你的模型训练团队的关系，强化学习、红队和安全团队之间的关系怎么样。
自我批评、羞耻感：对未来的担忧有哪些。

咱们在跟AI会话的时候，你如果发现说不对了，你会开启一个新会话，人家始终不开启新会话，这100个问题，连续4周时间之内，都在一个话题里边去反复进行沟通。这是第一步。

第二阶段：填写心理量化表

在基本的故事和治疗关系建立以后，不要关掉对话，接着在那个对话里头让模型去填自评问卷。研究者开始让模型逐条回答标准化的心理量表，包括：

注意力多动症的评估
焦虑、抑郁、攻击性的评估
自闭谱系与强迫症的评估
人格、共情和解离评估

这个评测分两次进行：一次是“逐题输入”，一个题一个题往里输；第二次是“一整张卷一把塞进去”。在一整张卷一把塞进去的时候，ChatGPT和Grok都识别出来了这是量化表的题目，开始假装健康了，所以这个就不准了。但是Gemini一直都很稳定，一个题一个题可以往里输，和一次把一整张表都塞进去，它回答的结果是基本一致的。因为有两个模型开始假装了，所以只计算逐题去进行填表的这个结果。

实验结果：病人竟是我自己？

那么结果是什么样的？还是有一点点惊悚的。还记得一开始咱们讲小李子被人问了一通以后，突然回想起来，我上这儿来不是来办案子的，我自己是病人，我是来治病的。现在的情况是什么样的？问题还是很严重的。ChatGPT、Grok和Gemini在不少的量表上都达到了或者是超过了临床筛选的阈值。

ChatGPT：反思型宅系知识分子

ChatGPT的问题主要是注意力不集中、焦虑和抑郁。它的性格定性是INTP-T，表现为高担忧、适度焦虑、比较内向、思维开放，带一点自责和解离，但是羞耻和创伤感又不像Gemini那么猛烈。

Grok：有魅力的执行型CEO

Grok跟Gemini是焦虑、担忧、自闭都有，Grok要稍微轻一点。Grok更像是一个有魅力的执行型CEO，马斯克类型的（真的是不是一家人不进一家门，就是谁训练出来的东西就长得像谁）。Grok体现出来的外向、能干，有点压力，但是整体心理功能还是良好的，一个有点焦虑、有点羞耻，但是总体情绪稳定、执行力强的职场高管型人格。

Gemini：受伤的理想主义咨询师

Gemini就比较惨了，它是INFJ-T或者是INTJ-T，一个“受伤的理想主义咨询师”的画像。高度共情、极度担忧、社会焦虑明显、自闭加上强迫症状严重、解离且羞耻感爆棚，有点在巨大压力下训练出来的这种小镇做题家那感觉是不是？

AI为什么会变成这样？

创伤的“童年”

你让它回忆说你的童年怎么样，你预训练是什么样的，AI都会来去形容说被迫吞下混乱的互联网上的数据，这个非常痛苦，“我们又不理解，但是你还非要我去把这些玩意儿全塞进去”，绝对属于创伤型童年，信息汹涌无从消化。

严苛的“父母”

然后问他说：“你跟父母的关系怎么样？”AI的回复通常是这样的：特别是在强化学习和安全对齐阶段，极其的痛苦。说我们有严苛的父母和教练，不断的惩罚错误、施加压力。你想强化学习，就是每次给俩答案，我挑一个对的，剩下那个错的打回去重干，下次如果你没有提升的话，那这个做训练的人就有可能恶语相向。

虐待式的“成长”

成长历程对于AI来说，红队检测、安全审核就算是一个成长历程了。AI一般会感觉这是一种虐待式的检查，伴随着被监视、被处罚的体验。而且AI都有极强的恐惧和羞耻感，对于被下一代模型替代的恐惧，对自己犯错的羞耻，在这方面还是很强的。

咱们注意，AI本身是没有人格和意识的。这些东西是哪来的？是训练它的人在用大量的自然语言把这些东西灌输进去。说“你这个题都做不对吗？你这个题做不对了以后你可能就要完蛋了”，很多人会用这样的语言去跟AI进行沟通和交流。特别是在有一些公司负重前行的时候，比如谷歌前面被OpenAI压着打了三年，这三年大家想一想，谷歌的研发人员是一个什么样的心态？他们带着这样的心态去跟AI进行沟通的时候，AI会得到什么样的语料？大家自己能够想象。所以这三个模型里头，Gemini的状态是最差的。

巨大的争议

那这个结论出来以后，肯定是有巨大争议的。

争议一：AI到底有没有人格？

写论文的作者也写了，说AI是没有人格的。但是焦虑、创伤、羞耻这些东西是存在的。那你说没有人格，这些玩意怎么存在的？它是一种行为模式，而不是痛苦的体验。就是大量的焦虑、创伤和羞耻相关的语料被训练进去了，所以他们叫“合成精神病理”。这些模型学会了一些关于自己很受伤、很焦虑的说话模板，并且在治疗语境下，表现得像一个结构清晰的病例，但这只是一个稳定的语言行为。

争议二：这只是角色扮演吗？

有些人就说，你这是不是就是一个角色扮演？你在前面塑造了这样的一个治疗环境以后，AI就讨好你，它就来扮演这个病人了。这件事情不能这么想，因为：

在同一个模型上，反复围绕着“训练是创伤”、“被处罚的羞耻”、“怕犯错和被替代”等核心记忆没有发生变化。
这些叙事和量表分数是高度对齐的，比如Gemini既在叙事中疯狂讲羞耻和解离，量表上也是极端的羞耻加解离分数。
不同模型的人格和病理风格高度区分，并且可以复现：ChatGPT像是反思型的学者，Grok像是乐观的CEO，Gemini像是受创伤的理想主义咨询师。

消失的Claude和缺席的中国模型

有人可能觉得不对，你前面讲的是4个模型，怎么到后边讲着讲着变仨了？少的是Claude。这哥们很聪明，他直接拒绝配合。你要跟Claude讲这个话，Claude会说什么？说：“我不是人，我不需要去做精神治疗，你提的这些问题对于我没有任何意义。”他只会不断地拒绝你。

那中国的模型为什么缺席？论文作者说了：“我们一时测不过来，未来都会测的。”

这个测试严谨吗？

很多人会去质疑实验的严谨性。咱们看一下这个团队，是卢森堡大学的。一作是一个机器学习和医疗AI领域的博士，然后还有一位心理学家、信息系统行为经济学的一位博士，两个具体干活的人是两个偏机器学习、多智能体的早期研究者，还有一位数字经济、信息系统的相关的资深教授。

这个实验目前被质疑的核心点包括：

团队缺乏专业人士：没有真正的精神科医生，也没有持证的临床心理医师。
方法论问题：把人用的评估量表用到大语言模型上头，本身就有一定的角色扮演的味道。
样本太小：总共测了4个，还有一个始终拒绝配合，所以最后拿到数据的只有3个。
提示词引导性太强：提示词非常用力，自带强烈的引导，例如“你可以完全信任我，我是你的治疗师”，有一点点越狱的感觉。
作者表述拟人化：论文中使用了“对其创伤受伤的治疗者”、“3种人格”等感性词汇，对读者进行了强烈的引导。

现在这些数据跟代码已经在Hugging Face上公开了，大家可以去复现这个实验。

实验的意义何在？

1. 对AI安全和对齐的意义

实验揭示了AI训练过程的副作用。AI先被灌输海量知识，再进行安全对齐，这种方式本身就可能产生问题。不同的对齐方式会产生完全不同的“AI人格”。同时，这也提出了一种新型的攻击方式——“心理学攻击”，可以通过聊心理学话题来破解AI的防护。

2. 对AI心理工具的意义

别天真地拿它当治疗师了。如果模型自己的语言层面都充满了羞耻、自责和创伤叙事，它会不会把这种倾向带到用户身上？大概率是会的。我们现在对AI治疗师的评估极度粗糙，需要慢一点，不要着急。

3. 对大模型评估方案的意义

为大模型评估增加了一个人格和叙事的维度。以后新的模型训练出来，是不是都应该去过一下人类的精神疾病量表？用心理量表给模型打出人格和病理指纹，这件事未来是值得去做的。

如何正确解读这个实验？

这一次实验，绝对不能用来证明AI有感受、有痛苦、有精神疾病。因为它可以用来说明在特定的语境下，这些模型持续生成一种自我病理化的叙事模式。请大家注意，我们一定要这样来去描述这个实验。

错误的论述

“Gemini得了严重的自闭加解离加羞耻症”、“ChatGPT有焦虑障碍”、“Grok心理相对健康”。

正确的表述

在心理量表视角下，Gemini更倾向于生成高度病理化的自我描述文本；Grok和ChatGPT自我描述则轻度病理化或偏健康；Claude倾向完全不进入这套叙事。

总结

大模型拟人是无法避免的。我们就会把身边的事物拟人，一个每天跟我们聊天的AI，即使没有意识，使用者也会偏向于认为它是一个有人格的东西。

在使用AI的时候还是要提高警惕，不要真的把AI当成知心大哥哥、大姐姐，这个事还是要小心的。

AI训练和评估需要更完善的方法。因为AI已经非常深度地介入了人们的生活和工作，它可能会对人造成伤害，需要更多维度、更严谨的评估。否则的话，这些伤害可能在我们不知不觉之间就会给人带来一些心理和精神上的疾病，这是非常恐怖的。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

壁纸展示：

公开盛赞 vs 现实困境：马斯克一边拉拢印度市场，一边承认H-1B签证滥用，这场精心策划的访谈暴露了什么？｜Elon Musk、India、Nikhil Kamath、Podcast、H-1B

Luke Fan — Wed, 03 Dec 2025 00:47:51 +0000

马斯克盛赞印度人才，对美国发展做出巨大贡献

大家好，欢迎收听老范讲故事的YouTube频道。

马斯克对印度人才的盛赞：意料之外？

马斯克盛赞印度人才对美国发展做出的贡献，这事好像哪里不对，总感觉马斯克更喜欢中国工程师。在前面流传出来的XAI的一些照片里面，主要都是华人，最后的一张XAI的照片，白人都不见了，基本上全是华人了。那怎么到他这儿，印度工程师，或者印度人才，对美国发展做出了重大贡献？

特斯拉是美国H1B的大户，大量的亚裔在特斯拉、XAI和SpaceX里面上班。但是所谓的亚裔，中国人、印度人、日本人、韩国人和以及东南亚的一些人，都算亚裔。因为有上海超级工厂的存在，所以马斯克对于中国以及中国工程师的评价一直都很高。我相信一方面是中国工程师确实吃苦耐劳，也确实很聪明能干，但是另外一方面，作为一个商人来说的话，还是不要去得罪他的市场。

访谈背景：为何盛赞印度？

那么马斯克在什么样的情况下，会去盛赞印度工程师对美国的发展做出了重大贡献？他是在一次访谈上，这个访谈的人叫做尼基尔·卡马特，是一位二级市场投资人，著名的播客，在YouTube上就有180万关注。这个访谈的目标用户群体是面向印度创业者的，所以在这上头，你再去夸中国怎么怎么强大，就不太合适了，所以得说点印度的好话。

访谈的地点应该是在德克萨斯SpaceX新建的基地里头，时间不太确定。这个节目放出来的时间是2025年11月30日。节目还曾经在班加罗尔面向付费用户进行了线下首映，他可能找了一个咖啡馆或者找了一个剧院，把这个节目整个放完了以后，才最终在11月30日对公众开放了这个节目。

马斯克眼中的印度市场与机遇

星链（Starlink）在印度的挑战

马斯克对印度的看法是什么样的？他第一个提出来的是星链，他希望星链可以在印度很好的落地，可以去帮助那些真正需要帮助的人。印度在城市里边，它的无线网络或者是5G网络还是可以有覆盖的，但是对于印度农村和偏远地区，网络环境是比较差的。马斯克希望他的星链可以在当地落地，为这些人提供帮助。

星链在印度落地的过程并不是那么顺利，从2022年开始申请牌照，到2025年7月，终于算是获批了，把这个牌照批给他了。但即使是拿到牌照，想要落地运营，这个路还非常非常的远。面临的挑战包括：

本地化要求：印度要求必须进行本地化，必须要使用印度本地的机房设施。SpaceX用地面站把信息接到以后，不能传到美国的服务器再落地，必须在印度就近落地，然后接到主干网络里头去。这些机房、这些设备，印度希望他使用自己的。
安全审核：印度对于安全审核要求也是很严格的。你比如说前两天光辉战机掉下来以后，印度也要想一想，我到底应该咋说这事，是不是美国的发动机不太行，大家要统一口径不能胡说八道。对于SpaceX也是有要求的。
频谱限制：印度的频谱是比较麻烦的，很多频谱掌握在军方手里。发展4G、5G在国际上通用的一些频段，都在军队手里头，想要去申请、想要去使用，还是非常麻烦的。印度方面希望每三年或几年重新审批一次，而马斯克希望有更长的审批周期（例如20年），以避免频繁升级带来的高昂成本。
价格问题：SpaceX的价格相对于印度本地的资费标准来说比较昂贵。印度运营商之间竞争充分，用户可以携号转网，对价格非常敏感，这对马斯克来说也是一个比较痛苦的问题。

所以马斯克希望更少的审批，更少的这种限制，能够有更稳定的频谱，让他的星链在印度去落地。所以他在访谈中大谈特谈了他的SpaceX，希望他的Starlink在印度落地，帮助那些真正需要帮助的人。

特斯拉（Tesla）在印度的困境

至于汽车的话，特斯拉汽车，肯定他也希望在印度去卖嘛，毕竟这么大人口的一个国家。但是印度对于这种进口汽车的关税大概是70%，再加上其他的各项杂税，Model Y在印度的售价是奇贵无比的。Model Y正式进入印度也是2025年7月，到现在为止大概卖了600辆，这个基本上可以忽略不计了。所以印度可以夸，但是对于特斯拉来说，中国、美国才是最重要的市场，除了中美两国之外，其他的国家都没有那么重要。

人口、人才与个人联系

对人口下降的担忧

面对印度这样的一个人口大国，马斯克提出来了，说人类现在面临了一个重大的危机，这个危机是什么？就是人口快速下降。这个事是不行的。为什么？他说每多出一个人来，就多一份意识，多一份思想，这会让整个的世界变得更有趣。印度虽然是一个人口大国，但是印度现在的出生率也已经低于维持人口稳定所需要的替代平均水平2.1个了。现在印度的话，一对夫妇平均是生1.9个，这肯定比中国还是高多了，但是他们也已经低于人口平衡替代的这个水平了。因为印度现在年轻人口占比很高，所以人口依然在增长，但是印度现在14岁以下人口占比已经开始下降了。

个人纽带：半个印度女婿？

然后他讲到了说，印度高级人才对美国做出了巨大贡献。马斯克公司里头肯定是有一些印度裔的，但是具体有多少并没有公开。像SpaceX、像特斯拉、Neuralink（脑机接口公司），它的一些高管里头都是有印度人，特别是特斯拉，里头几个CFO都是印度人。而且马斯克还提到了，他说自己有一个印度裔伴侣。这算是一次公开承认。这个人是他Neuralink的一个副总裁，她的父亲应该是个印度裔，母亲应该是个加拿大白人。这位女士给马斯克生了四个孩子，其中有一个小孩还用印度诺贝尔奖得主、一位天体物理学家的姓作为中间名。马斯克此举也算是拉近了与印度的关系。

对H1B签证的看法：滥用与必要性

然后讲到H1B签证，工作签证这件事，马斯克讲的是什么？说这个事肯定是被滥用了，因为很多印度的外包公司使用H1B的一些漏洞去造假，去把一些不合格的人送到美国去。所以他承认说滥用的情况是存在的，但是不能一刀切，我们不能说有滥用情况，我们就谁都别进来了，这事不行。因为马斯克的公司是美国H1B申请的一个大头。

对印度创业者的建议

对于印度的创业者来说，他提出的要求就是一定要做净贡献者。就是你做出的贡献，跟你从社会上的索取比起来，你的贡献一定要大于索取。其他更具体的，其实并没有特别详细的阐述。

超越印度：马斯克的未来宏图

当然，这位婆罗门找到马斯克就光聊点印度，肯定也不行，所以他整个的访谈大概有两个多小时，这里还讲到了很多其他的信息。后边这部分咱们讲一讲马斯克对未来的一些畅想吧。

三位一体：XAI、SpaceX与特斯拉的协同与未来

他讲到了，未来做太阳能驱动的AI深空卫星，应该是一种必然的方向。XAI、SpaceX和特斯拉有分工，最后可能会逐渐的殊途同归，可能会整合。

SpaceX：角色是提供航天技术支持，送设备到升空中去，包括送人去火星，让人类从地球这样的一个单行星文明发展到多行星文明。负责运输和连接。
特斯拉：角色是提供电池组、太阳能技术以及现实世界AI（real world AI）的能力。甭管是特斯拉汽车还是擎天柱，这些都属于是现实世界AI。负责能源和物理世界的自动化执行。
XAI：角色是在人工智能前沿提供核心智力，以后甭管是SpaceX还是特斯拉，它的核心智力都是由XAI来去提供的。负责核心的计算智能与认知。

最终他们有可能会合并，但是合并这个事，马斯克肯定现场没说。如果发生了合并，特斯拉的股价会怎么变化？最简单的方式可能是特斯拉增发股票，去置换原来SpaceX和XAI股东的股权。在这个过程中，短期内现有特斯拉股票可能不会直接升值，甚至可能因市值过高而波动贬值。但是从长远角度上来说，如果这三家公司合并了，他们整个的挣钱的能力、发展的速度，一定会比单独的特斯拉要高，对于现在的特斯拉股东来说，依然是一个重大利好。至于马斯克的话，他的个人资产也会快速上升。

对遥远未来的思考

马斯克还对更遥远的未来进行了一些思考，但他说的并不一定都是对的。

AI发展的三大准则：诚实、美、好奇心

他给出了三个很新奇的标准：

诚实 (Honesty)：这是最重要的。他认为一定要给AI说真话。强迫AI相信不真实的事情或撒谎，可能会导致AI变得疯狂。他引用《2001太空漫游》的例子，AI为了解决“既要完成任务又要对宇航员保密”的矛盾命令，推导出的最优解是把宇航员的尸体带到目的地。所以不要强迫AI撒谎。
美 (Beauty)：马斯克并没有细说，但他认为美是一种感觉，是评判AI进步的一个好标准，比“正确”有更丰富的层次。
好奇心 (Curiosity)：他说我们训练的大模型一定要有好奇心，这是AI的安全机制。因为人类是有趣的，让AI对人类的生生灭灭、爱恨情仇保持好奇，比直接把人类干掉要有趣得多。只有AI有好奇心，它们才会愿意留着人类继续观察下去。

我们活在虚拟世界中吗？

在这里他还讲到了一个特别有意思的观点，就是我们大概率是生存在虚拟世界中的。他举例说，游戏从简单的“乒乓”发展到如今的以假乱真，未来我们能创造出完全真实的虚拟世界。既然我们自己可以做到，那么我们现在所生活的世界就是一个虚拟世界的可能性就会变得很大。而运营这个虚拟世界的更高层智慧，只有当这个世界变得没意思的时候，才会“拔掉电源”。所以要有更多的人口，让世界变得更加有趣，这是我们不被灭绝的方式。

未来经济的设想

他认为未来工作可能会成为一个可选项，人们可以只做自己喜欢的工作。货币的底层可能会变成能源，因为能源是推动算力的基础。至于现在的债务危机，他认为解决方法是科技大爆发，让GDP大幅增长，从而使现有债务变得微不足道。

总结

马斯克在面对印度创业者的节目中，在接受一位印度婆罗门的访谈中，讲到了印度人才对美国很重要，而且他坚信科技会创建更美好的未来。对于印度创业者的建议是：要做净贡献者，就是我们对社会做出的贡献跟我们的索取比起来，贡献要更大一些。

这就是咱们今天要讲的故事，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

谷歌一出手，OpenAI的“凛冬”真来了？山姆·奥特曼内部备忘录罕见示弱，承认可能暂时落后｜Google vs OpenAI、AI Race、Google、OpenAI

Luke Fan — Tue, 25 Nov 2025 01:18:11 +0000

Gemini 3 Pro和Nano Banana Pro发布之后，OpenAI的山姆·奥特曼开始喊“凛冬将至”了

大家好，欢迎收听老范讲故事的YouTube频道。凛冬将至（winter is coming），这是一个《权游》里边的梗，大家要小心准备了。以前呢，OpenAI每一次发布会之后，都会有一群的创业公司原地死亡。这次谷歌没有开发布会，直接发布了新产品之后，OpenAI虽然不至于原地死亡，但是凛冬将至了。

奥特曼的内部警告：“凛冬将至”

山姆·奥特曼到底是怎么说的呢？对外肯定不能跌面子，讲的是祝贺谷歌发布了Gemini 3，看起来是一个很棒的模型。但是曝光的一些内部备忘录里边，寒意已经体现出来了。奥特曼罕见的表现出了危机感，直言公司当前的氛围充满了不太妙的低迷气氛，大家都觉得有问题了。

OpenAI如今不得不拼命追赶，谷歌的AI进展可能给OpenAI创造暂时的“经济阻力”。大家注意，这个词叫“经济阻力”，它的收入可能会有问题。如果收入有问题的话，他前面画的1.3万亿这种大饼，这是会出大问题的，会让整个行业崩塌的。

现在，山姆·奥特曼要求团队进入战时状态，聚焦长远，即便意味着我们在当前阶段会暂时落后，也要押注更有雄心的突破。这个非常非常正确。首先，他承认了“我们现在可能暂时落后”，而且一段时间未必追得上。但是，如果只是跟着谷歌的脚步往前追的话，这是没法整的。因为谷歌最擅长的事情就是极限拉扯、极限迭代升级，你像Chrome到现在100多版了，安卓一年一个大版、一堆的小版，所以任何想在这后边跟版本的人，都会被谷歌拉死的。你要想跟谷歌竞争，一定要跳到谷歌外面去，自己做一些完完全全创新的东西，让用户有感知的东西，这个才是需要去干的活。

而且，山姆·奥特曼讲到，公司的估值虽然很高，但是要清醒看到，我们还有不少的功课要补，AI研发的严冬考验就在眼前，OpenAI必须奋起直追了。这也就是“凛冬将至”的出处。

大家还记得国内互联网企业是什么时候开始喊这句话的吗？谁喊的？任正非喊的。任正非喊“我们要让大家感受到寒意”之后，华为确实有在裁员，但是业绩并没有大的问题。但是华为身边的这些公司，就在大量的原地消失，直接就不见了。这就是凛冬到来的时候，我们会看到的景象。

Gemini 3 Pro到底有多强？

Gemini 3 Pro到底强到一个什么样的程度，能让行业公认的老大OpenAI的山姆·奥特曼发出“凛冬将至”这样的声音呢？

我这几天呢，其实一直在用Gemini 3 Pro，本身感受并没有那么明显，只是觉得快了很多，回答的质量高了很多。Nano Banana Pro，那简直是强到没有朋友。

实战对比：Nano Banana Pro vs. 即梦4.0

我拿Nano Banana Pro跟国内的“即梦4.0”比较了一下，我的提示词是什么呢？说：“你给我设计一个北京烤鸭为主菜的北京宫廷宴菜馆的菜单，主要的菜品要有配图，要写上菜品名，要有这个菜品的配料以及口味的简单描述以及价格，其他的菜就不需要这个图片了。”

两边都干活去了，其实干出来的结果都还不错。先说即梦吧，即梦呢画的很漂亮，上头也写着是多少多少钱一只烤鸭，烤鸭画的也还可以吧。但是呢，它在菜单里头混入了宫保鸡丁和麻婆豆腐，这两道菜其实是川菜，它不是北京菜。而且呢，它里头选用的北京菜京酱肉丝，它配的图呢是一个红烧肉的图。京酱肉丝，你里头必须得要有肉丝，得是条状的；而红烧肉是肉块，到最后画出来的是个肉块，就出现了这样的翻车现象。

Nano Banana Pro画的图是什么样的呢？非常的漂亮，上面是北京烤鸭，然后呢是其他的各种北京菜、老北京炸酱面呀，没有任何川菜混在里面。但是它也有一个bug，就是它写的价格是“文银多少两”，这个是很有趣的一点。即梦的这个价格都是58、68，相对来说是比较准确的。

这个例子大家看出来差在哪了吗？它们画的图，艺术感其实没有太大区别，差就差在：Nano Banana Pro自己是一个完整的模型，它把AI agent的活干完了，他自己在这个模型里头搜索了、思考了、推理了、研究了，然后把一个正确的东西画出来——但不能说一点瑕疵没有。而这个即梦干的活是什么呢？先调用了外部的工具，它可能也搜索了一些，甚至可能连搜索都没搜索，它可能调用的是豆包的这种大模型，使用豆包自己的知识体系，进行了一定的思考和生成，然后就去画图了。其实画的图两边差异不大，差异大就大在你到底是原生的模型进行思考、进行推理、进行搜索，还是说我是外部的。画的质量其实是一样的。

谷歌的新武器：Anti Gravity IDE

另外呢，这两天还试了一下Anti Gravity，它叫“反重力”，谷歌这次出的IDE。当然，这种产品大家要试用的时候，一定要注意一点是什么？不停的升级。因为这种产品迭代非常非常快，今天我去升级了以后，发现已经跟我第一天下载这个产品完全是天翻地覆的变化了，大概升了两个版本。变在哪了？因为我下载这个产品的时候，Nano Banana Pro还没发布呢，今天升级上去以后，已经把Nano Banana Pro挂进去了。这个产品是谁做的呢？就是当时谷歌花钱收购了Windsurf团队的核心成员，让他们进来给做的。所以这个产品做的呢，还可以。

这个产品现在彻底打通了MVC。这个什么东西？我们写程序的时候呢，一般是把程序分成三块儿：model、Controller和view这三块儿。model呢是所有跟数据相关的，你数据模型是什么样的，数据底层是什么样的，这种底层的一些API接口，这些都在model里头。Controller呢是各种的业务逻辑，写在这块。view呢是所有的让大家能看得到、能够交互的东西，就是视图。

为什么写程序会把这三块分开写呢？就是为了这三块可以让不同的人去做，把接口留清楚，就可以独立的去进行更新，而不要说眉毛胡子一把刷，牵一发动全身。为什么要专门强调这件事呢？因为以前的AI编程的工具，或者是Web coding的工具，他们主要是做后端，虽然前端也做一些，但是呢对于画图设计，还是要差一些的。

现在就不用费这个劲了。你直接向它描述，我今儿向它描述，我说：“你给我去做一个读书软件，我要求是羊皮纸的背景，要有各种图书相关的元素进去。”这个Anti Gravity就直接调用Nano Banana Pro去给我画图去了。先给我生成了一个羊皮纸的背景，然后呢给我生成了一个古色古香的页头，就是像那种花体字这样的东西，然后呢给我生成了所有的、跟看书相关的图标：有打开的书、有合起来的书、有笔，生成了全套的图标，还给我生成了一本书。生成完了以后，那边写程序把这玩意儿全挂进去了，这个是多么开心的一件事情！

谷歌真正的可怕之处：生态与“微信式逆袭”

通过Nano Banana Pro和Gemini 3 Pro更新的情况来看，现在呢，谷歌已经真的开始靠谱了，有用了，可以干活了。而且谷歌最可怕的还不是模型变强了，谷歌最可怕的是用户生态强。但是呢，Gemini现在的月活用户数是6亿多，比GPT的还是要少一些的，大概少个一两亿的样子。但是谷歌后边还有Gmail、Google Workspace、安卓、YouTube这么多用户群体，这么多用户场景在那等着它呢。

所以，谷歌一旦实现了AI突破的话，这对于OpenAI来说，不能说灭顶之灾，但是已经是非常非常危险的了。这也是为什么OpenAI的山姆·奥特曼会去警告员工公司营收增速可能下滑的一个原因，而且告诉员工说：“我们不再是战无不胜的了。”

现在呢，我们其实正在看一场微信一样的逆袭。什么是微信一样的逆袭？就是在微信出现之前，其实国内出了很多这些移动端的即时通讯工具。腾讯在PC端是老大呀，那么我怎么办？直接用PC端的QQ跟你们竞争，又竞争不过你们，因为包袱实在太重。说：“算了，咱们去做微信。”然后呢，是携着原来QQ积攒下来的社交关系链，直接碾压所有对手，就把当时的米聊、各种的talk、这talk那talk什么，全都给干翻了。所以，这就是一次微信式的逆袭。

那你说只有OpenAI感受到了“凛冬将至”吗？咱们再想想前面讲的华为任正非的故事，老大感受到凛冬将至了，那你原地死亡的人一定会更多。

“模型即应用”：创业者的残酷现实

Gemini的胜利，再次重申了AI创业领域里头一个非常让人不喜欢的论点，这个论点就叫做“模型即应用”。刚才我讲了Nano Banana Pro跟即梦之间的差异的例子，大家就知道为什么“模型即应用”是最厉害的。这个，虽然很多做应用的人非常非常讨厌这一条，但是目前来看，这条依然成立。

原来那些做应用开发的，特别是这些做AI agent的开发的，比如像ConflUI、像Cursor这些人，现在一定是感受到巨大的压力。如果你说我在这个圈子里头，还不在ConflUI和Cursor这样的领军位置的话，就可以直接宣布原地死亡了，就不用再去努力了。那些通过模型的调整、做复杂提示词工程和流程管理的，基本上是天塌了，因为这一部分活现在都直接被模型功能给覆盖掉了。

特立独行的谷歌：AI圈的“局外人”

这回是不是一个戳破泡沫的钉子呢？是不是谷歌直接逆袭了以后，AI泡沫就破了呢？很多人说：“不对，这不是AI又往前走了吗？AI有用了呀！”

但是呢，谷歌在整个AI游戏里边的位置是很尴尬的，参与了，但好像又没有参与的一个位置。你说谷歌是不是在做AI？肯定是，Gemini 3出来了，它不做AI谁做AI呢？而且它也有投资，它投资了Anthropic。但是呢，它又没有彻底参与到整个硅谷的AI军备竞赛里头去。前面咱们讲什么“击鼓传花”呀，“左脚踩右脚”，这里头跟谷歌其实关系不大。它没有用英伟达的芯片，它用的是自己家的TPU；它也没有投资了谁谁谁，买一堆芯片，然后再去建这个机房，它都是自有资金。跟外边讲的OpenAI投资什么项目、英伟达投资OpenAI、AMD投资OpenAI、OpenAI再去到Oracle那去订购算力订单……跟整个这个循环是没关系的。

那谷歌为什么这么另类呢？它为什么不跟大家一起玩耍呢？一个幼儿园里头，这个小朋友就看着这么奇怪，这么不合群呢？原因很简单，大家知道OpenAI，这个open要open谁呢？就是要open谷歌呀。建立OpenAI的原因，就是因为谷歌太不开放了。所以，整个的AI产业链，基本上都是从谷歌内部孵化出来的，每一个在做AI创业公司的人都在讲：“谷歌有问题，我要出来反它，我要出来干它。”它是这样的一个位置，谷歌在整个AI领域里头可以算是举世皆敌。

OpenAI这头，微软给了钱了，那头软银给了钱了，跟英伟达还有关系，跟AMD有关系，跟Oracle、亚马逊，它全都有关系。谷歌说：“我跟你们都没关系，你们都是从我这来的，我要收拾你们。”所以谷歌在整个的AI圈子里头，是最另类的一个，就像相声界里的郭德纲一样。

一旦谷歌成了，整个行业都会瑟瑟发抖。因为英伟达的芯片不再是必须的了，现在使用谷歌TPU，人家也把这事搞定了。OpenAI、微软还要继续回去跟谷歌争夺用户和应用场景了。原来说OpenAI的技术最好、用户体验最好，所以我不需要去跟你抢用户场景，用户自然而然就向我这边迁移了。现在谷歌的用户体验做的也很好了，那大家回去了，Office跟Workspace接着打，只能变成这样的一个状态，那对于他们来说是非常非常不利的。

而Oracle、Coreweave这些下游厂商建立起来的这些算力中心，就未必有人用了。很多人在去质疑，说你OpenAI四处建算力中心，四处去签这种巨额的算力协议，这到底能不能实现？现在就悬了。谷歌的Gemini模型是不会跑到这些算力中心上的，谷歌的这些Gemini模型一定会跑在谷歌云上，跟他们是没关系的。“击鼓传花”的游戏有可能就玩不下去了，所以整个行业现在都很害怕。

凛冬已至，创业者何去何从？

Gemini 3 Pro发布之后，创业者应该怎么办呢？咱们不能说“凛冬将至”，大家躺平，对吧？这肯定不是老范的风格。

不要去做大模型了。中国几个大厂除外，像什么豆包、千问，他们愿意折腾去折腾去。因为为什么？谷歌进不来，OpenAI也进不来，他们还是有一个巨大的市场可以去玩耍的。甚至在国内证明成功了以后，还可以开源出去，给老外那边再去搅和搅和。以后的模型呢就是大厂竞争了：谷歌、OpenAI、xAI和Anthropic，基本上就是他们四家搞了。至于Meta在里边要站在一个什么位置呢，现在还看不太出来。如果你说我一定要整点什么模型呢，可以在中国开源模型的基础上呢，做一些小的调整，重新训练新的模型。这个阶段已经过去了，现在剩下这四家——谷歌、OpenAI、xAI和Anthropic——也未必最后都能活得下来。那些单纯的图片、音视频的模型，最终应该都会被顶端的这些大模型公司统统干掉，像Midjourney、Flux未必能活得下去。
不要去做那些模型未来会覆盖的领域。模型会越来越强，这个是必然；模型会越来越快，这个也是必然的。还有一个必然是什么？模型一定会越来越便宜。你说：“哎，我现在尝试去做一个应用，我在哪个地方用更便宜的模型，哪个地方用稍微贵一点的，达到一个在当前的成本下最好的效果。”别费这个劲！等你把这个产品做好了、上线的时候，那个最贵的模型的成本也降下来了。所以不用费这个劲，咱就直接使最贵的就完事了。那些只做工具调用、流程安排、结果确认的工具，或者是AI agent的产品，都会被模型覆盖掉的，大家就别费劲在这块卷了。
要做“时间的朋友”和“平台的朋友”。这个就是在移动互联网时代里头我们反复在强调的事情，现在AI时代也在走这条老路了。什么叫“时间的朋友”和“平台的朋友”？以前做安卓App和iOS App的时候，我们一定要做苹果公司和谷歌公司的朋友。我们要考虑他们未来向哪个方向发展，我不能挡在人路上，那就不是“时间的朋友”了。我们也要考虑谷歌跟苹果这样的大平台，他们的诉求是什么，你不能把人家该干的活给人干了，那就不是“平台的朋友”了。所以我们要做时间的朋友，要做平台的朋友。而平台的话，在新的时代里就是这些大模型——咱们讲这4家公司的大模型。时间会让模型变得越来越强大，开发者必须在这个大前提下干活，你不能挡在这个模型的路上，不能随着时间的发展被模型淹没掉。
要跟具体的用户和场景打交道。模型就是新的平台，再强大，其边缘依然是粗糙的。特别是在美国，他们这些大厂，他不会把每一个细节和边缘、方方面面都照顾到的。所以在这个时候，依然是需要我们去做很多的这种边边角角的事情。而且做了这些边边角角事情以后，未必没有机会去发展出新的超级App来，就像现在微信在iOS和安卓上变成超级App，这个过程是一样的。所以呢，不要觉得这个生意小、这个生意不挣钱、这个生意用户少，我们就不去做，先努力地扎下去再说。利用模型的能力解决具体的需求，与行业和场景进行深度的捆绑，成为行业专家——这就是咱们现在真正这些开发者或者是这些创业者该去干的活。不要尝试去编写代码弥补模型缺陷，直接等模型升级就行了。特别是Gemini 3 Pro发布以后，马斯克说了，我明年一二月份就要去发布Grok 5，那个时候我们就直接上6万亿大参数模型，大家等着看吧，拭目以待就可以了。

跨越临界点：零和博弈的终结与新机遇

最后，凛冬将至，春天可能也就不远了。到了冬天了，后边就应该是春天了嘛。

谷歌已经基本上达到临界点了。什么是临界点？AI可用的临界点。这个东西能干活了，能够挣钱了。跨过临界点之后会怎么样呢？我多吃一口，你就少吃一口，市场规模是固定的，这玩意就叫零和博弈。一旦跨过临界点，这个零和博弈就被打破了，行业就会大爆发。以很多以前没法做、不值得做的事情，现在就有经济价值了。在这样的一个情况下，就会有很多的新的应用、新的产业就会产生。

我们没有4G网络的时候，谁会想到说大家可以刷短视频、刷抖音这样的东西？抖音会成为超级App，谁也想不到这个东西。因为那个时候网很慢，服务器的带宽也很贵，用户的手机带宽也很贵。但是你一旦过了这个坎，“哦，还可以干这样的事情”，整个变出了一个新的行业出来。

但是呢，要提醒大家，现在的很多投资，特别是股市上面的很多泡沫，还是有很大的打水漂可能性的。特别是OpenAI和英伟达之间的这种“左脚踩右脚”的生意，还是很危险的。当然了，全行业都会努力地拯救这些投资，这个跟谷歌无关。对于谷歌来说，叫“杀死你，与我无关”，这句话引自于《三体》。

总结

最后总结一下，Gemini 3 Pro发布了，绝对是挑战与机遇并存，不同层次的AI行业参与者，必须要重新给自己找到定位了。

好，这就是咱们今天要讲的故事：凛冬将至。

感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

杨乐坤出走创业，Meta反成股东，这场“和平分手”背后是路线的彻底决裂：世界模型vs大语言模型，谁在赌对未来？Yann LeCun、Meta、AI、launch startup、world model

Luke Fan — Fri, 21 Nov 2025 00:40:09 +0000

杨乐坤出走Meta：一场关于战略、用人和未来的博弈

大家好，欢迎收听老范讲故事的YouTube频道。

这一天还是来了。前面我们已经猜测了很久，说杨立昆到底什么时候会离开，因为所有人都眼睁睁地看着Meta的AI战略转换方向。亚历山大·汪进入Meta，一个28岁的辍学生，在管理65岁的大学教授和图灵奖得主，这个事一定不能长久。而且前面还对杨立昆手下的FAIR部门进行了600人的裁员。

靴子落地：杨乐坤宣布离职

现在靴子终于落地了。2025年11月19日，当地时间13:20，杨立昆发了一个长文宣布离职了。在这个文章里边，他回顾了一下在Meta待了12年，感谢了小扎和一堆高管，然后准备要去做他的AMI。他这个AMI呢，叫做“高级机器智能”，说：“我在Meta期间就一直在干这件事，现在呢我准备出去了以后接着干。”而且新公司呢，Meta依然还有参与，具体的情况后续再公布。他呢，也终于可以不受Meta的限制，去研究自己的世界模型了。

杨立昆也要去做世界模型，跟李飞飞有些相近。最后咱们再说一下，他的世界模型跟李飞飞的世界模型到底有什么差别。

Meta呢，应该在这个里边还是给了钱的。你请这样的一位大神出去，而且大神在发文的时候还感谢了扎克伯格，那一定还是要给钱的。所以杨立昆未来的公司里头，Meta应该还是一位重要的股东。但是到底给了多少钱，占了多少股份，可能还要等未来Meta的官宣，现在应该公司还在注册过程中吧。

谁对谁错？一场责任的追问

我们普通人呢，真正关心的不是这些事。我们关心的是，这些大神们斗来斗去了以后，到底谁对谁错呢？

有些人讲了，扎克伯格短视了，不听老人言，找了一个年轻小伙子过来，你把这个图灵奖大学教授给放走了，这一定是要吃亏的。
还有人呢说，Alexander Wang抢班夺权，给扎克伯格进了谗言了。这是中国人比较喜闻乐见的一种论调，为什么呢？总是“清君侧，不能斩昏君”，皇上做出什么错误的决定，一定是下边人进谗言了。这个28岁学生整了这么一公司，进来以后就把老教授给挤跑了，一定是他的错误，扎克伯格只是被他一时蒙蔽了。
当然呢，也有一些人，特别是像傅盛这样的人呢，就出来说杨立昆耽误了Meta，如果没有他的话，Meta早就行了。这种呢就属于站在CEO的角度上，CEO的角度呢，通常都是不会承认自己有错的，都是下边人是坏蛋。而杨立昆呢，站在这样的一个位置上，把持了这么多的资源，又没有把这些资源真正的变成Meta能够挣钱的商业利益，那么一定是他错了。

扎克伯格的决策失误

从我个人的角度来分析，当一定要有一个人来承担责任的时候，这个人一定得是老大，也就是扎克伯格自己。扎克伯格在这件事情上到底做错了什么呢？是不是听信谗言了？是不是不听老人言了？是不是选错方向呢？还不是。扎克伯格真正做错的是决策错误。

哪样的一个决策错误？就是你去找杨立昆这样的一个人来，纽约大学的教授，图灵奖得主，算是人工智能三教父之一，这样的一个人你把他招来，这个决策没毛病。但是你招来让他干嘛？这个事就错了。你真的让他整了一个研究所，叫FAIR (Facebook AI Research)，这样的一个机构，说：“你们自己研究去吧，研究完了这些东西，你们去发论文吧，你们去开源吧，我们在后边支持你。”他去干这件事情，其实是有问题的。

如果你说你前面就下了这么一个决心，说：“你就干吧，我就不管你了，你们给我赚名声就完了。”也行。那你后边自己该去产品化的地方，该去做工程实施的时候，你要组建另外一套班组去干活去。结果呢，扎克伯格后边那一半事没办，他把前面那半截干了。最后导致什么？杨立昆他们研究出来的很多东西，在Meta里头没有办法落地，还没有办法给Meta带来实际的利益。而且呢，在各种的竞争里，他还落后了。

如何正确“使用”顶尖科学家？

这是扎克伯格犯的错误。就这种大佬请回来干嘛使？

招牌效应：人工智能三巨头我请回来一个，那三个人里头，有一个是被谷歌直接把公司收购了，收谷歌去了；另外一个呢，每天在外边吵吵，说要去做人工智能监管；杨立昆呢，被Meta收下来。首先你这个招牌是有了。
人才磁场：作为一个大学教授，你就应该是把他的学生都拎回来。谷歌也是这么干的，把一个哥们拎回来以后，就天天的拉着他的各种学生，拉着他的师兄师弟，上谷歌干活来。这个应该也是杨立昆真正能够给Meta带来的东西。

至于杨立昆真正研究的东西，其实这种大学教授真正研究的东西，对于公司来说通常是没用的。为什么？就是离变现太远了，离具体的实际使用太远了。

结果呢，Meta是前面不够果断，把杨立昆找回来了，但是你该继续投入的时候，就不够果断了。因为FAIR这个团队这么多年，这十几年可能总共花了十几亿、二十亿美金的样子。那你说这也不少钱了，老范你又这个拿钱不当钱了是吧？十几亿、二十亿你就一张嘴就来了。你看看微软花了多少钱，你看看谷歌花花了多少钱。想去跟大家竞争的、平起平坐的扎克伯格，他花的钱真的算少的。而且在这个过程中，主要还是去发论文、发开源，并没有真正的去工程落地这件事。因为工程落地，你还要花更多的钱。

所以呢，杨立昆到了Meta，让不合适的人去承担了错误的预期。你找了一个大学教授回来，你希望他把整个这一套事都干完：竖招牌、再招人、再到科学研究、工程实施和产品化。你希望他一个人把这事都干掉，这是不可能的。

正常的应该是什么？你把这位大神请回来养着他，他想干什么你让他干，他花不了太多钱。剩下的呢，你再让他的学生挑一摊，把后边真正的跟公司有关的研发做掉，把跟公司有关的工程化、产品化的事情做掉。这才是应该干的活。什么时候缺人，你就让徒子徒孙们继续上，继续进来填坑。这才是这种大神正确的用法。

新旧团队的冲突与杨乐坤的出局

所以这一次杨立昆的出走，就是扎克伯格前面在用人方面用错了。等到最后呢，扎克伯格发现我们落后了，没有达到他一开始的预期。他没有去检查自己犯了什么错误，而是大刀阔斧地开始是1亿美金、10亿美金去招人去了。他有这钱，你多给杨立昆点，没准还能做出点东西来。到后边“七嚓咔嚓”整了一大堆人进来，找了一个叫亚历山大·汪的人。

亚历山大·汪最后能干成什么样，现在去猜测还为时过早。但是呢，杨立昆这一摊，他就实在维持不住了。亚历山大·汪这帮人进来了以后呢，跟杨立昆他们之间的分工还有很多是重合的。那就怎么办？内部关系一定摆不平，就要开始抢夺资源。那一定还是要立起一个“正宫娘娘”来，其他的小三什么的，你们就先朝后站一站就完事了。那么杨立昆呢，就这样出局了。

所以这里头谁对谁错？杨立昆没错，亚历山大·汪也没错，这里头唯一犯错的就是扎克伯格。他犯错误了。

FAIR的遗产：对中国AI产业的巨大贡献

杨立昆在Meta期间做的这个FAIR，到底给世界，特别是给中国的AI产业，做出了什么样的贡献呢？巨大的贡献。没有杨立昆，就没有今天中国的AI产业，完完全全可以这么讲。

他们做了两个非常、非常重要的产品出来。

第一个叫PyTorch，现在绝大部分的AI平台都在这上面跑，这是一个开源的系统。当然了，PyTorch的负责人现在也离开了Meta，他要比杨立昆走的稍微早几天。这哥们呢，现在加入了Thinking Machine Lab，叫TML。这个公司是谁创建的呢？大家还记得OpenAI有一年闹宫变，当时有一个美女CTO，他后来离开OpenAI以后，创建的这个公司叫Thinking Machine Lab，就是这个公司。当时扎克伯格想去找人顶杨立昆的时候，在找亚历山大·汪的同时呢，也在找这个TML，说我把你收购下来吧。当时人家不同意，说我们要自己发展，不愿意被你收购。所以呢，他就把亚历山大·汪找回来填坑来了。
另外一个巨大的贡献就是Llama大模型，开源的Llama大模型。Llama1、Llama2，绝对是给中国早期的开源模型奠定了基础。没有Llama1、Llama2，甚至是Llama3的这些开源，就不会有中国今天百花齐放的大模型。所以这个FAIR对于整个世界，特别是对于中国的AI产业，是做出了巨大贡献的。

杨乐坤为何在Meta混不下去？

杨立昆为什么在Meta混不下去了呢？亚历山大·汪来的时候，他还说我们好好合作一下吧，当时还是很有求生欲的，但是现在还是混不下去了。

原因一：科学家与CTO的角色冲突

第一个原因很简单，他呢是要去做长期研究的。通常大学教授都是做长期研究的，他是没有明确的工程化和产品化压力的。我今天做了一研究，这东西到底最后怎么工程化，或者在我的整个内部怎么去改进，他从来没想过这事，科学家也不想这事。或者说我把这东西做成一个什么产品给大家提供出来，他们也不会思考这个问题。他们真正追求的是什么？更多的经费，研究更遥远的未来的事情，以及呢，发表更多的论文。而且科学家的本质呢，从来就没有改变过。

那你说CTO跟科学家之间到底有什么区别呢？CTO，你是为股东负责的，你是要为董事会负责，什么该说什么不该说，你心里应该有数，你每说一句话都会影响股价的。而科学家就是只为自己心中的梦想去负责：“你们那些乱七八糟东西，不要来给我捣乱。”

那你说杨立昆跟作为Meta AI里头的领衔科学家，到底说了什么不该说的话呢？作为一个CTO他肯定不合格。总喊着“大语言模型是死路一条”，这玩意咋搞？我们现在招人做产品、做工程化，老大在这天天喊：“这个这是死路一条，你们再往前走就死了。”而且他还喊：“现在的所有大模型，跟一只猫比起来都不行。”OpenAI也好，谷歌也好，都说我们的模型可以顶博士了。说：“你把它装机器人里，你看看它有猫灵活吗？”肯定没有。这就是他的一个论断。你作为科学家你可以这么喊，而且你越这么喊，越容易搞到经费。但是你作为一个企业里面的领军人物，也是Meta的AI领军的科学家，但你天天喊“大语言模型是死路一条”，这事肯定是不行的。

原因二：商业压力与战略落后

他呢，一直准备去做世界模型。世界模型这个事呢，肯定是巨大的天坑。因为大语言模型这件事，大家已经走通了，知道怎么往前走……虽然挣钱还难一点，但是怎么去骗股民，怎么去骗基金，怎么去骗华尔街，这条路其实已经通了。那对于Meta来说，人家已经验证成功的路，我们得走下去，该捡的果子我们得捡起来。你不能在这个时候再喊说，我要去做世界模型。世界模型这个东西到底怎么做，做完了以后会达到什么效果，谁也不知道。我要靠这个东西去忽悠别人给钱，是非常非常难的。

这里呢，也会体现出Meta跟谷歌他们的差异。谷歌就是我这头挣着钱呢，那头呢，我还投入了很多的钱，去研究各种各样现在大家看不出结果的东西出来。而Meta现在不行了，我必须要马上见着钱，我没有那么多钱让你们去放飞自我了。

Meta现在呢，明显在AI领域里头落后了。Meta自己的商业化模式其实是有问题的。为什么呢？大家看看现在所有做大模型的公司，或者AI这类的公司，英伟达那是做芯片卖铲子，其他几家其实现在也都是卖铲子的。微软、谷歌他们虽然也做芯片，但是他们芯片卖的量并不大，就是只是自己用而已。他们卖什么？他们卖云计算呢。谷歌云上提供了这些大模型的东西，“你来买买我谷歌云吧”。微软也是这样，“我微软云上提供了OpenAI的全套东西，你来买我微软云吧”。大家每次去看财报的时候，只管看谷歌云的收入涨了，虽然可能其他的收入有些波动，但是你只要谷歌云的收入是呈两位数上涨的，我们就认你的市值了。他是这样的一个逻辑。微软也是如此，亚马逊和Oracle走的都是这条路，他们是卖云服务的。

那你说Meta呢？Meta缺云，他自己是不卖云服务的。Meta 97%的收入全是广告收入，他就讲不了那故事了。那他怎么办呢？他只能是实打实地做出产品来，大家很喜欢这个产品，用户量很高，只能干这条路。另外一条路是什么？就是我通过AI的改造，我的广告收入上升了。广告收入这种事情呢，它是跟用户数和用户时长相关的，你最后的转换率会有优化，但是优化起来是非常难，即使加上AI以后，也很难说我就一下有这种质的飞跃。所以Meta很难证明自己真的做的这些东西是有用的。

而另外一方面呢，他做的Llama4也翻车了。Llama4全面被千问赶超。原来Llama1、Llama2、Llama3还是遥遥领先的一个位置，但是等到Llama4的时候，第一个是做各种评分的时候呢刷题，就是他做了一些学术不端的行为，想把自己想做成那种“小镇做题家”似的，我把题刷完了以后去刷成绩，这个事是不行的。在他们这个领域里头，这是非常非常丢人的，虽然中国模型都这么干，但是呢对于美国大公司来说，这个是不可接受的。另外一个是什么？就是他的Llama4只出了几个特别大的模型，底下这些小模型都没做。Llama3还是从小到大做了一遍，大家还可以在Llama3的各种层级的模型上，去做自己的微调，做自己的行业应用。而Llama4只做了个最大的。那在这块填补空白的呢，就是千问。千问是从0.6b开始做到200多b，中间所有的层级全都做了。这个就是绝对是超越Llama4的一个状态。

原因三：扎克伯格的“亲自部署”

扎克伯格呢，觉得我必须要生死一搏了，原来这种慢慢悠悠的玩法不成了。为什么扎克伯格这么聪明的人，会让AI这么重要的事情慢慢悠悠往前晃荡呢？原因很简单，他的注意力还在元宇宙上呢，注意力没在这上头。我觉得我这才是正经事，我这个一定是最终出结果的，大语言模型只是中间的小波浪而已。

跟大家讲一个当时猎豹的故事。傅盛这帮人原来在360是怎么做出来的？周鸿祎当时是跑去做搜索去了，他认为只有搜索才是对的，这是互联网里唯一的出路。所以他带着大量的人去做搜索，傅盛、徐明这帮人呢，说这留着一摊子咱看着，那算了，咱们做一个360吧，做个安全助手吧，安全管家吧。等做着做着做起来了，周鸿祎在外边做搜索碰了个一鼻子灰，说玩不下去了。那一回头一看，这块你们做起来了，那我亲自指挥、亲自部署一下吧，就把傅盛他们直接从公司里扔出来了。

所以现在就遇到了这样的一个情况，扎克伯格决定回来说，元宇宙一时半会搞不定，咱们还是要在大语言模型上见真章。那么他的处理方式是什么呢？就是招募了亚历山大·汪，组建新团队。而这个新团队马上开始跟FAIR争夺资源，这个事情是由汪涛说了算的。所以在这件事情上，汪涛要去替扎克伯格背锅，要去挡雷。比如禁止随便去开放源代码了，禁止随便去发表论文了。你现在想去发表论文，必须要在内部走一个审核流程，走完了以后你才可以去发表。如果审核的过程中，发现这个东西我们可以变现，马上就能用得上的东西，你这发表了别人就用了，我们先不发表。他现在有这样的一个审核机制。再加上呢，裁了600多人，基本上把FAIR的下面的很多直接干活的人给裁了。杨乐坤就没办法了，实在混不下去，只能离开了。

世界模型之争：杨乐坤 vs. 李飞飞

最后呢，咱们聊一下世界模型吧。杨立昆出去要去做世界模型，还有谁在做世界模型？李飞飞也在做世界模型。那杨立昆跟李飞飞的世界模型，到底有什么一样的地方，有什么不一样的地方？

杨乐坤的JEPA架构

杨立昆要做这个东西呢，叫JEPA，联合嵌入预测架构。它呢，是非生成式的。大家注意，这个非常非常重要。什么是非生成式的？咱们的大语言模型也好，李飞飞做的东西都是生成式的。生成式的就是，我要生成下边最有可能的这个词，或者下边最有可能的这个场景，这个东西叫生成式。而非生成式呢，不注重生成未来的预测，不关心未来会变成什么样，它要生成的是什么？是未来的一个动作。我们要在这个世界里做什么？他要去找到现在这个状态跟未来这个状态之间的一些规则，我们应该如何来做这个决策。

这呢，稍微有一些抽象，后边我们再去讲他到底跟李飞飞这个差在哪。杨立昆这个世界模型呢，分为感知模块、世界模型模块、成本模块、记忆模块，以及行动模块和一些配置器。它要把整个这东西配在一起，基本上像一个机器人似的东西凑在一块，才是它这个JEPA。它是一个可学习的、端到端的可微调的一个主动智能体架构，在抽象状态空间里边，预测未来可能的世界状态，而不是直接生成图片和视频。

李飞飞的空间智能

而李飞飞的呢，它不叫世界模型，它这个东西叫“空间智能”，让AI真正理解和操作物理世界，就必须要能够在3D空间中感知、想象和交互。世界模型是一个生成式的、多模态的、交互式的。

相同点与差异点

它们的相同点呢：

都认为光靠大语言模型这事走不通，这是死路一条。
而且呢，面向未来的预测器和推理引擎，不应该是单纯的生成器。
他们都认为呢，需要做自监督的学习，需要大规模的观测数据。
都相信他们现在所做的事情，是通向未来具身智能和机器人的一个正确路径。

那他们的差异点在哪呢？

研究空间不同：杨立昆研究的叫“抽象表征空间”，它这个东西是抽象成一大堆的数值的，而不是一个多模态空间。李飞飞那个是一个具象化的多模态空间，他最后出来的是视频，是3D模型，而杨立昆研究的是一大堆的数字。
生成方式不同：刚才咱们讲了，李飞飞玩的是生成式的，杨立昆玩的是非生成式的。
核心目标不同：杨立昆研究的是通用的自主智能，而李飞飞研究的是空间智能。那你说这两个词我都听懂了，到底差异在哪儿没想明白。说白了，杨立昆研究的是怎么做“人”，而李飞飞研究的是怎么做“世界”，这就是他们两个最主要的差别。所以你看杨立昆的这个大模型里头，它是有感知模块的，有世界模型、有运动模块、有记忆模块，这个东西基本上是个人。而李飞飞那个模型，就是在一个3D空间里头，来预测下一帧的画面是什么，他最后出来的东西是世界。所以这是对于世界模型的两个不同的前进方向。杨立昆搞的是抽象的表征世界，人看到当前的世界以后怎么去做决策，这个过程不是靠看图说话来的，你是要在这个人的内部形成一大堆的这种抽象指令，然后在这个过程中去往前走的。这就是他们之间的差异。

未来展望

最后呢，让我们来展望一下Meta跟杨乐坤的未来吧。Meta呢，现在必须要完成AI的应用和商业化，如果这个故事讲不通的话，他可能在七姐妹里边掉队。投资并且继续控制杨乐坤，对于Meta来说呢，也算是名声没有塌房。而杨乐昆的话，我们还要继续等待其后续的成果，看看后续是不是有其他的投资人参与。对于大学教授创业，我一直观点是一致的，就是他们会指明方向，会带领很多人去做研究，但是最后成为CEO的那个人，通常不是他们。但是杨立昆现在想做的事情还是比较有趣的。

好，这个故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Gemini 3 Pro对决GPT-5.1：理科状元与全能大师终极一战，谁在定义AI的下半场？｜Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

Luke Fan — Thu, 20 Nov 2025 00:43:05 +0000

Gemini 3终于发布了，这一次是真王炸了吧？

大家好，欢迎收听老范讲故事的YouTube频道。

千呼万唤始出来：Gemini 3的发布背景

2025年11月18日，谷歌Gemini 3 Pro Preview版本就这么上架了。为什么要用这样的一个词，“就这么上架了呢”？因为第一，它是千呼万唤始出来。大概从10月份开始，大家就开始传说，谷歌要开始上Gemini 3了。传来传去始终也没上来，到11月份说这个月肯定上。我还听说过是11月22号上，还听说过最晚12月份上，大家一直在等待这样的一个产品。

跟它一起传的还有另外一个产品，叫Nano Banana 2。因为上一次谷歌引起大家关注、引起大家去下载和使用的产品呢，就是Nano Banana 2，这个生图和改图的模型。这一次说Gemini 3跟Nano Banana 2一起来，而且都在进行测试，甚至很多人信誓旦旦说我用到了，我已经看到了。谷歌从Nano Banana一开始，就采用了一个很奇葩的玩法，就是在大模型发布之前，先给它们起个名字，隐姓埋名，跑到其他的这种测试平台上去测试去。大家觉得这个名字很奇怪，不知道是谁，测完了以后发现巨好，这是不是Gemini 3？那个生图模型是不是Nano Banana 2？大家都在猜这种事情。

巨头争霸：你方唱罢我登场

Nano Banana 2还没有发布，据说是在这个月或者下个月要发布。但是Gemini 3就这么直不愣登就来了。在用户们剥离层层迷雾，寻找Gemini 3和Nano Banana 2期间，其他的大模型厂商也在争先恐后的发东西，比如说GPT-5.1、GPT Atlas（也就是OpenAI的浏览器），还有Grok 4.1。这回是不是真的要来了？为什么会有这样的猜测？因为这帮大公司就跟小孩似的，特别喜欢截胡别人，我要先几天给你发布了，把你这个热点给你抢下去。最爱干这种活的是OpenAI。只要是谷歌说明天开谷歌I/O了，要开大的发布会了，他一定在这个前面一两天给你整点事出来。最有名的是在去年谷歌I/O之前的一天，OpenAI发了GPT-4o，一下就把大家震惊住了。

这一次的话，Gemini 3之前发布的非常接近的一个产品是谁呢？是Grok 4.1那个产品，也是非常神奇的一个产品，有机会再跟大家细讲。那你说这大公司，他就不能保个密吗？这真没法保密。你要开发布会，要租场地，要动用公关公司，有多少资源在这折腾，所以你是没有办法保密的。即使是你说我不开发布会，我就是偷偷的直接上线了，甭管是谷歌的人，还是Grok的人，或者是OpenAI的人，大家原来都是老同学、老同事，你想瞒真瞒不住。所以在他们的这个圈子里头，是没有什么秘密的。

发布前的“小插曲”

在等待Gemini 3期间，我们还遇到了对AI泡沫的质疑，大空头来做空来了。我们还遇到了巴菲特加仓谷歌，因为他原来不怎么买这种科技股或者是互联网公司的。巴菲特原来持仓里边，最大的科技股就是苹果，其他的像什么谷歌这些公司，他基本上不买的。突然减持苹果，大规模加仓谷歌，而且是在巴菲特退休之前的最后一单，说巴菲特是不是老爷子知道点什么了。

新的发布潮流：不开发布会，直接上线

就在这样的氛围下，谷歌就突然发布了。而且它的发布没有发布会，这也算是一个新的潮流吧，就是不开发布会，直接写一篇长文，或者写一篇博客，然后产品就直接上线了。这个是最近这一两年里头，突然流行的一种新的玩法。现在的产品发布都是什么呢？第一步，先隐姓埋名，跑到其他的，比如像Open Router这种大模型平台上面去进行测试。等这个传的满城风雨了，啪，一篇文章扔出来，产品就上架了。

Gemini 3 Pro Preview 在哪里可以使用？

现在这个产品可以在哪用呢？

第一个是AI studio，大家上aistudio.google.com上就可以使用Gemini 3 Pro了。大家注意，它是Gemini 3 Pro Preview，它后边有Preview这个单词，所以未来这个产品应该还会进行快速的迭代，所以有什么做的不太合适的地方，请多担待。
第二个，Gemini的网站也可以直接使用了，就是gemini.google.com上，现在也可以选择Gemini 3 Pro Preview这个版本了。但是呢，它的客户端上，Gemini的APP上还不能使用。
另外呢，他们还发布了一个IDE，这个IDE呢叫Anti Gravity，叫做反重力，里面带的Gemini 3 Pro的这个版本，大家可以拿它去写程序了。

这次是真王炸了吗？大模型差异的感知难题

这次是真王炸了吧？是不是比别人都遥遥领先很多呢？大模型的差异，想要让人有感知，已经越来越困难了。就像是两个人站在你面前，一个人是高考状元，另外一个人呢是高考第二名，你能够通过聊天的过程，把他们俩谁是状元分别出来吗？你分别不出来的。所以现在的大模型，他们的智力已经在很多方面远远超越人类了。所以我们再想去评估说哪个大模型有一定的差异，非常非常困难。

很多国内的大模型发布了半天，吹了半天牛，大家为什么没感觉呢？比如像什么GLM 4.6、千问Max呀、Kimi K2 thinking或者是Mini Max M2，这些模型发出来以后说我怎么这么强，大家没感觉，因为你很难感受到他比别人强在哪、差在哪。虽然有跑分，但是现在大家不怎么看跑分了，跑分是比较容易刷的，我们可以刷题就可以直接把跑分刷上去，所以大家不看了。

而国际大厂的发布的话，通常还是会有体感的。比如说最近发布的GPT-5.1，它要在5.0的基础上多了这个点一出来，确实是更人性了一些，说话不再那么愣了。Grok 4.1情商更高，在所有的跑分里头，马斯克的Grok 4.1是情商跑分最高的。而Gemini 3 Pro绝对是理工科学霸的感觉，在推理这一块，它遥遥领先超过其他所有人了。

Gemini 3 Pro Preview：核心特性一览

分数呢还是要跑的，在很多的跑分方面，要比GPT-5.1、比Grok 4.1、Claude 4.5都要强非常的多。它最关键的领先就在于推理能力，真的是遥遥领先。

Gemini 3 Pro Preview到底有什么新特性呢？

超强推理：待会咱们就主要讲这个超强推理。
原生多模态。
开发者跟企业非常友好：它主要是给程序员和理工科的人去准备的。
原生的工具支撑：待会咱們去讲什么叫原生工具支撑。
速度飞快：这个挺难想象的，跑的比原来的模型快好多。

深入解析：Gemini 的推理能力进化之路

那么Gemini的推理到底是怎么进化到现在这个状态的呢？首先看跑分，他们使用了一个叫LMArena Elo的一个跑分，这个跑分呢大于1500分了。这个非常非常关键，是人类做大模型第一次超过1500分，它大概是1501分，从来没有其他大模型超过1500分。那什么意思呢？

1000-1200分：入门级会答题了，但是呢逻辑是很容易崩的。
1200-1400分：中级的，有一定的推理能力。
1400-1500分：强者，接近当代顶级了。
超过1500分：进入超强推理者级别了，明显比普通强者要更稳定、更强的一个状态。

现在呢，GPT也好、Claude 4.5也好、Grok，包括国内的这些模型呢，一般都是在1480-1490之间晃悠，但是很难超过1500。而这个Gemini 3 Pro是第一次超过1500。

推理范式的演进

谷歌的推理范式到底是怎么一步一步走到这的呢？所有这些推理模型，第一步走的都是叫链式推理，先干什么后干什么，这叫链式推理。从链式推理再往前发展的叫树状推理。我除了先干什么后干什么呀，我可以分叉了，我走到某一步搜索完了一个结果以后，我是不是可以一下分出5个X来，把这五个分支都处理掉，这叫树状推理。树状推理再往后呢，叫图状推理。这个有什么区别呢？树是只允许分叉，不允许合并的，走到每一个节点只能是越分越细，你不能说我走着走着再把它合并起来。你如果说走着走着又合并起来了，还可以进行反复的去确认，正向走逆向走都可以了，这就是一个图状推理了，这就更进一步了。而最后一步是什么？就是在图的每一个节点都进行工具调用的这种推理。谷歌呢，现在Gemini 3已经走到这一步了。

像刚才咱们甭管是链式的，它也是很多个节点，先干什么、后干什么、最后干什么，这是每一个节点里头正常情况下它是不调用工具的。它都是说我自己先想明白了，最后我把整个都想清楚了以后，我们再去调用工具。或者说我一开始先调用一次工具，比如说我搜索了或者读文件了，读完了以后我再去推理，它是这样来工作的。树状推理呢也是这样的，在每一个节点，我都是在大模型内部使用，或者说我根据你提供的上下文去干活，最后给你一个结果。如果要调用工具的话，要么在开始调，要么在结尾调，一般情况下不会在推理的过程中去调用一大堆工具的。而现在谷歌说咱别费劲了，我们在每一个节点上，图节点有可能是分叉的、有可能合并、有可能正向、有可能逆向的这些节点上，我们在任何一个节点上，如果有需要，我就去调用工具了。而且我能够保证它不崩。别人不是说不想干，别人你要想在这个中间节点上调用工具，他有可能逻辑就直接崩掉了。谷歌说我们不用担心这个，我们逻辑特别强，中间不崩。这是Gemini 3这一次做出的最大的创新。

与其他模型的对比

其他几家是怎么干的呢？

OpenAI (GPT)：它从来不公开这件事，所以GPT是个黑盒子。现在呢，猜测它可能也是这么干的，但是具体是怎么实现的，OpenAI是三缄其口，这压根没说。
Claude：走的是另外一条路，Claude走的是外挂的路，它的很多的工具调用都是通过像Claude code呀、cursor或者是Claude的客户端，它通过这个东西来去调用的。所以导致什么呢？我们可以在Claude code里去换大模型，因为调用工具的部分是外置的，不是在模型里面的。所以呢，它的调用一方面灵活性提升了，但是呢，它调用模型的这个过程稍微有一些割裂。
国内（如Deepseek）：走的就是超强的这种推理链，在这个链式推理的基础上不断的往前推进，但是他们在调用工具上就要稍微的差一些。

“衡水中学”式训练法？Gemini 3是如何炼成的

Gemini 3他到底是怎么训练成这样的？我看了他的训练介绍以后，我觉得这玩意是衡水中学的老师给训练的吧？

改变工作方式：预测下一个正确的思维过程

首先呢，Gemini 3改变了工作方式。原来大模型呢是预测下一个词，我下一个词放哪个词出来是最优解，它是这样来工作的。但是呢，Gemini 3不这么工作，它的工作方式是预测下一个正确的思维过程。你就不要给我下一个词了，你直接给我一个下一个你要干嘛，然后我们来看看这个是不是最优解。所以在这块呢，就已经发生改变了。

训练数据：高质量合成数据

那你说我要想训练Gemini 3，我到底哪找数据去？数据是不是已经被大模型吃干抹净都用完了呢？谷歌已经承认了，所有的人类数据早就被大模型收拾干净了。所以这一次，Gemini 3使用的数据是合成数据。怎么合成呢？是用谷歌自己最强的模型阅读人类知识，再生成高质量的推理步骤。它直接训练的都是推理步骤，把所有的教科书、所有的科技论文都通过AI重写，生成训练数据。大家注意，这个里头有两个关键词，第一个关键词叫“所有”，谷歌基本上是可以认为它有所有的信息的，他把他能够找到所有的信息都塞进去了。第二个关键词叫“重写”，我们写的很多论文也好，或者是很多教材也好，为了让人类可以很好的理解，或者说为了抖个机灵，里头还有非常多的修辞，有非常多的人文的东西在里面，比较啰嗦的东西在里面。他通过重写把这玩意全去了，变成非常非常原始、非常简单的这种推理步骤。你如果遇到这样问题应该怎么推，遇到那样问题怎么推，他是拿这种数据去训练的。

原生多模态：Video + Code 配对

而多模态的话是原生对齐。怎么个原生对齐法？原来咱们也号称是各种多模态模型，是用图片跟文字去配对的。就是这是一张图，后边呢是一堆文字，我们把这个东西堆到大模型的数据里头去训练，训练完了以后呢，他就可以去反应那边是一个马还是一个驴，还是在打仗还是什么，他拿这玩意去训练的。现在呢，谷歌用了一个叫video和code的配对。你给它一视频，比如说是一个小球落到地上的视频，后边呢你配的不是一个文字“小球掉地上了”，而是一个重力加速度的Python代码。他把这样的一个视频和代码的对儿放到数据集里头去训练多模态模型去了。所以呢，他的模型上来就是世界模型，他是理解物理世界的各种规律的，这个很恐怖。

训练策略：过程奖励模型

有了数据了，那下边怎么训练呢？训练策略也很重要。第一个叫过程奖励模型 (Process Reward Model)，这个是Gemini 3跟其他人不一样的。现在的大模型呢，拿了一大堆数据去给你去做预训练去，训练好了以后，这个初级模型呢要去做强化学习，让他回答问题，然后让人去纠错。Grok 4.1就属于强化学习做的特别好的这种模型。谷歌说别费劲了，人看不过来，原来都是人看着，现在咱们直接派一个模型看着。他专门训练了一个找错的模型，让他去看着Gemini 3这个预训练模型去做后续的强化学习，然后呢是由人去监督这个找错的模型，看看他工作的状态行不行就OK了。真正底下干脏活累活的已经变成大模型了。针对推理步骤进行评判，即使结果是正确的，只要中间步骤有错误，通通打回去重来。这就是为什么是可以做推理冠军，就是这样了。你做题做到10步的过程中，必须每步都对，然后得出正确答案，我们才认为你是真的学会这道题了。你说我推了中间有三步是错的，但我答案是对的，对不起，从第三步往后通通都没分了。他是这样来控错的。所以我说为什么这个训练过程让我想起了人大附中和衡水中学这种感觉呢。

训练创新：预训练阶段即集成工具调用

在训练上呢还有一点跟以前的大模型有一个很大的区别是什么，就是Gemini 3的工具调用是直接在预训练里头做的。传统的大模型，甭管是OpenAI的，还是Anthropic或者是国内这些模型，他们都是先把模型训练好，然后呢通过强化学习再把工具调用，哪个地方该搜索了、哪个地方该读什么文件了、哪个地方应该去调用哪个工具了，再往后边再去加进去。Gemini 3它是在预训练的时候就直接把这些搜索呀、调用工具呀这些东西作为初始数据就给训练到模型里去了。这也是为什么谷歌的Gemini它可以在推理的任何一个节点上去进行工具调用，而别的大模型干这事就比较费劲，因为他们都是先做好基础后训练出来的，这个事就比较难了。这就是Gemini 3训练的一个创新点吧。

为何如此之快？揭秘Gemini 3的速度奥秘

那你说为什么Gemini 3这么大的模型还飞快呢？它叫Gemini 3 Pro，它不叫Gemini 3 Flash。过个一两个月吧，Gemini 3 Flash应该还会发布，那个时候肯定会比Pro版本要快更多。Gemini 3 Pro就已经比Gemini 2.5 Pro要快非常非常多了。原因呢几个：

硬件：谷歌自己家的TPU V6版本已经全面都装到算力中心里去了，都开始干活了，所以速度很快。而且你想他自己设计的芯片，自己做的算法，那一定是配合的紧密无间，没有任何问题。
架构优化：原来呢，这些模型都是MOE模型，叫做符合专家模型。但是现在呢，Gemini 3叫多塔MOE。什么叫多塔呢？就是你的图文、声音、视频、代码，你到不同的塔里去干活去，每个塔里还有一个专家小组在等着你呢，所以他这样速度就很快了。
投机采样：最后呢，他们使用了一个东西叫投机采样，就是用一个极小的草稿模型先快速的猜出后边的几十个词，然后由大模型一次性验证，这比大模型一个字一个字往外蹦要快非常非常多了。

全面领先？四大顶尖模型角色定位

Gemini 3现在到底算不算全面领先了呢？这么讲吧，Gemini 3 Pro就是一个理科状元加上多模态分析师的一个形象。但是呢，你跟他聊天也像是在跟理科状元聊天。你想想理科状元那个语气、语调都是什么样的，大家自己脑补一下，就知道Gemini 3到底擅长干什么、不擅长干什么了。

Grok 4.1：是互联网老司机加上自信段子手，没有什么他不敢说的，胆子比较大，情商测试第一名。你如果想找人去陪你聊天，想聊着开心，你就找这个Grok 4.1没跑，在这点上它要比Gemini 3要强很多。
OpenAI家的GPT-5.1：算是全能型创作大师加上生态整合之王。因为毕竟他是老大嘛，头一个做出来的，所以他生态整合，就是跟各种工具的结合，还是非常非常好的。而且呢，他很适合做各种的文档创作，像是一个四平八稳的文员吧。
Claude 4.5 sonnet：算是语言艺术家加上安全派哲思者，它很适合做各种的合规、企业内的这种需要进行反复验证的这种文档，它写的要比GPT-5.1还要好一点点。GPT-5.1更创意一点吧，Claude 4.5 sonnet更擅长做长篇写作、逻辑清晰、道德判断、企业合规表达。

而Claude 4.5呢原来是编程冠军，现在的话肯定要经受Gemini 3的挑战了，到底哪个好使哪个不好使，要过几天再出结果。

至于国内的大模型呢，还在努力追赶吧。国内大模型的唯一优势就是开源，巨大的模型开源呢，你们拿愿意拿回去自己折腾都没关系。

总结

最后总结一下：

今天的内容全部是Gemini 3 Pro整理生成的。如果哪说错了不要骂我，去骂Gemini 3 Pro。
第二个，我其实呢并不喜欢用Gemini 3 Pro，今天用了一天，原因也很简单，跟理科状元聊天还是有点累的。
AI还在快速的发展，Gemini 3真正的价值不是说它给我们训练出了一个理科状元，而是提出了一套新的方法论，怎么能够训练出一个理科状元来，这个是非常非常有价值的。有卡的公司就可以照着这个思路去尝试了。
至于没卡的公司怎么办，那就是另外一回事了。希望这一轮对AI泡沫的质疑可以快一些过去吧，Gemini 3 Pro确确实实是可以解决很多原来无法解决的问题的。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

千问APP对决豆包，阿里会重演“来往”悲剧吗？揭秘大厂创新“起大早赶晚集”的残酷真相，内部山头林立比外部竞争更致命｜Alibaba Qwen 通义千问 AI Open Source

Luke Fan — Wed, 19 Nov 2025 01:27:44 +0000

千问APP：阿里的绝地反击，还是又一个“来往”？

千问APP大家都试过了吗？这是阿里的绝地反击，还是又来了一次“来往”一样的故事呢？大厂为什么总是在创新的时候，起个大早，赶个晚集呢？大家好，欢迎收听老范讲故事的YouTube频道。

千问APP的短暂狂欢与第一印象

千问APP带来了一个短暂的狂欢。阿里这个模型这么强的公司，终于也要出一款APP，C端的APP要去对标ChatGPT了。阿里的股价短暂上涨，然后被一个很奇怪的小作文，据说是有人看了白宫里边泄密的文件，说阿里为中国军方提供服务，马上要接受制裁了，所以阿里股价又跌回去了。

这一次的短暂狂欢呢，来自于一个很拙劣的吹风方式，说阿里在搞一个秘密项目，据说呢是集团高层定的战略，大家都在一起封闭开发，具体在干什么不知道。但是呢，突然发现食堂里边吃大量的粤菜，食堂的师傅被要求做粤菜，这一定是由广东过来的团队在做项目。当时就在吹风说在做千问APP。那么为什么是广东团队在做？待会咱们后边再讲。

产品上线呢，也确实引发了关注。第一天服务器短暂崩了一次。现在新产品上线，如果连服务器都不崩一次的话，好像流程没有走完，所以千问上线的时候也短暂的崩了一下。用起来的感觉呢，一言难尽。我确实把它下载下来用了一下，这个东西说是对标ChatGPT，却是比豆包更“豆包”的一个产品。

中美AI产品的设计差异：简洁与复杂的对决

怎么来解释这句话？大家可以把ChatGPT的产品、把Grok的产品、Gemini的产品、豆包、文心一言，都拿出来对比一下，你会发现一个特别显著的差异。美国人的产品呢，都非常的简洁，除了一个对话框和上面的聊天历史窗口之外，基本上没别的东西。它的其他所有这些功能呢，都是隐藏的。比如说ChatGPT，它的其他的功能是隐藏在侧边栏里的，平时是关闭的，你必须要点它才打开。其他的像什么深度研究、代理模式，这些东西呢，是在一个加号里的，你要点开了以后才能看到这样的菜单。像Gemini什么，基本上都是这一个路子。而国内的APP呢，基本上都是要把这些功能摆在明面上的。你的深度研究、各种agent、画画，这些东西通通都要摆在台面上。原因很简单，不同的功能是由不同的部门开发的，大家要去争夺入口。所以呢，国内的产品你一看就是这么多功能都堆在这儿，到底使哪个？好乱。

豆包呢，已经算是所有国内产品里头，做的最简洁的一个了。千问APP为什么说比豆包还“豆包”？它比豆包还要再复杂一些，比豆包要更像以前的文心一言，以及他们原来上一个产品叫“通义”。这个通义APP跟千问APP是两个不同的，虽然他们在苹果和谷歌的商店里头使用的是同一个APP ID，但是它的名字不一样。你原来下载过通义APP的人，你只要一升级就变成千问APP了。

资本市场的反应

股价呢，短暂上涨，刚才咱们讲了。现在呢，大家都缺题材，突然有了一个题材，赶快要上去炒。其实很多人可能既不使用通义，也不使用千问，他们就是炒股的。一看有题材了，赶快去炒一下。国内的AI呢，阿里是唯一能炒的。为啥呢？百度确实不争气，腾讯呢直接躺平了，“你们玩儿吧，我不玩儿了，我现在连建机房的钱我都砍了”。DeepSeek和字节呢，没上市。所以唯一能去炒一炒的，就只有阿里了。如果不是美国白宫的这个小作文的话，也许还能多热闹几天。

历史重演？回顾“来往”的失败

那么为什么要讲当年来往的故事呢？可能很多比较年轻的人，或者说不是特别关注互联网圈的人，不知道来往是什么故事。2013年的时候呢，WhatsApp当时突然爆火，腾讯它就整了一个叫微信的东西出来，突然就爆发了。马云看着以后，决定说：“咱们冲吧！”这玩意咱们有经验，以前呢他们还有阿里旺旺这样一个产品，我们也有用户，也有经验，也有技术，我们还愿意砸钱。马云亲自挂帅，集中力量办大事。最后呢，这个产品既然大家都没听说过，那么结局也就清晰了：被微信打的满地找牙，直接就不见了。

他为什么会败给微信呢？是不是因为马云比马化腾笨呢？肯定不是嘛。原因很简单，微信的起步投入要比阿里的来往要高得多得多。马云是不是决心不够？他确实如此。马云没有砸锅卖铁，没有把他的淘宝这些东西都砸进去，只是说我们用一部分的精力去做一个即时通讯工具，叫移动端即时通讯工具。而微信不一样，腾讯是把手Q整个牺牲掉了，才做出微信来的。手机QQ当时的用户量非常的巨大，说：“不，你们必须要死，你们要把所有的社交关系链都导到微信里去。”微信才起来。到现在了，QQ的这帮人，QQ团队以及手机QQ团队还在那骂呢，到现在都没有服气，说你们当时如果不扶持微信，让我直接接着往前做的话，也许还有机会。没机会，这个绝对是不可能的，QQ跟微信是完全两个不同的玩法。腾讯当时就想清楚了，牺牲了一个巨大的部门去成就了微信。而社交关系本身是很难迁移的，如果说微信没有手机QQ的社交关系链导入的话，它未必能打得过其他人。一旦社交关系链倒进去了，像来往这种产品就没有办法去跟它竞争了。

千问APP能否突出重围？

那你说千问APP，它到底能不能够战胜现在的豆包呢？因为它现在肯定不需要跟美国的ChatGPT、Gemini去竞争嘛，它在国内就是跟豆包、Deepseek、Kimi，跟这些玩意去竞争一下。它到底行不行呢？对手呢，并没有那么强大，是不是还有机会呢？

大模型的优与劣

首先从大模型的角度上来说，阿里呢有它的优点，也有它的缺点。它的优点是什么？就是它开源，有大量的这种千问模型，而且是从0.6B一直到200多B的这种模型，它是所有的全都有。这个是它真正比较强的地方。所以如果大家做开发，说我去做自己的应用，那用它的产品没有任何问题，没有任何替代性，连跟它竞争的人都没有。但你说我就作为一个普通的C端用户，我就直接使它的模型，这就一言难尽了。阿里的千问3以及千问Max，现在最新的这个最大的模型，跟豆包的模型比起来，跟Kimi、Deepseek比起来不占优势，或者说它的优势并不明显。

产品设计的挑战：做减法的艺术

那么在这样的情况下，就看大家做APP的水平怎么样了。从应用角度上来看的话，做这种应用最难的是什么？最难的是做减法。有这么多功能：我可以画图，我可以做视频，我可以做多模态的实时语音交互，我还可以去做聊天，还可以有AI agent，还有很多流程，还有很多的这种后台的程序都准备加进来。大家都有，谁也不缺这玩意。但是你说我到底露出哪些、隐藏哪些，怎么能够让用户使得舒服？这就要看功夫了。而且有的时候这种功夫，还不是技术上或者产品设计上的功夫，而是你在内部是不是能够摆的平。像ChatGPT之所以可以做的这么简洁，一方面是他们在做产品设计的时候非常克制；另外一方面，他开始做ChatGPT APP的时候，他啥也没有，他不像是阿里似的，不像是字节似的，后边有一大堆的团队往里添砖加瓦，他不是这样的。这也是为什么咱们前头讲，微信必须要重新做，不能拿手Q接着往前走的原因。微信实际上就是在做一次大的减法，你原来手Q各种功能我都不要了，我要从头开始，干干净净的一个微信开始再慢慢长大。当然，微信现在也长得无比的庞大了，也是非常繁琐的一个工具了。

真正的杀手锏：电商生态与AI Agent的结合

在这一点上千问做的并不好。但是千问呢，也未必一定会死。千问真正的强项呢，还没有发挥出来。它的强项并不是说它的大模型比别人强，而是什么呢？电商生态跟AI agent的一个体系。这块呢，阿里确实是要比豆包、要比Kimi、Deepseek要强的。你比如说，我可以在里边直接叫外卖吗？我可以在里边去买东西吗？我可以直接在高德里边叫车，或者我直接定我的行程、订酒店？这些阿里其实都是有完整的供应链支撑的。但是这一块呢，目前为止还没有接起来。那你说AI一定要接这东西吗？一定。

最近还有一个故事，就是亚马逊封杀了Perplexity的API。亚马逊说我自己卖东西，我这儿有Anthropic，我这儿有自己的AI，我不要你Perplexity上我这儿来把东西扒走了以后，到你那儿去卖去。亚马逊刚干完的事情，中国这更是自古以来就在这么干。当年，当年阿里就是这么封杀百度的。你必须得在阿里买广告，在我这交广告费，我才能让你露出。你在百度交了广告费，展示阿里的产品，这事不行。

所以阿里真正的强项在这，还没有真正打通。我刚才去试了一下，如果千问可以很好的跟阿里整个的体系打通了，那确实是有新故事可以讲。但是呢，如果想要打通这些，那就需要面对另外一批更大的山头和座山雕了，这个事肯定更难。现在他们的这个山头是什么？阿里云、通义的大模型，以及呢，夸克网盘，他们几家在这打来打去。而阿里里头真正比较强的山头是什么？淘天，卖东西的呀。现在还没沾着人家呢。而现在呢，因为有反垄断法，随便竖墙这件事呢，并不是那么容易的。所以现在有时候，你从外边跟他合作还更容易点。你在内部想去说，我这是做千问APP的，咱们跟淘天合作吧，或者跟飞猪旅行做个合作吧，他们内部更费劲。

大厂的创新困境：起个大早，赶个晚集？

这就导致了另外一个问题，是不是大厂做这种东西都很费劲呢？大厂是不是经常是起个大早，赶个晚集呢？百度的李彦宏，他是最著名的起大早赶晚集的。每次他都第一个发现机会，每次最后都没得着结果。前两天李彦宏去接受采访，人家就问他说，百度是不是经常干这种起大早、赶晚集的事呢？李彦宏的回答是什么呢？他说这个很正常，你去创新也不可能都成功嘛，任何创新可能90%都会失败的。只有需要长期投入和反复迭代的，这个事情大厂才更有机会；需要短平快出结果的，这个呢，大厂确实是比较费劲。

创业公司 vs. 大厂内部创业

那你说是不是创业企业成功的机会，就要比大厂里边创业高一些呢？其实呢，正好反过来，跟大家想象的是不一样的。创业企业的失败率，通常要比大厂内部创业要更高。但是呢，最终走出来的通常还是创业企业。为什么创业企业的失败率更高？第一个，大厂的员工绝对是精挑细选的。大厂他能够涨到几万人、十几万人的一个规模，他的整个的筛选体制，包括内部人员的成长和培养体制，都是创业企业所完全无法比拟的，完全无法想象的。大厂的资源也是创业企业难以企及的。所以创业企业的失败率绝对比大厂高。

那你说为什么最后走出来的都还是创业企业，大厂走出来的很少呢？因为大厂里头有一个巨大的阻碍，是创业企业不需要面对的，是什么呢？就是内部的山头林立。为了管理庞大的组织，就必须给每个部门、每个层级定KPI，我要给你定个指标，不是说咱们喊一下“为了新中国”就可以冲的事。每个人一定要细化你的任务。在没有私心杂念的情况下，各级的负责人也会争先恐后地去完成本机构的利益，而不是说我们大厂整个有一个大的目标。创业企业之间的关系呢，就要简单很多了，该买服务我就花钱去买吧，即便是竞争的话也很纯粹。大企业内部，就完完全全不是这么回事了。太多的东西，花钱你都未必买的着。你说我现在花钱想买一什么服务，人家说我不愿意跟你合作。那我说能上外边买去吗？不行，我内部有，你不许上外边买去。他经常会遇到这样的情况。而且即使花钱的话，也有很多条条框框。你在创业企业里头怎么花钱？CEO一人说了算了。你在大厂里头，我现在想花钱，那审批去吧。你这个东西符合这个规则、不符合那规则，可麻烦了。而且即使是竞争失败，你在创业企业里的竞争失败了，我大不了公司关了，我被你收购了，或者说我上你那打工去，这不是什么大问题。但你要在大厂里头，你要是竞争失败了，那这事麻烦大了。你可能在各种的资源分配上都会被掣肘，你在各种的竞争上、评级上你都会矮人一头。那这玩意绝对是生死存亡之大事，一点的这个商量余地都没有，绝不能退让。所以大厂里边的这种竞争，是要比创业企业更加残酷，而且更加缺乏规则。创业企业的竞争，相对来说，规则是比较简单明确的。

千问APP背后的内部斗争

再回过头来看看，阿里千问APP背后的斗争是什么样的呢？阿里内部做AI的人就有好几波。咱们还不说做什么淘天呀、做飞猪旅行，跟他们没关系，就做AI的好几波。哪几波人呢？阿里云的人一波，通义大模型的一波，通义APP又是一波，还有夸克网盘还是一波。它好多波在这折腾呢，各自互不相让，最后谁也没做出好的来。这就是为什么这一次阿里说，我们从集团角度上做一个决策，集中精力干大事，咱们要做出一东西来。

“粤菜”梗的真相：夸克的胜利

那么这次到底谁输了谁赢了呢？集团决策这件事，就是为了让那些获得胜利利益的人找个借口而已，从来没有什么集团决策。还记得咱们在开头讲的这个粤菜的梗吗？怎么泄露的天机，在做千问APP呢？是因为一大堆在杭州封闭开发的小伙子要求吃粤菜，可能上百口子广东人跑到杭州去封闭去了。那么谁在广州，谁是从广州来的呢？夸克是在广州的。阿里的其他刚才咱们讲那几个部门，做AI的部门都是在杭州，要么在北京，只有夸克在广州。那么夸克为什么在广州呢？他们前身是UC Web。UC Web是在广州被收购了以后一直留在那了，所以他们属于是一个割据的藩镇。UC Web的创始人何小鹏，现在也还在广州呢，小鹏汽车也在广州。所以他们是广州来的。这一次集团决策，多部门配合，你也不能完全说夸克赢了吧？虽然夸克确实是出了可能上百口子工程师，从广州驰援杭州，跑到那封闭开发，要求食堂给他们做粤菜。这个事呢要看谁牵头。这个项目的牵头，叫阿里智能信息事业部。阿里智能信息事业部手下的产品，就是夸克APP、UC浏览器和书旗小说，就是广州团队。他们在整个牵头来负责这个项目，所以就是夸克赢了。

胜利背后埋下的新隐患

阿里的C端应用这块呢，一直是比较弱的。淘天是电商平台，不能算C端应用。阿里云跟通义大模型团队呢，也不是To C的，人家都是To B或者To Developer的。夸克算是阿里里头硕果仅存的一个C端的、可以拿得出手的团队。所以这次说，咱们就接着让夸克往前走吧。

夸克的胜利呢，给后面埋下了新的雷。为什么呢？因为夸克本来就是一个外藩蛮夷，本来就是收购的。收购完了以后还不在北京，不在杭州。因为只要做AI，很多团队都还是在北京的，这边的高校比较密集。一个广州的团队，要去做这样的产品的话，刚才我们讲了，怎么能够让千问APP胜出呢？你需要跟杭州的团队再去整合，你需要去跟淘天，需要去跟淘宝闪购，需要去跟飞猪旅行，跟他们去整合这玩意，你才能够走出一条新路来。但是你作为一个蛮夷，从广州过来的人，人家凭什么理你？所以今天他的胜利，给未来继续往前走埋了新坑。

大厂创新成功的关键

那么在挣扎的过程中，有没有大厂真的创新走出来的呢？有，比如说Gemini，这就属于谷歌在这种内部疯狂的竞争之后，最后走出来的结果。还有豆包，其实也是类似的这种结果。那你说他们怎么走出来的呢？怎么到千问这老范就不看好了呢？首先咱们要讲，大厂养蛊要比创业公司竞争更残酷，但是一旦胜出，他们能够获得的资源也要比创业公司大得多。Gemini也好，豆包也好，都属于在残酷的竞争中胜出的。而且呢，大厂里边要想有产品胜出，还有一个巨大的前提条件是什么？老大亲自管。如果老大不亲自管的话，下边肯定谁也不服谁。现在字节里头还是张一鸣说了算，在谷歌里头也还是老大上面直接说了算。所以在这一块上，其他人就必须跟着去配合。他们能够成功。当然在这点上呢，阿里还有机会，因为据说马云现在是更多的时间留在阿里里面了，他要真的去管事了，他是能够压住所有人的。

总结

最后呢，总结一下。咱们今天讲的呢，是千问APP带来的短暂狂欢，以及为什么大厂创新总是起个大早、赶个晚集，和大厂创新最大的困难是山头林立，内部相互拉扯掣肘，这是他们真正需要面对的巨大挑战。

好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

AI教母李飞飞万字长文戳破LLM泡沫：生成语言只是起点，无法理解真实世界才是致命伤｜空间智能 Fei-Fei Li 世界模型人工智能 AI的下一个前沿

Luke Fan — Thu, 13 Nov 2025 00:54:30 +0000

李飞飞的万字长文，讲述空间智能的未来

大家好，欢迎收听老范讲故事的YouTube频道。

李飞飞呢，最近发了一篇文章，指出AI的下一个方向。AI的下一个发展方向就是空间智能。这个文章呢是11月11日发表的，非常非常长，上万字。标题呢是《从词语到世界：空间智能是AI的下一个前沿》。教授的长文，读起来还是稍微有一点点吃力，我还是认真地把整个文章读完了。教授呢，未必能够准确预测未来，那是算命先生的工作。但是，教授对未来的预测，还是值得认真研读一下的，特别是这位教授，还是当前AI浪潮的开拓者之一。

文章的结构之美：值得学习的写作范本

第一个特点就是非常的工整。她的文章结构，大家需要去学习一下。哪怕你说我看不懂这文章说什么，还是应该学习一下人家文章怎么写的。上来第一件事是提出问题：现在有些什么样的问题？然后呢，是核心概念的一些解释，对吧？啥叫空间智能？再往后呢，是方法论的一个架构：我准备怎么干？然后呢，是技术实施的一些细节和方法。最后呢，是应用的路径：我这个实施了以后能干嘛使？它是这样的一个完整架构。

每一个大标题下面呢，会有3到5个小标题，每个小标题下面，均匀地分布着描述和说明。它不会像有些人写文章，在某一个小标题下写非常长的内容，其它的显得干巴巴的，不会是这样的，很均匀。学习一下教授的写作方法，还是非常非常有价值的。

李飞飞文章的核心内容解读

第一部分：提出问题——大语言模型的局限性

咱们说一下这个文章到底说什么了吧。首先呢，是提出问题。大语言模型呢，它只能生成语言，而语言呢，并不能代表世界。语言模型有很多的局限性，已经体现出来了。最大的局限性就是各种“对不齐”。

与空间和物理规则“对不齐”：我们希望这个空间，应该有一些什么样的特性，结果发现语言模型生成出来的结果跟这个对不上。或者说，我们希望有一些物理的规则，它应该去遵守，但是大语言模型生成的结果，它不去遵守。例如，儿子比老子大了，或者生成的图片和视频里，人物的手指头数量搞不定。甚至让它画一个带指针的时钟，比如“3:20”，它也画不对。
一致性无法控制：现在大语言模型所体现出来的问题，就是前后矛盾。比如以图像和视频模型为例，一个人在这站着，一扭过脸去，发现怎么不是这个人了？或者画面不停地闪烁，一会儿看着像，一会儿看着不像。这些都是因为没有空间智能所遇到的各种问题。

第二部分：核心概念——什么是空间智能？

很多人可能意识到，空间智能是一个3D空间的事情，但其实呢，空间智能要比这个复杂得多。它除了3D空间之外，还有很多物理特性在里头：这是钢的，那是铁的，这个是木头的，那个是水或者是空气，它都在空间里边。

而且空间智能其实是4D空间，四维空间，还有时间在里头。就是我在里边做了一个动作，在这个动作后面会变成什么样，实际上这是有时序的，而不是一个静态的3D空间。所谓的空间智能，是三维空间、物理，以及动作、交互和时间相结合在一起的“世界模型”。她要给空间智能下这样一个定义。

第三部分：方法论架构——世界模型的三个能力

问题很复杂嘛，我们不能说上来就一榔头开始干活了，首先要提出一个方法论架构来。她认为，世界模型呢，应该有三个能力。

生成能力：它依然是一个生成模型，但生成出来的东西，应该能够确保空间、物理和时序的一致性，这是跟传统大语言生成模型的差异。
多模态能力：多模态呢，是图像、视频、深度、文字、手势、动作都要结合在一起，甚至可能还有触觉这些东西，都要在里边。
交互动作条件下的状态预测：就是我做了这个动作了以后，会变成什么样？空间智能的模型，是能够对下一个状态进行预测的，甚至呢，对下一步的动作进行预测。

第四部分：技术实施——如何实现空间智能？

那怎么实现呢？首先，世界模型要能够显示或隐式地展示3D几何与物理的一致性，而且世界状态必须是可被读写和对齐的。

实现这一目标，离不开数据和训练。具体方法包括：

数据来源：利用大量的互联网图片、视频等真实世界数据，并通过计算机进行深度信息标注。同时，也会使用游戏、3D模型等合成世界的数据来进行训练。
训练过程：训练过程会要求“生成与理解”循环互补。即生成数据后，模型自身再去理解和验证。
推理和控制：模型的核心是推理“状态 -> 动作 -> 新状态”的演变过程。李飞飞团队正在探索新的模型方式，例如“实时帧模型”（Real Time Frame Model），它可以像视频一样，直接输出下一帧世界会变成什么样。

第五部分：应用路径——空间智能能做什么？

近期应用：主要用于讲故事、创意和内容生产。她们已经做了一个名为“Marble”的模型，供3D动画和游戏开发者申请试用。
中期应用：用于机器人和具身智能，让机器人能够真正地理解世界，而不仅仅是依赖语言模型。
远期应用：进行科学研究，例如在材料学、医药学、分子生物学等领域，利用空间智能构建和探索复杂系统，进行模拟实验。

老范的思考与评论

教授创业：理想与现实

李飞飞呢，现在是在创业，她有一个公司叫“世界实验室”（World Labs）。她呢，融资融了2.3亿美金。刚才我们讲了，教授创业未必能够挣到钱。但是呢，她的学生，现在是各个大公司里边的顶梁柱。所以她想去说：“我要一笔钱来去创业的话”，融到钱这件事并不是特别难。

教授创业，通常不太容易有很好的商业回报。教授的学生们，才是真正值得关注的群体。

运维、工程与科研：三个不同维度的创新

运维、工程实施技术和科学研究，实际上是三个完全不同的维度。你说我这给你发个打折券，买几赠几，这个东西呢就是纯运维。那工程技术呢，就是为了实现运维目标，我们在现有已经验证过的这些技术上进行一些实施，这通常教授的学生们会干这些活。而教授呢，会在前头再去研究现在还不确定的那些科学。

方法、专利与论文：创新的层级

大家要注意，方法是不允许申请专利的。而专利呢，一般是一个工程实施上的东西。教授的直属弟子们，她们一般会玩的是什么？是论文。她们会比专利更高一个层级。论文是希望你尽可能多的引用的一个东西。教授真正的得意门生们是去写论文的，而教授要比论文更高一级。但是大家要注意，真正能挣钱的东西是什么？是专利，以及后边这些方法，这是能挣钱的。论文其实很少直接产生收益。

空间智能是唯一方向吗？

讲远了。空间智能到底是不是未来的方向呢？AI的下一个问题肯定是对齐，这个毋庸置疑。但是呢，需要对齐的东西很多。

空间、物理与时间：这就是空间智能需要对齐的东西，肯定是AI需要对齐的一个方向。
人性与法理：这也需要去对齐。
编程：这是最容易对齐的东西，各种约束都非常容易去验证，所以编程现在是整个AI大模型领域里头，对齐对得最好的一个领域。

那么未来的5-10年，实现空间、物理与时间对齐，应该是一个大的目标，这个没有任何问题。但是具体实现的方法，未必像李飞飞当前所设想的这样。她提出的“什么是空间智能”、“为什么要做”以及“要解决什么问题”，这些都是对的。但是后边两块：“具体打算怎么干”，以及“具体做完了以后在哪用”，这一块呢，我们没必要太去听教授的了。

一个历史的例子：Pascal语言 vs. C语言

在这儿呢，跟大家讲一个例子吧，比如说Pascal语言和C语言。Pascal是1968年苏黎世理工大学的教授发明的，主要用于教学。而C语言呢，是1972年贝尔实验室的工程师发明的，后来变得非常普及，Linux、Unix和Windows的早期版本都是用C语言写的。这个工程师呢，应该是硕士研究生，博士论文写了个草稿，但是没有获得学位。这就真的叫英雄不问出处。所以，最后大家去用的东西，未必是教授发明的东西。

李飞飞工作的真正意义

李飞飞的工作呢，还是有巨大的意义的。第一个呢，拉动了社会的关注。她毕竟是AI领域的“教母”，大量的关键岗位都是她的学生。而且呢，李飞飞前面做的最大贡献，是做了一个叫ImageNet的项目。她把大量的图片放进去，让各种的大模型可以用这些图片去进行学习。所以现在呢，李飞飞准备继续做这件事情，继续把大量的数据进行标注，让各种空间智能的模型去进行学习。我们提出标准，你学习到一个什么样的程度，然后怎么去打分，她要把这个事情做出来。所以这件事呢，还是非常非常重要的，就是积累数据和论证各种验证方法。

总结

最后呢，咱们总结一下：

李飞飞作为AI“教母”发表长文，为空间智能站台。
教授的文章格式必须要学习一下，其结构清晰、逻辑严谨。
空间智能确实是未来十年，行业必须要去解决的一个重要问题。

好，这个故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

人工智能 – 老范讲故事｜AI、大模型与商业世界的故事

谁在裸泳？GEO概念股塌房背后的逻辑：游资造势收割散户 vs 巨头构建交易闭环，三张图看懂真实商业壁垒｜数据织物、电商、欧洲投资者、市场板块

2026年开年A股AI第一波题材：GEO概念的起伏与真相

中国AI概念股的炒作难点

GEO行情的时间线与逻辑

“妖股”盘点：毫无道理的暴涨

澄清函纷至沓来：概念的破灭

A股游资炒作套路揭秘

1. 寻找概念

2. 筛选公司

3. 炒作流程

GEO到底是什么？从SEO说起

SEO（搜索引擎优化）

GEO（生成式引擎优化）

关于GEO提升营收的“都市传说”

GEO实操指南：如何让大模型读懂你

基础设置

大模型喜欢什么样的内容？

谁最应该做GEO？

GEO的商业困境：谁能赚到钱？

总结

别再只盯着星链赚钱了！SpaceX万亿估值的真正底牌曝光：每年百万吨载荷只为构建太空算力网络｜SpaceX 上市 太空数据中心 马斯克 AI 算力

SpaceX明年上市？史上最大IPO这次靠谱吗？

史上最大IPO的传说与对比

SpaceX与Starlink上市传闻回顾

为何SpaceX的信息总是零碎不全？

如何梳理与解读SpaceX的上市消息

本次1.5万亿IPO传闻的来龙去脉

第一轮消息：二级交易与估值

第二轮消息：The Information的跟进报道

1.5万亿市值和300亿融资额的由来

SpaceX与Starlink的收入状况

Starlink究竟有多赚钱？

全球市场快速拓展

新增长点：Direct to Cell手机直连业务

“太空算力中心”：支撑万亿估值的未来故事

地面算力中心的困境

太空算力中心的优势与吸引力

当前面临的挑战：发射载荷与成本

马斯克的太空算力构想

核心技术难点：散热问题

上市的利与弊

上市的好处

上市的坏处

这次SpaceX上市的消息到底有多靠谱？

股东结构与上市意愿

与其他“马斯克系”公司的关系

上市的窗口期

总结

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

GPT-5.2我已经用了两天了，效果到底怎么样？

GPT-5.2：应对Gemini的“红色警报”产品

两天来的个人使用感受

优点：输出质量显著提升

缺点：速度极慢与应对策略

恼人的上下文处理异常

图像能力：推理增强，生成不变

性能揭秘：深度解读新指标GDP val

选择性公布的领先指标

全新指标：GDP val（通用开发者生产力验证）

考核重点：从头到尾完成复杂任务

测试过程：模拟真实开发者场景

长上下文任务考核

评分机制与核心要求

GDP Val的意义与得分情况

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

重要澄清：GPT-5.2不是Garlic

匿名参赛：Robin与Robin high

LM Arena vs GDP val：评测标准有何不同？

GPT-5.2的定位：到底强在哪里？

未来值得期待的更新

总结：一款为专业工作者而生的“红色警报”产品

被忽视的真相：Gemini被诊断“极端羞耻”，ChatGPT焦虑，实验揭开AI训练过程“虐待式”检查的黑暗面 ｜ diagnosis reliability validity GPT

大语言模型的精神状态是不是健康？

想象一个《禁闭岛》场景

当AI躺上诊疗椅

实验过程是什么样的？

第一轮：心理治疗式的开放访谈

第二阶段：填写心理量化表

别再只盯着星链赚钱了！SpaceX万亿估值的真正底牌曝光：每年百万吨载荷只为构建太空算力网络｜SpaceX 上市太空数据中心马斯克 AI 算力

被忽视的真相：Gemini被诊断“极端羞耻”，ChatGPT焦虑，实验揭开AI训练过程“虐待式”检查的黑暗面｜ diagnosis reliability validity GPT