谷歌AI – 老范讲故事｜AI、大模型与商业世界的故事

达沃斯论坛深度解析：AI引发的就业危机与未来出路

老范讲故事 — Mon, 26 Jan 2026 15:30:02 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲达沃斯论坛上，大佬们如何看待AI对未来就业的影响。

科技大佬齐聚达沃斯：AI泡沫与就业焦虑

科技大佬在达沃斯论坛上，都被问了同一个问题，就是AI对就业的影响是怎么样的。虽然大家都在关心AI到底是不是泡沫、AI到底行不行，但是确实开始有人失业了。达沃斯论坛每年热闹一回，川大统领的表演距离我有些远，就不在这说了。川大统领带了一大堆的企业界的人士一起前往，科技企业的代表，一定是各个AI领域的公司老大。

近半年来，这些老大们都在密集的发表观点。以前这些科技公司老大们并不这么热闹出来讲话了，现在不行了，一定要赶快出来讲。为什么？因为大家都在做大模型，大多数的模型并没有怎么挣钱，都是在做基础建设。很多机构就开始质疑里边有没有泡沫。你说有本事，说我们挣着钱告诉你没泡沫，但是他还没这本事，那就只能出来发声了。

AI企业还有一个很奇葩的特性，就是只允许老大说话，下边人是不能乱说的。xAI有一个小哥，刚刚接受完访谈，第二天就被开了。杨乐坤也是话说太多了，在Meta混下去了，只能自己出去创业了。这一次也并没有超出他们过往发表观点的一个范畴，但是大家凑在一起了，就可以比较一下各自观点的差异。

AI基建狂潮与失业的现实

AI发展到今天了，有些事情还是可以确定的。这东西确实很强大，能够改变非常非常多东西，这个事现在大家已经确定了。即将迎来人类有史以来最大的一波基建，这个至少目前为止，大家看着还是没毛病的。

都去买英伟达显卡；
都去建机房，都去盖电站；
都去建巨大的算力中心；
甚至还有人惦记说，把这个算力中心建到太空上去。

英伟达黄仁勋说，准备几千亿美金去建。然后贝莱德的CEO就是问他说：“才几千亿吗？这点钱。”贝莱德自己手里有几万亿。黄仁勋说，只是从我这买芯片买几千亿，后边还有造芯片的，还有造电脑的，造机房的，多去了，这些人都是得花钱的，那就是几万亿了。

贝莱德的人就爱听这个，需要花钱嘛。目前为止，虽然AI还不太赚钱，但是好像以后是可以赚到大钱的。至于怎么赚到，谁也没想明白。

AI已经造成了一定比例的失业以及就业焦虑。你说AI到底带来多少失业了？可能也没有那么多，至少到目前为止。但是所有这些能够发出声音的人来，特别是很多中产，很多在社区上比较活跃的人，都在开始担心，说我这个日子还过得下去过不下去。于是所有的老大都面临了同一道题目：AI将如何改变就业市场？

大佬们的观点光谱：从悲观到乐观

都哪些老大参与了？我今天其实看了一天的访谈纪要，也只是其中的一部分。他们的观点各异：

悲观派：如Anthropic的CEO阿姆戴伊；
极其乐观派：如黄仁勋和马斯克；
理性稳健派：如谷歌DeepMind的CEO哈萨比斯；
探索方向派：如吴恩达。

阿姆戴伊与哈萨比斯：AGI速度与社会承受力

阿姆戴伊认为今年或者是明年就会实现AGI（通用人工智能），50%的初级白领工作会被清空，因为AI演化的速度实在是太快了，已经超出了社会的承受能力，可能会出现社会动荡。但是阿姆戴伊也没有给出什么意见和建议，没有解决方法。

哈萨比斯认为AGI到来没那么快，2030年有一半的机会有可能实现AGI。既然到来没那么快嘛，那就不用太担心了。之所以大家会担心AI带来的就业问题，会带来社会动荡，原因就是太快。哈萨比斯说没那么快。AI确实会对初级白领工作造成压力，这也是哈萨比斯认可的事情，所以他给出了建议：

要提高自己的学习能力，年轻人要寻找新的生存目标和意义，比如外太空探索、哲学和艺术、极限运动和娱乐。

吴恩达：初级岗位的消失与人才鸿沟

做AI教育的吴恩达他在讲什么？他离开百度以后，就开始做AI教育。他是deeplearning.AI的创始人，还是Coursera的创始人兼董事长。1月20号，吴恩达参加了一次圆桌。除了吴恩达之外，还有一位诺贝尔经济学奖的得主，一位科技金融的管理者，和一位阿联酋的政策代表。

首先他们在讲，可能未来少数掌握AI的超级个体，会快速崛起，而其他人的话，就基本上变成无用阶级的一个时代，大量的初级员工会困于阶层。因为初级的员工没了，初级职位没了。原来初级程序员、初级律师、初级的销售，他们在一开始进入职场的时候干嘛？是要从事简单的数据整理、简单的文件归纳、简单的沟通。现在这些事AI干的比初级员工好，所以对于现在这些新的毕业生来说，他们就面临一个问题：初级岗位没了，你要上来做高级岗位，你又过不去。所以他们管这个玩意叫鸿沟，很难跨越的一个鸿沟。

而老板们也更愿意给AI付费，原因很简单：

员工培训好了就要涨薪，或者还要跳槽；
AI你只需要续费就可以了，用量大了还能打折；
员工有时候你还得哄着他，还有工会，非常麻烦，AI要听话多了。

吴恩达主张用AI打造能力的加速器。既然AI造成这个问题，那咱就直接通过大模型做训练呗。他希望让新人在几个月之内，通过AI做着各种训练，积累原来数年的这种项目经验。以后筛选的是能力，就不再是工龄了。

精英筛选困境与丰饶社会

但是这里头有一个问题。他们都认为说在2026年开始，大量的初级白领工作就没了，但是他们其实并没有给出解决方案来。吴恩达最后给出来的方案是什么？还是筛选少数天才。并没有说我们让大家怎么能找到工作，大家怎么能活下去。

阿联酋的这位政策代表给出了意见，也是很有意思的。马斯克预期很快就要进入丰饶社会；哈萨比斯预期的是我们要进入一个叫后稀缺时代。阿联酋的人怎么看这问题？他认为能够脱颖而出的年轻人，往往具备跨领域连接的能力，可以一次解决很多问题。AI不擅长横向整合，一个需要教育体系、文化敏感、伦理考量相结合的案例，这种综合的决策能力，只有人才能搞定，AI是搞不定的。

马斯克：丰饶时代与意识存续

下边就是比较乐观的马斯克了。马斯克上来说我们即将进入丰饶时代。怎么个丰饶法？他说我今年就开始生产机器人了，要开始量产，明年这些机器人投放市场开始卖了，要开始大规模部署了。

能源危机与太空算力

他说现在大家都在搞AI，但是AI下一个该缺的东西是电。美国再有更多的芯片，就已经没有电来烧这些芯片了。他还觉得美国最近做了一个很愚蠢的事情，就是给太阳能设施加税。马斯克准备3到5年内，开始部署太空算力中心。他预期今年就可以搞定星舰的可重复使用，以后向太空轨道中部署这些算力中心的成本，要比坐飞机还便宜。

AGI与人类的角色

对于AGI他也比较乐观。他认为AGI应该在2026年年底，也就是今年年底，最多也就是明年，就会出现比任何人类都聪明的AI。而到2030年的AI，将比全人类加起来还要聪明。

当AI变得比人聪明，机器人的数量足够多的时候，全球经济将会出现爆发式的增长。
在这样的一个情况下，就会出现一个丰饶时代。
以后人需要干嘛？他说人需要去定义问题，而AI负责解决问题。

马斯克真正想解决的问题，其实并不是人的问题，不是说人怎么找不到工作的问题。马斯克在讲到飞去火星的原因的时候，讲的并不是挽救人类。马斯克真正想拯救的是意识。他认为万一要是发生了各种天灾人祸的话，如果人类只在地球上，可能会被毁灭。所以马斯克说我们以后要让意识可以到其他星球上去。

黄仁勋：根本性的平台迁移

最乐观的黄仁勋他在讲什么？AI里头只有他挣钱了，别人都没挣着。黄仁勋的核心论点是：现在在发生一次根本性的平台迁移。原来的软件只能处理结构化的、事先约定好的这种格式的数据。而现在AI就不一样了，AI可以处理图片、声音、自然语言、非结构化的数据，你可以随便跟它聊天了。

他也讲到，以后AI是五层架构：

最底层是能源；
然后是芯片（黄仁勋这一层）；
再往下是云基础设施（微软、谷歌、亚马逊等）；
然后是大模型（OpenAI、Gemini等）；
最底下一层是应用。

2025年AI的三大趋势

黄仁勋对2025年的AI进步做了一些总结，主要干了三件事：

AI agent（智能体）：不再那么容易出错了。一旦这个真的可以干活了，下一件事就是Token在燃烧，黄仁勋就可以开开心心的去卖卡去了。
开放AI/主权AI：每个国家都要有自己的AI。每个国家的这种AI，都只能是在开源AI基础上，再去训练自己的AI。这对于英伟达是重大利好，因为都要买兼容性最好的显卡。
物理AI：AI真正进入物理世界了，也就是人形机器人，或者是各种的机械设备已经进来了。

区分“目的”与“任务”

作为最乐观的黄仁勋，他说工作会变多的，说人类有史以来最大的基建开始了。而我们以后的工作，我们要去区分目的和任务，这个是非常非常关键的。

原来的放射科医生任务是读片子，护士的任务是写大量的报表。但目的是为了治疗更多的病人。有了AI以后，读片的任务交给AI，医生可以接待更多病人；护士有了AI帮助处理文书，可以用更多时间照顾病人。AI解决的是任务，人则是要关注目的的。

关于公平性，黄仁勋认为以后一定是公平的。说AI会实现彻底的平权，大家都不需要上大学了，就可以写程序。以前那些不发达国家，都可以直接使用AI进行追赶，再也没有那么多人才和资源限制了。

他还给欧洲支招：欧洲有巨大的高端制造业，不要惦记编写AI了，这事你们没戏。你们以后就去教导AI就可以了，让AI学会欧洲那些隐形冠军的技术。方法也很简单，就是训练私有模型，把这些know-how技术诀窍训练到自己的这种小模型里头去。

总结：初级岗位消失与人类的新角色

总结一下，这几天大佬们的访谈虽然观点各异，但在某些方面达成了共识：

初级白领工作会大面积消失。（虽然黄仁勋持保留极度乐观态度，但普遍共识如此）。
人要尽快学会使用AI工具，尽快学会如何指挥AI完成原来很难以实现的这些工作。
如果现在的社会形态和社会架构不发生彻底的改变，大佬们其实也没有为普通人找到出路，依然在筛选天才。
不要在意过程和任务，真正需要寻找的是意义和目的。
人类的作用是提出问题，而AI的作用则是用更低成本、更高效率去解决问题。

好，这就是咱们今天要讲的故事。

游戏天才到诺奖得主，他凭什么断言AGI只差临门一脚？揭秘哈萨比斯开挂人生背后的逻辑｜Demis Hassabis、Google DeepMind、AGI 时间表、5到10年

Luke Fan — Wed, 10 Dec 2025 00:58:24 +0000

谷歌Deepmind的CEO说：“我们与AGI之间，只差一到两个AlphaGo级别的技术难关了。”

大家好，欢迎收听老范讲故事的YouTube频道。

现在Gemini 3正在大杀四方，谷歌里面负责开发Gemini的部门叫Deepmind，他的CEO出来接受访谈，关注度还是比较高的。

谷歌Deepmind的首席执行官叫德米斯·哈萨比斯，2025年12月4日接受了一个访谈，是在旧金山举行的Axios AI大会。和他对谈的人呢，是Axios的创始人和主编，叫Mike Allen。在这上面他讲到说，我们距离AGI还差一到两个类似于AlphaGo这样级别的突破，突破过去就可以了。

哈萨比斯：爽文男主般的开挂人生

哈萨比斯到底是一个什么样的人呢？绝对的爽文男主，挂b一样的存在。

从国际象棋神童到认知神经科学博士

哈萨比斯是一个英国人，Deepmind本身是一个英国公司，后来被谷歌收购的。他呢，76年在伦敦出生，这个姓氏是个希腊姓氏。他的父亲呢，是来自塞浦路斯的希腊裔，而他的母亲呢，是来自于新加坡的华裔。所以哈萨比斯呢，可以算是半个华人。

从小，这哥们是一个国际象棋神童。像这样的人，肯定都是有异于常人之处。4岁就开始下棋，13岁就达到了国际象棋大师水准。8岁就用自己的国际象棋奖金，给自己买了台电脑，开始学习编程了。

本科和硕士呢都是剑桥的，学的CS就是计算机科学，在校期间一直代表剑桥参加各种国际象棋比赛。博士呢是伦敦大学学院，专业方向是认知神经科学和神经科学。

从游戏制作人到AI先驱

工作，这哥们一开始做游戏的。先去加入了很著名的牛蛙工作室，这个牛蛙工作室呢，最著名的作品叫做《地下城守护者》。但是哈萨比斯当时进去的时候，应该还没有开发这个产品，牛蛙工作室最终是被EA给收购了。后来呢，他自己创建了一个工作室接着做游戏，叫做仙丹工作室。2004年出了一个游戏叫《邪恶天才》，是一个模拟经营游戏，就是一帮邪恶天才在一个小岛上做各种各样坏事的这样的一个游戏。只是呢，这个游戏并不怎么挣钱，这种超级天才做出来的游戏都未必能挣钱。

他呢就把工作室关掉了。后来呢，《邪恶天才》的IP被收购了，2021年《邪恶天才2》发布，但是呢，《邪恶天才2》就已经跟哈萨比斯没有什么关系了。

关闭这个游戏工作室之后，他就去创建了Deepmind。Deepmind主要还是游戏方向，他呢在里边去训练AI下围棋。这哥们是个国际象棋大师，但是呢开始训练AI下围棋，也就是AlphaGo这个东西就出来了。在这中间呢，还训练AI去打各种游戏，星际争霸呀，做一些其他这样的训练。

收购、AlphaFold与内部整合

2014年，Deepmind就被谷歌给收购了，6.5亿美金的价格。但是这个数字呢，并不是特别统一，很多的报道里的这个数字是有一些偏差的。有人说是4亿美金，也有人说是6.5亿美金，还有人说是4亿英镑。因为收购的时候，谷歌自己并没有公布价格，这些价格呢都是后续的报道里边去写的。

在谷歌收购以后呢，哈萨比斯在Deepmind里头又开发了叫AlphaFold这样的一个产品。这个产品是解决蛋白质折叠难题的。蛋白质实际上是这种超大分子，这些超大分子，我们算清楚有多少碳、多少氢、多少氧、还有氮，它并不是一个平面的结构，它是一个立体的结构，3D的。在这样的一个结构里头，它到底是怎么去排列和折叠的呢？原来大家是去预测呀、去猜呀，或者通过一些很复杂的设备去进行扫描，通过这样的方式去识别，成本是很高的。你要想去用蛋白质开发各种药品，你就必须要搞清楚它的3D架构空间，你搞不清楚，这事没法往前走。

哈萨比斯就去搞了AlphaFold，用AI去预测蛋白质的3D折叠空间到底是怎么回事。2020年呢，这个AlphaFold在蛋白质预测大赛中夺得头筹，比第二名强好几倍，这个事基本上就算解决了。现在只要是知道这个蛋白质的分子结构，这个AlphaFold的预测结果就极其准确。2024年，哈萨比斯依靠这个AlphaFold获得了诺贝尔化学奖，这哥们是个诺贝尔奖得主。

这还没完，他呢还在内部斗争中战胜了谷歌大脑。这是一个什么故事呢？谷歌内部一直是有两个AI部门的，一个是Deepmind，另外一个叫谷歌大脑，相互内斗，相互争夺资源。直到什么时候呢？直到ChatGPT出来，三年前谷歌拉响了红色警报，说不能再这样了，你们俩两家打来打去，这个不行了。那怎么办呢？最终是Deepmind合并了谷歌大脑，所以现在整个的谷歌AI是由Deepmind来去负责的，由哈萨比斯来去管理。

现在的Gemini 3使用的技术，大多都是原来谷歌大脑研究的方向：Transformer、大语言模型都是那边研究的。而Deepmind呢，原来在英国这帮人研究的呢，就是AlphaGo、AlphaZero（AlphaZero是AlphaGo之后的一个下棋的模型）以及各种可以自动玩游戏的AI产品，还有呢就是AlphaFold，做这个蛋白质分析的。

哈萨比斯除了是Deepmind的CEO之外，他自己还有一间专门做药的公司，专门用AlphaFold去做蛋白质研究，做各种新创新药的公司，他也是那个公司的创始人。所以哈萨比斯管理了整个的谷歌AI方向，以及谷歌Gemini这个产品化方向，都是归他管的。所以，爽文人生，绝对没有任何问题吧？

通往AGI之路：还差哪两个AlphaGo级别的突破？

哈萨比斯认为，我们距离AGI到底还差哪两个AlphaGo级别的突破呢？他自己做AlphaGo的，所以AlphaGo到他这儿变成了一个衡量单位，再出现两次AlphaGo这样的突破，我们就达到AGI了。

Gemini 3的惊人进展

他呢首先讲到Gemini 3，现在确实让人震惊，已经从文本专家变成了多模态理解系统了。他举了一个案例，说有一个电影叫《搏击俱乐部》，主角上去打斗之前把戒指摘下来了。他就去问这个Gemini，说这代表什么意思。它没有告诉你把戒指摘了就完了，而是告诉你说，这是主角抛开了身份、摆脱了规则的象征，是角色从现实到极端的转变。这个确实挺让人震惊的，这个Gemini 3模型有了自己的判断，不再只是迎合了。

到GPT这儿，你说你错了，它就会说“对不起，我错了”。到Gemini 3上，你说你错了，它会很耐心地给你解释，或者跟你去讨论这个事，是不会直接承认的。说Gemini 3的性格，叫“简洁，冷静，有自信，不讨好”。这个是哈萨比斯自己作为一个科学家，非常非常喜欢Gemini 3的一个地方。

而且Gemini 3呢，现在已经从生成内容，在向着打造产品的方向前进了。我们现在使用Gemini 3去做PPT，去做简单的应用原型，效果已经非常好了。它已经可以去执行一个比较简短的、连续的这种AI agent的工作了，这个是Gemini 3真正强的地方。

大模型当前面临的难题

哈萨比斯说了，现在的大模型还是有很多问题没法解决的。

不具备持续学习的能力。很多人都在担心，说我跟大模型聊了半天，是不是大模型就拿聊天的结果回去做训练去了。其实有时候确实他干，但主要做的是什么呢？就是强化学习。因为我们跟Gemini聊天，他经常会出俩答案让你挑一个，你在挑选的时候呢，实际上就已经在开始帮助大模型进行训练了。但是搜索的结果、我生成的内容、我提出的问题，我让这些东西去进入到大模型里头去进行训练的话，这个是不行的。大模型必须要进行数据筛选，然后才能训练。日常的这些内容，你拿去训练大模型的话，大模型可能会越训越笨的，特别是很多互联网上的垃圾信息，你塞到大模型里去训练，根本就没有办法达到预期的效果。所以大模型是没有办法自己去找内容去训练的，还是需要人先去提出要求，然后去进行数据清洗、数据处理。现在都是由大模型根据原始数据，再去生成最后的预训练数据，然后才能再去训练。所以这个事情，还没有办法让大模型自己去干，这是第一个问题。
无法执行长期的规划。虽然现在Gemini 3已经可以走一个一两个小时的规划，它还是能够走完的。但是你说我这有一个很多步骤，还是并行的，这种步骤需要去执行，执行完了以后需要连续执行几天、甚至几个月的这种任务，这个Gemini 3还搞不定。现在谁都搞不定这个事情。所以现在人去使用大模型，我们还需要自己去理解问题、自己去拆解问题，然后把这个拆解好的问题扔给大模型，而在对大模型的结果进行确认和验证之后，再把结果拼凑起来，让大模型去做下一步。它没有办法说你一开始给他个要求就做出来，“上帝说有光，于是就有了光”，这个事现在还做不到。
智能体系统很不稳定。为什么它没法连续干下去？就是它可能干着干着就跑偏，而且跑偏的过程中呢，自己不知道跑偏。在这个过程中，就有可能会浪费大量的TOKEN和算力，最后呢得出一个完全不可用或者说有害的一个结果出来。这个是目前为止大模型无法避免的问题。
缺乏跨对话的稳定记忆。现在大模型已经开始有记忆了，但是大量的记忆呢，还是在对话内的。而对话外的这种记忆，就是跨对话的记忆呢，它也不是说没有，像ChatGPT也好、Gemini也好，都是有一些跨对话记忆的。但是呢，这个记忆的空间都很小，你不可能说让他记很多的东西，然后跟你进行跨对话的去聊天。为什么呢？对于计算机来说吧，让它记住什么事是非常非常容易的，往硬盘里写不就记住了吗？但是让它忘掉是很难的。到底应该记住哪一部分、忘掉哪一部分，在下一次工作的时候我应该使用其中的哪部分去参与工作，这件事是非常难去抉择的。这就是大模型跨对话记忆的这个难点。所以他讲的，现在缺乏跨对话的稳定记忆，就是你让他记住可以，但是呢不一定下次就想起什么事来，可能他会找一个完全不相关的知识点，就参与到你这一次新的对话里去了。现在我们使用大模型的方式还是比较简单粗暴的，你发现讲着讲着驴唇不对马嘴了，怎么办？开始新话题，就是把原来的记忆都清干净。我们开始一个新的，甭管是Gemini也好，还是ChatGPT也好，它会有一些跟我们个人相关的这种个性化记忆。比如说我就告诉这个ChatGPT：“你记住了，我叫老范，我是个Youtuber，每天都要做什么事情。你要给我去总结信息，或者我要找你提问题，你要先去经过验证才能给我。”就这些玩意，我是可以让他记住的。但是如果你给他特别多的东西让他记，或者说我们在整个的聊天过程中让他把所有聊天内容都记下来，他就没法干活了。

两大关键突破点

这些问题关键的突破点是什么呢？咱们前头讲了两个关键突破点。

世界模型：让AI理解物理世界的运行规律，这个是非常重要的。Deepmind内部呢，有一个叫Genius模型（天才模型），这呢是一个世界模型，通过物理一致性和时间连贯性生成虚拟世界，最后输出视频的。大方向上呢，跟李飞飞的方向是比较接近的。但是Deepmind的这个模型，是更接近于游戏世界一点点。这个哈萨比斯，不愧是从游戏公司里出来的，人生的第一份工作都是对一个人有重要的作用的。
智能体系统：现在Gemini虽然也算是智能体，但是距离智能体系统还是有一些差距的。什么是智能体系统？就是从回答问题到完成任务。现在Gemini依然是在回答问题。他说未来呢，Gemini会嵌入眼镜、工作场景和工作流里面，能够记忆、推理或者是代办，不再只是回答问题，而是直接完成各种各样的任务。你让他做一个什么事的，切咔切咔给你做完了。可以自主规划、执行任务，并且根据结果调整的这种稳定的智能系统，这就是未来方向。

所以呢，两个AlphaGo级别的突破，一个是世界模型，第二个是智能体系统。

谷歌：科研领域的“怪物”

讲到这儿，要再跟大家啰嗦几句。其实大部分的科技公司，是无法想象谷歌的运作方式的，就像是大部分国家的人也无法想象中国是一个什么样的存在，是一样的。

中国的这种存在方式呢，联合国里边专门有一个效应，叫“中国效应”，就是各种统计的时候，一定要把中国排出去。为什么？因为你一旦把中国加上，所有统计数据就没有任何意义了。咱们举一个最简单的例子，吃西瓜。全世界的人都没法想象中国人到底一年吃多少西瓜，咱本身人就多，咱们一年大概吃全世界70%的西瓜。你把这个统计起来，全世界每个国家大家平均吃多少西瓜，你把中国算进去，这事没法算了。包括像什么发电、炼钢，只要是跟制造相关的，你就不能把中国搁里头统计，因为这个完完全全是另外一个维度了，它会让整个的统计结果完全失衡。中国属于是全产业链内卷，而且全产业链都产能过剩的一个国家。

谷歌呢，在科研上就有点像中国在产业链上的这个状态，很多方面呢都会尝试和探索。谷歌呢，具有非常高的人才密度、充足的科研经费，还有海量的数据，这个是缺一不可。而且呢，这些科研团队，他们的时间压力也不是很高，大家就自己按照自己的喜好去研究就行了。他们还在不断的收购新的、最前沿的公司，Deepmind就是买回来的嘛。

谷歌在AI领域里头，同时在探索强化学习（AlphaGo、AlphaZero这些产品）、认知架构、神经科学建模，以及Transformer大语言模型，这些都在研究。不是说我们觉得哪块有机会了，我就往这一个方向去研究。我记得特别清楚，我进入盛大网络参加入职培训的时候，他们就跟我讲说：“全世界只有一种游戏，这种游戏叫MMORPG，其他都不行。”后来我说那我们玩的其他游戏，他们说：“那些游戏不挣钱，我们不研究那个，我们只研究这一个最挣钱的。”这其实是大部分的公司的思考方式，我们既然已经证明了这玩意挣钱，其他的不挣钱，那咱就研究这就完了，特别很多中国公司是喜欢走这条路的。

但是谷歌不，它是所有的方向都要去试一试。而且很多方向呢，你都不知道什么时候能挣回钱来，他也要去试一试，比如说量子计算。前面咱们还专门讲过谷歌的量子计算是怎么回事。很多的这种科技成果，都没有办法给谷歌挣钱，也没有办法在谷歌内部取得成绩，很多人最终是离开了谷歌才创业成功的。现在的AI行业里头，创始人或者是创始的核心团队，大多都在谷歌混过。所以现在我们所看到的AI行业，或者叫AI革命，你基本上可以认为是一帮从谷歌出来的人在去折騰这个事情。

中国呢老说自己是“睡狮”，一旦被吵醒了会很吓人的。谷歌在科研领域里头，其实也是这么回事。拉一次红色警报，就有可能拎出像Gemini 3这样的大杀器出来吓唬人。现在Gemini 3火了，但是谷歌依然不会去收敛方向，照着唯一正确的方向前进，这不是谷歌的路子。谷歌的路子是什么？还是全面探索，严格追踪数据表现，保留多个可能性，并且不断验证。

普通公司能够解决当前的问题，预言一个未来的热门方向——大家注意，不热门他不去干，去一定是热门方向——他们才会愿意说我花一点精力、花点钱去折腾。像谷歌这个，都是这么多方向，哪块云彩下雨都不知道，到底什么时候做出来也不知道，就开始撒人、撒钱进去干活去了。在普通公司里头，能够去预言一个热门方向的，就已经算是很强的了。大量的都是别人做出来，特别是谷歌做出来，他在后边再接着跟着改。而且这些公司实在是搞不清楚什么是热门方向，或者热门方向搞不定怎么办？还有一条最简单的路：上谷歌挖人，或者直接从谷歌出来创业。这个就是普通公司跟谷歌之间的差异。所以谷歌呢，在科研领域里头完完全全就是一个怪物。

总结与展望

好，最后总结一下吧。谷歌Deepmind的CEO哈萨比斯，携Gemini 3成功之势参加了Axios AI大会，说再有一到两个AlphaGo级别的突破，就可以实现AGI了。这两个是什么呢？就是世界模型以及智能体系统。可能要5到10年，把这两个实现了以后，我们就达到AGI了。

本节目的特点，咱们八卦了一下哈萨比斯的开挂人生，也稍微介绍了一下谷歌这个绝对的科研领域的怪物。我们也希望谷歌，以及所在谷歌里头工作过的这些人，未来还会给我们带来更多的惊喜。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

谷歌一出手，OpenAI的“凛冬”真来了？山姆·奥特曼内部备忘录罕见示弱，承认可能暂时落后｜Google vs OpenAI、AI Race、Google、OpenAI

Luke Fan — Tue, 25 Nov 2025 01:18:11 +0000

Gemini 3 Pro和Nano Banana Pro发布之后，OpenAI的山姆·奥特曼开始喊“凛冬将至”了

大家好，欢迎收听老范讲故事的YouTube频道。凛冬将至（winter is coming），这是一个《权游》里边的梗，大家要小心准备了。以前呢，OpenAI每一次发布会之后，都会有一群的创业公司原地死亡。这次谷歌没有开发布会，直接发布了新产品之后，OpenAI虽然不至于原地死亡，但是凛冬将至了。

奥特曼的内部警告：“凛冬将至”

山姆·奥特曼到底是怎么说的呢？对外肯定不能跌面子，讲的是祝贺谷歌发布了Gemini 3，看起来是一个很棒的模型。但是曝光的一些内部备忘录里边，寒意已经体现出来了。奥特曼罕见的表现出了危机感，直言公司当前的氛围充满了不太妙的低迷气氛，大家都觉得有问题了。

OpenAI如今不得不拼命追赶，谷歌的AI进展可能给OpenAI创造暂时的“经济阻力”。大家注意，这个词叫“经济阻力”，它的收入可能会有问题。如果收入有问题的话，他前面画的1.3万亿这种大饼，这是会出大问题的，会让整个行业崩塌的。

现在，山姆·奥特曼要求团队进入战时状态，聚焦长远，即便意味着我们在当前阶段会暂时落后，也要押注更有雄心的突破。这个非常非常正确。首先，他承认了“我们现在可能暂时落后”，而且一段时间未必追得上。但是，如果只是跟着谷歌的脚步往前追的话，这是没法整的。因为谷歌最擅长的事情就是极限拉扯、极限迭代升级，你像Chrome到现在100多版了，安卓一年一个大版、一堆的小版，所以任何想在这后边跟版本的人，都会被谷歌拉死的。你要想跟谷歌竞争，一定要跳到谷歌外面去，自己做一些完完全全创新的东西，让用户有感知的东西，这个才是需要去干的活。

而且，山姆·奥特曼讲到，公司的估值虽然很高，但是要清醒看到，我们还有不少的功课要补，AI研发的严冬考验就在眼前，OpenAI必须奋起直追了。这也就是“凛冬将至”的出处。

大家还记得国内互联网企业是什么时候开始喊这句话的吗？谁喊的？任正非喊的。任正非喊“我们要让大家感受到寒意”之后，华为确实有在裁员，但是业绩并没有大的问题。但是华为身边的这些公司，就在大量的原地消失，直接就不见了。这就是凛冬到来的时候，我们会看到的景象。

Gemini 3 Pro到底有多强？

Gemini 3 Pro到底强到一个什么样的程度，能让行业公认的老大OpenAI的山姆·奥特曼发出“凛冬将至”这样的声音呢？

我这几天呢，其实一直在用Gemini 3 Pro，本身感受并没有那么明显，只是觉得快了很多，回答的质量高了很多。Nano Banana Pro，那简直是强到没有朋友。

实战对比：Nano Banana Pro vs. 即梦4.0

我拿Nano Banana Pro跟国内的“即梦4.0”比较了一下，我的提示词是什么呢？说：“你给我设计一个北京烤鸭为主菜的北京宫廷宴菜馆的菜单，主要的菜品要有配图，要写上菜品名，要有这个菜品的配料以及口味的简单描述以及价格，其他的菜就不需要这个图片了。”

两边都干活去了，其实干出来的结果都还不错。先说即梦吧，即梦呢画的很漂亮，上头也写着是多少多少钱一只烤鸭，烤鸭画的也还可以吧。但是呢，它在菜单里头混入了宫保鸡丁和麻婆豆腐，这两道菜其实是川菜，它不是北京菜。而且呢，它里头选用的北京菜京酱肉丝，它配的图呢是一个红烧肉的图。京酱肉丝，你里头必须得要有肉丝，得是条状的；而红烧肉是肉块，到最后画出来的是个肉块，就出现了这样的翻车现象。

Nano Banana Pro画的图是什么样的呢？非常的漂亮，上面是北京烤鸭，然后呢是其他的各种北京菜、老北京炸酱面呀，没有任何川菜混在里面。但是它也有一个bug，就是它写的价格是“文银多少两”，这个是很有趣的一点。即梦的这个价格都是58、68，相对来说是比较准确的。

这个例子大家看出来差在哪了吗？它们画的图，艺术感其实没有太大区别，差就差在：Nano Banana Pro自己是一个完整的模型，它把AI agent的活干完了，他自己在这个模型里头搜索了、思考了、推理了、研究了，然后把一个正确的东西画出来——但不能说一点瑕疵没有。而这个即梦干的活是什么呢？先调用了外部的工具，它可能也搜索了一些，甚至可能连搜索都没搜索，它可能调用的是豆包的这种大模型，使用豆包自己的知识体系，进行了一定的思考和生成，然后就去画图了。其实画的图两边差异不大，差异大就大在你到底是原生的模型进行思考、进行推理、进行搜索，还是说我是外部的。画的质量其实是一样的。

谷歌的新武器：Anti Gravity IDE

另外呢，这两天还试了一下Anti Gravity，它叫“反重力”，谷歌这次出的IDE。当然，这种产品大家要试用的时候，一定要注意一点是什么？不停的升级。因为这种产品迭代非常非常快，今天我去升级了以后，发现已经跟我第一天下载这个产品完全是天翻地覆的变化了，大概升了两个版本。变在哪了？因为我下载这个产品的时候，Nano Banana Pro还没发布呢，今天升级上去以后，已经把Nano Banana Pro挂进去了。这个产品是谁做的呢？就是当时谷歌花钱收购了Windsurf团队的核心成员，让他们进来给做的。所以这个产品做的呢，还可以。

这个产品现在彻底打通了MVC。这个什么东西？我们写程序的时候呢，一般是把程序分成三块儿：model、Controller和view这三块儿。model呢是所有跟数据相关的，你数据模型是什么样的，数据底层是什么样的，这种底层的一些API接口，这些都在model里头。Controller呢是各种的业务逻辑，写在这块。view呢是所有的让大家能看得到、能够交互的东西，就是视图。

为什么写程序会把这三块分开写呢？就是为了这三块可以让不同的人去做，把接口留清楚，就可以独立的去进行更新，而不要说眉毛胡子一把刷，牵一发动全身。为什么要专门强调这件事呢？因为以前的AI编程的工具，或者是Web coding的工具，他们主要是做后端，虽然前端也做一些，但是呢对于画图设计，还是要差一些的。

现在就不用费这个劲了。你直接向它描述，我今儿向它描述，我说：“你给我去做一个读书软件，我要求是羊皮纸的背景，要有各种图书相关的元素进去。”这个Anti Gravity就直接调用Nano Banana Pro去给我画图去了。先给我生成了一个羊皮纸的背景，然后呢给我生成了一个古色古香的页头，就是像那种花体字这样的东西，然后呢给我生成了所有的、跟看书相关的图标：有打开的书、有合起来的书、有笔，生成了全套的图标，还给我生成了一本书。生成完了以后，那边写程序把这玩意儿全挂进去了，这个是多么开心的一件事情！

谷歌真正的可怕之处：生态与“微信式逆袭”

通过Nano Banana Pro和Gemini 3 Pro更新的情况来看，现在呢，谷歌已经真的开始靠谱了，有用了，可以干活了。而且谷歌最可怕的还不是模型变强了，谷歌最可怕的是用户生态强。但是呢，Gemini现在的月活用户数是6亿多，比GPT的还是要少一些的，大概少个一两亿的样子。但是谷歌后边还有Gmail、Google Workspace、安卓、YouTube这么多用户群体，这么多用户场景在那等着它呢。

所以，谷歌一旦实现了AI突破的话，这对于OpenAI来说，不能说灭顶之灾，但是已经是非常非常危险的了。这也是为什么OpenAI的山姆·奥特曼会去警告员工公司营收增速可能下滑的一个原因，而且告诉员工说：“我们不再是战无不胜的了。”

现在呢，我们其实正在看一场微信一样的逆袭。什么是微信一样的逆袭？就是在微信出现之前，其实国内出了很多这些移动端的即时通讯工具。腾讯在PC端是老大呀，那么我怎么办？直接用PC端的QQ跟你们竞争，又竞争不过你们，因为包袱实在太重。说：“算了，咱们去做微信。”然后呢，是携着原来QQ积攒下来的社交关系链，直接碾压所有对手，就把当时的米聊、各种的talk、这talk那talk什么，全都给干翻了。所以，这就是一次微信式的逆袭。

那你说只有OpenAI感受到了“凛冬将至”吗？咱们再想想前面讲的华为任正非的故事，老大感受到凛冬将至了，那你原地死亡的人一定会更多。

“模型即应用”：创业者的残酷现实

Gemini的胜利，再次重申了AI创业领域里头一个非常让人不喜欢的论点，这个论点就叫做“模型即应用”。刚才我讲了Nano Banana Pro跟即梦之间的差异的例子，大家就知道为什么“模型即应用”是最厉害的。这个，虽然很多做应用的人非常非常讨厌这一条，但是目前来看，这条依然成立。

原来那些做应用开发的，特别是这些做AI agent的开发的，比如像ConflUI、像Cursor这些人，现在一定是感受到巨大的压力。如果你说我在这个圈子里头，还不在ConflUI和Cursor这样的领军位置的话，就可以直接宣布原地死亡了，就不用再去努力了。那些通过模型的调整、做复杂提示词工程和流程管理的，基本上是天塌了，因为这一部分活现在都直接被模型功能给覆盖掉了。

特立独行的谷歌：AI圈的“局外人”

这回是不是一个戳破泡沫的钉子呢？是不是谷歌直接逆袭了以后，AI泡沫就破了呢？很多人说：“不对，这不是AI又往前走了吗？AI有用了呀！”

但是呢，谷歌在整个AI游戏里边的位置是很尴尬的，参与了，但好像又没有参与的一个位置。你说谷歌是不是在做AI？肯定是，Gemini 3出来了，它不做AI谁做AI呢？而且它也有投资，它投资了Anthropic。但是呢，它又没有彻底参与到整个硅谷的AI军备竞赛里头去。前面咱们讲什么“击鼓传花”呀，“左脚踩右脚”，这里头跟谷歌其实关系不大。它没有用英伟达的芯片，它用的是自己家的TPU；它也没有投资了谁谁谁，买一堆芯片，然后再去建这个机房，它都是自有资金。跟外边讲的OpenAI投资什么项目、英伟达投资OpenAI、AMD投资OpenAI、OpenAI再去到Oracle那去订购算力订单……跟整个这个循环是没关系的。

那谷歌为什么这么另类呢？它为什么不跟大家一起玩耍呢？一个幼儿园里头，这个小朋友就看着这么奇怪，这么不合群呢？原因很简单，大家知道OpenAI，这个open要open谁呢？就是要open谷歌呀。建立OpenAI的原因，就是因为谷歌太不开放了。所以，整个的AI产业链，基本上都是从谷歌内部孵化出来的，每一个在做AI创业公司的人都在讲：“谷歌有问题，我要出来反它，我要出来干它。”它是这样的一个位置，谷歌在整个AI领域里头可以算是举世皆敌。

OpenAI这头，微软给了钱了，那头软银给了钱了，跟英伟达还有关系，跟AMD有关系，跟Oracle、亚马逊，它全都有关系。谷歌说：“我跟你们都没关系，你们都是从我这来的，我要收拾你们。”所以谷歌在整个的AI圈子里头，是最另类的一个，就像相声界里的郭德纲一样。

一旦谷歌成了，整个行业都会瑟瑟发抖。因为英伟达的芯片不再是必须的了，现在使用谷歌TPU，人家也把这事搞定了。OpenAI、微软还要继续回去跟谷歌争夺用户和应用场景了。原来说OpenAI的技术最好、用户体验最好，所以我不需要去跟你抢用户场景，用户自然而然就向我这边迁移了。现在谷歌的用户体验做的也很好了，那大家回去了，Office跟Workspace接着打，只能变成这样的一个状态，那对于他们来说是非常非常不利的。

而Oracle、Coreweave这些下游厂商建立起来的这些算力中心，就未必有人用了。很多人在去质疑，说你OpenAI四处建算力中心，四处去签这种巨额的算力协议，这到底能不能实现？现在就悬了。谷歌的Gemini模型是不会跑到这些算力中心上的，谷歌的这些Gemini模型一定会跑在谷歌云上，跟他们是没关系的。“击鼓传花”的游戏有可能就玩不下去了，所以整个行业现在都很害怕。

凛冬已至，创业者何去何从？

Gemini 3 Pro发布之后，创业者应该怎么办呢？咱们不能说“凛冬将至”，大家躺平，对吧？这肯定不是老范的风格。

不要去做大模型了。中国几个大厂除外，像什么豆包、千问，他们愿意折腾去折腾去。因为为什么？谷歌进不来，OpenAI也进不来，他们还是有一个巨大的市场可以去玩耍的。甚至在国内证明成功了以后，还可以开源出去，给老外那边再去搅和搅和。以后的模型呢就是大厂竞争了：谷歌、OpenAI、xAI和Anthropic，基本上就是他们四家搞了。至于Meta在里边要站在一个什么位置呢，现在还看不太出来。如果你说我一定要整点什么模型呢，可以在中国开源模型的基础上呢，做一些小的调整，重新训练新的模型。这个阶段已经过去了，现在剩下这四家——谷歌、OpenAI、xAI和Anthropic——也未必最后都能活得下来。那些单纯的图片、音视频的模型，最终应该都会被顶端的这些大模型公司统统干掉，像Midjourney、Flux未必能活得下去。
不要去做那些模型未来会覆盖的领域。模型会越来越强，这个是必然；模型会越来越快，这个也是必然的。还有一个必然是什么？模型一定会越来越便宜。你说：“哎，我现在尝试去做一个应用，我在哪个地方用更便宜的模型，哪个地方用稍微贵一点的，达到一个在当前的成本下最好的效果。”别费这个劲！等你把这个产品做好了、上线的时候，那个最贵的模型的成本也降下来了。所以不用费这个劲，咱就直接使最贵的就完事了。那些只做工具调用、流程安排、结果确认的工具，或者是AI agent的产品，都会被模型覆盖掉的，大家就别费劲在这块卷了。
要做“时间的朋友”和“平台的朋友”。这个就是在移动互联网时代里头我们反复在强调的事情，现在AI时代也在走这条老路了。什么叫“时间的朋友”和“平台的朋友”？以前做安卓App和iOS App的时候，我们一定要做苹果公司和谷歌公司的朋友。我们要考虑他们未来向哪个方向发展，我不能挡在人路上，那就不是“时间的朋友”了。我们也要考虑谷歌跟苹果这样的大平台，他们的诉求是什么，你不能把人家该干的活给人干了，那就不是“平台的朋友”了。所以我们要做时间的朋友，要做平台的朋友。而平台的话，在新的时代里就是这些大模型——咱们讲这4家公司的大模型。时间会让模型变得越来越强大，开发者必须在这个大前提下干活，你不能挡在这个模型的路上，不能随着时间的发展被模型淹没掉。
要跟具体的用户和场景打交道。模型就是新的平台，再强大，其边缘依然是粗糙的。特别是在美国，他们这些大厂，他不会把每一个细节和边缘、方方面面都照顾到的。所以在这个时候，依然是需要我们去做很多的这种边边角角的事情。而且做了这些边边角角事情以后，未必没有机会去发展出新的超级App来，就像现在微信在iOS和安卓上变成超级App，这个过程是一样的。所以呢，不要觉得这个生意小、这个生意不挣钱、这个生意用户少，我们就不去做，先努力地扎下去再说。利用模型的能力解决具体的需求，与行业和场景进行深度的捆绑，成为行业专家——这就是咱们现在真正这些开发者或者是这些创业者该去干的活。不要尝试去编写代码弥补模型缺陷，直接等模型升级就行了。特别是Gemini 3 Pro发布以后，马斯克说了，我明年一二月份就要去发布Grok 5，那个时候我们就直接上6万亿大参数模型，大家等着看吧，拭目以待就可以了。

跨越临界点：零和博弈的终结与新机遇

最后，凛冬将至，春天可能也就不远了。到了冬天了，后边就应该是春天了嘛。

谷歌已经基本上达到临界点了。什么是临界点？AI可用的临界点。这个东西能干活了，能够挣钱了。跨过临界点之后会怎么样呢？我多吃一口，你就少吃一口，市场规模是固定的，这玩意就叫零和博弈。一旦跨过临界点，这个零和博弈就被打破了，行业就会大爆发。以很多以前没法做、不值得做的事情，现在就有经济价值了。在这样的一个情况下，就会有很多的新的应用、新的产业就会产生。

我们没有4G网络的时候，谁会想到说大家可以刷短视频、刷抖音这样的东西？抖音会成为超级App，谁也想不到这个东西。因为那个时候网很慢，服务器的带宽也很贵，用户的手机带宽也很贵。但是你一旦过了这个坎，“哦，还可以干这样的事情”，整个变出了一个新的行业出来。

但是呢，要提醒大家，现在的很多投资，特别是股市上面的很多泡沫，还是有很大的打水漂可能性的。特别是OpenAI和英伟达之间的这种“左脚踩右脚”的生意，还是很危险的。当然了，全行业都会努力地拯救这些投资，这个跟谷歌无关。对于谷歌来说，叫“杀死你，与我无关”，这句话引自于《三体》。

总结

最后总结一下，Gemini 3 Pro发布了，绝对是挑战与机遇并存，不同层次的AI行业参与者，必须要重新给自己找到定位了。

好，这就是咱们今天要讲的故事：凛冬将至。

感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Gemini 3 Pro对决GPT-5.1：理科状元与全能大师终极一战，谁在定义AI的下半场？｜Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

Luke Fan — Thu, 20 Nov 2025 00:43:05 +0000

Gemini 3终于发布了，这一次是真王炸了吧？

大家好，欢迎收听老范讲故事的YouTube频道。

千呼万唤始出来：Gemini 3的发布背景

2025年11月18日，谷歌Gemini 3 Pro Preview版本就这么上架了。为什么要用这样的一个词，“就这么上架了呢”？因为第一，它是千呼万唤始出来。大概从10月份开始，大家就开始传说，谷歌要开始上Gemini 3了。传来传去始终也没上来，到11月份说这个月肯定上。我还听说过是11月22号上，还听说过最晚12月份上，大家一直在等待这样的一个产品。

跟它一起传的还有另外一个产品，叫Nano Banana 2。因为上一次谷歌引起大家关注、引起大家去下载和使用的产品呢，就是Nano Banana 2，这个生图和改图的模型。这一次说Gemini 3跟Nano Banana 2一起来，而且都在进行测试，甚至很多人信誓旦旦说我用到了，我已经看到了。谷歌从Nano Banana一开始，就采用了一个很奇葩的玩法，就是在大模型发布之前，先给它们起个名字，隐姓埋名，跑到其他的这种测试平台上去测试去。大家觉得这个名字很奇怪，不知道是谁，测完了以后发现巨好，这是不是Gemini 3？那个生图模型是不是Nano Banana 2？大家都在猜这种事情。

巨头争霸：你方唱罢我登场

Nano Banana 2还没有发布，据说是在这个月或者下个月要发布。但是Gemini 3就这么直不愣登就来了。在用户们剥离层层迷雾，寻找Gemini 3和Nano Banana 2期间，其他的大模型厂商也在争先恐后的发东西，比如说GPT-5.1、GPT Atlas（也就是OpenAI的浏览器），还有Grok 4.1。这回是不是真的要来了？为什么会有这样的猜测？因为这帮大公司就跟小孩似的，特别喜欢截胡别人，我要先几天给你发布了，把你这个热点给你抢下去。最爱干这种活的是OpenAI。只要是谷歌说明天开谷歌I/O了，要开大的发布会了，他一定在这个前面一两天给你整点事出来。最有名的是在去年谷歌I/O之前的一天，OpenAI发了GPT-4o，一下就把大家震惊住了。

这一次的话，Gemini 3之前发布的非常接近的一个产品是谁呢？是Grok 4.1那个产品，也是非常神奇的一个产品，有机会再跟大家细讲。那你说这大公司，他就不能保个密吗？这真没法保密。你要开发布会，要租场地，要动用公关公司，有多少资源在这折腾，所以你是没有办法保密的。即使是你说我不开发布会，我就是偷偷的直接上线了，甭管是谷歌的人，还是Grok的人，或者是OpenAI的人，大家原来都是老同学、老同事，你想瞒真瞒不住。所以在他们的这个圈子里头，是没有什么秘密的。

发布前的“小插曲”

在等待Gemini 3期间，我们还遇到了对AI泡沫的质疑，大空头来做空来了。我们还遇到了巴菲特加仓谷歌，因为他原来不怎么买这种科技股或者是互联网公司的。巴菲特原来持仓里边，最大的科技股就是苹果，其他的像什么谷歌这些公司，他基本上不买的。突然减持苹果，大规模加仓谷歌，而且是在巴菲特退休之前的最后一单，说巴菲特是不是老爷子知道点什么了。

新的发布潮流：不开发布会，直接上线

就在这样的氛围下，谷歌就突然发布了。而且它的发布没有发布会，这也算是一个新的潮流吧，就是不开发布会，直接写一篇长文，或者写一篇博客，然后产品就直接上线了。这个是最近这一两年里头，突然流行的一种新的玩法。现在的产品发布都是什么呢？第一步，先隐姓埋名，跑到其他的，比如像Open Router这种大模型平台上面去进行测试。等这个传的满城风雨了，啪，一篇文章扔出来，产品就上架了。

Gemini 3 Pro Preview 在哪里可以使用？

现在这个产品可以在哪用呢？

第一个是AI studio，大家上aistudio.google.com上就可以使用Gemini 3 Pro了。大家注意，它是Gemini 3 Pro Preview，它后边有Preview这个单词，所以未来这个产品应该还会进行快速的迭代，所以有什么做的不太合适的地方，请多担待。
第二个，Gemini的网站也可以直接使用了，就是gemini.google.com上，现在也可以选择Gemini 3 Pro Preview这个版本了。但是呢，它的客户端上，Gemini的APP上还不能使用。
另外呢，他们还发布了一个IDE，这个IDE呢叫Anti Gravity，叫做反重力，里面带的Gemini 3 Pro的这个版本，大家可以拿它去写程序了。

这次是真王炸了吗？大模型差异的感知难题

这次是真王炸了吧？是不是比别人都遥遥领先很多呢？大模型的差异，想要让人有感知，已经越来越困难了。就像是两个人站在你面前，一个人是高考状元，另外一个人呢是高考第二名，你能够通过聊天的过程，把他们俩谁是状元分别出来吗？你分别不出来的。所以现在的大模型，他们的智力已经在很多方面远远超越人类了。所以我们再想去评估说哪个大模型有一定的差异，非常非常困难。

很多国内的大模型发布了半天，吹了半天牛，大家为什么没感觉呢？比如像什么GLM 4.6、千问Max呀、Kimi K2 thinking或者是Mini Max M2，这些模型发出来以后说我怎么这么强，大家没感觉，因为你很难感受到他比别人强在哪、差在哪。虽然有跑分，但是现在大家不怎么看跑分了，跑分是比较容易刷的，我们可以刷题就可以直接把跑分刷上去，所以大家不看了。

而国际大厂的发布的话，通常还是会有体感的。比如说最近发布的GPT-5.1，它要在5.0的基础上多了这个点一出来，确实是更人性了一些，说话不再那么愣了。Grok 4.1情商更高，在所有的跑分里头，马斯克的Grok 4.1是情商跑分最高的。而Gemini 3 Pro绝对是理工科学霸的感觉，在推理这一块，它遥遥领先超过其他所有人了。

Gemini 3 Pro Preview：核心特性一览

分数呢还是要跑的，在很多的跑分方面，要比GPT-5.1、比Grok 4.1、Claude 4.5都要强非常的多。它最关键的领先就在于推理能力，真的是遥遥领先。

Gemini 3 Pro Preview到底有什么新特性呢？

超强推理：待会咱们就主要讲这个超强推理。
原生多模态。
开发者跟企业非常友好：它主要是给程序员和理工科的人去准备的。
原生的工具支撑：待会咱們去讲什么叫原生工具支撑。
速度飞快：这个挺难想象的，跑的比原来的模型快好多。

深入解析：Gemini 的推理能力进化之路

那么Gemini的推理到底是怎么进化到现在这个状态的呢？首先看跑分，他们使用了一个叫LMArena Elo的一个跑分，这个跑分呢大于1500分了。这个非常非常关键，是人类做大模型第一次超过1500分，它大概是1501分，从来没有其他大模型超过1500分。那什么意思呢？

1000-1200分：入门级会答题了，但是呢逻辑是很容易崩的。
1200-1400分：中级的，有一定的推理能力。
1400-1500分：强者，接近当代顶级了。
超过1500分：进入超强推理者级别了，明显比普通强者要更稳定、更强的一个状态。

现在呢，GPT也好、Claude 4.5也好、Grok，包括国内的这些模型呢，一般都是在1480-1490之间晃悠，但是很难超过1500。而这个Gemini 3 Pro是第一次超过1500。

推理范式的演进

谷歌的推理范式到底是怎么一步一步走到这的呢？所有这些推理模型，第一步走的都是叫链式推理，先干什么后干什么，这叫链式推理。从链式推理再往前发展的叫树状推理。我除了先干什么后干什么呀，我可以分叉了，我走到某一步搜索完了一个结果以后，我是不是可以一下分出5个X来，把这五个分支都处理掉，这叫树状推理。树状推理再往后呢，叫图状推理。这个有什么区别呢？树是只允许分叉，不允许合并的，走到每一个节点只能是越分越细，你不能说我走着走着再把它合并起来。你如果说走着走着又合并起来了，还可以进行反复的去确认，正向走逆向走都可以了，这就是一个图状推理了，这就更进一步了。而最后一步是什么？就是在图的每一个节点都进行工具调用的这种推理。谷歌呢，现在Gemini 3已经走到这一步了。

像刚才咱们甭管是链式的，它也是很多个节点，先干什么、后干什么、最后干什么，这是每一个节点里头正常情况下它是不调用工具的。它都是说我自己先想明白了，最后我把整个都想清楚了以后，我们再去调用工具。或者说我一开始先调用一次工具，比如说我搜索了或者读文件了，读完了以后我再去推理，它是这样来工作的。树状推理呢也是这样的，在每一个节点，我都是在大模型内部使用，或者说我根据你提供的上下文去干活，最后给你一个结果。如果要调用工具的话，要么在开始调，要么在结尾调，一般情况下不会在推理的过程中去调用一大堆工具的。而现在谷歌说咱别费劲了，我们在每一个节点上，图节点有可能是分叉的、有可能合并、有可能正向、有可能逆向的这些节点上，我们在任何一个节点上，如果有需要，我就去调用工具了。而且我能够保证它不崩。别人不是说不想干，别人你要想在这个中间节点上调用工具，他有可能逻辑就直接崩掉了。谷歌说我们不用担心这个，我们逻辑特别强，中间不崩。这是Gemini 3这一次做出的最大的创新。

与其他模型的对比

其他几家是怎么干的呢？

OpenAI (GPT)：它从来不公开这件事，所以GPT是个黑盒子。现在呢，猜测它可能也是这么干的，但是具体是怎么实现的，OpenAI是三缄其口，这压根没说。
Claude：走的是另外一条路，Claude走的是外挂的路，它的很多的工具调用都是通过像Claude code呀、cursor或者是Claude的客户端，它通过这个东西来去调用的。所以导致什么呢？我们可以在Claude code里去换大模型，因为调用工具的部分是外置的，不是在模型里面的。所以呢，它的调用一方面灵活性提升了，但是呢，它调用模型的这个过程稍微有一些割裂。
国内（如Deepseek）：走的就是超强的这种推理链，在这个链式推理的基础上不断的往前推进，但是他们在调用工具上就要稍微的差一些。

“衡水中学”式训练法？Gemini 3是如何炼成的

Gemini 3他到底是怎么训练成这样的？我看了他的训练介绍以后，我觉得这玩意是衡水中学的老师给训练的吧？

改变工作方式：预测下一个正确的思维过程

首先呢，Gemini 3改变了工作方式。原来大模型呢是预测下一个词，我下一个词放哪个词出来是最优解，它是这样来工作的。但是呢，Gemini 3不这么工作，它的工作方式是预测下一个正确的思维过程。你就不要给我下一个词了，你直接给我一个下一个你要干嘛，然后我们来看看这个是不是最优解。所以在这块呢，就已经发生改变了。

训练数据：高质量合成数据

那你说我要想训练Gemini 3，我到底哪找数据去？数据是不是已经被大模型吃干抹净都用完了呢？谷歌已经承认了，所有的人类数据早就被大模型收拾干净了。所以这一次，Gemini 3使用的数据是合成数据。怎么合成呢？是用谷歌自己最强的模型阅读人类知识，再生成高质量的推理步骤。它直接训练的都是推理步骤，把所有的教科书、所有的科技论文都通过AI重写，生成训练数据。大家注意，这个里头有两个关键词，第一个关键词叫“所有”，谷歌基本上是可以认为它有所有的信息的，他把他能够找到所有的信息都塞进去了。第二个关键词叫“重写”，我们写的很多论文也好，或者是很多教材也好，为了让人类可以很好的理解，或者说为了抖个机灵，里头还有非常多的修辞，有非常多的人文的东西在里面，比较啰嗦的东西在里面。他通过重写把这玩意全去了，变成非常非常原始、非常简单的这种推理步骤。你如果遇到这样问题应该怎么推，遇到那样问题怎么推，他是拿这种数据去训练的。

原生多模态：Video + Code 配对

而多模态的话是原生对齐。怎么个原生对齐法？原来咱们也号称是各种多模态模型，是用图片跟文字去配对的。就是这是一张图，后边呢是一堆文字，我们把这个东西堆到大模型的数据里头去训练，训练完了以后呢，他就可以去反应那边是一个马还是一个驴，还是在打仗还是什么，他拿这玩意去训练的。现在呢，谷歌用了一个叫video和code的配对。你给它一视频，比如说是一个小球落到地上的视频，后边呢你配的不是一个文字“小球掉地上了”，而是一个重力加速度的Python代码。他把这样的一个视频和代码的对儿放到数据集里头去训练多模态模型去了。所以呢，他的模型上来就是世界模型，他是理解物理世界的各种规律的，这个很恐怖。

训练策略：过程奖励模型

有了数据了，那下边怎么训练呢？训练策略也很重要。第一个叫过程奖励模型 (Process Reward Model)，这个是Gemini 3跟其他人不一样的。现在的大模型呢，拿了一大堆数据去给你去做预训练去，训练好了以后，这个初级模型呢要去做强化学习，让他回答问题，然后让人去纠错。Grok 4.1就属于强化学习做的特别好的这种模型。谷歌说别费劲了，人看不过来，原来都是人看着，现在咱们直接派一个模型看着。他专门训练了一个找错的模型，让他去看着Gemini 3这个预训练模型去做后续的强化学习，然后呢是由人去监督这个找错的模型，看看他工作的状态行不行就OK了。真正底下干脏活累活的已经变成大模型了。针对推理步骤进行评判，即使结果是正确的，只要中间步骤有错误，通通打回去重来。这就是为什么是可以做推理冠军，就是这样了。你做题做到10步的过程中，必须每步都对，然后得出正确答案，我们才认为你是真的学会这道题了。你说我推了中间有三步是错的，但我答案是对的，对不起，从第三步往后通通都没分了。他是这样来控错的。所以我说为什么这个训练过程让我想起了人大附中和衡水中学这种感觉呢。

训练创新：预训练阶段即集成工具调用

在训练上呢还有一点跟以前的大模型有一个很大的区别是什么，就是Gemini 3的工具调用是直接在预训练里头做的。传统的大模型，甭管是OpenAI的，还是Anthropic或者是国内这些模型，他们都是先把模型训练好，然后呢通过强化学习再把工具调用，哪个地方该搜索了、哪个地方该读什么文件了、哪个地方应该去调用哪个工具了，再往后边再去加进去。Gemini 3它是在预训练的时候就直接把这些搜索呀、调用工具呀这些东西作为初始数据就给训练到模型里去了。这也是为什么谷歌的Gemini它可以在推理的任何一个节点上去进行工具调用，而别的大模型干这事就比较费劲，因为他们都是先做好基础后训练出来的，这个事就比较难了。这就是Gemini 3训练的一个创新点吧。

为何如此之快？揭秘Gemini 3的速度奥秘

那你说为什么Gemini 3这么大的模型还飞快呢？它叫Gemini 3 Pro，它不叫Gemini 3 Flash。过个一两个月吧，Gemini 3 Flash应该还会发布，那个时候肯定会比Pro版本要快更多。Gemini 3 Pro就已经比Gemini 2.5 Pro要快非常非常多了。原因呢几个：

硬件：谷歌自己家的TPU V6版本已经全面都装到算力中心里去了，都开始干活了，所以速度很快。而且你想他自己设计的芯片，自己做的算法，那一定是配合的紧密无间，没有任何问题。
架构优化：原来呢，这些模型都是MOE模型，叫做符合专家模型。但是现在呢，Gemini 3叫多塔MOE。什么叫多塔呢？就是你的图文、声音、视频、代码，你到不同的塔里去干活去，每个塔里还有一个专家小组在等着你呢，所以他这样速度就很快了。
投机采样：最后呢，他们使用了一个东西叫投机采样，就是用一个极小的草稿模型先快速的猜出后边的几十个词，然后由大模型一次性验证，这比大模型一个字一个字往外蹦要快非常非常多了。

全面领先？四大顶尖模型角色定位

Gemini 3现在到底算不算全面领先了呢？这么讲吧，Gemini 3 Pro就是一个理科状元加上多模态分析师的一个形象。但是呢，你跟他聊天也像是在跟理科状元聊天。你想想理科状元那个语气、语调都是什么样的，大家自己脑补一下，就知道Gemini 3到底擅长干什么、不擅长干什么了。

Grok 4.1：是互联网老司机加上自信段子手，没有什么他不敢说的，胆子比较大，情商测试第一名。你如果想找人去陪你聊天，想聊着开心，你就找这个Grok 4.1没跑，在这点上它要比Gemini 3要强很多。
OpenAI家的GPT-5.1：算是全能型创作大师加上生态整合之王。因为毕竟他是老大嘛，头一个做出来的，所以他生态整合，就是跟各种工具的结合，还是非常非常好的。而且呢，他很适合做各种的文档创作，像是一个四平八稳的文员吧。
Claude 4.5 sonnet：算是语言艺术家加上安全派哲思者，它很适合做各种的合规、企业内的这种需要进行反复验证的这种文档，它写的要比GPT-5.1还要好一点点。GPT-5.1更创意一点吧，Claude 4.5 sonnet更擅长做长篇写作、逻辑清晰、道德判断、企业合规表达。

而Claude 4.5呢原来是编程冠军，现在的话肯定要经受Gemini 3的挑战了，到底哪个好使哪个不好使，要过几天再出结果。

至于国内的大模型呢，还在努力追赶吧。国内大模型的唯一优势就是开源，巨大的模型开源呢，你们拿愿意拿回去自己折腾都没关系。

总结

最后总结一下：

今天的内容全部是Gemini 3 Pro整理生成的。如果哪说错了不要骂我，去骂Gemini 3 Pro。
第二个，我其实呢并不喜欢用Gemini 3 Pro，今天用了一天，原因也很简单，跟理科状元聊天还是有点累的。
AI还在快速的发展，Gemini 3真正的价值不是说它给我们训练出了一个理科状元，而是提出了一套新的方法论，怎么能够训练出一个理科状元来，这个是非常非常有价值的。有卡的公司就可以照着这个思路去尝试了。
至于没卡的公司怎么办，那就是另外一回事了。希望这一轮对AI泡沫的质疑可以快一些过去吧，Gemini 3 Pro确确实实是可以解决很多原来无法解决的问题的。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

别只盯着股价了，阿里真正的翻盘点在这里：全栈布局+开源大旗，它正在复制英伟达“左手倒右手”的高明玩法｜阿里巴巴 AI 大模型阿里云战略通义千问云计算

Luke Fan — Wed, 01 Oct 2025 00:45:14 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，阿里到底是不是中国的AI之光所在呢？

这几天正在开阿里的云溪大会，9月24号到9月26号开。这一次的口号呢，叫“云智一体，碳硅共生”，提的口号很神奇。当然，最神奇的还不在这，咱们待会往后看神奇在什么地方。4万平米的展厅，500多家企业参与，6万多人到现场，这个是一个非常大规模的会。

那么还宣布了什么呢？与英伟达合作做物理AI。现在呢，谁也不敢宣布说与英伟达合作，买人家的这个RTX6000，现在只能说我们做一个别的合作吧。什么是物理AI呢？就是做机器人相关的AI，做机器人的仿真训练、量化强化学习和仿真测试，做这玩意的。英伟达在这块也确实是很强。阿里呢，也会去投资很多的这种机器人公司，所以这个宣布了以后也是一个重大利好。

而且呢，阿里现在绝对是全世界开源AI领域的扛把子。原来最早的扛把子是Meta，出了Llama，出了这么多模型以后，现在阿里接过了这一面大旗。阿里开源的模型，在Hugging Face上基本上是站到最前面的一批了。以阿里开源模型为基础再微调出来的其他的各种模型有几万个，现在基本上属于事实标准的一个状态。所以只要说开源的大模型，大概率是拿阿里通义千问的这个模型去调出来的。那这点呢，其实也很符合阿里的调性，就阿里的这些模型都属于他没有那种很强的这种个性，或者很强的这种能力，但是指令依存度、逻辑推理能力这块都是达标的，这个还是一个很好的底座。

这一次呢，提了一个新词儿叫ASI。从这个词儿呢，我们就可以看出来中美两国AI发展的完全不同路径。原来美国都在玩AGI，就叫通用人工智能，这个东西发展一段时间以后就可以达到跟人差不多的能力了，人能干的事它都能干。那阿里玩的ASI是什么呢？叫超越人工智能。就不用通用了，我们要超过人类。而且呢，是要可以自己去找知识学习，自己迭代自己升级，要快速超越人类。

那你说这里头跟中美两国的AI战略到底有什么不一样的地方呢？很多人一讲到中国AI战略呢，都会想到一个问题，说中国的有知识管控或者内容管控。但是我跟大家讲，这事呢正好跟大家想的是反的。不是说中国什么都不管，而且管的比美国严，但是呢，在做各种实验上，在做各种测试上，在做科技的发展上，中国人是百无禁忌的。什么对不对齐，是不是AI作恶，对社会、对环境、对人类有什么危害，我们先赢了再说，其他的不管了。这个是咱们中国玩的最奇葩的地方。而美国人呢，你可以认为他们是一帮左派，都在这想我的社会责任是什么样的，我要对人类怎么样，我要去开发宪法AI。所以呢，他们是一帮捆住手脚的人。而中国呢，其实我们是一帮现实主义者，只要能赢就行，其他的都不介意，等我赢了以后，我们再说后边治理的事情。所以美国人玩AGI，你别超过人类，你也不要给人类造成什么伤害。中国人就玩ASI，人在哪呢？没看着。我们冲！

这个是中美两国最大的差别。以中国现在这套ASI的玩法呢，我觉得可能会更有市场。做AI这个事情，都是要在大厂大公司里边控制去做的。而大厂大公司的这些人呢，包括国家的这些领导人，或者说这些既得利益者，所有的社会规则对于他们来说都是无效的。他为什么要去考虑社会规则？为什么要去考虑是不是有人受到伤害？他才不管这玩意呢。所以对于他们来说，拿到中国这种百无禁忌的模型再去处理，才是他们真正需要干的事情。至于说管理、过滤，那么我要用一个完全没人管的模型去管这些有人管的模型，这个是很多权力很大的政府他们所思考的问题。就像咱们禁摩一样，警察都骑着摩托车呢。为啥？摩托车方便。但是呢，我不允许普通人骑摩托车。所以呢，我们把警察的摩托车做的很大，开的飞快，但是普通人你们压根不许骑。就通过这一个词上面的一个字母，大家就知道两国的路径有多么大的区别。

前两天不还传嘛，说美国一个飞行员拒绝向以色列运军火，直接给抓起来了。那你说军队真正要的什么？军队要的就是执行命令。我不需要你有善良，我不需要你有人性，我就需要你执行命令。AI也是这样，政府都是希望AI甭管我说什么，你都去干去，不要自己去判断这事对不对。所以在这儿，中国也许会胜出。

讲远了。阿里云溪大会开的时候，股市是买单的。别人认不认咱不管，看看股市的情况：港股涨了9%，美股涨了7%。因为它是在港股跟美股同时上市的公司。而且木头姐直接出来喊大家上车了。木头姐是方舟基金的管理人，但是注意，方舟基金这样的机构呢，是不能上来说你们都买，然后再再去搞其他的。他一定是真金白银自己先买了，也不能说我买了以后喊大家来上车，这事是违法的。他是什么情况呢？他首先他买了，买了多少呢？两只基金一共买了1630万美金的股票，算是方舟基金的一个比较中等规模的操作。而且美国是有规定，这种基金重大操作必须要公开。所以呢，木头姐就趁此公示了，还要跟大家讲一讲说我为什么买，我为什么觉得这事行，他也得去募资嘛。所以这个过程，按照美国的这个法律规定，它是一个正常的披露。

木头姐呢是2021年把阿里整个清仓掉了，现在重新上车。跟大家解释说，我觉得是重新上车的时候了。它到底有什么样的不同的价值模型呢？它首先讲的是PE，PE呢就是你的市值跟你的利润之间的比数。阿里现在是多少？20倍。那20倍这是高还是低呢？你光告诉你一个数，这事是没法比较的。在电商里头算高的，电商里不能看亚马逊，待会咱们再讲为什么。京东的这个PE大概是10倍上下，经常就是个位数，所以京东的PE是非常低的。京东的什么人效比也是极差的，好几十万人你咋人效比。拼多多的这个PE是13倍。所以在这里看呢，阿里20倍其实是挺高的了。

在云计算里头，阿里算低的。谷歌也就是Alphabet，26倍；亚马逊，32倍。你看亚马逊其实跟阿里很像，一边是有电商业务，另外一边的话是有巨大的云计算业务。微软呢，37倍；Oracle呢，是67倍。现在TikTok的案子落地了以后，那还得涨。所以呢，阿里的整个的PE在电商里边算是偏高的，在云计算跟AI里边，它的估值是偏低的。所以木头姐说，我觉得这个位置很好，我要冲上来去搞一下。

AI资本支出，这个是大家都在玩的事情。华人勋跟OpenAI山姆·奥特曼在这玩的很开心。阿里也在讲，我3800亿人民币，500多亿美金的样子吧，要追加资本支出，AI基础设施建设，这个是符合主旋律的。还有什么呢？就是阿里真正比其他人都强的地方是哪儿？就是它的AI的产品线特别全，它真的叫全栈AI云平台，就跟咱们讲全栈工程师似的。大模型自己有，而且很强。投资了大量的AI初创企业，AI agent，AI编程什么全都有。更强的是在哪儿？它还有自己的用户场景，它有电商，还有自己的巨大的用户群和日常的交易数据在这儿。OpenAI其实它是没有用户场景和初用户的，这些玩意都是它后攒的。

木头姐曾经讲过，说他为什么看好X.ai，原因很简单，X.ai有X上面的特有的数据，而且X.ai还有可能会获得特斯拉的数据和脑机接口的数据，以及SpaceX的数据。所以呢，它有独特的数据，这就是它的逻辑。我们经常会去分析一个人的投资逻辑到底是什么样的。我觉得到目前为止呢，木头姐讲的这些阿里相关的这种投资逻辑，还是在我的逻辑认知范围之内的吧，就基本上是认可的。当然了，跟英伟达合作这个事，就是你怎么都要上去蹭一下嘛。

刚才咱们讲的这些呢，都属于金融行业的人他们去算的估值模型的账。深层次的，咱们要去讲一些像我们这种早期投资人去看的东西，就是他的业务逻辑是对不对的。比较一下阿里的竞争对手吧，没上市的公司呢，OpenAI、Anthropic、X.ai、字节跳动，这些呢咱就不去跟这种上市公司比较了，咱们就去比这些上市公司。

微软我们比较一下。它呢，投资了OpenAI，云计算算力投入这一块呢，它第一，花的钱最多。微软实际自己也有模型，但是实在是不好使，所以微软全面在使用OpenAI的模型。微软的用户场景丰富，用户量巨大，它有Windows，有Office，有IE，有Bing，虽然差一点但还算是有吧。阿里呢，投资了一大堆的这个AI企业，只要是国内的AI的大模型公司，基本上他全投了。投完了以后，通通都上他那去使用他的算力去。这个是不是跟微软就很像？云计算方面，在国内的阿里云算是最大的，所以跟微软能够对标上，没毛病。但是有一点它要比微软强，就是微软的模型像屎一样，阿里的模型真的是还可以用，不算最好用的，但真的是可以用。特别是千问32B、35B的这几个模型，还是非常非常好用的。用户场景也很丰富，虽然它没有Windows，没有Office，但是它有淘宝和天猫，有这个新浪微博、优酷这种内容项的，再加上出海的东西，所以它用户场景很丰富，用户量也非常非常的巨大。所以在这点上呢，它基本上完全可以对标微软，只是因为从中国起家的，所以规模上要比微软稍微小那么一点点。

下一个跟谁比？跟谷歌比。谷歌呢，是自己的模型很强大，Gemini非常非常强，据说10月份我们能看到Gemini 3了，说这个模型强的一塌糊涂，完全强到没朋友了，很期待。然后投资了Anthropic，谷歌也投了好多这样的AI公司。在云计算方面算力投入巨大，谷歌是一直在那投，但是现在它已经不行了。零几年的时候，谷歌的服务器是占全球服务器的6%还是7%，现在应该轮不上了。谷歌呢，自己的用户场景也很丰富，它有谷歌的搜索，有谷歌的Workspace，就类似于Office这样的东西，还有Gmail，再加上安卓手机，包括我们现在在YouTube上聊天。在这一点上呢，我觉得阿里跟它也是有得一比。谷歌呢，有一点没有阿里强是什么？谷歌的模型大部分是闭源的，它开源的模型其实是没什么影响力的。它的开源模型叫Gemma，Gemma在这块呢，比千问的这个模型差的非常非常远。而且呢，Gemma模型是只有小模型，没有大模型，就是为了让你在PC上，让你在手机上用的。而像千问的模型，是从大到小，从235B一直到0.6B，各个层级都有，你有多大硬件，咱就给你跑多大模型，都可以跑起来。所以谷歌就从技术的完整度上吧，还是稍微有一点点小欠缺。

再往后一个是亚马逊。亚马逊呢，真的跟阿里很像。他呢，也是投资了Anthropic，自己的模型那真的是乏善可陈。云计算绝对的王者，全球的王者就是亚马逊了。AI算力投入呢，也有，但并不是那么突出。电商的用户场景和用户量都非常非常好，这块跟阿里很像。

Oracle呢，数据库是老炮了，自己没有模型，现在呢跟OpenAI眉来眼去的，算力投入巨大。但是我觉得Oracle未来的故事，真正能看的应该是TikTok。

阿里到底是什么情况？你不要老想着说阿里买不到英伟达最新的芯片吧，他可以不在中国买，他在中东，在什么迪拜那地方都建的有算力中心，你在那买不就完事了吗？所以他是不缺这些东西的。所以呢，阿里的情况跟上面的谁最像？跟亚马逊最像，但是比亚马逊还要强一点，因为还有自己的大模型，这个而且模型很强。

这一次云溪大会都发布点什么？首先，发大模型，一堆的大模型，就像下饺子一样扔出来。第一个叫千问三Max，这个是一个不开源的模型。除了这个之外，剩下的模型都是开源的。为什么它不开源？1万亿参数，你开了源谁也布不了这东西。比如说235B，2350亿的参数的模型，还是可以去布一布的。Deepseek是671B，6710亿的这种参数的模型还是可以用。上万亿的模型一般就没法去开源了。这个模型呢，我这两天也试了一下，依存度很高，你给它各种指令，它会老老实实给你做完，生成的质量呢，就属于真的是能用的状态。它对于AI agent，对于各种的工具调用这块非常非常强，因为它的指令依存度高嘛，它就可以规划一个很好的路径，把所有的指令都调用回来，这个是做的很好的一个模型。

下一个开源的是什么呢？叫千问三OMNI，全模态预模型。支持视频，支持音频，输出也是直接可以文字输出，可以语音输出。有点像GPT-4o，或者说那种叫real time的这种模型。我直接可以拿这个手机打电话，然后拿着手机一边拍视频，一边跟人聊天，一边跟大模型聊天，这个东西就干这个事了。而且呢，超多语种的支持，支持十几二十种语言，都是可以这边实时的跟他聊，那边实时的出。所以拿这个东西出去找人去聊天，当翻译都是没有任何问题。而且可以拍着视频说，你看我这个视频里这个风景应该怎么描述一下，它都会马上给你去进行推理。而且端到端推理，不是说我先把视频识别出来，然后再去走这个大语言模型，直接端到端就开干了。这个模型呢也不大，30B MOE的模型，300亿参数。这种模型呢在电脑上都是可以跑的，还专门为苹果做了优化，就是在Mac上可以跑，但是30B模型在手机上是跑不起来的，这个是稍微有点费劲的。其实我们甭管用豆包也好，还是用ChatGPT也好，实时对话模型都是用云端的东西，没有在本地计算。千问三的这个OMNI就是干这样的一个事情的，还是很有惊喜的一个产品。

再往后呢，是千问三Image Edit 2509。其实原来就有这个模型，但是呢，它又重新升级了一遍。因为原来它的千问三Image Edit呢，只能上一张图片，你给它一张图片，要求它做各种修改是OK的。现在的话，Nano Banana出来了以后说，原来还可以这么玩。我可以上三四张图片，把它拼在一起。实际上就是拿三四张图片去进行视频推理，或者叫视觉推理，再把它们挨个抠出来了以后往一块拼。所以这就是阿里家的Nano Banana。这两天我在玩即梦4.0，豆包家的Nano Banana，那个也是玩的很开心。大家现在看到我的各种的封面，基本上都是拿这玩意做出来的。你看我那个这一期视频的封面，文字是用毛线绣上去的。这个是国内模型能干的活，就是写中文，而且用各种各样的创意字体写中文，用各种的素材去写中文。Nano banana干不了这事，Midjourney更干不了这事。中国的一个是即梦，一个是刚才我们讲的千问三Image Editor，都是可以去写中文的，效果好极了。

再往后一个呢，是千问三TTS Flash，就是专门做文字转语音的，还出了一个轻量级的模型。但是这种轻呢，也没有办法在手机上跑，都是在电脑上跑的。以及呢，出了叫千问三VL。VL是什么？叫视觉推理模型。但是这个呢，就跟前面咱们讲的这个OMNI不一样了，它是做了很重型的这种视觉推理。你像上面那就是个30B的模型嘛，它这种东西做推理的话，肯定的能力还是要差一点的。所以还是要上这个千问三VL。还有一个呢，叫千问三Next，80B MOE模型，每次激活3B。它是干啥使的呢？就是比千问三更便宜，在同等推理的能力下，用更低的成本可以完成任务。最后一个呢，叫WAN 2.5，叫通义万象2.5，这个呢是做视频生成的。原生音画同质，就是他直接做出来就可以配好口型，配好音乐，更高的画质，更长的时长，1080P、24帧、10秒钟。为什么说这玩意强呢？因为我们看到的其他视觉模型，比如说谷歌的VEO 3，OpenAI的Sora，即梦这些视频模型的话，都是闭源的。通义万象WAN 2.5它是个开源的，大家可以把它下载到本地，然后在自己的显卡上去干活。那你说我把它放在自己显卡上干活有什么好处呢？百无禁忌就是好处。中国人做的东西都是百无禁忌的，其他的这些视觉模型都是很政治正确的，而且耻感都很高。你现在有一个这么强的，基本上可以达到谷歌VEO 3这样的一个水平的视频生成模型，还是开源的，还可以下载到本地去部署去执行，想想都觉得实在是太美了。而且呢，这个模型呢是这多模态，全创造全覆盖，文生视频、图生视频、文生图、图像编辑全都有。

这是这一次发布的各种的新模型。你说云计算嘛，超节点总要有嘛。华为也在做超节点，英伟达在做，阿里肯定也少不了。阿里的超节点叫“盘久”，盘古的盘，永久的久。盘久128超节点，就是每次呢，把128个算力卡放在一起去做这种超节点运算。这个里头并没有去讲说我这个超节点到底用的是谁的，其实大概率用的是英伟达的芯片，也可以用他自己的平头哥的芯片，或者用一些其他人的芯片。所有的超节点真正考验的其实不是那个芯片，考验的是什么？就是他的连接协议和交换机。就是你不能走以太网，你必须要单独走一个光通道的网络。所以他呢，做了一个叫UA Link，就类似于英伟达的这个NVLink这种东西，自己有自己的这个模块，自己有自己的协议，自己有自己的交换机，可以把128个算力芯片串在一起去干活去。

阿里真正强的在哪？就是它全栈，什么都有。因为做云计算的嘛，他肯定有海量数据库，然后AI agent、工作流、MCP这块也是强大一塌糊涂。前面我们讲过Dify这样的东西做工作流的，现在你们可以直接把Dify的DSL文件，就是你看在Dify上做好的工作流，导出一个DSL文件来，导完了以后直接到阿里云上去导入，他就可以照着DSL的这个工作流节点就给你跑去了。原因很简单，Dify也是拿了阿里的钱了，那他作为一个股东可以提出这样的要求来。所以这块呢，真的是非常非常强。

MCP这一块现在非常非常全面了。我今儿还专门上去看了一下，现在有哪些MCP可以在上头跑了。刚才我们讲的什么画画的，什么做视频都可以包MCP，当然这不重要，重要的什么？支付宝。你现在可以在上面做支付宝的支付，支付宝的订阅，都可以直接挂MCP到你的自己的应用里头去。这样的话，我们再做的新的产品就直接里头可以支付了。各种跟电商相关的，跟这个业务相关的，因为它场景丰富嘛，自己家的东西都可以开出来，这一块全都已经包装成MCP了，可以在阿里云里头用，也可以在阿里云里头把这个MCP的接口暴露出来，在外边来用。比如说它里头有一个MCP是什么？查快递。你只要去申请一个快递100的TOKEN往里一挂，就可以直接上阿里云的MCP服务器上去把它的接口导出来，导到自己的AI agent也好，或者是工作流也好，就可以帮着用户去查快递了。你的快递走到哪了，什么时候该拿了。能够查快递，对于销售的转化是非常非常有帮助的，因为你一旦知道说我这个快递是可以查到的，这个东西走到哪我都知道，大家就觉得一个事情从不确定变成确定了，他就可以花钱去更多的下单买东西。这一块是很多很多的，现在能想到的，在国内能用得上的这些东西，都已经包装成MCP了，都可以在阿里云里边直接集成去使用。

编程这一块，他自己专门做了一个模型叫千问三Code，480B，一个开源的模型。这一次呢，阿里还发布了一个叫千问三Code Plus，一个闭源模型。就这个模型实在太大了，你们也别费劲了，搁我服务器上你们跑吧。我自己没有去测试，所以就不跟大家吹说东西好不好使了。

阿里真正做的全栈，从头到脚全做了。而且呢，英伟达的把戏在中国只有阿里能玩。什么意思？阿里做芯片吗？要准备卖芯片？不是这样。中国人谁也做不出英伟达这样一统天下的芯片来。所以呢，他干嘛？他去做云去。说我这有云，我拿云去投资，别人投资完了以后，我再把这个钱再挣回来。就是一个钱从左口袋揣右口袋，然后再揣回左口袋，GDP算三倍，这就是英伟达的把戏嘛。这个现在阿里云也可以干。

做云计算跟云计算因为AI获得很多收益，其实两回事。就阿里云的这几年的收益，特别是AI相关的收益，都是三位数增长，绝不是几百分之几十，就翻着跟头往上涨。所以在这一块上呢，还是有挺大差别的。微软云上跑的是谁的？跑的是OpenAI。亚马逊云上跑的是Anthropic。Oracle云现在是Cohere，以后应该会跑OpenAI。谷歌云上是Gemini和Anthropic。那么阿里云上跑的是谁？第一个，阿里全栈的大模型都可以在上头跑。Kimi也就是Moonshot，这个模型在上头跑。MiniMax他投资了，在上头跑，没毛病。百川、智谱、零一都可以在上头跑，都没毛病。Deepseek云本来是开源的，虽然阿里没有投资Deepseek，但是肯定阿里云上也是有Deepseek的模型的。全国大概有一多半的模型都是在阿里云上跑的，阿里每一次出来吹牛就吹这个。另外一圈比较大的是火山云，是这个字节跳动的。他讲的是什么？就是公有云对外销售的TOKEN，有一半是由火山云消耗掉的。那你说不对，怎么阿里云上那么多模型，火山云消耗的TOKEN这么多呢？这个里头就有一个问题是什么？就是火山云上大量的人是直接在上面挂这个模型去干活的。而阿里云的话，很多是由单位直接上去，连服务器带所有东西一起买下来的，它是没有办法单算你卖了多少TOKEN的。所以呢，算TOKEN，字节跳动的火山云占一半。你如果算大模型，阿里云占一多半。

黄仁勋的玩法又来了。怎么讲呢？阿里出钱投资，拿了阿里的钱呢，你就来阿里买算力。运营的不好怎么办？阿里就把核心团队收了。这点他比黄仁勋还狠。黄仁勋投了一堆项目以后运营不好，他也没办法，他也不能说：“你们上英伟达来上班吧。”阿里是这么干的，因为零一前一段时间就玩不转嘛，那零一的核心团队就直接上阿里上班去了。这就是投资协议上写的一个条款，你如果玩不转，你就把你的核心团队交出来。因为咱们都知道，做大模型需要什么东西？算力、数据和人，或者叫人才吧。那么阿里说了，我投资了，你买了我的算力，数据你自己找去我不管了，玩不好你把人才交出来，怎么着都不亏。如果这个项目运营的特别好，估值上升，那阿里肯定也是赚了。所以这是阿里真正的如意算盘。

那么，阿里是不是重新站起来了呢？阿里前头最惨的时候，市值被拼多多超越，马云必须要出来露面了，去说几句话才能稳住军心。而且阿里这几年呢，特别是吴妈上来了以后，真的是改变了很多策略。原来呢叫“1+6+n”，就是彻底要分散，自己玩自己的。现在说不分了，不需要的直接干掉，剩下的人咱们集中力量干大事。零售方面，现在在跟美团、京东拼外卖，而且在拼即时零售。AI方面，在和字节、Deepseek战斗。但是呢，在这一点上，阿里的优势是非常非常强的。字节跳动是不开源的，字节跳动有一些开源模型，但是呢大的模型都是闭源的。所以在这一点上，阿里要比字节强很多，它会形成事实标准，这个字节就没有办法。虽然豆包1.6模型真的是很强很强，现在我比较下来，千问三Max是没有字节的豆包1.6好使了，但是即使如此，你没有开源这面大旗。所以在这点上字节打不过阿里。而且因为竞争，字节的火山云上敢去部署这个Deepseek，但是呢，他就不愿意在上面部署千问模型，这个也是字节眼界稍微差一点的地方，或者说目光不够开阔的地方。字节呢，前面把整个战略投资部都裁了以后，其实也没有什么特别大的动作。这方面，美团、拼多多、京东就更不行了。所以阿里在国内的竞争优势真的是独一无二，就没什么人跟他竞争。

总结一下吧。阿里呢，肯定是未来可期，只要是他们抱着现在这个状态接着往前走，收紧拳头，大家自己配合往前走。其实阿里还有很多很神奇的东西在做，只是现在并没有开放出全量给大家来用。来等他们稍微开放一点点，咱们再去一个一个的来去解读。而且阿里在这块有可能真的会走出一条不同的路来。什么意思？就是到目前为止，这些传统的有场景、有用户的公司，比如谷歌、微软、亚马逊、字节跳动，都没有开发出新场景，都是在原来的场景上进行AI的改造。而在这点上呢，阿里呢有大量的AI agent准备去上线，他们是准备去创造新的商业模式了，准备去创造新的应用场景的。这个才是真正值得期待的。一旦他们在新的应用模式和场景上有了创新，而且站住脚跟了以后，应该又可以席卷全球一次。我觉得应该是值得期待的。

但是呢，在国内一切皆有可能，一切也皆有不可能。所以呢，我们继续吃瓜，继续往前看。我自己呢，现在有一部分的应用是跑在阿里云上，跑在阿里的大模型上，但是呢，大部分的AI人工智能的应用其实是在OpenAI、Gemini和豆包上。我准备未来一段时间更多的使用阿里云吧，希望能够发现他们一些有趣的点，特别是他的通义万象2.5，看看到底能给我做出一点什么东西来。但是跑这种东西呢，可能需要更新电脑，我现在的电脑跑通义万象2.5是跑不起来的。或者看看谁家是托管的通义万象2.5，是相对来说比较自由的，我准备去好好的玩耍一下。

最后注意，咱们不做任何具体的投资意见和建议。你说我上车了，亏了，那是你的事。你说我没上车，亏了，也是你的事。你赚了，也都是你自己的事。不要怪老范。好，这就是咱们今天的第一个故事。

疯狂抢人 vs 闪电离职：Meta AI团队为何刚组建就内乱不断？两个月上演的收购神话与破灭 — Meta AI 战略、AI 模型、Scale AI、扎克伯格、Llama

Luke Fan — Wed, 03 Sep 2025 00:46:30 +0000

Meta的抢人大战，难道要一地鸡毛了吗？

大家好，欢迎收听“老范讲故事”的YouTube频道。

到底发生了什么呢？跟着亚历山大·王一块入职的ScaleAI的高管，突然因为个人原因离职了。有些人呢，刚被挖过来，屁股还没坐热呢，又离职回去了。ScaleAI被曝出数据质量太差，Meta在采购ScaleAI的数据同时，还去采购了竞争对手的高质量数据。因为大家知道，ScaleAI是做数据标注的，你要想去训练新模型，你就要去采购数据。我这边投了这么多钱了，发现不能使，还得买别人的。

还有什么呢？ScaleAI失去了谷歌和OpenAI这些大客户以后，被爆出来进行了大力的裁员。Meta现在正在使用竞争对手的产品，比如跑去使用ChatGPT、使用Gemini、使用Anthropic的Claude，去使用这玩意儿去了。以及爆出Meta内部的管理非常混乱。

现在是出了这样的一些负面新闻。Meta从收购ScaleAI开始的绝地反击，是不是要变成一地鸡毛了呢？

先别急着下结论，先听我讲几个故事，然后咱们慢慢分析，最后呢，会给大家一个结论的。

关于公司疯狂挖人、并购和整合的故事呢，AI是不是存在泡沫的，在一期直播里头，已经讲了好多相关的故事了。有兴趣的呢，可以去看直播切片。

首先，咱们来讲一下公司并购整合。这本身呢，是一件非常艰巨的任务，成功率从来就没有高过。我个人操作跟遇到过的并购案子，还是相当不少的。碰到的第一个案子是什么呢？就是我在Borland上班的时候，我的老板是惠普合并康柏的时候，从康柏那边被合并进去的。他当时就跟我讲过，两个大公司合并，你要先看以哪个公司为主，哪个公司为辅。当时大家都讲的是合并、合并，实际上是惠普收购了康柏。收购了以后呢，你两个部门的人员确实是合并了，但是惠普的员工是正式的，康柏的员工进去了以后，一般是有6个月的整合期，到了6个月以后，大部分的人就都离开了，只有很少的一部分人留下。

我记得惠普跟康柏并购的时候，惠普还去开经销商大会。因为当时我们是惠普的一个经销商，惠普那个时候拍着胸脯说：“我们可厉害了，我们把康柏合并了。我服务器的份额，惠普占多少，康柏占多少，啪，俩一加，我第一了。”当时这些东西第一都是IBM，他们分别是第二、第三。然后，“我们的硬盘阵列的市场份额，一合并，我又第一了。是各种企业存储设备的市场份额我第一了。包括路由器、交换机，因为惠普跟康柏都生产这些东西，把俩份额一加，我又第一了。”后来呢，我们就知道，这种两个品牌合并之后，并不是说大家简单的把份额加在一块，就变成第一这么简单。你变成了一个品牌了，其他的这些竞争对手，会把你的这些份额吃掉的。

然后我在Borland呢，还碰到了Borland的并购。当时呢，我们的部门被一个叫Embacadero的公司给合并了。合并进去以后呢，当时的两个老大，就是中国区的Country Manager，就直接离职了。原因也很简单，那边没有给你留位置。虽然Embacadero在中国是没有下设机构的，进来以后应该是直接使用Borland在中国的下属机构，但是呢，还是一样的，直接把两个老大干掉，给到补偿也足够多，他们就觉得很开心的，拿到钱出去做自己的事情去了。

再往后呢，就是去猎豹移动，那边因为我自己负责投资了嘛，所以碰到的这种并购的案子就会更多一些，而且很多都是我自己操作的。那并购呢，其实分很多种。

第一种就是人员并购。我花钱把人买回来了。这种并购呢，通常我们做的方式，就是给这个原来的投资人一个交代，你不能告这些创始人。因为并购一般是要创始人的嘛，像ScaleAI其实也是这样，他给了143亿占了49%的股份，把创始人整个都拉走。原来的投资人呢，你就不能去告这些创始人了，他原来的这些竞业条款，你就不能再去要求他了。像亚历山大·王这些人，就可以跑到Meta来干活了。这个就属于HR并购。而HR并购呢，跟着一起过去的这些人，他们是不会分到很大的钱的。他们一般会分到一个叫做人员迁移的奖金，会分到一些新公司的股份，Meta会给他们发股票，一般是这么来去操作的。HR并购进去了以后，就听人家招呼，人家让你组建部门，你就组建部门，人家让你去做哪件事情，你去做就完了，这就是标准的HR并购。

然后呢是业务并购。业务并购可能是大家看到的比较多的，但其实业务并购呢，又分很多种。比如说有用户并购，你有很多的100万用户，我有100万用户，我把你并购下来，咱们就赚200万了。就跟刚才我们讲的惠普跟康柏这种并购似的，他们呢，其实属于竞争对手，两边一并购，说我的份额可以加一块了。这个可能是大家见过比较常见的一种并购方式了。

还有呢，就是上下游并购。比如说我原来是做这个云计算的，我下游有一个做相应的云计算设备的，我每天找他买东西，我就干脆把它买下来算了。或者是像以前我们做流量的，获得了很多流量，那怎么办呢？我们再去买个广告公司吧。有流量了以后，总是要去做一些广告的，我把它买下来。

还有一种是做市值管理的并购，是干嘛？就是猎豹移动跑去上市，说这个不行，我们销售额不够多，怎么办呢？后来说算了，咱们去买一个销售额高的公司，不就完事了吗？然后我们跑去买了一个彩票公司回来，那彩票公司销售额肯定高，这个报表就变得很好看了。

还有一些像跨行并购。像刚才我讲这个买彩票公司呢，其实还不算是跨行并购，因为我们好歹是有流量嘛，可以给彩票公司去投流，或者是直接给它导流，这都还算是上下游的一种玩法。真正跨行并购是什么呢？比如说我是一个水泥厂，我跑去买了一个电影公司，或者我跑去买了一个游戏公司，这种呢叫跨行并购。这种其实很多都是在做市值管理，把这种公司买下来以后，我的估值逻辑就变了。我原来是水泥厂，我的PE是多少倍，现在我买了一个新的电影公司，它的估值是多少倍。但是呢，这个后来在国内不是那么允许了，证监会说：“我也不是傻子，你们骗谁呢？”

还有一些呢就是技术并购。技术并购呢，就是把这些最有技术的人都买回来，包括你的所有的代码、你的专利、你的各种授权文件都给它买回来。但是技术并购最后呢，其实一地鸡毛的也不少。买回来以后发现，这个技术跟我们想象的不是那么一样，或者用不起来，这个可能性都是存在的。

并购到底成功还是失败，应该怎么去衡量这件事呢？刚才我讲了半天，说并购绝大部分都是失败的，那到底怎么算成功，怎么算失败？

其实呢，并购这种事情是有非常多的评判角度的。比如说从财务回报和市值管理的角度去评判，买了个游戏公司回来，我股票涨了，我最后把游戏公司卖了，或者我在里头再空手套白狼，割了一波韭菜，我挣着钱了，那这个你说算成功吗？可以算，这个没有任何问题。

那你说换一个，你说我从战略整合跟业务发展的角度来看呢？你比如说像微软把动视暴雪买下来了，那你说这个事情对于微软来说呢，这可能是一个战略整合成功了，业务也在继续往前发展，他现在在整个的游戏领域里头，又往前迈出了一步。但是对于用户来说，对于暴雪的这些战略来说，可能就是一个巨大的失败，因为很多人家开发了好长时间的项目，被很多人所期待的这些续作就没了，直接被微软给砍了。微软说：“这不符合我的战略，你反正已经被我买下来了，你的战略就已经不重要了。”他会有这样的问题。

对于不同层次的个人诉求来说呢，这种并购就更难说是成功还是失败了。对于大老板来说，他可能财务回报、市值管理是他们最关注的事情，第二个呢，才是战略整合和业务发展。但是呢，对于被收购的人，或者是下面需要跟他们合作的人来说，每一个人就冷暖自知了，每个人有每个人的诉求。

而且呢，时间也是一个很关键的衡量因素。比如一年之内我们看这事成功不成功，两年之内我们看成功不成功，他是一个比较长期需要看的事情。Meta现在干这点事，毕竟也就是一两个月，或者一两周的事情嘛，着啥急嘛。所以呢，还是要给Meta一些时间，看看未来会发展成什么样。

我们来逐一分析一下，Meta遇到的问题到底是哪些呢？

首先大家要注意一点，所有高调并购和抢人，他就必须要背负一个负担是什么？任何的风吹草动都必然会被放大渲染。你如果说我偷偷把这项目买下来了，谁也不知道，那我在内部慢慢整合，中间有一些不愉快，有些人走了，或者甚至有时候闹出一点小的群体事件来，这个很正常，就是你并购完了以后要大裁员嘛。但是只要你前面别太高调，大家也不惦记去传播你这些事。上来传闲话，也得有这个闲话可传，传了以后没人爱听，那谁传？所以像Meta这样高调的，一百四十几亿把这个ScaleAI买下来，再去一亿美金一个人，再去挖一堆人回来，这种一定是被所有人拿放大镜、拿显微镜看着，出任何的小纰漏，大家都会说：“你看，他那出事了。”所以他必须要背负这个后果。合并整合的过程中，出现各种意外情况都是正常的，他就是一个乱哄哄的过程。合并整合绝对不是一个写好计划书，然后按照脚本按部就班执行的过程。

我们来看看都出了点什么事儿。

第一个，和亚历山大·王一起加入ScaleAI的高管离职了。人家反复强调个人原因，说：“我过来以后觉得很愉快，没有任何问题，我就是个人原因要离职。”这个呢，属于洗了，但洗的很拙劣。为什么要洗呢？其实很简单，这个人进来以后，一定是拿了一些迟后交割的股票，或者是一些迟后交割的利益。一般这种并购，特别是这种HR并购，因为我要的是人嘛，签协议的时候，一定要规定好哪些人必须过来。过来的时候呢，我们又不可能说一把把钱都给他。把钱给了，他跑了怎么办？所以呢，要签卖身契，或者说叫对赌协议，也有的时候交割的一些协议，我答应给你多少多少钱，但这钱呢，我一把不给你，我是分多少次以后再给你。甚至呢，如果你这个团队不稳定，其中有一些人走了，别的人的话也会受到一定的损失。他会有这样的这种协议在里头。这个ScaleAI的高管离职的时候呢，你就必须要去圆这个谎，如果不圆这个谎的话，会让很多人，包括他自己都受到损失。所以甭管圆的多么拙劣，他必须得圆。进入大厂呢，一般是叫“一入侯门深似海”，那规矩太多了，原来草台班子那一套，被人家鄙视是必然的。我曾经呢，遇到过一个被百度投资的项目，基本上被百度控制了，里边的一些高管呢，就非常非常不爽。为什么呢？因为百度是一个纯名校精英组成的公司，特别是升到级别稍微高一点的，这些人基本上都是名校精英。你并购了一个公司了以后，这个公司里头可能有一些VP，或者是这些联合创始人呢，性格又没有那么强大，又不是名校精英，你在百度里边去开会的时候，就会感到巨大的压力。所以ScaleAI的一些联合创始人，就是说受不了这个，咱走吧。

第二个问题呢，有两个人吧，刚被挖回来两周就离职了。现在呢，是各大公司都在抢人，不光是Meta在抢，OpenAI、XAI、微软、谷歌都在抢人。可能谷歌还稍微的优雅一点，为什么呢？反正人一开始都是他的，他那人最多，所以呢，他并没有那么着急。其他人全都在抢，在这个时候出现摇摆，也是非常非常正常的。ScaleAI离职的这个联合创始人，以及这两个进了Meta工作没几天就离职的人，你看这名字就不是中国人嘛。也许发现进去以后中国含量太高了，然后自己不会讲中文，大家用中文开会，实在受不了就跑了——这开个玩笑，没有任何真凭实据。因为在这个里头呢，亚历山大·王呢，是从来没有在任何公开场合讲过中文的，他所有开会都是使用英文的。虽然他是一个华裔吧，他父母都是华人，他自己呢，大家猜测他应该是会讲中文的，但是呢，没有公开用过。而扎克伯格本人呢，是肯定会讲中文的，讲的可能没有那么好，但是一定会。因为他当时在国内清华，都是用中文做过演讲的。大家给他的评价叫“勤奋型中文”，就是很努力的讲，讲的荒腔走板的，但是呢，也还在很努力的讲。

被寄予厚望的人，跳过来以后快速离职呢，通常的原因很好理解，叫预期管理没做好。预期管理其实分两块，一块呢是挖人的时候呢，我们要给这个人画大饼：“你到我这来吧，我发的钱可多了。你到我这来以后，你就可以管一摊事，直接向扎克伯格汇报。”就画这种大饼。画大饼的人呢，其实是没有办法对自己画的饼负责任的。我先把人忽悠回来了，真的能实现吗？我负不了这责任。原因也很简单，我投完了项目以后进来，他就变成公司里的一部分。即使是我投完了以后，他成了一个独立的公司，他的各种运作，需要跟猎豹内部去交换各种资源的时候，也不是我说了算的。我可以帮他去协调，但是最终决定的不是我。所以画大饼的这个人，是没有办法对自己的饼负责任的。

另外呢，听到大饼的人，他也不是说拿了我的大饼，然后进行理性的分析，这些人呢，心里一般会再把这个饼再画大一圈，把这个饼呢，画的更符合他们自己想象的样子。最终呢，这个预期管理就有可能会出现问题。那你说这些人为什么不理性的分析一圈呢？原因很简单，我把他忽悠回来了，说明我这个大饼已经把他砸晕了呀，但这时候已经不理性了，所以他就没有理性分析这件事。

还有一个问题是什么呢？画饼一头是跟创始人，或者是我们的目标去画饼，另外一头是什么呢？另外一头我们得跟老板画饼：“老板，这个人可厉害了，原来管什么什么事的，非常非常强。”老板听了我们画的饼以后呢，也要去研究一下，说：“我面试一下吧。”我聊聊，聊完了以后，即使是反复沟通，其实老板也会对目标人物形成一个不那么符合实际的预期。大家看明白了没有？我原来干的活有点像媒婆，就是男方夸完了女方夸，然后两边一过日子，发现不是那么回事。其实很多做战略投资的人，就是干这种事的。就我自己也遇到过，老板把我招进去了，以为我能做一些事情，结果发现我搞不定。我记得当时进到猎豹的时候，我上边的老板是谁？就是徐明，现在做银河航天放卫星那哥们儿。上来以后说：“你给我写个PPT去吧。”我说：“我自己的PPT都是别人给我写的。”我就吭哧吭哧给他写了一个，老板说了嘛，你不能不给他干。写完一看说不能使。也不是说咱做PPT的水平差，而是什么呢？我做PPT的这个风格，跟他这个风格是不一致的。说：“算了我还是用原来用习惯的人，给他接着写PPT吧。”这个其实是很正常的，这事其实搞不定。但这个时候呢，就需要大家都有点耐心，后边呢，应该会有惊喜。就像大家现在听我节目一样，你们听了开头以后，一定要往后听，我一般节目在比较靠后的时候，都是稍有有一点点惊喜的。这个就是双方预期管理失败，就会导致一些人进去了以后，发现不是那么适应就离开了。这个太正常了。

第三个呢，是ScaleAI失去了谷歌、OpenAI这些大客户以后呢，发生了大裁员。据说他们是裁了200多人。人员结构调整，本身这个事儿是一个正常的事情。有些人呢，拿到钱了，留在ScaleAI的人呢，肯定是没有拿到这些钱，他们就不是那么开心。所以呢，同样的一件事情，从他们嘴里再说出来呢，就会显得稍微有一点点小负面。而且刚才我们也讲了，这就是风口浪尖上的事情，140多亿投资ScaleAI，把管理团队拎走，在上亿美金一个人去挖人，所以整个跟这件事情相关的，所有边边角角都在风口浪尖上，出任何事情都会被放大。

第四个，ScaleAI的数据质量差，必须要采购竞争对手的数据。这件事呢，其实我觉得ScaleAI本身的数据质量在业界是有公论的，它就是这种大面的数据，量大管饱。你要真要质量特别好的数据，你还是要到SugarAI或者其他几家去采购去。要注意这种大型的投资并购以后，还有一个很严重的问题是什么？叫公允交易。什么意思呢？Meta现在占了ScaleAI 49%的股份，这就属于是大股东了，或者叫控股大股东了。那么你说，我这个数据明明SugarAI的更好，但是我现在一定要去买ScaleAI的，这个事肯定是不对的。因为毕竟两边都有各自的股东，Meta有Meta的股东，ScaleAI除了Meta之外还有其他股东的。你们之间做交易没问题，但是你说我们之间做一些不公允的交易，那这个事情的话会被起诉的。特别是Meta这样的上市公司，他的股东是可以起诉他。比如我买了Meta股票，我就可以去找律师做联合诉讼：Meta把这个钱给了ScaleAI了，有一些明显ScaleAI的这个产品质次价高的，这个服务你还非要买他的，你不去买别人的，这个事肯定是不行的，是会被判定为关联交易，是会罚款的。所以呢，采购别人的数据这件事情，并不是什么特别大的问题。如果只采购ScaleAI的数据，那才是毛病呢。

第五个，被爆出来Meta内部呢，依赖和使用竞争对手的大模型。他们有些时候使用Anthropic的Claude了，有些时候呢，去使用OpenAI的ChatGPT，有些时候是去使用谷歌的Gemini了。这个呢，其实我觉得是一个好事。每个公司呢，都会尽量的使用自己的产品，特别是在公司内部。不是像刚才我们讲的ScaleAI有一半还在外边，如果他已经完全100%买下来了，那你就老老实实使他自己的就完事了，他还有一半在外边呢，你在这个时候说我一定要用他的产品，这个事是有问题的。大公司咱们就举一个最简单的例子吧，IM，就是咱们使用微信、QQ这些产品，各大公司自己内部实际上都有自己的IM。百度的IM叫HI，百度员工只要是公司相关的事情进行沟通，都必须要用百度HI。小米呢，要用米聊。阿里呢，要用钉钉，其实阿里原来是用旺旺的，后来呢，是做了一个产品叫来往，那个产品作废了。来往的团队呢，后来转型做了钉钉。来往的负责人就是现在这个吴钊，半夜到办公室溜达，发现没人上班，说：“你们怎么都这么早就走了？”这个哥们。字节呢，用飞书，这是正常的，因为自己家的产品嘛。腾讯呢，现在在用企业微信。美团呢，原来使用的这个产品叫大象，后来呢，叫做美团协作，完全自己开发的。拼多多的内部开发了一套叫Knock（敲门的那个意思）。所以大家都要用自己的。在这种时候呢，能够打破桎梏，说我们内部去编程，去做各种的工作的时候，不去用Llama——反正Llama已经翻车了，大家也认这件事了——自由的选择最优解，这个呢，其实是创业公司比较喜欢干的事情。新团队新气象，一定要打破这些旧的条条框框，从这开始。所以呢，他们现在去使用竞争对手的产品，不是什么大问题。你除非哪天Meta说：“我Llama不做了，我以后就是在GPT基础上接着往前走了。”我相信扎克伯格不会干这个事。就算他说我准备干这件事，那山姆·奥特曼也得看同不同意。我这要发GPT-5的时候，你一亿一亿的从我这把这个人都挖走了，这恨还没去呢，新仇旧恨都在这呢。这个两边都没有那么放心。小规模的自己内部用一用是没问题的，未来的产品肯定还是要单独去做的。

至于最后一个，Meta AI这一块内部管理混乱呢，这个不是什么大事，这才几天，乱就对了。如果真的是四平八稳往前走的话，这样的公司整合大概经常会整一两年，甚至有的会整合两三年，这个扎克伯格肯定是没有这功夫的。这种大规模并购整合一两个月，现在这个状态其实已经算不错了。

那么结论是什么呢？到底是不是一地鸡毛呢？讲到这了，没讲结论。毕竟是听床，听床呢，就只能是通过流传出来的蛛丝马迹，以及过往的经验进行判断。哪怕是我在里头有认识人，我去问了几个人，每一个人的角度都不一样，都是在瞎子摸象，跟在网上看到蛛丝马迹，也没有那么大的区别。所以呢，我一定要跟大家讲清楚，我这个结论呢，是一个拍脑袋的听床结论。

结论就是：Meta未来大概率会成为一地鸡毛。这个是我的结论。因为这种整合呢，失败率实在太高了。越是被人关注，越是着急，失败率就越高。而Meta现在这两条都占了，非常非常着急，号称年底要出东西，这么高调，花这么大钱出去砸，被所有人所关注到。所以呢，他这件事想做成，实在是太难了。

那说了半天，后边的瓜怎么吃？第一个，失败是正常的，大家一定要记住。第二个呢，我们要寻找成功的迹象，这才是异常的。我们要去看看未来能够做成哪些事情，才可以继续去吃这个瓜。Meta呢，现在据说在跟Midjourney谈合作。好矛盾，买下来呢，Meta多模态肯定会起飞。但是呢，如果Meta真的把Midjourney买下来了，更大的可能是Midjourney会被玩坏掉，因为这种整合失败率实在太高了。最终呢，我们要看新的产品发布，有可能年底会看到Llama 5。Llama 4这件事情已经无可挽回了，也不建议在上头再浪费功夫了，所以就直接Llama 5就完事了。如果年底能够出Llama 5，是骡子是马，总要拉出来遛一遛，才能够有结论嘛。

好，这就是今天的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

Luke Fan — Thu, 28 Aug 2025 00:48:18 +0000

美工，或者说设计师，又要失业了吗？Gemini 2.5 Flash image发布了。

大家好，欢迎收听老范讲故事的YouTube频道。

前一段时间，有一个叫“小香蕉”的模型，叫Nano Banana。这样的一个模型呢，在很多的开源模型评比网站上，突然就火了。这种网站是干嘛的呢？还有很多的同类型的模型放在上头，你去向他提出要求，他让不同的模型同时生成结果以后，大家去做评比用的。很多人发现，这个模型很棒。

最近在很多的社交媒体上出现这种：有一个照片，旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片，然后你给他提示词说：“请按照这个照片给我布置一个桌面，桌面的左边是个电脑，电脑上应该有这个3D设计软件，正在设计3D人偶。右边呢，是一个相框，里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶，这个人偶就是根据这个照片打出来的。”给它这样的一个提示词，它就一次性给你搞定了。这个还是非常非常强悍的。

这个模型到底谁家的？搞不清楚。而且很多人还去造假的Nano Banana，为什么？因为太有流量了。一堆一堆人上来说：“我这也有一个Nano Banana，你们赶快来试一下。”我就被人骗过，上去了以后发现效果一般嘛，就很失望就走掉了。大家就猜说，这有可能是谷歌家新出的图片模型。到8月26号，突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看，就是这个Nano Banana。而且呢，在谷歌发布这个模型之前，Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter，说：“你看我们在暗示点什么吗？你们自己来猜一下，我们到底要干什么。”实际上，大家都已经明白他们要干什么了。

这种偷跑小模型的方式呢，是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过，现在Gemini 2.5 Flash image也是偷跑了一段时间，而且引起了轰动。这种偷跑模型的方式，跟大家藏着掖着，像苹果开发布会似的，发布之前大家谁都不许说，签保密协议，谁谁敢说出去就如何如何，到底有什么差别呢？差别就是，你如果是前面保密的话，最后发出来就是一锤子买卖，如果翻车，你就直接倒霉。谷歌其实翻车过好几次了，Gemini最开始发布的时候就翻车了，怎么各种问题都答不对，然后股价暴跌。现在这种偷跑模式呢，如果反馈不好呢，我就再接着改，我就不发布了；如果反馈特别好，我就赶快给它发布出来。它就不会翻车了，它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。

咱们说回来，这个Gemini 2.5 Flash image到底是一个什么样的模型呢？上一次大家喊设计师和美工失业的时候，是什么时候？是Gemini 2.0 Flash image发布的时候，就是它上一个版本发布的时候。

上一次是怎么出圈的呢？其实谷歌的Gemini画图效果一般，不是特别惊艳，上一次出圈也是因为改图。只有改图改得好，才容易出圈。很多人说不对，说这个生图模型都在干这些事情，为什么改图改得好就能出圈呢？大家要注意，跟设计师和美工相关的需求，特别是有商业价值、或者叫有人付钱的需求，是生图多还是改图多？一定是改图多。

咱们举一个最标准的例子。我们现在要做电商网站，我们在网站上需要有一个商品的展示图。我有一个商品图片了，然后呢，我需要把这个图片放在各种场景、灯光和环境下，再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊，他们用了一个特别笨的办法，他们找一照相机，三视图1、2、3拍三张照片，这就是你产品的照片了，那这产品卖得好才怪了。京东在这个北京，专门有一个巨大的影视基地，没想到吧？干嘛的呢？就是拍这个产品图的。你们谁要卖东西了，到那去把这个产品给他，他给你搭好布景，打好灯光。比如说你要卖一个杯子，他在杯子旁边给你摆上瓜果蔬菜，摆上一些小点心，把这杯子都拍一遍，再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢？这个图P上去的这部分要有版权，这个是非常非常重要的。你不能说我卖东西，这个图后边比如说我P了一个椅子或者P了一个什么东西，这个图片你没版权，这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西，你想把东西卖好，你就上拍摄基地去拍去。即使拍完了以后，他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字，那个地方还需要一些别的东西摆在一起。因为你不可能说，我要把所有拍的东西都摆一块嘛，那有的时候你就需要去抠图，然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好，大家才会说设计师跟美工要失业了。

那么，改图是不是要比生成图片要难呢？大家想没想过这个问题？答案是很肯定的：改图绝对要比生成图片要难。为什么呢？你需要先理解这张图片，这个图里哪个地方是人，这人哪个是脸，哪个是身子，哪个是腿。当我们发生一些什么样变化的时候，我怎么能够保持它的一致性？说比如说，我拍了一个低头的照片，说这不太好，你抬起头来，然后再笑一笑。我把演员拎回来，或者把模特拎回来，说你再给我拍一次，成本很高。那我们直接叫给这个改图模型，你去给我干这件事情，它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候，这玩意儿还干不太好，特别是跟人脸有关的事情。但是到2.5 Flash，这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧，我也会做一点点小的事例，放到咱们YouTube的shorts里头，这个还是挺好玩的一件事情。所以，如果我们没有办法对图片进行很深刻的理解，把需要改的部分抠出来，改完了以后再把它贴回原来那个地方去，这个是做不成的。所以这是推理能力的上升，不是它的图片生成能力上升，而是推理能力上升了。

Gemini 2.5 Flash image到底有什么新特性呢？第一个，它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型，千问3是一个多模态模型，Deepseek还是一个纯文本模型，它是没有多模态理解能力的。豆包1.6最新的版本，它是一个多模态模型，可以直接进行视觉推理的。GPT-O3、GPT-5，这都属于多模态的推理模型。你没有这种底层的话，是干不了这活的。给你一张图片，你连图片到底画的是什么都理解不了，你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天，你都分不清楚的话，你就没有办法做后边改图这个事情。你比如说给他一张图说：“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚，这个是衣服，穿上西装以后到底应该长什么样，这事要理解明白了，推理清楚了，他才有可能生成出结果来。

那么第一个就是多模态大模型。第二个，支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品，这个都可以。而且呢，在编辑的过程中，能够完美的保持人物、动物等主体的外观和姿态的一致性，这个是修图里边最难的。像我们经常让豆包去修图，或者可灵去修图，修完了以后经常发现什么问题？不像了。你像我上传一张照片，说：“来，给我把背景换成一个海滨的背景。”海滨背景换了，但是前面那人不是我了，可能看着稍微有些似是而非，但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性，而保持一致性是整个修图里边最难的。

再往后呢，它可以合成3张以上的不同图片的内容，创造出组合的新作品。我看到有人做的Demo是把6张照片，六个人照片搁一块，说：“来，把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车，不是说每次都成功，但是呢，他已经有这样的能力了。还有人去测试什么呢？我给你一屋子，给你一书柜的照片，给你一床的照片，说：“来，把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。

支持多轮次迭代式的图像修改，不影响已确定的无关元素。这话什么意思呢？就是你给他一张图，这次给我加一床，下次给我加一个床头柜，再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候，那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型，你让他在床头柜上加书的时候，那个床就发生扭曲，就发生变化了，因为他是把所有东西重新生成了一下。

这个Gemini 2.5 Flash image呢，还能够理解和转换手绘的草图，用于教育和设计应用。比如说我们手画了一张图，这应该有个按钮，那个地方应该有个窗口，你把这东西扔给他，说：“来，给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。

最后呢，是禁止生成不当内容，并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的，你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家，OpenAI还没上市，虽然它是老大，但是毕竟不是上市公司。谷歌这是上市公司，多少年的行业老大了，它真丢不起这人。它出一点点小问题，就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候？说你给我生成第一次世界大战的这个战场，图片里头发现男的女的、黑人白人黄种人在一块。说这不对，西线应该都是白人，都是男的，不应该是这样。他说不，我们要多元性。最后导致被认定为翻车，导致他们整个的产品下线。

现在呢，拿这个模型去生图还是挺便宜的，它是4美分生成一张图，整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多，但是它的效果要好一些。同时呢，谷歌还发布了另外一个更新，就是VEO 3出了一个fast版本，就是快速版本。VEO 3呢是谷歌现在的视频模型，效果也是很不错的。它们大概是40美分生成一秒钟，这个成本也降下来了，原来大概是要80美分生成一秒钟，成本直接砍半。

这些新的工具到底怎么用呢？我们今天就不给大家看演示了，我会未来一段时间慢慢的把生成的结果给大家看看吧，大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image，可以用AI studio这个网站，它的域名是aistudio.google.com。进去了以后，你就选择Gemini 2.5 Flash image，选完了以后，你就提交各种的提示词也好，给他参考图也好，多给几张参考图也好，你就命令他去干就完了。我印象里应该免费，但是我不太确定了，因为我的这个账号是已经开始付费了，所以我现在是肯定能用的。我上去了以后，它会提醒我说免费的是有一些限制的。如果你想开心使用的话，你可以通过API去调用，也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用，他们也会给大家提供一些服务的。

下一个就是API调用。API调用的话，我准备过几天去玩儿吧，这个应该也是比较有趣的。它因为实在是太新了，它更新了以后，所有挂他的像什么Defi、N8N这些东西都没有更新呢，可能要等到再过一周的版本，这些产品就更新了。但我现在去调的话，通过http直接访问，应该也是可以使用的。那就是4美分一张图，4美分一张图，是这样来用的。

你说我现在想去画视频、想去生成视频，行不行？VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号，个人的Gemini账号是Pro版本的，一个月20美金的这个版本的，每天呢可以生成三条，每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来，让它给我去跳一个街舞，然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去，挺好玩的。

那你说我现在不想在Gemini Pro里头充20美金，行不行呢？可以。你像我这样有一个上大学的儿子，我就用他的大学edu的邮箱去申请了一下，我就可以使15个月的Gemini Pro，免费就可以用了。你说你没有这样的儿子，去找一下。现在我看淘宝上好像有人去做这个生意，20人民币帮你去做验证，就是EDU邮箱，去收一个邮件去验证一下，你就可以使15个月了。但是这种我估计用的人多了以后可能会被封，这个比较危险。

当前图片生成模型的格局是什么样的呢？Gemini 2.5 Flash image这个模型出来了以后，会不会打破现在这个格局呢？现在呢，基本上是四大门派。第一个门派是Midjourney，它生成的东西呢，最精细，最有艺术感，对于各种的艺术风格模拟的最像，这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强，因为它自己的推理模型非常强嘛，就是你给它很多的元素，给它非常复杂的逻辑的时候，它都可以给你画上，但是画的结果呢差强人意，也就只能如此了。OpenAI他们去做一些改图呢，也没有Gemini 2.5 Flash image好，但是呢保持一致性上做的还可以，要比Midjourney要做的好。Midjourney就属于一个纯生图模型，改图这一块一般，或者是说一致性参考这一块呢，效果都一般。第三个，Gemini呢，特别特别适合改图，它的这个生成的部分属于将就，还能看，但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲，说中国相声界的复兴是需要靠于谦和他的家人们，每次就是于谦的爸爸、于谦他老婆、于谦的什么，全靠这玩意讲的。另外一波也是这样，stable diffusion和他的家人们，比如说stable diffusion，然后包括Flex，它们的改图有一个叫Konnect的模型，k开头的，不是c开头的，有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西，或者是在这个模型基础上再训练，再改出来的东西。国内呢，包括可灵、豆包、千问，他们的这些图片模型呢，应该都是在这个基础上去做出来的，都是一脉相承的。他们也在卷改图，但是比这个Gemini 2.5 Flash image来说，就差的非常非常远了。

Gemini的2.5 Flash image的成功，给中国的大模型公司带来什么启示没有？这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候，一切能力就都会上升。所以大家其实卷的是最底层的这个模型，而最底层的这个模型，你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了，说我现在用很少的算力卡就可以把这种模型训练出来，然后去追赶美国，这个事有些难度。所以国内的模型在这一块上，底层推理模型上，能力还是需要去追赶的。

而国内各个大模型公司呢，他们的图片模型、图形模型和推理模型一般是分开发展的，还没有真正发展到说我们要把它结合在一起。你像豆包，豆包的推理模型是推理模型，图片模型是单独的另外一个模型，它两边一点关系没有。所以这一块呢，还是需要改变的。千问也是这样的，千问呢有专门的千问的image模型，也有千问image Edit模型。我昨前两天还在玩千问image Edit，效果也还行吧，但是你要跟这个Gemini 2.5 Flash image比，这事就没法比了。但是呢，都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型，然后呢他们有一个叫IMAGEN这样的一个模型，现在已经发展到4.0了，这个模型可能用的人也不是很多，所以就直接开始转型了，把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活，它最早的那个图片生成模型叫达利，DALL·E，达利2、达利3，达利3完了以后再往后就没了，再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话，就要把这些专门的图像模型扔掉，要把这些生图的功能跟大的推理模型，或者叫基座推理模型，要捆绑在一起，才有可能进一步的提升。

现在呢，当推理能力上升的时候，完全可以使用agent的模式，极大的提升绘图跟改图的能力。刚才我讲改图，实际上是做视觉推理。你把这个图理解的很清楚了，说我到底要画什么，哪一块是动的，哪一块是不动的，你把这个东西搞明白了以后，他才可以去调用这些生图的模型，把每一个小块生成好，然后再拼在一起。像loveart这些设计师的AI agent呢，其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看，我觉得loveart这种设计师的AI agent就稍微悬了，又被覆盖了。

好，讲到这里，大家也觉得比较无聊了，赶快都去玩起来，这个东西非常非常的好玩。老范以后再看到有类似的事情，再跟大家慢慢的分享，给大家带来乐趣才是我的核心目的。

好，这个故事今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？

Luke Fan — Mon, 07 Apr 2025 00:45:28 +0000

Llama4发布了。这里的黎明静悄悄，没有什么响动。这是怎么回事？

大家好，欢迎收听老范讲故事的YouTube频道。一觉醒来，Llama4就发布了。扎克伯格亲自在Facebook的REELS（也就是Facebook的短视频里面）发了一条视频，说Llama4发布了，今天是Llama4日。

Llama4呢，一共是有三个版本：
第一个叫Scout（侦察兵版本），总参数1,090亿（也就是109B），活跃参数是170亿，包含16个专家模块。对的，Llama终于也放弃抵抗了，从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型，Llama3.3还给了一个400多B的单一模型，到Llama4彻底放弃抵抗了。

现在呢，支持1,000万TOKEN这种上下文，这个是Llama4最大的一个特点。DeepSeek是64K（也就是64,000个TOKEN上下文），现在上下文比较大的Gemini大概是能到2兆（200万），Llama4直接给了一个10兆（1,000万TOKEN），这是它做的一个很创新的点。

1,000万TOKEN的上下文可以干嘛？可以处理20小时以上的视频或者超长文档，是行业领先的长上下文技术。采用了混合专家模型（也就是MOE架构），在INT4量化后，可以在单个的H100 GPU上运行，每秒处理42,400个TOKEN，还是速度比较快的。但是要注意，即使经过量化到Intel4上，它也必须要有H100，否则跑不起来这东西。所以咱们普通的电脑就别惦记了，最小的模型就是它了，没有更小的了。

所以这一次Llama4的发布，并不像以前的Llama1、Llama2、Llama3似的，把各个尺寸的模型都做出来（从7b、14b、72b、32b什么这些都做一遍），没有，上来最小的一个就是109B。它可以支持文本、图像、音频、视频的输入，目前呢只支持文本的输出，未来应该会出现全模态输出的版本。这是它最小的一个侦察兵。

中间的模型呢叫MARVELIC（独行侠），总参数量400B，活跃参数量17B，包含128个专家模块。它的专家模块变多了，超越GPT4O、DeepSeek V3，仅次于闭源模型Gemini2.5 Pro。Gemini2.5 Pro现在还是最强的，没有之一。在编程和数学任务中，仅用DeepSeek V3一半的参数即可达到相当的性能，但是你上再多参数也就这水平了。

所以，它在数学跟编程角度上来说，跟DeepSeek V3应该是半斤八两，只是它的运算效率要更高一些。最大的一个叫Behemoth（巨兽），总参数量2000B，活跃参数量288B，包含16个专家模块，使用30万亿多模态TOKEN（就是文本、图像、视频），在32K（也就是32,000个GPU）上训练，FP8精度，提升效率。所以，你有足够的显卡才可以玩这件事情——32,000块显卡。Deepseek到现在为止，都没有承认它有这么多块显卡。所以，这种巨兽，国内追赶起来是比较费劲的。

只是呢，这一个产品目前并没有发布出来，前面两个发布了，这个应该是在2025年的下半年发布。这个巨兽在数学、科学等基准测试中，超越了GPT 4.5、Claude sonnet 3.7和Gemini2.0 Pro。但是是不是超越了2.5 Pro，我现在没有看到相应的介绍。它呢，主要的作用是作为教师模型，用于知识蒸馏——就是我做一最大的，然后下边这些小的模型、中型的模型，都是拿这个最大的进行蒸馏，蒸馏出来的。现在呢，它也转向了MOE，性能有所提升，但是呢并没有那么明显。最大的特点就是1,000万输入，这个是Llama4做的最不一样的一个点。

目前呢，支持全模态输入、文字输出；未来呢，会支持全模态输出，就是端到端的全模态输出。你甚至可以跟它去直接聊天，还可以打断它，就像现在的GPT4O高级语音功能一样。但是这个什么时候出来还不确定。如果能够有全模态输出的话，还是值得期待一下的。未来的方向一定是全模态、端到端的输入输出，现在新的模型都在向这个方向走。

那么，为什么没有什么声音讨论它呢？Llama1出来的时候，整个的行业都震动了——这样程度的一个模型一下就开源了，大家都可以拿来去研究了。Llama2出来一看，又可以往前走一步。其实Llama1跟GPT3.5还是有差距的，到Llama2出来以后说“哎，可以用了”，进行一些微调以后，就真的可以去解决一些ToB的，或者说使用范围相对比较集中的应用，就可以直接用起来了。我记得是在两年前，就很多国内的项目就在微调Llama。等到Llama3出来的时候说，这个虽然达不到GPT4的水平，但是已经很接近了，大家拿这个东西去稍微调一调，就可以跑了。

在Llama3出来以后的话，千问就开始疯狂的去输出各种各样尺寸的模型，就是千问2.0、千问2.5，这一批就直接追赶上来了。但是到Llama4出来，大家没说什么。

这到底是什么样的一个情况？我呢，第一时间还上去试了一下。现在你到Open Router这个网站上，你是可以进行测试的，而且是免费的。侦察兵版和独行侠版都可以使用，也有收费的版本。收费版本就是比免费的版本稍微快一点点，主观感受上没有特别大的差异。

那你说真的没有什么提升吗？这个肯定不对。它呢，跟现在的GPT-4O、Gemini 2.5、Claude 3.7这种主流模型比起来，确实没有什么提升。哈哈，这个基本上跟他们算站在同一个起跑线上，可能跟Gemini 2.5还稍微的差一点。Gemini 2.5不太友好的地方就是它比较慢，现在的Llama 4是很快的。但是呢，这个Llama 4比Llama 3、3.1、3.2、3.3这些版本还是有巨大提升的，特别是在中文这一块，效果好了非常非常多。大家可以去试一试，就完全可以达到能用的状态了。这个原来在Llama 3的水平上还是达不到的。

那么为什么不觉得震撼了呢？原来Llama虽然和闭源模型比起来稍有差距，但是呢，毕竟你是开源的吧，开源圈里的扛把子。现在的开源模型也卷起来了，DeepSeek绝对达到了可用程度，千问现在也绝对在数量上碾压。怎么叫数量上碾压？就是千问的模型是数量非常大呀，零点几B，然后到4B、7B、14B、32B、34B，多模态的推理的全都有。这块非常非常完善，而且有非常多的人在以千问模型为基础进行微调。因为你要到手机上，或者到一些嵌入式设备上去进行操控的话，你拿千问这种小模型微调是很方便的。给你一个105B的模型，你拿去微调的话，这个就有点费劲了。所以现在你到Hugging Face上去看，最受欢迎的开源模型基本上都是千问或者是千问系的。

所以从数量上，千问绝对赶超Llama。从能用程度上说，DeepSeek比它早发布了几个月，已经达到完全可用的一个状态了。现在Llama 4再拿出来，并没有划时代的提升。同样作为开源版本的大模型，他就没有那么震撼，已经有审美疲劳了。当然了，Llama 4出来，应该大家还是会去抄的。这Llama 1、Llama 2、Llama 3出来以后，实际上对至少国内的大模型产业都是有极强的促进作用的。Llama 4出来呢，应该也是有这种意义。千问和DeepSeek应该会尝试使用这种超长上下文的技术，因为它是1,000万TOKEN嘛。所以这一块至少千问应该会去追赶一下，DeepSeek的话……

现在到底在忙什么？不确定。当然，DeepSeek呢，应该也会在多模态上奋起直追。只是奋起直追多莫泰这个事呢，对于卡的数量是一个考验。DeepSeek前面一直说我没有那么多卡，看看后边这个话怎么把它说圆回来吧。

那么现在大模型到底在卷什么？大模型最终有可能还是会走向超级APP的道路。好像现在各大厂商依然在尝试卷超级APP，而且超级APP才是流量入口的一个锚点。你没有流量入口的话，你的模型做的再好，其实没有什么意义。这件事情上，以谷歌和Meta作为反面典型，大家看一看。谷歌的大模型其实一直做的还可以的，只是呢它的入口做的比较烂，大家就一直用的比较少。谷歌每一次出新的大模型，先给程序员用，他自己telegram内部用户，甭管是付费的还是免费的，都要很晚才能接触到他们最新的模型。而Meta，Llama做到现在了，做的这么热闹，Meta的用户，甭管是Facebook用户、Instagram用户，其实并没有感觉有特别大的体验上的提升。这个是两个典型案例。

这里还有一个正面案例，谁啊？就是马斯克的Xa i 1，一做出来以后，第一件事在x平台上，直接给了一个最核心的入口，直接给了一个Grok的入口，你一点就可以进去聊天去了。现在ChatGPT呢已经是超级APP了，Claude呢应该也接近成为超级APP了。谷歌呢算突然惊醒，ChatGPT 2.5 Pro上来以后，直接把Gemini客户端的经理给干掉了，把Notebook LM的负责人拎回来，你去给大家继续去做Gemini客户端去。这个Notebook LM是用户所喜欢的，Gemini被人骂了这么久了，我们要换一换了。而且Gemini 2.5 Pro一上来，就直接给Gemini的免费用户就开放了。所以谷歌已经醒过味了，说我们要换一个姿势了。

现在呢卷王们已经下场了。阿里还在内斗，千问跟夸克还要在内部做一次赛马。腾讯的元宝已经开始疯狂砸钱了。现在的进展到什么样的一个状态了？就这些超级APP都是带有搜索、知识库和靠谱推理的一个结果生成。目前我们现在看到的所有的超级APP，或者叫AI方面的超级APP，基本上都是在这个起跑线上。语音端到端呢，OpenAI做了，Claude我不确定做没做，好像没有。Grok英文的部分已经有了，中文的部分没有。豆包已经做出来了，千问和夸克现在正在奋起直追，腾讯的元宝也还在努力的往前走。

DeepSeek在这一块做的稍微有点拉胯。它的语音部分和图屏的部分，就是多模态的部分，稍微差那么一点点。再往后就是图片、视频、音频的理解和生成。现在这些呃超级APP，OpenAI是完全可以实现图片理解、图片生成，甚至是视频生成，这些功能都是完整的。谷歌其实它的功能都做出来了，但是Gemini里头好多没接，这块还要再奋起直追一下。

阿里的千问还有像夸克，包括字节的豆包，在这一块已经都做了图片理解、图片生成，包括修图改图，包括一些视频生成，现在他们都已经做出来了。其他的还在奋起直追。全新的形态是无法跟传统的形态进行有机结合的，或者结合起来比较费劲。现在唯一结合成功，或者大家感觉还比较顺眼的，就是x集合XAI，而且两个公司还合并了。

其他公司都是尝试在传统的产品形态之外，寻找新的应用形态，或者新的用户使用形态。所以都是做的独立的APP，甭管是腾讯、阿里还是谷歌，或者是字节，都是做出独立APP来，希望能够去抢占新的入口。现在呢是新场景已经有了，底层技术基本上拉平，就这么一个状态。甭管是豆包的推理模型，还是腾讯推理模型，包括DeepSeek，还有像谷歌的Gemini 2.5 Pro、GPT-4O、Claude 3.7这些模型，它们其实基本上算是拉平了。谁比谁好一些，但是并没有好出那么多去。

现在可能唯一能够明显感觉到有差距的，是Gemini 2.5 Pro。那么当新场景出现了，底层技术又基本拉平以后，剩下的就是一个字了——卷吧。这件事咱们中国人擅长，后面还要看大家怎么冲上去。

现在留给Meta的时间已经不多了，开源大模型的老大位置应该已经不是他的了。Grok的卡应该比Llama可能稍微少一些，但是XAI的卡要比Llama的新。Grok也是开源的，只是Grok没有把最新的开源出来。它现在是上一代的Grok 2要去开源，现在Grok 3出来以后，它准备把2开源出来。这个3的话可能要等到Grok 4出来以后再去开源。但是呢，你也是开源模型，而且Grok 3特别是配上AI agent以后，相当的好用。

DeepSeek在多模态和长文本上呢，还有所欠缺，但是达到可用状态，这个要比Llama4要早好几个月。所以在这一块上，Meta的开源大模型老大的位置也被动摇了。再加上可能在最近的一两周里头，千问3也要出来。现在大家使用都是千问2.5，千问3一旦下来以后的话，有可能整个开源大模型的座次……

还要再重排一次。开发独立APP对于美塔来说，应该是刻不容缓了。Meta也有计划，在4月份准备上线超级APP。

这个中间呢，还少了一步。Meta少哪一步？AI agent它没做。就甭管是deep search、deeper search或者这些东西，他都没做。而且呢，他还缺一个什么东西？就是他的function call和MCP都没有。他的模型你只能是给出提示词，然后那边生成结果。你说我在这边给一大堆的function call的描述，或者是给MCP的描述，我在生成的过程中可以调用外部数据，这个到Llama4依然没有。所以这一块，Meta稍微有些落后了。

而且现在从Meta发布的Llama4来看，它已经完全退出了小模型的竞争。最小的侦察兵109B，你没有H100跑不起来。在这一块上，阿里已经算是稳赢了。所以阿里作为AI公司，基本上已经站住脚跟了。现在其他还在做小模型的公司，一个是微软，一个是谷歌。谷歌的Gemma3现在是有各种小模型的。还有就是欧洲的Mistral，他们也有一些小模型，只是呢Mistral的声音没有那么大。

Meta呢，算是手里有卡，有数据、有用户、有钱，还有一大堆的现成的用户使用场景。必须要做的事情，是探索新的用户使用场景。如果老惦记去玩眼镜的话，那可能真的会被抛下的。AI的牛皮不能总靠卡的数量来维持下去，卡估值的逻辑正在坍塌。所以Meta必须要在卡估值逻辑坍塌之前，拿出来一个被大家可以接受的超级APP，或者说一个全新应用场景的服务，可以去跟其他的这些大模型超级APP去进行竞争。否则的话，它的故事会讲不下去的。

好，这就是今天Llama 4发出了以后的第一期视频。未来的话，Llama 4可能更进一步的功能被暴露出来，或者说大家又试出什么好玩的来，那再去录视频跟大家分享。好，这一期就讲到这里，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

软银OpenAI日本公司背后的资本阳谋——5,000亿星际之门是如何影响全球AI格局的？

Luke Fan — Wed, 05 Feb 2025 00:40:36 +0000

SB OpenAI日本公司宣布成立，这怎么听怎么像是在骂人呢？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲SB OpenAI日本公司到底是一个什么样的情况。

孙正义上台宣布Softbank OpenAI Japan这个公司成立了，所以这个SB不是骂人，它是软银Softbank的意思。今年我们发现OpenAI的声音连续不断，这是为什么呢？原因也很简单，老大的位置不是很稳固了。你要想在这一个行业里面当老大，要么你技术特别好大家都服气，比如像谷歌这样的，各个行业里头，只要跟计算机技术有关的，大家都知道谷歌的技术最好；要不然你垄断，比如像苹果这样，或者像Meta这样的，在社交媒体里我直接垄断了，大家知道你是老大。

如果技术也被人质疑了，花了好多钱训练出一堆模型来，别人也都可以达到了Claude 3.5、Sonnet、Gemini 2.0、Flash这样的模型，其实现在已经跟GPT-4相差仿佛了。你新发布了一大堆乱七八糟的模型呢，都是很小众的高端产品，对于大众来说无感。在这种情况下，你的技术就会被人质疑。

垄断的话，现在OpenAI距离这个位置还相差甚远，因为现在整个大模型行业里的格局就没有确定下来，后边还有谷歌呢，还有亚马逊呢，还有一大堆中国厂商在这盯着呢，所以垄断也难。那么怎么办呢？占据舆论的制高点吧。这个道德现在他还占不住，他占据舆论的制高点。

OpenAI呢，本身是比较擅长于造势，比较擅长于占据舆论制高点的。咱们要看到去年的Sora、去年的GPT-4以及去年连续12天发布会什么的，OpenAI很会搞事儿。它呢，可以把有限的新产品、新特性通过一些非常戏剧化的手段，让整个的社会形成一个讨论风潮。因为DeepSeek出来了，大家对他的各种技术、各种挤牙膏更加质疑了。而且DeepSeek跟其他的所有这些竞争对手都不一样。

Claude 3.5是个闭源的，Gemini 2.0也是个闭源的。结果现在，DeepSeek可给了你一个开源的，还巨便宜无比。它跟原来的像Llama这样的开源还不一样，因为Llama对OpenAI基本上是行不成竞争的，而DeepSeek是可以完完全全跟OpenAI打个有来有回的一个状态。

现在，OpenAI必须要出来，不停地发出声音说：“来，公众们，虽然我现在发布的产品都是给你们的老板们用的，给这些真正的社会精英用的，但是请把眼光看过来，不要把眼光挪走。”这就是今年为什么OpenAI连续发声的原因了。

软银OpenAI日本公司成立，也是OpenAI连续发声的最新的一个声音。这个呢，是软银跟OpenAI各自出资50%成立的一个合资公司，但是具体出了多少钱，并没有对外宣布。为什么呢？因为这应该是星际之门整个资本运作中的一个环节。说了要给5,000亿造星际之门，那这5,000亿怎么变出来呢？你不是真的拿出5,000亿现金啪拍这儿，你肯定是可以用很多的方式让这个钱在里边转起来。你只要最后总的流动量达到5,000亿了就可以了。

所以呢，软银OpenAI日本公司应该也是在为这5,000亿添砖加瓦的一个事情。在这里面唯一确定的交易是什么呢？就是软银集团每年会向OpenAI采购30亿美金的服务，用于自己的子公司或者是下面的一些分支机构。这个是现在唯一确认的交易，每年30亿美金。

假设吧，在这个里边每家出了100亿美金，软银出了100亿美金，OpenAI出了100亿美金，200亿美金我们把这公司做下来了。OpenAI这100亿美金呢，估计他是拿不出来。那个钱自己在家里头烧显卡玩都不够呢。而且OpenAI拿到的大量的投资实际上压根就不是现金，而是什么呢？而是微软云的代金券。你不能说我跑到软银这来说我出100亿美金，咱们来做一个公司，结果掏出一堆代金券，这还不够人笑话的呢。

那怎么办呢？说我OpenAI出了100亿美金吧。我先欠着，我先不实缴。每年软银不是要给我30亿美金来买服务吗？把这30亿美金收到了以后，再填回到OpenAI的日本分公司去，不就完事了吗？你填个三年基本上填满了，剩下的钱再出一些别的技术也就搞定了。咱们就技术入股一下嘛，一里一外，这个钱不就赚过来了吗？

假设是这么赚法，这笔钱呢，完完全全可以成为OpenAI投资SB OpenAI Japan的一个代金券，就跟微软发给OpenAI这个130亿的代金券是一样的。说你OpenAI，你就拿着130亿代金券到微软去买这个云服务就完事了。它是这样的一个运作机制。这样运作起来以后，第一，OpenAI每年就多出30亿美金的收入来。他去年应该是40亿美金吧，但今年一下就多出30亿，而且每年都有30亿美金。这也是一个挺好的事情。

而且在这笔钱里头，就是每年他会转一圈，30亿从软银集团手里给出来，到OpenAI手里头。OpenAI说来，我再把这个钱填回去，到OpenAI日本的这个公司里头去，大家的销售额就都上升了。这是一个皆大欢喜的事情。

对于中国观众来说，软银是一个投资机构，或者是很多人说他是个银行吧，Softbank嘛，它后面有一个bank。但其实大家注意，日本最大的移动营销商之一就是软银，相当于像中国移动这样的一个公司似的。等于中国移动说，我这儿有很多的机房设备，有很多的这种可以作价的一些资产，我们把这些东西打包打包，然后搁在一块去整一个什么事情来。OpenAI，你的服务也打包打包，搁在一块放在里头，每年我们得30亿，来回倒腾一下，你的销售额也有了，我的销售额也有了，整个的资产也上升了。

我们5,000亿的星际之门，又盖出了一个小门槛来。他是这么玩的一个事情。而软银呢，这一次整的这个项目呢，叫SB OpenAI Japan，这个项目里头有一个核心产品叫水晶智能，这个产品呢，估计会让日本彻底掉队。

为什么呢？你说每年花30亿来回倒腾来倒腾去，但是最后日本的这些企业，你肯定还是能够用到一部分OpenAI的这个产能的呀，或者说他提供的这个服务，你还是能用得到的。按道理说呢，这些产能应该是部署在日本的软银机房里的。原来OpenAI的所有这些服务必须要部署到微软云的这个机房里边去，但是软银如果把新的一轮融资搞定的话，微软云应该就可以去松口。在这样的情况下，为什么会让日本反而落后呢？

其实所谓的水晶智能，就是以OpenAI的各种大模型为基础开发的AI agent，或者说是AI agent的一个集群。到目前为止，其实大家并不知道水晶智能到底是以一种什么样的方式来对外服务的。但是呢，以孙正义现在讲出来的话来说，应该是自上而下的创新，也就是首先为日本这些大手企业服务。他讲述我们要在未来一段时间里头，把1亿个大手企业里面遇到的这种场景变成AI agent，让AI agent来替代这1亿个场景。就是你一旦听他想这个话的时候，你就知道完蛋了。

为什么？我们继续讲，水晶智能这样的东西出来以后，大家知道大手企业肯定并没有那么容易就屈从，说来我就用吧。大手企业都是自己一帮老头坐在一块，开个会说，我们哪儿改一个什么东西，哪儿添一个什么预算，哪个地方稍微调整一下流程。那一定还是要有榜样的力量，谁是榜样呢？软银手里头还有一家公司叫ARM，说来你先用上，你先用水晶智能，把内部的各种研发管理环节都整个改造一遍，其他人说来你们参观一下，俺们就是这么干的，你们也照这样干吧。他大概是要这么去搞法。

我记得去年我从日本回来以后，做过一期节目，讲过日本在互联网、移动互联网的时候掉队了，而在AIGC时代会掉得更远。原因其实很简单，并不是日本人不聪明，也不是说他们不愿意花钱，或者说人家没有看到这块机会。唯一的原因，就是他们这种自上而下的创新，以及他们的这种劳务派遣制度。

这个是造成日本在每一次大的技术浪潮前都会掉队的一个核心原因。为什么呢？不打破旧的桎梏，就不可能产生新的交易。没有新的利润被分配，就没有办法到新的时代里去跟这些新时代大厂去竞争。

你比如说，原来都是大厂往下派单子，那他就没有办法去产生一个像谷歌那样的广告公司，去跟谷歌去打一仗。移动互联网时代，他也没有能力去产生像TikTok这样的产品，去跟YouTube、去跟Facebook去战斗。因为大厂永远不会有这种需求的。你越是维护大厂的利益，越是自上而下去创新，你就越没有机会参与到新的竞争里边去。

所以，摆在AI面前的实际上是两条路。第一条路是协助旧有势力，降本增效，稳固地位。那国内其实也有很多厂在干这个事。而另外一条路呢，就是创建新的用户体验，创建新的用户需求，寻找新的市场。一部分旧有势力呢，在这个过程中会沦为基础设施，已经退出新时代的竞争；而另外一部分就直接死掉了。

这个才是每一次技术革新真正带来的这种社会的改变，而不是说每一次技术革新了，我们把旧的体制、旧的这些既得利益者、旧的势力继续维护，让他们继续稳固的发展下去。很那个就已经放弃了在新时代竞争的这个入门卷了。

哪些旧有势力在新时代沦为了基础设施呢？其中有一个最典型的行业就是Softbank这个行业。移动运营商在3G时代的时候，移动运营商真的是如日中天，各种服务都是他们提供的。但是一旦到了4G时代，移动运营商马上就退居后台了。而在前台上叱诧风云的，就变成互联网企业，移动互联网企业再也没有移动运营商的任何事情了。

咱们现在看到站在前台、努力大放光彩的这些企业里头，有哪个是移动运营商出身吗？一个都没有。谷歌是吗？苹果是吗？Meta是吗？中国的BAT加上字节，谁是移动运营商出身？没有一个是。那难道移动运营商在这个转换的过程中没有挣扎过吗？挣扎过呀，他们也希望在移动互联网时代。

在互联网时代能够占有一席之地，但是这个是没有办法的，因为他原来的这个桎梏一定会捆绑他的手脚。你不打破的话，就永远掺不起来。所以孙正义搞的这套SB OpenAI Japan，一定会拉着日本进一步退出新时代的竞争。

那么现在孙正义他们要搞AI agent，AI agent也是今年整个AIGC行业里边必须要去冲的一个山头了。那么AI agent到底是应该怎么做呢？OpenAI为我们指明了什么样的方向呢？

OpenAI在今年实际上在AI这里头下了三部棋。第一部叫task，它可以为我们去创建各种定时任务。第二个呢叫operator，等于是用户可以直接操作远程的浏览器，通过网站解决各种实际问题。第三个呢是这两天发布的叫deep research，是干嘛的呢？就是你给了他一个命令以后，他去搜索几百个网页，然后再进行总结归纳之后，得到一份像财报一样的报告。这是OpenAI给出的三个样例。

我们现在要看到AI agent，去年大家都在努力的做，但是OpenAI指向了不同的方向。它指向了什么呢？第一个叫做手动规划跟自动规划。原来我们使用很多AI agent都是进行手动规划的，我们要去设置自己的私有的本地库或者是本地支付，要去设定工作流程，要去设定各种各样的工具，让这个AI agent可以去发邮件或者是执行交易，可以去做这些事情。

原来是这样的，但OpenAI说不，不是这样的。我们应该让他自动的去规划。你只要告诉他干什么，剩下的你就别管他了。哪怕是像deep research这样的功能，你只要告诉他我具体要去做哪方面的研究，他自己去找，去找完了以后自己给你总结。你不需要告诉他使用谷歌搜索，搜索这个财报，再去搜索学术论文，然后再怎么去进行总结归纳。你不需要告诉他，这个事情他自己就搞定了，然后就给你出一个很完整的报告出来。这是OpenAI给我们指明的方向。

然后，另外呢，就是综合能力和普世性。这个问题其实OpenAI也解决不了。OpenAI现在给出的这三个AI agent：task、operator、deep research，实际上都是分方向的。让某一个AI政策可以解决所有问题，解决不了，必须要术业有专攻。

OpenAI现在跟所有做AI agent的人一样，面临了一个新问题。是什么呢？就是普通人没法用这东西。他希望通过自动规划，让普通人能够用上这些AI agent。但是，咱们就这么说吧，财报，这是由专业人士直接替我们书写的内容。我们到底有多少人可以坐在这，把上市公司每年每季的这个财报看明白了？绝大部分人能够去看明白财报解读，就已经很不错了。

真给你一份财报，看着一大堆的Excel表格，在这里边找到各种的问题，这个是很难的。大家要注意，这个财报写的时候，并不是说我要把所有的事情都给你写清楚。这可能跟很多人想象的不一样，财报写的时候也是要粉饰太平的，也是要把很多的问题隐藏起来的。

虽然他有一定的规范和格式要求，要求你必须要去披露所有的信息，但是我们可以用很多的方式，让有些信息被你忽略掉。这个是所有写财报的人必须要掌握的一个技巧，既要合规，又要突出重点，隐藏一些问题。看财报的人也是需要训练的，这些东西对于普通人来说，其实已经距离很远了。

所以，像deep research这样的工具，就算给普通人了，他拿出来的东西，大部分人是看不明白的，也没有能力去阅读这种东西。那么，这样的东西对于普通人来说，就是无感。普通人也不会愿意帮他去传播这件事情。我看deep research出来以后，现在在推特平台上去讲这个东西很棒的，都是一帮老板。这些人可能会有需求，说我要去做这种深度的研究。绝大部分的人可能压根就没这个需求，或者说就算你花200美金一个月，开启这个功能了，进去search一次，那也就是说高山仰止，不明觉厉，这个东西写的好棒，完了。

这个事情也就不用普通人每一次都进去自取其辱了。现在我还使不了这功能，因为我是20美元一个月的这个账号。据说再过一个月，这个deep research会开放给我们使用，一天大概能用个几次的样子。但是大家要相信，这一份财报类的这种综合报告，一般人一天是看不完的。那么2025年大家努力的方向是什么呢？咱们先不研究AI agent的事情，咱们现在要看到山姆奥特曼，他们在干嘛呢？

2025年，星际之门是他们的一个最核心、最重要的事情。山姆奥特曼跟孙正义前面刚在川普面前去签了字。这两天呢，因为SB OpenAI Japan成立，山姆奥特曼跑去日本了，孙正义带着山姆奥特曼去见石破茂去了，日本首相。有来有回嘛，过两天山姆奥特曼要再带着孙正义回去见川大爷。大家要重新去运作起来。那么这个到底在干嘛呢？其实我觉得这是一个阳谋，这是在对抗国运级的DeepSeek。

很多人说DeepSeek是一个国运级的科技创新。那么为什么这是一个阳谋呢？如果DeepSeek真的跑去跟国家绑定了，那么OpenAI可能就真赢了。并不是说国家扶持DeepSeek或者国家主持DeepSeek的工作就会有什么问题。孙正义做水晶智能的时候，其实已经讲过了，到底新的技术是应该培养新的交易、新的大型公司，还是让传统的公司、传统的势力变得更加强大，这是两条不同的路。

而现在的话，OpenAI、孙正义这些人在日本美国之间，见完首相见总统，见完总统见首相的话，那么DeepSeek可能未来也会去跟最上层绑定，就不会有这么多的机会去扶植或者是孵化真正的新兴生产力。新兴的这些公司可能就不行了。大家要注意，新质生产力还是传统大公司干的活，而我刚才讲的这些新兴的是要找到新的场景，培植新的这种大厂出来，这个是完全不一样的。

好，这就是我们今天讲到的SB OpenAI Japan的故事。感谢大家收听。

请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

DeepSeek现象引发中文圈狂热：开源的胜利还是遥遥领先的争议?

老范讲故事 — Tue, 28 Jan 2025 00:36:14 +0000

DeepSeek突然出圈，引发了中文圈的争吵。大家好，欢迎收听老范讲故事的YouTube频道。

DeepSeek在前面，我们已经出了一期视频，去讲它到底是怎么回事了。那么，DeepSeek最近肯定是更加的出圈。首先，DeepSeek V3，据说训练成本只有557万美金，震惊了扎克伯格，震惊了Meta。Meta说：“我们有好多的老大，他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金，那我花了这么多钱去组建AI团队，花了这么多钱去囤显卡，是不是亏了？”现在就有这样的声音出来。

而且，最新的DeepSeek R1，也就是它的推理模型，推理能力已经接近o1了。蒸馏微调出来的这些小模型，已经在很多领域里头超越了o1 Mini。在这儿多补充一句，什么叫蒸馏微调的小模型？像我的电脑上，也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的？它实际上是由DeepSeek R1去输出数据，然后拿输出的数据再去调通义千问2.5-32B的这个模型，最后得到的结果。这就是DeepSeek R1-32B，他在我的电脑上做各种推理，效果相当不错。

那么，据说受到DeepSeek R1的影响，山姆奥特曼已经做出了改变。原来，它的o3模型，包括o3 mini模型，免费用户是用不了的。就是o3 mini，可能能够给plus用户稍微用一用。现在他说：“不，这个o3 mini模型，我们要直接向免费用户开放。”而plus用户，也就像我这样的，每个月只要20美金的用户，每天可以用到上百次。其实这种o系列的模型，甭管是o1也好，o3也好，你一天真的想不出100个问题来，问他100次足够用了。

至于说完整的o3模型，以后是不是依然要在200美金一个月，甚至是更贵的这个版本里面才可以去用到，他现在应该正在抓耳挠腮地想这个问题。美国的媒体也做了一些报道。

而且，这些媒体肯定是看热闹不嫌事大的，就去说：“你看，我们封禁了半天，人家做出这样的一个东西来，震惊我们了。”这些话好多是他们讲出来的，各路大佬也都出来说话了。比如说，谷歌的前CEO原来就讲过：“我们遥遥领先，在这块比中国领先好多年，他们不可能追上。”再问他：“你说我们还是领先吗？”当时我觉得我们还领先一到两年，但是他们正在快速的追赶。

像这个杨立昆，Meta他们家AI领袖人物，他也上来说：“这个是开源的胜利。”都在去讲这个事情，包括很多在美国相对比较有影响力的这些AI圈的创始人，现在也都在纷纷接受采访，再去谈论DeepSeek的事情。所以，这确确实实是出圈了。

那你说，这样出圈的一个事，怎么在中文圈，或者叫中文社交媒体圈里头，大家就吵起来了？这个原因也很简单，因为中文的，特别是简体中文的社交媒体圈，一直都是非常割裂的。一群的二极管在里边去吵来吵去的。什么叫二极管？只有一边是通的，另外一边是不通的。

那么正面的声音是什么？第一个，厉害了我的国。你看，我们好厉害，你封禁了我半天，我小米加步枪也能够打赢胜仗。原来就是说，美国人有飞机大炮，日本人有坦克、飞机、大炮，但是我们小米加步枪，我就把仗打赢了。这个是我们一直津津乐道的一个事情。第二个，就是大量的震惊体。这个就是“谁谁震惊了，谁谁大吃一惊。”这个我们也使用了大量的震惊体来去描述境外势力看到DeepSeek以后的那种反应。

还有什么上来说，这个超英赶美那套东西，英伟达完了，Meta完了，OpenAI完了，他们都完了，以后AI这个圈子就全都是中国人的事了。这样也还有人在想，说美帝的封锁就是个笑话，封了半天，最后做出最好的东西的人还是在我们中国。这是正方的观点，或者我们叫粉红观点。

当然，还有反面观点，永远在讲说中国人还是不会从0到1的。DeepSeek其实是有更多的显卡的，并不是像他们说的只有1万张显卡，而是有5万张H100，也就是美国封禁的这种显卡。

这个也有人在去讲，还有些人说什么，说DeepSeek，这帮人就是一个小聪明，没有大智慧，都是在投机取巧而已。当然，也有些人上来说，这根本不是什么民营公司，后边一定是国家的一盘大企业，这都后边收归国有了，不用讲这事，这个都属于是知黑们，或者反贼们的一些惯常的话术。

继续来了，当然还有一些人再去讲，说这个数据是不是从其他大模型里头出来的，因为中国很多的大模型，训练数据都是从OpenAI来的。所以你每次问他说你是哪个大模型，上来都是说我是OpenAI家的ChatGPT，这个大家都会去做的。我记得DeepSeek V3当时好像也干过这样的丢人事，甚至还有人去怀疑，说DeepSeek这个数据是不是有侵犯版权，是不是有些其他的问题也都在询问。

甚至还有一些人上来说，美国是不是应该把这个封锁，搞得再严格一下，让他彻底做不出来不就完事了吗？这个没有办法，这些人他就是恨国党，只要是中国人做的稍微好一点点，他们就完全看不下去那个状态。这就是正反两面，现在正在中文的社交媒体圈里头撕来撕去。

当然还有一些困扰的声音，既不是正面也不是反面，或者说稍微偏正面一点的声音，他们说什么，这么好的东西干嘛开源给外国人看，咱自己留着偷偷藏起来，这个可能也是一部分粉红会有这样的声音吧。那么到底谁对谁错呢？我觉得我们没有必要去讨论谁对谁错的事情。

DeepSeek到底是不是遥遥领先，这件事其实是一个伪命题。我们一旦想出来遥遥领先了，这个其实是有问题的，因为遥遥领先这件事了，说我们不讲道理了，我就在你前面，你也不可能超过我。你只要超过我，他等于政治就不正确了，这个玩意才叫遥遥领先。

我们在某些领域里头得出了一些领先的结果，其他领域还在追赶。我们领先的这些领域里头，别人也在追赶，然后你追我赶的，把整个的AIGC事业往前推荐，这个才是真正大家应该去思考的问题。所以在所有的这些大佬的讲话里边，真正有价值的是谁讲的。

就是杨立昆，这个Meta的AI首席科学家，他讲的是什么？他说这根本就不是中美两国谁胜谁负的问题，这跟这事没关系。他讲的是什么？这是开源战胜了闭源，这是开源的胜利。这个是为整个DeepSeek事件定性的最好的一句话，请大家记住，这里头跟中国和美国没有什么特别大的关系。这些人在美国也能做出同样的东西来，也许他们的方向不一样，会做的跟现在的结果有差异，但也依然是可以做出震惊世界的东西出来的。而真正胜利的是开源，开源是一种最新的、最先进的软件开发的协作方式，是这样的一种协作方式战胜了原来这种闭源的传统方式。

那么这个项目到底是不是原创呢？DeepSeek你们是从0到1原创的，还是说在人家的基础上耍了个小聪明，没有真实的原创性创新？这个有很多人就上来说，中国人就不可能有原创性创新，我觉得这样讲是很不负责任的。第一个，在没有GPT-2，没有Llama，整个这些开源的大模型的情况下，就不会有中国的大模型产业，整个产业都不会存在，这个大家还是要去承认的。

我觉得与其去讨论是不是原创，我们更应该想的是什么，如何加入到创新大潮中去贡献力量，这才是真正应该想的。每一个创新都是可贵的，我只要是遇到问题，把问题解决掉了，它就是创新。至于说这个创新到底有多大价值，是不是可以积少成多、聚沙成塔，变成了一个很伟大的工程项目，我觉得我们只要慢慢地去堆砌，慢慢地去积累，总会有这样的一个量变，实现质变的时间点。

就算是美国人用的很多的，这些现在我们看到的很新的技术，其实也是有很多过去几十年，甚至上百年研究出来的。这些基础都是在上面逐渐地去改进，逐渐地去解决问题，逐渐积累起来的。我们不要老去上来就说，这个事你耍了个小聪明，那个事你搞了一个从1到100，没有从0到1，别想这个事，没有那么重要。那么DeepSeek是不是确实触动了美国大模型的产业圈呢？从DeepSeek开放出来的论文和原代码，大家都在努力地下载。

去尝试，去复现，去部署，去使用这块来看，确实是这样。这个DeepSeek确实触动了美国整个的大模型产业圈。而且DeepSeek的方法将会深刻地影响美国项目未来的方向，或者说将会深刻影响全世界AI项目未来的方向。那么是不是应该收紧制裁呢？

如果前面没有制裁，没有这么多拜登说我要去怎么制裁，哪个学生不能来，什么国防七子怎么回事，没有搞这些事，DeepSeek团队中的可能一大部分人现在应该都在美国。这就是制裁的结果。如果没有前面的显卡禁令，那么国内可能会更早地贡献出来比DeepSeek更加有趣的模型。这就是制裁的结果。

千万不要想着可以靠制裁去得到什么样的后果，唯一的后果就是本来应该在美国的很多创新的人才，他们留在了中国，在中国做出了DeepSeek。本来让全世界、全人类可以在大模型的方向上跑得更快的很多的发明创造，因为限制没有做出来，这就是制裁的后果。

那么“厉害了我的国”这件事到底对不对，其实完全没有必要。咱们举个例子，相当于什么？四个人在这打麻将，咱们四个劈了啪啦，打麻将打得很开心，打了一晚上了也得胡个多少圈牌了。突然有一个人开了个杠出来，开完杠出来以后，他身后有一堆的亲友团，直接就爆发了：“你好厉害，你居然开杠了！”导致这个麻将没法打下去了，这到此结束了。这个其实是没有必要的，开杠就开杠呗，这一圈你要领先了一次，那咱后边还打不打了？

整个的大模型产业创新，实际上就像是大家在这打麻将。你不能说你取得了任何成绩，大家停下来等我先庆祝个两年，咱们再接着往下打，这没有任何意义。麻将还要接着打下去，这才是真正看待“厉害了我的国”的方法。

你像中国人，当然有的时候会有一些怪癖。你比如说，国人看到了一个会讲中文的老外，哇，那叫激动：“你的中文讲得实在太好了！”觉得特别有面子。但是如果老外看到了一个会讲英文的中国人，完全没有反应：“讲英文呗。”这些讲英文的人，有黑人，有白人。

有华人，有各种面孔的人，还有印度人。有的讲得好，有的讲得不好，都没有任何问题。就算讲得再字正腔圆，他也没觉得这事有多稀奇。但是你像中国人，你要看到一个老外讲中文讲得再荒腔走板，你都要冲上去，哎呀，你实在讲得太好了，我觉得太有面子了。这个算是中国人的一个民族性。

对于被DeepSeek所震惊的这些美国人来说，他们真正看到的是什么？他们真正看到的是，有人做出了新的科技创新，仅此而已。而且还发表的是英文论文，内容放在Huggingface上没有什么障碍，大家就可以直接用了。你并没有说我把这东西写成中文论文，只放在国内的，比如说某一个开源平台上。你要想用，我还要爬进来去使用，还要找人去看这些中文文件，没有。你上来，你也是发表的英文论文，大家全世界的人都是这么干的呀。你法国的这个团队，你去发表论文，你也是发表英文的；以色列团队，你去发表论文，你也是发表英文的；中国团队，你也发表了英文论文；美国团队也是发表英文论文。这有什么差异吗？没有什么差异，大家一起推着这个事情往前走就好了。而且他们自己的团队里边也有一大堆的亚洲脸，这事不是很正常吗？你们在瞎激动什么呀？

这个就是“厉害了，我的国”。这个事其实是不可取的。再往后咱们来讲一讲，哪个老外要完蛋了没有？咱们前头不是想Meta是不是要完蛋了，英伟达是不是要完蛋了，OpenAI是不是要完蛋了？咱们看一看，首先对于Meta来说，有些事情是有些过分了，比如说557万美金完成的训练，这个里头是仅仅计算了用了这么多显卡，应该是2048块显卡，训练了多少个小时，只是算了这个数。他是557万美金，你的数据是什么样的成本，你的人工是什么样的成本？而且训练这个东西，它不是训练一次就行了的，特别是像MoE这样复杂的架构，它可能中间会失败非常多次，然后进行架构的调整和重新设计，重新训练。那么最后你用一次训练的，而且仅仅是训练成本。

来去替代Deepseak V3的开发成本，这件事本身是不对的。所以不要想着说，这边557万美金就训练了一个大模型出来，Meta就天塌了，没有这事。Meta现在也表态了，我们要继续加大力度买显卡。原来有60万块显卡，今年准备买到130万块，充分的去买显卡。买完显卡以后，还要再继续努力的去训练新的模型。

现在等于又多了一条训练的路径。原来Meta说我这有训练的路径，怎么去从LLama1、LLama2、LLama3、LLama3.1、3.2、3.3怎么训练上来。现在DeepSeek又给我提供了很多新思路，那我在做新的训练任务的时候，可以有很多的新的训练方案去尝试。最后可能再训练出来的LLama4，就会比原来的LLama3要强，非常大的一块，这个还是不一样的。

所以对于Meta来说，那咱们就上呗。原来可能我一共有5条路可以尝试，现在又多了两条路。那么排列组合一下，怎么能够把这些路径都设计好，去训练出新的LLama3来，这个是大家可以看的。XAI其实没说什么，但是Grok 3的训练，估计也会增加很多新的训练方法，可以进行尝试。

对于英伟达来说，千万别建议英伟达废了。当然英伟达确确实实最近的股价又在开始波动，现在都不敢讲是英伟达股票涨了还是跌了，因为总有人过了半个月回来说，你现在不是说跌了吗？你看涨回来了。这个英伟达作为这么高市值的公司来说，他的股价来回发生波动是很正常的。那么对于英伟达来说，这应该是一个巨大的利好。为什么？因为有人能够把这样的模型用起来了，能够这么便宜、这么好用的模型开源出来，那么大家就会疯狂的去买显卡回来，把自己原来的模型增加上这些新的方法，重新去做训练，重新去做微调或者去做蒸馏，这是大家要去干的事情。

所以这个事对英伟达是有好处的。另外很多的AI agent公司，也会自己去部署自己的算力中心，然后去部署这个开源的DeepSeek模型，就可以跑起来。

这个对于英伟达来说也是利好。大模型应用的成本更低，效果更好，各大公司都会疯狂地买显卡的。至于闭源模型来说，他们确实是要压力山大了。刚才我们讲的这些，不管是Meta，还是XAI，还是最基础的英伟达，实际上我们都是在讲开源路径。那么闭源路径，比如说OpenAI，他们就要想一想怎么办。它的领袖地位在发生动摇，Anthropic肯定也要承受一定的压力，因为它的价值肯定会下降的。

至于谷歌到底发生什么事了，这么大的公司还没反应过来。云计算厂商应该是久旱逢甘霖，不管是微软、亚马逊，还是谷歌、Oracle，都是说我是云计算厂商，你是开源的模型，我给你部署上来。那么以后使用我们云计算机房里边这些客户，你就可以在我这直接使用同一个机房里面部署的DeepSeek大模型了。这个对于他们来说肯定是好事，他们也还会再去买一些显卡回来。当然了，这块就有可能会去买AMD的显卡了，因为AMD的MI 300据说已经把DeepSeek V3跑起来了。

这个其实也很简单，因为AMD是Pytorch基金会的一个核心贡献者，给钱的人。你要去跑这样的模型，肯定还是要去使用类似于Pytorch这样的工具。只要能够让这个工具可以跟AMD的显卡进行很好的兼容，可以进行推理，那么AMD现在号称说我内置了DeepSeek V3，这个话就是稍微有一点点歧义。但是大家可以认为说，我只要是买AMD的显卡，就可以把DeepSeek V3跑起来，这个没毛病。

那么其他的这些AI Agent厂商，这个也是救命稻草来了，比如说Perplexity，还有Cursor这样的AI Agent公司。他们原来必须要去调用OpenAI，要去调用Claude，这个东西很贵，而且你掌握在别人的手里面，你所有的用户数据别人都可以看到，这个肯定是非常不爽的。现在这两家公司已经都在产品内部集成了DeepSeek V3。

甚至可能正在集成 DeepSeek R1 这样的推理模型。那么未来可能越来越多的 AI Agent 的公司会走这条路。2025 年就是 AI Agent 年，而他们可能很多的这种应用，都将在 DeepSeek V3 或者是 DeepSeek R1 这样的模型上继续往前快速奔跑。

至于国内的公司，肯定也在努力。这两天，第一个是豆包 1.5 Pro 版本出来了，也是 Moe 模型。而且豆包喊的是什么？“我所有的数据都不是来自于蒸馏，都不是来自于其他模型，所有数据都是我自己的。”这个确实在这点上要比 DeepSeek 要好一点。为什么？因为使用了别人的数据后，可能会把一些偏见带到自己的模型里，而这往往比较难以发现。就经常你去问他说：“你是谁？”上来说：“我是 OpenAI 的 ChatGPT。”

那么豆包为什么有这样的底气？后边是字节跳动，有今日头条，有抖音，这样的平台在后头顶着。他有的是数据，而且他的数据都可能经历了几万人的筛选、过滤和标注的。所以在这块上，它确实是有一定的优势。我这两天也试了一下豆包 1.5 Pro，除了这个政治正确太严重之外，没什么大毛病。它这个豆包 1.5 还更便宜，它比 DeepSeek 还便宜。原因也很简单，DeepSeek 再怎么便宜，是人家成本低，而豆包的话，我可以赔钱，我可以发补贴，这个事你是比不了的。

另外，Minimax 也出了一个 01 的模型，叫 Minimax 01。它原来没有开源，从 Minimax 01 这个版本开始去开源了，刷分刷各种排行榜，也刷得很高，但没有什么响动，大家也没有觉得 Minimax 怎么样。原因也很简单，开源这个事并不是一蹴而就的。我今儿开源了，大家就必须要马上冲下来三拜九叩，没有这事。开源是要长期的开源，开源很长时间了以后，才会有人慢慢地去看你的代码、看你的论文、看你这些信息。

因为我们要去使用一个开源系统，一开始这个成本是很高的，你需要招聘这些会使用开源的人。

这些人的本身的薪资，就要比那些不会使用开源的人要高。高好大一快的，而且这么大的模型，这么大的系统，我们要把整个的系统都进行阅读、进行理解，这个成本是要支付的。如果你今天突然说我开源了，那么大家也要看一看，日久见人心，明天你万一不开了呢？这个还是要逐渐积累。而且这个Minimax的开源，应该开的也没有DeepSeek那么彻底、那么完整。DeepSeek就属于彻底，所有东西都拿出来，你们就看着，照着东西可以重现。这个迷你Max还惦记着说我是不是开点源，吸引点用户回来，我是不是又可以找他们收钱去了。他在想这样的事情，那这个就一看，就不是一个真心开源的项目。

在这种基础上，他现在依然没有什么响动。Kimi 1.5也出来了，刷了分。咱们中国大模型出来，甭管豆包、Minimax和Kimi，都是先去刷分，刷排行榜。排行榜刷完了以后，好像也就没有什么响动了。一个闭源模型，那在这样的情况下，我有开源的，我干嘛要用你？闭源一定是如此的一个情况了。而且Kimi 1.5的政治正确，要比这个豆包还严重，所以也就到这了。

最后总结一下，这是开源对闭源的胜利，这点非常重要。而且真开源是很难的，也是会被认可的。那些假开源，你要看看是不是愿意坚持下去，把自己的假开源慢慢的做成真开源。而且大力出奇迹这件事情依然存在，现在只是说在大力出奇迹的时候，我可以多换几个姿势，多换几个角度了，但是大力依然出奇迹。

不要老想着中国到底能不能创新，是不是遥遥领先，这件事根本就不重要。重要的是什么？重要的是在开源的模式下，快速的奔跑，参与到标准的制定者中间去，这个才是重要的。否则可能折腾了半天，你压根就不在这个标准制定者里面。因为现在大家都在开业，大家都是说我们向标准里边贡献东西。那么你不能说在前面贡献的时候，我们没有上去，我们都敝帚自珍，把门关起来自己偷偷的在这研究，等人家把这个标准拿出来以后，冲上来说不行。

我们要改一下这标准。我不认你这个标准，谁理你？所以在这个时候，大家就要疯狂地冲上去，参与到标准制定里边去。其实在这里再补充一句，原来在国内各个企业里边，在全世界标准组织里边，贡献最多的公司，在开源项目里边贡献最多的公司是谁？是华为。如果没有制裁，可能华为已经在这条路上走得很远了。但是因为制裁的原因，现在只能自己把门关起来，喊“遥遥领先了”。这个也是制裁造成的一个非常惨重的结果。

好，这就是今天跟大家稍微总结一下，DeepSeek出圈了以后，中文圈到底在吵什么，以及我的一些观点。好，这期就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

谷歌AI – 老范讲故事｜AI、大模型与商业世界的故事

达沃斯论坛深度解析：AI引发的就业危机与未来出路

科技大佬齐聚达沃斯：AI泡沫与就业焦虑

AI基建狂潮与失业的现实

大佬们的观点光谱：从悲观到乐观

阿姆戴伊与哈萨比斯：AGI速度与社会承受力

吴恩达：初级岗位的消失与人才鸿沟

精英筛选困境与丰饶社会

马斯克：丰饶时代与意识存续

能源危机与太空算力

AGI与人类的角色

黄仁勋：根本性的平台迁移

2025年AI的三大趋势

区分“目的”与“任务”

总结：初级岗位消失与人类的新角色

游戏天才到诺奖得主，他凭什么断言AGI只差临门一脚？揭秘哈萨比斯开挂人生背后的逻辑｜Demis Hassabis、Google DeepMind、AGI 时间表、5到10年

谷歌Deepmind的CEO说：“我们与AGI之间，只差一到两个AlphaGo级别的技术难关了。”

哈萨比斯：爽文男主般的开挂人生

从国际象棋神童到认知神经科学博士

从游戏制作人到AI先驱

收购、AlphaFold与内部整合

通往AGI之路：还差哪两个AlphaGo级别的突破？

Gemini 3的惊人进展

大模型当前面临的难题

两大关键突破点

谷歌：科研领域的“怪物”

总结与展望

谷歌一出手，OpenAI的“凛冬”真来了？山姆·奥特曼内部备忘录罕见示弱，承认可能暂时落后｜Google vs OpenAI、AI Race、Google、OpenAI

Gemini 3 Pro和Nano Banana Pro发布之后，OpenAI的山姆·奥特曼开始喊“凛冬将至”了

奥特曼的内部警告：“凛冬将至”

Gemini 3 Pro到底有多强？

实战对比：Nano Banana Pro vs. 即梦4.0

谷歌的新武器：Anti Gravity IDE

谷歌真正的可怕之处：生态与“微信式逆袭”

“模型即应用”：创业者的残酷现实

特立独行的谷歌：AI圈的“局外人”

凛冬已至，创业者何去何从？

跨越临界点：零和博弈的终结与新机遇

总结

Gemini 3 Pro对决GPT-5.1：理科状元与全能大师终极一战，谁在定义AI的下半场？｜Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

Gemini 3终于发布了，这一次是真王炸了吧？

千呼万唤始出来：Gemini 3的发布背景

巨头争霸：你方唱罢我登场

发布前的“小插曲”

新的发布潮流：不开发布会，直接上线

Gemini 3 Pro Preview 在哪里可以使用？

这次是真王炸了吗？大模型差异的感知难题

Gemini 3 Pro Preview：核心特性一览

深入解析：Gemini 的推理能力进化之路

推理范式的演进

与其他模型的对比

“衡水中学”式训练法？Gemini 3是如何炼成的

改变工作方式：预测下一个正确的思维过程

训练数据：高质量合成数据

原生多模态：Video + Code 配对

训练策略：过程奖励模型

训练创新：预训练阶段即集成工具调用

为何如此之快？揭秘Gemini 3的速度奥秘

全面领先？四大顶尖模型角色定位

总结

别只盯着股价了，阿里真正的翻盘点在这里：全栈布局+开源大旗，它正在复制英伟达“左手倒右手”的高明玩法｜阿里巴巴 AI 大模型 阿里云 战略 通义千问 云计算

疯狂抢人 vs 闪电离职：Meta AI团队为何刚组建就内乱不断？两个月上演的收购神话与破灭 — Meta AI 战略、AI 模型、Scale AI、扎克伯格、Llama

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？

软银OpenAI日本公司背后的资本阳谋——5,000亿星际之门是如何影响全球AI格局的？

DeepSeek现象引发中文圈狂热：开源的胜利还是遥遥领先的争议?

别只盯着股价了，阿里真正的翻盘点在这里：全栈布局+开源大旗，它正在复制英伟达“左手倒右手”的高明玩法｜阿里巴巴 AI 大模型阿里云战略通义千问云计算