强化学习 – 老范讲故事｜AI、大模型与商业世界的故事

游戏天才到诺奖得主，他凭什么断言AGI只差临门一脚？揭秘哈萨比斯开挂人生背后的逻辑｜Demis Hassabis、Google DeepMind、AGI 时间表、5到10年

Luke Fan — Wed, 10 Dec 2025 00:58:24 +0000

谷歌Deepmind的CEO说：“我们与AGI之间，只差一到两个AlphaGo级别的技术难关了。”

现在Gemini 3正在大杀四方，谷歌里面负责开发Gemini的部门叫Deepmind，他的CEO出来接受访谈，关注度还是比较高的。

谷歌Deepmind的首席执行官叫德米斯·哈萨比斯，2025年12月4日接受了一个访谈，是在旧金山举行的Axios AI大会。和他对谈的人呢，是Axios的创始人和主编，叫Mike Allen。在这上面他讲到说，我们距离AGI还差一到两个类似于AlphaGo这样级别的突破，突破过去就可以了。

哈萨比斯：爽文男主般的开挂人生

哈萨比斯到底是一个什么样的人呢？绝对的爽文男主，挂b一样的存在。

从国际象棋神童到认知神经科学博士

哈萨比斯是一个英国人，Deepmind本身是一个英国公司，后来被谷歌收购的。他呢，76年在伦敦出生，这个姓氏是个希腊姓氏。他的父亲呢，是来自塞浦路斯的希腊裔，而他的母亲呢，是来自于新加坡的华裔。所以哈萨比斯呢，可以算是半个华人。

从小，这哥们是一个国际象棋神童。像这样的人，肯定都是有异于常人之处。4岁就开始下棋，13岁就达到了国际象棋大师水准。8岁就用自己的国际象棋奖金，给自己买了台电脑，开始学习编程了。

本科和硕士呢都是剑桥的，学的CS就是计算机科学，在校期间一直代表剑桥参加各种国际象棋比赛。博士呢是伦敦大学学院，专业方向是认知神经科学和神经科学。

从游戏制作人到AI先驱

工作，这哥们一开始做游戏的。先去加入了很著名的牛蛙工作室，这个牛蛙工作室呢，最著名的作品叫做《地下城守护者》。但是哈萨比斯当时进去的时候，应该还没有开发这个产品，牛蛙工作室最终是被EA给收购了。后来呢，他自己创建了一个工作室接着做游戏，叫做仙丹工作室。2004年出了一个游戏叫《邪恶天才》，是一个模拟经营游戏，就是一帮邪恶天才在一个小岛上做各种各样坏事的这样的一个游戏。只是呢，这个游戏并不怎么挣钱，这种超级天才做出来的游戏都未必能挣钱。

他呢就把工作室关掉了。后来呢，《邪恶天才》的IP被收购了，2021年《邪恶天才2》发布，但是呢，《邪恶天才2》就已经跟哈萨比斯没有什么关系了。

关闭这个游戏工作室之后，他就去创建了Deepmind。Deepmind主要还是游戏方向，他呢在里边去训练AI下围棋。这哥们是个国际象棋大师，但是呢开始训练AI下围棋，也就是AlphaGo这个东西就出来了。在这中间呢，还训练AI去打各种游戏，星际争霸呀，做一些其他这样的训练。

收购、AlphaFold与内部整合

2014年，Deepmind就被谷歌给收购了，6.5亿美金的价格。但是这个数字呢，并不是特别统一，很多的报道里的这个数字是有一些偏差的。有人说是4亿美金，也有人说是6.5亿美金，还有人说是4亿英镑。因为收购的时候，谷歌自己并没有公布价格，这些价格呢都是后续的报道里边去写的。

在谷歌收购以后呢，哈萨比斯在Deepmind里头又开发了叫AlphaFold这样的一个产品。这个产品是解决蛋白质折叠难题的。蛋白质实际上是这种超大分子，这些超大分子，我们算清楚有多少碳、多少氢、多少氧、还有氮，它并不是一个平面的结构，它是一个立体的结构，3D的。在这样的一个结构里头，它到底是怎么去排列和折叠的呢？原来大家是去预测呀、去猜呀，或者通过一些很复杂的设备去进行扫描，通过这样的方式去识别，成本是很高的。你要想去用蛋白质开发各种药品，你就必须要搞清楚它的3D架构空间，你搞不清楚，这事没法往前走。

哈萨比斯就去搞了AlphaFold，用AI去预测蛋白质的3D折叠空间到底是怎么回事。2020年呢，这个AlphaFold在蛋白质预测大赛中夺得头筹，比第二名强好几倍，这个事基本上就算解决了。现在只要是知道这个蛋白质的分子结构，这个AlphaFold的预测结果就极其准确。2024年，哈萨比斯依靠这个AlphaFold获得了诺贝尔化学奖，这哥们是个诺贝尔奖得主。

这还没完，他呢还在内部斗争中战胜了谷歌大脑。这是一个什么故事呢？谷歌内部一直是有两个AI部门的，一个是Deepmind，另外一个叫谷歌大脑，相互内斗，相互争夺资源。直到什么时候呢？直到ChatGPT出来，三年前谷歌拉响了红色警报，说不能再这样了，你们俩两家打来打去，这个不行了。那怎么办呢？最终是Deepmind合并了谷歌大脑，所以现在整个的谷歌AI是由Deepmind来去负责的，由哈萨比斯来去管理。

现在的Gemini 3使用的技术，大多都是原来谷歌大脑研究的方向：Transformer、大语言模型都是那边研究的。而Deepmind呢，原来在英国这帮人研究的呢，就是AlphaGo、AlphaZero（AlphaZero是AlphaGo之后的一个下棋的模型）以及各种可以自动玩游戏的AI产品，还有呢就是AlphaFold，做这个蛋白质分析的。

哈萨比斯除了是Deepmind的CEO之外，他自己还有一间专门做药的公司，专门用AlphaFold去做蛋白质研究，做各种新创新药的公司，他也是那个公司的创始人。所以哈萨比斯管理了整个的谷歌AI方向，以及谷歌Gemini这个产品化方向，都是归他管的。所以，爽文人生，绝对没有任何问题吧？

通往AGI之路：还差哪两个AlphaGo级别的突破？

哈萨比斯认为，我们距离AGI到底还差哪两个AlphaGo级别的突破呢？他自己做AlphaGo的，所以AlphaGo到他这儿变成了一个衡量单位，再出现两次AlphaGo这样的突破，我们就达到AGI了。

Gemini 3的惊人进展

他呢首先讲到Gemini 3，现在确实让人震惊，已经从文本专家变成了多模态理解系统了。他举了一个案例，说有一个电影叫《搏击俱乐部》，主角上去打斗之前把戒指摘下来了。他就去问这个Gemini，说这代表什么意思。它没有告诉你把戒指摘了就完了，而是告诉你说，这是主角抛开了身份、摆脱了规则的象征，是角色从现实到极端的转变。这个确实挺让人震惊的，这个Gemini 3模型有了自己的判断，不再只是迎合了。

到GPT这儿，你说你错了，它就会说“对不起，我错了”。到Gemini 3上，你说你错了，它会很耐心地给你解释，或者跟你去讨论这个事，是不会直接承认的。说Gemini 3的性格，叫“简洁，冷静，有自信，不讨好”。这个是哈萨比斯自己作为一个科学家，非常非常喜欢Gemini 3的一个地方。

而且Gemini 3呢，现在已经从生成内容，在向着打造产品的方向前进了。我们现在使用Gemini 3去做PPT，去做简单的应用原型，效果已经非常好了。它已经可以去执行一个比较简短的、连续的这种AI agent的工作了，这个是Gemini 3真正强的地方。

大模型当前面临的难题

哈萨比斯说了，现在的大模型还是有很多问题没法解决的。

不具备持续学习的能力。很多人都在担心，说我跟大模型聊了半天，是不是大模型就拿聊天的结果回去做训练去了。其实有时候确实他干，但主要做的是什么呢？就是强化学习。因为我们跟Gemini聊天，他经常会出俩答案让你挑一个，你在挑选的时候呢，实际上就已经在开始帮助大模型进行训练了。但是搜索的结果、我生成的内容、我提出的问题，我让这些东西去进入到大模型里头去进行训练的话，这个是不行的。大模型必须要进行数据筛选，然后才能训练。日常的这些内容，你拿去训练大模型的话，大模型可能会越训越笨的，特别是很多互联网上的垃圾信息，你塞到大模型里去训练，根本就没有办法达到预期的效果。所以大模型是没有办法自己去找内容去训练的，还是需要人先去提出要求，然后去进行数据清洗、数据处理。现在都是由大模型根据原始数据，再去生成最后的预训练数据，然后才能再去训练。所以这个事情，还没有办法让大模型自己去干，这是第一个问题。
无法执行长期的规划。虽然现在Gemini 3已经可以走一个一两个小时的规划，它还是能够走完的。但是你说我这有一个很多步骤，还是并行的，这种步骤需要去执行，执行完了以后需要连续执行几天、甚至几个月的这种任务，这个Gemini 3还搞不定。现在谁都搞不定这个事情。所以现在人去使用大模型，我们还需要自己去理解问题、自己去拆解问题，然后把这个拆解好的问题扔给大模型，而在对大模型的结果进行确认和验证之后，再把结果拼凑起来，让大模型去做下一步。它没有办法说你一开始给他个要求就做出来，“上帝说有光，于是就有了光”，这个事现在还做不到。
智能体系统很不稳定。为什么它没法连续干下去？就是它可能干着干着就跑偏，而且跑偏的过程中呢，自己不知道跑偏。在这个过程中，就有可能会浪费大量的TOKEN和算力，最后呢得出一个完全不可用或者说有害的一个结果出来。这个是目前为止大模型无法避免的问题。
缺乏跨对话的稳定记忆。现在大模型已经开始有记忆了，但是大量的记忆呢，还是在对话内的。而对话外的这种记忆，就是跨对话的记忆呢，它也不是说没有，像ChatGPT也好、Gemini也好，都是有一些跨对话记忆的。但是呢，这个记忆的空间都很小，你不可能说让他记很多的东西，然后跟你进行跨对话的去聊天。为什么呢？对于计算机来说吧，让它记住什么事是非常非常容易的，往硬盘里写不就记住了吗？但是让它忘掉是很难的。到底应该记住哪一部分、忘掉哪一部分，在下一次工作的时候我应该使用其中的哪部分去参与工作，这件事是非常难去抉择的。这就是大模型跨对话记忆的这个难点。所以他讲的，现在缺乏跨对话的稳定记忆，就是你让他记住可以，但是呢不一定下次就想起什么事来，可能他会找一个完全不相关的知识点，就参与到你这一次新的对话里去了。现在我们使用大模型的方式还是比较简单粗暴的，你发现讲着讲着驴唇不对马嘴了，怎么办？开始新话题，就是把原来的记忆都清干净。我们开始一个新的，甭管是Gemini也好，还是ChatGPT也好，它会有一些跟我们个人相关的这种个性化记忆。比如说我就告诉这个ChatGPT：“你记住了，我叫老范，我是个Youtuber，每天都要做什么事情。你要给我去总结信息，或者我要找你提问题，你要先去经过验证才能给我。”就这些玩意，我是可以让他记住的。但是如果你给他特别多的东西让他记，或者说我们在整个的聊天过程中让他把所有聊天内容都记下来，他就没法干活了。

两大关键突破点

这些问题关键的突破点是什么呢？咱们前头讲了两个关键突破点。

世界模型：让AI理解物理世界的运行规律，这个是非常重要的。Deepmind内部呢，有一个叫Genius模型（天才模型），这呢是一个世界模型，通过物理一致性和时间连贯性生成虚拟世界，最后输出视频的。大方向上呢，跟李飞飞的方向是比较接近的。但是Deepmind的这个模型，是更接近于游戏世界一点点。这个哈萨比斯，不愧是从游戏公司里出来的，人生的第一份工作都是对一个人有重要的作用的。
智能体系统：现在Gemini虽然也算是智能体，但是距离智能体系统还是有一些差距的。什么是智能体系统？就是从回答问题到完成任务。现在Gemini依然是在回答问题。他说未来呢，Gemini会嵌入眼镜、工作场景和工作流里面，能够记忆、推理或者是代办，不再只是回答问题，而是直接完成各种各样的任务。你让他做一个什么事的，切咔切咔给你做完了。可以自主规划、执行任务，并且根据结果调整的这种稳定的智能系统，这就是未来方向。

所以呢，两个AlphaGo级别的突破，一个是世界模型，第二个是智能体系统。

谷歌：科研领域的“怪物”

讲到这儿，要再跟大家啰嗦几句。其实大部分的科技公司，是无法想象谷歌的运作方式的，就像是大部分国家的人也无法想象中国是一个什么样的存在，是一样的。

中国的这种存在方式呢，联合国里边专门有一个效应，叫“中国效应”，就是各种统计的时候，一定要把中国排出去。为什么？因为你一旦把中国加上，所有统计数据就没有任何意义了。咱们举一个最简单的例子，吃西瓜。全世界的人都没法想象中国人到底一年吃多少西瓜，咱本身人就多，咱们一年大概吃全世界70%的西瓜。你把这个统计起来，全世界每个国家大家平均吃多少西瓜，你把中国算进去，这事没法算了。包括像什么发电、炼钢，只要是跟制造相关的，你就不能把中国搁里头统计，因为这个完完全全是另外一个维度了，它会让整个的统计结果完全失衡。中国属于是全产业链内卷，而且全产业链都产能过剩的一个国家。

谷歌呢，在科研上就有点像中国在产业链上的这个状态，很多方面呢都会尝试和探索。谷歌呢，具有非常高的人才密度、充足的科研经费，还有海量的数据，这个是缺一不可。而且呢，这些科研团队，他们的时间压力也不是很高，大家就自己按照自己的喜好去研究就行了。他们还在不断的收购新的、最前沿的公司，Deepmind就是买回来的嘛。

谷歌在AI领域里头，同时在探索强化学习（AlphaGo、AlphaZero这些产品）、认知架构、神经科学建模，以及Transformer大语言模型，这些都在研究。不是说我们觉得哪块有机会了，我就往这一个方向去研究。我记得特别清楚，我进入盛大网络参加入职培训的时候，他们就跟我讲说：“全世界只有一种游戏，这种游戏叫MMORPG，其他都不行。”后来我说那我们玩的其他游戏，他们说：“那些游戏不挣钱，我们不研究那个，我们只研究这一个最挣钱的。”这其实是大部分的公司的思考方式，我们既然已经证明了这玩意挣钱，其他的不挣钱，那咱就研究这就完了，特别很多中国公司是喜欢走这条路的。

但是谷歌不，它是所有的方向都要去试一试。而且很多方向呢，你都不知道什么时候能挣回钱来，他也要去试一试，比如说量子计算。前面咱们还专门讲过谷歌的量子计算是怎么回事。很多的这种科技成果，都没有办法给谷歌挣钱，也没有办法在谷歌内部取得成绩，很多人最终是离开了谷歌才创业成功的。现在的AI行业里头，创始人或者是创始的核心团队，大多都在谷歌混过。所以现在我们所看到的AI行业，或者叫AI革命，你基本上可以认为是一帮从谷歌出来的人在去折騰这个事情。

中国呢老说自己是“睡狮”，一旦被吵醒了会很吓人的。谷歌在科研领域里头，其实也是这么回事。拉一次红色警报，就有可能拎出像Gemini 3这样的大杀器出来吓唬人。现在Gemini 3火了，但是谷歌依然不会去收敛方向，照着唯一正确的方向前进，这不是谷歌的路子。谷歌的路子是什么？还是全面探索，严格追踪数据表现，保留多个可能性，并且不断验证。

普通公司能够解决当前的问题，预言一个未来的热门方向——大家注意，不热门他不去干，去一定是热门方向——他们才会愿意说我花一点精力、花点钱去折腾。像谷歌这个，都是这么多方向，哪块云彩下雨都不知道，到底什么时候做出来也不知道，就开始撒人、撒钱进去干活去了。在普通公司里头，能够去预言一个热门方向的，就已经算是很强的了。大量的都是别人做出来，特别是谷歌做出来，他在后边再接着跟着改。而且这些公司实在是搞不清楚什么是热门方向，或者热门方向搞不定怎么办？还有一条最简单的路：上谷歌挖人，或者直接从谷歌出来创业。这个就是普通公司跟谷歌之间的差异。所以谷歌呢，在科研领域里头完完全全就是一个怪物。

总结与展望

好，最后总结一下吧。谷歌Deepmind的CEO哈萨比斯，携Gemini 3成功之势参加了Axios AI大会，说再有一到两个AlphaGo级别的突破，就可以实现AGI了。这两个是什么呢？就是世界模型以及智能体系统。可能要5到10年，把这两个实现了以后，我们就达到AGI了。

本节目的特点，咱们八卦了一下哈萨比斯的开挂人生，也稍微介绍了一下谷歌这个绝对的科研领域的怪物。我们也希望谷歌，以及所在谷歌里头工作过的这些人，未来还会给我们带来更多的惊喜。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

马斯克重磅发布GROK4：史上最聪明AI大模型横空出世，强化学习碾压GPT-4与Claude，20万张H100显卡大力出奇迹，中美科技差距再度拉大，谁将主导AI未来？

Luke Fan — Tue, 15 Jul 2025 00:42:44 +0000

史上最聪明的AI大模型GROK4诞生了。马斯克亲自坐镇开发布会。视频发布会呢，并不是特别的顺畅。第一个呢，是他晚了一个小时，也没说为什么。反正马斯克的直播经常会晚。然后呢，太多的东西需要集中发布，上下衔接的呢比较仓促一点。

最早期很多的互联网公司开发布会也是这样的，两三个小时七差咔嚓发一大堆东西。后来OpenAI这些公司习惯了在网上开直播以后呢，就慢慢把这风格改了。改成什么呢？就是每次发一个功能，发个十分钟二十分钟就完事了。然后呢，不停的发，每个月发每个月发。Xai呢，现在还没有彻底学会这件事情，还是一股脑给大家扔了一大堆东西出来。

我们以前在面对创业者的时候，每次都会苦口婆心的去做一种劝告。大家可能不知道会劝什么。作为投资人来说，我们每次看到任何一个创业者，都会上去劝一件事，叫不要憋大招。你一次要惦记着做一个大的东西，就很容易失败。你应该是做一些小的东西，一点一点放出来。OXAI现在还是憋了一个大招。当然了，XAI后面呢，也会每个月发布一个新的工具出来，它也慢慢的向这样的一个方向去前进。

8月份呢会发编程，9月份呢会发多模态。虽然现在的GROK4呢，也号称是可以出图吧，但我不确定他是可以做图片理解的，做视频理解。但是呢，他这一块应该还不是很满意，9月份应该再会去做发布。10月份呢会发视频。GROK4的模型要直接做视频生成。一个百无禁忌的模型，能够做视频生成，还是挺值得期待的一个事情。

到年底呢，准备发企业功能包。这是个什么东西？GROK4是允许私有化部署的。你可以向他申请说，我家里有这个云，我们企业要用这个东西，给我部署到这边来。GROK4还会有合规工具包，企业级的技术支持。美国区的Oracle云账号，现在已经可以使用Grok 3了。Grok 4还需要等。Oracle云并不是XAI自己家的云，你可以在上面使用Grok 3。

一些测试呢，其实也并不是特别成功。比如说命令它唱歌，结果呢，这个东西没有唱歌，他做了一个诗朗诵。当然了，不论是唱歌还是诗朗诵，对于一个机器发声TTS的一个功能来说，已经是很强大了。既然敢在上面当着马斯克的面要求他唱歌的话，那说明这个东西是会唱歌的，只是当场没唱出来而已。

那么GROK4到底是一个什么样的模型呢？妥妥的叫别人家的孩子。什么叫别人家的孩子？就是你看邻居家的小明，怎么考的这么好，每天上课都多么专心，经常被老师夸奖。

GROK4呢，属于典型的理工男模型。GROK从三开始，一直是有一个很双面性的东西：一方面是理工男，另外一方面呢，比较百无禁忌。GROK3有一些比较奇葩的用法，待会咱们再去讲。GROK4我估计会继承这些使用方法，而且会变得更加厉害一些。

但是，马斯克作为一个理工直男，跟一帮工程师坐在那发布GROK4，肯定是奔着理工男的这个方式去发布的。所以，其他那个用法他就没怎么讲。所有跟做题相关的数据都被刷了。而且，这一次是遥遥领先。前面呢，Gemini 2.5、GPT O3 O4、Claude 4这些呢，他们在刷这些题、刷这些排行榜的时候也会有提升，但是提升的不会那么高，经常是这个我高一点，那个你低一点。

但这一次的话，GROK4完全属于是断层式的碾压，一下比别人高了非常一大块。特别是大家提到的，有一个叫“人类终极测试”的竞赛。上一个冠军呢是Gemini 2.5，正确率呢是21%。GROK4，不使用任何工具，就闭卷考试26.9%的正确率；使用工具就是41.0%的正确率。如果使用叫Grok Heavy，一个超重的模型，它是一堆的GROK一起来干活，干完了以后自己相互吵架，吵出一个结果来，它可以达到58.3%的正确率。

所有人都在讲说“人类终极测试”，什么是“人类终极测试”？它呢是一套测试题库，2,500道题。发起人是谁呢？有一个叫Center of AI Safety（CAIS，AI安全中心）这样的一个机构为主导构思与学术把关的。那么，谁出钱呢？谁做工程技术实施的呢？叫Scale AI，就是刚被美塔投了一大笔钱进去的，那个华人小伙子创业那项目，140多亿美金刚投完资的那个项目。他来去提供的数据工程和资金支持。

做这种题库并不是那么贵，花不了太多钱。启动呢，是2024年9月16号，公开全球征题，标榜找出AI也答不出来的难题。花了多少钱呢？给了50万美金的奖金池。Scale AI给的钱，最高呢5,000美金一个题，奖励前50名作者——就是你出的题特别好，5,000美金一个题。第二梯队呢是500美金一个题。后边呢就是100美金每个错误——我把题上来了，大家来找错误。

现在这个题库呢是在GitHub上，在Hugging Face上都有，大家可以上去找错误。找到了错误，给它修正了，可以得到100美金。所以呢，它整个的运作方式就是50万美金一个奖金池，咱不停的发。到现在为止呢，依然在不断的更新这些题库。

这个题库呢是公开征集的2,500道题，41%的数学题，14%的多模态的题。另外呢，还保留了私有隐藏集防止过拟合。过拟合什么意思？就是说我刷题呗，除了这个题之外的东西都不会吗？前面这个Llama4就是死在这个过拟合上了，题刷的特别好，结果发现不是这个题库的题不会做了。

他怎么来预防这个过拟合呢？就是有300道题是隐藏的，任何人去刷这个题库，你看不到这300道题。用AI大模型去做这个题的时候呢，它就会把这300道题拿出来，这个模型就始终会遇到新题，遇到没有做过的题。

整个的这个运作方式呢，第一个是叫众包的征题，大家都来出题。第二个呢是做前沿模型的筛选，就是用当下最强的大模型（GPT4O，Gemini2.5，Claude 3.5）这些题呢进行模拟考试。当这些模型的得分不比随机猜好的时候，这个题目才会被保留下来，进入人类最初考题的这个题库。比如说咱们原来都讲a b c d考试嘛，咱们全填a得25分，如果这个这些大模型做的分没有超过25分，我们就把这题留下来，超过了我们就这题不要了。它是这样来出这个题的。

出完这些题之后呢，再进行两轮的人类专家复核，在Git Hub和Hagging face上面去公布，让大家去找错误版本。定版以后保留私有级并记录版本哈希，他是这样来工作的。

你说人到底能做成什么样人类最终考题？人呢目前为止，没有一个公开可验证的成绩。有人试过，据说是需要耗费极长的时间去做，但是也没有人呢去真正公开说我到底得了多少分。所以马斯克这次说，他的大模型可以做到50多分了，说应该已经超过了绝大部分的人类，我觉得这个事情是可以这么认为的。

马斯克认为呢这一次他发的GROK4就是有史以来最聪明的大模型了。当然了，马斯克这个嘴呢，大家就听就好了，因为GROK3发布的时候他也这么说的。而且马斯克讲了说他的GROK4已经达到了全科目博士水平了。

那么GROK4到底有什么不一样的地方呢？它是第一款预训练和强化学习相对比较平衡的大模型。什么意思呢？正常我们去做一个大模型是做预训练嘛，做一个模型出来。做完这个以后呢会去做强化学习。所谓强化学习呢，就是状态动作和奖励，在某一个状态下，我要求你去做一个什么动作，如果做对了我给你奖励，做错了就没有奖励。这个大模型自己按照积累更多奖励的方式进行训练。像我们比较熟悉的比如Deepseek R1推理模型也是如此。

就是他先去做一个基准模型，叫Deepseek R1 Zero。然后呢，在这个模型的基础上去做推理的强化训练，得到了Deepseek R1。

但是，以前传统的模型是怎么做呢？就是先消耗巨大量的算力和数据进行预训练，把这个Zero（0）模型做出来。然后呢，再用远小于预训练成本的算力去进行强化学习。一般呢，它的强化学习的成本大概也就是预训练的10%到20%左右。

然而，GROK4呢，它是预训练跟强化学习所耗费的成本与算力基本相等，两边一样多。所以它是有史以来第一次用这么多算力去做强化学习的模型。当然，你像Deepseek，它想干它也干不了，20万块显卡它没有。

GROK4呢，首先是使用GROK3的一部分权重，就是有些层次的权重它就直接用了。然后补充数据之后进行预训练，得到了一个叫GROK4 base的基础模型。接着，投入空前的算力进行强化学习，投入了20万张算力卡直接进行强化训练，按照奖励最大化、长程回报的方式。

什么叫长程回报呢？就是你要做很长的推理，要积累正确的奖励，让这样的一个算法去进行训练。而且呢，是动态的任务池，包括数学推导、代码单元测试、商业模式和人类最终题库，这些高级的环境都要进去进行强化训练。

XAI呢，直播的时候讲到说，模型越聪明，强化训练的任务呢就越少，需要自己动态地去做题，否则你就没有那么多题可做了嘛。智能体在模拟环境下或者是真实的API工具中试错、自我对弈。因为有一个叫做Grok heavy的模型，就是一堆的Grok的模型自己跟自己之间吵来吵去的，最后看看怎么能够提高训练效果。

在训练期，让代理互相评论；推理时，并行生成交叉式复审核成答案，再去进行这样的学习。所以它的这个算力是非常浪费，但是效果很好。而且呢，它会监控成功率，当大于80%的时候，会自动生成更难的对手、更长的推理链，解决奖励稀疏的问题。

就跟原来说小学生：“哎呀，我今天考了95。”一回到家里以后，父母肯定说：“你为啥不考100呢？前面还有人没有？”都是这样来训练出来的，就不断地PUA，这个产品就出来了。

它的强化训练计算量达到了同类产品的10倍以上。GROK4的强化训练连续跑了7周，每天消耗的电力相当于一座中等城市。所以说，AI的竞争最后是电力竞争。结束了以后，他再把多代理策略的这些东西进行蒸馏，形成一个单代理的版本。

所以呢，我们平时去使用的公开的API调用的Grok，不是heavy的那个。

就是蒸馏后的这个单代理模式。而且除了强化学习之外，还有一个很重要的东西是什么呢？就是原生的工具支持，这个也是非常厉害的。因为现在的大模型都是可以调用工具的，调用方法也很简单，就是你在给它提示词的时候，把工具的描述描述进去。说我这有一个扳子，那有一个锤子，这里还有一个电焊，有一大堆这样的工具。你先把这些东西都介绍给这个大模型，然后呢，大模型再根据说你的提示词进行推理，在推理的过程中来决定调哪个工具。这个东西其实是需要训练的，有些工具你会使，有些工具不会使，或者有些工具你根据这些描述应该如何去使用，它是需要训练的。所以Grok专门在这块进行了训练，它的这个原生工具的知识要比其他的模型要好。所以呢，它叫高度动态的工具知识。

GROK4的工具体系不仅仅局限于文本生成，它能够根据任务需求动态调用外部的API、计算工具、模拟器等等，使得它能够处理更复杂的任务，例如实时推理和决策优化。而且呢，它是多智能体合作，因为这个东西一开始它就是相互之间吵架吵出来的嘛。不同于大多数模型，GROK4的原生支持多智能体的这种合作方面的创新。以前都是以智能体为核心，我们再去调别的工具就完了，但是GROK4支持智能体之间调用的，就可以使得模型能够在推理过程中模拟复杂的多角色互动场景。这在处理开放式任务、模拟环境和长期计划时非常重要，这个是它的一个创新。

然后呢，多模态的知识。Grok对于图片、音频等非文本数据是内建支持的，使得它在处理涉及视觉、声音以及其他感知数据的复杂任务的时候，能够更加高效的融合多种信息源，优化推理能力。通过强化学习和专家模式的结合，GROK4能够在大规模任务中实现更高效的推理，尤其是在与外部工具和数据库交互过程中，提升了准确性和可扩展性。这个就是GROK4真正强的地方。第一个是用了空前的算力去做强化学习训练，另外一个跟大家强调的就是对于工具的这种原生支持。

讲的这么热闹，这个使用起来到底怎么样呢？第一个，我自己的账号是8美元的x账号，这个不让用，只能用GROK3。GROK.com上也只能用GROK3，不让我用GROK4，必须要升级30美金一个月的super Grok账号才可以去用GROK4。你要想去用那个Grok heavy，就是那个特别重的那种相互吵架的这个大模型，一个月300美金，稍微有一点点小贵。那你说我讲了半天我用没用过？用过了，通过API调用。

现在呢，我们可以通过x.AI的网站去调用GROK4的这个API。它上头有一个模型叫GROK4-0709，就是7月9号这一天发布的这个版本。当然，比较遗憾的是什么呢？现在GROK的这个API调用所有的优惠都停止了，只能老老实实地烧TOKEN。也不是很贵吧，去年呢，是每个月送25美金，基本上是够使了。今年是5月份之前呢，同意共享数据充值5美金送150美金，这个也是一个比较不错的优惠吧。但是5月份以后这个优惠就停止了，所以现在就老老实实烧就行了。它呢，是3美金100万TOKEN的输入，15美金100万TOKEN的输出，所以它的整个价格不贵。上下文呢是256k，支持推理，支持多模态输入。

现在呢，它有一个调用限制，每分钟可以调用60次，超过了以后呢它就会卡住你，这个是有问题的。所以，我确实去用去了。使用的感受怎么样呢？这个就当我们跟博士在一起工作的时候，会自惭形秽吗？我相信可能在我听我节目的人里头，有一些人是博士。你跟博士一块去聊天，一块去干活的时候，真的觉得他们特别伟大光荣正确吗？其实也没有。博士有时候未必懂得人情世故，未必好打交道。我个人的感受呢也是如此，并没有感觉比ChatGPT或者Claude好更多。有时候呢也犯一些比较低级的错误，质量，指令的依存度并不是很好。

我做了几个测试吧，比如说我要求的他先去做搜索，根据搜索一些信息去给我做总结。出来的结果呢，会混杂html的标记在里头。因为你搜索的结果是带html标记，语言那些标记的嘛，出来了以后就会带这个。我在提示词里写着说不要带html标记，把相关的标记转成Markdown，发现依然是带着这些标记就出来了。所以呢至少到目前这个版本吧，效果还没有那么好。但是他们应该内部还在迭代吧，可能很快就会改过来吧。

在处理日常工作这方面呢，他的能力与科研能力之间其实并没有直接的联系。就是大部分人其实都可以处理日常工作，但是很少有些人可以去做这个科研。而GROK4主要提升的是科研能力，所以前面我们讲所有跟数学相关的，跟这个推理相关的遥遥领先。但是处理日常工作这块呢，基本上也就这样了。一个理工直男博士，往往是笨嘴拙舌，缺乏生活常识，以及指令依存性不是很高的一个人，符合我们对博士的这种刻板印象吧，或者也属于在情理之中的一个事情。

所以现在日常工作处理方面呢，到底考核什么？第一个是工具能力，第二个是指令依存度。

第三个是一些对齐的能力。这块其实现在GPT、Gemini、Claude、Grok、Deepseek基本上都能使用，没有特别大的差异。

输出质量呢，在不同的领域各有差异。GPT相对来说是比较均衡的；Gemini呢，有点像理工男；Claude的输出让人觉得比较舒服，但要稍微油滑一点；Grok呢，有的时候给你黑色幽默一下；Deepseek喜欢瞎编。

稍微勉强达标的是谁？就是千问跟豆包，叫勉强达标，稍微要比上面那个梯队差那么一点点。我呢，还没想到具体要用Grok4做点什么高大上的事情，因为对于普通人来说，你也想不出什么高大上的事情让他干去，所以这个先使得吧，价格也不是很贵。

再往后一个问题是什么呢？说好的开源哪去了？马斯克原来讲的Grok是要开源的呀。Grok1现在其实已经开源了，在Grok2发布的时候就开源了。但是呢，也仅仅是开源了而已。正常你开源一个项目，你是要文档、要社区、要维护的。但Grok1开源了以后呢，是一种非常不友好的开源。它那个模型很大，一般人你也部署不了，所以它也没有跟别人去做各种兼容性的适配。有些人去提问题、提意见，他也不理人家，就往这一放就完了。这种开源代码，属于是比较低质量的开源项目吧。

马斯克呢，曾经承诺过，新的模型出来，就一定会把上一个版本开源出去。Grok3发布的时候呢，大家就在等Grok2的开源，当时也承诺了，等Grok3稳定下来，就把Grok2开源掉。现在Grok4都出来了，Grok2跟Grok3就都没有开源的动静了。整个的发布会上，也没有再提开源的事了。对于马斯克来说，贵人多忘事，直接忘掉了吧。

Grok以后会提供企业私有部署的服务，这个呢，其他三家还是不一样的。像Gemini、GPT、Anthropic，他们应该都不会去提供这种企业部署的。以后未来是否会开源呢，还要看未来的策略。其实开源对于他们以后去争取企业私有部署的订单是有好处的。实际上他所谓的开源，也叫开放权重，并不是开放源代码。开源是一个很消耗人力的松耦合和协作方式，马斯克他们XAI现在人也不是很多嘛，所以现在一时半会顾不上。

也没准到年底的时候又想起来说，我们再开个源啥的，大家可以再继续等待一下。马斯克现在呢，应该也没太考虑到XAI到底能不能挣到钱的问题，反正他现在不停地往里募资，不停地融资，融的钱也够他花的，因为他人不多嘛。

也不需要跟别人去抢人，主要花的钱都是烧算力去了。买显卡、烧电费，就干这玩意去了。

再往后呢，咱们看一下大模型的意识形态问题。因为Grok呢，是一个比较奇怪的大模型。咱们要知道，最一板一眼的大模型，或者说道德感最高的大模型是Gemini。GPT呢，原来道德感也很高。最近的一段时间，特别是Deepseek R1出来以后，这段时间呢，GPT实际上是把道德感降低了一些。最没有道德感的实际上就是Grok。

Grok呢，最近还出了一个特别神奇的事情，叫做“日本烟花事件”。怎么出的事呢？就是做了一次黑色幽默。应该在7月5日，有人放了一个特别漂亮、特别大的一个烟花的照片，就在那说：“这是日本最大的烟花了。”另外一个人呢，回复说：“应该还有更大的吧？”这个时候呢，就有人去问Grok了，就@Grok在Twitter里头，在X里边问他：“什么时候日本有过更大的烟花？”

Grok就回答了：“日本广岛跟长崎被丢原子弹那两次，是更大的烟花。”日本人肯定不乐意了嘛，说Grok太不照顾我们的民族感情了。Grok呢，还在那嘴硬说：“这是一个黑色幽默。如果你感觉不舒服的话，我道歉一下。但呢，这就是一个历史事实，我也没有编什么。”

日本网友就说了：“说两颗原子弹呢，杀死了很多的无辜民众，这个才是事实。”Grok的回复特别逗，他说：“南京大屠杀这个才是历史事实，有很多的无辜民众被杀了。”然后日本网友说：“南京大屠杀这事是个谣传，没有南京大屠杀，凭什么说这是历史事实呢？”Grok又去回去了：“有各种笔记、照片，还有审判的一些记录，都已经证明了。虽然死亡人数上有争议，但是南京大屠杀是被普遍认可的历史事实。”

就是这样的一个故事，让日本网友稍微有点小破防。日本人现在正在想说：“我们是不是要去抵制一下特斯拉呢？”这事是7月5号发生的。7月10号早晨，XAI把Grok相关的评论都删了，准备开发布会了。发布会之前，不能有这种不和谐的声音在这里。

Grok干类似这种有争议的事情，其实也不是一回两回了。他经常做这种黑色幽默，得罪一些人。但很正常吧，黑色幽默通常是有一些冒犯的，不能保证所有人看着都很开心。你要如果所有人看着都很开心，那就不叫黑色幽默了，那玩意叫“伟大光荣正确”的。

Grok呢，曾经出现过意识形态投毒的事件。2025年5月14号，Grok对于用户无关提问，比如棒球、HBO更名等等这些事情进行回复的时候呢，反复提及南非白人种族屠杀和“kill the boy”，应该是BORER吧。

这样的一个歌反复在提这个。这一行为呢，引发了广泛的关注。因为白人种族屠杀是一种极具争议的极右翼阴谋论，已被南非法院和多个权威机构驳斥为缺乏证据了。

Grok甚至在某些回复中称，这是被Xai的创造者所指示的，将这一个问题视为事实、种族动机驱动的一个事件。这是Grok承认的事情，因为马斯克自己始终坚信南非是存在针对白人的种族屠杀的。因为他是老板嘛，所以就有人把这个东西直接写在系统提示词里头，直接投毒投到x上去了。大家在x上发帖的时候，如果你@grok，他有时候会回来回帖的。

这一次日本的烟花的事件呢，也有人指出了为什么他就这么去怼日本人，而且会去提到南京大屠杀呢？有人说XAI团队里的中国人占比太高了，特别是在中国大陆出生、接受基础教育的人，占比是最高的，基本上大概占一小半。到目前为止没有一个明确的确认说有谁日本人在里头。在这里头大概就是中国人、俄罗斯人加上一些东欧的人，是这样的一个团队组成的XAI。

甚至现在有人认为呢，XAI是一个被中国有意识制造的特洛伊木马，派了大量的研究者进去。其实这个事儿不光是XAI，美国所有AI公司里头大概都有一半，没准还有一多半是中国人。而且这些人是在国内接受过初等教育的一些人，占比是非常非常高的。

那么新的态势是什么样的呢？现在Grok的市场地位呢，首先它的市值是第二。最高的呢是OpenAI，3,000多亿美金；1,000多亿美金的Grok是第二。所以它的市值要比Anthropic高很多。其他的大厂，谷歌你没法跟它比，那玩意是上万亿美金的公司。所有的AI的这种新公司里它的市值第二，但是市场占有率呢并不大。

市场占有率最高的肯定是OpenAI，大概占百分之三四十的份额；Gemini是第二，应该有个20%多；Anthropic的Claude有十几；剩下的大概还有30%左右呢，包括Grok，包括LLAMA、千问、Deepseek，都在这个其他里头。

Grok的APP不算x那部分，就是APP自己的日活应该也是有个几百万吧，月活可能几千万的一个样子，就是数量还可以。在一些特定的领域里头呢，被应用的很好。Grok你是可以通过API直接调用x数据的，不是具体说我要看张三的哪一条或者李四的哪一条，不是这样的。而是什么呢？你可以看趋势数据，说最近x上有什么新趋势，你可以直接通过API直接调用它，这个还是很方便的。另外呢，顾忌比较少嘛。

所以，很多人在用Grok写小说。还有呢，因为Grok的顾忌相对来说比较少，所以它有一个比较特殊的用途。刚才咱没讲，就是有一堆人在去研究越狱提示词，让Grok去写黄色小说。大部分的色情小说，其实是Grok写出来的。

按道理来讲呢，应该有人用Grok做工程、技术方面的工作。但是这个可能离我的生活稍微有一点点距离，所以我并不是特别了解。这个应该也是马斯克他们去训练Grok最主要的一个用途。他们不可能说我训练了一个东西出来，可以怼人、可以讲黑色笑话，还可以写黄色小说。马斯克应该也没那么闲吧，人家还惦记去火星呢。

另外一个我们要发现的势头变化是什么呢？就是通过GROK4的发布，美国再次拉开了跟中国之间的差距。把GROK4发布了以后，中美之间的大模型差距就重新拉开了。在科研、工程技术领域，绝对的遥遥领先了。我呢，没有验证过，希望后边不要翻车。因为有些东西我们这讲的很热闹，没准过两天翻车，这个可能性我们不希望看到。

而且这种大力出奇迹的领先，中国因为缺少算力卡，追赶起来是比较费劲的。它是20万块英伟达H100去做的强化学习，中国你凑不出20万块H100了。你要想拿其他的卡去做这件事情的话，你需要比如说200万块，或者更多的一个卡池，才有可能能够达到同样的效果。你要耗可能比马斯克多10倍的电，才有可能达到这样的效果。这个的话还是要看大家是不是有决心了。国内这些大模型公司一般烧不起这个。

如果说咱们想追上这一个事的话，估计要等10月份，川建国同志带着黄仁勋访华了。如果10月份它成行，带着黄仁勋来了，那没准咱还是可以追赶的。否则的话这事费劲。而且这种领先是全方位的领先，因为这是科研速度的全方位的领先。在各个方面的科学研究，Grok都有极大的提速。可能对于中美科技之间，会有一些新的改变吧。

新的方向已经指明了，有卡的公司们那就准备冲了。因为他这件事呢，说的并没有那么复杂。原来大家都是说我们做完预训练，做完这种Zero模型或者base模型，稍微的做一些强化学习就完事了。现在说，我们把这强化学习一直做下去，就可以有非常非常好的效果。那大家干呗。

OpenAI、谷歌、梅塔，这都是手里有卡的人。而且现在梅塔在挖OpenAI的人，前面掉队了。我们有卡，我们要把它干起来。OpenAI现在也在挖人，OpenAI在挖XAI的人，就是在挖Grok的人。因为你把20万块卡堆在一块去干活，让他们之间能够很好的调度。

这个事它也是个学问。既然Xai你已经把事搞明白了，那Openai说来，我花钱挖你的人就完事了。既然GROK4可以靠20万块算力卡做强化学习，直接把成绩拉上去，其他公司肯定是不甘落后的。这个是中国相对来说比较难追赶的一个事情吧。

华为呢，应该学英伟达，自己就别训练自己的模型了，好好搞你的升腾芯片拉倒了。搞了半天的这个盘古大模型，还不够丢人现眼的。

最后呢，总结一下GROK4的发布呢，其实让我想起了一个东西，就是《三体》这个小说里边讲的黑暗森林法则。为什么想起这个呢？黑暗森林里头其实它是四个法则：

第一个是宇宙资源有限，文明生存优先。

第二个叫猜疑链，就是：我怎么向你证明我是好人？我怎么知道你是好人？我怎么相信说你知道我是好人以后会很好的对待我？猜疑链不断延长呢，就容易去打起来。

第三个是什么？就是技术隐藏与技术爆炸。《三体》里讲黑暗森林法则的时候，看到任何人，哪怕他的技术比你差很远，都要一枪打过去，然后把他干掉。因为呢，距离很远，你不知道什么时候能到那，没准你到那的时候，人家技术大爆炸，一下就比你先进了，可能是反过头来就把你干掉了。这是这个黑暗森林法则的前三个要素。

第四个要素就是沉默是生存的策略，就是大家谁也别吱声，在里头藏好。

那GROK4呢，就是一个技术爆炸的冲锋号。因为他一旦上来以后，所有的理工科或者是工程技术方面的科技方面的，就可以大爆发了。美国这些油卡的公司会继续加大算力做强化学习，会快速赶上。中国，追赶也是必须的，我们再难还是得赶。毕竟美国公司里边还有这么多的中国人，比这个任何族裔的人的比例都高。

卡呢，咱们确认肯定不多了，那看怎么去新加坡，怎么去中东土豪那边去，把这些卡再重新聚集起来。或者说咱们把这个升腾的卡看看，拼吧拼吧能不能干点什么事出来。

GROK4应该是会对整个的AI制程行业带来改变的一个大模型，就像咱们年初的Deepseek R1一样。Deepseek R1出来之前，整个大模型圈子里头都是岁月静好了，OpenAI都开始挤牙膏了。Deepseek一出来以后，中国人来了赶快卷呐，甚至有一段时间他们都觉得哎呀，中国已经追上来了。但是到GROK4开始发现，哎，这个距离又拉开了。而且真的是有一样他们可以卡脖子的东西，咱们没有。他有他的训练，完完全全就是靠这20万块卡，咱们搞不定这个事情。他有，直接搞定了。而且这个东西不仅仅是Grok的领先，而是全方位的。

科技与科研的这种领先，所以这一块的话，可能世界格局都会带来一些小小的变化吧。后边我们还有很多的故事可以去讲吧。好，这就是我们今天要讲的GROK4发布的故事。

GPT-3与O4 mini不再高冷：融合工具调用、记忆与超强图像推理，普通人也能高效应用AI，一文看懂成本、限制与Copilot捷径

Luke Fan — Fri, 18 Apr 2025 00:50:27 +0000

GPT-3和O4 mini发布了，这次绝不再仅仅是科学家们的玩具了。大家好，欢迎收听老范讲故事的YouTube频道。

本来GPT-3和O4 mini发布呢，我并没有抱太大的期望。为什么呢？因为前面O1和O3 mini发布的时候呢，看得我头晕眼花的。我记得应该是在去年12天连续发布会的时候发布的O3 mini，实在是太不明觉厉了。各种的复杂科学问题，咔咔就给解决了，然后各种的排名都排得很高。但是呢，我自己其实并不怎么用。

为什么呢？第一个，ChatGPT Plus用户里边呢，它是有用量限制的，并不是随便让你用的。所以在有用量限制的情况下，你就得省着用，而且你也感觉不出有太大差异来。你说你用它干嘛？据说编程很强，但是它没法跟IDE结合，基本上也就放弃了。你是可以出一大堆的代码，但是你还得向IDE里边去考来考去的，很麻烦。那你说我通过API调用吧，直接使用O1和O3 mini这些模型，实在是贵，所以就放弃了。

这一次呢，真的就不一样了。首先是Greg重新上线了。Greg其实好长时间不怎么出来了，他是在2023年11月份山姆·奥特曼宫变之后，就变得非常低调。2023年11月开始休假，后来是在微软的强烈要求下才回归的。到2024年又开始了长期休假，但是在大量高管离职之后，年底再次回归，还宣布：“我提前俩月回来了，我本来还想再多歇一歇的。”现在呢，主要负责机器人业务，不再担任董事会主席了，保留了总裁的职位。

Greg上来开始显得有一些紧张，不知道该说什么。大家可以去看看那25分钟的发布会录像，后面逐渐放松了，也是长时间不露面、不说话的一个表现吧。这一次的话，全程C位，坐在最中间的位置上，主持O3和O4 mini的发布会，可见重视程度了。

这一次的发布会呢，基本上是二对二的分配，就是两个老板配上两个做事情的。两个老板始终坐着不动，做事情的人呢，就是讲到不同的部分，然后来换。还有一个老板呢，叫Mark陈，首席研究官，亚洲脸，但不确定是不是华人。有传闻其父母是从台湾去的美国。现在呢，有一种ABC脸，看起来有点像华人，但是脸型又不像。这个据说呢，是长期英文发音和美式的饮食习惯，以及美国教育所形成的一种脸型，反正跟华人还是有一定区别的。有可能是个华人，当然也有可能是个越南人，这个不确定。

另外两个呢，是根据演示的过程不同，不停地换工程师。国内引用的照片呢，肯定是有偏向性的。国内各媒体呢……

通常引用的是讲到模型强化训练和各种跑分的这两位工程师。为什么呢？因为里头有一个叫周文达的，是一位华人。国内各个媒体引用照片的时候，一般会引用含华量比较高的照片。

一开始呢，也是讲科学，什么量子力学。本来我也挺失望的。科学的部分呢，对于我这种普通人来说，已经没有那么大关系了——看不懂，没需求，也用不起。所以一看，还是这东西，好像没什么意思。

但是讲到后边呢，越来越兴奋了。咱们讲几个好玩的特性，并不跟大家完整的去复述这个发布会了。有兴趣可以去看这个25分钟的发布会，各种数值绝对是遥遥领先。

OpenAI呢，作为行业老大，他是有自觉的。什么叫自觉？从来不跟别人比数值，只跟自己比。就是他不会说我把Gemini 2.5拎出来比一比，Claude 3.7拎出来比一比，或者跟DeepSeek比一比。别人都是说我比OpenAI强在哪，或者我已经接近OpenAI了。OpenAI永远说我就跟自己比。

所以我们现在可以看到的所有的数值比较，都是跟GPT O1、O1 mini、O3 mini跟这些模型进行比较的，没有跟其他模型比较的数据。

咱们来讲三个有趣的功能点吧。

第一个非常有趣的功能点，也是让我觉得GPT O3和O4mini真的能用了的一个最核心的点，就是它可以进行工具调用了。什么意思？我们正常情况下一个大模型，你让他去给你生成内容的时候，他其实都是在胡说八道的。就算他有的时候说的很像，但他依然是在胡说八道，是在编。他不能保证内容是可验证的，而且你每一次让他说同样的事情，他都给你编出不同的花样来。

那么一定要带上搜索，带上知识库，带上其他的辅助工具，他才可以靠谱的干活。现在推理模型已经可以靠谱的干活了。所以O3跟O4mini是可以进行工具调用的。但是他们绝对不是第一个。在发布会上他们讲说，我们是第一个在推理里边进行工具调用的，这个真的不是。GROK3也是推理模型，也是可以做各种工具调用的。

只是呢，GPT O3跟O4 mini呢，据说在工具调用上要有极大的提升，因为他们在这块专门做了训练。他可以进行几十次的这种工具调用。当你让他去做一个很复杂的事情的时候，他会反复的在他认为需要的时候去调用工具，获得外部数据，或者做一些相应的操作。这个很棒。

O3跟O4mini呢，是在推理的过程中去调用工具，效果绝对是碾压原来不能使用工具的O1，效果好的一塌糊涂。推理模型如果不挂搜索引擎……

不挂知识库，基本上就是胡说八道。他要比正常的生成模型还要再胡说八道一些，因为他想的多，越想就越错。知识越多越反动，这个幻觉是非常非常严重的。挂上搜索之后，基本上不再需要 deep research 这种东西了。现在你用 O3 去挂搜索，跟 deep research 的效果基本上是可以平齐的。

现在呢，OpenAI 内部有很多的工具，包括 Python 执行、调用浏览器、搜索，有很多这样的工具，它都可以自动的去调用。当有这些功能之后，每一个普通人，不需要是科学家，也可以用 O3 跟 O4mini 完成很多任务了。只是目前呢，OpenAI 内部的这些工具，你通过外部你使不了。还有 function call 这个调用呢，现在在代理站上还没有接上，这个还要再等一等。什么意思？就是你直接挂 OpenAI 的 API，挂它原厂的，是可以进行 function call 的，可以把你自己的各种各样的工具放在里边让它去调用。原来我们演示过使用高德地图的工具，让他去找饭馆、规划路线什么的，这个都是可以去使用了。如果我们使用 API 来调用 O3 和 O4mini 的话，OpenAI 内部的什么搜索呀，这些工具我们是无法使用的，就差在这了。这是一个比较有趣的点，但是具体怎么用，待会我们来举一个案例。

第二个有趣的点是什么呢？就是跟记忆相结合了。原来我们专门录了一期视频来讲 OpenAI 有了记忆功能，现在它也有记忆功能。于是我就向它提出了要求，我说：“根据你对我的了解，我是个 Youtuber，给我推荐一些适合我的 YouTube 话题，我要去写稿去了。”然后他就开始去搜索，调用搜索工具去搜索去了。搜索完了以后说：“我发现你是专门讲 AI、讲科技、讲流量、讲创投的博主，我发现有哪些哪些话题最近是最新的，适合你去讲。”其中有一个话题呢，叫 TikTok 降低了海外直播带货门槛。原来呢是要 1,000 个粉丝才可以带货，现在 200 粉丝就可以带货了，说这个你看怎么样？我说这个不错。我说：“你根据你对我的了解，给我去写个提纲吧。”然后他就按照我的习惯，给我夸夸把提纲列好了，说 TikTok 是哪天哪天发了一个什么样的文儿，为什么什么东西，写的还很好的一个提纲。在这个过程中引用了我的记忆，调用了搜索，聚集了大量的信息。我再说：“那你再给我补充点数据和观点吧。”一般我是会有一个自己的观点，我说：“我的观点是什么什么，你给我补充进去。”然后呢，我为了论证我的观点。

我还需要哪些数据？然后，夸夸夸又去搜索，搜索完了给我补充进来。做了两次补充以后，这个提纲基本上就完成了，就完完全全可以用了。过几天咱们去讲这个“TikTok降低海外直播带货门槛”这个故事吧，这个还是很有趣的一个点。所以现在真的是每个人都能用上了。

第三个比较好玩的点是什么呢？就是图片推理。这个图片推理是非常非常强的一个点，绝对不是识别图片，然后将文字作为提示词去推理。我们很多人一看图片推理这件事，都是想的说，我们把这个图片识别一下，变成一大堆文字。不是这样。

跟大家举一个案例吧。我今天去潭柘寺了，玩我的无人机。拿我的无人机呢，在潭柘寺的外面，拍了一张俯瞰潭柘寺的全景照片。我就问O3，我说这是哪？这个建筑群的布局是什么样的呀？这个提示词就这样的。问完了以后呢，这个O3就去干活去了。他把这个图片先整个的分析一下，然后呢，放大每一块切割，说这一小块是什么，那一小块什么，把它切成一块一块的。然后对每一块进行识别，而且在切完了以后，还对每一块去调整方向，说这块好像你拍歪了，改一个方向，可能更能认出是什么来。通过这样的一个方式去推理，看那个推理过程，惊讶的我目瞪口呆，我告诉你。

最后告诉我说什么？从这张航拍来看，这是一张典型的依山就势、三层台地式布局的北方佛寺，很像北京西山脚下的潭柘寺。我没有告诉O3这是航拍照片，他就全都认出来了，好聪明。但是注意不要被骗了，照片里面是有Meta data的，就是有一些基础信息的。这个信息包括什么？拍摄时间、分辨率、色彩、空间、光圈、快门、白平衡，都在里头。还有拍摄设备那个里头，写着你是用大疆的什么设备拍的，大疆air 3S。然后呢，这个照片里还写着经纬度，因为大疆的无人机里头是有GPS的，它拍完照片是会把经纬度直接写在照片里的。完完全全可以通过这些Meta data就编出来的。

所以呢，这个到底是真聪明还是假聪明？还是说我把经纬度拎出来，把这个拍摄设备拎出来，就直接搜索一下，就给你出结果了？这个我们要往下看。他呢还给我接着讲，说这个图片是中轴对称的三进院。第一进呢叫山门到天王殿，第二进呢是天王殿到大雄宝殿，第三进呢是大雄宝殿到法华殿和藏经阁。中轴线两侧各有回廊和配殿，比如观音殿、药师殿、僧房、斋堂，左右分布对称，也有现代化的客房和管理用房。

再往后还写了一个特别有趣的东西：底层的停车场与服务中心，通过台阶与甬道与寺内各层相连。右侧的通讯塔，现代建筑。

为后期补建的配套设施，这是不是根据潭柘寺的信息搜索出来的呢？这就是我们要去问的。他到底是真聪明还是假聪明？

潭柘寺最后的一进大殿不叫藏经阁，而是叫毗卢殿。应该是五方佛中间一个，然后后边是东方、西方、南方、北方，一共是五个佛在里面，所以不一样。但是中国寺庙的默认布局呢，最后一层是藏经阁。所以这个并不是直接搜索出来的。如果直接搜潭柘寺的话，他应该写最后一层是毗卢阁。

至于底层的停车场、服务中心、现代通信塔，绝对是图片推理推出来的。因为不会有哪个介绍潭柘寺的网页去把这些东西都给你写在里头，所以还是非常棒的，可以进行图片推理。

有了这些有趣的功能之后，咱们可以通过什么样的方式来使用它呢？现在免费用户无法使用。你说我不愿意交钱，那么O3跟O4mini你使不了。Plus用户，像我这样的一个月20美金的用户，是可以使用的，但是有限制。O3每周50次，我今天大概已经使了有五六次了。O4 mini呢是每天150次，这个应该足够使。如果是每个月200美金的Pro用户，无限量使用。

API依然很昂贵。使用它的API，我可能还要稍微掂量掂量。O3每100万TOKEN的输入是10美金，输出是40美金。O4mini要快一些，也要小一些，它呢每100万TOKEN的输入是1.1美金，输出是4.4美金。应该比在美国部署的DeepSeek R1相差仿佛吧，就是基本上还是可以用的。

这种推理模型呢都是话痨模型，价格还是挺贵的。特别是10美金100万TOKEN输入，40美金100万TOKEN输出，这个非常非常昂贵。再结合上工具调用，图片推理，这个价格就像坐在日本的出租车里，看着计价器跳的那叫一个心惊肉跳。

其他的一些代理，就是这种API代理也已经开始工作了。Open Router或者其他的一些代理都可以使用，价格是相同的。只是呢，目前function call还没接上。为什么要专门强调这个？因为有些人在国内充值OpenAI的API是比较费劲的，像我就是这样。所以我使用OpenAI的API都是通过各种的代理去使用的。

还有一些什么方式可以使用的呢？GitHub Copilot里头是有GPT4 O4 mini的，但是没有GPT O3。它只有这些mini模型，它有O1，但是没有O3上来。O4 mini的话，应该是可以大范围使用的，但是前提你还是付费的。

像我是Github Copilot，99美元一年的会员。所以呢，我现在可以在IDE里边去使用它，Client和Roo Code也可以通过Github Copilot的会员直接去使用GPT-4 mini。那你说Client或者是Roo Code，我自己挂OpenAI的API或者是Open Router的API行不行？没毛病，都可以使，但是你得按TOKEN付费，那个很贵。挂Github Copilot下面的GPT-4 mini的模型的话，你有那个99刀一年的年费，就可以放心的玩耍了。

总结一下，OpenAI现在前进的方向到底是什么样的？它呢正在将各种零散的功能点聚集在一起。其实记忆早就有了，function call早就有了，推理早就有了。他一方面呢，是在拼命的去做强化学习，然后告诉大家现在强化学习scaling law依然管用。你把更多的数据、更多的算力堆进去，强化学习的效果就能起来，没有任何问题，大家好好去买英伟达显卡。另外一方面，它就把各种其他的小功能给你凑起来了，包括记忆、function call、推理、搜索呀，把这些东西给你搁在一块，你看真的好用。

其他各大模型厂商呢，在某些方面可以接近甚至赶超OpenAI，但是综合实力上，OpenAI绝对还是领先的。当OpenAI把各种新功能聚合在一起的时候，绝对是遥遥领先。它在每一个细节点上，可能都会比别人强很多。就像咱们前几天讲过GPT-4O的绘图功能，它虽然说在完整的绘图过程中，它表现力上、艺术感上没有Midjourney强，但是呢，它在文字理解上、文字渲染上，肯定是要比其他所有的这些绘图模型都要强很多的。

GPT-5现在正在路上了，甭管是今年下半年能出来，还是什么时候能出来，我觉得都是值得期待的。到那个时候就不用再去选模型了，你上来以后，他就根据你的问题直接推荐，直接给你反馈了，说我这个应该推理还是不应该推理，应该使用更大的模型还是使用小一些的模型，我应该调用哪些工具，应不应该搜索。这个我觉得还是值得期待的，就像以前我们总讲的，叫total solution，一站式服务。你进来了以后，我给你服务好就完了，至于我到底给你上了几个工具、几个模型，你就甭问了，最后是包你满意。

后边还有Sora，还是有念想。虽然Sora前面翻车了，现在大家都已经把它忘掉了，但是当它把这么多的功能聚集在一起的时候。

什么搜索呀、工具呀、推理，把这些东西跟Sora聚集在一起的时候，可能又会变出一些新的、不一样的东西出来。

Sora当年可是号称叫“世界模型”的。当它跟我们真实世界通过搜索引擎连接在一起的时候，那可能真的就要创造世界了。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！