AI用户体验 – 老范讲故事｜AI、大模型与商业世界的故事

Grok 3发布：Elon Musk称其为“宇宙最聪明”大模型，暴力出奇迹的xAI，是否可以成为AI时代的世界工厂？

Luke Fan — Thu, 20 Feb 2025 00:40:03 +0000

马斯克的Grok 3到底是不是世界上最聪明的大模型？暴力真的能出奇迹吗？大家好，欢迎收听老范讲故事的YouTube频道。世界上最聪明的大模型，这是马斯克对他自己家的Grok 3给的定义。如果有人不同意的话，那么会被开除的。因为XAI某一位员工在X上发帖说，Grok 3好像并没有那么聪明，然后就被XAI找到说，你要么删帖要么开除。后来这哥们想了想说，我得捍卫一下自己的言论自由，于是这哥们就被开除了。

在说所有细节之前，咱们先说说Grok 3到底怎么用。在2月18号北京时间中午12点的时候，马斯克跟另外三位小伙伴，一共四个人坐着开了场直播，把这个Grok 3发布了。我就四处去找，首先我是X每个月交8美金的Premium用户，我在X上使不了。X上你必须是40美元的Premium+用户，才可以去使用。在Grok的这个网站上呢，你也需要30美元一个月的账号才可以用。免费用户只能用Grok 2，API不充钱已经不让用了。如果是团队的话，至少花了5美元以上，每个月他会赠送你150美金，但前提呢是要跟XAI共享你的数据。

目前Grok 3的版本还没有上，你就算交钱了，你在XAI的网站上，也只能得到Grok 2的API，还要再等几周才会上线。Grok的苹果APP上面，是可以使用Grok 3 Beta这个版本的，即使是免费用户也可以去用。因为我呢对于XAI来说是一个免费用户，我就通过iOS，也就是iPhone和iPad这个版本上去，好好儿的测试了一下。后边儿呢咱们再去讲具体效果怎么样。

Grok 3有哪些具体信息呢？在整个的发布过程中呢，并没有特别详细的讲，只是说，我各种排行榜都排在第一了。Grok 3，Grok 3 mini是怎么去排上去的，讲了很多这样的话。但是呢，这个系统本身的一些细节，并没有那么详细的公开。因为可能在Grok 3稳定下来以后，会把Grok 2开源。现在Grok 1是开源的。

Grok 2可能有一些细节会被披露出来，但是Grok 3的话应该很长一段时间不会有特别详细的细节披露出来。现在能够知道的就是，Grok 3应该也是一个MoE模型，跟DeepSeek是一样的。它到底有多少参数呢？现在猜测是有1.2万亿个参数，DeepSeek是6,710亿，它呢应该是在DeepSeek的基础上翻了一番。至于这个数字是不是准确，我不知道，因为呢我去问了Grok 3，也去问了ChatGPT，最终是给了我一个这样的数字，我并没有去查原文件。

Grok 3的使用感受到底是什么样的？它呢，下边有两个按钮，一个叫Deep Search，一个呢叫Think。Deep Search实际上就类似于OpenAI的Deep Research，就是这种深度研究，它会搜索大量的内容，然后呢，再去给你出报告。Think的话实际上就是类似于O1、O3这样的推理模型。这两个按钮它特别有意思，这两个按钮呢你可以都不按，也可以按其中一个，但是不允许两个都按。这个意思大家能够理解吧？你不能又要Think，又要Deep Search，这个事是不允许的。那你说我既不Think也不Deep Search，这事行不行？可以。

然后呢，我都试了一下。在Deep Search的时候，它会直接引用几十个甚至上百个网页，非常非常多的网页，然后呢给你一个似模似样的报告，很长，格式非常非常好的一份报告。在Think的时候呢也会搜索，并不是自己去瞎编的，他呢，会搜索25个网页，以及呢X上的帖子。大家注意，Deep Search时候是不搜索X的，在Think的时候是会搜索25个网页，加上X上的可能5个帖子吧，反正我搜了几次都是5个帖子，然后给你进行一定的推理，总结出一个小的文案出来。这就是这两个功能。如果两个都不选，我既不Think也不Deep Search，它呢就不联网了，就直接是给你编一个结果出来。

大家注意，所有的大模型，甭管是谁家模型多聪明，你让他直接编出来的这个结果，都是最不靠谱的。那么，他这三个功能，就是两个都不选，或者选其中任何一个。这三个功能呢，特别有意思的一点是什么？他可以混用。

在OpenAI上呢，这种模型混用是比较严格的。你如果开始一个新话题，选择了一个模型，提了几个问题之后，你现在想去切模型的时候，你这个模型，比如说允许有图片呢，下面你要去切的时候，只允许再切换到允许图片的模型。它不允许你切换到不允许读图片的模型去。这个是有限制的。但是呢，在Grok里面它是没有限制的。就是你随时可以开始新对话，对话的过程中可以随时切模型，你可以来回切来切去。

但是呢，在这个过程中呢，有一些不是那么有趣的地方是什么？就是如果你俩都不点上来，直接让模型去编，他就不联网了。他编完第一句以后呢，你说我现在要开始进行深度的搜索了，deep search了，这个时候他也不联了。或者说我现在需要think了，他也不会去联网，他就根据现有的内容接着编下去。他是这样的一种过程。

但如果你是以deep search开始的，那么think的时候呢，他就不去搜索帖子，因为deep search是不搜索X的。如果你是以deep search或者think开始，然后你最后切换回到完全编的，既不deep search，也不think的这样的一个裸模型，去输出的时候，继续搜索。所以它整个的逻辑，还稍微有一点点小混乱吧。

那么，Grok 3到底是不是宇宙第一聪明的这个模型呢？因为你如果用iOS APP你去选的时候，后面会写一个叫smartest，最聪明的。它是Grok 3 beta，后边写一个小括号，smartest，这个是最聪明的。到底是不是？我个人感受呢，现在相差还比较远。为什么呢？为了准备这期节目呢，我其实用Grok 3去做了很多的工作，包括是他的deep search或者think。但是最终呢。

Grok3生成的所有结果都被我扔掉了。最后的内容还是靠豆包和GPT search来完成的。原因也很简单，Grok 3 deep search现在报告的格式非常好，非常中规中矩，但是大量的段落是重复的。前边写了一遍，后边车轱辘话又写了一遍，用不同的格式，用同样的话来回来去说，这个是很讨厌的。

还有一个问题是幻觉大到完全无法使用的一个状态。比如说，我问他XAI现在有多少人了，图说现在有900多人了。后来我问了其他几个模型，都告诉我是有100多人，这个可能还是稍微靠谱一点点。都是联网搜索吗？你都不是自己瞎编的，那我不知道他这个900多人这个数是哪来的。

然后我说四个人在上面开发布会嘛，中间两个人是华人。这两天在国内又嗨起来了，说你看马斯克发布Grok3的时候，马斯克只能在一边点头，点头机器。中间是做C位的两个都是华人，旁边还有一个白人。那我就问他，我说这俩华人到底是谁，什么教育背景，然后就开始给我胡说八道。他也是举的XAI里边的一些华人高管，但是呢并不是当时坐在台上这两个人。

发生这种事情的原因很简单，就是他在deep search的时候，一下瞪了可能几十个上百个网页，回来拿这么多个网页进行总结的时候呢，把内容搞串了，实际上就产生幻觉嘛，就完全没法使。

然后呢，我去尝试了一下think。think呢其实没有特别细致的测试，为什么呢？本来我想去让他做编程，但是呢，他没有API。你没有API的话，就没有办法接到IDE里边去，你没办法作为插件接进去，就没有办法详细地参与到我的这整个的编程过程里头去。我做了些简单的测试，但是感觉呢think模型对于各种编程的复杂的环境，和各种的版本和类库的话，并不是那么熟悉。这块的话可能以后等他有了API以后，再去做详细测试了。直接生成还过得去，就是如果两个都不点，让他直接生成。但是呢，因为在手机上用，并没有办法进行。

特别大规模的使用和测试，现在看来呢，XAI的Grok 3采用的是叫分梯度发布的一个方式。就是说，我先发布一点，然后慢慢地让更多的人能用，再慢慢地发布更多的内容出来，然后不断地去迭代。他现在干这样的事情。现在呢，就是手机用户可以用。那么手机用户呢，第一个用户量不会特别大，而且在这个时候，可能还能够为Grok APP带来一批的下载，这个也算是一个小心思吧。

在手机用户使用的过程中呢，你不会给他特别繁重的任务。因为你要跟他做这种很复杂的沟通的话，你需要打好多字，举了个手机在这噼里啪啦打字，很费劲的。你像我，为了做这个测试，最后是把我的iPad接到了机械键盘上，夸啦夸啦往里打字，这个还是能够问一些稍微复杂一点东西。要真是拿着手机，在那个屏幕上打字的话，这个还是挺费劲的。还有什么呢，就是不会有太正式的任务是通过手机来进行的。比较正式的任务一般会通过网页，通过电脑来去工作。

Grok跟X网站上还是有一些付费的人能够使用的。你不能说老范你没交钱，你就说这玩意不好使。这些比较高付费的用户，比如说在X平台上交了40美金一个月的，或者在Grok平台上交了30美金一个月的，这些用户呢，他是可以去用的。但是这些用户呢，数量肯定会少很多。还有一点呢，就是皇帝的新衣嘛，我付了这么多钱了，我就不能允许任何人说我是傻子，我一定要说这个钱付的是值的。所以呢，就算他们遇到问题了，上来骂街的可能性也不是那么大。这个就是马斯克当前发布了一个版本，比较聪明的地方吧。

后面语音模式的话，可能还要再等一周。我估计语音识别率这块还有待优化吧，因为语音你认不出来就是认不出来，还有口音还有乱七八糟这种事情。咱们再看看，后边会做出一个什么样的结果出来。API的话，还需要再等几周。为什么API要这么费劲，原因呢是现在大家只能看马斯克官方的排行榜，我的测试数据是什么样的，排行榜是什么样的，你自己没法去测取，给你一个手机版本。

或者给你一个网页版本。你现在想把这几千道题输进去，测试这个事太费劲了。你要想测试这东西，必须要拿API写程序去测。这个过程其实有点像法拉利的一个跑车。法拉利就说了，这个东西太贵，而且做测速的时候太危险。如果你自己去测的话，非常不安全，而且保险公司也不允许我们干这个事情。所以，法拉利跑车的最高极速，只有法拉利官方出的这个版本是唯一标准，任何人不得私自去测试法拉利跑车的最高极速。这个事情我们不承认，而且这个事我们也不允许。

现在，XAI的Grok也就是在这样的一个阶段。等以后API上来以后，每一个人都会自己去跑各种各样的测试，或者做多模型的输出结果比较。到那个时候，丑媳妇就真的要见公婆了。下一步的话是要开源Grok 2。DeepSeek是上来直接把最新的模型开源了，而且上来说，你们每家部署的跟我现在自己官网上跑的是一模一样，没有任何差别的。而且不断的有新的技术演进，不断的有新的技术新发现，都直接发论文发出来了。

但是，马斯克永远是开源上一代模型。就是他在用Grok 2的时候，他把Grok 1开源了。Grok 3能够稳定正常运转的时候，他会把Grok 2开源出来，可能还要再等那么几周或者是几个月的时间。山姆·奥特曼现在也惦记开源，刚在X平台上发了帖子说：“唉，咱们投个票吧，你们觉得OpenAI应该开源什么样的模型出来？我们是不是应该开源一个在PC本地就可以跑的O3 mini模型出来，还是说我可以在手机端跑一个这个小模型出来？”

他们是准备走谷歌跟微软这条路的。谷歌也是这样，它有一个叫Gemmar的模型，比较小的这个模型是开源的，主要也是让大家在端侧来用的。还有，微软做的这个Phi模型，这个模型也是开源的，也是让大家在端侧去使用的。但是我觉得，OpenAI如果真的把它的O3的模型，或者哪怕是O3 mini的模型拿出来开源了，或者让大家能用上了。

这也是一个值得期待的事情。讲远了，再往后呢？发布会上，中间两个华人做C位了。这种事情呢，肯定会引起国内的热议嘛。你看，还得看华人吧？华人也比较好认嘛，中国脸。

台上是四个人。第一个是马斯克，马斯克坐一个角嘛。另外一个角呢，这个人叫巴布斯基，这个人呢，是个俄罗斯人。中间的两个人呢，一个呢，叫做吴宇怀，XAI的合伙人，浙江人，在国内上完初中，15岁去了加拿大多伦多大学的博士，后来呢，是斯坦福大学的博士后，现在是XAI的合伙人。还有一个呢，叫Jamie BA，这个人呢，没有看到他前面的一些履历，是多伦多大学计算机科学系的助理教授，AI教父Joffrey Hinton的学生。

等于一边一个白人，中间两个华人。但其实你要再仔细看一下，这个是全世界人民在美国进行AI创业。一个俄罗斯人，剩下三个可能都是加拿大人。马斯克自己其实是有美国国籍、加拿大国籍和南非国籍的。中间两个，一个是多伦多大学的博士，他大概从15岁就开始在加拿大生活。另外一个的话，Jamie BA是多伦多大学计算机科学系的助理教授。所以有可能，这台上坐的是三个加拿大人和一个俄罗斯人。只是看着脸的话，是这个两个白人和两个华人。

那么，XAI未来的策略会是什么样的呢？XAI现在应该也就是100多人吧。它具体是多少，这个数字呢，并没有那么确定。但我还是相信GPT search给我的结果吧，就是不要说900多人了，就是100多人的一个公司。这种公司呢，不太可能进行全面开花，七扯咔嚓我把整个的C端到B端所有东西都做起来。这个事其实有点难度。

20万张卡这个事呢，其实是别人都不具备的这个条件。它就可以进行快速的迭代。各种方法只要确认了，说我知道这个方法是什么样的。比如说DeepSeek出了论文了，出了开源模型了，那我方法确认以后，我就可以快速的在20万张卡上给你重现出来，甚至把你的参数翻多少倍再重现一遍。这个事他都是可以干的。这呢，就是暴力出奇迹。

就会有这样的结果。这个过程其实大家看看有点像什么呀？是不是有点像世界工厂？别人只要做出来了，反正我这有的是生产力，快速的复制、迭代更新就完了。所以，这个应该就是AI未来的路，就是甭管谁做出来的东西，我都可以快速验证、快速改进我的模型。

而且呢，它使用了完全的合成数据进行训练，可能有很少一部分真实数据吧，绝大部分数据都是合成数据。所谓合成数据呢，就是由其他大模型生成的数据。他通过一定的策略，要求其他大模型去给他吐数据出来，然后拿这个模型去训练。

Grok 3一旦使用了合同数据的话，会不断的说自己是Grok 2，或者说自己遵守open AI标准。这个事情你就避免不了，因为是用别的模型生成的数据嘛。虽然XAI说我们在生成数据的过程中呢，我们还进行了反复的检查，有错误都给去处理掉了，但是他不断的说自己是Grok2，说自己是遵守open AI的安全准则，这件事来说呢清洗的还不够干净。

Grok3呢，应该只做了很少的对齐和测试，就扔出来了。后面呢，是准备快速迭代的。你如果现在去问Grok3，或者是问open AI的话，他们都会告诉你说，Grok3本身呢安全性还是不错的。但是有一点是不可否认的，他训练完成一个月就发布了，训练完了以后，只是在XAI内部测试了两周，就直接把产品扔出来了。这个是挺难以想象的，因为像open AI这样的这种模型，它每一次训练完了以后，可能后边都是需要用年为单位去进行对抗测试，或者说进行调整，然后才敢把这东西放出来。现在XAI就是我这边训练完了，我就把它扔出来了。

而现在呢，对外公布的是，Grok呢是通过思维列进行道德商值评测，就是它等于是一个思考过程吧。那我在思考的时候，我就把所有的输入输出的信息，进行道德商值的加权平均，或者说做一个加权复合吧，做一个这样的这个分数出来。如果这个分数达到一定的阈值以后，就禁止回答了。他大概是用通过这种方式来去工作的。

但是呢，并没有进行大规模的真人对抗测试。当然了，这个东西你说以后是不是都需要像OpenAI这么干呢？不好说。OpenAI现在还没有特别大的问题，但是谷歌就属于有点走火入魔了，直接被忽悠瘸了那种，就是画出黑人华盛顿那样的，这个就属于忽悠瘸了。未来可能大家都会去像XAI这样往前走。其实像DeepSeek也是这样，它从2.5到3.0之间的发布，也是大概一个多月或者一个月左右的时间就扔出来了，所以都不会做特别详细的或者长时间的这种真人对抗。未来可能都是通过逻辑的方式，让模型的安全性达到一个可以接受的程度就完了。我不保证这东西绝对安全，大家凑合使就可以了。我在不进行严格测试的情况下，不断地去迭代，这个其实才是DeepSeek也好，像Grok也好，最大的一个优势。每个小时都在改进和升级，全世界都在开发新的算法和架构嘛。马斯克有20万张卡，就可以把所有的这些公开的信息都在我这20万张卡里头去试一下。别人只能进行小规模测试的时候，XAI就可以进行全量测试，甚至我可以在你原来的数据基础上，用两三倍或者更大的数据集进行测试，得到一个世界上最聪明的大模型。所以我说这个就像中国世界工厂的工作方式是一模一样的。

那么XAI的下一步会是什么样呢？应该是会通过快速迭代，把当前的模型整个先稳定下来。现在已经可能是世界上最聪明的模型了，咱们就相信马斯克说的吧。但是呢，这个世界上最聪明的模型还经常会胡说八道。当它的模型彻底稳定下来，基本上可以达到可用的状态以后，下一步其实呢都是流量大战。这些人去搞C端估计应该是比较难，因为就100来口子人吧。最新的模型不开源，你去在B端竞争的话，也是有一定难度的。你比如说我现在一个公司里边需要去部署大模型了，那我不能去部署Grok 2吧，我肯定是部署DeepSeek V3或者DeepSeek R1这样的模型。

因为这是当前开源的最好模型，所以在这一块儿的竞争上也会有一些难度。那么，XAI的策略应该是依靠不断的快速迭代更新，始终保持自己是世界上最聪明的模型，这样的一个位置，吸引部分B端和C端的用户加入进来。自己虽然是有一定的流量，但是X自己的流量对于XAI来说应该是不够的，因为Open AI已经花费1,400万美金打超级碗广告了。所以，现在的AI行业已经进入了一个流量争夺的时代。在这个时候，可以靠产品好，靠模型最聪明，吸引一部分用户进来。像DeepSeek美国排行榜排第一，就是因为模型好，不是因为其他任何原因。他也没有那么多钱去烧这个流量去，他也不可能花1,400万美金去砸超级碗。XAI可能以后也只能是向这个方向走了。后面的路其实并不明朗，怎么依靠XAI把这个钱挣回来，现在还不清楚，还要等马斯克脑筋急转弯，让大家眼前一亮。

好，这就是我们今天讲的XAI的Grok 3大模型，到底是不是世界上最聪明的模型？暴力真的可以出奇迹吗？感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

ChatGPT O3 mini发布深层解析：山姆奥特曼首次坦言“历史错误”与开源迷局

Luke Fan — Tue, 04 Feb 2025 00:45:35 +0000

ChatGPT O3mini正式发布的时候，山姆奥特曼到底算不算是认错了呢？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲O3mini的发布，以及奥特曼到底在说些什么。

过年的时候，基本上是被DeepSeek刷屏了。全世界各地跟AI相关的，或者不相关的人，都在尝试去理解和阐述DeepSeek到底干了点什么，到底对于他们有什么样的影响。风口浪尖上的这些闭源大模型公司，特别是OpenAI，肯定也是坐不住的，把它的王炸级产品ChatGPT O3 mini给炸出来了。发布了以后，马上还去做了一个访谈，回答了很多相关的问题。在其中，承认了说在开源领域里头好像站错队了。

那么先说一下O3 mini到底是一个什么样的情况。O3 mini的速度还是非常快的，跟O1 mini的速度相近。它的性能应该是接近原来的O1性能。大家看到很多很多的评测，这个分高点，那个分低一点，也有很多人在那扑克脸，念这些评测的结果。但其实这些评测到底哪一个是什么意思，差异在什么地方，绝大部分人很难理解。我也不在这费劲跟大家讲到底是什么情况了。我只能说O3 mini也好，O1也好，包括DeepSeek R1也好，这些模型它们的能力差异其实已经脱离了普通人的认知范围，总之都很强就可以了。

现在推理模型的发展应该已经向着未来简史的作者尤瓦尔·赫拉利所设想的方向前进了。他设想的是什么呢？就是未来的社会有少数精英控制，绝大多数人会沦落成无用阶级。无用阶级就是他们既不创造价值，也没有任何的用处，可能未来的社会会变成这样。现在，OpenAI就在往这块走，DeepSeek R1也在向这个方向走。所以未来可能是少数精英使用这些博士级的AI模型去与解决各种人类的世界性难题，剩下的人，我们就是无用阶级，大家开心就好。

价格方面，O3 mini比DeepSeek R1中国部署的版本……

还是要贵的，就是比DeepSeek自己的这个API还是要贵。比DeepSeek在中国，比如说腾讯云或者是硅基流动上部署的也都贵。但是呢，它比在美国部署的DeepSeek 21要便宜。这个特别有意思，就是在together上，在美国的亚马逊、微软云，在这些云计算平台上，都已经部署了DeepSeek R1了。ChatGPT O3 mini比它便宜，也就可以了。

所以呢，在价格上也算是有了一定的进步吧。然后O3 mini呢是第一次向免费用户开放，原来O1、O1 mini都是免费用户不能用的，现在O3 mini免费用户也可以用了。Plus用户，就是一个月20美金的用户，每天呢可以使用150次。其实呢，O1和O1 mini这个用量，我从来没有达到过。那个我每天是可以使用50次的，每天150次的这样O3 mini的用量，我估计我也用不到。

像我面前站个博士，你说我看着他每天跟他说啥呢？我站在他面前就光剩自惭形秽了。这个也算是继续向公众开放的一种努力吧，与搜索相结合，这个是O3 mini做的比较大的进步。但是呢，他进一步退一步，退了是哪一步呢？他不支持上传文件，不支持图片的理解了。像O1的话是支持图片解析的，但是呢，不支持搜索。O1还支持canvas，就是它们的这种叫做画板。O3 mini支持搜索，但是不支持画板，不支持图片理解，它是这样的一个取舍吧。

但是这个呢不像是黄教主这种叫刀法精准，这个可能真的是想把这些功能都打开，还是有挺大难度的一个事情。当然，现在我们在ChatGPT里头已经看不到O1 mini的模型了，现在进去就是O1和O3 mini，以及O3 mini的一个高级版本。就是说你每次让O3 mini干活的时候，可以选择是使用普通思考版本还是深度思考版本。深度思考版本会更慢一些，然后输出的内容的话会更好一些。

O3 mini发布了以后，山姆奥特曼以及他们的一些高管……

就跑到Reddit上面去做了一个AMA的环节。所谓AMA呢，就是”Ask Me Anything”，就是问我任何事情，我就现场给你回答。和马斯克不和，所以呢，山姆·奥特曼是不会跑到Twitter上去做类似的活动的，也不会去谷歌或者是Meta上面去做类似的活动。但是，TikTok对于山姆·奥特曼这种政客来说，就太刺激了，也不会去。

当然，在这些平台上的OpenAI都是有账号的，只是呢，这种问答是放在Reddit上了。这个就显示出来OpenAI跟Reddit之间还是要更亲密一些，这个东西叫亲疏有别。OpenAI跟Reddit是有很多的合作关系的，比如说OpenAI向Reddit采购了内容进行训练，OpenAI是Reddit的广告合作伙伴，OpenAI为Reddit提供了AI驱动功能，这个是最重要的。

还有一个不那么重要的就是，山姆·奥特曼本人是Reddit的重要股东之一，这是他自己家的企业，因为Reddit是YC的孵化企业，它在孵化的时候，山姆·奥特曼应该是YC的CEO吧，大概是这样。

那么在整个的这个环节上面，AMA环节上面，山姆·奥特曼呢也承认了DeepSeek是一个让人印象深刻的创新产品了。然后O3的完整版本的模型，未来的几周或者几个月还是会公布的，因为现在公布的是O3的mini版本。新的图像模型正在研发之中，可能未来几个月还是会公布，因为去年的连续12天发布会的时候，大家本来猜测应该会有Dalle3的进一步的版本，可能会有Dalle4，但是呢没有出来，这个还在研发之中。

而且呢，也即将更新高级语音模块，这个是现在我最喜欢的功能，就是ChatGPT的高级语音。至于GPT-5呢，遥遥无期，这个还早呢。在整个的这个回答过程中，我们已经看到DeepSeek的事情呢，对于美国或者对于全球来说，应该已经算是尘埃落定了。怎么样尘埃落定了呢？第一个，这个事有没有创新？有，他们也承认。

这是一个令人印象深刻的产品，但是呢，也没什么大不了的。山姆奥特曼也说了，我们会拿出更好的模型出来的。你这个成本降低也就是这样，我们现在成本也降得很低。你在美国部署的这个产品，我比你的价格还要低一些，这个也就如此。

各大云厂商呢也都部署，英伟达、微软、亚马逊，together，很多的这些云计算厂商都部署了Deepseek。在这样的情况下，再进一步进行维权，去起诉或者什么限制，这个已经没有什么意义了。大家都已经跑起来了，而且英伟达还去玩了一个什么梗呢，就是说英伟达上部署的DeepSeek是速度最快的。在单台的HGX H200系统上，DeepSeek R1模型每秒能够处理3,872个TOKEN，这是一个多么恐怖的数字。原来我们都觉得这种推理模型很慢，你想它一秒钟可能几千字就哗就出来了，这个已经足够快了。

HGX H200系统是一个什么样的系统呢？8个H200的GPU，每个上面有141G的现存，就完全属于怪兽级的机器。那么OpenAI呢，应该也就算是承认了现实，就是Deepseak加入到了竞争过程中来，也就这样了。我们也不惦记再把你踢出去了。至于说你到底有没有抄袭，有没有违规使用，这个事我给你记着，但是呢，大家都用起来了，也就用吧。

未来呢，全世界应该都会去使用DeepSeek，因为现在英国也好，印度也好，包括日韩，都准备自己去部署DeepSeek，自己去玩耍去了。未来的话应该是各用各的，就是各国用户自己部署，自己定价，自己使用就完事了。至于中国的DeepSeek到底有多便宜呢，跟他们也没关系，他们也不会把他们的数据送到中国的DeepSeek服务器上来去用。

所以呢，DeepSeek对于整个的AI圈来说，到这里算是画上了一个暂时的句号吧。大家接着往前跑就可以了。那么到底有没有承认错误呢？这是我们今天要讨论的。首先呢，他讲到说，我们要把整个O3 mini的思维过程都完整输出出来。

原来在O1的时候，他并没有输出完整的思维过程。因为这种推理模型有一个思维过程：我先怎么讲，后来怎么讲，然后说什么东西。为什么原来没输出呢？因为怕被拿去蒸馏。如果把整个思维过程都拿出来了，人家拿回去，就直接训练自己的新模型去了。他们认为，DeepSeek还是很恰巧地获得了其中部分的工作原理，这些工作原理跟ChatGPT O1是一致的。至于到底是怎么获得的，比如说你是蒸馏了，还是怎么去猜测其中的这个结果或过程，反正你是已经达到了跟我一样的工作方法了。而且他原来并没有完全把他的推理过程都拿出来。

DeepSeek R1呢，是完全公开思维过程的。你问他什么问题，他要想很长。像我们经常问DeepSeek R1一些问题的时候，他光想的部分可能想5000字，输出的部分只有一个，比如说几百字的结果。现在他们决定了GPT O3 mini也去进行完整的思维过程输出。你们愿意去蒸馏，你们去吧，反正这个事已经没什么可藏着掖着了，后边已经冲上来了。

我试了一下O3 mini，它有的时候输出的这个思维过程是英文的。但是我今天还碰到了一次，输出了阿拉伯语的思维过程。我用中文问了个问题，然后这个中间的思维过程，哗，阿拉伯语就出来了，看的我是满天都是星星。这个思维结束了以后，最后给出的结果是中文的，因为我是用中文问的。怎么说呢，这种对于人很不友好。但是对于大模型来说，输出阿拉伯语的思维过程、输出日语的思维过程、输出英语的思维过程，这个其实是没有什么区别的，因为他们都可以拿回去蒸馏，只是降低了人的使用体验。

DeepSeek R1的思维过程呢，有的时候是中文的，有的时候是英文的。我还没有遇到过阿拉伯语这样奇怪的情况。反正思维过程大家都是进行完整输出了。山姆奥特曼也讲了，既然DeepSeek已经这么干了，那我们就干吧。

你要蒸馏？不行，你蒸馏他的去，或者你蒸馏我的都行，没什么大区别。我们也准备把所有思维过程都发出去。至于开源这一块呢，山姆奥特曼的原文大概是这样的：就是我个人认为，我们在这里站在了历史错误的一边，需要找出不同的开源策略。但并非OpenAI的每个人都同意这种观点，这也不是我们目前的首要任务。

这个是别人在问他，说你是不是要去开源的时候，他在上面给出的回复。很多人呢，看到了这一点，认为我个人认为我们站在了历史错误的一边，而认为这句话就代表着关于开源策略这件事情上，山姆奥特曼已经认错了。但是你说我是不是就可以认为未来他们马上就可以开源了？当然，大模型开源并不是把所有原代码都拿出来，而是什么呢？是开放一些权重出来，比如说像DeepSeek，像Llama，都是开放权重，就是我们拿回来以后可以再去进行部署使用，是这样的一个东西。在这件事情上呢，他说未来有可能会开放一些权重出来，但是现在这个并不是最重要的事情。而且在这里他也讲了，说有人不同意，就是并非OpenAI的每个人都同意这种观点，肯定还是有人希望继续闭源下去。

但是你说这个闭源的人到底是不是山伯奥特曼，这个不好说，因为至少他出来还是要站在一个比较高的道德制高点上说，我认为这事还是该开源的。我认为我们站在了历史错误的一边，但是有别人不同意。到底谁不同意，咱们接着往下讲。

OpenAI目前最重要的事情到底是什么？人家也讲了，说这不是我们目前的首要任务。OpenAI目前最重要的事情是融资。去年应该是第三季度吧，刚融了一轮，当时已经拿到1,000多亿美金了，现在又跑出来融资了，这个钱又造干净了。这一次的话，准备以3,000亿美金的估值再去融400亿美金左右的这个钱。而且在这一次的话，要摆脱微软的桎梏，原来都是微软出钱出的最多，微软已经出了130亿美金了，这一次的话是软银领投，孙正义领投150-200亿美金软银出。

剩下的其他人出，而软银呢将取代微软成为最大的投资方。这个是现在OpenAI最重要的事情：摆脱微软桎梏。因为谁不让他开源呢？里头有一个很重要的因素就是微软。微软呢是有OpenAI很多的独家合作权的，比如说它的Azure云上，有Azure平台的独家转售权。它可以通过微软云去销售OpenAI的API。

就是你现在想用OpenAI的API去进行开发的时候，官方有两个渠道，一个是在OpenAI的官网上，你可以直接买；还有一个就是在微软云上可以买，其他的都不行。你比如说我现在想在谷歌云上、亚马逊云上、Oracle云上去买的东西，不允许，没这事。这是第一个独家权利。

第二个呢，叫产品中的知识产权、使用权，比如说Bing，现在应该叫Copilot了，或者是GitHub Copilot，这些产品里头直接使用ChatGPT的大模型，微软是有权直接用的。第三个是什么呢？叫OpenAI API的独家托管权，这个东西只能托管在我这，不能托管到其他地方去，这是微软的独家权利。

那么开放权重的这些模型发放出去这件事，肯定是跟刚才我们讲的微软这些权力是相抵触的。微软也不能站出来说：“那我就放开吧。”作为微软这种大公司里头，任何一个下边具体办事的人都不敢去写这种协议。像我以前在公司里边做投资的时候，我们也绝不敢写这样的协议出去，什么都没有。我就直接写个协议，把原来已经拥有的独家权利直接放弃掉，这不行的。

但是在什么时候可以放弃这些权利呢？就是有新的投资人进来了。新的投资人进来以后，说他占股了，我们放弃一些权利，因为跟这个新的交易相互冲突了。在这个时候呢，可以进行一定的利益交换。所以呢，他可以趁着这一轮软银孙正义的投资，把微软这种独家权利争取回来，然后呢，再开放一些权重的模型出去。这是有可能的。

但是微软呢，这一次大概率不会去退出。就是孙正义给钱了以后，微软拿着钱跑了，应该不至于。微软呢，应该还会追加跟投。

应该在几十亿美金到100亿美金之间。他还会去投进去，按道理说呢，应该不会特别多。这但这个数字相对来说就比较敏感了。因为像投资里头呢，一般会有一种权利，就是新的投资进来以后，我们会再去给一些钱，保持原来的股份比例不降低。

但是呢，现在OpenAI内部的这些股份比例，肯定要重新调整。调什么呢？就是从非盈利机构，整个这个框架摆脱出来，要变成一家可以上市的盈利机构。这个过程的话，大家的股份肯定要重新去进行一些调整和分配。这就是现在OpenAI最重要的事儿，也就是星际之门已经正式开启了。这几百亿美金，也许在一季度就可以看到落地了。那这个是真金白银要给钱的，OpenAI要把这个钱收到手里面。

至于说这个钱，到底有多少是微软的代金券，这个一定是有很多是微软云的代金券，有多少是现金，到了OpenAI手里面，可能未来一段时间我们还可以继续吃这个瓜吃下去。

好，这就是今天我们讲的ChatGPT O3 mini发布，以及山姆奥特曼出来认错的故事。好，这期就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

OpenAI Operator揭秘：从AI Agent 3.0到完成交易的“眼睛、脑子、手脚”全景解析！2025年AI行业新趋势：OpenAI如何用Operator撼动Google与微软的未来格局？

老范讲故事 — Mon, 27 Jan 2025 11:10:50 +0000

大家好，欢迎收听老范讲故事。OpenAI的operator为AI agent指明了方向，这是一个新鲜热辣的事情。2025年1月24号凌晨2点做的直播，四个人在那尬聊了20多分钟。为什么尬聊呢？不停的翻车，这个AI agent翻车还是很正常的一个事情。

山姆奥特曼，好像是一个印度人加上两个中国人，也在那里，满脸尴尬而不失礼貌的微笑。因为他做的事情确实跨的这个步数有一点点大，导致有一些翻车吧。每年开始的时候，OpenAI都会出来指明一下方向。今年指明的方向就是AI Agent的方向。

咱们还记得2024年吗？2024年是2月15号，OpenAI指明了方向。当时，是做了Sora的演示，只是后来这个Sora没有特别成功。全世界非常多的公司围绕着视频大模型，烧了很多很多算力。今年，他就是为AI agent指明了方向。那么operator到底能干点啥呢？它里边有一个引擎，叫computer using agent（CUA），它们念叫“哭啊哭啊”，是这么来念这个词的。

这个引擎可以自动地实现鼠标跟键盘的操作，主要是操作浏览器。而且，它跟浏览器之间的这种沟通是靠视觉系统来沟通的。就是在浏览器里显示什么，它去看或者截图，然后通过OpenAI的这种视觉能力去识别这个浏览器里的内容。这样处理完了以后，再去通过鼠标键盘去操作。

大家注意，这个非常非常重要的是什么呢？它不是靠直接读数据的。正常情况下，这些AI agent去怎么跟浏览器打交道？他是直接把里边网页文件读出来，在对网页文件HTML文件进行各种各样的正则表达，或者说就是对它里头进行信息抽取，然后再去做后续的处理。而这一次OpenAI干的就不是，它是靠视觉直接截图下来。

然后他干了一个什么事呢？他是在云端放了一堆浏览器，跑在微软云的某一个机房里面。这些浏览器也是他们找的，最正宗的做浏览器的人做的。

因为近期他们也招聘了Chrome的团队人员，有一个叫Ben Oger吧，是Chrome创始团队成员之一，同时也是Firefox的首席工程师，现在已经加入了OpenAI。然后前Chrome资深工程师叫Darren Fischer也于近期加入了OpenAI。

把这些人招进来以后，说来，你们在微软云上让Chrome浏览器，或者至少是Chrome的内核给我跑起来，然后我要在这个内核里边去执行刚才我们讲的这个computer using agent，要跑这个东西。他通过一个自动判断用户意图的能力，你向他说：“哎，我要去哪订餐，要去什么地方玩，我要去看球赛。”你告诉他这个事情，他来判定你的意图。

判定了以后呢，自己进行行为规划，这个是很难的一个事情。因为像我们原来做AI证呢，好多都是我们要做好流程图，做好这个工作流。他按照这个确定的工作流往前走，就算在里边有一定的这个分支，也是我们要写好了说，判断一下他到底是要往东还是要往西，做一个判断。在这里的都没有，就完完全全是由ChatGPT自己去做的行为规划。

做完了以后呢，调用远程的浏览器，自动的完成所有任务，比如说去给人订餐桌、订球赛、定这些东西。他就干这个事。然后在前端呢，还可以重现渲染的这个远程浏览器上面的界面，因为他这边在输入信息，中间大的屏幕上就是可以看到一个浏览器在那里，页面打开了，页面在渲染，页面在往下翻动，然后自动订餐，自动做旅行的旅程调用。

而且呢，他们还给整个这些功能加了一个API，就是呢，你可以去通过API调用所有的API的能力。当然了，我们现在猜测的这些API应该是有进口跟出口两个方向。两套API什么意思呢？就是一方面，我们可以通过API去调用operator，另外一方面的话，也应该可以通过API为operator提供各种服务能力。这就是现在operator真正能干的事情，就是你给他写命令，写完命令以后。

你看到旁边，哎，开了一个虚拟的小的浏览器，然后呢，在这边再运转。他替你把所有的事情做完。这个事情困难在什么地方？为什么不停的翻车呢？现场翻车，现在这个网页大量都是动态渲染，千人千面，就是每一个人看到网页是不一样的。那么浏览的时候呢，就需要占用大量的资源，因为有前端的代码需要运行嘛。

Chrome在启动的时候，比如说吧，现在我做直播的，这一个页面就占了827兆的内存。我旁边的推特页面是占了300多兆的内存。我就要把旁边的这个页面关一关。很多人喜欢开Chrome，开一大堆页面，每一个页面可能都占着好几百兆内存，甚至有的是占着上G内存。你看看你电脑到底有多少内存，你就知道这事有多费劲了。

这个占用大量资源，所以现在呢，也只可以给美国地区的订阅了200美金一个月的Pro用户使用，其他用户现在都使不了。四个人做这个演示，山姆奥特曼坐在那了，这个演示人也是非常紧张，这是很正常的一个事情。像我要是在那做一个演示，大老板在旁边坐着，我肯定也会紧张的。

出了哪些错误呢？第一个就是他的订餐搞错地方。他一开始说我要订一个餐厅，但是呢，并没有找到他最近的餐厅，而是换了另外一个城市。什么样的原因会造成这种情况呢？订餐网站是通过什么样的方式来判断你在哪呢？是通过IP地址。你想，他通过远程启动了一个浏览器，那这个浏览器的IP地址是哪呢？是微软云服务器的IP地址。那么一算完了以后说，你可能在微软云服务器所存放的这个城市，我在就近给你找一个餐厅吧。他并不是说在他演示的这个机房的这个IP地址，所以这块就会出错。

后边的一些网购，抢勇士队比赛门票，预约清洁服务以及点外卖的，很多场景做的时候呢，都出现各种各样的问题，非常的不流畅。整个的演示过程，现在的OpenAI的operator呢，还非常的不成熟，只是指明了方向，还必须是跟人一起协作。那么这个协作的过程，第一个问题就是IP是谁的？你按道理说呢。

谁来调用这个Operator？你应该用谁的IP地址？否则的话，它里边所有的这个地址判定都是错的。还有很多的网站会去封锁这些机房的IP地址，最后看到说：“哎，微软机房来的IP地址，咔的封掉了。”你这事就没法用了。所以这块呢，估计他们还要再调整一下。

第二个呢，我们在浏览网页的时候，有一个东西叫cookie，还有一个东西叫session。那么这些东西的话，其实跟这个客户前端都是完全无关的。按道理说，你应该是把客户前端的cookie扔到后台去，他才可以说得到很多的信息，直接去处理。现在的话，等于他这个cookie是空的。cookie是空的话，相当于是做了一个什么东西呢？相当于是做了一个叫做无痕浏览。很多人去上一些奇奇怪怪的网站的时候，会去做这种无痕浏览，他们现在呢，应该也是如此去处理的。

而且这块呢，还稍微的有一点点尴尬，因为你真的敢把cookie传给他吗？在隐私保护这件事情上来说，我们宁肯把这些cookie传给各国政府，也不太敢把这玩意传给AI，总是觉得这个背后有点发凉的感觉。所以呢，在这块上用户体验不会特别好。因为现在虽然智能体是有记忆的，比如说ChatGPT，你去跟他聊天的时候，他是有记忆的。他记住你是谁了，常常说：“我怎么怎么怎么样的时候”，你就会在ChatGPT里头收到一条回复，说：“我已经更新了这个记忆库，我记住你是干这件事的了。”说我住在哪儿，他都会记下来。

那么在这样的情况下，就要干嘛呢？叫自动填表。我们使用大量的浏览器功能的时候，它有一个非常重要的功能，就是自动填表。当我现在要去填一个什么表格的时候，它就会在这个浏览器的一些后台记录里头，把我的什么姓名、什么信用卡号、手机号、邮箱，跨跨跨都给我填进去。要不然的话，你要都要手填一遍。像我们以前做抢火车票的时候，也是在做自动填表，就是每一次刷新，自动的把你要去哪、要选哪个车次就给你填下去，这个其实就是cookie。

如果没有了本地的这些信息，以后怎么自动填表，这功能就会差很多。这些敏感信息，还有一些什么呢？就是人机校验、双重认证，这些东西就没办法。OpenAI是搞不定这件事了。就算他能搞定了，他也绝不可能承认说我能搞定这件事。如果他承认了说我能搞定这个事的话，那就稍微有一点点吓人了。那么他这样的话必须是什么呢？就是要找人来去帮助，说我现在需要输入你的信用卡卡号了，现在我不能替你填表了，你要自己来输。

因为他当时演示的时候，突然蹦出一张信用卡来，信用卡后边要三位数嘛，然后说我回去把这信用卡注销了，因为整个直播掉了嘛。人机校验是什么？因为现在有很多的网站呢，是要确认现在浏览我的人是一个真人还是个机器，一旦发现是机器，就直接拒绝服务了。在这样的时候，OpenAI也会叫人过来说来人机校验了，该你了。

包括双重认证，比如给你发短信了呀，给你去发邮件了呀，这个都是需要人去填的。然后支付确认交易，发邮件，重大决策也是必须停下来等人去确认，他是不能够自动地完成这些交易的，至少目前为止还不行。而且呢，他因为是正式的打开网页嘛，他的整个交流的速度是相对来说比较慢的，因为网页有加载的速度嘛。

还有一些网页呢，或者有一些网站未必能够加载成功。所以呢，对于这样的一个AI agent来说，他的运转的成功率还并没有那么高。但是为了应对这个速度慢的问题呢，他们使用多线程定型的工作，就是你可以给他下一大堆任务，然后他在后边慢慢给你干去，哪样干好了以后，你需要干预一下，那个地方需要人机验证，哪个地方需要确认一下是不是购买。他是这样来去工作的一套方式。

对于这样的Operator来说，下一个很严重的问题是什么呢？就是安全性问题。第一个安全性问题呢，就是他现在真实的影响世界了。原来呢，只是生成内容，甭管你是生成的搜索内容，生成的RAG内容，还是生成图片了，反正是生成内容。而且所有生成内容下面还写一句。

成为Opreta操作的网站，他们就要开始去编写这种诱导性的网页内容了。为什么呢？因为OpenAI的Opretor是靠视觉工作的，我们就可以玩一些大小字的游戏，有可能能骗过他。

什么叫大小字游戏？我上面大大的写着“减价”，后边写一个特别特别小的字，说后边还要再付费。这个事我们是经常遇到的。原来如果是其他的AI agent，它是通过直接把网页信息都读出来，直接把内容都读出来，那么它是不会上这种当的。甚至呢，还可以去骗他。骗他什么呢？就是我们可以写一些看不见的文字，比如说白纸黑字。我可以设置说，现在给我写一个白字在上头。这样的话，正常人类去阅读的时候看不见这个字，但是呢，这些文字就可以被OpenAI看到。原来他们去骗OpenAI是通过这种方式来骗的。

现在好了，你通过视觉方式进来，那我就可以通过大小字的方式再骗你一次。对付钓鱼网站这件事的话，OpenAI自己是没有什么经验的。安全公司微软、谷歌、苹果这些公司的经验要稍微的丰富一点点。而像我们以前做安全公司的时候，我们会做一个巨大的钓鱼网站的网址库，然后呢，找保险公司干嘛呢？说我投一份保险，谁通过我的浏览器在钓鱼网上亏钱了，我就给他赔钱。这个是原来我们在做浏览器的时候都会干这种事情。OpenAI其实没有特别经历过这些钓鱼网站或者什么这样的事情。

下一个安全性问题是什么呢？就是现在是一个半自动状态，所有重要的节点或者走不通的节点会呼叫人类来协助。但是呢，在FSD不支持完全自动驾驶的时候，有多少开着特斯拉睡觉的人，肯定也是不少的。所以未来由黑客一起来骗这个uprighter跟前台操作人员，这个事情应该会比较有趣。大家会一起来去做，因为Operator自己还不负这个责任。哎，该付钱了，我是把你叫来，你自己付的。对于人来说呢，我前面都没看你这边哐当哐当的，网页都翻到头了，就等着我点一下确认了，我就点了，中间该有是其他信息。

应该你替我看的呀。所以在这块呢，其实安全性是互相推诿责任的一个结果，并没有那么安全。OpenAI呢推出operator，现在还算是一个初级阶段，大家看看方向就这样。所以刚才我也讲了，它有很多的不完善的地方，安全性上也差得比较远。

OpenAI推出orpreter呢，可能还有一点点小阴谋在里头。什么小阴谋呢？目前只能在美国区，200美金的Pro用户可以使用。但是前一段时间还记得吗，山姆奥特曼出来抱怨了，说我们这pro用户亏钱了。为什么200美金一个月的账号，这么贵的账号不共享出去，这不就没有天理了吗？一定是出去共享。一旦把这种账号出去共享了的话，它的使用量就会变得非常非常高。

而且所有要去跟O1模型去打交道的人，他是不会像咱们平时问他个问题，就跟他聊天，不是这么干的。跟O1打交道的时候，你是要像开这个项目进度会一样，把所有需要的东西都一把扔给他，他在后边吭哧吭哧吭哧地就给你算去。咱们在GPT4O都是我说一句他回两句，然后我再说两句他再回三句，都是这样来工作的。但是在O1上，如果你这样工作的话，你就得不到你想要的结果。

O1都是说我写好一整份报告扔给O1，然后O1去干活。再过个比如说5分钟、10分钟，他把这活干好了还给我。我去整个把系统看完了以后，再去写下一份报告，让他再接着干活。OpenAI的这个Pro账号亏了很多钱。如果像网飞这样的公司怎么办呢？他就大力打击呗。你们只要敢出租账号、出借账号共享了，我就直接把你账号封了。

OpenAI呢这次就干得比较绝。他怎么呢？我也不封你账号，我让你用这个Operator功能。用了Operator功能以后呢，你就会绑定一堆的私人信息进去，你的信用卡号、你的手机号、你家庭地址。那你输了这玩意以后，你还敢不敢把你的账号借给别人用呢？大家就不敢了。所以呢，他里头还是会有那么一点点的小阴谋在里面。国内的大厂，包括其他谷歌这些厂。

应该已经看到这个方向了，现在就应该可以行动起来了。现在最好用的客户端浏览器，在我的电脑上已经不再是Chrome了。我现在最好用的客户端浏览器是豆包。我每天都是在豆包上浏览，豆瓣上装好所有的那个Chrome插件，除了各种的沟通聊天之外，就可以直接当浏览器去用了。

阿里也在努力做他的跨客浏览器，再加上什么360浏览器、百度浏览器，百度有浏览器吗？我想不起来了，反正腾讯好像是有浏览器的。大家就照这个方向做呗，我们没有必要用远程的这个云端浏览器了。我就直接用这个本地浏览器去虚拟一个窗口出来，把这事干了不就完事了吗？

而且你使用本地浏览器去虚拟窗口，去做Operator的事情的话，你的IP地址跟这个地理位置还都是对的，还不像是放到云端去，以后他给你把IP地址搞错，这个可能还算好一些。而且还有一点是什么呢？就是你在本地做虚拟浏览器的话，并发就会变得大很多，因为不需要吃到云端的资源了。像我们做直播，就是光这一个页面一个G的内存就没了。如果都在本地的话，大家就吃的是客户端的这个内存，他就没有那么高的成本。

那么未来的方向已经确定了，后边呢其实就是中国人擅长的部分了，中国人擅长的是什么？挣钱呗，终于可以拿来挣钱了。你可以去谈商务合作，比如说我们去跟美团谈个合作呀。豆包后边是谁？直接跳动的，直接跳动说我不跟美团谈合作，我自己要去做即时零售，我自己要去做团购，我自己要去做订餐了。而且送餐的这个事情，我们已经跟饿了么合作了。我就只管在这边抖音上面把这个广告刷出去，今日头条把广告刷出去，再在豆包里聊聊天。

等你要吃饭的时候，我就自动把所有东西都给你做完了。这块我们自己干了，而且后面有一些他不做的事情，还可以去找商家进来，哎，你们谁愿意跟我合作？我可以把这个AI的流量导给你们，在你们的这个平台上直接把单子下掉。他就可以去做这个事情。而且呢，大数据杀熟，这个时候就可以来去启动了，后面流量的分发跟售卖。

又回到了传统的路径上去。大家都在我这卖饮料，那我到底卖张三的还是卖李四的？谁给我钱，我就卖谁的呗。这就这么简单的一个事情，大家就可以去干了。

今年呢，OpenAI给大家指明了方向，就是选AI agent。给出的方向具体是什么？就是眼睛、脑子跟手脚。自动识别用户意图，这就是眼睛；自动进行行为规划，这个是脑子。像我们原来做了一堆Codes、Defi这样的工作流的这种规划工具，就需要重新去思考，未来这些工具应该向什么方向走。是不是不需要做这么复杂的工作流规划？应该可以自动的规划一定的工作流。

比如说有一个模块，里面就可以进行自动的流程规划了，就可以把该做的事情做掉了。这个是工作流工具，未来的一个需要思考的问题。通过远程浏览器操作，在人的配合下完成复杂任务，这就是手脚。这就是他对AI agent定义的三个环节：眼睛、脑子跟手脚。而且他现在讲这叫AI agent 3.0。

第一步，AI agent是做这个问题的回答；第二步是我们做各种的工作流规划，以及周边辅助功能的这种配套。像我们做用Codes、用Defi也是可以做各种各样的周边动作的，比如说可以发邮件，可以去浏览网页，也可以去下单买东西。但是呢，那个工作流是我们写死的。

现在呢，他这个3.0做了一个完整的东西，你可以直接提要求，我自己思考该怎么办，然后去把最终的交易执行掉。在这个里边呢，他其实提了一个非常重要的点是什么？就是什么叫把这个任务做完了，叫完成交易。像原来我们做很多的工作流，其实最终的结果还是说要去产生内容。而现在说不，我们要完成交易。

对于所有这些做AI的人、做AI agent的人来说，又算是天亮了。为什么呢？因为原来他们都不挣钱。现在说好了，我们AI agent最终的结果是要完成交易。你一旦完成交易，那甭管是抽成、收手续费、流量售卖，还是说交易了以后进行贷款服务，都是挣钱的。这个传统套路就都可以跑起来了。

所以，一旦把AI agent最终的手脚定义为完成交易，那么大家做AI agent这件事情的积极性一下就上去了。OpenAI今年的方向呢，第一个是把O3好好做出来，甚至再往后去推他的推理模型，然后将更多的模型功能进行整合。现在，不管是OpenAI也好，Gemini也好，Claude也好，觉得很多的功能是分散的。有的模型是有视觉的，有的模型可以有语音，有的模型可以搜索，有的模型可以做canvas，还有一些可以，比如像刚才我们讲的Operator，它最近还发了一个模型是做日历的。但是这些东西，最后是很难结合在一起。怎么能够把所有东西通过agent的方式结合在一起，让它们所有这些功能能够顺利地跑起来，这就是今年OpenAI要去做的事情。

越来越多的AI agent的模式会到来，不是说Operator就是唯一的一个AI认证的方式了。前面那个日历方式也很有意思，你可以告诉他说每天几点，让我去做什么事情，或者告诉他说：“我想要健身，每天几点要提醒我去健身。”或者提醒我该吃药了，这些都是可以在日历功能里去做的。设置完了以后，每天到了你设置好的时间，它就会去执行一个agent。比如，我现在要求它每天早晨10点，把一天的AI相关的新闻总结出来，它就会给我发一个邮件。但是邮件里头没有内容，只有个按钮，这做得很烂。你点完了以后，还会进入到ChatGPT的界面里去，然后给你总结一下今天有哪些AI相关的新闻出来。

这个浏览器操作，今天我们讲的Operator，这是第二种AI agent。那么，下一个AI agent是做什么呢？我们有日历了，有浏览器操作了，下一个做什么？我觉得大家想一想，微软Office里面都有什么？Office里头有Word，那没问题，现在canvas基本上已经可以把Word很多功能做到了。Excel、PowerPoint这些东西呢？

未来可能在AI agent里面都会逐渐出来。再加上这个里面还有邮件的功能，是不是未来OpenAI会有自己的邮件系统？或者它可能不叫邮件了，叫一些其他的名字。还有，比如通讯录，或者说teams这样的功能，是不是这些东西就慢慢地向OpenAI的这个平台里边去整合起来？而这可能就是未来的AI agent一步一步的增加下去的过程。

这OpenAI自己是极其贪婪的。我记得我讲马斯克到底能不能做出超级APP来时候，我讲过这个问题。做超级APP的源头就是贪婪，OpenAI就属于特别贪婪。他要做全场景，要把所有的场景在OpenAI里通通都实现一遍。流量现在正在快速地从谷歌向ChatGPT进行迁移。我现在自己已经很久不开谷歌了，遇到各种问题，ChatGPT、Deepseak、豆包都会跑一圈，实在搞不明白了我才会去开谷歌。而且就算开谷歌，最后得到的效果也未必比ChatGPT它们强。

所以现在第一个要革谷歌的命，谷歌的Workspace这些东西肯定就一项一项地都进入到OpenAI ChatGPT的AI Agent里边去。也没准过两天OpenAI就会出网盘功能呢，甭管是微软的onedrive，还是Google Drive，或者是icloud，都将会有网盘功能。所以OpenAI下一个agent没准是个网盘，大家就等着一个一个看。

你现在看谷歌有什么产品，office里有什么产品，OpenAI就会一个一个往回搬。但这个过程中呢，谷歌就比较危险了。为什么？因为他始终无法舍弃搜索广告收入。谷歌的最核心收入就是搜索广告，还不是说各种广告，比如说我的这个网页广告、YouTube广告、移动广告，这些挣钱，但是挣的钱都没有搜索广告多。那么这就导致了一个很严重的问题，是什么呢？就是谷歌的大模型有很多新的功能，他不愿意给人用，因为大家一旦用了这个以后，他的搜索广告收入必然会下降，因为流量不从那走了吗？

谷歌的Gemini到目前为止也还在惦记找人收一个月20美金的这个费用，因为你广告收入没了。有了以后，你还是要有一个收入进来的，这个是谷歌比较无奈的地方。

所以现在大量的谷歌Gemini的新功能呢，它压根不给普通用户用。它给谁用呢？给程序员用。你在AI studio.Google.com这个网站里头，会发现，哎呦，谷歌的大模型已经往前发展得非常非常远了。但是你到Gemini.Google.com这个网站里去，发现还是那么笨，特别是你没有交20美金，那就完全没法使用的一个产品。这块其实是非常麻烦的。

那你说谷歌自己不知道这问题吗？他知道，但是呢，作为这么大的上市公司，百分之七八十的收入，你不可能说不要就不要了。这件事情呢，很像是日本人为什么做不好电动车一样，包袱太重。他坐汽油车这么挣钱，那你说我坐电动车，汽油车这事不弄了吧？所以他永远不舍得，包括他坐了半天氢能源，也没有把车推出来，原因也很简单，我汽油车卖得好好的，我为什么要去推这个东西？

所以这都属于是逐渐要被干掉的一个迹象，谷歌这块很难逃脱了。现在OpenAI的话，肯定是要逐步地用AI的方式，蚕食互联网里边所有的领域和方面，要去做超级APP，要去做顶级大厂，这是OpenAI的野心。

社交娱乐这一块的话，应该还有更多的时间可以喘息一下。他的DALLE3已经落后了，Sora也翻车了，也落后了。社交跟隐私跟AI之间呢，有一些难以调和的东西，这个事要稍微麻烦一点。而且现在OpenAI这帮人呢，更多的想的是，我怎么能够把公司做得有效一些、有用，比如说怎么去做科学研究，攻克人类所有疾病。

所以对于社交跟娱乐这一块呢，他们并没有投入那么大的精力。所以如果有一个小公司说，我今年还想创业，我想在AI上做点什么事，干点大厂不干的事情，OpenAI现在绝对已经是大厂，不用等那后边5000亿美金的星际之门，他就已经是大厂了。

你说我非要在他那块再折腾点什么事。我想做一个AI Agent，去跟他比一下Openriter到底行不行。除非你在中国可以。为什么？因为他进不来，他去不了的地方，你可以去做。如果他去得了的地方，就别跟他费劲了，去做一点他不干的事情。这就是今年OpenAI为整个行业指明的方向。OpenAI在今年可能已经在向着超级应用、超级APP的方向遗迹绝尘而去了。在这个过程中的话，谷歌就相当相当的危险，微软肯定也会被它蚕食掉一部分。中国的公司可能就又有腾飞机会了。如果有在美国的，你们交了200美金的用户，可以去试一试。如果没有的话，咱们等过一段时间，他把这个200美金用户共享的问题解决了以后，应该会把这个产品开放出来，给plus用户和teams用户。但是你说我在这个墙之内的话，用这玩意到底有什么意义，我也没太想明白。好，这是我们第一个故事。

OpenAI用12天发布会，为业界指明方向。丨从O1到O3，这些革命性进展将如何定义AI未来？

Luke Fan — Wed, 25 Dec 2024 00:51:55 +0000

OpenAI连续12天的发布会到底为世界指明了什么样的方向？大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI的12天发布会已经结束了。首先，从我个人的感受上来说，稍微有一点点失望。没有带来新一代的Dalle，也就是绘图模型；也没有GPT-5，哪怕是GPT-4.5的升级都没有。Sora虽然发布了，但是他所发布出来的产品跟大家的预期是严重不符的。

那么，这12天到底都发了些什么呢？前面7天其实已经录了一期节目进行总结了，咱们这里就不再重复。后边5天，第八天是搜索和实时语音进行了合并。我在前面7天总结最后的时候，讲了一下我说，现在OpenAI发布了大量的工具，是隔离的。语音是语音，搜索是搜索，canvas这种画板，还有其他的很多工具，是相互隔离的。就是你要选择其中一个功能，其他的功能就不能选了。未来的话，一定会逐渐把他们再合并起来。

第八天就给大家演示了通过带有搜索功能的实时语音，解决很多现实的问题。原来实时语音你跟他聊了半天，他是就给你瞎编的，就是截止到某一个时间点的知识，然后以此为基础来跟你去闲聊。现在的话，你就真的可以问他：“今天天气怎么样？哪个地方餐馆是不是定满座位了？”他可以用一些真实的信息来给你回答，这个就会变得非常有趣。甚至，他们还演示了一下去结合地图跟大家做一些回复，说哪个地方有什么什么东西。他可以把这个地图调出来，你附近有哪些好的餐厅，有哪些好玩的地方。

到第九天，叫开发者日。这么多功能出来了以后，他给大家了一些API，也就是像我们这些程序员可以通过API把这些功能集成到我们自己的程序里边去。所以，先给大家看了O1的API进行升级。大家注意，O1原来我们是可以通过API去调用的，只是它很多东西都没有，包括函数调用、结构化输出、视觉输入，这些东西实际上都没有。这些是在4O上都有的东西，但O1上没有。稍微跟大家讲一下什么叫函数调用。

就是我们在调用大模型的时候，按道理说应该是我们给他一个提示词，他就吭哧吭哧就干去了。但为了能够让他有一些更多的功能呢，OpenAI也好，或者很多其他的这种大模型也好，都有这种函数调用功能。就是你跟他描述一下，说这个函数是查天气的，以后遇到查天气，请调用这个函数，直接把这个天气查出来。等于你把一个实际天气预报的网站就可以封装成一个函数，告诉这个大模型，然后它就可以去做这样的工作，等于它就具备了查天气的功能。

这个就叫做函数调用。而所谓结构化输出是什么呢？就是我们正常看到大模型输出的，都是乌七八糟的一大堆话。你想在里边找到真正有用的东西，然后再到下一个模型里去调用的话，有几种方式。第一种呢，就是你再给他一个大模型，说来把这个里头有用的信息总结总结，然后到下一个地方再去使用。但是这种方式呢，会有一个问题，过了大模型这个过程了以后的话，每一次的结果是不可预期的。有的时候找得着，有的时候未必找得着，这个会挺麻烦的。

另外一种方式，就是我们常用的方式，是把它写程序，直接在这个输出的内容里边进行正则表达式的过滤。就是说我过滤一下，这个里头有没有谁的名字呀，有什么性别呀，还有什么这些东西，然后把这些数据拎出来，然后到下一个环节继续使用。以前我们是这么使，但后来OpenAI就发明了一个方式，说哎，我干脆结构化输出吧。我再输出出来的东西，就不是一个完整的文字了，而是把它拆成程序员比较习惯使用的JSON格式。他上来就告诉你，这个人的姓名是什么，性别是什么，然后有3个人形成数组，每一个的属性都按这个方式写好。那这样的话，我们在后边拿程序去接收这个数据的时候，就直接可以拿这个已经结构化好的数据去把相应的信息拎出来，往下一个环节去走。这块还是很棒的。

至于视觉输入的话，他其实干的事情很简单，现在的O1的API可以直接往里塞图片了。原来都是你需要用文字去描述，它是不支持图片的，现在支持了。

这就是O1的API增强的东西。然后呢，给大家演示了一个叫WebRTC。加上WebRTC以后呢，等于我们自己的程序里头就可以有这个实时语音功能了。原来我们没有办法做这个实时语音，是因为呢，我们需要通过像API的方式来去调用它。必须是我先得到了一段声音，然后把声音塞到这个后台的服务器上去，先给我识别说说文字，然后呢，它产生结果，再去给我念。原来是这样。现在的话，就是它可以做WebRTC了。

RTC什么意思呢？叫Real Time Communication，叫实时通讯。所谓实时通讯就是说，你给了它这个音频流或者是视频流，给了它以后呢，它等于实时的去处理了。像我们使用的OpenAI的高级语音功能，就是它是说着说着你可以打断它，它会听到你的声音，然后接着跟你聊。这个东西就是WebRTC实现的。

咱们日常生活中各种的会议软件，还有很多直播软件，实际上它背后用的技术都是WebRTC。那么现在都是我们给大家提供WebRTC的这种API，你也可以让你的应用或者网页呢，拥有这种可以被实时打断的高级语音功能。这个也是一个非常棒的技术，至少对于程序员来说，稍微有点激动人心哦。

还有一个让程序员比较开心的事情，就是API降价。你调用了API，它是按TOKEN来收费的嘛，要每过一段时间都会降价，降一点点。那么又降价了，这个是让程序员开心的事情。

这是第九天开发者日。到第十天呢，发布了一个特别有趣的功能，就是直接电话通话功能。他给ChatGPT申请了一个电话号码，大概是1-800-ChatGPT。大家可以直接给他打电话，而且呢，应该是每一个电话，每个月应该有十几分钟的免费时长，可以去跟他进行通讯。他发布了这么一个有趣的东西，就是你不需要安装APP，上网页登录账号都没有，随时抄起一部电话来，就可以去跟他聊天了。

除了这种方式之外呢，还可以做WhatsApp。你把刚才那个1800……

后边ChatGPT的这个电话号码呢，写在联系人里，以后就可以使用WhatsApp跟他进行通讯了。跟他聊天也是允许的，这样的话，他等于极大地去扩容他的用户层面。很多的老人小孩，原来从来没有接触过电脑，没有接触过网络，没有接触过手机的人，就开始可以成为他的用户了。这个也是很有趣的一个发布吧。

我尝试了一下，我没法使，因为我的WhatsApp是用大陆手机号注册的。我使用大陆的手机号去给他打这个电话的话，肯定他也不会有任何回应，所以呢，就不用费劲了。

这是第十天。到第十一天呢，做了一个Mac桌面版的升级，可以呢看到Notion以及其他笔记软件里边的信息，然后还做了一些高级语音功能的整合，也就是刚才我们讲的ChatGPT的Mac版。你连到本机的Notion以后，或者连到本机的各种应用上，今后你现在可以跟他说话，通过说话的方式来控制这些应用了。

这是第11天。到第12天说终于到最后一天了。我记得到第11天的时候，就去讲说明天特别激动人心。在前边应该是发布apple intelligence那天呢，也在说说这个，以后有一天我们会发布这个AGI的，激动人心的AGI。所以呢，就是留足了悬念，大家就都等第十二天了。终于到第十二天了，坐在这看发什么了。

他发了一个叫O3的模型，这个就实在是太厉害了，都不好意思叫O2，因为前面一个模型叫O1嘛。说O2我们跳过了，我们直接叫O3了。整了这么个东西，是一个非常强大的推理模型，然后也发布了O3 mini，还有一个叫谨慎对齐的技术。

现在呢，这些O3模型呢都是期货，O3 mini是到明年1月底可以跟大家见面，而O3的话还要再往后推一些，据说是在O3 mini发布以后的一个时间跟大家见面。目前呢是开放了安全员申请，就是你可以申请成为安全员，进去呢帮他评测一下他们的安全机制是不是有效。因为这么厉害的模型出来以后的话，一旦是被坏人利用了，那等于坏人也如虎添翼吗。

这个是他们不希望看到的。具体第12天的东西呢，咱们后边详细讲一下，这个还是有点意思的。然后到第十三天，对，连续发布12天嘛。第13天还有事。到第13天呢，山姆奥特曼发了条推特，说从今天开始，Sora一直到年底，免费给大家使用，就是不限额随便使。我估计呢，它Sora发布出来以后，发现完全没有什么热度，没有什么人愿意在上面折腾。因为呢，很多人试了以后发现效果并不好，特别是很多物理bug，比如说多个手指头，或者什么腿往外弯了，两条腿变三条腿了呀，什么这种事情稍微有一点点多。而且呢，他限制非常严，像我到现在在他的Sora上，不可以画有人的视频。所以呢，我就试了一次，以后就再也没登录过。虽然我作为plus用户，每月还是有一些绘画的，或者绘制视频的这个额度的，但是没兴趣。

现在他又出来找补来了，说我们第13天还有东西，就是大家可以继续去使用Sora，作为圣诞庆祝，因为他觉得后边该过圣诞节了，大家都应该去画一些视频出来，然后去四处发发社交媒体，给人祝福祝福，这是一个很好的时间点。但是从现在来看呢，我并没有看到什么响动。怎么叫看到响动？别人画没画我怎么知道呢？也很简单，就是你到Twitter里边去，到YouTube里头去，如果你发现有大量由Sora渲染生成的这种视频在传播，在大家互相的转发点赞，那说明呢，这个策略是成功的。但是他发了这个推特以后呢，我并没有发现有任何变化，所以我觉得这个事情，应该他的目标没有达成。

好，下面呢，咱们稍微详细的讲一下第12天的O3发布吧。O3模型呢，就是这种博士生模型，前面我们还专门录了一期视频，再去讲如果花2,000美元一个月，让你去雇佣一个达到博士级别的AI助手，你到底愿不愿意？那么现在看来，人家也不是无地放矢，实际上都是在为O3去打基础。O3模型呢，在编程比赛里头获得了2,700多分，当场做主持的那哥们大概是做了2,500分，然后旁边的山姆奥特曼就问他说：“你多少分？”

他说2,500，当时那个脸就不是那么好看。但是他马上纠正说：“哎，我知道公司里头是有人得到3,000分的。”对于他们来说，我估计达到2,500就已经很强了。因为那个比赛我自己没有跑过，但是我估计以我的能力，应该是差得比较远。因为现在脑子已经比较木了，不是原来每天坐那写程序的那种脑子了。

然后呢，他说：“哎，公司里有人是3,000分的。”然后山姆·奥特曼的反应特别逗，他说：“这个3,000分，这哥们也蹦跶不了几天了。”为什么呢？因为以AI的进化速度，他想去追上人类的这一点点分数差异是非常容易的。特别是在这种规则比较明确的挑战赛上，人类是不太可能很长时间保持优势的。

第二个是参加数学竞赛，也得到了一个非常高的分数，就做错了一个题。山姆·奥特曼就想起来问说：“兄弟，你那个数学竞赛考了多少分？”那哥们赶快松了一口气，在老板面前保住面子了。他说：“我是满分，我一个题也没错。”后来又赶快找补，他说：“我是做出过满分答案的。”

对于这个O3来说，对于这种大模型来说，你让他反复去做，他最后肯定也是能够做出满分答案的。甚至原来还有那种猴子理论，就是你让一堆猴子在这随机的点点点，或者随机的打字的话，都有可能能够形成有意义的长文本。所以你让O3反复叙事，他肯定也能够达到满分，这个不用担心。我估计这哥们也是压力挺大的，老板坐在旁边，随便出点什么数：“你多少分？”这个还是稍微有一点点吓人。

而且他说他满分了以后，估计他也想明白了：“说不对，这个不是老板在面试我，不是在考教我，我们是在发布新产品，还是要说产品牛。”然后赶快又找补回来了这个东西，这个也是很厉害的。但这一点上呢，一定是O3体现出了极强的编程能力和数学能力。

然后参加了一个叫ARC AGI的测试，这呢是一个全球可以开放的测试，所有做AI的人都可以去拿自己的模型上面去跑去。GPT-3在里面大概是0分，GPT-4是5分，4O可能比这个4稍微好那么一点点，O3的话是达到了87.5分。

这是一个非常非常高的分数了。人类的平均水平是84分，所以它已经超过人类了。我们正式向AGI进发了。这个比赛呢，超过85分的就可以获得60万美金的奖励，还是一个非常棒的比赛。但是呢，它也展示了另外一个事情，就是O3模型的运行是需要超高的运行成本的。

为了应对这个超高运行成本，他们还设计了一个很有趣的东西，就是在你每一次向O3问问题的时候，可以设置说，我到底是用这个高成本运算、中成本运算，还是用低成本运算，而不是像原来使用GPT式的，就是你只管问，它自己来根据你的问题决定使用多少算力、多少成本来算出结果来。

他们参加这个ARC AGI的测试的时候，如果使用低成本运算的话，只能得到75.7分。虽然没有达到人类的平均水平，但已经很高了。然而，这样的75.7分的结果是用20美金算出来的，不是20美金一个月，而是20美金一次哦。这是非常非常恐怖的。

他们刚才说的这个87.5的分数，超过人类平均智力水平，这个分数是用高成本算出来的。他算一次需要花几千美金，这是非常吓人的。所以前面录节目讲的这个2000美金一个月的，我觉得2000美金未必够他烧的。就是你按照运转一次就需要花几千美金的这种高成本运算来算的话，那这个收费的方式可能还需要重新思考一下。

除了发布这个O3之外，还有O3mini。O3mini呢，是高中低三档算力开关，也是如此。效能呢做了很大的提升，低成本推理这一档呢，速度很快，基本上跟GPT4O的速度是一样的。现在我们使用O1 mini、O1这样的模型的话，它的速度是非常慢的，你需要等半天才能有结果出来。但是呢，使用O3mini基本上是可以达到4O水平的。

然后使用中档推理的时候，可以达到O1的这个效果，但肯定它比O1要便宜嘛，因为它是叫迷你的一个版本嘛。但是呢，它的运算的结果跟O1是一样的，但是高档就没事没得比了嘛。

而且呢，O3 mini呢，提供了丰富的API，就是结构化输出函数调用，这些都给了大家可以去写程序去使用了。但是O3的API到底长什么样，这个就不好说了。除了O3和O3 mini之外呢，还发布了一个东西叫谨慎对齐。你发了这么神奇的东西，万一有坏人用怎么办呢？所以这个事情一定要去讲一下。

他们整了这样的一个谨慎对齐，实际上是什么？这是原来我们要去对齐的时候，或者说我们要去甄别用户提进来的提示词，是不是恶意或者隐藏恶意的时候呢，他们以前都是通过这种静态的关键词去进行过滤的。现在说不用了，我们训练了一个模型，然后这个模型呢，自己可以推理出一个标准来，灵活地去甄别每一次的提示词。但是这个呢，现在请大家报名去做测试，看看到底能不能突破它。因为我对于他们的这种数学和推理能力，其实是缺乏理解的。就是以我的这个理解状态来说，我觉得这个谨慎对齐的这些安全方式的话，应该突破不难。这个等他慢慢后面进化去吧。

通过第三天的发布呢，我们看到了一个非常有趣的现象，也就是OpenAI的用人原则。他们其实就是通过各种的智力测验、各种的编程比赛、数学比赛，挑了一堆的这种天才儿童坐在这。但是我们去讲“天才儿童”这个词的时候，听到的朋友们，你觉得这是一个完全正面褒义的词吗？好像不是吧。

现在这一群的天才儿童坐在一起，给我们带来的产品就是O3、O3 mini，一些普通人已经完全无法去理解和使用的一个强推理模型。没有给我们所期盼的普通人能够用的GPT-4.5或者GPT-5，而是给了我们一个O3。我们对天才儿童的这种认知，一般是什么样的？咱们从字面意思上去理解的话，大概是这样。这帮人在某一些特定的环境下，已经跑得非常远了，一骑绝尘跑出去了，让其他人完全无法望其项背了。但是呢，对于正常的生活，柴米油盐酱醋茶来说，基本上是弱智。反正至少我的对于天才儿童的理解是这样的。所以呢，现在GPT的O3以及他的谨慎对齐的话。

我基本上是按照天才儿童的方式来理解他们的，这个事没有什么依据，这就是完全的感受。好，这就是第十二天发布的产品了。往后呢，我们来讲一下OpenAI的方向判断，通过12天的发布，他们到底想干什么，这个我们要去看一下。

第一个，OpenAI现在一定是希望拉更多的用户进来，甭管是Apple Intelligence，还是直接可以给他打电话，直接可以用WhatsApp跟他联系。他还是希望拉更多的用户进来，而且呢，可以覆盖更大的应用范围，比如CANVAS Project或者其他一些新的功能。它希望可以覆盖很多原来，比如说Office或者是其他的一些软件所覆盖的这些功能。

包括第11天所演示的ChatGPT麦克端的APP，可以直接跟大家的Notion、Notebook也可以跟这些产品一起工作的这个能力。他希望把AI带到所有的边边角角、方方面面里边去。我觉得这个Notion AI可以哭晕在厕所里边了。

另外一块呢就是降价。OpenAI的降价其实一直都没有停下来，每过一段时间就会降价。但是对于普通用户来说，你一个月20美金也好，或者是200美金，或者其他这种版本也好，这个它不会降。但是什么东西在降价呢？就是API在降价。每过一段时间API就会降价，降价的原因呢，就是现在其实我们在程序员使用API调用的各种大模型里面，OpenAI的ChatGPT还算是最好用的之一。现在只能算之一了，因为呢，它跟这个Anthropic Claude 3.5 Sonnet比起来，算是不分伯仲吧。在这样的一个情况下，他只要是不断的降低API TOKEN的成本，那么我们这些人就会继续去使用他的API，那么他就可以很有效地去挤压他的竞争对手。这件事情一直在前进，然后瞄准高端狂奔，这就是这一次12天发布会里的实际最主要的东西。像第一天欧一完整版。

第二天，什么是强化学习？然后到最后，上了一个O3。中间其实还有很多，是专门进行这种研究型应用的模型，已经完全脱离了普通人使用的这种模型。这个方向其实在O1的时候就已经指明了，我们要向这个方向前进，不再去做5了，或者再做什么这些东西了，我们就要去做强推理。

在这样的方向指明了以后，现在谷歌、国内的像Moonshot、Deepseek、阿里这些都已经纷纷跟进，分别推出了自己的数学模型。谷歌推出的叫Gemini 2.0，Flash Thinking，Kimi的话应该也是推出了一个叫m系列的模型。Deepseek应该也有一个类似的模型，国内还有一些这种数学模型。阿里推出的叫QWQ，也就是通义千问QWQ模型。有一些我已经用过了，效果其实还可以。

OpenAI已经成功地把整个行业的方向向着研究方向带过去了。再往下一步，OpenAI要做的事情，继续是各种工具之间的联通和统合，这里还有很多工作需要做。你比如说，现在你想用CANVAS的时候，还是不能用搜索。虽然可以在实时语音里头用搜索，但在CANVAS里用不了。CANVAS跟其他各种功能结合起来，或者绘图什么结合起来，这个还需要逐渐把它自己这些功能打通，这需要下功夫。

然后，面向普通人的大模型进化，OpenAI还在探索。现在有传闻说，GPT-5训练了几次，效果不好，依然在训练。就是成本非常非常高，周期很长，训练一次几个月的时间，花5亿美金才能训练一次，但是训练了两次都没有出来结果。不过目前这些都是传闻，我自己也没有详细考证过，还是慢慢等进一步详细的消息出来吧。

那么未来AICC行业的方向是什么？这刚才我们讲了OpenAI的方向。大家要注意，12天连续发布会，实际上对整个行业来说，有一个重大的利好。这个利好是什么呢？就是两大困扰创业者的问题。

有一个暂时没有爆发。两个问题是什么？第一个是底层架构不稳定，第二个呢，是上层应用被覆盖。这个什么意思？咱们先想后边这个。就是你吭哧瘪肚坐半天，等OpenAI再去开发布会的时候，你发现你的功能被覆盖掉了，你的事情白干了。就是每一次OpenAI一开发布会，就说又有一大片的创业公司倒下了，就是功能被它覆盖了。这个问题依然没有解决。

这一次这个OpenAI 12天发布会里头，依然是覆盖了一些东西，比如说ChatGPT的Mac客户端可以直接跟Notion结合了。那么Notion AI的一部分功能实际上是被它覆盖掉了。甚至呢，Mac端的ChatGPT的应用可以直接跟各种的IDE开发工具去结合去写程序了。为了应对这件事，微软说来GitHub Copilot免费了。所以现在你想写程序的话，可以直接使最好的那个，不用去跟其他的那些免费模型较劲了。这也是这个倒逼微软降价吧。所以这块依然没有解决。

但是另外一个问题呢，基本解决了。什么呢？就是底层架构的不稳定。原来你要去做一个创业，说：“哎，我在GPT2的基础上做了一个东西。”等你这个东西吭哧瘪肚开发了一年，写出来了，人家说我GPT3出来了。那说咱们升级，GPT3上我吭哧瘪肚写了半年，又把它写出来了。我3.5了，那咱再升级，又吭哧瘪肚写了一年，说我这个现在是完全适应GPT3.5的了。我们要去开发布会了，正要出门了，我们这个GPT4出来了，然后4O出来了。这个就叫底层架构不稳定。

现在一看说，哎，5依然遥遥无期，5的各种特性都不知道。因为我告诉你，不需要把5做出来。如果OpenAI能够做出来，说我5是按哪个方向做的，朝哪个方向发展的，这个事他如果敢出来说的话，那么整个行业就会奔着那个方向开始跑。就跟他2024年年初说我要做Sora，我放了一堆演示出来的过程是一样的。实际上他已经把整个行业带着跑了一年了。所以现在5到底是什么样，不知道。那么这件事就算稳定了。

底层基本上稳定了。现在呢，甭管是LLama、通义千问、Gemini、Claude、OpenAI，还有其他的各种模型，都基本上停留在GPT-4的这样一个水平上，上上下下吧。然后呢，他们的调用方式，整个的反馈的这个结构基本上是跟OpenAI一致的。就OpenAI制定了一个标准，规定好了这个东西是怎么调用的，提示词大概怎么写，调用的时候是分几个命令进去，出来了以后可以有哪些功能。像刚才我们讲的什么函数调用、这个结构化输出，这些东西其他人都是照这个标准做的。

所以呢，现在再去做什么应用，或者做AI Agent，大量的这种工作流都串起来，干这个事情的话，那中间的这些大模型就有极强的可替代性。我用OpenAI可以用，我用Gemini可以用，我用Claude可以用，我可以随便换。这个的话，其实是对于开发者来说，或者对于创业者来说，是一个巨大的好消息。就是底层暂时稳定了，大家赶快冲上去，把一些具体的应用做掉，这是很好的机会。

OpenAI自己呢，还会继续去将各种分散的功能逐步整合起来。所以在这个时候，千万不要尝试去做拼接工具。什么意思呢？你比如说，哎，我现在是不是做一个带有搜索的CANVAS功能？这个你就别费劲了。你要相信我，OpenAI自己一定可以搞定这个事。而且他一旦搞定了以后，你做的那个产品一定会被覆盖掉，这个事不要去干，直接面向混合后的OpenAI功能就可以了。

你比如说，我们认为带有搜索和这个项目功能的OpenAI的这种API未来会出来，那么我们就直接以此为目标进行开发就行了。等它一出来的时候，我们其他东西就开发完了，这也许是一个方向和玩法。那么用户交互方面呢，肯定还是会有很多可以值得探索的东西。这一次OpenAI给了我们两个提示，第一个提示就是如何让AI更好地跟现有的系统相结合，到底是通过Mac上面的ChatGPT APP。

直接去跟各种APP进行结合，还是说我到这个网页里边，直接给你上canvas或上画板，这块呢是大家值得去探索的，也是呢这个OpenAI给大家做的一些演示或指明的方向吧。这块是值得去试试的。

另外一块的话，就是如何将复杂的需求准确地表达给AI，这个是OpenAI这一次开发布会的时候给大家演示了。那说哪一个是做的这块的演示呢？Sora的故事版。我怎么能够把一个有持续的信息分成持续提进去？这个其实是OpenAI给大家做了一个创新，虽然这个创新很小，但呢非常有意义。

以后我们不用再去想说，我如何可以在一个提示词里一次性把一个完整视频所需要的信息都扔进去。你可以在故事版上，在时间线上，这个地方要干什么，那个地方要扭个头，这个地方要变个颜色，这个时间点要起始，要画什么东西，然后到几分几秒的某一个时间点，这个主人公向哪个方向走，或者做什么动作，或者到几分几秒这个颜色发生什么变化，或者亮起什么样的灯光。他可以通过这样的方式呢，进行更精确的有持续性的信息输入。

而且这些的话，应该会很快被像什么吉梦、可灵、Runway这些模型应用起来，这个我觉得可能一两个月就会看到变化了。现在呢是研究和推理领域，肯定会越来越小众。面向普通用户的方向的话，各种的APP，各种的这个用户交互方式，这块呢现在大家就可以去干了，2025年应该是这一块可以出成绩的时候。

另外呢，就是具身智能必然会爆发。其实我们这一次看OpenAI 12天的连续发布会里头，真正让我感觉很震撼的东西是什么？就是带有视觉的高级语音。你可以开着摄像头对着自己跟他聊天了。这种东西你扔给了具身智能的机器人，再要求OpenAI直接输出代码，说来你给我输出代码，然后我用这个代码去控制机械手。技术变化了以后再给你进行一些反馈。

现在的OpenAI大模型，其实已经距离控制机器人非常非常接近了。所以呢，这些机器人公司应该发力了。

新的具身智能未必长得像人，只需要做好插件、传感器、动作执行以及反馈这一块就行了。下边就是怎么提高技能、提高准确度、降低成本。这就是2025年可能提给所有具身智能行业的一个要求了。后边大模型的部分不用管了，扔给OpenAI就完事了。

带有视觉的实时语音，会改变每一个人的生活方式。这个智能的硬件产品包括一些新软件产品或者网页，在2025年的话，应该会有非常多的涌现。

最终总结，2025年依然是AIGC的一年。虽然前面OpenAI连续12天的发布会让我感到稍微有些失望，但是他还是尽到了责任。不是说发布了什么让我特别感到眼前一亮的革命性产品或者什么iPhone时刻，没有。但是呢，他依然作为老大，执行使了他的义务，就是为整个行业指明了方向。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。