科技评测 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

Luke Fan — Sun, 14 Dec 2025 00:54:07 +0000

GPT-5.2我已经用了两天了，效果到底怎么样？

大家好，欢迎收听老范讲故事的YouTube频道。

GPT-5.2：应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的，它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5，我们记得是有三年，但是在这之前，OpenAI已经苦逼了好多年了，所以这是OpenAI自己的十周年生日礼物。这个产品，应该是应对谷歌的Gemini 3 Pro的一个紧急版本，是在GPT-5的基础上进行了调整和训练得到的，更加注重长时间推理结果，结构化的输出更像系统，也就是更不像人。这个东西很多指标都遥遥领先，当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点：输出质量显著提升

用了两天了，我自己使用的感受是什么样的？输出的结果确实要比GPT-5.1要好很多，它的输出结果更全面、更准确，而且输出的结果整个的排版格式也是非常舒服的。

缺点：速度极慢与应对策略

但是，好慢好慢好慢！重要的事情说三遍，这个东西真的是很慢。当然，也有可能是新版本刚发布，用的人很多，但确实是慢，让我把默认的thinking模式都给取消了，改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出；如果是直出模式的话，就是不判断，直接给结果就完事了。当然了，我还有一个方式来应对速度，就是在GPT旁边再开个豆包，豆包是相对来说要比它快很多的。

恼人的上下文处理异常

另外，有一个让人使得很不爽的地方是什么？就是GPT-5.2的上下文处理经常发生异常，经常有一些很诡异的表现。什么意思？我们在一个对话里聊天，你前面问了一个问题，七嚓咔嚓给你答了一大堆，你再问下一个问题的时候，他经常把上一个问题已经答过的这些内容，又给你稀里哗啦地给你挂上。

你比如说，你前头问了123三个问题，给了你一个答案，然后你再问456三个问题，他会先总结一下前面123的三个问题的答案是什么样的，然后456这三个问题的答案是什么样的，他会给你这样的一个结果，让我自己看起来觉得有些奇怪。

所以，如果大家要去问新问题了，最好要开启新话题，不要在原来的对话里头一直聊下去，因为他会把前面的所有聊天内容通通放到新的对话里边去进行思考的，会影响我们答案的质量。因为我试过几次，当我突然在一个对话里头问了他一个不相干的问题的时候，他也是会把前面我们整个对话的内容再给我回顾一下，然后我后面的这个结果会严重地受到前面问答结果的影响。所以，你要问一个不相干的问题，就开个新窗口或者打开新话题。

图像能力：推理增强，生成不变

图片的推理跟分析确实是增强了，但是生成的部分没改。

本视频的全部内容都是由GPT-5.2完成内容整理的。这是最近我的一个新习惯：讲Gemini 3 Pro的内容，就完完全全用Gemini 3 Pro生成；讲DeepSeek V3.2的内容，就完完全全由Deepseek V3.2生成；讲GPT-5.1、5.2的内容，咱们就用GPT-5.1、5.2来生成。也是让大家有一个真实的体会。

性能揭秘：深度解读新指标GDP val

很多人说不对，GPT-5.2出来了以后，各项指标遥遥领先，都领先了Gemini 3 Pro了，按照我刚才讲的这个过程，怎么好像各有春秋的样子？

选择性公布的领先指标

怎么说呢？GPT-5.2的很多指标其实并没有公布，他们只公布了自己领先于Gemini 3 Pro的这些指标。但是这已经是有了巨大变化了，在以前GPT发布的所有的指标里头，它只跟自己比，它是从来不跟别人比的。所有GPT、Gemini和Anthropic的Claude相互比较的这些数据，都是社区的人，或者说媒体的人给他总结的，他们自己是从来不发布的。老大要有老大的风度，我天天去跟下边人比，这事肯定是不行的。但是这一次，他发布的这些指标都是有Gemini 3的这个数据，也有Claude 4.5 Opus的数据，它们是进行比较的。但是，OpenAI只列出了它领先的这部分，不领先的部分通通都没说。

全新指标：GDP val（通用开发者生产力验证）

甚至为了领先，还设置了一个OpenAI的新指标，这个指标叫GDP val（val是小写，GDP大写）。这个指标的意思是什么？叫“通用开发者生产力验证”，它是模拟真实开发工作的一个测试体系，衡量一个模型是否真的能够提升专业知识工作者，尤其是开发者的生产力。像我才算是专业知识工作者，我确实是感觉到我的生产力提升了。这个指标设计的核心是什么？

首先，它不关心模型会不会做选择题，也不关心模型能不能背知识点。因为什么？我们现在让模型去回答问题，都是有搜索的，或者说有这个本地知识库的，不需要模型给你编任何东西，而且我们很害怕模型给你编东西，所以这个也不是考核指标。
至于是不是能够命中标准答案，这件事也不重要，你设置了一个标准答案，正好答的一个字都不差，这个事也不考核。

考核重点：从头到尾完成复杂任务

那他考核什么？

它考核的是一个复杂任务能不能从头到尾完成，输出是否可以直接用于工作。
中间是否出现致命的理解偏差？还有很多步的这种推理，你中间是不是理解错了？这个要去考核。
是否需要大量的人工返工？给我了一个结果，我还要告诉你说错了，这个地方你没理解对，那个地方我还有一个要求，这还有一个隐藏的条件你没有照顾到，这个就叫人工返工。这都属于重要的考核方向。

测试过程：模拟真实开发者场景

那它测试的过程是多步骤专业任务。举个例子，阅读一份需求文件，分析约束条件（一般需求文件里都是有各种约束的嘛），然后设计解决方案，给出结构化的输出——代码、文档或者是方案，直接是让他做一个完整的任务。任务通常包括隐含条件、非显性约束、多个正确但质量不同的解法，所以为什么没有标准答案。通常会给他一个真实的开发者场景，例如：

重构代码：我这个代码原来已经写好了，也能测试通过，但是它不符合高内聚、低耦合的代码规范，这种代码后续的维护、升级都比较费劲，你需要去进行重构，让一个函数变得小一点，让这个类有这种继承关系，让这个代码可以重用，这个东西叫重构。
补全缺失模块：我们写好了一些代码以后，或者缺几个模块，你给我写去。我提一句话，他得给我干完，不能说在中间问你一大堆别的事情，或者给你一个半半拉拉的一个结果，这事都不行。
修改接口而不破坏兼容性：经常我们会遇到什么？就是你写了一个代码，然后这个代码中间的某一个库升级了，这个库的接口就会发生变化，你需要告诉这个系统说，我现在接口变了，你现在去给我调整代码，让他重新给我兼容上去。这个也是GDP val的测试用例。
在限定的规则下修复问题：这个也是我们在写代码的时候经常会遇到的一个很痛苦的事情，你说出错了，他有时候没把你要求的这个地方修改掉，还把其他很多地方给你改的乱七八糟的。现在你可以告诉他说，你就给我改这几个地方，别地儿别动，他会给你去处理。

长上下文任务考核

而且会去做这种叫长上下文的任务，就是输入信息很长，包括无关信息和干扰信息都会输进来，要求模型自行判断哪些重要。考核的话就是上下文的理解能力、信息筛选能力、工作记忆的这种稳定性。但是这一块我觉得还有待提升，因为刚才我也讲了，你在这个很长的聊天过程中，如果突然问他一个很跳跃性的问题，他会搞乱掉的。这一块那你说到底是怎么更好一点？应该是允许他在工作过程中开个小差、聊个天，还是说你在工作过程中就认认真真干一个工作？反正各有取舍。

评分机制与核心要求

那评分机制是什么样的？人工评审。这个任务是否完成？是否存在关键错误？是否可以直接使用？决策是否合理？是否在边界条件下崩溃？最后这个是非常非常重要的，因为我们让AI去干活，他经常会只照顾到比较普遍的这种情况，但是一些边缘的情况就会照顾不到。这个评审是要求你都要照顾到。

在这些条件里头，最重要的是什么？一次完成。不鼓励反复追问、人类手动修正，更看重的是一次性给出可以交付的结果。所有这些文字都是GPT-5.2直接输出的，一个字都不带差的，大家看它交付的结果还是相当可以用的。明确区分部分完成和可交付，部分完成是属于不合格的，接近正确是没有价值的。

要被严重扣分的行为是：

逻辑正确，但是漏掉关键约束；
方案可行，但是忽略明确要求。

GDP Val的意义与得分情况

GDP Val的意义是什么？就是企业用户、AI agent的系统自动化流程、专业知识工作者，特别是开发、分析和研究的这些人，主要是给他们用的。至于你说我要娱乐一下、我要陪伴一下、我要跟他聊个天，这都不是给你用的。GDP Val不是在测模型有多聪明，我们也不需要它有多聪明，而是在测你把工作交给他，第二天能不能直接交差。这个是主要测试的目的。

得分的话，各模型表现如下：

GPT-5.2：70.9分
GPT-5.2 Pro：74.1分
Anthropic Claude Opus 4.5：59.6分
Gemini 3 Pro：53.5分
GPT-5.1：38.8分
GPT-4：18.6分

我觉得GDP val的指标还是非常有效的，现在我让GPT-5.2去干活的时候，拿出来的东西是基本可以直接用了，这块确实有很大提升。

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

Gemini 3 Pro发布的时候，号称领先的LM Arena的那个指标，1,501分的那个指标，这是第一次超过1,500分，有史以来第一回。这一个指标上，GPT-5.2超过了吗？首先跟大家讲，GPT-5.2这一次发布的时候就没有公开这个指标，它只公开自己领先的指标，所有不领先的指标都没有公开，所以GPT-5.2应该是没有超过。

重要澄清：GPT-5.2不是Garlic

特别强调一点，GPT-5.2不是garlic。很多的文章在说garlic发布了GPT-5.2，注意，不是。大蒜模型从来没有被验证过，也没有在任何的匿名竞技场里头出现过这个garlic模型的名字，是从内部意外流传出来的。但是Garlic模型到底应对的是哪一个版本，这个现在不确定。但是所有说GPT-5.2是garlic的，都属于是产生幻觉了，甭管是人产生的幻觉，还是AI产生的幻觉，这个事本身并不重要。

匿名参赛：Robin与Robin high

GPT-5.2自己有没有参加LM Arena的这个竞技场？参加了，他也去做了这个评分了。但是LM Arena这个竞技场里边都是匿名的，当时Gemini 3 Pro进去的时候也是匿名的，GPT-5.2进去肯定也是匿名的。它在这个里边有两个模型：

Robin：测试的评分是1,399分（Gemini 3 Pro是1,501）；
Robin high：这个模型有可能是GPT-5.2 Pro，就是那个贼贵贼贵那个模型，它的测试结果是1,486分，也没有超过1,500分。

所以这一次，OpenAI就没有列这个成绩。现在普遍认为这个Robin就是GPT-5.2，Robin high应该是GPT-5.2 Pro。

LM Arena vs GDP val：评测标准有何不同？

这个LM Arena，它叫人类偏好测试，它是由真人用户直接投票来产生的。大模型匿名参加，谁也不知道谁是谁，但是其实你说匿名，也没有那么严格，大家都能猜出来具体哪个是哪个。他的测试过程是什么？就是用户输入一个真实问题，随机抽取两个模型，不显示模型的名字，同时返回两个答案，由用户来投票。那评分的方式是每个模型上来初始分1,000分，赢了比较强的模型加分——这个里头要注意，不是赢了就加分，是赢了比较强的模型才加分——输给比较弱的模型减分。它这个过程有点像打游戏，我们经常在游戏里头需要进行配对，你现在要跟谁去做PVP了，他也会去找一些跟你的排名差不多的这些人。

他这样的评测主要强调什么？是回答是否有用，逻辑是否清晰，表达是否自然，是否符合人类的直觉，多轮对话的舒服程度到底怎么样。它不强调哪些东西？是否背过某道题，是否命中固定答案，是否针对benchmark专门优化过，这个通通都是不重要的。所以“小镇做题家”在这里头是搞不定的，包括上面OpenAI自己做那个标准，也是搞不定的。

Gemini 3 Pro得分1,501，GPT-5.2 Pro得分是1,486。但是都叫Pro，差异很大。Gemini Pro它的价格还是相对比较便宜的，也比较快；而这个GPT-5.2 Pro贼贵，没有太大的必要，千万不要去尝试，非常非常昂贵。

GPT-5.2的定位：到底强在哪里？

它是消耗了更多的算力，直接获得能用的结果。更慢、更贵，但是结果基本上直接可用。核心特点包括：

有些仓促，确实是有点着急，红色警报嘛，确实有点着急，所以会出现这种上下文错误。
更多的是面向B端用户，不是娱乐的。
主要是针对Gemini 3 Pro和Claude 4.5 Opus。

我觉得Claude 4.5 Opus有点危险。为什么？因为我们以前的竞争经常是这样：老大跟老二打了半天，把老三、老四、老五、老六全都给干掉了。Claude 4.5 Opus这一点就稍微的要弱一些。现在通过GPT-5.2大家可以看出来，全能型的模型，就像全能型的人一样，是很难做出来的，既要幽默风趣有情商，又是办公小能手，这个很难兼得。大模型的进一步提升，普通人已经越来越难以直观感知了。解决具体实际问题，是目前各大模型厂商所关注的重点。

未来值得期待的更新

OpenAI的图像生成模型：还是值得期待一下的，因为这个东西好长时间没有更新了。特别是Nano Banana叠加了迪士尼的版权授权之后，OpenAI的图像生成模型就更值得期待了。迪士尼版权授权这件事，回头我再抽时间再讲。
明年的成人模式：也许是为个人娱乐服务提供的一个新方向。但是这一块最好不要抱太大的预期。为什么？第一，不能显得老范太低俗了，这个不重要；最重要的是，OpenAI现在是风口浪尖上，大家都在拿显微镜看它，而成人模式这件事情，本身尺度是非常难以把握的。所以对于这一点上，不需要抱太大预期。

总结：一款为专业工作者而生的“红色警报”产品

总结一下，GPT-5.2作为“红色警报”产品，算是紧急上线了。我自己用起来的感觉还不错，比较符合我的使用需求。我也往自己脸上贴个金，我算是专业的知识工作者。未来GPT会继续在我的文字类工作流程中占据主导位置。中间我大概是换Gemini换了几周的时间，但是现在我又换回去了。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

OpenAI的GPT-o1 发布：科技大爆发的前奏，草莓模型震撼上线

Luke Fan — Tue, 17 Sep 2024 01:10:51 +0000

大家好，欢迎收听老范讲故事的 YouTube 频道。今天咱们来讲 GPT O1 发布，科技大爆发应该会到来。草莓模型终于发布了。今天我太太还问我说，这个模型发布了，对于你们这些科技圈的人来说，算是意料之外，还是算意料之中？这个事情直接把我问在那了。

其实，每一个人都希望赶快把草莓模型发出来。但是 OpenAI 从今年年初开始公布 Sora 到现在，他吹的牛有点太多了。到现在为止，这是我们真正见到的能够用的产品。虽然 GPT4O 也是能用，但完整的 GPT4O 其实到目前为止，一直没有彻底开放出来。而这个 O1 上来直接就开放了，今天早上凌晨 3 点突然上线，哐往那一挂，大家愿意用的都可以去用了。我自己也去用去了。他呢，也换了一个名字，叫 GPT-O1。所以呢，这就不是 GPT5。

未来可能会走两条路，一个是继续走这种直接进行语言生成的，而 O1 这条路，走的是深度思考，要去反思一个问题，要深思熟虑以后才去回答。所以他有可能两个路要分开走，而且两个模型可能会相互配合着使用。

现在的 OpenAI 呢，就跟 O 干上去了，OpenAI 以 O 开头嘛，它后边的仪态产品基本上都是 O。GBT4O 这个 O 叫 Omni，意思是全能。下一代大模型，也就是大家等待的 GPT5，它的模型的名字叫 Orin，猎户座。而现在的 GPT O1 意思是从零开始计数，从头开始。

这是一个什么样的大模型？他深思熟虑，具体里边是怎么做的，这个都是大家在猜，或者有一些很简短的文章，因为现在他也不开源，OpenAI 变成 Close AI 了。这个东西到底内部如何实现呢？大家只能猜。

现在就可以用 Plus 用户，像我就是 Plus 用户，一个月 20 美金，可以用到两个版本，一个叫 O1 Preview，预览版，应该是在正式的 O1 版本上裁剪出来的一个版本；另外一个叫 O1 Mini，O1 Mini 是要比 O1 Preview 还要再小一些的版本。但是这个额度非常少，少到什么程度？O1 Preview 一周 30 次，我今天大概已经用了有十来次了，后边几天我要省着点用了。Mini 是一周 50 次，真的是没见过这么抠搜的模型。以前的都是三个小时多少次，或者一天多少次，甚至有一个小时多少次，而现在这个 O1 都是一周几十次。所以用的时候一定要小心。

有人在去传说，准备上 200 美元一个月的 Preview 版本，这个属于传言。今天还去问了 GPT4O，被辟谣了，说我们不准备干这个事。
就是20美元一个月的这种Plus版本，我就让你用，只是数量少一些。未来，我们会想办法把这个数量提升上去的。这个O1的测试数据非常亮眼，数学能力极强。在2024年美国数学邀请赛上，能够达到全美前500名优秀学生的这个水平，这是非常吓人的。然而，他这个数学邀请赛应该是中学生，文中并没有说明到底是初中生还是高中生，但能够达到前500名的北美学生参赛水平的，已经非常高了。

物理、生物、化学方面，可以直接达到博士生的水平，这个也是很恐怖的一个能力。编程能力得到了极大的提升，在信息学奥林匹克竞赛里头，超过半数的参赛选手，如果是打开常考，让他慢慢的想，让他多试几次，是完完全全可以得到金牌水平的。在Code Forces平台做竞争性编程比赛上，已经超越了93%的程序员，已经算是一个比较资深的程序员了。

我自己也在里边做了一些编程的测试，确实非常的猛。我去向他提出一个很详细的要求，我说我现在要做什么事情，希望使用哪些技术，希望效率怎么提升，在界面上怎么去设计。当然，这个提示写的比较长，写完了以后，啪一回车，首先是漫长的等待。不是说啪一回车就出来了，这东西挺慢的。等一会以后告诉你说，应该在哪个地方，怎么去装环境，第一步做什么，第二步做什么，哪个里头有哪个文件，这个文件里写什么东西，啰里八嗦写了巨长的一段。我发现O1这个玩意是非常话痨的一个大模型。

而如果你不是像我这样用Plus版本去直接调用，而是说我要用API去调，那你就上了当了。他会啰里八嗦说半天的，而且他那个TOKEN的费用奇贵无比。那么，为什么讲这就是科技大爆发即将到来？O1其实并不是给普通人用的，普通人去玩GPT-4O就已经足够了。O1这种东西其实是给科学家、工程师、程序员用的工具。

现在限制科技发展到底是什么？其实数学是限制科技发展的一个很重要的因素。因为数学越往后发展，其实越反人性，必须筛选出极少数的数学天才，才能够继续往前面去前进。而且人类为了达到当前科技的高度，必须进行非常长时间的学习。你想，一个小孩从出生一直上到博士，可能研究才能研究点东西出来，这个时间得二十几年，甚至是三十年你才有可能能够学完。学习的成本是非常高的，而且筛选也很严格，因为学习成本很高，必须要选出最能够去学习的人去学。

但是筛选的过程又未必科学合理，不一定说一个筛下去的人，他就比进去读博士这个人差，也许你换一个人上来科技就发展了。
但是这件事我们不知道，没有任何可以试错的机会。在学习的过程中，也会扼杀创新力，因为我们不断地学习，实际上就在学习前任的方法，这会造成路径依赖。所以，其实是导致现在科技很难再往前走的一个很重要的原因。而且，我们必须要阅读大量的信息文献，才能够去做研发。为什么呢？如果不读，你只能重复造轮子。有没有人做过这个？没有查重，那你折腾半天做完了以后发现，哎，20年前有人做过了。这也是很正常的。而且，人的大脑不是说我读了大量的信息和文献，就可以去做新的创新的，而是什么呢？我们的大脑像掰棒子的狗熊似的，你把新的东西进来以后，就把旧的知识可能忘掉。你要想始终得到一个最新的知识，在这个基础上去做研究，这还是非常难的。

但是现在有了O1的帮助，这些问题其中一部分就可以解决了。我们不再需要进行严格的筛选，不再需要进行漫长的学习，让更多的人可以进来进行科学创造。整个科技大爆发，可以带来不同的变化。很多科技前沿的关卡，其实已经开始松动了。学习筛选的过程也必然会发生改变，以适应O1之后的科技研究。

我个人用的体验到底怎么样？首先说，个人使用O1的体验并不好。为什么？第一个是很慢，这刚才我讲了，一个回车下去，你要在那等。而且很贵，如果使用TOKEN API直接调用O1的成本，要比我们使用GPT的各种模型都要贵很大的一个比例。而且给的配额还非常少，你想，一个礼拜才给了你50次，这个事实在是让你不太敢打回车。

编程问题我去试了一个，刚才我们讲的说你给我写一段程序，他思考了多长时间？两分钟。你打完回车以后，两分钟他没理你，做完了以后再告诉你说我们整个用了两分钟，才给你输出了一个结果。每周三50次，这确实是有点费劲。

那贵到什么样的程度？O1 Preview的价格是GPT4O的3-4倍，输入100万TOKEN是15美金，输出100万TOKEN要60美金，这个是非常重的一个价格了。因为我们去写编程那个题的时候，刚才我说他写的特别话痨吧，直接输出了8,000多个TOKEN。按照100万TOKEN 60美金算的话，我等于那一次回车下去，我就已经花了大概0.5美金出去了，所以这玩意是非常贵的。

O1mini要稍微便宜一点点，100万的输入是3美金，输出是12美金，但是MINI可能有一些效果会稍微差一点。那比较一下4O，100万的输入是5美金，输出是15美金。
这个已经是现在大家可以用到的比较好的模型了，而4O mini就是4O蒸馏出来的小版本。100万的输入才0.15美金，100万输出是0.6美金。所以我现在大量的这种模型工作，都是使用的4OMini。而且现在API的调用还非常不完善。

怎么个不完善法？第一个，不允许加系统信息。你正常跟人聊天的时候，你说的话叫用户信息，他回复叫助理信息。正常我们去跟OpenAI聊天的时候，还有一个信息叫系统信息，我们先设定你是谁，张三李四，你擅长什么事，这叫系统信息。现在这个O1呢，是不支持系统信息的，也不支持函数调用，还不支持流式输出。

流式输出是什么？我们在GPT上跟人聊天的时候，GPT都是一行一行一个字这么出来的，因为它出的慢。如果你不是随想出来点什么，随出就会等很长时间。而这个O1压根就不支持这功能，你只能是打完回车生等，等到他彻底算完了以后，啪一把吐出来。Plus用户呢，直接就可以用，但不是很顺畅。为什么呢？他不能访问网页，现在只能是用他已经训练好的数据去给你回答，而且也没有搜索的接口。

思考的过程建议大家不要打开，因为你在这个Plus版本里头说，“现在O1不一给我去回答一个问题”，你打完回车以后，他告诉你说，“我现在在想，我在思考，我有一些什么样的问题。”他在不停的在变化。这个东西呢，如果你点他，给展开一个思考过程。我点开过，我问了一个问题以后，发现他思考的有中文的、有英文的，还有阿拉伯语的，讲的东西基本上是驴唇不对马嘴，完全在胡说八道。但是最后输出的效果并不差，只是中间思考的过程，我估计是什么呢，随便给你写一点信息，让你不要太着急。

所以这个中间思考过程大家就别点开看了。O1这一次的发布其实是非常匆忙的。为什么呢？第一个是钱真的不多了，要尽快完成融资，否则以OpenAI的尿性，肯定还是说我们再放个气球出来，放一个视频出来，让大家慢慢等，而不是说直接咔就把东西扔出来了。现在马上要融钱，据说他们准备融资60多亿美金，再贷款50亿美金。那么这些钱加一块，大概也就够他烧个半年或者八九个月这种水平，再往后可能还得再去找钱。

所以在这种情况下，有一个新的模型发布，对于他找钱来说是比较有好处的。而且O1的很多体验并不好，很多GPT上实现的功能其实都没有实现，包括刚才我们讲的不能接网页、不能接搜索、不能去做流式输出。
而且呢，还没有任何的多模态。比如，你要给他一张图，他认不出来。想让他去做题吧，你必须要先用GPT-4O把这个图识别好了，再把这个识别出来的题扔给他，再让他去做。他自己没有这个能力。而且O1其实并不太适合广大民众，广大民众真正需要的可能是他Orin猎户座大模型啊，而现在那个还没出来，到底什么时候出来不确定。OpenAI最近也不断有员工在离职创业，这对于吹了太多牛、拿不出产品的OpenAI来说，会造成非常多的困扰。

即使有这么多问题，GPT O1不是那么完善，但GPT O1依然是一个划时代的产品。O1应该怎么用？大家知道最早的程序员是怎么干活的吗？最早的程序员应该这样，首先在纸上写代码。那个时候这个机器是非常紧张的，不是说随时就有啊，个人电脑是很靠后才有的。所以呢，早期程序员都是在纸上写好代码，写完代码以后，拿打孔卡或者是打孔纸袋去编程。在这个袋子上打完眼以后，约时间，说我什么时间是要去上机。你要去约，约好了以后，到机房把这个纸袋也好或者是打孔卡也好，装到这个机器上，咔咔咔给你输进去，漫长的等待，在回收结果。回收完了以后，如果发现有错误或者不满意的地方，回去接着改程序去啊，然后再约下一次去上机。最早的程序员是这么干活的。为什么这么干？就是因为资源太少。

O1的使用其实可以参考刚才我们讲的过程。第一个，GPT Plus的账号上每礼拜只能使用几十次，所以一定要珍惜。第二个，就是很昂贵。如果你说我不希望被它限制，我要到这个API上直接调用，那么这个确实是可以突破限制，你愿意使用多少就使用多少，但特别贵。另一个就是反馈很慢，你不可能得到实时结果。

那么现在我是怎么用的呢？第一个，先用GPT-4O或者是4O MINI这样的模型整理提示词。我先要说我要干什么，请把提示词给我写好，要给你省一个非常复杂的提示词。在这个基础上你再改，改完了以后再让GPT-4O去给你修改，得到了一个完整的提示词，要把该问的事情都问好。做完了以后，满意了检查过了，一把塞给O1说行，这就是我要干的事，你去干去吧，进行漫长的等待，可能等个几分钟，接收完整的结果。因为他不能像4O似的，我随时聊，错了以后我再纠正你，我再告诉你哪错了，再给我改一改。他没有这个机会，因为交互次数实在太少，而且很贵。这是GPT O1的一个使用方法。如果你说我现在想用O1去解决一个问题了，建议你们像我这么干。
先用GPT-4O去整理提示词，整理完了以后，一把扔进去。这可以把这些珍稀的使用机会应用到最大价值。再往后，可能很多AI创业的厂商又该有噩梦了。现在，AI agent的创业公司，噩梦又轮到脑袋顶上了，因为每一次OpenAI发布产品，都会有创业公司突然死亡。

AI agent干的是什么呢？就是人工规划设计流程，将复杂的任务分摊到多个大模型，最终获得一个可用的结果。而GPT-4O基本上是把上面的活儿都替你干完了。你给它一个复杂任务，它替你分拆，分拆完了以后一步一步去思考，思考完了再反思，去检验结果，在结果里挑一个最好的，再把这个结论扔出来给你。

我们自己去设计的这些工作流，可能还没有O1内部设计的工作流合理。他这个可能又高效又合理，所以大部分当时做的AI agent，现在都没有什么用了。那么O1算不算一个端到端的系统呢？这个怎么说，响应速度和想一想的过程，说端到端稍微有一点点亏心。

那么现在GPT O1还不适合融入AI agent，因为它实在是太慢了。以前的AI agent要重新做，重新规划。怎么规划？原来的AI agent是很多小模型，通过一个流程处理一个明确的需求，然后再拼凑出结果来。那么现在就应该换了，还是用一堆AI小模型，在人工参与下，输出完整高质量的提示词。这应该是AI还可以干的事。

再把这个提示词扔给GPT O1，得到了结果之后再干嘛？再用那些小模型或者执行代码，再去把GPT O1的结果去分解。说到底要去做哪些操作，哪些的代码要去修改，哪个地方要去建文件，要把这个事情自己再去处理掉。因为这个O1后边的部分都没有，它只是负责把要求出进去，它把结果扔出来，它就干这件事。

GPT O1带来进步，肯定也会带来一些毁灭或者一些伤害，这个事永远都是这样。我们发明枪会有伤害，发明炸弹可能有伤害的，包括计算机也是对社会有伤害的。O1这样的东西，它会对社会带来什么样的伤害呢？第一个，原来我们一直思考的叫有钱人不作恶理论，这个事被打破了。很多人说不对啊，都讲万恶的资本，怎么有钱人就不作恶了呢？

大家想这样一个例子：一个有钱人跟一个穷人过独木桥，每次只能过一个人，这时候该怎么办？通常有钱人会向后退，让这个穷人先过去。为什么呢？因为有钱人身娇肉贵的，如果真的掉下去了，或者出点什么事，这所有的东西就都没法享受了。而穷人呢，一条烂命，其他啥也没有，他输得起。
但有钱人输不起。所以呢，以此为基础，很多西方人认为，只要财富积累到一定程度以后，就不会去做一些特别过分的事情。你会维护社会的规则，继续运转下去。这个也是很多西方人认为大模型不作恶的一个原因啊，因为大模型训练实在太贵了。有钱人是不会花了这么多钱去训练一个大模型，跑去干一些坏事。对于他们来说，没意思。

我记得以前，我们也遇到过类似这样的问题。那时是买瑞士军刀，一个东西一个刀好几百上千。我就问那个卖瑞士军刀的人：“我说这玩意这么老长，算管制刀具吗？”后来人家那个店长也跟我乐，说：“您见过买上千的刀出去挡人的吗？买上千的刀的人都是搁家里摆着的。有钱人是不干坏事的。”

但是GPT-01出来以后，这个就被打破了。为什么呢？失控了。现在不需要那么有钱，也不需要那么天才，每个人都有机会推动科技进步。那么，藏在深山或者地下室里的科技怪人，可能就会越来越多。甚至很多民科，我们管它叫民间科学家。以前这些人只能骗东西，他们是做不出真正的玩意来的。但是现在有了GPT-01后，这些科学怪人和民科，就有可能做出奇奇怪怪的东西来。

那么，社会就会从一个稳定的金字塔状态，变成了散乱的一团沙丘。原来你必须要汇集起整个社会的动力，来供养金字塔尖上的一点点人，成为大的科学家，汇集资源，才可以去做科研。现在不用了，我们拿这样的工具，每个人说：“哎，我想设计一个什么东西啊。”跟咱们看美剧有一个美剧叫《Young Sheldon》，人家小孩坐在家里捅吧捅吧，想去做核反应堆的，可能未来这个事情就会变得越来越容易了。

而且GPT-01其实依然会产生幻觉，他也经常会说错、忽视，认为经过反思、经过很认真的思考以后，他说的就不错了。而且GPT-01的幻觉，它的危害要比传统的这种幻觉要大得多。

咱们先讲一个著名的哈雷彗星笑话吧，大家理解一下这个幻觉是怎么产生的。这个故事是在1910年，当然也有一些其他年份的说法，反正就是哈雷彗星来的那年。故事的重点是信息传递的一个偏差。

说某部队一次命令传递过程如下：少校对值班军官说明天晚上8点左右，哈雷彗星将可能在这个地区看到。这种彗星每隔76年才看见一次，命令所有士兵着野战服在操场上集合。我将向他们解释这一罕见的现象。如果下雨的话，就去礼堂集合。我为他们放一部有关哈雷彗星的影片。讲的就是这样。

然后值班军官就对上尉说：“根据少校的命令，明晚8点，76年出现一次的哈雷彗星，将在操场上空出现。”
如果下雨的话，就让士兵穿着野战服列队前往礼堂。这一罕见的现象将在那里出现。上尉对中尉就说，根据少校的命令，明晚8点，非凡的哈雷彗星将身着野战服，在礼堂中出现。如果操场上下雨，少将将下达另一个命令。这种命令每隔76年才出现一次。

中尉对上士说明晚8点，上校将带领哈雷彗星在礼堂中出现。这是每隔76年才有的事情。如果下雨的话，少校命令哈雷彗星身着野战服，在操场上去。上士就对士兵说，在明晚8点下雨的时候，著名的76岁的哈雷少将，在少校的陪同下，身着野战服，开着他的彗星轿车，出现在操场前往礼堂的路上。

这个实际上就是一个幻觉产生的过程。当搜集更多的信息，而且在这个里边进行反复的推理、反复的传递的时候，那么，产生幻觉的过程就会几何级数上升。虽然GPT O1在推理的过程中，采用了一些手段来规避幻觉，输出一些内容以后，他自己会检查，会反思，但是你毕竟是经历了这么多的步骤，人家也是想了好几分钟才想出来的。综合算下来，他产生幻觉的几率还是在上升的。而且GPT O1也没有那么靠谱。

我用最传统的老虎过河的问题去问了GPT O1，依然是错误。老虎过河，就三只母老虎带着三只小老虎，从这个河的一岸要到另外一条岸去。三个母老虎会划船，三个小老虎里头有一只会划船。任何一个小老虎在没有母亲的陪同下，遇到其他的母老虎就直接被吃掉了。有什么方法可以让所有的老虎都过去？每条船上应该是可以走两个老虎，船上每一次至少要有一个会划船的老虎，而且呢，船必须是老虎划，不能自己从南岸到北岸，或者从北岸到南岸。

这个题呢，每一次GPT出什么新版本的模型了，我都会问，包括GPT Gemini cloud都去问了一遍这个GPO1。本来我是对他抱有巨大的这种期望的，你一个反思、推理这样的一个模型，做这种题还不是手到擒来的吗？结果依然是错的。在这一件事情上，他并没有比GPT4O强到哪儿去，还是到了第三步就直接出生错误。我就纠正他，这个特别有意思啊。第一次告诉我说我这样这样做，我说你哪哪有错。当你做成这样的安排以后，哪个小老虎就被吃掉了啊？他说对不起，我又搞错了啊。他又想了几分钟，告诉我说我换了一个思路你再看看。我告诉他，你这到同样的一步上，你犯了同样的错误，是另外一只小老虎被吃掉了。

这个时候特别逗，PPTO1就告诉我说，我发现了你这题有问题啊，这题是无解的。你应该调整一下这个题，让每条船上可以多坐几个老虎。
这给这个条件放的稍微宽松一些，否则这个题做不出来。那最后，我是把正确答案告诉GPTO1了。PO1把这个答案验证了一下，后来说：“你说的是对的啊，这个第一步应该怎么办，第二步怎么办。”整个都帮你验算了一下，都是没毛病的。

GPTO1并不能解决所有问题，而且像CPTO1这样的东西，为什么说它可能危害更大？所有要求把手放在方向盘上的自动驾驶，其实是最不安全的。你说我如果就要自己开车，这个事其实还是挺安全的，或者说我们符合一个驾驶安全的一个平均数。那你说我这已经彻底安全了，不需要方向盘，车上压根没方向盘，那这个事也没问题。

但是你说我现在有一部分副驾驶，你还要把手扶在这个方向盘上，你还不能睡觉，这个其实是安全隐患最大的。而现在的GPTO1呢，其实就是这样的一个状态。它能够解决一部分问题，但是具体哪一部分它解决不了，它自己也不知道。然后我们如果信任它，那就经常，它会把一些错误埋在整个的研究里边去，而且是很难被找到的啊，就会帮助大家去堆积“史山”。这是GPTO1绝对会干的。而且在这个过程中，如果它前面输出的效果非常好，那么它就可以累计人类对它的信任。后边它在输出错误结果的时候，被人类忽视，直接漏掉，直接放到研究报告里边，这个几率就会上升。所以现在还是一个比较危险的状态。

总结一下，GPTO1在今天早上凌晨发布了啊。这三点虽然并不完美，但是呢，依然是划时代的产品。之所以说划时代，是指明方向了啊，OpenAI老大的位置保住了。因为原来做到GPT-4、做到Gemini 1.5、做到Claude 3.5的时候，大家觉得没有前进方向了，我们把能干的活都干完了。现在O1出来，哎，大家向这个方向卷。当这个方向一指清楚了以后，谷歌、Anthropic，包括国内的各个厂商，就要开始去追赶了。

而且这一次OpenAI不一样，不是说上了一个，放个视频就完事了，而是真的让大家用上了。那么国内肯定会冲的啊。最后，英伟达应该会冲，因为一旦有这种新模型出来以后，所有的大模型厂商就会集中起来，更多的显卡进行训练。另外，GPTO1这样的模型进行推理，应该也是需要更多的显卡，而且可能只能上英伟达的，专门为Transformer优化过的那种LPU什么的，估计会有些捉襟见肘了。

在未来一段时间里，大家可以继续相信AIGC就是现在唯一的出路，大家可以继续在这条路上狂奔了。这就是我们今天讲的第一故事。