Plus用户 – 老范讲故事｜AI、大模型与商业世界的故事

GPT-5 发布！是革命还是挤牙膏？深度解读AI竞争新格局！AI价格屠夫来了！开发者和创业者的黄金时代开启？

Luke Fan — Tue, 12 Aug 2025 00:51:22 +0000

大家好，
欢迎收听老范讲故事的YouTube频道。
今天咱们来讲一讲GPT-5发布了，到底是又一次划时代的革命，还是开始挤牙膏了呢？

8月8号凌晨开的发布会，我呢看了一眼就去睡觉了，实在是没有功夫把它都看完。北京时间凌晨1点开始发，我今天看了一下回放，大概是一个小时十几分钟吧，但是我并没有特别耐心地把它们都看完。

GPT-5到底有什么不一样的呢？

首先，这一次的发布会跟OpenAI以前的发布会，有一些巨大的差异。第一点大家有没有注意到，就是这次发布以后呢，没有出现服务器拥挤宕机的情况。以前甭管是Sora呀，还是GPT-4o这些产品发布的时候，紧随而来的都是OpenAI的服务器拥堵宕机。这次没有，第一时间就可用，免费版也可以使用，速度还挺快的。我自己反而感觉速度还可以，应该呢是进行了一些实时的算力分配，简单的问题就没必要消耗那么多的算力。原来呢，大家都是要尽可能用最大的模型，你哪怕问一个“你好，今天天气不错”，他也得把那个最大的模型跑起来。现在的话应该就不需要干这个事了，他发现你去问“你好，你是谁，你到底是哪个版本”的时候，他可能做一些很简单的回复，消耗的算力就比较小。这是第一个比较大的差异。

第二个比较大的差异是什么呢？这一次没有哀嚎一片。原来OpenAI每次开发布会以后，通常都是哀嚎一片：“完了，我们创业白创了，做的事情被OpenAI覆盖了，创业公司天塌了。”这次还好。那这个是不是代表着OpenAI就开始挤牙膏了呢？还是说恰恰是一个新时代的开始呢？服务器也没崩，说明他肯定是有一些算法的优化在里头，但是是不是大家也没什么兴趣？另外一方面，没有哀嚎一片，是不是他也没做出什么东西来呢？咱们要去看一看这个问题。

除了GPT-5发布之外，还有一个很重要的新闻是什么？说马斯克在那说风凉话，有人在那尬吹，有人在那开骂了。跑分呢，其实是必不可少的。GPT-5这样的东西出来以后，必然要跑分，但是现在大家对于跑分也没有那么重视了，因为跑分好的这个模型其实未必好使。在这个里头有两项跑分呢，没有跑过Grok-4，就是马斯克自己的模型。马斯克就出来发了一个X，说“Grok-4 Beats GPT-5 on ARC-AGI”，在这个测试里头我们把它打败了。

ARC-AGI是一个什么样的测试呢？它呢是常识推理和复杂问题解决能力的一个测试。模型呢找到类似于大学入学考试难度的问题，让AI在有限信息里头进行推理，得出答案。就是做这个测试的时候呢，是不可以联网的，不可以调用工具，必须是使用模型本身的能力去做测试。它呢偏向于测模型的思考能力，而不是背诵搜索信息的本事，对于AI的生成推理挑战更高一点点。在这个里头呢，GPT-5是怎么输给Grok-4的呢？GPT-5呢使用的是GPT-5 BASE模型，它的正确率是9.9%，而Grok-4呢使用的是Grok-4 thinking模型，就是思考模型，它的正确率呢是15.9%，足足高了6个百分点。

但是大家注意了没有，这里头好像有些细节不对。GPT-5使用的是base基础模型，而Grok-4呢使用的是思考模型，thinking模型。那你说如果GPT-5使用thinking模型，或者是thinking Pro的这个模式，是不是能够反超呢？这个不知道。为什么呢？thinking模式肯定要比这个base模式消耗更多的算力和TOKEN，它有更高的正确率，它是合理的。马斯克是不是作弊了？也不能这么算。为什么呢？因为他这个测试的要求呢，是不可以调用外部工具，要依赖自身的能力完成测试。对于是不是要使用thinking模式，或者是不是要进行多步推导呢，这个测试本身并没有要求。你愿意一步到位，还是愿意多步思考，这些都没毛病。那你说是不是GPT-5高风亮节一下，我就测一下base模式一步生成？也没那么夸张。这个原因其实挺简单的：GPT-5的thinking模式和thinking Pro的这个模式，默认是要调用外部工具解决问题的，关不掉。所以它只能用base模式来参加这个测试，如果用了thinking，你就调用外部工具就作弊了。Grok-4呢，它是可以在不调用外部工具的情况下进行推理的，所以呢Grok-4它也没有作弊。但是要注意一点，你不调用工具直接去thinking，直接去进行推理的话，在现实工作中意义不是很大，就是我们完全靠模型自己的能力去推理，现实工作中一般不干这个事。

那么这是一项。另外一项Grok-4比GPT-5高的测试是“最终人类测试”。在这个里头呢，GPT-5 Pro，也就是最强的这个版本，答对了42%的题目；而Grok-4 heavy，也是最强的版本，答对了44.4%的这种题目。这个呢就没什么好说的，火力全开，都是用的最大的模型，工具链武装到牙齿，不计成本的情况下，Grok-4呢还是要稍微高出一点点，高2.4%的一个这样的一个比例。所以呢，在一些特别难的情况下，或者说进行深度思考的时候，Grok-4做的还不错。

那GPT-5到底更新了点什么东西呢？

第一个，统一大模型，不再需要选来选去的了。原来我们需要选GPT-4、GPT-4o、GPT-3…一大堆的东西我们要选，选完了以后还要进去选，说你是给我画画，你还是给我做其他事情，你要去选半天。现在呢就不需要了，你从统一入口就进来就可以了。当然了，它可以选择GPT-5和GPT-5 thinking，或者是GPT-5 thinking Pro。当然Pro呢，你必须要200美金的账号才可以选。但是你说，哎，我就选GPT-5了，我也没有去点击thinking，没有强制他使用thinking，这个没问题，该思考的时候他就会进入思考模式。而且呢，他发现你在跟GPT-5聊天的时候，进入思考模式是不计次数的。不计次数什么意思？待会收费的时候去详细讲这个东西。Pro版本，你没有200美金的这个账号，你就别用了，跟我这种Plus用户关系不大。通过API调用的时候呢，并没有一个模型叫Pro，通过API调用的时候就是GPT-5、GPT-5 mini、GPT-5 Nano这样的几个模型，然后自己选择消耗多少thinking的TOKEN就可以了。你进去的时候，你去选说我现在是深度思考一下，还是简单想一想，还是说拍脑袋就来，你自己去设计好。

GPT-5的上下文是256K，比Gemini还是短。Gemini 2.5 Pro的上下文是一兆，就是100万TOKEN，要比它大四倍，还是很强的。但是呢，也别羡慕这东西。当你向GPT里头去输上下文的时候，少于200K是一个价格，超过200K是另外一个价格，输的多以后要单独加钱的。

现在呢，GPT-5也不再区分各种功能、工具、任务，都不再管了。虽然有选择的地方，你还可以选说我现在是不是到canvas里头去做一些后期的编辑，还是说给我画画。但是呢，如果在聊天上下文里头，你直接告诉他“给我画画去，给我去做什么编辑”，它就直接过去了，你不需要再单独靠菜单去选择这个事情。

生成代码极其强大。这个事呢怎么说呢，我今天试了试，我觉得它生成代码还是有待提高的，特别是有的时候代码的格式、缩进什么的还有点小错误。现在呢，Anthropic的Claude一直是程序员最爱的模型。这里的话，OpenAI也做了一个很骚的操作，他呢把Cursor的CEO拎来了，说：“来，你给我演示一下GPT-5很强大。”这小伙子坐在那演示，说这个绝对是太强了。Cursor原来里边主流的模型就是Anthropic。为什么他跑来给OpenAI站台呢？因为最近Cursor跟Anthropic闹得不是特别开心。两个Anthropic Claude code的核心开发离职加入了Cursor，但是呢只在Cursor干了两个礼拜以后呢，又回Anthropic继续去开发这个Claude code去了。反正这种事搁谁身上谁都不会太爽。现在呢一群的程序员都在测试GPT-5的编程能力到底怎么样，这个效果呢还可以，但是我个人感觉距离Claude 4 sonnet还是稍微有一点点小差距，有待提高。

继续往前发展呢，跑分其实已经意义不是很大了。因为很多考试成绩很好的人，未必能够干的好活，更别说招人喜欢了。有一些人就是特别会考试，但是呢你跟谁聊天，跟谁去合作，大家都烦他，这种人是存在的。Anthropic的CEO曾经在很多个场合强调过一个事儿，说人们倾向于使用某个AI，不仅仅是因为其性能指标，而是因为其人格和性格特质。他认为AI的人格特质直接影响用户使用的体验和信任感。这个我是比较认可的，就很多人喜欢使用Claude，还是说Claude的整个的人格是比较讨喜的。

现在呢，GPT-5说：“我们也改进这件事吧。”原来呢GPT-4o的时候呢，会有这种讨喜型人格上来去夸你。现在说我们把这事改掉了，已经没这事了。现在呢是推了五个人格，你可以在五个人格里自己选。第一个是默认人格，上来你不用改它，叫“乐观灵活”，这是它的特性。第二个叫“挑剔者人格”，犀利毒舌，就经常骂你这种。第三个呢是“机械人格”，就是高效直言，上来以后有话我就直说了。还有“倾听者人格”，善解人意，如果有人需要诉说一下，你改成倾听者人格。还有一个叫“技术宅人格”，就特别热情，而且呢喜欢去刨根问底。这个人格还可以有一些更复杂的选择，它有一些属性你可以去选择去，包括：健谈、诙谐、直言不讳、鼓励性、z时代、传统型、前瞻型、思维有主见、谦虚、俏皮、直接、务实、企业、打破常规、同理心。你说上面这个5个不能满足我要求，你可以在下边挑一个自己最喜欢的。当然还有一些特殊的信息，你可以直接在里头写，比如说我这个人喜欢什么东西，不喜欢什么东西，下次他再跟你聊天的时候，会注意这些事情。这个是我觉得GPT-5一个比较大的提升吧。

另外一个比较重要的提升是什么呢？就是极大的降低了幻觉。AI哈，一本正经地胡说八道，就是他们最擅长做的事情。但是现在的话，GPT-5说我们已经把幻觉降低了30%-40%。所以呢，现在GPT-5的各种答案相对来说是比较靠谱了。我原来集中在使用Claude 3模型，觉得已经是比较靠谱了，至少比国内能够拿到的模型，或者像Grok、Gemini 2.5 Pro，比这些模型还是要靠谱一些的。那么现在的话，它在Claude 3的基础上再降低幻觉30%-40%，那我觉得这个已经是可以去做一些严肃的工作了，包括医疗健康，还有法律相关的工作，拿它去上手已经没毛病了。

然后安全上面呢，还是很严格的。这个是我不太喜欢OpenAI的一点，就是它道德制高点，我该干什么，不该干什么来它决定，这个事我是不喜欢的。这一次呢稍微做了一些变通吧，就是说原来你触碰红线呢，就直接告诉你说“对不起”，停止工作了。现在呢你触碰了红线以后呢，他还会尽量说点什么，不是直接就应声地给你停掉了，“我绕一下看看，我能够给你回答点什么，过线那部分我就不说了”。但是在这点上呢，我是站Grok这边的，Grok基本上还是百无禁忌的。

那么下边呢，谁能用？多少钱能用？我现在在网页上已经能用了。在这个网页端，现在我们已经不可以再去选择GPT-4、GPT-4o什么Claude 3都没有了，现在就三模型了：一个是GPT-5，一个叫GPT-5 think，还有一个叫Pro。Pro就是你点击了以后，就找你要200美金去了。大概就这三个模型可以选了，其他模型都直接隐藏掉了。这个是我现在的一个状态。

现在呢，免费用户也可以直接用，5个小时可以问10条，超过了以后就降级到GPT-5 MINI，这个比较小的模型去了。他们每天还可以用一条thinking，每天有一个额度。但是要注意，当我们使用GPT-5模型问了一些问题，GPT-5自己认为需要去推理的时候，这个时候是不占这条thinking的这个指标的。所以呢，我们在跟GPT-5沟通的时候，要更努力地去把这个问题提清楚，让他不要占我的指标，直接把该思考的问题给我思考清楚。大家需要技巧一点。当然了他设置这种技巧也是不怕大家去薅羊毛的。为什么呢？就是胡乱地去问一些简单问题，其实对于OpenAI来说是一个很重的负担。但是你说我每一个问题都三思而后行，想了半天再往里提，哪怕他thinking了一下的话，对于他来说这个负担都还是可以承受的。

那Plus用户，像我这样的用户呢，每三个小时呢可以使用GPT-5 50次，超过的部分就退回到GPT-5 MINI了。thinking模式呢是每周200条，估计基本上也够我使了。Pro用户，就是200美金用户，基本上就都可以用了，专门有一个Pro的模型是给它用的，其他的呢基本上是没限制。

但是呢，在这里要跟大家讨论一个问题，就是对于Pro用户来说，这200美金到底买的是什么？难道Pro用户的消耗量真的是Plus用户的10倍吗？不是这样的哈。山姆·奥特曼曾经自己发过X去抱怨过这个事。他抱怨什么呀？Pro订阅让他们亏了好多钱。为什么呢？这个原因很简单，你一旦花了这个200美金以后，你就肯定说：“我不能让他闲着，我一定让他干起来。”就跟原来甲方乙方的电影似的，大骡子大马们得让它活动起来，不能让它闲着。山姆·奥特曼自己写了两条推，一条呢叫做：“疯狂的事，我们目前的OpenAI专业版订阅上亏损了，人们使用它的频率比我们预期的要高很多。”另外一条说：“我亲自定了价格，还以为我们能挣点钱呢，最后发现亏钱了。”

这两句话呢，其实告诉我们一个什么？就是200美元这个价格，并不是一个经过财务人员精确计算出来的，而是山姆·奥特曼拍脑袋拍出来的一个价格。Xai也有这样的一个套餐，叫superGrok heavy，300美元一个月。Anthropic呢，有一个套餐叫Anthropic Max，是100美金到200美金的一个月。因为我没有用过Grok的套餐，所以它这个为什么是100美金到200美金，我不是特别了解。谷歌AI的Ultra也有一个套餐，基本上250美金一个月吧。大家到底为什么要去设这样的一个套餐出来？真的是说有大量的TOKEN需要消耗，有大量的算力需要消耗，我需要回点血吗？其实压根不是那么回事。

大家注意，免费版是没有忠诚度的，我今天用你两天，明天用他几天，这都没有忠诚度。Plus版本呢其实还是可以朝三暮四，我买两三个都还是承担得起的。但是Pro、heavy、Max、Ultra这样的版本，你一旦买了200美金、300美金、250美金这种，买了你就一心一意地用吧。所以呢，大家去买这种Pro版本的，其实买的东西是一个叫“投名状”的东西，就是我把我的这个身家性命交给你了，以后我就在你家老老实实干下去了。他要求的是用户去交这个投名状，而不是说真的拿200美金就可以cover成本了，这是200美金的这种套餐设立的一个目的。

再往后讲呢，你说今天他亏了，难道一直亏下去吗？也不至于。因为TOKEN的成本呢，是在快速下降。20美金、200美金都是一种用户绑定的手段。现在亏钱，以后是不是能挣回来呢？未必，以后也未必能挣得回来。那为什么呢？TOKEN成本下降的是一个速度，但是呢我们通过使用agent，通过使用工具，也在快速提升TOKEN消耗量的速度。到底哪个更快？现在不知道。可能TOKEN现在价格是原来的1/10了，但是呢我们现在使用的TOKEN量是原来的100倍，至少最近这一两年吧，是这样的一个变化趋势。过一段时间以后，是不是TOKEN成本下降的这个速度可以追上TOKEN消耗量上升的速度？有这个可能，但是市场目前还没看到。

那咱们再讲一讲API的价格。GPT-5的API价格是极具竞争力和压迫感的。GPT-5 BASE模型，基础模型，100万TOKEN的输入输出分别是1.25刀和10刀。输入100万TOKEN是1.25刀，输出100万TOKEN是10刀。这个其实已经很便宜了。它的MINI模型，就是比它要稍微小一点的模型呢，基本上就是在前面那个数字上除5，0.25刀和两刀的这个输入和输出。Nano模型，就更小的模型就是，在MINI的基础上再除5，就是这样来的。就这种东西都是拍脑袋拍出来的，千万不要认为说这个数是很详细的计算出来的，真计算出来那个数不会这么有竞争力。

为什么说它有竞争力呢？Gemini 2.5 Pro的这个价格，我们去比较一下。Gemini 2.5 Pro的价格，200K以下的，输入是1.25刀，输出是10刀。这个呢跟GPT-5基本上是一样的，GPT-5基本上是照着谷歌的Gemini 2.5 Pro去定的这个价格。但是如果我输入的TOKEN超过200K了，输入是2.5刀，输出是15刀，它就会有一个上浮了。Gemini 2.5是有Pro版本、Flash版本，还有一个叫Flashlight的版本，所以它整个的定位跟GPT-5基本上是一致的。它的Flash版本和Flashlight版本呢，都要比GPT-5相应的版本，比如mini版和Nano版，要稍微贵那么一点点。具体钱就不跟大家念了，基本上是稍微贵一点点。Grok-4，就是XAI的呢，只有一个版本，输入3刀，输出15刀。这个明显要贵很多，它要比GPT-5和Gemini 2.5 Pro都要贵。所以呢，Grok-4刚出来的时候，我用了一段时间，一个礼拜吧，然后就都改成Gemini 2.5了。

另外的Anthropic的Claude，它的价格是什么样的呢？它最大的模型，输入15刀，输出75刀，基本上是没有竞争力的，太贵了。Sonnet输入3刀，输出15刀，又是一个田忌赛马的故事。其实我们平时用的最多的模型就是Sonnet，效果已经很不错了。但是呢，现在的GPT-5，1.25刀嘛，它这是三刀嘛，所以还是要便宜很多的。原来你使用Claude 4 Sonnet，现在咱们就使用GPT-5就可以了。所以GPT-5的价格是极具竞争力和压迫感的。

AI竞争的格局呢，也开始向新的方向去进发了。第一个，谷歌Gemini 3应该已经不远了。虽然没有明说，但是呢普遍猜测今年年底我们是应该可以看到Gemini 3的。现在呢，谷歌已经进入下一个竞争阶段，谷歌跟OpenAI开始去抢别的东西了，抢什么呢？开始抢终端用户了。怎么去抢终端用户？免费用户就可以去使用Gemini 2.5 Pro了。他现在也在努力地把谷歌的Gmail用户，他的Workspace用户，向他的Gemini Pro版本去进行转化。而像OpenAI，他也是说GPT-5出来了，你们这些免费用户就可以用了，我一定要把我最好的一面展示给你，万一有一点转化率，说我今天想去充钱了呢。

马斯克的XAI呢，应该已经感受到压力了。在Grok的模型能力上，其实还是有一点点小差距的。Grok-4在进行复杂运算的时候还是很能打的，但是呢在综合能力上和用户体验上还有待提升。Grok我觉得最大的优势是百无禁忌，这块是我最喜欢他的点。用户体验上，马斯克到底是不是要继续往前跑？现在呢还没有看出苗头来。因为现在的Grok的客户端，Grok的各种功能，比OpenAI也好，比这个Gemini也好，差的还是比较远的。而这一块的话，不是靠天才可以搞定的，这一块是需要靠堆人才能追的平的。你需要很多的人，OpenAI现在的总人数已经超过了XAI的总人数，即使是XAI跟X合并了以后的总人数，OpenAI也是人更多一些。XAI现在大概是1200人，OpenAI 7月份的人数的话，现在有两个猜测，因为没上市嘛，非上市公司，它的很多的数据就靠大家猜。一个呢是SEO.AI他们猜的，OpenAI现在有2659个人，就基本上是XAI的一倍多一些。另外一个呢叫LeadIQ，他们猜呢，OpenAI现在应该有6400人。那差为什么差这么多？因为有一些可能是contractor或者是一些派遣员工，或者是其他的这种合同制员工吧，所以可能会有一些差距。但甭管是哪个数吧，都差好几倍。另外一些竞争对手，比如说谷歌、微软，那你这俩公司就别跟他们比了吧，谷歌18.7万人，微软22.8万人，你说你跟他们比什么劲。但是后边说我们现在开始进行终端竞争了，要去打造一个用户体验非常好的生产环境了，你就需要堆人。马斯克可能未来需要堆人把这个事情搞定。所以下面呢，要去进行这个终端用户争夺，你到现在为止，Grok-4我还没有在平台上用过，我只用过API。为什么呢？因为像我这种8美金的X用户，他不给我用，必须要去买30美金的超级Grok用户，他才让你去用Grok-4。到目前为止，马斯克还没有把这个弯子转过来，所以他还没有进入到终端用户争夺的这个战场上去，已经落后半步了。

另外一个落后的可能比较远的是谁？就Anthropic。为什么呢？从资本到算力上，它都相对来说比较受限，所以在价格上就能体现得出来，它所有的这个API的价格它最贵，而且贵的不是一星半点。最后要打价格战的时候，刺刀见红拼不过前面那几个。马斯克虽然现在争夺终端用户他抢不过OpenAI、抢不过微软、抢不过谷歌，但是他至少手里还有一个X，X上还有一堆用户呢，这是他的天然基本盘。而且马斯克别的不行，募资很强，他募了一堆钱切着咔嚓买显卡，把它堆起来去堆算力这事，它是很强的。Anthropic融的钱本身就不是那么多，虽然它的两个大股东一个叫亚马逊一个叫谷歌，说“哎我这有算力你来使吧”，但是呢你真的要真刀真枪的去跟别人拼的话，还是不行。但我估计后边会比较麻烦，虽然他们家的模型我也很喜欢，但是从商业角度上来说他们是很麻烦的。现在有传闻苹果要收购他们，但是我其实不太相信，因为苹果呢不太做这种特别大规模的收购，这么高的价格去收购的话，不是厨子这种守城之君可以做出来的决定。如果他真能做出这种决定来，当时他就把车造出来了，而不是说抠搜抠抠搜搜，最后整个Vision Pro出来，这个我估计他搞不定。

然后Meta呢，等着看他们一鸣惊人吧。挖了这么多人回来，超级团队，后边可能还会为我们带来很多不同的故事。现在进入了一个新的竞争状态。

这里还有一帮人，中国团队怎么办呢？中国团队呢，只能靠差异化了。开源更大更新的模型，把agent一起开源出去，这可能就是中国团队未来竞争的一个方向。因为你去卷大模型，你卷不过他们了，手里头没有这么多的显卡，没有这么多的算力，数据上也有受到一定的限制，我们去卷底层大模型这块就会比较费劲。现在中国的这些AI公司里头呢，字节是在走OpenAI这条路，就是我闭源，我就疯狂的往前堆，但是未来到底能堆成什么样还不好说，而且字节也在堆显卡，他很多显卡是堆在海外了。其他的像阿里、百度、MiniMax、Kimi这些团队呢，都在堆开源，把最新的、最完整的、最大的模型直接开源出去，争夺一些客户回来，争夺一些市场空间回来。所以呢，大家玩的是不一样的。

那么开发者跟创业者应该干点什么呢？这一次OpenAI开完发布会以后，没有哀鸿一片，这是非常好的事情。说明什么？AI agent大家还是可以继续做下去的。把具体行业的需求解决掉，这个是创业者和开发者该去做的事情。而且现在呢，底层模型也相对来说比较稳定了，它没有那么多的幻觉了，拿着这些模型就可以去做一些相对比较严肃的工作了。所以现在就是开发者、创业者要冲的时候了。

GPT-5的API呢，我今天测试了一下，比Grok-4和Gemini 2.5呢，能力上其实并没有特别明显的差异。速度和稳定性、价格，这就是后边要拼的东西。这一块呢，OpenAI应该还是可以去占优的。为啥？因为OpenAI自己压根不惦记挣钱。谷歌那后边是个上市公司，你赔多了这事肯定是不行的。而至于说Grok的话，现在虽然他没有那么惦记挣钱，但是马斯克很多的操作其实是比较粗犷的，这种真正需要绣花，一针一线的往前去拼价格战的时候，他未必跟得上这个节奏。所以我相信在这一块上，OpenAI会领先一点点。未来一段时间呢，大家应该都会加班加点，对每一个应用中的AI节点进行效果、速度、稳定性和成本的这种对比，去更换GPT-5的API。这就是开发者现在该干的活。

原来说AI创业很难，原因就是大模型厂商的边界不清晰，你今儿干着干着，明天被他覆盖了。现在的话，这块清晰了，他们就去干他们的事情，我们干我们的事情。所以呢，最初的问题其实已经解决了，赶快去找到方向去干活。

那么到底是在挤牙膏，还是新的时代到来了呢？首先要讲，OpenAI再次地给行业指明了新的方向。第一个叫模型融合，不要整一大堆模型让我挑来挑去的，你就给我一个，我自己呢做这个提示词，你根据我的提示词去给我反馈就完了。该多说两句的时候多说两句，该少说两句的时候少说两句，不要让我去选取。第二个呢就是自动的进行判断，对于什么各种工具的调用，这个是需要去做的。还有一个方向就是降低幻觉比例，你要想去解决实际问题，就要降低幻觉。这块呢是中国大模型差的比较远的一块。在这一块上Gemini、Grok和Claude都还是比较强的，虽然达不到GPT-5这个层次吧，但是已经是可以用的了。中国的像Deepseek、千问、Kimi、豆包这些模型，幻觉得一塌糊涂，现在需要向这块去往前走一走。降低幻觉的方式就是不断的加算力进去，反复验证，多做这种强化学习，但是呢这个是需要大量算力在里边堆进去的。

新的时代还是到来了。新的时代是以什么样的方式到来了呢？阶级逐渐固化了，分层的时代到了。顶层的就是模型商卷，顶层模型OpenAI这次真正卷的是谁？他卷的是谷歌，卷的是XAI，卷的是Anthropic，他已经不再去跟这些应用厂商去竞争去了。“我们玩我们的，你们玩你们的。”这个是新的时代。他们一旦是开始把这个事搞清楚了，下面的这些创业者就可以冲锋了。就像是盘古开天地，混沌归于有序，大家就可以在这里繁衍生息了。这个是非常重要的一个时间点。

操作系统跟平台商呢，都去参与模型厂商的内卷就可以了。比如说谷歌，现在说Gemini不是大模型，Gemini就是操作系统。微软说我这个就按操作系统来了。OpenAI也说我就是操作系统。Grok肯定也是要去奔操作系统来的，它把X收进来以后，未来这一块可能就会有一个像微信似的超级应用，对于它来说这也是个操作系统。底层应用开发好好干吧，不用再担心模型商突然抄后路了。应用商也要有自知之明，不要去干这个大模型、操作系统、平台的这个事情。怎么说呢，要安天命，就是该你干的活你去干，不该干的活就别干。

这儿呢跟大家讲一个小故事吧。应该是在2014年年初的时候，我当时还在猎豹，跟着傅盛还有猎豹的其他几个高管呢，到谷歌北京办公室去吃早饭。不是占人便宜去了，我们跑去谷歌谈很多事情的时候呢，他们就特别喜欢让我们到他的办公室里去吃早饭，因为谷歌当时的食堂特别好，后来搬家了以后那食堂就没那么好了。当时是香港谷歌的一个负责商务的高管跑到那来跟我们吃早饭，趁着吃早饭的时候开个会嘛。当时我们做的工具呢，叫Clean Master，清理这个手机垃圾信息的。他问了一个什么问题呢？他说：“你们到底是清理memory，还是清理disk？”其他人就没想明白到底在问什么。我呢当时抖了个机灵，我说：“我们只清理disk，绝对不碰memory。”因为其实安卓手机上压根就没有DISK这个词，它叫storage drive，就是存储的驱动，这个不是叫DISK的。所以当时我就直接反应过来了。其实Clean Master是两个都会清理的。我回答了以后呢，其他人还看着我说你怎么胡说八道，明明不是这么回事，我们两个都可以清理，你干嘛说只能清理disk，不能清理memory呢？但是我回答完这个问题，还没有等到我的这些领导们来质疑我的时候，谷歌这个高管就直接肯定了，说：“这就对了，你们就只能清理disk，你们就不能清理memory。memory的事情是操作系统的事情，你不应该去做这件事。你就把这个硬盘上的东西清理清理就完了，或者说这个存储介质上东西清理清理。你一旦开始去碰内存了，就相当于是我们介入到了操作系统管理层去了，哎，你不该干这个活。”

讲完了以后呢，我们都是一头冷汗，也是觉得好不容易从鬼门关混出来了。吃完这顿早饭以后，出来这些高管就开始骂呀，说这个谷歌还说不作恶什么，这些东西都是扯淡。他划定这块地方，你就绝对不能碰他，你碰了他，他就甭管你是不是作恶，就直接干掉你。因为当时呢，跟我们同期有另外一个软件是杀病毒的，台湾趋势科技做的一个杀病毒的软件在里头，就被谷歌的高管作为典型跟我们讲。说你看这个台湾趋势科技，做了一个杀病毒的软件在安卓手机上，说这事是不对的。说为什么不对呢？说安卓是没有病毒的，我们已经宣布了安卓没病毒，你怎么可以在我这没有病毒的操作系统上杀病毒呢？最后你还杀出来了，这不扯淡吗？这个是不允许的。所以给了他们很严重的这种处罚。我们如果当时告诉他说“哎我们既清理硬盘也清理内存”的话，估计也是很严重的处罚。我们跟他吃完饭了以后，过几天就去纽交所去敲钟去了。如果当时那问题没回答好的话，这个钟就不用敲了。所以我觉得我那个机灵抖的还是挺好的。

这个也是说，做应用的厂商要各安天命，做自己该做的事情，在人家的规则下去做事情。这个就是未来这些模型厂商给这些做应用的厂商留出来的空间。当然了，中国厂商呢，总是会有一些不太愿意在你框框里头去跳的这些人吧，就是我们总是愿意做一些跳出圈的事情，不太喜欢这种逐渐固化的阶级，我们会再折腾一下。

所以结论就是，GPT-5发布了，确实还是有一些比较强的新特性的，包括统一的模型，自动地去判断怎么去工作，降低了幻觉。新的时代也到来了，这就固化，该选操作系统、选大模型的，你们选那个去，其他人在稳固的平台下，去做我们的应用就完事了。只要我们不去挑战权威，不去挑战规则，在这个规则下也可以挣到钱。这就是一个新的时代。

好，这一期呢就讲到这里。

揭开ChatGPT搜索的真相：一个万圣节的鬼故事还是AI搜索的未来交响曲？从SearchGPT到ChatGPT Search：OpenAI释出的技术原型引领搜索引擎革命还是用户的虚惊一场？

Luke Fan — Sun, 03 Nov 2024 00:39:01 +0000

ChatGPT搜索，OpenAI在万圣节给大家讲的鬼故事。这是一个什么样的情况？大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲ChatGPT搜索。我使用一天以后的感受，以及为什么觉得它是一个万圣节的鬼故事。

11月1号，北京时间0:35，我收到了一封邮件。这个邮件上写了，说我们发布了ChatGPT搜索，这是OpenAI的官方邮件。首先感谢，我去注册了SearchGPT原型候补名单。这个里头大家注意有三个词：第一个是SearchGPT，第二个是原型产品，第三个叫waitlist。他首先感谢了这件事情，说我们很荣幸地宣布，这个ChatGPT搜索发布了，而且向您和所有候补名单上的用户开放访问权限。只要原来申请过的，现在还没有被批准的SearchGPT的候补名单里的这些人，通通都可以访问了。

现在，其实你即使不在候补名单里头，Plus用户和Teams用户都是可以使用的。免费用户可能要稍微等一等，但我不确定免费用户是不是可以在SearchGPT的候补名单里。这个事我不确定，如果是在里边，可能也能够使用。邮件是这么写的。

再往后一句话是，ChatGPT搜索将SearchGPT的最佳功能直接引入了ChatGPT。这句话大家要仔细琢磨一下，是可以通过单击设置开关开始使用。那这个意思就告诉你怎么用这个东西。它等于是插入GPT聊天窗口，最底下有一个设置，或者叫搜索的一个开关，一个小图标，长得像个地球似的。你点一下，它就点亮了，然后就可以进入搜索模式。再点一下，把它关掉，就不进入搜索模式了。

就是用GPT搜，给你瞎编了。现在在网页端、桌面端和移动端都是可以使用的。我也都试验过了。在我的MacOS上的这个ChatGPT的APP，在我的iOS、安卓上的这种APP，包括网页，都是有这个小图标了。移动端呢……

稍微好玩一点。就是一开始，这小图标没出来。你需要跟他聊一会，他发现你问的是一个需要去搜索的问题的时候，他就问你：“咱是不是搜索一下？”你这边同意一下，这东西就出来了。原因也很简单，手机屏幕小，寸土寸金。一开始他就先不给大家显示了。

那么后边鬼故事就要开始了。为什么说这是OpenAI讲的鬼故事呢？大家要注意，ChatGPT跟SearchGPT它不是同一个产品。我们加入的是SearchGPT的这个waitlist，我们没有加入过ChatGPT Search的这个waitlist。所以你看它的邮件里头写的是：“ChatGPT Search将SearchGPT的最佳功能直接引入ChatGPT了。”他也承认这是两个不同的产品。而且，它只是引入了SearchGPT的一部分功能，SearchGPT的功能很多的，他只把其中的很少的一点点带回来了。

这是一个很神奇的事情。而且大家注意，在前面，他讲的是这个：“感谢注册SearchGPT原型候补名单。”这里的还有一个词是什么叫原型？大家要知道，很多汽车厂会喜欢干什么事，发布原型车。他们经常在汽车展览会上发布一些原型车。原型车干嘛使？是展示一下他们的最高工艺和各种先进技术，以及对未来汽车的想象力。这种原型车通常是不卖的。有极个别的情况，原型车实在太受欢迎了，他们也会把原型车上线生产。但是在上线生产那个版本，还是会跟展示的原型车有一些区别的，因为直接生产原型车可能会亏死的。因为原型车通常是不计工本的，也不计算你最后的这种维护或者长期使用的一些情况。它就是属于很炫技的一个产品。

所以有两种可能。第一种可能，这就是个原型车似的东西，大家看过了以后，这个东西就没有了，以后永远不会量产。这是可能的。当然还有一种可能，没准再过个俩月的SearchGPT，它又冒出来了，说：“你看，我们现在把完整功能的SearchGPT拿出来了。”大家要注意，现在还有什么产品是这种。

叫原型产品。我们现在使用的 O1 模型也是原型。过一段时间，完整版的 O1 也会出来。所以我们现在使用的很多东西都不是最终的版本。按照 OpenAI 的调性，我觉得 SearchGPT 这个产品应该没死，过一段时间还会出来。

现在的 AI 搜索其实已经走得很远了，绝对不是现在的 ChatGPT Search 能够达到的高度。现在这些，甭管是 Perplexity 还是国内的很多 AI 搜索工具，他们会对不同的信息进行分类排序，然后再进行推理。这什么意思？其实咱们通俗地讲，这种 AI 搜索是很简单的。你给它一个搜索关键词，它跑到搜索引擎里去搜一把。搜完了以后，拿到前 5 个搜索结果或者前 10 个搜索结果，再跟你的搜索提示词一起，再加上一个大的提示词工程，然后说：“现在请根据这么多的搜索结果，找到与前面搜索关键词或者搜索内容相关的信息，给我写一个小作文出来。”再加上这样的一个提示词，就得到结果了。

像这种东西，我们在 AI agent 的这个模型里都是可以非常轻松搭建的。但是这种搭建完了的内容会有问题。这个问题是在哪？它是眉毛胡子一把抓的，根本不管什么样的内容，它都放在一起。而且搜索引擎的排序，它更多的是按热度、按照大家的点击率、按照时效性来去排的，所以它跟整个内容的质量以及正确与否是没关系的。如果你是拿这样的结果直接去做总结输出，最后的质量就会很差。

那你说我怎么提高质量？你要对输入的内容进行分类。进来的东西，这个是严肃新闻媒体，那个是维基百科，这个是学术期刊，哪些是论坛，哪些是一些社交媒体。他要分开去排序。然后你首先要去确认说，你需要一个严肃的答案，还是需要一个相对专业的答案，还是说更多搞笑的答案。如果你说你需要一个严肃的答案，我就应该把严肃新闻媒体以及这种学术期刊、维基百科排前头，把一些社交媒体或者论坛像 Reddit 这样的东西稍微往后排一排。如果你反过来说，我现在就想逗个乐……

这个内容正确与否无所谓的。那咱就把这排序反过来。你也可以在做提示词工程的时候，要求生成最终的小作文的时候，我们是优先使用哪一部分内容，更重视哪一块，这个都是可以去做的啊。那么如果你不做这些事，最后眉毛胡子一把抓，其实效果是会很差的。

做完了所有的这些数据准备之后，现在这些AI搜索还是会生成一篇，这个不能算叫小作文了，基本上算是个小论文的一个搜索结果。他会啰里八嗦给你写一大堆，甚至是有条有理的给你写一堆，让你觉得他非常专业。而且还有一些深度搜索的功能也上来。

怎么叫深度搜索？比如说你问了一个简单的问题，他首先会对问题进行理解，你到底想问什么。理解了以后，把他理解的问题跟你自己提的问题都去搜。搜完了以后得到一大堆的搜索结果，在对这些搜索结果进行总结归纳以后，再在里边找到新关键词，问你说：“我们是不是要进行下一步的搜索？”甚至有一些深度搜索压根就不问你，他在把第二层的搜索结果生成新的关键词以后再去搜索，最后把所有的结果放在一起，给你总结归纳出一个更长、更丰富的一篇论文出来。

他们是这么来干活的。所以现在的AI搜索其实已经稍微有点跑偏了。怎么叫跑偏？越来越阳春白雪了，跟普通用户的这个使用体验其实越差越远了，因为已经到炫技的状态了。

SearchGPT原来也泄露了一些视频出来，因为也确实是有人在waitlist里头，收到邮件了，进去使用了当时的SearchGPT。就像我刚才讲的这个AI搜索工具似的，功能非常完整，做的也还非常不错。而ChatGPT Search这个原来应该是比较简单的一个功能，其实ChatGPT Search在这一次发布之前，它也一直在陪伴着我们，在跟我们一起工作。在我们使用GPT-4o进行搜索的时候，他也会去引用一些网络原文，也会去放一些结果的出处出来，都会去做。只是现在多了一按钮，你一旦把这个开关打开了以后，你编出来的这个内容。

可能还不如原来不开开关的这个效果。为什么？因为原来那东西靠编，他给你的文章会比较长，也相对来说比较有说服力。而现在，基本上是一句对一句的这样的回复，他给你的内容都很简短。而且从现在的结果来看，它的GPT Search给出的结果，它所选用的内容并没有那么丰富。什么深度搜索这些东西，应该并没有特别认真的去做。为什么这么讲？因为这个里边幻觉还是挺厉害的。待会儿咱们再讲讲幻觉的事情，这个很难避免，特别是像这个ChatGPT Search这样工作的工具，实际上比较难避免幻觉。

那么，我现在使了一整天的ChatGPT Search了，体验如何？我昨天做直播的内容，就是用ChatGPT Search去准备的。说实话，不太好用。这个，他总是给出非常简短的答案，而且不时出现幻觉。出现幻觉的原因其实也很简单。我以前也被坑过，被当时是微软的Copilot去坑。我当时问他，我说跟Ofo的创始人一起在美国开咖啡厅的女士，在瑞幸和星巴克有没有任职过？就给我了一个回复，说有的，他原来是星巴克的哪个高管，瑞幸哪个高管。我就开开心心的把这东西做到我的演讲稿里去，后来在讲之前我还幸亏看了一眼，发现被骗了。

他这种幻觉怎么产生的？就等于是他搜索了一堆结果出来，有一个结果说是这位女士跟Ofo共享单车的创始人一起去开咖啡厅了。再去讲说这个事情对星巴克有什么影响，对瑞幸有什么影响，星巴克的高管对此事发表了什么看法，而瑞幸的高管对此事发表了什么看法。它等于是三篇文章，在你给了他一个问题之后，他就把这三篇文章给你揉一块，他就认为这位女士在星巴克也担任过高管，在瑞幸也担任过高管。这个幻觉好多的时候是这么来的。

现在的ChatGPT Search给出的出处相对来说会比较少。你比如你去用这个Copilot，他会给你非常多的处理。你问他一个问题以后，他会扫描很多东西去进行总结。如果一句话在不同的地方出来，他还会告诉你说……

这句话在哪些网站上都引用了。所以这一块上，我觉得还没有Copilot的好用。为什么会是这样的一个产品？它为什么会做成这样的一个样子呢？原因也很简单，其实它的底层Bing提供了这个基本的功能，微软的Bing搜索。但是OpenAI也自行购买了一些新闻源，一些严肃媒体，他去跟人做了内容合作。但总的来说，它的内容还是少了一些，信息分类、过滤和排序的过程应该做得比较粗糙。而且它的很多文章在进行总结的时候，也不是很准确，更多的是依赖搜索结果，而不是自己生成。

它下头不是有个小开关吗？你到底是ChatGPT Search这个开关开还是关？如果你把它关上，它也不是说就不搜索了，它也搜索，只是更多地依赖生成。如果你的开关打开，它就更多地依赖搜索结果，给你生成简单的一个回复。所以你会感觉到什么？你一旦打开搜索的这个开关，ChatGPT Search给出的答案会比原来的GPT-4显得简短和呆板。这个感觉，就像是被一众安卓手机所围攻的iPhone。为什么这么讲？基本盘基本功能还是相当牢靠的，绣花边的事情基本不屑一顾，iPhone基本上就是这样。很多奇奇怪怪的安卓手机上有的功能都没有，但是它的基本底子特别好。

现在ChatGPT的基本底子也很好，大模型现在应该还是第一梯队吧。虽然不断有评分说Claude怎么超越它了，Gemini怎么超越它了，或者其他人怎么接近或者超越它了，但其实大家使用下来以后会发现，ChatGPT还是最好使的。那么搜索的部分，如果是卷这个搜索流程，其实ChatGPT已经卷不过了。Perplexity做了这么长时间了，国内这么多厂商做了很长时间，把这个搜索整个的AI流程做得非常复杂，或者是在对于用户的体验，特别是很多深层的体验理解得非常透彻。所以在这块儿它卷不过。而且其他的产品狠抓搜索流程梳理，其实的原因是什么？他们自己的大模型不够强，所以我们只能是想办法。

把这个任务分解掉，让每一个小环节尽可能的清晰地完成一项任务。再把所有的任务凑在一起，进行这个大模型输出。是他们的模型弱，只能这么干。还有他们对自己的模型可能并没有那么熟悉，比如说这个perplexity，它后台用的也是GPT的模型，但是它对于GPT模型的各种属性一定是没有OpenAI自己熟悉的。那么到底能干哪些事，不能干哪些事，如何进行稳定的控制与输出，它没有那么大的信心，所以只能是在模型外边去绣花。

还有一点是什么，就是这些AI搜索的公司模型，对于他们来说成本比较贵，所以他们会尽可能的少用，或者尽可能的用小模型去处理一些简单任务，最终用大模型去输出一个结果。像我自己写的很多AI内容生成的这种AI Agent也是这样的，一些简单工作都是用7B或者是十几B的模型去做完了，只有在最后生成结果的时候，会挂上GPT-4o这种比较大的模型去折腾一次。

而OpenAI玩的东西，咱们叫“一白遮百丑”，这个也是比较有意思的。什么意思呢？就是底子好，那些涂涂抹抹的事咱就稍微简单一些，不那么重要了。现在道理是很清晰的，但是未必大家欣赏得来。你像我现在就欣赏不来这个ChatGPT Search，现在反对的声音也不少。

第一个反对ChatGPT Search的是什么？就是准确性和可靠性没有那么好。我自己其实使用的过程中也发现了。第二个内容的质量不是很高，他们买的这种严肃版权还是少。如果你问的问题没有被严肃版权内容命中，他可能真的靠一些比如Bing给的内容，然后由Bing来排序，他直接把最热门的内容拿回来，总结一下就完事了。这个效果和质量就没有那么好控制了。

像这里举一个Google的例子，Google原来做这种AI搜索的时候，就犯过这种问题。他买了Reddit的一大堆数据回来，只要这些数据像就是个论坛里头，各种的对的错的，妖魔鬼怪什么都有。在很多人去问问题的时候。

他就把这些问题，这些论坛上的内容，就作为正确答案扔出来了，让大家异常惊诧。比如说，在食物上涂胶水还可以吃，它就直接作为正常答案扔出来了。

那么，现在OpenAI肯定也会面临同样的问题，而且有很多人觉得搜索的质量堪忧。再往后是版权的问题，你只要是做搜索了，你不可能把所有人的版权都买下来。他买了一些版权，但是还有很多版权他应该是没有买的。大家对版权的情况也是感觉担忧，而且对于原始创作者，肯定也是有巨大的影响的。因为这玩意，如果没有买我的版权，然后又生成了相应的内容出来，那这事怎么办？我原来网站上是有广告的，我还能收点钱，现在这个钱就没挣着。你挣一个月20美金，你也不分给我，这个事大家就会感觉比较担忧了。

而且还有一个问题，就是幻觉比较严重，这个我现在发现是有的。但是反正从外边来报道上来说，它的幻觉还是不少的。这样的一个功能做得一般，它的野心并不小。Perplexity根本就没放在眼里，Perplexity实际上是个小众产品，阳春白雪，真正能用得起这玩意的人是比较少数的。

现在OpenAI还瞄准的是谁？瞄准的是Google的搜索引擎入口。我在开始使用ChatGPT Search之后，它就弹了个窗，弹窗说：“你是不是装一个ChatGPT Search的插件？”那我就装呗，这是从善如流一下。把它装上以后，这个再到Chrome的搜索栏里边去，输入任何信息的时候，一打回车，就是直接走到OpenAI的ChatGPT Search了，对吧？就不再去Google Search了。

在这点上，Google还算是比较高风亮节的。怎么讲？他发现了搜索接口被替代了，上来问我：“你知道吗？你的搜索的接口被替代了，你同意这么干吗？”我说同意，干呗。Google就没再说什么，就直接给替换掉了。我的Chrome现在地址栏上写任何信息，一回车的时候就去OpenAI了，对吧？是这样来工作的。我自己大概是使用了半个小时左右。

就把ChatGPT Search查件给删了。我还是回去用Google搜索了。原因其实也很简单，我还是喜欢看着一大堆的结果，自己一目十行的，把搜索结果稍微过滤一下，再决定点哪个、不点哪个，而不需要让OpenAI让我选择完了以后，直接给我一个它总结出来的结果。

但是我也蛮喜欢用Copilot。Copilot它会搜索很多的东西，它的阅读速度比你快。不像OpenAI似的，好像没出几条，它就直接给你总结出了一个东西，让你去用了，这个质量是堪忧的。

所以最终总结一下，这就是一个万圣节的鬼故事。OpenAI现在面临很多问题，GPT-5难产，Sora也就是它原来号称的视频模型，世界模型也难产。SearchGPT其实也难产了。我们今天拿到的ChatGPT Search，并不是SearchGPT，以后这个产品可能还会出，所以它需要一些声音来粉饰太平。

GPT-01以及ChatGPT Search其实都是类似这种顶缸产品。为什么这么讲？很多人说GPT-01那么厉害，你怎么可能一说它顶缸？对啊，后边还写着“Preview”这个词，这也是个原型产品。那未来还是会出正式版的。你现在既然着急忙慌地把预览版拎出来了，那你说它是顶缸，这就没有冤枉它。

现在对于OpenAI来说，它最大的困扰是什么？一方面是大量的东西难产，而且很多的元老员工离职。咱不是说元老离职了以后，这东西就塌了，也不是说新进来的人就没有元老那帮人厉害。而是什么？元老这些人走了以后，以前他们很多干到一半的事情，你让新人接，他接不上。对，你给这些新人说，我给你些新任务，你从新开始干，他没准接着咔嚓给你做出来了。你说你把原来那个人做的项目继续给我做下去，这个事是很难的。

现在既然新方向没法往前走了，那怎么办？抢流量。所以我们今天看到了ChatGPT Search出了个插件，直接开始跟Google贴脸开大。我上了插件以后，Chrome的默认搜索引擎。

就是我们家OpenAI的ChatGPT Search了。就不再是你们家的Google搜索了。从我的角度上来，感觉有点操之过急了。他完完全全可以等他的这个SearchGPT出来以后，再去做相应的替换，而不是现在就着急忙慌地把它换过来。

OpenAI手里头基于GPT-4或者GPT-4o的各种功能性模型，应该还有一堆。就是像我们现在看到的o1，看到的ChatGPT Search，实际上都属于是基于4或者4o的功能性模型。那么，今年剩下的时间，我们就看OpenAI继续给我们表演机器猫的次元袋就行了。他不停地从这个口袋里再掏出点什么东西来，待会又从口袋里掏出点什么东西来，但是都不会有什么大的变化。

也许在明年的什么时间，现在新交进来的人，就可以替换掉以前的这些元老们所做的这些工作，可以把原来吹过的牛慢慢圆上，或者再给我们一些眼前一亮的东西。好，这就是我们今天的解读。OpenAI的ChatGPT Search，就是万圣节的一个鬼故事。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI推出GPT 4o mini，这是要卷死谁？Sam Altman封禁中国 API IP后放大招，你就给我看这个？中国大模型是不是有机会弯道超车？

老范讲故事 — Tue, 23 Jul 2024 00:48:07 +0000

OpenAI在封禁中国IP访问其API之后，第一个大动作居然是发布了一个GPT4o mini。你发布了个小模型，这究竟是要卷死谁啊？中国团队是不是有机会弯道超车呢？大家好，这里是老范讲故事YouTube频道。Open AI第一次发布微型模型，以前的Open AI都是一个比一个大，因为原来人家讲的叫Scaring Law，就是这种伸缩法则，只要是变大，我一定会变强。而且，也嘲笑那些小模型说你们肯定不行啊，一定是大的好使。我自己原来也是很喜欢使用大模型，有大的不识小的，这是我原来挑选模型时候的基本原则。但是现在，Open AI开始卷小模型了。

Open AI的这个GPT4O mini有什么特点呢？第一个，快啊，小模型一定是比大模型跑得快的。另外，就是极其便宜，它这个里面输入的信息，100万TOKEN，15美分啊，非常非常便宜了。输出的信息呢，是100万TOKEN，60美分，也就相当于是100万4块多人民币啊，已经快要接近国内的这些模型的价格了。效能呢，也应该是比GPT3.5要强一些啊，这是GPT4O MINI的一个基本情况。

那么，这样的一个鼓励越大越好的公司，原来更多的人力肯定是去研究更大的模型去了。现在说不，我要上一个小的，而且这种小模型呢，跟一般的小模型还有区别。区别在于它可以支持Function Call，可以支持视觉多模态的识别。那么，这是GPT4O MINI比其他的普通小模型所独有的特点。

以上就是关于Open AI发布GPT4O mini的全部内容，如果你对这个话题感兴趣，欢迎在评论区留言。我们下期节目再见！

型U的地方，那么MINI到底有多大呢？并没有说。其实啊，大家出的这种小模型，这种必原厂商出的小模型，都是不会对外讲说“我到底有多大”。包括一些开源厂商自己去出的一些啊，闭园小模型，也不会告诉外边到底有多大。比如说吧，灵异万物对吧，他的对外模型是开源的，告诉你这个是6B的，9B的，34B的。但是呢，它自己内部壁源的这些模型，就是你直接通过商业方式去买的啊，它就分什么medium，large，是这样分的啊，你不知道它到底有多大。包括像谷歌啊，Gemini Flash到底有多少个参数，你也不知道。Gemini Pro你也不知道有多少参数啊，cloud三个版本，其实各个参版本有多少参数，都是不说的啊。所以啊，Open AI的GPT4O mini到底有多少个参数，也不知道。现在呢，大家普遍猜测应该是在10币以内，大概也就是7币，也就70亿到100亿之间的参数，应该算是最小一个档次的。

怎么用这个模型呢？免费用户跟plus用户，已经可以跟GPT3.5说再见了。那就是我们现在打开了啊，Open AI的聊天网站之后，能够看到的三个模型：一个叫做GPT4O，一个叫GPT4，一个叫GPT4欧mini。三点五已经彻底成为过去式了。API的用户，你现在依然可以使用3.5，因为这个是不可能马上取消的啊，大家都写在程序里头了啊。模型的名字叫GPT3.5，特本什么什么的叫这样名字，你要说我直接把这个模型关闭了。不过，这通常不会发生，因为很多用户和开发者都依赖于它。

然后，上1GPT 4O mini一下替代掉的话，这事肯定不行对吧？那个程序会报错的。所以啊，GPT4O mini啊，现在已经可以为啊，直接使用Open AI API的这些用户开放了。啊，但是呢，3.5还是可以用的，现在我还没法使啊。为什么呢？因为我没有办法，直接从Open AI去买它的API服务的啊。它会识别出来，我在中国大陆不会为我服务的。所以，我现在的CPT相关的API，是通过扣子或者是一些Open AI代理服务去购买的。但现在，这个上面都没有GPT4O MINI的这个模型。为什么在这样的一个时间点，出了这么一个产品呢？他把中国大陆的API的IP封掉了以后，本来想着，他是不是专心的做个GPT5出来，或者做一点啊，把这个前面吹过的牛稍微能还上一点啊。怎么现在整了那么个小东西出来？

首先，大家要想清楚一个问题啊，Open AI就是行业里边的老大。老大最怕什么啊？老大怕竞争吗？啊，现在没有人跟他竞争啊，谁也竞争不过他。虽然现在号称御三家，就是谷歌、Siropic和Open AI里头，已经可以打个有来有回了。但是，从市场占有啊，从整个技术的程度上来说，Open AI还是绝对领先的。那么，他到底怕什么呢？他害怕的东西叫分叉啊。什么叫分叉呢？就是有很多的人是不会去看别的服务的，也不会去用任何其他的大模型，上来就用Open AI家的啊，其他所有我都不用。那么，这个呢，就属于忠实铁粉。但是一旦分岔了以后，可能会出现一些小的分支，这些分支会逐渐壮大，最终可能会影响到Open AI的市场地位和影响力。为了避免这种情况的发生，Open AI可能会采取一些策略，比如推出GPT4O MINI这样的产品，来吸引更多的用户，保持其在市场上的主导地位。同时，通过限制某些地区的直接访问，Open AI可能也在试图保护其技术和市场，防止技术的过度扩散和滥用。

大家说：“哦，不，我不能只用Open AI的，我所有的都要用一下。我要在不同的场景里头，找到不同合适的模型来使用。这个过程要分叉了，老大最怕的就这件事情。他现在已经看到了有分叉的这种方向了啊，或者说，他现在已经看到了有分叉的趋势了。所以，必须要冲出来说，我要把所有分叉的趋势，掐死在萌芽状态啊。这就是GPT4O MINI发布的一个大的前提。因为GPT4和GPT4欧，包括GPT4 Turbo所有的这些模型呢，它比较贵。越来越多的人呢，就希望转型。像我现在做很多这种AI agent，这种工作流，我会把最费劲的一个点交给GPT去做。对于理解能力，对于推理能力没有那么强的节点，我都尽可能去选择更便宜的，这种大模型来工作，或者更小一点的大模型来工作。这个是经济的考量啊，而且我们发现，在这种稍微小一点的大模型，你让他做简单的工作，效果其实是很好的，并不比GPT4差啊。这个是现在Open AI不能允许的啊，你们就老老实实的，你要想去用这个小模型，我也给你提供上啊。这个是要注意。

而且呢，现在所有在跟Open AI竞争，或者说在Open AI这条道路上，追赶他的这些人呢，目标都很明确。怎么叫目标明确呢？每一个人上来说，我现在都是接近GPT4对吧，没有人超过啊，就很少有人超过，或者可能只是在个别指标上超过。整体超过的，现在还没有，或者说不多吧。但是呢，我们现在甭管国内的大模型，国外的大模型，都在努力地追赶，试图在某些方面超越Open AI，这是一个非常明显的趋势。

都说我现在已经接近GPT4了，然后呢，遥遥领先于GPT3.5。对吧，这也是现在的一个时间点。而且，很多的小模型，甚至是这种70亿、100亿、300亿、几百亿这种模型，都已经超过GPT3.5了。GPT3.5有多少个参数呢？当时是1750亿个参数，这么多的参数，怎么还这么差呢？这么多年了，时代在进步，而且AIGC大模型的发展，真的叫日新月异，每一天每一个小时都在发生变化。

这么长时间过来以后，你用原来这种架构，GPT3.5的这种架构，它确实是效能比较低了。所以现在很多的这种1000亿以内的，700亿的，或者是更小一点的，几百亿的，都可以超过GPT3.5。那么GPT3.5就已经必须退役了。

退役的原因也很简单：第一个，原来GPT3.5一直挂在那，不是说Open AI没有更好的模型给大家用，而是什么呢？他希望让你去买它的Plus，让你说，哎，你看这个实在是难使吧，你直接升级，一个月20美金就可以有GPT4用了。GPT3.5跟GPT4之间，一定要有一个很明显的，个人可以直接感知到的差异，你才会觉得我这20美金一个月花的值，否则的话，你会觉得花的不值了。

但是现在其他的模型都赶上来了，你再继续摆这么一个3.5在这恶心人，就已经不太合适了。另外一个是对于免费用户来说，GPT3.5实在是缺乏吸引力，我不愿意付钱，我可以使用Gemini呀，我可以使用很多的其他免费的这种模型。

这些模型，现在已经完完全全超越三点儿五了。所以，这个也是到了该抛弃三点儿五的时候了。另外呢，很多的API代理也让Open AI非常不爽。像我就是用的API代理啊，API代理呢，像跑冒滴漏。像我现在用Open AI的所有API，价格应该是至少打到4折，或者是还要更低一些的折扣啊。我就可以去使用。

到了那么这些的话，Open AI觉得就算是打折，也应该从我这打啊。凭什么你就去打折了啊？这个他是不开心的。而且他现在降到这样的一个程度，为什么这些API代理没有跟进呢？他没利润啊，这些啊，也是会对他们造成一定的影响和损失。

另外，也要开始应对中国了。Open AI肯定发现，封堵了中国IP的API调用之后，Open AI调用数据一定是在暴跌的啊。这个肯定也不是他们希望看到的。

现在我们要讲一下田忌赛马的故事。田忌赛马是什么？就是用我最好的马，对应你这个中间的马啊，用我中马对应你的下马啊。你最上面那个你赢一场算了，剩下的我赢两场。在大模型这个行业里头，其实也是如此的。大家呢会分成不同的层次去竞争，端侧的竞争，就是说我们甭管在手机端、PC端还是各种的啊，设备端吧。那么现在大家在争的是什么？Open AI基本上是不参加端侧竞争的啊。哪怕它是GPT4OMINI，到目前为止，也没有说，这个产品可以给大家在端上使用啊。当然你说，未来会不会把这东西拿到端上来使用？不确定啊。但是至少现在没有说这个事儿。

呃，它这个大家猜测在10B以内，可能7B到8B这样的一个水平上。按道理说，是在手机上可以运行的。对吧，可以在iPhone里头跑。那么是不是说，呃，跟苹果合作了，我干脆就把这东西呃，拿出来就给大家用了。是不是他给了苹果一个类似于一个GPT4OMINI的版本，但是苹果你不允许拿出去再扩散了啊。但是在iOS 18里边，应该会带这样的一个东西，可能性是存在的啊。啊，但是这个事谁都没说。

在端侧竞争上，一般移动端呢，5B以内的跑的是比较好的啊。你如果手机的配置高一些，跑到7B到9B应该也还是能跑的。台式机呢，你到10B左右啊，都是没有什么问题的。包括我们后边讲的这些AIPC，其实AIPC是所有能够跑大模型的台式机里头，水平比较烂的啊。那么工作站呢，就是我们比较高端的台式机，比如说你这里头有独立显卡啊，4090，然后不是4090，你有个四零六零，四零七零那样的独立显卡，或者比如说像我们使用麦克这种呃，M1，M2 Max，或者M3 Max这样的这种机器的啊，那么它就基本上属于工作站级别了。这种机器里头呢，大概跑到三十几B都是可以跑通的啊。再大了跑不动了。

然后像这种个人服务器上，是可以跑到70B的。咱们现在能够接触到的开源大模型，可以到本地跑的，基本上也就是70B，72B到头了。再大一点呢，啊，通1,000问1.5的时候出过一个110B啊，但是那个模型流行的并不是很广泛。

绝大部分都是在七十几币就到头了。这个呢，就是在思域服务器上用的。而且，在70B这个档次上，现在Open AI肯定是感受到压力了。中国团队基本上在70B这个档次上，站稳脚跟了。咱们国内推的各种各样的大模型，基本上都是70B上下的。为什么？因为懒。Meta的LaMa3就是70B的。我们在这个基础上再去进行调整，或者再去进行一些相应的训练吧。我们出到72B，或者七十几B这样的一个模型，效果其实已经很好了。加上RAG，就是本地知识库的这种辅助，加上长上下文，再加上多模态搜索的辅助，效果其实跟GPT-4之间，已经没有那么差了。对吧，GPT-4就是说你不加上这些东西，它也可以回答的很好啊。你如果是加上这些，搜索辅助啊什么的，70B基本上够使。

对于快速反应的这种低价模型来说，大家竞争的是什么？刚才咱们讲的是端侧模型啊。在云端模型其实也是分两拨的。一拨呢，就是大模型啊。大模型是，GPT啊，Gemini Pro这个，呃，Cloud Opus啊，这些就属于大模型啊，比较贵，性能比较高。那么大家都去推这种小模型，特别是另外两家。刚才预三家我们讲了啊，Open AI，谷歌和Anthropic。谷歌跟Anthropic都推了一种小模型，一个叫Gemini Flash，另外一个呢，叫做Cloud Haiku，叫这样的一个名字，都是相对比较小的，很便宜，反应速度很快。原来啊，GPT3，GPT是没有的，现在出来就是要去卷它们。大模型竞争。

咱们自己去比一比啊。这个小模型，你们出了，我也得出一个。所以，咱们回答开题的那个问题：“Open AI到底想卷死谁啊？”他想卷死的是Gemini 1.5、Flash和Cloud 3，嗨酷啊。是选这两个产品，但是要注意啊，Cloud 3.5现在已经出来了。但是3.5呢，只出了Sonit一个产品啊。它是分三个档次的，这种大模型啊。一个叫做High酷，是最小的，估计应该是10亿币以内，也就是7亿左右的一个模型。然后是Sonit啊，3.5已经到Sonit，它呢应该是在二三十亿币。但是都不是对外公开的啊。还有一个叫Opus啊，Opus是最大的，但是Opus到底有多大，可能是上百亿币的一个模型对吧。现在呢，3.5已经把中间这个模型出来了，上下两个还没出，估计呢应该本月会出。

所以在这个时候啊，Open AI说不行，我要把你这个底层的，这个给你封掉啊，让大家觉得啊，就算是用这种底层的小模型啊，这个也有一个更便宜的Open AI来用啊。这是他真正要去干的事情。那么对于开源模型来说的话啊，就是本地部署这个呢，Open AI应该不在这个赛道上啊。它有可能说，我用一些必源的模型，直接跟苹果，跟谁去合作，这个事可能是存在的。但是呢，他不会说我到GitHub上，到HuggingFace上，直接把这个GPT40 mini扔出来啊。应该不会干这个事情。

那么对于中国团队来说，到底有没有弯道超车的机会？这是一个值得探讨的问题。

这也是我们开题上的一个问题，对吧？“卷”就一个字，在这个字上呢，中国团队绝对是遥遥领先的。中国现在已经开始卷下一个层次了啊，在上一个层次里头，中国团队发现：哎，我只要把模型推到七十几，对吧，加上搜索辅助，加上reg，加上这个啊，长上下文，效果已经非常好了，对吧，不需要再往前推进了啊。真的效果非常好了吗？很多人说你是不是吹牛啊。他这个事是这么算，就是再有相差的这部分，个人感觉不出来，因为人的感受有时候很主观的啊。你不可能说：哎，我去招聘了，对吧，我一定要挑出最好的那一个来，不可能的。你一定是找了一个相对顺眼的，然后磨合了一段时间，发现：哎，这个工作还能干得下去，日子也能过得下去啊，也不讨厌，你就可能一直用这个人用下去。你不可能说：哎，旁边这个人，好像比我招的这小伙子，还要更厉害一点，对吧，我就马上把我这开了，把那个人招回来，不会干这个事了。在这样的一个情况下啊，我们只要用习惯了，慢慢的对于我们已经招聘进来的人，就会有更高的容忍度。为什么要讲招聘的故事呢？其实我们使用大模型的过程，跟招聘的过程差不多。在挑选的时候，我们一定是非常小心的，来去确定到底哪一个适合我们，我们的这个任务，它是不是可以很好的完成。一旦你把它挑进来了，下一件事是什么？就是我们要去跟他磨合，怎么能够跟这个大模型一起，把我们要做的事情做完。当大家互相习惯了以后的话，你不会说：哎，那个更好，我马上换人的。一个大模型，它是有很高的粘度的。

所以，中国团队在70亿参数这一块，基本上已经达到了一个阶段，我们可以说，我们已经能够吸引一部分用户，而且这部分用户愿意留下来，持续使用我们的产品。再往前推进，当你提到我现在发布的几千亿参数的模型，也就是几百亿参数的这类模型时，第一个问题在于训练上，我们可能还没有完全搞明白，应该如何应对这个挑战，因为目前开源出来的就是70亿参数的模型，再大的版本现在还没有开源，所以这件事情还搞不定。

那么再往上，你说我们闭着眼睛去研究一下行不行？也不行，为什么呢？因为越大的模型，你训练的成本就越高，而且越难去控制。在这种情况下，我们可以说，我们就停在这了。那么停在这，中国团队现在在干嘛呢？他们搞APP开发，搞各种接触用户的方式，我们现在要去获取所有用户，这是我们已经开始卷的东西，Open AI还没卷到这呢，我们其实已经开始弯道超车了。

你说Open AI不是也有APP吗？它有安卓APP，有iOS APP，甚至最近还开始出Mac APP。但是你要想清楚，中国人做的是什么呢？聊天、搜索、绘图、情感陪伴，都整合在了一个APP里头。而且，我们的APP是Windows、Mac、安卓、iOS全都有。你说Open AI自己为什么不做一个Windows APP？亲爹不让啊，谁是亲爹？微软。微软说这个事情打住，我在那边玩Copilot，你自己不要来找这个事情，你到Mac那边去玩耍就可以了。有什么问题，去霍霍苹果，不要来霍霍我，这个他就没法整。而在中国，你看看啊，豆包，所有的平台，都在积极地推进和用户接触的策略。

Windows、Mac、iOS、安卓，全都出齐了。而且，它还把所有的功能都集齐了。像Open AI做的Mac版的APP，只能干嘛呢？就是回答问题。也就是说，你可以听话，可以去语音识别，他就干这些事情就完事了。中国的就什么都可以干啊。你让他去唱歌跳舞，让他去画图，让他去做图像识别，包括各种的角色扮演，就是Carrot AI做的那些事情啊，咱们也都可以搞定。只要是外边有的，只有咱想不到，没有咱做不了的啊。这一块还是非常好用的啊。我现在用的量很大的就是豆包APP啊，非常好使。然后另外一块我们再卷的是什么呢？啊，Chrome的这个插件啊，就是在浏览器上做插件。因为现在的浏览器，基本上都是Chrome的内核啊，甭管是Chrome的啊，还是这个微软的Edge，底层都是Chrome啊。所以我们现在在上面做插件，甭管是Kimi还是豆包，都在上面卷插件。而且那个插件的功能，那全的是一塌糊涂。你一旦在浏览器上装了豆包插件了，然后你去用谷歌搜索豆包，就在侧边栏开始对搜索结果进行总结。你说哎我现在去看一下YouTube，马上旁边就开始给你做，我给你做个视频总结吧啊。甚至说你在这看YouTube的时候，他说我给你翻译个字幕吧。或者我随时在浏览器里头，选中一个单词，选中一句话，他说我帮你翻译一下吧。或者说你在浏览器里头有一个空格啊，或者叫有一个输入框，需要你输入信息的时候，他马上跳出来想输入点什么，我帮你润色一下。

要不要从上到下，事无巨细，只要他能粘手的地方，全都给你冲上来？说来，我在这呢，让我看点什么吧。或者说你现在浏览一个网页，说帮我总结一下。那这是人家的本行，干的甭提多好了。这一块，中国已经彻底卷风了啊。那你说美国人不做这种浏览器插件吗？也做，但是呢，美国人做都是小团队或者个人做。那你跟像豆包这种，可能后边有好几十人，上百人的团队，大家领着薪水，加着班，然后疯狂的往前卷。这事谁卷谁啊？对吧，你肯定卷不过他。现在在接触用户这角度上说，甭管是做APP，做浏览器插件，这啊，中国团队已经弯道超车了啊啊。

至于说Open AI，现在再去推出的GPT4 Omni，实际上它已经是在追赶其他人，但不是追赶我们啊。它在追赶的是谷歌的Gemini Flash和Anceropic的啊，CloudHi苦啊，在追赶这两个产品，希望把他们卷死。我们现在已经在另外一个层次上，在卷了，等他们把这仗打完了以后，发现哎，这个用户都已经被中国团队卷干净了啊。可能会出现这样的情况。

好啊，这个故事就跟大家今天讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣，有能力的朋友加入我们的付费频道。再见。