GPT-5 发布!是革命还是挤牙膏?深度解读AI竞争新格局!AI价格屠夫来了!开发者和创业者的黄金时代开启?
8 月 12
AIGC AGI, AI人格, AI创业, AI生态, AI竞争, Anthropic Claude, API价格, ARC-AGI测试, Gemini 2.5 Pro, GPT-5, Grok-4, Meta, OpenAI, Plus用户, Pro用户, Sam Altman, Thinking模式, XAI, 上下文窗口, 中国AI公司, 人工智能, 代码生成, 价格战, 免费用户, 划时代革命, 各安天命, 哀鸿一片, 商业模式, 多模态, 大语言模型, 开发者, 微软, 抄后路, 投名状, 挤牙膏, 用户体验, 科技评论, 统一模型, 老范讲故事, 行业分析, 谷歌, 跑分对比, 阶级固化, 降低幻觉, 马斯克 GPT-5 发布!是革命还是挤牙膏?深度解读AI竞争新格局!AI价格屠夫来了!开发者和创业者的黄金时代开启?已关闭评论
大家好,
欢迎收听老范讲故事的YouTube频道。
今天咱们来讲一讲GPT-5发布了,到底是又一次划时代的革命,还是开始挤牙膏了呢?
8月8号凌晨开的发布会,我呢看了一眼就去睡觉了,实在是没有功夫把它都看完。北京时间凌晨1点开始发,我今天看了一下回放,大概是一个小时十几分钟吧,但是我并没有特别耐心地把它们都看完。
GPT-5到底有什么不一样的呢?
首先,这一次的发布会跟OpenAI以前的发布会,有一些巨大的差异。第一点大家有没有注意到,就是这次发布以后呢,没有出现服务器拥挤宕机的情况。以前甭管是Sora呀,还是GPT-4o这些产品发布的时候,紧随而来的都是OpenAI的服务器拥堵宕机。这次没有,第一时间就可用,免费版也可以使用,速度还挺快的。我自己反而感觉速度还可以,应该呢是进行了一些实时的算力分配,简单的问题就没必要消耗那么多的算力。原来呢,大家都是要尽可能用最大的模型,你哪怕问一个“你好,今天天气不错”,他也得把那个最大的模型跑起来。现在的话应该就不需要干这个事了,他发现你去问“你好,你是谁,你到底是哪个版本”的时候,他可能做一些很简单的回复,消耗的算力就比较小。这是第一个比较大的差异。
第二个比较大的差异是什么呢?这一次没有哀嚎一片。原来OpenAI每次开发布会以后,通常都是哀嚎一片:“完了,我们创业白创了,做的事情被OpenAI覆盖了,创业公司天塌了。”这次还好。那这个是不是代表着OpenAI就开始挤牙膏了呢?还是说恰恰是一个新时代的开始呢?服务器也没崩,说明他肯定是有一些算法的优化在里头,但是是不是大家也没什么兴趣?另外一方面,没有哀嚎一片,是不是他也没做出什么东西来呢?咱们要去看一看这个问题。
除了GPT-5发布之外,还有一个很重要的新闻是什么?说马斯克在那说风凉话,有人在那尬吹,有人在那开骂了。跑分呢,其实是必不可少的。GPT-5这样的东西出来以后,必然要跑分,但是现在大家对于跑分也没有那么重视了,因为跑分好的这个模型其实未必好使。在这个里头有两项跑分呢,没有跑过Grok-4,就是马斯克自己的模型。马斯克就出来发了一个X,说“Grok-4 Beats GPT-5 on ARC-AGI”,在这个测试里头我们把它打败了。
ARC-AGI是一个什么样的测试呢?它呢是常识推理和复杂问题解决能力的一个测试。模型呢找到类似于大学入学考试难度的问题,让AI在有限信息里头进行推理,得出答案。就是做这个测试的时候呢,是不可以联网的,不可以调用工具,必须是使用模型本身的能力去做测试。它呢偏向于测模型的思考能力,而不是背诵搜索信息的本事,对于AI的生成推理挑战更高一点点。在这个里头呢,GPT-5是怎么输给Grok-4的呢?GPT-5呢使用的是GPT-5 BASE模型,它的正确率是9.9%,而Grok-4呢使用的是Grok-4 thinking模型,就是思考模型,它的正确率呢是15.9%,足足高了6个百分点。
但是大家注意了没有,这里头好像有些细节不对。GPT-5使用的是base基础模型,而Grok-4呢使用的是思考模型,thinking模型。那你说如果GPT-5使用thinking模型,或者是thinking Pro的这个模式,是不是能够反超呢?这个不知道。为什么呢?thinking模式肯定要比这个base模式消耗更多的算力和TOKEN,它有更高的正确率,它是合理的。马斯克是不是作弊了?也不能这么算。为什么呢?因为他这个测试的要求呢,是不可以调用外部工具,要依赖自身的能力完成测试。对于是不是要使用thinking模式,或者是不是要进行多步推导呢,这个测试本身并没有要求。你愿意一步到位,还是愿意多步思考,这些都没毛病。那你说是不是GPT-5高风亮节一下,我就测一下base模式一步生成?也没那么夸张。这个原因其实挺简单的:GPT-5的thinking模式和thinking Pro的这个模式,默认是要调用外部工具解决问题的,关不掉。所以它只能用base模式来参加这个测试,如果用了thinking,你就调用外部工具就作弊了。Grok-4呢,它是可以在不调用外部工具的情况下进行推理的,所以呢Grok-4它也没有作弊。但是要注意一点,你不调用工具直接去thinking,直接去进行推理的话,在现实工作中意义不是很大,就是我们完全靠模型自己的能力去推理,现实工作中一般不干这个事。
那么这是一项。另外一项Grok-4比GPT-5高的测试是“最终人类测试”。在这个里头呢,GPT-5 Pro,也就是最强的这个版本,答对了42%的题目;而Grok-4 heavy,也是最强的版本,答对了44.4%的这种题目。这个呢就没什么好说的,火力全开,都是用的最大的模型,工具链武装到牙齿,不计成本的情况下,Grok-4呢还是要稍微高出一点点,高2.4%的一个这样的一个比例。所以呢,在一些特别难的情况下,或者说进行深度思考的时候,Grok-4做的还不错。
那GPT-5到底更新了点什么东西呢?
第一个,统一大模型,不再需要选来选去的了。原来我们需要选GPT-4、GPT-4o、GPT-3…一大堆的东西我们要选,选完了以后还要进去选,说你是给我画画,你还是给我做其他事情,你要去选半天。现在呢就不需要了,你从统一入口就进来就可以了。当然了,它可以选择GPT-5和GPT-5 thinking,或者是GPT-5 thinking Pro。当然Pro呢,你必须要200美金的账号才可以选。但是你说,哎,我就选GPT-5了,我也没有去点击thinking,没有强制他使用thinking,这个没问题,该思考的时候他就会进入思考模式。而且呢,他发现你在跟GPT-5聊天的时候,进入思考模式是不计次数的。不计次数什么意思?待会收费的时候去详细讲这个东西。Pro版本,你没有200美金的这个账号,你就别用了,跟我这种Plus用户关系不大。通过API调用的时候呢,并没有一个模型叫Pro,通过API调用的时候就是GPT-5、GPT-5 mini、GPT-5 Nano这样的几个模型,然后自己选择消耗多少thinking的TOKEN就可以了。你进去的时候,你去选说我现在是深度思考一下,还是简单想一想,还是说拍脑袋就来,你自己去设计好。
GPT-5的上下文是256K,比Gemini还是短。Gemini 2.5 Pro的上下文是一兆,就是100万TOKEN,要比它大四倍,还是很强的。但是呢,也别羡慕这东西。当你向GPT里头去输上下文的时候,少于200K是一个价格,超过200K是另外一个价格,输的多以后要单独加钱的。
现在呢,GPT-5也不再区分各种功能、工具、任务,都不再管了。虽然有选择的地方,你还可以选说我现在是不是到canvas里头去做一些后期的编辑,还是说给我画画。但是呢,如果在聊天上下文里头,你直接告诉他“给我画画去,给我去做什么编辑”,它就直接过去了,你不需要再单独靠菜单去选择这个事情。
生成代码极其强大。这个事呢怎么说呢,我今天试了试,我觉得它生成代码还是有待提高的,特别是有的时候代码的格式、缩进什么的还有点小错误。现在呢,Anthropic的Claude一直是程序员最爱的模型。这里的话,OpenAI也做了一个很骚的操作,他呢把Cursor的CEO拎来了,说:“来,你给我演示一下GPT-5很强大。”这小伙子坐在那演示,说这个绝对是太强了。Cursor原来里边主流的模型就是Anthropic。为什么他跑来给OpenAI站台呢?因为最近Cursor跟Anthropic闹得不是特别开心。两个Anthropic Claude code的核心开发离职加入了Cursor,但是呢只在Cursor干了两个礼拜以后呢,又回Anthropic继续去开发这个Claude code去了。反正这种事搁谁身上谁都不会太爽。现在呢一群的程序员都在测试GPT-5的编程能力到底怎么样,这个效果呢还可以,但是我个人感觉距离Claude 4 sonnet还是稍微有一点点小差距,有待提高。
继续往前发展呢,跑分其实已经意义不是很大了。因为很多考试成绩很好的人,未必能够干的好活,更别说招人喜欢了。有一些人就是特别会考试,但是呢你跟谁聊天,跟谁去合作,大家都烦他,这种人是存在的。Anthropic的CEO曾经在很多个场合强调过一个事儿,说人们倾向于使用某个AI,不仅仅是因为其性能指标,而是因为其人格和性格特质。他认为AI的人格特质直接影响用户使用的体验和信任感。这个我是比较认可的,就很多人喜欢使用Claude,还是说Claude的整个的人格是比较讨喜的。
现在呢,GPT-5说:“我们也改进这件事吧。”原来呢GPT-4o的时候呢,会有这种讨喜型人格上来去夸你。现在说我们把这事改掉了,已经没这事了。现在呢是推了五个人格,你可以在五个人格里自己选。第一个是默认人格,上来你不用改它,叫“乐观灵活”,这是它的特性。第二个叫“挑剔者人格”,犀利毒舌,就经常骂你这种。第三个呢是“机械人格”,就是高效直言,上来以后有话我就直说了。还有“倾听者人格”,善解人意,如果有人需要诉说一下,你改成倾听者人格。还有一个叫“技术宅人格”,就特别热情,而且呢喜欢去刨根问底。这个人格还可以有一些更复杂的选择,它有一些属性你可以去选择去,包括:健谈、诙谐、直言不讳、鼓励性、z时代、传统型、前瞻型、思维有主见、谦虚、俏皮、直接、务实、企业、打破常规、同理心。你说上面这个5个不能满足我要求,你可以在下边挑一个自己最喜欢的。当然还有一些特殊的信息,你可以直接在里头写,比如说我这个人喜欢什么东西,不喜欢什么东西,下次他再跟你聊天的时候,会注意这些事情。这个是我觉得GPT-5一个比较大的提升吧。
另外一个比较重要的提升是什么呢?就是极大的降低了幻觉。AI哈,一本正经地胡说八道,就是他们最擅长做的事情。但是现在的话,GPT-5说我们已经把幻觉降低了30%-40%。所以呢,现在GPT-5的各种答案相对来说是比较靠谱了。我原来集中在使用Claude 3模型,觉得已经是比较靠谱了,至少比国内能够拿到的模型,或者像Grok、Gemini 2.5 Pro,比这些模型还是要靠谱一些的。那么现在的话,它在Claude 3的基础上再降低幻觉30%-40%,那我觉得这个已经是可以去做一些严肃的工作了,包括医疗健康,还有法律相关的工作,拿它去上手已经没毛病了。
然后安全上面呢,还是很严格的。这个是我不太喜欢OpenAI的一点,就是它道德制高点,我该干什么,不该干什么来它决定,这个事我是不喜欢的。这一次呢稍微做了一些变通吧,就是说原来你触碰红线呢,就直接告诉你说“对不起”,停止工作了。现在呢你触碰了红线以后呢,他还会尽量说点什么,不是直接就应声地给你停掉了,“我绕一下看看,我能够给你回答点什么,过线那部分我就不说了”。但是在这点上呢,我是站Grok这边的,Grok基本上还是百无禁忌的。
那么下边呢,谁能用?多少钱能用?我现在在网页上已经能用了。在这个网页端,现在我们已经不可以再去选择GPT-4、GPT-4o什么Claude 3都没有了,现在就三模型了:一个是GPT-5,一个叫GPT-5 think,还有一个叫Pro。Pro就是你点击了以后,就找你要200美金去了。大概就这三个模型可以选了,其他模型都直接隐藏掉了。这个是我现在的一个状态。
现在呢,免费用户也可以直接用,5个小时可以问10条,超过了以后就降级到GPT-5 MINI,这个比较小的模型去了。他们每天还可以用一条thinking,每天有一个额度。但是要注意,当我们使用GPT-5模型问了一些问题,GPT-5自己认为需要去推理的时候,这个时候是不占这条thinking的这个指标的。所以呢,我们在跟GPT-5沟通的时候,要更努力地去把这个问题提清楚,让他不要占我的指标,直接把该思考的问题给我思考清楚。大家需要技巧一点。当然了他设置这种技巧也是不怕大家去薅羊毛的。为什么呢?就是胡乱地去问一些简单问题,其实对于OpenAI来说是一个很重的负担。但是你说我每一个问题都三思而后行,想了半天再往里提,哪怕他thinking了一下的话,对于他来说这个负担都还是可以承受的。
那Plus用户,像我这样的用户呢,每三个小时呢可以使用GPT-5 50次,超过的部分就退回到GPT-5 MINI了。thinking模式呢是每周200条,估计基本上也够我使了。Pro用户,就是200美金用户,基本上就都可以用了,专门有一个Pro的模型是给它用的,其他的呢基本上是没限制。
但是呢,在这里要跟大家讨论一个问题,就是对于Pro用户来说,这200美金到底买的是什么?难道Pro用户的消耗量真的是Plus用户的10倍吗?不是这样的哈。山姆·奥特曼曾经自己发过X去抱怨过这个事。他抱怨什么呀?Pro订阅让他们亏了好多钱。为什么呢?这个原因很简单,你一旦花了这个200美金以后,你就肯定说:“我不能让他闲着,我一定让他干起来。”就跟原来甲方乙方的电影似的,大骡子大马们得让它活动起来,不能让它闲着。山姆·奥特曼自己写了两条推,一条呢叫做:“疯狂的事,我们目前的OpenAI专业版订阅上亏损了,人们使用它的频率比我们预期的要高很多。”另外一条说:“我亲自定了价格,还以为我们能挣点钱呢,最后发现亏钱了。”
这两句话呢,其实告诉我们一个什么?就是200美元这个价格,并不是一个经过财务人员精确计算出来的,而是山姆·奥特曼拍脑袋拍出来的一个价格。Xai也有这样的一个套餐,叫superGrok heavy,300美元一个月。Anthropic呢,有一个套餐叫Anthropic Max,是100美金到200美金的一个月。因为我没有用过Grok的套餐,所以它这个为什么是100美金到200美金,我不是特别了解。谷歌AI的Ultra也有一个套餐,基本上250美金一个月吧。大家到底为什么要去设这样的一个套餐出来?真的是说有大量的TOKEN需要消耗,有大量的算力需要消耗,我需要回点血吗?其实压根不是那么回事。
大家注意,免费版是没有忠诚度的,我今天用你两天,明天用他几天,这都没有忠诚度。Plus版本呢其实还是可以朝三暮四,我买两三个都还是承担得起的。但是Pro、heavy、Max、Ultra这样的版本,你一旦买了200美金、300美金、250美金这种,买了你就一心一意地用吧。所以呢,大家去买这种Pro版本的,其实买的东西是一个叫“投名状”的东西,就是我把我的这个身家性命交给你了,以后我就在你家老老实实干下去了。他要求的是用户去交这个投名状,而不是说真的拿200美金就可以cover成本了,这是200美金的这种套餐设立的一个目的。
再往后讲呢,你说今天他亏了,难道一直亏下去吗?也不至于。因为TOKEN的成本呢,是在快速下降。20美金、200美金都是一种用户绑定的手段。现在亏钱,以后是不是能挣回来呢?未必,以后也未必能挣得回来。那为什么呢?TOKEN成本下降的是一个速度,但是呢我们通过使用agent,通过使用工具,也在快速提升TOKEN消耗量的速度。到底哪个更快?现在不知道。可能TOKEN现在价格是原来的1/10了,但是呢我们现在使用的TOKEN量是原来的100倍,至少最近这一两年吧,是这样的一个变化趋势。过一段时间以后,是不是TOKEN成本下降的这个速度可以追上TOKEN消耗量上升的速度?有这个可能,但是市场目前还没看到。
那咱们再讲一讲API的价格。GPT-5的API价格是极具竞争力和压迫感的。GPT-5 BASE模型,基础模型,100万TOKEN的输入输出分别是1.25刀和10刀。输入100万TOKEN是1.25刀,输出100万TOKEN是10刀。这个其实已经很便宜了。它的MINI模型,就是比它要稍微小一点的模型呢,基本上就是在前面那个数字上除5,0.25刀和两刀的这个输入和输出。Nano模型,就更小的模型就是,在MINI的基础上再除5,就是这样来的。就这种东西都是拍脑袋拍出来的,千万不要认为说这个数是很详细的计算出来的,真计算出来那个数不会这么有竞争力。
为什么说它有竞争力呢?Gemini 2.5 Pro的这个价格,我们去比较一下。Gemini 2.5 Pro的价格,200K以下的,输入是1.25刀,输出是10刀。这个呢跟GPT-5基本上是一样的,GPT-5基本上是照着谷歌的Gemini 2.5 Pro去定的这个价格。但是如果我输入的TOKEN超过200K了,输入是2.5刀,输出是15刀,它就会有一个上浮了。Gemini 2.5是有Pro版本、Flash版本,还有一个叫Flashlight的版本,所以它整个的定位跟GPT-5基本上是一致的。它的Flash版本和Flashlight版本呢,都要比GPT-5相应的版本,比如mini版和Nano版,要稍微贵那么一点点。具体钱就不跟大家念了,基本上是稍微贵一点点。Grok-4,就是XAI的呢,只有一个版本,输入3刀,输出15刀。这个明显要贵很多,它要比GPT-5和Gemini 2.5 Pro都要贵。所以呢,Grok-4刚出来的时候,我用了一段时间,一个礼拜吧,然后就都改成Gemini 2.5了。
另外的Anthropic的Claude,它的价格是什么样的呢?它最大的模型,输入15刀,输出75刀,基本上是没有竞争力的,太贵了。Sonnet输入3刀,输出15刀,又是一个田忌赛马的故事。其实我们平时用的最多的模型就是Sonnet,效果已经很不错了。但是呢,现在的GPT-5,1.25刀嘛,它这是三刀嘛,所以还是要便宜很多的。原来你使用Claude 4 Sonnet,现在咱们就使用GPT-5就可以了。所以GPT-5的价格是极具竞争力和压迫感的。
AI竞争的格局呢,也开始向新的方向去进发了。第一个,谷歌Gemini 3应该已经不远了。虽然没有明说,但是呢普遍猜测今年年底我们是应该可以看到Gemini 3的。现在呢,谷歌已经进入下一个竞争阶段,谷歌跟OpenAI开始去抢别的东西了,抢什么呢?开始抢终端用户了。怎么去抢终端用户?免费用户就可以去使用Gemini 2.5 Pro了。他现在也在努力地把谷歌的Gmail用户,他的Workspace用户,向他的Gemini Pro版本去进行转化。而像OpenAI,他也是说GPT-5出来了,你们这些免费用户就可以用了,我一定要把我最好的一面展示给你,万一有一点转化率,说我今天想去充钱了呢。
马斯克的XAI呢,应该已经感受到压力了。在Grok的模型能力上,其实还是有一点点小差距的。Grok-4在进行复杂运算的时候还是很能打的,但是呢在综合能力上和用户体验上还有待提升。Grok我觉得最大的优势是百无禁忌,这块是我最喜欢他的点。用户体验上,马斯克到底是不是要继续往前跑?现在呢还没有看出苗头来。因为现在的Grok的客户端,Grok的各种功能,比OpenAI也好,比这个Gemini也好,差的还是比较远的。而这一块的话,不是靠天才可以搞定的,这一块是需要靠堆人才能追的平的。你需要很多的人,OpenAI现在的总人数已经超过了XAI的总人数,即使是XAI跟X合并了以后的总人数,OpenAI也是人更多一些。XAI现在大概是1200人,OpenAI 7月份的人数的话,现在有两个猜测,因为没上市嘛,非上市公司,它的很多的数据就靠大家猜。一个呢是SEO.AI他们猜的,OpenAI现在有2659个人,就基本上是XAI的一倍多一些。另外一个呢叫LeadIQ,他们猜呢,OpenAI现在应该有6400人。那差为什么差这么多?因为有一些可能是contractor或者是一些派遣员工,或者是其他的这种合同制员工吧,所以可能会有一些差距。但甭管是哪个数吧,都差好几倍。另外一些竞争对手,比如说谷歌、微软,那你这俩公司就别跟他们比了吧,谷歌18.7万人,微软22.8万人,你说你跟他们比什么劲。但是后边说我们现在开始进行终端竞争了,要去打造一个用户体验非常好的生产环境了,你就需要堆人。马斯克可能未来需要堆人把这个事情搞定。所以下面呢,要去进行这个终端用户争夺,你到现在为止,Grok-4我还没有在平台上用过,我只用过API。为什么呢?因为像我这种8美金的X用户,他不给我用,必须要去买30美金的超级Grok用户,他才让你去用Grok-4。到目前为止,马斯克还没有把这个弯子转过来,所以他还没有进入到终端用户争夺的这个战场上去,已经落后半步了。
另外一个落后的可能比较远的是谁?就Anthropic。为什么呢?从资本到算力上,它都相对来说比较受限,所以在价格上就能体现得出来,它所有的这个API的价格它最贵,而且贵的不是一星半点。最后要打价格战的时候,刺刀见红拼不过前面那几个。马斯克虽然现在争夺终端用户他抢不过OpenAI、抢不过微软、抢不过谷歌,但是他至少手里还有一个X,X上还有一堆用户呢,这是他的天然基本盘。而且马斯克别的不行,募资很强,他募了一堆钱切着咔嚓买显卡,把它堆起来去堆算力这事,它是很强的。Anthropic融的钱本身就不是那么多,虽然它的两个大股东一个叫亚马逊一个叫谷歌,说“哎我这有算力你来使吧”,但是呢你真的要真刀真枪的去跟别人拼的话,还是不行。但我估计后边会比较麻烦,虽然他们家的模型我也很喜欢,但是从商业角度上来说他们是很麻烦的。现在有传闻苹果要收购他们,但是我其实不太相信,因为苹果呢不太做这种特别大规模的收购,这么高的价格去收购的话,不是厨子这种守城之君可以做出来的决定。如果他真能做出这种决定来,当时他就把车造出来了,而不是说抠搜抠抠搜搜,最后整个Vision Pro出来,这个我估计他搞不定。
然后Meta呢,等着看他们一鸣惊人吧。挖了这么多人回来,超级团队,后边可能还会为我们带来很多不同的故事。现在进入了一个新的竞争状态。
这里还有一帮人,中国团队怎么办呢?中国团队呢,只能靠差异化了。开源更大更新的模型,把agent一起开源出去,这可能就是中国团队未来竞争的一个方向。因为你去卷大模型,你卷不过他们了,手里头没有这么多的显卡,没有这么多的算力,数据上也有受到一定的限制,我们去卷底层大模型这块就会比较费劲。现在中国的这些AI公司里头呢,字节是在走OpenAI这条路,就是我闭源,我就疯狂的往前堆,但是未来到底能堆成什么样还不好说,而且字节也在堆显卡,他很多显卡是堆在海外了。其他的像阿里、百度、MiniMax、Kimi这些团队呢,都在堆开源,把最新的、最完整的、最大的模型直接开源出去,争夺一些客户回来,争夺一些市场空间回来。所以呢,大家玩的是不一样的。
那么开发者跟创业者应该干点什么呢?这一次OpenAI开完发布会以后,没有哀鸿一片,这是非常好的事情。说明什么?AI agent大家还是可以继续做下去的。把具体行业的需求解决掉,这个是创业者和开发者该去做的事情。而且现在呢,底层模型也相对来说比较稳定了,它没有那么多的幻觉了,拿着这些模型就可以去做一些相对比较严肃的工作了。所以现在就是开发者、创业者要冲的时候了。
GPT-5的API呢,我今天测试了一下,比Grok-4和Gemini 2.5呢,能力上其实并没有特别明显的差异。速度和稳定性、价格,这就是后边要拼的东西。这一块呢,OpenAI应该还是可以去占优的。为啥?因为OpenAI自己压根不惦记挣钱。谷歌那后边是个上市公司,你赔多了这事肯定是不行的。而至于说Grok的话,现在虽然他没有那么惦记挣钱,但是马斯克很多的操作其实是比较粗犷的,这种真正需要绣花,一针一线的往前去拼价格战的时候,他未必跟得上这个节奏。所以我相信在这一块上,OpenAI会领先一点点。未来一段时间呢,大家应该都会加班加点,对每一个应用中的AI节点进行效果、速度、稳定性和成本的这种对比,去更换GPT-5的API。这就是开发者现在该干的活。
原来说AI创业很难,原因就是大模型厂商的边界不清晰,你今儿干着干着,明天被他覆盖了。现在的话,这块清晰了,他们就去干他们的事情,我们干我们的事情。所以呢,最初的问题其实已经解决了,赶快去找到方向去干活。
那么到底是在挤牙膏,还是新的时代到来了呢?首先要讲,OpenAI再次地给行业指明了新的方向。第一个叫模型融合,不要整一大堆模型让我挑来挑去的,你就给我一个,我自己呢做这个提示词,你根据我的提示词去给我反馈就完了。该多说两句的时候多说两句,该少说两句的时候少说两句,不要让我去选取。第二个呢就是自动的进行判断,对于什么各种工具的调用,这个是需要去做的。还有一个方向就是降低幻觉比例,你要想去解决实际问题,就要降低幻觉。这块呢是中国大模型差的比较远的一块。在这一块上Gemini、Grok和Claude都还是比较强的,虽然达不到GPT-5这个层次吧,但是已经是可以用的了。中国的像Deepseek、千问、Kimi、豆包这些模型,幻觉得一塌糊涂,现在需要向这块去往前走一走。降低幻觉的方式就是不断的加算力进去,反复验证,多做这种强化学习,但是呢这个是需要大量算力在里边堆进去的。
新的时代还是到来了。新的时代是以什么样的方式到来了呢?阶级逐渐固化了,分层的时代到了。顶层的就是模型商卷,顶层模型OpenAI这次真正卷的是谁?他卷的是谷歌,卷的是XAI,卷的是Anthropic,他已经不再去跟这些应用厂商去竞争去了。“我们玩我们的,你们玩你们的。”这个是新的时代。他们一旦是开始把这个事搞清楚了,下面的这些创业者就可以冲锋了。就像是盘古开天地,混沌归于有序,大家就可以在这里繁衍生息了。这个是非常重要的一个时间点。
操作系统跟平台商呢,都去参与模型厂商的内卷就可以了。比如说谷歌,现在说Gemini不是大模型,Gemini就是操作系统。微软说我这个就按操作系统来了。OpenAI也说我就是操作系统。Grok肯定也是要去奔操作系统来的,它把X收进来以后,未来这一块可能就会有一个像微信似的超级应用,对于它来说这也是个操作系统。底层应用开发好好干吧,不用再担心模型商突然抄后路了。应用商也要有自知之明,不要去干这个大模型、操作系统、平台的这个事情。怎么说呢,要安天命,就是该你干的活你去干,不该干的活就别干。
这儿呢跟大家讲一个小故事吧。应该是在2014年年初的时候,我当时还在猎豹,跟着傅盛还有猎豹的其他几个高管呢,到谷歌北京办公室去吃早饭。不是占人便宜去了,我们跑去谷歌谈很多事情的时候呢,他们就特别喜欢让我们到他的办公室里去吃早饭,因为谷歌当时的食堂特别好,后来搬家了以后那食堂就没那么好了。当时是香港谷歌的一个负责商务的高管跑到那来跟我们吃早饭,趁着吃早饭的时候开个会嘛。当时我们做的工具呢,叫Clean Master,清理这个手机垃圾信息的。他问了一个什么问题呢?他说:“你们到底是清理memory,还是清理disk?”其他人就没想明白到底在问什么。我呢当时抖了个机灵,我说:“我们只清理disk,绝对不碰memory。”因为其实安卓手机上压根就没有DISK这个词,它叫storage drive,就是存储的驱动,这个不是叫DISK的。所以当时我就直接反应过来了。其实Clean Master是两个都会清理的。我回答了以后呢,其他人还看着我说你怎么胡说八道,明明不是这么回事,我们两个都可以清理,你干嘛说只能清理disk,不能清理memory呢?但是我回答完这个问题,还没有等到我的这些领导们来质疑我的时候,谷歌这个高管就直接肯定了,说:“这就对了,你们就只能清理disk,你们就不能清理memory。memory的事情是操作系统的事情,你不应该去做这件事。你就把这个硬盘上的东西清理清理就完了,或者说这个存储介质上东西清理清理。你一旦开始去碰内存了,就相当于是我们介入到了操作系统管理层去了,哎,你不该干这个活。”
讲完了以后呢,我们都是一头冷汗,也是觉得好不容易从鬼门关混出来了。吃完这顿早饭以后,出来这些高管就开始骂呀,说这个谷歌还说不作恶什么,这些东西都是扯淡。他划定这块地方,你就绝对不能碰他,你碰了他,他就甭管你是不是作恶,就直接干掉你。因为当时呢,跟我们同期有另外一个软件是杀病毒的,台湾趋势科技做的一个杀病毒的软件在里头,就被谷歌的高管作为典型跟我们讲。说你看这个台湾趋势科技,做了一个杀病毒的软件在安卓手机上,说这事是不对的。说为什么不对呢?说安卓是没有病毒的,我们已经宣布了安卓没病毒,你怎么可以在我这没有病毒的操作系统上杀病毒呢?最后你还杀出来了,这不扯淡吗?这个是不允许的。所以给了他们很严重的这种处罚。我们如果当时告诉他说“哎我们既清理硬盘也清理内存”的话,估计也是很严重的处罚。我们跟他吃完饭了以后,过几天就去纽交所去敲钟去了。如果当时那问题没回答好的话,这个钟就不用敲了。所以我觉得我那个机灵抖的还是挺好的。
这个也是说,做应用的厂商要各安天命,做自己该做的事情,在人家的规则下去做事情。这个就是未来这些模型厂商给这些做应用的厂商留出来的空间。当然了,中国厂商呢,总是会有一些不太愿意在你框框里头去跳的这些人吧,就是我们总是愿意做一些跳出圈的事情,不太喜欢这种逐渐固化的阶级,我们会再折腾一下。
所以结论就是,GPT-5发布了,确实还是有一些比较强的新特性的,包括统一的模型,自动地去判断怎么去工作,降低了幻觉。新的时代也到来了,这就固化,该选操作系统、选大模型的,你们选那个去,其他人在稳固的平台下,去做我们的应用就完事了。只要我们不去挑战权威,不去挑战规则,在这个规则下也可以挣到钱。这就是一个新的时代。
好,这一期呢就讲到这里。