Codex – 老范讲故事｜AI、大模型与商业世界的故事

GPT-5.5与DeepSeek V4，AI 竞争进入新格局！

老范讲故事 — Mon, 27 Apr 2026 11:18:21 +0000

GPT-5.5和DeepSeek V4在同一天前后发布，AI竞争进入了一个新格局。2026年4月23日和24日这两天，全球AI产业迎来了一场小小的地震，而且这次地震很有意思。

同日发布背后：AI竞争进入新阶段

GPT-5.5发布后9个小时，DeepSeek在杭州发布了V4。要注意的是，这次发布和前几天GPT Image 2的发布形成了鲜明对比。

OpenAI过去每次发布重要版本，通常都会开发布会，至少也会有线上直播。但这一次什么都没有，直接就上线了。前几天GPT Image 2发布时，Sam Altman还陪着一屋子亚洲面孔的小哥讲了一晚上，除了他之外，剩下的人里大概有两到三个中国人，可能还有一个日本人、一个韩国人，几乎只有他一个白人。然而这次GPT-5.5什么仪式都没有，直接推送给Plus、Pro、Business、Enterprise用户使用。

DeepSeek V4这边则是发布之后直接开源，本身就是一个开源产品。这意味着，全球AI竞争从此进入了一个新的阶段，不再只是比谁家的模型更强，而是开源和闭源、高价和低价、算力自主和算力依赖这几条主线开始正面交锋。

GPT-5.5发布方式反常，真正重点却不是模型本身

先说GPT-5.5。这次发布方式在OpenAI历史上都很少见。我今天早上起来，是Codex提示我升级，GPT的App也要求升级，网页打开以后就直接变成5.5了。

其实这次真正卖的并不是GPT-5.5本身，真正的重点是前两天发布的Codex，待会再讲为什么。

很多人一上来就看指标，觉得GPT-5.5很厉害，很多指标一下成了世界最强，在大多数指标上超过了Opus 4.7，好像OpenAI又回到了世界老大的位置。但现在所谓大模型到底有多强，这件事已经没那么重要了。真正重要的，是模型在三个地方的表现。

1. 编程能力

像GPT-5.5或者Opus 4.7这种好的模型，可以用很少的Token快速找到答案，不会四处乱转。如果是比较差的模型，可能会绕来绕去，搞不清到底出了什么问题。

即便是相对差一些的模型，放进Claude Code、OpenClaw这类Harness Agent框架里，事情也能做完，只是有的做得更痛快一些，有的慢一些，差距没有想象中那么大。

2. 文档处理、知识工作与搜索

第二个是处理文档、知识工作和搜索，这也是我自己用得最多的场景。就我现在的使用体验来看，即使是笨一点的模型，你放进OpenClaw或者Azure里，差异其实不大。

真正的区别在于配置兼容性。OpenClaw现在和OpenAI的兼容性最好。你说不给你配OpenAI，改配MiniMax行不行？也不是不行，只是每次升级时都得提心吊胆，这个比较痛苦。

3. 解决特别难的问题

第三个差异是在解决特别难的问题上，比如一些数学难题。这次GPT-5.5出来后，有数学家说，它把人类数学又往前推进了一步，这当然很强。

但这一块普通人是无感的，因为大部分人根本看不懂它到底做了什么。我自己看了半天也没看懂。你跟大多数人讲它到底干了什么，大部分人都理解不了。这块中国确实还差一点，我们压根没在这方面怎么努力。

GPT-5.5发布前的小插曲：泄露与回收

这次GPT-5.5发布还有一个很有意思的小插曲。发布前一天，GPT-5.5泄露了。在Codex的App里，可以看到GPT-5.5以及另外两个还在测试、尚未发布模型的名字。

随后OpenAI直接把模型收回，还把Codex的用量重置了。像我们平时每5小时有一个用量、每周有一个用量，因为它自己放错了，就给大家重置了一把。4月23日社区里，或者X上，确实有人在讨论这件事，但OpenAI官方并没有出来承认或否认。

为什么说Codex才是OpenAI真正的重点

为什么说Codex才是最关键的？因为OpenAI现在真正要竞争的，不是去解什么世界级数学难题，而是如何争抢用户、如何维持自己老大的位置。

Anthropic现在已经说自己是老大了，年化收入300亿美元，OpenAI是250亿，差了50亿。估值方面，OpenAI是8500亿美元，而Anthropic已经可以说自己是一万亿美元。现在真正要抢的是，谁能做出更好的Harness Agent工具，或者说agency workbench。

OpenAI已经明确把重心转向这一块。Sora、成人内容、广告节奏这些都不是最重要的，最重要的是去和Claude Code抢agentic workbench市场。OpenAI自己也说了，要做超级App。

哪个才是超级App？我今天把机器上所有OpenAI的App都升级了一遍，结论是Atlas，也就是OpenAI自己做的浏览器并没有升级，所以这条线的重要性大概率在下降。反而是Codex一上来就升级，而且最近几天简直像疯了一样，经常一天升三次，因为我自己经常用，它会不停提醒你升级。这才是它真正的超级App。

为什么不是ChatGPT网页版，而是Codex？

为什么ChatGPT网页版不是超级App，而Codex是？因为你要调用本地文件，要在本地打开各种应用，要在本地进行电脑操作，要在本地打开浏览器。这些事情如果你只在chatgpt.com网页里做，是不可能处理本地文件和本地App的。

你说那用ChatGPT App不也可以吗？这里就有一个问题：如果你使用ChatGPT App，20美元套餐、100美元套餐、200美元套餐，现在主要区别只是有些模型能不能用。而如果你用Codex App，它是按流量算钱的。

像我买了20美元的Plus账号，Codex额度就得省着用；如果买200美元的套餐，就可以敞开用。对于OpenAI来说，它当然希望更多人订200美元套餐，这符合它的商业逻辑，也符合它的商业叙事。

所以，OpenAI押注的超级App就是Codex，因为它真正的竞争对手就是Claude Code。现在很多SaaS软件崩盘，法律圈不行了、金融圈也不行了、安全软件也在崩，很多冲击都来自Claude Code。现在Codex就是要正面对杀。所以这次真正发布的，不只是GPT-5.5，而是给Codex使用的整套能力。

GPT-5.5是否全面碾压Opus 4.7？并没有那么夸张

那么GPT-5.5是不是全面碾压了Opus 4.7？是不是所有领域都领先了？这事没那么夸张。GPT-5.5在大部分主要指标上确实压过了Claude Opus 4.7，但OpenAI自己给的表格里也承认，Opus 4.7有几个指标依然领先。

Opus 4.7仍领先的几个指标

真实GitHub软件工程任务：要求模型修复真实开源项目的代码、理解整个代码仓库、通过测试套件。这是最接近“能不能在真实项目里干活”的指标。在这一项上，Opus 4.7依然领先。
金融分析代理任务：测试模型在金融场景下检索数据、构建模型、财务推理、调用工具的综合能力。这一项里，Opus 4.7也依然领先。所以如果你是炒股的，或者做金融相关工作，还是老老实实用Opus 4.7，不要轻易转。
MCP Atlas多工具协调任务：用来衡量agent使用MCP跨系统完成任务的能力。这一块Opus 4.7还是领先。
跨学科高难知识与推理题：不允许使用外部工具，测试模型自身知识和硬推理能力极限。这个领域里，Opus 4.7也还是领先。

当然，大家最卷的还是编程能力，其中最关键的一项就是真实GitHub软件工程任务，而这一项恰恰是Opus 4.7领先。对此OpenAI是不服气的。

OpenAI说Opus 4.7“过拟合了”，意思是它刷题了，所以这个分数不准，认为这一项有点作弊。至于其他指标，OpenAI并没有说，只是单独拎了这一项出来质疑。

Anthropic的应对：承认问题，同时放出Mythos信号

Anthropic面对压力也做了两件事。

第一件事：承认Claude Code质量问题

前一阵一直有报道说Claude Opus 4.6“降智”，出现brain fog这种脑雾现象，变笨了、变慢了、跑偏了、回复质量下降。很多人猜测，是它先把4.6降智，再推出一个可能比4.6稍微笨一点的4.7，让大家继续付钱。

这个事情已经有很多媒体，包括《财富》杂志，都报道过。之前Anthropic一直不理，反正就是“爱用不用，我还是最强的”。但在4月23日GPT-5.5发布之后，Anthropic发了事故调查报告，承认Claude Code里确实出现了质量问题，但否认了故意降低模型能力的指控。

它给了三个原因：

默认推理等级变更了，原来应该使用较高等级推理，现在默认用了较低等级。
缓存优化引入了一些程序漏洞。像这种系统一定有大量缓存，因为提示词进缓存之后更便宜、处理也更容易。
为了精简冗余输出内容，调整了一些系统提示词。

这三个原因共同导致了模型输出质量下降。现在它说问题已经修复了。也就是说，GPT-5.5不出来，它不承认；GPT-5.5一出来，它就承认了。

这让我想起苹果，经常有人说新手机一出，旧手机就变慢、续航就变差。苹果从来不承认，只会说它是为了更好地保护电池状态。Anthropic这次也算是又被抓住了一次。

第二件事：Mythos可能成为后手

它做的第二件事，是前面有个很强的模型叫Mythos。Anthropic说这个模型已经强到没朋友，不能直接放出来，只能先邀请合作伙伴使用，先找自己的漏洞。这消息之前就传出来了。

现在外界又开始讨论，Anthropic内部也并不觉得这有什么问题，甚至可能是在试探，要不要把Mythos放出来。因为Mythos比Opus 4.7还强。

这次GPT-5.5发布之后，有人拿Anthropic自己之前放出的测试数据和GPT-5.5对比，基本上算五五开，大概一半指标Mythos更高，一半是GPT-5.5更高，还有一些相等。

如果Anthropic被逼急了，真有可能直接把Mythos放出来。一旦放出来，影响可能非常大，因为这个模型特别擅长找漏洞，在网络安全领域属于专才。GPT-5.5在这一块未必有它强。如果Mythos真上线，我们现在跑的很多系统可能都要裸奔，这事是很吓人的。

国内模型集体活跃，DeepSeek V4成为焦点

再说国内大模型，重点就是DeepSeek V4。其实国内这一周都很活跃，每天都在发新模型。除了DeepSeek V4，今天还有腾讯的混元3发布，这是尧舜禹从OpenAI被腾讯高薪挖回去后，待了几个月交出的第一份作业。不过在DeepSeek V4面前，混元3基本完全看不到，大家也不怎么讨论了。

这一周发布的模型包括Kimi K2.6、小米的MiMo V2.5 Pro、混元3，以及今天要讲的DeepSeek V4。Kimi K2.6我现在就在用，是个很好用的模型。MiMo V2.5 Pro发布时号称开源模型第一名，也就是比所有开源模型评分都高。混元3水平相对差一些，达不到国内一流，可能比MiniMax稍微强一点，但和GLM 5.1、千问3.6、Kimi 2.6相比还是有差距，更不用说和小米的MiMo V2.5比了。不过它也算四平八稳，能干活。

国内主要模型概况

Kimi K2.6：1T参数量的MoE，激活32B，256K上下文，MIT许可商用，重点方向是长程编程、多模态和任务编排。
MiMo V2.5 Pro：1T的MoE，100万Token上下文，重点是前端UI、dashboard等创意编程方向。
混元3：2950亿参数，激活21B，对标Kimi K2和DeepSeek V3，算是刚起步。
DeepSeek：在许可证上最开放，直接使用Apache许可证，什么都不改，你们拿去用，爱干嘛干嘛。

Kimi 2.6的价格大概是每百万Token输出2.5到4美元。前两天很多人还在嘲笑MiniMax 2.7的开源许可证，说它要求商用必须先通知它。Kimi则是“你直接用就行”。而在这方面最开放的其实是DeepSeek，直接上Apache许可证。

这说明国内大模型竞争已经进入白热化。DeepSeek V4到底哪天登场，外人其实搞不清楚，但圈内人都清楚。中国这些大模型公司之间，包括中美大模型公司之间，真正做大模型的这几个人，要么是老同学，要么是老同事，谁家在干什么，大家大致都知道。所以大家都赶在DeepSeek V4之前把能发的先发了，不然光芒就全被盖住。

DeepSeek V4的真正意义：靴子终于落地

DeepSeek真正的位置是什么？它真的有那么强吗？现在已经有很多人出来吹了，但要讲清楚，DeepSeek V4真正的意义是“靴子落地了”。

原来很多人都在期待，觉得DeepSeek一发布，我们就彻底赢了，彻底翻身了，超英赶美，超过OpenAI、Anthropic、谷歌。就算不能彻底超过，也可以在价格上极大超越。

之前DeepSeek最火的时候，也就是R1发布时，它的能力并没有超越当时的GPT O1，只是特别便宜，用极致性价比达到了“将就能用”的状态，让中国人看到了希望：我虽然用不了你最好的那个，但我用这个稍微差一点的，也能解决问题。

今年春节之前我就讲过，全中国、甚至全世界都在等一件事：DeepSeek什么时候出V4，V4出来会不会震惊世界。结果春节没出，后来传3月初、3月末、4月初、4月中旬、5月初，各种说法都有，但基本都是拍脑袋瞎猜，没有具体依据。

大家为什么这么猜？就是因为大家都觉得，DeepSeek V4出来以后，会让整个中国模型扬眉吐气，会超英赶美。

但现在结果出来了，并没有发生这件事。靴子落地了，它发了。在极个别的两个指标上，确实达到了世界第一，这个是有的；价格上也的确是极致性价比，肯定比Anthropic、Gemini、OpenAI便宜很多，大概只有它们十分之一的价格。但大部分性能，其实也就是国内一线模型的水平，和GLM 5.1、Kimi 2.6基本持平。

关于华为芯片的现实情况

至于“使用华为芯片昇腾950”这件事，大家要注意，这种模型本身还是在英伟达芯片上训练出来的，最后为了适配华为芯片，可能还要做很多后期调试和调整。

它之所以拖到现在才发，可能就是为了去适配华为芯片。而所谓很强的昇腾950芯片，要到明年年底才能量产，现在能买到的可能还是910一类的芯片。

同时，美国商务部长卢特尼克已经说了，中国没有买任何一片H200，没有从英伟达直接买这种芯片。国内几个大厂，不管是字节、阿里还是腾讯，也都说已经向华为下了订单。那就别再神化了，继续往前走吧。DeepSeek也就可以把模型发出来了。

DeepSeek V4是一个开源模型，Apache许可证，所以它一定兼容英伟达。它只能说，在兼容英伟达的基础上，也保证能在华为芯片上跑得比较稳定，效能还可以接受。大家一定要理解清楚它和华为芯片的关系。

DeepSeek V4真正拿到世界第一的两项能力

那么DeepSeek V4到底哪两项达到了世界第一？

Codeforces Elo：也就是竞赛编程排名系统分数。分数越高，排名越靠前。DeepSeek V4拿到了3206分，基本就是世界第一。这一项是程序员公认的硬核编程能力标尺，不是刷题库能刷出来的，确实是真刀真枪。
LiveCodeBench：也就是竞赛编程连续评测，题目来自Codeforces、AtCoder和LeetCode等真实竞赛平台，长期跟踪，不是一锤子买卖。它测的是模型在连续多个竞赛项目上的综合表现。DeepSeek V4拿到了93.5%，意味着做10道题能做对9道以上。

所以在这两块上，DeepSeek V4确实是世界第一。

至于其他方面，就会稍微差一点。它自己也承认，在某些方面要比现在最顶尖的Opus 4.6、4.7差一些。现在在编程领域上，DeepSeek V4已经达到了Claude Sonnet 4.5的水平，也接近了Opus 4.6的非思考模式，但距离Opus 4.6思考模式以及Opus 4.7还是有差距。

为什么发布时主要提Opus，而没提GPT？

为什么它在发布时主要提Opus，没有提GPT？有三个原因：

前面OpenAI确实最强，这件事大家都公认。
之前Anthropic指责DeepSeek蒸馏，而OpenAI没说什么，没必要去点人家名字。
GPT-5.5刚出来，只比它早几个小时，这种稿子不可能临时重写。

所以DeepSeek V4专门讲了，我们比最新的Opus 4.6 thinking模式和Opus 4.7还是有差距。

综合来说，现在各种评测、各种维度很多，在综合考量上，它有些指标甚至还没追上国内的GLM 5.1和Kimi K2.6，但有两个指标做到世界第一，也已经非常不容易了。只是它和最新的GPT-5.5相比，还是有不小差距，因为GPT-5.5比Opus 4.7还要更强一些。

“不诱于誉，不恐于诽，率道而行，锐然正己。”

这次梁文锋发布稿件的结尾，引用了荀子的四句话。翻成大白话就是：你们随便骂，我也不解释，我用产品说话。

所以，DeepSeek V4发布的真正意义，就是靴子终于落地了。不要再惦记着突然有个翻盘的救世主。就像打擂台一样，一个一个上去都被人打下来，然后说“我们还有个特别厉害的人没上来，等他上来给我报仇雪恨”。现在这个人也上来了，结果发现确实有优点，但总体还是有差距，大概就是这么个情况。

当前AI大模型竞争格局：两大梯队已经成型

现在整个AI大模型竞争，已经进入了一个新的格局，可以分成两大梯队。

第一梯队：OpenAI与Anthropic

第一梯队只有两家：OpenAI和Anthropic，遥遥领先，全方位领先。旗舰模型能力最强，在各种Harness Agent或者agency workbench里表现极强，生态也非常完整，商业化能力很强，而且没有太多包袱。

很多公司技术其实不差，但就是因为包袱太重、内部掣肘太厉害，追不上。这两家现在最强，能做长程任务、复杂工具调用、真实软件工程。当然，它们也比较贵。

第二梯队：中国厂商集体追赶

第二梯队是一批追赶中的中国厂商：GLM、Kimi、DeepSeek、MiMo、MiniMax、千问、混元。这些模型现在基本已经达到了日常编程任务和挂在Harness Agent下面“能用”的程度。

在某些日常工作里，单点能力已经够用了，而且价格极其便宜，基本只有美国模型的十分之一。

其他玩家的尴尬处境

至于没说到的那些，就相对比较尴尬。

Grok：它在一些基础能力上可能比中国模型强，但在统合能力、编程等方面，未必比中国模型强到哪去，或者说即使强，用户也感受不出来。
Muse Spark：也就是Meta最新出的、亚历山大·汪做出来的模型。它从开源转向闭源，到目前为止没有太多公开评测数据。它自己放出的一些数据，大概和混元3差不多，也许稍强一点，但应该也是泯然众生。
Mistral：法国、也是欧洲最后的一根独苗。整个欧洲能做出模型的大概就是它们了，但现在做到什么程度，不太清楚。我个人感觉，它可能比中国模型还要再落后一点。

如果前面说的Grok、Muse Spark、Gemini这些模型都混到中国这个梯队里，那它们就危险了。为什么？因为中国模型开源，它们不开源；中国模型还便宜，价格只有它们十分之一。那它们就没有竞争能力了。所以这些模型必须冲进第一梯队，去和OpenAI、Anthropic竞争。

Gemini与谷歌：压力可能是最大的

再说Gemini。Gemini前面有一段时间很强，Gemini 3、Gemini 3.1，特别是Nano Banana 2，确实很强。我之前订阅Gemini，一个原因是Nano Banana 2，另一个是Notebook RM，这两个产品几乎无可替代。

至于它的模型本身，其实也就是“能用”，但一直没有特别惊艳。所以后来GPT出到5.4的时候，我就已经完全放弃使用Gemini模型了，通通转回GPT。

在发布GPT-5.5之前，Sam Altman专门拉着一堆中国面孔的小哥开发布会，发布GPT Image 2，这其实就像是釜底抽薪，把谷歌最底下那层梯子抽掉了。红色警报也就结束了。

所以Gemini现在的问题比较尴尬：它下周能不能出Gemini 4？就算出了，能不能超过GPT-5.5？如果出了还没Opus 4.7强，或者没GPT-5.5强，那发它干嘛？而且它现在连画图工具上的优势都没了，这就更麻烦。

还有一点，谷歌内部没有Claude Code或者Codex这样的工具。它收购了几个，也自己做了几个，但彼此掣肘，谁也没做起来。谷歌自己的创始人都说不行了，必须往前走。谷歌内部员工也在抱怨，说你不让我在公司里用Claude Code，又一定要我用自己的工具，但你自己又做不出来，这样我的编程效率反而下降很多。所以谷歌现在的压力非常大。

英伟达站台GPT-5.5，谷歌与Anthropic面临新压力

在这里面，谷歌的压力一定是最大的。现在它只能强调自己的芯片强，TPU很强。Anthropic也出来站台，说Claude Opus 4.7是用TPU训练出来的，也算是站了谷歌这边。

但你站了这个台，是有后果的。什么后果？就是这次GPT-5.5发布时，OpenAI干了一件特别绝的事情：速度没有降低。

这非常奇怪，因为绝大部分新模型出来都会变慢。模型规模变大，才会更聪明，而规模变大以后按理说一定会变慢。还有一个通常规律是，新模型一定会更贵。

GPT-5.5确实比GPT 5.4更贵，但为什么没有变慢？因为英伟达亲自站台，说GPT-5.5是在英伟达GB200 NVL72整套阵列上训练出来的，并且做了彻底优化。所以GPT-5.5的输出速度和GPT 5.4一样，每秒输出Token的速度没有变。这就非常强了。

虽然它更贵，但GPT-5.5解决同样问题时，消耗的Token会少很多，所以整体价格变化其实没那么大。这就是英伟达站台带来的效果。

Anthropic之前说自己是用谷歌训练的，那黄仁勋这种人是会记仇的，反手就给你来一巴掌：GPT-5.5就在我这儿，而且今天黄仁勋还给英伟达全员发信，要求大家都上Codex，因为这东西是在我们这儿训练出来的，是我们的亲儿子。

接下来就要看Anthropic怎么回击了，是不是会直接把Mythos拎出来，这很值得观察。还有就是谷歌下周到底能不能拿出一个让人惊艳的Gemini 4，我觉得可能性不大。就算拿出来，应该也不会特别惊艳。

而且现在真正竞争的是AI Agent或者agentic workbench这一块，谷歌和Grok在这方面都比较弱。Grok还在上蹿下跳，想买Cursor；谷歌在这块其实已经“买过一家”了，但买回来以后内部盘根错节，谁也发不上力，本来有些产品还不错，现在也都用不起来了。

普通用户到底该怎么选？GPT-5.5、Claude还是DeepSeek

最后回答一个问题：我们到底该用谁？是用DeepSeek，还是用GPT-5.5？

如果你不差钱

如果你不差钱，果断冲Anthropic的Claude Opus 4.7，加上Claude Code。它非常适合复杂工程、长程agent、企业级任务，目前这块还是做得最好的。

Codex加GPT-5.5虽然今天发布了，但还没有真正经过足够多实际任务的验证，还得再等一等。不过如果你不想被Anthropic平台完全绑定，也可以用Codex加GPT-5.5，我觉得是有机会赶上的。黄仁勋都发全员信了，说明这条线非常被看重。

使用Codex + GPT-5.5时的一个关键设置

但要注意一点，如果你上Codex加GPT-5.5，有一个配置一定要改。原来5.4默认使用快速模式，现在你要把它改成普通模式。

因为快速模式下，GPT 5.4会消耗1.5倍Token，你经常会发现用着用着额度就烧光了，而且GPT 5.4不允许改回去。但GPT-5.5是允许改回普通模式的。改回去以后，就按一倍速度烧Token，会省很多。

我现在用GPT-5.5，把它改成普通速度输出以后，感觉甚至比GPT 5.4还更耐用，而且它输出的Token更少，消耗也更低，这一点一定要注意。

如果你用OpenClaw

你直接用OpenClaw去挂GPT-5.5也没问题。我今天早上第一件事，就是打开Codex，下命令让它把我的OpenClaw小龙虾升级到最新版本，把本地Codex CLI也升级到最新版本，然后在OpenClaw里把GPT 5.4替换成GPT-5.5。

一个指令下去，这些就都升级好了。现在我在OpenClaw里已经可以直接用GPT-5.5了。

如果你预算有限

如果你还想再省点钱，也可以。像我这种预算比较紧的，就买国内模型的Token套餐。我现在用的是MiniMax M2.7的套餐，真的是便宜量大，虽然笨一点，但是量足。再配一个GPT Plus套餐兜底，GPT Plus是通过Codex挂到龙虾里去的。

现在我的正常任务用MiniMax就可以跑。如果你愿意，也可以换到GLM或者DeepSeek V4-Pro之类的模型，效果还会更好。所有非常难的任务，或者需要总结归纳的任务，遇到难题的时候，再专门切到GPT-5.5去做就可以了。

图像生成怎么选

要画图的话，一定要用GPT Image 2，那个东西是真的香，非常好使。我现在大量背景图和标题图都已经转到GPT Image 2了，这个一定要用。

我会不会转到DeepSeek V4？

至于DeepSeek V4，我会不会完全转过去？应该不会。因为DeepSeek V4估计会有很长一段时间算力紧张，华为芯片还没真正买回来，也还没交付。其他家，比如字节之类会不会部署它，还得再看。

如果字节部署了DeepSeek V4，我有可能去试一试。现在字节的code plan里我已经可以用GLM 5.1和Kimi K2.6了，我会更多地用Kimi K2.6。

至于DeepSeek V4那两个拿第一的项目，对我来说基本无感，因为我并不需要它去做编程竞赛这类任务，所以我未必会用它。等后面DeepSeek V4的算力宽松一些，我可能会测试一下。现在要用的模型太多，已经试不过来了。

总结

总结一下，GPT-5.5确实真香，但真正有价值的不是GPT-5.5本身，而是Codex，它才是OpenAI押注的超级App。

DeepSeek V4真正的作用，是让大家别再等什么救世主了，靴子已经落地，是骡子是马都拉出来了。它符合预期，但没有超出预期。

至于到底用哪个，还是要根据各自的预算情况、上网条件，以及你实际要解决的问题来决定。大概就是这样。

OpenAI与Anthropic新模型走向解析

老范讲故事 — Sun, 29 Mar 2026 00:55:27 +0000

OpenAI 和 Anthropic 的新模型将走向何方？

大家好，欢迎收听老范讲故事的 YouTube 频道。

OpenAI 的新模型有消息了。有媒体披露，一些内部信息泄露出来了。The Information 在 3 月 24 日发了报道，说 OpenAI 已经完成了下一代大模型的预训练，内部代号叫 Spud。山姆·奥特曼在内部对员工说，这是一个非常强的模型，并且可能切实推动经济加速发展。

随后，路透社、连线杂志、Bloomberg 都围绕着新一轮的组织调整，以及 Sora 关停等信息，对这个新模型进行了报道。OpenAI 正在把资源从视频等边缘业务抽回来，集中押注在代理、编码、企业产品和统一的超级 App 上面。

这里边，Spud 不是官宣名称，而是一个内部项目代号。所以我们通过这个词去猜它到底是什么意思，其实很难。OpenAI 的习惯是先随便起个名字，等到发布的时候，可能给它一个版本号。最后也许是 GPT-5.5、GPT-6，都是有可能的。

这次泄露出来的信息很少。OpenAI 内部把它描述为即将发布的新模型，内部预期是未来几周内，也有媒体描述为 coming weeks，就是几周后会发布。后面咱们也拍脑袋猜一下，这个模型到底会有什么新特色。

Anthropic 这边也泄露了一个新模型，叫 Mythos，也有人管它叫卡皮巴拉。这是因为人为错误泄露出来的模型。Anthropic 刚吹了牛，说自己的 code review 功能非常强，结果就出了这种 bug，实在不应该。

什么是 Code Review？

什么叫 code review？就是写完代码以后，我要去提交回去。不是说我从头到尾写一套新代码，而是说我要在原来的系统里稍微改点东西。

在这个时候，我们需要把所有代码都看一遍，看看你有没有改了一个错误，却带来十个新错误。这个过程就叫 code review。

它非常考验程序员对代码的理解能力，以及对大规模代码的处理能力。因为代码很多，把这段新代码放进去以后，你得知道它有没有牵一发动全身，是不是对其他地方有影响。所以真正的老程序员、资深程序员，是要去干这个活的。

Anthropic 说，自己出了一个新的 code review 功能，这个能力非常强。code review 完以后，再让程序员去看，99% 都是满意的，只有 1% 可能会有一点点小偏差。结果自己刚吹完这个牛，就出了这样的信息泄露 bug。

Mythos 是如何泄露出来的？

这个事情是 3 月 26 日《财富》杂志发现并进行了报道，3 月 27 日 Anthropic 就承认了，说确实有这么个事。这应该就是前面大家普遍猜测的卡皮巴拉模型。

大家注意，卡皮巴拉是内部代号，而 Mythos 是对外名字。因为如果不是对外名字，它也不会进到 CMS 系统里去。这次泄露，就是从 CMS 系统里泄露出来的。

CMS 是什么？

CMS 是什么？叫内容管理系统。名字听着很文绉绉，实际上就是官网后台。所有公司都会有官网，官网上有博客、有各种产品介绍、有成功案例。作为一个公司的官网来说，它就叫内容管理系统。

大家注意，这种管理系统上的东西会在什么时候写？比如说我今天发新模型，我会今天才写吗？肯定不会。一定会提前写，但也不会提前太多。比如提前一周、两周，把物料都准备好。准备完以后，先让它不可见，等新模型发布的时候，再统一拿出来，改一个参数说现在变成可见了。通常一定是这样的过程。

所以 Mythos 这个名字，一定是对外用的名字。因为对内用的名字，没必要写到信息管理系统里去。

为什么会被爬虫发现？

那它有可能发生什么样的配置错误，才会直接被人发现呢？这个以前我们也干过。当时盛大做电子书的时候，也是先写好文章，把网站都做好，但不能让别人发现，要等开完发布会以后才能拿出来。

如果后边我配错了什么东西，这些信息就会被爬虫拿走。虽然你可能没有一个公开链接，或者链接藏得很深，但爬虫不管这些，它会进来一顿爬，然后告诉大家有什么什么新东西了。

现在 Anthropic 的网站一定是大家每天都盯着的网站，一堆爬虫在那爬。所以它 CMS 系统里即将公开的信息被爬虫爬走了，然后就被像连线杂志、《财富》杂志这些媒体通通报道掉了。Anthropic 也只能自己承认，说确实有这个事。

猜测 OpenAI 的 Spud 会走向哪里？

首先我们先来猜测一下 OpenAI 的 Spud 模型可能有什么能力。大家注意，这是猜测，猜错了就当听个笑话。

OpenAI 现在手里的真正大杀器是什么？是 OpenAI Codex。它把 OpenAI Codex 的创始人又拎回到自己公司里来上班了。真正需要做的事情是什么？就是要打造一款适合 OpenAI Codex 的模型。

一个“傻瓜型”统一入口模型

它需要一个什么样的模型？一个“傻瓜型”模型。不是说这模型本身笨，笨肯定没法用。怎么个“傻瓜法”呢？就是可以自动根据 agent 任务的复杂度，直接上不同算力和推理强度的模型。

比如说现在有 GPT-5.4、GPT-5.4 Pro、GPT-5.4 Mini、GPT-5.4 Nano 这些模型，那我到底什么时候该上 Nano，什么时候该上 Mini，什么时候该上 5.4，什么时候该上 5.4 Pro？这个东西如果用错了，不光浪费算力，它还慢。而且 OpenAI 去卖算力、卖套餐的时候，你的额度也是按模型分开的。

比如我使用 5.4 模型，第一个是很慢，第二个是我这 20 美金的套餐可能两三天就跑没了，然后就得等下个礼拜再回来，这谁也受不了。那你说我都挂 Mini 行不行？挂 Mini 的话，可能够它跑一个礼拜，但它又不够聪明，很多事情跑不对。

那怎么办？对于 OpenAI 来说，最简单的方式就是做一个统一入口。在这个入口里，它自己来分配：

复杂的任务，比如任务规划，上 5.4；
调用各种工具、跑一些简单任务，就上 5.4 Mini；
再简单一点的上 Nano；
最后把大量信息放在一起，需要总结归纳了，可能再上一次 5.4 Pro。

这样等于在需要聪明的时候就非常聪明，不需要聪明的时候又很省算力，反应也很快。

这应该就是 OpenAI 在干的事情。这种东西出来以后，OpenAI 就可以给出一个非常高使用额度的套餐。因为你大部分任务实际上都是简单任务，真正需要很大算力、很长推理的任务并没有那么多。

“自助餐”式套餐的类比

这相当于它出一个自助餐。我们现在使用套餐，其实就有点像自助餐，给你多少额度，至于你具体干什么，它其实不管你。

在自助餐里，比如我去吃日料，我就专盯着海胆或者鱼子这种比较贵的东西去吃，那任何日料店都受不了。

那他们怎么办？有的日料店就说，我给你限制一下，你只能吃两份海胆，只能吃几份鱼子。还有一些日料店是怎么处理的？我把品类变多。我这有海胆、有鱼子、有三文鱼、有北极贝，也有寿司、加州卷。寿司里头有米，加州卷里头米更多。

当我把这么一大堆东西都拿出来的时候，你东吃一口、西吃一口，最贵的食材，或者总体的食材消耗量，就下降了。

这个例子举出来，大家应该就理解了。OpenAI 想干的活，就是我给你准备非常非常多的东西。你想吃到什么的时候，我就给你相应的东西。

我给你准备一个非常齐全的菜单，大家根据各自需要，吃了些米饭、吃了些面条、吃了点三文鱼、吃了点鱼子、吃了点海胆，整顿吃下来，我还可以给你很便宜，因为你最后可能也就吃了一份海胆。这应该就是 OpenAI 的 Spud 可能努力的方向，当然这是我猜的。

Anthropic 的 Mythos 可能意味着什么？

下一个咱们讲一讲 Anthropic 这个叫 Mythos 的东西。我们从这个名字上，可以猜出来他们想干什么。原因很简单，因为这个名字是对外名字，就可以来猜了。

从 Haiku、Sonnet、Opus 到 Mythos

Anthropic 的这几个模型，第一个叫 Haiku，意思是俳句，是日本的一种极短诗体，传统上只有 17 个音节，通常分为 5-7-5 三段。

稍微大一点的模型，或者叫中等模型，叫 Sonnet，也就是十四行诗，也还不是很长。再往长一点的，叫 Opus。像我们现在用得最好的、跑“龙虾”的模型就是 Opus。它的意思是作品、剧作、篇章作品，是这样的一个名字，这个就可以写一本小说了。

最新这个即将发布的叫 Mythos，是什么意思？叫神话体系、神话叙事，一个文明的核心故事。大家就想明白这是个什么东西了吧。它不是 Opus 4.8 或者 Opus 5.0，它是在 Opus 的基础上再往前推进一档。这是比 Opus 更强一级的模型。

为什么 Anthropic 要做更强的模型？

Anthropic 为什么要做这样一个模型？首先我们要想，Anthropic 遇到了什么样的问题。现在的问题是 harness 太强，导致模型之间的差异被缩小了。

Harness 是现在比较新的一个概念，直接翻译过来可以理解为驾驭系统。Claude Code、Claude Copilot、OpenAI Codex，以及我们现在正在热炒的“小龙虾”、OpenClaw，实际上都属于这种驾驭系统。

这个词好像还有一个翻译叫马的缰绳。其实我觉得用“马的缰绳”来讲这个事，大家更容易理解。

我们现在有匹马，就是这个模型。你给它套上缰绳了，哪怕这个模型差一点，只要我这个缰绳控制得好，它也能够走直线，能把车拉走。一堆中国模型，在强力的“马缰绳”驱动下，也可以进到 Claude Code 或者 OpenAI Codex 这种 agent 系统里去，某种意义上滥竽充数。这就是 Anthropic 遇到的问题。

那么从 Opus 进化到 Mythos，从“作品”进化到“神话体系”，会有什么样的变化？就是把很多原来 harness 的能力内化到模型里边去。这就是他们要干的活。让新一代的 harness 只能适配新的、能力更强的模型，别人再想滥竽充数就充不了了。

Anthropic 不会弱化他们现在已经有的 harness，比如说 Claude Code，把它做得简单一些，它不会干这个活。但是它会让模型有更强的自主能力。

像原来说，这匹马是烈马，经常瞎跑，怎么办？我就把缰绳拉紧一点。以后 Anthropic 可能说，我给你更强的自主能力，你可以自己决定往哪走。这样的话，如果模型强，就可以更好地完成任务；如果模型差，那就没法看了。

咱们原来有两个成语，一个叫老马识途，一个叫信马由缰。你说我把缰绳松开了，你自己走吧。走的过程中，老马又认识路，它可能就把你带回家去了。Anthropic 如果把这个方向搞定，那些滥竽充数的中国模型大概率就会掉链子。

中国模型是如何“冒充” Claude 的？

中国模型到底是怎么冒充 Anthropic 的 Claude 模型的？

第一步最简单，就是 API 格式直接去模仿，这最容易。调用什么模型，命令以什么格式进去、什么格式出来，这块国内模型早就干了。所以现在我们使用比如 Kimi、MiniMax、豆包这些模型时，调 API 的时候，里头往往有两个接口：一个模拟 OpenAI，一个模拟 Anthropic。你在不同地方有不同接口可以调用。
第二件事就是蒸馏，这肯定少不了。现在国内的大模型都喜欢去蒸馏 Anthropic 的模型，一般不会去蒸馏 OpenAI 的模型。

AI 系统一般分哪三层？

除了最简单的这两点之外，后边稍微讲一点点技术，尽量按简单方式讲。现在的 AI 系统一般分三层。

第一层：模型层

第一层是模型层，就是咱们讲的大模型。它负责什么？

长任务规划；
代码理解和生成；
工具选择；
多步推理；
目标保持；
自我修正；
在不完整信息下继续推进。

比如你说我要干一件什么事，它先想好第一步干什么、第二步干什么、第三步干什么，最后如何确认这个事情。

目标保持这个能力很难，也比较靠功夫。国内很多模型跑着跑着就跑偏了。然后是自我修正，跑偏了以后你能不能回来，这也靠模型能力。

还有一个很考验模型的，就是在不完整信息下继续推进。其实我们让模型去干活，给它的信息经常是不完整的。有的时候，我一个眼神你就领会了，这就叫不完整信息下的继续推进。有些模型则必须把话说得很透，它才能按要求往前走，这就是模型差异。

第二层：Harness 层

第二层就是 harness 层，叫驾驭系统层，或者叫“马缰绳层”。这里边它干的活包括：

代理循环；
上下文剪裁和注入；
子代理分工；
权限审查；
工具路由；
检查点、工作树、回滚；
记忆系统；
任务调度。

代理循环就是看看还有什么任务没做完，接着做；还没做完，再接着做，它会干这样的事情。

上下文剪裁和注入，就是把大量上下文保存起来、管理起来，在需要的时候，把正确的上下文剪裁好、压缩好，再塞到 agent 里去，让大模型去处理。

比较复杂的功能，比如检查点、工作树、回滚，这些也都是由 harness 控制。这些都属于编程里常用的东西。

检查点是什么？就是我在这设置一个点，如果出问题了，可以从这退回去。至于工作树，就是我们在同一个地方分叉，按不同方式去做，做完以后再合并回来。回滚就是哪做错了以后，可以 rollback 回到上一个状态，保证从那个地方继续往前走。

我们现在使用“小龙虾”，其实天天都在跟这些功能打交道。

第三层：环境层

最后一层叫环境层，包括文件系统、脚本执行、浏览器、图形界面、虚拟机沙箱，或者 GitHub、Slack、Discord、Telegram、QQ 这些外部系统。整个 AI 系统，基本上就是这三层在工作。

哪些能力可以靠 Harness 补齐？

有些模型能力差一些，是可以靠 harness 来补齐的。比如我现在“龙虾”里用的是 MiniMax 2.7，因为“龙虾”自己能力还是比较强的，所以基本上能干活。

哪些能力可以补齐？

明确任务解析；
代码库检索；
文件修改；
各种脚本执行；
固定格式输出；
规则驱动审批；
记忆回填；
向量搜索。

相当于什么呢？一个眼神过去它搞不定，但我掰开了揉碎了，把事情讲清楚，那么 MiniMax 也能干活。

为什么这些就可以搞定？因为它们是通过子代理模板、预设工具链、各种 agent 描述文件、权限模式、沙箱这些东西，等于“龙虾”限制了模型跑偏。这些模型相当于是烈马，有一个很强的缰绳，就可以把事情往前推。

哪些能力不容易靠 Harness 补齐？

(img: 一匹烈马与一匹老马并列前行，前者被紧紧拉住缰绳仍试图偏离道路，后者在雾气、岔路和噪声中依旧稳稳朝目标前进，象征难以外部补齐的模型本体能力，羊皮纸，钢笔彩色手绘的统一风格。3:2 )

还有一些能力，是不太容易被 harness 补齐的。这些能力，是真正吃模型本体的。

目标在很长上下文里不漂移；
面对噪声和歧义的时候继续推进；
知道什么时候该停，什么时候该问，什么时候该反思；
工具选择是否正确合理；
信息不完整的情况下，如何高质量地自我纠偏。

比如我给你讲半天，你一定要记住你到底要干什么，不能讲了半天以后你忘了，这不行。这个中国模型就比较容易出问题。

第二个，是面对噪声和歧义的时候继续推进。比如我给你开个玩笑，我给你阴阳怪气一下，你要继续沿着正确路径往前走，不要被我带偏了。

还有什么时候该停，什么时候该问，什么时候该反思，这也非常考验模型能力。像我现在使用 MiniMax，就必须告诉它：这个事该停下来了，这个事你别问我，你自己去搞定，那个事你现在要做一次完整的自我反思。我只能手动做这件事，没法让它自动做。

以及工具选择是否正确合理。你使用 Opus、使用 Claude 的模型，它就会比较合理地去使用工具。包括我用 GPT-5.4，在这块也没什么问题。但你使用中国模型的话，就会出现一些跑偏的情况。你要不停地去校正它，校正完了以后还要告诉它，记住，这个东西下次不能再错了。当然有时候它还会再错一两次，但你多让它记几次以后，它还是能记住的。

还有就是信息不完整的情况下，如何高质量地自我纠偏，这也非常非常考验模型能力。

Mythos 的升级重点可能在哪里？

这一次 Mythos 的升级，主要就是照着刚才我们讲的这些 harness 比较难补齐的部分去升级。Anthropic 讲了，说他们主要会在网络安全能力、计划能力以及错误修复能力上进行升级。这是在媒体报道了 Mythos 这个名字以后，Anthropic 自己承认的。

同一个 harness 使用 Mythos，可能会比今天的 Opus 4.6 更进一步。比如更少跑偏，更少问一些错误的问题，更少在多步链路里丢失目标，更会使用计算机，更能够在复杂系统里自我修正。这就是他们想去做的事情。

中国模型可能就要抓瞎了，可能会在高噪声环境下没法稳定地完成完整任务。

遇到这种比较差的马，你就一定要把缰绳拉紧。在低监督环境下，它自我推进的能力肯定也会变得很差。特别是像网络安全，因为网络安全里一定是信息不完整的，而且很多人惦记骗你。你怎么能够在这个时候把事情做对，这非常考验模型。它如何进行比较长距离的规划，如何进行错误修复，这些都会很考验模型。

未来会如何发展？

第一个，几周之内，咱们应该会看到两个新模型。不管是 OpenAI 还是 Anthropic，都会推出新模型。我个人会更期待 OpenAI 的模型，因为我订阅了，我花钱了。

Anthropic 我一直没舍得。正确使用 Anthropic 模型的方式，应该是这样：

先花 20 美金订阅；
老老实实在稳定的 IP 环境下使用；
尽量在 Claude Code、在 Anthropic 自家的工具里用；
用一段时间以后，再逐渐地到“龙虾”里去用；
养一段时间号以后，再看看是不是让它在这种比较复杂的 IP 环境下工作，才能避免封号。

否则的话，它封你没商量。

像我现在其实可以基本保证稳定 IP，因为基本都在家，也不怎么出门，不会遇到 IP 经常跳来跳去的情况。但是养号这段时间，我肯定还是要花美金去订它的账号，而且在这段时间里，我是没法高强度使用它的，所以我一直没舍得。

那么 OpenAI 推出新模型以后，我大概率可以在 OpenAI Codex 里靠 20 美金套餐，就基本让它跑完，而不会像现在这样，跑个两三天就把一周额度跑光。如果真能做到这一步的话，我应该还是比较开心的。

OpenAI Codex 其实是一个设想非常宏大的产品，就是它功能未必都实现得那么好，但它设想的功能很宏大，而且对于各种模型还是相对比较友好的。

至于 Anthropic 的 Mythos，反正我现在准备等中国模型去蒸馏它。我相信这些公司应该不会放过它。等这些模型把 Mythos 的能力蒸馏回来以后，我应该也能够使用部分 Anthropic 的能力。

好，今天的故事讲到这里。感谢大家收听。请帮忙点赞、点小铃铛，参加 Discord 讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：in the style of modern editorial watercolor, ink wash edges, soft bloom, textured paper feel, restrained palette, clean hierarchy, hyper-detailed Silicon Valley startup office interior, floor-to-ceiling glass walls revealing a garden of blooming cherry blossom trees, employees working at sleek standing desks with curved monitors, soft golden hour light casting gentle shadows, blush pink and warm ivory tones, indoor plants mixed with the view of outdoor樱花, depth of field with foreground cherry petals, warm and orderly atmosphere –no cluttered, –ar 16:9 –stylize 600 –chaos 15 –v 7.0 –p qaczhqj

Vibe Coding文科生也能上手？范太太用中文编程搞定复杂任务过程分享。

老范讲故事 — Fri, 13 Mar 2026 00:44:34 +0000

文科生到底是如何用中文玩转 Vibe Coding 的？这是范太太的亲历分享。

大家好，欢迎收听老范讲故事的 YouTube 频道。

Vibe Coding 并不一定需要写代码。范太太是一位英语老师，她终于决定自己上手 Vibe Coding 了。她做的事情是：在 Word 文档里用中文描述需求，输入 PDF 和 Word 文档，然后输出归纳整理后的 Word 文档。

这类繁琐的信息汇总、翻译、校对工作，绝对不是什么一键就可以搞定的事情。范太太也没有成为什么 Vibe Coding 大师，但是她觉得投入产出比已经为正了，确实节省了大量时间。

今天老范站在程序员的角度，和大家分享一下这个过程。对于程序员来说，我们可以借此学习文科生思考问题的方式，以后如果要为他们服务，应该如何下手。对于文科生来说，Vibe Coding 已经可以上手干活了，不需要学习编程，但有些思维方式还是要转变，有些坑也需要绕过。

今天的内容分成五部分

今天这个故事分成五段来讲：

先描述一下项目，到底干了一个什么活；
文科生开始 Vibe Coding 之路必须经历的 5 个坑；
从程序员的角度描述一下 AI 到底是怎么干活的；
当文科生都可以用自然语言，透过龙虾或者 Codex 这样的工具解决问题时，世界会变成什么样；
最后，不管你是工程师还是文科生，我们到底应该怎么办。

项目本身：到底在解决什么问题

大家可以想象这样一种任务：很多研究咨询机构都有一种很常见的工作，就是搜集各种报告，汇总到历年积累的完整数据报告里，再写出一份新的报告，说明过去几年所关注的行业或某个范围内发生了哪些事情，什么东西涨了，什么东西跌了，有什么趋势。

这些内容每年都要整理一次。国外很多机构也会发布相应报告，你需要把它们汇总在一起。在这个过程中，就涉及翻译。不管原始材料是什么语言，都需要翻译；总报告还需要不断补充和修订，去年是什么样，前年是什么样，今年的数据要填进去，有些五年前的数据可能还要删掉，只保留最近几年的内容。还需要让所有数据分门别类地补充到原来格式要求的正确位置上去。

这个事情非常烦。因为搜集来的不同来源报告，格式各不相同，写法也不同，甚至有些用词都不一样。有些喜欢用表格，有些喜欢写一大段描述；有些事无巨细，有些写得很简略。但最终目标报告必须是统一格式，而且最后可能还要拿这些数据去汇总，不能把数据加错了，关公战秦琼的事情是不能发生的。

这种汇总报告，通常是研究咨询机构自己出年鉴或者趋势分析报告的基础。找齐原始数据本身并没有那么难，因为大部分原始数据本来就是公开的。但是把这些数据按照复杂逻辑抽取、翻译、汇总，再进行校对，这个过程非常痛苦。

这也是研究和咨询服务之所以值钱的底层原因。普通人也可以拿到那些公开数据，但想把这些数据汇在一起形成结论，那就值钱了。谈笑风生的是大厨大师傅，但要做出一桌子菜，背后洗菜、配菜的人需要付出巨大劳动。

文科生开始 Vibe Coding 必须经历的 5 个坑

一开始先测试几轮，看看这东西到底行不行。结果效果并不好。并不是说你告诉 AI “去把这事干了”，它就噼里啪啦全干完了，没有那么聪明。AI 现在还做不到“上帝说要有光，于是就有了光”那个程度。

你说它做事了吗？确实做了，但是效果完全不可控。有些指令被执行了，有些被忽略了，有些结果本身就很混乱。很多人上来都会遇到这个问题，但不要着急。

第一个坑：先让 AI 复述需求，再开始执行

一定要先让 AI 读一遍需求，然后给出它的理解和不清楚的地方，再进行补充。这个非常重要。因为我们现在是用自然语言描述需求，而自然语言和程序语言最大的区别就在于：程序语言没有二义性，自然语言却可以有很多种理解方式。

人总是害怕 AI 搞不清楚，所以通常会写得很啰嗦，跟它讲半天。但 AI 到底理解没理解，其实你并不清楚。怎么办？很简单，让 AI 分析一下：你看看我说的这些事情你都明白了吗？或者你把这个事情拆一拆，到底有哪些我说清楚了，哪些没说清楚，你准备怎么干，跟我说一说。

很多领导带新人时也是这样。我跟你交代一个任务，你跟我讲讲我都说了什么，你打算怎么干，哪些事情你能干，哪些事情你干不了，需要回来问我。这就是正常的人与人交流过程。跟 AI 也是一样。

需求写完之后，你要让 AI 告诉你，哪些事情它明白了，清晰地列出 1、2、3、4、5，先干什么，后干什么，怎么校对。这个很重要。AI 一定要有标准，没有标准，它也不知道做成什么样才算合适。

同时，AI 通常还会在你的需求文档里找到说不清楚的地方，把它搞不明白的问题问出来。它会告诉你：有这几件事我搞不清楚，请你给我一个确定答案。

所以第一步一定要这么做。不要想着自己把需求文档写得很清楚了，直接让 AI 去干，这个事绝对不会有好下场。第一个坑就是：注意跟 AI 一起讨论需求，这是最重要的。

第二个坑：处理单元、定位和标识必须明确

虽然和 AI 说话使用的是自然语言，但处理的单元、定位和标识非常重要。

举个范太太遇到的实际问题。她要求把新一年的数据合并到过去总报告里，并且把发生变化的地方标成红色，方便校对。结果发现 AI 把整段整段都标红了。她觉得可能是自己没说清楚，以为 AI 把英文变成中文就当作“都不一样”了，所以整段标红。

于是她重新描述：如果只是翻译了，不用标；只有含义发生变化时才标红。结果还是整段都是红的。

后来跟 AI 讨论后终于明白了：你需要有“最小变更单位”的概念。到底以什么单位来判断是否发生变化，这件事必须说清楚。是按一句一句来判断，还是按别的方式？这个说清楚以后，AI 就给出了正确结果：一整段文字里，只把发生变化的部分标红，没有变化的部分保持原色，这样后期校对就方便多了。

所以，对于 AI 或程序来说，描述要求时一定要讲清楚：如何区分一个单元，怎么识别它，它的大小范围是什么，它具有什么特征，要对这个单元做什么操作。这样它才能清晰完成任务。

对于 AI 来说，做操作很容易，找到数据很难。AI 真正要干的活，是抽取、比较、翻译、校对和标注。当你把数据单元描述清楚以后，后面的事情它都很容易搞定，甚至还可以和另外一个你标注好的单元进行比较和合并。

AI 干活，或者说程序干活，基本就是这个格式：对什么东西做什么事情，或者对这两样东西做一个什么事情，然后放到哪里去。

第三个坑：很多默认操作并不默认，必须先说清楚

很多默认的事情其实不可控，必须先说清楚。

范太太的案例里，有一些分类去年存在，但今年没了。按道理，应该在今年的数据表格里把这个东西删掉，只保留今年存在的数据项目。对于人来说，特别是有经验的人，这就是默认操作，直接处理了就完了。

但 AI 不会这么做，特别是删数据这件事，它相对还是比较谨慎的。

最后只能补充描述：需要删除的数据不要直接删掉，而是用黄色背景重新标识出来，相当于拿记号笔画了一下，方便事后校对。因为如果直接删掉，你根本不知道原来这里有没有数据，也没法校对。

人干这个活，可能看到就直接删了；但 AI 干活相当于是你有了一个助手，它干完以后你还得再看一遍，所以不能让它直接把数删了。

做了这样的描述以后，AI 就把这种默认处理情况处理清楚了。有时候你觉得 AI 很笨，其实原因并不是它真笨，而是很多人类约定俗成、不用说也知道怎么办的事情，AI 并不知道。你必须明确告诉它。AI 也可以去猜，但那就完全不可控了。

第四个坑：复杂任务一定要拆分

对任务进行分拆非常重要。很多步骤如果让 AI 一把搞定，得到的结果是无法验证和使用的。但 AI 在中间某一步的结果可能是有效的，所以把复杂任务分拆就变得非常重要。

那应该怎么拆？横着拆还是竖着拆？其实不需要去思考 AI 第一步干什么、第二步干什么，在哪一步的结果上出下一步，也不用去搞清楚哪部分重要、哪部分不重要。这些都没关系。

分拆任务的唯一标准是：这一部分能不能独立验收，能不能确认价值。如果可以，就把它拆出来。

你可以让 AI 先把这一块搞定，搞定以后我们可以校验这一块。而且这一块原来特别麻烦，现在 AI 做完以后变得非常简单，人只要确认一遍就行。那它就可以单独成为一块任务。哪怕后面其他步骤出了问题，留下来的这一部分仍然是可用的。这是 AI 处理任务里非常关键的一点。

第五个坑：不要指望 AI 完全搞定，或一次搞定

不要抱着“完全由 AI 搞定”或者“一次搞定”的想法。这是很多人使用 AI 处理问题时最大的坑。

有些步骤 AI 可以搞定，因为它很擅长。根据前面做的任务分拆，就可以得到很多可验证的子任务。剩下的部分，你跟它描述半天，有时候还不如自己干。那干脆就直接上手，因为我们最终要的是结果，不是一个什么都能处理的 AI 工具。

所以一定要想清楚：什么事 AI 干着方便，结果基本可用；什么事人干着方便，只要稍微动动手就能搞定。这个一定要灵活调整。不要惦记着让 AI 把所有事情都搞定，或者一次把所有事情搞定。拆开以后，适合它干的它干，不适合它干的自己干。

这其实有点像带人。比如今天带了一个新学徒，有些事你指挥他干或者教他干，下次他可能还能干出来，而且还能给你省不少事；但有些事，真不如自己上手，三下五除二就搞定。所以我们最终要的是结果，不是别的东西。这一点一定要搞清楚。

这就是文科生使用 AI 过程中必须注意的 5 个点，也可以说是必须绕开的 5 个坑。

实际使用中暴露出的其他问题

当然，还有一些其他问题也在逐渐发现。这里面我跟我太太也有一点小争执。

争执一：坚持使用 Word 是否合适

第一个争执，是她坚持用 Word。Word 是一种非常庞大、功能非常齐全的标记性语言。虽然现在这种标记性语言已经开放出来了，但真正有用的信息，也就是我们写进去的文字，占比实在太小。

使用 Word，会给 AI 处理需求带来巨大的不确定性，因为里面有大量格式说明的内容，这些也要占 token，而且可能会影响结果。

不过目前来看问题不大，因为 AI 上来会先把 Word 拆成 Markdown 或纯文本，再去处理，而不是直接去管那些格式信息。

争执二：文件名和目录管理必须规范

第二个争执，是文件名和目录名。她比较喜欢在一个文件里改来改去，但在我看来不行，必须拆到不同文件和目录里去工作。改完以后，就起一个新文件名，哪怕在文件名后面加上日期都行，千万不要还用原来那个。

其实程序员平时并不是这么干活的。程序员通常是在同一个文件上改来改去，但我们处理的是纯文本，没有格式信息，所以可以用版本控制工具，甚至做代码合并，把不同版本合在一起。

但她用的是 Word 文档，里面有大量格式信息，会干扰文本内容，很难对这种文档做版本控制、差异比较和合并。

所以我强制要求她每做一件事情都新建目录、新起文件名。至少到目前为止，这样做得到了一个可接受的结果。因为如果不这么做，你没法和 AI 来回配合，不知道哪些是它改的，哪些是你改的，也搞不清哪些是可验收的结果，哪些是中间结果。不断起新文件名，可以解决这个问题。

从程序员角度看：AI 到底是怎么干活的

既然前面讲了，文科生只要在 Word 文档里写中文描述，它就能把事情做出来，而且做出的结果确实有用、有价值，那它到底是怎么干的？

1. 先进入 Harness 环境

现在这就是典型的 Harness 环境。Codex、OpenCode、Antigravity、Claude Code，或者龙虾 OpenClaw，都属于这种 Harness 环境，都可以干类似的活。当然，这里头最好用的应该是 Claude Code，只是老范没有 Claude Code 账号，所以用的是 Codex。

2. 先找到过程描述文件

系统拿到指令以后，会先找到指定的过程描述文件，也就是我告诉它应该按照哪个文件里的描述去干活。

其实编程也是类似的过程，只不过我们会有约定俗成的入口文件，比如 main，编译器会从那里开始，然后决定引用什么东西、一步一步怎么做。现在既然是 Word 文档，那我们就需要明确告诉系统：请按照哪个文件名里的描述去干活。

3. 再寻找源文件和目标文件

然后 AI 会去寻找源文件和目标文件，也就是你到底要处理哪个文件，处理完以后生成什么结果。

4. 自动规划执行步骤

接着 AI 会自己做规划，不管是 Codex 还是别的工具，都会自己规划：第一步干什么，第二步干什么。

5. 自动编写 Python 代码

规划完以后，它会自动去编写 Python 代码。这部分我们不用管。到现在为止，我也没有看过任何一行 Python 代码，甚至我自己也不太会 Python，所以这并不重要。

6. 把确定性任务交给程序执行

接下来，AI 会把确定性的任务扔给 Python 去跑。比如从 Word 或 PDF 里抽取文本，做简单比对，判断这个和那个是不是相等，进行数据填写，把目标填到哪里去，以及文档格式化。

所谓文档格式化，就是在 Word 文档里除了文字之外，再加一些标记，比如这里是红色、那里是几号字。这些都属于确定性任务。

7. 把不确定任务交给大模型处理

还有一些不太确定的任务，需要调用外部模型来做。比如非结构化数据的信息抽取。我写了一大段文字，里面说某年某月某日，某公司投资了谁多少钱，占股多少，这就属于非结构化数据。

我们可以给大语言模型一个指令，让它抽取时间、公司名、甲方、乙方、投资金额、持股比例、估值等信息。这类信息抽取就需要大模型来完成。

还有翻译，也可以由大模型来做。翻译当然也可以通过远程 API 或专门翻译接口搞定，但通过大模型也能完成。

8. 根据验收结果反复迭代

做完这些以后，AI 会根据前面讨论过的验收结果，对输出进行验收。如果发现不对，它会重新编写 Python 代码，再干一遍。它也是分步骤的。如果哪一步做对了，就保留对的部分，把不对的步骤继续往下做。这就是整个运作过程。

当然，这个过程充满了很多不确定性。比如我们描述了数据，但它没有找到，或者它找到了一些数据，却和我们的描述不完全一致，只是有点像。

这个时候它就会尝试：是不是可以这样试试，那样试试？它在读源文件和目标文件时，如果发现原始文件里有一堆跟你的描述很像的数据，就会考虑：我是不是可以写一个信息抽取模块把它们抽出来？还是说我可以写一个 Python 代码，把它们提取出来填到另一个地方去？

它就是不停地做这样的事情，把尽可能确定、可验证的事情做到它确认的最好结果，然后告诉你：这块我做完了。做完以后，它有时还会问你，我可以进一步再验证一次，要不要我去做？一般我们会说，你再验证一次吧，再进行一次手工验证。它就会按照要求再把目标文档验证一次。这就是 AI 真正干这个活的过程。

当文科生都能用自然语言解决问题，世界会怎样

文科生不需要会写代码，但必须有逻辑

第一点，文科生不要害怕使用 Vibe Coding 工具。不需要懂代码，但逻辑依然非常重要。你自己都描述不清楚的问题，AI 也搞不定。如果实在描述不清楚怎么办？可以跟 AI 讨论，它能够帮助你把逻辑梳理清楚。

AI 提效意味着部分岗位会被替代

但也有一个很现实的结果：大裁员就在路上。范太太通过 AI 完成一部分工作，再结合她自己手工处理，相当于半自动完成整个流程。跟原来纯手工相比，大概能够节省 60% 到 70% 的时间。

那些专业技能要求不高，但非常机械、枯燥的工作，一旦交给 AI，从体感上就会舒服很多，因为这部分工作真的很烦，把它交给 AI 还是很开心的。

很多工作的本质，是在非结构化与结构化之间来回转换

以前很多工作，实际上就是把各种非结构化数据结构化地处理，再以格式化的非结构化形态输出。这个说法有点绕，意思是：最早的数据其实在数据库里，都是结构化数据，一行一行，各种关系都很清楚；但当我们把它写成报告时，会加很多格式，比如字大字小、各种字体、换颜色、加图标，这个过程叫格式化。

可格式化完成的 PDF 报告，又重新变成了非结构化数据，因为很多内容变成了一大段一大段文字，有些即使是表格，也没有足够清晰的说明和约束，实际上依然是非结构化数据。

真正的结构化数据，是有非常清晰的数据字典和数据约束的。这些数据被公开时，公开出来的是花里胡哨的发行版，也就是格式化好的非结构化结果。而研究咨询和数据机构的价值，就在于他们手里有结构化数据，可以方便地研究、辅助决策，并再次输出。

比如找四大或者各种咨询公司，他们不会把后台数据库开给你，真正的结构化数据永远不会给你，给你的都是一份一份报告。你要是想把这些报告重新塞回数据库里再去应用，难度非常大。

刚才讲的整个任务过程，本质上就是把一大堆公开的、非结构化的、格式化好的、花里胡哨的报告，重新塞回数据库里，再生成一份新报告。以前这些事都要靠人工完成，很多研究机构也是不断拿别人报告回来，往自己数据库里填。

你说能不能专门编写软件来做？当然可以，但成本非常高，而且这种报告可能一年才用一回，最后不划算，还不如找个人吭哧吭哧去做。现在 AI 不能说彻底搞定了这件事，但绝对可以极大提效。如果没有新的业务和收入进来，那就只能裁员了，这没什么办法。

更积极的一面：更多人能用上更完整的数据

说点正面的。既然生产效率提高了，总应该有好处，不能光带来裁员。

正面的地方在于：我们每个人在做决策时，都可以使用更完整、更新、更准确、更大范围的数据了。那这东西有用吗？能赚钱吗？数据就是财富，数据就是权力。

当每个人、每个机构都能获得原来难以企及的数据之后，就会做出更正确的决策，或者决策效率大幅提升。这样就会有更多新生意出现，原来没法做的，现在可以做了。这才是真正正面的部分。

所以，让我们动起来吧。

最后建议：程序员和文科生分别该怎么办

给程序员的建议

对于程序员来说，我通过观察文科生用 Vibe Coding 处理问题的过程，已经能更清楚地知道：以后如果有人想用类似方式处理问题，他们可能会遇到哪些问题，以及这些问题应该如何解决。这对我来说是一个帮助。

给文科生的建议

对于文科生来说，记住这 5 点非常重要。我们把顺序稍微调一下。

放弃让 AI 一次搞定、一键搞定所有问题的幻想，这不现实。
和 AI 讨论需求和处理步骤。因为我们使用的是自然语言，尤其是文科生的自然语言，往往会更啰嗦一些。让 AI 帮你梳理清楚，把你没说清楚的地方列出来。
向 AI 描述如何识别和获取目标数据的特征和范围，这是最重要的。AI 能找到需要处理的数据，至于怎么处理都相对简单；关键是它怎么识别出这个数据。你一定要把这块讲得非常清楚。
把各种默认状态都明确描述出来。很多事情是人一看就知道怎么办的，AI 没那么聪明。
把完整任务按照可验收的价值点进行分拆。把 AI 擅长的事情交给 AI，把 AI 不擅长的事情自己上手，这样才是最高效的方式。

如果你已经订阅了 OpenAI 或者 Anthropic 的各种套餐，抓紧把 Vibe Coding 工具跑起来；家里已经有龙虾的，或者准备装龙虾的，也别让它闲着。

好，这就是今天的故事。感谢大家收听。请帮忙点赞、点小铃铛、参加 Discord 讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

OpenAI招募OpenClawd创始人：并非收购，意在争夺标准

老范讲故事 — Tue, 17 Feb 2026 00:38:17 +0000

山姆·奥特曼突然官宣 OpenClawd，创始人 Peter Steinberg加入了 OpenAI。是不是 OpenAI 收购了 OpenClawd？甚至有些人出来哀嚎说，OpenClawd 现在变成 CloseClawd 了。事情并没有大家想象的那么简单。

大家好，欢迎收听“老范讲故事”的 YouTube 频道。

OpenClawd 应该算是 2026 年年初的一个现象级产品，甚至有很多人说，这又是一次 ChatGPT 3.5 时刻了，确实是引起了整个社会的关注。这位 OpenClawd 的创始人 Peter Thielberg 就同时收到了山姆·奥特曼和扎克伯格两个人的电话，这两个人都说：“我们聊一聊吧。”

他还回顾了说，扎克伯格给他打电话的时候是这样的。突然打个电话来说：“你好，我是扎克伯格，咱们能不能约个时间聊一下？”这位老哥，因为是个退休程序员嘛，说：“我不习惯跟人家去约时间，要么就现在聊，要么就拉倒。”扎克伯格说：“你等我 10 分钟，我要写一段代码，把这段代码写完了以后我来找你。”这老哥特别感动，说这么大 CEO、Meta 的老大创始人，自己还在这写代码。写了 10 分钟代码以后打电话回来聊，说：“我真的在用，有什么样的想法，我觉得应该怎么改，哪个地方我喜欢，哪地方不喜欢。”跟他聊了半天。

当时大家就认为，OpenClawd 大概就是会被这两家中的一家所收购。但是最后其实并没有走收购这条路，而是创始人加入团队的这条路。这个到底有什么样的区别？咱们后面再去讲。

今天这故事咱们分三段来讲：第一段叫 OpenClawd 并没有被收购；第二段，大型的开源项目和大厂之间的几种合作方式，咱们要稍微掰一掰；第三段，OpenAI 为什么不直接收购 OpenClawd。

首先咱们来讲，OpenClawd 并没有被收购

OpenAI 到底出了多少钱？应该没多少钱，可能也就是几百万美金。这个对于一个像 OpenClawd 这样的、引起整个社会关注的项目来说的话，相当于是白捡了。他这个钱是怎么给的？就是我们直接把人招回来，有可能会有一个入职奖金，甚至这种奖金还是以股票的形式来发放的。就是真正出的现金应该没多少。这位 Peter Stinebrink 就成为 OpenAI 的一个员工。

那你说那 OpenClawd 怎么办？这开源项目你还做不做？这个项目会继续留在一个叫 OpenClawd 基金会的管理下，由他们来去管理，这是一个开源项目。OpenClawd 的商标、OpenClawd 的域名、里头所有的代码，依然是属于 OpenClawd 基金会的。只是它的创始人、这个最核心的贡献者，上 OpenAI 上班去了。上班了以后，他其实依然是在管理 OpenClawd 这个项目，但是他要分清楚，哪些是 OpenAI 的指令，哪些是 OpenClawd 基金会的指令。

而加入到 OpenAI 里边的，只有 Peter Stinebarger 一个人。其实现在去维护这个项目的人已经有很多了，核心的大概也有快 10 个人了，但是真正加进去的就他一个，其他人都没有加进去。而 OpenClawd 自己的话，主要是由这个基金会来运作。这个基金会需要什么？付服务器的钱，或者组织各种活动，制定各种的标准。说我们这个项目以后要向什么样的方向前进，跟谁兼容跟谁不兼容，这都是由基金会来定的。

OpenAI 原来就是 OpenClawd 基金会的一个赞助者。只是你赞助了多少钱不知道，因为你要成为他的赞助者，最少赞助 5 美元就行了，一个月 5 美元就可以。当然以 OpenAI 这样的一个体量来说，应该还是给了不少钱的。而且现在 OpenAI 已经告诉大家了，说以后 OpenClawd 就不用再担心了，你们再用服务器、再用算力、再用这些东西，我包圆了，你们就不用管了。因为原来 Peter Thielberg 也讲过，每个月还要赔进去一两万美金，因为需要付服务器成本，收到的捐款根本就不够。以后这个钱就通通归 OpenAI 来付了。

但是这点钱对于 OpenAI 来说算个什么？一个月一两万美金，这都不是什么事。当然 OpenAI 肯定还会出很多其他的钱，比如说组织各种的研讨会，组织各种线下活动，或者做各种的标准的修订，这个是 OpenAI 会去做的事情。当然 OpenAI 也不可能直接做，还是会把钱给到基金会，让基金会去做这个事情。只是坐在那领导基金会、去做所有工作的人，是从 OpenAI 领薪水的。

开源软件跟这些大厂有几种合作方式？

这里要注意，大型开源软件咱们可以去讨论这个事，那些小型开源软件其实跟这个没有特别大的关系。

第一种方式：人员加入，继续做开源社区的事情

就像这一次 Peter Steinberger 加入 OpenAI 这个事情是一样的。这个里头有一个很典型的案例，就是 Python。Python 是现在最火热的编程语言，因为现在大模型都是使用 Python 语言再去做各种的编程。那么 Python 的创始人其实很长一段时间是在谷歌上班的，后来被谷歌开了。这个很有意思，当时他从谷歌就直接被优化掉了。很多人还很奇怪，说你怎么就被优化掉了？这个兄弟后来好像又跑到微软继续去上班去了。他们这些人到公司里头只是领薪水，具体的事情还是干原来的基金会的事情，或者是干原来这种开源项目的事情。谷歌除了发薪水之外，其他啥也不管。

包括一些开源的编辑器，他们的这些创始人实际上都是谷歌在发薪水。就是这些人在谷歌有时候会也参与一些谷歌的项目，但是他的主要工作就是领了谷歌的薪水去维护自己的项目。谷歌属于确实有钱，他们也特别喜欢干这个事情。你说谷歌给他们发薪水了，到底从他们身上挣到什么？其实也没挣到什么。你说我把 Python 项目的老大搁在这，那我能不让别人使吗？谁使谁给我交钱？他也不能干这个活。或者说我把这个标准改到你离开谷歌的环境你就跑不了？他也不能干。所以除了发钱，他们啥也干不了。这是谷歌的一个比较有意思的玩法。

第二种方式：开源之后再成立基金会，控制权外移

就是一开始这个项目是公司里边的项目，做一段时间我们把它开源了，然后拿出去。这个里头最典型的一个案例叫 PyTorch，就是现在最火热的运营大模型用的这个工具。这是谁做的？是 Meta 做的。做完了以后就成立了一个基金会，说我们以后把 PyTorch 这个项目就放在这基金会里头运营了，Meta 跟它就没有特别直接的关系了。它的创始人依然在 Meta 上班，上了很多年的班，大概是在去年才从 Meta 离职。现在是加入到了叫 Thinking Machine Lab，就是那个从 OpenAI 离职的那美女 CTO，她创建那公司，加到那去了。

就这种项目，你说为什么？明明我把它做出来了，干嘛要把它交到基金会里去管理？原因也很简单，就是你要去跟其他人竞争。竞争的时候靠你一家又搞不定，你需要大家凑在一块来竞争。谁会愿意说我们出人出力去使用一个 Meta 控制的项目？没有人会愿意干这个事。那他说我们放基金会里，这东西是中立的。PyTorch 最后战胜了谷歌的 TensorFlow，成为现在最流行的、大模型支援的这种架构，就是通过这种开放的方式来搞定的。其他人你说，我们使 TensorFlow 不就完了吗？但是 TensorFlow 是完全谷歌控制的，别人就不愿意用，所以最后 PyTorch 赢了。

第三种方式：直接收购型

就是人家原来是开源的，我把它买下来，我自己来去运营这个项目。但是这种它分两种情况。

第一种：买完后闭源或限制。 我就找人收钱，或者我就想办法让他跟别人不兼容。这种就会翻车。一旦被收购了以后说：“我现在闭源了，或者我现在要收钱了，我对你进行限制了。”原来的开源项目就会进行分叉，我再做一个别的项目，跟你做同样的功能。这样的话其实最终两个项目都不会发展起来，全都做的很惨。

这个里头比较典型的案例，一个是 Sun 收购了 OpenOffice。Sun 当时收购了很多的这种开源项目，收完了以后说这东西只有我能使，别人不能使了。后来他们就去分叉了，分叉成叫 LibreOffice，但是这两个项目发展的也都不怎么样。还有一个特别典型的案例叫 MySQL，它是被 Oracle 收购了。收购完了以后说：“我们对它进行各种限制，你们以后就少用这玩意，都上我这来买 Oracle 数据库来。”他们后来也是分叉的，一个 m 开头的一个数据库的名字，跟 MySQL 完全兼容的，但是后面我觉得发展的也都不是很好吧。就是你一旦收购回来以后说我要管你了，这就翻车了。
第二种：买完后投入巨资快速迭代。 虽然要管，但是我还是开放的，你们还是可以随便用，而且我投入巨大量的经费，让整个的项目极快的迭代起来。一旦说这个项目快速迭代起来以后，大家就顾不上说你这东西到底是谁家的了，跟都跟不上了。这里头有两个典型的案例：一个叫安卓，一个叫 Chromium。都是谷歌花钱买回来的，买完了以后就投入巨大的资金，开始快速的迭代。谷歌现在这两个当家的软件，都是这么来的。现在安卓也是开源的，Chromium 这个是开源的，Chrome 是谷歌自己的产品，咱们要分清楚。

大家看到这几家，Meta 其实有点浑浑噩噩的。它其实站在了一个非常非常强的生态位上，它是 PyTorch 开始的这个公司，创始人也一直在 Meta 上班，但是 PyTorch 实际上没有给 Meta 带来任何的帮助，最后人还离职了。就是在前面把这个亚历山大·汪招回来以后，这哥们就走了。Sun 和 Oracle 就属于格局小了，我把这个开源软件买回来以后说，我要把它管起来，不许跟别人兼容了，你们通通都得上我这来交钱来，这就属于格局小了。

而这个谷歌是真正财大气粗的，他支持了非常非常多的项目。在这些项目对于谷歌本身的发展不是那么重要的时候，他就发钱，我也不管你，你就自己玩去，什么时候需要钱，你什么时候来找我要就可以了。我到时候给你发薪水，给你发各种各样的社区活动的钱。就社区里头真正花钱是底下各种的线下活动，包括各种标准制定。谷歌说我就愿意花钱养着你，你们也不用给我回报任何东西。一旦发现里头有这种跟他们的未来发展方向特别息息相关的东西，那马上冲出来，全情投入买下来，快速迭代更新。他是来走这样的一个方式的。一定要广种薄收，就是非常非常多的种子选手在那培养，有那么一两个特别核心的，砸重金进去发展，就有了谷歌的安卓和 Chromium。

OpenAI 这次肯定是赚到了，这样的一个核心产品直接被他也算是收入囊下吧。但是最终的结果还是需要时间检验的。所有跟开源相关的项目，没有说我今天花钱把它买下来，明天就有结果的，除非是像 Oracle 和 Sun 那么干活，就是我一花完钱以后，我马上就去改各种的开源协议，我就限制着别人使用，这种会马上翻车。只要不做这种杀鸡取卵的事情，它未来的效果都是需要很漫长的时间积累，叫日久见人心才能看出来。

OpenAI 为什么不直接收购 OpenClawd？

那下一个问题是，OpenAI 为什么不直接收购 OpenClawd，而是要选择这样的一种很难以控制的方式？

1. 保持中立标准

第一个最重要的原因叫保持中立标准。就跟当时 PyTorch 去战胜 TensorFlow 这个过程是一样的，我是开放的，我是中立的，任何人都可以在这个平台上去干活。比如谷歌说，我也愿意在这个平台上去干活，这个没有任何问题，它不是属于 OpenAI 的，它是属于 OpenClawd 基金会的。再加上中国的一大堆的模型厂商说，我们也愿意上去弄去，给他提供各种支持和服务，提供代码，我们也愿意给钱。这个是 OpenAI 所乐于见到的。

你要想，一旦他把它收购下来了，你后边跟不跟这些中国厂商合作？比如说像 MiniMax，比如说像 GLM 这种。GLM 专门有 OpenClawd 套餐，GLM 智谱是美国实体清单上的公司；MiniMax 现在还在被一堆的美国的电影公司在那告。那你说干还是不干？包括字节跳动也是专门提供了 OpenClawd 套餐。那你说我现在属于是 OpenAI 的一个项目了，那 OpenClawd 以后还跟不跟这些中国团队合作了？你要想跑得快的话，还是要留着这口子，你要继续跟中国团队合作。那你要收进去了以后，OpenAI 的原则是我不跟中国人做生意，特别是不能跟这种在实体清单里的公司做生意，那这事就没法整了。所以他必须要保持开放和中立这样的一个位置。

2. 架构与责任归属

第二个原因是 OpenClawd 本身的架构还有很多问题，也有很多的这种不完善的地方。你一旦把它收进来，那么所有这些问题的话，你就要承担责任。你比如说过两天谁用了 OpenClawd 说：“我这个数据丢了，我这造成什么经济损失了。”你 OpenAI 赔不赔？这个跟我没关系，它是 OpenClawd 基金会的，我们只是把人拎回来发工资了，它不用赔。这个是很重要的一点。

3. 安全性与合规风险

第三点是什么？OpenClawd 本身的安全性有待提升，而且很多的黑灰产的用户在使用 OpenClawd 做事情，就是做一些不是那么正规的事情，不是那么好的事情，或者拿出去做诈骗了，都是有的。OpenAI 肯定也是不愿意承担相应的法律责任的。你们接着该干嘛干嘛去，跟我没关系。

OpenAI 未来也并不一定会推出基于 OpenClawd 的产品。一旦说我们准备推出 OpenClawd 产品了，那他可能就会选择像谷歌处理安卓和 Chrome 那样的方式，我直接把它买下来，然后完全控制。这是 OpenAI 的一个选择。但是如果说我以后的产品形态可能是把一个类似功能的服务放到 ChatGPT 的客户端或者是 Codex 客户端里头，那就没有必要说再去跟 OpenClawd 这个东西较真了，没必要费这个劲了。他只需要说我们把这个 Peter Thielberg 拎回来说，你就给我们做这个个人代理的负责人，你来去指挥说我们以后要往哪个方向走就可以了。这不就是挺好的事情吗？

OpenAI 的实际收益

但即使如此，OpenAI 拥有了 Peter Stinebrink 之后，他依然是可以做很多事情的。比如说各种的联盟的建立，我们要去组织各种各样的这种 OpenClawd 联盟，或者 OpenClawd 的这种线下会议。现在各个地方都在开 OpenClawd 线下会，就是我们拿这东西到底干什么了。

然后主导 OpenClawd 标准。我们以后是不是只支持 OpenAI 标准的大模型？中国的所有这些开源模型都是走 OpenAI 标准接口的。在 Claude Code 火起来之前，咱们都从来不去兼容 Anthropic 接口。但是现在我们很多的模型公司都跑去兼容 Anthropic 接口去了。那么以后 OpenAI 说我要出一些什么新的标准、什么样新的接口，可能 OpenClawd 就会第一个站出来支持。其他人说我想去内卷一下，我想去比赛谁兼容最新的标准，就都会去跟着 OpenAI 的路子去走。这是 OpenAI 真正想要得到的东西。

还有一个 OpenAI 想得到的东西，他们现在在各种新闻报道里没有写，但是是必然可以得到的是什么？就是在极限的这种 AI 编程之中，Codex 要去战胜 Claude Code。原来 OpenClawd 里边大量的代码是使用 Claude Code 去写的，但是现在它的最核心的创始人 Peter Steinberg 上 OpenAI 上班去了。那你说我不能继续使用 Claude Code 吗？不行，因为把 OpenAI 员工的账号都给封了，你不能用了。所以你想以后再继续去维护 OpenClawd 代码，你就只能用 Codex 了，你就不能再去用 Claude Code 了。以后其他人说我们想继续去在这个 OpenClawd 代码库上再去做各种各样的工作的话，对不起，你们也要用 Codex。在这一点上 Codex 又胜出一局。这就是 OpenAI 为什么不去直接收购 OpenClawd，以及 OpenAI 从这一次交易里头到底能够得到什么。

最后总结一下吧

Peter Stinebrg 加入了 OpenAI，也算是尘埃落定了。他最后没有选择 Meta，而是加入了 OpenAI。这是一种更先进的开源协作方式，更有利于不同的公司之间，甚至是不同的地缘政治与法律架构之间，在统一的标准下进行协作，推进技术和推进技术的发展。

OpenAI 这一次肯定是赚大了，花了很少的钱就得到了未来的一个制定标准的机会。但是这一次交易的结果还是需要时间检验的。这种开源策略很难在短时间内看到成效。

好，这就是咱们今天讲的故事。不要再出去说 OpenAI 收购了 OpenClawd，OpenClawd 变成 CloseClawd 了，这个属于外行说的话，开源圈里内行会告诉你事不是这样的。

这个故事今天就讲到这里，感谢大家收听，请帮忙点赞、点小铃铛，参加 DISCORD 讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：in the style of Moebius (Jean Giraud), Franco-Belgian ligne claire illustration, hand-drawn ink linework with watercolor gouache textures, ultra-maximalist interior storytelling, an unoccupied high-rise family computer studio in Beijing’s bustling metropolis, modern Chinese home aesthetics with wood lattice shelving, ink-scroll accents, porcelain decor, dual-monitor desk setup, gaming console dock, retro game devices, hi-fi speakers, mechanical keyboard, headphones, layered cables and gadgets, Lunar New Year decorations in every corner with red lanterns spring couplets paper-cuts Chinese knots and festive ornaments, floor-to-ceiling window with glowing city skyline, 24mm wide environmental interior shot, eye-level, dense yet readable composition, warm tungsten ambient light mixed with subtle RGB tech glow, cozy lived-in atmosphere with strong futuristic vibe –no people, person, human, face, body, text, watermark, logo, sterile showroom, lowres blur, photoreal CGI texture –ar 16:9 –stylize 180 –chaos 8 –v 7.0 –p lh4so59

超级App vs 独立操作系统：山姆·奥特曼的野心远不止取代搜索，52分钟发布会暴露其真正想颠覆的是整个应用平台｜ChatGPT OpenAI Sam Altman Operating System

Luke Fan — Wed, 08 Oct 2025 00:47:41 +0000

OpenAI开发者日，暴露了山姆·奥特曼的隐藏野心。

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们先讲结论，然后告诉大家我怎么得出这样的结论，验证一下这个结论是否正确，再让大家行动起来，看看咱们在山姆·奥特曼指明方向以后，到底能干点什么。

OpenAI的开发者日呢，隐藏在发布会背后的野心和方向到底是什么？表面上这东西咱就不重复了，说到底发布了什么东西，只讲结论。
第一个，ChatGPT要做操作系统了。
第二个，自然语言和语音交互才是未来。
第三个，全栈、全生态、全模态的开发都在OpenAI。
有三个大的结论。

那咱们怎么得到这样的结论的呢？咱们看发布会，要稍微换一个方向来看。我自己呢，举办、参加过很多发布会，也专门受过训练，主持过发布会。咱们发布会一般看什么呢？叫“wow时刻”，一看这个东西，“wow，好厉害”，叫“wow时刻”。在52分钟的发布会视频里头，有哪些“Wow时刻”呢？那你说我是不是拿了个纸、拿了个笔，52分钟的发布会反复看，在这记笔记，哪个地方有掌声？不是这样的。我到GPT里边直接下了一个指令，把YouTube的视频链接贴进去，我说：“请给我统计一下，什么时候有掌声，掌声中度还是高度，有掌声的时候是谁在演讲，在讲什么，给我画个表格出来。”剩下的事情就交给GPT去干了，效果还是很好的。

第一次掌声，是山姆·奥特曼要求观众为消耗TOKEN最多的开发者鼓掌。他呢，屏幕上打了一堆开发者的名字，分颜色的，百万、千万甚至更多的TOKEN被这些开发者所消耗掉了，他们名字是用不同的颜色标出来的。这次掌声的不算很热烈。

4分22秒有一次自发的掌声，山姆在讲什么呢？当开发者使用SDK的时候，他们的应用可以覆盖数亿GPT用户。“我们希望这对于快速帮助开发者来说是一件大事，我们可以帮助他们规模化产品。”在这个时候突然就开始有掌声了，山姆·奥特曼被打断。这个时候屏幕上出现的topic是什么呢？是“变现”这样的一个词出现在屏幕上了。这个地方为什么会有掌声？大家想一想，它已经有这么大的用户量了，几亿的月活用户在那挂着，现在说：“我愿意把这些用户分享给大家，大家在我这个上面开发了应用以后，你们就可以在这个里边去使用各自的产品了，不再是使用我这个20美金的订阅，而是你们各自都可以有一些订阅或者有一些服务在这里边进行销售，可以在里边去变现了。”大家就真的要给他鼓掌了。所以这就是我们的第一个结论，这就是操作系统了，大家可以在这个里边去做项目了。有点像什么呢？有点像微信小程序、抖音小程序，大家现在都可以在ChatGPT里去做小程序了，这个肯定是会受到欢迎的，而且topic上写的是变现，这个非常重要的一点。

在APP SDK的demo结束的时候会有掌声，这个是很正常的演示，说我们怎么让一个应用通过SDK就可以把你们的程序变成了ChatGPT小程序了。他们在里边演示了很多的嵌入的产品，怎么订机票酒店，怎么租房，怎么去做海报。演示很成功，一定会有掌声。而且这个里头有比掌声更强的这种鼓励，就是比“wow”还厉害的东西，这就已经成为了行业领袖的发布会了。就普通人发布会到“Wow”这就结束了，待会咱们讲还有什么更厉害的。

再往后一项呢，有8分钟的限时挑战。它呢，其实就是把dify、N8N、Coze这些工作流编辑相关的功能装到ChatGPT里头去了。这块呢有帮助，但是帮助到底有多大，或者说是不是这种产品一出来，dify、N8N就死掉了？其实我觉得倒不会。因为呢，它这个里边只能使用ChatGPT自己的模型，你说我想在这个里边画一个流程，在里边使用Gemini、使用Grok，这都没戏。至于说调用外部工具的话，到目前为止应该也都是集成的ChatGPT里头的一些工具是可以调用的。你说我想非常自由的调用外部的大量的工具的话，虽然他说现在用MCP是可以挂上，但是应该没有那些已经积攒了很长时间的平台生态更好、自由度更大。所以呢，并不需要太担心说一下就把他们都干掉了。

但是呢，这个8分钟限时挑战还是值得掌声的。一位美女上来说：“来，我现在设置8分钟，我们要做很多很多事情。”其实咔嚓就把事情做完了，都是可以在ChatGPT里头就可以使用这些功能，就使用agent builder做出来的东西就可以跑，跑的还很漂亮。把所有的很复杂的功能做完了以后，居然还剩49秒，8分钟没有用完，确实是值回掌声。以后大家再去做发布会可以去挑战一下，但是呢，没练好别去。开发布会的时候，现场演示是非常非常紧张的，你平时练的好好的东西，上去都有可能出错，更别说在上面还设个时间了，那个绝对是给自己增加演示难度的。

再下一次掌声呢，是山姆·奥特曼宣布“Codex is into GA”，就是Codex现在已经正式发布了。前面我们不是做过视频了吗？讲这个Codex怎么又正式发布？所有这些东西发布呢，都是分Preview和正式发布两个版本，Preview已经过去了，现在我们正式发布了。因为Codex这个产品非常非常受欢迎，OpenAI内部也是大量的使用Codex去写代码，他们说现在Codex已经解决了他们70%的pull request。这样的一个产品，说现在正式的成为发行版本了，还是值得掌声的。这是一次高级别的掌声，GPT去统计的时候，还把掌声的级别也统计出来了。前面几次呢都是中等的掌声，8分钟极限挑战这是一个中高等的，真的是为这个小姑娘捏一把汗。下边坐的人呢，应该也都自己开过发布会，知道发布会有多紧张，在这个上面敢做一个8分钟计时挑战，确实是要佩服他的勇气，所以他的掌声要比前面发布那几个要高一些。真正的高级别的掌声是“Codex is into GA”。

再往后呢是Codex的演示。Codex的整场演示没有碰任何代码，都是靠打字、自然语言描述或者是语音描述来去实现的。它控制了摄像头云台，控制了灯光，而且呢把语音接进去，这个是OpenAI着重要去推广的东西，就是一定是自然语言的语音控制，不是打字，是要跟他说。所以他就跟他讲说：“你现在给我做一个这个，跟我做一个那个。”马上这个摄像头就开始发生变化了，而且是使用的现场设备，它直接把现场的一个索尼的电影摄像机的云台就控制起来，就开始转动了，这个是可以极大的提升演示效果的。

再往后呢，是Xbox手柄控制摄像头。Codex在片尾出这个字幕，做了一个彩蛋花絮吧，这个呢是有一个中高等级的掌声，因为他有参与感。虽然前面这个摄像头也是对着下面所有人的，但是现在一下出字幕了，把大家的名字打出来了，参与感上升，这个掌声是要大一些的。其实最后一次演示是翻车了，为什么呢？就是他把那个照片拍的黑乎乎的，他没有设置好曝光。你要去设置一个电影机去拍照的话，你的光圈、你的快门这些东西还是比较复杂的，他并没有把所有的参数都设对。但是最后这个名字字幕滚动的过程还是很帅的，所以这一块是赢得了大家的掌声。Codex的核心演示是什么？就是从头到尾没有碰代码，虽然它是个代码工具，但是呢没有看到任何一行代码被打进去，完完全全就是语音交互、Xbox的手柄交互、自然语言往里打字，这些东西就可以控制这么复杂的云台灯光，还可以跟ChatGPT一起工作，这个确实是很炫酷的东西。

再往后是山姆·奥特曼宣布GPT-5 Pro进入了API。大家注意，原来GPT-5在API里头，但GPT-5 Pro API是没法调用的。你要想使用GPT-5 Pro，必须是花20美金去定它这个Pro用户。现在说这个东西进入到API里去了，最高等级的掌声。大家对这个还是非常非常期待的，虽然这个模型很贵，它好像100万TOKEN的输入是十几美金，一百万TOKEN输出可能一百多美金。但是呢，大家对于这种非常高智能的模型可以通过API调用，还是抱有巨大的期望的。

Sora 2 Preview进入API，最高等级掌声。Sora 2是我们这几天在玩的视频生成模型，现在它已经进到API里去了，这个是大家所期待的。因为你原来在一个APP上或者在一个网页上，你控制它还是比较麻烦，必须是要进到API里头才可以进行精准控制。原来就是10秒钟一条，你现在就可以生成更长的视频、其他比例的视频，或者说做一些更复杂的搭配。你可以写一个完整的故事，通过API调用，可以让这些完整的故事顺序的去生成，这个就可以直接做成生产力工具了，原来那个东西是个社交工具。这是大家非常非常期待的一个功能。我已经去试过了，调用Sora 2 API生成了15秒钟的视频，花了我20美分，大概是这样的一个成本，还是非常非常有趣的。但是要注意，即使是调用API，它的控制也是很严格的。我上传了一张自己的照片，我说：“请按照这个照片去给我生成。”他说：“对不起，照片里头有人物，我是不可以给你干活的。”未来到底是如何把这东西用起来，如何让形象进入到许可范围内，如何把整套的系统能够跑起来，这个可能过一段时间我试一试，再跟大家录视频再跟大家讲。

后面Sora 2用于品牌电商、广告概念的这种展示，就是说Sora 2一旦变成API以后，你们都能拿它干什么。就是这玩意儿生产力工具了，可以干的东西很多了，又得到了一次中等规模的掌声。

结束谢幕肯定是最高等级掌声。50多分钟接近一个小时，七里咔嚓把这么多东西都扔上来，还是值得掌声的。

那刚才吊了半天胃口说，比“Wow时刻”还让人激动人心的是什么呢？必须是行业领袖的发布会才有这样的效果——股价上涨。你说OpenAI自己还没上市呢，谁的股价涨？这里头第一个涨的是AMD。AMD呢，虽然在整个的发布会里头没有被提名字，但是呢依然上涨了24%。这块的话回头再跟大家细细解读，山姆·奥特曼又玩了个骚操作，黄仁勋1,000亿美金投资OpenAI，OpenAI说一转头我去投资苏姿丰的AMD，去让AMD给我定制芯片，那蹭一下24%就涨上去了。

Figma涨了7%。因为在前面把应用集成到ChatGPT里头去的这个过程中，演示的就是Figma。说你看Figma现在已经集成进来了，我们可以在ChatGPT里头直接调用Figma的功能就可以干活了。相当于是Figma已经成为了ChatGPT的小程序了，直接涨了7%。

然后Expedia group涨了2%，这是机+酒业务嘛，机票加酒店。那你说在这里边，ChatGPT里头规划了半天行程，你总要有人去给你订机票订酒店嘛，Expedia group直接涨。

Coursera涨了8%。这是一个在线教育平台，人家上头直接问，说我现在想去学一下AI，我想去学一下大模型，就给我看看怎么学习一下，你有哪些课程适合。Coursera你给我推荐一下，而且我就可以直接在ChatGPT里头看Coursera的视频了，直接可以看他的这个课程了，这个涨了8%。

Uber涨了4%，它为什么能涨呢？我们现在可以直接在ChatGPT里头叫车了，涨4%。

DoorDash但是相当于美国的即时零售、外卖送餐的这样的一个项目，涨了4%。我们现在可以在ChatGPT里头说给我订一份煲仔饭回来，一会当当当敲门来了。当然对于美国来说，配送应该没有那么快，它不像在国内似的。

那你说有没有提了名字带不动的呢？也有。里头有一个公司呢，叫ZILLOW，是美国一个租房的网站。为什么带不动呢？因为正在被FTC起诉反垄断，就是你一旦在上面做广告了以后，它有排他条款在里头，现在正在被起诉。还有一个是Spotify，放音乐的。里边有一个案例，请给我做Spotify的一个播放列表。这个呢，第一个是Spotify的盘子比较大，就是这公司很大了；第二个呢，就是这个场景没选好，这是一个稍微失败一点的案例。大家觉得在ChatGPT里头去定制播放列表这件事呢，不是那么有趣，也没有那么挣钱，所以在这块上，这个股价基本上没动。

明白了吧？为什么只有行业老大提名字才有用？因为不是行业老大提了名字，股价不会上涨的，股市不会听这玩意的。所以OpenAI现在已经是行业老大了，证明这件事了。

那么验证一下我前面的结论吧：操作系统、入口、商业变现、全场景。这是第一个结论，OpenAI已经向操作系统前进了，它就是超级APP，它就是微信，它就是抖音，大家可以在里边做所有的事情了。OpenAI让应用通过SDK变成小程序，直接把自己集成ChatGPT里头去，所以这个野心已经彻底暴露了。以后它就是独立的操作系统，没有什么iOS，没有安卓，没有这些人的事，这就属于赤裸裸的直接竞争了。

第二个，自然语言、语音交互，这是最核心的。虽然有编程，但是从头到尾没动代码，所有的这些交互都是用自然语言交互的。即使是Codex这样的编程模型，也都是用自然语言交互，所有做出来的项目都是可以语音沟通的。而且人家还发布了实时语音的大模型的API，而且这个API还是高速廉价版本，要比正常的这种满血版本要便宜很多，速度还很快，所以大家赶快去使用吧。山姆·奥特曼在里头讲的，说我不认为未来很多的程序是需要代码去写的，我觉得自然语言和语音交互才是未来。这个野心背后是什么？他们的硬件马上要上来了，山姆·奥特曼的整套的硬件，他的硬件应该不是一个硬件，而是一套硬件，自然语言语音交互的一套硬件。现在OpenAI已经向果链企业下单了，我们很快就可以看到这套硬件到底长什么样，以及如何跟人类进行交互和沟通。

最后，全栈、全生态、全模态都在OpenAI。我们可以去做SDK，我们有MCP，我们有agent builder，你可以在里边去画流程图，也可以Codex直接去写代码，还可以处理语音的、图片的、视频的，我们所有东西全都有。这个就是真正老大要干的活，什么都得干。像其他的公司呢，可能大多是只做其中的一部分，比如像Anthropic，他就没有办法把从上到下所有东西都干一遍。现在能够跟着跑的也就是谷歌，从上到下都在做，虽然可能好多的地方还做的没有那么好，但是从上到下都有。国内的这些平台也都被打样了，说你们想去追OpenAI吗？你看看从上到下你是不是都坐上了？这个是一个新的方向。

最后，咱们要行动起来。不能山姆·奥特曼在上头手舞足蹈了半天，我们不知道该干嘛，那个就没有意思了。咱们该干嘛呢？

第一个，学习一下山姆·奥特曼发布会的组织形式，人家发布会怎么开的，这些掌声都是怎么来的。肯定会有人学，你看雷军，一开始是穿黑色的长袖t恤的“雷布斯”，后来开始穿小西装“雷斯克”，再往后呢，发布新片的时候穿了个皮衣，学谁自己去想。未来什么时候就可以穿这种宽松的套头衫，咱们再看。

通过SDK登录ChatGPT，这个是现在大家要赶快行动起来的，谁都别慢了。而且这个里头可能还有一件事大家想不到的是什么？抢注域名。因为当时在互联网刚开始的时候，大家都去抢注域名，而现在我们要在ChatGPT里头去呼叫、起一个应用的时候靠的是什么？不是域名，就是它的名字。比如说你在里头Coursera里边去讲“开”，或者是其他的一些应用，就直接写名字，写完名字以后就会自动被识别成某一个应用，就开始去干活了。这个名字是要去抢注的，因为他没有办法控制重不重名的问题，所以这块大家要赶快动起来，先做一个能用的东西，把名字占住，等以后其他人说“我们也想用这个名字”，花钱买呗。所以这是一个可能马上能去做的事情。

再往后一件事，所有厂商一定要提供友好的SDK，普通用户都可以玩起来了。这一次他们展示了怎么去玩会场灯光，怎么去玩索尼的电影机和电影云台。以后如果大疆出SDK的话，我肯定是愿意在Codex上去玩耍一下的。而且以后出了这些SDK的话，你的产品一定会卖得更好。原来这些SDK出来以后，只有专业厂商才能用得起来，普通用户是用不起来了。但是现在有了Codex，有了这些AI编程工具了，平权了，每一个人都可以拿着这些产品自己去编个程序，去稍微收拾收拾，这个门槛一下降低了很多。当然除了像大疆这样的拍摄设备或者索尼这样的拍摄设备之外，还有很多东西，它的SDK的使用率、使用量一下就会上升上去。原来都是系统集成商或者是代理商会去用这些SDK，而现在每一个普通用户都会去用。这是什么东西？智能家居。苹果折腾了半天Homekit，谷歌也折腾了半天，小米也折腾了半天这种智能家居的这种网关、智能家居的这些SDK，现在好了，有Codex以后通通都可以跑了。整个生态的竞争会进入下一个阶段。原来比如大疆跟其他的竞争，是竞争我们的图像参数有多好，竞争我的价格怎么样，竞争这个产品的使用有多方便，做的有多轻。以后的话就是生态竞争，谁家的SDK做得好，普通用户可以在Codex的帮助下可以玩出花样来，以后就会变成这样了。

再往后，抓紧把语音交互加到系统中去。如果原来你的系统没有做语音交互的话，赶快做进去。因为OpenAI操作系统的新硬件平台应该距离我们已经不远了。如果我们现在把自己的系统加上语音了，交互的还很好，那么OpenAI再去发布他们的硬件的时候，就有可能你的产品会成为发布会上展示的那个产品。这一次你想，OpenAI点了谁的名字，谁的股价就在涨，这就属于是典型的榜样力量。如果你现在就把这个产品做好了，未来就有可能蹭上这一波巨大的流量。像我以前有一些朋友，他们在iPhone、iPad早期发布的时候，做的产品做的特别好，让苹果直接在发布会上给人展示了，那真的是泼天的流量和财富就砸下来了。所以现在大家赶快动手，把这个语音加到应用里去。

最后一项，Sora 2的API，赶快玩耍起来。这个还是非常非常好玩的，15秒视频，0.2美金，价格还可以接受吧。大家就可以写出脚本来，顺序的让它把这个内容都生成出来，做出这种几分钟的短片出来都是OK的。

好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

GPT 5 Codex，普通人的技术平权里程碑！程序员神话被戳破？当AI能可靠执行7小时复杂任务，普通人与专家的差距还剩多少？｜揭秘 Codex、OpenAI、GPT-5、GPT-5-Codex

Luke Fan — Wed, 17 Sep 2025 00:44:03 +0000

GPT-5-Codex的发布，普通人通往技术平权之路的又一个里程碑。

大家好，欢迎收听老范讲故事的YouTube频道。

记得上次在天津做线下活动的时候呢，有一位程序员问我说：“我们这些普通人，应该如何应对AI大潮呢？因为现在很多程序员被AI淘汰失业嘛。”我想了一下告诉他说：“你要想清楚一个问题，在AI大潮面前，我们不是普通人，我们是程序员。那些不会写程序的人，才是普通人呐。”

所以，咱们今天要讨论的就是，那些不会写程序的普通人，在GPT-5-Codex的帮助下，怎么能够像我们这些会写程序的人一样，去遨游于代码的海洋之中，知道代码到底在干什么，为什么这么设计，哪里做错了。这个是真正给了他们一个能用的工具。

OpenAI呢，趁着Anthropic屏蔽了程序员的主体族群（也就是咱们中国人的时候），适时地召开了发布会，发布了GPT-5-Codex。大家要注意，它这个名字起得稍微有些混淆。GPT-5呢，是一个大模型；Codex呢，是OpenAI发布的一个编程的agent；GPT-5-Codex呢，是一个在GPT-5的基础上，专门训练的一个用于Codex这个编程AI agent的一个专有模型。它稍微有点绕，就是GPT-5-Codex是一个模型，不是一个简单的agent。

GPT-5-Codex呢，可以自动地判断复杂度，而且可以可靠地执行。自动判断复杂度这件事呢，现在大家都在干。你问了一个简单问题，我就简单回答一下，不会浪费很多的TOKEN。其实，有时候AI想太多，也是一个很烦的事情。什么叫AI想太多？你问豆包一个问题，甭管你问他什么问题，都啰里八嗦给你讲半天，那就属于AI想太多的一个典型体现。

真正难的是可靠执行。什么叫可靠执行？就是AI这种东西呢，每一次执行实际上都有可能出错，都有可能出现一些偏差。如果说我一次执行了以后，自动地再做下一次执行，它就会把这些偏差累积起来，或者我们叫累积误差吧。这种AI agent，它是没有办法做长期执行的，因为它的累积误差会越累积越多，他自己瞎想越想越偏，就这样的一个状态。

但是，GPT-5-Codex在这块会做得很好。OpenAI已做了测试，它最长连续运行了7个小时，中间不会停下来，这是非常非常强大的，而且最终得到了你想要的结果。这个是怎么做到的？肯定内部是有很多的纠偏机制，很多的校验机制。我往东走一步发现不对了，我再往西走一点。其他的AI agent为什么不行？因为有时候钻牛角尖，钻进去以后就钻不出来了。像我们使用Claude Code或者Java CLI这些AI agent的时候，你就必须得盯着它，你发现他越钻越偏、越走越牛角尖的时候，你就要把他打断，告诉他说：“你别往那边走了，那边是错的，有一个正确的方向，你应该如何如何去处理。”这个才是比较麻烦的地方。GPT-5-Codex在这块，已经非常非常强了。

GPT-5-Codex呢，跟OpenAI的Codex这个AI agent结合在一起，绝对是强强联合，而且还不贵。这个很重要，因为使用这些AI agent本身是非常非常昂贵的，它会把你整个的代码库直接塞给这个大模型，你的TOKEN会像流水一样哗啦哗啦地一下就不见了，所以非常非常昂贵。有些人使用Claude Code，一个月能够消耗2万美金的TOKEN，这是非常吓人的。

而像这个GPT-5-Codex，本身在这一块上还是相对比较便宜的。像我这样的Plus账号，就是一个月20美金的账号，基本上够我使了。给出的额度是这样的：每5个小时30-150条通话。你如果是问的很简单，可能就是150条；问的很复杂呢，就是30条。如果你把它耗光了以后呢，它会回答你说：“咱歇会吧，待会再弄。”很多人呢是这样，工作干一白天，如果被提示了说“咱歇一会吧”，他就下班回家了。这样来去使用，它的额度基本上够使，要比使用Anthropic的Max这种，就是200美金一个月的账号，要好用得多。

现在去使用OpenAI Pro账号，200美金一个月的账号的话，它是每5个小时可以回答300条或者是1,500条，就是简单问题1,500条，复杂问题300条。实际上你给它一个复杂问题以后，它自己且跑呢，你想再给他下一条都比较费劲，除非是你并行的同时再开多个窗口一起给他这个命令，有可能这个额度会不够用。正常如果是一个人单人使用的话，其实Plus账号，就是30条复杂任务或者是150条简单任务的话，五个小时之内是够使的。你上午弄完了以后，中午吃个饭休息休息，下午又可以满血复活了。所以它还是比较省钱的。

GPT-5-Codex这个模型呢，其实是在GPT-5的模型上做的提升，本身呢提升并没有那么明显。如果你不是用来编程的话，你就不要拿这个模型来使。如果你要是拿它来编程的话，普通的编程任务呢有提升，但是可能也就是在一些跑分题库上，你能够看到它提升那么一点点，提升的也不是特别多。但是呢，在一些比较特殊的编程场景上，是有比较高的提升的。所以呢，这个提升不重要，发布会本身更重要一些，就告诉大家华人程序员们、中国程序员们：“Anthropic不让你用了，上我这儿来，非常非常好用。”

那么，Codex和其他这些编程工具比起来，有什么差别呢？咱们就使用这个GPT-5-Codex最新的模型，而且上来以后，你可以选择High模式，就是更多的思考的这个模式，这个效果非常好。Codex跟其他这些编程语言工具比起来，最大的优势是“言出法随”。什么叫言出法随？就是你给出指令，你就可以放心等待了，这个就是最大优势。前面也讲了，你给了他一个指令以后，他可以吭哧吭哧跑7个小时，7个小时基本上就是一天了吗？你上一天班不也就8个小时吗？他在这个中间不会跑偏，而且最后会给你一个你所预期的结果。这个非常非常重要，千万不要说他折腾半天给你一结果，最后发现不是你要的，这不是白忙活一场吗？

使用这个AI agent跟这个模型配合起来像什么呢？就像是在一个陌生的国家、语言不通的情况下打Uber的感受。比如说我在泰国吧，泰语肯定不会，他们也不会讲英语，我英语也不怎么样。我去打Uber，这个钱是可控的，你在打车的时候，他告诉你需要花多少钱。目的地呢也是很清晰的，你都是在谷歌地图上挑好了目的地，直接输进去，也不会发生什么错误。中间过程你就不用管了，愿意去跟司机闲聊两句呢，可以试试。我在泰国清迈，我也会用蹩脚的英语尝试跟司机闲扯两句，有时候人家理我，有时候人家不理我，这个也无所谓。如果你不想跟他聊天，你中间睡个觉也没毛病。最后呢，都会在一个你所预期的时间、你所预期的金额下到达目的地。这就是Codex真正给大家的体验。

而如果你使用其他的工具，比如说像Cursor、Claude Code或者Gemini-CLI这些工具的话，你就像是在一个陌生的国家、语言不通、陌生城市坐公交车的感受。这是一个什么感受？太多未知因素了，消耗也是完全不可控的，到底要花多少钱你也不知道。而且呢，这国家可能治安还不太好，有一些坑掉进去未必就爬得出来。是否可以在你所预期的时间和预期的费用下到达目的地？不好说。所以这就是最大的区别，为什么我现在已经完完全全转到Codex上去了，就是这样的一个原因。

现在的这些编程工具呢分三类。一类呢是云端agent，有个网站，你向他提要求“给我做一什么什么东西”，他直接给你做好，你中间就不用管了。他在自己的虚拟机上整个搭环境做，做完了以后，直接给你完整代码就完事了，这是一种方式。第二种方式呢，是给你一个命令行，像咱们刚才讲的Gemini-CLI、Claude Code都是这样的，给你一个命令行工具，你在这个命令行的下面直接给它指令，它去干活去。第三种呢，就是IDE或者是这种IDE插件。比如说Claude Code，就是自己做的IDE；GitHub Copilot，就属于叫IDE插件。它是给你一个集成开发环境（IDE叫集成开发环境），在这个里边的话，咱们直接把所有的事情做完。而Codex的话，它是一个三位一体，就是它三个都给你了。如果你一旦决定使用Codex，你就会有一台服务器，他在服务器上去给你搭建所有的运行环境、搭建开发环境，然后到那边去干完活，给你提交完整的代码。回来也给你一个本地的命令行工具，同时呢给你一个IDE插件，就是VS Code上的一个插件。三个都有，而且都挺好使的。

Codex跟其他这些AI编程工具最大的差异在哪？最大的差异是，它是直接在GitHub仓库上干活的，直接可以管理GitHub仓库，接受各种PR（叫pull request），就是这种拉取的需求。开源仓库什么时候会收到pull request呢？就是别人看着你的开源代码说：“这儿有一bug，我去给你改一改；我那儿想增加一功能，我给你改一改。”这个东西我不能直接在代码库上改，它会提交一个拉取请求，说：“我改好了，你拉回来合并进去吧。”叫pull request。大量的pull request上去以后呢，代码仓库的主人其实是看不过来的。

这个Codex干的第一件事，就是叫自动过滤，直接把骂人的筛选掉。因为有很多人提pull request，什么也没有就上来骂人，这个是很正常的一个事情，林子大了什么鸟都有嘛。华为鸿蒙系统的这些拥趸们，就曾经提交了大量的pull request，要求别人去支持鸿蒙。现在就不需要看这些东西了，这个直接交给Codex，你把pull request拉上来，你去校验一下，看看这东西能不能合并得进去，是不是有问题，这个代码是不是有害，上来是不是骂人呢，还是说提交的代码是完全无效的。他直接看了，看完了以后发现没什么用，就直接扔掉了。所以这些以后就不会再给大家造成困扰了。

这个Codex会自动筛选出重要的pull request出来，交给这个代码库的所有人，你去甄选一下，看看是不是要去合并进去。它不会自动合并进去的。然后呢，也会自动地去review这些代码。这个review是什么？就是给你代码了以后，要有第二个人、第三个人去看一下这个代码。它呢，可以自动地去做安全review。为什么要做安全review呢？前面咱们发生过代码投毒事件。有一位非常同情乌克兰的程序员，在给俄罗斯的一些开源仓库去提交代码的时候呢，就直接投毒了，导致了俄罗斯人使用这些开源代码的时候就有可能会出现问题，这个是不能接受的。Codex可以直接把这些问题都排除掉。

还可以做过期依赖的review。什么叫过期依赖？就是我们有大量的代码，这个代码是一个一个的代码库、代码文件，每一个代码呢，会去依赖一些其他的这些库。有的时候呢，这些代码可能已经不用了，特别是一些屎山代码，可能已经不用了，但是这些依赖还写在里面，这个是非常非常危险的。他会查一下，说这些依赖已经不需要了，我们可以把它去掉。这样的话，代码库呢就会变得清爽一些，否则的话这个屎山就会越聚越多。因为原来代码量太大，咱们也没有办法把整个代码库从头到尾都看一遍，里头有很多的这种过期的依赖就一直会留在里面，后面人就没法改了，这个屎山就堆起来，后边的维护难度就会变得越来越高。

所以Codex可以极大地提升开源项目的管理效率，也可以极大地提升整个代码库的品质。因为屎山就是一堆的代码搁在里头，谁也不愿意把它扒开。能跑，但是为什么能跑，谁也不知道。在里头改任何东西，可能就都不能跑了，谁也不敢动这个东西。屎山在被提交的时候，现在有Codex的维护的话，就很难再入库了。大家一看这是个屎山代码，咱就别把它弄进来了，就搁那了。你按道理说，你这个代码提交上去以后，应该有人去看，应该有人去做review，review完了以后才能入库。但实际上呢，人这种东西，他是爱偷懒的。“这个人每次提交的代码都是对的，从来没有出过什么事，我信任他吧，下次我不看了吧。”就会出现这样的问题。为什么会有人在开源代码库里投毒成功呢？他就是这种信任造成的。现在有Codex了，甭管你提交了多少代码，以前的代码的质量有多好，你这次提交了，我还是会一丝不苟地把你都拎出来去做一次review，它不会偷这个懒的。机器在这点是相对来说比较可靠的，人是不可靠的。所以很多屎山代码就不会入库了。

而且呢，现在Codex可以直接把屎山挖开。为什么以前屎山挖不开？就是人处理代码是有极限的。我们从头到尾去读这个代码的时候，其实我们处理的能力是有限的。一个好程序员，或者说一个顶尖程序员，他比别人强在哪？就是他处理的代码量大。不是说我写了10行代码，写了1万行代码，还是写了多少行代码，就是当我看10万行代码的时候，我知道哪错了，这个错的地方在什么地，这个代码跟哪个代码是相互依赖的，哪个代码是调用哪段代码，这个东西我能搞清楚，这个就是一个程序员的一个基本素养了。另外一个说，我可以在100万行代码里头去把这个问题搞清楚，这个就更厉害一些。但是这个是有限度的，像我们去写一个浏览器或者操作系统，那这个多少亿行，没有任何人可以在里头看完。那你说这种大项目怎么做？就是通过工程的方式把它们切块，每一个程序员负责一部分，你就在这里头去处理，处理完了以后呢，写好接口，写好接口文档，其他人只跟接口去打交道，一个代码别人就不看了。原来是这么来处理的，但是在这个处理过程中的话，这个屎山就很有可能埋在里头，而且谁也没有办法把它挖开。去年我去日本，他们就跟我讲，说日本有好多70多岁的程序员，他写完了代码，除了他自己别人没法看。你再找一个人来看，这么大代码体量你咋看？这个是完完全全的屎山。

现在的话，有了这个GPT-5-Codex这样的新模型，它就可以把屎山挖开。它可以直接把所有的代码，把整个代码库都扔进去，它是有这个能力的，人已经超出极限了，人搞不定这个事。所以呢，他可以去重新替换代码，说这个代码我们整个去重写一下，把这个问题解决掉。这个以前不可能的事情，现在可能了。

那你说原来有没有人说“这个屎山我把它扔了重干一下”？也有。最近咱们看到的一个案例是谁呢？就是埃隆·马斯克。把Twitter买下来以后，把人都裁掉了以后，“咱们重新写吧，以前那屎山我不要了。”那你说他怎么干成了？因为他是埃隆·马斯克就干成了吗？其他人干不成，这是天才？也不是。干成的原因很简单，他不怕宕机。整个代码库更新的时候，这个X系统是宕机了好长时间的，而且有一段时间宕机还是挺频繁的。马斯克说：“反正公司是我的，也不是上市公司了，宕机我认了。”那这种情况下，他可以去把整个代码库扔掉了重写，否则根本没法干。如果是按原来的这种传统公司的架构，任何人都不敢去扒这个屎山代码，因为宕了机以后谁也负不起这责任。最上面管事的人，绝对是一帮普通人，甭管他是叫CEO，还是叫什么别的名字，那都是普通人，他不会写程序的。他只要求就是“你不许宕机”，具体这事是怎么回事，他是不管的。只有马斯克这种工程师，而且有钱任性，他可以说：“咱们把它整个屎山挖开。”其他人搞不定。

那么，GPT-5-Codex到底怎么能够让普通人去进行技术平权呢？分两步。

第一步，大厂会落后。大厂为什么会落后呢？因为很多大厂，最上面是一帮完全不懂技术的叫CEO，或者是叫一些其他的title的人在管。他们会很固执的要求，我们所有的代码不能上网。特别是像日本这样的国家，他们就没有办法去使用刚才我们说的这些工具：Claude Code、Gemini-CLI、OpenAI的Codex。它只能使用本地部署的一些小模型，那它的整个的数据库就会落后，就没有办法去跟那些新兴的企业去竞争。新兴企业，可能你没有钱去雇佣那么多的老程序员、高端程序员，但是可以靠一堆业余程序员、有业余爱好的程序员，就在Codex的帮助下就快速地追平大厂。而大厂呢，守着一堆屎山代码，因为不允许连接外网，那他就只能等着这些新的企业去超越他，他没有任何办法，只能眼睁睁等死。大厂原来的优势就是长期积累，以及呢，可以花高薪去雇佣最好的程序员，但是现在这些通通都成为包袱。被高薪雇佣到大厂的程序员，他们会进到大厂里去，看到大厂里头的系统到底是怎么做的，看完了以后说：“算了，咱们出去创业吧。”掘墓人就这么产生了。所以大厂会在这个过程中轰然倒下。

另外一个是什么？就是普通人也可以参与到技术平权里来了。咱们刚才讲“普通人”是非程序员，在这里的定义。当然了，这里的普通人，并不是说完全不懂程序的人。就像什么呢？比如摄影吧，原来有职业摄影师，但是你像我，我算业余摄影爱好者，但是对于职业摄影师来说呢，我肯定就是普通人了。能够理解这个逻辑吧？对于我这样的人来说，我现在也可以在大疆的这种傻瓜型的摄影工具的帮助下，拍出一些还不错的照片和视频出来了。现在也是这样的，一些稍微懂一点点编程的门外汉、编程的业余爱好者，也可以在Codex的帮助下，去做出一些很专业的产品出来了，完成一些很专业的工作了。这就是普通人的一个技术平权之路。而一点都不会，说我完全也不想看，这个事您还是普通人，跟我们没关系。稍微有点兴趣看一点，我们叫“略会”。很多东北的脱口秀里都在讲这个话：“你会打乒乓球吗？”“略会。”“会游泳吗？”“略会。”稍微会一点点的意思。略会编程的人，就可以解决很多大问题了。

你说我们去看一下Linux内核怎么回事？你原来需要学很久的，现在不需要了。略会一点点，我就可以去看看Linux内核到底怎么写的，有什么问题，哪有bug，哪个地方有可能有漏洞，都可以搞定。Linux内核是开源的，我们直接可以在源代码库上看。现在网上有大量的代码库，原来普通人是拿它没有办法的。现在这些“略会”的代码库，就可以进行解读，找出其中的bug，提出有见地的意见和建议来了。前一段时间有一个500G的代码库莫名其妙传到网上去了，很多的普通人拿他是没有办法的。现在的话，你说我略会一点点，稍微知道是怎么回事，你就可以把这个代码库弄到本地来，交给Codex说：“来，告诉我，这里头都写了什么？分几个模块？它们是怎么实现的？这个是为什么？那个是为什么？里头到底是做了些什么东西？”大量的普通人，可以参与到这个过程中来了。

咱们最终的结论：GPT-5-Codex就是一个普通人平权的工具。我们这里讲的普通人，不是说你没有钱、没有这个公司，而是说你不是专业程序员的这些普通人，就可以在GPT-5-Codex的帮助下，做很多原来专业程序员才能做的事情。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！