GPT 5 Codex，普通人的技术平权里程碑！程序员神话被戳破？当AI能可靠执行7小时复杂任务，普通人与专家的差距还剩多少？｜揭秘 Codex、OpenAI、GPT-5、GPT-5-Codex

GPT-5-Codex的发布，普通人通往技术平权之路的又一个里程碑。

记得上次在天津做线下活动的时候呢，有一位程序员问我说：“我们这些普通人，应该如何应对AI大潮呢？因为现在很多程序员被AI淘汰失业嘛。”我想了一下告诉他说：“你要想清楚一个问题，在AI大潮面前，我们不是普通人，我们是程序员。那些不会写程序的人，才是普通人呐。”

所以，咱们今天要讨论的就是，那些不会写程序的普通人，在GPT-5-Codex的帮助下，怎么能够像我们这些会写程序的人一样，去遨游于代码的海洋之中，知道代码到底在干什么，为什么这么设计，哪里做错了。这个是真正给了他们一个能用的工具。

OpenAI呢，趁着Anthropic屏蔽了程序员的主体族群（也就是咱们中国人的时候），适时地召开了发布会，发布了GPT-5-Codex。大家要注意，它这个名字起得稍微有些混淆。GPT-5呢，是一个大模型；Codex呢，是OpenAI发布的一个编程的agent；GPT-5-Codex呢，是一个在GPT-5的基础上，专门训练的一个用于Codex这个编程AI agent的一个专有模型。它稍微有点绕，就是GPT-5-Codex是一个模型，不是一个简单的agent。

GPT-5-Codex呢，可以自动地判断复杂度，而且可以可靠地执行。自动判断复杂度这件事呢，现在大家都在干。你问了一个简单问题，我就简单回答一下，不会浪费很多的TOKEN。其实，有时候AI想太多，也是一个很烦的事情。什么叫AI想太多？你问豆包一个问题，甭管你问他什么问题，都啰里八嗦给你讲半天，那就属于AI想太多的一个典型体现。

真正难的是可靠执行。什么叫可靠执行？就是AI这种东西呢，每一次执行实际上都有可能出错，都有可能出现一些偏差。如果说我一次执行了以后，自动地再做下一次执行，它就会把这些偏差累积起来，或者我们叫累积误差吧。这种AI agent，它是没有办法做长期执行的，因为它的累积误差会越累积越多，他自己瞎想越想越偏，就这样的一个状态。

但是，GPT-5-Codex在这块会做得很好。OpenAI已做了测试，它最长连续运行了7个小时，中间不会停下来，这是非常非常强大的，而且最终得到了你想要的结果。这个是怎么做到的？肯定内部是有很多的纠偏机制，很多的校验机制。我往东走一步发现不对了，我再往西走一点。其他的AI agent为什么不行？因为有时候钻牛角尖，钻进去以后就钻不出来了。像我们使用Claude Code或者Java CLI这些AI agent的时候，你就必须得盯着它，你发现他越钻越偏、越走越牛角尖的时候，你就要把他打断，告诉他说：“你别往那边走了，那边是错的，有一个正确的方向，你应该如何如何去处理。”这个才是比较麻烦的地方。GPT-5-Codex在这块，已经非常非常强了。

GPT-5-Codex呢，跟OpenAI的Codex这个AI agent结合在一起，绝对是强强联合，而且还不贵。这个很重要，因为使用这些AI agent本身是非常非常昂贵的，它会把你整个的代码库直接塞给这个大模型，你的TOKEN会像流水一样哗啦哗啦地一下就不见了，所以非常非常昂贵。有些人使用Claude Code，一个月能够消耗2万美金的TOKEN，这是非常吓人的。

而像这个GPT-5-Codex，本身在这一块上还是相对比较便宜的。像我这样的Plus账号，就是一个月20美金的账号，基本上够我使了。给出的额度是这样的：每5个小时30-150条通话。你如果是问的很简单，可能就是150条；问的很复杂呢，就是30条。如果你把它耗光了以后呢，它会回答你说：“咱歇会吧，待会再弄。”很多人呢是这样，工作干一白天，如果被提示了说“咱歇一会吧”，他就下班回家了。这样来去使用，它的额度基本上够使，要比使用Anthropic的Max这种，就是200美金一个月的账号，要好用得多。

现在去使用OpenAI Pro账号，200美金一个月的账号的话，它是每5个小时可以回答300条或者是1,500条，就是简单问题1,500条，复杂问题300条。实际上你给它一个复杂问题以后，它自己且跑呢，你想再给他下一条都比较费劲，除非是你并行的同时再开多个窗口一起给他这个命令，有可能这个额度会不够用。正常如果是一个人单人使用的话，其实Plus账号，就是30条复杂任务或者是150条简单任务的话，五个小时之内是够使的。你上午弄完了以后，中午吃个饭休息休息，下午又可以满血复活了。所以它还是比较省钱的。

GPT-5-Codex这个模型呢，其实是在GPT-5的模型上做的提升，本身呢提升并没有那么明显。如果你不是用来编程的话，你就不要拿这个模型来使。如果你要是拿它来编程的话，普通的编程任务呢有提升，但是可能也就是在一些跑分题库上，你能够看到它提升那么一点点，提升的也不是特别多。但是呢，在一些比较特殊的编程场景上，是有比较高的提升的。所以呢，这个提升不重要，发布会本身更重要一些，就告诉大家华人程序员们、中国程序员们：“Anthropic不让你用了，上我这儿来，非常非常好用。”

那么，Codex和其他这些编程工具比起来，有什么差别呢？咱们就使用这个GPT-5-Codex最新的模型，而且上来以后，你可以选择High模式，就是更多的思考的这个模式，这个效果非常好。Codex跟其他这些编程语言工具比起来，最大的优势是“言出法随”。什么叫言出法随？就是你给出指令，你就可以放心等待了，这个就是最大优势。前面也讲了，你给了他一个指令以后，他可以吭哧吭哧跑7个小时，7个小时基本上就是一天了吗？你上一天班不也就8个小时吗？他在这个中间不会跑偏，而且最后会给你一个你所预期的结果。这个非常非常重要，千万不要说他折腾半天给你一结果，最后发现不是你要的，这不是白忙活一场吗？

使用这个AI agent跟这个模型配合起来像什么呢？就像是在一个陌生的国家、语言不通的情况下打Uber的感受。比如说我在泰国吧，泰语肯定不会，他们也不会讲英语，我英语也不怎么样。我去打Uber，这个钱是可控的，你在打车的时候，他告诉你需要花多少钱。目的地呢也是很清晰的，你都是在谷歌地图上挑好了目的地，直接输进去，也不会发生什么错误。中间过程你就不用管了，愿意去跟司机闲聊两句呢，可以试试。我在泰国清迈，我也会用蹩脚的英语尝试跟司机闲扯两句，有时候人家理我，有时候人家不理我，这个也无所谓。如果你不想跟他聊天，你中间睡个觉也没毛病。最后呢，都会在一个你所预期的时间、你所预期的金额下到达目的地。这就是Codex真正给大家的体验。

而如果你使用其他的工具，比如说像Cursor、Claude Code或者Gemini-CLI这些工具的话，你就像是在一个陌生的国家、语言不通、陌生城市坐公交车的感受。这是一个什么感受？太多未知因素了，消耗也是完全不可控的，到底要花多少钱你也不知道。而且呢，这国家可能治安还不太好，有一些坑掉进去未必就爬得出来。是否可以在你所预期的时间和预期的费用下到达目的地？不好说。所以这就是最大的区别，为什么我现在已经完完全全转到Codex上去了，就是这样的一个原因。

现在的这些编程工具呢分三类。一类呢是云端agent，有个网站，你向他提要求“给我做一什么什么东西”，他直接给你做好，你中间就不用管了。他在自己的虚拟机上整个搭环境做，做完了以后，直接给你完整代码就完事了，这是一种方式。第二种方式呢，是给你一个命令行，像咱们刚才讲的Gemini-CLI、Claude Code都是这样的，给你一个命令行工具，你在这个命令行的下面直接给它指令，它去干活去。第三种呢，就是IDE或者是这种IDE插件。比如说Claude Code，就是自己做的IDE；GitHub Copilot，就属于叫IDE插件。它是给你一个集成开发环境（IDE叫集成开发环境），在这个里边的话，咱们直接把所有的事情做完。而Codex的话，它是一个三位一体，就是它三个都给你了。如果你一旦决定使用Codex，你就会有一台服务器，他在服务器上去给你搭建所有的运行环境、搭建开发环境，然后到那边去干完活，给你提交完整的代码。回来也给你一个本地的命令行工具，同时呢给你一个IDE插件，就是VS Code上的一个插件。三个都有，而且都挺好使的。

Codex跟其他这些AI编程工具最大的差异在哪？最大的差异是，它是直接在GitHub仓库上干活的，直接可以管理GitHub仓库，接受各种PR（叫pull request），就是这种拉取的需求。开源仓库什么时候会收到pull request呢？就是别人看着你的开源代码说：“这儿有一bug，我去给你改一改；我那儿想增加一功能，我给你改一改。”这个东西我不能直接在代码库上改，它会提交一个拉取请求，说：“我改好了，你拉回来合并进去吧。”叫pull request。大量的pull request上去以后呢，代码仓库的主人其实是看不过来的。

这个Codex干的第一件事，就是叫自动过滤，直接把骂人的筛选掉。因为有很多人提pull request，什么也没有就上来骂人，这个是很正常的一个事情，林子大了什么鸟都有嘛。华为鸿蒙系统的这些拥趸们，就曾经提交了大量的pull request，要求别人去支持鸿蒙。现在就不需要看这些东西了，这个直接交给Codex，你把pull request拉上来，你去校验一下，看看这东西能不能合并得进去，是不是有问题，这个代码是不是有害，上来是不是骂人呢，还是说提交的代码是完全无效的。他直接看了，看完了以后发现没什么用，就直接扔掉了。所以这些以后就不会再给大家造成困扰了。

这个Codex会自动筛选出重要的pull request出来，交给这个代码库的所有人，你去甄选一下，看看是不是要去合并进去。它不会自动合并进去的。然后呢，也会自动地去review这些代码。这个review是什么？就是给你代码了以后，要有第二个人、第三个人去看一下这个代码。它呢，可以自动地去做安全review。为什么要做安全review呢？前面咱们发生过代码投毒事件。有一位非常同情乌克兰的程序员，在给俄罗斯的一些开源仓库去提交代码的时候呢，就直接投毒了，导致了俄罗斯人使用这些开源代码的时候就有可能会出现问题，这个是不能接受的。Codex可以直接把这些问题都排除掉。

还可以做过期依赖的review。什么叫过期依赖？就是我们有大量的代码，这个代码是一个一个的代码库、代码文件，每一个代码呢，会去依赖一些其他的这些库。有的时候呢，这些代码可能已经不用了，特别是一些屎山代码，可能已经不用了，但是这些依赖还写在里面，这个是非常非常危险的。他会查一下，说这些依赖已经不需要了，我们可以把它去掉。这样的话，代码库呢就会变得清爽一些，否则的话这个屎山就会越聚越多。因为原来代码量太大，咱们也没有办法把整个代码库从头到尾都看一遍，里头有很多的这种过期的依赖就一直会留在里面，后面人就没法改了，这个屎山就堆起来，后边的维护难度就会变得越来越高。

所以Codex可以极大地提升开源项目的管理效率，也可以极大地提升整个代码库的品质。因为屎山就是一堆的代码搁在里头，谁也不愿意把它扒开。能跑，但是为什么能跑，谁也不知道。在里头改任何东西，可能就都不能跑了，谁也不敢动这个东西。屎山在被提交的时候，现在有Codex的维护的话，就很难再入库了。大家一看这是个屎山代码，咱就别把它弄进来了，就搁那了。你按道理说，你这个代码提交上去以后，应该有人去看，应该有人去做review，review完了以后才能入库。但实际上呢，人这种东西，他是爱偷懒的。“这个人每次提交的代码都是对的，从来没有出过什么事，我信任他吧，下次我不看了吧。”就会出现这样的问题。为什么会有人在开源代码库里投毒成功呢？他就是这种信任造成的。现在有Codex了，甭管你提交了多少代码，以前的代码的质量有多好，你这次提交了，我还是会一丝不苟地把你都拎出来去做一次review，它不会偷这个懒的。机器在这点是相对来说比较可靠的，人是不可靠的。所以很多屎山代码就不会入库了。

而且呢，现在Codex可以直接把屎山挖开。为什么以前屎山挖不开？就是人处理代码是有极限的。我们从头到尾去读这个代码的时候，其实我们处理的能力是有限的。一个好程序员，或者说一个顶尖程序员，他比别人强在哪？就是他处理的代码量大。不是说我写了10行代码，写了1万行代码，还是写了多少行代码，就是当我看10万行代码的时候，我知道哪错了，这个错的地方在什么地，这个代码跟哪个代码是相互依赖的，哪个代码是调用哪段代码，这个东西我能搞清楚，这个就是一个程序员的一个基本素养了。另外一个说，我可以在100万行代码里头去把这个问题搞清楚，这个就更厉害一些。但是这个是有限度的，像我们去写一个浏览器或者操作系统，那这个多少亿行，没有任何人可以在里头看完。那你说这种大项目怎么做？就是通过工程的方式把它们切块，每一个程序员负责一部分，你就在这里头去处理，处理完了以后呢，写好接口，写好接口文档，其他人只跟接口去打交道，一个代码别人就不看了。原来是这么来处理的，但是在这个处理过程中的话，这个屎山就很有可能埋在里头，而且谁也没有办法把它挖开。去年我去日本，他们就跟我讲，说日本有好多70多岁的程序员，他写完了代码，除了他自己别人没法看。你再找一个人来看，这么大代码体量你咋看？这个是完完全全的屎山。

现在的话，有了这个GPT-5-Codex这样的新模型，它就可以把屎山挖开。它可以直接把所有的代码，把整个代码库都扔进去，它是有这个能力的，人已经超出极限了，人搞不定这个事。所以呢，他可以去重新替换代码，说这个代码我们整个去重写一下，把这个问题解决掉。这个以前不可能的事情，现在可能了。

那你说原来有没有人说“这个屎山我把它扔了重干一下”？也有。最近咱们看到的一个案例是谁呢？就是埃隆·马斯克。把Twitter买下来以后，把人都裁掉了以后，“咱们重新写吧，以前那屎山我不要了。”那你说他怎么干成了？因为他是埃隆·马斯克就干成了吗？其他人干不成，这是天才？也不是。干成的原因很简单，他不怕宕机。整个代码库更新的时候，这个X系统是宕机了好长时间的，而且有一段时间宕机还是挺频繁的。马斯克说：“反正公司是我的，也不是上市公司了，宕机我认了。”那这种情况下，他可以去把整个代码库扔掉了重写，否则根本没法干。如果是按原来的这种传统公司的架构，任何人都不敢去扒这个屎山代码，因为宕了机以后谁也负不起这责任。最上面管事的人，绝对是一帮普通人，甭管他是叫CEO，还是叫什么别的名字，那都是普通人，他不会写程序的。他只要求就是“你不许宕机”，具体这事是怎么回事，他是不管的。只有马斯克这种工程师，而且有钱任性，他可以说：“咱们把它整个屎山挖开。”其他人搞不定。

那么，GPT-5-Codex到底怎么能够让普通人去进行技术平权呢？分两步。

第一步，大厂会落后。大厂为什么会落后呢？因为很多大厂，最上面是一帮完全不懂技术的叫CEO，或者是叫一些其他的title的人在管。他们会很固执的要求，我们所有的代码不能上网。特别是像日本这样的国家，他们就没有办法去使用刚才我们说的这些工具：Claude Code、Gemini-CLI、OpenAI的Codex。它只能使用本地部署的一些小模型，那它的整个的数据库就会落后，就没有办法去跟那些新兴的企业去竞争。新兴企业，可能你没有钱去雇佣那么多的老程序员、高端程序员，但是可以靠一堆业余程序员、有业余爱好的程序员，就在Codex的帮助下就快速地追平大厂。而大厂呢，守着一堆屎山代码，因为不允许连接外网，那他就只能等着这些新的企业去超越他，他没有任何办法，只能眼睁睁等死。大厂原来的优势就是长期积累，以及呢，可以花高薪去雇佣最好的程序员，但是现在这些通通都成为包袱。被高薪雇佣到大厂的程序员，他们会进到大厂里去，看到大厂里头的系统到底是怎么做的，看完了以后说：“算了，咱们出去创业吧。”掘墓人就这么产生了。所以大厂会在这个过程中轰然倒下。

另外一个是什么？就是普通人也可以参与到技术平权里来了。咱们刚才讲“普通人”是非程序员，在这里的定义。当然了，这里的普通人，并不是说完全不懂程序的人。就像什么呢？比如摄影吧，原来有职业摄影师，但是你像我，我算业余摄影爱好者，但是对于职业摄影师来说呢，我肯定就是普通人了。能够理解这个逻辑吧？对于我这样的人来说，我现在也可以在大疆的这种傻瓜型的摄影工具的帮助下，拍出一些还不错的照片和视频出来了。现在也是这样的，一些稍微懂一点点编程的门外汉、编程的业余爱好者，也可以在Codex的帮助下，去做出一些很专业的产品出来了，完成一些很专业的工作了。这就是普通人的一个技术平权之路。而一点都不会，说我完全也不想看，这个事您还是普通人，跟我们没关系。稍微有点兴趣看一点，我们叫“略会”。很多东北的脱口秀里都在讲这个话：“你会打乒乓球吗？”“略会。”“会游泳吗？”“略会。”稍微会一点点的意思。略会编程的人，就可以解决很多大问题了。

你说我们去看一下Linux内核怎么回事？你原来需要学很久的，现在不需要了。略会一点点，我就可以去看看Linux内核到底怎么写的，有什么问题，哪有bug，哪个地方有可能有漏洞，都可以搞定。Linux内核是开源的，我们直接可以在源代码库上看。现在网上有大量的代码库，原来普通人是拿它没有办法的。现在这些“略会”的代码库，就可以进行解读，找出其中的bug，提出有见地的意见和建议来了。前一段时间有一个500G的代码库莫名其妙传到网上去了，很多的普通人拿他是没有办法的。现在的话，你说我略会一点点，稍微知道是怎么回事，你就可以把这个代码库弄到本地来，交给Codex说：“来，告诉我，这里头都写了什么？分几个模块？它们是怎么实现的？这个是为什么？那个是为什么？里头到底是做了些什么东西？”大量的普通人，可以参与到这个过程中来了。

咱们最终的结论：GPT-5-Codex就是一个普通人平权的工具。我们这里讲的普通人，不是说你没有钱、没有这个公司，而是说你不是专业程序员的这些普通人，就可以在GPT-5-Codex的帮助下，做很多原来专业程序员才能做的事情。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！