GPT 5 Codex,普通人的技术平权里程碑!程序员神话被戳破?当AI能可靠执行7小时复杂任务,普通人与专家的差距还剩多少?|揭秘 Codex、OpenAI、GPT-5、GPT-5-Codex

GPT 5 Codex,普通人的技术平权里程碑!程序员神话被戳破?当AI能可靠执行7小时复杂任务,普通人与专家的差距还剩多少?|揭秘 Codex、OpenAI、GPT-5、GPT-5-Codex已关闭评论

GPT-5-Codex的发布,普通人通往技术平权之路的又一个里程碑。

大家好,欢迎收听老范讲故事的YouTube频道

记得上次在天津做线下活动的时候呢,有一位程序员问我说:“我们这些普通人,应该如何应对AI大潮呢?因为现在很多程序员被AI淘汰失业嘛。”我想了一下告诉他说:“你要想清楚一个问题,在AI大潮面前,我们不是普通人,我们是程序员。那些不会写程序的人,才是普通人呐。”

所以,咱们今天要讨论的就是,那些不会写程序的普通人,在GPT-5-Codex的帮助下,怎么能够像我们这些会写程序的人一样,去遨游于代码的海洋之中,知道代码到底在干什么,为什么这么设计,哪里做错了。这个是真正给了他们一个能用的工具。

OpenAI呢,趁着Anthropic屏蔽了程序员的主体族群(也就是咱们中国人的时候),适时地召开了发布会,发布了GPT-5-Codex。大家要注意,它这个名字起得稍微有些混淆。GPT-5呢,是一个大模型;Codex呢,是OpenAI发布的一个编程的agent;GPT-5-Codex呢,是一个在GPT-5的基础上,专门训练的一个用于Codex这个编程AI agent的一个专有模型。它稍微有点绕,就是GPT-5-Codex是一个模型,不是一个简单的agent。

GPT-5-Codex呢,可以自动地判断复杂度,而且可以可靠地执行。自动判断复杂度这件事呢,现在大家都在干。你问了一个简单问题,我就简单回答一下,不会浪费很多的TOKEN。其实,有时候AI想太多,也是一个很烦的事情。什么叫AI想太多?你问豆包一个问题,甭管你问他什么问题,都啰里八嗦给你讲半天,那就属于AI想太多的一个典型体现。

真正难的是可靠执行。什么叫可靠执行?就是AI这种东西呢,每一次执行实际上都有可能出错,都有可能出现一些偏差。如果说我一次执行了以后,自动地再做下一次执行,它就会把这些偏差累积起来,或者我们叫累积误差吧。这种AI agent,它是没有办法做长期执行的,因为它的累积误差会越累积越多,他自己瞎想越想越偏,就这样的一个状态。

但是,GPT-5-Codex在这块会做得很好。OpenAI已做了测试,它最长连续运行了7个小时,中间不会停下来,这是非常非常强大的,而且最终得到了你想要的结果。这个是怎么做到的?肯定内部是有很多的纠偏机制,很多的校验机制。我往东走一步发现不对了,我再往西走一点。其他的AI agent为什么不行?因为有时候钻牛角尖,钻进去以后就钻不出来了。像我们使用Claude Code或者Java CLI这些AI agent的时候,你就必须得盯着它,你发现他越钻越偏、越走越牛角尖的时候,你就要把他打断,告诉他说:“你别往那边走了,那边是错的,有一个正确的方向,你应该如何如何去处理。”这个才是比较麻烦的地方。GPT-5-Codex在这块,已经非常非常强了。

GPT-5-Codex呢,跟OpenAI的Codex这个AI agent结合在一起,绝对是强强联合,而且还不贵。这个很重要,因为使用这些AI agent本身是非常非常昂贵的,它会把你整个的代码库直接塞给这个大模型,你的TOKEN会像流水一样哗啦哗啦地一下就不见了,所以非常非常昂贵。有些人使用Claude Code,一个月能够消耗2万美金的TOKEN,这是非常吓人的。

而像这个GPT-5-Codex,本身在这一块上还是相对比较便宜的。像我这样的Plus账号,就是一个月20美金的账号,基本上够我使了。给出的额度是这样的:每5个小时30-150条通话。你如果是问的很简单,可能就是150条;问的很复杂呢,就是30条。如果你把它耗光了以后呢,它会回答你说:“咱歇会吧,待会再弄。”很多人呢是这样,工作干一白天,如果被提示了说“咱歇一会吧”,他就下班回家了。这样来去使用,它的额度基本上够使,要比使用Anthropic的Max这种,就是200美金一个月的账号,要好用得多。

现在去使用OpenAI Pro账号,200美金一个月的账号的话,它是每5个小时可以回答300条或者是1,500条,就是简单问题1,500条,复杂问题300条。实际上你给它一个复杂问题以后,它自己且跑呢,你想再给他下一条都比较费劲,除非是你并行的同时再开多个窗口一起给他这个命令,有可能这个额度会不够用。正常如果是一个人单人使用的话,其实Plus账号,就是30条复杂任务或者是150条简单任务的话,五个小时之内是够使的。你上午弄完了以后,中午吃个饭休息休息,下午又可以满血复活了。所以它还是比较省钱的。

GPT-5-Codex这个模型呢,其实是在GPT-5的模型上做的提升,本身呢提升并没有那么明显。如果你不是用来编程的话,你就不要拿这个模型来使。如果你要是拿它来编程的话,普通的编程任务呢有提升,但是可能也就是在一些跑分题库上,你能够看到它提升那么一点点,提升的也不是特别多。但是呢,在一些比较特殊的编程场景上,是有比较高的提升的。所以呢,这个提升不重要,发布会本身更重要一些,就告诉大家华人程序员们、中国程序员们:“Anthropic不让你用了,上我这儿来,非常非常好用。”

那么,Codex和其他这些编程工具比起来,有什么差别呢?咱们就使用这个GPT-5-Codex最新的模型,而且上来以后,你可以选择High模式,就是更多的思考的这个模式,这个效果非常好。Codex跟其他这些编程语言工具比起来,最大的优势是“言出法随”。什么叫言出法随?就是你给出指令,你就可以放心等待了,这个就是最大优势。前面也讲了,你给了他一个指令以后,他可以吭哧吭哧跑7个小时,7个小时基本上就是一天了吗?你上一天班不也就8个小时吗?他在这个中间不会跑偏,而且最后会给你一个你所预期的结果。这个非常非常重要,千万不要说他折腾半天给你一结果,最后发现不是你要的,这不是白忙活一场吗?

使用这个AI agent跟这个模型配合起来像什么呢?就像是在一个陌生的国家、语言不通的情况下打Uber的感受。比如说我在泰国吧,泰语肯定不会,他们也不会讲英语,我英语也不怎么样。我去打Uber,这个钱是可控的,你在打车的时候,他告诉你需要花多少钱。目的地呢也是很清晰的,你都是在谷歌地图上挑好了目的地,直接输进去,也不会发生什么错误。中间过程你就不用管了,愿意去跟司机闲聊两句呢,可以试试。我在泰国清迈,我也会用蹩脚的英语尝试跟司机闲扯两句,有时候人家理我,有时候人家不理我,这个也无所谓。如果你不想跟他聊天,你中间睡个觉也没毛病。最后呢,都会在一个你所预期的时间、你所预期的金额下到达目的地。这就是Codex真正给大家的体验。

而如果你使用其他的工具,比如说像Cursor、Claude Code或者Gemini-CLI这些工具的话,你就像是在一个陌生的国家、语言不通、陌生城市坐公交车的感受。这是一个什么感受?太多未知因素了,消耗也是完全不可控的,到底要花多少钱你也不知道。而且呢,这国家可能治安还不太好,有一些坑掉进去未必就爬得出来。是否可以在你所预期的时间和预期的费用下到达目的地?不好说。所以这就是最大的区别,为什么我现在已经完完全全转到Codex上去了,就是这样的一个原因。

现在的这些编程工具呢分三类。一类呢是云端agent,有个网站,你向他提要求“给我做一什么什么东西”,他直接给你做好,你中间就不用管了。他在自己的虚拟机上整个搭环境做,做完了以后,直接给你完整代码就完事了,这是一种方式。第二种方式呢,是给你一个命令行,像咱们刚才讲的Gemini-CLI、Claude Code都是这样的,给你一个命令行工具,你在这个命令行的下面直接给它指令,它去干活去。第三种呢,就是IDE或者是这种IDE插件。比如说Claude Code,就是自己做的IDE;GitHub Copilot,就属于叫IDE插件。它是给你一个集成开发环境(IDE叫集成开发环境),在这个里边的话,咱们直接把所有的事情做完。而Codex的话,它是一个三位一体,就是它三个都给你了。如果你一旦决定使用Codex,你就会有一台服务器,他在服务器上去给你搭建所有的运行环境、搭建开发环境,然后到那边去干完活,给你提交完整的代码。回来也给你一个本地的命令行工具,同时呢给你一个IDE插件,就是VS Code上的一个插件。三个都有,而且都挺好使的。

Codex跟其他这些AI编程工具最大的差异在哪?最大的差异是,它是直接在GitHub仓库上干活的,直接可以管理GitHub仓库,接受各种PR(叫pull request),就是这种拉取的需求。开源仓库什么时候会收到pull request呢?就是别人看着你的开源代码说:“这儿有一bug,我去给你改一改;我那儿想增加一功能,我给你改一改。”这个东西我不能直接在代码库上改,它会提交一个拉取请求,说:“我改好了,你拉回来合并进去吧。”叫pull request。大量的pull request上去以后呢,代码仓库的主人其实是看不过来的。

这个Codex干的第一件事,就是叫自动过滤,直接把骂人的筛选掉。因为有很多人提pull request,什么也没有就上来骂人,这个是很正常的一个事情,林子大了什么鸟都有嘛。华为鸿蒙系统的这些拥趸们,就曾经提交了大量的pull request,要求别人去支持鸿蒙。现在就不需要看这些东西了,这个直接交给Codex,你把pull request拉上来,你去校验一下,看看这东西能不能合并得进去,是不是有问题,这个代码是不是有害,上来是不是骂人呢,还是说提交的代码是完全无效的。他直接看了,看完了以后发现没什么用,就直接扔掉了。所以这些以后就不会再给大家造成困扰了。

这个Codex会自动筛选出重要的pull request出来,交给这个代码库的所有人,你去甄选一下,看看是不是要去合并进去。它不会自动合并进去的。然后呢,也会自动地去review这些代码。这个review是什么?就是给你代码了以后,要有第二个人、第三个人去看一下这个代码。它呢,可以自动地去做安全review。为什么要做安全review呢?前面咱们发生过代码投毒事件。有一位非常同情乌克兰的程序员,在给俄罗斯的一些开源仓库去提交代码的时候呢,就直接投毒了,导致了俄罗斯人使用这些开源代码的时候就有可能会出现问题,这个是不能接受的。Codex可以直接把这些问题都排除掉。

还可以做过期依赖的review。什么叫过期依赖?就是我们有大量的代码,这个代码是一个一个的代码库、代码文件,每一个代码呢,会去依赖一些其他的这些库。有的时候呢,这些代码可能已经不用了,特别是一些屎山代码,可能已经不用了,但是这些依赖还写在里面,这个是非常非常危险的。他会查一下,说这些依赖已经不需要了,我们可以把它去掉。这样的话,代码库呢就会变得清爽一些,否则的话这个屎山就会越聚越多。因为原来代码量太大,咱们也没有办法把整个代码库从头到尾都看一遍,里头有很多的这种过期的依赖就一直会留在里面,后面人就没法改了,这个屎山就堆起来,后边的维护难度就会变得越来越高。

所以Codex可以极大地提升开源项目的管理效率,也可以极大地提升整个代码库的品质。因为屎山就是一堆的代码搁在里头,谁也不愿意把它扒开。能跑,但是为什么能跑,谁也不知道。在里头改任何东西,可能就都不能跑了,谁也不敢动这个东西。屎山在被提交的时候,现在有Codex的维护的话,就很难再入库了。大家一看这是个屎山代码,咱就别把它弄进来了,就搁那了。你按道理说,你这个代码提交上去以后,应该有人去看,应该有人去做review,review完了以后才能入库。但实际上呢,人这种东西,他是爱偷懒的。“这个人每次提交的代码都是对的,从来没有出过什么事,我信任他吧,下次我不看了吧。”就会出现这样的问题。为什么会有人在开源代码库里投毒成功呢?他就是这种信任造成的。现在有Codex了,甭管你提交了多少代码,以前的代码的质量有多好,你这次提交了,我还是会一丝不苟地把你都拎出来去做一次review,它不会偷这个懒的。机器在这点是相对来说比较可靠的,人是不可靠的。所以很多屎山代码就不会入库了。

而且呢,现在Codex可以直接把屎山挖开。为什么以前屎山挖不开?就是人处理代码是有极限的。我们从头到尾去读这个代码的时候,其实我们处理的能力是有限的。一个好程序员,或者说一个顶尖程序员,他比别人强在哪?就是他处理的代码量大。不是说我写了10行代码,写了1万行代码,还是写了多少行代码,就是当我看10万行代码的时候,我知道哪错了,这个错的地方在什么地,这个代码跟哪个代码是相互依赖的,哪个代码是调用哪段代码,这个东西我能搞清楚,这个就是一个程序员的一个基本素养了。另外一个说,我可以在100万行代码里头去把这个问题搞清楚,这个就更厉害一些。但是这个是有限度的,像我们去写一个浏览器或者操作系统,那这个多少亿行,没有任何人可以在里头看完。那你说这种大项目怎么做?就是通过工程的方式把它们切块,每一个程序员负责一部分,你就在这里头去处理,处理完了以后呢,写好接口,写好接口文档,其他人只跟接口去打交道,一个代码别人就不看了。原来是这么来处理的,但是在这个处理过程中的话,这个屎山就很有可能埋在里头,而且谁也没有办法把它挖开。去年我去日本,他们就跟我讲,说日本有好多70多岁的程序员,他写完了代码,除了他自己别人没法看。你再找一个人来看,这么大代码体量你咋看?这个是完完全全的屎山。

现在的话,有了这个GPT-5-Codex这样的新模型,它就可以把屎山挖开。它可以直接把所有的代码,把整个代码库都扔进去,它是有这个能力的,人已经超出极限了,人搞不定这个事。所以呢,他可以去重新替换代码,说这个代码我们整个去重写一下,把这个问题解决掉。这个以前不可能的事情,现在可能了。

那你说原来有没有人说“这个屎山我把它扔了重干一下”?也有。最近咱们看到的一个案例是谁呢?就是埃隆·马斯克。把Twitter买下来以后,把人都裁掉了以后,“咱们重新写吧,以前那屎山我不要了。”那你说他怎么干成了?因为他是埃隆·马斯克就干成了吗?其他人干不成,这是天才?也不是。干成的原因很简单,他不怕宕机。整个代码库更新的时候,这个X系统是宕机了好长时间的,而且有一段时间宕机还是挺频繁的。马斯克说:“反正公司是我的,也不是上市公司了,宕机我认了。”那这种情况下,他可以去把整个代码库扔掉了重写,否则根本没法干。如果是按原来的这种传统公司的架构,任何人都不敢去扒这个屎山代码,因为宕了机以后谁也负不起这责任。最上面管事的人,绝对是一帮普通人,甭管他是叫CEO,还是叫什么别的名字,那都是普通人,他不会写程序的。他只要求就是“你不许宕机”,具体这事是怎么回事,他是不管的。只有马斯克这种工程师,而且有钱任性,他可以说:“咱们把它整个屎山挖开。”其他人搞不定。

那么,GPT-5-Codex到底怎么能够让普通人去进行技术平权呢?分两步。

第一步,大厂会落后。大厂为什么会落后呢?因为很多大厂,最上面是一帮完全不懂技术的叫CEO,或者是叫一些其他的title的人在管。他们会很固执的要求,我们所有的代码不能上网。特别是像日本这样的国家,他们就没有办法去使用刚才我们说的这些工具:Claude Code、Gemini-CLI、OpenAI的Codex。它只能使用本地部署的一些小模型,那它的整个的数据库就会落后,就没有办法去跟那些新兴的企业去竞争。新兴企业,可能你没有钱去雇佣那么多的老程序员、高端程序员,但是可以靠一堆业余程序员、有业余爱好的程序员,就在Codex的帮助下就快速地追平大厂。而大厂呢,守着一堆屎山代码,因为不允许连接外网,那他就只能等着这些新的企业去超越他,他没有任何办法,只能眼睁睁等死。大厂原来的优势就是长期积累,以及呢,可以花高薪去雇佣最好的程序员,但是现在这些通通都成为包袱。被高薪雇佣到大厂的程序员,他们会进到大厂里去,看到大厂里头的系统到底是怎么做的,看完了以后说:“算了,咱们出去创业吧。”掘墓人就这么产生了。所以大厂会在这个过程中轰然倒下。

另外一个是什么?就是普通人也可以参与到技术平权里来了。咱们刚才讲“普通人”是非程序员,在这里的定义。当然了,这里的普通人,并不是说完全不懂程序的人。就像什么呢?比如摄影吧,原来有职业摄影师,但是你像我,我算业余摄影爱好者,但是对于职业摄影师来说呢,我肯定就是普通人了。能够理解这个逻辑吧?对于我这样的人来说,我现在也可以在大疆的这种傻瓜型的摄影工具的帮助下,拍出一些还不错的照片和视频出来了。现在也是这样的,一些稍微懂一点点编程的门外汉、编程的业余爱好者,也可以在Codex的帮助下,去做出一些很专业的产品出来了,完成一些很专业的工作了。这就是普通人的一个技术平权之路。而一点都不会,说我完全也不想看,这个事您还是普通人,跟我们没关系。稍微有点兴趣看一点,我们叫“略会”。很多东北的脱口秀里都在讲这个话:“你会打乒乓球吗?”“略会。”“会游泳吗?”“略会。”稍微会一点点的意思。略会编程的人,就可以解决很多大问题了。

你说我们去看一下Linux内核怎么回事?你原来需要学很久的,现在不需要了。略会一点点,我就可以去看看Linux内核到底怎么写的,有什么问题,哪有bug,哪个地方有可能有漏洞,都可以搞定。Linux内核是开源的,我们直接可以在源代码库上看。现在网上有大量的代码库,原来普通人是拿它没有办法的。现在这些“略会”的代码库,就可以进行解读,找出其中的bug,提出有见地的意见和建议来了。前一段时间有一个500G的代码库莫名其妙传到网上去了,很多的普通人拿他是没有办法的。现在的话,你说我略会一点点,稍微知道是怎么回事,你就可以把这个代码库弄到本地来,交给Codex说:“来,告诉我,这里头都写了什么?分几个模块?它们是怎么实现的?这个是为什么?那个是为什么?里头到底是做了些什么东西?”大量的普通人,可以参与到这个过程中来了。

咱们最终的结论:GPT-5-Codex就是一个普通人平权的工具。我们这里讲的普通人,不是说你没有钱、没有这个公司,而是说你不是专业程序员的这些普通人,就可以在GPT-5-Codex的帮助下,做很多原来专业程序员才能做的事情。

好,这个故事就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛、参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见!

Comments are closed.