
最新编程跑分:大模型全军覆灭,但真正可怕的不是 0%
大家好,欢迎收听老范讲故事的 YouTube 频道。
这两天,AI 编程圈出了一个新的跑分,叫做 ProgramBench。这个测试非常狠:它不是让 AI 去改一个 bug,也不是让 AI 补一个函数,也不是让 AI 在现有项目里加一个小功能。
它直接把题目做成这样:给你一个已经编译好的可执行文件,再给你一份使用文档。你根据文档和可执行文件去测试:应该输入什么、输错以后该怎么报错。源码什么都不给,然后让 AI 自己规划,写出完整的程序。
这已经是一个完整的软件工程了。以前很多人都说,AI 可以写一部分代码,可以补个 bug,但你给它一个完整项目,它写不出来。老范自己做直播的时候,很多程序员也会说:
你看看,你让它做一个这个,你让它做一个那个,它做得出来吗?
原来确实做不出来,这一次测试也说明它做不出来。但是事情并没有大家想象得那么简单。












