最新编程跑分 ProgramBench,大模型全军覆没,AI编程真正可怕在哪?

九个大模型角色站在写着 ProgramBench 的巨大计分牌前,计分牌显示全员 0%,旁边有黑箱可执行文件和代码碎片,浅色背景的商业评论版橡皮泥平面信息图的统一风格。

最新编程跑分:大模型全军覆灭,但真正可怕的不是 0%

大家好,欢迎收听老范讲故事的 YouTube 频道。

这两天,AI 编程圈出了一个新的跑分,叫做 ProgramBench。这个测试非常狠:它不是让 AI 去改一个 bug,也不是让 AI 补一个函数,也不是让 AI 在现有项目里加一个小功能。

它直接把题目做成这样:给你一个已经编译好的可执行文件,再给你一份使用文档。你根据文档和可执行文件去测试:应该输入什么、输错以后该怎么报错。源码什么都不给,然后让 AI 自己规划,写出完整的程序。

这已经是一个完整的软件工程了。以前很多人都说,AI 可以写一部分代码,可以补个 bug,但你给它一个完整项目,它写不出来。老范自己做直播的时候,很多程序员也会说:

你看看,你让它做一个这个,你让它做一个那个,它做得出来吗?

原来确实做不出来,这一次测试也说明它做不出来。但是事情并没有大家想象得那么简单。

阅读更多