黑箱重建完整软件 - 老范讲故事｜AI、大模型与商业世界的故事

最新编程跑分：大模型全军覆灭，但真正可怕的不是 0%

大家好，欢迎收听老范讲故事的 YouTube 频道。

这两天，AI 编程圈出了一个新的跑分，叫做 ProgramBench。这个测试非常狠：它不是让 AI 去改一个 bug，也不是让 AI 补一个函数，也不是让 AI 在现有项目里加一个小功能。

它直接把题目做成这样：给你一个已经编译好的可执行文件，再给你一份使用文档。你根据文档和可执行文件去测试：应该输入什么、输错以后该怎么报错。源码什么都不给，然后让 AI 自己规划，写出完整的程序。

这已经是一个完整的软件工程了。以前很多人都说，AI 可以写一部分代码，可以补个 bug，但你给它一个完整项目，它写不出来。老范自己做直播的时候，很多程序员也会说：

你看看，你让它做一个这个，你让它做一个那个，它做得出来吗？

原来确实做不出来，这一次测试也说明它做不出来。但是事情并没有大家想象得那么简单。