AI高考制霸风云：DeepSeek数学狂飙143分剑指清北，GPT-4o作文封神，人类考生未来教育路在何方，我们是否已站在变革的十字路口？

Luke Fan — Tue, 10 Jun 2025 00:39:38 +0000

AI大模型已经可以做高考数学题了，超越了多少考生？到底达到什么水平了？大家好，欢迎收听老范讲故事的YouTube频道。

一年一度的高考在大部分省市已经结束了，但是像北京以及一些省市还要再考一天，考到十号结束。预祝各位考生发成绩的时候开心一下。考的时候考得怎么样，其实谁也不知道。真正让大家感到比较揪心、比较紧张的时候，其实是发成绩的时候。

以前这些大模型都是去写高考作文题，今年的话直接开始做数学题了。原来也做，只是分数没有什么讨论的必要，做的分数不高。但是因为从今年年初开始，大家都开始狂卷推理模型了，做数学题这个能力一下就提升了。很多的媒体都跑来做测试，很多自媒体自己也拿着题去做测试。但是自媒体测试的这些就不拿出来参考了，因为这个测试的结果上下差异很大，测试的过程也不是特别经得起推敲。

我们讲的是IT之家做的测试，他们做的是完整测试。现在测试基本上都是拿全国一卷去测试的。搜狐呢是部分测试，只测试前面的这个部分，主要是以选择和填空为主，不完整测试，就是扫描前面的部分进行测试就完事了。完整测试的部分就不是特别公平。比如说像DeepSeek这样的模型，因为自己没有多模态识别能力，你给他一张卷子他认不出来，所以是需要先上OCR，把整个的卷子都识别完了以后，再让DeepSeek按照正确识别的卷子去做出来的。而其他那些具备多模态能力的这些模型呢，就直接把卷子扔给他们，让他们自己去识别、自己去做就完了。所以在这一点上，DeepSeek要稍微占点便宜吧，就是它在识别的过程中不会发生识别错误，而其他的这些多模态模型的话，识别的时候会有一些错误。

每一道题呢会做三次，因为大家知道大模型同一个题你扔进去，每次出来的结果都会稍微有一点点差异。扔进去三次，就有的时候会三次都对，有的时候错一次。如果扔进去三次错了一次的话，这道题的得分呢只能够得到66%，也还算是一个比较公平的计算方式。然后是由多年阅卷经验的数学老师来去批改，因为步骤是要算分的嘛。你不能说前面一个大公式，最后得出一数来，这事不行，你要有一个完整的推理过程和步骤，因为大家测的都是推理模型嘛。

现在到底达到什么水平了呢？先说清北水平的，一个是DeepSeek R1 0528这个版本。现在呢，它150分的数学卷子可以做到143分。你数学考成这样，就有机会去清北了，当然你其他科目也得考得还可以。

如果光是数学考得好的话，你可以去强基。这个143已经是非常强的了。

讯飞星火X1呢，考了141，虽然没有DeepSeek R10 528高，但是要注意，讯飞星火是70B的模型，它要比DeepSeek R1小10倍的参数。能做到141，这个是非常非常厉害的。我们平时不怎么听说过讯飞星火这个模型，因为讯飞星火是专门做教育的，他做了非常多的跟教育相关的训练，所以呢，他特别擅长考试。而且他们还专门出电子教学相关的设备，然后跟各地的教委一起联合起来，向下推说你们买了讯飞的平板，就可以上讯飞的AI课程了。所以他们更适合干这个事儿。

这个是143一个，141一个，非常强了。达到一线985水平的GPT O3，138分。为什么GPT O3在这块儿要比DeepSeek R1要差呢？就是GPT O3它的题目是自己读的，自己去做的识别，自己做的多模态的这种OCR。做的过程中呢，有一些中文的符号它识别起来识错了，那这个就没有办法导致扣分。如果GPT O3用DeepSeek R1完整识别过的这些题目，就是说保证100%识别正确的题目去做的话，它有可能得分要比DeepSeek R1还要再高一些。但即使如此，也已经达到了一线985的水平。

然后能够达到985水平的，比这个一线的稍微差一点点的呢，就是130-135分之间的这个水平是谁？豆包和千问3。这里呢要专门讲一下千问3，因为千问3是个开源模型，大家都可以去得到。而且这些呢都是带多模态功能的，它可以自己去读题，读完了以后自己去做出来。所有自己能够读题的这些，都要比DeepSeek R1这个需要别人替他读完了以后让他再去做的要强一些。所以，我们不能单纯地看分数。

然后连211都上不去的这些人是什么呢？就是文心一言跟腾讯混元，不到120分。因为我儿子是120多分嘛，去年高考120多分，上的还算是不错的211。所以这个达不到120分的话，要稍微差一些了。至于Gemini 2.5 Pro，大家印象里是很强的模型。做全测试的这家呢，没试这个；做半测试的就是搜狐呢试了，在前面的题目是100%全对，所以这个应该也是非常强大的。

这就是今年这些大模型做数学题的能力，已经远远超越我了。前面这些吧，已经超越我儿子了。百度这个就算了，百度跟腾讯的，应该没有我儿子考得好。大概就是这样的一个水平。

那作文呢，算是传统技能，这不能丢，还是要试一试。

所以，很多人也拿着今年的作文题扔给大模型去做。60分满分的作文，不同的测试机构评测的侧重点是不一样的。有的看文采，有的看逻辑，有的看价值观，导致分数会有波动。

而且，作文评判因为它是一个主观评判，或者叫更主观一些吧。虽然前面判数学卷子的时候，这些老师也是知道的，说“我现在在判AI的数学卷子”。但你数学毕竟最后是有数的，而且每一步到底应该写什么东西，推导的过程是什么样的，它是有标准的。不是说你把字写难看点，我就可以给你不及格，或者说哪个地方我写的不开心了，我就给你们算错，不是这样的。而这个作文的话是更主观一些，所以呢，他这个我们就姑且一看就好了，没有那么强的参考能力。

他的作文满分60分嘛，GPT-4O是最高分58分，他呢是冠军。他以“血与生的民族史诗”为主线，融合了鲁迅名言与实际与现实案例，展开了跨文化共情，这个就已经很强了。你像60分的作文能写到58，另外一个58分的是千问3，这块写作文大家完全可以信任他，算是并列冠军。通过北斗团队青年工程师案例，将抽象主题具象化，避免空泛抒情。

这个蒋女士在哈佛做演讲之前，应该让千问3替她来写稿，就不会出来演讲完了，一帮人去批她内容空泛了。他自己讲的一个例子，实际上是比较难以引起别人的共鸣吧。他的同学在哪哪哪，他在哪哪哪，大家一起打电话说：“你看这个洗衣机上中文应该怎么拼？”这个故事确实是比较难以引起共鸣，一帮精英去了穷地方了，还要修一塔优越的故事，这事不行。

然后，讯飞星火呢是53分。刚才我们讲过，讯飞星火是专门为教育行业训练的模型，它呢，算是国产模型里头做的最好的。千问为什么没给他算国产模型？这个阿里你说他到底算一个中国公司呢，还是算一个开曼群岛的公司呢，还是稍微的有一些模糊的。但是讯飞星火算是国产模型。他呢，以“血脉里的歌吟：民族精神的三重奏”为题目，展现了深度的推理与人文思辨能力，被评为考试范本级作文。这个也很正常，因为很多的作文都是靠讯飞星火大模型去批改的，所以他知道什么样的东西可以成为范文。

DeepSeek得了52.5分，其实也是很高的分了。这是一个技术派的典型代表，逻辑层次清晰，但是被批罗列观点，就是你该有的都有了，这玩意像写技术报告似的。当然，我个人可能因为作为工程师，作为直男嘛，我可能更喜欢DeepSeek出来的一些东西，快速的把要点都看清楚，就可以接着往前跑了。至于里头抒情的部分，一律过滤掉。

然后，豆包52分，生成速度最快。这个很正常，豆包后边的算力很强，它跑得非常快。但是呢，标题与结构存在模板化问题，就属于是AI味儿很浓啦。你一看就是像套一个模板直接套出来的，这个分数呢就会少一点，但是也还可以吧。

文心一言呢是49分，因为过度依赖模板化表达，被批为华而不实。这个就属于AI味儿更浓一些。所以如果要去写文档的话，或者写一个稍微抒情一点儿的东西，还是用千问吧，或者用GPT-4O这样的模型，不要去选择文心一言。

腾讯混元呢是48分，要比文心一言更差一些。故事完整，但是存在事实性幻觉。在搜狐网测试中，因为信息检索失误，总分垫底。这还要专门讲一下：所有的评测，甭管是做数学还是写作文，都是不许联网的。你就必须靠自己的知识库去搞定所有的事情。你说我去搜索了一把，最后出了一个什么样的文章，这不算本事；或者说我搜索了一把，给你把数学题做对了，这也不算本事。都是不联网的。

然后，质朴清音只得到了40分。为什么呀？他写了个4,000字的长文，而且呢，还缺乏情感张力，学术深度与应试要求脱节。因为高考作文要求的是800字，你是写的快，蹭蹭蹭写了4,000字。这个属于是什么？就指令依从度就很差。我要求你给我写800字的文章，结果你蹭蹭蹭写了4,000字，而且呢也没有符合高考的学术深度要求。就是你可能写的比较深了，这个肯定是有问题的。其实这是按照高考评判的标准去评的。你如果按照大模型的标准去评判，这应该不及格。那我要求你给我写800字，你给我写4,000字，这事肯定是不及格的。

Kimi只得到了35分，因为不是特别稳定。有时候呢做的东西还可以，有时候就不行。它呢结构巧妙，但是内容空泛，里边还写了很多的小标题，被批作画蛇添足。这个也可以理解，因为Kimi最主要用途干嘛呢？写小红书的文案写多了。小红书文案就是这样的一个结构。很多人说我用Kimi写小红书文案，大家很喜欢看，写一堆标题，写一堆条目，甚至还要写表情符，把这个很空泛的东西堆上去就完了，里头其他东西都不需要了。所以这个还是发挥了他的本色吧，算是一个本色演出。

在这样的一个情况下，他已经可以很好的写作文，很好的做算术，而且做数学的能力已经超越了大部分人了。或者说顶尖的已经可以去上清北了。那在这种AI的能力下，我们的高考是不是应该调整一下呢？还是说我们每年接着这么考下去？每年我们继续用AI大模型去刷，一直刷到说，你看现在所有的SOTA模型……

都可以达到满分了。我觉得现在是可以来思考一下这样的问题了。那你说，这算不算是数学平权真的来了呢？

因为数学是一个非常公平的东西，会就是会，不会就是不会。而且这个东西跟智商是有明确的绑定关系的。你说我智商不够，再怎么学你也学不会。还不像是其他的一些科目，你说我多花点功夫多背一背。你说我英文学不好，我扔到一个英语国家，我在那泡一段时间，他都有能泡出来的。但是数学这个东西，你就不会的话，是怎么学你也学不会的。

那现在我们有了DeepSeek了，有了GPT O3了，有了这样的工具以后，是不是就可以每个人都掌握高端的数学工具，去解决一些原来必须是数学家，或者说清北学生才可以解决的问题了呢？这个是不是已经到来了呢？是不是应该从小就去教孩子如何使用AI解决各种问题呢？

到底应该怎么去教育他？未来的人们到底是如何工作的呢？我们以人类程序员在AI编程助手的帮助下一起工作的过程为例，咱们设想一下，未来的人可能是怎么干活的。

人类在这个过程中，第一件事要干嘛？要理解，或者是要创造需求。这个我们不要吵，因为有些人说，需求永远不是被创造出来的，而是被发现出来的。这个没关系，反正就是甭管是你发现了需求，还是理解了需求，这是人必须要干的第一件事情。

第二个事情是什么？就是要描述和提出问题。我发现这有问题了，那我得能把它讲清楚，让大模型可以去识别我希望让他干的事情。这个事也是需要训练的。

第三个是干嘛呢？就是审核大模型做出来的规划和结果。因为现在都有推理过程，你要审核一下。因为这一次做数学题的时候，他们就发现有些大模型呢，这个步骤是对的，但是最后结果错了。也有一些呢，是这个步骤是错的，但结果是对的。

那么人类去跟大模型一起工作的时候，我们就要去看：你现在给出来的这个推理过程对不对？是不是符合逻辑的？或者说中间是不是少参考了一些什么样的信息？有一些隐藏条件被你丢掉了，还是出现了一些中间推理的过程推理错了的情况？这个人是要去检查的人，不检查的话，那翻车就是分分钟的事情。

所以像我们这种程序员跟大模型一起工作，需要建立的是什么？就是基本的常识和逻辑推理能力。但是呢，不再需要记忆很多细节了。比如说我今天要通过Twitter的某一个功能，或者x的某一个功能去发帖，或者从x里边找到相应的内容去给我进行总结归纳。原来我需要看一大堆手册，或者我需要背下很多东西来，那现在不需要了。

有时候，输出的结果里面包括：“整理后的文字如下：”

我只管问大模型说来给我干活去。我想在x上面去找到相应的贴，然后在后边做一个评论。他会自然而然的做一个推理过程，生成相应的代码再进行测试，一直到这个代码可以跑通。在这个过程中，我需要干的事情就是观察他的推理过程，看他的代码。如果出现问题了，我再去告诉他说，问题出在什么地方，我们应该如何去修改，或者哪里没理解对，我需要补充一些什么信息。最终两边一起合作，把这个程序写出来，把这个功能实现掉。这就是我们的一个工作方式。

是不是以后的教育都是围绕这个方向来的呢？理想化的未来教育，大家注意我这讲一个叫理想化，就是很难实现，但是呢，我们还是可以去想一下的。理想化的未来教育是什么样？

第一个是学习基础的逻辑和知识体系就可以了，就有点像那种通识教育似的。每件事儿呢我都知道一点儿，有点儿印象。但是你让我完整地去把它复述出来，或者完整地去把它重现出来，我又没有这个能力。但是我知道有这么个事儿，你想靠这玩意儿骗我没戏，它是这样的一个情况。

第二个呢是学习如何向AI描述问题。我现在有一个基本的概念了，我发现哪个地方有一个坑，我需要去填这个坑。我可以把这个问题很清晰地向AI描述清楚，这个是需要训练的。

第三个呢就是要学习AI大模型的工作原理。这个东西到底是怎么干活的？如果你不学习这个东西怎么干活的话，那就变成黑盒子了。虽然你学习了还是个黑盒子，但是呢至少出了错误的时候，你大概知道应该怎么去调整它。

最后呢，就是要学习如何审核和校对AI给出的推理过程和最终的结果。AI输出一大堆东西，直接啪就贴上去用了，这事是不行的。至少到目前为止，AI出来的东西还都是不能保证正确的。你现在使用各种AI助手，底下都会写一行字：结果由AI生成，有可能存在错误，请谨慎使用。意思就是我不负责任呗。所以我们还是要去训练如何去验证结果，也包括验证过程。

那么理想化的未来考试是什么？刚才我们讲了我们需要这些能力，那我们就照着这个能力去考呗。脱离当前的考试大纲，不再研究说高考的时候你应该学到哪些东西，哪些东西不应该学，就没有这事了。因为你在AI大模型的帮助下，你其实什么都可以干，或者可以干的事情是很多的。

现在人家山姆奥特曼说了，说我们这个GPT O3是可以达到博士级了，现在已经出了GPT O3 Pro了，但是200美元的账号才可以用。你让他去参加高考做数学题的话，相当于是限制了他的能力。我们需要考察的。

是基本的逻辑架构和知识体系。要尽可能宽泛地了解所有形成世界的基础逻辑。然后呢，要考察提示词能力。你要写出逻辑清晰、完整的提示词，可以让大模型输出可用的结果。这个事呢，也是需要训练的。

那么我们是不是去考察一下？以前的很多题目是喜欢玩文字游戏。我们是不是就需要靠提示词的过程中，说我们写一个提示词，你来看看有错没有？或者说，这个提示词跟你现在要干的事情之间是不是有差异？你可以让他进行提示词改错。

比如说有一个需求，你写一个提示词问考生说：“这个提示词是不是可以完整地解决这个问题？”这个都是可以去考核的。原来这种钻牛角尖的题，或者说叽里拐弯在里头埋陷阱的题，现在依然可以在提示词考察里边，让他去实现推理过程和结果的验证能力。这个应该是一个比较核心的考察。

这块呢，其实是对基础逻辑能力的一个考察。说你看这个是推导的一个结果出来，现在请告诉我说，推导的过程是不是有问题？是不是完整地考虑到了原来的这个条件，包括所有的隐藏条件，是不是都考虑到了？最终得到的结果是不是按照这个推导过程推导出来的？你就完全可以要求考生直接去进行验证。

这个我觉得可能是未来考试的一个理想化方向。咱们要强调一下，如果真的能够实现这个理想状态的话，科技大爆发就应该离我们不远了。因为原来只有极少数的人可以参与到最上层的研究中去。现在的话，更多的人，或者说更多的既有其他技能，但是数学或者某些技能不是那么强的人，都可以参与到科技研发过程中去了。

算是理想主义吧，但是到底能不能实现不知道。为什么？因为有了线上教育，特别像Coursera这种线上教育以后，当时大家觉得就已经该科技到爆发了。因为每一个人都已经可以得到，或者说很廉价、很便捷地得到所有的教育资源了。你说我今天想听斯坦福的课，我想听哈佛的课，都可以在网上找到资源，而且都不要钱。

但是满街都是清北的毕业生了吗？没有。这个事情并没有发生什么特别大的变化。社会依然是金字塔形的，该有多少人成才，依然是有这么多。但是你说到底是社会没有做好准备吸收这么多天才进来呢？还是说，虽然有这么多的教育资源，但是大部分人其实是没有能力去学习，或者说没有意愿、没有意志去学习的呢？

这个可能原因稍微复杂一些吧。前面的设想肯定是太理想化了，这咱们要承认。不知道是否可以向这个方向前进，也不知道如何向这个方向前进。考试与教育本身呢，并不仅仅是推动社会进步，也不仅仅是为了推动社会进步。

来去培养和筛选人才的，这个一定要注意。前面我们讲的一个理想化的方式是说，我们为了社会进步达到最高速度，我们应该这样去培养和筛选人才。但是呢，教育跟考试要解决的问题还有很多。刚才我们讲的只是其中的一项，太多的因素制约了教育过程的改变。

第一个因素，教师体系必然会反对改变的呀。我教了一辈子书了，学了一辈子的东西了，我以后必须要照这个东西继续教下去。你让我整个推翻了重来一遍，这是不可能的。你推翻了就相当于这帮人全失业了，这是他们绝对不可能同意的。而且如何教育、如何考试这件事情，就是由这些人做决定的。所以呢，这就是第一大阻力。前面我们讲这个理想状态是，为什么说很难实现呢？就是教师体系根本就不可能同意往这个方向走。

另外一个教育除了筛选真正有用的人之外，还有一个很重要的问题是，什么叫公平性？因为教育是可以改变生活的，是可以让人进行阶级跃迁的。你如果把公平性打破了的话，可能很多社会构建的基础就没有了。那你说怎么个公平性用法？给大家举个例子吧。比如说现在很多省在高考里头，英语是不考听力的。其实也考，但是呢，他的听力是不计入总分的。这些省份呢，他会把你的卷面分数乘1.25，就直接满分到150分了。听力这部分呢不计入到你总分里去，但是你也得考。考完了以后干嘛使呢？排名用。如果两个人的高考总分是一样的，他听力高一些，你就排在另外一个人的前面。

现在还有哪些省份因为老少边穷地区没有上听力课的条件，要维持考试公平，就把听力分取消了呢？河南、山西、新疆、西藏，这四个省是取消的。2024年之前听力不计入成绩的。有哪些省呢？就2024年以后，2024、2025计入那个总分的，就2024年开始计入总分的呢，是安徽、甘肃和贵州。从2025年开始计入总分的呢，是内蒙、四川和云南。这些学生真的没有能力去上听力吗？真的没有能力去获取听力相关的培训资源吗？这不可能的嘛。都经历了疫情了，上过网课的学生，怎么可能没有听力教学资源呢？但是他们就会以这样的理由说，我们这考听力不公平。

所以呢，教育跟考试不光要思考说教社会发展的问题，还要思考公平的问题。你说他连这个英语听力都搞不定，让他们去学习大模型是怎么回事？不是扯吗？你要求每一个学生配一台电脑，当然这个里头肯定会有人很开心了，说来赶快接着买我们家电脑。比如说讯飞这样的就会很开心，但是这个也会给很多的学生增加非常巨大的经济负担，这个是有问题的。

虽然AI来了这件事呢，是不可阻挡的。即使大面积的教育无法改变，但是各种细分群体的教育过程，必然已经开始发生改变了。

每个家庭如果有条件的，现在都会去教育孩子如何跟AI一起去工作。你说我没条件，或者说家长没有相应的认知，那是另外一回事。有条件的都开始干了。一些学校里边的话，也会有一些小班的特定培训。甚至呢，一些不以高考为衡量标准的小众学校，你比如马斯克现在新造的那个学校，也可能直接就改变了。

总结一下吧，AI已经可以开始刷高考题了，而且不光是刷作文，现在还可以拿出来去刷数学了。而且刷数学都可以刷到清北水平了，超越了绝大部分的考生，直接奔着清北就去了。

AI本身也在一日千里地狂奔。我们现在用的是GPT-3，还没有去用GPT-3 Pro。而且现在GPT-4其实已经训练出来了。这个东西真叫日新月异的在发展。所以未来到底怎么样，真不好说。可能真的再过个一年，或者再过个两年，再有高考题出来了以后，AI就是都可以刷到满分，或者都刷到清北水平。

一帮的学生觉得自己很无助，说我折腾了半天，还没有个计算器做的好。他就会有这样的想法。思考一下未来大家到底应该如何学习、考试和工作，如何去筛选。也算是我这样，直接看高考题会晕菜的人的一种乐趣吧。

所以我们今天在这里，大家讨论一下未来到底应该如何教育、如何考试、如何筛选，以及这些学生教育完了以后，应该如何帮助社会发展。

好，这一期就讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

阿里通义千问高考 – 老范讲故事｜AI、大模型与商业世界的故事

AI高考制霸风云：DeepSeek数学狂飙143分剑指清北，GPT-4o作文封神，人类考生未来教育路在何方，我们是否已站在变革的十字路口？