AI高考制霸风云:DeepSeek数学狂飙143分剑指清北,GPT-4o作文封神,人类考生未来教育路在何方,我们是否已站在变革的十字路口?
6 月 10
AIGC AI与人类协作工作, AI伦理与社会责任, AI大模型高考, AI对未来社会影响, AI技术发展趋势, AI推理能力测试, AI教育应用前景, AI模型高考排名, AI辅助人才培养, AI辅助编程工具, AI高考作文题, AI高考数学题, AI高考能力评测, DeepSeek高考, GPT-4o高考, Kimi高考, OCR文字提取, SOTA模型评测, YouTube科技频道, 中国AI大模型对比, 多模态AI识别, 提示词工程教学, 教育公平与技术鸿沟, 数学教育AI工具, 未来工作技能需求, 未来教育模式探讨, 百度文心一言高考, 老范讲故事, 考试制度改革方向, 腾讯混元高考, 讯飞星火高考, 豆包AI高考, 阿里通义千问高考, 高考与AI AI高考制霸风云:DeepSeek数学狂飙143分剑指清北,GPT-4o作文封神,人类考生未来教育路在何方,我们是否已站在变革的十字路口?已关闭评论
AI大模型已经可以做高考数学题了,超越了多少考生?到底达到什么水平了?大家好,欢迎收听老范讲故事的YouTube频道。
一年一度的高考在大部分省市已经结束了,但是像北京以及一些省市还要再考一天,考到十号结束。预祝各位考生发成绩的时候开心一下。考的时候考得怎么样,其实谁也不知道。真正让大家感到比较揪心、比较紧张的时候,其实是发成绩的时候。
以前这些大模型都是去写高考作文题,今年的话直接开始做数学题了。原来也做,只是分数没有什么讨论的必要,做的分数不高。但是因为从今年年初开始,大家都开始狂卷推理模型了,做数学题这个能力一下就提升了。很多的媒体都跑来做测试,很多自媒体自己也拿着题去做测试。但是自媒体测试的这些就不拿出来参考了,因为这个测试的结果上下差异很大,测试的过程也不是特别经得起推敲。
我们讲的是IT之家做的测试,他们做的是完整测试。现在测试基本上都是拿全国一卷去测试的。搜狐呢是部分测试,只测试前面的这个部分,主要是以选择和填空为主,不完整测试,就是扫描前面的部分进行测试就完事了。完整测试的部分就不是特别公平。比如说像DeepSeek这样的模型,因为自己没有多模态识别能力,你给他一张卷子他认不出来,所以是需要先上OCR,把整个的卷子都识别完了以后,再让DeepSeek按照正确识别的卷子去做出来的。而其他那些具备多模态能力的这些模型呢,就直接把卷子扔给他们,让他们自己去识别、自己去做就完了。所以在这一点上,DeepSeek要稍微占点便宜吧,就是它在识别的过程中不会发生识别错误,而其他的这些多模态模型的话,识别的时候会有一些错误。
每一道题呢会做三次,因为大家知道大模型同一个题你扔进去,每次出来的结果都会稍微有一点点差异。扔进去三次,就有的时候会三次都对,有的时候错一次。如果扔进去三次错了一次的话,这道题的得分呢只能够得到66%,也还算是一个比较公平的计算方式。然后是由多年阅卷经验的数学老师来去批改,因为步骤是要算分的嘛。你不能说前面一个大公式,最后得出一数来,这事不行,你要有一个完整的推理过程和步骤,因为大家测的都是推理模型嘛。
现在到底达到什么水平了呢?先说清北水平的,一个是DeepSeek R1 0528这个版本。现在呢,它150分的数学卷子可以做到143分。你数学考成这样,就有机会去清北了,当然你其他科目也得考得还可以。
如果光是数学考得好的话,你可以去强基。这个143已经是非常强的了。
讯飞星火X1呢,考了141,虽然没有DeepSeek R10 528高,但是要注意,讯飞星火是70B的模型,它要比DeepSeek R1小10倍的参数。能做到141,这个是非常非常厉害的。我们平时不怎么听说过讯飞星火这个模型,因为讯飞星火是专门做教育的,他做了非常多的跟教育相关的训练,所以呢,他特别擅长考试。而且他们还专门出电子教学相关的设备,然后跟各地的教委一起联合起来,向下推说你们买了讯飞的平板,就可以上讯飞的AI课程了。所以他们更适合干这个事儿。
这个是143一个,141一个,非常强了。达到一线985水平的GPT O3,138分。为什么GPT O3在这块儿要比DeepSeek R1要差呢?就是GPT O3它的题目是自己读的,自己去做的识别,自己做的多模态的这种OCR。做的过程中呢,有一些中文的符号它识别起来识错了,那这个就没有办法导致扣分。如果GPT O3用DeepSeek R1完整识别过的这些题目,就是说保证100%识别正确的题目去做的话,它有可能得分要比DeepSeek R1还要再高一些。但即使如此,也已经达到了一线985的水平。
然后能够达到985水平的,比这个一线的稍微差一点点的呢,就是130-135分之间的这个水平是谁?豆包和千问3。这里呢要专门讲一下千问3,因为千问3是个开源模型,大家都可以去得到。而且这些呢都是带多模态功能的,它可以自己去读题,读完了以后自己去做出来。所有自己能够读题的这些,都要比DeepSeek R1这个需要别人替他读完了以后让他再去做的要强一些。所以,我们不能单纯地看分数。
然后连211都上不去的这些人是什么呢?就是文心一言跟腾讯混元,不到120分。因为我儿子是120多分嘛,去年高考120多分,上的还算是不错的211。所以这个达不到120分的话,要稍微差一些了。至于Gemini 2.5 Pro,大家印象里是很强的模型。做全测试的这家呢,没试这个;做半测试的就是搜狐呢试了,在前面的题目是100%全对,所以这个应该也是非常强大的。
这就是今年这些大模型做数学题的能力,已经远远超越我了。前面这些吧,已经超越我儿子了。百度这个就算了,百度跟腾讯的,应该没有我儿子考得好。大概就是这样的一个水平。
那作文呢,算是传统技能,这不能丢,还是要试一试。
所以,很多人也拿着今年的作文题扔给大模型去做。60分满分的作文,不同的测试机构评测的侧重点是不一样的。有的看文采,有的看逻辑,有的看价值观,导致分数会有波动。
而且,作文评判因为它是一个主观评判,或者叫更主观一些吧。虽然前面判数学卷子的时候,这些老师也是知道的,说“我现在在判AI的数学卷子”。但你数学毕竟最后是有数的,而且每一步到底应该写什么东西,推导的过程是什么样的,它是有标准的。不是说你把字写难看点,我就可以给你不及格,或者说哪个地方我写的不开心了,我就给你们算错,不是这样的。而这个作文的话是更主观一些,所以呢,他这个我们就姑且一看就好了,没有那么强的参考能力。
他的作文满分60分嘛,GPT-4O是最高分58分,他呢是冠军。他以“血与生的民族史诗”为主线,融合了鲁迅名言与实际与现实案例,展开了跨文化共情,这个就已经很强了。你像60分的作文能写到58,另外一个58分的是千问3,这块写作文大家完全可以信任他,算是并列冠军。通过北斗团队青年工程师案例,将抽象主题具象化,避免空泛抒情。
这个蒋女士在哈佛做演讲之前,应该让千问3替她来写稿,就不会出来演讲完了,一帮人去批她内容空泛了。他自己讲的一个例子,实际上是比较难以引起别人的共鸣吧。他的同学在哪哪哪,他在哪哪哪,大家一起打电话说:“你看这个洗衣机上中文应该怎么拼?”这个故事确实是比较难以引起共鸣,一帮精英去了穷地方了,还要修一塔优越的故事,这事不行。
然后,讯飞星火呢是53分。刚才我们讲过,讯飞星火是专门为教育行业训练的模型,它呢,算是国产模型里头做的最好的。千问为什么没给他算国产模型?这个阿里你说他到底算一个中国公司呢,还是算一个开曼群岛的公司呢,还是稍微的有一些模糊的。但是讯飞星火算是国产模型。他呢,以“血脉里的歌吟:民族精神的三重奏”为题目,展现了深度的推理与人文思辨能力,被评为考试范本级作文。这个也很正常,因为很多的作文都是靠讯飞星火大模型去批改的,所以他知道什么样的东西可以成为范文。
DeepSeek得了52.5分,其实也是很高的分了。这是一个技术派的典型代表,逻辑层次清晰,但是被批罗列观点,就是你该有的都有了,这玩意像写技术报告似的。当然,我个人可能因为作为工程师,作为直男嘛,我可能更喜欢DeepSeek出来的一些东西,快速的把要点都看清楚,就可以接着往前跑了。至于里头抒情的部分,一律过滤掉。
然后,豆包52分,生成速度最快。这个很正常,豆包后边的算力很强,它跑得非常快。但是呢,标题与结构存在模板化问题,就属于是AI味儿很浓啦。你一看就是像套一个模板直接套出来的,这个分数呢就会少一点,但是也还可以吧。
文心一言呢是49分,因为过度依赖模板化表达,被批为华而不实。这个就属于AI味儿更浓一些。所以如果要去写文档的话,或者写一个稍微抒情一点儿的东西,还是用千问吧,或者用GPT-4O这样的模型,不要去选择文心一言。
腾讯混元呢是48分,要比文心一言更差一些。故事完整,但是存在事实性幻觉。在搜狐网测试中,因为信息检索失误,总分垫底。这还要专门讲一下:所有的评测,甭管是做数学还是写作文,都是不许联网的。你就必须靠自己的知识库去搞定所有的事情。你说我去搜索了一把,最后出了一个什么样的文章,这不算本事;或者说我搜索了一把,给你把数学题做对了,这也不算本事。都是不联网的。
然后,质朴清音只得到了40分。为什么呀?他写了个4,000字的长文,而且呢,还缺乏情感张力,学术深度与应试要求脱节。因为高考作文要求的是800字,你是写的快,蹭蹭蹭写了4,000字。这个属于是什么?就指令依从度就很差。我要求你给我写800字的文章,结果你蹭蹭蹭写了4,000字,而且呢也没有符合高考的学术深度要求。就是你可能写的比较深了,这个肯定是有问题的。其实这是按照高考评判的标准去评的。你如果按照大模型的标准去评判,这应该不及格。那我要求你给我写800字,你给我写4,000字,这事肯定是不及格的。
Kimi只得到了35分,因为不是特别稳定。有时候呢做的东西还可以,有时候就不行。它呢结构巧妙,但是内容空泛,里边还写了很多的小标题,被批作画蛇添足。这个也可以理解,因为Kimi最主要用途干嘛呢?写小红书的文案写多了。小红书文案就是这样的一个结构。很多人说我用Kimi写小红书文案,大家很喜欢看,写一堆标题,写一堆条目,甚至还要写表情符,把这个很空泛的东西堆上去就完了,里头其他东西都不需要了。所以这个还是发挥了他的本色吧,算是一个本色演出。
在这样的一个情况下,他已经可以很好的写作文,很好的做算术,而且做数学的能力已经超越了大部分人了。或者说顶尖的已经可以去上清北了。那在这种AI的能力下,我们的高考是不是应该调整一下呢?还是说我们每年接着这么考下去?每年我们继续用AI大模型去刷,一直刷到说,你看现在所有的SOTA模型……
都可以达到满分了。我觉得现在是可以来思考一下这样的问题了。那你说,这算不算是数学平权真的来了呢?
因为数学是一个非常公平的东西,会就是会,不会就是不会。而且这个东西跟智商是有明确的绑定关系的。你说我智商不够,再怎么学你也学不会。还不像是其他的一些科目,你说我多花点功夫多背一背。你说我英文学不好,我扔到一个英语国家,我在那泡一段时间,他都有能泡出来的。但是数学这个东西,你就不会的话,是怎么学你也学不会的。
那现在我们有了DeepSeek了,有了GPT O3了,有了这样的工具以后,是不是就可以每个人都掌握高端的数学工具,去解决一些原来必须是数学家,或者说清北学生才可以解决的问题了呢?这个是不是已经到来了呢?是不是应该从小就去教孩子如何使用AI解决各种问题呢?
到底应该怎么去教育他?未来的人们到底是如何工作的呢?我们以人类程序员在AI编程助手的帮助下一起工作的过程为例,咱们设想一下,未来的人可能是怎么干活的。
人类在这个过程中,第一件事要干嘛?要理解,或者是要创造需求。这个我们不要吵,因为有些人说,需求永远不是被创造出来的,而是被发现出来的。这个没关系,反正就是甭管是你发现了需求,还是理解了需求,这是人必须要干的第一件事情。
第二个事情是什么?就是要描述和提出问题。我发现这有问题了,那我得能把它讲清楚,让大模型可以去识别我希望让他干的事情。这个事也是需要训练的。
第三个是干嘛呢?就是审核大模型做出来的规划和结果。因为现在都有推理过程,你要审核一下。因为这一次做数学题的时候,他们就发现有些大模型呢,这个步骤是对的,但是最后结果错了。也有一些呢,是这个步骤是错的,但结果是对的。
那么人类去跟大模型一起工作的时候,我们就要去看:你现在给出来的这个推理过程对不对?是不是符合逻辑的?或者说中间是不是少参考了一些什么样的信息?有一些隐藏条件被你丢掉了,还是出现了一些中间推理的过程推理错了的情况?这个人是要去检查的人,不检查的话,那翻车就是分分钟的事情。
所以像我们这种程序员跟大模型一起工作,需要建立的是什么?就是基本的常识和逻辑推理能力。但是呢,不再需要记忆很多细节了。比如说我今天要通过Twitter的某一个功能,或者x的某一个功能去发帖,或者从x里边找到相应的内容去给我进行总结归纳。原来我需要看一大堆手册,或者我需要背下很多东西来,那现在不需要了。
有时候,输出的结果里面包括:“整理后的文字如下:”
我只管问大模型说来给我干活去。我想在x上面去找到相应的贴,然后在后边做一个评论。他会自然而然的做一个推理过程,生成相应的代码再进行测试,一直到这个代码可以跑通。在这个过程中,我需要干的事情就是观察他的推理过程,看他的代码。如果出现问题了,我再去告诉他说,问题出在什么地方,我们应该如何去修改,或者哪里没理解对,我需要补充一些什么信息。最终两边一起合作,把这个程序写出来,把这个功能实现掉。这就是我们的一个工作方式。
是不是以后的教育都是围绕这个方向来的呢?理想化的未来教育,大家注意我这讲一个叫理想化,就是很难实现,但是呢,我们还是可以去想一下的。理想化的未来教育是什么样?
第一个是学习基础的逻辑和知识体系就可以了,就有点像那种通识教育似的。每件事儿呢我都知道一点儿,有点儿印象。但是你让我完整地去把它复述出来,或者完整地去把它重现出来,我又没有这个能力。但是我知道有这么个事儿,你想靠这玩意儿骗我没戏,它是这样的一个情况。
第二个呢是学习如何向AI描述问题。我现在有一个基本的概念了,我发现哪个地方有一个坑,我需要去填这个坑。我可以把这个问题很清晰地向AI描述清楚,这个是需要训练的。
第三个呢就是要学习AI大模型的工作原理。这个东西到底是怎么干活的?如果你不学习这个东西怎么干活的话,那就变成黑盒子了。虽然你学习了还是个黑盒子,但是呢至少出了错误的时候,你大概知道应该怎么去调整它。
最后呢,就是要学习如何审核和校对AI给出的推理过程和最终的结果。AI输出一大堆东西,直接啪就贴上去用了,这事是不行的。至少到目前为止,AI出来的东西还都是不能保证正确的。你现在使用各种AI助手,底下都会写一行字:结果由AI生成,有可能存在错误,请谨慎使用。意思就是我不负责任呗。所以我们还是要去训练如何去验证结果,也包括验证过程。
那么理想化的未来考试是什么?刚才我们讲了我们需要这些能力,那我们就照着这个能力去考呗。脱离当前的考试大纲,不再研究说高考的时候你应该学到哪些东西,哪些东西不应该学,就没有这事了。因为你在AI大模型的帮助下,你其实什么都可以干,或者可以干的事情是很多的。
现在人家山姆奥特曼说了,说我们这个GPT O3是可以达到博士级了,现在已经出了GPT O3 Pro了,但是200美元的账号才可以用。你让他去参加高考做数学题的话,相当于是限制了他的能力。我们需要考察的。
是基本的逻辑架构和知识体系。要尽可能宽泛地了解所有形成世界的基础逻辑。然后呢,要考察提示词能力。你要写出逻辑清晰、完整的提示词,可以让大模型输出可用的结果。这个事呢,也是需要训练的。
那么我们是不是去考察一下?以前的很多题目是喜欢玩文字游戏。我们是不是就需要靠提示词的过程中,说我们写一个提示词,你来看看有错没有?或者说,这个提示词跟你现在要干的事情之间是不是有差异?你可以让他进行提示词改错。
比如说有一个需求,你写一个提示词问考生说:“这个提示词是不是可以完整地解决这个问题?”这个都是可以去考核的。原来这种钻牛角尖的题,或者说叽里拐弯在里头埋陷阱的题,现在依然可以在提示词考察里边,让他去实现推理过程和结果的验证能力。这个应该是一个比较核心的考察。
这块呢,其实是对基础逻辑能力的一个考察。说你看这个是推导的一个结果出来,现在请告诉我说,推导的过程是不是有问题?是不是完整地考虑到了原来的这个条件,包括所有的隐藏条件,是不是都考虑到了?最终得到的结果是不是按照这个推导过程推导出来的?你就完全可以要求考生直接去进行验证。
这个我觉得可能是未来考试的一个理想化方向。咱们要强调一下,如果真的能够实现这个理想状态的话,科技大爆发就应该离我们不远了。因为原来只有极少数的人可以参与到最上层的研究中去。现在的话,更多的人,或者说更多的既有其他技能,但是数学或者某些技能不是那么强的人,都可以参与到科技研发过程中去了。
算是理想主义吧,但是到底能不能实现不知道。为什么?因为有了线上教育,特别像Coursera这种线上教育以后,当时大家觉得就已经该科技到爆发了。因为每一个人都已经可以得到,或者说很廉价、很便捷地得到所有的教育资源了。你说我今天想听斯坦福的课,我想听哈佛的课,都可以在网上找到资源,而且都不要钱。
但是满街都是清北的毕业生了吗?没有。这个事情并没有发生什么特别大的变化。社会依然是金字塔形的,该有多少人成才,依然是有这么多。但是你说到底是社会没有做好准备吸收这么多天才进来呢?还是说,虽然有这么多的教育资源,但是大部分人其实是没有能力去学习,或者说没有意愿、没有意志去学习的呢?
这个可能原因稍微复杂一些吧。前面的设想肯定是太理想化了,这咱们要承认。不知道是否可以向这个方向前进,也不知道如何向这个方向前进。考试与教育本身呢,并不仅仅是推动社会进步,也不仅仅是为了推动社会进步。
来去培养和筛选人才的,这个一定要注意。前面我们讲的一个理想化的方式是说,我们为了社会进步达到最高速度,我们应该这样去培养和筛选人才。但是呢,教育跟考试要解决的问题还有很多。刚才我们讲的只是其中的一项,太多的因素制约了教育过程的改变。
第一个因素,教师体系必然会反对改变的呀。我教了一辈子书了,学了一辈子的东西了,我以后必须要照这个东西继续教下去。你让我整个推翻了重来一遍,这是不可能的。你推翻了就相当于这帮人全失业了,这是他们绝对不可能同意的。而且如何教育、如何考试这件事情,就是由这些人做决定的。所以呢,这就是第一大阻力。前面我们讲这个理想状态是,为什么说很难实现呢?就是教师体系根本就不可能同意往这个方向走。
另外一个教育除了筛选真正有用的人之外,还有一个很重要的问题是,什么叫公平性?因为教育是可以改变生活的,是可以让人进行阶级跃迁的。你如果把公平性打破了的话,可能很多社会构建的基础就没有了。那你说怎么个公平性用法?给大家举个例子吧。比如说现在很多省在高考里头,英语是不考听力的。其实也考,但是呢,他的听力是不计入总分的。这些省份呢,他会把你的卷面分数乘1.25,就直接满分到150分了。听力这部分呢不计入到你总分里去,但是你也得考。考完了以后干嘛使呢?排名用。如果两个人的高考总分是一样的,他听力高一些,你就排在另外一个人的前面。
现在还有哪些省份因为老少边穷地区没有上听力课的条件,要维持考试公平,就把听力分取消了呢?河南、山西、新疆、西藏,这四个省是取消的。2024年之前听力不计入成绩的。有哪些省呢?就2024年以后,2024、2025计入那个总分的,就2024年开始计入总分的呢,是安徽、甘肃和贵州。从2025年开始计入总分的呢,是内蒙、四川和云南。这些学生真的没有能力去上听力吗?真的没有能力去获取听力相关的培训资源吗?这不可能的嘛。都经历了疫情了,上过网课的学生,怎么可能没有听力教学资源呢?但是他们就会以这样的理由说,我们这考听力不公平。
所以呢,教育跟考试不光要思考说教社会发展的问题,还要思考公平的问题。你说他连这个英语听力都搞不定,让他们去学习大模型是怎么回事?不是扯吗?你要求每一个学生配一台电脑,当然这个里头肯定会有人很开心了,说来赶快接着买我们家电脑。比如说讯飞这样的就会很开心,但是这个也会给很多的学生增加非常巨大的经济负担,这个是有问题的。
虽然AI来了这件事呢,是不可阻挡的。即使大面积的教育无法改变,但是各种细分群体的教育过程,必然已经开始发生改变了。
每个家庭如果有条件的,现在都会去教育孩子如何跟AI一起去工作。你说我没条件,或者说家长没有相应的认知,那是另外一回事。有条件的都开始干了。一些学校里边的话,也会有一些小班的特定培训。甚至呢,一些不以高考为衡量标准的小众学校,你比如马斯克现在新造的那个学校,也可能直接就改变了。
总结一下吧,AI已经可以开始刷高考题了,而且不光是刷作文,现在还可以拿出来去刷数学了。而且刷数学都可以刷到清北水平了,超越了绝大部分的考生,直接奔着清北就去了。
AI本身也在一日千里地狂奔。我们现在用的是GPT-3,还没有去用GPT-3 Pro。而且现在GPT-4其实已经训练出来了。这个东西真叫日新月异的在发展。所以未来到底怎么样,真不好说。可能真的再过个一年,或者再过个两年,再有高考题出来了以后,AI就是都可以刷到满分,或者都刷到清北水平。
一帮的学生觉得自己很无助,说我折腾了半天,还没有个计算器做的好。他就会有这样的想法。思考一下未来大家到底应该如何学习、考试和工作,如何去筛选。也算是我这样,直接看高考题会晕菜的人的一种乐趣吧。
所以我们今天在这里,大家讨论一下未来到底应该如何教育、如何考试、如何筛选,以及这些学生教育完了以后,应该如何帮助社会发展。
好,这一期就讲到这里。感谢大家收听,请帮忙点赞,点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。