预算强制法 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI公开了GPT5降低幻觉的秘密，像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜，这才是真正的进步｜GPT-5 AI Hallucination OpenAI Hallucinations

Luke Fan — Wed, 10 Sep 2025 00:41:00 +0000

GPT5降低幻觉的秘密被OpenAI给公开了。现在看来，训练AI真的是越来越像训练小孩子了。

九月五号真的是一个神奇的日子，非常多的模型都在九月五号被发布出来。OpenAI在这一天也发表了一篇论文，这个论文叫做《为什么语言模型会产生幻觉》。

大语言模型从进入我们的日常生活那一天开始，我们就发现了，这个东西最擅长干的事情是什么？叫“一本正经的胡说八道”。

现在OpenAI公布了，说产生幻觉有两个主要原因。

第一个原因叫做“错误的评估体系”。什么意思呢？就是我们现在去考试了，做对了1分，做错了0分，不做也是0分。其实我们所参加的绝大部分的考试，都是这样去设计的，甭管你是考英语、考数学，都是这样设计。像考数学这种，他还有步骤分，哪怕最后你的结果没有，或者结果是错误的，你只要前面的步骤写对了几步，他都是给你分的。

但是我们用这样的方式去训练大模型的时候，这事就麻烦了。怎么个麻烦法呢？大模型也在那有一些指标，要去反复的训练嘛，它的训练也是按照刚才我们说的这个方式来训练的：答对了1分，答错了跟不答都是0分。那么我就先猜一个呗，万一猜对了呢？你没准还有个一分，总比不答强，因为不答跟错误是同样的结果嘛。

文章里头举了一个例子，说你去给我猜一个生日，这个人生日是哪天？马上给猜了一个。他说这玩意儿你猜对的可能性是多少？1/365，这个很难猜对的。但是呢，猜错了就跟没猜是一样的，都是0分，所以大模型还是会去猜一个出来。这就是他一本正经胡说八道的一个最底层原因，就是你一开始的评估体系是错的。我们考试的时候，这个评分的规则就是这么评的，所以大模型也是这么干活的。

另外一个原因是什么呢？他的一些训练数据本身是有问题的。什么是训练数据有问题呢？就是大模型通常的回答方式是：下一个词最适合应该出哪个词。他是这样来去回答问题的。但是呢，有很多的训练数据呢，有一些相关性。比如说他举了个例子说，我给他一堆照片，猫的照片跟狗的照片，然后呢在后头写上标注，说这是猫、这是狗。你训练完了以后，给他照片，说这是猫还是狗？或者你给他个猫和狗的这个单词，说请给我画一个出来，或者给我描述一下，这个大模型是可以搞定的。

但是如果你的训练数据是错的，比如说你给了一堆猫和狗的照片，在后边你标注的不是猫和狗，而是猫和狗的生日，然后你说：“现在给你一个照片，给我猜一下这个猫是哪天生的？”那这个大模型就直接抓瞎了，说：“您让我编一个吧。”大概是这样的一个情况。或者说你给它一个日子，比如说2025年9月9号，这一天出生的猫应该长什么样呢？这个大模型说：“呵呵，请听我瞎编一个。”也只能是这样了，你没有任何其他的办法，因为它的整个的训练数据相关性没有那么强。而且刚才我们讲，这个猫跟狗的生日标注在照片上以后的话，它也不具备什么统计学的这种意义。你说9月9号出生的猫应该是什么样呢？

但是讲到这儿，咱们多讲一句，有人相信生辰八字吗？或者是你的星座代表什么？这个是不是跟刚才我们给猫跟狗标生日这个过程是很像的？所以这个生辰八字的结果，跟刚才我们讲的这个数据是一样的，它没有什么统计意义的。所以不要去相信什么算个属性、算个生辰八字、算个星座，这个意义不大。就算是给交给现在的大模型，你让它去折腾这个事儿也没什么意义。

我自己呢，在第一次使用AI的时候就经历了幻觉。我第一次使用AI是什么时候呢？那时候ChatGPT还没发布呢，当时的AI产品叫做GitHub Copilot，底层也是一个ChatGPT的模型，它是先发布出来。首先这个东西出来是给大家写程序的，那个时候还不觉得说AIGC会怎么样了。我拿着那个系统去写程序的时候，我说：“B站的CEO叫什么呀？”他告诉我叫陈瑞。我说：“这对的。”然后我说：“陈瑞的身份证是什么？”我是等于写程序嘛，说“陈瑞身份证”，啪打一个报号，然后噼里啪啦就给我生成一堆信息出来：哪年哪月几月生的、身份证号码什么。当时我都傻了，这不是泄密了吗？马上我就去找陈瑞去了，我说：“陈瑞，你的那个身份证泄密了，这是你身份证吗？”陈瑞看了一眼说：“这肯定不是。”

后来我就搞明白了，当时还没想着叫“幻觉”，当时想的是什么呢？说这个东西是不是一个脱敏，或者是做了一些数据混淆。后来想明白了，这东西就是一本正经的胡说八道。你问他陈瑞的身份证，他按道理应该告诉你说：“我不知道。”或者说：“这个东西涉及个人隐私，我不能给你生成。”或者说我生成了以后，在下头给你写一个说：“只是示范数据，没有任何实际意义。”应该是做这样的一个操作。就跟我们去银行里头看到人家练习数钞票的那个钱似的，专门有特定的号码，而且上面会盖一个章，说这就是一个练习币，千万别惦记偷着玩。但是这个GitHub copilot啥也没说，直接给你写了一个完全看着像真的一样的身份证号就给你写出来了。当时还把我吓一跳，这是当时的一个故事。

这就是AI到底是怎么产生幻觉的，以及呢，我们应该如何去避免它。其实他们已经把这个东西应用起来了，就是应用到GPT5里头。所以现在GPT5呢，有的时候就告诉你不知道，他不会上来就直接告诉你：“我给你猜一个吧。”甚至猜完了以后还在那嘴硬：“不是我猜的，这东西就是这样的。”他有时候还干这样的事情。

像GPT4呢，他答对问题的概率是要比GPT5高的，因为刚才我们讲了，你胡猜一个，你还是有机会答对的。像刚才猜陈瑞身份证，他也不是说完全不可能猜对的吧？还是有可能猜对的，那么他就去猜去了。所以GPT4的正确率要比GPT5高，但是呢，GPT5的幻觉要比GPT4低非常非常多，因为GPT5经常就告诉你不知道了。说“不知道”肯定是错的，但是“不知道”呢，对于我们来说，其实是一个可以接受的答案。

你说这事跟训练小孩子是不是很像？我们再去给小孩出考题的时候，我们是不是可以出一个题说，这个题你做对了加1分，做错了减1分，不做没分？这个是不是就可以调整记分规则了？他就可以知道说，我们是不是不会的就不要瞎写了。我记得我原来参加过类似这样的考试，好像是上大学的时候，当时考计算机的一个等级考试就是这样的：做错了减分，做对了加分，不做没分。那就是你不会就别瞎写，就是这样的一个意思。或者呢，调整一下，因为有负数在里头，计算稍微麻烦一些嘛，就是什么呢？不做呢是1分，做错了呢是0分，做对了呢，比如说给他个5分。用这样的方式去训练大模型，他可能就会好一些。

包括我们以后去训练小孩，或者说小孩的成长过程中的一些教育吧，也可以使用这样的方式。当然，我觉得更重要的是什么呢？就是我们在孩子被训的时候，比如孩子这个犯了什么错误了，在挨骂的时候，就不要老惦记让他去反思怎么去犯了错误、下次怎么去做对。是不是很多家长都爱干这个事？做错了不行，你一定要在这个时候把它想清楚，然后给我解释到底是怎么回事。在这个时候，小孩想的压根就不是怎么去反思错误、怎么能够保证下次不犯，小孩想的是如何尽快结束当前糟糕的状态。这就属于是一开始你设定错了一个激励的条件，还希望说这个小孩犯了错误，多骂他一会，多念叨一会，让他能够学会，这个绝对适得其反。

还有一些呢，适合小孩教育的AI训练方式，大家也可以思考一下，就是寻找合适的数据或者问题对于教学是非常重要的。就刚才我们讲的，给他一堆猫跟狗的照片，然后给标生日，这就属于错误的数据。我们找到正确的数据，对于小孩的学习会非常有帮助的。今年年初吧，李飞飞训练了一个很小的模型，它就是精心筛选了1,000个高质量、高难度、覆盖50个不同领域的全面性问题，训练出来的模型要比很多很大的模型效果都好，这个才是对我们有借鉴意义的事情。为什么呢？你对于小孩训练也好，或者是教学也好，最缺的是什么？不是上培训班的钱，也不是找到特别好的老师，而是小孩的时间。你去让小孩上培训班，到底是上那个还是上这个？你需要去取舍的，因为时间是有限的。在这样的一个情况下，如果能够选对正确的数据集的话，对孩子的训练也是非常非常有帮助的。

在这里呢，再讲另外一个很拟人的AI算法故事吧。就是李飞飞的这个小模型里头，应用到了另外一个有趣的方法，叫什么？叫“预算强制法”。这个呢，其实是小孩解数学题的一个方法。它是什么样的方式呢？就是它动态的来调整推理的步骤和时间。现在我们的模型都是做推理嘛，到底是应该用多少步来推理呢？现在我们使用的很多系统都是可以预设的，我到底是用高级推理、中级推理、还是低端推理，还是直接出结果？让你自己去设。但这个事其实是很二的，应该是让模型自己去判断。

它呢，通过任务的复杂度和中间的结果，不断来评估说这个事是不是可以结束了。如果任务复杂度高，他就会给你更多的推理预算；如果在推理预算之内你把它做出来了，它再去评估这个结果。如果结果的置信度很高，这东西就很像我们从小做数学题，都是有这样的训练的。你得出一个0，得出一个1，这个事都有可能是对的。但如果你最后得的那个结果需要开根号，然后还不会算，这种大概是前面哪步算错了。咱从小应该都是这么学的吧？他也是如此。然后除了置信度之外，还有一个是什么呢？就是结果的收敛性。我越算这个结果，好像越向着比较可信的方向在前进；或者说有的时候越算越觉得不对，走着走着觉得越走越远了。这个东西是可以判断的。如果是你得到了一个置信度很高、很收敛的结果，没问题，就停在这儿吧。如果你发现这个东西置信度很低，而且呢越来越发散了，一点都不收敛，越走越不像了，就直接停止，说：“不会，对不起，我不知道。”当然我们小时候有时候受的教育是什么呢？你实在做不出来，到后头写个0、写个1，还是有蒙对的机会的。

所以李飞飞的这个方式呢，就是简单问题简单推理，获得高置信度、收敛的结果，就快速停止；如果太复杂，就直接承认失败，完事了。这个是不是也很像咱们小时候教小孩子做数学题的这个过程？

讲远了。这个降低幻觉的技术呢，现在已经用到了GPT5上。现在他们在GPT5上就已经是鼓励大模型说“不会”，说“这个事我不知道”，去鼓励他做这件事情，而不是要上来生给你编一个结果出来。

另外呢，我要讲，降低幻觉其实是一把双刃剑。很多人说：“不对，幻觉低了，它不是好事吗？你不知道就说不知道就完了。”为什么是一个双刃剑呢？这个里头呢，跟人性有关。因为幻觉再怎么降低，它永远不会是零，有可能呢会逐渐降低，但是人呢，会选择相信一个大概率不会出错的自动化系统永远不会出错。这话很绕，什么意思呢？你比如说这个系统，十次里头错八次，那这事肯定不行。等到10次里头错5次呢，这个结果呢你可以参考一下。如果10次里头呢只错个两次，就会有相当一部分人认为这个结果是永远不错的，我就直接相信了，剩下的两次错就错了。他是这样来去处理这问题的。这是人性的一个选择。所以呢，幻觉越低，愿意直接无条件相信这个模型的人就会越多。这是一个灰度，有些人可能怀疑一切，有些人呢可能说你这个幻觉只要到50%我就相信了，有些人说幻觉到20%我就愿意相信他。他是这样来去工作的一个过程。所以呢，幻觉越低，选择无条件相信的人就会越多。这就是为什么我说降低幻觉是一把双刃剑。

那么我们应对幻觉的最简单方法是什么呢？第一个，肯定还是怀疑和批判了。中国的中小学教育里头还是应该加强一些的，这一方面目前应该没有那么强。另外呢，就是你要去有一些逻辑的训练。比如说，如果不进行逻辑训练的话，你没法去判断这个结果是不是符合逻辑，或者说他的“置信度”这个东西，你没有判断标准。还有呢，就是我们要了解聊天的上下文环境。这个事特别有意思，大模型呢，你问他一个问题的时候，他给你的结果未必一样。这个结果的差异是怎么来的呢？其实是跟上下文有关。所以我们经常在跟大模型聊天的时候，要学会叫“开始一个新话题”。什么意思？就是我们把前面的上下文都扔了，咱们重新开始聊。这个是非常非常重要的，否则的话，它给你的结果要跟上下文相关联。如果我们跟他聊天的过程中忘记了上下文说的是什么，那他给你的结果就有可能会出现比较大的偏差。

还有一点呢，就是要了解信息来源。你说我这个大模型给我的结果，是大模型直接生成的，还是通过本地知识库总结的，还是通过搜索总结的？这个东西到底是怎么来的？如果是通过搜索来的，他到底是搜索的哪些网站？哪些网站是可信网站？哪些网站是八卦网站？哪些网站每天胡说八道？你要要求他去进行一定的区分，这个才有可能让他的幻觉降低。

当然，最终的方式就是多模型校验。像我现在很多的数据都是多模型校验：我先在豆包里跑一遍，因为这玩意最快；然后呢，把跑的结果扔给ChatGPT，说：“来，给我进行数据校验。”然后呢，ChatGPT就会把所有的数据拆开了，校验完了以后，告诉你哪个地方是对的，哪个地方是错的，要比ChatGPT自己做的还要好。有时候ChatGPT也有幻觉，虽然GPT5号称幻觉降低了，但是依然是存在的。我也会把它的结果再拿到豆包里边再去校验。这个会极大的降低幻觉，但是也不能降到零。

OpenAI呢，现在又在开始探索新方向了。就是刚刚做这篇论文的这个部门呢，叫做模型行为部门，这个部门呢，现在已经合并到模型预训练部门去了。这个部门的老大呢，是一位亚裔女士吧，看那个名字应该是个韩裔吧。他呢现在做了一个新的部门，叫OAI部门，这个部门呢，是研究AI与人的交互方式的。他呢，研究的是在聊天和agent之后，这个AI应该如何去跟人进行交互。现在大家还在卷agent呢，人家已经又往前走一步了，agent之后是干什么？他认为AI呢，应该是一个思考、创造、娱乐、学习、连接与实践的全新范式和工具。我们也期待这位女士吧，能够给我们带来不同的惊喜。她前面做了达利2、做了GPT-4o、做了GPT5，特别是跟人交互相关的部分，包括AI如何降低幻觉、AI如何降低谄媚，这些东西都是他去研究的方向。

最新的GPT的更新是什么？特别有意思的一个功能，叫“分支聊天”。比如说跟人聊的时候，聊着聊着聊崩了，或者聊的大家很不开心了，你能够说：“我们退回去，现在我们退回三轮，从这继续往下聊吗？”咱是不行的，因为那对面还生气呢。但是现在ChatGPT允许你干这个事了。就是我们聊着一个来回、两个来回、三个来回，这个时候说我聊错了，我可以从第一个来回完了以后，说我在这做一个分叉，我重新开始聊。AI大模型的这个接口呢，就不知道你后边的聊的第二轮、第三轮到底聊了什么，它会从这个地方分支出来，接着跟你聊。这个应该也还是蛮有想象空间的一个事情。

好，这就是我们今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的会员频道。再见。

李飞飞S1K模型引爆AI界：仅50美金成本完胜DeepSeek R1与ChatGPT o1！

Luke Fan — Tue, 11 Feb 2025 12:02:45 +0000

大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲李飞飞的S1K模型。50美金成本超越DeepSeek R1和ChatGPT O1。

首先呢，DeepSeek到底是怎么震惊全球的？就是因为训练成本低。他的训练成本是OpenAI的3%，所以震惊了全球。

那么现在李飞飞的S1K模型，16张H100的显卡，跑了26分钟跑完了，拿到了一个32B的模型。多项测试超越了DeepSeek R1和GPTO1。

大家要注意，评测大模型呢，它有很多很多测试项。一般我们说基本上达到什么什么水平，就属于叫互有伯仲。有些你强点，有些他强点。原来大家都超不过GPT 4O，是因为只能接近它，距离它的全项指标都有差距。现在的话，大家就已经基本上可以达到GPT 4o的水平了。

现在R1跟O1算是最强的推理模型。李飞飞做的这个S1k，也算是部分超过了R1和O1，绝对超越了DeepSeek R1的32B。

DeepSeek R1呢，讲的时候一般有两个不同的说法。第一个呢叫蛮血版。什么是蛮血版？671B的那个是蛮血版。然后另外一个呢，是通过通义千问也好，LLama也好，这些模型蒸馏了以后重新微调出来的版本。所有你看到什么70B，什么32B，都是这种微调出来的版本。

李飞飞这个50美金他这个版本呢，要比他自己的32B版本还要好。大家是不是先想想，先站个队。这到底是原创呢，还是抄袭呢？对于粉红来说这是绝对原创，对于支黑来说这可能是抄袭。

因为李飞飞是个中国人，他是个北京人。后来呢是跑去四川上的学，他是成都七中出来的。SOGO的王小川，B站的陈瑞，都是他的中学校友。但是呢，另外一头呢，他是个美国的大学教授。普林斯顿大学物理学学士学位，出于对东西方哲学和科学奥秘的探索，他前往西藏研究过藏药。后来是在加州理工学院得到的电子工程博士学位，现在是斯坦福大学的教授，人工智能教母。这算是个创新吗？还是个抄袭呢？

我估计很多人可以炒半天这个事。咱们先不炒这个，在我这个频道里头，吵这个事没意义。咱们去讲讲这50美金到底咋花的。

首先呢，是蒸馏一个小样本模型。有一个什么基座呢？通义千问32B。拿这个模型去做微调，就跟刚才我们讲的那个DeepSeek R1 32B的那个基座是一样的，都是通义千问2.5 32B。但是呢，拿进去做微调的这个样本是不一样的。DeepSeek R1 32B 是使用DeepSeek R1满血版产生的数据去微调的千分2.5。而现在李飞飞呢，他使用的是谷歌的推理模型Gemini 2.0 Flash thinking产生的问题去进行的微调。而且还有一个呢，就是它的问题特别少。就是DeepSeek自己微调的时候，有多少个问题？80万个问题。而李飞飞的问题有多少个呢？1,000个。拿了1,000个问题，就把这个模型给微调出来了。所以1K就是1,000，1,000个问题的意思。S1K这个模型只有1,000个问题。每一个问题呢，都是通过Gemini 2.0 Flash thinking进行解答，并且获得思考的过程与结果。因为他总共就1,000个问题嘛，你把他塞进去16块显卡，26分钟就跑完了。成本也就是50美金。那么是不是我来我也行？我也找1,000个问题上去，50美金我也整一个出来。

最近互联网上有个新梗，什么呢？就是“中国行我也行”。这个是嘲笑那些不自量力，想要学习中国大力出奇迹，结果翻车了的外国友人的一个新梗。这个并不是那么容易。你要想说，我用1,000个问题把这事训练好，那你想去挑这1,000道题，一定是非常非常难的。它这个S1K里头，实际上有两个大的创新点。一个是1,000道问题的筛选，另外一个呢特别神奇的东西，叫做预算强制，budget forcing。咱们先去讲这1,000个问题怎么筛出来。首先呢，这一帮的学者们从16个不同的来源，收集到了5万多个问题。

在59,029个问题中筛选出1,000个问题，其筛选标准主要包括以下几点：

1. **质量要高**：所谓质量高，指的是问题的解答过程和最终结果的格式完整、逻辑清晰。如果某些问题的解答过程格式不完整或混乱，则不予考虑。
2. **难度要大**：难度大的问题通常具有更长的推理过程、更详细的步骤、更多的推理步数和更长的推理时间。
3. **全面**：最终从50个不同领域中选取了1,000个问题，确保覆盖广泛，避免领域单一。

这三个原则——质量高、难度高、全面性，是筛选的基础。在此基础上，还需要探讨艺术、技术与科学之间的差异：

– **艺术**：偶然所得，无法重现。
– **技术**：在技艺基础上不断迭代与创新，但无法跨领域应用。
– **科学**：理解底层原理，可以跨领域应用。

中国在技术上表现强劲，但在科学方面略有不足。S1K实际上是一种科学，因为其筛选和训练过程并非简单的试错，而是通过科学的方法验证和优化。例如，仅筛选出最优质的1,000个问题进行训练，效果并不理想；同样，仅筛选出最难的或最全面的1,000个问题，效果也不佳。最终，将全部59,000个问题一起训练，效果虽有提升，但并不显著。这一过程体现了科学的严谨性和系统性。

就是真正在找到底层逻辑了。找到了逻辑以后，我就可以在这个逻辑上进行优化了。下次再去选问题的时候，我就选这1,000个题。大家注意，你选的题越多，他肯定是效果越好。但是呢，选的问题很多了以后，他你这个效果提升变得非常非常的不显著了。等于你花了很多的钱，后边都没有什么用了，这个就没有必要了。我们就到第1,000道题就可以了。所以大家就可以按照这个逻辑，在不同的领域里去应用这个筛选1,000道题的方法了。这个是一个真正进入科学范畴的东西。

建议以后这些大模型团队呢，可以去学而思、新东方找一些老师回来筛选问题。这个过程其实很像什么？我这个学生要去参加竞赛了，我这个学生要去参加高考了，他的时间非常非常有限。怎么能够筛选出一套特定的题目来，让他去训练？训练完了以后，可以在有限的时间内得到最好的提分。这个过程是不是跟学而思的这帮老师们干的活非常非常像？以后再去选问题的时候，比如说我们今天要去选一些物理相关的、数学相关的，或者什么这样的题的时候，那你就找这些老师来，他就有效果。

下一个创新是什么呢？下一个创新叫预算强制。这个特别有意思，其实还是学而思老师的范畴。预算强制说白了是什么？就这个题如果太难了，就别浪费功夫了，直接终止，写一答案在这就行了。你也不是说终止就不写答案，因为咱们知道考试的时候，你万一写对了呢？该蒙你还是得蒙一个答案出来的。如果这个问题你觉得太简单了，没有用到相应的时间，你就把答案直接做出来了，那你是不是等一等，再回去想一想，稍微检查一下。但是呢，到底哪道题需要尽快结束，哪道题需要多想想呢？这才是关键点。

咱都知道说，这个题如果太难了，咱就把它扔掉。我儿子小时候学奥数的时候，他就讲过哪道题你先看一眼，如果发现没什么这个概念，就直接pass就别做了。这就不是给你预备的。如果你把时间耗在这上头了，下边题就没法做了。而且那个时候考奥数的时候，还告诉你说第几题是多少分。

多少分的题，你应该在上面耗多长时间？如果你发现你在一个3分的题上耗了多长时间以上，你就赶快放弃掉。咱们现在就需要去做这个测算了，它叫预算强制法嘛。这个budget到底怎么定的呢？推理的步数和推理的时间，以此来定这个budget。首先要对任务进行复杂度评估，先看一下这个任务大概应该推多少步，花多少时间。

然后呢，在当前推理过程中得到一些中间结果。因为我们做题的时候也是，有时候做的中间结果出来。这个时候呢，我们就要对中间结果进行一个评估。第一个评估是什么？叫置信度评估。什么叫置信度？给大家讲一个故事吧。比如说今天这个天气预报说了，降水概率99%，这就属于置信度很高，那就肯定下雨，别费劲了，就下雨吧。咱们就不用再去花时间在后边推理去了。待会来一个专家说，这个专家认为今天降水概率是51%，这个呢就叫置信度不够高。您再花点功夫，再好好想想，能不能把这事说说的确定一点。这叫置信度。

然后下一个是什么呢？叫收敛性评估。什么叫收敛性？如果你得到了几个结果，这些结果相对来说都是稳定的，而且越来越稳定，这个就结束了，就是他吧。就算是我给出的结果不是一个完全准确的结果，但是呢，应该误差也不大了。这叫收敛性。但如果说，我现在得到了三五个结果，但是这结果呢值上蹿下跳的，这都差异非常非常远。那你在这种情况下，你就回去再想一想，多花一点时间再思考一下，再重新给一个结果。然后对结果进行质量评估。

还有是什么呢？就是任务特性和标准。因为你不同的任务，对结果的质量要求是不一样的。咱比如说吧，都是打比赛。篮球比赛比赛结果100:70，看着有点像，差不太多可以交差了，就这样吧。足球比赛结果100:60，您回去再算算吧，这事好像不太对。那么在这个基础上，再进行一些动态的调整，再进行一些预设的结果。什么叫预设结果？就是当我发现某些结果达到的时候，就直接停止。比如说我推理了半天，开始骂人了，那停下来吧。

或者推理了半天，发现涉黄涉黑了，那这事停下来吧。他也会有一些这样的停止命令在里头。他呢，就是这样来工作。第一个，我们先看看这个题值多少分。你可以给他一个多大的预算？你应该是推500步，还是推50步，把它推出来？先有一个预算，然后呢，我们在推的过程中就不停地来检查结果。哎，这结果已经不错了，那就到这吧。这跟考试的过程很像。

再往后呢，就是要去看你的预算了。比如说，我的结果出来了，发现我预算呢，应该做500步的，现在做了50步就把这个结果做出来了。那你再回去想想，可能有问题。但如果有时候超预算了，我原来评估说这个结果推出来应该是50步就推到头了，但是呢，我已经推到第80步了，还没推出来呢，那就赶快停止，别浪费时间了。写一个你觉得最靠谱的答案上去，就完事了，接着做下一题。这个就叫做预算强制。

那么这种论文发出来以后的话，我估计未来所有的推理模型应该都会去使用这套东西。实际上，整个过程是不是真的很像我们儿子小时候做奥数题的过程？你先看看这个题，3分的题你应该用几分钟，5分的题你应该用几分钟。你做的过程中再去看看说，中间这个答案已经很像了，直接把它写上就完事了。这个答案看着怎么看怎么不像。咱们经常说，数学这个东西，正确答案都很美。我没感到那种美，回去再想想。

还有什么呢？我儿子小时候学的也是说这个，做题做着发现，你写出来公式越来越复杂，最后算不出来了。那这个你再回去算算可能哪错了。或者说明明挺大的一个题这么难，我怎么三步两步就把它做完了。回去再想想，大概就是这样的一个过程。

当这些东西有了以后，S1K这个模型就有了今天这样神奇的结果。所以50美金就是1,000道题。训练是50美金。咱们把刚才讲的质量最好的1,000道题，最难的1,000道题，最全面的1,000道题，59,000道题都训练，再加上什么数据准备，这些东西都算一块。这个50美金是打不住的。

但是，你就训练1,000道题，就是50美金，再加上后边这个预算强制，它就可以达到很好的效果。现在，科学的车轮滚滚向前了。S1K模型出来以后，虽然没有用到Deepseak，但是方向是明确的，筛选问题就好了。老师们又有价值了，甭管你原来是教数学的，教物理的，赶快出来说，我们再筛选一下。我们要像培养奥数种子选手那样，去微调训练这种推理模型了。而且在不同的领域里头，都可以快速的蒸馏出小模型来，并且呢，实现领域内的突破。

你比如说，我今儿不是说做数学题，我们今天想推一个这种法律的，或者想推一个财务的，那其实都是可以找到一些专门做这个法考的老师，或者专门做财务资格证考试的老师，来给我们筛题。筛完题以后进去去这个训练去，这都是可以搞定的嘛。而且呢，让所有的推理模型可以一起解答，他没必要说我一定用DeepSeek R1去解答，还是说我要去用Gemini去解答，用O1，O3去解答。我们可以把所有的推理模型都抛下来，你们挨个给我答一遍，答完了以后，我们去挑里头质量好的1,000道题或者几千道题，然后再去训练也就可以了。

现在呢，有一堆的推理模型，DeepSeek R1、GPT的O1、O3 Mini、Gemini 2.0 Flash thinking。这一次李飞飞用的就是Gemini 2.0 Flash thinking。国内还有一堆的推理模型，比如说QWQ32B，就是一个标准的推理模型。Minimax和Kimi也都有各自的推理模型。哪怕你付费的这些模型，那就付呗，反正付完了钱以后，我就得到这一堆结果，拿着这个结果，我再去训练自己的这个小模型就完了。像这种32B的模型，我是完完全全可以在我自己电脑上跑的，我就不需要再交任何钱了，这个效果就好极了。所以以后这些付费推理模型，都应该会被拿来做蒸馏。千问2.5 32B的这个模型的底子很好，下面就都是老师的事情了。就是有人去试过，比如说千问的72B的。

Llama的70B、14B、7B、1B等模型现在普遍认为，能够产生比较好的中间结果。目前，大家主要在调整32B的模型，并且已经形成了一定的共识。接下来，可以进行更精细的质量管控。因为当我们调整完模型后，就可以进行测试，比如有多少道标准题库，跑完以后有多少对多少错，就可以去测试它是否正确。如果不对怎么办？不对就再花50美金，看看是不是好一点。又不对，再花50美金，然后再整1,000个题，再试试是不是好一点。最后找到一个最优解不就完事了吗？这样，你就得到了一个在某个特定领域里特别好用的32B小模型，然后进行微调和评测。

未来，比如像硅基流动、Together这些开源微调模型就要起飞了。因为我们现在可以在硅基流动上直接点出一个32B的模型来，实际上就是你把1,000道题做好了以后，把这个文档上传给他，然后一键确认，他可能连50美金都不需要，就给你搞定了。做完了以后，你就有自己的模型可以去使用了。Together是在美国的，他们调一个模型，我记得32B的模型也差不多是几十美金就可以调一次，在国内应该会更便宜。

很多小公司原来都在喊“适合你的小模型才是最好的”，但原来这个话其实是错的。为什么呢？因为微调出来的小模型原来的效果是没有那么好的，它未必比这些大模型加上RAG效果更好。现在，李飞飞给出了科学的方法，那么行业推理蒸馏小模型的春天就来了。因为你一旦推理了小模型以后，你就有什么东西叫用户粘度，用户会继续购买你的服务，继续让你去服务下去，而不是说上来说“哎，我今天用你的，明天用他的，反正模型都不是你们家的”，这个就没有任何用户粘度。原来有这样的问题，现在就好很多了。现在的话，就直接跑到人家行业里边去做问题筛选就可以了。问题筛选完了以后，再不断的测试、调优、评估。

这个路径其实已经很清晰了。以后小公司的春天就来了，就是可以卖模型、卖服务、卖数据。原来都说我要去做一个AI公司，那你手里头没有个一两亿美金，你都不好意思说你是做AI公司的。因为你需要去租显卡、去租GPU，去做预训练模型的训练。现在不用了，现在只要筛选好问题，哪怕你多试几次，最后花个几百美金试了十次，也不是什么大不了的事情嘛。而且这些模型，就是你的用户最需要的这些东西。

我记得我原来在学软件的时候，那还是九几年，整个软件行业有一个梦想，什么呢？叫系统咨询构架工程师。什么意思呢？原来我们都说，这个软件是需要分开的，先去做需求分析，然后去做这个加工设计，然后编码，编码完了以后测试，测试完了以后部署，然后再实施它，是这样的一个过程。说以后这个软件系统就很厉害了，他就不需要这些东西了，我们只管坐到用户面前，一边问用户你需要什么呀，等于在做咨询嘛，同时就在手里点点点，确认确认确认，打钩打叉，把这事情做完了以后说，哎，你这个问题都讲清楚了，你的软件也做好了，你可以拿去使去了。从九几年就有这样的梦想，现在的话这离这个梦想就又近了一步。

现在呢，让大模型改变每一个行业，终于要开始了。原来折腾了一两年都没有什么动静。以前都说大模型可以把每一个APP都重做一遍，大模型可以把每一个行业都改变一遍。为什么喊的这么大声音？大家都在使劲裁员，都在降本增效，原因很简单，就是以前很多的公司上了大模型以后，没有效果或者效果很难评估。那么现在的话，这种可感知的效果已经到面前来了，很多的公司就要开始上大模型，去改变他整个的业务链了。因为他现在改变了以后，就可以在特定的领域里头竞争胜利，他就可以把其他竞争对手干掉，快速的往前跑了。

你想咱们做了两年大模型，每一年看到的都是什么？谷歌裁员、微软裁员，国内也是什么百度裁员、阿里裁员，全是这个。但是，李飞飞这个模型的建立，以及靠这个蒸馏推理模型去进行微调小模型的这个方式。

发布了以后，我觉得未来的2025年，就会有大量的公司出来说：“我们去给你们微调小模型吧，我去给你解决实际问题吧。”真的是可以解决问题的，就会实实在在的发生改变了。这就是咱们今天讲的第一个故事，就是李飞飞的这个50美金的模型到底是怎么做出来的，里头到底干了点什么。