李飞飞S1K模型引爆AI界:仅50美金成本完胜DeepSeek R1与ChatGPT o1!

李飞飞S1K模型引爆AI界:仅50美金成本完胜DeepSeek R1与ChatGPT o1!已关闭评论

大家好!欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲李飞飞的S1K模型。50美金成本超越DeepSeek R1和ChatGPT O1。

首先呢,DeepSeek到底是怎么震惊全球的?就是因为训练成本低。他的训练成本是OpenAI的3%,所以震惊了全球。

那么现在李飞飞的S1K模型,16张H100的显卡,跑了26分钟跑完了,拿到了一个32B的模型。多项测试超越了DeepSeek R1和GPTO1。

大家要注意,评测大模型呢,它有很多很多测试项。一般我们说基本上达到什么什么水平,就属于叫互有伯仲。有些你强点,有些他强点。原来大家都超不过GPT 4O,是因为只能接近它,距离它的全项指标都有差距。现在的话,大家就已经基本上可以达到GPT 4o的水平了。

现在R1跟O1算是最强的推理模型。李飞飞做的这个S1k,也算是部分超过了R1和O1,绝对超越了DeepSeek R1的32B。

DeepSeek R1呢,讲的时候一般有两个不同的说法。第一个呢叫蛮血版。什么是蛮血版?671B的那个是蛮血版。然后另外一个呢,是通过通义千问也好,LLama也好,这些模型蒸馏了以后重新微调出来的版本。所有你看到什么70B,什么32B,都是这种微调出来的版本。

李飞飞这个50美金他这个版本呢,要比他自己的32B版本还要好。大家是不是先想想,先站个队。这到底是原创呢,还是抄袭呢?对于粉红来说这是绝对原创,对于支黑来说这可能是抄袭。

因为李飞飞是个中国人,他是个北京人。后来呢是跑去四川上的学,他是成都七中出来的。SOGO的王小川,B站的陈瑞,都是他的中学校友。但是呢,另外一头呢,他是个美国的大学教授。普林斯顿大学物理学学士学位,出于对东西方哲学和科学奥秘的探索,他前往西藏研究过藏药。后来是在加州理工学院得到的电子工程博士学位,现在是斯坦福大学的教授,人工智能教母。这算是个创新吗?还是个抄袭呢?

我估计很多人可以炒半天这个事。咱们先不炒这个,在我这个频道里头,吵这个事没意义。咱们去讲讲这50美金到底咋花的。

首先呢,是蒸馏一个小样本模型。有一个什么基座呢?通义千问32B。拿这个模型去做微调,就跟刚才我们讲的那个DeepSeek R1 32B的那个基座是一样的,都是通义千问2.5 32B。但是呢,拿进去做微调的这个样本是不一样的。DeepSeek R1 32B 是使用DeepSeek R1满血版产生的数据去微调的千分2.5。而现在李飞飞呢,他使用的是谷歌的推理模型Gemini 2.0 Flash thinking产生的问题去进行的微调。而且还有一个呢,就是它的问题特别少。就是DeepSeek自己微调的时候,有多少个问题?80万个问题。而李飞飞的问题有多少个呢?1,000个。拿了1,000个问题,就把这个模型给微调出来了。所以1K就是1,000,1,000个问题的意思。S1K这个模型只有1,000个问题。每一个问题呢,都是通过Gemini 2.0 Flash thinking进行解答,并且获得思考的过程与结果。因为他总共就1,000个问题嘛,你把他塞进去16块显卡,26分钟就跑完了。成本也就是50美金。那么是不是我来我也行?我也找1,000个问题上去,50美金我也整一个出来。

最近互联网上有个新梗,什么呢?就是“中国行我也行”。这个是嘲笑那些不自量力,想要学习中国大力出奇迹,结果翻车了的外国友人的一个新梗。这个并不是那么容易。你要想说,我用1,000个问题把这事训练好,那你想去挑这1,000道题,一定是非常非常难的。它这个S1K里头,实际上有两个大的创新点。一个是1,000道问题的筛选,另外一个呢特别神奇的东西,叫做预算强制,budget forcing。咱们先去讲这1,000个问题怎么筛出来。首先呢,这一帮的学者们从16个不同的来源,收集到了5万多个问题。

在59,029个问题中筛选出1,000个问题,其筛选标准主要包括以下几点:

1. **质量要高**:所谓质量高,指的是问题的解答过程和最终结果的格式完整、逻辑清晰。如果某些问题的解答过程格式不完整或混乱,则不予考虑。
2. **难度要大**:难度大的问题通常具有更长的推理过程、更详细的步骤、更多的推理步数和更长的推理时间。
3. **全面**:最终从50个不同领域中选取了1,000个问题,确保覆盖广泛,避免领域单一。

这三个原则——质量高、难度高、全面性,是筛选的基础。在此基础上,还需要探讨艺术、技术与科学之间的差异:

– **艺术**:偶然所得,无法重现。
– **技术**:在技艺基础上不断迭代与创新,但无法跨领域应用。
– **科学**:理解底层原理,可以跨领域应用。

中国在技术上表现强劲,但在科学方面略有不足。S1K实际上是一种科学,因为其筛选和训练过程并非简单的试错,而是通过科学的方法验证和优化。例如,仅筛选出最优质的1,000个问题进行训练,效果并不理想;同样,仅筛选出最难的或最全面的1,000个问题,效果也不佳。最终,将全部59,000个问题一起训练,效果虽有提升,但并不显著。这一过程体现了科学的严谨性和系统性。

就是真正在找到底层逻辑了。找到了逻辑以后,我就可以在这个逻辑上进行优化了。下次再去选问题的时候,我就选这1,000个题。大家注意,你选的题越多,他肯定是效果越好。但是呢,选的问题很多了以后,他你这个效果提升变得非常非常的不显著了。等于你花了很多的钱,后边都没有什么用了,这个就没有必要了。我们就到第1,000道题就可以了。所以大家就可以按照这个逻辑,在不同的领域里去应用这个筛选1,000道题的方法了。这个是一个真正进入科学范畴的东西。

建议以后这些大模型团队呢,可以去学而思、新东方找一些老师回来筛选问题。这个过程其实很像什么?我这个学生要去参加竞赛了,我这个学生要去参加高考了,他的时间非常非常有限。怎么能够筛选出一套特定的题目来,让他去训练?训练完了以后,可以在有限的时间内得到最好的提分。这个过程是不是跟学而思的这帮老师们干的活非常非常像?以后再去选问题的时候,比如说我们今天要去选一些物理相关的、数学相关的,或者什么这样的题的时候,那你就找这些老师来,他就有效果。

下一个创新是什么呢?下一个创新叫预算强制。这个特别有意思,其实还是学而思老师的范畴。预算强制说白了是什么?就这个题如果太难了,就别浪费功夫了,直接终止,写一答案在这就行了。你也不是说终止就不写答案,因为咱们知道考试的时候,你万一写对了呢?该蒙你还是得蒙一个答案出来的。如果这个问题你觉得太简单了,没有用到相应的时间,你就把答案直接做出来了,那你是不是等一等,再回去想一想,稍微检查一下。但是呢,到底哪道题需要尽快结束,哪道题需要多想想呢?这才是关键点。

咱都知道说,这个题如果太难了,咱就把它扔掉。我儿子小时候学奥数的时候,他就讲过哪道题你先看一眼,如果发现没什么这个概念,就直接pass就别做了。这就不是给你预备的。如果你把时间耗在这上头了,下边题就没法做了。而且那个时候考奥数的时候,还告诉你说第几题是多少分。

多少分的题,你应该在上面耗多长时间?如果你发现你在一个3分的题上耗了多长时间以上,你就赶快放弃掉。咱们现在就需要去做这个测算了,它叫预算强制法嘛。这个budget到底怎么定的呢?推理的步数和推理的时间,以此来定这个budget。首先要对任务进行复杂度评估,先看一下这个任务大概应该推多少步,花多少时间。

然后呢,在当前推理过程中得到一些中间结果。因为我们做题的时候也是,有时候做的中间结果出来。这个时候呢,我们就要对中间结果进行一个评估。第一个评估是什么?叫置信度评估。什么叫置信度?给大家讲一个故事吧。比如说今天这个天气预报说了,降水概率99%,这就属于置信度很高,那就肯定下雨,别费劲了,就下雨吧。咱们就不用再去花时间在后边推理去了。待会来一个专家说,这个专家认为今天降水概率是51%,这个呢就叫置信度不够高。您再花点功夫,再好好想想,能不能把这事说说的确定一点。这叫置信度。

然后下一个是什么呢?叫收敛性评估。什么叫收敛性?如果你得到了几个结果,这些结果相对来说都是稳定的,而且越来越稳定,这个就结束了,就是他吧。就算是我给出的结果不是一个完全准确的结果,但是呢,应该误差也不大了。这叫收敛性。但如果说,我现在得到了三五个结果,但是这结果呢值上蹿下跳的,这都差异非常非常远。那你在这种情况下,你就回去再想一想,多花一点时间再思考一下,再重新给一个结果。然后对结果进行质量评估。

还有是什么呢?就是任务特性和标准。因为你不同的任务,对结果的质量要求是不一样的。咱比如说吧,都是打比赛。篮球比赛比赛结果100:70,看着有点像,差不太多可以交差了,就这样吧。足球比赛结果100:60,您回去再算算吧,这事好像不太对。那么在这个基础上,再进行一些动态的调整,再进行一些预设的结果。什么叫预设结果?就是当我发现某些结果达到的时候,就直接停止。比如说我推理了半天,开始骂人了,那停下来吧。

或者推理了半天,发现涉黄涉黑了,那这事停下来吧。他也会有一些这样的停止命令在里头。他呢,就是这样来工作。第一个,我们先看看这个题值多少分。你可以给他一个多大的预算?你应该是推500步,还是推50步,把它推出来?先有一个预算,然后呢,我们在推的过程中就不停地来检查结果。哎,这结果已经不错了,那就到这吧。这跟考试的过程很像。

再往后呢,就是要去看你的预算了。比如说,我的结果出来了,发现我预算呢,应该做500步的,现在做了50步就把这个结果做出来了。那你再回去想想,可能有问题。但如果有时候超预算了,我原来评估说这个结果推出来应该是50步就推到头了,但是呢,我已经推到第80步了,还没推出来呢,那就赶快停止,别浪费时间了。写一个你觉得最靠谱的答案上去,就完事了,接着做下一题。这个就叫做预算强制。

那么这种论文发出来以后的话,我估计未来所有的推理模型应该都会去使用这套东西。实际上,整个过程是不是真的很像我们儿子小时候做奥数题的过程?你先看看这个题,3分的题你应该用几分钟,5分的题你应该用几分钟。你做的过程中再去看看说,中间这个答案已经很像了,直接把它写上就完事了。这个答案看着怎么看怎么不像。咱们经常说,数学这个东西,正确答案都很美。我没感到那种美,回去再想想。

还有什么呢?我儿子小时候学的也是说这个,做题做着发现,你写出来公式越来越复杂,最后算不出来了。那这个你再回去算算可能哪错了。或者说明明挺大的一个题这么难,我怎么三步两步就把它做完了。回去再想想,大概就是这样的一个过程。

当这些东西有了以后,S1K这个模型就有了今天这样神奇的结果。所以50美金就是1,000道题。训练是50美金。咱们把刚才讲的质量最好的1,000道题,最难的1,000道题,最全面的1,000道题,59,000道题都训练,再加上什么数据准备,这些东西都算一块。这个50美金是打不住的。

但是,你就训练1,000道题,就是50美金,再加上后边这个预算强制,它就可以达到很好的效果。现在,科学的车轮滚滚向前了。S1K模型出来以后,虽然没有用到Deepseak,但是方向是明确的,筛选问题就好了。老师们又有价值了,甭管你原来是教数学的,教物理的,赶快出来说,我们再筛选一下。我们要像培养奥数种子选手那样,去微调训练这种推理模型了。而且在不同的领域里头,都可以快速的蒸馏出小模型来,并且呢,实现领域内的突破。

你比如说,我今儿不是说做数学题,我们今天想推一个这种法律的,或者想推一个财务的,那其实都是可以找到一些专门做这个法考的老师,或者专门做财务资格证考试的老师,来给我们筛题。筛完题以后进去去这个训练去,这都是可以搞定的嘛。而且呢,让所有的推理模型可以一起解答,他没必要说我一定用DeepSeek R1去解答,还是说我要去用Gemini去解答,用O1,O3去解答。我们可以把所有的推理模型都抛下来,你们挨个给我答一遍,答完了以后,我们去挑里头质量好的1,000道题或者几千道题,然后再去训练也就可以了。

现在呢,有一堆的推理模型,DeepSeek R1、GPT的O1、O3 Mini、Gemini 2.0 Flash thinking。这一次李飞飞用的就是Gemini 2.0 Flash thinking。国内还有一堆的推理模型,比如说QWQ32B,就是一个标准的推理模型。Minimax和Kimi也都有各自的推理模型。哪怕你付费的这些模型,那就付呗,反正付完了钱以后,我就得到这一堆结果,拿着这个结果,我再去训练自己的这个小模型就完了。像这种32B的模型,我是完完全全可以在我自己电脑上跑的,我就不需要再交任何钱了,这个效果就好极了。所以以后这些付费推理模型,都应该会被拿来做蒸馏。千问2.5 32B的这个模型的底子很好,下面就都是老师的事情了。就是有人去试过,比如说千问的72B的。

Llama的70B、14B、7B、1B等模型现在普遍认为,能够产生比较好的中间结果。目前,大家主要在调整32B的模型,并且已经形成了一定的共识。接下来,可以进行更精细的质量管控。因为当我们调整完模型后,就可以进行测试,比如有多少道标准题库,跑完以后有多少对多少错,就可以去测试它是否正确。如果不对怎么办?不对就再花50美金,看看是不是好一点。又不对,再花50美金,然后再整1,000个题,再试试是不是好一点。最后找到一个最优解不就完事了吗?这样,你就得到了一个在某个特定领域里特别好用的32B小模型,然后进行微调和评测。

未来,比如像硅基流动、Together这些开源微调模型就要起飞了。因为我们现在可以在硅基流动上直接点出一个32B的模型来,实际上就是你把1,000道题做好了以后,把这个文档上传给他,然后一键确认,他可能连50美金都不需要,就给你搞定了。做完了以后,你就有自己的模型可以去使用了。Together是在美国的,他们调一个模型,我记得32B的模型也差不多是几十美金就可以调一次,在国内应该会更便宜。

很多小公司原来都在喊“适合你的小模型才是最好的”,但原来这个话其实是错的。为什么呢?因为微调出来的小模型原来的效果是没有那么好的,它未必比这些大模型加上RAG效果更好。现在,李飞飞给出了科学的方法,那么行业推理蒸馏小模型的春天就来了。因为你一旦推理了小模型以后,你就有什么东西叫用户粘度,用户会继续购买你的服务,继续让你去服务下去,而不是说上来说“哎,我今天用你的,明天用他的,反正模型都不是你们家的”,这个就没有任何用户粘度。原来有这样的问题,现在就好很多了。现在的话,就直接跑到人家行业里边去做问题筛选就可以了。问题筛选完了以后,再不断的测试、调优、评估。

这个路径其实已经很清晰了。以后小公司的春天就来了,就是可以卖模型、卖服务、卖数据。原来都说我要去做一个AI公司,那你手里头没有个一两亿美金,你都不好意思说你是做AI公司的。因为你需要去租显卡、去租GPU,去做预训练模型的训练。现在不用了,现在只要筛选好问题,哪怕你多试几次,最后花个几百美金试了十次,也不是什么大不了的事情嘛。而且这些模型,就是你的用户最需要的这些东西。

我记得我原来在学软件的时候,那还是九几年,整个软件行业有一个梦想,什么呢?叫系统咨询构架工程师。什么意思呢?原来我们都说,这个软件是需要分开的,先去做需求分析,然后去做这个加工设计,然后编码,编码完了以后测试,测试完了以后部署,然后再实施它,是这样的一个过程。说以后这个软件系统就很厉害了,他就不需要这些东西了,我们只管坐到用户面前,一边问用户你需要什么呀,等于在做咨询嘛,同时就在手里点点点,确认确认确认,打钩打叉,把这事情做完了以后说,哎,你这个问题都讲清楚了,你的软件也做好了,你可以拿去使去了。从九几年就有这样的梦想,现在的话这离这个梦想就又近了一步。

现在呢,让大模型改变每一个行业,终于要开始了。原来折腾了一两年都没有什么动静。以前都说大模型可以把每一个APP都重做一遍,大模型可以把每一个行业都改变一遍。为什么喊的这么大声音?大家都在使劲裁员,都在降本增效,原因很简单,就是以前很多的公司上了大模型以后,没有效果或者效果很难评估。那么现在的话,这种可感知的效果已经到面前来了,很多的公司就要开始上大模型,去改变他整个的业务链了。因为他现在改变了以后,就可以在特定的领域里头竞争胜利,他就可以把其他竞争对手干掉,快速的往前跑了。

你想咱们做了两年大模型,每一年看到的都是什么?谷歌裁员、微软裁员,国内也是什么百度裁员、阿里裁员,全是这个。但是,李飞飞这个模型的建立,以及靠这个蒸馏推理模型去进行微调小模型的这个方式。

发布了以后,我觉得未来的2025年,就会有大量的公司出来说:“我们去给你们微调小模型吧,我去给你解决实际问题吧。”真的是可以解决问题的,就会实实在在的发生改变了。这就是咱们今天讲的第一个故事,就是李飞飞的这个50美金的模型到底是怎么做出来的,里头到底干了点什么。

Comments are closed.