李飞飞S1K模型引爆AI界:仅50美金成本完胜DeepSeek R1与ChatGPT o1!
2 月 11
AIGC, DeepSeek大模型 029筛选, 16张H100显卡, 32B模型, 50美金AI训练, 59, AI公司裁员, AI商业化, AI小公司机会, AI开发路径, AI成本控制, AI技术突破, AI推理模型, AI教母, AI模型蒸馏, AI测试标准, AI用户粘度, AI科学方法, AI筛选问题, AI行业未来, AI行业竞争, AI行业落地, AI领域定制, AI领域案例, ChatGPT O1, ChatGPT对比, DeepSeek R1, Gemini 2.0 Flash thinking, Gemini数据, S1K模型, Together平台, Together平台训练, 中国AI创新, 人工智能创新, 低成本AI, 可感知AI效果, 大模型与小模型, 大模型优化, 大模型应用, 小型模型训练, 小模型训练, 开源微调模型, 微调模型, 推理效率提升, 推理时间优化, 推理步数评估, 收敛性评估, 教育AI模型, 数据训练优化, 斯坦福大学, 普林斯顿大学, 李飞飞, 法律AI模型, 用户定制化AI, 电子工程博士, 硅基流动, 硅基流动平台, 置信度评估, 蒸馏模型方法, 蒸馏训练技术, 蒸馏问题技术, 财务AI模型, 通义千问, 问题筛选技术, 预算强制法, 高效AI解决方案, 高效AI训练 李飞飞S1K模型引爆AI界:仅50美金成本完胜DeepSeek R1与ChatGPT o1!已关闭评论
大家好!欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲李飞飞的S1K模型。50美金成本超越DeepSeek R1和ChatGPT O1。
首先呢,DeepSeek到底是怎么震惊全球的?就是因为训练成本低。他的训练成本是OpenAI的3%,所以震惊了全球。
那么现在李飞飞的S1K模型,16张H100的显卡,跑了26分钟跑完了,拿到了一个32B的模型。多项测试超越了DeepSeek R1和GPTO1。
大家要注意,评测大模型呢,它有很多很多测试项。一般我们说基本上达到什么什么水平,就属于叫互有伯仲。有些你强点,有些他强点。原来大家都超不过GPT 4O,是因为只能接近它,距离它的全项指标都有差距。现在的话,大家就已经基本上可以达到GPT 4o的水平了。
现在R1跟O1算是最强的推理模型。李飞飞做的这个S1k,也算是部分超过了R1和O1,绝对超越了DeepSeek R1的32B。
DeepSeek R1呢,讲的时候一般有两个不同的说法。第一个呢叫蛮血版。什么是蛮血版?671B的那个是蛮血版。然后另外一个呢,是通过通义千问也好,LLama也好,这些模型蒸馏了以后重新微调出来的版本。所有你看到什么70B,什么32B,都是这种微调出来的版本。
李飞飞这个50美金他这个版本呢,要比他自己的32B版本还要好。大家是不是先想想,先站个队。这到底是原创呢,还是抄袭呢?对于粉红来说这是绝对原创,对于支黑来说这可能是抄袭。
因为李飞飞是个中国人,他是个北京人。后来呢是跑去四川上的学,他是成都七中出来的。SOGO的王小川,B站的陈瑞,都是他的中学校友。但是呢,另外一头呢,他是个美国的大学教授。普林斯顿大学物理学学士学位,出于对东西方哲学和科学奥秘的探索,他前往西藏研究过藏药。后来是在加州理工学院得到的电子工程博士学位,现在是斯坦福大学的教授,人工智能教母。这算是个创新吗?还是个抄袭呢?
我估计很多人可以炒半天这个事。咱们先不炒这个,在我这个频道里头,吵这个事没意义。咱们去讲讲这50美金到底咋花的。
首先呢,是蒸馏一个小样本模型。有一个什么基座呢?通义千问32B。拿这个模型去做微调,就跟刚才我们讲的那个DeepSeek R1 32B的那个基座是一样的,都是通义千问2.5 32B。但是呢,拿进去做微调的这个样本是不一样的。DeepSeek R1 32B 是使用DeepSeek R1满血版产生的数据去微调的千分2.5。而现在李飞飞呢,他使用的是谷歌的推理模型Gemini 2.0 Flash thinking产生的问题去进行的微调。而且还有一个呢,就是它的问题特别少。就是DeepSeek自己微调的时候,有多少个问题?80万个问题。而李飞飞的问题有多少个呢?1,000个。拿了1,000个问题,就把这个模型给微调出来了。所以1K就是1,000,1,000个问题的意思。S1K这个模型只有1,000个问题。每一个问题呢,都是通过Gemini 2.0 Flash thinking进行解答,并且获得思考的过程与结果。因为他总共就1,000个问题嘛,你把他塞进去16块显卡,26分钟就跑完了。成本也就是50美金。那么是不是我来我也行?我也找1,000个问题上去,50美金我也整一个出来。
最近互联网上有个新梗,什么呢?就是“中国行我也行”。这个是嘲笑那些不自量力,想要学习中国大力出奇迹,结果翻车了的外国友人的一个新梗。这个并不是那么容易。你要想说,我用1,000个问题把这事训练好,那你想去挑这1,000道题,一定是非常非常难的。它这个S1K里头,实际上有两个大的创新点。一个是1,000道问题的筛选,另外一个呢特别神奇的东西,叫做预算强制,budget forcing。咱们先去讲这1,000个问题怎么筛出来。首先呢,这一帮的学者们从16个不同的来源,收集到了5万多个问题。
在59,029个问题中筛选出1,000个问题,其筛选标准主要包括以下几点:
1. **质量要高**:所谓质量高,指的是问题的解答过程和最终结果的格式完整、逻辑清晰。如果某些问题的解答过程格式不完整或混乱,则不予考虑。
2. **难度要大**:难度大的问题通常具有更长的推理过程、更详细的步骤、更多的推理步数和更长的推理时间。
3. **全面**:最终从50个不同领域中选取了1,000个问题,确保覆盖广泛,避免领域单一。
这三个原则——质量高、难度高、全面性,是筛选的基础。在此基础上,还需要探讨艺术、技术与科学之间的差异:
– **艺术**:偶然所得,无法重现。
– **技术**:在技艺基础上不断迭代与创新,但无法跨领域应用。
– **科学**:理解底层原理,可以跨领域应用。
中国在技术上表现强劲,但在科学方面略有不足。S1K实际上是一种科学,因为其筛选和训练过程并非简单的试错,而是通过科学的方法验证和优化。例如,仅筛选出最优质的1,000个问题进行训练,效果并不理想;同样,仅筛选出最难的或最全面的1,000个问题,效果也不佳。最终,将全部59,000个问题一起训练,效果虽有提升,但并不显著。这一过程体现了科学的严谨性和系统性。
就是真正在找到底层逻辑了。找到了逻辑以后,我就可以在这个逻辑上进行优化了。下次再去选问题的时候,我就选这1,000个题。大家注意,你选的题越多,他肯定是效果越好。但是呢,选的问题很多了以后,他你这个效果提升变得非常非常的不显著了。等于你花了很多的钱,后边都没有什么用了,这个就没有必要了。我们就到第1,000道题就可以了。所以大家就可以按照这个逻辑,在不同的领域里去应用这个筛选1,000道题的方法了。这个是一个真正进入科学范畴的东西。
建议以后这些大模型团队呢,可以去学而思、新东方找一些老师回来筛选问题。这个过程其实很像什么?我这个学生要去参加竞赛了,我这个学生要去参加高考了,他的时间非常非常有限。怎么能够筛选出一套特定的题目来,让他去训练?训练完了以后,可以在有限的时间内得到最好的提分。这个过程是不是跟学而思的这帮老师们干的活非常非常像?以后再去选问题的时候,比如说我们今天要去选一些物理相关的、数学相关的,或者什么这样的题的时候,那你就找这些老师来,他就有效果。
下一个创新是什么呢?下一个创新叫预算强制。这个特别有意思,其实还是学而思老师的范畴。预算强制说白了是什么?就这个题如果太难了,就别浪费功夫了,直接终止,写一答案在这就行了。你也不是说终止就不写答案,因为咱们知道考试的时候,你万一写对了呢?该蒙你还是得蒙一个答案出来的。如果这个问题你觉得太简单了,没有用到相应的时间,你就把答案直接做出来了,那你是不是等一等,再回去想一想,稍微检查一下。但是呢,到底哪道题需要尽快结束,哪道题需要多想想呢?这才是关键点。
咱都知道说,这个题如果太难了,咱就把它扔掉。我儿子小时候学奥数的时候,他就讲过哪道题你先看一眼,如果发现没什么这个概念,就直接pass就别做了。这就不是给你预备的。如果你把时间耗在这上头了,下边题就没法做了。而且那个时候考奥数的时候,还告诉你说第几题是多少分。
多少分的题,你应该在上面耗多长时间?如果你发现你在一个3分的题上耗了多长时间以上,你就赶快放弃掉。咱们现在就需要去做这个测算了,它叫预算强制法嘛。这个budget到底怎么定的呢?推理的步数和推理的时间,以此来定这个budget。首先要对任务进行复杂度评估,先看一下这个任务大概应该推多少步,花多少时间。
然后呢,在当前推理过程中得到一些中间结果。因为我们做题的时候也是,有时候做的中间结果出来。这个时候呢,我们就要对中间结果进行一个评估。第一个评估是什么?叫置信度评估。什么叫置信度?给大家讲一个故事吧。比如说今天这个天气预报说了,降水概率99%,这就属于置信度很高,那就肯定下雨,别费劲了,就下雨吧。咱们就不用再去花时间在后边推理去了。待会来一个专家说,这个专家认为今天降水概率是51%,这个呢就叫置信度不够高。您再花点功夫,再好好想想,能不能把这事说说的确定一点。这叫置信度。
然后下一个是什么呢?叫收敛性评估。什么叫收敛性?如果你得到了几个结果,这些结果相对来说都是稳定的,而且越来越稳定,这个就结束了,就是他吧。就算是我给出的结果不是一个完全准确的结果,但是呢,应该误差也不大了。这叫收敛性。但如果说,我现在得到了三五个结果,但是这结果呢值上蹿下跳的,这都差异非常非常远。那你在这种情况下,你就回去再想一想,多花一点时间再思考一下,再重新给一个结果。然后对结果进行质量评估。
还有是什么呢?就是任务特性和标准。因为你不同的任务,对结果的质量要求是不一样的。咱比如说吧,都是打比赛。篮球比赛比赛结果100:70,看着有点像,差不太多可以交差了,就这样吧。足球比赛结果100:60,您回去再算算吧,这事好像不太对。那么在这个基础上,再进行一些动态的调整,再进行一些预设的结果。什么叫预设结果?就是当我发现某些结果达到的时候,就直接停止。比如说我推理了半天,开始骂人了,那停下来吧。
或者推理了半天,发现涉黄涉黑了,那这事停下来吧。他也会有一些这样的停止命令在里头。他呢,就是这样来工作。第一个,我们先看看这个题值多少分。你可以给他一个多大的预算?你应该是推500步,还是推50步,把它推出来?先有一个预算,然后呢,我们在推的过程中就不停地来检查结果。哎,这结果已经不错了,那就到这吧。这跟考试的过程很像。
再往后呢,就是要去看你的预算了。比如说,我的结果出来了,发现我预算呢,应该做500步的,现在做了50步就把这个结果做出来了。那你再回去想想,可能有问题。但如果有时候超预算了,我原来评估说这个结果推出来应该是50步就推到头了,但是呢,我已经推到第80步了,还没推出来呢,那就赶快停止,别浪费时间了。写一个你觉得最靠谱的答案上去,就完事了,接着做下一题。这个就叫做预算强制。
那么这种论文发出来以后的话,我估计未来所有的推理模型应该都会去使用这套东西。实际上,整个过程是不是真的很像我们儿子小时候做奥数题的过程?你先看看这个题,3分的题你应该用几分钟,5分的题你应该用几分钟。你做的过程中再去看看说,中间这个答案已经很像了,直接把它写上就完事了。这个答案看着怎么看怎么不像。咱们经常说,数学这个东西,正确答案都很美。我没感到那种美,回去再想想。
还有什么呢?我儿子小时候学的也是说这个,做题做着发现,你写出来公式越来越复杂,最后算不出来了。那这个你再回去算算可能哪错了。或者说明明挺大的一个题这么难,我怎么三步两步就把它做完了。回去再想想,大概就是这样的一个过程。
当这些东西有了以后,S1K这个模型就有了今天这样神奇的结果。所以50美金就是1,000道题。训练是50美金。咱们把刚才讲的质量最好的1,000道题,最难的1,000道题,最全面的1,000道题,59,000道题都训练,再加上什么数据准备,这些东西都算一块。这个50美金是打不住的。
但是,你就训练1,000道题,就是50美金,再加上后边这个预算强制,它就可以达到很好的效果。现在,科学的车轮滚滚向前了。S1K模型出来以后,虽然没有用到Deepseak,但是方向是明确的,筛选问题就好了。老师们又有价值了,甭管你原来是教数学的,教物理的,赶快出来说,我们再筛选一下。我们要像培养奥数种子选手那样,去微调训练这种推理模型了。而且在不同的领域里头,都可以快速的蒸馏出小模型来,并且呢,实现领域内的突破。
你比如说,我今儿不是说做数学题,我们今天想推一个这种法律的,或者想推一个财务的,那其实都是可以找到一些专门做这个法考的老师,或者专门做财务资格证考试的老师,来给我们筛题。筛完题以后进去去这个训练去,这都是可以搞定的嘛。而且呢,让所有的推理模型可以一起解答,他没必要说我一定用DeepSeek R1去解答,还是说我要去用Gemini去解答,用O1,O3去解答。我们可以把所有的推理模型都抛下来,你们挨个给我答一遍,答完了以后,我们去挑里头质量好的1,000道题或者几千道题,然后再去训练也就可以了。
现在呢,有一堆的推理模型,DeepSeek R1、GPT的O1、O3 Mini、Gemini 2.0 Flash thinking。这一次李飞飞用的就是Gemini 2.0 Flash thinking。国内还有一堆的推理模型,比如说QWQ32B,就是一个标准的推理模型。Minimax和Kimi也都有各自的推理模型。哪怕你付费的这些模型,那就付呗,反正付完了钱以后,我就得到这一堆结果,拿着这个结果,我再去训练自己的这个小模型就完了。像这种32B的模型,我是完完全全可以在我自己电脑上跑的,我就不需要再交任何钱了,这个效果就好极了。所以以后这些付费推理模型,都应该会被拿来做蒸馏。千问2.5 32B的这个模型的底子很好,下面就都是老师的事情了。就是有人去试过,比如说千问的72B的。
Llama的70B、14B、7B、1B等模型现在普遍认为,能够产生比较好的中间结果。目前,大家主要在调整32B的模型,并且已经形成了一定的共识。接下来,可以进行更精细的质量管控。因为当我们调整完模型后,就可以进行测试,比如有多少道标准题库,跑完以后有多少对多少错,就可以去测试它是否正确。如果不对怎么办?不对就再花50美金,看看是不是好一点。又不对,再花50美金,然后再整1,000个题,再试试是不是好一点。最后找到一个最优解不就完事了吗?这样,你就得到了一个在某个特定领域里特别好用的32B小模型,然后进行微调和评测。
未来,比如像硅基流动、Together这些开源微调模型就要起飞了。因为我们现在可以在硅基流动上直接点出一个32B的模型来,实际上就是你把1,000道题做好了以后,把这个文档上传给他,然后一键确认,他可能连50美金都不需要,就给你搞定了。做完了以后,你就有自己的模型可以去使用了。Together是在美国的,他们调一个模型,我记得32B的模型也差不多是几十美金就可以调一次,在国内应该会更便宜。
很多小公司原来都在喊“适合你的小模型才是最好的”,但原来这个话其实是错的。为什么呢?因为微调出来的小模型原来的效果是没有那么好的,它未必比这些大模型加上RAG效果更好。现在,李飞飞给出了科学的方法,那么行业推理蒸馏小模型的春天就来了。因为你一旦推理了小模型以后,你就有什么东西叫用户粘度,用户会继续购买你的服务,继续让你去服务下去,而不是说上来说“哎,我今天用你的,明天用他的,反正模型都不是你们家的”,这个就没有任何用户粘度。原来有这样的问题,现在就好很多了。现在的话,就直接跑到人家行业里边去做问题筛选就可以了。问题筛选完了以后,再不断的测试、调优、评估。
这个路径其实已经很清晰了。以后小公司的春天就来了,就是可以卖模型、卖服务、卖数据。原来都说我要去做一个AI公司,那你手里头没有个一两亿美金,你都不好意思说你是做AI公司的。因为你需要去租显卡、去租GPU,去做预训练模型的训练。现在不用了,现在只要筛选好问题,哪怕你多试几次,最后花个几百美金试了十次,也不是什么大不了的事情嘛。而且这些模型,就是你的用户最需要的这些东西。
我记得我原来在学软件的时候,那还是九几年,整个软件行业有一个梦想,什么呢?叫系统咨询构架工程师。什么意思呢?原来我们都说,这个软件是需要分开的,先去做需求分析,然后去做这个加工设计,然后编码,编码完了以后测试,测试完了以后部署,然后再实施它,是这样的一个过程。说以后这个软件系统就很厉害了,他就不需要这些东西了,我们只管坐到用户面前,一边问用户你需要什么呀,等于在做咨询嘛,同时就在手里点点点,确认确认确认,打钩打叉,把这事情做完了以后说,哎,你这个问题都讲清楚了,你的软件也做好了,你可以拿去使去了。从九几年就有这样的梦想,现在的话这离这个梦想就又近了一步。
现在呢,让大模型改变每一个行业,终于要开始了。原来折腾了一两年都没有什么动静。以前都说大模型可以把每一个APP都重做一遍,大模型可以把每一个行业都改变一遍。为什么喊的这么大声音?大家都在使劲裁员,都在降本增效,原因很简单,就是以前很多的公司上了大模型以后,没有效果或者效果很难评估。那么现在的话,这种可感知的效果已经到面前来了,很多的公司就要开始上大模型,去改变他整个的业务链了。因为他现在改变了以后,就可以在特定的领域里头竞争胜利,他就可以把其他竞争对手干掉,快速的往前跑了。
你想咱们做了两年大模型,每一年看到的都是什么?谷歌裁员、微软裁员,国内也是什么百度裁员、阿里裁员,全是这个。但是,李飞飞这个模型的建立,以及靠这个蒸馏推理模型去进行微调小模型的这个方式。
发布了以后,我觉得未来的2025年,就会有大量的公司出来说:“我们去给你们微调小模型吧,我去给你解决实际问题吧。”真的是可以解决问题的,就会实实在在的发生改变了。这就是咱们今天讲的第一个故事,就是李飞飞的这个50美金的模型到底是怎么做出来的,里头到底干了点什么。