<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>推理效率提升 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%e6%8e%a8%e7%90%86%e6%95%88%e7%8e%87%e6%8f%90%e5%8d%87/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Tue, 25 Mar 2025 00:52:48 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>推理效率提升 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>GTC大会，黄仁勋的饼，为什么不香了？揭秘英伟达GTC&#8221;算力怪兽&#8221;真相：黄仁勋的300万美金机柜为何引发资本冷眼？</title>
		<link>https://lukefan.com/2025/03/25/gtc%e5%a4%a7%e4%bc%9a%ef%bc%8c%e9%bb%84%e4%bb%81%e5%8b%8b%e7%9a%84%e9%a5%bc%ef%bc%8c%e4%b8%ba%e4%bb%80%e4%b9%88%e4%b8%8d%e9%a6%99%e4%ba%86%ef%bc%9f%e6%8f%ad%e7%a7%98%e8%8b%b1%e4%bc%9f%e8%be%begtc/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Tue, 25 Mar 2025 00:52:46 +0000</pubDate>
				<category><![CDATA[英伟达，NVIDIA，黄教主，GPU]]></category>
		<category><![CDATA[AI Agent革命]]></category>
		<category><![CDATA[AI推理成本]]></category>
		<category><![CDATA[AI泡沫预警]]></category>
		<category><![CDATA[AI算力租赁]]></category>
		<category><![CDATA[AI算力需求]]></category>
		<category><![CDATA[AI编译器优化]]></category>
		<category><![CDATA[AI芯片国产替代]]></category>
		<category><![CDATA[AI芯片迭代]]></category>
		<category><![CDATA[AI训练成本]]></category>
		<category><![CDATA[ARM架构生态]]></category>
		<category><![CDATA[Blackwell架构]]></category>
		<category><![CDATA[CoreWeave上市]]></category>
		<category><![CDATA[DeepSeek模型]]></category>
		<category><![CDATA[GB200 NVL 72]]></category>
		<category><![CDATA[Grace CPU]]></category>
		<category><![CDATA[H20芯片]]></category>
		<category><![CDATA[HBM3e显存]]></category>
		<category><![CDATA[MoE模型架构]]></category>
		<category><![CDATA[NVLink技术]]></category>
		<category><![CDATA[Scaling Law失效]]></category>
		<category><![CDATA[TOKEN经济]]></category>
		<category><![CDATA[Token计费模式]]></category>
		<category><![CDATA[中美AI博弈]]></category>
		<category><![CDATA[云计算价格战]]></category>
		<category><![CDATA[光通信技术]]></category>
		<category><![CDATA[内存墙突破]]></category>
		<category><![CDATA[分布式计算架构]]></category>
		<category><![CDATA[半导体供应链]]></category>
		<category><![CDATA[半导体设备折旧]]></category>
		<category><![CDATA[半导体设备禁运]]></category>
		<category><![CDATA[参数规模竞赛]]></category>
		<category><![CDATA[大模型盈利困局]]></category>
		<category><![CDATA[大模型蒸馏技术]]></category>
		<category><![CDATA[存算一体芯片]]></category>
		<category><![CDATA[异构计算架构]]></category>
		<category><![CDATA[推理效率提升]]></category>
		<category><![CDATA[摩尔定律终结]]></category>
		<category><![CDATA[散热技术革命]]></category>
		<category><![CDATA[数据中心基建]]></category>
		<category><![CDATA[数据中心能耗]]></category>
		<category><![CDATA[数据并行策略]]></category>
		<category><![CDATA[显存带宽优化]]></category>
		<category><![CDATA[服务器机柜标准]]></category>
		<category><![CDATA[服务器集群部署]]></category>
		<category><![CDATA[机器人操作系统]]></category>
		<category><![CDATA[模型并行技术]]></category>
		<category><![CDATA[液冷服务器]]></category>
		<category><![CDATA[深度学习框架]]></category>
		<category><![CDATA[硬件投资回报率]]></category>
		<category><![CDATA[算力云服务]]></category>
		<category><![CDATA[算力军备竞赛]]></category>
		<category><![CDATA[绿色数据中心]]></category>
		<category><![CDATA[编译器技术突破]]></category>
		<category><![CDATA[芯片制程工艺]]></category>
		<category><![CDATA[芯片命名玄学]]></category>
		<category><![CDATA[芯片封装技术]]></category>
		<category><![CDATA[芯片散热材料]]></category>
		<category><![CDATA[英伟达GTC大会]]></category>
		<category><![CDATA[超算中心建设]]></category>
		<category><![CDATA[边缘计算需求]]></category>
		<category><![CDATA[量子计算布局]]></category>
		<category><![CDATA[黄仁勋战略]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=2025</guid>

					<description><![CDATA[啊啊啊啊啊！黄仁勋又在GTC放大招了！这次直接搬出1.36吨的算力怪兽GB200NVL72，300万刀起跳的机柜直接把我看傻了！！（手抖.jpg）

💸【这机柜有多离谱？】
👉 120千瓦功率=我家开20台空调
👉 36颗CPU+72颗GPU疯狂堆料
👉 自带液冷系统+定制交换机
👉 打包价够在三线城市买别墅！

老黄这次彻底不当人！直接放话要8台联机用，2400万刀直接烧出一个算力黑洞！现在买爆的全是CoreWeave这种算力云厂，微软谷歌却偷偷DIY省预算...

🤯【股价暴跌真相】
不是老黄不给力！是市场发现惊天秘密：
1️⃣ 推理市场根本不赚钱！OpenAI/Anthropic都在亏本硬撑
2️⃣ 华为升腾悄悄抢单！H20芯片被曝是"备胎专用"
3️⃣ 模型训练开始摆烂！GPT4.5参数竞赛走到头

最骚的是DeepSeek R1这个话痨精！一个回答狂喷20倍TOKEN，逼着所有人升级设备！老黄还现场演示黑科技BYNAMO框架，结果...就这？？

🚨【2028年惊天剧透】
黄仁勋连量子芯片都安排上了！命名狂魔最新路线：
2024 Blackwell→2026 Rubin→2028 费曼
但！是！
量子计算要等20年才能用！现在买新卡就是交智商税？？

💡【搞钱人必看】
现在入场算力云=49年入国军？
✅ 等Robin Ultra NVL576（576颗芯片！）
✅ 盯紧AI agent商业落地
✅ 华为生态链偷偷发育中

家人们！现在还敢all in英伟达的绝对是真勇士！要我说不如囤点H20当传家宝，毕竟...懂的都懂！（疯狂暗示.jpg）

👇👇👇
评论区告诉我：
你现在敢接老黄的飞刀吗？
（手把手教你怎么查自家显卡能不能跑DeepSeek！）

GTC大会，黄仁勋的饼，为什么不香了？揭秘英伟达GTC"算力怪兽"真相：黄仁勋的300万美金机柜为何引发资本冷眼？

在2024年英伟达GTC大会上，黄仁勋携Blackwell架构GB200 NVL 72服务器震撼登场，这款集成72颗GPU、功耗120千瓦的"算力怪兽"售价高达300万美金。面对DeepSeek等AI模型引发的TOKEN经济革命，英伟达抛出Robin Ultra 576等未来芯片路线图，却遭遇资本市场用脚投票。本文深度解析GB200液冷服务器技术细节，揭秘H20芯片在华热销内幕，探讨算力军备竞赛下AI行业盈利困局，并前瞻黄仁勋布局量子计算与机器人赛道的深远战略。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="GTC大会，黄仁勋的饼，为什么不香了？揭秘英伟达GTC&quot;算力怪兽&quot;真相：黄仁勋的300万美金机柜为何引发资本冷眼？" width="900" height="506" src="https://www.youtube.com/embed/6DfZ2p99zKM?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，黄仁勋的大饼不香了吗？GTC之后，英伟达的股价怎么跌了？</p>



<p>每年会开一次GTC，叫GPU Technology Community，就是GPU技术的一个社区的会。但是呢，现在再去开GTC，一般已经没有GPU在上面了。咱们现在管这种像什么H100、B200、B100这样的东西叫算力卡。真正的GPU应该是4090、5090这种东西。现在4090、5090在什么地方发布呢？是在AES，AES叫消费电子展。一般黄仁勋都会在消费电子展上卖这种叫个人游戏显卡，然后在GTC上卖他的算力卡。所以呢，我们要分清楚，虽然还叫GTC，但是里头已经没有GPU了。</p>



<p>现在各个公司都在努力的做自己的技术研讨会或者是开发者大会。原来比较著名的一个，现在已经没落了呢，叫IDF，英特尔的开发者论坛，现在已经没有那么热了。现在还比较热热闹闹在开的呢，一个是谷歌IO，一个是Microsoft Build，微软的这个构建大会，然后是苹果的WWDC，叫全世界开发者大会。这个名字取得好，因为他先开始了，所以他就可以取这样投机取巧的名字。英伟达的GTC现在都还是比较热的。OpenAI的开发者日呢，目前还在努力的追赶之中。Meta，也就是原来的Facebook，现在呢有两个开发者日，一个叫Meta Connect，像他的各种AR、VR这种设备，包括很多的广告系统都是在这里开。其实以前Meta Connect大会，大家主要是去听他的广告平台的一些运作方式，因为广告平台挣钱嘛，其他东西都不怎么挣钱。另外一个呢，从今年要开始开，叫Llama Conference，是专门给它的这个大模型开的一个开发者大会。所以Meta今年会有两个。</p>



<span id="more-2025"></span>



<p>说回来，黄仁勋今天都说了点什么呢？主要还是在继续他的科学家之路。为什么叫科学家之路？大家知道他的算力卡一直是以伟大科学家的名字来命名的。第一个被他宠幸的是2006年的特斯拉，2006年英伟达的卡叫特斯拉卡。到2010年这四年之间没有发新卡，其实当时大家并不是那么在意这种算力卡。所以到2010年就上新的了，叫费米，这个是伟大的数学家，费米大定律。到2012年叫开普勒，天文学家，开普勒望远镜，开普勒天文台。再往后呢，2014年叫麦克斯韦，麦克斯韦方程式。到2016年叫帕斯卡。</p>



<p>这个呢，是法国非常著名的一位做计算机早期研究的科学家。像我们学计算机本科出身的人，学的第一门编程语言都是Pascal语言，就是为了纪念这位伟大的计算机科学家。注意，越往后他发的越密，因为越来越受欢迎了。</p>



<p>2017年，这个名字特别好叫伏特，咱们测电压的那个伏特。2018年图灵，图灵奖，图灵测试。2020年呢，隔了两年了，前面既然伏特有了，那安培也得有，所以2020年这个叫安培。到2022年呢，Hopper，就像什么H100，H20，H80，都是这个Hopper。Hopper这个科学家干嘛的呢？他是计算机编译器的发明人。我们现在写程序都是用高级语言写，写完了以后给你编译成二进制代码，这是他干的事情。我们现在用了非常多的H系列的显卡，也是从H系列显卡开始对中国禁运的。</p>



<p>到2023年呢，叫Ada。这个Ada呢，是世界上第一位程序员，是一位女士。当时还没有什么计算机，但是呢，他设计出了一种程序语言。他说如果以后有计算机的话，大概是这样的。所以呢，ADA是世界上第一位程序员。A100，A800，都是这个A系列开头了。</p>



<p>到2024年，也就是咱们现在在使用的叫黑井Blackwell。Blackwell呢，是美国数学家，美国国家科学院首位的黑人学者。他是个统计学家和数学家。这个也是政治正确一下。这个黑井呢，本来应该去年大规模部署和销售的，但其实去年大家还是在很努力的买A系列跟H系列的算力卡，没有轮上他，因为他去年一直出货不是很稳定，或者说他的质量一直有点小问题。但是到2025年，Blackwell终于开始大批量出货了。2025年呢，还会出Blackwell Ultra，就是在这个基础上再要升级一下。</p>



<p>到2026年，他说我们准备出一个叫Robin。这个Rubin呢，是美国国家科学院首位女性的天体物理学院士，暗物质的发明人。到2028年呢，是要出费曼。费曼呢，是一个量子力学这块的一个大拿。现在就是把饼已经画到2028年了。现在他的Blackwell 200终于顺利出货了。到2025年的下半年，要出Blackwell Ultra这个芯片，实际上是Blackwell 300，要比B200呢快1.5倍，今年下半年出货。估计一些还在排队等B200的人，可能有一部分就可以转订单了。等到明年我们就可以看到Robin了。Robin呢，据说比B300还要强3.3倍。但是呢，这个里头其实有个错误，什么错误呢？</p>



<p>并不是Blackwell Ultra比这个B200快1.5倍，也不是Robin就比B300快3.3倍。那你说，我这个刚讲完了，怎么马上就搞错了呢？写稿的时候也不稍微认真点。原因也很简单，它其实是什么比什么快呢？就是GB 300 NVL 72的这个算力，是GB 200 NVL 72的1.5倍，实际上就是快了50%。而至于后边这个3.3倍的，是怎么算出来的呢？是Robin NVL 144比GB300 NVL 72要快了3.3倍，算的是整个服务器的算力，而不是单个芯片的算力。所以大家要注意。</p>



<p>那你说这个GB200跟这个GB200NVL 72到底有什么区别呢？或者B200跟这个GB200NVL 72到底有什么区别？咱们想象中的B200呢，其实是一个芯片，或者说做出一块卡来，哪怕这个卡再贵几万美金一块的，您也是可以把它塞到服务器里边去的。但是呢，GB200 NVL 72呢，那就完全是一个妖怪了。怎么能叫妖怪呢？这个里边有36颗Grace CPU，这个Grace CPU实际上是ARM的一种CPU，每一个CPU里头还有72个内核。然后这个里边还有72颗Blackwell的GPU，所以这个里边一共是有36颗CPU，72颗GPU，有13.5T的HBM 3e的现存，而且有液冷的系统，就是水冷的，再加上NVL link的交换机。整个这一套咱加一块才叫GB 200 NVL 72，它是一台服务器。</p>



<p>至于说这个服务器到底有多大个呢？为什么说它是妖怪呢？大家是不是在想说，我怎么能够把这些芯片都给它塞在一个盒子里？这玩意得有多高的密度？这个东西首先我们先说功率，它的功率是120千瓦，这个是很像咱家里热水器，可能也就是几个千瓦，它这个玩意有120千瓦，这个非常非常耗电。而体积呢，是一个标准的42U机柜。所以这个东西并不像大家想象似的，是一台服务器，它是一整个机架，19寸的42U的机架，装满了就是一个GB200NVL 72。这东西有多重呢？1.36吨，一般人也是搬不走的，反正至少我搬不走。价格300万美金以左右吧，因为还要看具体的配置，到底配了多少显卡，配了多少显存，配没配NVL Ink的交换机。这个东西基本上就要300万美金起，所以它是一个妖怪。</p>



<p>为什么要跟大家讲这个呢？就是老黄现在肯定不甘心只卖卡，人家说我要把整个机架一起卖给你，你不能说光买我这卡，而且他鼓励大家。</p>



<p>将8台GB200NVL 72组成一个集群一起来使用。一台300万美金了，那8台？哇，好开心，2,400万美金就扔进去了。这个对于英伟达来说，肯定是一个非常非常好的生意。现在谁在买这种GB200 NVL 72呢？主要是那种叫算力云厂商。什么叫算力云厂商？就是说我没有别的业务，我就是提供算力。我也没有什么ToC的业务，也没有其他的任何的系统集成，或者是其他的这种ToB的业务，我就提供算力云。他们呢，在大批量的采购GB200NVL 72，就直接从黄仁勋这里买完整的机柜回来。这个里边最著名的一个公司叫CoreWeave。这个公司呢，这两天要上市，这个真的是英伟达的亲儿子。这些大的AI大厂，一般是不会直接买GB200 NVL 72的，包括Xa i，微软，谷歌呀，他们喜欢自己DIY。我自己来拼，你不要给我拼好了，你拼好了以后，我觉得很不爽。咱们再回过头来看，GB 300插了72个芯片的这个服务器，要比GB 200插了72个芯片的服务器快50%，也就是达到1.5倍。后边有一个特别有意思的事情，这个Robin的这个后面它不再是72了，它是NVL144。所以呢，它所谓的，是原来300的这个服务器的3.3倍。它是用了两倍的芯片在里头，原来那个是72个算力核心，现在呢，是144个算力核心，达到了3.3倍。所以Rubin其实比GB 300快不了多少，大概也就是这样的一个情况。Robin之后呢，再接着出，叫Robin Ultra。一般它叫Ultra的芯片就是我可以把两个芯片拼一块，或者做一些类似这种扩容的工作。当然，像B系列不是这么干的，具体怎么去排这个号现在还不确定。前面的有B100、B200、B300，今年下半年要出的是B300。B200呢，其实就是把俩B100拼一块了。B300呢，倒是重新设计的一个单芯片设计。至于说Robin Ultra的话，黄仁勋准备直接出Robin Ultra NVL 576，把576个Robin Ultra的芯片塞到一个机架。我估计这一个机架未必塞得下，有可能还是要塞两到三个机架，或者是四个机架，才有可能把它塞进去。为什么呢？因为它需要散热。虽然这个芯片本身没有那么大，但是你想加上液冷散热，再加上它整个的这个连接系统，还是非常非常吓人的。Robin Ultra NVL 576呢，它是GB300NVL 72的14倍。这个数字并不重要，意思是什么呢？</p>



<p>黄仁勋已经基本上达到极限了。他想让这个东西变得更快一点的唯一方法，就是把更多的GPU塞到机箱里边去。再往后，费曼到底会变成什么样？这个实在太美不敢想象，肯定是很贵的东西。除了去发这些芯片之外，还干嘛呢？发交换机，叫硅光交换机。实际上呢，就是Nvlink的这个进化版本。NVlink其实也是一套网络交换机，只是呢，它是第一个是光通道的，速度很快。第二个呢，因为它里头有很多的打破协议去进行数据搬运和传输的，这种算是非标的改装件吧。它呢，可以极高速度地在两个显卡或者两个服务器之间，在显存之间去进行数据传输。</p>



<p>黄仁勋就讲了，说你一旦加了我的Nvlink，你就相当于是把所有12个GPU连成一个。如果你再把8台服务器这种Nvl什么72搁在一起的话，我可以让它整个像一个GPU那样工作。这样它从这个GPU的显存向那个GPU的显存里去倒数据的时候，非常快。但是呢，这个里边还有一个问题是什么？就是原来你要从光通道里头把这个信号接收下来以后，你还是要去做一些标准芯片的这个处理。处理完了以后呢，再进到Vlink的这个交换机里边去进行数据交换。老黄说，现在别费劲了，我把你前面那个标准芯片干掉，我自己去设计一些颗新的芯片。这样等于是我直接把光通道进来，我可以省一颗芯片。那这个呢，它确实可以再提高一点点光通道交换机的这种效率，但是也提不了太高了，就是省一颗芯片的这个速度。</p>



<p>老黄说了说DeepSeek R1，你们老说DeepSeek上来以后，英伟达是不是要黄？没有那事。从DeepSeek开始，整个的AI已经进入了新的时代，叫TOKEN时代。在OpenAI开始把大家拉入到AIGC时代以后，大家就天天跟这个TOKEN打交道。我输入了一个单词，是一个TOKEN还是两个TOKEN？我输出了一个单词，是一个TOKEN还是两个TOKEN？一个汉字基本上就是一个TOKEN，大家都是按这个来的。而且我们使用各种API，使用各种的服务，都是拿TOKEN计费的。那为什么现在又突然进到TOKEN时代了呢？原因很简单，DeepSeek R1是个话痨，巨浪费TOKEN。所以，他就讲了说，原来呢，我们使用Lambda这样的模型，它可能输出了个几百个TOKEN，回答了个问题。但是呢，这个答案没法进行具体的应用。你现在让DeepSeekR1来，同样的一个问题，七八千个TOKEN。</p>



<p>直接20倍的TOKEN上去了。那这20倍TOKEN出来以后的这个结果呢？勉强可以用了。这个就是现在的变化。这个里头呢有两个重点：</p>



<p>第一个重点是什么？叫结果可用。因为你一旦结果可用的话，大量的应用就会上来。原来大家还是在围观看热闹，说这个东西好有趣，那个东西好有趣。但是你输出的结果，你是不敢直接用的。现在可以用了。</p>



<p>另外一个重点是什么？20倍的TOKEN。结论是什么呢？大家必须要买更多的英伟达算力服务器，组建更大的集群，才能满足需求。第一个，它可以用了，所以大家赶快来买服务器，把你们家的应用都整个搬过来吧，赶快来改造。第二个呢就是原来几百个TOKEN就可以搞定的事情，现在可能要几千个TOKEN，甚至上万个TOKEN。20倍的TOKEN浪费掉，所以你们原来那个服务器不够使了，赶快换新的。</p>



<p>他讲了说scaling law要换一种方式继续。因为原来我们都说算力堆上去，数据堆上去，大模型的参数堆上去以后就会涌现了。中间这过程到底怎么发生的，我们也不知道。但就是你只管堆就好了。现在呢，GPT4.5出来以后，大家觉得scaling law是不是走到头了。你费了这么大劲，花了这么多钱，效果好像看不太出来。老黄说不是这样的。第一个，推理模型你还是需要大量训练的。不是说你就可以用一个很小的这种蒸馏模型就可以用了。它也去比较了14B的，32B的，这样的蒸馏模型并不好使。即使是70B的蒸馏模型，也没有这种671B的满血模型好使。所以呢，你还是要用这个大的671B这样的模型。你要去训练它，依然需要大量的GPU去工作。所以，这块是一个新的赛道。就是原来GPT4.5那个东西呢，叫预训练模型。现在是推理模型，整个scaling law重走一遍。而且推理过程一堆话篓，这个通常是非常浪费的一个过程，才能够获得可用的结果。用老黄自己的话说，每一个TOKEN都在质疑自己，就是你每输出一个TOKEN都在想我对吗，然后再生成出一大堆TOKEN来进行相互的验证，得到一个最终可用的答案。这个就是TOKEN时代。所以大家赶快去买GPU，这是他讲的。</p>



<p>在这两块之后呢，再去讲的就是他的两个小主机。其实我一直不太看好他的主机。我觉得这东西卖不掉，或者买到他的人，其实会让他吃灰。第一个呢就是CES上其实发布过DGX Spark这种桌面小主机，一个GB10的Grace Blackwell的这种。</p>



<p>CPU和GPU组合在一起的这个价格，跟这个Mac Studio比起来，基本上没法比。因为最新苹果发布的Mac Studio，它满了内存以后，是可以跑满血版的DeepSeek 1671B的。但是这个GB 10好像还差了那么一点点。</p>



<p>另外一个呢，他说我准备发，叫DGX Station了。这个是什么呢？就直接把GB300 Grace Blackwell的Ultra这样的芯片，就整个塞进去了。实际上所谓的这种芯片，就是一个CPU一到两个GPU，直接塞到这个主机里头去，你们就可以去跑了。但是意义真的没有那么大。</p>



<p>后边是软件的部分。其实英伟达的软件，我一直是不那么看好的。因为除了CUDA，大家都在开心的使用之外，剩下的就是大量的开源系统拼接起来的这种英伟达生态软件。之后呢是机器人。英伟达呢也是拿出了机器人的相关的软件，跟人合作了一个叫Blue的机器人。那个机器人很可爱，也是迪斯尼做的，确实是要比宇树科技那个看着可爱的多。至于这个能干什么就不好说，因为他长得不是人样，所以这个还有待观察。</p>



<p>现在呢，老黄还是干的原来CUDA这个事情。我来开放标准，我来开放数据，我来开放系统，你们都来用。等你用上了以后，都上了船了，你们就不要再想下船了。他再好好的去卖这些机器人的芯片，就完事了。</p>



<p>后面呢，DeepSeek其实会议上并没有特别明确的去提DeepSeek。但是呢，在这个GTC之后，接受记者采访的时候呢，还是很认真的去讨论了一下DeepSeek。在这里头讲说中国，必将在AI行业做出突出的贡献。因为全球有一半的AI人才都是华人，美国每一个AI实验室里头，都有相当数量的华人在里边。所以华人是可以在整个的AI行业里头，占据非常大的一个比重。但是大家并不买账，股市不买账。为什么？数字游戏已经到头了。</p>



<p>前面刚才咱们讲了这么半天，GB200 NVL 72，GB300 NVL 72，Robin NVL 144，Robin Ultra NVL 576。他现在已经在玩这样的故事了，大家已经晕头转向了。你到底在干嘛？你就把它堆在一起，还不让我堆，还你替我堆好了，有点过分了，吃相太难看了。</p>



<p>像我们以前在Borland公司上班的时候，其实也遇到过这种时代。我们最疯狂挣钱的时候是卖JBuilder的Java的IDE。能疯狂到什么程度呢？每年出俩新版本。你看他这个科学家的名字，一开始是几年用一个。</p>



<p>现在基本上是两年用一个，而且中间这一年还要再出个Ultra，让你再接着买。为什么呢？原因很简单，你只要出了新的，你得更新换代，你得买新的。你不能在上打补丁，打了补丁的话，人家就不会再去买新的了。黄仁勋现在也走到这样的一步了。Borland呢，就是开始在每年出两个版本的Jbuilder以后，就盛极而衰的，就慢慢就玩不转了。当然了，Jbuilder还能玩得下去，黄仁勋这事可能就玩不下去了。Jbuilder可以卖掉的原因是，投入产出比是划算的。一套软件大概是2,000美金每年，你如果买了以后的话，产出个几万美金，十几万美金都是正常的，所以大家还是愿意买的。而且呢，如果你不升级，很多新的版本的上下游系统，你就挂不上了。当时我们比如接什么Oracle，接什么Web Logic呀，这些东西本身升级升的很快。正常应该什么呢？这种小升级应该打补丁，不应该找人再收钱了，但是实在太好卖了，所以我们就更新版本，让用户重新再买一次。</p>



<p>但是算力服务器不能这么算。为什么？第一个本身很贵，一台300万美金起。第二个呢，就是下游企业都还在亏损。像我们原来卖2000美金的这个开发工具，你买了以后是拿回去挣钱的。但是现在你看OpenAI挣钱了吗？Anthropic挣钱了吗？谷歌其实在这一块也没挣着钱。国内的这些AI企业谁都没挣着钱。那你再去说每年花个几百万美金，或者是多少亿美金扔进去，因为都不是说买一台两台，现在大家都是星际之门了，算力中心巨大投入了。你投完了以后你是要有回报的，现在大家看不到回报。</p>



<p>还有一个是什么？就是大模型跟芯片之间，是没有这种很强的版本依赖和绑定关系的。像我们以前卖IDE的时候，你不升级，Weblogic升级了以后你就挂不上，或者说你就必须要手动的去绑定，你没法去做这个自动的设定，你搞不定。但是现在呢，大家都去使用，比如像DeepSeek这样的东西。DeepSeek是拿H系列叫H100或者H20，拿这样的芯片训练出来的。那我拿这种芯片去训练，去推理就没有问题了。我为什么还要再往后边去买B系列，B200、B300，没必要了。这个就是他现在遇到的一个挺讨厌的问题。现在很多的大模型还可以在A系列，A100系列上的可以跑，那更不用说H系列了。新的这个芯片和服务器，唯一的优势就是速度更快，但是前面呢大家还是愿意买账，为什么到现在就不愿意买账了呢？</p>



<p>因为训练新模型必须要用最快的芯片。如果集成度低的话，就很难训练完成。不是说这边把这个机器都摆好了以后，然后数据在这边放好，一摁按钮，过俩礼拜回来就可以等着收了。不是这样，他中间有经常会出错的，跑一段时间崩了，跑一段时间挂了，这个是很正常的事情。但你如果是集成度比较高的话，第一个就是说你不需要太多的机器放在一起就可以跑，那你出错的几率就会变小。另外一个呢，就是你用比较短的时间就可以跑完，那他出错的概率就更小，它整个训练的成本就会下降。所以集成度越高，越快的芯片，训练成本反而越低。因为什么东西确实贵了，你买了新的芯片，但是训练时间变短了，失败的概率就会下降。</p>



<p>现在不买账的原因是什么？就是推理任务呢，现在没有那么挣钱。原来大家都在抢说谁是老大，现在老大基本上也就是OpenAI在那孤零零的站着，其他的人呢都是围攻光明顶的样子，心里憋着不舒服，天天的给你去添堵。而且呢现在基本上都是按照H100的小时数来定价的，价格还在不断的下滑。并不是说推理资源已经不够使了，我们需要用更贵的这个钱数来去买，是100的算力，不是这样的。现在这个H100的算力的价格不断的滑，而GPT4.5也展示了，就是继续加大参数规模，基本上已经死路一条了，走到头了。在几千亿参数的MOE模型上，更大规模到底是不是有意义，这个事呢不好说，因为像我们讲的DeepSeek R1，Deepcic V3也就是671B的这样的，就是6,710亿参数的Moe模型吧，大家觉得其实是够使的。虽然黄仁勋还展示了一个叫BYNAMO这样的推理框架，用GB 200的服务器，重新刷新了DeepSeek R1的推理速度，唯一能够做的也就是进一步降低一个小时H100算力的价格，其他其实也做不了了。</p>



<p>英伟达算力卡到底是不是还要继续买？因为这个东西不是说我买完了以后一年就坏掉，它还是可以使个六七年。在这样的情况下，大家就不愿意再为它去买账了。新的故事呢其实没有那么好讲了。老黄讲的是AI进化是分几步的，第一步是叫感知人工智能，就是我们最早拿AI干嘛使的，各种的图像识别呀，各种的语音识别呀，各种的这个决策支持，干这个事。后面呢，是叫生成式人工智能，咱们现在天天拿它去写小说，聊天，干这个事了。今年大家在玩的是代理人工智能，AI agent，说再往后呢，我们准备走到物理AI，就是要上巨身智能，上机器人了。</p>



<p>什么时候才有新的算力需求大爆发？这个其实是老黄现在最头疼的问题。第一个是要AI agent证明它的价值。现在虽然大家都在玩AI agent，都在说上了这个东西以后无所不能。今天我还去试了一下XAI最新出的叫deeper search，原来它是叫deep search，现在加了个er，deeper search就是比deep search还要再深一些，就是字面意思，效果好极了，特别特别浪费TOKEN。也确实如此，像我们使用AI agent，比如说挂到Anthropic的Claude3.5上，一会一美金就不见了，一会一美金就不见了，那可快了。这个玩意非常非常消耗TOKEN。</p>



<p>一旦AI agent彻底证明了它的价值，更多的软件公司开始招聘程序员了，而不是像现在这样不停地裁撤程序员的时候，更多的各行各业就都会开始进行AI agent改造，并且取得成效。那个时候AI算力还会再爆发一轮。到底是现在就买，还是稍微等一等，再去买GB300或者Robin，咱们再去等着看。到那个时候呢，全产业链就都会有利润，而不像现在似的，大家折腾半天都在赔本赚吆喝，谁都没挣着钱。而且新产业的诞生，更多人开始从新的产业里头挣到钱，这个也是值得期待的。就是我们现在都在讲说AI要改变所有的传统产业，要把以前所有的传统的软件都拿来重做一遍，这个其实是错的。一旦是AI真正大行其道了以后，一定会有非常非常多的新产业冒出来。</p>



<p>那么英伟达后边怎么走，其实要看中国能买哪些芯片。DeepSeek让H20的出货量大增，阿里、腾讯、百度、字节都在疯狂的买H20，让自己的云服务中心上去可以跑DeepSeek。虽然很多人说，我们用华为升腾芯片就跑起来了，但是挺费劲的。想要很好的跑DeepSeek，还是去买H20，就是美国允许出口到中国的这些芯片。因为你有一堆H20以后，你再让其他的这种来路不明的芯片在里头跑起来，也就可以说得过去了，就是我至少买过正版的。如果英伟达可以在中国孵化出类似CoreWeave这样的算力云企业，那肯定就可以起飞。还是要看美国到底怎么去限制，咱们稍微讲两句。CoreWeave这个公司呢，最早不是做算力云的，它最早是挖矿的，买了英伟达的算力卡回去挖比特币，其实主要可能还是挖以太坊。后来呢，这个挖矿挖不下去了以后呢，就开始做算力云供应商，他去买这种英伟达的服务器，租给别人用。</p>



<p>英伟达投资做技术支持，所以为什么他叫英伟达的亲儿子呢？62%的收入都来自于微软。千万不要以为说，微软花了好多钱去买了一大堆的这个显卡。微软大量的算力，都是在这个CoreWeave上做的。最近呢，这个公司是向美国SEC交表，准备上市，计划以260亿美金的市值上市。目前应该算最大的一个美股IPO了。如果英伟达可以在中国也整这样的一家公司上市的话，那他就起飞了。</p>



<p>打击走私，还要看美国到底怎么个打法。那么下一个增长点什么时候到来？黄仁勋真正值得钦佩的地方呢，其实并不是说显卡做的怎么好，刀法怎么精准。真正让人钦佩的地方是他眼光很长远。CUDA也是做了这么多年突然爆发的。他其实做了非常非常多的技术。现在他在很努力的推这个机器人、自动驾驶和量子芯片。今年就要干这个。你想最后一个2028年要发的芯片叫费曼，那哥们是研究量子力学的。英伟达现在已经在波士顿设立了量子计算实验室，招一大堆人去做研究去了。但是呢，以黄仁勋的讲法是，达到非常有用，就是稍微有点用还不算，就是非常有用。这个量子芯片可能还要20年。现在呢，还是老老实实的去买它的GB200、GB300，或者明年的Robin就可以了。</p>



<p>总结一下，在AI市场上，如果只有英伟达的声音，只有英伟达在赚钱的话，迟早是要崩的。这个泡沫是要破的。现在在干的事是什么？就是英伟达你稍微等一等，等等整个行业的发展，等等小兄弟们小伙伴们追上来。如果大家追上来了，英伟达肯定还是可以长足的进步的。但是现在他有点跑的太靠前了。就是这样的一个情况。好，这就是咱们今天讲的第一个故事。</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>李飞飞S1K模型引爆AI界：仅50美金成本完胜DeepSeek R1与ChatGPT o1！</title>
		<link>https://lukefan.com/2025/02/11/%e6%9d%8e%e9%a3%9e%e9%a3%9es1k%e6%a8%a1%e5%9e%8b%e5%bc%95%e7%88%86ai%e7%95%8c%ef%bc%9a%e4%bb%8550%e7%be%8e%e9%87%91%e6%88%90%e6%9c%ac%e5%ae%8c%e8%83%9cdeepseek-r1%e4%b8%8echatgpt-o1%ef%bc%81/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Tue, 11 Feb 2025 12:02:45 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[DeepSeek大模型]]></category>
		<category><![CDATA[029筛选]]></category>
		<category><![CDATA[16张H100显卡]]></category>
		<category><![CDATA[32B模型]]></category>
		<category><![CDATA[50美金AI训练]]></category>
		<category><![CDATA[59]]></category>
		<category><![CDATA[AI公司裁员]]></category>
		<category><![CDATA[AI商业化]]></category>
		<category><![CDATA[AI小公司机会]]></category>
		<category><![CDATA[AI开发路径]]></category>
		<category><![CDATA[AI成本控制]]></category>
		<category><![CDATA[AI技术突破]]></category>
		<category><![CDATA[AI推理模型]]></category>
		<category><![CDATA[AI教母]]></category>
		<category><![CDATA[AI模型蒸馏]]></category>
		<category><![CDATA[AI测试标准]]></category>
		<category><![CDATA[AI用户粘度]]></category>
		<category><![CDATA[AI科学方法]]></category>
		<category><![CDATA[AI筛选问题]]></category>
		<category><![CDATA[AI行业未来]]></category>
		<category><![CDATA[AI行业竞争]]></category>
		<category><![CDATA[AI行业落地]]></category>
		<category><![CDATA[AI领域定制]]></category>
		<category><![CDATA[AI领域案例]]></category>
		<category><![CDATA[ChatGPT O1]]></category>
		<category><![CDATA[ChatGPT对比]]></category>
		<category><![CDATA[DeepSeek R1]]></category>
		<category><![CDATA[Gemini 2.0 Flash thinking]]></category>
		<category><![CDATA[Gemini数据]]></category>
		<category><![CDATA[S1K模型]]></category>
		<category><![CDATA[Together平台]]></category>
		<category><![CDATA[Together平台训练]]></category>
		<category><![CDATA[中国AI创新]]></category>
		<category><![CDATA[人工智能创新]]></category>
		<category><![CDATA[低成本AI]]></category>
		<category><![CDATA[可感知AI效果]]></category>
		<category><![CDATA[大模型与小模型]]></category>
		<category><![CDATA[大模型优化]]></category>
		<category><![CDATA[大模型应用]]></category>
		<category><![CDATA[小型模型训练]]></category>
		<category><![CDATA[小模型训练]]></category>
		<category><![CDATA[开源微调模型]]></category>
		<category><![CDATA[微调模型]]></category>
		<category><![CDATA[推理效率提升]]></category>
		<category><![CDATA[推理时间优化]]></category>
		<category><![CDATA[推理步数评估]]></category>
		<category><![CDATA[收敛性评估]]></category>
		<category><![CDATA[教育AI模型]]></category>
		<category><![CDATA[数据训练优化]]></category>
		<category><![CDATA[斯坦福大学]]></category>
		<category><![CDATA[普林斯顿大学]]></category>
		<category><![CDATA[李飞飞]]></category>
		<category><![CDATA[法律AI模型]]></category>
		<category><![CDATA[用户定制化AI]]></category>
		<category><![CDATA[电子工程博士]]></category>
		<category><![CDATA[硅基流动]]></category>
		<category><![CDATA[硅基流动平台]]></category>
		<category><![CDATA[置信度评估]]></category>
		<category><![CDATA[蒸馏模型方法]]></category>
		<category><![CDATA[蒸馏训练技术]]></category>
		<category><![CDATA[蒸馏问题技术]]></category>
		<category><![CDATA[财务AI模型]]></category>
		<category><![CDATA[通义千问]]></category>
		<category><![CDATA[问题筛选技术]]></category>
		<category><![CDATA[预算强制法]]></category>
		<category><![CDATA[高效AI解决方案]]></category>
		<category><![CDATA[高效AI训练]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1899</guid>

					<description><![CDATA[啊啊啊啊啊啊啊！大家听说了吗？李飞飞的S1K模型只用50美金，就超越了DeepSeek R1和GPT O1！🔥 这简直是AI界的奇迹！

首先，DeepSeek R1和GPT O1已经是推理模型的顶流了，但李飞飞的S1K模型竟然在多项测试中超过了它们！更牛的是，这个模型只用了16张H100显卡，26分钟就训练完了，成本才50美金！你敢信？🤯

这个S1K模型的厉害之处在于它的“科学筛选”和“预算强制”两大创新。通过筛选1,000个高质量、高难度、全面覆盖的问题，再加上动态预算管理，S1K模型在推理效率和准确性上都有了质的飞跃。这简直就是科学的胜利！🎉

而且，李飞飞的这个模型不仅成本低，效果还超好。它通过微调通义千问32B模型，使用了Gemini 2.0 Flash thinking产生的问题进行训练，最终超越了DeepSeek R1的32B版本。这波操作，真的是让人惊呼“中国行我也行”！🇨🇳

更让人兴奋的是，这种科学的方法未来可以应用到各个领域。无论是法律、财务还是其他专业领域，都可以通过筛选高质量问题，训练出特定领域的小模型。这意味着，未来的AI应用将更加精准和高效！🚀

总之，李飞飞的S1K模型不仅展示了AI的无限可能，也让我们看到了科学和技术的完美结合。家人们，AI的春天来了，快上车！🚗

#AI #李飞飞 #S1K模型 #科技 #创新 #50美金 #DeepSeek #GPT #AI工具 #搞钱必看

李飞飞S1K模型引爆AI界：仅50美金成本完胜DeepSeek R1与ChatGPT O1！

李飞飞的S1K模型以极低的50美金训练成本超越了DeepSeek R1和ChatGPT O1，这一突破彻底改变了AI模型训练的规则。核心创新包括仅使用1,000道精挑细选的高质量问题进行微调训练，以及采用全新的预算强制法以优化推理结果，引发AI领域的巨大关注。通过科学筛选与动态调整预算，S1K实现了高效的资源利用，同时打破了传统大模型高成本的限制，为小公司提供了蒸馏小模型的崭新解决方案。随着这一技术的普及，AI行业即将迎来全面变革，行业定制化与细分市场成为可能。无论是法律、财务还是教育，均可借助S1K方法快速推出精准的小模型，推动人工智能真正落地并服务于实际业务需求。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="李飞飞S1K模型引爆AI界：仅50美金成本完胜DeepSeek R1与ChatGPT O1！" width="900" height="506" src="https://www.youtube.com/embed/ZXtUq0wU8SM?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲李飞飞的S1K模型。50美金成本超越DeepSeek R1和ChatGPT O1。</p>



<p>首先呢，DeepSeek到底是怎么震惊全球的？就是因为训练成本低。他的训练成本是OpenAI的3%，所以震惊了全球。</p>



<p>那么现在李飞飞的S1K模型，16张H100的显卡，跑了26分钟跑完了，拿到了一个32B的模型。多项测试超越了DeepSeek R1和GPTO1。</p>



<p>大家要注意，评测大模型呢，它有很多很多测试项。一般我们说基本上达到什么什么水平，就属于叫互有伯仲。有些你强点，有些他强点。原来大家都超不过GPT 4O，是因为只能接近它，距离它的全项指标都有差距。现在的话，大家就已经基本上可以达到GPT 4o的水平了。</p>



<span id="more-1899"></span>



<p>现在R1跟O1算是最强的推理模型。李飞飞做的这个S1k，也算是部分超过了R1和O1，绝对超越了DeepSeek R1的32B。</p>



<p>DeepSeek R1呢，讲的时候一般有两个不同的说法。第一个呢叫蛮血版。什么是蛮血版？671B的那个是蛮血版。然后另外一个呢，是通过通义千问也好，LLama也好，这些模型蒸馏了以后重新微调出来的版本。所有你看到什么70B，什么32B，都是这种微调出来的版本。</p>



<p>李飞飞这个50美金他这个版本呢，要比他自己的32B版本还要好。大家是不是先想想，先站个队。这到底是原创呢，还是抄袭呢？对于粉红来说这是绝对原创，对于支黑来说这可能是抄袭。</p>



<p>因为李飞飞是个中国人，他是个北京人。后来呢是跑去四川上的学，他是成都七中出来的。SOGO的王小川，B站的陈瑞，都是他的中学校友。但是呢，另外一头呢，他是个美国的大学教授。普林斯顿大学物理学学士学位，出于对东西方哲学和科学奥秘的探索，他前往西藏研究过藏药。后来是在加州理工学院得到的电子工程博士学位，现在是斯坦福大学的教授，人工智能教母。这算是个创新吗？还是个抄袭呢？</p>



<p>我估计很多人可以炒半天这个事。咱们先不炒这个，在我这个频道里头，吵这个事没意义。咱们去讲讲这50美金到底咋花的。</p>



<p>首先呢，是蒸馏一个小样本模型。有一个什么基座呢？通义千问32B。拿这个模型去做微调，就跟刚才我们讲的那个DeepSeek R1 32B的那个基座是一样的，都是通义千问2.5 32B。但是呢，拿进去做微调的这个样本是不一样的。DeepSeek R1 32B 是使用DeepSeek R1满血版产生的数据去微调的千分2.5。而现在李飞飞呢，他使用的是谷歌的推理模型Gemini 2.0 Flash thinking产生的问题去进行的微调。而且还有一个呢，就是它的问题特别少。就是DeepSeek自己微调的时候，有多少个问题？80万个问题。而李飞飞的问题有多少个呢？1,000个。拿了1,000个问题，就把这个模型给微调出来了。所以1K就是1,000，1,000个问题的意思。S1K这个模型只有1,000个问题。每一个问题呢，都是通过Gemini 2.0 Flash thinking进行解答，并且获得思考的过程与结果。因为他总共就1,000个问题嘛，你把他塞进去16块显卡，26分钟就跑完了。成本也就是50美金。那么是不是我来我也行？我也找1,000个问题上去，50美金我也整一个出来。</p>



<p>最近互联网上有个新梗，什么呢？就是“中国行我也行”。这个是嘲笑那些不自量力，想要学习中国大力出奇迹，结果翻车了的外国友人的一个新梗。这个并不是那么容易。你要想说，我用1,000个问题把这事训练好，那你想去挑这1,000道题，一定是非常非常难的。它这个S1K里头，实际上有两个大的创新点。一个是1,000道问题的筛选，另外一个呢特别神奇的东西，叫做预算强制，budget forcing。咱们先去讲这1,000个问题怎么筛出来。首先呢，这一帮的学者们从16个不同的来源，收集到了5万多个问题。</p>



<p>在59,029个问题中筛选出1,000个问题，其筛选标准主要包括以下几点：</p>



<p>1. **质量要高**：所谓质量高，指的是问题的解答过程和最终结果的格式完整、逻辑清晰。如果某些问题的解答过程格式不完整或混乱，则不予考虑。<br>2. **难度要大**：难度大的问题通常具有更长的推理过程、更详细的步骤、更多的推理步数和更长的推理时间。<br>3. **全面**：最终从50个不同领域中选取了1,000个问题，确保覆盖广泛，避免领域单一。</p>



<p>这三个原则——质量高、难度高、全面性，是筛选的基础。在此基础上，还需要探讨艺术、技术与科学之间的差异：</p>



<p>&#8211; **艺术**：偶然所得，无法重现。<br>&#8211; **技术**：在技艺基础上不断迭代与创新，但无法跨领域应用。<br>&#8211; **科学**：理解底层原理，可以跨领域应用。</p>



<p>中国在技术上表现强劲，但在科学方面略有不足。S1K实际上是一种科学，因为其筛选和训练过程并非简单的试错，而是通过科学的方法验证和优化。例如，仅筛选出最优质的1,000个问题进行训练，效果并不理想；同样，仅筛选出最难的或最全面的1,000个问题，效果也不佳。最终，将全部59,000个问题一起训练，效果虽有提升，但并不显著。这一过程体现了科学的严谨性和系统性。</p>



<p>就是真正在找到底层逻辑了。找到了逻辑以后，我就可以在这个逻辑上进行优化了。下次再去选问题的时候，我就选这1,000个题。大家注意，你选的题越多，他肯定是效果越好。但是呢，选的问题很多了以后，他你这个效果提升变得非常非常的不显著了。等于你花了很多的钱，后边都没有什么用了，这个就没有必要了。我们就到第1,000道题就可以了。所以大家就可以按照这个逻辑，在不同的领域里去应用这个筛选1,000道题的方法了。这个是一个真正进入科学范畴的东西。</p>



<p>建议以后这些大模型团队呢，可以去学而思、新东方找一些老师回来筛选问题。这个过程其实很像什么？我这个学生要去参加竞赛了，我这个学生要去参加高考了，他的时间非常非常有限。怎么能够筛选出一套特定的题目来，让他去训练？训练完了以后，可以在有限的时间内得到最好的提分。这个过程是不是跟学而思的这帮老师们干的活非常非常像？以后再去选问题的时候，比如说我们今天要去选一些物理相关的、数学相关的，或者什么这样的题的时候，那你就找这些老师来，他就有效果。</p>



<p>下一个创新是什么呢？下一个创新叫预算强制。这个特别有意思，其实还是学而思老师的范畴。预算强制说白了是什么？就这个题如果太难了，就别浪费功夫了，直接终止，写一答案在这就行了。你也不是说终止就不写答案，因为咱们知道考试的时候，你万一写对了呢？该蒙你还是得蒙一个答案出来的。如果这个问题你觉得太简单了，没有用到相应的时间，你就把答案直接做出来了，那你是不是等一等，再回去想一想，稍微检查一下。但是呢，到底哪道题需要尽快结束，哪道题需要多想想呢？这才是关键点。</p>



<p>咱都知道说，这个题如果太难了，咱就把它扔掉。我儿子小时候学奥数的时候，他就讲过哪道题你先看一眼，如果发现没什么这个概念，就直接pass就别做了。这就不是给你预备的。如果你把时间耗在这上头了，下边题就没法做了。而且那个时候考奥数的时候，还告诉你说第几题是多少分。</p>



<p>多少分的题，你应该在上面耗多长时间？如果你发现你在一个3分的题上耗了多长时间以上，你就赶快放弃掉。咱们现在就需要去做这个测算了，它叫预算强制法嘛。这个budget到底怎么定的呢？推理的步数和推理的时间，以此来定这个budget。首先要对任务进行复杂度评估，先看一下这个任务大概应该推多少步，花多少时间。</p>



<p>然后呢，在当前推理过程中得到一些中间结果。因为我们做题的时候也是，有时候做的中间结果出来。这个时候呢，我们就要对中间结果进行一个评估。第一个评估是什么？叫置信度评估。什么叫置信度？给大家讲一个故事吧。比如说今天这个天气预报说了，降水概率99%，这就属于置信度很高，那就肯定下雨，别费劲了，就下雨吧。咱们就不用再去花时间在后边推理去了。待会来一个专家说，这个专家认为今天降水概率是51%，这个呢就叫置信度不够高。您再花点功夫，再好好想想，能不能把这事说说的确定一点。这叫置信度。</p>



<p>然后下一个是什么呢？叫收敛性评估。什么叫收敛性？如果你得到了几个结果，这些结果相对来说都是稳定的，而且越来越稳定，这个就结束了，就是他吧。就算是我给出的结果不是一个完全准确的结果，但是呢，应该误差也不大了。这叫收敛性。但如果说，我现在得到了三五个结果，但是这结果呢值上蹿下跳的，这都差异非常非常远。那你在这种情况下，你就回去再想一想，多花一点时间再思考一下，再重新给一个结果。然后对结果进行质量评估。</p>



<p>还有是什么呢？就是任务特性和标准。因为你不同的任务，对结果的质量要求是不一样的。咱比如说吧，都是打比赛。篮球比赛比赛结果100:70，看着有点像，差不太多可以交差了，就这样吧。足球比赛结果100:60，您回去再算算吧，这事好像不太对。那么在这个基础上，再进行一些动态的调整，再进行一些预设的结果。什么叫预设结果？就是当我发现某些结果达到的时候，就直接停止。比如说我推理了半天，开始骂人了，那停下来吧。</p>



<p>或者推理了半天，发现涉黄涉黑了，那这事停下来吧。他也会有一些这样的停止命令在里头。他呢，就是这样来工作。第一个，我们先看看这个题值多少分。你可以给他一个多大的预算？你应该是推500步，还是推50步，把它推出来？先有一个预算，然后呢，我们在推的过程中就不停地来检查结果。哎，这结果已经不错了，那就到这吧。这跟考试的过程很像。</p>



<p>再往后呢，就是要去看你的预算了。比如说，我的结果出来了，发现我预算呢，应该做500步的，现在做了50步就把这个结果做出来了。那你再回去想想，可能有问题。但如果有时候超预算了，我原来评估说这个结果推出来应该是50步就推到头了，但是呢，我已经推到第80步了，还没推出来呢，那就赶快停止，别浪费时间了。写一个你觉得最靠谱的答案上去，就完事了，接着做下一题。这个就叫做预算强制。</p>



<p>那么这种论文发出来以后的话，我估计未来所有的推理模型应该都会去使用这套东西。实际上，整个过程是不是真的很像我们儿子小时候做奥数题的过程？你先看看这个题，3分的题你应该用几分钟，5分的题你应该用几分钟。你做的过程中再去看看说，中间这个答案已经很像了，直接把它写上就完事了。这个答案看着怎么看怎么不像。咱们经常说，数学这个东西，正确答案都很美。我没感到那种美，回去再想想。</p>



<p>还有什么呢？我儿子小时候学的也是说这个，做题做着发现，你写出来公式越来越复杂，最后算不出来了。那这个你再回去算算可能哪错了。或者说明明挺大的一个题这么难，我怎么三步两步就把它做完了。回去再想想，大概就是这样的一个过程。</p>



<p>当这些东西有了以后，S1K这个模型就有了今天这样神奇的结果。所以50美金就是1,000道题。训练是50美金。咱们把刚才讲的质量最好的1,000道题，最难的1,000道题，最全面的1,000道题，59,000道题都训练，再加上什么数据准备，这些东西都算一块。这个50美金是打不住的。</p>



<p>但是，你就训练1,000道题，就是50美金，再加上后边这个预算强制，它就可以达到很好的效果。现在，科学的车轮滚滚向前了。S1K模型出来以后，虽然没有用到Deepseak，但是方向是明确的，筛选问题就好了。老师们又有价值了，甭管你原来是教数学的，教物理的，赶快出来说，我们再筛选一下。我们要像培养奥数种子选手那样，去微调训练这种推理模型了。而且在不同的领域里头，都可以快速的蒸馏出小模型来，并且呢，实现领域内的突破。</p>



<p>你比如说，我今儿不是说做数学题，我们今天想推一个这种法律的，或者想推一个财务的，那其实都是可以找到一些专门做这个法考的老师，或者专门做财务资格证考试的老师，来给我们筛题。筛完题以后进去去这个训练去，这都是可以搞定的嘛。而且呢，让所有的推理模型可以一起解答，他没必要说我一定用DeepSeek R1去解答，还是说我要去用Gemini去解答，用O1，O3去解答。我们可以把所有的推理模型都抛下来，你们挨个给我答一遍，答完了以后，我们去挑里头质量好的1,000道题或者几千道题，然后再去训练也就可以了。</p>



<p>现在呢，有一堆的推理模型，DeepSeek R1、GPT的O1、O3 Mini、Gemini 2.0 Flash thinking。这一次李飞飞用的就是Gemini 2.0 Flash thinking。国内还有一堆的推理模型，比如说QWQ32B，就是一个标准的推理模型。Minimax和Kimi也都有各自的推理模型。哪怕你付费的这些模型，那就付呗，反正付完了钱以后，我就得到这一堆结果，拿着这个结果，我再去训练自己的这个小模型就完了。像这种32B的模型，我是完完全全可以在我自己电脑上跑的，我就不需要再交任何钱了，这个效果就好极了。所以以后这些付费推理模型，都应该会被拿来做蒸馏。千问2.5 32B的这个模型的底子很好，下面就都是老师的事情了。就是有人去试过，比如说千问的72B的。</p>



<p>Llama的70B、14B、7B、1B等模型现在普遍认为，能够产生比较好的中间结果。目前，大家主要在调整32B的模型，并且已经形成了一定的共识。接下来，可以进行更精细的质量管控。因为当我们调整完模型后，就可以进行测试，比如有多少道标准题库，跑完以后有多少对多少错，就可以去测试它是否正确。如果不对怎么办？不对就再花50美金，看看是不是好一点。又不对，再花50美金，然后再整1,000个题，再试试是不是好一点。最后找到一个最优解不就完事了吗？这样，你就得到了一个在某个特定领域里特别好用的32B小模型，然后进行微调和评测。</p>



<p>未来，比如像硅基流动、Together这些开源微调模型就要起飞了。因为我们现在可以在硅基流动上直接点出一个32B的模型来，实际上就是你把1,000道题做好了以后，把这个文档上传给他，然后一键确认，他可能连50美金都不需要，就给你搞定了。做完了以后，你就有自己的模型可以去使用了。Together是在美国的，他们调一个模型，我记得32B的模型也差不多是几十美金就可以调一次，在国内应该会更便宜。</p>



<p>很多小公司原来都在喊“适合你的小模型才是最好的”，但原来这个话其实是错的。为什么呢？因为微调出来的小模型原来的效果是没有那么好的，它未必比这些大模型加上RAG效果更好。现在，李飞飞给出了科学的方法，那么行业推理蒸馏小模型的春天就来了。因为你一旦推理了小模型以后，你就有什么东西叫用户粘度，用户会继续购买你的服务，继续让你去服务下去，而不是说上来说“哎，我今天用你的，明天用他的，反正模型都不是你们家的”，这个就没有任何用户粘度。原来有这样的问题，现在就好很多了。现在的话，就直接跑到人家行业里边去做问题筛选就可以了。问题筛选完了以后，再不断的测试、调优、评估。</p>



<p>这个路径其实已经很清晰了。以后小公司的春天就来了，就是可以卖模型、卖服务、卖数据。原来都说我要去做一个AI公司，那你手里头没有个一两亿美金，你都不好意思说你是做AI公司的。因为你需要去租显卡、去租GPU，去做预训练模型的训练。现在不用了，现在只要筛选好问题，哪怕你多试几次，最后花个几百美金试了十次，也不是什么大不了的事情嘛。而且这些模型，就是你的用户最需要的这些东西。</p>



<p>我记得我原来在学软件的时候，那还是九几年，整个软件行业有一个梦想，什么呢？叫系统咨询构架工程师。什么意思呢？原来我们都说，这个软件是需要分开的，先去做需求分析，然后去做这个加工设计，然后编码，编码完了以后测试，测试完了以后部署，然后再实施它，是这样的一个过程。说以后这个软件系统就很厉害了，他就不需要这些东西了，我们只管坐到用户面前，一边问用户你需要什么呀，等于在做咨询嘛，同时就在手里点点点，确认确认确认，打钩打叉，把这事情做完了以后说，哎，你这个问题都讲清楚了，你的软件也做好了，你可以拿去使去了。从九几年就有这样的梦想，现在的话这离这个梦想就又近了一步。</p>



<p>现在呢，让大模型改变每一个行业，终于要开始了。原来折腾了一两年都没有什么动静。以前都说大模型可以把每一个APP都重做一遍，大模型可以把每一个行业都改变一遍。为什么喊的这么大声音？大家都在使劲裁员，都在降本增效，原因很简单，就是以前很多的公司上了大模型以后，没有效果或者效果很难评估。那么现在的话，这种可感知的效果已经到面前来了，很多的公司就要开始上大模型，去改变他整个的业务链了。因为他现在改变了以后，就可以在特定的领域里头竞争胜利，他就可以把其他竞争对手干掉，快速的往前跑了。</p>



<p>你想咱们做了两年大模型，每一年看到的都是什么？谷歌裁员、微软裁员，国内也是什么百度裁员、阿里裁员，全是这个。但是，李飞飞这个模型的建立，以及靠这个蒸馏推理模型去进行微调小模型的这个方式。</p>



<p>发布了以后，我觉得未来的2025年，就会有大量的公司出来说：“我们去给你们微调小模型吧，我去给你解决实际问题吧。”真的是可以解决问题的，就会实实在在的发生改变了。这就是咱们今天讲的第一个故事，就是李飞飞的这个50美金的模型到底是怎么做出来的，里头到底干了点什么。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
