<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>H800芯片 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/h800%E8%8A%AF%E7%89%87/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Mon, 03 Mar 2025 00:50:17 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>H800芯片 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>新加坡&#8221;晶盾行动&#8221;打击GPU转运网络，DeepSeek的英伟达H100是怎么流入中国的？</title>
		<link>https://lukefan.com/2025/03/03/%e6%96%b0%e5%8a%a0%e5%9d%a1%e6%99%b6%e7%9b%be%e8%a1%8c%e5%8a%a8%e6%89%93%e5%87%bbgpu%e8%bd%ac%e8%bf%90%e7%bd%91%e7%bb%9c%ef%bc%8cdeepseek%e7%9a%84%e8%8b%b1%e4%bc%9f%e8%be%beh100%e6%98%af%e6%80%8e/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Mon, 03 Mar 2025 00:50:16 +0000</pubDate>
				<category><![CDATA[英伟达，NVIDIA，黄教主，GPU]]></category>
		<category><![CDATA[AI模型算力需求]]></category>
		<category><![CDATA[AI算力芯片]]></category>
		<category><![CDATA[AI芯片全球供应链]]></category>
		<category><![CDATA[AI芯片市场动荡]]></category>
		<category><![CDATA[AI芯片政策影响]]></category>
		<category><![CDATA[AI芯片替代方案]]></category>
		<category><![CDATA[AI芯片物流路径]]></category>
		<category><![CDATA[AI芯片监管]]></category>
		<category><![CDATA[AI芯片终端用户认证]]></category>
		<category><![CDATA[AI芯片终端用户黑名单]]></category>
		<category><![CDATA[CEPA小额免税通道]]></category>
		<category><![CDATA[DeepSeek GPU需求]]></category>
		<category><![CDATA[DeepSeek事件]]></category>
		<category><![CDATA[GPU伪造文件]]></category>
		<category><![CDATA[GPU全球分布]]></category>
		<category><![CDATA[GPU期货合约]]></category>
		<category><![CDATA[GPU灰色供应链]]></category>
		<category><![CDATA[GPU禁运政策]]></category>
		<category><![CDATA[GPU算力出租市场]]></category>
		<category><![CDATA[GPU算力分配规则]]></category>
		<category><![CDATA[GPU芯片洗单操作]]></category>
		<category><![CDATA[GPU跨境走私]]></category>
		<category><![CDATA[GPU运输网络]]></category>
		<category><![CDATA[H100芯片黑市]]></category>
		<category><![CDATA[H20芯片]]></category>
		<category><![CDATA[H800芯片]]></category>
		<category><![CDATA[Meta算力分布]]></category>
		<category><![CDATA[OpenAI算力中心]]></category>
		<category><![CDATA[中国GPU流入]]></category>
		<category><![CDATA[中国GPU需求]]></category>
		<category><![CDATA[中国算力芯片布局]]></category>
		<category><![CDATA[中美AI领域竞争]]></category>
		<category><![CDATA[全球AI算力市场]]></category>
		<category><![CDATA[区块链支付GPU]]></category>
		<category><![CDATA[半导体贸易检查]]></category>
		<category><![CDATA[太赫兹成像技术]]></category>
		<category><![CDATA[字节跳动GPU]]></category>
		<category><![CDATA[数据中心芯片违规]]></category>
		<category><![CDATA[新加坡AI芯片法规]]></category>
		<category><![CDATA[新加坡战略物资管制法]]></category>
		<category><![CDATA[新加坡政府高效执法]]></category>
		<category><![CDATA[新加坡晶盾行动]]></category>
		<category><![CDATA[新加坡樟宜自由贸易区]]></category>
		<category><![CDATA[新加坡突击检查]]></category>
		<category><![CDATA[新加坡计算机设备采购]]></category>
		<category><![CDATA[智慧城市项目]]></category>
		<category><![CDATA[深科技园数据中心]]></category>
		<category><![CDATA[美国GPU市场份额]]></category>
		<category><![CDATA[英伟达H100芯片]]></category>
		<category><![CDATA[英伟达芯片价格]]></category>
		<category><![CDATA[英伟达芯片市场动态]]></category>
		<category><![CDATA[英伟达芯片转运]]></category>
		<category><![CDATA[英伟达芯片追踪]]></category>
		<category><![CDATA[跨境物流网络]]></category>
		<category><![CDATA[转口贸易尽职调查]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1956</guid>

					<description><![CDATA[**啊啊啊啊啊！新加坡抓了倒卖英伟达显卡的人，老黄哭晕在厕所！**

家人们，你们听说了吗？新加坡最近搞了个大动作，抓了一帮倒卖英伟达显卡的人！这次行动叫“晶盾行动”，就是要把那些非法倒卖显卡的人一网打尽！

新加坡突击检查了22个半导体贸易节点，包括大型仓库、办公室和数据中心。查获了双重账簿和未申报的H100芯片，涉案人员还用了隐秘的加密货币进行交易！太离谱了！

这次抓了9个人，包括新加坡、中国和马来西亚的公民。核心嫌疑人郭杰、魏兆伦和李明都被起诉了，面临最高20年监禁和巨额罚款！

老黄听到这个估计要哭晕在厕所了！新加坡去年买了英伟达28%的芯片，结果有27%都倒卖到中国去了！这得多大的量啊！

这次行动真是大快人心！倒卖显卡的时代要结束了，英伟达的显卡市场也要重新洗牌了！大家觉得老黄会怎么应对？评论区聊聊吧！

**#新加坡晶盾行动 #倒卖英伟达显卡 #老黄哭晕在厕所 #半导体贸易 #H100芯片**

新加坡"晶盾行动"打击GPU转运网络，DeepSeek的英伟达H100是怎么流入中国的！

新加坡推出“晶盾行动”，全面突击检查半导体贸易关键节点，揭开GPU转运灰色网络内幕，逮捕多名涉案人员，涉及英伟达H100巨额芯片非法流入中国。通过虚构终端用户、伪造文件、物流转运和区块链支付，形成了复杂的跨境走私链条。新加坡计划修订相关法律，升级监管工具，包括终端用户黑名单和太赫兹成像技术。此事件暴露了AI芯片国际供应链的漏洞，也让市场对灰色供应链的稳定性感到担忧。DeepSeek事件中的角色、未来中国算力布局及国产替代芯片的前景再度引起关注。GPU供需格局因政策调整呈现全球动荡。
]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="新加坡&quot;晶盾行动&quot;打击GPU转运网络，DeepSeek的英伟达H100是怎么流入中国的？" width="900" height="506" src="https://www.youtube.com/embed/o7ni6xZwu7M?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>新加坡抓捕了像Deepseek倒卖英伟达显卡的人，老黄是不是又该哭了？大家好，欢迎收听老范讲故事的YouTube频道。</p>



<p>2月26号，新加坡展开了一项行动，叫“晶盾行动”——晶体管的晶，盾牌的盾，就是我们要守护晶体管，不要被倒卖。对涉及半导体贸易的22个关键节点进行了突击检查。这22个节点是玉朗工业园区和樟宜自由贸易区的5处大型仓库。部分仓储管理系统存在着双重台账，电子记录与实际库存存在明显差异，就是我这说的有的东西只要没有，或者两本账。然后对于华莱士纺金融区的12家企业办公室，其中涉及3家注册地为新加坡，但实际控制方为中国的贸易公司，进行了检查。通过电子邮件记录显示，这些公司通过虚构终端用户的方式，获得了英伟达芯片的采购资格。就你要买这东西你要有资格，这个里头已查了12家。然后在西部科技园区的三处数据中心进行了检查，部分服务器机架搭载未申报的H100芯片，设备序列号与原始采购记录不符。也就是在这个里边，估计是做了一些组装和调整的工作，把他们都逮着了。那么这些芯片可能是通过硬件改装方式，规避出口管制识别来去设计的。另外还对两处高管的住宅以及相关的会所进行了突击检查，查获涉及资金往来的加密存储设备。涉案人员使用一些隐秘的加密货币进行交易结算，这里头逮的有USDT的东西。</p>



<p>这次就是找到了22个场所进行突击检查，拘留了9名涉案人员，包括5名新加坡籍公民、3名中国籍公民和一名马来西亚籍公民。在2月28号经历了48小时突击审查以后，对其中三名核心嫌疑人提起了刑事诉讼，其他的可能还要再接着审。</p>



<span id="more-1956"></span>



<p>第一个呢，叫郭杰，41岁，新加坡公民，注册的公司名字是一个英文的，我们就不念了，他是公司的法人代表。起诉书指控其于2024年4月至9月期间，通过伪造终端用户证明文件，向英伟达认证分销商采购了价值1.2亿美金的H100芯片组。这些芯片的物流追踪数据显示。其中83%运抵了中国深圳保税区仓库。</p>



<p>第二个人叫做魏兆伦，49岁，新加坡籍，供应链管理公司的运营总监。证据显示，其建立的“阳光通道”运输网络，利用新加坡到越南、到中国广西的跨境陆路运输线路，运送受限芯片，单月最大运单达到1,500片GPU。该路线通过频繁更换运输车辆牌照、修改货物申报类别等方式，规避海关检查。</p>



<p>第三个人叫李明，51岁，中国籍，他是DeepSeek新加坡子公司特别项目顾问。2024年12月期间，采购了价值8,400万美元的计算机设备。银行流水显示，其中92%的资金来自于深圳前海某离岸账户，与DeepSeek的硬件采购预算科目存在直接关联。这个里头确实有DeepSeek的事情，但并不是所有这些芯片都去DeepSeek了。你要都去了，那这个就是另外一回事了。但是大量的芯片确实到中国来了。</p>



<p>其余6名涉案人员目前处于司法监控状态。新加坡总检察署表示，将根据证据链完善情况，决定是否追加起诉。现在起诉是起诉了，但是大概是3月初会去审理，还要滞后一段时间，因为现在大量的证据依然在搜集过程中。根据新加坡刑法典第420条欺诈罪条款，主要嫌疑人面临最高20年监禁，以及涉案金额3倍罚款的量刑标准。不知道这个中国公民是不是可以引渡回来，这个就不确定了。</p>



<p>那么具体是怎么干的呢？资质获取：首先，你要想去买英伟达显卡，你要先获取资质。利用新加坡数据中心建设招标资质，向英伟达申请合规用户认证。2024年第二季度采购文件中承诺，所有计算机设备将用于新加坡智慧城市项目。这就是前面抓那两个新加坡人，他们干的活，说我确实拿到资质了，我中标了在这去建数据中心。</p>



<p>然后，在这个物流转运阶段，芯片到港后立即拆解原始包装，重新封装成网络交换机设备。他来的时候是算力服务器，大家注意，芯片不是一个纸盒里装一个芯片，他是一个大的纸箱，里边装一台完整的服务器。这样的一个设备换包装，它就可以成为普通的电子元件了。</p>



<p>集装箱运抵越南海防港后，通过边境贸易区洗单操作，将原产地证书变更为东盟内部交易文件。这是第二个新加坡人他干的活。最终交付阶段的话，在中国凭祥口岸以跨境电商样品名义申报入关，利用CEPA架构下的小额免税通道分批转运进来，还不交税。然后，通过区块链将运输的H100的运费或者以中间的这种承运费用交给刚才这些涉案人员，让他们变成收入。大概就是这样的一个运转过程。</p>



<p>为什么说英伟达的老黄又要哭了呢？新加坡应该是商务部的第二部长，前面讲话说这个新加坡2024年购买了英伟达28%的芯片。但这个呢，可能是有一些偏差，因为呢这可能是只计算了H100这样的算力芯片，其他的那些消费级的游戏显卡应该是没算进去。但新加坡自己用掉的可能也就是1%，那剩下的27%呢就都不见了。你想这个有多大的量？DeepSeek其实买不了多少，DeepSeek就算是买上1亿美金的这些算类卡，其实都没有多少。但是你像刚才咱们讲那个新加坡人，他做物流中心的，一个月就1,500片，这个是非常非常大量的。英伟达的H100一年可能也就是大几十万片，或者是100万片也就这种水平，他每个月可以转1,500片出去，还是有非常非常大的比例到中国来了。</p>



<p>我们看到另外一个数据呢，就是算上消费级游戏卡的话，新加坡大概是买了5%的，大概是数据有这样的差异。咱们跟大家还是交代清楚。国内呢，淘宝上、闲鱼上应该是在上个月吧，突然出现了大量的H100，A100的这种芯片和服务器，大家就不知道怎么回事，但是当时就觉得可能是链路要崩，现在看来确实是崩掉了。新加坡就直接玩这个叫晶盾行动，上下游的人抓了一批。那你说抓干净了没有？通常没有，应该还有人继续去运作下去。后面呢，新加坡肯定是要严厉打击，他也要向美国人保证说我们坚决去执行你们的这些法案。新加坡呢要重新修订立法，法治国家嘛肯定要修订立法，2025年3月1日正式生效。</p>



<p>《战略物资管制法修正案》将AI芯片转口贸易的尽职调查要求从“合理知晓”升级为“积极验证”，并建立终端用户黑名单共享机制。这意味着，原来只需要告知相关信息即可，现在则要求对AI芯片进行更为严格的验证，确保所有上下游环节都得到彻底清查，甚至需要查验货物。此外，所有芯片的编号（如H100上的编号）都必须明确记录，并上链保存，以确保其可追溯且不可篡改。</p>



<p>同时，新法案还引入了太赫兹成像技术，用于对密封货柜实施非侵入式扫描。通过识别GPU芯片特有的电磁特征，该技术的准确率可达98.7%。这种技术估计仍由中国生产，因为我在清华同方工作时，曾有一个子公司专门制造此类设备。它可以直接在集装箱外部扫描，准确识别内部装载的电子设备，且不会对集装箱内的物品造成任何破坏。例如，如果声称装载的是网络交换机，但扫描后发现芯片尺寸异常，也能被轻易识别。</p>



<p>新加坡并非唯一的GPU转运点，中东和东南亚也存在其他转运点，但新加坡可能是最大的转运中心。其华人众多、资金充裕、税收较低，且作为国际物流和金融中心，法律相对清廉，政府运作效率高，距离中国较近，因此成为绝大部分GPU转口到中国的主要通道。尽管无法完全杜绝此类交易，但新法案的实施将显著影响交易的效率和成本。</p>



<p>在此消息曝光后，英国伦敦交易所的GPU期货合约价格直接下跌了12%，做空量增加了37%，反映出市场对灰色供应链稳定性的担忧。事实上，期货交易市场对灰色供应链的运作方式了如指掌，一旦出现政策变化，市场会迅速作出反应。如果中国购买高端GPU受到严格限制，其他地区将难以填补这一缺口。</p>



<p>这个GPU出来以后供不应求，这个量还是非常非常大的。那么，DeepSeek这一边有什么样的反应呢？没有反应，这个是最正常的反应了。因为DeepSeek不会对走私事件进行任何回复，中国政府也不会要求他们回复，甚至不会允许他们做任何回应。这事我就不说了，跟我没关系。因为被抓住的那个李明呢，也不算是他的正式员工，应该是它的一个外围顾问吧。这个数据是从perplexity做deep research得到的。我现在也不能保证，我给的数据或者信息就完全准确和全面，但是呢，应该不是它的一个合伙人，达不到这样的程度。</p>



<p>而且呢，DeepSeek作为非上市公司，短期内呢也不惦记融资。所以呢，他也没有接受审计的这个需要。因为你一旦上市的话，你是需要接受审计的；你要融资的话，你也要需要接受审计。所以他可以不回应这个事情。DeepSeek真正给出的回应是什么？就是开源周，一周的时间一直到礼拜六，一直在去做开源项目的发布。而且他发布的所有开源项目，其实只解决了一个问题，就是我用H800，用H20这些允许出口到中国的芯片，是可以完成DeepSeek这样的项目的。而且我使用这些芯片进行推理，进行服务的时候，我还有500%多的利润，挺挣钱的。他在干这样的一个事情。我并不是一定需要H100，一定需要你这些禁运的芯片，才可以训练出DeepSeek来。也不是说一定需要这个东西，才能够让DeepSeek为公众服务，才能够挣钱。我现在用H800、H20这些限量的阉割版的芯片，一样搞定。我通过这些开源项目证明了一下。但你说到底是不是清白，其实大家已经没有那么在意了。</p>



<p>英伟达的芯片到底是如何分布的呢？现在按国家来看的话，美国大概是占到40%，应该是全世界最多的。中国呢，应该有20%-30%，这个呢，是明面上的，就是允许出口到中国的这些芯片，H20，H800这些芯片，其他的就不知道了哈。欧洲大概有20%。</p>



<p>再剩下的呢，就是台湾的、新加坡的。这一部分可能很多就不见了。至于欧洲这20%到底还有多少留在欧洲，这个也不好说。其实欧洲其实用不了这么多的芯片。台湾跟新加坡的这些芯片，到底有多少留在那里，也不太确定了。</p>



<p>从公司的角度上来说呢，微软一定是全世界第一，OpenAI的最大股东，这个是正常的。然后字节跳动是全世界第二，因为他是要接受审计的，他没有办法买一大堆的H100芯片弄回来，这个他是不能干的。他可以买很多H100芯片，放在他海外的机房里，比如放在他新加坡机房里，他是可以干这个事的。Meta第三，腾讯的话我记得是第五还是第几，也是名列前茅的一个位置。然后阿里云、腾讯云、华为云都在全世界布点。你只要不在中国建立机房，我就可以去购买H100芯片，装在自己的服务器上去跑，这个事本身也是没毛病的。所以从公司的角度上来说，中国公司拥有的英伟达芯片算力是非常高的。</p>



<p>然后一些美国的算力中心，他们也是愿意租算力给这些中国公司的。他在算力出租的时候，没有办法去特别严格的询问你到底是谁。他们不叫没有办法，他们也不愿意。你都去问完了以后，你这个算力卖给谁，卖不掉啊，对吧？所以他们应该也是采用的，叫做合理知晓。你告诉我我就知道了，你不告诉我我就当不知道，这叫合理知晓，并没有去做积极验证。咱们用这个新加坡的战略物资管制法修正案里边的名词，来去解释一下他们的心态。</p>



<p>中国国内购买的英伟达芯片应该没有美国多，这个事我觉得还是比较明确的，但绝对是第二，应该是比美国之外的其他所有国家加起来可能还要多的一个状态。从公司角度上说，AI时代就像互联网时代一样，中美两国公司会去瓜分世界。但是呢，AI时代，中国公司所占的份额可能会比互联网时代更高。因为呢，在互联网时代里头，或者包括像移动互联网时代里头，真正底层的东西是在美国人手里头，甭管你是各种跟域名最大的，什么谷歌、Facebook这些网站。</p>



<p>还是说安卓、苹果这些操作系统，都是在美国人手里头。但是呢，到了AI时代，大家最后还是比拼的算力中心的算力。你只要是算力中心开放出来，我们就可以在上面部署各种模型。OpenAI的模型你不让我部署，但我还可以部署DeepSeek上来跑。所以在这个过程中，没准中国公司在AI时代会占有更大的份额。那么未来的发展会是怎么样的呢？其他国家跟地区呢，有可能会跟着新加坡吆喝一下，但是呢，未必会认真执行。因为呃，其他的国家和地区，没有新加坡政府这么高的执行效率，不一定搞得定这个事情。但是他们应该还会摇旗呐喊吧。美国有这个要求，我们要认真执行，这个姿态还是要做的。转运的生意呢，依然会去运转下去，但是数量呢，一定会急剧下跌，需要重新规划路线。可能还是要稍微的喘息一下，舔舐一下伤口。美国人禁毒禁了这么多年，毒品禁了吗？禁不掉的。所以英伟达芯片转运这个事情也禁不掉。梁文峰以后估计就别惦记出国了，因为很多在海外有案底的人，离开中国大陆的海关之后，是会被抓捕的。我们知道有些人到香港都直接被抓走了。所以，他就老实在国内呆着吧。DeepSeek的后续的融资的话，估计也会更加费劲，因为没法做审计，这块会变得很麻烦。国内购买和使用H100的速度，一定会下降。GB200在国内的铺货，本来也没有那么着急，因为咱们买这些东西一定是会滞后的。肯定是先挤着美国人买，等美国人实在买不动了，他们再说我们是不是到其他地方再去卖一卖。你就这么想，英伟达自己的这帮销售，他也是有KPI的，命令你卖掉多少多少GB200。那新加坡的这个销售KPI怎么完成呢？他也得想办法。所以这个稍微晚一些，应该还是可以得到的。中国大规模部署算力芯片，建立以DeepSeek为底层的AI应用中心，应该是2025年的一个核心重点工作了。在这个过程中，H20、H800这些芯片肯定是可以使用的。至于怎么用，大家去看DeepSeek开源周。</p>



<p>这一周发布的所有的这些开源项目库就完了。把这个东西部署上去没有任何问题。至于说国产替代芯片呢，现在做DeepSeek模型的推理是没问题的，但是做训练还是要稍微差一些。所以呢，应该也会得到一定的份额。这就是新加坡晶盾行动之后，可能未来中国和全球的算力芯片布局的故事。</p>



<p>好，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>DeepSeek开源力量爆发！Flash MLA登场，英伟达的精准刀法遇到重大挑战！</title>
		<link>https://lukefan.com/2025/02/26/deepseek%e5%bc%80%e6%ba%90%e5%8a%9b%e9%87%8f%e7%88%86%e5%8f%91%ef%bc%81flash-mla%e7%99%bb%e5%9c%ba%ef%bc%8c%e8%8b%b1%e4%bc%9f%e8%be%be%e7%9a%84%e7%b2%be%e5%87%86%e5%88%80%e6%b3%95%e9%81%87%e5%88%b0/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Wed, 26 Feb 2025 00:47:10 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[DeepSeek大模型]]></category>
		<category><![CDATA[OpenSource]]></category>
		<category><![CDATA[BF16精度]]></category>
		<category><![CDATA[Blackwell架构]]></category>
		<category><![CDATA[CPU超频对比]]></category>
		<category><![CDATA[CUDA-LESS]]></category>
		<category><![CDATA[CUDA优化]]></category>
		<category><![CDATA[CUDA优化应用]]></category>
		<category><![CDATA[DeepSeek]]></category>
		<category><![CDATA[Flash Attention 2]]></category>
		<category><![CDATA[Flash Attention 3]]></category>
		<category><![CDATA[Flash MLA]]></category>
		<category><![CDATA[Flash MLA核心功能]]></category>
		<category><![CDATA[FP16]]></category>
		<category><![CDATA[FP32]]></category>
		<category><![CDATA[GB200芯片]]></category>
		<category><![CDATA[GPU优化技术]]></category>
		<category><![CDATA[GPU内存带宽优化]]></category>
		<category><![CDATA[GPU内存架构]]></category>
		<category><![CDATA[GPU带宽提升]]></category>
		<category><![CDATA[GPU性能优化]]></category>
		<category><![CDATA[GPU技术分析]]></category>
		<category><![CDATA[GPU架构设计]]></category>
		<category><![CDATA[GPU禁运]]></category>
		<category><![CDATA[GPU超频]]></category>
		<category><![CDATA[H100芯片]]></category>
		<category><![CDATA[H800芯片]]></category>
		<category><![CDATA[HBM内存]]></category>
		<category><![CDATA[Hopper系列芯片]]></category>
		<category><![CDATA[Huggingface优化]]></category>
		<category><![CDATA[H系列GPU性能]]></category>
		<category><![CDATA[Llama CPP优化]]></category>
		<category><![CDATA[MIT协议]]></category>
		<category><![CDATA[MIT开源协议介绍]]></category>
		<category><![CDATA[Transformers架构]]></category>
		<category><![CDATA[中国GPU限制]]></category>
		<category><![CDATA[中国芯片制造]]></category>
		<category><![CDATA[分块调度]]></category>
		<category><![CDATA[分页式间值缓存]]></category>
		<category><![CDATA[大模型推理]]></category>
		<category><![CDATA[大模型推理优化]]></category>
		<category><![CDATA[并行计算]]></category>
		<category><![CDATA[开源创新]]></category>
		<category><![CDATA[开源解决方案]]></category>
		<category><![CDATA[开源项目]]></category>
		<category><![CDATA[显卡市场格局]]></category>
		<category><![CDATA[显卡性能提速]]></category>
		<category><![CDATA[显存碎片管理]]></category>
		<category><![CDATA[美国出口限制]]></category>
		<category><![CDATA[英伟达]]></category>
		<category><![CDATA[英伟达GPU市场]]></category>
		<category><![CDATA[英伟达H100提速]]></category>
		<category><![CDATA[英伟达H800带宽]]></category>
		<category><![CDATA[英伟达Hopper架构]]></category>
		<category><![CDATA[英伟达商业策略]]></category>
		<category><![CDATA[英伟达市场竞争]]></category>
		<category><![CDATA[英伟达新架构]]></category>
		<category><![CDATA[高性能计算]]></category>
		<category><![CDATA[高效多层注意力解码内核]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1944</guid>

					<description><![CDATA[啊啊啊啊啊！DeepSeek开源周打响第一炮，英伟达真的要愁了！🔥

大家好，欢迎来到老范讲故事的时间！今天我要给大家带来一个超级震撼的消息——DeepSeek开源周第一天发布了Flash MLA，这是一个基于MIT协议的开源项目，短短一天就获得了数千个星星！🌟

🔥 **Flash MLA是什么？**
Flash MLA全称高效多层注意力解码内核，主要干了三件事：
1. **分页式间值缓存**：极大地提高了内存分配、释放和读写的效率，降低了显存碎片的产生。
2. **BF16精度知识**：在保持数据范围不变的情况下，提升了大模型的运算效率。
3. **分块调度与并行计算**：充分利用GPU的并行计算能力，提升吞吐量。

🚀 **对英伟达的影响**
Flash MLA必须在英伟达Hopper系列芯片上使用，特别是在H800芯片上进行了提速，速度从2TB/s提升到了3TB/s，这让英伟达有点哭笑不得。虽然给GPU做了提速，但提速后的性能可能不符合某些出口规定，英伟达这下真的要头疼了！

💥 **谁会用这个？**
Flash MLA主要用于推理系统，如VMRM系统和小型LM推理架构，像Huggingface、Transformers等都会得到优化。虽然目前只适用于英伟达GPU，但未来或许可以借鉴其思路，打破英伟达的垄断。

📈 **开源周的期待**
这只是DeepSeek开源周的第一天，接下来还有四天的开源项目发布，让我们一起期待更多震撼的消息吧！

家人们，千万不要错过！关注我，第一时间获取最新资讯！💪

#DeepSeek #开源周 #FlashMLA #英伟达 #AI #GPU优化 #科技前沿 #创新 #开源项目 #性能提升

DeepSeek开源力量爆发！Flash MLA登场，英伟达的精准刀法遇到重大挑战！

DeepSeek在开源周第一天推出了重磅项目Flash MLA，这个基于MIT协议的创新性技术大幅优化了英伟达H100和H800芯片的性能，使其带宽达到了惊人的3TB/s。作为一款先进的高效多层注意力解码内核，Flash MLA通过分页式间值缓存、BF16精度运算和分块调度并行计算三大核心功能，显著提升了大模型推理效率。尽管该项目基于英伟达自家开源技术开发，但其对H800的性能提升让英伟达面临出口限制的合规难题，同时对未来GB200等新一代架构的推广也造成了潜在压力。除此之外，中国本土芯片厂商也有机会从思路中受益，但直接落地仍面临技术和架构壁垒。作为开源周的第一步，Flash MLA已经引发了对英伟达垄断的广泛讨论，让人期待后续几天DeepSeek将公开的其他激动人心的成果。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="DeepSeek开源力量爆发！Flash MLA登场，英伟达的精准刀法遇到重大挑战！" width="900" height="506" src="https://www.youtube.com/embed/PGDMx1bFl1E?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>DeepSeek开源周第一炮打响，这次英伟达可真的有的愁了。大家好，欢迎收听老范讲故事的YouTube频道。DeepSeek号称要做开源周，也就是在这一周里边，连续5天发布5个开源项目。那么第一炮打的是什么呢？这个产品叫Flash MLA，这是一个MIT协议的开源项目。待会我们再去讲什么是MIT协议。一天上来就直接获得了几千个星星，就是你把项目发布到GitHub上以后，如果有人喜欢的话会打一个星星。打了星星以后的话，这个项目未来有各种的更新和迭代，我们是会收到通知的。所以很多的开源项目，是用星星的数字来衡量自己项目的受欢迎程度的。</p>



<p>这个项目呢，其实对于绝大多数的使用者来说，短期之内是不会有影响的。什么叫短期？可能就是几个月的时间之内，不会有特别大的变化。但是，可能过了这几个月，这个变化就会逐渐的显现出来。英伟达这次到底能不能挺得住，是会变得好还是会变得坏？这就是我们今天要讲的故事。</p>



<p>英伟达面对Flash MLA这样的一个项目呢，应该有点哭笑不得。为什么呢？这个是必须在英伟达Hopper系列芯片上使用的一个技术，也就是离开英伟达芯片你跑不了。所以这玩意是给英伟达芯片再去做优化。但是呢，这里有个问题，英伟达的H100是被美国禁运的，中国是不可以购买的。中国只可以购买H800，也就是英伟达经过精准的刀法裁切以后的这个版本。它在H800的这个基础上呢进行了提速，这就是这一次的Flash MLA真正给出来的东西。</p>



<span id="more-1944"></span>



<p>理论上的H100应该也可以提速，因为它都是Hopper的架构嘛。但是英伟达现在正在推的GB200，它就不是Hopper的这个架构了，它呢是Blackwell黑景架构的。那么在这个上面就不起作用，或者说没有经过Blackwell芯片的这种兼容性测试，不知道在车上好不好使。这种GB200的芯片，第一个现在到底有没有交货，或者交了多少了，其实谁也说不太清楚。</p>



<p>虽然这个山姆奥特曼说：“我在微软机房里看到了。”但是没有那么大的感觉说，这个东西真的改变了什么。第二个呢，就是中国不允许买嘛。既然不允许拥有GB200，那我凭什么去给GB200做优化？即使DeepSeek手里边有一些GB200，我做了优化了，那我也不能说出来。我不能告诉你说：“我偷了一个这玩意回来，我优化了再给你公布出来。”这个与理不合，对吧？这就是对于英伟达的一个小影响。这个东西上来以后，大家没有那么踊跃的去买GP200了，他还接着去买H100、H800去了。</p>



<p>还有一个问题是什么？就是H800的越狱的问题。美国政府限制的是什么呢？你这个东西算力有多少他其实不管，他主要管的是内存带宽，也就是GPU的芯片，跟GPU的这个HBM内存之间，每秒钟到底可以传多少数据。它是限制了这个东西。对美国政府给出的限制呢，是2000GB每秒，也就是两T每秒的这个速度。H100呢是3.35TB，肯定是已经超过了。H800呢，老黄精准一刀，它就是2TB的。虽然有的时候可能大家跑不到，但是人家的标称就是两TB，是符合出口要求的，可以卖给中国。现在上了Flash MLA之后，它的速度就提高到了3TB，这个就稍微有一点点尴尬了。这个以后到底还能卖还是不能卖，还是怎么办？我估计够老黄头疼一阵了。这个是为什么说，英伟达遇到了这样的一个Flash MLA以后，稍微有一点点哭笑不得。你确实给我的显卡做了提速了，但是提速完了以后呢，不太符合某些规定了。</p>



<p>那么说到这了，Flash MLA到底是什么？咱们这一块要后说，因为呢可能很多听故事的人，对于这一部分就没有那么大兴趣了。咱们尽量用简单的方式来讲。这个东西呢全称呢，叫高效多层注意力解码内核。这个名字反正有说没有懂，每个字都认识，放在一块不知道什么意思。他呢其实干了三件事。第一件事呢叫分页式间值缓存，这意思是什么呢？就是我们在内存里有很多的数据，本来我要去读这些数据的时候呢。</p>



<p>应该是叫随机读取。就是我得到一个地址，然后我到这个地址上，把这个数据读出来或者写进去。但是这样的话效率就会很差，为什么？因为你这个内存很大嘛。而且我今天分配了一块内存，待会我把这个内存释放掉了。如果是随机的去做的话，那就会出现很多碎片，不连续的这种内存会存在里头，这个会降低读写的速度。</p>



<p>Flash MLA说，咱们这样：以64个内存单元为一个页面，咱们进行分页管理。每一次我就不再分给你具体的多大多小的，我就是按多少页给你分。我想要多少字节的内存，或者多少位的内存，我原来是可以随便分的，现在不行，必须是64个数一页，你必须按整数页分。他用了这样的一个简单的方法，就可以极大的提高内存的分配、释放的效率，以及读写的效率，还可以极大地降低显存碎片的产生。就是你再产生碎片，也是64个数放在一块的一个碎片。这个对于未来的这种使用，就会方便很多。因为碎片这个东西有时候很讨厌，比如说我现在有一份文件，我这份文件的前5页存在一个地儿了，后3页存在一个地儿了，中间几页我再存在一个地儿了。等你需要取这数据的时候，要上三地去把这数据取出来，那这事不就费劲了吗？现在说，哎，我按整页算，哪怕你用不完我浪费一点，剩一块不要了没关系，但是我每次分配、每次释放都是一整页。那这个就是大家理解的，他干的第一个事。</p>



<p>第二个事是干嘛呢？他做了一个叫BF16精度的一个知识。咱们看很多的这种大模型，后边都是有一数，都是FB什么FB什么，FB32、FB16、FB8，甚至还有FB4的这样的数据。但是这一次呢，他玩了一个叫BF16，什么意思？咱们正常情况下呢去训练大模型都是用一个完整的浮点数，就是FP32。什么意思呢？f呢就是float，P呢是point，浮点32意思就是说，我这一个数是一个32位的一个空间。32位就是32个010101，这样放在一起这是一个数。在这个数里头呢有一位代表正负，有8位呢是代表指数。</p>



<p>剩下的23位代表的是精度。我们写很多的叫科学计数法，都是先是正的或者负的，然后是3点多少多多。这个是长度代表精度的，小数点后边越长，你精度就越高。最后乘上10的多少次方，一般代表浮点数是这样来写的。后边有8位是代表10的多少次方的，这个东西叫指数。有23位是代表精度，也就是点后边有多少位，再加上一个正负，这就是传统的FP32。</p>



<p>正常的一般使用的是FP16。就是你都用FP32去使用的话，等于你每一次进行比较，进行搬运，进行运算都很慢，而且非常非常消耗资源。所以呢，很多时候，这个大模型工作是工作在FP16的这个基础上的。FP16什么意思呢？它这个里头还是有一位是代表符号的，代表精度的是有10位，代表指数的有5位。这个呢就会发生一个问题，就是它的精度降低了。FB32那个是有23位代表精度的嘛，那这个只有10位了。还有一个很大的问题是什么呢？就是它的范围变小了。什么叫范围？就是乘以10的多少次方，这个数是它的范围。原来呢（FB32）是有8位来去代表范围的，现在呢（FB16）只有5位了，使得很多的模型的规模就会受到限制。</p>



<p>那么这一次呢，DeepSeek给出了这个东西叫BF16。它们呢使用的是什么？就是它的指数依然是8位，跟FP32这个是一样的。还有一位是代表符号，这个正负你必须还得留着。剩下的呢就剩的就比较少了，他只有7位来去代表精度。所以他把精度降低了，但是呢指向的这个数据范围，其实跟FP32是一样。它是通过这样的一个方式，让这个大模型可以在精度下降，但是呢指向范围不变的情况下去进行运作，效率有极大的提升。</p>



<p>这是第二个。第三个是什么呢？就是叫分块调度与并行计算。将计算任务分解为多个小块，进行并行处理，充分利用GPU的并行计算能力，提升吞吐量。这个就是刚才我们讲的3TB每秒的，这个GPU跟显存之间的带宽，就是从这里来的。实际上这一次主要就是给了这么三个东西。那你说这个东西算不算创新呢？</p>



<p>每一次中国人给出东西来，一堆人说：“哎呀，这个创新了，这个抄袭了。”首先要讲说灵感来自于叫Flash attention 2和3，以及有一个叫COT LASS这样的两个论文，或者两个开源项目，叫CUDA-LESS。CUDA-LESS应该也是CUDA上面做的一些什么优化的这种东西。这两个项目呢，是英伟达自家的开源项目，就是英伟达自己就把它开源了，然后也是MIT协议。咱们现在讲一下MIT协议什么意思，叫允许用户自由使用、修改和分发代码，但是需要在修改后的代码中或者软件中保留原来的许可声明。就是你可以拿着代码回来改，也可以自己去用，自己去分发，但是呢，我原来声明了，说我这是一个MIT的项目，你在新的软件里你必须要留着它。这一次的Flash MLA也是一个MIT协议的开源软件，所以呢它是完完全全符合开源规范和道德的一种创新。就是我从哪来的，引用写好了，我在这个基础上遵守原来的协议，我又把它开源了，大概就是这样。</p>



<p>那么说个人话吧，讲了这么半天这东西到底干什么呢？这数据到底怎么算呢？估计大家稍微有点头晕了，咱们讲一故事。比如说吧，有一家这个跑车的公司，我造跑车的，我出了很多很多的手册，告诉你这个跑车应该是怎么去做的，然后有哪些参数可以调整，如何去优化。有一大堆的修车厂，这些修车厂或者叫改车厂吧，他们呢会使用这些手册做一些车厂允许或者不允许的改装。你只要到改车厂了以后嘛，肯定有一些修改是超出车厂允许范围之外的，这个没有办法。修改完了以后呢，突然有一家特别大的这个改车厂决定把自己改车并且夺得冠军的方法给公开出来，这就是我们今天看到的东西。他们现在使用的Flash MLA这个东西，已经在这个DeepSeek自己家的服务器上得到验证了，说这东西确实好用，然后把这个拿出来了。那么其他改车厂呢，就可以拿着这个已经公开出来的这个标准继续跟进，接着往前跑了。现在麻烦是什么呢？</p>



<p>第一个修改方案是针对旧发动机的修改方案，那么它影响了新发动机的销售。然后，第二个方案在优化之后，与某些交管部门的规定相互冲突了。这就是这一次Flash MLA发布对于英伟达可能的一些影响。</p>



<p>那么，谁会用这个玩意呢？就是这个Flash MLA到底对什么样的系统有帮助？它主要是用于推理的，不是用于训练的。所以呢，它主要是优化VMRM系统，或者叫高效的大模型推理架构。像我们使用的各种聊天系统，实际上背后你都是要有一套这种推理架构，然后再去挂模型才可以用起来。包括像Mistra、XAI这样的，它们背后都是要有这样的推理架构的。</p>



<p>然后，一些小型的LM推理架构呢，可能也会有提升。比如像Huggingface、Transformers或者是Llama CPP，这些小型的系统应该也会得到优化。优化了以后的话，在原来的H系列的GPU上，甭管你是H100还是H800，你都可以极大的提升效率。</p>



<p>那你说对于国产和非英伟达系列的芯片，会不会有提升呢？很多人再去讲说英伟达的垄断被打破了，这个国产芯片看到机会了。首先咱们要讲思路可以借鉴，就是他给了你这样的一个思路。但是呢，要注意Flash MLA是基于CUDA干活的。前面他引用的说我借鉴了谁呢，也是借鉴了英伟达根据CUDA去做的一个开源项目的这个思路，在这个地方修改的。所以直接用是用不了的。</p>



<p>这周应该还会有很多有趣的东西要发布，通过开源的方式不断的打破封锁，打败这个精准的刀法。这就是我们这一周有可能会看到的东西。那么精准的刀法是怎么起作用的，大家知道吗？肯定呢是有大量的门会要关上，就是我设计这个项目的时候，里面一定有很多的开关和门。那我关上其中一部分的门，就可以实现刀法精准了。但是呢，大家去设计这个系统的时候，他不是为了关门设计的，还是为了提高效率设计的。所以有很多的论文开源项目，他都会去讲说我这个东西当时是怎么设计，为什么就能够提效。</p>



<p>这些东西都是公开的。大部分人其实是不会去读这些文档，即使是读了这些文档，也没有能力自己去修改这个东西。就像我们比如去买车，买完车的时候人家告诉我，这个发动机最高可以到什么样。或者说我去买这个电脑，人说这个电脑可以超频，可以去加液冷，可以进行改机，爆改都可以。但是我们谁真的买回电脑来去改吗？其实很少有人改这东西。但是总有一些人说，我们就去给你爆改电脑，给你个电脑CPU超频，给你去做这样的事情。做完了以后，我还给你公开出来，这个东西到底是怎么改的。</p>



<p>在最后呢，跟大家分享一个小故事吧。好会计和律师分几个阶段，可以去思考一下现在Deepseek在里边能够站到哪一位置。为什么讲会计和律师呢？都是在规则之下去工作的。他们在规则之下工作，但是呢又会不断的去接触很多灰色的东西。第一类就是最差的是什么呢？自己也搞不明白各种规则是怎么回事，还在这儿不懂装懂。其实大量的会计跟律师都是在这个层次上，就是你所有看那个说话特别强硬的，这种会计和律师，他一般都是掩盖他们自己的无知的。第二类呢就是自己也搞不太明白，但是呢还是愿意承认的，说这个事我可能稍微差一点，那个事可能也差一点，我们可以去问一下谁，或者怎么去讨论一下。我们见过的比较好一点的律师和会计呢，都是这样的，他不会把任何话给你说满。然后第三个是什么呢？就是相对来说要明白一点了，但是呢只会刻板办事，规定就是这样的，我不能给你改，那那个地方就是这样规定的，我不能给你动。再往后呢就是很明白了，而且可以利用各种规则的边缘，解决问题了。这个就是我们认为比较高端的会计师和律师了。当然最高端的是什么样呢？就是我不但可以利用这些规则把问题解决掉，还可以公开标准，修改和优化规则。这个是最高一级的。现在DeepSeek就已经站到最高一级了。这只是DeepSeek 5天开放周的第一天内容，让我们进一步期待这一周后面的四天到底都开源出。</p>



<p>一些什么东西出来。如果有一些比较有趣的，我自己还能讲得明白的，我会继续跟大家分享。好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
