H100芯片 – 老范讲故事｜AI、大模型与商业世界的故事

从557万美金训练成本到545%利润，DeepSeek如何用惊悚的数字，震撼AI行业的？这些数字，靠谱吗？

Luke Fan — Tue, 04 Mar 2025 00:40:05 +0000

DeepSeek也玩“one more thing”，突然公布了它的推理利润达到545%，就像当初557.6万美金的训练成本那样，再次震惊了行业。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，DeepSeek结束了连续5天的开园周之后，到礼拜六玩了一次“one more thing”。这个“one more thing”呢，应该是当年乔布斯的梗。他每一次开发布会到最后的时候呢，都要说“还有一件事，等一等”，而且这一件事呢，往往是特别重要、特别颠覆性的事情。那么这一次又来了，DeepSeek公布了它的V1和R3推理系统相关内容，及大规模部署的成本和收益数据。就是说我部署了这东西以后，到底是挣了多少钱？非常非常让人震惊，因为所有人做这个东西都说我不挣钱，我亏钱，结果等到他这好，545%的利润，所有人都傻了，说你到底咋干的？

具体的实现方法呢，就不再跟大家详细分析了。简单来说，第一个负载均衡，你想他有这么多的GPU，这么多的核心，在他这种MOE的架构下，他把每一层的模型里边每一个专家，分配到不同的设备上面去进行运算。这个呢，就是一个负载均衡，尽量让所有的芯片都动起来，不要说有的芯片闲着呢，有的芯片在那排队。第二个，并行计算。并行处理是什么呢？所有的芯片一起来干活，这个速度肯定会变快。另外呢，一边干活的时候，另外一边呢，再同时进行数据的读写。你不能说我这需要数据了，你给我读，然后处理完了以后你再去写，这样就变慢了嘛。所以基本上在做这样的事情，负载均衡和并行处理。

另外还有一个什么样的事情在做呢？就是有一点点叫“驴粪蛋表面光”。这个也算是老北京的一个俏皮话，什么意思呢？就是这个驴粪球外边是很光滑的，但是里边呢，就是一堆的没有消化好的碎草。DeepSeek也是如此，他把很多的计算精度呢进行了调整，他尽可能的能够达到大家的要求，但是很多细节上的这些你看不到的环节呢，就给你忽略掉了。

所以，这个也可以极大地提高效率。他说：“我通过了这样的方式，达到了545%的利润。”当年给出的DeepSeek V3 557.6万美金的训练成本，已经成为了一个业内的计量标准，或者计量单位了。就跟你说这个东西是一牛顿，那个东西叫一瓦特，他这个557万的训练成本，也成了一个计量单位。OpenAI用了1,400万美金投超级碗广告的时候，很多人就说：“你这玩意够训练几次DeepSeek了？”这个已经成为一个业内梗了。

在制造话题这块，DeepSeek作为AI时代的顶级企业是合格的。大家注意，AI时代跟以前不一样。原来呢是酒香不怕巷子深，但是现在你从OpenAI、Anthropic，再到国内的DeepSeek，每一个都是制造话题的好手。必须要会讲故事，才可以在这个时代好好地玩下去。

那么，545%的利润和557.6万美金的训练成本，到底是一个什么样的概念呢？是真的还是假的？是不是吹牛？很多人一上来就会问这样的问题。事情呢，没这么简单。数据肯定有一定水分，咱们一定要承认这件事。但是呢，这个数据也是有参考价值的，不是说你这个东西是真是假，一刀切完事了。这个还是要具体来去分析一下。

咱们呢来看一看，545%的利润到底是怎么算出来的。说这个GPU都是7*24小时满负荷工作，然后呢把所有的优化手段都用到极致，就是他这5天发布的这些优化手段，我都给用上了。然后计算输出TOKEN的总量，就是我这么长时间，一共可以输出多少TOKEN出来。按照最贵的DeepSeek R1的价格来去收钱，这个是100万TOKEN 16块钱，这个是DeepSeek自己给的价格。国内的这些云服务厂商，基本上都是按这价格做的。等于就是说我一天24小时，满负荷输出这么多的TOKEN，能够说到多少钱。再以GPU租赁的价格，两美金一小时作为成本，把这俩数一除，就算出了一个545%的一个利润率来。他是这么算出来的。那这个水分在什么地方呢？

第一个GPU是不可能7*24小时满负荷工作的。就跟送外卖一样，赶上午餐时间大家都得去送外卖，午餐吃完了以后所有人都在那闲着，这个才是正常的状态。GPU也是如此的，你不可能说大家都商量好了，这个7*24小时达到均匀的来，我们让所有的GPU跑满，谁都别闲着。这个事是绝不可能的，而且距离现实情况相距甚远。

正常应该是什么呢？为了保障高峰时期的服务不崩，必须要容忍非高峰时期，可能有70%到80%的服务器是冗余的，或者在那闲置的。那你说到底有多少这个时间算高峰时间，有多少时间是非高峰时间呢？这个一天里头的高峰时间，可能能够有这么三五个小时也就到头了，不会到8个小时的。

像我们以前做游戏的时候，是什么时候高峰时间呢？中午吃饭的时候，还有吃完晚饭9点以后算是高峰时间。那你说我这是工作上班的事情，那他应该是在早晨10点、11点，你没准是个高峰，然后下午2点多到四五点钟，是有一个高峰。其他的时候这个服务器都是闲着的。所以千万不要觉得说，能够跑20个小时的高峰，想都不想，你能跑4个已经算很好很好了。

那么DeepSeek也不是所有服务都收费的，它是按最贵的那个算，按DeepSeek R1每100万TOKEN 16块来算的。你如果按照DeepSeek V3，每100万TOKEN也才8块钱，就肯定没有500%多的利润。而且DeepSeek上呢，比如说他的网页还有他的APP，这些都是不要钱的，你也得为人服务。那这一块他就没算在里头，都按这个R1去收费了，所以这个肯定是不对的。

而且现在DeepSeek呢，在晚上的非高峰时期，也就是凌晨3点到第二天8点这段时间，他还对这个API的价格打折。这块他也没算在里头。其实我觉得他真没必要打折，因为我在这个时间段试过，依然很慢，他的服务器依然是不反应的。所以呢，他做这样的事情，应该还是有一些奇怪目的的吧。他现在的这个成本呢，只计算了GPU的租赁成本。

这个肯定也是有水分的。当然了，GPU租赁呢，是包含服务器、水电、制冷、相关人员成本的，甚至还包括资金占压成本和一些利润。因为你找别人去租GPU来，人家还挣钱呢。所以这块呢，一个小时两美金这个事还是比较宽裕的。而且DeepSeek自己部署机房的话，可能它的成本还要比一个小时两美金要稍微低一点点。但是呢，他的研发、训练、数据准备等等这些成本都没算在里头去。所以呢，他在整个计算成本的时候呢，肯定是极大的降低了成本的总量。

这个呢，就跟前面咱们讲557.6万美金的DeepSeek V3训练成本其实是一样的，也是这么算出来的。它只计算了2,048块GPU运算了多长时间，其他的什么人员工资、数据准备这些全都没算进去。咱们这里的人员工资就是分两块，一块是机房维护的人员工资，这块呢，应该已经算到了GPU租赁的价格里边去；另外一块是他自己那帮科学家的人员工资，这部分那是没算的。

那么实际利润应该有多少呢？你说没有545%，那到底应该有多少？可以跟大家负责任的说，实际利润一定是亏损的，谁也不可能靠这玩意挣钱，按这价格都挣不回来。那么为什么还说这个数据是有参考价值的呢？大家注意在投融资的时候，或者是在做量化交易的时候，你需要一些简单快捷的方式去计算出某一个数值的极限范围。这个东西最多能挣多少钱，最多能亏多少钱，是要快速的算一下的。只有算完了这个以后，才可以去做一些决策。完全准确的数据说，我这东西算完了以后特别精确，就是挣这么多钱，就是亏这么多钱，这个数呢有时候没有什么意义，时间更重要。

DeepSeek呢就是做量化出身的，所以呢，他们很习惯这样去计算数据。你也不能说人家故意坑你。所以先计算极限，然后再向极限前进。如果发现没法到达，咱们再去分析原因调整数据。这个是甭管做投融资还是做量化，必须要干的事情。那么我们应该如何看待这样的数据呢？无脑吹，无脑喷。

一上来说看DeepSeek好厉害，中华之光。另外一帮人说你看这就是骗人的，这个不可能的。这个呢，您开心就好，您走错频道了，不应该来看老范讲故事。您去找一些更二极管一点的频道去看，会更加开心一点点。还有一些人呢，找出证据来论证他不靠谱，或者是让别人自证清白。你找出证据来呀，你自己列出这个数据来呀，你看你不靠谱吧。这些人呢其实也是一种无脑的表现，就是你要知道这个东西背后的逻辑是什么，以及它的价值在哪个范围内是有效的，而不是说上来体现一下自己的优越感。这种人也没什么意思。还有些人呢上来就说，哎呀，这个事情很复杂，一句两句解释不清楚，然后呢给你说一大堆的专有名词出来。这种人可能是骗子，他总是惦记从你身上得到一些什么的。

所以我们真正要做的是什么呢？就是理解这种数据产生的逻辑意义，以及呢价值，在其合理的范围内使用这些数据作为参考，但是不能迷信。为什么要有合理的范围内使用呢？真理还有适用的范围呢，没有哪项真理是放之四海皆准的。真理离开了他的适用范围就是谬误。同时呢我们要训练自己快速得出类似的这种数据的能力，或者呢，是加强我们对此类数据进行判断的这种能力。

那么DeepSeek为什么要公布这样的一个数据呢？这个目的和险恶用心何在呢？这个才是我们吃瓜的乐趣所在。第一个他要证明自己在H800下完全能够搞定所有的事情，还能挣钱。因为一直有人在质疑DeepSeek走私了H100，手里边有5万块H100，大家都在讲这个事。但是呢，DeepSeek自己不会去证明说我手里有还是没有，这个都没有任何意义。有呢，肯定有问题，可能会造成你这种技术在海外被彻底封禁。你就算是开源说，你这个技术因为是违法获得的，所以谁都不许用，他有可能会得到这样的一个结果。那你说我没有呢，你又很难证明这个事情，说我没有，自证清白这个事是挺难的。那么干脆我们就不证明了，我既不说我干了，我也不说我不干了。他干嘛呢？

他说：“我证明一下，我不需要H100，我用H800完全可以搞定。我把这个事儿证明一次就完事了。DeepSeek现在也没办法把这些H100拿出来，开足马力来为大家服务。现在突然服务的很顺畅了，说你是不是把H100拿出来偷偷用了？没有，你看我说都算好了。这个我是挣钱的，我不需要把他们拿出来。他现在需要给自己做这样的一个辩白，这是第一点。”

“第二点是什么呢？就是我没赚着钱，你们也别想赚钱，大家一起来卷。什么意思？这个学霸经常出来说：‘你看我没有复习功课哦，我就是天天玩，但是我考得很好。’他们是很气人的。可能这跟你说完了不复习功课，炫耀了一下我怎么去玩耍了，回家就苦读到半夜。这个是很多学霸的一种套路。DeepSeek可能也是这么搞的。他自己的网页、APP和API现在基本无法使用的一个情况下，国内的各大厂呢，都在拼命地接DeepSeek。但是呢，又没有给DeepSeek付钱。那DeepSeek只能出来阴阳一下说：‘看我还是挣545%呢，你们挣老鼻子钱了，是不是得意思一下？’那干脆大家一起卷就完了。然后在这个过程中，把这些不挣钱的小的卷死。大的也不是说就挣钱了，大的是有其他业务可以补贴，他赔得起。等到最后剩这帮大的的时候，咱们再来谈这个事情。咱先把这帮小的都卷死。他在干这样的一个事情。你想学霸上来说：‘我从来不复习功课，我上来就考第一。’他干嘛呀？第一个，心里要开心一下，要稍微秀一下优越。另外一个呢，就还是说，咱们这个各层次咱们分别卷起来，要干这个事情。”

“那么这个事情发布了以后呢，周末还炸出一个小瓜来。这只能算小瓜了，就是硅积流动跟路深科技两边掐起来了。这两家呢，都是做MAAS的，就是大模型作为服务。咱们做云计算，有IAS，就是基础架构作为服务；SAS是软件即为服务；PAAS是平台即为服务；MAAS呢，叫model as service，就是大模型就是服务。是这样的两个厂商自己就掐起来了，为什么呢？”

现在，他们都接了DeepSeek，但是肯定都不挣钱，而且亏得很厉害。路深科技呢，就卷不动了。这位CEO是UC Berkeley的博士，所以我看他的这个签名是伯克利什么什么。这个人我也不认识，所以这名字咱就不记了。他呢，算是有一些网红包袱。你说我卷不动这事呢，我又不能承认。我不能承认这个网红塌房了，别人能搞定，我搞不定。所以呢，一定要找一个出口说，你看他们其实也不挣钱，他们就想卷我们，他们也有问题。他找到了谁？找到硅基流动了。这个不能是自己的问题，也不能是DeepSeek的问题。DeepSeek现在是中国之光嘛，这事一定是你自己技术不好。而且这事还不能是华为的问题，这事跟华为有什么关系呢？就是路深科技跟硅基流动，他们接DeepSeek都是跑的华为云的升腾910芯片的，他们没有跑英伟达芯片。那这个事这几家都怪不了，不能怪自己，不能怪DeepSeek，也不能怪华为。那我们怪友商吧，怪这个硅基流动吧。他说硅基流动你春节加班，因为DeepSeek的发布是在春节期间发布的嘛，而且呢还在卷砍一刀的事情。因为这个硅基流动发了好多的代金券出去，赚了一波流量。你发了这个多少亿的代金券出去，你手里就1亿2亿的现金，你根本就没有办法兑现这个事情。这个其实也是有点骗傻子了，代金券出去并不是需要用你手里的现金去兑换的，你是要用服务慢慢地去把这些代金券消耗掉，跟你手里有多少现金本身是没有关系的。当然，卷这个事呢，在中国企业的竞争过程中呢，算是一种常态吧。现在硅基流动的DeepSeek R1也基本上处于不可用状态，我现在也不用他们家的，都是用火山的。待会咱们再讲为什么用火山的。到这了这两家就开始互相掐了，硅基流动说人家是已经发布了这些开源项目了，我们照着去学就完了，但是这个事很难，你搞不定，你不要说别人也搞不定，开始阴阳这个路深科技。这两边就开始相互的指责，说你挖我的人。

硅基流动说你抄袭，开始互相怼起来，这已经离开事实本身了。这个呢，稍微有一点点low。卷不动呢，你就默默地退出就完了。当然，内部人设立不住呢，你就需要在外边立靶子。我们也见到了很多这样的案例了，最后呢在外部还翻了车了，只能回去继续统一思想。

怎么在外部翻车了呢？因为路深科技呢，被硅基流动指责说你抄袭。然后路深科技说，抄袭的那个是原来我CTO干的，CTO已经把它开了。而且呢，CTO被开了以后，还去你硅基流动上班去了。现在这个CTO也出来回复了这件事情，他说我就是当年那CTO，我去的时候这项目就已经是这样了，那个代码也不是我抄进去的。说我去了以后呢，还整理了所有的代码，把所有引用的东西呢，给他写清楚出处。

这个开源项目怎么算抄袭，怎么算不抄袭？就是你违反了人家的开源协议，你用了人代码你没有写说这是哪来的，这就算抄袭。你说我用了人代码了，但是我写清楚我用了谁谁谁家代码，符合人家的协议，然后我在这个基本上做什么修改了，这个就算给开源做贡献。人家的CTO说压根跟我没关系。

然后第二个说我为什么离开呢，是因为他们用假的期权合同骗我，让我去的时候给我承诺了期权，结果最后呢没法兑现。因为这个事情我质问了他们，所以最后离开了。在其他的一些抄袭事件，因为这个路深科技，还有其他的抄袭事件，说这个就跟我完全没关系，等于又把这个路深科技整个放这了。

那么DeepSeek的推理市场，未来到底怎么走呢？首先腾讯去加单了，订购了10-20万块的H20，这个是现在允许向中国出口的型号，全线接入DeepSeek。在它的微信，IMA，还有元宝这些程序里边都接了。IMA呢是一个办公用的AI助手，元宝呢，是个人用的AI助手。现在元宝在疯狂的做推广，微信的搜索里边，现在也在进行灰度测试，直接在里边可以使用DeepSeek R1进行搜索推理。字节呢，本身就是算力大户，它是全世界第二名的算力大户，第一名是微软，第二名就是它。

DeepSeek只做ToB的服务，就是你可以在字节的火山引擎上用它。字节自己的产品里是没有去接DeepSeek R1的，他们还是比较骄傲的，希望这个豆包模型可以追上来。所以字节的DeepSeek R1是我现在用过的所有DeepSeek R1里头最快的，因为算力足够多，用的人不是很多，所以他最快。

阿里云呢，未来三年投入3,800亿人民币做算力投入，说那我们就疯狂去买就完了。至于这些MAAS厂商，就是叫模型及服务的厂商，这个背后都是华为云，价格又被DeepSeek给锁死了，这个就很痛苦。所谓锁死了什么意思？DeepSeek在中国给出的价格，咱们就说R1的输出价格吧，是最贵的一个价格，是每100万TOKEN 16块钱。现在甭管是路深科技还是硅基流动，或者是阿里云火山云，都是用同样的价格给的，100万TOKEN 16块人民币。但你知道国外多少钱吗？在together上刚才我查了一下，美国的服务器上部署的DeepSeek R1，它的100万TOKEN大概是七八块美金了，应该到50多块钱人民币，所以这个还是挺贵的。

他们的V3其实价格都差不太多，咱们的V3的输出呢，是八块钱人民币100万TOKEN，在美国的话是1.25美金100万TOKEN，这个是相差不多的。但是R1这个真的是差三倍的钱，国内这个锁死价格了，以后他们就必然会按照这个价格赔钱赔下去。

至于DeepSeek所开源的这些库呢，他们只能去借鉴一个思路，肯定用不上。为什么？因为DeepSeek所有开源库都是基于CUDA的，都是基于英伟达芯片的。这帮人看着一堆的华为升腾910，只能说，咱们看看这个大概思路是不是可以参考一下。那这个想去做的话难度就大了，而且整个的服务过程必然亏损。原因也很简单，就是你的服务器绝不可能7*24小时很均匀、很平顺的满负荷运转，这个事情从头到尾就是个伪命题，所以肯定是亏的。

而且，华为呢是不会承担这种亏损的。你跟华为合作，人家还忙着爱国呢。你亏了钱，肯定是你自己的问题。而且，人家DeepSeek说了：“我这能挣钱，你亏了，你不能怪我，你也不能怪华为。你看看你自己的技术哪不对。”

而且，这些MAAS的厂商呢，还没有大厂其他的业务可以补血。你比如像刚才我们讲，腾讯在这个IMA或者是元宝里边，去使用DeepSeek R1的时候，你是不用付钱的，免费的。但是，腾讯有游戏收入，有广告收入，还有各种电商收入。他有一堆收入可以补这个窟窿。他去买20万张的H20，花不了多少钱，对于他整个利润来说，都是可以承担的成本。

硅基流动，路深科技，你跟他卷，这你肯定卷不过他。更别说字节跳动了，字节跳动比腾讯还能挣钱呢。所以呢，跟大厂他们也卷不过。model as a service的这些厂商呢，只能看谁坚持到最后。坚持到最后，也不是说他们就能胜出。坚持到最后呢，也就是看最后谁能够下车，被这些大厂所收购。这应该就是他们的出路。

当然，你说我未来是准备被收购的，那也就不能长太胖。什么意思？你不能拿太多的融资，必须要自己挣钱。因为你拿了很多融资以后，你的估值会变得非常高。等到最后大厂去选择一家，把它收下来的时候呢，通常还是要去衡量一下性价比的。

那么，总结一下。首先呢，要感谢DeepSeek又给了一话题，又可以跟大家扯一会儿。如何理性地判断各种夸张数据背后的逻辑和价值，才是今天我们要讲这期视频的核心点。而不是说，我们来批判一下这东西合理还是不合理，这个没有什么意思。

AI正在走向新的时代，过去很多的商业逻辑呢会发生变化。过去的经验未必有效，但是依然是会有一定的价值。你像我给大家分析很多东西，都是根据我过去的很多商业逻辑来分析，但是也不能迷信这个东西。像我每次都会跟大家强调，这个东西呢，有可能分析的不全面，未来有可能会出现我们想象之外的东西。那这个才是我们这个频道始终跟大家所强调的东西。好，这期就讲到这里。

感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

DeepSeek开源力量爆发！Flash MLA登场，英伟达的精准刀法遇到重大挑战！

Luke Fan — Wed, 26 Feb 2025 00:47:10 +0000

DeepSeek开源周第一炮打响，这次英伟达可真的有的愁了。大家好，欢迎收听老范讲故事的YouTube频道。DeepSeek号称要做开源周，也就是在这一周里边，连续5天发布5个开源项目。那么第一炮打的是什么呢？这个产品叫Flash MLA，这是一个MIT协议的开源项目。待会我们再去讲什么是MIT协议。一天上来就直接获得了几千个星星，就是你把项目发布到GitHub上以后，如果有人喜欢的话会打一个星星。打了星星以后的话，这个项目未来有各种的更新和迭代，我们是会收到通知的。所以很多的开源项目，是用星星的数字来衡量自己项目的受欢迎程度的。

这个项目呢，其实对于绝大多数的使用者来说，短期之内是不会有影响的。什么叫短期？可能就是几个月的时间之内，不会有特别大的变化。但是，可能过了这几个月，这个变化就会逐渐的显现出来。英伟达这次到底能不能挺得住，是会变得好还是会变得坏？这就是我们今天要讲的故事。

英伟达面对Flash MLA这样的一个项目呢，应该有点哭笑不得。为什么呢？这个是必须在英伟达Hopper系列芯片上使用的一个技术，也就是离开英伟达芯片你跑不了。所以这玩意是给英伟达芯片再去做优化。但是呢，这里有个问题，英伟达的H100是被美国禁运的，中国是不可以购买的。中国只可以购买H800，也就是英伟达经过精准的刀法裁切以后的这个版本。它在H800的这个基础上呢进行了提速，这就是这一次的Flash MLA真正给出来的东西。

理论上的H100应该也可以提速，因为它都是Hopper的架构嘛。但是英伟达现在正在推的GB200，它就不是Hopper的这个架构了，它呢是Blackwell黑景架构的。那么在这个上面就不起作用，或者说没有经过Blackwell芯片的这种兼容性测试，不知道在车上好不好使。这种GB200的芯片，第一个现在到底有没有交货，或者交了多少了，其实谁也说不太清楚。

虽然这个山姆奥特曼说：“我在微软机房里看到了。”但是没有那么大的感觉说，这个东西真的改变了什么。第二个呢，就是中国不允许买嘛。既然不允许拥有GB200，那我凭什么去给GB200做优化？即使DeepSeek手里边有一些GB200，我做了优化了，那我也不能说出来。我不能告诉你说：“我偷了一个这玩意回来，我优化了再给你公布出来。”这个与理不合，对吧？这就是对于英伟达的一个小影响。这个东西上来以后，大家没有那么踊跃的去买GP200了，他还接着去买H100、H800去了。

还有一个问题是什么？就是H800的越狱的问题。美国政府限制的是什么呢？你这个东西算力有多少他其实不管，他主要管的是内存带宽，也就是GPU的芯片，跟GPU的这个HBM内存之间，每秒钟到底可以传多少数据。它是限制了这个东西。对美国政府给出的限制呢，是2000GB每秒，也就是两T每秒的这个速度。H100呢是3.35TB，肯定是已经超过了。H800呢，老黄精准一刀，它就是2TB的。虽然有的时候可能大家跑不到，但是人家的标称就是两TB，是符合出口要求的，可以卖给中国。现在上了Flash MLA之后，它的速度就提高到了3TB，这个就稍微有一点点尴尬了。这个以后到底还能卖还是不能卖，还是怎么办？我估计够老黄头疼一阵了。这个是为什么说，英伟达遇到了这样的一个Flash MLA以后，稍微有一点点哭笑不得。你确实给我的显卡做了提速了，但是提速完了以后呢，不太符合某些规定了。

那么说到这了，Flash MLA到底是什么？咱们这一块要后说，因为呢可能很多听故事的人，对于这一部分就没有那么大兴趣了。咱们尽量用简单的方式来讲。这个东西呢全称呢，叫高效多层注意力解码内核。这个名字反正有说没有懂，每个字都认识，放在一块不知道什么意思。他呢其实干了三件事。第一件事呢叫分页式间值缓存，这意思是什么呢？就是我们在内存里有很多的数据，本来我要去读这些数据的时候呢。

应该是叫随机读取。就是我得到一个地址，然后我到这个地址上，把这个数据读出来或者写进去。但是这样的话效率就会很差，为什么？因为你这个内存很大嘛。而且我今天分配了一块内存，待会我把这个内存释放掉了。如果是随机的去做的话，那就会出现很多碎片，不连续的这种内存会存在里头，这个会降低读写的速度。

Flash MLA说，咱们这样：以64个内存单元为一个页面，咱们进行分页管理。每一次我就不再分给你具体的多大多小的，我就是按多少页给你分。我想要多少字节的内存，或者多少位的内存，我原来是可以随便分的，现在不行，必须是64个数一页，你必须按整数页分。他用了这样的一个简单的方法，就可以极大的提高内存的分配、释放的效率，以及读写的效率，还可以极大地降低显存碎片的产生。就是你再产生碎片，也是64个数放在一块的一个碎片。这个对于未来的这种使用，就会方便很多。因为碎片这个东西有时候很讨厌，比如说我现在有一份文件，我这份文件的前5页存在一个地儿了，后3页存在一个地儿了，中间几页我再存在一个地儿了。等你需要取这数据的时候，要上三地去把这数据取出来，那这事不就费劲了吗？现在说，哎，我按整页算，哪怕你用不完我浪费一点，剩一块不要了没关系，但是我每次分配、每次释放都是一整页。那这个就是大家理解的，他干的第一个事。

第二个事是干嘛呢？他做了一个叫BF16精度的一个知识。咱们看很多的这种大模型，后边都是有一数，都是FB什么FB什么，FB32、FB16、FB8，甚至还有FB4的这样的数据。但是这一次呢，他玩了一个叫BF16，什么意思？咱们正常情况下呢去训练大模型都是用一个完整的浮点数，就是FP32。什么意思呢？f呢就是float，P呢是point，浮点32意思就是说，我这一个数是一个32位的一个空间。32位就是32个010101，这样放在一起这是一个数。在这个数里头呢有一位代表正负，有8位呢是代表指数。

剩下的23位代表的是精度。我们写很多的叫科学计数法，都是先是正的或者负的，然后是3点多少多多。这个是长度代表精度的，小数点后边越长，你精度就越高。最后乘上10的多少次方，一般代表浮点数是这样来写的。后边有8位是代表10的多少次方的，这个东西叫指数。有23位是代表精度，也就是点后边有多少位，再加上一个正负，这就是传统的FP32。

正常的一般使用的是FP16。就是你都用FP32去使用的话，等于你每一次进行比较，进行搬运，进行运算都很慢，而且非常非常消耗资源。所以呢，很多时候，这个大模型工作是工作在FP16的这个基础上的。FP16什么意思呢？它这个里头还是有一位是代表符号的，代表精度的是有10位，代表指数的有5位。这个呢就会发生一个问题，就是它的精度降低了。FB32那个是有23位代表精度的嘛，那这个只有10位了。还有一个很大的问题是什么呢？就是它的范围变小了。什么叫范围？就是乘以10的多少次方，这个数是它的范围。原来呢（FB32）是有8位来去代表范围的，现在呢（FB16）只有5位了，使得很多的模型的规模就会受到限制。

那么这一次呢，DeepSeek给出了这个东西叫BF16。它们呢使用的是什么？就是它的指数依然是8位，跟FP32这个是一样的。还有一位是代表符号，这个正负你必须还得留着。剩下的呢就剩的就比较少了，他只有7位来去代表精度。所以他把精度降低了，但是呢指向的这个数据范围，其实跟FP32是一样。它是通过这样的一个方式，让这个大模型可以在精度下降，但是呢指向范围不变的情况下去进行运作，效率有极大的提升。

这是第二个。第三个是什么呢？就是叫分块调度与并行计算。将计算任务分解为多个小块，进行并行处理，充分利用GPU的并行计算能力，提升吞吐量。这个就是刚才我们讲的3TB每秒的，这个GPU跟显存之间的带宽，就是从这里来的。实际上这一次主要就是给了这么三个东西。那你说这个东西算不算创新呢？

每一次中国人给出东西来，一堆人说：“哎呀，这个创新了，这个抄袭了。”首先要讲说灵感来自于叫Flash attention 2和3，以及有一个叫COT LASS这样的两个论文，或者两个开源项目，叫CUDA-LESS。CUDA-LESS应该也是CUDA上面做的一些什么优化的这种东西。这两个项目呢，是英伟达自家的开源项目，就是英伟达自己就把它开源了，然后也是MIT协议。咱们现在讲一下MIT协议什么意思，叫允许用户自由使用、修改和分发代码，但是需要在修改后的代码中或者软件中保留原来的许可声明。就是你可以拿着代码回来改，也可以自己去用，自己去分发，但是呢，我原来声明了，说我这是一个MIT的项目，你在新的软件里你必须要留着它。这一次的Flash MLA也是一个MIT协议的开源软件，所以呢它是完完全全符合开源规范和道德的一种创新。就是我从哪来的，引用写好了，我在这个基础上遵守原来的协议，我又把它开源了，大概就是这样。

那么说个人话吧，讲了这么半天这东西到底干什么呢？这数据到底怎么算呢？估计大家稍微有点头晕了，咱们讲一故事。比如说吧，有一家这个跑车的公司，我造跑车的，我出了很多很多的手册，告诉你这个跑车应该是怎么去做的，然后有哪些参数可以调整，如何去优化。有一大堆的修车厂，这些修车厂或者叫改车厂吧，他们呢会使用这些手册做一些车厂允许或者不允许的改装。你只要到改车厂了以后嘛，肯定有一些修改是超出车厂允许范围之外的，这个没有办法。修改完了以后呢，突然有一家特别大的这个改车厂决定把自己改车并且夺得冠军的方法给公开出来，这就是我们今天看到的东西。他们现在使用的Flash MLA这个东西，已经在这个DeepSeek自己家的服务器上得到验证了，说这东西确实好用，然后把这个拿出来了。那么其他改车厂呢，就可以拿着这个已经公开出来的这个标准继续跟进，接着往前跑了。现在麻烦是什么呢？

第一个修改方案是针对旧发动机的修改方案，那么它影响了新发动机的销售。然后，第二个方案在优化之后，与某些交管部门的规定相互冲突了。这就是这一次Flash MLA发布对于英伟达可能的一些影响。

那么，谁会用这个玩意呢？就是这个Flash MLA到底对什么样的系统有帮助？它主要是用于推理的，不是用于训练的。所以呢，它主要是优化VMRM系统，或者叫高效的大模型推理架构。像我们使用的各种聊天系统，实际上背后你都是要有一套这种推理架构，然后再去挂模型才可以用起来。包括像Mistra、XAI这样的，它们背后都是要有这样的推理架构的。

然后，一些小型的LM推理架构呢，可能也会有提升。比如像Huggingface、Transformers或者是Llama CPP，这些小型的系统应该也会得到优化。优化了以后的话，在原来的H系列的GPU上，甭管你是H100还是H800，你都可以极大的提升效率。

那你说对于国产和非英伟达系列的芯片，会不会有提升呢？很多人再去讲说英伟达的垄断被打破了，这个国产芯片看到机会了。首先咱们要讲思路可以借鉴，就是他给了你这样的一个思路。但是呢，要注意Flash MLA是基于CUDA干活的。前面他引用的说我借鉴了谁呢，也是借鉴了英伟达根据CUDA去做的一个开源项目的这个思路，在这个地方修改的。所以直接用是用不了的。

这周应该还会有很多有趣的东西要发布，通过开源的方式不断的打破封锁，打败这个精准的刀法。这就是我们这一周有可能会看到的东西。那么精准的刀法是怎么起作用的，大家知道吗？肯定呢是有大量的门会要关上，就是我设计这个项目的时候，里面一定有很多的开关和门。那我关上其中一部分的门，就可以实现刀法精准了。但是呢，大家去设计这个系统的时候，他不是为了关门设计的，还是为了提高效率设计的。所以有很多的论文开源项目，他都会去讲说我这个东西当时是怎么设计，为什么就能够提效。

这些东西都是公开的。大部分人其实是不会去读这些文档，即使是读了这些文档，也没有能力自己去修改这个东西。就像我们比如去买车，买完车的时候人家告诉我，这个发动机最高可以到什么样。或者说我去买这个电脑，人说这个电脑可以超频，可以去加液冷，可以进行改机，爆改都可以。但是我们谁真的买回电脑来去改吗？其实很少有人改这东西。但是总有一些人说，我们就去给你爆改电脑，给你个电脑CPU超频，给你去做这样的事情。做完了以后，我还给你公开出来，这个东西到底是怎么改的。

在最后呢，跟大家分享一个小故事吧。好会计和律师分几个阶段，可以去思考一下现在Deepseek在里边能够站到哪一位置。为什么讲会计和律师呢？都是在规则之下去工作的。他们在规则之下工作，但是呢又会不断的去接触很多灰色的东西。第一类就是最差的是什么呢？自己也搞不明白各种规则是怎么回事，还在这儿不懂装懂。其实大量的会计跟律师都是在这个层次上，就是你所有看那个说话特别强硬的，这种会计和律师，他一般都是掩盖他们自己的无知的。第二类呢就是自己也搞不太明白，但是呢还是愿意承认的，说这个事我可能稍微差一点，那个事可能也差一点，我们可以去问一下谁，或者怎么去讨论一下。我们见过的比较好一点的律师和会计呢，都是这样的，他不会把任何话给你说满。然后第三个是什么呢？就是相对来说要明白一点了，但是呢只会刻板办事，规定就是这样的，我不能给你改，那那个地方就是这样规定的，我不能给你动。再往后呢就是很明白了，而且可以利用各种规则的边缘，解决问题了。这个就是我们认为比较高端的会计师和律师了。当然最高端的是什么样呢？就是我不但可以利用这些规则把问题解决掉，还可以公开标准，修改和优化规则。这个是最高一级的。现在DeepSeek就已经站到最高一级了。这只是DeepSeek 5天开放周的第一天内容，让我们进一步期待这一周后面的四天到底都开源出。

一些什么东西出来。如果有一些比较有趣的，我自己还能讲得明白的，我会继续跟大家分享。好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。