谷歌TPU – 老范讲故事｜AI、大模型与商业世界的故事

Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌

Luke Fan — Sun, 24 Aug 2025 00:41:25 +0000

Deepseek V3.1发布，很多人应该都有疑问，UE8M0到底是个什么东西？这个国运级的大模型，到底有没有翻车呢？

DeepSeek V3.1发布，为什么会墙内开花墙外香呢？大家说这东西在国外也没多火。咱们讲的墙内开花墙外香，并不是说国外火，而是在圈外火。什么意思呢？就是在真正大模型圈里，其实大家并不怎么说这个事，但是在炒股票的这帮人面前，一下就火了，国产算力芯片一把就飞了。

到底是一个什么样的情况？首先呢，Deepseek V3.1在性能上其实并没有特别显著的提升，所以一帮真正去研究大模型的人，或者去研究AI的人，只能在那尬吹，说这个好像强了一点，那个好像强了一点，但其实都并不明显。它的编程能力呢，确实应该有所上升吧，但是你说现在就可以吊打Claude Sonic 4，这个我觉得有些言过其实了。上下文现在是128K了，在Deepseek去年12月份发布的V3版本以及1月份发布的R1版本的时候呢，它的上下文都是64K的。到V30324和R10528这两个版本呢，就已经升级到128K了，所以这一次的V3.1依然是128K。工具调用上应该是真的增强了，比原来的V3增强了，也更加符合AI agent的一个需求，这个就是他的一个主要的优势。

所以为什么这东西一开始拿出来，大家没有觉得他怎么样，然后突然怎么就爆发了呢？一句话让二级市场直接就疯了。8月21号，Deepseek公众号上有一句话直接引爆A股。玩模型或者说玩AI应用的人，是不会太去看这个公众号到底写啥的，但是这些炒股的人不一样，人家天天盯着这个公众号，一个字一个字在那抠。

这句话说的是什么呢？V3.1使用了UE8M0和FP8规模的参数精度，为了适配未来的国产算力芯片。有这样的一句话在里头，那这还不赶快冲上去？而且在传播的过程中呢，FP8这个词呢，在后续的流传中就变得时隐时现了，大家不再提这个FP8了，主要都去强调这个UE8M0了。一堆人就问说这玩意到底是个啥呀？这么神奇的东西吗？甚至寒武纪就直接涨停板了。

下边呢，咱们来解释一下UE8M0到底是个啥。这个难度很大，因为我自己在数学这一块也没有多强，而且还想把它尽量地解释得通俗易懂一点，这个对于我来说是一个考验。如果我说了你没听懂的话，不是我没说好，是你自己智商有问题。咱们开个玩笑。

很多人呢，其实都搞不明白这个UE8M0是什么，但是呢都像老中医念口诀一样，上来都是这个脉怎么怎么样，应该什么君臣佐使一下，然后就开始给你开药方。念念有词以后呢，就冲进去买股票去了。

这个咱们解释一下，首先呢，用形象的三个词来跟大家解释一下什么是UE8M0。这三个词，第一个词叫“马赛克”。很多男生，特别是对于成人影片、日本成人影片有一些经验的这些男生，对于“骑兵”和“马赛克”这个词应该是能够有一些理解的。UE8M0呢，实际上就是一种马赛克格式，待会我们讲为什么。第二个呢，就是叫“九九乘法表”。在中国吧，大家从小就背，我们可以在某一些特定的计算里头超过老外。他们从小不背九九乘法表的这些人，就没有这个口算和速算的能力。我们从小背这个东西，我们就在某一些特定的运算里头会比他们先人一步。还有一个不是那么好听的词，但是更贴切，是什么？叫“裹小脚”。这个在满清时期，他们对汉族女性的一种残酷的压榨，要求大家去裹小脚，以小脚为美。UE8M0的话，就完完全全是符合这三个词的特性的。咱们下边一个一个给大家解释。

首先呢，要跟大家解释一下计算精度的演化。咱们要知道，做大模型计算，甭管是训练也好，还是后边推理也好，它最主要的一个计算叫矩阵乘法，就是把一大堆的数呢放在一个矩阵里，两个矩阵相乘，乘完了以后得到一个结果。甭管是训练也好，还是推理也好，大模型训练的90%以上的算力就在干这一件事：乘乘乘乘乘。这也是为什么他们跑到英伟达的算力芯片里面去干这个事。英伟达算力芯片非常非常多的核心，这些核心也干不了太复杂的命令，但是你让他做乘法，他还是做得很快的。所以这个东西要比咱们普通的CPU算得快很多。

矩阵乘法里头呢，就有一个问题，叫计算精度的问题。最标准的叫FP32，他们这个数是怎么表示的呢？第一位是符号，正数还是负数；后边呢，应该是8位吧，代表的是浮点；后边的几位呢，就是代表的一个精度。前边这个符号正负大家比较好理解，中间这一部分浮点数就意味什么呢？就是我可以表示最大和最小多少，这个是一个范围的表达。后边这个尾数呢，实际上是精度的表达，就是说我这个小数点后到底有多少位。当我们把这样的一个数字去进行乘的时候，肯定会得到一个结果。但是有一个问题是什么呢？咱们都是讲这大模型好大，有好多好多数据去进行运算的，那你说我要把这么多参数搬进去，在这个内存里跑来跑去，它就会变得非常非常消耗带宽。而在进行乘的时候，如果是两个很大的精度的数去进行乘的话，那它的对于算力的消耗也是非常非常可怕的。

所以大家怎么办呢？就是要降低精度。而且呢，因为大模型本身它是一个很稀疏的运算，你降低了精度以后，发现对结果的影响并不是很大嘛。现在他们用16位的，或者用一些更小的8位的，用这样的精度去计算了以后，发现好像得出来的结果跟32位的没什么太大区别，那咱们就把它降低一点呗。所以呢，大家就开始从FP32变成FP16、BF16。这里头要注意，FP呢一般都是英伟达这边去采用的一个标准，也都是一位符号，然后呢多少位浮点，多少位尾数。BF16呢是谷歌自己用的一个标准，它的浮点数要更长一些，尾数更小一点，这样的话它可以表达更大的一个数字，但是呢精度差一点，效果呢也还可以。后边呢还有FP8，FP8就是尾数更少一点，然后更多的数字去表达。后来呢，我们现在使用的大部分模型，真正去推理运算的时候，实际上都是FP8。现在的模型呢，大量的训练都是用FP16去训练的，现在也没有那么多人使用FP32去训练了。最早都是FP32训练，后来就是FP16训练，训练以后再去对这个大模型进行量化。

你说比在8再往下还有没有？还有，叫MXFP6和MXFP4。MX是什么意思呢？待会咱们再解释。FP4，咱们讲讲一下这个吧，它比较极端了。FP4是什么意思？就是它有一位符号，两位浮点和一位尾数。那你说我就一位尾数，这玩意算啥呀？我这要是0的话，那你前头这几位不就全废了吗？不是这么算的。如果你这个尾数是0，它代表什么呢？就是0、2、4、8。如果你这个尾数是1呢，它代表的是3、6和12。所以我们基本上这样看，FP4代表的数就是0、1、2、3、4、6、8、12。那你说就这几个数我乘来乘去，没有办法代表很多的东西，怎么办呢？不能说我整个大模型就这几个数就把它都表示了。所以呢，这个时候MX就起作用了。它呢，把这种很小范围的数呢，放在一个块里，这一个块呢有32个数，这一个块呢统一再进行一次浮点变化。这个浮点数变化呢，是写在另外一个叫做浮点位里头。那个浮点位呢，就是一个UE8M0的一个浮点位。UE8M0呢，意思是无符号的8位的浮点，没有尾数，就是这样的一个意思。它相当于什么呢？就是我们把4位4位的这种一块32个数，统一用一个浮点把它变化起来。MXFP4大概就是这么个意思。

哪个模型是用的这样极端的参数呢？最近公开的GPT-OSS就是用的MXFP4。而且这个里头有一点很强的是什么？OpenAI是从训练就直接使用的MXFP4，它没有经过后续量化，所以它的效果非常非常好，也极其节省内存。因为你想你一旦把精度降低了，它就可以干嘛呢？它就可以用更小的内存去存储这些数据、存储模型。然后你在进行模型运算的时候，你的显存跟你的GPU之间进行调度的内容就会变得更少，乘的时候乘得更快。

那你说在这个过程中，显卡或者说算力卡的公司干嘛使呢？他们就会想办法去优化。他写一些算法，或者说在里边做一些链路，让这些算法，比如说FP8的或者是FP16的这些数据，在我这做乘法和加法的时候让它变快一些。早期的显卡上是没有FP8的，有FP32、有FP16。什么时候开始有FP8呢？这个东西是在英伟达H100上出来的。BF16是只有谷歌TPU上才有，其他人不玩的东西。这个MXFP4呢，就是后来这个Blackwell黑井的显卡上是支持这种运算的。

在这个里头有一种比较极端的算法，就是UE8M0。就是我已经没有正负数了，全是正，我这个全是正数，里头也没有任何的这个尾数了，只有8位的指数。那么它能够代表的数是什么呢？0、2、4、8、16、32、64，它等于是这样可以上去的，可以代表很大的数字，但是呢就是完完全全没有精度了，它是属于跳跃、跳阶跳上去的。这就为什么我们讲UE8M0是马赛克。你想我有一个图片，这个图片里头呢，某一些关键部位里头就没有阶梯了，就没有很多的细节了，只剩下这种跳跃式的这种表达了，那不就变马赛克了吗？所以基本上你把它理解成一个马赛克，这个事是可以的。你说有没有这个宝马一点的？有，就是那个刚才我们讲那个FP4，它里头还有一位，它可以代表0、1、2、3、4、6、8、12，它中间还是多出一个来的，它这个码要稍微薄一点。最极端的大的厚码，就是这个UE8M0。大家可以这么去理解它。

Deepseek为UE8M0都做了些什么呢？首先呢，Deepseek并不是原生训练的UE8M0的大模型。它呢，是在英伟达的H800和H20上，使用FP16和FP8训练出来的一个模型。在训练完了以后呢，再专门针对UE8M0进行量化，把我原来这个训练完了结果的数据，按照UE8M0的这个方式重新量化、重新排一遍，然后拿出这样的一个小很多的模型出来。在这个专门为UE8M0进行优化的算力卡上，就可以跑得飞快。

UE8M0其实是有一些好处的。它好处是什么呢？马赛克虽然没有细节，但是呢它在运算的时候，内存搬运会变得非常少。你去表达同样的模型，你需要的这个数据变小了，这个是非常非常有好处的。因为咱们现在最大的瓶颈是什么？因为美国禁运，我们的算力芯片跟这些HBM芯片之间，或者说这种显存芯片之间的带宽比较低，那我们就专门优化一个这样的算法给你就可以了。但是我们要注意，就是在Deepseek发的那篇公众号里头，他写的是“我们支持UE8M0和FP8”。所以呢，现在大家去下载的Deepseek V3.1的模型里头，实际上是有两个版本的，一个版本是UE8M0的，另外一个版本是FP8的。你说我是用英伟达显卡的，我用AMD的显卡，你就用FP8的版本。你说我在国内，我要用升腾的芯片，那你可以使用UE8M0的这个版本。

为了适应UE8M0这种极限挑战，我要给你打马赛克，打完马赛克了以后你看了以后还觉得爽，这个是对于Deepseek来说非常非常高的挑战。那就需要干嘛呢？做专门的设计。他们在模型训练的时候做了专门优化，一方面呢是进行了混合精度的使用，就是有一些地方用的是比较高精度的，有些地方用的比较低精度的，他们专门做了这样的一个适配。然后呢，也在进行一些叫做累计误差检测。因为你想你把这个地方变成黑白的了，或者变成这种大马赛克了，那你这个误差就会变得很大，特别是需要进行多轮的矩阵计算以后的话，它的误差就会有累积的增加。Deepseek专门有一个设计，就是检测这个东西，如果误差达到一定阶段了以后，我会换一个方式重新来算一下，然后想办法把这个误差规避掉。它通过很多类似这样的手段呢，让这个模型在UE8M0上可以跑起来。

这里就有一个问题，就是不做特殊架构设计的大模型是不能被量化成UE8M0的。你说我现在把Llama 4拿出来，做一个UE8M0的量化行不行？做不出来。虽然大家都是在英伟达的FP16和FP8的基础上训练出来的，但是你前面没有做这些提前的准备，没有在这个架构上做特殊的设计，你是不能去做这种极端量化的。你那个打上马赛克，大家看了就没感觉了。只有Deepseek V3.1打上马赛克，还可以有一定的表达能力。

那为什么别人不用UE8M0呢？它呢，是需要专门修改训练架构，为极限情况进行纠偏的。这个过程呢，其实有点像裹小脚，你是必须从小抓起，等长大了再来的话，他就来不及了，已经长得比较大了，现在再去裹小脚裹不出来了。极大地增加训练的复杂度，而且呢也无法保证最后不翻车。有些人裹的一半说实在太疼了，算了我就放了吧。还有一些人真的是裹了一半完了，还留下一些残疾，最后发现也没有达到人家要求的效果。这个都是会发生的。九九乘法表也是一样，我们专门把一套特别高效的计算方式呢，把它背熟了，只有进行了同样训练的人，他才可以在某些特定领域里头极快速地去给出正确的答案来。刚才我们讲了马赛克、九九乘法表和裹小脚，其实最形象的呢就是裹小脚。

那么国产算力芯片跟UE8M0到底是什么关系呢？H100就开始支持FP8了，B系列呢，开始就是像什么B200这些芯片呢，开始支持MXFP4，它是向这个方向前进的。国内呢，我们是在跟随了。大部分的芯片实际上都是支持FP8的，就是按照英伟达这个路子走的，只是我们比人出的晚。H100是挺早就出来了，咱们大概是2024年、2025年新出的一些算力芯片呢，都开始支持FP8，也对FP8呢进行了一定的优化。

华为升腾芯片呢也是支持FP8的，但同时呢另辟蹊径，搞了UE8M0的这么一个算法出来。华为呢还出了一个叫MindSpore的开源框架，对华为芯片以及英伟达芯片进行全栈的AI应用，从推理到训练，所有的事情他都可以干。他做了这样的一个完整的开源框架。在这个开源框架里头呢，对于华为升腾芯片专门进行UE8M0的这种优化。你用传统的大模型推理框架，比如说PyTorch或者是TensorFlow，它是没有办法对UE8M0进行优化的。所以一旦你拿到的Deepseek V3.1是UE8M0量化版本的，你就只能去用华为的MindSpore。华为自己呢肯定用的是最好的。国内其他的芯片现在也开始兼容这个MindSpore，他们肯定出了芯片需要去兼容现在主流的这些开源框架，包括像PyTorch、TensorFlow，也要去支持MindSpore。他们也会对自己进行UE8M0的优化。比如说像寒武纪、摩尔线程，他们现在测试了UE8M0的计算的话，会比传统的FP8的方式呢效率要高很多，或者叫效率提升明显吧。这也是为什么大家都冲上去买寒武纪的股票。虽然华为是真正整套系统提出者，而且也是最大规模的部署者，但是呢它不是上市公司，炒股票的人就拿它没办法了。Deepseek自己也不是上市公司，炒股票的人拿它也没办法，那咱们就炒这个寒武纪就可以了。

国外的这些芯片像英伟达呀、AMD这些主流芯片，都没有对UE8M0进行优化。他们也可以用UE8M0版本的这个模型，但是呢可能会更慢一些，因为它还要把这些模型搬到内存里头，重新转换成FP8或者是FP16再重新计算，它有一个中间的过程就比较麻烦。但是也不用担心了，你说我现在这个是英伟达的卡，那你只需要去下载Deepseek V3.1 FP8的版本就可以去使用了。

那你说是不是国运？到底啥叫国运？只要带着国家转向都叫国运，还有另外一种可能吗？和国运级的升腾芯片进行绑定，那肯定是国运了。训练呢还是英伟达，推理呢专门为升腾进行了优化。后面呢就要进行道路之争了，中国人比较擅长，这个什么意思？千问、Kimi、MiniMax、豆包、智谱，这些开源模型都没有办法去做UE8M0的量化，因为他们在一开始训练的时候就没有考虑过我后边有可能裹小脚这个问题，所以他就没办法走这条路。你如果说也想去做UE8M0的这个量化的话，你就需要在训练的时候就调整，第一个很麻烦，第二个有极大的失败率。如果这就是未来的方向，那就真的是跟美国这边脱钩断链了，就是我们训练拿你这个东西继续训练下去，但是呢最后去量化和推理的版本就使用升腾了。确实在影响国运的走向，所以呢这个Deepseek V3.1确实是国运级产品。

未来会怎么发展呢？希望吧，股市上折腾一下就算了，大家去买买股票赚点钱，不要去真的影响未来国内大模型的走向。大家还是尽量去跟着国际主流的技术路线去走FP8的这个路线。如果你说我们要继续前进，大家可以想办法向MXFP4的方向去走，不要去走这个UE8M0的方向，这个方向就像裹小脚一样，非常非常危险的一个方向。Deepseek V3.1呢，算是做了一次尝试吧，但如果真的影响了未来国内的模型方向，不是什么好事。

这就是今天要跟大家讲的，希望大家能够听到一些自己原来不太理解的东西吧。好，这个故事就讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

Luke Fan — Tue, 29 Jul 2025 00:57:08 +0000

遥遥领先的华为升腾384超节点，是不是又立功了？

大家好，欢迎收听老范讲故事的YouTube频道。

上海人工智能大会上，有一个镇场之宝，就是华为升腾384超节点。叫这个名字很怪，其实就是华为做的算力超级节点，华为云矩阵。384超节点这个东西，从外边看上去呢，像一堵墙一样，反正摆在厂子里头也确实比较唬人，而且也很昂贵。

很多人就兴奋了，说我们是不是又打破了西方的垄断呢？西方人对我们禁运，不给我们卖英伟达最好的芯片，我们自己造出来了。这个事到底达没达到呢？可以说部分达到了。在集群总的FP16算力上，为什么一定要强调这个？就是它在不同精度上的算力是不一样的。在FP16算力上呢，华为升腾384超节点，是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢？

现在我们去想算力，它是分三个层次的。第一个就是卡，卡这件事呢，咱肯定比不过人家，甭管你是比H100还是GB200，你根本比不过人家。第二个呢，就是叫整机，我是一台服务器。你像AMD呢，就是卖这种东西，就是我一台服务器里头有8个，他们叫MI300这样的服务器。第三种维度呢，就是说我给你卖一整个柜子，像NVL72呢，就属于整个柜子，我把72个H100或者72个GB200这样的东西，装在一个柜子里头，当成一台机器一把卖给你。

现在西方最主要的算力节点，就是NVL72。但是呢，同样的NVL72呢，它里头到底装的是H100，还是装的GB200呢？它算力是不一样的。华为升腾的384超节点，它超过了H100的NVL72的算力，但是呢，达不到GB200的NVL72的算力。虽然在其他方面呢有所欠缺，但是呢，也算是突破了一层西方限制吧。这个欠缺的部分，待会儿我们再去讲。

升腾384超节点，到底是一个什么样的架构呢？一面墙，为什么是一面墙？它是16个标准19寸机柜，这柜子的大小是有标准的。NVL72就是英伟达的，这个设备呢是一个柜子，咱是16个柜子。这个16个柜子里头呢，4个柜子是交换机，因为你这么多设备要拼在一起，你总是需要一些网络交换设备，去支撑它们的。所以有4柜子交换机，剩下12个柜子呢，是装的算力服务器。

每个柜子里头呢，是4台4U的升腾服务器。这个服务器呢，是按1U、2U，大概4U应该有这么高吧，这个就是4U的服务器，4台装在里头。当然它也装不满，这一个柜子里头应该是19U还是多少U，我记不太清了。剩下这空间，你还得放各种的路由设备、交换设备，因为你这些服务器之间，你还要通讯呢。

所以12个算力服务器柜里头，每个柜子里装了4台服务器，每个服务器里头呢，是4个鲲鹏920 CPU和8个升腾910C的NPU。所以呢，他把所有的NPU算一块，就是升腾910C的NPU，算一块呢是384个，这个名字是这么来的，384超节点。它等于是把384个NPU搁在一起，给大家干活儿。

鲲鹏CPU呢，应该是一个兼容ARM指令集的自主IP的CPU。鲲鹏早期的CPU呢，是使用的ARM IP，后来呢，为了防止美国人告他嘛，所以呢，他自己研究了一些新的架构，说我们不再使用ARM架构了，但是呢，它的指令集呢，还是部分兼容ARM的。里边装的操作系统是什么？鸿蒙，里头装的鸿蒙操作系统，但是它是专门给服务器用的。

升腾910C呢，也是一个自主架构，叫达芬奇架构的一个NPU。所谓的NPU呢，叫神经网络处理单元，实际上呢，是一种ASIC处理器。它是自己定制的一个大型集成电路，所以它不是CPU，它有自己的指令集，跟任何的CPU、GPU的指令集都不一样。这个是910C，这两个芯片呢，应该都是7纳米的芯片。但是现在嘛，华为的芯片都搞得神神秘秘的，做了一大堆7纳米的芯片，到底谁做的也不知道，怎么做出来的也不知道，反正就是7纳米的，把这些芯片造出来了。

下一件事是干嘛？就是要通讯。所有的这种算力服务器里头，实际上是三样东西。一个是GPU跟CPU，第二个呢是它的内存，这里头也有HBM内存，它的内存比NVL72给的还多，因为它里头的芯片多嘛，这个装了这么多柜子，咱总要多放一些。第三个呢，就是要通讯，卡跟卡之间是要去通讯的。

像这个NVL72，就是英伟达的这个设备呢，它里头使用NVLink呀，使用其他的一些协议，和一些专门的设备，去让它们进行通讯。不同的卡，它可以直接去调用其他机柜里头的HBM，这种高速的显存。这样的话，它的效率就会很高。拿这个设备去做大模型训练和推理的人呢，就完完全全可以把这一柜子72个GPU，当成一个GPU去使用。里头具体咋调动，你不管了，这个数据到底是放在哪个服务器的哪一个卡旁边的HBM的空间里头，你也不用去管了，它自己去调度去了。而且速度都很快，即使是跨服务器跨卡的这种调度，它不会影响任何速度。这是NVL72处理的方式。

升腾384超节点呢，服务器比别人多，里头的卡也比别人多，人家72个卡，他384个卡。他的通讯呢，肯定是处理起来更复杂的。它通讯呢，使用的是全线光模块，像NVL72里头还是有一部分是铜线的，有一部分是光模块，这个里边全是光模块，堆料堆的非常非常足。这样可以保证呢，这些芯片之间的通讯，服务器之间的通讯效率都非常高。所以为什么这里头，还有4个柜子的交换机呢？那些光模块，有些还是要通过交换机的交换以后，才可以找到下一个机柜里边的服务器，然后在里边找到你需要的地址，找到你需要的数据，才可以把它拉回来。所以呢，它整个的运作方式还是比较费劲的。

当然，光模块多了呢，也有光模块的问题，不是说我们上了光模块就完事了。光模块的问题是发热严重，它里头是个激光发生器嘛，故障率也比较高，这个玩意比较爱坏。还有一个问题呢，就是它的激光发生器的寿命呢，不是很长。所以使用这么多的光模块，它的运营维护成本和稳定性呢，都不是那么理想。

物理上连通了，那下一个问题是什么呢？我就要通过软件逻辑和分配上，我要把刚才我们讲的光模块这些缺陷，要给它处理掉。以前做工程上，有一个典型的故事，叫99米长的枪，什么意思？就是说我这个枪只能打一米远，但是呢，我要打中100米之外的那个鸟，怎么办？作为工程师来说，处理的方式就是造一支99米长的枪，把这个枪伸过去，乓一下，把那鸟打死。这个在工程上呢，并不可笑，在工程上，很多的解决方案都是这样的。

所以呢，升腾384超节点呢，也用了一些软件和逻辑的方式，来去解决光模块不稳定性的问题。它会自动的去判断说，我这不是不是光模块断了呀，还是说哪块出故障了呀，我怎么绕一下。它在每一个NPU外边挂了6-8个光模块，这坏了以后，还有其他路径可以走，我可以做冗余备份吗？

我们用了16倍的英伟达NVL72的体积，和3倍的耗电，来解决NVL72加上H100芯片所能达到的算力需求。这个就是我们现在干的活。三倍耗电这事很好理解吗？人家是5纳米或者是3纳米，咱们这个是7纳米，肯定是耗电发热要比别人厉害。人家是72个芯片，咱们是384个芯片，你比别人耗3倍的电，这个还算是好理解的一个地方。

它的功率呢，是559千瓦，开起来以后还是非常非常耗电的。559千瓦呢，还只是机器的耗电，还没算散热呢。散热加上以后的话，可能会到600-700千瓦之间的一个耗电。为什么这么说呢？升腾上一代做的类似这种东西，大概是10%的耗电量来去散热，比如这边用100瓦的电量去做了算力了，那边用10瓦的电量去做散热，他是这样来去做的。但是呢，这个384超节点，因为里边用了太多的光模块，好像是用了6000多个光模块，那么你的散热的耗电的话，肯定也是要上升很大一块的。散热不好的话，你的激光模块损耗的就会更快一些。它整个的系统完全是强制水冷，其实NVL72也是强制水冷，只是呢，它在一个柜子里，相对来说还比较好弄。升腾384超节点呢，因为在16个柜子里，整整一面墙，你要再给它配水冷呢，这个事费点劲吧，但是还是可以解决的。所以耗电比较厉害。

那么电费呢，中国还是相对来说比较便宜的。中国的工业用电呢，大概是6毛钱一度，其实美国也差不太多，我看了一下美国的平均工业用电，大概是8美分多一些吧，大概也是6毛多钱。美国有一个州电价比较便宜的，是路易斯安娜州，4毛多钱一度电。美国大概最贵的是加州，14美分，大概快一块钱一度电了。加州因为硅谷在那嘛，再加上机房也比较多，所以他那的电特别贵。中国的发电大省，比如说像云贵、内蒙、新疆这些省，如果是集中大规模的采购用电的话，应该可以做到2毛多一度电。按照咱们最便宜的电费，跟美国的平均电价去比较的话，我们的电费是他们的1/3。所以呢，我们耗英伟达NVL72三倍的电，这个也是可以接受的。所以我们依靠电价优势，勉强可以抹平成本。

升腾384超节点的生态如何呢？英伟达之所以可以打败天下无敌手，核心的原因，不是说别人造不出来这样的东西，而是呢，它有一个生态捆死了，大家离不开它。CUDA呀、NVLink呀，这些生态帮助老黄，整个的竞争过程中无往而不利。那你说我们现在做了一个升腾384超节点出来，如果大模型没法在上头跑，也没法在上面训练，这不是白干了吗？你就像英特尔搞不定这个事儿，AMD也搞不定这个事儿是一样的。虽然AMD说我造得出来，你也能将就使，但是你说我要进行大规模训练了，很少有人去选择AMD的设备。

现在呢，大规模使用的GPU其实就是两种。第一种呢，是英伟达的H100、GB200，GB300现在还没发布呢。另外一种呢，是谷歌的TPU。谷歌TPU就是说，反正我自己做自己用，我也不需要考虑兼容性问题，我就自己干了，我也不卖给别人，它的量也很大。另外呢，像亚马逊跟微软呢，都号称是自己要做GPU，特斯拉和XAI也号称自己要做GPU，但是都在号称的阶段，还没有动起来。山姆·奥特曼呢，也号称要跟孙正义一起拿ARM的IP，自己去做GPU，但是这件事呢，也停留在号称的基础上，也没有实际动作。所以现在真正广泛应用的大规模的GPU，就是英伟达和谷歌。这个里头最核心的原因就是生态。谷歌之所以能够大规模应用，就是我不管生态了，反正我自己使，你们不需要跟我兼容就完事了，否则根本没法跑。

咱们说回来，华为升腾384超节点，它的生态怎么样呢？第一个呢，是华为自己做了一个叫MindSpore这样的一个开源的推理和训练框架。你说我现在想用升腾384超节点，去训练我的新模型，你就使用它这个玩意就可以了。它呢，大概可以兼容70%-80%的CUDA指令，但是毕竟不能完全兼容嘛，你如果原来已经习惯了CUDA的编程的话，你可能到这边来去做训练，还是有问题的，你还是要去花时间去做迁移的。另外呢，PyTorch、TensorFlow、Hugging Face Transformer这些框架呢，升腾呢，也专门做了兼容性适配，就是我专门写一个模块，你只要带上我这个模块以后，你这个PyTorch，你的TensorFlow，你的Hugging Face Transformer，这些推理和训练框架，就都可以在升腾的384超节点上跑了。所以呢，如果大家说原来的这个系统，是在PyTorch上跑的，你也不需要再去做迁移了，直接在它这上就可以跑了，兼容性他们都给你测好了。所以呢，属于叫部分的兼容吧。

如果你真的是说我训练新的大模型，建议大家还是不要跟自己找不痛快，还是老老实实的去使用英伟达就完了。但是你说我拿回来做做推理，拿来去做一些后期的使用的话，升腾384基本上是够用的，没有什么太大问题，你只要别嫌它占地儿，别嫌它耗电，这个东西还可以使。

那你说为什么不能拿它做训练呢？刚才不是说它可以训练吗？而且训练的算力也不差。大家注意，训练呢，是一个非常长期的这种连续任务，你中间停了坏了以后的话，你是需要重新干的，你说让他接着往下干，这事很费劲。它里边有大量的光模块，而且这个玩意的故障率很高，寿命也不是很长。你如果跑着跑着出故障了，里头有一个光模块烧了，你的这个训练呢，未必会停下来，因为它通过了一些软件方式，让你去规避这个错误。你可能只是说我训练的过程中，哪一些数据取回的速度变慢了，但是呢，我还在接着往前慢慢跑。但是也有可能跑着跑着就直接出错，咔嚓就扔那了，这个可能性是很大的。

你像马斯克，他自己用的10万块H100，Meta这种几十万块的H100，他们去做这样训练的时候，还经常是说我跑着跑着突然就退出了，突然就崩了。那崩了怎么办？重来一遍呗。对于他们这些平台来说，你可能跑10次崩个两三次，但是你对于升腾384这样的超节点来说，你可能跑10次会给你崩个八九次，这个也许就突破忍受极限了，就没法忍了。他大概就是这样的一个情况，就是有些情况呢，咱们能用了，有些情况还是稍微费点劲的，跟它整个的硬件架构是有关系的，跟它的兼容性也有关。它毕竟没有100%兼容CUDA嘛，所以大家在CUDA上做训练的代码，拿到这边来再跑，还是会有很多问题的。

那你说华为升腾384超节点，最大的作用到底是什么呢？第一个呢，还是给国内算力中心了一种新的选择，否则你没得选，你只能是要么拿自己的卡或者服务器，这种完整可以拼在一起的算力节点，也算是一个工程上的突破吧。信创产业也算是填补了零的空白，因为现在很多是要求信创嘛，所有的必须是自主可控，自主的操作系统，自主的CPU，自主的GPU，所有都要自主的。我们现在迷信这玩意，原来呢，这些人没得选，现在等于是有的选了，也算是一个工程奇迹，就是99米长的枪。这个故事呢，大家别觉得可笑。

H20的库存呢，前面老黄在中国各种的表演之后，算是把他这个库存清了。川普呢，又要带着企业家来访华了，下次谈点什么，大家要想一想。上次黄仁勋是怎么去说服川普，说把H20解禁的呢？是告诉川普，华为的升腾910，已经基本上可以达到H20的水平了，你再不让我卖，我这就没意义了，人家也都做出来了。所以他把H20卖了。现在是华为升腾384超节点出来了，他说你看我这H100，加上NVL72的整个架构的性能，也被人超过了，咱就卖吧。至于GB200这个呢，咱们再看一看，现在它还没达到，不行咱们再把这个摁住了，或者说等我这个GB300出来了以后，咱们再把GB200的这套东西卖了。可能下一轮的解禁就要来了嘛。所以大概率川普老爷子还是比较好面子的，等他下一次带着企业家团队、一对CEO团队来访华的时候，H100的NVL72就可以卖了。

总结一下，升腾384超节点在工程实现上，确实有遥遥领先的地方，有一些敏感单位，可以选择全国产设备了，这个原来搞不定，现在可以搞定了。有很多瑕疵和不稳定的地方，用的越多，迭代越快，改进的呢也就越好，永远都是这样的。第一次拿出来都是磕磕绊绊的，第二版第三版第四版，慢慢就改好了。这个对于突破海外封锁，让美国进一步放宽管制来说呢，是有巨大作用的。如果是商业公司，哪怕你去选择H20，也比选择升腾384要划算。如果你不着急的话，可以稍微等一等H100，我相信H100在今年可能很快就会解禁。如果后面美国进一步放宽管制的话，英伟达的股票大家可以再关注一下。董王呢，是一个好大喜功的狡诈商人，黄仁勋也是。变化应该就在不远的将来。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友，加入我们的付费频道。再见。

小米玄戒O1“CSS套餐”风波全解析：四年研发投入、自研ISP与NPU，能否洗刷“拿来主义”质疑？对比华为、苹果、三星的芯片之路。

Luke Fan — Tue, 27 May 2025 01:08:00 +0000

小米玄戒O1芯片被ARM官方给背刺了。这到底是不是一个定制的套餐项目呢？

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲ARM官网背刺小米玄戒O1的事情。我们这里指的是ARM国际的官网，不是ARM中国的官网。它呢上面发了一篇文章：《小米玄戒O1定制芯片，由ARM计算平台赋能》。这篇文章呢5月22日上线，也就是小米雷军5月22号开发布会以后，他就直接上线了。那就是来表功的嘛，说你看小米玄戒O1做出来了，我好厉害，在我的帮助下他做出来了。

但是马上就引起了网上舆论的抨击，说小米玄戒你压根啥也没做，你原来是用的ARM的这种定制套餐。你到底投入了没有？你到底研发了没有？这个声音一出来以后，小米只能是说：我这真的是自己研发的，我花了好多好多钱研发的。那ARM也没有任何办法，到5月23号直接把这篇文章删了。这就是咱们今儿要讲这故事的开头。

那么这个里面到底讲的是什么呢？这个里边备受争议的东西呢，叫CSS模式。ARM呢，出了一个叫CSS模式的套餐，叫ARM computer subsystem，这是ARM计算子系统。这个套餐是干嘛使的呢？它相当于是你去饭店点菜，但是你又不知道该吃什么，干脆说我这有套餐一、套餐二、套餐三。你点完套餐以后，不够吃呢，你再在套餐的基础上稍微增减增减，这样他不太容易翻车嘛。上来先问您几个人吃？哦，5个人吃，预算多少？问清楚了以后您看哦，我们这有一个专门给5个人吃的套餐，还便宜。但是ARM套餐贵，这个待会咱们再细讲。

现在很多人说小米，你是不是选了一个这样的套餐出来呢？其实挺多人都用的。比较典型的就是亚马逊的云计算服务器就开始用。它这个套餐呢分两大套：一套呢是服务器用的，就是各种云计算厂商去买他们的套餐。现在我们知道亚马逊、微软，谷歌，国内的阿里云，他们呢都喜欢自己做芯片。这样我就不需要去买别人的芯片了，而且我自己做的芯片呢，我也相对来说比较好控制。这些云计算厂商呢，自己其实没有什么芯片设计能力，他就直接跟ARM合作，说来给我把套餐上上，我就要这个套餐，你给我做去。

另外一个套餐呢叫客户端套餐，叫CSS client。CSS客户端套餐就是给手机用的。小米玄戒O1的这个配置呢，就是当前的一个套餐。而且这个套餐呢，是2024年4月份推出的。小米呢2025年的5月份，就把这个芯片拿出来了。这个套餐包括什么呢？就是你要选多少个核心。

甭管是小米、华为，包括是谷歌的手机，都是说我这里有多少个核，多少个大核，多少个小核。你选核的时候呢，你就要向ARM去交钱去。ARM拥有所有这些核心的专利权。你首先你要去选这个核心，他里头给你配好了，说我这个是几个大核配几个中核，配多少个核，或者说我是什么全大核。我给你配好几套，你不要上哪说我喜欢最大的，你都给我配最大的，或者说我喜欢最小的，你都给我配最小的。那样配会出麻烦的，你还是按照我们给你配好的，直接搭配就完事了。

选完了核心，把这个核心的专利费交了以后，再去做一些辅助相关的设计。那你说我选完核心，我最后拼不到一块怎么办？ARM还给你派人来，我给你派团队入驻。你要是选了CSS套餐的话，ARM会直接出200个工程师，派驻到你的办公室里去。来这200个人跟你一块干活，帮你把芯片设计出来。他是这样来去工作的。

而且呢，很多人说我还要稍微改一改，就跟吃套餐似的。比如说，我们四个人点了套餐了，我说我这可能还想再多加个红烧肉，这里头有个爱吃肉的。那ARM会干嘛呢？我帮你辅助验证一下，这红烧肉是不错，但是呢，放糖放的太多了。类似这样的问题，它能帮你去辅助的去做测试，把一些坑呢提前给你填掉。你别回头说我就喜欢吃红烧肉，我就要点一个红烧肉上来，让大家吃的不开心。这个不能搞，所以他还有一个叫辅助验证的服务。

这个东西都做完了以后，还包一个什么服务呢？台积电3纳米制程。你说你把这东西都选完了，选完了以后说，我最后上三星去制备去行不行？或者我在国内找一个芯片厂，去制程行不行？别费这劲。你这些东西都选完了以后，我连最后的台积电3纳米制程这个东西，我都一块打包卖给你。这个东西听起来是不是很熟悉？是不是就是小米的这套东西？

CSS的这个模式呢，可以极大的缩短芯片研发周期，降低芯片研发的成本。整个研发的过程中，大概是能够降低30%的成本。而研发周期的话，据说是最短可以缩短到13个月。就是我现在立项要开始研发芯片了，十几个月我就可以做出来。原来你要研发一个芯片，要好几年的芯片。这个东西更新又那么快，你研发了好几年，等你拿到这个成品芯片的时候，都过时了。现在呢，13个月你可以把芯片做出来。

这种基本上一年多能够拿出芯片，有一个特别大好处是什么呢？就是你不会差代数。你看着比如说高通出了什么样的芯片了，那我就要求在这个基础上，跟他对标出一款芯片。还可以在他明年发新芯片前后，拿出一个我自己的芯片来。

他是可以去竞争了。要原来的话，你就没法竞争。你比如你研发一芯片三年，你看着高通这芯片不错，我对标他最好的芯片，我去做去了。等你做出来的时候，人家更新两代了，这就没法打了。

所以呢，这个CSS呢，在当前的这种形势下，还是非常有价值的。而且你要选了CSS的话，ARM也可以多收点钱。原来是说我只要点一个一个核，点完了以后，我自己把它们汇在一块，装在一芯片里去，剩下事你都甭管了，我全自己来。这个是ARM要收一笔钱。这种钱呢，ARM一般是会收你芯片售价的3%到5%作为版税里头。这个核心是我设计的，你用了我收3%到5%。

但你用CSS之后呢，我还派200个人去帮你去调整了菜谱，以后我帮你去做验证，我还把后头的制程都给你做完了，还让你一下就缩短到十几个月，就可以把这个芯片做出来。那他要多收一点钱，他们会收8%到10%的版税。ARM也算是多有一块收入。

除了这几块之外呢，它还有一些工具链。就是你使用了ARM CSS以后，它有一些工具软件你需要去使用，这个也是需要一些授权费用的。那你说小米到底有没有用CSS呢？首先小米不承认也不否认，他也不上来说我没用，也不上来说我用了。他只是强调什么呢？说你看我自主研发花了好多钱，做了四年，我这个里边的ISP，也就是影像信号处理和NPU，也就是AI的核心都是我自己设计的。他反复在强调这个事情。

但是呢，他也不会否认说我就没用。ARM呢，也没有明确说，小米的玄戒O1就是我的CSS客户。他只是说ARM计算平台赋能了，我出力了。最后呢还把文章删了。当然我觉得把文章删了这个事呢，稍微有点此地无银三百两的感觉。对于ARM来说呢，脸可以不要，但是钱我是要的。如果小米这个案例跑通了，大家都照这样来，我们还是非常非常欢迎的。所以你们再来了以后，我绝对不再邀功了，你只管交钱就完了，剩下的都是你们自己功劳，都是你们自主研发的，跟我没关系。

小米玄戒O1的方案呢，本身就是ARM CSS标准套餐，包括台积电的3纳米制程，都是套餐的一部分。ARM的这个CSS，特别是ARM V9.2的CSS，套餐里头一共是三套。第一套呢是普通版，第二套叫Pro，第三套呢叫Max。基本上跟小米汽车那是一样的。它的普通版呢叫三重集设计，这三种核心把它凑在一起，主要是用于中低端手机的。这个呢版税是抽8%。而Pro呢是四重集设计，就是四种芯片里头呢一共是十个核心。

再加上它这个immortalize G925的GPU做系统级缓存支持。这个十个核心在一起，也就是2+4+2+2的配置，主要呢是用于旗舰手机和AR设备。小米实际上用的就是这个方案，用的是套餐Pro。当然还有一个套餐Max叫旗舰版，那个是14个核心的，主要是在AI、PC和自动驾驶上用的。Pro版呢抽的版税是9%，Max版抽的版税是10%。反正你选的东西越多，我抽的版税比例就越高，它是这样的一种抽成方式。

小米呢只是在里边加了几样东西。第一个呢是ISP，就是影像处理模块；第二个是NPU，AI的算力核心；第三个是什么呢？是专门设计了一个外挂的电源芯片。这几天也有人把这个小米15S Pro给拆开了，发现呢里头写着玄戒，也就是X Ring的这个芯片有俩：一个呢是O1，还有一个呢是一个电源芯片。

为什么单独给它加一个电源芯片呢？原因很简单，就是为了提升超大核的主频。原来ARM的这个标准套餐里头，比如说人家也有红烧肉，但是咱们坐在这点菜，点完了以后说这红烧肉是个硬菜。但是我们一堆大老爷们，都特别爱吃红烧肉，你需要给这红烧肉分量做大点。您原来这红烧肉可能就4块，我们这虽然四个人吃，但是呢，我们特别爱吃这菜，您给上8块行不行？大概干了这么个事。

小米玄戒O1里边用的这个超大核呢是X925，它原来设计的主频呢是3.6G赫兹。小米觉得不够，我要把这个提升一些，提升到3.9G赫兹。这样等于它的超大核的运算能力要比CSS提供的标准版要稍微高一些。单独设计一个电源芯片给它供电，让它有更高的电压，以更大的频率去干活去。

当然这个到底有没有用不好说，因为也有人去测试了，就是用小米15S Pro去跑原神，跑一些很大的游戏，发现即使是跑到60帧，跑满了最高画质，它这大核压根就没工作过。剩下的这些核心其实已经足够强了。到底什么样的情况下需要把这个3.9G赫兹的X925的这个超大核跑起来，大家还在寻找，也希望有更好的游戏，更耗资源的游戏出来，能够把它这个算力给它用起来吧。

那你要单独做这些个事情，特别是你要去赶人主核的这个核心的时候，赶人主核的频率的时候，那需要干嘛？刚才咱们讲了单独付费，人家要帮你去做验证。据说小米玄戒O1改完了这个东西以后，大概做了接近1,000次、900多次的这种反复迭代验证。你改完了以后发现，跑快了以后，跟其他的核配不上了，或者还有些其他的问题，发热了什么的。

反复得试这个东西。这个过程，ARM收钱。2024年的4月，CSS client正式推出。过了13个月，玄戒O1就问世了。官网还在小米发布会的当天发文庆贺，只是呢，马屁拍在马蹄子上了。这个文章只存活了一天，就直接被删帖了。

我还记得当年微软的人跟我讲过一个故事，说什么呢？说国内很多公司都通过他们去订购OpenAI的服务。因为OpenAI，你是可以通过国内微软云去订购的。但是定完了以后呢，他专门需要签一个保密协议，说我是定了，也花钱买了，而且花了很多的钱。但是呢，这个你不许出去说去，也不许出去宣传去。我是自主研发，自主知识产权，走这个民族自主创新的这条路。我去定OpenAI服务这事，我丢不起那人。

所以我觉得小米呢，在这块还是经验不是很丰富吧。ARM在这块的经验呢也不是很丰富，上来邀功，结果拍马屁拍马蹄子上了。那你说到底有哪些芯片是CSS，哪些不是？现在有这么多的芯片在市面上跑，因为大家底层都是ARM，包括苹果的a系列的芯片，m系列的芯片底层也是ARM。高通还有像麒麟这些下头都是ARM。那到底谁是谁不是？

现在呢，有独立设计能力，不需要走CSS，自己完全可以搞定的人有一些。第一个就是高通，完全自己搞定了，自己设计架构，自己做一大堆专利。第二个呢是苹果，苹果的a系列芯片跟m系列芯片都是苹果自己独立设计的，跟ARM没什么关系。第三个呢是谷歌，谷歌呢是它的服务器芯片叫TPU，它的手机芯片也叫TPU。因为它的那个计算核心呢，叫做Tensorflow的这个计算核心，就是咱们讲的什么GPU、NPU。TPU实际上干的都是同样的活，NPU是这个神经网络的核心，GPU是图像核心。但是现在有些芯片里头是既有GPU，也有NPU。像谷歌呢，它最后叫tenser，它叫TPU，所以做的东西实际上跟NPU干的活是差不多的。谷歌呢是完全自己设计的，不需要走ARM的这条路。反正谷歌这帮工程师是比较骄傲的，丢不起这个人。

你说有没有人说我原来是CSS，用公板设计，后来呢，我逐渐的转向独立设计的呢？也有，华为的麒麟海思就是这样。它早期出来的芯片呢，基本上是用公板设计。虽然那个时候还没有一个服务叫CSS，但是呢ARM肯定也是提供相应的支持的，也是说你愿意多花点钱，人家愿意多给你提供一些资料。但是后来呢，因为众所周知的原因，华为呢就只能自强不息了，所以他后来改成自主设计了。那你说有没有这个？

从公版转向独立设计，最后玩不下去又转回去的呢，也有。就是三星的Exynos，这个芯片就是现在三星的旗舰芯片。它最早走的就是ARM的公版，后来呢，三星说我很厉害，我要自己开始设计独立的IP了。整了一大堆的这种自己的核心，上去转了一圈以后发现不大好使。这两年呢又回去了，说我接着用CSS吧，我接着用公版吧，自己设计那些东西都扔掉了。

三星其实干这种事干的挺多的，他自己做的操作系统，自己做的芯片，都是转一段时间以后，发现没有原来那好使，然后就放弃了，就不愿意坚持下去。

现在比较明确的CSS用户，第一个呢就是联发科MTK的OPPO、vivo的手机里头用的这种联发科的芯片，叫天玑9400、9500。他们呢走的就是Pro版，实际上就是跟小米玄戒O1走的是同一个套餐。

云计算厂商现在基本上都是走的CSS的这个架构，包括亚马逊、微软跟阿里。刚才讲了谷歌的云是自己设计的，没有走CSS，但是其他几个走的都是CSS。小米玄戒O1呢属于不承认不否认，删帖不能说，大概就是这样的一个状态，反正大家自己心里明白就好了。

小米呢，当年是出过这种事的。当年小米的空气净化器就深陷抄袭丑闻。2014年12月9号，小米发布了首款空气净化器，售价899元，一下就卖爆了。但是呢跟巴慕达就发生了类似这样的事情。

巴慕达实际上是个日本的品牌，但是它叫巴慕达嘛，所以当时很多人说你是个印度品牌。当时我们都说小米你抄谁不行，你抄个日本，抄个美国，你抄瑞典的Blueair都行，你咋去有脸抄个印度品牌呢？

巴慕达呢是在2014年的1月呢，推了一个叫Air Engine的一个空气净化器。这两个净化器非常非常的像，都是这种小方柱造型，塔式结构。因为对于空气净化器来说，它的整个的架构都很简单，就是一个电机，一个风扇，一个风道设计，再加上一个滤芯。

像他们这种塔式的呢，就是风扇在底下，滤芯呢是一圈在外头。我把这个空气吸进来，顺着一圈的滤芯把它喷出去，能够实现过滤的效果。实际上它就是这样的一个架构。剩下的可能就是电器的一些控制，智能控制，再加上激光的空气质量测量器。

小米里头这个激光空气测量器的传感器，他那个厂家也是小米自己投资的。那个厂家的另外一个投资人就是猎豹移动，当时是我去做的这个案子。巴慕达强调小米产品在外观设计、内部构造和宣传文案上都存在抄袭，而且呢强调了说，巴慕达已经在中国和日本都申请了相关专利。

这两个机器呢，大小尺寸稍微有一点差别。小米那个机器好像稍微大那么一点点。

它里边的滤芯呢，滤芯实际上是张纸。小米那个应该叠的稍微多一点，多叠了几折。因为雷军在这点上他是很明白的，就是说这个滤芯铺开了以后，面积到底有多大。我如果比你大一些呢，你就会觉得我这个更划算一些。这个比较能够适应屌丝心态吧。

因为滤芯都是3M的，没有第二家。你要说我这个滤芯不是3M的，这个一定是不好的。所以一定上来说我是3M滤芯，把它叠的非常非常紧。所以这个滤芯的展开了以后，表面积巨大。

两个机器的一些很细节的地方，有一点小差别。比如说小倒角，你这个倒角大一点，倒角小一点。因为它虽然是一个立方的这种柱子，但是呢，外边是有圆形的倒角的。小米跟巴慕达，还是稍微有点点小小区别的。

但是巴木达这事呢，后来也就不了了之了。原因也很简单，他那个机器卖5,000块钱一台，小米卖899。那你这玩意咋弄，你就根本没法整嘛。

而且巴慕达当时出来告小米说，小米空气净化器的研发总监叫大本熊野，曾经就职于巴慕达，在2014年5月离职了。然后跑到小米去，给人做空气净化器去了。巴慕达的空气净化器是1月份出的，5月份这哥们离职去小米了，小米的空气净化器是12月份出的。那你这个承上启下说的很明白嘛。

这个事情呢有一点点瓜田李下，说不清楚了嘛。所以巴慕达呢，也质疑大本熊野违反了竞业协议。最后的结果呢，就是外观专利本身也不是那么牢固。你要真的想在这个上面申请一些发明专利，是挺难的。因为它就是一个结构外观和实用新型，它就是你的结构设计稍微有些变化，就可以申请专利了。你申请再多专利，它的专利牢固性都非常差。

第二个呢就是巨大的价格差。因为那个巴慕达卖5,000吧，这个小米卖899，导致销量跟传播能力完全没法比。最后使这个案子就不了了之了。

小米呢，为了这个事情，肯定也是承受了一定的损失。因为有人去骂他，说你抄袭这个事了，对于这个人设还是有伤害的。虽然他通过不承认不否认的方式，最后把这个事给拖过去了。但是对于小米说，费了这么半天劲准备的一个产品来说，还是有影响的。

小米真正擅长的从来就不是技术研发，这个早就讲过了。好多人还说我是米粉，只要小米做的东西都说好。你们听完这集以后看看什么感觉。小米真正擅长的是什么？叫产品定义、品牌运作、供应链管理，以及呢叫极致性价比。

所以呢，你们看看这一次CSS这个风波，大家就可以理解小米按照他过往的这个调性。

他必然会去选择一个可靠的方案，实现自己的芯片。ARM的CSS模式呢，也是对现在芯片市场的一个重要战略调整。

现在的全球手机芯片市场，基本上是叫高通一家独大。而且高通呢，还有极强的不臣之心，他老惦记出去干点坏事去。其他厂商呢，你想竞争，你也竞争不过高通。这个相当于什么呢？ARM是个老皇帝，高通呢是大太子。大太子呢，惦记着说分家另过，其他孩子呢又不太争气。说了算了我扶各位一把吧，你们可以去跟你们大哥竞争一下，让你们大哥也知道知道谁现在还在台上呢。CSS就是这么来的。

所以大家呢，现在都可以有自己的芯片了。中间的坑，ARM都给你填平了，你们只管上就完了。因为做芯片这件事，最大的坑是什么？有人说这个最大的坑是不是3纳米？没有，我这把3纳米这个给你打包，打在CSS里头了，算套餐的一部分。那还有人说，这个最大的坑是不是技术设计或者巨大的成本？都不是。

做芯片最大的坑是时间。研发周期过长，投入成本过高，导致你研发出来的芯片直接就落后了。因为你芯片不可能说一次就做成嘛。你芯片做出来以后，发现有一些兼容性问题，那你可能就需要返工再来一次，你整个的这个研发过程就再拉长了。因为芯片就真的是应季蔬菜，过了季你就没法卖了。

现在大家卖3纳米，可能到明年大家就卖两纳米了。到明年出两纳米的时候，那么CSS的这个方案里头，就一定会捆绑两纳米的一块给你。它是这样的一种工作方式，所以它可以帮助大家呢，把巨大的不确定性，也就是时间成本给大家省掉。

在这个过程中呢，ARM也多挣点钱，手机厂商呢也可以摆脱对高通的依赖。新的芯片对于ARM的依赖程度呢，也更高一些，就很难再自立门户了。其实现在类似这种服务呢，不光是ARM在做，高通跟AMD也在提供类似这样的服务。

你比如说有一些大厂商说，我现在需要一个芯片。那高通说你干脆别找ARM去定做了，我给你定吧。你提各种要求，我帮你改不就完事了吗？我在高通的架构上给你改。AMD也干。

小米玄戒O1到底是不是CSS这件事呢，其实并没有那么重要。小米没有承认，ARM也没有指明。所以呢，我们也不能说一锤定音，说它就是这个，没有任何意义。你现在就说他是的话，肯定属于叫与基本事实不完全相符，属于造谣传谣的这个范畴。所以我们也不能把这个事就下个结论。

即使小米玄戒O1是ARM的CSS，也没那么大关系。为什么？就真正敢干这个事的人也没几个。你就算是你使用了ARM CSS，你也需要一年的时间。

把这个芯片做出来，你也需要投入巨大的资金。虽然可能比你从头做要稍微少一点，但是投入的钱也是非常非常大的。而且这个钱投进去以后，一年之内都回不来本，可能两三年都未必能回本。愿意承担这种风险的企业没有几个。

现在能够有自己芯片的手机厂商，或者现在能够做出来的手机芯片，一共就这几个了：苹果、三星、小米、华为、联发科跟谷歌，没了。其他的手机芯片就算能做的出来，没有手机厂商敢用，所以就这些了。小米能够跻身其中已经非常厉害了。OPPO、vivo这些品牌现在还是在跟高通、跟联发科在折腾，自己做的成本和风险还是不敢去承担的。

小米的生态是手机带起来的。“人车家”生态就是他有手机、有汽车、有全套家电的这种生态。在这种投入下，才敢去说我们赌一把。因为他一旦说我的芯片是自己做的了，他的手机就可以有很多人去买。而且这些买家电的人、买车的人，小米都可以自己做芯片了，我要去买他的家电，我要去买他的车。

而且他还不像其他的这些自己做芯片的厂商似的，自己做出芯片来，我这手机要卖的贵一些，我这个车要卖的贵一些。小米不，小米说你看我自己做出芯片来了，我的手机和车都卖的好便宜，你买吧。他是这样的一个套路。所以小米在这样的战略下，他投入了一场豪赌，做了自己的玄戒O1的芯片。

至于其他的手机品牌呢，现在基本上算竞争结束了。你现在说再出一个完全新的手机品牌，已经不太现实了。我们现在知道的一些稍微小众一点的品牌，实际上都是这种大厂的子品牌。下边的竞争要看汽车、XR和这个AI了。这一块呢，可能类似这种CSS的竞争会更加激烈，更多的厂商会去选择CSS模式。

今天讲这个呢，就是告诉大家不要太去纠结谁的芯片是CSS的。即使是CSS，这事也没那么容易。而且大家以后可能就见怪不怪了，时间长了以后发现，大家都是CSS，谁也别说谁了。这个才是一个相对理性一点点的心态。

好，今天这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友，加入我们的付费频道。再见。

NVIDIA收购Run:AI后立刻开源，到底意图为何？商业巨头全球战略再掀波澜！

Luke Fan — Sun, 05 Jan 2025 00:40:06 +0000

英伟达收购了一家软件公司，叫RunAI，转手就把它收购的软件公司产品直接开源了。这到底是想要干什么呢？大家好，欢迎收听老范讲故事的YouTube频道。

还记得前面英伟达接受中国反垄断调查那个事吗？就是当时他收购了一个网络相关的公司。当时收购的时候，大家提出了条件，说你收购了以后不可以去进行捆绑销售，不可以说你必须要选择英伟达家的产品，选择你们家收购的这个网络产品，必须要有这样的承诺。但是最后承诺并没有实现。所以呢，现在英伟达在遭到很多国家的反垄断调查。

那么这一次呢，整了个RunAI，一个以色列的软件公司，上手就开源了。他到底想干嘛？是不是为了避免这种反垄断调查，还是为了什么呢？这个咱们今天解释一下。

首先要说一下RunAI是干嘛的。他呢是以色列的一个公司，专门做GPU调度的。你说我一个GPU都没有，或者只有一个GPU，有啥可调度的？对，这事跟你没关系。你说我这个机房里头有1万块GPU，我需要对这个GPU进行调度。这回你去算这个任务，下一回你去算另外一个任务，他要干这件事情。

那你说这玩意还需要个软件吗？我们把GPU插上使不就完了吗？可没这么简单，GPU调度呢，还是非常有必要的一个工作。首先大家要思考一下，1万块GPU搁一块到底是怎么使？它不是说搁盒子里，你得把它插电脑里，插在服务器里头以后，我们在每一个服务器上装软件嘛，肯定这玩意是不行的。

跟大家举一个稍微形象一点的例子吧，这个算例中心的服务器有点像拍戏的摄影棚。拍戏摄影棚长什么样？给他搭各种各样的布景。你这边拍完戏以后要干嘛？赶快把这布景拆了，换下一场戏的布景上去，再去拍下一场戏。张三，你要拍《霸王别姬》，你到哪去拍去？后边一个你要拍什么什么东西？《霸王别姬》那个一会拍完了，你上他那去，把那个影棚拆了，然后去把你的东西布上。这个玩意就叫做演播室调度，或者摄影棚调度。GPU调度其实干的也是类似这样的一个活。

就是每一个人说：“我现在要上算力平台，去训练我的模型了，去微调模型了，或者做推理去了。”这个时候要干嘛呢？也是一样的，就是我们有一个环境，我应该先去部署什么操作系统、什么数据库、什么样的大模型、哪些数据。部署完了以后呢，说“123，开跑”。那怎么能够让它跑得快些呢？很简单，就跟刚才咱们讲的这个摄影棚的故事一样。

首先呢，你要写一个大的本子，这个脚本是说我们应该先部署这个操作系统。部署完了操作系统以后，再去做什么什么事情。你要照这个本执行下来。对于这个算力服务器来说，他也是干这么个活。你说我们现在要去部署一个新的任务了，怎么办？先找一台空的服务器，这个服务器是现在啥都没有的。然后上来说：“这是一个明朝的戏，咱们现在赶快把明朝的布景都放上。”这个是个卧室，咱们把这个床、桌子、椅子什么都放上，这是应该是结婚的戏，赶快铺上红的。他就是这样的一个过程。

铺好了以后，说“321，咔，开始跑”。他就是整个的调度。你说我现在拍摄的这个房间现在不用了，那我需要把东西收起来，也不是说咔嚓都给人砸了就完了，还是要做正确的数据回收。哪些东西我们要回收回来？这次这个演员拍戏的时候写了个字，我们得把这字收好了，下回再拍戏的时候得把这字铺在这，你可以接着写，还是怎么怎么样。

还有很多这样的事情，像我们去训练大模型也是这样的。我这头环境部署好了，任务开跑，跑完了以后呢，你要正确的把信息回收回来，然后呢再说：“OK，现在这个服务器归还到池里边去，重新清空。”下回你谁在用的时候，可以直接在这个服务器的基础上继续去使用它，是这样的一个过程。

GPU调度呢，实际上也是干类似这种事情。GPU调度呢，他自己还做了一个叫AI control panel的东西。像我们使用云服务或者使用各种云端服务的时候，经常会遇到这种叫control panel，叫控制板。什么意思呢？就是一大堆开关，一大堆状态，相当于是我们，比如说开飞机。

面前是一大堆的开关，一大堆的仪表。使用GPU云服务，或者说算力中心的云服务的时候，它也是这么一大堆东西。你要去说这个任务需要在什么时间点上线，什么时间点下线。上线之前部署哪些东西，下线之前回收那些数据。然后，下一个任务怎么去排队，你要搞一大堆这样的事情进去。

你要设置很多的开关，设置很多的仪表，说这个数据跑到什么样的程度了，GPU的温度怎么样，GPU占了多少百分比了，CPU占什么样了，硬盘什么样，内存什么样。也有一大堆的图表在那看着。这呢，叫control panel。RunAI呢，就做GPU调度，提供这个AI的控制面板，这就是他们干的活。

目前，RunAI只支持英伟达的显卡。你说我Intel的显卡，或者是AMD的显卡，或者咱国内说升腾910的显卡，这个人家不支持。就是这样的公司，被英伟达好几亿美金给买下了。具体钱其实没有公开出来，因为里头有很大的一部分是英伟达的股票。而英伟达的股票呢，又快赶上比特币了，非常不稳的那个价格，上蹿下跳的，但最近主要在蹿。

所以呢，他这个具体花了多少钱买，这个不确定，肯定是几亿美金了。而且呢，这公司只有150人，这帮人肯定是年前吃了鸡腿了。那你说英伟达这样的一个公司，他为什么要买RunAI这么一个项目呢？他是不是也跟咱们前面讲英伟达垄断案里头那个网络设备供应商，他有巨大的垄断地位，占了非常非常高的市场份额呢？

这个事呢，其实RunAI在整个的算力市场里的占的份额是非常小的，并不大。这个可能跟很多人的想象是不一样的。GPU调度这个事呢，重要吗？肯定重要，因为这玩意儿贵。而且GPU随着英伟达快速的升级，你一旦买回来以后，哪怕你不用，它的这个价值也会在快速下跌。所以大家都希望说买了GPU以后，你一定要把他们都排满了，都给我干活去，家里的这个大牲口不能让他闲着。所以GPU调度这个事本身是很重要的。

RunAI市场上占有率又这么低，那英伟达你买它的原因是什么呢？大家要注意，现在我们去做这个算力中心，去做这个GPU调度，其实是有两个大的阵营的。一个阵营是什么呢？就是传统的云计算厂商，比如谷歌、微软、亚马逊、Oracle，国内的什么百度、腾讯、阿里、华为，这都属于大的云计算中心。他们自己是有很多的算力卡的。那么这些人呢，他是不会使用RunAI的，他们一定会自己去写一套这种系统，去管理自己的这个算力卡。为什么呢？就是你在这种云计算中心里头，他自己需要对自己的机房进行统一的控制，进行统一的镜像上架，或者是这个服务器怎么下架，他一定会统一的有一个规范来管理这事。

有点像什么呢？还是像刚才咱们讲这个拍电影的故事。你这是一个横店影视中心，你说你会去用一个外边人来去管理，说我给你提供一套规范，我们来管理这个所有的拍摄棚？不会的，人家一定会自己整一套的。所以大的这种云计算中心是用不着这玩意了。

云计算中心还有一个问题是什么呢？就是他们呢，都在尝试逃离英伟达的控制。谷歌自己研发了自己的TPU，Tencent Flow的处理核心，它叫TPU。微软自己也跟ARM一起做了一些自己的算力卡，亚马逊也做了类似这种东西。国内那就更是五花八门了，还有升腾910这种奇怪的东西在里头。云计算服务商呢，他们就会尝试把这些乱七八糟的卡都运行起来。而你像RunAI这种，就是我只支持英伟达的，你肯定就没法使了嘛，他就是这样的一个情况。

除了这些云计算中心之外，还有谁干这个事呢？就是需要整大量的算力卡来进行调度呢？就是还有一些银行、保险公司，或者是一些做自动驾驶的这种创业公司，比如说Mobile I，那也是一个以色列的公司，他也需要大量的算力卡自己去处理。因为对于他们来说呢，你去买云计算中心的这个算力，他比较贵。大家要知道云计算中心的逻辑是什么？它逻辑是说，我的所有设备是有开机率的，比如说开机率70%。

那我向大家去收钱的时候，我就一定要把这个空闲的、那个机器的钱收回来。如果我现在只是临时用一下，我又并不是说自己长期使用这些机器的话，那我自己去买一台机器这个事是不划算的。我租云计算服务中心的这个，是划算的。但你如果说我自己买了一堆显卡，我每天24小时、一周7天，我都不让它闲着，都好好干。那这种情况的话，你去租赁预算中心的那部分，就不划算了。因为你要为这个空闲的这部分去付钱。哪怕说我这个付完钱以后，一直都在一天24小时开机在算，但是云计算服务商还是会找你收这个空闲钱的。

所以很多的这种自己有密集运算需求的，这些甭管是创业企业，还是传统的企业，他们都会自建算力中心。但这些人，他们主要就要用这个RunAI了。英伟达现在希望呢，就是在这种自建GPU算力中心里头，可以提高占有率，可以一统江湖。这就是他去收购这个RunAI的一个原因。说在这个云计算公司里头，谷歌里头肯定也买了大量的这个GPU英伟达的，但是谷歌肯定自己也去找AMD去定制，也会去找其他人去定制，它是很不忠诚的。

但是这些小一点的自营的算力中心的话，他们要求的是什么？他们要求的是简单、省事、稳定、可靠。所以这种情况下一定是买英伟达的，绝不会去买一些奇奇怪怪的。你比如说我去买AMD，AMD你说算奇奇怪怪吗？但是你要去做AMD部署，做AMD的整个的调优协调的话，你肯定遇到的问题，要比使用英伟达那个多得多的。因为英伟达都给你设计好了，而且大部分人都在用，百分之七八十的占有率。

所以在这种情况下的话，哪怕是说你一时半会搞不定，你找人问去，你都能问得来。你要用AMD的，你出了点什么问题，你都不知道该问谁去。所以云计算中心之外的公司，他们会尽量尝试使用英伟达的系统。云计算公司的话，他们就有用英伟达，但是也都会有些三心二意，能够便宜点，咱肯定还是便宜点，能够自己整一个GPU，咱就自己整一个，自己写一套软件，把所有的这些。

甭管是GPU、TPU什么这些东西，都给你统合起来，让它能跑起来。这是这个云计算公司的一个想法，我们解释清楚了英伟达为什么要去买RunAI。那你说收购了以后就开源了，这是一什么神仙操作呀？你收购了以后，咱卖这东西呢，还卖便宜点，咱们慢慢的一统江湖，跟人打不就完了吗？你这开源了，你这个几亿美金不就白扔了吗？对于很多中国的老板来说，你图啥呀？

大家要注意，第一个，英伟达现在肯定树大招风，他们呢，现在去做任何的收购都会受到全世界各个国家的审查。你说我开源了，这事你就没什么可查的了吧？我保证英伟达把他买下来以后，不会用RunAI来去捆绑任何用户，这个也是让他能够顺利完成收购的一个前置条件了。而且呢，在开源以后，别人就可以在系统上搭建AMD和Intel的这些支持。

RunAI一开源，虽然它原来只支持英伟达，但是现在呢，大家拿着原代码就可以去改去了。说我现在把AMD的、把昇腾910的、国内摩尔线程的，把这些模块都接上去。我觉得这个真的是针对中国的，怎么说呢，算是个胡萝卜吧，这个糖衣炮弹。我们以后就可以把自己的什么升腾910、什么摩尔线程，把这些东西通通都挂到RunAI上面去进行管理和调度。在这种情况下，RunAI就可以快速的干掉其他的竞争对手。

原来比如说我们使用摩尔线程，我搞不定，RunAI不支持，那我就要自己去写这个东西。其实你也是到套用一些其他的开源系统，在这上面再修修改改，这事就比较费劲。但你说我使用RunAI整套的，我只需要把摩尔线程的驱动挂上就完了，那我就可以在国内用这玩意了。

那在这样的一个情况下呢，英伟达公司买下来的RunAI跟其他竞争对手比起来，有一个巨大的优势是什么呢？就是你对英伟达的显卡肯定支持的更好。因为你一旦成为自己的公司了，很多内部的代码、内部的这些协议就可以看到了。你跟这种在外面的、不是英伟达内部的公司去比较起来，你肯定更了解英伟达的显卡怎么回事。

RunAI再去跟其他的公司进行竞争的时候，或者就是同样的做GPU调度的这种产品进行竞争的时候，它就具备了巨大的优势。即使你使用一些其他显卡，比如像中国公司这样的，你也可以用RunAI把它跑起来，没问题，一起调度。哪怕，比如说我们买了一堆的H20，在英伟达禁令下来以后，现在允许往中国卖的这些显卡是H20嘛。我买了H20，然后再加了一堆升腾910，再加了点摩尔线程，凑了一个机房，这个也可以。你现在用RunAI可以统一来管理了。而且这一部分呢，比其他的软件对于英伟达显卡的支持还更好一些，这个肯定是可以一统天下的了。

而且呢，这种最终的捆绑肯定是可以提升显卡的占有率的。为什么？虽然他现在说我支持Intel了，支持AMD了，支持升腾910了，但还是大家公认的英伟达最好使的。像中国，我们以前就干过这种事情，什么呢？去打盗版。打完盗版以后说，我们这公司里头装的Linux，装的这个WPS，有一套是这样的，你来检查的时候我们是这样的，但我们自己干活的，还是Windows和Office，为什么？这玩意好使。

所以他有可能会让中国很多的厂商继续大量的去买他的H20、A20，什么这种奇怪的显卡。买完了以后呢，说你这有没有支持国产，支持了，你看我这有两块升腾910，还有几块摩尔线程，但剩下的大量的可能就都是英伟达的卡了。它会成这样。

那你说英伟达买了RunAI以后，对这些云计算厂商的选择有什么改变吗？也是有影响的。为什么呢？云计算厂商刚才我们讲了，他一定是有最大的动力，自己是造显卡的。但是呢，像Mobile I，像什么银行，他们用了RunAI了，用了大量的英伟达的显卡了，他们会遇到另外一个问题是什么呢？就是很多的这种算力的公司，他们会使用叫混合云结构。什么意思呢？就是我这个比较稳定的任务，我就自己建个机房，自己买显卡把它跑起来，但呢，会有很多临时性任务，临时性任务呢，我就要到云端去租算力。

那在这个时候呢，你就遇到一个新问题，是什么呢？叫做兼容性的问题，或者说叫迁移成本的问题。咱们举这么个例子，刚才咱们还是讲这个拍电影影棚的事情。我从某个小的影视中心，把这些道具、这些用的东西都拆下来了。那你说，拆下来完了以后，我现在送到横店影视中心去了，这大影视中心去了装不上，这事不行。横店影视中心看了说：“那我得跟你兼容一下，让你迁移过来的成本降低一下，效率提高一些。”所以呢，我们要把这个拍摄的房间尺寸都给你量好了，我们尽量让你从那边拆下来的东西在我这就可以用。

所以呢，英伟达去买RunAI，如果能够把云计算中心之外的这些人基本上一统江湖，全都变成英伟达的客户，而且都使用RunAI把它跑起来了，对于云计算服务商来说呢，也算是有一个绑架作用。你以后为了让你的客户可以平顺地迁移回来，还是得老实去给我买英伟达的显卡。哪怕你不用RunAI，你也要给我提供接口，让我能够把RunAI里的这些镜像也好，或者是这些服务器的模块、脚本也好，可以顺利地迁移过来。我还可以把你这些上的东西再给我顺利地迁移回去，这个事情他们肯定还是要去考虑的。

我们来讲一个稍微有点题外的话，是什么呢？你说英伟达买了RunAI以后，对于在中国使用到底有什么好处？很多人都讲，英伟达会不会摁个按钮，就是让咱们偷偷走私进来的这些H100，包括后边的什么D200，这些东西就都跑不了了呢？现在有了RunAI，GPU调度软件英伟达一起都提供了，是不是它就可以更好地知道你在干什么了？只要摁个按钮，你就不能跑了。我就马上就知道，你这个里头有一些设备是禁运的，不能在中国出现的。你一旦在RunAI上运行起来，就不能动了，是不是会出现这样的情况呢？跟大家讲，关系不大。为什么呢？因为中国的这些大型云计算公司，阿里、百度、腾讯、华为，也都是自己写的系统，自己做的调度系统，不会用你的RunAI，原来他们这能跑，现在还能跑。

第二个呢，RunAI现在是开源了。开源了以后，就会有一些小公司使用它。但是呢，它可以在国内找一些系统集成商或者是部署服务商。你帮我改一改，把它改成离线的版本，不要动不动就回去报告。这个事呢，是完完全全可以做到的，因为所有的原代码都给你了嘛。所以这件事呢，就不用太担心。

有没有人担心说，英伟达摁个按钮，中国走私进来的这些H100就都摊菜了呢？这个事也不用担心。为什么呢？因为现在英伟达最新的A系列、H系列，以及再往后的什么Blackwell，这种黑井系列的显卡驱动也都是开源的，都是给你原代码的。为什么会做成开源的呢？原因也很简单，就是各个云计算厂商，包括各个算力中心，他们使用的Linux版本很多都是经过魔改的。他们在使用的各种CPU或者其他的这种硬件环境呢，也都是有一定的区别。有些是Intel的，有些是AMD的，还有一些就是ARM的，甚至还有很多这种ARM CPU，干脆就是这些云计算厂商自己定制的，外边就没有。

那么在这样的情况下，你想要去挂一个驱动，能够把显卡挂上的话，他怎么办呢？他就需要去拿原代码进行本地编译，把本地的兼容性和依赖性的问题都解决掉。那这个事是什么意思？咱们接着讲。刚才这个影视中心拍摄基地的故事，如果进来的是一整套的房子和这个布景，是不能拆开的，那你到了人家的那个影视基地的拍摄中心里头，就没法布。那怎么办呢？你一定是能拆散了的，拆散了你才能到这边去布这个景。

这个影视中心，房门是朝东的，那个影视中心窗户是圆的，下一个影视中心，这个床是弹簧床还是古代的这种木床。你才能够说，我们这个被子应该这么去摆，窗帘应该怎么挂，窗花应该怎么贴，才会有整个这样的一套布置。你不能说，我这都给你设计好了，一点都不能改进去，这事搞不定。这就是为什么现在的这个英伟达的显卡驱动都是开源版本，你都是有全套原代码，你需要到本地来去编译。我一进来一看，哦，这房子是这么设计的。

这个窗户这样，床那样。然后我就把各种各样的零部件到这摆起来，一看布景摆着还挺好看。再挂几个灯，就很可以去拍摄电影去了。

所以呢，既然是开源的，就可以进行离线安装、更新以及升级。在本地呢，你还可以改一改，改完了以后再去安装、升级、测试、使用，都没毛病，不需要连线。

他们使用的Cuda，也就是英伟达这个看家本领，也是完全支持离线工作的。数据中心的主机的工作状态呢，大家用这个影视基地的方式去理解算力中心，是没有任何问题的。就是你影视基地里拍任何的片子，外边人是不知道的。你只要不说，通过所有审批拿出来放的话，谁都不知道他们在拍什么。

所以你也不要想着说，英伟达就可以知道每个人在干嘛，然后就可以把你这个机器给你停掉，或者说我监控你的数据，没这个想都甭想。如果有人跟你讲这种故事，那么他唯一的原因是什么呢？就是国产替代信创，他们想让人去买他那个比较烂的卡，想让人去用他比较烂的系统，他才会给你讲这故事呢。这种故事都是骗傻子的。

最终结论就是，英伟达虽然开源了RunAI，但是依然是为了继续垄断做努力。这公司嘛，在商言商，我觉得没毛病。RunAI这样的软件的加入呢，对于中国公司或者在中国境内继续使用英伟达的设备，其实是有帮助的。而且对于英伟达的设备在中国，即使是禁运设备，在中国的使用也不会有任何的限制。

好，这就是今天跟大家讲的英伟达收购RunAI这家以色列的公司，到手就直接开源的一个故事。英伟达到底图啥，跟大家讲清楚了。好，这期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

扎克伯格和黄仁勋，除了换皮衣，还聊了些什么？探秘扎克伯格和黄仁勋的SIGGRAPH访谈：两位科技大咖如何看待AI革命与苹果的未来冲突

Luke Fan — Tue, 06 Aug 2024 13:19:20 +0000

扎克伯格跟黄仁勋凑一块，除了换皮衣，还讲了点什么呢？他们是在SIGGRAPH大会上进行的访谈。黄仁勋是访谈主持人，而扎克伯格是被邀请的嘉宾。因此，在他们的访谈中，扎克伯格是逗哏的，黄仁勋是捧哏的，这一点首先要搞清楚。

这一次访谈，主要是扎克伯格在输出。SIGGRAPH大会是一个历史非常悠久的大会，叫计算机图形图像特别兴趣小组（Special Interest Group on Computer Graphics），小组成立于1967年，1974年第一次开会。今年是第50届，参会的人中有90%都是博士。当我看到这个消息时，一开始想，黄仁勋应该是个博士吧？扎克伯格是中途退学的。后来查了一下，发现并不是。黄仁勋是硕士，而扎克伯格是2002年入学于哈佛的心理学和计算机科学专业，2004年辍学，实际上上了两年学，之后在2017年被哈佛授予了荣誉法学博士学位。他好像跟某位伟人的学位差不多。

正常来参加这种活动的人，主要是引擎公司，比如Unreal、Unity，图形软件的公司Photoshop、Adobe，以及显卡公司AMD、英伟达。原来Meta也参加过，大概参加了有十几年了，他们以前是作为VR、AR公司来参加的。这一次则是出来抢AI的。

老黄跟扎克伯格算是天作之合，为什么呢？因为只有开源模型，才是英伟达显卡的绝配。

那你说微软不也买了好，OpenAI也在用，对吧？但是呢，大厂的必元模型啊，它是有能力去招聘一帮叫适配工程师或者叫配置工程师。他们可以绕过扩大算法这个事，是可以跑的。增加的这点成本对于他们来说是可以去承担的。只有开源模型的应用者，通常是支付不起这些配置工程师的工资的，所以他们会老老实实地使用英伟达的显卡，是吧？所以他们俩绝对是天作之合。

扎克伯格自己访谈的资格，也是因为买了足够多的H100才换来的。他是号称拥有60万块H100的男人。老黄就问扎克伯格说：“你是怎么来的呀？”而我是作为VIP客户，专门被黄日勋邀请来的，就是显卡买太多啊，被请来了。而且他在恨苹果这件事上来说，俩人绝对有共同语言啊。就是黄仁勋也好，扎克伯格也好，现在所有的CEO里头，所有的这种创业者里头，最恨苹果的两个大概就是他们了，找不出其他人了。

扎克伯格在会上飙脏话啊，直接说了一个f word，甚至说有可能直播都会被掐掉的这种脏话。其实骂的不是OpenAI，骂的其实是苹果。为什么要去骂苹果？OpenAI做了半天，未来有没有可能伤害Meta，伤害扎克伯格，有可能，但是现在其实没有给扎克伯格带来任何的伤害。而苹果当时是差点没把Facebook给玩死。扎克伯格自己也讲，Facebook最早是个网站嘛，我们是完全开放的啊，没人管，我们在里头爱干嘛干嘛。然后移动时代呢，发现要到苹果上面去啊，发布软件。

苹果这也不让你做，那也不让你做。关键是把他们进行精准广告推送所需要的用户信息给他屏蔽了。以广告收入为基本收入的 Facebook 差点没被他弄死。扎克伯格痛定思痛，说：“我一定要去做一个新的平台，绝对不能靠 APP 这种东西，而让苹果把我掐死。”所以他才做元宇宙，才把公司从 Facebook 改名叫 Meta。他做了所有这些事情，实际上都是为了应对苹果。这是扎克伯格为什么恨苹果，为什么恨这种封闭的大平台。

说英伟达为什么恨苹果呢？就是英伟达跟苹果之间是有恩怨的。英伟达给苹果提供过一款显卡，后来这个显卡不是特别稳定，被苹果直接起诉了。一开始苹果要他退钱，老黄不退，后来苹果直接起诉了老黄。苹果是在所有的应用里头都不使用英伟达显卡，而这个梁算截下来了。

而这一次，苹果直接给大家演示了用谷歌的 TPU 去训练大模型。这个消息传出来以后，英伟达的股价直接崩了。当然，英伟达的股价崩掉了，还有很多原因在里头，包括老黄自己在疯狂的套现，以及他到 120 以上的这个价格，大家觉得确实有泡沫了，直接崩掉了。但是英伟达昨天晚上涨了 13%，整个又窜起来了。

为什么苹果可以用 TPU 去干活呢？就是它是自己大厂，我只要招够足够的工程师，我就可以去改底层算法，让这些模型在 TPU 上运作。苹果演示了这件事情以后，谷歌、OpenAI 上都可以往这个方向走。这对于英伟达来说就是非常危险的。

英伟达一定要来找一个更恨苹果的人，找到Meta，找到扎克伯格。说来咱俩聊一下。扎克伯格呢，就是因为被卡过脖子，所以必须开源啊。看到别人作弊源啊，想要成为新的基座平台，就open i想做这个啊。那么想做规则的制定者啊，所以只能气得骂街了啊。这就是两个最恨苹果的人，天作之合，凑在一起。

那么Meta呢，对于大模型的开源是有非常大的贡献的。当然，最大的贡献并不是拉玛。咱们一直都说啊，拉玛1、拉玛2、拉玛3算是奠定了开源大模型的基础，但是Meta做的最大的贡献是另外两个东西。一个东西呢，PyTorch。PyTorch是现在非常主流的一个大模型，本地把它架起来的一个架构框架，这个东西是Meta开源出来的。现在在很多的服务器上，大家开始进行本地部署的时候，都是用的这个东西啊。

PyTorch的基金会里头大佬云集，哎，大型的开源的项目都是有基金会的。他们的大佬里头，Meta自己是啊，他贡献了代码，那么他是大佬。第二个呢，就是芯片厂商都在里头，英伟达、AMD、英特尔都在里头。然后所有云计算厂商都在里头啊，谷歌云、微软云、亚马逊云都在里头啊。再往后，新生的AI社区与工具，Hugging Face、Lighting AI啊，都在里头。

还有两个全能型拳手在里头，一个叫IBM啊，他所有的都做，也做云也做主机，也做芯片，什么他都干，所以他也是基金会的高级会员啊。还有一个高级会员是大家所熟悉的，遥遥领先啊，华为。

就PyTorch基金会里头，唯一的一个中国会员就是华为。在这一点上，我觉得华为做的还是很厉害的。它在各种开源的基金会里头，老老实实地交钱，老老实实地去遵守规章制度。它不像国内很多的公司，比如百度，使用所有的开源东西，但却偷偷使用，使用完了以后直接一闭源，啥也不看了，然后下一个。

Meta对AI做的贡献是什么呢？OCP（Open Computer Project）叫开放计算工程，这是什么呢？就是自己有大量的服务器，而这些服务器应该如何构造、如何去建设、如何去连接，这也是一个开源项目，这是Meta开源出来的。现在英伟达推出的NVIDIA HGX，就是在这个模块上去拓展出来的，已经都用上了。这是对整个开源事业真正做的两大贡献。

第三大贡献，才是刚才我们讲的拉玛模型，拉玛1、拉玛2、拉玛3、拉玛3.1，这才是第三大贡献。而且我觉得他所谓的拉玛模型的贡献，真正改变的其实是中国，彻底追上来了。可以拉着中国的一众小伙伴，把这OpenAI打翻在地，这个我觉得是可以的。

扎克伯格也为未来指明了方向，而且他指的这些方向，我觉得还是非常有价值的。第一个，他讲到了一点是原来我们很多人没有想到的，就是要去修改推荐算法。因为互联网的最底层其实就是推荐算法。推荐算法是什么？就是过滤与排序，你到底应该看这个还是不应该看这个，谁排前头，谁排后头。

这就是整个互联网的底层逻辑。在信息过载之后，我们只能依靠推荐算法来工作。在推荐的时候，它只能是说：“我按照一些大家的喜好，或者做协同过滤，做一些传统的AI的推荐。”现在就不一样了，它可以通过Transformer的模型，通过嵌入来重构整个算法，这是一大创举。而且这个东西真正运转起来以后，可能我们会看到完全不同的信息流。

在推荐的时候，他们也希望直接在信息流里进行总结与归纳。原来我们在Facebook和Instagram里看到的所有信息都是用户生成的，那么以后可能我们看到的一些信息就是归纳的一些信息。比如说，你最近有三个朋友感冒了，你最近有五个朋友感冒了，而这些朋友你可能连名字都想不起来。如果真的给你发一条说这个朋友感冒的信息，在信息流里你也不想看到，但是你又希望知道这朋友里边感冒的人多不多。

会把信息分层处理。什么叫分层处理？就是跟我关系最好的人，你们要把这个信息完整地展现出来。大家讲的就是150个人之内的，我们可以互相叫出名字，可以知道他的喜怒哀乐。这些我们可能希望知道他所有的信息。然后朋友的朋友就是中层圈子，可能只是需要知道一个概况就可以了。再往外层的话，可能有一些大事件发生的时候，我们需要知道一些国际大事，也就可以了。它需要分层处理，那么分层处理就可以对这些内容进行总结归纳，并可以发出来。

而且在这个过程中，推荐算法就会有更大的权利。这是什么意思？原来肯定是看你关注了谁，你跟谁是好友，你可以看到谁的信息更多。不可能，你虽然关注了一个人，但你未必看得到他的信息。如果你们之间很少互动，他就认为这可能就是一个普通的朋友。他的一些大事你知道一下，小事你可能就不需要知道了。他会通过这样的方式来过滤你的信息。

包括我们现在在推特里边也是这样的，可能看到一些大事的时候，我们会看到，那一些小事可能就看不到了。后面的话，Meta准备统一他的推荐系统。原来推荐系统是什么呢？就是各个分支，比如我要先看到朋友的，然后看到这个朋友的朋友的，再看到国际大事的和重要媒体的，所有的这些推荐的东西搁在一起，然后再进行混合。以前是这么工作的，而现在上大模型，我们要让整个的系统用统一的模型进行推荐，一次性给你推出来。

这个也是一个很大的创举，可能以后我们就会看到一个完整的模型推荐出来的图文信息、视频信息都混在一起的，而不像现在似的，Instagram就是Instagram，Threads就是Threads，Book就是分开的。以后，我们可能就在一个统一的信息流里看到所有的一切了。这是真正会改变互联网底层逻辑的事情。Meta、谷歌、Twitter、TikTok基本都是靠这个东西活着的。如果真的能够把大模型应用到推荐算法里边去。

我们可能就真的会看到新的一次AI革命，真正能够产生效益了啊。这是非常重要的啊。这是讲的第一点啊。第二点是什么呢？就是AI studio啊。他也要上一个AI studio，因为AI studio谁都上啊。微软有AI studio，谷歌有AI studio，Meta也做了一个AI studio。而Meta做的AI studio就干一件事啊：给每一个人做一个自己的AI助手。使用社交媒体的时候啊，直接用Meta自己的内容进行训练，微调一个小模型，再配合RAG或者叫做本地知识库，可以不断地补充新的信息，拿这个小模型去替我们回答问题啊。

像我现在，我每周会去处理一次大家的评论，周三下午一般会处理。处理完了以后跟大家念一遍。如果我有了这样的一个工具，我就可以随时随地地处理大家的评论。我出去玩的时候，AI机器人都可以给大家回复啊。我们的Disco群有这么多的分支，我没有办法在里边去照顾到每一个分支。这样，我就可以让我的AI助手在里边去回复。哪怕说他不回复，我过一段时间总结一下，最近大家都在聊这几个事呢，你是不是要去参与一下啊？或者他可以来征得我的同意，或者在我的授权之下进行回复啊。

这件事我就替你回答了啊。那件事情你准备怎么回答，还是说就不说了。这样的话，我就可以更多地千手千眼、无处不在地参与到各种社区的讨论里头去。这个真的是我很需要的一个东西啊。

每个人呢，其实都需要分饰不同的AI角色，有不同的AI助理模型。你比如说，在Facebook的回答问题里头有一个，在Discord里头有一个，是不是在Twitter里应该再有一个？这个可能才是真正我需要的东西。甚至未来我可能照了照片以后，就直接把这些照片都放在优酷里，让它自己去挑选好的照片，给我发到Instagram上去，这个不也是一个挺有趣的事情吗？这个是非常有用的。

那么在所有的平台里边，就会成一个新的风向，就是大家开始把这种AI机器人用起来。以后是什么呢？就是所有的平台都会变得热闹起来，因为每个平台都有我们的替身在替我们回答问题。所有的平台都会产生信息大爆炸，所有的平台也就都失去壁垒。

我们经常有人说：“哎，你有Telegram没有？你有微信没有？你有这个Twitter没有？”那以后这些东西我都有。你们在任何地方提了问题，我可能都可以去回答。这是多么有趣的一个事情！他们就不可能说再把一个人限制在某一个特定的小平台里头。当这些小平台失去壁垒之后，这些大平台就可以依靠成本和变现能力直接把小平台都挤死，对吧？这也对于Meta来说是有商业利益的吧。

在网络上，每一个人都可以依靠这种小模型的帮助，成为超人。这也是在不久的将来就可以实现的东西。扎克伯格也讲了，未来他的这种AI触手不会是文字，而应该会成为虚拟形象。你们以后可能再去聊天的时候就发现……

长坐着一个长得像老范一样的人，在这跟你回答各种问题了。甚至他可以开出这样的直播，挨着把大家的评论都点出来，挨着跟大家解释。这也是一个很有意思的事。

这是第二点。第三点是什么呢？第三点是开源是未来，不受限制的构建，恢复开放的黄金时代。这是他讲开源的内容，我们就不在这里详细去讲开源到底好在哪，坏在哪。这对于中国的AI行业来说，没有拉玛，就没有中国AI现在的风起云涌。如果没有PyTorch，中国的整个AI体系也是难以发展的。

它开的这个叫Open Compute Project，对整个中国的互联网云建设都是有重大意义的。再往后一个讲的是模型不会一家独大，从小到大的模型都有应用场景。OpenAI就认为你都应该在我这儿用，不要用其他人的。虽然它有GPT-4O Mini这样的模型出来，但它还是说你都要在我这儿用。

现在Meta就讲了说没必要，405B的模型我们就是做这种相对来说比较复杂的任务。当然，405B也给英伟达提供了一个非常大的考验，因为405B这种模型在英伟达的单块显卡上跑不起来。你还是要用NV Link这样的成熟技术，才可以把这些显卡连接起来，把这个405B跑起来。黄仁勋也是乐得嘴都合不上，跑405B就老老实实到英伟达来买显卡来。

势币的基本上处理各种业务是够的，因为我前一段时间也是使用各种大模型，基本上到70B。

绝大部分的问题都可以解决了。8B的在各种的AIPC里就可以用了。微调之后可以成为各种专材，比如说编程的，法律咨询，AI客服，绝对够了。今天谷歌还新发了两币的模型，叫JMAR2，两币，这个叫2B，在AI手机上完全可以跑起来，效果还不错。

这是讲的第二块，就是不同步大小的模型，大家自己去用。而且大家要去用八臂的模型，去训练各自的专用模型。只要这样，才会有不同的模型去完成不同的事情。

然后呢，讲的是叫segment everything two。是这样的，一个大模型又更新了，更新到第二版。这个模型叫做分割一切。这个segment everything呢，在去年是发布过一版，做的事情就是你给他一张照片，不需要标注，不需要训练，他就可以把照片里的所有物体都识别出来，挨着个儿给你列出来。

而everything to呢，它是可以把所有视频里的内容直接都给你分拆出来。说这个是牛，那是马，这个是猪，那是羊，他都给你认得清清楚楚的。扎克伯格还在现场炫富，他说：“你看啊，现在认出了一个视频上面这些牛，叫考艾岛牧场的牛，是扎克伯格自己牧场上的牛。”对吧，把这些牛认出来以后，伯格跟这个黄仁勋准备把这个牛杀掉了，好好吃一顿。

这种可以分割和识别视频内容的大模型，未来是有非常大的应用场景的。而且注意啊。

Segment Everything Two是开源模型，大家现在就可以当下来使用了。扎克伯格在现场举的案例是什么呢？就是监控能力可以极大提升。以前，公司丢东西的时候，我是去看过监控的，那经历实在是太可怕了，对吧？你需要长时间盯着监控去找这个片段，这非常困难，因为视频是线性的。

现在，当你有了这种分割一切模型以后，你就可以直接问模型：“什么时间点你看到有人进来了？”或者“什么时间点这个门动了？”他就可以直接通过语言和文字对视频进行检索。这是非常强大的，很多工业上的东西可以被极大赋能了。

前一段时间，马斯克其实也演示过一个视频，在他的推特账号里，演示了用AI模型观察一个咖啡店。他会算好哪个店员在聊天，哪个店员做了几杯咖啡，哪个店员在休息，对吧？店员和顾客之间是如何沟通的，这看起来有点吓人。

当然，这种模型肯定会被中国的厂商第一个拿来用。用完以后，就可以让这些牛马们老老实实地干活，没有任何私下里的自由空间，这完全可以实现。所以，中国一定会快速应用起来。

再往后，两个老直男讨论了一下时尚问题。为什么讨论时尚呢？因为扎克伯格去做智能眼镜了，眼镜上有摄像头。他说这个东西很漂亮，而且可以不停地换衣服，始终穿一件，但这个眼镜可以换来换去。

这就是两个老直男对于时尚的理解吧。这一次呢，他们两个人还是换了皮夹克。黄仁勋标准款的皮夹克给了扎克伯格，扎克伯格呢，这一次用的是自己那种很厚的半长的皮衣，戴帽子的这种，比较宽松。这就是两个直男对于时尚的所有观点。

最终的总结是什么呢？就是扎克伯格还算是为AI指明了方向。而且扎克伯格指明的这几个方向，都是AI未来有可能挣到钱的地方，有可能能够在这块有正常的商业模式的地方。这个是非常可贵的，它比山姆·奥特曼的那种大空话还是要落实得多。

那么新的时代就要到来了，互联网的底层真的要被AI重构了。原来互联网底层是没有被AI去改变的，还是推荐算法。现在AI要进入互联网底层了。一个人都可以被AI赋能，这也是非常棒的一件事情。所有的场景都可以被AI渗透，对世界的理解也可以进一步给各种系统赋能。当然，也可以给中国这血汗公司赋能，或者给中国政府赋能。

我发现做监控这件事情上，中国如果说是第二，全世界没有任何国家敢说是第一。这块我们还是做得最好的。全世界大概绝大部分的监控摄像头都是中国人造的。最终呢，大家都去买英伟达的显卡，都去用Meta的开源系统。这就是他们两个进行了一晚上的访谈所得出的最终结论。好，这就是我们今天讲的第二个故事。