Deepseek V3.1 引爆A股!神秘代码 UE8M0 揭秘,华为升腾背后的“国运”豪赌
8 月 24
DeepSeek大模型 AI Agent, AI大模型, AI科普, AMD, A股, Deepseek V3.1, FP8, H100, H800, MindSpore, MXFP4, UE8M0, 九九乘法表比喻, 二级市场, 人工智能, 华为升腾, 国产算力芯片, 国运级产品, 寒武纪, 工具调用, 技术脱钩, 技术路线之争, 摩尔线程, 概念股, 模型量化, 混合精度训练, 矩阵乘法, 科技评论, 老范讲故事, 股票投资, 英伟达, 裹小脚比喻, 计算精度, 谷歌TPU, 资本市场, 马赛克比喻 Deepseek V3.1 引爆A股!神秘代码 UE8M0 揭秘,华为升腾背后的“国运”豪赌已关闭评论
Deepseek V3.1发布,很多人应该都有疑问,UE8M0到底是个什么东西?这个国运级的大模型,到底有没有翻车呢?
大家好,欢迎收听老范讲故事的YouTube频道。
DeepSeek V3.1发布,为什么会墙内开花墙外香呢?大家说这东西在国外也没多火。咱们讲的墙内开花墙外香,并不是说国外火,而是在圈外火。什么意思呢?就是在真正大模型圈里,其实大家并不怎么说这个事,但是在炒股票的这帮人面前,一下就火了,国产算力芯片一把就飞了。
到底是一个什么样的情况?首先呢,Deepseek V3.1在性能上其实并没有特别显著的提升,所以一帮真正去研究大模型的人,或者去研究AI的人,只能在那尬吹,说这个好像强了一点,那个好像强了一点,但其实都并不明显。它的编程能力呢,确实应该有所上升吧,但是你说现在就可以吊打Claude Sonic 4,这个我觉得有些言过其实了。上下文现在是128K了,在Deepseek去年12月份发布的V3版本以及1月份发布的R1版本的时候呢,它的上下文都是64K的。到V30324和R10528这两个版本呢,就已经升级到128K了,所以这一次的V3.1依然是128K。工具调用上应该是真的增强了,比原来的V3增强了,也更加符合AI agent的一个需求,这个就是他的一个主要的优势。
所以为什么这东西一开始拿出来,大家没有觉得他怎么样,然后突然怎么就爆发了呢?一句话让二级市场直接就疯了。8月21号,Deepseek公众号上有一句话直接引爆A股。玩模型或者说玩AI应用的人,是不会太去看这个公众号到底写啥的,但是这些炒股的人不一样,人家天天盯着这个公众号,一个字一个字在那抠。
这句话说的是什么呢?V3.1使用了UE8M0和FP8规模的参数精度,为了适配未来的国产算力芯片。有这样的一句话在里头,那这还不赶快冲上去?而且在传播的过程中呢,FP8这个词呢,在后续的流传中就变得时隐时现了,大家不再提这个FP8了,主要都去强调这个UE8M0了。一堆人就问说这玩意到底是个啥呀?这么神奇的东西吗?甚至寒武纪就直接涨停板了。
下边呢,咱们来解释一下UE8M0到底是个啥。这个难度很大,因为我自己在数学这一块也没有多强,而且还想把它尽量地解释得通俗易懂一点,这个对于我来说是一个考验。如果我说了你没听懂的话,不是我没说好,是你自己智商有问题。咱们开个玩笑。
很多人呢,其实都搞不明白这个UE8M0是什么,但是呢都像老中医念口诀一样,上来都是这个脉怎么怎么样,应该什么君臣佐使一下,然后就开始给你开药方。念念有词以后呢,就冲进去买股票去了。
这个咱们解释一下,首先呢,用形象的三个词来跟大家解释一下什么是UE8M0。这三个词,第一个词叫“马赛克”。很多男生,特别是对于成人影片、日本成人影片有一些经验的这些男生,对于“骑兵”和“马赛克”这个词应该是能够有一些理解的。UE8M0呢,实际上就是一种马赛克格式,待会我们讲为什么。第二个呢,就是叫“九九乘法表”。在中国吧,大家从小就背,我们可以在某一些特定的计算里头超过老外。他们从小不背九九乘法表的这些人,就没有这个口算和速算的能力。我们从小背这个东西,我们就在某一些特定的运算里头会比他们先人一步。还有一个不是那么好听的词,但是更贴切,是什么?叫“裹小脚”。这个在满清时期,他们对汉族女性的一种残酷的压榨,要求大家去裹小脚,以小脚为美。UE8M0的话,就完完全全是符合这三个词的特性的。咱们下边一个一个给大家解释。
首先呢,要跟大家解释一下计算精度的演化。咱们要知道,做大模型计算,甭管是训练也好,还是后边推理也好,它最主要的一个计算叫矩阵乘法,就是把一大堆的数呢放在一个矩阵里,两个矩阵相乘,乘完了以后得到一个结果。甭管是训练也好,还是推理也好,大模型训练的90%以上的算力就在干这一件事:乘乘乘乘乘。这也是为什么他们跑到英伟达的算力芯片里面去干这个事。英伟达算力芯片非常非常多的核心,这些核心也干不了太复杂的命令,但是你让他做乘法,他还是做得很快的。所以这个东西要比咱们普通的CPU算得快很多。
矩阵乘法里头呢,就有一个问题,叫计算精度的问题。最标准的叫FP32,他们这个数是怎么表示的呢?第一位是符号,正数还是负数;后边呢,应该是8位吧,代表的是浮点;后边的几位呢,就是代表的一个精度。前边这个符号正负大家比较好理解,中间这一部分浮点数就意味什么呢?就是我可以表示最大和最小多少,这个是一个范围的表达。后边这个尾数呢,实际上是精度的表达,就是说我这个小数点后到底有多少位。当我们把这样的一个数字去进行乘的时候,肯定会得到一个结果。但是有一个问题是什么呢?咱们都是讲这大模型好大,有好多好多数据去进行运算的,那你说我要把这么多参数搬进去,在这个内存里跑来跑去,它就会变得非常非常消耗带宽。而在进行乘的时候,如果是两个很大的精度的数去进行乘的话,那它的对于算力的消耗也是非常非常可怕的。
所以大家怎么办呢?就是要降低精度。而且呢,因为大模型本身它是一个很稀疏的运算,你降低了精度以后,发现对结果的影响并不是很大嘛。现在他们用16位的,或者用一些更小的8位的,用这样的精度去计算了以后,发现好像得出来的结果跟32位的没什么太大区别,那咱们就把它降低一点呗。所以呢,大家就开始从FP32变成FP16、BF16。这里头要注意,FP呢一般都是英伟达这边去采用的一个标准,也都是一位符号,然后呢多少位浮点,多少位尾数。BF16呢是谷歌自己用的一个标准,它的浮点数要更长一些,尾数更小一点,这样的话它可以表达更大的一个数字,但是呢精度差一点,效果呢也还可以。后边呢还有FP8,FP8就是尾数更少一点,然后更多的数字去表达。后来呢,我们现在使用的大部分模型,真正去推理运算的时候,实际上都是FP8。现在的模型呢,大量的训练都是用FP16去训练的,现在也没有那么多人使用FP32去训练了。最早都是FP32训练,后来就是FP16训练,训练以后再去对这个大模型进行量化。
你说比在8再往下还有没有?还有,叫MXFP6和MXFP4。MX是什么意思呢?待会咱们再解释。FP4,咱们讲讲一下这个吧,它比较极端了。FP4是什么意思?就是它有一位符号,两位浮点和一位尾数。那你说我就一位尾数,这玩意算啥呀?我这要是0的话,那你前头这几位不就全废了吗?不是这么算的。如果你这个尾数是0,它代表什么呢?就是0、2、4、8。如果你这个尾数是1呢,它代表的是3、6和12。所以我们基本上这样看,FP4代表的数就是0、1、2、3、4、6、8、12。那你说就这几个数我乘来乘去,没有办法代表很多的东西,怎么办呢?不能说我整个大模型就这几个数就把它都表示了。所以呢,这个时候MX就起作用了。它呢,把这种很小范围的数呢,放在一个块里,这一个块呢有32个数,这一个块呢统一再进行一次浮点变化。这个浮点数变化呢,是写在另外一个叫做浮点位里头。那个浮点位呢,就是一个UE8M0的一个浮点位。UE8M0呢,意思是无符号的8位的浮点,没有尾数,就是这样的一个意思。它相当于什么呢?就是我们把4位4位的这种一块32个数,统一用一个浮点把它变化起来。MXFP4大概就是这么个意思。
哪个模型是用的这样极端的参数呢?最近公开的GPT-OSS就是用的MXFP4。而且这个里头有一点很强的是什么?OpenAI是从训练就直接使用的MXFP4,它没有经过后续量化,所以它的效果非常非常好,也极其节省内存。因为你想你一旦把精度降低了,它就可以干嘛呢?它就可以用更小的内存去存储这些数据、存储模型。然后你在进行模型运算的时候,你的显存跟你的GPU之间进行调度的内容就会变得更少,乘的时候乘得更快。
那你说在这个过程中,显卡或者说算力卡的公司干嘛使呢?他们就会想办法去优化。他写一些算法,或者说在里边做一些链路,让这些算法,比如说FP8的或者是FP16的这些数据,在我这做乘法和加法的时候让它变快一些。早期的显卡上是没有FP8的,有FP32、有FP16。什么时候开始有FP8呢?这个东西是在英伟达H100上出来的。BF16是只有谷歌TPU上才有,其他人不玩的东西。这个MXFP4呢,就是后来这个Blackwell黑井的显卡上是支持这种运算的。
在这个里头有一种比较极端的算法,就是UE8M0。就是我已经没有正负数了,全是正,我这个全是正数,里头也没有任何的这个尾数了,只有8位的指数。那么它能够代表的数是什么呢?0、2、4、8、16、32、64,它等于是这样可以上去的,可以代表很大的数字,但是呢就是完完全全没有精度了,它是属于跳跃、跳阶跳上去的。这就为什么我们讲UE8M0是马赛克。你想我有一个图片,这个图片里头呢,某一些关键部位里头就没有阶梯了,就没有很多的细节了,只剩下这种跳跃式的这种表达了,那不就变马赛克了吗?所以基本上你把它理解成一个马赛克,这个事是可以的。你说有没有这个宝马一点的?有,就是那个刚才我们讲那个FP4,它里头还有一位,它可以代表0、1、2、3、4、6、8、12,它中间还是多出一个来的,它这个码要稍微薄一点。最极端的大的厚码,就是这个UE8M0。大家可以这么去理解它。
Deepseek为UE8M0都做了些什么呢?首先呢,Deepseek并不是原生训练的UE8M0的大模型。它呢,是在英伟达的H800和H20上,使用FP16和FP8训练出来的一个模型。在训练完了以后呢,再专门针对UE8M0进行量化,把我原来这个训练完了结果的数据,按照UE8M0的这个方式重新量化、重新排一遍,然后拿出这样的一个小很多的模型出来。在这个专门为UE8M0进行优化的算力卡上,就可以跑得飞快。
UE8M0其实是有一些好处的。它好处是什么呢?马赛克虽然没有细节,但是呢它在运算的时候,内存搬运会变得非常少。你去表达同样的模型,你需要的这个数据变小了,这个是非常非常有好处的。因为咱们现在最大的瓶颈是什么?因为美国禁运,我们的算力芯片跟这些HBM芯片之间,或者说这种显存芯片之间的带宽比较低,那我们就专门优化一个这样的算法给你就可以了。但是我们要注意,就是在Deepseek发的那篇公众号里头,他写的是“我们支持UE8M0和FP8”。所以呢,现在大家去下载的Deepseek V3.1的模型里头,实际上是有两个版本的,一个版本是UE8M0的,另外一个版本是FP8的。你说我是用英伟达显卡的,我用AMD的显卡,你就用FP8的版本。你说我在国内,我要用升腾的芯片,那你可以使用UE8M0的这个版本。
为了适应UE8M0这种极限挑战,我要给你打马赛克,打完马赛克了以后你看了以后还觉得爽,这个是对于Deepseek来说非常非常高的挑战。那就需要干嘛呢?做专门的设计。他们在模型训练的时候做了专门优化,一方面呢是进行了混合精度的使用,就是有一些地方用的是比较高精度的,有些地方用的比较低精度的,他们专门做了这样的一个适配。然后呢,也在进行一些叫做累计误差检测。因为你想你把这个地方变成黑白的了,或者变成这种大马赛克了,那你这个误差就会变得很大,特别是需要进行多轮的矩阵计算以后的话,它的误差就会有累积的增加。Deepseek专门有一个设计,就是检测这个东西,如果误差达到一定阶段了以后,我会换一个方式重新来算一下,然后想办法把这个误差规避掉。它通过很多类似这样的手段呢,让这个模型在UE8M0上可以跑起来。
这里就有一个问题,就是不做特殊架构设计的大模型是不能被量化成UE8M0的。你说我现在把Llama 4拿出来,做一个UE8M0的量化行不行?做不出来。虽然大家都是在英伟达的FP16和FP8的基础上训练出来的,但是你前面没有做这些提前的准备,没有在这个架构上做特殊的设计,你是不能去做这种极端量化的。你那个打上马赛克,大家看了就没感觉了。只有Deepseek V3.1打上马赛克,还可以有一定的表达能力。
那为什么别人不用UE8M0呢?它呢,是需要专门修改训练架构,为极限情况进行纠偏的。这个过程呢,其实有点像裹小脚,你是必须从小抓起,等长大了再来的话,他就来不及了,已经长得比较大了,现在再去裹小脚裹不出来了。极大地增加训练的复杂度,而且呢也无法保证最后不翻车。有些人裹的一半说实在太疼了,算了我就放了吧。还有一些人真的是裹了一半完了,还留下一些残疾,最后发现也没有达到人家要求的效果。这个都是会发生的。九九乘法表也是一样,我们专门把一套特别高效的计算方式呢,把它背熟了,只有进行了同样训练的人,他才可以在某些特定领域里头极快速地去给出正确的答案来。刚才我们讲了马赛克、九九乘法表和裹小脚,其实最形象的呢就是裹小脚。
那么国产算力芯片跟UE8M0到底是什么关系呢?H100就开始支持FP8了,B系列呢,开始就是像什么B200这些芯片呢,开始支持MXFP4,它是向这个方向前进的。国内呢,我们是在跟随了。大部分的芯片实际上都是支持FP8的,就是按照英伟达这个路子走的,只是我们比人出的晚。H100是挺早就出来了,咱们大概是2024年、2025年新出的一些算力芯片呢,都开始支持FP8,也对FP8呢进行了一定的优化。
华为升腾芯片呢也是支持FP8的,但同时呢另辟蹊径,搞了UE8M0的这么一个算法出来。华为呢还出了一个叫MindSpore的开源框架,对华为芯片以及英伟达芯片进行全栈的AI应用,从推理到训练,所有的事情他都可以干。他做了这样的一个完整的开源框架。在这个开源框架里头呢,对于华为升腾芯片专门进行UE8M0的这种优化。你用传统的大模型推理框架,比如说PyTorch或者是TensorFlow,它是没有办法对UE8M0进行优化的。所以一旦你拿到的Deepseek V3.1是UE8M0量化版本的,你就只能去用华为的MindSpore。华为自己呢肯定用的是最好的。国内其他的芯片现在也开始兼容这个MindSpore,他们肯定出了芯片需要去兼容现在主流的这些开源框架,包括像PyTorch、TensorFlow,也要去支持MindSpore。他们也会对自己进行UE8M0的优化。比如说像寒武纪、摩尔线程,他们现在测试了UE8M0的计算的话,会比传统的FP8的方式呢效率要高很多,或者叫效率提升明显吧。这也是为什么大家都冲上去买寒武纪的股票。虽然华为是真正整套系统提出者,而且也是最大规模的部署者,但是呢它不是上市公司,炒股票的人就拿它没办法了。Deepseek自己也不是上市公司,炒股票的人拿它也没办法,那咱们就炒这个寒武纪就可以了。
国外的这些芯片像英伟达呀、AMD这些主流芯片,都没有对UE8M0进行优化。他们也可以用UE8M0版本的这个模型,但是呢可能会更慢一些,因为它还要把这些模型搬到内存里头,重新转换成FP8或者是FP16再重新计算,它有一个中间的过程就比较麻烦。但是也不用担心了,你说我现在这个是英伟达的卡,那你只需要去下载Deepseek V3.1 FP8的版本就可以去使用了。
那你说是不是国运?到底啥叫国运?只要带着国家转向都叫国运,还有另外一种可能吗?和国运级的升腾芯片进行绑定,那肯定是国运了。训练呢还是英伟达,推理呢专门为升腾进行了优化。后面呢就要进行道路之争了,中国人比较擅长,这个什么意思?千问、Kimi、MiniMax、豆包、智谱,这些开源模型都没有办法去做UE8M0的量化,因为他们在一开始训练的时候就没有考虑过我后边有可能裹小脚这个问题,所以他就没办法走这条路。你如果说也想去做UE8M0的这个量化的话,你就需要在训练的时候就调整,第一个很麻烦,第二个有极大的失败率。如果这就是未来的方向,那就真的是跟美国这边脱钩断链了,就是我们训练拿你这个东西继续训练下去,但是呢最后去量化和推理的版本就使用升腾了。确实在影响国运的走向,所以呢这个Deepseek V3.1确实是国运级产品。
未来会怎么发展呢?希望吧,股市上折腾一下就算了,大家去买买股票赚点钱,不要去真的影响未来国内大模型的走向。大家还是尽量去跟着国际主流的技术路线去走FP8的这个路线。如果你说我们要继续前进,大家可以想办法向MXFP4的方向去走,不要去走这个UE8M0的方向,这个方向就像裹小脚一样,非常非常危险的一个方向。Deepseek V3.1呢,算是做了一次尝试吧,但如果真的影响了未来国内的模型方向,不是什么好事。
这就是今天要跟大家讲的,希望大家能够听到一些自己原来不太理解的东西吧。好,这个故事就讲到这里,感谢大家收听,请帮忙点赞、点小铃铛、参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道,再见。