AI科普 – 老范讲故事｜AI、大模型与商业世界的故事

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

Luke Fan — Thu, 28 Aug 2025 00:48:18 +0000

美工，或者说设计师，又要失业了吗？Gemini 2.5 Flash image发布了。

前一段时间，有一个叫“小香蕉”的模型，叫Nano Banana。这样的一个模型呢，在很多的开源模型评比网站上，突然就火了。这种网站是干嘛的呢？还有很多的同类型的模型放在上头，你去向他提出要求，他让不同的模型同时生成结果以后，大家去做评比用的。很多人发现，这个模型很棒。

最近在很多的社交媒体上出现这种：有一个照片，旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片，然后你给他提示词说：“请按照这个照片给我布置一个桌面，桌面的左边是个电脑，电脑上应该有这个3D设计软件，正在设计3D人偶。右边呢，是一个相框，里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶，这个人偶就是根据这个照片打出来的。”给它这样的一个提示词，它就一次性给你搞定了。这个还是非常非常强悍的。

这个模型到底谁家的？搞不清楚。而且很多人还去造假的Nano Banana，为什么？因为太有流量了。一堆一堆人上来说：“我这也有一个Nano Banana，你们赶快来试一下。”我就被人骗过，上去了以后发现效果一般嘛，就很失望就走掉了。大家就猜说，这有可能是谷歌家新出的图片模型。到8月26号，突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看，就是这个Nano Banana。而且呢，在谷歌发布这个模型之前，Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter，说：“你看我们在暗示点什么吗？你们自己来猜一下，我们到底要干什么。”实际上，大家都已经明白他们要干什么了。

这种偷跑小模型的方式呢，是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过，现在Gemini 2.5 Flash image也是偷跑了一段时间，而且引起了轰动。这种偷跑模型的方式，跟大家藏着掖着，像苹果开发布会似的，发布之前大家谁都不许说，签保密协议，谁谁敢说出去就如何如何，到底有什么差别呢？差别就是，你如果是前面保密的话，最后发出来就是一锤子买卖，如果翻车，你就直接倒霉。谷歌其实翻车过好几次了，Gemini最开始发布的时候就翻车了，怎么各种问题都答不对，然后股价暴跌。现在这种偷跑模式呢，如果反馈不好呢，我就再接着改，我就不发布了；如果反馈特别好，我就赶快给它发布出来。它就不会翻车了，它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。

咱们说回来，这个Gemini 2.5 Flash image到底是一个什么样的模型呢？上一次大家喊设计师和美工失业的时候，是什么时候？是Gemini 2.0 Flash image发布的时候，就是它上一个版本发布的时候。

上一次是怎么出圈的呢？其实谷歌的Gemini画图效果一般，不是特别惊艳，上一次出圈也是因为改图。只有改图改得好，才容易出圈。很多人说不对，说这个生图模型都在干这些事情，为什么改图改得好就能出圈呢？大家要注意，跟设计师和美工相关的需求，特别是有商业价值、或者叫有人付钱的需求，是生图多还是改图多？一定是改图多。

咱们举一个最标准的例子。我们现在要做电商网站，我们在网站上需要有一个商品的展示图。我有一个商品图片了，然后呢，我需要把这个图片放在各种场景、灯光和环境下，再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊，他们用了一个特别笨的办法，他们找一照相机，三视图1、2、3拍三张照片，这就是你产品的照片了，那这产品卖得好才怪了。京东在这个北京，专门有一个巨大的影视基地，没想到吧？干嘛的呢？就是拍这个产品图的。你们谁要卖东西了，到那去把这个产品给他，他给你搭好布景，打好灯光。比如说你要卖一个杯子，他在杯子旁边给你摆上瓜果蔬菜，摆上一些小点心，把这杯子都拍一遍，再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢？这个图P上去的这部分要有版权，这个是非常非常重要的。你不能说我卖东西，这个图后边比如说我P了一个椅子或者P了一个什么东西，这个图片你没版权，这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西，你想把东西卖好，你就上拍摄基地去拍去。即使拍完了以后，他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字，那个地方还需要一些别的东西摆在一起。因为你不可能说，我要把所有拍的东西都摆一块嘛，那有的时候你就需要去抠图，然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好，大家才会说设计师跟美工要失业了。

那么，改图是不是要比生成图片要难呢？大家想没想过这个问题？答案是很肯定的：改图绝对要比生成图片要难。为什么呢？你需要先理解这张图片，这个图里哪个地方是人，这人哪个是脸，哪个是身子，哪个是腿。当我们发生一些什么样变化的时候，我怎么能够保持它的一致性？说比如说，我拍了一个低头的照片，说这不太好，你抬起头来，然后再笑一笑。我把演员拎回来，或者把模特拎回来，说你再给我拍一次，成本很高。那我们直接叫给这个改图模型，你去给我干这件事情，它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候，这玩意儿还干不太好，特别是跟人脸有关的事情。但是到2.5 Flash，这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧，我也会做一点点小的事例，放到咱们YouTube的shorts里头，这个还是挺好玩的一件事情。所以，如果我们没有办法对图片进行很深刻的理解，把需要改的部分抠出来，改完了以后再把它贴回原来那个地方去，这个是做不成的。所以这是推理能力的上升，不是它的图片生成能力上升，而是推理能力上升了。

Gemini 2.5 Flash image到底有什么新特性呢？第一个，它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型，千问3是一个多模态模型，Deepseek还是一个纯文本模型，它是没有多模态理解能力的。豆包1.6最新的版本，它是一个多模态模型，可以直接进行视觉推理的。GPT-O3、GPT-5，这都属于多模态的推理模型。你没有这种底层的话，是干不了这活的。给你一张图片，你连图片到底画的是什么都理解不了，你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天，你都分不清楚的话，你就没有办法做后边改图这个事情。你比如说给他一张图说：“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚，这个是衣服，穿上西装以后到底应该长什么样，这事要理解明白了，推理清楚了，他才有可能生成出结果来。

那么第一个就是多模态大模型。第二个，支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品，这个都可以。而且呢，在编辑的过程中，能够完美的保持人物、动物等主体的外观和姿态的一致性，这个是修图里边最难的。像我们经常让豆包去修图，或者可灵去修图，修完了以后经常发现什么问题？不像了。你像我上传一张照片，说：“来，给我把背景换成一个海滨的背景。”海滨背景换了，但是前面那人不是我了，可能看着稍微有些似是而非，但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性，而保持一致性是整个修图里边最难的。

再往后呢，它可以合成3张以上的不同图片的内容，创造出组合的新作品。我看到有人做的Demo是把6张照片，六个人照片搁一块，说：“来，把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车，不是说每次都成功，但是呢，他已经有这样的能力了。还有人去测试什么呢？我给你一屋子，给你一书柜的照片，给你一床的照片，说：“来，把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。

支持多轮次迭代式的图像修改，不影响已确定的无关元素。这话什么意思呢？就是你给他一张图，这次给我加一床，下次给我加一个床头柜，再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候，那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型，你让他在床头柜上加书的时候，那个床就发生扭曲，就发生变化了，因为他是把所有东西重新生成了一下。

这个Gemini 2.5 Flash image呢，还能够理解和转换手绘的草图，用于教育和设计应用。比如说我们手画了一张图，这应该有个按钮，那个地方应该有个窗口，你把这东西扔给他，说：“来，给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。

最后呢，是禁止生成不当内容，并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的，你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家，OpenAI还没上市，虽然它是老大，但是毕竟不是上市公司。谷歌这是上市公司，多少年的行业老大了，它真丢不起这人。它出一点点小问题，就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候？说你给我生成第一次世界大战的这个战场，图片里头发现男的女的、黑人白人黄种人在一块。说这不对，西线应该都是白人，都是男的，不应该是这样。他说不，我们要多元性。最后导致被认定为翻车，导致他们整个的产品下线。

现在呢，拿这个模型去生图还是挺便宜的，它是4美分生成一张图，整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多，但是它的效果要好一些。同时呢，谷歌还发布了另外一个更新，就是VEO 3出了一个fast版本，就是快速版本。VEO 3呢是谷歌现在的视频模型，效果也是很不错的。它们大概是40美分生成一秒钟，这个成本也降下来了，原来大概是要80美分生成一秒钟，成本直接砍半。

这些新的工具到底怎么用呢？我们今天就不给大家看演示了，我会未来一段时间慢慢的把生成的结果给大家看看吧，大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image，可以用AI studio这个网站，它的域名是aistudio.google.com。进去了以后，你就选择Gemini 2.5 Flash image，选完了以后，你就提交各种的提示词也好，给他参考图也好，多给几张参考图也好，你就命令他去干就完了。我印象里应该免费，但是我不太确定了，因为我的这个账号是已经开始付费了，所以我现在是肯定能用的。我上去了以后，它会提醒我说免费的是有一些限制的。如果你想开心使用的话，你可以通过API去调用，也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用，他们也会给大家提供一些服务的。

下一个就是API调用。API调用的话，我准备过几天去玩儿吧，这个应该也是比较有趣的。它因为实在是太新了，它更新了以后，所有挂他的像什么Defi、N8N这些东西都没有更新呢，可能要等到再过一周的版本，这些产品就更新了。但我现在去调的话，通过http直接访问，应该也是可以使用的。那就是4美分一张图，4美分一张图，是这样来用的。

你说我现在想去画视频、想去生成视频，行不行？VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号，个人的Gemini账号是Pro版本的，一个月20美金的这个版本的，每天呢可以生成三条，每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来，让它给我去跳一个街舞，然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去，挺好玩的。

那你说我现在不想在Gemini Pro里头充20美金，行不行呢？可以。你像我这样有一个上大学的儿子，我就用他的大学edu的邮箱去申请了一下，我就可以使15个月的Gemini Pro，免费就可以用了。你说你没有这样的儿子，去找一下。现在我看淘宝上好像有人去做这个生意，20人民币帮你去做验证，就是EDU邮箱，去收一个邮件去验证一下，你就可以使15个月了。但是这种我估计用的人多了以后可能会被封，这个比较危险。

当前图片生成模型的格局是什么样的呢？Gemini 2.5 Flash image这个模型出来了以后，会不会打破现在这个格局呢？现在呢，基本上是四大门派。第一个门派是Midjourney，它生成的东西呢，最精细，最有艺术感，对于各种的艺术风格模拟的最像，这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强，因为它自己的推理模型非常强嘛，就是你给它很多的元素，给它非常复杂的逻辑的时候，它都可以给你画上，但是画的结果呢差强人意，也就只能如此了。OpenAI他们去做一些改图呢，也没有Gemini 2.5 Flash image好，但是呢保持一致性上做的还可以，要比Midjourney要做的好。Midjourney就属于一个纯生图模型，改图这一块一般，或者是说一致性参考这一块呢，效果都一般。第三个，Gemini呢，特别特别适合改图，它的这个生成的部分属于将就，还能看，但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲，说中国相声界的复兴是需要靠于谦和他的家人们，每次就是于谦的爸爸、于谦他老婆、于谦的什么，全靠这玩意讲的。另外一波也是这样，stable diffusion和他的家人们，比如说stable diffusion，然后包括Flex，它们的改图有一个叫Konnect的模型，k开头的，不是c开头的，有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西，或者是在这个模型基础上再训练，再改出来的东西。国内呢，包括可灵、豆包、千问，他们的这些图片模型呢，应该都是在这个基础上去做出来的，都是一脉相承的。他们也在卷改图，但是比这个Gemini 2.5 Flash image来说，就差的非常非常远了。

Gemini的2.5 Flash image的成功，给中国的大模型公司带来什么启示没有？这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候，一切能力就都会上升。所以大家其实卷的是最底层的这个模型，而最底层的这个模型，你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了，说我现在用很少的算力卡就可以把这种模型训练出来，然后去追赶美国，这个事有些难度。所以国内的模型在这一块上，底层推理模型上，能力还是需要去追赶的。

而国内各个大模型公司呢，他们的图片模型、图形模型和推理模型一般是分开发展的，还没有真正发展到说我们要把它结合在一起。你像豆包，豆包的推理模型是推理模型，图片模型是单独的另外一个模型，它两边一点关系没有。所以这一块呢，还是需要改变的。千问也是这样的，千问呢有专门的千问的image模型，也有千问image Edit模型。我昨前两天还在玩千问image Edit，效果也还行吧，但是你要跟这个Gemini 2.5 Flash image比，这事就没法比了。但是呢，都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型，然后呢他们有一个叫IMAGEN这样的一个模型，现在已经发展到4.0了，这个模型可能用的人也不是很多，所以就直接开始转型了，把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活，它最早的那个图片生成模型叫达利，DALL·E，达利2、达利3，达利3完了以后再往后就没了，再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话，就要把这些专门的图像模型扔掉，要把这些生图的功能跟大的推理模型，或者叫基座推理模型，要捆绑在一起，才有可能进一步的提升。

现在呢，当推理能力上升的时候，完全可以使用agent的模式，极大的提升绘图跟改图的能力。刚才我讲改图，实际上是做视觉推理。你把这个图理解的很清楚了，说我到底要画什么，哪一块是动的，哪一块是不动的，你把这个东西搞明白了以后，他才可以去调用这些生图的模型，把每一个小块生成好，然后再拼在一起。像loveart这些设计师的AI agent呢，其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看，我觉得loveart这种设计师的AI agent就稍微悬了，又被覆盖了。

好，讲到这里，大家也觉得比较无聊了，赶快都去玩起来，这个东西非常非常的好玩。老范以后再看到有类似的事情，再跟大家慢慢的分享，给大家带来乐趣才是我的核心目的。

好，这个故事今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌

Luke Fan — Sun, 24 Aug 2025 00:41:25 +0000

Deepseek V3.1发布，很多人应该都有疑问，UE8M0到底是个什么东西？这个国运级的大模型，到底有没有翻车呢？

大家好，欢迎收听老范讲故事的YouTube频道。

DeepSeek V3.1发布，为什么会墙内开花墙外香呢？大家说这东西在国外也没多火。咱们讲的墙内开花墙外香，并不是说国外火，而是在圈外火。什么意思呢？就是在真正大模型圈里，其实大家并不怎么说这个事，但是在炒股票的这帮人面前，一下就火了，国产算力芯片一把就飞了。

到底是一个什么样的情况？首先呢，Deepseek V3.1在性能上其实并没有特别显著的提升，所以一帮真正去研究大模型的人，或者去研究AI的人，只能在那尬吹，说这个好像强了一点，那个好像强了一点，但其实都并不明显。它的编程能力呢，确实应该有所上升吧，但是你说现在就可以吊打Claude Sonic 4，这个我觉得有些言过其实了。上下文现在是128K了，在Deepseek去年12月份发布的V3版本以及1月份发布的R1版本的时候呢，它的上下文都是64K的。到V30324和R10528这两个版本呢，就已经升级到128K了，所以这一次的V3.1依然是128K。工具调用上应该是真的增强了，比原来的V3增强了，也更加符合AI agent的一个需求，这个就是他的一个主要的优势。

所以为什么这东西一开始拿出来，大家没有觉得他怎么样，然后突然怎么就爆发了呢？一句话让二级市场直接就疯了。8月21号，Deepseek公众号上有一句话直接引爆A股。玩模型或者说玩AI应用的人，是不会太去看这个公众号到底写啥的，但是这些炒股的人不一样，人家天天盯着这个公众号，一个字一个字在那抠。

这句话说的是什么呢？V3.1使用了UE8M0和FP8规模的参数精度，为了适配未来的国产算力芯片。有这样的一句话在里头，那这还不赶快冲上去？而且在传播的过程中呢，FP8这个词呢，在后续的流传中就变得时隐时现了，大家不再提这个FP8了，主要都去强调这个UE8M0了。一堆人就问说这玩意到底是个啥呀？这么神奇的东西吗？甚至寒武纪就直接涨停板了。

下边呢，咱们来解释一下UE8M0到底是个啥。这个难度很大，因为我自己在数学这一块也没有多强，而且还想把它尽量地解释得通俗易懂一点，这个对于我来说是一个考验。如果我说了你没听懂的话，不是我没说好，是你自己智商有问题。咱们开个玩笑。

很多人呢，其实都搞不明白这个UE8M0是什么，但是呢都像老中医念口诀一样，上来都是这个脉怎么怎么样，应该什么君臣佐使一下，然后就开始给你开药方。念念有词以后呢，就冲进去买股票去了。

这个咱们解释一下，首先呢，用形象的三个词来跟大家解释一下什么是UE8M0。这三个词，第一个词叫“马赛克”。很多男生，特别是对于成人影片、日本成人影片有一些经验的这些男生，对于“骑兵”和“马赛克”这个词应该是能够有一些理解的。UE8M0呢，实际上就是一种马赛克格式，待会我们讲为什么。第二个呢，就是叫“九九乘法表”。在中国吧，大家从小就背，我们可以在某一些特定的计算里头超过老外。他们从小不背九九乘法表的这些人，就没有这个口算和速算的能力。我们从小背这个东西，我们就在某一些特定的运算里头会比他们先人一步。还有一个不是那么好听的词，但是更贴切，是什么？叫“裹小脚”。这个在满清时期，他们对汉族女性的一种残酷的压榨，要求大家去裹小脚，以小脚为美。UE8M0的话，就完完全全是符合这三个词的特性的。咱们下边一个一个给大家解释。

首先呢，要跟大家解释一下计算精度的演化。咱们要知道，做大模型计算，甭管是训练也好，还是后边推理也好，它最主要的一个计算叫矩阵乘法，就是把一大堆的数呢放在一个矩阵里，两个矩阵相乘，乘完了以后得到一个结果。甭管是训练也好，还是推理也好，大模型训练的90%以上的算力就在干这一件事：乘乘乘乘乘。这也是为什么他们跑到英伟达的算力芯片里面去干这个事。英伟达算力芯片非常非常多的核心，这些核心也干不了太复杂的命令，但是你让他做乘法，他还是做得很快的。所以这个东西要比咱们普通的CPU算得快很多。

矩阵乘法里头呢，就有一个问题，叫计算精度的问题。最标准的叫FP32，他们这个数是怎么表示的呢？第一位是符号，正数还是负数；后边呢，应该是8位吧，代表的是浮点；后边的几位呢，就是代表的一个精度。前边这个符号正负大家比较好理解，中间这一部分浮点数就意味什么呢？就是我可以表示最大和最小多少，这个是一个范围的表达。后边这个尾数呢，实际上是精度的表达，就是说我这个小数点后到底有多少位。当我们把这样的一个数字去进行乘的时候，肯定会得到一个结果。但是有一个问题是什么呢？咱们都是讲这大模型好大，有好多好多数据去进行运算的，那你说我要把这么多参数搬进去，在这个内存里跑来跑去，它就会变得非常非常消耗带宽。而在进行乘的时候，如果是两个很大的精度的数去进行乘的话，那它的对于算力的消耗也是非常非常可怕的。

所以大家怎么办呢？就是要降低精度。而且呢，因为大模型本身它是一个很稀疏的运算，你降低了精度以后，发现对结果的影响并不是很大嘛。现在他们用16位的，或者用一些更小的8位的，用这样的精度去计算了以后，发现好像得出来的结果跟32位的没什么太大区别，那咱们就把它降低一点呗。所以呢，大家就开始从FP32变成FP16、BF16。这里头要注意，FP呢一般都是英伟达这边去采用的一个标准，也都是一位符号，然后呢多少位浮点，多少位尾数。BF16呢是谷歌自己用的一个标准，它的浮点数要更长一些，尾数更小一点，这样的话它可以表达更大的一个数字，但是呢精度差一点，效果呢也还可以。后边呢还有FP8，FP8就是尾数更少一点，然后更多的数字去表达。后来呢，我们现在使用的大部分模型，真正去推理运算的时候，实际上都是FP8。现在的模型呢，大量的训练都是用FP16去训练的，现在也没有那么多人使用FP32去训练了。最早都是FP32训练，后来就是FP16训练，训练以后再去对这个大模型进行量化。

你说比在8再往下还有没有？还有，叫MXFP6和MXFP4。MX是什么意思呢？待会咱们再解释。FP4，咱们讲讲一下这个吧，它比较极端了。FP4是什么意思？就是它有一位符号，两位浮点和一位尾数。那你说我就一位尾数，这玩意算啥呀？我这要是0的话，那你前头这几位不就全废了吗？不是这么算的。如果你这个尾数是0，它代表什么呢？就是0、2、4、8。如果你这个尾数是1呢，它代表的是3、6和12。所以我们基本上这样看，FP4代表的数就是0、1、2、3、4、6、8、12。那你说就这几个数我乘来乘去，没有办法代表很多的东西，怎么办呢？不能说我整个大模型就这几个数就把它都表示了。所以呢，这个时候MX就起作用了。它呢，把这种很小范围的数呢，放在一个块里，这一个块呢有32个数，这一个块呢统一再进行一次浮点变化。这个浮点数变化呢，是写在另外一个叫做浮点位里头。那个浮点位呢，就是一个UE8M0的一个浮点位。UE8M0呢，意思是无符号的8位的浮点，没有尾数，就是这样的一个意思。它相当于什么呢？就是我们把4位4位的这种一块32个数，统一用一个浮点把它变化起来。MXFP4大概就是这么个意思。

哪个模型是用的这样极端的参数呢？最近公开的GPT-OSS就是用的MXFP4。而且这个里头有一点很强的是什么？OpenAI是从训练就直接使用的MXFP4，它没有经过后续量化，所以它的效果非常非常好，也极其节省内存。因为你想你一旦把精度降低了，它就可以干嘛呢？它就可以用更小的内存去存储这些数据、存储模型。然后你在进行模型运算的时候，你的显存跟你的GPU之间进行调度的内容就会变得更少，乘的时候乘得更快。

那你说在这个过程中，显卡或者说算力卡的公司干嘛使呢？他们就会想办法去优化。他写一些算法，或者说在里边做一些链路，让这些算法，比如说FP8的或者是FP16的这些数据，在我这做乘法和加法的时候让它变快一些。早期的显卡上是没有FP8的，有FP32、有FP16。什么时候开始有FP8呢？这个东西是在英伟达H100上出来的。BF16是只有谷歌TPU上才有，其他人不玩的东西。这个MXFP4呢，就是后来这个Blackwell黑井的显卡上是支持这种运算的。

在这个里头有一种比较极端的算法，就是UE8M0。就是我已经没有正负数了，全是正，我这个全是正数，里头也没有任何的这个尾数了，只有8位的指数。那么它能够代表的数是什么呢？0、2、4、8、16、32、64，它等于是这样可以上去的，可以代表很大的数字，但是呢就是完完全全没有精度了，它是属于跳跃、跳阶跳上去的。这就为什么我们讲UE8M0是马赛克。你想我有一个图片，这个图片里头呢，某一些关键部位里头就没有阶梯了，就没有很多的细节了，只剩下这种跳跃式的这种表达了，那不就变马赛克了吗？所以基本上你把它理解成一个马赛克，这个事是可以的。你说有没有这个宝马一点的？有，就是那个刚才我们讲那个FP4，它里头还有一位，它可以代表0、1、2、3、4、6、8、12，它中间还是多出一个来的，它这个码要稍微薄一点。最极端的大的厚码，就是这个UE8M0。大家可以这么去理解它。

Deepseek为UE8M0都做了些什么呢？首先呢，Deepseek并不是原生训练的UE8M0的大模型。它呢，是在英伟达的H800和H20上，使用FP16和FP8训练出来的一个模型。在训练完了以后呢，再专门针对UE8M0进行量化，把我原来这个训练完了结果的数据，按照UE8M0的这个方式重新量化、重新排一遍，然后拿出这样的一个小很多的模型出来。在这个专门为UE8M0进行优化的算力卡上，就可以跑得飞快。

UE8M0其实是有一些好处的。它好处是什么呢？马赛克虽然没有细节，但是呢它在运算的时候，内存搬运会变得非常少。你去表达同样的模型，你需要的这个数据变小了，这个是非常非常有好处的。因为咱们现在最大的瓶颈是什么？因为美国禁运，我们的算力芯片跟这些HBM芯片之间，或者说这种显存芯片之间的带宽比较低，那我们就专门优化一个这样的算法给你就可以了。但是我们要注意，就是在Deepseek发的那篇公众号里头，他写的是“我们支持UE8M0和FP8”。所以呢，现在大家去下载的Deepseek V3.1的模型里头，实际上是有两个版本的，一个版本是UE8M0的，另外一个版本是FP8的。你说我是用英伟达显卡的，我用AMD的显卡，你就用FP8的版本。你说我在国内，我要用升腾的芯片，那你可以使用UE8M0的这个版本。

为了适应UE8M0这种极限挑战，我要给你打马赛克，打完马赛克了以后你看了以后还觉得爽，这个是对于Deepseek来说非常非常高的挑战。那就需要干嘛呢？做专门的设计。他们在模型训练的时候做了专门优化，一方面呢是进行了混合精度的使用，就是有一些地方用的是比较高精度的，有些地方用的比较低精度的，他们专门做了这样的一个适配。然后呢，也在进行一些叫做累计误差检测。因为你想你把这个地方变成黑白的了，或者变成这种大马赛克了，那你这个误差就会变得很大，特别是需要进行多轮的矩阵计算以后的话，它的误差就会有累积的增加。Deepseek专门有一个设计，就是检测这个东西，如果误差达到一定阶段了以后，我会换一个方式重新来算一下，然后想办法把这个误差规避掉。它通过很多类似这样的手段呢，让这个模型在UE8M0上可以跑起来。

这里就有一个问题，就是不做特殊架构设计的大模型是不能被量化成UE8M0的。你说我现在把Llama 4拿出来，做一个UE8M0的量化行不行？做不出来。虽然大家都是在英伟达的FP16和FP8的基础上训练出来的，但是你前面没有做这些提前的准备，没有在这个架构上做特殊的设计，你是不能去做这种极端量化的。你那个打上马赛克，大家看了就没感觉了。只有Deepseek V3.1打上马赛克，还可以有一定的表达能力。

那为什么别人不用UE8M0呢？它呢，是需要专门修改训练架构，为极限情况进行纠偏的。这个过程呢，其实有点像裹小脚，你是必须从小抓起，等长大了再来的话，他就来不及了，已经长得比较大了，现在再去裹小脚裹不出来了。极大地增加训练的复杂度，而且呢也无法保证最后不翻车。有些人裹的一半说实在太疼了，算了我就放了吧。还有一些人真的是裹了一半完了，还留下一些残疾，最后发现也没有达到人家要求的效果。这个都是会发生的。九九乘法表也是一样，我们专门把一套特别高效的计算方式呢，把它背熟了，只有进行了同样训练的人，他才可以在某些特定领域里头极快速地去给出正确的答案来。刚才我们讲了马赛克、九九乘法表和裹小脚，其实最形象的呢就是裹小脚。

那么国产算力芯片跟UE8M0到底是什么关系呢？H100就开始支持FP8了，B系列呢，开始就是像什么B200这些芯片呢，开始支持MXFP4，它是向这个方向前进的。国内呢，我们是在跟随了。大部分的芯片实际上都是支持FP8的，就是按照英伟达这个路子走的，只是我们比人出的晚。H100是挺早就出来了，咱们大概是2024年、2025年新出的一些算力芯片呢，都开始支持FP8，也对FP8呢进行了一定的优化。

华为升腾芯片呢也是支持FP8的，但同时呢另辟蹊径，搞了UE8M0的这么一个算法出来。华为呢还出了一个叫MindSpore的开源框架，对华为芯片以及英伟达芯片进行全栈的AI应用，从推理到训练，所有的事情他都可以干。他做了这样的一个完整的开源框架。在这个开源框架里头呢，对于华为升腾芯片专门进行UE8M0的这种优化。你用传统的大模型推理框架，比如说PyTorch或者是TensorFlow，它是没有办法对UE8M0进行优化的。所以一旦你拿到的Deepseek V3.1是UE8M0量化版本的，你就只能去用华为的MindSpore。华为自己呢肯定用的是最好的。国内其他的芯片现在也开始兼容这个MindSpore，他们肯定出了芯片需要去兼容现在主流的这些开源框架，包括像PyTorch、TensorFlow，也要去支持MindSpore。他们也会对自己进行UE8M0的优化。比如说像寒武纪、摩尔线程，他们现在测试了UE8M0的计算的话，会比传统的FP8的方式呢效率要高很多，或者叫效率提升明显吧。这也是为什么大家都冲上去买寒武纪的股票。虽然华为是真正整套系统提出者，而且也是最大规模的部署者，但是呢它不是上市公司，炒股票的人就拿它没办法了。Deepseek自己也不是上市公司，炒股票的人拿它也没办法，那咱们就炒这个寒武纪就可以了。

国外的这些芯片像英伟达呀、AMD这些主流芯片，都没有对UE8M0进行优化。他们也可以用UE8M0版本的这个模型，但是呢可能会更慢一些，因为它还要把这些模型搬到内存里头，重新转换成FP8或者是FP16再重新计算，它有一个中间的过程就比较麻烦。但是也不用担心了，你说我现在这个是英伟达的卡，那你只需要去下载Deepseek V3.1 FP8的版本就可以去使用了。

那你说是不是国运？到底啥叫国运？只要带着国家转向都叫国运，还有另外一种可能吗？和国运级的升腾芯片进行绑定，那肯定是国运了。训练呢还是英伟达，推理呢专门为升腾进行了优化。后面呢就要进行道路之争了，中国人比较擅长，这个什么意思？千问、Kimi、MiniMax、豆包、智谱，这些开源模型都没有办法去做UE8M0的量化，因为他们在一开始训练的时候就没有考虑过我后边有可能裹小脚这个问题，所以他就没办法走这条路。你如果说也想去做UE8M0的这个量化的话，你就需要在训练的时候就调整，第一个很麻烦，第二个有极大的失败率。如果这就是未来的方向，那就真的是跟美国这边脱钩断链了，就是我们训练拿你这个东西继续训练下去，但是呢最后去量化和推理的版本就使用升腾了。确实在影响国运的走向，所以呢这个Deepseek V3.1确实是国运级产品。

未来会怎么发展呢？希望吧，股市上折腾一下就算了，大家去买买股票赚点钱，不要去真的影响未来国内大模型的走向。大家还是尽量去跟着国际主流的技术路线去走FP8的这个路线。如果你说我们要继续前进，大家可以想办法向MXFP4的方向去走，不要去走这个UE8M0的方向，这个方向就像裹小脚一样，非常非常危险的一个方向。Deepseek V3.1呢，算是做了一次尝试吧，但如果真的影响了未来国内的模型方向，不是什么好事。

这就是今天要跟大家讲的，希望大家能够听到一些自己原来不太理解的东西吧。好，这个故事就讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。