大模型训练 – 老范讲故事｜AI、大模型与商业世界的故事

Gemini 3 Pro对决GPT-5.1：理科状元与全能大师终极一战，谁在定义AI的下半场？｜Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

Luke Fan — Thu, 20 Nov 2025 00:43:05 +0000

Gemini 3终于发布了，这一次是真王炸了吧？

千呼万唤始出来：Gemini 3的发布背景

2025年11月18日，谷歌Gemini 3 Pro Preview版本就这么上架了。为什么要用这样的一个词，“就这么上架了呢”？因为第一，它是千呼万唤始出来。大概从10月份开始，大家就开始传说，谷歌要开始上Gemini 3了。传来传去始终也没上来，到11月份说这个月肯定上。我还听说过是11月22号上，还听说过最晚12月份上，大家一直在等待这样的一个产品。

跟它一起传的还有另外一个产品，叫Nano Banana 2。因为上一次谷歌引起大家关注、引起大家去下载和使用的产品呢，就是Nano Banana 2，这个生图和改图的模型。这一次说Gemini 3跟Nano Banana 2一起来，而且都在进行测试，甚至很多人信誓旦旦说我用到了，我已经看到了。谷歌从Nano Banana一开始，就采用了一个很奇葩的玩法，就是在大模型发布之前，先给它们起个名字，隐姓埋名，跑到其他的这种测试平台上去测试去。大家觉得这个名字很奇怪，不知道是谁，测完了以后发现巨好，这是不是Gemini 3？那个生图模型是不是Nano Banana 2？大家都在猜这种事情。

巨头争霸：你方唱罢我登场

Nano Banana 2还没有发布，据说是在这个月或者下个月要发布。但是Gemini 3就这么直不愣登就来了。在用户们剥离层层迷雾，寻找Gemini 3和Nano Banana 2期间，其他的大模型厂商也在争先恐后的发东西，比如说GPT-5.1、GPT Atlas（也就是OpenAI的浏览器），还有Grok 4.1。这回是不是真的要来了？为什么会有这样的猜测？因为这帮大公司就跟小孩似的，特别喜欢截胡别人，我要先几天给你发布了，把你这个热点给你抢下去。最爱干这种活的是OpenAI。只要是谷歌说明天开谷歌I/O了，要开大的发布会了，他一定在这个前面一两天给你整点事出来。最有名的是在去年谷歌I/O之前的一天，OpenAI发了GPT-4o，一下就把大家震惊住了。

这一次的话，Gemini 3之前发布的非常接近的一个产品是谁呢？是Grok 4.1那个产品，也是非常神奇的一个产品，有机会再跟大家细讲。那你说这大公司，他就不能保个密吗？这真没法保密。你要开发布会，要租场地，要动用公关公司，有多少资源在这折腾，所以你是没有办法保密的。即使是你说我不开发布会，我就是偷偷的直接上线了，甭管是谷歌的人，还是Grok的人，或者是OpenAI的人，大家原来都是老同学、老同事，你想瞒真瞒不住。所以在他们的这个圈子里头，是没有什么秘密的。

发布前的“小插曲”

在等待Gemini 3期间，我们还遇到了对AI泡沫的质疑，大空头来做空来了。我们还遇到了巴菲特加仓谷歌，因为他原来不怎么买这种科技股或者是互联网公司的。巴菲特原来持仓里边，最大的科技股就是苹果，其他的像什么谷歌这些公司，他基本上不买的。突然减持苹果，大规模加仓谷歌，而且是在巴菲特退休之前的最后一单，说巴菲特是不是老爷子知道点什么了。

新的发布潮流：不开发布会，直接上线

就在这样的氛围下，谷歌就突然发布了。而且它的发布没有发布会，这也算是一个新的潮流吧，就是不开发布会，直接写一篇长文，或者写一篇博客，然后产品就直接上线了。这个是最近这一两年里头，突然流行的一种新的玩法。现在的产品发布都是什么呢？第一步，先隐姓埋名，跑到其他的，比如像Open Router这种大模型平台上面去进行测试。等这个传的满城风雨了，啪，一篇文章扔出来，产品就上架了。

Gemini 3 Pro Preview 在哪里可以使用？

现在这个产品可以在哪用呢？

第一个是AI studio，大家上aistudio.google.com上就可以使用Gemini 3 Pro了。大家注意，它是Gemini 3 Pro Preview，它后边有Preview这个单词，所以未来这个产品应该还会进行快速的迭代，所以有什么做的不太合适的地方，请多担待。
第二个，Gemini的网站也可以直接使用了，就是gemini.google.com上，现在也可以选择Gemini 3 Pro Preview这个版本了。但是呢，它的客户端上，Gemini的APP上还不能使用。
另外呢，他们还发布了一个IDE，这个IDE呢叫Anti Gravity，叫做反重力，里面带的Gemini 3 Pro的这个版本，大家可以拿它去写程序了。

这次是真王炸了吗？大模型差异的感知难题

这次是真王炸了吧？是不是比别人都遥遥领先很多呢？大模型的差异，想要让人有感知，已经越来越困难了。就像是两个人站在你面前，一个人是高考状元，另外一个人呢是高考第二名，你能够通过聊天的过程，把他们俩谁是状元分别出来吗？你分别不出来的。所以现在的大模型，他们的智力已经在很多方面远远超越人类了。所以我们再想去评估说哪个大模型有一定的差异，非常非常困难。

很多国内的大模型发布了半天，吹了半天牛，大家为什么没感觉呢？比如像什么GLM 4.6、千问Max呀、Kimi K2 thinking或者是Mini Max M2，这些模型发出来以后说我怎么这么强，大家没感觉，因为你很难感受到他比别人强在哪、差在哪。虽然有跑分，但是现在大家不怎么看跑分了，跑分是比较容易刷的，我们可以刷题就可以直接把跑分刷上去，所以大家不看了。

而国际大厂的发布的话，通常还是会有体感的。比如说最近发布的GPT-5.1，它要在5.0的基础上多了这个点一出来，确实是更人性了一些，说话不再那么愣了。Grok 4.1情商更高，在所有的跑分里头，马斯克的Grok 4.1是情商跑分最高的。而Gemini 3 Pro绝对是理工科学霸的感觉，在推理这一块，它遥遥领先超过其他所有人了。

Gemini 3 Pro Preview：核心特性一览

分数呢还是要跑的，在很多的跑分方面，要比GPT-5.1、比Grok 4.1、Claude 4.5都要强非常的多。它最关键的领先就在于推理能力，真的是遥遥领先。

Gemini 3 Pro Preview到底有什么新特性呢？

超强推理：待会咱们就主要讲这个超强推理。
原生多模态。
开发者跟企业非常友好：它主要是给程序员和理工科的人去准备的。
原生的工具支撑：待会咱們去讲什么叫原生工具支撑。
速度飞快：这个挺难想象的，跑的比原来的模型快好多。

深入解析：Gemini 的推理能力进化之路

那么Gemini的推理到底是怎么进化到现在这个状态的呢？首先看跑分，他们使用了一个叫LMArena Elo的一个跑分，这个跑分呢大于1500分了。这个非常非常关键，是人类做大模型第一次超过1500分，它大概是1501分，从来没有其他大模型超过1500分。那什么意思呢？

1000-1200分：入门级会答题了，但是呢逻辑是很容易崩的。
1200-1400分：中级的，有一定的推理能力。
1400-1500分：强者，接近当代顶级了。
超过1500分：进入超强推理者级别了，明显比普通强者要更稳定、更强的一个状态。

现在呢，GPT也好、Claude 4.5也好、Grok，包括国内的这些模型呢，一般都是在1480-1490之间晃悠，但是很难超过1500。而这个Gemini 3 Pro是第一次超过1500。

推理范式的演进

谷歌的推理范式到底是怎么一步一步走到这的呢？所有这些推理模型，第一步走的都是叫链式推理，先干什么后干什么，这叫链式推理。从链式推理再往前发展的叫树状推理。我除了先干什么后干什么呀，我可以分叉了，我走到某一步搜索完了一个结果以后，我是不是可以一下分出5个X来，把这五个分支都处理掉，这叫树状推理。树状推理再往后呢，叫图状推理。这个有什么区别呢？树是只允许分叉，不允许合并的，走到每一个节点只能是越分越细，你不能说我走着走着再把它合并起来。你如果说走着走着又合并起来了，还可以进行反复的去确认，正向走逆向走都可以了，这就是一个图状推理了，这就更进一步了。而最后一步是什么？就是在图的每一个节点都进行工具调用的这种推理。谷歌呢，现在Gemini 3已经走到这一步了。

像刚才咱们甭管是链式的，它也是很多个节点，先干什么、后干什么、最后干什么，这是每一个节点里头正常情况下它是不调用工具的。它都是说我自己先想明白了，最后我把整个都想清楚了以后，我们再去调用工具。或者说我一开始先调用一次工具，比如说我搜索了或者读文件了，读完了以后我再去推理，它是这样来工作的。树状推理呢也是这样的，在每一个节点，我都是在大模型内部使用，或者说我根据你提供的上下文去干活，最后给你一个结果。如果要调用工具的话，要么在开始调，要么在结尾调，一般情况下不会在推理的过程中去调用一大堆工具的。而现在谷歌说咱别费劲了，我们在每一个节点上，图节点有可能是分叉的、有可能合并、有可能正向、有可能逆向的这些节点上，我们在任何一个节点上，如果有需要，我就去调用工具了。而且我能够保证它不崩。别人不是说不想干，别人你要想在这个中间节点上调用工具，他有可能逻辑就直接崩掉了。谷歌说我们不用担心这个，我们逻辑特别强，中间不崩。这是Gemini 3这一次做出的最大的创新。

与其他模型的对比

其他几家是怎么干的呢？

OpenAI (GPT)：它从来不公开这件事，所以GPT是个黑盒子。现在呢，猜测它可能也是这么干的，但是具体是怎么实现的，OpenAI是三缄其口，这压根没说。
Claude：走的是另外一条路，Claude走的是外挂的路，它的很多的工具调用都是通过像Claude code呀、cursor或者是Claude的客户端，它通过这个东西来去调用的。所以导致什么呢？我们可以在Claude code里去换大模型，因为调用工具的部分是外置的，不是在模型里面的。所以呢，它的调用一方面灵活性提升了，但是呢，它调用模型的这个过程稍微有一些割裂。
国内（如Deepseek）：走的就是超强的这种推理链，在这个链式推理的基础上不断的往前推进，但是他们在调用工具上就要稍微的差一些。

“衡水中学”式训练法？Gemini 3是如何炼成的

Gemini 3他到底是怎么训练成这样的？我看了他的训练介绍以后，我觉得这玩意是衡水中学的老师给训练的吧？

改变工作方式：预测下一个正确的思维过程

首先呢，Gemini 3改变了工作方式。原来大模型呢是预测下一个词，我下一个词放哪个词出来是最优解，它是这样来工作的。但是呢，Gemini 3不这么工作，它的工作方式是预测下一个正确的思维过程。你就不要给我下一个词了，你直接给我一个下一个你要干嘛，然后我们来看看这个是不是最优解。所以在这块呢，就已经发生改变了。

训练数据：高质量合成数据

那你说我要想训练Gemini 3，我到底哪找数据去？数据是不是已经被大模型吃干抹净都用完了呢？谷歌已经承认了，所有的人类数据早就被大模型收拾干净了。所以这一次，Gemini 3使用的数据是合成数据。怎么合成呢？是用谷歌自己最强的模型阅读人类知识，再生成高质量的推理步骤。它直接训练的都是推理步骤，把所有的教科书、所有的科技论文都通过AI重写，生成训练数据。大家注意，这个里头有两个关键词，第一个关键词叫“所有”，谷歌基本上是可以认为它有所有的信息的，他把他能够找到所有的信息都塞进去了。第二个关键词叫“重写”，我们写的很多论文也好，或者是很多教材也好，为了让人类可以很好的理解，或者说为了抖个机灵，里头还有非常多的修辞，有非常多的人文的东西在里面，比较啰嗦的东西在里面。他通过重写把这玩意全去了，变成非常非常原始、非常简单的这种推理步骤。你如果遇到这样问题应该怎么推，遇到那样问题怎么推，他是拿这种数据去训练的。

原生多模态：Video + Code 配对

而多模态的话是原生对齐。怎么个原生对齐法？原来咱们也号称是各种多模态模型，是用图片跟文字去配对的。就是这是一张图，后边呢是一堆文字，我们把这个东西堆到大模型的数据里头去训练，训练完了以后呢，他就可以去反应那边是一个马还是一个驴，还是在打仗还是什么，他拿这玩意去训练的。现在呢，谷歌用了一个叫video和code的配对。你给它一视频，比如说是一个小球落到地上的视频，后边呢你配的不是一个文字“小球掉地上了”，而是一个重力加速度的Python代码。他把这样的一个视频和代码的对儿放到数据集里头去训练多模态模型去了。所以呢，他的模型上来就是世界模型，他是理解物理世界的各种规律的，这个很恐怖。

训练策略：过程奖励模型

有了数据了，那下边怎么训练呢？训练策略也很重要。第一个叫过程奖励模型 (Process Reward Model)，这个是Gemini 3跟其他人不一样的。现在的大模型呢，拿了一大堆数据去给你去做预训练去，训练好了以后，这个初级模型呢要去做强化学习，让他回答问题，然后让人去纠错。Grok 4.1就属于强化学习做的特别好的这种模型。谷歌说别费劲了，人看不过来，原来都是人看着，现在咱们直接派一个模型看着。他专门训练了一个找错的模型，让他去看着Gemini 3这个预训练模型去做后续的强化学习，然后呢是由人去监督这个找错的模型，看看他工作的状态行不行就OK了。真正底下干脏活累活的已经变成大模型了。针对推理步骤进行评判，即使结果是正确的，只要中间步骤有错误，通通打回去重来。这就是为什么是可以做推理冠军，就是这样了。你做题做到10步的过程中，必须每步都对，然后得出正确答案，我们才认为你是真的学会这道题了。你说我推了中间有三步是错的，但我答案是对的，对不起，从第三步往后通通都没分了。他是这样来控错的。所以我说为什么这个训练过程让我想起了人大附中和衡水中学这种感觉呢。

训练创新：预训练阶段即集成工具调用

在训练上呢还有一点跟以前的大模型有一个很大的区别是什么，就是Gemini 3的工具调用是直接在预训练里头做的。传统的大模型，甭管是OpenAI的，还是Anthropic或者是国内这些模型，他们都是先把模型训练好，然后呢通过强化学习再把工具调用，哪个地方该搜索了、哪个地方该读什么文件了、哪个地方应该去调用哪个工具了，再往后边再去加进去。Gemini 3它是在预训练的时候就直接把这些搜索呀、调用工具呀这些东西作为初始数据就给训练到模型里去了。这也是为什么谷歌的Gemini它可以在推理的任何一个节点上去进行工具调用，而别的大模型干这事就比较费劲，因为他们都是先做好基础后训练出来的，这个事就比较难了。这就是Gemini 3训练的一个创新点吧。

为何如此之快？揭秘Gemini 3的速度奥秘

那你说为什么Gemini 3这么大的模型还飞快呢？它叫Gemini 3 Pro，它不叫Gemini 3 Flash。过个一两个月吧，Gemini 3 Flash应该还会发布，那个时候肯定会比Pro版本要快更多。Gemini 3 Pro就已经比Gemini 2.5 Pro要快非常非常多了。原因呢几个：

硬件：谷歌自己家的TPU V6版本已经全面都装到算力中心里去了，都开始干活了，所以速度很快。而且你想他自己设计的芯片，自己做的算法，那一定是配合的紧密无间，没有任何问题。
架构优化：原来呢，这些模型都是MOE模型，叫做符合专家模型。但是现在呢，Gemini 3叫多塔MOE。什么叫多塔呢？就是你的图文、声音、视频、代码，你到不同的塔里去干活去，每个塔里还有一个专家小组在等着你呢，所以他这样速度就很快了。
投机采样：最后呢，他们使用了一个东西叫投机采样，就是用一个极小的草稿模型先快速的猜出后边的几十个词，然后由大模型一次性验证，这比大模型一个字一个字往外蹦要快非常非常多了。

全面领先？四大顶尖模型角色定位

Gemini 3现在到底算不算全面领先了呢？这么讲吧，Gemini 3 Pro就是一个理科状元加上多模态分析师的一个形象。但是呢，你跟他聊天也像是在跟理科状元聊天。你想想理科状元那个语气、语调都是什么样的，大家自己脑补一下，就知道Gemini 3到底擅长干什么、不擅长干什么了。

Grok 4.1：是互联网老司机加上自信段子手，没有什么他不敢说的，胆子比较大，情商测试第一名。你如果想找人去陪你聊天，想聊着开心，你就找这个Grok 4.1没跑，在这点上它要比Gemini 3要强很多。
OpenAI家的GPT-5.1：算是全能型创作大师加上生态整合之王。因为毕竟他是老大嘛，头一个做出来的，所以他生态整合，就是跟各种工具的结合，还是非常非常好的。而且呢，他很适合做各种的文档创作，像是一个四平八稳的文员吧。
Claude 4.5 sonnet：算是语言艺术家加上安全派哲思者，它很适合做各种的合规、企业内的这种需要进行反复验证的这种文档，它写的要比GPT-5.1还要好一点点。GPT-5.1更创意一点吧，Claude 4.5 sonnet更擅长做长篇写作、逻辑清晰、道德判断、企业合规表达。

而Claude 4.5呢原来是编程冠军，现在的话肯定要经受Gemini 3的挑战了，到底哪个好使哪个不好使，要过几天再出结果。

至于国内的大模型呢，还在努力追赶吧。国内大模型的唯一优势就是开源，巨大的模型开源呢，你们拿愿意拿回去自己折腾都没关系。

总结

最后总结一下：

今天的内容全部是Gemini 3 Pro整理生成的。如果哪说错了不要骂我，去骂Gemini 3 Pro。
第二个，我其实呢并不喜欢用Gemini 3 Pro，今天用了一天，原因也很简单，跟理科状元聊天还是有点累的。
AI还在快速的发展，Gemini 3真正的价值不是说它给我们训练出了一个理科状元，而是提出了一套新的方法论，怎么能够训练出一个理科状元来，这个是非常非常有价值的。有卡的公司就可以照着这个思路去尝试了。
至于没卡的公司怎么办，那就是另外一回事了。希望这一轮对AI泡沫的质疑可以快一些过去吧，Gemini 3 Pro确确实实是可以解决很多原来无法解决的问题的。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。

Luke Fan — Mon, 18 Aug 2025 13:35:27 +0000

8月14号，英国金融时报发了一篇报道，说Deepseek R2模型之所以难产，是因为在使用华为升腾芯片训练的时候，持续遇到了技术问题，最后被迫改用了英伟达芯片。甚至透露华为曾经派出一支救火队，常驻在Deepseek，手把手帮忙调教升腾服务器，但仍然无法完成训练。无奈之下，Deepseek只能退回老路训练，重新切换回性能更加可靠的Nvidia的GPU，升腾芯片仅退居辅助，用于模型推理环节。

虽然没有华为和Deepseek官方的回应，也没有他们的辟谣，但是呢，据说是援引了三位知情人士的一些说法，也进行了很多交叉验证，所以这个事情呢，大概率是真的。

国运跟国运相碰撞的时候，升腾也号称是国运级产品，Deepseek肯定是国运级产品，为什么是升腾不灵呢？升腾芯片是可以替代的，也还有一堆竞争对手，所以出现问题以后，他的竞争对手会帮他去宣传。而Deepseek虽然在国内也有模型在追赶，但是地位是不一样的。升腾和国内的其他算力芯片，以及其他那些大模型，从来没有像Deepseek那样震动过世界。所以呢发生碰撞的时候，必须是升腾不行了，不可能是Deepseek不行了。

大家为什么会这么期待Deepseek R2呢？现在又有千问3，也有Kimi、Mini Max，还有豆包等，有一大堆的这些模型出来，怎么就只有Deepseek才行呢？其他人为啥都不行呢？其实现在呢，很多新的这些模型已经并不比Deepseek R1的性能差了，基本上是可以替代使用的。但是大家依然在期盼Deepseek R2，而且你只要讲Deepseek要出R2了，就会有流量。这个原因其实很简单，因为我们在跟国外的大模型竞争中打不过了。

国外已经进入了10万级芯片的训练时代了。Llama4，40万块H100训练出来的。虽然Llama4翻车了，但那也是10万块。而马斯克XAI的Grok 4，20万块H100训练出来的，效果相当不错。GPT5的话，现在推测也是20万块H100训练出来的。Anthropic的Claude 4，据说呢是40万块H100，但是呢它这个数并不是那么准确，40万块H100呢是一个部署的数量，并不是精确的训练的数量。另外一个没说的是Gemini 2.5。Gemini的2.5是没有公开数据，因为他们家使的TPU，其他人都是使的GPU，所以呢没有办法去比较，但应该也是几十万块H100的一个算力，才有可能训练出Gemini 2.5来。

以前是一个国外大模型特别强，特别是GPT4压着所有的模型的时候，我们终于期盼到了Deepseek R1一出来，觉得我们好像又可以了。但是现在我们发现，国内的大模型跟国外这些明显有差距了。我们只能再去期盼Deepseek，因为其他这些肯定是追不上的。那没有20万块H100，这个日子就没法过了。国内的算力芯片呢，大家也都知道不是那么靠谱。这个时候大家期待的就是奇迹了。

Deepseek V3、Deepseek R1，他们呢号称使用了2,048块H800，还不是H100。他们这个算力转换，可能也就是1,000多块H100。拿这样的算力就直接训练出来了，大家觉得你们可以用很少的卡训练出来，还可以震惊世界。现在我们还搞不定20万块的H100，是不是依然可以期待Deepseek再创造一次奇迹呢？

Meta花了好多钱收入进去的亚历山大王曾经在接受采访的时候说，Deepseek手里头有5万块H100，压根就不是他讲的几千块就给这事搞定的事。而且呢，新加坡3月份还抓了一些向大陆走私英伟达芯片的人，有传闻说这些芯片的采购方里边包括Deepseek。

Deepseek呢也正式做出过回应，2025年2月份做了回应。Deepseek强调，仅使用了2023年合法采购的H800芯片，其他我都没用。但是讲完了这个以后，甭管你原来这个东西到底有还是没有，你讲这个话以后肯定就不能再用了吧？所以呢现在大家期待说，这个反正你们原来是这么讲的，我们就这么信了。那以后呢创造奇迹也只能是等着你了。哪怕是使用H20芯片，用很少的芯片训练出来，堪比20万块H100芯片训练结果的这种奇迹，也不是完全不可能吧？这个怎么说呢，人有多大胆，地有多大产吧。我们总还是要有一些希望吧。

新的模型没有出来，但是新的论文呢，Deepseek其实一直不断在产生。在V3跟R1之前，Deepseek也没做什么铺垫，这不也就突然蹦出来了吗？他是这样去期待这个Deepseek的。

原来讲是8月15号到30号之间要发新版本，最后Deepseek自己出来辟谣说：“对不起，我们发不出来。”英国金融时报出来说，被这个升腾给拖累了。那这消息是怎么传出来的呢？Deepseek原来是有没有说过自己要去发Deepseek R2这件事呢？

首先呢，是Deepseek R1震动了世界，应该是在2025年春节前后的时候，我印象里特别深刻。Deepseek R1出来以后，我还连续做了很多天的直播来跟大家讲这个事情。国际大厂呢，在Deepseek R1的这种搅动之下，纷纷转向。转向什么呢？主攻数学、科学与编程，然后呢是长上下文、工具调用和agent，以及指令依从、降低幻觉。

数学跟科学这块呢实在太难了，这个咱们不擅长，而且那个你真的是需要可能10万块、20万块卡，你才可以把这事搞定，咱们没有。那编程呢基本可用，国内的这些模型做编程，肯定没有Anthropic的Claude 4好用，但是呢也基本上可以跑。长上下文、工具调用和agent这块呢，包括指令依从这一块呢必须要有，这一块其实国内的大模型基本上已经追上了。剩下的呢降低幻觉这事咱们就不谈了，反正有幻觉还是可以甩锅的事情。全面开源，这个是国内大模型真正卷的地方。千问直接把200多b的模型直接就开源出去了，Deepseek 600多b的模型直接开源出去了。这件事情我们在努力的往前走，所以各有所长吧。基础设施这块、数学科学这部分实在是费劲，大家就期待Deepseek来再创辉煌了，其他人就不管了。

Deepseek发R2这件事呢，其实传了两回。一回呢5月份，风起云涌。每一次说Deepseek要出R2的时候呢，都是风起云涌的时候，大家都在上新模型，说呀Deepseek你也得上，所以就会开始给他传这个事儿。

今年5月份，发生了一些什么样的事情呢？首先呢Claude 4、Opensource和sonnet这些模型直接出来了，王炸。5月份开谷歌IO，Gemini 2.5 Pro和Gemini 2.5 Flash直接发布，这个其实现在已经是我的主力模型了。GPT呢当时倒是没有什么特别大的动作，上了一个Deepseek 4.5，但是呢也没有引起特别多的响动。大家就说Deepseek你们也该来了。但其实呢Deepseek没有去出R2，而是把Deepseek R1的模型稍微的小步更新了一点点。

6月26日，the information就做了一个报道，说Deepseek R2原来计划是5月份发布的，但是呢因为梁文峰对于Deepseek R2表现的性能不是很满意，决定推迟了。路透社呢也引用了the information的这个报道，国内的媒体呢也纷纷去引用。但是这件事呢，并没有得到Deepseek官方的回应。Deepseek这个公司就是这样，他基本上不怎么回应大家的这个响动。你们猜吧，猜完了以后我也不理你，除非是有一些太过分的，否则他一般不说什么。

Deepseek呢也不是说没更新，就是做小版本更新。像Deepseek V3出了0324版，也就是2025年3月24号出了一个版，把分数又往上刷了刷。因为每一次去更新这些模型，一定要刷分数上去。代码能力，特别是前端代码能力呢，有所提升。拿这玩意写个网页没什么问题，但你说我要做一些大的架构，或者做一些这种后端的东西，可能就要稍微费劲一点。做算法的东西要费劲一点。为什么？因为它Deepseek有一个问题，就是它的上下文比较短，想去做一些大的架构上的东西，你必须上下文长，你得能把整个代码塞进去才行，这块还是要费点劲的。然后他把中文写作能力做了一些提升，Deepseek其实一直在努力的方向，就是中文推理。因为在海外的这些模型，很多都是使用英文推理，然后再翻译成中文的。他说我们直接用中文推理这个事，是不是OK？他们一直在努力干这件事情。使用体验上呢也有所提升，特别是function call更加准确了。在做AI agent的时候，其实核心就是function call的能力，就是我们先描述一堆的功能，然后交给大模型，大模型在完成整个的语言生成的过程中呢，去根据你描述进来的这些function，去决定我要调哪个、不调哪个，或者如何去调用、什么时候调用。Deepseek V3 0324呢，就在这一块做了一些增强。

Deepseek的R1呢，其实也更新了一个版本，就是0528。大家在传说Deepseek要出R2，讲的其实就是0528的这个版本。而这个版本呢，其把这个分又往前刷了刷，减少生成的一些错误信息。因为Deepseek最大的让大家无法忍受的东西是什么呢？就是胡编乱造，他太喜欢瞎编了。所以在这一块呢，稍微做了一些调整，但是依然胡编乱造的很厉害。Deepseek 210528呢，还支持了Json输出和function coding，提升了调用的准确度，但是呢不能叫R2。这就是5月28号的这个版本。

紧跟着就开始传说了，说8月15号到8月30号，要准备发布Deepseek R2了。这个消息是怎么来的呢？首先肯定还是要风起云涌一下。8月份发生了些什么事情呢？马斯克XAI的GROK4发布了，Anthropic又发布了Claude 4.1 Opensource，OpenAI发布了GPT5。GPT5这东西到底好不好使，大家各自去领会。大家可以认为说，GPT5是一个划时代的产品，但是也可以认为说，GPT5就是山姆奥特曼为了要去忽悠融资去搞的一个事情。因为GPT5出来以后，OpenAI的估值已经正式从3,000亿美金提升到5,000亿美金了，而且是孙正义要去买这个单，说您这5,000亿美金我认了，我去买去。

所以呢8月份风起云涌了。那么空穴来风呢，你这事怪不得别人。在Reddit上有人发了个帖子，这个帖子特别有意思，他说他去问了Deepseek R1：“Deepseek R2什么时候发布？”他等于是把这个东西交给Deepseek R1了。但是大家注意，Deepseek R1这个大模型呢，它并不代表Deepseek这公司的一些官方的观点，只是说这个模型给你生成了这样的一个结果。Deepseek R1回答了：“8月15号到8月30号之间发布。”而且号称呢是引用了雪球和东方财富等可信的信源，而且进行了多个渠道的证实。

Deepseek R1的幻觉其实一直都是很严重的，虽然经过0528的调整以后，但依然很吓人。而且Deepseek R1的最大幻觉是什么？就是编造可信的信源。说我从哪哪引用了，你点进去以后，压根就没有这篇文章。但是甭管怎么说，这个文章就在Reddit上就贴出来了，随后呢这个消息就逐渐的被传播和放大了。国内的很多的媒体、自媒体就开始引用这篇消息，特别呢是华为下边的一些科技媒体进行了转载。而且呢在标题里边还夹带了私货，讲的是什么呢？讲的是深度求索，就是Deepseek这个公司，“升腾芯片版本Deepseek R2预计在本月发布”。它讲的就是说，它是使用升腾芯片来去做训练的。

华为都说了，两大国运级产品强强联合了，那信吧，这事怎么办呢？国内一帮的媒体就冲上去说：“我们信了，确实是有这事了。”到8月14号，英国的金融时报出来报道，说升腾芯片拖累了Deepseek 2。然后动点科技、腾讯科技就出来辟谣，原引自公司内部人士，也就是Deepseek这公司里边的人说了，说8月份不会发布Deepseek R2。所以呢，8月15号到30号之间发布Deepseek R2的一个消息，实际上是Deepseek R1自己编出来的，其他人把这个编的信息信了，直接截了个图发到这个Reddit上，以此来发酵出来的一个过程。

那么Deepseek R2到底遇到了一些什么样的问题呢？首先升腾芯片确实是有问题的。升腾910C的这个芯片，虽然单芯片的算力在部分指标上呢，已经达到了H100的水平，但是呢显存的带宽不够，想从显存里调数据回来，速度是没有H100快的。而且最大的问题是什么？就是多个芯片之间的速度，就是我需要把数据在多个芯片之间进行流通的时候，这个速度是相对来说比较差的，而且差的很远。你要想去做同样的训练的话，你就需要更多的时间全功率的去运转。因为你想，人家都已经达到20万块H100这样的集群的规模再去训练新的模型了，你没准就是需要这个50万块或者60万块升腾910C串在一起，才能达到人家那个算力，而且你需要很长的时间去连续的运作，这个对于升腾910C的这种考验来说就比较大了。

这样的芯片，其实是没有办法长时间稳定地去运行的。并不是说训练一个模型，这头输入进去数据，过三个月去开盖看结果。中间每过一段时间，可以取得阶段性成果，再继续往下训练。但是中间这个过程呢，你是不能停的。你中间比如说准备了一批数据，你去训练了，如果这批数据没有训练完，升腾910C就直接冒烟了，就不干活了，这一波呢就白干了，你必须要从这个节点接着往后干。这个玩意有点像什么？有点像打怪升级，你一定要打死这个妖怪才能存盘，你没打死这个妖怪就不让你存盘。升腾910C在这块差一点。

那为什么差呢？升腾910C呢，是两个910B堆叠在一起的，散热肯定会出问题。就算是上了液冷以后，依然是搞不定这个事情。

其实同样的坑，英伟达也踩过。大家还记得H100独挑大梁好久了吗？很多人应该还是有印象的。甚至呢到现在为止，H100已经成为一种计量单位了。现在我们再去算说：“你这个算力相当于多少英伟达芯片呀？”我们都是以H100的这个算力作为一个计量单位的。就是因为H100挺长时间在那孤独一只。为什么它会孤独一只呢？本来计划替代H100的这个产品叫B100，叫Blackwell黑井100，这个芯片直接就跳票了。研究完了以后开了发布会，开完了以后，这个芯片压根就没有大规模的部署，也没有交付。为什么呢？就是他做的就是这种堆叠技术，导致散热失败。散热失败了以后会直接把版卡烧掉，这压根就没有办法去交付。到H200出来了以后说：“那这咱交付这个呗。”但是一开始依然是受困于散热问题，导致了大规模交付的延迟，一直到今年才开始去交付H200。

后面的工艺呢不断的进步，再加上全面液冷。H100这些机器是可以进行风冷的，你拿风扇吹它是OK的。但是到H200这个机器开始交付的时候，你必须是液冷。而且这种液冷呢，还不是种普通的液冷，叫完全浸泡式液冷。见过这种游戏主机装机视频的这些人，会知道他们那个液冷是怎么做的。他在芯片外面给你涂散热的胶，然后呢把这个液冷管贴上去，靠这个液体呢快速的把你热量带走到外边，再去找风扇把这个水给你吹凉了，再重新循环，它是这样来工作的。但是这种工作方式对于H200来说还是不行的，它必须是全浸泡式的，就是把整个的H200的芯片，或者包括它整个的板卡，一起泡在这个液体里头。这就肯定不是水了嘛，是一些不导电的水，整个泡在里头，才能够达到散热的这个能力。

当然了，甭管是英伟达也好，还是升腾也好，散热都是有问题的，导致什么呢？就是液冷概念股都涨疯了。你只要说我这公司是做液冷的，就赶快涨。而且现在都是浸没式液冷，就把整个板卡都泡里头。A股上强瑞科技、英维克、深林环境、飞龙股份，大概有十来家公司，都是专门做液冷的。飞龙股份是专门给升腾这个384超节点做液冷的。美股那边的话，有一个叫VERTIV的一个公司，它的代码是VRT，是专门给英伟达做液冷的公司，这个公司的股票也是涨的可好了。

讲回来，910C这个芯片连续的做长时间训练的话，液冷也压不住，直接把板卡烧掉。即使是有大量的华为的工程师坐在Deepseek公司里头，出来我帮你调，他也调不过去。实际上这些华为工程师能调什么呢？他们只能调一件事，就是CUDA里头没有实现的部分，我来帮你去实现一下。华为的这个升腾910C，他们使用的训练相关的代码的话，是华为自己开源的一套训练框架。这套框架据说是可以实现CUDA 70%的功能，但是还有30%你是实现不了的。那这一部分由华为的工程师到现场来搞定。再怎么搞，该冒烟、该着火、机器直接停摆，这个事它是解决不了这问题的。

另外一个传闻，DEEPSEEK R2出不来的原因是什么呢？是数据标注的质量跟速度不过关。这个呢也没有得到官方的证实，也是坊间在流传。因为在中国嘛，很多的数据肯定还是需要去审核一下的，这个审核的过程是相对来说比较麻烦的。

而且Deepseek呢，其实一直也是一个比较低调的公司。提前预热，不停的出来吹牛，这件事呢是容易翻车的。山姆奥特曼每次出来讲GPT5，说：“我太震惊了，我从来没见过这么棒的。”等GPT5发布的时候，大家说：“这就能让你震惊了？您到底是眼皮子有多浅？”马斯克在发布GROK4之前，也在说：“这是我所见过的最聪明的大模型。”也有人认为老马吹的有点过头了。

其他的公司都必须不断的发模型，跟着一起卷，不断的来吹牛，这个事是有原因的。为什么？因为这些公司是需要融资的。马斯克发GROK4发完了以后，马上就给XAI去融资。山姆奥特曼GPT5发完了马上融资，这公司直接值到5,000亿美金了，他现在已经是没有上市公司里头最贵的一家了。第二家应该是SpaceX，再往后是3,000多亿的字节跳动。但是大家注意，字节跳动的收入现在好像已经超过Meta了，这个是非常吓人的一个事情。所以这些人他有融资的需求，你就必须得不断的出来炒这个热点。不炒的话，你说我现在想提高估值，融资这事费劲了。而且现在Anthropic也在融资，而且是要按照1,500亿美金的估值要去融资，我估计他们后边的日子不是那么好过，现在他们的CEO应该已经奔中东，找中东土豪去给钱去了。

谷歌呢虽然不需要融资，但它后边有股市、有股价、有市值这些东西，所以呢不能落后，所以谷歌也必须要不停的推陈出新。实在做不出来东西呢，确实哪块也做的不太行，怎么办呢？你还可以像扎克伯格那样，表演抢人大戏这种行为艺术。我发2亿美金的薪水，我把人抢回来。虽然你的Llama4像屎一样，Llama再往后怎么走谁也不知道，但是看到你表演行为艺术表演的这么热闹的话，Meta的股价涨的也还可以。所以大家必须不停地去表演。

但Deepseek自己，他没有这种融资的需求，所以呢也并不太需要出来表演，自己踏踏实实做自己的事就好了。至于说他到底做成什么样，咱们也只能在外边来看。

大家有没有想过这样的一个问题：到底是谁家的芯片能够训练大模型呢？训练跟推理是完全两个不同的概念。训练你是必须要长时间高强度的工作，而且在中间是不允许停的。而且在训练的过程中，我们需要在更多的芯片之间进行数据的调度，更更大规模的这种协同。国内的这些算力服务器都搞不定这件事情，他没有办法说让这么多的芯片相互之间进行协调的情况下，这么长时间稳定的工作下去。推理的话相对来说要简单一些，可能只要几个芯片读出很少的数据来，他就可以把这事干完。比如说我们去提了一个问题，他给我们过了几秒钟做了一个反馈，反馈完了以后呢，他就可以再给我们分配其他芯片了。在这个过程中，芯片出现任何的问题，过热了或者说你对资源进行切换了，它是不影响的。所以呢推理咱们国内的这套系统是可以的，但是训练搞不定。

那么到底谁家的芯片可以做训练？英伟达这个必然是可以的。除了英伟达之外，还有哪些芯片可以进行大规模的这种模型训练呢？你说我这个芯片训练了一个10B的、20B的模型，这不算。或者说你说我这个虽然能够训练，但是我训练的模型从来没有人用过，这个也不算。现在唯一证实了可以进行大规模训练的，而且是训练这种大模型的，还被大家普遍接受和使用的，猜猜是谁？

很多人可能会猜是不是AMD？AMD MI300，或者现在应该是MI三百零几了吧，这样的一个芯片。不是他们。现在唯一的一个能干这个活的人，是谷歌的TPU。Gemini大模型是在上面训练出来的，Anthropic的Claude模型有部分声称是在TPU上训练的。除了英伟达之外就是他们了，再没有第二家了。

那老牌厂商像AMD、英特尔，号称我这个芯片是可以进行大规模的模型训练的，也给出了一些用他们的芯片训练大模型的实例，甚至呢还训练了一些不太流行的小模型拿出来去开源，但是他们训练出来的模型也没人用。AMD跟英特尔呢，一般大概也就是10B或者20B以内的这些小模型。另外一个呢就是富士通，富士通用一款ARM的CPU呢，也训练过一点可能也是10B以内的这种小模型吧，也没有听说过谁去用他们。

其他的一些ASIC芯片呢，也是号称自己能做。所谓ASIC芯片呢叫专用集成电路，像升腾、谷歌TPU呢都属于ASIC。亚马逊、阿里、百度呢，也都号称可以进行训练，但是呢没有实例。亚马逊号称是我拿自己的ASIC芯片呢，做了一些训练，也有几个模型，但是呢谁都没用过。OpenAI的模型，有些据说是在亚马逊上进行训练，但这个事呢，也没有得到最终的证实。百度呢是号称自己设计的ASIC芯片可以去进行训练，但是反正百度自己家的模型烂的跟屎一样，我们就不去评论了。

至于华为的升腾芯片呢，科大讯飞号称是在上面训练的。但是呢也有朋友跟我讲说，科大讯飞其实是在英伟达上训练出来的，只是呢对外宣称是在升腾上训练的，这个我们就不去做考证了。只是科大讯飞的模型，其实也没有那么普遍，除了一些教育领域里头有些人会去用，其他的让你自由选择的时候，很少有人会去选择用科大讯飞的模型。华为呢自己号称是在升腾模型上训练了盘古大模型，但是呢前面被内部的人指责蒸馏、指责抄袭，之后就不再有任何声音了。所以现在华为已经不再提他的盘古大模型这事了，估计是准备装一段时间的死狗以后，再次遥遥领先。所以华为的升腾模型，其实没有证实过训练成功过任何的大模型。Deepseek R2呢，应该是真的尝试过，但是败下阵来。

华为跟Deepseek官方呢，都没有出来证实，就既没有出来说我用了，也没有出来说我没用。所以呢升腾芯片，没有成功的训练出过任何一款大家普遍使用的模型。

那么国内的算力芯片是怎么样去竞争的呢？英伟达大概占54%，就一半多。升腾呢占28%，其实已经占的非常非常多了。像寒武纪等等其他的一些芯片公司的，所有的加在一起，可能还加上AMD的吧，一共占18%。这个大就是国内整个的算力芯片的一个分布情况。

国产的芯片呢，目前来看都是可以去做推理了，但是呢没有哪一个真的跑出来模型过。所以国内的算力芯片，基本上是没有办法做训练的。

现在呢还有一群的“赢学家”在鼓吹英伟达芯片里头有追踪器。但是这些“赢学家”呢，现在有点吹不下去了。他说呀：“这个英伟达的芯片里头，是不是在集装箱里装追踪器了？”还有人说：“是不是在包装箱里装追踪器了？”或者是说：“在服务器里边装追踪器了？”因为他们也知道，在这个芯片里头是装不上的。还有人说：“H20这里头肯定没有追踪器，但是呢H100、B200这个里头有追踪器。”这个呢都想多了。因为中国人是经历过挖矿的，我们是完完全全可以把芯片整个扒下来，重新拿新的版卡去焊。而且大量的，其实做英伟达版卡的公司就在国内，所以我们完全可以拿他的版卡，自己回来去加工这个事情。装追踪器这个事是没用的。

中国官方对于H20的态度呢，也很暧昧。有人就到外交部的新闻发布会上就问：“说你们是不是要准备禁售H20？”外交部的新闻发言人回答是：“没听说过这件事情。”中国的这些官员回答，一般都不会说是或者不是，通常回答是：“请你看以前的表态”，或者“请你看有关部门的表态”，或者说“我不知道”、“没有听说过”。所以他这一次的回答叫“没听说过”。

中国政府呢，也没有明令禁止说我们去销售H20或者谁去买这东西。但是呢潜规则就是这样去运营的。多家媒体，比如说Bloomberg、Marketwatch就做了些报道，说中国的监管部门针对H20芯片表达了强烈的不信任和谨慎态度，尤其是强调相关芯片可能存在后门的风险和数据隐患，建议企业回避在政府或敏感用途使用H20。所以呢这些H20可能最后去做训练就完了，推理的这块就通通交给国内的升腾384超节点就OK了。

还有报道说字节跳动、腾讯、百度等企业被召集，这些人是准备去买H20的。国内的有关部门把你们都召集一块说：“你们为什么要买这东西？买多少？”给他们开这样的会。监管侧重国家安全与网络安全审查，并未提出商业禁令，就是我们还是让你买，但是你买之前呢，我们得把你拎来稍微恶心恶心。所以现在都约谈过了。

总结一下吧。Deepseek R2呢确实是难产了，肯定的没有出来。国内的算力芯片目前呢，也无法进行大规模的模型训练，可以进行推理这个事没问题了，但是训练搞不定。20万块H100量级以上的大模型训练，国内很难突破。如果20万块串在一块可以训练大模型的话，我们可能至少需要40万块或者50万块，比如像升腾910C这样的芯片凑在一起，而且我们所需要消耗的电和时间，可能都是要呈几何级数上升的。因为我们卡之间的联通的速度是相对来说比较慢的。所以比如说H100，它也不是说一直就不坏，它可能工作个20个小时或者是40个小时都会坏一次，会出现问题，对于老外来说就可以去接受了。对于我们来说呢，我们可能要求要连续坚持500个小时不出问题，才能够回收回来数据了，因为算的慢嘛，真的达不到。大概就是这样的一个情况。

国内算力卡的这些供应商呢，很有可能会阻碍中国大模型的进展和训练。为什么呢？自己做不好，你又不让别人买H20，可能中国的大模型再往下一步走，就会变得非常非常困难了。

未来国内算力卡是不是可以训练大模型呢？反正一两年之内呢稍微有一些困难吧。国内的大模型到底能不能用呢？基本还是能跑的。高深的数学、科研研究、物理学或者这些基础学科，我们不去研究了。就是让你去做一些信息整理，现在国内大模型基本上都是可以用的。

还是稍微耐心地等待一下Deepseek的慢慢发展吧，它反正中间只要不需要融资，它也不需要出来吆喝，万一有惊喜呢？这个也不好说。这就是我们今天要讲的故事。

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

Luke Fan — Tue, 29 Jul 2025 00:57:08 +0000

遥遥领先的华为升腾384超节点，是不是又立功了？

大家好，欢迎收听老范讲故事的YouTube频道。

上海人工智能大会上，有一个镇场之宝，就是华为升腾384超节点。叫这个名字很怪，其实就是华为做的算力超级节点，华为云矩阵。384超节点这个东西，从外边看上去呢，像一堵墙一样，反正摆在厂子里头也确实比较唬人，而且也很昂贵。

很多人就兴奋了，说我们是不是又打破了西方的垄断呢？西方人对我们禁运，不给我们卖英伟达最好的芯片，我们自己造出来了。这个事到底达没达到呢？可以说部分达到了。在集群总的FP16算力上，为什么一定要强调这个？就是它在不同精度上的算力是不一样的。在FP16算力上呢，华为升腾384超节点，是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢？

现在我们去想算力，它是分三个层次的。第一个就是卡，卡这件事呢，咱肯定比不过人家，甭管你是比H100还是GB200，你根本比不过人家。第二个呢，就是叫整机，我是一台服务器。你像AMD呢，就是卖这种东西，就是我一台服务器里头有8个，他们叫MI300这样的服务器。第三种维度呢，就是说我给你卖一整个柜子，像NVL72呢，就属于整个柜子，我把72个H100或者72个GB200这样的东西，装在一个柜子里头，当成一台机器一把卖给你。

现在西方最主要的算力节点，就是NVL72。但是呢，同样的NVL72呢，它里头到底装的是H100，还是装的GB200呢？它算力是不一样的。华为升腾的384超节点，它超过了H100的NVL72的算力，但是呢，达不到GB200的NVL72的算力。虽然在其他方面呢有所欠缺，但是呢，也算是突破了一层西方限制吧。这个欠缺的部分，待会儿我们再去讲。

升腾384超节点，到底是一个什么样的架构呢？一面墙，为什么是一面墙？它是16个标准19寸机柜，这柜子的大小是有标准的。NVL72就是英伟达的，这个设备呢是一个柜子，咱是16个柜子。这个16个柜子里头呢，4个柜子是交换机，因为你这么多设备要拼在一起，你总是需要一些网络交换设备，去支撑它们的。所以有4柜子交换机，剩下12个柜子呢，是装的算力服务器。

每个柜子里头呢，是4台4U的升腾服务器。这个服务器呢，是按1U、2U，大概4U应该有这么高吧，这个就是4U的服务器，4台装在里头。当然它也装不满，这一个柜子里头应该是19U还是多少U，我记不太清了。剩下这空间，你还得放各种的路由设备、交换设备，因为你这些服务器之间，你还要通讯呢。

所以12个算力服务器柜里头，每个柜子里装了4台服务器，每个服务器里头呢，是4个鲲鹏920 CPU和8个升腾910C的NPU。所以呢，他把所有的NPU算一块，就是升腾910C的NPU，算一块呢是384个，这个名字是这么来的，384超节点。它等于是把384个NPU搁在一起，给大家干活儿。

鲲鹏CPU呢，应该是一个兼容ARM指令集的自主IP的CPU。鲲鹏早期的CPU呢，是使用的ARM IP，后来呢，为了防止美国人告他嘛，所以呢，他自己研究了一些新的架构，说我们不再使用ARM架构了，但是呢，它的指令集呢，还是部分兼容ARM的。里边装的操作系统是什么？鸿蒙，里头装的鸿蒙操作系统，但是它是专门给服务器用的。

升腾910C呢，也是一个自主架构，叫达芬奇架构的一个NPU。所谓的NPU呢，叫神经网络处理单元，实际上呢，是一种ASIC处理器。它是自己定制的一个大型集成电路，所以它不是CPU，它有自己的指令集，跟任何的CPU、GPU的指令集都不一样。这个是910C，这两个芯片呢，应该都是7纳米的芯片。但是现在嘛，华为的芯片都搞得神神秘秘的，做了一大堆7纳米的芯片，到底谁做的也不知道，怎么做出来的也不知道，反正就是7纳米的，把这些芯片造出来了。

下一件事是干嘛？就是要通讯。所有的这种算力服务器里头，实际上是三样东西。一个是GPU跟CPU，第二个呢是它的内存，这里头也有HBM内存，它的内存比NVL72给的还多，因为它里头的芯片多嘛，这个装了这么多柜子，咱总要多放一些。第三个呢，就是要通讯，卡跟卡之间是要去通讯的。

像这个NVL72，就是英伟达的这个设备呢，它里头使用NVLink呀，使用其他的一些协议，和一些专门的设备，去让它们进行通讯。不同的卡，它可以直接去调用其他机柜里头的HBM，这种高速的显存。这样的话，它的效率就会很高。拿这个设备去做大模型训练和推理的人呢，就完完全全可以把这一柜子72个GPU，当成一个GPU去使用。里头具体咋调动，你不管了，这个数据到底是放在哪个服务器的哪一个卡旁边的HBM的空间里头，你也不用去管了，它自己去调度去了。而且速度都很快，即使是跨服务器跨卡的这种调度，它不会影响任何速度。这是NVL72处理的方式。

升腾384超节点呢，服务器比别人多，里头的卡也比别人多，人家72个卡，他384个卡。他的通讯呢，肯定是处理起来更复杂的。它通讯呢，使用的是全线光模块，像NVL72里头还是有一部分是铜线的，有一部分是光模块，这个里边全是光模块，堆料堆的非常非常足。这样可以保证呢，这些芯片之间的通讯，服务器之间的通讯效率都非常高。所以为什么这里头，还有4个柜子的交换机呢？那些光模块，有些还是要通过交换机的交换以后，才可以找到下一个机柜里边的服务器，然后在里边找到你需要的地址，找到你需要的数据，才可以把它拉回来。所以呢，它整个的运作方式还是比较费劲的。

当然，光模块多了呢，也有光模块的问题，不是说我们上了光模块就完事了。光模块的问题是发热严重，它里头是个激光发生器嘛，故障率也比较高，这个玩意比较爱坏。还有一个问题呢，就是它的激光发生器的寿命呢，不是很长。所以使用这么多的光模块，它的运营维护成本和稳定性呢，都不是那么理想。

物理上连通了，那下一个问题是什么呢？我就要通过软件逻辑和分配上，我要把刚才我们讲的光模块这些缺陷，要给它处理掉。以前做工程上，有一个典型的故事，叫99米长的枪，什么意思？就是说我这个枪只能打一米远，但是呢，我要打中100米之外的那个鸟，怎么办？作为工程师来说，处理的方式就是造一支99米长的枪，把这个枪伸过去，乓一下，把那鸟打死。这个在工程上呢，并不可笑，在工程上，很多的解决方案都是这样的。

所以呢，升腾384超节点呢，也用了一些软件和逻辑的方式，来去解决光模块不稳定性的问题。它会自动的去判断说，我这不是不是光模块断了呀，还是说哪块出故障了呀，我怎么绕一下。它在每一个NPU外边挂了6-8个光模块，这坏了以后，还有其他路径可以走，我可以做冗余备份吗？

我们用了16倍的英伟达NVL72的体积，和3倍的耗电，来解决NVL72加上H100芯片所能达到的算力需求。这个就是我们现在干的活。三倍耗电这事很好理解吗？人家是5纳米或者是3纳米，咱们这个是7纳米，肯定是耗电发热要比别人厉害。人家是72个芯片，咱们是384个芯片，你比别人耗3倍的电，这个还算是好理解的一个地方。

它的功率呢，是559千瓦，开起来以后还是非常非常耗电的。559千瓦呢，还只是机器的耗电，还没算散热呢。散热加上以后的话，可能会到600-700千瓦之间的一个耗电。为什么这么说呢？升腾上一代做的类似这种东西，大概是10%的耗电量来去散热，比如这边用100瓦的电量去做了算力了，那边用10瓦的电量去做散热，他是这样来去做的。但是呢，这个384超节点，因为里边用了太多的光模块，好像是用了6000多个光模块，那么你的散热的耗电的话，肯定也是要上升很大一块的。散热不好的话，你的激光模块损耗的就会更快一些。它整个的系统完全是强制水冷，其实NVL72也是强制水冷，只是呢，它在一个柜子里，相对来说还比较好弄。升腾384超节点呢，因为在16个柜子里，整整一面墙，你要再给它配水冷呢，这个事费点劲吧，但是还是可以解决的。所以耗电比较厉害。

那么电费呢，中国还是相对来说比较便宜的。中国的工业用电呢，大概是6毛钱一度，其实美国也差不太多，我看了一下美国的平均工业用电，大概是8美分多一些吧，大概也是6毛多钱。美国有一个州电价比较便宜的，是路易斯安娜州，4毛多钱一度电。美国大概最贵的是加州，14美分，大概快一块钱一度电了。加州因为硅谷在那嘛，再加上机房也比较多，所以他那的电特别贵。中国的发电大省，比如说像云贵、内蒙、新疆这些省，如果是集中大规模的采购用电的话，应该可以做到2毛多一度电。按照咱们最便宜的电费，跟美国的平均电价去比较的话，我们的电费是他们的1/3。所以呢，我们耗英伟达NVL72三倍的电，这个也是可以接受的。所以我们依靠电价优势，勉强可以抹平成本。

升腾384超节点的生态如何呢？英伟达之所以可以打败天下无敌手，核心的原因，不是说别人造不出来这样的东西，而是呢，它有一个生态捆死了，大家离不开它。CUDA呀、NVLink呀，这些生态帮助老黄，整个的竞争过程中无往而不利。那你说我们现在做了一个升腾384超节点出来，如果大模型没法在上头跑，也没法在上面训练，这不是白干了吗？你就像英特尔搞不定这个事儿，AMD也搞不定这个事儿是一样的。虽然AMD说我造得出来，你也能将就使，但是你说我要进行大规模训练了，很少有人去选择AMD的设备。

现在呢，大规模使用的GPU其实就是两种。第一种呢，是英伟达的H100、GB200，GB300现在还没发布呢。另外一种呢，是谷歌的TPU。谷歌TPU就是说，反正我自己做自己用，我也不需要考虑兼容性问题，我就自己干了，我也不卖给别人，它的量也很大。另外呢，像亚马逊跟微软呢，都号称是自己要做GPU，特斯拉和XAI也号称自己要做GPU，但是都在号称的阶段，还没有动起来。山姆·奥特曼呢，也号称要跟孙正义一起拿ARM的IP，自己去做GPU，但是这件事呢，也停留在号称的基础上，也没有实际动作。所以现在真正广泛应用的大规模的GPU，就是英伟达和谷歌。这个里头最核心的原因就是生态。谷歌之所以能够大规模应用，就是我不管生态了，反正我自己使，你们不需要跟我兼容就完事了，否则根本没法跑。

咱们说回来，华为升腾384超节点，它的生态怎么样呢？第一个呢，是华为自己做了一个叫MindSpore这样的一个开源的推理和训练框架。你说我现在想用升腾384超节点，去训练我的新模型，你就使用它这个玩意就可以了。它呢，大概可以兼容70%-80%的CUDA指令，但是毕竟不能完全兼容嘛，你如果原来已经习惯了CUDA的编程的话，你可能到这边来去做训练，还是有问题的，你还是要去花时间去做迁移的。另外呢，PyTorch、TensorFlow、Hugging Face Transformer这些框架呢，升腾呢，也专门做了兼容性适配，就是我专门写一个模块，你只要带上我这个模块以后，你这个PyTorch，你的TensorFlow，你的Hugging Face Transformer，这些推理和训练框架，就都可以在升腾的384超节点上跑了。所以呢，如果大家说原来的这个系统，是在PyTorch上跑的，你也不需要再去做迁移了，直接在它这上就可以跑了，兼容性他们都给你测好了。所以呢，属于叫部分的兼容吧。

如果你真的是说我训练新的大模型，建议大家还是不要跟自己找不痛快，还是老老实实的去使用英伟达就完了。但是你说我拿回来做做推理，拿来去做一些后期的使用的话，升腾384基本上是够用的，没有什么太大问题，你只要别嫌它占地儿，别嫌它耗电，这个东西还可以使。

那你说为什么不能拿它做训练呢？刚才不是说它可以训练吗？而且训练的算力也不差。大家注意，训练呢，是一个非常长期的这种连续任务，你中间停了坏了以后的话，你是需要重新干的，你说让他接着往下干，这事很费劲。它里边有大量的光模块，而且这个玩意的故障率很高，寿命也不是很长。你如果跑着跑着出故障了，里头有一个光模块烧了，你的这个训练呢，未必会停下来，因为它通过了一些软件方式，让你去规避这个错误。你可能只是说我训练的过程中，哪一些数据取回的速度变慢了，但是呢，我还在接着往前慢慢跑。但是也有可能跑着跑着就直接出错，咔嚓就扔那了，这个可能性是很大的。

你像马斯克，他自己用的10万块H100，Meta这种几十万块的H100，他们去做这样训练的时候，还经常是说我跑着跑着突然就退出了，突然就崩了。那崩了怎么办？重来一遍呗。对于他们这些平台来说，你可能跑10次崩个两三次，但是你对于升腾384这样的超节点来说，你可能跑10次会给你崩个八九次，这个也许就突破忍受极限了，就没法忍了。他大概就是这样的一个情况，就是有些情况呢，咱们能用了，有些情况还是稍微费点劲的，跟它整个的硬件架构是有关系的，跟它的兼容性也有关。它毕竟没有100%兼容CUDA嘛，所以大家在CUDA上做训练的代码，拿到这边来再跑，还是会有很多问题的。

那你说华为升腾384超节点，最大的作用到底是什么呢？第一个呢，还是给国内算力中心了一种新的选择，否则你没得选，你只能是要么拿自己的卡或者服务器，这种完整可以拼在一起的算力节点，也算是一个工程上的突破吧。信创产业也算是填补了零的空白，因为现在很多是要求信创嘛，所有的必须是自主可控，自主的操作系统，自主的CPU，自主的GPU，所有都要自主的。我们现在迷信这玩意，原来呢，这些人没得选，现在等于是有的选了，也算是一个工程奇迹，就是99米长的枪。这个故事呢，大家别觉得可笑。

H20的库存呢，前面老黄在中国各种的表演之后，算是把他这个库存清了。川普呢，又要带着企业家来访华了，下次谈点什么，大家要想一想。上次黄仁勋是怎么去说服川普，说把H20解禁的呢？是告诉川普，华为的升腾910，已经基本上可以达到H20的水平了，你再不让我卖，我这就没意义了，人家也都做出来了。所以他把H20卖了。现在是华为升腾384超节点出来了，他说你看我这H100，加上NVL72的整个架构的性能，也被人超过了，咱就卖吧。至于GB200这个呢，咱们再看一看，现在它还没达到，不行咱们再把这个摁住了，或者说等我这个GB300出来了以后，咱们再把GB200的这套东西卖了。可能下一轮的解禁就要来了嘛。所以大概率川普老爷子还是比较好面子的，等他下一次带着企业家团队、一对CEO团队来访华的时候，H100的NVL72就可以卖了。

总结一下，升腾384超节点在工程实现上，确实有遥遥领先的地方，有一些敏感单位，可以选择全国产设备了，这个原来搞不定，现在可以搞定了。有很多瑕疵和不稳定的地方，用的越多，迭代越快，改进的呢也就越好，永远都是这样的。第一次拿出来都是磕磕绊绊的，第二版第三版第四版，慢慢就改好了。这个对于突破海外封锁，让美国进一步放宽管制来说呢，是有巨大作用的。如果是商业公司，哪怕你去选择H20，也比选择升腾384要划算。如果你不着急的话，可以稍微等一等H100，我相信H100在今年可能很快就会解禁。如果后面美国进一步放宽管制的话，英伟达的股票大家可以再关注一下。董王呢，是一个好大喜功的狡诈商人，黄仁勋也是。变化应该就在不远的将来。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友，加入我们的付费频道。再见。

从557万美金训练成本到545%利润，DeepSeek如何用惊悚的数字，震撼AI行业的？这些数字，靠谱吗？

Luke Fan — Tue, 04 Mar 2025 00:40:05 +0000

DeepSeek也玩“one more thing”，突然公布了它的推理利润达到545%，就像当初557.6万美金的训练成本那样，再次震惊了行业。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，DeepSeek结束了连续5天的开园周之后，到礼拜六玩了一次“one more thing”。这个“one more thing”呢，应该是当年乔布斯的梗。他每一次开发布会到最后的时候呢，都要说“还有一件事，等一等”，而且这一件事呢，往往是特别重要、特别颠覆性的事情。那么这一次又来了，DeepSeek公布了它的V1和R3推理系统相关内容，及大规模部署的成本和收益数据。就是说我部署了这东西以后，到底是挣了多少钱？非常非常让人震惊，因为所有人做这个东西都说我不挣钱，我亏钱，结果等到他这好，545%的利润，所有人都傻了，说你到底咋干的？

具体的实现方法呢，就不再跟大家详细分析了。简单来说，第一个负载均衡，你想他有这么多的GPU，这么多的核心，在他这种MOE的架构下，他把每一层的模型里边每一个专家，分配到不同的设备上面去进行运算。这个呢，就是一个负载均衡，尽量让所有的芯片都动起来，不要说有的芯片闲着呢，有的芯片在那排队。第二个，并行计算。并行处理是什么呢？所有的芯片一起来干活，这个速度肯定会变快。另外呢，一边干活的时候，另外一边呢，再同时进行数据的读写。你不能说我这需要数据了，你给我读，然后处理完了以后你再去写，这样就变慢了嘛。所以基本上在做这样的事情，负载均衡和并行处理。

另外还有一个什么样的事情在做呢？就是有一点点叫“驴粪蛋表面光”。这个也算是老北京的一个俏皮话，什么意思呢？就是这个驴粪球外边是很光滑的，但是里边呢，就是一堆的没有消化好的碎草。DeepSeek也是如此，他把很多的计算精度呢进行了调整，他尽可能的能够达到大家的要求，但是很多细节上的这些你看不到的环节呢，就给你忽略掉了。

所以，这个也可以极大地提高效率。他说：“我通过了这样的方式，达到了545%的利润。”当年给出的DeepSeek V3 557.6万美金的训练成本，已经成为了一个业内的计量标准，或者计量单位了。就跟你说这个东西是一牛顿，那个东西叫一瓦特，他这个557万的训练成本，也成了一个计量单位。OpenAI用了1,400万美金投超级碗广告的时候，很多人就说：“你这玩意够训练几次DeepSeek了？”这个已经成为一个业内梗了。

在制造话题这块，DeepSeek作为AI时代的顶级企业是合格的。大家注意，AI时代跟以前不一样。原来呢是酒香不怕巷子深，但是现在你从OpenAI、Anthropic，再到国内的DeepSeek，每一个都是制造话题的好手。必须要会讲故事，才可以在这个时代好好地玩下去。

那么，545%的利润和557.6万美金的训练成本，到底是一个什么样的概念呢？是真的还是假的？是不是吹牛？很多人一上来就会问这样的问题。事情呢，没这么简单。数据肯定有一定水分，咱们一定要承认这件事。但是呢，这个数据也是有参考价值的，不是说你这个东西是真是假，一刀切完事了。这个还是要具体来去分析一下。

咱们呢来看一看，545%的利润到底是怎么算出来的。说这个GPU都是7*24小时满负荷工作，然后呢把所有的优化手段都用到极致，就是他这5天发布的这些优化手段，我都给用上了。然后计算输出TOKEN的总量，就是我这么长时间，一共可以输出多少TOKEN出来。按照最贵的DeepSeek R1的价格来去收钱，这个是100万TOKEN 16块钱，这个是DeepSeek自己给的价格。国内的这些云服务厂商，基本上都是按这价格做的。等于就是说我一天24小时，满负荷输出这么多的TOKEN，能够说到多少钱。再以GPU租赁的价格，两美金一小时作为成本，把这俩数一除，就算出了一个545%的一个利润率来。他是这么算出来的。那这个水分在什么地方呢？

第一个GPU是不可能7*24小时满负荷工作的。就跟送外卖一样，赶上午餐时间大家都得去送外卖，午餐吃完了以后所有人都在那闲着，这个才是正常的状态。GPU也是如此的，你不可能说大家都商量好了，这个7*24小时达到均匀的来，我们让所有的GPU跑满，谁都别闲着。这个事是绝不可能的，而且距离现实情况相距甚远。

正常应该是什么呢？为了保障高峰时期的服务不崩，必须要容忍非高峰时期，可能有70%到80%的服务器是冗余的，或者在那闲置的。那你说到底有多少这个时间算高峰时间，有多少时间是非高峰时间呢？这个一天里头的高峰时间，可能能够有这么三五个小时也就到头了，不会到8个小时的。

像我们以前做游戏的时候，是什么时候高峰时间呢？中午吃饭的时候，还有吃完晚饭9点以后算是高峰时间。那你说我这是工作上班的事情，那他应该是在早晨10点、11点，你没准是个高峰，然后下午2点多到四五点钟，是有一个高峰。其他的时候这个服务器都是闲着的。所以千万不要觉得说，能够跑20个小时的高峰，想都不想，你能跑4个已经算很好很好了。

那么DeepSeek也不是所有服务都收费的，它是按最贵的那个算，按DeepSeek R1每100万TOKEN 16块来算的。你如果按照DeepSeek V3，每100万TOKEN也才8块钱，就肯定没有500%多的利润。而且DeepSeek上呢，比如说他的网页还有他的APP，这些都是不要钱的，你也得为人服务。那这一块他就没算在里头，都按这个R1去收费了，所以这个肯定是不对的。

而且现在DeepSeek呢，在晚上的非高峰时期，也就是凌晨3点到第二天8点这段时间，他还对这个API的价格打折。这块他也没算在里头。其实我觉得他真没必要打折，因为我在这个时间段试过，依然很慢，他的服务器依然是不反应的。所以呢，他做这样的事情，应该还是有一些奇怪目的的吧。他现在的这个成本呢，只计算了GPU的租赁成本。

这个肯定也是有水分的。当然了，GPU租赁呢，是包含服务器、水电、制冷、相关人员成本的，甚至还包括资金占压成本和一些利润。因为你找别人去租GPU来，人家还挣钱呢。所以这块呢，一个小时两美金这个事还是比较宽裕的。而且DeepSeek自己部署机房的话，可能它的成本还要比一个小时两美金要稍微低一点点。但是呢，他的研发、训练、数据准备等等这些成本都没算在里头去。所以呢，他在整个计算成本的时候呢，肯定是极大的降低了成本的总量。

这个呢，就跟前面咱们讲557.6万美金的DeepSeek V3训练成本其实是一样的，也是这么算出来的。它只计算了2,048块GPU运算了多长时间，其他的什么人员工资、数据准备这些全都没算进去。咱们这里的人员工资就是分两块，一块是机房维护的人员工资，这块呢，应该已经算到了GPU租赁的价格里边去；另外一块是他自己那帮科学家的人员工资，这部分那是没算的。

那么实际利润应该有多少呢？你说没有545%，那到底应该有多少？可以跟大家负责任的说，实际利润一定是亏损的，谁也不可能靠这玩意挣钱，按这价格都挣不回来。那么为什么还说这个数据是有参考价值的呢？大家注意在投融资的时候，或者是在做量化交易的时候，你需要一些简单快捷的方式去计算出某一个数值的极限范围。这个东西最多能挣多少钱，最多能亏多少钱，是要快速的算一下的。只有算完了这个以后，才可以去做一些决策。完全准确的数据说，我这东西算完了以后特别精确，就是挣这么多钱，就是亏这么多钱，这个数呢有时候没有什么意义，时间更重要。

DeepSeek呢就是做量化出身的，所以呢，他们很习惯这样去计算数据。你也不能说人家故意坑你。所以先计算极限，然后再向极限前进。如果发现没法到达，咱们再去分析原因调整数据。这个是甭管做投融资还是做量化，必须要干的事情。那么我们应该如何看待这样的数据呢？无脑吹，无脑喷。

一上来说看DeepSeek好厉害，中华之光。另外一帮人说你看这就是骗人的，这个不可能的。这个呢，您开心就好，您走错频道了，不应该来看老范讲故事。您去找一些更二极管一点的频道去看，会更加开心一点点。还有一些人呢，找出证据来论证他不靠谱，或者是让别人自证清白。你找出证据来呀，你自己列出这个数据来呀，你看你不靠谱吧。这些人呢其实也是一种无脑的表现，就是你要知道这个东西背后的逻辑是什么，以及它的价值在哪个范围内是有效的，而不是说上来体现一下自己的优越感。这种人也没什么意思。还有些人呢上来就说，哎呀，这个事情很复杂，一句两句解释不清楚，然后呢给你说一大堆的专有名词出来。这种人可能是骗子，他总是惦记从你身上得到一些什么的。

所以我们真正要做的是什么呢？就是理解这种数据产生的逻辑意义，以及呢价值，在其合理的范围内使用这些数据作为参考，但是不能迷信。为什么要有合理的范围内使用呢？真理还有适用的范围呢，没有哪项真理是放之四海皆准的。真理离开了他的适用范围就是谬误。同时呢我们要训练自己快速得出类似的这种数据的能力，或者呢，是加强我们对此类数据进行判断的这种能力。

那么DeepSeek为什么要公布这样的一个数据呢？这个目的和险恶用心何在呢？这个才是我们吃瓜的乐趣所在。第一个他要证明自己在H800下完全能够搞定所有的事情，还能挣钱。因为一直有人在质疑DeepSeek走私了H100，手里边有5万块H100，大家都在讲这个事。但是呢，DeepSeek自己不会去证明说我手里有还是没有，这个都没有任何意义。有呢，肯定有问题，可能会造成你这种技术在海外被彻底封禁。你就算是开源说，你这个技术因为是违法获得的，所以谁都不许用，他有可能会得到这样的一个结果。那你说我没有呢，你又很难证明这个事情，说我没有，自证清白这个事是挺难的。那么干脆我们就不证明了，我既不说我干了，我也不说我不干了。他干嘛呢？

他说：“我证明一下，我不需要H100，我用H800完全可以搞定。我把这个事儿证明一次就完事了。DeepSeek现在也没办法把这些H100拿出来，开足马力来为大家服务。现在突然服务的很顺畅了，说你是不是把H100拿出来偷偷用了？没有，你看我说都算好了。这个我是挣钱的，我不需要把他们拿出来。他现在需要给自己做这样的一个辩白，这是第一点。”

“第二点是什么呢？就是我没赚着钱，你们也别想赚钱，大家一起来卷。什么意思？这个学霸经常出来说：‘你看我没有复习功课哦，我就是天天玩，但是我考得很好。’他们是很气人的。可能这跟你说完了不复习功课，炫耀了一下我怎么去玩耍了，回家就苦读到半夜。这个是很多学霸的一种套路。DeepSeek可能也是这么搞的。他自己的网页、APP和API现在基本无法使用的一个情况下，国内的各大厂呢，都在拼命地接DeepSeek。但是呢，又没有给DeepSeek付钱。那DeepSeek只能出来阴阳一下说：‘看我还是挣545%呢，你们挣老鼻子钱了，是不是得意思一下？’那干脆大家一起卷就完了。然后在这个过程中，把这些不挣钱的小的卷死。大的也不是说就挣钱了，大的是有其他业务可以补贴，他赔得起。等到最后剩这帮大的的时候，咱们再来谈这个事情。咱先把这帮小的都卷死。他在干这样的一个事情。你想学霸上来说：‘我从来不复习功课，我上来就考第一。’他干嘛呀？第一个，心里要开心一下，要稍微秀一下优越。另外一个呢，就还是说，咱们这个各层次咱们分别卷起来，要干这个事情。”

“那么这个事情发布了以后呢，周末还炸出一个小瓜来。这只能算小瓜了，就是硅积流动跟路深科技两边掐起来了。这两家呢，都是做MAAS的，就是大模型作为服务。咱们做云计算，有IAS，就是基础架构作为服务；SAS是软件即为服务；PAAS是平台即为服务；MAAS呢，叫model as service，就是大模型就是服务。是这样的两个厂商自己就掐起来了，为什么呢？”

现在，他们都接了DeepSeek，但是肯定都不挣钱，而且亏得很厉害。路深科技呢，就卷不动了。这位CEO是UC Berkeley的博士，所以我看他的这个签名是伯克利什么什么。这个人我也不认识，所以这名字咱就不记了。他呢，算是有一些网红包袱。你说我卷不动这事呢，我又不能承认。我不能承认这个网红塌房了，别人能搞定，我搞不定。所以呢，一定要找一个出口说，你看他们其实也不挣钱，他们就想卷我们，他们也有问题。他找到了谁？找到硅基流动了。这个不能是自己的问题，也不能是DeepSeek的问题。DeepSeek现在是中国之光嘛，这事一定是你自己技术不好。而且这事还不能是华为的问题，这事跟华为有什么关系呢？就是路深科技跟硅基流动，他们接DeepSeek都是跑的华为云的升腾910芯片的，他们没有跑英伟达芯片。那这个事这几家都怪不了，不能怪自己，不能怪DeepSeek，也不能怪华为。那我们怪友商吧，怪这个硅基流动吧。他说硅基流动你春节加班，因为DeepSeek的发布是在春节期间发布的嘛，而且呢还在卷砍一刀的事情。因为这个硅基流动发了好多的代金券出去，赚了一波流量。你发了这个多少亿的代金券出去，你手里就1亿2亿的现金，你根本就没有办法兑现这个事情。这个其实也是有点骗傻子了，代金券出去并不是需要用你手里的现金去兑换的，你是要用服务慢慢地去把这些代金券消耗掉，跟你手里有多少现金本身是没有关系的。当然，卷这个事呢，在中国企业的竞争过程中呢，算是一种常态吧。现在硅基流动的DeepSeek R1也基本上处于不可用状态，我现在也不用他们家的，都是用火山的。待会咱们再讲为什么用火山的。到这了这两家就开始互相掐了，硅基流动说人家是已经发布了这些开源项目了，我们照着去学就完了，但是这个事很难，你搞不定，你不要说别人也搞不定，开始阴阳这个路深科技。这两边就开始相互的指责，说你挖我的人。

硅基流动说你抄袭，开始互相怼起来，这已经离开事实本身了。这个呢，稍微有一点点low。卷不动呢，你就默默地退出就完了。当然，内部人设立不住呢，你就需要在外边立靶子。我们也见到了很多这样的案例了，最后呢在外部还翻了车了，只能回去继续统一思想。

怎么在外部翻车了呢？因为路深科技呢，被硅基流动指责说你抄袭。然后路深科技说，抄袭的那个是原来我CTO干的，CTO已经把它开了。而且呢，CTO被开了以后，还去你硅基流动上班去了。现在这个CTO也出来回复了这件事情，他说我就是当年那CTO，我去的时候这项目就已经是这样了，那个代码也不是我抄进去的。说我去了以后呢，还整理了所有的代码，把所有引用的东西呢，给他写清楚出处。

这个开源项目怎么算抄袭，怎么算不抄袭？就是你违反了人家的开源协议，你用了人代码你没有写说这是哪来的，这就算抄袭。你说我用了人代码了，但是我写清楚我用了谁谁谁家代码，符合人家的协议，然后我在这个基本上做什么修改了，这个就算给开源做贡献。人家的CTO说压根跟我没关系。

然后第二个说我为什么离开呢，是因为他们用假的期权合同骗我，让我去的时候给我承诺了期权，结果最后呢没法兑现。因为这个事情我质问了他们，所以最后离开了。在其他的一些抄袭事件，因为这个路深科技，还有其他的抄袭事件，说这个就跟我完全没关系，等于又把这个路深科技整个放这了。

那么DeepSeek的推理市场，未来到底怎么走呢？首先腾讯去加单了，订购了10-20万块的H20，这个是现在允许向中国出口的型号，全线接入DeepSeek。在它的微信，IMA，还有元宝这些程序里边都接了。IMA呢是一个办公用的AI助手，元宝呢，是个人用的AI助手。现在元宝在疯狂的做推广，微信的搜索里边，现在也在进行灰度测试，直接在里边可以使用DeepSeek R1进行搜索推理。字节呢，本身就是算力大户，它是全世界第二名的算力大户，第一名是微软，第二名就是它。

DeepSeek只做ToB的服务，就是你可以在字节的火山引擎上用它。字节自己的产品里是没有去接DeepSeek R1的，他们还是比较骄傲的，希望这个豆包模型可以追上来。所以字节的DeepSeek R1是我现在用过的所有DeepSeek R1里头最快的，因为算力足够多，用的人不是很多，所以他最快。

阿里云呢，未来三年投入3,800亿人民币做算力投入，说那我们就疯狂去买就完了。至于这些MAAS厂商，就是叫模型及服务的厂商，这个背后都是华为云，价格又被DeepSeek给锁死了，这个就很痛苦。所谓锁死了什么意思？DeepSeek在中国给出的价格，咱们就说R1的输出价格吧，是最贵的一个价格，是每100万TOKEN 16块钱。现在甭管是路深科技还是硅基流动，或者是阿里云火山云，都是用同样的价格给的，100万TOKEN 16块人民币。但你知道国外多少钱吗？在together上刚才我查了一下，美国的服务器上部署的DeepSeek R1，它的100万TOKEN大概是七八块美金了，应该到50多块钱人民币，所以这个还是挺贵的。

他们的V3其实价格都差不太多，咱们的V3的输出呢，是八块钱人民币100万TOKEN，在美国的话是1.25美金100万TOKEN，这个是相差不多的。但是R1这个真的是差三倍的钱，国内这个锁死价格了，以后他们就必然会按照这个价格赔钱赔下去。

至于DeepSeek所开源的这些库呢，他们只能去借鉴一个思路，肯定用不上。为什么？因为DeepSeek所有开源库都是基于CUDA的，都是基于英伟达芯片的。这帮人看着一堆的华为升腾910，只能说，咱们看看这个大概思路是不是可以参考一下。那这个想去做的话难度就大了，而且整个的服务过程必然亏损。原因也很简单，就是你的服务器绝不可能7*24小时很均匀、很平顺的满负荷运转，这个事情从头到尾就是个伪命题，所以肯定是亏的。

而且，华为呢是不会承担这种亏损的。你跟华为合作，人家还忙着爱国呢。你亏了钱，肯定是你自己的问题。而且，人家DeepSeek说了：“我这能挣钱，你亏了，你不能怪我，你也不能怪华为。你看看你自己的技术哪不对。”

而且，这些MAAS的厂商呢，还没有大厂其他的业务可以补血。你比如像刚才我们讲，腾讯在这个IMA或者是元宝里边，去使用DeepSeek R1的时候，你是不用付钱的，免费的。但是，腾讯有游戏收入，有广告收入，还有各种电商收入。他有一堆收入可以补这个窟窿。他去买20万张的H20，花不了多少钱，对于他整个利润来说，都是可以承担的成本。

硅基流动，路深科技，你跟他卷，这你肯定卷不过他。更别说字节跳动了，字节跳动比腾讯还能挣钱呢。所以呢，跟大厂他们也卷不过。model as a service的这些厂商呢，只能看谁坚持到最后。坚持到最后，也不是说他们就能胜出。坚持到最后呢，也就是看最后谁能够下车，被这些大厂所收购。这应该就是他们的出路。

当然，你说我未来是准备被收购的，那也就不能长太胖。什么意思？你不能拿太多的融资，必须要自己挣钱。因为你拿了很多融资以后，你的估值会变得非常高。等到最后大厂去选择一家，把它收下来的时候呢，通常还是要去衡量一下性价比的。

那么，总结一下。首先呢，要感谢DeepSeek又给了一话题，又可以跟大家扯一会儿。如何理性地判断各种夸张数据背后的逻辑和价值，才是今天我们要讲这期视频的核心点。而不是说，我们来批判一下这东西合理还是不合理，这个没有什么意思。

AI正在走向新的时代，过去很多的商业逻辑呢会发生变化。过去的经验未必有效，但是依然是会有一定的价值。你像我给大家分析很多东西，都是根据我过去的很多商业逻辑来分析，但是也不能迷信这个东西。像我每次都会跟大家强调，这个东西呢，有可能分析的不全面，未来有可能会出现我们想象之外的东西。那这个才是我们这个频道始终跟大家所强调的东西。好，这期就讲到这里。

感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI重启机器人项目！揭秘从数据收集到大模型训练的人形机器人未来规划！

Luke Fan — Tue, 14 Jan 2025 01:02:01 +0000

2025年了，我们距离人形机器人的普及到底还有多远呢？大家好，欢迎收听老范讲故事的YouTube频道。

现在，人形机器人好像距离我们已经不远了。特斯拉的擎天柱已经可以在特斯拉工厂里边打螺丝了，Figure 01也在宝马的工厂里边打螺丝呢。刚刚过去的CES大展上，黄仁勋背后站了一整排的人形机器人，包括前两天我们看到上山入海的这个宇数科技，也站在黄仁勋背后，因为他们也是使用的英伟达的解决方案。

那是不是人形机器人就已经快要到达我们面前了呢？甚至这两天还有传闻说OpenAI又重启了机器人项目，重新开始为机器人项目做了招聘。这个公司到底在干什么？宣布什么不重要，你看他贴出来的招聘广告，LinkedIn上是有招聘信息的。你可以看到有很多机器人相关的岗位，在OpenAI公司下边已经列出来了。

而且OpenAI呢，自己还投资了两家人形机器人公司，一个就是刚才咱们讲这个Figure 01，现在在宝马工厂里边打工的这个，还有一个叫X1 Technology。这个公司呢，到现在为止也不知道他们做出来是什么，他们展示的人形机器人是穿着一整身的秋衣秋裤的，所以很多人都怀疑里边是个人，我也没有看到进一步的报道。

那么大家有没有想过，一个人形机器人的成本和技术难点到底在哪？是不是造这壳子比较费劲？按照咱们正常人的逻辑思维来看，这个壳子应该不费劲，包括他的骨架支撑，应该都没有那么费劲，因为人形机器人这种东西对于材料、对于工业设计，其实要求并没有那么高。

那你说电动机，这个玩意听这个名字，好像就不是特别难搞的一个东西，现在手术机器人都能造，造个人形机器人的精度要求应该没有手术机器人那么高吧，所以这块应该也不是特别费劲的地方。那你说剩下的呢？什么摄像头、麦克风、音箱、显示屏，这玩意你到华强北去抓呗，这有多费劲呢？应该都不贵啊。芯片，这个东西一定很费劲。呃，现在呢……

其实，做人形机器人所需要的芯片早都准备好了啊。因为大家都在疯狂地开始开发板了，大家说：“你们赶快拿着我这开发板，出去做人形机器人啊。”这块应该也没有那么费劲。而且，人形机器人这种东西，它并不需要在本地做特别高密度的运算。大量的数据和运算，其实还是要去云端的。它并不需要把什么像H100那样的东西塞在里头，可能最多是在里边塞一些车规级或者说自动驾驶汽车类似的芯片进去，就可以了。

所以在这块呢，应该也没有那么费劲。其他的仿真皮肤，咱们做一个机器男友、机器女友，这个有可能费点劲啊。但是，硅胶娃娃都做出这么多来了，应该也不难啊。那么，到底是什么东西让整个的人形机器人到目前为止都没有办法走到我们的面前来呢？其实有两个东西现在是比较麻烦的啊。

第一个东西呢，是传感器。这个可能跟大家想的没有那么一样，并不是说它需要个摄像头、需要个麦克风就算是有传感器了。有没有人想过，复印机为什么那么贵啊？你说打印机挺便宜的，扫描仪也挺便宜的，为什么把俩拼一块变成一复印机，这玩意都变得那么贵了呢？因为复印机里边传感器特别多。机器人其实也是如此，它有这个位置的传感器，有姿态的传感器，我到底是动成什么样了，角度速度是什么样的。当它开始动作的时候，力量是什么样的？我要去捏一个鸡蛋，我能把鸡蛋捏碎了。

还有大量的触感的传感器，这个非常麻烦。你像我们一个人站在这，那真的是浑身上下的皮肤都是有触觉的。它有这么多的触感传感器，你才能够让整个的机器人动起来。这是第一个比较难的东西啊。目前为止，这一块到底怎么去设计，怎么能够让机器人浑身上下都有触觉，把它的所有的动作你都可以有反馈？抬脚了，我到底抬了多高？我的重心稳不稳？我的速度有多大？我拿了东西以后是捏紧了，还是从我手里头滑掉了？有什么东西靠到我后背了，到底是什么样的东西？我们这一身皮，实际上是一身的传感器，冷热、触感、各种各样的压力回馈。

这个东西对于机器人来说，还是挺麻烦的。还有我们的耳朵啊，不是听声音的，而是什么呢？动态捕捉。我们的头到底是歪了还是正了呀，或者是速度是什么样的呀。就这些东西，对于机器人来说是很麻烦的，而且需要非常非常多的传感器，很贵。具体应该如何去部署啊，这个他们还需要去想。

你像我们人还可以在后背上写字，写完了以后全都给你写出来，机器人怎么办呢？后边给你装一个摄像头吗？这不是吓死你！这个还需要重新去设计啊。这是第一个。

然后第二个是什么东西呢？你这么多传感器了，需要收集大量的数据，然后这些数据还需要再去训练啊。你要去训练那个大模型，不光是像现在GPT-4O这样的模型，我可以跟他说话了，他可以看到我了，就可以跟我进行交互。当我有这么多传感器的数据加入的时候，那你是不是还需要再去做一个新的模型，出来才可以？让这么多传感器收集起来的数据，让整个的机器人大脑一起去顺畅地运作起来，然后像人一样去工作呢？

OpenAI现在重新开启去招聘机器人相关的岗位和工程师，那么他们的路径啊，可能跟大家想象的就不太一样了。什么意思呢？OpenAI其实原来有一个机器人部门，几年前给解散了。当时还发布了一个特别神奇的产品，是一个机械手啊，就一只手。然后这个手可以干什么呢？就是一只手的情况下，单手玩魔方啊。你给他一个魔方，然后他手一动下来，可以把这个魔方整个复原出来。

你给我一个魔方，让我俩手掰，我都不一定把它掰出复原来。他一个手可以把这个魔方复原出来，这个是非常非常难的。你想，五个手指头啊，你抓住一个魔方以后，怎么固定，怎么能够保证那一层在转动，让这个魔方在你的手里边去翻转，这个是非常非常麻烦的。比现在特斯拉也好，或者是Figure 01也好，他们所展示的这种灵巧手，要灵巧得多得多。

他们当时展示过这样的东西，展示完了以后呢，团队就解散了。为什么呢？很简单，没有足够的数据让你继续训练下去了。你这种东西再往后训练。

到底应该向哪个方向走？不知道了。再想收集相关的数据，没有了。现在，OpenAI去训练ChatGPT也好，去训练它的Sora，去训练它的DALL·E这样的图形图像的引擎也好，都是哪来的数据？都是爬出来的，对吧？四处出去爬，发现谁家网站的数据好，就冲上去，直接把这个网站爬到瘫痪掉。但是，他想去训练这个机械手，想去训练机器人，这些数据他没有啊，谁也没有这些数据。那他不能自己生编吧，不能生造这个数据，所以就直接把这个项目停掉了。

但是现在呢，他又重新开启招聘。他招聘的岗位呢，叫电子感知工程师，只要还是要去做传感器；然后呢，是机器人机械设计工程师，还是要有些机械设计方面的能力；最后呢，是要招聘技术项目经理。估计呢，他们走的应该是谷歌这条路。待会咱们再往后讲，什么是谷歌这条路啊？

他们招聘了这些工程师出来以后，下一步肯定是要设计各种原型机。设计完了原型机以后，出去说，你们照着原型机去设计吧。设计完了以后啊，就可以去收集大量的训练数据了。然后OpenAI就是去做他最擅长的事情，把大家收集的训练数据爬回来也好，买回来也好，或者是通过各种的协议啊，拿到这些数据以后，训练大模型。然后拿着这些新的具身智能大模型，再给这些机器人去使用，这个应该是一个完整的闭环。

那么，什么是谷歌路径呢？大家想想，谷歌当时做安卓手机怎么做的？他也是招了一帮工程师，他们自己也能把手机做出来。但是呢，他并没有自己去做这个东西，而是当时找到了HTC，说来咱们做吧。做完了以后，拿着原型机再去找三星，再去找摩托罗拉，找一大堆的公司，说咱们一起来做这个东西吧。谷歌手里握着安卓操作系统，全世界的手机厂商除了苹果之外，就都向着安卓这个方向前进了。这个才是OpenAI目前想要去走的路。当然，他跟谷歌当年还差一步，差在哪呢？谷歌是已经做好了完整的操作系统，也做好了工程样机，大家就只管照着做就完了，每一家去设计自己的手机。

各家自己再在安卓系统上去修修补补，只要不要把底层改掉啊，上面你去修修补补都没关系啊。这是当年谷歌干的事。然后现在OpenAI呢，还缺一点点，就是它并没有一个完整的操作系统。它要想得到这个完整操作系统，首先是需要一大堆的工程厂商给它提供训练数据，然后再拿这个数据回来，去进行大模型的预训练，才可以有完整的机器人大模型，或者叫机器人操作系统出来。再把这个东西拿出来给厂商，说：“来，你们再在我这个基础上，按照我的规范去设计你们机器人的各种结构。”

大家注意啊，当时安卓还干了一个特别有意思的事情。他呢规定了，安卓手机就必须要使用什么什么的ARM的这样的CPU，要使用什么标准的，必须要拥有GPS，之前很多手机是没有GPS的，必须要有触屏，必须要有返回键。当时安卓特别多，它的规范里头是必须有返回键的。然后呢，还必须要有运动传感器，还有高度传感器。他就做了这样的规定，这个就属于是安卓兼容设备的规范。这也是现在OpenAI要去做的事情。

所以我们从他招的人来看，基本上是可以看到这条路径的。如果这条路径走通了的话，那可能未来就是特斯拉去做擎天柱，然后剩下的，我们就开始走安卓路线了。大家只要照这个标准上就都可以有了，可能这就是OpenAI对于这个机器人未来的一个规划。那么后面这些硬件厂商跟创业者，他们的机会在什么地方呢？

原来谷歌走这条路，这么多的手机厂商就都冲上来说：“我们去做安卓手机就可以了。”未来的机器人应该也是这样的，未来肯定是分工越来越细，而且这些分工之间呢，是走的松耦合。什么叫松耦合？不是说我自己是一公司，从头做到尾，什么都做。谁是自己一公司，从头做到尾，什么都做的？苹果对吧，还有特斯拉，他们是从头做到尾，什么都做。芯片是自己的，操作系统是自己的，大模型自己训练的，那个设备也是自己设计的，最多找一代工厂去生产一下就完事了。

而像特斯拉都不用代工厂，人家自己有工厂；苹果是自己没有工厂的，必须走富士康啊，走果链企业才能把它做下来。这是从上到下，什么都干的。另一方面是干嘛呢？相互之间是松耦合，就是遵守同样的标准就可以了。我们并不需要说，相互之间拥有股权的这个关系，或者是你拥有我，我拥有你，没有那么严格的要求。我们只要按照统一的标准做就完了，这就是一种松耦合配合方式。

那么他这种配合是怎么样的呢？第一个最上面提供操作系统的人，上一代其实是微软，微软提供了操作系统，然后下头就有一堆叫PC的厂商，他们把这东西造出来，只要装上Windows，能跑就可以去卖去了。原来是这么干的。最近的就是谷歌，生产了安卓的这样的操作系统，剩下的人按照这个谷歌的标准，生产出手机来。然后呢，到谷歌那边去做认证，就是你通过认证以后，谷歌就把它的GMS（Google Mobile Service）这样的东西装到你的手机操作系统里头去，你就可以去卖安卓手机了。

这个是提供操作系统的人。下面这帮人其实不是手机厂商，不是什么小米、华为，不是他们，而是什么呢？这是一帮设计室，很多的design house。因为我们以前在早年的时候，跟非常多的安卓手机设计公司去打过交道，他们就是设计手机的。他们不负责做品牌，也不做营销，更不做生产，只做设计。设计完了以后，找一些代工厂把这个手机做出来，做一些测试，就可以放着了。

然后再往后，还有一波人，就是像小米这帮人了。他们干嘛的呢？他们叫品牌和运营商。我去运营小米这个品牌，我去找设计师把这个东西设计出来。后来当然小米自己是有设计室，设计完了以后，我去到代工厂去加工，再在自己的渠道和门店里边去卖这些手机。最早的这些东西都是完全分散的，设计室是设计室，代工厂是代工厂，品牌商是品牌商。所以这个里边是四个角色：操作系统、设计师、代工厂和品牌运营商。

是四种角色进行松偶合，形成了早期的这个安卓手机市场。那么到后来，相互之间竞争兼并，有很多的公司倒闭了，手机的市场变成什么样了呢？像小米这样的公司，自己有设计室，自己有品牌，自己有渠道，有运营。小米还去投资收购了一些代工厂，他最后又变成了一个大而全的公司。但是现在还有很多代工厂是在外边飘着的，独立的设计室和独立的小品牌运营商呢，也不是都死光了，还有一部分，有一些小的还在玩，就是做一些比较小众的手机，这个还是存在的。这就是现在手机的一个状态。

对于人形机器人来说，可以完完全全地借鉴这一条路径：大模型供应商、设计室、品牌运营商、代工厂，大家进行松耦合。那么总结一下，我们到2025年了，距离人形机器人普及到底还差几步？现在呢，英伟达在四处送开发板，或者叫卖他的开发板和传感器，大家就可以买这个英伟达的开发板，回来把它装在自己的机器人上去，做各种实验。然后OpenAI又开始招募这个传感器的工程师、设计的工程师，以及工程管理方面的人才，准备去做工程样机。这就是现在我们看到的一个情况。

然后下一步是什么？下一步是数据聚集，最好能够把这些数据放到一些开源平台上去，这可能是下一步要去做的事情。所以呢，会有一个新的类似于Huggingface或者是GitHub这样的创业机会，到底能够在谁家的平台上累积这些数据。这种模式在近几年，特别是移动互联网之后的这个创新领域里头，是非常非常普及的。大家都是说，我们去整一个开源的、开放的数据沉淀与聚集的平台，然后大家一起去积累数据。所有人都是拿着这些数据再去做训练，再去做进一步的提升和改进。在这个过程中，再去把这个技术推到下一个高度去。这是这几年非常非常流行、非常普遍的，因为这些数据我们不放心交给谷歌，也不放心交给OpenAI或者是英伟达，一定是要放在一个开放的。

第三方平台上，当这些数据沉淀到一定程度之后，这些大模型厂商就可以拿这些数据再去训练新的机器人大模型了。在训练好之后，就可以走刚才我们讲的手机路径，四个元素，或者叫四个角色拼在一起，造出人形机器人来。整个过程的话，我觉得2025年、2026年就是一帮创业者，拿着这些开发版，拿着OpenAI的方案去做数据收集，然后沉淀。沉淀完了，可能到2026年、2027年的时候，就可以拿这些数据训练出新模型来了。在2030年之前，有可能看到人形机器人走进千家万户了。好，这一期节目就跟大家讲到这里，感谢大家收听。有什么不同的意见，我们可以到评论区去讨论。

英伟达黄仁勋CES霸气登场！鳄鱼皮夹克发售5090显卡，钱包快捂住还是准备剁手？

Luke Fan — Thu, 09 Jan 2025 00:39:50 +0000

黄教主已经在CES上吹响了号角，准备好钱包了没有？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲CES上，全村最靓的仔黄仁勋。黄教主都发布了一些什么东西？我们是不是要准备好钱包去买东西了，还是说咱们稍微冷静一下？

现在AI嘛，市值最高的公司英伟达，作为英伟达的老板，黄仁勋在整个的CES大会上一定是最靓的仔。其他做AI的人，可能还没有他这么风光亮丽。为什么呢？因为CES呢叫做消费电子展，那些做云计算的人，你们靠后站。黄教主是要来发布游戏显卡的，他是来玩消费的，这个还是有很大差别的。而且整个的AIGC玩了两年多，唯一挣着钱的就只有黄教主自己了，其他人都在这赔本赚吆喝呢。所以呢，人家一定要风光亮丽的跟大家做一个演讲。

咱们先看一下皮衣教主，因为他走到哪穿个皮衣嘛。他这个皮衣呢，这一次是一件新皮衣，不是以前穿过的这些旧皮衣。这个叫Tom Ford设计的一个皮衣，这个皮衣呢叫鳄鱼皮印花皮夹克。就是我们可以看到这个皮夹克上有很多非常大的花纹，这个东西呢叫鳄鱼皮印花。就是你如果买了什么鳄鱼皮钱包或者是鳄鱼皮的皮鞋，上面就是这种大花。我还真没见过鳄鱼皮夹克，他这个皮夹克呢应该不是鳄鱼皮的，应该是牛皮的，只是呢把这个大花纹给你印上了而已。

但是这个夹克也不便宜了，8,990美金一件夹克。但是这个对于现在全世界市值最高的公司的创始人和CEO来说，不穿这样的夹克，估计也真的压不住场子了。首先上来讲的第一个，肯定还是数据中心业务。虽然这是消费电子展，但是数据中心业务才是英伟达现在真正的核心价值。那么消费电子展呢，游戏显卡是跑不掉的，5090这个一定要上来好好跟大家show一下50系显卡。

然后呢，是整了一个非常奇怪的新品，叫project DigITs。这个东西长得像Mac mini那么大的一个超强算力的AI主机，因为看Mac mini卖的很好嘛。

所以，要出来跟大家show一下。后边呢，还做了一些软件部分的发布，这一部分基本上可以忽略不计。至于其他机器人的部分呢，2025年我们看到成品满街跑的，这个可能性也不大，所以我们就后边省略掉了。

首先，黄教主上来以后，先举着一个大盾牌，把一堆的芯片拼成盾牌那么大，就像美队一样，举着个盾牌就上来了。这个东西是什么呢？叫Grace Blackwell NV link 72。当然了，GBNV link 72呢，长得并不是真的这个样子，他只是说跟大家表演一下这个东西，把芯片铺开了应该是这样。

英伟达的显卡一般叫B开头的呢，就是它的GPU，就是Blackwell框架，黑井框架。说B200、B多少，这就是GPU；G开头的呢，实际上是CPU，叫Grace。这个东西呢，是ARM的CPU。所以呢，这个叫GBNV link 72呢，就是36个Grace CPU，加上72个Blackwell的GPU拼在一起，加上这种高速连接，整个拼一块儿以后，做的一个高性能运算的主机。大家可以在这个上面去训练模型。

它呢，现在只是把这些东西都拼成了一个盾牌的样子，给大家看一眼。如果真的是一个这个GB 72这种东西的话，它是举不上来的，那个机器拼在一起是1.5吨。但是消费电子展呢，给大家看这个意思不大，看过了就知道了。

现在数据中心是谁是老大？今天的真正重头戏5090、5090D、5080、5070，也就是50系显卡。前面的40系显卡、30系显卡，我电脑上是一个3060，我儿子电脑上是4070。什么时候会去长这个数呢？就是他的显卡的架构换了。40系的是A系的显卡，叫ADA的这个芯片；到50系呢，就是B系列的，就是Blackwell黑井系列的这个显卡。

它按照黑井系列整个架构重新设计的，所以呢，5090、5090D、5080、5070这些显卡，大家可以认为，跟我们现在去买的什么GB200或者B200这样的GPU吧，是一样的这个架构。

5090跟5090D的差异呢，就是5090的就是为中国生产的阉割版本。就跟原来美国制裁中国，说你们不可以去用4090了，中国就开始卖叫4090D。D呢，现在有两种说法，一种呢说是叫精简的，还有一种说法呢是Dragon，就是专门为龙设计的这个芯片。就是它里面的CUDA的核心数量、连接的这个速度，以及里面的这个内存的大小和连接速度，都是受到限制的一个设备。

当然，即使受到限制了呢，它也要比这个传统的4090还是要快的。这就是5090和5090D。然后5080和5070呢，要比5090 GPU的扩大的核心要更少一些，而且呢价格也相对来说比较便宜。现在呢，很多人就觉得天塌了，为什么？因为显卡这个东西呢，其实一直是作为一种金融产品，或者叫理财产品来去处理的，它有很强的金融属性。而这一次呢，黄教主干了一个事情，就是降价。他的5090呢，其实降的并不多，应该比4090还要贵一些的，但是呢，他号称说5070价格还是非常便宜的。对于原来那些囤4090的人来说，这个天就塌下来了。

整个的性能来说的话，我觉得我们就没有必要去跟大家讲说，它到底有多少CUDA核心，怎么算呢，这个其实没什么意义。它里边做了一个新的东西，叫大力水手4DLSS 4，可以在显卡内部进行更多的这种直插帧的运算。游戏原来输出的比较低的帧率、比较低的这个分辨率的这个图片，它可以通过插帧、插分辨率的这些功能，让我们看到一个非常非常高帧率、非常清晰的一个画面，是他们真的这个新功能。而大力水手4必须在50系显卡上才可以走，而这个40系显卡最高可以看到大力水手3.5。如果想使用大力水手4，你就要老老实实的去买50系的显卡。

也是很多人在去批判，说黄教主你这个刀法实在是很精准，也是如此了。有多少人需要去买5090呢？其实原来买4090的这些人，在挖币已经过时之后，他们到底能不能把这个4090的钱挣回来，其实是很难说的。

虽然他有金融属性，但是原来主要是拿他挖币。以太坊已经不用4090去挖币了，人家换了新的这种凭证方式了。那么4090可能也就是说，第一个打游戏用，第二个呢，拿它去做一些本地的渲染，或者是本地的大模型，比如说Stable Diffusion。我在本地跑一跑，也就干一些这样的事情。

那么现在上5090到底有没有这个需求呢？其实这一块的需求和动力是不足的。为什么呢？就是你在本地去用这样的一个设备，你真的需要那么大的分辨率、那么高的刷新率，然后有那么好的游戏吗？其实没有。游戏跟显卡之间呢，都是矛跟盾的两面，要来回翻来翻去的。首先是游戏更新了，然后说OK，我们现在需要更好的显卡，否则的话这个游戏跑不到最高帧率。

现在这几年呢，其实游戏并没有这样的东西出来。可能大家可以去期待一下GTA6，当然GTA他们一般优化做得还可以，所以呢，未必需要这么高规格的显卡才能带得动他。可能3060、3070都可以跑得起来，因为做游戏的人他也想清楚说，如果我做一款游戏只有5090才能玩的话，那我这游戏能卖几套？而且呢，游戏如果帧率太高的话，其实人眼已经看不到了，所以这个帧率是有极限的。而这个分辨率呢，其实你到4K也算是到极限了，你再往上其实已经做不上去了。

所以现在呢，其实在游戏这一块上说，需求动力不是那么足。至于说从大模型或者这一块来说呢，更多的人还是愿意去使用像A100、H100这样的专门的算力卡，而不是说来去使用这种游戏显卡。因为游戏显卡其实它的设计侧重还是不一样的，你拿这种东西去做大模型的话，并不那么划算。

50系列呢，到1月30号，5090的这个显卡就可以在外面买到了，可能要到3月份5080、5070的这些显卡会逐步的面世。再往后一段时间呢，会出笔记本用的50系显卡。现在呢，像什么ROG，这个叫败家之眼，他们已经在开始官宣他们搭配50系列显卡的这些笔记本了。

我估计在买到差不多得到年中了吧。5月份才能买到，而且以英伟达这个显卡升级的速度的话，我觉得可能过一两年再去买这个东西，也还是来得及的。一般是说显卡提升了以后，这帮做游戏的再想一想，说：“哎，我是不是可以再去做一些更复杂的游戏出来？”慢慢地去淘汰这个低端显卡，一般是这样的一个情况。这是今年的重头戏。

5090再往后呢，就发布了一个很奇怪的东西，叫project DigITs。这个东西呢叫做数字项目或者数据工程。我估计黄教主呢也是看旁边苹果整的Mac mini M4出尽了风头，这么小的主机，这么强的算力。很多人把它买回来去做大模型，甚至把几台M4 mini的这个主机拼在一起，还可以跑一些更大的模型出来。黄教主说：“这个我也行的。”这种设备呢，从结构设计上，甭管是谁设计的，但是从生产上来说呢，一定是台湾或者是大陆的这些果链企业去生产的。所以黄教主说：“你们谁去给我整个这玩意出来？”这个应该并没有什么难度。

黄教主这个时髦肯定还要改一下。那么它这个里边使用的芯片是什么呢？叫GB10。G就是CPU，它里头是有ARM CPU的；B呢是Blackwell的这个算力芯片，也都在里面。但是呢，GB10是没法去打游戏的，它没有这个图像渲染的能力，或者说它图像渲染的性能并没有那么好。大家主要还是要用它去做数据分析，去做大模型的训练和推理。

这个机器有128G的统一内存，这个还是很贵的一个东西。因为像我们在苹果上买统一内存，那玩意简直像金子做的一样，非常非常昂贵。你说我升硬盘，这个价格还可以接受，但是你要想给苹果的Mac mini或者是MacBook这种容易升内存，那真的是肉都疼。它这个里边128G的统一内存，4T的存储，这块不太值钱。然后里边的操作系统呢，是英伟达自己定制的一个操作系统，在乌班图的基础上去改的一个Linux操作系统。据说呢是可以跑200B的模型，这个已经是非常非常吓人了。

像我现在的MacBook只能跑三十几B的，72B的已经跑不起来。他这可以跑200B的模型，如果把两台连接在一起，就直接可以跑405B。因为现在我们有一个405B的模型，就是Llama3 405B，你们两个串一块就可以跑了。这个还是很吓人的。

当然，价格呢，肯定也得对得起它这些高端配置，3,000美金可真的是一点都不便宜。Mac mini应该是500美金还是600美金开始吧，最高的这个款式大概可能到不了2,000美金。他这个直接上来就3,000美金，这个大家自己看着办。

但是呢，发布会上有一些东西是没说的。什么东西没说呢？就是这个设备的功率和散热到底怎么样，他没说。英伟达向来不是以省电著称的，英伟达一直都是非常非常耗电的。像我们前面讲的5090什么这种东西，经常是可能五六百瓦。但是他这样的一个GB10的芯片，塞了这么点的一个机器里头，到底是有多少功率？到底是需要配多大的风扇？这个东西能有多吵，大家可能心里要有一个准备。

当然了，你想3,000美金我都花了，如果想动小了的话，可能很多人会觉得我这个钱没有花到地方。我花了钱以后，第一个重量要够。这个英伟达的老黄还是非常非常有经验的。你们去看那个4090也好，5090也好，那个显卡那么老大个，你把这个显卡拿起来，也是贼沉贼沉的。为什么？因为都是巨大的散热铜管以及风扇，还有很多的金属散热片。所以那个东西非常非常的重。

现在它发布了这样的小型主机，这个到底有多重？到底有多么吵闹？大家自己去思考一下。还有一个问题他没说是什么呢？就是这个东西到底能不能出口中国，这事不知道。刚才5090的时候我们讲了，专门得设计一个叫5090D的东西，是可以出口到中国的。5090的咱们中国的游戏玩家们就别想了。project digITs到底能不能到往中国出口，还得要再等一等，看这个东西也没有那么快了，应该还要再等几个月。

现在我们就是看一个形状就可以了。那么好了，大家是不是应该把钱包掏出来看一看了？我们到底是不是应该要去买这些东西了呢？什么人真正适合去买这个 Project DigITs 呢？

第一个，如果你是有钱人，这个不需要理由，只管买就完了。哪怕买完了以后，你从来都不开机，供奉在那里没毛病。你说我为什么供奉这么个东西在那呢？为你这个仓里边的满仓英伟达股票去祈祷一下不好吗？英伟达这个发布会发完了以后，老黄直接身价上升了，因为股票在暴涨。他已经是世界市值第一的公司了，基本上股票还在三个点几个点蹭蹭涨上去，这是多么神奇的事情。

那你有钱人说我买一个摆家里供起来，没毛病。至于其他的人呢，就真的没必要买这东西了。为什么呢？首先要注意，它里边用的操作系统是一个拿乌班图修改过的定制操作系统，一个用户量不大的操作系统，各种兼容性问题可以把普通用户折腾死。如果你说我不是一个专门的工程师，我就是一个使用 Mac 的用户，或者使用 Windows 的这种桌面用户的话，你就别用这玩意了，这个不是一般人能搞得定的，只有工程师才可以使用这种定制操作系统。

为什么呢？因为它各种的软硬件的配套以及升级，还有这种兼容性都很麻烦。如果真的需要进行大模型训练或者数据分析，这些人说是不是应该去买呢？因为老黄在上面讲了说，我们就是为他们设计的。建议呢，你们还是老老实实的去买通道式服务器。就算你想在家里干这个事，你也去买那个通道式服务器。

为什么呢？因为通道式服务器和 Project DigITs 这种东西，它都是非常非常吵闹的。你要想发挥出这么多算力来，你再怎么设计，它这个功率还是在这的，还是要去散热的。那你干脆就用通道式服务器就完事了，就把它塞到车库、地下室、阁楼，反正这种地方，因为这样的东西，它不适合放在卧室、起居室或者是客厅里边，因为太吵了。而且呢，做这种大模型训练的人最好是用云端的服务器，不要放家里头。

就算是你的数据非常非常的保密，非常敏感，也不建议你在家里边去部署这种东西。为什么呢？因为咱们使用这样的设备呢，都是临时性的，不可能说我一天24小时不停地算这个东西，从来不停，这个事的可能性非常非常小。你可能连续算一周，或者算两周，算完了以后呢，你还是要停下来的。

如果用云计算的这个机房，你只需要为这一两周的时间买单，就可以了。剩下的时间你就不用管它了。那么云计算的这些服务商，就可以把这个主机租给别人了，这个还是非常开心的一件事情。那你说：“哎，我把这东西买回来搁这了。”那你如果不用的时候，难道不是觉得心疼吗？

像这样的主机，正常情况下，如果没有那么高负载的时候，可能也很安静。但是你一看到这个东西很安静的时候，你就想：“哎呀，我这3,000美金是不是花亏了呢？”家里的骡子和马都歇了，这事不行。他会有这样的心理矛盾在这里。

即使你真的是数据科学家，也必须要配一个IT维护工程师，否则你真的没法使这种设备。你就想吧，各种软件的安装，硬件的兼容，这个是很麻烦的。如果我们在云主机上用这个东西，我们是怎么来干这个事的？我们是使用刀客各种镜像来干活的。

这个什么意思呢？就是我们随时需要云主机的时候，我们去跟服务商说：“来，给我搞台新机器来。”然后他把新机器给你了，你就告诉他说：“请按照什么什么样的方式，给我把这个环境搭建好用。”用完了以后呢，说：“现在请回收这台主机。”这个主机就又变成干干净净的了。你下次什么时候再用，你再去跟他说：“哎，给我再去整一台空机器出来。”他再给你整一个干干净净的机器，重新部署。

这个是我们使用云主机的方式。但是我们要想一想，我们用桌面电脑是什么样的方式？那个电脑多长时间格式化一次，多长时间重装一次系统？像我们用麦克的这些人，可能三五年吧，会重装一次系统，这个是正常的。为什么呢？因为这个系统变化相对来说比较少，不会天天的变来变去的。但是这些数据科学家，可能今天我需要用一个这个插件，明天需要用一个那个组件。

这个东西还不停地升级。那你这个玩意儿怎么弄？你就需要不停地格式化电脑，不停地重装电脑。如果没有一个IT工程师跟着你的话，根本搞不定这个事情。就算是正常开机的云主机，我们多长时间格式化一次？可能真的是每个月或者每周，你都会去格式化它。为什么？因为我们需要去维护这个电脑，需要去升级系统。那升级系统你再看看，哎呀，这个升级的东西跟那个兼不兼容，不费劲啊，整个格式化干净，重新整一次就完事了。这是使用云主机的方式。所以没有工程师去维护的话，这个东西摆家里一点意义都没有。

那么最终的结论是什么呢？就是光鲜亮丽的小废物。这个project Digits就算是一个光鲜亮丽的小废物，非常非常贵。如果我们赶个时髦，整一个放家里头，摆起来供起来，平时也没有什么任务让它跑，这个没毛病。你只要有这个钱，没有人能够说你什么。如果你真的想用它，那就算了，趁早打消这个念头。

至于说5090这些东西呢，我觉得你如果真爱的话就去买。现在应该没有什么游戏是必须要5090才能跑起来的。如果你说我一定要去玩stable diffusion，去画一些画，或者我要去做一些渲染的话，哼，也建议用云主机，不要用5090这样的东西出来跑。

所以呢，现在英伟达发布的这些东西，建议大家谨慎购买。至于软件的部分，虽然现在英伟达也在努力的开源，就是他现在新出了一些东西，都是open source的，但是呢，英伟达的软件除非像CUDA那样，一开始在非常小众的领域里头深耕很多年，否则不建议大家去碰这个玩意儿。为什么呢？因为英伟达的软件，用户交互这块是比较差的。英伟达向来不以用户交互这个事情见长，他们都是一帮资深的黑客，一帮这样的工程师范的人。他们认为所有人都应该是工程师。你像刚才我们讲的这个project Digits，这样的东西，如果不是工程师，你根本搞不定这个东西。如果是我整这么一个东西，可能我也得平时把它放在柜子里。

需要去做一些模型。微跳模型训练的时候，把它请出来。机器格式化，整个重装好，然后把一个任务跑完了以后，再重新盖到盒子里头，装柜子里头完事。这个才是他的正常使用方式。等下一次再把他请出来的时候，重新再隔热化机器，重新装系统，这个才可以去正常工作。

所以呢，因为他向来不是给普通用户来用的。就算是你说：“哎，我游戏显卡，难道不是给普通用户用的吗？”是，但是你玩的是显卡的吗？不是，你玩的是游戏。游戏跟显卡之间还是通过各种SDK、各种程序接口在打交道。我们普通人，是不跟那个玩意儿打交道的。而且呢，所有短平快在热点上搞的软件，都不是英伟达擅长的事情。

所以软件呢，跟今天咱们讲的CES消费电子展，这个事就没有什么关系了。就算你说：“我是玩大模型的，我是科学家，我是工程师。”这个事情呢，你可以去进行部署，可以去使用。但是英伟达做的相应的软件呢，特别是在这种热门的领域里头，也建议大家先去使用其他家的，先别用他们家的。因为这些年来，在大模型里头推出的各种软件，其实都没有怎么流行起来。现在大家使的，其实依然是CUDA这个东西。一抽遭蛇咬，十年怕井绳。CUDA大家使习惯了以后，最后就没有办法被他绑架了，必须要使，因为大家继续使下去。

现在老黄就算是摆出再怎么人畜无害的这种表情来，也没有人敢用他们家东西，而且真的不好使。所以在这一块里头，有非常非常多其他公司的这种替代产品、替代的架构可以去用。

好，这就是今天咱们讲的英伟达。黄仁勋穿着他的印花鳄鱼皮夹克，给大家发布的这些东西。然后钱包呢，捂好了，稍微关注一下。特别是project Digits这样的东西，3,000美金对于我来说是比较贵了，可能对于很多人来说好像也不是很贵。但是你先想想你用的了这玩意不？你说如果我摆着，就是为了让英伟达的股票好好的再涨一涨，那你去买，其他的就先别买这东西了。

好，这期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛。

参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

细红线转向All in AI！罗永浩春节将发布新产品，行业冥灯再临！

Luke Fan — Mon, 30 Dec 2024 00:39:00 +0000

老罗，罗永浩这个行业冥灯又转向了，这一次号称要 All in AI，那么他能够为我们带来一些什么呢？

大家好，欢迎收听老范讲故事的 YouTube 频道。罗永浩的细红线呢，其实已经有很长一段时间没有什么声音出来了吧？他又跑回去参加什么婚丧嫁娶，去给人直播带货去了。那么最近呢，传出消息，终于要有产品跟大家见面了。据说呢是在 2025 年春节前后，准备发布新产品。2025 年的春节的话应该是 1 月 29 号，所以呢，他有可能会在 2 月初拿出产品出来。这一次呢，就是一个 AI 产品，不再是 AR 产品了。他这个公司叫细红线，当时创建的时候号称是要去做 AR 产品和 AR 操作系统的，现在转向了。

那么这个产品的价格呢，现在不太确定，只是说不太便宜。2024 年 4 月份，在交个朋友四周年专场直播中呢，罗永浩提到过，让粉丝们准备 199 美金跟 299 美金，这两个价格。所以呢，有可能是两款产品，一个 199 美金，一个 299 美金。当然也有可能这一次发布的新产品跟当时他拍脑的这个价格就已经没有关系了，但是他依然表示，这一次要发布的产品呢，并不便宜。

具体是什么呢？目前为止并没有什么特别详细的信息出来，但是呢，也是有一些蛛丝马迹，待会咱们可以稍微的猜一猜。那么细红线呢，它确实是有一些着急了，因为原来计划是 AR 操作系统跟 AR 硬件。原来罗永浩说：“哎，我这个不着急，不是说我今天融了钱，明天就要拿出产品出来，我要用 3 到 5 年的时间再拿出结果来，中间呢别催我。”但是现在他已经等不及了。

如果按照 2022 年细红线成立，11 月份拿到天使轮融资来计算的话，到今年实际上也就是第二年，2025 年的 2 月份，勉勉强强算第三年吧，肯定是没有满三年的一个时间点了。那么在这个时候呢，他就要拿出产品出来。通常如果信心比较足的时候，或者大家对他比较信任的时候呢，他还可以稍微的拖一拖。当信心不太足，大家不是那么相信他，他又需要去融资的时候，就要着急忙慌的拿出一些东西来说。

你们看，我已经做成这样了。赶快再给我些钱，我要继续做下去。因为甭管他是要做AR，还是要去做AI的话，他所融到的那点钱都不太够。他融了多少钱呢？细红线是融到了5000万美金，当时的估值是2亿美金。实际上，5000万美金对于做AR也好，做AI也好，都是有一点点捉襟见肘。

再加上罗永浩本身这个人又不是技术圈的人，所以他在去使用技术团队或雇佣技术团队的时候，他的成本是要比真正技术圈里面的人去雇佣技术团队要高很多的。那么，细红线这一段时间到底发展成什么样呢？外边并没有那么多的消息传出来。最近传出来的消息实际上是三条。

第一条呢，是2024年初，他将AR相关的软硬件团队进行了裁测，AR我们已经不玩了，准备转向。然后另外呢，在12月26号，也就是前面两天，细红线突然传出暴力裁员的消息。号称的补偿是什么呢？补偿半个月的薪水。你再怎么着n加1嘛，至少应该有一个月的薪水，或者说如果人家在里面干个一两年了，你还得给人家这个n嘛。所以不可能是半个月薪水。但是呢，他说我们裁员给半个月薪水的补偿。

然后调休呢，换成期权，这个也是一个比较奇葩的玩法了。他是按调休算工资，工资按照他最高的估值的价格去算，你应该值多少股份，给你折成期权折给你。那你说这人都被裁员了，你给他留一点期权干嘛使呢？反正就是这样的一个很奇葩的玩法吧，被裁员的人就表示不满，说我们不接受这种裁员方式。

到了第二天，说我们再增加一条吧，增加什么呢？我们把年终奖给大家兑付了吧。但是呢，按照比例兑付，兑付的时间是明年4月份。但是具体到明年4月份，这公司还在不在，或者变成什么样了，谁也不知道。所以呢，目前为止，这一次暴力裁员应该还在僵持之中吧。但是呢，也没有更进一步的消息，他到底是裁了什么样的部门，裁了多少人，剩了多少人，现在这一块的消息呢，并没有出来。不是像吉越汽车似的，直接就崩菜了，还没有，因为人家说，我还要在春节前后发产品呢，希望是他发了产品以后。

再能融到点钱，再能接着往下做。前面这5,000万美金应该已经被他造得差不多了。感觉除了这两条裁员的信息之外，今年还传出过一次招聘AI相关人员的消息。他招聘的是AI工程研发工程师，这里要注意，这帮人不是做AI算法的，不是在那做大模型的。他们做什么的呢？他们是做产品研发和实施的，就是你怎么能够把AI用起来，做个APP出来。

然后呢，他也在招聘大模型算法工程师，但他应该也没有能力去自己去训练大模型。他要求的这个工程师的能力是微调模型，做多模态，做AI agent。我觉得我的能力还将将够格，还是可以去玩这些事情的。然后还招聘了AI产品经理以及数据标注实习生，招聘的这些岗位应该是base在上海的。

罗永浩本人呢，也在很努力地做产品，但他大部分时间是在美国，他不是在国内。不知道是不是就可以学习某位先贤那样“我下周回国”，可能会变成这样的一个状态。他呢，据说是在美国，贴近一些AI团队，贴近最先进、最领先的一些AI项目，然后去跟人家沟通学习，想办法做自己的AI产品。

这就是到目前为止，罗永浩和他的细红线给我们传出来的消息。今年春节我们有可能看到的是什么呢？这是一个非常有趣的问题，因为都管它叫行业冥灯嘛，大家都不希望看到一些有机会的行业被这个行业冥灯照亮。那么行业冥灯它是怎么来的呢？原因其实也很简单，罗永浩每一次都会选择这种大家都证明了的方向，千军万马挤独木桥的时候，他也挤一下。他每次都是选这样的行业上去，每一次等到他冲上来的时候，这个行业基本上已经走到尾声，快速结束了。

所以他做手机的时候，手机的战争基本上就结束了。他跑去做电子烟，电子烟的战争基本上也结束了。他跑去做电商直播带货这件事呢，其实还可以，虽然电商直播带货这件事情现在已经演进到下一个阶段，就是大家已经开始急剧内卷了，还不算是彻底把这块照灭掉了。他选择做AR这一块呢。

也算是一个行业冥灯吧。AR整个的产业也没有什么大的起色出来。现在呢，他要跑去做All in AI，而且他应该做的是AI硬件。那么这个到底会选择一个什么方向呢？很多人也是非常的不安，焦急地等待着他这个春节的发布会，因为也不希望说我正做的这个方向被行业冥灯照亮。大家都不希望有这样的一天。

首先呢，从资金跟人员的层面，咱们先把那些不可能的东西排除掉。不可能是自己训练大模型，因为他这5,000万美金不够干这个事了。而且呢，他招聘的人员也不够干这个事了。所以他不太可能说我自己出一个完整的AI产品。就算是小米说：“哎，我现在要出完整AI产品了。”小米现在在出超级小爱，做这个之前人家也得出来传言，说我花了多少多少钱去招聘了最好的AI的大牛回来，还要去做万卡的集群。就是你要有算力卡呀，你要自己有万卡集群，这事才有人信嘛。所以小米也去做了万卡集群，然后才能做出超级小爱来。

到目前为止，罗永浩以及他的细红线并没有去招聘这种AI领域里的领军人物，也没有能力或者也没有钱去整什么万卡集群出来。所以呢，这件事就不要想了。那么细红线透露出了哪些信息呢？第一个，这是一个软件解决方案为主的产品，核心是软件而不是硬件。但是呢，也还是有硬件的，硬件分两个版本，具体是什么他没说。

然后呢，是用户交互设计理念非常超前。我觉得咱也别光在这阴阳怪气，别光在这嘲笑罗永浩。罗永浩还是有一些他比较强的地方呢。哪强呢？就是在用户交互设计上。他总能够找到一些不是需求的需求场景，然后呢，通过他的讲述，通过他的描述，让你相信这就是一个需求场景。而且被他这种画蛇添足的方式解决得还不错。

比如说像原来他去解决的“发了短信可以叫回”的这个功能。你现在跟女朋友发了一个分手短信，发完了以后我突然后悔了，怎么办？我可以把这个短信撤回来。实际上他实现的方式很简单，就是你这边摁完发送以后，没有马上发出去，然后过个几分钟再发。在这几分钟之内，你可以把它撤回。

就做了这样的一功能。发布会的时候讲了半天，让很多人觉得：“哎呀，我好需要这个功能。”请问你需要这些功能的人，你有女朋友吗？或者是说，这家里是不是已经有老婆了？所以这种功能其实并不是真需求，而是一些伪需求，或者说是一些非常小众的需求。

老罗原来在做锤子的手机的时候，确实是在跟AI折腾一些事情。比如说他当时的这种大爆炸功能，在AI领域里头走得比较靠前的了。什么叫大爆炸？就是你给他一句话，然后你双击还是怎么点一下这句话，后来呢，他给你做一些分词。做好分词了以后说：“哦，我可以把其中的某些词摘出来去做一些处理。”这个呢算是中文自然语言处理中的一部分。只是这个功能呢，最后也没有让他的手机卖得有多好。

老罗后来还做过一个聊天工具，就是类似于微信式的这种聊天工具。当然了，这个他做完了以后，所有做这块行业的人也都死掉了。这个行业冥灯不是白叫的。实际上呢，也是希望说我们在交互上做一些变化。我记得当时那个工具出来以后，还有好多投资人朋友来找我说：“哎，你看这个做得多棒。”看了两眼以后就觉得好傻。

他怎么做的呢？就是大量的进行语音输入。这头语音输入完了以后，那头呢就直接给你出文字。实际上就给你做了一个语音跟文字对应版本的微信的一个聊天功能吧。就是我们在微信聊天的时候，其实喜欢发语音，但又讨厌听语音。他处理的方式呢，就是你这边发的时候可劲发，中间呢做了个语音识别。那头看的人不爱听语音的，你就可以看到文字；你要愿意听语音呢，那你就可以听到语音。

这个语音跟文字之间，像那个卡拉OK似的，一句一句，一个字一个字怎么蹦出来。它是这样的一种沟通和交流的方式。当时我看完了以后就说：“这玩意挺扯的。”这个功能需求并不是不存在，罗永浩总是能找到一些这种挺细节的需求，然后尝试去做。但是呢，没有一些杀手级的需求，或者一些杀手级的这种钩子的话，你是没有办法让所有人去为了这样的一些小的细节性的需求去转换这种大的阵营的。

比如说，哎，我为了使用这功能，我不用微信了，上你这儿聊天来，这不扯淡吗？所以罗永浩相对来说比较擅长的地方，就是抓细节，把这个细节还可以做一些小的功能出来。那么，它的用户交互设计理念超前，这件事呢，我觉得可以稍微期待一下吧。

再往后呢，细红线宣布来说，我们要做多模态高度智能化的产品。现在我们甭管是看到豆包，还是ChatGPT或者是Gemini，都有这种叫高级语音功能了。你可以直接跟他聊天，甚至呢，还开始有这种多模态，就是说你可以开摄像头跟他聊天了，他可以马上看到你，说：“哎，你今天看着不错，挺精神的。”那么，是不是他可以使用相关的API，直接把产品包装出来了呢？我觉得这个可能性是存在的。

按照他开发布会的这个节奏来看，应该是在ChatGPT做实时语音API发布之前，他可能应该做了一些类似的研究，然后发现说：“哎，再不发布的话，我前面做的这个研究就全都废了。”因为Gemini做了叫real time模式，ChatGPT做的是高级语音功能，加视频模式，还可以加搜索。而豆包的话，现在是高级语音功能也有了，视频的不能直接挂，但是你可以向他发各种各样的图片，这块进行视频理解也没问题了。

通义千问也出来了QWQ和QVQ这样的功能，QVQ的话应该是做这个视频或者多模态识别的，QWQ是做推理的。那么在这样的情况下，他可能一说：“哎，我还是要抓紧发一下，而不是说我现在就用人家已经做好的这些产品就给你挂起来。”我估计他应该前面还是做了一些事情的，再不发就被人覆盖了。

那么价格偏高，刚才咱们也讲了，因为你不知道他到底做啥，所以这个价格偏高呢，没法去评价。春节期间发布，它特别逗，叫没有预售直接开卖，现在很多这种产品都是我要先预售一下，先给你看一眼，然后呢，让大家去参加等待。人家说不，我们拿出来我就给你卖，能卖掉多少是多少，这个也是一个相对比较大胆的玩法吧。其实我觉得比较适合老罗，为什么呢？就是他其实比较能说，在说的这个过程中呢。

比较容易造成这种冲动消费。你一旦说：“哎，我给你预售完了。”以后，再过个半年，可能大家冷静下来就不买了。而且呢，老罗还是有一批铁粉的，上来以后甭管买到什么垃圾，都自己安慰自己说：“我就是支持了他一下。”这是一个玩《甄嬛传》的真男人，我要去支持他。反正我们也没法说这些人，各自的选择吧。

那么他到底要做什么呢？几种可能性，咱们猜一下吧。第一个，耳机和音箱这块的产品，现在其实挺多的，包括像豆包，就是直接出了耳机，你可以直接跟豆包的耳机进行沟通。如果老罗自己做了一个软件，解决方案为主的话，他可能拿了别人的模型，做了一些微调，做了一下Rag，做了一些AI agent，解决一些他自己发现的这种微小的伪需求。然后呢，做一个小型的聊天工具，再加上耳机的话，这有可能是一个产品。因为豆包的耳机应该也是卖到1,000多块，所以呢，这个产品并不便宜。

所以有可能是耳机和音箱，但是呢，我并不太希望他是耳机和音箱，因为他是行业冥灯。我觉得耳机和音箱这条路，未来还是有可能走下去的。这个你莫过来，莫挨老子。

然后，玩偶有没有可能？这个可能性呢不是很大。现在在深圳那边，有一些人在做。玩偶实际上就是原来的故事机嘛，你基本上把它认为是一个套了毛绒皮的音箱吧。这种呢，可能有一点点，但未必，因为老罗自己从来没有讲过。他说他要去做这个儿童教育，虽然他原来是个英语老师，但也是做成人教育的，所以我并不太看好他去做一个玩偶。

那你说有没有可能是闺蜜机？这种叫易购平板呢，因为有这样的东西，就是一个大的平板，下头带个架子，你可以拖着它满屋走，可以在任何地方躺下来看个视频，或者拖到厨房去，一边做饭一边看个剧，躺在沙发上看个剧，可以干这样的事情。这个可能性呢是存在的，只是以他现在招聘的这些人来看，概率不大。

还有，易购平板是什么？现在小米智慧屏，实际上就是做各种智能硬件，跟智能家居的控制终端这种东西。这个呢，有可能，现在有一些这样的AI设备在做。

但是，我并不觉得老罗在干这个事。宠物摄像头是一个最近新兴出来的、比较好玩的东西，几百块钱。这个摄像头呢，是两边有俩轮子，中间呢是一个摄像头，像个不倒翁似的，始终能够保持这个摄像头朝前。这两个轮子呢，可以前后转，所以呢，它可以转弯，可以四处跑。如果家里有宠物或者有小孩的话，你可以拿手机去控制这个宠物摄像头，跟踪小孩或者跟踪宠物，满屋子乱跑，甚至还可以打出激光点，什么的，因为逗猫嘛，这个它有这样的功能。

以老罗现在的团队来说，我觉得做这种东西的可能性也不大。为什么呢？因为你要想做这种摄像头的话，它对于光学这块要求还是比较高的。目前在做这种宠物摄像头的是影石，就是做那个INSA360那家公司，他们在干这个事，还挺好玩的。在地上满地跑一个摄像头，自己没电了，还自己找地充电去，可以去识别宠物，可以去做宠物动态跟踪，还可以做小孩的跟踪。我觉得这个还是比较有戏。

这个行业冥灯，你别过来。那么再往后呢，可能性比较大的东西就是眼镜，因为现在甭管小米、华为、百度，都在尝试做眼镜。因为梅塔的扎克伯格说：“我就要去做眼镜。”他喊完做眼镜以后呢，谷歌说：“那咱也做一个呗。”所以现在大家都在去做眼镜。

以老罗行业冥灯的这个选品标准来说，或者选方向的标准来说的话，我觉得他做眼镜的概率会比较大。就是可以有摄像头，也许会有蓝牙的耳机，放在一个眼镜上，然后连到手机，靠手机去驱动一个眼镜。这种呢，到底有多贵多便宜，咱就不好说了，因为有做的贵的，也有做的很便宜的。我觉得这一块可能性比较大。

因为我自己不太看好眼镜这个赛道，所以行业冥灯你如果实在要毁的话，就毁眼镜吧。但是肯定还有很多人说：“哎，我们有喜欢眼镜的。”那行业冥灯你也别过来。

那还有什么方向有可能去做呢？就是AIPin那种东西，胸口别一个小的这种别针，带摄像头，带这个麦克风，号称要取代手机。你把手往这一伸，它这个摄像头就可以拍到你的手，直接把一个投影打在手上去，可以进行这种交互。

这种东西呢，以老罗的个性来说，我不太相信他会选这个赛道。为什么呢？因为太不成熟了。他永远会选那种非常成熟、已经接近尾声的赛道。哪怕是说这个成熟赛道谁都没跑出来，但是也要足够多的人上去冲锋了以后，他才会上。

那你比如当时他去选电子烟，也是电子烟已经火得一塌糊涂了，他才冲上去。搞完了以后，国家就开始整治了。这是他选择行业、赛道的一个标准玩法。所以我并不太相信他会去选AIPin这种赛道。

眼镜的可能性最大，就是把所有东西都列完了以后，眼镜第一吧。第二个，我估计有可能是耳机，因为耳机比较好实现吧。这一次的话，咱们就让老罗把眼镜献祭了吧，反正我也不喜欢，别人喜不喜欢我不管了。

咱们等到明年的2月份，看看罗永浩细红线公司到底能够拿出什么来。而且它是现货发售，不会有任何预售，当时就可以买到了。大家拭目以待。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我的付费频道。再见。

阿斯麦崩盘引发市场动荡：AI大模型是否会经历郁金香时刻的泡沫危机？

Luke Fan — Mon, 21 Oct 2024 14:32:55 +0000

大家好，这里是老范讲故事的YouTube频道。我们现在开始讲第一个故事：阿斯麦崩盘。

是不是AI大模型要迎来郁金香时刻？什么是郁金香时刻？就是我们认为有一个大的崩盘即将到来的时候，我们管它叫郁金香时刻。因为当年荷兰人去卖郁金香的时候，就遇到了郁金香崩盘这样的事情。后面每一次大的这种泡沫破裂的时候，你可以认为它是一个郁金香时刻。

那么阿斯麦是怎么崩盘的呢？算是意料之外，情理之中。为什么叫意料之外呢？因为由于某个技术原因或者某一个技术故障，导致了应该是晚一天发布的财报提前一天泄露了。但是呢，这个泄露出来的财报并不是说虚假的或者说有错误的，就是正确的财报，只是他看到的时间稍微早了一点，或者是大家意料之外的这个时间看到了。早看到一天、晚看到一天，里面的数据都不会发生任何变化。

所以呢，算是有一点点意料之外。所谓的意料之外的这个部分，唯一起到的作用就是放大了这个财报的各种情绪。原来财报里边写着我哪块做得不错，哪块做得不好。如果你是按正常的时间去放，大家就按正常的心理状态来看就好了。但是你突然提前泄露了它，那么这个里头一定是有一些奇奇怪怪的东西，大家心理被放大了。

现在呢，股市其实更主要是看未来的。股市不看今天的消息面，不看今天具体的什么，你今天多卖了几个硬盘，明天多卖了几个光刻机，人家是看你未来发展的。这其实也是大妈盘跟机构盘之间的差异。机构盘一般要看你未来三年的这种发展的状态，或者有什么样的新的方向，所以他允许你现在是赔钱的，你未来只要是能够发展的好，他就愿意来买。而大妈盘的话比较情绪化，他不会看那么远的事情，当前有什么变化我当前就要马上见钱，这是不一样的。

而股市里边，特别是欧美股市，机构盘要更重一些。现在阿斯麦提前透露出来的这个财报，它的收入跟利润其实还算是上升的，或者叫又创新高吧。但是呢，未来的订单只有预期值的一半，这个是非常非常吓人的。

因为像阿斯麦这样的光刻机，不是说像手机似的一年造几亿台，它一年大概也就是四五百台，不会太多了。所以，接到多少订单，就决定了未来的生产安排。现在，他只接到了20多亿欧元的订单，大家预期大概能有40多亿，所以差了一半的钱。这个数字让整个市场感觉到异常震惊。而且，仔细去看阿斯麦的财报，还会发现，在上一个季度的收入中，中国的收入占了一半，他有一半的东西都卖给中国了。中国购买的主要是28纳米以上的产品，真正的精密制程或高端制程的设备是不允许卖给我们的。

如果美国不管他，荷兰政府不管他，我估计他未来的订单还是能爆炸的。但是现在这个情况已经没有了。台积电、英特尔都在努力出货，就是要赶快把答应给我的机器交给我，我该付的钱付掉，你该给我的机器装上，再努力做。那么，问题出在哪里呢？韩国和存储市场崩了。韩国原本像三星要买一堆光刻机来用，但现在韩国的出货量没跟上去，未来的订单也不怎么样。

存储市场方面，我刚刚又去看了一下，淘宝上长江存储颗粒的SSD硬盘4T，现在价格已经回落到1,000多一点儿了，最便宜的时候大概能到900多，现在是在往下掉。阿斯麦这一部分的光刻机没有卖出去，未来的订单也就不存在了。

那么，芯片市场到底发生了什么变化呢？手机和电脑的需求其实都没起来，全球的需求相对来说比较疲软。这个锅谁来背呢？这个锅必须是AI来背，没有第二家能背的。因为现在大家能够让他换手机、换电脑的唯一理由就是AI。你现在要用AI手机，要用AI电脑，你要去买iPhone 16，要去买三星的AI手机，要去买谷歌的AI手机，国内的各种安卓手机都要去配AI。这两天，联想在拉着AMD、英特尔的老大、英伟达的老大在开会，就是要去卖AIPC，大家对这些AI手机的期待正在增加。

AI的PC都没有什么购买欲望，没有刺激起来嘛。原因只能是一个，就是AI对于普通用户来说没用。普通的用户没有觉得AI给我解决了什么问题，我需要付很多的钱重新更换设备，必须要来使用这些AI产品，没有。所以这个锅只能是AI来背。

阿斯曼他也在讲，说我们现在所有的逻辑芯片，就是CPU这些东西，存储芯片现在都不行，需求都很差。现在最后的一个亮点是AI了，也就是现在还有人在去买它的光刻机，去做SDM，就是算力卡上面用的这种内存，或者是去做H100、B200，或者是MI300这样的这种算力卡，这个东西还是有需求的。

但是大家要注意一点是什么呢？就是这种AI芯片，它呢很贵，一个H100五万美金，一个B200可能更贵，具体价格我没有去查，但是这种芯片总的量其实是很小的。它跟CPU，比如说高通的CPU、苹果的CPU比起来完全不可比。你想苹果每年要卖掉几亿只手机，PC你像英特尔、AMD每年大概几千万，也还是要出去的。但是你像H100这样的芯片，每年能够有个几十万撑死，应该到不了100万，也就是这种水平。

所以他那个量差得非常非常远。AI的这些东西呢，它可能现在还有很高的需求，但是大家就预测说，崩溃这种事情是带有滞后性的，也许下一个就轮到AI芯片崩了，因为前面是已经把CPU崩掉了，已经把存储芯片崩掉了。AI芯片是不是再过个比如说一年，或者再过个一两个季度就会崩掉，这个大家也在观望。所以他为什么股价就会崩掉。

现在呢，市场上的投资者心理已经站在悬崖边缘上了，因为AI整个的行业来说，投入实在太巨大了，而且看不到任何收益。这个东西呢不怎么挣钱，全世界所有的AI公司都不怎么挣钱。还有一个问题是什么呢？就是AI大家都觉得这就是未来的方向，但是现在AI给整个行业带来的变化是只见裁员，没有看到哪有新的企业快速成长，新的企业爆发，或者是有什么样的公司快速的招人。所以他这个AI会不会说，就是豁楞一下就跑掉了。

或者说，他就一个泡泡就破掉了。大家现在都很担心这件事。现在呢，还有另外一个让大家担心的，AI有可能泡沫破裂的原因是什么？就是H100的租金崩了。H100这种东西呢，是英伟达上一代的算力卡，也是现在的主力算力卡。现在虽然有B200出来了，但是真正用上的人还非常非常少。现在出来进行测试的B200，可能还有一些问题，在交货上还需要再等一等。

H100这样的算力卡，一张是5万美金。原来呢，说你们有人买不起吧，怎么办呢？你们可以租用这些算力卡，像云计算一样，去开一个这种带算力卡的主机，我们去用就完了。英伟达给的建议呢，是4.7美金一小时。去年的供不应求的时候，这个价格涨到了8美金一小时。但是现在呢，这个价格已经降到了两美金一小时，就是已经掉下来了。大家不需要了。

H100按照5年的寿命，5万美金价格，如果降到了3美金一小时以下的话，这个收益率可能就未必划算了。你可能最后挣的钱，还不如你把这钱存银行里收利息，收挣的钱多呢。如果这个价格降到2美元一小时以下，你可能连成本都收不回来。你把这个H100租用一年，收回来的租金不够这块卡钱呢，会出现这样的问题。

怎么又感觉像咱们原来挖矿的感觉？买了4090插在机器里挖矿，以太坊的价格一下跌，然后你觉得，哎呀，这个成本回收的时间又变长了。他现在变成这样的一个状态。而且呢，H100的这种租用的收益，你还不能按这样来算。为什么呢？因为你挖矿，只要把机器开着，它就一直在挖，不会说现在有人挖，待会没人挖，它有开机率的问题。它不会这样的，你只要开着机，它就一直挖。

但是像H100这种东西，你把它买回来以后，没有人租用的时候，它就有利用率啊。你比如说，现在虽然是能够卖到2美金一个小时，但是你可能开机率不足10%，不足20%。那你多少钱你都挣不回来。这个事是非常非常危险的。现在为什么H100的单价会掉得这么厉害呢？这个其实是真正反映到整个大模型。

这个产业整个行业的这种创业热情，现在舍得花钱去训练新模型的公司，其实已经很少了。在早期的时候，大家都愿意说：“我们花钱去训练了个新模型吧。”现在已经不愿意干了。独角兽零一万物的CEO李开复刚刚出来讲了，他说我们一定要继续坚持训练新模型。为什么他会出来讲这样的一个话？因为李开复他们已经好久没有新模型面世了，现在他终于又拿出了一个新模型，这个新模型叫e Lighting。这个模型呢，是一个Moe的模型，在很多的跑分里头已经超过了GPT4O以及GPT4O MINI。

现在又出来开了个发布会，他就讲说训练一次这样的模型需要3-4百万美金，还是很贵的。就是一般的公司你根本就玩不起。你不是独角兽，不是有10亿美金的估值，身上可能有个几亿美金的投资的话，你根本就没法弄这事。你想把这个钱挣回来也挣不回来。就是他们现在这些人，用几百万美金训练了一个模型，像他训练的模型应该还是相对比较小的模型，还不是像open AI那种大模型。那么这三四百万美金，你需要做多少服务能把它挣回来，非常非常难。

现在呢，基础大模型本身的同质化也很严重。open AI的GPT、claude、Gemini这三个模型，你说它到底有多大的差异，其实到最后差异都没有那么大。而且大模型呢，也不是针对普通用户的。他很多的大模型用户最终还是开发者。如果是开发者使用这些大模型的话，那最后这些大模型的竞争就会形成一个很悲观的结果，那就是赢者通吃。谁做的最好大家都去选他。

如果是你面向普通用户了，大家说：“哎呀，这个甭管好不好使，我用习惯了，我不换了。”它会有这个用户忠诚度的问题。但是你一旦是大模型，最后用户是开发者，是B端用户的话，随时有新的人家随时就换掉了。现在很多公司已经停止在训练自己的模型了，比如像Character AI这样的公司，就是说我们自己的模型以后不训了，以后我就用别的了，用Gemini就完事了。

普通人其实就直接聊天就可以了。更进一步的，其实普通人现在用不到现在的大模型。御三家也是跟游戏机似的，御三家OpenAI、Anthropic和谷歌，这三家是算最强的。国内的产品呢，通义千问、Moonshot、Deepseak、Yi，这些其实还是比较常见，我用的还比较多。其他像什么Mini Max呀，还有另外几个主要ToB的产品，基本上没用过。

咱也不止评论开源的这种，或者开放模型吧，Lama呀、Mistra呀，这些也都是可以使用的。当然这里还有一个比较奇葩的是XAI。为什么说它奇葩呢？融钱融的很多，名声也很响，顶上顶着马斯克，手里的算力也足够多。只是呢，现在大家所看到的结果，也仅仅是平台上面的一个聊天窗口，其他什么都没有，什么API啊、什么AI agent呀，所有这些东西它都没有。

号称是开源了Grok1.0的版本，也把这个原代码扔出来了，但是呢，放出来以后也没有任何人再去看他一眼，也没有任何后续的更新，什么都没干。他怕做了这么一样的一个东西出来，所以我觉得最后可能他会比较难看。

那么应用以及对于算力的需求呢，现在其实已经没有那么高了。除了刚才咱们讲的这几家之外，其他人其实用不了多少算力。对于大部分人来说，只要问答一下就行了。但是问答的时候呢，你用推理算力就行了，你并不需要去训练模型的那种算力。这个推理算力的话，有一个卡叫GROQ，用这种卡的效果其实比H100好，它非常便宜，非常高效的把你的推理结果给你送出来。

现在很多的公司，包括谷歌、亚马逊、微软，都在自己定制类似这样的卡。我们不再需要英伟达这些东西了，我们只管去回答人家聊天问题就行了。至于更进一步的开发AI agent呀，这些东西现在还在找方向。虽然很多人觉得这个东西很美，但大规模的使用现在其实并没有那么成熟。至于其他的AI应用方式，RAG这东西其实也没有大家想象的那么美好。

有些人说：“那我们上微调小模型吧。”现在确实这么干的人越来越多了。但是呢，大家要注意，很少有人去把一个比如说405币的模型拿出来微调一下，或者把七十几B的模型拿出来微调一下，很少啊。绝大部分人微调也就是去调这种，比如7B、9B这样的模型，甚至有人去调那个1B的、3B的模型。这种模型调起来的成本是非常低的。你到这种租用H100的平台上去调这种7B的模型，调一次可能花不了几百美金。

所以，对于他们这些做H100租赁的人来说，这个就真的是卖不出去了。因此，这些H100的租金就直接崩掉了。而且还有一个什么原因呢？很多购买H100的人其实买的是期货。什么叫期货？就是去年人家拿了投资，然后就花钱买了，买完了以后一直交不了货在这等。等到现在呢，开始逐步的交付，整个市场容量等于需求在下降，供给在上升，那它价格就只能崩掉。

而且，大模型训练这个事其实并不能一直跑。你只有像OpenAI、Anthropic、谷歌这样的公司，会不停地在去训练大模型。训练大模型这个过程，其实有点像造大炮。我造了一门大炮出来，但是呢，你得不断地开炮。你这一根炮管，你说我可以打500发炮弹，还是打300发炮弹，你把它打掉。你不能说我炮弹造大炮造出来了，炮弹没打两发，以后咱再造一门大炮吧，或者咱们过两天再造一门大炮，然后每天不停地造大炮，这个事不行。

现在大家其实对于算力的要求已经没有那么高了。当这一件事情真正传递到英伟达身上，传递到台积电身上的时候，可能整个AI大模型的这个泡沫就彻底捅破了。现在还没有传递到他们身上，现在还在喊说：“哎呀，我的H100这个订单很好啊，大家都在拼命地买啊。”马斯克说：“我要去买啊。”这两天好像是Oracle说：“我要去买一大堆100回来，大家赶快来使啊。”现在大家还在相信什么？就是谁买了一大堆的这个英伟达显卡，谁的股价就会涨。但是他们并没有想清楚说，你买了这些东西以后，部署到云计算机房，到底能不能用这个东西挣到钱？或者最后价格下滑了以后，是否这个生意依然是划算的？现在大家还没有想到这个事情，但应该很快就会想到。现在呢，整个行业也都比较迷茫。行业的老大OpenAI也没有给出什么新方向。现在，OpenAI还在不断地去训练新的大模型，但是不断训练新模型这件事情肯定是亏钱的。

其他人也不敢停下来。如果停止训练新模型，开始卷应用，可能最终在模型层次就会落后。那么，这有什么问题吗？这个问题很大。因为我们看看历史，云计算也好，广告也好，最后都是赢者通吃。最后剩下的，不管是亚马逊、阿里，还是广告平台上的谷歌、Facebook、苹果，这都是最后的赢者通吃。

他们都是靠说：“我从广告到云计算，再到最前端的应用，还有自己的用户，我要都有，然后才能把整个市场吃下来。”这些大厂是不敢去放弃，说“模型我不做了，我就只管把应用做好。”他们不太敢去干这个事了，因为一旦干这个事，最后就有可能被别人拿捏。人家说：“哎，平台是我的，广告也是我的，或者大模型是我的。我给你用的时候，就给你在里边放一些小的障碍，或者是让你觉得使用得不是那么舒服。我再出一些新的产品的时候跟你竞争，你就竞争不过我。”这个是大家所害怕的。

所以对于巨头来说，他们依然要去训练，但也没有什么方向。OpenAI今年亏了50亿美金，明年预计亏损140亿美金。而且过去五年，据说已经累计亏损了440亿美金。像OpenAI这样的公司，未来一段时间还会亏钱，可能预计到2029年才有可能盈利。现在是2024年，要再过个五年才有可能挣上钱，这个还是路很遥远。

像我们以前去投案子的时候说：“哎，你做个三年的财务规划吧。”人家说：“这玩意咋做？”我说：“你做呗，做完反正我也不看，我知道你是拍脑袋瞎猜的。”你像OpenAI想五年以后盈利，有人信吗？反正你愿意信，你就信就好了。

现在呢，整个行业其实都是非常非常纠结的。要不要继续卷？大模型这个东西看起来很美，但具体到应用的层次上，其实是脱节的。我们前面讲到说，大模型可以改变百分之多少人的工作，可以改变所有的应用，所有的应用环节都值得用大模型重新做一遍。但是到目前为止，没有谁说因为我用大模型重新做了应用以后，我就突飞猛进，我一把就封了，就涨起来了。并没有这样的公司出来，或者说这样的公司，比如说像 Character，大家觉得哎，你在用大模型做一些陪伴类的应用，这个好厉害。然后呢，这公司就不行了，核心团队被谷歌买走了，自己也不再训练自己的模型了。

有人说 Perplexity 很棒啊，人家做这个搜索很好用啊。但是大家看，看看谷歌，看看国内的豆包或者是 Kimi，大家都在往这一条路上挤。最后挤上去以后，他其实没有什么自己优势了，赢者通吃。一定是最后握有大模型的那个公司能够把它干掉。Perplexity 的模型不是他自己的，他的模型是 OpenAI 的。那么在这样的情况下，OpenAI 说来，我做 40 GPT 了，那就没你什么事儿；谷歌 Gemini 说来，我也把这个东西提升进去。那么在这样的情况下，Perplexity 是没法跟他们竞争的。

所以这个呢，现在大家也是非常非常苦恼的一个问题。大家都看到了裁员，但是没有看到新兴行业的崛起。而且这一次裁员呢，跟以前历届的裁员都有巨大的差异。以前裁员，比如说就跟军队裁军似的，他们会干嘛呢？把士兵干掉，把这个有经验的军士长留下来，把军官尽可能的留下来一些。为什么这么裁军呢？就是万一以后打仗，还可以以此为骨干，快速的再建立起新的军队来。但是这一次裁的都是中层管理干部。亚马逊现在已经透露出来，准备在未来一段时间里头裁员 1.4 万名中层管理干部。国内各大厂裁员的重灾区，不是底下干活的人，当然也不是说 35 岁毕业的人，而是什么呢？就是中间沟通环节的职位，不像什么 HRBP 啊，什么这些都重灾区。

把他们都干掉。我们不需要你去沟通了。以后的公司都是扁平化，底下的人用AI把能完成的工作尽量完成，上层的人用AI去尽可能地收集数据，进行判定或者做出决策就完事儿了。不需要中间有一大堆的人去制定规章制度、执行规章制度，然后去进行沟通。这部分的事情通通由AI来干。

现在变成了这样的一个状态，所以未来的大企业可能会更加的扁平化一些。而且现在很多的AI行业的这些公司也在思考问题：我到底是ToB还是ToC？我是给商业用户去做呢，还是给个人用户去做呢？ToB肯定是短期能够挣到钱的，因为商业用户只要是你能给他改变一点点的效率，他就愿意给钱。但是长期这样的公司大概率是会被淘汰的，混不下去的。

那么如果ToC的话，那是真卷不起，太贵了。现在流量都是握在大平台手里面。咱们就以做AI应用、AI桌面应用这一个赛道来看，国内Kimi肯定是做得相当不错的一个应用，而且声音也很响亮。他有多少月活？几百万。豆包6,000万月活。为什么？因为流量在字节跳动手里头，你Kimi想要流量，花钱买去，人家字节跳动说我自己有流量我自己上。当然，豆包也挺好使的，因为我现在每天主力的AI工具就是豆包，还是非常好用的一个东西。

在这个过程中，是没有中间状态的。我要么ToB，要么ToC。现在是不是有可能成为有一些新的中间态？我们来为他服务。现在呢，大家其实也在思考这个问题：什么是中间状态？就是ToB跟ToC的中间状态。我呀，我就是中间状态啊。我们这种人叫什么？叫自由职业者。我既不是B也不是C，我虽然是个个人，但我肯定不是一个大的商业。但是呢，我又不是说用这些AI工具去解决日常娱乐问题，我是用这个工具在上班在挣钱。

所以呢，可能未来的这些AI工具要思考一下，怎么为ToB与ToC中间的这部分人去服务。也许未来会有一些新的不同的方向出来。AI可能会替代80%的工作，这80%的人失业了以后，不会再在未来一段时间里再回到大企业里面去就业。他们可能就会像我一样，成为新的这种叫做自由职业者。这有可能才是未来的一个广大业态。明年呢，有可能是整个AI行业至暗时刻，更多的创业企业会崩盘，就像咱们前面讲的Character AI这样。而且国内的这些AI企业也会有大量崩盘的，这个没有任何办法，因为你花了太多的钱，做了太高的估值，你又挣不到钱，也没有办法解决实际的问题，也没有办法真正的去提高社会效益，这些企业一定会崩。

英伟达的B200交不了货，与台积电现在也在扯皮。这个事本身其实问题并没有那么大，台积电说英伟达，你这用了太多的新技术，给我们的时候又太着急，所以我们做出来的芯片是有问题的。英伟达就是说，台积电你们的技术有毛病，给我的芯片不好，那我们要去晚一些再去交付。这个其实不重要啊，真正重要的是什么？算力需求下降。如果大家发现没有那么多的算力需求了，你把这个卡造出来卖不掉了，这个才叫吓人，这个有可能就会在2025年发生。而且应用如果还是起不来，新的商业模式、新的交易、新的利润还是没有产生的话，那么这个崩盘就必然会到来。

但是呢，我觉得也不用太悲观，崩盘是一定会来的，但是呢，不破不立，必须要经历这次崩盘，最后呢才可以去说再继续往前走。当然最好在这个崩盘的过程中能够保住open AI，不要让这个老大倒下，这个老大倒下，可能整个的行业就爬不起来了。而如果能够保住它的话，那没准未来还是可以说经历一个大的起伏之后再慢慢的起稳回升。

在明年呢，更多的人应该会去做应用，更多的人会去思考新的商业模式。不要再去搞什么狗屁的UBI，就是全民基础收入，那东西搞不通的，不要脱离商品经济的底层逻辑。在这个逻辑上，大家去想有什么新的商业模式，有什么样新的业态。如果80%人失去工作了，都在外面做自由职业者，我们又需要什么样的东西为他们服务，这是明年真正需要想的东西。在这个过程中呢。

我们就要等待新的巨头产生。这个新的巨头有可能是OpenAI，它有可能会指明新的方向，或者说它能够为这80%的人提供新的平台，能够让他们在OpenAI的平台上去盈利、去生活。那么OpenAI就会成为新时代的谷歌。

Anthropic的话比较难，因为他们有可能最后会逃不脱收购，可能被亚马逊直接收掉就算了。谷歌的话，这一次应该不至于掉队，这应该就是上一个时代的微软，虽然没有赶上新的时代，但基本上也跟着了。这就是谷歌在这个时代要扮演的角色。

梅塔做的拉玛，有可能就是这个时代的安卓，所有的开源模型的标准制定者，这就是梅塔在这个时代的定位。在国内，现在看，三家跑得比较快的，一个是阿里，一个是字节跳动，还有一个是Kimi。至于其他的，还需要再努力一些才能被我看到，否则的话看不到他们。而这就是现在的一个状态。

整个AIGC的行业，有可能泡沫会经历一次爆破，但从我个人的观点来看，这一次爆破并不会把整个行业炸翻，但也会重新做一次洗牌。就在明年2025年，应该会重新洗一下，洗完了以后大家再慢慢地往前发展。在这个过程中，一定会有很多的痛苦，很多的动荡会发生。大家一定要安下心来，或者说要坚定信心，继续在AI的这条路上往前走。

而且在走的过程中，也要采取更加理智、更加稳妥的策略，比如小团队以盈利为核心。如果你真能融到钱，再去研究是不是去训练大模型。其实在今年的可能第一季度，三四月份的时候，我们去参加一些创投会的时候，所有的投资人和一些大厂的老大都在讲，现在不要再去训练大模型了，这个已经时代过了。现在训练大模型这件事情，就交给刚才提到的这几家就可以了：OpenAI、Anthropic、谷歌、梅塔、阿里、字节、Kimi。其他人大家努力去找到新的应用就好了。这就是现在由阿斯麦这一次的股价暴跌，我们去聊一下。

说AIGC的泡沫到底是不是该挤一下？好，这就是我们今天的第一条。

OpenAI或将ChatGPT涨价至2000美元/月，未来发展何去何从？

Luke Fan — Mon, 09 Sep 2024 00:40:10 +0000

2,000美元一个月的ChatGPT还会有人用吗？

大家好，这里是老范讲故事的YouTube频道。

今天咱们来讲一讲OpenAI有可能给ChatGPT涨价的事情。消息哪来的？国外著名科技媒体Information上报道，OpenAI因为连年的亏损，而且新的模型成本快速上涨，所以有可能给ChatGPT涨价。涨多少呢？他们也是搜集了很多的信息以后，判定有可能会涨到100倍，也就是2,000美元一个月。这是不是幻觉呢？大概率是。

那你说Information上面怎么会有幻觉呢？需要注意，Information上面也是说，我们根据各种信息总结出来以后，有一种声音提到有可能会涨100倍。具体是哪个涨100倍并没有说。到底是每个月这个20美金的订阅费用涨100倍，还是说TOKEN的费用，或者其他的一些商业合作的费用，涨到100倍都没有说。而到底是涨100倍，还是说按照这样的一个级别去涨，现在也没有讲清楚。所以只是说，我们根据传言得到了这样的一个消息，这就算是一个幻觉。

咱们再讲一个幻觉的故事。前面有人提到，印度产的iPhone良品率只有50%。后来被富士康的人出来辟谣，说没有那么差。如果良品率只有50%，苹果也受不了。其实印度产的iPhone良品率比中国的低10%。郑州富士康的iPhone良品率大概是96%，印度大概是85%或者86%这样的一个水平，其实依然是可以接受的。

那么前面讲的这个iPhone在印度产，良品率只有50%这件事，完完全全是造谣吗？也不是。有人报道说，印度的某一个零部件工厂，生产的iPhone外壳送到富士康检测之后，发现两个里面只有一个能用，这就是50%。也就是iPhone的某些工厂生产的某些配件，一些批次里面，它的良品率是50%。但是这样的消息拿到国内来以后，大家就传了，印度产的iPhone良品率就是50%。它会变成一个幻觉。

这种幻觉，我们一般认为它不叫完完全全的谣言，它是有出处的。只是大家把不同出处的信息进行总结归纳以后，就会变成一个假消息。以前有人在苏格兰坐火车的时候，看到有一头牛是紫色的，说苏格兰的牛都是紫色的。这个时候旁边人说，你不能这么讲啊，你应该说你在苏格兰看到了一头紫色的牛，而不能说苏格兰的牛都是紫的。另一个人又上来说，你这个说的依然不准确，那应该怎么说呢？说你在苏格兰看到一头牛，一头牛有一面是紫色的，另外一面你没看着。你不知道，但是如果有人出去传，苏格兰的牛都是紫色的，你说他算造谣吗？咱们稍微扯得远一点，讲一下这种幻觉是怎么产生的。其实，人也会产生幻觉。苏格兰的牛都是紫色的，印度产的iPhone只有50%的良品率，这就是人类自己产生的幻觉。

所以我们不要光去嘲笑大模型。好，我们继续往下讲，OpenAI现在到底在干什么？其实很多人也很关心这件事情。这一段时间来，传出了很多的新名词，但这些新名词都代表什么意思？

比如说，去年山姆·奥特曼突然被干掉，失去CEO职位，失去董事会职位的时候，就传出来的Q星算法，这玩意到底干嘛使的？今年前几个月，山伯特曼突然放了一张草莓的照片，那么草莓算法到底干嘛用的？以及山姆·奥特曼号称马上要发布的Orin猎户座模型到底是什么，或者说非常强大的Orin猎户座模型到底是什么？

前面号称OpenAI要涨价100倍的这篇《Information》文章里面也进行了一定的解释，它把这三个算法串起来了。Q星算法是主要做科学和数学计算的。大家知道，大语言模型通过语言进行推导，它就比较容易犯9.1比9.9大的这种错误。它从语言上看，11一定比9大，但如果有一个数学相关的模型直接算，就可以避免这种错误。这就是Q星算法。

而草莓算法，其实是以Q星为基础做出来的，也就是以数学和科学比较强劲能力的算法为基础的。它主要的特性是有极强的推理能力，它可以直接拆解我们所需要的任务，而得到一个完整的结果回来。这就是草莓算法。据说这种强劲推理能力的草莓算法，今年秋天就会面世，应该没几个月了。

而下一代的大模型，非常强劲的大模型Orin，也就是猎户座模型，是使用草莓提供的合成数据进行训练的。它把所有这些东西综合在一起。

现在其实大家遇到了一个问题，是什么呢？就是scaling law快卷不动了。Scaling law就是缩放法则，所有的AI公司老板都信誓旦旦地拍着胸脯跟大家讲，我们依然相信scaling law是成立的。英伟达的股票涨成现在这样的一个状态，也是大家相信scaling law依然成立。

Scaling law是什么？我不断地往里加数据，加更多的数据，加更大的算力，也就是显卡，算更长的时间，得到更大的模型，一定效果更好。这就是scaling law，也就是我们以前讲的大力出奇迹，只要你不停地往里堆，总有一个更好的结果出来。虽然所有人都在喊这件事情。但其实，过去的一年里，这个 scaling low 基本上并没有被突破，没有更大的模型出来。虽然我们看到了拉玛 3.1405B 的推出，但因为前面有不公开参数的 GPT-4、GPT-4O 以及 Gemini 1.5 Pro 这样的版本，所以我们并不能确定拉玛 3.1405B 是否在 scaling low 上继续往前走。

Anthropic 的 Cloud，它们最强的模型叫 Opus，虽然也没有公布参数量，但大家普遍认为它应该是跟 OpenAI 的 GPT-4 或者 GPT-4O 的参数量级在一个水平上的。结果，Anthropic 推了一个 Cloud 3.5，大家觉得实在是太香了。现在可能使用 Cloud 3 Office 的人已经越来越少了，而 Cloud 3.5 的 Office 版本这么长时间也一直没推出来。

大家已经在这种大模型的基础上进行蒸馏之后，往回退了一步，并没有继续往前走去实现更大的模型。而现在，各种 70 币上下规模的模型，它们的能力已经接近 GPT-4O 了。无论是使用拉玛 3.1 的 70 币，还是使用通义千问的 72 币，或者其他一些公司训练出来的开源、闭源 100 币以内的模型，它们不能说完全超越或全面碾压 GPT-4O，但在某些特定场景下，已经接近或超越 GPT-4O 的能力了。

小模型结合各种场景之后，甚至比这些 70 币的模型表现还要更强一些。也就是这种 7 币或者十几币的模型，如果进行一定的微调，再结合特定使用场景的话，效果也很好。这导致什么呢？对于更大模型的需求在变弱，大家觉得现在这些模型挺好的。在这样的基础上，不断把这个模型变得更小，让它更加贴合具体的应用，效果也非常好。

还有一个原因是什么呢？就是 GPT-4 和 GPT-4O 指明方向以后，大家已经追赶了一年了。追赶到现在一个位置后，大家说我们已经基本上达到和超越 GPT-4O 的水平，再往前走没有方向了，没人指明道路。现在大家都在等待行业的老大，或者叫排头兵的 OpenAI，来告诉我们下一个方向在哪里。

现在 OpenAI 告诉大家，下一个方向有可能是 Orin。而 Orin 跟现在的 GPT-4O 比起来，它的差异是什么地方呢？就是推理能力更强，逻辑能力更强，幻觉更少。这是现在新的追求方向。但是 Orin 出不来，大家也不知道应该怎么做，还是要等它做出来。

阻碍 scaling low 继续发展的还有一大原因，就是数据枯竭了。训练现有的模型已经可以把当前能够找到的数据基本上都使完了。更多的数据进行清理和处理的话，成本非常高。我们直接找到过往的书籍和互联网上的信息，对这些数据进行清理，人工的这种加工成本是非常高的，因为数据量实在太大了。很多的低质量数据，拿去训练以后，可能幻觉会变得更厉害。

所以现在大家普遍使用的方法是什么？就是使用合成数据。所谓的合成数据，就是由大模型生成的数据，再去训练新的大模型。而这些数据又不是靠大模型直接生编的，而是什么呢？让大模型去取代做数据清理的人工。我们拿到大量的网络数据以后，把这些数据交给一个大模型，让它去做清理，清理完了以后重新生成一遍。

这些合成数据也不算是无根之木，它也是从现实来的，只是经过大模型的过滤和清理。拿这样的数据再去训练新模型，发现效果会更好。拉玛3其实就是这么训练出来的，这拉玛3里边的数据是用拉玛2进行清理出来的，也算是合成数据，训练大模型的一个典范。

而现在OpenAI的Orin大模型，就是准备使用它的草莓算法生成合成数据，然后再去进行训练。OpenAI自己玩的就是一个心跳。现在新一轮融资还没有关闭，新一轮融资就是已经有领投方了。据说有一家公司说，我们愿意出10亿美金，然后再等其他人跟投，希望可以凑个几十亿美金让OpenAI再活半年。

OpenAI这个几十亿美金，大概也就是活半年。他一年应该妥妥的会烧掉上百亿美金，而且这个数字可能还会快速上涨。因为去年呢，他亏了大概50亿美金，今年应该亏到上百亿美金是没什么问题的，等到明年可能就是几百亿美金的亏损。

现在大家预估OpenAI一年的收益是35亿美金，也就是这个里面大概20亿美金来自于一个月20美金的订阅，剩下的可能是做TOKEN，我们使用API买TOKEN的钱，以及其他的一些服务费。这个是OpenAI的收益预估，因为它毕竟不是上市公司，没有财报出来，所以大家只能去猜测。

而亏损，每年OpenAI大家预估的亏损额是50亿美金，这是一个非常恐怖的数字。OpenAI手里边的现金，你想微软给了100亿，再加上其他一些人给的钱，所以现在基本上是烧完了，再不融到这一轮就没得玩了。你融到这一轮以后，可能也就是再烧半年的。

那你说钱这么多都烧哪去了？第一个就是烧算力。你得上微软爸爸那里去交钱，买微软云上的算力，继续去训练大模型。第二个，你现在是1,500人团队了。而且，OpenAI现在团队规模还在不断扩张。那你人多了以后，肯定有很多的内部是是非非。有一个故事说，这个活原来一个人能干，现在不行啊，干着太累了。招两个人来，一共三个人来做这个事情。原来这个人变成领导了，后来发现比以前还累。说为什么？说我现在需要给他们做计划，让他们也做计划，回来我要审核他们的计划，看看这个数据应该怎么去分配，任务分下去。我还要调解他们之间的矛盾，还要去做考核计划。说这个比以前我一个人把活干了还累啊。

所以，这个人增加了以后，绝不是说我增加了一倍的人，生产的效率就提高一倍。经常是提高到一定程度以后，你的生产效率就不会再提高了，而开始下降。这个就算是一个边缘。所以，OpenAI内部现在是是非非，肯定是非常多的。作为当前最红的行业AIGC的领头兵，也就是当红炸子鸡，OpenAI自己招聘人才，以及他要留住自己的人，成本肯定会直线上升。投资基金、各种猎头公司，每天都趴在他外边等挖他的人。

那么，你要想让这些人留下来，一定要多给钱。新的模型，训练成本肯定也是几何级数上升的。你想让scaling low再次起作用，就一定是要投入更多的数据、更多的算力，这个事没有办法。而且，越大的模型，你的安全成本就越高。以前我们就都在讲，什么叫知识越多越反动？你这个模型变聪明了以后，他有可能给大家带来的伤害会变得更加惨重。我们想让一个更聪明的大模型成为安全的模型，所需要支付的成本也一定会更高一些。如果这玩意再出错了，那就是高智商犯罪了。

OpenAI现在真正的困境是什么呢？就是不赚钱。开始其实有一些路就走错了。聊天模式20美元的订阅以及TOKEN收费，不光是他自己走错了，还把整个的行业都带沟里去了。他有他强的地方，就是你通过聊天方式，一开始就震惊了全世界，让所有人，不管适不适合去用AI的，大家都冲上来用，成为了全世界关注的焦点。这是他使用聊天模式取得的成就。

但是，聊天模式是一个双刃剑。一面是说大家都关注了，每一个人都可以用；另外一面是什么？你要想从聊天模式再继续往前走一步，可以让大家能够更好地体验到AI的能力，这一步其实是非常难以越过的。另一方面，20美金订阅，那他出了这样的一个数据之后，导致整个行业只能跟他对标。微软的Copilot也是20美金，谷歌的Gemini你只能在20美金往下做，其他的一些cloud等等。
都是在20美金这个范围上下去波动。至于一开始，那个人到底为什么定他20美金，这个大家只能想破脑袋去想了。前人一定是有他的道理。就跟原来有一个笑话说，有一个大的印象派画家，他有一副名画，很多人搞不清是画什么的。一堆人在那去做研究，甚至有些专家专门去研究这幅画，还发表了很多论文，成为了学术态度。

第一个研究这幅画具体画什么的学术泰斗离开人世去了天堂以后，正好碰到这个画家，就去问他说：“您那画到底画什么呢？你看我研究了一辈子，都成为学术泰斗了，我也没研究明白，还跟很多个派系吵来吵去的。”那个画家说：“你到底说的哪幅画，我想不起来了。”最后他太太在旁边提醒了一下：“你说的不会是擦手布吧？你每次画完画，然后拿那个布擦手，形成了一副印象派的名画，让后人研究了很长时间。”

所以20美金有可能就是这么来的。而20美金跟token付费这种事情，其实会极大限制使用AI的人数，因为它会限制流量的上升，也会限制新的商业模式的爆发，这个其实是有毒的。现在OpenAI其实面临着当时谷歌的困扰。谷歌的困扰是什么？是分叉。当时谷歌把安卓做出来以后，所有人一看，这个东西实在太厉害了，我们拿它去分叉，就有安卓的各种智能家电的操作系统、安卓的手表操作系统、安卓的各种嵌入式操作系统、安卓的各种定制操作系统。谷歌说不行，你们不能分叉，我一定要把安卓的版本一直升上去，让你们所有分叉人都死掉。

OpenAI其实现在面临的困难是一样的，它指明了方向，大家各自去发展，长出了Anthropic、拉玛、Gemini，现在的标准已经不统一了。想要继续站在排头上，继续引领风潮，必须不断放出新消息，不断去指明方向。但是，手里边的钱又不够多，攻城能力也不够强，也没有盈利能力，只能是不停地放空话。你像从2024年年初到现在，OpenAI已经吹了多少牛，到现在都没有实现。

那么OpenAI的解决方法有哪些呢？第一个就是涨价，像刚才我们前头讲的，把这个费用涨100倍，涨到2,000美金一个月。这就是第一个处理方法，涨上去以后就可以达到盈亏平衡了。第二种方式就是不停的融资。山姆·奥特曼在斯坦福大学演讲的时候也讲过，说你们不要去研究挣钱的事情，我就不停的去找钱，反正我有这个能力。找完了以后呢，就把它烧掉，再去找。现在新的一轮钱找到了，这条路还是在往前走，而OpenAI准备去上市。上市的时候，你又可以圈一大笔钱吧。但是上市了以后，你未来还是要去盈利的啊。所以甭管是找钱也好，还是上市也好，算是饮鸩止渴，或者是寅吃卯粮，我们把未来的一些可能性把它消耗掉，那继续在亏损和越亏越大的这个道路上狂奔向前，这不是一个长久的解决之道。

还有一条路是什么？就是重新发明定义，走通一些新的商业模式。这可能是山伯特曼或者整个OpenAI，包括整个硅谷和行业，都在期盼的一个事情，就是说我们不再去依赖传统的这种流量商业模式了，而是做一个新的商业模式，像收税一样，把这个税收上来，让大家像一个基础设施那样去使用这些AI大模型。但是这种模式呢，到目前为止还没有走通。未来到底能不能走通这件事情，还是一个问号。

那你说，如果这个商业模式走不通，盈利呢？其实从短期来看，还是很难的。还有没有其他的方式？OpenAI难道就要倒在这里了吗？还有一个方式就是国有化，直接交给国家，让国家通过税收、通过印钱直接去使用这些大模型。现在Scaling Low继续往前走的话，可能迟早会走到国有化这条路上。

那么就看到底是大家能够先去找到合适的商业模式，让整个AIGC产业健康发展，还是最终让AIGC都沦为主权大模型。到底是走哪条路？因为主权大模型这件事情，是黄仁勋提出来的，是说我们以后每一个国家都去买自己的显卡，建自己的算力中心，每一个国家都拥有自己的主权模型。这是他提的这条路，不知道是光明还是黑暗，但也在我们的前方等待着我们。

好，这就是我们今天讲的故事。一OpenAI准备涨价100倍，为开始探讨一下OpenAI未来的一些发展方向。好，今天的故事就讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

番茄小说AI附加条款引发网文作者激烈反击，停更、转场、抗议。小说写手，直面AIGC的第一仗，谁能赢？

Luke Fan — Tue, 30 Jul 2024 00:46:35 +0000

网文作者向AIGC发起了反击。中国最大的网文平台番茄小说，因为在协议里要求网文作者授权他们使用作品进行大模型训练，导致这些作家纷纷退网，纷纷停更，向他们正式发起了反击。

大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲番茄小说的AI附加条款到底是怎么回事。上面写了，任何作者到任何的小说平台上去写小说，都是要跟人家签协议的。说我在你这里写小说，遵守你的规则，你给我分钱。

番茄小说的协议里头呢，就突然多了一个条款，这个条款呢叫做AI附加条款。条款怎么写的？甲方可将签约作品的全部部分内容以及相关信息，包括作品名称、简介、大纲、章节、人物、作者个人信息、封面等数据语料、文本素材等，用于标注合成数据数据库建设、AI人工智能研发、机器学习模型训练、深度合成算法研发等目前已知或未来开发的新技术研发应用领域，包括但不限于：一、用于智能对话、智能文本、图像、视听语音等作品成品的编辑生成转换、深度合成、虚拟现实技术等再研发和应用；二、用于任何技术下的AI人工智能模型训练，或用于生成提供给模型训练的合成数据数据库；三、其他任何新技术研发或应用场景。

注：甲方是番茄小说，乙方为作者。他呢是在这个里边加了这么一段。小说网站跟写手之间呢都会去签这种叫格式合同。什么叫格式合同？就是说我不会一个一个给你谈。我今要到先番茄写小说去了，番茄派一个律师跟我的律师去谈，说这个条款怎么样，没这个啊，就是一个标准合同。愿意就愿意，不愿意拉倒。你说我想改任何一个字，滚，对吧？就是这样的一个状态。

当年呢，我们在盛大电子书的时候，也遇到过这种问题，盛大文学跟所有的作者……

肯定也都签了有类似这样的格式合同。但是，我们当时做电子书的时候，遇到一个什么小奇怪的事情呢？当时签的协议是，我们通过互联网发行他们的内容，我们已经得到授权了。那你说没问题啊，我们做电子书不就行了吗？哎，问题在这了。我们通过互联网网站发行是OK的，但是你通过电子书、通过移动互联网、通过其他的方式再发行呢，这个事是有问题的，没有在合同的范围内。

那当时我们怎么办的呢？我们在电子书里头写了个浏览器，所有再去阅读的呢，我们是通过浏览器直接从网站上进行缓存，这样去使用的。这样我等于又在这个合同的范围内了。这也能够理解到，为什么上面番茄写的这个协议写得这么霸道。哪霸道了？现有的技术我都可以用，未来我在研发任何技术，我也都可以用。至于未来我到底想研发什么，我不知道，但都能用上来。就是包括但不限于这个不限于，就是现在我正在用的，未来的这些，没写进去的，你都得让我去用上去。

所有的律师写协议都是这么写的，把自己的权利写得无限大，把别人的权利写得无限小，所有解释权在自己。协议写得霸气似漏，但这种协议呢，你说有人看吗？没有人看。整个协议非常长，这只是其中的一个很小的权利而已。这个条款什么时候加的？2023年的11月还是12月份加进去的，大家也没注意。一直到今年的7月份，有些人发现了，哎，说这个版本怎么多了一行，或者多了这么一个小模块在里头。这事不行，有人发现了以后，大家就开始在一些作家论坛里讨论这件事情，逐渐发酵。发酵到一个什么程度呢？说我们要去停耕，要去转场，要去抗议。什么意思？就是现在的小说都是连载小说，我写了个30章，50章后边一章一章往下写，我发现有问题了。

那我就停更啊，停止更新了。或者说，我以后不在你这写了，我上其他地方写去，对吧？写小说的网站也不是只有你一家。而且其他各家的小说网站呢，都没有在协议里头增加这样的一个奇怪的条款，只有你番茄小说啊，敢为天下先加进去了。所以大家就开始去抗议。

番茄小说呢，也进行了一定的调整。调整是什么呢？特别有意思啊，他推出了一个流程，就是取消AI授权的一个流程。就是你可以到网站上去申请，说我要去取消这个授权了。他会给你寄一个纸质的合同来，你呢，自己去签字，自己去盖章，然后再给人寄回去。这样你就可以取消这个条款了。

这个合同上写的是什么呢？就是啊，你前面跟我签的这个协议中间这个条款我们把它作废掉，但是其他的协议上的条款依然有效啊。大概就写这样的一个东西。但是呢，它这个里头，有一个特别有意思的附加项，是什么呢？为避免异议，乙方同意，若甲方使用签约作品训练开发新技术，并生成文字内容进行传播使用，乙方不得因此向甲方或其他经甲方授权，使用新技术的第三方主张任何违约或侵权责任。大家看到耍流氓的地方了吧？哎，说你可以不授权给我，但是我用了以后你不能告我。

这个叫取消AI授权条款，一个协议，作者呢，肯定还是不乐意啊，你这不耍流氓吗？很多人就决定要离开啊。但是也有一些新作者说，算了，你学就学吧，反正我们自己也是拿AI去写。也有的人说，我就认了的啊。但是很多觉得自己写的还不错的这些老作者就要纷纷离开了。

这个里边呢，也有一些写手说，我去验证一下，他到底有没有拿我们的作品去训练大模型呢？很多人说，哎，我验证了，他真的干了啊。但是在这里要指出呢，就是这些作者也好，写手也好，他们的验证方法都是非常不严谨的。他们的验证的过程呢……

证明了他们对于AI使用方式的无知。他们怎么验证这件事呢？通过豆包大模型。因为刚才我们讲了，番茄小说后台是字节跳动，这么多大模型里头，谁是字节跳动出的呢？豆包大模型啊。他到豆包大模型里去问，问道：“我的小说写得怎么样？我的小说里头有哪些人物？我的小说的题纲是什么样的？给我总结一下。”问了一堆这种问题，豆包大模型呢，就非常准确地都给他回答出来了。

“你这小说叫什么？主要人物是什么？核心写的是什么东西？有一个什么样的章节？整个的提纲是什么？”都给他拎出来了。于是当时这哥们就惊了，说：“这疯了吧？这我写了半天，付出这么多心血，你怎么就全都给我拎出来了呢？”这里要讲，大模型的训练呢，不是这么简单的。你如果只是使用豆包大模型，直接去问这些问题，他未必可以回答得这么好。而且豆包大模型，实际上在国内各个大模型里头，算是表现比较差的一个。

但是怎么又能回答得这么准确呢？他使用的叫搜索增强的一个技术。正常的工作是这样的：当你去输入某本小说，告诉我是在讲什么的时候，他呢，先做的不是内容生成，而是先到网上去搜索了。搜索完了以后，他找到了你这本书，找到了所有公开的章节，然后对这些内容进行了总结归纳，最后再输出。所以你会看到它非常非常的精确。

那么这位作者呢，也尝试了使用闻信遗言、通一千问，就是百度、阿里这些工具，去搜索他的小说，发现效果也很好，回答的都非常非常精确。他说：“我没有授权他们呀。”但是这实际上是一个搜索结果的总结，跟你是不是授权给别人是没有关系的。这个作者还有一些作品，没有在番茄小说上，他把有一些作品放在其他的小说网站上了。他去问番茄小说：“我那本作品怎么样？”

发现，哎，居然也都说得挺好的啊，说得非常的完整，非常的准确。这个作者说：“你看，我们的小说已经都拿去训练大模型了，这个日子没法过了。”但是呢，整个的验证过程只能说明这个小说的写手并不太了解AI大冒险到底是怎么干活的。现在的AI写作已经带来了一些恐慌了。所有平台实际上都推出了AI写作功能，或者叫AI辅助写作功能，并不是说要给我写本小说，AI吭吭吭给你写去了，不是这样。而是什么呢？他们很多平台推出了叫AI工具箱。在你写小说的时候，可以进行AI扩写。你可以写一个简单的段落，咔一下给你把它写得比较长，这是AI比较擅长的。

包括呢，AI改写。你写的文采不是很好，或者是错别字比较多，说来AI给我去处理一下，它会给你整个的润色一下。包括一些自定义的描写，我现在想描述一下这个山庄非常漂亮，像我们刚才讲的，山庄好漂亮，语言很匮乏。那么你就可以交给AI，它会去给你进行一个比较详尽的描写。包括AI续写，你写了一半的说：“来，把这个场景再接着给我看，写下去。”这个现在AI都已经可以实现了。不光是番茄小说，各个小说平台的网站上都有这种AI工具箱了。

但是这些呢，并没有吓到作者。真正吓到作者的是什么呢？是有人一天上传了200本小说，不是200个字，不是200个章节，是200本。这个事呢，其实并不是AI直接照着大家的小说去写的，这种东西叫AI洗稿，这是完全另外的一套流程，跟你使用什么样的大模型，这个模型是不是使用了你的作品进行训练，已经没有任何关系了。AI洗稿到底是怎么干的呢？AI写稿实际上是使用的AI agent的这种工作流实现。你先指定一本小说，然后呢……

他把这个小说按照章节进行总结归纳，把提纲拎出来。然后再把里面的人物关系、这些主体都拎出来。拎好了以后，他把这些东西填给一个新的作者，说：“来，你现在可以去修改了。”他把这个名字改了，把人名、地名、故事的前后结构因果稍微调整一下以后，等于再生成一个新的提纲。拿到提纲以后，AI按照提纲去生成。通过这样的一个方式，确确实实可以看到这种一天200本的效果。

一个人写小说，不要说写一本了，写一个章节那一天也得坐在那，吭哧瘪肚的写两三个小时。上了AI以后说，一天200本，这是一个多么吓人的事情。现在还有很多人在卖这种提纲，什么意思呢？就是他把一些已经总结好的，先干什么后干什么，启程转合，哪个地方被人欺负了，什么地方在翻转打脸，把所有这些提纲东西写好了。他们拿这玩意儿卖钱，你只需要进去干嘛呢？改名字就行了，张三改成李四，李四改成王五，女主角一定记住叫李柳如烟，其他的随便改。改完了以后，一键生成，一分钟可以生成几千字，速度非常非常快。

一天你说200倍有点夸张，但如果你有一个账号，如果是在本级跑的话，我觉得一天跑个十几二十本是没什么问题的。如果是在云端开很多个账号并行跑的话，是可以出一天200本这样的速度的。

而现在，小说平台已经跟以前不一样了，已经洗过牌了。现在小说平台基本上是大厂的流量厮杀了。我以前在盛大，盛大文学也就是起点，后来起点这套东西卖给了阅文，阅文也上市了，等于在腾讯手底下。那你说当时我们有全中国大概百分之九十几的作者和百分之九十多的更大的一个比例的作品的版权，但现在已经不是这么回事了。

现在排第一的是番茄小说，大概有接近2亿的月活用户，字节跳动是背后的东家。第二名是掌阅，掌阅做阅读器，做小说的手机阅读APP。刚才我们讲的阅读器是电子书，他们大概有1.5亿的用户。这个公司除了他们自己的个人创始人之外，真正的机构股东只有一个，占10%股份的叫字节跳动。这也是字节加的。

然后是QQ阅读、微信读书、起点读书，这都属于腾讯系的。再往后是七猫免费小说，后边是谁呢？是百度。再往后是书旗小说，图书的“书旗帜”的“旗”，这个后边是谁呢？是阿里。

所以现在的整个网文阅读市场基本上是被大巨头们挤干净了。那么作者应该如何跟AI一起前进呢？千万不要想着说我们就不用AI，这个事是不对的。另外，也不要想着不劳而获，认为我在网上报个课，拿着人家的题纲改几个名字，然后命令AI去生成，生成完了以后就去投放，就可以躺着挣钱了。这事也别想。

我反复跟大家讲，面对AI的时候不能退缩，也不能想着不劳而获，这两个永远是错误的。作者真正应该跟AI做的，是一起前进，与AI互补，快速地让AI来完成一些自己不擅长的事情，快速地产出更多的内容。但是绝不是说一天200本。比如说我，还是按原来的这个故事大纲再往前写，故事大纲我自己有一个设定，包括故事的各种深层次含义的设定，我们都把它写好，写完了以后再让AI去帮我们填肉，让AI帮我们去检查，让AI帮我们去润色。这个过程应该是人跟AI一起配合来工作的。

就像Photoshop刚出来的时候，很多传统的设计师是不愿意使用Photoshop的，但是现在他们认为……

使用Photoshop，已经算是设计师的基本技巧了。比起这些使用AIGC的人，还是算原创了。再往后一步，可能使用AIGC的人也算原创了。那种不劳而获的人，才是真正应该去骂的人。或者应该快速地拥抱AI。那么，平台应该如何拥抱AI呢？不是像现在这样，就给大家提供一堆的AI创作工具就完事了，而是什么呢？平台应该会封杀AI洗稿内容，对吧？就像刚才我们讲的，有一个基本的框架了，然后只管在后边改名字就完事了。这是不对的。

其实洗稿这件事，在AI出来之前就有人洗。我们也见过很多的公司，直接把中文系的学生毕业了以后全包下来，坐在那写稿。他们怎么写呢？他们有完整的流程，先看看哪本小说好，完了以后进行提纲的提炼，再进行前后次序的颠倒，然后改名字，再去让人照着这个提纲去写小说。现在呢，只是把这些人的工作替换掉了，由AI来搞定。

但是以前人写稿的小说，都是出现在什么火车站、飞机场、长途汽车站。它就属于是盗版书，他们那种书印的字特别小。现在呢，通过网络去传播，通过微信公众号，通过很多这种私域的方式去传播这种小说。以前大家也知道，这些小说算盗版小说，不敢明着卖。现在平台也是会封杀这些小说的，为什么呢？因为这些小说多了以后，对于平台本身是不利的。你太多的这种喜感小说进来以后，真人作者就全跑了，以后就没有新套路。

大家始终在这里去洗这种最底层套路的东西。你的用户可能也就慢慢流失掉了，留下来的都是一些缺乏购买力的用户。不是说吸引不到人，还是会吸引到一些人，但是这些人就属于三低人群：低年龄、低文化、低收入。你希望他给你创造很多的收益吗？这事是很难的。

平台下一件事该做的是什么呢？就是提升检测工具，这种内容给它识别出来啊，谁是写稿的文啊，谁不是要能认出来。然后呢，版权保护的标准也有待提升。原来这种书因为比较少，所以呢，他可以靠举报来去找到这种盗版书，现在已经不一样啊，这种内容非常多，一天可以生产200本了。那么，他需要靠自动化的方式，光靠一尺道高一丈啊，我们应该可以能够识别这样的洗稿内容。只有原创的新故事，才是真正有价值的东西，也只有真人才能生产出来这种原创的新故事，至少目前为止是这样。

平台还需要干的一件事呢，就是积极的探索新的阅读与交互方式。因为传统的都是说啊，写出小说来大家看，看完了以后，甭管你是去看广告也好，还是去付费也好，平台以此来盈利。现在因为你创造内容更多了嘛，就可以有些新互动模式。是什么呢？比如互动小说如何服务好作者，而作者跟读者之间的界限呢，就会更加模糊一些啊。最早的网文作者其实也都是读者，我们看别人写的很好，我也要写一个，也是这么来的。

那么以后的话，可能这个界限就会更模糊。平台最终所需要的呢，还是有流量，但流量一定是要靠什么？更多的原创故事，你才可以有更高质量的流量回来。所以平台呢，会在AI应用的过程中进行一个平衡路线的选择。他们需要AI来去帮他们创作更多的内容，但同时呢，他们也会限制AI，不能把真正的真人作的内容给他洗掉，把所有真人都洗跑了，这事就没法玩了。

这个呢，就是今天我们讲的网文作者面对中国最大小说平台番茄小说打响了反对AI训练的第一枪的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。