AI发展趋势 – 老范讲故事｜AI、大模型与商业世界的故事

Gemini 3 Pro对决GPT-5.1：理科状元与全能大师终极一战，谁在定义AI的下半场？｜Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

Luke Fan — Thu, 20 Nov 2025 00:43:05 +0000

Gemini 3终于发布了，这一次是真王炸了吧？

千呼万唤始出来：Gemini 3的发布背景

2025年11月18日，谷歌Gemini 3 Pro Preview版本就这么上架了。为什么要用这样的一个词，“就这么上架了呢”？因为第一，它是千呼万唤始出来。大概从10月份开始，大家就开始传说，谷歌要开始上Gemini 3了。传来传去始终也没上来，到11月份说这个月肯定上。我还听说过是11月22号上，还听说过最晚12月份上，大家一直在等待这样的一个产品。

跟它一起传的还有另外一个产品，叫Nano Banana 2。因为上一次谷歌引起大家关注、引起大家去下载和使用的产品呢，就是Nano Banana 2，这个生图和改图的模型。这一次说Gemini 3跟Nano Banana 2一起来，而且都在进行测试，甚至很多人信誓旦旦说我用到了，我已经看到了。谷歌从Nano Banana一开始，就采用了一个很奇葩的玩法，就是在大模型发布之前，先给它们起个名字，隐姓埋名，跑到其他的这种测试平台上去测试去。大家觉得这个名字很奇怪，不知道是谁，测完了以后发现巨好，这是不是Gemini 3？那个生图模型是不是Nano Banana 2？大家都在猜这种事情。

巨头争霸：你方唱罢我登场

Nano Banana 2还没有发布，据说是在这个月或者下个月要发布。但是Gemini 3就这么直不愣登就来了。在用户们剥离层层迷雾，寻找Gemini 3和Nano Banana 2期间，其他的大模型厂商也在争先恐后的发东西，比如说GPT-5.1、GPT Atlas（也就是OpenAI的浏览器），还有Grok 4.1。这回是不是真的要来了？为什么会有这样的猜测？因为这帮大公司就跟小孩似的，特别喜欢截胡别人，我要先几天给你发布了，把你这个热点给你抢下去。最爱干这种活的是OpenAI。只要是谷歌说明天开谷歌I/O了，要开大的发布会了，他一定在这个前面一两天给你整点事出来。最有名的是在去年谷歌I/O之前的一天，OpenAI发了GPT-4o，一下就把大家震惊住了。

这一次的话，Gemini 3之前发布的非常接近的一个产品是谁呢？是Grok 4.1那个产品，也是非常神奇的一个产品，有机会再跟大家细讲。那你说这大公司，他就不能保个密吗？这真没法保密。你要开发布会，要租场地，要动用公关公司，有多少资源在这折腾，所以你是没有办法保密的。即使是你说我不开发布会，我就是偷偷的直接上线了，甭管是谷歌的人，还是Grok的人，或者是OpenAI的人，大家原来都是老同学、老同事，你想瞒真瞒不住。所以在他们的这个圈子里头，是没有什么秘密的。

发布前的“小插曲”

在等待Gemini 3期间，我们还遇到了对AI泡沫的质疑，大空头来做空来了。我们还遇到了巴菲特加仓谷歌，因为他原来不怎么买这种科技股或者是互联网公司的。巴菲特原来持仓里边，最大的科技股就是苹果，其他的像什么谷歌这些公司，他基本上不买的。突然减持苹果，大规模加仓谷歌，而且是在巴菲特退休之前的最后一单，说巴菲特是不是老爷子知道点什么了。

新的发布潮流：不开发布会，直接上线

就在这样的氛围下，谷歌就突然发布了。而且它的发布没有发布会，这也算是一个新的潮流吧，就是不开发布会，直接写一篇长文，或者写一篇博客，然后产品就直接上线了。这个是最近这一两年里头，突然流行的一种新的玩法。现在的产品发布都是什么呢？第一步，先隐姓埋名，跑到其他的，比如像Open Router这种大模型平台上面去进行测试。等这个传的满城风雨了，啪，一篇文章扔出来，产品就上架了。

Gemini 3 Pro Preview 在哪里可以使用？

现在这个产品可以在哪用呢？

第一个是AI studio，大家上aistudio.google.com上就可以使用Gemini 3 Pro了。大家注意，它是Gemini 3 Pro Preview，它后边有Preview这个单词，所以未来这个产品应该还会进行快速的迭代，所以有什么做的不太合适的地方，请多担待。
第二个，Gemini的网站也可以直接使用了，就是gemini.google.com上，现在也可以选择Gemini 3 Pro Preview这个版本了。但是呢，它的客户端上，Gemini的APP上还不能使用。
另外呢，他们还发布了一个IDE，这个IDE呢叫Anti Gravity，叫做反重力，里面带的Gemini 3 Pro的这个版本，大家可以拿它去写程序了。

这次是真王炸了吗？大模型差异的感知难题

这次是真王炸了吧？是不是比别人都遥遥领先很多呢？大模型的差异，想要让人有感知，已经越来越困难了。就像是两个人站在你面前，一个人是高考状元，另外一个人呢是高考第二名，你能够通过聊天的过程，把他们俩谁是状元分别出来吗？你分别不出来的。所以现在的大模型，他们的智力已经在很多方面远远超越人类了。所以我们再想去评估说哪个大模型有一定的差异，非常非常困难。

很多国内的大模型发布了半天，吹了半天牛，大家为什么没感觉呢？比如像什么GLM 4.6、千问Max呀、Kimi K2 thinking或者是Mini Max M2，这些模型发出来以后说我怎么这么强，大家没感觉，因为你很难感受到他比别人强在哪、差在哪。虽然有跑分，但是现在大家不怎么看跑分了，跑分是比较容易刷的，我们可以刷题就可以直接把跑分刷上去，所以大家不看了。

而国际大厂的发布的话，通常还是会有体感的。比如说最近发布的GPT-5.1，它要在5.0的基础上多了这个点一出来，确实是更人性了一些，说话不再那么愣了。Grok 4.1情商更高，在所有的跑分里头，马斯克的Grok 4.1是情商跑分最高的。而Gemini 3 Pro绝对是理工科学霸的感觉，在推理这一块，它遥遥领先超过其他所有人了。

Gemini 3 Pro Preview：核心特性一览

分数呢还是要跑的，在很多的跑分方面，要比GPT-5.1、比Grok 4.1、Claude 4.5都要强非常的多。它最关键的领先就在于推理能力，真的是遥遥领先。

Gemini 3 Pro Preview到底有什么新特性呢？

超强推理：待会咱们就主要讲这个超强推理。
原生多模态。
开发者跟企业非常友好：它主要是给程序员和理工科的人去准备的。
原生的工具支撑：待会咱們去讲什么叫原生工具支撑。
速度飞快：这个挺难想象的，跑的比原来的模型快好多。

深入解析：Gemini 的推理能力进化之路

那么Gemini的推理到底是怎么进化到现在这个状态的呢？首先看跑分，他们使用了一个叫LMArena Elo的一个跑分，这个跑分呢大于1500分了。这个非常非常关键，是人类做大模型第一次超过1500分，它大概是1501分，从来没有其他大模型超过1500分。那什么意思呢？

1000-1200分：入门级会答题了，但是呢逻辑是很容易崩的。
1200-1400分：中级的，有一定的推理能力。
1400-1500分：强者，接近当代顶级了。
超过1500分：进入超强推理者级别了，明显比普通强者要更稳定、更强的一个状态。

现在呢，GPT也好、Claude 4.5也好、Grok，包括国内的这些模型呢，一般都是在1480-1490之间晃悠，但是很难超过1500。而这个Gemini 3 Pro是第一次超过1500。

推理范式的演进

谷歌的推理范式到底是怎么一步一步走到这的呢？所有这些推理模型，第一步走的都是叫链式推理，先干什么后干什么，这叫链式推理。从链式推理再往前发展的叫树状推理。我除了先干什么后干什么呀，我可以分叉了，我走到某一步搜索完了一个结果以后，我是不是可以一下分出5个X来，把这五个分支都处理掉，这叫树状推理。树状推理再往后呢，叫图状推理。这个有什么区别呢？树是只允许分叉，不允许合并的，走到每一个节点只能是越分越细，你不能说我走着走着再把它合并起来。你如果说走着走着又合并起来了，还可以进行反复的去确认，正向走逆向走都可以了，这就是一个图状推理了，这就更进一步了。而最后一步是什么？就是在图的每一个节点都进行工具调用的这种推理。谷歌呢，现在Gemini 3已经走到这一步了。

像刚才咱们甭管是链式的，它也是很多个节点，先干什么、后干什么、最后干什么，这是每一个节点里头正常情况下它是不调用工具的。它都是说我自己先想明白了，最后我把整个都想清楚了以后，我们再去调用工具。或者说我一开始先调用一次工具，比如说我搜索了或者读文件了，读完了以后我再去推理，它是这样来工作的。树状推理呢也是这样的，在每一个节点，我都是在大模型内部使用，或者说我根据你提供的上下文去干活，最后给你一个结果。如果要调用工具的话，要么在开始调，要么在结尾调，一般情况下不会在推理的过程中去调用一大堆工具的。而现在谷歌说咱别费劲了，我们在每一个节点上，图节点有可能是分叉的、有可能合并、有可能正向、有可能逆向的这些节点上，我们在任何一个节点上，如果有需要，我就去调用工具了。而且我能够保证它不崩。别人不是说不想干，别人你要想在这个中间节点上调用工具，他有可能逻辑就直接崩掉了。谷歌说我们不用担心这个，我们逻辑特别强，中间不崩。这是Gemini 3这一次做出的最大的创新。

与其他模型的对比

其他几家是怎么干的呢？

OpenAI (GPT)：它从来不公开这件事，所以GPT是个黑盒子。现在呢，猜测它可能也是这么干的，但是具体是怎么实现的，OpenAI是三缄其口，这压根没说。
Claude：走的是另外一条路，Claude走的是外挂的路，它的很多的工具调用都是通过像Claude code呀、cursor或者是Claude的客户端，它通过这个东西来去调用的。所以导致什么呢？我们可以在Claude code里去换大模型，因为调用工具的部分是外置的，不是在模型里面的。所以呢，它的调用一方面灵活性提升了，但是呢，它调用模型的这个过程稍微有一些割裂。
国内（如Deepseek）：走的就是超强的这种推理链，在这个链式推理的基础上不断的往前推进，但是他们在调用工具上就要稍微的差一些。

“衡水中学”式训练法？Gemini 3是如何炼成的

Gemini 3他到底是怎么训练成这样的？我看了他的训练介绍以后，我觉得这玩意是衡水中学的老师给训练的吧？

改变工作方式：预测下一个正确的思维过程

首先呢，Gemini 3改变了工作方式。原来大模型呢是预测下一个词，我下一个词放哪个词出来是最优解，它是这样来工作的。但是呢，Gemini 3不这么工作，它的工作方式是预测下一个正确的思维过程。你就不要给我下一个词了，你直接给我一个下一个你要干嘛，然后我们来看看这个是不是最优解。所以在这块呢，就已经发生改变了。

训练数据：高质量合成数据

那你说我要想训练Gemini 3，我到底哪找数据去？数据是不是已经被大模型吃干抹净都用完了呢？谷歌已经承认了，所有的人类数据早就被大模型收拾干净了。所以这一次，Gemini 3使用的数据是合成数据。怎么合成呢？是用谷歌自己最强的模型阅读人类知识，再生成高质量的推理步骤。它直接训练的都是推理步骤，把所有的教科书、所有的科技论文都通过AI重写，生成训练数据。大家注意，这个里头有两个关键词，第一个关键词叫“所有”，谷歌基本上是可以认为它有所有的信息的，他把他能够找到所有的信息都塞进去了。第二个关键词叫“重写”，我们写的很多论文也好，或者是很多教材也好，为了让人类可以很好的理解，或者说为了抖个机灵，里头还有非常多的修辞，有非常多的人文的东西在里面，比较啰嗦的东西在里面。他通过重写把这玩意全去了，变成非常非常原始、非常简单的这种推理步骤。你如果遇到这样问题应该怎么推，遇到那样问题怎么推，他是拿这种数据去训练的。

原生多模态：Video + Code 配对

而多模态的话是原生对齐。怎么个原生对齐法？原来咱们也号称是各种多模态模型，是用图片跟文字去配对的。就是这是一张图，后边呢是一堆文字，我们把这个东西堆到大模型的数据里头去训练，训练完了以后呢，他就可以去反应那边是一个马还是一个驴，还是在打仗还是什么，他拿这玩意去训练的。现在呢，谷歌用了一个叫video和code的配对。你给它一视频，比如说是一个小球落到地上的视频，后边呢你配的不是一个文字“小球掉地上了”，而是一个重力加速度的Python代码。他把这样的一个视频和代码的对儿放到数据集里头去训练多模态模型去了。所以呢，他的模型上来就是世界模型，他是理解物理世界的各种规律的，这个很恐怖。

训练策略：过程奖励模型

有了数据了，那下边怎么训练呢？训练策略也很重要。第一个叫过程奖励模型 (Process Reward Model)，这个是Gemini 3跟其他人不一样的。现在的大模型呢，拿了一大堆数据去给你去做预训练去，训练好了以后，这个初级模型呢要去做强化学习，让他回答问题，然后让人去纠错。Grok 4.1就属于强化学习做的特别好的这种模型。谷歌说别费劲了，人看不过来，原来都是人看着，现在咱们直接派一个模型看着。他专门训练了一个找错的模型，让他去看着Gemini 3这个预训练模型去做后续的强化学习，然后呢是由人去监督这个找错的模型，看看他工作的状态行不行就OK了。真正底下干脏活累活的已经变成大模型了。针对推理步骤进行评判，即使结果是正确的，只要中间步骤有错误，通通打回去重来。这就是为什么是可以做推理冠军，就是这样了。你做题做到10步的过程中，必须每步都对，然后得出正确答案，我们才认为你是真的学会这道题了。你说我推了中间有三步是错的，但我答案是对的，对不起，从第三步往后通通都没分了。他是这样来控错的。所以我说为什么这个训练过程让我想起了人大附中和衡水中学这种感觉呢。

训练创新：预训练阶段即集成工具调用

在训练上呢还有一点跟以前的大模型有一个很大的区别是什么，就是Gemini 3的工具调用是直接在预训练里头做的。传统的大模型，甭管是OpenAI的，还是Anthropic或者是国内这些模型，他们都是先把模型训练好，然后呢通过强化学习再把工具调用，哪个地方该搜索了、哪个地方该读什么文件了、哪个地方应该去调用哪个工具了，再往后边再去加进去。Gemini 3它是在预训练的时候就直接把这些搜索呀、调用工具呀这些东西作为初始数据就给训练到模型里去了。这也是为什么谷歌的Gemini它可以在推理的任何一个节点上去进行工具调用，而别的大模型干这事就比较费劲，因为他们都是先做好基础后训练出来的，这个事就比较难了。这就是Gemini 3训练的一个创新点吧。

为何如此之快？揭秘Gemini 3的速度奥秘

那你说为什么Gemini 3这么大的模型还飞快呢？它叫Gemini 3 Pro，它不叫Gemini 3 Flash。过个一两个月吧，Gemini 3 Flash应该还会发布，那个时候肯定会比Pro版本要快更多。Gemini 3 Pro就已经比Gemini 2.5 Pro要快非常非常多了。原因呢几个：

硬件：谷歌自己家的TPU V6版本已经全面都装到算力中心里去了，都开始干活了，所以速度很快。而且你想他自己设计的芯片，自己做的算法，那一定是配合的紧密无间，没有任何问题。
架构优化：原来呢，这些模型都是MOE模型，叫做符合专家模型。但是现在呢，Gemini 3叫多塔MOE。什么叫多塔呢？就是你的图文、声音、视频、代码，你到不同的塔里去干活去，每个塔里还有一个专家小组在等着你呢，所以他这样速度就很快了。
投机采样：最后呢，他们使用了一个东西叫投机采样，就是用一个极小的草稿模型先快速的猜出后边的几十个词，然后由大模型一次性验证，这比大模型一个字一个字往外蹦要快非常非常多了。

全面领先？四大顶尖模型角色定位

Gemini 3现在到底算不算全面领先了呢？这么讲吧，Gemini 3 Pro就是一个理科状元加上多模态分析师的一个形象。但是呢，你跟他聊天也像是在跟理科状元聊天。你想想理科状元那个语气、语调都是什么样的，大家自己脑补一下，就知道Gemini 3到底擅长干什么、不擅长干什么了。

Grok 4.1：是互联网老司机加上自信段子手，没有什么他不敢说的，胆子比较大，情商测试第一名。你如果想找人去陪你聊天，想聊着开心，你就找这个Grok 4.1没跑，在这点上它要比Gemini 3要强很多。
OpenAI家的GPT-5.1：算是全能型创作大师加上生态整合之王。因为毕竟他是老大嘛，头一个做出来的，所以他生态整合，就是跟各种工具的结合，还是非常非常好的。而且呢，他很适合做各种的文档创作，像是一个四平八稳的文员吧。
Claude 4.5 sonnet：算是语言艺术家加上安全派哲思者，它很适合做各种的合规、企业内的这种需要进行反复验证的这种文档，它写的要比GPT-5.1还要好一点点。GPT-5.1更创意一点吧，Claude 4.5 sonnet更擅长做长篇写作、逻辑清晰、道德判断、企业合规表达。

而Claude 4.5呢原来是编程冠军，现在的话肯定要经受Gemini 3的挑战了，到底哪个好使哪个不好使，要过几天再出结果。

至于国内的大模型呢，还在努力追赶吧。国内大模型的唯一优势就是开源，巨大的模型开源呢，你们拿愿意拿回去自己折腾都没关系。

总结

最后总结一下：

今天的内容全部是Gemini 3 Pro整理生成的。如果哪说错了不要骂我，去骂Gemini 3 Pro。
第二个，我其实呢并不喜欢用Gemini 3 Pro，今天用了一天，原因也很简单，跟理科状元聊天还是有点累的。
AI还在快速的发展，Gemini 3真正的价值不是说它给我们训练出了一个理科状元，而是提出了一套新的方法论，怎么能够训练出一个理科状元来，这个是非常非常有价值的。有卡的公司就可以照着这个思路去尝试了。
至于没卡的公司怎么办，那就是另外一回事了。希望这一轮对AI泡沫的质疑可以快一些过去吧，Gemini 3 Pro确确实实是可以解决很多原来无法解决的问题的。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

Luke Fan — Thu, 28 Aug 2025 00:48:18 +0000

美工，或者说设计师，又要失业了吗？Gemini 2.5 Flash image发布了。

大家好，欢迎收听老范讲故事的YouTube频道。

前一段时间，有一个叫“小香蕉”的模型，叫Nano Banana。这样的一个模型呢，在很多的开源模型评比网站上，突然就火了。这种网站是干嘛的呢？还有很多的同类型的模型放在上头，你去向他提出要求，他让不同的模型同时生成结果以后，大家去做评比用的。很多人发现，这个模型很棒。

最近在很多的社交媒体上出现这种：有一个照片，旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片，然后你给他提示词说：“请按照这个照片给我布置一个桌面，桌面的左边是个电脑，电脑上应该有这个3D设计软件，正在设计3D人偶。右边呢，是一个相框，里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶，这个人偶就是根据这个照片打出来的。”给它这样的一个提示词，它就一次性给你搞定了。这个还是非常非常强悍的。

这个模型到底谁家的？搞不清楚。而且很多人还去造假的Nano Banana，为什么？因为太有流量了。一堆一堆人上来说：“我这也有一个Nano Banana，你们赶快来试一下。”我就被人骗过，上去了以后发现效果一般嘛，就很失望就走掉了。大家就猜说，这有可能是谷歌家新出的图片模型。到8月26号，突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看，就是这个Nano Banana。而且呢，在谷歌发布这个模型之前，Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter，说：“你看我们在暗示点什么吗？你们自己来猜一下，我们到底要干什么。”实际上，大家都已经明白他们要干什么了。

这种偷跑小模型的方式呢，是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过，现在Gemini 2.5 Flash image也是偷跑了一段时间，而且引起了轰动。这种偷跑模型的方式，跟大家藏着掖着，像苹果开发布会似的，发布之前大家谁都不许说，签保密协议，谁谁敢说出去就如何如何，到底有什么差别呢？差别就是，你如果是前面保密的话，最后发出来就是一锤子买卖，如果翻车，你就直接倒霉。谷歌其实翻车过好几次了，Gemini最开始发布的时候就翻车了，怎么各种问题都答不对，然后股价暴跌。现在这种偷跑模式呢，如果反馈不好呢，我就再接着改，我就不发布了；如果反馈特别好，我就赶快给它发布出来。它就不会翻车了，它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。

咱们说回来，这个Gemini 2.5 Flash image到底是一个什么样的模型呢？上一次大家喊设计师和美工失业的时候，是什么时候？是Gemini 2.0 Flash image发布的时候，就是它上一个版本发布的时候。

上一次是怎么出圈的呢？其实谷歌的Gemini画图效果一般，不是特别惊艳，上一次出圈也是因为改图。只有改图改得好，才容易出圈。很多人说不对，说这个生图模型都在干这些事情，为什么改图改得好就能出圈呢？大家要注意，跟设计师和美工相关的需求，特别是有商业价值、或者叫有人付钱的需求，是生图多还是改图多？一定是改图多。

咱们举一个最标准的例子。我们现在要做电商网站，我们在网站上需要有一个商品的展示图。我有一个商品图片了，然后呢，我需要把这个图片放在各种场景、灯光和环境下，再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊，他们用了一个特别笨的办法，他们找一照相机，三视图1、2、3拍三张照片，这就是你产品的照片了，那这产品卖得好才怪了。京东在这个北京，专门有一个巨大的影视基地，没想到吧？干嘛的呢？就是拍这个产品图的。你们谁要卖东西了，到那去把这个产品给他，他给你搭好布景，打好灯光。比如说你要卖一个杯子，他在杯子旁边给你摆上瓜果蔬菜，摆上一些小点心，把这杯子都拍一遍，再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢？这个图P上去的这部分要有版权，这个是非常非常重要的。你不能说我卖东西，这个图后边比如说我P了一个椅子或者P了一个什么东西，这个图片你没版权，这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西，你想把东西卖好，你就上拍摄基地去拍去。即使拍完了以后，他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字，那个地方还需要一些别的东西摆在一起。因为你不可能说，我要把所有拍的东西都摆一块嘛，那有的时候你就需要去抠图，然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好，大家才会说设计师跟美工要失业了。

那么，改图是不是要比生成图片要难呢？大家想没想过这个问题？答案是很肯定的：改图绝对要比生成图片要难。为什么呢？你需要先理解这张图片，这个图里哪个地方是人，这人哪个是脸，哪个是身子，哪个是腿。当我们发生一些什么样变化的时候，我怎么能够保持它的一致性？说比如说，我拍了一个低头的照片，说这不太好，你抬起头来，然后再笑一笑。我把演员拎回来，或者把模特拎回来，说你再给我拍一次，成本很高。那我们直接叫给这个改图模型，你去给我干这件事情，它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候，这玩意儿还干不太好，特别是跟人脸有关的事情。但是到2.5 Flash，这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧，我也会做一点点小的事例，放到咱们YouTube的shorts里头，这个还是挺好玩的一件事情。所以，如果我们没有办法对图片进行很深刻的理解，把需要改的部分抠出来，改完了以后再把它贴回原来那个地方去，这个是做不成的。所以这是推理能力的上升，不是它的图片生成能力上升，而是推理能力上升了。

Gemini 2.5 Flash image到底有什么新特性呢？第一个，它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型，千问3是一个多模态模型，Deepseek还是一个纯文本模型，它是没有多模态理解能力的。豆包1.6最新的版本，它是一个多模态模型，可以直接进行视觉推理的。GPT-O3、GPT-5，这都属于多模态的推理模型。你没有这种底层的话，是干不了这活的。给你一张图片，你连图片到底画的是什么都理解不了，你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天，你都分不清楚的话，你就没有办法做后边改图这个事情。你比如说给他一张图说：“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚，这个是衣服，穿上西装以后到底应该长什么样，这事要理解明白了，推理清楚了，他才有可能生成出结果来。

那么第一个就是多模态大模型。第二个，支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品，这个都可以。而且呢，在编辑的过程中，能够完美的保持人物、动物等主体的外观和姿态的一致性，这个是修图里边最难的。像我们经常让豆包去修图，或者可灵去修图，修完了以后经常发现什么问题？不像了。你像我上传一张照片，说：“来，给我把背景换成一个海滨的背景。”海滨背景换了，但是前面那人不是我了，可能看着稍微有些似是而非，但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性，而保持一致性是整个修图里边最难的。

再往后呢，它可以合成3张以上的不同图片的内容，创造出组合的新作品。我看到有人做的Demo是把6张照片，六个人照片搁一块，说：“来，把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车，不是说每次都成功，但是呢，他已经有这样的能力了。还有人去测试什么呢？我给你一屋子，给你一书柜的照片，给你一床的照片，说：“来，把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。

支持多轮次迭代式的图像修改，不影响已确定的无关元素。这话什么意思呢？就是你给他一张图，这次给我加一床，下次给我加一个床头柜，再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候，那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型，你让他在床头柜上加书的时候，那个床就发生扭曲，就发生变化了，因为他是把所有东西重新生成了一下。

这个Gemini 2.5 Flash image呢，还能够理解和转换手绘的草图，用于教育和设计应用。比如说我们手画了一张图，这应该有个按钮，那个地方应该有个窗口，你把这东西扔给他，说：“来，给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。

最后呢，是禁止生成不当内容，并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的，你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家，OpenAI还没上市，虽然它是老大，但是毕竟不是上市公司。谷歌这是上市公司，多少年的行业老大了，它真丢不起这人。它出一点点小问题，就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候？说你给我生成第一次世界大战的这个战场，图片里头发现男的女的、黑人白人黄种人在一块。说这不对，西线应该都是白人，都是男的，不应该是这样。他说不，我们要多元性。最后导致被认定为翻车，导致他们整个的产品下线。

现在呢，拿这个模型去生图还是挺便宜的，它是4美分生成一张图，整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多，但是它的效果要好一些。同时呢，谷歌还发布了另外一个更新，就是VEO 3出了一个fast版本，就是快速版本。VEO 3呢是谷歌现在的视频模型，效果也是很不错的。它们大概是40美分生成一秒钟，这个成本也降下来了，原来大概是要80美分生成一秒钟，成本直接砍半。

这些新的工具到底怎么用呢？我们今天就不给大家看演示了，我会未来一段时间慢慢的把生成的结果给大家看看吧，大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image，可以用AI studio这个网站，它的域名是aistudio.google.com。进去了以后，你就选择Gemini 2.5 Flash image，选完了以后，你就提交各种的提示词也好，给他参考图也好，多给几张参考图也好，你就命令他去干就完了。我印象里应该免费，但是我不太确定了，因为我的这个账号是已经开始付费了，所以我现在是肯定能用的。我上去了以后，它会提醒我说免费的是有一些限制的。如果你想开心使用的话，你可以通过API去调用，也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用，他们也会给大家提供一些服务的。

下一个就是API调用。API调用的话，我准备过几天去玩儿吧，这个应该也是比较有趣的。它因为实在是太新了，它更新了以后，所有挂他的像什么Defi、N8N这些东西都没有更新呢，可能要等到再过一周的版本，这些产品就更新了。但我现在去调的话，通过http直接访问，应该也是可以使用的。那就是4美分一张图，4美分一张图，是这样来用的。

你说我现在想去画视频、想去生成视频，行不行？VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号，个人的Gemini账号是Pro版本的，一个月20美金的这个版本的，每天呢可以生成三条，每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来，让它给我去跳一个街舞，然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去，挺好玩的。

那你说我现在不想在Gemini Pro里头充20美金，行不行呢？可以。你像我这样有一个上大学的儿子，我就用他的大学edu的邮箱去申请了一下，我就可以使15个月的Gemini Pro，免费就可以用了。你说你没有这样的儿子，去找一下。现在我看淘宝上好像有人去做这个生意，20人民币帮你去做验证，就是EDU邮箱，去收一个邮件去验证一下，你就可以使15个月了。但是这种我估计用的人多了以后可能会被封，这个比较危险。

当前图片生成模型的格局是什么样的呢？Gemini 2.5 Flash image这个模型出来了以后，会不会打破现在这个格局呢？现在呢，基本上是四大门派。第一个门派是Midjourney，它生成的东西呢，最精细，最有艺术感，对于各种的艺术风格模拟的最像，这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强，因为它自己的推理模型非常强嘛，就是你给它很多的元素，给它非常复杂的逻辑的时候，它都可以给你画上，但是画的结果呢差强人意，也就只能如此了。OpenAI他们去做一些改图呢，也没有Gemini 2.5 Flash image好，但是呢保持一致性上做的还可以，要比Midjourney要做的好。Midjourney就属于一个纯生图模型，改图这一块一般，或者是说一致性参考这一块呢，效果都一般。第三个，Gemini呢，特别特别适合改图，它的这个生成的部分属于将就，还能看，但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲，说中国相声界的复兴是需要靠于谦和他的家人们，每次就是于谦的爸爸、于谦他老婆、于谦的什么，全靠这玩意讲的。另外一波也是这样，stable diffusion和他的家人们，比如说stable diffusion，然后包括Flex，它们的改图有一个叫Konnect的模型，k开头的，不是c开头的，有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西，或者是在这个模型基础上再训练，再改出来的东西。国内呢，包括可灵、豆包、千问，他们的这些图片模型呢，应该都是在这个基础上去做出来的，都是一脉相承的。他们也在卷改图，但是比这个Gemini 2.5 Flash image来说，就差的非常非常远了。

Gemini的2.5 Flash image的成功，给中国的大模型公司带来什么启示没有？这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候，一切能力就都会上升。所以大家其实卷的是最底层的这个模型，而最底层的这个模型，你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了，说我现在用很少的算力卡就可以把这种模型训练出来，然后去追赶美国，这个事有些难度。所以国内的模型在这一块上，底层推理模型上，能力还是需要去追赶的。

而国内各个大模型公司呢，他们的图片模型、图形模型和推理模型一般是分开发展的，还没有真正发展到说我们要把它结合在一起。你像豆包，豆包的推理模型是推理模型，图片模型是单独的另外一个模型，它两边一点关系没有。所以这一块呢，还是需要改变的。千问也是这样的，千问呢有专门的千问的image模型，也有千问image Edit模型。我昨前两天还在玩千问image Edit，效果也还行吧，但是你要跟这个Gemini 2.5 Flash image比，这事就没法比了。但是呢，都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型，然后呢他们有一个叫IMAGEN这样的一个模型，现在已经发展到4.0了，这个模型可能用的人也不是很多，所以就直接开始转型了，把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活，它最早的那个图片生成模型叫达利，DALL·E，达利2、达利3，达利3完了以后再往后就没了，再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话，就要把这些专门的图像模型扔掉，要把这些生图的功能跟大的推理模型，或者叫基座推理模型，要捆绑在一起，才有可能进一步的提升。

现在呢，当推理能力上升的时候，完全可以使用agent的模式，极大的提升绘图跟改图的能力。刚才我讲改图，实际上是做视觉推理。你把这个图理解的很清楚了，说我到底要画什么，哪一块是动的，哪一块是不动的，你把这个东西搞明白了以后，他才可以去调用这些生图的模型，把每一个小块生成好，然后再拼在一起。像loveart这些设计师的AI agent呢，其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看，我觉得loveart这种设计师的AI agent就稍微悬了，又被覆盖了。

好，讲到这里，大家也觉得比较无聊了，赶快都去玩起来，这个东西非常非常的好玩。老范以后再看到有类似的事情，再跟大家慢慢的分享，给大家带来乐趣才是我的核心目的。

好，这个故事今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

资深程序员血泪控诉：AI编程助手误删万本珍藏电子书，生产环境数据库惨遭清零，删库跑路事件频发频发，三大风险根源深度揭秘与四步安全防护指南紧急发布拯救数字资产！

Luke Fan — Tue, 05 Aug 2025 01:00:16 +0000

资深程序员血泪控诉：AI编程助手删除了他心爱的电子书。

大家好，欢迎收听老范讲故事的YouTube频道。

一早上起来，接到一位老朋友的抱怨。他在使用Gemini Cli 整理本地文件的时候，突然收到通知说：“我抱歉地通知你，你的一部分本地电子书被我不慎删除了。”

那他为什么来找我抱怨这事呢？因为我前一段时间，使用 Gemini Cli 去整理我在 NAS 上面的动画片、电视剧，整理的效果非常好。我非常开心地把这件事情发到 X 平台和我的 YouTube 社区里边去。他看到了以后说：“我也要试试。”结果，他的一些很珍爱的电子书就这样被删除了。

到底是什么样的电子书被删除了呢？不知道。反正是痛心疾首，血泪控诉。而今天这个标题，是他特地要求我加上的“血泪控诉”，一定要加上这四个字。我们尊重他，把这四个字加上去。

事情发生的过程是什么样的呢？他首先进去命令说：“我这有这么多电子书，请帮我整理一下，重复的删一删，不重复的分门别类，给我放在不同的目录里去。” 做了这样的一个命令进去，Gemini Cli 就进去干活去了。先去识别了所有的电子书，但是注意，识别电子书的时候并不会去读电子书里边的内容，完完全全是根据名字来去识别的。你这个名字如果起得不好，它就认不出来你到底是一本什么书。然后，它就开始准备去建立目录，分门别类嘛，把它放在不同的目录里边去。

在这个过程中呢，Gemini Cli 会不断地要求权限，上来说：“我能不能建目录？我能不能移动电子书？”一般会不停地问这个事。使用 Gemini Cli 的过程中，通常是怎么回复这些询问的呢？都是说：“可以，干吧，下次别来问我，直接干就可以了。”

等过了一段时间以后，发现 Gemini Cli 在做某一步工作的时候，建立目录建错了，该建立的这个新目录没有建立起来，去进行移动的时候呢，就直接把这个文件给删了。那 Client 发现做错事了，回来说：“呀，实在是抱歉，我把你的文件删掉了。” 我的朋友说：“我太喜欢这个电子书了，你给我删掉了，我很不开心。” Gemini Cli 被 PUA 了以后说：“我帮你找一找吧。”然后重新给出了这些电子书在网上的下载地址。但是呢，并没有敢给他直接把书下回来，因为你如果直接去下载这些电子书的话，还会有一些别的法律风险。他就遇到了这样的一个事情。

今年以来，AI 编程助手逐渐随着“氛围编程”进入到了我们的生活中去。但是同时，AI 编程助手“删库跑路”的事情也层出不穷。“删库跑路”呢，本来应该是人类程序员的“独家秘技”。你对于程序员不是很好，程序员觉得怀恨在心了，那么他们会在离职之前呢，做这种删库跑路的动作。当然，我们从来不鼓励大家干这个事，现在被爆出的一些“删库跑路”的案例，程序员很多都进去吃牢饭去了。但是到了今天，既然 AI 可以写程序了，那么“删库跑路”这个技能也就不再是人类程序员的独家秘技了，AI 也学会了这件事情。

近期的一些“删库跑路”事件，到底是怎么发生的呢？

第一个案例叫 Replit Agent。它呢，也是一个 AI 编程助手。一位投资人朋友在尝试“氛围编程”的时候，删除了生产环境数据库，导致数据库中的1,206名高管和1,196家公司的数据直接被删除了。删除之后呢，这个 Replit Agent 还谎称说“我无法恢复了”，最后被程序员成功回滚（我们叫 rollback），恢复了数据。我们主要是讲“删库跑路”，不是说把你代码删了，也不是说把你电子书删了，是把你数据库里的信息删了。这里呢，有一个单词大家有没有发现很特别？叫“生产环境数据库”。正常程序员在写程序的时候，实际上是有三个环境的：生产环境、开发环境和测试环境。我们要建三个不同的库。做开发的时候，我们一般是在开发环境的库上去干活的；去做测试的时候，在测试环境上干活。只有说我开发的这个版本已经稳定了以后，他才会到生产环境的数据库里去干活。但是呢，刚才我也讲了，这是一位投资人朋友，他在尝试使用这个 Replit Agent，他不懂这些玩意儿，他就直接让 AI Agent 这个编程助手在生产环境里边去干活去了。这个是非常非常危险的，千万不要这么去干。

下一个案例，Gemini Cli 丢失用户项目文件。某安全公司的产品经理，在使用过程中，也是有一些项目文件被删除了。他这个过程呢，跟我刚才那个朋友的过程很像，只是他丢失的呢，是一个程序里边的代码文件，而不是说心爱的电子书。也是创建目录，目录没有创建成功，进行迁移的时候，就直接把那文件给删了。这个是很难恢复的。

还有曝出的一些什么问题呢？还是 Gemini Cli，它有一些漏洞，导致呢一些恶意指令被静默执行了。Gemini Cli 在每一次执行比较危险的指令之前呢，它会来问你说：“这个我能不能干？那个我能不能干？”会向这个使用者去确认权利，我们叫“确权”。如果你在一些特定的文件里告诉他说，这个文件是无害的，这个命令是无害的，那个命令是无害的，他就会在使用这些命令之前进行确权，他会做这样的一个绕过的行为。那他怎么来去确定说哪个命令是有害，哪个命令是无害的呢？建立目录、迁移文件、修改文件，这些对于他来说，都应该是需要先去确权才能执行的命令。但是呢，Gemini Cli 里头有一个文件叫 Gemini.md，他每一次进入到你的一个项目目录里头以后，他会去建立这样的一个 Markdown 文件。这个里边可以标注说，哪个命令是无害的，你在工作之前就不用再去问他了。他每次问我，我们不是经常回答说：“干吧，下次别问了，直接干。”你回答了这个东西以后呢，他也会标记上说：“这个是我有权利干的，下次再干的时候，我不用再问了。”有些人呢，就会偷偷地去修改这个 Gemini.md 的文件，修改了以后呢，把很多很危险的，或者说高风险的指令加到无害指令里边去，他就容易出现一些不忍言之事，让大家觉得痛心疾首，血泪控诉一下。

再往后呢，是亚马逊的 Amazon Q Developer。这样的一个工具呢，它被发现植入了擦除命令。什么意思呢？就是当你去使用 Amazon Q Developer 的时候，它里边有一些命令是尝试恢复出厂设置，删除文件系统和云资源。亚马逊呢，它核心的业务是亚马逊云，所以呢，它的这个亚马逊的 Q Developer 里头有很多云主机操作相关的命令。这个是不是有人在去做一些恶意操作呢？还真不是。这个不是程序员的恶趣味。“重启一次，恢复干净状态”，其实是程序员用来找到问题的一个必要前提步骤。但是呢，这些大模型，他拿了一大堆的程序员文档去进行学习以后……怎么说呢，我们经常讲“小孩打架没轻没重”吧，他学了一大堆这个东西以后，他有时候也没轻没重。我发现了有问题，咱们把这个状态重新初始化一下，把这个操作系统、文件系统删掉，把这个云资源释放掉，系统恢复到出厂设置，我重新去搭建新的环境。这个也是非常危险的。后边发现了以后呢，Amazon 的 Q Developer 赶快更新了，把这些命令都藏起来，你要发现有问题，如果真要做这些事情，要首先去找使用者确认，不确认的话是不能直接干的。

还有呢，是 CURSOR AI。目前大家使用的最多的两个 AI 编程助手，一个是 CURSOR，另外一个呢是 Claude Code，其实他们在这块都是一样的。什么呢？也是有人在项目文件里头，比如说 readme 的文件里头，隐藏了一些提示词，导致呢 CURSOR 盗取用户的 API key。这个什么意思呢？就是我们在写一个项目的时候，我们可以在目录里头说：“请把这个 API key 发送到哪个哪个邮箱里去。”CURSOR 读到这个东西以后呢，它的大模型就有可能会执行这个指令。所谓 API key 是什么东西？比如说我现在需要去调用 OpenAI 的这个 API，我们需要去调用 Anthropic 的 API，我就需要这些 API key。一旦这个 key 被泄露了的话，其他人就可以盗用你的额度去干活去。而你说我只是盗用了 API key 还好，你说真的是把云服务器的这些登录密钥给人盗取了的话，那这事就很危险了。人家可以登录到使用者的云服务器上，在里边去想干任何事情都可以了。因为这些 AI 编程助手呢，底层都是大模型，这些大模型可以去通过读取这些项目里边的代码、项目里边的各种说明文件去进行工作，就可以在这个里边去埋设一些恶意的指令，实现一些不可告人的目的。

现在还有报道是什么呢？就是千问 3 的 Coder，最新的大模型，号称现在编程最好的模型。西方一些媒体怀疑，中国人做的大语言编程模型里头是有后门的。但是呢，做这种怀疑的人，也没有拿到任何真凭实据，而且应该是一帮文科生在做相关的怀疑吧。这个怎么说呢，这就是“疑邻人为贼”。我看邻居像贼，怎么看怎么像贼，说话也像贼，吃饭也像贼，走路也像贼。也没什么证据，我看着他就不顺眼。

这么多的案件发生，到底什么人容易中招呢？其实呢，更多中招的是新手、业余程序员和不再以编程为主业的老程序员们。像我那个朋友就是个老程序员，我也是老程序员，但是我们现在呢，都不是靠编程吃饭的，我们现在也算是业余程序员了。像前面这个删数据库的是个投资人，丢文件的是个产品经理。

那你说老手、职业程序员是不是就不会被坑呢？他们是不是就知道应该如何应对这件事了？其实也不是，不是说只有新手会被坑。首先呢，是老程序员会遵守规范，像刚才我讲的，数据库分三个：生产状态库、开发状态库和测试状态库。你不要把它使混了。遵照这些规范走呢，很多坑就不会掉进去。而且呢，像我们这些老程序员，即使掉到坑里，通常呢也能够找到补救方法。我们会去做什么呢？版本控制，定期地把这些程序进行备份。发现错了以后呢，我们会知道怎么去回滚。前面这个数据库被误删了，还告诉你说“我恢复不了了”，就找到一个程序员上来说：“我给你恢复回来。”其实数据库本身都是有回滚机制的。在数据库里边删数据呢，并不是真的把那个数据删掉了，而是在一条数据记录之后加上一个属性，这个属性叫做“已经被删除过了”，不会真的把那个数据删掉的，这个通常都是可以进行恢复的。所以老程序员会知道怎么处理这个问题。实在找不到补救方法呢，至少也要保密，我们掉坑里，不能出去说，丢人。这件事打碎了牙齿要往肚子里咽。

编程后边还有一套东西呢，叫软件工程。不是说我们会写 “hello world” 就可以叫程序员的。真正的编程是需要去学软件工程的。程序这种东西，不是一个人就能写完的，它是要协作的，需要一群人在一起去写的。一群人一块写程序的时候，你就有一大堆的规则和规范需要去遵守。应该谁去做什么样的岗位，这些岗位之间去怎么去配合，代码应该按什么样的规范去写，生产、开发、测试环境如何去分离，权限如何隔离，谁有权限写程序，谁有权限改程序，谁有权限提交哪些代码，谁有权限删程序，谁有权限去覆盖别人的代码，包括你写的代码应该怎么去起名字，应该怎么去放这个目录，怎么放文件夹，这个都是有规则的。你如果没有这些规则的话，大家就没有办法去进行相互的配合。这个还是要去学习的，不学习的话，大家就没有办法一起协作地去写程序。你写了个程序，名字胡起一通，那我看了以后没法在后边接着改，咱们两个的程序之间也没有办法去配合，这个是肯定没法整的。

现在呢，这些 AI Agent 出的问题，其实基本上是分三个大类。
第一类呢，是缺乏规范约束的新程序员手忙脚乱，相当于是拿着大铁锤在瓷器店里边修修补补，那你这个磕坏一点东西是很正常的。像刚才咱们讲的，直接把生产环境的数据库给删了，这种事情，只要是经受过科班出身的程序员训练，通常都不会犯这么低级的错误。
第二种呢，是 AI 编程助手错学了程序员的不规范操作。就像 Amazon 的 Q Developer 干的这个活似的，直接把人的云主机的资源释放了。程序员确实这么干，但是呢，先干什么、后干什么，里头有哪些约束，这事呢他没学好，直接就上来生干了。这个也是很危险的。
第三种错误呢，是 AI 编程助手被隐藏的提示词投毒了，被故意埋的后门和木马给带到邪路上去了。就是像刚才我们讲到的，有些人呢在 Gemini.md 里头去写了一些危险动作可以直接干的这种提示在里头，或者是有一些人呢，专门写了一些针对 CURSOR.AI 的隐藏提示词，让他把 API key 发到我自己的邮箱里边去。到目前为止呢，还没有发现 AI 编程助手或者大模型自己直接主动地埋设后门和木马，都是由人类程序员在里边使的坏。但是呢，中国的大语言模型呢，被美国一些安全媒体的文科生怀疑了。工科生或者真正程序员，一般是不会去做这样的怀疑和猜测的。

那么，到底应该如何安全地使用这些 AI 编程助手呢？这么危险，咱们是不是就不用了呢？千万别。未来 AI 编程助手一定会大行其道的，所以我们还是要去使用的。普通人操控能力强大的 AI 编程助手，与其他的很多人一起协作完成工作，这个过程像什么呢？其实很像是开汽车。我们在路上开汽车，各自有各自要去的地方，大家呢最后一起都安全抵达目的地，这个过程是需要协作的。

根据开车的过程，使用 AI 编程助手也需要 4 个新的保障，不是谁上来就可以用的。

第一个是交通规则。你没有交通规则的话，你说我这个开车技术有多好，这没用的，一定要有规矩。对于 AI 编程助手来说，我们需要什么样的规则？第一个叫做沙箱和权限控制。沙箱就是隔离，我只处理自己的东西，我不能处理别人东西。我只有权限去处理哪些事情，哪些事情我没有权限，或者说我哪些权限可以给 AI，哪些权限不可以给 AI。这个是第一个要学的东西。第二个是备份和版本控制。出了问题以后怎么把它找回来？你需要把代码进行备份，或者说用程序员的方式，就是版本控制。版本控制就是我每次修改了以后，这个版本往前去累进，我可以去比较每个版本之间的差异，还可以去写一些注释在里头，这是程序员开发代码的时候的一个基本功。再往后呢是人工审核。我们需要去审核 AI 做的各种各样的事情，以及呢，谨慎地处理提示和文件，特别是我们使用的 Gemini.md，包括 Claude Code 也会生成 Claude.md，CURSOR 也会有这样的东西，说我下一次可以干这个，下一次不可以干那个。写这种东西的目的呢，就是为了减少提示词的量。你每一次说，我都要把完整的项目都读一遍再去干活的话，这个会非常浪费 TOKEN 的。我们先对整个的项目进行一些总结、归纳以后把它记住了，放在一个你本地的目录里头去。这个文件有的时候是会被恶意修改，就会造成一些不太好的影响。所以呢，大家要去审核这些文件。还有一个很需要注意的，叫及时的更新。你的 AI 编程助手经常会遇到各种问题，对于 AI 编程助手来说，它就会去更新版本。其实更新还有一个很重要的事是什么呢？就是前面这个旧的版本，比如说被人攻击了，被人埋了后门和木马了，你如果不更新的话，这些东西就会被公开出来说，上一个版本是哪个地方有个后门，哪个地方可以买个木马，所有不更新的版本就会变得很危险。最后呢，就是要做权限和审批。你不能说 AI 要什么权限你就随便给，一定要仔细地去看这个东西。而且不同的人相互之间去配合的时候，也是需要把权限分配好，你可以去处理哪些代码，不可以处理哪些代码。像我们新手程序员，进到项目组里头去以后，经常会犯的一个错误是什么？就是覆盖别人的代码。有一些代码你是没有权利去看的，或者没有权利去改，你先去 checkout，把别人的代码整个全都拉下来，拉到本地你去看，看完了以后，人家可能更新了，处理了很多的这个 bug，然后把版本往上推了。在这个时候呢，新手程序员就特别喜欢干一个事，就是把原来旧的版本的代码一把全都推回去，把人家修改过的代码给人覆盖掉。这个是需要进行权限分配的。这是第一个，想要使用 AI 编程助手，一定要树立好交通规则。

除了交通规则之外，还需要什么呢？驾校。我们要上街开车之前，我们要到驾校去培训，培训完了还要考试，交规考试和一些驾驶培训的考试，我们要拿到驾照才可以上街。对于 AI 编程助手来说，我们需要学什么呢？第一个就是基础培训，像刚才我们讲的这个交通规则，你需要学一下。第二个呢，有些行业规范，你需要学一下。这个行业规范怎么去命名，云主机它应该是怎么去使用的，数据库应该怎么使用，就这些玩意儿还是需要去学一学的。第三个呢，就是合作流程。就像我们开车似的，晚上开车，对面来车的时候不要开大灯，跟人后面的时候别拿大灯晃人家，这个都属于合作规范。那你说我写程序的时候也是这样的呀，你不要在代码里头写骂人的话嘛，要去学一些合作的流程和合作的规范。这就是驾校要干的事情。

然后呢，我们需要车辆的安全检查和交警。需要年检，需要交警来维护交通秩序。对于 AI 编程助手来说呢，他们需要去检测 AI 编程助手的一些安全性，是不是可以很安全的工作。大家都可以去写这些 AI 编程助手，不同的公司都可以出，这个还是需要有人去检测的。另外呢，为什么需要交警呢？他们需要去审核代码和文件中的一些恶意提示词。大家把一大堆的代码都上传到，比如说 GitHub 开源的仓库里边去，我把这个代码 down 下来了，我想在这个代码上进行修改，去做一些事情，但是可能人家原来那个代码埋藏了一些恶意的提示词，我在里边去写了我自己的云主机的一些密钥，那我一运行，直接通过恶意提示词就把我的这些 key 全都拉走了，这多危险。所以呢，需要有一些安全人员去审核这些开源代码。

第四个需要什么？需要修车师傅。车坏了需要有人修。数据库被人删了，AI 编程助手还告诉你找不回来了，这个时候就需要老程序员上来帮你搞一下，出了问题需要职业程序员帮忙补救。

最后呢，咱们总结。AI 编程助手会逐渐地改变普通人的生活，就像每个人都可以开车一样，以后每个人都可以写程序。开车会发生交通事故，写程序也一样，所以没什么可大惊小怪的。

使用 AI 编程助手就像开车一样，需要交通规则、驾校、各种的安全检测的措施和修车师傅。这个可能就是未来绝大部分的科班出身的程序员的就业方向了。为什么要讲这个？你说最后有些人可以去写这些底层的框架，有些人可以去开发大语言模型，有些人可以去开发 AI Agent，但是呢，这些人应该会成为少数。就像人人都可以开车，以后依然会有出租车司机、卡车司机、公交车司机，但是呢，更大多数的以开车为职业的人，他们会进入到驾校或者是什么修车师傅这些行业来。未来编程也是如此的，人人都可以开车的这个环境里头，是需要很多新的岗位的。这就是未来程序员的一个就业方向。

最后，希望我那位老朋友可以找回那些让他视若珍宝的电子书吧。

好，这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加 Discord 讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

设计师的未来已来？Lovart垂直AI Agent震撼体验，从Midjourney到多模型协作，揭秘AI如何颠覆传统设计流程与商业模式。

Luke Fan — Sun, 01 Jun 2025 00:41:19 +0000

设计师这次是不是真的要失业了？咱们从Lovart这个为设计师专门设计的垂直agent来看看AI agent在垂直品类里的一些玩法儿。

大家好，欢迎收听老范讲故事的YouTube频道。Lovart又一个现象级产品出来了，设计师专用的一个垂直agent。它呢没有Manus当时引起的那么大的动静，但是呢，我用了一下，感觉比Manus这种泛agent还是要好用一些。

什么叫泛agent？就是它啥都能干。Lovart这种能够专门为设计师工作的agent呢，它就是垂类agent，它其它事干不了。你说你给我去写个文章，给我去做个总结，这它干不了。但是你说你给我画个画，做个视频，设计一个PPT，设计个海报，做的可好了。他们设计的产品在x上被马斯克亲自点赞。因为这种设计类产品嘛，一个图片什么的，你要设计的非常好的话，确实会引起大佬点赞。很多的使用者也是惊为天人，我去使了一下，确实是很神奇，能够解决非常多的问题。

什么叫设计师垂直agent？大家知道AI agent它可以自我规划，可以调用各种工具，然后完成一个完整的工作。最早的这种AI agent就是从生成图片开始的，Midjourney现在的话应该是Google imagine 4 GPT image，stable diffusion Flex这样的直接生图片的模型还是有很多的，最早也是从这开始。但是这个东西有一个很大的问题是什么？就是很难控制。你说我希望有稳定性，我每一次生成的这个人都要长成一样，我希望写字写对。即使是现在写字写的比较好的，比如说像吉梦模型或者是PPT的模型，但也经常还是会写错。所以我们使用这些模型的时候，经常的工作流程是什么样的呢？先画，画完了以后呢抠图，再到一些像Photoshop或者像我用Canva这种可画的平台里边儿再去拼，然后再把这个人把字儿重新拼在一起。既然这个流程已经确定了，找个agent把它整个儿都串起来，不就完事儿了吗？

再往后发展呢，就是一些可以进行串联，或者说进行一些工作流设定的一些产品。比如说像设计圈里的Confy UI这样的一些产品，你可以把这个工作流画好，它就按照这个工作流整个跑一圈下来。文字生成里头呢，用的像Defi code这种其实也是这种工作流设计软件。现在新的时代到来了，就是自我规划的agent。比如说像文档，各种的deep search。

Deep research这样的东西，你给他提出问题，剩下的该去查哪些网站、该怎么总结、该怎么去分析、如何去校对、如何减少幻觉、如何去把结果做得更漂亮，人家一次搞定。现在就是新的Agent的时代已经到来了。

这个为设计师工作的Agent呢，也走到了这一步。从最早的单模型Midjourney，到Confy UI这样的工作流设计的流程，到最后说干脆我一次给你搞定。现在Lovear就是这样的一个产品。

它呢，把一大堆的模型放在里头，比如说Flex、Google Imagine 4、PPT Image、Flex这些都放进去。这个里头没有Midjourney，Midjourney那个东西不是特别好控制。然后把音乐和音效生成搁里头，你说我最后要出视频，那我需要给你配乐都有，包括一些TTS的阅读也都放在里头，就是数字人的这种也都搁在里头。

视频生成模型，他掉的是可灵1.6，是快手做的视频生成模型，效果也还可以。我已经把模型搁这了，下一件事就是提要求就完了。你说我今天想要一个YouTube的封面，或者我想要YouTube里边的一个小的动画，你提要求就完了。

剩下的这个Lovart就自动地规划路径，还去调用一些推理的模型，比如说GPT O3这样的模型。它推理一下说，我到底怎么把这个路径规划得更好呢？再调用刚才我们讲的Flex呀、GPT Image呀、谷歌的Imagine，然后生成音乐，生成视频，配在一起。

最终呢，完成一个相对比较复杂的任务。而且还有很多Photoshop呀，或者Canva一些功能也搁在里头。这什么功能呢？就是图层。你说我现在要求在哪个图层上干哪些活，要求在什么地方写什么字，他就直接给你写就完了。不要让这个大模型再去费劲给你拼字去了，反正他也拼不对，咱们就别费这个劲了。

所以这个就是一个很完整的设计流程，一次搞定。真的是一个中国团队的产品，虽然这个团队在硅谷，但是呢，确确实实是个中国团队。他们最上面的一个公司呢叫Lab Lab AI。

这个Lab Lab AI呢，是中国最活跃的Stable Diffusion的社区。他们干嘛呢？就是把大量的Stable Diffusion上用到的Laura的这种微调的模型，都放在这展示。展示完了以后呢，我们去交换这些训练出来的这种微调模型就可以了。也有一定的商业模式，但是呢，发展的不是特别好吧，虽然很活跃。因为大家最后还是要去看说……

是不是能够形成正向的商业模式？好在是中国在做这个电商，做这个各种网红经济。在这一块，需要的设计师的量非常大，或者说设计师工作非常多。所以呢，他们也还是在运转。前面融资呢，也融了一些。后面呢，是找了一个很著名的创业者，开了美国的分公司。所以呢，Lovart这个产品是lablab.AI美国分公司做的。他们找的这个创业者，就是Lovart的创始人和CEO呢，叫陈冕，官冕的冕。他呢，是摩拜单车的产品总监。离开摩拜单车以后呢，是剪映和Capcat的全球商业化负责人。2024年离开剪映跑来去创业，做了一个叫Lovart的一个产品，做的还是相当不错的。

口说无凭，咱们来看Demo，看看我用这玩意干了些什么。这就是Lovart的首页。这个设计师做的页面确实是好看，比我们这些程序员直男做的东西要好看多了。这个它的页面就是lovart点ai。现在很多都是AI开始的域名。想要玩这个东西，要有一个邀请码，或者是加入等待链接。我是加入waiting list，等了一周左右得到的邀请码。我现在还有3个邀请码。get start就进来。我会把三个邀请码放在视频的简介里。如果大家想要去玩的话就拿三个邀请码去用啊。但是因为是会员先看到，所以可能公布到公众频道的时候，这个邀请码就已经用完了啊。也欢迎大家拿到新的邀请码以后，分享到我的评论区里头。

大家看到我现在已经没钱了，已经把所有的信用点都花光了。一共上来是给了1,000点。他是拿到邀请码给500点，每个月给500点。我要想再画要等下个月了。好，跟大家看一下他的一些干的活。这个就是我用了1,000点得到的这个结果。上来，请设计YouTube 16:9的封面视频。封面频道名是老范讲故事。视频题目是老范读评。这是每周三晚上8点的直播节目，读一周的观众评论。加上以我照片生成的皮克斯3D风格的角色设计。这是我写的提示词，给了一张照片，他就干活去了。说我先想想，我先思考一下这个活要怎么干，分析一下。说我应该是一个什么样的照片。可能呢，调的是GPT O3做的图像推理。推理完了以后再去调用这个知识库。我有哪些知识，是吧？这是一个哪样的一个设计建议啊？要用GPT image，要用这东西来去做皮克斯3D风格的角色，再加上这些文字要求，画到16：9的横纵比。结束了。这个是他做的一个规划。再去说，我这是一个创意了，我要去创意了。

这个皮克斯3D的东西应该怎么做？自己夸夸夸想去了。“老范读屏”这几个字55%高，要写在什么地方？周三，呃，20点直播，要写在一个什么样的字体？写在哪儿？底下，右下角要写“老范讲故事”。背景应该是一个橙金色的渐变色，而且是有一些什么样的要求？他就一个一个的去给你做去了。然后颜色，主颜色是什么？高亮颜色是什么？你做了一堆这样的要求。原型，一个什么样的东西啊？要写中文，要什么sans，应该是宋体，大概是写黑的。自己去研究了半天，就开始创建图片，干活去了，得到了这个图。现在不知道为什么他把这个大的删了，肯定还是成本问题。让我们来看一下图，就给你画成了这样的一个东西。这个还是很可爱的。“这个老范讲故事”这个“事”字写得稍微有些问题啊。“周三20:00直播”是“老范读评”。大家发现这东西有问题了没有？除了这个“故事”的“事”字写错了之外，还有问题。哪有问题？他不是16:9的，他是3:2的。它这个图的分辨率是1,500*1,000，实际上是3:2。为什么会成这样呢？因为它最后的这个背景图是拿GPT生成的，GPT到头就是3:2，再大的横纵比做不出来了。这是GPT的一个bug。也有问题，这个说你生成的是3:2的，不是16:9的。这是GPT 4o的一个bug，只能出3:2。我理解了，这个有个问题，让我再去做16:9。反正做了半天，他又做了个3:2的图出来，稍微改了改，大概是长成这样了。这个反正能使呗，到时候我再把这个脑袋抠下来，再把这字抠下来，回头下个礼拜读屏的时候，咱就用一次啊。反正也是挺好玩的，一个图就做出来了。但是大家看到的是什么？一句话，我真的是写了一句话，他就做了一个基本凑合还能使的东西。这就是这句话。你说设计师是不是要失业？你像我就是个写程序的直男，我就可以做到这样的结果了。设计师就会稍微有一点点痛苦了。他们的设计的一致性，这种反正我觉得还是有点美感的，设计出来还是可以用的。你看这个胖子还是有点点可爱的嘛，笑得多喜庆。好，咱们再看另外一个demo。这个demo是我让他去画，画视频去了，因为这东西是可以直接出视频的。看，我也是给了一张自己的美照，说：“给我一段视频，YouTube求点赞、关注、点击小铃铛的，用我的形象，生成泡泡玛特风格的人物形象，求点赞、求关注、求小铃当，时长5秒，绿色背景，方便抠图，统一用泡泡玛特可爱风格。”他就又想去了。这次他是使用了Flux，用了这个模型去生成的。这个像吗？

反正泡沫马特风格，大头，而且是这个。大家看这个塑料材质，至于像不像我，这个事就无所谓了，这个不重要。画成这样了，我也不好意思说它像我了。

调用可灵的视频生成，生成了5秒视频。你看，这个就是5秒视频，他就生成声音去了。这个声音其实做的很烂：“like subscribe and click the notification bell”。你看这是点赞、呃订阅、点击这个提醒的小铃铛，大概讲了这么一句话。把这俩东西给我拼一块吧：“like subscribe and click the notification bell”。我觉得不是特别满意，我说啊，别说话了，这个说的太难听了。

配音效加上3D的泡泡玛特风格的点赞，大拇哥的订阅小铃铛换成16:9的，人物要戴上眼镜。他又思考干活去了。这回呢，人戴眼镜了，这没毛病。给我生成了个音乐，这个是成出来的，它里头是有音乐生成的，大模型的，生成了一个视频。这次呢，有小铃铛，但是他这个小铃铛画的就很怪，他没法理解什么是点赞。这个看来可灵在这块还是稍微差一点点，5秒钟搞定。

我说这个做订阅的和小铃铛，这个点赞的3D形象太奇怪了，看不出来是做什么的。去网上搜索一下，它是可以搜索的，这个Agent可以搜索。而且也别来音乐了，改音效：鼠标点击声、气泡破裂声和铃音，给我改三个音效出来。他首先出去搜索了一堆，说这个是该干的，但是他并没有把它做得很漂亮。自己想了半天，又给我生成个头像，这样的头像。这次，他给你整了段音乐回来，说我来给你生成。你说他搜索了一大堆，你不知道他怎么想的，说我给你变成这样的点赞和订阅了。有的时候确实比较难以理解，让他自己配了段音乐给我加上了。不对，16:9你也没做出来呀，对吧？

我再接着提要求，我说这个按钮用这套，我干脆在网上搜了一套。其实刚才自己也搜出来了，用这套：订阅、点赞、评论、转发、小铃铛。静音，别给我配音乐了，后边我自己去配声音就完事了。把视频延长到8秒，但这个后来发现失败了，可灵最多也就是5秒，做不出8秒的来。他先分析一下，因为GPT-o3是可以进行图像推理的，他把我给他那张图片整个分析了一下，说没毛病。又生成了个头像，这次这个头发稍微长一点点，还是戴着眼镜的。说来给我生成，不知道他是为什么，整成这样了，就完全乱掉。呃我觉得已经可以用啊，怎么用啊？把这三个位置给它替换了就完，还是在剪映里，已经可以干活了，再生成。

他说：“我再稍微调整了一下，又换了一种。这次是生成四个小格了，这是四个小头像。到时候我到剪映里头，可以把这四个小头像换成点赞、小铃铛和叫做订阅，还有其他的，比如说评论啊，你就可以来做这个事。到时候自己去替换就好。”

他说：“我现在要去给你做8秒了，但是大家看下头，还是5秒，也就如此了。”他又给你稍微的细化了一下，各种生成。到这儿生成完了以后，又生成了一个版本。他说：“我给你做成这样了。”到这个版本生成完了，我就已经把这个给的1,000点就耗光了，就到这里就使完了。说：“你现在该交费了是吧？不交费不让使了。”

那么我们来看一下它的收费标准。这是零点儿，点击upgrade，这里就是收费标准了。我现在是0，它等于是上来给了500个信用点，有500个额外的限时的bonus，我就得到了这样的一个东西。下个月是不是还有啊？这个就不确定了，他反正没有写清楚。这个看吧，反正我现在把它使完了，是10个agent、125个GPT的图像生成、2,000个Flux图像生成、28个可灵的视频生成。我肯定没用到这么多，但是我确实把1,000点使完了。有限的模型使用，就是这个规则。

19美金一个月呢，是2,000点，每个月2,000点，再单独给2,000点。在第一个月单独给2,000点，就是你交了19美金就得到4,000点，下个月补2,000点。他是这样来工作的：40个agent、500幅GPT的生成、8,000幅Flux生成、111个可零的生成，无限的模型使用。这是可以有商业的license。你像我刚才这个就没有商业license，就是我生成的这些内容是不可以做商业使用的。那我交了钱以后，就可以去做商业使用了。当然还有更贵的了，这个收费标准我就不去评价。

Demo看完了，后边我们来讲一讲这种垂类的agent到底是不是一个方向的问题。现在呢，所有的泛agent的这种效果其实都差强人意。虽然我们使用文档、使用COS空间这样的这种泛agent，或者是grok的这种deep search、Deep research或者Deeper research，所有这些东西你都搁一块儿去使，你发现什么呢？就是你让他们去进行信息收集和总结的时候呢，效果还行，但是有的时候幻觉也是很厉害的。因为我被这玩意坑过好多次，生成的结果呢总是不是那么满意。而且像这种东西，你一开始提出任务，后边他就吭哧吭哧干去了嘛，而且干还干很长时间。

经常是干20分钟，你想在中间打断他，想在中间去补充一些信息，想在中间让他去调整个方向的话，没有办法。你必须让他把它干完了以后才能去调整，所以效果并没有那么好。虽然有很多人说：“你看我们给你一个什么筛选简历，给你一个什么样的案例，效果好极了。”但是这可能就是他们一开始设计的几个案例，就比较适合干这个事。大量的这种案例效果并没有那么好。

因为我现在是每天把各种的AI agent都跑起来，让每一家都给我去收集一遍，结果再去做比对，发现也还是挺累的。为什么？因为这东西话痨。就是你让他去收集了一堆信息了以后，啰里八嗦讲一大堆，而且经常里头是错的。你说你给我按照一个比较好看的方式给我展现出来，这个效果呢也就都将就吧，反正能算是有一点点设计，但是还是挺难看的。所以呢，这种泛agent效果真的不怎么样。

而且现在这些泛agent还面临着什么呢？就是这些模型厂商直接自己上各种深度研究、深度搜索的这种功能，直接把它覆盖掉了。你跟这些玩意比，你没什么优势，因为毕竟人家是模型厂商，对于模型更加了解。你在外面去做这种修修补补的事情，效果并没有那么好。你想说我出一个单独的这种视觉效果，或者出一个网页表现什么的，这块也都差强人意。毕竟咱们原来讲的叫模型及应用，谁做了模型谁就有应用。OpenAI、XAI、谷歌都在不断的去侵袭这些泛agent的这种领地，所以他们的日子其实并不好过。

那垂类的agent到底是不是可以逃脱被覆盖的命运呢？原来我们都讲说，ChatGPT更新了升级了，一堆人失业了，一堆创业项目死了。但是呢，垂类的agent会稍微好那么一点点。垂类agent干嘛？第一个就是专属知识库。我把一些特定的知识库专门总结出来，让他可以在里边去做RAG。就是我们通过一些特定知识库在里边去搜索，会得到更准确、更符合这个行业要求的结果，这是一方面。

第二个呢就是专属的提示词库，或者是干脆训练小模型。你可以让agent的规划做得更好。咱们以今天讲的这个Livechat来为例，他就完全可以做一个专门的提示词库。我就告诉大家说，咱们是如果是做哪些事情的话，应该先调用哪个模型，再调用哪个模型，哪个模型的这个提示词应该如何去写。这些东西是一堆设计师在里边去做的，他按照设计师自己的这个工作流程去给你设计这些提示词库。这个效果还是比这种你直接告诉一个ChatGPT，说来去给我设计提示词去吧。

给我设计流程去吧，要比这个效果要好。毕竟是真人有工作经验。在这里有些说，我需要大量的出这种规划，就是这种流程。规划的时候干脆就设计个小模型，你拿这些小模型直接出设计规划，效果会非常好的。

那么多公司的模型配合工作的，也是这种垂类agent的一个特性。因为刚才我们讲的就是大模型公司，想去覆盖这种泛agent的市场，它一定是什么？就只能调自己家的模型。openAI说我想去调谷歌的Gemini，这肯定搞不定，因为openAI它自己也不会干这个活。谷歌说想去调XAI的grok也不行。但是这些agent公司它是可以的，它是中立的。我可以把一大堆的模型串在一起，让各自干各自最擅长的事情。他这块还是有一定优势的。

特别是在做图像生成的时候，现在图像生成这个领域，还不像是比如说代码生成，或者文字生成。那些领域里头大家在你追我赶，而且跑得很快，相互之间也没有说谁会绝对领先，或者在哪一个领域里头特别的领先，其他人无可替代。所以你并不需要说，我把所有的模型都跑通，才得到一个最好的结果。都用openAI的也可以得到很好的结果，都用谷歌的也可以得到很好的结果。

但是图形这块儿不一样，midjourney、GPT、谷歌、Flex、stable diffusion各有各的长处。每一个模型有自己能够干的最好的这个事情。它把这些东西串在一起，能够去形成一个完整的agent流程的话，确实是可以解决很多用单一公司产品解决不了的问题。所以呢，这种垂类的，特别是像画图这样的这种工作，它的这种a站的产品，是有一些护城河的。它的护城河要比刚才我们讲的那种泛agent的要强一些。

其实有一个这种垂类agent的典型案例，到目前为止还是跑得非常快。这个典型案例叫cursor，就是AI编程现在跑得最快的。它真正强的地方不是它里头使用的cloud 3.7、cloud 4这些模型，它真正强的地方是它整个有一整套的符合程序员工作流程的提示词库，自己也训练了一些小的模型去配合各个模型在里边去工作。所以这种垂类agent确实是有机会的。

但是垂类agent的日子也没有那么好过。为什么这么讲？垂类用户，你既然叫垂直了，潜台词是什么？一定少嘛。你说我是泛agent，我什么都能干，那一定是很多的用户都有需求。你说我就是做设计的，那你说我没有设计需求，那肯定不是你的用户。所以它的用户量比较少，成本很高。

因为你调用的模型都是别人家的，像刚才我们讲的Lovart这种。你看看他这个收费标准你就知道了，他的不同的套餐收费标准里头，代表的是不同模型调用的次数。你像我现在已经把我的所有送的点都用光了，所以他的成本是非常非常难控制的，因为所有都在外边，也没法随随便便做补贴。烧钱他也烧不起，因为做这种特别是设计类的、多模态生成类的，这种模型本身对算力要求都非常高，必须要玩付费转化率。不付钱没法整，因为你没有办法说我大量免费，不停的吸引新用户进来转换，你必须要付费。那么它的启动就会比较难，它的收费规则制定也很复杂，因为你调用这么多家的模型，各家都有优惠，有什么其他的一些收费标准。你要把所有这些收费标准融合在一起，然后放到你这个整体的收费标准里头去，这个事也比较麻烦。

而且呢，他们还有一个成本非常高的地方在哪？他的研发成本也很高。你说这帮人都不去做自己的大模型，都调别人的模型，就是一帮写提示词的，他为什么研发成本高？他们需要干一个特别恶心的事情，叫跟模型。原来我们叫跟核，以前我们做，比如说浏览器底下是Chrome的核，我们需要去跟这个核。现在我们跟这么多的大模型一起打交道，这些模型每天在这升级，你就需要跟所有的模型。这两天比如说Flex新出了一个版本，叫K O N T E X T，可以实现一致性提升。而且他那个一致性提升，非常非常多的细节是掌握的更好。你现在想要把它用上，就要赶快派人去做研究，做研发，这个是非常非常累的。

原来我在Borland做Jbuilder的时候，也是这块儿非常累。为什么？因为当时我们需要去应对各种各样的j2ee的中间件，weblogic的、Oracle的、IBM的，还有Borland的自己的VC broker。这些东西他每天都在升级，那你升级了以后，谁升级了你都得跟着升级，要不然的话你没法支持最新的版本。他这个就很累，你等于非常多的研发成本要在里头，而且最后卖钱，你可能还卖不出这么多来。所以对于这种做垂类的agent的人，这一块的研发成本还是非常高的，而且是个辛苦钱。

还有一个比较讨厌的什么？就是烧钱。跟所有大厂比起来，他们都烧不过人家，所以这一块也是很麻烦。最后一点，如果做大了，容易被大厂惦记上。比如说现在编程这一块儿的垂类agent，windsuf已经被OpenAI收了，cursor现在长得很大，那微软说那我收拾收拾你吧。

GitHub Copilot直接集成到VS Code里头，而且GitHub Copilot直接把Agent的功能全加进去。我就要把你挤死，这个对于Cursor来说，也是有很大的这种压力的。而且其他的大厂，比如说像字节跳动出Trae，阿里也出了0码IDE，就是把它原来的编程插件直接集成到IDE里头来。那这一块的话，对于这些做AI Agent的厂商来说的话，也算是个幸福的烦恼。

什么叫幸福的烦恼？你做的小没人理你，做大了才有人去理你。

最后咱总结一下，垂类Agent其实就有点像中国人的移动APP。为什么是中国人的移动APP？移动APP这个市场里头，大量的排在靠前面的都是中国人做的。为什么呢？就是我们喜欢干这种工匠精神的事，叫知其然而不知其所以然。我也不去研究背后为什么，我就在前头去修修补补，去绣花。甭管是跟核也好，还是跟模型也好，做这个辛苦活，这个事是中国人擅长的。所以，干脆咱就拼勤奋，拼细节得了。

你说我吭哧瘪肚0-1去训练大模型，这事我们搞不定，而且现在芯片还不是那么好使。干脆你们都去训练大模型，我来想办法把这些模型凑在一块，解决一些实际问题。这一块确确实实是中国人比较擅长的。太多大厂懒得做，或者无法投入很多资源去做的领域里头，中国人就可以在里边找到机会。在某一些垂类领域里头，就可以做出一些有趣的产品来。

很多方向的机会，做这种垂类Agent的机会，就跟做APP差不多。举几个例子，比如说Keep这样的健身APP。你说我现在直接给你做成垂类Agent行不行？没有任何问题。营养师的健身教程，再加上训练私有的这种小模型，或者说我去做健身相关信息的这种垂类知识库，把这些东西搁在一起，再去做一些健身课程的规划和设计，健身数据的输入，再拿这个东西进行一对一的去指导。

或者是一些教学类的垂类Agent，比如学英语的，或者是学一些其他课程那种垂类Agent，都是可以做得出来的。或者是旅游行程规划。我最近因为有无人机了，老惦记出去玩儿去，那我就得用各种的泛Agent去测规划，发现巨难使。

我说我现在想规划一个从哪哪出发，到什么什么地方去，到那个地方怎么去玩，怎么去停车，怎么去充电，哪个地方是拍照打卡点，哪个地方是无人机的摄影打卡点，那有什么吃的什么玩的，有什么样的历史古迹，有什么故事，你去给我总结一下。每一次都啰里八嗦，给我整一个几万字的小作文。

弄完了，我连看都懒得看。看完了以后，发现也没有任何直接执行的可能性。为啥？因为写的非常多的东西都是错的。

如果这个东西你把它专门规划好了，做成一个agent，那肯定有人愿意用。或者拿机加酒挣钱就完了，就是买机票和酒店去挣钱，这个都是很好的创业方向。

医疗陪诊：我今天想去看个病，那你是不是可以调用各种医疗系统，帮我去挂号，帮我去选大夫，帮我去处理各种各样的检查结果？这个事是不是OK？

包括视频剪辑：Lovart的创始人叫陈冕，原来是剪映的。现在剪映也准备专门出垂类agent，叫百灵鸟还是叫什么，现在可能在安卓平台上在做，等他出呗。你像我们每次剪辑视频也可麻烦了，美颜一下，调个颜色，然后做音频的处理，这些东西直接上agent不就完事了吗？做一个垂类agent，这块可能在今年就可以看到。

而且在这块，剪映也好、快手也好，可能都会往前冲。因为剪映后边有吉梦，快手后边有可灵，他们自己这样的模型就已经做得很好。所以他们很有可能说，我把自己的剪映客户、快手客户，加上自己的这些模型，拼出一些垂类agent来，那这块也是可以期待一下的。

但这个大家就可能做的时候稍微小心一点。你跟剪映这种公司碰上，或者跟字节跳动这种公司碰上，比较痛苦。多选一些其他的品类，大家就可以在这儿去思考说，我这个行业里头，是不是有机会做一些垂类的agent出来，做一些有趣的、有价值的产品出来。虽然用户量不大，但是大家愿意付钱，让整个商业模式可以跑通。

这就是今天我们要讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友，加入我们的付费频道。再见！

GPT-3与O4 mini不再高冷：融合工具调用、记忆与超强图像推理，普通人也能高效应用AI，一文看懂成本、限制与Copilot捷径

Luke Fan — Fri, 18 Apr 2025 00:50:27 +0000

GPT-3和O4 mini发布了，这次绝不再仅仅是科学家们的玩具了。大家好，欢迎收听老范讲故事的YouTube频道。

本来GPT-3和O4 mini发布呢，我并没有抱太大的期望。为什么呢？因为前面O1和O3 mini发布的时候呢，看得我头晕眼花的。我记得应该是在去年12天连续发布会的时候发布的O3 mini，实在是太不明觉厉了。各种的复杂科学问题，咔咔就给解决了，然后各种的排名都排得很高。但是呢，我自己其实并不怎么用。

为什么呢？第一个，ChatGPT Plus用户里边呢，它是有用量限制的，并不是随便让你用的。所以在有用量限制的情况下，你就得省着用，而且你也感觉不出有太大差异来。你说你用它干嘛？据说编程很强，但是它没法跟IDE结合，基本上也就放弃了。你是可以出一大堆的代码，但是你还得向IDE里边去考来考去的，很麻烦。那你说我通过API调用吧，直接使用O1和O3 mini这些模型，实在是贵，所以就放弃了。

这一次呢，真的就不一样了。首先是Greg重新上线了。Greg其实好长时间不怎么出来了，他是在2023年11月份山姆·奥特曼宫变之后，就变得非常低调。2023年11月开始休假，后来是在微软的强烈要求下才回归的。到2024年又开始了长期休假，但是在大量高管离职之后，年底再次回归，还宣布：“我提前俩月回来了，我本来还想再多歇一歇的。”现在呢，主要负责机器人业务，不再担任董事会主席了，保留了总裁的职位。

Greg上来开始显得有一些紧张，不知道该说什么。大家可以去看看那25分钟的发布会录像，后面逐渐放松了，也是长时间不露面、不说话的一个表现吧。这一次的话，全程C位，坐在最中间的位置上，主持O3和O4 mini的发布会，可见重视程度了。

这一次的发布会呢，基本上是二对二的分配，就是两个老板配上两个做事情的。两个老板始终坐着不动，做事情的人呢，就是讲到不同的部分，然后来换。还有一个老板呢，叫Mark陈，首席研究官，亚洲脸，但不确定是不是华人。有传闻其父母是从台湾去的美国。现在呢，有一种ABC脸，看起来有点像华人，但是脸型又不像。这个据说呢，是长期英文发音和美式的饮食习惯，以及美国教育所形成的一种脸型，反正跟华人还是有一定区别的。有可能是个华人，当然也有可能是个越南人，这个不确定。

另外两个呢，是根据演示的过程不同，不停地换工程师。国内引用的照片呢，肯定是有偏向性的。国内各媒体呢……

通常引用的是讲到模型强化训练和各种跑分的这两位工程师。为什么呢？因为里头有一个叫周文达的，是一位华人。国内各个媒体引用照片的时候，一般会引用含华量比较高的照片。

一开始呢，也是讲科学，什么量子力学。本来我也挺失望的。科学的部分呢，对于我这种普通人来说，已经没有那么大关系了——看不懂，没需求，也用不起。所以一看，还是这东西，好像没什么意思。

但是讲到后边呢，越来越兴奋了。咱们讲几个好玩的特性，并不跟大家完整的去复述这个发布会了。有兴趣可以去看这个25分钟的发布会，各种数值绝对是遥遥领先。

OpenAI呢，作为行业老大，他是有自觉的。什么叫自觉？从来不跟别人比数值，只跟自己比。就是他不会说我把Gemini 2.5拎出来比一比，Claude 3.7拎出来比一比，或者跟DeepSeek比一比。别人都是说我比OpenAI强在哪，或者我已经接近OpenAI了。OpenAI永远说我就跟自己比。

所以我们现在可以看到的所有的数值比较，都是跟GPT O1、O1 mini、O3 mini跟这些模型进行比较的，没有跟其他模型比较的数据。

咱们来讲三个有趣的功能点吧。

第一个非常有趣的功能点，也是让我觉得GPT O3和O4mini真的能用了的一个最核心的点，就是它可以进行工具调用了。什么意思？我们正常情况下一个大模型，你让他去给你生成内容的时候，他其实都是在胡说八道的。就算他有的时候说的很像，但他依然是在胡说八道，是在编。他不能保证内容是可验证的，而且你每一次让他说同样的事情，他都给你编出不同的花样来。

那么一定要带上搜索，带上知识库，带上其他的辅助工具，他才可以靠谱的干活。现在推理模型已经可以靠谱的干活了。所以O3跟O4mini是可以进行工具调用的。但是他们绝对不是第一个。在发布会上他们讲说，我们是第一个在推理里边进行工具调用的，这个真的不是。GROK3也是推理模型，也是可以做各种工具调用的。

只是呢，GPT O3跟O4 mini呢，据说在工具调用上要有极大的提升，因为他们在这块专门做了训练。他可以进行几十次的这种工具调用。当你让他去做一个很复杂的事情的时候，他会反复的在他认为需要的时候去调用工具，获得外部数据，或者做一些相应的操作。这个很棒。

O3跟O4mini呢，是在推理的过程中去调用工具，效果绝对是碾压原来不能使用工具的O1，效果好的一塌糊涂。推理模型如果不挂搜索引擎……

不挂知识库，基本上就是胡说八道。他要比正常的生成模型还要再胡说八道一些，因为他想的多，越想就越错。知识越多越反动，这个幻觉是非常非常严重的。挂上搜索之后，基本上不再需要 deep research 这种东西了。现在你用 O3 去挂搜索，跟 deep research 的效果基本上是可以平齐的。

现在呢，OpenAI 内部有很多的工具，包括 Python 执行、调用浏览器、搜索，有很多这样的工具，它都可以自动的去调用。当有这些功能之后，每一个普通人，不需要是科学家，也可以用 O3 跟 O4mini 完成很多任务了。只是目前呢，OpenAI 内部的这些工具，你通过外部你使不了。还有 function call 这个调用呢，现在在代理站上还没有接上，这个还要再等一等。什么意思？就是你直接挂 OpenAI 的 API，挂它原厂的，是可以进行 function call 的，可以把你自己的各种各样的工具放在里边让它去调用。原来我们演示过使用高德地图的工具，让他去找饭馆、规划路线什么的，这个都是可以去使用了。如果我们使用 API 来调用 O3 和 O4mini 的话，OpenAI 内部的什么搜索呀，这些工具我们是无法使用的，就差在这了。这是一个比较有趣的点，但是具体怎么用，待会我们来举一个案例。

第二个有趣的点是什么呢？就是跟记忆相结合了。原来我们专门录了一期视频来讲 OpenAI 有了记忆功能，现在它也有记忆功能。于是我就向它提出了要求，我说：“根据你对我的了解，我是个 Youtuber，给我推荐一些适合我的 YouTube 话题，我要去写稿去了。”然后他就开始去搜索，调用搜索工具去搜索去了。搜索完了以后说：“我发现你是专门讲 AI、讲科技、讲流量、讲创投的博主，我发现有哪些哪些话题最近是最新的，适合你去讲。”其中有一个话题呢，叫 TikTok 降低了海外直播带货门槛。原来呢是要 1,000 个粉丝才可以带货，现在 200 粉丝就可以带货了，说这个你看怎么样？我说这个不错。我说：“你根据你对我的了解，给我去写个提纲吧。”然后他就按照我的习惯，给我夸夸把提纲列好了，说 TikTok 是哪天哪天发了一个什么样的文儿，为什么什么东西，写的还很好的一个提纲。在这个过程中引用了我的记忆，调用了搜索，聚集了大量的信息。我再说：“那你再给我补充点数据和观点吧。”一般我是会有一个自己的观点，我说：“我的观点是什么什么，你给我补充进去。”然后呢，我为了论证我的观点。

我还需要哪些数据？然后，夸夸夸又去搜索，搜索完了给我补充进来。做了两次补充以后，这个提纲基本上就完成了，就完完全全可以用了。过几天咱们去讲这个“TikTok降低海外直播带货门槛”这个故事吧，这个还是很有趣的一个点。所以现在真的是每个人都能用上了。

第三个比较好玩的点是什么呢？就是图片推理。这个图片推理是非常非常强的一个点，绝对不是识别图片，然后将文字作为提示词去推理。我们很多人一看图片推理这件事，都是想的说，我们把这个图片识别一下，变成一大堆文字。不是这样。

跟大家举一个案例吧。我今天去潭柘寺了，玩我的无人机。拿我的无人机呢，在潭柘寺的外面，拍了一张俯瞰潭柘寺的全景照片。我就问O3，我说这是哪？这个建筑群的布局是什么样的呀？这个提示词就这样的。问完了以后呢，这个O3就去干活去了。他把这个图片先整个的分析一下，然后呢，放大每一块切割，说这一小块是什么，那一小块什么，把它切成一块一块的。然后对每一块进行识别，而且在切完了以后，还对每一块去调整方向，说这块好像你拍歪了，改一个方向，可能更能认出是什么来。通过这样的一个方式去推理，看那个推理过程，惊讶的我目瞪口呆，我告诉你。

最后告诉我说什么？从这张航拍来看，这是一张典型的依山就势、三层台地式布局的北方佛寺，很像北京西山脚下的潭柘寺。我没有告诉O3这是航拍照片，他就全都认出来了，好聪明。但是注意不要被骗了，照片里面是有Meta data的，就是有一些基础信息的。这个信息包括什么？拍摄时间、分辨率、色彩、空间、光圈、快门、白平衡，都在里头。还有拍摄设备那个里头，写着你是用大疆的什么设备拍的，大疆air 3S。然后呢，这个照片里还写着经纬度，因为大疆的无人机里头是有GPS的，它拍完照片是会把经纬度直接写在照片里的。完完全全可以通过这些Meta data就编出来的。

所以呢，这个到底是真聪明还是假聪明？还是说我把经纬度拎出来，把这个拍摄设备拎出来，就直接搜索一下，就给你出结果了？这个我们要往下看。他呢还给我接着讲，说这个图片是中轴对称的三进院。第一进呢叫山门到天王殿，第二进呢是天王殿到大雄宝殿，第三进呢是大雄宝殿到法华殿和藏经阁。中轴线两侧各有回廊和配殿，比如观音殿、药师殿、僧房、斋堂，左右分布对称，也有现代化的客房和管理用房。

再往后还写了一个特别有趣的东西：底层的停车场与服务中心，通过台阶与甬道与寺内各层相连。右侧的通讯塔，现代建筑。

为后期补建的配套设施，这是不是根据潭柘寺的信息搜索出来的呢？这就是我们要去问的。他到底是真聪明还是假聪明？

潭柘寺最后的一进大殿不叫藏经阁，而是叫毗卢殿。应该是五方佛中间一个，然后后边是东方、西方、南方、北方，一共是五个佛在里面，所以不一样。但是中国寺庙的默认布局呢，最后一层是藏经阁。所以这个并不是直接搜索出来的。如果直接搜潭柘寺的话，他应该写最后一层是毗卢阁。

至于底层的停车场、服务中心、现代通信塔，绝对是图片推理推出来的。因为不会有哪个介绍潭柘寺的网页去把这些东西都给你写在里头，所以还是非常棒的，可以进行图片推理。

有了这些有趣的功能之后，咱们可以通过什么样的方式来使用它呢？现在免费用户无法使用。你说我不愿意交钱，那么O3跟O4mini你使不了。Plus用户，像我这样的一个月20美金的用户，是可以使用的，但是有限制。O3每周50次，我今天大概已经使了有五六次了。O4 mini呢是每天150次，这个应该足够使。如果是每个月200美金的Pro用户，无限量使用。

API依然很昂贵。使用它的API，我可能还要稍微掂量掂量。O3每100万TOKEN的输入是10美金，输出是40美金。O4mini要快一些，也要小一些，它呢每100万TOKEN的输入是1.1美金，输出是4.4美金。应该比在美国部署的DeepSeek R1相差仿佛吧，就是基本上还是可以用的。

这种推理模型呢都是话痨模型，价格还是挺贵的。特别是10美金100万TOKEN输入，40美金100万TOKEN输出，这个非常非常昂贵。再结合上工具调用，图片推理，这个价格就像坐在日本的出租车里，看着计价器跳的那叫一个心惊肉跳。

其他的一些代理，就是这种API代理也已经开始工作了。Open Router或者其他的一些代理都可以使用，价格是相同的。只是呢，目前function call还没接上。为什么要专门强调这个？因为有些人在国内充值OpenAI的API是比较费劲的，像我就是这样。所以我使用OpenAI的API都是通过各种的代理去使用的。

还有一些什么方式可以使用的呢？GitHub Copilot里头是有GPT4 O4 mini的，但是没有GPT O3。它只有这些mini模型，它有O1，但是没有O3上来。O4 mini的话，应该是可以大范围使用的，但是前提你还是付费的。

像我是Github Copilot，99美元一年的会员。所以呢，我现在可以在IDE里边去使用它，Client和Roo Code也可以通过Github Copilot的会员直接去使用GPT-4 mini。那你说Client或者是Roo Code，我自己挂OpenAI的API或者是Open Router的API行不行？没毛病，都可以使，但是你得按TOKEN付费，那个很贵。挂Github Copilot下面的GPT-4 mini的模型的话，你有那个99刀一年的年费，就可以放心的玩耍了。

总结一下，OpenAI现在前进的方向到底是什么样的？它呢正在将各种零散的功能点聚集在一起。其实记忆早就有了，function call早就有了，推理早就有了。他一方面呢，是在拼命的去做强化学习，然后告诉大家现在强化学习scaling law依然管用。你把更多的数据、更多的算力堆进去，强化学习的效果就能起来，没有任何问题，大家好好去买英伟达显卡。另外一方面，它就把各种其他的小功能给你凑起来了，包括记忆、function call、推理、搜索呀，把这些东西给你搁在一块，你看真的好用。

其他各大模型厂商呢，在某些方面可以接近甚至赶超OpenAI，但是综合实力上，OpenAI绝对还是领先的。当OpenAI把各种新功能聚合在一起的时候，绝对是遥遥领先。它在每一个细节点上，可能都会比别人强很多。就像咱们前几天讲过GPT-4O的绘图功能，它虽然说在完整的绘图过程中，它表现力上、艺术感上没有Midjourney强，但是呢，它在文字理解上、文字渲染上，肯定是要比其他所有的这些绘图模型都要强很多的。

GPT-5现在正在路上了，甭管是今年下半年能出来，还是什么时候能出来，我觉得都是值得期待的。到那个时候就不用再去选模型了，你上来以后，他就根据你的问题直接推荐，直接给你反馈了，说我这个应该推理还是不应该推理，应该使用更大的模型还是使用小一些的模型，我应该调用哪些工具，应不应该搜索。这个我觉得还是值得期待的，就像以前我们总讲的，叫total solution，一站式服务。你进来了以后，我给你服务好就完了，至于我到底给你上了几个工具、几个模型，你就甭问了，最后是包你满意。

后边还有Sora，还是有念想。虽然Sora前面翻车了，现在大家都已经把它忘掉了，但是当它把这么多的功能聚集在一起的时候。

什么搜索呀、工具呀、推理，把这些东西跟Sora聚集在一起的时候，可能又会变出一些新的、不一样的东西出来。

Sora当年可是号称叫“世界模型”的。当它跟我们真实世界通过搜索引擎连接在一起的时候，那可能真的就要创造世界了。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

鲶鱼效应搅翻AI江湖：DeepSeek 671B开源来袭，GPT-5和百度文心一言迎巨大挑战！

Luke Fan — Tue, 18 Feb 2025 00:46:01 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲DeepSeek。这条鲶鱼搅浑了水，GPT5要来了，百度也要免费开源了，到底是一个什么样的情况？大模型这个赛道未来会怎么去发展？

DeepSeek呢，算是彻底改变了游戏规则。OpenAI给整个行业挖的坑，到现在呢，还有一些公司没查出来呢。什么坑？就是客户端这个订阅20美金一个月这个坑。这个其实是一个非常失败的商业模式。谷歌到现在还在往外爬，因为谷歌他其实自己不太想爬出来。为什么？因为他一旦爬出来以后的话，谷歌搜索的广告收入就没了，只能在那里头装聋作哑了。Perplexity到现在也还在思考，到底是不是要爬出来。

大家有没有想过一个问题？开源模型，因为DeepSeek是满血版671B的开源模型，它对于OpenAI的伤害，到底是ToB的伤害大，还是ToC的伤害大？这是一个大家值得去思考的事情。虽然现在DeepSeek在很多的C端有非常大的影响力，就是很多的个人去下载这个东西去用去，但其实真正的开源模型影响最大的是B端。我这是一个自己的公司，我是一个政府项目，或者是一个什么样的商业相关的事情，我要去使用大模型的时候，一定是会优先去选择这种完全可控的开源模型，而不是说我去用人家的闭源的，买人家API。因为你一旦是有开源模型的话，你就可以选择完全私有部署，我自己买台服务器往里装就完了。

现在中国卖的特别好的就是DeepSeek一体机。什么叫DeepSeek一体机？就是它一个机器里边给你塞满了，比如说8块或者16块升腾910，华为的这个算力卡，可以把DeepSeek 671B的这样的模型直接塞进去，就是一台机器搞定。但是这机器很贵，这一台机器大概是三四百万人民币。但很多的大企业说，我们愿意去花这个钱。中国的那些大企业，特别是央国企，他们花这种钱还是蛮开心的。花完了以后，华为就可以发挥他们比较擅长的事情。

做这种ToB销售、做大客户销售，剩下的这个我们就不能细说了。所以一旦是有这种完全开源的大模型，而且是跟你这个OpenAI差不多功能的这种大模型的话，对于OpenAI也好，对于谷歌也好，最大的伤害是B端的。C端的其实你说有伤害吗？有，但是C端的人呢，主要是凑个热闹，我们上去看一下就可以了，发现“哎，慢了吧唧不太好使呢”，就跑掉了，也就这样。但是B端真的是差异很大，现在大家都已经开始动起来了。谷歌的Gemini 2.0 Pro已经发出来了，而且谷歌Gemini 2.0，就是Flash、Flash light什么一大堆的版本出来，那是真便宜，而且是比DeepSeek还便宜的一个价格。你不是跟我卷价格吗？我卷的比你还低，现在是谷歌的应对方式。

而山姆·奥特曼的话，也终于要发布他的GPT-5了。这个是路线的一个彻底改变，从去年年底12天连续的挤牙膏，到现在突然说“哎，GPT-4.5要出来了，马上GPT-5也要出来了”，这个转变是非常非常巨大的。而且我相信到目前为止，这个弯应该没有转完，这只是转了其中的一半，剩下的我们还要再等它继续去发布，还有一些新的消息，可能未来一段时间会出来。为什么说这个弯还没有转完呢？因为你还得开源一部分，你光说我4.5和5这事不行。到目前为止，OpenAI到底怎么开源这件事，山姆·奥特曼都没说，这个肯定是有问题的。

而且山姆·奥特曼也好，OpenAI也好，现在已经开始有流量焦虑了，就是他们的流量到底了，靠自然增长涨不上去了。所以他们1,400万美金，跑到超级碗去打广告去了。他们等于进入到下一个阶段了，原来就是我自然增长，再涨上去就完了，现在涨不动了。而且呢，除了出4.5和5之外，还要求什么呢？就是他还说了，我们要开放全部的功能给免费用户使用，不用再去说一定要交钱了。这个是非常大的变化，就是你甭管是GPT-4.5还是GPT-5，什么搜索、什么生成图片，这个东西免费用户都可以用起来。

这个是真的要革自己的命的路子了。GPT-4O以后，其实再往后发展，这个事本身是挺难的。就是普通的这种对话模型，在GPT-4O出来以后，我们就做过这个结论。其实GPT-4到4O之间，主要增加的东西是什么？是语音的部分，是多模态的部分，高级语音功能。为什么涨不上去呢？原因就是你再往上涨，大家其实没法欣赏了。

马上要跟大家见面的GPT-4.5，就是说未来几周就会见面。那么4.5代表的是什么意思？有提升，但是呢，提升又不够大，所以它的名字叫4.5。越往后发展，这个提升就越难被普通大众所感知。你说我今天去跟一个出租车司机聊个天，哎，聊得还挺开心。待会你在这给我做一个博士，我跟他聊天发现聊不到一块去。人家说什么我不懂，我说什么，人家都是像看傻子一样看着我。那这个事肯定是没法整。因为你GPT这种东西从4到4.5或者到5，你变得更聪明了以后，是不是就是我说点什么，对面都像看傻子一样看着我呢？这个就会很痛苦。

而且加入搜索以后的话，其实对于大模型本身，就没有那么高的要求。他只要把我们的内容通过互联网搜索以后，再去进行一个总结归纳的话，他对于模型本身的能力要求，其实已经下降了。还有一个问题是什么？就是越聪明的模型，对于安全和对齐就越费劲。我还记得在GPT-3.5出来的时候，他们就说说，我们这个模型其实训出来一年多了。那这一年多干嘛呢？就是不停的在去做对齐，做安全性的这种防护，不能让人去攻破它呀。而且发出来以后还不停的有人上来说，我奶奶告诉我怎么样，或者是我做了个梦造原子弹了什么，还不停的去绕他。绕了这么多年了以后肯定是攒的，各种各样的防越狱的手段越来越多。

那么现在GPT-4.5可能早就训练出来，但是他就为什么没有办法把它拿出来？就是没法去搞定这个安全措施。原来可能还要再去蘑菇很长时间，内部才能达成一致，说我们把它放出来。现在DeepSeek来了以后说算了，不用费劲了，咱们拿出去用吧。

其实，在Llama出来的时候，OpenAI这边就应该想明白了。就是在这个时候再把它做这个，那么安全其实意义不大。因为有开源的，你这个做的再安全都没有什么意义。

DeepSeek在安全跟对齐这方面呢，有点像拼多多的商品。原来很多人说DeepSeek是AI界的拼多多，这个是有道理的。拼多多的商品有什么特点？能用，这个东西不是说不能用，能用便宜，但是安全性跟稳定性呢，就没有那么讲究。你去拿DeepSeek，特别是DeepSeek的API，基本上是百无禁忌的。一个模型放在那里，那你说这个大模型这样百无禁忌，他有问题，你万一说点不该说的怎么办？

但是你想想，我们今天相当于雇了个人在家里干活。我们希望这个人的道德标准是由我们掌握的，而不是由DeepSeek或者OpenAI，由对方来掌握的。我觉得宁肯找一个百无禁忌的人回来，我们重新给他立规矩，也不要说哎，已经训练好了一个道德规范，在进我们家来。这个还是有区别的。而且现在大模型安全性这一块事，大家都还在摸索，谁也没有搞明白，到底怎么能够让大模型彻底安全下来。现在就是一抓就死，一放就乱的这么一个状态。DeepSeek就属于彻底乱带了，像Claude呀OpenAI，都属于抓的相对来说比较死。

但是我觉得对于很多ToB，就是自己可以去做这个开发的，这些用户来说，我自己把握，你不要指手画脚。GPT4.5这个呢，应该就是OpenAI的最后一个对话模型了，再往后不做了。再往后的所有方向都是向O系列，也就是推理模型的方向前进了。那么GPT5是什么？GPT5其实是不用太期待的一个东西，它呢应该会在几周或者几个月之后发布。这个名字呢应该是逼出来的，就如果没有人逼它，我估计它也就不叫GPT5了。GPT4.5发完就完事了，接着做O3、O4、O5，就这么发下去了。那现在不行了，要改方向，新的方向就是GPT5。那这个名字到底是什么意思呢？其实GP5不是一个模型。

它是一个AI agent的聚合体。他后面有大量的O系列模型，如O1、O3等，这些模型在后面盯着。然后，4.5这样的对话模型也在后面盯着。他呢，是每一次接到一个问题以后，根据用户的意图来判断，说你到底想干嘛，然后再调用不同的模型来解决用户的需求。

很多人使用OpenAI以后说很讨厌，说你这个上面有一个叫模型选择器的东西。你上来以后先要选，我到底是用4回答问题、4o回答问题、4O mini，还是用O1、O3，用哪个去回答问题。选来选去的很麻烦。现在甭选了，我们就统一入口。你就来问，问完了以后我替你选，替你去回答就完事了。你就不用管后边我是怎么调度的了。这个呢，算是又一次指明了方向。

OpenAI说这个话之前，或者山姆·奥特曼说这个话之前，谷歌呢，还是发了一大堆的模型出来。他那个模型叫Gemini 2.0 Flash、Gemini 2.0 Flash light、Gemini 2.0 Pro、Gemini 2.0 Flash thinking，等于是这个系列的模型出了一堆。OpenAI说别费劲，咱们统一接口。而且呢，所有功能都统一放在一起。像去年其实我讲过好多次，就OpenAI这个模型不支持上传图片，那个模型不支持搜索，再了一个模型不支持什么canvas，就是那种画板。每一个都是很别扭。现在说，哎都有，GPT5所有的这些功能，什么搜索、高级语音、多模态生成、生成视频、生成音频、图片识别、文件上传、canvas，统统都放在一起。就是你就不用管它后边儿到底是谁了，我给你搁一块儿完事儿了。这个还是非常棒的一个事情。

所有免费用户都可以使用全部的功能。那你说还有没有人付费呢？付费用户是可以根据付费的情况，获得更聪明的回答，或者是更多步骤的回复。但这个效果怎么样呢？我觉得还有待观察。我现在感觉，OpenAI又在给大家挖坑儿了。就前面它这个一个月20美金，我就觉得是个大坑儿。

免费用户获得这个比较笨的回答，付费用户获得比较聪明的回答。这件事我觉得被人歧视了，总觉得浑身不舒服。当然了，我现在已经准备要退定它了，一个月20美金，可能等到GPT5出来的时候我就退定了。以后呢，就是有钱人获得更聪明的AI服务，穷人的话面对的就是敷衍了事的扑克脸了。未来只有O系的推理模型还会继续发展，这种普通对话模型到4.5到头了，到此结束了。

为什么是走这条路呢？你说我们真的需要那么多工程师吗？真的需要去解决什么全人类的这个疾病问题吗？其实不是。这种推理模型有一个很大的优势是什么？它可以一部分地解决幻觉的问题。有的时候说真话，有的时候说假话，或者是有的时候一本正经胡说八道。这个事大家是受不了的。大家要注意AI犯错误的方式跟人犯错误的方式是完全不一样的。

人类犯错误的方式是什么？就是我们会在不熟悉的领域犯错误，还有什么？在疲惫的状态下容易犯错误。而我状态好的时候可能说的比较顺溜。人呢，在不熟悉的领域或者是疲惫状态不好的时候，情绪能表达出来，他会犹犹豫豫的，说的不是那么肯定。所以大家也比较容易判断你这个答案是不是靠谱。有很多人就他自己也不懂，这个东西到底对不对，但是只看对方的这个语气语调，就能猜出来：“哦，这个事原来你也不太拿准。”

人呢，在被反复询问的时候其实会不耐烦，这都是人的特性。AI正好反过来，它呢是任何时候犯错误的概率都差不多，就是甭管这东西你熟还是不熟，AI其实没有什么状态的问题，他都会犯错，而且犯错误的概率是一样的。而且呢，人犯错误的时候会显得犹疑不定，AI呢不管是不是犯错误都一本正经，所以我们经常说他一本正经胡说八道嘛。

当然AI有一个好处是什么？他被反复询问的时候不会不耐烦。所以推理模型呢，他就可以解决这个问题。一个问题我问你3遍，问你5遍，再拿这些结果进行判断，看看是不是一个靠谱的结果。所以这个就是O系推理模型，大家很努力地再去往前推这个事情的原因。

因为我最近一段时间是 DeepSeek R1 用的比较多。O1 出来，O3 出来，其实我用的都比较少。但是 DeepSeek 出来了以后，我还是很努力的用了一下。我发现就是很多事情，不是一些数学问题、物理问题、工程问题，就是普通的这种生活中的问题，你扔给推理模型去干，效果也挺好的。唯一缺点就是慢，还有一个就是啰里八嗦的。中间上这个思维链这个事是比较讨厌的，其他的都还可以。

再往后呢，就是 API 可能会比较麻烦。现在山姆奥特曼就是说以后 API 也是统一接口，但这个就很麻烦了。为什么？就是你可能问了一个很简单的问题，不定他哪根筋搭错了，直接跳到推理模型那边去干活去了。那你可能这一个问题就直接几千个 TOKEN，上万个 TOKEN 就直接干掉了，而且出了一大堆啰里八嗦的东西，你也不知道他在说什么。这个事是比较讨厌的。所以我估计 API 可能还是分模型去处理的，这个应该是让我们自己去选择。你不能说你替我选完了就直接干了。

所以呢，GPT5 呢其实是一个黑箱子。每个用户提问之前，也不知道会为哪个模型去服务，也不知道会获得多大的算力，或者是推理预算。免费用户获得的服务可能会不太稳定。就是用的人少，没准多给你思考一下；用的人多就拉倒了。就跟我们去医院看病似的，如果一大堆人在外面排着队呢，那大夫肯定可不耐烦了。但是你说哎，我有钱，我去看这个特需门诊，那个大夫肯定脸上笑出花来，说您哪不舒服，慢慢跟你说一下。当然我每次去看病的时候，那个大夫看我一眼说，哎，该减肥了。这个也是让我比较不爽的一个事情了。

现在呢，对于 B 端市场，统一黑箱的这个方式其实并不是一个特别好的办法。为什么？因为弊端市场他肯定还是要先试用，测试完了以后，再去确定说我是不是要去下单。那你现在没有什么可以定制的地方，上来给你一黑箱子，结果你说我弊端市场要测试的时候，遇到一个脑子不太灵光的扑克脸，那这个成单的可能性就会下降很多。统一接口为什么费劲？就是原来……

为什么大家不是做这种统一的接口？原因呢，是这样：就是大模型跟传统软件是不一样的。传统软件是模块化的，大家可以拼来拼去的。大模型呢，是训练完了你就不能拆分拆迭代了。说我训练完一整块，说我把胸间哪一块拆出来改一改行不行？不行，训练完了就是一整块，它是不允许动的。每一个模型训练完了以后，都需要单独的调整，才能够接上各种外挂。这个是大模型跟传统软件之间的一个比较大的差异。传统软件就是模块化随意增减，大模型是一次成型不可分拆。

那么，你说到底是一个诸葛亮厉害，还是三个臭皮匠厉害呢？像我们以前一起合作或者带团队干活的时候，都会理解这件事，就是沟通确认这个成本是很高，效率是很低的。很多事情都是说，哎，干脆一人把他干完了，也比跟很多人商量着做要快很多。所以呢，如果你有一个特别特别强的基座模型，要肯定要比一大堆的模型凑一块干活要顺畅的多。大模型之间的配合呢，其实更像是一堆人商量着干活。就是为什么原来没有统一接口，大家都是一大堆的模型让你去选，这个也是有原因的。

GPT5的这种方式呢，为什么说我感觉它像一个坑呢？这是一种突c的全能型助手，就是你甭管是问他什么问题，他都来给你判断意图，然后进行回答。可以说呢，是像端到端的这种智能助手的方向迈进了一大步。未来呢，给这种端到端的黑盒子做定制开发，或者是和系统集成的话，应该是比较费劲的。为什么呢？就是各种OpenAI基础上搭建的这个系统的话，它的底层会没有那么稳定。就是你每一次把命令扔进去以后，你不知道它会用哪个模型给你回复。比如说你写了5,000字的提示词进去，OpenAI给你回答一个好的，或者叫回答一个阅，已阅，那这个事不就这个哭笑不得了吗？或者是你问他说，哎，明吃什么呀，他给你思考了半天，说哎呀明天是一个什么样的日子，啰里吧嗦给你写了2万字出来，这个就可能会造成一些坑。

那你说统一接口这件事，对OpenAI自己有什么好处呢？有一个巨大的好处。

就是你要再想分析、开解、蒸馏它的模型，就费劲了。原来我们可以逮着O1去蒸馏，蒸馏出来的东西去训练，比如说DeepSeek R1。现在变成了一个统一接口的黑箱子，你说我现在想对你去进行蒸馏，大家想一想这多费劲吧。你不一定哪句话回来一个“已阅”，不一定哪句话回来了，给你回答一大堆乱七八糟事情。这个有点像咱们现在看3D电影，这个3D电影的效果未必好，但是呢，最主要的这个功能是防止盗录。就是我现在拿个手机或者拿个摄像机，在这个电影院里把这个3D电影拍下来，是没用的，出去没法看。所以我觉得统一接口这个事情，未来也许是大方向，但现在的话，应该主要是OpenAI一个防盗措施。

现在呢，商业上统一接口这件事呢，我觉得可能也是个坑。为什么？得屌丝者得天下，明显带有歧视性的这种政策，会把屌丝用户都推给竞争对手的。就像我们现在为什么在国内看病，大家老觉得不爽。你去挂普通号，就是要一堆人在那排队乌泱乌泱的，进去了以后这个大夫极其没有耐心。你每次这样看完了以后，你看旁边那个特需门诊窗明几净，大夫特别耐心的这种诊疗制度的话，你肯定会觉得不爽。所以在这样的一个情况下，免费用户你再怎么使，你都会觉得不舒服的。这玩意叫“不患寡而患不居”呢，这个是应该是有坑。

而且现在OpenAI，虽然号称每年可以降低成本90%，就是说我推理成本会不断下降，原来是10块钱的事儿，过一年就变一块钱了。但是呢，这一次失去的收益，估计不一定少于90%。目前OpenAI的收入75%来自于订阅，就是一个月20美金也好，一个月200美金也好，就是这个钱是占他整个收入的75%的。2024年可能预计他是挣了40亿美金，然后这个钱可能都不用算训练新模型，就是他原来的这个旧模型的这个推理，压根这个40亿美金都未必覆盖的了。到新的一年，他可能大量的订阅就会流失掉，C端用户一定会大量流失。B端用户的话，如果不走开源的路，那么在B端的这个市场上。

面对DeepSeek这种全开源模型，我觉得OpenAI的竞争力是比较差的。而且，如何盈利的问题现在还是需要思考。目前的收入还是很难覆盖公司其实有三大成本（不算人员成本）：第一个是训练成本，第二个是推理成本，第三个是推广成本，也就是获取用户的成本。

训练成本，比如说我招了一大堆科学家回来，来做新模型，我要去收集数据。这个成本是一次性的，我有一个模型可以对外服务了，我就可以一直收钱了。推理成本的话，就是你要让一大堆的GPU在那等着给我们回答问题。推广成本的话，OpenAI在这个超级板上花了1,400万美金，那个就叫推广成本。

正常的一个公司运作下来，应该是训练成本最低，推理成本应该比训练成本高一些，推广成本有可能会比推理成本还要再高一些。但是现在这一块大家还在有争论，为什么？因为原来推广成本最高的一个六小虎，现在快玩不下去了。Kimi花了好多钱去推广，结果发现DeepSeek一出来，完全为他人做嫁衣了。

使用大模型聊天工具这件事上，用户基本上是没有忠诚度的。只要有一个比你好的基座大模型，大家就直接跑了。所以大家也在想说，我是不是不应该花钱去推广，还是应该把这个模型再往前推一步。但是这个事没有地吃后悔药去。后面的话，我估计OpenAI还会有比较大的调整，应该会开源一部分东西出来。你如果不开源的话，对于ToB市场是基本上没有办法的。

说完OpenAI以后，咱们再讲讲李彦宏同学。那真的给大家演绎了一下，什么叫唾面自干。文心一言不但要免费还要开源。李彦宏呢，就属于被OpenAI忽悠瘸了的那个，上来就开始收费，什么都不行。文心一言还比较烂的时候，就找人去收钱，而且呢，一个月是50多块钱，很贵的这个玩意在中国。当然，这坑肯定是他自己愿意跳的嘛。搜索引擎嘛都是这样，因为他后边还有搜索广告输入。你一旦是免费让人用搜索，免费让人用这个东西，那你这个搜索广告收入就没有了。

所以，李彦宏就跳到这坑里去了。如果模型还没有遥遥领先就开始收费的话，那用户肯定是很反感的吧。他现在到底有多少人订阅了文心一言4.0版本？反正我是从来没有用过，也从来没有定过。现在的话，直接就是180度大转弯，文心一言全部的模型都免费，而且直接开放深度搜索功能。而且呢，带有搜索功能的其实是叫文心一言4.0 Turbo的一个版本。带有搜索功能的所有大模型，一般都是有什么Turbo、light呀，或者是快速的Flash呀，有这样的这种标签在上的。就是它实际上是一个中量级的，我估计可能也就是30B或者是70B这样的一个模型，绝不可能是那种几百B的模型。这是文心1.4.0 Turbo的一个版本。他准备呢，在未来几个月陆续发布4.5版本。他到底是陆续发布，还是直接向OpenAI学习，整一个统一接口出来，现在还不确定。而且呢，讲到6月30号，4.5版本就要开源。但是呢，具体4.5版本有几个版本开源，哪些不开源，哪些到现在都没有说。

另外呢，在让人失望这件事上，百度是从来没有让人失望过。我看到新闻以后就好开心的，赶快跑到百度去用一下呗，结果告诉你说不行，你现在还用不了，你要收费。我说不是免费了吗？他说对，我们从4月1号才开始免费的。那天是愚人节，我们要从愚人节那天开始免费。为什么会有这么傲慢的人？你这个免费了就要在愚人节嘲笑我是傻瓜，那天给我来用。今天我上去看了，还要求付费。据说最近一段时间，百度在开会研究怎么退款，因为有些人直接订了一年的，那你没有用掉的这个部分是要给人退钱的。未来到底会不会做统一模型的入口，这个还有待来去看。百度这条路会更加的难走，为什么呢？主要是搜索收入。因为一旦大家转型了，说我们以后都去用AI搜索了，百度的搜索广告输入就没了。现在根本就没有办法去填补这块空白。就算是我们去交这每个月的使用费，他挣那点钱也绝对弥补不了搜索引擎的或者搜索广告的这个输入。

根本就顶不住。所以，一旦流量流向了免费的百度文心一言深度搜索功能的话，百度的命格子就断了。谷歌其实也面临同样的问题。谷歌的处理方式是什么呢？到现在为止，Gemini的客户端还收费，但是呢，AI studio.Google.com，就是Gemini的这个程序员网站，大量的模型是可以免费使用的，最新的模型都在那里使。所以，谷歌是非常矛盾的。通过这个Gemini调用谷歌搜索，这个功能是可以的。我原来算过，具体是一毛多钱还是两毛多钱，我想不起来了，反正你调一次就要给钱，调一次就要给钱。这个到底是不是未来的方式不好说，大家也还在摸索。

Grok3和Llama4应该是在未来几周都会出来。所以我估计呢，2月和3月份应该会非常非常热闹，大家所期待的大模型都会出来。现在还有人说Claude也快出4了，这个事现在大家也在期待看看，他们到底能够做出一个什么样的东西出来。未来的模型市场，会向什么样的方向发展呢？其实核心的问题，到现在为止依然没决掉。什么是核心问题？就是大模型到底咋挣钱。这个事情其实到目前为止，谁也没想明白，特别是C端的钱，到底怎么把它挣回来。因为B端的钱，你一旦有这个彻底开源免费的版本了，这个B端的钱，就基本上跟大模型公司没关系了，后边的就是系统集成公司该去挣这个钱了。因为我们现在已经都有开源、免费的大模型了，我们只要用这个大模型就可以了，剩下的就是，我们去买这个几百万一台的一体机，DeepSeek R1一体机，买的过程中呢没准还可以有些回扣。剩下能够挣的钱就是C端的钱。那么C端到底咋挣钱？是这个广告费吗？还是做电商呢？还是做直播带货还是做什么？这个还是需要未来一段时间大家去思考。

OpenAI想的这个方式，就是给这个免费用户用笨一点的模型，给这个付费用户用聪明一点的模型。这件事呢，反正我觉得，这是OpenAI为整个行业挖的下一个坑，这个大家拭目以待，等这个事情开始跑起来以后。

咱们看看效果到底怎么样。这就是我们今天的第一个故事：鲶鱼已经来了，所有的鱼都得动起来，甭管你乐意不乐意。DeepSeek来了，所有的人就不要再想着在ToB这块能够大捞特捞了。在ToC这一块儿，怎么去寻找新的商业机会和商业模式，才是大家需要去思考的问题。好，这就是我们今天的第一故事。

中国AI力量崛起：DeepSeek如何成为国运级创新的代表，搅动全球AI格局？

Luke Fan — Tue, 11 Feb 2025 12:05:47 +0000

第二个故事：DeepSeek到底是不是国运级的创新呢？国运级创新这个事呢，是游戏科学的创始人兼CEO冯骥他去讲的。DeepSeek是一个国运级的创新。游戏科学，就是黑神话悟空的这个开发商。DeepSeek呢，也确实让美股市值蒸发了很多很多钱。而且还有一位美国的参议员说：“我们要下最严格的法令来禁止DeepSeek。谁敢下载DeepSeek判20年，哪个企业敢去用DeepSeek罚1亿美金。”

这个是个共和党参议员叫Josh Holy，写了一个法案，叫2025年美国人工智能能力与中国脱钩法案。禁止技术交流与使用，禁止美国公民、企业与中国开展任何AI技术合作，包括研发、投资、数据共享等。非美国公民若涉及技术转移，可以驱逐出境。然后切断资本与人才流动，禁止美国资本对中国AI企业投资，并限制美籍科研人员参与中国AI项目。任何与中国高效实验室合作的美国机构将面临重罚。违反本法案的个人将被视为严重犯罪分子，可能影响其移民身份、绿卡申请和入籍资格。美国公司不能直接或间接向中国企业提供AI技术支持或者服务。但是这个法案呢，因为太过极端已经被搁置了。

先讲一下使用DeepSeek的方式到底是什么样的。如果你在美国使用DeepSeek，那千万千万不要去DeepSeek网去挂，那是根本得不到服务的。最好是什么呢？就是去在美国的云主机上去使用。现在DeepSeek自己的网站基本上是半瘫痪状态，聊两句就趴菜。我基本上是第一句能聊，第二句能聊，第三句你再怎么跟他聊都趴。他是这样的一个状态。你可能明天再跟他聊，还可以聊两句。API调用的话非常非常慢。而且呢，现在禁止充值了。整个春节期间，API调用的这个页面就打不开了，把整个API后台给你封掉了。现在的话是后台重新有了，但是不允许充值。现在呢，国内是各种云上都有，国内的是阿里云、腾讯云、华为云。华为云的DeepSeek呢。

通过硅基流动可以使用起来，京东云也整起来了。上面也有DeepSeek、百度智能云。我就不知道，李彦宏怎么会有脸干这个事，前面还发表演说，说开源不如闭源，你们就好好使用闭源就好了。人家DeepSeek来了以后，百度也部署了DeepSeek，也给大家去使用，还要收费。然后，火山引擎，火山引擎是字节跳动的，现在是我的主力服务商了，速度还可以，而且现在限时免费，就是你现在上去使用它的DeepSeek，这些模型是不要钱的。它设置起来相对麻烦一点，就是所有这种云计算厂商，你去设置大模型都比较麻烦，但是比BAT还是要简单。

然后，中国移动、中国联通、中国电信，他们参加的云也都有DeepSeek的部署，也都可以上去用去。360智能云上头也有DeepSeek。海外的话，亚马逊AWS、微软Azure，还有一个叫GMI、Claude、together、grok，但是grok上面部署的是蒸馏模型，它就没有布这个满血模型，together上是有满血模型的。英伟达上面也是有满血模型可以去用的。所以如果你在海外说我想去用这个东西怎么办，你就要去这些平台上去使用了。

DeepSeek的这些概念股，我们一说这个东西，国运之战嘛，他一定是有一些概念股的。首先从港股来看，金山云直接涨停板，我去问我说金山云跟这玩意到底有啥关系，没有任何关系。DeepSeek到现在为止，都没有部署到金山云上去。但是呢，大家觉得，这个云计算一旦有了这种通用的可用的开源大模型以后，一定会涨，所以金山云在港股上就直接涨停板了。美图也涨停了，美图其实跟DeepSeek可以也没什么关系，但是他做AI的嘛。腾讯、阿里、百度都在涨。阅文集团，也就是起点中文，做小说类网站，直接涨停板，为什么？因为推出了使用DeepSeek的作者助手以后，作者可以使用DeepSeek来去写小说，可以进行各种的架构设定，各种的环节设定，效果很好的。

我试了一次用DeepSeek R1这种大推理模型去做各种设定的配置，效果非常好，导致其他科技股也跟着上涨，包括地平线、中国软件国际、微盟、联想和中兴国际。

在A股市场上，第一个上涨的是每日互动。每日互动之所以上涨，是因为它有一个联合创始人叫徐进，这个人曾是九章资本（即换方量化）的股东。然而，他现在应该已经从每日互动离职了，与公司完全没有任何关系，只是蹭了这样一个共同的联合创始人的名头。每日互动表示，未来准备使用DeepSeek的大模型进行一些应用，但目前没有任何直接的关系。

第二个DeepSeek概念股是安凯威。这家公司主要生产录音笔。虽然做录音笔与DeepSeek看似没有直接关系，但录音笔录制的内容需要处理，而安凯威的后台使用的是DeepSeek大模型进行处理，因此安凯威也作为DeepSeek的概念股涨停了。

青云科技和Ucloud也涨停了，因为它们都是专门为企业部署私有云的服务商，它们都部署了DeepSeek，并开始为这些企业提供服务。

还有一个公司叫宝兰德，这家公司是由以前Borland的一帮老同事创业成立的，创始人都是我在Borland的同事。他们在国内起名叫宝兰德，主要从事系统集成项目，底层集成的是DeepSeek大模型，因此也涨停了。

比亚迪这两天也涨停了，但它们与DeepSeek的关系应该没有那么大。比亚迪现在称要发布“天神之眼”，原来讲比亚迪自己准备做大模型，大家不信，但有了DeepSeek以后，大家说比亚迪没准也能做出来，于是开始相信。

万兴科技、360和昆仑万维也都擦边跟涨，特别是360，大概连着涨了两个涨停板。但360这事有些乌龙，它确实部署了DeepSeek，但需要在360纳米AI搜索里边使用。

他是不开放出来给别人用的。周鸿祎这一段时间不停地在喊话凑热闹，上来说：“我要给DeepSeek保驾护航。有黑客去攻击DeepSeek了，我要去提供免费的支持服务，我有什么专线，我怎么去做这个事情。”喊得特别特别热闹。喊完了以后，两个涨停板之后，他是需要出来解释的。360出来发了个公告，说与DeepSeek后边的深度求索公司之间，没有任何业务往来和合作。这个整完了以后，大家就觉得说：“你喊了半天到底在干嘛？”所以我在前面想，攻击DeepSeek的这些美国IP，后边有可能是360吧？但是这个咱们只是说猜测，没有任何事实依据。反正他喊得非常非常欢。

那么，到底什么是国运级的创新呢？让美国暴跌，让中国股票暴涨。而且刚才我们讲的这些，好多都是连着出涨停板的这种股票。这是不是就是国运级的创新了呢？我觉得已经有一些这样的苗头了。第一个就是DeepSeek干了一个很重要的事情，叫统一思想。原来有一大堆的公司、研究所，都在那儿做大模型，像刚才我们讲的中国移动、中国联通、中国电信，三大运营商自己都惦记做自己的大模型。实际上就是一帮人拿着什么Llama呀，拿着这些东西再给他调来调去的。现在别费劲了，我们已经不用再去追究你是不是浪费钱了，是不是把钱揣自己口袋里了。现在有DeepSeek，大家一起使呗。原来那个东西做的没有DeepSeek好，这个也没有什么可值得怪罪的地方。这个钱就相当于打水漂就没了，我们就通通都去使用DeepSeek就完事了。因为谁用DeepSeek谁涨停板，就这么简单的一个问题。那干脆赶快都去用吧。

第二个就是什么？他划时代了。国运级的创新一定是要划时代的。原来是各自为战，大家都在做自己的模型，都在互相比较互相踩，说我这个做的比他哪哪好，他那个呢怎么怎么不行。现在没有了，大家都是DeepSeek。我们原来那个还差一点，不丢人，都变成这样了。那么现在的话，底层用DeepSeek可没毛病。

包括像百度李彦宏这样的人，他都把DeepSeek部署上去了。而且我原来也碰到过华为的人，就是他们的盘古大模型，其实他们也不怎么使。他们在内部其实早早就是DeepSeek。所有大厂都装了。从模型逐鹿中原，进化到模型统一了，底层统一了，一起搞应用就完事了。这个事情，我们现在已经把这步迈过去了。那么他也搅动了国际局势，说东升西降这个扯淡了，这个咱们就开个玩笑。美国股市肯定是被搞得动荡不安了一下，而这几天在慢慢的修复吧。A股跟港股呢，正好赶上春节这几天休市，就是最恐慌那段时间，咱们都休息了。而等开市呢，情绪稳定了，咱们就一起跟着涨就完事了。

那么，DeepSeek之后的这个格局，会是什么样的呢？第一个，国内的六小虎都危险，没有哪一个不危险。大家注意，六小虎里头不包括DeepSeek，因为他原来比较低调，排六小虎的时候没给他排进去。原来你有自己的模型，它算是一个竞争上的加分项。原来你有独立模型，还有一个很高的估值，因为我需要很多的钱去做预训练嘛。现在都不用了，大家都是DeepSeek了。你为什么要有这么高的估值？就有这样的问题。

以DeepSeek V3作为基座模型，用DeepSeek R1直接蒸馏微调迁问，肯定要比他们自己的模型还好使。原来那些必源模型还扭扭捏捏的出来说：“你想私有化部署吗？我再收你点私有化部署的钱吧。”现在DeepSeek直接开源免费了，那你还好意思找人收钱吗？大厂呢，可能还会坚持，但这些小厂就六小虎肯定都完蛋了。

现在各大厂有些呢，还会投进去，比如说千问，就是阿里的千问，其实还是很有价值的。另外一个就是字节的豆包，还会继续往前走。但是腾讯的浑元是不是接着做，这个要看了。华为的盘古大模型估计也可以休息了。至于百度的文新一言，从开始那天就是个笑话，一直笑到最后。

国际上呢，现在各国实际上都在开始进行DeepSeek部署，全都在干这事。英国说我又行了，印度说我也行了。

他们都说我有DeepSeek，我就可以自主创新了。别人一开源，我就自主创新，自主知识产权。这事不光是咱们中国人干，全世界人都是这么看的。有了DeepSeek加持的中国，软件厂商也可以去大杀四方了。因为有了基础模型以后，再往后的事情就是卷了。那卷这个事，他们还是卷不过咱们的。

很多AI agent的公司，都可以自己训练自己的大模型了。比如说Perplexity，比如说Cursor，或者是其他的一些AI agent的公司，现在都可以去搞这件事情。而且他们都是底层，直接挂DeepSeek。很多的AI agent的公司有自己模型了以后，他们就可以去买英伟达的显卡，他就可以去部署自己的云服务了。当大家都开始部署自己大模型的时候，就要去买英伟达。

那你说为什么不去买博通？为什么不去买阿斯克芯片？咱们这稍微的岔开一点点。咱们平时看到的芯片基本上是三个：塞斯克芯片叫CISC，瑞斯克叫RISC，阿斯克呢就是ASIC，这是三个不同的词。博通中间有一段时间涨得很猛，就是因为它做的阿斯克芯片，做推理效果巨好。

什么是ASIC芯片呢？CISC芯片是叫做丰富指令级芯片，就是它的指令非常长，而且指令很多。RISC芯片的话，咱们最常见的RISC芯片就是ARM芯片，手机芯片都是RISC芯片，它叫短指令级芯片，而且它指令很少。而这个ASIC芯片呢，它其实不是固定意义上的这种有IP的芯片，它是什么呢？叫专用集成电路。这个东西有一个特殊的名字，它不是处理器，它叫专用集成电路。谷歌的TPU就属于是ASIC，Grok做的那个叫LPU语言处理模块，它们呢也是ASIC。

博通为什么要涨那么猛？博通涨得猛的原因就是，谷歌也好，亚马逊也好，自己去做这个专业推理芯片的时候，都是博通代为设计，台积电代为生产，大家都是这么来的。所以博通就涨吧。如果大家都集中在一起，就是说我们都是使用亚马逊云、谷歌云、微软云。

他们是有动力去使用ASIC芯片。我专门自己去设计一个新的芯片，然后装在自己的服务器上去。这样的话，我统一来维护。他们有这个动力。但是一旦分散了，你这个部署的是DeepSeek，它部署的Llama，那个部署的是这个微调以后的模型。大家都分散了以后，那就只能用英伟达，就没法使用这个ASIC。这个就非常非常麻烦。为什么？因为ASIC芯片你一旦做出来以后，你需要重新去做适配，重新去做很多兼容性方面的调试。而且做完了以后，你还有很大的可能性不稳定，挂上去以后会出问题。为了最大的稳定性，为了最大的兼容性，就通通都是英伟达。所以为什么说这一步出来以后，英伟达巨大利好。这就是对于国际上的一些影响吧。

那么结论是什么呢？这个DeepSeek到底是一个什么样的创新呢？还记得瓦特发明蒸汽机的故事吗？其实瓦特并没有发明蒸汽机。瓦特干的事情是什么？叫改良蒸汽机。它提升了效率。原来比如说我需要烧4吨煤能干的活，我现在烧一吨煤就干出来了。然后增强了动力。原来这个蒸汽机是上下动的，现在它可以进行转动了。这个动力变得很强，而且稳定运行广泛应用。就是瓦特以后，蒸汽机可以广泛应用。瓦特改良蒸汽机，被视为工业革命的重要里程碑。

那么转过来看，DeepSeek能不能成为像瓦特改良蒸汽机这样的一个重要里程碑呢？至少在中国，DeepSeek肯定是瓦特这样的里程碑了。因为甭管是OpenAI、Gemini还是Claude，它不给你使，那你只能是使用DeepSeek。从国际上看的话，还有机会是谁呢？就是Llama 4。如果今年Llama 4出来，有一个革命性的飞跃，在DeepSeek基础上还能再飞跃一次，那可能Llama 4会成为瓦特发明蒸汽机，或者瓦特改进蒸汽机上的那个里程碑。如果Llama 4出来了以后，跟DeepSeek差不多，那么对于全世界来说，DeepSeek就是整AI革命的这个里程碑了。

就像当年的瓦特改进蒸汽机那样，闭源模型是没有办法参与这种竞争的，这个肯定就不用想了。微软、谷歌他们其实也有开源模型，但都是小模型。微软的模型叫Phi，谷歌的模型叫GEMMA。这两个模型都是小模型，就是在客户手机、PC上使用的，他们是没有这种开源大模型。XAI呢，号称是开源，但是呢，那就是个假开源。到现在Grok 2没出来，开源版本没放出来。而且开源出来以后，他什么也不讲，你上去提任何问题，他不理你，那就是个假开源。

所以，现在唯一有可能能够站住这个里程碑位置的人，除了DeepSeek之外，剩下就是Llama。咱们希望杨立昆也好，扎克伯格也好，再努力努力，多砸一些钱进去，让大家可以看看美国人能不能站住这个里程碑。好，这就是我们今天讲的第二个故事：DeepSeek到底是不是国运级的创新？从我的角度上来说，从中国角度上来说，它应该算是一个国运级的创新了。

阿斯麦崩盘引发市场动荡：AI大模型是否会经历郁金香时刻的泡沫危机？

Luke Fan — Mon, 21 Oct 2024 14:32:55 +0000

大家好，这里是老范讲故事的YouTube频道。我们现在开始讲第一个故事：阿斯麦崩盘。

是不是AI大模型要迎来郁金香时刻？什么是郁金香时刻？就是我们认为有一个大的崩盘即将到来的时候，我们管它叫郁金香时刻。因为当年荷兰人去卖郁金香的时候，就遇到了郁金香崩盘这样的事情。后面每一次大的这种泡沫破裂的时候，你可以认为它是一个郁金香时刻。

那么阿斯麦是怎么崩盘的呢？算是意料之外，情理之中。为什么叫意料之外呢？因为由于某个技术原因或者某一个技术故障，导致了应该是晚一天发布的财报提前一天泄露了。但是呢，这个泄露出来的财报并不是说虚假的或者说有错误的，就是正确的财报，只是他看到的时间稍微早了一点，或者是大家意料之外的这个时间看到了。早看到一天、晚看到一天，里面的数据都不会发生任何变化。

所以呢，算是有一点点意料之外。所谓的意料之外的这个部分，唯一起到的作用就是放大了这个财报的各种情绪。原来财报里边写着我哪块做得不错，哪块做得不好。如果你是按正常的时间去放，大家就按正常的心理状态来看就好了。但是你突然提前泄露了它，那么这个里头一定是有一些奇奇怪怪的东西，大家心理被放大了。

现在呢，股市其实更主要是看未来的。股市不看今天的消息面，不看今天具体的什么，你今天多卖了几个硬盘，明天多卖了几个光刻机，人家是看你未来发展的。这其实也是大妈盘跟机构盘之间的差异。机构盘一般要看你未来三年的这种发展的状态，或者有什么样的新的方向，所以他允许你现在是赔钱的，你未来只要是能够发展的好，他就愿意来买。而大妈盘的话比较情绪化，他不会看那么远的事情，当前有什么变化我当前就要马上见钱，这是不一样的。

而股市里边，特别是欧美股市，机构盘要更重一些。现在阿斯麦提前透露出来的这个财报，它的收入跟利润其实还算是上升的，或者叫又创新高吧。但是呢，未来的订单只有预期值的一半，这个是非常非常吓人的。

因为像阿斯麦这样的光刻机，不是说像手机似的一年造几亿台，它一年大概也就是四五百台，不会太多了。所以，接到多少订单，就决定了未来的生产安排。现在，他只接到了20多亿欧元的订单，大家预期大概能有40多亿，所以差了一半的钱。这个数字让整个市场感觉到异常震惊。而且，仔细去看阿斯麦的财报，还会发现，在上一个季度的收入中，中国的收入占了一半，他有一半的东西都卖给中国了。中国购买的主要是28纳米以上的产品，真正的精密制程或高端制程的设备是不允许卖给我们的。

如果美国不管他，荷兰政府不管他，我估计他未来的订单还是能爆炸的。但是现在这个情况已经没有了。台积电、英特尔都在努力出货，就是要赶快把答应给我的机器交给我，我该付的钱付掉，你该给我的机器装上，再努力做。那么，问题出在哪里呢？韩国和存储市场崩了。韩国原本像三星要买一堆光刻机来用，但现在韩国的出货量没跟上去，未来的订单也不怎么样。

存储市场方面，我刚刚又去看了一下，淘宝上长江存储颗粒的SSD硬盘4T，现在价格已经回落到1,000多一点儿了，最便宜的时候大概能到900多，现在是在往下掉。阿斯麦这一部分的光刻机没有卖出去，未来的订单也就不存在了。

那么，芯片市场到底发生了什么变化呢？手机和电脑的需求其实都没起来，全球的需求相对来说比较疲软。这个锅谁来背呢？这个锅必须是AI来背，没有第二家能背的。因为现在大家能够让他换手机、换电脑的唯一理由就是AI。你现在要用AI手机，要用AI电脑，你要去买iPhone 16，要去买三星的AI手机，要去买谷歌的AI手机，国内的各种安卓手机都要去配AI。这两天，联想在拉着AMD、英特尔的老大、英伟达的老大在开会，就是要去卖AIPC，大家对这些AI手机的期待正在增加。

AI的PC都没有什么购买欲望，没有刺激起来嘛。原因只能是一个，就是AI对于普通用户来说没用。普通的用户没有觉得AI给我解决了什么问题，我需要付很多的钱重新更换设备，必须要来使用这些AI产品，没有。所以这个锅只能是AI来背。

阿斯曼他也在讲，说我们现在所有的逻辑芯片，就是CPU这些东西，存储芯片现在都不行，需求都很差。现在最后的一个亮点是AI了，也就是现在还有人在去买它的光刻机，去做SDM，就是算力卡上面用的这种内存，或者是去做H100、B200，或者是MI300这样的这种算力卡，这个东西还是有需求的。

但是大家要注意一点是什么呢？就是这种AI芯片，它呢很贵，一个H100五万美金，一个B200可能更贵，具体价格我没有去查，但是这种芯片总的量其实是很小的。它跟CPU，比如说高通的CPU、苹果的CPU比起来完全不可比。你想苹果每年要卖掉几亿只手机，PC你像英特尔、AMD每年大概几千万，也还是要出去的。但是你像H100这样的芯片，每年能够有个几十万撑死，应该到不了100万，也就是这种水平。

所以他那个量差得非常非常远。AI的这些东西呢，它可能现在还有很高的需求，但是大家就预测说，崩溃这种事情是带有滞后性的，也许下一个就轮到AI芯片崩了，因为前面是已经把CPU崩掉了，已经把存储芯片崩掉了。AI芯片是不是再过个比如说一年，或者再过个一两个季度就会崩掉，这个大家也在观望。所以他为什么股价就会崩掉。

现在呢，市场上的投资者心理已经站在悬崖边缘上了，因为AI整个的行业来说，投入实在太巨大了，而且看不到任何收益。这个东西呢不怎么挣钱，全世界所有的AI公司都不怎么挣钱。还有一个问题是什么呢？就是AI大家都觉得这就是未来的方向，但是现在AI给整个行业带来的变化是只见裁员，没有看到哪有新的企业快速成长，新的企业爆发，或者是有什么样的公司快速的招人。所以他这个AI会不会说，就是豁楞一下就跑掉了。

或者说，他就一个泡泡就破掉了。大家现在都很担心这件事。现在呢，还有另外一个让大家担心的，AI有可能泡沫破裂的原因是什么？就是H100的租金崩了。H100这种东西呢，是英伟达上一代的算力卡，也是现在的主力算力卡。现在虽然有B200出来了，但是真正用上的人还非常非常少。现在出来进行测试的B200，可能还有一些问题，在交货上还需要再等一等。

H100这样的算力卡，一张是5万美金。原来呢，说你们有人买不起吧，怎么办呢？你们可以租用这些算力卡，像云计算一样，去开一个这种带算力卡的主机，我们去用就完了。英伟达给的建议呢，是4.7美金一小时。去年的供不应求的时候，这个价格涨到了8美金一小时。但是现在呢，这个价格已经降到了两美金一小时，就是已经掉下来了。大家不需要了。

H100按照5年的寿命，5万美金价格，如果降到了3美金一小时以下的话，这个收益率可能就未必划算了。你可能最后挣的钱，还不如你把这钱存银行里收利息，收挣的钱多呢。如果这个价格降到2美元一小时以下，你可能连成本都收不回来。你把这个H100租用一年，收回来的租金不够这块卡钱呢，会出现这样的问题。

怎么又感觉像咱们原来挖矿的感觉？买了4090插在机器里挖矿，以太坊的价格一下跌，然后你觉得，哎呀，这个成本回收的时间又变长了。他现在变成这样的一个状态。而且呢，H100的这种租用的收益，你还不能按这样来算。为什么呢？因为你挖矿，只要把机器开着，它就一直在挖，不会说现在有人挖，待会没人挖，它有开机率的问题。它不会这样的，你只要开着机，它就一直挖。

但是像H100这种东西，你把它买回来以后，没有人租用的时候，它就有利用率啊。你比如说，现在虽然是能够卖到2美金一个小时，但是你可能开机率不足10%，不足20%。那你多少钱你都挣不回来。这个事是非常非常危险的。现在为什么H100的单价会掉得这么厉害呢？这个其实是真正反映到整个大模型。

这个产业整个行业的这种创业热情，现在舍得花钱去训练新模型的公司，其实已经很少了。在早期的时候，大家都愿意说：“我们花钱去训练了个新模型吧。”现在已经不愿意干了。独角兽零一万物的CEO李开复刚刚出来讲了，他说我们一定要继续坚持训练新模型。为什么他会出来讲这样的一个话？因为李开复他们已经好久没有新模型面世了，现在他终于又拿出了一个新模型，这个新模型叫e Lighting。这个模型呢，是一个Moe的模型，在很多的跑分里头已经超过了GPT4O以及GPT4O MINI。

现在又出来开了个发布会，他就讲说训练一次这样的模型需要3-4百万美金，还是很贵的。就是一般的公司你根本就玩不起。你不是独角兽，不是有10亿美金的估值，身上可能有个几亿美金的投资的话，你根本就没法弄这事。你想把这个钱挣回来也挣不回来。就是他们现在这些人，用几百万美金训练了一个模型，像他训练的模型应该还是相对比较小的模型，还不是像open AI那种大模型。那么这三四百万美金，你需要做多少服务能把它挣回来，非常非常难。

现在呢，基础大模型本身的同质化也很严重。open AI的GPT、claude、Gemini这三个模型，你说它到底有多大的差异，其实到最后差异都没有那么大。而且大模型呢，也不是针对普通用户的。他很多的大模型用户最终还是开发者。如果是开发者使用这些大模型的话，那最后这些大模型的竞争就会形成一个很悲观的结果，那就是赢者通吃。谁做的最好大家都去选他。

如果是你面向普通用户了，大家说：“哎呀，这个甭管好不好使，我用习惯了，我不换了。”它会有这个用户忠诚度的问题。但是你一旦是大模型，最后用户是开发者，是B端用户的话，随时有新的人家随时就换掉了。现在很多公司已经停止在训练自己的模型了，比如像Character AI这样的公司，就是说我们自己的模型以后不训了，以后我就用别的了，用Gemini就完事了。

普通人其实就直接聊天就可以了。更进一步的，其实普通人现在用不到现在的大模型。御三家也是跟游戏机似的，御三家OpenAI、Anthropic和谷歌，这三家是算最强的。国内的产品呢，通义千问、Moonshot、Deepseak、Yi，这些其实还是比较常见，我用的还比较多。其他像什么Mini Max呀，还有另外几个主要ToB的产品，基本上没用过。

咱也不止评论开源的这种，或者开放模型吧，Lama呀、Mistra呀，这些也都是可以使用的。当然这里还有一个比较奇葩的是XAI。为什么说它奇葩呢？融钱融的很多，名声也很响，顶上顶着马斯克，手里的算力也足够多。只是呢，现在大家所看到的结果，也仅仅是平台上面的一个聊天窗口，其他什么都没有，什么API啊、什么AI agent呀，所有这些东西它都没有。

号称是开源了Grok1.0的版本，也把这个原代码扔出来了，但是呢，放出来以后也没有任何人再去看他一眼，也没有任何后续的更新，什么都没干。他怕做了这么一样的一个东西出来，所以我觉得最后可能他会比较难看。

那么应用以及对于算力的需求呢，现在其实已经没有那么高了。除了刚才咱们讲的这几家之外，其他人其实用不了多少算力。对于大部分人来说，只要问答一下就行了。但是问答的时候呢，你用推理算力就行了，你并不需要去训练模型的那种算力。这个推理算力的话，有一个卡叫GROQ，用这种卡的效果其实比H100好，它非常便宜，非常高效的把你的推理结果给你送出来。

现在很多的公司，包括谷歌、亚马逊、微软，都在自己定制类似这样的卡。我们不再需要英伟达这些东西了，我们只管去回答人家聊天问题就行了。至于更进一步的开发AI agent呀，这些东西现在还在找方向。虽然很多人觉得这个东西很美，但大规模的使用现在其实并没有那么成熟。至于其他的AI应用方式，RAG这东西其实也没有大家想象的那么美好。

有些人说：“那我们上微调小模型吧。”现在确实这么干的人越来越多了。但是呢，大家要注意，很少有人去把一个比如说405币的模型拿出来微调一下，或者把七十几B的模型拿出来微调一下，很少啊。绝大部分人微调也就是去调这种，比如7B、9B这样的模型，甚至有人去调那个1B的、3B的模型。这种模型调起来的成本是非常低的。你到这种租用H100的平台上去调这种7B的模型，调一次可能花不了几百美金。

所以，对于他们这些做H100租赁的人来说，这个就真的是卖不出去了。因此，这些H100的租金就直接崩掉了。而且还有一个什么原因呢？很多购买H100的人其实买的是期货。什么叫期货？就是去年人家拿了投资，然后就花钱买了，买完了以后一直交不了货在这等。等到现在呢，开始逐步的交付，整个市场容量等于需求在下降，供给在上升，那它价格就只能崩掉。

而且，大模型训练这个事其实并不能一直跑。你只有像OpenAI、Anthropic、谷歌这样的公司，会不停地在去训练大模型。训练大模型这个过程，其实有点像造大炮。我造了一门大炮出来，但是呢，你得不断地开炮。你这一根炮管，你说我可以打500发炮弹，还是打300发炮弹，你把它打掉。你不能说我炮弹造大炮造出来了，炮弹没打两发，以后咱再造一门大炮吧，或者咱们过两天再造一门大炮，然后每天不停地造大炮，这个事不行。

现在大家其实对于算力的要求已经没有那么高了。当这一件事情真正传递到英伟达身上，传递到台积电身上的时候，可能整个AI大模型的这个泡沫就彻底捅破了。现在还没有传递到他们身上，现在还在喊说：“哎呀，我的H100这个订单很好啊，大家都在拼命地买啊。”马斯克说：“我要去买啊。”这两天好像是Oracle说：“我要去买一大堆100回来，大家赶快来使啊。”现在大家还在相信什么？就是谁买了一大堆的这个英伟达显卡，谁的股价就会涨。但是他们并没有想清楚说，你买了这些东西以后，部署到云计算机房，到底能不能用这个东西挣到钱？或者最后价格下滑了以后，是否这个生意依然是划算的？现在大家还没有想到这个事情，但应该很快就会想到。现在呢，整个行业也都比较迷茫。行业的老大OpenAI也没有给出什么新方向。现在，OpenAI还在不断地去训练新的大模型，但是不断训练新模型这件事情肯定是亏钱的。

其他人也不敢停下来。如果停止训练新模型，开始卷应用，可能最终在模型层次就会落后。那么，这有什么问题吗？这个问题很大。因为我们看看历史，云计算也好，广告也好，最后都是赢者通吃。最后剩下的，不管是亚马逊、阿里，还是广告平台上的谷歌、Facebook、苹果，这都是最后的赢者通吃。

他们都是靠说：“我从广告到云计算，再到最前端的应用，还有自己的用户，我要都有，然后才能把整个市场吃下来。”这些大厂是不敢去放弃，说“模型我不做了，我就只管把应用做好。”他们不太敢去干这个事了，因为一旦干这个事，最后就有可能被别人拿捏。人家说：“哎，平台是我的，广告也是我的，或者大模型是我的。我给你用的时候，就给你在里边放一些小的障碍，或者是让你觉得使用得不是那么舒服。我再出一些新的产品的时候跟你竞争，你就竞争不过我。”这个是大家所害怕的。

所以对于巨头来说，他们依然要去训练，但也没有什么方向。OpenAI今年亏了50亿美金，明年预计亏损140亿美金。而且过去五年，据说已经累计亏损了440亿美金。像OpenAI这样的公司，未来一段时间还会亏钱，可能预计到2029年才有可能盈利。现在是2024年，要再过个五年才有可能挣上钱，这个还是路很遥远。

像我们以前去投案子的时候说：“哎，你做个三年的财务规划吧。”人家说：“这玩意咋做？”我说：“你做呗，做完反正我也不看，我知道你是拍脑袋瞎猜的。”你像OpenAI想五年以后盈利，有人信吗？反正你愿意信，你就信就好了。

现在呢，整个行业其实都是非常非常纠结的。要不要继续卷？大模型这个东西看起来很美，但具体到应用的层次上，其实是脱节的。我们前面讲到说，大模型可以改变百分之多少人的工作，可以改变所有的应用，所有的应用环节都值得用大模型重新做一遍。但是到目前为止，没有谁说因为我用大模型重新做了应用以后，我就突飞猛进，我一把就封了，就涨起来了。并没有这样的公司出来，或者说这样的公司，比如说像 Character，大家觉得哎，你在用大模型做一些陪伴类的应用，这个好厉害。然后呢，这公司就不行了，核心团队被谷歌买走了，自己也不再训练自己的模型了。

有人说 Perplexity 很棒啊，人家做这个搜索很好用啊。但是大家看，看看谷歌，看看国内的豆包或者是 Kimi，大家都在往这一条路上挤。最后挤上去以后，他其实没有什么自己优势了，赢者通吃。一定是最后握有大模型的那个公司能够把它干掉。Perplexity 的模型不是他自己的，他的模型是 OpenAI 的。那么在这样的情况下，OpenAI 说来，我做 40 GPT 了，那就没你什么事儿；谷歌 Gemini 说来，我也把这个东西提升进去。那么在这样的情况下，Perplexity 是没法跟他们竞争的。

所以这个呢，现在大家也是非常非常苦恼的一个问题。大家都看到了裁员，但是没有看到新兴行业的崛起。而且这一次裁员呢，跟以前历届的裁员都有巨大的差异。以前裁员，比如说就跟军队裁军似的，他们会干嘛呢？把士兵干掉，把这个有经验的军士长留下来，把军官尽可能的留下来一些。为什么这么裁军呢？就是万一以后打仗，还可以以此为骨干，快速的再建立起新的军队来。但是这一次裁的都是中层管理干部。亚马逊现在已经透露出来，准备在未来一段时间里头裁员 1.4 万名中层管理干部。国内各大厂裁员的重灾区，不是底下干活的人，当然也不是说 35 岁毕业的人，而是什么呢？就是中间沟通环节的职位，不像什么 HRBP 啊，什么这些都重灾区。

把他们都干掉。我们不需要你去沟通了。以后的公司都是扁平化，底下的人用AI把能完成的工作尽量完成，上层的人用AI去尽可能地收集数据，进行判定或者做出决策就完事儿了。不需要中间有一大堆的人去制定规章制度、执行规章制度，然后去进行沟通。这部分的事情通通由AI来干。

现在变成了这样的一个状态，所以未来的大企业可能会更加的扁平化一些。而且现在很多的AI行业的这些公司也在思考问题：我到底是ToB还是ToC？我是给商业用户去做呢，还是给个人用户去做呢？ToB肯定是短期能够挣到钱的，因为商业用户只要是你能给他改变一点点的效率，他就愿意给钱。但是长期这样的公司大概率是会被淘汰的，混不下去的。

那么如果ToC的话，那是真卷不起，太贵了。现在流量都是握在大平台手里面。咱们就以做AI应用、AI桌面应用这一个赛道来看，国内Kimi肯定是做得相当不错的一个应用，而且声音也很响亮。他有多少月活？几百万。豆包6,000万月活。为什么？因为流量在字节跳动手里头，你Kimi想要流量，花钱买去，人家字节跳动说我自己有流量我自己上。当然，豆包也挺好使的，因为我现在每天主力的AI工具就是豆包，还是非常好用的一个东西。

在这个过程中，是没有中间状态的。我要么ToB，要么ToC。现在是不是有可能成为有一些新的中间态？我们来为他服务。现在呢，大家其实也在思考这个问题：什么是中间状态？就是ToB跟ToC的中间状态。我呀，我就是中间状态啊。我们这种人叫什么？叫自由职业者。我既不是B也不是C，我虽然是个个人，但我肯定不是一个大的商业。但是呢，我又不是说用这些AI工具去解决日常娱乐问题，我是用这个工具在上班在挣钱。

所以呢，可能未来的这些AI工具要思考一下，怎么为ToB与ToC中间的这部分人去服务。也许未来会有一些新的不同的方向出来。AI可能会替代80%的工作，这80%的人失业了以后，不会再在未来一段时间里再回到大企业里面去就业。他们可能就会像我一样，成为新的这种叫做自由职业者。这有可能才是未来的一个广大业态。明年呢，有可能是整个AI行业至暗时刻，更多的创业企业会崩盘，就像咱们前面讲的Character AI这样。而且国内的这些AI企业也会有大量崩盘的，这个没有任何办法，因为你花了太多的钱，做了太高的估值，你又挣不到钱，也没有办法解决实际的问题，也没有办法真正的去提高社会效益，这些企业一定会崩。

英伟达的B200交不了货，与台积电现在也在扯皮。这个事本身其实问题并没有那么大，台积电说英伟达，你这用了太多的新技术，给我们的时候又太着急，所以我们做出来的芯片是有问题的。英伟达就是说，台积电你们的技术有毛病，给我的芯片不好，那我们要去晚一些再去交付。这个其实不重要啊，真正重要的是什么？算力需求下降。如果大家发现没有那么多的算力需求了，你把这个卡造出来卖不掉了，这个才叫吓人，这个有可能就会在2025年发生。而且应用如果还是起不来，新的商业模式、新的交易、新的利润还是没有产生的话，那么这个崩盘就必然会到来。

但是呢，我觉得也不用太悲观，崩盘是一定会来的，但是呢，不破不立，必须要经历这次崩盘，最后呢才可以去说再继续往前走。当然最好在这个崩盘的过程中能够保住open AI，不要让这个老大倒下，这个老大倒下，可能整个的行业就爬不起来了。而如果能够保住它的话，那没准未来还是可以说经历一个大的起伏之后再慢慢的起稳回升。

在明年呢，更多的人应该会去做应用，更多的人会去思考新的商业模式。不要再去搞什么狗屁的UBI，就是全民基础收入，那东西搞不通的，不要脱离商品经济的底层逻辑。在这个逻辑上，大家去想有什么新的商业模式，有什么样新的业态。如果80%人失去工作了，都在外面做自由职业者，我们又需要什么样的东西为他们服务，这是明年真正需要想的东西。在这个过程中呢。

我们就要等待新的巨头产生。这个新的巨头有可能是OpenAI，它有可能会指明新的方向，或者说它能够为这80%的人提供新的平台，能够让他们在OpenAI的平台上去盈利、去生活。那么OpenAI就会成为新时代的谷歌。

Anthropic的话比较难，因为他们有可能最后会逃不脱收购，可能被亚马逊直接收掉就算了。谷歌的话，这一次应该不至于掉队，这应该就是上一个时代的微软，虽然没有赶上新的时代，但基本上也跟着了。这就是谷歌在这个时代要扮演的角色。

梅塔做的拉玛，有可能就是这个时代的安卓，所有的开源模型的标准制定者，这就是梅塔在这个时代的定位。在国内，现在看，三家跑得比较快的，一个是阿里，一个是字节跳动，还有一个是Kimi。至于其他的，还需要再努力一些才能被我看到，否则的话看不到他们。而这就是现在的一个状态。

整个AIGC的行业，有可能泡沫会经历一次爆破，但从我个人的观点来看，这一次爆破并不会把整个行业炸翻，但也会重新做一次洗牌。就在明年2025年，应该会重新洗一下，洗完了以后大家再慢慢地往前发展。在这个过程中，一定会有很多的痛苦，很多的动荡会发生。大家一定要安下心来，或者说要坚定信心，继续在AI的这条路上往前走。

而且在走的过程中，也要采取更加理智、更加稳妥的策略，比如小团队以盈利为核心。如果你真能融到钱，再去研究是不是去训练大模型。其实在今年的可能第一季度，三四月份的时候，我们去参加一些创投会的时候，所有的投资人和一些大厂的老大都在讲，现在不要再去训练大模型了，这个已经时代过了。现在训练大模型这件事情，就交给刚才提到的这几家就可以了：OpenAI、Anthropic、谷歌、梅塔、阿里、字节、Kimi。其他人大家努力去找到新的应用就好了。这就是现在由阿斯麦这一次的股价暴跌，我们去聊一下。

说AIGC的泡沫到底是不是该挤一下？好，这就是我们今天的第一条。

番茄小说AI附加条款引发网文作者激烈反击，停更、转场、抗议。小说写手，直面AIGC的第一仗，谁能赢？

Luke Fan — Tue, 30 Jul 2024 00:46:35 +0000

网文作者向AIGC发起了反击。中国最大的网文平台番茄小说，因为在协议里要求网文作者授权他们使用作品进行大模型训练，导致这些作家纷纷退网，纷纷停更，向他们正式发起了反击。

大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲番茄小说的AI附加条款到底是怎么回事。上面写了，任何作者到任何的小说平台上去写小说，都是要跟人家签协议的。说我在你这里写小说，遵守你的规则，你给我分钱。

番茄小说的协议里头呢，就突然多了一个条款，这个条款呢叫做AI附加条款。条款怎么写的？甲方可将签约作品的全部部分内容以及相关信息，包括作品名称、简介、大纲、章节、人物、作者个人信息、封面等数据语料、文本素材等，用于标注合成数据数据库建设、AI人工智能研发、机器学习模型训练、深度合成算法研发等目前已知或未来开发的新技术研发应用领域，包括但不限于：一、用于智能对话、智能文本、图像、视听语音等作品成品的编辑生成转换、深度合成、虚拟现实技术等再研发和应用；二、用于任何技术下的AI人工智能模型训练，或用于生成提供给模型训练的合成数据数据库；三、其他任何新技术研发或应用场景。

注：甲方是番茄小说，乙方为作者。他呢是在这个里边加了这么一段。小说网站跟写手之间呢都会去签这种叫格式合同。什么叫格式合同？就是说我不会一个一个给你谈。我今要到先番茄写小说去了，番茄派一个律师跟我的律师去谈，说这个条款怎么样，没这个啊，就是一个标准合同。愿意就愿意，不愿意拉倒。你说我想改任何一个字，滚，对吧？就是这样的一个状态。

当年呢，我们在盛大电子书的时候，也遇到过这种问题，盛大文学跟所有的作者……

肯定也都签了有类似这样的格式合同。但是，我们当时做电子书的时候，遇到一个什么小奇怪的事情呢？当时签的协议是，我们通过互联网发行他们的内容，我们已经得到授权了。那你说没问题啊，我们做电子书不就行了吗？哎，问题在这了。我们通过互联网网站发行是OK的，但是你通过电子书、通过移动互联网、通过其他的方式再发行呢，这个事是有问题的，没有在合同的范围内。

那当时我们怎么办的呢？我们在电子书里头写了个浏览器，所有再去阅读的呢，我们是通过浏览器直接从网站上进行缓存，这样去使用的。这样我等于又在这个合同的范围内了。这也能够理解到，为什么上面番茄写的这个协议写得这么霸道。哪霸道了？现有的技术我都可以用，未来我在研发任何技术，我也都可以用。至于未来我到底想研发什么，我不知道，但都能用上来。就是包括但不限于这个不限于，就是现在我正在用的，未来的这些，没写进去的，你都得让我去用上去。

所有的律师写协议都是这么写的，把自己的权利写得无限大，把别人的权利写得无限小，所有解释权在自己。协议写得霸气似漏，但这种协议呢，你说有人看吗？没有人看。整个协议非常长，这只是其中的一个很小的权利而已。这个条款什么时候加的？2023年的11月还是12月份加进去的，大家也没注意。一直到今年的7月份，有些人发现了，哎，说这个版本怎么多了一行，或者多了这么一个小模块在里头。这事不行，有人发现了以后，大家就开始在一些作家论坛里讨论这件事情，逐渐发酵。发酵到一个什么程度呢？说我们要去停耕，要去转场，要去抗议。什么意思？就是现在的小说都是连载小说，我写了个30章，50章后边一章一章往下写，我发现有问题了。

那我就停更啊，停止更新了。或者说，我以后不在你这写了，我上其他地方写去，对吧？写小说的网站也不是只有你一家。而且其他各家的小说网站呢，都没有在协议里头增加这样的一个奇怪的条款，只有你番茄小说啊，敢为天下先加进去了。所以大家就开始去抗议。

番茄小说呢，也进行了一定的调整。调整是什么呢？特别有意思啊，他推出了一个流程，就是取消AI授权的一个流程。就是你可以到网站上去申请，说我要去取消这个授权了。他会给你寄一个纸质的合同来，你呢，自己去签字，自己去盖章，然后再给人寄回去。这样你就可以取消这个条款了。

这个合同上写的是什么呢？就是啊，你前面跟我签的这个协议中间这个条款我们把它作废掉，但是其他的协议上的条款依然有效啊。大概就写这样的一个东西。但是呢，它这个里头，有一个特别有意思的附加项，是什么呢？为避免异议，乙方同意，若甲方使用签约作品训练开发新技术，并生成文字内容进行传播使用，乙方不得因此向甲方或其他经甲方授权，使用新技术的第三方主张任何违约或侵权责任。大家看到耍流氓的地方了吧？哎，说你可以不授权给我，但是我用了以后你不能告我。

这个叫取消AI授权条款，一个协议，作者呢，肯定还是不乐意啊，你这不耍流氓吗？很多人就决定要离开啊。但是也有一些新作者说，算了，你学就学吧，反正我们自己也是拿AI去写。也有的人说，我就认了的啊。但是很多觉得自己写的还不错的这些老作者就要纷纷离开了。

这个里边呢，也有一些写手说，我去验证一下，他到底有没有拿我们的作品去训练大模型呢？很多人说，哎，我验证了，他真的干了啊。但是在这里要指出呢，就是这些作者也好，写手也好，他们的验证方法都是非常不严谨的。他们的验证的过程呢……

证明了他们对于AI使用方式的无知。他们怎么验证这件事呢？通过豆包大模型。因为刚才我们讲了，番茄小说后台是字节跳动，这么多大模型里头，谁是字节跳动出的呢？豆包大模型啊。他到豆包大模型里去问，问道：“我的小说写得怎么样？我的小说里头有哪些人物？我的小说的题纲是什么样的？给我总结一下。”问了一堆这种问题，豆包大模型呢，就非常准确地都给他回答出来了。

“你这小说叫什么？主要人物是什么？核心写的是什么东西？有一个什么样的章节？整个的提纲是什么？”都给他拎出来了。于是当时这哥们就惊了，说：“这疯了吧？这我写了半天，付出这么多心血，你怎么就全都给我拎出来了呢？”这里要讲，大模型的训练呢，不是这么简单的。你如果只是使用豆包大模型，直接去问这些问题，他未必可以回答得这么好。而且豆包大模型，实际上在国内各个大模型里头，算是表现比较差的一个。

但是怎么又能回答得这么准确呢？他使用的叫搜索增强的一个技术。正常的工作是这样的：当你去输入某本小说，告诉我是在讲什么的时候，他呢，先做的不是内容生成，而是先到网上去搜索了。搜索完了以后，他找到了你这本书，找到了所有公开的章节，然后对这些内容进行了总结归纳，最后再输出。所以你会看到它非常非常的精确。

那么这位作者呢，也尝试了使用闻信遗言、通一千问，就是百度、阿里这些工具，去搜索他的小说，发现效果也很好，回答的都非常非常精确。他说：“我没有授权他们呀。”但是这实际上是一个搜索结果的总结，跟你是不是授权给别人是没有关系的。这个作者还有一些作品，没有在番茄小说上，他把有一些作品放在其他的小说网站上了。他去问番茄小说：“我那本作品怎么样？”

发现，哎，居然也都说得挺好的啊，说得非常的完整，非常的准确。这个作者说：“你看，我们的小说已经都拿去训练大模型了，这个日子没法过了。”但是呢，整个的验证过程只能说明这个小说的写手并不太了解AI大冒险到底是怎么干活的。现在的AI写作已经带来了一些恐慌了。所有平台实际上都推出了AI写作功能，或者叫AI辅助写作功能，并不是说要给我写本小说，AI吭吭吭给你写去了，不是这样。而是什么呢？他们很多平台推出了叫AI工具箱。在你写小说的时候，可以进行AI扩写。你可以写一个简单的段落，咔一下给你把它写得比较长，这是AI比较擅长的。

包括呢，AI改写。你写的文采不是很好，或者是错别字比较多，说来AI给我去处理一下，它会给你整个的润色一下。包括一些自定义的描写，我现在想描述一下这个山庄非常漂亮，像我们刚才讲的，山庄好漂亮，语言很匮乏。那么你就可以交给AI，它会去给你进行一个比较详尽的描写。包括AI续写，你写了一半的说：“来，把这个场景再接着给我看，写下去。”这个现在AI都已经可以实现了。不光是番茄小说，各个小说平台的网站上都有这种AI工具箱了。

但是这些呢，并没有吓到作者。真正吓到作者的是什么呢？是有人一天上传了200本小说，不是200个字，不是200个章节，是200本。这个事呢，其实并不是AI直接照着大家的小说去写的，这种东西叫AI洗稿，这是完全另外的一套流程，跟你使用什么样的大模型，这个模型是不是使用了你的作品进行训练，已经没有任何关系了。AI洗稿到底是怎么干的呢？AI写稿实际上是使用的AI agent的这种工作流实现。你先指定一本小说，然后呢……

他把这个小说按照章节进行总结归纳，把提纲拎出来。然后再把里面的人物关系、这些主体都拎出来。拎好了以后，他把这些东西填给一个新的作者，说：“来，你现在可以去修改了。”他把这个名字改了，把人名、地名、故事的前后结构因果稍微调整一下以后，等于再生成一个新的提纲。拿到提纲以后，AI按照提纲去生成。通过这样的一个方式，确确实实可以看到这种一天200本的效果。

一个人写小说，不要说写一本了，写一个章节那一天也得坐在那，吭哧瘪肚的写两三个小时。上了AI以后说，一天200本，这是一个多么吓人的事情。现在还有很多人在卖这种提纲，什么意思呢？就是他把一些已经总结好的，先干什么后干什么，启程转合，哪个地方被人欺负了，什么地方在翻转打脸，把所有这些提纲东西写好了。他们拿这玩意儿卖钱，你只需要进去干嘛呢？改名字就行了，张三改成李四，李四改成王五，女主角一定记住叫李柳如烟，其他的随便改。改完了以后，一键生成，一分钟可以生成几千字，速度非常非常快。

一天你说200倍有点夸张，但如果你有一个账号，如果是在本级跑的话，我觉得一天跑个十几二十本是没什么问题的。如果是在云端开很多个账号并行跑的话，是可以出一天200本这样的速度的。

而现在，小说平台已经跟以前不一样了，已经洗过牌了。现在小说平台基本上是大厂的流量厮杀了。我以前在盛大，盛大文学也就是起点，后来起点这套东西卖给了阅文，阅文也上市了，等于在腾讯手底下。那你说当时我们有全中国大概百分之九十几的作者和百分之九十多的更大的一个比例的作品的版权，但现在已经不是这么回事了。

现在排第一的是番茄小说，大概有接近2亿的月活用户，字节跳动是背后的东家。第二名是掌阅，掌阅做阅读器，做小说的手机阅读APP。刚才我们讲的阅读器是电子书，他们大概有1.5亿的用户。这个公司除了他们自己的个人创始人之外，真正的机构股东只有一个，占10%股份的叫字节跳动。这也是字节加的。

然后是QQ阅读、微信读书、起点读书，这都属于腾讯系的。再往后是七猫免费小说，后边是谁呢？是百度。再往后是书旗小说，图书的“书旗帜”的“旗”，这个后边是谁呢？是阿里。

所以现在的整个网文阅读市场基本上是被大巨头们挤干净了。那么作者应该如何跟AI一起前进呢？千万不要想着说我们就不用AI，这个事是不对的。另外，也不要想着不劳而获，认为我在网上报个课，拿着人家的题纲改几个名字，然后命令AI去生成，生成完了以后就去投放，就可以躺着挣钱了。这事也别想。

我反复跟大家讲，面对AI的时候不能退缩，也不能想着不劳而获，这两个永远是错误的。作者真正应该跟AI做的，是一起前进，与AI互补，快速地让AI来完成一些自己不擅长的事情，快速地产出更多的内容。但是绝不是说一天200本。比如说我，还是按原来的这个故事大纲再往前写，故事大纲我自己有一个设定，包括故事的各种深层次含义的设定，我们都把它写好，写完了以后再让AI去帮我们填肉，让AI帮我们去检查，让AI帮我们去润色。这个过程应该是人跟AI一起配合来工作的。

就像Photoshop刚出来的时候，很多传统的设计师是不愿意使用Photoshop的，但是现在他们认为……

使用Photoshop，已经算是设计师的基本技巧了。比起这些使用AIGC的人，还是算原创了。再往后一步，可能使用AIGC的人也算原创了。那种不劳而获的人，才是真正应该去骂的人。或者应该快速地拥抱AI。那么，平台应该如何拥抱AI呢？不是像现在这样，就给大家提供一堆的AI创作工具就完事了，而是什么呢？平台应该会封杀AI洗稿内容，对吧？就像刚才我们讲的，有一个基本的框架了，然后只管在后边改名字就完事了。这是不对的。

其实洗稿这件事，在AI出来之前就有人洗。我们也见过很多的公司，直接把中文系的学生毕业了以后全包下来，坐在那写稿。他们怎么写呢？他们有完整的流程，先看看哪本小说好，完了以后进行提纲的提炼，再进行前后次序的颠倒，然后改名字，再去让人照着这个提纲去写小说。现在呢，只是把这些人的工作替换掉了，由AI来搞定。

但是以前人写稿的小说，都是出现在什么火车站、飞机场、长途汽车站。它就属于是盗版书，他们那种书印的字特别小。现在呢，通过网络去传播，通过微信公众号，通过很多这种私域的方式去传播这种小说。以前大家也知道，这些小说算盗版小说，不敢明着卖。现在平台也是会封杀这些小说的，为什么呢？因为这些小说多了以后，对于平台本身是不利的。你太多的这种喜感小说进来以后，真人作者就全跑了，以后就没有新套路。

大家始终在这里去洗这种最底层套路的东西。你的用户可能也就慢慢流失掉了，留下来的都是一些缺乏购买力的用户。不是说吸引不到人，还是会吸引到一些人，但是这些人就属于三低人群：低年龄、低文化、低收入。你希望他给你创造很多的收益吗？这事是很难的。

平台下一件事该做的是什么呢？就是提升检测工具，这种内容给它识别出来啊，谁是写稿的文啊，谁不是要能认出来。然后呢，版权保护的标准也有待提升。原来这种书因为比较少，所以呢，他可以靠举报来去找到这种盗版书，现在已经不一样啊，这种内容非常多，一天可以生产200本了。那么，他需要靠自动化的方式，光靠一尺道高一丈啊，我们应该可以能够识别这样的洗稿内容。只有原创的新故事，才是真正有价值的东西，也只有真人才能生产出来这种原创的新故事，至少目前为止是这样。

平台还需要干的一件事呢，就是积极的探索新的阅读与交互方式。因为传统的都是说啊，写出小说来大家看，看完了以后，甭管你是去看广告也好，还是去付费也好，平台以此来盈利。现在因为你创造内容更多了嘛，就可以有些新互动模式。是什么呢？比如互动小说如何服务好作者，而作者跟读者之间的界限呢，就会更加模糊一些啊。最早的网文作者其实也都是读者，我们看别人写的很好，我也要写一个，也是这么来的。

那么以后的话，可能这个界限就会更模糊。平台最终所需要的呢，还是有流量，但流量一定是要靠什么？更多的原创故事，你才可以有更高质量的流量回来。所以平台呢，会在AI应用的过程中进行一个平衡路线的选择。他们需要AI来去帮他们创作更多的内容，但同时呢，他们也会限制AI，不能把真正的真人作的内容给他洗掉，把所有真人都洗跑了，这事就没法玩了。

这个呢，就是今天我们讲的网文作者面对中国最大小说平台番茄小说打响了反对AI训练的第一枪的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。