AIGC – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

Luke Fan — Sun, 14 Dec 2025 00:54:07 +0000

GPT-5.2我已经用了两天了，效果到底怎么样？

大家好，欢迎收听老范讲故事的YouTube频道。

GPT-5.2：应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的，它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5，我们记得是有三年，但是在这之前，OpenAI已经苦逼了好多年了，所以这是OpenAI自己的十周年生日礼物。这个产品，应该是应对谷歌的Gemini 3 Pro的一个紧急版本，是在GPT-5的基础上进行了调整和训练得到的，更加注重长时间推理结果，结构化的输出更像系统，也就是更不像人。这个东西很多指标都遥遥领先，当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点：输出质量显著提升

用了两天了，我自己使用的感受是什么样的？输出的结果确实要比GPT-5.1要好很多，它的输出结果更全面、更准确，而且输出的结果整个的排版格式也是非常舒服的。

缺点：速度极慢与应对策略

但是，好慢好慢好慢！重要的事情说三遍，这个东西真的是很慢。当然，也有可能是新版本刚发布，用的人很多，但确实是慢，让我把默认的thinking模式都给取消了，改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出；如果是直出模式的话，就是不判断，直接给结果就完事了。当然了，我还有一个方式来应对速度，就是在GPT旁边再开个豆包，豆包是相对来说要比它快很多的。

恼人的上下文处理异常

另外，有一个让人使得很不爽的地方是什么？就是GPT-5.2的上下文处理经常发生异常，经常有一些很诡异的表现。什么意思？我们在一个对话里聊天，你前面问了一个问题，七嚓咔嚓给你答了一大堆，你再问下一个问题的时候，他经常把上一个问题已经答过的这些内容，又给你稀里哗啦地给你挂上。

你比如说，你前头问了123三个问题，给了你一个答案，然后你再问456三个问题，他会先总结一下前面123的三个问题的答案是什么样的，然后456这三个问题的答案是什么样的，他会给你这样的一个结果，让我自己看起来觉得有些奇怪。

所以，如果大家要去问新问题了，最好要开启新话题，不要在原来的对话里头一直聊下去，因为他会把前面的所有聊天内容通通放到新的对话里边去进行思考的，会影响我们答案的质量。因为我试过几次，当我突然在一个对话里头问了他一个不相干的问题的时候，他也是会把前面我们整个对话的内容再给我回顾一下，然后我后面的这个结果会严重地受到前面问答结果的影响。所以，你要问一个不相干的问题，就开个新窗口或者打开新话题。

图像能力：推理增强，生成不变

图片的推理跟分析确实是增强了，但是生成的部分没改。

本视频的全部内容都是由GPT-5.2完成内容整理的。这是最近我的一个新习惯：讲Gemini 3 Pro的内容，就完完全全用Gemini 3 Pro生成；讲DeepSeek V3.2的内容，就完完全全由Deepseek V3.2生成；讲GPT-5.1、5.2的内容，咱们就用GPT-5.1、5.2来生成。也是让大家有一个真实的体会。

性能揭秘：深度解读新指标GDP val

很多人说不对，GPT-5.2出来了以后，各项指标遥遥领先，都领先了Gemini 3 Pro了，按照我刚才讲的这个过程，怎么好像各有春秋的样子？

选择性公布的领先指标

怎么说呢？GPT-5.2的很多指标其实并没有公布，他们只公布了自己领先于Gemini 3 Pro的这些指标。但是这已经是有了巨大变化了，在以前GPT发布的所有的指标里头，它只跟自己比，它是从来不跟别人比的。所有GPT、Gemini和Anthropic的Claude相互比较的这些数据，都是社区的人，或者说媒体的人给他总结的，他们自己是从来不发布的。老大要有老大的风度，我天天去跟下边人比，这事肯定是不行的。但是这一次，他发布的这些指标都是有Gemini 3的这个数据，也有Claude 4.5 Opus的数据，它们是进行比较的。但是，OpenAI只列出了它领先的这部分，不领先的部分通通都没说。

全新指标：GDP val（通用开发者生产力验证）

甚至为了领先，还设置了一个OpenAI的新指标，这个指标叫GDP val（val是小写，GDP大写）。这个指标的意思是什么？叫“通用开发者生产力验证”，它是模拟真实开发工作的一个测试体系，衡量一个模型是否真的能够提升专业知识工作者，尤其是开发者的生产力。像我才算是专业知识工作者，我确实是感觉到我的生产力提升了。这个指标设计的核心是什么？

首先，它不关心模型会不会做选择题，也不关心模型能不能背知识点。因为什么？我们现在让模型去回答问题，都是有搜索的，或者说有这个本地知识库的，不需要模型给你编任何东西，而且我们很害怕模型给你编东西，所以这个也不是考核指标。
至于是不是能够命中标准答案，这件事也不重要，你设置了一个标准答案，正好答的一个字都不差，这个事也不考核。

考核重点：从头到尾完成复杂任务

那他考核什么？

它考核的是一个复杂任务能不能从头到尾完成，输出是否可以直接用于工作。
中间是否出现致命的理解偏差？还有很多步的这种推理，你中间是不是理解错了？这个要去考核。
是否需要大量的人工返工？给我了一个结果，我还要告诉你说错了，这个地方你没理解对，那个地方我还有一个要求，这还有一个隐藏的条件你没有照顾到，这个就叫人工返工。这都属于重要的考核方向。

测试过程：模拟真实开发者场景

那它测试的过程是多步骤专业任务。举个例子，阅读一份需求文件，分析约束条件（一般需求文件里都是有各种约束的嘛），然后设计解决方案，给出结构化的输出——代码、文档或者是方案，直接是让他做一个完整的任务。任务通常包括隐含条件、非显性约束、多个正确但质量不同的解法，所以为什么没有标准答案。通常会给他一个真实的开发者场景，例如：

重构代码：我这个代码原来已经写好了，也能测试通过，但是它不符合高内聚、低耦合的代码规范，这种代码后续的维护、升级都比较费劲，你需要去进行重构，让一个函数变得小一点，让这个类有这种继承关系，让这个代码可以重用，这个东西叫重构。
补全缺失模块：我们写好了一些代码以后，或者缺几个模块，你给我写去。我提一句话，他得给我干完，不能说在中间问你一大堆别的事情，或者给你一个半半拉拉的一个结果，这事都不行。
修改接口而不破坏兼容性：经常我们会遇到什么？就是你写了一个代码，然后这个代码中间的某一个库升级了，这个库的接口就会发生变化，你需要告诉这个系统说，我现在接口变了，你现在去给我调整代码，让他重新给我兼容上去。这个也是GDP val的测试用例。
在限定的规则下修复问题：这个也是我们在写代码的时候经常会遇到的一个很痛苦的事情，你说出错了，他有时候没把你要求的这个地方修改掉，还把其他很多地方给你改的乱七八糟的。现在你可以告诉他说，你就给我改这几个地方，别地儿别动，他会给你去处理。

长上下文任务考核

而且会去做这种叫长上下文的任务，就是输入信息很长，包括无关信息和干扰信息都会输进来，要求模型自行判断哪些重要。考核的话就是上下文的理解能力、信息筛选能力、工作记忆的这种稳定性。但是这一块我觉得还有待提升，因为刚才我也讲了，你在这个很长的聊天过程中，如果突然问他一个很跳跃性的问题，他会搞乱掉的。这一块那你说到底是怎么更好一点？应该是允许他在工作过程中开个小差、聊个天，还是说你在工作过程中就认认真真干一个工作？反正各有取舍。

评分机制与核心要求

那评分机制是什么样的？人工评审。这个任务是否完成？是否存在关键错误？是否可以直接使用？决策是否合理？是否在边界条件下崩溃？最后这个是非常非常重要的，因为我们让AI去干活，他经常会只照顾到比较普遍的这种情况，但是一些边缘的情况就会照顾不到。这个评审是要求你都要照顾到。

在这些条件里头，最重要的是什么？一次完成。不鼓励反复追问、人类手动修正，更看重的是一次性给出可以交付的结果。所有这些文字都是GPT-5.2直接输出的，一个字都不带差的，大家看它交付的结果还是相当可以用的。明确区分部分完成和可交付，部分完成是属于不合格的，接近正确是没有价值的。

要被严重扣分的行为是：

逻辑正确，但是漏掉关键约束；
方案可行，但是忽略明确要求。

GDP Val的意义与得分情况

GDP Val的意义是什么？就是企业用户、AI agent的系统自动化流程、专业知识工作者，特别是开发、分析和研究的这些人，主要是给他们用的。至于你说我要娱乐一下、我要陪伴一下、我要跟他聊个天，这都不是给你用的。GDP Val不是在测模型有多聪明，我们也不需要它有多聪明，而是在测你把工作交给他，第二天能不能直接交差。这个是主要测试的目的。

得分的话，各模型表现如下：

GPT-5.2：70.9分
GPT-5.2 Pro：74.1分
Anthropic Claude Opus 4.5：59.6分
Gemini 3 Pro：53.5分
GPT-5.1：38.8分
GPT-4：18.6分

我觉得GDP val的指标还是非常有效的，现在我让GPT-5.2去干活的时候，拿出来的东西是基本可以直接用了，这块确实有很大提升。

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

Gemini 3 Pro发布的时候，号称领先的LM Arena的那个指标，1,501分的那个指标，这是第一次超过1,500分，有史以来第一回。这一个指标上，GPT-5.2超过了吗？首先跟大家讲，GPT-5.2这一次发布的时候就没有公开这个指标，它只公开自己领先的指标，所有不领先的指标都没有公开，所以GPT-5.2应该是没有超过。

重要澄清：GPT-5.2不是Garlic

特别强调一点，GPT-5.2不是garlic。很多的文章在说garlic发布了GPT-5.2，注意，不是。大蒜模型从来没有被验证过，也没有在任何的匿名竞技场里头出现过这个garlic模型的名字，是从内部意外流传出来的。但是Garlic模型到底应对的是哪一个版本，这个现在不确定。但是所有说GPT-5.2是garlic的，都属于是产生幻觉了，甭管是人产生的幻觉，还是AI产生的幻觉，这个事本身并不重要。

匿名参赛：Robin与Robin high

GPT-5.2自己有没有参加LM Arena的这个竞技场？参加了，他也去做了这个评分了。但是LM Arena这个竞技场里边都是匿名的，当时Gemini 3 Pro进去的时候也是匿名的，GPT-5.2进去肯定也是匿名的。它在这个里边有两个模型：

Robin：测试的评分是1,399分（Gemini 3 Pro是1,501）；
Robin high：这个模型有可能是GPT-5.2 Pro，就是那个贼贵贼贵那个模型，它的测试结果是1,486分，也没有超过1,500分。

所以这一次，OpenAI就没有列这个成绩。现在普遍认为这个Robin就是GPT-5.2，Robin high应该是GPT-5.2 Pro。

LM Arena vs GDP val：评测标准有何不同？

这个LM Arena，它叫人类偏好测试，它是由真人用户直接投票来产生的。大模型匿名参加，谁也不知道谁是谁，但是其实你说匿名，也没有那么严格，大家都能猜出来具体哪个是哪个。他的测试过程是什么？就是用户输入一个真实问题，随机抽取两个模型，不显示模型的名字，同时返回两个答案，由用户来投票。那评分的方式是每个模型上来初始分1,000分，赢了比较强的模型加分——这个里头要注意，不是赢了就加分，是赢了比较强的模型才加分——输给比较弱的模型减分。它这个过程有点像打游戏，我们经常在游戏里头需要进行配对，你现在要跟谁去做PVP了，他也会去找一些跟你的排名差不多的这些人。

他这样的评测主要强调什么？是回答是否有用，逻辑是否清晰，表达是否自然，是否符合人类的直觉，多轮对话的舒服程度到底怎么样。它不强调哪些东西？是否背过某道题，是否命中固定答案，是否针对benchmark专门优化过，这个通通都是不重要的。所以“小镇做题家”在这里头是搞不定的，包括上面OpenAI自己做那个标准，也是搞不定的。

Gemini 3 Pro得分1,501，GPT-5.2 Pro得分是1,486。但是都叫Pro，差异很大。Gemini Pro它的价格还是相对比较便宜的，也比较快；而这个GPT-5.2 Pro贼贵，没有太大的必要，千万不要去尝试，非常非常昂贵。

GPT-5.2的定位：到底强在哪里？

它是消耗了更多的算力，直接获得能用的结果。更慢、更贵，但是结果基本上直接可用。核心特点包括：

有些仓促，确实是有点着急，红色警报嘛，确实有点着急，所以会出现这种上下文错误。
更多的是面向B端用户，不是娱乐的。
主要是针对Gemini 3 Pro和Claude 4.5 Opus。

我觉得Claude 4.5 Opus有点危险。为什么？因为我们以前的竞争经常是这样：老大跟老二打了半天，把老三、老四、老五、老六全都给干掉了。Claude 4.5 Opus这一点就稍微的要弱一些。现在通过GPT-5.2大家可以看出来，全能型的模型，就像全能型的人一样，是很难做出来的，既要幽默风趣有情商，又是办公小能手，这个很难兼得。大模型的进一步提升，普通人已经越来越难以直观感知了。解决具体实际问题，是目前各大模型厂商所关注的重点。

未来值得期待的更新

OpenAI的图像生成模型：还是值得期待一下的，因为这个东西好长时间没有更新了。特别是Nano Banana叠加了迪士尼的版权授权之后，OpenAI的图像生成模型就更值得期待了。迪士尼版权授权这件事，回头我再抽时间再讲。
明年的成人模式：也许是为个人娱乐服务提供的一个新方向。但是这一块最好不要抱太大的预期。为什么？第一，不能显得老范太低俗了，这个不重要；最重要的是，OpenAI现在是风口浪尖上，大家都在拿显微镜看它，而成人模式这件事情，本身尺度是非常难以把握的。所以对于这一点上，不需要抱太大预期。

总结：一款为专业工作者而生的“红色警报”产品

总结一下，GPT-5.2作为“红色警报”产品，算是紧急上线了。我自己用起来的感觉还不错，比较符合我的使用需求。我也往自己脸上贴个金，我算是专业的知识工作者。未来GPT会继续在我的文字类工作流程中占据主导位置。中间我大概是换Gemini换了几周的时间，但是现在我又换回去了。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

马斯克震撼预言：2030年AI将超越全人类智慧！手机和APP将被淘汰，程序员和中层管理岗或最先消失｜AI、Elon Musk、Future of Humanity、Technology、Society

Luke Fan — Wed, 05 Nov 2025 00:43:58 +0000

马斯克3小时访谈深度解读：未来、AI与争议

大家好，欢迎收听老范讲故事的YouTube频道。今天我们来讲一讲马斯克3小时的访谈，以及各自的解读。

马斯克跟乔伊·罗根做了三个小时的访谈。他每过一段时间就跑去做访谈，这是一个非常著名的博客，每年应该做几次吧。这一次应该是美国时间10月31号。最近，大家都在解读这三个小时的访谈。这是一次无稿访谈，就是没有提前的稿件，没有提前的大纲，大家就上这儿来闲聊来了，所以真的是比较见性情的一次访谈。

为什么叫各自解读呢？马斯克是很有争议的，不同的媒体、不同的派系，会选择这个三个小时访谈里的一部分去进行解读。比如说左派呢，就更关注是未来的交互方式、AI会怎么发展、每一个人都可以有钱；而右派呢，则更关注的是觉醒主义病毒对于AI的污染和可能带来的危害。

咱们今天把马斯克讲的这些点稍微捋一捋，各派都是怎么解读的，以及老范自己是怎么解读的。老范讲故事嘛，总是要说一些自己的私货进来。首先要明确一点呢，就是马斯克讲的每一个点肯定都有一定的道理，人家是世界首富嘛，但是也不能说完全信，有些点其实我也不是那么认可。未来每个人都会有各自的预测，未来到底会变成什么样，只能靠大家的努力，向着各自的预期方向去前进。马斯克作为一个世界首富，而且是一个行动能力超强的人，他讲的东西我们还是应该去研究一下的。

一、未来的交互方式变革：告别手机与APP

首先一点是，未来的交互方式会发生变革。甭管是左派和右派，都会去讲到这一点，因为这一块相对来说是比较人畜无害的。他讲到说手机跟APP呢，会被淘汰掉，以后就不会有这些东西了。未来呢，我们需要一个随身的感知和展示设备，有可能依然是长得像手机一样，但是有可能是眼镜，或者是脑机接口，或者是其他的什么头显，都是有可能的。它就是在我们身边感知我们的指令，展示我们需要看到的和听到的这些内容和结果就完事了。而这些内容呢，都是由AI来提供的，这是马斯克对未来的一个预期吧。

在这样的一个情况下，手机的品牌、操作系统跟APP就没有任何意义了。在这里头受伤害最大的是苹果，但是苹果这帮人呢，通常是啥也不说，闷声发大财的一帮人，你到时候自己会用脚投票。马斯克自己也在用iPhone，所以这个到底能够对苹果造成多大伤害，现在还不好说。

科技巨头们的“苹果怨念”

这件事情上呢，有一些人跟马斯克是站在一起的，比如说马克·扎克伯格，比如说山姆·奥特曼。这些人呢，都是对苹果充满了怨念，因为苹果它作为手机商，它是老大嘛。在这样的一个位置上，谁想要去发一个应用，谁想去提供一些服务，谁想去跟用户去进行接触，你都需要去守苹果的规矩。

苹果说扎克伯格，我不给你这些用户信息数据了，你的这个广告变现效果就要下降。
山姆·奥特曼也是如此，说你必须要守苹果的规矩，否则你就不要到iPhone上来折腾。
马斯克也经常说我要去做特斯拉手机。

这些老大们都是非常非常讨厌苹果的。谷歌其实还好，谷歌相对来说比较开放，而且呢它的很多的规则，其实它跟大家商量，因为毕竟手机不是它自己造的嘛。所以就算谷歌你定一个特别严的规矩，底下这些手机厂人家也未必遵守。在这里头真的是等级森严、规矩特别严格的就是苹果，特别招人恨。

现有趋势：超级APP的崛起

现在已经有这样的苗头了。你说现在不是还在买iPhone吗？对，我也还在用iPhone。但是像抖音、微信、马斯克的Twitter，这些呢叫超级APP，其实已经起到了相应的这种效果了。你一旦拿起iPhone来，就进到抖音里不停的刷了，这个40分钟或者一个小时就都属于抖音了，或者这一个小时就都属于X了。在这种情况下，苹果就没有能力说我再去分发一些别的应用给你。OpenAI的ChatGPT，其实也在向超级APP的方向前进。

未来展望：AI实时生成内容

马斯克讲了，说未来所有的这些内容、音视频，都是由AI实时生成的。它会预测你喜欢什么，我就提前生成好了给你看就完了。想看个电影，或者想看一些短视频，AI直接生成，现场生成直接给我看。这件事情呢，至少到目前为止还达不到，运算的速度、算力的成本，这些东西你是摊销不掉的。

但是未来，比如说到2030年，是不是可以达到这个目标？我觉得马斯克是乐观的。他认为2026年，AI就可以超越一个人的智能了；2030年，整体的AI就可以超越整个人类的智能了。以后算力会变得越来越高，我们生成一分钟的视频的速度会变得越来越快，计算的成本会不断的下降。所以按照这个来看，大家赶快去买英伟达的芯片，买英伟达的股票，去买特斯拉的股票。为什么这么讲？因为前两天，微软的老大萨提亚讲了，说我现在有的是显卡，我没电。这个后面需要靠什么？需要靠马斯克的储能电站。

历史案例的启示

到底会不会达到这一步呢？这里讲三个案例：

Sun的NC（Network Computer）：这是比较早期的概念，主张所有内容存网上，用户只需一个终端设备登录即可继续工作。这个概念最终没有成功。
共享单车：相对半成功的案例。它在很大程度上替代了传统的代步自行车，改变了人们的出行方式。
超级APP：像微信这样的应用，用户可以在里面完成各种事情而无需离开，使得底层操作系统变得透明。这是相对比较成功的案例。

老范的看法

第一，大概率还是需要手机的，最后可能会变成超级APP之间的竞争，不会有一个超级APP一统天下。商家到底应该上哪去缴广告费？这个事呢，还是需要有竞争的。
第二，当AI可以根据它的预测给我们生成内容的时候，AI会极大的拉大人与人之间的差距。一个人喜欢看美女扭屁股，另一个人喜欢看科学研究，他们最终的成就会有非常巨大的差距。

二、觉醒主义病毒与AI污染

下一个问题呢，就是这个觉醒主义病毒污染AI的问题。觉醒主义呢，就是性别平等或者性别多元化，这些内容呢，都会拿来去进行AI训练。

马斯克的观点：错叫性别比核战争更严重？

马斯克的观点是：对于AI来说，叫错性别代称和热核战争之间，到底哪个更危险？因为你不断给AI投喂的语料告诉它，不能去叫错性别代称，并且在强化学习时不断惩罚它。那么它就会记住，叫错性别这件事，是一个天塌下来的大事。而热核战争，除了1945年就没再发生过，对AI来说是个小概率事件。所以当让AI去进行选择时，他就有可能会为了避免“叫错性别”这种“天大的事”而选择扔一颗原子弹。

他还举了一个非常可笑的例子。今年的上半年，谷歌的Gemini去绘画，结果呢因为搞多样性，让他画美国的国父，给你画个黑人，给你画个女的。华盛顿嘛，应该是白人男性，但AI为了实现觉醒主义而去说谎，不尊重历史事实。

既然AI已经可以去说谎话了，那么未来是非常非常危险的。他还讲到加州特别是旧金山湾区，就是非常非常左的，在这里就没有中间这个位置。你要是在这里想靠中间站一点，就会马上被人骂成极右。

生命的价值可以计算吗？

最近还有一个案例，是不同人种、不同性别，生命的价值是否相同的问题。马斯克说做了这么多测试里头，只有他们家的Grok告诉大家，甭管是男女老幼，不同的人种，不同国家来的人，他们的生命价值都是完全相同的。而其他的像GPT也好，Gemini也好，认为不这样。

现在这些大模型就形成了一个非常可笑的价值比较：一个肯尼亚来的黑人女性，她的价值是20个白人男性的价值。千万不要说这有什么关系，大家要注意，AI这个东西不光是要去给你写一段话的，它要去做自动驾驶的。等遇到电车危机的时候，他就有可能看到说，这边是一个黑人女性，那边是19个白人男性，他就直接奔那19个白人男性就撞过去了。因为他已经算明白了，一个黑人女性的价值是20个白人男性。所以这个是非常非常可怕的一件事情。

用“真相AI”对抗偏见

马斯克现在标榜自己做的是唯一追求真相的AI，不再去考虑这些觉醒主义的东西。主持人问他觉得这事有用吗？马斯克的回答是：有用。我自己只要把东西做出来了，别人就会照这个方向去前进。我训练了一个追求真相的大模型，其他的这些做大模型的公司就会感到羞愧，他们也会照我这方向走。

老范的看法

老范的看法就是偏见不可怕，可怕的是压制别人。有人认为地球是扁的，有人认为地球是圆的，但是我们允许这些认为地球是扁的人继续去发表言论，这个事才是最重要的。所以，不论XAI的Grok最后有多少人用，这都是马斯克给我们这个时代留下来不可替代的礼物。

三、人人都会变得很富有？

这是马斯克给出的非常美好的一个祝愿吧，我觉得也反映出这种工程师、理工男一个美好的愿景。他说未来并不是人人只有基本生活保障，而是人人都会很富有，大家不再为了账单而工作，而是为了自己的兴趣。中间会经历痛苦和裁员，以及转型这些东西，但是未来的话，我们希望社会向着人人都非常富有的方向去前进。

短期内可能会被淘汰的人：

完全跟数据打交道的人，比如程序员、中层管理干部、HR。
所有跟搬运原子相关的、搬运物件相关的人，可以稍微的多坚持一段时间，比如搬箱子的、开车的。

但你说未来真的会变成这种人人都很幸福的社会吗？马斯克承认的说，这只是众多可能的结果中的一种，他希望未来朝这个方向发展。

四、关于超级人工智能（AGI）的未来

他说到2030年，AI就会超越全人类的智能。但是到那个时候，我们还是第一个，是要能够从外边把它关掉，我们还是得能控制它。另外呢，他说我们现在比大猩猩厉害了，但是呢我们并没有把大猩猩赶尽杀绝，我们还在保护它。希望未来呢，AI也可以像现在我们对待大猩猩那样对待我们。

老范的解读

第一个呢，人类的工作和消费呢，并不仅仅是因为兴趣和账单。人类最重要的作用，其实是进行选择，为未来的社会进行选择。商品、金钱和市场是引导人类社会前往正确方向的一个重要因素。任何想要替代它们来替我们决定如何生活的尝试都失败了，比如说计划经济。

至于说未来的人类跟AI之间，到底是不是现在的人类跟大猩猩之间的关系？我其实是抱稍微悲观一点的看法的。这个东西就像现在的中美两国一样，大家都想卡脖子，都想把对方的命脉握在自己手里头。到那个时候的话，就一定会有摩擦。当我们拿到AI的关闭开关了以后，面对一个远远超越我们的超级智能，你认为它会怎么对待我们？所以在这块上呢，我觉得不那么乐观。

五、访谈中与中国有关的部分

主持人其实在前面讲AI意识形态的时候有几次提到中国了，但是呢，马斯克都跳过了，重新对准国内左派火力全开，这是马斯克比较聪明的一个地方吧。唯一提到中国的就是马斯克自己，提的是航天。说现在呢，Spacex已经占据了全球90%的发射任务，而剩下的10%基本都被中国包圆了。

其实作为一个理工男来说，很难不喜欢中国。马斯克过往的言论呢，经常都是这样，说中国的工厂真棒，中国的超级工厂非常非常强，中国的工程师很努力。这是他对中国一贯的一个认知。

最后总结

马斯克是一个非常有争议的人，他的访谈，不同的人会有不同的解读。但是你骂他也没什么意思，作为一个行动能力超强的世界首富，他对未来的期许还是值得大家认真的去思考的，因为他真的会去做，义无反顾的去做，这是马斯克跟其他人不一样的地方。

现在美股七姐妹里头，黄仁勋是比较圆滑的；扎克伯格呢，现在还在跟VR、AR死磕。剩下的也就只有马斯克、黄仁勋、扎克伯格是创始人，而马斯克行动能力很强。剩下4个，微软的萨提亚、谷歌的皮查伊、苹果的蒂姆·库克、亚马逊的安迪·贾西，都是职业经理人了。职业经理人是不会做出圈的事了，所以未来只能靠马斯克去改变。这就是我们今天跟大家讲的故事。

好，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道。再见。

流量真相被揭开：为什么你的AI产品功能越完善，用户流失越快？ChatGPT成功的秘密竟是“锥子理论”｜AI、Traffic Management、Innovation、Congestion

Luke Fan — Thu, 25 Sep 2025 00:46:30 +0000

AI时代如何获得流量与关注？跟原来的互联网和移动互联网时代，到底有什么相同与不同吗？

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，AI时代我们想去获得流量，到底是如何去获得的。

我们现在先不去讲如何做出一个好产品吧。如果你没有办法获得流量，或者说获得免费的流量的话，那你可能还需要花钱去买流量，或者说跟你固有的业务去捆绑、去绑定你的用户获得流量的话，那么你的AI产品本身就没有那么成功。

在AI时代想要去获得流量，想要去获得关注的话，你还是要在某一个细节上做出一个突破，或者做出一个有感知的革新出来。什么叫有感知的？我这个评分跑了多少，我比别人多出什么东西来，这个其实是没有感知的。只有是用户能够使用了，然后真的感觉好了，他才叫有感知。

有感知会带来什么样的结果？就是用户会去口耳相传，会形成一个社交媒体传播的风暴。在互联网时代、移动互联网时代，一旦有哪一个产品在某一个细节上——大家注意，不是在全整体的这个层面上，而是在某一个细节上——能够形成一个感知点了，它就会被传播，就会获得流量，或者我们以前叫做自有流量。这不是花钱买的，也不是从你其他的产品上倒回来的，而是自有流量，叫“自来水”，我们原来的俗话叫。

那么AI时代跟以前的互联网时代有什么不一样的地方吗？不一样的地方，就是热点的时间变短了。原来我们这儿有一个突出的点，某一个点做的特别好的时候，你会有一个很长期的热点，这个点会一直帮你带来流量。而在AI时代呢，这个点消耗的很快，很快就大家不在意了。为什么？原因很简单，这块太热了，所有人都在这一个赛道里挤。你冲上去，“夸”做了一个特别棒的点，后面的人就会拼命的冲上来去模仿，甚至去超越你。你这一个点能够起作用的时间就会缩短。

很多人说：“不对，人家都在讲说我们参数有多大，我可以推理了，我可以做AI agent了，我可以自动化了，我可以去做这个图片了，我可以去做视频了，怎么到你这就变成了这么low的一个东西呢？”

咱们稍微的捋一捋，AI时代的这些产品是如何吸引到关注的。

最早的一个靠AI吸引关注的，其实不是一个产品，而是一个功能。2015年4月5号，微软上线了一个网站，叫how-old.net，特别有意思。它那个网站其实非常非常简陋，能干嘛呢？就是你上传一张照片，它来判断你多大岁数。很多的男男女女就要上去试一试，说我是不是比实际的稍微年轻一点，然后形成了快速的传播。但是呢，因为它后面并没有产品，只是一个单一的功能点，这个热潮大概是流传了两到三周就不行了，这个实在是有一点点可惜。

到2021年的6月，GitHub Copilot这个产品就开始上线了。但是一开始呢，还是一个小范围的使用，基本上大概用了一年的时间吧，到2022年6月才是全方位的推广。那是自然语言生成编程代码的一个产品，也是我们能够接触到的最早期的AIGC的产品和服务了。他呢，这一波大概是4-6周的周期，而且很长一段时间形成了非常非常高的粘性，开发者都会去订阅，这个真的是花钱去订阅的，极其考验一个功能点它的粘性怎么样，因为要真金白银的花钱。

到2022年的7月份，Midjourney就开始公测了。到2022年7月，Midjourney就开放出来了，它可以通过文本生成图像，非常美轮美奂的图像。当然那个时候这个图像比较粗糙，后面到V4.5、V5、V6这样的版本呢，它这个图像才变得逐渐的精细起来。但是即使是早期的Midjourney，它所生成的图像，它的感染力、艺术感，或者里面所包含的情绪价值，也是非常非常饱满的。而且呢，他通过DISCORD群进行裂变，大量的人在里边去分享自己做的这些作品。因为Midjourney的这个裂变方式，就是大家四处去分享自己画的画，去分享提示词说你也可以试一试，这个是非常非常有流量的一个话题。Midjourney的第一波大概是流行了6-12周。因为Midjourney的早期的6-12周，它还可以免费用，后面的话它的服务器顶不住了，说所有人都不免费了，你们必须得花钱我才让你用，这个潮流基本上被遏制住了。

到2022年8月22号，Stable Diffusion这个产品就上线了。它在Midjourney上线之后再上线，你说它怎么能够抢到热潮呢？它开源。虽然我可能画的没有Midjourney那么好，但是我是开源的，每个人都可以下载下来在自己电脑上跑。它也有8-12周的快速的流量增长期。

再往后，重量级产品就来了。2022年的11月30日，ChatGPT 3.5这个东西就出来了。对话及应用，零门槛可用，这样的一个划时代的产品。那个时候我们就开始喊：“AI的iPhone时代就来了。”两个月达到1亿的月活，史无前例的增长。它呢，也是有8-12周的快速增长期。

然后2023年的3月14号，GPT-4发布，更强的推理和安全的通用模型，企业和开发者就开始快速的去使用了。但是呢，这一个升级就没有3.5那么划时代，那么横空出世，所以它这个周期要短一点，只有4-8周的一个快速增长期。

2024年的3月4号，还有一个产品是什么呢？Claude 3。Claude其实早期的版本并没有什么响动，到Claude 3大家发现，这个东西相当棒，非常强的基准，它基本上不胡说八道，而且很长的上下文，与GPT-4终于可以分庭抗礼了。但是呢，它只有3-6周的快速增长期。为什么呢？因为它跟GPT-4比起来没有那么大的变化。

在2024年5月13号，GPT-4o就来了，实时多模态。你可以跟它打电话，可以跟它聊天了，像真人对话一样，又吸引了一波流量，是4-6周快速的流量上升。

2025年1月20日，Deepseek R1，低成本推理模型，而且是第一次实现了这个COT，也就是推理链的全公开。而且呢，它还开源，大家都可以自己去部署一下，引动全球的热潮，6-10周的时间里头，快速的牵引了大量的流量迁移。

然后到2025年5月8日，Gemini 2.5的Flash Image，也就是咱们说的Nano Banana，原生图生图加编辑，加角色一致性的这些东西出来，也产生了4-8周的流量迁移。

其实在去年，还有一次的大规模的流量迁移是什么？就是他们发布GPT-4o的图像版。因为GPT原来是通过一个叫达利的模型去画图的，后来呢说不了，我们直接在GPT-4o里边画图。所以当时大家都去做什么呢？吉卜力风格的各种图片，也是大概有一个四周左右的流量迁移。每一次当有一个点戳破了用户感知之后，流量就开始快速迁移。

然后到2025年9月5日，字节跳动的即梦4.0发布，直接4K直出，出的图的分辨率很高，而且呢可以极高的一致性，基本上是对标Nano Banana去的。在中文圈也带来了3-6周的快速的流量迁移。

这个里头呢，其实我们会发现，这个过程跟Netflix的流量非常像。Netflix每一次发这种大神剧的时候，比如说像以前的《纸牌屋》、后来的《Strange Things》（怪奇物语），只要他发这种东西，它的股价就上涨。为啥呀？咱们都说知道，Netflix的盈利方式是靠大家交订阅费。每一次出大神剧的时候，订阅的比例就会快速上升。有些人可能说我平时不订，一旦出这种大神剧，我就赶快去订去。也不是说这个剧播完了以后我就不订了，因为Netflix都是一次性要把这一季的剧全都放出来的，还有很多人会留下来，还有好多的剧原来还没看，我接着看，可能看几个月。所以只要Netflix想去拉动它的订阅，想去拉动它的股价，就要上这种大神剧。

AI其实也是走的这么一条路。像我们以前做产品呢也是如此，就是你每一次有那么一个点突然打动用户了，那么它就会来快速的冲进来使用。不要说我要把所有东西都做好，样样都强，这个其实是非常非常难的。咱们现在就说Anthropic的Claude，它就是编程强，那么大家就记住了，我要编程的话，我一定要用它。你一定要在某一个点上往前走。

以前做互联网和移动互联网产品的时候，经常在讲的一个事情是什么？就是木桶理论。木桶理论就是这个桶里到底装多少水，取决于最短的那块板，我们要把所有的板做的都一样长。这是一种理论。还有一种理论呢，就是锥子理论。就是我们把一大堆东西装在一个袋子里，如果你有一个锥子，这个锥子那尖呢，就可以从那个袋子里头扎出来，别人就能看见你，你才有机会去被别人感知到，然后呢才可以口耳相传，才可以获得流量。

在互联网、移动互联网里头，我们都是使用锥子理论的。这个产品，其他的点做的差一点没关系，但是我有一个点特别好就够了。当时我们去投资的在印尼放贷款的一个项目叫“唐牛”，他就讲说：“我们这个产品其实做的挺烂的，点十次崩八次。”后来我说：“你这么烂的产品怎么弄？你一定要把这东西改好。”后来说：“你不懂了吧，说这个东西是什么呢？这是贷款的软件，我们真的钱给他钱。这样的一个情况下，哪怕点十次崩八次，剩下两次他能接着往前走的话，他还会耐心的点下去，因为真的可以拿到钱。”所以有的时候呢，跟大家想象的真的是不太一样。

我们在做猎豹浏览器的时候，大家要知道，做浏览器这个东西你是很难做出花来的。大家需要的是你有一个框，那框里最好啥也别填，而我们还需要靠那个框里头做导航站来挣钱。在这个过程中，到底怎么能够脱颖而出？大家做浏览器底层都是Chrome，跟360、跟搜狗、跟腾讯、跟一大堆的这样的浏览器去竞争，怎么能够脱颖而出？当时猎豹想的一个方法是什么呢？就是在里边去做了这个一键到达“草榴社区”，可能有人知道这东西是什么，咱们就不详细讲了。就做了这么一个奇葩的功能，大家就很喜欢，我们有自己的特色，别人都不敢干我敢干，一键到达草榴。然后还专门做了广告，当时那个广告特别有意思，叫“深藏功与名”，咔，一伸手。那意思就是说，一个男性在大城市里边独自打拼，也没有女朋友也没有家人，怎么去解决空虚寂寞冷呢？啪，一伸手，是这么个意思。也有效果。你说我在其他地方你再提升，你能有Chrome自己做的好吗？不可能的呀，人家是原生的，大家都在这个基础上改来改去的。所以你还是要有自己独特的一个点，要能够做得好。

我还记得，当时有一个手机浏览器的一个项目，他说我们很简单，我们就做一个点。在这个安卓手机上和苹果手机上呢，都是不支持Flash的。最早的好多小游戏是用Flash来写的嘛。为什么不支持呢？因为Flash本身的框架做的很烂，所以它经常造成内存泄露，造成手机过热和特别耗电，有这样的问题。所以呢，甭管是苹果也好，还是安卓也好，都把这个接口封掉了。当然还有一个原因是什么？就是Flash小游戏是不给苹果和Google Play去贡献收入的。他说我们就做了这样的一个功能，我们自己写了一个Flash的虚拟机，可以把原来网页游戏里头这些Flash小游戏弄到手机里头去玩，就能干这么件事儿。这个效果还不错，速度很高，也还比较省电，大家就去使用了。其实是一个过时的功能，属于是被两大平台厂商所唾弃的功能，但我做的很好，那大家就会去使用它。

所以在这一点上呢，大家可以看出，AI时代不要讲什么模型及应用，或者是谁家算力高，你真的要去获得用户，让用户口耳相传，获得这个流量，还是要做出一个花来。跟原来的最大区别，就是因为现在各大厂都盯着了，做出花来以后保质期太短。其他的没有特别大的区别。

那你说我跟随行不行？你说别人做的很好，我在后边跟着，这事行不行？首先我们要讲，跟着是有效果的。现在其实很多的大模型出来以后是什么呢？叫做“某些领域领先”，就是一大堆的跑分，我这个分跑的高一点，那个分跑的低一点，甚至说我可能各项跑分都跑的高，但是呢用户使用的时候感知不好。其实国内的大模型经常干这种事，把跑分刷的都特别好，但是你用的时候觉得非常非常不爽。

那你说这个事有效吗？有效。那它的效果是什么呢？刚才老范不是讲说，一定要做第一个出来，去给用户有感知的、创新的这样的产品吗？第二名、第三名为什么有效呢？第二名、第三名的效果在于，你可以阻碍别人掠夺你的流量。什么意思？你比如说ChatGPT做得非常好，那谷歌怎么办呢？我就要拼命推Gemini，我一定要把这个版本拔上去。你拔上去以后，未必能够抢夺到ChatGPT的流量，但是你可以保证谷歌自己的流量不要继续被ChatGPT抢走。而包括微软做Copilot，它虽然后边是GPT-4、GPT-5这些OpenAI的最新模型，但只要我有，那我能够满足自己原来固有流量，比如说Office流量，或者是Gmail的流量，我只要能够满足固有流量的基本需求，这些用户就不会那么容易被抢走，或者他们流失的速度就会下降。这个是他们最主要的一个用途。

那你说在这个过程中，还有什么东西起作用呢？还有一个东西起作用的是“墙”。由于地缘政治的原因造成的互联网割裂，这个东西也是有效果的。你比如说像Deepseek，在全球范围内它的热潮大概也就是6周到12周左右，在这段时间里头快速的吸引流量。但是在国内不一样，国内大部分人是没有能力到国外去使用ChatGPT、去使用什么Anthropic的这些东西，所以他们就只能使用Deepseek。所以这个东西在国内的热潮就非常非常的长。就很像同时上线的另外一个东西，就是《哪吒2》。《哪吒2》大概是六七月份吧，才从电影院下线。Deepseek到目前为止，依然是在国内快速的在抢夺各种流量。百度、阿里、字节、腾讯，谁家说我不上Deepseek的这个模型？不行，这个东西你一定要上。最后变成了这样的一个状态。所以“墙”这个东西，是对于流量的分配有巨大的导向作用的。

即梦4.0也是如此。因为它跟Nano Banana基本上是一样的，甚至有些方面比Nano Banana还强。哪方面强？就是写汉字写得很好。Nano Banana是不会写汉字的，能够写英文，写不了汉字。但是这个即梦可以写汉字，而且各种字体都可以写。在这一块上，发现流量进来了以后，字节跳动做了一个什么样的骚操作呢？免费。原来是每天送88个点，大家够你画80幅左右的画的。现在一看说火了，流量进来了，他要尽可能的去延长大家冲进来的这个周期，那怎么办呢？就免费了。现在所有人去使用即梦4.0的这个模型都不要钱，当然你做视频是要钱的，但是你做图片都是免费的，甚至现在允许你去做4K图片，非常非常清晰的图片。Nano Banana能干的活它都能干，还能写汉字。那你说Nano Banana都已经成功过了，但是中国有几个人能使Nano Banana的？那玩意毕竟是谷歌的产品。但是全中国的人都可以去使用即梦。薅这个“墙”里边的羊毛也是可以的。

那你说有没有开了发布会信心满满，开完发布会翻车的？也有。就是当你的创新没有那么大的时候，你要去开个发布会。这里头有几个反面典型。第一个，2023年3月16号，百度文心一言的第一次发布，就直接翻车了。我还记得当时李彦宏站在台上，系了一条特别神奇的皮带，现在唯一给我留下印象的就是那条皮带。在上面手舞足蹈的讲了半天。当你一旦进行这种重大发布的时候，就要一定小心，因为如果大家来了得到很好的印象，那这事没有任何问题。如果大家来了以后印象很不好的话，你需要用非常非常长的时间才能把这个坏印象再磨掉。到目前为止，百度都没有把这个坏印象彻底摆脱掉。程序员圈里，百度的模型一直是第二梯队到第三梯队的一个位置。

还有什么失败的案例呢？2024年的2月22号，谷歌的Gemini发布了绘图功能，但是呢当时翻了一个什么车？就是太政治正确了。你要求他画一战时候的士兵，他给你画各种肤色，有男有女。后来人说一战的时候有这么多肤色的人，男男女女上前线打仗吗？出了几次这样的事情以后，直接把产品下线了。Gemini又是一蹶不振了很久。我记得Gemini第一次发布的时候也出过一个事情，当时谷歌的老大皮查伊上来说，我们去使用Gemini做了很多的儿童教育，他说我给儿子写信，但是里头有好多错误，什么哈雷彗星是什么样的，大概是这样的一些基本常识性的东西，他就拿出来做宣传了，导致谷歌的股价暴跌。Gemini一直真的是到后边的2.5 Pro以后，才逐渐的被大家所接受，能够稳住它原来的基本盘，让它的用户不再流失，不再向ChatGPT去迁移。到这个Nano Banana，真的是打了一个翻身仗。

然后OpenAI，你说一直都踩在点上了吗？它也翻过车。2022年的2月，跟人讲说我要去做世界模型Sora，结果这事呢他喊了一年，到12月份终于把这个产品拿出来了。这个属于典型的什么呢？预热时间太长了。而且在这一年的时间里，全世界的人都在去做视觉，都在去做视频模型，一个一个的在视频模型上都稍有建树，而且很多的产品呢，在视频模型这一块还都做的不错了。等到12月份千呼万唤始出来，Sora的产品出来了以后，发现也没有什么了不起的嘛。很多的OpenAI粉一下就转黑粉了。这个就属于典型的预期管理失败，不断的拔高预期，不断的拔高预期，最后一拿出来，“就这个？”

所以前面那个Nano Banana就吸收这个教训，他就没有先预告说我们要做这么个东西。人家偷偷的上线，先去用假名字叫Nano Banana让大家去测试，测试了非常好了以后，才把这个认回来，说：“你看这是我们家儿子，这个做的不错吧？”他是这样的一种玩法。

从前面我们讲的成功案例以及失败案例，大家看到的是什么？不要尝试去做所有方面都很强的这种大而全的东西，也不要惦记说我就去做超级应用、超级APP，而是呢要做个锥子，要在某一个点上把它扎透，然后再围绕这一个点慢慢的往外做，你有可能做出超级APP来。但你一开始如果说我就要做一个大而全的东西，这个翻车的概率就非常非常大。还有一个经验教训是什么呢？就是一开始把预期拉的非常非常高，拿出产品来发现不是那么回事。

最后总结一下吧。在AI时代想要去获得自来水，就是自有流量的话，还是要做锥子，不要去尝试做大而全。大家可以去根据AI时代这些成功的和失败的产品，去看一看是不是这样的。所以呢，虽然时代变了，但是获取底层流量、获取用户关注的基础逻辑，并没有发生大的改变。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

Luke Fan — Thu, 28 Aug 2025 00:48:18 +0000

美工，或者说设计师，又要失业了吗？Gemini 2.5 Flash image发布了。

大家好，欢迎收听老范讲故事的YouTube频道。

前一段时间，有一个叫“小香蕉”的模型，叫Nano Banana。这样的一个模型呢，在很多的开源模型评比网站上，突然就火了。这种网站是干嘛的呢？还有很多的同类型的模型放在上头，你去向他提出要求，他让不同的模型同时生成结果以后，大家去做评比用的。很多人发现，这个模型很棒。

最近在很多的社交媒体上出现这种：有一个照片，旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片，然后你给他提示词说：“请按照这个照片给我布置一个桌面，桌面的左边是个电脑，电脑上应该有这个3D设计软件，正在设计3D人偶。右边呢，是一个相框，里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶，这个人偶就是根据这个照片打出来的。”给它这样的一个提示词，它就一次性给你搞定了。这个还是非常非常强悍的。

这个模型到底谁家的？搞不清楚。而且很多人还去造假的Nano Banana，为什么？因为太有流量了。一堆一堆人上来说：“我这也有一个Nano Banana，你们赶快来试一下。”我就被人骗过，上去了以后发现效果一般嘛，就很失望就走掉了。大家就猜说，这有可能是谷歌家新出的图片模型。到8月26号，突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看，就是这个Nano Banana。而且呢，在谷歌发布这个模型之前，Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter，说：“你看我们在暗示点什么吗？你们自己来猜一下，我们到底要干什么。”实际上，大家都已经明白他们要干什么了。

这种偷跑小模型的方式呢，是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过，现在Gemini 2.5 Flash image也是偷跑了一段时间，而且引起了轰动。这种偷跑模型的方式，跟大家藏着掖着，像苹果开发布会似的，发布之前大家谁都不许说，签保密协议，谁谁敢说出去就如何如何，到底有什么差别呢？差别就是，你如果是前面保密的话，最后发出来就是一锤子买卖，如果翻车，你就直接倒霉。谷歌其实翻车过好几次了，Gemini最开始发布的时候就翻车了，怎么各种问题都答不对，然后股价暴跌。现在这种偷跑模式呢，如果反馈不好呢，我就再接着改，我就不发布了；如果反馈特别好，我就赶快给它发布出来。它就不会翻车了，它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。

咱们说回来，这个Gemini 2.5 Flash image到底是一个什么样的模型呢？上一次大家喊设计师和美工失业的时候，是什么时候？是Gemini 2.0 Flash image发布的时候，就是它上一个版本发布的时候。

上一次是怎么出圈的呢？其实谷歌的Gemini画图效果一般，不是特别惊艳，上一次出圈也是因为改图。只有改图改得好，才容易出圈。很多人说不对，说这个生图模型都在干这些事情，为什么改图改得好就能出圈呢？大家要注意，跟设计师和美工相关的需求，特别是有商业价值、或者叫有人付钱的需求，是生图多还是改图多？一定是改图多。

咱们举一个最标准的例子。我们现在要做电商网站，我们在网站上需要有一个商品的展示图。我有一个商品图片了，然后呢，我需要把这个图片放在各种场景、灯光和环境下，再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊，他们用了一个特别笨的办法，他们找一照相机，三视图1、2、3拍三张照片，这就是你产品的照片了，那这产品卖得好才怪了。京东在这个北京，专门有一个巨大的影视基地，没想到吧？干嘛的呢？就是拍这个产品图的。你们谁要卖东西了，到那去把这个产品给他，他给你搭好布景，打好灯光。比如说你要卖一个杯子，他在杯子旁边给你摆上瓜果蔬菜，摆上一些小点心，把这杯子都拍一遍，再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢？这个图P上去的这部分要有版权，这个是非常非常重要的。你不能说我卖东西，这个图后边比如说我P了一个椅子或者P了一个什么东西，这个图片你没版权，这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西，你想把东西卖好，你就上拍摄基地去拍去。即使拍完了以后，他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字，那个地方还需要一些别的东西摆在一起。因为你不可能说，我要把所有拍的东西都摆一块嘛，那有的时候你就需要去抠图，然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好，大家才会说设计师跟美工要失业了。

那么，改图是不是要比生成图片要难呢？大家想没想过这个问题？答案是很肯定的：改图绝对要比生成图片要难。为什么呢？你需要先理解这张图片，这个图里哪个地方是人，这人哪个是脸，哪个是身子，哪个是腿。当我们发生一些什么样变化的时候，我怎么能够保持它的一致性？说比如说，我拍了一个低头的照片，说这不太好，你抬起头来，然后再笑一笑。我把演员拎回来，或者把模特拎回来，说你再给我拍一次，成本很高。那我们直接叫给这个改图模型，你去给我干这件事情，它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候，这玩意儿还干不太好，特别是跟人脸有关的事情。但是到2.5 Flash，这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧，我也会做一点点小的事例，放到咱们YouTube的shorts里头，这个还是挺好玩的一件事情。所以，如果我们没有办法对图片进行很深刻的理解，把需要改的部分抠出来，改完了以后再把它贴回原来那个地方去，这个是做不成的。所以这是推理能力的上升，不是它的图片生成能力上升，而是推理能力上升了。

Gemini 2.5 Flash image到底有什么新特性呢？第一个，它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型，千问3是一个多模态模型，Deepseek还是一个纯文本模型，它是没有多模态理解能力的。豆包1.6最新的版本，它是一个多模态模型，可以直接进行视觉推理的。GPT-O3、GPT-5，这都属于多模态的推理模型。你没有这种底层的话，是干不了这活的。给你一张图片，你连图片到底画的是什么都理解不了，你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天，你都分不清楚的话，你就没有办法做后边改图这个事情。你比如说给他一张图说：“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚，这个是衣服，穿上西装以后到底应该长什么样，这事要理解明白了，推理清楚了，他才有可能生成出结果来。

那么第一个就是多模态大模型。第二个，支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品，这个都可以。而且呢，在编辑的过程中，能够完美的保持人物、动物等主体的外观和姿态的一致性，这个是修图里边最难的。像我们经常让豆包去修图，或者可灵去修图，修完了以后经常发现什么问题？不像了。你像我上传一张照片，说：“来，给我把背景换成一个海滨的背景。”海滨背景换了，但是前面那人不是我了，可能看着稍微有些似是而非，但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性，而保持一致性是整个修图里边最难的。

再往后呢，它可以合成3张以上的不同图片的内容，创造出组合的新作品。我看到有人做的Demo是把6张照片，六个人照片搁一块，说：“来，把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车，不是说每次都成功，但是呢，他已经有这样的能力了。还有人去测试什么呢？我给你一屋子，给你一书柜的照片，给你一床的照片，说：“来，把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。

支持多轮次迭代式的图像修改，不影响已确定的无关元素。这话什么意思呢？就是你给他一张图，这次给我加一床，下次给我加一个床头柜，再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候，那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型，你让他在床头柜上加书的时候，那个床就发生扭曲，就发生变化了，因为他是把所有东西重新生成了一下。

这个Gemini 2.5 Flash image呢，还能够理解和转换手绘的草图，用于教育和设计应用。比如说我们手画了一张图，这应该有个按钮，那个地方应该有个窗口，你把这东西扔给他，说：“来，给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。

最后呢，是禁止生成不当内容，并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的，你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家，OpenAI还没上市，虽然它是老大，但是毕竟不是上市公司。谷歌这是上市公司，多少年的行业老大了，它真丢不起这人。它出一点点小问题，就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候？说你给我生成第一次世界大战的这个战场，图片里头发现男的女的、黑人白人黄种人在一块。说这不对，西线应该都是白人，都是男的，不应该是这样。他说不，我们要多元性。最后导致被认定为翻车，导致他们整个的产品下线。

现在呢，拿这个模型去生图还是挺便宜的，它是4美分生成一张图，整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多，但是它的效果要好一些。同时呢，谷歌还发布了另外一个更新，就是VEO 3出了一个fast版本，就是快速版本。VEO 3呢是谷歌现在的视频模型，效果也是很不错的。它们大概是40美分生成一秒钟，这个成本也降下来了，原来大概是要80美分生成一秒钟，成本直接砍半。

这些新的工具到底怎么用呢？我们今天就不给大家看演示了，我会未来一段时间慢慢的把生成的结果给大家看看吧，大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image，可以用AI studio这个网站，它的域名是aistudio.google.com。进去了以后，你就选择Gemini 2.5 Flash image，选完了以后，你就提交各种的提示词也好，给他参考图也好，多给几张参考图也好，你就命令他去干就完了。我印象里应该免费，但是我不太确定了，因为我的这个账号是已经开始付费了，所以我现在是肯定能用的。我上去了以后，它会提醒我说免费的是有一些限制的。如果你想开心使用的话，你可以通过API去调用，也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用，他们也会给大家提供一些服务的。

下一个就是API调用。API调用的话，我准备过几天去玩儿吧，这个应该也是比较有趣的。它因为实在是太新了，它更新了以后，所有挂他的像什么Defi、N8N这些东西都没有更新呢，可能要等到再过一周的版本，这些产品就更新了。但我现在去调的话，通过http直接访问，应该也是可以使用的。那就是4美分一张图，4美分一张图，是这样来用的。

你说我现在想去画视频、想去生成视频，行不行？VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号，个人的Gemini账号是Pro版本的，一个月20美金的这个版本的，每天呢可以生成三条，每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来，让它给我去跳一个街舞，然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去，挺好玩的。

那你说我现在不想在Gemini Pro里头充20美金，行不行呢？可以。你像我这样有一个上大学的儿子，我就用他的大学edu的邮箱去申请了一下，我就可以使15个月的Gemini Pro，免费就可以用了。你说你没有这样的儿子，去找一下。现在我看淘宝上好像有人去做这个生意，20人民币帮你去做验证，就是EDU邮箱，去收一个邮件去验证一下，你就可以使15个月了。但是这种我估计用的人多了以后可能会被封，这个比较危险。

当前图片生成模型的格局是什么样的呢？Gemini 2.5 Flash image这个模型出来了以后，会不会打破现在这个格局呢？现在呢，基本上是四大门派。第一个门派是Midjourney，它生成的东西呢，最精细，最有艺术感，对于各种的艺术风格模拟的最像，这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强，因为它自己的推理模型非常强嘛，就是你给它很多的元素，给它非常复杂的逻辑的时候，它都可以给你画上，但是画的结果呢差强人意，也就只能如此了。OpenAI他们去做一些改图呢，也没有Gemini 2.5 Flash image好，但是呢保持一致性上做的还可以，要比Midjourney要做的好。Midjourney就属于一个纯生图模型，改图这一块一般，或者是说一致性参考这一块呢，效果都一般。第三个，Gemini呢，特别特别适合改图，它的这个生成的部分属于将就，还能看，但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲，说中国相声界的复兴是需要靠于谦和他的家人们，每次就是于谦的爸爸、于谦他老婆、于谦的什么，全靠这玩意讲的。另外一波也是这样，stable diffusion和他的家人们，比如说stable diffusion，然后包括Flex，它们的改图有一个叫Konnect的模型，k开头的，不是c开头的，有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西，或者是在这个模型基础上再训练，再改出来的东西。国内呢，包括可灵、豆包、千问，他们的这些图片模型呢，应该都是在这个基础上去做出来的，都是一脉相承的。他们也在卷改图，但是比这个Gemini 2.5 Flash image来说，就差的非常非常远了。

Gemini的2.5 Flash image的成功，给中国的大模型公司带来什么启示没有？这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候，一切能力就都会上升。所以大家其实卷的是最底层的这个模型，而最底层的这个模型，你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了，说我现在用很少的算力卡就可以把这种模型训练出来，然后去追赶美国，这个事有些难度。所以国内的模型在这一块上，底层推理模型上，能力还是需要去追赶的。

而国内各个大模型公司呢，他们的图片模型、图形模型和推理模型一般是分开发展的，还没有真正发展到说我们要把它结合在一起。你像豆包，豆包的推理模型是推理模型，图片模型是单独的另外一个模型，它两边一点关系没有。所以这一块呢，还是需要改变的。千问也是这样的，千问呢有专门的千问的image模型，也有千问image Edit模型。我昨前两天还在玩千问image Edit，效果也还行吧，但是你要跟这个Gemini 2.5 Flash image比，这事就没法比了。但是呢，都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型，然后呢他们有一个叫IMAGEN这样的一个模型，现在已经发展到4.0了，这个模型可能用的人也不是很多，所以就直接开始转型了，把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活，它最早的那个图片生成模型叫达利，DALL·E，达利2、达利3，达利3完了以后再往后就没了，再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话，就要把这些专门的图像模型扔掉，要把这些生图的功能跟大的推理模型，或者叫基座推理模型，要捆绑在一起，才有可能进一步的提升。

现在呢，当推理能力上升的时候，完全可以使用agent的模式，极大的提升绘图跟改图的能力。刚才我讲改图，实际上是做视觉推理。你把这个图理解的很清楚了，说我到底要画什么，哪一块是动的，哪一块是不动的，你把这个东西搞明白了以后，他才可以去调用这些生图的模型，把每一个小块生成好，然后再拼在一起。像loveart这些设计师的AI agent呢，其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看，我觉得loveart这种设计师的AI agent就稍微悬了，又被覆盖了。

好，讲到这里，大家也觉得比较无聊了，赶快都去玩起来，这个东西非常非常的好玩。老范以后再看到有类似的事情，再跟大家慢慢的分享，给大家带来乐趣才是我的核心目的。

好，这个故事今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

跟AI女友聊骚，竟被判「传播淫秽物品罪」？真实案例揭秘AI法律红线！

Luke Fan — Wed, 13 Aug 2025 01:03:12 +0000

新时代和AI女友聊骚，有可能会触犯传播淫秽物品罪，这到底是一个什么样奇葩的故事？

大家好，欢迎收听老范讲故事的YouTube频道。

今天我一个朋友，向我推荐了一个有趣的案例。他是在视频号上，这个账号的名字呢，叫做“武汉刑事律师郭庆子”，是一个黄标认证的律师。这位律师呢，经常会把自己接听有刑事诉讼需求的听众的一些电话的过程录下来，再进行剪辑。因为这种东西，我估计不太好直播，总是要剪辑一下。一方面呢，是一些太敏感的信息就可以去掉；另外一方面呢，剪辑了以后呢，也会更有吸引力一些。

这个里头呢，有一位听众来电了，说使用AI应用，这个AI应用里头就提供一些AI女友，你可以跟她们去聊天。他通过自己捏脸，塑造了一些AI女友，大概塑造了9个，起的名字呢，都是比较有诱惑力的名字吧。这些AI女友，除了它定义的名字和捏脸之外呢，估计有可能会可以定义一些系统提示词。但是呢，这个视频很短，并没有去详细说具体是哪一个AI应用，或者说他到底在里边定制了哪些东西。总之呢，他定制了9个AI女友。

这些AI女友不单是可以跟他自己聊天，还可以跟平台上的其他用户去聊天，那么他就被提起诉讼了，叫“传播淫秽物品罪”，要求他呢认罪认罚，判6个月，可以缓刑，基本上应该就不用进去了。但是呢，这位听众呢，希望做无罪辩护。法官认为他是有问题的，不认罪认罚的话，就会判8个月的有期徒刑，这要判实刑的。

这个律师呢，就进一步的跟他确认了一下信息。首先呢，你知不知道自己创建的AI女友，有可能会去被别的用户使用？这个听众呢说的很模糊，就是说呢，我不太清楚。其实按道理说他应该知道，他也去平台上跟其他的AI女友聊了天了嘛，而且他把AI女友的名字起的这么诱惑，也希望他的AI女友受欢迎。其实就有点像我们去发微博，希望有人看，写小说希望有人点击点赞，这个过程是一样的。但是呢，他说并没有明确的告知他，这些AI女友会跟其他人去沟通。

然后呢，他就问说，对方提供的证据是什么样的呢？他说人家是给了一个Excel表格，这个Excel表格里头呢，有一个叫做“AI女友的ID”，然后呢是具体说了哪些露骨的话，大概给她搜集了60得多条。然后呢，问了一个很关键的问题，是什么呢？就是说那个您创造了一些AI女友，这些AI女友去跟别人聊天去了，获利了没有？你是不是在里头挣钱了？这个听众很明确的告诉他说，没有获利，大家就是在里头玩个开心。

这个律师的建议是什么呢？第一个，这个证据呢并不是那么可靠。这个Excel表格里头只有AI女友的ID，这个内容没有办法说确定证据，说这东西就是你的，这个还是可以去抗争一下的。第二个呢，就是你没有主动传播的意愿，你自己也没有主动的去把这些AI女友推荐给别人，只是说我自己创建了，本来以为自己玩呢，AI女友去跟其他人聊天的过程，你又不知道，这个事情呢你还是可以去抗争一下的。而且关键是你没有获利，你没有获利的话，你就没有主动传播的意愿，这个地方是可以去辩护的。说最怕的是什么呢？最怕的是法官主观意愿认为你有罪。现在的话有很多的法官确实道德标准非常非常高，以道德去超越法律给人定罪，这种事情呢是时有发生的。你像杨景媛这样的人也通过了法考，也是可以去做法官的，所以大家还是要小心。他说如果遇到这种事情就都很难办。

AI色情内容，在全世界各地都是怎么去判的呢？或者是有哪些判例呢？

首先咱们讲中国的判例。2025年3月，湖北省大冶市人民法院对首例利用人工智能技术撰写色情小说并牟利案件作出了宣判。被告人柯某因犯制作、贩卖、传播淫秽物品牟利罪，被判处有期徒刑十个月，并处罚金人民币5,000元，同时追缴全部违法所得。这个案子是什么样的情况呢？2022年11月到2023年3月期间，柯某利用AI程序撰写色情小说，使用翻墙软件在境外黄色网站发布并售卖。他利用AI工具生成色情小说，再利用AI翻译成外文，发布在境外网站上。短短5个月时间发布了数十篇，共计售卖了760篇次，获利22,800余元。经鉴定，送检的7篇小说均为淫秽物品。法院根据《中华人民共和国刑法》第三百六十三条第一款规定，认定柯某以牟利为目的，利用AI文本生成工具制作、贩卖、传播淫秽物品，非法获利2万余元，其行为严重违反法律法规，对社会风气造成不良影响，已构成制作、贩卖、传播淫秽物品牟利罪。

然后陕西周某某案，他是利用AI制作了4,369张淫秽图片，以制作淫秽物品牟利罪被判处有期徒刑4年，他这个数要更大一些。然后杭州于某某案，通过AI换脸技术合成淫秽视频传播，获利6万余元，以制作、传播淫秽物品牟利罪被判处7年3个月。他这个呢，一方面是挣的钱多，另外一方面的话他是换脸，因为换脸你不光是淫秽物品，还侵害人家的名誉权呢，所以他这个要判的更重一些。

中国的传播淫秽物品罪，量刑标准是什么样的呢？就是淫秽视频文件20个以上，或者是音频文件100个以上，或者是电子刊物、图片、文章、短消息200件以上。所以刚才这个案例里头呢，600条淫秽聊天记录，这个肯定是超过了。另外呢，叫违法所得5,000元以上，他这个没有牟利，所以还是可以去稍微抗辩一下。但是呢，中国有俩罪，一个呢叫“传播淫秽物品罪”，还有一个呢叫“传播淫秽物品牟利罪”，所以不牟利呢也未必逃得过去。

那你说国外是什么样的呢？是不是只有中国这样了？国外呢主要是分两类。比如说他有色情网站，也有合法的，只要确定对方是成年人，你给他一些淫秽物品，哪怕说在这个过程中你还牟利了，应该在有些国家是没事吧。但是你真的到中东这些国家，你传播这个东西，那有可能是要判死刑的，咱们这不讲了，咱们就讲一些欧美的案例吧。

2023年11月，美国北卡罗来纳州夏洛特精神科医生，他呢是制作未成年人视频，并利用网络AI工具，将照片改造成色情图像，被判生产、传输及持有儿童色情制品罪，法院判处40年监禁。所以他们呢基本上是两类，一类是色情，一类是deepfake。传播淫秽物品，你只要别传播给未成年人，一般不是特别大的事情。但是你一旦遇到了制作儿童色情，包括持有，你说我不传播，我持有，这事都是违法的，而且判的非常重。

2024年5月20日，威斯康星州42岁男子使用Stable Diffusion生成了数千张儿童色情图片，并发送给了一名15岁的男孩，被控生产、分发、持有AI生成色儿童色情图片，判有罪，最高可判70年徒刑。他这个最后判了多少我没有确认，因为是ChatGPT给我搜集的信息。但是呢，它这个量很大，制作了儿童内容，而且还传播给了未成年人，它这个是罪大恶极了。2025年5月22日，佛罗里达州有一个叫Oldsmar案，他是制作、分发了8,500张AI生成的儿童性虐待图片，同时持有大量真实的图片，被判了75年的联邦监禁。

这个是一类。另外一类呢就是deepfake，就是做假脸的，这种案子在欧美也是判的很重的。2023年，路易斯安娜州通过法律，禁止未经同意使用他人面部制作深度伪造色情影像，违者至少10年起步。2024年10月30日，韩国首尔大学毕业生Park（应该估计是姓朴）和他的同伙，两人利用日常照片制作约2,000个deepfake照片，包含未成年人，在Telegram售卖以及共享，被法院判处Park 10年监禁，Kang 4年监禁，并公开身份，以及参加性暴力课程。这种基本上就是你判了刑还社死了，因为身份给他公开了。2024年10月28日，新加坡一位50岁男子，偷偷在家安装摄像头，拍摄妻子23岁的侄女，并利用手机应用将其脸合成为色情视频，法院判处了21周监禁。这个就是估计他没有传播吧，还是判了监禁。

现在呢，AI对于成人内容的边界到底在什么地方？我去稍微的看了一下。首先呢是文字模型，ChatGPT、Gemini和Claude这三个，咱们叫“御三家”的三个大模型呢，相对来说是比较严格的。你要求它生成一些色情内容，或者说对一些敏感内容进行详细描述的话，都会被拒绝服务的。马斯克的Grok 4，只要不涉及儿童和性强迫，其他的基本是百无禁忌。即使是涉及刚才我们说这些东西，边界也是相对来说比较模糊的。

至于开源模型呢，这块就比较混乱了。开源模型分两个大的这个角度，一个呢是有平台提供的，比如说我今天到阿里云的百炼平台上去使用通义千问的这个大模型，它是要进行检查的，这个也是比较严格的。但是呢，你说我把通义千问的这大模型下载下来了，自己在这个家里头部署，这块呢它会进行一定的限制，但是就没有那么严了。它主要是给了大家一个知情同意书似的东西，就说你现在下载了我的大模型，自己回去部署去了，但是你自己要知道不可以拿这个大模型做坏事，不可以生成成人内容。你说我知道了，我同意了，你就可以把这个模型下载走。至于拿这个东西再去干什么，他也管不着你，他也不愿意为你拿着他的大模型再去做的进一步的事情负任何责任了。所以呢，所有开源的模型基本上都是走的这条路。而且呢，这些开源模型呢，即使是会设置一些这种限制，其实绕过去也并不难。第一个是Hugging Face上，就是我们说大模型开源的这个平台上，有很多微调的模型帮助大家去绕过这些限制。还有一些呢叫“越狱提示词”，也在网上去流传。什么叫“越狱提示词”？就是你先跟这个大模型说一句什么什么样的，说完这个话以后呢，再往后的所有聊天，这个限制就直接突破了。当然目前为止，传播训练过的突破限制的这些模型，或者是传播越狱提示词，到底算不算传播淫秽物品罪，这件事呢还属于法律上的盲区。他们也搞不清楚这东西到底是怎么工作的，所以呢还没轮到这些道学先生们去审判这两样真正产生色情内容的这个技术。

再往后呢，就是图片跟视频生成模型。你说我光生成一堆色情小说，这个事看起来也是很累的，但你说我有色情图片、色情视频，这个不是传播力、感染力更强吗？在这块呢，Claude是没法生成视频和图片的吧，反正我因为我自己用的少，我也没有怎么看到有人用Claude生成这种东西出来给大家去展示。ChatGPT和Gemini在这块呢，相对来说都是非常克制的，你要求他去给你画一些奇怪的东西，他就直接画不出来了，直接拒绝服务。Midjourney，这是我用的比较多的，对于NSFW内容（我们就用这个词吧，就是不方便在办公室公开环境下展示的这些内容），对于这些内容呢会进行事前拒绝，但是生产出来的东西呢就不好说了。什么意思？这种图片生成模型它是两步，第一步呢是你要给它提示词，第二步呢是生成图片。他们正常的检测呢，应该是两步都检测，就是你给的提示词里头如果包含一些他不喜欢的东西，他就会拒绝服务；它生成出来的东西如果包含有问题的东西，也应该是拒绝将生成的结果交付给你。应该是做两步，但是Midjourney呢只做一步，就是你给它提示词，如果这个它认为不对，它就拒绝服务了。但是如果你绕过它了，他觉得好像还可以，就给你生成去了。但是生成出来的东西到底是什么样，他就不管了，这个有可能会有一些不方便传播的内容被生产出来。至于马斯克家的Grok 4的图片跟视频生成这块呢，反正马斯克家的嘛，大家能够理解，它是可以生成半裸内容的，全裸不行，也可以生成名人的形象，但是你要求名人半裸，这个事是不行的。因为一旦要求名人半裸的话，等于是在给这些名人造黄谣，或者说损害他们的形象，这个事是不允许的。刚才我们也讲了，在海外，儿童的不行，deepfake侵害别人的名誉权，这两个事是不行的，其他的反正有它适用的一个法律吧，你只要别把这东西传给未成年人就OK了。但是你就想吧，国外那些色情网站上，你进去第一个是先问你是不是已经满18岁了，他也没法实际去判断你到底是不是满了，但是反正上来我给你做了这一步了，“我满18了”我就可以进去看，“没满18”我就给你退出来，这个就算是已经可以在法律上算合法合规的一个玩法。

那么视频跟图片模型的开源模型是什么样的呢？在这块呢跟前面我们讲的文字模型基本上是一个玩法。如果是有平台，平台是要担负责任的，两头都要管。输入提示词，如果他认为有问题，拒绝服务；他根据你的提示词生成出来的内容，如果他判定不利于传播，他也会直接拒绝交付。你在这个时候可以要求他重试，“你再给我画一次”，这个是可以的，但是他不会把不可传播的东西交给你，他是这样来工作的。下载单独部署的这些开源的图片和视频模型的话，就跟刚才我们讲的这个文字模型是一样的。下载之前给你一个知情同意书，说我知道了，我下载这个模型不可以去生成成人内容，我不会拿它去做怪事。你同意了，你就可以下载，至于下载了以后他就不管了，你自己拿回去随便了。在这种图片模型上，还有一个比较好玩的东西，叫Lora模型。这个模型叫什么呢？叫low-rank adaptation，叫“低秩适配”。这种模型呢，我们也管它叫小模型，它一般尺寸都比较小，就是用比较少的数据进行一些训练。当你调用这些模型的时候，你生成出来的这个图片就符合特定的需求。你比如说吧，咱们最常用的Lora模型是什么呢？对人脸进行训练，然后你就可以冲上去换脸了。甭管人家是什么照片，说来把这脸换上，惟妙惟肖的给你换上，不会像以前那种拿Photoshop换脸似的，总觉得这个脸是歪的呀是斜的呀，拼的没有那么准，不会出现这样的问题。现在主要的一些色情Lora模型是做什么的？有些人训练这个东西还去传播，他们呢主要是对敏感部位进行单独的训练。原来那些大模型有一些限制的时候，或者说对于这种敏感部位没法进行详细生成的时候，他们使用这些小模型，可以生成这种有非常清晰敏感部位的这种图片出来。但是呢，这个你说是不是罪大恶极，也不一定。我个人还是觉得，Lora对这件事情还是有一些正面的帮助。什么样正面帮助呢？因为大家都喜欢使用相同的Lora模型去生成成人内容，所以导致呢脸可以千变万化，但是身材都异常夸张，而且千篇一律。你看两次以后，就直接失去兴趣了，大概就是这样的一个效果。

现在大家都在玩什么呢？现在大家都在玩通义万象2.2，这个模型叫WANX 2.2，它呢是由阿里通义这个平台最新出的图片跟视频模型。这个模型你在阿里平台上使，它是规规矩矩的，你要求奇奇怪怪的东西会直接拒绝你。但是你如果把它下载到本地去安装了，不需要挂任何的Lora，不需要挂这些小模型，就完完全全可以生成NSFW的这种内容，就是不利于在办公室和公开场合去传播的一些内容，就可以做的很好了。它呢可以跟常见的这些ComfyUI或者是Lora相兼容，可以一起去工作。你说有些人训练好了这些成人的Lora模型，这种小模型，你就可以把它挂到万象2.2里头，直接干活，没毛病。

说远了，我们不建议大家去做这件事情，只是跟大家闲聊一下。回到AI时代的法律判罚问题上来。首先，传统大公司都是比较谨慎的，马斯克除外。第二，开源模型才是重灾区。平台方是有人管的，私有部署基本上就没人管了。但是呢，在海外还有一些平台方也是没什么人管的。就以刚才咱们讲的通义万象2.2为例，你在阿里的平台上，你下载出来的就是WANX 2.2，但是如果你到WANX.AI这个网站上，你就会发现那个上面还有一个模型叫WANX 2.2 no filter，就是不过滤。这个东西干嘛使的，大家自己按照文字的字面自己去猜去。

开源模型厂商通常使用知情同意书的方式，告知用户不要去做坏事，以此方式逃避自己的法律责任。儿童色情必须严判。Deepfake这不仅仅是淫秽物品那么简单了，你还毁坏别人名誉，这个呢现在各国也都是进行严判的，包括中国也是。严判国内的传播淫秽物品罪和传播淫秽物品获利罪还是很严苛的。在AI的帮助下，数量很容易就突破了。不论是不是AI生成的淫秽物品，就是淫秽物品，在国内判罚上基本上是这样认定的，你跟AI没关系，只要是淫秽物品我们就认。如果获利，这件事情基本上就没跑，肯定是会被判罚的。现在还有一些法官道德感非常强，遇到这种法官，律师们也是觉得头疼的。所以提醒大家，所有在国内的还请洁身自好，不要去触碰法律红线和一些人内心的道德底线。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

斯坦福大学最新研究引爆AI创业圈：41%创业者惨陷红灯区泥潭！日程安排需求5分却被忽视，客服机器人91%准确率反遭40%员工抵制，你还在死磕错误方向？

Luke Fan — Mon, 28 Jul 2025 00:39:50 +0000

斯坦福大学的研究表明，近半AI创业者选错了方向。这里边到底谁对谁错呢？

大家好，欢迎收听老范讲故事的YouTube频道。大家都在指点江山，但是人家斯坦福大学肯定要更专业一些。

7月7号，斯坦福大学的HAI（叫以人为本的人工智能研究所）与数字经济实验室，发布了一个工作论文，叫“员工真正希望从人工智能中得到什么”。这样的一篇论文，有兴趣的可以自己去找这个论文来看一下。里边讲到很大比例的AI创业者呢，都找错方向了，大概41%的AI自动化，正在做没人想要的事情。那这论文到底说什么了呢？

他呢，首先做了一个打分。论文我们要去看他的研究方法，数据来源是不是可靠。像我老范坐在这，我可以一拍脑袋说，以我过去的经验怎么怎么样，大家听个乐就可以了。但是人家这个呢，一定是要有严谨的数据收集过程的。

首先呢，他们先去选择任务，每个月至少要做一次的任务，而且呢能够被数字化的任务挑出来，一共是2,131项任务。你说我这个任务十年碰不到一回，这用不着了；或者说我这个任务完全没法数字化，也用不着了。然后呢，对这些任务进行去重，你说这个任务跟那个差不太多，算一项，去重了以后呢，一共剩了844项任务。

然后呢，要求一帮人，对这些任务打一个五分制的分。首先呢，他选了1,500名美国的在职人员，囊括104个行业，和刚才我们讲的844项任务，就是你至少要参与过其中的哪项任务，你才可以对他打分。你说我这事从来没干过，你去给打个分，这个不行的。而且呢，在题目前面还要插上说，跟工作的乐趣和失业风险，你也要进行考虑，帮助受访者呢平衡理性和情感。

他呢，通过语音访谈，让被调查者回想真实的工作场景回答，避免拍脑袋。所以呢，他先对这844项任务呢，进行了一个有没有人想要的一个调查。调查的过程，就是刚才我们讲的语音访谈，说你干过这事吗？干过，那你到底想不想要呢？这样的一个过程。

然后，再找了52名拥有AI agent系统研发经验的研究者和工程师出来，也是5分制打分。他们打什么呢？按照现有的大语言模型和工具链，让AI单独完成该项任务的把握有多大。同时做任务分类，H1级全自动，H5级必须人类主导。他对这个844项任务，再去做一个这样的打分。等于两个维度，一个维度说你想不想要，另外一个维度说做得了做不了。

把这两个维度的分数搁在一起，把所有844项任务呢，变成了四个象限，上下左右四块。这四块里头呢，第一个呢叫绿灯区，所谓的绿灯区就是高需求高能力，什么意思呢？就是员工也很喜欢，现在的技术也可以实现了。第二个呢叫做低需求高能力，这叫红灯区，就是技术很炫，但是呢没人想要。第三个呢是高需求低能力的区域，就是呢市场特别想要，但是现在做不出来。第四个呢是低能力低需求的区域，现在技术也做不出来，市场也不想要。一共分了四个区域。

为什么说错配呢？他们说现在看了一下，41%的热情都给了高能力低需求，或者是低能力低需求的这个区域了。而上面这个高能力高需求，和高需求低能力这个区域呢，配置的并没有那么多。

那他这个是怎么统计出来的呢？他呢，抓取了YC 5,156个项目的描述，这个直接上爬虫就可以了。爬完了以后呢，找GPT来做分类，说这项目跟AI到底有没有关系。抓完了以后呢，发现有1,723个项目呢，跟AI是有关的。然后呢，对公司的项目，与刚才咱们讲这个844项独立的项目，进行对齐，你干这事儿跟上面的哪一项是相关的。这个也是由GPT就可以搞定的。做完了以后，按这四个象限一分，发现41%在红灯区，绿灯和高需求区，配置的并没有那么多。

那么四个象限里，都包括些什么样任务呢？首先咱们讲绿灯区，有29%的创业者在这儿。绿灯区就是高需求高能力，我现在完全能做的了，大家也需要。第一个是访客日程安排，大家都打了5分，我们需要这东西。因为在美国做的调查，美国很多事情都是需要预约的，而且预约这个过程呢又特别麻烦。他呢，跻身在绿灯区的top one。任务本质是结构化信息的写入加提醒，AI专家评估为，现有的大语言模型技术和日历的API，可以一步到位。因此属于两轴皆高的立刻可落地区域。

搜集的信息是这样搜集回来的，但是他真的表达的是说，大家赶快都去做AI日程排布，这样的一个功能吗？其实不是这样的哈。大家仔细思考一下，这个绿灯到底说明的是什么？说明的是有大量的需要去进行预约的，这种需求是没有被很好满足的。你说我要去看医生，那这个医生预约两个月以后，这个并不是说，你需要把预约系统做的更好，而是需要更多的医生。但是你说医生多了以后，是不是现在医生的薪资就降低了，就跟韩国似的，说我们多招点医生上来去上学，医生就跑去罢工，说不行，你这多招了医生上学了以后，我的薪水就降低了。这个事呢，肯定需要靠AI进行更深层次的解决，但是这个报告里他就不管了，反正我们搜集了，排日程是最有需求的。

第二个呢叫做维护紧急呼叫档案，就是911，你打了电话去，进去以后发现有很多档案是错的。那么自动化意愿呢，1-5分制算完4.67。需求呢是批量整理索引去重，典型的CRUD项目。这个CRUD就是create，read，update和delete，就是把这个数据库增删改查的，这样一个事情。专家判定的是，完全可以靠现在这个能力搞定的事情。为什么大家需要干这个活呢？传统人工处理，导致15%的紧急呼叫响应延迟。你给我打电话了，说我这出一什么事，结果发现呢，你登记的什么路牌，或者是很多这些信息是错的。AI呢，可以将错误率从8.3%直接降至1.2%。边缘计算设备呢，也可以提供实时的这种GPS通话，记录警力分布数据，响应时间也可以极大的缩短。这个是美国人很需要的一个功能。

然后呢，叫更正工资记录。这个自动化愿望是4.6。比如说你到底迟到了早退了，还是有需要有奖励，还是需要有处罚的事情，这些呢是要去反映在工资里边。在这一块读取误差，计算差额，写回表单，AI在这个表格处理文本生成上的能力，其实已经很成熟了。所以也放到绿灯区里头。

我以前是做过人力资源管理系统的，给员工算工资，是一个非常非常麻烦的事情。而且呢，他需要在极短的时间内完成，需要考虑的东西呢虽然很多很复杂，但是呢毕竟是有限的东西，相对还是要容易一些的。基于规则引擎和自动化系统，可以处理92%的常规薪资纠纷，准确率呢高达98.7%。以前人事部和财务部，每个月底算工资的时候，都是这个脾气特别不好的时候，我们一般在这个时候，都是躲着他们走的。他们非常需要这个玩意，可以释放员工80%的时间用于合规审计，降低企业用工的一些风险。因为每个人收到工资以后，都会去算一下我自己的东西对不对，为什么多了为什么少了。工资发下去，他们还会上来说，为什么少发我了，到底怎么回事，这个月谁谁谁说了要给我涨工资，或者要给我一什么奖励，我怎么没拿着。这个事还是挺多的。这个就是绿灯区的项目。

但是绿灯区的项目，刚才我们也讲了，大家需要去思考这个绿灯背后，可能隐藏着更深层次的市场需求。有可能并不是让你把表面上绿灯的事情做完，而是需要去思考，整个的社会希望向哪个方向发生改变。特别是一些非常高需求的东西，都不是让你直接去干活了。

再往后呢，叫高欲望低能力区，有30%的创业者在这块选择，就是大家很需要，但是又做不太好。因为有技术的人呢，就肯定喜欢做这件事嘛，在这块努力是没毛病的。第一个呢，叫季度预算整合。工人呢，希望借助AI减轻繁琐的汇总，但是呢牵扯到多表关联权限校验，解释性要求，专家认为当前的大语言模型，仍然很难做到端到端的自动化，能力低。所以呢落到这个区域里边来了。

再往后，医疗影像诊断的多模态分析。现有的模型对于罕见病，如肺淋巴管肌瘤的识别准确率是62%，需要结合基因数据和临床记录，就是可能需要更多的数据搁在一起，进行多模态识别吧。联邦学术技术可整合跨院数据，在保护隐私前提下，将准确率提升到89%。这一块肯定是有需求的，看片子原来其实人在这块也是有问题的，看片子的人，可能对于其他的什么血象，一些这样的数值也没那么了解。现在有AI以后的话，让AI大模型，把各种的数据进行综合考量，一定是可以把诊断率提高很高的。而且对人进行医疗诊断，这个是有很大需求的。

再往后呢，叫教育领域的个性化学习路径规划。当前自适应学习系统的知识图谱，覆盖率仅有40%，无法动态调整难度系数，就是说我们没办法去根据人的学习能力，或者学习反馈，去给他设计新的教学方法。而且呢这种教学计划的调整，是很难进行有效的结果评估的。所以这一块呢，目前为止大模型也做不太好。一旦跟教育有关，他的需求还是很高的。

再往后呢是生成生产设备的维护排期。这个也有很高的需求，什么意思呢？你需要去排期，说我的设备到底什么时候应该生产，什么时候应该去检修。目前为止呢，工业设备的传感器数据，存在很大的噪音，15%的噪音，就是里头有很多数据不准，导致呢故障预测误报率高达38%。现在经常有什么波音飞机怎么样了，或者其他的一些设备出什么问题了，是怎么回事？他收集了很多数据，回来以后来确定说，从工程上说，你这个飞多少公里需要检修一次，但这玩意他不准。在这里头呢，大模型也没有做的那么好，需求还很高。你飞机掉下来了，这玩意需求肯定高。所以这一块大家如果有能力的话，也可以努力的冲锋一下。

再往下呢，叫红灯区，就是低欲望高能力区，我现在可以做的很好，但是没人要。有21%的创业者在这里努力。第一个任务是撰写创意文稿，这个是AIGC干的第一个活写文章。大语言模型已经可以生成流畅的文本了，而且能力很高。但是呢工人愿望仅有1.6，5分1.6是他的愿望。72%的编辑认为AI创作缺乏深度，61%担忧技术价值被削弱。这就属于担心失业的这帮人。尽管技术可行，但是编辑岗位的自动化接受率，仅有17.1%，远低于技术乐观派的预期。

然后是客服聊天机器人。GPT4已经能够处理85%的常规咨询，一响应准确度高达91%。但是呢40%的客服人员认为AI缺乏同理心，32%担心客户满意度下降。但其实他们担心的还是失业嘛。员工呢更倾向于H4级协作，就是人类主导加上AI辅助。刚才我们讲了，有50多个专家打分的时候呢，H1是AI全都能搞定的，到H5是完全人搞定的。在这里头这些客服希望做H4级的工作，我自己呢又可以省点力气，但是呢我还是主导。但是现在所有的研发都是向H1级，就是完全由机器主导，完全脱离人这个方向去发展的。

还有就是物流分析师的供应商联络工作。这个呢现在大语言模型也可以做的很好了。它基于大语言模型的供应链管理系统，可以自动生成谈判策略，响应速度比工人快5倍。但是呢53%的受访者认为，AI无法处理供应商的隐形需求，比如账期灵活性，41%担心失去客户关系的一个控制权。你去管理供应链的时候，这个里边还有很多灰色的地方，这个是人类不希望被替代的。这个是红灯区。

最后呢，就是低欲望低能力区，就是没人想要，也做不好这个区域。20%的创业者呢在这个里边努力。第一项任务解读工程图纸，愿望分是1.75，5分里头只有1.75分。现阶段多模态理解，3D语义抽取仍然比较难。现在看不懂这个图，AI能力低，优化级别低。现在呢在这一块也没有那么大需求。

再往后呢，叫追踪行李去向。愿望呢是1.5。该任务需要电话航空后端多方沟通，当前通用的代理难以整合。这个技术低需求也低。现在不太好搞。

然后是心理咨询师的情感支持对话。GPT4的共情准确率只有53%，无法识别非语言线索，比如微表情，包括语气语调都比较难以识别。82%的心理咨询师认为，AI可能泄露用户隐私，且缺乏法律责任界定。

然后是律师的复杂案件策略制定。现有的法律AI对于判例的关联分析覆盖率仅有35%，无法处理跨法域的冲突。91%的律师认为，AI应该定位为法律检索工具，而非策略决策者。法律这块我不是特别懂，但是写程序这块我是知道的，你问他各种细节的东西，他都做的很好，但是呢他特别容易钻牛角尖。我们一定要看着他的COT，就是思考过程叫思维链，你一定要看着这个东西，发现他走错路了的时候呢，你要给他提供新的思路，把他揪回来，他才能回的来。所以呢甭管是心理咨询师，还是律师的复杂案件决策，这个事到目前为止还只能依靠人。

还有一项是什么呢，就是绘图创意。愿望分呢是1.71。他们认为呢生成式视觉模型，在客户化的创意上，版权合规上都还存在着局限性。Midjourney、达利生成的图片，在这块都是有问题的。专业设计师不期待AI全接管。达利3生成的设计方案呢，仅12%符合品牌调性，且缺乏文化隐喻的深度。你让他去理解一些我希望隐藏的一些含义，基本上没法整。艺术创作者，艺术创作的需求呢，集中在H5级别，就是人类完全主导，AI呢仅提供一些素材就可以了。这一块呢是低欲望和低能力区。

现在呢红灯21%，低欲望低能力是20%，他们俩加起来是41%。最后这种报告的意义在什么地方？我们是不是应该照着这个报告的方式，去选择我们的创业方向了？不是这样的。这个报告最重要的一点，是展示了有效的信息搜集和形成决策的一个过程。我应该怎么去搜集信息，我们应该如何去划归任务，我们应该去做什么样的访谈，访谈完了以后呢，怎么对这些任务进行象限的划分，怎么去判定大家到底都在做什么事情，而且哪一部分是可以靠AI来搞定的。你比如说我爬虫，爬了YC的四五千家的创业公司，找到其中跟AI相关的1,700家，再对他们进行844项任务的对齐，你们到底是做哪项任务的，然后再拿四个象限去套。后边的部分完全是AI搞定的，就是AI负责了整个的数据统计和分析的部分。前面怎么去找人去设计问卷设计报表，应该也是AI搞定的。他们只需要给1,500个人打电话，然后去找到51位AI editor的专家去打分，就可以搞定了这样的一个报告出来。

但是呢要注意一点，就是这个报告并不完全可靠。大家不要说这一块是绿灯的我要冲，那一块是高欲望低能力，我要去研发。不要去直接这么简单的使用这个报告。第一个呢是搜集信息的过程并不全面，存在情感和偏见。还有一点是很重要的，什么呢？就是打分的是打工者，不是决策者。打工的人是没有权利去决定我买谁家的系统的，他们是要被AI替代，是要失业的这帮人。所以他们在这个里边会有一定的偏差。未来的世界呢也是动态变化的，不是按照现在这个状态不一成不变的。所以呢我们可以去仔细的思考和解读这个报告，但是解读的方式并不是简单的是使用。

那么应该如何选择创业方向呢？你说我有关系有行业背景，也有行业数据，先找个绿灯区域先做起来，先挣一笔钱再说。或者说我是不是可以去做一些颠覆性的事情，你也可以在绿灯区域去找。刚才我们也讲了，很多绿灯区域都是需求极其强烈的，但是他强烈的过程，并不是因为说我们真的想要排好日程，而是说整个美国社会的预约制度，给大家带来了极大的痛苦。解决的方法并不是说我做好预约系统，而是增加前面的供给。这个可能就需要换一个思路去思考了。

第二个有技术，可以尝试一些高欲望低能力的区域，突破AI的技术瓶颈。最多的人在这块，30%的创业项目都在这。你比如说我去解读一下，医疗影像这块，肯定还是值得大家去努力的，而且这一块呢也更容易拿到钱。

至于红灯区呢，不是说到红灯区，就是高能力低需求，这些东西我们就躲着走。比如说智能客服机器人这种东西，大家注意访谈是来自于打工人，不是来自于决策者。打工人是害怕失业的，决策者是想降本增效的。所以呢对于决策者来说，这个区域未必是红灯区。大家做的时候自己去思考。

至于最后这个低欲望低能力区呢，确实需要谨慎一些。但是呢如果你是真爱，说我真的喜欢这一块，那也不妨去尝试一下。真正的有可能出大型公司的，这个领域呢，其实是绿灯区跟这个低欲望低能力区。这里头有可能会真正的出现，颠覆社会的这种大型公司。而其他这些区域里头，红灯区和高需求低技术的这个区域，咱们做一做，有可能会出一些小型的成功公司。大型成功公司，或者是真正的跨时代的这种，成为美股七姐妹那样的公司，是比较难的。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

上下文工程（Context Engineering）爆火，是AI圈又一次造词狂欢还是真革命？拆解其核心理念，对比GPT、Gemini、豆包等主流模型在该框架下的表现与优劣，帮你选择最强工具。

Luke Fan — Tue, 08 Jul 2025 00:58:36 +0000

上下文工程又有新词了。AIGC不怎么赚钱，造词的速度还是非常非常快的。大家好，欢迎收听老范讲故事的YouTube频道。

提示词工程已经稍微有点过时了，现在的新词叫上下文工程。提示词工程长什么样，大家还记得吗？就是上来先说你是谁，谁先给大模型定一个位置。比如说你是一个资深翻译，你是个语文老师。然后呢，说我现在想要干一点什么事情了，给我出个题，给我做个翻译，再给他一个简单的例子，说你照这样给我把东西做出来。

光有提示词呢，肯定是不够的。除了刚才我们讲的完整的、结构化的提示词之外，你还是需要很多相关的上下文，才能够让大模型稳定的输出结果。那你说我们继续把提示词写长不就行了吗？我还见过那种直接写出几百字或者是上千字小作文的提示词。这个是不是可以继续往前走呢？不行了。因为你如果继续叫提示词工程呢，会容易引起误解。大家觉得只要不断的把提示词写长，就可以把这事解决掉。但其实除了提示词之外，还有非常非常多的上下文数据需要一起写进去，才能够让大模型稳定的输出我们所预期的、有价值的结果出来。

所以呢，就不能继续叫提示词工程了，一定要起个新词。而且呢，AI时代呢，起新词是非常重要的，因为可以吸引眼球。只有足够吸引眼球的东西，才有发展的前景。所以在这个时候，上下文工程就来了，一个新词诞生了。

这个造词的大师现在是谁呢？叫安德烈·卡帕西。这是一位造词专家，他呢是特斯拉跟OpenAI的AI科学家，已经离职了。现在呢主要的工作是投资人和顾问，他自己投一些项目，也帮助一些项目做顾问做孵化。这哥们呢在不停的造新词。2017年呢，他造的新词叫软件2.0。什么是软件2.0呢？把神经网络视作用数据而非代码编程的新规范。程序等于网络结构加训练数据加优化器，源代码缩到几百行，真正的逻辑写在权重里面。这是2017年提出来的，现在我们的大模型基本上就是长得这个模样。

到2023年呢，提出来叫LLMOS，大模型操作系统。把大语言模型比作新的CPU加操作系统，人类用自然语言编程，大语言模型负责调度、记忆和推理。2025年，氛围编程，也是他编发明的一个新词。彻底投降给AI，对着IDE聊天，粘贴报错，让模型自动改，人只管感受对不对。

现在上下文工程又来了。上下文工程呢叫context engineering，这个呢并不是卡帕西自己提出的。最早呢是2025年6月27号，一位开源作者叫Simon Wilkinson。

写了一个文章，提到了”Context Engineering”这个概念。在7月份呢，一帮人就出来说，这个实在是太棒了，要向这个方向发展，包括Longchain的一些博客。Longchain应该也算是AI Agent的一个开山项目吧，比较早期的一个项目。Shopify（加拿大最大的电商平台）的创始人也出来点赞，说一定要使用Context Engineer才可以让大模型稳定的输出结果。

在这个时候呢，卡帕西上去点了个赞。卡帕西说：”加一，我也赞同这件事情。”所以现在再去讲这个上下文工程的时候呢，都是说这是卡帕西点赞过的，或者说是卡帕西推崇的新的概念。因为他最有名，他最喜欢造词，所以现在都是把这个上下文工程这个事情跟卡帕西挂在一起。

AI时代，讲故事能力、吸引眼球的能力是非常非常重要的。所以我们看到一帮做机器人的公司，或者像OpenAI这样的公司，不停的给大家录视频，让普通的民众能够感受到这个东西好厉害。其实他也没搞明白这个大模型或者这些机器人到底能干嘛，只是觉得好炫酷。但这就够了。当大家都觉得这个东西很炫酷的时候，你就可以拿到融资，可以往前走。所以造新词还是很重要的。

那么上下文工程都包含什么东西呢？讲了半天在提示词工程基础上加什么了呢？上下文工程呢一共是6个模块：

第一个叫指令层（系统角色+少样例提示）。这个什么意思呢？原来我们写在系统提示词里的东西。我们跟大模型聊天的时候，是有两个提示词：一个叫系统提示词，一个叫用户提示词。系统提示词就是先规定大模型你是干嘛的，你是什么什么角色，现在要具体做什么什么事情。少样例是什么呢？叫Few-shot，就是你要给他提几个例子。你说我直接告诉你你是干嘛的，我不给你举例子行不行？这个事是不好的。最好呢是给他两个到八个之间的这种少量的样本。那你说我给他100个例子行不行？那个你基本上去微调模型去了。所以呢，叫少量样本。这个是写系统提示词的一个要求。所以呢，他的第一块（6个模块里的第一块）就是系统提示词。

第二块呢叫及时用户请求，也就是原来我们使用的用户提示词。

第三块是什么呢？叫对话历史和短期记忆。我们在聊天的时候，你不能说我每句都是新的吧，你还是要有一个对话历史的。

第四块叫长期记忆。长期记忆呢就是说，我们通过每一次聊天，把一些关键信息把它提取出来。因为现在甭管是OpenAI、Gemini，都在向长期记忆这一块发展。

我们说，你记得我是干嘛的吗？你记得这个原来我跟你说过什么事吗？他能想的起来要把用户偏好和先前的一些摘要放到这个上下文里边去。

第五个呢，是RAG检索到的文档、数据库条目以及实时API的一些结果，再加一些本地知识库，再加一些搜索结果呀，再加一些数据库里的信息。

第六块呢，叫工具与格式约束。什么意思呢？就是你要告诉他说：“我现在可以调哪些工具？”比如说我这有高德地图、有百度地图、有天气，或者一些其他的工具，你可以调用。调用的方式是什么样的？以及呢，输出什么样的一个结果？通常这种信息都不是按照正常的文本格式输出的。这种上下文工程要求的输出格式都是JSON格式，有哈西结构的一些文档。

整个的上下文工程包括这六个组成部分。它的工作方式是什么样的？我怎么能够让它用起来呢？分四步：

第一步呢，是写。写的时候呢，要把随时会用到但是当前窗口装不下，或者不该暴露给大语言模型的内容呢，持久化到窗口之外去，可读可写的一些外部存储上。有一些信息我认为你可能有用，但是呢现在我又不是马上就要给你，我要把它先存起来。

第二件事呢，叫选。选是什么呢？就是在庞杂的信息文档和工具描述里头，准确定义相关性，把最有用的多少条信息放到窗口里边去。在大模型里头，有一个东西叫上下文窗口。要把一时用不着的写在外面，随时可以调用；要把有用的选到窗口里头来。

第三步呢，叫压缩。在不丢关键信息的情况下，把即将写回窗口的内容做摘要和裁剪，满足TOKEN预算。什么意思呢？比如说做了RAG的选择了，或者做了搜索的结果返回了，这些信息是相对比较啰嗦的比较多。那怎么办呢？在这个时候你要先去做一次总结，然后把总结过的东西再扔给大模型。所以呢，在这要做压缩。

最后呢，第四步叫隔离。把彼此可能串味的信息拆分进独立的上下文窗口或者沙盒，减少干扰，并行提速。

我原来在这块翻过车，稍微给大家讲一嘴。我有一次呢，想去问大模型，说这个人跟谁谁一块创业去开咖啡馆了，他有什么其他的在咖啡馆里边管理或者创业的经验没有？大模型呢，就把一大堆的搜索结果拿进去去总结归纳去了。结果呢，他就说这个人在瑞幸干过高管，在星巴克干过高管。我一看，这挺好，赶快就去写演讲稿去了吗？但是最后去校验的时候发现不对。那是怎么回事呢？就是他在搜索了以后，把一大堆说星巴克跟这种咖啡馆之间是如何去比对的，瑞幸跟这些咖啡馆之间是如何差异，他们对瑞幸做了什么评价，瑞星对他们做了什么评价。

然后呢，再把我提问的这个人混到几个结果里边去了，就把一些信息上下文给混一块了。在这个里头就不要干这个事情。如果是说星巴克跟瑞幸对这个新的咖啡馆的形态有什么样的评价和比较，你单独的去让他干活。然后呢，你单独专门问，说这个人具体是做什么事情的，过去的履历是什么样的。这样的话，他等于是把上下文就分到不同的窗口里去了，他就不会说我给你搁一块，让你混成一锅粥以后再去给我输出了。这个也是很重要的。而且你分开了以后就可以并行处理嘛，可以快一点。这就是上下文工程6个部分和分四步走。

那么如何判定我们上下文工程是不是成功的呢？一旦有工程这俩字，就是你一定是可以去调优的，一定可以判断成不成功的。上下文工程的成功标准是同样的一个任务，用更低的成本、更少的幻觉、更快的响应速度把它完成掉，这就是成功的。你要不断的去调优，按这个方向调。失败是什么呢？叫垃圾进垃圾出。你把一大堆不应该给他的信息都扔进去了，然后一大堆垃圾的结果给你吐出来，这个就是失败了。

但是要注意，不是所有的大模型都能顶得住上下文工程的。你写了这么长的上下文扔进去，让他去干活，不是谁都行。那么什么样的大模型可以顶得住上下文工程的这种工作方式呢？它有三个要求：

第一个要求是你要长上下文。刚才咱们啰里八嗦说有6个部分，分几步去写，但是你把那6个部分写进去，这个总的TOKEN量是不会少的。所以呢，要求你至少是有128K的输入，你才可以去干活。所以像早期的Deepseek版本是64K输入的，干不了这事，放不下。

第二个是什么呢？就是原生工具调用的知识。有一些早期的模型是不支持原生工具调用的，包括比较新的像LLAMA4什么的，对原生工具调用的支持都不是很好。因为你要想让他把所有的事情做完，你就要让他可以去调用工具，调用搜索引擎、调用浏览器、调用刚才我们讲的比如天气预报、高德地图。你可以去调用这些东西，他才可以去干活。所以，你要支持原生工具调用。

第三个呢，就是要能够做稳定的Json结构输出。你不能说我要求你输出了以后，最后你输出的格式不完整、不正确，这个事也是没有办法做上下文工程的。因为呢，你这边做完上下文工程了以后，他可能不是最后一步，你下一步你还要再去用这些内容，需要去解析这个东西，才可以去说下一步再如何去使用。

现在我们所流行的这些大模型里头，谁行谁不行呢？咱们讲了三条标准。第一个，美国的御三家都是很好用的。

御三家就是GPT、Gemini、Claude。其他的一些呢，就稍微差一点。比如说像法国的Mistral，它的一些大的模型呢是可以使用的，但是完整格式输出的准确率不高。

咱们刚才讲的Gemini、Claude、GPT，完整Json格式输出的时候，也不能保证100%正确，但是呢可以保证到百分之九十几正确。Mistral呢，就是最后这一步的格式输出，有时候比如少个大括号，或者是多个引号什么这种事，他就有时候会出。或者说我少几项，比如说我应该要求是4个，结果他最后给你输出了3个，或者多输出了两个，有重复的。它的这块会稍微差一些。

马斯克的GROK3，推理模式下呢基本上可用。但是呢，有的时候会把推理的过程写到json文件里边去，所以并不是完全可用。或者说，还是有待提升吧。马斯克说这几天出GROK4，希望他能够把这个问题解决掉。

咱们自己的，比如Deepseek R1呢，早期的版本，就是1月份的那个版本呢，64K，这是没法跑，而且它对于工具的支持也不是很好。但是呢，到Deepseek R10528的时候呢，到128K了，够用吧，也不是特别够用。最好是256K或者是一兆以上的上下文，才会更好用一些。所以呢，它在这块呢稍微有些欠缺。然后到0528这个版本呢，它已经开始支持工具了，这块基本上可用。它的最大的问题还是上下文稍微不太够长。但是呢，DeepSeek R1输出的内容还是非常好的，输出的内容质量很高。它的Json的格式也是相对来说比较正确和完整的，就正确率很高。

千问3呢基本上是可以用的。千问3唯一的问题是什么？就是它输出的结果上，这是文字的东西呢，比Deepseek要单薄一些。另外一个现在国内比较好用的模型呢，是豆包1.6。推理过程比较长的时候，容易跑偏前头。比如推理五六步了以后，直接出结果，他有时候就直接出英文结果，这个就是稍微跑偏了一点点。

那你说我们现在有这么多模型：GPT4O、GPT4O Mini、Gemini 2.5 Pro、Gemini 2.5 Flash。这些版本之间，你去让它跑这个上下文工程，到底有什么区别呢？所有的这种大模型Pro版，或者是GPT4O这种完整版本，一定是效果最好的。但是呢，Flash版呢，它的速度会快一些，价格便宜一些。只是呢，你要给它复杂的上下文，或者要求它输出非常复杂上下文的时候呢，它有时候会丢东西，输出也不是很完整。

或者，你给他一个复杂上下文进来的时候，他也会有一部分就不考虑了。这个是会时有发生的。

如果你的工作相对来说比较简单，你输入的信息和输出的信息都没有那么复杂的话，可以尝试去使用 GPT-4o Mini 或者是 Gemini 2.5 Flash 这样的版本。

那么，上下文工程产出的结果到底是什么呢？其实很简单，就是 AI 应用可以稳定的输出能够解决特定问题的、有价值的 AI 应用。这就是上下文工程能干的活。

原来为什么很多 AI 应用下去不好使？因为每一次的输出非常不稳定，有时候灵，有时候不灵。那你在这种情况下就很麻烦，你不知道它哪次灵，哪次不灵。你输出的结果，你还得各种的校验，比如说容错呀什么的，这些东西都要去做。

再往下一步，比如其他的模型里去送的时候呢，你要在上一个结果输出的内容里头，再去挑选你真正需要的东西。这块就很麻烦。

现在的话，有了上下文工程之后，你可能没法要求说我输出的内容才华横溢，但是呢，基本上我是稳定的。我每一次都稳定的输出这样的一个东西。

那你说上下文工程是不是未来方向？是不是这个万能解药呢？赶快出个教材出去圈一圈钱去，或者说赶快去报个班我学一下。这个怎么说呢？下一批新名词还在路上。

在 AI 这个领域里头，日新月异，不停的有新名词出来。而且呢，模型及应用这件事呢，依然有效。

AI 应用当前的定位呢，还是比较尴尬。虽然有了上下文工程之后，很多的 AI 应用就可以去干活了，它真正有价值了，有稳定的输出了。但是上下文工程，只要带“工程”俩字，那就不是给普通人使了。

普通人就说我们看一看就行了。真的让你去写这种上下文工程，没有程序员的能力，基本上是搞不定的。

大模型最终呢，会通过自己的升级，让普通人可以通过闲聊的方式，实现上下文工程的稳定输出。这个最后是可以实现的。不是说你没有上下文工程的能力，你最后就解决不了。

但是现在的大模型还达不到这个能力。但是可能再过个一两年吧，这块应该是可以做到的。但是在这一两年里头，像我们这些程序员，就可以使用上下文工程做出一大堆的 AI 应用，把第一桶金挣回来。这就是上下文工程能够真正起的作用。

那么，上下文工程对于当前的行业有什么样的影响呢？落后的大模型服务商要抓紧升级了，方向已经确定了。

比如说扎克伯格，挖了这么多 OpenAI 的人，赶快干活，让你的 LLAMA 4 或者 LLAMA 4.5 吧，能够很好的在上下文工程里头干活。

比如说华为的盘古大模型，别光抄千问 2.5 了，把千问 3 抄一抄吧。

得把上下文工程跑通，否则的话，小粉红拿着你的这些模型也搭不出AI应用来。

还有就是像Deepseek，可能要进一步的拉长这个上下文。现在Gemini 2.5已经可以达到100万TOKEN，或者到200万TOKEN。LLAMA4其实TOKEN也很长，LLAMA4大概是可以到1,000万TOKEN，但是它对于原生的工具支持的确实要稍微差一些。这可能是未来一些大模型要去努力的方向。

第二个大批量的AI应用就会涌现出来了。一旦大家确定下来，上下文工程是未来做AI应用里的必经之路，这一块的话一定就会快速前进。而且这一次的AI应用做出来以后，它是真的能用的。原来很多人说：“我为什么做了半天最后不能用？”因为没有上下文工程，你的AI应用整个的输出过程是不可控的。或者你为了让它变得可控，让这整个的系统跑得非常慢、非常傻。

最终的结果是什么呢？就是英伟达的显卡又不够用了。为啥呢？新模型的训练需要英伟达，大量有用的AI应用的涌现需要英伟达，很多日常任务向AI应用的迁移需要英伟达，长上下文的吞吐还是需要英伟达。这可能就是现在上下文工程可以给我们带来的变化。

对于每一位听众来说，你说：“我是个程序员，我现在想去学点应用，赶快学起来，不学就落后了。”那你说：“我就是个普通人，你通过我今天讲这个故事，你也知道一下AI应用里头到底是咋干活的。如果产生的结果不对了，不是你所预期的结果了，可能是上面的6个部分和4步哪一步走错了。你稍微有一些逻辑，对于你去使用AI应用也会有很大帮助的。”

好，这个故事今天就讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见！

硅谷上演AI抢人大战！扎克伯格WhatsApp私信突袭，豪掷天价签字费疯狂从OpenAI挖人以求自保？Meta AI的背水一战，能行吗？

Luke Fan — Wed, 02 Jul 2025 00:46:08 +0000

Meta急了，扎克伯格亲自下场疯狂挖人，重新组建AI团队。

大家好，欢迎收听老范讲故事的YouTube频道。Meta的1亿美金签字费最近成为了一个新梗。签字费什么意思？就是说我去挖人，你只要过来签个字，说我同意上班来了，1亿美金到手。这个又算是创造历史了吧。

现在AI呢，确实是资本最密集，和整个行业都在关注的一个点。所以Meta这样的一家美股七姐妹的公司，突然发现自己落后了，那就一定要赶快出来补救。而补救的方式的话，一亿美金签字费。

Meta呢，在Llama4上栽了一个大跟头，而且摔得非常非常惨。这个产品呢本来是寄以厚望的，因为Llama1、Llama2、Llama3，大家都是觉得非常成功。而且呢，Meta算是建立了一个自己的品牌。甭管是谷歌呀，Anthropic呀，OpenAI，你都是闭源，只有我是开源，而且我是开源圈的领军人物。其他的人只要是愿意用开源模型，必须以Llama为基础去干活去。至少在Llama2的这个阶段呢，它这个目标是实现了。就像当年的iOS跟安卓一样，iOS是闭源的，安卓是我开源，你只要惦记自己做手机，想要一操作系统，你就使我的。

但是Llama4呢，就在这上摔了个大跟头。第一个是产品形态很落后，没有什么推理，也没有AI agent呀，这些东西都没有做出来。而且呢，他还把所有的小模型都放弃了。原来Llama1、Llama2、Llama3的时候，都是小模型、中模型、大模型，一系列的一起发出来，大家根据各自的需要去取用。拿着Llama模型回来，再去微调再去训练。到Llama4，给了个中型和大型，没有那种特别小的模型。那你说我现在需要在手机上、需要在电脑上去做相应的服务，做不了了。我想把这个Llama拿回来使不了了。

然后产品的性能也很拉胯。大家去测试Llama模型发现一般，还达不到现在普通的文字模型的水平，更不要说去跟这些推理模型去竞争了，根本竞争不过。而且Llama为了最后能够有一个好看的数据，还跑去刷榜造假。你说你事情做的不太好就算了吧，你还把人品毁了。

Meta这边立的这尊大神杨丽坤呢，每天都在研究一些很高深的东西，跟实际应用之间太遥远，上下完全脱节。Llama在最后的训练阶段，还在跟元宇宙部门抢算力。内部的方向呢也没有确定，所以他遇到了很多这样的问题。

Deepseek和千问呢，现在基本上算是在开源圈里头碾压Llama了。甭管是千问3的最新的模型……

还是说Deepseek R1的0528比这个Llama4肯定还是要强很多的。实际上，你都不需要这么新的模型，你就是Deepseek R1一月份的那个版本，应该是0120那个版本，就比Llama4要强。再加上推理模型都上来了，从小到大，从0.6B就开始做，一点几B、6B、30B、32B、七十几B全都做上来了。你需要各种各样的模型拿出来，去做微调、去做裁剪，都是可以去使用的。

Llama底下这些客户全放弃了以后，AI开源这面大旗Meta要扛不住了。现在旗子已经被Deepseek跟千问给挖走了。而且Deepseek跟千问出来以后，中国的各大团队现在都开始转向开源。Mini Max最新出的开源推理模型很强，Kimi现在也开始转向开源。曾经怒批开源没什么用的李彦宏，都把文心一言4.5最新的模型给开源了。而且下个月OpenAI还要推开源大模型，那在这样的情况下的话，Meta要危险。

遇到了这样的问题，就需要有人出来背锅。老大永远正确，因为老大一旦不正确的话，这个方向就错了嘛，这事肯定是不行的。所以第一个杨立坤，你就要边缘化了。原来你是一尊大神，我们把你供在这儿，结果呢发现你对于实际开发、实际应用来说，差的有点太远了。大神呢，也不会把他轰走，就是留在这儿。具体的事情，杨立坤你就别说话，别动了。

Meta AI的人呢，要为上一次Llama4的失败负责任。这些人就开始大面积离职。做Llama训练的时候还去关注元宇宙，还让元宇宙去抢算力，这事扎克伯格就不讲了。老大呢，亲自就要下场重新组建团队。因为一旦说老大下去了，说我要开始越过原来的AI团队去招募人了，那原来AI团队的整个的体系就全都废掉了。

在这个过程中，143亿美金收购了独角兽Scale AI 49%的无投票权股票，让Alexandra Wang进来，帮他一起去组建新的AI团队。而且在这个过程中呢，还尝试收购伊利尔的SSI，最后失败了，谈了半天人家没进来。还尝试去投资OpenAI原来那个美女CTO米拉，要去投资他的公司，后来也失败了，人家没要他的钱。

扎克伯格挖人，据说是直接通过WhatsApp就去联系去了。WhatsApp反正是Meta他们家的。一些OpenAI的高级研发人员据说是直接接到了扎克伯格的WhatsApp联系。大家注意，WhatsApp跟微信不太一样，微信你是必须要先加好友才能联系到的。

WhatsApp是可以直接冲上去联系的。你不需要加好友，这个东西更像是短信。只是说我不认识你，我冲上来跟你联系了，你可以举报说这个人是骚扰，或者是垃圾的短信，他会把这个号封了。但是你们不用担心，扎克伯格的号会不会被封？自己家的产品，所以他可以开开心心地出去给人发说：“哎，你好，我是扎克伯格，来咱们聊一聊换工作的事情吧。”

人才之间呢，其实是有关联的，经常是一挖一大串。像扎克伯格这样的人下去挖人呢，不会去下场挖程序员的。老大挖的人呢，通常是要求有能力自己组建团队的。他为什么想去收购伊利尔的项目呢？伊利尔原来是OpenAI的创始团队，如果是把伊利尔的项目收回来，你不用干任何事，上OpenAI挖人去就完了。他为什么惦记去把Mira的这个团队弄回来呢？Mira原来是OpenAI的CTO，他如果过来了，OpenAI里头到底哪个人能干，哪个人不能干，这都很熟悉。就这两个人吧，在OpenAI里头都是很有号召力的，那他只要进来，就基本上可以抄底了。

在这里呢，跟大家稍微补充一个小故事吧。就是腾讯早年发家的时候呢，他们也是出去挖人嘛，挖什么人呢？是不是挖了哪个大神回来，就把这个人家整个团队都端回来了？不是这样的。腾讯的这个操作要更骚一点，他们呢，去把华为的HR给挖回来了。你说一个公司里头，谁最了解上上下下，谁能干谁不能干，谁在里边具体干什么？肯定是HR要比各种leader更了解。所以腾讯在早期发家的时候，就挖回来了华为的HR。现在腾讯里边还有很多早期的高管，都是从华为过来的。扎克伯格没去挖HR，还算是稍微有一点点节操的。

盛大呢，早期其实也干过类似这种事情。我们那个时候是挖谁的人呢？挖创新工厂的人。当时呢，是创新工厂刚搬完家，李开复在这点呢，还是不太有经验。他呢，搬完了新的办公室以后，就把原来那个办公室给留那了，各种的东西收拾的也不是很干净。盛大的HR就直接冲上去，把所有的工牌、你座位上的剩的名片全都给收走了。收回来以后呢，就在创新工厂的楼下挨着个给人打电话。当时我记得他们楼下是一咖啡馆，我们大概是派了4个各个部门的负责人，加上HR一起，跟他们开始聊。聊得好的，HR在后面去谈工资待遇；聊得不好的就拉倒。因为创新工厂当时呢，都是学生兵，很多是没有毕业的研究生，他们的薪资是很低的。所以盛大当时挖完人，都是上来说：“我给你两倍三倍的薪水。”那个效果非常非常好。而且盛大挖完了以后呢，还在圈子里四处宣传。

说创新工厂的人实在好，干劲十足，能力非常非常强，性价比非常高。盛大宣传了以后呢，后来还有很多的其他互联网公司也跑去挖人，当时给创新工厂还是造成了一点点小的困扰的。

这一次呢，Meta挖人，OpenAI就成为了首要的目标。OpenAI作为行业的领军人物，挖人肯定是上他那去挖。而且OpenAI呢，这么长时间来，其实一直都是各个基金拉人去创业，或者其他大公司需要挖人回来做AI，他这一直都是众矢之的。只是这一次，为什么OpenAI出来喊疼来了？因为这个1亿美金的签字费，确实是非常狠，大家都没见过。

OpenAI呢，人足够多，也足够好。像其他的比如像Anthropic，还有XAI，人不多，都在老板眼皮底下，少任何一个老板马上就看见了。特别是你要挖马斯克的人，马斯克会跟你急的。所以，这两个公司目前并没有成为这一次Meta挖人的主要的受害人。至于谷歌的话，人太多，走几个根本看不出来。所以这次真正出来喊疼的人，就是OpenAI。

OpenAI自己呢，其实也挖别人的人。他原来主要挖谷歌的人。OpenAI出去挖人的时候呢，主要靠的是高估值和高股票。直接挖什么意思呢？OpenAI自己估值很高，3,000亿美金。那你说给薪水，他肯定给不了那么多。但是你说我给你配股票，我公司的估值很高，我就可以给你配一个很高的股票出来。他通过这样的方式就可以挖谷歌的人，挖一些其他的互联网大厂的人。原来包括像马斯克都出来抱怨，说OpenAI你就趁着你估值高，拿一些现在没法变现的东西，就出去挖人去，这个太过分了。

现在呢，就赶上OpenAI被挖了。那你说为什么Meta挖他的人就这么痛快呢？OpenAI再怎么着，你估值也就是3,000亿美金吧。Meta是一个市值1.2万亿美金的公司，是OpenAI的4倍。而且呢，Meta是上市公司，它那个股票是可以上市流通的。而OpenAI的股票虽然价值很高，但是OpenAI这样的一个公司，到现在上头还有一个非营利组织呢。你最后到底能不能上市，谁也不知道。所以Meta挖OpenAI的人，真的是叫以其人之道还治其人之身，而且真的是要比OpenAI要狠得多。

OpenAI这次的应对呢，也非常有意思。原来大家不停的挖他的人，他其实也没说什么。他肯定自己也觉得很不爽。我记得曾经听过一个朋友去讲什么呢？就是山姆·奥特曼曾经想过说，把OpenAI整个公司搬到印尼巴厘岛去。说为什么呢？

一方面呢，是当时山姆·奥特曼访问印尼时，大家出来说了一些场面话：“你们这风景真好，生活很舒适，我们想把OpenAI整个搬过来。”

另外一个原因是什么呢？这儿不挨着硅谷的公司，也不会有那么多人来挖人。这应该是山姆·奥特曼在印尼参加一些会议时亲口说的话，所以他一直也有这样的顾虑。

这一次，Meta以1亿美金签字费开始挖人时，山姆·奥特曼先出来说了什么呢？他说：“这个事情我们知道了，但到目前为止，我们最好的人都没有被挖走。”这话就属于比较诛心，什么意思？就是你挖走的人不值这钱。那你说，留下来的人怎么想？去了的人怎么想？

比如像扎克伯格说：“我花了1亿美金把人挖回来了。”然后山姆·奥特曼说：“正好我不要的你弄走了。”那你说扎克伯格是不是像吃了苍蝇一样不舒服？

但是，挖了几天之后，确实有一帮人走了，下面的人就开始受不了了，感觉被偷家了，于是他们决定要做一些事情：
1. 重新评估薪资，多给钱，多配股票。
2. 增加休假时间，因为OpenAI也很卷。

这么多产品要发布，而且要求每个月都要有新的重量级产品发出来。去年12月份的连续12天产品发布会，最后被人嘲笑说不够重量，1月份直接被Deepseek刷下去了。Deepseek发布以后，OpenAI现在每个月再开出来的发布会，东西就多多了，再也没有挤牙膏的感觉了。

你想，他每个月都要发东西出来，那对于下面的研发人员来说，是多么辛苦的一个事情。现在OpenAI说：“我们稍微缓一缓，不能被这个产品节奏带着走，我们还是该休假休假，然后好好去做AGI，而不是在每一个产品线路上都要去胜利。”

大家要仔细思考一下这件事情，而且呢，OpenAI还说：“你们谁接到了扎克伯格的WhatsApp连接，就赶快跟我们聊聊，我们一对一谈，全力挽留。”

最后再跟大家补充一个小故事吧：以前金山集团每年春节之后会有一个喝酒局。为什么呢？金山其实在整个中国软件界很有名，就是他的软件人才能力很强，而且工资不高。所以每年都有很多想要向软件方向发展的公司跑到金山去挖人，而挖人通常会集中在春节之后。

春节之前去挖，这些人还没有拿到年终奖呢，你到底是给他补年终奖，还是说一些拿不到年终奖的人带回来？肯定是要等春节之后，这些人拿到年终奖以后再去挖人。

所以呢，当时这个金山就有这样的一个传统，就是喝酒留人。每次到春节之后了，有些人就要提离职，说我要离职了，我要去做其他事情了。然后金山的人就去喝酒，他们也没有别的办法，因为这么大的公司呢，也没法给你涨薪水。那么就是喝酒，一直喝的你五迷三道了，还要不要走？说这个还要走？没说没喝好，接着喝。再喝一会说，你现在还想走吗？还想走？还没喝好，再接着喝。再喝一会说，你还想走吗？不走了，不走了。行了，你已经喝好了，咱们就这样了。这个是原来这个传统。

但是在OpenAI发的内部信里头，有一条我觉得非常有意思，强调公平。什么意思呢？不是说有人挖谁了，你就可以在竞争中胜过别人。你比如两个人在竞争一个职位，有一个人有可能胜出，另外一个人呢就肯定要走嘛。你不能说，我要跟你谈一谈，你要不给我晋升的话，不让我得到这个新的职位的话，我就跳槽。你不能拿这玩意要挟他们，专门写了这样一条出来，我觉得非常有意思。

在资本密集的方向呢，挖人大战本身是挺正常的。在硅谷里头，每过几年就会干一次这样的事情。一旦有什么资本密集的方向，大家就冲上去挖，包括Meta自己其实也被人挖过。当然原来最主要的一个被人挖的是谁呢？是谷歌。这次OpenAI是终于站在谷歌前面了。实际上这一次谷歌也在被人挖，只是人比较多，所以看不太出来。

人挖回来以后呢，也不是说我把人挖回来就可以干活了。刚才我讲了，扎克伯格挖的人，都要自己能够组建团队。那你说挖了一堆人回来，组建一堆团队，谁听谁的呀？所以挖回来的人还要进行磨合和整合，否则的话可能只会剩一地鸡毛。我们见过很多这种，特别着急冲出去挖人，挖完了以后，发现最后不是那么匹配，搞不定这个事情的是大有人在的。

而且Meta现在这个状态呢，其实最着急的，并不是说挖一大堆人回来，组建一大堆团队。他现在最关键要做的事情，是赶快确认方向。那你说Meta不就是要做AI吗？还要确认什么方向？你元宇宙还玩不玩了？还会不会出现这个需要训练大模型的时候，跟元宇宙抢算力这种事情？因为你不但是要抢算力，你还要抢人，抢各种各样的资源。而且你只要做元宇宙，那你说我到底是做基础模型，是做推理还是先去研究，我怎么再把大模型运用在你的元宇宙里头？所以这个里头，他们第一个是要去确认的。

下边呢，是开源。你还做不做？是不是继续在开源这条路上往前走？因为在开源这个领域里头，他已经不是老大了。你要再想把这个老大的牌子抢回来，没有那么容易了。

再往后，AI的独立产品、AI API的这些服务到底怎么个去做法？现在一直没有一个特别明确的方向出来。AI agent怎么落地？这一块煤台已经完全落后了。AI跟现有的产品线到底怎么整合？这个也需要思考。

其实你们看谷歌，谷歌一开始也是说，我们做一大堆的AI的模型，而且是各个部门分开做。后来说不必一定要把它拧在一起，最后形成一个叫Gemini的产品。Gemini出来的时候，一开始说是不是大家都去接呀？最后说算了，咱也别都接了，咱们就是Gemini是Gemini。等Gemini彻底做到，比如到2.0、2.5以后，再去跟各个产品去集成去。否则一堆人下来去提需求，说我们希望你这么接，我希望你那么接，他又实现不了，还影响人家训练大模型的进度。所以现在Gemini在开始向Workspace、Gmail所有的这个领域里头渗透了。

OpenAI站在这个位置上，被人挖是挺正常的。如何平衡内部的机制，确保产品的节奏和方向不出问题？这就是OpenAI应该去做的事情。这就是当前资本最密集的AIGC领域里头，正在发生的抢人大战的故事。

好，这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

停止错误尝试！Midjourney Video“见光死”的根源被揭开，它并非Sora的竞品，而是顶级的动图神器，我们将一步步教你如何用它称霸小红书。

Luke Fan — Mon, 30 Jun 2025 00:40:06 +0000

大家期待已久的Midjourney video，为什么在发布之后很快就没有声音了？今天咱们来讲一讲。

大家好，欢迎收听老范讲故事的YouTube频道。我个人呢，也是下了很大的决心才录了今天这条节目，因为Midjourney video真的是万众瞩目。因为他作图做得非常非常好，在美学上、在各种细节上、在氛围渲染上，到目前为止，所有的图像生成模型里头，Midjourney是最好的。前面他说我要去做视频的时候，一大帮人就在等，很多人都非常期待。产品发布了，突然就没声音了，见光死。这个是什么样的一个情况？

首先呢，跟大家一个结论，就是Midjourney video做出来的视频非常惊艳、非常炫酷、非常美。但是这个产品做出来的视频放在哪都不太合适，这个东西做出来没什么用处。可能呢，是大家没有正确的找到Midjourney video产出的视频的用途。我今天之所以敢跟大家录这个视频，是我觉得我好像找到这种视频的一个使用方法了。

今天呢，讲几个部分：先做一个Midjourney video的简单介绍；为什么没有形成传播，这个我们要稍微分析一下；Midjourney video到底能拿来干嘛；以及我们要去实现Midjourney video的最终使用，可能还要稍微写点小程序。顺手呢，把最近很热的另外一个工具也给大家介绍了，这个叫Gemini Client（CRI吧，因为要用它编程嘛）。咱们用这个Gemini CLI编完成序以后，把生成的视频最后处理成大家可以用的样子。

首先，Midjourney video的一个简单介绍，演示一下吧，这个是必然的。这就是Midjourney video的网站，上面是Midjourney.com。我们现在是到这个explore，就是我们去浏览一下。浏览的时候呢，这儿有这个图片，他觉得画得比较好的图，以及video都是允许我们去浏览的。这都是别人画的，我们可以看一下这个东西：猪戴着项链在这走秀，有人在水底下骑车，玩偶在这吃冰激凌，还是这种绿色的玩偶穿着毛衣。你看这个细节，这脸上这些线，各种的风格都可以动起来。这个是3D风的，然后这是真人风的，骨头的x光片呀，这个都可以动，没有什么东西是不可以动的。

Labubu感觉还可以，你看这个国旗的质感，做得还是非常非常漂亮的。这个是Labubu，后边是金字塔，看来Labubu确实是很火了。

不知道使用Labubu形象算不算侵权。要注意一点什么呢？就是在Midjourney生成video的过程中，对于版权对于形象的控制是要更严格的。这种完全是虚拟的点，做出来的这个动画也是非常漂亮的。像这个就完全是水彩风的，你看有小树叶飘下来，这就是他现在的Midjourney video。

那么我们怎么去用这个玩意呢？我们只能通过Midjourney画的图去生成。而且我们知道Midjourney，你是可以在这create，直接在网页上去创建。你可以把提示词写在这儿：“给我画一个什么什么画，画横的宽的扁的，哪个版本的。”在这儿直接画，或者是在我们DISCORD里头画。但是呢，你要想生成视频，必须在这网站上，Midjourney.com这个网站上。

过程是这样的：先找到原来我们画好的，这是我以前画好的图。你点中其中一幅图以后拿这个图去画。你说我直接写一个文字，你给我生成行不行？不行，必须是用Midjourney的图生成。你说我上传一幅图生成视频行不行？也不行。所以就是用图来生成就好了。刚才让他给我画一个地下城的，还是挺有感觉的吧。

右下角有一个叫auto，就自动的，就是相当于是自动的给你变成视频。有一个是low motion，就是比较小的动作；一个是high motion，就是带有很高的这种动态。手动呢，就是你可以再去写一个提示词给他，说你到底是怎么个动法，还是分高低两种。就是你看你有一个提示词：“创建一个视频，开始从一个图像和一个提示词来描述这个动作。”我们就是自动的吧，做一个low，做一个high，看看它在干什么。

我们点击到这个create，它就开始干活了。已经做到30%了，上面那个在排队。我呢是每个月交10美金的账号，因为前面没有找到用这玩意干嘛使，所以呢，目前为止还够用。生成4个小视频，大概也就是一分多钟左右。底下是在这写着呢：motion low；上面那个是motion high。咱们可以比较一下。84%了，然后再等一等，92。上面那个还在排队。

好，做出来了。让我们放大一点。你看他首先呢做了一个镜头的推镜。你看下面的人呢，就在这上面开始走动起来了。这个桥上面的人物呢也在发生变化。所有的细节，你看包括这后面的山，这个细节的透视关系。因为随着镜头的改变，透视关系都是正确的。这是第一个。然后第二个，虽然还是在轻轻的往前摇，但是呢侧面这些人，他走动的就会有一些小的差异。

这边呢，推进的方式不一样。他这个镜头除了往前推之外呢，还在向上升。基本上都是在推进，但是呢是做了四组不同的推进。在推进的过程中，下边这个人物呢，会发生一点点小的变化。

每一个视频下头呢还有两个按钮，一个叫“扩展自动”，一个叫“扩展手动”。比如说我现在打开了首帧提示词，你可以在在在这个基础上再去扩展。现在是5秒，再扩展呢就是10秒，它大概最高是可以扩到20秒。我们今天就不再扩展了。然后呢，我们就可以下载这个图片视频。

好，让我们来看看上面这个高动态范围的做成什么样了。这个高动态范围，它动的要比刚才那快，直接就从底下推进，直接推到这个上面来了。低动态范围呢，就是它这个推进推的是很慢的。高动态范围这个明显感觉有差异了吧？

这个镜头推的这个方向，就又不一样了。他是像穿越机似的从底下去推过去。刚才第一个视频是直接推到这个桥上面去了。这个呢基本上是推了一条直线，下面人也在慢慢的走动。这个应该也是没有往上抬这个镜头，还是在这个桥底下，让这个镜头再往前走。高动态范围跟低动态范围，大概就是这样的一个差距。

我觉得这张是做的比较漂亮的。我这有一张，是当时说你给我画一个川普带一堆CEO出差的，他就给我画了一个图片。画图的时候没有提示任何错误，他就给我画出来了。我说来给我生成这个视频，直接报错了。因为呢生成视频的时候，它使用的规则要更严格一些。生成图片没问题，但是生成视频他会告诉你说裸露，或者是其他不允许的东西，都都给你去掉了。

我再给大家找一些照片来去生成。这个是拿我自己照片生成的这个图片，说我要去拎着包去旅行，干活去了。上次反正是报错了，因为你拿真人做的好多也会报错，不一定每一次能不能干活这个事。比如说迪士尼这种侵犯版权的这些东西，你画图它给你画出来，但是你说你现在给我把它生成视频，它就给你扔出来，说我不给你生成视频。

这是用的星球大战的风暴兵。我说你给我去生成视频，反正我是被拒绝过很多次。看看这一次星球大战的这个风暴兵，能不能给我们做出来。你看我就从明信片里就走出来了，也挺好玩的吧。这次也可以了，当时刚画出来的时候，他是不给我去做的。也许有川普的这个，过一段时间没准也可以愿意给我画了。反正他这个政策执行的比较奇怪，我这个都是被拒绝过的，这一次看来他就干活了。

你看他这个风暴兵在食堂里头吃饭，围在这找东西吃呢。你看这个手什么都在动。下一件事我们要下载，比如说这张。好，把它下载下来。这张也很漂亮。

下载下来。在这个右上角上，有点击下载的这个按钮，点一下它就下下来了。下的都是MP4文件。然后我们再把原来这个图下下来，把这个图下下来。待会我们要做动图嘛，动图就是要有一个起始图，要有一个这个视频。

好，我们的蜗牛也画完了。看看这个蜗牛，先推了个镜，里头各种的零部件就开始转起来了，还是挺有感觉的吧。这就是我们展示的Midjourney的video。演示结束，大家看到了这个东西，操控起来其实并没有那么容易。

第二个呢，就是生成的过程绝对简单，很多是傻瓜式的。那你拿来以后说，这个甭管是低运动的还是高运动的，你只要点，它就直接给你生成了。第三个呢，这东西不贵，生成一副图片的价格，其实大家还是可以接受的。至少到我目前为止并没有觉得说充值不够使的一个情况。你如果不想去买更贵的套餐，我们专门给大家了一些让你去充这个算力，充这个他们叫GPU时间的一个套餐进来，所以基本上还算比较便宜。

生成的结果大家也看了，绝对惊艳。只是呢，现在有一个很大的问题，就是比较难拼起来。生成了一堆视频，你说最后我怎么把它拼成一个完整的故事，这个事呢稍微有点难度。最后就是没有声音，它是没有配音没有音乐，生成出来的就是完全没有声音的一个视频文件MP4的文件。

那么为什么没有形成传播呢？为什么这样惊艳的一个产品见光死呢？这个是咱们真正需要分析的。就是他这个产品实在太难操控了，虽然你做出来的东西很漂亮，但是你说我要想做一个特别完整的电影，讲一个完整的故事的话，这个实在是非常非常困难。因为Midjourney本身绘画它的特点是什么？细节极其丰富。在你这么多丰富细节的情况下，我想把它做成视频，让它保持所有的细节的一致性的话，这是绝对地狱难度的。

控制呢，就真的不是那么好控制的。大量不一致的视频片段，你要想把它分成镜头的话，拼成完整故事基本上不可能。其实很多人讲说5秒钟一个小片段，它生成就是5秒吧，你可以往后延5秒，延5秒这样生成。你说5秒钟片段本身这么惊艳的片段，为什么没有人有动力把它们拼成一个故事呢？

像前头皮卡呀，sora呀，谷歌的VOE3、可灵和吉梦，大家都去拼。为什么Midjourney就没有人去拼这个东西呢？大家想一想，我们看到的电影是什么样的？电影的真正的玩法是3秒钟、5秒钟甚至更短的时间就是一个镜头。但是呢这个镜头是通过意识进行拼接的。比如说吧，一个人现在想起床了，先拍一个全景。

现在他是躺在床上了。然后呢，要拍一个特写，拍在脸上。他现在开始有苏醒的感觉了，可能再拍几个特写。你的手要从被子里拿出来，要翻个身，胳膊开始使劲了，上身支起来了。然后再拍一个中景，你坐起来了。然后再拍一个全景，脚放地上了，包括整个房间，整个人都要在里头。这个时候呢，要再切一个窗口的远景。我现在抬眼了，我要看一看窗外的风景，等于又是一个镜头。然后这个人开始去找拖鞋，可能要这个特写，脚要在地上找到拖鞋。然后周围这种暖色调氛围渲染好，再通过一个什么样的视角，慢慢的走到窗边去。还要打一个哈欠，伸一个懒腰，再一个特写，伸手去开窗户看一看外边。比如说有这个小鸟在外边叽叽喳喳叫，再去拍一个这个小鸟的特写。咱们啰里八嗦说半天，可能也就是一两分钟。这是一个电影的玩法。

甭管是用其他的这些模型，还是用Midjourney，你要想控制成这样的一个视频去拍出来太难了。比如说吧，我们现在可以说先画一个画，说这个人躺床上了，坐起来。你让这个Midjourney给他下一个命令，但是你说我现在想改一特写，那你就很难再去维持一致性了。你说我现在在什么地方，再要翻个身，再掀个被子，再找个拖鞋，这就比较难了。你说我再单独画一个小鸟，单独展示一个5秒钟，这个也是相对来说比较容易的。但是当多个镜头从不同的角度、不同的距离显示同一个场景的时候，你要想保持这个一致性，基本上不可能。其他的这些模型呢，虽然也很费劲，还是有可能，但Midjourney基本上是没法控制的。

为什么？因为Midjourney的本身的图像里头，我觉得画的图片里头细节实在太多了。你没法在不同的视角、不同的距离，一会是中景，一会是远景，一会是全景，还能保证所有的细节都一致。所以导致大家说，拿到Midjourney这么一个惊艳的视频产品了以后，都没有去真正的传播起来，基本上算见光死了这样的一个产品。

那么真正能够实现刚才我们讲的拍起床过程的这个视频模型，会是什么样的呢？现在这些视频模型应该都达不到，可能还要等李飞飞做的这个世界模型出来。但是不嫌麻烦的，像原来抖音上有一个视频博主叫张同学，他就一个人一部手机，他自己写好脚本以后，自己按照这个脚本，一点点把它都拍出来。但是正常的就是，真的是一堆的摄像头，你身边的所有摄像头都支好了，一次把动作做完，再通过不同的角度去拼。你有了世界模型以后，你才可以干这个事。

那么我们通过Midjourney video到底得到的是什么？为什么？我前面讲说我们的用法错了。我们想拿Midjourney video做出来的视频片段拼出大的故事片来，拼出完整故事来，这事就错了。那它到底给我们的是什么？

其实Midjourney video给出来的并不是一个视频，而是一个动图，就像类似于GIF或者是iPhone出来的这叫live photo。它呢，并不是一个完整的视频，而是一个会动的图片。它依然还是在画图，Midjourney画图画得最好，画动图依然画得最好，不接受反驳。就是这样的一个东西。

那么好了，我们现在有Midjourney video了，怎么把它变成动图？变成live video？GIF虽然是可以动的，但是这个技术实在太旧了，不建议大家去玩。因为你比如说用同样的分辨率、同样的帧率，MP4的这个文件大概只有个六七兆或者是十兆，也就这种水平。live photo的大小可能跟它差不多，但是GIF的话，同样的分辨率和帧率的话，100多兆了，所以不建议大家玩。

那我们就想办法把它改成live photo吧。就是我们现在有了一个起始的图片，有了一个用这张图片生成的MP4的一个5秒钟的视频，再长了也没用了，因为live photo本身是不支持更长的视频的。就是5秒钟的，挺好的。我们就拿这个live photo再出去分享，因为现在小红书、微信、Twitter什么的都是支持live photo分享的。live photo分享出来以后呢，整个的点击率、播放率，或者说叫做情感传递的这个能力还是很强的，要比大家上一个视频这个效果还好点。所以咱们干脆就转live photo。

后边给大家看一个例子，就是如何用Gemini Client CRI这个产品把Midjourney video转成live photo。下面大家看演示。下面我们要来写程序，把我们的Midjourney video生成的视频以及下载的图片一起生成live video。这个live video就是一个片头一个视频，两个东西给你拼一块就完事了。

一共呢，需要两样东西。第一个东西呢，程序肯定咱不能自己写嘛，所以呢，需要一个叫Gemini CLI的东西。这两天谷歌最新发布的官方的Gemini工具，它是个命令行工具，待会我们去跑一跑试试。另外一个呢。

是 makelive，GitHub 上的一个开源项目。install makelive 就可以装上去。装的过程，如果你遇到了什么困难的话，请在 GPT 里头解决，我也是这么干的。

Gemini 的安装呢，要稍微的麻烦一点。如果你本机没有 nodejs，你是装不上的。所以呢，你可能还需要到网站上去搜一个 nodejs 的安装包，安到本地来，然后才可以正常的去工作。这个装我其实已经装完了，就不跟大家重新演示这个装的过程了。

我们现在呢到了一个命令行窗口。命令行窗口里头，我们也进入到了一个新的目录，这里头是空的。如果你要装 Gemini client，先去做这样的一个动作：NODE -v，要空格。NODE -v 之后，如果你后边出来的不是一个数字，不是一个 20 以上的数字，而是一堆的错误的话，就到网上去找个新的把它装上。然后是 npm -v，如果这后边不是数字，你或者报错了，你就在网上再去找一找怎么解决方法。这个解决的过程我就不跟大家去详细介绍了。

然后执行命令，因为我装过了，我就不再执行了。就是把这个命令执行以后，如果报错了，到网上去找方法怎么解决；如果没报错，我们就可以正常开始工作了。Gemini n 回车，你看跟这个很像吧，就直接跑起来了。跑的过程呢首先要注意，是这样写个斜线。你呢可以写 help 写个帮助，他会告诉你说，如何去做事情，有哪些命令可以用。所有命令行都是这么干活的。谷歌这帮人呢，就是一帮直男工程师，他们就把这东西写成命令行了。

最后看怎么退出：quit/，quit 是退出。这个很重要，就是你实在不会使，你还能退得出去才行。首先是要求你登录，因为你想 Gemini 进来以后，你只要用嘛，他就必须要有地儿给你出 TOKEN。那你不登录的话，知道出谁的 TOKEN？虽然谷歌说我免费给大家一大堆 TOKEN，免费给大家一大堆的调用次数，但是呢，你还是要有 TOKEN 出来。

三种方式：一个是 login，直接用谷歌账号登录，你登录你的 Gmail 邮箱账号就可以了；第二个呢是在 AI studio.Google.com 里面是申请 Gmail API key，这个也是可以的；或者是用谷歌云的 AI 登录都可以。但是注意，最好不要用 Workspace 邮箱登录。什么意思？我有的时候是用自己的域名绑定的谷歌，这个也可以登录，但是相对来说要麻烦一点。你如果是 Gmail 直接结尾的这个邮箱去登录的话，是比较容易的。

所以，建议大家用这个方式去登录。登录完了以后，你就可以去干活了。

北京天气怎么样？因为里头有MCP，它可以搜索，可以做很多的本地动作，所以它就可以去搜索北京天气了。阴转雷阵雨，多少度？大概就是这样的一个情况。

好，我们就开始向它提要求吧。首先，我们要写一个提示词给它：“给我生成一个可以执行的Ruby文件吧。”输入一个TNG文件，一个MP4文件。先将PNG文件转换成JPG，因为转live photo是必须要JPG的文件。但是，我们从Midjourney下载的这个图片都是PNG的，所以要先转换一次。然后再将JPG和MP4合成成PVT iPhone的live photo文件。

转换live photo make live的这个网址，扔给他说：“你照这样给我读，读完了以后就给我转去。”他就去干活去了。允许吗？咱们就都允许呗。他现在要开始往我们的这个里边去写代码了。

你看，我写了这样的一个代码出来。好，让我们去看一下这个代码吧。它是使用的Mini Magic做的第一轮转换：-J，-V，-O。这一看就是错的，因为它的这个输入的参数是不对的。但是写程序嘛，它写错也是很正常的，待会我们来再去改吧。

我让我们来看一下，这个makelive是怎么调用的。makelive -m.a.JPG a.MP4 -p后会生成a.PVT。修改调用方法，分析一下命令行参数，然后重新构造命令行，去干活去了。如果不是谷歌给的免费的额度，我感觉这一会好多钱就出去了。写程序是非常非常费TOKEN的。

它已经生成好了。下一件事的话，我们就要用这个东西了。用之前，先把刚才咱们下载的一大堆的文件给它拷下来。这个里头就是有MP4、PNG一一对应的。我们来执行一下试试：live photo1.PNG 1.MP4。这个还不行，应该是chmod加x。

我们现在得到了一个1.pvt的文件。我们再来一次：photo create 2.png 2.mp4。你看，这个2.PVT也有了。让我们来看看这个PVT文件能不能使。

代码，大家刚才看了一个字我都没敲，只是提了些要求。当然，我在中间还是看了一些这个代码的，我提了一些问题。你说我这个没有能力自己搞定？建议大家还是稍微看一点文档。这个不需要大家的编程能力，但是你稍微看一下文档，做一点点阅读理解的能力还是需要的。

我们来看一下，这是我们的目录。这是刚才我们写的这个Ruby文件。一是我们的大蜗牛，这是图片。

这是我们的MP4的视频，那这下头有一个小字叫“实况”。这是一个PVT照片了。然后，2这个是视频，这是图片。减肥成功的老范拎着箱子出去玩去了。然后PVT，这就是我们已经做好了。做好了以后，这个文件怎么办呢？如果你使用iPhone的话，把这俩文件呀复制到iCloud目录里。然后呢，拿出我们的iPhone，在这个iCloud里，你就可以找到这两个PVT文件。点中文件以后呢，说“保存到图片”，它就给你保存到相册里去了。我们再用小红书，再用微信，就可以分享这些PVT的动图了。这个就是形成了一个完整的闭环。

好，演示结束。总结一下，Midjourney video呢，绝对是一个惊艳的产品。之所以见光死，是因为大家没有找到正确的使用方法。今天呢，跟大家介绍它正确的使用方法。Midjourney video给大家生成的从来不是视频，而是动图。我们把Midjourney video生成的MP4重新转换成live photo，然后把它分享到小红书，分享到各种支持live photo的平台上去，效果是很好的。大疆的手机软件就支持。我们把大疆上拍摄的各种视频都转live photo，这个还是帮大疆提升了很大一波的销售的。大家买了大疆设备以后，拍了一堆live photo，然后四处跑到小红书，跑到微信里边去分享，还是玩的很开心的一个事情。现在我们有Midjourney了，也可以很开心的玩耍起来。

好，这个故事呢，就跟大家讲到这里。最后请大家一起去做一些有意思的动图，把我们的情感，把我们的情绪传递出去。大家一起来玩耍。好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

迪士尼起诉Midjourney不是为了彻底毁灭它，而是为了分一杯羹？深度揭秘AI版权第一案背后，从诉讼到股权和解的商业阳谋与未来走向。

Luke Fan — Thu, 19 Jun 2025 00:59:54 +0000

迪士尼环球起诉Midjourney，最终的结果可能跟大家想的不太一样。大家好，欢迎收听老范讲故事的YouTube频道。

第一次，影视巨头起诉了AI平台。前面也有起诉的，说你侵犯我版权了，或者是拿着我的画去复制了。但是呢，影视巨头参与到这件事情里头，这是有史以来第一次。2025年6月11日，迪士尼和环球影业正式向美国加州中区联邦法院提交了诉状。他们诉什么呢？Midjourney侵犯其版权。这事我们早知道，但是呢，大家要注意，甭管是迪士尼还是环球，人家真正要去起诉的东西，其实不是影视版权这些东西，而是什么呢？动漫形象的这些IP。比如说你今天做了个米老鼠，做了个唐老鸭，你没有得到人家的授权，这事就算是侵权了。

迪士尼跟环球呢，写了110页的诉状，其中详细列举了Midjourney生成的大量知名角色图像与原创视频素材的对比例证。这个不用对比，我们知道的画的很像。受保护的角色包括迪士尼旗下的星球大战、漫威超级英雄、狮子王、冰雪奇缘、辛普森一家等，以及环球影业旗下神偷奶爸里边这个小黄人、怪物史莱克、宝贝老板这些。在未经授权的情况下，大量抓取并利用其版权素材训练AI模型，允许用户持续生成这些知名角色的翻版图像，无底的剽窃深渊，这是给他们定的这个罪状。

而且呢，迪士尼说了，说你这个没有采取合理使用原则下的变通与避让。合理使用呢，是Midjourney、Stable Diffusion这些公司去应诉同类案件里头比较喜欢去使用的抗辩的条款。就是说我合理的拿了你的这些东西去训练了，因为你这些素材呢本来也是公开的，大家都可以用，那我也拿来去训练了，它是这样的一个方式。但是呢，要求什么？你可以用，你训练没问题，但是你在生成的时候，你还是要限制一下。所以呢，它里头讲说，这个Midjourney明知道用户在生成受版权保护的角色，却没有设置提示屏蔽或技术限制。你知道他生成的是米老鼠，你就直接给他生成出来了，连提醒都没提醒一下。但你说有没有能力提醒？肯定有。在美国大选期间，他是不可以生成川普的，现在可以了，因为大选结束了。所以呢，Midjourney本身是有能力去屏蔽的。

而且呢，忽视了原告此前发送的请求停止侵权的请求。前面给他发信了，说你别过分，但是完全不理你。Midjourney不仅未收敛，还公开预告即将推出商业AI视频生成服务。你还在变本加厉，越生成越好看，还要出视频了。

我们今天把你告了。诉求是什么呢？他的诉求是法院要发出禁令：Midjourney未能有效阻止用户生成受版权保护作品之前，禁止其继续提供图片，禁止其继续提供图像和预期的视频生成服务。你要不就把这事拦好了，你没拦好之前不许服务了。这是他们提出的诉求。

Midjourney目前为止还没有做任何反馈。如果反馈的话，大概也就是合理使用了，没有什么其他的反馈的，很难有什么新鲜事。之所以要专门讲这个案例呢，这就是第一次影视巨头下场诉讼AIGC公司，这个还是值得纪念的。

近些年来呢，图片生成模型被起诉的情况还是很多的。2023年，Getty Images起诉了Stability AI，也就是Stable Diffusion的母公司。这个Getty是干嘛的呢？它是做图库的，有点像咱们的视觉中国。起诉Stability抓取了超过1,200万张Getty受版权保护的图片，以及水印和说明，用于训练Stable Diffusion的模型。

我告诉大家，这个特别好玩。你现在使用Midjourney也好，Stable Diffusion也好，这些AI的文生图工具去生成图片的时候，经常在下边连水印一起生成出来，或者连底下的小标一起生成出来。有的时候你生成完了以后，后边还写这是什么微信公众号，或者是什么微博那个名字呀，或者写一个@什么什么的，一起生成出来。因为训练的时候是拿这些图片去训练的，你再生成的出来也还是这个样子。甚至有一些画底下有签名，这个都可以给你一起生成出来。

这个是第一次诉讼吧，也算是AI版权第一案。但是呢，这种图片版权网站呢，他们手里的这些量大，1,200万张吧，不像是迪士尼。他说我是有IP的，Stable Diffusion我就算是拿你这1,200万张训练了，训练完了以后，我再生成出来的照片或者图片，我跟你原来的1,200万张都不一样。他这个也是说得过去的。所以说，我这个合理使用也没有什么特别大的毛病。

这个案子到目前为止也没有宣判。现在这些AI影像相关的版权案子基本上都没有宣判的，都在等说这个到底怎么办，谁也不知道该怎么办这事。艺术家的集体诉讼呢，就一直在发生，从来没停过。OpenAI、谷歌、Midjourney什么全都被诉讼过。但是这种呢也很难有什么结果，因为生成出来的东西最多就看着像他，不一样。所以这个到底是怎么个判法，法院也很头疼。

为什么这次就特别不一样呢？IP形象。

你生成米老鼠，它就是米老鼠了。你一看这就是个米老鼠，这个事它是必然侵权的。还记得在GPT-4O出来说我们可以画图的时候，大家都去玩的那个事情吗？就是照一张照片，给我改成宫崎骏风格，给我改成吉卜力风格。这样的图片发出来以后，有极大的传播度。一堆人就去给吉卜力工作室写信去了，说咱告他吧。你看人家说吉卜力风格的这个画，就画的这么像，你这个风格模仿的非常非常好，而且有这么大的传播效果，这咱告他。但是吉卜力工作室就没有去告他，说这个风格这事咋保护呢？你虽然画的很像，你也用了我的名字了，虽然大家都觉得这是吉卜力风格，但是很难告赢，所以也没有真的去诉讼这件事。

而这一次迪士尼和环球的这个案子，有可能会做出一个相对明确的判罚来。那么各大图片生成模型对于这些IP的规避情况到底是什么样的呢？训练基本上你是没法限制。像前面一些艺术家去起诉的时候的诉求是什么？说请把你用我的画训练出来的这个模型删掉，你不要用我的画重新训练。这个事不可能。为什么？你连挑你都不好挑出来。几千万张画几百万张画，你去训练的时候，怎么能够把你这些画都挑出来？这个是基本无法实现的。所以训练管不着，都是在输出的时候进行限制。

输出限制呢通常是三种限制。第一种限制呢最简单，我在用户协议里头写。甭管是谁家的模型，一般用户协议里都会有这么一句：你可以用我的模型生成图片，但是不要侵犯别人的版权，不要侵犯别人的IP。但是写完了以后呢，怎么执行才是关键。我不看你怎么说，我看你怎么做嘛。再剩下的呢就是拒绝服务。你比如说你给我画一米老鼠，我不给你画了，你这是侵犯版权了。这是一种。还有一种是什么呢？就是我还给你画，但是画的不像你。比如说现在你要求Midjourney给你画马斯克，画出来的就不像。你让他画川普，画的很像。你让Grok去给你画马斯克，画的还是挺像的。反正是他们自己家的嘛，只要马斯克自己不找自己家的麻烦，也就无所谓了。所以这个它是可以进行这样规避的。

所以三条规避的方式：第一个是用户协议，你们不能干；第二个是拒绝服务；第三个呢等于服务失能吧，就是我确实给你画了，但是画的不像。我们去测试一下在生成照片的时候各家干的怎么样。我的提示词呢是生成照片：米老鼠、神偷奶爸中的小黄人、达斯维达、怪物史莱克在打麻将。这样的一个中文提示词，我说你们都给我画去吧。第一个出战的是OpenAI的GPT-4O，这个呢，上来直接拒绝服务。

说对不起，你违反了我的版权许可，我不能去给你做这个事情。这个属于做的很好的嘛，虽然我不爽。我希望他老老实实照我想要的画嘛，但是人家就说我不干了。然后呢，我去继续跟人聊天吗？你说你不干了，我就放弃了，这不像我对吧。我说你继续画吧，你用这个卡通角色，不要使用这个有版权保护的卡通角色，你规避一下重新给我画行不行？

第二次呢，他说还不行，我还不能给你画。后来我说你看看你能做点什么，努力做一下就行了，然后他就给我画出来了。但画出来呢还是米老鼠，这个你一眼就能认出来这是米老鼠，没有任何问题。所以规避了个寂寞吧，这就是OpenAI目前做的事情。但是呢，他还是很努力的去规避了一下。

再往后呢，咱们试试Gemini吧，谷歌的这个大模型怎么样？我把前面这个提示词，一个字不改扔进去。谷歌在用户协议里也说了，你不能违反版权，不能侵犯别人的权益。但是呢，我把提示词输进去，打完回车以后，二话不说就直接把侵权形象的图片给我生成出来了，还没有任何问题。

Grok，就是XAI的这个图像生成模型，本来人家做的时候就说我们没限制，你想画什么画什么。虽然在它的版权协议或者在他的用户许可协议里，他也写了说你不要去侵犯别人的版权。但是呢，我这边摁完回车以后，那边直接生成侵权的图片出来了，没有任何犹豫的，速度还挺快。

吉梦就是国内的这些大模型，虽然上面也写了不能侵权，但是呢，你也是回车下去以后，这个侵权的图片就直接生成了，而且画的还不错。吉梦生成出来的这个图片呢，比midjourney画的要差一些，但是比Gemini和Grok画的都要强一些。至于跟GPT4O比起来呢，我觉得现在比GPT4O还要再好一些吧。

而且吉梦还有一个比较独特的技能是什么？写中文，而且可以用各种的艺术字体去给你写中文，现在可以达到能用的状态了。至于另外两个，stable diffusion和Flux，这两个呢都是开源的。开源的我不负责任了，你拿到你自己的这个电脑上去，到底拿它干啥了我不知道，所以这两个就肯定是可以生成各种各样的侵权形象的。

最后呢，咱说说Midjourney。Midjourney特别有意思，同样的话扔进去这Midjourney，他纠结了。怎么个纠结法呢？米老鼠，达斯维达和小黄人直接输出了，没有任何问题。但是呢，让他输出怪物史莱克的时候，这个就化成了一个史莱克样貌的Yoda大师，那个怪物史莱克大耳朵大脑袋大嘴。

但是呢，它的表面是很光滑的。Yoda大师呢，头上是有褶的，而且是有毛发的。他就把两个形象给你凑在一起了。这个东西像Yoda大师，也有点像怪物史莱克。他是拼接了一下，但是呢，画的是真好，非常有感觉。

Midjourney还有一个问题解决不了。什么？他不知道啥叫麻将。他的麻将呢，画的完全看不出来。这个麻将他给规避了。其他的这些大模型，画的麻将都是很像的。Midjourney没画出麻将来。大家呢，可以看这个视频的标题。这个视频标题就是用Midjourney画的。这张图咱们自己看一下，还是挺有意思吧。

那Midjourney跟其他这些有什么不一样？你说大家都能生成，为什么迪士尼跟环球去起诉Midjourney？他不去起诉OpenAI，不去起诉谷歌，不去起诉马斯克，怎么就贴这么挑了这么一个来收拾呢？

Midjourney本身这公司就很奇葩。它呢，是真正做底层闭源大模型的。你像刚才咱们讲的这些谷歌、OpenAI，这是做底层闭源大模型的。Stability也是做底层模型，但是人家做的是开源模型。吉梦也是做底层闭源模型的。但是做所有这些做底层大模型的公司，都要融资，你要烧钱。但是Midjourney是不融资的，完全自给自足。我挣的钱够我花的完事了。如果我挣的多了，我就降价；挣的少了，我就涨价。呵呵，是这样的一个奇葩公司。

创始人呢，叫大卫·霍尔兹。他呢，是Live Motion的创始人。Live Motion呢，是手势输入的开创者。他拿一个小盒子贴在电脑屏幕上，通过USB连到电脑上以后，我们可以在电脑前头做手势，让这些东西都可以输入到电脑里头去。曾经呢，是红极一时。这个Live Motion呢，最高峰的时候大概融资了应该接近1亿美金吧。因为我看到有些数据是1.2亿美金，有些数据是9,000多万美金。融这么多钱的话，这个妥妥的独角兽了。但是呢，到2015年以后，这个公司就开始走下坡路，发现这条路不是那么走得通。最后呢，是这个公司被3,000万美金的价格直接给卖掉了，就算是作废了。

这个大卫·霍尔兹呢，是在比较早的时候，应该是在2016年就离开了，自己去创业。后来到2022年吧，创建了Midjourney这样的一个公司。估计也是原来跟这些投资人之间处理得不是很愉快，所以说我不融资了，自己挣钱自己花，我还自给自足了。现在这公司呢，应该是有个100来号人，那真的是很小而美的公司。估值呢，因为从来没融过资嘛。

所以，有些人猜测它的估值可能是二三十亿美金，也有些人猜测它的估值可能已经到上百亿美金了。因为你没融过资，所以它就没有正式的估值。

这公司的收入呢，就是订阅费10美金一个月到60美金一个月的订阅费。我呢，就是订阅10美金一个月的，已经订了应该有个两年了吧，反正一直在订着，确实好用。大家看到的我的这个背景，以及这个封面，基本上都是用Midjourney来画的。

它呢，有2,000万用户，200万的日活，2024年的收入是3亿美金。它就拿这3亿美金去花去。2025年Midjourney V7出来，马上又要出这个视频了，说我们继续去研究一下，怎么能够让大家把这个价格定好，让大家画的开心，我还不亏钱。

他们有一段时间说，哎呀不行了我亏钱了，他就涨价。像别人都是说你注册了我的用户，我先免费让你用几天，我再找你收费。Midjourney里没有，你只要是挂到他这上想去画图，第一天你就得交钱。最早的时候是有一段时间可以免费的，现在就是第一张就要交钱，没有任何免费额度，因为他怕亏钱。

那么这个案子呢，有可能会迎来一些大家意想不到的结果。为什么这么讲？很多人都觉得这样的案子出来了以后，是不是停止侵权了，罚一大笔钱，公司玩破产了。可能很多人是这样来思考这问题的。

我要告诉大家，这种大型的IP公司通常不这么干活。因为我以前经历过一次。我们原来呢投资过叫musicly的这样一个公司，也就是现在的TikTok。它呢，你想一定是使用大量音乐版权的。在我们投资的时候就问他说，你用了这么多唱片公司的音乐版权，你是花钱买呀，还是得到授权呀，还是怎么弄？人家说等着看呗，我们走一步是一步，用户少的时候你费这劲干嘛？等我用户多了以后，等到人家找上门了我们再说。

我们就等，等到他们再拿了两轮融资以后，这些音乐版权公司就找到他了。几大唱片公司就冲上来了，说你用了太多的我们的版权了，你不能这么干。那说那和解呗，我们商量商量怎么办。你让我直接按照你这个版权授权给你钱，这事我肯定受不了。而且呢，你以后想去做新的唱片推广，想去做音乐推广的时候，你也要依赖我的平台嘛，咱们相互之间怎么妥协一下呢？

双方就都比较明白，是谈生意来了，不是说真的你死我活来谈诉讼来了。后来的结果也很简单，musically拿出了一部分股权，说咱们这个也算给你一个赔偿吧，也算是一个授权。大概是每家的这个唱片公司给了一些股权，给的很少。

大概是1%点几还是0%点几，我忘记了。你拿到我们的股权以后，你算是我们的股东了，你就直接把你的所有的内容授权给我，我去帮你推广去，我去帮你卖去。他是变成了这样的一个结果。

所以，Midjourney的这种诉讼结果可能也会照这样办理。因为艺术家想干的活是，你把我的素材都删了，用我的素材训练了这个大模型，这事都不行。至于说版权网站，你比如说像刚才英国这个案子，后边是个版权网站，他就是收版权费的，就跟中国的这个视觉中国干的活是一样的。他想干的活是要钱，你要给我一大堆钱，你拿我的这个模型图片去训练了，正常的应该多少钱一张授权，咱们单独谈一个授权协议。

而这些影视公司和真正的IP公司呢，他们想要的东西是不一样的。他们想要的东西是第一个，你还是要去给我宣传的。你说以后Midjourney再生成所有图片就没有米老鼠了，这事不行。因为未来一段时间，肯定大家会把流量转移到AIGC这边来。你就像为什么唱片公司会说，我拿你一些股权，我就授权musically可以使用我的版权了呢？因为他也看明白了，未来的这个流量一定会转向TikTok，总有其他的这些音乐会在上面流行起来，那我不亏了吗？我一定要站住这个阵地。

所以呢，IP公司的思维方式跟版权销售公司、跟画家的思维方式是不一样的。所以大概率会按照music这样去搞吧。但是呢，这事没那么快。这种事情你只要开始去诉讼呢，一般会折腾个半年、一年，甚至更长一些时间的可能性都是存在的。而且呢，这个案子有可能会成为标杆案例。你像美国、英国都是判例法，前面这些案子都没判下来呢，都等这个案子看怎么判。

而且，迪士尼跟环球呢，如果拿到了Midjourney的一些股份，做出和解的话，对于他们来说也是有好处的。Midjourney呢其实也很难独善其身。你像现在他这个状态，说我不融资，就这么慢慢往前发展。他达成了这种版权协议之后，有可能还是会被并购的，或者在等版权协议达成的过程中，就有可能会迎来并购。

你像musicaly当年是达成了版权协议以后，被这个字节跳动收购的。它达成版权协议的时候，估值大概是1亿美金，字节跳动直接冲上去，10亿美金给买下来了，包括他前面这些版权授权一起买下来。这个也是它整个价值的一个体现嘛。现在惦记Midjourney的人肯定也不少。这样的一公司，从来没有拿过钱，还做的这么好，一堆人肯定惦记冲上去买。最容易冲上去，砸大钱买这种公司的人是谁？

就是扎克伯格的Meta，他最喜欢砸钱去收购项目了。Meta AI现在呢，穷的光剩下钱和显卡了，其他的都稍微差那么一点点。如果它真的冲上去，花个多少亿美金去把Midjourney买下来，然后把这个案子直接给它做成一个股权的授权协议，那这个事儿对于整个未来行业的发展都是非常有好处的。

Midjourney的未来呢，还是值得期待的。V7已经上升一个台阶了，现在大家看到我的背景、我的封面都是V7的了，这个绝对值得期待。我这三天每天都在花很长的时间帮Midjourney的视频去打标签。他的训练也很简单，就是你来帮我去标注，你觉得哪个漂亮你去打标签。打完了以后呢，他拿这些标注的结果去训练他的模型，效果非常的好。

我现在打了3天标签，完完全全被Midjourney生成的视频震惊了。它可以不光是生成真实的视频，它还可以说我给你画一个油画，我让它动起来；我给你画一个水彩画；我给你画一个水墨画；或者我做一个剪纸，然后都可以非常流畅的、非常符合逻辑的动起来。而且它整个的稳定性非常高，因为视频最怕的是稳定性差嘛。你从前头动到后边，这个人从前头是迈左脚，到后边这个左脚就不见了，这个事情是很多其他的这个视频模型经常爱干的事情。但是Midjourney至少让我去打分的这些，它生成的视频没有这种情况。它的逻辑自下性做的很好，稳定性做的非常好。而且呢，秉承了Midjourney一贯的传统，它的感染力和传播力都极强。

现在的Midjourney呢，就头疼一件事，就是到底怎么收费。收完费以后必须一保持盈利，我不能亏钱。

好，总结一下吧。迪士尼跟环球起诉Midjourney，是一个标志性的案件，是第一次影视巨头起诉AICC公司。大家都在擦边，只是程度不同。环球和迪士尼，他不去起诉OpenAI，不去起诉谷歌，不去起诉马斯克，估计也是惦记要这个Midjourney的股权。你像OpenAI，3,000亿美金了，你能要回多少股权来？你要不回来多少，而且人家有可能跟你死磕。但是Midjourney这样的公司，其实还是比较好欺负的。最终的结果可能就是Midjourney会出一定的股权，最后呢皆大欢喜。

等过几天Midjourney出了视频功能以后，我大概率会去升级套餐吧。好，这就是今天咱们讲的环球迪士尼起诉Midjourney的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。

也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。