AI创业 – 老范讲故事｜AI、大模型与商业世界的故事

怒喷大模型连狗都不如？揭秘硅谷集体幻觉与物理常识缺失，为何只有新架构才能通往通用人工智能｜Yann LeCun World Models AMI LLMs AI Startup

Luke Fan — Tue, 23 Dec 2025 00:56:44 +0000

杨乐坤“暴论”：大语言模型是扯淡，连狗都不如？解读他的世界模型与新创业项目AMI

“我认为这完全是扯淡，这条路根本就不可能成功。”这是杨乐坤在最新的访谈中对大语言模型路线的评价。这是语不惊人死不休的这种暴论吗？还是说他真的有一些什么事情想做？

12月15日，杨乐坤发布了他最新的访谈。访谈是在一个叫做“信息瓶颈”的播客中进行的，位置应该是在纽约大学。杨乐坤当时还在Meta站好最后一班岗，三周以后会正式离职。访谈接近两个小时，我尽量讲一些里边有意思的部分。

现在的大语言模型还无法跟狗的智能相比，这个也是其中比较有趣的一点。到底杨乐坤想做的世界模型，以及他的JEPA是如何工作的？对于我这个讲述者和各位听众来说，都是一个挑战。请耐心听到最后，然后告诉我，我到底讲明白了没有？你们到底听懂了没有？杨乐坤要去做的AMI，也就是创业要做的这个新公司，到底是干什么的？怎么挣钱？咱们今天就讲这几块。

第一块：杨乐坤为什么觉得大语言模型完全是扯淡？

这里头要讲到的最核心的观点叫“序列化”。大语言模型工作的方式，是把整个世界的这些语言进行序列化。所谓序列化是什么？就是把所有的语言变成TOKEN，然后把这些TOKEN离散掉，谁跟谁之间都没有关系，再通过把全世界的语言搁在一起进行统计、进行训练，重新建立起这些TOKEN与TOKEN之间的关系。它是这样来工作的。

而且要注意一点，语言这个东西本身就是一个世界映射，语言只能表达世界中的很少一部分。哪怕是同样的语言，你用不同的语气语调来说，都会表达不同的意思。而不同的语气语调，你在语言中是完全无法看到的。所以语言只是真实世界的一个稀疏映射，大量的信息被错漏了。所以在TOKEN化的这个过程中，大语言模型其实把大量世界本身相关的信息都扔掉了，特别是那种连续的信息。

因为大语言模型通常能干的事是什么？就是预测下一个词应该说什么，哪个词是最好的。但是在这个过程中，它对于让世界演变这些连续事件，它是没有办法去进行预测的，因为它在序列化的过程中就把所有这些关联全扔了。

缺乏物理世界的关联与约束

大语言模型之所以可以回答问题，是因为以前有类似的文档。但是回答的时候，大语言模型并不知道这些内容之间的关联与约束。比如说问它：“我把这个杯子扔下去会怎么样？”它会根据过往的文档训练，给你回答说：“这个杯子会自由落体掉落，掉在地上会碎掉。”但是它不知道是因为有重力加速度、万有引力，因为这个玻璃很脆弱，掉在地上以后会摔碎。这些东西它是不知道的，只是因为以前有一些文档告诉你说这个杯子扔出去会摔碎，其他的它是不知道的，里头相关的约束以及这个关联都没有。

推理成本极其浪费

而推理成本是极其浪费的。咱们现在大语言模型，从OpenAI出O系列模型以后，都可以thinking了，都有COT（Chain of Thought）就是推理过程了。这个过程在杨乐坤看来，是极其极其浪费的。为什么？就是它不直接出结果，而是出中间的推理步骤，而且这些推理步骤是一次出一大堆，再由一个专家或者几个专家模型去进行筛选，在里头再挑一个能用的。说这个过程太浪费算力了，实在是没有必要。

安全缺失与事后补救

还有就是安全缺失。说现在的所有安全手段都是非常容易被越狱的，因为什么？你在训练的时候已经把所有的约束都去掉了。你说这个玻璃杯掉在地上会碎裂，这个事儿它是通过训练训进去的，但是它并没有说有一个基础的约束在里头。所以它在一大堆的训练以后，这个模型只能够去猜测下一个TOKEN出什么最合适。

你要想让它进行安全方面的对齐或者是约束，怎么办？你只能是说做事后微调，或者是设置外部围栏：你问了这些问题我就不回答了。事后微调就是我出了什么样的结果，我就如何去处理了；或者我出结果的时候我会进行筛选。这个本身是非常非常不安全的，因为你没有底层的一个逻辑。它是底层先生成一大堆不安全的东西以后，你再去进行后训练，再去进行围栏，这个是非常麻烦的。

还有一个就是成本很高。很多安全措施也是让大模型一次生成一堆结果，然后在里边挑一些相对来说比较安全的给你展示，说这个过程也很浪费。而且大模型是缺乏对于物理世界后果预测能力的。大模型能够预测的只有一件事，就是下一个词出什么最合适。它没法预测说“我这个动作做完了以后会有什么结果”，也缺乏规则的约束。那你说怎么能够判断安全？你一定是说我先预测一下我这个动作做了以后会怎么样，然后再去根据结果预测安全。大模型是没有这个能力的。

硅谷陷入了集体幻觉

第三个是硅谷现在陷入了集体幻觉。硅谷相信，我们只需要不断的去喂数据（包括后边的合成数据），进行人工的管教（也就是后期的微调和对齐），进行技巧的堆砌（也就是强化学习），你就可以不断的让大模型学会新技能。硅谷的AI已经被单一文化所绑架了，大家都怕其他的尝试会落后，只敢低头拉车，不敢抬头看路了。明明有很多其他的方向，我们就不试了，这就是唯一方向，我们就往前走了，这个是非常非常危险的。

所以总结一下，杨乐坤认为大语言模型就是扯淡的三个原因：

第一个原因是序列化，就这东西从一开始它就不对，你就丢弃了大量的信息，而且是打破了所有的关联和约束以后重新训练出来的；
第二个就是很不安全；
第三个就是硅谷整个陷入集体幻觉了，对其他的所有可能性都拒绝尝试了。

第二块：杨乐坤为什么认为现在的大语言模型还无法达到狗的智能？

我们很多人已经因为大语言模型都失业了，它都已经开始替代人的工作了。现在我们一看这玩意连狗都不如，被替代工作失业的人是不是觉得很冤？其实原因也很简单：狗是没有语言的，它并不会去描述这个世界是怎么样、我要去做什么，但是狗依然可以在物理世界中很好的生存，而大语言模型是不具备这个能力的。

狗的世界模型它会记住什么？物体不会凭空的出现与消失。这里有一个杯子，扭过头去再扭回来，这个杯子应该还在。这就属于最基本的物理约束。在我们训练大语言模型的时候，再把这些语言信息进行符号化的时候，进行TOKEN化的时候，这些东西就都丢了。所以狗是有这些底层约束的，而大语言模型没有。

再加上比如说运动力和惯性这些基础的东西，这些玩意不需要牛顿出来，这个狗也知道。它不需要学习，不需要去考试它也知道。说“我跳起来不会马上掉下来，我跳起来会顺着这个惯性接着往前跑一段”，这些东西狗是天生就知道的，或者说它可能生下来经过简单的学习就可以知道。

而且狗是有视觉、听觉、嗅觉和触觉的，可以接收这些信息，可以判断这是什么的味道、这是在哪个方向上、这个东西距离我有多远。这些东西很多都是没有办法通过语言去进行描述的，但是狗可以在这些基础约束下在物理世界中进行活动，而且还活的很开心。狗是可以进行规划的，它要去规划一下我要去怎么抓住老鼠（狗拿耗子这个没关系了，反正甭管抓什么吧），它要去抓一个东西，它可以预测可能的结果，并且做出选择并得以生存。这就是狗真正强的地方。现在大语言模型还做不到这些东西。

大语言模型只能输出语言，而语言仅仅是现实世界一个很小的投影以及很疏离的映射。真实世界中的大量的信息都没有映射到语言上去，所以大语言模型到现在为止还不如狗。等哪天新的世界模型可以像狗一样聪明了以后，咱们再继续往前走。

所以杨乐坤认为，说现在大语言模型这条路是永远不可能超越人的。因为人虽然我们现在在这呱啦呱啦说话，你们也在这听我说话，但是我们离开语言是依然可以在物理世界中生存的。可能未必有狗活的舒服，但是我们也可以在物理世界中，也可以在现实世界中生存。所以在把这些物理世界的基本约束丢掉以后，大语言模型永远也不可能超越人类。

第三块：杨乐坤的抽象世界模型（JEPA）到底想干点什么？

这是对我们的考验，我尝试把它说清楚，也希望大家能把它听明白。首先，杨乐坤的抽象世界模型里头有四个要素：抽象、分层、预测、最小消耗。就是这四个要素组成的整个这个系统。

1. 抽象 (Abstraction)

所谓抽象就是不去预测每一个像素，那太浪费了。你不可能说我预测出这个视频的下一帧来，这个事是不行的。只记录基础的知识，预测大致的结果就OK了，这是他现在要去做的事情。

比如说吧，咱们打羽毛球，当对面那个球打过来的时候，我们会去判断球的轨迹，做出动作击球，但是并不会计算所有的细节，也没有办法去想象在我们击球过程中每一帧画面的所有像素，但是我们依然可以开开心心的在球场上打球。这就是抽象的一个魅力。而且这些基础知识甚至还不是说通过物理的方式我去学、通过数学的方式我去学，公式怎么做、抛物线怎么算、风阻怎么来、这个速度什么，不是这样。我们只是说通过一些习惯，他这样打过来以后，我应该怎么去接，他是这样来去训练出来的。很多的羽毛球冠军，我估计他们的数学跟物理也未必能考及格，但是人家依然是羽毛球冠军。这个是他要去做的第一件事，叫抽象。

2. 分层 (Layering)

抽象之后下一步就是分层。所谓分层，他现在使用的这套系统叫JEPA，叫“联合嵌入预测架构”。什么意思？咱们依然以打羽毛球为例。

高层的预测：我们首先对高层数据嵌入进行预测。高层是我想着我应该回一个什么样的球，我是要回一个后场的高球，还是前场的吊球，还是做一个假动作，这个就属于高层次的思考。
低层次的预测：我这个手脚应该怎么动，怎么协调，我这个手腕应该怎么去摆，怎么去发力，这就是低层次的。

所以他就是在不同的层次想不同的事情。其实我们人去做很多的这种决策或者动作的时候，也是这么去思考问题的。如果你在高层去想这些低层的问题，不是想说我要怎么去给你发一个后场的高调球，而是想着我应该怎么去发力、我应该怎么去动手腕，那一定会出问题的。

3. 预测 (Prediction)

这个预测是什么？就是在世界模型中预测做出相应动作之后的结果。杨乐坤还是会去训练一个世界模型的，里边有一些刚才我们讲的物理公式、数学公式、一些基本的约束，把这些东西训练到物理模型里、世界模型里去。

你说我根据前面的分层的这个方式，我去进行预测了。比如说吧，在我们看到球过来的时候，就会去预测我们把这球打回去以后有几种不同的可能性：我回一个后场球，对方有可能会到后场给我做一个跳杀，或者在后场再给我回一个前场球，或者在后场再给我去回一个后场球，他有几种可能性。我们要去判断，我们把这个可能的结果进行推测。甚至有可能说，我这一个球杀不死他，但是我把他调到后场去，他可能步伐会混乱，再回一个球就有可能回的质量不是那么高，可能给我回一个前场高球，我就可以在前场扣杀他了。我会要做这样的判断或者是一些预测，或者叫规划吧。有的时候我们的这种预测和规划会分成很多步，然后才能去做决策。

4. 最小消耗 (Minimum Cost)

那决策下一步是什么？叫最小消耗。这就是我们决策的过程。你看我们已经抽象了，也分层做了思考了，然后做了预测了，在世界模型下给预测的结果都给我了。下一个事我要选择，这么多的预测结果里我选哪一个？怎么选？它有一个消耗函数，叫cost的一个函数。

什么叫最小消耗？就是你这样回最容易获得胜利，消耗最小的体力，让你觉得最舒服，不适感最低。你要做这样的一个选择，实际上就是计算一个最优解出来。预测之后在不同的结果中选择消耗最小的那个去执行。

安全与结构化

所有的安全约束都可以在这去计算。如果你说我现在把球打出去以后，它有可能会出界，这就是一个安全约束了嘛。这就属于一个消耗很大的一个因素在里头，那么我们就不要选择这样的一个结果，我们要选择其他的动作去做。这就是最小消耗。

它的安全也是在刚才我们讲计算最小消耗的时候就可以直接计算进去了，所以它是一个结构化的安全方案，将安全直接写到底层的硬代码里头去，通过优化实现安全。也就是先模拟，确保满足所有的安全约束，才进行执行。我模拟了以后，你这个安全约束一旦违反了以后，你的消耗函数就会给你返回一个巨大的值，这个选项就直接过滤掉了。它是通过这样的方式来保证安全的，是很难越狱的。

工作流程总结

首先我们要提出动作的序列，先要有一个计划；
然后在世界模型中进行模拟（当然这个模拟是分层去模拟，高层是什么样，底层是什么样的）；
然后评估成本，找到最小消耗，也就是最小化不适感，让你这个动作做完了以后舒服；
根据这个评估的结果对这个动作进行优化，并且执行，作用于真实世界。

这就是这种世界模型的一个运作方式。

第四块：行业点评与未来展望

点评其他“世界模型”

杨乐坤对于现在行业中正在研究的各种号称是世界模型的项目是如何点评的？他说伊利尔的这个SSI（就是超级安全智能），现在完全搞不清在干嘛，可能已经成了一个笑话了。就是伊利尔自己也搞不明白在干嘛，他的投资人也搞不明白他在干什么，这个就没法整了。其他的有些点名了说这几个还不错，那几个不怎么样。但是李飞飞的世界实验室并没有被点名。

杨乐坤给出了评判的标准：什么样的是真世界模型，什么样的是错误道路（依然是在大语言模型的基础上继续狂奔的）。它的判断标准就是：所有生成式的、生成所有像素的，这种都跑歪了。而李飞飞的世界模型，包括OpenAI的Sora世界模型，都属于这一类。他们都属于是生成式的，要生成视频的，要生成所有像素的，这个事都是错的。只有在抽象世界中，基于基本原则去进行预测和规划，才是正确方向。

与大语言模型的关系

杨乐坤的世界模型与现在的大语言模型之间到底是什么关系？是不是要颠覆？倒也不是。他的预测是：未来世界模型负责底层逻辑，而大语言模型只负责语言的部分就可以了。

就像我们现在大脑里头，其中有一部分是只负责语言部分的，而且这一块很小，只发展了可能100万年，很短的一段时间。而大部分时间，这个动物的大脑都是在跟物理世界打交道的。我们人类也是先在物理世界里头去进行各种判断，然后再去用语言输出或者进行交流的。就像刚才我讲这个打羽毛球这个过程，如果你一边打羽毛球一边把所有的步骤和思想过程全都变成语言，你就打不着球了，这个人是反应不过来的。我们经常说“手比脑子快”，我还没想明白，我的一个习惯动作已经上去了。这个世界模型就是要去做这些事情，语言只是需要的时候我再进行描述。

第五块：AMI公司是干什么的，怎么挣钱？

最后咱们讲一下，杨乐坤准备创业的AMI公司到底是干什么的，以及怎么挣钱。他这个AMI叫“高级机器智能”，准备融资5亿欧元，估值30亿欧元。

为什么融欧元？因为他准备放在巴黎，总部在巴黎，在纽约设办公室，所以他要融欧元。那这5亿欧元里头，Meta是重要合作伙伴，但不是股东。至少在这一次他做访谈的时候说了，Meta不是股东。Meta是不是给钱这个事，还要等他这5亿欧元彻底融完了以后才能知道。目前在融资，但是没有披露融资的细节。

杨乐坤是董事长，并不是CEO，应该还是要再找一个年轻力壮的人去做CEO。杨乐坤也65了，虽然在这种顶级科学家里头不算特别老的吧，但是肯定体力也没有那么跟得上了。

逃离硅谷与开源研究

在巴黎设立总部、纽约设立办公室，原因就是要逃离硅谷，因为硅谷现在已经被单一思想给垄断了。其实欧洲人看美国人的方式，跟纽约看硅谷的方式，以及硅谷看中国的方式都是一样的。什么意思？大家都觉得我们是在做基础研究，对面那帮人是在做应用研究。欧洲人就觉得我们在做基础研究，美国人都在做应用研究。美国的像纽约、波士顿这些东海岸的人去看西海岸的硅谷，想的也是这样：东海岸我们在做基础研究（像什么哈佛这些人在做基础研究），西海岸的这些（像什么斯坦福、UC Berkeley、包括硅谷）你们都是在做应用。硅谷看中国也是这样的，说我们在做基础研究，你们中国人只管超过去做应用就完事了。大家都是这样的一个思路，所以现在杨乐坤说算咱们欧洲干去。

杨乐坤要求要做开放开源的研究。他说不公开发表就不是真正的研究，这就是他跟Meta最后闹掰的一个核心原因。他希望他的各种研究可以公开发表，而亚历山大·汪进去了以后说不行，你必须要经过我审核了以后才可以发表。所以一气之下老头跑了。

杨乐坤为什么要求必须要公开发表？

他说你如果不公开发表的话，就容易自欺欺人（估计讲的是Llama4）。这个事必须要通过同行评审，才可以确保研究方向的严谨性以及结果的可靠性，所以必须公开发表。
开源则是吸引顶尖头脑的最佳手段。很多研究成果转化成产品需要数年甚至数十年，允许研究人员发表论文并且开源他们的结果，可以提供及时的激励和成就感，所以还是要鼓励开源的。
开源是实现AI多样化的唯一途径。杨乐坤是反对垄断的，他在Meta做了12年，做出Llama大模型来就是为了反对谷歌和OpenAI的垄断。
开源也是促进文化多样性的一个手段。如果被垄断了，那就没有文化多样性了吧，只有开源了才有不同的大模型可以去玩耍。
开源也是商业与经济最好的一个结果，可以在商业和经济上得到最好的回报。因为开源可以很好的赋能各种垂直领域，因为只有你开源了，别人才可以去这些垂直领域，才可以更方便的去跟你合作，可以最大化经济影响。

其实开源这里有一点杨乐坤并没有提，开源最大的好处是建立事实标准。因为一旦事实标准建立了，你整个这个系统就可以躺在那吃饭。现在英伟达的CUDA就是一个事实标准，虽然它并不开源，但它依然是一个事实标准，所有人都难以逾越。

商业模式

最后，AMI怎么挣钱？又是开放又是开源，我还要发表论文，我所有的产品我一开源了，别人就能用了，到底怎么去挣钱？现在他们的设想是，做好这个世界模型以后，为自动驾驶和机器人这些需要在物理世界中、需要在连续的时间序列中去做决策的这些企业，提供基础模型以及提供各种技术的支持和服务，通过这种方式去挣钱。

结语

最后总结一下今天的话题。对于我以及听众们都是一次考验，我希望我把杨乐坤的世界模型到底怎么做给大家讲明白了，或者让大家觉得我自己明白了也行。让我们尝试去理解杨乐坤的世界模型具体想做什么。期待杨乐坤在新的方向上依然可以做出有价值的贡献，不为短期经济利益所屈服，勇于尝试不同的方向，科技才可以进步。

好，这就是今天的内容，感谢大家收听。请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：high-contrast watercolor painting, empty New York University computer lab interior, rows of sleek monitors and keyboards on long desks, ergonomic chairs pushed in, large windows with city lights filtering through, glossy reflections on screens and tabletops, neon cyan rimlight outlining equipment edges, deep navy background, sharp subject separation with extremely legible negative space for text overlay, minimal palette of ink blue neon cyan and subtle gold accents, cinematic composition, ultra-detailed, intricate linework, –ar 16:9 –raw –s 250 –v 7.0 –p lh4so59

OpenAI的用户行为报告，隐藏哪些秘密？富人与穷人AI用法天差地别：一个当协作伙伴反复推敲，一个要一键生成不看不改，报告揭示残酷真相｜Social Impact of AI

Luke Fan — Thu, 18 Sep 2025 00:51:34 +0000

OpenAI和Anthropic都发布了用户行为报告，这里面到底告诉我们了什么秘密？

大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI跟Anthropic都发布了用户行为调研报告，最新的应该是OpenAI的，是9月15号发布的，Anthropic要稍微早那么一两天。我们为什么要去看这些报告呢？这里头会有很多很多的秘密。

原来我们去研究过百度搜索关键词报告。大家知道百度里边搜索什么词最多吗？这个可能一般人想不到，百度里边搜索排名第一的词是“百度”，中文两个字“百度”。为什么是这样呢？因为百度购买了大量的搜索入口，或者是叫地址栏入口，你在地址栏里直接输入这个信息，就直接去搜索了。很多人呢，说“我要去百度”，就到地址栏里打“百度”中文两个字，然后一个回车，你就进去搜索了“百度”，等于在百度里边搜索了“百度”两个字，再去搜索自己想要的东西。这个是不是听着非常奇葩？这个反而也告诉我们，得屌丝者得天下。这么去使用百度的人，他们的文化程度和使用习惯到底是什么样的，大家心里要有一个数。以前每一个产品经理上来说“我要去做一个给聪明人用的产品”的时候，我们就都会给他讲这个故事，就是这么神奇。

从OpenAI跟Anthropic所发布的AI使用报告里头，我们也可以看到，到底是哪个国家人用、哪个州的人用、什么样学历的人用、有钱的人用还是没钱的人用、有钱人用跟没钱人用有什么区别。这个是值得去学习的，可能会给我们一些就像刚才我们讲“百度里边搜索百度俩字”这样的一些意想不到的启示。因为在我们去想说要创业，还是要去做一个什么商业的时候，我们都是在以自己为客户去思考问题的，这个是不对的。我们去看这种大的用户行为报告的时候，就会去打破这种桎梏。

OpenAI的发现是，ChatGPT的非工作对话已经占到70%了，人们越来越把AI当做生活伴侣，而不是办公工具。虽然用ChatGPT解决工作问题的总数在上升，但是比例在下降。现在跟他闲聊天，问一些跟自己生活相关的事情，这些比例现在已经占到70%了。

而Anthropic的结论是什么呢？越富裕、学历越高的群体用AI越多，也越偏好于协作；不是那么富裕和学历没有那么高的群体呢，用的肯定就越少嘛，而且呢他们喜欢什么呀？叫一键获得，或者一句话得到一个什么什么结果，喜欢这种不劳而获的方式。所以呢，AI使用的方式就像一面镜子，可以照出贫富差距、教育分层和未来的商业机会。

今天呢，咱们就根据这两份报告，也就是OpenAI的用户行为报告和Anthropic的用户行为报告，来看看未来10年或者未来一段时间，哪些人会变得更聪明、更富有，哪些人会被甩在后面。

首先我们来看一下这个数据。ChatGPT现在周活跃已经到7亿多了，这是一个非常吓人的数据。而且还要注意一点什么？就是在ChatGPT上，用户的单日使用时长是非常非常长的。大家知道谁长吗？TikTok长。TikTok跟抖音的日使用时长是接近一小时，50多分钟。ChatGPT的日使用时长可能比TikTok还长，所以这是一个非常非常恐怖的现象。我们要知道，在互联网时代、移动互联网时代，什么是财富？我经常会讲流量是财富，而流量这个东西的最明显的衡量工具，就是用户关注和用户时长。你有7亿人的周活跃，日活跃肯定是上亿了，应该可能在两三亿左右吧，日使用时长还能够接近一小时，或者是至少是30分钟往上吧。

现在ChatGPT上每日的消息是25亿条，这个是2025年7月的数据。非工作信息占比呢，从2024年6月的53%，提升到2025年6月的73%，这是一个非常重要的数据，就是大家在里边去做很多跟工作没关系的事情。这个数据背后有很多很多含义，待会咱们再具体解释。

现在呢，使用ChatGPT最主要的目的是有三个。第一个是实用指导，“我要干一个事儿，帮我指导一下”。第二个呢就是信息查询，这个可能是我用的比较多的一个。第三个呢是写作。这三个加一块大概占八成。写程序占的是比较少的，当然还有一个占的更少，待会我们再单独去强调一下，这个占的最少的这一项，未来可能是大家需要注重提升的。写程序这个呢，原来都被Anthropic 3.7或者4.0 Sonnet这样的模型占走了，现在的话GPT-5 Codex会慢慢地把流量再重新拉回来。

我不知道你们是怎么使用GPT的，我现在使用GPT的时候都是在Chrome里头开一堆窗口。我其实很少使用ChatGPT的这些手机客户端或者是电脑桌面的客户端。为什么？因为它是个单线程的，你打开了以后有一个聊天窗口，你要一直跟它聊。我现在比较习惯的是在Chrome里头开一堆窗口，有一个、两个是在这办公的，剩下的都是在这聊闲天的。可能很多人是跟我一样的工作方式吧，一边去跟他聊说最近有一些什么样的事情，这个样的一个新闻背后有什么样的一些背景知识——这就是我的工作嘛；另外一边我可能也在问他说，最近上哪去骑行，周围有什么样好的景色呀，上哪可以去玩无人机。而且呢，因为你要跟ChatGPT去做这种深入研究，它很慢。你给他提了一个问题以后，他在那需要跑个20分钟，你就需要在这个时间里头去做一些其他的事情。以前呢，可能这些需求都是被什么抖音、小红书，都被这玩意满足了，现在不费这劲了，直接都在ChatGPT里头折腾了。而且我现在比如说看到抖音、小红书上讲到一些有趣的信息的时候，我也会回到ChatGPT上来问他说，这个事是怎么回事，那个事是怎么回事。

所以我现在使用ChatGPT的话，大概也是有70%左右的聊天呢，是跟工作无关的。这个最主要的原因是什么？是跟工作有关的聊天需要字斟句酌地写一个很长的提示词，然后等着他去搜集信息，跑20分钟跑出来，然后我要再花十几二十分钟去阅读。而这个跟工作无关的信息呢，你可以快速地去跟他聊天，“今天这样怎么样”、“明天天气怎么样”，你可以快速地来回，所以跟工作无关的信息反而占比比较高。但是我相信消耗算力上来说的话，应该还是跟工作有关的问答消耗的算力要更多一些。

所以现在呢，ChatGPT从它的角度上来分析呢，它已经逐渐地在从办公生产力转变成了生活小助手，而这里头呢是有很多的商机的。我相信可能有一些老板听到我讲前面这部分的时候，就已经想了，说我花了钱，特别是有一些公司花钱给员工买账号的这些人，还有一些人买这种叫做企业账号或者是团队账号的这些老板，他们可能会想说，我怎么能够限制他们？你花了我的钱买了账号，你就不要去跟他闲聊，或者我能不能检查一下你是不是用我的账号去跟他闲聊了。我建议这些老板不要这么想问题。为什么呢？因为闲聊的部分可能才是未来的商机。很多人都在抱怨说，这个ChatGPT出来以后，大家都在失业裁员，上升了用户量和用户时长没有增加，交易也没有增加，但是呢工作效率提升了，不需要这么多人了，降本增效了。我每一次出去做线下活动，或者说我们做直播的时候，都有人问在AI时代，我们干这个还行吗？干那个还行吗？问题在哪呢？就是在大量的新场景没有被发现，而这些新场景就在于我们跟ChatGPT聊的这70%多的无用信息，或者叫非工作信息上。把这些东西好好利用起来，就会有新的商机，就会有新的交易。如果一个老板光想着我怎么能让员工少占我点便宜，那这样的企业估计也混不了太长。

那下一个问题呢，到底是穷人用AI多，还是富人用AI多？是高学历用的多，低学历用的多？他们到底有什么区别？很多人都在讲AI平权，AI平权，我们有了AI以后，所有人都在信息面前平权了。还有人在讲，说AI会赋能给富人和大企业以及国家机关，让他们可以靠更大的算力、更多的数据、更多的资源，然后让富人更富、穷人更穷。到底哪一个是真相呢？

在这个里头，Anthropic的这个报告写的会更清楚一些。从国家层面上来说，人均GDP每增加1%，AI的使用指数增加0.7%，就是越有钱的国家用AI越多。这个其实大家能够理解吗？因为穷的国家你没有网，没有显卡，也没有数据中心，你用啥AI嘛，这个就不要费劲了。越是有钱的国家用的就越多，这个一定是如此的。从美国各州的情况来看呢，GDP每增长1%，Anthropic的Claude使用量会增加1.8%。美国原来也讲中间铁锈带了怎么样了，东海岸了，西海岸了，怎么样了，美国用Claude最多的三个州应该是华盛顿特区、加州和纽约，跟大家的想象应该也差不太多吧。当然了，低收入国家呢它基数也小，现在增长也是非常非常快的。到底是不是可以真正平权呢？可能还要再等一等看。所以从现在看呢，肯定是越有钱的人、越有钱的国家、越有钱的州，用AI的这个比例就越高。而他们使用了大量AI以后呢，一定会创造更多的价值。所以从现在这个发展趋势来看，应该是富人越来越富，有钱的国家和地区会变得越来越有钱。但是呢，并没有一个闸门或者界限说你们这些穷的国家、这些穷的州或者人，不可以用这个东西。所以现在这些低收入的国家，GDP比较低的国家呢，也在快速赶上，所以在这里并不能够得到一个很明确的结论。

那你说学历对这个事是不是有差异呢？高学历的人是怎么用AI的，低学历的人是怎么用AI的呢？很多的人去问我们，AI来了我们还需要去上学吗？我还要去学计算机吗？我还要去学这个、还要去学那个吗？学文科还有用吗？虽然我每一次都会告诉大家说，努力去学习，这是非常非常有用的，学习了以后你会更好的使用AI，但是以前是没有数据支撑的。原来咱们在拍脑袋，在凭想象，现在数据来了。

现在根据Anthropic的统计，高学历和高薪职业呢，更倾向于把AI当做工作助理。他们的核心任务是写作和语言加工，占最大比重。但是大家注意，这些让AI写东西的人，包括在ChatGPT里让AI写东西的人呢，他绝对不会说“请给我写一篇报告”，绝对不会干这种事情。因为你如果去说这个话的话，AI一定会给你吐出一篇口水文来。他们通常是什么呢？首先要自己写一篇文章，他们用的最多的是请AI帮他进行文章的润色。“文章我已经写好了，请不要去改变我的主题思想，不要去改变一些细节，但是呢请在语言上帮我进行一些润色，或者帮我提些意见。”这是最主要的用途。而且呢，他们会反复的去跟AI沟通，“我这儿觉得怎么怎么样，你那个地方给我提供的信息好像还稍微少一点，我哪个地方稍微觉得有一些……啧，读着不是很舒服，再帮我调整一下。”他们会跟AI反复地去沟通。反过来，低学历和低薪职业的人去使用AI的时候呢，他们更喜欢叫一键生成，“请给我生成一份报告”、“请给我一次性提交一个什么样的结果”、“请直接告诉我下个礼拜应该买哪只股票”，他们喜欢干这样的事情。

从这个点上来看，学习怎么思考，学习怎么跟AI协作，这对于我们未来在AI时代是非常非常重要的。所以高学历和高薪职业的人更明白应该如何让AI帮助他们思考，他们是让AI来辅助他，而不是说让AI直接给我写一篇报告出来。而且相信我，那些一键生成的人，AI写出来的报告，他连看都不会看的，就会直接交上去。我记得前面还跟大家分享过一篇也是美国著名大学写的这个文章，让AI写的文章，参与者觉得一点参与感都没有，里边的内容完全不可复述。这是使用AI非常糟糕的一种模式。

从Anthropic的数据来看呢，用的多的国家和群体更偏重于协作性，而用的少的国家和群体，也就是刚才我们讲这个相对来说GDP比较低的这些国家呢，更偏重于自动化、一键搞定。但是呢，全局自动化，也就是直接给一个指令出结果的比例正在上升，这是Anthropic发现的一个规律。这里边呢有两个原因，第一个原因是越来越多的比较穷的人现在开始使用AI了；另外一个规律是什么呢？就是企业大量使用API去包装AI的功能，他们呢其实面对的用户是喜欢一键得到解决方案的。这个是有一些差别的。

如果我们在企业内部，比如说各种的报告、各种的文书，我们都让AI一键生成了，那么这个企业呢也就没有什么存在下去的必要了。如果说企业通过API封装了以后，为他的客户提供了一键生成的一个结果的话，那可能是一个未来的方向。这是有巨大差异的。为什么呢？因为企业所服务的用户，屌丝占大多数，得屌丝者得天下，一定要记住这句话。而企业内部如果大量的上下行文都使用一键生成的话，那说明什么？就是说内部全是屌丝，这样的企业没有存在的必要，完完全全可以解散开，由AI来替代它的功能就可以了。所以我们要想清楚，使用AI一键生成到底是好事还是坏事，看对谁说。如果我做了个工具，使用甭管是OpenAI也好、Anthropic也好，或者其他的这些AI API，然后去给客户服务，一键生成了，我是好样的。如果我是一个企业或者是政府机构，我内部大量的一键生成，哼，那就完蛋了。

下面呢我们来讲一下这些非工作场景的问题吧。刚才我也讲了，我一边在工作的时候，一边会向ChatGPT提很多跟工作无关的问题，这些非工作占比已经超过七成了，而且还在快速增加。那么这个里面到底有什么样的商机呢？比如说个性化的学习，我经常会问他说，今天有人在去告诉我吉梦4.0有一些新的用法，帮我总结一下。这个ChatGPT就会帮我总结有哪些用法。我说Midjourney升级了，我在小红书上看人画的画可漂亮了，帮我总结一下到底有些什么样的新的功能和特性，让我去试一试。他就会帮我去总结。这对于我来说都属于娱乐，这不算工作。然后健身跟饮食，你像我经常说上哪去骑车呀，虽然我现在骑车还算不上健身，还算是一个小的娱乐。饮食我也很喜欢，吃饭这件事，你去了解它的历史和文化呢，可以让吃饭本身具有更大的意义，会觉得我虽然只吃了两口，但是真的得到了很好的情绪价值，这个是很重要的。还有一些数字秘书的工作，我也是会让ChatGPT去做的。比如说帮我去做一些订阅呀，或者是帮我总结一些八卦呀。因为我也会看到很多的八卦信息，今天还特别逗，看到有一个邮件给我写过来，说我们叫MetaGPT-X，说我们想请你给我拍广告，拍一条给6,755美金。我一看这名字，又是Meta又是GPT又是X，还给6,000多美金一条，这6,000多美金很多钱，我就去问ChatGPT，我说这个是骗子吗？因为起了这样的一个名字，还给了这么高的一个价格，你说他不是骗子也有点奇怪。ChatGPT大概用了5分钟的时间，搜索了各种的论坛、社区以后告诉我说，虽然没有直接的证据证明谁在里头确实丢了钱了，但是呢确实有很多人抱怨他们像是骗子，因为他们发了大量这样的垃圾邮件出来。而且你看他这个名字，又是Meta，又是GPT，又是X，把三个非常著名的AI公司的名字拼在一起了，一般不是骗子不干这事。而且呢，他们发邮件的域名呢也经常变来变去的，像是一次性注册了很多域名去给大家发这种垃圾邮件，骗着一个是一个。但具体他们是怎么骗的，谁真的上当受骗了以后出来骂了，到目前为止还没有看到。这就是数字秘书。我现在用GPT干这些事情，就刚才我讲的这些呢，都是有可能能够成为新的赚钱的方向或者创业的方向的。

其实更多的人呢，通过AI呢是获得了选择权的，也就是获得了前所未有的自由。这意味着什么呢？就是非工作领域的很多商业价值是远没有被挖掘的。原来只能坐在这上班，现在我可以在工作的同时，在后边还去思考很多别的东西，甚至去玩副业。我记得原来有人去讲过说，中国人上班跟欧洲人上班有什么区别。说中国人上班的工作时间很长，但是呢工作效率其实没有那么高，因为我们一边上班呢一边还想着很多其他的事情，甚至呢上班的时候有大量的互联网流量是用来刷抖音、刷淘宝、刷小红书，真正拿来上班的时间其实并没有那么高。而欧洲人的话，他们上班的时候就是上班，想别的东西的比例要比中国人低吧，但是呢他们后边的休假很长，休假的时候他就彻彻底底去玩去了。在AI时代，可能中国人这种方式才是更适应AI的一个方式，就是一边你让AI干着活，另外一边你把后边所有这些副业的、后边所有的这些时间都去变成一个商业的活动跟行为，每一个人都可以有自己的选择，甚至说每一个人都可以有自己的副业了，这可能就是一个未来。

关于企业的问题呢，在这里想再强调一下。企业如果能够用AI很好地实现一键服务屌丝用户的话，那这个企业会向前走。如果这个企业在内部大量的使用AI进行内部自动化和这种替代的话，那这个企业可能会被替代。那么企业，特别是很多这种大型企业，在AI时代到底会变成什么样呢？这种大型企业在AI时代可能会被小团队快速替代。原因呢很简单，因为越是大型的企业，他以前背的包袱就越重，它内部的这种流程、规章制度就会变得越复杂，而这些东西本身就是非常适合被AI所取代的。而原来这些大型企业里头又有非常多的人，他们不能失去自己的权利，他们要求说不可以上网，不可以把哪些数据外泄，不可以去使用哪些东西，他要保证自己的数据权利。什么叫数据权利？就是在一个企业里面，上层的领导通常要比下层的下属掌握更多的数据。在AI平权以后的话，他们是不愿意失去这种权利的。所以呢，在AI使用的过程中，这些大的企业反而容易被那些小型企业所替代掉，因为他们可以靠AI自动化把原来一个大型企业里边内部的各种的流程、什么自动化全都完成掉，然后直接向用户提交最终的服务。而对于最终用户来说，他是没法去比较说，大企业经过内部的层层审核得到的结果，和小企业通过AI直接得到的结果，到底有什么样的差异呢？甚至小企业通过AI得到结果可能还更好一些，因为它动作会更灵活、更敏捷嘛。

最后呢，跟大家讲一下我们到底应该怎么用AI。以今天这个口播稿形成的过程为例，这口播稿是怎么来的？首先我看到了这样的一个主题，然后呢我得到了自己的结论。这个结论不是由OpenAI得出的，也不是由Anthropic得出的，而是我看完了以后，自己思考加工了以后得到了结论。然后我会把结论描述清楚以后，告诉ChatGPT说：“你好，我现在要看这两篇文章，就是OpenAI的这个ChatGPT的使用报告和Anthropic的用户使用报告，两个文章的链接在这里。我得出了哪些哪些结论，请帮我去写一个YouTube的口播稿。”他就去给我写去了。我还告诉他，“请从老范讲故事的这些博客里边去引用。”他把所有我给他的信息都读完了以后，给我做了一个这样的演讲稿出来。得到这个演讲稿以后，我还要不断地去看，“你把所有的故事都给我集中在最后了，这事不行，你要给我穿插到中间去，要让故事跟我要讲的内容有机的进行结合。”然后他就进行调整。调整完了以后说，“我还要再补充几个观点，请把我补充的观点糅合到前面的这些章节和段落里边去，重新再修改。”通过这样的一个过程，大家看到，第一，我自己先阅读了；第二，我得到了结论；第三，我让AI去把更多的信息和内容根据我的结论总结在一起，然后形成了稿件；第四，我对着这篇稿件阅读了以后，重新提出修改意见，反复修改了三四轮，得到了今天大家所看到的这样的一个口播稿。

所以，这就是一个使用AI的方式。我也没有说这是一个富人、高学历、高薪职位的一个使用方法，我现在是一个无业游民，但是我觉得我使用AI的过程还是比较高级的。

希望大家学习总结一下，使用AI呢要有五个步骤：

第一步，要把AI当合伙人来用，不要把AI当个家电来用。什么是家电？把这个鸡蛋羹放到微波炉里按一下“叮”，然后鸡蛋羹好了，那玩意叫家电。但是你说我现在要去跟一个助手去一起讨论一下，这个鸡蛋羹应该怎么做更好吃，应该使用什么样的鸡蛋，怎么打发，使用热水凉水，加盐不加盐，怎么做更好吃一些，这个是真正使用AI的方式。如果你把它当一个微波炉，它就只能起到一个微波炉的结果。

第二个呢，就是自动化过程只能在边界清晰的环节去使用，而且最好是对外的环节去使用。如果内部需要做自动化的话，要么就裁员，你就没有必要说让人在这个自动化环节里边再去占这个位置了；要么就干脆说，我们是不是可以把一些原来在这里有人可以做决定、可以盖章的这个职位去掉。

第三个呢，非工作的场景会有很多新的机会，大家可以快速的去试水。我们就要去思考，说到底在哪些非工作场景上使用AI了，使用的效果还不错，那就可以想一想怎么在这里边去发现一门新的生意了。

第四个的话，就是一定要保留人类的原创表达，避免直接被AI牵着鼻子走。而且AI产生的结果一定要进行一些调整和改变，一定要进行校验，绝对不能给AI一个开放的命令，然后拿到它的结果连看都不看就当成自己的内容就发出去了。

最后一点，在ChatGPT里头有一个使用范围用的人很少，这个使用范围是什么？是自我改进和人与人的关系。这个在所有的ChatGPT的使用量里大概只占1.9%，而这一块呢可能才是未来最重要的一点。在AI可以更好的干好AI的事情的时候，我们这些人就要更好的成为一个人。在这个过程中的话，这些大型的AI助手都是可以为我们提供帮助的。

这就是给大家使用AI的5个建议，是通过我们去阅读OpenAI和Anthropic两份用户行为报告得出的一个结论。

好，这个故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

GPT-5 发布！是革命还是挤牙膏？深度解读AI竞争新格局！AI价格屠夫来了！开发者和创业者的黄金时代开启？

Luke Fan — Tue, 12 Aug 2025 00:51:22 +0000

大家好，
欢迎收听老范讲故事的YouTube频道。
今天咱们来讲一讲GPT-5发布了，到底是又一次划时代的革命，还是开始挤牙膏了呢？

8月8号凌晨开的发布会，我呢看了一眼就去睡觉了，实在是没有功夫把它都看完。北京时间凌晨1点开始发，我今天看了一下回放，大概是一个小时十几分钟吧，但是我并没有特别耐心地把它们都看完。

GPT-5到底有什么不一样的呢？

首先，这一次的发布会跟OpenAI以前的发布会，有一些巨大的差异。第一点大家有没有注意到，就是这次发布以后呢，没有出现服务器拥挤宕机的情况。以前甭管是Sora呀，还是GPT-4o这些产品发布的时候，紧随而来的都是OpenAI的服务器拥堵宕机。这次没有，第一时间就可用，免费版也可以使用，速度还挺快的。我自己反而感觉速度还可以，应该呢是进行了一些实时的算力分配，简单的问题就没必要消耗那么多的算力。原来呢，大家都是要尽可能用最大的模型，你哪怕问一个“你好，今天天气不错”，他也得把那个最大的模型跑起来。现在的话应该就不需要干这个事了，他发现你去问“你好，你是谁，你到底是哪个版本”的时候，他可能做一些很简单的回复，消耗的算力就比较小。这是第一个比较大的差异。

第二个比较大的差异是什么呢？这一次没有哀嚎一片。原来OpenAI每次开发布会以后，通常都是哀嚎一片：“完了，我们创业白创了，做的事情被OpenAI覆盖了，创业公司天塌了。”这次还好。那这个是不是代表着OpenAI就开始挤牙膏了呢？还是说恰恰是一个新时代的开始呢？服务器也没崩，说明他肯定是有一些算法的优化在里头，但是是不是大家也没什么兴趣？另外一方面，没有哀嚎一片，是不是他也没做出什么东西来呢？咱们要去看一看这个问题。

除了GPT-5发布之外，还有一个很重要的新闻是什么？说马斯克在那说风凉话，有人在那尬吹，有人在那开骂了。跑分呢，其实是必不可少的。GPT-5这样的东西出来以后，必然要跑分，但是现在大家对于跑分也没有那么重视了，因为跑分好的这个模型其实未必好使。在这个里头有两项跑分呢，没有跑过Grok-4，就是马斯克自己的模型。马斯克就出来发了一个X，说“Grok-4 Beats GPT-5 on ARC-AGI”，在这个测试里头我们把它打败了。

ARC-AGI是一个什么样的测试呢？它呢是常识推理和复杂问题解决能力的一个测试。模型呢找到类似于大学入学考试难度的问题，让AI在有限信息里头进行推理，得出答案。就是做这个测试的时候呢，是不可以联网的，不可以调用工具，必须是使用模型本身的能力去做测试。它呢偏向于测模型的思考能力，而不是背诵搜索信息的本事，对于AI的生成推理挑战更高一点点。在这个里头呢，GPT-5是怎么输给Grok-4的呢？GPT-5呢使用的是GPT-5 BASE模型，它的正确率是9.9%，而Grok-4呢使用的是Grok-4 thinking模型，就是思考模型，它的正确率呢是15.9%，足足高了6个百分点。

但是大家注意了没有，这里头好像有些细节不对。GPT-5使用的是base基础模型，而Grok-4呢使用的是思考模型，thinking模型。那你说如果GPT-5使用thinking模型，或者是thinking Pro的这个模式，是不是能够反超呢？这个不知道。为什么呢？thinking模式肯定要比这个base模式消耗更多的算力和TOKEN，它有更高的正确率，它是合理的。马斯克是不是作弊了？也不能这么算。为什么呢？因为他这个测试的要求呢，是不可以调用外部工具，要依赖自身的能力完成测试。对于是不是要使用thinking模式，或者是不是要进行多步推导呢，这个测试本身并没有要求。你愿意一步到位，还是愿意多步思考，这些都没毛病。那你说是不是GPT-5高风亮节一下，我就测一下base模式一步生成？也没那么夸张。这个原因其实挺简单的：GPT-5的thinking模式和thinking Pro的这个模式，默认是要调用外部工具解决问题的，关不掉。所以它只能用base模式来参加这个测试，如果用了thinking，你就调用外部工具就作弊了。Grok-4呢，它是可以在不调用外部工具的情况下进行推理的，所以呢Grok-4它也没有作弊。但是要注意一点，你不调用工具直接去thinking，直接去进行推理的话，在现实工作中意义不是很大，就是我们完全靠模型自己的能力去推理，现实工作中一般不干这个事。

那么这是一项。另外一项Grok-4比GPT-5高的测试是“最终人类测试”。在这个里头呢，GPT-5 Pro，也就是最强的这个版本，答对了42%的题目；而Grok-4 heavy，也是最强的版本，答对了44.4%的这种题目。这个呢就没什么好说的，火力全开，都是用的最大的模型，工具链武装到牙齿，不计成本的情况下，Grok-4呢还是要稍微高出一点点，高2.4%的一个这样的一个比例。所以呢，在一些特别难的情况下，或者说进行深度思考的时候，Grok-4做的还不错。

那GPT-5到底更新了点什么东西呢？

第一个，统一大模型，不再需要选来选去的了。原来我们需要选GPT-4、GPT-4o、GPT-3…一大堆的东西我们要选，选完了以后还要进去选，说你是给我画画，你还是给我做其他事情，你要去选半天。现在呢就不需要了，你从统一入口就进来就可以了。当然了，它可以选择GPT-5和GPT-5 thinking，或者是GPT-5 thinking Pro。当然Pro呢，你必须要200美金的账号才可以选。但是你说，哎，我就选GPT-5了，我也没有去点击thinking，没有强制他使用thinking，这个没问题，该思考的时候他就会进入思考模式。而且呢，他发现你在跟GPT-5聊天的时候，进入思考模式是不计次数的。不计次数什么意思？待会收费的时候去详细讲这个东西。Pro版本，你没有200美金的这个账号，你就别用了，跟我这种Plus用户关系不大。通过API调用的时候呢，并没有一个模型叫Pro，通过API调用的时候就是GPT-5、GPT-5 mini、GPT-5 Nano这样的几个模型，然后自己选择消耗多少thinking的TOKEN就可以了。你进去的时候，你去选说我现在是深度思考一下，还是简单想一想，还是说拍脑袋就来，你自己去设计好。

GPT-5的上下文是256K，比Gemini还是短。Gemini 2.5 Pro的上下文是一兆，就是100万TOKEN，要比它大四倍，还是很强的。但是呢，也别羡慕这东西。当你向GPT里头去输上下文的时候，少于200K是一个价格，超过200K是另外一个价格，输的多以后要单独加钱的。

现在呢，GPT-5也不再区分各种功能、工具、任务，都不再管了。虽然有选择的地方，你还可以选说我现在是不是到canvas里头去做一些后期的编辑，还是说给我画画。但是呢，如果在聊天上下文里头，你直接告诉他“给我画画去，给我去做什么编辑”，它就直接过去了，你不需要再单独靠菜单去选择这个事情。

生成代码极其强大。这个事呢怎么说呢，我今天试了试，我觉得它生成代码还是有待提高的，特别是有的时候代码的格式、缩进什么的还有点小错误。现在呢，Anthropic的Claude一直是程序员最爱的模型。这里的话，OpenAI也做了一个很骚的操作，他呢把Cursor的CEO拎来了，说：“来，你给我演示一下GPT-5很强大。”这小伙子坐在那演示，说这个绝对是太强了。Cursor原来里边主流的模型就是Anthropic。为什么他跑来给OpenAI站台呢？因为最近Cursor跟Anthropic闹得不是特别开心。两个Anthropic Claude code的核心开发离职加入了Cursor，但是呢只在Cursor干了两个礼拜以后呢，又回Anthropic继续去开发这个Claude code去了。反正这种事搁谁身上谁都不会太爽。现在呢一群的程序员都在测试GPT-5的编程能力到底怎么样，这个效果呢还可以，但是我个人感觉距离Claude 4 sonnet还是稍微有一点点小差距，有待提高。

继续往前发展呢，跑分其实已经意义不是很大了。因为很多考试成绩很好的人，未必能够干的好活，更别说招人喜欢了。有一些人就是特别会考试，但是呢你跟谁聊天，跟谁去合作，大家都烦他，这种人是存在的。Anthropic的CEO曾经在很多个场合强调过一个事儿，说人们倾向于使用某个AI，不仅仅是因为其性能指标，而是因为其人格和性格特质。他认为AI的人格特质直接影响用户使用的体验和信任感。这个我是比较认可的，就很多人喜欢使用Claude，还是说Claude的整个的人格是比较讨喜的。

现在呢，GPT-5说：“我们也改进这件事吧。”原来呢GPT-4o的时候呢，会有这种讨喜型人格上来去夸你。现在说我们把这事改掉了，已经没这事了。现在呢是推了五个人格，你可以在五个人格里自己选。第一个是默认人格，上来你不用改它，叫“乐观灵活”，这是它的特性。第二个叫“挑剔者人格”，犀利毒舌，就经常骂你这种。第三个呢是“机械人格”，就是高效直言，上来以后有话我就直说了。还有“倾听者人格”，善解人意，如果有人需要诉说一下，你改成倾听者人格。还有一个叫“技术宅人格”，就特别热情，而且呢喜欢去刨根问底。这个人格还可以有一些更复杂的选择，它有一些属性你可以去选择去，包括：健谈、诙谐、直言不讳、鼓励性、z时代、传统型、前瞻型、思维有主见、谦虚、俏皮、直接、务实、企业、打破常规、同理心。你说上面这个5个不能满足我要求，你可以在下边挑一个自己最喜欢的。当然还有一些特殊的信息，你可以直接在里头写，比如说我这个人喜欢什么东西，不喜欢什么东西，下次他再跟你聊天的时候，会注意这些事情。这个是我觉得GPT-5一个比较大的提升吧。

另外一个比较重要的提升是什么呢？就是极大的降低了幻觉。AI哈，一本正经地胡说八道，就是他们最擅长做的事情。但是现在的话，GPT-5说我们已经把幻觉降低了30%-40%。所以呢，现在GPT-5的各种答案相对来说是比较靠谱了。我原来集中在使用Claude 3模型，觉得已经是比较靠谱了，至少比国内能够拿到的模型，或者像Grok、Gemini 2.5 Pro，比这些模型还是要靠谱一些的。那么现在的话，它在Claude 3的基础上再降低幻觉30%-40%，那我觉得这个已经是可以去做一些严肃的工作了，包括医疗健康，还有法律相关的工作，拿它去上手已经没毛病了。

然后安全上面呢，还是很严格的。这个是我不太喜欢OpenAI的一点，就是它道德制高点，我该干什么，不该干什么来它决定，这个事我是不喜欢的。这一次呢稍微做了一些变通吧，就是说原来你触碰红线呢，就直接告诉你说“对不起”，停止工作了。现在呢你触碰了红线以后呢，他还会尽量说点什么，不是直接就应声地给你停掉了，“我绕一下看看，我能够给你回答点什么，过线那部分我就不说了”。但是在这点上呢，我是站Grok这边的，Grok基本上还是百无禁忌的。

那么下边呢，谁能用？多少钱能用？我现在在网页上已经能用了。在这个网页端，现在我们已经不可以再去选择GPT-4、GPT-4o什么Claude 3都没有了，现在就三模型了：一个是GPT-5，一个叫GPT-5 think，还有一个叫Pro。Pro就是你点击了以后，就找你要200美金去了。大概就这三个模型可以选了，其他模型都直接隐藏掉了。这个是我现在的一个状态。

现在呢，免费用户也可以直接用，5个小时可以问10条，超过了以后就降级到GPT-5 MINI，这个比较小的模型去了。他们每天还可以用一条thinking，每天有一个额度。但是要注意，当我们使用GPT-5模型问了一些问题，GPT-5自己认为需要去推理的时候，这个时候是不占这条thinking的这个指标的。所以呢，我们在跟GPT-5沟通的时候，要更努力地去把这个问题提清楚，让他不要占我的指标，直接把该思考的问题给我思考清楚。大家需要技巧一点。当然了他设置这种技巧也是不怕大家去薅羊毛的。为什么呢？就是胡乱地去问一些简单问题，其实对于OpenAI来说是一个很重的负担。但是你说我每一个问题都三思而后行，想了半天再往里提，哪怕他thinking了一下的话，对于他来说这个负担都还是可以承受的。

那Plus用户，像我这样的用户呢，每三个小时呢可以使用GPT-5 50次，超过的部分就退回到GPT-5 MINI了。thinking模式呢是每周200条，估计基本上也够我使了。Pro用户，就是200美金用户，基本上就都可以用了，专门有一个Pro的模型是给它用的，其他的呢基本上是没限制。

但是呢，在这里要跟大家讨论一个问题，就是对于Pro用户来说，这200美金到底买的是什么？难道Pro用户的消耗量真的是Plus用户的10倍吗？不是这样的哈。山姆·奥特曼曾经自己发过X去抱怨过这个事。他抱怨什么呀？Pro订阅让他们亏了好多钱。为什么呢？这个原因很简单，你一旦花了这个200美金以后，你就肯定说：“我不能让他闲着，我一定让他干起来。”就跟原来甲方乙方的电影似的，大骡子大马们得让它活动起来，不能让它闲着。山姆·奥特曼自己写了两条推，一条呢叫做：“疯狂的事，我们目前的OpenAI专业版订阅上亏损了，人们使用它的频率比我们预期的要高很多。”另外一条说：“我亲自定了价格，还以为我们能挣点钱呢，最后发现亏钱了。”

这两句话呢，其实告诉我们一个什么？就是200美元这个价格，并不是一个经过财务人员精确计算出来的，而是山姆·奥特曼拍脑袋拍出来的一个价格。Xai也有这样的一个套餐，叫superGrok heavy，300美元一个月。Anthropic呢，有一个套餐叫Anthropic Max，是100美金到200美金的一个月。因为我没有用过Grok的套餐，所以它这个为什么是100美金到200美金，我不是特别了解。谷歌AI的Ultra也有一个套餐，基本上250美金一个月吧。大家到底为什么要去设这样的一个套餐出来？真的是说有大量的TOKEN需要消耗，有大量的算力需要消耗，我需要回点血吗？其实压根不是那么回事。

大家注意，免费版是没有忠诚度的，我今天用你两天，明天用他几天，这都没有忠诚度。Plus版本呢其实还是可以朝三暮四，我买两三个都还是承担得起的。但是Pro、heavy、Max、Ultra这样的版本，你一旦买了200美金、300美金、250美金这种，买了你就一心一意地用吧。所以呢，大家去买这种Pro版本的，其实买的东西是一个叫“投名状”的东西，就是我把我的这个身家性命交给你了，以后我就在你家老老实实干下去了。他要求的是用户去交这个投名状，而不是说真的拿200美金就可以cover成本了，这是200美金的这种套餐设立的一个目的。

再往后讲呢，你说今天他亏了，难道一直亏下去吗？也不至于。因为TOKEN的成本呢，是在快速下降。20美金、200美金都是一种用户绑定的手段。现在亏钱，以后是不是能挣回来呢？未必，以后也未必能挣得回来。那为什么呢？TOKEN成本下降的是一个速度，但是呢我们通过使用agent，通过使用工具，也在快速提升TOKEN消耗量的速度。到底哪个更快？现在不知道。可能TOKEN现在价格是原来的1/10了，但是呢我们现在使用的TOKEN量是原来的100倍，至少最近这一两年吧，是这样的一个变化趋势。过一段时间以后，是不是TOKEN成本下降的这个速度可以追上TOKEN消耗量上升的速度？有这个可能，但是市场目前还没看到。

那咱们再讲一讲API的价格。GPT-5的API价格是极具竞争力和压迫感的。GPT-5 BASE模型，基础模型，100万TOKEN的输入输出分别是1.25刀和10刀。输入100万TOKEN是1.25刀，输出100万TOKEN是10刀。这个其实已经很便宜了。它的MINI模型，就是比它要稍微小一点的模型呢，基本上就是在前面那个数字上除5，0.25刀和两刀的这个输入和输出。Nano模型，就更小的模型就是，在MINI的基础上再除5，就是这样来的。就这种东西都是拍脑袋拍出来的，千万不要认为说这个数是很详细的计算出来的，真计算出来那个数不会这么有竞争力。

为什么说它有竞争力呢？Gemini 2.5 Pro的这个价格，我们去比较一下。Gemini 2.5 Pro的价格，200K以下的，输入是1.25刀，输出是10刀。这个呢跟GPT-5基本上是一样的，GPT-5基本上是照着谷歌的Gemini 2.5 Pro去定的这个价格。但是如果我输入的TOKEN超过200K了，输入是2.5刀，输出是15刀，它就会有一个上浮了。Gemini 2.5是有Pro版本、Flash版本，还有一个叫Flashlight的版本，所以它整个的定位跟GPT-5基本上是一致的。它的Flash版本和Flashlight版本呢，都要比GPT-5相应的版本，比如mini版和Nano版，要稍微贵那么一点点。具体钱就不跟大家念了，基本上是稍微贵一点点。Grok-4，就是XAI的呢，只有一个版本，输入3刀，输出15刀。这个明显要贵很多，它要比GPT-5和Gemini 2.5 Pro都要贵。所以呢，Grok-4刚出来的时候，我用了一段时间，一个礼拜吧，然后就都改成Gemini 2.5了。

另外的Anthropic的Claude，它的价格是什么样的呢？它最大的模型，输入15刀，输出75刀，基本上是没有竞争力的，太贵了。Sonnet输入3刀，输出15刀，又是一个田忌赛马的故事。其实我们平时用的最多的模型就是Sonnet，效果已经很不错了。但是呢，现在的GPT-5，1.25刀嘛，它这是三刀嘛，所以还是要便宜很多的。原来你使用Claude 4 Sonnet，现在咱们就使用GPT-5就可以了。所以GPT-5的价格是极具竞争力和压迫感的。

AI竞争的格局呢，也开始向新的方向去进发了。第一个，谷歌Gemini 3应该已经不远了。虽然没有明说，但是呢普遍猜测今年年底我们是应该可以看到Gemini 3的。现在呢，谷歌已经进入下一个竞争阶段，谷歌跟OpenAI开始去抢别的东西了，抢什么呢？开始抢终端用户了。怎么去抢终端用户？免费用户就可以去使用Gemini 2.5 Pro了。他现在也在努力地把谷歌的Gmail用户，他的Workspace用户，向他的Gemini Pro版本去进行转化。而像OpenAI，他也是说GPT-5出来了，你们这些免费用户就可以用了，我一定要把我最好的一面展示给你，万一有一点转化率，说我今天想去充钱了呢。

马斯克的XAI呢，应该已经感受到压力了。在Grok的模型能力上，其实还是有一点点小差距的。Grok-4在进行复杂运算的时候还是很能打的，但是呢在综合能力上和用户体验上还有待提升。Grok我觉得最大的优势是百无禁忌，这块是我最喜欢他的点。用户体验上，马斯克到底是不是要继续往前跑？现在呢还没有看出苗头来。因为现在的Grok的客户端，Grok的各种功能，比OpenAI也好，比这个Gemini也好，差的还是比较远的。而这一块的话，不是靠天才可以搞定的，这一块是需要靠堆人才能追的平的。你需要很多的人，OpenAI现在的总人数已经超过了XAI的总人数，即使是XAI跟X合并了以后的总人数，OpenAI也是人更多一些。XAI现在大概是1200人，OpenAI 7月份的人数的话，现在有两个猜测，因为没上市嘛，非上市公司，它的很多的数据就靠大家猜。一个呢是SEO.AI他们猜的，OpenAI现在有2659个人，就基本上是XAI的一倍多一些。另外一个呢叫LeadIQ，他们猜呢，OpenAI现在应该有6400人。那差为什么差这么多？因为有一些可能是contractor或者是一些派遣员工，或者是其他的这种合同制员工吧，所以可能会有一些差距。但甭管是哪个数吧，都差好几倍。另外一些竞争对手，比如说谷歌、微软，那你这俩公司就别跟他们比了吧，谷歌18.7万人，微软22.8万人，你说你跟他们比什么劲。但是后边说我们现在开始进行终端竞争了，要去打造一个用户体验非常好的生产环境了，你就需要堆人。马斯克可能未来需要堆人把这个事情搞定。所以下面呢，要去进行这个终端用户争夺，你到现在为止，Grok-4我还没有在平台上用过，我只用过API。为什么呢？因为像我这种8美金的X用户，他不给我用，必须要去买30美金的超级Grok用户，他才让你去用Grok-4。到目前为止，马斯克还没有把这个弯子转过来，所以他还没有进入到终端用户争夺的这个战场上去，已经落后半步了。

另外一个落后的可能比较远的是谁？就Anthropic。为什么呢？从资本到算力上，它都相对来说比较受限，所以在价格上就能体现得出来，它所有的这个API的价格它最贵，而且贵的不是一星半点。最后要打价格战的时候，刺刀见红拼不过前面那几个。马斯克虽然现在争夺终端用户他抢不过OpenAI、抢不过微软、抢不过谷歌，但是他至少手里还有一个X，X上还有一堆用户呢，这是他的天然基本盘。而且马斯克别的不行，募资很强，他募了一堆钱切着咔嚓买显卡，把它堆起来去堆算力这事，它是很强的。Anthropic融的钱本身就不是那么多，虽然它的两个大股东一个叫亚马逊一个叫谷歌，说“哎我这有算力你来使吧”，但是呢你真的要真刀真枪的去跟别人拼的话，还是不行。但我估计后边会比较麻烦，虽然他们家的模型我也很喜欢，但是从商业角度上来说他们是很麻烦的。现在有传闻苹果要收购他们，但是我其实不太相信，因为苹果呢不太做这种特别大规模的收购，这么高的价格去收购的话，不是厨子这种守城之君可以做出来的决定。如果他真能做出这种决定来，当时他就把车造出来了，而不是说抠搜抠抠搜搜，最后整个Vision Pro出来，这个我估计他搞不定。

然后Meta呢，等着看他们一鸣惊人吧。挖了这么多人回来，超级团队，后边可能还会为我们带来很多不同的故事。现在进入了一个新的竞争状态。

这里还有一帮人，中国团队怎么办呢？中国团队呢，只能靠差异化了。开源更大更新的模型，把agent一起开源出去，这可能就是中国团队未来竞争的一个方向。因为你去卷大模型，你卷不过他们了，手里头没有这么多的显卡，没有这么多的算力，数据上也有受到一定的限制，我们去卷底层大模型这块就会比较费劲。现在中国的这些AI公司里头呢，字节是在走OpenAI这条路，就是我闭源，我就疯狂的往前堆，但是未来到底能堆成什么样还不好说，而且字节也在堆显卡，他很多显卡是堆在海外了。其他的像阿里、百度、MiniMax、Kimi这些团队呢，都在堆开源，把最新的、最完整的、最大的模型直接开源出去，争夺一些客户回来，争夺一些市场空间回来。所以呢，大家玩的是不一样的。

那么开发者跟创业者应该干点什么呢？这一次OpenAI开完发布会以后，没有哀鸿一片，这是非常好的事情。说明什么？AI agent大家还是可以继续做下去的。把具体行业的需求解决掉，这个是创业者和开发者该去做的事情。而且现在呢，底层模型也相对来说比较稳定了，它没有那么多的幻觉了，拿着这些模型就可以去做一些相对比较严肃的工作了。所以现在就是开发者、创业者要冲的时候了。

GPT-5的API呢，我今天测试了一下，比Grok-4和Gemini 2.5呢，能力上其实并没有特别明显的差异。速度和稳定性、价格，这就是后边要拼的东西。这一块呢，OpenAI应该还是可以去占优的。为啥？因为OpenAI自己压根不惦记挣钱。谷歌那后边是个上市公司，你赔多了这事肯定是不行的。而至于说Grok的话，现在虽然他没有那么惦记挣钱，但是马斯克很多的操作其实是比较粗犷的，这种真正需要绣花，一针一线的往前去拼价格战的时候，他未必跟得上这个节奏。所以我相信在这一块上，OpenAI会领先一点点。未来一段时间呢，大家应该都会加班加点，对每一个应用中的AI节点进行效果、速度、稳定性和成本的这种对比，去更换GPT-5的API。这就是开发者现在该干的活。

原来说AI创业很难，原因就是大模型厂商的边界不清晰，你今儿干着干着，明天被他覆盖了。现在的话，这块清晰了，他们就去干他们的事情，我们干我们的事情。所以呢，最初的问题其实已经解决了，赶快去找到方向去干活。

那么到底是在挤牙膏，还是新的时代到来了呢？首先要讲，OpenAI再次地给行业指明了新的方向。第一个叫模型融合，不要整一大堆模型让我挑来挑去的，你就给我一个，我自己呢做这个提示词，你根据我的提示词去给我反馈就完了。该多说两句的时候多说两句，该少说两句的时候少说两句，不要让我去选取。第二个呢就是自动的进行判断，对于什么各种工具的调用，这个是需要去做的。还有一个方向就是降低幻觉比例，你要想去解决实际问题，就要降低幻觉。这块呢是中国大模型差的比较远的一块。在这一块上Gemini、Grok和Claude都还是比较强的，虽然达不到GPT-5这个层次吧，但是已经是可以用的了。中国的像Deepseek、千问、Kimi、豆包这些模型，幻觉得一塌糊涂，现在需要向这块去往前走一走。降低幻觉的方式就是不断的加算力进去，反复验证，多做这种强化学习，但是呢这个是需要大量算力在里边堆进去的。

新的时代还是到来了。新的时代是以什么样的方式到来了呢？阶级逐渐固化了，分层的时代到了。顶层的就是模型商卷，顶层模型OpenAI这次真正卷的是谁？他卷的是谷歌，卷的是XAI，卷的是Anthropic，他已经不再去跟这些应用厂商去竞争去了。“我们玩我们的，你们玩你们的。”这个是新的时代。他们一旦是开始把这个事搞清楚了，下面的这些创业者就可以冲锋了。就像是盘古开天地，混沌归于有序，大家就可以在这里繁衍生息了。这个是非常重要的一个时间点。

操作系统跟平台商呢，都去参与模型厂商的内卷就可以了。比如说谷歌，现在说Gemini不是大模型，Gemini就是操作系统。微软说我这个就按操作系统来了。OpenAI也说我就是操作系统。Grok肯定也是要去奔操作系统来的，它把X收进来以后，未来这一块可能就会有一个像微信似的超级应用，对于它来说这也是个操作系统。底层应用开发好好干吧，不用再担心模型商突然抄后路了。应用商也要有自知之明，不要去干这个大模型、操作系统、平台的这个事情。怎么说呢，要安天命，就是该你干的活你去干，不该干的活就别干。

这儿呢跟大家讲一个小故事吧。应该是在2014年年初的时候，我当时还在猎豹，跟着傅盛还有猎豹的其他几个高管呢，到谷歌北京办公室去吃早饭。不是占人便宜去了，我们跑去谷歌谈很多事情的时候呢，他们就特别喜欢让我们到他的办公室里去吃早饭，因为谷歌当时的食堂特别好，后来搬家了以后那食堂就没那么好了。当时是香港谷歌的一个负责商务的高管跑到那来跟我们吃早饭，趁着吃早饭的时候开个会嘛。当时我们做的工具呢，叫Clean Master，清理这个手机垃圾信息的。他问了一个什么问题呢？他说：“你们到底是清理memory，还是清理disk？”其他人就没想明白到底在问什么。我呢当时抖了个机灵，我说：“我们只清理disk，绝对不碰memory。”因为其实安卓手机上压根就没有DISK这个词，它叫storage drive，就是存储的驱动，这个不是叫DISK的。所以当时我就直接反应过来了。其实Clean Master是两个都会清理的。我回答了以后呢，其他人还看着我说你怎么胡说八道，明明不是这么回事，我们两个都可以清理，你干嘛说只能清理disk，不能清理memory呢？但是我回答完这个问题，还没有等到我的这些领导们来质疑我的时候，谷歌这个高管就直接肯定了，说：“这就对了，你们就只能清理disk，你们就不能清理memory。memory的事情是操作系统的事情，你不应该去做这件事。你就把这个硬盘上的东西清理清理就完了，或者说这个存储介质上东西清理清理。你一旦开始去碰内存了，就相当于是我们介入到了操作系统管理层去了，哎，你不该干这个活。”

讲完了以后呢，我们都是一头冷汗，也是觉得好不容易从鬼门关混出来了。吃完这顿早饭以后，出来这些高管就开始骂呀，说这个谷歌还说不作恶什么，这些东西都是扯淡。他划定这块地方，你就绝对不能碰他，你碰了他，他就甭管你是不是作恶，就直接干掉你。因为当时呢，跟我们同期有另外一个软件是杀病毒的，台湾趋势科技做的一个杀病毒的软件在里头，就被谷歌的高管作为典型跟我们讲。说你看这个台湾趋势科技，做了一个杀病毒的软件在安卓手机上，说这事是不对的。说为什么不对呢？说安卓是没有病毒的，我们已经宣布了安卓没病毒，你怎么可以在我这没有病毒的操作系统上杀病毒呢？最后你还杀出来了，这不扯淡吗？这个是不允许的。所以给了他们很严重的这种处罚。我们如果当时告诉他说“哎我们既清理硬盘也清理内存”的话，估计也是很严重的处罚。我们跟他吃完饭了以后，过几天就去纽交所去敲钟去了。如果当时那问题没回答好的话，这个钟就不用敲了。所以我觉得我那个机灵抖的还是挺好的。

这个也是说，做应用的厂商要各安天命，做自己该做的事情，在人家的规则下去做事情。这个就是未来这些模型厂商给这些做应用的厂商留出来的空间。当然了，中国厂商呢，总是会有一些不太愿意在你框框里头去跳的这些人吧，就是我们总是愿意做一些跳出圈的事情，不太喜欢这种逐渐固化的阶级，我们会再折腾一下。

所以结论就是，GPT-5发布了，确实还是有一些比较强的新特性的，包括统一的模型，自动地去判断怎么去工作，降低了幻觉。新的时代也到来了，这就固化，该选操作系统、选大模型的，你们选那个去，其他人在稳固的平台下，去做我们的应用就完事了。只要我们不去挑战权威，不去挑战规则，在这个规则下也可以挣到钱。这就是一个新的时代。

好，这一期呢就讲到这里。

斯坦福大学最新研究引爆AI创业圈：41%创业者惨陷红灯区泥潭！日程安排需求5分却被忽视，客服机器人91%准确率反遭40%员工抵制，你还在死磕错误方向？

Luke Fan — Mon, 28 Jul 2025 00:39:50 +0000

斯坦福大学的研究表明，近半AI创业者选错了方向。这里边到底谁对谁错呢？

大家好，欢迎收听老范讲故事的YouTube频道。大家都在指点江山，但是人家斯坦福大学肯定要更专业一些。

7月7号，斯坦福大学的HAI（叫以人为本的人工智能研究所）与数字经济实验室，发布了一个工作论文，叫“员工真正希望从人工智能中得到什么”。这样的一篇论文，有兴趣的可以自己去找这个论文来看一下。里边讲到很大比例的AI创业者呢，都找错方向了，大概41%的AI自动化，正在做没人想要的事情。那这论文到底说什么了呢？

他呢，首先做了一个打分。论文我们要去看他的研究方法，数据来源是不是可靠。像我老范坐在这，我可以一拍脑袋说，以我过去的经验怎么怎么样，大家听个乐就可以了。但是人家这个呢，一定是要有严谨的数据收集过程的。

首先呢，他们先去选择任务，每个月至少要做一次的任务，而且呢能够被数字化的任务挑出来，一共是2,131项任务。你说我这个任务十年碰不到一回，这用不着了；或者说我这个任务完全没法数字化，也用不着了。然后呢，对这些任务进行去重，你说这个任务跟那个差不太多，算一项，去重了以后呢，一共剩了844项任务。

然后呢，要求一帮人，对这些任务打一个五分制的分。首先呢，他选了1,500名美国的在职人员，囊括104个行业，和刚才我们讲的844项任务，就是你至少要参与过其中的哪项任务，你才可以对他打分。你说我这事从来没干过，你去给打个分，这个不行的。而且呢，在题目前面还要插上说，跟工作的乐趣和失业风险，你也要进行考虑，帮助受访者呢平衡理性和情感。

他呢，通过语音访谈，让被调查者回想真实的工作场景回答，避免拍脑袋。所以呢，他先对这844项任务呢，进行了一个有没有人想要的一个调查。调查的过程，就是刚才我们讲的语音访谈，说你干过这事吗？干过，那你到底想不想要呢？这样的一个过程。

然后，再找了52名拥有AI agent系统研发经验的研究者和工程师出来，也是5分制打分。他们打什么呢？按照现有的大语言模型和工具链，让AI单独完成该项任务的把握有多大。同时做任务分类，H1级全自动，H5级必须人类主导。他对这个844项任务，再去做一个这样的打分。等于两个维度，一个维度说你想不想要，另外一个维度说做得了做不了。

把这两个维度的分数搁在一起，把所有844项任务呢，变成了四个象限，上下左右四块。这四块里头呢，第一个呢叫绿灯区，所谓的绿灯区就是高需求高能力，什么意思呢？就是员工也很喜欢，现在的技术也可以实现了。第二个呢叫做低需求高能力，这叫红灯区，就是技术很炫，但是呢没人想要。第三个呢是高需求低能力的区域，就是呢市场特别想要，但是现在做不出来。第四个呢是低能力低需求的区域，现在技术也做不出来，市场也不想要。一共分了四个区域。

为什么说错配呢？他们说现在看了一下，41%的热情都给了高能力低需求，或者是低能力低需求的这个区域了。而上面这个高能力高需求，和高需求低能力这个区域呢，配置的并没有那么多。

那他这个是怎么统计出来的呢？他呢，抓取了YC 5,156个项目的描述，这个直接上爬虫就可以了。爬完了以后呢，找GPT来做分类，说这项目跟AI到底有没有关系。抓完了以后呢，发现有1,723个项目呢，跟AI是有关的。然后呢，对公司的项目，与刚才咱们讲这个844项独立的项目，进行对齐，你干这事儿跟上面的哪一项是相关的。这个也是由GPT就可以搞定的。做完了以后，按这四个象限一分，发现41%在红灯区，绿灯和高需求区，配置的并没有那么多。

那么四个象限里，都包括些什么样任务呢？首先咱们讲绿灯区，有29%的创业者在这儿。绿灯区就是高需求高能力，我现在完全能做的了，大家也需要。第一个是访客日程安排，大家都打了5分，我们需要这东西。因为在美国做的调查，美国很多事情都是需要预约的，而且预约这个过程呢又特别麻烦。他呢，跻身在绿灯区的top one。任务本质是结构化信息的写入加提醒，AI专家评估为，现有的大语言模型技术和日历的API，可以一步到位。因此属于两轴皆高的立刻可落地区域。

搜集的信息是这样搜集回来的，但是他真的表达的是说，大家赶快都去做AI日程排布，这样的一个功能吗？其实不是这样的哈。大家仔细思考一下，这个绿灯到底说明的是什么？说明的是有大量的需要去进行预约的，这种需求是没有被很好满足的。你说我要去看医生，那这个医生预约两个月以后，这个并不是说，你需要把预约系统做的更好，而是需要更多的医生。但是你说医生多了以后，是不是现在医生的薪资就降低了，就跟韩国似的，说我们多招点医生上来去上学，医生就跑去罢工，说不行，你这多招了医生上学了以后，我的薪水就降低了。这个事呢，肯定需要靠AI进行更深层次的解决，但是这个报告里他就不管了，反正我们搜集了，排日程是最有需求的。

第二个呢叫做维护紧急呼叫档案，就是911，你打了电话去，进去以后发现有很多档案是错的。那么自动化意愿呢，1-5分制算完4.67。需求呢是批量整理索引去重，典型的CRUD项目。这个CRUD就是create，read，update和delete，就是把这个数据库增删改查的，这样一个事情。专家判定的是，完全可以靠现在这个能力搞定的事情。为什么大家需要干这个活呢？传统人工处理，导致15%的紧急呼叫响应延迟。你给我打电话了，说我这出一什么事，结果发现呢，你登记的什么路牌，或者是很多这些信息是错的。AI呢，可以将错误率从8.3%直接降至1.2%。边缘计算设备呢，也可以提供实时的这种GPS通话，记录警力分布数据，响应时间也可以极大的缩短。这个是美国人很需要的一个功能。

然后呢，叫更正工资记录。这个自动化愿望是4.6。比如说你到底迟到了早退了，还是有需要有奖励，还是需要有处罚的事情，这些呢是要去反映在工资里边。在这一块读取误差，计算差额，写回表单，AI在这个表格处理文本生成上的能力，其实已经很成熟了。所以也放到绿灯区里头。

我以前是做过人力资源管理系统的，给员工算工资，是一个非常非常麻烦的事情。而且呢，他需要在极短的时间内完成，需要考虑的东西呢虽然很多很复杂，但是呢毕竟是有限的东西，相对还是要容易一些的。基于规则引擎和自动化系统，可以处理92%的常规薪资纠纷，准确率呢高达98.7%。以前人事部和财务部，每个月底算工资的时候，都是这个脾气特别不好的时候，我们一般在这个时候，都是躲着他们走的。他们非常需要这个玩意，可以释放员工80%的时间用于合规审计，降低企业用工的一些风险。因为每个人收到工资以后，都会去算一下我自己的东西对不对，为什么多了为什么少了。工资发下去，他们还会上来说，为什么少发我了，到底怎么回事，这个月谁谁谁说了要给我涨工资，或者要给我一什么奖励，我怎么没拿着。这个事还是挺多的。这个就是绿灯区的项目。

但是绿灯区的项目，刚才我们也讲了，大家需要去思考这个绿灯背后，可能隐藏着更深层次的市场需求。有可能并不是让你把表面上绿灯的事情做完，而是需要去思考，整个的社会希望向哪个方向发生改变。特别是一些非常高需求的东西，都不是让你直接去干活了。

再往后呢，叫高欲望低能力区，有30%的创业者在这块选择，就是大家很需要，但是又做不太好。因为有技术的人呢，就肯定喜欢做这件事嘛，在这块努力是没毛病的。第一个呢，叫季度预算整合。工人呢，希望借助AI减轻繁琐的汇总，但是呢牵扯到多表关联权限校验，解释性要求，专家认为当前的大语言模型，仍然很难做到端到端的自动化，能力低。所以呢落到这个区域里边来了。

再往后，医疗影像诊断的多模态分析。现有的模型对于罕见病，如肺淋巴管肌瘤的识别准确率是62%，需要结合基因数据和临床记录，就是可能需要更多的数据搁在一起，进行多模态识别吧。联邦学术技术可整合跨院数据，在保护隐私前提下，将准确率提升到89%。这一块肯定是有需求的，看片子原来其实人在这块也是有问题的，看片子的人，可能对于其他的什么血象，一些这样的数值也没那么了解。现在有AI以后的话，让AI大模型，把各种的数据进行综合考量，一定是可以把诊断率提高很高的。而且对人进行医疗诊断，这个是有很大需求的。

再往后呢，叫教育领域的个性化学习路径规划。当前自适应学习系统的知识图谱，覆盖率仅有40%，无法动态调整难度系数，就是说我们没办法去根据人的学习能力，或者学习反馈，去给他设计新的教学方法。而且呢这种教学计划的调整，是很难进行有效的结果评估的。所以这一块呢，目前为止大模型也做不太好。一旦跟教育有关，他的需求还是很高的。

再往后呢是生成生产设备的维护排期。这个也有很高的需求，什么意思呢？你需要去排期，说我的设备到底什么时候应该生产，什么时候应该去检修。目前为止呢，工业设备的传感器数据，存在很大的噪音，15%的噪音，就是里头有很多数据不准，导致呢故障预测误报率高达38%。现在经常有什么波音飞机怎么样了，或者其他的一些设备出什么问题了，是怎么回事？他收集了很多数据，回来以后来确定说，从工程上说，你这个飞多少公里需要检修一次，但这玩意他不准。在这里头呢，大模型也没有做的那么好，需求还很高。你飞机掉下来了，这玩意需求肯定高。所以这一块大家如果有能力的话，也可以努力的冲锋一下。

再往下呢，叫红灯区，就是低欲望高能力区，我现在可以做的很好，但是没人要。有21%的创业者在这里努力。第一个任务是撰写创意文稿，这个是AIGC干的第一个活写文章。大语言模型已经可以生成流畅的文本了，而且能力很高。但是呢工人愿望仅有1.6，5分1.6是他的愿望。72%的编辑认为AI创作缺乏深度，61%担忧技术价值被削弱。这就属于担心失业的这帮人。尽管技术可行，但是编辑岗位的自动化接受率，仅有17.1%，远低于技术乐观派的预期。

然后是客服聊天机器人。GPT4已经能够处理85%的常规咨询，一响应准确度高达91%。但是呢40%的客服人员认为AI缺乏同理心，32%担心客户满意度下降。但其实他们担心的还是失业嘛。员工呢更倾向于H4级协作，就是人类主导加上AI辅助。刚才我们讲了，有50多个专家打分的时候呢，H1是AI全都能搞定的，到H5是完全人搞定的。在这里头这些客服希望做H4级的工作，我自己呢又可以省点力气，但是呢我还是主导。但是现在所有的研发都是向H1级，就是完全由机器主导，完全脱离人这个方向去发展的。

还有就是物流分析师的供应商联络工作。这个呢现在大语言模型也可以做的很好了。它基于大语言模型的供应链管理系统，可以自动生成谈判策略，响应速度比工人快5倍。但是呢53%的受访者认为，AI无法处理供应商的隐形需求，比如账期灵活性，41%担心失去客户关系的一个控制权。你去管理供应链的时候，这个里边还有很多灰色的地方，这个是人类不希望被替代的。这个是红灯区。

最后呢，就是低欲望低能力区，就是没人想要，也做不好这个区域。20%的创业者呢在这个里边努力。第一项任务解读工程图纸，愿望分是1.75，5分里头只有1.75分。现阶段多模态理解，3D语义抽取仍然比较难。现在看不懂这个图，AI能力低，优化级别低。现在呢在这一块也没有那么大需求。

再往后呢，叫追踪行李去向。愿望呢是1.5。该任务需要电话航空后端多方沟通，当前通用的代理难以整合。这个技术低需求也低。现在不太好搞。

然后是心理咨询师的情感支持对话。GPT4的共情准确率只有53%，无法识别非语言线索，比如微表情，包括语气语调都比较难以识别。82%的心理咨询师认为，AI可能泄露用户隐私，且缺乏法律责任界定。

然后是律师的复杂案件策略制定。现有的法律AI对于判例的关联分析覆盖率仅有35%，无法处理跨法域的冲突。91%的律师认为，AI应该定位为法律检索工具，而非策略决策者。法律这块我不是特别懂，但是写程序这块我是知道的，你问他各种细节的东西，他都做的很好，但是呢他特别容易钻牛角尖。我们一定要看着他的COT，就是思考过程叫思维链，你一定要看着这个东西，发现他走错路了的时候呢，你要给他提供新的思路，把他揪回来，他才能回的来。所以呢甭管是心理咨询师，还是律师的复杂案件决策，这个事到目前为止还只能依靠人。

还有一项是什么呢，就是绘图创意。愿望分呢是1.71。他们认为呢生成式视觉模型，在客户化的创意上，版权合规上都还存在着局限性。Midjourney、达利生成的图片，在这块都是有问题的。专业设计师不期待AI全接管。达利3生成的设计方案呢，仅12%符合品牌调性，且缺乏文化隐喻的深度。你让他去理解一些我希望隐藏的一些含义，基本上没法整。艺术创作者，艺术创作的需求呢，集中在H5级别，就是人类完全主导，AI呢仅提供一些素材就可以了。这一块呢是低欲望和低能力区。

现在呢红灯21%，低欲望低能力是20%，他们俩加起来是41%。最后这种报告的意义在什么地方？我们是不是应该照着这个报告的方式，去选择我们的创业方向了？不是这样的。这个报告最重要的一点，是展示了有效的信息搜集和形成决策的一个过程。我应该怎么去搜集信息，我们应该如何去划归任务，我们应该去做什么样的访谈，访谈完了以后呢，怎么对这些任务进行象限的划分，怎么去判定大家到底都在做什么事情，而且哪一部分是可以靠AI来搞定的。你比如说我爬虫，爬了YC的四五千家的创业公司，找到其中跟AI相关的1,700家，再对他们进行844项任务的对齐，你们到底是做哪项任务的，然后再拿四个象限去套。后边的部分完全是AI搞定的，就是AI负责了整个的数据统计和分析的部分。前面怎么去找人去设计问卷设计报表，应该也是AI搞定的。他们只需要给1,500个人打电话，然后去找到51位AI editor的专家去打分，就可以搞定了这样的一个报告出来。

但是呢要注意一点，就是这个报告并不完全可靠。大家不要说这一块是绿灯的我要冲，那一块是高欲望低能力，我要去研发。不要去直接这么简单的使用这个报告。第一个呢是搜集信息的过程并不全面，存在情感和偏见。还有一点是很重要的，什么呢？就是打分的是打工者，不是决策者。打工的人是没有权利去决定我买谁家的系统的，他们是要被AI替代，是要失业的这帮人。所以他们在这个里边会有一定的偏差。未来的世界呢也是动态变化的，不是按照现在这个状态不一成不变的。所以呢我们可以去仔细的思考和解读这个报告，但是解读的方式并不是简单的是使用。

那么应该如何选择创业方向呢？你说我有关系有行业背景，也有行业数据，先找个绿灯区域先做起来，先挣一笔钱再说。或者说我是不是可以去做一些颠覆性的事情，你也可以在绿灯区域去找。刚才我们也讲了，很多绿灯区域都是需求极其强烈的，但是他强烈的过程，并不是因为说我们真的想要排好日程，而是说整个美国社会的预约制度，给大家带来了极大的痛苦。解决的方法并不是说我做好预约系统，而是增加前面的供给。这个可能就需要换一个思路去思考了。

第二个有技术，可以尝试一些高欲望低能力的区域，突破AI的技术瓶颈。最多的人在这块，30%的创业项目都在这。你比如说我去解读一下，医疗影像这块，肯定还是值得大家去努力的，而且这一块呢也更容易拿到钱。

至于红灯区呢，不是说到红灯区，就是高能力低需求，这些东西我们就躲着走。比如说智能客服机器人这种东西，大家注意访谈是来自于打工人，不是来自于决策者。打工人是害怕失业的，决策者是想降本增效的。所以呢对于决策者来说，这个区域未必是红灯区。大家做的时候自己去思考。

至于最后这个低欲望低能力区呢，确实需要谨慎一些。但是呢如果你是真爱，说我真的喜欢这一块，那也不妨去尝试一下。真正的有可能出大型公司的，这个领域呢，其实是绿灯区跟这个低欲望低能力区。这里头有可能会真正的出现，颠覆社会的这种大型公司。而其他这些区域里头，红灯区和高需求低技术的这个区域，咱们做一做，有可能会出一些小型的成功公司。大型成功公司，或者是真正的跨时代的这种，成为美股七姐妹那样的公司，是比较难的。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

ChatGPT Agent重磅发布，山姆奥特曼亲自站台却惨遭现场翻车，这究竟是Manus的机遇还是整个泛Agent赛道的丧钟？

Luke Fan — Sun, 20 Jul 2025 00:41:29 +0000

ChatGPT Agent来了。

Manus到底是该哭还是该笑呢？

大家好，欢迎收听老范讲故事的YouTube频道。

ChatGPT重磅发布了他的Agent。怎么个重磅法？山姆·奥特曼亲自坐台。现在很多ChatGPT自己产品的发布，山姆·奥特曼都不在前台坐着，这次是亲自坐台。而且旁边坐了四位主讲，很多时候发布会就是俩人或者仨人，这次是山姆·奥特曼坐在这，旁边坐了四个人。而且呢，足足讲了25分钟。

很多人就想起Manus来了，好像有些测试还不如Manus。因为他现场有翻车的，大老板在旁边坐着，你测试翻车的话还是压力挺大的。在这个时候就有人说了，GPT也就这样，你们现在还觉得Manus做的不好吗？就有一些讨论在发生了。

ChatGPT的Agent到底会给Manus带来什么呢？Manus到底是该哭还是该笑呢？今天咱们讲讲这个事儿。

首先呢，咱们先回顾一下GPT Agent的一个发布过程。时间呢是太平洋时间2025年7月17号上午10点，也就是北京时间7月18号的凌晨1点。山姆·奥特曼坐在最边上，他不是主讲，他就是一个串场的。另外一头呢坐着一个印度老哥，中间呢是三个亚洲脸，两位男士呢应该确认是中国人，还有一位女士呢，虽然看起来是亚洲脸，但是是不是华人不知道。

25分钟的视频演示也很无奈，他这种演示你没法短，因为很多的任务，跑起来的时间就非常长，特别是婚礼差旅一条龙的。这个任务基本上是从头跑到尾，就是一开始布置任务下去，中间穿插了几个其他任务，最后到那个结束的时候，算是差不多跑完。

让Agent去帮忙参加朋友婚礼，挑酒店、挑礼物、定穿搭，中间还打断他说，我还要再买双鞋。这个其实挺好玩的，因为以前这种Agent，最讨厌的一点是什么呢？就是你只要让他开始跑，半个小时或者多长时间，你没法打断他，发现他错了以后呢你也没办法，只能让他重新开始。现在呢，我说我可以打断你，或者中间可以把你叫停，让你去帮我调整一些东西，加一双鞋或者做一些其他的。这个呢，算是一个，我觉得算是用户体验角度上的一个比较大的前进吧。

从技术角度上来说呢，并没有那么费劲。只是呢，在Agent的执行框架上需要做一些调整，你比如说多线程，或者是一些守护线程，他需要做一些这样的东西。在大家做了这么长时间的手机应用、前端后端应用以后，这个不是那么费劲的。

手机端呢，也可以进行即时的创意，也就是在iPhone上请求制作团队吉祥物贴纸，就是做了一些可以做设计的任务。这个应该是对着像LoveArt这种设计Agent去的。然后呢，做了一个财务数据分析，他讲的是去我的Google Drive上，把评估指标拉出来，给我做一个汇报。幻灯片还做的可以吧。

后面就是演示了随时打断和二次确认，在Agent里头点击打断，可以进行指令修改，Agent结束前弹窗确认邮件内容。但是呢，在现场还失败了一个，找球场这个是一个失败演示。

他干了一什么呢？规划一场夏季旅行，走遍30座职业棒球球场，并给每座球场买两张最便宜的日场票。给了他这样的一个任务。一开始呢，是先用文本浏览器，抓取了2025年赛程和票价，到这呢数据还是正常的。然后是通过脚本去终端执行，通过终端去执行脚本，生成Excel和绘制地图。但是呢，这儿就开始出错了，地图坐标严重错位，纽约、波士顿等东海岸的球队就没了，墨西哥湾里头凭空出现了一些球场，引起场下的一些窃笑了。

再往后呢，是用可视化浏览器，跳转到一个订票网站上，要去下单订票了。但是呢，因为这是一个跟金融和这种高风险相关的操作，所以呢进入了人工模式，就是你必须要确认一下要花钱了吗。然后就遇到了一个问题，Agent自动去填邮箱了以后呢，它网站需要跳这个叫二次验证，二次验证，就比如说我给你发个邮件，你给把这个邮件里头那个码给我呀，或者是给你发个短信，就是这种验证程序。这个Agent就跑不动了，他呢触发了订票网站等待用户的一个进程，要求你60秒钟之内呢要去接管，结果呢他也没有好好的接管这个东西，就直接超时终止了。这个稍微有些丢人，还跳出了红色的长串错误信息，反正现场就有点绷不住了。主持人呢只能尴尬收场，这个主持人是谁？山姆·奥特曼。他呢出来打了个圆场，说买票这步我们之后会在debug的。这是整场直播唯一强制终止的一个demo。

最新的ChatGPT Agent到底有哪些新特性呢？第一个呢，它是Operator加上Deep Research，这两个功能加一块的东西。Operator其实应该是今年年初的时候发布过一次，所谓Operator，就是在一个虚拟机上打开浏览器，给大家去做各种的操作，模仿真人去点击各种的网页。但是呢，这个功能呢，一直是在200美金的用户那里使用，像我这种20美金的用户是没使过的。而且即使是200美金的用户呢，应该对这个功能也不太感冒，因为你要去使用互联网的网站的话，难度还是很大的。

咱们做各种软件里头，最难做的一个软件不是操作系统，而是浏览器。为什么？因为每家做的网站都不一样，我到底用的是谁家的前端库后端库，在里边隐藏了哪些信息，怎么去做的缓存，做了哪些防刷以及防骗的这种工具，做了哪些多次验证的东西，这个真的是千奇百怪的。所以你要想完全兼容这种东西是很难的，你让一个机器人去点网页，成功率还是不太高的。所以这个产品虽然发布了，但是大家使得并不是那么爽。

现在说Deep Research这功能做的还不错了，那跟Operator两个功能结合起来，就是这一次我们所看到的GPT Agent。这俩功能呢，Operator我从来没用过，Deep Research呢是我经常用，而且经常把额度跑光，需要等到下边一个时间周期，重新分配额度接着跑的一个功能。

它呢是由一台虚拟化电脑，就还是Operator这套东西里头呢，内置了图形界面浏览器和文本浏览器。什么叫图形界面浏览器？就是我真的打开了一个网页，这边是有按钮的，那边是有输入框的有菜单的，这种浏览器呢叫做图形界面浏览器。而文本浏览器的话基本上就是，我把你这个网页抓出来了，直接把里头的内容呢进行了总结归纳，或者说把里头的内容直接提出来了。他们在这个里头是两个都有，大部分情况，你说我只需要进行信息总结的话，就是文本浏览器就够了。实际上文本浏览器大家可以理解为一个爬虫。图像浏览器的话其实，对于这种虚拟机来说是难度很大的。为什么？因为我们写网站的时候，还经常会去研究，比如说设备的自动适配，就是我在手机上，这个网页应该长成啥样，在平板上应该长成啥样，在PC上应该长成啥样，遇到特别大的浏览器应该长成啥样，这个都是不一样的。还有一些比如说我们有些网站上，会写这种不可见的字符，干嘛呢？骗AI的，说你遇到我这个网站就不能爬了，或者说不能做一些其他的工作。还有很多这样的东西。

另外呢，上浏览器的呢，其实还有一点小的问题，大家知道网站上有一个文件叫robots.txt，这个文件干嘛使的？实际上是应对爬虫的，告诉你说哪个爬虫你可以看哪些东西，不可以看哪些东西。而你一旦上浏览器了，Robots这个文件实际上就不起作用了。

那它这个一体化的虚拟电脑，除了图形化浏览器和文本浏览器之外，还有什么呢？还有终端，你可以在上面去跑一些程序，以及API连接器，包括一些模型，都在同一个沙盒里边完成。点击键入运行代码，调用Gmail、Calendar等等这些操作。为什么叫沙盒呢？就是这个盒里头出错了，其他的盒不影响。这个呢，就是这一次的ChatGPT Agent最核心的东西，就是一体化虚拟电脑。

另外呢，就是它可以自动的选择工具，跨步骤的自主执行，将Operator网页交互，加上Deep Research的深度分析，整合在一个流程里边。Agent自行决定何时调用浏览器，何时跑脚本，无需用户指定。这一块呢，确实是做的相当不错的，因为他演示的时候，几个很长的案例中间呢并没有出错，一直在往前走。因为让他去干这种活最怕什么？就中间出错了，中间出错了以后，可能跑非常非常多的TOKEN，而且在里边死循环，都是有可能，你可能早上一起来破产了。这个TOKEN是很贵的。

长链路任务加上时间轴回放，也是一个挺好玩的东西，就是你的一个任务跑完了以后，他们最后是像放这个视频一样去看，说跑了几十分钟很多步骤的工作，第几步跑成什么样了。为什么要看这个呢？就是你中间万一跑错了，或者说这个结果跟我想的不太一样，你可以看看哪错了，让他再去进行调整。否则的话，就是前头下了命令，中间不可干预，然后直接就结束了，你还没法看中间哪错了，你连改进的机会都没有。所以这个呢，也算是一个改进吧。

再往后呢，是它的任务是可以暂停继续和打断的，也算是在用户体验上做了很大的提升吧。当然了，可以打断可以暂停那件事呢，说明另外一个问题，就是这种任务周期很长，而且呢结果经常不可控。实际上它算是个缺陷吧，为了给这个缺陷打个补丁，所以加上这样的功能。

ChatGPT Agent呢，还有一些其他的功能，比如说叫Watch Mode观察模式，以及这种二次确认。为什么呢？就是涉及付款发信这种高后果或者叫高风险的行动，会自动的进入这种叫Watch Mode，用户呢需要保持焦点，并且手动确认，否则的话流程就会超时终止。这个还是不敢直接替你花钱买东西，还要看后边怎么去改进吧。

端到端的成果交付，可以直接生成可编辑的PPT、Excel、PDF等文件。这个算是对标Manus，或者是对标其他人做的Agent，现在大家都是有这功能，所以这一次ChatGPT的Agent也把这功能给你做上来了。他做的PPT还没有Manus做的好看呢。

那另外就是跨设备的无缝切换，专门给大家演示了iOS安卓设备上，你也可以看看，你这个项目跑到多少了，你这个项目跑到什么状态了。像我平时用Deep Research的时候也是这样，我在电脑上说我现在要Deep Research了，然后我的手机上就会弹出来说，你有一个Deep Research的工作开始跑了，跑到什么样状态有个进度条，跑完了以后，他会告诉你说你这个结束了，你去看看结果是不是OK。因为Deep Research一次的话，有的时候长的也要10分钟，快的可能是五六分钟，也能跑出来。你不可能说我这边打了回车以后一直坐这等，还是要去做其他事情的。

这次呢，把ChatGPT的连接器和计划任务呢，也都整进来了。可以通过官方的ChatGPT的Connectors，叫连接器，直接呢连接Gmail、GitHub、Google Drive这些服务。也可以将一次性任务，保持为定期的自动执行任务，比如每周干一什么事，这个现在都是允许的。

然后多层的安全站，它既然已经这么强大了，你可以干各种各样事情了，你要注意，你不要去做一些危害人类的事情，所以OpenAI还是有一点点小底线的吧。也面向开发者呢提供了Agent SDK和API，但是这一块呢，现在应该还是一个预览版吧，我反正没有看到谁去用这个东西。

性能呢，全面的跃升，它去解决各种人类实际问题的评分这块是上升了。这个呢，就是ChatGPT Agent的一个基本特性。

谁能用呢？我还没用上。Pro用户就是200美元的用户，现在已经可以用了，每个月呢可以用400次。这玩意肯定不能让你随便使，因为实在是太耗TOKEN了。Plus用户，就像我这样20美元用户呢，每个月可以使用40次，其实基本也够用。像我现在，用Deep Research我觉得一天用不了一次，但是还是经常把额度跑光。现在Plus用户呢，应该是未来三天进行灰度推送，但是还没轮到我，哈哈，再继续等待。

我自己观看演示以后的感受是什么样的？第一个是产品确实非常强大，能把这么复杂的任务，自己把它分配好，顺序的执行下来中间不乱，这个已经非常非常难了。另外第二个是什么呢？大概率是不会去用的。为什么呢？前面刚夸完人家这个很强大，你咋就不用呢？因为它的结果依然是不太可控的。

直接通过模拟浏览器去点击网站，我一直觉得这个方向有毛病。为什么呢？就是每个网站都不一样，而且这个网站上还有各种防刷防骗的东西。比如说吧，有些网站，你通过一个IP地址打开多少次以后，我就直接把你封掉了，把这个IP地址给你封黑了。那你遇到这样的网站你咋办？因为它这个虚拟机，它的IP地址都一样的，它是跑在微软的机房里头的，你通过统一的机房IP，你去访问人家的这个网站去，那你跑着跑着给你封了。

有的时候你需要二次验证，像前面我们讲的一个翻车，需要做二次验证，你也搞不定这个事你咋办？而且像我们比如说注册了很多账号，像谷歌呀、Twitter什么，这些账号我们都是要去做二次验证的，你不做二次验证就很容易被偷嘛。那你一旦做了二次验证以后，虚拟机里边的这个产品，他怎么去做二次验证？他根本就没法搞。还有一些需要去遵循其他的这种约定俗成的东西，你其实也是没有办法去完全的实现的。而且还有时候呢，这些网站自己还会更新，他更新的时候也不通知你，而且更新了以后到底是不是有bug，其实谁也不知道，经常更新出来那个网站是有bug的嘛。

所以呢，你通过这样的一种非常不确定的方式，去连接各种服务的话，到底未来行会变成什么样，到底能不能稳定的去执行任务，我是表示怀疑的。像他这种用仿真浏览器的方式，去执行任务的这种模式呢，更像什么呢？更像是马斯克的纯视觉自动驾驶，说人既然可以搞定，那我用纯视觉的方式车也可以搞定。其他人说我们不太相信这玩意，我们上激光雷达，它更准确。对于我来说，我可能觉得激光雷达会更好一点。

所以呢，未来可能是很多的服务，比如说订球票这些东西，应该是一些经过验证以后的安全的API出来，或者是MCP这样的这种服务出来，然后再由这些AI Agent去调用，才有可能让大家很好的把各种的交易串联起来，而不是说像现在似的，我们在各种的防骗网站中间，去点击鼠标，模拟人类点击，这个还是太不靠谱了。

那么ChatGPT Agent到底给Manus这种泛Agent的项目带来什么呢？最后我们来回答一下这个问题。首先呢，给结论，这个绝对不是好消息，应该算是又敲响了一次丧钟吧。OpenAI每一次发表新的功能呢，都会有很多的创业项目就直接死掉了。这一次呢应该不算直接枪毙，但是绝对不是一个好的声音。

虽然ChatGPT的Agent演示的，跟这个Manus的演示呢，算是各有所长，有些做的好一点，有些做的其实都不怎么样。但其实的结果是什么？ChatGPT也证明了说，这条路最后大概也就能走成这样的一个半半拉拉的样子就完事了。在一个赛道里边，其实不怕老大强大，而怕老大倒下。如果ChatGPT也就只能做成这个样子，那你所有在这个赛道上前进的人，就都比较危险。这是第一个，证明这种范Agent的模式是有问题的。

而且呢，这一次虽然OpenAI演示翻了一次车，但是它也验证了另外一个事情是什么？就是模型及应用，你跑这种Agent是非常非常消耗TOKEN的。OpenAI模型是我们自己家的，我自己可以优化，可以定价可以亏钱，但是对于Manus这样的公司来说，模型是别人家的，你对它进行底层优化的能力就没有，那你需用了这些模型以后，你就得老老实实去按TOKEN付钱，去跑这种Agent的项目，你要去按TOKEN付钱的话，那是会跑破产的。

在结果不那么靠谱的情况下，无法对模型层面进行优化，完全依靠这个外部调用的话，Manus这种项目其实是没有什么机会的。而OpenAI就是另外一回事，反正没那么靠谱，大家就去用就完了。Plus用户一个月44，Pro用户一个月440，你们就用吧。对于OpenAI来说它又不怕亏钱，每年亏个几十亿上百亿，对于它来说都是正常的。但是你Manus你亏得起这个吗？你亏不起的。

所以最终的结论就是，OpenAI的ChatGPT Agent证明了两件事情。第一件事就是，这种泛应用的Agent依然没那么靠谱，就算是OpenAI，也没有办法让这个东西更加靠谱，因为它需要靠模拟人类去点击浏览器的方式去做事情。原来双十一上的时候，也经常是淘宝网站崩了，或者是银行网站崩了，中间需要多做一次验证什么，这种事多去了。所以你现在想让机器去替代人去做点击的话，我觉得这个这条路是有问题的。

第二个是什么？第二个就是从成本的角度来去分析，Manus在这个赛道上它也跑不远。这就是今天咱们讲这故事。感谢大家收听，请帮忙点赞点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

设计师的未来已来？Lovart垂直AI Agent震撼体验，从Midjourney到多模型协作，揭秘AI如何颠覆传统设计流程与商业模式。

Luke Fan — Sun, 01 Jun 2025 00:41:19 +0000

设计师这次是不是真的要失业了？咱们从Lovart这个为设计师专门设计的垂直agent来看看AI agent在垂直品类里的一些玩法儿。

大家好，欢迎收听老范讲故事的YouTube频道。Lovart又一个现象级产品出来了，设计师专用的一个垂直agent。它呢没有Manus当时引起的那么大的动静，但是呢，我用了一下，感觉比Manus这种泛agent还是要好用一些。

什么叫泛agent？就是它啥都能干。Lovart这种能够专门为设计师工作的agent呢，它就是垂类agent，它其它事干不了。你说你给我去写个文章，给我去做个总结，这它干不了。但是你说你给我画个画，做个视频，设计一个PPT，设计个海报，做的可好了。他们设计的产品在x上被马斯克亲自点赞。因为这种设计类产品嘛，一个图片什么的，你要设计的非常好的话，确实会引起大佬点赞。很多的使用者也是惊为天人，我去使了一下，确实是很神奇，能够解决非常多的问题。

什么叫设计师垂直agent？大家知道AI agent它可以自我规划，可以调用各种工具，然后完成一个完整的工作。最早的这种AI agent就是从生成图片开始的，Midjourney现在的话应该是Google imagine 4 GPT image，stable diffusion Flex这样的直接生图片的模型还是有很多的，最早也是从这开始。但是这个东西有一个很大的问题是什么？就是很难控制。你说我希望有稳定性，我每一次生成的这个人都要长成一样，我希望写字写对。即使是现在写字写的比较好的，比如说像吉梦模型或者是PPT的模型，但也经常还是会写错。所以我们使用这些模型的时候，经常的工作流程是什么样的呢？先画，画完了以后呢抠图，再到一些像Photoshop或者像我用Canva这种可画的平台里边儿再去拼，然后再把这个人把字儿重新拼在一起。既然这个流程已经确定了，找个agent把它整个儿都串起来，不就完事儿了吗？

再往后发展呢，就是一些可以进行串联，或者说进行一些工作流设定的一些产品。比如说像设计圈里的Confy UI这样的一些产品，你可以把这个工作流画好，它就按照这个工作流整个跑一圈下来。文字生成里头呢，用的像Defi code这种其实也是这种工作流设计软件。现在新的时代到来了，就是自我规划的agent。比如说像文档，各种的deep search。

Deep research这样的东西，你给他提出问题，剩下的该去查哪些网站、该怎么总结、该怎么去分析、如何去校对、如何减少幻觉、如何去把结果做得更漂亮，人家一次搞定。现在就是新的Agent的时代已经到来了。

这个为设计师工作的Agent呢，也走到了这一步。从最早的单模型Midjourney，到Confy UI这样的工作流设计的流程，到最后说干脆我一次给你搞定。现在Lovear就是这样的一个产品。

它呢，把一大堆的模型放在里头，比如说Flex、Google Imagine 4、PPT Image、Flex这些都放进去。这个里头没有Midjourney，Midjourney那个东西不是特别好控制。然后把音乐和音效生成搁里头，你说我最后要出视频，那我需要给你配乐都有，包括一些TTS的阅读也都放在里头，就是数字人的这种也都搁在里头。

视频生成模型，他掉的是可灵1.6，是快手做的视频生成模型，效果也还可以。我已经把模型搁这了，下一件事就是提要求就完了。你说我今天想要一个YouTube的封面，或者我想要YouTube里边的一个小的动画，你提要求就完了。

剩下的这个Lovart就自动地规划路径，还去调用一些推理的模型，比如说GPT O3这样的模型。它推理一下说，我到底怎么把这个路径规划得更好呢？再调用刚才我们讲的Flex呀、GPT Image呀、谷歌的Imagine，然后生成音乐，生成视频，配在一起。

最终呢，完成一个相对比较复杂的任务。而且还有很多Photoshop呀，或者Canva一些功能也搁在里头。这什么功能呢？就是图层。你说我现在要求在哪个图层上干哪些活，要求在什么地方写什么字，他就直接给你写就完了。不要让这个大模型再去费劲给你拼字去了，反正他也拼不对，咱们就别费这个劲了。

所以这个就是一个很完整的设计流程，一次搞定。真的是一个中国团队的产品，虽然这个团队在硅谷，但是呢，确确实实是个中国团队。他们最上面的一个公司呢叫Lab Lab AI。

这个Lab Lab AI呢，是中国最活跃的Stable Diffusion的社区。他们干嘛呢？就是把大量的Stable Diffusion上用到的Laura的这种微调的模型，都放在这展示。展示完了以后呢，我们去交换这些训练出来的这种微调模型就可以了。也有一定的商业模式，但是呢，发展的不是特别好吧，虽然很活跃。因为大家最后还是要去看说……

是不是能够形成正向的商业模式？好在是中国在做这个电商，做这个各种网红经济。在这一块，需要的设计师的量非常大，或者说设计师工作非常多。所以呢，他们也还是在运转。前面融资呢，也融了一些。后面呢，是找了一个很著名的创业者，开了美国的分公司。所以呢，Lovart这个产品是lablab.AI美国分公司做的。他们找的这个创业者，就是Lovart的创始人和CEO呢，叫陈冕，官冕的冕。他呢，是摩拜单车的产品总监。离开摩拜单车以后呢，是剪映和Capcat的全球商业化负责人。2024年离开剪映跑来去创业，做了一个叫Lovart的一个产品，做的还是相当不错的。

口说无凭，咱们来看Demo，看看我用这玩意干了些什么。这就是Lovart的首页。这个设计师做的页面确实是好看，比我们这些程序员直男做的东西要好看多了。这个它的页面就是lovart点ai。现在很多都是AI开始的域名。想要玩这个东西，要有一个邀请码，或者是加入等待链接。我是加入waiting list，等了一周左右得到的邀请码。我现在还有3个邀请码。get start就进来。我会把三个邀请码放在视频的简介里。如果大家想要去玩的话就拿三个邀请码去用啊。但是因为是会员先看到，所以可能公布到公众频道的时候，这个邀请码就已经用完了啊。也欢迎大家拿到新的邀请码以后，分享到我的评论区里头。

大家看到我现在已经没钱了，已经把所有的信用点都花光了。一共上来是给了1,000点。他是拿到邀请码给500点，每个月给500点。我要想再画要等下个月了。好，跟大家看一下他的一些干的活。这个就是我用了1,000点得到的这个结果。上来，请设计YouTube 16:9的封面视频。封面频道名是老范讲故事。视频题目是老范读评。这是每周三晚上8点的直播节目，读一周的观众评论。加上以我照片生成的皮克斯3D风格的角色设计。这是我写的提示词，给了一张照片，他就干活去了。说我先想想，我先思考一下这个活要怎么干，分析一下。说我应该是一个什么样的照片。可能呢，调的是GPT O3做的图像推理。推理完了以后再去调用这个知识库。我有哪些知识，是吧？这是一个哪样的一个设计建议啊？要用GPT image，要用这东西来去做皮克斯3D风格的角色，再加上这些文字要求，画到16：9的横纵比。结束了。这个是他做的一个规划。再去说，我这是一个创意了，我要去创意了。

这个皮克斯3D的东西应该怎么做？自己夸夸夸想去了。“老范读屏”这几个字55%高，要写在什么地方？周三，呃，20点直播，要写在一个什么样的字体？写在哪儿？底下，右下角要写“老范讲故事”。背景应该是一个橙金色的渐变色，而且是有一些什么样的要求？他就一个一个的去给你做去了。然后颜色，主颜色是什么？高亮颜色是什么？你做了一堆这样的要求。原型，一个什么样的东西啊？要写中文，要什么sans，应该是宋体，大概是写黑的。自己去研究了半天，就开始创建图片，干活去了，得到了这个图。现在不知道为什么他把这个大的删了，肯定还是成本问题。让我们来看一下图，就给你画成了这样的一个东西。这个还是很可爱的。“这个老范讲故事”这个“事”字写得稍微有些问题啊。“周三20:00直播”是“老范读评”。大家发现这东西有问题了没有？除了这个“故事”的“事”字写错了之外，还有问题。哪有问题？他不是16:9的，他是3:2的。它这个图的分辨率是1,500*1,000，实际上是3:2。为什么会成这样呢？因为它最后的这个背景图是拿GPT生成的，GPT到头就是3:2，再大的横纵比做不出来了。这是GPT的一个bug。也有问题，这个说你生成的是3:2的，不是16:9的。这是GPT 4o的一个bug，只能出3:2。我理解了，这个有个问题，让我再去做16:9。反正做了半天，他又做了个3:2的图出来，稍微改了改，大概是长成这样了。这个反正能使呗，到时候我再把这个脑袋抠下来，再把这字抠下来，回头下个礼拜读屏的时候，咱就用一次啊。反正也是挺好玩的，一个图就做出来了。但是大家看到的是什么？一句话，我真的是写了一句话，他就做了一个基本凑合还能使的东西。这就是这句话。你说设计师是不是要失业？你像我就是个写程序的直男，我就可以做到这样的结果了。设计师就会稍微有一点点痛苦了。他们的设计的一致性，这种反正我觉得还是有点美感的，设计出来还是可以用的。你看这个胖子还是有点点可爱的嘛，笑得多喜庆。好，咱们再看另外一个demo。这个demo是我让他去画，画视频去了，因为这东西是可以直接出视频的。看，我也是给了一张自己的美照，说：“给我一段视频，YouTube求点赞、关注、点击小铃铛的，用我的形象，生成泡泡玛特风格的人物形象，求点赞、求关注、求小铃当，时长5秒，绿色背景，方便抠图，统一用泡泡玛特可爱风格。”他就又想去了。这次他是使用了Flux，用了这个模型去生成的。这个像吗？

反正泡沫马特风格，大头，而且是这个。大家看这个塑料材质，至于像不像我，这个事就无所谓了，这个不重要。画成这样了，我也不好意思说它像我了。

调用可灵的视频生成，生成了5秒视频。你看，这个就是5秒视频，他就生成声音去了。这个声音其实做的很烂：“like subscribe and click the notification bell”。你看这是点赞、呃订阅、点击这个提醒的小铃铛，大概讲了这么一句话。把这俩东西给我拼一块吧：“like subscribe and click the notification bell”。我觉得不是特别满意，我说啊，别说话了，这个说的太难听了。

配音效加上3D的泡泡玛特风格的点赞，大拇哥的订阅小铃铛换成16:9的，人物要戴上眼镜。他又思考干活去了。这回呢，人戴眼镜了，这没毛病。给我生成了个音乐，这个是成出来的，它里头是有音乐生成的，大模型的，生成了一个视频。这次呢，有小铃铛，但是他这个小铃铛画的就很怪，他没法理解什么是点赞。这个看来可灵在这块还是稍微差一点点，5秒钟搞定。

我说这个做订阅的和小铃铛，这个点赞的3D形象太奇怪了，看不出来是做什么的。去网上搜索一下，它是可以搜索的，这个Agent可以搜索。而且也别来音乐了，改音效：鼠标点击声、气泡破裂声和铃音，给我改三个音效出来。他首先出去搜索了一堆，说这个是该干的，但是他并没有把它做得很漂亮。自己想了半天，又给我生成个头像，这样的头像。这次，他给你整了段音乐回来，说我来给你生成。你说他搜索了一大堆，你不知道他怎么想的，说我给你变成这样的点赞和订阅了。有的时候确实比较难以理解，让他自己配了段音乐给我加上了。不对，16:9你也没做出来呀，对吧？

我再接着提要求，我说这个按钮用这套，我干脆在网上搜了一套。其实刚才自己也搜出来了，用这套：订阅、点赞、评论、转发、小铃铛。静音，别给我配音乐了，后边我自己去配声音就完事了。把视频延长到8秒，但这个后来发现失败了，可灵最多也就是5秒，做不出8秒的来。他先分析一下，因为GPT-o3是可以进行图像推理的，他把我给他那张图片整个分析了一下，说没毛病。又生成了个头像，这次这个头发稍微长一点点，还是戴着眼镜的。说来给我生成，不知道他是为什么，整成这样了，就完全乱掉。呃我觉得已经可以用啊，怎么用啊？把这三个位置给它替换了就完，还是在剪映里，已经可以干活了，再生成。

他说：“我再稍微调整了一下，又换了一种。这次是生成四个小格了，这是四个小头像。到时候我到剪映里头，可以把这四个小头像换成点赞、小铃铛和叫做订阅，还有其他的，比如说评论啊，你就可以来做这个事。到时候自己去替换就好。”

他说：“我现在要去给你做8秒了，但是大家看下头，还是5秒，也就如此了。”他又给你稍微的细化了一下，各种生成。到这儿生成完了以后，又生成了一个版本。他说：“我给你做成这样了。”到这个版本生成完了，我就已经把这个给的1,000点就耗光了，就到这里就使完了。说：“你现在该交费了是吧？不交费不让使了。”

那么我们来看一下它的收费标准。这是零点儿，点击upgrade，这里就是收费标准了。我现在是0，它等于是上来给了500个信用点，有500个额外的限时的bonus，我就得到了这样的一个东西。下个月是不是还有啊？这个就不确定了，他反正没有写清楚。这个看吧，反正我现在把它使完了，是10个agent、125个GPT的图像生成、2,000个Flux图像生成、28个可灵的视频生成。我肯定没用到这么多，但是我确实把1,000点使完了。有限的模型使用，就是这个规则。

19美金一个月呢，是2,000点，每个月2,000点，再单独给2,000点。在第一个月单独给2,000点，就是你交了19美金就得到4,000点，下个月补2,000点。他是这样来工作的：40个agent、500幅GPT的生成、8,000幅Flux生成、111个可零的生成，无限的模型使用。这是可以有商业的license。你像我刚才这个就没有商业license，就是我生成的这些内容是不可以做商业使用的。那我交了钱以后，就可以去做商业使用了。当然还有更贵的了，这个收费标准我就不去评价。

Demo看完了，后边我们来讲一讲这种垂类的agent到底是不是一个方向的问题。现在呢，所有的泛agent的这种效果其实都差强人意。虽然我们使用文档、使用COS空间这样的这种泛agent，或者是grok的这种deep search、Deep research或者Deeper research，所有这些东西你都搁一块儿去使，你发现什么呢？就是你让他们去进行信息收集和总结的时候呢，效果还行，但是有的时候幻觉也是很厉害的。因为我被这玩意坑过好多次，生成的结果呢总是不是那么满意。而且像这种东西，你一开始提出任务，后边他就吭哧吭哧干去了嘛，而且干还干很长时间。

经常是干20分钟，你想在中间打断他，想在中间去补充一些信息，想在中间让他去调整个方向的话，没有办法。你必须让他把它干完了以后才能去调整，所以效果并没有那么好。虽然有很多人说：“你看我们给你一个什么筛选简历，给你一个什么样的案例，效果好极了。”但是这可能就是他们一开始设计的几个案例，就比较适合干这个事。大量的这种案例效果并没有那么好。

因为我现在是每天把各种的AI agent都跑起来，让每一家都给我去收集一遍，结果再去做比对，发现也还是挺累的。为什么？因为这东西话痨。就是你让他去收集了一堆信息了以后，啰里八嗦讲一大堆，而且经常里头是错的。你说你给我按照一个比较好看的方式给我展现出来，这个效果呢也就都将就吧，反正能算是有一点点设计，但是还是挺难看的。所以呢，这种泛agent效果真的不怎么样。

而且现在这些泛agent还面临着什么呢？就是这些模型厂商直接自己上各种深度研究、深度搜索的这种功能，直接把它覆盖掉了。你跟这些玩意比，你没什么优势，因为毕竟人家是模型厂商，对于模型更加了解。你在外面去做这种修修补补的事情，效果并没有那么好。你想说我出一个单独的这种视觉效果，或者出一个网页表现什么的，这块也都差强人意。毕竟咱们原来讲的叫模型及应用，谁做了模型谁就有应用。OpenAI、XAI、谷歌都在不断的去侵袭这些泛agent的这种领地，所以他们的日子其实并不好过。

那垂类的agent到底是不是可以逃脱被覆盖的命运呢？原来我们都讲说，ChatGPT更新了升级了，一堆人失业了，一堆创业项目死了。但是呢，垂类的agent会稍微好那么一点点。垂类agent干嘛？第一个就是专属知识库。我把一些特定的知识库专门总结出来，让他可以在里边去做RAG。就是我们通过一些特定知识库在里边去搜索，会得到更准确、更符合这个行业要求的结果，这是一方面。

第二个呢就是专属的提示词库，或者是干脆训练小模型。你可以让agent的规划做得更好。咱们以今天讲的这个Livechat来为例，他就完全可以做一个专门的提示词库。我就告诉大家说，咱们是如果是做哪些事情的话，应该先调用哪个模型，再调用哪个模型，哪个模型的这个提示词应该如何去写。这些东西是一堆设计师在里边去做的，他按照设计师自己的这个工作流程去给你设计这些提示词库。这个效果还是比这种你直接告诉一个ChatGPT，说来去给我设计提示词去吧。

给我设计流程去吧，要比这个效果要好。毕竟是真人有工作经验。在这里有些说，我需要大量的出这种规划，就是这种流程。规划的时候干脆就设计个小模型，你拿这些小模型直接出设计规划，效果会非常好的。

那么多公司的模型配合工作的，也是这种垂类agent的一个特性。因为刚才我们讲的就是大模型公司，想去覆盖这种泛agent的市场，它一定是什么？就只能调自己家的模型。openAI说我想去调谷歌的Gemini，这肯定搞不定，因为openAI它自己也不会干这个活。谷歌说想去调XAI的grok也不行。但是这些agent公司它是可以的，它是中立的。我可以把一大堆的模型串在一起，让各自干各自最擅长的事情。他这块还是有一定优势的。

特别是在做图像生成的时候，现在图像生成这个领域，还不像是比如说代码生成，或者文字生成。那些领域里头大家在你追我赶，而且跑得很快，相互之间也没有说谁会绝对领先，或者在哪一个领域里头特别的领先，其他人无可替代。所以你并不需要说，我把所有的模型都跑通，才得到一个最好的结果。都用openAI的也可以得到很好的结果，都用谷歌的也可以得到很好的结果。

但是图形这块儿不一样，midjourney、GPT、谷歌、Flex、stable diffusion各有各的长处。每一个模型有自己能够干的最好的这个事情。它把这些东西串在一起，能够去形成一个完整的agent流程的话，确实是可以解决很多用单一公司产品解决不了的问题。所以呢，这种垂类的，特别是像画图这样的这种工作，它的这种a站的产品，是有一些护城河的。它的护城河要比刚才我们讲的那种泛agent的要强一些。

其实有一个这种垂类agent的典型案例，到目前为止还是跑得非常快。这个典型案例叫cursor，就是AI编程现在跑得最快的。它真正强的地方不是它里头使用的cloud 3.7、cloud 4这些模型，它真正强的地方是它整个有一整套的符合程序员工作流程的提示词库，自己也训练了一些小的模型去配合各个模型在里边去工作。所以这种垂类agent确实是有机会的。

但是垂类agent的日子也没有那么好过。为什么这么讲？垂类用户，你既然叫垂直了，潜台词是什么？一定少嘛。你说我是泛agent，我什么都能干，那一定是很多的用户都有需求。你说我就是做设计的，那你说我没有设计需求，那肯定不是你的用户。所以它的用户量比较少，成本很高。

因为你调用的模型都是别人家的，像刚才我们讲的Lovart这种。你看看他这个收费标准你就知道了，他的不同的套餐收费标准里头，代表的是不同模型调用的次数。你像我现在已经把我的所有送的点都用光了，所以他的成本是非常非常难控制的，因为所有都在外边，也没法随随便便做补贴。烧钱他也烧不起，因为做这种特别是设计类的、多模态生成类的，这种模型本身对算力要求都非常高，必须要玩付费转化率。不付钱没法整，因为你没有办法说我大量免费，不停的吸引新用户进来转换，你必须要付费。那么它的启动就会比较难，它的收费规则制定也很复杂，因为你调用这么多家的模型，各家都有优惠，有什么其他的一些收费标准。你要把所有这些收费标准融合在一起，然后放到你这个整体的收费标准里头去，这个事也比较麻烦。

而且呢，他们还有一个成本非常高的地方在哪？他的研发成本也很高。你说这帮人都不去做自己的大模型，都调别人的模型，就是一帮写提示词的，他为什么研发成本高？他们需要干一个特别恶心的事情，叫跟模型。原来我们叫跟核，以前我们做，比如说浏览器底下是Chrome的核，我们需要去跟这个核。现在我们跟这么多的大模型一起打交道，这些模型每天在这升级，你就需要跟所有的模型。这两天比如说Flex新出了一个版本，叫K O N T E X T，可以实现一致性提升。而且他那个一致性提升，非常非常多的细节是掌握的更好。你现在想要把它用上，就要赶快派人去做研究，做研发，这个是非常非常累的。

原来我在Borland做Jbuilder的时候，也是这块儿非常累。为什么？因为当时我们需要去应对各种各样的j2ee的中间件，weblogic的、Oracle的、IBM的，还有Borland的自己的VC broker。这些东西他每天都在升级，那你升级了以后，谁升级了你都得跟着升级，要不然的话你没法支持最新的版本。他这个就很累，你等于非常多的研发成本要在里头，而且最后卖钱，你可能还卖不出这么多来。所以对于这种做垂类的agent的人，这一块的研发成本还是非常高的，而且是个辛苦钱。

还有一个比较讨厌的什么？就是烧钱。跟所有大厂比起来，他们都烧不过人家，所以这一块也是很麻烦。最后一点，如果做大了，容易被大厂惦记上。比如说现在编程这一块儿的垂类agent，windsuf已经被OpenAI收了，cursor现在长得很大，那微软说那我收拾收拾你吧。

GitHub Copilot直接集成到VS Code里头，而且GitHub Copilot直接把Agent的功能全加进去。我就要把你挤死，这个对于Cursor来说，也是有很大的这种压力的。而且其他的大厂，比如说像字节跳动出Trae，阿里也出了0码IDE，就是把它原来的编程插件直接集成到IDE里头来。那这一块的话，对于这些做AI Agent的厂商来说的话，也算是个幸福的烦恼。

什么叫幸福的烦恼？你做的小没人理你，做大了才有人去理你。

最后咱总结一下，垂类Agent其实就有点像中国人的移动APP。为什么是中国人的移动APP？移动APP这个市场里头，大量的排在靠前面的都是中国人做的。为什么呢？就是我们喜欢干这种工匠精神的事，叫知其然而不知其所以然。我也不去研究背后为什么，我就在前头去修修补补，去绣花。甭管是跟核也好，还是跟模型也好，做这个辛苦活，这个事是中国人擅长的。所以，干脆咱就拼勤奋，拼细节得了。

你说我吭哧瘪肚0-1去训练大模型，这事我们搞不定，而且现在芯片还不是那么好使。干脆你们都去训练大模型，我来想办法把这些模型凑在一块，解决一些实际问题。这一块确确实实是中国人比较擅长的。太多大厂懒得做，或者无法投入很多资源去做的领域里头，中国人就可以在里边找到机会。在某一些垂类领域里头，就可以做出一些有趣的产品来。

很多方向的机会，做这种垂类Agent的机会，就跟做APP差不多。举几个例子，比如说Keep这样的健身APP。你说我现在直接给你做成垂类Agent行不行？没有任何问题。营养师的健身教程，再加上训练私有的这种小模型，或者说我去做健身相关信息的这种垂类知识库，把这些东西搁在一起，再去做一些健身课程的规划和设计，健身数据的输入，再拿这个东西进行一对一的去指导。

或者是一些教学类的垂类Agent，比如学英语的，或者是学一些其他课程那种垂类Agent，都是可以做得出来的。或者是旅游行程规划。我最近因为有无人机了，老惦记出去玩儿去，那我就得用各种的泛Agent去测规划，发现巨难使。

我说我现在想规划一个从哪哪出发，到什么什么地方去，到那个地方怎么去玩，怎么去停车，怎么去充电，哪个地方是拍照打卡点，哪个地方是无人机的摄影打卡点，那有什么吃的什么玩的，有什么样的历史古迹，有什么故事，你去给我总结一下。每一次都啰里八嗦，给我整一个几万字的小作文。

弄完了，我连看都懒得看。看完了以后，发现也没有任何直接执行的可能性。为啥？因为写的非常多的东西都是错的。

如果这个东西你把它专门规划好了，做成一个agent，那肯定有人愿意用。或者拿机加酒挣钱就完了，就是买机票和酒店去挣钱，这个都是很好的创业方向。

医疗陪诊：我今天想去看个病，那你是不是可以调用各种医疗系统，帮我去挂号，帮我去选大夫，帮我去处理各种各样的检查结果？这个事是不是OK？

包括视频剪辑：Lovart的创始人叫陈冕，原来是剪映的。现在剪映也准备专门出垂类agent，叫百灵鸟还是叫什么，现在可能在安卓平台上在做，等他出呗。你像我们每次剪辑视频也可麻烦了，美颜一下，调个颜色，然后做音频的处理，这些东西直接上agent不就完事了吗？做一个垂类agent，这块可能在今年就可以看到。

而且在这块，剪映也好、快手也好，可能都会往前冲。因为剪映后边有吉梦，快手后边有可灵，他们自己这样的模型就已经做得很好。所以他们很有可能说，我把自己的剪映客户、快手客户，加上自己的这些模型，拼出一些垂类agent来，那这块也是可以期待一下的。

但这个大家就可能做的时候稍微小心一点。你跟剪映这种公司碰上，或者跟字节跳动这种公司碰上，比较痛苦。多选一些其他的品类，大家就可以在这儿去思考说，我这个行业里头，是不是有机会做一些垂类的agent出来，做一些有趣的、有价值的产品出来。虽然用户量不大，但是大家愿意付钱，让整个商业模式可以跑通。

这就是今天我们要讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友，加入我们的付费频道。再见！

和文科生聊了一小时编程，感受到AIGC时代，文科生更加不可或缺了。程序员、产品经理和设计师的相爱相杀还会继续。AI现在还不能取代程序员，更不能替换文科生的诗和远方。

Luke Fan — Fri, 07 Mar 2025 00:39:20 +0000

和文科生聊了一个小时的编程，我真的感受到了学文科是一件很重要的事情。大家好，欢迎收听老范讲故事的YouTube频道。前几天去字节跳动参加他们的TRAE发布会，和两个文科生——准确地说应该是一个文科生、一个设计师——聊了一个小时如何用AI做编程。我作为一个老程序员来说呢，很多时候还是偏保守的。我觉得现在AI编程还有很多事情没有做的那么好，但是产品经理是个文科生，另外一个是设计师，他们都异常兴奋，觉得哎呀这个实在是好厉害，一下就可以解决我们的很多问题。

今天呢，跟大家稍微的回顾一下下，然后再说一下我的感受。首先我感受到了深深的怨念。什么是深深的怨念？这个产品经理就说了，说你们这些程序员是不是很讨厌产品经理，每次看着我都很不耐烦，老觉得我什么也不会，只会给你们找事情。然后我每次提什么要求，你们这些程序员都不愿意给我做，总是找各种各样的理由。设计师也是满满的怨念，说我明明都设计好了，你为什么做出来就跟我设计的不一样呢？你们这些程序员还不停的来找我，说我能不能做出来跟你这个稍微差一点点，你为什么底下要画根线，我这根线能不能不做上去，你为什么要把这个按钮设计成这个颜色这个形状，下面还要有一个圈，我能不能不做这个东西，因为每次做这个东西都很费劲。

原来我们在猎豹移动的时候干过一个什么事情。当时的猎豹浏览器也是很多栏嘛，当时的设计师要求当你点击了某一个栏位，光标要从原来正在活跃的这个栏位上飘过来。但是这个东西很难做，大家知道我们写程序的时候是面对Chrome的底层去写程序，那个玩意不是从头就是我们做的。所以当设计师提出要求来的时候，程序员就会去问他说，你一定要这个光标飘过来吗？我直接把这个变亮，把那个变灭不就完事了吗？不要有这个中间飘的过程行不行？设计师说不行，我设计要有这种一致性，我整个的设计风格是什么样的。他们就会有这样的矛盾。

其实我跟产品经理和设计师打交道的机会并不多。为什么呢？因为我那个时代，程序员就负责所有的事情。我写程序的时候都是九几年，到2000年前后我在写程序，我写了10年的程序。然后，程序员开始跟产品经理、跟设计师打交道，是在后面大量的web应用、大量的这种移动应用上来以后，才会有后边的这个故事。像我们以前就是自己做就完了。我们那个时候做的产品都很难用，你必须要经过认真的培训，才可以把它用起来，而且都奇丑无比。因为我们那个时候，就是自己写就可以了嘛。我记得当时我去考大学的时候，学计算机不可以色盲。后来我说为什么学计算机不能色盲，说色盲的人设计出来的界面会大红大紫，红绿色盲嘛，你看不到这个颜色吗。后来，我上班了以后，就碰到了一位色盲程序员，本科不是学计算机的，他学了其他专业的本科，然后出来以后转行做程序员了。他设计出来那个界面就大红大绿的。但是后来的话，程序员、设计师跟这些产品经理，就成了三个冤家，必须要凑在一起才能干活了。他们讲完了那个话以后，我说哎呀我感受到了你们的怨念，你们都想把我干掉，然后他们也在那乐。这个沟通、适配、迭代，这是我们当时写程序的时候，团队里边解决怨念的方法。实在不行就出去喝一顿大酒，这个事情解决了，继续往前走。但是有的时候呢还很麻烦，为什么？因为有的时候这个程序员是男的，这个设计师和产品经理是女的，那个女生她不愿意出去跟你喝一顿大酒。当然也有一些程序员呢，就跟产品经理或者设计师，喜结连理了，吵着吵着就变成欢喜冤家了吧。产品经理呢给我们还讲了一个故事，产品经理他自己开了一个AI编程的课程，他原来一点编程都不会，然后写了一本书叫《AI编程蓝皮书》，开着课程开始去教课去了。然后一位60多岁的创始人，跑来学编程了，他就问人家说，您都这么大岁数了，您来学编程，而且您原来创业这个项目，也不像是公司里没有程序员的样子呀。这个老的创始人就跟他说了，我们原来公司里也有程序员，有十来个程序员的。

但是呢，我老信不过他们。每次向他们提点要求呢，他们就是：“哎呀，这个干不了，那个干不了，这个只能做成这样了，那个只能做成这样了，这个必须要一个月才能做完，那个还得再干俩月。”我老信不过他们，干脆我自己学一下，他们以后就不能再糊弄我了。

这就像什么呢？叫“非我族类，其心必异”。就像我们面对那些医生、律师、会计师那样，也是这么想的：“总有刁民想害朕，你们是不是都想坑我？”所以这位60多岁的老创始人，就跑去学编程去了。反正一个敢教，一个就真敢学。两人都不会编程，一个是产品经理，一个是从来没有学过编程的创始人，也是个团队的创始人嘛。两个人就开始学起来了。

我觉得等这位老创始人学成回去以后，估计会上演很多的狗血剧情。回头我再去问问他，这个老创始人学完了以后，他有没有做回访。但是我能够想象的出来，这种事情一定会鸡飞狗跳的。

那么，程序员到底在想什么？咱们来解答一下那位老创始人的疑问。你们来去跟程序员沟通，说：“把这个给我做一下，做不了；给我那个做一下，能不能打个折扣，稍微调整一下，找一个我熟悉的方式来做；你这个地方帮我改个小错误，就这么简单的一个错误给我改一下，这得改俩月，这可费劲了。”到底是发生了什么？

程序员思考的问题里头，完成功能只是很小很小的一部分。那你说你们做程序员的，你不给把功能完成了，你们都在想什么呢？第一个很简单的问题，技术选型。你要让我完成这个功能，我到底是用什么东西来去完成呢？你让我去炒个菜，那你说我是出去买个预制菜回来炒一下呢，还是说从现在开始耕地种粮食呢？程序员经常会想这样的问题。

而且有的时候为了做出最符合自己要求的这个功能来，他们真的会耕地种粮食，就是会从很根本的地方开始去做，而不是说用人家已经做的差不多了一半的东西，用现成的东西直接拼。这个用现成东西拼就是预制菜嘛。所以程序员经常会很纠结，到底选哪个呢？其实通常是选他自己熟的那个。然后程序员会想下一个问题是什么？代码复用。

我写完了这段代码了。我下次是不是还能再把它用上？或者我以前写的哪个代码好像跟这差不多，我怎么能把它用上？我为了让这个代码下次还可以用，我就要给这段代码里头写很多你当前这个功能所不需要的代码进去。为什么呢？因为我首先要写个注释吧，我要告诉他，我这个东西前面干什么了，后边干什么了，这个下回还能怎么用。然后还要写很复杂的这个架构吧，因为你想一段代码，比如说有1,000行，那我不能说我把这1,000行都用上，我要把它分好架构。而这个是50行，那个是30行，1,500行里头分成50行一段，30行一段。有人说你这不对，一开始说1,000行，怎么变1,500行了？因为凑这些架构又多出500行来。你说我只管把所有事都干完了，可能1,000行干完了，然后你说我为了有所有的这些架构，架构还很清晰，那我又多出500行来。那我下一次说，我用到这个里头的200行，我下次再用到另外那20行，他是这样来去规划的，叫代码复用。

然后还要思考什么？怎么进行效率提升？并行处理呗，哪两个事情之间不影响，让他们并行起来，这也是需要去思考的。还有一个很麻烦的是什么呢？环境适配。这个是什么东西？我这个程序能在PC上跑，能在网页上跑，能在安卓手机上跑，能在苹果手机上跑，或者我还有一部分是要到亚马逊云上去跑，或者到阿里云上去跑。那每一个系统后边都有一大堆的规范文档在那儿，那我要想适配他们，这个也很麻烦。还要避免各种各样的极端情况，什么极端情况？同时有30个人用这个事没问题，可以跑，同时有1,000个人用，程序崩了，这个也是需要在写程序的时候思考的问题。

而且写程序的人有的时候叫什么呢？叫江湖越老胆子越小。为什么？就各种坑都踩过了嘛，等下次再走的时候说，你怎么用这样奇怪的一个姿势在这儿走路？你不知道那里有坑，他是这样的一个发展过程。所以这就是导致为什么说这些文科生，这些设计师，这些产品经理，这些创始人。

觉得程序员那么不可理喻的一个原因，而且程序员想的刚才所有这些东西，其实都是可能在写程序的过程中很小的一部分。那你说剩下的时间你们都干嘛去了？这个程序员的工资不低，你们都天天在这摸鱼吗？不是，当然摸鱼肯定也要摸了。这个程序员真正用很多的时间去思考的东西，叫团队协作。这什么意思？我写完代码下一个人要改，下一个人可能还是我。那你说你这怎么又绕回来？明日之我不是今日之我，他是这样的一个过程。像我们经常写着写着程序说：“哎呀，这个程序是我三年前写的，当时到底怎么想的？”

我记得原来有一个故事，大夫写字不都写的特别潦草吗？有一次写了个药方子，到那个药房去抓药去了，实在认不出来是什么字了，然后就回去找这大夫，说：“大夫，您这字到底写的什么呀？”这大夫看了半天，然后一拍桌子：“何不早问？你早干嘛去了？现在你问我，我也想不起来了。”

所以呢，我们要做很多很多的事情是为协作的，即使是自己跟自己协作，也是需要写很多的代码，写很多的注释，做很多的加工设计。所以软件的本质是工程，不是软件本身。真正实现功能的部分只占很少很少很少的一部分，软件里面绝大部分的内容都是防止程序员迷路的。我们在这里钉个小牌牌，说：“你再往前走三步有一个坑。”这个是真正软件工程里边去做的。而且你钉完小牌牌以后，还要写某年某月某日，谁谁谁在这里钉的小牌牌。

所以呢，这就是屎山代码，什么意思？就是一大坨代码谁也不敢动。因为我们刚才讲复用嘛，你复用了以后，就会有这个代码依赖的关系，这个代码要依赖那个代码。那么你在这个东西想要再去调整，再去修改，就会变得非常非常难，叫牵一发动全身。你修改掉一个bug以后，可能带来10个bug。然后为了避免这个东西，我们还要有一堆人再去思考，再去研究。还有很多人硕士、博士学位，出来学什么软件工程学，人家学的不是说我要去实现什么功能，就是我们学习如何在可以接受的成本范围内，组织很多的人进行分工。

把一个巨大的软件工程完成掉，这也是一门专门的学问。那么，非程序员到底是怎么看程序员的呢？其实就像我们去看老中医。这些非程序员不愿意为功能之外的事情进行沟通。你说找个程序员来给我做个功能吧，这个程序员再去跟他讲效率，再去跟他讲兼容性，再去跟他讲，说你到底是要在安卓手机上用，还是要在苹果手机上用的时候，文科生、产品经理、设计师就会觉得很烦，而说这个就这么简单的一个事情，怎么搞不定呢？

我举一个最简单的案例。你比如说设计师设计了一个小动画，程序员就去问了，说你要安卓手机用还是苹果手机用。这个设计师说，你就都实现了不就完了吗？然后这个程序员就哭了。为啥呀？因为苹果手机好实现，你可能一句话把这事搞定了。安卓手机呢，可能就费劲，你可能需要写很多很多的代码才可以实现。而且你一旦要求安卓手机实践的话，他还要问你说，你这个到底是在2,000块钱以上的安卓手机上实现呢，还是4,000块钱以上的安卓手机上实现呢，还是要求1,000块钱以下的安卓手机也能实现呢？

很多人觉得这不是问题，没做过程序员的人完全无法想象这个。为什么？我告诉你，安卓手机算力是有限的。很多这种前端界面上的事情，到这个很便宜的安卓手机上是渲染不出来的，或者渲染出来会很难看，会有这样的问题。所以你作为设计师来说，你给我作出来不就完了吗？程序员说，您上下嘴一碰说出来了，但是到我这可费劲了。所以这个会有很多的沟通、交流上的一些障碍。

除了不愿意为了功能之外的事情进行沟通之外呢，这些非程序员还有一个问题是什么？他们不愿意为了功能之外的事情支付成本。比如说创始人来了说程序员，你给我去做一个什么什么功能。咱们依然是上面这个事情，你如果只做苹果的，很快就可以做完了。你要求把安卓的也做了，而且要求1,000块钱以下的安卓手机也能跑，那你要花很多的时间，甚至花很多的钱，那个程序员工资会上升的。

能够解决这样问题的程序员是很贵的。这种事情我们原来是真的发生过的。原来跟大家吹过牛，我们以前投资的Musically，他最早就只做了苹果的版本，安卓版本他没做。等到做安卓版本的时候，发现他做不出来了。为什么？他们做的大量功能，在苹果手机上一句话就搞定了，因为iOS系统其实是相当完善的。安卓系统呢？你说为什么不做那么完善呢？这个谷歌就笨吗？谷歌也不笨。他之所以不做那么完善的原因，是因为他没有办法控制硬件。他把这个功能都做的很完善了以后，你到不同的这个硬件厂商上，三星的、HTC的、华为的、小米的手机上，它不一定都跑得起来。所以呢，它就很多的功能它不能做，它一定要让手机厂商去把它完善出来。所以当时他们就搞不定了，说Musically这个软件要到安卓手机上实现，实现不了了。那怎么办呢？找我们说你作为投资人，微暴移动你投了我们了，这事你得搞定。那没办法，那上边我们就派了大量的程序员，坐到他们的办公室里来，我们替你搞定，每一个功能都可以实现出来。但这个就是成本。你要碰到这种不是那么明白的人去搞这个事情，这就费劲了。你像刚才我们讲的，60多岁的老创始人，找了一个不会编程的产品经理，学了半天AI编程以后，那回去不炒成一锅酱糊才怪嘞。最后一个问题是什么呢？就是这些非程序员，他们往往是以结果论成败的。很多东西在表面上他是看不到的。就像刚才我们讲的，你同样的功能，你在安卓手机上实现出来，可能还没有苹果手机上实现出来好看，但是呢，费老鼻子劲了。对于不懂程序的这些文科生或者设计师来说，你们这些苹果程序员好厉害，你们这些安卓程序员很笨。原因其实很简单，苹果自己做的好，安卓自己本身底层比较烂，那也没办法，他就会有这样的片面的认知在里头。而且后台的程序他看不到，他们就说前台的这帮人，你们这个功能一个一个实现的很好，后端的人你们程序怎么又蹦了。他只永远只看到这一个，因为后台嘛，只有这一个结果。

崩了，没崩。崩了，没崩。没有别的了。讲到这了，很多人会觉得，我是不是要为程序员叫屈？但是看看前面我的标题是什么？是我觉得学文科是很重要的。文科生非常非常重要。为什么我跟他们聊完了以后，他们对程序员有这么大的怨念，我反而会得出结论说文科很重要的？其实这就是设身处地的思考。

我用Midjourney画图，画了自己也很开心。画完了以后，我觉得我的情绪会得到了抒发，这个非常棒。我用DeepSeek写小说，写出来的东西呢，我看着也挺开心的。这一段看着不错，那段看着也不错。但是我在那天听完了他们讲之后，我突然意识到了一个问题是什么？我是没有能力将很多的画，按照统一的风格，或者说呢叫做一致性，把这些一致性的画，拼凑成一个完整的绘本呢。我也没有能力把这个几十万字、几百万字拼凑在一起，成为一本小说了。

像这个DeepSeek也好，或者各种的写小说的这个AI也好，你命令下去以后，大概就给你写1,000字出来。你要想让他写2,000字都很费劲。而且你命令他写2,000字的话，后面的1,000字的质量就会明显的下降。所以千万不要试图让AI一次性给你输出很长的内容。很多人说DeepSearch这样的东西，不是一次出来很多的东西吗？对，他那个东西不是一次出来，他也是拼成小段，一段一段出来的。所以呢，我是没有能力拼出小说来的。

而且呢，我也没有办法去判定一幅画，或者1,000字、1,000字的这种文字片段，到底好还是不好。术业有专攻。我上了四年大学，几十年的工作训练，掌握了非常多的技巧。那么我就可以去跟这些文科生去讲，跟这些设计师去讲，说：“哎，为什么你这东西能做？为什么不能做？你如果一定想做，到底需要支付多少成本？”这个事情我能跟他讲清楚。而且哪个东西会更好一些，更坏一些，这个事情我也可以给他讲清楚。

文科生、艺术生其实同样是这样。他们也是上了大学，也是经过十几年、几十年的工作训练。而且文科生跟艺术生……

他们所掌握的技巧是更难进行衡量、量化和迭代的。像我们其实一直在研究工程的问题，我们做的所有结果都是可以量化、可以进行迭代的。他们那些东西很多是感性的东西，比我们这个还费劲。所以在这样的一个情况下，我觉得他们更加重要一些。

所以现在很多人说，我们是不是应该把文科的取消掉，应该让更多的人去学理工科。这个事是错的。AI距离替代程序员目前还非常遥远，当然它在快速的向这个方向走。但是AI距离替代文科生和艺术生，应该更远。

很多人说不对，AIGC它生成内容了，它能生成图片、能够生成视频、能够生成音乐、能够生成文字了。但是这个东西距离诗和远方还非常非常遥远。就像文科生写程序一样，他们写出来的就是一坨坨屎。这个真的不是说看不起他们，因为AI现在所生成出来的这些代码片段，就像我们生成的图片或者写出来的文章是一样的，是没法拼凑在一起了。拼出屎山这件事本身是很难的，不是说你可以把一堆屎搁在一块，就是一堆屎山的。最后一大堆碎片，你可能连拼都拼不起来。

像我们写程序也是有风格化的，也是有一些代码编程规范的。现在AI生成的代码，它会在不同的文件里边生成不同规范、不同风格的代码。这种东西是拼不到一块的。还有就是我们没有办法去判断这些图片跟文字的好坏，这个时候还是需要这些文科生、需要这些艺术生，他们才可以去判断。

那么为什么大家都觉得可以取代对方呢？这个还是评判的标准不一样。我觉得我画的Midjourney很漂亮，让我的情感得到了抒发，让我的情绪得到了满足。我觉得我写的小说也挺好，这就是程序员在评判文科生跟艺术生的成就。而那边呢，产品经理教人写程序，大家都觉得挺好。这就是文科生跟艺术生觉得他们懂编程了。

其实是一样的，就是我们拿出来的这些画，我们拿出来这些文字，让文科生看了以后，让艺术生看了以后觉得很可笑。就跟他们拿出来的代码让我们看了，也觉得很可笑是一样的。

但是现在，8岁小女孩写游戏这样的故事，他很有传播性。大家对于AI也抱有了远远超越其能力的这种预期。AI创业者呢，其实也不愿意出来纠正这种误解。他希望说：“你们先误解着，我那头没准加加班赶赶工，这个AI就赶上来了呢。等你发现这个东西有问题之前，我就把功能做出来了。”这个是很多程序员喜欢干的事。所以这就是大家现在都觉得可以替换别人，各个公司都在这疯狂裁员，就是这样的一个原因。

Deepseek今年其实已经造成了大量的裁员。那么，应该如何面对未来呢？肯定还是要交叉学习对方的技巧。因为现在有了AICC以后，工作效率提升了，有了一些空闲的时间，多去学一些交叉的学科。但是与此同时，一定要心怀敬畏，千万不要上来说：“我懂了，你们都靠边站。”这个是要翻车的，是要出问题的。

而且，我们要准备迎接更加奇轨的未来，就是端道端。刚才我还在讲我们在吵架，文科生、理科生、美术生，三个人坐在这在吵架呢。等到最后端到端的时候，就连吵架的机会都没有了。到那个时候，就是上帝说要有光，于是就有了光。可能我们就真的不知道该去搞什么了。

那么，应该如何去迎接端道端这个过程呢？其实就像自动驾驶一样，先是给你一些提醒，最基础的是：“哎，前面有车了，我给你警告一下。”然后呢说：“我可以帮你去开一点，但是你的手要放在方向盘上。”再然后呢是说：“唉，手可以不用放在方向盘上了，但你人得坐着得看着，随时准备接管。”最后呢，是说：“人不用在这呆着了。”到最后一步就叫端到端了。这个也是一个一步一步往前走的过程。

端到端之后的话，我觉得我们可能应该学习日本人造汽车的方法。他们始终会保持一条纯手工的生产线，就是其他的都是用机器来生产，用流水线。绝大部分汽车也都是在流水线上做出来的。但是呢，始终有一条线是用纯手工生产。最后，他要确保生产线上下来的汽车跟纯手工组装的汽车品质完全相同。这可能是我们未来面对端到端的时候所必须去采取的一些措施。否则的话，万一出了一些问题。

因为一旦端到端了以后，出了问题你是一点办法都没有。你都不知道中间是发生了什么。这可能就是我们的未来。在未来的话，文科生、设计师都很重要，程序员也很重要。谁都不应该失去工作。好，这个故事今天就讲到这里。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI用12天发布会，为业界指明方向。丨从O1到O3，这些革命性进展将如何定义AI未来？

Luke Fan — Wed, 25 Dec 2024 00:51:55 +0000

OpenAI连续12天的发布会到底为世界指明了什么样的方向？大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI的12天发布会已经结束了。首先，从我个人的感受上来说，稍微有一点点失望。没有带来新一代的Dalle，也就是绘图模型；也没有GPT-5，哪怕是GPT-4.5的升级都没有。Sora虽然发布了，但是他所发布出来的产品跟大家的预期是严重不符的。

那么，这12天到底都发了些什么呢？前面7天其实已经录了一期节目进行总结了，咱们这里就不再重复。后边5天，第八天是搜索和实时语音进行了合并。我在前面7天总结最后的时候，讲了一下我说，现在OpenAI发布了大量的工具，是隔离的。语音是语音，搜索是搜索，canvas这种画板，还有其他的很多工具，是相互隔离的。就是你要选择其中一个功能，其他的功能就不能选了。未来的话，一定会逐渐把他们再合并起来。

第八天就给大家演示了通过带有搜索功能的实时语音，解决很多现实的问题。原来实时语音你跟他聊了半天，他是就给你瞎编的，就是截止到某一个时间点的知识，然后以此为基础来跟你去闲聊。现在的话，你就真的可以问他：“今天天气怎么样？哪个地方餐馆是不是定满座位了？”他可以用一些真实的信息来给你回答，这个就会变得非常有趣。甚至，他们还演示了一下去结合地图跟大家做一些回复，说哪个地方有什么什么东西。他可以把这个地图调出来，你附近有哪些好的餐厅，有哪些好玩的地方。

到第九天，叫开发者日。这么多功能出来了以后，他给大家了一些API，也就是像我们这些程序员可以通过API把这些功能集成到我们自己的程序里边去。所以，先给大家看了O1的API进行升级。大家注意，O1原来我们是可以通过API去调用的，只是它很多东西都没有，包括函数调用、结构化输出、视觉输入，这些东西实际上都没有。这些是在4O上都有的东西，但O1上没有。稍微跟大家讲一下什么叫函数调用。

就是我们在调用大模型的时候，按道理说应该是我们给他一个提示词，他就吭哧吭哧就干去了。但为了能够让他有一些更多的功能呢，OpenAI也好，或者很多其他的这种大模型也好，都有这种函数调用功能。就是你跟他描述一下，说这个函数是查天气的，以后遇到查天气，请调用这个函数，直接把这个天气查出来。等于你把一个实际天气预报的网站就可以封装成一个函数，告诉这个大模型，然后它就可以去做这样的工作，等于它就具备了查天气的功能。

这个就叫做函数调用。而所谓结构化输出是什么呢？就是我们正常看到大模型输出的，都是乌七八糟的一大堆话。你想在里边找到真正有用的东西，然后再到下一个模型里去调用的话，有几种方式。第一种呢，就是你再给他一个大模型，说来把这个里头有用的信息总结总结，然后到下一个地方再去使用。但是这种方式呢，会有一个问题，过了大模型这个过程了以后的话，每一次的结果是不可预期的。有的时候找得着，有的时候未必找得着，这个会挺麻烦的。

另外一种方式，就是我们常用的方式，是把它写程序，直接在这个输出的内容里边进行正则表达式的过滤。就是说我过滤一下，这个里头有没有谁的名字呀，有什么性别呀，还有什么这些东西，然后把这些数据拎出来，然后到下一个环节继续使用。以前我们是这么使，但后来OpenAI就发明了一个方式，说哎，我干脆结构化输出吧。我再输出出来的东西，就不是一个完整的文字了，而是把它拆成程序员比较习惯使用的JSON格式。他上来就告诉你，这个人的姓名是什么，性别是什么，然后有3个人形成数组，每一个的属性都按这个方式写好。那这样的话，我们在后边拿程序去接收这个数据的时候，就直接可以拿这个已经结构化好的数据去把相应的信息拎出来，往下一个环节去走。这块还是很棒的。

至于视觉输入的话，他其实干的事情很简单，现在的O1的API可以直接往里塞图片了。原来都是你需要用文字去描述，它是不支持图片的，现在支持了。

这就是O1的API增强的东西。然后呢，给大家演示了一个叫WebRTC。加上WebRTC以后呢，等于我们自己的程序里头就可以有这个实时语音功能了。原来我们没有办法做这个实时语音，是因为呢，我们需要通过像API的方式来去调用它。必须是我先得到了一段声音，然后把声音塞到这个后台的服务器上去，先给我识别说说文字，然后呢，它产生结果，再去给我念。原来是这样。现在的话，就是它可以做WebRTC了。

RTC什么意思呢？叫Real Time Communication，叫实时通讯。所谓实时通讯就是说，你给了它这个音频流或者是视频流，给了它以后呢，它等于实时的去处理了。像我们使用的OpenAI的高级语音功能，就是它是说着说着你可以打断它，它会听到你的声音，然后接着跟你聊。这个东西就是WebRTC实现的。

咱们日常生活中各种的会议软件，还有很多直播软件，实际上它背后用的技术都是WebRTC。那么现在都是我们给大家提供WebRTC的这种API，你也可以让你的应用或者网页呢，拥有这种可以被实时打断的高级语音功能。这个也是一个非常棒的技术，至少对于程序员来说，稍微有点激动人心哦。

还有一个让程序员比较开心的事情，就是API降价。你调用了API，它是按TOKEN来收费的嘛，要每过一段时间都会降价，降一点点。那么又降价了，这个是让程序员开心的事情。

这是第九天开发者日。到第十天呢，发布了一个特别有趣的功能，就是直接电话通话功能。他给ChatGPT申请了一个电话号码，大概是1-800-ChatGPT。大家可以直接给他打电话，而且呢，应该是每一个电话，每个月应该有十几分钟的免费时长，可以去跟他进行通讯。他发布了这么一个有趣的东西，就是你不需要安装APP，上网页登录账号都没有，随时抄起一部电话来，就可以去跟他聊天了。

除了这种方式之外呢，还可以做WhatsApp。你把刚才那个1800……

后边ChatGPT的这个电话号码呢，写在联系人里，以后就可以使用WhatsApp跟他进行通讯了。跟他聊天也是允许的，这样的话，他等于极大地去扩容他的用户层面。很多的老人小孩，原来从来没有接触过电脑，没有接触过网络，没有接触过手机的人，就开始可以成为他的用户了。这个也是很有趣的一个发布吧。

我尝试了一下，我没法使，因为我的WhatsApp是用大陆手机号注册的。我使用大陆的手机号去给他打这个电话的话，肯定他也不会有任何回应，所以呢，就不用费劲了。

这是第十天。到第十一天呢，做了一个Mac桌面版的升级，可以呢看到Notion以及其他笔记软件里边的信息，然后还做了一些高级语音功能的整合，也就是刚才我们讲的ChatGPT的Mac版。你连到本机的Notion以后，或者连到本机的各种应用上，今后你现在可以跟他说话，通过说话的方式来控制这些应用了。

这是第11天。到第12天说终于到最后一天了。我记得到第11天的时候，就去讲说明天特别激动人心。在前边应该是发布apple intelligence那天呢，也在说说这个，以后有一天我们会发布这个AGI的，激动人心的AGI。所以呢，就是留足了悬念，大家就都等第十二天了。终于到第十二天了，坐在这看发什么了。

他发了一个叫O3的模型，这个就实在是太厉害了，都不好意思叫O2，因为前面一个模型叫O1嘛。说O2我们跳过了，我们直接叫O3了。整了这么个东西，是一个非常强大的推理模型，然后也发布了O3 mini，还有一个叫谨慎对齐的技术。

现在呢，这些O3模型呢都是期货，O3 mini是到明年1月底可以跟大家见面，而O3的话还要再往后推一些，据说是在O3 mini发布以后的一个时间跟大家见面。目前呢是开放了安全员申请，就是你可以申请成为安全员，进去呢帮他评测一下他们的安全机制是不是有效。因为这么厉害的模型出来以后的话，一旦是被坏人利用了，那等于坏人也如虎添翼吗。

这个是他们不希望看到的。具体第12天的东西呢，咱们后边详细讲一下，这个还是有点意思的。然后到第十三天，对，连续发布12天嘛。第13天还有事。到第13天呢，山姆奥特曼发了条推特，说从今天开始，Sora一直到年底，免费给大家使用，就是不限额随便使。我估计呢，它Sora发布出来以后，发现完全没有什么热度，没有什么人愿意在上面折腾。因为呢，很多人试了以后发现效果并不好，特别是很多物理bug，比如说多个手指头，或者什么腿往外弯了，两条腿变三条腿了呀，什么这种事情稍微有一点点多。而且呢，他限制非常严，像我到现在在他的Sora上，不可以画有人的视频。所以呢，我就试了一次，以后就再也没登录过。虽然我作为plus用户，每月还是有一些绘画的，或者绘制视频的这个额度的，但是没兴趣。

现在他又出来找补来了，说我们第13天还有东西，就是大家可以继续去使用Sora，作为圣诞庆祝，因为他觉得后边该过圣诞节了，大家都应该去画一些视频出来，然后去四处发发社交媒体，给人祝福祝福，这是一个很好的时间点。但是从现在来看呢，我并没有看到什么响动。怎么叫看到响动？别人画没画我怎么知道呢？也很简单，就是你到Twitter里边去，到YouTube里头去，如果你发现有大量由Sora渲染生成的这种视频在传播，在大家互相的转发点赞，那说明呢，这个策略是成功的。但是他发了这个推特以后呢，我并没有发现有任何变化，所以我觉得这个事情，应该他的目标没有达成。

好，下面呢，咱们稍微详细的讲一下第12天的O3发布吧。O3模型呢，就是这种博士生模型，前面我们还专门录了一期视频，再去讲如果花2,000美元一个月，让你去雇佣一个达到博士级别的AI助手，你到底愿不愿意？那么现在看来，人家也不是无地放矢，实际上都是在为O3去打基础。O3模型呢，在编程比赛里头获得了2,700多分，当场做主持的那哥们大概是做了2,500分，然后旁边的山姆奥特曼就问他说：“你多少分？”

他说2,500，当时那个脸就不是那么好看。但是他马上纠正说：“哎，我知道公司里头是有人得到3,000分的。”对于他们来说，我估计达到2,500就已经很强了。因为那个比赛我自己没有跑过，但是我估计以我的能力，应该是差得比较远。因为现在脑子已经比较木了，不是原来每天坐那写程序的那种脑子了。

然后呢，他说：“哎，公司里有人是3,000分的。”然后山姆·奥特曼的反应特别逗，他说：“这个3,000分，这哥们也蹦跶不了几天了。”为什么呢？因为以AI的进化速度，他想去追上人类的这一点点分数差异是非常容易的。特别是在这种规则比较明确的挑战赛上，人类是不太可能很长时间保持优势的。

第二个是参加数学竞赛，也得到了一个非常高的分数，就做错了一个题。山姆·奥特曼就想起来问说：“兄弟，你那个数学竞赛考了多少分？”那哥们赶快松了一口气，在老板面前保住面子了。他说：“我是满分，我一个题也没错。”后来又赶快找补，他说：“我是做出过满分答案的。”

对于这个O3来说，对于这种大模型来说，你让他反复去做，他最后肯定也是能够做出满分答案的。甚至原来还有那种猴子理论，就是你让一堆猴子在这随机的点点点，或者随机的打字的话，都有可能能够形成有意义的长文本。所以你让O3反复叙事，他肯定也能够达到满分，这个不用担心。我估计这哥们也是压力挺大的，老板坐在旁边，随便出点什么数：“你多少分？”这个还是稍微有一点点吓人。

而且他说他满分了以后，估计他也想明白了：“说不对，这个不是老板在面试我，不是在考教我，我们是在发布新产品，还是要说产品牛。”然后赶快又找补回来了这个东西，这个也是很厉害的。但这一点上呢，一定是O3体现出了极强的编程能力和数学能力。

然后参加了一个叫ARC AGI的测试，这呢是一个全球可以开放的测试，所有做AI的人都可以去拿自己的模型上面去跑去。GPT-3在里面大概是0分，GPT-4是5分，4O可能比这个4稍微好那么一点点，O3的话是达到了87.5分。

这是一个非常非常高的分数了。人类的平均水平是84分，所以它已经超过人类了。我们正式向AGI进发了。这个比赛呢，超过85分的就可以获得60万美金的奖励，还是一个非常棒的比赛。但是呢，它也展示了另外一个事情，就是O3模型的运行是需要超高的运行成本的。

为了应对这个超高运行成本，他们还设计了一个很有趣的东西，就是在你每一次向O3问问题的时候，可以设置说，我到底是用这个高成本运算、中成本运算，还是用低成本运算，而不是像原来使用GPT式的，就是你只管问，它自己来根据你的问题决定使用多少算力、多少成本来算出结果来。

他们参加这个ARC AGI的测试的时候，如果使用低成本运算的话，只能得到75.7分。虽然没有达到人类的平均水平，但已经很高了。然而，这样的75.7分的结果是用20美金算出来的，不是20美金一个月，而是20美金一次哦。这是非常非常恐怖的。

他们刚才说的这个87.5的分数，超过人类平均智力水平，这个分数是用高成本算出来的。他算一次需要花几千美金，这是非常吓人的。所以前面录节目讲的这个2000美金一个月的，我觉得2000美金未必够他烧的。就是你按照运转一次就需要花几千美金的这种高成本运算来算的话，那这个收费的方式可能还需要重新思考一下。

除了发布这个O3之外，还有O3mini。O3mini呢，是高中低三档算力开关，也是如此。效能呢做了很大的提升，低成本推理这一档呢，速度很快，基本上跟GPT4O的速度是一样的。现在我们使用O1 mini、O1这样的模型的话，它的速度是非常慢的，你需要等半天才能有结果出来。但是呢，使用O3mini基本上是可以达到4O水平的。

然后使用中档推理的时候，可以达到O1的这个效果，但肯定它比O1要便宜嘛，因为它是叫迷你的一个版本嘛。但是呢，它的运算的结果跟O1是一样的，但是高档就没事没得比了嘛。

而且呢，O3 mini呢，提供了丰富的API，就是结构化输出函数调用，这些都给了大家可以去写程序去使用了。但是O3的API到底长什么样，这个就不好说了。除了O3和O3 mini之外呢，还发布了一个东西叫谨慎对齐。你发了这么神奇的东西，万一有坏人用怎么办呢？所以这个事情一定要去讲一下。

他们整了这样的一个谨慎对齐，实际上是什么？这是原来我们要去对齐的时候，或者说我们要去甄别用户提进来的提示词，是不是恶意或者隐藏恶意的时候呢，他们以前都是通过这种静态的关键词去进行过滤的。现在说不用了，我们训练了一个模型，然后这个模型呢，自己可以推理出一个标准来，灵活地去甄别每一次的提示词。但是这个呢，现在请大家报名去做测试，看看到底能不能突破它。因为我对于他们的这种数学和推理能力，其实是缺乏理解的。就是以我的这个理解状态来说，我觉得这个谨慎对齐的这些安全方式的话，应该突破不难。这个等他慢慢后面进化去吧。

通过第三天的发布呢，我们看到了一个非常有趣的现象，也就是OpenAI的用人原则。他们其实就是通过各种的智力测验、各种的编程比赛、数学比赛，挑了一堆的这种天才儿童坐在这。但是我们去讲“天才儿童”这个词的时候，听到的朋友们，你觉得这是一个完全正面褒义的词吗？好像不是吧。

现在这一群的天才儿童坐在一起，给我们带来的产品就是O3、O3 mini，一些普通人已经完全无法去理解和使用的一个强推理模型。没有给我们所期盼的普通人能够用的GPT-4.5或者GPT-5，而是给了我们一个O3。我们对天才儿童的这种认知，一般是什么样的？咱们从字面意思上去理解的话，大概是这样。这帮人在某一些特定的环境下，已经跑得非常远了，一骑绝尘跑出去了，让其他人完全无法望其项背了。但是呢，对于正常的生活，柴米油盐酱醋茶来说，基本上是弱智。反正至少我的对于天才儿童的理解是这样的。所以呢，现在GPT的O3以及他的谨慎对齐的话。

我基本上是按照天才儿童的方式来理解他们的，这个事没有什么依据，这就是完全的感受。好，这就是第十二天发布的产品了。往后呢，我们来讲一下OpenAI的方向判断，通过12天的发布，他们到底想干什么，这个我们要去看一下。

第一个，OpenAI现在一定是希望拉更多的用户进来，甭管是Apple Intelligence，还是直接可以给他打电话，直接可以用WhatsApp跟他联系。他还是希望拉更多的用户进来，而且呢，可以覆盖更大的应用范围，比如CANVAS Project或者其他一些新的功能。它希望可以覆盖很多原来，比如说Office或者是其他的一些软件所覆盖的这些功能。

包括第11天所演示的ChatGPT麦克端的APP，可以直接跟大家的Notion、Notebook也可以跟这些产品一起工作的这个能力。他希望把AI带到所有的边边角角、方方面面里边去。我觉得这个Notion AI可以哭晕在厕所里边了。

另外一块呢就是降价。OpenAI的降价其实一直都没有停下来，每过一段时间就会降价。但是对于普通用户来说，你一个月20美金也好，或者是200美金，或者其他这种版本也好，这个它不会降。但是什么东西在降价呢？就是API在降价。每过一段时间API就会降价，降价的原因呢，就是现在其实我们在程序员使用API调用的各种大模型里面，OpenAI的ChatGPT还算是最好用的之一。现在只能算之一了，因为呢，它跟这个Anthropic Claude 3.5 Sonnet比起来，算是不分伯仲吧。在这样的一个情况下，他只要是不断的降低API TOKEN的成本，那么我们这些人就会继续去使用他的API，那么他就可以很有效地去挤压他的竞争对手。这件事情一直在前进，然后瞄准高端狂奔，这就是这一次12天发布会里的实际最主要的东西。像第一天欧一完整版。

第二天，什么是强化学习？然后到最后，上了一个O3。中间其实还有很多，是专门进行这种研究型应用的模型，已经完全脱离了普通人使用的这种模型。这个方向其实在O1的时候就已经指明了，我们要向这个方向前进，不再去做5了，或者再做什么这些东西了，我们就要去做强推理。

在这样的方向指明了以后，现在谷歌、国内的像Moonshot、Deepseek、阿里这些都已经纷纷跟进，分别推出了自己的数学模型。谷歌推出的叫Gemini 2.0，Flash Thinking，Kimi的话应该也是推出了一个叫m系列的模型。Deepseek应该也有一个类似的模型，国内还有一些这种数学模型。阿里推出的叫QWQ，也就是通义千问QWQ模型。有一些我已经用过了，效果其实还可以。

OpenAI已经成功地把整个行业的方向向着研究方向带过去了。再往下一步，OpenAI要做的事情，继续是各种工具之间的联通和统合，这里还有很多工作需要做。你比如说，现在你想用CANVAS的时候，还是不能用搜索。虽然可以在实时语音里头用搜索，但在CANVAS里用不了。CANVAS跟其他各种功能结合起来，或者绘图什么结合起来，这个还需要逐渐把它自己这些功能打通，这需要下功夫。

然后，面向普通人的大模型进化，OpenAI还在探索。现在有传闻说，GPT-5训练了几次，效果不好，依然在训练。就是成本非常非常高，周期很长，训练一次几个月的时间，花5亿美金才能训练一次，但是训练了两次都没有出来结果。不过目前这些都是传闻，我自己也没有详细考证过，还是慢慢等进一步详细的消息出来吧。

那么未来AICC行业的方向是什么？这刚才我们讲了OpenAI的方向。大家要注意，12天连续发布会，实际上对整个行业来说，有一个重大的利好。这个利好是什么呢？就是两大困扰创业者的问题。

有一个暂时没有爆发。两个问题是什么？第一个是底层架构不稳定，第二个呢，是上层应用被覆盖。这个什么意思？咱们先想后边这个。就是你吭哧瘪肚坐半天，等OpenAI再去开发布会的时候，你发现你的功能被覆盖掉了，你的事情白干了。就是每一次OpenAI一开发布会，就说又有一大片的创业公司倒下了，就是功能被它覆盖了。这个问题依然没有解决。

这一次这个OpenAI 12天发布会里头，依然是覆盖了一些东西，比如说ChatGPT的Mac客户端可以直接跟Notion结合了。那么Notion AI的一部分功能实际上是被它覆盖掉了。甚至呢，Mac端的ChatGPT的应用可以直接跟各种的IDE开发工具去结合去写程序了。为了应对这件事，微软说来GitHub Copilot免费了。所以现在你想写程序的话，可以直接使最好的那个，不用去跟其他的那些免费模型较劲了。这也是这个倒逼微软降价吧。所以这块依然没有解决。

但是另外一个问题呢，基本解决了。什么呢？就是底层架构的不稳定。原来你要去做一个创业，说：“哎，我在GPT2的基础上做了一个东西。”等你这个东西吭哧瘪肚开发了一年，写出来了，人家说我GPT3出来了。那说咱们升级，GPT3上我吭哧瘪肚写了半年，又把它写出来了。我3.5了，那咱再升级，又吭哧瘪肚写了一年，说我这个现在是完全适应GPT3.5的了。我们要去开发布会了，正要出门了，我们这个GPT4出来了，然后4O出来了。这个就叫底层架构不稳定。

现在一看说，哎，5依然遥遥无期，5的各种特性都不知道。因为我告诉你，不需要把5做出来。如果OpenAI能够做出来，说我5是按哪个方向做的，朝哪个方向发展的，这个事他如果敢出来说的话，那么整个行业就会奔着那个方向开始跑。就跟他2024年年初说我要做Sora，我放了一堆演示出来的过程是一样的。实际上他已经把整个行业带着跑了一年了。所以现在5到底是什么样，不知道。那么这件事就算稳定了。

底层基本上稳定了。现在呢，甭管是LLama、通义千问、Gemini、Claude、OpenAI，还有其他的各种模型，都基本上停留在GPT-4的这样一个水平上，上上下下吧。然后呢，他们的调用方式，整个的反馈的这个结构基本上是跟OpenAI一致的。就OpenAI制定了一个标准，规定好了这个东西是怎么调用的，提示词大概怎么写，调用的时候是分几个命令进去，出来了以后可以有哪些功能。像刚才我们讲的什么函数调用、这个结构化输出，这些东西其他人都是照这个标准做的。

所以呢，现在再去做什么应用，或者做AI Agent，大量的这种工作流都串起来，干这个事情的话，那中间的这些大模型就有极强的可替代性。我用OpenAI可以用，我用Gemini可以用，我用Claude可以用，我可以随便换。这个的话，其实是对于开发者来说，或者对于创业者来说，是一个巨大的好消息。就是底层暂时稳定了，大家赶快冲上去，把一些具体的应用做掉，这是很好的机会。

OpenAI自己呢，还会继续去将各种分散的功能逐步整合起来。所以在这个时候，千万不要尝试去做拼接工具。什么意思呢？你比如说，哎，我现在是不是做一个带有搜索的CANVAS功能？这个你就别费劲了。你要相信我，OpenAI自己一定可以搞定这个事。而且他一旦搞定了以后，你做的那个产品一定会被覆盖掉，这个事不要去干，直接面向混合后的OpenAI功能就可以了。

你比如说，我们认为带有搜索和这个项目功能的OpenAI的这种API未来会出来，那么我们就直接以此为目标进行开发就行了。等它一出来的时候，我们其他东西就开发完了，这也许是一个方向和玩法。那么用户交互方面呢，肯定还是会有很多可以值得探索的东西。这一次OpenAI给了我们两个提示，第一个提示就是如何让AI更好地跟现有的系统相结合，到底是通过Mac上面的ChatGPT APP。

直接去跟各种APP进行结合，还是说我到这个网页里边，直接给你上canvas或上画板，这块呢是大家值得去探索的，也是呢这个OpenAI给大家做的一些演示或指明的方向吧。这块是值得去试试的。

另外一块的话，就是如何将复杂的需求准确地表达给AI，这个是OpenAI这一次开发布会的时候给大家演示了。那说哪一个是做的这块的演示呢？Sora的故事版。我怎么能够把一个有持续的信息分成持续提进去？这个其实是OpenAI给大家做了一个创新，虽然这个创新很小，但呢非常有意义。

以后我们不用再去想说，我如何可以在一个提示词里一次性把一个完整视频所需要的信息都扔进去。你可以在故事版上，在时间线上，这个地方要干什么，那个地方要扭个头，这个地方要变个颜色，这个时间点要起始，要画什么东西，然后到几分几秒的某一个时间点，这个主人公向哪个方向走，或者做什么动作，或者到几分几秒这个颜色发生什么变化，或者亮起什么样的灯光。他可以通过这样的方式呢，进行更精确的有持续性的信息输入。

而且这些的话，应该会很快被像什么吉梦、可灵、Runway这些模型应用起来，这个我觉得可能一两个月就会看到变化了。现在呢是研究和推理领域，肯定会越来越小众。面向普通用户的方向的话，各种的APP，各种的这个用户交互方式，这块呢现在大家就可以去干了，2025年应该是这一块可以出成绩的时候。

另外呢，就是具身智能必然会爆发。其实我们这一次看OpenAI 12天的连续发布会里头，真正让我感觉很震撼的东西是什么？就是带有视觉的高级语音。你可以开着摄像头对着自己跟他聊天了。这种东西你扔给了具身智能的机器人，再要求OpenAI直接输出代码，说来你给我输出代码，然后我用这个代码去控制机械手。技术变化了以后再给你进行一些反馈。

现在的OpenAI大模型，其实已经距离控制机器人非常非常接近了。所以呢，这些机器人公司应该发力了。

新的具身智能未必长得像人，只需要做好插件、传感器、动作执行以及反馈这一块就行了。下边就是怎么提高技能、提高准确度、降低成本。这就是2025年可能提给所有具身智能行业的一个要求了。后边大模型的部分不用管了，扔给OpenAI就完事了。

带有视觉的实时语音，会改变每一个人的生活方式。这个智能的硬件产品包括一些新软件产品或者网页，在2025年的话，应该会有非常多的涌现。

最终总结，2025年依然是AIGC的一年。虽然前面OpenAI连续12天的发布会让我感到稍微有些失望，但是他还是尽到了责任。不是说发布了什么让我特别感到眼前一亮的革命性产品或者什么iPhone时刻，没有。但是呢，他依然作为老大，执行使了他的义务，就是为整个行业指明了方向。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

对赌协议，杀死中国GPU独角兽，万恶的对赌协议，还是中国GPU产业困境？象帝先突然倒闭揭示了创业者无法规避的融资陷阱内幕

Luke Fan — Fri, 13 Sep 2024 00:40:05 +0000

都怪万恶的对赌协议，毁掉了中国GPU创业独角兽。大家好，这里是老范讲故事的YouTube频道。出事的公司叫做重庆象帝先，在9月初的时候突然死亡。据说8月底的时候就开会说：“你们就直接原地解散。”所有人都直接离职就完事了。后来人家还出来辟谣说没有这事，我们确实遇到了些困难，进行了团队调整。他这玩意只要剩一个人，就不算原地解散，都算造谣啊。但是公司已经人去楼空了，门也锁上了，肯定是遇到了极大的麻烦。而且现在公司还有一些诉讼。

这个公司的名字很有意思啊，比较绕嘴，叫象帝先，大象的象，皇帝的帝，先后的先。据说是取自于老子道德经，但是我看了过道德经，里头应该没有这三个字。象帝的意思应该是天帝，上天的皇帝，也就是宇宙的奥义，所有道理的开始的一个意思。中国的这些芯片公司，盘古、女娲这样的名字都比较多，咱们都是上界古人。

这个公司一共融了25亿人民币，估值是150亿人民币。大家知道独角兽的标准是10亿美金，也就是70多亿人民币，它已经有20亿美金了，妥妥的俩独角兽。他到底是怎么被干掉的？据说是对赌失败了，被起诉冻结了账号，大家发不出薪水来，就直接解散了。

但是你要想，他是一个估值150亿人民币的公司，他在被冻结的时候，账上大概还有800多万人民币。起诉他的公司，整个诉讼的赔偿额大概也就是1,800多万，所以应该是他一个相对比较小的股东跟他签了有对赌协议，对赌失败导致直接去起诉他。你对赌失败了，应该去执行对赌的这种承诺，要赔我这个1,800多万。正常情况下，这种对赌应该是赔一个回购，我给你的钱，拿上利息，应该是这样的一笔钱。

但是即使没有这一笔诉讼，这个公司应该也快玩不下去了。你想，大概有700多人，那个公司账上还有800多万，这一个月的薪水也发不出来了。你不可能说700多人，一个月800万薪水吧，这些做芯片的人，你不可能一个月挣1万块钱。所以这个公司现在不去冻结。

可能真的是账上一分钱都没有了，也就如此的结束了。国内的GPU市场现在正在渡劫，大家日子都不太好过，烧钱肯定是非常多的啊。

咱们现在的几种创业里头，AI创业其实算烧钱，但是呢，跟GPU比起来，烧的钱其实要少很多。互联网创业其实在各种的创业里头，算是比较省钱的一种玩法。OTO会比互联网稍微贵一些，线下实体店应该会比OTO更贵些。越重的这种创业其实越贵。

其实AI创业跟互联网创业比较像，相对来说都比较轻。特别是在中国，中国AI创业并不是那么多人都要去买GPU，去在那烧数据。他们更多的是拿着国外开源的模型，回来调一调就完事了。所以他们花的钱并没有那么多。

但是做GPU这件事，那真的是要比你去开实体店还要费钱。你真的是要聚集起一大堆人来，而且这些人的薪资都非常高，还有非常漫长的一个开发过程。你等于是一头是花钱花特多，另外一头是你的变现和回本的周期还特别长。

你想，我需要做芯片设计，哪怕是我在外面买相对成熟的IP，回来去改一改，你也得重新做芯片设计。芯片设计完了以后，你要再去做芯片的制造，甭管是留片封测，这每一个环节都非常昂贵。甚至他们很多人说，我没有融到下一笔钱，直接留片就失败了，就没法去留片了。他这个事情是极其烧钱的。

做出芯片来以后，你还要干嘛？要去跟所有的系统去兼容，这个成本是非常高的。特别是国内现在在做信创产业，原来说有几个标准的Linux版本和Windows版本，我只需要跟这么有限的几种版本的操作系统做一下兼容就完事了。现在可不是这样了，现在是一大堆的Linux版本都在冒出来，各个云计算厂商有各自定制的Linux版本，你需要挨着个去找人去做适配，这个成本是很高的啊，而且非常的麻烦。

而且你还不是说我适配完了就完了，你适配完了以后还得上人那去测试，人家愿不愿意给你测，测完了以后测到一个什么样的标准我愿意去采购，这是另外一个问题了。你测试你可能还得给人钱，采购就另外再说了。

其实很像前一段时间，一帮做智能驾驶的公司，他们做完智能驾驶以后，都跑到汽车厂去说：“我测试一下。”车厂都挺开心的，说：“行，我们支持你来测试，你先买我一辆车，入驻我的测试场地。”测试场地显然也是个宾馆，你等于在我这测。测完了以后，你说：“我们测挺好，您愿意买我们家的自动驾驶方案吗？”说不买，我们就是让你来测的，没有让你来卖给我们东西。最后导致这帮做自动驾驶的公司一咬牙一跺脚，都跑去坐车去了。

这个现象在GPU产业里边，其实是一模一样的。所以他们就算是完成了测试，最后到销售的时候依然非常费劲。现在做GPU基本上叫“一拥而上”，卡脖子，美国人不卖给咱们了，咱们要赶快上，浪潮来了，咱们要赶快做自己的GPU。国家做算力中心的大基建，肥水不流外人田，咱们一定要去搞这个事情。一拥而上以后再干什么呢？一哄而散。

有些人做游戏显卡去了，真有人做出游戏显卡来，虽然效果不是那么好，卖的可能也没有几个，但还是有人做。信创这一块，其实对于显卡的要求并不高。为什么？所谓信创就是国产替代，我们完完全全用国产的GPU、国产的内存、国产的硬盘，整个把这计算机传出来，这里头没有任何的进口的东西，完完全全国产化。这种机器呢，它也不用打游戏，也不用做一些特别复杂的操作。所以在这样的机器上，其实有没有显卡意义不是那么大。

那些做CPU的厂商都会在里边加一个简单的核显。所以单纯做GPU的这些人，在这些信创产业里头，也不能说一点都没吃到，还是吃到了一些。他吃到什么呢？比如说，我这是一个专门的设计院，或者是一些有图形图像处理需求的国家单位，或者是国企，他们有可能会买那么一点点的显卡出来。但是那个量，绝对不是说你单独设计一个新显卡能够生意做平的。因为我们要知道，做芯片这个事其实跟做软件很像。什么意思呢？它前面定制的成本非常高，你后边就做了比如说几千份，那你会亏死的。所以一定是几百万份的。

要把它卖掉这个东西，才能把这钱挣回来。在这一块，其实信创并没有拯救GPU产业。有一些比较窄的门路，比如说军用的，在雷达上装点，在导弹上，在飞机上装点。这一块应该还是卖掉了一些，因为这些呢，其实属于嵌入式设备。因为中国很多的GPU，其实是使用这种手机GPU出来改的，所以他们真正去做工作站或者是服务器上重新上的这种算力芯片，他们是做不了的。但是呢，在这种设备上，还是有一定用武之地的。

至于算力卡这件事，就是英伟达A100、H100的这些卡的替代，这块其实是最卷的。而且芯片制造前面这些步骤都是透明的，谁也没有什么技术门槛。在整个这一块的竞争里头，大家要么去买英伟达、AMD，或者是买一些国内的，比如说升腾910、华为的芯片。更多的是什么？干脆就是云计算厂商，我自己定制就完了。而且在这个过程中，这些芯片大厂的态度都好着呢，像什么高通、AMD这样的厂商说我们愿意给您定制，您要什么样的，我们给您订什么样的，您只管提要求，我们就是让您心想事成就可以了。

那您想国内的这些新建的GPU厂商，您咋跟人竞争？根本竞争不过嘛。国外的这些云计算厂商，甭管是微软云、亚马逊云、谷歌云，其实走的都是这条路，跟这种大型芯片巨头去合作，生产自己定制的芯片。国内的一些云计算巨头，其实也在向这个方向再去探索，甭管是阿里，还是其他的一些云计算厂商，都有自己的芯片。

这前面讲的是国内的GPU本来就很难，即使没有对赌协议，可能也未必活得下来几个。那么咱们下边来讲讲万恶的对赌协议到底是什么样，为什么大家都恨这玩意。对赌协议到底包括什么？对赌，咱们有一个标的，咱们赌一下这件事实现了怎么样，不实现怎么样，基本上就是这样的一个意思。按字面理解没什么大毛病。

对赌协议里头一般包含几样东西。第一个是参与各方，谁跟谁赌的，谁是庄家，谁是赌客，这个事你要分清楚。第二个是时间，一般的对赌协议都是有时间的，比如说我们对赌一件事。

五年之内见分晓，还是三年之内见分晓？你说有一个对赌协议里头没写时间，那这个对赌协议基本上是废的。就跟五年前有人说，中国的房价一定会跌的，你问他什么时候跌，他说我不知道，没有时间限制，那这种就属于立于不败之地。只要这辈子房价跌了，他就都算赢了。而现在房价确实跌了，发出flag的人已经赢了。

所以，对赌协议的第二项是时间。第三项就是对赌事项和处罚。我们到底赌什么？赌输了以后到底罚什么？很多的对赌协议都是单方面的，赢了就没有了，赢了是你应该的，输了一方却要承担所有的责任。这是对赌协议，特别是在投资里边，对赌协议里的比较常态的一个事情。

最常见的对赌协议，赌的是上市和并购。什么意思呢？我今天投腻了，你必须承诺在五年之内上市或者被人收购。如果你没有实现这件事情，你就要去回购股份，或者我们管它叫投资变债务。现在投资变债务，已经算是一个比较难听的说法了。明明是投资，大家有输有赔，都应该是愿赌服输的事情。结果呢，你要求旱涝保收，项目失败了，没有成功的上市，没有被人收购，你就要求对方去给你做回购，这个事也确实不是那么让人舒服。

所以这种协议通常是这样写的：你从拿到这笔钱开始的五年之内，要么上市，要么以不低于多少钱的价格被别人收购。你收购的时候说，我这个按1分钱被人收购了行不行？这是不可能的。这种空子投资人是不会给你留着的。如果失败了，请按照年息，比如8%到10%，把今天投资的这笔钱还回来。这就是对赌，失败就回购。

这是最常见的。有些对赌是赌着销售额和利润，通常是并购。对赌什么意思呢？就是一个大公司把一小公司买下来了。买的时候呢，这公司比如说一年挣100万，买的时候就商量好了，我呢用500万把你买下来。你未来四年里头，你得把这500万给我挣回来。其实一般写的是什么？就是你今年挣100万，未来几年每年要在上一年的基础上，比如涨25%或者涨什么这样的一个协议。对赌失败了怎么办？这样的协议……

一般对赌失败了以后，迟后付款的这些钱就不付了，什么意思呢？一般收购了以后，不是说一笔就把钱都付了啊。可能第一年付100万，第二年再付100万，第三年再付100万，一共把500万咱们玩付下去啊。如果后边完不成，我就要在后边付的款里边去给你打折扣。这是对赌销售额和利润的，还有对赌产品进度和指标的。

比如说，像刚才我们讲的象帝先公司，25亿融资他协议是签了，但是那25亿没到他账上。你必须要做到一个什么样的状态，我再给你下一笔。我先给你5亿，你这去留片了，我再给你5亿；你在后边去封测的时候，我再给你5亿。他是一步一步去走的这样的一个付款约定，这其实也是一种风险分散的方法。要不然把钱一把都给进去了，人家那头干啥去了，你又不知道，也是很危险的。

像我们以前有时候也干这种事，比如说我投资个游戏，要求在某一个时间点上，你必须要把游戏拿来做测试。而且要求次日留存是多少，7日留存是多少，30日留存是多少。如果你达不到，我们可能就不付下一笔钱了，可能这个项目就直接失败了。我用尽可能少的钱，在最早的阶段，就可以判断一个项目的成功与失败，避免后续的一个损失。

当然，像这个象帝先，这一次遇到的问题是什么？他跟人对赌了一个下轮融资，这个其实不是那么常见，可能比较靠后的投资里头会有。他呢，跟人赌说我们下一轮融资不得低于5亿人民币。又找不到钱了，因为前面我们讲，整个中国的GPU产业其实发展的都非常不好。他找不到钱了，没有达到5亿人民币，那么就属于对赌失败了。

对赌失败了，前面的人说那你就应该按照我们的约定，把我给你的钱加上利息还回来。那么就被人告了。这个不是特别常见，但出现了。为什么会出现这样的条款呢？其实也很简单，做GPU这件事，每一个环节都很清楚，也都很透明。大家知道说你下一个环节应该要花多少钱，如果你融不到这笔钱，相当于公司就挂掉了，大家就签了这样的协议。没融到，我就告诉你。

还有一些对赌是什么呢？我们还见过一些比较奇葩的，对赌过这种收购的，什么意思呢？你如果完不成某些指标，我们就直接把你收购了。这已经算是比较恶心的条款了，但还有更恶心的，具体内容是什么呢？我们就不在这讲了。

关于投资条款里边的一些坑，我是在会员频道里头专门讲了一个系列课程，投资意向书里边这些条款的解读。有兴趣的人可以去看。

为什么会存在这种垃圾条款对赌协议？刚才我们讲的这么恶心的东西，为什么会存在？其实也很简单，叫形势比人强。雪中送炭的其实永远是少数，绝大部分的人会喜欢跑上去锦上添花。你看这个项目很棒，我们要冲出去投。因为你想投资的人，你也不可能说：“哎，我看这个人很可怜，他马上要活不下去了，我要他一些钱。”那个叫做慈善。做投资这边是在挣钱，他们一定要找到好的标的，然后去替股东把这个钱挣出来。

其实每一个投资人都在做一道数学题。什么数学题呢？你到底是不是缺钱？到底有多缺钱？你这个项目到底有多大的机会能够做好？如果所有的人都认为说：“哎，你这个项目肯定能做好，没有问题，铁赚了。”这样的项目没有人去跟他签对赌协议，因为一堆的投资人会冲上去给钱。那创始人也会去挑选那些条款相对比较宽松、比较尊重他的这些投资人去跟人签约，去拿这些人的钱。

但是如果反过来，大家都不愿意给钱，而且大家判断说这个项目可能玩不下去，那么在这样的情况下，投资人就会拿出各种各样的对赌条款来说：“你愿意签你就签，不愿意签你就去找别人。”就会变成这样。如果在这个时候没有其他更好的条件了，创始人为了让公司活下去，为了让公司继续往前走，他也就必须要签这些条款。

所以在这个过程中，千万不要觉得谁坏。投资人的钱也不是大风刮来的，也不是自己家的，他们也是在为股东管理这些资产，他们也要负责任。那么为什么感觉最近对赌协议好像越来越多了呢？其实对赌协议本身就很多，除了那些极个别的一上来就热火烹油、大家都疯狂追捧的这种项目之外。

大部分的投资里头，其实都是有对赌条款的。只是什么，原来整个的行业比较热，轮到行使对赌条款的机会并没有那么多。大家都在往前发展，现在等于死掉的公司多了，所以很多不是那么美妙的一面就露出来了。

还有一个原因是什么？以前大量的基金都是私募股权基金，或者是私营的。私营的基金，大家是要脸的。差不太多就算了，大家就愿赌服输就完事了，不会到那去强制启动回购。为什么？因为行业还比较好，你最后是要靠脸去吃这碗饭的。你到看到新项目了，冲上去投资，人家说：“哎，你这个基金，刚刚去给另外一个项目启动了回购，还把创始人逼跳楼了。”这种事在圈子里是会流传开的啊。那下边就不一定有人敢要你的钱。你明明看到一个很好的项目，你投不进去，就会出这种事。

但是现在不一样了，项目都拿不到钱。而且呢，现在手里有钱的大量是国资基金。其实对于脸这件事，我觉得我们不能乱讲，应该讲他们更喜欢讲的一句话，叫做“不计个人荣辱”。一旦是遇到损失了，他们就会保护国有资产不外流。通过这样的方式，直接把一些有可能还可以抢救一下的企业就给弄死了。

而且现在这个阶段，国资的很多基金下来直接投资，但是原来的很多国资都是LP，他们出钱，交给GP去投资。现在很多的国资说：“算了，这事没多难了，我自己来。”很多的LP自己家长自己去做PP去了。他们投的时候呢，投资逻辑也在发生变化。他们投的更多，什么信创，什么国产替代，投一些这种卡脖子项目，或者是一些光环项目。

什么叫光环项目？每个人看着他都能挣钱。咱们原来说到古玩市场去买东西，有些东西大家都追捧，这个一肯定是真的，一定值老鼻子钱了。也有一些人呢，老电视剧去捡漏，别人都看走眼了，我把他捡着了。投资其实跟这个过程很像，也都是说在大量的项目里去筛选。当有大量的这种不是那么熟练、不是那么懂行业的人冲进来，说我们要去投资的时候，那他们可能更多的就会扎根到这种光环项目里边去。而越是光环项目，到后期就是几轮融资之后，就越容易爆雷。为什么？因为光环会影响大家的判断。你可能发现这个项目光环很大，是不是再去做一下尽调，或者是仔细研究一下市场，他们就没耐心了，直接被光环都遮盖掉了啊。

像刚才咱们讲的重庆象帝先，就属于标准的光环项目。他们这个老板是深圳工程大学，应该是什么算力微电子学院的院长，原来是龙芯CPU的主要科学家，是这样的一个创始人。在GPU领域里头，要么就是AMD出来的，要么是英伟达出来的，可能还有一些其他的芯片公司出来的老员工，他们创业，或者中科院里头龙芯CPU出来的首席科学家，他出来创业。像重庆象帝先就是这样的一个项目。

那么这种光环项目，你觉得大家能对他做什么样的尽调？而且除了你过往的经历之外，其实没有任何其他东西。项目还没成立，或者整个钱的后面还是都没开始花，人也没有开始招聘，怎么去做未来3-5年的财务预测？你除了拍脑袋，你还能干啥？把这些人凑起来以后，发现这个好像不是那么好做，那么就有可能会崩盘。

现在就是一个叫大练芯片的时代，大家都冲上来练。但是现在大炼芯片已经正在向着大炼钢铁的方式在前进。咱们可以稍微比较一下，一群没有什么经验，也不愿意承担责任的投资人，这就是现在的一个状态。大炼钢铁的时代，谁是这帮投资人的？各个生产队的领导，生产队大队长。我们这帮人上面说大炼钢铁了，大炼钢铁我们也干去这事。

他们跟现在的这些政府投资人其实很像，有限的资源根本就不够完整地形成产业链。你要想形成一个GPU的完整产业链，那是需要一个很漫长的时间，而且投入是非常巨大的。其实像重庆象帝先这样的企业，他融了25亿人民币，具体到账了多少不好说，这些钱其实根本就不够。他把完整的GPU做出来，更不要说能够形成销售，能够回血，让整个公司回血，压根不够。

那么在大炼钢铁的实战也是如此。大家把锅支起来以后，把你家菜刀拿来练了吧，把你家门上的一些门栓拿来练了吧，就这样的一个状态。

现在咱们的大炼芯片也是在干这件事。资源会聚集在一些有光环的项目和人物身边。像刚才咱们讲重庆象帝先这个项目，就属于妥妥的光环项目。当时也是如此啊。可能说我们村里的老张头在钢铁厂干过，他应该懂这个玩意，来你指导一下，我们支起锅来，看看怎么能够把这个钢铁炼出来。

最后一点，大炼芯片跟大炼钢铁比较像的是什么？最终的采购方其实还是喜欢洋货。实在不行的就看关系。现在这些云计算厂商能买英伟达，他们还是会老老实实去买英伟达的。实在买不到英伟达，看谁的关系硬，再去买什么升腾，或者实在不行，我们自产自销，我们买阿里自己家的芯片。其他的云计算厂商，菜场上我们买自己家的芯片就完事了。

至于大炼钢铁，炼出来的那些钢铁哪去了？就地掩埋了，这个东西就不见了。这就是我们今天讲的故事。对赌协议，确实看着很可恶，但是跟这一次GPU创业独角兽的死亡有一定的关系。关系并没有那么大，这个独角兽的死亡的核心原因，还是中国整个的GPU创投产业链，在一个混沌无序分散的状态。所以这一两年，我们会看到更多的中国GPU创业企业，突然原地死亡。

好，这就是我们这期讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

CharacterAI，赛博伴侣，即将倒下。科学家，全域AI创业，为什么就这么难呢？面对中国AI伴侣程序的竞争，寻求收购，才是正确的退出方式。

Luke Fan — Tue, 16 Jul 2024 00:44:21 +0000

大家好，欢迎收听老范讲故事YouTube频道。今天，咱们来讲一讲AI伴侣，就要倒在黎明前的黑暗之中了。咱们讲的AI伴侣是什么呢？是Correct点AI，这是现在欧美最流行的情感类AI陪聊工具。这呢，是一个科学家创业的项目。两个创始人，原来都是谷歌的科学家，算是AI的全站选手。什么叫全站选手？像我们讲全栈工程师，就是说你从后端到中间的中台，再到前端，你程序一个人全写了。AI呢，也是这样。你说我只会写前端啊，我不会训大模型，我用别人的模型，对吧？那你是做AI应用的啊。有些人说我就会训大模型啊，前端应用不会做啊，那你算后端。但Correct AI呢，算从前到后全是他自己的啊，模型也是自己训的，前面的整个的应用层，也都是他自己搭的。这个在现在的AI创业中，算是比较难得一见的吧。

他们呢，专门提供情感陪伴类的AI聊天助手啊。像有些AI聊天助手就是搜索用的啊，有些是助理类型的，我给你写个文字啊，给你画个画啊啊，还有一些呢，就是我可以有这种角色扮演，可以聊个天的，比如说你进去说我想跟伏地魔聊聊啊，我想跟哈利波特聊聊，或者我想去跟埃隆马斯克聊一聊啊，他专门干这个事。从用户数据来看呢，这个项目做的还是不错的啊，用户量也很大，大家也很喜欢。只是呢，从商业和现金流的角度上来说，打不正对吧。这个项目一直在赔钱啊，亏了很多钱，再融资也有些难度啊，所以现在他可能快要玩不转了。像类似这样的。

虚拟角色聊天助手的应用确实面临着一些法律和伦理困境，尤其是涉及到版权、肖像权和名誉权的问题。当应用中使用知名人物或文学角色时，必须考虑到这些角色背后的版权问题。例如，使用“哈利波特”或“伏地魔”这样的角色，就需要获得相关版权持有者的授权；同样，使用真实人物如埃隆·马斯克的形象和名字，也必须尊重其肖像权和名誉权，避免不当使用导致的法律纠纷。

为了规避版权和名誉权的问题，一些应用选择在生成的内容中明确标注，告知用户这些内容是AI生成的，而非真实人物的言论，以此来降低法律风险。然而，这种做法可能会降低用户的代入感和应用的吸引力，影响用户体验和应用的市场竞争力。

此外，道德感和羞耻心也是虚拟角色聊天助手应用需要考虑的重要因素。由于这类应用面向广泛的用户群体，包括未成年人，因此必须确保内容的适宜性和道德性，避免涉及成人内容或不当言论，否则可能在应用商店上架时遇到障碍。尽管谷歌和苹果等平台允许成人应用的存在，但通常要求开发者明确标注应用的年龄限制，并对内容进行严格审查，以符合平台的政策和标准。

综上所述，虚拟角色聊天助手的应用在追求创新和用户体验的同时，也必须遵守相关法律法规，尊重版权和名誉权，以及保持良好的道德标准，以确保应用的合法性和可持续发展。

但是，不能太过分啊。第三个是什么呢？上瘾和情感依赖的问题啊。因为像这种，就是有人愿意一天24小时，不知疲惫的陪人聊天啊，很好的倾听者。对于很多年轻人来说，对吧，他很容易上瘾啊。这是所有的这种聊天的工具，他都会有问题。特别是这种角色扮演，情感陪伴啊，更容易干这种事情。而且呢，一旦上瘾了以后啊，他们用叫情感依赖这个词，比上瘾好听一点啊。玩不好会干嘛？会自杀，类似这种应用，在欧洲是出现过自杀案例的啊，在美国呢？没有听说过，有可能也是存在。所以，这也是一个很麻烦的事情。咱们呢，刚才讲了，很多青少年爱玩这个东西啊，他的整个的用户，青少年的比例非常高。这个呢，是一把双刃剑啊。什么叫双刃剑？青少年比例高，说明这些人随着年龄的增长，你的用户量会自然增长啊。也不能说我长到哪一天就突然不用了。TikTok为什么厉害？就是他的用户年纪小嘛，随着这些用户不断的长大，他的用户会不断的积累下来。这些用户长大了以后，会把后边一些，就是原来成年人玩的这些应用，就给直接给覆盖掉了。人家原来成年人玩Facebook啊，年轻人玩TikTok。这个年轻人长大了以后，他接着玩TikTok，他不会跑去玩Facebook的。那Facebook的用户量就会下降啊，他的用户量会上升。这是一个好的点啊。那坏的点是什么呢？年轻人是没有支付能力的，他没有信用卡。你在欧美，你一个没有信用卡的人，他的这个支付啊，包括很多广告变现都会很麻烦。

当你给年轻人打广告时，你就要注意，我这个广告是适合年轻人看的，适合未成年人看的。这广告商也不愿意在这个里边投入太多的精力。你挣不出钱来嘛，所以这是一个恶性循环。有好处有坏处。

最后一个问题是什么呢？就是AI伴侣的一个事情。它比较私密，对吧？裂变比较困难。什么意思呢？就是男女朋友谈了半天，你不能天天跟别人说去吧，每天去发朋友圈，发推特，说我跟他说什么了，他给我回什么了。不能说完全没有这样的人啊，但是大概率是在很小的范围内啊，跟闺蜜说一下。那么，当这个事情变成一个更私密的事情以后，人传人的这种传播就不那么容易了。现在呢，Character AI的很多内容吧，在Reddit里头有一定的传播，但是呢，也不是非常多的人去看。

那么现在凯瑞特AI说，嗯，不行了啊，我前头虽然融了1亿多美金啊，也估值上10亿了啊，也是独角兽了。现在呢，这个钱我也花完了，还欠了人1亿多在募资，募不到了。挣的钱呢，也补不上这窟窿。他呢，是靠9.99美金一个月的这种方式去盈利的啊，这跟我收的会员费是一样多的啊。这样的啊，说实在是无法以为继了。那怎么办呢？啊，看看哪个巨头把我们收了吧。对吧，我们好歹算是这个特定赛道里的冠军啊，他跑得最快。

这个呢，其实很符合科学家创业的一个啊，这种特色。什么意思呢？就是每个领域开始的时候啊，都有非常多的科学家去创业啊，包括广告领域开始的时候，包括云计算，包括啊AI前面的VR AR啊。

就每一个大的互联网领域开始说，咱们都去创业吧。啊，第一批出来创业的都是科学家，因为什么呢？他们手里有技术，对吧。但是，最终活下来的科学家很少。你想，什么人出来创业啊？科学家、销售，对吧，然后或者是有些投资人，有些产品经理，啊，这些人都会出来创业，啊。我我见过最奇葩的是HR出来创业，啊，这个也不是没有，啊，财务也有出来创业的，啊。但是，科学家出来创业，一般是在一个创业领域里的第一步，啊。那为什么最后他们活下来的少呢？就是在商业方面，啊，他们的探索呢，通常会缺乏想象力，啊，就这些人。你说，让他研究一个什么东西，没毛病，啊。但你说，你这个生意到底怎么做，稍微的难那么一点点，或者说吧，咱们用这个比较通俗的话来讲，科学家呢，通常不够无耻，实感比较高。你做生意这件事，你就不能去嫌弃，说哎，这个事是不是不太道德，那个事是不是不太道德啊？咱不是说做生意都脏，啊，咱举这样一个例子吧。比如说大师傅做饭，你觉得这是一个多干净的活吗？你到厨房里去看看，对于他们来说，很多人家下得去手的事情，咱们自己是下不去手的。给你只鸡，你去把他杀了，或者说一堆这个很脏的这种碗碟，搁那让你去刷去，咱们很多人下不去手。这个就是术业有专攻，啊，科学家在这呢，很多也是这样的，脱不了鞋，没法光脚在地上跑，也很多事情下不去手。而且，科学家呢，有的时候啊，会缺乏跟底层需求的情感共鸣。而这什么意思呢？就是原来咱们讲叫得屌丝者得天下嘛。你问科学家说，屌丝现在想什么呢？

他不开心了，怎么办？那科学家没准想一想，说：“哎，不开心了，可以去做一道数学题吧。”这个可能性是存在的啊。就是我们跟一些科学家也打过交道，他们其实比较难以理解底层群众的思想诉求啊。虽然 Character AI 可能并没有出现这种问题啊，它呢，主要问题还是商业化做的不是那么好。而且科学家呢，很多时候，他创业的目的就是被收购。他并不是说我自己要做一家伟大公司，就是说我做到一定程度，把它卖了，挺好的。这是啊，Character AI 的第一个问题——科学家创业。

它第二个问题是什么呢？就是全栈 AI。刚才咱们讲了，他从头到尾自己都做。这不是本来挺好的一个事吗？啊，很多人听了这个解释之后都觉得：“哎呀，这个可值钱了。人家呃大模型也是自己训练的，这个应用也是自己做的啊，全面选手啊，这多棒啊。”啊，千万别这么想啊。在 AI 创业里头啊，做这种全栈 AI 其实挺吃亏的。为什么呢？你要想跟上其他这种日新月异的大厂，大模型你花不起这个钱呀。对吧，你说我想跟这个美坦拉玛2，我想跟着他一起进步啊，拉玛2升级到拉玛3啊。我现在把这个 Karate AI 后边的大模型，我也想跨上这个台阶，往上升这个级。扎克伯格买了多少显卡，50万块他买的起吗？他总共就融了一点几亿美金，再借了1亿美金，他玩得起吗？他玩不起这个东西。

那你说我想去追一下克劳德，克劳德后边是亚马逊，是谷歌都给了钱了。而且现在克劳德估计也快混不下去了。现在亚马逊跟谷歌，据说在竞购这个公司。

就把它买下来算了啊。你们甭自己混了。你说一个 Carrot AI，就这个一两亿美金，你搞个啥？那你说跟 X AI 跟马斯克比，马斯克人家也是募了很多钱，然后买了上 10 万块的 H100，然后等着去模型呢。这个事情呢，对于这种做全栈 AI 来说，他就很吃亏了。

下面呢，我们要思考一个小问题，是什么呢？就是专业训练和微调的小模型，与这种快速迭代升级，加入 AI 阵特大模型比起来，到底哪个好使，哪个更能打。像 Carat AI，它不需要设计那么大的模型啊，几千亿几万亿的参数模型。而且国内的很多做大模型创业的，这些创业者都在跟大家讲，说不要去追求什么几千亿几万亿，好使就行，能用就行。

大家有没有想过，国内这帮人为什么讲这事？因为他做不出来这种几千亿几万亿的模型了啊，他只有能力做到几十亿几百亿，就能到这个水平了。他就告诉你说啊，这个就够了，你不用再往前走了。咱们来想想啊，我们去微调一个小模型啊，跟一个大模型加上流程管理的 AI 阵特去一起工作，到底谁强谁弱。

咱们讲这样一个故事吧，卖油翁，这个可能很多人小时候学课文都学过。人家说啊，为首熟耳，一个油葫芦上头放一个铜钱，然后呢把这个油夸夸倒进去，一滴都不撒在外边，很厉害吧。哎，小模型就擅长干这个事，在他某一个特定领域里头哎，把这个油夸夸倒进去了，没毛病啊，他能干这事。但是呢，你说我们再去玩一个什么呢？辕门射戟啊，这个是三国演义里头吕布干的活啊。

你说这不也是个小把戏吗？对了，大模型呢，他能干辕门射戟，也能够去干这种卖油翁的活。但是呢，小模型呢，只能干卖油翁，他干不了圆门设计。这差别在哪呢？对于卖油翁来说啊，把这个油倒在这个铜钱中间的洞里，就已经是他的全部了。而对于吕布来说呢，这个辕门射戟算是一个鱼性小节目啊，给大家表演一下，哈哈一乐就完了。人家还是可以骑上赤兔马，去让方天画戟四处杀来杀去的，这个是人家的真本事。所以呢，这就是大模型跟小模型之间的差异。你说哎，我永远只让他做卖油翁，小模型未必不能使啊。但你说我希望他稍微的再聪明一点，还能干点别的，哈哈那您老老实实上大的啊。这也是为什么我选模型的时候，有大的不选小的的一个原因。国内呢，是因为做不出大的来啊，所以老去建议大家玩小的，玩小的就够了。最终活下来的呢，通常不是这种说全站AI，而是什么呢？而是术业有专攻。你拆了PPT，你去把后边大模型做好啊。谷歌你把后边大模型做饱做好啊。Cloud把大模型做好。这就是预三家嘛，算大模型预三家：Ancepoic、Open AI和谷歌三家啊。剩下的呢，可能还有一个，算三个半吧。这半个是谁？梅塔的拉玛3，这算半个，或者叫拉玛山及其身后的开元小伙伴们，算是另外一支吧。所以基本上就是这么两大流派，就这么几个公司。你们把大模型做好完事了。剩下的呢，这个我们就去做应用啊，我们就去做这个前端陪你聊天，这个APP不就完事了吗？啊，这个可能才是未来啊。

这是一个关于行业内部常见的收购和出售策略的讨论。

这个行业里头比较普遍的玩法，下边咱们就要去讨论一下了。准备卖给谁啊？你都准备卖了啊。当然，我要跟大家讲，其实他现在的状态并没有那么好。状态好是什么？哎，谁都不知道。咔嚓一把卖了，直接宣布谁谁买了，花多少钱买了啊。这是状态比较好的。

如果上来说，哎，我准备卖了，谁要买我，谁要买我。这个呢，就已经稍微的危险一点了。什么意思？就是你等于已经把第一轮的，这种秘密询价，或者底下这种啊谈判的这个过去了，效果并不好。然后才出来说，哎，我谁要买我，谁要买我。

像我们以前经历过一次，我在波兰的时候干过一回这事。当时呢，想把开发工具卖掉啊。CEO就出来说啊，我要卖了啊，没找好下家呢，出来喊卖了。一年没卖掉，因为一开始很多人上来，夜长梦多嘛，大家各自有各自的诉求，最后达不成一致啊，没有卖成功。

没有卖成功怎么判呢？裁员啊。这个为什么没有卖成功裁员呢？因为当时我们上市公司啊，向纳萨克说了我们要卖啊。到年底没卖出去呢，算放脚假消息啊。你不裁员的话，纳萨克会给你发名牌警告的啊。这是我原来亲身经历。

所以，这种卖最好的就是谁都不知道，偷偷跨一把把它卖掉了，然后直接宣布。所有说我要卖了，没卖出去的，都要小心一点。

第一个有可能买的呢，就是谷歌。谷歌算是有一个优良传统，什么优良传统呢？在谷歌上班，上班的时候呢，就开始思考创业的事情。想明白了，从谷歌离职去创业，甚至谷歌还给钱啊。创业到一定程度以后，谷歌再把你收购回来。

再回谷歌上班，再上一段时间班呢，再创业啊，这是谷歌人的一个小传统。第二个呢，就是卖给梅塔Facebook。梅塔扎克伯格呢，是相对来说，比较喜欢买买买的一人啊。他你看，Instagram，WhatsApp，Oculus都是花钱买回来的，而且都是这种啊，十几亿几十亿美金往回买啊，所以他比较爱干这个活。Cracked AI跟美坦呢，它的业务上和用户上，协调性也是比较高的。对比说我现在想到个源宇宙里头，就跟人聊个天哎，但我这头哎，有Karat AI做的所有的这种带人设的虚拟角色，这多好啊。所以他们的业务上协调性比较强，你也不用再去做你的Correct AI的，自己的大模型了，用拉玛3算了。

还有一个可能是谁呢，就是X.AI啊，就是卖给马斯克啊。协调性上呢，也有一部分，但是它的协调呢，主要是跟X.com，就是Twitter。你说我跟你协调一下，没毛病啊，你的用户和需求上，是可以协调起来的啊。再加上X.AI下头的这个Group大模型，对吧啊，你也直接用这个就完事了啊，就不用再去自己训练Character AI这种大模型了。这个也是有可能的。而且X.AI自己融到了比较多的钱，也买到了非常多的H100啊，这两件呢，也可以合作。

那么这种项目到底怎么个卖法呢，跟大家稍微科普一下。谷歌跟美塔都是上市公司，所以呢，他们经常会用股票直接对付。比如说按你这公司值个10亿啊，咱们刚才讲了。

他已经是独角兽了，市值假设值10亿美金。那谷歌跟梅塔说来，我教拿钱者出来。这个钱呢，就是我的股票。投资人也愿意，比如说前面投资了啊，科尔特AI的这些投资人说，我愿意来接受这些股票啊。接受完了以后，你可以拿到纳斯达克直接把它卖掉。这是没有任何问题的。对于创始人来说呢，我也是给你股票啊，或者说给你一部分现金，给你一部分股票，这也没毛病。价格呢就按照当前的市值，或者说从现在开始，往前多长时间之内的一个平均价格，我给你算，按这个价格直接给你股票就完事了啊。

如果是XAI呢，它不是上市公司，但也是通常拿股票来收购，大家很少动现金啊。有现金，都是去预备处理一些不时之需的啊。能用股票的都尽量用股票，除非什么呢？就是你现在的股票被严重低估了，这个时候可以去用现金。只要是说去做并购的时候，你觉得你自己的股票价格，还是比较满意的啊，都是拿股票去对付。但是XAI不是上市公司呢，你就需要去做一下价格谈判。如果这XAI到底按什么样的价格来，去给你对付呢？而且对于非上市公司呢，有时候啊，大家不愿意接受他的股票，说你还是多得给点现金啊。你没上市，万一你以后上不了市呢？对吧，你股票给我，最后我没法去变现去啊。这事是不行的。上市公司就是你拿到股票，就股市上变现了。投资人呢，通常会收回成本以及相应的利息啊。你说是不是会有一个小小的溢价呢？呃，这个不好说啊。这个还是要看说，呃，你现在发展的不错，他就会有溢价。

如果发展的没有那么好的话，这个溢价可能就会小一些。创始人呢，价格通常是单独谈啊。他跟投资人拿的那个价格不一样。假设把这个项目是10亿美金的估值啊，上一轮10亿美金估值，那么跟每一个投资人去沟通的时候，他不都按10亿做啊。最新的一轮肯定是10亿啊。前面比如说你按1亿投的，按2亿投的，你可能也会有一些折扣啊。这个是要去谈的啊。那么创始人呢啊，通常就没有10亿什么事了啊。他们就说：“哎，咱们单独谈一个价格啊。”这个价格具体是什么，应该会打比较多的折扣。谈完价格以后，也是给一些现金，给一些股票啊。当然而且股票肯定是占大头的。甭管是上不上市公司，我们去收购这种案子的时候，都是主要给股票。

那再往后呢，就是签对赌协议。你进来以后多长时间之内不许离职，然后必须要保证，你的项目能做成什么样。每年完成对赌了，我给你把这个前面答应好的，这个呃股票，再兑现给你。如果你没答应的话，我们后边的股票是打折呀，还是做什么其他的处理对吧。这是创始人的这个处理方式。

现在的AI伴侣呢，carrot AI遇到的另外一个小问题是什么？就是中国人都来了啊。中国人都在冲锋啊。一方面是有很多假冒应用。刚才我到苹果手机上去搜carrot AI，发现有好多中国人做的。这种叫Carout AI，中文版Carout AI啊，charge CPT四欧版什么的，都是中国人做的。这种小应用，都在充分散了它大量的流量啊。这是一方面。另外一方面呢，（信息不完整，需要更多上下文来完成格式化）。

中国各个AI大厂也都在冲刺，包括字节跳动、Minimax、Moveshot都在做Character AI这个赛道。而且，中国应用是有一些特点的，就是海外应用其实比较难模仿。特点是什么？第一，细节。就是我们比较注重细节，我们也有的是人力。我们可能做一个应用投入的人力，或者说叫工时吧，是海外同等应用的几倍，甚至是上百倍。在这样的一个情况下，比细节的话，他们肯定是比不过的。你说怎么可能有这么多的人工投入呢？很正常对吧。他们可能投入5个程序员，我们敢投入可能10个，或者是50个程序员。我记得特别清楚，当年我们去做Klimast，做清理大师的时候，国外同类产品基本上就是五六个程序员就做完了。而我们那一个团队是200人，再加上加班。我们的加班加的，绝对是他们无法想象的。所以我们可能真的是有几十，上百倍的人力投入。我们做应用的时候，细节一定比他们好。

另外一个，就是赚钱。就是中国人做项目，赚钱能力是很强的，变现能力都非常强。你说我现在想用什么角色在Carstair，你自己选就完了。因为到国内一些产品里就跟原神似的，你一抽，抽中了让你使用，不中不让你使用，抽卡怎么办？花钱。他完全把很多游戏相关的东西都放上来了，就设置游戏变现点，设置这种游戏的各种规则。这个是中国人相对来说比较擅长的事情。

最后一个，中国应用，老外学不会的东西，是什么呢？叫极限投放。我不断的到谷歌投放广告，这种投放的精准度和力度，是他们难以企及的。

到 Facebook 四处去买量去啊，只要是我现在还亏得起，我就把最后一根铜板都扔进去买辆。这个老外是玩不起的，所以有这些中国的应用进来竞争了，以后凯瑞特 AI 可能也就是说算了，不跟你们比无耻了。我卖了，就这样。那么，Carget AI 对未来的影响到底是什么样的呢？几种可能性啊。第一种，卖成功了，真的卖掉了，卖掉了基本上叫宣布赛道结束，竞争结束了啊。大家都不用费劲了，我们已经选出冠军来了。这个可能性是比较大的。但是一旦是赛道结束了，以后会怎么样呢？就是别的投资人，就不会再愿意把钱投进来了。对，可能在中国还会有人投啊，就是这种封闭市场还会有人投。我举一个案例吧，比如美塔当年把 Instagram 收走了以后，你说咱们在美国，咱们再做一个 Instagram，可能大家就不费这个劲了。但是在中国说哎，咱们再做一个 Instagram，还是有人愿意投的啊。所以呢，他在国际市场，这个赛道基本上就宣布关闭了。其他的选手你说我竞争失败，这些人呢，就要想办法去转换姿势了。你说我继续往这些这条路往前走，因为前面买过这个项目的公司，不会再买一个。其他这些大厂呢，有人说没谈买了，谷歌说算了，我就不用再去跟你进行这样的啊，百热化竞争了啊。咱就不再进这个赛场了，你就等于就没有再卖掉的机会了。一旦被卖掉了以后，还有一个证明是什么？就是这个项目最终的商业变现有缺陷，没法变现。Instagram 卖给梅塔之后，很长时间都不挣钱。

梅塔也是尝试了非常长时间，才让这个项目开始有盈利的机会。所以啊，一旦是卖成功了，赛道关闭，各种资金就开始持币观望。其他的剩余选手开始见风使舵，开始变换姿势啊。那你说，如果没有卖成功，过两天我又融到钱了啊，这个事会怎么样啊？其实，很多的项目都是这样啊。我要卖卖卖，过两天融到钱了啊，那么赛道依然开放啊。大家冲啊，甭管中国玩家还是海外玩家，一继续往前冲啊。这个是皆大欢喜。如果没卖掉，苟延残喘，我接着往前混了，这事行不行？这个大家就需要熬了啊。那么，投资人呢，也会变得稍微谨慎一些啊。这个整个的创业这事啊，怕什么呢？叫老大不争气。什么叫老大不争气？就是做的最好那家啊，他不挣钱。一旦出现这样的情况，等于宣布说这个赛道本身有病啊，他不是那么健康啊。大家就会小心一些。那你说直接挂了呢？我没卖掉啊，我没融到钱，也苟延残喘不下去了，我直接挂了。那么这个时候呢，就会鸟兽散。大家就彻底散开。散开了以后啊，投资人还会进来说我们不甘心啊，这块可能还有机会啊。当时他们可能是这样做的，是那样做的有问题。所以，大家呢，都会做下来，总结经验教训。有可能呢，还会在这个行业里头继续去孵化啊。这个是啊，Character AI的几个可能结果，会对这个赛道产生的影响。好啊，这一期就跟大家讲到这里。感谢大家的收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣，有能力的朋友加入我们的付费频道。再见。