AI编程 – 老范讲故事｜AI、大模型与商业世界的故事

金融时报曝光诡异曲线：2025年Q3发生神逆转，AI智能体爆发前夜？

老范讲故事 — Thu, 12 Feb 2026 00:54:18 +0000

移动应用网站开源仓库的数量激增，AI真的开始改变世界了。大家好，欢迎收听老范讲故事的YouTube频道。

网上流传着一张图片，四条长得非常像的曲线。第一条是域名工业简报，他们提供的2025年新注册域名的数量；第二条是iOS APP的数据，来自于Sensor Tower；第三个是GitHub美国的有质量推送数据；第四个是GitHub英国的有质量推送数据。他们的数据基本上都是这样：先向下，然后突然就开始陡峭的上升。这个时间点，是在2025年第三季度开始，所有数据开始往上涨了，平均上涨了30%到40%的涨幅。

这个图片来自于英国的《金融时报》，2026年2月5号发的一篇文章里边画的这个图片。这个文章是来自于人工智能专栏，标题是《这会是AI代理智能体的起飞时刻吗？》。你看，所有的数据都涨上去了。很多人在讲说2025年就是AI智能体，或者叫AI Agent元年，结果到2026年好像没什么变化。现在给你看看，变化在这里。

本期内容概览

今天的故事咱们分几段来讲：

英国《金融时报》的文章到底说了什么；
iOS的APP审核平台压力暴增，应用多了，那审核的一定是压力上去了；
生产力大爆发来了吗？怎么没有感觉到；
中国人的数据在哪里。

英国《金融时报》的数据解读：全面爆发

首先，英国《金融时报》给出的图片到底说明了什么？到了2025年末，新增网站的注册，更准确的说是域名注册作为代理指标，同比增长了34%。也就2025年的最后一个季度，突然这个数就涨上去了。大家知道我们访问网站的时候，甭管你打的是Youtube.com还是google.com，这都是域名。你要有一个新网站，你要去申请一个新域名。域名这个数据已经好长时间没涨了，突然就蹭涨上去了。

2026年1月份iOS发布的APP比去年，也就2025年1月份多了55%。这个数是非常非常大的。英国和美国的GitHub有质量的push，为什么要算这样的一个数据？因为GitHub上有很多数：

Star（星）：就是我喜欢这个仓库，我打一星；
Commit（提交）：就是我提交了一个信息，我就commit一次；
Push（推送）：有质量的push，有可能会包含多个commit，就是他确确实实是把这个项目往前推了，才会有push；
Release（发布）：就是我们push了几次以后说，这个版本我们把它封住了，大家可以用这个版本了。

所以它统计的是push的数字。2025年的三季度已经比2025年之前的趋势也是涨了30%，明显的偏离了此前的趋势，直接就竖着上去了。

爆发的原因：Claude Code与Codex的普及

为什么2025年第三季度所有的这些数据都有这么明显的抬升？第三季度应该是7、8、9三个月嘛，那其一定是4、5、6的时候出事了。Claude Code和Codex发布，并且开始向Plus用户开放。大概4月份这个产品就发布了，但是最早的时候，这两个产品都是给200美金用户使用的。到5月份，这两个产品开始向Plus用户开放，也就是20美金的用户都可以去用了。

我记得在Codex下放到我们这种20美金用户的时候，我还专门录了一条视频，在讲一个话题，叫做“技术平权时代的到来”。看来我当时并没有讲错，现在有宏观数据可以来印证我当时讲的东西了。确实技术平权了，大量的新的应用、大量新的网站、大量新的代码都在爆发出来。

AI变革的质疑与“行为艺术”

这篇文章是针对近期大家对于AI变革的一个质疑，说AI花了很多的资本支出，甚至玩出了很多行为艺术，但是你没挣到钱。什么叫行为艺术？大家知道谷歌要做1,800亿的资本支出，来去建新的机房，但是他手里又没有这么多现金，怎么办？他发债。

那发债怎么就算行为艺术？企业玩不转，企业缺钱都会发债，你只要信誉好，大家就会去买你的债券，这没毛病。但是谷歌的债券是100年的超长期债券。像中国政府也就是20年、30年、50年，人家谷歌直接来100年。估计他是信了马斯克的话了，以后钱就已经没有任何意义了，我现在把这个钱借了，100年以后我压根就没打算还。所以为什么管这玩意叫行为艺术？

花了这么多钱出去以后，并没有看到经济增长，AI企业也没挣着钱。虽然有很多人失业，但是依然有一堆人在那质疑AI到底是不是泡沫。《金融时报》就拿出了数据进行反驳：

说在宏观上生产率统计里头，AI的经济影响一直难以被清晰的量化，但是软件代码的产出可能是最早出现的可见信号的领域之一。他到底挣了多少钱，这事我们没法统计，但是代码量上去了，应用数上去了，网站数上去了，这个数是可以看到的。

三组外部数据源：域名注册、iOS上线、GitHub push。过去一年，编码软件产出指标出现了同步抬升，像是AI辅助开发（也就是Copilot或者是Agent）带来的供给侧变化。以后不玩AI辅助开发的就会被淘汰掉。

iOS APP审核压力：围剿AI套壳应用

另外一个侧面，也反映出了相同的问题，就是iOS的APP审核压力突增，开始围剿AI套壳应用了。有报道说iOS App Store的审核部门工作量急剧上升。大家注意，像我们以前发布的应用，发安卓应用，谷歌审核一般是比较快的。但你要想发iOS的苹果应用，这个事就很费劲，就是iOS的这个审核是相对来说比较慢的，有的时候需要审几周的时间。2026年1月份比2025年1月涨了55%的提交量，这对于他们的审核团队来说是天就塌下来了。

现在提交上去的应用，一定是大量的劣质应用，只是简单的在AI大模型外边套个壳，甚至要求用户自己去支付Token成本。大家要注意，前边我们说的这个iOS应用上升了55%，这个是Sensor Tower的数据。Sensor Tower是一个数据调查平台。你这个产品没有到iOS上面去真正跑起来，没有通过审核的话，它是没法在Sensor Tower上去报数据的。所以到底被刷掉了多少应用，我们不知道。审核通过的应用涨了55%。

苹果的应对措施

审核团队有没有对这些小白用户们友好一些？没有。2025年11月13日，苹果专门修改了审核标准：

限制数据共享：限制应用把用户数据共享给第三方的AI。你必须要写清楚我到底把这东西给谁了。如果你没写清楚，你自己把这个数据直接扔给AI去用了，就直接下架。
打击仿冒误导：苹果还强调要对这种仿冒误导相关的问题进行严肃处理。我们现在想去做一个仿冒的YouTube或网飞，有了Web coding以后，非常容易搞定。但是我们不可以去做这种仿冒的，你长得越像，被iOS审核平台干掉的机会就越高。
整治医疗诱导：现在还出现了大量医疗相关的诱导性APP，这一次苹果还专门出来点名了。比如给你的手拍一张照片，建议你看什么大夫或买什么药。这个确实是有些风险，它里头有一定的欺诈性。

生产力大爆发了吗？背后的逻辑

那么生产力大爆发了吗？怎么没感觉出来？《金融时报》有一些东西它是没说的，就是在2025年三季度之前，其实所有的数据都是在下滑的。它那个数据不是平缓上升，突然陡峭的长起来，而是向下扎，扎完了以后突然陡峭的长起来。

1. 为什么此前数据在下滑？

网站流量下滑：因为大量的网站流量在向中心化的平台聚集，再去做网站不划算了。现在大量的人直接在ChatGPT里聊两句就可以了，不需要上你网站上去看了。原来我们还可以通过谷歌搜索把这个流量导回来，现在谷歌让这个流量在自己的AI模式里处理完，不让它跳转了。
APP数量下降：APP的流量也在被超级APP所掠夺。大家都去看TikTok、YouTube了。做个小APP推广成本不断上涨，且用户留存很差。
GitHub推送下降：以前很多GitHub仓库是由程序员业余时间在维护的。程序员大量失业，或者是为生计担忧的时候，谁有那闲心思去搞副业？

2. 为什么突然上升了？

因为Claude Code和Codex为封闭的程序员社区带来了很多新鲜的血液。原来一帮产品经理、设计师或者财务、法务，这帮人一拍脑袋说这不难，我也可以上，你行我也行，他们也变成程序员冲进来了。所以这个数据突然开始上升了。原来靠程序员搞定的这个事情，程序员已经都不干了。

3. 新增的代码和应用是什么？

网站和iOS应用多出来这些，很多就是个人开发者、新开发者开发出来的项目。这些项目通常只是完成了基本功能的原型产品，里头大量的适配、兼容性、安全性、并发效率，这些他们都没考虑过。所以像现在甭管是OpenCloud做的那个论坛，还是其他的一些新的网站，上线没几天就被人把数据库拖出来了，因为这些项目压根就没有安全相关的这种设计和架构。

4. Vibe Coding带来的变化

GitHub上提交代码为什么会突然上升？

版本控制需求：使用Vibe Coding的人，无论是新人还是老人，都需要做版本控制方便回滚。Vibe Coding经常是一句话改几十个文件，出错只能回滚。
开源框架调用：Vibe Coding过程中需要调用大量的开源框架与插件。大量非程序员涌入提出稀奇古怪的问题，促使项目对这些问题进行回应和代码更新迭代。

中国人的数据哪去了？

咱们看了半天，iOS、GitHub、域名数据里有没有中国人的数据？这次中国人的创新能力应该是受到了一定的限制。

实名制的门槛

因为咱们这的APP也好，域名也好，登记都需要实名制。登记实名制这个事，对于程序员来说不是那么复杂，但是对于非程序员来说，或者对于初级程序员来说，这个门槛很高。所以这一次爆发的非程序员，他们面临APP实名制和域名实名制这两件事，应该是一门棍被打回去了。至于GitHub，国内不使用特殊手段登录很费劲，所以数据可能不多，即便有也可能模仿成了美国IP。

OpenCloud的爆发

真正给中国人解绑的东西叫OpenCloud。我们只需要摆一个小主机在家里就可以去赶上AI这班车了。大量的OpenCloud主机都被中国人所创建：

成本低：中国的各大云厂商都在推OpenCloud套餐，非常便宜，有的一年才十几块人民币。
无须域名与实名：OpenCloud上去以后，它不需要域名，不需要从外边直接访问，它可以自动跟你的聊天机器人沟通。这也算是救了中国的各大云计算厂商了。
Token成本优势：OpenCloud所燃烧掉的大量的Token也都是在中国燃烧掉的。因为中国的Kimi、GLM、Minimax这些模型，要比美国的GPT、Gemini、Claude便宜很多（大概只是1/10到1/20）。

权威媒体比如路透社报道：OpenCloud在中国尤其受欢迎。再算上中国的人口数和程序员数量，OpenCloud主机数和燃烧Token的数量超过全球一半这个事，是符合逻辑的。

结语与展望：寻找价值与云厂商爆发

最后到底我们该干点什么？AI起来了，代码量已经冲上去了。

首先，这些新增代码里头，真正有价值的是哪部分？不是那些有巨头潜质的（没法挑），也不是骗子APP（没未来）。真正有价值的是那些粗陋的小白原型应用。这些项目虽然技术缺乏创新，但是他们确实解决了原来很多没有人愿意去解决的问题。

程序员跟创业者现在该干点什么？寻找这些粗陋的解决方案，提供帮助、观察和等待。一旦发现某个问题被解决后，某一类的交易数量急剧上升，孵化新的商业巨头的机会就来了。

模型厂商卖Token的生意有望在今年迎来巨大的增长。云服务厂商的增长会有时间的递延，但是应该会在今年的下半年迎来爆发。硅谷那些疯狂到行为艺术程度的基础设施建设，并不是没有依据的。谷歌云、亚马逊云、微软云，包括Oracle云，都会迎来巨大的爆发。

好，这就是咱们今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：Detailed interior portrait of a programmer workspace converted from a formal living-room consultation space used by a lawyer, one person typing at mechanical keyboard, legal codes and case files neatly stacked, sticky notes and architecture diagrams, dual monitors with terminal logs and source code, textured leather sofa, polished walnut desk, ceramic coffee mug with steam, realistic hand-painted watercolor and gouache look, controlled ink outlines, rich material rendering, moonlit modern city outside the window under a full moon, reflective skyscraper glass, high contrast cinematic lighting, medium shot, 35mm equivalent –v 7.0 –ar 16:9 –stylize 120 –chaos 3 –no watermark, logo, signature, readable text, gibberish text blocks, photorealism, 3d render, extra limbs, deformed hands, blurry, lowres –p lh4so59

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

Luke Fan — Sun, 14 Dec 2025 00:54:07 +0000

GPT-5.2我已经用了两天了，效果到底怎么样？

大家好，欢迎收听老范讲故事的YouTube频道。

GPT-5.2：应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的，它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5，我们记得是有三年，但是在这之前，OpenAI已经苦逼了好多年了，所以这是OpenAI自己的十周年生日礼物。这个产品，应该是应对谷歌的Gemini 3 Pro的一个紧急版本，是在GPT-5的基础上进行了调整和训练得到的，更加注重长时间推理结果，结构化的输出更像系统，也就是更不像人。这个东西很多指标都遥遥领先，当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点：输出质量显著提升

用了两天了，我自己使用的感受是什么样的？输出的结果确实要比GPT-5.1要好很多，它的输出结果更全面、更准确，而且输出的结果整个的排版格式也是非常舒服的。

缺点：速度极慢与应对策略

但是，好慢好慢好慢！重要的事情说三遍，这个东西真的是很慢。当然，也有可能是新版本刚发布，用的人很多，但确实是慢，让我把默认的thinking模式都给取消了，改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出；如果是直出模式的话，就是不判断，直接给结果就完事了。当然了，我还有一个方式来应对速度，就是在GPT旁边再开个豆包，豆包是相对来说要比它快很多的。

恼人的上下文处理异常

另外，有一个让人使得很不爽的地方是什么？就是GPT-5.2的上下文处理经常发生异常，经常有一些很诡异的表现。什么意思？我们在一个对话里聊天，你前面问了一个问题，七嚓咔嚓给你答了一大堆，你再问下一个问题的时候，他经常把上一个问题已经答过的这些内容，又给你稀里哗啦地给你挂上。

你比如说，你前头问了123三个问题，给了你一个答案，然后你再问456三个问题，他会先总结一下前面123的三个问题的答案是什么样的，然后456这三个问题的答案是什么样的，他会给你这样的一个结果，让我自己看起来觉得有些奇怪。

所以，如果大家要去问新问题了，最好要开启新话题，不要在原来的对话里头一直聊下去，因为他会把前面的所有聊天内容通通放到新的对话里边去进行思考的，会影响我们答案的质量。因为我试过几次，当我突然在一个对话里头问了他一个不相干的问题的时候，他也是会把前面我们整个对话的内容再给我回顾一下，然后我后面的这个结果会严重地受到前面问答结果的影响。所以，你要问一个不相干的问题，就开个新窗口或者打开新话题。

图像能力：推理增强，生成不变

图片的推理跟分析确实是增强了，但是生成的部分没改。

本视频的全部内容都是由GPT-5.2完成内容整理的。这是最近我的一个新习惯：讲Gemini 3 Pro的内容，就完完全全用Gemini 3 Pro生成；讲DeepSeek V3.2的内容，就完完全全由Deepseek V3.2生成；讲GPT-5.1、5.2的内容，咱们就用GPT-5.1、5.2来生成。也是让大家有一个真实的体会。

性能揭秘：深度解读新指标GDP val

很多人说不对，GPT-5.2出来了以后，各项指标遥遥领先，都领先了Gemini 3 Pro了，按照我刚才讲的这个过程，怎么好像各有春秋的样子？

选择性公布的领先指标

怎么说呢？GPT-5.2的很多指标其实并没有公布，他们只公布了自己领先于Gemini 3 Pro的这些指标。但是这已经是有了巨大变化了，在以前GPT发布的所有的指标里头，它只跟自己比，它是从来不跟别人比的。所有GPT、Gemini和Anthropic的Claude相互比较的这些数据，都是社区的人，或者说媒体的人给他总结的，他们自己是从来不发布的。老大要有老大的风度，我天天去跟下边人比，这事肯定是不行的。但是这一次，他发布的这些指标都是有Gemini 3的这个数据，也有Claude 4.5 Opus的数据，它们是进行比较的。但是，OpenAI只列出了它领先的这部分，不领先的部分通通都没说。

全新指标：GDP val（通用开发者生产力验证）

甚至为了领先，还设置了一个OpenAI的新指标，这个指标叫GDP val（val是小写，GDP大写）。这个指标的意思是什么？叫“通用开发者生产力验证”，它是模拟真实开发工作的一个测试体系，衡量一个模型是否真的能够提升专业知识工作者，尤其是开发者的生产力。像我才算是专业知识工作者，我确实是感觉到我的生产力提升了。这个指标设计的核心是什么？

首先，它不关心模型会不会做选择题，也不关心模型能不能背知识点。因为什么？我们现在让模型去回答问题，都是有搜索的，或者说有这个本地知识库的，不需要模型给你编任何东西，而且我们很害怕模型给你编东西，所以这个也不是考核指标。
至于是不是能够命中标准答案，这件事也不重要，你设置了一个标准答案，正好答的一个字都不差，这个事也不考核。

考核重点：从头到尾完成复杂任务

那他考核什么？

它考核的是一个复杂任务能不能从头到尾完成，输出是否可以直接用于工作。
中间是否出现致命的理解偏差？还有很多步的这种推理，你中间是不是理解错了？这个要去考核。
是否需要大量的人工返工？给我了一个结果，我还要告诉你说错了，这个地方你没理解对，那个地方我还有一个要求，这还有一个隐藏的条件你没有照顾到，这个就叫人工返工。这都属于重要的考核方向。

测试过程：模拟真实开发者场景

那它测试的过程是多步骤专业任务。举个例子，阅读一份需求文件，分析约束条件（一般需求文件里都是有各种约束的嘛），然后设计解决方案，给出结构化的输出——代码、文档或者是方案，直接是让他做一个完整的任务。任务通常包括隐含条件、非显性约束、多个正确但质量不同的解法，所以为什么没有标准答案。通常会给他一个真实的开发者场景，例如：

重构代码：我这个代码原来已经写好了，也能测试通过，但是它不符合高内聚、低耦合的代码规范，这种代码后续的维护、升级都比较费劲，你需要去进行重构，让一个函数变得小一点，让这个类有这种继承关系，让这个代码可以重用，这个东西叫重构。
补全缺失模块：我们写好了一些代码以后，或者缺几个模块，你给我写去。我提一句话，他得给我干完，不能说在中间问你一大堆别的事情，或者给你一个半半拉拉的一个结果，这事都不行。
修改接口而不破坏兼容性：经常我们会遇到什么？就是你写了一个代码，然后这个代码中间的某一个库升级了，这个库的接口就会发生变化，你需要告诉这个系统说，我现在接口变了，你现在去给我调整代码，让他重新给我兼容上去。这个也是GDP val的测试用例。
在限定的规则下修复问题：这个也是我们在写代码的时候经常会遇到的一个很痛苦的事情，你说出错了，他有时候没把你要求的这个地方修改掉，还把其他很多地方给你改的乱七八糟的。现在你可以告诉他说，你就给我改这几个地方，别地儿别动，他会给你去处理。

长上下文任务考核

而且会去做这种叫长上下文的任务，就是输入信息很长，包括无关信息和干扰信息都会输进来，要求模型自行判断哪些重要。考核的话就是上下文的理解能力、信息筛选能力、工作记忆的这种稳定性。但是这一块我觉得还有待提升，因为刚才我也讲了，你在这个很长的聊天过程中，如果突然问他一个很跳跃性的问题，他会搞乱掉的。这一块那你说到底是怎么更好一点？应该是允许他在工作过程中开个小差、聊个天，还是说你在工作过程中就认认真真干一个工作？反正各有取舍。

评分机制与核心要求

那评分机制是什么样的？人工评审。这个任务是否完成？是否存在关键错误？是否可以直接使用？决策是否合理？是否在边界条件下崩溃？最后这个是非常非常重要的，因为我们让AI去干活，他经常会只照顾到比较普遍的这种情况，但是一些边缘的情况就会照顾不到。这个评审是要求你都要照顾到。

在这些条件里头，最重要的是什么？一次完成。不鼓励反复追问、人类手动修正，更看重的是一次性给出可以交付的结果。所有这些文字都是GPT-5.2直接输出的，一个字都不带差的，大家看它交付的结果还是相当可以用的。明确区分部分完成和可交付，部分完成是属于不合格的，接近正确是没有价值的。

要被严重扣分的行为是：

逻辑正确，但是漏掉关键约束；
方案可行，但是忽略明确要求。

GDP Val的意义与得分情况

GDP Val的意义是什么？就是企业用户、AI agent的系统自动化流程、专业知识工作者，特别是开发、分析和研究的这些人，主要是给他们用的。至于你说我要娱乐一下、我要陪伴一下、我要跟他聊个天，这都不是给你用的。GDP Val不是在测模型有多聪明，我们也不需要它有多聪明，而是在测你把工作交给他，第二天能不能直接交差。这个是主要测试的目的。

得分的话，各模型表现如下：

GPT-5.2：70.9分
GPT-5.2 Pro：74.1分
Anthropic Claude Opus 4.5：59.6分
Gemini 3 Pro：53.5分
GPT-5.1：38.8分
GPT-4：18.6分

我觉得GDP val的指标还是非常有效的，现在我让GPT-5.2去干活的时候，拿出来的东西是基本可以直接用了，这块确实有很大提升。

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

Gemini 3 Pro发布的时候，号称领先的LM Arena的那个指标，1,501分的那个指标，这是第一次超过1,500分，有史以来第一回。这一个指标上，GPT-5.2超过了吗？首先跟大家讲，GPT-5.2这一次发布的时候就没有公开这个指标，它只公开自己领先的指标，所有不领先的指标都没有公开，所以GPT-5.2应该是没有超过。

重要澄清：GPT-5.2不是Garlic

特别强调一点，GPT-5.2不是garlic。很多的文章在说garlic发布了GPT-5.2，注意，不是。大蒜模型从来没有被验证过，也没有在任何的匿名竞技场里头出现过这个garlic模型的名字，是从内部意外流传出来的。但是Garlic模型到底应对的是哪一个版本，这个现在不确定。但是所有说GPT-5.2是garlic的，都属于是产生幻觉了，甭管是人产生的幻觉，还是AI产生的幻觉，这个事本身并不重要。

匿名参赛：Robin与Robin high

GPT-5.2自己有没有参加LM Arena的这个竞技场？参加了，他也去做了这个评分了。但是LM Arena这个竞技场里边都是匿名的，当时Gemini 3 Pro进去的时候也是匿名的，GPT-5.2进去肯定也是匿名的。它在这个里边有两个模型：

Robin：测试的评分是1,399分（Gemini 3 Pro是1,501）；
Robin high：这个模型有可能是GPT-5.2 Pro，就是那个贼贵贼贵那个模型，它的测试结果是1,486分，也没有超过1,500分。

所以这一次，OpenAI就没有列这个成绩。现在普遍认为这个Robin就是GPT-5.2，Robin high应该是GPT-5.2 Pro。

LM Arena vs GDP val：评测标准有何不同？

这个LM Arena，它叫人类偏好测试，它是由真人用户直接投票来产生的。大模型匿名参加，谁也不知道谁是谁，但是其实你说匿名，也没有那么严格，大家都能猜出来具体哪个是哪个。他的测试过程是什么？就是用户输入一个真实问题，随机抽取两个模型，不显示模型的名字，同时返回两个答案，由用户来投票。那评分的方式是每个模型上来初始分1,000分，赢了比较强的模型加分——这个里头要注意，不是赢了就加分，是赢了比较强的模型才加分——输给比较弱的模型减分。它这个过程有点像打游戏，我们经常在游戏里头需要进行配对，你现在要跟谁去做PVP了，他也会去找一些跟你的排名差不多的这些人。

他这样的评测主要强调什么？是回答是否有用，逻辑是否清晰，表达是否自然，是否符合人类的直觉，多轮对话的舒服程度到底怎么样。它不强调哪些东西？是否背过某道题，是否命中固定答案，是否针对benchmark专门优化过，这个通通都是不重要的。所以“小镇做题家”在这里头是搞不定的，包括上面OpenAI自己做那个标准，也是搞不定的。

Gemini 3 Pro得分1,501，GPT-5.2 Pro得分是1,486。但是都叫Pro，差异很大。Gemini Pro它的价格还是相对比较便宜的，也比较快；而这个GPT-5.2 Pro贼贵，没有太大的必要，千万不要去尝试，非常非常昂贵。

GPT-5.2的定位：到底强在哪里？

它是消耗了更多的算力，直接获得能用的结果。更慢、更贵，但是结果基本上直接可用。核心特点包括：

有些仓促，确实是有点着急，红色警报嘛，确实有点着急，所以会出现这种上下文错误。
更多的是面向B端用户，不是娱乐的。
主要是针对Gemini 3 Pro和Claude 4.5 Opus。

我觉得Claude 4.5 Opus有点危险。为什么？因为我们以前的竞争经常是这样：老大跟老二打了半天，把老三、老四、老五、老六全都给干掉了。Claude 4.5 Opus这一点就稍微的要弱一些。现在通过GPT-5.2大家可以看出来，全能型的模型，就像全能型的人一样，是很难做出来的，既要幽默风趣有情商，又是办公小能手，这个很难兼得。大模型的进一步提升，普通人已经越来越难以直观感知了。解决具体实际问题，是目前各大模型厂商所关注的重点。

未来值得期待的更新

OpenAI的图像生成模型：还是值得期待一下的，因为这个东西好长时间没有更新了。特别是Nano Banana叠加了迪士尼的版权授权之后，OpenAI的图像生成模型就更值得期待了。迪士尼版权授权这件事，回头我再抽时间再讲。
明年的成人模式：也许是为个人娱乐服务提供的一个新方向。但是这一块最好不要抱太大的预期。为什么？第一，不能显得老范太低俗了，这个不重要；最重要的是，OpenAI现在是风口浪尖上，大家都在拿显微镜看它，而成人模式这件事情，本身尺度是非常难以把握的。所以对于这一点上，不需要抱太大预期。

总结：一款为专业工作者而生的“红色警报”产品

总结一下，GPT-5.2作为“红色警报”产品，算是紧急上线了。我自己用起来的感觉还不错，比较符合我的使用需求。我也往自己脸上贴个金，我算是专业的知识工作者。未来GPT会继续在我的文字类工作流程中占据主导位置。中间我大概是换Gemini换了几周的时间，但是现在我又换回去了。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

别只盯着股价了，阿里真正的翻盘点在这里：全栈布局+开源大旗，它正在复制英伟达“左手倒右手”的高明玩法｜阿里巴巴 AI 大模型阿里云战略通义千问云计算

Luke Fan — Wed, 01 Oct 2025 00:45:14 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，阿里到底是不是中国的AI之光所在呢？

这几天正在开阿里的云溪大会，9月24号到9月26号开。这一次的口号呢，叫“云智一体，碳硅共生”，提的口号很神奇。当然，最神奇的还不在这，咱们待会往后看神奇在什么地方。4万平米的展厅，500多家企业参与，6万多人到现场，这个是一个非常大规模的会。

那么还宣布了什么呢？与英伟达合作做物理AI。现在呢，谁也不敢宣布说与英伟达合作，买人家的这个RTX6000，现在只能说我们做一个别的合作吧。什么是物理AI呢？就是做机器人相关的AI，做机器人的仿真训练、量化强化学习和仿真测试，做这玩意的。英伟达在这块也确实是很强。阿里呢，也会去投资很多的这种机器人公司，所以这个宣布了以后也是一个重大利好。

而且呢，阿里现在绝对是全世界开源AI领域的扛把子。原来最早的扛把子是Meta，出了Llama，出了这么多模型以后，现在阿里接过了这一面大旗。阿里开源的模型，在Hugging Face上基本上是站到最前面的一批了。以阿里开源模型为基础再微调出来的其他的各种模型有几万个，现在基本上属于事实标准的一个状态。所以只要说开源的大模型，大概率是拿阿里通义千问的这个模型去调出来的。那这点呢，其实也很符合阿里的调性，就阿里的这些模型都属于他没有那种很强的这种个性，或者很强的这种能力，但是指令依存度、逻辑推理能力这块都是达标的，这个还是一个很好的底座。

这一次呢，提了一个新词儿叫ASI。从这个词儿呢，我们就可以看出来中美两国AI发展的完全不同路径。原来美国都在玩AGI，就叫通用人工智能，这个东西发展一段时间以后就可以达到跟人差不多的能力了，人能干的事它都能干。那阿里玩的ASI是什么呢？叫超越人工智能。就不用通用了，我们要超过人类。而且呢，是要可以自己去找知识学习，自己迭代自己升级，要快速超越人类。

那你说这里头跟中美两国的AI战略到底有什么不一样的地方呢？很多人一讲到中国AI战略呢，都会想到一个问题，说中国的有知识管控或者内容管控。但是我跟大家讲，这事呢正好跟大家想的是反的。不是说中国什么都不管，而且管的比美国严，但是呢，在做各种实验上，在做各种测试上，在做科技的发展上，中国人是百无禁忌的。什么对不对齐，是不是AI作恶，对社会、对环境、对人类有什么危害，我们先赢了再说，其他的不管了。这个是咱们中国玩的最奇葩的地方。而美国人呢，你可以认为他们是一帮左派，都在这想我的社会责任是什么样的，我要对人类怎么样，我要去开发宪法AI。所以呢，他们是一帮捆住手脚的人。而中国呢，其实我们是一帮现实主义者，只要能赢就行，其他的都不介意，等我赢了以后，我们再说后边治理的事情。所以美国人玩AGI，你别超过人类，你也不要给人类造成什么伤害。中国人就玩ASI，人在哪呢？没看着。我们冲！

这个是中美两国最大的差别。以中国现在这套ASI的玩法呢，我觉得可能会更有市场。做AI这个事情，都是要在大厂大公司里边控制去做的。而大厂大公司的这些人呢，包括国家的这些领导人，或者说这些既得利益者，所有的社会规则对于他们来说都是无效的。他为什么要去考虑社会规则？为什么要去考虑是不是有人受到伤害？他才不管这玩意呢。所以对于他们来说，拿到中国这种百无禁忌的模型再去处理，才是他们真正需要干的事情。至于说管理、过滤，那么我要用一个完全没人管的模型去管这些有人管的模型，这个是很多权力很大的政府他们所思考的问题。就像咱们禁摩一样，警察都骑着摩托车呢。为啥？摩托车方便。但是呢，我不允许普通人骑摩托车。所以呢，我们把警察的摩托车做的很大，开的飞快，但是普通人你们压根不许骑。就通过这一个词上面的一个字母，大家就知道两国的路径有多么大的区别。

前两天不还传嘛，说美国一个飞行员拒绝向以色列运军火，直接给抓起来了。那你说军队真正要的什么？军队要的就是执行命令。我不需要你有善良，我不需要你有人性，我就需要你执行命令。AI也是这样，政府都是希望AI甭管我说什么，你都去干去，不要自己去判断这事对不对。所以在这儿，中国也许会胜出。

讲远了。阿里云溪大会开的时候，股市是买单的。别人认不认咱不管，看看股市的情况：港股涨了9%，美股涨了7%。因为它是在港股跟美股同时上市的公司。而且木头姐直接出来喊大家上车了。木头姐是方舟基金的管理人，但是注意，方舟基金这样的机构呢，是不能上来说你们都买，然后再再去搞其他的。他一定是真金白银自己先买了，也不能说我买了以后喊大家来上车，这事是违法的。他是什么情况呢？他首先他买了，买了多少呢？两只基金一共买了1630万美金的股票，算是方舟基金的一个比较中等规模的操作。而且美国是有规定，这种基金重大操作必须要公开。所以呢，木头姐就趁此公示了，还要跟大家讲一讲说我为什么买，我为什么觉得这事行，他也得去募资嘛。所以这个过程，按照美国的这个法律规定，它是一个正常的披露。

木头姐呢是2021年把阿里整个清仓掉了，现在重新上车。跟大家解释说，我觉得是重新上车的时候了。它到底有什么样的不同的价值模型呢？它首先讲的是PE，PE呢就是你的市值跟你的利润之间的比数。阿里现在是多少？20倍。那20倍这是高还是低呢？你光告诉你一个数，这事是没法比较的。在电商里头算高的，电商里不能看亚马逊，待会咱们再讲为什么。京东的这个PE大概是10倍上下，经常就是个位数，所以京东的PE是非常低的。京东的什么人效比也是极差的，好几十万人你咋人效比。拼多多的这个PE是13倍。所以在这里看呢，阿里20倍其实是挺高的了。

在云计算里头，阿里算低的。谷歌也就是Alphabet，26倍；亚马逊，32倍。你看亚马逊其实跟阿里很像，一边是有电商业务，另外一边的话是有巨大的云计算业务。微软呢，37倍；Oracle呢，是67倍。现在TikTok的案子落地了以后，那还得涨。所以呢，阿里的整个的PE在电商里边算是偏高的，在云计算跟AI里边，它的估值是偏低的。所以木头姐说，我觉得这个位置很好，我要冲上来去搞一下。

AI资本支出，这个是大家都在玩的事情。华人勋跟OpenAI山姆·奥特曼在这玩的很开心。阿里也在讲，我3800亿人民币，500多亿美金的样子吧，要追加资本支出，AI基础设施建设，这个是符合主旋律的。还有什么呢？就是阿里真正比其他人都强的地方是哪儿？就是它的AI的产品线特别全，它真的叫全栈AI云平台，就跟咱们讲全栈工程师似的。大模型自己有，而且很强。投资了大量的AI初创企业，AI agent，AI编程什么全都有。更强的是在哪儿？它还有自己的用户场景，它有电商，还有自己的巨大的用户群和日常的交易数据在这儿。OpenAI其实它是没有用户场景和初用户的，这些玩意都是它后攒的。

木头姐曾经讲过，说他为什么看好X.ai，原因很简单，X.ai有X上面的特有的数据，而且X.ai还有可能会获得特斯拉的数据和脑机接口的数据，以及SpaceX的数据。所以呢，它有独特的数据，这就是它的逻辑。我们经常会去分析一个人的投资逻辑到底是什么样的。我觉得到目前为止呢，木头姐讲的这些阿里相关的这种投资逻辑，还是在我的逻辑认知范围之内的吧，就基本上是认可的。当然了，跟英伟达合作这个事，就是你怎么都要上去蹭一下嘛。

刚才咱们讲的这些呢，都属于金融行业的人他们去算的估值模型的账。深层次的，咱们要去讲一些像我们这种早期投资人去看的东西，就是他的业务逻辑是对不对的。比较一下阿里的竞争对手吧，没上市的公司呢，OpenAI、Anthropic、X.ai、字节跳动，这些呢咱就不去跟这种上市公司比较了，咱们就去比这些上市公司。

微软我们比较一下。它呢，投资了OpenAI，云计算算力投入这一块呢，它第一，花的钱最多。微软实际自己也有模型，但是实在是不好使，所以微软全面在使用OpenAI的模型。微软的用户场景丰富，用户量巨大，它有Windows，有Office，有IE，有Bing，虽然差一点但还算是有吧。阿里呢，投资了一大堆的这个AI企业，只要是国内的AI的大模型公司，基本上他全投了。投完了以后，通通都上他那去使用他的算力去。这个是不是跟微软就很像？云计算方面，在国内的阿里云算是最大的，所以跟微软能够对标上，没毛病。但是有一点它要比微软强，就是微软的模型像屎一样，阿里的模型真的是还可以用，不算最好用的，但真的是可以用。特别是千问32B、35B的这几个模型，还是非常非常好用的。用户场景也很丰富，虽然它没有Windows，没有Office，但是它有淘宝和天猫，有这个新浪微博、优酷这种内容项的，再加上出海的东西，所以它用户场景很丰富，用户量也非常非常的巨大。所以在这点上呢，它基本上完全可以对标微软，只是因为从中国起家的，所以规模上要比微软稍微小那么一点点。

下一个跟谁比？跟谷歌比。谷歌呢，是自己的模型很强大，Gemini非常非常强，据说10月份我们能看到Gemini 3了，说这个模型强的一塌糊涂，完全强到没朋友了，很期待。然后投资了Anthropic，谷歌也投了好多这样的AI公司。在云计算方面算力投入巨大，谷歌是一直在那投，但是现在它已经不行了。零几年的时候，谷歌的服务器是占全球服务器的6%还是7%，现在应该轮不上了。谷歌呢，自己的用户场景也很丰富，它有谷歌的搜索，有谷歌的Workspace，就类似于Office这样的东西，还有Gmail，再加上安卓手机，包括我们现在在YouTube上聊天。在这一点上呢，我觉得阿里跟它也是有得一比。谷歌呢，有一点没有阿里强是什么？谷歌的模型大部分是闭源的，它开源的模型其实是没什么影响力的。它的开源模型叫Gemma，Gemma在这块呢，比千问的这个模型差的非常非常远。而且呢，Gemma模型是只有小模型，没有大模型，就是为了让你在PC上，让你在手机上用的。而像千问的模型，是从大到小，从235B一直到0.6B，各个层级都有，你有多大硬件，咱就给你跑多大模型，都可以跑起来。所以谷歌就从技术的完整度上吧，还是稍微有一点点小欠缺。

再往后一个是亚马逊。亚马逊呢，真的跟阿里很像。他呢，也是投资了Anthropic，自己的模型那真的是乏善可陈。云计算绝对的王者，全球的王者就是亚马逊了。AI算力投入呢，也有，但并不是那么突出。电商的用户场景和用户量都非常非常好，这块跟阿里很像。

Oracle呢，数据库是老炮了，自己没有模型，现在呢跟OpenAI眉来眼去的，算力投入巨大。但是我觉得Oracle未来的故事，真正能看的应该是TikTok。

阿里到底是什么情况？你不要老想着说阿里买不到英伟达最新的芯片吧，他可以不在中国买，他在中东，在什么迪拜那地方都建的有算力中心，你在那买不就完事了吗？所以他是不缺这些东西的。所以呢，阿里的情况跟上面的谁最像？跟亚马逊最像，但是比亚马逊还要强一点，因为还有自己的大模型，这个而且模型很强。

这一次云溪大会都发布点什么？首先，发大模型，一堆的大模型，就像下饺子一样扔出来。第一个叫千问三Max，这个是一个不开源的模型。除了这个之外，剩下的模型都是开源的。为什么它不开源？1万亿参数，你开了源谁也布不了这东西。比如说235B，2350亿的参数的模型，还是可以去布一布的。Deepseek是671B，6710亿的这种参数的模型还是可以用。上万亿的模型一般就没法去开源了。这个模型呢，我这两天也试了一下，依存度很高，你给它各种指令，它会老老实实给你做完，生成的质量呢，就属于真的是能用的状态。它对于AI agent，对于各种的工具调用这块非常非常强，因为它的指令依存度高嘛，它就可以规划一个很好的路径，把所有的指令都调用回来，这个是做的很好的一个模型。

下一个开源的是什么呢？叫千问三OMNI，全模态预模型。支持视频，支持音频，输出也是直接可以文字输出，可以语音输出。有点像GPT-4o，或者说那种叫real time的这种模型。我直接可以拿这个手机打电话，然后拿着手机一边拍视频，一边跟人聊天，一边跟大模型聊天，这个东西就干这个事了。而且呢，超多语种的支持，支持十几二十种语言，都是可以这边实时的跟他聊，那边实时的出。所以拿这个东西出去找人去聊天，当翻译都是没有任何问题。而且可以拍着视频说，你看我这个视频里这个风景应该怎么描述一下，它都会马上给你去进行推理。而且端到端推理，不是说我先把视频识别出来，然后再去走这个大语言模型，直接端到端就开干了。这个模型呢也不大，30B MOE的模型，300亿参数。这种模型呢在电脑上都是可以跑的，还专门为苹果做了优化，就是在Mac上可以跑，但是30B模型在手机上是跑不起来的，这个是稍微有点费劲的。其实我们甭管用豆包也好，还是用ChatGPT也好，实时对话模型都是用云端的东西，没有在本地计算。千问三的这个OMNI就是干这样的一个事情的，还是很有惊喜的一个产品。

再往后呢，是千问三Image Edit 2509。其实原来就有这个模型，但是呢，它又重新升级了一遍。因为原来它的千问三Image Edit呢，只能上一张图片，你给它一张图片，要求它做各种修改是OK的。现在的话，Nano Banana出来了以后说，原来还可以这么玩。我可以上三四张图片，把它拼在一起。实际上就是拿三四张图片去进行视频推理，或者叫视觉推理，再把它们挨个抠出来了以后往一块拼。所以这就是阿里家的Nano Banana。这两天我在玩即梦4.0，豆包家的Nano Banana，那个也是玩的很开心。大家现在看到我的各种的封面，基本上都是拿这玩意做出来的。你看我那个这一期视频的封面，文字是用毛线绣上去的。这个是国内模型能干的活，就是写中文，而且用各种各样的创意字体写中文，用各种的素材去写中文。Nano banana干不了这事，Midjourney更干不了这事。中国的一个是即梦，一个是刚才我们讲的千问三Image Editor，都是可以去写中文的，效果好极了。

再往后一个呢，是千问三TTS Flash，就是专门做文字转语音的，还出了一个轻量级的模型。但是这种轻呢，也没有办法在手机上跑，都是在电脑上跑的。以及呢，出了叫千问三VL。VL是什么？叫视觉推理模型。但是这个呢，就跟前面咱们讲的这个OMNI不一样了，它是做了很重型的这种视觉推理。你像上面那就是个30B的模型嘛，它这种东西做推理的话，肯定的能力还是要差一点的。所以还是要上这个千问三VL。还有一个呢，叫千问三Next，80B MOE模型，每次激活3B。它是干啥使的呢？就是比千问三更便宜，在同等推理的能力下，用更低的成本可以完成任务。最后一个呢，叫WAN 2.5，叫通义万象2.5，这个呢是做视频生成的。原生音画同质，就是他直接做出来就可以配好口型，配好音乐，更高的画质，更长的时长，1080P、24帧、10秒钟。为什么说这玩意强呢？因为我们看到的其他视觉模型，比如说谷歌的VEO 3，OpenAI的Sora，即梦这些视频模型的话，都是闭源的。通义万象WAN 2.5它是个开源的，大家可以把它下载到本地，然后在自己的显卡上去干活。那你说我把它放在自己显卡上干活有什么好处呢？百无禁忌就是好处。中国人做的东西都是百无禁忌的，其他的这些视觉模型都是很政治正确的，而且耻感都很高。你现在有一个这么强的，基本上可以达到谷歌VEO 3这样的一个水平的视频生成模型，还是开源的，还可以下载到本地去部署去执行，想想都觉得实在是太美了。而且呢，这个模型呢是这多模态，全创造全覆盖，文生视频、图生视频、文生图、图像编辑全都有。

这是这一次发布的各种的新模型。你说云计算嘛，超节点总要有嘛。华为也在做超节点，英伟达在做，阿里肯定也少不了。阿里的超节点叫“盘久”，盘古的盘，永久的久。盘久128超节点，就是每次呢，把128个算力卡放在一起去做这种超节点运算。这个里头并没有去讲说我这个超节点到底用的是谁的，其实大概率用的是英伟达的芯片，也可以用他自己的平头哥的芯片，或者用一些其他人的芯片。所有的超节点真正考验的其实不是那个芯片，考验的是什么？就是他的连接协议和交换机。就是你不能走以太网，你必须要单独走一个光通道的网络。所以他呢，做了一个叫UA Link，就类似于英伟达的这个NVLink这种东西，自己有自己的这个模块，自己有自己的协议，自己有自己的交换机，可以把128个算力芯片串在一起去干活去。

阿里真正强的在哪？就是它全栈，什么都有。因为做云计算的嘛，他肯定有海量数据库，然后AI agent、工作流、MCP这块也是强大一塌糊涂。前面我们讲过Dify这样的东西做工作流的，现在你们可以直接把Dify的DSL文件，就是你看在Dify上做好的工作流，导出一个DSL文件来，导完了以后直接到阿里云上去导入，他就可以照着DSL的这个工作流节点就给你跑去了。原因很简单，Dify也是拿了阿里的钱了，那他作为一个股东可以提出这样的要求来。所以这块呢，真的是非常非常强。

MCP这一块现在非常非常全面了。我今儿还专门上去看了一下，现在有哪些MCP可以在上头跑了。刚才我们讲的什么画画的，什么做视频都可以包MCP，当然这不重要，重要的什么？支付宝。你现在可以在上面做支付宝的支付，支付宝的订阅，都可以直接挂MCP到你的自己的应用里头去。这样的话，我们再做的新的产品就直接里头可以支付了。各种跟电商相关的，跟这个业务相关的，因为它场景丰富嘛，自己家的东西都可以开出来，这一块全都已经包装成MCP了，可以在阿里云里头用，也可以在阿里云里头把这个MCP的接口暴露出来，在外边来用。比如说它里头有一个MCP是什么？查快递。你只要去申请一个快递100的TOKEN往里一挂，就可以直接上阿里云的MCP服务器上去把它的接口导出来，导到自己的AI agent也好，或者是工作流也好，就可以帮着用户去查快递了。你的快递走到哪了，什么时候该拿了。能够查快递，对于销售的转化是非常非常有帮助的，因为你一旦知道说我这个快递是可以查到的，这个东西走到哪我都知道，大家就觉得一个事情从不确定变成确定了，他就可以花钱去更多的下单买东西。这一块是很多很多的，现在能想到的，在国内能用得上的这些东西，都已经包装成MCP了，都可以在阿里云里边直接集成去使用。

编程这一块，他自己专门做了一个模型叫千问三Code，480B，一个开源的模型。这一次呢，阿里还发布了一个叫千问三Code Plus，一个闭源模型。就这个模型实在太大了，你们也别费劲了，搁我服务器上你们跑吧。我自己没有去测试，所以就不跟大家吹说东西好不好使了。

阿里真正做的全栈，从头到脚全做了。而且呢，英伟达的把戏在中国只有阿里能玩。什么意思？阿里做芯片吗？要准备卖芯片？不是这样。中国人谁也做不出英伟达这样一统天下的芯片来。所以呢，他干嘛？他去做云去。说我这有云，我拿云去投资，别人投资完了以后，我再把这个钱再挣回来。就是一个钱从左口袋揣右口袋，然后再揣回左口袋，GDP算三倍，这就是英伟达的把戏嘛。这个现在阿里云也可以干。

做云计算跟云计算因为AI获得很多收益，其实两回事。就阿里云的这几年的收益，特别是AI相关的收益，都是三位数增长，绝不是几百分之几十，就翻着跟头往上涨。所以在这一块上呢，还是有挺大差别的。微软云上跑的是谁的？跑的是OpenAI。亚马逊云上跑的是Anthropic。Oracle云现在是Cohere，以后应该会跑OpenAI。谷歌云上是Gemini和Anthropic。那么阿里云上跑的是谁？第一个，阿里全栈的大模型都可以在上头跑。Kimi也就是Moonshot，这个模型在上头跑。MiniMax他投资了，在上头跑，没毛病。百川、智谱、零一都可以在上头跑，都没毛病。Deepseek云本来是开源的，虽然阿里没有投资Deepseek，但是肯定阿里云上也是有Deepseek的模型的。全国大概有一多半的模型都是在阿里云上跑的，阿里每一次出来吹牛就吹这个。另外一圈比较大的是火山云，是这个字节跳动的。他讲的是什么？就是公有云对外销售的TOKEN，有一半是由火山云消耗掉的。那你说不对，怎么阿里云上那么多模型，火山云消耗的TOKEN这么多呢？这个里头就有一个问题是什么？就是火山云上大量的人是直接在上面挂这个模型去干活的。而阿里云的话，很多是由单位直接上去，连服务器带所有东西一起买下来的，它是没有办法单算你卖了多少TOKEN的。所以呢，算TOKEN，字节跳动的火山云占一半。你如果算大模型，阿里云占一多半。

黄仁勋的玩法又来了。怎么讲呢？阿里出钱投资，拿了阿里的钱呢，你就来阿里买算力。运营的不好怎么办？阿里就把核心团队收了。这点他比黄仁勋还狠。黄仁勋投了一堆项目以后运营不好，他也没办法，他也不能说：“你们上英伟达来上班吧。”阿里是这么干的，因为零一前一段时间就玩不转嘛，那零一的核心团队就直接上阿里上班去了。这就是投资协议上写的一个条款，你如果玩不转，你就把你的核心团队交出来。因为咱们都知道，做大模型需要什么东西？算力、数据和人，或者叫人才吧。那么阿里说了，我投资了，你买了我的算力，数据你自己找去我不管了，玩不好你把人才交出来，怎么着都不亏。如果这个项目运营的特别好，估值上升，那阿里肯定也是赚了。所以这是阿里真正的如意算盘。

那么，阿里是不是重新站起来了呢？阿里前头最惨的时候，市值被拼多多超越，马云必须要出来露面了，去说几句话才能稳住军心。而且阿里这几年呢，特别是吴妈上来了以后，真的是改变了很多策略。原来呢叫“1+6+n”，就是彻底要分散，自己玩自己的。现在说不分了，不需要的直接干掉，剩下的人咱们集中力量干大事。零售方面，现在在跟美团、京东拼外卖，而且在拼即时零售。AI方面，在和字节、Deepseek战斗。但是呢，在这一点上，阿里的优势是非常非常强的。字节跳动是不开源的，字节跳动有一些开源模型，但是呢大的模型都是闭源的。所以在这一点上，阿里要比字节强很多，它会形成事实标准，这个字节就没有办法。虽然豆包1.6模型真的是很强很强，现在我比较下来，千问三Max是没有字节的豆包1.6好使了，但是即使如此，你没有开源这面大旗。所以在这点上字节打不过阿里。而且因为竞争，字节的火山云上敢去部署这个Deepseek，但是呢，他就不愿意在上面部署千问模型，这个也是字节眼界稍微差一点的地方，或者说目光不够开阔的地方。字节呢，前面把整个战略投资部都裁了以后，其实也没有什么特别大的动作。这方面，美团、拼多多、京东就更不行了。所以阿里在国内的竞争优势真的是独一无二，就没什么人跟他竞争。

总结一下吧。阿里呢，肯定是未来可期，只要是他们抱着现在这个状态接着往前走，收紧拳头，大家自己配合往前走。其实阿里还有很多很神奇的东西在做，只是现在并没有开放出全量给大家来用。来等他们稍微开放一点点，咱们再去一个一个的来去解读。而且阿里在这块有可能真的会走出一条不同的路来。什么意思？就是到目前为止，这些传统的有场景、有用户的公司，比如谷歌、微软、亚马逊、字节跳动，都没有开发出新场景，都是在原来的场景上进行AI的改造。而在这点上呢，阿里呢有大量的AI agent准备去上线，他们是准备去创造新的商业模式了，准备去创造新的应用场景的。这个才是真正值得期待的。一旦他们在新的应用模式和场景上有了创新，而且站住脚跟了以后，应该又可以席卷全球一次。我觉得应该是值得期待的。

但是呢，在国内一切皆有可能，一切也皆有不可能。所以呢，我们继续吃瓜，继续往前看。我自己呢，现在有一部分的应用是跑在阿里云上，跑在阿里的大模型上，但是呢，大部分的AI人工智能的应用其实是在OpenAI、Gemini和豆包上。我准备未来一段时间更多的使用阿里云吧，希望能够发现他们一些有趣的点，特别是他的通义万象2.5，看看到底能给我做出一点什么东西来。但是跑这种东西呢，可能需要更新电脑，我现在的电脑跑通义万象2.5是跑不起来的。或者看看谁家是托管的通义万象2.5，是相对来说比较自由的，我准备去好好的玩耍一下。

最后注意，咱们不做任何具体的投资意见和建议。你说我上车了，亏了，那是你的事。你说我没上车，亏了，也是你的事。你赚了，也都是你自己的事。不要怪老范。好，这就是咱们今天的第一个故事。

GPT 5 Codex，普通人的技术平权里程碑！程序员神话被戳破？当AI能可靠执行7小时复杂任务，普通人与专家的差距还剩多少？｜揭秘 Codex、OpenAI、GPT-5、GPT-5-Codex

Luke Fan — Wed, 17 Sep 2025 00:44:03 +0000

GPT-5-Codex的发布，普通人通往技术平权之路的又一个里程碑。

大家好，欢迎收听老范讲故事的YouTube频道。

记得上次在天津做线下活动的时候呢，有一位程序员问我说：“我们这些普通人，应该如何应对AI大潮呢？因为现在很多程序员被AI淘汰失业嘛。”我想了一下告诉他说：“你要想清楚一个问题，在AI大潮面前，我们不是普通人，我们是程序员。那些不会写程序的人，才是普通人呐。”

所以，咱们今天要讨论的就是，那些不会写程序的普通人，在GPT-5-Codex的帮助下，怎么能够像我们这些会写程序的人一样，去遨游于代码的海洋之中，知道代码到底在干什么，为什么这么设计，哪里做错了。这个是真正给了他们一个能用的工具。

OpenAI呢，趁着Anthropic屏蔽了程序员的主体族群（也就是咱们中国人的时候），适时地召开了发布会，发布了GPT-5-Codex。大家要注意，它这个名字起得稍微有些混淆。GPT-5呢，是一个大模型；Codex呢，是OpenAI发布的一个编程的agent；GPT-5-Codex呢，是一个在GPT-5的基础上，专门训练的一个用于Codex这个编程AI agent的一个专有模型。它稍微有点绕，就是GPT-5-Codex是一个模型，不是一个简单的agent。

GPT-5-Codex呢，可以自动地判断复杂度，而且可以可靠地执行。自动判断复杂度这件事呢，现在大家都在干。你问了一个简单问题，我就简单回答一下，不会浪费很多的TOKEN。其实，有时候AI想太多，也是一个很烦的事情。什么叫AI想太多？你问豆包一个问题，甭管你问他什么问题，都啰里八嗦给你讲半天，那就属于AI想太多的一个典型体现。

真正难的是可靠执行。什么叫可靠执行？就是AI这种东西呢，每一次执行实际上都有可能出错，都有可能出现一些偏差。如果说我一次执行了以后，自动地再做下一次执行，它就会把这些偏差累积起来，或者我们叫累积误差吧。这种AI agent，它是没有办法做长期执行的，因为它的累积误差会越累积越多，他自己瞎想越想越偏，就这样的一个状态。

但是，GPT-5-Codex在这块会做得很好。OpenAI已做了测试，它最长连续运行了7个小时，中间不会停下来，这是非常非常强大的，而且最终得到了你想要的结果。这个是怎么做到的？肯定内部是有很多的纠偏机制，很多的校验机制。我往东走一步发现不对了，我再往西走一点。其他的AI agent为什么不行？因为有时候钻牛角尖，钻进去以后就钻不出来了。像我们使用Claude Code或者Java CLI这些AI agent的时候，你就必须得盯着它，你发现他越钻越偏、越走越牛角尖的时候，你就要把他打断，告诉他说：“你别往那边走了，那边是错的，有一个正确的方向，你应该如何如何去处理。”这个才是比较麻烦的地方。GPT-5-Codex在这块，已经非常非常强了。

GPT-5-Codex呢，跟OpenAI的Codex这个AI agent结合在一起，绝对是强强联合，而且还不贵。这个很重要，因为使用这些AI agent本身是非常非常昂贵的，它会把你整个的代码库直接塞给这个大模型，你的TOKEN会像流水一样哗啦哗啦地一下就不见了，所以非常非常昂贵。有些人使用Claude Code，一个月能够消耗2万美金的TOKEN，这是非常吓人的。

而像这个GPT-5-Codex，本身在这一块上还是相对比较便宜的。像我这样的Plus账号，就是一个月20美金的账号，基本上够我使了。给出的额度是这样的：每5个小时30-150条通话。你如果是问的很简单，可能就是150条；问的很复杂呢，就是30条。如果你把它耗光了以后呢，它会回答你说：“咱歇会吧，待会再弄。”很多人呢是这样，工作干一白天，如果被提示了说“咱歇一会吧”，他就下班回家了。这样来去使用，它的额度基本上够使，要比使用Anthropic的Max这种，就是200美金一个月的账号，要好用得多。

现在去使用OpenAI Pro账号，200美金一个月的账号的话，它是每5个小时可以回答300条或者是1,500条，就是简单问题1,500条，复杂问题300条。实际上你给它一个复杂问题以后，它自己且跑呢，你想再给他下一条都比较费劲，除非是你并行的同时再开多个窗口一起给他这个命令，有可能这个额度会不够用。正常如果是一个人单人使用的话，其实Plus账号，就是30条复杂任务或者是150条简单任务的话，五个小时之内是够使的。你上午弄完了以后，中午吃个饭休息休息，下午又可以满血复活了。所以它还是比较省钱的。

GPT-5-Codex这个模型呢，其实是在GPT-5的模型上做的提升，本身呢提升并没有那么明显。如果你不是用来编程的话，你就不要拿这个模型来使。如果你要是拿它来编程的话，普通的编程任务呢有提升，但是可能也就是在一些跑分题库上，你能够看到它提升那么一点点，提升的也不是特别多。但是呢，在一些比较特殊的编程场景上，是有比较高的提升的。所以呢，这个提升不重要，发布会本身更重要一些，就告诉大家华人程序员们、中国程序员们：“Anthropic不让你用了，上我这儿来，非常非常好用。”

那么，Codex和其他这些编程工具比起来，有什么差别呢？咱们就使用这个GPT-5-Codex最新的模型，而且上来以后，你可以选择High模式，就是更多的思考的这个模式，这个效果非常好。Codex跟其他这些编程语言工具比起来，最大的优势是“言出法随”。什么叫言出法随？就是你给出指令，你就可以放心等待了，这个就是最大优势。前面也讲了，你给了他一个指令以后，他可以吭哧吭哧跑7个小时，7个小时基本上就是一天了吗？你上一天班不也就8个小时吗？他在这个中间不会跑偏，而且最后会给你一个你所预期的结果。这个非常非常重要，千万不要说他折腾半天给你一结果，最后发现不是你要的，这不是白忙活一场吗？

使用这个AI agent跟这个模型配合起来像什么呢？就像是在一个陌生的国家、语言不通的情况下打Uber的感受。比如说我在泰国吧，泰语肯定不会，他们也不会讲英语，我英语也不怎么样。我去打Uber，这个钱是可控的，你在打车的时候，他告诉你需要花多少钱。目的地呢也是很清晰的，你都是在谷歌地图上挑好了目的地，直接输进去，也不会发生什么错误。中间过程你就不用管了，愿意去跟司机闲聊两句呢，可以试试。我在泰国清迈，我也会用蹩脚的英语尝试跟司机闲扯两句，有时候人家理我，有时候人家不理我，这个也无所谓。如果你不想跟他聊天，你中间睡个觉也没毛病。最后呢，都会在一个你所预期的时间、你所预期的金额下到达目的地。这就是Codex真正给大家的体验。

而如果你使用其他的工具，比如说像Cursor、Claude Code或者Gemini-CLI这些工具的话，你就像是在一个陌生的国家、语言不通、陌生城市坐公交车的感受。这是一个什么感受？太多未知因素了，消耗也是完全不可控的，到底要花多少钱你也不知道。而且呢，这国家可能治安还不太好，有一些坑掉进去未必就爬得出来。是否可以在你所预期的时间和预期的费用下到达目的地？不好说。所以这就是最大的区别，为什么我现在已经完完全全转到Codex上去了，就是这样的一个原因。

现在的这些编程工具呢分三类。一类呢是云端agent，有个网站，你向他提要求“给我做一什么什么东西”，他直接给你做好，你中间就不用管了。他在自己的虚拟机上整个搭环境做，做完了以后，直接给你完整代码就完事了，这是一种方式。第二种方式呢，是给你一个命令行，像咱们刚才讲的Gemini-CLI、Claude Code都是这样的，给你一个命令行工具，你在这个命令行的下面直接给它指令，它去干活去。第三种呢，就是IDE或者是这种IDE插件。比如说Claude Code，就是自己做的IDE；GitHub Copilot，就属于叫IDE插件。它是给你一个集成开发环境（IDE叫集成开发环境），在这个里边的话，咱们直接把所有的事情做完。而Codex的话，它是一个三位一体，就是它三个都给你了。如果你一旦决定使用Codex，你就会有一台服务器，他在服务器上去给你搭建所有的运行环境、搭建开发环境，然后到那边去干完活，给你提交完整的代码。回来也给你一个本地的命令行工具，同时呢给你一个IDE插件，就是VS Code上的一个插件。三个都有，而且都挺好使的。

Codex跟其他这些AI编程工具最大的差异在哪？最大的差异是，它是直接在GitHub仓库上干活的，直接可以管理GitHub仓库，接受各种PR（叫pull request），就是这种拉取的需求。开源仓库什么时候会收到pull request呢？就是别人看着你的开源代码说：“这儿有一bug，我去给你改一改；我那儿想增加一功能，我给你改一改。”这个东西我不能直接在代码库上改，它会提交一个拉取请求，说：“我改好了，你拉回来合并进去吧。”叫pull request。大量的pull request上去以后呢，代码仓库的主人其实是看不过来的。

这个Codex干的第一件事，就是叫自动过滤，直接把骂人的筛选掉。因为有很多人提pull request，什么也没有就上来骂人，这个是很正常的一个事情，林子大了什么鸟都有嘛。华为鸿蒙系统的这些拥趸们，就曾经提交了大量的pull request，要求别人去支持鸿蒙。现在就不需要看这些东西了，这个直接交给Codex，你把pull request拉上来，你去校验一下，看看这东西能不能合并得进去，是不是有问题，这个代码是不是有害，上来是不是骂人呢，还是说提交的代码是完全无效的。他直接看了，看完了以后发现没什么用，就直接扔掉了。所以这些以后就不会再给大家造成困扰了。

这个Codex会自动筛选出重要的pull request出来，交给这个代码库的所有人，你去甄选一下，看看是不是要去合并进去。它不会自动合并进去的。然后呢，也会自动地去review这些代码。这个review是什么？就是给你代码了以后，要有第二个人、第三个人去看一下这个代码。它呢，可以自动地去做安全review。为什么要做安全review呢？前面咱们发生过代码投毒事件。有一位非常同情乌克兰的程序员，在给俄罗斯的一些开源仓库去提交代码的时候呢，就直接投毒了，导致了俄罗斯人使用这些开源代码的时候就有可能会出现问题，这个是不能接受的。Codex可以直接把这些问题都排除掉。

还可以做过期依赖的review。什么叫过期依赖？就是我们有大量的代码，这个代码是一个一个的代码库、代码文件，每一个代码呢，会去依赖一些其他的这些库。有的时候呢，这些代码可能已经不用了，特别是一些屎山代码，可能已经不用了，但是这些依赖还写在里面，这个是非常非常危险的。他会查一下，说这些依赖已经不需要了，我们可以把它去掉。这样的话，代码库呢就会变得清爽一些，否则的话这个屎山就会越聚越多。因为原来代码量太大，咱们也没有办法把整个代码库从头到尾都看一遍，里头有很多的这种过期的依赖就一直会留在里面，后面人就没法改了，这个屎山就堆起来，后边的维护难度就会变得越来越高。

所以Codex可以极大地提升开源项目的管理效率，也可以极大地提升整个代码库的品质。因为屎山就是一堆的代码搁在里头，谁也不愿意把它扒开。能跑，但是为什么能跑，谁也不知道。在里头改任何东西，可能就都不能跑了，谁也不敢动这个东西。屎山在被提交的时候，现在有Codex的维护的话，就很难再入库了。大家一看这是个屎山代码，咱就别把它弄进来了，就搁那了。你按道理说，你这个代码提交上去以后，应该有人去看，应该有人去做review，review完了以后才能入库。但实际上呢，人这种东西，他是爱偷懒的。“这个人每次提交的代码都是对的，从来没有出过什么事，我信任他吧，下次我不看了吧。”就会出现这样的问题。为什么会有人在开源代码库里投毒成功呢？他就是这种信任造成的。现在有Codex了，甭管你提交了多少代码，以前的代码的质量有多好，你这次提交了，我还是会一丝不苟地把你都拎出来去做一次review，它不会偷这个懒的。机器在这点是相对来说比较可靠的，人是不可靠的。所以很多屎山代码就不会入库了。

而且呢，现在Codex可以直接把屎山挖开。为什么以前屎山挖不开？就是人处理代码是有极限的。我们从头到尾去读这个代码的时候，其实我们处理的能力是有限的。一个好程序员，或者说一个顶尖程序员，他比别人强在哪？就是他处理的代码量大。不是说我写了10行代码，写了1万行代码，还是写了多少行代码，就是当我看10万行代码的时候，我知道哪错了，这个错的地方在什么地，这个代码跟哪个代码是相互依赖的，哪个代码是调用哪段代码，这个东西我能搞清楚，这个就是一个程序员的一个基本素养了。另外一个说，我可以在100万行代码里头去把这个问题搞清楚，这个就更厉害一些。但是这个是有限度的，像我们去写一个浏览器或者操作系统，那这个多少亿行，没有任何人可以在里头看完。那你说这种大项目怎么做？就是通过工程的方式把它们切块，每一个程序员负责一部分，你就在这里头去处理，处理完了以后呢，写好接口，写好接口文档，其他人只跟接口去打交道，一个代码别人就不看了。原来是这么来处理的，但是在这个处理过程中的话，这个屎山就很有可能埋在里头，而且谁也没有办法把它挖开。去年我去日本，他们就跟我讲，说日本有好多70多岁的程序员，他写完了代码，除了他自己别人没法看。你再找一个人来看，这么大代码体量你咋看？这个是完完全全的屎山。

现在的话，有了这个GPT-5-Codex这样的新模型，它就可以把屎山挖开。它可以直接把所有的代码，把整个代码库都扔进去，它是有这个能力的，人已经超出极限了，人搞不定这个事。所以呢，他可以去重新替换代码，说这个代码我们整个去重写一下，把这个问题解决掉。这个以前不可能的事情，现在可能了。

那你说原来有没有人说“这个屎山我把它扔了重干一下”？也有。最近咱们看到的一个案例是谁呢？就是埃隆·马斯克。把Twitter买下来以后，把人都裁掉了以后，“咱们重新写吧，以前那屎山我不要了。”那你说他怎么干成了？因为他是埃隆·马斯克就干成了吗？其他人干不成，这是天才？也不是。干成的原因很简单，他不怕宕机。整个代码库更新的时候，这个X系统是宕机了好长时间的，而且有一段时间宕机还是挺频繁的。马斯克说：“反正公司是我的，也不是上市公司了，宕机我认了。”那这种情况下，他可以去把整个代码库扔掉了重写，否则根本没法干。如果是按原来的这种传统公司的架构，任何人都不敢去扒这个屎山代码，因为宕了机以后谁也负不起这责任。最上面管事的人，绝对是一帮普通人，甭管他是叫CEO，还是叫什么别的名字，那都是普通人，他不会写程序的。他只要求就是“你不许宕机”，具体这事是怎么回事，他是不管的。只有马斯克这种工程师，而且有钱任性，他可以说：“咱们把它整个屎山挖开。”其他人搞不定。

那么，GPT-5-Codex到底怎么能够让普通人去进行技术平权呢？分两步。

第一步，大厂会落后。大厂为什么会落后呢？因为很多大厂，最上面是一帮完全不懂技术的叫CEO，或者是叫一些其他的title的人在管。他们会很固执的要求，我们所有的代码不能上网。特别是像日本这样的国家，他们就没有办法去使用刚才我们说的这些工具：Claude Code、Gemini-CLI、OpenAI的Codex。它只能使用本地部署的一些小模型，那它的整个的数据库就会落后，就没有办法去跟那些新兴的企业去竞争。新兴企业，可能你没有钱去雇佣那么多的老程序员、高端程序员，但是可以靠一堆业余程序员、有业余爱好的程序员，就在Codex的帮助下就快速地追平大厂。而大厂呢，守着一堆屎山代码，因为不允许连接外网，那他就只能等着这些新的企业去超越他，他没有任何办法，只能眼睁睁等死。大厂原来的优势就是长期积累，以及呢，可以花高薪去雇佣最好的程序员，但是现在这些通通都成为包袱。被高薪雇佣到大厂的程序员，他们会进到大厂里去，看到大厂里头的系统到底是怎么做的，看完了以后说：“算了，咱们出去创业吧。”掘墓人就这么产生了。所以大厂会在这个过程中轰然倒下。

另外一个是什么？就是普通人也可以参与到技术平权里来了。咱们刚才讲“普通人”是非程序员，在这里的定义。当然了，这里的普通人，并不是说完全不懂程序的人。就像什么呢？比如摄影吧，原来有职业摄影师，但是你像我，我算业余摄影爱好者，但是对于职业摄影师来说呢，我肯定就是普通人了。能够理解这个逻辑吧？对于我这样的人来说，我现在也可以在大疆的这种傻瓜型的摄影工具的帮助下，拍出一些还不错的照片和视频出来了。现在也是这样的，一些稍微懂一点点编程的门外汉、编程的业余爱好者，也可以在Codex的帮助下，去做出一些很专业的产品出来了，完成一些很专业的工作了。这就是普通人的一个技术平权之路。而一点都不会，说我完全也不想看，这个事您还是普通人，跟我们没关系。稍微有点兴趣看一点，我们叫“略会”。很多东北的脱口秀里都在讲这个话：“你会打乒乓球吗？”“略会。”“会游泳吗？”“略会。”稍微会一点点的意思。略会编程的人，就可以解决很多大问题了。

你说我们去看一下Linux内核怎么回事？你原来需要学很久的，现在不需要了。略会一点点，我就可以去看看Linux内核到底怎么写的，有什么问题，哪有bug，哪个地方有可能有漏洞，都可以搞定。Linux内核是开源的，我们直接可以在源代码库上看。现在网上有大量的代码库，原来普通人是拿它没有办法的。现在这些“略会”的代码库，就可以进行解读，找出其中的bug，提出有见地的意见和建议来了。前一段时间有一个500G的代码库莫名其妙传到网上去了，很多的普通人拿他是没有办法的。现在的话，你说我略会一点点，稍微知道是怎么回事，你就可以把这个代码库弄到本地来，交给Codex说：“来，告诉我，这里头都写了什么？分几个模块？它们是怎么实现的？这个是为什么？那个是为什么？里头到底是做了些什么东西？”大量的普通人，可以参与到这个过程中来了。

咱们最终的结论：GPT-5-Codex就是一个普通人平权的工具。我们这里讲的普通人，不是说你没有钱、没有这个公司，而是说你不是专业程序员的这些普通人，就可以在GPT-5-Codex的帮助下，做很多原来专业程序员才能做的事情。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

别只当成科技八卦！Anthropic反华禁令背后的意识形态挂帅 vs 商业求生｜Anthropic Chinese-Owned Firms AI Services Ban Claude AI

Luke Fan — Sun, 07 Sep 2025 00:40:27 +0000

千万不要把这事当成又一条科技八卦。Anthropic突然发布的最严对华新规，背后的原因和影响，比大家想象的要复杂得多。

大家好，欢迎收听老范讲故事的YouTube频道。

9月5日，Anthropic发布了最严对华新规，要求什么？立即停止向中国资本控股50%以上的集团及其子公司提供Claude服务。字节跳动的Trae海外版，不知道还能不能继续用Claude了。字节跳动的Trae国内版肯定是不让用Claude，但是海外版的主力模型就是Claude Sonnet 4、Claude Sonnet 3.7、3.5什么这样的模型，这个以后估计就悬了。

这项政策的显著特点，是采用了股权穿透原则，即不仅针对中国大陆的公司，还包括那些在海外注册，但由中国实体直接或间接控股超过50%的企业。

国际上这些做AI的大厂呢，其实都不让在中国使用。像OpenAI、谷歌、xAI，他们的服务在中国都是没法用的。OpenAI在这里头还稍微有点特殊，因为它的服务可以通过微软云在中国境内落地，所以它相对来说还比较宽松一点点。山姆·奥特曼在2023年还跑到中国来过，当时还讲说希望跟中国一起来探讨AI治理的事情。

即使是不能在中国落地的这些产品，通常呢也只是说因为监管或审核原因，也没有想什么其他东西。xAI的话甚至压根就没有禁用名单，虽然你在中国大陆使不了xAI的产品，但是你依然是可以用中国大陆的信用卡去充值的。OpenAI是不允许用中国大陆信用卡充值的，谷歌、xAI应该都没什么限制。

Anthropic这一次呢，就属于比较特立独行了。你说别人都不让使，他也不让使，为什么他就特立独行了呢？是不是因为股权穿透呢？不是这样的，他解释的原因比较奇葩。因为审核原因、因为监管原因，我不让你使也就拉倒了，他讲的是什么呢？

“受中国等威权地区控制的公司面临法律要求”，他首先呢给中国做了一个定义，叫“威权国家”。“这些要求可能迫使他们共享数据、与情报部门合作或采取其他行动，从而产生国家安全风险。而且无论这些国家在何处运营，或公司中个人的个人偏好如何，这些要求都使公司难以抵抗这些压力。”这个应该讲的是国安法，它要求一定要无条件配合。在这个里边，避免中国通过模型蒸馏等手段，借助Anthropic的技术来发展自身AI。

它算是首个美国主要AI公司公开实施的全面禁令，这个跟上面那几家的差异就在这了。人家随便写一个监管、审核就完事了，他是真的指名道姓地杀上来打脸来了。当然了，不光中国，这个里头还有俄罗斯、朝鲜、伊朗等国也都在范围之内。

Anthropic是一贯反华。其他的都是属于“我是公司，我遵守各国法律，法律不允许的我就不做”。比如说中国法律也要求他进行一些审核报批，我也不费这个劲了，所以我们就是遵守法律，我不歧视任何的人、任何的国家政权。但是呢，Anthropic就属于一贯地反华。在Deepseek发布之后，第一个跳出来，而且跳得最欢的就是他们。

其他几家呢，像谷歌其实啥也没说；xAI马斯克那边就是抓紧地买显卡，自己去干活去了；OpenAI呢看了看说：“我觉得还有差距，这个也有一些可取之处，我是不是稍微改一下方向？我们也要去把COT（也就是思维链）给大家公开出来，而且呢我们也要开始向开源的方向再稍微地挪一挪。”这是OpenAI的这种论调，老大嘛，你总要稍微稳重一点。但是Anthropic就当时直接跳出来说：“威胁了，这事不行了！”

而且呢，Anthropic一直是公开强调中美竞争的，多位高管在公开场合将中国视为AI领域的竞争对手乃至威胁。2025年4月份公布的《人工智能扩散框架意见书》里头，他们还专门地表过态。这个意见书呢，是针对美国商务部《人工智能扩散框架》的一个回应。当时呢，美国商务部写了这样的一个文件，说：“来，你们各个各家看一看，给我写个回信回来。”他们就写了一个。在这个回信里头，要求进一步加强对华出口管制，特别提到了说美国政府禁用了H20，这个是非常好的，以后应该再进一步再多禁一些。

这里呢要强调，是美国政府先封禁的H20，Anthropic出来附和一下，并不是Anthropic倡导了说禁H20然后就把它禁掉了，这要稍微讲一下前后顺序。黄仁勋呢肯定出来怒批嘛，他惦记做这个生意呢。黄仁勋在5月13号的声明中表示，控制AI对华出口的限制政策，反而将阻碍美国的竞争力，中国在AI领域进展迅速，限制无法阻挡。

而另外一点，Anthropic是所有的美国AI平台里头封号封得最严格的一个。不停地有人在抱怨：“我的Anthropic的账号被封了！”美国这些平台，OpenAI、谷歌、GROK，我们也都上去使去，但是我从来没有注册过Anthropic的账号。原因很简单，它经常会因为你的IP地址不对，或者你的IP地址经常发生变化，直接把你账号封掉，这个是非常非常讨厌的。我不希望自己花的钱直接打水漂了，所以我从来没有注册过他们家的，甭管是Plus账号，还是API的Token账号，从来都没注册过。

Anthropic为什么反华呢？网上呢，流传了一些梗，咱们就开心地听一下。他的CEO呢，叫达里奥·阿莫戴伊，是一个意大利人，原来是主要从事学术和研究，读博士然后读博士后，上公司上班的。第一份工作就是在百度，在百度呢干了大概是一年吧，或者差几个月一年的一个时间。当时呢也没到中国来，是百度在硅谷呢有一个研究中心，应该在2014年、2015年的时候。那个时候其实中国各大的互联网公司都在硅谷建研究中心。

达里奥·阿莫戴伊呢，当时是吴恩达的手下。吴恩达应该是在百度还多混了几年，应该是在达里奥离开百度之后的几年才离开百度的。达里奥在百度期间呢，算是有了一个初始的想法：scaling，就是规模法则，只要不断地扩大规模，就会得到意外之喜。他这个想法就是在百度产生的。在百度呢，参加开发了叫DeepSpeech 2的一个语言识别系统，这个系统呢是《麻省理工科技评论》评为2016年十大突破之一，所以他在百度还是做出贡献来的。

就有人很多人开始猜测了：“达里奥·阿莫戴伊在百度期间是不是受了什么心理创伤了？”“百度，你到底咋得罪这位老哥了，让他出来以后这么反华？”他一般情况下，一个人结束了学术生涯，进到公司里头以后，第一份工作应该会对他整个后面的生涯产生巨大影响。你怎么就培养了这么一个反华急先锋呢？

有人传说呢，是百度的变现和商业模式实在太恶心，刺痛了达里奥。也有人呢去传闻了，但这个就没有什么依据了，说达里奥是不是误信了百度的一些医疗小广告，然后对身体造成了一些不可逆的伤害。这个其实扯淡，因为达里奥从来就没有在中国工作过，你要想去信医疗小广告的话，你必须得在中国工作，他一直是在硅谷。所以呢，这个咱们当笑话听就完了。

百度和达里奥·阿莫戴伊呢，都没有在分手之后相互指责对方。但是呢，我相信达里奥在百度的日子一定混得没有那么开心。为什么这么讲？百度也肯定不喜欢达里奥，因为他的成果，也就是刚才咱们讲的叫DeepSpeech 2，这个得了奖的成果，并没有在百度内部产品化，也没有给百度赚到钱。百度自己后来强调自己在scailing law早期作出贡献的时候，也基本上没有提过达里奥的名字。你按道理说，有这么一位大神在你这儿上班，以后去了谷歌、去了OpenAI、创建了Anthropic，你应该与有荣焉一下才行。但“不，我们在这块我们也很厉害，这个人是谁不知道”，这百度基本上是这样的一个态度。

那么，Anthropic为什么反华？我们呢，从两个方面呢，稍微分析一下：一个呢就是意识形态方面，另外一个呢就是商业利益方面。

首先我们来看一下意识形态。咱们看一下达里奥的这个人生轨迹。他呢，前面都是上学和研究，他其实学生物学、物理学这些东西，他不是学CS的。但是呢，他加入百度以后，就开始进入到AI领域了。在百度待了一年左右吧，离开百度，加入了谷歌DeepMind，也就是说被谷歌挖走了。后来呢又离开了谷歌，加入了OpenAI。最后呢是离开了OpenAI，自己创立了Anthropic。

其实你们可以认为它是一个叫做“革命不彻底就是彻底不革命”的一个轨迹。怎么去理解这件事？就是你想，从百度到谷歌，变现上面呢要稍微地克制一些，百度那个变现基本上是不克制的，什么各种假药广告什么全上的这种东西。谷歌呢，还是自己要号称一下“不作恶”的，但是呢还是做了一些科技人才垄断方面的事情。OpenAI建立，其实就是为了反谷歌的这种AI霸权的。后来呢又因为跟OpenAI在安全领域，或者叫AI安全领域不合，说“我们应该做更安全的AI，而不是像OpenAI这样东西做出来就不负责任了”，所以他又从OpenAI出来去做了Anthropic。

所以呢，每一个前进的脚步都是道德要求越来越高的一个趋势。所以为什么我说他的整个人生经历，就是一个“革命不彻底就是彻底不革命”的人生经历。“百度你这不行，我找一个比你好点的，去谷歌了。”“谷歌发现你这也不行，那我们去创建OpenAI吧。”到了OpenAI以后发现：“你们这些人怎么又惦记赚钱去了？又没有好好地去为人类使命去奋斗了？”从OpenAI出来：“咱们再去创建Anthropic吧，这个才是最革命的！”这回终于我自己说了算了。

但是呢，你说这个里头有多反华，或者是对中国不友好呢？也没有那么多。真正搞意识形态的，其实并不是说达里奥·阿莫戴伊，而是他妹以及他妹夫，这两个人才是在这个里边起到关键作用的。

Anthropic里头的两个核心创始人是达里奥·阿莫戴伊和他的妹妹，叫丹妮拉·阿莫戴伊。他妹妹还受到他妹夫的影响，也就是叫做霍尔顿·卡诺夫斯基。这结婚了以后并没有改姓，也不是所有美国女性结婚了都要改姓的，特别是这些职业女性，他们结婚了以后不改姓是很正常的一个事情。

首先咱们来先讲一下达里奥的妹妹，丹妮拉·阿莫戴伊。她呢是个文科生，在美国学英文嘛，你就基本上认为是在中国学汉语这样的一个分类吧。毕业以后呢就开始参与政治，首先呢是在宾夕法尼亚州的国会竞选活动中去出力。在美国很多政治都是这样的，先参加到别人的这种竞选班子里头去，去做义工，在这个过程中呢，积攒人脉和经验。达里奥的妹妹就是从这儿起步的。成功以后呢，他就会跟着他选中的这个议员，或者帮助选中的这个议员呢，去华盛顿。她呢是短暂地担任了众议员Mate Catwright的通信主管，实际上也就是在下面帮他去收集民意、处理信件，做这样的一些事情。这个众议员呢应该是一位对华还相对比较温和的宾州民主党众议员。

做完这两件事情以后，就还是要去上班。因为如果他没有办法一直在政治圈里混下去的话，那就要找地儿去上班了。她去了哪呢？去了Stripe，就是很多人在海外做跨境支付的这个平台。她算是Stripe的早期员工。在Stripe期间呢，她主要负责跨境支付，与各种监管系统进行斗争。你想跨境支付嘛，你就需要跟不同国家的资金流动相关的监管系统去进行对接、博弈，要去做这样的事情。

从Stripe离开之后呢，就加入了OpenAI。加入OpenAI呢，是负责安全和政策相关的一个副总裁，还是老本行吧。她呢，深度参与了早期AI安全框架的搭建，负责平衡技术创新与风险防控的政策设计。“先进AI技术的发展必须内嵌安全基因，而非事后补救”，这就是她的一个核心观点。后来呢，OpenAI说：“我们现在继续走这条路的话不行了，我们一定要先去训练更好的AI，然后再去说怎么在后边做安全、做对齐，做这样的事情。”而丹妮拉的要求就是，我们要一开始就在里头设置安全基因。她呢2017年结婚，2021年呢离开了OpenAI。

她进入Anthropic以后呢，主要是负责安全框架设计、公共事务战略（也就是说跟政府打交道），什么都是他来管。前面去给这个政府写信，说咱们要继续加强对华控制，一般都是丹妮拉去写这个信呢，不会让达里奥去费这种劲，但是达里奥肯定会同意嘛。这个丹妮拉还会去做意识形态叙事相关的事情。这个事呢，在其他各大厂一般即使内部有，也不会对外宣诸，但是Anthropic这一块特立独行，它直接对外讲。

丹妮拉呢，将技术问题转化为价值观话题，在官方声明中屡次使用“民主利益”、“威权地区”等表述，构建了Anthropic技术服务于特定价值观的产品形象。

至于他妹夫，你想他妹的这些观点是哪来的？他妹的很多观点实际上是从他妹夫这来的。他妹夫呢，叫霍尔顿·卡诺夫斯基，这个呢是“有效利他基金会”的创始人，现在呢也是Anthropic技术团队成员，2025年加入的，主要负责安全相关事宜。

这个人的履历是什么样的呢？霍尔顿·卡诺夫斯基，他是哈佛的社会学学士，离开哈佛以后去了桥水基金，然后开始做慈善基金，后来呢创立了叫“有效利他基金会”。2017年到2023年，担任有效利他基金会的CEO和Co-CEO（Co-CEO就是还有另外一个CEO跟他一起合作，一起来做CEO的意思）。到2024年，霍尔顿呢去卡内基国际和平基金会做访问学者，主要研究AI安全策略。2025年加入了Anthropic。

咱们再稍微介绍一下有效利他基金会，以及有效利他基金会的一些基本宗旨，咱们也就看出来Anthropic这些宗旨是哪来的了。这个基金会的出资人叫达斯汀·莫斯科维茨，他呢是Facebook的一个联合创始人，他跟他太太两个人是主要出资人，而且签了协议说当我离世之后，我们的主要遗产都会给基金会，而不会把这些遗产留给子女。这个基金会呢募集了40亿美金，它呢主要是关注人类的长期未来，AI安全就是其中最重要的一个关注点。

核心理念呢，叫做减少“存在性风险”。什么是“存在性风险”？这也是一位著名的哲学家提出的一个理论，叫做“可能导致人类整体灭绝或永久性、不可逆地削弱人类长期发展潜力的风险”，这个东西呢叫“存在性风险”。他呢举了一些例子，比如说：全球核战争；失控的人工智能，中国的AI公司大多都被归类于这一类风险里头去了；大规模生物武器和流行病，他们对中国这方面呢也有指责，包括前面的疫情，这咱就不详细说了；然后气候变化造成的极端灾害性后果，中国是世界工厂嘛，人家肯定也会指责咱们；以及其他的全球性灾难性技术风险。

这个就是有效利他基金会的一个核心宗旨。所以呢我们可以看到，就是从意识形态上来说，霍尔顿，也就是CEO的妹夫，他呢做的这个有效利他基金会，就是Anthropic的所有的这些政策的一个最初始的出处，所有的理论知识都是从这儿来的。他的妹妹文科生，一直在研究AI安全；而CEO呢，受家人的影响，而且他的整个的人生履历也一直是“革命不彻底就是彻底不革命”的这样的一个路径。所以导致了他们在意识形态上非常非常反华。

再往后，咱们再讲一讲什么呢？就是Anthropic为什么反华，咱们在商业格局上再分析一下。你讲了半天意识形态，讲了半天政治，归根结底不都是钱吗？他在钱方面到底遇到了什么样的问题，一定要出来反华呢？

咱们这里就要看到，Claude这样的一个大模型，它的市场地位是什么。Claude跟其他的一些大模型不一样，它是最佳编程模型。就是办公或者是其他方面，可能OpenAI强一些，Gemini强一些，有些方面可能Grok的更强一些，但是编程这块它就是老大了。AI的所有能力上，它跟OpenAI、Grok跟xAI还是有巨大差距的。你比如说它在多模态上，这就相对来说比较差，虽然他审美还可以，你让他做界面设计还是OK的，但是他是没有这种绘画，或者是做视频、做音频，这些能力他是没有的。他主要就是进行文本和代码的一个处理。

全世界最主要的程序员和工程师团队是谁？是咱们华人，或者说是中国人。现在呢，网上一些不完全的统计，中国程序员大概占全球程序员的35%或者更多一些。因为呢，现在这种统计呢，没有办法特别完整，就很多国际上的统计是通过Stack Overflow或者是GitHub来统计的，而大量的中国程序员是不上这些网站的。所以按照这些口径去统计的话，中国程序员大概占35%，算上海外华人的话，这个比例大概是40%。所以全世界的程序员呢，大概将近小一半是中国人。在AI领域里头的话，这个数绝对过半了哈，你光写论文的这些人就可能超过一半了，在下头再写程序的这帮人，肯定中国人的占比是非常非常高的。

AI发展到现在，你前面比如说大家在卷模型、卷其他东西，但是现在呢，所有大厂包括中国公司都在卷AI编程这一块。刚才咱们讲了，Anthropic的核心竞争优势就是编程。但是现在说：“我们现在模型能力已经上来了，咱们就卷这一块了。”

OpenAI出了Codex，最近还专门收购了一个编程和产品优化的工具，11亿美金刚收的。谷歌呢是最近刚推出了Gemini Code Assist，也收购了Wizeline，也是专门的编程IDE的工具。xAI呢最近刚刚推出了Grok CodeFast，就是Grok的快速编程模型，这个模型现在效果也非常非常好，速度很快还挺便宜。

中国各大厂，字节跳动最早上来做了叫Trae这样的一个AI IDE；阿里呢前面做了通义灵码，最近呢还专门发布了叫Qwen-Coder吧，这样的一个AI IDE；腾讯呢做的叫CODE BUDDY的一个IDE。大家都在卷这一块。

从模型角度上来说呢，月之暗面出了叫Kimi K2；千问呢直接出了叫千问-coder；Deepseek也是说我们做Deepseek V3.1；智谱呢做了GLM 4.5，都是直接对标Claude大模型的，说我们跟Claude code大模型已经能力差不多了。

而且呢，他们做了一个特别过分的事情是什么呢？就是直接去对接Claude Code这样的一个产品去了。大家注意，Claude大模型是大模型，Claude Code是一个单独的产品，是一个编程用的AI agent。本来呢，里头应该是用Claude自己家的模型去使用，但是呢这帮中国的模型厂商不讲武德，把自己的API接口仿真成了Anthropic的API接口，说：“来，你就调我吧！你调各种的Claude大模型，我就去仿真去，我去做一个假的Claude模型来替你服务。”他美国大厂一般是不干这个事的，这个事是会被告的，但是中国这些厂就开始搞这件事了，效果奇好。

因为Claude Code这个产品本身呢，虽然它并不开源，但是呢在GitHub上直接提供，大家都可以去下载。大家调用Claude模型贵，而且呢也容易被封号，那干脆咱们就调国内的吧。我自己呢就是用Kimi K2的，速度飞快，而且价格大概只是Claude的1/10甚至更低一些，效果还是很好的。

这个呢，有点像一场什么呢？叫“轰轰烈烈的对口型大赛”。大家知道什么叫对口型大赛吗？就上面这人在唱歌，或者人家已经唱好了《我的太阳》，帕瓦罗蒂唱的，这种一般人你唱不上去，但是我又想表演一下怎么办呢？这边放着音频，我在旁边对口型表演一下。所以国内这帮模型厂商都搞了这么一个档子事。

这个呢，绝对是动了Anthropic的命根子，真的是直接杀掉的感觉。如果在AI编程领域，Anthropic被大厂覆盖了，或者说被大厂竞争得直接失败了，其他领域的话，Anthropic基本上是无法立足的。为什么呢？因为它没有流量入口。所有大厂，甭管是xAI、谷歌、OpenAI、微软，包括国内的这些大厂，都是天然有流量入口的。而Anthropic，你编程这一块如果搞不定的话，其他地方你就需要去跟大厂们去抢流量入口，你需要到大厂去交钱、去买流量去，这个事他是玩不转的。

所以呢，Anthropic在这样的一个环境下针对中国厂商就合理了。他的两大核心产品都很危险。两大核心产品，一个是Claude大模型，另外一个呢叫Claude Code这样的一个专门用于编程的AI agent的产品。Claude Code直接被截胡了，因为这个产品是可以免费下载的。他原来想的是，你下载了这个东西就要使我的模型，你就需要向我交钱，甭管是买Token也好，还是买我的Max账号——Max账号是一个月200美金的那种账号——我都可以把这个收入提上去，我们还可以绑定你的开发管线，让你直接在我这一直使下去，迁移成本不断上升，不能离开我。但是现在呢，我们下载了Claude Code这样的一个工具之后，就直接模仿了Anthropic的API接口，把Deepseek、Kimi K2、把这些东西全接上了。

而且呢，我们另外一面还在拿Claude的大模型在不断地蒸馏，蒸馏它的数据回来去训练我们自己的模型。所以在这块Anthropic觉得：“我们可能要被中国厂商欺负死了，所以一定要针对他一下。”所以这就是他从意识形态和商业形态上两个方面来去解释他为什么反华。

那么，这个事情未来的发展和影响是什么样的呢？Anthropic从估值上呢，绝对算是大厂，它现在也1000亿美金往上了。但是从产品形态上呢，还是相对来说比较小而美的。从互联网、移动互联网行业的发展历史来看，像Anthropic这样的公司，最终的结果只有两种：要么被收购，要么被干掉。因为什么呢？就是它不太具备独立成为完整平台的能力。你要想成为完整平台的话，你就要“和光同尘”一点。你像谷歌、苹果、Facebook、微软这些平台型公司，他会上来说“我要讲意识形态”？他不会搞的。他就是说：“我们尊重各国法律。你要罚我，我就上来上诉；上诉失败，我就老老实实交钱。我要尽量把生意做下去。”这才是成为平台公司的一个基本素养。一上来就说“我要高喊意识形态”，这种是很难往前走的。

而且呢，你想成为平台，有一个很重要的因素是不可或缺的，是什么？就是中国开发者。刚才我也讲了，中国开发者占全世界开发者的，可能算上华人吧，40%往上。各大开放平台里头，排名靠前的这些开发者，大部分都是中国人。当你一旦是限制中国开发者在里边去做事情的时候，就基本上断绝了Anthropic自己成为一个大型平台公司的这个后路，这事就搞不定了。还不像是YouTube这样的内容平台，内容平台你可以离开中国的内容创作者，这个是没问题的，有的是印度创作者或者其他创作者在这干活。但是编程平台你离开中国人，这事就绝对玩不转。

好，这个故事呢，就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

停止错误尝试！Midjourney Video“见光死”的根源被揭开，它并非Sora的竞品，而是顶级的动图神器，我们将一步步教你如何用它称霸小红书。

Luke Fan — Mon, 30 Jun 2025 00:40:06 +0000

大家期待已久的Midjourney video，为什么在发布之后很快就没有声音了？今天咱们来讲一讲。

大家好，欢迎收听老范讲故事的YouTube频道。我个人呢，也是下了很大的决心才录了今天这条节目，因为Midjourney video真的是万众瞩目。因为他作图做得非常非常好，在美学上、在各种细节上、在氛围渲染上，到目前为止，所有的图像生成模型里头，Midjourney是最好的。前面他说我要去做视频的时候，一大帮人就在等，很多人都非常期待。产品发布了，突然就没声音了，见光死。这个是什么样的一个情况？

首先呢，跟大家一个结论，就是Midjourney video做出来的视频非常惊艳、非常炫酷、非常美。但是这个产品做出来的视频放在哪都不太合适，这个东西做出来没什么用处。可能呢，是大家没有正确的找到Midjourney video产出的视频的用途。我今天之所以敢跟大家录这个视频，是我觉得我好像找到这种视频的一个使用方法了。

今天呢，讲几个部分：先做一个Midjourney video的简单介绍；为什么没有形成传播，这个我们要稍微分析一下；Midjourney video到底能拿来干嘛；以及我们要去实现Midjourney video的最终使用，可能还要稍微写点小程序。顺手呢，把最近很热的另外一个工具也给大家介绍了，这个叫Gemini Client（CRI吧，因为要用它编程嘛）。咱们用这个Gemini CLI编完成序以后，把生成的视频最后处理成大家可以用的样子。

首先，Midjourney video的一个简单介绍，演示一下吧，这个是必然的。这就是Midjourney video的网站，上面是Midjourney.com。我们现在是到这个explore，就是我们去浏览一下。浏览的时候呢，这儿有这个图片，他觉得画得比较好的图，以及video都是允许我们去浏览的。这都是别人画的，我们可以看一下这个东西：猪戴着项链在这走秀，有人在水底下骑车，玩偶在这吃冰激凌，还是这种绿色的玩偶穿着毛衣。你看这个细节，这脸上这些线，各种的风格都可以动起来。这个是3D风的，然后这是真人风的，骨头的x光片呀，这个都可以动，没有什么东西是不可以动的。

Labubu感觉还可以，你看这个国旗的质感，做得还是非常非常漂亮的。这个是Labubu，后边是金字塔，看来Labubu确实是很火了。

不知道使用Labubu形象算不算侵权。要注意一点什么呢？就是在Midjourney生成video的过程中，对于版权对于形象的控制是要更严格的。这种完全是虚拟的点，做出来的这个动画也是非常漂亮的。像这个就完全是水彩风的，你看有小树叶飘下来，这就是他现在的Midjourney video。

那么我们怎么去用这个玩意呢？我们只能通过Midjourney画的图去生成。而且我们知道Midjourney，你是可以在这create，直接在网页上去创建。你可以把提示词写在这儿：“给我画一个什么什么画，画横的宽的扁的，哪个版本的。”在这儿直接画，或者是在我们DISCORD里头画。但是呢，你要想生成视频，必须在这网站上，Midjourney.com这个网站上。

过程是这样的：先找到原来我们画好的，这是我以前画好的图。你点中其中一幅图以后拿这个图去画。你说我直接写一个文字，你给我生成行不行？不行，必须是用Midjourney的图生成。你说我上传一幅图生成视频行不行？也不行。所以就是用图来生成就好了。刚才让他给我画一个地下城的，还是挺有感觉的吧。

右下角有一个叫auto，就自动的，就是相当于是自动的给你变成视频。有一个是low motion，就是比较小的动作；一个是high motion，就是带有很高的这种动态。手动呢，就是你可以再去写一个提示词给他，说你到底是怎么个动法，还是分高低两种。就是你看你有一个提示词：“创建一个视频，开始从一个图像和一个提示词来描述这个动作。”我们就是自动的吧，做一个low，做一个high，看看它在干什么。

我们点击到这个create，它就开始干活了。已经做到30%了，上面那个在排队。我呢是每个月交10美金的账号，因为前面没有找到用这玩意干嘛使，所以呢，目前为止还够用。生成4个小视频，大概也就是一分多钟左右。底下是在这写着呢：motion low；上面那个是motion high。咱们可以比较一下。84%了，然后再等一等，92。上面那个还在排队。

好，做出来了。让我们放大一点。你看他首先呢做了一个镜头的推镜。你看下面的人呢，就在这上面开始走动起来了。这个桥上面的人物呢也在发生变化。所有的细节，你看包括这后面的山，这个细节的透视关系。因为随着镜头的改变，透视关系都是正确的。这是第一个。然后第二个，虽然还是在轻轻的往前摇，但是呢侧面这些人，他走动的就会有一些小的差异。

这边呢，推进的方式不一样。他这个镜头除了往前推之外呢，还在向上升。基本上都是在推进，但是呢是做了四组不同的推进。在推进的过程中，下边这个人物呢，会发生一点点小的变化。

每一个视频下头呢还有两个按钮，一个叫“扩展自动”，一个叫“扩展手动”。比如说我现在打开了首帧提示词，你可以在在在这个基础上再去扩展。现在是5秒，再扩展呢就是10秒，它大概最高是可以扩到20秒。我们今天就不再扩展了。然后呢，我们就可以下载这个图片视频。

好，让我们来看看上面这个高动态范围的做成什么样了。这个高动态范围，它动的要比刚才那快，直接就从底下推进，直接推到这个上面来了。低动态范围呢，就是它这个推进推的是很慢的。高动态范围这个明显感觉有差异了吧？

这个镜头推的这个方向，就又不一样了。他是像穿越机似的从底下去推过去。刚才第一个视频是直接推到这个桥上面去了。这个呢基本上是推了一条直线，下面人也在慢慢的走动。这个应该也是没有往上抬这个镜头，还是在这个桥底下，让这个镜头再往前走。高动态范围跟低动态范围，大概就是这样的一个差距。

我觉得这张是做的比较漂亮的。我这有一张，是当时说你给我画一个川普带一堆CEO出差的，他就给我画了一个图片。画图的时候没有提示任何错误，他就给我画出来了。我说来给我生成这个视频，直接报错了。因为呢生成视频的时候，它使用的规则要更严格一些。生成图片没问题，但是生成视频他会告诉你说裸露，或者是其他不允许的东西，都都给你去掉了。

我再给大家找一些照片来去生成。这个是拿我自己照片生成的这个图片，说我要去拎着包去旅行，干活去了。上次反正是报错了，因为你拿真人做的好多也会报错，不一定每一次能不能干活这个事。比如说迪士尼这种侵犯版权的这些东西，你画图它给你画出来，但是你说你现在给我把它生成视频，它就给你扔出来，说我不给你生成视频。

这是用的星球大战的风暴兵。我说你给我去生成视频，反正我是被拒绝过很多次。看看这一次星球大战的这个风暴兵，能不能给我们做出来。你看我就从明信片里就走出来了，也挺好玩的吧。这次也可以了，当时刚画出来的时候，他是不给我去做的。也许有川普的这个，过一段时间没准也可以愿意给我画了。反正他这个政策执行的比较奇怪，我这个都是被拒绝过的，这一次看来他就干活了。

你看他这个风暴兵在食堂里头吃饭，围在这找东西吃呢。你看这个手什么都在动。下一件事我们要下载，比如说这张。好，把它下载下来。这张也很漂亮。

下载下来。在这个右上角上，有点击下载的这个按钮，点一下它就下下来了。下的都是MP4文件。然后我们再把原来这个图下下来，把这个图下下来。待会我们要做动图嘛，动图就是要有一个起始图，要有一个这个视频。

好，我们的蜗牛也画完了。看看这个蜗牛，先推了个镜，里头各种的零部件就开始转起来了，还是挺有感觉的吧。这就是我们展示的Midjourney的video。演示结束，大家看到了这个东西，操控起来其实并没有那么容易。

第二个呢，就是生成的过程绝对简单，很多是傻瓜式的。那你拿来以后说，这个甭管是低运动的还是高运动的，你只要点，它就直接给你生成了。第三个呢，这东西不贵，生成一副图片的价格，其实大家还是可以接受的。至少到我目前为止并没有觉得说充值不够使的一个情况。你如果不想去买更贵的套餐，我们专门给大家了一些让你去充这个算力，充这个他们叫GPU时间的一个套餐进来，所以基本上还算比较便宜。

生成的结果大家也看了，绝对惊艳。只是呢，现在有一个很大的问题，就是比较难拼起来。生成了一堆视频，你说最后我怎么把它拼成一个完整的故事，这个事呢稍微有点难度。最后就是没有声音，它是没有配音没有音乐，生成出来的就是完全没有声音的一个视频文件MP4的文件。

那么为什么没有形成传播呢？为什么这样惊艳的一个产品见光死呢？这个是咱们真正需要分析的。就是他这个产品实在太难操控了，虽然你做出来的东西很漂亮，但是你说我要想做一个特别完整的电影，讲一个完整的故事的话，这个实在是非常非常困难。因为Midjourney本身绘画它的特点是什么？细节极其丰富。在你这么多丰富细节的情况下，我想把它做成视频，让它保持所有的细节的一致性的话，这是绝对地狱难度的。

控制呢，就真的不是那么好控制的。大量不一致的视频片段，你要想把它分成镜头的话，拼成完整故事基本上不可能。其实很多人讲说5秒钟一个小片段，它生成就是5秒吧，你可以往后延5秒，延5秒这样生成。你说5秒钟片段本身这么惊艳的片段，为什么没有人有动力把它们拼成一个故事呢？

像前头皮卡呀，sora呀，谷歌的VOE3、可灵和吉梦，大家都去拼。为什么Midjourney就没有人去拼这个东西呢？大家想一想，我们看到的电影是什么样的？电影的真正的玩法是3秒钟、5秒钟甚至更短的时间就是一个镜头。但是呢这个镜头是通过意识进行拼接的。比如说吧，一个人现在想起床了，先拍一个全景。

现在他是躺在床上了。然后呢，要拍一个特写，拍在脸上。他现在开始有苏醒的感觉了，可能再拍几个特写。你的手要从被子里拿出来，要翻个身，胳膊开始使劲了，上身支起来了。然后再拍一个中景，你坐起来了。然后再拍一个全景，脚放地上了，包括整个房间，整个人都要在里头。这个时候呢，要再切一个窗口的远景。我现在抬眼了，我要看一看窗外的风景，等于又是一个镜头。然后这个人开始去找拖鞋，可能要这个特写，脚要在地上找到拖鞋。然后周围这种暖色调氛围渲染好，再通过一个什么样的视角，慢慢的走到窗边去。还要打一个哈欠，伸一个懒腰，再一个特写，伸手去开窗户看一看外边。比如说有这个小鸟在外边叽叽喳喳叫，再去拍一个这个小鸟的特写。咱们啰里八嗦说半天，可能也就是一两分钟。这是一个电影的玩法。

甭管是用其他的这些模型，还是用Midjourney，你要想控制成这样的一个视频去拍出来太难了。比如说吧，我们现在可以说先画一个画，说这个人躺床上了，坐起来。你让这个Midjourney给他下一个命令，但是你说我现在想改一特写，那你就很难再去维持一致性了。你说我现在在什么地方，再要翻个身，再掀个被子，再找个拖鞋，这就比较难了。你说我再单独画一个小鸟，单独展示一个5秒钟，这个也是相对来说比较容易的。但是当多个镜头从不同的角度、不同的距离显示同一个场景的时候，你要想保持这个一致性，基本上不可能。其他的这些模型呢，虽然也很费劲，还是有可能，但Midjourney基本上是没法控制的。

为什么？因为Midjourney的本身的图像里头，我觉得画的图片里头细节实在太多了。你没法在不同的视角、不同的距离，一会是中景，一会是远景，一会是全景，还能保证所有的细节都一致。所以导致大家说，拿到Midjourney这么一个惊艳的视频产品了以后，都没有去真正的传播起来，基本上算见光死了这样的一个产品。

那么真正能够实现刚才我们讲的拍起床过程的这个视频模型，会是什么样的呢？现在这些视频模型应该都达不到，可能还要等李飞飞做的这个世界模型出来。但是不嫌麻烦的，像原来抖音上有一个视频博主叫张同学，他就一个人一部手机，他自己写好脚本以后，自己按照这个脚本，一点点把它都拍出来。但是正常的就是，真的是一堆的摄像头，你身边的所有摄像头都支好了，一次把动作做完，再通过不同的角度去拼。你有了世界模型以后，你才可以干这个事。

那么我们通过Midjourney video到底得到的是什么？为什么？我前面讲说我们的用法错了。我们想拿Midjourney video做出来的视频片段拼出大的故事片来，拼出完整故事来，这事就错了。那它到底给我们的是什么？

其实Midjourney video给出来的并不是一个视频，而是一个动图，就像类似于GIF或者是iPhone出来的这叫live photo。它呢，并不是一个完整的视频，而是一个会动的图片。它依然还是在画图，Midjourney画图画得最好，画动图依然画得最好，不接受反驳。就是这样的一个东西。

那么好了，我们现在有Midjourney video了，怎么把它变成动图？变成live video？GIF虽然是可以动的，但是这个技术实在太旧了，不建议大家去玩。因为你比如说用同样的分辨率、同样的帧率，MP4的这个文件大概只有个六七兆或者是十兆，也就这种水平。live photo的大小可能跟它差不多，但是GIF的话，同样的分辨率和帧率的话，100多兆了，所以不建议大家玩。

那我们就想办法把它改成live photo吧。就是我们现在有了一个起始的图片，有了一个用这张图片生成的MP4的一个5秒钟的视频，再长了也没用了，因为live photo本身是不支持更长的视频的。就是5秒钟的，挺好的。我们就拿这个live photo再出去分享，因为现在小红书、微信、Twitter什么的都是支持live photo分享的。live photo分享出来以后呢，整个的点击率、播放率，或者说叫做情感传递的这个能力还是很强的，要比大家上一个视频这个效果还好点。所以咱们干脆就转live photo。

后边给大家看一个例子，就是如何用Gemini Client CRI这个产品把Midjourney video转成live photo。下面大家看演示。下面我们要来写程序，把我们的Midjourney video生成的视频以及下载的图片一起生成live video。这个live video就是一个片头一个视频，两个东西给你拼一块就完事了。

一共呢，需要两样东西。第一个东西呢，程序肯定咱不能自己写嘛，所以呢，需要一个叫Gemini CLI的东西。这两天谷歌最新发布的官方的Gemini工具，它是个命令行工具，待会我们去跑一跑试试。另外一个呢。

是 makelive，GitHub 上的一个开源项目。install makelive 就可以装上去。装的过程，如果你遇到了什么困难的话，请在 GPT 里头解决，我也是这么干的。

Gemini 的安装呢，要稍微的麻烦一点。如果你本机没有 nodejs，你是装不上的。所以呢，你可能还需要到网站上去搜一个 nodejs 的安装包，安到本地来，然后才可以正常的去工作。这个装我其实已经装完了，就不跟大家重新演示这个装的过程了。

我们现在呢到了一个命令行窗口。命令行窗口里头，我们也进入到了一个新的目录，这里头是空的。如果你要装 Gemini client，先去做这样的一个动作：NODE -v，要空格。NODE -v 之后，如果你后边出来的不是一个数字，不是一个 20 以上的数字，而是一堆的错误的话，就到网上去找个新的把它装上。然后是 npm -v，如果这后边不是数字，你或者报错了，你就在网上再去找一找怎么解决方法。这个解决的过程我就不跟大家去详细介绍了。

然后执行命令，因为我装过了，我就不再执行了。就是把这个命令执行以后，如果报错了，到网上去找方法怎么解决；如果没报错，我们就可以正常开始工作了。Gemini n 回车，你看跟这个很像吧，就直接跑起来了。跑的过程呢首先要注意，是这样写个斜线。你呢可以写 help 写个帮助，他会告诉你说，如何去做事情，有哪些命令可以用。所有命令行都是这么干活的。谷歌这帮人呢，就是一帮直男工程师，他们就把这东西写成命令行了。

最后看怎么退出：quit/，quit 是退出。这个很重要，就是你实在不会使，你还能退得出去才行。首先是要求你登录，因为你想 Gemini 进来以后，你只要用嘛，他就必须要有地儿给你出 TOKEN。那你不登录的话，知道出谁的 TOKEN？虽然谷歌说我免费给大家一大堆 TOKEN，免费给大家一大堆的调用次数，但是呢，你还是要有 TOKEN 出来。

三种方式：一个是 login，直接用谷歌账号登录，你登录你的 Gmail 邮箱账号就可以了；第二个呢是在 AI studio.Google.com 里面是申请 Gmail API key，这个也是可以的；或者是用谷歌云的 AI 登录都可以。但是注意，最好不要用 Workspace 邮箱登录。什么意思？我有的时候是用自己的域名绑定的谷歌，这个也可以登录，但是相对来说要麻烦一点。你如果是 Gmail 直接结尾的这个邮箱去登录的话，是比较容易的。

所以，建议大家用这个方式去登录。登录完了以后，你就可以去干活了。

北京天气怎么样？因为里头有MCP，它可以搜索，可以做很多的本地动作，所以它就可以去搜索北京天气了。阴转雷阵雨，多少度？大概就是这样的一个情况。

好，我们就开始向它提要求吧。首先，我们要写一个提示词给它：“给我生成一个可以执行的Ruby文件吧。”输入一个TNG文件，一个MP4文件。先将PNG文件转换成JPG，因为转live photo是必须要JPG的文件。但是，我们从Midjourney下载的这个图片都是PNG的，所以要先转换一次。然后再将JPG和MP4合成成PVT iPhone的live photo文件。

转换live photo make live的这个网址，扔给他说：“你照这样给我读，读完了以后就给我转去。”他就去干活去了。允许吗？咱们就都允许呗。他现在要开始往我们的这个里边去写代码了。

你看，我写了这样的一个代码出来。好，让我们去看一下这个代码吧。它是使用的Mini Magic做的第一轮转换：-J，-V，-O。这一看就是错的，因为它的这个输入的参数是不对的。但是写程序嘛，它写错也是很正常的，待会我们来再去改吧。

我让我们来看一下，这个makelive是怎么调用的。makelive -m.a.JPG a.MP4 -p后会生成a.PVT。修改调用方法，分析一下命令行参数，然后重新构造命令行，去干活去了。如果不是谷歌给的免费的额度，我感觉这一会好多钱就出去了。写程序是非常非常费TOKEN的。

它已经生成好了。下一件事的话，我们就要用这个东西了。用之前，先把刚才咱们下载的一大堆的文件给它拷下来。这个里头就是有MP4、PNG一一对应的。我们来执行一下试试：live photo1.PNG 1.MP4。这个还不行，应该是chmod加x。

我们现在得到了一个1.pvt的文件。我们再来一次：photo create 2.png 2.mp4。你看，这个2.PVT也有了。让我们来看看这个PVT文件能不能使。

代码，大家刚才看了一个字我都没敲，只是提了些要求。当然，我在中间还是看了一些这个代码的，我提了一些问题。你说我这个没有能力自己搞定？建议大家还是稍微看一点文档。这个不需要大家的编程能力，但是你稍微看一下文档，做一点点阅读理解的能力还是需要的。

我们来看一下，这是我们的目录。这是刚才我们写的这个Ruby文件。一是我们的大蜗牛，这是图片。

这是我们的MP4的视频，那这下头有一个小字叫“实况”。这是一个PVT照片了。然后，2这个是视频，这是图片。减肥成功的老范拎着箱子出去玩去了。然后PVT，这就是我们已经做好了。做好了以后，这个文件怎么办呢？如果你使用iPhone的话，把这俩文件呀复制到iCloud目录里。然后呢，拿出我们的iPhone，在这个iCloud里，你就可以找到这两个PVT文件。点中文件以后呢，说“保存到图片”，它就给你保存到相册里去了。我们再用小红书，再用微信，就可以分享这些PVT的动图了。这个就是形成了一个完整的闭环。

好，演示结束。总结一下，Midjourney video呢，绝对是一个惊艳的产品。之所以见光死，是因为大家没有找到正确的使用方法。今天呢，跟大家介绍它正确的使用方法。Midjourney video给大家生成的从来不是视频，而是动图。我们把Midjourney video生成的MP4重新转换成live photo，然后把它分享到小红书，分享到各种支持live photo的平台上去，效果是很好的。大疆的手机软件就支持。我们把大疆上拍摄的各种视频都转live photo，这个还是帮大疆提升了很大一波的销售的。大家买了大疆设备以后，拍了一堆live photo，然后四处跑到小红书，跑到微信里边去分享，还是玩的很开心的一个事情。现在我们有Midjourney了，也可以很开心的玩耍起来。

好，这个故事呢，就跟大家讲到这里。最后请大家一起去做一些有意思的动图，把我们的情感，把我们的情绪传递出去。大家一起来玩耍。好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

GPT-3与O4 mini不再高冷：融合工具调用、记忆与超强图像推理，普通人也能高效应用AI，一文看懂成本、限制与Copilot捷径

Luke Fan — Fri, 18 Apr 2025 00:50:27 +0000

GPT-3和O4 mini发布了，这次绝不再仅仅是科学家们的玩具了。大家好，欢迎收听老范讲故事的YouTube频道。

本来GPT-3和O4 mini发布呢，我并没有抱太大的期望。为什么呢？因为前面O1和O3 mini发布的时候呢，看得我头晕眼花的。我记得应该是在去年12天连续发布会的时候发布的O3 mini，实在是太不明觉厉了。各种的复杂科学问题，咔咔就给解决了，然后各种的排名都排得很高。但是呢，我自己其实并不怎么用。

为什么呢？第一个，ChatGPT Plus用户里边呢，它是有用量限制的，并不是随便让你用的。所以在有用量限制的情况下，你就得省着用，而且你也感觉不出有太大差异来。你说你用它干嘛？据说编程很强，但是它没法跟IDE结合，基本上也就放弃了。你是可以出一大堆的代码，但是你还得向IDE里边去考来考去的，很麻烦。那你说我通过API调用吧，直接使用O1和O3 mini这些模型，实在是贵，所以就放弃了。

这一次呢，真的就不一样了。首先是Greg重新上线了。Greg其实好长时间不怎么出来了，他是在2023年11月份山姆·奥特曼宫变之后，就变得非常低调。2023年11月开始休假，后来是在微软的强烈要求下才回归的。到2024年又开始了长期休假，但是在大量高管离职之后，年底再次回归，还宣布：“我提前俩月回来了，我本来还想再多歇一歇的。”现在呢，主要负责机器人业务，不再担任董事会主席了，保留了总裁的职位。

Greg上来开始显得有一些紧张，不知道该说什么。大家可以去看看那25分钟的发布会录像，后面逐渐放松了，也是长时间不露面、不说话的一个表现吧。这一次的话，全程C位，坐在最中间的位置上，主持O3和O4 mini的发布会，可见重视程度了。

这一次的发布会呢，基本上是二对二的分配，就是两个老板配上两个做事情的。两个老板始终坐着不动，做事情的人呢，就是讲到不同的部分，然后来换。还有一个老板呢，叫Mark陈，首席研究官，亚洲脸，但不确定是不是华人。有传闻其父母是从台湾去的美国。现在呢，有一种ABC脸，看起来有点像华人，但是脸型又不像。这个据说呢，是长期英文发音和美式的饮食习惯，以及美国教育所形成的一种脸型，反正跟华人还是有一定区别的。有可能是个华人，当然也有可能是个越南人，这个不确定。

另外两个呢，是根据演示的过程不同，不停地换工程师。国内引用的照片呢，肯定是有偏向性的。国内各媒体呢……

通常引用的是讲到模型强化训练和各种跑分的这两位工程师。为什么呢？因为里头有一个叫周文达的，是一位华人。国内各个媒体引用照片的时候，一般会引用含华量比较高的照片。

一开始呢，也是讲科学，什么量子力学。本来我也挺失望的。科学的部分呢，对于我这种普通人来说，已经没有那么大关系了——看不懂，没需求，也用不起。所以一看，还是这东西，好像没什么意思。

但是讲到后边呢，越来越兴奋了。咱们讲几个好玩的特性，并不跟大家完整的去复述这个发布会了。有兴趣可以去看这个25分钟的发布会，各种数值绝对是遥遥领先。

OpenAI呢，作为行业老大，他是有自觉的。什么叫自觉？从来不跟别人比数值，只跟自己比。就是他不会说我把Gemini 2.5拎出来比一比，Claude 3.7拎出来比一比，或者跟DeepSeek比一比。别人都是说我比OpenAI强在哪，或者我已经接近OpenAI了。OpenAI永远说我就跟自己比。

所以我们现在可以看到的所有的数值比较，都是跟GPT O1、O1 mini、O3 mini跟这些模型进行比较的，没有跟其他模型比较的数据。

咱们来讲三个有趣的功能点吧。

第一个非常有趣的功能点，也是让我觉得GPT O3和O4mini真的能用了的一个最核心的点，就是它可以进行工具调用了。什么意思？我们正常情况下一个大模型，你让他去给你生成内容的时候，他其实都是在胡说八道的。就算他有的时候说的很像，但他依然是在胡说八道，是在编。他不能保证内容是可验证的，而且你每一次让他说同样的事情，他都给你编出不同的花样来。

那么一定要带上搜索，带上知识库，带上其他的辅助工具，他才可以靠谱的干活。现在推理模型已经可以靠谱的干活了。所以O3跟O4mini是可以进行工具调用的。但是他们绝对不是第一个。在发布会上他们讲说，我们是第一个在推理里边进行工具调用的，这个真的不是。GROK3也是推理模型，也是可以做各种工具调用的。

只是呢，GPT O3跟O4 mini呢，据说在工具调用上要有极大的提升，因为他们在这块专门做了训练。他可以进行几十次的这种工具调用。当你让他去做一个很复杂的事情的时候，他会反复的在他认为需要的时候去调用工具，获得外部数据，或者做一些相应的操作。这个很棒。

O3跟O4mini呢，是在推理的过程中去调用工具，效果绝对是碾压原来不能使用工具的O1，效果好的一塌糊涂。推理模型如果不挂搜索引擎……

不挂知识库，基本上就是胡说八道。他要比正常的生成模型还要再胡说八道一些，因为他想的多，越想就越错。知识越多越反动，这个幻觉是非常非常严重的。挂上搜索之后，基本上不再需要 deep research 这种东西了。现在你用 O3 去挂搜索，跟 deep research 的效果基本上是可以平齐的。

现在呢，OpenAI 内部有很多的工具，包括 Python 执行、调用浏览器、搜索，有很多这样的工具，它都可以自动的去调用。当有这些功能之后，每一个普通人，不需要是科学家，也可以用 O3 跟 O4mini 完成很多任务了。只是目前呢，OpenAI 内部的这些工具，你通过外部你使不了。还有 function call 这个调用呢，现在在代理站上还没有接上，这个还要再等一等。什么意思？就是你直接挂 OpenAI 的 API，挂它原厂的，是可以进行 function call 的，可以把你自己的各种各样的工具放在里边让它去调用。原来我们演示过使用高德地图的工具，让他去找饭馆、规划路线什么的，这个都是可以去使用了。如果我们使用 API 来调用 O3 和 O4mini 的话，OpenAI 内部的什么搜索呀，这些工具我们是无法使用的，就差在这了。这是一个比较有趣的点，但是具体怎么用，待会我们来举一个案例。

第二个有趣的点是什么呢？就是跟记忆相结合了。原来我们专门录了一期视频来讲 OpenAI 有了记忆功能，现在它也有记忆功能。于是我就向它提出了要求，我说：“根据你对我的了解，我是个 Youtuber，给我推荐一些适合我的 YouTube 话题，我要去写稿去了。”然后他就开始去搜索，调用搜索工具去搜索去了。搜索完了以后说：“我发现你是专门讲 AI、讲科技、讲流量、讲创投的博主，我发现有哪些哪些话题最近是最新的，适合你去讲。”其中有一个话题呢，叫 TikTok 降低了海外直播带货门槛。原来呢是要 1,000 个粉丝才可以带货，现在 200 粉丝就可以带货了，说这个你看怎么样？我说这个不错。我说：“你根据你对我的了解，给我去写个提纲吧。”然后他就按照我的习惯，给我夸夸把提纲列好了，说 TikTok 是哪天哪天发了一个什么样的文儿，为什么什么东西，写的还很好的一个提纲。在这个过程中引用了我的记忆，调用了搜索，聚集了大量的信息。我再说：“那你再给我补充点数据和观点吧。”一般我是会有一个自己的观点，我说：“我的观点是什么什么，你给我补充进去。”然后呢，我为了论证我的观点。

我还需要哪些数据？然后，夸夸夸又去搜索，搜索完了给我补充进来。做了两次补充以后，这个提纲基本上就完成了，就完完全全可以用了。过几天咱们去讲这个“TikTok降低海外直播带货门槛”这个故事吧，这个还是很有趣的一个点。所以现在真的是每个人都能用上了。

第三个比较好玩的点是什么呢？就是图片推理。这个图片推理是非常非常强的一个点，绝对不是识别图片，然后将文字作为提示词去推理。我们很多人一看图片推理这件事，都是想的说，我们把这个图片识别一下，变成一大堆文字。不是这样。

跟大家举一个案例吧。我今天去潭柘寺了，玩我的无人机。拿我的无人机呢，在潭柘寺的外面，拍了一张俯瞰潭柘寺的全景照片。我就问O3，我说这是哪？这个建筑群的布局是什么样的呀？这个提示词就这样的。问完了以后呢，这个O3就去干活去了。他把这个图片先整个的分析一下，然后呢，放大每一块切割，说这一小块是什么，那一小块什么，把它切成一块一块的。然后对每一块进行识别，而且在切完了以后，还对每一块去调整方向，说这块好像你拍歪了，改一个方向，可能更能认出是什么来。通过这样的一个方式去推理，看那个推理过程，惊讶的我目瞪口呆，我告诉你。

最后告诉我说什么？从这张航拍来看，这是一张典型的依山就势、三层台地式布局的北方佛寺，很像北京西山脚下的潭柘寺。我没有告诉O3这是航拍照片，他就全都认出来了，好聪明。但是注意不要被骗了，照片里面是有Meta data的，就是有一些基础信息的。这个信息包括什么？拍摄时间、分辨率、色彩、空间、光圈、快门、白平衡，都在里头。还有拍摄设备那个里头，写着你是用大疆的什么设备拍的，大疆air 3S。然后呢，这个照片里还写着经纬度，因为大疆的无人机里头是有GPS的，它拍完照片是会把经纬度直接写在照片里的。完完全全可以通过这些Meta data就编出来的。

所以呢，这个到底是真聪明还是假聪明？还是说我把经纬度拎出来，把这个拍摄设备拎出来，就直接搜索一下，就给你出结果了？这个我们要往下看。他呢还给我接着讲，说这个图片是中轴对称的三进院。第一进呢叫山门到天王殿，第二进呢是天王殿到大雄宝殿，第三进呢是大雄宝殿到法华殿和藏经阁。中轴线两侧各有回廊和配殿，比如观音殿、药师殿、僧房、斋堂，左右分布对称，也有现代化的客房和管理用房。

再往后还写了一个特别有趣的东西：底层的停车场与服务中心，通过台阶与甬道与寺内各层相连。右侧的通讯塔，现代建筑。

为后期补建的配套设施，这是不是根据潭柘寺的信息搜索出来的呢？这就是我们要去问的。他到底是真聪明还是假聪明？

潭柘寺最后的一进大殿不叫藏经阁，而是叫毗卢殿。应该是五方佛中间一个，然后后边是东方、西方、南方、北方，一共是五个佛在里面，所以不一样。但是中国寺庙的默认布局呢，最后一层是藏经阁。所以这个并不是直接搜索出来的。如果直接搜潭柘寺的话，他应该写最后一层是毗卢阁。

至于底层的停车场、服务中心、现代通信塔，绝对是图片推理推出来的。因为不会有哪个介绍潭柘寺的网页去把这些东西都给你写在里头，所以还是非常棒的，可以进行图片推理。

有了这些有趣的功能之后，咱们可以通过什么样的方式来使用它呢？现在免费用户无法使用。你说我不愿意交钱，那么O3跟O4mini你使不了。Plus用户，像我这样的一个月20美金的用户，是可以使用的，但是有限制。O3每周50次，我今天大概已经使了有五六次了。O4 mini呢是每天150次，这个应该足够使。如果是每个月200美金的Pro用户，无限量使用。

API依然很昂贵。使用它的API，我可能还要稍微掂量掂量。O3每100万TOKEN的输入是10美金，输出是40美金。O4mini要快一些，也要小一些，它呢每100万TOKEN的输入是1.1美金，输出是4.4美金。应该比在美国部署的DeepSeek R1相差仿佛吧，就是基本上还是可以用的。

这种推理模型呢都是话痨模型，价格还是挺贵的。特别是10美金100万TOKEN输入，40美金100万TOKEN输出，这个非常非常昂贵。再结合上工具调用，图片推理，这个价格就像坐在日本的出租车里，看着计价器跳的那叫一个心惊肉跳。

其他的一些代理，就是这种API代理也已经开始工作了。Open Router或者其他的一些代理都可以使用，价格是相同的。只是呢，目前function call还没接上。为什么要专门强调这个？因为有些人在国内充值OpenAI的API是比较费劲的，像我就是这样。所以我使用OpenAI的API都是通过各种的代理去使用的。

还有一些什么方式可以使用的呢？GitHub Copilot里头是有GPT4 O4 mini的，但是没有GPT O3。它只有这些mini模型，它有O1，但是没有O3上来。O4 mini的话，应该是可以大范围使用的，但是前提你还是付费的。

像我是Github Copilot，99美元一年的会员。所以呢，我现在可以在IDE里边去使用它，Client和Roo Code也可以通过Github Copilot的会员直接去使用GPT-4 mini。那你说Client或者是Roo Code，我自己挂OpenAI的API或者是Open Router的API行不行？没毛病，都可以使，但是你得按TOKEN付费，那个很贵。挂Github Copilot下面的GPT-4 mini的模型的话，你有那个99刀一年的年费，就可以放心的玩耍了。

总结一下，OpenAI现在前进的方向到底是什么样的？它呢正在将各种零散的功能点聚集在一起。其实记忆早就有了，function call早就有了，推理早就有了。他一方面呢，是在拼命的去做强化学习，然后告诉大家现在强化学习scaling law依然管用。你把更多的数据、更多的算力堆进去，强化学习的效果就能起来，没有任何问题，大家好好去买英伟达显卡。另外一方面，它就把各种其他的小功能给你凑起来了，包括记忆、function call、推理、搜索呀，把这些东西给你搁在一块，你看真的好用。

其他各大模型厂商呢，在某些方面可以接近甚至赶超OpenAI，但是综合实力上，OpenAI绝对还是领先的。当OpenAI把各种新功能聚合在一起的时候，绝对是遥遥领先。它在每一个细节点上，可能都会比别人强很多。就像咱们前几天讲过GPT-4O的绘图功能，它虽然说在完整的绘图过程中，它表现力上、艺术感上没有Midjourney强，但是呢，它在文字理解上、文字渲染上，肯定是要比其他所有的这些绘图模型都要强很多的。

GPT-5现在正在路上了，甭管是今年下半年能出来，还是什么时候能出来，我觉得都是值得期待的。到那个时候就不用再去选模型了，你上来以后，他就根据你的问题直接推荐，直接给你反馈了，说我这个应该推理还是不应该推理，应该使用更大的模型还是使用小一些的模型，我应该调用哪些工具，应不应该搜索。这个我觉得还是值得期待的，就像以前我们总讲的，叫total solution，一站式服务。你进来了以后，我给你服务好就完了，至于我到底给你上了几个工具、几个模型，你就甭问了，最后是包你满意。

后边还有Sora，还是有念想。虽然Sora前面翻车了，现在大家都已经把它忘掉了，但是当它把这么多的功能聚集在一起的时候。

什么搜索呀、工具呀、推理，把这些东西跟Sora聚集在一起的时候，可能又会变出一些新的、不一样的东西出来。

Sora当年可是号称叫“世界模型”的。当它跟我们真实世界通过搜索引擎连接在一起的时候，那可能真的就要创造世界了。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

和文科生聊了一小时编程，感受到AIGC时代，文科生更加不可或缺了。程序员、产品经理和设计师的相爱相杀还会继续。AI现在还不能取代程序员，更不能替换文科生的诗和远方。

Luke Fan — Fri, 07 Mar 2025 00:39:20 +0000

和文科生聊了一个小时的编程，我真的感受到了学文科是一件很重要的事情。大家好，欢迎收听老范讲故事的YouTube频道。前几天去字节跳动参加他们的TRAE发布会，和两个文科生——准确地说应该是一个文科生、一个设计师——聊了一个小时如何用AI做编程。我作为一个老程序员来说呢，很多时候还是偏保守的。我觉得现在AI编程还有很多事情没有做的那么好，但是产品经理是个文科生，另外一个是设计师，他们都异常兴奋，觉得哎呀这个实在是好厉害，一下就可以解决我们的很多问题。

今天呢，跟大家稍微的回顾一下下，然后再说一下我的感受。首先我感受到了深深的怨念。什么是深深的怨念？这个产品经理就说了，说你们这些程序员是不是很讨厌产品经理，每次看着我都很不耐烦，老觉得我什么也不会，只会给你们找事情。然后我每次提什么要求，你们这些程序员都不愿意给我做，总是找各种各样的理由。设计师也是满满的怨念，说我明明都设计好了，你为什么做出来就跟我设计的不一样呢？你们这些程序员还不停的来找我，说我能不能做出来跟你这个稍微差一点点，你为什么底下要画根线，我这根线能不能不做上去，你为什么要把这个按钮设计成这个颜色这个形状，下面还要有一个圈，我能不能不做这个东西，因为每次做这个东西都很费劲。

原来我们在猎豹移动的时候干过一个什么事情。当时的猎豹浏览器也是很多栏嘛，当时的设计师要求当你点击了某一个栏位，光标要从原来正在活跃的这个栏位上飘过来。但是这个东西很难做，大家知道我们写程序的时候是面对Chrome的底层去写程序，那个玩意不是从头就是我们做的。所以当设计师提出要求来的时候，程序员就会去问他说，你一定要这个光标飘过来吗？我直接把这个变亮，把那个变灭不就完事了吗？不要有这个中间飘的过程行不行？设计师说不行，我设计要有这种一致性，我整个的设计风格是什么样的。他们就会有这样的矛盾。

其实我跟产品经理和设计师打交道的机会并不多。为什么呢？因为我那个时代，程序员就负责所有的事情。我写程序的时候都是九几年，到2000年前后我在写程序，我写了10年的程序。然后，程序员开始跟产品经理、跟设计师打交道，是在后面大量的web应用、大量的这种移动应用上来以后，才会有后边的这个故事。像我们以前就是自己做就完了。我们那个时候做的产品都很难用，你必须要经过认真的培训，才可以把它用起来，而且都奇丑无比。因为我们那个时候，就是自己写就可以了嘛。我记得当时我去考大学的时候，学计算机不可以色盲。后来我说为什么学计算机不能色盲，说色盲的人设计出来的界面会大红大紫，红绿色盲嘛，你看不到这个颜色吗。后来，我上班了以后，就碰到了一位色盲程序员，本科不是学计算机的，他学了其他专业的本科，然后出来以后转行做程序员了。他设计出来那个界面就大红大绿的。但是后来的话，程序员、设计师跟这些产品经理，就成了三个冤家，必须要凑在一起才能干活了。他们讲完了那个话以后，我说哎呀我感受到了你们的怨念，你们都想把我干掉，然后他们也在那乐。这个沟通、适配、迭代，这是我们当时写程序的时候，团队里边解决怨念的方法。实在不行就出去喝一顿大酒，这个事情解决了，继续往前走。但是有的时候呢还很麻烦，为什么？因为有的时候这个程序员是男的，这个设计师和产品经理是女的，那个女生她不愿意出去跟你喝一顿大酒。当然也有一些程序员呢，就跟产品经理或者设计师，喜结连理了，吵着吵着就变成欢喜冤家了吧。产品经理呢给我们还讲了一个故事，产品经理他自己开了一个AI编程的课程，他原来一点编程都不会，然后写了一本书叫《AI编程蓝皮书》，开着课程开始去教课去了。然后一位60多岁的创始人，跑来学编程了，他就问人家说，您都这么大岁数了，您来学编程，而且您原来创业这个项目，也不像是公司里没有程序员的样子呀。这个老的创始人就跟他说了，我们原来公司里也有程序员，有十来个程序员的。

但是呢，我老信不过他们。每次向他们提点要求呢，他们就是：“哎呀，这个干不了，那个干不了，这个只能做成这样了，那个只能做成这样了，这个必须要一个月才能做完，那个还得再干俩月。”我老信不过他们，干脆我自己学一下，他们以后就不能再糊弄我了。

这就像什么呢？叫“非我族类，其心必异”。就像我们面对那些医生、律师、会计师那样，也是这么想的：“总有刁民想害朕，你们是不是都想坑我？”所以这位60多岁的老创始人，就跑去学编程去了。反正一个敢教，一个就真敢学。两人都不会编程，一个是产品经理，一个是从来没有学过编程的创始人，也是个团队的创始人嘛。两个人就开始学起来了。

我觉得等这位老创始人学成回去以后，估计会上演很多的狗血剧情。回头我再去问问他，这个老创始人学完了以后，他有没有做回访。但是我能够想象的出来，这种事情一定会鸡飞狗跳的。

那么，程序员到底在想什么？咱们来解答一下那位老创始人的疑问。你们来去跟程序员沟通，说：“把这个给我做一下，做不了；给我那个做一下，能不能打个折扣，稍微调整一下，找一个我熟悉的方式来做；你这个地方帮我改个小错误，就这么简单的一个错误给我改一下，这得改俩月，这可费劲了。”到底是发生了什么？

程序员思考的问题里头，完成功能只是很小很小的一部分。那你说你们做程序员的，你不给把功能完成了，你们都在想什么呢？第一个很简单的问题，技术选型。你要让我完成这个功能，我到底是用什么东西来去完成呢？你让我去炒个菜，那你说我是出去买个预制菜回来炒一下呢，还是说从现在开始耕地种粮食呢？程序员经常会想这样的问题。

而且有的时候为了做出最符合自己要求的这个功能来，他们真的会耕地种粮食，就是会从很根本的地方开始去做，而不是说用人家已经做的差不多了一半的东西，用现成的东西直接拼。这个用现成东西拼就是预制菜嘛。所以程序员经常会很纠结，到底选哪个呢？其实通常是选他自己熟的那个。然后程序员会想下一个问题是什么？代码复用。

我写完了这段代码了。我下次是不是还能再把它用上？或者我以前写的哪个代码好像跟这差不多，我怎么能把它用上？我为了让这个代码下次还可以用，我就要给这段代码里头写很多你当前这个功能所不需要的代码进去。为什么呢？因为我首先要写个注释吧，我要告诉他，我这个东西前面干什么了，后边干什么了，这个下回还能怎么用。然后还要写很复杂的这个架构吧，因为你想一段代码，比如说有1,000行，那我不能说我把这1,000行都用上，我要把它分好架构。而这个是50行，那个是30行，1,500行里头分成50行一段，30行一段。有人说你这不对，一开始说1,000行，怎么变1,500行了？因为凑这些架构又多出500行来。你说我只管把所有事都干完了，可能1,000行干完了，然后你说我为了有所有的这些架构，架构还很清晰，那我又多出500行来。那我下一次说，我用到这个里头的200行，我下次再用到另外那20行，他是这样来去规划的，叫代码复用。

然后还要思考什么？怎么进行效率提升？并行处理呗，哪两个事情之间不影响，让他们并行起来，这也是需要去思考的。还有一个很麻烦的是什么呢？环境适配。这个是什么东西？我这个程序能在PC上跑，能在网页上跑，能在安卓手机上跑，能在苹果手机上跑，或者我还有一部分是要到亚马逊云上去跑，或者到阿里云上去跑。那每一个系统后边都有一大堆的规范文档在那儿，那我要想适配他们，这个也很麻烦。还要避免各种各样的极端情况，什么极端情况？同时有30个人用这个事没问题，可以跑，同时有1,000个人用，程序崩了，这个也是需要在写程序的时候思考的问题。

而且写程序的人有的时候叫什么呢？叫江湖越老胆子越小。为什么？就各种坑都踩过了嘛，等下次再走的时候说，你怎么用这样奇怪的一个姿势在这儿走路？你不知道那里有坑，他是这样的一个发展过程。所以这就是导致为什么说这些文科生，这些设计师，这些产品经理，这些创始人。

觉得程序员那么不可理喻的一个原因，而且程序员想的刚才所有这些东西，其实都是可能在写程序的过程中很小的一部分。那你说剩下的时间你们都干嘛去了？这个程序员的工资不低，你们都天天在这摸鱼吗？不是，当然摸鱼肯定也要摸了。这个程序员真正用很多的时间去思考的东西，叫团队协作。这什么意思？我写完代码下一个人要改，下一个人可能还是我。那你说你这怎么又绕回来？明日之我不是今日之我，他是这样的一个过程。像我们经常写着写着程序说：“哎呀，这个程序是我三年前写的，当时到底怎么想的？”

我记得原来有一个故事，大夫写字不都写的特别潦草吗？有一次写了个药方子，到那个药房去抓药去了，实在认不出来是什么字了，然后就回去找这大夫，说：“大夫，您这字到底写的什么呀？”这大夫看了半天，然后一拍桌子：“何不早问？你早干嘛去了？现在你问我，我也想不起来了。”

所以呢，我们要做很多很多的事情是为协作的，即使是自己跟自己协作，也是需要写很多的代码，写很多的注释，做很多的加工设计。所以软件的本质是工程，不是软件本身。真正实现功能的部分只占很少很少很少的一部分，软件里面绝大部分的内容都是防止程序员迷路的。我们在这里钉个小牌牌，说：“你再往前走三步有一个坑。”这个是真正软件工程里边去做的。而且你钉完小牌牌以后，还要写某年某月某日，谁谁谁在这里钉的小牌牌。

所以呢，这就是屎山代码，什么意思？就是一大坨代码谁也不敢动。因为我们刚才讲复用嘛，你复用了以后，就会有这个代码依赖的关系，这个代码要依赖那个代码。那么你在这个东西想要再去调整，再去修改，就会变得非常非常难，叫牵一发动全身。你修改掉一个bug以后，可能带来10个bug。然后为了避免这个东西，我们还要有一堆人再去思考，再去研究。还有很多人硕士、博士学位，出来学什么软件工程学，人家学的不是说我要去实现什么功能，就是我们学习如何在可以接受的成本范围内，组织很多的人进行分工。

把一个巨大的软件工程完成掉，这也是一门专门的学问。那么，非程序员到底是怎么看程序员的呢？其实就像我们去看老中医。这些非程序员不愿意为功能之外的事情进行沟通。你说找个程序员来给我做个功能吧，这个程序员再去跟他讲效率，再去跟他讲兼容性，再去跟他讲，说你到底是要在安卓手机上用，还是要在苹果手机上用的时候，文科生、产品经理、设计师就会觉得很烦，而说这个就这么简单的一个事情，怎么搞不定呢？

我举一个最简单的案例。你比如说设计师设计了一个小动画，程序员就去问了，说你要安卓手机用还是苹果手机用。这个设计师说，你就都实现了不就完了吗？然后这个程序员就哭了。为啥呀？因为苹果手机好实现，你可能一句话把这事搞定了。安卓手机呢，可能就费劲，你可能需要写很多很多的代码才可以实现。而且你一旦要求安卓手机实践的话，他还要问你说，你这个到底是在2,000块钱以上的安卓手机上实现呢，还是4,000块钱以上的安卓手机上实现呢，还是要求1,000块钱以下的安卓手机也能实现呢？

很多人觉得这不是问题，没做过程序员的人完全无法想象这个。为什么？我告诉你，安卓手机算力是有限的。很多这种前端界面上的事情，到这个很便宜的安卓手机上是渲染不出来的，或者渲染出来会很难看，会有这样的问题。所以你作为设计师来说，你给我作出来不就完了吗？程序员说，您上下嘴一碰说出来了，但是到我这可费劲了。所以这个会有很多的沟通、交流上的一些障碍。

除了不愿意为了功能之外的事情进行沟通之外呢，这些非程序员还有一个问题是什么？他们不愿意为了功能之外的事情支付成本。比如说创始人来了说程序员，你给我去做一个什么什么功能。咱们依然是上面这个事情，你如果只做苹果的，很快就可以做完了。你要求把安卓的也做了，而且要求1,000块钱以下的安卓手机也能跑，那你要花很多的时间，甚至花很多的钱，那个程序员工资会上升的。

能够解决这样问题的程序员是很贵的。这种事情我们原来是真的发生过的。原来跟大家吹过牛，我们以前投资的Musically，他最早就只做了苹果的版本，安卓版本他没做。等到做安卓版本的时候，发现他做不出来了。为什么？他们做的大量功能，在苹果手机上一句话就搞定了，因为iOS系统其实是相当完善的。安卓系统呢？你说为什么不做那么完善呢？这个谷歌就笨吗？谷歌也不笨。他之所以不做那么完善的原因，是因为他没有办法控制硬件。他把这个功能都做的很完善了以后，你到不同的这个硬件厂商上，三星的、HTC的、华为的、小米的手机上，它不一定都跑得起来。所以呢，它就很多的功能它不能做，它一定要让手机厂商去把它完善出来。所以当时他们就搞不定了，说Musically这个软件要到安卓手机上实现，实现不了了。那怎么办呢？找我们说你作为投资人，微暴移动你投了我们了，这事你得搞定。那没办法，那上边我们就派了大量的程序员，坐到他们的办公室里来，我们替你搞定，每一个功能都可以实现出来。但这个就是成本。你要碰到这种不是那么明白的人去搞这个事情，这就费劲了。你像刚才我们讲的，60多岁的老创始人，找了一个不会编程的产品经理，学了半天AI编程以后，那回去不炒成一锅酱糊才怪嘞。最后一个问题是什么呢？就是这些非程序员，他们往往是以结果论成败的。很多东西在表面上他是看不到的。就像刚才我们讲的，你同样的功能，你在安卓手机上实现出来，可能还没有苹果手机上实现出来好看，但是呢，费老鼻子劲了。对于不懂程序的这些文科生或者设计师来说，你们这些苹果程序员好厉害，你们这些安卓程序员很笨。原因其实很简单，苹果自己做的好，安卓自己本身底层比较烂，那也没办法，他就会有这样的片面的认知在里头。而且后台的程序他看不到，他们就说前台的这帮人，你们这个功能一个一个实现的很好，后端的人你们程序怎么又蹦了。他只永远只看到这一个，因为后台嘛，只有这一个结果。

崩了，没崩。崩了，没崩。没有别的了。讲到这了，很多人会觉得，我是不是要为程序员叫屈？但是看看前面我的标题是什么？是我觉得学文科是很重要的。文科生非常非常重要。为什么我跟他们聊完了以后，他们对程序员有这么大的怨念，我反而会得出结论说文科很重要的？其实这就是设身处地的思考。

我用Midjourney画图，画了自己也很开心。画完了以后，我觉得我的情绪会得到了抒发，这个非常棒。我用DeepSeek写小说，写出来的东西呢，我看着也挺开心的。这一段看着不错，那段看着也不错。但是我在那天听完了他们讲之后，我突然意识到了一个问题是什么？我是没有能力将很多的画，按照统一的风格，或者说呢叫做一致性，把这些一致性的画，拼凑成一个完整的绘本呢。我也没有能力把这个几十万字、几百万字拼凑在一起，成为一本小说了。

像这个DeepSeek也好，或者各种的写小说的这个AI也好，你命令下去以后，大概就给你写1,000字出来。你要想让他写2,000字都很费劲。而且你命令他写2,000字的话，后面的1,000字的质量就会明显的下降。所以千万不要试图让AI一次性给你输出很长的内容。很多人说DeepSearch这样的东西，不是一次出来很多的东西吗？对，他那个东西不是一次出来，他也是拼成小段，一段一段出来的。所以呢，我是没有能力拼出小说来的。

而且呢，我也没有办法去判定一幅画，或者1,000字、1,000字的这种文字片段，到底好还是不好。术业有专攻。我上了四年大学，几十年的工作训练，掌握了非常多的技巧。那么我就可以去跟这些文科生去讲，跟这些设计师去讲，说：“哎，为什么你这东西能做？为什么不能做？你如果一定想做，到底需要支付多少成本？”这个事情我能跟他讲清楚。而且哪个东西会更好一些，更坏一些，这个事情我也可以给他讲清楚。

文科生、艺术生其实同样是这样。他们也是上了大学，也是经过十几年、几十年的工作训练。而且文科生跟艺术生……

他们所掌握的技巧是更难进行衡量、量化和迭代的。像我们其实一直在研究工程的问题，我们做的所有结果都是可以量化、可以进行迭代的。他们那些东西很多是感性的东西，比我们这个还费劲。所以在这样的一个情况下，我觉得他们更加重要一些。

所以现在很多人说，我们是不是应该把文科的取消掉，应该让更多的人去学理工科。这个事是错的。AI距离替代程序员目前还非常遥远，当然它在快速的向这个方向走。但是AI距离替代文科生和艺术生，应该更远。

很多人说不对，AIGC它生成内容了，它能生成图片、能够生成视频、能够生成音乐、能够生成文字了。但是这个东西距离诗和远方还非常非常遥远。就像文科生写程序一样，他们写出来的就是一坨坨屎。这个真的不是说看不起他们，因为AI现在所生成出来的这些代码片段，就像我们生成的图片或者写出来的文章是一样的，是没法拼凑在一起了。拼出屎山这件事本身是很难的，不是说你可以把一堆屎搁在一块，就是一堆屎山的。最后一大堆碎片，你可能连拼都拼不起来。

像我们写程序也是有风格化的，也是有一些代码编程规范的。现在AI生成的代码，它会在不同的文件里边生成不同规范、不同风格的代码。这种东西是拼不到一块的。还有就是我们没有办法去判断这些图片跟文字的好坏，这个时候还是需要这些文科生、需要这些艺术生，他们才可以去判断。

那么为什么大家都觉得可以取代对方呢？这个还是评判的标准不一样。我觉得我画的Midjourney很漂亮，让我的情感得到了抒发，让我的情绪得到了满足。我觉得我写的小说也挺好，这就是程序员在评判文科生跟艺术生的成就。而那边呢，产品经理教人写程序，大家都觉得挺好。这就是文科生跟艺术生觉得他们懂编程了。

其实是一样的，就是我们拿出来的这些画，我们拿出来这些文字，让文科生看了以后，让艺术生看了以后觉得很可笑。就跟他们拿出来的代码让我们看了，也觉得很可笑是一样的。

但是现在，8岁小女孩写游戏这样的故事，他很有传播性。大家对于AI也抱有了远远超越其能力的这种预期。AI创业者呢，其实也不愿意出来纠正这种误解。他希望说：“你们先误解着，我那头没准加加班赶赶工，这个AI就赶上来了呢。等你发现这个东西有问题之前，我就把功能做出来了。”这个是很多程序员喜欢干的事。所以这就是大家现在都觉得可以替换别人，各个公司都在这疯狂裁员，就是这样的一个原因。

Deepseek今年其实已经造成了大量的裁员。那么，应该如何面对未来呢？肯定还是要交叉学习对方的技巧。因为现在有了AICC以后，工作效率提升了，有了一些空闲的时间，多去学一些交叉的学科。但是与此同时，一定要心怀敬畏，千万不要上来说：“我懂了，你们都靠边站。”这个是要翻车的，是要出问题的。

而且，我们要准备迎接更加奇轨的未来，就是端道端。刚才我还在讲我们在吵架，文科生、理科生、美术生，三个人坐在这在吵架呢。等到最后端到端的时候，就连吵架的机会都没有了。到那个时候，就是上帝说要有光，于是就有了光。可能我们就真的不知道该去搞什么了。

那么，应该如何去迎接端道端这个过程呢？其实就像自动驾驶一样，先是给你一些提醒，最基础的是：“哎，前面有车了，我给你警告一下。”然后呢说：“我可以帮你去开一点，但是你的手要放在方向盘上。”再然后呢是说：“唉，手可以不用放在方向盘上了，但你人得坐着得看着，随时准备接管。”最后呢，是说：“人不用在这呆着了。”到最后一步就叫端到端了。这个也是一个一步一步往前走的过程。

端到端之后的话，我觉得我们可能应该学习日本人造汽车的方法。他们始终会保持一条纯手工的生产线，就是其他的都是用机器来生产，用流水线。绝大部分汽车也都是在流水线上做出来的。但是呢，始终有一条线是用纯手工生产。最后，他要确保生产线上下来的汽车跟纯手工组装的汽车品质完全相同。这可能是我们未来面对端到端的时候所必须去采取的一些措施。否则的话，万一出了一些问题。

因为一旦端到端了以后，出了问题你是一点办法都没有。你都不知道中间是发生了什么。这可能就是我们的未来。在未来的话，文科生、设计师都很重要，程序员也很重要。谁都不应该失去工作。好，这个故事今天就讲到这里。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

字节跳动全面进军AI编程 | Trae抢占AI IDE市场，质量与免费就是杀手锏！剑指AI落地的最后一公里，仅限字节跳动在AI领域的野心

老范讲故事 — Thu, 23 Jan 2025 00:42:36 +0000

字节跳动正式加入了AI编程大战，野心尽显。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲AI编程的故事。

一直有人在跟我讲一个话题，叫什么呢？就是“我有一个idea，就差一个程序员了”。非常非常多有想法的人，他们被写程序这件事情拦截了，无法实现他们的想法。AI来了以后，这个问题得到了一部分的解决，但并没有彻底解决。

AIGC，也就是我们这一波的AI，是从哪里开始的呢？就是从写程序开始的，不是从ChatGPT开始的，也不是从MidJourney画图开始的。最早的AIGC项目，或者说被广泛传播和使用的项目，叫GitHub Copilot，就是帮助程序员写程序的。当然，这个项目并不能让那些真正的程序小白，或者说完全没有学过程序的人写出程序来，它只能帮助这些会写程序的人，或者对程序还相对比较了解的人提高编程效率。它是这样的一个工具。

AI辅助编程，或者叫AI程序员，这个事情经历了这么多年的发展，现在到底发展成什么样了呢？你说我现在是一个小白，是不是就可以去用了呢？字节跳动这样的一个明显ToC的公司，大量的用户是C端用户，是个人用户，他们加入AI编程大战，是不是意味着他们推出的产品普通人就可以用了呢？咱们慢慢来讲一下。

现在的AI编程的发展，首先，它是分成三个大的组成部分：第一个叫插件，第二个叫大模型，第三个叫AI IDEE，叫AI集成开发环境。现在的插件，从最早的GitHub Copilot依然在不断更新升级，然后有一个叫Continue，叫继续的一个插件，这个做得也还是相当不错。还有一个插件叫C L I N E，这个插件现在用的人也比较多了。其他还有一些插件，比如说LLama Codesr，是可以使用LLama模型来进行编程的插件；MazCodes是字节跳动在国内推出的编程插件；还有一个叫通意零码。

大家一听就知道这是阿里做的。所谓的编程插件呢，就是你需要把这些插件插到你的集成开发环境里去，比如说微软的VS Code或者是IntelliJ。插进去以后，它就可以进行自动编程了。当然，这并不是说你告诉他说要有光，于是就有了光这样的自动编程。而是什么呢？就是你已经写好了一个程序，然后问他说我这里应该添点什么、补点什么，他会给你完成这样的工作。甚至呢，你告诉他说我这有一个错误，告诉我应该怎么去修改，他们会帮你去改错误。这是插件。

第二块呢就是大模型。现在我们使用AI编程的大模型呢，最主要的两个，一个是GPT-4，另外一个呢是Claude 3.5 Sonnet。其他的呢，GPT-1以及Llama专门有一个对编程重新训练或微调过的一个模型，叫Llama Coders。千问呢，也有千问Coders，这是专门给通义千问做的编程的微调。DeepSeek现在做编程的效果也还是不错的。这就是各种大模型去做编程。

再往后一个呢，就是IDE。IDE叫集成开发环境，就是从写程序到编译、运行、部署，所有这个东西在一起。AI IDE呢，除了刚才我们讲的这个VS Code，你加各种插件来实现AI编程之外，现在也有一些专门的AI编程那种IDE，比如说最有名的叫Cursor，它出来的比较早，这个呢是20美金一个月，主要使用Claude大模型进行AI编程。然后呢，有一个叫Windsurf，这个是前面咱们讲的Continue这个插件，他们公司做的一个AI IDE。

今天我们要讲的这个东西呢，Trae，这个应该怎么念，是字节跳动最新出的AI IDE产品。都是在VS Code的基础上，加上他们自己的AI agent，加上他们自己挂的一些模型，形成的完整的IDE。这就是现在AI发展到的一个状态。那么整个AI编程发展的各种历程是什么样的呢？从最早的叫代码补全，就是你写完了几句话以后。

他给你告诉你下边几句该怎么写。再往后呢，是开始进行自动的代码提示，或者多代码的这个更正。经常我们写的很多项目，需要在不同的代码文件里边去进行调整。再往后一步的话，他就会自动地给你在多代码文件里边进行调整，以及多代码文件进行阅读和建议。因为原来代码补全，就是你给他一个文件，他读这一个文件，现在他可以读整个的项目了。

再往后呢，就开始进行完整的脚本执行。这个什么意思呢？因为我们去写程序的时候，并不是说上来说，我们开一个新文件程序，第一句写什么，第二句写什么，不是这样。经常有很多这种叫做要执行的脚本，比如说命令他创建一个什么样的程序，或者命令他加载哪些库，命令他开始执行，命令他去做各种的清理。他有非常非常多这样的脚本。现在的AI编程工具呢，这块都可以自动做了，甚至呢，最终可以做成一个完整的流。什么样的流呢？比如说你告诉他，现在我想要做个博客，他就说行吧，我想想该怎么办。比如说执行了一个脚本，执行完脚本以后呢，说我根据你的要求生成了博客的页面，而又生成了什么东西。然后，这里还缺一些这个样式库，再执行一个脚本，他得一步一步这样去执行下去。基本上可以完全自动化，可以把这事搞定了。这就是目前来说，AI IDE可以达到的一个效果。

待会儿我们会看一个案例。那么，AI IDE到底是不是可以让小白去写程序了呢？给大家一个结论：很遗憾，还是不行的。前面有人说了，9岁小姑娘40分钟写一个游戏出来，这不是应该可以吗？这个呢，只是一个样例而已。这个9岁的小姑娘应该还是接受过一点点的编程训练的。如果完全没有任何编程训练的人，甭管是9岁还是九十岁，给你AI IDE，你还是写不出程序来的。而且呢，还要注意什么呢？就是很多这种让你觉得哇哦、这种眼前一亮的案例，都是特别编排出来的。可能这个9岁小朋友只能去写这样的一个用例出来，你让他换一个用例，他就写不出来了，里面会有很多的错误抛出来。

他就根本不知道该后面怎么办。这个事情，而且按道理说，按完回车，他自己再去确认确认，前进，继续什么，做一些这样的点击，为什么需要40分钟？这里头还是有一些bug需要去调整的。待会儿我们去看Demo的时候，你们就知道大概需要去调整哪些东西了。

但是现在的这种AI IDE呢，可以让一些稍微受过一点点快速开发教育或培训的这些人写出快速的原型程序了。工程项目如果变得很大的话，可能还是比较费劲的，但是些小应用已经是可以去跑了。

现在咱们来讲一下今天字节跳动推出的这个叫Trae，它到底有什么不一样？首先呢，要跟大家讲，这一块没有什么特别大的门槛。VsCodes它就是底层，大家都是在这个开源的底层基础上去改的。甭管是今天我们讲的Trae，还是前面讲的Cursor，还有Windsurf，都是在这个基础上进行修改。

他们使用的大模型呢，基本上也都不是自己的，就是Claude 3.5、Sonnet或者是GPT-4O，都是用这样的底层模型来干活的。他们真正在里边做的什么，就是一大堆的提示工程。Trae呢，它可以进行自动的项目完成，你只要告诉他说我要做什么什么事，后边就是确认确认确认就完事了，他就可以给你把整个项目写完。这块呢，做的还可以，跟Cursor、跟Windsurf基本上是可以达成一致的。

至于说生成项目的质量怎么样的话，这个我觉得可能并没有那么容易去评判，因为底层都是Claude 3.5和GPT-4O，最终形成的项目的质量或者有多少个bug或者什么，这些东西的话，有的时候看的不是这些IDE自己的能力，而是看大模型的能力，所以你去评判它意义也不是特别大。

那你说Trae跟其他的Cursor、跟Windsurf比起来到底有多大差异呢？最大的只有一个，免费。至少现在是免费，号称叫限时免费。未来是不是会继续免费呢？看用的人多少，用的人少的话，可能就开始收费了；用的人多可能会继续免费。很多人说不对。

你这个说反了吧，是不是应该用的人少接着免费，用的人多了就该收费了呢？因为用的人多，你需要消耗很多的Claude 3.5 Sonnet的TOKEN，这个东西是要收费的呀。大家想反了，为什么呢？一旦用的人多，说明什么？说明字节跳动抓住用户了，这是一个未来的方向。那么他一定会说：“我继续免费，让大家接着我，慢慢地向我整个的平台去转移。”这才是字节跳动想要的。如果用的人少的话，发现这个产品姥姥不疼舅舅不爱的，算了，收费吧，以后没有拨款倾斜了，不能再去继续赔钱了，他会变成这样。

所以他跟很多这种美国项目是不一样的。美国像Cursor也好，Windsurf也好，都是要收费的，为什么？因为公司很小，就算他融了资了，他也不敢说：“我拿融资的钱去给大家补贴这个TOKEN。”但是字节跳动是谁？像什么豆包这些大模型都是免费的，随便去使用。跟这些国内收费的文心一言，这些模型比起来，那这肯定是打的他满地找牙，用户就直接就回来了。

所以呢，越是用的多的，越说明这个产品可能会成为未来的方向，字节跳动就越会愿意花钱给大家发补贴。现在这个Trae到底怎么样了，未来还有哪些欠缺的地方可以去添加呢？第一个呢是更多的模型可以加入，现在只是GPT4O和Claude 3.5，未来的话还可以加上，比如说DeepSeek，DeepSeek R1，包括千问Codes这些模型，其实都可以加进去。因为国内你是没法使用Claude 3.5，也不能使用GPT4O的。但是呢，你每次换模型了以后，你要重新调这个提示词这块的话，他们可能还需要一些时间跟这些国内比较强的模型去进行匹配。

DeepSeek R1的话，应该是昨天发布的，是DeepSeek做的这种推理模型，那个编程效果杠杠的，很多指标都已经超过了Claude 3.5 Sonnet，而且特别便宜，它的价格是Claude 3.5 Sonnet。

可能1/10或者1/20这样的一个水平，非常非常便宜。那么未来应该是会续加的。而且现在的Trae只支持MacOS操作系统，不支持Windows。也许再过个一两个月会去支持，这个其实也很简单，因为Windows本身的操作系统比较乱，里头各种的环境都比较混乱。特别是现在的各种编程的这种底层的环境，都是在MacOS或者Linux上跑的。你让它去在Windows上跑的话，都会比较费劲。所以目前为止只支持MacOS。你说我是个Windows电脑，稍微再耐心等一等。

从功能角度上讲，现在其实还欠缺几块。现在呢，还不能切图。什么叫切图呢？比如说我用Midjourney画一个设计图给他，说“你给我照这样做出一个网站来”。他呢，现在只能去理解一下这个图的风格，然后我照这个风格给你把这个网站做出来。他并不能把你这个一个完整的设计图切成一小块，这个是一个图标，那是一个按钮，不能给你切出来。你按道理说呢，应该是切好了以后再去应用到网页的不同位置上去。这个实际上就是设计师跟程序员之间配合的一个过程。设计师先把这整个的界面设计出来，然后呢，再把每一小块图标、按钮或者是里边的各种图片都给你切下来，让你去使用。他是这样去工作的。

现在这块还没做。这块呢，我觉得以字节跳动自己在这个AI生成图片这块的这些努力的话，他们去做这一块应该是有机会的，只是现在还需要再去等。而且未来的话，有可能会加上这种自动切图。就是给你一幅图以后，自动去在里边把需要的元素切出来，以及呢，自动的图片生成。假设你有一个生成好的界面的样例了，那么说“OK，我按照这个风格去给大家做”。做完了以后说：“我这里还需要个按钮，那里还需要个图标，哪个地方还需要一个背景图。”你有一个基本的风格之后，他完完全全可以自动再去生成一些图片，把后边的一些东西补上。因为字节跳动自己也有文生图的大模型，那就直接用呗。而且现在字节跳动的文生图大模型。

你在豆包里是可以直接免费用的。那它如果可以把这些功能加上去，让字节的这个AI编程助手，或者叫AI IDE，被大家广泛接受和使用的话，未来这一部分应该都是可能进入的。而且字节跳动家里是什么都有，他不光是可以生成图片，还可以生成视频，还可以去做很多的图片编辑、视频剪辑，以及还可以生成声音。未来字节跳动的这个IDE里边，就有可能把这些东西慢慢都加进去。

那么好了，再往下咱们讲一下这个Trae到底有什么用。第一个，你如果一点编程都不会，这个事情跟你没关系。如果你稍微会了一点点编程，未来很多人就都可以使用Trae这样的AI集成开发环境去编写一些小的应用程序。为什么我要这里专门强调这个小的应用程序呢？新手程序员去写一个完整的应用，这个是非常非常难的。但是你说我去写一个小应用，这个应用只给我自己用，这块呢，难度一下就降低非常多了。为什么在这里强调第一小，第二只给自己用呢？小了，你需要考虑的问题就比较少；第二，只给自己用的话，你就没有什么兼容性的问题。你比如说我这程序跑得好好的，换你机上跑不了了。对于程序员来说，我们经常解决这上的问题。但你说我就写一个程序，自己跑一跑能使就完事了，这个呢，很多的新手程序员都可以去搞定的。

那么这件事情到底有什么意义呢？我为什么需要一个很小的程序，只给我自己用的程序呢？大家有没有听过一个词叫最后一公里？光纤的最后一公里，把这光纤拉到这个小区里了，但是最后挨家挨户去装的，这个叫最后一公里。还有很多人叫快递的最后一公里，比如说我们的快递柜，或者说我们已经把这个快递送到最后的一个集中站点了，再由快递员一家一家的给我们送上门来，这也叫最后一公里。即时零售和外卖的最后一公里，甭管是他有前置仓，或者外卖的小饭馆，最后由这些外卖员把这些东西给我们送到家里边来，这个叫最后一公里。

那你说这件事情跟我们有什么关系呢？有，现在有这么多的大模型。

还有很多的叫AI agent的工具，比如Codess也是字节跳动自己家的，或者是Defi这样的工具出来以后，但总是觉得好像跟我们最终的使用场景稍微差那么一点点。这个时候，就需要“最后一公里”。我们怎么把最后差的这一点点补上呢？而这一点点，对于Codes、Defi等平台来说，他们去补是很麻烦的，包括像GPT或者Claude这些大的模型公司，让他们去补这个东西也是非常烦的。

那怎么办呢？干脆你们每一个人回去自己去写最后这一公里吧。每一个人只要接受一点点的编程教育，大概知道程序是怎么回事，就可以使用这种AI集中开发环境去把这个最后一公里补上。我就可以把Codes里的很多AI agent运用到我们的生活当中去。这个其实才是字节跳动的巨大野心，他们要继续推动豆包、豆包的大模型、豆包自己的应用以及Codes，他们的AI IDE平台向前走。

如果他们可以通过Trae这样的AI集成开发环境，让所有用户把这个最后一公里弥补上，Codes就可以在所有的AI agent平台竞赛中胜出了。大家要注意，字节跳动虽然豆包的大模型现在不是那么被人看好，在各种比赛和使用体验上，豆包的大模型还是稍微差一些的。但是，Codes现在在各种AI agent的竞赛里面已经是比较名列前茅了。

豆包的APP聊天应用在国内绝对是异军突起，遥遥领先的一个位置。另外，还要注意一点，全世界买CPU最多的公司，除了微软、梅塔、XAI之外，就是字节跳动了。他手里有大量的显卡，字节在AI这一块的野心一直都是非常大的。那么，他们推出的这个Trae应该也是为了补全他们野心中的一个缺口。如果这个缺口补上去了，能够一直免费下去，后边就没有cursor和Windsurf什么事情了，可能未来就只能往这个方向走了。而且，就算是GPT也是要付钱的。

微软给的 GitHub Copilot 也是要一个月 10 美金，要付钱的。再怎么着，你也没有这个纯免费的香。在这一块，字节跳动应该有可能在未来 AI 战争中拔得头筹。

再往后呢，我们去做一个 Demo，让大家看一看这个东西到底能干什么。下面呢，我们来做一下演示。第一件事呢，是要去下载网址，就是这里 Trae.AI。如果你是 MacOS 电脑，就可以去下载了。下面我们去看一下 Trae 到底长什么样子。

大家注意，这里是有一个聊天，有一个 build 构建。build 现在还是 Beta，也就是说如果 build 出什么问题了，别怪我。正常的聊天的话，就跟我们使用普通的这种 AI 编程工具是一样的。你跟他聊天，说我有这样的问题，有那样的问题，他会一点一点的帮你去调整。但如果使用 build 就全自动了。

上面还给你两个案例，一个是生成贪吃蛇游戏，一个是生成 to do list 的应用。大家看到那种 9 岁小女孩快速完成一个应用的这种事情呢，基本上都是点击，他们这种案例是可以出来的。你稍微改一点，他就出不来了。

所以今天呢，咱们稍微难为他一下。咱们先去打开一个文件夹，创建个新的吧。咱们找个他不太熟悉的东西去玩一下。现在给大家演示呢，很多人都是玩什么 note GS 或者是这种 next GS，使用这样的这种纯前端的项目给大家去做演示。今天呢，咱们去稍微的给大家演示一个它没那么熟的跨端应用。

Flutter 应用就是可以在 MacOS、Windows、iOS 和安卓上，以及 Web 上运行的一个应用。不这么复杂，今天我们就只展示这个 MacOS 和 Web 的应用吧。第一件事先整给他张图片，是一张咖啡手绘风格的一个博客的图片，这个图片是 Midjourney 画的。

好，现在我来写提示词了，请按照设计稿，在当前目录做一个 Flutter 应用，可以在 Web 和 MacOS 平台上使用。回车，干活去了。上来大家看到吗？

叫AI思考中。首先告诉我们，我会帮你创造一个Flutter的博客应用。从设计稿来看，我采用了温暖的咖啡色调作为主色调，创建一个优雅的博客界面。然后说说我要执行这句话了，你要点执行点运行。你看，这边开始干活了。这呢也告诉你说，我已经创建好了这些基础的文件。

然后他后边又思考中了，说我要再去修改文件了，说我要去修改mean.Dart和mean.dot文件，然后要去改下边这个文件。首先现在先把这个文件先拿出来读了读，读完了以后进去改去了。这边还在转呢，就是我们要耐心等着他慢慢转去。转完了以后他会告诉我说，我要加点什么减点什么。说我现在要改这文件了，你说我们全部接受，就给你都写进去了。他实际上改什么？改颜色去了。他要按照这个咖啡师的这个方式去改颜色。说做完这个，我们就可以执行一下了。

那执行吧，他要再思考一下。这执行起来了，这个颜色有了，但是呢，你看里头所有图都没了。刚才我们也讲了，他缺一些什么呢？缺这个切图的功能。如果你没有切图的功能的话，这个出来就会变成这样。好，你看他上面写了说，请检查一下Flutter Web应用是否已经成功运行了，以便我们可以预览博客的界面。

看，已经成功完成了Flutter博客应用的基本实现，创建了支持Web和Mac OS平台的Flutter项目，实现了主页面的布局，包含了博客列表展示，设计了温暖的棕色调主题。因为我给了这张咖啡的相关的图片嘛，待会我们来看一下这图片长什么样。然后呢，添加了搜索和这个新建博客的入口按钮，实现了响应式的卡片博客布局。每个博客卡片包含了标题、预览内容和发布时间，成功启动了Web版本的预览和测试。

他做了这样的一个东西出来，让我们来看看这东西长什么样。你们应该还没有看到运行的一个结果，这个东西长成这样了。告诉我们说，我这是有博客的主题，博客的预览的信息，一个发布的时间，做了这样的一个东西，还有一个添加文章的一个按钮。

但是，他后边并没有去实现这个按钮。搞定了，那你说这种东西我要他干嘛使呢？那么丑陋，对吧？来吧，咱们干一个有趣的事情吧。我们来加一个调AI agent的API吧。来，先把这个应用的停止共享，关掉，重新共享脐橙开发环境。在这里添加一个页面，可以和AI agent聊天，要聊天界面。AI agent上哪去询问呢？我们用Defi吧。这是一个什么样的Defi功能呢？就是每次我给他一句话，他就给我写一个Midjourney的提示词出来。它实际上是用的DeepSeek V3的大模型来实现的相关功能。下一步怎么办呢？来，发布访问API。我们要使用它的API，我就把这些东西贴到Trae里面了。现在就不给大家看那边了，因为这个切来切去的太麻烦。

再往下一件事呢，是需要key。我怎么调用这个API？来，我们也告诉他API。好，看一下，我现在写了一个很长的提示词，说我要添加一个页面，可以和AI agent聊天，要聊天的界面。API的输入格式是这样的，这个是刚才我们从Defi里面去抄的，输出格式长这样，具体就不跟大家仔细看了。API key是这样，然后再写一个将输入改成阻断模式。好，回车，他干活去了。跟大家讲这个，什么叫阻断模式？就是我们经常看到，甭管是ChatGPT或者其他AI agent聊天的时候，那个字是一个一个蹦出来的，它叫流模式。如果是说我打完回车之后，一次性把所有的结果都出来，叫阻断模式。我们就不去处理流模式，稍微麻烦一点点。

好了，首先呢，他说我们要去增加一个按钮，接受。有了这个按钮以后，点击这个按钮就可以到新的页面里去了。他现在去创建新的，叫做chat page，那就是一个聊天的页面了。大家看嘛，这儿还有错呢，这个地方是有错的。为什么呢？因为那个chat page还没有创建出来，这块呢要稍微的等它一小会儿，全部接受，等于又给你做了一个200多页的文件出来。

这里也还有一些错误。这个错误是什么呢？AI修复一下。我估计应该是没有引用对这个东西。接受，应该在这个里边添加这个。这就属于比较笨了，所以大家看到了吗？这东西还没有那么聪明，就是需要改一些其他文件的时候，有时候没改对。所谓这个pop space.YAML，这个文件是干嘛使的呢？看他哈，还是没有自己把它加进去哈，那我们来手动添加吧，手动添加，添到这里吧。

Dio，这就是我们需要哪些库，就是干这个的。这还有个错误，AI修复。我现在就把自己当成完全不会写程序的人选，当然会稍微会一点点。如果完全不会的话，你们会看到说这个还是有一点难度的。修复接受，这是什么错误？缺了一个引用，就是我们做了一个新的文件，他忘了引用了。那么这块你说一点都不会咋弄，还是会有一点难度的。

OK，这个程序我们就可以去跑了。给大家看一下它运行起来以后的结果。这一次呢，我们并没有用Web的方式启动，它现在是一个Mac OS上的APP的一个应用。看，这里这个debug后面有一个按钮，这个就进入到我们的聊天的界面里来了。抱歉，发生了一些错误，请稍后重试。我们要来看一下发生了一些什么样的错误，经常还是会有错误的嘛。

还有呢，这个debug很丑陋，我们要看看怎么把它消掉。让我们回到开发环境里面去。首先我们要求删除主界面上debug的标签，还要思考一下，他想清楚了，要加哪句话。然后呢，说我现在要去修改程序了，全部接受，搞定。然后呢，我们再告诉他说AI聊天的时候报错误了，但是没有看到错误信息，将错误信息放在页面底部显示展示。他只告诉我们一个有错，这事你让我怎么去改这个东西嘛。

其实我们还可以去debug，这个事是可以的，但是我们用一些更简单的方式来去处理它。他要在这个文件里边去调整，全部接受，执行。首先看我们这里刚才有一个debug的，这个标签就没了，刚才我们做的第一项修改。然后进来，这个是什么意思呢？

实际上是他拒绝了为我们去连接。这个也是一个很常见的错误。什么意思呢？就是我们这是一个Mac OS应用。在做这个应用的时候，需要向本地的操作系统申请权限。我们没有申请去联网这个权限，所以他就给我们拒绝了。

我们先用一些简单的方式来测试吧。我们先不让他通过MacOS的方式来启动，这个需要去修改很多东西。当然，你具体也可以在项目里边去修改。你就是直接要求说：“我这现在缺一个权限，请给我加上。”这个事是可以的。

下面，我们用这个Chrome的方式来去执行Web的方式，它就没有这种问题了，它就可以直接去跑了。好，让我们开了一个页面，展示咖啡。好，你看，它给我们写好了提示词回来了：“午后，阳光洒在咖啡桌上，桌上有咖啡、糕点和一本书。”我们已经成功地自己写了一个程序，然后自己跑到我们的defi的服务器上去调用了。这个程序是大家眼巴瞅着我写的吧？一个舒适的咖啡桌，温暖的下午的阳光，有一杯咖啡，一个糕点，打开的书，阳光的角度，直接给你去写去了。就拿它去画MidJourney，不是效果很好吗？就可以得到我们想要的东西了。

但是你说，我们现在还想再看一眼，在Mac OS上怎么把刚才咱们这bug解决掉？好吧，咱们稍微再花一点点的时间来去解决这个问题。首先，我们要在Mac OS上去执行，然后告诉他说：“现在操作系统禁止我的MacOS应用访问HTTPS的网址，请帮我打开权限并刷新执行环境。”回车他就去干活去了，又开始AI思考中。呀，好喜欢这几个字。他告诉我会帮你配置MacOS应用的这个网络访问权限，需要在这个里面添加权限声明。他告诉你这个文件是在什么什么地方，说我们需要在这个文件里头去配置。那么接受再release一个东西出去，再接受执行。它要Flutter clean，如果不clean的话，他是有问题的。Flutter clean完了以后，怎么给了我一堆错误？执行，他去执行去了，看看这次对不对。

执行起来了。好，我们的MacOS应用在这里呢。点咖啡，看着有点像哦。出来了！我们在AI的帮助下，又把这个错误修复掉了。

但是你们有没有发现，如果你没有任何的编程经验的话，出了错误你是不知道该怎么办呢？但是像我这种稍微有一点点编程经验的业余程序员，就可以拿这种程序去进行调整了。而且这个程序，因为我是用Flutter写的嘛，我可以在Mac OS上运行，也可以在iOS和安卓上运行。以后我就可以把自己的一些AI agent，包括本地知识库，建立在网站上去。然后呢，自己写一个程序，在手机上就可以随时调用了。

这个就可以去展示什么叫“最后一公里”。否则的话，甭管是Defi也好，还是直接跳动自己做的Codes也好，都没有那么方便，最后一公里没有那么完善。现在所做的这些AI IDE或者AI集成工具，实际上就是帮助大家去补齐最后一公里的。

今天讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣有能力的朋友加入我们的付费频道。再见！

谷歌代码1/4由AI生成：程序员的失业危机即将到来还是杞人忧天？

Luke Fan — Wed, 06 Nov 2024 00:38:00 +0000

谷歌最新的代码中，居然有1/4是由AI写的，这到底是不是真的？程序员是不是又要失业了？大家好，欢迎收听老范讲故事的YouTube频道，咱们来讲一讲谷歌代码的事情。

首先，上面这个消息是哪来的？谷歌在发布三季度财报的时候，开了一个电话会议，由Alphabet的CEO皮彩直接在财报电话会议上讲的。他说我们现在至少有1/4的代码是由AI生成的。人干嘛去了呢？读这些代码，然后再把它确认入库，就像是AI建议大夫怎么开药，大夫开完药以后要在下面签名字一样。现在他是这么来工作的。

其实现在各个公司都在讲这个事情，百度宣称他们的代码里头有27%是由AI生成的，阿里呢，宣称他们最新的代码里头大概有20%是由AI生成的。当然，这个里头，百度应该是在骗人。

那你说为啥呀？有25%的，有20%的，有27%的，咋这27的就骗人了呢？大家要注意，甭管是谷歌说的至少1/4，还是阿里说的20左右，这个数其实都是一个大约的数字，或者说是一个概念性的数字。而这个里面，一旦提到一个很具体的数字，比如像27%这种数，那么这个数通常不会是真的，因为你很难去统计到底哪一行代码、哪一个字符是由AI生成的。你到底是按照行数，还是按字符数，还是按照什么样的方式来去统计比例，这个事情其实是没有一定之规的。

所以真正能够去验证说代码到底有多少是由AI写的，只有一个方法：你开除了多少程序员。原来10个程序员写代码，现在剩8个了，那你20%代码是AI写的；原来5个程序员写代码，现在剩4个了，开了一个，那你25%的代码是由AI写的。那这个里头，你到底能不能算到一个27%这样的一个有零有整的数据呢？这个大概率在骗人。

那咱们讲到开人的事情了，谷歌的程序员肯定就不乐意了嘛，上来说：“我们不承认这个事，你凭什么说我们25%的工作都是由AI做的？这不行，你是要降薪呢，还是要裁员？咱得把话说清楚，咱不能随便一张嘴就来这个事。”

当然，谷歌说这个话，包括百度、阿里说这个话，咱们能够理解他。为什么？因为人家是要靠AI来挣钱的。如果你自己不在身上贴个标签来，我也用AI了，你怎么好意思把AI的产品卖给别人呢？所以这个话人家还要说。其实，真正在里头挣到最多钱，或者说用户量最大的那个产品，他们公司啥也没说。最大的产品是谁？是微软的GitHub Copilot，这个是AI编程工具里的老大。但是微软从来没有出来说过，我们家百分之多少的代码是由AI写的。这已经不需要去争辩了。

其他需要追赶的厂商，挨个儿要出来说。当然，百度呢，属于是想去吹个牛，结果还没吹好的那种。人家20%、25%，他整了27%，稍微有些丢人。那么，从程序员的角度上来说，到底有多少代码是由AI生成的呢？因为我自己也是程序员，虽然现在只能算业余程序员。当然，有了AI编程以后，我觉得我这个业余程序员又行了。现在我的编程能力蹭蹭蹭的往上涨，我现在可以去学习一些原来不会的编程技术，因为我并不需要把一本书看完了。我只需要问GitHub一些问题，然后到VS Code里头用GitHub Copilot，就可以去进行新技术的使用，去编程去了。这还是非常开心的一件事情。

我们要去衡量，到底有多少代码是由AI自动生成的，这件事本身其实没什么意义。为什么呢？很早的时候，我应该是在2007年，在Borland的公司任职的时候，当时我们的开发工具里头就有这种代码自动补全的功能。只是当时的代码自动补全，它是根据你整个项目的编译结果来进行补全的。但是他的补全也不像现在这样，你可以补出一个完整的函数来，或者补出一整段代码来。他能干嘛呢？就是当你去一个地方，说我现在要补全这一个单词后半截，他是可以做到的；或者是说我需要去填参数，需要去填空的时候，他会给你一个比较好的建议，比如说，这里应该是填一个什么样的参数，什么类型的，你前面有没有定义过这样的东西。

可能是哪个哪几个里面去挑一个。他可以把这个约束条件收束得比较紧，然后让你一次性命中，或者可能一两次就可以命中。你真正要去填的这个东西，已经可以极大地提升效率了。这是在很早就开始有的。而且我们写程序这件事呢，我们经常干这种叫“一句顶一万句”的事情。

什么叫“一句顶一万句”？前两天跟一个语言学家去聊天的时候，他给我讲了一个事情。我们问他说，语言发展的方向是什么？人类语言发展的方向是什么？他给我们讲说，全人类的语言发展方向都是变得越来越简单。因为像西班牙语、俄语这种又非常复杂的各种格式的语言，现在都在变得越来越简单。因为你要交流、要沟通嘛。而且会有越来越多的这种代词，会有一些新的词汇产生。这些词汇可能原来会有一个很复杂的意思，他就用一个缩写，或者用一个很简单的词就给你带过了。

它是这样的一个发展趋势。人类可能说的话始终就是这么多，但是呢，我们这个话语里边所表达的含义，会变得越来越丰富，信息密集度越来越高。而且在这个过程中呢，各种对格式的要求会变得越来越低。当时他讲完那个故事以后，我就想起了我们程序员的一句顶一万句了。

我们使用的叫类库（class library）。原来你要去写程序的时候，你要写说：“我在屏幕上哪个点画一个红色，画一个绿色，下一个点再画一个什么颜色，拼起来是个按钮或是什么样的。”以前你要这么来写程序，但是现在的话，我们只需要告诉他说：“请给我画一个按钮，下头有个阴影，什么样的字体，给我写什么字上去就完事了。”那中间执行的部分都是谁来执行的呢？就是类库来执行。

你下一次说：“我连这个按钮具体想摆在什么地方我都不想告诉你了。”那你可以告诉他什么呢？你说：“请给我按照横向平均排列，比如三个按钮横着了。”他给你均匀地排开，或者你给我按照纵向什么排列。为什么我们后来这么写程序，不再告诉他你给我从左上右下去写？这个其实很简单，因为我们后面面临的各种设备越来越多，各种设备的分辨率是不一样的。

你如果每一次都写死了，说请给我从左边哪个点开始画，上面哪个点开始画，右下哪个点结束。你换到不同的设备上，长的位置不一样。所以我们后来都是改成说，请按照一个比例，给我画在一个什么位置上。那甭管你用什么样分辨率的设备，我们都保证这个按钮是在一个相应的比例的位置上。基本上是一句顶一万句。

那你要这样算的话，我们可能写了几百行的一个代码，但是呢，实际上这个代码编译了以后，可能有几十万行，或者有几百万行，因为你每一句后边，可能都调用了非常多的底层程序去工作。所以你说我来算一下，到底有多少代码是由人写的，有多少代码是由AI写的，或者人写的多少代码去调用了AI写的多少代码，或者AI写的多少代码去调用了人写的多少代码，这个事其实是没有什么意义的。

所以为什么我说百度，这个稍微有点夸张，27%算的还有零有整了。那么到底什么样的代码适合AI生成呢？有各种各样的地方都可以写代码。你说C代码适合AI生成，Python代码适合AI生成，Java代码适合AI生成，这个都没有什么意义。现在呢，AI代码生成器是我们常用的代码，都是可以生成的。

那么到底什么样的代码更适合AI生成，应该怎么去分类呢？我们分成四类：界面代码、逻辑代码、算法代码和接口代码。一般写程序大概率就是这4种东西。

什么叫界面代码？就是刚才我描述的，哪个地方写一个按钮，按钮什么颜色，字是多大字，字体什么样的，字写什么颜色，摁了以后该怎么办，这个东西呢就叫做界面代码。

哪一部分叫逻辑代码呢？逻辑代码就是，比如说你现在要去做一笔交易，这个交易我应该先确认一下库存够不够，然后确认库存够了以后，我在库存里扣除你的钱，把东西发快递发给你，然后把钱存到我自己账户里去。这一部分呢叫逻辑。

然后呢，算法代码，比如说我现在需要做个排序，需要做个查找，需要做一个很复杂的分类，这个东西呢就属于叫算法。特别是像现在做AI算法这一块，要求会越来越高。

还有一块程序叫接口程序。接口程序干嘛呢？比如说，我今天要使用谷歌的账号来进行登录，我就需要去查一下谷歌的文档，谷歌账户登录的这个API应该怎么去写。我应该先到谷歌哪个地方去申请这个权限。申请好权限以后，得到一个叫做TOKEN的东西。然后呢，再把这个TOKEN放到我们自己代码里去，按照谷歌的文档去调用某一个接口，把TOKEN放上去，说明现在我要用这个TOKEN，然后用谷歌的账号去登录。

得到了谷歌账号登录以后的一个凭证，之后我们在网上做各种操作的时候，就可以使用谷歌账号登录以后的凭证，再去申请各种各样的权利。这部分呢，实际上就属于接口代码。这四个里面，逻辑代码跟算法代码相对来说没有那么容易被替代，而剩下两部分，界面代码跟接口代码呢，相对来说是比较容易被AI所取代的。

而接口代码呢，是更容易被AI取代的。为什么呢？因为你不需要好看的界面代码，界面好不好看这件事是要靠人来看的，这个事情你没法完全被AI取代。但是接口代码是可以完全被AI取代的。像刚才我们讲的百度、阿里、谷歌，他们所使用的代码里头，接口代码的数量占比是比较高的。像公司内部这么多的分子系统，需要跟公司外部的各种系统去连接，所以他们需要大量的接口代码，这部分完完全全都可以交给AI去处理，而且AI会处理得非常好。

你不需要去看文档了。比如说，我举一个例子，我前两天希望在我的一个程序里边使用谷歌家的Firebase这种大数据库。原来你需要干嘛？看文档，看各种的接口，再进行一步一步的配置。因为你可以直接从Web端访问这种云端数据库，所以它在安全处理上做了非常多的认证，这不是那么容易的。我就交给AI了，我说我现在要干这个事情怎么办。它说，行吧，我给你搞定吧。你第一步先到谷歌那去申请这个授权。我说申请完了，那行了。然后它说，下面我们去执行哪一个命令。

这个命令就可以自动化地帮你做完所有的配置。然后我就开始做这个命令，做完了以后说，谷歌上你申请了哪些项目？你现在想把你这一个APP所使用的数据库挂在哪个项目的授权里头去。然后只要选一下，剩下都不用管了。他在问你说，你这个应用是要在Mac OS、Windows、iOS、安卓、Web，需在哪些端跑。先是打勾，打完勾以后，一按确认，他就呲咔嚓嚓嚓咔给你去搞去了。可能在这个过程中，他就生成了几百行、上千行代码，把所有的配置给你做完。这就是挺好的事情嘛。

现在呢，有非常多的成熟的AI编程工具。我最早使用的AIGC工具实际上就是Github Copilot，它就是AI编程工具，非常好用。现在呢，我自己个人使用最多的AI变声工具还是GitHub Copilot，那没办法，我交了100美金给他，我总要把这一年使完。虽然很多人都说Cursor好用，我也确实用了一段时间，在他给我的免费试用期里试了一下。但是现在看来呢，我觉得Github Copilot还是很好用的，可以把Cursor基本上扔掉了。为什么呢？就是底层的模型还是做得很好的嘛。

你像Cursor自己，底层的模型也是用的GPT-4O，GPT-4O MINI，用的GPT-o1以及Cloud 3.5 Sunnet。现在Github Copilot也是把所有的模型都扔进去了，而且下一步可能还会去开Gemini 1.5 Pro这样的模型进去。他的所有功能又非常完善，我觉得Github Copilot还是可以再战几年的。而且Cursor再怎么着，他需要20美金一个月，他一个月要找我多收10美金，还是觉得稍微有些心疼。

国内呢，有一大堆免费的产品，比如说阿里的通义零码，百度的叫文新快码，质朴的叫Codegeex，字节叫MARSCODE，就是火星代码。这些都不要钱，免费的大家可以随意去使用，效果呢其实都还可以。我用过字节的MARSCODE。

其他几个用的不多，基本上可以满足大家的需求。现在所有的这些工具做的，使用的方式都差不多。你只要向它提出要求，说我想去做什么，什么事情都是有聊天窗口。你直接提完要求以后，它给你生成代码。生成完代码以后呢，你只要说：“哎，我现在需要去进行合并了。”它就把新生成的代码直接跟你原来的代码进行比较。合并完了以后告诉你：“哎，这我给你加点什么，那给你改点什么。”你只要去确认就行了。确认完了以后，这些代码就合并到自己的代码库里边去。

或者说你直接在代码库里边打字的时候，它也会根据当前的情况给你做一些建议，使用方法都很像。另外呢，所有的工具都有代码解释。什么叫代码解释？就是你选中一段代码，问：“给我讲讲这段代码说什么。”以及改错误。遇到错误了，或者有什么错误信息出来以后，把这些东西扔给这些大模型的聊天窗口，问：“这到底咋回事，我应该咋改？”所有这些功能差不多，但也都有很多不方便的地方。

你比如说，我最近在学习一个新的开发环境，叫 Next.js，算是一个前端加后端的开发工具吧。实际上都是错的，因为分很多版本，不同的版本之间有不同的约束。每一次在回答问题的时候，它就忘记了你前面的约束是什么，然后就给你一些错误的代码。现在请给我把错误改掉，它也都给你改的没有问题，能给你改过来。但是你下次再要求它生成的时候，还是会有一些错误。你说：“哎，现在再去给我把这些错误都改了，通通通给我改回来。”这是可以工作的，但还没有那么顺畅。

那么程序员是不是又要失业了呢？百度的李彦宏就讲过说：“再过多少年就没有程序员这个职业了。”当时还引出周鸿祎以及一大堆的行业老大跟他对喷。那么程序员是不是又要没有工作了？这个里头呢还差那么一点点。现在那到底差在哪一点上呢？这个临界点到底是什么呢？临界点就是如果你完全没有受过编程训练，这些工具你使不了。什么意思？你说：“我就是个文科生，我这个程序一点都不懂，完全不知道。”

这个程序的架构是什么样的？什么叫面向对象？什么叫函数式编程？什么叫顺序编程？这些东西，比如说你都不了解，那所有刚才咱们讲的那些工具，就跟你都没啥关系了。等真到哪一天能够达到说“端到端，上帝说要有光，于是就有了光”的时候，那那个时候程序员就真的失业了。现在还不行，你还是需要经受编程教育，才可以使用刚才我们说的这些工具。

那你说这个临界点，是不是在近期就可以快速被突破呢？嗯，可以说是，也可以说不是。为什么呢？因为你去想一下，说你用嘴去描述一个应用需求的时候，你能说得清楚吗？有一些简单的通用化的需求，你可能能够快速地用嘴把它说清楚。对于这一部分来说呢，程序员确实没什么用了，你只要告诉他：“我现在想要什么东西”，马上就交给你了，这个事是可以的。但是所有的复杂需求，你用嘴一句说不清楚的，或者需要很多人去一起才能把一个事情定义明白的这种需求，这一部分呢，短期内或者说在相当长的一段时间内，这个临界点都是过不去的。

所以为什么说既是又不是呢？就是看你的需求到底是有多简单，还是多复杂。昨天还有一个朋友说：“哎呀，我想去学一下编程，想做一些应用。”后来我说：“你想干嘛？”然后提出来的那个应用的需求叫复杂呀。我说：“你再好好想想，你要看什么？你又没学过编程，何必要跟自己过不去呢？”

那么现在学习编程还有必要吗？还来得及吗？首先，现在还是建议大家去学习一下，只是呢，学法可能需要调整一下。就不需要像我当年上大学那么个学法了，我们可能只需要学一些基础知识，剩下的交给AI就完事了。我们上大学的时候，大量东西需要背，记忆这种事情，计算机永远比人强。所以未来计算机编程，肯定也是需要新的教学方式的。

再往后一个问题，什么样的程序员最容易失业呢？第一个，产品向的程序员其实是可以大展拳脚的。什么叫产品向程序员？就是他知道我做这个东西是为什么，我到底在解决一个什么具体的产品需求，而且可以去跟真正的需求方进行讨论，去确定产品需求的这些人。

或者说，他有一部分产品经历，职能的这些程序员，对于他们来说呢，未来大有可为。为什么呢？就是原来他们沟通明白了以后，还需要跟一些编码的程序员再去沟通，再去写一大堆程序，而且这个沟通成本还很高。

现在的话，他们只需要把前期的需求搞明白了，后面他自己就可以在AI的帮助下，快速地完成大量的代码了。然后，算法向的程序员呢，这个其实永远都不够用。你只要是能够把算法的效能提高一些，把一些原来做不了的事情能够做掉，这一块的需求是非常大的，特别是在AI时代，这一块的需求会变得更大。

那你说前端程序员呢？前端程序员，未来应该会更多地被设计师所替代。就是我能把画画出来了，那你这个程序就算写完了，不需要再通过这个画再怎么切，切完了以后再怎么一块一块拼起来。这一块其实就不太需要了。

因为以前我们去写程序的时候，都是先让设计师设计，设计完了以后呢，我们在写程序的时候，再把这个设计的稿件搬到这个程序的表达上面去，原来有这样的一个过程。以后呢，就不需要了，直接设计师就完事了。

当然，设计师说我也烦这了，别来烦我。设计师烦什么呢？这边还有文生图的很多模型，mid journey、达利，还有一大堆这样的模型，我都快失业了，你们不要来烦我。可能是未来会有一个过渡吧，有一段时间还是需要他们的。

等过完这一段时间以后呢，更多的可能是需要他们提出想法，然后再把大量的文生图所产生的结果进行判断，我到底要哪个，不要哪一个，或者拿到一些文生图的结果以后进行一些精修，这可能是未来的一个方向。

现在已经有一些公司里边出现这种岗位了，就是给机器人打工。机器干完了以后，这个图出来了，让美术去修这个图。原来一个美术可能还能挣个一万多块钱，没准只做得好的能有两三万。现在这种给AI修图的美术的话，一个月的薪水大概也就只剩五六千了。

原来写接插件的这些程序员，很多程序员原来是给接口写程序的，这些程序员呢，以后应该重新找找新出路了。

也只能言尽于此了。对于整个程序员行业来说，现在真正需要做的事情，不是说我到底应该向产品向程序员发展，是向前端程序员发展，还是说我应该去做一些算法，不是这个事情，而是什么呢？应该要找出更多的需求来。如果整个程序的需求量不上升的话，那么大量的程序员失业，这件事情是不可避免的。

所以现在呢，还是要去看看，我们到底能够用AI配合程序员做点什么事，这个是需要现在去思考的。未来AI程序的占比呢，一定会越来越高，甭管现在谷歌说的至少1/4，阿里说的20%，还是百度说的27%，未来这个数一定会越来越高的。而且程序员呢，也不像是很多设计师似的，一定要用笔画，没有这支笔了，我就失去灵魂了。程序员从来不讲究这种事情。

现在欧美的程序员已经大量的开始使用GitHub Copilot这样的AI编程工具，国内的我相信也是如此。你说我就不用这个玩意，除非你最后变成行为艺术，否则真的没有任何意义。人以后真正需要做的事情是什么？不是看代码，改代码，不是这些事情。人以后真正需要做的事情，叫提出问题。我到底要解决一个什么问题？我希望通过什么样的方式解决？我需要规避哪些东西？这个是人真正需要干的活。

然后呢，是检查结果。AI拿出来结果以后，你要去检查一下，是不是很好的依从了你前面的提示，还是说你前面的提示本身有一些什么样的问题？是不是有一些代码拼接接口的地方，有不合适的地方？有不合适的，我们就再拿出来修改一下，或者说再告诉AI说这里不对，再给我改一改。就哪怕我自己不会改也是如此。

你像我现在使用新的编程技术去写程序的时候，这个编程技术我除了一些大的逻辑清晰之外，其他的所有细节我都不知道。报的所有错误，都是人给GitHub Copilot说来给我改一下，出什么毛病了，在这个地方我希望怎么个改法，他就去给我认真的修改。只是比较费劲的就是屡教不改，这次犯了错误，下次接着犯，这次是改正了以后，下次接着改。

这个是让人稍微有一些烦恼。所以，人呢，就是提出问题，检查结果，最终再把一些新的问题处理掉。这就是人以后干的事情，找到更多的需求，才是避免大面积失业的一个唯一途径。我觉得现在咱们不用去纠结，到底是有多少代码是由AI写的，这个没有任何意义。

好，这就是今天跟大家讲的故事。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

AI编程 – 老范讲故事｜AI、大模型与商业世界的故事

金融时报曝光诡异曲线：2025年Q3发生神逆转，AI智能体爆发前夜？

本期内容概览

英国《金融时报》的数据解读：全面爆发

爆发的原因：Claude Code与Codex的普及

AI变革的质疑与“行为艺术”

iOS APP审核压力：围剿AI套壳应用

苹果的应对措施

生产力大爆发了吗？背后的逻辑

1. 为什么此前数据在下滑？

2. 为什么突然上升了？

3. 新增的代码和应用是什么？

4. Vibe Coding带来的变化

中国人的数据哪去了？

实名制的门槛

OpenCloud的爆发

结语与展望：寻找价值与云厂商爆发

背景图片

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

GPT-5.2我已经用了两天了，效果到底怎么样？

GPT-5.2：应对Gemini的“红色警报”产品

两天来的个人使用感受

优点：输出质量显著提升

缺点：速度极慢与应对策略

恼人的上下文处理异常

图像能力：推理增强，生成不变

性能揭秘：深度解读新指标GDP val

选择性公布的领先指标

全新指标：GDP val（通用开发者生产力验证）

考核重点：从头到尾完成复杂任务

测试过程：模拟真实开发者场景

长上下文任务考核

评分机制与核心要求

GDP Val的意义与得分情况

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

重要澄清：GPT-5.2不是Garlic

匿名参赛：Robin与Robin high

LM Arena vs GDP val：评测标准有何不同？

GPT-5.2的定位：到底强在哪里？

未来值得期待的更新

总结：一款为专业工作者而生的“红色警报”产品

别只盯着股价了，阿里真正的翻盘点在这里：全栈布局+开源大旗，它正在复制英伟达“左手倒右手”的高明玩法｜阿里巴巴 AI 大模型 阿里云 战略 通义千问 云计算

GPT 5 Codex，普通人的技术平权里程碑！程序员神话被戳破？当AI能可靠执行7小时复杂任务，普通人与专家的差距还剩多少？｜揭秘 Codex、OpenAI、GPT-5、GPT-5-Codex

别只当成科技八卦！Anthropic反华禁令背后的意识形态挂帅 vs 商业求生｜Anthropic Chinese-Owned Firms AI Services Ban Claude AI

停止错误尝试！Midjourney Video“见光死”的根源被揭开，它并非Sora的竞品，而是顶级的动图神器，我们将一步步教你如何用它称霸小红书。

GPT-3与O4 mini不再高冷：融合工具调用、记忆与超强图像推理，普通人也能高效应用AI，一文看懂成本、限制与Copilot捷径

和文科生聊了一小时编程，感受到AIGC时代，文科生更加不可或缺了。程序员、产品经理和设计师的相爱相杀还会继续。AI现在还不能取代程序员，更不能替换文科生的诗和远方。

字节跳动全面进军AI编程 | Trae抢占AI IDE市场，质量与免费就是杀手锏！剑指AI落地的最后一公里，仅限字节跳动在AI领域的野心

谷歌代码1/4由AI生成：程序员的失业危机即将到来还是杞人忧天？

别只盯着股价了，阿里真正的翻盘点在这里：全栈布局+开源大旗，它正在复制英伟达“左手倒右手”的高明玩法｜阿里巴巴 AI 大模型阿里云战略通义千问云计算