AI推理能力 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

Luke Fan — Sun, 14 Dec 2025 00:54:07 +0000

GPT-5.2我已经用了两天了，效果到底怎么样？

大家好，欢迎收听老范讲故事的YouTube频道。

GPT-5.2：应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的，它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5，我们记得是有三年，但是在这之前，OpenAI已经苦逼了好多年了，所以这是OpenAI自己的十周年生日礼物。这个产品，应该是应对谷歌的Gemini 3 Pro的一个紧急版本，是在GPT-5的基础上进行了调整和训练得到的，更加注重长时间推理结果，结构化的输出更像系统，也就是更不像人。这个东西很多指标都遥遥领先，当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点：输出质量显著提升

用了两天了，我自己使用的感受是什么样的？输出的结果确实要比GPT-5.1要好很多，它的输出结果更全面、更准确，而且输出的结果整个的排版格式也是非常舒服的。

缺点：速度极慢与应对策略

但是，好慢好慢好慢！重要的事情说三遍，这个东西真的是很慢。当然，也有可能是新版本刚发布，用的人很多，但确实是慢，让我把默认的thinking模式都给取消了，改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出；如果是直出模式的话，就是不判断，直接给结果就完事了。当然了，我还有一个方式来应对速度，就是在GPT旁边再开个豆包，豆包是相对来说要比它快很多的。

恼人的上下文处理异常

另外，有一个让人使得很不爽的地方是什么？就是GPT-5.2的上下文处理经常发生异常，经常有一些很诡异的表现。什么意思？我们在一个对话里聊天，你前面问了一个问题，七嚓咔嚓给你答了一大堆，你再问下一个问题的时候，他经常把上一个问题已经答过的这些内容，又给你稀里哗啦地给你挂上。

你比如说，你前头问了123三个问题，给了你一个答案，然后你再问456三个问题，他会先总结一下前面123的三个问题的答案是什么样的，然后456这三个问题的答案是什么样的，他会给你这样的一个结果，让我自己看起来觉得有些奇怪。

所以，如果大家要去问新问题了，最好要开启新话题，不要在原来的对话里头一直聊下去，因为他会把前面的所有聊天内容通通放到新的对话里边去进行思考的，会影响我们答案的质量。因为我试过几次，当我突然在一个对话里头问了他一个不相干的问题的时候，他也是会把前面我们整个对话的内容再给我回顾一下，然后我后面的这个结果会严重地受到前面问答结果的影响。所以，你要问一个不相干的问题，就开个新窗口或者打开新话题。

图像能力：推理增强，生成不变

图片的推理跟分析确实是增强了，但是生成的部分没改。

本视频的全部内容都是由GPT-5.2完成内容整理的。这是最近我的一个新习惯：讲Gemini 3 Pro的内容，就完完全全用Gemini 3 Pro生成；讲DeepSeek V3.2的内容，就完完全全由Deepseek V3.2生成；讲GPT-5.1、5.2的内容，咱们就用GPT-5.1、5.2来生成。也是让大家有一个真实的体会。

性能揭秘：深度解读新指标GDP val

很多人说不对，GPT-5.2出来了以后，各项指标遥遥领先，都领先了Gemini 3 Pro了，按照我刚才讲的这个过程，怎么好像各有春秋的样子？

选择性公布的领先指标

怎么说呢？GPT-5.2的很多指标其实并没有公布，他们只公布了自己领先于Gemini 3 Pro的这些指标。但是这已经是有了巨大变化了，在以前GPT发布的所有的指标里头，它只跟自己比，它是从来不跟别人比的。所有GPT、Gemini和Anthropic的Claude相互比较的这些数据，都是社区的人，或者说媒体的人给他总结的，他们自己是从来不发布的。老大要有老大的风度，我天天去跟下边人比，这事肯定是不行的。但是这一次，他发布的这些指标都是有Gemini 3的这个数据，也有Claude 4.5 Opus的数据，它们是进行比较的。但是，OpenAI只列出了它领先的这部分，不领先的部分通通都没说。

全新指标：GDP val（通用开发者生产力验证）

甚至为了领先，还设置了一个OpenAI的新指标，这个指标叫GDP val（val是小写，GDP大写）。这个指标的意思是什么？叫“通用开发者生产力验证”，它是模拟真实开发工作的一个测试体系，衡量一个模型是否真的能够提升专业知识工作者，尤其是开发者的生产力。像我才算是专业知识工作者，我确实是感觉到我的生产力提升了。这个指标设计的核心是什么？

首先，它不关心模型会不会做选择题，也不关心模型能不能背知识点。因为什么？我们现在让模型去回答问题，都是有搜索的，或者说有这个本地知识库的，不需要模型给你编任何东西，而且我们很害怕模型给你编东西，所以这个也不是考核指标。
至于是不是能够命中标准答案，这件事也不重要，你设置了一个标准答案，正好答的一个字都不差，这个事也不考核。

考核重点：从头到尾完成复杂任务

那他考核什么？

它考核的是一个复杂任务能不能从头到尾完成，输出是否可以直接用于工作。
中间是否出现致命的理解偏差？还有很多步的这种推理，你中间是不是理解错了？这个要去考核。
是否需要大量的人工返工？给我了一个结果，我还要告诉你说错了，这个地方你没理解对，那个地方我还有一个要求，这还有一个隐藏的条件你没有照顾到，这个就叫人工返工。这都属于重要的考核方向。

测试过程：模拟真实开发者场景

那它测试的过程是多步骤专业任务。举个例子，阅读一份需求文件，分析约束条件（一般需求文件里都是有各种约束的嘛），然后设计解决方案，给出结构化的输出——代码、文档或者是方案，直接是让他做一个完整的任务。任务通常包括隐含条件、非显性约束、多个正确但质量不同的解法，所以为什么没有标准答案。通常会给他一个真实的开发者场景，例如：

重构代码：我这个代码原来已经写好了，也能测试通过，但是它不符合高内聚、低耦合的代码规范，这种代码后续的维护、升级都比较费劲，你需要去进行重构，让一个函数变得小一点，让这个类有这种继承关系，让这个代码可以重用，这个东西叫重构。
补全缺失模块：我们写好了一些代码以后，或者缺几个模块，你给我写去。我提一句话，他得给我干完，不能说在中间问你一大堆别的事情，或者给你一个半半拉拉的一个结果，这事都不行。
修改接口而不破坏兼容性：经常我们会遇到什么？就是你写了一个代码，然后这个代码中间的某一个库升级了，这个库的接口就会发生变化，你需要告诉这个系统说，我现在接口变了，你现在去给我调整代码，让他重新给我兼容上去。这个也是GDP val的测试用例。
在限定的规则下修复问题：这个也是我们在写代码的时候经常会遇到的一个很痛苦的事情，你说出错了，他有时候没把你要求的这个地方修改掉，还把其他很多地方给你改的乱七八糟的。现在你可以告诉他说，你就给我改这几个地方，别地儿别动，他会给你去处理。

长上下文任务考核

而且会去做这种叫长上下文的任务，就是输入信息很长，包括无关信息和干扰信息都会输进来，要求模型自行判断哪些重要。考核的话就是上下文的理解能力、信息筛选能力、工作记忆的这种稳定性。但是这一块我觉得还有待提升，因为刚才我也讲了，你在这个很长的聊天过程中，如果突然问他一个很跳跃性的问题，他会搞乱掉的。这一块那你说到底是怎么更好一点？应该是允许他在工作过程中开个小差、聊个天，还是说你在工作过程中就认认真真干一个工作？反正各有取舍。

评分机制与核心要求

那评分机制是什么样的？人工评审。这个任务是否完成？是否存在关键错误？是否可以直接使用？决策是否合理？是否在边界条件下崩溃？最后这个是非常非常重要的，因为我们让AI去干活，他经常会只照顾到比较普遍的这种情况，但是一些边缘的情况就会照顾不到。这个评审是要求你都要照顾到。

在这些条件里头，最重要的是什么？一次完成。不鼓励反复追问、人类手动修正，更看重的是一次性给出可以交付的结果。所有这些文字都是GPT-5.2直接输出的，一个字都不带差的，大家看它交付的结果还是相当可以用的。明确区分部分完成和可交付，部分完成是属于不合格的，接近正确是没有价值的。

要被严重扣分的行为是：

逻辑正确，但是漏掉关键约束；
方案可行，但是忽略明确要求。

GDP Val的意义与得分情况

GDP Val的意义是什么？就是企业用户、AI agent的系统自动化流程、专业知识工作者，特别是开发、分析和研究的这些人，主要是给他们用的。至于你说我要娱乐一下、我要陪伴一下、我要跟他聊个天，这都不是给你用的。GDP Val不是在测模型有多聪明，我们也不需要它有多聪明，而是在测你把工作交给他，第二天能不能直接交差。这个是主要测试的目的。

得分的话，各模型表现如下：

GPT-5.2：70.9分
GPT-5.2 Pro：74.1分
Anthropic Claude Opus 4.5：59.6分
Gemini 3 Pro：53.5分
GPT-5.1：38.8分
GPT-4：18.6分

我觉得GDP val的指标还是非常有效的，现在我让GPT-5.2去干活的时候，拿出来的东西是基本可以直接用了，这块确实有很大提升。

与LM Arena榜单的对比

GPT-5.2在LM Arena上并未领先

Gemini 3 Pro发布的时候，号称领先的LM Arena的那个指标，1,501分的那个指标，这是第一次超过1,500分，有史以来第一回。这一个指标上，GPT-5.2超过了吗？首先跟大家讲，GPT-5.2这一次发布的时候就没有公开这个指标，它只公开自己领先的指标，所有不领先的指标都没有公开，所以GPT-5.2应该是没有超过。

重要澄清：GPT-5.2不是Garlic

特别强调一点，GPT-5.2不是garlic。很多的文章在说garlic发布了GPT-5.2，注意，不是。大蒜模型从来没有被验证过，也没有在任何的匿名竞技场里头出现过这个garlic模型的名字，是从内部意外流传出来的。但是Garlic模型到底应对的是哪一个版本，这个现在不确定。但是所有说GPT-5.2是garlic的，都属于是产生幻觉了，甭管是人产生的幻觉，还是AI产生的幻觉，这个事本身并不重要。

匿名参赛：Robin与Robin high

GPT-5.2自己有没有参加LM Arena的这个竞技场？参加了，他也去做了这个评分了。但是LM Arena这个竞技场里边都是匿名的，当时Gemini 3 Pro进去的时候也是匿名的，GPT-5.2进去肯定也是匿名的。它在这个里边有两个模型：

Robin：测试的评分是1,399分（Gemini 3 Pro是1,501）；
Robin high：这个模型有可能是GPT-5.2 Pro，就是那个贼贵贼贵那个模型，它的测试结果是1,486分，也没有超过1,500分。

所以这一次，OpenAI就没有列这个成绩。现在普遍认为这个Robin就是GPT-5.2，Robin high应该是GPT-5.2 Pro。

LM Arena vs GDP val：评测标准有何不同？

这个LM Arena，它叫人类偏好测试，它是由真人用户直接投票来产生的。大模型匿名参加，谁也不知道谁是谁，但是其实你说匿名，也没有那么严格，大家都能猜出来具体哪个是哪个。他的测试过程是什么？就是用户输入一个真实问题，随机抽取两个模型，不显示模型的名字，同时返回两个答案，由用户来投票。那评分的方式是每个模型上来初始分1,000分，赢了比较强的模型加分——这个里头要注意，不是赢了就加分，是赢了比较强的模型才加分——输给比较弱的模型减分。它这个过程有点像打游戏，我们经常在游戏里头需要进行配对，你现在要跟谁去做PVP了，他也会去找一些跟你的排名差不多的这些人。

他这样的评测主要强调什么？是回答是否有用，逻辑是否清晰，表达是否自然，是否符合人类的直觉，多轮对话的舒服程度到底怎么样。它不强调哪些东西？是否背过某道题，是否命中固定答案，是否针对benchmark专门优化过，这个通通都是不重要的。所以“小镇做题家”在这里头是搞不定的，包括上面OpenAI自己做那个标准，也是搞不定的。

Gemini 3 Pro得分1,501，GPT-5.2 Pro得分是1,486。但是都叫Pro，差异很大。Gemini Pro它的价格还是相对比较便宜的，也比较快；而这个GPT-5.2 Pro贼贵，没有太大的必要，千万不要去尝试，非常非常昂贵。

GPT-5.2的定位：到底强在哪里？

它是消耗了更多的算力，直接获得能用的结果。更慢、更贵，但是结果基本上直接可用。核心特点包括：

有些仓促，确实是有点着急，红色警报嘛，确实有点着急，所以会出现这种上下文错误。
更多的是面向B端用户，不是娱乐的。
主要是针对Gemini 3 Pro和Claude 4.5 Opus。

我觉得Claude 4.5 Opus有点危险。为什么？因为我们以前的竞争经常是这样：老大跟老二打了半天，把老三、老四、老五、老六全都给干掉了。Claude 4.5 Opus这一点就稍微的要弱一些。现在通过GPT-5.2大家可以看出来，全能型的模型，就像全能型的人一样，是很难做出来的，既要幽默风趣有情商，又是办公小能手，这个很难兼得。大模型的进一步提升，普通人已经越来越难以直观感知了。解决具体实际问题，是目前各大模型厂商所关注的重点。

未来值得期待的更新

OpenAI的图像生成模型：还是值得期待一下的，因为这个东西好长时间没有更新了。特别是Nano Banana叠加了迪士尼的版权授权之后，OpenAI的图像生成模型就更值得期待了。迪士尼版权授权这件事，回头我再抽时间再讲。
明年的成人模式：也许是为个人娱乐服务提供的一个新方向。但是这一块最好不要抱太大的预期。为什么？第一，不能显得老范太低俗了，这个不重要；最重要的是，OpenAI现在是风口浪尖上，大家都在拿显微镜看它，而成人模式这件事情，本身尺度是非常难以把握的。所以对于这一点上，不需要抱太大预期。

总结：一款为专业工作者而生的“红色警报”产品

总结一下，GPT-5.2作为“红色警报”产品，算是紧急上线了。我自己用起来的感觉还不错，比较符合我的使用需求。我也往自己脸上贴个金，我算是专业的知识工作者。未来GPT会继续在我的文字类工作流程中占据主导位置。中间我大概是换Gemini换了几周的时间，但是现在我又换回去了。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

Manus全解构：国运级AI Agent背后的真相，自动规划工具是否真的不可或缺？

Luke Fan — Mon, 10 Mar 2025 00:50:34 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲突然刷屏的Manus。它的来源呢，是个拉丁语单词，是“手”的意思，同时呢还有“权力”和“力量”的意思。现在呢，华为造汽车就全都是《山海经》，做AI产品全是拉丁语单词，好厉害的样子，对不对？

现在这个事情呢，应该是从昨天开始，突然就变得一码难求了。我应该是在昨天看到谁呢？王舒义，天津师范大学的一个老师，他发了一条说：“哎呀，得到那个测试码了，怎么怎么着了。”我当时都没想说这啥玩意儿，没惦记这个事，因为呢他们那个Monica我也没怎么用过。Monica这个产品对于我来说，还是有点太奇怪了一点。待会我们再继续讲。

后来到昨天晚上了，突然就开始传出来说这个东西已经在闲鱼上炒到好几万了。又一个国运级产品出来了，中国人再次震惊了世界，说老美又怎么样了，全世界又如何如何了。今天再一看这个，各种新闻媒体刷屏了。我直到开播之前犹豫再三，说算了，还是去申请一次吧。咱们虽然没用过，但是好歹也算申请过了。本来我是连申请都懒得申请的一个产品。

团队呢，也出来求饶说，有人在攻击和破解他们的网站和服务器。这个很正常嘛，你一旦做的好了以后，大家总要上来看一看。那DeepSeek最近也才是逐渐的，号称要恢复正常。但是我却试了一下，一试还是问三个问题，就停下来那么一个状态。现在团队说玩不下去了。而且呢，说几万块钱在闲鱼上买这个邀请码，这事呢他们也出来澄清说：“我们从来没收过任何钱，您千万小心别上当受骗，上当受骗了也别上我这来找来，我这没收到过钱。”

那么，AI agent是不是真的就要爆发了呢？因为咱们从去年就开始讲，说2025年就是AI agent的一年。突然到3月份，就放出了一个王炸性的产品来。这个事是不是行？首先呢，不要太兴奋，这个东西呢在国内是使不了的，必须到国外去使去。为什么？因为底层是GPT和Claude 3.5、3.7这样的模型，这些模型在中国是没有经过安全审查的。

不能落地。而且人家这些模型上，也是明确的告诉你说：“我不愿意在中国地区为你服务。万一我给你服务了，你拿去维稳了，或者做了点别的事情，我们也担不起这责任。”所以Manus这个产品在中国不能用的。他们家的Monica.im在国内也是不能用的。他们纯纯是一个出海的服务商，而且呢，其实是一个非常非常小的服务商。他们的整个的产品，在海外没有那么多用户。

那么Manus到底是干嘛的，或者你到底能干嘛呢？现在能够出来看到的，绝大部分都是官方放出来的一些视频：晒简历、做房地产的评估、旅游的规划呀，全都是这样的东西。因为拿到邀请码的人不多，就算是拿到邀请码的人，可能也还是要给一些面子。但是也有人说自己上去了，觉得一点都不好使，问的所有问题都翻车了。这个我觉得都是可以理解吧。

Manus最强的地方是什么？就是自己规划任务。因为原来我们都是靠这个，像流程图一样去自己画，说我们先干什么后干什么，每一步怎么怎么做。现在说不用了，他自己来规划。你问他一个问题以后，他自己做计划，说我先查哪些资料，再查哪个网站，然后再怎么把它拼在一起。然后呢，可以自动的执行，自己生成一点Python代码，自己去把它跑出来。然后呢，给出最终的结论呢，实际上像一份大报告似的。而且很多人看到这份报告以后觉得：“哎呀，这个写的实在是太好了，甚至给我画图表、画表格。”

画表格这件事是非常非常容易的，千万不要被这玩意骗了。像我们写Markdown格式，或者在计算机里边，写很多的语言的时候，都是可以画出来的。你让ChatGPT画个表格，它也能画出来。但是你让它给你画图表，肯定是画不了的，还是要去调用一些特殊的语言功能才可以画出来。ChatGPT他没做这事，现在统统都干了。

非常多的人一看了以后说：“哎呀，这个简直是如虎添翼，每一个人都可以成为研究者了。”而且说，这是不是AGI看到曙光了，这个东西就是未来了。所以也有很多人说，这就是下一个国运级产品。

DeepSeek的这个辉煌再次上演了，那么是不是值得这么兴奋呢？又一次国运级的创新诞生了吗？我觉得一个不能在中国使用的服务距离国运就还稍微有一点点遥远。你DeepSeek再怎么说，咱们全国上下都在部署，你一个无法在中国合法落地的产品，中国人在这呼哧呼哧在这炒作，这个是很无聊的一个事情。而且DeepSeek本身在代码生成方面，其实差得也还比较远。Manus这种产品，它是不可能靠DeepSeek大模型就在国内部署起来的，它必须要有Claude，必须要有ChatGPT才可以完整的跑起来。如果DeepSeek就可以带着他自己整个跑起来的话，他就可以在国内上架了，但是他不行。

那为什么我说DeepSeek在代码生成的方面差得非常远呢？因为我昨天花了一整天的时间在尝试用DeepSeek去写程序，那叫费劲，比Claude 3.5、3.7真的差的不是一星半点，是差的太老远了。Manus跟DeepSeek比起来，还是有很大的差距的。DeepSeek让国内所有的大厂都跟着走，Manus，国内大厂呢有可能会超他，但是呢也不一定每家都会去抄一遍，因为现在这个方向呢，大家也还在观望之中。它不像是DeepSeek，彻底把国内所有的这个大厂全给翻了一遍，所有跟云计算相关的所有运营商全都装DeepSeek去了。

DeepSeek已经改变了全球的AI格局，还带崩了英伟达的股票。而这一点上Manus就更加没有比较了。DeepSeek自己服务半停摆的情况下，依然可以搅风搅雨，那Manus呢只能算是一个标记性的时间点。他出来了以后说，哦，我们看到了一个新的产品形态，而且大家还挺喜欢，可以自我规划的AI agent可能就能够用了。那么国内的这些大厂，包括一些小一点的厂，系统经营商呢，应该就可以去冲一波了。而这个就是Manus现在带来的一些变化。Manus现在也说我们要开源。

这件事我觉得还是稍微值得期待一下。现在呢，大家最希望他开源的，是他推理和规划的这个“小模型”。但是人家具体什么时候开，开什么东西，现在还没有确定下来。那么讲这么热闹，这东西到底咋实现呢？是不是一套壳产品呢？只要是中国人做的，大家都要问一下。而人家呢，上来也承认了，说我们就是套壳的，没什么好说的。

什么叫套壳呢？就是你没有自己的大模型，大模型用的就是Anthropic、Claude 3.5、3.7、OpenAI的GPT以及DeepSeek。它是没有自己可以拿出来展示的大模型的，使用的都是公开模型。所以呢，可以算是一个套壳产品。甚至还讲了说，我们把套壳做到极致，就如何如何。但是呢，它这个离极致其实还稍微有一点点远。

那么为什么是现在这个时候，Manus这种产品出来了？这种可以有自我规划能力的GPT，其实早就有。最早有一个产品叫OTO GPT，但是一晃眼儿就不见了。现在呢，是Claude 3.7、ChatGPT，特别是DeepSeek R1，这个模型已经变得很强了。而且像DeepSeek R1这样的产品，如果你自己部署的话，你的成本是可控的。像Claude 3.7这样的产品，其实并没有那么贵，整个让它跑起来还是可以去承担的。

原来OTO GPT的时候，当时大家跑，我忘了是GPT3.5还是GPT4了，奇贵无比，所以一会那钱就哗啦哗啦就不见了，所以没做起来。现在呢，就是有可能能做出来。那么进行自我规划之后，能够可控的输出结果，这个是现在这些大模型已经可以达到的这个能力了。其实现在用一些稍微小一点的模型进行规划和微调的话，还是很方便的。

我今天还试了一个东西，就是阿里新出的QWQ 32B的这个推理模型。据说它这个32B的模型呢，是要比DeepSeek R1 671B的模型效果还好。我上去试了试，确实挺好用的，但是要想达到DeepSeek R1那个，还是要稍微差那么一点点。

虽然在跑分上确实是跑赢了DeepSeek R1，但是个人使用体验跟跑分还是不一样的。讲回来，Manus呢，应该是自己做了一个小的规划模型。它呢，构建一个规则的知识库，就是我要做什么事，大概有几种方法，我做另外一件事大概有几种方法。然后呢，输入指令进行规划。我现在要做一个旅游攻略，我现在要去筛简历，把这些命令输入进来以后，他就给你规划了。规划出来以后呢，给你做了一个叫to do.MD的文件。to do嘛，就是马上要做的事情。MD呢，实际上是Markdown。Markdown是程序员经常使用的一种文本工具，就在文本里边直接写一些符号，就可以代替排版。像我们在word里排版的话，你要先写好文字，然后选中了以后，说我们是用几号字，前头要不要写这个点，或者有没有这个编号。markdown等于完全是在文字里边去写，就程序员都是这么干。

当他做完规划以后呢，得再通过自己的一个解释器，把这个markdown里头一条一条的，一步一步去完成。他是这样去工作的。里头呢，还有一大堆小工具，比如解压。筛简历的时候，就是给了一个压缩包给他，那你把他解开。然后呢有一些文档解析，甭管是PDF文件word文件，你都解析出来。然后还要做网页解析。那为什么网页解析要单独讲一下？咱们打开网站看一看，那上面什么弹窗了广告了一大堆东西，你要把真正有用的东西扒出来，还是有点难度的。所以网页解析是专门的一个项目。然后呢，自己还带浏览器，他可以自动的去浏览网页。其实有点像今年1月份，OpenAI发的那个产品叫operator。但是operator发完了以后，只有200美金以上的用户可以用，像我这种20美金的用户还用不了。还有一些API，你比如说我现在需要重新生成PDF了，还有一些API的，它呢是可以通过Python，再生成一点点简单代码，然后可以通过这些简单代码的执行，把这些刚才我们讲的小工具，整个的通顺的串联起来。

它呢，可以设置一套小工具的调用规范。符合规范的就可以进到工具链里边去。当他拿了这样的一大堆小工具，照着todo.MD去执行了以后，就产生了一大堆的中间结果。然后呢，再对结果进行拼接。大模型的能力其实就在这。它能干嘛呢？就是处理很多这种叫非结构化数据。

什么叫结构化数据？什么叫非结构化数据？就是我现在有一个表格，第一列叫做姓名，第二列叫做年龄，第三列叫性别，第四列叫做简介，第五列叫什么职业。这个东西就叫结构化数据了，一行就是一个人。非结构化数据就是，我拿到这个数据里头是一锅酱，我们也不知道这里头到底写的什么。大模型就是你可以把一大堆的非结构化数据扔给他，然后让他去总结分析。他是有这个能力的。

而且呢，这个其实他调用，甭管是网页也好，还是各种的API，从其他的服务那里获取数据也好，实际上都是结构化数据。但是呢，他就把所有这些结构化数据打包在一起，作为非结构化数据直接扔给大模型，说来我这有一大堆数据，我也不去解释里头到底是什么，我也不去研究这个数据结构了，你去给我去总结归纳一下。他是通过这样的一个方式来干活的。

相当于是什么呢？上面的一大堆小工具，进行这种松耦合的组装。为什么要强调松耦合呢？我们正常写程序，我们会去标记，你这个数据应该是怎么排列的，第几个字节到第几个字节写什么，写错了马上报错。有了这个大模型以后，我就都塞进去，反正这个大模型也不挑你这个里头，哪个多写几行，哪个少写几行，多两个属性、少两个属性，他都无所谓。所以他就可以通过这样的方式，把这些小工具凑载起来。

得到了一些结果之后呢，再输出一个漂亮的报告，包括刚才咱们讲图表，表格呀。其实你用DeepSeek R1，用这个Claude 3.7什么的，都是可以生成这样的报告的。像我们以前写程序的时候，有很大的一块时间是干嘛？就是打报表，各种各样的报表。为什么？要对格子，要去取数据，要去做统计分析。这个事是很麻烦的。

他们这块做的还是不错的。Manus真正强的地方在哪？它实际上就是规划。他可以自己去做计划，说：“哎，我要先干什么后干什么，先调哪个工具后调哪个工具，中间出了问题怎么办？如果没有问题的话，我怎么把这些内容再拼起来？”这个是他真正厉害的地方。

当然，我看今天已经有人说是Manus是不是个骗局了。怎么说呢？就是这个东西没有大家想象的，或者说他放出来掩饰的那么美好，但是你也不至于说他是骗局。就是我们也要看看里边到底有什么创新的地方，他怎么能够实现这种规划。

将常用的流程和子流程写出文档来，直接嵌入到本地知识库里边去，再把工具链上面各种各样的信息也把它embedding到这个本地知识库里去，再将各种服务性网站的信息也把它embedding到这个本地知识库里去。然后在规划的时候，直接根据本地知识库做REG输出就完了。我们告诉他：“我要做一个什么事。”他就跑到这个本地知识库里边去查去了，查完了以后说：“你干这个事，好像这三个工具有用，这几个流程可能是有效果的，这些模型可以干活，那些这个网站里头有你要的数据。”它可以通过进行本地知识库辅助的这种生成，直接给你输出一个刚才我们讲叫todo.MD的这个文件出来，就可以照着干活去了。

产品设计本身还是相当不错的，界面也很清爽，用户交互也非常的顺畅，这个还是很好的。这个Manus的结果靠不靠谱？先跟大家讲一个小故事。据说有人拿这个DeepSeek推荐彩票，买完了彩票还中奖了。还有一帮人说：“哎，我用DeepSeek去做量化吧，我去用DeepSeek炒股吧。”官方量化里边不是炒股的吗？这玩意靠谱吗？肯定不靠谱。所以AI这个东西一定是有幻觉的，千万不要觉得AI是有可能把这个幻觉干掉，这个很难很难的。在数据源不能保证正确的情况下，AI更没有能力说：“我一定会输出正确的内容来。”我哪怕是搜索了一大堆东西，你搜索的东西还有可能是错的呢。AI自己根本就没有判断能力说：“唉。”

我搜索回来的这个网页，哪个是对的，哪个是错的？他唯一能判断的是什么？唉，这个是一个官方主流媒体，那是个个人博客。需要去采信的时候，我要更多地采信官方主流媒体。但是我们其实并不希望AI有判断能力。大家自己想一想，如果AI有是非判断能力了，那是一件多么可怕的事情？还是让他糊涂着就算了。

然后，多个数据源进行总结归纳的时候呢，其实也很容易产生幻觉。就是当我搜到了5个相关网页，对5个相关网页的结果进行总结归纳的时候，幻觉是很厉害。特别是像DeepSeek这种东西，就是幻觉一塌糊涂。Work 3什么换节，也非常非常厉害。Manus底层的模型都不是自己的，全都是别人的。在很多的这种幻觉模型上，自我规划以后，其实它输出的内容一定是不靠谱的。虽然可以进行一点点验证，但是呢，现在距离提高正确率还差得比较远。

那么现在的结果都很惊艳。很多人说筛选简历很棒，筛选的什么房地产信息，也都非常棒。你怎么就在这胡说八道呢？怎么可以说人不行呢？其实原因很简单，他筛选简历的结果，筛选简历的过程，筛选房地产的这个呃过程，筛选履行建议的这个过程，他是给外行看的。你真给内行，他是看不了这东西，看了会乐的。这过程呢就像老中医，念着口诀给人看病似的，金木水火土念半天，你一定很专业。这个大模型也是一样的，一本正经的胡说八道。你不一本正经，他就骗不到人了。所以呢他产生的所有的这些结果，是相当容易让外行感到幸福的。所以千万不要觉得这东西就很厉害。

目前为止Manus给出来的东西，基本上是叫桃园三结义孤独一支。这个什么意思？就是怎么说都行。你说这桃园三结义孤独一支，到底是哥几个？哥一个，这孤独一支吗？哥两个，孤独出去一支，还剩俩。三个，哥仨嘛，团圆三结义嘛，大家站在一个枝头上了。这都可以讲。所以目前Manus给出的演示结果，基本上都是短期内无法进行验证的。你没法确认它到底对不对，但是当你觉得Manus……

给出的结果特别厉害，不明觉厉的时候，一定要小心，距离掉在坑里已经不远了。为什么呢？因为人跟人之间的交流和沟通，是通过不断的确认眼神，确认你的工作能力和工作结果，来建立信任。信任了以后就会比较少的进行检查，这个人就可以合作起来。但是大模型这种东西的话，你让他工作100年，该出多少错他还是出多少错。所以这个地方，还是要稍微小心一点。

下一个问题，Manus这样的产品到底有没有门槛？这个东西如果是国运级的创新的话，它一定是有门槛的。你像DeepSeek，虽然大家都觉得说我们能做的出来，而且各种开源各种开放，perplexity也号称自己训练了一个，或者调了一个类似于R1这样的模型，回来去使用了。但是呢，就并不是很多人都有这个能力，去自己训练DeepSeek这样的模型出来。这个还是有很大门槛的，即使是DeepSeek开源了一大堆的，怎么去优化GPU的这些代码库出来，这些东西想用起来也并没有那么容易。

那么像Manus这样的东西，有没有这个门槛呢？现在很多人就说，现在这个时代是模型及产品的时代，最后都会被大模型厂家干掉的。会不会这样呢？像OpenAI，每次开发布会，一帮的中小企业在这敲丧钟说完了，我这条路被OpenAI给瘫过去了。大家都是在这么看这个问题。Manus现在干的这个活，其实就是GPT5要干的活。可能再过个那么一两个月，我们就可以看到GPT5，因为GPT5也说了，我也是自自动规划，规划完了以后，我自动的去调用各种各样的模型，一次给你实现，而不是现在是这样，ChatGPT上来，我要选模型才能用它。这个方向已经在OpenAI的路径上了。但是呢，从OpenAI的deep search的结果来看，OpenAI的产品落地能力，其实并没有特别好。现在我们去看perplexity，DeepSeek的，豆包的，Grok 3的，这种深度搜索下来以后，你会发现OpenAI的。

Deep search其实是最烂的一个，真的不怎么好使。OpenAI算是技术很强，跟谷歌一样。谷歌的产品能力其实也很烂。他们这种公司呢，底层技术遥遥领先，产品烂一点大家也将就用了。中国人呢，是相对来说，比较擅长于内卷产品这一块的，产品体验、产品迭代，这个是咱们比较擅长的。这个底层技术咱们差一点，OpenAI也好，谷歌也好，都是底层技术好。在这块事上我们也很矛盾，为什么呢？广告时代最后实际上，所有的这些广告商都被收割了，被谁收割了？被这个自有流量的大广告平台给收割了。谷歌、苹果、Facebook、Twitter，现在其实都算是苟延残喘的一个广告商。剩下的，你说谁成为广告商，都是自己要有流量的。你如果自己没有流量的话，你是做不了大广告商的。现在的话，模型时代，是不是你如果没有底层模型的话，你就做不出上面这个东西来？这块呢，大家有一些矛盾。当然也有一些产品，就完全靠产品做起来。有一类产品呢，叫PLG产品，就是叫产品引导增长的。这种东西有两个比较典型，一个是Notion，另外一个叫Slack。这两个产品就是典型的PLG产品，它没有特别底层的技术，我就是产品做得好，体验做得好，让大家使着方便，让大家使着舒服，然后大家就愿意去用。这块呢，看看是不是能够走通这条路吧。在大模型时代，这个逻辑是不是还能走得下去？不知道了。因为如果Manus知继续能够做下去的话，他必须要像Notion或者像Slack这样说，我的产品做的特别好，我就愿意为你服务，让你使着舒服，大家就一直一起用下去。你说在大模型时代里头，自己模型做的不怎么样，产品做的特别好的有没有呢？也有，一个是Cursor，就是自动写代码的IDE，还有一个呢叫Perplexity，就是刚才我们抢这个AI搜索工具。目前呢，还算是有一定门槛的，虽然大家都在做AI IDE，都在做AI插件，都在做AI搜索，但这两个产品目前为止活的还都不错。

至少暂时还都挺受欢迎的吧。未来的事情不好说了。大模型时代，模型厂商的服务边界其实没有那么清晰。它跟原来的互联网、移动互联网时代是不一样的。像移动互联网时代，谷歌跟苹果好多事它是不做的。但是你现在到大模型时代，你看有什么事是OpenAI不做的吗？

那么有没有离了模型就玩不转的案例呢？也有。有一个产品叫Character AI，这个大模型团队被谷歌收编了以后，现在产品直接趴下了。现在他的产品被一个中国公司的产品摁在地上摩擦。那个产品好像叫Toki，是这个Mini Max做的，也算是这个中国AI六小龙中的一个吧。

那么Manus的产品到底怎么样呢？这个需求肯定是存在的。大家还是希望能够快速地获得高质量的信息，不是内容，而是信息，就是经过整理分析以后得出来的结果。这是大家有需要的。在产品设计上呢，至少在演示视频上看，交互还是相当不错的。成本现在肯定是不划算的。这个未来到底怎么去收费，现在还不好说。

因为呢，OTO GPT当年出来了以后，为什么马上就挂掉了？因为这东西算一次，那个时间实在是不划算。你让他开足马力去干活，可能干一次俩小时，你回来一看账单，好几百美金不见了。这是当时的一个状态。现在的肯定是要便宜一些了。Manus，据说每次回答问题，就是每一个任务做完的平均消耗是两美金。不再会出现几百美金的事情了。但是呢，他也没法保证，因为呢，他是自动规划的。你有的时候可能花个几十美分就把东西算出来了，有时候花个两美金把东西算出来，但也有的时候可能俩小时就过去了，你再回来的时候一看，100多美金不见了。而且你没法控制他，因为是自我规划，所以到底每次跑多少TOKEN他也不知道。

在这呢给大家讲一故事吧。这个是原来我看的施瓦斯科普夫的传记。这哥们干嘛的呢？这哥们是美国的一个五星唱将。在打这个海湾战争的时候，他是中央司令部的司令。他呢在越战的时候是个程序员。他虽然是军校毕业了。

到了越南以后，他是个程序员，在那儿写程序。后来，从五角大楼派了一帮专家来说：“我们来分析一下月供游击队出现的规律。”他们搜集了大量的资料，在那算了很长时间，进行了数据建模。他也有幸参与了这个项目。最后得出的结论是什么呢？月黑风高的时候更容易被袭击。所以呢，你用Manus这样的自动规划工具去干活的时候，它有可能也是这样的。算了可能很长时间，最后算完了以后告诉你一个：“月黑风高的时候容易被袭击。”

原来还有一个电影是什么？计算机算到人类都灭亡了以后，最后得出宇宙终极答案是42。这个故事大家应该也听过。所以他的这个成本是比较难控制的。后面的大厂跟进一定是必然的。GPT5还有几个月就出来了。GROK3其实现在就已经是自动规划了。大家去GROK3里边，去点击这个deep research。你去给它一个任务的时候，它也是有一个规划清单，在这个上面在滚动的。他会把这个规划清单都整个执行完。所以现在好多人觉得GROK3出来的结果非常好。如果你实在是说我也等不到Manus了，也不得不舍得花这几万块钱，去买这个测试码了。大家就上GROK3上去用掉了。豆包，腾讯的元宝以及WPS应该都会虎视眈眈的，都会把这东西做起来。而且呢，在这块的还有些别的大厂，微软、谷歌、苹果都有可能来玩一下，因为他们自己是有操作系统的。这个事情一定是他们干是最方便的。

这就是这个项目。到底有没有这个门槛的问题？其实没什么门槛。当然你说我产品做的特别漂亮也行。你像Notion那种产品就是做的特别漂亮。现在免费开源的，类似于Manus这样的东西已经出来了。它这个产品发布了大概三个小时，还是几个小时，就有一个叫open Manus的这种开源项目，就直接扔出来了。你们要用自己上去挂去。当然不是程序员的话，挂起来会稍微麻烦一点点。那你说这种产品为什么突然就疯狂了呢？原因也很简单，二级市场实在是太缺话题了，稍微有点话题。

大家赶快要冲上去炒一把，然后再来算谁是Manus概念股。赶快要去买。至于你买的时候是不是有其他人在外面跑路，或者有其他人去赚钱割韭菜，这就不管了。但是有题材总是要炒的，而且这个团队呢，其实相当擅长于运作。

首先呢，他的视频拍得很好。在大模型时代，在AI时代，如果你这个团队不会讲故事，不会拍视频的话，你是混不下去的。他们很擅长干这个事情，做得非常漂亮。

第二个，这个团队原来是做微信私域运营工具的，就是专门给这个微信公众号，或者说这个企业微信的这些人做运营工具的。所以他们很擅长做这种叫做社交媒体裂变，社交媒体爆发这个事情，这是他们的老本行。

有了DeepSeek的铺垫以后呢，现在中国人的这个热情还没下去呢，突然有消息传出来了，肯定还要再跟着热闹热闹，这个是必然的。但是呢，这种突然爆发的传播呢，对于Manus本身来说未必是一个好事。

刚才我们讲这个PLG产品，就是这个产品引导增长的之类的。这些产品的话它有一个特点，就是你一开始一定要低调，你要这个猥琐发展一段时间。你如果一上来就在显微镜下的话，这个事是没法整的。突然爆火了以后，唯一的结果就是被大厂盯上。而且呢，你一旦进入这个显微镜下，你所有的缺点都会被放大。

2015年的时候曾经有过一个产品叫足迹，应该也是2015年春节的时候出的。他呢能够出这个电影感大片那样的照片，随便拍张照片进去，他就给你做一个像电影大片似的那种，等于裁的这种带这个边的吧，还给你写上一句字幕，大概是这样的一个感觉。上线服务器就崩了，很快就销声匿迹了。

所以像Manus可能会走上这条路。AI圈这种突然爆火，又突然死掉的产品其实还是蛮多的。大模型是别人的，算力成本无法承担，用户突然涌入，预算在燃烧，体验在下降，然后就没有然后了。这个是Manus这样的产品很有可能会遇到的问题。像他们呢其实手里没有多少钱，因为他们以前的公司是被腾讯投资过，但是Manus这一块的话。

你说：“我想趁此再去融一大笔钱，也不是那么容易。算一次两美金，一个任务两美金。当真的有一大堆用户涌进来，开始其他开始跑的时候，就想起这个哪吒一开始那句话了：‘天雷滚滚，我好怕怕，劈得我浑身掉渣渣的感觉。’你一个人进来，两北京不见了；一个人进来，两北京不见了。还不是一个人，是一个问题，进来两美金就不见了。你有多少钱够他烧的？”

当然了，现在这些事呢，对于Manus来说，也算是一个幸福的烦恼。还有一大堆人说：“我做出产品来没人知道。”他至少被人知道了。所以，能不能趁机融一笔钱，或者干脆找人卖掉算了？因为像他创始人上一个公司，就直接找了个公司给卖掉了。现在这个产品如果能把它卖出去，也算是不错的一个结果了。

新的阶段是不是已经准备好了？其实Manus代表了一个新的阶段到来了。AI进程呢，实际上有五个阶段，这个是山姆·奥特曼提出来的。第一个阶段是对话，能够进行自然语言交互的聊天机器人，用于简单对话和信息交流，就是我们现在使用的GPT-4、4O什么的，就是对话。然后第二步呢，是叫做推理，具备在特定领域进行问题求解和逻辑判断的能力，可以进行复杂推理和逻辑分析，就是我们现在用的DeepSeek R1、GPT的O1、O3这样的模型，就属于叫推理模型。现在其实我们在努力的走这一块儿。

推理之后呢，就是规划，是agent，可代表用户执行任务，具备自主运行的这个能力，能够在动态的环境中实施决策，这个是现在第三步。实际上Manus就已经走到了这个第三步上。再往后一步，创新，能够参与发明创造，增强人类的创造力，可在科学研究、技术开发等领域推动突破。其实现在什么医学方面，已经开始突破了。然后最后第五步是什么？叫协作，深度融合组织功能，参与社会管理与复杂决策协作，能够管理复杂的组织任务。这个是山姆·奥特曼给AI整个发展的，类似于L1、L2一直到L5的一个状态。

那么当前的状态是什么呢？GPT-4.5已经展示了，对话这件事情基本到顶了。

你再怎么加这个算力，再怎么去扩大模型，也就这么回事了。而我今天发现我的ChatGPT已经可以用4.5了，虽然是迟了两周，我们还是用上了GPT4.5，还没有空跟他去提问题呢。

推理模型现在还在快速发展的早期阶段，推理模型这个阶段并没有过完，现在都在拼命地冲这一块。有机会大家可以去试一试通义千问的QWQ 32B那个模型，还是不错的。因为这种模型32B嘛，你是可以在电脑上本地跑的，我就在自己电脑上装了一个，效果还可以，确实慢一点。

再往后这个规划呢，其实一直都在尝试，逐步有可用的版本出来。OpenAI一月份出的operator就是这样的一个产品，GROK3的Deepsearch也是这样的一个规划类产品。Manus呢算是把这个规划又往前推了一步，它已经离开了原来的这种环境，不需要在OpenAI的这个环境下用，不需要在grok 3的环境下用，完全用别人的模型，批了这样的一个单纯的产品出来。

当然了，现在这个产品到底有多成熟多不成熟，我觉得下结论还太早，因为我自己并没有真正的去用嘛，邀请码还没收到。缩小范围，专业一些的自我规划AI agent应该还是有机会的，因为现在的Manus号称是我可以泛应用，所有的行业所有的领域我都可以干，你让我干啥都行。最终能够做到的结果，大家就不要有特别大的预期了。

Manus出来以后，行业的方向必然会发生一些偏转，就甭管这个产品做的怎么样吧，告诉大家了一些可能性。现在哪怕是两美元算一次，这个可能性存在了，手工规划工作流的这些产品就要开始转型了。比如说像Dify，像Coze这种自己画流程图的这种，可能就要稍微的调一调方向了。未来呢应该都是会有自动规划工作流，这块会获得更大的这种关注。

那Manus有未来吗？首先跟大家下一个结论，没有，哈哈。为什么呢？不是因为产品做的不好，也不是因为它底层是没有自己的模型的，这个都不是。大家知道互联网时代。

第一个倒下的独角兽是谁吗？叫Evernote，就是现在的印象笔记。第一个从独角兽的10亿美金估值里退出来的公司就是他。那为什么是他呢？好多人说挺好使的，我还花钱买呢，像我也是花钱买的，而且这么多年一直在付费。为什么这样的产品就不行？原因很简单，咱们说一个像绕口令的话：“有用是最没用的事情。”为什么像绕口令一样说这个呢？因为大家被Manus惊艳到的时候，是因为觉得这东西有用，他给我的筛选力的这个过程很棒。你到底有多少HR需要筛选力？有多少HR现在不是在忙着裁员，忙着自己不被裁，而是说我要去招人？有多少人需要这东西？有多少人需要去看那些专业的报告？其实没有的，用户必然是很少的。像它这个Monica.IM，现在号称一共有700万用户，其实是累计安装量，它的活跃用户基本上可以忽略不计的。而且它这个700万用户，还是收购了一个叫GPT for Google的，一个300万用户凑起来的，他自己就有400万。收购了这么多东西，现在号称700万这个数，其实基本上你就认为他没有就可以了。而这几天有可能会爆发一波，但是未来应该很快就消减掉了。而且真正的专业人士是不会看他的报告的，我告诉你，真正专业人士看他的报告更累，你还得再一个一个再去校对，再去核验，再去看里头有没有说错的地方，这个事是一个很痛苦的过程。AI工具主要现在还是能够骗外行，就像我前面AI时代，文科生很重要这个视频讲的一样。像我这些程序员，一看AI写的代码，就在那乐，你们这个连拼屎山都拼不出来。但是我看AI写的小说，AI画的画我很开心。一些设计师一看AI画的画，这叫啥玩意？那些真正产品经理这些文科生，你看AI写的那些文字也是没法看。他是这样的一个状态，这个东西最擅长就是骗外行，就跟那个很多相声演员讲的似的：“我是这个说相声里边最会唱歌的，以及唱歌里边最会说相声那个人。”这就是AI现在最擅长干的事情，而且专业看报告的人。

现在还在不断的被裁员呢，你给他们提效干嘛？海外应用还要等OpenAI、谷歌和微软再去发力，它在国外的用户是起不来的。就算Manus让我看走眼了，真的是用户量做起来了，那各国政府能乐意吗？你这数据是不是去中国了？怎么还有这样的问题呢？一个武汉公司，做了这么样的一个产品，到全世界去收集别人的调研报告、各种数据，这不开玩笑的吗？而且两美元一次的这个成本，如何平衡这个事，对于他们来说也是很难回答的。

在AIGC时代，可能真正有价值的东西还是娱乐，不是真正的有用的东西。虽然一大堆人都在研究怎么让AIGC有用，但是我觉得依然是娱乐有效。为什么呢？因为它出来的东西不严谨。你给个小说，你这东西写对了写错了，他没事，不会因为说这小说写错了几个字就造成多大的损失，而且有新鲜感，我还看着很开心，这不就可以了吗？

但是你想，他这边出一大堆报告，告诉你应该上哪去买房，告诉你应该招谁不招谁，等最后你把人招回来，发现不好使，你把房买了以后，发现这个房子有问题，你找他吧，他也不负这个责任。所以现在千万千万不要去做有用的东西，这是今天咱们去讲的Manus的这个故事。

DeepSeek现象引发中文圈狂热：开源的胜利还是遥遥领先的争议?

老范讲故事 — Tue, 28 Jan 2025 00:36:14 +0000

DeepSeek突然出圈，引发了中文圈的争吵。大家好，欢迎收听老范讲故事的YouTube频道。

DeepSeek在前面，我们已经出了一期视频，去讲它到底是怎么回事了。那么，DeepSeek最近肯定是更加的出圈。首先，DeepSeek V3，据说训练成本只有557万美金，震惊了扎克伯格，震惊了Meta。Meta说：“我们有好多的老大，他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金，那我花了这么多钱去组建AI团队，花了这么多钱去囤显卡，是不是亏了？”现在就有这样的声音出来。

而且，最新的DeepSeek R1，也就是它的推理模型，推理能力已经接近o1了。蒸馏微调出来的这些小模型，已经在很多领域里头超越了o1 Mini。在这儿多补充一句，什么叫蒸馏微调的小模型？像我的电脑上，也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的？它实际上是由DeepSeek R1去输出数据，然后拿输出的数据再去调通义千问2.5-32B的这个模型，最后得到的结果。这就是DeepSeek R1-32B，他在我的电脑上做各种推理，效果相当不错。

那么，据说受到DeepSeek R1的影响，山姆奥特曼已经做出了改变。原来，它的o3模型，包括o3 mini模型，免费用户是用不了的。就是o3 mini，可能能够给plus用户稍微用一用。现在他说：“不，这个o3 mini模型，我们要直接向免费用户开放。”而plus用户，也就像我这样的，每个月只要20美金的用户，每天可以用到上百次。其实这种o系列的模型，甭管是o1也好，o3也好，你一天真的想不出100个问题来，问他100次足够用了。

至于说完整的o3模型，以后是不是依然要在200美金一个月，甚至是更贵的这个版本里面才可以去用到，他现在应该正在抓耳挠腮地想这个问题。美国的媒体也做了一些报道。

而且，这些媒体肯定是看热闹不嫌事大的，就去说：“你看，我们封禁了半天，人家做出这样的一个东西来，震惊我们了。”这些话好多是他们讲出来的，各路大佬也都出来说话了。比如说，谷歌的前CEO原来就讲过：“我们遥遥领先，在这块比中国领先好多年，他们不可能追上。”再问他：“你说我们还是领先吗？”当时我觉得我们还领先一到两年，但是他们正在快速的追赶。

像这个杨立昆，Meta他们家AI领袖人物，他也上来说：“这个是开源的胜利。”都在去讲这个事情，包括很多在美国相对比较有影响力的这些AI圈的创始人，现在也都在纷纷接受采访，再去谈论DeepSeek的事情。所以，这确确实实是出圈了。

那你说，这样出圈的一个事，怎么在中文圈，或者叫中文社交媒体圈里头，大家就吵起来了？这个原因也很简单，因为中文的，特别是简体中文的社交媒体圈，一直都是非常割裂的。一群的二极管在里边去吵来吵去的。什么叫二极管？只有一边是通的，另外一边是不通的。

那么正面的声音是什么？第一个，厉害了我的国。你看，我们好厉害，你封禁了我半天，我小米加步枪也能够打赢胜仗。原来就是说，美国人有飞机大炮，日本人有坦克、飞机、大炮，但是我们小米加步枪，我就把仗打赢了。这个是我们一直津津乐道的一个事情。第二个，就是大量的震惊体。这个就是“谁谁震惊了，谁谁大吃一惊。”这个我们也使用了大量的震惊体来去描述境外势力看到DeepSeek以后的那种反应。

还有什么上来说，这个超英赶美那套东西，英伟达完了，Meta完了，OpenAI完了，他们都完了，以后AI这个圈子就全都是中国人的事了。这样也还有人在想，说美帝的封锁就是个笑话，封了半天，最后做出最好的东西的人还是在我们中国。这是正方的观点，或者我们叫粉红观点。

当然，还有反面观点，永远在讲说中国人还是不会从0到1的。DeepSeek其实是有更多的显卡的，并不是像他们说的只有1万张显卡，而是有5万张H100，也就是美国封禁的这种显卡。

这个也有人在去讲，还有些人说什么，说DeepSeek，这帮人就是一个小聪明，没有大智慧，都是在投机取巧而已。当然，也有些人上来说，这根本不是什么民营公司，后边一定是国家的一盘大企业，这都后边收归国有了，不用讲这事，这个都属于是知黑们，或者反贼们的一些惯常的话术。

继续来了，当然还有一些人再去讲，说这个数据是不是从其他大模型里头出来的，因为中国很多的大模型，训练数据都是从OpenAI来的。所以你每次问他说你是哪个大模型，上来都是说我是OpenAI家的ChatGPT，这个大家都会去做的。我记得DeepSeek V3当时好像也干过这样的丢人事，甚至还有人去怀疑，说DeepSeek这个数据是不是有侵犯版权，是不是有些其他的问题也都在询问。

甚至还有一些人上来说，美国是不是应该把这个封锁，搞得再严格一下，让他彻底做不出来不就完事了吗？这个没有办法，这些人他就是恨国党，只要是中国人做的稍微好一点点，他们就完全看不下去那个状态。这就是正反两面，现在正在中文的社交媒体圈里头撕来撕去。

当然还有一些困扰的声音，既不是正面也不是反面，或者说稍微偏正面一点的声音，他们说什么，这么好的东西干嘛开源给外国人看，咱自己留着偷偷藏起来，这个可能也是一部分粉红会有这样的声音吧。那么到底谁对谁错呢？我觉得我们没有必要去讨论谁对谁错的事情。

DeepSeek到底是不是遥遥领先，这件事其实是一个伪命题。我们一旦想出来遥遥领先了，这个其实是有问题的，因为遥遥领先这件事了，说我们不讲道理了，我就在你前面，你也不可能超过我。你只要超过我，他等于政治就不正确了，这个玩意才叫遥遥领先。

我们在某些领域里头得出了一些领先的结果，其他领域还在追赶。我们领先的这些领域里头，别人也在追赶，然后你追我赶的，把整个的AIGC事业往前推荐，这个才是真正大家应该去思考的问题。所以在所有的这些大佬的讲话里边，真正有价值的是谁讲的。

就是杨立昆，这个Meta的AI首席科学家，他讲的是什么？他说这根本就不是中美两国谁胜谁负的问题，这跟这事没关系。他讲的是什么？这是开源战胜了闭源，这是开源的胜利。这个是为整个DeepSeek事件定性的最好的一句话，请大家记住，这里头跟中国和美国没有什么特别大的关系。这些人在美国也能做出同样的东西来，也许他们的方向不一样，会做的跟现在的结果有差异，但也依然是可以做出震惊世界的东西出来的。而真正胜利的是开源，开源是一种最新的、最先进的软件开发的协作方式，是这样的一种协作方式战胜了原来这种闭源的传统方式。

那么这个项目到底是不是原创呢？DeepSeek你们是从0到1原创的，还是说在人家的基础上耍了个小聪明，没有真实的原创性创新？这个有很多人就上来说，中国人就不可能有原创性创新，我觉得这样讲是很不负责任的。第一个，在没有GPT-2，没有Llama，整个这些开源的大模型的情况下，就不会有中国的大模型产业，整个产业都不会存在，这个大家还是要去承认的。

我觉得与其去讨论是不是原创，我们更应该想的是什么，如何加入到创新大潮中去贡献力量，这才是真正应该想的。每一个创新都是可贵的，我只要是遇到问题，把问题解决掉了，它就是创新。至于说这个创新到底有多大价值，是不是可以积少成多、聚沙成塔，变成了一个很伟大的工程项目，我觉得我们只要慢慢地去堆砌，慢慢地去积累，总会有这样的一个量变，实现质变的时间点。

就算是美国人用的很多的，这些现在我们看到的很新的技术，其实也是有很多过去几十年，甚至上百年研究出来的。这些基础都是在上面逐渐地去改进，逐渐地去解决问题，逐渐积累起来的。我们不要老去上来就说，这个事你耍了个小聪明，那个事你搞了一个从1到100，没有从0到1，别想这个事，没有那么重要。那么DeepSeek是不是确实触动了美国大模型的产业圈呢？从DeepSeek开放出来的论文和原代码，大家都在努力地下载。

去尝试，去复现，去部署，去使用这块来看，确实是这样。这个DeepSeek确实触动了美国整个的大模型产业圈。而且DeepSeek的方法将会深刻地影响美国项目未来的方向，或者说将会深刻影响全世界AI项目未来的方向。那么是不是应该收紧制裁呢？

如果前面没有制裁，没有这么多拜登说我要去怎么制裁，哪个学生不能来，什么国防七子怎么回事，没有搞这些事，DeepSeek团队中的可能一大部分人现在应该都在美国。这就是制裁的结果。如果没有前面的显卡禁令，那么国内可能会更早地贡献出来比DeepSeek更加有趣的模型。这就是制裁的结果。

千万不要想着可以靠制裁去得到什么样的后果，唯一的后果就是本来应该在美国的很多创新的人才，他们留在了中国，在中国做出了DeepSeek。本来让全世界、全人类可以在大模型的方向上跑得更快的很多的发明创造，因为限制没有做出来，这就是制裁的后果。

那么“厉害了我的国”这件事到底对不对，其实完全没有必要。咱们举个例子，相当于什么？四个人在这打麻将，咱们四个劈了啪啦，打麻将打得很开心，打了一晚上了也得胡个多少圈牌了。突然有一个人开了个杠出来，开完杠出来以后，他身后有一堆的亲友团，直接就爆发了：“你好厉害，你居然开杠了！”导致这个麻将没法打下去了，这到此结束了。这个其实是没有必要的，开杠就开杠呗，这一圈你要领先了一次，那咱后边还打不打了？

整个的大模型产业创新，实际上就像是大家在这打麻将。你不能说你取得了任何成绩，大家停下来等我先庆祝个两年，咱们再接着往下打，这没有任何意义。麻将还要接着打下去，这才是真正看待“厉害了我的国”的方法。

你像中国人，当然有的时候会有一些怪癖。你比如说，国人看到了一个会讲中文的老外，哇，那叫激动：“你的中文讲得实在太好了！”觉得特别有面子。但是如果老外看到了一个会讲英文的中国人，完全没有反应：“讲英文呗。”这些讲英文的人，有黑人，有白人。

有华人，有各种面孔的人，还有印度人。有的讲得好，有的讲得不好，都没有任何问题。就算讲得再字正腔圆，他也没觉得这事有多稀奇。但是你像中国人，你要看到一个老外讲中文讲得再荒腔走板，你都要冲上去，哎呀，你实在讲得太好了，我觉得太有面子了。这个算是中国人的一个民族性。

对于被DeepSeek所震惊的这些美国人来说，他们真正看到的是什么？他们真正看到的是，有人做出了新的科技创新，仅此而已。而且还发表的是英文论文，内容放在Huggingface上没有什么障碍，大家就可以直接用了。你并没有说我把这东西写成中文论文，只放在国内的，比如说某一个开源平台上。你要想用，我还要爬进来去使用，还要找人去看这些中文文件，没有。你上来，你也是发表的英文论文，大家全世界的人都是这么干的呀。你法国的这个团队，你去发表论文，你也是发表英文的；以色列团队，你去发表论文，你也是发表英文的；中国团队，你也发表了英文论文；美国团队也是发表英文论文。这有什么差异吗？没有什么差异，大家一起推着这个事情往前走就好了。而且他们自己的团队里边也有一大堆的亚洲脸，这事不是很正常吗？你们在瞎激动什么呀？

这个就是“厉害了，我的国”。这个事其实是不可取的。再往后咱们来讲一讲，哪个老外要完蛋了没有？咱们前头不是想Meta是不是要完蛋了，英伟达是不是要完蛋了，OpenAI是不是要完蛋了？咱们看一看，首先对于Meta来说，有些事情是有些过分了，比如说557万美金完成的训练，这个里头是仅仅计算了用了这么多显卡，应该是2048块显卡，训练了多少个小时，只是算了这个数。他是557万美金，你的数据是什么样的成本，你的人工是什么样的成本？而且训练这个东西，它不是训练一次就行了的，特别是像MoE这样复杂的架构，它可能中间会失败非常多次，然后进行架构的调整和重新设计，重新训练。那么最后你用一次训练的，而且仅仅是训练成本。

来去替代Deepseak V3的开发成本，这件事本身是不对的。所以不要想着说，这边557万美金就训练了一个大模型出来，Meta就天塌了，没有这事。Meta现在也表态了，我们要继续加大力度买显卡。原来有60万块显卡，今年准备买到130万块，充分的去买显卡。买完显卡以后，还要再继续努力的去训练新的模型。

现在等于又多了一条训练的路径。原来Meta说我这有训练的路径，怎么去从LLama1、LLama2、LLama3、LLama3.1、3.2、3.3怎么训练上来。现在DeepSeek又给我提供了很多新思路，那我在做新的训练任务的时候，可以有很多的新的训练方案去尝试。最后可能再训练出来的LLama4，就会比原来的LLama3要强，非常大的一块，这个还是不一样的。

所以对于Meta来说，那咱们就上呗。原来可能我一共有5条路可以尝试，现在又多了两条路。那么排列组合一下，怎么能够把这些路径都设计好，去训练出新的LLama3来，这个是大家可以看的。XAI其实没说什么，但是Grok 3的训练，估计也会增加很多新的训练方法，可以进行尝试。

对于英伟达来说，千万别建议英伟达废了。当然英伟达确确实实最近的股价又在开始波动，现在都不敢讲是英伟达股票涨了还是跌了，因为总有人过了半个月回来说，你现在不是说跌了吗？你看涨回来了。这个英伟达作为这么高市值的公司来说，他的股价来回发生波动是很正常的。那么对于英伟达来说，这应该是一个巨大的利好。为什么？因为有人能够把这样的模型用起来了，能够这么便宜、这么好用的模型开源出来，那么大家就会疯狂的去买显卡回来，把自己原来的模型增加上这些新的方法，重新去做训练，重新去做微调或者去做蒸馏，这是大家要去干的事情。

所以这个事对英伟达是有好处的。另外很多的AI agent公司，也会自己去部署自己的算力中心，然后去部署这个开源的DeepSeek模型，就可以跑起来。

这个对于英伟达来说也是利好。大模型应用的成本更低，效果更好，各大公司都会疯狂地买显卡的。至于闭源模型来说，他们确实是要压力山大了。刚才我们讲的这些，不管是Meta，还是XAI，还是最基础的英伟达，实际上我们都是在讲开源路径。那么闭源路径，比如说OpenAI，他们就要想一想怎么办。它的领袖地位在发生动摇，Anthropic肯定也要承受一定的压力，因为它的价值肯定会下降的。

至于谷歌到底发生什么事了，这么大的公司还没反应过来。云计算厂商应该是久旱逢甘霖，不管是微软、亚马逊，还是谷歌、Oracle，都是说我是云计算厂商，你是开源的模型，我给你部署上来。那么以后使用我们云计算机房里边这些客户，你就可以在我这直接使用同一个机房里面部署的DeepSeek大模型了。这个对于他们来说肯定是好事，他们也还会再去买一些显卡回来。当然了，这块就有可能会去买AMD的显卡了，因为AMD的MI 300据说已经把DeepSeek V3跑起来了。

这个其实也很简单，因为AMD是Pytorch基金会的一个核心贡献者，给钱的人。你要去跑这样的模型，肯定还是要去使用类似于Pytorch这样的工具。只要能够让这个工具可以跟AMD的显卡进行很好的兼容，可以进行推理，那么AMD现在号称说我内置了DeepSeek V3，这个话就是稍微有一点点歧义。但是大家可以认为说，我只要是买AMD的显卡，就可以把DeepSeek V3跑起来，这个没毛病。

那么其他的这些AI Agent厂商，这个也是救命稻草来了，比如说Perplexity，还有Cursor这样的AI Agent公司。他们原来必须要去调用OpenAI，要去调用Claude，这个东西很贵，而且你掌握在别人的手里面，你所有的用户数据别人都可以看到，这个肯定是非常不爽的。现在这两家公司已经都在产品内部集成了DeepSeek V3。

甚至可能正在集成 DeepSeek R1 这样的推理模型。那么未来可能越来越多的 AI Agent 的公司会走这条路。2025 年就是 AI Agent 年，而他们可能很多的这种应用，都将在 DeepSeek V3 或者是 DeepSeek R1 这样的模型上继续往前快速奔跑。

至于国内的公司，肯定也在努力。这两天，第一个是豆包 1.5 Pro 版本出来了，也是 Moe 模型。而且豆包喊的是什么？“我所有的数据都不是来自于蒸馏，都不是来自于其他模型，所有数据都是我自己的。”这个确实在这点上要比 DeepSeek 要好一点。为什么？因为使用了别人的数据后，可能会把一些偏见带到自己的模型里，而这往往比较难以发现。就经常你去问他说：“你是谁？”上来说：“我是 OpenAI 的 ChatGPT。”

那么豆包为什么有这样的底气？后边是字节跳动，有今日头条，有抖音，这样的平台在后头顶着。他有的是数据，而且他的数据都可能经历了几万人的筛选、过滤和标注的。所以在这块上，它确实是有一定的优势。我这两天也试了一下豆包 1.5 Pro，除了这个政治正确太严重之外，没什么大毛病。它这个豆包 1.5 还更便宜，它比 DeepSeek 还便宜。原因也很简单，DeepSeek 再怎么便宜，是人家成本低，而豆包的话，我可以赔钱，我可以发补贴，这个事你是比不了的。

另外，Minimax 也出了一个 01 的模型，叫 Minimax 01。它原来没有开源，从 Minimax 01 这个版本开始去开源了，刷分刷各种排行榜，也刷得很高，但没有什么响动，大家也没有觉得 Minimax 怎么样。原因也很简单，开源这个事并不是一蹴而就的。我今儿开源了，大家就必须要马上冲下来三拜九叩，没有这事。开源是要长期的开源，开源很长时间了以后，才会有人慢慢地去看你的代码、看你的论文、看你这些信息。

因为我们要去使用一个开源系统，一开始这个成本是很高的，你需要招聘这些会使用开源的人。

这些人的本身的薪资，就要比那些不会使用开源的人要高。高好大一快的，而且这么大的模型，这么大的系统，我们要把整个的系统都进行阅读、进行理解，这个成本是要支付的。如果你今天突然说我开源了，那么大家也要看一看，日久见人心，明天你万一不开了呢？这个还是要逐渐积累。而且这个Minimax的开源，应该开的也没有DeepSeek那么彻底、那么完整。DeepSeek就属于彻底，所有东西都拿出来，你们就看着，照着东西可以重现。这个迷你Max还惦记着说我是不是开点源，吸引点用户回来，我是不是又可以找他们收钱去了。他在想这样的事情，那这个就一看，就不是一个真心开源的项目。

在这种基础上，他现在依然没有什么响动。Kimi 1.5也出来了，刷了分。咱们中国大模型出来，甭管豆包、Minimax和Kimi，都是先去刷分，刷排行榜。排行榜刷完了以后，好像也就没有什么响动了。一个闭源模型，那在这样的情况下，我有开源的，我干嘛要用你？闭源一定是如此的一个情况了。而且Kimi 1.5的政治正确，要比这个豆包还严重，所以也就到这了。

最后总结一下，这是开源对闭源的胜利，这点非常重要。而且真开源是很难的，也是会被认可的。那些假开源，你要看看是不是愿意坚持下去，把自己的假开源慢慢的做成真开源。而且大力出奇迹这件事情依然存在，现在只是说在大力出奇迹的时候，我可以多换几个姿势，多换几个角度了，但是大力依然出奇迹。

不要老想着中国到底能不能创新，是不是遥遥领先，这件事根本就不重要。重要的是什么？重要的是在开源的模式下，快速的奔跑，参与到标准的制定者中间去，这个才是重要的。否则可能折腾了半天，你压根就不在这个标准制定者里面。因为现在大家都在开业，大家都是说我们向标准里边贡献东西。那么你不能说在前面贡献的时候，我们没有上去，我们都敝帚自珍，把门关起来自己偷偷的在这研究，等人家把这个标准拿出来以后，冲上来说不行。

我们要改一下这标准。我不认你这个标准，谁理你？所以在这个时候，大家就要疯狂地冲上去，参与到标准制定里边去。其实在这里再补充一句，原来在国内各个企业里边，在全世界标准组织里边，贡献最多的公司，在开源项目里边贡献最多的公司是谁？是华为。如果没有制裁，可能华为已经在这条路上走得很远了。但是因为制裁的原因，现在只能自己把门关起来，喊“遥遥领先了”。这个也是制裁造成的一个非常惨重的结果。

好，这就是今天跟大家稍微总结一下，DeepSeek出圈了以后，中文圈到底在吵什么，以及我的一些观点。好，这期就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。