GROK3 – 老范讲故事｜AI、大模型与商业世界的故事

马斯克重磅发布GROK4：史上最聪明AI大模型横空出世，强化学习碾压GPT-4与Claude，20万张H100显卡大力出奇迹，中美科技差距再度拉大，谁将主导AI未来？

Luke Fan — Tue, 15 Jul 2025 00:42:44 +0000

史上最聪明的AI大模型GROK4诞生了。马斯克亲自坐镇开发布会。视频发布会呢，并不是特别的顺畅。第一个呢，是他晚了一个小时，也没说为什么。反正马斯克的直播经常会晚。然后呢，太多的东西需要集中发布，上下衔接的呢比较仓促一点。

最早期很多的互联网公司开发布会也是这样的，两三个小时七差咔嚓发一大堆东西。后来OpenAI这些公司习惯了在网上开直播以后呢，就慢慢把这风格改了。改成什么呢？就是每次发一个功能，发个十分钟二十分钟就完事了。然后呢，不停的发，每个月发每个月发。Xai呢，现在还没有彻底学会这件事情，还是一股脑给大家扔了一大堆东西出来。

我们以前在面对创业者的时候，每次都会苦口婆心的去做一种劝告。大家可能不知道会劝什么。作为投资人来说，我们每次看到任何一个创业者，都会上去劝一件事，叫不要憋大招。你一次要惦记着做一个大的东西，就很容易失败。你应该是做一些小的东西，一点一点放出来。OXAI现在还是憋了一个大招。当然了，XAI后面呢，也会每个月发布一个新的工具出来，它也慢慢的向这样的一个方向去前进。

8月份呢会发编程，9月份呢会发多模态。虽然现在的GROK4呢，也号称是可以出图吧，但我不确定他是可以做图片理解的，做视频理解。但是呢，他这一块应该还不是很满意，9月份应该再会去做发布。10月份呢会发视频。GROK4的模型要直接做视频生成。一个百无禁忌的模型，能够做视频生成，还是挺值得期待的一个事情。

到年底呢，准备发企业功能包。这是个什么东西？GROK4是允许私有化部署的。你可以向他申请说，我家里有这个云，我们企业要用这个东西，给我部署到这边来。GROK4还会有合规工具包，企业级的技术支持。美国区的Oracle云账号，现在已经可以使用Grok 3了。Grok 4还需要等。Oracle云并不是XAI自己家的云，你可以在上面使用Grok 3。

一些测试呢，其实也并不是特别成功。比如说命令它唱歌，结果呢，这个东西没有唱歌，他做了一个诗朗诵。当然了，不论是唱歌还是诗朗诵，对于一个机器发声TTS的一个功能来说，已经是很强大了。既然敢在上面当着马斯克的面要求他唱歌的话，那说明这个东西是会唱歌的，只是当场没唱出来而已。

那么GROK4到底是一个什么样的模型呢？妥妥的叫别人家的孩子。什么叫别人家的孩子？就是你看邻居家的小明，怎么考的这么好，每天上课都多么专心，经常被老师夸奖。

GROK4呢，属于典型的理工男模型。GROK从三开始，一直是有一个很双面性的东西：一方面是理工男，另外一方面呢，比较百无禁忌。GROK3有一些比较奇葩的用法，待会咱们再去讲。GROK4我估计会继承这些使用方法，而且会变得更加厉害一些。

但是，马斯克作为一个理工直男，跟一帮工程师坐在那发布GROK4，肯定是奔着理工男的这个方式去发布的。所以，其他那个用法他就没怎么讲。所有跟做题相关的数据都被刷了。而且，这一次是遥遥领先。前面呢，Gemini 2.5、GPT O3 O4、Claude 4这些呢，他们在刷这些题、刷这些排行榜的时候也会有提升，但是提升的不会那么高，经常是这个我高一点，那个你低一点。

但这一次的话，GROK4完全属于是断层式的碾压，一下比别人高了非常一大块。特别是大家提到的，有一个叫“人类终极测试”的竞赛。上一个冠军呢是Gemini 2.5，正确率呢是21%。GROK4，不使用任何工具，就闭卷考试26.9%的正确率；使用工具就是41.0%的正确率。如果使用叫Grok Heavy，一个超重的模型，它是一堆的GROK一起来干活，干完了以后自己相互吵架，吵出一个结果来，它可以达到58.3%的正确率。

所有人都在讲说“人类终极测试”，什么是“人类终极测试”？它呢是一套测试题库，2,500道题。发起人是谁呢？有一个叫Center of AI Safety（CAIS，AI安全中心）这样的一个机构为主导构思与学术把关的。那么，谁出钱呢？谁做工程技术实施的呢？叫Scale AI，就是刚被美塔投了一大笔钱进去的，那个华人小伙子创业那项目，140多亿美金刚投完资的那个项目。他来去提供的数据工程和资金支持。

做这种题库并不是那么贵，花不了太多钱。启动呢，是2024年9月16号，公开全球征题，标榜找出AI也答不出来的难题。花了多少钱呢？给了50万美金的奖金池。Scale AI给的钱，最高呢5,000美金一个题，奖励前50名作者——就是你出的题特别好，5,000美金一个题。第二梯队呢是500美金一个题。后边呢就是100美金每个错误——我把题上来了，大家来找错误。

现在这个题库呢是在GitHub上，在Hugging Face上都有，大家可以上去找错误。找到了错误，给它修正了，可以得到100美金。所以呢，它整个的运作方式就是50万美金一个奖金池，咱不停的发。到现在为止呢，依然在不断的更新这些题库。

这个题库呢是公开征集的2,500道题，41%的数学题，14%的多模态的题。另外呢，还保留了私有隐藏集防止过拟合。过拟合什么意思？就是说我刷题呗，除了这个题之外的东西都不会吗？前面这个Llama4就是死在这个过拟合上了，题刷的特别好，结果发现不是这个题库的题不会做了。

他怎么来预防这个过拟合呢？就是有300道题是隐藏的，任何人去刷这个题库，你看不到这300道题。用AI大模型去做这个题的时候呢，它就会把这300道题拿出来，这个模型就始终会遇到新题，遇到没有做过的题。

整个的这个运作方式呢，第一个是叫众包的征题，大家都来出题。第二个呢是做前沿模型的筛选，就是用当下最强的大模型（GPT4O，Gemini2.5，Claude 3.5）这些题呢进行模拟考试。当这些模型的得分不比随机猜好的时候，这个题目才会被保留下来，进入人类最初考题的这个题库。比如说咱们原来都讲a b c d考试嘛，咱们全填a得25分，如果这个这些大模型做的分没有超过25分，我们就把这题留下来，超过了我们就这题不要了。它是这样来出这个题的。

出完这些题之后呢，再进行两轮的人类专家复核，在Git Hub和Hagging face上面去公布，让大家去找错误版本。定版以后保留私有级并记录版本哈希，他是这样来工作的。

你说人到底能做成什么样人类最终考题？人呢目前为止，没有一个公开可验证的成绩。有人试过，据说是需要耗费极长的时间去做，但是也没有人呢去真正公开说我到底得了多少分。所以马斯克这次说，他的大模型可以做到50多分了，说应该已经超过了绝大部分的人类，我觉得这个事情是可以这么认为的。

马斯克认为呢这一次他发的GROK4就是有史以来最聪明的大模型了。当然了，马斯克这个嘴呢，大家就听就好了，因为GROK3发布的时候他也这么说的。而且马斯克讲了说他的GROK4已经达到了全科目博士水平了。

那么GROK4到底有什么不一样的地方呢？它是第一款预训练和强化学习相对比较平衡的大模型。什么意思呢？正常我们去做一个大模型是做预训练嘛，做一个模型出来。做完这个以后呢会去做强化学习。所谓强化学习呢，就是状态动作和奖励，在某一个状态下，我要求你去做一个什么动作，如果做对了我给你奖励，做错了就没有奖励。这个大模型自己按照积累更多奖励的方式进行训练。像我们比较熟悉的比如Deepseek R1推理模型也是如此。

就是他先去做一个基准模型，叫Deepseek R1 Zero。然后呢，在这个模型的基础上去做推理的强化训练，得到了Deepseek R1。

但是，以前传统的模型是怎么做呢？就是先消耗巨大量的算力和数据进行预训练，把这个Zero（0）模型做出来。然后呢，再用远小于预训练成本的算力去进行强化学习。一般呢，它的强化学习的成本大概也就是预训练的10%到20%左右。

然而，GROK4呢，它是预训练跟强化学习所耗费的成本与算力基本相等，两边一样多。所以它是有史以来第一次用这么多算力去做强化学习的模型。当然，你像Deepseek，它想干它也干不了，20万块显卡它没有。

GROK4呢，首先是使用GROK3的一部分权重，就是有些层次的权重它就直接用了。然后补充数据之后进行预训练，得到了一个叫GROK4 base的基础模型。接着，投入空前的算力进行强化学习，投入了20万张算力卡直接进行强化训练，按照奖励最大化、长程回报的方式。

什么叫长程回报呢？就是你要做很长的推理，要积累正确的奖励，让这样的一个算法去进行训练。而且呢，是动态的任务池，包括数学推导、代码单元测试、商业模式和人类最终题库，这些高级的环境都要进去进行强化训练。

XAI呢，直播的时候讲到说，模型越聪明，强化训练的任务呢就越少，需要自己动态地去做题，否则你就没有那么多题可做了嘛。智能体在模拟环境下或者是真实的API工具中试错、自我对弈。因为有一个叫做Grok heavy的模型，就是一堆的Grok的模型自己跟自己之间吵来吵去的，最后看看怎么能够提高训练效果。

在训练期，让代理互相评论；推理时，并行生成交叉式复审核成答案，再去进行这样的学习。所以它的这个算力是非常浪费，但是效果很好。而且呢，它会监控成功率，当大于80%的时候，会自动生成更难的对手、更长的推理链，解决奖励稀疏的问题。

就跟原来说小学生：“哎呀，我今天考了95。”一回到家里以后，父母肯定说：“你为啥不考100呢？前面还有人没有？”都是这样来训练出来的，就不断地PUA，这个产品就出来了。

它的强化训练计算量达到了同类产品的10倍以上。GROK4的强化训练连续跑了7周，每天消耗的电力相当于一座中等城市。所以说，AI的竞争最后是电力竞争。结束了以后，他再把多代理策略的这些东西进行蒸馏，形成一个单代理的版本。

所以呢，我们平时去使用的公开的API调用的Grok，不是heavy的那个。

就是蒸馏后的这个单代理模式。而且除了强化学习之外，还有一个很重要的东西是什么呢？就是原生的工具支持，这个也是非常厉害的。因为现在的大模型都是可以调用工具的，调用方法也很简单，就是你在给它提示词的时候，把工具的描述描述进去。说我这有一个扳子，那有一个锤子，这里还有一个电焊，有一大堆这样的工具。你先把这些东西都介绍给这个大模型，然后呢，大模型再根据说你的提示词进行推理，在推理的过程中来决定调哪个工具。这个东西其实是需要训练的，有些工具你会使，有些工具不会使，或者有些工具你根据这些描述应该如何去使用，它是需要训练的。所以Grok专门在这块进行了训练，它的这个原生工具的知识要比其他的模型要好。所以呢，它叫高度动态的工具知识。

GROK4的工具体系不仅仅局限于文本生成，它能够根据任务需求动态调用外部的API、计算工具、模拟器等等，使得它能够处理更复杂的任务，例如实时推理和决策优化。而且呢，它是多智能体合作，因为这个东西一开始它就是相互之间吵架吵出来的嘛。不同于大多数模型，GROK4的原生支持多智能体的这种合作方面的创新。以前都是以智能体为核心，我们再去调别的工具就完了，但是GROK4支持智能体之间调用的，就可以使得模型能够在推理过程中模拟复杂的多角色互动场景。这在处理开放式任务、模拟环境和长期计划时非常重要，这个是它的一个创新。

然后呢，多模态的知识。Grok对于图片、音频等非文本数据是内建支持的，使得它在处理涉及视觉、声音以及其他感知数据的复杂任务的时候，能够更加高效的融合多种信息源，优化推理能力。通过强化学习和专家模式的结合，GROK4能够在大规模任务中实现更高效的推理，尤其是在与外部工具和数据库交互过程中，提升了准确性和可扩展性。这个就是GROK4真正强的地方。第一个是用了空前的算力去做强化学习训练，另外一个跟大家强调的就是对于工具的这种原生支持。

讲的这么热闹，这个使用起来到底怎么样呢？第一个，我自己的账号是8美元的x账号，这个不让用，只能用GROK3。GROK.com上也只能用GROK3，不让我用GROK4，必须要升级30美金一个月的super Grok账号才可以去用GROK4。你要想去用那个Grok heavy，就是那个特别重的那种相互吵架的这个大模型，一个月300美金，稍微有一点点小贵。那你说我讲了半天我用没用过？用过了，通过API调用。

现在呢，我们可以通过x.AI的网站去调用GROK4的这个API。它上头有一个模型叫GROK4-0709，就是7月9号这一天发布的这个版本。当然，比较遗憾的是什么呢？现在GROK的这个API调用所有的优惠都停止了，只能老老实实地烧TOKEN。也不是很贵吧，去年呢，是每个月送25美金，基本上是够使了。今年是5月份之前呢，同意共享数据充值5美金送150美金，这个也是一个比较不错的优惠吧。但是5月份以后这个优惠就停止了，所以现在就老老实实烧就行了。它呢，是3美金100万TOKEN的输入，15美金100万TOKEN的输出，所以它的整个价格不贵。上下文呢是256k，支持推理，支持多模态输入。

现在呢，它有一个调用限制，每分钟可以调用60次，超过了以后呢它就会卡住你，这个是有问题的。所以，我确实去用去了。使用的感受怎么样呢？这个就当我们跟博士在一起工作的时候，会自惭形秽吗？我相信可能在我听我节目的人里头，有一些人是博士。你跟博士一块去聊天，一块去干活的时候，真的觉得他们特别伟大光荣正确吗？其实也没有。博士有时候未必懂得人情世故，未必好打交道。我个人的感受呢也是如此，并没有感觉比ChatGPT或者Claude好更多。有时候呢也犯一些比较低级的错误，质量，指令的依存度并不是很好。

我做了几个测试吧，比如说我要求的他先去做搜索，根据搜索一些信息去给我做总结。出来的结果呢，会混杂html的标记在里头。因为你搜索的结果是带html标记，语言那些标记的嘛，出来了以后就会带这个。我在提示词里写着说不要带html标记，把相关的标记转成Markdown，发现依然是带着这些标记就出来了。所以呢至少到目前这个版本吧，效果还没有那么好。但是他们应该内部还在迭代吧，可能很快就会改过来吧。

在处理日常工作这方面呢，他的能力与科研能力之间其实并没有直接的联系。就是大部分人其实都可以处理日常工作，但是很少有些人可以去做这个科研。而GROK4主要提升的是科研能力，所以前面我们讲所有跟数学相关的，跟这个推理相关的遥遥领先。但是处理日常工作这块呢，基本上也就这样了。一个理工直男博士，往往是笨嘴拙舌，缺乏生活常识，以及指令依存性不是很高的一个人，符合我们对博士的这种刻板印象吧，或者也属于在情理之中的一个事情。

所以现在日常工作处理方面呢，到底考核什么？第一个是工具能力，第二个是指令依存度。

第三个是一些对齐的能力。这块其实现在GPT、Gemini、Claude、Grok、Deepseek基本上都能使用，没有特别大的差异。

输出质量呢，在不同的领域各有差异。GPT相对来说是比较均衡的；Gemini呢，有点像理工男；Claude的输出让人觉得比较舒服，但要稍微油滑一点；Grok呢，有的时候给你黑色幽默一下；Deepseek喜欢瞎编。

稍微勉强达标的是谁？就是千问跟豆包，叫勉强达标，稍微要比上面那个梯队差那么一点点。我呢，还没想到具体要用Grok4做点什么高大上的事情，因为对于普通人来说，你也想不出什么高大上的事情让他干去，所以这个先使得吧，价格也不是很贵。

再往后一个问题是什么呢？说好的开源哪去了？马斯克原来讲的Grok是要开源的呀。Grok1现在其实已经开源了，在Grok2发布的时候就开源了。但是呢，也仅仅是开源了而已。正常你开源一个项目，你是要文档、要社区、要维护的。但Grok1开源了以后呢，是一种非常不友好的开源。它那个模型很大，一般人你也部署不了，所以它也没有跟别人去做各种兼容性的适配。有些人去提问题、提意见，他也不理人家，就往这一放就完了。这种开源代码，属于是比较低质量的开源项目吧。

马斯克呢，曾经承诺过，新的模型出来，就一定会把上一个版本开源出去。Grok3发布的时候呢，大家就在等Grok2的开源，当时也承诺了，等Grok3稳定下来，就把Grok2开源掉。现在Grok4都出来了，Grok2跟Grok3就都没有开源的动静了。整个的发布会上，也没有再提开源的事了。对于马斯克来说，贵人多忘事，直接忘掉了吧。

Grok以后会提供企业私有部署的服务，这个呢，其他三家还是不一样的。像Gemini、GPT、Anthropic，他们应该都不会去提供这种企业部署的。以后未来是否会开源呢，还要看未来的策略。其实开源对于他们以后去争取企业私有部署的订单是有好处的。实际上他所谓的开源，也叫开放权重，并不是开放源代码。开源是一个很消耗人力的松耦合和协作方式，马斯克他们XAI现在人也不是很多嘛，所以现在一时半会顾不上。

也没准到年底的时候又想起来说，我们再开个源啥的，大家可以再继续等待一下。马斯克现在呢，应该也没太考虑到XAI到底能不能挣到钱的问题，反正他现在不停地往里募资，不停地融资，融的钱也够他花的，因为他人不多嘛。

也不需要跟别人去抢人，主要花的钱都是烧算力去了。买显卡、烧电费，就干这玩意去了。

再往后呢，咱们看一下大模型的意识形态问题。因为Grok呢，是一个比较奇怪的大模型。咱们要知道，最一板一眼的大模型，或者说道德感最高的大模型是Gemini。GPT呢，原来道德感也很高。最近的一段时间，特别是Deepseek R1出来以后，这段时间呢，GPT实际上是把道德感降低了一些。最没有道德感的实际上就是Grok。

Grok呢，最近还出了一个特别神奇的事情，叫做“日本烟花事件”。怎么出的事呢？就是做了一次黑色幽默。应该在7月5日，有人放了一个特别漂亮、特别大的一个烟花的照片，就在那说：“这是日本最大的烟花了。”另外一个人呢，回复说：“应该还有更大的吧？”这个时候呢，就有人去问Grok了，就@Grok在Twitter里头，在X里边问他：“什么时候日本有过更大的烟花？”

Grok就回答了：“日本广岛跟长崎被丢原子弹那两次，是更大的烟花。”日本人肯定不乐意了嘛，说Grok太不照顾我们的民族感情了。Grok呢，还在那嘴硬说：“这是一个黑色幽默。如果你感觉不舒服的话，我道歉一下。但呢，这就是一个历史事实，我也没有编什么。”

日本网友就说了：“说两颗原子弹呢，杀死了很多的无辜民众，这个才是事实。”Grok的回复特别逗，他说：“南京大屠杀这个才是历史事实，有很多的无辜民众被杀了。”然后日本网友说：“南京大屠杀这事是个谣传，没有南京大屠杀，凭什么说这是历史事实呢？”Grok又去回去了：“有各种笔记、照片，还有审判的一些记录，都已经证明了。虽然死亡人数上有争议，但是南京大屠杀是被普遍认可的历史事实。”

就是这样的一个故事，让日本网友稍微有点小破防。日本人现在正在想说：“我们是不是要去抵制一下特斯拉呢？”这事是7月5号发生的。7月10号早晨，XAI把Grok相关的评论都删了，准备开发布会了。发布会之前，不能有这种不和谐的声音在这里。

Grok干类似这种有争议的事情，其实也不是一回两回了。他经常做这种黑色幽默，得罪一些人。但很正常吧，黑色幽默通常是有一些冒犯的，不能保证所有人看着都很开心。你要如果所有人看着都很开心，那就不叫黑色幽默了，那玩意叫“伟大光荣正确”的。

Grok呢，曾经出现过意识形态投毒的事件。2025年5月14号，Grok对于用户无关提问，比如棒球、HBO更名等等这些事情进行回复的时候呢，反复提及南非白人种族屠杀和“kill the boy”，应该是BORER吧。

这样的一个歌反复在提这个。这一行为呢，引发了广泛的关注。因为白人种族屠杀是一种极具争议的极右翼阴谋论，已被南非法院和多个权威机构驳斥为缺乏证据了。

Grok甚至在某些回复中称，这是被Xai的创造者所指示的，将这一个问题视为事实、种族动机驱动的一个事件。这是Grok承认的事情，因为马斯克自己始终坚信南非是存在针对白人的种族屠杀的。因为他是老板嘛，所以就有人把这个东西直接写在系统提示词里头，直接投毒投到x上去了。大家在x上发帖的时候，如果你@grok，他有时候会回来回帖的。

这一次日本的烟花的事件呢，也有人指出了为什么他就这么去怼日本人，而且会去提到南京大屠杀呢？有人说XAI团队里的中国人占比太高了，特别是在中国大陆出生、接受基础教育的人，占比是最高的，基本上大概占一小半。到目前为止没有一个明确的确认说有谁日本人在里头。在这里头大概就是中国人、俄罗斯人加上一些东欧的人，是这样的一个团队组成的XAI。

甚至现在有人认为呢，XAI是一个被中国有意识制造的特洛伊木马，派了大量的研究者进去。其实这个事儿不光是XAI，美国所有AI公司里头大概都有一半，没准还有一多半是中国人。而且这些人是在国内接受过初等教育的一些人，占比是非常非常高的。

那么新的态势是什么样的呢？现在Grok的市场地位呢，首先它的市值是第二。最高的呢是OpenAI，3,000多亿美金；1,000多亿美金的Grok是第二。所以它的市值要比Anthropic高很多。其他的大厂，谷歌你没法跟它比，那玩意是上万亿美金的公司。所有的AI的这种新公司里它的市值第二，但是市场占有率呢并不大。

市场占有率最高的肯定是OpenAI，大概占百分之三四十的份额；Gemini是第二，应该有个20%多；Anthropic的Claude有十几；剩下的大概还有30%左右呢，包括Grok，包括LLAMA、千问、Deepseek，都在这个其他里头。

Grok的APP不算x那部分，就是APP自己的日活应该也是有个几百万吧，月活可能几千万的一个样子，就是数量还可以。在一些特定的领域里头呢，被应用的很好。Grok你是可以通过API直接调用x数据的，不是具体说我要看张三的哪一条或者李四的哪一条，不是这样的。而是什么呢？你可以看趋势数据，说最近x上有什么新趋势，你可以直接通过API直接调用它，这个还是很方便的。另外呢，顾忌比较少嘛。

所以，很多人在用Grok写小说。还有呢，因为Grok的顾忌相对来说比较少，所以它有一个比较特殊的用途。刚才咱没讲，就是有一堆人在去研究越狱提示词，让Grok去写黄色小说。大部分的色情小说，其实是Grok写出来的。

按道理来讲呢，应该有人用Grok做工程、技术方面的工作。但是这个可能离我的生活稍微有一点点距离，所以我并不是特别了解。这个应该也是马斯克他们去训练Grok最主要的一个用途。他们不可能说我训练了一个东西出来，可以怼人、可以讲黑色笑话，还可以写黄色小说。马斯克应该也没那么闲吧，人家还惦记去火星呢。

另外一个我们要发现的势头变化是什么呢？就是通过GROK4的发布，美国再次拉开了跟中国之间的差距。把GROK4发布了以后，中美之间的大模型差距就重新拉开了。在科研、工程技术领域，绝对的遥遥领先了。我呢，没有验证过，希望后边不要翻车。因为有些东西我们这讲的很热闹，没准过两天翻车，这个可能性我们不希望看到。

而且这种大力出奇迹的领先，中国因为缺少算力卡，追赶起来是比较费劲的。它是20万块英伟达H100去做的强化学习，中国你凑不出20万块H100了。你要想拿其他的卡去做这件事情的话，你需要比如说200万块，或者更多的一个卡池，才有可能能够达到同样的效果。你要耗可能比马斯克多10倍的电，才有可能达到这样的效果。这个的话还是要看大家是不是有决心了。国内这些大模型公司一般烧不起这个。

如果说咱们想追上这一个事的话，估计要等10月份，川建国同志带着黄仁勋访华了。如果10月份它成行，带着黄仁勋来了，那没准咱还是可以追赶的。否则的话这事费劲。而且这种领先是全方位的领先，因为这是科研速度的全方位的领先。在各个方面的科学研究，Grok都有极大的提速。可能对于中美科技之间，会有一些新的改变吧。

新的方向已经指明了，有卡的公司们那就准备冲了。因为他这件事呢，说的并没有那么复杂。原来大家都是说我们做完预训练，做完这种Zero模型或者base模型，稍微的做一些强化学习就完事了。现在说，我们把这强化学习一直做下去，就可以有非常非常好的效果。那大家干呗。

OpenAI、谷歌、梅塔，这都是手里有卡的人。而且现在梅塔在挖OpenAI的人，前面掉队了。我们有卡，我们要把它干起来。OpenAI现在也在挖人，OpenAI在挖XAI的人，就是在挖Grok的人。因为你把20万块卡堆在一块去干活，让他们之间能够很好的调度。

这个事它也是个学问。既然Xai你已经把事搞明白了，那Openai说来，我花钱挖你的人就完事了。既然GROK4可以靠20万块算力卡做强化学习，直接把成绩拉上去，其他公司肯定是不甘落后的。这个是中国相对来说比较难追赶的一个事情吧。

华为呢，应该学英伟达，自己就别训练自己的模型了，好好搞你的升腾芯片拉倒了。搞了半天的这个盘古大模型，还不够丢人现眼的。

最后呢，总结一下GROK4的发布呢，其实让我想起了一个东西，就是《三体》这个小说里边讲的黑暗森林法则。为什么想起这个呢？黑暗森林里头其实它是四个法则：

第一个是宇宙资源有限，文明生存优先。

第二个叫猜疑链，就是：我怎么向你证明我是好人？我怎么知道你是好人？我怎么相信说你知道我是好人以后会很好的对待我？猜疑链不断延长呢，就容易去打起来。

第三个是什么？就是技术隐藏与技术爆炸。《三体》里讲黑暗森林法则的时候，看到任何人，哪怕他的技术比你差很远，都要一枪打过去，然后把他干掉。因为呢，距离很远，你不知道什么时候能到那，没准你到那的时候，人家技术大爆炸，一下就比你先进了，可能是反过头来就把你干掉了。这是这个黑暗森林法则的前三个要素。

第四个要素就是沉默是生存的策略，就是大家谁也别吱声，在里头藏好。

那GROK4呢，就是一个技术爆炸的冲锋号。因为他一旦上来以后，所有的理工科或者是工程技术方面的科技方面的，就可以大爆发了。美国这些油卡的公司会继续加大算力做强化学习，会快速赶上。中国，追赶也是必须的，我们再难还是得赶。毕竟美国公司里边还有这么多的中国人，比这个任何族裔的人的比例都高。

卡呢，咱们确认肯定不多了，那看怎么去新加坡，怎么去中东土豪那边去，把这些卡再重新聚集起来。或者说咱们把这个升腾的卡看看，拼吧拼吧能不能干点什么事出来。

GROK4应该是会对整个的AI制程行业带来改变的一个大模型，就像咱们年初的Deepseek R1一样。Deepseek R1出来之前，整个大模型圈子里头都是岁月静好了，OpenAI都开始挤牙膏了。Deepseek一出来以后，中国人来了赶快卷呐，甚至有一段时间他们都觉得哎呀，中国已经追上来了。但是到GROK4开始发现，哎，这个距离又拉开了。而且真的是有一样他们可以卡脖子的东西，咱们没有。他有他的训练，完完全全就是靠这20万块卡，咱们搞不定这个事情。他有，直接搞定了。而且这个东西不仅仅是Grok的领先，而是全方位的。

科技与科研的这种领先，所以这一块的话，可能世界格局都会带来一些小小的变化吧。后边我们还有很多的故事可以去讲吧。好，这就是我们今天要讲的GROK4发布的故事。

Manus全解构：国运级AI Agent背后的真相，自动规划工具是否真的不可或缺？

Luke Fan — Mon, 10 Mar 2025 00:50:34 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲突然刷屏的Manus。它的来源呢，是个拉丁语单词，是“手”的意思，同时呢还有“权力”和“力量”的意思。现在呢，华为造汽车就全都是《山海经》，做AI产品全是拉丁语单词，好厉害的样子，对不对？

现在这个事情呢，应该是从昨天开始，突然就变得一码难求了。我应该是在昨天看到谁呢？王舒义，天津师范大学的一个老师，他发了一条说：“哎呀，得到那个测试码了，怎么怎么着了。”我当时都没想说这啥玩意儿，没惦记这个事，因为呢他们那个Monica我也没怎么用过。Monica这个产品对于我来说，还是有点太奇怪了一点。待会我们再继续讲。

后来到昨天晚上了，突然就开始传出来说这个东西已经在闲鱼上炒到好几万了。又一个国运级产品出来了，中国人再次震惊了世界，说老美又怎么样了，全世界又如何如何了。今天再一看这个，各种新闻媒体刷屏了。我直到开播之前犹豫再三，说算了，还是去申请一次吧。咱们虽然没用过，但是好歹也算申请过了。本来我是连申请都懒得申请的一个产品。

团队呢，也出来求饶说，有人在攻击和破解他们的网站和服务器。这个很正常嘛，你一旦做的好了以后，大家总要上来看一看。那DeepSeek最近也才是逐渐的，号称要恢复正常。但是我却试了一下，一试还是问三个问题，就停下来那么一个状态。现在团队说玩不下去了。而且呢，说几万块钱在闲鱼上买这个邀请码，这事呢他们也出来澄清说：“我们从来没收过任何钱，您千万小心别上当受骗，上当受骗了也别上我这来找来，我这没收到过钱。”

那么，AI agent是不是真的就要爆发了呢？因为咱们从去年就开始讲，说2025年就是AI agent的一年。突然到3月份，就放出了一个王炸性的产品来。这个事是不是行？首先呢，不要太兴奋，这个东西呢在国内是使不了的，必须到国外去使去。为什么？因为底层是GPT和Claude 3.5、3.7这样的模型，这些模型在中国是没有经过安全审查的。

不能落地。而且人家这些模型上，也是明确的告诉你说：“我不愿意在中国地区为你服务。万一我给你服务了，你拿去维稳了，或者做了点别的事情，我们也担不起这责任。”所以Manus这个产品在中国不能用的。他们家的Monica.im在国内也是不能用的。他们纯纯是一个出海的服务商，而且呢，其实是一个非常非常小的服务商。他们的整个的产品，在海外没有那么多用户。

那么Manus到底是干嘛的，或者你到底能干嘛呢？现在能够出来看到的，绝大部分都是官方放出来的一些视频：晒简历、做房地产的评估、旅游的规划呀，全都是这样的东西。因为拿到邀请码的人不多，就算是拿到邀请码的人，可能也还是要给一些面子。但是也有人说自己上去了，觉得一点都不好使，问的所有问题都翻车了。这个我觉得都是可以理解吧。

Manus最强的地方是什么？就是自己规划任务。因为原来我们都是靠这个，像流程图一样去自己画，说我们先干什么后干什么，每一步怎么怎么做。现在说不用了，他自己来规划。你问他一个问题以后，他自己做计划，说我先查哪些资料，再查哪个网站，然后再怎么把它拼在一起。然后呢，可以自动的执行，自己生成一点Python代码，自己去把它跑出来。然后呢，给出最终的结论呢，实际上像一份大报告似的。而且很多人看到这份报告以后觉得：“哎呀，这个写的实在是太好了，甚至给我画图表、画表格。”

画表格这件事是非常非常容易的，千万不要被这玩意骗了。像我们写Markdown格式，或者在计算机里边，写很多的语言的时候，都是可以画出来的。你让ChatGPT画个表格，它也能画出来。但是你让它给你画图表，肯定是画不了的，还是要去调用一些特殊的语言功能才可以画出来。ChatGPT他没做这事，现在统统都干了。

非常多的人一看了以后说：“哎呀，这个简直是如虎添翼，每一个人都可以成为研究者了。”而且说，这是不是AGI看到曙光了，这个东西就是未来了。所以也有很多人说，这就是下一个国运级产品。

DeepSeek的这个辉煌再次上演了，那么是不是值得这么兴奋呢？又一次国运级的创新诞生了吗？我觉得一个不能在中国使用的服务距离国运就还稍微有一点点遥远。你DeepSeek再怎么说，咱们全国上下都在部署，你一个无法在中国合法落地的产品，中国人在这呼哧呼哧在这炒作，这个是很无聊的一个事情。而且DeepSeek本身在代码生成方面，其实差得也还比较远。Manus这种产品，它是不可能靠DeepSeek大模型就在国内部署起来的，它必须要有Claude，必须要有ChatGPT才可以完整的跑起来。如果DeepSeek就可以带着他自己整个跑起来的话，他就可以在国内上架了，但是他不行。

那为什么我说DeepSeek在代码生成的方面差得非常远呢？因为我昨天花了一整天的时间在尝试用DeepSeek去写程序，那叫费劲，比Claude 3.5、3.7真的差的不是一星半点，是差的太老远了。Manus跟DeepSeek比起来，还是有很大的差距的。DeepSeek让国内所有的大厂都跟着走，Manus，国内大厂呢有可能会超他，但是呢也不一定每家都会去抄一遍，因为现在这个方向呢，大家也还在观望之中。它不像是DeepSeek，彻底把国内所有的这个大厂全给翻了一遍，所有跟云计算相关的所有运营商全都装DeepSeek去了。

DeepSeek已经改变了全球的AI格局，还带崩了英伟达的股票。而这一点上Manus就更加没有比较了。DeepSeek自己服务半停摆的情况下，依然可以搅风搅雨，那Manus呢只能算是一个标记性的时间点。他出来了以后说，哦，我们看到了一个新的产品形态，而且大家还挺喜欢，可以自我规划的AI agent可能就能够用了。那么国内的这些大厂，包括一些小一点的厂，系统经营商呢，应该就可以去冲一波了。而这个就是Manus现在带来的一些变化。Manus现在也说我们要开源。

这件事我觉得还是稍微值得期待一下。现在呢，大家最希望他开源的，是他推理和规划的这个“小模型”。但是人家具体什么时候开，开什么东西，现在还没有确定下来。那么讲这么热闹，这东西到底咋实现呢？是不是一套壳产品呢？只要是中国人做的，大家都要问一下。而人家呢，上来也承认了，说我们就是套壳的，没什么好说的。

什么叫套壳呢？就是你没有自己的大模型，大模型用的就是Anthropic、Claude 3.5、3.7、OpenAI的GPT以及DeepSeek。它是没有自己可以拿出来展示的大模型的，使用的都是公开模型。所以呢，可以算是一个套壳产品。甚至还讲了说，我们把套壳做到极致，就如何如何。但是呢，它这个离极致其实还稍微有一点点远。

那么为什么是现在这个时候，Manus这种产品出来了？这种可以有自我规划能力的GPT，其实早就有。最早有一个产品叫OTO GPT，但是一晃眼儿就不见了。现在呢，是Claude 3.7、ChatGPT，特别是DeepSeek R1，这个模型已经变得很强了。而且像DeepSeek R1这样的产品，如果你自己部署的话，你的成本是可控的。像Claude 3.7这样的产品，其实并没有那么贵，整个让它跑起来还是可以去承担的。

原来OTO GPT的时候，当时大家跑，我忘了是GPT3.5还是GPT4了，奇贵无比，所以一会那钱就哗啦哗啦就不见了，所以没做起来。现在呢，就是有可能能做出来。那么进行自我规划之后，能够可控的输出结果，这个是现在这些大模型已经可以达到的这个能力了。其实现在用一些稍微小一点的模型进行规划和微调的话，还是很方便的。

我今天还试了一个东西，就是阿里新出的QWQ 32B的这个推理模型。据说它这个32B的模型呢，是要比DeepSeek R1 671B的模型效果还好。我上去试了试，确实挺好用的，但是要想达到DeepSeek R1那个，还是要稍微差那么一点点。

虽然在跑分上确实是跑赢了DeepSeek R1，但是个人使用体验跟跑分还是不一样的。讲回来，Manus呢，应该是自己做了一个小的规划模型。它呢，构建一个规则的知识库，就是我要做什么事，大概有几种方法，我做另外一件事大概有几种方法。然后呢，输入指令进行规划。我现在要做一个旅游攻略，我现在要去筛简历，把这些命令输入进来以后，他就给你规划了。规划出来以后呢，给你做了一个叫to do.MD的文件。to do嘛，就是马上要做的事情。MD呢，实际上是Markdown。Markdown是程序员经常使用的一种文本工具，就在文本里边直接写一些符号，就可以代替排版。像我们在word里排版的话，你要先写好文字，然后选中了以后，说我们是用几号字，前头要不要写这个点，或者有没有这个编号。markdown等于完全是在文字里边去写，就程序员都是这么干。

当他做完规划以后呢，得再通过自己的一个解释器，把这个markdown里头一条一条的，一步一步去完成。他是这样去工作的。里头呢，还有一大堆小工具，比如解压。筛简历的时候，就是给了一个压缩包给他，那你把他解开。然后呢有一些文档解析，甭管是PDF文件word文件，你都解析出来。然后还要做网页解析。那为什么网页解析要单独讲一下？咱们打开网站看一看，那上面什么弹窗了广告了一大堆东西，你要把真正有用的东西扒出来，还是有点难度的。所以网页解析是专门的一个项目。然后呢，自己还带浏览器，他可以自动的去浏览网页。其实有点像今年1月份，OpenAI发的那个产品叫operator。但是operator发完了以后，只有200美金以上的用户可以用，像我这种20美金的用户还用不了。还有一些API，你比如说我现在需要重新生成PDF了，还有一些API的，它呢是可以通过Python，再生成一点点简单代码，然后可以通过这些简单代码的执行，把这些刚才我们讲的小工具，整个的通顺的串联起来。

它呢，可以设置一套小工具的调用规范。符合规范的就可以进到工具链里边去。当他拿了这样的一大堆小工具，照着todo.MD去执行了以后，就产生了一大堆的中间结果。然后呢，再对结果进行拼接。大模型的能力其实就在这。它能干嘛呢？就是处理很多这种叫非结构化数据。

什么叫结构化数据？什么叫非结构化数据？就是我现在有一个表格，第一列叫做姓名，第二列叫做年龄，第三列叫性别，第四列叫做简介，第五列叫什么职业。这个东西就叫结构化数据了，一行就是一个人。非结构化数据就是，我拿到这个数据里头是一锅酱，我们也不知道这里头到底写的什么。大模型就是你可以把一大堆的非结构化数据扔给他，然后让他去总结分析。他是有这个能力的。

而且呢，这个其实他调用，甭管是网页也好，还是各种的API，从其他的服务那里获取数据也好，实际上都是结构化数据。但是呢，他就把所有这些结构化数据打包在一起，作为非结构化数据直接扔给大模型，说来我这有一大堆数据，我也不去解释里头到底是什么，我也不去研究这个数据结构了，你去给我去总结归纳一下。他是通过这样的一个方式来干活的。

相当于是什么呢？上面的一大堆小工具，进行这种松耦合的组装。为什么要强调松耦合呢？我们正常写程序，我们会去标记，你这个数据应该是怎么排列的，第几个字节到第几个字节写什么，写错了马上报错。有了这个大模型以后，我就都塞进去，反正这个大模型也不挑你这个里头，哪个多写几行，哪个少写几行，多两个属性、少两个属性，他都无所谓。所以他就可以通过这样的方式，把这些小工具凑载起来。

得到了一些结果之后呢，再输出一个漂亮的报告，包括刚才咱们讲图表，表格呀。其实你用DeepSeek R1，用这个Claude 3.7什么的，都是可以生成这样的报告的。像我们以前写程序的时候，有很大的一块时间是干嘛？就是打报表，各种各样的报表。为什么？要对格子，要去取数据，要去做统计分析。这个事是很麻烦的。

他们这块做的还是不错的。Manus真正强的地方在哪？它实际上就是规划。他可以自己去做计划，说：“哎，我要先干什么后干什么，先调哪个工具后调哪个工具，中间出了问题怎么办？如果没有问题的话，我怎么把这些内容再拼起来？”这个是他真正厉害的地方。

当然，我看今天已经有人说是Manus是不是个骗局了。怎么说呢？就是这个东西没有大家想象的，或者说他放出来掩饰的那么美好，但是你也不至于说他是骗局。就是我们也要看看里边到底有什么创新的地方，他怎么能够实现这种规划。

将常用的流程和子流程写出文档来，直接嵌入到本地知识库里边去，再把工具链上面各种各样的信息也把它embedding到这个本地知识库里去，再将各种服务性网站的信息也把它embedding到这个本地知识库里去。然后在规划的时候，直接根据本地知识库做REG输出就完了。我们告诉他：“我要做一个什么事。”他就跑到这个本地知识库里边去查去了，查完了以后说：“你干这个事，好像这三个工具有用，这几个流程可能是有效果的，这些模型可以干活，那些这个网站里头有你要的数据。”它可以通过进行本地知识库辅助的这种生成，直接给你输出一个刚才我们讲叫todo.MD的这个文件出来，就可以照着干活去了。

产品设计本身还是相当不错的，界面也很清爽，用户交互也非常的顺畅，这个还是很好的。这个Manus的结果靠不靠谱？先跟大家讲一个小故事。据说有人拿这个DeepSeek推荐彩票，买完了彩票还中奖了。还有一帮人说：“哎，我用DeepSeek去做量化吧，我去用DeepSeek炒股吧。”官方量化里边不是炒股的吗？这玩意靠谱吗？肯定不靠谱。所以AI这个东西一定是有幻觉的，千万不要觉得AI是有可能把这个幻觉干掉，这个很难很难的。在数据源不能保证正确的情况下，AI更没有能力说：“我一定会输出正确的内容来。”我哪怕是搜索了一大堆东西，你搜索的东西还有可能是错的呢。AI自己根本就没有判断能力说：“唉。”

我搜索回来的这个网页，哪个是对的，哪个是错的？他唯一能判断的是什么？唉，这个是一个官方主流媒体，那是个个人博客。需要去采信的时候，我要更多地采信官方主流媒体。但是我们其实并不希望AI有判断能力。大家自己想一想，如果AI有是非判断能力了，那是一件多么可怕的事情？还是让他糊涂着就算了。

然后，多个数据源进行总结归纳的时候呢，其实也很容易产生幻觉。就是当我搜到了5个相关网页，对5个相关网页的结果进行总结归纳的时候，幻觉是很厉害。特别是像DeepSeek这种东西，就是幻觉一塌糊涂。Work 3什么换节，也非常非常厉害。Manus底层的模型都不是自己的，全都是别人的。在很多的这种幻觉模型上，自我规划以后，其实它输出的内容一定是不靠谱的。虽然可以进行一点点验证，但是呢，现在距离提高正确率还差得比较远。

那么现在的结果都很惊艳。很多人说筛选简历很棒，筛选的什么房地产信息，也都非常棒。你怎么就在这胡说八道呢？怎么可以说人不行呢？其实原因很简单，他筛选简历的结果，筛选简历的过程，筛选房地产的这个呃过程，筛选履行建议的这个过程，他是给外行看的。你真给内行，他是看不了这东西，看了会乐的。这过程呢就像老中医，念着口诀给人看病似的，金木水火土念半天，你一定很专业。这个大模型也是一样的，一本正经的胡说八道。你不一本正经，他就骗不到人了。所以呢他产生的所有的这些结果，是相当容易让外行感到幸福的。所以千万不要觉得这东西就很厉害。

目前为止Manus给出来的东西，基本上是叫桃园三结义孤独一支。这个什么意思？就是怎么说都行。你说这桃园三结义孤独一支，到底是哥几个？哥一个，这孤独一支吗？哥两个，孤独出去一支，还剩俩。三个，哥仨嘛，团圆三结义嘛，大家站在一个枝头上了。这都可以讲。所以目前Manus给出的演示结果，基本上都是短期内无法进行验证的。你没法确认它到底对不对，但是当你觉得Manus……

给出的结果特别厉害，不明觉厉的时候，一定要小心，距离掉在坑里已经不远了。为什么呢？因为人跟人之间的交流和沟通，是通过不断的确认眼神，确认你的工作能力和工作结果，来建立信任。信任了以后就会比较少的进行检查，这个人就可以合作起来。但是大模型这种东西的话，你让他工作100年，该出多少错他还是出多少错。所以这个地方，还是要稍微小心一点。

下一个问题，Manus这样的产品到底有没有门槛？这个东西如果是国运级的创新的话，它一定是有门槛的。你像DeepSeek，虽然大家都觉得说我们能做的出来，而且各种开源各种开放，perplexity也号称自己训练了一个，或者调了一个类似于R1这样的模型，回来去使用了。但是呢，就并不是很多人都有这个能力，去自己训练DeepSeek这样的模型出来。这个还是有很大门槛的，即使是DeepSeek开源了一大堆的，怎么去优化GPU的这些代码库出来，这些东西想用起来也并没有那么容易。

那么像Manus这样的东西，有没有这个门槛呢？现在很多人就说，现在这个时代是模型及产品的时代，最后都会被大模型厂家干掉的。会不会这样呢？像OpenAI，每次开发布会，一帮的中小企业在这敲丧钟说完了，我这条路被OpenAI给瘫过去了。大家都是在这么看这个问题。Manus现在干的这个活，其实就是GPT5要干的活。可能再过个那么一两个月，我们就可以看到GPT5，因为GPT5也说了，我也是自自动规划，规划完了以后，我自动的去调用各种各样的模型，一次给你实现，而不是现在是这样，ChatGPT上来，我要选模型才能用它。这个方向已经在OpenAI的路径上了。但是呢，从OpenAI的deep search的结果来看，OpenAI的产品落地能力，其实并没有特别好。现在我们去看perplexity，DeepSeek的，豆包的，Grok 3的，这种深度搜索下来以后，你会发现OpenAI的。

Deep search其实是最烂的一个，真的不怎么好使。OpenAI算是技术很强，跟谷歌一样。谷歌的产品能力其实也很烂。他们这种公司呢，底层技术遥遥领先，产品烂一点大家也将就用了。中国人呢，是相对来说，比较擅长于内卷产品这一块的，产品体验、产品迭代，这个是咱们比较擅长的。这个底层技术咱们差一点，OpenAI也好，谷歌也好，都是底层技术好。在这块事上我们也很矛盾，为什么呢？广告时代最后实际上，所有的这些广告商都被收割了，被谁收割了？被这个自有流量的大广告平台给收割了。谷歌、苹果、Facebook、Twitter，现在其实都算是苟延残喘的一个广告商。剩下的，你说谁成为广告商，都是自己要有流量的。你如果自己没有流量的话，你是做不了大广告商的。现在的话，模型时代，是不是你如果没有底层模型的话，你就做不出上面这个东西来？这块呢，大家有一些矛盾。当然也有一些产品，就完全靠产品做起来。有一类产品呢，叫PLG产品，就是叫产品引导增长的。这种东西有两个比较典型，一个是Notion，另外一个叫Slack。这两个产品就是典型的PLG产品，它没有特别底层的技术，我就是产品做得好，体验做得好，让大家使着方便，让大家使着舒服，然后大家就愿意去用。这块呢，看看是不是能够走通这条路吧。在大模型时代，这个逻辑是不是还能走得下去？不知道了。因为如果Manus知继续能够做下去的话，他必须要像Notion或者像Slack这样说，我的产品做的特别好，我就愿意为你服务，让你使着舒服，大家就一直一起用下去。你说在大模型时代里头，自己模型做的不怎么样，产品做的特别好的有没有呢？也有，一个是Cursor，就是自动写代码的IDE，还有一个呢叫Perplexity，就是刚才我们抢这个AI搜索工具。目前呢，还算是有一定门槛的，虽然大家都在做AI IDE，都在做AI插件，都在做AI搜索，但这两个产品目前为止活的还都不错。

至少暂时还都挺受欢迎的吧。未来的事情不好说了。大模型时代，模型厂商的服务边界其实没有那么清晰。它跟原来的互联网、移动互联网时代是不一样的。像移动互联网时代，谷歌跟苹果好多事它是不做的。但是你现在到大模型时代，你看有什么事是OpenAI不做的吗？

那么有没有离了模型就玩不转的案例呢？也有。有一个产品叫Character AI，这个大模型团队被谷歌收编了以后，现在产品直接趴下了。现在他的产品被一个中国公司的产品摁在地上摩擦。那个产品好像叫Toki，是这个Mini Max做的，也算是这个中国AI六小龙中的一个吧。

那么Manus的产品到底怎么样呢？这个需求肯定是存在的。大家还是希望能够快速地获得高质量的信息，不是内容，而是信息，就是经过整理分析以后得出来的结果。这是大家有需要的。在产品设计上呢，至少在演示视频上看，交互还是相当不错的。成本现在肯定是不划算的。这个未来到底怎么去收费，现在还不好说。

因为呢，OTO GPT当年出来了以后，为什么马上就挂掉了？因为这东西算一次，那个时间实在是不划算。你让他开足马力去干活，可能干一次俩小时，你回来一看账单，好几百美金不见了。这是当时的一个状态。现在的肯定是要便宜一些了。Manus，据说每次回答问题，就是每一个任务做完的平均消耗是两美金。不再会出现几百美金的事情了。但是呢，他也没法保证，因为呢，他是自动规划的。你有的时候可能花个几十美分就把东西算出来了，有时候花个两美金把东西算出来，但也有的时候可能俩小时就过去了，你再回来的时候一看，100多美金不见了。而且你没法控制他，因为是自我规划，所以到底每次跑多少TOKEN他也不知道。

在这呢给大家讲一故事吧。这个是原来我看的施瓦斯科普夫的传记。这哥们干嘛的呢？这哥们是美国的一个五星唱将。在打这个海湾战争的时候，他是中央司令部的司令。他呢在越战的时候是个程序员。他虽然是军校毕业了。

到了越南以后，他是个程序员，在那儿写程序。后来，从五角大楼派了一帮专家来说：“我们来分析一下月供游击队出现的规律。”他们搜集了大量的资料，在那算了很长时间，进行了数据建模。他也有幸参与了这个项目。最后得出的结论是什么呢？月黑风高的时候更容易被袭击。所以呢，你用Manus这样的自动规划工具去干活的时候，它有可能也是这样的。算了可能很长时间，最后算完了以后告诉你一个：“月黑风高的时候容易被袭击。”

原来还有一个电影是什么？计算机算到人类都灭亡了以后，最后得出宇宙终极答案是42。这个故事大家应该也听过。所以他的这个成本是比较难控制的。后面的大厂跟进一定是必然的。GPT5还有几个月就出来了。GROK3其实现在就已经是自动规划了。大家去GROK3里边，去点击这个deep research。你去给它一个任务的时候，它也是有一个规划清单，在这个上面在滚动的。他会把这个规划清单都整个执行完。所以现在好多人觉得GROK3出来的结果非常好。如果你实在是说我也等不到Manus了，也不得不舍得花这几万块钱，去买这个测试码了。大家就上GROK3上去用掉了。豆包，腾讯的元宝以及WPS应该都会虎视眈眈的，都会把这东西做起来。而且呢，在这块的还有些别的大厂，微软、谷歌、苹果都有可能来玩一下，因为他们自己是有操作系统的。这个事情一定是他们干是最方便的。

这就是这个项目。到底有没有这个门槛的问题？其实没什么门槛。当然你说我产品做的特别漂亮也行。你像Notion那种产品就是做的特别漂亮。现在免费开源的，类似于Manus这样的东西已经出来了。它这个产品发布了大概三个小时，还是几个小时，就有一个叫open Manus的这种开源项目，就直接扔出来了。你们要用自己上去挂去。当然不是程序员的话，挂起来会稍微麻烦一点点。那你说这种产品为什么突然就疯狂了呢？原因也很简单，二级市场实在是太缺话题了，稍微有点话题。

大家赶快要冲上去炒一把，然后再来算谁是Manus概念股。赶快要去买。至于你买的时候是不是有其他人在外面跑路，或者有其他人去赚钱割韭菜，这就不管了。但是有题材总是要炒的，而且这个团队呢，其实相当擅长于运作。

首先呢，他的视频拍得很好。在大模型时代，在AI时代，如果你这个团队不会讲故事，不会拍视频的话，你是混不下去的。他们很擅长干这个事情，做得非常漂亮。

第二个，这个团队原来是做微信私域运营工具的，就是专门给这个微信公众号，或者说这个企业微信的这些人做运营工具的。所以他们很擅长做这种叫做社交媒体裂变，社交媒体爆发这个事情，这是他们的老本行。

有了DeepSeek的铺垫以后呢，现在中国人的这个热情还没下去呢，突然有消息传出来了，肯定还要再跟着热闹热闹，这个是必然的。但是呢，这种突然爆发的传播呢，对于Manus本身来说未必是一个好事。

刚才我们讲这个PLG产品，就是这个产品引导增长的之类的。这些产品的话它有一个特点，就是你一开始一定要低调，你要这个猥琐发展一段时间。你如果一上来就在显微镜下的话，这个事是没法整的。突然爆火了以后，唯一的结果就是被大厂盯上。而且呢，你一旦进入这个显微镜下，你所有的缺点都会被放大。

2015年的时候曾经有过一个产品叫足迹，应该也是2015年春节的时候出的。他呢能够出这个电影感大片那样的照片，随便拍张照片进去，他就给你做一个像电影大片似的那种，等于裁的这种带这个边的吧，还给你写上一句字幕，大概是这样的一个感觉。上线服务器就崩了，很快就销声匿迹了。

所以像Manus可能会走上这条路。AI圈这种突然爆火，又突然死掉的产品其实还是蛮多的。大模型是别人的，算力成本无法承担，用户突然涌入，预算在燃烧，体验在下降，然后就没有然后了。这个是Manus这样的产品很有可能会遇到的问题。像他们呢其实手里没有多少钱，因为他们以前的公司是被腾讯投资过，但是Manus这一块的话。

你说：“我想趁此再去融一大笔钱，也不是那么容易。算一次两美金，一个任务两美金。当真的有一大堆用户涌进来，开始其他开始跑的时候，就想起这个哪吒一开始那句话了：‘天雷滚滚，我好怕怕，劈得我浑身掉渣渣的感觉。’你一个人进来，两北京不见了；一个人进来，两北京不见了。还不是一个人，是一个问题，进来两美金就不见了。你有多少钱够他烧的？”

当然了，现在这些事呢，对于Manus来说，也算是一个幸福的烦恼。还有一大堆人说：“我做出产品来没人知道。”他至少被人知道了。所以，能不能趁机融一笔钱，或者干脆找人卖掉算了？因为像他创始人上一个公司，就直接找了个公司给卖掉了。现在这个产品如果能把它卖出去，也算是不错的一个结果了。

新的阶段是不是已经准备好了？其实Manus代表了一个新的阶段到来了。AI进程呢，实际上有五个阶段，这个是山姆·奥特曼提出来的。第一个阶段是对话，能够进行自然语言交互的聊天机器人，用于简单对话和信息交流，就是我们现在使用的GPT-4、4O什么的，就是对话。然后第二步呢，是叫做推理，具备在特定领域进行问题求解和逻辑判断的能力，可以进行复杂推理和逻辑分析，就是我们现在用的DeepSeek R1、GPT的O1、O3这样的模型，就属于叫推理模型。现在其实我们在努力的走这一块儿。

推理之后呢，就是规划，是agent，可代表用户执行任务，具备自主运行的这个能力，能够在动态的环境中实施决策，这个是现在第三步。实际上Manus就已经走到了这个第三步上。再往后一步，创新，能够参与发明创造，增强人类的创造力，可在科学研究、技术开发等领域推动突破。其实现在什么医学方面，已经开始突破了。然后最后第五步是什么？叫协作，深度融合组织功能，参与社会管理与复杂决策协作，能够管理复杂的组织任务。这个是山姆·奥特曼给AI整个发展的，类似于L1、L2一直到L5的一个状态。

那么当前的状态是什么呢？GPT-4.5已经展示了，对话这件事情基本到顶了。

你再怎么加这个算力，再怎么去扩大模型，也就这么回事了。而我今天发现我的ChatGPT已经可以用4.5了，虽然是迟了两周，我们还是用上了GPT4.5，还没有空跟他去提问题呢。

推理模型现在还在快速发展的早期阶段，推理模型这个阶段并没有过完，现在都在拼命地冲这一块。有机会大家可以去试一试通义千问的QWQ 32B那个模型，还是不错的。因为这种模型32B嘛，你是可以在电脑上本地跑的，我就在自己电脑上装了一个，效果还可以，确实慢一点。

再往后这个规划呢，其实一直都在尝试，逐步有可用的版本出来。OpenAI一月份出的operator就是这样的一个产品，GROK3的Deepsearch也是这样的一个规划类产品。Manus呢算是把这个规划又往前推了一步，它已经离开了原来的这种环境，不需要在OpenAI的这个环境下用，不需要在grok 3的环境下用，完全用别人的模型，批了这样的一个单纯的产品出来。

当然了，现在这个产品到底有多成熟多不成熟，我觉得下结论还太早，因为我自己并没有真正的去用嘛，邀请码还没收到。缩小范围，专业一些的自我规划AI agent应该还是有机会的，因为现在的Manus号称是我可以泛应用，所有的行业所有的领域我都可以干，你让我干啥都行。最终能够做到的结果，大家就不要有特别大的预期了。

Manus出来以后，行业的方向必然会发生一些偏转，就甭管这个产品做的怎么样吧，告诉大家了一些可能性。现在哪怕是两美元算一次，这个可能性存在了，手工规划工作流的这些产品就要开始转型了。比如说像Dify，像Coze这种自己画流程图的这种，可能就要稍微的调一调方向了。未来呢应该都是会有自动规划工作流，这块会获得更大的这种关注。

那Manus有未来吗？首先跟大家下一个结论，没有，哈哈。为什么呢？不是因为产品做的不好，也不是因为它底层是没有自己的模型的，这个都不是。大家知道互联网时代。

第一个倒下的独角兽是谁吗？叫Evernote，就是现在的印象笔记。第一个从独角兽的10亿美金估值里退出来的公司就是他。那为什么是他呢？好多人说挺好使的，我还花钱买呢，像我也是花钱买的，而且这么多年一直在付费。为什么这样的产品就不行？原因很简单，咱们说一个像绕口令的话：“有用是最没用的事情。”为什么像绕口令一样说这个呢？因为大家被Manus惊艳到的时候，是因为觉得这东西有用，他给我的筛选力的这个过程很棒。你到底有多少HR需要筛选力？有多少HR现在不是在忙着裁员，忙着自己不被裁，而是说我要去招人？有多少人需要这东西？有多少人需要去看那些专业的报告？其实没有的，用户必然是很少的。像它这个Monica.IM，现在号称一共有700万用户，其实是累计安装量，它的活跃用户基本上可以忽略不计的。而且它这个700万用户，还是收购了一个叫GPT for Google的，一个300万用户凑起来的，他自己就有400万。收购了这么多东西，现在号称700万这个数，其实基本上你就认为他没有就可以了。而这几天有可能会爆发一波，但是未来应该很快就消减掉了。而且真正的专业人士是不会看他的报告的，我告诉你，真正专业人士看他的报告更累，你还得再一个一个再去校对，再去核验，再去看里头有没有说错的地方，这个事是一个很痛苦的过程。AI工具主要现在还是能够骗外行，就像我前面AI时代，文科生很重要这个视频讲的一样。像我这些程序员，一看AI写的代码，就在那乐，你们这个连拼屎山都拼不出来。但是我看AI写的小说，AI画的画我很开心。一些设计师一看AI画的画，这叫啥玩意？那些真正产品经理这些文科生，你看AI写的那些文字也是没法看。他是这样的一个状态，这个东西最擅长就是骗外行，就跟那个很多相声演员讲的似的：“我是这个说相声里边最会唱歌的，以及唱歌里边最会说相声那个人。”这就是AI现在最擅长干的事情，而且专业看报告的人。

现在还在不断的被裁员呢，你给他们提效干嘛？海外应用还要等OpenAI、谷歌和微软再去发力，它在国外的用户是起不来的。就算Manus让我看走眼了，真的是用户量做起来了，那各国政府能乐意吗？你这数据是不是去中国了？怎么还有这样的问题呢？一个武汉公司，做了这么样的一个产品，到全世界去收集别人的调研报告、各种数据，这不开玩笑的吗？而且两美元一次的这个成本，如何平衡这个事，对于他们来说也是很难回答的。

在AIGC时代，可能真正有价值的东西还是娱乐，不是真正的有用的东西。虽然一大堆人都在研究怎么让AIGC有用，但是我觉得依然是娱乐有效。为什么呢？因为它出来的东西不严谨。你给个小说，你这东西写对了写错了，他没事，不会因为说这小说写错了几个字就造成多大的损失，而且有新鲜感，我还看着很开心，这不就可以了吗？

但是你想，他这边出一大堆报告，告诉你应该上哪去买房，告诉你应该招谁不招谁，等最后你把人招回来，发现不好使，你把房买了以后，发现这个房子有问题，你找他吧，他也不负这个责任。所以现在千万千万不要去做有用的东西，这是今天咱们去讲的Manus的这个故事。