豆包大模型 – 老范讲故事｜AI、大模型与商业世界的故事

上下文工程（Context Engineering）爆火，是AI圈又一次造词狂欢还是真革命？拆解其核心理念，对比GPT、Gemini、豆包等主流模型在该框架下的表现与优劣，帮你选择最强工具。

Luke Fan — Tue, 08 Jul 2025 00:58:36 +0000

上下文工程又有新词了。AIGC不怎么赚钱，造词的速度还是非常非常快的。大家好，欢迎收听老范讲故事的YouTube频道。

提示词工程已经稍微有点过时了，现在的新词叫上下文工程。提示词工程长什么样，大家还记得吗？就是上来先说你是谁，谁先给大模型定一个位置。比如说你是一个资深翻译，你是个语文老师。然后呢，说我现在想要干一点什么事情了，给我出个题，给我做个翻译，再给他一个简单的例子，说你照这样给我把东西做出来。

光有提示词呢，肯定是不够的。除了刚才我们讲的完整的、结构化的提示词之外，你还是需要很多相关的上下文，才能够让大模型稳定的输出结果。那你说我们继续把提示词写长不就行了吗？我还见过那种直接写出几百字或者是上千字小作文的提示词。这个是不是可以继续往前走呢？不行了。因为你如果继续叫提示词工程呢，会容易引起误解。大家觉得只要不断的把提示词写长，就可以把这事解决掉。但其实除了提示词之外，还有非常非常多的上下文数据需要一起写进去，才能够让大模型稳定的输出我们所预期的、有价值的结果出来。

所以呢，就不能继续叫提示词工程了，一定要起个新词。而且呢，AI时代呢，起新词是非常重要的，因为可以吸引眼球。只有足够吸引眼球的东西，才有发展的前景。所以在这个时候，上下文工程就来了，一个新词诞生了。

这个造词的大师现在是谁呢？叫安德烈·卡帕西。这是一位造词专家，他呢是特斯拉跟OpenAI的AI科学家，已经离职了。现在呢主要的工作是投资人和顾问，他自己投一些项目，也帮助一些项目做顾问做孵化。这哥们呢在不停的造新词。2017年呢，他造的新词叫软件2.0。什么是软件2.0呢？把神经网络视作用数据而非代码编程的新规范。程序等于网络结构加训练数据加优化器，源代码缩到几百行，真正的逻辑写在权重里面。这是2017年提出来的，现在我们的大模型基本上就是长得这个模样。

到2023年呢，提出来叫LLMOS，大模型操作系统。把大语言模型比作新的CPU加操作系统，人类用自然语言编程，大语言模型负责调度、记忆和推理。2025年，氛围编程，也是他编发明的一个新词。彻底投降给AI，对着IDE聊天，粘贴报错，让模型自动改，人只管感受对不对。

现在上下文工程又来了。上下文工程呢叫context engineering，这个呢并不是卡帕西自己提出的。最早呢是2025年6月27号，一位开源作者叫Simon Wilkinson。

写了一个文章，提到了”Context Engineering”这个概念。在7月份呢，一帮人就出来说，这个实在是太棒了，要向这个方向发展，包括Longchain的一些博客。Longchain应该也算是AI Agent的一个开山项目吧，比较早期的一个项目。Shopify（加拿大最大的电商平台）的创始人也出来点赞，说一定要使用Context Engineer才可以让大模型稳定的输出结果。

在这个时候呢，卡帕西上去点了个赞。卡帕西说：”加一，我也赞同这件事情。”所以现在再去讲这个上下文工程的时候呢，都是说这是卡帕西点赞过的，或者说是卡帕西推崇的新的概念。因为他最有名，他最喜欢造词，所以现在都是把这个上下文工程这个事情跟卡帕西挂在一起。

AI时代，讲故事能力、吸引眼球的能力是非常非常重要的。所以我们看到一帮做机器人的公司，或者像OpenAI这样的公司，不停的给大家录视频，让普通的民众能够感受到这个东西好厉害。其实他也没搞明白这个大模型或者这些机器人到底能干嘛，只是觉得好炫酷。但这就够了。当大家都觉得这个东西很炫酷的时候，你就可以拿到融资，可以往前走。所以造新词还是很重要的。

那么上下文工程都包含什么东西呢？讲了半天在提示词工程基础上加什么了呢？上下文工程呢一共是6个模块：

第一个叫指令层（系统角色+少样例提示）。这个什么意思呢？原来我们写在系统提示词里的东西。我们跟大模型聊天的时候，是有两个提示词：一个叫系统提示词，一个叫用户提示词。系统提示词就是先规定大模型你是干嘛的，你是什么什么角色，现在要具体做什么什么事情。少样例是什么呢？叫Few-shot，就是你要给他提几个例子。你说我直接告诉你你是干嘛的，我不给你举例子行不行？这个事是不好的。最好呢是给他两个到八个之间的这种少量的样本。那你说我给他100个例子行不行？那个你基本上去微调模型去了。所以呢，叫少量样本。这个是写系统提示词的一个要求。所以呢，他的第一块（6个模块里的第一块）就是系统提示词。

第二块呢叫及时用户请求，也就是原来我们使用的用户提示词。

第三块是什么呢？叫对话历史和短期记忆。我们在聊天的时候，你不能说我每句都是新的吧，你还是要有一个对话历史的。

第四块叫长期记忆。长期记忆呢就是说，我们通过每一次聊天，把一些关键信息把它提取出来。因为现在甭管是OpenAI、Gemini，都在向长期记忆这一块发展。

我们说，你记得我是干嘛的吗？你记得这个原来我跟你说过什么事吗？他能想的起来要把用户偏好和先前的一些摘要放到这个上下文里边去。

第五个呢，是RAG检索到的文档、数据库条目以及实时API的一些结果，再加一些本地知识库，再加一些搜索结果呀，再加一些数据库里的信息。

第六块呢，叫工具与格式约束。什么意思呢？就是你要告诉他说：“我现在可以调哪些工具？”比如说我这有高德地图、有百度地图、有天气，或者一些其他的工具，你可以调用。调用的方式是什么样的？以及呢，输出什么样的一个结果？通常这种信息都不是按照正常的文本格式输出的。这种上下文工程要求的输出格式都是JSON格式，有哈西结构的一些文档。

整个的上下文工程包括这六个组成部分。它的工作方式是什么样的？我怎么能够让它用起来呢？分四步：

第一步呢，是写。写的时候呢，要把随时会用到但是当前窗口装不下，或者不该暴露给大语言模型的内容呢，持久化到窗口之外去，可读可写的一些外部存储上。有一些信息我认为你可能有用，但是呢现在我又不是马上就要给你，我要把它先存起来。

第二件事呢，叫选。选是什么呢？就是在庞杂的信息文档和工具描述里头，准确定义相关性，把最有用的多少条信息放到窗口里边去。在大模型里头，有一个东西叫上下文窗口。要把一时用不着的写在外面，随时可以调用；要把有用的选到窗口里头来。

第三步呢，叫压缩。在不丢关键信息的情况下，把即将写回窗口的内容做摘要和裁剪，满足TOKEN预算。什么意思呢？比如说做了RAG的选择了，或者做了搜索的结果返回了，这些信息是相对比较啰嗦的比较多。那怎么办呢？在这个时候你要先去做一次总结，然后把总结过的东西再扔给大模型。所以呢，在这要做压缩。

最后呢，第四步叫隔离。把彼此可能串味的信息拆分进独立的上下文窗口或者沙盒，减少干扰，并行提速。

我原来在这块翻过车，稍微给大家讲一嘴。我有一次呢，想去问大模型，说这个人跟谁谁一块创业去开咖啡馆了，他有什么其他的在咖啡馆里边管理或者创业的经验没有？大模型呢，就把一大堆的搜索结果拿进去去总结归纳去了。结果呢，他就说这个人在瑞幸干过高管，在星巴克干过高管。我一看，这挺好，赶快就去写演讲稿去了吗？但是最后去校验的时候发现不对。那是怎么回事呢？就是他在搜索了以后，把一大堆说星巴克跟这种咖啡馆之间是如何去比对的，瑞幸跟这些咖啡馆之间是如何差异，他们对瑞幸做了什么评价，瑞星对他们做了什么评价。

然后呢，再把我提问的这个人混到几个结果里边去了，就把一些信息上下文给混一块了。在这个里头就不要干这个事情。如果是说星巴克跟瑞幸对这个新的咖啡馆的形态有什么样的评价和比较，你单独的去让他干活。然后呢，你单独专门问，说这个人具体是做什么事情的，过去的履历是什么样的。这样的话，他等于是把上下文就分到不同的窗口里去了，他就不会说我给你搁一块，让你混成一锅粥以后再去给我输出了。这个也是很重要的。而且你分开了以后就可以并行处理嘛，可以快一点。这就是上下文工程6个部分和分四步走。

那么如何判定我们上下文工程是不是成功的呢？一旦有工程这俩字，就是你一定是可以去调优的，一定可以判断成不成功的。上下文工程的成功标准是同样的一个任务，用更低的成本、更少的幻觉、更快的响应速度把它完成掉，这就是成功的。你要不断的去调优，按这个方向调。失败是什么呢？叫垃圾进垃圾出。你把一大堆不应该给他的信息都扔进去了，然后一大堆垃圾的结果给你吐出来，这个就是失败了。

但是要注意，不是所有的大模型都能顶得住上下文工程的。你写了这么长的上下文扔进去，让他去干活，不是谁都行。那么什么样的大模型可以顶得住上下文工程的这种工作方式呢？它有三个要求：

第一个要求是你要长上下文。刚才咱们啰里八嗦说有6个部分，分几步去写，但是你把那6个部分写进去，这个总的TOKEN量是不会少的。所以呢，要求你至少是有128K的输入，你才可以去干活。所以像早期的Deepseek版本是64K输入的，干不了这事，放不下。

第二个是什么呢？就是原生工具调用的知识。有一些早期的模型是不支持原生工具调用的，包括比较新的像LLAMA4什么的，对原生工具调用的支持都不是很好。因为你要想让他把所有的事情做完，你就要让他可以去调用工具，调用搜索引擎、调用浏览器、调用刚才我们讲的比如天气预报、高德地图。你可以去调用这些东西，他才可以去干活。所以，你要支持原生工具调用。

第三个呢，就是要能够做稳定的Json结构输出。你不能说我要求你输出了以后，最后你输出的格式不完整、不正确，这个事也是没有办法做上下文工程的。因为呢，你这边做完上下文工程了以后，他可能不是最后一步，你下一步你还要再去用这些内容，需要去解析这个东西，才可以去说下一步再如何去使用。

现在我们所流行的这些大模型里头，谁行谁不行呢？咱们讲了三条标准。第一个，美国的御三家都是很好用的。

御三家就是GPT、Gemini、Claude。其他的一些呢，就稍微差一点。比如说像法国的Mistral，它的一些大的模型呢是可以使用的，但是完整格式输出的准确率不高。

咱们刚才讲的Gemini、Claude、GPT，完整Json格式输出的时候，也不能保证100%正确，但是呢可以保证到百分之九十几正确。Mistral呢，就是最后这一步的格式输出，有时候比如少个大括号，或者是多个引号什么这种事，他就有时候会出。或者说我少几项，比如说我应该要求是4个，结果他最后给你输出了3个，或者多输出了两个，有重复的。它的这块会稍微差一些。

马斯克的GROK3，推理模式下呢基本上可用。但是呢，有的时候会把推理的过程写到json文件里边去，所以并不是完全可用。或者说，还是有待提升吧。马斯克说这几天出GROK4，希望他能够把这个问题解决掉。

咱们自己的，比如Deepseek R1呢，早期的版本，就是1月份的那个版本呢，64K，这是没法跑，而且它对于工具的支持也不是很好。但是呢，到Deepseek R10528的时候呢，到128K了，够用吧，也不是特别够用。最好是256K或者是一兆以上的上下文，才会更好用一些。所以呢，它在这块呢稍微有些欠缺。然后到0528这个版本呢，它已经开始支持工具了，这块基本上可用。它的最大的问题还是上下文稍微不太够长。但是呢，DeepSeek R1输出的内容还是非常好的，输出的内容质量很高。它的Json的格式也是相对来说比较正确和完整的，就正确率很高。

千问3呢基本上是可以用的。千问3唯一的问题是什么？就是它输出的结果上，这是文字的东西呢，比Deepseek要单薄一些。另外一个现在国内比较好用的模型呢，是豆包1.6。推理过程比较长的时候，容易跑偏前头。比如推理五六步了以后，直接出结果，他有时候就直接出英文结果，这个就是稍微跑偏了一点点。

那你说我们现在有这么多模型：GPT4O、GPT4O Mini、Gemini 2.5 Pro、Gemini 2.5 Flash。这些版本之间，你去让它跑这个上下文工程，到底有什么区别呢？所有的这种大模型Pro版，或者是GPT4O这种完整版本，一定是效果最好的。但是呢，Flash版呢，它的速度会快一些，价格便宜一些。只是呢，你要给它复杂的上下文，或者要求它输出非常复杂上下文的时候呢，它有时候会丢东西，输出也不是很完整。

或者，你给他一个复杂上下文进来的时候，他也会有一部分就不考虑了。这个是会时有发生的。

如果你的工作相对来说比较简单，你输入的信息和输出的信息都没有那么复杂的话，可以尝试去使用 GPT-4o Mini 或者是 Gemini 2.5 Flash 这样的版本。

那么，上下文工程产出的结果到底是什么呢？其实很简单，就是 AI 应用可以稳定的输出能够解决特定问题的、有价值的 AI 应用。这就是上下文工程能干的活。

原来为什么很多 AI 应用下去不好使？因为每一次的输出非常不稳定，有时候灵，有时候不灵。那你在这种情况下就很麻烦，你不知道它哪次灵，哪次不灵。你输出的结果，你还得各种的校验，比如说容错呀什么的，这些东西都要去做。

再往下一步，比如其他的模型里去送的时候呢，你要在上一个结果输出的内容里头，再去挑选你真正需要的东西。这块就很麻烦。

现在的话，有了上下文工程之后，你可能没法要求说我输出的内容才华横溢，但是呢，基本上我是稳定的。我每一次都稳定的输出这样的一个东西。

那你说上下文工程是不是未来方向？是不是这个万能解药呢？赶快出个教材出去圈一圈钱去，或者说赶快去报个班我学一下。这个怎么说呢？下一批新名词还在路上。

在 AI 这个领域里头，日新月异，不停的有新名词出来。而且呢，模型及应用这件事呢，依然有效。

AI 应用当前的定位呢，还是比较尴尬。虽然有了上下文工程之后，很多的 AI 应用就可以去干活了，它真正有价值了，有稳定的输出了。但是上下文工程，只要带“工程”俩字，那就不是给普通人使了。

普通人就说我们看一看就行了。真的让你去写这种上下文工程，没有程序员的能力，基本上是搞不定的。

大模型最终呢，会通过自己的升级，让普通人可以通过闲聊的方式，实现上下文工程的稳定输出。这个最后是可以实现的。不是说你没有上下文工程的能力，你最后就解决不了。

但是现在的大模型还达不到这个能力。但是可能再过个一两年吧，这块应该是可以做到的。但是在这一两年里头，像我们这些程序员，就可以使用上下文工程做出一大堆的 AI 应用，把第一桶金挣回来。这就是上下文工程能够真正起的作用。

那么，上下文工程对于当前的行业有什么样的影响呢？落后的大模型服务商要抓紧升级了，方向已经确定了。

比如说扎克伯格，挖了这么多 OpenAI 的人，赶快干活，让你的 LLAMA 4 或者 LLAMA 4.5 吧，能够很好的在上下文工程里头干活。

比如说华为的盘古大模型，别光抄千问 2.5 了，把千问 3 抄一抄吧。

得把上下文工程跑通，否则的话，小粉红拿着你的这些模型也搭不出AI应用来。

还有就是像Deepseek，可能要进一步的拉长这个上下文。现在Gemini 2.5已经可以达到100万TOKEN，或者到200万TOKEN。LLAMA4其实TOKEN也很长，LLAMA4大概是可以到1,000万TOKEN，但是它对于原生的工具支持的确实要稍微差一些。这可能是未来一些大模型要去努力的方向。

第二个大批量的AI应用就会涌现出来了。一旦大家确定下来，上下文工程是未来做AI应用里的必经之路，这一块的话一定就会快速前进。而且这一次的AI应用做出来以后，它是真的能用的。原来很多人说：“我为什么做了半天最后不能用？”因为没有上下文工程，你的AI应用整个的输出过程是不可控的。或者你为了让它变得可控，让这整个的系统跑得非常慢、非常傻。

最终的结果是什么呢？就是英伟达的显卡又不够用了。为啥呢？新模型的训练需要英伟达，大量有用的AI应用的涌现需要英伟达，很多日常任务向AI应用的迁移需要英伟达，长上下文的吞吐还是需要英伟达。这可能就是现在上下文工程可以给我们带来的变化。

对于每一位听众来说，你说：“我是个程序员，我现在想去学点应用，赶快学起来，不学就落后了。”那你说：“我就是个普通人，你通过我今天讲这个故事，你也知道一下AI应用里头到底是咋干活的。如果产生的结果不对了，不是你所预期的结果了，可能是上面的6个部分和4步哪一步走错了。你稍微有一些逻辑，对于你去使用AI应用也会有很大帮助的。”

好，这个故事今天就讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见！

Manus独领风骚成过往？字节扣子空间与百度心想APP强势入局，深度评测揭示AI Agent新格局下谁能主导复杂任务自动化与MCP生态。

Luke Fan — Thu, 24 Apr 2025 00:44:49 +0000

Manus的后劲来了。百度、字节都有了自己的agent产品上线。

大家好，欢迎收听老范讲故事的音乐节目频道。字节上线了扣子空间，百度上线了心想APP。Manus的光环不再。Manus本身就属于意外爆火，当时它突然火了以后，咱们还做了直播，说这个东西没有什么技术门槛，只是产品设计的很有意思。

Manus跑去跟阿里合作了之后，那字节、百度说这不行，咱们也得有自己的产品上线。又不是有多难做的东西，那就做呗。我呢，搞了一个字节扣子空间的邀请码，咱们呢试一试，看看这个产品到底怎么个用法儿。

Manus呢，到现在我也没用上。原因也很简单，我去申请测试，等了很久，到现在都已经开始收费了，也没有收到说你可以来玩一下的这个邀请。所以也就别费劲了。我自己呢也没有特别着急，我要特别着急想用的话，随便找两个人去要一些邀请码，也还是可以搞得定的。既然没有那么热心的话，也就没有上心去找嘛。

AI agent呢，其实主要还是做自我规划、完成复杂任务。就当我看明白这个东西到底是干什么了以后呢，就没有那么着急了。如果对于输出的结果没有什么特殊要求的话，其实用Grok的deep search或者是open AI的deep research都是够用的。只是这些工具呢，输出的都只是一个文档，就是一个Markdown文档，或者说是一个富文本的文档而已。

我想去生成个网页，想去生成个表格，它就稍微差点意思。而且呢，Grok的deep search可以使用的工具是有限的，就是一些内部工具。现在呢还不支持我们去调用外部工具。像Manus这种东西呢，它除了内部工具之外，有一些外部工具，可以通过一些接口放进来。如果是对输出结果有一些要求，说我想输出个网页，我想输出个应用，可能就需要使用Manus这样的工具了。

新的方向有了，大家就冲就好了。现在新方向是什么呢？就是Manus给大家指明的新方向，叫agent加MCP。现在的大模型呢，基本能力已经够用了。GPT4O及以后的版本，Claude 3.5及以后的版本，Gemini 2.5 Pro以及往后再出的各种版本，其实都已经可以实现agent的全套功能。

这里头比较倒霉的就是Meta，他现在出的LLAMA4好像稍微差那么一点点。国内的模型呢，比刚才我们讲的这几个要稍微差一些，但也勉强能用。比如说DeepSeek R1，比如说通义千问的千问QWQ 32b。

通义千问的推理模型，以及豆包1.5的推理模型，最近这两天也发布出来了。百度文心一言呢，他自己号称他的4.0推理模型是可以用的，但是我没有去测试，实在是懒得跟他费劲。

这些大模型给他一个任务以后，他把这个任务拆解出来，进行一些规划，基本上是可以使了。在自我规划之后呢，就是数据调用和内部工具使用，这个就会看出各家的差异来。因为你输出的结果怎么样，跟你搜索的结果是息息相关的。你如果搜索质量差的话，那你输出的内容就会变得很烂。

我为什么很少使用GPT的各种推理模型，包括它的深度思考去干活呢？因为它的搜索质量实在太烂，所以经常出来给我胡说八道。而且有一些比较特殊的资源，只有某些内部可以使用。比如说X上面的帖子，只有Grok能用，其他人你用不了。或者说抖音里边的视频，我们根据字幕来进行一些搜索和总结，这事除了字节，别人也看不了。这就会产生差异出来。

在内部的数据跟工具使用了之后，还可以使用外部工具。现在MCP标准呢，已经基本确立了，各大平台都开始出官方接口了。前几天还跟大家演示过，使用高德地图进行行程规划，还是非常有意思的。

剩下的是什么呢？剩下的就是等就好了。因为这种任务你扔进去以后，没有个十几二十分钟他出不来。等的过程中就是TOKEN在燃烧。后边就是一次一次的调用大模型，哗啦哗啦在那跑，TOKEN就在干这个事了。

今天呢，咱们测试一下扣子空间。扣子空间呢，应该是4月19号吧，低调上线，也没开发布会，什么也没说，这东西就来了。也是需要邀请制或者是报名去等待。我呢，就直接找了人说：“给我发个邀请码过来。”人就给我发过来了。

拿到邀请码以后，你进去完成第一个任务，也就是让扣子空间给你去做第一个项目以后，你就可以生成5个新的邀请码。待会呢，我会在视频的简介里头贴4个邀请码。我的5个邀请码已经有人用了一个了，还剩4个。想试的人呢，可以到那去找邀请码去试去。

你试完了以后呢，也欢迎你把自己在生成的新邀请码，没有用过的，还贴到我们的评论区里头，让其他想试的人可以去使用。在海外的人现在别费劲，只有coze.cn上才可以用，只有在墙内的人才可以用。

现在呢是免费试用，每天呢可以跑5-10个中等复杂度的任务，就是跑十几二十分钟这种，我们算中等复杂度吧。长了呢，可能能够跑个几小时，但是我现在还没有规划这么复杂的任务让他去干。

完成的工作呢，算是有一点点小惊喜吧，待会咱们看一眼。但是呢，内容不能细看。

很多的内容还是比较粗糙的。下面我们来演示一下，这就是我们的扣子空间。进入以后，你点击快速开始。如果像我这样已经有使用权限的，就干活去了。如果你没有使用权限的，可以加入他的waiting list，或者是输入邀请码。邀请码在咱们视频的简介里边去找。

下面是他的一些样例，就是这些是能干什么。这个很重要，为什么呢？就是当你看到了这些样例以后，你就说，我可以去拿他的提示词改一改，就去干活去了。比如说什么股票早报定制、什么深度调研、访谈记录整理。当然访谈记录，你要给他一个很复杂的访谈记录，他才去给你整理去。包括AI产品的用户分析，那你要给他一大堆的用户调研报告，他去干活去。包括什么游戏攻略撰写，待会我们去试试。还有的一些呢，是比如说写旅游攻略、市场信息调研，这个都是可以的。

我们点进去了以后呢，就会到达这里。这就是老范讲故事做的扣子空间了。但是注意这里头有两个模式，一个呢叫探索模式，一个呢叫规划模式。探索模式就是你给它一提示词，它噼里啪啦就给你干完了。规划模式呢，你给他一个提示词，他呢先去做一个规划：这样干行不行？我去按这10步干，还是干这20步干？你在这个时候还可以调整，调整完了以后他去干去。如果你是这个探索模式呢，直接干完就出结果。如果是规划模式的话，中间他遇到问题，他会停下来问你：“对不起，这有一个问题我搞不定了，咱还干不干？”或者有什么其他方法，你可以再跟他聊两句，他再接着往前走。更像个人规划模式。但是，规划模式呢，会更加消耗时间和TOKEN。我就不在这现场给大家试了，因为现场事实在是太慢了，没有个20分钟跑不完一个项目。

这个地方呢是上传文件的，只识别文字的部分。你说我上传个图片给我识别一下，目前还不可以。最多可以上传10个，单个文件的最大是50兆。比如说我有一大堆的这个简历，把它打包扔上去。扔上去以后呢，他把里边的内容都给你找出来，说哪一个是符合我要求的。这个是可以做简历筛选。或者你给他一大堆的用户的调研报告，他也可以去给你分析。

这边呢是MCP扩展，大家看到了有高德地图、飞书云文档。你比如说我添加这个，最后说请把输出的结果写在飞书云文档里，它就给直接给你做完了。或者你说我从里边去读取信息，都是可以的。包括飞书多维表格、飞书电子表格。你说我有一堆的用户调研报告，都是存在这个里边了，你可以让他直接去读去。图像工具呢是可以做文生图，但是效果一般，我试过了。语音合成也是可以。

Notion可以在Notion里边去创建、读取、编辑、更新，包括GitHub、MySQL的一些查询，ClickHouse的一些查询，这个都是允许的。ClickHouse就是有些人把比如用户的数据放在里头，这个都可以拿来去分析。就是你需要哪个，你就在这里头添加。把这都弄完了以后，直接点开始就完了。点一次基本上20分钟就不见了。像我们这种免费用户的话，每天可以点个5-10次。

我们来看一看他干的怎么样。第一个呢是前面有案例说：“请给我分析《黑神话：悟空》的攻略。”现在我说：“你给我做《纪元1800》的详细游戏介绍文档，包括发布后的完整时间线，涵盖每个关卡和DLC的详细介绍，以及基础策略和故事线的介绍。同时列举出主要人物角色和各项任务的情况。最后报告用可视化网页呈现。”

他说：“我接到你的任务了，我要开始干活去了。”先思考一下去搜索：《纪元1800》什么时候发布的？游戏背景是什么？基础信息是什么？思考的过程又去想去了：关卡、DLC、策略，挨着个儿去搜索它。等于就是搜索了大量的内容，再去思考说：“我们现在开始把一些基础信息保存下来。”去生成网页，生成UI。UI完成了，然后生成代码。代码呢要进行解析、分析和检查。完成了以后给它配图，但实际上没有什么图进来，可能有一点小图标进来。配图完成，开始部署。最后就生成完了。大概整个跑了20多分钟。

做出来的结果是什么？就是这样的一个结果，说：《纪元1800》游戏指南。这个游戏背景是回到工业时代之初，19世纪初的工业化。基本上写的都是对的，因为都是搜索出来的嘛。游戏核心呢是城市建设，依托于海岛港口的小型农庄起步，逐步建设各种的养殖场和工厂，以及公共设施，形成繁荣的近代都市贸易系统。一项一项的就去讲去了。

你看它还是有一点点小动画的。这边是时间线：2019年4月16号正式发布的，2020年8月11号有各种组合包，DLC就开始上线。到2023年呢，登录了PS5和Xbox。2024年呢，又在出新的组合包。

然后DLC的一些详情。这个里头呢就告诉你说：植物园的DLC，推荐指数是什么？植物园、沉默的宝藏、植物园航道、权力之座、狮子之地。好像有些DLC我是有的。贸易港，这个里头是说有这么多，哪个是推荐去买的，哪个不是那么推荐的。推荐指数五颗星制。然后呢，是有季票，就是你买了季票以后呢，包含了哪些DLC了。这是第一个季票，第二个季票，大概是这样的一个购买方式。

就是你买了本体以后，还可以买季票，或者买这些DLC继续丰富游戏。策略呢，也告诉你了，说我要先干什么后干什么：初期什么，中期什么，后期什么。这是策略，这是故事线，稍微的跟大家讲解了一下。

然后是角色。这个里头呢，只写了两个，其实他角色是很多的。清公主是比较有名的一个角色了，都是他们有什么特色。然后系统任务有哪些任务：什么拍照任务，解谜任务。其实任务非常多，这个就是非常不完善了。但是呢，这就是给你的一个结果。

前面的提示词大家看到了，最上面是提示词，然后是一项一项的去干活去了。后面我就让他做了一个什么项目呢？做一个PPT说明吧：扣子空间目前免费使用的版本，背后是哪些大模型，内置了哪些工具，可以通过MCP挂载哪些工具，免费试用的用户有多少额度，额度如何计算，每天可以做几个任务，如何计费。扣子空间擅长做哪些任务，为什么没有大张旗鼓的宣传呀？用户对于扣子空间的反馈怎么样？扣子空间跟百度、跟Windows、跟Grok的deep search之间到底有什么差异？他就去挨着个儿搜索，搜索完了以后再去生成PPT，大概是这样的。

右边我们就看到了这个PPT。当然它这个PPT呢，下载下来是一个PDF。有些部分还可以，但是呢，有些部分明显的就没搞明白，包括计费的部分。实际上它属于明显的没搞明白。但是我们就一句话呀，虽然它做了十几二十分钟，但它确实给我们做了一个还能看的PPT出来哈。我们可以在这下载这个PDF：扣子空间介绍功能、使用反馈和优势点PDF。你可以下载下来。

然后呢，我让他做了一个稍微复杂一点的。这个是什么？我需要在5月10号到17号，从北京出发7天，呼伦贝尔大草原自驾旅行，一共两个人，预算5万元左右。我喜欢自然风光、隐藏的宝地和蒙古文化。我想从北京自驾出发，一路开电动车，需要规划充电站。请详细的给我行程安排和一个内容丰富的飞书文档旅行手册，包括地图、景点描述、旅拍和航拍的打卡点、必备的装备、每日行程、一路上的特色美食，以及我们每个行程中可以参考的旅行小贴士。将飞书文档保存到我的飞书账号。但是你使用飞书呢，它就会让你认证一下，说你的飞书账号是哪个，它到时候就给你存进去了。

最后呢，它给我生成了一个什么？这个过程我们就不仔细看了，因为我还调用了高德地图。它里头到底如何开，到了哪个地方，有什么吃的，哪个地方有充电站，这个都是由高德地图来去提供的。做了可能有半个小时吧。

第一天：从北京开车到锡林浩特
北京出发，走G6京藏高速。中午到张家口休息，再往锡林浩特方向开，约4小时车程。
打卡贝子庙、鄂尔古纳敖包，感受蒙古文化。品尝手抓羊肉、咸奶茶。
充电站位置：锡林浩特市区XX充电站。

第二天：锡林浩特到阿尔山
上午出发，走S307省道。中午在东乌珠穆沁旗用餐。下午继续前往阿尔山，沿途景点包括XX草原、XX湖。
晚上入住阿尔山XX酒店（需提前预订）。
景点介绍：普留克（特色美食）、炸柳根鱼（当地特色）。
充电站位置：阿尔山市区XX充电站。

第三天：阿尔山到满洲里
出发路线：走S203省道。中途在XX镇用餐。
满洲里景点：套娃景区、XX民俗村。
充电站位置：满洲里市区XX充电站。

第四天：满洲里到黑山头
行程安排：上午出发，中午在XX镇用餐。下午抵达黑山头草原活动营地，参与蒙古族民俗活动。
充电站位置：黑山镇XX充电站。

第七天：海拉尔返回北京
行程调整：第七天应从海拉尔返回北京，建议乘坐飞机或高铁。

旅行装备：
– 衣物：5月份昼夜温差大，需准备保暖外套、长裤。
– 生活用品：牙刷、保温杯、驱蚊用品。
– 摄影器材：相机、三脚架、无人机（航拍必备）。
– 车载用品：充电器、地图导航设备。

旅行小贴士：
– 交通：提前检查车辆（充电车需确认电量），携带驾驶证、行驶证、保险单。
– 饮食：注意饮食卫生，尽量选择正规餐馆。
– 住宿：提前预订酒店，避免旺季无房。

其他注意事项：
– 雨天行车需减速，注意安全。
– 旅拍和航拍打卡点：贝子庙、黑山头草原、套娃景区等。
– 特色活动：参与蒙古族民俗体验，探访俄罗斯后裔家庭。

—
（注：纪元1800任务部分因涉及游戏截图及图标缺失问题，已按用户要求跳过未完成部分。）

我们就不要图标了，然后又接着吭哧吭哧干去了。

我这写着放弃图标和截图，继续完成其余工作。说好的我将放弃这个东西，然后我去干活去了。最后蹭蹭蹭，干到这大概也是20多分钟，不到30分钟吧。干完的这个结果呢，其实给我们生成了很多的这种Markdown文件，就是把所有搜索的信息都放在这。

它搜索完了以后呢，再用这些Markdown文件去生成我们最上面这个GSX。这个是一个用React来去渲染的单个的网页文件，他最后生成了这么一个文件。

主要的人物，这个里头也有谁谁谁：清公主，然后白手起家。这个一般我们管她叫老太太，这个反正最后总要打一仗的，叫欧梅拉，这都是有的。相关的新世界相关的角色有哪些？就是他找的还是挺全的，虽然最后生成的网页里好像没有这么全，但是这边找的还是很全的。

然后呢，给大家看一个他犯的错误：游戏关卡跟DLC，他找了一堆什么使命召唤、守望先锋、吸血鬼幸存者。这什么意思呢？就是他在agent传递的过程中，他忘了我要找纪元1800相关的信息了，传递的时候把这个游戏名扔了。所以呢，他再去找游戏关卡跟DLC的时候，就直接输出了错误的结果。因为当他很多的agent一起配合干活的时候，就很难避免看这个事情。

最后呢，给我们生成了这样的网页。这就是大家能看到的网页，说一是什么什么样的，二是什么。这是我们的时间线。然后呢，是关卡跟DLC，这个还是有点小漂亮的。但是这个呢，就刚才我们看了，它是出错了，所以它给了一堆什么吸血鬼幸存者的DLC、什么激战、什么恶龙绝境的DLC、方舟的DLC。所以这个页面是完完全全错误的，不用管它了。

然后呢是策略和分析，这个很二。他需要展开前期后期主线写的，就非常的简陋了。再往后是人物：清公主，一个一个的人物。但是这个呢写的并没有那么完整吧，就是其实他找人物的时候找的是挺完整的。就刚才我们看到他给的，这个Markdown里头是挺完整的，但是呢最后生成网页里并没有那么完整。

作为基础框架是够的，把这个框架拿出来以后，再套上这些Markdown文件，还是可以继续去丰富的。这就是我们今天演示的扣子空间。

进入的网址呢是space.coze.cn。海外的用户先不要着急使用，国内的现在已经可以跑了。使用的感受是什么样的呢？真的需要跟扣子开会了，不能跟他随便聊天了，太浪费TOKEN了。因为你是跟他说点什么，他都哗啦哗啦去干活去了，不能随便聊了。

所以，我现在都是写很长的提示词，把各种能想到的尽量都罗列清楚。如果你说我实在是一次想不明白怎么办？使用规划模式：你先提出要求，他先把这个任务列出来，你再按照这个任务呢再去调整。修改好任务以后，他再去确认，按这个逻辑来去执行，他再往前跑。而且跑的过程中，他还有时候问你说：“我这块执行不下去了，那块找不着了怎么办？”你还可以跟他再聊两句，继续往前走。

如果你说我不走规划模式，直接用简单方式一次跑到底的话，那你就一开始要把任务提的比较详细一些。整个干活的过程呢，还是很有启发的，就跟思维链似的。你看他先干什么后干什么，先搜索什么后搜索什么，是有启发性的。如果发现哪块没做好呢，我们后面也可以拿这个东西再去修补。输出的结果呢必须要验证，这个没什么好说的，里头一定是有明显错误的。Agent的传递过程中呢，会出现明显错漏，刚才我们演示的时候也看到了。生成的结果呢框架可用，生成结果后面的很多细节，还需要我们再去补充。而且把这种结果放到他们的Agent IDE里头，比如说像trae里边去，也可以拿这个东西再去修修补补。

目前呢，可以输入的东西是搜索，它自己可以搜索。然后呢，通过MCP挂载一些外部工具。但是现在的MCP呢，只能是它挂好的。你说我想挂一些新的MCP进来，目前还没有完全开放。可以输出的信息呢，第一个是文档，它这个文档是Markdown，就是一些程序员的标记语言，也是有一定格式吧，但是没有那么丰富。然后可以输出这种单页的网页文件，你拿这个网页文件以后，后面呢可以让他去生成自己的网站。你说想让他去写一些别的代码，我测试了一下失败了。你说给我写一个什么安卓应用，它最后生成出来的还是一个网页，没有其他东西出来。然后呢，可以把输出的东西写在Notion里去，也可以输出什么PDF、PPT。PPT呢是以PDF形式来输出的，还可以做表格、做飞书，文档存进去都是允许的。

大家看到了这个产品以后，特别是有些人试用了以后，自己去感受一下。字节在做类似这种产品上呢，它有一些优势和劣势。优势呢就是迭代速度还可以，trae现在基本上已经能用了，特别是在Gemini 2.5 Pro这个模型上来以后，现在trae基本上可以跑了，因为把MCP也加上去了。所以呢，像扣子空间这样的工具，经过一段时间迭代之后，应该也是可以运用的。第二个优势呢，是字节有非常丰富的应用场景，它有抖音、有TikTok，有今日头条，都是可以使用的。

然后有流量，就是我们想宣传点什么东西，在自己的这个流量池里头稍微说两句，没有任何问题。最后一个优势是有钱，就是当产品打磨好了以后，铺天盖地的投放推广。

但是字节呢也有些劣势。它的劣势就是包袱太重。你比如说豆包大模型算是基本达标，但是距离DeepSeek R1呢，还是有一点点差距的。不能扔，因为是自己家的，必须抱着往前走，这就叫包袱。还有呢，就是藩镇割据。大公司都是这样的，扣子、火山、trae、飞书、剪映，各玩各的还相互提防。就是说我这边有点什么东西，我绝不能给你看，也绝不能听你的。你需要我什么配合，一定不给你做。咱们是这样的一种合作模式。其实大厂里边都这样，就是宁与外人不与家奴。这个话应该是慈禧说的。什么意思呢？就是他们更喜欢跟外界进行合作。你说我跟内部的一些团队合作了，其实更合适一些吗？因为毕竟大家的基础数据是一致的，应用场景也是一致的。那不行，一旦是内部合作了，就有谁听谁的问题，谁成主谁成辅的问题。这事不能随便乱搞。

总结一下吧。现象级的产品Manus出现之后呢，各大厂商都是要抄一遍的，这也算是对方向的一个认可。agent加MCP呢，应该能够引起一个小的热潮吧，确实可以解决一些实际问题了。未来呢，更好的模型，更多的外部工具，会产生更好的结果。

下一步我们可以期待什么？open AI、谷歌、Anthropic和Meta现在还没有特别明确的类似这种agent加MCP的产品出来，我们还是可以期待一下的。下一个里程碑是真正的交易。什么意思？就是我们现在看到的扣子空间也好，Manus也好，或者其他所有类似这种产品也好，主要做的事情还是叫信息搜集。他并没有真的做交易。你说你给我订个房间，去给我买张机票去，给我买东西去，这个事没干。一旦这一条路打通了就会腾飞。

为什么他们现在不去做交易呢？原因也很简单，现在模型还没有那么靠谱。因为它出问题的几率会很高嘛，受不了。所以现在并没有真正的把交易做进去。现在的各种MCP，也都是以信息查询为主，很少有哪个MCP是可以做交易的。你比如说像美团，如果给我一个MCP，我直接可以通过MCP去在美团上订餐，目前还没有。因为现在的大模型或者是这种agent模式呢，还没有那么靠谱。在等待向前发展那么几个月，可能我们就会看到由MCP驱动的交易大量涌现，这么下一个篇章就真正翻开了。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛。

参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。