Manus独领风骚成过往?字节扣子空间与百度心想APP强势入局,深度评测揭示AI Agent新格局下谁能主导复杂任务自动化与MCP生态。
4 月 24
AIGC, 字节跳动,故事多 AI Agent, AI应用, AI竞争格局, Anno 1800, Anthropic, API接口, Baidu, ByteDance, Claude 3.5, Coze Space, Coze Space评测, DeepSeek R1, Gemini 2.5 Pro, Google, GPT-4o, Llama 4, LLM, Manus, MCP (模型控制插件/标准), Meta, OpenAI, PPT生成, Token消耗, Waiting List, 产品体验, 产品对比 (Coze vs Manus vs Grok vs XinXiang), 产品评测, 代码生成, 任务拆解, 优劣势分析, 免费试用, 内容生成, 功能演示, 可视化网页生成, 呼伦贝尔自驾, 复杂任务处理, 大语言模型, 字节跳动, 工具调用 (内部/外部), 市场调研, 心想APP, 扣子空间, 扣子空间使用, 搜索质量, 数据调用, 文档生成, 旅游攻略, 智能体, 游戏攻略, 现象级产品, 用户分析, 用户反馈, 电动车充电, 百度, 简历筛选, 自动化, 自我规划, 行程规划, 表格生成, 访谈记录整理, 豆包大模型, 通义千问, 邀请码, 阿里, 高德地图, 黑神话悟空 Manus独领风骚成过往?字节扣子空间与百度心想APP强势入局,深度评测揭示AI Agent新格局下谁能主导复杂任务自动化与MCP生态。已关闭评论
Manus的后劲来了。百度、字节都有了自己的agent产品上线。
大家好,欢迎收听老范讲故事的音乐节目频道。字节上线了扣子空间,百度上线了心想APP。Manus的光环不再。Manus本身就属于意外爆火,当时它突然火了以后,咱们还做了直播,说这个东西没有什么技术门槛,只是产品设计的很有意思。
Manus跑去跟阿里合作了之后,那字节、百度说这不行,咱们也得有自己的产品上线。又不是有多难做的东西,那就做呗。我呢,搞了一个字节扣子空间的邀请码,咱们呢试一试,看看这个产品到底怎么个用法儿。
Manus呢,到现在我也没用上。原因也很简单,我去申请测试,等了很久,到现在都已经开始收费了,也没有收到说你可以来玩一下的这个邀请。所以也就别费劲了。我自己呢也没有特别着急,我要特别着急想用的话,随便找两个人去要一些邀请码,也还是可以搞得定的。既然没有那么热心的话,也就没有上心去找嘛。
AI agent呢,其实主要还是做自我规划、完成复杂任务。就当我看明白这个东西到底是干什么了以后呢,就没有那么着急了。如果对于输出的结果没有什么特殊要求的话,其实用Grok的deep search或者是open AI的deep research都是够用的。只是这些工具呢,输出的都只是一个文档,就是一个Markdown文档,或者说是一个富文本的文档而已。
我想去生成个网页,想去生成个表格,它就稍微差点意思。而且呢,Grok的deep search可以使用的工具是有限的,就是一些内部工具。现在呢还不支持我们去调用外部工具。像Manus这种东西呢,它除了内部工具之外,有一些外部工具,可以通过一些接口放进来。如果是对输出结果有一些要求,说我想输出个网页,我想输出个应用,可能就需要使用Manus这样的工具了。
新的方向有了,大家就冲就好了。现在新方向是什么呢?就是Manus给大家指明的新方向,叫agent加MCP。现在的大模型呢,基本能力已经够用了。GPT4O及以后的版本,Claude 3.5及以后的版本,Gemini 2.5 Pro以及往后再出的各种版本,其实都已经可以实现agent的全套功能。
这里头比较倒霉的就是Meta,他现在出的LLAMA4好像稍微差那么一点点。国内的模型呢,比刚才我们讲的这几个要稍微差一些,但也勉强能用。比如说DeepSeek R1,比如说通义千问的千问QWQ 32b。
通义千问的推理模型,以及豆包1.5的推理模型,最近这两天也发布出来了。百度文心一言呢,他自己号称他的4.0推理模型是可以用的,但是我没有去测试,实在是懒得跟他费劲。
这些大模型给他一个任务以后,他把这个任务拆解出来,进行一些规划,基本上是可以使了。在自我规划之后呢,就是数据调用和内部工具使用,这个就会看出各家的差异来。因为你输出的结果怎么样,跟你搜索的结果是息息相关的。你如果搜索质量差的话,那你输出的内容就会变得很烂。
我为什么很少使用GPT的各种推理模型,包括它的深度思考去干活呢?因为它的搜索质量实在太烂,所以经常出来给我胡说八道。而且有一些比较特殊的资源,只有某些内部可以使用。比如说X上面的帖子,只有Grok能用,其他人你用不了。或者说抖音里边的视频,我们根据字幕来进行一些搜索和总结,这事除了字节,别人也看不了。这就会产生差异出来。
在内部的数据跟工具使用了之后,还可以使用外部工具。现在MCP标准呢,已经基本确立了,各大平台都开始出官方接口了。前几天还跟大家演示过,使用高德地图进行行程规划,还是非常有意思的。
剩下的是什么呢?剩下的就是等就好了。因为这种任务你扔进去以后,没有个十几二十分钟他出不来。等的过程中就是TOKEN在燃烧。后边就是一次一次的调用大模型,哗啦哗啦在那跑,TOKEN就在干这个事了。
今天呢,咱们测试一下扣子空间。扣子空间呢,应该是4月19号吧,低调上线,也没开发布会,什么也没说,这东西就来了。也是需要邀请制或者是报名去等待。我呢,就直接找了人说:“给我发个邀请码过来。”人就给我发过来了。
拿到邀请码以后,你进去完成第一个任务,也就是让扣子空间给你去做第一个项目以后,你就可以生成5个新的邀请码。待会呢,我会在视频的简介里头贴4个邀请码。我的5个邀请码已经有人用了一个了,还剩4个。想试的人呢,可以到那去找邀请码去试去。
你试完了以后呢,也欢迎你把自己在生成的新邀请码,没有用过的,还贴到我们的评论区里头,让其他想试的人可以去使用。在海外的人现在别费劲,只有coze.cn上才可以用,只有在墙内的人才可以用。
现在呢是免费试用,每天呢可以跑5-10个中等复杂度的任务,就是跑十几二十分钟这种,我们算中等复杂度吧。长了呢,可能能够跑个几小时,但是我现在还没有规划这么复杂的任务让他去干。
完成的工作呢,算是有一点点小惊喜吧,待会咱们看一眼。但是呢,内容不能细看。
很多的内容还是比较粗糙的。下面我们来演示一下,这就是我们的扣子空间。进入以后,你点击快速开始。如果像我这样已经有使用权限的,就干活去了。如果你没有使用权限的,可以加入他的waiting list,或者是输入邀请码。邀请码在咱们视频的简介里边去找。
下面是他的一些样例,就是这些是能干什么。这个很重要,为什么呢?就是当你看到了这些样例以后,你就说,我可以去拿他的提示词改一改,就去干活去了。比如说什么股票早报定制、什么深度调研、访谈记录整理。当然访谈记录,你要给他一个很复杂的访谈记录,他才去给你整理去。包括AI产品的用户分析,那你要给他一大堆的用户调研报告,他去干活去。包括什么游戏攻略撰写,待会我们去试试。还有的一些呢,是比如说写旅游攻略、市场信息调研,这个都是可以的。
我们点进去了以后呢,就会到达这里。这就是老范讲故事做的扣子空间了。但是注意这里头有两个模式,一个呢叫探索模式,一个呢叫规划模式。探索模式就是你给它一提示词,它噼里啪啦就给你干完了。规划模式呢,你给他一个提示词,他呢先去做一个规划:这样干行不行?我去按这10步干,还是干这20步干?你在这个时候还可以调整,调整完了以后他去干去。如果你是这个探索模式呢,直接干完就出结果。如果是规划模式的话,中间他遇到问题,他会停下来问你:“对不起,这有一个问题我搞不定了,咱还干不干?”或者有什么其他方法,你可以再跟他聊两句,他再接着往前走。更像个人规划模式。但是,规划模式呢,会更加消耗时间和TOKEN。我就不在这现场给大家试了,因为现场事实在是太慢了,没有个20分钟跑不完一个项目。
这个地方呢是上传文件的,只识别文字的部分。你说我上传个图片给我识别一下,目前还不可以。最多可以上传10个,单个文件的最大是50兆。比如说我有一大堆的这个简历,把它打包扔上去。扔上去以后呢,他把里边的内容都给你找出来,说哪一个是符合我要求的。这个是可以做简历筛选。或者你给他一大堆的用户的调研报告,他也可以去给你分析。
这边呢是MCP扩展,大家看到了有高德地图、飞书云文档。你比如说我添加这个,最后说请把输出的结果写在飞书云文档里,它就给直接给你做完了。或者你说我从里边去读取信息,都是可以的。包括飞书多维表格、飞书电子表格。你说我有一堆的用户调研报告,都是存在这个里边了,你可以让他直接去读去。图像工具呢是可以做文生图,但是效果一般,我试过了。语音合成也是可以。
Notion可以在Notion里边去创建、读取、编辑、更新,包括GitHub、MySQL的一些查询,ClickHouse的一些查询,这个都是允许的。ClickHouse就是有些人把比如用户的数据放在里头,这个都可以拿来去分析。就是你需要哪个,你就在这里头添加。把这都弄完了以后,直接点开始就完了。点一次基本上20分钟就不见了。像我们这种免费用户的话,每天可以点个5-10次。
我们来看一看他干的怎么样。第一个呢是前面有案例说:“请给我分析《黑神话:悟空》的攻略。”现在我说:“你给我做《纪元1800》的详细游戏介绍文档,包括发布后的完整时间线,涵盖每个关卡和DLC的详细介绍,以及基础策略和故事线的介绍。同时列举出主要人物角色和各项任务的情况。最后报告用可视化网页呈现。”
他说:“我接到你的任务了,我要开始干活去了。”先思考一下去搜索:《纪元1800》什么时候发布的?游戏背景是什么?基础信息是什么?思考的过程又去想去了:关卡、DLC、策略,挨着个儿去搜索它。等于就是搜索了大量的内容,再去思考说:“我们现在开始把一些基础信息保存下来。”去生成网页,生成UI。UI完成了,然后生成代码。代码呢要进行解析、分析和检查。完成了以后给它配图,但实际上没有什么图进来,可能有一点小图标进来。配图完成,开始部署。最后就生成完了。大概整个跑了20多分钟。
做出来的结果是什么?就是这样的一个结果,说:《纪元1800》游戏指南。这个游戏背景是回到工业时代之初,19世纪初的工业化。基本上写的都是对的,因为都是搜索出来的嘛。游戏核心呢是城市建设,依托于海岛港口的小型农庄起步,逐步建设各种的养殖场和工厂,以及公共设施,形成繁荣的近代都市贸易系统。一项一项的就去讲去了。
你看它还是有一点点小动画的。这边是时间线:2019年4月16号正式发布的,2020年8月11号有各种组合包,DLC就开始上线。到2023年呢,登录了PS5和Xbox。2024年呢,又在出新的组合包。
然后DLC的一些详情。这个里头呢就告诉你说:植物园的DLC,推荐指数是什么?植物园、沉默的宝藏、植物园航道、权力之座、狮子之地。好像有些DLC我是有的。贸易港,这个里头是说有这么多,哪个是推荐去买的,哪个不是那么推荐的。推荐指数五颗星制。然后呢,是有季票,就是你买了季票以后呢,包含了哪些DLC了。这是第一个季票,第二个季票,大概是这样的一个购买方式。
就是你买了本体以后,还可以买季票,或者买这些DLC继续丰富游戏。策略呢,也告诉你了,说我要先干什么后干什么:初期什么,中期什么,后期什么。这是策略,这是故事线,稍微的跟大家讲解了一下。
然后是角色。这个里头呢,只写了两个,其实他角色是很多的。清公主是比较有名的一个角色了,都是他们有什么特色。然后系统任务有哪些任务:什么拍照任务,解谜任务。其实任务非常多,这个就是非常不完善了。但是呢,这就是给你的一个结果。
前面的提示词大家看到了,最上面是提示词,然后是一项一项的去干活去了。后面我就让他做了一个什么项目呢?做一个PPT说明吧:扣子空间目前免费使用的版本,背后是哪些大模型,内置了哪些工具,可以通过MCP挂载哪些工具,免费试用的用户有多少额度,额度如何计算,每天可以做几个任务,如何计费。扣子空间擅长做哪些任务,为什么没有大张旗鼓的宣传呀?用户对于扣子空间的反馈怎么样?扣子空间跟百度、跟Windows、跟Grok的deep search之间到底有什么差异?他就去挨着个儿搜索,搜索完了以后再去生成PPT,大概是这样的。
右边我们就看到了这个PPT。当然它这个PPT呢,下载下来是一个PDF。有些部分还可以,但是呢,有些部分明显的就没搞明白,包括计费的部分。实际上它属于明显的没搞明白。但是我们就一句话呀,虽然它做了十几二十分钟,但它确实给我们做了一个还能看的PPT出来哈。我们可以在这下载这个PDF:扣子空间介绍功能、使用反馈和优势点PDF。你可以下载下来。
然后呢,我让他做了一个稍微复杂一点的。这个是什么?我需要在5月10号到17号,从北京出发7天,呼伦贝尔大草原自驾旅行,一共两个人,预算5万元左右。我喜欢自然风光、隐藏的宝地和蒙古文化。我想从北京自驾出发,一路开电动车,需要规划充电站。请详细的给我行程安排和一个内容丰富的飞书文档旅行手册,包括地图、景点描述、旅拍和航拍的打卡点、必备的装备、每日行程、一路上的特色美食,以及我们每个行程中可以参考的旅行小贴士。将飞书文档保存到我的飞书账号。但是你使用飞书呢,它就会让你认证一下,说你的飞书账号是哪个,它到时候就给你存进去了。
最后呢,它给我生成了一个什么?这个过程我们就不仔细看了,因为我还调用了高德地图。它里头到底如何开,到了哪个地方,有什么吃的,哪个地方有充电站,这个都是由高德地图来去提供的。做了可能有半个小时吧。
第一天:从北京开车到锡林浩特
北京出发,走G6京藏高速。中午到张家口休息,再往锡林浩特方向开,约4小时车程。
打卡贝子庙、鄂尔古纳敖包,感受蒙古文化。品尝手抓羊肉、咸奶茶。
充电站位置:锡林浩特市区XX充电站。
第二天:锡林浩特到阿尔山
上午出发,走S307省道。中午在东乌珠穆沁旗用餐。下午继续前往阿尔山,沿途景点包括XX草原、XX湖。
晚上入住阿尔山XX酒店(需提前预订)。
景点介绍:普留克(特色美食)、炸柳根鱼(当地特色)。
充电站位置:阿尔山市区XX充电站。
第三天:阿尔山到满洲里
出发路线:走S203省道。中途在XX镇用餐。
满洲里景点:套娃景区、XX民俗村。
充电站位置:满洲里市区XX充电站。
第四天:满洲里到黑山头
行程安排:上午出发,中午在XX镇用餐。下午抵达黑山头草原活动营地,参与蒙古族民俗活动。
充电站位置:黑山镇XX充电站。
第七天:海拉尔返回北京
行程调整:第七天应从海拉尔返回北京,建议乘坐飞机或高铁。
旅行装备:
– 衣物:5月份昼夜温差大,需准备保暖外套、长裤。
– 生活用品:牙刷、保温杯、驱蚊用品。
– 摄影器材:相机、三脚架、无人机(航拍必备)。
– 车载用品:充电器、地图导航设备。
旅行小贴士:
– 交通:提前检查车辆(充电车需确认电量),携带驾驶证、行驶证、保险单。
– 饮食:注意饮食卫生,尽量选择正规餐馆。
– 住宿:提前预订酒店,避免旺季无房。
其他注意事项:
– 雨天行车需减速,注意安全。
– 旅拍和航拍打卡点:贝子庙、黑山头草原、套娃景区等。
– 特色活动:参与蒙古族民俗体验,探访俄罗斯后裔家庭。
—
(注:纪元1800任务部分因涉及游戏截图及图标缺失问题,已按用户要求跳过未完成部分。)
我们就不要图标了,然后又接着吭哧吭哧干去了。
我这写着放弃图标和截图,继续完成其余工作。说好的我将放弃这个东西,然后我去干活去了。最后蹭蹭蹭,干到这大概也是20多分钟,不到30分钟吧。干完的这个结果呢,其实给我们生成了很多的这种Markdown文件,就是把所有搜索的信息都放在这。
它搜索完了以后呢,再用这些Markdown文件去生成我们最上面这个GSX。这个是一个用React来去渲染的单个的网页文件,他最后生成了这么一个文件。
主要的人物,这个里头也有谁谁谁:清公主,然后白手起家。这个一般我们管她叫老太太,这个反正最后总要打一仗的,叫欧梅拉,这都是有的。相关的新世界相关的角色有哪些?就是他找的还是挺全的,虽然最后生成的网页里好像没有这么全,但是这边找的还是很全的。
然后呢,给大家看一个他犯的错误:游戏关卡跟DLC,他找了一堆什么使命召唤、守望先锋、吸血鬼幸存者。这什么意思呢?就是他在agent传递的过程中,他忘了我要找纪元1800相关的信息了,传递的时候把这个游戏名扔了。所以呢,他再去找游戏关卡跟DLC的时候,就直接输出了错误的结果。因为当他很多的agent一起配合干活的时候,就很难避免看这个事情。
最后呢,给我们生成了这样的网页。这就是大家能看到的网页,说一是什么什么样的,二是什么。这是我们的时间线。然后呢,是关卡跟DLC,这个还是有点小漂亮的。但是这个呢,就刚才我们看了,它是出错了,所以它给了一堆什么吸血鬼幸存者的DLC、什么激战、什么恶龙绝境的DLC、方舟的DLC。所以这个页面是完完全全错误的,不用管它了。
然后呢是策略和分析,这个很二。他需要展开前期后期主线写的,就非常的简陋了。再往后是人物:清公主,一个一个的人物。但是这个呢写的并没有那么完整吧,就是其实他找人物的时候找的是挺完整的。就刚才我们看到他给的,这个Markdown里头是挺完整的,但是呢最后生成网页里并没有那么完整。
作为基础框架是够的,把这个框架拿出来以后,再套上这些Markdown文件,还是可以继续去丰富的。这就是我们今天演示的扣子空间。
进入的网址呢是space.coze.cn。海外的用户先不要着急使用,国内的现在已经可以跑了。使用的感受是什么样的呢?真的需要跟扣子开会了,不能跟他随便聊天了,太浪费TOKEN了。因为你是跟他说点什么,他都哗啦哗啦去干活去了,不能随便聊了。
所以,我现在都是写很长的提示词,把各种能想到的尽量都罗列清楚。如果你说我实在是一次想不明白怎么办?使用规划模式:你先提出要求,他先把这个任务列出来,你再按照这个任务呢再去调整。修改好任务以后,他再去确认,按这个逻辑来去执行,他再往前跑。而且跑的过程中,他还有时候问你说:“我这块执行不下去了,那块找不着了怎么办?”你还可以跟他再聊两句,继续往前走。
如果你说我不走规划模式,直接用简单方式一次跑到底的话,那你就一开始要把任务提的比较详细一些。整个干活的过程呢,还是很有启发的,就跟思维链似的。你看他先干什么后干什么,先搜索什么后搜索什么,是有启发性的。如果发现哪块没做好呢,我们后面也可以拿这个东西再去修补。输出的结果呢必须要验证,这个没什么好说的,里头一定是有明显错误的。Agent的传递过程中呢,会出现明显错漏,刚才我们演示的时候也看到了。生成的结果呢框架可用,生成结果后面的很多细节,还需要我们再去补充。而且把这种结果放到他们的Agent IDE里头,比如说像trae里边去,也可以拿这个东西再去修修补补。
目前呢,可以输入的东西是搜索,它自己可以搜索。然后呢,通过MCP挂载一些外部工具。但是现在的MCP呢,只能是它挂好的。你说我想挂一些新的MCP进来,目前还没有完全开放。可以输出的信息呢,第一个是文档,它这个文档是Markdown,就是一些程序员的标记语言,也是有一定格式吧,但是没有那么丰富。然后可以输出这种单页的网页文件,你拿这个网页文件以后,后面呢可以让他去生成自己的网站。你说想让他去写一些别的代码,我测试了一下失败了。你说给我写一个什么安卓应用,它最后生成出来的还是一个网页,没有其他东西出来。然后呢,可以把输出的东西写在Notion里去,也可以输出什么PDF、PPT。PPT呢是以PDF形式来输出的,还可以做表格、做飞书,文档存进去都是允许的。
大家看到了这个产品以后,特别是有些人试用了以后,自己去感受一下。字节在做类似这种产品上呢,它有一些优势和劣势。优势呢就是迭代速度还可以,trae现在基本上已经能用了,特别是在Gemini 2.5 Pro这个模型上来以后,现在trae基本上可以跑了,因为把MCP也加上去了。所以呢,像扣子空间这样的工具,经过一段时间迭代之后,应该也是可以运用的。第二个优势呢,是字节有非常丰富的应用场景,它有抖音、有TikTok,有今日头条,都是可以使用的。
然后有流量,就是我们想宣传点什么东西,在自己的这个流量池里头稍微说两句,没有任何问题。最后一个优势是有钱,就是当产品打磨好了以后,铺天盖地的投放推广。
但是字节呢也有些劣势。它的劣势就是包袱太重。你比如说豆包大模型算是基本达标,但是距离DeepSeek R1呢,还是有一点点差距的。不能扔,因为是自己家的,必须抱着往前走,这就叫包袱。还有呢,就是藩镇割据。大公司都是这样的,扣子、火山、trae、飞书、剪映,各玩各的还相互提防。就是说我这边有点什么东西,我绝不能给你看,也绝不能听你的。你需要我什么配合,一定不给你做。咱们是这样的一种合作模式。其实大厂里边都这样,就是宁与外人不与家奴。这个话应该是慈禧说的。什么意思呢?就是他们更喜欢跟外界进行合作。你说我跟内部的一些团队合作了,其实更合适一些吗?因为毕竟大家的基础数据是一致的,应用场景也是一致的。那不行,一旦是内部合作了,就有谁听谁的问题,谁成主谁成辅的问题。这事不能随便乱搞。
总结一下吧。现象级的产品Manus出现之后呢,各大厂商都是要抄一遍的,这也算是对方向的一个认可。agent加MCP呢,应该能够引起一个小的热潮吧,确实可以解决一些实际问题了。未来呢,更好的模型,更多的外部工具,会产生更好的结果。
下一步我们可以期待什么?open AI、谷歌、Anthropic和Meta现在还没有特别明确的类似这种agent加MCP的产品出来,我们还是可以期待一下的。下一个里程碑是真正的交易。什么意思?就是我们现在看到的扣子空间也好,Manus也好,或者其他所有类似这种产品也好,主要做的事情还是叫信息搜集。他并没有真的做交易。你说你给我订个房间,去给我买张机票去,给我买东西去,这个事没干。一旦这一条路打通了就会腾飞。
为什么他们现在不去做交易呢?原因也很简单,现在模型还没有那么靠谱。因为它出问题的几率会很高嘛,受不了。所以现在并没有真正的把交易做进去。现在的各种MCP,也都是以信息查询为主,很少有哪个MCP是可以做交易的。你比如说像美团,如果给我一个MCP,我直接可以通过MCP去在美团上订餐,目前还没有。因为现在的大模型或者是这种agent模式呢,还没有那么靠谱。在等待向前发展那么几个月,可能我们就会看到由MCP驱动的交易大量涌现,这么下一个篇章就真正翻开了。
好,这个故事就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛。
参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。