ChatGPT Agent重磅发布,山姆奥特曼亲自站台却惨遭现场翻车,这究竟是Manus的机遇还是整个泛Agent赛道的丧钟?

ChatGPT Agent重磅发布,山姆奥特曼亲自站台却惨遭现场翻车,这究竟是Manus的机遇还是整个泛Agent赛道的丧钟?已关闭评论

ChatGPT Agent来了。

Manus到底是该哭还是该笑呢?

大家好,欢迎收听老范讲故事的YouTube频道

ChatGPT重磅发布了他的Agent。怎么个重磅法?山姆·奥特曼亲自坐台。现在很多ChatGPT自己产品的发布,山姆·奥特曼都不在前台坐着,这次是亲自坐台。而且旁边坐了四位主讲,很多时候发布会就是俩人或者仨人,这次是山姆·奥特曼坐在这,旁边坐了四个人。而且呢,足足讲了25分钟。

很多人就想起Manus来了,好像有些测试还不如Manus。因为他现场有翻车的,大老板在旁边坐着,你测试翻车的话还是压力挺大的。在这个时候就有人说了,GPT也就这样,你们现在还觉得Manus做的不好吗?就有一些讨论在发生了。

ChatGPT的Agent到底会给Manus带来什么呢?Manus到底是该哭还是该笑呢?今天咱们讲讲这个事儿。

首先呢,咱们先回顾一下GPT Agent的一个发布过程。时间呢是太平洋时间2025年7月17号上午10点,也就是北京时间7月18号的凌晨1点。山姆·奥特曼坐在最边上,他不是主讲,他就是一个串场的。另外一头呢坐着一个印度老哥,中间呢是三个亚洲脸,两位男士呢应该确认是中国人,还有一位女士呢,虽然看起来是亚洲脸,但是是不是华人不知道。

25分钟的视频演示也很无奈,他这种演示你没法短,因为很多的任务,跑起来的时间就非常长,特别是婚礼差旅一条龙的。这个任务基本上是从头跑到尾,就是一开始布置任务下去,中间穿插了几个其他任务,最后到那个结束的时候,算是差不多跑完。

让Agent去帮忙参加朋友婚礼,挑酒店、挑礼物、定穿搭,中间还打断他说,我还要再买双鞋。这个其实挺好玩的,因为以前这种Agent,最讨厌的一点是什么呢?就是你只要让他开始跑,半个小时或者多长时间,你没法打断他,发现他错了以后呢你也没办法,只能让他重新开始。现在呢,我说我可以打断你,或者中间可以把你叫停,让你去帮我调整一些东西,加一双鞋或者做一些其他的。这个呢,算是一个,我觉得算是用户体验角度上的一个比较大的前进吧。

从技术角度上来说呢,并没有那么费劲。只是呢,在Agent的执行框架上需要做一些调整,你比如说多线程,或者是一些守护线程,他需要做一些这样的东西。在大家做了这么长时间的手机应用、前端后端应用以后,这个不是那么费劲的。

手机端呢,也可以进行即时的创意,也就是在iPhone上请求制作团队吉祥物贴纸,就是做了一些可以做设计的任务。这个应该是对着像LoveArt这种设计Agent去的。然后呢,做了一个财务数据分析,他讲的是去我的Google Drive上,把评估指标拉出来,给我做一个汇报。幻灯片还做的可以吧。

后面就是演示了随时打断和二次确认,在Agent里头点击打断,可以进行指令修改,Agent结束前弹窗确认邮件内容。但是呢,在现场还失败了一个,找球场这个是一个失败演示。

他干了一什么呢?规划一场夏季旅行,走遍30座职业棒球球场,并给每座球场买两张最便宜的日场票。给了他这样的一个任务。一开始呢,是先用文本浏览器,抓取了2025年赛程和票价,到这呢数据还是正常的。然后是通过脚本去终端执行,通过终端去执行脚本,生成Excel和绘制地图。但是呢,这儿就开始出错了,地图坐标严重错位,纽约、波士顿等东海岸的球队就没了,墨西哥湾里头凭空出现了一些球场,引起场下的一些窃笑了。

再往后呢,是用可视化浏览器,跳转到一个订票网站上,要去下单订票了。但是呢,因为这是一个跟金融和这种高风险相关的操作,所以呢进入了人工模式,就是你必须要确认一下要花钱了吗。然后就遇到了一个问题,Agent自动去填邮箱了以后呢,它网站需要跳这个叫二次验证,二次验证,就比如说我给你发个邮件,你给把这个邮件里头那个码给我呀,或者是给你发个短信,就是这种验证程序。这个Agent就跑不动了,他呢触发了订票网站等待用户的一个进程,要求你60秒钟之内呢要去接管,结果呢他也没有好好的接管这个东西,就直接超时终止了。这个稍微有些丢人,还跳出了红色的长串错误信息,反正现场就有点绷不住了。主持人呢只能尴尬收场,这个主持人是谁?山姆·奥特曼。他呢出来打了个圆场,说买票这步我们之后会在debug的。这是整场直播唯一强制终止的一个demo。

最新的ChatGPT Agent到底有哪些新特性呢?第一个呢,它是Operator加上Deep Research,这两个功能加一块的东西。Operator其实应该是今年年初的时候发布过一次,所谓Operator,就是在一个虚拟机上打开浏览器,给大家去做各种的操作,模仿真人去点击各种的网页。但是呢,这个功能呢,一直是在200美金的用户那里使用,像我这种20美金的用户是没使过的。而且即使是200美金的用户呢,应该对这个功能也不太感冒,因为你要去使用互联网的网站的话,难度还是很大的。

咱们做各种软件里头,最难做的一个软件不是操作系统,而是浏览器。为什么?因为每家做的网站都不一样,我到底用的是谁家的前端库后端库,在里边隐藏了哪些信息,怎么去做的缓存,做了哪些防刷以及防骗的这种工具,做了哪些多次验证的东西,这个真的是千奇百怪的。所以你要想完全兼容这种东西是很难的,你让一个机器人去点网页,成功率还是不太高的。所以这个产品虽然发布了,但是大家使得并不是那么爽。

现在说Deep Research这功能做的还不错了,那跟Operator两个功能结合起来,就是这一次我们所看到的GPT Agent。这俩功能呢,Operator我从来没用过,Deep Research呢是我经常用,而且经常把额度跑光,需要等到下边一个时间周期,重新分配额度接着跑的一个功能。

它呢是由一台虚拟化电脑,就还是Operator这套东西里头呢,内置了图形界面浏览器和文本浏览器。什么叫图形界面浏览器?就是我真的打开了一个网页,这边是有按钮的,那边是有输入框的有菜单的,这种浏览器呢叫做图形界面浏览器。而文本浏览器的话基本上就是,我把你这个网页抓出来了,直接把里头的内容呢进行了总结归纳,或者说把里头的内容直接提出来了。他们在这个里头是两个都有,大部分情况,你说我只需要进行信息总结的话,就是文本浏览器就够了。实际上文本浏览器大家可以理解为一个爬虫。图像浏览器的话其实,对于这种虚拟机来说是难度很大的。为什么?因为我们写网站的时候,还经常会去研究,比如说设备的自动适配,就是我在手机上,这个网页应该长成啥样,在平板上应该长成啥样,在PC上应该长成啥样,遇到特别大的浏览器应该长成啥样,这个都是不一样的。还有一些比如说我们有些网站上,会写这种不可见的字符,干嘛呢?骗AI的,说你遇到我这个网站就不能爬了,或者说不能做一些其他的工作。还有很多这样的东西。

另外呢,上浏览器的呢,其实还有一点小的问题,大家知道网站上有一个文件叫robots.txt,这个文件干嘛使的?实际上是应对爬虫的,告诉你说哪个爬虫你可以看哪些东西,不可以看哪些东西。而你一旦上浏览器了,Robots这个文件实际上就不起作用了。

那它这个一体化的虚拟电脑,除了图形化浏览器和文本浏览器之外,还有什么呢?还有终端,你可以在上面去跑一些程序,以及API连接器,包括一些模型,都在同一个沙盒里边完成。点击键入运行代码,调用Gmail、Calendar等等这些操作。为什么叫沙盒呢?就是这个盒里头出错了,其他的盒不影响。这个呢,就是这一次的ChatGPT Agent最核心的东西,就是一体化虚拟电脑。

另外呢,就是它可以自动的选择工具,跨步骤的自主执行,将Operator网页交互,加上Deep Research的深度分析,整合在一个流程里边。Agent自行决定何时调用浏览器,何时跑脚本,无需用户指定。这一块呢,确实是做的相当不错的,因为他演示的时候,几个很长的案例中间呢并没有出错,一直在往前走。因为让他去干这种活最怕什么?就中间出错了,中间出错了以后,可能跑非常非常多的TOKEN,而且在里边死循环,都是有可能,你可能早上一起来破产了。这个TOKEN是很贵的。

长链路任务加上时间轴回放,也是一个挺好玩的东西,就是你的一个任务跑完了以后,他们最后是像放这个视频一样去看,说跑了几十分钟很多步骤的工作,第几步跑成什么样了。为什么要看这个呢?就是你中间万一跑错了,或者说这个结果跟我想的不太一样,你可以看看哪错了,让他再去进行调整。否则的话,就是前头下了命令,中间不可干预,然后直接就结束了,你还没法看中间哪错了,你连改进的机会都没有。所以这个呢,也算是一个改进吧。

再往后呢,是它的任务是可以暂停继续和打断的,也算是在用户体验上做了很大的提升吧。当然了,可以打断可以暂停那件事呢,说明另外一个问题,就是这种任务周期很长,而且呢结果经常不可控。实际上它算是个缺陷吧,为了给这个缺陷打个补丁,所以加上这样的功能。

ChatGPT Agent呢,还有一些其他的功能,比如说叫Watch Mode观察模式,以及这种二次确认。为什么呢?就是涉及付款发信这种高后果或者叫高风险的行动,会自动的进入这种叫Watch Mode,用户呢需要保持焦点,并且手动确认,否则的话流程就会超时终止。这个还是不敢直接替你花钱买东西,还要看后边怎么去改进吧。

端到端的成果交付,可以直接生成可编辑的PPT、Excel、PDF等文件。这个算是对标Manus,或者是对标其他人做的Agent,现在大家都是有这功能,所以这一次ChatGPT的Agent也把这功能给你做上来了。他做的PPT还没有Manus做的好看呢。

那另外就是跨设备的无缝切换,专门给大家演示了iOS安卓设备上,你也可以看看,你这个项目跑到多少了,你这个项目跑到什么状态了。像我平时用Deep Research的时候也是这样,我在电脑上说我现在要Deep Research了,然后我的手机上就会弹出来说,你有一个Deep Research的工作开始跑了,跑到什么样状态有个进度条,跑完了以后,他会告诉你说你这个结束了,你去看看结果是不是OK。因为Deep Research一次的话,有的时候长的也要10分钟,快的可能是五六分钟,也能跑出来。你不可能说我这边打了回车以后一直坐这等,还是要去做其他事情的。

这次呢,把ChatGPT的连接器和计划任务呢,也都整进来了。可以通过官方的ChatGPT的Connectors,叫连接器,直接呢连接Gmail、GitHub、Google Drive这些服务。也可以将一次性任务,保持为定期的自动执行任务,比如每周干一什么事,这个现在都是允许的。

然后多层的安全站,它既然已经这么强大了,你可以干各种各样事情了,你要注意,你不要去做一些危害人类的事情,所以OpenAI还是有一点点小底线的吧。也面向开发者呢提供了Agent SDK和API,但是这一块呢,现在应该还是一个预览版吧,我反正没有看到谁去用这个东西。

性能呢,全面的跃升,它去解决各种人类实际问题的评分这块是上升了。这个呢,就是ChatGPT Agent的一个基本特性。

谁能用呢?我还没用上。Pro用户就是200美元的用户,现在已经可以用了,每个月呢可以用400次。这玩意肯定不能让你随便使,因为实在是太耗TOKEN了。Plus用户,就像我这样20美元用户呢,每个月可以使用40次,其实基本也够用。像我现在,用Deep Research我觉得一天用不了一次,但是还是经常把额度跑光。现在Plus用户呢,应该是未来三天进行灰度推送,但是还没轮到我,哈哈,再继续等待。

我自己观看演示以后的感受是什么样的?第一个是产品确实非常强大,能把这么复杂的任务,自己把它分配好,顺序的执行下来中间不乱,这个已经非常非常难了。另外第二个是什么呢?大概率是不会去用的。为什么呢?前面刚夸完人家这个很强大,你咋就不用呢?因为它的结果依然是不太可控的。

直接通过模拟浏览器去点击网站,我一直觉得这个方向有毛病。为什么呢?就是每个网站都不一样,而且这个网站上还有各种防刷防骗的东西。比如说吧,有些网站,你通过一个IP地址打开多少次以后,我就直接把你封掉了,把这个IP地址给你封黑了。那你遇到这样的网站你咋办?因为它这个虚拟机,它的IP地址都一样的,它是跑在微软的机房里头的,你通过统一的机房IP,你去访问人家的这个网站去,那你跑着跑着给你封了。

有的时候你需要二次验证,像前面我们讲的一个翻车,需要做二次验证,你也搞不定这个事你咋办?而且像我们比如说注册了很多账号,像谷歌呀、Twitter什么,这些账号我们都是要去做二次验证的,你不做二次验证就很容易被偷嘛。那你一旦做了二次验证以后,虚拟机里边的这个产品,他怎么去做二次验证?他根本就没法搞。还有一些需要去遵循其他的这种约定俗成的东西,你其实也是没有办法去完全的实现的。而且还有时候呢,这些网站自己还会更新,他更新的时候也不通知你,而且更新了以后到底是不是有bug,其实谁也不知道,经常更新出来那个网站是有bug的嘛。

所以呢,你通过这样的一种非常不确定的方式,去连接各种服务的话,到底未来行会变成什么样,到底能不能稳定的去执行任务,我是表示怀疑的。像他这种用仿真浏览器的方式,去执行任务的这种模式呢,更像什么呢?更像是马斯克的纯视觉自动驾驶,说人既然可以搞定,那我用纯视觉的方式车也可以搞定。其他人说我们不太相信这玩意,我们上激光雷达,它更准确。对于我来说,我可能觉得激光雷达会更好一点。

所以呢,未来可能是很多的服务,比如说订球票这些东西,应该是一些经过验证以后的安全的API出来,或者是MCP这样的这种服务出来,然后再由这些AI Agent去调用,才有可能让大家很好的把各种的交易串联起来,而不是说像现在似的,我们在各种的防骗网站中间,去点击鼠标,模拟人类点击,这个还是太不靠谱了。

那么ChatGPT Agent到底给Manus这种泛Agent的项目带来什么呢?最后我们来回答一下这个问题。首先呢,给结论,这个绝对不是好消息,应该算是又敲响了一次丧钟吧。OpenAI每一次发表新的功能呢,都会有很多的创业项目就直接死掉了。这一次呢应该不算直接枪毙,但是绝对不是一个好的声音。

虽然ChatGPT的Agent演示的,跟这个Manus的演示呢,算是各有所长,有些做的好一点,有些做的其实都不怎么样。但其实的结果是什么?ChatGPT也证明了说,这条路最后大概也就能走成这样的一个半半拉拉的样子就完事了。在一个赛道里边,其实不怕老大强大,而怕老大倒下。如果ChatGPT也就只能做成这个样子,那你所有在这个赛道上前进的人,就都比较危险。这是第一个,证明这种范Agent的模式是有问题的。

而且呢,这一次虽然OpenAI演示翻了一次车,但是它也验证了另外一个事情是什么?就是模型及应用,你跑这种Agent是非常非常消耗TOKEN的。OpenAI模型是我们自己家的,我自己可以优化,可以定价可以亏钱,但是对于Manus这样的公司来说,模型是别人家的,你对它进行底层优化的能力就没有,那你需用了这些模型以后,你就得老老实实去按TOKEN付钱,去跑这种Agent的项目,你要去按TOKEN付钱的话,那是会跑破产的。

在结果不那么靠谱的情况下,无法对模型层面进行优化,完全依靠这个外部调用的话,Manus这种项目其实是没有什么机会的。而OpenAI就是另外一回事,反正没那么靠谱,大家就去用就完了。Plus用户一个月44,Pro用户一个月440,你们就用吧。对于OpenAI来说它又不怕亏钱,每年亏个几十亿上百亿,对于它来说都是正常的。但是你Manus你亏得起这个吗?你亏不起的。

所以最终的结论就是,OpenAI的ChatGPT Agent证明了两件事情。第一件事就是,这种泛应用的Agent依然没那么靠谱,就算是OpenAI,也没有办法让这个东西更加靠谱,因为它需要靠模拟人类去点击浏览器的方式去做事情。原来双十一上的时候,也经常是淘宝网站崩了,或者是银行网站崩了,中间需要多做一次验证什么,这种事多去了。所以你现在想让机器去替代人去做点击的话,我觉得这个这条路是有问题的。

第二个是什么?第二个就是从成本的角度来去分析,Manus在这个赛道上它也跑不远。这就是今天咱们讲这故事。感谢大家收听,请帮忙点赞点小铃铛,参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.