ChatGPT Agent重磅发布,山姆奥特曼亲自站台却惨遭现场翻车,这究竟是Manus的机遇还是整个泛Agent赛道的丧钟?
7 月 20
AIGC AGI, AI Agent, AI创业, AI行业分析, API, ChatGPT Agent, Deep Research, Manus, OpenAI, OpenAI发布会, Operator, PPT生成, Sam Altman, SDK, TOKEN成本, YouTube频道, 二次验证, 产品评测, 人工智能, 人工智能代理, 任务打断, 创业公司危机, 商业模式, 技术前沿, 技术局限, 数据分析, 未来科技, 模型即应用, 沙盒, 浏览器模拟, 演示翻车, 生产力工具, 用户体验, 科技评论, 竞品分析, 老范讲故事, 自动化任务, 自动化流程, 虚拟机, 跨设备同步, 连接器, 长链路任务 ChatGPT Agent重磅发布,山姆奥特曼亲自站台却惨遭现场翻车,这究竟是Manus的机遇还是整个泛Agent赛道的丧钟?已关闭评论
ChatGPT Agent来了。
Manus到底是该哭还是该笑呢?
大家好,欢迎收听老范讲故事的YouTube频道。
ChatGPT重磅发布了他的Agent。怎么个重磅法?山姆·奥特曼亲自坐台。现在很多ChatGPT自己产品的发布,山姆·奥特曼都不在前台坐着,这次是亲自坐台。而且旁边坐了四位主讲,很多时候发布会就是俩人或者仨人,这次是山姆·奥特曼坐在这,旁边坐了四个人。而且呢,足足讲了25分钟。
很多人就想起Manus来了,好像有些测试还不如Manus。因为他现场有翻车的,大老板在旁边坐着,你测试翻车的话还是压力挺大的。在这个时候就有人说了,GPT也就这样,你们现在还觉得Manus做的不好吗?就有一些讨论在发生了。
ChatGPT的Agent到底会给Manus带来什么呢?Manus到底是该哭还是该笑呢?今天咱们讲讲这个事儿。
首先呢,咱们先回顾一下GPT Agent的一个发布过程。时间呢是太平洋时间2025年7月17号上午10点,也就是北京时间7月18号的凌晨1点。山姆·奥特曼坐在最边上,他不是主讲,他就是一个串场的。另外一头呢坐着一个印度老哥,中间呢是三个亚洲脸,两位男士呢应该确认是中国人,还有一位女士呢,虽然看起来是亚洲脸,但是是不是华人不知道。
25分钟的视频演示也很无奈,他这种演示你没法短,因为很多的任务,跑起来的时间就非常长,特别是婚礼差旅一条龙的。这个任务基本上是从头跑到尾,就是一开始布置任务下去,中间穿插了几个其他任务,最后到那个结束的时候,算是差不多跑完。
让Agent去帮忙参加朋友婚礼,挑酒店、挑礼物、定穿搭,中间还打断他说,我还要再买双鞋。这个其实挺好玩的,因为以前这种Agent,最讨厌的一点是什么呢?就是你只要让他开始跑,半个小时或者多长时间,你没法打断他,发现他错了以后呢你也没办法,只能让他重新开始。现在呢,我说我可以打断你,或者中间可以把你叫停,让你去帮我调整一些东西,加一双鞋或者做一些其他的。这个呢,算是一个,我觉得算是用户体验角度上的一个比较大的前进吧。
从技术角度上来说呢,并没有那么费劲。只是呢,在Agent的执行框架上需要做一些调整,你比如说多线程,或者是一些守护线程,他需要做一些这样的东西。在大家做了这么长时间的手机应用、前端后端应用以后,这个不是那么费劲的。
手机端呢,也可以进行即时的创意,也就是在iPhone上请求制作团队吉祥物贴纸,就是做了一些可以做设计的任务。这个应该是对着像LoveArt这种设计Agent去的。然后呢,做了一个财务数据分析,他讲的是去我的Google Drive上,把评估指标拉出来,给我做一个汇报。幻灯片还做的可以吧。
后面就是演示了随时打断和二次确认,在Agent里头点击打断,可以进行指令修改,Agent结束前弹窗确认邮件内容。但是呢,在现场还失败了一个,找球场这个是一个失败演示。
他干了一什么呢?规划一场夏季旅行,走遍30座职业棒球球场,并给每座球场买两张最便宜的日场票。给了他这样的一个任务。一开始呢,是先用文本浏览器,抓取了2025年赛程和票价,到这呢数据还是正常的。然后是通过脚本去终端执行,通过终端去执行脚本,生成Excel和绘制地图。但是呢,这儿就开始出错了,地图坐标严重错位,纽约、波士顿等东海岸的球队就没了,墨西哥湾里头凭空出现了一些球场,引起场下的一些窃笑了。
再往后呢,是用可视化浏览器,跳转到一个订票网站上,要去下单订票了。但是呢,因为这是一个跟金融和这种高风险相关的操作,所以呢进入了人工模式,就是你必须要确认一下要花钱了吗。然后就遇到了一个问题,Agent自动去填邮箱了以后呢,它网站需要跳这个叫二次验证,二次验证,就比如说我给你发个邮件,你给把这个邮件里头那个码给我呀,或者是给你发个短信,就是这种验证程序。这个Agent就跑不动了,他呢触发了订票网站等待用户的一个进程,要求你60秒钟之内呢要去接管,结果呢他也没有好好的接管这个东西,就直接超时终止了。这个稍微有些丢人,还跳出了红色的长串错误信息,反正现场就有点绷不住了。主持人呢只能尴尬收场,这个主持人是谁?山姆·奥特曼。他呢出来打了个圆场,说买票这步我们之后会在debug的。这是整场直播唯一强制终止的一个demo。
最新的ChatGPT Agent到底有哪些新特性呢?第一个呢,它是Operator加上Deep Research,这两个功能加一块的东西。Operator其实应该是今年年初的时候发布过一次,所谓Operator,就是在一个虚拟机上打开浏览器,给大家去做各种的操作,模仿真人去点击各种的网页。但是呢,这个功能呢,一直是在200美金的用户那里使用,像我这种20美金的用户是没使过的。而且即使是200美金的用户呢,应该对这个功能也不太感冒,因为你要去使用互联网的网站的话,难度还是很大的。
咱们做各种软件里头,最难做的一个软件不是操作系统,而是浏览器。为什么?因为每家做的网站都不一样,我到底用的是谁家的前端库后端库,在里边隐藏了哪些信息,怎么去做的缓存,做了哪些防刷以及防骗的这种工具,做了哪些多次验证的东西,这个真的是千奇百怪的。所以你要想完全兼容这种东西是很难的,你让一个机器人去点网页,成功率还是不太高的。所以这个产品虽然发布了,但是大家使得并不是那么爽。
现在说Deep Research这功能做的还不错了,那跟Operator两个功能结合起来,就是这一次我们所看到的GPT Agent。这俩功能呢,Operator我从来没用过,Deep Research呢是我经常用,而且经常把额度跑光,需要等到下边一个时间周期,重新分配额度接着跑的一个功能。
它呢是由一台虚拟化电脑,就还是Operator这套东西里头呢,内置了图形界面浏览器和文本浏览器。什么叫图形界面浏览器?就是我真的打开了一个网页,这边是有按钮的,那边是有输入框的有菜单的,这种浏览器呢叫做图形界面浏览器。而文本浏览器的话基本上就是,我把你这个网页抓出来了,直接把里头的内容呢进行了总结归纳,或者说把里头的内容直接提出来了。他们在这个里头是两个都有,大部分情况,你说我只需要进行信息总结的话,就是文本浏览器就够了。实际上文本浏览器大家可以理解为一个爬虫。图像浏览器的话其实,对于这种虚拟机来说是难度很大的。为什么?因为我们写网站的时候,还经常会去研究,比如说设备的自动适配,就是我在手机上,这个网页应该长成啥样,在平板上应该长成啥样,在PC上应该长成啥样,遇到特别大的浏览器应该长成啥样,这个都是不一样的。还有一些比如说我们有些网站上,会写这种不可见的字符,干嘛呢?骗AI的,说你遇到我这个网站就不能爬了,或者说不能做一些其他的工作。还有很多这样的东西。
另外呢,上浏览器的呢,其实还有一点小的问题,大家知道网站上有一个文件叫robots.txt,这个文件干嘛使的?实际上是应对爬虫的,告诉你说哪个爬虫你可以看哪些东西,不可以看哪些东西。而你一旦上浏览器了,Robots这个文件实际上就不起作用了。
那它这个一体化的虚拟电脑,除了图形化浏览器和文本浏览器之外,还有什么呢?还有终端,你可以在上面去跑一些程序,以及API连接器,包括一些模型,都在同一个沙盒里边完成。点击键入运行代码,调用Gmail、Calendar等等这些操作。为什么叫沙盒呢?就是这个盒里头出错了,其他的盒不影响。这个呢,就是这一次的ChatGPT Agent最核心的东西,就是一体化虚拟电脑。
另外呢,就是它可以自动的选择工具,跨步骤的自主执行,将Operator网页交互,加上Deep Research的深度分析,整合在一个流程里边。Agent自行决定何时调用浏览器,何时跑脚本,无需用户指定。这一块呢,确实是做的相当不错的,因为他演示的时候,几个很长的案例中间呢并没有出错,一直在往前走。因为让他去干这种活最怕什么?就中间出错了,中间出错了以后,可能跑非常非常多的TOKEN,而且在里边死循环,都是有可能,你可能早上一起来破产了。这个TOKEN是很贵的。
长链路任务加上时间轴回放,也是一个挺好玩的东西,就是你的一个任务跑完了以后,他们最后是像放这个视频一样去看,说跑了几十分钟很多步骤的工作,第几步跑成什么样了。为什么要看这个呢?就是你中间万一跑错了,或者说这个结果跟我想的不太一样,你可以看看哪错了,让他再去进行调整。否则的话,就是前头下了命令,中间不可干预,然后直接就结束了,你还没法看中间哪错了,你连改进的机会都没有。所以这个呢,也算是一个改进吧。
再往后呢,是它的任务是可以暂停继续和打断的,也算是在用户体验上做了很大的提升吧。当然了,可以打断可以暂停那件事呢,说明另外一个问题,就是这种任务周期很长,而且呢结果经常不可控。实际上它算是个缺陷吧,为了给这个缺陷打个补丁,所以加上这样的功能。
ChatGPT Agent呢,还有一些其他的功能,比如说叫Watch Mode观察模式,以及这种二次确认。为什么呢?就是涉及付款发信这种高后果或者叫高风险的行动,会自动的进入这种叫Watch Mode,用户呢需要保持焦点,并且手动确认,否则的话流程就会超时终止。这个还是不敢直接替你花钱买东西,还要看后边怎么去改进吧。
端到端的成果交付,可以直接生成可编辑的PPT、Excel、PDF等文件。这个算是对标Manus,或者是对标其他人做的Agent,现在大家都是有这功能,所以这一次ChatGPT的Agent也把这功能给你做上来了。他做的PPT还没有Manus做的好看呢。
那另外就是跨设备的无缝切换,专门给大家演示了iOS安卓设备上,你也可以看看,你这个项目跑到多少了,你这个项目跑到什么状态了。像我平时用Deep Research的时候也是这样,我在电脑上说我现在要Deep Research了,然后我的手机上就会弹出来说,你有一个Deep Research的工作开始跑了,跑到什么样状态有个进度条,跑完了以后,他会告诉你说你这个结束了,你去看看结果是不是OK。因为Deep Research一次的话,有的时候长的也要10分钟,快的可能是五六分钟,也能跑出来。你不可能说我这边打了回车以后一直坐这等,还是要去做其他事情的。
这次呢,把ChatGPT的连接器和计划任务呢,也都整进来了。可以通过官方的ChatGPT的Connectors,叫连接器,直接呢连接Gmail、GitHub、Google Drive这些服务。也可以将一次性任务,保持为定期的自动执行任务,比如每周干一什么事,这个现在都是允许的。
然后多层的安全站,它既然已经这么强大了,你可以干各种各样事情了,你要注意,你不要去做一些危害人类的事情,所以OpenAI还是有一点点小底线的吧。也面向开发者呢提供了Agent SDK和API,但是这一块呢,现在应该还是一个预览版吧,我反正没有看到谁去用这个东西。
性能呢,全面的跃升,它去解决各种人类实际问题的评分这块是上升了。这个呢,就是ChatGPT Agent的一个基本特性。
谁能用呢?我还没用上。Pro用户就是200美元的用户,现在已经可以用了,每个月呢可以用400次。这玩意肯定不能让你随便使,因为实在是太耗TOKEN了。Plus用户,就像我这样20美元用户呢,每个月可以使用40次,其实基本也够用。像我现在,用Deep Research我觉得一天用不了一次,但是还是经常把额度跑光。现在Plus用户呢,应该是未来三天进行灰度推送,但是还没轮到我,哈哈,再继续等待。
我自己观看演示以后的感受是什么样的?第一个是产品确实非常强大,能把这么复杂的任务,自己把它分配好,顺序的执行下来中间不乱,这个已经非常非常难了。另外第二个是什么呢?大概率是不会去用的。为什么呢?前面刚夸完人家这个很强大,你咋就不用呢?因为它的结果依然是不太可控的。
直接通过模拟浏览器去点击网站,我一直觉得这个方向有毛病。为什么呢?就是每个网站都不一样,而且这个网站上还有各种防刷防骗的东西。比如说吧,有些网站,你通过一个IP地址打开多少次以后,我就直接把你封掉了,把这个IP地址给你封黑了。那你遇到这样的网站你咋办?因为它这个虚拟机,它的IP地址都一样的,它是跑在微软的机房里头的,你通过统一的机房IP,你去访问人家的这个网站去,那你跑着跑着给你封了。
有的时候你需要二次验证,像前面我们讲的一个翻车,需要做二次验证,你也搞不定这个事你咋办?而且像我们比如说注册了很多账号,像谷歌呀、Twitter什么,这些账号我们都是要去做二次验证的,你不做二次验证就很容易被偷嘛。那你一旦做了二次验证以后,虚拟机里边的这个产品,他怎么去做二次验证?他根本就没法搞。还有一些需要去遵循其他的这种约定俗成的东西,你其实也是没有办法去完全的实现的。而且还有时候呢,这些网站自己还会更新,他更新的时候也不通知你,而且更新了以后到底是不是有bug,其实谁也不知道,经常更新出来那个网站是有bug的嘛。
所以呢,你通过这样的一种非常不确定的方式,去连接各种服务的话,到底未来行会变成什么样,到底能不能稳定的去执行任务,我是表示怀疑的。像他这种用仿真浏览器的方式,去执行任务的这种模式呢,更像什么呢?更像是马斯克的纯视觉自动驾驶,说人既然可以搞定,那我用纯视觉的方式车也可以搞定。其他人说我们不太相信这玩意,我们上激光雷达,它更准确。对于我来说,我可能觉得激光雷达会更好一点。
所以呢,未来可能是很多的服务,比如说订球票这些东西,应该是一些经过验证以后的安全的API出来,或者是MCP这样的这种服务出来,然后再由这些AI Agent去调用,才有可能让大家很好的把各种的交易串联起来,而不是说像现在似的,我们在各种的防骗网站中间,去点击鼠标,模拟人类点击,这个还是太不靠谱了。
那么ChatGPT Agent到底给Manus这种泛Agent的项目带来什么呢?最后我们来回答一下这个问题。首先呢,给结论,这个绝对不是好消息,应该算是又敲响了一次丧钟吧。OpenAI每一次发表新的功能呢,都会有很多的创业项目就直接死掉了。这一次呢应该不算直接枪毙,但是绝对不是一个好的声音。
虽然ChatGPT的Agent演示的,跟这个Manus的演示呢,算是各有所长,有些做的好一点,有些做的其实都不怎么样。但其实的结果是什么?ChatGPT也证明了说,这条路最后大概也就能走成这样的一个半半拉拉的样子就完事了。在一个赛道里边,其实不怕老大强大,而怕老大倒下。如果ChatGPT也就只能做成这个样子,那你所有在这个赛道上前进的人,就都比较危险。这是第一个,证明这种范Agent的模式是有问题的。
而且呢,这一次虽然OpenAI演示翻了一次车,但是它也验证了另外一个事情是什么?就是模型及应用,你跑这种Agent是非常非常消耗TOKEN的。OpenAI模型是我们自己家的,我自己可以优化,可以定价可以亏钱,但是对于Manus这样的公司来说,模型是别人家的,你对它进行底层优化的能力就没有,那你需用了这些模型以后,你就得老老实实去按TOKEN付钱,去跑这种Agent的项目,你要去按TOKEN付钱的话,那是会跑破产的。
在结果不那么靠谱的情况下,无法对模型层面进行优化,完全依靠这个外部调用的话,Manus这种项目其实是没有什么机会的。而OpenAI就是另外一回事,反正没那么靠谱,大家就去用就完了。Plus用户一个月44,Pro用户一个月440,你们就用吧。对于OpenAI来说它又不怕亏钱,每年亏个几十亿上百亿,对于它来说都是正常的。但是你Manus你亏得起这个吗?你亏不起的。
所以最终的结论就是,OpenAI的ChatGPT Agent证明了两件事情。第一件事就是,这种泛应用的Agent依然没那么靠谱,就算是OpenAI,也没有办法让这个东西更加靠谱,因为它需要靠模拟人类去点击浏览器的方式去做事情。原来双十一上的时候,也经常是淘宝网站崩了,或者是银行网站崩了,中间需要多做一次验证什么,这种事多去了。所以你现在想让机器去替代人去做点击的话,我觉得这个这条路是有问题的。
第二个是什么?第二个就是从成本的角度来去分析,Manus在这个赛道上它也跑不远。这就是今天咱们讲这故事。感谢大家收听,请帮忙点赞点小铃铛,参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
RSS