OpenAI与Anthropic终极对决:揭秘Responses API如何颠覆AI Agent标准之争

OpenAI与Anthropic终极对决:揭秘Responses API如何颠覆AI Agent标准之争已关闭评论

第二个故事:OpenAI最新发布的AI agent,是不是应该感谢Manus呢?现在大家都在讲这个事情。OpenAI又被中国人挤牙膏了,突然就宣布自己的AI agent开发套件上线了。有人在下边回复感谢Manus,好像还是一个英语回复的。

去年连续12天的无聊发布会之后,春节又赶上了DeepSeek的暴击,明显加快了发布的进程。像什么GPT4.5、GPT5的新方向,AI agent的各种工具,它当时发布的还不是开发者工具,当时发布的是使用者工具,给它的200美元一个月的Pro账号用的这些工具,包括operator、deep research和task。到目前为止,我应该还不能用operator,其他的都可以用了。这些呢,都是今年OpenAI发出来的东西。他也在思考到底是不是要开源,目前还在纠结。

现在呢,又被Manus给输出了一把。Manus到底怎么样咱们不去管呢,但是呢Manus肯定对他还是有压力的。如果没有前面Deepsick R1的输出的话,OpenAI大概压根就不会看Manus一眼。但是现在有了Deepsick了,中国人到底干什么,他还是要稍微认真看一下了。Manus的发布让业界看到了AI agent的另外一种可能性。真正对OpenAI agent的领导地位所造成威胁的并不是Manus,而是另外一个东西,是Anthropic的MCP协议。这个东西已经快要成为事实标准了。因为在这儿呢,不可能真的谁说咱们坐下来定个标准吧。在这么快速发展的行业里头,一定是谁跑得最前头,谁用得最多,谁成为事实标准。现在Anthropic的MCP,随着Manus的爆火快速地,在成为事实标准的这条路上狂奔。OpenAI说这个事是不能忍的,我必须得把这个东西抢回来,我是行业老大,标准必须我说了算。所以这是他这次发布AI agent开发工具包的一个核心原因。这个是标准之争,是agent SDK和MCP之间的竞争。Manus在里边算是一个催化剂,也起作用了,但是呢,起到的并不是根本作用。

OpenAI这一次到底都发布了些什么东西呢?第一个东西呢叫responses API,就是响应式API。它呢第一个可以搜索,比谷歌稍微便宜一点,你直接可以在调用API的时候命令它进行搜索。谷歌自己也是可以搜索的,你使用Gemini 2.0 Pro。

或者Gemini 2.0 Flash这两个模型的时候,是可以去使用一个叫grinding by Google search的服务。就是每一次生成之前去搜索一下。这个谷歌的服务呢,是35美金可以搜索1,000次。OpenAI的搜索呢,如果你用GPT4O mini去搜索,是25美金1000次。如果使用GPT4O去搜索的话,是30美金1000次,比这个35美金要稍微便宜点点。其实一些搜索的API要比这个还要再便宜些的,有4美金的有8美金1000次的。国内的搜索要更便宜一些,比如说我们在火山引擎上,用它的这个搜索服务,大概是1000次16块人民币。

这个是第一个,就是他可以搜索了,就可以有更好的更准确的结果回来。第二个是什么呢?第二个是文件检索。说你别出去搜索了,我给你几个文件,你在这个文件范围内去给我答案。这块呢,其实做的是RAG,就是它有一个类似于网盘的地方,你要把一堆文件传上去,让它去进行embedding的这种嵌入处理,然后生成矢量库,根据这些内容去进行回答。这块是第二个叫文件检索。

第三个呢叫做计算机控制。它呢,可以控制你自己的电脑,也可以控制指定的虚拟机,或者是一个Docker的这种服务器。你可以在这上的浏览网页,或者是打开什么网页去截图,输入什么各种信息。这个都是可以通过这种agent去干活了。这个就是这一次新出来的responses API。

那么仅仅这三个功能,加了三个工具就出了一个新的API。这个就太小看这个responses API了。它呢其实是OpenAI在对API进行升级。原来呢OpenAI的API是使用叫completions API,叫完成API。现在新的叫响应API,就是你跟他说了一句话,他给你把后边那节补全。传统的completion API呢,它主要是用于对话的,虽然也能调工具,但是呢,过程要稍微繁琐一些,比较麻烦。多轮对话呢必须用户自己去维护状态。什么意思?就是你每次跟他说的时候,他不知道你是谁,你必须要告诉他说我是谁谁谁,咱们接着聊。如果你要进行10轮对话,你需要把前面9轮的你说了什么,他答了什么,都作为TOKEN直接传上去,它才能给你进行第10轮对话。你聊的越久,对话的轮次越多,TOKEN的费用就收的飞起。反正OpenAI是通过TOKEN的费用来挣钱的,那他就很开心的来去挣这笔钱。原来是这样的一个系统。

中间呢说,我们挂工具稍微费点劲。他后来还做了一点assistant API,但是这个东西没法抢,因为挂着也很麻烦。所以现在说来别费劲了,咱们再出一个新的API,叫responses API吧。第一,内置了三个工具,刚才我们讲了:搜索、文件检索、计算机控制。三个工具搁进去,那你说光有这三个工具不够,他还给了一个开源的叫agent SDK的东西,你可以挂外部的工具进来。你说我这有一个工具,是专门进行股票查询的,那我可以通过agent SDK把它描述一下,然后挂到这个responses API里边去。你可以调用我的股票查询的agent,就可以干活了。那么所有的这些agent SDK挂进去的东西呢,都是由OpenAI来进行状态管理。你以后再用responses API再去聊天的时候,你不需要去进行自己的状态管理了。你可以告诉他说我刚才聊到哪了,那个聊天号是多少,你顺着那个接触往后聊。那么这个过程,你就不需要再去上传上下文的这个TOKEN,它就都可以搞定。而且再加上那个网盘,你可以把文件扔上去解锁,多个工具多个轮次,这些东西responses API相对控制起来要简单一些。所以呢,我为什么要讲说这一次是一个比较有意义的更新。那么除了这个responses API之外,下一个东西就是刚才我们讲到的agent SDK。这个东西是一个开源的Python包,现在应该是只有Python,据说未来会有tapescript的版本,其他的版本他就懒得做了。他能干嘛呢,他就是调用responses API,协调外部服务,直接与大模型一起工作。这个东西是要去跟MCP竞争的。MCP呢,是Anthropic给提出来的,它呢,相对来说要复杂一些,不是那么好使。我现在也在用一下MCP的东西,但是MCP是必须要有服务器的,你必须要在本机起服务器,要么Python服务器,要么note GS服务器,然后才可以去调用它。agent SDK就不需要服务器,它比那个要省事。但是agent SDK呢,也有一个比较讨厌的地方,就是它必须绑定OpenAI。MCP是一个相对开放的这种协议,你这边是Claude也好,或者是其他的一些模型也好,你都可以用,只要自己写好上下的这种接口,你都可以使这个东西。但是,agent SDK就是OpenAI用的,OpenAI现在只有它支持嘛,以后是不是有其他模型能用这个东西。

我估计应该可以,但是至少目前不行。OpenAI这一次的力度呢,真的是很大。好像没有发布什么,很多人都觉得,这个不就是给API改点东西吗?到底改什么东西了呢?好像啥也没动,对吧?写程序的人会知道,有一种东西是OpenAI真正的大杀器,是什么?有一种API叫OpenAI API compatible,什么意思?就是兼容OpenAI的API,是这样的一个东西。

市面上绝大部分的大模型的API,使用的都是OpenAI API compatible这个格式。比如说国内的通义千问、火山、DeepSeek,他没有自己去做一套说我们来规定,这个API应该什么什么样格式来调用,我们就直接使用OpenAI这套东西就完事了。国外的Grok压根也没有自己的格式,他就直接使用的OpenAI API compatible。谷歌的Gemini是有自己的API格式的,但是谷歌官方直接提供了OpenAI API compatible,通过这个方式直接可以调用Gemini了,不需要其他任何的修改,你可以替换。

唯一不提供OpenAI API compatible的是谁?是Anthropic的Claude。但是呢,第三方也提供了,就是你可以通过一些第三方的这种跳转,使用OpenAI compatible的这个方式去调用Claude。所有的聚合平台,都是OpenAI API compatible,像open router、together呀,还有像这个国内的硅基流动,使用的都是OpenAI格式的API。咱们本机跑的什么Olama呀什么的,也都是使用OpenAI API compatible。

那么OpenAI的API,是完全可以通过HTTP的方式来调用的,就是你不需要任何的这种SDK到本机去部署,它就可以去调用。但是呢,这个调用的格式是由OpenAI来规定的,说我第一个参数写什么,后边怎么去写调用的这个内容,然后怎么去写这个TOKEN,这个都是由OpenAI定义好的。大家现在都照这个来的。所有的SDK的话,都是基于这套格式来编写,让编程呢可以变得更简单一些。大家都去隔手这么一套编程格式,这个事就成为了一个事实标准。大量的社区SDK也都是基于OpenAI API compatible来做的,因为OpenAI的自己的官方API,就是Python的、Javascript,可能有Java的。

其他的并没有那么全,那么怎么办?就是由社区自己去写,OpenAI也挺开心,你们写去吧。各种编程语言就都支持了,他是这样来去工作的。基于大模型的软件开发呢,基本上也都是在OpenAI的这个兼容模式下去运行的。很少有人说我写这个软件是按照Anthropic的这个格式来写的。现在呢,基于OpenAI的API这种事实标准,直接下手了。OpenAI说来我改这个东西,原来你们基于我的OpenAI API compatible去写的这些东西吧,我现在直接把原来的这个API及时升级,还有多加一些函数进去,多加一些调用的接口进去,我就等着你们跟了。加进去了以后,他就从completion API正式地升级到responses API,整个社区你就必须得跟着走,否则的话你原来的很多的系统就跑不动了。那responses API的话更适合AI agent,那大家后边去用就完了。

那么现在呢,agent SDK算是对MCP进行了釜底抽薪。Manus的爆火真正引爆的东西是MCP。现在Anthropic Claude的客户端cursor这个编程工具,Vscode里头的AI编程套件,以及Windsurf这样的编程工具,都是开始支持MCP了。现在OpenAI说不行了,越来越多的MCP服务正在被创建出来,这个标准要确立了。这个时候agent SDK就跳出来了,更简单。这个事我今天看了一下,这个确实要比MCP要简单得多。现在呢,是跟OpenAI绑死了,agent SDK是开源的,目前只有Python版本,tapescript版本正在开发中,其他的版本的话等社区慢慢搞定。当OpenAI的compatible升级完毕了,接着呢,SDK就可以干掉MCP。我相信现在各个大厂,各个MAS这些服务商,应该都在加班加点,给他们的这个SDK进行升级,去兼容OpenAI的responses API。OpenAI在AI agent的这一局里头呢,暂时算是扳回了一种。

OpenAI和Anthropic所推崇的AI agent的实现方式是什么样?肯定跟现在所流行的是不一样的。现在很多的方式,都是以流程为核心的,包括像字节的Coze,包括我比较喜欢用的Dify,都是以流程为核心。我们自己去设计流程,然后在这个流程里头,什么地方去调用大模型,什么地方去调用各种的工具,然后让它串在一起,原来是这么干的。

但是呢,Anthropic提出了一个折中方案,建议大家使用开放的方式。MCP的方式让这个大模型可以直接去跟这些工具去通讯,相当于是给模型赋能了。模型也可以自己搞定一些事情。但是你说你不需要调这个模型,自己去处理这些工具的结果也没问题。

OpenAI呢,现在说,咱们换一个方式,以模型为核心。你不要去设计流程,不要去搞这些乱七八糟东西。你通过这个agent SDK,你把所有你需要让模型去调用的这些功能都打包好,然后呢,告知大模型,说:“我有这么多的这个工具,你用吧。你就只管提出要求,由模型自己才去决定什么时候去调用哪个agent去干活。不要去设计流程,不要去手动规划流程,把这些工作都交给OpenAI的大模型。”相当于什么?把五官和手脚做一个说明文件,把这些东西一起扔给大模型,其他的事你就别管了。这是OpenAI要干的。

现在搜索、本地文件操作,都是OpenAI自己已经提供了。那么你一旦提供了这些东西以后,你习惯了,那么这个迁移成本就会变高。特别是本地文件,你把大量的这个知识库都建在OpenAI的服务器上了,你想再迁移这事费劲了。

至于CUA的话,其实是给很多的agent打了一个样本。CUA就是计算机用户操作,这个东西我已经可以通过CUA来去做很多事情了。其他的这些agent,我就可以把CUA的过程简化一下,变成一个简单的agent就拿出来了。这个是现在OpenAI给AI agent整个的行业指出的一条明路。

那么后续这个事情会如何发展呢?OpenAI应该会推出更多的agent功能。现在所推出来的东西其实还没有那么完整。现在大家看到了搜索,看到了本地文件处理,看到了计算机的这个使用。但是咱们看看他前面,有deep research,有test,就是说你告诉他每天几点几点过干什么事情。还有Oprater,Oprater的东西呢,现在已经可以依靠计算机用户使用这个代理可以实现了。deep research现在其实已经可以靠搜索和本地文件可以去实现一部分。它的test现在我们还没有实现,所以他未来的一些agent功能会慢慢地加进来一些。

再往后,社区和各大的云厂商都会将自己的OpenAI API compatible升级到responses API。我觉得一个月左右就应该都升级完了。现在我已经看到有一些社区的API已经开始升级了。

谷歌和XAI应该也会照这个方向升级。Gemini也好,Grok也好,等于他们也算搭上了AI agent的这班船。Anthropic前面做了这么多的努力,搞定的MCP的这个生态应该会崩塌掉。国内的像什么千问、火山,应该在这一两个月里头也都会升级上去。至于第三方的这些模型及服务的这些云厂商,应该在努力的追赶。很多服务会将自己通过agent SDK进行包装。

使用OpenAI API compatible的这些用户,一定是全世界所有API用户里最多的,而且可能其他所有的用户加一块都没有它多。当OpenAI API compatible占据绝对垄断地位的时候,这就是一个事实标准。当它有事实标准的时候,继续在这个基础上往前推一点点,OpenAI就可以绑架所有的社区、所有的行业跟着它一起转向。那么一旦是各个社区,比如说通义千问,他把自己的API转换成了或者升级到了responses API了,其他那些人只要是把你手头的这个服务,比如查股票、查彩票、查什么天气,把这些东西包装成agent SDK的,这个东西出来以后,我们就可以到通义千问上去用,就可以到火山去用,就可以到各个云上去用。所以这块一定是大家努力去折腾的事情。

AI这个方向现在算是发生改变了,原来是以流程为核心的,现在是以模型为核心的。OpenAI呢也算成功地捍卫了自己老大的位置。再往后模型及产品的口号又可以喊一段时间了。像dify、coze这样的平台,可能还会在一些需要强定制的市场里头继续玩耍。他们应该会加入MCP和agent SDK的支持,至少agent SDK一定会加,MCP加不加这个事不确定了。因为原来像Dify也好,coze也好,他们有一套自己的API描述语言,应该有些用的open API的一套规范挂进去的。现在的话大家就统一的使用agent SDK挂就好了,就可以搞定了。Dify现在也开始在加agent节点,它可以自动地规划一些事情了。这块儿它们应该还是有出路的。

2025年的AI agent将继续围绕模型大厂来去展开。Grok、Gemini和Claude应该算是利好。千问、火山快速迭代以后可以是利好。DeepSeek继续去做它的基础模型就好了,以后推理的事情交给这个推理系统去迭代就完了,比如说交给硅基流动去搞。至于MAS这些厂商的话可以分一杯羹。

他们呢,应该会去提供搜索和RAG服务了,不会说再把这些东西扔在外面了。你比如说像我们去阿里云、火山的方舟引擎,都是提供RAG和搜索的。他们就可以很容易的用自己的服务,把OpenAI的系统全都替换掉。而且OpenAI在做的时候,就给你留出了替换接口来,这个是没有任何问题的。

至于像Manus这样的没有底层模型,只做产品的就比较悬了。因为到最后呢,它相当于什么?就是它只提供了个UI,其他都不是他的。这个有点像以前安卓刚出来的时候,中国人干那个活,咱们做那东西叫launcher。我们只做一个皮,最后这些做皮的公司呢,除了小米最后长大了以外,他最早做的东西叫米UI嘛,其他的应该都被滚滚大潮给淘汰掉了。所以Manus可能也就是最后,再蹦跶两天也就完事了。

这就是今天的第二个故事:OpenAI在Manus的刺激下,发布了它的AI agent开发工具包的故事。

Comments are closed.