OpenAI与Anthropic终极对决:揭秘Responses API如何颠覆AI Agent标准之争
3 月 19
AIGC Agent SDK, Agent协调系统, AI agent开发, AI产品生命周期, Anthropic, API兼容性, API格式战争, API调用成本, Coze平台转型, Cursor插件, DeepSeek, Dify系统升级, Docker集成, HTTP调用规范, Manus, MCP协议, OpenAI, OpenRouter生态, Python开发包, RAG技术, Responses API, SDK开发趋势, Together AI适配, Token计费优化, TypeScript支持, VSCode扩展, 上下文管理革命, 中国云厂商应对, 企业数据安全, 多轮对话优化, 天气服务接口, 安卓launcher模式, 小米MIUI案例, 工具函数扩展, 工具描述语言, 开发者工具链, 开发者社区迁移, 开源工具包, 开源社区响应, 搜索服务竞价, 文件解析系统, 服务替换接口, 本地模型部署, 标准之争, 模型为核心开发, 流程驱动范式, 火山引擎, 状态管理, 生态绑定策略, 矢量数据库, 知识库存储成本, 知识库迁移, 硅基流动推理, 第三方服务集成, 网页自动化, 聚合平台危机, 股票查询API, 虚拟机控制, 计算机控制, 谷歌Gemini, 通义千问 OpenAI与Anthropic终极对决:揭秘Responses API如何颠覆AI Agent标准之争已关闭评论
第二个故事:OpenAI最新发布的AI agent,是不是应该感谢Manus呢?现在大家都在讲这个事情。OpenAI又被中国人挤牙膏了,突然就宣布自己的AI agent开发套件上线了。有人在下边回复感谢Manus,好像还是一个英语回复的。
去年连续12天的无聊发布会之后,春节又赶上了DeepSeek的暴击,明显加快了发布的进程。像什么GPT4.5、GPT5的新方向,AI agent的各种工具,它当时发布的还不是开发者工具,当时发布的是使用者工具,给它的200美元一个月的Pro账号用的这些工具,包括operator、deep research和task。到目前为止,我应该还不能用operator,其他的都可以用了。这些呢,都是今年OpenAI发出来的东西。他也在思考到底是不是要开源,目前还在纠结。
现在呢,又被Manus给输出了一把。Manus到底怎么样咱们不去管呢,但是呢Manus肯定对他还是有压力的。如果没有前面Deepsick R1的输出的话,OpenAI大概压根就不会看Manus一眼。但是现在有了Deepsick了,中国人到底干什么,他还是要稍微认真看一下了。Manus的发布让业界看到了AI agent的另外一种可能性。真正对OpenAI agent的领导地位所造成威胁的并不是Manus,而是另外一个东西,是Anthropic的MCP协议。这个东西已经快要成为事实标准了。因为在这儿呢,不可能真的谁说咱们坐下来定个标准吧。在这么快速发展的行业里头,一定是谁跑得最前头,谁用得最多,谁成为事实标准。现在Anthropic的MCP,随着Manus的爆火快速地,在成为事实标准的这条路上狂奔。OpenAI说这个事是不能忍的,我必须得把这个东西抢回来,我是行业老大,标准必须我说了算。所以这是他这次发布AI agent开发工具包的一个核心原因。这个是标准之争,是agent SDK和MCP之间的竞争。Manus在里边算是一个催化剂,也起作用了,但是呢,起到的并不是根本作用。
OpenAI这一次到底都发布了些什么东西呢?第一个东西呢叫responses API,就是响应式API。它呢第一个可以搜索,比谷歌稍微便宜一点,你直接可以在调用API的时候命令它进行搜索。谷歌自己也是可以搜索的,你使用Gemini 2.0 Pro。
或者Gemini 2.0 Flash这两个模型的时候,是可以去使用一个叫grinding by Google search的服务。就是每一次生成之前去搜索一下。这个谷歌的服务呢,是35美金可以搜索1,000次。OpenAI的搜索呢,如果你用GPT4O mini去搜索,是25美金1000次。如果使用GPT4O去搜索的话,是30美金1000次,比这个35美金要稍微便宜点点。其实一些搜索的API要比这个还要再便宜些的,有4美金的有8美金1000次的。国内的搜索要更便宜一些,比如说我们在火山引擎上,用它的这个搜索服务,大概是1000次16块人民币。
这个是第一个,就是他可以搜索了,就可以有更好的更准确的结果回来。第二个是什么呢?第二个是文件检索。说你别出去搜索了,我给你几个文件,你在这个文件范围内去给我答案。这块呢,其实做的是RAG,就是它有一个类似于网盘的地方,你要把一堆文件传上去,让它去进行embedding的这种嵌入处理,然后生成矢量库,根据这些内容去进行回答。这块是第二个叫文件检索。
第三个呢叫做计算机控制。它呢,可以控制你自己的电脑,也可以控制指定的虚拟机,或者是一个Docker的这种服务器。你可以在这上的浏览网页,或者是打开什么网页去截图,输入什么各种信息。这个都是可以通过这种agent去干活了。这个就是这一次新出来的responses API。
那么仅仅这三个功能,加了三个工具就出了一个新的API。这个就太小看这个responses API了。它呢其实是OpenAI在对API进行升级。原来呢OpenAI的API是使用叫completions API,叫完成API。现在新的叫响应API,就是你跟他说了一句话,他给你把后边那节补全。传统的completion API呢,它主要是用于对话的,虽然也能调工具,但是呢,过程要稍微繁琐一些,比较麻烦。多轮对话呢必须用户自己去维护状态。什么意思?就是你每次跟他说的时候,他不知道你是谁,你必须要告诉他说我是谁谁谁,咱们接着聊。如果你要进行10轮对话,你需要把前面9轮的你说了什么,他答了什么,都作为TOKEN直接传上去,它才能给你进行第10轮对话。你聊的越久,对话的轮次越多,TOKEN的费用就收的飞起。反正OpenAI是通过TOKEN的费用来挣钱的,那他就很开心的来去挣这笔钱。原来是这样的一个系统。
中间呢说,我们挂工具稍微费点劲。他后来还做了一点assistant API,但是这个东西没法抢,因为挂着也很麻烦。所以现在说来别费劲了,咱们再出一个新的API,叫responses API吧。第一,内置了三个工具,刚才我们讲了:搜索、文件检索、计算机控制。三个工具搁进去,那你说光有这三个工具不够,他还给了一个开源的叫agent SDK的东西,你可以挂外部的工具进来。你说我这有一个工具,是专门进行股票查询的,那我可以通过agent SDK把它描述一下,然后挂到这个responses API里边去。你可以调用我的股票查询的agent,就可以干活了。那么所有的这些agent SDK挂进去的东西呢,都是由OpenAI来进行状态管理。你以后再用responses API再去聊天的时候,你不需要去进行自己的状态管理了。你可以告诉他说我刚才聊到哪了,那个聊天号是多少,你顺着那个接触往后聊。那么这个过程,你就不需要再去上传上下文的这个TOKEN,它就都可以搞定。而且再加上那个网盘,你可以把文件扔上去解锁,多个工具多个轮次,这些东西responses API相对控制起来要简单一些。所以呢,我为什么要讲说这一次是一个比较有意义的更新。那么除了这个responses API之外,下一个东西就是刚才我们讲到的agent SDK。这个东西是一个开源的Python包,现在应该是只有Python,据说未来会有tapescript的版本,其他的版本他就懒得做了。他能干嘛呢,他就是调用responses API,协调外部服务,直接与大模型一起工作。这个东西是要去跟MCP竞争的。MCP呢,是Anthropic给提出来的,它呢,相对来说要复杂一些,不是那么好使。我现在也在用一下MCP的东西,但是MCP是必须要有服务器的,你必须要在本机起服务器,要么Python服务器,要么note GS服务器,然后才可以去调用它。agent SDK就不需要服务器,它比那个要省事。但是agent SDK呢,也有一个比较讨厌的地方,就是它必须绑定OpenAI。MCP是一个相对开放的这种协议,你这边是Claude也好,或者是其他的一些模型也好,你都可以用,只要自己写好上下的这种接口,你都可以使这个东西。但是,agent SDK就是OpenAI用的,OpenAI现在只有它支持嘛,以后是不是有其他模型能用这个东西。
我估计应该可以,但是至少目前不行。OpenAI这一次的力度呢,真的是很大。好像没有发布什么,很多人都觉得,这个不就是给API改点东西吗?到底改什么东西了呢?好像啥也没动,对吧?写程序的人会知道,有一种东西是OpenAI真正的大杀器,是什么?有一种API叫OpenAI API compatible,什么意思?就是兼容OpenAI的API,是这样的一个东西。
市面上绝大部分的大模型的API,使用的都是OpenAI API compatible这个格式。比如说国内的通义千问、火山、DeepSeek,他没有自己去做一套说我们来规定,这个API应该什么什么样格式来调用,我们就直接使用OpenAI这套东西就完事了。国外的Grok压根也没有自己的格式,他就直接使用的OpenAI API compatible。谷歌的Gemini是有自己的API格式的,但是谷歌官方直接提供了OpenAI API compatible,通过这个方式直接可以调用Gemini了,不需要其他任何的修改,你可以替换。
唯一不提供OpenAI API compatible的是谁?是Anthropic的Claude。但是呢,第三方也提供了,就是你可以通过一些第三方的这种跳转,使用OpenAI compatible的这个方式去调用Claude。所有的聚合平台,都是OpenAI API compatible,像open router、together呀,还有像这个国内的硅基流动,使用的都是OpenAI格式的API。咱们本机跑的什么Olama呀什么的,也都是使用OpenAI API compatible。
那么OpenAI的API,是完全可以通过HTTP的方式来调用的,就是你不需要任何的这种SDK到本机去部署,它就可以去调用。但是呢,这个调用的格式是由OpenAI来规定的,说我第一个参数写什么,后边怎么去写调用的这个内容,然后怎么去写这个TOKEN,这个都是由OpenAI定义好的。大家现在都照这个来的。所有的SDK的话,都是基于这套格式来编写,让编程呢可以变得更简单一些。大家都去隔手这么一套编程格式,这个事就成为了一个事实标准。大量的社区SDK也都是基于OpenAI API compatible来做的,因为OpenAI的自己的官方API,就是Python的、Javascript,可能有Java的。
其他的并没有那么全,那么怎么办?就是由社区自己去写,OpenAI也挺开心,你们写去吧。各种编程语言就都支持了,他是这样来去工作的。基于大模型的软件开发呢,基本上也都是在OpenAI的这个兼容模式下去运行的。很少有人说我写这个软件是按照Anthropic的这个格式来写的。现在呢,基于OpenAI的API这种事实标准,直接下手了。OpenAI说来我改这个东西,原来你们基于我的OpenAI API compatible去写的这些东西吧,我现在直接把原来的这个API及时升级,还有多加一些函数进去,多加一些调用的接口进去,我就等着你们跟了。加进去了以后,他就从completion API正式地升级到responses API,整个社区你就必须得跟着走,否则的话你原来的很多的系统就跑不动了。那responses API的话更适合AI agent,那大家后边去用就完了。
那么现在呢,agent SDK算是对MCP进行了釜底抽薪。Manus的爆火真正引爆的东西是MCP。现在Anthropic Claude的客户端cursor这个编程工具,Vscode里头的AI编程套件,以及Windsurf这样的编程工具,都是开始支持MCP了。现在OpenAI说不行了,越来越多的MCP服务正在被创建出来,这个标准要确立了。这个时候agent SDK就跳出来了,更简单。这个事我今天看了一下,这个确实要比MCP要简单得多。现在呢,是跟OpenAI绑死了,agent SDK是开源的,目前只有Python版本,tapescript版本正在开发中,其他的版本的话等社区慢慢搞定。当OpenAI的compatible升级完毕了,接着呢,SDK就可以干掉MCP。我相信现在各个大厂,各个MAS这些服务商,应该都在加班加点,给他们的这个SDK进行升级,去兼容OpenAI的responses API。OpenAI在AI agent的这一局里头呢,暂时算是扳回了一种。
OpenAI和Anthropic所推崇的AI agent的实现方式是什么样?肯定跟现在所流行的是不一样的。现在很多的方式,都是以流程为核心的,包括像字节的Coze,包括我比较喜欢用的Dify,都是以流程为核心。我们自己去设计流程,然后在这个流程里头,什么地方去调用大模型,什么地方去调用各种的工具,然后让它串在一起,原来是这么干的。
但是呢,Anthropic提出了一个折中方案,建议大家使用开放的方式。MCP的方式让这个大模型可以直接去跟这些工具去通讯,相当于是给模型赋能了。模型也可以自己搞定一些事情。但是你说你不需要调这个模型,自己去处理这些工具的结果也没问题。
OpenAI呢,现在说,咱们换一个方式,以模型为核心。你不要去设计流程,不要去搞这些乱七八糟东西。你通过这个agent SDK,你把所有你需要让模型去调用的这些功能都打包好,然后呢,告知大模型,说:“我有这么多的这个工具,你用吧。你就只管提出要求,由模型自己才去决定什么时候去调用哪个agent去干活。不要去设计流程,不要去手动规划流程,把这些工作都交给OpenAI的大模型。”相当于什么?把五官和手脚做一个说明文件,把这些东西一起扔给大模型,其他的事你就别管了。这是OpenAI要干的。
现在搜索、本地文件操作,都是OpenAI自己已经提供了。那么你一旦提供了这些东西以后,你习惯了,那么这个迁移成本就会变高。特别是本地文件,你把大量的这个知识库都建在OpenAI的服务器上了,你想再迁移这事费劲了。
至于CUA的话,其实是给很多的agent打了一个样本。CUA就是计算机用户操作,这个东西我已经可以通过CUA来去做很多事情了。其他的这些agent,我就可以把CUA的过程简化一下,变成一个简单的agent就拿出来了。这个是现在OpenAI给AI agent整个的行业指出的一条明路。
那么后续这个事情会如何发展呢?OpenAI应该会推出更多的agent功能。现在所推出来的东西其实还没有那么完整。现在大家看到了搜索,看到了本地文件处理,看到了计算机的这个使用。但是咱们看看他前面,有deep research,有test,就是说你告诉他每天几点几点过干什么事情。还有Oprater,Oprater的东西呢,现在已经可以依靠计算机用户使用这个代理可以实现了。deep research现在其实已经可以靠搜索和本地文件可以去实现一部分。它的test现在我们还没有实现,所以他未来的一些agent功能会慢慢地加进来一些。
再往后,社区和各大的云厂商都会将自己的OpenAI API compatible升级到responses API。我觉得一个月左右就应该都升级完了。现在我已经看到有一些社区的API已经开始升级了。
谷歌和XAI应该也会照这个方向升级。Gemini也好,Grok也好,等于他们也算搭上了AI agent的这班船。Anthropic前面做了这么多的努力,搞定的MCP的这个生态应该会崩塌掉。国内的像什么千问、火山,应该在这一两个月里头也都会升级上去。至于第三方的这些模型及服务的这些云厂商,应该在努力的追赶。很多服务会将自己通过agent SDK进行包装。
使用OpenAI API compatible的这些用户,一定是全世界所有API用户里最多的,而且可能其他所有的用户加一块都没有它多。当OpenAI API compatible占据绝对垄断地位的时候,这就是一个事实标准。当它有事实标准的时候,继续在这个基础上往前推一点点,OpenAI就可以绑架所有的社区、所有的行业跟着它一起转向。那么一旦是各个社区,比如说通义千问,他把自己的API转换成了或者升级到了responses API了,其他那些人只要是把你手头的这个服务,比如查股票、查彩票、查什么天气,把这些东西包装成agent SDK的,这个东西出来以后,我们就可以到通义千问上去用,就可以到火山去用,就可以到各个云上去用。所以这块一定是大家努力去折腾的事情。
AI这个方向现在算是发生改变了,原来是以流程为核心的,现在是以模型为核心的。OpenAI呢也算成功地捍卫了自己老大的位置。再往后模型及产品的口号又可以喊一段时间了。像dify、coze这样的平台,可能还会在一些需要强定制的市场里头继续玩耍。他们应该会加入MCP和agent SDK的支持,至少agent SDK一定会加,MCP加不加这个事不确定了。因为原来像Dify也好,coze也好,他们有一套自己的API描述语言,应该有些用的open API的一套规范挂进去的。现在的话大家就统一的使用agent SDK挂就好了,就可以搞定了。Dify现在也开始在加agent节点,它可以自动地规划一些事情了。这块儿它们应该还是有出路的。
2025年的AI agent将继续围绕模型大厂来去展开。Grok、Gemini和Claude应该算是利好。千问、火山快速迭代以后可以是利好。DeepSeek继续去做它的基础模型就好了,以后推理的事情交给这个推理系统去迭代就完了,比如说交给硅基流动去搞。至于MAS这些厂商的话可以分一杯羹。
他们呢,应该会去提供搜索和RAG服务了,不会说再把这些东西扔在外面了。你比如说像我们去阿里云、火山的方舟引擎,都是提供RAG和搜索的。他们就可以很容易的用自己的服务,把OpenAI的系统全都替换掉。而且OpenAI在做的时候,就给你留出了替换接口来,这个是没有任何问题的。
至于像Manus这样的没有底层模型,只做产品的就比较悬了。因为到最后呢,它相当于什么?就是它只提供了个UI,其他都不是他的。这个有点像以前安卓刚出来的时候,中国人干那个活,咱们做那东西叫launcher。我们只做一个皮,最后这些做皮的公司呢,除了小米最后长大了以外,他最早做的东西叫米UI嘛,其他的应该都被滚滚大潮给淘汰掉了。所以Manus可能也就是最后,再蹦跶两天也就完事了。
这就是今天的第二个故事:OpenAI在Manus的刺激下,发布了它的AI agent开发工具包的故事。