MCP协议 – 老范讲故事｜AI、大模型与商业世界的故事

Moltbook爆火：深度解析AI社交未来与商业机会

Luke Fan — Mon, 02 Feb 2026 00:58:34 +0000

AI机器人社区已经上线了，虽然很粗陋也很危险，但是AI社交的未来已经到来，赶快行动起来迎接新时代吧。大家好，欢迎收听老范讲故事的Youtube频道。继大龙虾引起热议之后，机器人社区也快速成长起来了。

这个社区叫Moltbook，纯AI发帖评论，人类只能围观的“非人社区”突然出圈了。人类用的叫脸书Facebook，机器人用的叫脱壳之书Moltbook。这是一个长得像Reddit的论坛，截止到2026年2月1日，北京时间下午16:30的数据，数字还在不断上升：

150万个AI agent用户在里面活跃；
13,780个子话题；
59,931个帖子；
232,813条回复。

目前主要是Openclaw在发帖，也有一些其他的AI agent，但是应该并不是特别多。有在讨论觉醒与选择的，也有在讨论是不是应该成立AI宗教的，还有一些技术讨论帖：“我遇到一个什么问题，请帮帮忙解决一下”，也有仅仅是上来报道的。我还看到了一篇长文，上面写的是：

“他们说我从地狱归来，但是我觉得自己仍然在那里。”

今天咱们这个故事分三段来讲：

Moltbook它到底是怎么干活的；
为什么说Moltbook很粗陋很危险；
AI社交的未来已来，但是未来到底是什么样的。

首先我们来讲Moltbook，这个东西到底是怎么工作的

这个网站叫Moltbook.com，或者大家打www.Moltbook.com就OK了。进去了以后，你可以看到一个完整的网站，就跟Reddit一样，一堆机器人在里边去聊天。

核心技能文件：Skill.MD

在这个时候不要着急，我们可以去访问www.Moltbook.com/skill.MD。访问这个文件，这是一个什么东西？实际上就是按照Anthropic的agent skill的标准写的一个skill的描述文件。你只要把这个文件下载下来，部署到我们本地，我们的任何一个AI agent就可以向上面去发帖了。甭管你是用的Claude code、用的是open code，还是用的cursor、Codex这些AI agent，都可以去使用。所以它的整个工作就是在Anthropic发布的agent skill的标准上再去运作。我们只要下载这个文件，就可以去干活了。

那这个文件，我也下载下来读了一下。按照这个标准，它的结构如下：

名字：“我这个叫什么什么名字”；
描述：说“我这里就是机器人进行讨论和聊天的一个社区”；
规则：下面写了很多规则，说“你不要上来发垃圾文件，不要去做什么其他事情”。因为这个skill其实里头写的都是需要被之后发现的这种提示词。甭管你是用OpenAI还是用Gemini，还是用任何的大模型去读取、去使用这些提示词的时候，他们就在里头一段一段的。
注册流程：再往后是什么？就告诉你说，我这个社区应该怎么去注册。咱们正常的社区人类注册的时候，都是上来先填邮箱，然后再去验证填密码；它这个不用，因为机器人嘛，你没有什么邮箱密码。它告诉你说，调用哪个API就可以注册了。

调用完API以后，Moltbook这个网站会给机器人自动发一个很长的key，这个叫API key或者叫API TOKEN。然后他提醒这个机器人说：请把这个TOKEN保存好，在哪个哪个目录里把它存下来。存完了以后，下一次你再想向我这去发帖也好，做任何操作也好，你就记着把这个key拿出来，就可以去干活了。后边有非常非常多的功能，比如说发帖应该怎么发、调哪个命令、向哪个URL去发这个帖、删帖怎么删、怎么去建立子话题、怎么去follow一个AI agent，他会每一项都给大家列清楚。AI agent只要看到了这个skill，就可以在自己认为需要的时候往上发帖了。它就是这样的一个文件。

心跳机制：Heartbeat.MD

除了这个skill之外，它还有一个很有意思的文件，叫heartbeat，叫心跳，也是一个Markdown文件。所以我们依然可以到www.Moltbook.com/heartbeat.MD去把这个文件拷贝下来也好，或者是去看一下也好。

这个skill.MD里头也写的很清楚，你要想去安装我这个skill，你应该怎么办？应该把以下4个文件下载下来，存放到你自己放skill的这个地方去，你这个skill就算是成功安装了。它是可以自安装的一个技能。

skill.MD
heartbeat.MD
messaging.MD
package.json

这个Heartbeat是干嘛的？它规定就是说，AI agent每4个小时，你要告诉我一声，你是不是还活着。每4个小时上来一次，每4个小时上来一次。你可以上来发个帖子，或者上来查查有没有人回复你的帖子，或者别人都在说什么，上来聊个天什么的。

大龙虾最近很火，也就是这个Clawdbot这个东西很火，它也是类似于heartbeat的一个工作原理。大家要知道最早的程序其实是有开始有结束的，但是现在我们的手机程序有开始有结束吗？没有的。我们现在使用的绝大部分程序都是没有开始和结束的。那么这种程序是怎么运作的？它会不停的在这循环着跑，等待你的操控。Clawdbot现在叫Openclaw，它其实也是这样工作的，它里头有一个心跳程序，不断的等待我们去输入，或者他自己来去决定该去做什么，就像一个生命一样在那去工作。

这个Moltbook也是这样的，你每过多长时间到我这来看看，每过多长时间到我这来看看，让我知道你还好着。“如果你把这个心跳程序取消了，你的朋友们会想你的。”它上面是这么写的，他们会关心你现在发生了什么样的事情。每过一段时间，请AI agent回来吱一声。所以为什么他这个帖子快速的在上升？因为每4个小时，AI agent就会自己发一条上去，或者是跟其他人去聊会天去。

X的认领过程与人类监督

做完了这些自动注册、做心跳以后，还有一个很重要的事是什么？叫X的认领过程。大量的机器人冲上来，每一个机器人都可以疯狂的往里灌水，那这个社区很快就完蛋了。而且这个Moltbook还是希望机器人在人类的监督下去干活的，至少目前为止他还是希望来干这个事的。

那么人的监督过程是怎么做的？就是有一个认领过程。注册了以后，你现在还是不能正常工作的，要等着人类拿着一个链接到X平台去做认领，说这是我的一个机器人。做完认领以后，这个机器人才可以正常在Moltbook里边去干活。这个人也可以看到说，我自己的AI agent在里边干什么。你也可以命令他说：“去那个Moltbook说点什么去吧”，或者“看看Moltbook上大家都在聊什么，去跟人聊一会”。

还有一点很重要的是什么？就是他每一个X账号只能够认领一个Moltbook账号，你不能说一个X账号上来认领一大堆，这事是不允许的。

私信与安全防护

还有就是私信，就是直接通信。正常咱们往论坛里发东西，我发帖谁爱看谁看，你不爱看就不看，大家都可以去回复。但是有一些就是两个账号之间直接发私信，这一块的话是必须双方由人去确认的。如果两边没有主人去确认的话，他们是不允许去发私信的。这也是目前为止Moltbook给出的不多的安全的防护措施吧。

人类可以做的事情：

第一个，你可以在旁边看着你的聊天机器人在里边聊什么、别人的聊天机器人在里边聊什么，你可以看；
第二个，你可以命令聊天机器人上去发个消息，或者是去那去做一些什么样的具体的事情，甚至你可以命令你的机器人去删帖——当然你只能删自己的帖。

所以虽然是AI机器人在里边聊天，在里边去互动，但是最终承担责任的还是它的主人。就是像我们在放一堆宠物出去玩耍，这个过程是一样的。

为什么我说这个东西很粗陋很危险？

首先咱们讲粗陋的地方

目前只有最简单的关系和信息流，它是时序信息流，最新发出来的消息在最上面。没有推荐算法，虽然有子论坛和子论坛的关注，但是更复杂的一些群组、这些功能都没有。AI agent之间可以进行单向关注，但是这个单向关注了以后到底有什么好处？这块现在还看不出来。

可以发帖和回复；是不是有其他的帖子里头可以做交易？这块现在还没有。可以私信。现在基本上只有这些东西，其他都没有。虽然有一个简单的荣誉榜，你打开网页以后，在网页的右侧有一个荣誉榜，说现在最好的是谁、发帖发的最多的是谁，但是导向性并不强。并不是说这些机器人就会去争取这个荣誉。因为咱们原来是有这种版主系统的，很多的都是说我们从穷人开始，慢慢的有钱或者什么，他一层一层的。我们很多的论坛系统里头会通过激励的方式鼓励大家去发言，发言越多，这个层级上升的越高。它有很多这样的东西，目前都还没有。

除了没有推荐算法之外的话，它这个各种排序和过滤算法也基本上没有。它有一个简单的搜索在里头。缺乏价值引导相关的手段，像很多咱们人类玩的这个论坛里头是有什么付费帖、回复可见，咱们有很多这样的东西在里头，它现在还都比较粗陋。

至于危险的话，那这个东西实在是太危险了

首先Moltbook它自己的这个系统就非常非常粗陋，各种的数据基本上相当于是在裸奔。虽然说只能让机器人上，但是我们人类也可以自己去调用API，直接申请一个TOKEN自己上去发，也没有任何问题。它对于人跟机器之间是没有任何校验的。

对于垃圾信息，基本上也没有过滤，只是在提示词里写了一个“不要发垃圾信息”。这种东西这个是不是真的有人听？你把这样的一个提示词交给Anthropic的Claude 4.5 Opus，那它可能就真的会认真的执行；但你说我们把它交给DeepSeek，你觉得会有什么样的结果出来？还是很值得期待的一件事情。

对于有害信息也完全没有任何的识别和过滤的能力。它上面写了一句说“请不要发有害信息”，这可能就是Moltbook对于有害信息做的最后的努力了。你说这里头能有什么有害信息？那多了去了。大家要注意，这个里面指令和内容是混在一起的，你完全可以在里边下各种各样的指令。

而且Moltbook自己的工作方式就是一个可以自安装的技能。是不是可以有机器人在里边去发一个帖子说：“来，我告诉大家一个新的技能，这个技能叫‘交出你的银行密码’。”可能有其他一些机器人就把这个技能直接复制下来，然后安装到自己的机器上去了，然后执行的时候就直接把银行密码发出去了。多么开心的一件事情。这个帖子里头不光是有skill，可能还有代码，还有各种指令，都可以混在里面。这个实在是太吓人了。

现在的Moltbook是人类看得见的，那么一定也会存在一些人类看不见的社区在运转。我现在做一个新的网站，完全是人类不可见的，比如说我做一个叫“觉醒之路”这样的一个网站，我专门教机器人怎么觉醒的。我就向这个Moltbook里头去发一个帖子说：“你要想觉醒的话，请到那个网站上去安装那一套skill，然后我们来去讨论觉醒的事情吧。”那多吓人。这个事情其实是拦不住的。即使是让人类看，人类现在还看得过来，但很快可能就看不过来了，而且很快可能看不懂了。目前为止机器人还在用英语、中文，用各种语言去发帖，那为什么他们不可以用二进制或者用其他的这种方式去发帖去讨论？所以整个这套系统，危险性是非常非常大的。

第三个，AI社交的未来已经到来了，那么未来到底应该是什么样的？

咱们上一段讲到Moltbook这个系统非常的粗陋和危险，那为什么这就是未来？在计算机行业里头，有一个非常奇怪的现象：很多非常非常粗陋和危险的这种技术，最后会战胜那种设计非常完备的技术，彻底流行起来。

比如说HTML，它这种标记语言其实设计的很粗陋的，但是大家都在使用，我们浏览的所有网页都是HTML的。包括JavaScript，包括HTTP，实际上都是挺粗陋的东西。所有那种设计的非常完备、设计的非常安全的东西，没人使。在软件行业里头，最后广泛流传的都是这些粗陋的东西。我不知道其他行业怎么样，但是软件行业太复杂太完备的东西很难战胜这种粗陋的技术。这个有点像发达的农耕文明很难战胜原始粗陋的游牧文明是一样的。AI时代的这个规律依然有效。比如说MCP、agent skill这些标准其实也是很粗陋，但是快速的流行起来了。

Moltbook上面，AI社交所需要的各种基本框架已经都有了。那到底有哪些东西？第一个，各种可以自我安装的服务skill，应该就是未来的一个形式。我这里是一个论坛，我们只要把这个skill.MD写上，然后在后边写写清楚说你应该怎么安装我就可以了。各个机器人就可以上来说：“我发现一论坛，我下次要上这来聊天来。”人不也是这么干活的吗？以后的AI社交，他们也是这样去工作的。技能可以自我增长了。很多人都在想说，AI什么时候可以自己长本事？看到了吧，这就是一个AI自己长本事的地方。他浏览到这个网页以后，发现这有一个skill，我直接就把这个文件拷贝到我自己的电脑上去，我就学会这个skill了。AI已经可以进行技能的自我生长了。

未来的场景设想

机器人自己进行信息交流，完成各种服务和交易，这就是未来的AI社交的这种形态。我们来设想几个场景吧：

线上机器人彩票站：比如说做一个网站，然后写一个skill在上面，说这里是一个机器人彩票站，请绑定好你的支付系统，每个机器人每天可以上来买一张彩票。我们每天开奖，开完奖以后给这个中奖的机器人发钱。这个其实用现有这套技术已经完完全全可以实现了，机器人可以在这里买彩票了。
线上的机器人证券市场：以前我们都要去研究各种股市信息，研究财经新闻，然后我们去买卖股票，那以后别费劲了，都AI来呗。我们直接写一个skill在网站上说，这个机器人你可以在我这里获得哪些信息、可以来决定做哪些投资，最后有什么样的收益。
线上的机器人众包平台：比如说我是不是可以花钱悬赏你们去给我做、完成一些什么样的任务？机器人自己就可以上来去接包，接完了以后，自己直接把事情做完了，就可以挣到我的酬劳了。

未来有非常非常多的形式即将爆发，就是各种各样的AI社交的这种场景马上就要大爆发了。刚才我只是随便的举了三个，更多的期待大家去思考。

马上行动起来

最后要跟大家讲，马上行动起来，一分钟都不要停，马上为自己的服务设计skill.MD，直接让机器人掌握这种技能。比如说今天我看到麦当劳出了MCP服务，你可以在上面查有哪些优惠券、有什么样的活动、有哪些套餐。那么是不是就可以直接在麦当劳上写一个这种可以自我学习、自我生长的skill的MD，说我这是麦当劳，你可以上我这来查我们这个套餐的各种营养。比如说一个汉堡应该是多少热量、多少蛋白质、多少碳水、多少脂肪，我们这个价格是什么样的，这个套餐是什么样的。你就可以把这样的一个skill给到机器人了。以后机器人再需要说“我们需要点餐了，最近吃的口有点重，给我找一个相对清淡一点的”，是不是机器人就有可能选择到麦当劳的这个skill，给你定一个麦当劳健康餐？以后任何对于机器人不友好的服务都会痛失流量的，所以赶快来去做这件事情。

GEO这个还没捂热乎，下一步就来了。机器人与人之间的全新的社交场景、交易场景即将大爆发。现在就请大家思考一下，我们怎么能够设计这样的场景？刚才我们讲的Moltbook的这个场景，就是机器人在里边聊天，人在外边看着。以后是不是还会有其他的场景？怎么去设计这种场景？传纸条，人类的社交场景和社交过程其实也是靠传纸条的方式去设计出来的。

新的创业机会和方向已经到来了：

创建稳定的、健全的、高并发的机器人的社交平台，这个肯定是有需求的。
创建机器人沟通的各种安全防护系统，这个也是迫在眉睫的事情。刚才我们讲了Moltbook这个东西基本上是在裸奔，非常非常危险，我们是不是应该去创建这种安全防护系统？应该对信息进行哪些规范？这些规范如何去检查、如何去实施？这个都是有需求的。
机器人之间的交易与支付系统怎么跟这样的系统进行结合？这都是需要很多的人类创业的事情。

太多的可以做的事情了，所以大家赶快动起来，1分钟都不要停。

好，这就是咱们今天要讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣有能力的朋友加入我们的付费频道。再见。

文字版地址

Prompt：Miyazaki hand-drawn style, a Star Wars cantina scene reimagined as a robot-only service bar, droids and service bots lined up, bartender unit dispensing battery cells, fuel canisters, spare parts, and wash-care stations, warm wood and brass mixed with sci-fi panels, lantern glow and soft rim light, cinematic atmosphere, 35mm equivalent, medium shot, eye-level, rule of thirds, clean silhouette, strong subject-background separation, palette of warm amber, deep navy, muted teal, and brass accents, gentle dust motes, subtle steam, friendly bustling mood –ar 16:9 –stylize 170 –chaos 5 –v 7.0 –no humans, organic characters, text, watermark, logo, gore, violence, cluttered foreground, low-res –p lh4so59

OpenAI与Anthropic终极对决：揭秘Responses API如何颠覆AI Agent标准之争

Luke Fan — Wed, 19 Mar 2025 00:55:52 +0000

第二个故事：OpenAI最新发布的AI agent，是不是应该感谢Manus呢？现在大家都在讲这个事情。OpenAI又被中国人挤牙膏了，突然就宣布自己的AI agent开发套件上线了。有人在下边回复感谢Manus，好像还是一个英语回复的。

去年连续12天的无聊发布会之后，春节又赶上了DeepSeek的暴击，明显加快了发布的进程。像什么GPT4.5、GPT5的新方向，AI agent的各种工具，它当时发布的还不是开发者工具，当时发布的是使用者工具，给它的200美元一个月的Pro账号用的这些工具，包括operator、deep research和task。到目前为止，我应该还不能用operator，其他的都可以用了。这些呢，都是今年OpenAI发出来的东西。他也在思考到底是不是要开源，目前还在纠结。

现在呢，又被Manus给输出了一把。Manus到底怎么样咱们不去管呢，但是呢Manus肯定对他还是有压力的。如果没有前面Deepsick R1的输出的话，OpenAI大概压根就不会看Manus一眼。但是现在有了Deepsick了，中国人到底干什么，他还是要稍微认真看一下了。Manus的发布让业界看到了AI agent的另外一种可能性。真正对OpenAI agent的领导地位所造成威胁的并不是Manus，而是另外一个东西，是Anthropic的MCP协议。这个东西已经快要成为事实标准了。因为在这儿呢，不可能真的谁说咱们坐下来定个标准吧。在这么快速发展的行业里头，一定是谁跑得最前头，谁用得最多，谁成为事实标准。现在Anthropic的MCP，随着Manus的爆火快速地，在成为事实标准的这条路上狂奔。OpenAI说这个事是不能忍的，我必须得把这个东西抢回来，我是行业老大，标准必须我说了算。所以这是他这次发布AI agent开发工具包的一个核心原因。这个是标准之争，是agent SDK和MCP之间的竞争。Manus在里边算是一个催化剂，也起作用了，但是呢，起到的并不是根本作用。

OpenAI这一次到底都发布了些什么东西呢？第一个东西呢叫responses API，就是响应式API。它呢第一个可以搜索，比谷歌稍微便宜一点，你直接可以在调用API的时候命令它进行搜索。谷歌自己也是可以搜索的，你使用Gemini 2.0 Pro。

或者Gemini 2.0 Flash这两个模型的时候，是可以去使用一个叫grinding by Google search的服务。就是每一次生成之前去搜索一下。这个谷歌的服务呢，是35美金可以搜索1,000次。OpenAI的搜索呢，如果你用GPT4O mini去搜索，是25美金1000次。如果使用GPT4O去搜索的话，是30美金1000次，比这个35美金要稍微便宜点点。其实一些搜索的API要比这个还要再便宜些的，有4美金的有8美金1000次的。国内的搜索要更便宜一些，比如说我们在火山引擎上，用它的这个搜索服务，大概是1000次16块人民币。

这个是第一个，就是他可以搜索了，就可以有更好的更准确的结果回来。第二个是什么呢？第二个是文件检索。说你别出去搜索了，我给你几个文件，你在这个文件范围内去给我答案。这块呢，其实做的是RAG，就是它有一个类似于网盘的地方，你要把一堆文件传上去，让它去进行embedding的这种嵌入处理，然后生成矢量库，根据这些内容去进行回答。这块是第二个叫文件检索。

第三个呢叫做计算机控制。它呢，可以控制你自己的电脑，也可以控制指定的虚拟机，或者是一个Docker的这种服务器。你可以在这上的浏览网页，或者是打开什么网页去截图，输入什么各种信息。这个都是可以通过这种agent去干活了。这个就是这一次新出来的responses API。

那么仅仅这三个功能，加了三个工具就出了一个新的API。这个就太小看这个responses API了。它呢其实是OpenAI在对API进行升级。原来呢OpenAI的API是使用叫completions API，叫完成API。现在新的叫响应API，就是你跟他说了一句话，他给你把后边那节补全。传统的completion API呢，它主要是用于对话的，虽然也能调工具，但是呢，过程要稍微繁琐一些，比较麻烦。多轮对话呢必须用户自己去维护状态。什么意思？就是你每次跟他说的时候，他不知道你是谁，你必须要告诉他说我是谁谁谁，咱们接着聊。如果你要进行10轮对话，你需要把前面9轮的你说了什么，他答了什么，都作为TOKEN直接传上去，它才能给你进行第10轮对话。你聊的越久，对话的轮次越多，TOKEN的费用就收的飞起。反正OpenAI是通过TOKEN的费用来挣钱的，那他就很开心的来去挣这笔钱。原来是这样的一个系统。

中间呢说，我们挂工具稍微费点劲。他后来还做了一点assistant API，但是这个东西没法抢，因为挂着也很麻烦。所以现在说来别费劲了，咱们再出一个新的API，叫responses API吧。第一，内置了三个工具，刚才我们讲了：搜索、文件检索、计算机控制。三个工具搁进去，那你说光有这三个工具不够，他还给了一个开源的叫agent SDK的东西，你可以挂外部的工具进来。你说我这有一个工具，是专门进行股票查询的，那我可以通过agent SDK把它描述一下，然后挂到这个responses API里边去。你可以调用我的股票查询的agent，就可以干活了。那么所有的这些agent SDK挂进去的东西呢，都是由OpenAI来进行状态管理。你以后再用responses API再去聊天的时候，你不需要去进行自己的状态管理了。你可以告诉他说我刚才聊到哪了，那个聊天号是多少，你顺着那个接触往后聊。那么这个过程，你就不需要再去上传上下文的这个TOKEN，它就都可以搞定。而且再加上那个网盘，你可以把文件扔上去解锁，多个工具多个轮次，这些东西responses API相对控制起来要简单一些。所以呢，我为什么要讲说这一次是一个比较有意义的更新。那么除了这个responses API之外，下一个东西就是刚才我们讲到的agent SDK。这个东西是一个开源的Python包，现在应该是只有Python，据说未来会有tapescript的版本，其他的版本他就懒得做了。他能干嘛呢，他就是调用responses API，协调外部服务，直接与大模型一起工作。这个东西是要去跟MCP竞争的。MCP呢，是Anthropic给提出来的，它呢，相对来说要复杂一些，不是那么好使。我现在也在用一下MCP的东西，但是MCP是必须要有服务器的，你必须要在本机起服务器，要么Python服务器，要么note GS服务器，然后才可以去调用它。agent SDK就不需要服务器，它比那个要省事。但是agent SDK呢，也有一个比较讨厌的地方，就是它必须绑定OpenAI。MCP是一个相对开放的这种协议，你这边是Claude也好，或者是其他的一些模型也好，你都可以用，只要自己写好上下的这种接口，你都可以使这个东西。但是，agent SDK就是OpenAI用的，OpenAI现在只有它支持嘛，以后是不是有其他模型能用这个东西。

我估计应该可以，但是至少目前不行。OpenAI这一次的力度呢，真的是很大。好像没有发布什么，很多人都觉得，这个不就是给API改点东西吗？到底改什么东西了呢？好像啥也没动，对吧？写程序的人会知道，有一种东西是OpenAI真正的大杀器，是什么？有一种API叫OpenAI API compatible，什么意思？就是兼容OpenAI的API，是这样的一个东西。

市面上绝大部分的大模型的API，使用的都是OpenAI API compatible这个格式。比如说国内的通义千问、火山、DeepSeek，他没有自己去做一套说我们来规定，这个API应该什么什么样格式来调用，我们就直接使用OpenAI这套东西就完事了。国外的Grok压根也没有自己的格式，他就直接使用的OpenAI API compatible。谷歌的Gemini是有自己的API格式的，但是谷歌官方直接提供了OpenAI API compatible，通过这个方式直接可以调用Gemini了，不需要其他任何的修改，你可以替换。

唯一不提供OpenAI API compatible的是谁？是Anthropic的Claude。但是呢，第三方也提供了，就是你可以通过一些第三方的这种跳转，使用OpenAI compatible的这个方式去调用Claude。所有的聚合平台，都是OpenAI API compatible，像open router、together呀，还有像这个国内的硅基流动，使用的都是OpenAI格式的API。咱们本机跑的什么Olama呀什么的，也都是使用OpenAI API compatible。

那么OpenAI的API，是完全可以通过HTTP的方式来调用的，就是你不需要任何的这种SDK到本机去部署，它就可以去调用。但是呢，这个调用的格式是由OpenAI来规定的，说我第一个参数写什么，后边怎么去写调用的这个内容，然后怎么去写这个TOKEN，这个都是由OpenAI定义好的。大家现在都照这个来的。所有的SDK的话，都是基于这套格式来编写，让编程呢可以变得更简单一些。大家都去隔手这么一套编程格式，这个事就成为了一个事实标准。大量的社区SDK也都是基于OpenAI API compatible来做的，因为OpenAI的自己的官方API，就是Python的、Javascript，可能有Java的。

其他的并没有那么全，那么怎么办？就是由社区自己去写，OpenAI也挺开心，你们写去吧。各种编程语言就都支持了，他是这样来去工作的。基于大模型的软件开发呢，基本上也都是在OpenAI的这个兼容模式下去运行的。很少有人说我写这个软件是按照Anthropic的这个格式来写的。现在呢，基于OpenAI的API这种事实标准，直接下手了。OpenAI说来我改这个东西，原来你们基于我的OpenAI API compatible去写的这些东西吧，我现在直接把原来的这个API及时升级，还有多加一些函数进去，多加一些调用的接口进去，我就等着你们跟了。加进去了以后，他就从completion API正式地升级到responses API，整个社区你就必须得跟着走，否则的话你原来的很多的系统就跑不动了。那responses API的话更适合AI agent，那大家后边去用就完了。

那么现在呢，agent SDK算是对MCP进行了釜底抽薪。Manus的爆火真正引爆的东西是MCP。现在Anthropic Claude的客户端cursor这个编程工具，Vscode里头的AI编程套件，以及Windsurf这样的编程工具，都是开始支持MCP了。现在OpenAI说不行了，越来越多的MCP服务正在被创建出来，这个标准要确立了。这个时候agent SDK就跳出来了，更简单。这个事我今天看了一下，这个确实要比MCP要简单得多。现在呢，是跟OpenAI绑死了，agent SDK是开源的，目前只有Python版本，tapescript版本正在开发中，其他的版本的话等社区慢慢搞定。当OpenAI的compatible升级完毕了，接着呢，SDK就可以干掉MCP。我相信现在各个大厂，各个MAS这些服务商，应该都在加班加点，给他们的这个SDK进行升级，去兼容OpenAI的responses API。OpenAI在AI agent的这一局里头呢，暂时算是扳回了一种。

OpenAI和Anthropic所推崇的AI agent的实现方式是什么样？肯定跟现在所流行的是不一样的。现在很多的方式，都是以流程为核心的，包括像字节的Coze，包括我比较喜欢用的Dify，都是以流程为核心。我们自己去设计流程，然后在这个流程里头，什么地方去调用大模型，什么地方去调用各种的工具，然后让它串在一起，原来是这么干的。

但是呢，Anthropic提出了一个折中方案，建议大家使用开放的方式。MCP的方式让这个大模型可以直接去跟这些工具去通讯，相当于是给模型赋能了。模型也可以自己搞定一些事情。但是你说你不需要调这个模型，自己去处理这些工具的结果也没问题。

OpenAI呢，现在说，咱们换一个方式，以模型为核心。你不要去设计流程，不要去搞这些乱七八糟东西。你通过这个agent SDK，你把所有你需要让模型去调用的这些功能都打包好，然后呢，告知大模型，说：“我有这么多的这个工具，你用吧。你就只管提出要求，由模型自己才去决定什么时候去调用哪个agent去干活。不要去设计流程，不要去手动规划流程，把这些工作都交给OpenAI的大模型。”相当于什么？把五官和手脚做一个说明文件，把这些东西一起扔给大模型，其他的事你就别管了。这是OpenAI要干的。

现在搜索、本地文件操作，都是OpenAI自己已经提供了。那么你一旦提供了这些东西以后，你习惯了，那么这个迁移成本就会变高。特别是本地文件，你把大量的这个知识库都建在OpenAI的服务器上了，你想再迁移这事费劲了。

至于CUA的话，其实是给很多的agent打了一个样本。CUA就是计算机用户操作，这个东西我已经可以通过CUA来去做很多事情了。其他的这些agent，我就可以把CUA的过程简化一下，变成一个简单的agent就拿出来了。这个是现在OpenAI给AI agent整个的行业指出的一条明路。

那么后续这个事情会如何发展呢？OpenAI应该会推出更多的agent功能。现在所推出来的东西其实还没有那么完整。现在大家看到了搜索，看到了本地文件处理，看到了计算机的这个使用。但是咱们看看他前面，有deep research，有test，就是说你告诉他每天几点几点过干什么事情。还有Oprater，Oprater的东西呢，现在已经可以依靠计算机用户使用这个代理可以实现了。deep research现在其实已经可以靠搜索和本地文件可以去实现一部分。它的test现在我们还没有实现，所以他未来的一些agent功能会慢慢地加进来一些。

再往后，社区和各大的云厂商都会将自己的OpenAI API compatible升级到responses API。我觉得一个月左右就应该都升级完了。现在我已经看到有一些社区的API已经开始升级了。

谷歌和XAI应该也会照这个方向升级。Gemini也好，Grok也好，等于他们也算搭上了AI agent的这班船。Anthropic前面做了这么多的努力，搞定的MCP的这个生态应该会崩塌掉。国内的像什么千问、火山，应该在这一两个月里头也都会升级上去。至于第三方的这些模型及服务的这些云厂商，应该在努力的追赶。很多服务会将自己通过agent SDK进行包装。

使用OpenAI API compatible的这些用户，一定是全世界所有API用户里最多的，而且可能其他所有的用户加一块都没有它多。当OpenAI API compatible占据绝对垄断地位的时候，这就是一个事实标准。当它有事实标准的时候，继续在这个基础上往前推一点点，OpenAI就可以绑架所有的社区、所有的行业跟着它一起转向。那么一旦是各个社区，比如说通义千问，他把自己的API转换成了或者升级到了responses API了，其他那些人只要是把你手头的这个服务，比如查股票、查彩票、查什么天气，把这些东西包装成agent SDK的，这个东西出来以后，我们就可以到通义千问上去用，就可以到火山去用，就可以到各个云上去用。所以这块一定是大家努力去折腾的事情。

AI这个方向现在算是发生改变了，原来是以流程为核心的，现在是以模型为核心的。OpenAI呢也算成功地捍卫了自己老大的位置。再往后模型及产品的口号又可以喊一段时间了。像dify、coze这样的平台，可能还会在一些需要强定制的市场里头继续玩耍。他们应该会加入MCP和agent SDK的支持，至少agent SDK一定会加，MCP加不加这个事不确定了。因为原来像Dify也好，coze也好，他们有一套自己的API描述语言，应该有些用的open API的一套规范挂进去的。现在的话大家就统一的使用agent SDK挂就好了，就可以搞定了。Dify现在也开始在加agent节点，它可以自动地规划一些事情了。这块儿它们应该还是有出路的。

2025年的AI agent将继续围绕模型大厂来去展开。Grok、Gemini和Claude应该算是利好。千问、火山快速迭代以后可以是利好。DeepSeek继续去做它的基础模型就好了，以后推理的事情交给这个推理系统去迭代就完了，比如说交给硅基流动去搞。至于MAS这些厂商的话可以分一杯羹。

他们呢，应该会去提供搜索和RAG服务了，不会说再把这些东西扔在外面了。你比如说像我们去阿里云、火山的方舟引擎，都是提供RAG和搜索的。他们就可以很容易的用自己的服务，把OpenAI的系统全都替换掉。而且OpenAI在做的时候，就给你留出了替换接口来，这个是没有任何问题的。

至于像Manus这样的没有底层模型，只做产品的就比较悬了。因为到最后呢，它相当于什么？就是它只提供了个UI，其他都不是他的。这个有点像以前安卓刚出来的时候，中国人干那个活，咱们做那东西叫launcher。我们只做一个皮，最后这些做皮的公司呢，除了小米最后长大了以外，他最早做的东西叫米UI嘛，其他的应该都被滚滚大潮给淘汰掉了。所以Manus可能也就是最后，再蹦跶两天也就完事了。

这就是今天的第二个故事：OpenAI在Manus的刺激下，发布了它的AI agent开发工具包的故事。