<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>网页自动化 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%e7%bd%91%e9%a1%b5%e8%87%aa%e5%8a%a8%e5%8c%96/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Fri, 24 Oct 2025 00:47:20 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=7.0</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>网页自动化 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>OpenAI ChatGPT Atlas，为AI浏览器指明方向。谷歌股价应声下跌5%，Chrome霸权终结？｜OpenAI Atlas、Agent Mode、AI Browser</title>
		<link>https://lukefan.com/2025/10/24/openai-atlas-ai-browser-memory-agent-modes/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Fri, 24 Oct 2025 00:47:18 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[Agent模式]]></category>
		<category><![CDATA[AI Agent]]></category>
		<category><![CDATA[AI工作流]]></category>
		<category><![CDATA[AI浏览器]]></category>
		<category><![CDATA[Atlas使用教程]]></category>
		<category><![CDATA[ChatGPT]]></category>
		<category><![CDATA[Cloudflare自动化]]></category>
		<category><![CDATA[GPT-4o浏览器]]></category>
		<category><![CDATA[Mac M芯片]]></category>
		<category><![CDATA[OpenAI]]></category>
		<category><![CDATA[OpenAI Atlas]]></category>
		<category><![CDATA[个性化浏览]]></category>
		<category><![CDATA[任务自动化]]></category>
		<category><![CDATA[复杂后台操作]]></category>
		<category><![CDATA[搜索新体验]]></category>
		<category><![CDATA[智能浏览器]]></category>
		<category><![CDATA[浏览器插件限制]]></category>
		<category><![CDATA[浏览器新方向]]></category>
		<category><![CDATA[浏览器记忆]]></category>
		<category><![CDATA[浏览器评测]]></category>
		<category><![CDATA[用户数据]]></category>
		<category><![CDATA[网页自动化]]></category>
		<category><![CDATA[谷歌Chrome]]></category>
		<category><![CDATA[隐私安全]]></category>
		<category><![CDATA[默认浏览器]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=2743</guid>

					<description><![CDATA[💥救命！OpenAI这新浏览器把爷心态干崩了！谷歌Gemini连夜改PPT跌5%股票😭

家人们！OpenAI搞了个「ChatGPT Atlas」，直接给AI浏览器立规矩了！Mac老铁速冲——M1/M2芯片专属，Win党哭晕厕所🙈 它凭啥封神？🤯

✨ **Agent模式骚操作炸裂！**
银行菜单找不到？云后台像迷宫？爷直接甩手给它：「自己点去！」看着它丝滑填表、点按钮💻，连Cloudflare「管道功能」秒搞定！再也不用对着中文菜单对照英文攻略了，产品经理狂怒！🔥（但画火影血轮眼歪到离谱…细节党哭死😭）

🌪️ **记忆功能又爱又怕！**
刷小红书2小时被精准记录？浏览历史连草榴都敢扒？后背发凉但真香！昨天看的文章手一抖就找回，打工人泪目：再也不用翻30个标签页找PPT了…⚠️社死警告：下次让写周报，小心它把深夜刷的「恋爱脑语录」塞进去😂

🌟 **最绝哲学暴击：浏览器要留白！**
豆包夸克堆满按钮像菜市场？谷歌保守如老古董？Atlas直接搬出《道德经》：「有之以为利，无之以为用！」空白区域才是王道，简洁优雅到像给浏览器做了医美💉

👉 **Mac车主听我求：立刻设默认浏览器！送7天会员爽翻！**
免费？不存在的！下周你肯定跪着交20刀…但爷已经戒掉Chrome了：性能稳如狗🐶，就是插件失踪、1Password登录哭晕（别问，问就是心碎💔）

🔥 **不说人谎：这破功能=给未来产品经理判死刑！**
以后再搞「不说人话」的后台？Atlas直接替你扫雷！新商业模式更吓人：它知道你爱刷小红书，购物车推荐必精准收割钱包💸

现在不冲？等谷歌缓过劲儿再截胡？M1/M2老铁闭眼下载！Win党…等大爷我心疼你😭
👇**评论区喊出你最想让它干的骚事！** 我赌1毛你被测出「深夜刷情侣头像」🤣
（P.S. 别TM点不开就怪我…只有Mac能香！）

#AI黑科技 #救命神器 #打工人的命也是命 💯

标题1：谷歌股价应声下跌5%，Chrome霸权终结？OpenAI用记忆与Agent模式重新定义浏览器，老用户面临艰难选择｜OpenAI Atlas、Agent Mode、AI Browser、Browser Memory
标题2：银行后台、云平台配置太复杂？别再手动死磕了，亲测这招让它自动完成90%的繁琐操作，效率飙升｜OpenAI Atlas、Agent Mode、AI Browser、Task Automation
标题3：看似智能，实则后脊梁发凉：它记得你刷过的一切，连小红书关注谁都一清二楚，隐私与效率的博弈开始了｜OpenAI Atlas、Browser Memory、Privacy Controls、User Data Training
标题4：行业风向标已定：OpenAI正用“Nexus手机”的思路打样，揭示未来AI浏览器的三大核心与两大商业陷阱｜OpenAI Atlas、Agent Mode、AI Browser、OpenAI、ChatGPT
标题5：先别急着换！实测一周后发现它虽强，但两大硬伤（无插件、仅限Mac）劝退重度用户，选择前必看｜OpenAI Atlas、AI Browser、Google Chrome、macOS、Release Notes
简介：OpenAI Atlas 横空出世，正以“行业标杆”的姿态挑战传统浏览器。本文深度解析其两大核心功能：革命性的 Agent Mode 如何自动完成银行后台等复杂任务，以及备受争议的 Browser Memory 如何在提供极致个性化的同时引发隐私担忧。这款全新的 AI Browser 不仅让谷歌感受到了巨大压力，其创新的记忆与自动化模式也预示着新的商业模式雏形，为整个行业指明了方向。
]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="ChatGPT Atlas 看似智能，实则后脊梁发凉：它记得你刷过的一切，连小红书关注谁都一清二楚，隐私与效率的博弈开始了｜OpenAI Atlas、Browser Memory" width="900" height="506" src="https://www.youtube.com/embed/SuPAk7mi_kU?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p class="wp-block-paragraph">OpenAI的ChatGPT Atlas，又为行业指明了什么新方向呢？</p>



<p class="wp-block-paragraph">大家好，欢迎收听<a href="https://youtube.com/@StoryTellerFan" target="_blank" rel="noopener">老范讲故事的YouTube频道</a>。</p>



<p class="wp-block-paragraph">这是AI浏览器真正的王者吗？又一次成功地截胡了谷歌。因为谷歌原来这个礼拜，据说要发Gemini 3的，把AI Studio网站都改了，结果他整了这么一出戏，据说谷歌的Gemini 3又往后推了。</p>



<p class="wp-block-paragraph">AI浏览器未来到底是什么样的方向？很多厂商呢，实际上都在努力地折腾AI浏览器。比如说像谷歌的Chrome，里面就有了Gemini，只是只能在美区使用，我在非美区还没有体验过这个东西，好像也没有什么特别的功能。Perplexity他们做了一个叫Comet的一个浏览器，据说是专业性很强，用它做各种搜索和分析，效果非常好。还有一个公司呢，叫做浏览器公司（The Browser Company），他们呢一开始做了一个产品叫ARC，后来呢又做了一个叫DAI还是DIA的一个产品。总之就是做了两款这种全新的AI浏览器，极大地改变了大家对于浏览器的使用习惯。我试过其中的ARC，但是没有感觉怎么喜欢，就放弃了。</p>



<p class="wp-block-paragraph">国内的话，像360、纳米搜索呀、夸克呀，还有字节的豆包，实际上都是AI浏览器，大家都在往这一个方向去努力。</p>



<span id="more-2743"></span>



<p class="wp-block-paragraph">OpenAI的ChatGPT Atlas终于王者登场了。这个产品呢，有点像谷歌最早期发布的Nexus手机一样。Nexus手机其实当时发出来以后，卖得并不是很好，但是谷歌的意思就是：我打个样，你们看看手机应该咋做，不要给我做出这种神头鬼脸的东西出来，都照我这模样来。有点这样的感觉。</p>



<p class="wp-block-paragraph">OpenAI的ChatGPT Atlas的安装和使用过程是什么样的呢？咱们先简单介绍一下。</p>



<p class="wp-block-paragraph">首先，只有Mac版，而且必须是M系列芯片。你说我是英特尔芯片的老Mac行不行？装不了，必须是M系列芯片的Mac才可以装。其他的版本据说是要等一等。OpenAI自己给出的解释就是，Mac电脑的一致性是比较强的，不像Windows电脑似的，各种的CPU、显卡，各种配置都很复杂。第二个呢就是安全性，因为你到Windows电脑里头，它没有很好的沙箱保护，而且很多人喜欢在里边去做各种各样的测试，或者是各种破解，安全性是不太容易保证的。还有呢就是算力，M系列的CPU呢，它的算力还是有保障的。基于这三个原因吧，那现在第一个版本只有Mac版。</p>



<p class="wp-block-paragraph">它安装以后呢，可以导入Chrome或者是Safari的数据，你原来的收藏夹呀、登录的密码通通都可以导进来。如果你把它设置成默认浏览器呢，可以送7天会员。我相信这几天OpenAI的订阅数应该在暴涨，因为这个产品做得还可以。</p>



<p class="wp-block-paragraph">它整体呢，长得跟Chrome其实差不太多，因为底层是Chrome。基本的配置呢，其实是现在绝大部分的AI浏览器的一个底层配置。新建的所有窗口都是聊天窗口，在这一点上呢，跟豆包、夸克很像，360我没使过不知道。但你像Chrome，现在新建的窗口依然是一个浏览器窗口，而现在标准的AI浏览器的话，新建窗口都是聊天窗口。</p>



<p class="wp-block-paragraph">我们正常用浏览器打开<a href="http://chatgpt.com/" target="_blank" rel="noopener">ChatGPT.com</a>这个网站的时候，会有一个侧边栏，里头是你的聊天记录。现在呢，这东西不见了。浏览器的工具栏最左上方有一个按钮，长得像侧边栏一个按钮，你一点，这个侧边栏就出来了，你可以看到以前的聊天记录。没有一大堆的功能入口，咱们使用夸克也好，使用豆包也好，在这个对话框底下，都是巨多的这个标签：画画、写字、写程序、做视频，有一大堆这样的东西。OpenAI还是要脸的，它没有把一大堆的这些东西都露出来。</p>



<p class="wp-block-paragraph">模型选择在页面的最左上角。大家注意，边栏不在页面里头，那个按钮它在页面外边，是在工具栏上。而在页面里头最左上角的地方就是选择模型，默认是GPT-4o。如果大家强制说，“你一定要使用GPT-4o thinking的话”，你要上那去选去。或者说，“我想使GPT-4o”，你要在那去选。其他的跟我们正常使用<a href="http://chatgpt.com/" target="_blank" rel="noopener">ChatGPT.com</a>这个网站是一样的。</p>



<p class="wp-block-paragraph">下面的备选项呢，很有趣。在上面有一个条让你去聊天，底下有一堆备选项。但是呢，在有趣的同时，也让人头皮发麻。为什么呢？它是根据过去一天的工作，给出的一些总结和建议。因为ChatGPT的这个Atlas，它最重要的一个属性就是它会把你以前的浏览记录都留下来，然后说你原来是做了哪些事情，你可以搜索一下，“我记得我昨天好像看到一个网页上说什么事了”，他马上给你找出来。</p>



<p class="wp-block-paragraph">这个事呢，对于很多人来说是很吓人的，但是可能是我们日常使用中经常遇到的一个情况。“我看了个网页，但我忘了在哪打开的了，那里头说一什么事，我现在需要把它摘出来，放到我的演讲稿里去。”这个现在是可以很好地去工作了。</p>



<p class="wp-block-paragraph">像我这个对话框底下，第一条是“刷小红书”，因为我有时候去刷小红书。它会告诉你你是几点到几点刷了多少次，都刷了哪些内容，重点关注了哪些博主，他都给你记着。你看了以后还是觉得有一点点后脊梁发凉的那种感觉。第二条呢叫“内容创作”，他上来告诉我说，你在WordPress，就是我的博客站上，做了哪些的修改和添加；在这个YouTube Studio，就是我们的油管的后台，处理了哪些内容；在Streamyard开了几次直播。大家反正好好看一看，不断地矫正自己，做一个更好的人吧。这就是过去浏览内容的记忆。</p>



<p class="wp-block-paragraph">当我们离开了一开始的这个聊天界面以后，我们会进入一个很有针对性的结果页。什么叫结果页？比如说你在谷歌上搜索了一个条目，它会给你列出一堆结果，这个页面我们叫结果页。这个Atlas的结果页长什么样呢？跟传统的GPT页面呢，还是不太一样的。</p>



<p class="wp-block-paragraph">页面最上头一导航栏，第一栏呢是一小房子，这个呢就是Home吧，小房子一般是Home的意思，这就是聊天页面。第二栏呢是一个小地球，是搜索结果列表页面，你基本上可以把它当成搜索引擎来使用。第三栏呢是一个小画片，是图片搜索结果的页面。第四栏是一个拍电影的那个打板器，就是“啪”打一下，这是第几场第几幕，这样一个打板器，它呢是视频相关的结果。第五栏呢，上面画了一张报纸，这是新闻结果，就是我们从严肃新闻媒体里上找到的，跟你现在要聊的这个事情相关的这些页面。</p>



<p class="wp-block-paragraph">这个长得很像什么？长得很像谷歌的搜索结果页。你在谷歌里搜一个东西以后，上面也是有这样的一个导航栏的，只是谷歌的导航栏的第一项呢，是搜索结果，第二项是可能图片，第三项是什么，它是这样来排的。它只是排得稍微有一些区别，所以在这一点呢，他跟国内的这些豆包或者是夸克还是有一些区别。所以我说，这是完完全全针对谷歌搜索引擎去的一个结果页。当然这个也是有效果的，Atlas发布，谷歌的股票马上应声跌落5%，后来爬回来一点，当天收盘应该跌了2%。</p>



<p class="wp-block-paragraph">然后在右边呢，有一个边栏。这个其实是很多的Chrome上的插件都可以实现的功能，就是我在网页的右侧开一个边栏，可以在里边去聊天，可以根据网页上的内容去进行问答、去总结。在Atlas里头也是有的。这些呢都算是中规中矩，不算是它创新，原来也有。里头可能唯一比较创新的一点就是记忆，这个还需要经过时间的考验，因为这个功能我感觉非常非常危险，就是你看到他这样去工作的时候，总是觉得不那么舒服。</p>



<p class="wp-block-paragraph">当然，我最喜欢并且让我长时间使用Atlas的功能，还不是这些，是什么呢？是Agent模式。</p>



<p class="wp-block-paragraph">其实原来ChatGPT也有Agent的模式，只是呢，它的工作方式是在云端开一台虚拟机，在这个虚拟机里头，把你需要去浏览的网页一个一个打开进去，点击，点击完了以后呢，去进行登录、买东西、结果的处理，它是这样来去做的。现在呢，直接在本机上跑了。因为Chrome本身是可以开很多页面，自己就相当于每一个页面、每一个Tab就是一个虚拟机，所以它现在在这边跑。</p>



<p class="wp-block-paragraph">那你说这样的功能到底有什么用呢？特别是我们在国内，我们也不可能说拿这东西上美国的Amazon上去买东西。但是我想问大家，有没有遇到过这样的情况？到了银行网站，找不着需要操作的菜单，找不着需要买的产品？或者说需要填表的时候，你不知道该填啥？使用很繁琐的云计算控制台，或者叫Control Panel的时候，找不到自己想要的功能？</p>



<p class="wp-block-paragraph">云计算也好，银行也好，他那个后台都是很复杂的，你要找半天。而且经常是怎么说呢，叫“不说人话的产品经理”，让你根本不知道你要找什么。因为很多的产品经理，在长期的工作过程中，他形成了一套自我的认知，觉得应该怎么去跟你讲这个话，应该怎么去向你描述这个功能，但实际上普通人根本看不懂。这个是非常非常常见的情况。</p>



<p class="wp-block-paragraph">而且呢，这些后台还都必须要登录。云计算后台也好，银行的后台也好，包括保险公司，或者这种复杂业务系统的后台，你都需要登录。你交给别人去替你操作呢，分分钟上当受骗的这种感觉，所以又不太可能交给别人。这就是一个很痛苦的过程。</p>



<p class="wp-block-paragraph">现在的问题解决了。我自己呢就做一个Cloudflare的一个案例。我前几天呢，听说Cloudflare上有一个功能，叫做“管道功能”，可以让我们在内网上把一些服务公开到外网上去。但是呢，整个的操作过程很复杂，也是问ChatGPT，给了你一个小作文，告诉你第一步怎么办，第二步怎么样。而且呢，ChatGPT给的小作文呢，都是按照英文菜单给的，我的Cloudflare进去以后是个中文菜单，对不上。所以我看了几次以后就放弃了。</p>



<p class="wp-block-paragraph">有了这样的功能，说我试一下呗。登到Cloudflare上去，我就打开了这个Agent模式，我说：“来，我现在要干这样的一个事情，给我干去吧。”然后你就看着它右侧是你的聊天栏，左侧你浏览器的这个主要空间里头，就蒙上了一层灰色的，这种或叫蓝灰色的薄膜似的东西，在那闪动。就看着他点东西、填表格，一项一项菜单地点进去，就把这事干完了。基本上不需要我参与，就把整个的这些服务都开好、定好，也不用我付费，把这个事情就解决了。我现在已经把自己NAS上的一些服务公开到公网上去，当然也只有我自己登录了才能使，大家就别费劲了。</p>



<p class="wp-block-paragraph">所以再遇到这种复杂的、需要操作的东西，就可以直接搞定了。我并不认为这个你可以现在就拿它去，比如定吃的东西，去做什么西红柿炒鸡蛋，或者做几人份的什么什么菜，这个可能还稍微远了一点点。但是当你遇到这种很复杂的、自己搞不明白的后台页面的时候，你交给他，效果可好了。</p>



<p class="wp-block-paragraph">当然这东西呢，也不是万能的。第一个是这东西有次数限制，这个是让我很郁闷的，不是可以无限使用的。因为原来ChatGPT Agent就是有次数限制的，我是Plus用户嘛，每周使40次。这个功能免费用户是没有的，但是如果你把它设成默认浏览器，它会给你7天的试用会员，估计到那个时候你就直接投降了，一个月交20美金就从了，也算是一个小小的诡计吧。</p>



<p class="wp-block-paragraph">原来呢，我们使用的Agent是在OpenAI的服务器上去开虚拟机，你对于它来说是有很沉重的压力的，甭管是内存压力、算力压力，还是说各种的安全相关的压力，这些压力是很大的。现在的话，它在我本机跑，在我自己的浏览器里边开了个窗口，在这去跑虚拟机的话，他居然还是走的原来的这套记次数的方式，还是一周40次，这个让我觉得挺诧异的。但是现在呢，有的时候这个次数会出来，有的时候次数出不来，所以我现在也没有太搞清楚这次数到底是怎么做的。</p>



<p class="wp-block-paragraph">我也问了ChatGPT，他说我们现在确实依然在记这个次数。他说：“你提的问题也是很有道理的，我们也在看以后如何去调整这个次数的限制。”可能以后呢，OpenAI会推出这种叫“边缘Agent”，就是在你本地跑的这个Agent，会单独去计数，而不是去跟服务器上的Agent一起来计数。但是呢，他提醒我什么呢？他说即使是在你本机跑的Agent，它使用的TOKEN的量都是很大的。因为它需要把整个的网页抓下来，而且这个网页并不是说我们看到的这部分，因为有些人觉得我看到这部分，剩下一部分在这个浏览器的外面，你需要滚动它，它不是这样的。它是通过这个浏览器里边，这个网页的源文件，甭管是多少，需要滚动多少，它一把都抓出来，它这个消耗的TOKEN的量还是很大的。所以他说，即使是给你开了边缘Agent的次数，也还是会有限制的，不会让你无限制地使下去的。</p>



<p class="wp-block-paragraph">下一个问题呢，就是太复杂、太细节的操作，这个Agent模式是搞不定的。在有人尝试呢，使用Agent在Figma网页上画画，画这个火影忍者的“血轮眼”。血轮眼长什么样？一个红色的圆圈，应该是你的眼球；中间呢，是一个白色的瞳孔，就是里面有一个小圈；再往外呢，是三个小黑点，黑点后边有水滴状的尾部，它会在这个里头转。它要求ChatGPT Agent去给它画这个玩意儿，因为想要考验一下他对细节的把控能力。</p>



<p class="wp-block-paragraph">ChatGPT呢，把外边这个红色的圆圈画了，把中间这个白色的小圆圈也画了。应该是等分的三个小黑点呢，他画了两个，第三个呢也画上了，但是呢不是等分了，就画歪了。再往后的火焰也好，或者水滴也好，尾巴就没了。所以大家感觉是什么？太细节搞不定。而且呢，太复杂、太长的Agent流程，他也搞不定。这点还证明一个什么？就是ChatGPT是知道血轮眼是什么的，他能够理解你让他去干什么，只是呢这个没有很好地完成。</p>



<p class="wp-block-paragraph">我自己呢也尝试让Atlas的Agent去格式化我的博客文章，因为我的博客文章一般都比较长，都是拿演讲稿直接去改的，它没有中间的分段，什么标题都没有，阅读的体验不是很好。所以我说：“你去给我加个标题，做一些缩进，做一些段落的设置。”他就真的很努力地在WordPress后台去干活去了。但是呢，干到一半他退出来了。因为那文章比较长，大概有五六千字，他大概处理了我觉得有2000字到3000字左右吧，就退出来了。这一块呢，应该还有待提升和加强。我看今天好像Atlas已经迎来了第一次升级，这种产品都是会快速地迭代和升级的，希望它能够处理更复杂、更长的这些Agent的请求。</p>



<p class="wp-block-paragraph">我现在呢，开始使用ChatGPT Atlas，已经不是说在我的电脑上主要使用Chrome了。原因也很简单，因为它整体的稳定性和性能还是不错的。虽然它底层都是Chrome的底层，但是它毕竟轻嘛，它有好多的功能给你屏蔽了，没有了，所以它整体感觉使用上性能还是不错的，也比较稳定。你像在这一点上呢，豆包就差一些。我曾经尝试使用了大概三五天的豆包作为主要浏览器，但是发现有些网页打不开，或者打开了以后显示的有问题，我就放弃了，还是转回了Chrome。在这一点上的话，OpenAI做得还是不错的，它呢挖了Chrome底层的核心开发人员回来，这是有效果的。</p>



<p class="wp-block-paragraph">但是我目前为止，还没有将它设置成默认浏览器。就如果你原来没有付过费，不是ChatGPT的付费会员，你设成默认浏览器以后，它让你使7天会员。像我这种原来就是Plus会员了，我再把它设成默认浏览器呢，它现在告诉我说可以增加使用额度。我现在还在犹豫，我为什么还没有去换这个默认浏览器？因为也有一些地方做得不够好。</p>



<p class="wp-block-paragraph">很多地方被人吐槽，Atlas被吐槽的地方都是什么呢？</p>



<p class="wp-block-paragraph">第一个是只有Mac版。刚才讲了，Mac是一致性最好的、最安全的、算力最有保障的平台，所以他们先做Mac版是最不容易翻车的。</p>



<p class="wp-block-paragraph">第二个被吐槽比较多的地方是什么呢？就是Atlas里头是没有插件的。Chrome实际上是有插件市场，你可以去往里装插件。Atlas呢，它自己没有插件市场，但是它可以去通过Chrome的插件市场往里装插件。装完了以后呢，这些插件又没有地方显示。你Chrome装完插件以后，在Chrome的工具栏右侧，会有一个显示插件的地方。在这个Atlas里头，你装完插件以后，有些插件呢会漂浮在页面上，半透明地飘在上头，也挺难看的，而且我现在都不知道应该怎么把这东西删掉，因为它没有插件的菜单，也没有可删的地方。有些插件你装上去以后呢，它就不显示，你也不知道该怎么激活它。</p>



<p class="wp-block-paragraph">这个里头让我觉得最痛苦的是什么呢？有一个插件叫1Password，我大量的网站密码，还有包括登录辅助都在这上面，它这个插件是显示不出来的，也无法激活，所以我很多的网站登录就很痛苦。这个事为什么这么做呢？因为插件的很多行为是需要联网的，直接跟后台去沟通和交流的。对于像Atlas这样留存了用户浏览记录，还要拿这些浏览记录去进行分析和使用的平台来说，这种安全设置是不可接受的。因为一旦是让这些插件上网了的话，可能你的所有浏览记录就直接被拎走了，这个是很危险的。所以它是不允许插件的。这个Chrome插件，也算是一条充满辛酸泪的细分赛道。当时Chrome出插件市场的时候，很多人说安卓的下一代的应用市场出来了，我们要在里边去深耕。我们以前的公司也在里边做了很多的产品，后来发现压根不挣钱，很多人做了半天没挣出钱来。现在呢，Atlas就准备把这个东西彻底抛弃掉了，就不玩了。</p>



<p class="wp-block-paragraph">还有一个被吐槽的呢，就是很多的开发者相关的功能被关闭了。大家知道，Chrome底层是有一整套的开发功能的，我们可以去调试前端网页。我觉得应该也是因为安全性的原因，把它们有一些阉割掉了，有一些关闭了。像OpenAI这种产品的话，它一定是有一些系统提示词在里面，就是OpenAI自己写的提示词在里面。你上我这天天调来调去的，你把我这个底裤都扒干净了怎么办？我并不想把这个系统提示词给你看，或者让你随便去修改我的系统提示词，那么它就关闭了一些开发和调试的功能。</p>



<p class="wp-block-paragraph">那么，Atlas真正的对行业的意义是什么呢？就像咱们标题讲的，它真正的意义是指明了方向。那它到底指明了一个什么方向？</p>



<p class="wp-block-paragraph">首先，浏览器是大家寄予厚望的一个AI的应用场景。因为我们不可能让AI全知全能，一定是要靠全世界这么多网站、这么多内容来跟AI一起结合工作，才能够达到更好的效果。所以大家都要去做浏览器。但是浏览器呢，是一种很特殊的产品。大家想一想，这个浏览器怎么奇怪了？《道德经》里边有一段，我觉得讲这个很合适，叫：</p>



<p class="wp-block-paragraph">“三十辐共一毂，当其无，有车之用。埏埴以为器，当其无，有器之用。凿户牖以为室，当其无，有室之用。故有之以为利，无之以为用。”</p>



<p class="wp-block-paragraph">这话什么意思呢？就是30个车条装在一个车轮里，因为中间有空，所以呢这个车才能使它。泥巴捏出这个器具来，中间是空的，因为中间是空的，你才有这个罐子呀、才有这些器具可以用。凿了门和窗户，因为中间是空的，你才有屋子才能用。你说我这是一池塘了，你就没有屋子用。所以呢，“有”呢是必须要的，甭管是车轮还是泥巴，还是屋子，你必须要有这个“有”的部分，而大家用的东西呢，是这个“空”的这一块。这就是《道德经》上讲的这一部分。</p>



<p class="wp-block-paragraph">浏览器的核心，实际上是中间那一大块空白，你要在那个地方去装网页，你在其他地方放太多功能的话，就容易喧宾夺主。所以这就是有无之道。</p>



<p class="wp-block-paragraph">咱们对比一下现在这些产品。谷歌呢，有一些太保守了，它基本上就是一个传统浏览器，所有的这些功能呢，都给你反正不是做得那么显眼。它也怕我做得太显眼了以后，或者做得太喧宾夺主了以后，用户会流失。因为对于它来说，用户已经不可能上涨了，再出任何的问题，用户都会流失的。如果某些特定的功能做得特别突出，用户规模肯定起不来。你比如说像Perplexity的这个叫Comet这样的一个浏览器，它呢就是在搜索、验证、研究这一块做得非常非常强，这就基本上是给学生或者是一些科研人员使的，普通人用不了这东西。而对于像ARC，它呢就属于是极大地改变了用户行为习惯，人家原来都习惯这么去用，你非要给人改一个不一样的，就很难推广开。</p>



<p class="wp-block-paragraph">国内的豆包跟夸克呢，完全是画蛇添足的感觉，很多乱七八糟功能都给它堆着，功能极其杂乱。视频加字幕、视频总结、文本总结，它给了你好多好多这样的功能在里头，各种奇奇怪怪的功能都加上。而且呢，还要抢这个露出位置，因为他人多嘛，每一个项目可能都是一个小团队，一堆人在那开发，开发完了以后，你的KPI就是有多少人用。那怎么有人用呢？你给我一个位置让我露个小脸，才能有人用。所以他们那个产品就显得很杂乱。</p>



<p class="wp-block-paragraph">而Atlas呢，还算是一款比较优雅的AI IDE，适合大众使用。它要比谷歌的Chrome要更AI一点点，但是呢也没有像豆包搞得那么乱七八糟的。比Perplexity和ARC这样的这种浏览器呢，也要稍微的平和一些，优雅一些。</p>



<p class="wp-block-paragraph">而Atlas真正的价值，在于记忆模式和Agent模式。现在我相信甭管是夸克、豆包，还有国内各平台应该都在追赶了。国外的话，Perplexity他们可能也会向这个方向前进，但是呢并没有那么容易。Atlas的其他的这些功能呢，豆包其实都有，只是摆放得比较丑而已，甚至豆包的功能要比Atlas要丰富好多倍。但是记忆功能呢，现在豆包跟千问（或者叫夸克吧）都在往里加，只是呢，记忆的隐私悖论实在太严重了。因为你一旦把过去所有浏览的页面都记下来了，你在回答问题的时候都是根据过去的页面来去给你回答的，这个太容易出事了。后边估计会有一些倒霉蛋“社死”。比如说你浏览了一些像草榴社区这样的网站，还看得很开心，你去做正经事，说：“来，根据我过去几天看的科学文献，给我总结点什么事。”他没准就把草榴里的东西给你总结进去了。所以这个大家以后使用的时候，还是要稍微小心一点。我呢现在毕竟用的时间短，也不怎么看这些很奇怪的网站，而且我现在的这个默认浏览器还是Chrome，这一块我还是比较谨慎的。</p>



<p class="wp-block-paragraph">至于Agent模式呢，其实非常考验前端和浏览器内核底层的功底。你技术不达标的话，做Agent的模式会作死的。因为这个网页千变万化，而且写网页的人的技术水平和使用习惯也是千差万别。在这样的一个情况下，你希望在所有的网页上都可以顺畅地去执行，这个还是挺考验功夫的。当然在中国人这一块呢，应该是可以快速赶上。因为中国人有一个笨办法。美国人，比如OpenAI，他们使用的方式是什么呢？我用最好的浏览器内核的人员，用最好的能够掌握这些前端技术标准的人员，你们坐在这，给我去写这个Agent的代码，然后就可以了。但是有的时候跑不出来呢，我们直接就放弃就拉倒了。因为网页这种东西经常会被更新嘛，更新了以后，原来能跑，这次就未必能跑得通了。所以跑Agent就是一定会面临很多问题。而中国人的处理方式是个笨办法：把所有常用网站都跑一遍，然后把它记下来，大概应该怎么用。是这么来去做这个事情。然后我们会不断地去收集用户在不同的网站上，或者在不同的应用上是怎么去工作的，它每一个应用和网站的这个行为都把它记下来，每一次升级，我们也都把它记下来，分不同版本的。中国人是可以用笨办法来搞定这件事的，但是压力会稍微大一些。</p>



<p class="wp-block-paragraph">未来那些“不说人话的产品经理”设计出来的复杂后台，对于普通人也会变得稍微友好一点儿。</p>



<p class="wp-block-paragraph">而新的商业模式、新的交易应该就在记忆和Agent里面。你像我用Agent，其实是做了一大堆的复杂后台使用，而OpenAI给大家演示什么？去买东西去了。买东西就说明它可以去引导交易了，他可以决定买张家的，不买李家的。那么为什么买张家的不买李家的？给钱，你要去花钱买广告的。所以这个就是新的商业模式。而记忆更是新的商业模式里头最重要的一点，因为它是根据记忆来去决定买张家的还是买李家的。当然另外一块还是要给钱的。你是一个喜欢吃素的人，那我下次就给你买素食；你喜欢什么什么样的品牌，那这个品牌跟那个差不多，我就给你推荐新的，还便宜一些，这个花钱买广告不就管用了吗？所以这就是新商业模式的一个雏形了。</p>



<p class="wp-block-paragraph">最后总结一下，OpenAI作为老大需要做的事情，就是为行业指明方向。现在国内的厂商肯定会追，国外的厂商应该也会追，但是可能没有咱们追得那么快。谷歌后边的日子绝对不好过，虽然方向指明了，他想去抄但是没有那么容易，他的包袱实在太重了，转身非常非常困难。</p>



<p class="wp-block-paragraph">对于普通用户来说，如果有M系列芯片的Mac电脑，就赶快玩耍起来吧，其他的并没有那么重要。</p>



<p class="wp-block-paragraph">好，这个故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加<a href="https://discord.gg/ppKsNkttTv" target="_blank" rel="noopener">DISCORD讨论群</a>，也欢迎有兴趣、有能力的朋友加入我们的<a href="https://www.youtube.com/channel/UCUGLhcs3-3y_yhZZsgRzrzw/join" target="_blank" rel="noopener">付费频道</a>。再见！</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>OpenAI与Anthropic终极对决：揭秘Responses API如何颠覆AI Agent标准之争</title>
		<link>https://lukefan.com/2025/03/19/openai%e4%b8%8eanthropic%e7%bb%88%e6%9e%81%e5%af%b9%e5%86%b3%ef%bc%9a%e6%8f%ad%e7%a7%98responses-api%e5%a6%82%e4%bd%95%e9%a2%a0%e8%a6%86ai-agent%e6%a0%87%e5%87%86%e4%b9%8b%e4%ba%89/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Wed, 19 Mar 2025 00:55:52 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[Agent SDK]]></category>
		<category><![CDATA[Agent协调系统]]></category>
		<category><![CDATA[AI agent开发]]></category>
		<category><![CDATA[AI产品生命周期]]></category>
		<category><![CDATA[Anthropic]]></category>
		<category><![CDATA[API兼容性]]></category>
		<category><![CDATA[API格式战争]]></category>
		<category><![CDATA[API调用成本]]></category>
		<category><![CDATA[Coze平台转型]]></category>
		<category><![CDATA[Cursor插件]]></category>
		<category><![CDATA[DeepSeek]]></category>
		<category><![CDATA[Dify系统升级]]></category>
		<category><![CDATA[Docker集成]]></category>
		<category><![CDATA[HTTP调用规范]]></category>
		<category><![CDATA[Manus]]></category>
		<category><![CDATA[MCP协议]]></category>
		<category><![CDATA[OpenAI]]></category>
		<category><![CDATA[OpenRouter生态]]></category>
		<category><![CDATA[Python开发包]]></category>
		<category><![CDATA[RAG技术]]></category>
		<category><![CDATA[Responses API]]></category>
		<category><![CDATA[SDK开发趋势]]></category>
		<category><![CDATA[Together AI适配]]></category>
		<category><![CDATA[Token计费优化]]></category>
		<category><![CDATA[TypeScript支持]]></category>
		<category><![CDATA[VSCode扩展]]></category>
		<category><![CDATA[上下文管理革命]]></category>
		<category><![CDATA[中国云厂商应对]]></category>
		<category><![CDATA[企业数据安全]]></category>
		<category><![CDATA[多轮对话优化]]></category>
		<category><![CDATA[天气服务接口]]></category>
		<category><![CDATA[安卓launcher模式]]></category>
		<category><![CDATA[小米MIUI案例]]></category>
		<category><![CDATA[工具函数扩展]]></category>
		<category><![CDATA[工具描述语言]]></category>
		<category><![CDATA[开发者工具链]]></category>
		<category><![CDATA[开发者社区迁移]]></category>
		<category><![CDATA[开源工具包]]></category>
		<category><![CDATA[开源社区响应]]></category>
		<category><![CDATA[搜索服务竞价]]></category>
		<category><![CDATA[文件解析系统]]></category>
		<category><![CDATA[服务替换接口]]></category>
		<category><![CDATA[本地模型部署]]></category>
		<category><![CDATA[标准之争]]></category>
		<category><![CDATA[模型为核心开发]]></category>
		<category><![CDATA[流程驱动范式]]></category>
		<category><![CDATA[火山引擎]]></category>
		<category><![CDATA[状态管理]]></category>
		<category><![CDATA[生态绑定策略]]></category>
		<category><![CDATA[矢量数据库]]></category>
		<category><![CDATA[知识库存储成本]]></category>
		<category><![CDATA[知识库迁移]]></category>
		<category><![CDATA[硅基流动推理]]></category>
		<category><![CDATA[第三方服务集成]]></category>
		<category><![CDATA[网页自动化]]></category>
		<category><![CDATA[聚合平台危机]]></category>
		<category><![CDATA[股票查询API]]></category>
		<category><![CDATA[虚拟机控制]]></category>
		<category><![CDATA[计算机控制]]></category>
		<category><![CDATA[谷歌Gemini]]></category>
		<category><![CDATA[通义千问]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=2005</guid>

					<description><![CDATA[家人们！OpenAI这次放大招了！😱连夜发布AI agent开发套件，直接把行业天花板捅穿！作为全网最懂AI的课代表，这就带你们深扒这次史诗级更新！（全程高能预警‼️）

🔥核心就一句话：OpenAI这次要统一AI江湖！
被Manus刺激后祭出的responses API+agent SDK组合拳，直接对标Anthropic的MCP协议！知道这意味着什么吗？未来所有AI应用都要按OpenAI的规矩来！

✨三大核弹级更新：
1️⃣ 内置搜索神器：比谷歌便宜还更快！25刀/千次搜索直接让竞品哭晕
2️⃣ 文件检索黑科技：传文档就能自动生成答案库，RAG技术直接打包送
3️⃣ 计算机控制外挂：让你的AI能远程操控电脑！截图填表全自动

💡更绝的是agent SDK开源包！开发者现在可以：
✅ 免维护聊天状态（省下90%token费！）
✅ 任意接入外部工具（股票/天气API随便挂）
✅ 跨平台调用服务（Python/TS全支持）

这次更新直接掀桌重写行业规则！Anthropic的MCP协议眼看要凉，国内大厂连夜改代码适配新标准。据说千问/火山都在疯狂加班升级API...

📈给创业者的暴富指南：
赶紧用agent SDK封装工具！未来3个月会是AI应用爆发期，抓住这波就能躺赚！（小声说：已经有团队靠套壳月入百万了）

⚠️最后划重点：
所有AI从业者立刻！马上！去官网注册测试资格！现在冲进场的都是第一批吃螃蟹的幸运儿！（别怪我没提醒！）

所以问题来了：你觉得OpenAI这次能一统江湖吗？在评论区留下你的神预言！👇

OpenAI与Anthropic终极对决：揭秘Responses API如何颠覆AI Agent标准之争

OpenAI在Manus的刺激下重磅推出Responses API与开源Agent SDK，这场AI agent标准之争正引发行业地震。新API整合搜索（25美元/千次）、文件检索（RAG技术）和计算机控制三大功能，通过状态管理与工具扩展重构开发范式。面对Anthropic的MCP协议即将成为事实标准，OpenAI用兼容性战略倒逼生态迁移——全球83%的API服务已采用OpenAI兼容格式。本文深度剖析技术变革：从流程驱动到模型核心的范式转移，解析火山引擎、通义千问等中国厂商的应对策略，预测2025年AI agent开发生态将围绕大模型厂商重构，Dify/Coze等平台如何绝地求生。
]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="OpenAI与Anthropic终极对决：揭秘Responses API如何颠覆AI Agent标准之争" width="900" height="506" src="https://www.youtube.com/embed/b5go6hFhGw8?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p class="wp-block-paragraph">第二个故事：OpenAI最新发布的AI agent，是不是应该感谢Manus呢？现在大家都在讲这个事情。OpenAI又被中国人挤牙膏了，突然就宣布自己的AI agent开发套件上线了。有人在下边回复感谢Manus，好像还是一个英语回复的。</p>



<p class="wp-block-paragraph">去年连续12天的无聊发布会之后，春节又赶上了DeepSeek的暴击，明显加快了发布的进程。像什么GPT4.5、GPT5的新方向，AI agent的各种工具，它当时发布的还不是开发者工具，当时发布的是使用者工具，给它的200美元一个月的Pro账号用的这些工具，包括operator、deep research和task。到目前为止，我应该还不能用operator，其他的都可以用了。这些呢，都是今年OpenAI发出来的东西。他也在思考到底是不是要开源，目前还在纠结。</p>



<p class="wp-block-paragraph">现在呢，又被Manus给输出了一把。Manus到底怎么样咱们不去管呢，但是呢Manus肯定对他还是有压力的。如果没有前面Deepsick R1的输出的话，OpenAI大概压根就不会看Manus一眼。但是现在有了Deepsick了，中国人到底干什么，他还是要稍微认真看一下了。Manus的发布让业界看到了AI agent的另外一种可能性。真正对OpenAI agent的领导地位所造成威胁的并不是Manus，而是另外一个东西，是Anthropic的MCP协议。这个东西已经快要成为事实标准了。因为在这儿呢，不可能真的谁说咱们坐下来定个标准吧。在这么快速发展的行业里头，一定是谁跑得最前头，谁用得最多，谁成为事实标准。现在Anthropic的MCP，随着Manus的爆火快速地，在成为事实标准的这条路上狂奔。OpenAI说这个事是不能忍的，我必须得把这个东西抢回来，我是行业老大，标准必须我说了算。所以这是他这次发布AI agent开发工具包的一个核心原因。这个是标准之争，是agent SDK和MCP之间的竞争。Manus在里边算是一个催化剂，也起作用了，但是呢，起到的并不是根本作用。</p>



<span id="more-2005"></span>



<p class="wp-block-paragraph">OpenAI这一次到底都发布了些什么东西呢？第一个东西呢叫responses API，就是响应式API。它呢第一个可以搜索，比谷歌稍微便宜一点，你直接可以在调用API的时候命令它进行搜索。谷歌自己也是可以搜索的，你使用Gemini 2.0 Pro。</p>



<p class="wp-block-paragraph">或者Gemini 2.0 Flash这两个模型的时候，是可以去使用一个叫grinding by Google search的服务。就是每一次生成之前去搜索一下。这个谷歌的服务呢，是35美金可以搜索1,000次。OpenAI的搜索呢，如果你用GPT4O mini去搜索，是25美金1000次。如果使用GPT4O去搜索的话，是30美金1000次，比这个35美金要稍微便宜点点。其实一些搜索的API要比这个还要再便宜些的，有4美金的有8美金1000次的。国内的搜索要更便宜一些，比如说我们在火山引擎上，用它的这个搜索服务，大概是1000次16块人民币。</p>



<p class="wp-block-paragraph">这个是第一个，就是他可以搜索了，就可以有更好的更准确的结果回来。第二个是什么呢？第二个是文件检索。说你别出去搜索了，我给你几个文件，你在这个文件范围内去给我答案。这块呢，其实做的是RAG，就是它有一个类似于网盘的地方，你要把一堆文件传上去，让它去进行embedding的这种嵌入处理，然后生成矢量库，根据这些内容去进行回答。这块是第二个叫文件检索。</p>



<p class="wp-block-paragraph">第三个呢叫做计算机控制。它呢，可以控制你自己的电脑，也可以控制指定的虚拟机，或者是一个Docker的这种服务器。你可以在这上的浏览网页，或者是打开什么网页去截图，输入什么各种信息。这个都是可以通过这种agent去干活了。这个就是这一次新出来的responses API。</p>



<p class="wp-block-paragraph">那么仅仅这三个功能，加了三个工具就出了一个新的API。这个就太小看这个responses API了。它呢其实是OpenAI在对API进行升级。原来呢OpenAI的API是使用叫completions API，叫完成API。现在新的叫响应API，就是你跟他说了一句话，他给你把后边那节补全。传统的completion API呢，它主要是用于对话的，虽然也能调工具，但是呢，过程要稍微繁琐一些，比较麻烦。多轮对话呢必须用户自己去维护状态。什么意思？就是你每次跟他说的时候，他不知道你是谁，你必须要告诉他说我是谁谁谁，咱们接着聊。如果你要进行10轮对话，你需要把前面9轮的你说了什么，他答了什么，都作为TOKEN直接传上去，它才能给你进行第10轮对话。你聊的越久，对话的轮次越多，TOKEN的费用就收的飞起。反正OpenAI是通过TOKEN的费用来挣钱的，那他就很开心的来去挣这笔钱。原来是这样的一个系统。</p>



<p class="wp-block-paragraph">中间呢说，我们挂工具稍微费点劲。他后来还做了一点assistant API，但是这个东西没法抢，因为挂着也很麻烦。所以现在说来别费劲了，咱们再出一个新的API，叫responses API吧。第一，内置了三个工具，刚才我们讲了：搜索、文件检索、计算机控制。三个工具搁进去，那你说光有这三个工具不够，他还给了一个开源的叫agent SDK的东西，你可以挂外部的工具进来。你说我这有一个工具，是专门进行股票查询的，那我可以通过agent SDK把它描述一下，然后挂到这个responses API里边去。你可以调用我的股票查询的agent，就可以干活了。那么所有的这些agent SDK挂进去的东西呢，都是由OpenAI来进行状态管理。你以后再用responses API再去聊天的时候，你不需要去进行自己的状态管理了。你可以告诉他说我刚才聊到哪了，那个聊天号是多少，你顺着那个接触往后聊。那么这个过程，你就不需要再去上传上下文的这个TOKEN，它就都可以搞定。而且再加上那个网盘，你可以把文件扔上去解锁，多个工具多个轮次，这些东西responses API相对控制起来要简单一些。所以呢，我为什么要讲说这一次是一个比较有意义的更新。那么除了这个responses API之外，下一个东西就是刚才我们讲到的agent SDK。这个东西是一个开源的Python包，现在应该是只有Python，据说未来会有tapescript的版本，其他的版本他就懒得做了。他能干嘛呢，他就是调用responses API，协调外部服务，直接与大模型一起工作。这个东西是要去跟MCP竞争的。MCP呢，是Anthropic给提出来的，它呢，相对来说要复杂一些，不是那么好使。我现在也在用一下MCP的东西，但是MCP是必须要有服务器的，你必须要在本机起服务器，要么Python服务器，要么note GS服务器，然后才可以去调用它。agent SDK就不需要服务器，它比那个要省事。但是agent SDK呢，也有一个比较讨厌的地方，就是它必须绑定OpenAI。MCP是一个相对开放的这种协议，你这边是Claude也好，或者是其他的一些模型也好，你都可以用，只要自己写好上下的这种接口，你都可以使这个东西。但是，agent SDK就是OpenAI用的，OpenAI现在只有它支持嘛，以后是不是有其他模型能用这个东西。</p>



<p class="wp-block-paragraph">我估计应该可以，但是至少目前不行。OpenAI这一次的力度呢，真的是很大。好像没有发布什么，很多人都觉得，这个不就是给API改点东西吗？到底改什么东西了呢？好像啥也没动，对吧？写程序的人会知道，有一种东西是OpenAI真正的大杀器，是什么？有一种API叫OpenAI API compatible，什么意思？就是兼容OpenAI的API，是这样的一个东西。</p>



<p class="wp-block-paragraph">市面上绝大部分的大模型的API，使用的都是OpenAI API compatible这个格式。比如说国内的通义千问、火山、DeepSeek，他没有自己去做一套说我们来规定，这个API应该什么什么样格式来调用，我们就直接使用OpenAI这套东西就完事了。国外的Grok压根也没有自己的格式，他就直接使用的OpenAI API compatible。谷歌的Gemini是有自己的API格式的，但是谷歌官方直接提供了OpenAI API compatible，通过这个方式直接可以调用Gemini了，不需要其他任何的修改，你可以替换。</p>



<p class="wp-block-paragraph">唯一不提供OpenAI API compatible的是谁？是Anthropic的Claude。但是呢，第三方也提供了，就是你可以通过一些第三方的这种跳转，使用OpenAI compatible的这个方式去调用Claude。所有的聚合平台，都是OpenAI API compatible，像open router、together呀，还有像这个国内的硅基流动，使用的都是OpenAI格式的API。咱们本机跑的什么Olama呀什么的，也都是使用OpenAI API compatible。</p>



<p class="wp-block-paragraph">那么OpenAI的API，是完全可以通过HTTP的方式来调用的，就是你不需要任何的这种SDK到本机去部署，它就可以去调用。但是呢，这个调用的格式是由OpenAI来规定的，说我第一个参数写什么，后边怎么去写调用的这个内容，然后怎么去写这个TOKEN，这个都是由OpenAI定义好的。大家现在都照这个来的。所有的SDK的话，都是基于这套格式来编写，让编程呢可以变得更简单一些。大家都去隔手这么一套编程格式，这个事就成为了一个事实标准。大量的社区SDK也都是基于OpenAI API compatible来做的，因为OpenAI的自己的官方API，就是Python的、Javascript，可能有Java的。</p>



<p class="wp-block-paragraph">其他的并没有那么全，那么怎么办？就是由社区自己去写，OpenAI也挺开心，你们写去吧。各种编程语言就都支持了，他是这样来去工作的。基于大模型的软件开发呢，基本上也都是在OpenAI的这个兼容模式下去运行的。很少有人说我写这个软件是按照Anthropic的这个格式来写的。现在呢，基于OpenAI的API这种事实标准，直接下手了。OpenAI说来我改这个东西，原来你们基于我的OpenAI API compatible去写的这些东西吧，我现在直接把原来的这个API及时升级，还有多加一些函数进去，多加一些调用的接口进去，我就等着你们跟了。加进去了以后，他就从completion API正式地升级到responses API，整个社区你就必须得跟着走，否则的话你原来的很多的系统就跑不动了。那responses API的话更适合AI agent，那大家后边去用就完了。</p>



<p class="wp-block-paragraph">那么现在呢，agent SDK算是对MCP进行了釜底抽薪。Manus的爆火真正引爆的东西是MCP。现在Anthropic Claude的客户端cursor这个编程工具，Vscode里头的AI编程套件，以及Windsurf这样的编程工具，都是开始支持MCP了。现在OpenAI说不行了，越来越多的MCP服务正在被创建出来，这个标准要确立了。这个时候agent SDK就跳出来了，更简单。这个事我今天看了一下，这个确实要比MCP要简单得多。现在呢，是跟OpenAI绑死了，agent SDK是开源的，目前只有Python版本，tapescript版本正在开发中，其他的版本的话等社区慢慢搞定。当OpenAI的compatible升级完毕了，接着呢，SDK就可以干掉MCP。我相信现在各个大厂，各个MAS这些服务商，应该都在加班加点，给他们的这个SDK进行升级，去兼容OpenAI的responses API。OpenAI在AI agent的这一局里头呢，暂时算是扳回了一种。</p>



<p class="wp-block-paragraph">OpenAI和Anthropic所推崇的AI agent的实现方式是什么样？肯定跟现在所流行的是不一样的。现在很多的方式，都是以流程为核心的，包括像字节的Coze，包括我比较喜欢用的Dify，都是以流程为核心。我们自己去设计流程，然后在这个流程里头，什么地方去调用大模型，什么地方去调用各种的工具，然后让它串在一起，原来是这么干的。</p>



<p class="wp-block-paragraph">但是呢，Anthropic提出了一个折中方案，建议大家使用开放的方式。MCP的方式让这个大模型可以直接去跟这些工具去通讯，相当于是给模型赋能了。模型也可以自己搞定一些事情。但是你说你不需要调这个模型，自己去处理这些工具的结果也没问题。</p>



<p class="wp-block-paragraph">OpenAI呢，现在说，咱们换一个方式，以模型为核心。你不要去设计流程，不要去搞这些乱七八糟东西。你通过这个agent SDK，你把所有你需要让模型去调用的这些功能都打包好，然后呢，告知大模型，说：“我有这么多的这个工具，你用吧。你就只管提出要求，由模型自己才去决定什么时候去调用哪个agent去干活。不要去设计流程，不要去手动规划流程，把这些工作都交给OpenAI的大模型。”相当于什么？把五官和手脚做一个说明文件，把这些东西一起扔给大模型，其他的事你就别管了。这是OpenAI要干的。</p>



<p class="wp-block-paragraph">现在搜索、本地文件操作，都是OpenAI自己已经提供了。那么你一旦提供了这些东西以后，你习惯了，那么这个迁移成本就会变高。特别是本地文件，你把大量的这个知识库都建在OpenAI的服务器上了，你想再迁移这事费劲了。</p>



<p class="wp-block-paragraph">至于CUA的话，其实是给很多的agent打了一个样本。CUA就是计算机用户操作，这个东西我已经可以通过CUA来去做很多事情了。其他的这些agent，我就可以把CUA的过程简化一下，变成一个简单的agent就拿出来了。这个是现在OpenAI给AI agent整个的行业指出的一条明路。</p>



<p class="wp-block-paragraph">那么后续这个事情会如何发展呢？OpenAI应该会推出更多的agent功能。现在所推出来的东西其实还没有那么完整。现在大家看到了搜索，看到了本地文件处理，看到了计算机的这个使用。但是咱们看看他前面，有deep research，有test，就是说你告诉他每天几点几点过干什么事情。还有Oprater，Oprater的东西呢，现在已经可以依靠计算机用户使用这个代理可以实现了。deep research现在其实已经可以靠搜索和本地文件可以去实现一部分。它的test现在我们还没有实现，所以他未来的一些agent功能会慢慢地加进来一些。</p>



<p class="wp-block-paragraph">再往后，社区和各大的云厂商都会将自己的OpenAI API compatible升级到responses API。我觉得一个月左右就应该都升级完了。现在我已经看到有一些社区的API已经开始升级了。</p>



<p class="wp-block-paragraph">谷歌和XAI应该也会照这个方向升级。Gemini也好，Grok也好，等于他们也算搭上了AI agent的这班船。Anthropic前面做了这么多的努力，搞定的MCP的这个生态应该会崩塌掉。国内的像什么千问、火山，应该在这一两个月里头也都会升级上去。至于第三方的这些模型及服务的这些云厂商，应该在努力的追赶。很多服务会将自己通过agent SDK进行包装。</p>



<p class="wp-block-paragraph">使用OpenAI API compatible的这些用户，一定是全世界所有API用户里最多的，而且可能其他所有的用户加一块都没有它多。当OpenAI API compatible占据绝对垄断地位的时候，这就是一个事实标准。当它有事实标准的时候，继续在这个基础上往前推一点点，OpenAI就可以绑架所有的社区、所有的行业跟着它一起转向。那么一旦是各个社区，比如说通义千问，他把自己的API转换成了或者升级到了responses API了，其他那些人只要是把你手头的这个服务，比如查股票、查彩票、查什么天气，把这些东西包装成agent SDK的，这个东西出来以后，我们就可以到通义千问上去用，就可以到火山去用，就可以到各个云上去用。所以这块一定是大家努力去折腾的事情。</p>



<p class="wp-block-paragraph">AI这个方向现在算是发生改变了，原来是以流程为核心的，现在是以模型为核心的。OpenAI呢也算成功地捍卫了自己老大的位置。再往后模型及产品的口号又可以喊一段时间了。像dify、coze这样的平台，可能还会在一些需要强定制的市场里头继续玩耍。他们应该会加入MCP和agent SDK的支持，至少agent SDK一定会加，MCP加不加这个事不确定了。因为原来像Dify也好，coze也好，他们有一套自己的API描述语言，应该有些用的open API的一套规范挂进去的。现在的话大家就统一的使用agent SDK挂就好了，就可以搞定了。Dify现在也开始在加agent节点，它可以自动地规划一些事情了。这块儿它们应该还是有出路的。</p>



<p class="wp-block-paragraph">2025年的AI agent将继续围绕模型大厂来去展开。Grok、Gemini和Claude应该算是利好。千问、火山快速迭代以后可以是利好。DeepSeek继续去做它的基础模型就好了，以后推理的事情交给这个推理系统去迭代就完了，比如说交给硅基流动去搞。至于MAS这些厂商的话可以分一杯羹。</p>



<p class="wp-block-paragraph">他们呢，应该会去提供搜索和RAG服务了，不会说再把这些东西扔在外面了。你比如说像我们去阿里云、火山的方舟引擎，都是提供RAG和搜索的。他们就可以很容易的用自己的服务，把OpenAI的系统全都替换掉。而且OpenAI在做的时候，就给你留出了替换接口来，这个是没有任何问题的。</p>



<p class="wp-block-paragraph">至于像Manus这样的没有底层模型，只做产品的就比较悬了。因为到最后呢，它相当于什么？就是它只提供了个UI，其他都不是他的。这个有点像以前安卓刚出来的时候，中国人干那个活，咱们做那东西叫launcher。我们只做一个皮，最后这些做皮的公司呢，除了小米最后长大了以外，他最早做的东西叫米UI嘛，其他的应该都被滚滚大潮给淘汰掉了。所以Manus可能也就是最后，再蹦跶两天也就完事了。</p>



<p class="wp-block-paragraph">这就是今天的第二个故事：OpenAI在Manus的刺激下，发布了它的AI agent开发工具包的故事。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
