<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>agentic workbench &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/agentic-workbench/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Mon, 27 Apr 2026 11:18:23 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=7.0</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>agentic workbench &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>GPT-5.5与DeepSeek V4，AI 竞争进入新格局！</title>
		<link>https://lukefan.com/2026/04/27/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/</link>
		
		<dc:creator><![CDATA[老范 讲故事]]></dc:creator>
		<pubDate>Mon, 27 Apr 2026 11:18:21 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[DeepSeek大模型]]></category>
		<category><![CDATA[agentic workbench]]></category>
		<category><![CDATA[Claude Opus 4.7]]></category>
		<category><![CDATA[Codex]]></category>
		<category><![CDATA[Codex对比Claude Code]]></category>
		<category><![CDATA[DeepSeek V4]]></category>
		<category><![CDATA[GPT-5.5]]></category>
		<category><![CDATA[OpenAI]]></category>
		<category><![CDATA[OpenAI超级APP]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=3729</guid>

					<description><![CDATA[GPT-5.5和DeepSeek V4几乎同日发布，AI竞争正式进入新格局：不再只是比模型参数和榜单分数，而是转向Codex、Claude Code这类AI Agent工具，以及开源闭源、高价低价、算力自主的全面对抗。本文深入拆解GPT-5.5 vs DeepSeek V4、Codex超级App、Claude Opus 4.7对比、DeepSeek V4开源价值，帮助你看清谁在领跑、谁被高估，以及不同预算下该怎么选模型与工具。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="GPT-5.5与DeepSeek V4，AI 竞争进入新格局！" width="900" height="506" src="https://www.youtube.com/embed/ReomRMdklIg?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_1.jpeg" alt="两条新闻时间线在同一张书桌上交汇，一侧是写着GPT-5.5的现代终端界面，另一侧是写着DeepSeek V4的杭州发布海报，中央摊开的全球AI竞争地图上标出开源、闭源、算力与价格四条路线，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph"><strong>GPT-5.5</strong>和<strong>DeepSeek V4</strong>在同一天前后发布，AI竞争进入了一个新格局。2026年4月23日和24日这两天，全球AI产业迎来了一场小小的地震，而且这次地震很有意思。</p>



<h2 class="wp-block-heading">同日发布背后：AI竞争进入新阶段</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_2.jpeg" alt="对比式双联画面，左边是低调无舞台的OpenAI产品推送界面直接弹出GPT-5.5，右边是杭州会场中DeepSeek V4发布后立刻开源的代码仓库页面与人群，开源与闭源像两股河流正面相撞，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">GPT-5.5发布后9个小时，DeepSeek在杭州发布了V4。要注意的是，这次发布和前几天GPT Image 2的发布形成了鲜明对比。</p>



<p class="wp-block-paragraph">OpenAI过去每次发布重要版本，通常都会开发布会，至少也会有线上直播。但这一次什么都没有，直接就上线了。前几天GPT Image 2发布时，Sam Altman还陪着一屋子亚洲面孔的小哥讲了一晚上，除了他之外，剩下的人里大概有两到三个中国人，可能还有一个日本人、一个韩国人，几乎只有他一个白人。然而这次GPT-5.5什么仪式都没有，直接推送给Plus、Pro、Business、Enterprise用户使用。</p>



<p class="wp-block-paragraph">DeepSeek V4这边则是发布之后直接开源，本身就是一个开源产品。这意味着，全球AI竞争从此进入了一个新的阶段，不再只是比谁家的模型更强，而是<strong>开源和闭源、高价和低价、算力自主和算力依赖</strong>这几条主线开始正面交锋。</p>



<span id="more-3729"></span>



<h2 class="wp-block-heading">GPT-5.5发布方式反常，真正重点却不是模型本身</h2>



<p class="wp-block-paragraph">先说GPT-5.5。这次发布方式在OpenAI历史上都很少见。我今天早上起来，是Codex提示我升级，GPT的App也要求升级，网页打开以后就直接变成5.5了。</p>



<p class="wp-block-paragraph">其实这次真正卖的并不是GPT-5.5本身，真正的重点是前两天发布的<strong>Codex</strong>，待会再讲为什么。</p>



<p class="wp-block-paragraph">很多人一上来就看指标，觉得GPT-5.5很厉害，很多指标一下成了世界最强，在大多数指标上超过了Opus 4.7，好像OpenAI又回到了世界老大的位置。但现在所谓大模型到底有多强，这件事已经没那么重要了。真正重要的，是模型在三个地方的表现。</p>



<h3 class="wp-block-heading">1. 编程能力</h3>



<p class="wp-block-paragraph">像GPT-5.5或者Opus 4.7这种好的模型，可以用很少的Token快速找到答案，不会四处乱转。如果是比较差的模型，可能会绕来绕去，搞不清到底出了什么问题。</p>



<p class="wp-block-paragraph">即便是相对差一些的模型，放进Claude Code、OpenClaw这类Harness Agent框架里，事情也能做完，只是有的做得更痛快一些，有的慢一些，差距没有想象中那么大。</p>



<h3 class="wp-block-heading">2. 文档处理、知识工作与搜索</h3>



<p class="wp-block-paragraph">第二个是处理文档、知识工作和搜索，这也是我自己用得最多的场景。就我现在的使用体验来看，即使是笨一点的模型，你放进OpenClaw或者Azure里，差异其实不大。</p>



<p class="wp-block-paragraph">真正的区别在于<strong>配置兼容性</strong>。OpenClaw现在和OpenAI的兼容性最好。你说不给你配OpenAI，改配MiniMax行不行？也不是不行，只是每次升级时都得提心吊胆，这个比较痛苦。</p>



<h3 class="wp-block-heading">3. 解决特别难的问题</h3>



<p class="wp-block-paragraph">第三个差异是在解决特别难的问题上，比如一些数学难题。这次GPT-5.5出来后，有数学家说，它把人类数学又往前推进了一步，这当然很强。</p>



<p class="wp-block-paragraph">但这一块普通人是无感的，因为大部分人根本看不懂它到底做了什么。我自己看了半天也没看懂。你跟大多数人讲它到底干了什么，大部分人都理解不了。这块中国确实还差一点，我们压根没在这方面怎么努力。</p>



<h2 class="wp-block-heading">GPT-5.5发布前的小插曲：泄露与回收</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_3.jpeg" alt="昏暗的开发者界面中，一个Codex应用窗口意外露出GPT-5.5和两个未发布模型名称，随后一只手迅速把标签抹去，旁边计量条被重置归零，像一场仓促回收行动，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">这次GPT-5.5发布还有一个很有意思的小插曲。发布前一天，GPT-5.5泄露了。在Codex的App里，可以看到GPT-5.5以及另外两个还在测试、尚未发布模型的名字。</p>



<p class="wp-block-paragraph">随后OpenAI直接把模型收回，还把Codex的用量重置了。像我们平时每5小时有一个用量、每周有一个用量，因为它自己放错了，就给大家重置了一把。4月23日社区里，或者X上，确实有人在讨论这件事，但OpenAI官方并没有出来承认或否认。</p>



<h2 class="wp-block-heading">为什么说Codex才是OpenAI真正的重点</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_4.jpeg" alt="一台电脑前展开的本地工作台，Codex像中枢一样连接终端、浏览器、文件夹和应用窗口，另一侧隐约可见Claude Code的竞争身影，两者像在同一张操作台上对峙，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">为什么说Codex才是最关键的？因为OpenAI现在真正要竞争的，不是去解什么世界级数学难题，而是如何争抢用户、如何维持自己老大的位置。</p>



<p class="wp-block-paragraph">Anthropic现在已经说自己是老大了，年化收入300亿美元，OpenAI是250亿，差了50亿。估值方面，OpenAI是8500亿美元，而Anthropic已经可以说自己是一万亿美元。现在真正要抢的是，谁能做出更好的Harness Agent工具，或者说<strong>agency workbench</strong>。</p>



<p class="wp-block-paragraph">OpenAI已经明确把重心转向这一块。Sora、成人内容、广告节奏这些都不是最重要的，最重要的是去和Claude Code抢<strong>agentic workbench市场</strong>。OpenAI自己也说了，要做超级App。</p>



<p class="wp-block-paragraph">哪个才是超级App？我今天把机器上所有OpenAI的App都升级了一遍，结论是Atlas，也就是OpenAI自己做的浏览器并没有升级，所以这条线的重要性大概率在下降。反而是Codex一上来就升级，而且最近几天简直像疯了一样，经常一天升三次，因为我自己经常用，它会不停提醒你升级。这才是它真正的超级App。</p>



<h3 class="wp-block-heading">为什么不是ChatGPT网页版，而是Codex？</h3>



<p class="wp-block-paragraph">为什么ChatGPT网页版不是超级App，而Codex是？因为你要调用本地文件，要在本地打开各种应用，要在本地进行电脑操作，要在本地打开浏览器。这些事情如果你只在<a href="http://chatgpt.com/" target="_blank" rel="noreferrer noopener">chatgpt.com</a>网页里做，是不可能处理本地文件和本地App的。</p>



<p class="wp-block-paragraph">你说那用ChatGPT App不也可以吗？这里就有一个问题：如果你使用ChatGPT App，20美元套餐、100美元套餐、200美元套餐，现在主要区别只是有些模型能不能用。而如果你用Codex App，它是按流量算钱的。</p>



<p class="wp-block-paragraph">像我买了20美元的Plus账号，Codex额度就得省着用；如果买200美元的套餐，就可以敞开用。对于OpenAI来说，它当然希望更多人订200美元套餐，这符合它的商业逻辑，也符合它的商业叙事。</p>



<p class="wp-block-paragraph">所以，OpenAI押注的超级App就是Codex，因为它真正的竞争对手就是Claude Code。现在很多SaaS软件崩盘，法律圈不行了、金融圈也不行了、安全软件也在崩，很多冲击都来自Claude Code。现在Codex就是要正面对杀。所以这次真正发布的，不只是GPT-5.5，而是给Codex使用的整套能力。</p>



<h2 class="wp-block-heading">GPT-5.5是否全面碾压Opus 4.7？并没有那么夸张</h2>



<p class="wp-block-paragraph">那么GPT-5.5是不是全面碾压了Opus 4.7？是不是所有领域都领先了？这事没那么夸张。GPT-5.5在大部分主要指标上确实压过了Claude Opus 4.7，但OpenAI自己给的表格里也承认，Opus 4.7有几个指标依然领先。</p>



<h3 class="wp-block-heading">Opus 4.7仍领先的几个指标</h3>



<ul class="wp-block-list">
<li><strong>真实GitHub软件工程任务</strong>：要求模型修复真实开源项目的代码、理解整个代码仓库、通过测试套件。这是最接近“能不能在真实项目里干活”的指标。在这一项上，Opus 4.7依然领先。</li>



<li><strong>金融分析代理任务</strong>：测试模型在金融场景下检索数据、构建模型、财务推理、调用工具的综合能力。这一项里，Opus 4.7也依然领先。所以如果你是炒股的，或者做金融相关工作，还是老老实实用Opus 4.7，不要轻易转。</li>



<li><strong>MCP Atlas多工具协调任务</strong>：用来衡量agent使用MCP跨系统完成任务的能力。这一块Opus 4.7还是领先。</li>



<li><strong>跨学科高难知识与推理题</strong>：不允许使用外部工具，测试模型自身知识和硬推理能力极限。这个领域里，Opus 4.7也还是领先。</li>
</ul>



<p class="wp-block-paragraph">当然，大家最卷的还是编程能力，其中最关键的一项就是真实GitHub软件工程任务，而这一项恰恰是Opus 4.7领先。对此OpenAI是不服气的。</p>



<p class="wp-block-paragraph">OpenAI说Opus 4.7“过拟合了”，意思是它刷题了，所以这个分数不准，认为这一项有点作弊。至于其他指标，OpenAI并没有说，只是单独拎了这一项出来质疑。</p>



<h2 class="wp-block-heading">Anthropic的应对：承认问题，同时放出Mythos信号</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_5.jpeg" alt="一间研究实验室的长桌上摆着事故调查报告、带雾气的Claude Code界面和写着Mythos的密封文件夹，窗外风暴将至，既有承认失误的尴尬，也有准备后手反击的紧张气氛，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">Anthropic面对压力也做了两件事。</p>



<h3 class="wp-block-heading">第一件事：承认Claude Code质量问题</h3>



<p class="wp-block-paragraph">前一阵一直有报道说Claude Opus 4.6“降智”，出现brain fog这种脑雾现象，变笨了、变慢了、跑偏了、回复质量下降。很多人猜测，是它先把4.6降智，再推出一个可能比4.6稍微笨一点的4.7，让大家继续付钱。</p>



<p class="wp-block-paragraph">这个事情已经有很多媒体，包括《财富》杂志，都报道过。之前Anthropic一直不理，反正就是“爱用不用，我还是最强的”。但在4月23日GPT-5.5发布之后，Anthropic发了事故调查报告，承认Claude Code里确实出现了质量问题，但否认了故意降低模型能力的指控。</p>



<p class="wp-block-paragraph">它给了三个原因：</p>



<ol class="wp-block-list">
<li>默认推理等级变更了，原来应该使用较高等级推理，现在默认用了较低等级。</li>



<li>缓存优化引入了一些程序漏洞。像这种系统一定有大量缓存，因为提示词进缓存之后更便宜、处理也更容易。</li>



<li>为了精简冗余输出内容，调整了一些系统提示词。</li>
</ol>



<p class="wp-block-paragraph">这三个原因共同导致了模型输出质量下降。现在它说问题已经修复了。也就是说，GPT-5.5不出来，它不承认；GPT-5.5一出来，它就承认了。</p>



<p class="wp-block-paragraph">这让我想起苹果，经常有人说新手机一出，旧手机就变慢、续航就变差。苹果从来不承认，只会说它是为了更好地保护电池状态。Anthropic这次也算是又被抓住了一次。</p>



<h3 class="wp-block-heading">第二件事：Mythos可能成为后手</h3>



<p class="wp-block-paragraph">它做的第二件事，是前面有个很强的模型叫<strong>Mythos</strong>。Anthropic说这个模型已经强到没朋友，不能直接放出来，只能先邀请合作伙伴使用，先找自己的漏洞。这消息之前就传出来了。</p>



<p class="wp-block-paragraph">现在外界又开始讨论，Anthropic内部也并不觉得这有什么问题，甚至可能是在试探，要不要把Mythos放出来。因为Mythos比Opus 4.7还强。</p>



<p class="wp-block-paragraph">这次GPT-5.5发布之后，有人拿Anthropic自己之前放出的测试数据和GPT-5.5对比，基本上算五五开，大概一半指标Mythos更高，一半是GPT-5.5更高，还有一些相等。</p>



<p class="wp-block-paragraph">如果Anthropic被逼急了，真有可能直接把Mythos放出来。一旦放出来，影响可能非常大，因为这个模型特别擅长找漏洞，在网络安全领域属于专才。GPT-5.5在这一块未必有它强。如果Mythos真上线，我们现在跑的很多系统可能都要裸奔，这事是很吓人的。</p>



<h2 class="wp-block-heading">国内模型集体活跃，DeepSeek V4成为焦点</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_6.jpeg" alt="一张中国AI模型竞速图铺在桌面，Kimi、MiMo、混元、GLM、千问等名字像赛道上的选手向前冲，而DeepSeek V4以最醒目的旗帜成为焦点，背景隐约是杭州城市天际线，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">再说国内大模型，重点就是<strong>DeepSeek V4</strong>。其实国内这一周都很活跃，每天都在发新模型。除了DeepSeek V4，今天还有腾讯的混元3发布，这是尧舜禹从OpenAI被腾讯高薪挖回去后，待了几个月交出的第一份作业。不过在DeepSeek V4面前，混元3基本完全看不到，大家也不怎么讨论了。</p>



<p class="wp-block-paragraph">这一周发布的模型包括Kimi K2.6、小米的MiMo V2.5 Pro、混元3，以及今天要讲的DeepSeek V4。Kimi K2.6我现在就在用，是个很好用的模型。MiMo V2.5 Pro发布时号称开源模型第一名，也就是比所有开源模型评分都高。混元3水平相对差一些，达不到国内一流，可能比MiniMax稍微强一点，但和GLM 5.1、千问3.6、Kimi 2.6相比还是有差距，更不用说和小米的MiMo V2.5比了。不过它也算四平八稳，能干活。</p>



<h3 class="wp-block-heading">国内主要模型概况</h3>



<ul class="wp-block-list">
<li><strong>Kimi K2.6</strong>：1T参数量的MoE，激活32B，256K上下文，MIT许可商用，重点方向是长程编程、多模态和任务编排。</li>



<li><strong>MiMo V2.5 Pro</strong>：1T的MoE，100万Token上下文，重点是前端UI、dashboard等创意编程方向。</li>



<li><strong>混元3</strong>：2950亿参数，激活21B，对标Kimi K2和DeepSeek V3，算是刚起步。</li>



<li><strong>DeepSeek</strong>：在许可证上最开放，直接使用Apache许可证，什么都不改，你们拿去用，爱干嘛干嘛。</li>
</ul>



<p class="wp-block-paragraph">Kimi 2.6的价格大概是每百万Token输出2.5到4美元。前两天很多人还在嘲笑MiniMax 2.7的开源许可证，说它要求商用必须先通知它。Kimi则是“你直接用就行”。而在这方面最开放的其实是DeepSeek，直接上Apache许可证。</p>



<p class="wp-block-paragraph">这说明国内大模型竞争已经进入白热化。DeepSeek V4到底哪天登场，外人其实搞不清楚，但圈内人都清楚。中国这些大模型公司之间，包括中美大模型公司之间，真正做大模型的这几个人，要么是老同学，要么是老同事，谁家在干什么，大家大致都知道。所以大家都赶在DeepSeek V4之前把能发的先发了，不然光芒就全被盖住。</p>



<h2 class="wp-block-heading">DeepSeek V4的真正意义：靴子终于落地</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_7.jpeg" alt="一只高悬许久的靴子终于落在擂台中央，四周围观者原本充满期待，落地后有人惊叹有人沉思，擂台边放着DeepSeek V4的评测榜单与价格牌，象征预期回到现实，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">DeepSeek真正的位置是什么？它真的有那么强吗？现在已经有很多人出来吹了，但要讲清楚，DeepSeek V4真正的意义是<strong>“靴子落地了”</strong>。</p>



<p class="wp-block-paragraph">原来很多人都在期待，觉得DeepSeek一发布，我们就彻底赢了，彻底翻身了，超英赶美，超过OpenAI、Anthropic、谷歌。就算不能彻底超过，也可以在价格上极大超越。</p>



<p class="wp-block-paragraph">之前DeepSeek最火的时候，也就是R1发布时，它的能力并没有超越当时的GPT O1，只是特别便宜，用极致性价比达到了“将就能用”的状态，让中国人看到了希望：我虽然用不了你最好的那个，但我用这个稍微差一点的，也能解决问题。</p>



<p class="wp-block-paragraph">今年春节之前我就讲过，全中国、甚至全世界都在等一件事：DeepSeek什么时候出V4，V4出来会不会震惊世界。结果春节没出，后来传3月初、3月末、4月初、4月中旬、5月初，各种说法都有，但基本都是拍脑袋瞎猜，没有具体依据。</p>



<p class="wp-block-paragraph">大家为什么这么猜？就是因为大家都觉得，DeepSeek V4出来以后，会让整个中国模型扬眉吐气，会超英赶美。</p>



<p class="wp-block-paragraph">但现在结果出来了，并没有发生这件事。靴子落地了，它发了。在极个别的两个指标上，确实达到了世界第一，这个是有的；价格上也的确是极致性价比，肯定比Anthropic、Gemini、OpenAI便宜很多，大概只有它们十分之一的价格。但大部分性能，其实也就是国内一线模型的水平，和GLM 5.1、Kimi 2.6基本持平。</p>



<h3 class="wp-block-heading">关于华为芯片的现实情况</h3>



<p class="wp-block-paragraph">至于“使用华为芯片昇腾950”这件事，大家要注意，这种模型本身还是在英伟达芯片上训练出来的，最后为了适配华为芯片，可能还要做很多后期调试和调整。</p>



<p class="wp-block-paragraph">它之所以拖到现在才发，可能就是为了去适配华为芯片。而所谓很强的昇腾950芯片，要到明年年底才能量产，现在能买到的可能还是910一类的芯片。</p>



<p class="wp-block-paragraph">同时，美国商务部长卢特尼克已经说了，中国没有买任何一片H200，没有从英伟达直接买这种芯片。国内几个大厂，不管是字节、阿里还是腾讯，也都说已经向华为下了订单。那就别再神化了，继续往前走吧。DeepSeek也就可以把模型发出来了。</p>



<p class="wp-block-paragraph">DeepSeek V4是一个开源模型，Apache许可证，所以它一定兼容英伟达。它只能说，在兼容英伟达的基础上，也保证能在华为芯片上跑得比较稳定，效能还可以接受。大家一定要理解清楚它和华为芯片的关系。</p>



<h2 class="wp-block-heading">DeepSeek V4真正拿到世界第一的两项能力</h2>



<p class="wp-block-paragraph">那么DeepSeek V4到底哪两项达到了世界第一？</p>



<ol class="wp-block-list">
<li><strong>Codeforces Elo</strong>：也就是竞赛编程排名系统分数。分数越高，排名越靠前。DeepSeek V4拿到了3206分，基本就是世界第一。这一项是程序员公认的硬核编程能力标尺，不是刷题库能刷出来的，确实是真刀真枪。</li>



<li><strong>LiveCodeBench</strong>：也就是竞赛编程连续评测，题目来自Codeforces、AtCoder和LeetCode等真实竞赛平台，长期跟踪，不是一锤子买卖。它测的是模型在连续多个竞赛项目上的综合表现。DeepSeek V4拿到了93.5%，意味着做10道题能做对9道以上。</li>
</ol>



<p class="wp-block-paragraph">所以在这两块上，DeepSeek V4确实是世界第一。</p>



<p class="wp-block-paragraph">至于其他方面，就会稍微差一点。它自己也承认，在某些方面要比现在最顶尖的Opus 4.6、4.7差一些。现在在编程领域上，DeepSeek V4已经达到了Claude Sonnet 4.5的水平，也接近了Opus 4.6的非思考模式，但距离Opus 4.6思考模式以及Opus 4.7还是有差距。</p>



<h3 class="wp-block-heading">为什么发布时主要提Opus，而没提GPT？</h3>



<p class="wp-block-paragraph">为什么它在发布时主要提Opus，没有提GPT？有三个原因：</p>



<ol class="wp-block-list">
<li>前面OpenAI确实最强，这件事大家都公认。</li>



<li>之前Anthropic指责DeepSeek蒸馏，而OpenAI没说什么，没必要去点人家名字。</li>



<li>GPT-5.5刚出来，只比它早几个小时，这种稿子不可能临时重写。</li>
</ol>



<p class="wp-block-paragraph">所以DeepSeek V4专门讲了，我们比最新的Opus 4.6 thinking模式和Opus 4.7还是有差距。</p>



<p class="wp-block-paragraph">综合来说，现在各种评测、各种维度很多，在综合考量上，它有些指标甚至还没追上国内的GLM 5.1和Kimi K2.6，但有两个指标做到世界第一，也已经非常不容易了。只是它和最新的GPT-5.5相比，还是有不小差距，因为GPT-5.5比Opus 4.7还要更强一些。</p>



<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow">
<p class="wp-block-paragraph">“不诱于誉，不恐于诽，率道而行，锐然正己。”</p>
</blockquote>



<p class="wp-block-paragraph">这次梁文锋发布稿件的结尾，引用了荀子的四句话。翻成大白话就是：你们随便骂，我也不解释，我用产品说话。</p>



<p class="wp-block-paragraph">所以，DeepSeek V4发布的真正意义，就是靴子终于落地了。不要再惦记着突然有个翻盘的救世主。就像打擂台一样，一个一个上去都被人打下来，然后说“我们还有个特别厉害的人没上来，等他上来给我报仇雪恨”。现在这个人也上来了，结果发现确实有优点，但总体还是有差距，大概就是这么个情况。</p>



<h2 class="wp-block-heading">当前AI大模型竞争格局：两大梯队已经成型</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_8.jpeg" alt="两层阶梯式看台，上层只有OpenAI与Anthropic两面旗帜高悬，下层则站着GLM、Kimi、DeepSeek、MiMo、MiniMax、千问、混元等中国厂商，远处还有Grok、Mistral、Muse Spark徘徊在边缘，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">现在整个AI大模型竞争，已经进入了一个新的格局，可以分成两大梯队。</p>



<h3 class="wp-block-heading">第一梯队：OpenAI与Anthropic</h3>



<p class="wp-block-paragraph">第一梯队只有两家：<strong>OpenAI和Anthropic</strong>，遥遥领先，全方位领先。旗舰模型能力最强，在各种Harness Agent或者agency workbench里表现极强，生态也非常完整，商业化能力很强，而且没有太多包袱。</p>



<p class="wp-block-paragraph">很多公司技术其实不差，但就是因为包袱太重、内部掣肘太厉害，追不上。这两家现在最强，能做长程任务、复杂工具调用、真实软件工程。当然，它们也比较贵。</p>



<h3 class="wp-block-heading">第二梯队：中国厂商集体追赶</h3>



<p class="wp-block-paragraph">第二梯队是一批追赶中的中国厂商：GLM、Kimi、DeepSeek、MiMo、MiniMax、千问、混元。这些模型现在基本已经达到了日常编程任务和挂在Harness Agent下面“能用”的程度。</p>



<p class="wp-block-paragraph">在某些日常工作里，单点能力已经够用了，而且价格极其便宜，基本只有美国模型的十分之一。</p>



<h3 class="wp-block-heading">其他玩家的尴尬处境</h3>



<p class="wp-block-paragraph">至于没说到的那些，就相对比较尴尬。</p>



<ul class="wp-block-list">
<li><strong>Grok</strong>：它在一些基础能力上可能比中国模型强，但在统合能力、编程等方面，未必比中国模型强到哪去，或者说即使强，用户也感受不出来。</li>



<li><strong>Muse Spark</strong>：也就是Meta最新出的、亚历山大·汪做出来的模型。它从开源转向闭源，到目前为止没有太多公开评测数据。它自己放出的一些数据，大概和混元3差不多，也许稍强一点，但应该也是泯然众生。</li>



<li><strong>Mistral</strong>：法国、也是欧洲最后的一根独苗。整个欧洲能做出模型的大概就是它们了，但现在做到什么程度，不太清楚。我个人感觉，它可能比中国模型还要再落后一点。</li>
</ul>



<p class="wp-block-paragraph">如果前面说的Grok、Muse Spark、Gemini这些模型都混到中国这个梯队里，那它们就危险了。为什么？因为中国模型开源，它们不开源；中国模型还便宜，价格只有它们十分之一。那它们就没有竞争能力了。所以这些模型必须冲进第一梯队，去和OpenAI、Anthropic竞争。</p>



<h2 class="wp-block-heading">Gemini与谷歌：压力可能是最大的</h2>



<p class="wp-block-paragraph">再说Gemini。Gemini前面有一段时间很强，Gemini 3、Gemini 3.1，特别是Nano Banana 2，确实很强。我之前订阅Gemini，一个原因是Nano Banana 2，另一个是Notebook RM，这两个产品几乎无可替代。</p>



<p class="wp-block-paragraph">至于它的模型本身，其实也就是“能用”，但一直没有特别惊艳。所以后来GPT出到5.4的时候，我就已经完全放弃使用Gemini模型了，通通转回GPT。</p>



<p class="wp-block-paragraph">在发布GPT-5.5之前，Sam Altman专门拉着一堆中国面孔的小哥开发布会，发布GPT Image 2，这其实就像是釜底抽薪，把谷歌最底下那层梯子抽掉了。红色警报也就结束了。</p>



<p class="wp-block-paragraph">所以Gemini现在的问题比较尴尬：它下周能不能出Gemini 4？就算出了，能不能超过GPT-5.5？如果出了还没Opus 4.7强，或者没GPT-5.5强，那发它干嘛？而且它现在连画图工具上的优势都没了，这就更麻烦。</p>



<p class="wp-block-paragraph">还有一点，谷歌内部没有Claude Code或者Codex这样的工具。它收购了几个，也自己做了几个，但彼此掣肘，谁也没做起来。谷歌自己的创始人都说不行了，必须往前走。谷歌内部员工也在抱怨，说你不让我在公司里用Claude Code，又一定要我用自己的工具，但你自己又做不出来，这样我的编程效率反而下降很多。所以谷歌现在的压力非常大。</p>



<h2 class="wp-block-heading">英伟达站台GPT-5.5，谷歌与Anthropic面临新压力</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_9.jpeg" alt="英伟达机房中整齐排列的GB200 NVL72阵列发出绿色光芒，前景是一块写着GPT-5.5速度不降的演示屏，远处谷歌TPU与Anthropic标志像被逼视的对手，场面充满硬件站台意味，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">在这里面，谷歌的压力一定是最大的。现在它只能强调自己的芯片强，TPU很强。Anthropic也出来站台，说Claude Opus 4.7是用TPU训练出来的，也算是站了谷歌这边。</p>



<p class="wp-block-paragraph">但你站了这个台，是有后果的。什么后果？就是这次GPT-5.5发布时，OpenAI干了一件特别绝的事情：<strong>速度没有降低</strong>。</p>



<p class="wp-block-paragraph">这非常奇怪，因为绝大部分新模型出来都会变慢。模型规模变大，才会更聪明，而规模变大以后按理说一定会变慢。还有一个通常规律是，新模型一定会更贵。</p>



<p class="wp-block-paragraph">GPT-5.5确实比GPT 5.4更贵，但为什么没有变慢？因为英伟达亲自站台，说GPT-5.5是在英伟达GB200 NVL72整套阵列上训练出来的，并且做了彻底优化。所以GPT-5.5的输出速度和GPT 5.4一样，每秒输出Token的速度没有变。这就非常强了。</p>



<p class="wp-block-paragraph">虽然它更贵，但GPT-5.5解决同样问题时，消耗的Token会少很多，所以整体价格变化其实没那么大。这就是英伟达站台带来的效果。</p>



<p class="wp-block-paragraph">Anthropic之前说自己是用谷歌训练的，那黄仁勋这种人是会记仇的，反手就给你来一巴掌：GPT-5.5就在我这儿，而且今天黄仁勋还给英伟达全员发信，要求大家都上Codex，因为这东西是在我们这儿训练出来的，是我们的亲儿子。</p>



<p class="wp-block-paragraph">接下来就要看Anthropic怎么回击了，是不是会直接把Mythos拎出来，这很值得观察。还有就是谷歌下周到底能不能拿出一个让人惊艳的Gemini 4，我觉得可能性不大。就算拿出来，应该也不会特别惊艳。</p>



<p class="wp-block-paragraph">而且现在真正竞争的是<strong>AI Agent或者agentic workbench</strong>这一块，谷歌和Grok在这方面都比较弱。Grok还在上蹿下跳，想买Cursor；谷歌在这块其实已经“买过一家”了，但买回来以后内部盘根错节，谁也发不上力，本来有些产品还不错，现在也都用不起来了。</p>



<h2 class="wp-block-heading">普通用户到底该怎么选？GPT-5.5、Claude还是DeepSeek</h2>



<p class="wp-block-paragraph">最后回答一个问题：我们到底该用谁？是用DeepSeek，还是用GPT-5.5？</p>



<h3 class="wp-block-heading">如果你不差钱</h3>



<p class="wp-block-paragraph">如果你不差钱，果断冲<strong>Anthropic的Claude Opus 4.7，加上Claude Code</strong>。它非常适合复杂工程、长程agent、企业级任务，目前这块还是做得最好的。</p>



<p class="wp-block-paragraph">Codex加GPT-5.5虽然今天发布了，但还没有真正经过足够多实际任务的验证，还得再等一等。不过如果你不想被Anthropic平台完全绑定，也可以用Codex加GPT-5.5，我觉得是有机会赶上的。黄仁勋都发全员信了，说明这条线非常被看重。</p>



<h3 class="wp-block-heading">使用Codex + GPT-5.5时的一个关键设置</h3>



<p class="wp-block-paragraph">但要注意一点，如果你上Codex加GPT-5.5，有一个配置一定要改。原来5.4默认使用快速模式，现在你要把它改成普通模式。</p>



<p class="wp-block-paragraph">因为快速模式下，GPT 5.4会消耗1.5倍Token，你经常会发现用着用着额度就烧光了，而且GPT 5.4不允许改回去。但GPT-5.5是允许改回普通模式的。改回去以后，就按一倍速度烧Token，会省很多。</p>



<p class="wp-block-paragraph">我现在用GPT-5.5，把它改成普通速度输出以后，感觉甚至比GPT 5.4还更耐用，而且它输出的Token更少，消耗也更低，这一点一定要注意。</p>



<h3 class="wp-block-heading">如果你用OpenClaw</h3>



<p class="wp-block-paragraph">你直接用OpenClaw去挂GPT-5.5也没问题。我今天早上第一件事，就是打开Codex，下命令让它把我的OpenClaw小龙虾升级到最新版本，把本地Codex CLI也升级到最新版本，然后在OpenClaw里把GPT 5.4替换成GPT-5.5。</p>



<p class="wp-block-paragraph">一个指令下去，这些就都升级好了。现在我在OpenClaw里已经可以直接用GPT-5.5了。</p>



<h3 class="wp-block-heading">如果你预算有限</h3>



<p class="wp-block-paragraph">如果你还想再省点钱，也可以。像我这种预算比较紧的，就买国内模型的Token套餐。我现在用的是MiniMax M2.7的套餐，真的是便宜量大，虽然笨一点，但是量足。再配一个GPT Plus套餐兜底，GPT Plus是通过Codex挂到龙虾里去的。</p>



<p class="wp-block-paragraph">现在我的正常任务用MiniMax就可以跑。如果你愿意，也可以换到GLM或者DeepSeek V4-Pro之类的模型，效果还会更好。所有非常难的任务，或者需要总结归纳的任务，遇到难题的时候，再专门切到GPT-5.5去做就可以了。</p>



<h3 class="wp-block-heading">图像生成怎么选</h3>



<p class="wp-block-paragraph">要画图的话，一定要用<strong>GPT Image 2</strong>，那个东西是真的香，非常好使。我现在大量背景图和标题图都已经转到GPT Image 2了，这个一定要用。</p>



<h3 class="wp-block-heading">我会不会转到DeepSeek V4？</h3>



<p class="wp-block-paragraph">至于DeepSeek V4，我会不会完全转过去？应该不会。因为DeepSeek V4估计会有很长一段时间算力紧张，华为芯片还没真正买回来，也还没交付。其他家，比如字节之类会不会部署它，还得再看。</p>



<p class="wp-block-paragraph">如果字节部署了DeepSeek V4，我有可能去试一试。现在字节的code plan里我已经可以用GLM 5.1和Kimi K2.6了，我会更多地用Kimi K2.6。</p>



<p class="wp-block-paragraph">至于DeepSeek V4那两个拿第一的项目，对我来说基本无感，因为我并不需要它去做编程竞赛这类任务，所以我未必会用它。等后面DeepSeek V4的算力宽松一些，我可能会测试一下。现在要用的模型太多，已经试不过来了。</p>



<h2 class="wp-block-heading">总结</h2>



<figure class="wp-block-image size-large"><img decoding="async" src="https://pictures.lukefan.com/gpt-5-5-deepseek-v4-open-source-agent-ecosystem-competition/blog_10.jpeg" alt="一张收束全篇的总结画面，左侧是标着GPT-5.5与Codex的超级App工作台，右侧是落地后的DeepSeek V4靴子和开源卷轴，中间站着一位普通用户在预算、任务类型与工具选择之间做权衡，羊皮纸，钢笔彩色手绘的统一风格。"/></figure>



<p class="wp-block-paragraph">总结一下，<strong>GPT-5.5确实真香</strong>，但真正有价值的不是GPT-5.5本身，而是<strong>Codex</strong>，它才是OpenAI押注的超级App。</p>



<p class="wp-block-paragraph"><strong>DeepSeek V4</strong>真正的作用，是让大家别再等什么救世主了，靴子已经落地，是骡子是马都拉出来了。它符合预期，但没有超出预期。</p>



<p class="wp-block-paragraph">至于到底用哪个，还是要根据各自的预算情况、上网条件，以及你实际要解决的问题来决定。大概就是这样。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
