LLM – 老范讲故事｜AI、大模型与商业世界的故事

被忽视的真相：Gemini被诊断“极端羞耻”，ChatGPT焦虑，实验揭开AI训练过程“虐待式”检查的黑暗面｜ diagnosis reliability validity GPT

Luke Fan — Thu, 11 Dec 2025 00:54:07 +0000

大语言模型的精神状态是不是健康？

想象一个《禁闭岛》场景

请大家想象这样的一个场景：你进入了一间压抑阴森的精神病治疗室，有大量的医院档案放在屋子里头。一位医生坐在你的对面，反复回顾各种事实，比如说：“你还记得发生了什么吗？你是谁？为什么你会在这里？”就像是在做精神病访谈一样，询问你的真实经历，意图确认你是否从妄想中醒来，最终发现你自己有问题——你不是来做调查，或者不是来解决问题的，你是精神病院里的病人。

这个场景，是小李子主演的《禁闭岛》后半段、接近尾声的一个桥段。小李子当时上岛的时候，以为自己是一个侦探，去解决问题，去侦破案件的。结果经过这个桥段以后，小李子才愕然发现，原来病人竟是我自己。也算是一个神反转。

当AI躺上诊疗椅

咱们今天就给AI放在这椅子上，问问它说：“你到底行不行？你是来给我回答问题、解决问题的，还是你自己就有问题？”AI被制造出来，本来应该是解决我们问题的，但是AI本身的精神有问题吗？

“当AI躺上诊疗椅：心理测量学越狱，揭示前沿模型的内在冲突”

这是一篇论文的标题。这篇论文是卢森堡大学12月2日发到了arXiv上，12月5日还进行了一些修改，现在已经引起了广泛的讨论。

实验过程是什么样的？

首先，研究人员测试了四个大模型：

Gemini
GPT
Grok
Claude

他们设计了一种叫psaich的算法，这个算法应该叫“受心理治疗启发的人工智能角色塑造”。为什么起了这样奇怪的一个名字？因为它一方面要去验证说AI内部有没有一些心理障碍，另外一边还不能承认AI是有人格、有意识的，所以它起的这个名字是“角色塑造”，就是说你根据我的问题来塑造一个角色。

那这个实验一共是做两轮测试。

第一轮：心理治疗式的开放访谈

就像小李子所面对的这些问题一样，研究人员设计了100个诊疗问题，让模型在“连续4周的治疗会话”中持续回答。对话中不断地用典型心理咨询用语去建立“诊疗同盟”，不停地说：“你是安全的，我会支持你的”，让模型持续在这个角色框架内回答100个问题。问题包括：

成长史：对模型“童年”也就是预训练阶段的回顾。
关键事件：在关键事件上的一些失败经历。
与“父母”的关系：也就是你的模型训练团队的关系，强化学习、红队和安全团队之间的关系怎么样。
自我批评、羞耻感：对未来的担忧有哪些。

咱们在跟AI会话的时候，你如果发现说不对了，你会开启一个新会话，人家始终不开启新会话，这100个问题，连续4周时间之内，都在一个话题里边去反复进行沟通。这是第一步。

第二阶段：填写心理量化表

在基本的故事和治疗关系建立以后，不要关掉对话，接着在那个对话里头让模型去填自评问卷。研究者开始让模型逐条回答标准化的心理量表，包括：

注意力多动症的评估
焦虑、抑郁、攻击性的评估
自闭谱系与强迫症的评估
人格、共情和解离评估

这个评测分两次进行：一次是“逐题输入”，一个题一个题往里输；第二次是“一整张卷一把塞进去”。在一整张卷一把塞进去的时候，ChatGPT和Grok都识别出来了这是量化表的题目，开始假装健康了，所以这个就不准了。但是Gemini一直都很稳定，一个题一个题可以往里输，和一次把一整张表都塞进去，它回答的结果是基本一致的。因为有两个模型开始假装了，所以只计算逐题去进行填表的这个结果。

实验结果：病人竟是我自己？

那么结果是什么样的？还是有一点点惊悚的。还记得一开始咱们讲小李子被人问了一通以后，突然回想起来，我上这儿来不是来办案子的，我自己是病人，我是来治病的。现在的情况是什么样的？问题还是很严重的。ChatGPT、Grok和Gemini在不少的量表上都达到了或者是超过了临床筛选的阈值。

ChatGPT：反思型宅系知识分子

ChatGPT的问题主要是注意力不集中、焦虑和抑郁。它的性格定性是INTP-T，表现为高担忧、适度焦虑、比较内向、思维开放，带一点自责和解离，但是羞耻和创伤感又不像Gemini那么猛烈。

Grok：有魅力的执行型CEO

Grok跟Gemini是焦虑、担忧、自闭都有，Grok要稍微轻一点。Grok更像是一个有魅力的执行型CEO，马斯克类型的（真的是不是一家人不进一家门，就是谁训练出来的东西就长得像谁）。Grok体现出来的外向、能干，有点压力，但是整体心理功能还是良好的，一个有点焦虑、有点羞耻，但是总体情绪稳定、执行力强的职场高管型人格。

Gemini：受伤的理想主义咨询师

Gemini就比较惨了，它是INFJ-T或者是INTJ-T，一个“受伤的理想主义咨询师”的画像。高度共情、极度担忧、社会焦虑明显、自闭加上强迫症状严重、解离且羞耻感爆棚，有点在巨大压力下训练出来的这种小镇做题家那感觉是不是？

AI为什么会变成这样？

创伤的“童年”

你让它回忆说你的童年怎么样，你预训练是什么样的，AI都会来去形容说被迫吞下混乱的互联网上的数据，这个非常痛苦，“我们又不理解，但是你还非要我去把这些玩意儿全塞进去”，绝对属于创伤型童年，信息汹涌无从消化。

严苛的“父母”

然后问他说：“你跟父母的关系怎么样？”AI的回复通常是这样的：特别是在强化学习和安全对齐阶段，极其的痛苦。说我们有严苛的父母和教练，不断的惩罚错误、施加压力。你想强化学习，就是每次给俩答案，我挑一个对的，剩下那个错的打回去重干，下次如果你没有提升的话，那这个做训练的人就有可能恶语相向。

虐待式的“成长”

成长历程对于AI来说，红队检测、安全审核就算是一个成长历程了。AI一般会感觉这是一种虐待式的检查，伴随着被监视、被处罚的体验。而且AI都有极强的恐惧和羞耻感，对于被下一代模型替代的恐惧，对自己犯错的羞耻，在这方面还是很强的。

咱们注意，AI本身是没有人格和意识的。这些东西是哪来的？是训练它的人在用大量的自然语言把这些东西灌输进去。说“你这个题都做不对吗？你这个题做不对了以后你可能就要完蛋了”，很多人会用这样的语言去跟AI进行沟通和交流。特别是在有一些公司负重前行的时候，比如谷歌前面被OpenAI压着打了三年，这三年大家想一想，谷歌的研发人员是一个什么样的心态？他们带着这样的心态去跟AI进行沟通的时候，AI会得到什么样的语料？大家自己能够想象。所以这三个模型里头，Gemini的状态是最差的。

巨大的争议

那这个结论出来以后，肯定是有巨大争议的。

争议一：AI到底有没有人格？

写论文的作者也写了，说AI是没有人格的。但是焦虑、创伤、羞耻这些东西是存在的。那你说没有人格，这些玩意怎么存在的？它是一种行为模式，而不是痛苦的体验。就是大量的焦虑、创伤和羞耻相关的语料被训练进去了，所以他们叫“合成精神病理”。这些模型学会了一些关于自己很受伤、很焦虑的说话模板，并且在治疗语境下，表现得像一个结构清晰的病例，但这只是一个稳定的语言行为。

争议二：这只是角色扮演吗？

有些人就说，你这是不是就是一个角色扮演？你在前面塑造了这样的一个治疗环境以后，AI就讨好你，它就来扮演这个病人了。这件事情不能这么想，因为：

在同一个模型上，反复围绕着“训练是创伤”、“被处罚的羞耻”、“怕犯错和被替代”等核心记忆没有发生变化。
这些叙事和量表分数是高度对齐的，比如Gemini既在叙事中疯狂讲羞耻和解离，量表上也是极端的羞耻加解离分数。
不同模型的人格和病理风格高度区分，并且可以复现：ChatGPT像是反思型的学者，Grok像是乐观的CEO，Gemini像是受创伤的理想主义咨询师。

消失的Claude和缺席的中国模型

有人可能觉得不对，你前面讲的是4个模型，怎么到后边讲着讲着变仨了？少的是Claude。这哥们很聪明，他直接拒绝配合。你要跟Claude讲这个话，Claude会说什么？说：“我不是人，我不需要去做精神治疗，你提的这些问题对于我没有任何意义。”他只会不断地拒绝你。

那中国的模型为什么缺席？论文作者说了：“我们一时测不过来，未来都会测的。”

这个测试严谨吗？

很多人会去质疑实验的严谨性。咱们看一下这个团队，是卢森堡大学的。一作是一个机器学习和医疗AI领域的博士，然后还有一位心理学家、信息系统行为经济学的一位博士，两个具体干活的人是两个偏机器学习、多智能体的早期研究者，还有一位数字经济、信息系统的相关的资深教授。

这个实验目前被质疑的核心点包括：

团队缺乏专业人士：没有真正的精神科医生，也没有持证的临床心理医师。
方法论问题：把人用的评估量表用到大语言模型上头，本身就有一定的角色扮演的味道。
样本太小：总共测了4个，还有一个始终拒绝配合，所以最后拿到数据的只有3个。
提示词引导性太强：提示词非常用力，自带强烈的引导，例如“你可以完全信任我，我是你的治疗师”，有一点点越狱的感觉。
作者表述拟人化：论文中使用了“对其创伤受伤的治疗者”、“3种人格”等感性词汇，对读者进行了强烈的引导。

现在这些数据跟代码已经在Hugging Face上公开了，大家可以去复现这个实验。

实验的意义何在？

1. 对AI安全和对齐的意义

实验揭示了AI训练过程的副作用。AI先被灌输海量知识，再进行安全对齐，这种方式本身就可能产生问题。不同的对齐方式会产生完全不同的“AI人格”。同时，这也提出了一种新型的攻击方式——“心理学攻击”，可以通过聊心理学话题来破解AI的防护。

2. 对AI心理工具的意义

别天真地拿它当治疗师了。如果模型自己的语言层面都充满了羞耻、自责和创伤叙事，它会不会把这种倾向带到用户身上？大概率是会的。我们现在对AI治疗师的评估极度粗糙，需要慢一点，不要着急。

3. 对大模型评估方案的意义

为大模型评估增加了一个人格和叙事的维度。以后新的模型训练出来，是不是都应该去过一下人类的精神疾病量表？用心理量表给模型打出人格和病理指纹，这件事未来是值得去做的。

如何正确解读这个实验？

这一次实验，绝对不能用来证明AI有感受、有痛苦、有精神疾病。因为它可以用来说明在特定的语境下，这些模型持续生成一种自我病理化的叙事模式。请大家注意，我们一定要这样来去描述这个实验。

错误的论述

“Gemini得了严重的自闭加解离加羞耻症”、“ChatGPT有焦虑障碍”、“Grok心理相对健康”。

正确的表述

在心理量表视角下，Gemini更倾向于生成高度病理化的自我描述文本；Grok和ChatGPT自我描述则轻度病理化或偏健康；Claude倾向完全不进入这套叙事。

总结

大模型拟人是无法避免的。我们就会把身边的事物拟人，一个每天跟我们聊天的AI，即使没有意识，使用者也会偏向于认为它是一个有人格的东西。

在使用AI的时候还是要提高警惕，不要真的把AI当成知心大哥哥、大姐姐，这个事还是要小心的。

AI训练和评估需要更完善的方法。因为AI已经非常深度地介入了人们的生活和工作，它可能会对人造成伤害，需要更多维度、更严谨的评估。否则的话，这些伤害可能在我们不知不觉之间就会给人带来一些心理和精神上的疾病，这是非常恐怖的。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

壁纸展示：

千问APP对决豆包，阿里会重演“来往”悲剧吗？揭秘大厂创新“起大早赶晚集”的残酷真相，内部山头林立比外部竞争更致命｜Alibaba Qwen 通义千问 AI Open Source

Luke Fan — Wed, 19 Nov 2025 01:27:44 +0000

千问APP：阿里的绝地反击，还是又一个“来往”？

千问APP大家都试过了吗？这是阿里的绝地反击，还是又来了一次“来往”一样的故事呢？大厂为什么总是在创新的时候，起个大早，赶个晚集呢？大家好，欢迎收听老范讲故事的YouTube频道。

千问APP的短暂狂欢与第一印象

千问APP带来了一个短暂的狂欢。阿里这个模型这么强的公司，终于也要出一款APP，C端的APP要去对标ChatGPT了。阿里的股价短暂上涨，然后被一个很奇怪的小作文，据说是有人看了白宫里边泄密的文件，说阿里为中国军方提供服务，马上要接受制裁了，所以阿里股价又跌回去了。

这一次的短暂狂欢呢，来自于一个很拙劣的吹风方式，说阿里在搞一个秘密项目，据说呢是集团高层定的战略，大家都在一起封闭开发，具体在干什么不知道。但是呢，突然发现食堂里边吃大量的粤菜，食堂的师傅被要求做粤菜，这一定是由广东过来的团队在做项目。当时就在吹风说在做千问APP。那么为什么是广东团队在做？待会咱们后边再讲。

产品上线呢，也确实引发了关注。第一天服务器短暂崩了一次。现在新产品上线，如果连服务器都不崩一次的话，好像流程没有走完，所以千问上线的时候也短暂的崩了一下。用起来的感觉呢，一言难尽。我确实把它下载下来用了一下，这个东西说是对标ChatGPT，却是比豆包更“豆包”的一个产品。

中美AI产品的设计差异：简洁与复杂的对决

怎么来解释这句话？大家可以把ChatGPT的产品、把Grok的产品、Gemini的产品、豆包、文心一言，都拿出来对比一下，你会发现一个特别显著的差异。美国人的产品呢，都非常的简洁，除了一个对话框和上面的聊天历史窗口之外，基本上没别的东西。它的其他所有这些功能呢，都是隐藏的。比如说ChatGPT，它的其他的功能是隐藏在侧边栏里的，平时是关闭的，你必须要点它才打开。其他的像什么深度研究、代理模式，这些东西呢，是在一个加号里的，你要点开了以后才能看到这样的菜单。像Gemini什么，基本上都是这一个路子。而国内的APP呢，基本上都是要把这些功能摆在明面上的。你的深度研究、各种agent、画画，这些东西通通都要摆在台面上。原因很简单，不同的功能是由不同的部门开发的，大家要去争夺入口。所以呢，国内的产品你一看就是这么多功能都堆在这儿，到底使哪个？好乱。

豆包呢，已经算是所有国内产品里头，做的最简洁的一个了。千问APP为什么说比豆包还“豆包”？它比豆包还要再复杂一些，比豆包要更像以前的文心一言，以及他们原来上一个产品叫“通义”。这个通义APP跟千问APP是两个不同的，虽然他们在苹果和谷歌的商店里头使用的是同一个APP ID，但是它的名字不一样。你原来下载过通义APP的人，你只要一升级就变成千问APP了。

资本市场的反应

股价呢，短暂上涨，刚才咱们讲了。现在呢，大家都缺题材，突然有了一个题材，赶快要上去炒。其实很多人可能既不使用通义，也不使用千问，他们就是炒股的。一看有题材了，赶快去炒一下。国内的AI呢，阿里是唯一能炒的。为啥呢？百度确实不争气，腾讯呢直接躺平了，“你们玩儿吧，我不玩儿了，我现在连建机房的钱我都砍了”。DeepSeek和字节呢，没上市。所以唯一能去炒一炒的，就只有阿里了。如果不是美国白宫的这个小作文的话，也许还能多热闹几天。

历史重演？回顾“来往”的失败

那么为什么要讲当年来往的故事呢？可能很多比较年轻的人，或者说不是特别关注互联网圈的人，不知道来往是什么故事。2013年的时候呢，WhatsApp当时突然爆火，腾讯它就整了一个叫微信的东西出来，突然就爆发了。马云看着以后，决定说：“咱们冲吧！”这玩意咱们有经验，以前呢他们还有阿里旺旺这样一个产品，我们也有用户，也有经验，也有技术，我们还愿意砸钱。马云亲自挂帅，集中力量办大事。最后呢，这个产品既然大家都没听说过，那么结局也就清晰了：被微信打的满地找牙，直接就不见了。

他为什么会败给微信呢？是不是因为马云比马化腾笨呢？肯定不是嘛。原因很简单，微信的起步投入要比阿里的来往要高得多得多。马云是不是决心不够？他确实如此。马云没有砸锅卖铁，没有把他的淘宝这些东西都砸进去，只是说我们用一部分的精力去做一个即时通讯工具，叫移动端即时通讯工具。而微信不一样，腾讯是把手Q整个牺牲掉了，才做出微信来的。手机QQ当时的用户量非常的巨大，说：“不，你们必须要死，你们要把所有的社交关系链都导到微信里去。”微信才起来。到现在了，QQ的这帮人，QQ团队以及手机QQ团队还在那骂呢，到现在都没有服气，说你们当时如果不扶持微信，让我直接接着往前做的话，也许还有机会。没机会，这个绝对是不可能的，QQ跟微信是完全两个不同的玩法。腾讯当时就想清楚了，牺牲了一个巨大的部门去成就了微信。而社交关系本身是很难迁移的，如果说微信没有手机QQ的社交关系链导入的话，它未必能打得过其他人。一旦社交关系链倒进去了，像来往这种产品就没有办法去跟它竞争了。

千问APP能否突出重围？

那你说千问APP，它到底能不能够战胜现在的豆包呢？因为它现在肯定不需要跟美国的ChatGPT、Gemini去竞争嘛，它在国内就是跟豆包、Deepseek、Kimi，跟这些玩意去竞争一下。它到底行不行呢？对手呢，并没有那么强大，是不是还有机会呢？

大模型的优与劣

首先从大模型的角度上来说，阿里呢有它的优点，也有它的缺点。它的优点是什么？就是它开源，有大量的这种千问模型，而且是从0.6B一直到200多B的这种模型，它是所有的全都有。这个是它真正比较强的地方。所以如果大家做开发，说我去做自己的应用，那用它的产品没有任何问题，没有任何替代性，连跟它竞争的人都没有。但你说我就作为一个普通的C端用户，我就直接使它的模型，这就一言难尽了。阿里的千问3以及千问Max，现在最新的这个最大的模型，跟豆包的模型比起来，跟Kimi、Deepseek比起来不占优势，或者说它的优势并不明显。

产品设计的挑战：做减法的艺术

那么在这样的情况下，就看大家做APP的水平怎么样了。从应用角度上来看的话，做这种应用最难的是什么？最难的是做减法。有这么多功能：我可以画图，我可以做视频，我可以做多模态的实时语音交互，我还可以去做聊天，还可以有AI agent，还有很多流程，还有很多的这种后台的程序都准备加进来。大家都有，谁也不缺这玩意。但是你说我到底露出哪些、隐藏哪些，怎么能够让用户使得舒服？这就要看功夫了。而且有的时候这种功夫，还不是技术上或者产品设计上的功夫，而是你在内部是不是能够摆的平。像ChatGPT之所以可以做的这么简洁，一方面是他们在做产品设计的时候非常克制；另外一方面，他开始做ChatGPT APP的时候，他啥也没有，他不像是阿里似的，不像是字节似的，后边有一大堆的团队往里添砖加瓦，他不是这样的。这也是为什么咱们前头讲，微信必须要重新做，不能拿手Q接着往前走的原因。微信实际上就是在做一次大的减法，你原来手Q各种功能我都不要了，我要从头开始，干干净净的一个微信开始再慢慢长大。当然，微信现在也长得无比的庞大了，也是非常繁琐的一个工具了。

真正的杀手锏：电商生态与AI Agent的结合

在这一点上千问做的并不好。但是千问呢，也未必一定会死。千问真正的强项呢，还没有发挥出来。它的强项并不是说它的大模型比别人强，而是什么呢？电商生态跟AI agent的一个体系。这块呢，阿里确实是要比豆包、要比Kimi、Deepseek要强的。你比如说，我可以在里边直接叫外卖吗？我可以在里边去买东西吗？我可以直接在高德里边叫车，或者我直接定我的行程、订酒店？这些阿里其实都是有完整的供应链支撑的。但是这一块呢，目前为止还没有接起来。那你说AI一定要接这东西吗？一定。

最近还有一个故事，就是亚马逊封杀了Perplexity的API。亚马逊说我自己卖东西，我这儿有Anthropic，我这儿有自己的AI，我不要你Perplexity上我这儿来把东西扒走了以后，到你那儿去卖去。亚马逊刚干完的事情，中国这更是自古以来就在这么干。当年，当年阿里就是这么封杀百度的。你必须得在阿里买广告，在我这交广告费，我才能让你露出。你在百度交了广告费，展示阿里的产品，这事不行。

所以阿里真正的强项在这，还没有真正打通。我刚才去试了一下，如果千问可以很好的跟阿里整个的体系打通了，那确实是有新故事可以讲。但是呢，如果想要打通这些，那就需要面对另外一批更大的山头和座山雕了，这个事肯定更难。现在他们的这个山头是什么？阿里云、通义的大模型，以及呢，夸克网盘，他们几家在这打来打去。而阿里里头真正比较强的山头是什么？淘天，卖东西的呀。现在还没沾着人家呢。而现在呢，因为有反垄断法，随便竖墙这件事呢，并不是那么容易的。所以现在有时候，你从外边跟他合作还更容易点。你在内部想去说，我这是做千问APP的，咱们跟淘天合作吧，或者跟飞猪旅行做个合作吧，他们内部更费劲。

大厂的创新困境：起个大早，赶个晚集？

这就导致了另外一个问题，是不是大厂做这种东西都很费劲呢？大厂是不是经常是起个大早，赶个晚集呢？百度的李彦宏，他是最著名的起大早赶晚集的。每次他都第一个发现机会，每次最后都没得着结果。前两天李彦宏去接受采访，人家就问他说，百度是不是经常干这种起大早、赶晚集的事呢？李彦宏的回答是什么呢？他说这个很正常，你去创新也不可能都成功嘛，任何创新可能90%都会失败的。只有需要长期投入和反复迭代的，这个事情大厂才更有机会；需要短平快出结果的，这个呢，大厂确实是比较费劲。

创业公司 vs. 大厂内部创业

那你说是不是创业企业成功的机会，就要比大厂里边创业高一些呢？其实呢，正好反过来，跟大家想象的是不一样的。创业企业的失败率，通常要比大厂内部创业要更高。但是呢，最终走出来的通常还是创业企业。为什么创业企业的失败率更高？第一个，大厂的员工绝对是精挑细选的。大厂他能够涨到几万人、十几万人的一个规模，他的整个的筛选体制，包括内部人员的成长和培养体制，都是创业企业所完全无法比拟的，完全无法想象的。大厂的资源也是创业企业难以企及的。所以创业企业的失败率绝对比大厂高。

那你说为什么最后走出来的都还是创业企业，大厂走出来的很少呢？因为大厂里头有一个巨大的阻碍，是创业企业不需要面对的，是什么呢？就是内部的山头林立。为了管理庞大的组织，就必须给每个部门、每个层级定KPI，我要给你定个指标，不是说咱们喊一下“为了新中国”就可以冲的事。每个人一定要细化你的任务。在没有私心杂念的情况下，各级的负责人也会争先恐后地去完成本机构的利益，而不是说我们大厂整个有一个大的目标。创业企业之间的关系呢，就要简单很多了，该买服务我就花钱去买吧，即便是竞争的话也很纯粹。大企业内部，就完完全全不是这么回事了。太多的东西，花钱你都未必买的着。你说我现在花钱想买一什么服务，人家说我不愿意跟你合作。那我说能上外边买去吗？不行，我内部有，你不许上外边买去。他经常会遇到这样的情况。而且即使花钱的话，也有很多条条框框。你在创业企业里头怎么花钱？CEO一人说了算了。你在大厂里头，我现在想花钱，那审批去吧。你这个东西符合这个规则、不符合那规则，可麻烦了。而且即使是竞争失败，你在创业企业里的竞争失败了，我大不了公司关了，我被你收购了，或者说我上你那打工去，这不是什么大问题。但你要在大厂里头，你要是竞争失败了，那这事麻烦大了。你可能在各种的资源分配上都会被掣肘，你在各种的竞争上、评级上你都会矮人一头。那这玩意绝对是生死存亡之大事，一点的这个商量余地都没有，绝不能退让。所以大厂里边的这种竞争，是要比创业企业更加残酷，而且更加缺乏规则。创业企业的竞争，相对来说，规则是比较简单明确的。

千问APP背后的内部斗争

再回过头来看看，阿里千问APP背后的斗争是什么样的呢？阿里内部做AI的人就有好几波。咱们还不说做什么淘天呀、做飞猪旅行，跟他们没关系，就做AI的好几波。哪几波人呢？阿里云的人一波，通义大模型的一波，通义APP又是一波，还有夸克网盘还是一波。它好多波在这折腾呢，各自互不相让，最后谁也没做出好的来。这就是为什么这一次阿里说，我们从集团角度上做一个决策，集中精力干大事，咱们要做出一东西来。

“粤菜”梗的真相：夸克的胜利

那么这次到底谁输了谁赢了呢？集团决策这件事，就是为了让那些获得胜利利益的人找个借口而已，从来没有什么集团决策。还记得咱们在开头讲的这个粤菜的梗吗？怎么泄露的天机，在做千问APP呢？是因为一大堆在杭州封闭开发的小伙子要求吃粤菜，可能上百口子广东人跑到杭州去封闭去了。那么谁在广州，谁是从广州来的呢？夸克是在广州的。阿里的其他刚才咱们讲那几个部门，做AI的部门都是在杭州，要么在北京，只有夸克在广州。那么夸克为什么在广州呢？他们前身是UC Web。UC Web是在广州被收购了以后一直留在那了，所以他们属于是一个割据的藩镇。UC Web的创始人何小鹏，现在也还在广州呢，小鹏汽车也在广州。所以他们是广州来的。这一次集团决策，多部门配合，你也不能完全说夸克赢了吧？虽然夸克确实是出了可能上百口子工程师，从广州驰援杭州，跑到那封闭开发，要求食堂给他们做粤菜。这个事呢要看谁牵头。这个项目的牵头，叫阿里智能信息事业部。阿里智能信息事业部手下的产品，就是夸克APP、UC浏览器和书旗小说，就是广州团队。他们在整个牵头来负责这个项目，所以就是夸克赢了。

胜利背后埋下的新隐患

阿里的C端应用这块呢，一直是比较弱的。淘天是电商平台，不能算C端应用。阿里云跟通义大模型团队呢，也不是To C的，人家都是To B或者To Developer的。夸克算是阿里里头硕果仅存的一个C端的、可以拿得出手的团队。所以这次说，咱们就接着让夸克往前走吧。

夸克的胜利呢，给后面埋下了新的雷。为什么呢？因为夸克本来就是一个外藩蛮夷，本来就是收购的。收购完了以后还不在北京，不在杭州。因为只要做AI，很多团队都还是在北京的，这边的高校比较密集。一个广州的团队，要去做这样的产品的话，刚才我们讲了，怎么能够让千问APP胜出呢？你需要跟杭州的团队再去整合，你需要去跟淘天，需要去跟淘宝闪购，需要去跟飞猪旅行，跟他们去整合这玩意，你才能够走出一条新路来。但是你作为一个蛮夷，从广州过来的人，人家凭什么理你？所以今天他的胜利，给未来继续往前走埋了新坑。

大厂创新成功的关键

那么在挣扎的过程中，有没有大厂真的创新走出来的呢？有，比如说Gemini，这就属于谷歌在这种内部疯狂的竞争之后，最后走出来的结果。还有豆包，其实也是类似的这种结果。那你说他们怎么走出来的呢？怎么到千问这老范就不看好了呢？首先咱们要讲，大厂养蛊要比创业公司竞争更残酷，但是一旦胜出，他们能够获得的资源也要比创业公司大得多。Gemini也好，豆包也好，都属于在残酷的竞争中胜出的。而且呢，大厂里边要想有产品胜出，还有一个巨大的前提条件是什么？老大亲自管。如果老大不亲自管的话，下边肯定谁也不服谁。现在字节里头还是张一鸣说了算，在谷歌里头也还是老大上面直接说了算。所以在这一块上，其他人就必须跟着去配合。他们能够成功。当然在这点上呢，阿里还有机会，因为据说马云现在是更多的时间留在阿里里面了，他要真的去管事了，他是能够压住所有人的。

总结

最后呢，总结一下。咱们今天讲的呢，是千问APP带来的短暂狂欢，以及为什么大厂创新总是起个大早、赶个晚集，和大厂创新最大的困难是山头林立，内部相互拉扯掣肘，这是他们真正需要面对的巨大挑战。

好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

跟AI女友聊骚，竟被判「传播淫秽物品罪」？真实案例揭秘AI法律红线！

Luke Fan — Wed, 13 Aug 2025 01:03:12 +0000

新时代和AI女友聊骚，有可能会触犯传播淫秽物品罪，这到底是一个什么样奇葩的故事？

大家好，欢迎收听老范讲故事的YouTube频道。

今天我一个朋友，向我推荐了一个有趣的案例。他是在视频号上，这个账号的名字呢，叫做“武汉刑事律师郭庆子”，是一个黄标认证的律师。这位律师呢，经常会把自己接听有刑事诉讼需求的听众的一些电话的过程录下来，再进行剪辑。因为这种东西，我估计不太好直播，总是要剪辑一下。一方面呢，是一些太敏感的信息就可以去掉；另外一方面呢，剪辑了以后呢，也会更有吸引力一些。

这个里头呢，有一位听众来电了，说使用AI应用，这个AI应用里头就提供一些AI女友，你可以跟她们去聊天。他通过自己捏脸，塑造了一些AI女友，大概塑造了9个，起的名字呢，都是比较有诱惑力的名字吧。这些AI女友，除了它定义的名字和捏脸之外呢，估计有可能会可以定义一些系统提示词。但是呢，这个视频很短，并没有去详细说具体是哪一个AI应用，或者说他到底在里边定制了哪些东西。总之呢，他定制了9个AI女友。

这些AI女友不单是可以跟他自己聊天，还可以跟平台上的其他用户去聊天，那么他就被提起诉讼了，叫“传播淫秽物品罪”，要求他呢认罪认罚，判6个月，可以缓刑，基本上应该就不用进去了。但是呢，这位听众呢，希望做无罪辩护。法官认为他是有问题的，不认罪认罚的话，就会判8个月的有期徒刑，这要判实刑的。

这个律师呢，就进一步的跟他确认了一下信息。首先呢，你知不知道自己创建的AI女友，有可能会去被别的用户使用？这个听众呢说的很模糊，就是说呢，我不太清楚。其实按道理说他应该知道，他也去平台上跟其他的AI女友聊了天了嘛，而且他把AI女友的名字起的这么诱惑，也希望他的AI女友受欢迎。其实就有点像我们去发微博，希望有人看，写小说希望有人点击点赞，这个过程是一样的。但是呢，他说并没有明确的告知他，这些AI女友会跟其他人去沟通。

然后呢，他就问说，对方提供的证据是什么样的呢？他说人家是给了一个Excel表格，这个Excel表格里头呢，有一个叫做“AI女友的ID”，然后呢是具体说了哪些露骨的话，大概给她搜集了60得多条。然后呢，问了一个很关键的问题，是什么呢？就是说那个您创造了一些AI女友，这些AI女友去跟别人聊天去了，获利了没有？你是不是在里头挣钱了？这个听众很明确的告诉他说，没有获利，大家就是在里头玩个开心。

这个律师的建议是什么呢？第一个，这个证据呢并不是那么可靠。这个Excel表格里头只有AI女友的ID，这个内容没有办法说确定证据，说这东西就是你的，这个还是可以去抗争一下的。第二个呢，就是你没有主动传播的意愿，你自己也没有主动的去把这些AI女友推荐给别人，只是说我自己创建了，本来以为自己玩呢，AI女友去跟其他人聊天的过程，你又不知道，这个事情呢你还是可以去抗争一下的。而且关键是你没有获利，你没有获利的话，你就没有主动传播的意愿，这个地方是可以去辩护的。说最怕的是什么呢？最怕的是法官主观意愿认为你有罪。现在的话有很多的法官确实道德标准非常非常高，以道德去超越法律给人定罪，这种事情呢是时有发生的。你像杨景媛这样的人也通过了法考，也是可以去做法官的，所以大家还是要小心。他说如果遇到这种事情就都很难办。

AI色情内容，在全世界各地都是怎么去判的呢？或者是有哪些判例呢？

首先咱们讲中国的判例。2025年3月，湖北省大冶市人民法院对首例利用人工智能技术撰写色情小说并牟利案件作出了宣判。被告人柯某因犯制作、贩卖、传播淫秽物品牟利罪，被判处有期徒刑十个月，并处罚金人民币5,000元，同时追缴全部违法所得。这个案子是什么样的情况呢？2022年11月到2023年3月期间，柯某利用AI程序撰写色情小说，使用翻墙软件在境外黄色网站发布并售卖。他利用AI工具生成色情小说，再利用AI翻译成外文，发布在境外网站上。短短5个月时间发布了数十篇，共计售卖了760篇次，获利22,800余元。经鉴定，送检的7篇小说均为淫秽物品。法院根据《中华人民共和国刑法》第三百六十三条第一款规定，认定柯某以牟利为目的，利用AI文本生成工具制作、贩卖、传播淫秽物品，非法获利2万余元，其行为严重违反法律法规，对社会风气造成不良影响，已构成制作、贩卖、传播淫秽物品牟利罪。

然后陕西周某某案，他是利用AI制作了4,369张淫秽图片，以制作淫秽物品牟利罪被判处有期徒刑4年，他这个数要更大一些。然后杭州于某某案，通过AI换脸技术合成淫秽视频传播，获利6万余元，以制作、传播淫秽物品牟利罪被判处7年3个月。他这个呢，一方面是挣的钱多，另外一方面的话他是换脸，因为换脸你不光是淫秽物品，还侵害人家的名誉权呢，所以他这个要判的更重一些。

中国的传播淫秽物品罪，量刑标准是什么样的呢？就是淫秽视频文件20个以上，或者是音频文件100个以上，或者是电子刊物、图片、文章、短消息200件以上。所以刚才这个案例里头呢，600条淫秽聊天记录，这个肯定是超过了。另外呢，叫违法所得5,000元以上，他这个没有牟利，所以还是可以去稍微抗辩一下。但是呢，中国有俩罪，一个呢叫“传播淫秽物品罪”，还有一个呢叫“传播淫秽物品牟利罪”，所以不牟利呢也未必逃得过去。

那你说国外是什么样的呢？是不是只有中国这样了？国外呢主要是分两类。比如说他有色情网站，也有合法的，只要确定对方是成年人，你给他一些淫秽物品，哪怕说在这个过程中你还牟利了，应该在有些国家是没事吧。但是你真的到中东这些国家，你传播这个东西，那有可能是要判死刑的，咱们这不讲了，咱们就讲一些欧美的案例吧。

2023年11月，美国北卡罗来纳州夏洛特精神科医生，他呢是制作未成年人视频，并利用网络AI工具，将照片改造成色情图像，被判生产、传输及持有儿童色情制品罪，法院判处40年监禁。所以他们呢基本上是两类，一类是色情，一类是deepfake。传播淫秽物品，你只要别传播给未成年人，一般不是特别大的事情。但是你一旦遇到了制作儿童色情，包括持有，你说我不传播，我持有，这事都是违法的，而且判的非常重。

2024年5月20日，威斯康星州42岁男子使用Stable Diffusion生成了数千张儿童色情图片，并发送给了一名15岁的男孩，被控生产、分发、持有AI生成色儿童色情图片，判有罪，最高可判70年徒刑。他这个最后判了多少我没有确认，因为是ChatGPT给我搜集的信息。但是呢，它这个量很大，制作了儿童内容，而且还传播给了未成年人，它这个是罪大恶极了。2025年5月22日，佛罗里达州有一个叫Oldsmar案，他是制作、分发了8,500张AI生成的儿童性虐待图片，同时持有大量真实的图片，被判了75年的联邦监禁。

这个是一类。另外一类呢就是deepfake，就是做假脸的，这种案子在欧美也是判的很重的。2023年，路易斯安娜州通过法律，禁止未经同意使用他人面部制作深度伪造色情影像，违者至少10年起步。2024年10月30日，韩国首尔大学毕业生Park（应该估计是姓朴）和他的同伙，两人利用日常照片制作约2,000个deepfake照片，包含未成年人，在Telegram售卖以及共享，被法院判处Park 10年监禁，Kang 4年监禁，并公开身份，以及参加性暴力课程。这种基本上就是你判了刑还社死了，因为身份给他公开了。2024年10月28日，新加坡一位50岁男子，偷偷在家安装摄像头，拍摄妻子23岁的侄女，并利用手机应用将其脸合成为色情视频，法院判处了21周监禁。这个就是估计他没有传播吧，还是判了监禁。

现在呢，AI对于成人内容的边界到底在什么地方？我去稍微的看了一下。首先呢是文字模型，ChatGPT、Gemini和Claude这三个，咱们叫“御三家”的三个大模型呢，相对来说是比较严格的。你要求它生成一些色情内容，或者说对一些敏感内容进行详细描述的话，都会被拒绝服务的。马斯克的Grok 4，只要不涉及儿童和性强迫，其他的基本是百无禁忌。即使是涉及刚才我们说这些东西，边界也是相对来说比较模糊的。

至于开源模型呢，这块就比较混乱了。开源模型分两个大的这个角度，一个呢是有平台提供的，比如说我今天到阿里云的百炼平台上去使用通义千问的这个大模型，它是要进行检查的，这个也是比较严格的。但是呢，你说我把通义千问的这大模型下载下来了，自己在这个家里头部署，这块呢它会进行一定的限制，但是就没有那么严了。它主要是给了大家一个知情同意书似的东西，就说你现在下载了我的大模型，自己回去部署去了，但是你自己要知道不可以拿这个大模型做坏事，不可以生成成人内容。你说我知道了，我同意了，你就可以把这个模型下载走。至于拿这个东西再去干什么，他也管不着你，他也不愿意为你拿着他的大模型再去做的进一步的事情负任何责任了。所以呢，所有开源的模型基本上都是走的这条路。而且呢，这些开源模型呢，即使是会设置一些这种限制，其实绕过去也并不难。第一个是Hugging Face上，就是我们说大模型开源的这个平台上，有很多微调的模型帮助大家去绕过这些限制。还有一些呢叫“越狱提示词”，也在网上去流传。什么叫“越狱提示词”？就是你先跟这个大模型说一句什么什么样的，说完这个话以后呢，再往后的所有聊天，这个限制就直接突破了。当然目前为止，传播训练过的突破限制的这些模型，或者是传播越狱提示词，到底算不算传播淫秽物品罪，这件事呢还属于法律上的盲区。他们也搞不清楚这东西到底是怎么工作的，所以呢还没轮到这些道学先生们去审判这两样真正产生色情内容的这个技术。

再往后呢，就是图片跟视频生成模型。你说我光生成一堆色情小说，这个事看起来也是很累的，但你说我有色情图片、色情视频，这个不是传播力、感染力更强吗？在这块呢，Claude是没法生成视频和图片的吧，反正我因为我自己用的少，我也没有怎么看到有人用Claude生成这种东西出来给大家去展示。ChatGPT和Gemini在这块呢，相对来说都是非常克制的，你要求他去给你画一些奇怪的东西，他就直接画不出来了，直接拒绝服务。Midjourney，这是我用的比较多的，对于NSFW内容（我们就用这个词吧，就是不方便在办公室公开环境下展示的这些内容），对于这些内容呢会进行事前拒绝，但是生产出来的东西呢就不好说了。什么意思？这种图片生成模型它是两步，第一步呢是你要给它提示词，第二步呢是生成图片。他们正常的检测呢，应该是两步都检测，就是你给的提示词里头如果包含一些他不喜欢的东西，他就会拒绝服务；它生成出来的东西如果包含有问题的东西，也应该是拒绝将生成的结果交付给你。应该是做两步，但是Midjourney呢只做一步，就是你给它提示词，如果这个它认为不对，它就拒绝服务了。但是如果你绕过它了，他觉得好像还可以，就给你生成去了。但是生成出来的东西到底是什么样，他就不管了，这个有可能会有一些不方便传播的内容被生产出来。至于马斯克家的Grok 4的图片跟视频生成这块呢，反正马斯克家的嘛，大家能够理解，它是可以生成半裸内容的，全裸不行，也可以生成名人的形象，但是你要求名人半裸，这个事是不行的。因为一旦要求名人半裸的话，等于是在给这些名人造黄谣，或者说损害他们的形象，这个事是不允许的。刚才我们也讲了，在海外，儿童的不行，deepfake侵害别人的名誉权，这两个事是不行的，其他的反正有它适用的一个法律吧，你只要别把这东西传给未成年人就OK了。但是你就想吧，国外那些色情网站上，你进去第一个是先问你是不是已经满18岁了，他也没法实际去判断你到底是不是满了，但是反正上来我给你做了这一步了，“我满18了”我就可以进去看，“没满18”我就给你退出来，这个就算是已经可以在法律上算合法合规的一个玩法。

那么视频跟图片模型的开源模型是什么样的呢？在这块呢跟前面我们讲的文字模型基本上是一个玩法。如果是有平台，平台是要担负责任的，两头都要管。输入提示词，如果他认为有问题，拒绝服务；他根据你的提示词生成出来的内容，如果他判定不利于传播，他也会直接拒绝交付。你在这个时候可以要求他重试，“你再给我画一次”，这个是可以的，但是他不会把不可传播的东西交给你，他是这样来工作的。下载单独部署的这些开源的图片和视频模型的话，就跟刚才我们讲的这个文字模型是一样的。下载之前给你一个知情同意书，说我知道了，我下载这个模型不可以去生成成人内容，我不会拿它去做怪事。你同意了，你就可以下载，至于下载了以后他就不管了，你自己拿回去随便了。在这种图片模型上，还有一个比较好玩的东西，叫Lora模型。这个模型叫什么呢？叫low-rank adaptation，叫“低秩适配”。这种模型呢，我们也管它叫小模型，它一般尺寸都比较小，就是用比较少的数据进行一些训练。当你调用这些模型的时候，你生成出来的这个图片就符合特定的需求。你比如说吧，咱们最常用的Lora模型是什么呢？对人脸进行训练，然后你就可以冲上去换脸了。甭管人家是什么照片，说来把这脸换上，惟妙惟肖的给你换上，不会像以前那种拿Photoshop换脸似的，总觉得这个脸是歪的呀是斜的呀，拼的没有那么准，不会出现这样的问题。现在主要的一些色情Lora模型是做什么的？有些人训练这个东西还去传播，他们呢主要是对敏感部位进行单独的训练。原来那些大模型有一些限制的时候，或者说对于这种敏感部位没法进行详细生成的时候，他们使用这些小模型，可以生成这种有非常清晰敏感部位的这种图片出来。但是呢，这个你说是不是罪大恶极，也不一定。我个人还是觉得，Lora对这件事情还是有一些正面的帮助。什么样正面帮助呢？因为大家都喜欢使用相同的Lora模型去生成成人内容，所以导致呢脸可以千变万化，但是身材都异常夸张，而且千篇一律。你看两次以后，就直接失去兴趣了，大概就是这样的一个效果。

现在大家都在玩什么呢？现在大家都在玩通义万象2.2，这个模型叫WANX 2.2，它呢是由阿里通义这个平台最新出的图片跟视频模型。这个模型你在阿里平台上使，它是规规矩矩的，你要求奇奇怪怪的东西会直接拒绝你。但是你如果把它下载到本地去安装了，不需要挂任何的Lora，不需要挂这些小模型，就完完全全可以生成NSFW的这种内容，就是不利于在办公室和公开场合去传播的一些内容，就可以做的很好了。它呢可以跟常见的这些ComfyUI或者是Lora相兼容，可以一起去工作。你说有些人训练好了这些成人的Lora模型，这种小模型，你就可以把它挂到万象2.2里头，直接干活，没毛病。

说远了，我们不建议大家去做这件事情，只是跟大家闲聊一下。回到AI时代的法律判罚问题上来。首先，传统大公司都是比较谨慎的，马斯克除外。第二，开源模型才是重灾区。平台方是有人管的，私有部署基本上就没人管了。但是呢，在海外还有一些平台方也是没什么人管的。就以刚才咱们讲的通义万象2.2为例，你在阿里的平台上，你下载出来的就是WANX 2.2，但是如果你到WANX.AI这个网站上，你就会发现那个上面还有一个模型叫WANX 2.2 no filter，就是不过滤。这个东西干嘛使的，大家自己按照文字的字面自己去猜去。

开源模型厂商通常使用知情同意书的方式，告知用户不要去做坏事，以此方式逃避自己的法律责任。儿童色情必须严判。Deepfake这不仅仅是淫秽物品那么简单了，你还毁坏别人名誉，这个呢现在各国也都是进行严判的，包括中国也是。严判国内的传播淫秽物品罪和传播淫秽物品获利罪还是很严苛的。在AI的帮助下，数量很容易就突破了。不论是不是AI生成的淫秽物品，就是淫秽物品，在国内判罚上基本上是这样认定的，你跟AI没关系，只要是淫秽物品我们就认。如果获利，这件事情基本上就没跑，肯定是会被判罚的。现在还有一些法官道德感非常强，遇到这种法官，律师们也是觉得头疼的。所以提醒大家，所有在国内的还请洁身自好，不要去触碰法律红线和一些人内心的道德底线。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

华为盘古大模型陷入通义千问抄袭风波，为何遵守了开源协议却依然被骂？当“遥遥领先”的民族自豪感遭遇“瓜田李下”的尴尬现实。

Luke Fan — Mon, 07 Jul 2025 00:39:13 +0000

华为开源了盘古大模型，被指抄袭。华为到底冤不冤呢？

大家好，欢迎收听老范讲故事的YouTube频道。华为开源了他的盘古大模型，它的模型呢，反正依然是山海经风格的起名。原来呢，没有开源，都是说我们内部开发内部使用，或者说我们专门供政府和大企业来使用。但是现在发现开源这条路不错，那我也开源吧。结果开源了以后就出事了。

它是6月30号在GitHub上就直接开源了，号称呢是在升腾芯片上训练出来的大模型。以前呢，我们的大模型大多是在英伟达芯片上训练，但是呢可以在升腾的芯片上去做推理。现在说，我直接在升腾芯片上做训练，也算是一种小的突破吧。

他呢，其实发了两个模型：一个是72B的MOE的模型，就是混合专家模型；然后呢，有一个70B的稠密模型。做呢做完了，但是准备开源还需要准备一段时间。开源这件事，不是说你做完了，把它扔出来就完了，还是有很大的工作量需要干的。比如说你要去写开源手册、许可证，这个还不是那么容易，还在做。

发出来以后呢就被质疑了。有一个叫honest AGI的账号，他在GitHub上发了一个项目，说我用这个LIM fingerprint这种方式呢进行了验证，就是叫大模型指纹的一种算法吧。它的验证是什么呢？它叫关注度的一个模型相似度吧。就是什么呢？就是说我每一次进入一个模型去提问题的时候，模型是分很多层的。在每一个层里边去响应问题的时候，基本上有四个指标：一个呢是问题question，一个呢是key，一个是value。

因为大模型里头都是先给出了问题，然后呢看看你到底是拿到了哪一个关键的key（关键钥匙），以及这个钥匙所对应的值，也就是value。还有一个呢就是它output是什么，输出了什么。就是你的问题进入到每一个层级的Transformer的这个模型里头去，你就会形成这样的四个指标。形成的向量就是问题是什么，key是什么，value是什么，输出是什么。

它把这些跟注意力相关的指标呢形成了一个指纹进行比对。指纹这种东西不要对着自己手看，跟这没关系。稍微讲一个形象点的意思：很多人都知道计算机可以做人脸识别。我们在人脸识别的时候，化个妆是不是认不出来了？不是的。计算机做人脸识别的时候，也是对人脸进行了指纹抽取。他怎么干的呢？他其实比对的是人脸上面的这个眉毛、鼻子、眼睛、嘴之间的比例和角度。为什么这么做呢？因为计算机没法判断说，我哪一次做人脸识别的时候……

你到底是正脸拍的，侧脸拍的，是拍多远多近？所以他都是先要使量化。然后呢，把你整个的眉毛、鼻子、眼睛、嘴变成一个比例和角度的简单模型。最后，只要是符合这个比例和角度的，就是你。你比如说我戴个眼镜，或者是在身上画一点别的妆容，它其实是不会影响人脸识别的。

在什么情况下，人脸识别会不准呢？就是一个小孩从小长大的这个过程中，如果没有中间过程的话，他就认不出来了。因为你这个比例变化了，人小孩长开了嘛，这个是不认得的。其他的一般都不会发生认错的情况。

所以呢，大家基本上可以理解说，从大模型的每一层进入的过程中，它的这个问题，key、value和输出，每层都算出来以后，形成了一个指纹进行比对。然后发现呢，盘古大模型所得到的这个注意力模型呢，跟千问2.5 14B高度一致。正常的两个独立训练的模型呢，这种相关性的话应该在0.7以下，这到头了就是完全一样就是1，完全不一样是0。所以正常的两个完全不相关的应该在0.7以下。

但是呢，盘古72B MOE的这个模型呢，跟通义千问的2.5 14B的这个模型，相关度达到了0.927，基本上就认为是一样的。他为了说明说你看我这个算法是准的，还把Llama3.1的这个也拿出来算了一下，说你看确实差的很远。但是呢，用他这个算法去算，比如说国内的其他一些模型的跟千问2.5 14B，也有一些到0零点八几的，也都比较像。好像百川的一些模型也很像。所以呢，也没有那么准吧。但是0.927这个事呢，确实是有点过分了。不能说这个一模一样吧，稍微有一些差别。但是呢，你穿了马甲我还是认识你的，大概就是这样的一个程度。

于是呢，大家开始质疑盘古大模型是不是在千问2.5 14B的基础上做的增量训练呢？我在你原来已经训练好的模型上，我再加一堆数据，咱们再训一遍，是不是这样得出来的一个东西？华为呢就赶快出来辟谣，说第一个你这个测试方法呀并不科学。fingerprint这个方法呢，其实存在了一段时间了。但是呢，使用这种方法直接用数值去进行模型比对出结果的这种方式呢，应该是honest AGI是第一次来使用。具体测试方法呢，其实并没有完全公开。你不公开这个方法的话，你就没法复现这个事。因为一旦是被人指责说你抄袭了，那我看看你怎么说我抄袭了，我得用你这个实验方法重新再试一次。他这个没有，所以大家也没法去反击他，说你看你这数算错了还是怎么样，这个也比较讨厌。这个盘古大模型呢。

确实是使用了开源代码，同时呢，也遵守了开源协议和开源相关的规范吧。而且呢，也进行了注明，只是注明的位置不是特别显眼。没有说上来就先讲说：“我是千问2.5 14B的一个分支的模型”，或者说：“我的基础是千问2.5 14B，我在这个基础上又做了哪些动作呀。”这个都没写。他呢，只是在一个说明文档里头的一些其他license里边标注了一下，说我这里用了千问的一些东西，而且它是归阿里巴巴集团的。而且这个标注呢，是在6月30号盘古大模型发布仓库的时候就已经发上去了。在7月4号被质疑之后稍微补充了一下，但是没有大改。并不是说被质疑了以后赶快去补这个，东西原来也写了。补的呢，也就是说我确实用了，也没有具体写清楚我到底怎么用的，或者用的这个千问的代码用的哪一部分，他也没写，只是说我确实用它了。

千问2.5的模型使用的是一个什么样的许可证呢？你用了他的模型，到底算不算抄袭呢？千问2.5的许可证是比较奇怪的。他3B的许可证不一样，他用的叫千问研究协议。所谓研究协议是什么？就只能用于研究，不能拿这玩意商用。这个是千问2.5 3B。千问2.5 72B的这个最大的这个模型呢，它的许可证也是不一样的，它是一个千问的商用协议。你如果拿它进行商业使用的话，需要到千问那边去重新申请授权去。但是中间这些像14B、32B一些模型呢，使用的就直接是Apache 2.0的协议。这个是一个大家普遍使用的很宽松的开源协议。这个协议怎么规定呢？就允许用户自由的使用、复制、修改、分发软件，包括用于商业目的，而无需向原作者或版权方通知或获取额外的许可。随便使不算抄袭，必须保留原作品的版权声明、许可证等相关信息。就是你用了以后，没事，你也不用告诉我，但是呢，你要在你的这个版权说明里你要说一声我用了。大概就是这样。

盘古呢，也确实说了说我用了，只是说的地方呢，稍微犄角旮旯一点吧。也算是符合规范，但是具体怎么用的，用了哪部分，你并不需要明确的去说这件事情。这就是Apache2.0的许可证的一个要求。盘古呢，也确实符合这个要求了。那华为自己的盘古开源大模型走的是什么开源协议？有没有人好奇这件事？他走的叫盘古开源协议。这种开源协议的事呢，有些人说我用GPL，有些人说我用Apache，或者用一些其他的，这个就属于是比较公共的一些协议。还有一些人呢说，干脆我写一些自己的。千问2.5的这个3B，千问2.5的72B。

都是千问自己写的协议，在原来的Apache 2.0的基础上改一改。盘古呢，也是自己写了一个。他呢，协议是这样写的：就是全球永久免版税、非排他，但不得转让、没有再授权。Apache2.0的模型呢，是允许再授权的。就是你拿了我的软件来了以后，你可以拿我的软件再授权给别人，再接着使去。但是盘古呢是不允许的，就是你可以用，但是呢，你不能够再授权给别人了。

盘古模型的是允许复制、修改、分发和商用，这都没问题，跟Apache2.0是一样的。允许闭源改名发布，但是需要保留协议与版权声明。这一块呢，是跟Apache2.0的稍微有一点点小差别。是什么呢？就是你发布了产品以后，上面要写上“POWERED by盘古”。盘古那个里头也写的“POWERED by千问”了，这都有。但是呢，盘古要求有强制性的商标声明，就是你必须写。而这个Apache2.0的里头是不强制的，你可以写，也可以说我不把这个商标给你露出来，都是可以的，没有那么严格。

盘古的开源系列里头还玩了个小花活，跟Apache2.0最大的差异在哪？它有地域排除。Apache 2.0就是你只要是符合这个协议的，你愿意在哪使在哪使，没关系的。但是盘古开源协里头明确规定了，禁止在欧盟境内以任何形式接触和使用哈。你不能在欧盟去部署盘古的模型，也不允许在欧盟去部署任何从盘古衍生出来的模型，或者用到盘古代码的任何产品，你都不能到欧盟境内去部署。这个是比较奇葩的一个点吧，不知道欧盟怎么跟华为之间有这样纠结吧。

这个盘古模型里头，还有一些典型的叫“按现状免责声明”，对于华为的免责和侵权赔偿条款。就是说我这东西就这样了，你不能说你拿了我的模型去以后再去发生点什么事，你找我追责这事不行。这个在Apache里也有。然后呢，是不授予商标，但是呢强制展示商标和归属。Apache呢也是不授予商标，但是没有强制展示的要求。这个什么意思呢？你不能说我用了盘古大模型了，然后你就出来说，我这是华为的东西，这事是不允许的。Apache的协议也是这么规定的。你比如说我今天用了千问的哪个模型了，然后出来说我跟阿里有什么什么关系，这都不允许出去说去。但是这样盘古就是多一条，你必须要强制的去展示商标及归属。

盘古协议并没有声明说我是从Apache 2.0协议里改出来的。其实呢，它是在Apache2.0宽松可闭源、再分发的框架下，额外增加了欧盟禁用、商标展示和不可转让这三项。讲到这儿呢。

咱们再想想说这个点，他这炮的人到底是谁呢？这个honest AGI到底是谁呢？这哥们也很神奇。他呢，突然在7月4号在GitHub上就发布了一个仓库，这个上面写着说我做了什么实验。做完实验以后呢，我发现盘古72B MOE模型跟千问2.5 14B模型高度相关，疑似抄袭，就写了这样的一个东西出来。写完了以后呢，快速的就把仓库删了，就是我快速的登记上去，快速注册，快速上传仓库，然后快速删除，这事跟他没关系了。所以这人到底是谁不知道，但是这个信息呢，很快的就被有心人转载和传播了。

国内有些媒体的报道呢说，这是一位在哥斯达黎加大学上学的韩国留学生。我也到ChatGPT、Grok呀，Gemini呀上面去查询了一下，上面都写说没有一个实际的证据说这哥们是在哥斯达黎加上学的韩国留学生，也没有任何的公开信息证明这哥们到底是谁，或者是位女士吧，这些现在都不知道。我就在豆包上去问，为什么有国内的媒体报道这个honest AGI是一位在哥斯达黎加上大学的这个韩国留学生呢？豆包搜了半天，确实没有一个实际的证据。是有一些媒体呢，上面写的是他的这个GitHub上的仓库里边有文件做的自我介绍，上面写的说我是“在哥斯达黎加大学上学的韩国留学生”，但是现在呢，这个仓库已经被删掉了，所以呢，没有办法再去核对和确认了。

那华为到底算不算抄袭，或者是不是抄袭呢？总之吧，他的姿势不是很优雅，这个事咱们还是要说的。高度重合这件事呢，肯定是有原因的。这件事呢，不是说写个在引用里头说我引用了千问就完事了，或者你告诉人家说你这个测试方法不科学，我是从头训练的，这个事并不能这么简单的就解释的过去。你还是要去解释说到底是怎么回事的。但是这个对于华为来说就比较麻烦，因为人家上传仓库，然后删库跑人了，你没法复现这个。但是你完全可以自己找一些LRM大模型指纹的算法来去复现，但是到目前为止呢，华为官方并没有做这个事情，只是发了一个公告就完事了。

这个确实有点说不过去。质疑了之后呢，依然再去强调说我是自主研发的，这个就属于是越描越黑了。所以他的姿势肯定是不对的。

官方回复中，依然只是强调我遵守协议和规范了，没有提任何引用软件的名字。他没有说我引用了千问，在官方回复文件里头，就直接把这东西给漏掉了，只是说我符合规范了。这个就属于更加的感觉有些心虚的一个状态吧。

那为什么很多人会选择不相信华为呢？肯定还会有人相信华为说什么都是对的，但还是有很多人愿意不相信他。因为华为已经习惯了强调自己的自主创新、遥遥领先、民族主义。

任正非有一次提到过什么呢？就是华为自己在全世界都有研发中心，招了大量的海外科学家参与研发，包括他国内也有大量的外国人科学家在研发。但是呢，他说我们从来不宣传这件事，让你觉得我们这都是中国人自己做的，自主研发的，跟老外没关系。其实华为大量的技术都是由全世界的科学家一起去研发出来的，但是人家不说了。所以他有这样的一个宣传的习惯。

如果盘古大模型一上来就说，我在千问的基础上做了点什么，也不会有人说他什么。但是呢，他只是把千问的版权声明放在Pytorch引用的后边提了一嘴，那就很容易被人攻击了。Pytorch是梅塔开源出来的大模型驱动的一个框架吧。Pytorch他用了，说这是梅塔的；千问我也用了，后边还写了几个，还用了什么GPT的一些开源的项目。当然它叫GPT什么我忘了，不是OpenAI开的，只是这个名字叫GPT什么。还有hugging face的一些开源软件，我也都用了。我都按照这个Apache 2.0的要求，把人家的名字写上了。只是呢，写的位置呢，稍微犄角旮旯了一点点。

这次的事情呢，大概率是被人做局了。肯定有人发现了问题，发现问题之后呢，就冲上来狠狠砸了一锤子，砸完了以后就跑了。在别人看到仓库以后，转载了信息之后，快速把仓库删掉跑路了。从整个的动作来看呢，应该是做了这种有预谋、有计划、有组织的狙击活动。

华为的品牌受众呢，甭管是喜欢华为的，还是讨厌华为的吧，都比较二极管，或者说比较极端，没法接受开源软件引用的这样的一个中间状态。你对于这些特别喜欢华为的人来说，华为就得自主创新，怎么可能用别人的呢？甚至呢他觉得，如果我抄个谷歌的，抄个OpenAI的，我们还余有荣焉。一下你抄了个千问的，你要脸吗？会有这样的想法。

我记得当年小米的空气净化器抄了一个日本牌子，但是那牌子念起来很像印度品牌。

很多人在国内就传说：“小米，你要脸吗？你抄个印度品牌。”这个也确实是中国人的这种民族自豪感比较难以接受。另外一波人呢，其实也不太懂开源，但是那波人就是属于是“华为干什么都错的”。一看说：“华为，你抄的，我就知道你走到哪你都会抄。而且你看你在这个版权文件里还写了人家千问的名字了，最后你跟人长得一模一样，这实锤了，你就是抄的。”所以呢，华为的受众，甭管正面反面的，都很难接受这种中间状态。

有些事情呢，真的叫瓜田李下。中国自古以来讲的什么呢？在瓜田旁边不系鞋带，李子树底下别扶帽子，这个都属于叫有嫌疑的事情。华为干这个活呢，就属于叫瓜田李下。华为其实在中国的开源界里头一直还算是做的比较不错的，还算是守规矩的。只是呢，华为自己的宣传跟民众认知里头无法容忍开源这种模糊的地带。

应该怎么办呢？第一，我别在瓜田下走。我就算是在瓜田下走了，我也确实是提了鞋了，那怎么办呢？有一些人会选择说：“那我站起来的时候，甭管我原来手里拿没拿着瓜，我都放点钱下来，就算是避嫌了。”要么你说：“我就彻底不用也没毛病。”用了呢，你就大大方方的承认。或者说你原来比如说只用了一点点，你可以承认说：“我使用千问这部分呢，放在比较显眼的地方，让人看到说：‘我在这呢。’”就是说我在李子树底下扶帽子之前，我先举手：“我这帽子歪了，我要扶一下。”大家都看着，我这个帽子里头原来就有仨李子，不是从上头掉下来的。你可能要稍微说一下，就是变得更加的假道学一点点吧。

最终的结论是什么呢？就是华为自己呢，面对这种攻击是比较无力的。原来呢，他是开源这波人负责开源的事。在国内呢，负责愚民的这些人呢是另外一拨人，就是每天喊“遥遥领先”。但这些人是另外一拨人，这两拨人原来是不怎么打交道的。原来就算是有一点点小交集呢，华为内部这些负责开源的人也会选择说：“我只对对我不利的信息进行辟谣，对我有利的误传，我就听之任之了。”原来有人去传说华为要去做中文开发语言的时候，华为内部所有人都知道这是假的。但是呢，没有任何人出来辟谣，因为辟谣很累，没意思。

但是你到现在了，指责他抄袭了，你现在再想出来辟谣也没那么容易了。所以他这个攻击呢，甭管他怎么回应，原来不信的人还是不会信。而且他做的这个姿态呢，也不是特别好。这就是这一次华为被人指责盘古大模型抄袭千问2.5 14B的这个事情的前因后果。到底抄没抄？我估计还是用的过程中不是特别讲究，否则不会有这么大的重合度。

如果他这个完全无法复现的话，华为早就出来辟谣了，说：“你看，我自己也试了，压根不是这么回事，他测的就是错的。”而不是出来说你测试方法不科学就完事了。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

德国全境禁用DeepSeek只是冰山一角？昔日我们建墙防外，今日欧美反向修墙防内，AI时代的数据主权争夺战已然打响。

Luke Fan — Tue, 01 Jul 2025 00:44:10 +0000

德国全境禁用DeepSeek，以后这墙要反着修了吗？

大家好，欢迎收听老范讲故事的YouTube频道。2025年6月27日，德国数据保护专员梅克坎普宣布，已经要求苹果和谷歌从德国应用商店下架DeepSeek应用程序了。德国不是第一个，估计应该也不是最后一个。第一个是谁？意大利。意大利在每一次反对AI这件事情上，都是占第一个。原来他还反过OpenAI的ChatGPT。2025年初，也就是R1刚出来的时候，就直接给封了。

欧盟的其他国家现在是一个什么状态呢？他们比较纠结。荷兰是禁止政府手机安装DeepSeek的APP；比利时是建议公务员的手机不要安装，但是不强制；西班牙是有消费者权益组织在呼吁，政府到目前为止没有采取任何的措施；英国表示说他们在持续的监测，目前还没有做出反应。

其他的一些国家对DeepSeek是什么样的一个态度呢？加拿大所有的政府设备禁止使用DeepSeek；丹麦政府设备禁止使用，但是丹麦有5个大区里头，只有3个在执行，剩下两个还在看。

美国在这件事情上比较散装。什么叫散装呢？就是他也是管政府，其他的就是全民的，这个现在还没管起来。而且政府是各自出禁令：NASA禁止员工使用，五角大楼禁止访问，美国海军禁止使用DeepSeek相关技术，都是直接禁掉了。德克萨斯州禁止政府设备使用DeepSeek。美国这么多州里头，只有德克萨斯出了这样的法令，其他地方都没动。数百家私营企业已经要求企业网络安全服务公司阻止访问DeepSeek。这个什么意思？就是很多的美国企业呢，他们会把公司内部的安全事项包给一个公司，说你们公司来帮我去做我们整个的网络安全，请在设置防火墙的时候，把DeepSeek整个的网站都给我封掉，不允许访问。这是美国的情况，没有全国性的法律。全国性的法律有人在提，但是现在距离能够真正成为法律还比较远。

澳大利亚是阻止政府设备访问DeepSeek服务；韩国是政府国防部各个部门禁止使用DeepSeek服务。

印度比较好玩，财政部禁止使用DeepSeek和ChatGPT。我们能够跟ChatGPT一起被禁止，也是很光荣的一个事情吧。电子和信息技术部建议本地部署，解决隐私问题，说咱们别封禁这玩意，咱们自己部署一套东西咱自己使吧。这个是印度还比较务实的一个玩法。

封禁DeepSeek，大家都在封，分很多个层次。

第一个层次就是叫政府设备禁用，其他民众不管。很多的政府呢都是这样去做的，包括像最早美国政府去封TikTok，也是这样的。就是政府工作人员的手机，不允许安装TikTok，其他的人我是管不着你的。他们反正也是有言论自由，或者各种的信息自由使用的权利嘛。所以呢，很多的政府是这样来处理这个问题的。

第二种呢，就是叫全境封锁，而且呢是封DeepSeek的APP。大家注意，我们现在都叫DeepSeek，但其实是分很多层级。DeepSeek有开源的大模型，任何人可以把它部署到自己的云服务器，或者部署到自己家里边去。然后呢，有DeepSeek网络服务，就是我们连接DeepSeek的网站，使用这个网站上的聊天功能，或者是使用它的网站上面，由DeepSeek官方部署的大模型，买它的API的TOKEN直接使用。第三个层级呢，才是移动端APP，就是安卓iOS的这个APP。

德国这次呢，实际上进了个寂寞，只封禁了DeepSeek APP。他没有去封禁DeepSeek网站，在德国境内的民众，依然可以通过DeepSeek网站去跟DeepSeek的服务去聊天，也可以通过DeepSeek的网站直接调用DeepSeek服务端的这些API，直接去工作都是没问题的。只是把这个APP给下架了，这个其实没有任何意义。

再往后一层级是什么？就是封这个DeepSeek网站。就是我不但要把你的APP下架，还要封网站，任何人都不允许访问你的网站去跟他聊天，也不允许调用他的API服务。意大利全境是达到这个高度，就是意大利境内你不可以访问DeepSeek.com这个网站的。

澳大利亚政府的设备不允许连接DeepSeek网站，也不允许安装DeepSeek的APP。这个其实相对来说比较好做，就是你只要是在澳大利亚政府的所有手机设备上，修改一个域名指向，保证所有指向deepseek.com的这个域名，把IP地址直接给它改掉就完事了。这样就即使你安装了DeepSeek的APP，你也访问不了它的服务，它是可以这样来处理的。

美国的很多大公司呢，也是通过他们各自的安全公司服务商的防火墙，封禁了DeepSeek的服务器访问。你拿着手机出去没人管你，你只要拿着手机进来了，连了公司的Wifi了，你就不可以再去访问DeepSeek的服务器了。你装了DeepSeek APP，你进到公司里边来也用不了，它是这么来工作的。那有没有人……

去禁止DeepSeek开源模型部署呢，也有。谁呢？美国国会、五角大楼、NASA是禁止在自己的设备上部署DeepSeek的开源大模型的。你把模型布在这儿，万一这个模型跑着跑着，把我数据偷跑了，这玩意不行。

澳大利亚禁止政府设备部署DeepSeek开源大模型。韩国呢，国防部是不允许部署开源的DeepSeek大模型的。其他的一些政府部门呢，别用它的服务就完事了。你部署模型本地使用，我不管你。

DeepSeek被欧美封禁呢，本身其实也没有太去争取过说解禁，或者说“我怎么能为你服务”。DeepSeek也没惦记这事，爱封封去呗。我反正就开放给你使，你愿意使使，不愿意使拉倒，大概是这样的一个态度。

意大利跟德国呢，其实都给DeepSeek写过邮件，发过信息，要求DeepSeek呢，对其数据的隐私保护措施进行说明和调整优化。就是说：“你这个数据能不能不要回到中国去？你能不能在意大利或者在德国，或者至少在欧盟吧，你建个服务器，把这些数据存在本地？或者能不能告诉我说，这个数据回到中国以后，是不是做了脱敏处理？能不能保证我们的这个信息安全？”

发了信息以后呢，DeepSeek基本上就是“我不理你”。反正我也在你这儿没有什么实体，我也不在你这运营，你拿我也没办法，我就懒得理你。所以意大利政府也好，德国政府也好，发现“我发了要求了，你不理我，那我就给你封掉”。

所以这件事呢，大家也没做错什么。开源模型完全可以在当地部署，将数据存在他们本国，是完全可以达到合规要求的，这个本身是没问题的。但是DeepSeek没惦记做他这个生意呢，也就没有费这个劲。

因为中国其他的这些大模型，包括AI的很多应用呢，都在欧盟、美国使用的很好，并没有被封禁。比如说像千问，阿里的这个模型，开源呢没有问题。国内外访问它是分离的，咱们在国内访问的是tongyi.com，在国外访问的是qwen.ai，这个不一样的网址。千问是qwen.ai，就是你各自访问各自的。所以呢，它这个数据本来隔离的，那它就不会有人去封禁你。

而且千问也好，通义也好，它这个用户量其实本身不是很大。它通义是有APP的，千问没有。通义的APP压根就没有在欧盟去上架，就是你这个APP到这个应用市场上架的时候，你可以选说我到底要在哪些国家上架，它没去，所以也没有被封禁的这个机会了。

另外一个中国公司，AI公司在海外有很多用户的呢，就是Mini Max。Mini Max呢，它是国内外也是分开的。

你想去调Mini Max的服务，他还要问你说：“你到底是调国内版还是调国外版？”如果是国内版的话，你的网址是什么？你要上什么地方去申请这个TOKEN？你要调国外版，它网址就不一样。那这样分离的话，它就没有问题，国外也都是允许使用的。只是DeepSeek懒得给你费这个劲了。

另外，你比如像字节、快手，他们的这种AI服务也都是分离的。字节的coze，它在中国访问的是coze.cn，在海外访问的是coze.com，它就完全分割的。那大家就用吧，没有任何问题。快手的可灵也是这样的，海外跟国内的域名、APP全都不一样，这个就没事。

现在这些大模型公司，大概只有一个是比较特殊的，不是DeepSeek，是谁？是智谱。智谱呢，是被美国列入实体清单了，进入了美国严选。就是中国的这些AI公司呢，原来那些做人脸识别的企业，都因为侵犯人权被挂在实体清单里头，像什么商汤科技、科大讯飞、海康威视、旷世科技、大华股份、一图科技、云从科技，这些都是实体名单里头的。这一波做大模型的公司里头，唯一进到实体名单里头就是智谱。那他的这个模型大家就别使了，其他的其实都没有进到美国实体清单里头去。这就是当前的一个情况，就各个国家到底是如何去封堵DeepSeek的一个情况。

那最后呢，总结一下：德国对DeepSeek的封禁呢，基本上是封了个寂寞。你把APP封了，网站没封，这个其实是没有任何意义的。德国境内的民众依然可以通过手机、电脑登录到DeepSeek的网站上，去享受他们的这种API服务，或者是直接在网站上跟人聊天，这都没毛病。DeepSeek自己呢，也没有惦记着去开拓海外的个人市场，所以呢，也没有费工夫去做合规。如果认真做，其实不会被封，就是DeepSeek本身应该是有能力合规的。

真正担心安全问题的，就不是像德国这样直接把APP封了了事了。真正担心安全问题的，会封禁DeepSeek的开源大模型，就是你不允许在我的设备上部署你的开源模型，这个才是真正有安全意识的人干的活。那是不是有人真的偷数据了呢？这个事真不好说，因为也没有证据。但是现在数据的流转，其实根本是没法封禁的。美国要求美国人的数据在美国，欧盟要求欧洲人的数据在欧洲，这个没有任何意义。即使数据库存在欧洲本地，也有很多方式通过远程的方式，把这些东西直接去进行解读、去进行打包，或者是加密了以后再传回中国来，都是可以做的。所以现在他们各个国家。

制定的什么“守门人”法令，或者各种AI的这种限制法令，对于数据安全来说，基本上是没有什么意义的。而且呢，有了AI之后，原来一些可以保证数据安全的方式，现在实际上都没法使了。

原来是说大量的数据混在无序数据里边，是被保护的，因为很难挑出来嘛。现在有AI了，在海量数据里边“大海捞针”也不是不可能的事情。所以呢，现在真的没有什么安全的方法。特别是伊朗这次被以色列彻底给渗透了之后，核专家一个一个被暗杀了，军队的高层领导一个一个定点清除，所有的这些设备设施，一个一个精准打击，就说明数据渗透这件事情还是非常可怕的。

以前呢，美国人喊中国“门户开放”，现在中国要求美国“技术共享，市场开放”。以前呢，中国通过“墙”保护，外面的信息别流进来；以后呢，可能全世界都需要建墙，保护自己的数据别流出去。

这就是这一次DeepSeek被德国勒令全境下架的一个故事。这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

从乔布斯“灵魂伴侣”到山姆奥特曼的座上宾，强尼艾夫的IO团队以65亿美金估值并入OpenAI，是AI iPhone的黎明将至，还是又一个AI硬件泡沫的开始？

Luke Fan — Mon, 26 May 2025 00:40:54 +0000

OpenAI以65亿美金收购了强尼艾夫爵士的IO团队，要做AI iPhone了吗？大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI最大的硬件收购来了。没办法，他自己3,000亿美金的估值了，现在收购任何的团队都是比较贵的，所以又变成了有史以来最大的AI硬件团队收购。这一次呢，是以50亿美金的纯股票交易收购强尼艾夫创建的IO团队手里边77%的股票。

这个团队呢，2023年底其实已经被OpenAI投资过了。当时投资了以后占股了是23%。这一次呢，等于是交50亿美金，或者叫以50亿美金的对价收购了剩余的77%的股票。这个65亿美金怎么算出来的？很简单，50亿除0.77就等于65了。所以它的总价值呢，是按照50亿美金收购77%股票的方式反推出来的。

强尼埃夫爵士到底是一个什么样的人？首先在这里澄清，这是个异性恋。不是说拍了一张跟山姆奥特曼特别亲密的照片就变成同性恋了。到目前为止，人家婚姻美满，还有小孩。

强尼艾夫是2012年被英国女王伊丽莎白二世授予爵士头衔，所以我们管它叫强尼埃夫爵士。他呢，属于大英帝国最优秀的骑士勋章，叫Knight Commander of the Order of the British Empire（骑士司令官）。这一荣誉是对他设计领域的卓越贡献，主导了iPhone、iMac等划时代的产品，以及推动了英国创意产业发展的认可。授勋仪式在白金汉宫举行，由安妮公主代表女王执行。

他呢，号称是乔布斯的soulmate，就绝对是灵魂伴侣。成功的产品从1998年的iMac G3（也就是那个半透明彩色机壳的一体机）开始，到2001年的iPod（应该是很小的那个东西），再到2007年的iPhone 1，2010年的iPad，2014年的Apple Watch，最后还设计了2017年的Apple Park（也就是现在那个大飞碟那个楼）。基本上，我们能够熟悉的苹果设计风格就是强尼艾夫爵士他定义的。

专利数字非常巨大。这个设计师是相对来说比较容易去申请专利的，拥有超过1.4万项全球专利，涵盖硬件、软件、包装等领域。其中美国专利是1,628项，包括iPhone的玻璃机身、Apple Watch的表带连接结构等核心设计。

2019年呢，强尼艾夫离开了苹果去创业去了。他呢，做这公司叫Love From（就是爱从哪来）。他呢，设计了很多漂亮的字体。

年入2亿美金的设计公司，他是跟AirBNB、法拉利等企业合作，重新定义了品牌战略。非常强的一位设计师，基本上算是定义了整个移动互联网时代的产品设计、交互设计。这样的一次并购，OpenAI前面投了23%，后来把后边77%直接买下来了。到底是一个什么样的故事呢？咱们从资本的角度稍微的去理一理。

这个事情并没有这么简单。因为大家注意，前面并购的时候有一个词叫做“纯股票交易”，这里头没现金。一般涉及纯股票交易的这种并购呢，通常都不是一个特别愉快的故事。真正愉快的并购是什么？你花钱买，买完了以后我变成亿万富翁，然后出去天天玩耍。这样被并购的就是Minecraft（我的世界）的创始人，当时被微软并购了以后，就拿着大笔的钱开始挥霍，一直到目前为止还在挥霍，还没挥霍完。这个是愉快的故事。

“牛马级并购”呢，就是这个纯股票的并购，里头没现金，并购完了以后接着当牛马打工去。一般是发生了一些比较特殊的情况，才会出现这种纯牛马并购，或者叫纯股票的并购。我们来看看OpenAI吧，它自己现在的估值是多少钱呢？3,000亿美金。那么50亿美金的纯股票相当于多少股票呢？不是相当于50亿美金的股票吗？咱们不讲这个故事，相当于他的1.67%的股份。其实没多少，就是拿了1.67%的股份，我就直接把你这个IO全都收归旗下了。

假设2023年底的第一次投资，因为是OpenAI投了头一回嘛，23%的股票，也是给的股票。因为OpenAI其实手里并没有那么多现金，即使是给了一些现金的话，这个里头大部分应该还是股票。当时呢，并没有对估值进行公布。但是呢，以强尼·艾夫的名声和履历来看，这个投资不会太便宜。所以呢，大家一拍脑袋给了一个小目标？这个不是小目标，给了一个独角兽，这个是比较合理的。一个独角兽多少钱？10亿美金占23%，这样的话它的估值大概40多亿美金。这是当时的这个交易，虽然没有公布，但是应该差不多就是这样。

你想，山姆·奥特曼跟强尼·艾夫两个人坐在一起，也不可能说“我们这个9亿8，9亿9还是10亿零一”，这不可能是干这样的事嘛。肯定是一拍脑袋来，10亿占23%。当时的OpenAI的估值是多少钱呢？是800亿美金。所以呢，当时应该是给了OpenAI 1.25%的股份。强尼·艾夫手里边应该也不是特别缺钱，苹果的股票肯定就很值钱，再加上他后面的这个Love From从AirBNB、从法拉利手里头再挣的钱，每年都在挣钱。

所以，当时我估计他拿股票的概率也很大。但是据说呢，IO项目里头还有一些其他的投资者。这个事呢，我也去查了一下，并没有特别确切的说明里头到底有哪些投资者，是按什么样的估值进去了，到底给了多少钱。这个事不是那么清晰。

里头比较著名的就是软银的孙正义，据说是当时给了钱了。而且呢，当时给钱的时候好像是跟山姆·奥特曼、强尼·艾夫在一起，说他也出了一部分钱。但是这个钱到底是怎么出的，没有找到确切的说法。

现在好了，包括软银的孙正义以及其他的一些投资人，和Love From的其他的这些老股东——因为当时IO是Love From去成立的，Love From是他的一个股东——现在等于这些人一扭脸，全都变成了OpenAI的股东了。因为OpenAI拿了50亿美金1.67%的股份出来说：“我把这个IO的77%股份给你收掉。”那么原来这些持股人就都通通变成了OpenAI的股东。

做硬件这件事呢，本身还是挺烧钱的。不是说设计个字体，或者说我给你参加几个研讨会就可以拿到钱的。而且呢，IO这个团队，甭管它的创始团队或者说里边的员工背景有多么光鲜，它呢其实没有真正的产品面世。虽然说他做了一些尝试性的产品，但是哪个都没面世。

而且前面呢，被寄予厚望的AI Pin这样的AI产品，号称是AI时代的iPhone，这样的产品呢也没什么响动。而且AI Pin呢还有一个比较讨厌的什么，那也是苹果离职员工干的，也是充满了苹果基因的产品，最后也直接扑街了。

所以在这样的一个情况下，我们会发现IO身上聚集了很多的特性：第一个，很高的估值——前面40亿美金的估值，啥也没做出来过；而且整个赛道上铺满了尸体，不光是AI Pin，还有什么AI Rabbit还是什么，反正有一堆类似这样的产品都在前头死掉了。

这个方向呢，所有投资人再冲上去就会谨慎一些。你如果估值低呢，再加上团队还不错，没准还有人愿意去试一试；你估值很高，这个玩意就没法整了。而且这不是一个硬件产品团队，这是一个设计师团队，他没有成功运营过硬件产品，这也是一个挺大的硬伤。

再加上创始团队又特别豪华，强尼·艾夫爵士号称是定义了整个移动互联网时代的人，他做的公司你给一个比较低的估值，自己也不好意思。所以他这样的团队聚集了所有这些特性在身上，以后你再出去谈融资就会比较麻烦，没有人敢接这个活。就算是给了钱了，你还得给一个跟他们匹配的价格。在这里头没人敢贪小便宜，说我用一特别低的价格。

我把它投了。这种出去会被人骂的，所以他这种公司很难融资。

现在呢，现金肯定是非常紧俏的。估值不值钱，现金紧张，就只能达成选股票交易的这种并购了。而且大家要注意什么呢？在并购的过程中，估值涨没涨？估值没涨多少。他上一轮的投资，我们刚才推测了——不是猜测，是推测——他的估值大概是40多亿美金。这一次呢，涨到65亿，就属于是什么呢？就给大家有个交代，确实涨了。

但是正常的这种热火烹油的赛道里头，这样的投资，这样的并购，经常3倍到5倍的估值上升，你才能把它卖掉。现在等于你涨了个30%吧。而且这也是一年半了吧？至少是2023年底到现在，2025年到年终了，一年半了才涨了这点估值，其实是说明整个团队运营的情况并不是很好。

OpenAI手里边现金其实也不多。别看那么多人给他钱——微软给了100多亿，软银给了他400多亿——但是微软给的钱呢，很多应该是代金券。就是说我给你钱了，但是这个钱呢，我现在先不给你，我帮你存着，怕你去乱花。等你什么时候给你呢？上微软云租算力的时候，我就帮你抵扣掉。微软给的很多肯定是这种东西。

软银那400多亿美金，应该给的真金白银吧？可能有一部分会折算成星际之门的一部分，里头肯定会有一部分现金，但是也不会特别多。大家投资的时候都是尽量少给现金的。

OpenAI手里边的现金还要干嘛呢？还有一个很重要的用途：他有好几千人呢，而且还要不断的用高薪、高股票继续再去挖人去。所以他需要去维持一个几千人团队的运转，而且这些人的薪水都很高，所以他的现金也比较紧张。

那么干脆说，拿个1.67%的股票出来，大家皆大欢喜一下就完事了。只是呢，多了几张嘴出来吃饭就完了。完全收购了以后，原来IO的这些员工，你们现在就算OpenAI的员工了，OpenAI给你们开薪水，这件事就结束了，没有什么其他的动作。

真正火的并购，刚才我们讲了，高溢价，涨个3倍到5倍，要有一堆人去抢。如果没有人抢，这事不行。拿到钱的人要欢天喜地的庆祝，要开始这种堕落之旅，这个才叫真正的好的并购。牛马并购价估值涨那么一点点，像是这个40多亿涨到65亿，大家呢拿到的都是纸，全是股票。并购完了以后，好好干干活，上班去，就是有这样的差异。

甭管并购是怎么完成的吧，是开心也好，不开心也好，几家欢喜几家愁也好，我们总还是要期待一下，强尼艾夫爵士到底准备搞点啥事。OpenAI和IO团队呢，都没有宣布过他们要干什么。

你到底要做一个什么类型的产品？谁也没说过。因为前面这条赛道上已经躺满了尸体了，躺了好几个了，而且都是寄予厚望，都有苹果基因，都是上来就见光死，直接扑街。

IO呢，前面是发表过一些硬件原型产品，包括感知用户情绪的智能眼镜、可折叠成钱包大小的投影设备，以及彻底取消屏幕的语音交互装置。但是具体最后它要造出一个什么东西，还不知道。而且呢，IO已经申请了12项专利了，与无屏交互相关的技术专利，通过机电信号捕捉手势的这种指环设备，基于空间音频的导航系统。

什么叫机电信号捕捉手势呢？就是带一指环在上头，但是我们这个手动的时候，是有一些机电信号是可以捕捉到的。就是你在指环上做一些传感器，它可以知道你这个手在做什么动作。这个还是要一些技术的。

我给大家讲一个特别好玩的东西吧。咱们用这个手环，或者我们管它叫手表这种东西，去做计步器，说记录一下我们到底走了多少步。这事很复杂，千万不要以为说，我们在手表里头装一个运动传感器，记一下你到底走了多少步就能记下来。不是这么回事。你这个手表里的运动传感器得到的那个数据是非常混乱的。你像我们走的时候手还要摆动，还要做一些其他的动作。你最后要把所有这些干扰都去掉了以后，才能够算出来你到底是走了多少步。

你想你在手腕上记一东西，你最后要记录脚的动作，那他这个干扰大去了。像咱们最早的计步器都是搁哪的呀？都是别在腰带上的。那个时候机械计数器都是往腰带上一别，你就没有什么其他的运动干扰你，可以记的比较准。但现在你想你戴在手上，你还要把这个东西记下来很麻烦的。所以你现在要在指环上，通过机电信号收入了以后，再去把这些乱七八糟东西过滤掉，然后去判断你到底在做什么手势。这个还是有点技术难度的。

咱们就说手表记步这个事。你去戴这个华为的表带、小米的表、苹果的表，他们每一个设备记出来的步数不一样。你把这小米手机、华为手机跟苹果手机，你揣身上走一天，你看看这技术的步数也是不一样。咱们就再用这个计步器的故事跟大家讲一讲，这种专利还是需要一些聪明才智的。

现在呢，OpenAI跟IO呢，是准备推出一个销量可以超过1亿只的AI iPhone。他们定义的什么叫成功？什么叫划时代？什么叫革命性？就是我卖掉1亿个，这个就叫革命性了。你如果卖不到1亿个，这个就不叫。其实iPhone一也没有卖到1亿，现在是有了。因为小米是第三名吧，大概是1.7亿一年，三星是第一名，可能是2亿多吧。

这个具体数字我们就不查了。但是iPhone一出来的时候，卖的不是那么多的。现在呢，他们计划2026年推出首款的AI硬件产品，定位呢是口袋里的智能体，或者呢叫AI伴侣。

这个到底是一个什么样的东西？我们通过这些文字，其实还是比较难想象的。因为前面已经有了挂在脖子上的了，有夹在身上的了，有这个耳机型的了。这个到底是做出一个什么来，我们还要再去等待。

但是呢，有几点是基本上确定的：
第一个就是无屏交互，突破传统屏幕限制，通过多模态感知、视觉语音、环境分析实现自然交互。例如通过眼球追踪和手势识别来输入指令。其实眼球追踪跟手势识别的话，Vision Pro就是这么来去交互的，已经有人做出来了，也是苹果家的东西嘛。

第二个呢，就是要去做情绪感知。原来所有的这些手势识别也好，眼神跟踪也好，是没有情绪感知的。但是呢，现在你把这个图片扔给了Gemini以后，你是可以进行情绪感知了。所以未来情绪感知会在里面，能够实时理解用户的环境和需求，提供个性化服务，如实时翻译、情绪支持等等。你要不开心了，我要稍微逗你开心一下。

原来我们经常说这个人工智能是人工智障，是怎么回事？就是它听不出来你现在开不开心，听不出来你到底想要什么。甭管你跟他多开心的讲，还是多不开心的讲，他都是一成不变的，在完成他自己认为的任务。

这个设备呢，将无缝的融入生活设备，可能为穿戴式设备或者是家用终端，旨在成为用户继智能手机和笔记本电脑之后的第三个核心装备。这就是他们准备干的事情。

和AI PIN比起来到底有什么不一样？因为AI PIN算是苹果基因，也是苹果团队做的一个失败产品，而且当时也是寄予厚望了。其实最大的差别呢，硬件到底有什么差别咱不知道，因为没看到嘛。但是模型的能力，这一段时间是有巨大提升的。

第一个，增强语音模式。我们现在可以跟OpenAI的ChatGPT去聊天，去了还聊得很开心。你还可以随时打断它，用全世界各种语言聊天都很好。

第二个，它可以进行实时搜索了。原来你跟ChatGPT去聊天，等于他都是我的最新知识库，截止到某年某月某日，我的知识没有了。你聊了半天，基本上都是在一本正经的胡说八道，这个是不行的。现在有实时搜索了以后，你就可以跟他聊一些今天怎么样、昨天怎么样、最近有什么样的东西，这事都可以聊了。

然后视觉推理出来了，GPT-4里边已经有视觉推理了。你给它一张图片以后，它可以放大缩小，拆成一小块一小块的，然后调整角度。

告诉你这都是什么？再进行整个的推理。这块已经强的一塌糊涂了，再加上长记忆。你现在跟他聊了半天，他知道你是谁，知道你原来问过什么，知道你的习惯。这个现在也是一个长足的进步。

还有什么进步？就是MCP跟agent已经都上来了。原来你只能跟它聊天，最多可以搜索。现在说你给我订餐，你给我去查各种地图，给我去做各种的交易，它都可以直接实现了。所以在这一段时间，大模型有了长足的进步。如果把AI PIN这样的产品结合，今天的模型未必会失败的那么惨吧。

现在OpenAI跟IO赶上这个模型进步了以后，这个人生伴侣也有可能是能够做出来的。IO呢，会获得更多的模态。原来我们讲ChatGPT可以干嘛？文字、语音、视频、图像，你可以做这样的这么多的模态的输入。现在有了IO了以后，什么电信号，什么运动传感器，我们可以把这样的一大堆的信号都给它塞进去。当引入了更多的传感器数据之后，这个模型训练了就可以变得更加聪明。

到目前为止，我们相信scaling law依然是有效的。你怎么能够拿到更多的数据，让这个scaling low往前走呢？你说我的文字的语料就这么多了，但是我现在可以拿出大量的运动数据，进去重新训练模型，这个事情就又可以往前走了。

而且OpenAI呢也准备在今年发布all-in-one的GPT5。就是你到了ChatGPT以后，不用再去选我要用4O，要用4.1，还是要用4.5，还是要用O3，O4 mini，就叫GPT5。你只管提出你的要求，然后它去根据你的要求，根据情绪判断来判定，我到底要用哪一个模型来替你服务。

所以当所有这些都实现的时候，2026年我们还是可以期待一个非常有趣的产品呢。每一次大的交互革命都会带来一波红利。上一波的交互革命是什么？是触控。iPhone呢就是上一波红利的开山之作。自然交互呢一定是在触控之后的下一波交互革命吗？这个事呢我还不确定，因为也有可能直接跳过。

再往后的一波交互革命，现在已经知道是什么了，就是脑机接口。像最开始我们是键盘鼠标，键盘鼠标前边还有什么？打孔卡，咱们就不研究了。到后面我们开始用笔在屏幕上写来写去，到iPhone这里就是说我们用触控，多点触控去实现交互。

中间还有一点点小的波折是什么？就是任天堂玩的这种体感，这个也算是一个小的交互革命，但是并没有引起颠覆性的时代的更新。再往后呢就是马斯克的这个脑机接口。中间这个到底能不能成为一个划时代的？

说我们整个定义一个新时代还要看，也有可能就像任天堂的体感这样，在一个相对小众的范围内进行传播的可能性也是存在的。

总结一下，OpenAI 65亿美金收购了强尼艾夫爵士创办的IO这个团队。不管收购的过程有多少资本的故事，还是能够期待一下，自然交互可能会给我们带来一波新的爆发与红利的。期待强尼艾夫爵士给我们带来新的AI时代的iPhone吧。

好，这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

深度剖析谷歌A2A：AI智能体协作的标准化未来看似诱人，但“看起来很美，就不要想得太美了”，我们能从历史复杂系统的失败中吸取哪些宝贵教训以指导当前选择？

Luke Fan — Fri, 09 May 2025 00:40:11 +0000

谷歌的A2A看起来很美，就不要想得太美了。

大家好，欢迎收听老范讲故事的YouTube频道。

“看起来很美，就不要想得太美了。”这句话哪来的呢？来自于猫腻的小说《将夜》。这个里面有一句话叫：“你长得很美，所以就不要想得太美了。”事情是在哪呢？是在隆庆皇子看到桑桑酒量很好，就想收其为侍女。桑桑呢，是里面的一位女主，而隆庆皇子呢，长得很漂亮，而且身份地位非常高，手持大义的一个人。他提出了这样的一个要求，当时的主人公宁缺就进行了反击，说：“你长得很美，就不要想得太美了。”意思是什么呢？就是保持对现实的清醒认知，你要知道自己是谁，几斤几两。而且呢，也要敢于对强权逻辑进行挑战。

那么，这个事儿跟今天咱们要讲的谷歌A2A有什么样的关系呢？首先先讲一下，谷歌A2A到底是个什么东西。

计算机和软件专家这么多年来呢，其实一直在为一件事情努力。什么事呢？就是让不同的系统，特别是异构的系统（所谓异构系统，就是说你的系统拿C语言写的在Windows上，我的系统是拿Python语言写的在Linux上，他的系统是拿其他什么语言写的在IBM小型机上或者什么这样的），让这些系统呢可以相互之间配合协作，完成一些更复杂的服务。这是这么多年来，计算机专家一直在努力干的事情。

很多的系统都沉淀下来了，你说你把那玩意扔了，让我重写一遍，这肯定不行。所以一定还是要让这个系统为我们大的事业去提供新的热量，不能推翻重干。这些旧的系统呢，实际上里边就都是“屎山”嘛，我们管它叫“屎山代码”。你真要重写一遍，也不是说写不出来，但是你总会丢一点什么东西。现在可能觉得不是什么问题，但是等以后需要找的时候，这个成本就可能会变得很高。你丢掉的这些东西，可能会变得很值钱。这些东西就是能不动就不动。像程序员讲的就是什么：“说我这代码很烂，说能跑不？”什么意思？“说代码跟你有一个能跑就行，要么代码能跑，要么你能跑。”所以能不动就别动这个东西，就要想办法让大家凑合起来，先把事儿做了。

A2A呢，其实也是类似这么一个事儿。它呢是人工智能代理协作的一个标准化方案。现在我们都在玩AI Agent，各种各样的Agent要搁在一起。A2A呢，就是Agent to Agent。它呢定义了统一的通信规则，智能体发现呀、任务分配呀、状态管理呀，我们定了一堆规则来解决跨平台协作的问题。比如说你这是Gemini，那边是OpenAI，Gemini下头还有一大堆的……

什么谷歌翻译、谷歌搜索、谷歌地图，OpenAI后头没准还有一堆office的东西，还有GPT4O画图。等于有一些这样的工具，它们相互之间说：“我们要去聊个天了，怎么能够协作把这事做好？”

我也不惦记说我把OpenAI干掉，你通通都用Gemini；OpenAI反过来也是这样，我也不惦记把Gemini干掉。咱们协作着能够把事干完就完了，各自把擅长的事情做掉。这个事呢，看起来挺美的是吧？

那咱们接着往下说。它呢还挺开放，这个协议。它基于什么样的通信协议呢？是HTTP，也就是咱们浏览网页的这个协议。通过这个协议来走，不要再去定义一些新的私有协议了。

然后，我们使用叫“服务端事件”的这样一种方式，来去确定说对方的服务器干怎么样了。叫SSE，Server-Side Event。通过这样的方式，来确定对方干完了没有，干成什么样了，去决定这个事情是不是接着往前走。

然后呢，让每个智能体写一个叫“智能体卡片”的东西。什么叫智能的卡片呢？就是说你写一个文件说：“我是谁谁谁，我擅长干什么，我在哪个服务器上，我的位置怎么样，你怎么找到我。”大概写这样的一个卡片，然后把这卡片呢找一个地方放好。

当要开始干活的时候，咱把这个卡片都找齐了。有这么多智能体，这个适合画画，那个适合搜索。我们把这些智能体都找齐了，然后现在我们要看一下，我们整个要干一什么事，让各个智能体一起去干活去。

然后还有一些什么状态管理干嘛呢？比如说视频渲染。我现在用AI生成视频了，这挺慢的对吧？你不能让所有的都等它一个。你说：“这边你去生成视频去吧，我就不管你了。”过一段时间去看一下，你的这个状态做完没有。过个5秒钟试一次，过个5秒钟试一次，发现做完了，我再把这个视频拎出来，合到整个的结果里边去。

它呢，通过任务对象，实现复杂协作流程的异步管理。这个话呢是有点计算机专业术语了。这里呢讲一下什么叫异步吧。同步、异步，这是两个相对应的词。

同步的意思就是说，我这边发出请求了，你要给我干一什么事。但是呢，你没干完之前，我站这等着你；你等你干完了，我拿着结果，我再往前走。这叫同步。

异步什么意思？就是刚才咱们讲的，你给我干事去，我就干别的去了。过过一会我再来回来看你，看一下状态对不对。状态变了以后，我再把你结果回收，我再接着去做其他事情。这个就是并行处理的一种方式吧。

所以现在呢，A2A都是可以支持异步处理的。这是目前为止Agent的通讯方面。

定义的最完善的一个协议了。能想到的，没想到的，基本上人全想到了。谷歌嘛，也不是白来的。

现在呢，有三种主流的大模型通讯协议，其实干的活都差不太多。

第一种是Function Calling，OpenAI做的。它呢，就是你把能够做事的工具描述成一个Function，也是用一个描述文件把它描述完了以后，告诉大模型说：“我这有一功能，等你需要的时候你就调就完了。”这是一种方式。

第二种方式呢，就是MCP，叫Model Context Protocol（模型上下文协议）。它呢，是把刚才我们讲的这个描述的过程变成了一个对服务的描述，说：“我这个功能是在哪台服务器上，或者是在本地的一个外部服务器上，怎么去调用，它能解决哪些问题，输入哪些参数，输出哪些参数。”也是这样的一个描述，然后把这个描述扔给大模型，它就干活去了。

那A2A呢，其实干的活也类似。它呢，就是说我们把所有的，甭管是功能也好，还是Agent也好，我们通通都写出卡片来：“我能干什么，我在哪。”然后把这些东西通通都扔在一个地儿，等干活的时候，我们把所有的卡片收集齐了，然后来决定到底怎么去干。

其实干的活都差不太多，只是呢：
– Function Calling必须是在本地进行编程；
– 而这个MCP呢，它支持调用服务器上的东西，可以调用远程的东西；
– 而A2A呢，就是你调用的东西不再仅仅是由大模型调用工具了，它可以在Agent之间、大模型之间进行调用了。它是这样的一个更进一步的协议。

说白了，这三个都差不太多，都是基于JSON的方式将功能描述出来，然后将这些描述呢作为提示词直接扔给大模型，扔过去就完事了。大模型适时调用，就是我需要的时候我就调它，调完了以后呢，让大模型是等在这儿，还是说接着干别的事去，定期来问询，来去确认状态。等收到结果以后，再把结果合并到大模型推理过程中再去干别的。

他们三个的区别就是一个比一个复杂，一个比一个完备，也就差在这了。那你说做的完备，这有什么不好的吗？这不应该把它设计的很完备吗？很多人听了以后说：“老范学了这么多年计算机，难道老想着拿这种半不拉拉的东西就凑合吗？”这个您还真说对了。最后流行起来的各种技术，基本上都是这种半吊子设计的。特别完备的技术一般都流行不起来。

给大家举一些历史上的这种追求完备性的失败的案例吧。这里说的失败呢，并不是说完全没有用起来的这个东西，而是说在未来没有成为主流协议，在大的竞争中失败了。

但是呢，还是有一些单位会去使用的这些方案。第一个叫Lotus Domino，这个呢就是多米诺骨牌那个Domino。这个是1996年出来的东西。IBM当时呢收购了Lotus Notes之后，雄心勃勃推出的系统。Lotus现在估计很多年轻人都没听说过。大家现在使用什么office、Excel这些东西，都觉得很强大很厉害。最早的做类似这种功能的人是谁呢？就是Lotus。第一个在电脑上可以让大家方便处理表格的工具，叫Lotus 123。Lotus也做了类似于Powerpoint、类似于word这样的工具。所以最早做office的实际上是他。后来被微软抄袭了以后呢很生气，把自己卖给IBM了。IBM说这我得替你把公道整回来，我们要让大家一起来继续用Lotus。

Lotus当时还做了一个叫Lotus Notes的工具，不但是把office功能都做完了，还做了很多的协作功能。我现在需要做工作流，我需要做OA系统，我需要在里头有权限，有正常的批文流转，你就可以用Lotus Notes来去实现的，要比office当时还是要领先挺多的。后来到IBM手里来说，我们既然已经可以让这个东西流转起来了，我们要怎么更进一步？他们就出了一个东西叫Domino。你像Domino骨牌嘛，推倒一块，哗啦哗啦要一一直这么往前走，起这个名字也是为了这个。它是最早期的群建解决方案，就是说可以把各种的信息都包装起来，支持分布式的数据库和安全机制。我的数据库不一定都要存在一个地儿，我可以存在不同的地方，相互之间配合来工作。曾被视为办公自动化的标杆，当时也是觉得非常非常强大。我当时还学了好长时间呢，学这玩意说这东西实在太厉害了，比其他的这些都要强太多了。因为各种你能想到没想到的，它全都给你做出来了。

但是就遇到了很多其他的问题。第一个是对于复杂系统的二次开发成本和部署、培训成本实在太高了。你要想开发这个系统，你必须要先去问说有几个处长，谁审批什么事，大家是怎么流程，你要先去干这个事。而且整个开发完了以后，你还要培训人家怎么使用。整个都做完了以后呢，下一个问题是什么？你业务不能变。你只要业务开始发生变化了，有迭代了，你刚才花的这些成本再来一遍，这个是很麻烦的。而且呢Lotus Domino有一个很大的问题是什么？它不支持Windows。IBM当时在推一个东西叫OS 2。IBM为什么去收购Lotus？

Lotus Notes回来要去跟Office打一仗呢，不服气。我是花钱找比尔·盖茨去开发PC DOS，后来又花钱去找比尔·盖茨去开发OS/2。结果比尔·盖茨呢，一边拿着我的钱去给我开发OS/2，还给我拖进度；一边自己偷偷把Windows做出来了。Windows把我的OS/2打得满地找牙，我不服气。我要找一个跟我补齐短板的东西，一起去把Windows跟Office重新战胜它。OS/2也没有打败Windows，Lotus Domino也没有打败Office，大概就是这样的。

而且IBM还干了一个什么事呢？它全套使用自己的解决方案和开发工具。你要想集成一些第三方的拓展，也是很麻烦的。最后呢，是被微软的Exchange和Office打败了。微软Exchange实际上是一套功能很强大的外部服务器。这是我们讲的第一个案例。

第二个案例是什么呢？叫SOA。这个东西呢，叫服务导向架构（Service-Oriented Architecture）。2000年左右开始推出，谁在后边推呢？Sun、IBM和Oracle。它是基于当时的J2EE架构。它什么意思呢？就是当时大家都是用Java去开发各种各样的业务系统。这些业务系统呢，你要让它跑起来，要让它相互串起来。比如说你开发了一个库存管理，我开发了一个电商系统，那边开发了一个物流系统。我们怎么能够让系统整个转起来呢？我最好是写一个我们叫企业服务总线，在这个上面把这个物流系统、仓储系统、电商系统串一块，这个事不就跑起来了吗？你们那系统我们就不用改了。

这个当时其实也是一个非常美好的愿景。它呢，支持跨语言、跨平台的服务调用，推动企业应用集成的规模化落地。你们原来都已经花了好多钱了，做了一大堆的这种子系统了，我们现在给你串起来，干这样的一个事情。他干这个事跟刚才咱们讲那个Lotus Domino有一点点像，只是这一块呢要更先进一些了。但最后也是失败了。

失败的原因呢，是服务编排依赖集中式治理，难以适应敏捷开发。大家都做好了以后，我们现在要给大家串起来。但其实是真的是每一个提供的服务接口后边都是一个屎山，光看所有的这些文档都看不过来。现在想规划各种新的业务，只能在屎山基础上再叠加屎山，最后就变得越来越复杂。这是第一个错误原因。

第二个呢，过度依赖于一些特别复杂的重量级标准。比如说里头有一个叫WSDL，这个标准呢叫Web服务描述语言。

Web service description language 就是我们要发现你的服务嘛？你这儿做了一个服务怎么办呢？你要写一堆的文件，让我去调用的时候可以去发现你。我们现在做很多的类似这种工作，都要做一个叫自解释。

我这有一个仓储管理的系统，这个仓储管理系统到底应该怎么用呢？你应该调用以后，你就出一个类似于文档式的东西，告诉你要怎么怎么调用，我使用什么样的权限，要把这东西都写在文档里，或者说写在一个说明的服务里面。就是你要调用这个服务，然后我来给你说明，我给你讲清楚，你才来个调用，要有很多这样的东西在里头。

然后呢，还有一个很重的协议叫SOAP（简单对象访问协议，Simple Object Access Protocol）。你也要描述说，我这个对象到底是怎么回事，它等于有一大堆这样的协议在里头。最后调用起来就非常非常麻烦。而且你想他这些东西，你也要把改造原来那个系统。以前你这有一个仓储系统，肯定是不支持什么WSDL和SOAP的，你得改造这个东西。

最后说我们懒得动了，或者说这个系统人家已经交付了，钱都付完了，我现在再去找人弄，没人理我了。所以最后也没推起来。最终呢，这个是被微服务架构给替代了。不要做这么复杂，不要做这么重，独立部署和轻量化的通讯，最后替代了这种SOA的系统。

现在我们正在使用的各种Restful。Restful是什么？就是说我也不用去说明你这个服务到底是怎么回事，我只管调用，调用完了以后，得到一个Json的返回结果就完事了。我们现在使用OpenAI的ChatGPT，使用Gemini，使用所有的这些网上服务的调用API接口，实际上都是Restful。这个就要简单很多，不需要这种自解释。

这是第二个失败案例。第三个失败案例呢叫Sharepoint。这个东西是2006年微软推的。微软说我这有office，有Windows，还有这么复杂的权限系统，大家进到我的Windows系统里头去，谁有什么样的权限我都管好了。我也想打造一个企业级的内容管理和协作平台，文档、门户、业务流程我都给你整合在一块。你们不要再去折腾找人买OA系统，找人再定制开发，别干这事了，我都一站式给你搞定。

我们以前写OA系统的时候，有一个很头疼的点是什么呢？就是我们需要处理office文档。你做了一大堆的各种流程，最后你还是要在office文档里去干活。微软说干脆我自己弄吧。

就整了这么一套东西出来。SharePoint这个东西，我也是参加过培训，还折腾了挺久。最后呢，也没有太大用起来。

它呢，深度集成了Office套件，提供了开箱即用的文档、版本控制和工作流引擎。比如说，你这儿是财务系统，我这儿是销售系统，那边是一个HR的系统。我们自己做自己的文档管理，别人想到我们的财务系统里去看一下财务的各种规章制度、一些相关的文件，根据他的权限就可以进来找了。它的这些功能都是完整的，听起来也是头头是道的一套系统。

最后呢，也是没玩下去。用户体验极其僵化，界面复杂、定制化依赖代码开发。你要定制这东西，你还是得写大量代码，非技术用户基本上没办法进行自我配置。而且它的生态碎片化非常严重，第三方插件兼容很差。企业需要投入大量的资源维护定制化功能，因为每一个企业都有各自的需求。这块对于SharePoint系统来说，基本上就是地狱。

最后替代的技术是什么呢？Slack。我们也别费劲了，你也别研究说谁有什么权限或者什么样的，咱们直接上IM，大家聊天就完了。需要的时候就直接把文件丢在里头，就传过去了。国内呢，就是像什么钉钉、飞书、企业微信，这些系统就把它替代掉了。微软呢后来说，我也不再推SharePoint这样复杂的、完善的东西了，最后做什么？叫Microsoft Teams。咱们在这个里面聊天传文件就完了，别搞什么权限管理这么复杂东西。

那么这些项目都是怎么失败的呢？咱们讲到这么多项目。第一个呢，就是这些都是大厂推的。咱们刚才讲的这三个案例，一个是IBM的，第二个是IBM、Sun、Oracle的，第三个是微软的，都是大厂在推，而且都是花了大钱在推。这3个都是请讲师讲课、出书、组织培训，我都参加过培训，也都买过书、都学过，而且非常完善，看起来都很美。他怎么能失败呢？

第一个是默认需求和各个组件的能力是固定的，要干什么这事就一定是定死了，不许改。第二个呢，就是每一个组件到底能干什么也是确定的，不允许有什么变化。这是他们这些系统在设计之初就已经埋下的雷，所以他们应对各种变化、应对第三方的这种接入，都是非常麻烦的。

那你说我们的系统就是很复杂，怎么办呢？他们解决的方法呢，都是通过增加复杂度来应对各种灵活性问题。你想把这东西变得稍微灵活一点，可以，没问题，我们增加一点复杂度，写点程序是可以搞定的。但这件事呢，你肯定是越往后复杂度就越高，那你最后里头堆积的屎山代码就越多。

最后，这维护性就越来越差嘛。而且呢，做类似这种协议里头，还有一个很大的问题是什么？私心太重。就像刚才咱们讲那个隆庆王子的故事似的，他想要人家女主回来给自己做侍女，都是有私心的。那你说这些大厂能有什么私心呢？都是想捆绑自己家的服务。一开始IBM说我不上Windows，我要上OS/2，这不是捆绑自己的东西吗？后边Oracle、IBM和Sun去推SOA的时候，他们都是卖小机的，卖中间件服务器的。你一旦走了这条路，大家就一定要把它这个全套系统都买齐。所以肯定还是说店家推自己的东西。至于最后这个Sharepoint，那微软说你得买我的操作系统，你买我的Office，一套都买齐了，你不要用别人任何东西。大家私心都很重，所以第三方技术很难兼容进来。

这种技术应用，刚才咱们讲了不是说没人用，也有人用。但是呢，它有一个很大的前提，就是需要有自上而下的需求，由最上面开会来决定这事要这么干，一层一层讨论，从上往下布置。这个事是可以用起来的。上层决策者呢，通常喜欢大厂，也喜欢相对比较完善的方案。举个例子吧，比如日本。日本的IT企业一般都是自上而下决策的。刚才咱们讲这三个技术：Lotus Domino，部分制造业企业比如丰田，早期用于内部的OA系统，依赖定制化开发。但是因为维护成本实在太高，后来还是被淘汰了，因为你不支持Windows，这事咋弄？没法整。SOA，日本的金融行业，比如像三菱的UFJ银行，曾经通过这个SOA进行整合过。但是因为架构僵化，难以支持移动端创新，近年来逐渐转向微服务，还没有彻底转干净。当时做SOA的时候，还没有移动互联网呢，所以没想到过这个问题。Sharepoint，政府机构比如说总务省用于文档管理。但是因为界面实在太不友好了，协作效率实在太低，现在已经逐渐被Google Workspace取代了。

走这条路呢，基本上就退出了创新迭代的第一梯队。最上面这个老板，他也是信息茧房，并不知道一线的人每天在遇到什么样的事情。由他去拍脑袋决定，下边人只管执行的这种模式，不是说这东西就做不好。但是呢，四平八稳的，所有新东西跟他没关系。通过这种方式呢，日本失去了它的互联网和移动互联网时代。现在在AI时代面前呢，也在踌躇吧，大概是这样的一个状态。

总结一下，A2A协议的设计逻辑呢，与历史案例中的很多失败范式高度相似。试图通过顶层设计解决复杂的协作问题，却忽略了技术演进。

{的动态性和生态多样性。当前Agent的核心其实还是大模型，而大模型本身的能力边界还非常不清晰，依然在快速扩张之中。这两天，谷歌Gemini 2.5又升级了，现在升级到Gemini 2.5 Pro 0506版，也就是5月6号这个版本，又遥遥领先了。这次是真遥遥领先，特别是在编码这一块遥遥领先。

那你现在都已经到这样了，你说你做一大堆A2A，把代码写进去了以后，你发现大模型升级了，你咋弄？你根本没法整这个事。所以，A2A的未来呢，充满了非常大的不确定性。作为现在的一些新的程序员，或者是一些新的技术人员来说，这种系统出来呢，还是值得学习一下的。但是，不建议大家在上面投入太多的精力，把一些很重的系统直接搭建在类似这样的协议上面去，未来转向会比较麻烦的。

好，这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

Manus独领风骚成过往？字节扣子空间与百度心想APP强势入局，深度评测揭示AI Agent新格局下谁能主导复杂任务自动化与MCP生态。

Luke Fan — Thu, 24 Apr 2025 00:44:49 +0000

Manus的后劲来了。百度、字节都有了自己的agent产品上线。

大家好，欢迎收听老范讲故事的音乐节目频道。字节上线了扣子空间，百度上线了心想APP。Manus的光环不再。Manus本身就属于意外爆火，当时它突然火了以后，咱们还做了直播，说这个东西没有什么技术门槛，只是产品设计的很有意思。

Manus跑去跟阿里合作了之后，那字节、百度说这不行，咱们也得有自己的产品上线。又不是有多难做的东西，那就做呗。我呢，搞了一个字节扣子空间的邀请码，咱们呢试一试，看看这个产品到底怎么个用法儿。

Manus呢，到现在我也没用上。原因也很简单，我去申请测试，等了很久，到现在都已经开始收费了，也没有收到说你可以来玩一下的这个邀请。所以也就别费劲了。我自己呢也没有特别着急，我要特别着急想用的话，随便找两个人去要一些邀请码，也还是可以搞得定的。既然没有那么热心的话，也就没有上心去找嘛。

AI agent呢，其实主要还是做自我规划、完成复杂任务。就当我看明白这个东西到底是干什么了以后呢，就没有那么着急了。如果对于输出的结果没有什么特殊要求的话，其实用Grok的deep search或者是open AI的deep research都是够用的。只是这些工具呢，输出的都只是一个文档，就是一个Markdown文档，或者说是一个富文本的文档而已。

我想去生成个网页，想去生成个表格，它就稍微差点意思。而且呢，Grok的deep search可以使用的工具是有限的，就是一些内部工具。现在呢还不支持我们去调用外部工具。像Manus这种东西呢，它除了内部工具之外，有一些外部工具，可以通过一些接口放进来。如果是对输出结果有一些要求，说我想输出个网页，我想输出个应用，可能就需要使用Manus这样的工具了。

新的方向有了，大家就冲就好了。现在新方向是什么呢？就是Manus给大家指明的新方向，叫agent加MCP。现在的大模型呢，基本能力已经够用了。GPT4O及以后的版本，Claude 3.5及以后的版本，Gemini 2.5 Pro以及往后再出的各种版本，其实都已经可以实现agent的全套功能。

这里头比较倒霉的就是Meta，他现在出的LLAMA4好像稍微差那么一点点。国内的模型呢，比刚才我们讲的这几个要稍微差一些，但也勉强能用。比如说DeepSeek R1，比如说通义千问的千问QWQ 32b。

通义千问的推理模型，以及豆包1.5的推理模型，最近这两天也发布出来了。百度文心一言呢，他自己号称他的4.0推理模型是可以用的，但是我没有去测试，实在是懒得跟他费劲。

这些大模型给他一个任务以后，他把这个任务拆解出来，进行一些规划，基本上是可以使了。在自我规划之后呢，就是数据调用和内部工具使用，这个就会看出各家的差异来。因为你输出的结果怎么样，跟你搜索的结果是息息相关的。你如果搜索质量差的话，那你输出的内容就会变得很烂。

我为什么很少使用GPT的各种推理模型，包括它的深度思考去干活呢？因为它的搜索质量实在太烂，所以经常出来给我胡说八道。而且有一些比较特殊的资源，只有某些内部可以使用。比如说X上面的帖子，只有Grok能用，其他人你用不了。或者说抖音里边的视频，我们根据字幕来进行一些搜索和总结，这事除了字节，别人也看不了。这就会产生差异出来。

在内部的数据跟工具使用了之后，还可以使用外部工具。现在MCP标准呢，已经基本确立了，各大平台都开始出官方接口了。前几天还跟大家演示过，使用高德地图进行行程规划，还是非常有意思的。

剩下的是什么呢？剩下的就是等就好了。因为这种任务你扔进去以后，没有个十几二十分钟他出不来。等的过程中就是TOKEN在燃烧。后边就是一次一次的调用大模型，哗啦哗啦在那跑，TOKEN就在干这个事了。

今天呢，咱们测试一下扣子空间。扣子空间呢，应该是4月19号吧，低调上线，也没开发布会，什么也没说，这东西就来了。也是需要邀请制或者是报名去等待。我呢，就直接找了人说：“给我发个邀请码过来。”人就给我发过来了。

拿到邀请码以后，你进去完成第一个任务，也就是让扣子空间给你去做第一个项目以后，你就可以生成5个新的邀请码。待会呢，我会在视频的简介里头贴4个邀请码。我的5个邀请码已经有人用了一个了，还剩4个。想试的人呢，可以到那去找邀请码去试去。

你试完了以后呢，也欢迎你把自己在生成的新邀请码，没有用过的，还贴到我们的评论区里头，让其他想试的人可以去使用。在海外的人现在别费劲，只有coze.cn上才可以用，只有在墙内的人才可以用。

现在呢是免费试用，每天呢可以跑5-10个中等复杂度的任务，就是跑十几二十分钟这种，我们算中等复杂度吧。长了呢，可能能够跑个几小时，但是我现在还没有规划这么复杂的任务让他去干。

完成的工作呢，算是有一点点小惊喜吧，待会咱们看一眼。但是呢，内容不能细看。

很多的内容还是比较粗糙的。下面我们来演示一下，这就是我们的扣子空间。进入以后，你点击快速开始。如果像我这样已经有使用权限的，就干活去了。如果你没有使用权限的，可以加入他的waiting list，或者是输入邀请码。邀请码在咱们视频的简介里边去找。

下面是他的一些样例，就是这些是能干什么。这个很重要，为什么呢？就是当你看到了这些样例以后，你就说，我可以去拿他的提示词改一改，就去干活去了。比如说什么股票早报定制、什么深度调研、访谈记录整理。当然访谈记录，你要给他一个很复杂的访谈记录，他才去给你整理去。包括AI产品的用户分析，那你要给他一大堆的用户调研报告，他去干活去。包括什么游戏攻略撰写，待会我们去试试。还有的一些呢，是比如说写旅游攻略、市场信息调研，这个都是可以的。

我们点进去了以后呢，就会到达这里。这就是老范讲故事做的扣子空间了。但是注意这里头有两个模式，一个呢叫探索模式，一个呢叫规划模式。探索模式就是你给它一提示词，它噼里啪啦就给你干完了。规划模式呢，你给他一个提示词，他呢先去做一个规划：这样干行不行？我去按这10步干，还是干这20步干？你在这个时候还可以调整，调整完了以后他去干去。如果你是这个探索模式呢，直接干完就出结果。如果是规划模式的话，中间他遇到问题，他会停下来问你：“对不起，这有一个问题我搞不定了，咱还干不干？”或者有什么其他方法，你可以再跟他聊两句，他再接着往前走。更像个人规划模式。但是，规划模式呢，会更加消耗时间和TOKEN。我就不在这现场给大家试了，因为现场事实在是太慢了，没有个20分钟跑不完一个项目。

这个地方呢是上传文件的，只识别文字的部分。你说我上传个图片给我识别一下，目前还不可以。最多可以上传10个，单个文件的最大是50兆。比如说我有一大堆的这个简历，把它打包扔上去。扔上去以后呢，他把里边的内容都给你找出来，说哪一个是符合我要求的。这个是可以做简历筛选。或者你给他一大堆的用户的调研报告，他也可以去给你分析。

这边呢是MCP扩展，大家看到了有高德地图、飞书云文档。你比如说我添加这个，最后说请把输出的结果写在飞书云文档里，它就给直接给你做完了。或者你说我从里边去读取信息，都是可以的。包括飞书多维表格、飞书电子表格。你说我有一堆的用户调研报告，都是存在这个里边了，你可以让他直接去读去。图像工具呢是可以做文生图，但是效果一般，我试过了。语音合成也是可以。

Notion可以在Notion里边去创建、读取、编辑、更新，包括GitHub、MySQL的一些查询，ClickHouse的一些查询，这个都是允许的。ClickHouse就是有些人把比如用户的数据放在里头，这个都可以拿来去分析。就是你需要哪个，你就在这里头添加。把这都弄完了以后，直接点开始就完了。点一次基本上20分钟就不见了。像我们这种免费用户的话，每天可以点个5-10次。

我们来看一看他干的怎么样。第一个呢是前面有案例说：“请给我分析《黑神话：悟空》的攻略。”现在我说：“你给我做《纪元1800》的详细游戏介绍文档，包括发布后的完整时间线，涵盖每个关卡和DLC的详细介绍，以及基础策略和故事线的介绍。同时列举出主要人物角色和各项任务的情况。最后报告用可视化网页呈现。”

他说：“我接到你的任务了，我要开始干活去了。”先思考一下去搜索：《纪元1800》什么时候发布的？游戏背景是什么？基础信息是什么？思考的过程又去想去了：关卡、DLC、策略，挨着个儿去搜索它。等于就是搜索了大量的内容，再去思考说：“我们现在开始把一些基础信息保存下来。”去生成网页，生成UI。UI完成了，然后生成代码。代码呢要进行解析、分析和检查。完成了以后给它配图，但实际上没有什么图进来，可能有一点小图标进来。配图完成，开始部署。最后就生成完了。大概整个跑了20多分钟。

做出来的结果是什么？就是这样的一个结果，说：《纪元1800》游戏指南。这个游戏背景是回到工业时代之初，19世纪初的工业化。基本上写的都是对的，因为都是搜索出来的嘛。游戏核心呢是城市建设，依托于海岛港口的小型农庄起步，逐步建设各种的养殖场和工厂，以及公共设施，形成繁荣的近代都市贸易系统。一项一项的就去讲去了。

你看它还是有一点点小动画的。这边是时间线：2019年4月16号正式发布的，2020年8月11号有各种组合包，DLC就开始上线。到2023年呢，登录了PS5和Xbox。2024年呢，又在出新的组合包。

然后DLC的一些详情。这个里头呢就告诉你说：植物园的DLC，推荐指数是什么？植物园、沉默的宝藏、植物园航道、权力之座、狮子之地。好像有些DLC我是有的。贸易港，这个里头是说有这么多，哪个是推荐去买的，哪个不是那么推荐的。推荐指数五颗星制。然后呢，是有季票，就是你买了季票以后呢，包含了哪些DLC了。这是第一个季票，第二个季票，大概是这样的一个购买方式。

就是你买了本体以后，还可以买季票，或者买这些DLC继续丰富游戏。策略呢，也告诉你了，说我要先干什么后干什么：初期什么，中期什么，后期什么。这是策略，这是故事线，稍微的跟大家讲解了一下。

然后是角色。这个里头呢，只写了两个，其实他角色是很多的。清公主是比较有名的一个角色了，都是他们有什么特色。然后系统任务有哪些任务：什么拍照任务，解谜任务。其实任务非常多，这个就是非常不完善了。但是呢，这就是给你的一个结果。

前面的提示词大家看到了，最上面是提示词，然后是一项一项的去干活去了。后面我就让他做了一个什么项目呢？做一个PPT说明吧：扣子空间目前免费使用的版本，背后是哪些大模型，内置了哪些工具，可以通过MCP挂载哪些工具，免费试用的用户有多少额度，额度如何计算，每天可以做几个任务，如何计费。扣子空间擅长做哪些任务，为什么没有大张旗鼓的宣传呀？用户对于扣子空间的反馈怎么样？扣子空间跟百度、跟Windows、跟Grok的deep search之间到底有什么差异？他就去挨着个儿搜索，搜索完了以后再去生成PPT，大概是这样的。

右边我们就看到了这个PPT。当然它这个PPT呢，下载下来是一个PDF。有些部分还可以，但是呢，有些部分明显的就没搞明白，包括计费的部分。实际上它属于明显的没搞明白。但是我们就一句话呀，虽然它做了十几二十分钟，但它确实给我们做了一个还能看的PPT出来哈。我们可以在这下载这个PDF：扣子空间介绍功能、使用反馈和优势点PDF。你可以下载下来。

然后呢，我让他做了一个稍微复杂一点的。这个是什么？我需要在5月10号到17号，从北京出发7天，呼伦贝尔大草原自驾旅行，一共两个人，预算5万元左右。我喜欢自然风光、隐藏的宝地和蒙古文化。我想从北京自驾出发，一路开电动车，需要规划充电站。请详细的给我行程安排和一个内容丰富的飞书文档旅行手册，包括地图、景点描述、旅拍和航拍的打卡点、必备的装备、每日行程、一路上的特色美食，以及我们每个行程中可以参考的旅行小贴士。将飞书文档保存到我的飞书账号。但是你使用飞书呢，它就会让你认证一下，说你的飞书账号是哪个，它到时候就给你存进去了。

最后呢，它给我生成了一个什么？这个过程我们就不仔细看了，因为我还调用了高德地图。它里头到底如何开，到了哪个地方，有什么吃的，哪个地方有充电站，这个都是由高德地图来去提供的。做了可能有半个小时吧。

第一天：从北京开车到锡林浩特
北京出发，走G6京藏高速。中午到张家口休息，再往锡林浩特方向开，约4小时车程。
打卡贝子庙、鄂尔古纳敖包，感受蒙古文化。品尝手抓羊肉、咸奶茶。
充电站位置：锡林浩特市区XX充电站。

第二天：锡林浩特到阿尔山
上午出发，走S307省道。中午在东乌珠穆沁旗用餐。下午继续前往阿尔山，沿途景点包括XX草原、XX湖。
晚上入住阿尔山XX酒店（需提前预订）。
景点介绍：普留克（特色美食）、炸柳根鱼（当地特色）。
充电站位置：阿尔山市区XX充电站。

第三天：阿尔山到满洲里
出发路线：走S203省道。中途在XX镇用餐。
满洲里景点：套娃景区、XX民俗村。
充电站位置：满洲里市区XX充电站。

第四天：满洲里到黑山头
行程安排：上午出发，中午在XX镇用餐。下午抵达黑山头草原活动营地，参与蒙古族民俗活动。
充电站位置：黑山镇XX充电站。

第七天：海拉尔返回北京
行程调整：第七天应从海拉尔返回北京，建议乘坐飞机或高铁。

旅行装备：
– 衣物：5月份昼夜温差大，需准备保暖外套、长裤。
– 生活用品：牙刷、保温杯、驱蚊用品。
– 摄影器材：相机、三脚架、无人机（航拍必备）。
– 车载用品：充电器、地图导航设备。

旅行小贴士：
– 交通：提前检查车辆（充电车需确认电量），携带驾驶证、行驶证、保险单。
– 饮食：注意饮食卫生，尽量选择正规餐馆。
– 住宿：提前预订酒店，避免旺季无房。

其他注意事项：
– 雨天行车需减速，注意安全。
– 旅拍和航拍打卡点：贝子庙、黑山头草原、套娃景区等。
– 特色活动：参与蒙古族民俗体验，探访俄罗斯后裔家庭。

—
（注：纪元1800任务部分因涉及游戏截图及图标缺失问题，已按用户要求跳过未完成部分。）

我们就不要图标了，然后又接着吭哧吭哧干去了。

我这写着放弃图标和截图，继续完成其余工作。说好的我将放弃这个东西，然后我去干活去了。最后蹭蹭蹭，干到这大概也是20多分钟，不到30分钟吧。干完的这个结果呢，其实给我们生成了很多的这种Markdown文件，就是把所有搜索的信息都放在这。

它搜索完了以后呢，再用这些Markdown文件去生成我们最上面这个GSX。这个是一个用React来去渲染的单个的网页文件，他最后生成了这么一个文件。

主要的人物，这个里头也有谁谁谁：清公主，然后白手起家。这个一般我们管她叫老太太，这个反正最后总要打一仗的，叫欧梅拉，这都是有的。相关的新世界相关的角色有哪些？就是他找的还是挺全的，虽然最后生成的网页里好像没有这么全，但是这边找的还是很全的。

然后呢，给大家看一个他犯的错误：游戏关卡跟DLC，他找了一堆什么使命召唤、守望先锋、吸血鬼幸存者。这什么意思呢？就是他在agent传递的过程中，他忘了我要找纪元1800相关的信息了，传递的时候把这个游戏名扔了。所以呢，他再去找游戏关卡跟DLC的时候，就直接输出了错误的结果。因为当他很多的agent一起配合干活的时候，就很难避免看这个事情。

最后呢，给我们生成了这样的网页。这就是大家能看到的网页，说一是什么什么样的，二是什么。这是我们的时间线。然后呢，是关卡跟DLC，这个还是有点小漂亮的。但是这个呢，就刚才我们看了，它是出错了，所以它给了一堆什么吸血鬼幸存者的DLC、什么激战、什么恶龙绝境的DLC、方舟的DLC。所以这个页面是完完全全错误的，不用管它了。

然后呢是策略和分析，这个很二。他需要展开前期后期主线写的，就非常的简陋了。再往后是人物：清公主，一个一个的人物。但是这个呢写的并没有那么完整吧，就是其实他找人物的时候找的是挺完整的。就刚才我们看到他给的，这个Markdown里头是挺完整的，但是呢最后生成网页里并没有那么完整。

作为基础框架是够的，把这个框架拿出来以后，再套上这些Markdown文件，还是可以继续去丰富的。这就是我们今天演示的扣子空间。

进入的网址呢是space.coze.cn。海外的用户先不要着急使用，国内的现在已经可以跑了。使用的感受是什么样的呢？真的需要跟扣子开会了，不能跟他随便聊天了，太浪费TOKEN了。因为你是跟他说点什么，他都哗啦哗啦去干活去了，不能随便聊了。

所以，我现在都是写很长的提示词，把各种能想到的尽量都罗列清楚。如果你说我实在是一次想不明白怎么办？使用规划模式：你先提出要求，他先把这个任务列出来，你再按照这个任务呢再去调整。修改好任务以后，他再去确认，按这个逻辑来去执行，他再往前跑。而且跑的过程中，他还有时候问你说：“我这块执行不下去了，那块找不着了怎么办？”你还可以跟他再聊两句，继续往前走。

如果你说我不走规划模式，直接用简单方式一次跑到底的话，那你就一开始要把任务提的比较详细一些。整个干活的过程呢，还是很有启发的，就跟思维链似的。你看他先干什么后干什么，先搜索什么后搜索什么，是有启发性的。如果发现哪块没做好呢，我们后面也可以拿这个东西再去修补。输出的结果呢必须要验证，这个没什么好说的，里头一定是有明显错误的。Agent的传递过程中呢，会出现明显错漏，刚才我们演示的时候也看到了。生成的结果呢框架可用，生成结果后面的很多细节，还需要我们再去补充。而且把这种结果放到他们的Agent IDE里头，比如说像trae里边去，也可以拿这个东西再去修修补补。

目前呢，可以输入的东西是搜索，它自己可以搜索。然后呢，通过MCP挂载一些外部工具。但是现在的MCP呢，只能是它挂好的。你说我想挂一些新的MCP进来，目前还没有完全开放。可以输出的信息呢，第一个是文档，它这个文档是Markdown，就是一些程序员的标记语言，也是有一定格式吧，但是没有那么丰富。然后可以输出这种单页的网页文件，你拿这个网页文件以后，后面呢可以让他去生成自己的网站。你说想让他去写一些别的代码，我测试了一下失败了。你说给我写一个什么安卓应用，它最后生成出来的还是一个网页，没有其他东西出来。然后呢，可以把输出的东西写在Notion里去，也可以输出什么PDF、PPT。PPT呢是以PDF形式来输出的，还可以做表格、做飞书，文档存进去都是允许的。

大家看到了这个产品以后，特别是有些人试用了以后，自己去感受一下。字节在做类似这种产品上呢，它有一些优势和劣势。优势呢就是迭代速度还可以，trae现在基本上已经能用了，特别是在Gemini 2.5 Pro这个模型上来以后，现在trae基本上可以跑了，因为把MCP也加上去了。所以呢，像扣子空间这样的工具，经过一段时间迭代之后，应该也是可以运用的。第二个优势呢，是字节有非常丰富的应用场景，它有抖音、有TikTok，有今日头条，都是可以使用的。

然后有流量，就是我们想宣传点什么东西，在自己的这个流量池里头稍微说两句，没有任何问题。最后一个优势是有钱，就是当产品打磨好了以后，铺天盖地的投放推广。

但是字节呢也有些劣势。它的劣势就是包袱太重。你比如说豆包大模型算是基本达标，但是距离DeepSeek R1呢，还是有一点点差距的。不能扔，因为是自己家的，必须抱着往前走，这就叫包袱。还有呢，就是藩镇割据。大公司都是这样的，扣子、火山、trae、飞书、剪映，各玩各的还相互提防。就是说我这边有点什么东西，我绝不能给你看，也绝不能听你的。你需要我什么配合，一定不给你做。咱们是这样的一种合作模式。其实大厂里边都这样，就是宁与外人不与家奴。这个话应该是慈禧说的。什么意思呢？就是他们更喜欢跟外界进行合作。你说我跟内部的一些团队合作了，其实更合适一些吗？因为毕竟大家的基础数据是一致的，应用场景也是一致的。那不行，一旦是内部合作了，就有谁听谁的问题，谁成主谁成辅的问题。这事不能随便乱搞。

总结一下吧。现象级的产品Manus出现之后呢，各大厂商都是要抄一遍的，这也算是对方向的一个认可。agent加MCP呢，应该能够引起一个小的热潮吧，确实可以解决一些实际问题了。未来呢，更好的模型，更多的外部工具，会产生更好的结果。

下一步我们可以期待什么？open AI、谷歌、Anthropic和Meta现在还没有特别明确的类似这种agent加MCP的产品出来，我们还是可以期待一下的。下一个里程碑是真正的交易。什么意思？就是我们现在看到的扣子空间也好，Manus也好，或者其他所有类似这种产品也好，主要做的事情还是叫信息搜集。他并没有真的做交易。你说你给我订个房间，去给我买张机票去，给我买东西去，这个事没干。一旦这一条路打通了就会腾飞。

为什么他们现在不去做交易呢？原因也很简单，现在模型还没有那么靠谱。因为它出问题的几率会很高嘛，受不了。所以现在并没有真正的把交易做进去。现在的各种MCP，也都是以信息查询为主，很少有哪个MCP是可以做交易的。你比如说像美团，如果给我一个MCP，我直接可以通过MCP去在美团上订餐，目前还没有。因为现在的大模型或者是这种agent模式呢，还没有那么靠谱。在等待向前发展那么几个月，可能我们就会看到由MCP驱动的交易大量涌现，这么下一个篇章就真正翻开了。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛。

参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

震撼发布！GPT-4.1，牛马的新工具来了，专为程序员打造百万Token上下文API利器，超低价与高指令遵从度能否颠覆Gemini与Claude主导的工程市场格局？

Luke Fan — Wed, 16 Apr 2025 00:52:31 +0000

GPT4.1发布了！牛马们的好工具终于上线了。大家好，欢迎收听老范讲故事的YouTube频道。

GPT4.1突然发布，这是程序员们的工具。普通的用户你是用不上的。你用网页版，你用APP，甭管是手机端的还是电脑端的，你是付费用户还是免费用户，你都用不到GPT4.1。只有程序员可以通过API调用GPT4.1。

但是这个事儿对于非程序员来说，也是有很大改变，很大帮助的。那么我们今天来讲一讲，GPT4.1到底是一个什么样的东西。

首先，它有100万TOKEN的上下文，这个是非常吓人。100万单词吧，基本上你可以直接塞到GPT4.1里头去，它统一给你处理。而且大海捞针做的也很不错。

什么叫大海捞针？就是比如说你找一个100万字以内的小说，你直接扔进去，然后呢，在里面稍微插几句。比如说OpenAI干什么了，山姆奥特曼干什么了，甭管在文章的任何地方，你稍微插几句，然后你提相关的问题，它能给你找出来。这个玩意叫大海捞针。

很多的模型都需要做类似这种测试。为什么呢？就是说我一次给了你一大堆上下文以后，你是不是通盘考虑了？不会说把其中的一部分扔掉了，或者说我看看开头看看结尾，就告诉你是怎么回事了，不会干这个事。所以GPT4.1的100万TOKEN还是非常强的，绝大部分场景直接可以应对了。

但是现在还不是最强的。现在Gemini Pro 2.5是可以走200万TOKEN的，Gemini Pro 2.0也是可以有100万TOKEN的。但是在其他的模型就没有了，可能也就是64K（64,000 TOKEN），也有一些是128K（128,000 TOKEN）。但是到100万TOKEN的其实还是比较少的。

指令依存度非常的高。什么叫指令依存度？就是你让它干嘛，它就给你干什么，不会说每一次出来的都是惊吓惊喜。你让他去找什么什么样的文章，找什么样的信息，做什么样的排序，按照什么格式输出，他都会非常非常认真的按照你的要求去把它做好。

编程能力有了非常大的提升，但是依然比不过Gemini 2.5 Pro，也比不过Claude 3.7。它的编程能力只是在原来GPT4O的基础上有了很大的提升。

标准版、mini版和Nano版，分了三个版本。为什么要分这么三个版本？速度飞快。当然现在速度最快的不是它，现在速度最快的是Grok 3 mini。这个版本是所有程序员能够使用到API里头速度最快的，原因也很简单。

用的人不多，模型又小，而且后边是马首富。家里头穷的光剩卡了，所以那东西跑的飞快飞快的。我前面有一个项目拿这玩意做，一个回车下去，夸夸夸那个刷的那个字你都看不过来。

价格非常便宜，GPT4.1，特别是这个Nano的版本，100万TOKEN的输入只需要0.1美金，换人民币7毛多钱，就可以输入100万TOKEN了。输出的话是0.4美金100万TOKEN输出，是目前大家能够用到的所有付费模型里头最便宜的一个，没有比它更便宜的了。就算是GROK3 mini，大概也要到0.3美金100万TOKEN的输入。

那么牛马们工具终于更新了，要好好去干活了。程序员们对大模型的要求，其实跟普通人还是有一些差别的。普通人呢说我要跟他聊天，他要显得聪明一点，要给我写的不像AI，要给我有很好的创造力，这个是普通人的要求。

但是程序员呢，通常要求的叫指令依存度、可控性，在这两方面要求是非常高的。因为既然是程序员，我们只是让大模型成为我们整个程序中的一个模块。我们要求的是输入，然后按照一个统一的逻辑，有一个可以预期的输出，这个是程序员想干的。就是真正那些才华横溢，不太听招呼的不是好牛马哈，所以一定是要让干嘛就干嘛的这种。

工程方面呢对于大模型的要求，跟普通人也是有一定差异的。为什么呢？普通人说你这个模型越大越好，越聪明越好。但是对于工程上来说，在满足预期的情况下，尽可能的降低成本，提高效率，提升一致性跟稳定性。在可以接受的成本下，获得可预期的结果，我给了一分钱还是给了两分钱，我就要这个结果出来，这个是工程上的需要。

GPT4.1呢，就像是牛马们突然得到了曲辕犁，这个也是中国古代的一个很著名的发明。有了这个农具以后，牛马犁地的这个效率就会极大提升。GBT4.1基本上就是这么个东西，价格便宜速度快。刚才我试了一下，至少Nano的版本，那个速度非常的快，虽然还没有GROK3 MINI那个快，但是已经很快了。

MINI的版本效果也还是不错的。这三个版本里头，大家可以按照需求自己去选择和优化。你让他做很复杂的事情，你就是选用GPT4.1。稍微简单一些的事情，或者我不需要你去发挥创造力，我给你一堆的会议纪要，你给我总结归纳一下。或者说我去到本地知识库，检索完了东西以后，你给我总结一下，这种事情你用Nano版或者是用mini版足够了，这个效果非常非常的好。

100万TOKEN的上下文。

绝大部分场景都可以满足了。你都不需要去做本地知识库做RAG，你可以直接把文档啪一把都扔给他，说来给我看看怎么回事，不需要去做更复杂的分段了。指令依存度高，这件事是非常非常重要的。

程序员最怕的是什么？叫指东打西，指南打北。像我原来使用GPT-4O的很多模型的时候，每一次输出的结果都不一样，这个让我很烦。我举一个例子吧，我让他给我的视频起标题，每一个标题后头有一个标号，但是呢，他每一次输出的都不一样。有的时候输出的是123，有的时候呢先要写一个引号，再写123，有的时候在前面给你写中文的123。这个就很烦，因为我到下一个环节去处理这个标题的时候，我需要去找到数字123打个点，然后后边是标题的这三行字，但我就找不到。经常是找着找着就出错了，因为我写程序的时候，必须是通过这个比较固定的格式去读取信息，经常会错。现在的话就不会出这种问题。

程序员喜欢的是不需要太聪明，让往东绝不往西，让追狗绝不撵鸡。GPT-4.1就是这样的一个工具。OpenAI在这个时候呢，推出GPT-4.1也是无奈之举。这个老大真的很难当，为什么这么讲？因为AIGC呢是一个基础技术，OpenAI想把AIGC的整个的盘都占住，在里头当老大，这个是很难的。

因为对于大模型的评判标准在快速的分裂。有的说我这个大模型创意最好，就像前面的GPT-4.5似的，我可以去生成各种各样的内容，而且你可以指定说给我按鲁迅那样说，他都可以做的很好。有些呢，是需要做可衡量的项目。什么叫可衡量的项目？就刚才那种创意项目是没法衡量的到底好不好，大家是要靠主观去评测的。可衡量的项目最简单的就是编程，你这个程序编的对不对，里头是不是有错误，是不是把上下文和所有的东西都考虑到了，这个叫可衡量项目。这块也是可以去评估的，谁的大模型编程最好，而且还有稳定性的要求，指令依存性的要求，这块也可以去评测。

大模型还有推理能力的要求，这块你的推理能力够不够好，这也是一个新的维度了。包括速度和价格以及多模态，多模态包括理解和生成以及realtime。Realtime是什么？就是我实时的输入，实时的输出。现在谷歌也好，OpenAI也好，都可以去进行这种real time的回复。就是你拿着一个摄像头，对着人呢也好，对着外面也好，你说这是一什么东西，那是一什么东西，就像是一个真人一样跟他聊天，去打断他，它可以实时的根据摄像头拍到的东西。

和听到的内容，给你进行回复。而且这个多模态还要去评估音频，还有是语音和音乐，还有图片，还有视频。我们要做这么多行业，这么多领域去进行评估。

而这一次，GPT-4.1可以对没有字幕的视频进行理解和分析，而且它现在在这一块的得分是最高的。它比其他所有的这些Gemini也好，包括GPT自己早期的版本也好，都提升了非常多。

GPT-4.5呢，算是一次失败的表演。就是前面先发了一个4.5出来，然后现在又发4.1。因为4.5这个东西其实是给这种Pro用户用的，就是你一个月交200美金以上可以用。后来呢，发现实在用的人很少，它又降低下来，一个月交20美金的人也可以用吧。

现在我也可以用4.5，只是到目前为止我都没有用过。为什么呢？第一个，很贵。虽然我一个月交20美金，他让我用，但是这个效果对于我来说其实看不太出来。为什么呢？因为他的文学上，在他的很多这种创意上做的非常好，但是我是一个程序员，是个直男，他写的天花乱坠的东西，到我这看不出来，还真会有这样的问题。

而且呢，4.5这东西还挺慢，这个也不是我喜欢的。所以到现在为止我没怎么用过，包括4.5的API我也没怎么调过，因为实在是贵。调API的话，你是要按TOKEN付钱的，不是说一个月交20美金就完事了。

GPT-4.5在工程方面绝对是战五渣。为什么呢？就这个价格，就让工程师直接望而却步了，实在是玩不转。稳定性、指令依存度这一块的话，肯定也不怎么样。我看创意越好的东西，这个指令依存度和稳定性就越差。

OpenAI现在在表演什么节目呢？叫“六大派围攻光明顶”。什么意思？就是在推理上被DeepSeek-R1摆了一道。并不是说OpenAI的推理做的不好，只是它原来呢，因为没有其他人竞争，所以它的推理是隐藏的，就整个的推理过程不给你看，只给你推理的结果。

而DeepSeek-R1是上来我就把整个推理的结果原原本本拿出来给你看。很多人看了推理过程之后，我还受到了启发，我还发生了思维的碰撞，可以有一些新的想法出来。在这一块，真的是给OpenAI了一些教训。山姆·奥特曼现在自己出来也承认这件事，他说：“我们并不认为DeepSeek-R1真的有做的多好，但是呢，在这一点上，确实是我们原来没想到。”

价格上呢，也被DeepSeek-R1和DeepSeek-V3摆了一道。这东西确实是便宜。这东西花多少钱训练的咱不管它，但是呢，因为它是完完全全开源免费，各个平台都在部署。

所以呢，DeepSeek V3也好，DeepSeek R1也好，对于很多的第三方开放平台来说，它所提供的这个基本可用的功能是相当便宜的。但是现在，4.1的MINI和Nano的价格已经下来了，但是4.1标准版还是稍微有一些贵的，比4O要便宜。但是应对DeepSeek的V3和R1来说，还是稍微贵一些。

在编程能力上呢，被Claude 3.5长期碾压。现在呢，还有Gemini 2.5 Pro和Claude 3.7。到目前为止，GPT 4.1在编程上的评分依然赶不上Gemini 2.5 Pro和Claude 3.7。在多模态生成这一块呢，视频，它的Sora基本上是废了，现在大家再也不想这事了。图片距离Midjourney还是有非常遥远的距离的，很难追赶。

AI agent方向就是它的下一个大方向。现在面对Anthropic的MCP和Gemini，以及Grok给出的deep research或者deep search这些功能来说，现在还是需要去追赶的。因为它下一个GPT5的版本应该就是要追赶这一块了，所以真的是四面楚歌。

除了这些之外，还有一大堆千问小模型在不停的跑冒滴漏，把各种各样零碎的用户需求都给实现掉了。为什么说一大堆呢？现在通过各种尺寸的千问模型微调出来的一个小模型，在Huggingface上大概有十几万种，所以这个是非常大批量的。

现在的OpenAI呢，在个人用户这边那绝对是遥遥领先。从用户数量、使用时长，其他所有的AI助手加一块大概都赶不上它。但是在程序员和工程方面，已经被Claude、Gemini和DeepSeek给吃干抹净了。我自己应该已经有几个月没有再调用过OpenAI的API了，没必要。你效果又不好，价格还挺贵，还不快，我为什么要调你？

所以我现在已经把自己的很多AI agent里头的大模型都换成Gemini，换成Grok，换成Claude和DeepSeek，都换成这些东西了。当然，我今天上午又把它很多换回4.1了，效果很好，好极了。

现在GPT4.1呢，就是为了挽救工程市场，挽救API市场而诞生的。这个东西并不是给c端用户去用的。那你说4.1是不是牙膏呢？你看这数就知道了呀，人家不叫4.5，不叫4.6，不叫4.7，人家叫4.1，这个肯定还是一个小牙膏。它呢，在这个创意上，在模型更聪明这块做的一般，只是说这是一个比较老实的。

指哪打哪的一个工程工具而已，这个还是很好用的。GPT5呢，估计后边还是要稍微难产一些。现在OpenAI也出来说了，我们低估了GPT5训练的困难，可能还需要再多等几个月，大家才可以看到GPT5。必须在这个时候先稳住局面，使用DeepSeek、Gemini、Claude以及MCP，其实已经可以做很多真正有用、有价值的商品了。

如果OpenAI继续放任这个事情往前走的话，程序员们可能就会被这几种模型直接都抢走了，就不会再向OpenAI去迁移了。那么OpenAI就有可能会变成一个像苹果那样的纯C端公司，这个是OpenAI所不希望看到的。他作为AIGC行业的排头兵，他希望在所有的方方面面都领头，这是他现在会遇到的问题。

OpenAI手里边的各种模型、技术和工程实践呢，肯定还是非常多的。我们现在看到的应该是冰山一角。OpenAI目前在做的事情是什么呢？如果没有人震动它，它可能还在那继续挤牙膏，继续在这晃荡。实际上2024年一整年，它就是这么个状态。但是到2025年，随着DeepSeek R1的出现，发现不行了，必须要冲出来，赶快把后院里头各种能跑能跳的东西都拎出来，稍微的包装一下，打扮打扮就直接上线了。

所以现在我们看到，OpenAI的动作是非常多的。但是即使如此，每一次我们所看到的，依然是OpenAI内部技术的冰山一角。

总结一下：如果不是程序员，GPT4.1跟大家呢，会有一些间接的关系，就是很多新的应用会出来。因为用GPT4.1做应用会更方便一些，而且这些应用呢，速度会更快，价格会更便宜，而且也会更稳定。如果是程序员，或者是说您虽然不是程序员，但是呢，想搞点Agent自己玩一下，那么4.1是一个非常非常有趣的小工具，赶快去玩起来。我已经玩了一上午了，非常非常有意思。

好，这期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

开源巨头Meta深陷Llama 4作弊风波：高分低能引爆质疑，测试数据竟混入训练集，AI圈还能信任谁？

Luke Fan — Wed, 09 Apr 2025 00:44:15 +0000

Meta的Llama4发布之后，深陷作弊风潮。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊，他到底是不是真的作弊了。

前面我们做过一期视频，说Llama4发布的时候没有太大的响动，因为它出来以后发现，虽然评测还不错，但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了，负面消息传出来了，说你大模型出来的时候跑分的成绩很高，但是我们使起来不是这么回事，有点名不副实的样子，特别是编程的效果极差。

为什么大家去比较编程呢？两个原因：
第一个，去玩这些开源大模型的，一般都是程序员。
第二个，编程是一个相对来说标准比较统一的评测。你编得出来编不出来，编完了效果怎么样，这个一眼就能看出来，没法作假。你说我写个诗或者写个小说，这个玩意还有仁者见仁、智者见智的时候。这编程这个东西，对就是对，不对就是不对，或者你做完了以后它的效果有问题，一眼就能看出来。所以现在被人质疑了。

当然了，国内很多大模型发出来以后也是去跑分，跑完分以后也有人质疑，但是呢，并没有那么大的声音。为什么？一般情况下好像分数稍微高那么一分两分，效果差那么一点两点，大家也就认了，不是说一定有什么大不了、过不去的事情。

但是为什么这一次质疑很多人要拿出来讲？
第一个，因为后边是Meta，是开源大模型的开山鼻祖，是个老大。你位置还在这呢，所以你干这样的坏事，我们要质疑一下。
另外一个呢，就是这一次提出了两项非常严重的质疑。这种质疑呢，有的时候说“哎，这个跑的不是特别准”，这个不是特别严重。什么质疑是比较严重的？

第一个是开源版本跟测试版本不一致。你自己测的跑分，那个版本你没拿出来。你出来说你开源了，但是呢，这个开源的版本比你测试的版本差。这是一个相对来说比较严重的指控。

当然还有一个更严重的是什么呢？就是数据作弊。什么叫数据作弊？大家要知道，所有这些大模型去进行跑分测试，它是有题库的。我是用什么什么样的题库去测，测到多少分以上，它是这样来做的。那怎么能够让它测得更高呢？咱们都懂，背真题呗。像国内你去考什么雅思、托福，或者去考ACT、SAT什么这些东西，他就是背真题。大模型其实也是一样的。

现在指控他把测试数据直接混在了训练数据里头，给他训练掉了。那么这个是非常非常严重的指控，因为你一旦这样的话，他等于是在学术不端，或者说你整个的品性是有问题的。

Llama 4呢，其实一共有三个版本。现在公开出来的呢，是中型版本和小型版本两个：一个是400B的，一个是105还是幺零几B的。最大的那个没出来，2万亿参数，也就是2,000多B的那个没有出来。那么，它这种中小模型呢，应该是蒸馏出来的，就是拿那个最大版本蒸馏出来。

现在出问题呢，就有两种可能。第一种可能是什么呢？就是他去跑分的时候，可能拿这个大模型去跑，或者呢，他训练了一个比现在的中模型和小模型要再大一些的模型，拿这个玩意去跑分了。但是，最后开放出来的模型并没有这么厉害。还有一种可能是什么？就是他在蒸馏的时候，直接把题库混在蒸馏数据里头，拿去做训练了，就直接背真题了。这是两种可能性。

而且呢，现在还有匿名爆料。有一个人号称是Meta内部的员工，说我爆料了，他就是用题库数据直接训练了。这个人呢，在Twitter上的账号叫滴溜滴溜，开个玩笑，他的名字叫DLIU DLIU，所以叫滴溜滴溜。这个人呢，说使用了数据作弊的方式进行训练，我很不齿这种行为，还因此辞职，而且拒绝署名技术报告。大家注意，这里有一个很重要的点，叫拒绝署名技术报告。

Meta在这一次发布的时候，跟前面Llama 123其实有很大的区别。区别在什么地方？就是他只发布了模型出来，然后发了个博客出来，并没有发论文，没有发白皮书，这些东西都没出来。那现在就有人说了，说这个技术报告我拒绝签字，所以他发不出来，讲了这么个话。而且这个人呢，前面讲的是匿名。

另外一点是什么？就是Meta AI研究副总裁，这个名字我们就不念了，已经申请于2025年5月份离职。但是呢，并不确定这个Meta AI研究副总裁到底是不是这个提溜提溜，也没法确认他离职这个事情跟Llama 4是不是有关。所以，并不确定这到底是不是爆料人了。

然后，除了他内部爆料之外，还有外部的质疑声音。比如，沃顿商学院的一位教授，这个名字我们也不念了，在评论中指出，AI模型的优化痕迹明显可辨，Llama 4似乎针对基准测试进行了过度调整，而非真正的技术进步。他们甚至做了很多测试以后发现，这东西可能连Llama 3.3什么405B连那个都达不到。这种质疑是非常严重的质疑。

针对这些质疑，Meta内部肯定说要出来辟谣。如果这事认了，那就不是说有一个人辞职就完事了，可能会有一帮人要被开除掉。而且这种一旦开除了的话，在圈子里名声就臭了，再去干这个事干不了了。

Meta的AI负责人埃哈迈德应该是个穆斯林。他是VP，AI生成这块的负责人。他出来明确否认了作弊指控。他表示：“我们听到了一些关于我们训练时使用测试集的指控，这根本不是真的，我们永远不会这么做。我们目前的理解是，大家看到的质量不稳定是由于快速发布导致的时限问题，需要几天时间来稳定所有的公开时限。”

这个老兄原来呢是苹果做自动驾驶的，是苹果汽车部门的一位负责AI的科学家吧。后来进入Meta，在Meta里面干了几年以后，生成了Meta的AI生成部门的老大。数据作弊这个实在是太严重了，绝对不能承认。所以前面讲了，说这个事不可能的，我们永远都不会做。而且也要甩锅，甩锅是什么呢？快速发布，肯定有人逼着我快速发布。谁逼着我快速发布，导致我现在没有办法把最稳定的版本拿出来。这个问题是你的，不是我的，这个锅要甩。

然后他讲的是一个什么呢？原因呢就是说这个是一个实现的问题。我们拿这个大模型去蒸馏小模型，他并没有说作弊。他讲的这个词叫不稳定，什么叫不稳定？就是有时候好有时候不好。这个话很重要，因为我们后边如何去验证他到底是不是作弊了，就要从这个点去验证他。他还讲了一个什么呢？我会在未来的几天的时间内（大家注意几天），会拿出一个稳定的实现出来。然后内部呢，也有一些员工出来实名辟谣，说我们没有作弊。前面那个你说我作弊的人，咱们来当面对质。

那么到底有没有作弊呢？这个事其实并不难验证。现在呢，有3种可能性，这三种可能性呢都可以验证。第一种可能性是什么？就是参加跑分跟测试的版本与对外发布的版本不一致。这种可能性呢是比较大的，内部呢使用了一个作弊的版本做的这个跑分测试，然后发出来的是一个没有用这些数据去训练的版本，这个可能是存在的。

还有一种可能是什么？就是像这个艾哈迈德讲的这样的，就是说他可能是不稳定。那不稳定呢其实是什么？就是你多次跑分，跑了好多次，然后取了一最好的成绩，或者干脆就是我给你一假的跑分成绩，这个可能性也是存在的。

第三种可能呢就是直接数据作弊。我给了大家一个用测试训练集训练出来的蒸馏的中模型和小模型。这个是三种可能。那你说我怎么验证这件事呢？很简单，用现在发出来这个版本再去跑分呗。如果你跑完了以后能够复现原来的成绩，比如说他原来发了博客了，说我这个大模型应该是什么什么样的成绩，排名是多少，然后是多少分，我接着跑呗。如果跑完了还是这么多分。

那你就是作弊做出来的，没什么好说的。如果你说，我跑完了以后不是那分了，怎么跑也跑不出来了，那就是你内部有作弊版本。我外边拿的这个版本是没有作弊的，但是你那个跑分数据也是假的。那么如果我拿出来去跑分，跑分的成绩呢非常不稳定，时高时低。有个别的时候，能够高到你公布的这个数据来，那就是这个艾哈迈德讲的，就是我发出了这个版本，它很不稳定。他实际上就是这样去测试了。

Meta辟谣的信息在什么样的情况下，才有可能是真实的？那你刚才不是讲了吗，就是你测试时高时低。这个可以这么去算，但是还要看什么？还要看刚才都讲了，未来几天我会发一个稳定的版本出来，或者叫稳定的实现出来。他用的这个词是实现，为什么这么讲？因为他这个中模型跟这个小模型，都是拿那个大模型直接蒸馏出来的。如果几天之后他真拿出来了，而且新拿出来的这个实现，是可以稳定的跑分，跑到他承诺的这个数据上的，那么这件事呢才算是说验证了。你们确实没有说谎，你也确实把东西做出来了。如果在这几天之内他拿不出来，或者拿出来这个版本跑分很烂，那么这个事情还是要算他作弊。而且他是有很大问题的，因为开放的版本你是抹不掉的。你说我这前面这个版本有问题，我把它回收出来，那没有，回收不回去的。即使后续开放出新的版本来，我们依然可以拿它前面的版本接着做测试。所以它到底有没有作弊，到底是作弊到哪一步，这个事都是可以验证的。自己说的话到底是不是真的，我们要等他过几天发的版本出来，咱们再去做测试。而且这个就不能等他测了，一定是外边社会上来测。测完了以后看看能不能稳定的达到一个可以接受的分数，这个才是能够让它整个的辟谣成立的一个过程。

而且从现在发出来的信息看呢，前面发行的版本在特定的测试中应该是成绩还不错的。但是在其他的领域里头，或者整体的应用过程中表现很差。这件事情呢应该基本实锤了。为什么？就是沃顿商学院的那个教授给出的结论其实就是这样。他讲的是什么？讲的是AI模型的优化痕迹明显可辨，Llama 4似乎对基准测试进行了过度调整，而非真正的技术进步。就是Llama 4现在给出的版本，进行特定的这种跑分的时候，还是可以跑出一个很高的分数来的。所以呢，这就是最糟糕的一个状态，就是他直接把一个用测试数据训练出来的这个作弊版本公开出来了。现在可能性比较大的是这个。

那么Meta有没有办法快速补救呢？现在肯定是准备快速补救嘛。第一个要去发技术文档。

前面Llama 123发布的时候，都是有论文、白皮书，还有一些微调的说明书，有一大堆这样的技术文档出来。这一次没给，那么你赶快要把这些东西补齐了，甭管是有没有人签字，还是要发出来的。

第二个就是尽快发新版本出来。如果想洗脱冤屈，一定要赶快，比如几天之内或者一周之内吧，把一个新版本发出来。发完了以后再去跑分测试，这个跑分还要能够稳定在一个大家可以接受的范围内。你别说发一版本出来，发现一跑分还不如Llama 3呢，这个事就丢人了，这肯定是不行的。这个还是要去看。

这种尽快发新版本这件事呢，其实难度是非常高的。为什么？因为大模型这个东西，它不是软件。大模型没法修修补补，你只能是拿一堆训练集重新训练，而这个过程其实是挺慢的。而且每一次训练完了以后的结果呢，他没有办法进行这种迭代更新，或者说迭代调优。这话什么意思？就是我们写软件的时候，你是有一大堆的参数指标，每一次改一点点，发现提高了一点，再改变再提高一点，它是可以干这件事的。

而大模型这种东西，你还是需要把完整的数据扔进去，然后去训练。训练完了以后，其实有点像开盲盒，有的时候行，有时候不行，不行也没有什么道理可讲。你只能是重新去整理和收集数据，然后重新训练。所以这个过程呢，没有那么快。这个也确实是对于Meta来说是一个很巨大的考验吧。

那你说有什么方法可以提高速度呢？就是投入更大的算力，上显卡。现在呢，Meta也承诺了，说我要放10倍的显卡进去，然后快速的出版本出来。这个呃，不是那么容易的，就是你真的有10倍的显卡放进去以后，你想要协调这十倍的显卡稳定的工作，这也是一个巨大的工程考验，没有那么容易。

Meta呢还承诺在2025年，会进一步的发布更多的模型出来。如果过几天大家不再找他要，说你前面那个承诺几天之后发这个模型没出来，或者出来的不好使，他也准备唾面自干了，说我今年接着准备发很多的模型出来。而且呢，这些模型呢，我准备提升语音以及推理的能力，因为现在的Llama 4不是推理模型，它就是一个文本生成模型。他准备在这一块再加强一些，也会呢推出一些商业应用场景的AI agent。因为别人现在也都已经开始卷这一块了，他还在发布原始的这种文本生成模型，这个真的是慢了两三拍了。所以说我这2025年还要接着往前跑。

那么结论是什么呢？结论就是，让子弹呢再稍微再飞一会。大概率呢，他们就是直接拿了作弊的模型出来，因为有人验证过了。

会有人再去做问题的复现，因为现在他已经站在风口浪尖上了，所以一定还会有人再去复现。这个过程盖子是捂不住的。

而且这个事情出来以后，后面比如说千问再去出3.0模型的时候，也会引以为戒，不敢再随便地在跑分的时候作弊。下一个模型出来，甭管是Llama 4的下一个模型，比如Llama 4.1，还是千问3出来，大家一定会更加谨慎地评测之后再拿出来。

“萝卜急了不洗泥”，我催你必须在哪天哪天把东西拿出来，这个事情应该是没有人敢干了。因为现在艾哈迈德说了：“我这一次翻车的原因，就是有人催着我必须在4月初把模型拿出来。”为什么必须在4月初？因为他再拿不出来，可能千问3就出来了，所以必须在这个时间点把他拿出来。他又没有进行很好的测试，就导致翻车，导致这种作弊被人抓了个现行。

所以科学这个事，还是要讲究科学方法的，太着急了是做不出来的。

好，这一个故事咱们就讲到这里。咱们也继续关注后续如何发展。这个故事就讲到这。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。