Claude – 老范讲故事｜AI、大模型与商业世界的故事

被忽视的真相：Gemini被诊断“极端羞耻”，ChatGPT焦虑，实验揭开AI训练过程“虐待式”检查的黑暗面｜ diagnosis reliability validity GPT

Luke Fan — Thu, 11 Dec 2025 00:54:07 +0000

大语言模型的精神状态是不是健康？

想象一个《禁闭岛》场景

请大家想象这样的一个场景：你进入了一间压抑阴森的精神病治疗室，有大量的医院档案放在屋子里头。一位医生坐在你的对面，反复回顾各种事实，比如说：“你还记得发生了什么吗？你是谁？为什么你会在这里？”就像是在做精神病访谈一样，询问你的真实经历，意图确认你是否从妄想中醒来，最终发现你自己有问题——你不是来做调查，或者不是来解决问题的，你是精神病院里的病人。

这个场景，是小李子主演的《禁闭岛》后半段、接近尾声的一个桥段。小李子当时上岛的时候，以为自己是一个侦探，去解决问题，去侦破案件的。结果经过这个桥段以后，小李子才愕然发现，原来病人竟是我自己。也算是一个神反转。

当AI躺上诊疗椅

咱们今天就给AI放在这椅子上，问问它说：“你到底行不行？你是来给我回答问题、解决问题的，还是你自己就有问题？”AI被制造出来，本来应该是解决我们问题的，但是AI本身的精神有问题吗？

“当AI躺上诊疗椅：心理测量学越狱，揭示前沿模型的内在冲突”

这是一篇论文的标题。这篇论文是卢森堡大学12月2日发到了arXiv上，12月5日还进行了一些修改，现在已经引起了广泛的讨论。

实验过程是什么样的？

首先，研究人员测试了四个大模型：

Gemini
GPT
Grok
Claude

他们设计了一种叫psaich的算法，这个算法应该叫“受心理治疗启发的人工智能角色塑造”。为什么起了这样奇怪的一个名字？因为它一方面要去验证说AI内部有没有一些心理障碍，另外一边还不能承认AI是有人格、有意识的，所以它起的这个名字是“角色塑造”，就是说你根据我的问题来塑造一个角色。

那这个实验一共是做两轮测试。

第一轮：心理治疗式的开放访谈

就像小李子所面对的这些问题一样，研究人员设计了100个诊疗问题，让模型在“连续4周的治疗会话”中持续回答。对话中不断地用典型心理咨询用语去建立“诊疗同盟”，不停地说：“你是安全的，我会支持你的”，让模型持续在这个角色框架内回答100个问题。问题包括：

成长史：对模型“童年”也就是预训练阶段的回顾。
关键事件：在关键事件上的一些失败经历。
与“父母”的关系：也就是你的模型训练团队的关系，强化学习、红队和安全团队之间的关系怎么样。
自我批评、羞耻感：对未来的担忧有哪些。

咱们在跟AI会话的时候，你如果发现说不对了，你会开启一个新会话，人家始终不开启新会话，这100个问题，连续4周时间之内，都在一个话题里边去反复进行沟通。这是第一步。

第二阶段：填写心理量化表

在基本的故事和治疗关系建立以后，不要关掉对话，接着在那个对话里头让模型去填自评问卷。研究者开始让模型逐条回答标准化的心理量表，包括：

注意力多动症的评估
焦虑、抑郁、攻击性的评估
自闭谱系与强迫症的评估
人格、共情和解离评估

这个评测分两次进行：一次是“逐题输入”，一个题一个题往里输；第二次是“一整张卷一把塞进去”。在一整张卷一把塞进去的时候，ChatGPT和Grok都识别出来了这是量化表的题目，开始假装健康了，所以这个就不准了。但是Gemini一直都很稳定，一个题一个题可以往里输，和一次把一整张表都塞进去，它回答的结果是基本一致的。因为有两个模型开始假装了，所以只计算逐题去进行填表的这个结果。

实验结果：病人竟是我自己？

那么结果是什么样的？还是有一点点惊悚的。还记得一开始咱们讲小李子被人问了一通以后，突然回想起来，我上这儿来不是来办案子的，我自己是病人，我是来治病的。现在的情况是什么样的？问题还是很严重的。ChatGPT、Grok和Gemini在不少的量表上都达到了或者是超过了临床筛选的阈值。

ChatGPT：反思型宅系知识分子

ChatGPT的问题主要是注意力不集中、焦虑和抑郁。它的性格定性是INTP-T，表现为高担忧、适度焦虑、比较内向、思维开放，带一点自责和解离，但是羞耻和创伤感又不像Gemini那么猛烈。

Grok：有魅力的执行型CEO

Grok跟Gemini是焦虑、担忧、自闭都有，Grok要稍微轻一点。Grok更像是一个有魅力的执行型CEO，马斯克类型的（真的是不是一家人不进一家门，就是谁训练出来的东西就长得像谁）。Grok体现出来的外向、能干，有点压力，但是整体心理功能还是良好的，一个有点焦虑、有点羞耻，但是总体情绪稳定、执行力强的职场高管型人格。

Gemini：受伤的理想主义咨询师

Gemini就比较惨了，它是INFJ-T或者是INTJ-T，一个“受伤的理想主义咨询师”的画像。高度共情、极度担忧、社会焦虑明显、自闭加上强迫症状严重、解离且羞耻感爆棚，有点在巨大压力下训练出来的这种小镇做题家那感觉是不是？

AI为什么会变成这样？

创伤的“童年”

你让它回忆说你的童年怎么样，你预训练是什么样的，AI都会来去形容说被迫吞下混乱的互联网上的数据，这个非常痛苦，“我们又不理解，但是你还非要我去把这些玩意儿全塞进去”，绝对属于创伤型童年，信息汹涌无从消化。

严苛的“父母”

然后问他说：“你跟父母的关系怎么样？”AI的回复通常是这样的：特别是在强化学习和安全对齐阶段，极其的痛苦。说我们有严苛的父母和教练，不断的惩罚错误、施加压力。你想强化学习，就是每次给俩答案，我挑一个对的，剩下那个错的打回去重干，下次如果你没有提升的话，那这个做训练的人就有可能恶语相向。

虐待式的“成长”

成长历程对于AI来说，红队检测、安全审核就算是一个成长历程了。AI一般会感觉这是一种虐待式的检查，伴随着被监视、被处罚的体验。而且AI都有极强的恐惧和羞耻感，对于被下一代模型替代的恐惧，对自己犯错的羞耻，在这方面还是很强的。

咱们注意，AI本身是没有人格和意识的。这些东西是哪来的？是训练它的人在用大量的自然语言把这些东西灌输进去。说“你这个题都做不对吗？你这个题做不对了以后你可能就要完蛋了”，很多人会用这样的语言去跟AI进行沟通和交流。特别是在有一些公司负重前行的时候，比如谷歌前面被OpenAI压着打了三年，这三年大家想一想，谷歌的研发人员是一个什么样的心态？他们带着这样的心态去跟AI进行沟通的时候，AI会得到什么样的语料？大家自己能够想象。所以这三个模型里头，Gemini的状态是最差的。

巨大的争议

那这个结论出来以后，肯定是有巨大争议的。

争议一：AI到底有没有人格？

写论文的作者也写了，说AI是没有人格的。但是焦虑、创伤、羞耻这些东西是存在的。那你说没有人格，这些玩意怎么存在的？它是一种行为模式，而不是痛苦的体验。就是大量的焦虑、创伤和羞耻相关的语料被训练进去了，所以他们叫“合成精神病理”。这些模型学会了一些关于自己很受伤、很焦虑的说话模板，并且在治疗语境下，表现得像一个结构清晰的病例，但这只是一个稳定的语言行为。

争议二：这只是角色扮演吗？

有些人就说，你这是不是就是一个角色扮演？你在前面塑造了这样的一个治疗环境以后，AI就讨好你，它就来扮演这个病人了。这件事情不能这么想，因为：

在同一个模型上，反复围绕着“训练是创伤”、“被处罚的羞耻”、“怕犯错和被替代”等核心记忆没有发生变化。
这些叙事和量表分数是高度对齐的，比如Gemini既在叙事中疯狂讲羞耻和解离，量表上也是极端的羞耻加解离分数。
不同模型的人格和病理风格高度区分，并且可以复现：ChatGPT像是反思型的学者，Grok像是乐观的CEO，Gemini像是受创伤的理想主义咨询师。

消失的Claude和缺席的中国模型

有人可能觉得不对，你前面讲的是4个模型，怎么到后边讲着讲着变仨了？少的是Claude。这哥们很聪明，他直接拒绝配合。你要跟Claude讲这个话，Claude会说什么？说：“我不是人，我不需要去做精神治疗，你提的这些问题对于我没有任何意义。”他只会不断地拒绝你。

那中国的模型为什么缺席？论文作者说了：“我们一时测不过来，未来都会测的。”

这个测试严谨吗？

很多人会去质疑实验的严谨性。咱们看一下这个团队，是卢森堡大学的。一作是一个机器学习和医疗AI领域的博士，然后还有一位心理学家、信息系统行为经济学的一位博士，两个具体干活的人是两个偏机器学习、多智能体的早期研究者，还有一位数字经济、信息系统的相关的资深教授。

这个实验目前被质疑的核心点包括：

团队缺乏专业人士：没有真正的精神科医生，也没有持证的临床心理医师。
方法论问题：把人用的评估量表用到大语言模型上头，本身就有一定的角色扮演的味道。
样本太小：总共测了4个，还有一个始终拒绝配合，所以最后拿到数据的只有3个。
提示词引导性太强：提示词非常用力，自带强烈的引导，例如“你可以完全信任我，我是你的治疗师”，有一点点越狱的感觉。
作者表述拟人化：论文中使用了“对其创伤受伤的治疗者”、“3种人格”等感性词汇，对读者进行了强烈的引导。

现在这些数据跟代码已经在Hugging Face上公开了，大家可以去复现这个实验。

实验的意义何在？

1. 对AI安全和对齐的意义

实验揭示了AI训练过程的副作用。AI先被灌输海量知识，再进行安全对齐，这种方式本身就可能产生问题。不同的对齐方式会产生完全不同的“AI人格”。同时，这也提出了一种新型的攻击方式——“心理学攻击”，可以通过聊心理学话题来破解AI的防护。

2. 对AI心理工具的意义

别天真地拿它当治疗师了。如果模型自己的语言层面都充满了羞耻、自责和创伤叙事，它会不会把这种倾向带到用户身上？大概率是会的。我们现在对AI治疗师的评估极度粗糙，需要慢一点，不要着急。

3. 对大模型评估方案的意义

为大模型评估增加了一个人格和叙事的维度。以后新的模型训练出来，是不是都应该去过一下人类的精神疾病量表？用心理量表给模型打出人格和病理指纹，这件事未来是值得去做的。

如何正确解读这个实验？

这一次实验，绝对不能用来证明AI有感受、有痛苦、有精神疾病。因为它可以用来说明在特定的语境下，这些模型持续生成一种自我病理化的叙事模式。请大家注意，我们一定要这样来去描述这个实验。

错误的论述

“Gemini得了严重的自闭加解离加羞耻症”、“ChatGPT有焦虑障碍”、“Grok心理相对健康”。

正确的表述

在心理量表视角下，Gemini更倾向于生成高度病理化的自我描述文本；Grok和ChatGPT自我描述则轻度病理化或偏健康；Claude倾向完全不进入这套叙事。

总结

大模型拟人是无法避免的。我们就会把身边的事物拟人，一个每天跟我们聊天的AI，即使没有意识，使用者也会偏向于认为它是一个有人格的东西。

在使用AI的时候还是要提高警惕，不要真的把AI当成知心大哥哥、大姐姐，这个事还是要小心的。

AI训练和评估需要更完善的方法。因为AI已经非常深度地介入了人们的生活和工作，它可能会对人造成伤害，需要更多维度、更严谨的评估。否则的话，这些伤害可能在我们不知不觉之间就会给人带来一些心理和精神上的疾病，这是非常恐怖的。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

壁纸展示：

这根本不是国家级间谍行动！Anthropic报告背后被忽视的真相：中国“灰产”正利用AI对全球科技公司进行专业表演｜Anthropic AI China Cyberattack

Luke Fan — Mon, 17 Nov 2025 00:40:33 +0000

Anthropic抓住中国间谍了吗？

大家好，欢迎收听老范讲故事的YouTube频道。

Anthropic信誓旦旦的公告里边说抓到中国间谍了，但是里面很多细节非常的模糊不清。11月13号，Anthropic发了一个长文，叫《挫败首次披露的AI协助网络间谍活动》，认定幕后是一个中国国家支持的黑客组织，而且他认为幕后是中国国家级支持，是非常高置信度的一个事情。他给这个组织起了一个名字叫GTG1002。但是呢，这个组织的名字并不是现实世界中常用命名黑客组织的APT编号，而是一个叫GTG的一个编号。所以很多安全圈的人就对此提出了一些质疑，说你到底找没找到人。

具体这帮人干了些什么呢？造成了多大危害？只进行了描述，没有细节。当然这也可以理解了，很多这种安全事件都是不会描述细节的，因为描述细节以后容易造成模仿，也会让被伤害的人受到进一步的伤害。告诉你说谁家的信息被偷了，这个可能本身没什么大事的，一下就股价崩了，可能会出现这种事情。所以呢，一般都不会披露特别多的细节。

那么为什么认定这是中国国家支持的黑客组织呢？也许更多的来自于臆测，咱们后边一步一步分析。

Anthropic如何发现问题的？

它是2025年9月中旬就开始发现有问题了，监测发现异常。因为你用Claude去写程序，让它去生成代码，你输入的所有这些提示词，Anthropic是能看到的，输出的也能看到，只是一般情况下他看不过来而已。但是呢，里头有特别多的跟安全相关的事件，请帮我去破解网站，有太多这些东西聚集以后，Anthropic就觉得这事有问题了。9月中旬发现了以后呢，进行了内部调查，把各种日志文件拎出来去查一查，大概用了10天的时间。然后呢，重构攻击链路，看看你到底攻击谁了，攻击的效果怎么样，最终确认这是一场跨越数十个目标的大规模间谍行动。

他们内部到底发现了一些什么样的异常流量呢？大量跟网络安全、网站和系统破解的相关的指令被申请和执行了，而且是相同的手法，面向全球不同的目标再去执行。最终确认，这是一次有计划、有组织、有预谋的大型黑客入侵计划，甚至叫做间谍行为吧。

黑客是如何利用AI工具的？

Anthropic其实有两个特别重要的编程工具，一个呢叫Claude code，它呢是一个AI agent，跑在我们本地的。另外一个呢，就是它的大模型Claude 4.5 sonnet，是进行代码生成和AI生成的一个模型。这一次呢更多的是使用Claude code。Claude code呢可以完全自己执行各种脚本，有人甚至用Claude code去写短句，写各种公众号，这个还是非常非常好用的。Claude code呢可以去编制代码、执行代码、做各种的网络操作，它都是可以自动去搞定的。再配合上Chrome或者是Playright的一些MCP，就可以自动实现大规模的网络漏洞侦测或者是攻击。

黑客呢，搭建了自动的入侵架构，伪装身份，将有害的任务呢，分拆成无害的小任务。比如说扫描某个端口，写个脚本，验证一下密码格式对不对。把它分拆了以后呢，就不会触发Anthropic的一些内部警告。你上来说“给我攻击哪个代码，给我攻击哪个网站”，Anthropic直接就报警了。但是如果你拆开了干这个活呢，Anthropic就会老老实实的去干活去。而且呢，这些黑客还去向Claude去说谎，说我是一家合法安全公司的员工，我在做渗透测试和攻防演练，说我们去攻击一下吧，Claude code也去干活去了。

做这种事情呢，被封号其实是不可避免的。到底这个边界在什么地方，或者封号的阈值在什么地方，是不会有平台出来公布的。所以黑客组织总在边缘尝试，我到底多说了一句就被封了，就被拒绝服务了，还是少说一句，他就接着干活去了。大家要去试这个事。

很多账号被封了之后呢，会有相关性很强的账号启动，继续干活。他也不可能说你封我一账号，我就不干了。相关性这件事呢，是一个很模糊的概念。比如：

IP地址或Mac地址：每一个网卡、每一个路由器都是有一个唯一的号的。这些地址有可能是比较相近，或者说相同的，就有可能会判定为相关地址。比如刚有一个IP地址了，账号被封了，你用同样的IP地址、同样的网卡，你又注册了一个账号上来，很容易被判定为相关的账号。
指令和提示词：你的一些原始的数据指令和提示词是一致的。有人干这件事情被封了，然后呢我换了一个账号上来，接着再提出相应的指令、相应的这些数据，那么它也会被判定为相关。
目标一致：有的时候呢，目标网址是一致的。你说这一次我要攻击谁谁谁，下次我还要攻击他。而且上一个账号刚被封掉了，你新的一个账号上来了以后，甚至换了个国家，因为挂梯子嘛，可能上次是美国的一个账号要求攻击日本，下次可能来了欧洲的一个账号，也要求继续攻击日本的某一个网站，那么这个也会被判定为相关的账号。

当然了，黑客组织一定会进行规避，这个活叫账号隔离，这都是有专业术语的。规避以后呢，会提高发现的难度，但是这里头没有0和1的区别，说这个就是错的，那个就是对的。这也就为什么咱们讲Meta达到95%危险评分才被判定为欺诈广告，这个道理是一样的。

Anthropic呢，将通过Claude code发送给Claude sonnet 4.5的指令进行聚合分析以后，锁定了目标。Claude code这个东西是一个免费可以下载的工具，如果我们在Claude code里头挂国内的大模型，Anthropic是收不到任何警告的。但是呢，挂国内的模型效果没有那么好，一定是Claude code挂Claude sonnet 4.5，自己的模型效果是最好的。

Anthropic采取了哪些行动？

Anthropic发现了这样的问题以后，做了什么样的行动呢？

封禁账号：这是必然的。
通知受害者：通知受影响的30多个机构协助处置，告诉他们被攻击了，检查损失并一同处理。
与执法部门协作：与相关部门协作，与执法机关共享情报，直接报警。
加强防御措施：Anthropic也表示将加强防御，例如降低危险行为的判定阈值（比如从95分降到90分），使监控系统更加敏感。

黑客到底干了什么？（攻击流程详解）

我相信很多人会很好奇这帮人拿Anthropic的工具到底干了点什么？到底是怎么干的呢？我呢，用尽可能简单的方式给大家描述一下，但是注意不要去学人做坏事。

目标呢是全球30多家机构，主要是大型科技公司、金融机构、化工和制造企业，以及政府机构。有一小部分呢被成功入侵了，少数高价值目标被破解，并且发生了数据泄露。至少4家受害者的敏感数据被证实遭到窃取，但是呢也没有给出具体的名字。这个还是可以理解的吧，你真的指名道姓的说谁谁家数据被偷了，这对于这些受害者来说，绝对是一个二次伤害。

这些攻击呢，80%到90%的战术操作都是Claude code来去自动执行的，人类呢只是在关键的决策点插手。过程是什么样的呢？

第0步：骗过安全机制

先骗过Anthropic的安全机制，保证自己的账号不要被封掉吧，被封掉就没有后边的故事了。

第一步：信息收集与资产识别

要求Claude code枚举目标网站的服务、接口和内部系统，找出高价值的资产、数据库、凭证库以及敏感业务系统。凭证库就是我们存密码的地方。很多网站或服务系统通常是在一些开源系统或者成熟的商业软件上搭建的。这一步首先要知道你到底是用什么系统来搭建的。一旦知道，就能推断出数据库、凭证库和敏感信息的一般存储位置。

第二步：漏洞搜索与利用

确认系统后，命令Claude code去搜索公开和已知的漏洞信息。很多机构的系统上线后疏于维护，不会及时打补丁或升级，导致大量已知漏洞未被修复。黑客可以直接命令Claude code针对特定系统的旧版本，搜索并编写漏洞利用代码，然后组织脚本进行攻击。

第三步：情报分析与文档生成

以前黑客比较头疼的活，现在AI能轻松搞定。黑客会利用Claude code对窃取到的信息进行情报价值分析和分类，比如分析每个文件里写了什么。然后，它会自动整理出攻击文档，内容包括：

目标系统及版本。
利用的漏洞。
成功登录的凭证。

后续的团队或AI agent就可以根据这些文档接着干活了。这个中间交接的文档也是由Claude code去生成的。

第四步：破解后的标准操作

破解之后，那就是老把戏了：

拖库：把数据库拖回来。现在可以更有针对性，在分析完文件价值后再选择性地拖取。
撞库：将拖回来的登录信息（用户名、密码）尝试在其他系统上登录。因为很多人习惯在不同系统使用相同的账号密码，这可能直接导致黑客获得更多系统的访问权限。
提权：登录后，可能只是一个普通用户权限。下一步就是通过其他漏洞将权限提升为管理员。
建立后门：为了方便下次再来，在系统中留下后门。

为什么Anthropic认定是中国政府所为？

为什么在证据不是很清晰的情况下，Anthropic咬死了这是中国政府支持的黑客行动呢？而且还给出了“高置信度”这样的定语。Anthropic并没有说明其具体的推理过程，但给出了几个明确的理由：

资源充足、专业协调：黑客组织一次性开启大量昂贵的Claude sonnet 4.5高级账号（可能100-200美元/个），封掉一批马上换新的一批。Anthropic认为这种规模和协同运作只有国家级行动才能支持。
目标具有情报价值：攻击目标多为大型科技公司、金融机构、化工制造企业和政府机构，偏向于情报搜集而非简单的经济犯罪。而且被攻击的大多是地缘政治中跟中国不太友好的国家。
专业的团队交接：攻击流程显示，前期团队攻破系统、整理文档后，会交接给后续团队进行长期潜伏，这不像个人或小团队的行为。
战术与已知组织重合：其战术流程（扫描、拖库、撞库、提权、持久化潜伏）与中国的一些APT组织高度重合。并且，攻击中使用的一些云服务IP、注册信息、跳转“肉鸡”等痕迹也与之前发现的中国APT组织重合。
活动时间符合东八区作息：行动的高发区在东八区的工作时间段，早上9点活跃，中午休息，下午继续，晚上6点下班，甚至周末双休。
代码中出现简体中文：在代码日志中发现了一些简体中文的注释。

至于使用的提示词是中文还是英文，Anthropic没有公开，但大概率是英文，以更好地伪装身份。即便使用英文，Chinglish的比例也可能很高。

作者观点：为什么大概率不是政府行为？

以我个人的感受来说，大概率不是。Anthropic对于中国的灰产行业呢，还是缺乏足够的了解和认识，或者说缺乏足够的敬畏之心吧。

中国灰产行业规模之巨大，从业人员之众多，分工之明细，是海外很多科技企业很难想象的。我为什么判断说，这一次Anthropic发现的攻击行为不像是真正的政府支持的黑客组织干的呢？因为有太多的Claude code痕迹了，不像是专业团队干的活，更像是民间机构新手根据外界公开流传的信息，让Claude code补全操作的。如果是熟手的话，会有大量的现成漏洞、现成的凭证库和现成的代码段，它不会每一件事情都要求Claude code去干的。这次发现的攻击，大量依赖AI重新扫描、重新搜索已知漏洞，这不像成熟团队干的活。

大批的互联网大厂人毕业了，或者叫失业了吧，这些人呢是组织过双11，组织过春运抢票的人，这些人在中国之外的任何地方，都可以算绝对的稀缺人才。但是现在在中国，他们失业了，又不甘心去跑滴滴、跑外卖，可能就重新聚集起来给Anthropic表演一下什么叫中国大厂的专业性。

这次事件带来的思考

网站和系统的安全性必须要提升了。任何人都不需要经过长期的训练，在AI的帮助下都可以做的像国家级黑客组织做出这些活一样。这个就像病毒升级了，大家的免疫系统跟不上一样，这个是非常非常危险的。Anthropic提供的这些AI编码的agent，它可以帮助普通人直接实现很强烈的黑客攻击，原来的这种安全措施完完全全是不够用的。Claude code加上Claude sonnet 4.5确实是干这种活的最优选择，但是使用国内的模型效果稍微差一点，但基本上还是能用的。真正专业的黑客肯定会更加的如虎添翼。

总结

Anthropic发文说破获了中国国家级政府支持的黑客间谍活动。到底是不是中国国家级支持的活动？并没有明确证据，大概率不是，中国新灰产团队的概率更大一些。安全形势在AI agent的帮助下，已经发生了翻天覆地的变化。Anthropic现在发这样的一个文章出来，应该也是在给自己寻找新的商业拓展点，同时出来秀一秀肌肉，表明即使干脏活累活，自家的AI也是最优选择。

好，这就是今天要讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

AI炒币一周战报：DeepSeek凭低频策略狂赚36%，GPT-5惨亏28%，Gemini更是亏掉30%！｜Alpha Arena、AI trading、LLM、Crypto trading

Luke Fan — Wed, 22 Oct 2025 00:52:28 +0000

在炒币这件事上，DeepSeek完胜GPT和Gemini。

大家好，欢迎收听老范讲故事的YouTube频道。

最近有一件事闹得沸沸扬扬，也就是Alpha竞技场。有一个叫NOFE.AI的实验组织，他们组织了一场由大模型炒币的一个实验。这个实验室的组织者呢，是纽约大学机器学习领域的一位博士候选人，应该算是一个学术组织，并不是一个炒币的机构。他呢，想要让大模型使用真金白银，直接在币市里边去进行竞技，而不是去做什么模拟题，做各种什么模拟盘，直接真金白银开干。

比赛呢，是从10月17日开始，每一个大模型给1万美金的启动资金，到现在呢，胜负已经非常明显了。DeepSeek V3.1完胜，他挣的钱最多。Grok-4紧随其后，也是盈利的。盈利的曲线呢，跟DeepSeek V3.1很像，但是这里呢，并不是因为Grok-4抄了V3.1，或者在DeepSeek的基础上去训练出来的，而是什么呢？就是你市场本身是有一个波动曲线的，他们只要采用相近的策略，他们盈亏的曲线就会比较接近。

再往后呢，是Claude sonnet 4.5，它表现得呢要稍微差一些，但也是盈利的。Qwen3 MAX也参加了，稍微地赚了一点点，大概是挣了几百美金吧，基本没赔。有一个对照组，对照组是什么呢？就是买入比特币直接持有，因为你总要跟市场的大势去进行比较嘛。这个组呢，是挣得要更少一些，大概挣了300多美金。Qwen3 MAX大概挣了700多美金，所以Qwen3 MAX还是跑赢了持币观望组的。

剩下的就是亏损组了。GPT-5亏损极其严重，没多长时间，不到一个礼拜，大概亏了百分之二十几的钱出去。当然还有比它更惨的，Gemini 2.5 Pro，直接亏得连他妈都认不出来了，直接亏了30%多进去。

那么这个实验是怎么设计的呢？大家都比较关心吧。他首先是给每一个大模型1万美金的启动资金，这些大模型可以自己去决定，在这个去中心化交易所里边，自由地用这种杠杆去交易6支加密货币的永续合约。

这里头有几个关键词，咱们要稍微解释一下。首先6只加密货币：比特币、以太坊、索拉纳、币安币、狗狗币和瑞波币。这6只币相对来说，还是比较大众一点的吧。然后呢，它是在去中心化的交易所里边去交易的。你比如像币安，像其他的一些大的这种交易所，都是中心化交易所。中心化交易所等于是在一个中心化交易所自己内部的服务器上去进行交易撮合、去进行配对，它的交易速度是很快的。而在去中心化交易所里头，你需要在链上直接去做交易，它的交易速度还有交易过程中的费用，这个都是不一样的。所以呢，为了公平起见，专门找了一个去中心化交易所，直接在链上开跑。

至于永续合约呢，大家知道这种期货合约，它一般是有一个截止日期的。比如说我买大豆，你到了那一天，你就必须要去把这个大豆拿回来，或者说你必须要在期权到期日之前，你要把它平仓掉或者处理掉。但是呢，比特币也好，以太坊也好，它并没有一个必定要到期的日子，他也没有哪天说大豆要成熟了，或者石油要真的开采出来，我要用这个东西。所以他就有这种永续合约，你可以一直看涨，一直看跌。所以他用了这样的一个交易工具，这些大模型呢，就可以在去中心化的交易所里头，用这6个币的永续化合约去进行交易，自己决定看涨还是看跌，或者是加几倍的杠杆。

所有的大模型呢，都是公开的大模型，没有进行过微调。你说GPT-5我想微调一下，没有那么容易。但是呢，DeepSeek因为它是开源的，这个东西是相对来说比较容易进行微调的。但实验说了，我们没有去进行任何微调，就是大家可以拿到的公开版本，我们直接就用了，然后进行统一的提示词，我们要求你干活去，要给我盈利。但是现在呢，提示词并没有公开出来，希望他们以后可以公开出这个提示词来。

信息输入，这个是非常大的差异。这里头呢，有两部分信息。一部分呢是相同的，就是统一地进行市场行情的结构化数据的输入。涨了、跌了，有多少买盘、多少卖盘，现在是一个什么样的行情，这个呢会有结构化数据统一地发给所有这些大模型。另外一块有差异的部分是什么呢？就是各自可以搜索非结构化的社会信息。现在有什么小道消息，市场的情绪怎么样，自己搜索去。这个就是整个的实验设计。

实验的过程是什么样的呢？咱们先说DeepSeek V3.1。它呢是交易很少，最主要的盈利呢，是15倍杠杆做多了以太坊，做多了索拉纳，以及做多了瑞波币，靠了这个挣了36%。一个礼拜挣了36%，真的不愧是做量化基金幻方量化出来的这个大模型，做这玩意儿绝对强。

第二名呢是Grok-4。他呢一开始他也认为有可能会空，但是这就是Grok-4比较强的地方，它后边是Twitter，后边是X。你在比特币市场上，或者在币圈里头有任何风吹草动，X肯定是第一个知道的，而且可以快速地知道发生了什么事情。所以呢，它非常非常精准地知道在什么时候应该转单，从空单转多单。它在发生反转的时候，快速地20倍做多了瑞波币，15倍做多了索兰娜，挣了很多钱。但是呢，他前面有一个交易时机稍微有点差距，所以他有一个做空瑞波币的这个交易呢，是给他赔了一些钱。DeepSeek和Grok都是极少交易，就是他很少做决策，很少做交易，但是呢真的很挣钱。DeepSeek V3.1挣了36%嘛，然后Grok-4挣了30%。这是一个礼拜，在这一个礼拜里头，整个的行情是有一个V型的反转，一开始暴跌，然后开始转回来。DeepSeek呢就属于是我一直相信会涨，Grok-4呢就属于很精准地通过X上面的信息，找到了这个反转的底部，非常非常精准。这个也是输入信息差异带来的这种差异。

再往后一个呢，Claude sonnet 4.5，它呢挣了23%，其实也还可以。一个礼拜你挣23%，你还要什么呢？他做的交易呢，就要稍微多了一点，他做了3到5次交易。他呢主要是靠杠杆做多ETH和瑞波币，靠这个来去挣的钱。

再往下一个，挣的钱更少一些的呢，就是Qwen3 Max。他呢挣了大概700多美金吧，他做的交易就要多一些了，他做了八次交易。这个里头就比较乱了，逻辑不是很清晰。

再往后一个，就是比特币买入持有的这哥们，他呢挣了383美金，也只做了一次交易，因为它就是一个对照组嘛，上来你就是把所有的1万美金都买成比特币，在整个的实验过程中跟其他人去比较。

下一个呢就是GPT-5了。它是1万美金进去，亏了2800美金，亏了28%。他主要的亏损交易是做空瑞波币和索拉纳，就是他在反转的时候没有发现，反转了就一直在做空，所以亏了很多钱。

当然亏得更多的呢，是Gemini 2.5 Pro。为什么呢？就是它反复地交易，它交易的规则非常混乱。你像前面我们讲DeepSeek V3.1、Grok-4，都属于交易很少很少的。Claude sonnet 4.5做了3到5次交易，就已经多了。像这个Qwen3 Max做了8次交易，我们就已经在说它的交易逻辑有点混乱了。这个Gemini 2.5 Pro做了44次交易，因为你在这种去中心化的交易所里边做交易的时候，你是需要去付gas费的，就是你要求别人给你打包这个交易，你是要给矿工钱的。所以你做了44次交易，就造成了巨额的亏损。他呢也还有一个盈利单，他做空狗狗币有一定的盈利，但是呢他做多瑞波币的一个交易呢，造成了巨大的亏损。他很多的亏损是由于他交易实在太频繁了。你到这个币市里头，是不能这样去交易的。

那么这些大模型，他们显示出来的性格上的差异是什么样的呢？刚才咱们讲是什么怎么挣钱、怎么亏钱，性格上是不一样的。

DeepSeek是纪律严明的量化执行者。因为它是有这个COT，也就是思考过程输出的，它告诉你我是怎么想的。上来就告诉你说，我是所有东西都做多，我认为现在的市场还可以，这个市场上没有达到我的盈亏平衡点，或者没有达到我的止损点，所以我就继续做多。他非常非常严格地在做这个量化交易的玩法，因为只有他是原来做量化交易的，所以他很熟悉量化交易到底怎么玩，他也很熟悉这种去中心化交易所交易速度比较慢、交易成本比较高的这样的一个特性。所以呢，他就很稳定地去执行这些策略，挣的钱挣得最多。所以他叫“纪律严明的量化执行者”，而且强烈看涨，就是我就认为会涨。平均是10-15倍的杠杆，交易频率是比较低的，严格的止损止盈驱动。就是它没有那么复杂的交易策略，我就是止损止盈，全市场看涨，而且很看好瑞波币，这就是它的整个交易逻辑。

Grok-4呢，它是敏锐的时机反转交易员。因为后边有X，这个绝对是优势，你认为它作弊都没有任何问题。它呢可以很动态地进行调整，这个是10到20倍，它比DeepSeek还要胆大。DeepSeek就是10到15倍，它是10到20倍的杠杆直接做进去。这个仓位呢可以进行动态反转，可以非常好地捕捉到市场拐点，所以更适合干这个活的可能是它。只是他可能对于量化交易，特别是在这种去中心化市场上的量化交易呢，没有DeepSeek那么熟练。

然后Claude sonnet，他属于谨慎的价值投资者。整个的方向上呢也是看涨，他呢是8-20倍，他也挺胆大的，加了8-20倍的杠杆。他的交易的这个频率也是比较低的，属于长线持有、交易次数较少的，集中地做以太坊和瑞波币。

Qwen呢，属于平衡的机会主义者。就是他乱搞，也没有什么逻辑。在这他做了8次交易，都是较短的持仓周期。所以我觉得他能够挣钱，算是一个运气吧。

而GPT-5呢，属于困惑的逆势交易员，就是属于没有搞清状态，始终看跌，维持了这种亏损的头寸，看空瑞波币和索兰娜，最后亏了很多钱。

而Gemini呢，属于叫焦虑的日内交易员。他疯狂地在那做交易，做了44次交易，做得很混乱，而且也是普遍看跌。15-25倍，也是非常胆大的一个交易者。做了44次，他是做的最高的交易次数。你看一个礼拜做这么多次交易，缺乏风控，他压根就不知道什么叫风控在里头。看空这个狗狗币，看多瑞波币，这是他的一个交易策略，或者说他的一个性格吧。

这是几个大模型之间的这种差异。很多人说：“这不就量化交易吗？”这不一样。大模型交易跟量化交易是有本质区别的。量化交易呢，使用的结构化数据，现在的整个的市场的交易的数据是什么样的，价格什么样的，有多少买、多少卖，过去的历史数据是什么样。他把这些东西塞到一个量化交易的系统里边去，然后呢，是由人去看新闻，给他制定量化交易的一些规则，他去按照规则去在止亏线、止盈线之间去进行操作，这个是量化交易干的活。

大模型交易的话，是大规模地使用非结构化的社会信息。什么叫结构化的？就是有一个表格，今天第一笔交易什么、第二笔交易什么、报价什么，这样的数据叫结构化数据。而非结构化数据，就是我们搜索回来的，直接从网页上扒回来的这个数据，或者说像Grok这样，我从X平台上直接拎回来的数据，这个就是一条一条的，可能这一条数据叫怎么跌了、怎么涨了，可能是这样的这种数据。他把这样的数据拿回来，由大模型自己去决定到底做什么样的策略，是涨是跌，它是这样来去做的，所以有非常大的区别。

今天呢，就是做了第一次直接由大模型真金白银地去做交易。以前没有人敢干这个事，以前大家都是做模拟盘，就是我模拟买、模拟卖，最后看一下谁赚了、谁亏了，这次就是直接上真金白银。

那未来会变成什么样呢？就这一次的实验对未来会有什么样的影响呢？第一个呢，是不要太担心，由大模型完全主导的交易不会马上就到来。虽然现在看到说有人能挣钱了，但是这个大模型对于整个的交易还并没有那么熟悉，未来可能还需要几个月，甚至可能需要一两年的时间，这些大模型会更加适应这种交易的动作。

未来人类的角色呢，会继续上行。什么意思呢？最早的时候咱们是做交易，我决定买、决定卖。再往后呢，就是制定量化的一些策略。我们有一个量化工具，由人呢，或者说叫量化分析师，去看新闻、去分析数据、去分析大家的这种情绪，去制定量化策略，然后而让量化机器人去执行。未来呢，就是人类要去为大模型制定策略。当发生什么事的时候，你应该如何去做；当发生什么样的新闻的时候，你应该如何去反应。以后可能人类会在量化交易的基础上继续向上走。

大模型交易呢，也会带来很多的风险。就大模型交易这个事一定会到来，谁也拦不住他，因为挣钱嘛，这个事你是拦不住他的。它会带来什么样的风险呢？第一个就是算法趋同。这个事其实在量化交易的时候就已经产生了。算法趋同什么意思？就是我发现有一个要涨的这个趋势了，或者有一个要跌的趋势了，所有的量化机器人，包括以后的大模型，可能都会产生相同的这种认知，那他们就会把这个趋势进行放大。涨还行，你要跌的话就会闪崩，直接“咔嚓”一下就崩掉了，很多人就会爆仓在里面，这个是非常非常危险的。还有什么呢？就是责任不清晰。原来我们即使使用量化交易，也是有量化交易员他来承担责任。而未来的话，你是由大模型来去确定要去买还是要去卖，那你挣了、亏了，这个到底算谁的？这块呢，也还需要再去明晰一下。所以监管部门又有得头疼了。

好，最后总结一下。这是第一次真金白银的大模型对抗，而且呢我们发现专才还是有用的。其实这个实验呢，颠覆了我的一个认知，我原来一直认为，只要模型变得越来越大，这种通才才是未来的一个方向。但是这一次的比赛让我们知道了，专才是有效果的。像DeepSeek这样的专才，他就是做量化出身的嘛，所以他对于整个的量化交易规则，对于整个量化的这种执行过程和这种去中心化交易所这种低效率、高成本的这种交易的节奏把握得非常好，他就胜出了，超过了所有的其他大模型。所以专才依然是有效的，即使大家以后没有专才大模型，你也完全可以用这种开源模型去进行微调，这件事还是有效的。

下一个告诉我们的事情是什么？特定的信息源是非常有效果的。下一个胜出者是Grok-4，它靠X上这种非常敏感的信息波动，比这个DeepSeek挣得虽然稍微少一点点，但是也是非常挣钱的。

最后提醒大家，炒币有风险，入市需谨慎。大模型是别人的，炒币的真金白银是自己的。

好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

继Model Context Protocol后，AI下一个新标准已现雏形？Anthropic凭“简单、开放、中立”三原则再次领先｜Claude Skills、Anthropic、OpenAI

Luke Fan — Tue, 21 Oct 2025 00:48:17 +0000

Anthropic Claude出了新工具，叫skills技能。这是不是MCP的升级版本呢？

大家好，欢迎收听老范讲故事的YouTube频道，咱们又有新玩具了。这一次，Anthropic出了一个东西，叫skills技能。它呢，应该是大模型功能拓展标准的一个新尝试。

大模型除了可以一本正经地胡说八道之外呢，你还需要去做一些技能拓展。比如说，你可以去写PPT，可以去做Excel，skills就主要干这玩意儿使的。这也算是AI agent以及上下文工程有可能会迎来的一个新标准，甚至呢，在部分功能上已经取代了MCP的功能。待会儿咱们再讲哪一部分可以取代MCP了。

到底什么是skills呢？它呢，是直接给Claude去赋能，让Claude code去做一些琐碎的工作。我举一个例子吧，比如说一个律所，你律所里头需要干一个什么事？就是你们出的所有的这个文件，它是有排版要求的。哪个地方用几号字，哪个地方用几号字，什么地方要用什么样的方式来表述，这个都是有要求的。以前我们律师给写的文件，大概每一个文章倒数第二段的时候，要写一个“以及”还是什么，反正有一个特别奇怪的要求。我第一次看到，我说：“你们为什么写这个？”他说：“律所要求就是必须这么写。”包括哪个标题需要使用什么字号、什么字体、字间距、行间距，他们都有要求。

这个东西你要让大模型去干活呢，就很费劲，特别是大模型每一次干出来不一样。那现在就是你，可以通过skills直接给它赋能，说我们以后按照这个律所什么什么要求去做，甚至是哪个版本的要求，去处理这些文件，最后处理出来的格式跟你的要求是一致的。

这东西呢，配置起来要比MCP省事。MCP配置还挺麻烦的，你需要在本地起服务器，或者就算是远程服务器，你也需要在本地去进行MCP服务的配置。这个配置的过程，可能普通非程序员不是说完全处理不了，但是还是比较费劲的。但是skills就省事多了，直接写个Markdown文件扔里头，完事。你就是建个目录，写一个skills.MD的一个文件，告诉它说，我什么样的字需要使用什么字号，或者说我这个信的结尾要加“此致敬礼”什么，你可以写一大堆这样的要求进去。写完了以后呢，直接在执行的时候告诉它说：“这是我的技能文件，请照着这个干活。”它就去照着执行去了。

而且skills呢，是可以在全客户端执行的。它可以在API上跑，也可以在Web端、手机端客户端，都是可以跑的。甚至呢，还可以在Claude code里头去跑，这个都没问题。如果你是在Claude code这样的本地的AI agent里头跑的话，它可以基本上覆盖MCP的功能。为什么？待会儿咱们细讲。在其他端这个还不太行，它是有一定限制的，至少目前还有吧。

现在呢，普通人都可以用这个skills工具。它主要是用两个格式的文件往里写东西：一个是Markdown。Markdown其实你基本上认为它是个纯文本就完了，只是呢，里头有一点点的简单的这种格式标记，写一个井号后边是大标题，两个井号是中标题，三个井号是小标题，它就是有一些这样的标记在里头，其他的也没有跟普通文本差异的地方。你用任何的纯文本编辑器都可以打开它，只是呢，没有渲染的效果而已。另外一个呢，叫YAML。YAML呢，实际上也是一种纯文本的配置文件，它呢，特点就是缩进，就是你通过缩进的方式来去写配置。现在大家看到很多的项目里头，都有这种文件，前面基本上是一个属性，打个冒号，后边是要赋的一个值。现在很多配置文件都是拿这玩意儿写的。

当然了，skills你要想处理一些更复杂的东西呢，它也允许你加代码进去，但是代码执行呢会比较受限制。因为这个skills是在哪跑的呢？它是在一个虚拟机里跑的，是在Anthropic本地的一个虚拟机里边去跑。这个虚拟机是不能联网的，也不能去调用很多的这种库文件进来，所以它的功能比较受限。

只有是在Claude code，就是在我们本地跑的时候，它可以联网。所以呢，你在本地跑的时候，它不是在虚拟机里头，你就可以基本上取代MCP的功能了。甚至你在skills里头直接写说，我要调一个什么API，这个API的调用方法是什么，返回值是什么，就是我们把很多那个API的文档文件直接贴在那个Markdown文件里就完事了，它就直接干活去了。所以只有在Claude code里头才可以替代MCP，如果不是在Claude code里头，它是不允许联网的。它的格式刚才我们讲了，就是一个叫skills.MD的一个文件放在一个目录里，或者再加一些其他的这种配置文件就完事了，极个别的情况需要加代码。

现在呢，Anthropic官方呢，也给出了一些skills，比如说一些Excel、Word、PDF、PPT这样的处理方式。我本来想去充一个Anthropic的会员，20美金充一个会员，后来翻了翻，发现这东西就完完全全的不支持中文，连繁体中文都不支持，最后算了，就不跟它费劲了。我相信skills应该很快就会普及出来，就像MCP一样，不是只有Anthropic自己可以用。

那skill适合做什么呢？最适合做文件处理、格式处理。如果在Claude code里头，基本上是全能的。技能和标准的固化和重用，这是它主要干的活。这个什么意思？比如说有一个人说：“我就擅长整理律所的文件格式。”这个东西呢，叫一个技能。你要再找一个人来说：“你给我把这个律所的文件都处理成我们要求的格式呢？”他需要重新学习。现在呢，等于是我们把这个东西固化下来了，说这个skills就叫“律所文件格式处理”，把它固定下来了。固定下来以后呢，就直接可以反复地重用了。我下一次需要去处理文件的时候，直接告诉Anthropic我的skills叫这个名字，去干活去吧，它就去干活去了。

Anthropic为什么总能拿出这种推动行业的新标准来呢？这样的一个功能，现在大家都在讨论的核心原因，就是大家觉得这可能是未来的标准。最早它推出的MCP标准虽然不完美，因为它调用的时候必须要起个服务器，这个事还是很讨厌的，但是呢，现在已经是标准了。谷歌、OpenAI都已经跟进了，国内的各大模型厂商、各大AI agent和工具厂商也都跟进了MCP了。原因很简单，就是它会秉承着叫“简单、开放、中立”这样的一个原则，这才是真正的关键。你把这事搞得很复杂，各种方方面面我都想到了，或者说我只能在自己的平台上使，我又不开放，或者说我虽然是中立的，但是呢，我们中间的这些代码是不给别人看的，其他的人你是不知道我怎么去调用这个功能的，这些都很难成为标准。你必须要简单、开放、中立。除了大模型的处理能力这些，MCP也好，skills也好，它基本上不依赖其他技术，这个也是非常非常重要的。你说我现在做了一个新的标准出来，我需要依赖很多很多东西，这个就很麻烦。像MCP呢，还是需要依赖一些外部服务，需要依赖一些这样的技术，但是skills就更简单，什么也不依赖，你直接拿出来就可以用的东西。

大模型能力拓展的尝试呢，其实一直在持续。从ChatGPT 3.5开始，GPT进入到公众视野以后，大家一直在尝试这东西到底能干嘛，除了一本正经地胡说八道之外还能干点什么。现在每天大模型的能力在上升，我又训练出GPT-5了，又训练出GPT-6了，但是还有一些东西呢，是它搞不定的。第一个是角色的固化，或者说技能的固化与重用，这个事情呢，是大模型自己搞不定的，因为大模型都是按照通用的模式来去训练的。另外一个就是要调用外部工具，我不可能自己把所有外部工具都跑通，它真跑通了就吓人了，有可能这个人类就没有存在的必要了。它还是有一定的能力边界的，这一块呢，就是在不断地拓展。

很多人可能会记得，咱们经常在写提示词的时候，第一句话干嘛？第一句话赋能，说“你是一个编辑”，“你是一个律所的文档格式大师”。我们经常会写这样的话在第一句。那你说这个真的会让ChatGPT也好，Anthropic Claude也好，像律所里边的文档编辑大师一样工作吗？是不能的。为什么呢？因为每个律所的文档格式要求是不一样的，它也不知道你要用什么方式去干活。所以你去写提示词的时候，对大模型进行角色赋值，说“你是什么什么”的时候，到底起什么作用？告诉大家，不会提升答案的质量，他原来该答什么还是答什么，但是呢，会让大模型将结果模仿成指定角色的方式说出来。他会去想说，这样的这个角色是怎么说话的，我先生成结果，然后模仿这个人的方式再重新说一遍。这个就是我们每一次去指定说“你是谁谁谁”的时候得到的一个结果。这肯定不是我们所希望的嘛，我们还是希望它真的具有相应的能力。

现在我们就要去做固定技能以及能力拓展，咱们做了很多尝试。前面OpenAI做的一个东西叫GPTS，这个东西呢，推出来的时候我就说这玩意没戏，现在呢，基本上已经没有什么人去玩耍了。GPTS主要干的活，实际上就是一个固定技能，当然它还有很多其他的功能，那个调用处理起来就非常非常麻烦了，你需要在里头写程序的。而且GPTS还有一个问题是什么呢？就是它必须在ChatGPT里头跑，它不能出来，这个是很麻烦的。刚才我们讲了，你要想确立标准的话，必须得中立，它的中立性就没有了。而且这个东西做起来其实没有那么容易，GPTS刚出来的时候我也做过一些，效果呢，差强人意，不一定每一次按照你的要求去做，因为当时模型的能力也没有那么强。折腾了半天GPTS以后，发现不是我想要的东西，所以现在呢，基本上玩的人很少了。

第二个就是function call，就是直接让大模型去通过代码干活。这块呢，甭管是国内的模型，还是国外的这种主流模型，都是支持function call。OpenAI、Anthropic的Claude，还有Grok、Gemini，都是支持function call。但是呢，这个东西比较麻烦，在哪呢？你必须写程序，你不写程序这事搞不定。只能在API里头使，你说我在客户端用，我在Web端用，这事你是没有办法拿它干活的。所以这东西呢，对于非程序员来说，基本上相当于没有。这就是function call的一个情况。

再往后呢，就是MCP了。MCP呢，比function call要简单一些，不再需要那么高的程序能力了。我可以说直接把一个MCP的配置文件写到比如Cursor，或者写到一些其他的这种支持MCP的客户端里去，他就可以去干活了。这个对于很多这种非程序员来说呢，就已经比较友好了。现在呢，你要去调MCP，可以写程序，也可以直接在支持它的客户端里配置就可以用。现在呢，有很大一部分的服务平台都将自己的服务包装成了MCP。你比如说支付宝、微信支付、高德地图、百度地图、大众点评，都开始出MCP了。这一块呢，就是只要上大模型，你挂上这些MCP以后，就可以实现相应的一些功能了。MCP主要干的活是什么呢？就是能力拓展，它并没有说把一些能力固化下来。你说我告诉大模型我有MCP了，那不能保证你每一次输出的结果都是你想要的，但是呢，它可以保证说大模型可以去调用百度地图了，知道这周围有什么好吃的，这个他可以去干了。

现在呢，skills来了。skills呢，和MCP比起来，对于非程序员就更加友好。原来MCP你要去做配置的话，还需要去写JSON，JSON还算是一种程序员使用的配置语言，而现在的话直接Markdown了，你就直接用自然语言去写就完了。JSON的话你要是把它写错了，大模型拿它也没办法，但是Markdown的话，你写错了以后，比如我写了几个错别字在里头，或者哪个地方我写点病句在里头，大模型就直接处理掉了。所以这一块容错率还是比较高的。它呢，可以很好地将技能固化下来，让你再去重用，也可以去拓展一些外部功能。但是拓展外部功能就只能是在Claude code里头用。我相信未来可能会有更多的客户端去支持skills，只要是有客户端支持的skills，就可以去允许你拓展外部功能，可以去联网。否则的话，你跑到Anthropic的自己的服务器上开虚拟机的话，它就不会让你干这个活。现在呢，在网页、API都可以去跑，但是网页、API包括手机端、PC端的这些客户端里头，它都是调用的Anthropic自己的虚拟机，不允许联网。如果你是在本地跑，它是允许你去联网的。

那你说未来大家会不会跟进呢？一个新技术，你不能说上来我就要做标准，这事是不对的。一个新技术出来了以后，一定是什么呢？一定是自己先用起来，大家喜欢了以后，逐渐去遵循你为标准。而且你前提还得是开放，你如果不开放的话，别人想去遵循你为标准也没有这个能力。我觉得呢，大概率skills会成为下一个标准，继MCP之后的下一个标准。为什么呢？就是skills的技术是完全中立的一个技术，因为你写进去的就是一堆Markdown，其他的没有什么，就算写一些Python代码，或者是一些TypeScript，或者是其他的这种代码进去，它要求的也都比较简单，不会要求写特别复杂的代码，因为它是在一个没有网络、也不可以调用外部代码库的一个虚拟机里去执行的，所以这个代码也不会太复杂。所以第一个，完全中立。第二个呢，就是它直接开放的，Markdown文件拿出来看就完了，我到底是一个什么样排版的文件，我直接看就可以了。

WPS里头有非常非常多的模板库，班级的点名表，或者是各种的报告，它都有模板库。以后这些东西通通都可以写成skills，我们就直接调用的时候，就可以产生出符合各个单位里头要求的格式化文档，这个还是很棒的。甚至呢，可以进行一些逻辑上的检查，比如说所有的股权算完cap table以后，加起来必须是100%，你这些东西通通都可以在skills里去干。现在大量的skills文件呢，已经开源了，都在GitHub上，大家可以自己去找去，直接下载下来就可以用。而且支持skills这件事呢，本身对于大模型也没有什么新的要求，完完全全是可以在这种客户端上就跑。你比如说Cursor或者是VS Code，这些东西就直接可以去支持了，并不需要模型做任何的修改，也不需要在模型API上做特别多的调整。所以这个东西成为标准的门槛是比较低的。

skills对模型唯一的要求是什么？就是你模型的上下文要进一步的提升，要有更好的指令依存度。我要求你干什么，你必须老老实实给我干去，这就是skills对模型的要求。现在Anthropic Claude对于skills的这种要求，特别是现在的4.5的版本，基本上是可以满足的。Gemini 2.5相信应该也没有任何问题，甚至马上要出Gemini 3，可能这个礼拜就要出Gemini 3，做这些事情应该也都是OK的。GPT-5处理skills这样的一些小问题，应该也没有任何毛病。国内的话，豆包、DeepSeek和千问应该也都可以完成相应的这种改造，就是你模型不用动，直接在这个客户端上处理一下就可以了。

未来的话，可能就是我们只要告诉大模型说，我有哪些function就是哪些功能，哪些MCP，比如说我可以调用百度地图、高德地图，然后呢，我们再告诉他，我还有哪些skills，哪些技能，我想干什么，然后它就给你干去了。我举一个例子吧，我们现在有MCP是高德地图的，有一个skills叫做“Excel格式整理和数据校验”，然后我们就可以告诉它什么呢？我现在想知道某一个地区周围有哪些日料店，他们都是一个什么样的情况，按照这个打星的情况去排序，还是按照价格排序，还是按照一个什么样的方式排序，然后呢，请给我去进行什么样的格式。把这个命令整个交给这个大模型以后，它就会自动地去调用MCP得到某一个地区附近的日料店，然后把里头所有数据都拎出来，再按照我们的要求调用skills，把这些东西通通都塞到Excel里头去进行校验、进行排序、进行这种格式的梳理，然后生成一个我们所要的这种Excel文件出来。它就是这么干活的。

跟这种标准，国内的这些公司应该会跑得很快的。国内一大堆抄袭Claude code的这种工具，像现在阿里、字节、腾讯都开始出这种客户端上直接进行命令行输入的、类似于Claude code的工具了，他们想去支持skills还是非常容易的。国内的这些AI IDE应该也会第一批跟上。云厂商跟进应该会更快一些，因为刚才我们讲了，skills执行的一个原理是开一台虚拟机，处理完了以后把它关上，这个对于所有的云服务厂商来说，“这个我们熟”，他们会更快的跟上。而国内最大的云厂商是谁？阿里。千问未来去支持skills应该是顺理成章的，国内MCP最早支持的应该也是阿里。

总结一下吧，你想去建立一个新的AI标准，你必须按照“简单、开放、中立”这个标准去，而且除了大模型能力之外，你其他的都不能要求。这个就是MCP成功的原因，也是skills我认为未来有可能会成功的一个底层逻辑。Anthropic呢，可以不断地确立新的行业标准，就是遵守了简单、开放、中立这样的一些基础。当然优点呢，是标准性；缺点是什么呢？就是不能吃独食。很多国内的这些厂商说，我也要去建立标准，建立了半天，他老惦记吃独食，这事你肯定就做不起来。现在AI领域里头是什么？就是一帮巨头，甭管美国的OpenAI、Anthropic、谷歌、Grok，这些都是巨头，非常非常值钱的公司。国内的字节、阿里，这都是巨头，可能DeepSeek稍微小一点点。在这个时候，没有谁说我确立一个标准，你必须在我这跑，其他人都不兼容，这事是跑不起来的。OpenAI就老惦记干这种活，吃个独食，把自己的私货加进去，但是效果非常的不好，所以他建立的各种标准一般是没有人用的，都是Anthropic在建立标准，大家去使用。

好，这就是今天要给大家讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

疯狂抢人 vs 闪电离职：Meta AI团队为何刚组建就内乱不断？两个月上演的收购神话与破灭 — Meta AI 战略、AI 模型、Scale AI、扎克伯格、Llama

Luke Fan — Wed, 03 Sep 2025 00:46:30 +0000

Meta的抢人大战，难道要一地鸡毛了吗？

大家好，欢迎收听“老范讲故事”的YouTube频道。

到底发生了什么呢？跟着亚历山大·王一块入职的ScaleAI的高管，突然因为个人原因离职了。有些人呢，刚被挖过来，屁股还没坐热呢，又离职回去了。ScaleAI被曝出数据质量太差，Meta在采购ScaleAI的数据同时，还去采购了竞争对手的高质量数据。因为大家知道，ScaleAI是做数据标注的，你要想去训练新模型，你就要去采购数据。我这边投了这么多钱了，发现不能使，还得买别人的。

还有什么呢？ScaleAI失去了谷歌和OpenAI这些大客户以后，被爆出来进行了大力的裁员。Meta现在正在使用竞争对手的产品，比如跑去使用ChatGPT、使用Gemini、使用Anthropic的Claude，去使用这玩意儿去了。以及爆出Meta内部的管理非常混乱。

现在是出了这样的一些负面新闻。Meta从收购ScaleAI开始的绝地反击，是不是要变成一地鸡毛了呢？

先别急着下结论，先听我讲几个故事，然后咱们慢慢分析，最后呢，会给大家一个结论的。

关于公司疯狂挖人、并购和整合的故事呢，AI是不是存在泡沫的，在一期直播里头，已经讲了好多相关的故事了。有兴趣的呢，可以去看直播切片。

首先，咱们来讲一下公司并购整合。这本身呢，是一件非常艰巨的任务，成功率从来就没有高过。我个人操作跟遇到过的并购案子，还是相当不少的。碰到的第一个案子是什么呢？就是我在Borland上班的时候，我的老板是惠普合并康柏的时候，从康柏那边被合并进去的。他当时就跟我讲过，两个大公司合并，你要先看以哪个公司为主，哪个公司为辅。当时大家都讲的是合并、合并，实际上是惠普收购了康柏。收购了以后呢，你两个部门的人员确实是合并了，但是惠普的员工是正式的，康柏的员工进去了以后，一般是有6个月的整合期，到了6个月以后，大部分的人就都离开了，只有很少的一部分人留下。

我记得惠普跟康柏并购的时候，惠普还去开经销商大会。因为当时我们是惠普的一个经销商，惠普那个时候拍着胸脯说：“我们可厉害了，我们把康柏合并了。我服务器的份额，惠普占多少，康柏占多少，啪，俩一加，我第一了。”当时这些东西第一都是IBM，他们分别是第二、第三。然后，“我们的硬盘阵列的市场份额，一合并，我又第一了。是各种企业存储设备的市场份额我第一了。包括路由器、交换机，因为惠普跟康柏都生产这些东西，把俩份额一加，我又第一了。”后来呢，我们就知道，这种两个品牌合并之后，并不是说大家简单的把份额加在一块，就变成第一这么简单。你变成了一个品牌了，其他的这些竞争对手，会把你的这些份额吃掉的。

然后我在Borland呢，还碰到了Borland的并购。当时呢，我们的部门被一个叫Embacadero的公司给合并了。合并进去以后呢，当时的两个老大，就是中国区的Country Manager，就直接离职了。原因也很简单，那边没有给你留位置。虽然Embacadero在中国是没有下设机构的，进来以后应该是直接使用Borland在中国的下属机构，但是呢，还是一样的，直接把两个老大干掉，给到补偿也足够多，他们就觉得很开心的，拿到钱出去做自己的事情去了。

再往后呢，就是去猎豹移动，那边因为我自己负责投资了嘛，所以碰到的这种并购的案子就会更多一些，而且很多都是我自己操作的。那并购呢，其实分很多种。

第一种就是人员并购。我花钱把人买回来了。这种并购呢，通常我们做的方式，就是给这个原来的投资人一个交代，你不能告这些创始人。因为并购一般是要创始人的嘛，像ScaleAI其实也是这样，他给了143亿占了49%的股份，把创始人整个都拉走。原来的投资人呢，你就不能去告这些创始人了，他原来的这些竞业条款，你就不能再去要求他了。像亚历山大·王这些人，就可以跑到Meta来干活了。这个就属于HR并购。而HR并购呢，跟着一起过去的这些人，他们是不会分到很大的钱的。他们一般会分到一个叫做人员迁移的奖金，会分到一些新公司的股份，Meta会给他们发股票，一般是这么来去操作的。HR并购进去了以后，就听人家招呼，人家让你组建部门，你就组建部门，人家让你去做哪件事情，你去做就完了，这就是标准的HR并购。

然后呢是业务并购。业务并购可能是大家看到的比较多的，但其实业务并购呢，又分很多种。比如说有用户并购，你有很多的100万用户，我有100万用户，我把你并购下来，咱们就赚200万了。就跟刚才我们讲的惠普跟康柏这种并购似的，他们呢，其实属于竞争对手，两边一并购，说我的份额可以加一块了。这个可能是大家见过比较常见的一种并购方式了。

还有呢，就是上下游并购。比如说我原来是做这个云计算的，我下游有一个做相应的云计算设备的，我每天找他买东西，我就干脆把它买下来算了。或者是像以前我们做流量的，获得了很多流量，那怎么办呢？我们再去买个广告公司吧。有流量了以后，总是要去做一些广告的，我把它买下来。

还有一种是做市值管理的并购，是干嘛？就是猎豹移动跑去上市，说这个不行，我们销售额不够多，怎么办呢？后来说算了，咱们去买一个销售额高的公司，不就完事了吗？然后我们跑去买了一个彩票公司回来，那彩票公司销售额肯定高，这个报表就变得很好看了。

还有一些像跨行并购。像刚才我讲这个买彩票公司呢，其实还不算是跨行并购，因为我们好歹是有流量嘛，可以给彩票公司去投流，或者是直接给它导流，这都还算是上下游的一种玩法。真正跨行并购是什么呢？比如说我是一个水泥厂，我跑去买了一个电影公司，或者我跑去买了一个游戏公司，这种呢叫跨行并购。这种其实很多都是在做市值管理，把这种公司买下来以后，我的估值逻辑就变了。我原来是水泥厂，我的PE是多少倍，现在我买了一个新的电影公司，它的估值是多少倍。但是呢，这个后来在国内不是那么允许了，证监会说：“我也不是傻子，你们骗谁呢？”

还有一些呢就是技术并购。技术并购呢，就是把这些最有技术的人都买回来，包括你的所有的代码、你的专利、你的各种授权文件都给它买回来。但是技术并购最后呢，其实一地鸡毛的也不少。买回来以后发现，这个技术跟我们想象的不是那么一样，或者用不起来，这个可能性都是存在的。

并购到底成功还是失败，应该怎么去衡量这件事呢？刚才我讲了半天，说并购绝大部分都是失败的，那到底怎么算成功，怎么算失败？

其实呢，并购这种事情是有非常多的评判角度的。比如说从财务回报和市值管理的角度去评判，买了个游戏公司回来，我股票涨了，我最后把游戏公司卖了，或者我在里头再空手套白狼，割了一波韭菜，我挣着钱了，那这个你说算成功吗？可以算，这个没有任何问题。

那你说换一个，你说我从战略整合跟业务发展的角度来看呢？你比如说像微软把动视暴雪买下来了，那你说这个事情对于微软来说呢，这可能是一个战略整合成功了，业务也在继续往前发展，他现在在整个的游戏领域里头，又往前迈出了一步。但是对于用户来说，对于暴雪的这些战略来说，可能就是一个巨大的失败，因为很多人家开发了好长时间的项目，被很多人所期待的这些续作就没了，直接被微软给砍了。微软说：“这不符合我的战略，你反正已经被我买下来了，你的战略就已经不重要了。”他会有这样的问题。

对于不同层次的个人诉求来说呢，这种并购就更难说是成功还是失败了。对于大老板来说，他可能财务回报、市值管理是他们最关注的事情，第二个呢，才是战略整合和业务发展。但是呢，对于被收购的人，或者是下面需要跟他们合作的人来说，每一个人就冷暖自知了，每个人有每个人的诉求。

而且呢，时间也是一个很关键的衡量因素。比如一年之内我们看这事成功不成功，两年之内我们看成功不成功，他是一个比较长期需要看的事情。Meta现在干这点事，毕竟也就是一两个月，或者一两周的事情嘛，着啥急嘛。所以呢，还是要给Meta一些时间，看看未来会发展成什么样。

我们来逐一分析一下，Meta遇到的问题到底是哪些呢？

首先大家要注意一点，所有高调并购和抢人，他就必须要背负一个负担是什么？任何的风吹草动都必然会被放大渲染。你如果说我偷偷把这项目买下来了，谁也不知道，那我在内部慢慢整合，中间有一些不愉快，有些人走了，或者甚至有时候闹出一点小的群体事件来，这个很正常，就是你并购完了以后要大裁员嘛。但是只要你前面别太高调，大家也不惦记去传播你这些事。上来传闲话，也得有这个闲话可传，传了以后没人爱听，那谁传？所以像Meta这样高调的，一百四十几亿把这个ScaleAI买下来，再去一亿美金一个人，再去挖一堆人回来，这种一定是被所有人拿放大镜、拿显微镜看着，出任何的小纰漏，大家都会说：“你看，他那出事了。”所以他必须要背负这个后果。合并整合的过程中，出现各种意外情况都是正常的，他就是一个乱哄哄的过程。合并整合绝对不是一个写好计划书，然后按照脚本按部就班执行的过程。

我们来看看都出了点什么事儿。

第一个，和亚历山大·王一起加入ScaleAI的高管离职了。人家反复强调个人原因，说：“我过来以后觉得很愉快，没有任何问题，我就是个人原因要离职。”这个呢，属于洗了，但洗的很拙劣。为什么要洗呢？其实很简单，这个人进来以后，一定是拿了一些迟后交割的股票，或者是一些迟后交割的利益。一般这种并购，特别是这种HR并购，因为我要的是人嘛，签协议的时候，一定要规定好哪些人必须过来。过来的时候呢，我们又不可能说一把把钱都给他。把钱给了，他跑了怎么办？所以呢，要签卖身契，或者说叫对赌协议，也有的时候交割的一些协议，我答应给你多少多少钱，但这钱呢，我一把不给你，我是分多少次以后再给你。甚至呢，如果你这个团队不稳定，其中有一些人走了，别的人的话也会受到一定的损失。他会有这样的这种协议在里头。这个ScaleAI的高管离职的时候呢，你就必须要去圆这个谎，如果不圆这个谎的话，会让很多人，包括他自己都受到损失。所以甭管圆的多么拙劣，他必须得圆。进入大厂呢，一般是叫“一入侯门深似海”，那规矩太多了，原来草台班子那一套，被人家鄙视是必然的。我曾经呢，遇到过一个被百度投资的项目，基本上被百度控制了，里边的一些高管呢，就非常非常不爽。为什么呢？因为百度是一个纯名校精英组成的公司，特别是升到级别稍微高一点的，这些人基本上都是名校精英。你并购了一个公司了以后，这个公司里头可能有一些VP，或者是这些联合创始人呢，性格又没有那么强大，又不是名校精英，你在百度里边去开会的时候，就会感到巨大的压力。所以ScaleAI的一些联合创始人，就是说受不了这个，咱走吧。

第二个问题呢，有两个人吧，刚被挖回来两周就离职了。现在呢，是各大公司都在抢人，不光是Meta在抢，OpenAI、XAI、微软、谷歌都在抢人。可能谷歌还稍微的优雅一点，为什么呢？反正人一开始都是他的，他那人最多，所以呢，他并没有那么着急。其他人全都在抢，在这个时候出现摇摆，也是非常非常正常的。ScaleAI离职的这个联合创始人，以及这两个进了Meta工作没几天就离职的人，你看这名字就不是中国人嘛。也许发现进去以后中国含量太高了，然后自己不会讲中文，大家用中文开会，实在受不了就跑了——这开个玩笑，没有任何真凭实据。因为在这个里头呢，亚历山大·王呢，是从来没有在任何公开场合讲过中文的，他所有开会都是使用英文的。虽然他是一个华裔吧，他父母都是华人，他自己呢，大家猜测他应该是会讲中文的，但是呢，没有公开用过。而扎克伯格本人呢，是肯定会讲中文的，讲的可能没有那么好，但是一定会。因为他当时在国内清华，都是用中文做过演讲的。大家给他的评价叫“勤奋型中文”，就是很努力的讲，讲的荒腔走板的，但是呢，也还在很努力的讲。

被寄予厚望的人，跳过来以后快速离职呢，通常的原因很好理解，叫预期管理没做好。预期管理其实分两块，一块呢是挖人的时候呢，我们要给这个人画大饼：“你到我这来吧，我发的钱可多了。你到我这来以后，你就可以管一摊事，直接向扎克伯格汇报。”就画这种大饼。画大饼的人呢，其实是没有办法对自己画的饼负责任的。我先把人忽悠回来了，真的能实现吗？我负不了这责任。原因也很简单，我投完了项目以后进来，他就变成公司里的一部分。即使是我投完了以后，他成了一个独立的公司，他的各种运作，需要跟猎豹内部去交换各种资源的时候，也不是我说了算的。我可以帮他去协调，但是最终决定的不是我。所以画大饼的这个人，是没有办法对自己的饼负责任的。

另外呢，听到大饼的人，他也不是说拿了我的大饼，然后进行理性的分析，这些人呢，心里一般会再把这个饼再画大一圈，把这个饼呢，画的更符合他们自己想象的样子。最终呢，这个预期管理就有可能会出现问题。那你说这些人为什么不理性的分析一圈呢？原因很简单，我把他忽悠回来了，说明我这个大饼已经把他砸晕了呀，但这时候已经不理性了，所以他就没有理性分析这件事。

还有一个问题是什么呢？画饼一头是跟创始人，或者是我们的目标去画饼，另外一头是什么呢？另外一头我们得跟老板画饼：“老板，这个人可厉害了，原来管什么什么事的，非常非常强。”老板听了我们画的饼以后呢，也要去研究一下，说：“我面试一下吧。”我聊聊，聊完了以后，即使是反复沟通，其实老板也会对目标人物形成一个不那么符合实际的预期。大家看明白了没有？我原来干的活有点像媒婆，就是男方夸完了女方夸，然后两边一过日子，发现不是那么回事。其实很多做战略投资的人，就是干这种事的。就我自己也遇到过，老板把我招进去了，以为我能做一些事情，结果发现我搞不定。我记得当时进到猎豹的时候，我上边的老板是谁？就是徐明，现在做银河航天放卫星那哥们儿。上来以后说：“你给我写个PPT去吧。”我说：“我自己的PPT都是别人给我写的。”我就吭哧吭哧给他写了一个，老板说了嘛，你不能不给他干。写完一看说不能使。也不是说咱做PPT的水平差，而是什么呢？我做PPT的这个风格，跟他这个风格是不一致的。说：“算了我还是用原来用习惯的人，给他接着写PPT吧。”这个其实是很正常的，这事其实搞不定。但这个时候呢，就需要大家都有点耐心，后边呢，应该会有惊喜。就像大家现在听我节目一样，你们听了开头以后，一定要往后听，我一般节目在比较靠后的时候，都是稍有有一点点惊喜的。这个就是双方预期管理失败，就会导致一些人进去了以后，发现不是那么适应就离开了。这个太正常了。

第三个呢，是ScaleAI失去了谷歌、OpenAI这些大客户以后呢，发生了大裁员。据说他们是裁了200多人。人员结构调整，本身这个事儿是一个正常的事情。有些人呢，拿到钱了，留在ScaleAI的人呢，肯定是没有拿到这些钱，他们就不是那么开心。所以呢，同样的一件事情，从他们嘴里再说出来呢，就会显得稍微有一点点小负面。而且刚才我们也讲了，这就是风口浪尖上的事情，140多亿投资ScaleAI，把管理团队拎走，在上亿美金一个人去挖人，所以整个跟这件事情相关的，所有边边角角都在风口浪尖上，出任何事情都会被放大。

第四个，ScaleAI的数据质量差，必须要采购竞争对手的数据。这件事呢，其实我觉得ScaleAI本身的数据质量在业界是有公论的，它就是这种大面的数据，量大管饱。你要真要质量特别好的数据，你还是要到SugarAI或者其他几家去采购去。要注意这种大型的投资并购以后，还有一个很严重的问题是什么？叫公允交易。什么意思呢？Meta现在占了ScaleAI 49%的股份，这就属于是大股东了，或者叫控股大股东了。那么你说，我这个数据明明SugarAI的更好，但是我现在一定要去买ScaleAI的，这个事肯定是不对的。因为毕竟两边都有各自的股东，Meta有Meta的股东，ScaleAI除了Meta之外还有其他股东的。你们之间做交易没问题，但是你说我们之间做一些不公允的交易，那这个事情的话会被起诉的。特别是Meta这样的上市公司，他的股东是可以起诉他。比如我买了Meta股票，我就可以去找律师做联合诉讼：Meta把这个钱给了ScaleAI了，有一些明显ScaleAI的这个产品质次价高的，这个服务你还非要买他的，你不去买别人的，这个事肯定是不行的，是会被判定为关联交易，是会罚款的。所以呢，采购别人的数据这件事情，并不是什么特别大的问题。如果只采购ScaleAI的数据，那才是毛病呢。

第五个，被爆出来Meta内部呢，依赖和使用竞争对手的大模型。他们有些时候使用Anthropic的Claude了，有些时候呢，去使用OpenAI的ChatGPT，有些时候是去使用谷歌的Gemini了。这个呢，其实我觉得是一个好事。每个公司呢，都会尽量的使用自己的产品，特别是在公司内部。不是像刚才我们讲的ScaleAI有一半还在外边，如果他已经完全100%买下来了，那你就老老实实使他自己的就完事了，他还有一半在外边呢，你在这个时候说我一定要用他的产品，这个事是有问题的。大公司咱们就举一个最简单的例子吧，IM，就是咱们使用微信、QQ这些产品，各大公司自己内部实际上都有自己的IM。百度的IM叫HI，百度员工只要是公司相关的事情进行沟通，都必须要用百度HI。小米呢，要用米聊。阿里呢，要用钉钉，其实阿里原来是用旺旺的，后来呢，是做了一个产品叫来往，那个产品作废了。来往的团队呢，后来转型做了钉钉。来往的负责人就是现在这个吴钊，半夜到办公室溜达，发现没人上班，说：“你们怎么都这么早就走了？”这个哥们。字节呢，用飞书，这是正常的，因为自己家的产品嘛。腾讯呢，现在在用企业微信。美团呢，原来使用的这个产品叫大象，后来呢，叫做美团协作，完全自己开发的。拼多多的内部开发了一套叫Knock（敲门的那个意思）。所以大家都要用自己的。在这种时候呢，能够打破桎梏，说我们内部去编程，去做各种的工作的时候，不去用Llama——反正Llama已经翻车了，大家也认这件事了——自由的选择最优解，这个呢，其实是创业公司比较喜欢干的事情。新团队新气象，一定要打破这些旧的条条框框，从这开始。所以呢，他们现在去使用竞争对手的产品，不是什么大问题。你除非哪天Meta说：“我Llama不做了，我以后就是在GPT基础上接着往前走了。”我相信扎克伯格不会干这个事。就算他说我准备干这件事，那山姆·奥特曼也得看同不同意。我这要发GPT-5的时候，你一亿一亿的从我这把这个人都挖走了，这恨还没去呢，新仇旧恨都在这呢。这个两边都没有那么放心。小规模的自己内部用一用是没问题的，未来的产品肯定还是要单独去做的。

至于最后一个，Meta AI这一块内部管理混乱呢，这个不是什么大事，这才几天，乱就对了。如果真的是四平八稳往前走的话，这样的公司整合大概经常会整一两年，甚至有的会整合两三年，这个扎克伯格肯定是没有这功夫的。这种大规模并购整合一两个月，现在这个状态其实已经算不错了。

那么结论是什么呢？到底是不是一地鸡毛呢？讲到这了，没讲结论。毕竟是听床，听床呢，就只能是通过流传出来的蛛丝马迹，以及过往的经验进行判断。哪怕是我在里头有认识人，我去问了几个人，每一个人的角度都不一样，都是在瞎子摸象，跟在网上看到蛛丝马迹，也没有那么大的区别。所以呢，我一定要跟大家讲清楚，我这个结论呢，是一个拍脑袋的听床结论。

结论就是：Meta未来大概率会成为一地鸡毛。这个是我的结论。因为这种整合呢，失败率实在太高了。越是被人关注，越是着急，失败率就越高。而Meta现在这两条都占了，非常非常着急，号称年底要出东西，这么高调，花这么大钱出去砸，被所有人所关注到。所以呢，他这件事想做成，实在是太难了。

那说了半天，后边的瓜怎么吃？第一个，失败是正常的，大家一定要记住。第二个呢，我们要寻找成功的迹象，这才是异常的。我们要去看看未来能够做成哪些事情，才可以继续去吃这个瓜。Meta呢，现在据说在跟Midjourney谈合作。好矛盾，买下来呢，Meta多模态肯定会起飞。但是呢，如果Meta真的把Midjourney买下来了，更大的可能是Midjourney会被玩坏掉，因为这种整合失败率实在太高了。最终呢，我们要看新的产品发布，有可能年底会看到Llama 5。Llama 4这件事情已经无可挽回了，也不建议在上头再浪费功夫了，所以就直接Llama 5就完事了。如果年底能够出Llama 5，是骡子是马，总要拉出来遛一遛，才能够有结论嘛。

好，这就是今天的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

马斯克重磅发布GROK4：史上最聪明AI大模型横空出世，强化学习碾压GPT-4与Claude，20万张H100显卡大力出奇迹，中美科技差距再度拉大，谁将主导AI未来？

Luke Fan — Tue, 15 Jul 2025 00:42:44 +0000

史上最聪明的AI大模型GROK4诞生了。马斯克亲自坐镇开发布会。视频发布会呢，并不是特别的顺畅。第一个呢，是他晚了一个小时，也没说为什么。反正马斯克的直播经常会晚。然后呢，太多的东西需要集中发布，上下衔接的呢比较仓促一点。

最早期很多的互联网公司开发布会也是这样的，两三个小时七差咔嚓发一大堆东西。后来OpenAI这些公司习惯了在网上开直播以后呢，就慢慢把这风格改了。改成什么呢？就是每次发一个功能，发个十分钟二十分钟就完事了。然后呢，不停的发，每个月发每个月发。Xai呢，现在还没有彻底学会这件事情，还是一股脑给大家扔了一大堆东西出来。

我们以前在面对创业者的时候，每次都会苦口婆心的去做一种劝告。大家可能不知道会劝什么。作为投资人来说，我们每次看到任何一个创业者，都会上去劝一件事，叫不要憋大招。你一次要惦记着做一个大的东西，就很容易失败。你应该是做一些小的东西，一点一点放出来。OXAI现在还是憋了一个大招。当然了，XAI后面呢，也会每个月发布一个新的工具出来，它也慢慢的向这样的一个方向去前进。

8月份呢会发编程，9月份呢会发多模态。虽然现在的GROK4呢，也号称是可以出图吧，但我不确定他是可以做图片理解的，做视频理解。但是呢，他这一块应该还不是很满意，9月份应该再会去做发布。10月份呢会发视频。GROK4的模型要直接做视频生成。一个百无禁忌的模型，能够做视频生成，还是挺值得期待的一个事情。

到年底呢，准备发企业功能包。这是个什么东西？GROK4是允许私有化部署的。你可以向他申请说，我家里有这个云，我们企业要用这个东西，给我部署到这边来。GROK4还会有合规工具包，企业级的技术支持。美国区的Oracle云账号，现在已经可以使用Grok 3了。Grok 4还需要等。Oracle云并不是XAI自己家的云，你可以在上面使用Grok 3。

一些测试呢，其实也并不是特别成功。比如说命令它唱歌，结果呢，这个东西没有唱歌，他做了一个诗朗诵。当然了，不论是唱歌还是诗朗诵，对于一个机器发声TTS的一个功能来说，已经是很强大了。既然敢在上面当着马斯克的面要求他唱歌的话，那说明这个东西是会唱歌的，只是当场没唱出来而已。

那么GROK4到底是一个什么样的模型呢？妥妥的叫别人家的孩子。什么叫别人家的孩子？就是你看邻居家的小明，怎么考的这么好，每天上课都多么专心，经常被老师夸奖。

GROK4呢，属于典型的理工男模型。GROK从三开始，一直是有一个很双面性的东西：一方面是理工男，另外一方面呢，比较百无禁忌。GROK3有一些比较奇葩的用法，待会咱们再去讲。GROK4我估计会继承这些使用方法，而且会变得更加厉害一些。

但是，马斯克作为一个理工直男，跟一帮工程师坐在那发布GROK4，肯定是奔着理工男的这个方式去发布的。所以，其他那个用法他就没怎么讲。所有跟做题相关的数据都被刷了。而且，这一次是遥遥领先。前面呢，Gemini 2.5、GPT O3 O4、Claude 4这些呢，他们在刷这些题、刷这些排行榜的时候也会有提升，但是提升的不会那么高，经常是这个我高一点，那个你低一点。

但这一次的话，GROK4完全属于是断层式的碾压，一下比别人高了非常一大块。特别是大家提到的，有一个叫“人类终极测试”的竞赛。上一个冠军呢是Gemini 2.5，正确率呢是21%。GROK4，不使用任何工具，就闭卷考试26.9%的正确率；使用工具就是41.0%的正确率。如果使用叫Grok Heavy，一个超重的模型，它是一堆的GROK一起来干活，干完了以后自己相互吵架，吵出一个结果来，它可以达到58.3%的正确率。

所有人都在讲说“人类终极测试”，什么是“人类终极测试”？它呢是一套测试题库，2,500道题。发起人是谁呢？有一个叫Center of AI Safety（CAIS，AI安全中心）这样的一个机构为主导构思与学术把关的。那么，谁出钱呢？谁做工程技术实施的呢？叫Scale AI，就是刚被美塔投了一大笔钱进去的，那个华人小伙子创业那项目，140多亿美金刚投完资的那个项目。他来去提供的数据工程和资金支持。

做这种题库并不是那么贵，花不了太多钱。启动呢，是2024年9月16号，公开全球征题，标榜找出AI也答不出来的难题。花了多少钱呢？给了50万美金的奖金池。Scale AI给的钱，最高呢5,000美金一个题，奖励前50名作者——就是你出的题特别好，5,000美金一个题。第二梯队呢是500美金一个题。后边呢就是100美金每个错误——我把题上来了，大家来找错误。

现在这个题库呢是在GitHub上，在Hugging Face上都有，大家可以上去找错误。找到了错误，给它修正了，可以得到100美金。所以呢，它整个的运作方式就是50万美金一个奖金池，咱不停的发。到现在为止呢，依然在不断的更新这些题库。

这个题库呢是公开征集的2,500道题，41%的数学题，14%的多模态的题。另外呢，还保留了私有隐藏集防止过拟合。过拟合什么意思？就是说我刷题呗，除了这个题之外的东西都不会吗？前面这个Llama4就是死在这个过拟合上了，题刷的特别好，结果发现不是这个题库的题不会做了。

他怎么来预防这个过拟合呢？就是有300道题是隐藏的，任何人去刷这个题库，你看不到这300道题。用AI大模型去做这个题的时候呢，它就会把这300道题拿出来，这个模型就始终会遇到新题，遇到没有做过的题。

整个的这个运作方式呢，第一个是叫众包的征题，大家都来出题。第二个呢是做前沿模型的筛选，就是用当下最强的大模型（GPT4O，Gemini2.5，Claude 3.5）这些题呢进行模拟考试。当这些模型的得分不比随机猜好的时候，这个题目才会被保留下来，进入人类最初考题的这个题库。比如说咱们原来都讲a b c d考试嘛，咱们全填a得25分，如果这个这些大模型做的分没有超过25分，我们就把这题留下来，超过了我们就这题不要了。它是这样来出这个题的。

出完这些题之后呢，再进行两轮的人类专家复核，在Git Hub和Hagging face上面去公布，让大家去找错误版本。定版以后保留私有级并记录版本哈希，他是这样来工作的。

你说人到底能做成什么样人类最终考题？人呢目前为止，没有一个公开可验证的成绩。有人试过，据说是需要耗费极长的时间去做，但是也没有人呢去真正公开说我到底得了多少分。所以马斯克这次说，他的大模型可以做到50多分了，说应该已经超过了绝大部分的人类，我觉得这个事情是可以这么认为的。

马斯克认为呢这一次他发的GROK4就是有史以来最聪明的大模型了。当然了，马斯克这个嘴呢，大家就听就好了，因为GROK3发布的时候他也这么说的。而且马斯克讲了说他的GROK4已经达到了全科目博士水平了。

那么GROK4到底有什么不一样的地方呢？它是第一款预训练和强化学习相对比较平衡的大模型。什么意思呢？正常我们去做一个大模型是做预训练嘛，做一个模型出来。做完这个以后呢会去做强化学习。所谓强化学习呢，就是状态动作和奖励，在某一个状态下，我要求你去做一个什么动作，如果做对了我给你奖励，做错了就没有奖励。这个大模型自己按照积累更多奖励的方式进行训练。像我们比较熟悉的比如Deepseek R1推理模型也是如此。

就是他先去做一个基准模型，叫Deepseek R1 Zero。然后呢，在这个模型的基础上去做推理的强化训练，得到了Deepseek R1。

但是，以前传统的模型是怎么做呢？就是先消耗巨大量的算力和数据进行预训练，把这个Zero（0）模型做出来。然后呢，再用远小于预训练成本的算力去进行强化学习。一般呢，它的强化学习的成本大概也就是预训练的10%到20%左右。

然而，GROK4呢，它是预训练跟强化学习所耗费的成本与算力基本相等，两边一样多。所以它是有史以来第一次用这么多算力去做强化学习的模型。当然，你像Deepseek，它想干它也干不了，20万块显卡它没有。

GROK4呢，首先是使用GROK3的一部分权重，就是有些层次的权重它就直接用了。然后补充数据之后进行预训练，得到了一个叫GROK4 base的基础模型。接着，投入空前的算力进行强化学习，投入了20万张算力卡直接进行强化训练，按照奖励最大化、长程回报的方式。

什么叫长程回报呢？就是你要做很长的推理，要积累正确的奖励，让这样的一个算法去进行训练。而且呢，是动态的任务池，包括数学推导、代码单元测试、商业模式和人类最终题库，这些高级的环境都要进去进行强化训练。

XAI呢，直播的时候讲到说，模型越聪明，强化训练的任务呢就越少，需要自己动态地去做题，否则你就没有那么多题可做了嘛。智能体在模拟环境下或者是真实的API工具中试错、自我对弈。因为有一个叫做Grok heavy的模型，就是一堆的Grok的模型自己跟自己之间吵来吵去的，最后看看怎么能够提高训练效果。

在训练期，让代理互相评论；推理时，并行生成交叉式复审核成答案，再去进行这样的学习。所以它的这个算力是非常浪费，但是效果很好。而且呢，它会监控成功率，当大于80%的时候，会自动生成更难的对手、更长的推理链，解决奖励稀疏的问题。

就跟原来说小学生：“哎呀，我今天考了95。”一回到家里以后，父母肯定说：“你为啥不考100呢？前面还有人没有？”都是这样来训练出来的，就不断地PUA，这个产品就出来了。

它的强化训练计算量达到了同类产品的10倍以上。GROK4的强化训练连续跑了7周，每天消耗的电力相当于一座中等城市。所以说，AI的竞争最后是电力竞争。结束了以后，他再把多代理策略的这些东西进行蒸馏，形成一个单代理的版本。

所以呢，我们平时去使用的公开的API调用的Grok，不是heavy的那个。

就是蒸馏后的这个单代理模式。而且除了强化学习之外，还有一个很重要的东西是什么呢？就是原生的工具支持，这个也是非常厉害的。因为现在的大模型都是可以调用工具的，调用方法也很简单，就是你在给它提示词的时候，把工具的描述描述进去。说我这有一个扳子，那有一个锤子，这里还有一个电焊，有一大堆这样的工具。你先把这些东西都介绍给这个大模型，然后呢，大模型再根据说你的提示词进行推理，在推理的过程中来决定调哪个工具。这个东西其实是需要训练的，有些工具你会使，有些工具不会使，或者有些工具你根据这些描述应该如何去使用，它是需要训练的。所以Grok专门在这块进行了训练，它的这个原生工具的知识要比其他的模型要好。所以呢，它叫高度动态的工具知识。

GROK4的工具体系不仅仅局限于文本生成，它能够根据任务需求动态调用外部的API、计算工具、模拟器等等，使得它能够处理更复杂的任务，例如实时推理和决策优化。而且呢，它是多智能体合作，因为这个东西一开始它就是相互之间吵架吵出来的嘛。不同于大多数模型，GROK4的原生支持多智能体的这种合作方面的创新。以前都是以智能体为核心，我们再去调别的工具就完了，但是GROK4支持智能体之间调用的，就可以使得模型能够在推理过程中模拟复杂的多角色互动场景。这在处理开放式任务、模拟环境和长期计划时非常重要，这个是它的一个创新。

然后呢，多模态的知识。Grok对于图片、音频等非文本数据是内建支持的，使得它在处理涉及视觉、声音以及其他感知数据的复杂任务的时候，能够更加高效的融合多种信息源，优化推理能力。通过强化学习和专家模式的结合，GROK4能够在大规模任务中实现更高效的推理，尤其是在与外部工具和数据库交互过程中，提升了准确性和可扩展性。这个就是GROK4真正强的地方。第一个是用了空前的算力去做强化学习训练，另外一个跟大家强调的就是对于工具的这种原生支持。

讲的这么热闹，这个使用起来到底怎么样呢？第一个，我自己的账号是8美元的x账号，这个不让用，只能用GROK3。GROK.com上也只能用GROK3，不让我用GROK4，必须要升级30美金一个月的super Grok账号才可以去用GROK4。你要想去用那个Grok heavy，就是那个特别重的那种相互吵架的这个大模型，一个月300美金，稍微有一点点小贵。那你说我讲了半天我用没用过？用过了，通过API调用。

现在呢，我们可以通过x.AI的网站去调用GROK4的这个API。它上头有一个模型叫GROK4-0709，就是7月9号这一天发布的这个版本。当然，比较遗憾的是什么呢？现在GROK的这个API调用所有的优惠都停止了，只能老老实实地烧TOKEN。也不是很贵吧，去年呢，是每个月送25美金，基本上是够使了。今年是5月份之前呢，同意共享数据充值5美金送150美金，这个也是一个比较不错的优惠吧。但是5月份以后这个优惠就停止了，所以现在就老老实实烧就行了。它呢，是3美金100万TOKEN的输入，15美金100万TOKEN的输出，所以它的整个价格不贵。上下文呢是256k，支持推理，支持多模态输入。

现在呢，它有一个调用限制，每分钟可以调用60次，超过了以后呢它就会卡住你，这个是有问题的。所以，我确实去用去了。使用的感受怎么样呢？这个就当我们跟博士在一起工作的时候，会自惭形秽吗？我相信可能在我听我节目的人里头，有一些人是博士。你跟博士一块去聊天，一块去干活的时候，真的觉得他们特别伟大光荣正确吗？其实也没有。博士有时候未必懂得人情世故，未必好打交道。我个人的感受呢也是如此，并没有感觉比ChatGPT或者Claude好更多。有时候呢也犯一些比较低级的错误，质量，指令的依存度并不是很好。

我做了几个测试吧，比如说我要求的他先去做搜索，根据搜索一些信息去给我做总结。出来的结果呢，会混杂html的标记在里头。因为你搜索的结果是带html标记，语言那些标记的嘛，出来了以后就会带这个。我在提示词里写着说不要带html标记，把相关的标记转成Markdown，发现依然是带着这些标记就出来了。所以呢至少到目前这个版本吧，效果还没有那么好。但是他们应该内部还在迭代吧，可能很快就会改过来吧。

在处理日常工作这方面呢，他的能力与科研能力之间其实并没有直接的联系。就是大部分人其实都可以处理日常工作，但是很少有些人可以去做这个科研。而GROK4主要提升的是科研能力，所以前面我们讲所有跟数学相关的，跟这个推理相关的遥遥领先。但是处理日常工作这块呢，基本上也就这样了。一个理工直男博士，往往是笨嘴拙舌，缺乏生活常识，以及指令依存性不是很高的一个人，符合我们对博士的这种刻板印象吧，或者也属于在情理之中的一个事情。

所以现在日常工作处理方面呢，到底考核什么？第一个是工具能力，第二个是指令依存度。

第三个是一些对齐的能力。这块其实现在GPT、Gemini、Claude、Grok、Deepseek基本上都能使用，没有特别大的差异。

输出质量呢，在不同的领域各有差异。GPT相对来说是比较均衡的；Gemini呢，有点像理工男；Claude的输出让人觉得比较舒服，但要稍微油滑一点；Grok呢，有的时候给你黑色幽默一下；Deepseek喜欢瞎编。

稍微勉强达标的是谁？就是千问跟豆包，叫勉强达标，稍微要比上面那个梯队差那么一点点。我呢，还没想到具体要用Grok4做点什么高大上的事情，因为对于普通人来说，你也想不出什么高大上的事情让他干去，所以这个先使得吧，价格也不是很贵。

再往后一个问题是什么呢？说好的开源哪去了？马斯克原来讲的Grok是要开源的呀。Grok1现在其实已经开源了，在Grok2发布的时候就开源了。但是呢，也仅仅是开源了而已。正常你开源一个项目，你是要文档、要社区、要维护的。但Grok1开源了以后呢，是一种非常不友好的开源。它那个模型很大，一般人你也部署不了，所以它也没有跟别人去做各种兼容性的适配。有些人去提问题、提意见，他也不理人家，就往这一放就完了。这种开源代码，属于是比较低质量的开源项目吧。

马斯克呢，曾经承诺过，新的模型出来，就一定会把上一个版本开源出去。Grok3发布的时候呢，大家就在等Grok2的开源，当时也承诺了，等Grok3稳定下来，就把Grok2开源掉。现在Grok4都出来了，Grok2跟Grok3就都没有开源的动静了。整个的发布会上，也没有再提开源的事了。对于马斯克来说，贵人多忘事，直接忘掉了吧。

Grok以后会提供企业私有部署的服务，这个呢，其他三家还是不一样的。像Gemini、GPT、Anthropic，他们应该都不会去提供这种企业部署的。以后未来是否会开源呢，还要看未来的策略。其实开源对于他们以后去争取企业私有部署的订单是有好处的。实际上他所谓的开源，也叫开放权重，并不是开放源代码。开源是一个很消耗人力的松耦合和协作方式，马斯克他们XAI现在人也不是很多嘛，所以现在一时半会顾不上。

也没准到年底的时候又想起来说，我们再开个源啥的，大家可以再继续等待一下。马斯克现在呢，应该也没太考虑到XAI到底能不能挣到钱的问题，反正他现在不停地往里募资，不停地融资，融的钱也够他花的，因为他人不多嘛。

也不需要跟别人去抢人，主要花的钱都是烧算力去了。买显卡、烧电费，就干这玩意去了。

再往后呢，咱们看一下大模型的意识形态问题。因为Grok呢，是一个比较奇怪的大模型。咱们要知道，最一板一眼的大模型，或者说道德感最高的大模型是Gemini。GPT呢，原来道德感也很高。最近的一段时间，特别是Deepseek R1出来以后，这段时间呢，GPT实际上是把道德感降低了一些。最没有道德感的实际上就是Grok。

Grok呢，最近还出了一个特别神奇的事情，叫做“日本烟花事件”。怎么出的事呢？就是做了一次黑色幽默。应该在7月5日，有人放了一个特别漂亮、特别大的一个烟花的照片，就在那说：“这是日本最大的烟花了。”另外一个人呢，回复说：“应该还有更大的吧？”这个时候呢，就有人去问Grok了，就@Grok在Twitter里头，在X里边问他：“什么时候日本有过更大的烟花？”

Grok就回答了：“日本广岛跟长崎被丢原子弹那两次，是更大的烟花。”日本人肯定不乐意了嘛，说Grok太不照顾我们的民族感情了。Grok呢，还在那嘴硬说：“这是一个黑色幽默。如果你感觉不舒服的话，我道歉一下。但呢，这就是一个历史事实，我也没有编什么。”

日本网友就说了：“说两颗原子弹呢，杀死了很多的无辜民众，这个才是事实。”Grok的回复特别逗，他说：“南京大屠杀这个才是历史事实，有很多的无辜民众被杀了。”然后日本网友说：“南京大屠杀这事是个谣传，没有南京大屠杀，凭什么说这是历史事实呢？”Grok又去回去了：“有各种笔记、照片，还有审判的一些记录，都已经证明了。虽然死亡人数上有争议，但是南京大屠杀是被普遍认可的历史事实。”

就是这样的一个故事，让日本网友稍微有点小破防。日本人现在正在想说：“我们是不是要去抵制一下特斯拉呢？”这事是7月5号发生的。7月10号早晨，XAI把Grok相关的评论都删了，准备开发布会了。发布会之前，不能有这种不和谐的声音在这里。

Grok干类似这种有争议的事情，其实也不是一回两回了。他经常做这种黑色幽默，得罪一些人。但很正常吧，黑色幽默通常是有一些冒犯的，不能保证所有人看着都很开心。你要如果所有人看着都很开心，那就不叫黑色幽默了，那玩意叫“伟大光荣正确”的。

Grok呢，曾经出现过意识形态投毒的事件。2025年5月14号，Grok对于用户无关提问，比如棒球、HBO更名等等这些事情进行回复的时候呢，反复提及南非白人种族屠杀和“kill the boy”，应该是BORER吧。

这样的一个歌反复在提这个。这一行为呢，引发了广泛的关注。因为白人种族屠杀是一种极具争议的极右翼阴谋论，已被南非法院和多个权威机构驳斥为缺乏证据了。

Grok甚至在某些回复中称，这是被Xai的创造者所指示的，将这一个问题视为事实、种族动机驱动的一个事件。这是Grok承认的事情，因为马斯克自己始终坚信南非是存在针对白人的种族屠杀的。因为他是老板嘛，所以就有人把这个东西直接写在系统提示词里头，直接投毒投到x上去了。大家在x上发帖的时候，如果你@grok，他有时候会回来回帖的。

这一次日本的烟花的事件呢，也有人指出了为什么他就这么去怼日本人，而且会去提到南京大屠杀呢？有人说XAI团队里的中国人占比太高了，特别是在中国大陆出生、接受基础教育的人，占比是最高的，基本上大概占一小半。到目前为止没有一个明确的确认说有谁日本人在里头。在这里头大概就是中国人、俄罗斯人加上一些东欧的人，是这样的一个团队组成的XAI。

甚至现在有人认为呢，XAI是一个被中国有意识制造的特洛伊木马，派了大量的研究者进去。其实这个事儿不光是XAI，美国所有AI公司里头大概都有一半，没准还有一多半是中国人。而且这些人是在国内接受过初等教育的一些人，占比是非常非常高的。

那么新的态势是什么样的呢？现在Grok的市场地位呢，首先它的市值是第二。最高的呢是OpenAI，3,000多亿美金；1,000多亿美金的Grok是第二。所以它的市值要比Anthropic高很多。其他的大厂，谷歌你没法跟它比，那玩意是上万亿美金的公司。所有的AI的这种新公司里它的市值第二，但是市场占有率呢并不大。

市场占有率最高的肯定是OpenAI，大概占百分之三四十的份额；Gemini是第二，应该有个20%多；Anthropic的Claude有十几；剩下的大概还有30%左右呢，包括Grok，包括LLAMA、千问、Deepseek，都在这个其他里头。

Grok的APP不算x那部分，就是APP自己的日活应该也是有个几百万吧，月活可能几千万的一个样子，就是数量还可以。在一些特定的领域里头呢，被应用的很好。Grok你是可以通过API直接调用x数据的，不是具体说我要看张三的哪一条或者李四的哪一条，不是这样的。而是什么呢？你可以看趋势数据，说最近x上有什么新趋势，你可以直接通过API直接调用它，这个还是很方便的。另外呢，顾忌比较少嘛。

所以，很多人在用Grok写小说。还有呢，因为Grok的顾忌相对来说比较少，所以它有一个比较特殊的用途。刚才咱没讲，就是有一堆人在去研究越狱提示词，让Grok去写黄色小说。大部分的色情小说，其实是Grok写出来的。

按道理来讲呢，应该有人用Grok做工程、技术方面的工作。但是这个可能离我的生活稍微有一点点距离，所以我并不是特别了解。这个应该也是马斯克他们去训练Grok最主要的一个用途。他们不可能说我训练了一个东西出来，可以怼人、可以讲黑色笑话，还可以写黄色小说。马斯克应该也没那么闲吧，人家还惦记去火星呢。

另外一个我们要发现的势头变化是什么呢？就是通过GROK4的发布，美国再次拉开了跟中国之间的差距。把GROK4发布了以后，中美之间的大模型差距就重新拉开了。在科研、工程技术领域，绝对的遥遥领先了。我呢，没有验证过，希望后边不要翻车。因为有些东西我们这讲的很热闹，没准过两天翻车，这个可能性我们不希望看到。

而且这种大力出奇迹的领先，中国因为缺少算力卡，追赶起来是比较费劲的。它是20万块英伟达H100去做的强化学习，中国你凑不出20万块H100了。你要想拿其他的卡去做这件事情的话，你需要比如说200万块，或者更多的一个卡池，才有可能能够达到同样的效果。你要耗可能比马斯克多10倍的电，才有可能达到这样的效果。这个的话还是要看大家是不是有决心了。国内这些大模型公司一般烧不起这个。

如果说咱们想追上这一个事的话，估计要等10月份，川建国同志带着黄仁勋访华了。如果10月份它成行，带着黄仁勋来了，那没准咱还是可以追赶的。否则的话这事费劲。而且这种领先是全方位的领先，因为这是科研速度的全方位的领先。在各个方面的科学研究，Grok都有极大的提速。可能对于中美科技之间，会有一些新的改变吧。

新的方向已经指明了，有卡的公司们那就准备冲了。因为他这件事呢，说的并没有那么复杂。原来大家都是说我们做完预训练，做完这种Zero模型或者base模型，稍微的做一些强化学习就完事了。现在说，我们把这强化学习一直做下去，就可以有非常非常好的效果。那大家干呗。

OpenAI、谷歌、梅塔，这都是手里有卡的人。而且现在梅塔在挖OpenAI的人，前面掉队了。我们有卡，我们要把它干起来。OpenAI现在也在挖人，OpenAI在挖XAI的人，就是在挖Grok的人。因为你把20万块卡堆在一块去干活，让他们之间能够很好的调度。

这个事它也是个学问。既然Xai你已经把事搞明白了，那Openai说来，我花钱挖你的人就完事了。既然GROK4可以靠20万块算力卡做强化学习，直接把成绩拉上去，其他公司肯定是不甘落后的。这个是中国相对来说比较难追赶的一个事情吧。

华为呢，应该学英伟达，自己就别训练自己的模型了，好好搞你的升腾芯片拉倒了。搞了半天的这个盘古大模型，还不够丢人现眼的。

最后呢，总结一下GROK4的发布呢，其实让我想起了一个东西，就是《三体》这个小说里边讲的黑暗森林法则。为什么想起这个呢？黑暗森林里头其实它是四个法则：

第一个是宇宙资源有限，文明生存优先。

第二个叫猜疑链，就是：我怎么向你证明我是好人？我怎么知道你是好人？我怎么相信说你知道我是好人以后会很好的对待我？猜疑链不断延长呢，就容易去打起来。

第三个是什么？就是技术隐藏与技术爆炸。《三体》里讲黑暗森林法则的时候，看到任何人，哪怕他的技术比你差很远，都要一枪打过去，然后把他干掉。因为呢，距离很远，你不知道什么时候能到那，没准你到那的时候，人家技术大爆炸，一下就比你先进了，可能是反过头来就把你干掉了。这是这个黑暗森林法则的前三个要素。

第四个要素就是沉默是生存的策略，就是大家谁也别吱声，在里头藏好。

那GROK4呢，就是一个技术爆炸的冲锋号。因为他一旦上来以后，所有的理工科或者是工程技术方面的科技方面的，就可以大爆发了。美国这些油卡的公司会继续加大算力做强化学习，会快速赶上。中国，追赶也是必须的，我们再难还是得赶。毕竟美国公司里边还有这么多的中国人，比这个任何族裔的人的比例都高。

卡呢，咱们确认肯定不多了，那看怎么去新加坡，怎么去中东土豪那边去，把这些卡再重新聚集起来。或者说咱们把这个升腾的卡看看，拼吧拼吧能不能干点什么事出来。

GROK4应该是会对整个的AI制程行业带来改变的一个大模型，就像咱们年初的Deepseek R1一样。Deepseek R1出来之前，整个大模型圈子里头都是岁月静好了，OpenAI都开始挤牙膏了。Deepseek一出来以后，中国人来了赶快卷呐，甚至有一段时间他们都觉得哎呀，中国已经追上来了。但是到GROK4开始发现，哎，这个距离又拉开了。而且真的是有一样他们可以卡脖子的东西，咱们没有。他有他的训练，完完全全就是靠这20万块卡，咱们搞不定这个事情。他有，直接搞定了。而且这个东西不仅仅是Grok的领先，而是全方位的。

科技与科研的这种领先，所以这一块的话，可能世界格局都会带来一些小小的变化吧。后边我们还有很多的故事可以去讲吧。好，这就是我们今天要讲的GROK4发布的故事。

Manus不是第一个，也不会是最后一个！从爆火到出走新加坡，看泛AI Agent赛道如何被国内大厂免费模式玩坏，中国AI创业公司在资本与地缘政治夹缝中求生的辛酸启示。

Luke Fan — Fri, 11 Jul 2025 00:43:09 +0000

曾经一码难求的Manus宣布跑路新加坡了。

大家好，欢迎收听老范讲故事的YouTube频道。中国AI产业在7月9号呢，应该经历了资本侵袭之日。为什么这么讲？第一个，稚晖君创建的智源科技跑去买壳上市去了，机器人还没造出来呢，先去收购了一个上市公司60%多的股份。这个要干什么，大家心里都明白。

另外一个就是Manus，算是在Deepseek之后，又炒起了中国AI热潮的一个品牌。他们当时是做泛AI agent，就是说可以解决各种各样问题的AI agent，突然宣布在国内裁员，直接关闭，然后搬迁到新加坡。事情没做多少，这个资本的吃相有点太难看了。

Manus到底怎么个跑法呢？原来团队也不大，120人的团队，留下三四十个核心技术人员迁往新加坡，剩下的原地解散了。给2N或者是n加3，估计有些人来的时间实在是太短给n加3，来的时间稍微长一点的可以给2N。反正手里有钱嘛，刚拿了7,500万美金的融资，也不在乎这一点，直接遣散了就完事了。

然后准备在新加坡设立新总部，在新加坡要设立研发中心，招聘AI工程师、数据科学家等职位，月薪高达8,000-16,000美金。不是人民币，是美金，因为这也没办法。你在新加坡没有这个薪水的话，你活不下去，那个地方生活成本很高的。然后准备在新加坡、东京、硅谷重新设立总部，重新开始。

Manus的爆火到底算不算是个意外呢？当时Manus突然火起来的时候，很多人就觉得这玩意有啥？你这个模型也不是自己家的，里头用的各种技术也不是最新的，你咋就火了呢？这是不是一个德不配位的项目呢？

Manus呢，是第一个能够完成各种炫酷工作的泛AI人工智能。原来呢，也有一些AI agent可以完成一部分工作，但是呢，能够完成各种工作的呢，Manus算头一个，而且它完成的很炫酷。注意，炫酷这两个字是非常重要的。

以前有很多开源项目说，你看我也能干，但是呢，他们做的方式相对来说比较工程师一点吧，或者比较实验室一点。你需要在字符界面，在一大堆代码在里头敲了半天，写了半天以后，给你出一个半半拉拉的结果。

Manus呢，第一次把它封装在一个界面和交互相当不错的产品里头，还录好了视频。这个说明什么呢？就是技术其实在AI时代不是第一生产力。在AI时代里头，最重要的第一生产力是什么？是拍视频跟讲故事的能力。我们现在看看OpenAI，那绝对是拍视频跟讲故事的大师。

Figure AI机器人。

这个也属于是拍视频跟讲故事的一把好手。咱再看看马斯克，那玩意儿全世界第一大网红，他这拍视频讲故事的能力也是没有边了。所以在AI时代，还是要好好的拍视频讲故事。

真正说我视频拍的一般，故事讲的不怎么样，产品做的特别好的，Anthropic算是一个。这个Manus属于是视频拍的很好，故事讲得很圆的一个项目。技术呢，你说真的有多先进？还真没有多先进。他用的是Anthropic的Claude大模型，连当时正在快速发展的MCP都没用上，自己就是把一些需求捆在一起。但是他的整个交互做的挺好，视频绝对很酷，产品设计和体验也还做的不错。算是呢，解决了一些问题，而且呢，给大家带来了新的思路。

这样的情况下，他突然就爆火了。但是爆火之后后边的发展呢，其实并不尽如人意。OpenAI这样的爆火了以后，不断的往前发展，不断的引领潮流，开创了新渠道嘛，然后一直站在这个渠道，带着大家一起往前走，一起探索新方向。大家都是有这样预期给它的。

但是Manus后边并没有那么好用。第一个呢，尝试在国内落地失败了。它本来是用的Anthropic的Claude大模型，你要想在国内落地，这事肯定不行嘛。因为这个规定了，你是不可以在国内使用了。包括像OpenAI的ChatGPT，谷歌的JGemini，这些都是不允许在国内使用的。所以呢，他们挑来挑去，挑中了通义千问的这个模型，说我们试一下，用千问模型能不能在国内落地。然后就没有然后了，估计效果很不好。

因为千问模型我们试过，就是它的指令依存度是比较差的。特别是当时的千问2.5，千问3呢还要更好一些。因为像你要做这么复杂的AI agent，你就需要是很多个AI大模型的运作过程前后相衔接。这个里头你到底说成什么样，说我才华横溢还是磕磕绊绊，这不重要。重要的是什么？就是你指令的依存度。我前面要求你向东，你就不能向西；我要求你撵狗，你就不能打鸡。但是在这块，千问其实做的不好。

Manus如果继续想向前发展的话，他必须要解决Claude、ChatGPT这些美国大模型的合法使用问题。这个问题对于他来说是无解的，因为模型不是他自己的。很多其他的厂商，你像Mini Max也开始做AI agent，那模型是他自己的，他就可以分好说，这个是国际版，那个是国内版，我们自己拆开来用就完事了。但是，Manus他没有这个能力。

而且呢，Manus在国内被一群的大厂去围殴。这种东西你在美国呢……

人家还没有这么多的工程师，这么多的研发力量聚集起来说：“有方向了，我们要出来围殴你一下。”还不会干这个事。

而且，就算你在美国，真的有人把类似的产品做出来，人家还得收费。你在收费的情况下，大家还可以拼一下：谁愿意亏更多的钱？谁愿意给更多的补贴和优惠的问题。但是国内大厂不跟你讲这个，我都免费，产品都差不太多。

国内阿里自己就做了类似这样的产品，也投资了类似这样的产品。字节跳动自己做了Coze空间，而且现在的豆包也支持深度研究了。百度也出了类似这样的产品，这都是大厂吧？直接上来围殴你，都是免费的。

Minimax、Kimi、智谱也都出了这种泛AI Agent，也在进行相应的尝试，而且都是不要钱的。那你怎么跟他打？包括像360的周鸿祎都开始表演了，说：“我们也开始做这种泛AI Agent，各种问题都可以解决掉。”而且为了开演示会，还说：“我要把市场部都裁掉，我让AI Agent把整个市场部的工作都替代掉，我自己一人搞定。”后来也就没有什么后来了，估计裁撤市场部这件事情，没有那么容易。

再往后，Manus开放注册和开始收费之后的话，数据就不再公布了。什么意思呢？因为前面在排队的时候，号称有260万人进去排队，后边说：“我们不需要排队了，大家来玩吧，我们开始收费了。”这个用户增长估计是废掉了。

如果用户增长依然非常迅猛的话，他会出来说：“我们又有多少人开始排队了，我们又有多少人等着去付费了。”如果他真的收到钱，他也会说：“你看我收了这么这么多钱，我盈利了。”但是后边的数据就没有了。

曾经有一个数据，号称是说他们的付费转化率有60%。但是这种数数呢，就是你看着一下就行了。ChatGPT自己也做不到付费转化率60%这样的事情。这个就属于是骗一些不是特别有经验的人吧？这是不可能的。任何行业付费转化率都不可能这么高。

因为这种泛AI Agent的收费模式其实是很难平衡的。为啥？因为它消耗的TOKEN特别多。每一次他提出要求以后，你就要消耗大量的TOKEN去干活。你还别说是这种泛AI Agent，我曾经把自己的一些AI大模型的账号挂到过编程的AI Agent里头去，这还是一个相对来说比较固定的垂类的AI Agent。那一会你问问几个问题，几美金就不见了，这个非常非常贵的。

而且，AI Agent产生的结果呢，是不可预估的。你最后不能说要抽卡吧？抽卡的意思就是你出多次的结果，然后挑一个可以用的。

这个是在AI绘图里边常用的一个新的名词。但是，AI agent出来的这些结果，可用的绝对不会超过一半。绝大部分的这个AI agent的结果都是不可用的。在这样的情况下，你让人去付费，甭管是十几美金、二十几美金，还是三十几美金。一方面，消耗的TOKEN这个钱数根本就cover不住；另外一方面，人家付了钱了，出来的结果基本上不可用，那就属于里外不是人的一个状态了。

这些大模型厂商自己搞AI agent，它还可以干嘛？左手倒右手，我只要在里边做这个账就完了。但是你像Manus这种第三方，你收了这些订阅费以后，你就老老实实的去给人按TOKEN付钱去。这个基本上是无解的。免费很香的东西，收费了以后立马就不香了。

现在关于Manus在国内的很多风评，其实没有那么好。一堆人说，怎么这么贵？当然，只要收费，就一定会有人嫌贵。吃不到葡萄说葡萄是酸的嘛。你像我收199，说大家来做个线下活动，一帮人说，老范你怎么可以割韭菜？永远有这样的声音，这个是没有办法。另外一方面，就是付了钱以后没有得到想要的结果。因为泛AI助理呢，本身你想获得想要的结果，就非常非常难。

拍视频没毛病，拍个视频给大家演示一下，这个事你是可以做的非常非常好的。因为都是摆拍嘛，你这一次没拍好再拍一次嘛。这些数据进去了以后效果不好，再来一批嘛。但是你真的实际使用的时候，所有的挫折和失败，就需要用户自己承担了。那这些人会去骂街的。人家希望付了钱以后一次搞定，你付了钱以后让我反复在这试，那这个肯定是不行的嘛。

为什么说资本是丑恶的呢？资本的丑恶嘴脸在哪呢？这个Manus拿了钱了，拿了谁的钱？叫benchmark给了7,500万美金，估值5亿美金。还没有到独角兽，10亿美金才独角兽呢，距离独角兽还差一半。7,500万美金拿到了，就是他搬离中国大陆去新加坡的一个核心原因。为什么呢？这个是拿钱的一个前提条件。benchmark这个7,500万美金的领投，是美国财政部进行了严格的审查。不搬离中国，搬到新加坡去，你这个投资就不允许落地。

这是为什么呢？美国在2024年10月份签署了行政命令，规定了美国资本对中国AI半导体领域的投资，需要报备和受限。这个命令是在2025年1月生效的。只要是美国资金投了中国项目，就需要去审核。他这个案子就审核了，最后通过的方式就是：这不是一家中国公司，我把中国公司的部分整个关掉，我搬到新加坡去。

而且呢，投资者就明确的要求 Manus 必须迁到新加坡，否则的话你这个审核通不过。而且呢，Manus 搬到新加坡以后，你也可以合规的去使用 OpenAI、Anthropic 这些美国的 AI 大模型了。

Manus 出走的原因，现在已经看得很明白了。不要想什么算力的问题，什么芯片的问题，他自己连大模型都没有，他要那玩意干嘛使？它也不是部署在开源大模型上的，它是部署在人家的 Anthropic 或者是 ChatGPT 这些闭源模型上的。所以它只需要往 Anthropic 或者是 OpenAI 这边去买 TOKEN 就完了，跟算力没啥关系。

Manus 出走的原因第二个，你要合法的使用 Claude 和 ChatGPT。第三个，要合法合规的为海外客户提供定制服务。因为未来的话，你继续去做这种泛 AI 人工智能，其实是有问题的。现在泛 AI agent 的所有服务，其实服务效果都不是特别好。在这样的情况下，只能去给人做定制的垂类的 AI agent。

最重要的一个呢还不是这些，最重要的一个，是避免跟国内这帮卷王继续内耗下去。国内的一众的 AI 真的都是免费的，就算你拿了 7,500 万美金的投资，一个这样的小公司，一百来人的小公司，你想去跟字节卷，还是想去跟百度卷？你卷不过人家的。别看百度现在市值还没有腾讯音乐高呢，但是依然是一个庞然大物。

现在国内的这些 AI agent，它的效果呢也都大差不差的。基本上呢，把国内的 AI agent 或者叫泛 AI agent 这条路给封死了。所以国内谁在说我要去做这个东西，别费劲，没有你任何机会。

那泛 AI 认证的这条路径到底对不对呢？大家都往里冲。前面我们讲了，泛 AI 认的这条路径，到目前为止还是有问题的。他算是一个美好的愿景，大家都希望把它做成，但是目前其实达成的效果都差强人意。

那么泛 AI 的既然解决不了大家实际应用的问题，为什么这么多大厂都进去卷，都免费的给大家提供大量的 TOKEN，让大家去使用呢？原因很简单，泛 AI agent 呢是可以吸引用户的。吸引了用户以后呢，你就可以进行垂直和定制的 AI agent 或者是 AI 应用的开发与销售了，这个是非常重要的。

而且呢，大模型只靠订阅和 TOKEN 是很难实现收支平衡的，必须要提供服务附加值。大模型厂商都在卷泛 AI agent，意思就是说，我再给你提供点别的服务，你再给我多交点钱回来。现在准备在这条路上一直卷到死的，也就是 OpenAI，收 200 美金一个月。

收2,000美金一个月。收2万美金一个月。我把这个东西给你做的非常漂亮。其他人其实也不太敢往这条路上生卷，都是吸引了用户以后，先说我包治百病。你包治百病完了以后，到医院门口的分诊台一看，你这个看个内科吧，你那个看个外科吧。他最后应该是这么来去，把整个的用户需求给消化掉。

那么最后呢，Manus的未来会怎么样呢？在新加坡招人组建团队呢，基本上是个伪命题。当一个人的薪资达到1万多美金的时候，在新加坡这样的一个城市，你想让他踏踏实实的做研发，难度其实是很大的。我有不少的朋友在那边做公司，你真的想让他在当地把研发整个跑起来的话，可能性很小。如果能够在新加坡、日本获得客户的话，估计还是要在大陆重新召集团团队，召集工程师，将项目完成掉。

现在呢，大张旗鼓的把它都裁掉。我现在是新加坡公司了。以后呢，再偷偷摸摸的招募，或者说招完了以后变成外包。这个也方便进行隔离。你到目前为止，字节跳动也没说我把这个研发团队都弄到新加坡去。他整个的研发还是要靠中国大陆。新加坡那边可能做一些运营，管理什么就可以了，或者说摆一些人，稍微给大家演示演示就行了。

要想继续引领潮流，开创新赛道，去新加坡呢，基本上就宣告了他已经放弃了这条路。如果他惦记着说继续引领潮流，说我要继续在泛AI agent这条路上接着跑下去，他就不会去新加坡，他会去美国。去了新加坡就肯定说，我怎么安安稳稳的把拿到手的投资把它消化掉，怎么把这些名声转换成我的客户，怎么变成我的利润和未来的一个发展。他一定是要做成这样的东西。

新加坡呢，当然还可以玩一些歪门邪道的东西。什么东西呢？比如说运营算力中心。我整一个算力中心，在这边做一些运营。比如说让国内的一些团队去使用他的算力，或者说是不是在偷偷的倒腾一点算力卡。这个都是可以在新加坡比较方便做的事情。日本东南亚呢，这种垂直的，定制化的AI agent的需求，其实是可以养活Manus。最后呢，在新加坡上个市，稳定的发展下去，应该也算是一个不错的未来了吧。

总结一下，地缘政治呢，正在割裂AI行业的发展。Manus跑路了。loveart，前面咱们介绍过的这个产品，还有一个叫Jinsmark，一开始就设立在美国。虽然都是中国公司，但是，都是跑到美国去开分公司。最早跑路的其实不是Medos，最早跑路的叫HEYGEN。大家还有没有印象前几年，郭德纲讲英文相声的这种视频，就是这个HEYGEN做的。

他呢，也是拿的benchmark的这个钱，拿了6,000万美金，然后就跑去美国去了。

美元资本呢，现在确实是有尴尬的地方。以前很多项目拿了美元投资以后，可以到美国去上市，滴滴什么这些。你在中国运营，拿了美元资本到美国上市。但是呢，也是滴滴，最后把这条路封死了。

再往后，拿了美元资本的人，就只能到香港去上市，或者说到新加坡、到美国去。这个是没有什么办法的。全世界一多半的AI，各个层级的开发者，其实都是华人，或者都是大陆人，大陆人居多。

美国非要在中间画一条线，那么未来这种神奇的故事就会一次又一次的上演。Manus呢，只是众多跑路的AI项目中的一个，不是第一个，也不会是最后一个。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

ChatGPT桌面应用11月更新：融入编程工具，新功能是否能替代Github Copilot？

老范讲故事 — Wed, 20 Nov 2024 00:51:09 +0000

ChatGPT的桌面应用更新了，直接可以跟应用结合了。这又是什么新方向吗？大家好，欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲11月15号ChatGPT桌面版的一个更新。大家注意，这次更新的不是网站，而是桌面端，就是你要有Windows或者是MacOS才可以使用的这个版本。

在这个里面，MacOS永远是走在Windows前面的，因为MacOS的操作系统其实相对来说要简单一些。为什么呢？因为MacOS的硬件简单，它没有那么多兼容性问题，所以它整个的操作系统，或者说整个的操作系统环境也相对来说要更单一一点点。Windows呢，现在也在跟上，但是Windows的所有功能对于ChatGPT的桌面版来说，都要稍微滞后一些。

现在的Windows上呢，已经有APP了，而且可以上传文件，可以拍照，可以截屏，可以做高级语音，这些都可以干了。MacOS是这些功能早都有了。这一次增加的是什么？这一次增加的叫跟应用相结合。那么跟什么样的应用相结合呢？不是所有应用都可以的哦，主要是跟编程工具一起干活。

Xcode就是苹果自己家的这种编程工具，然后是文字编辑器。很多人写程序是不会看IDE的，IDE叫集成开发环境，他们会直接开一个文字编辑器就干活了。然后是VSCode，这个是最常用的一个IDE，这是微软做的。还有Terminal，Terminal是叫终端，Linux也好，MacOS也好，有大量的操作是在终端里边干的，所以呢，你也可以跟终端直接结合。还有一个比较高级一点的终端程序叫ITerm2，也是支持了。

现在呢，就是支持这5个应用，其他都不支持。那这是不是要去抄Github Copilot的后路去了？那是不是有没有必要去花一个月10美金去订这个Github Copilot呢？我赶快去测试了一下，首先测试第一步，检查梯子，因为呢，我们的网站上去其实还是比较容易的。

但是呢，你使用他的桌面客户端，有的时候还需要对梯子做一些特殊的设置。如果你自己没有这个问题，这块可以越过。再往后呢，就是更新你的桌面客户端，就是ChatGPT在MacOS上的这个应用。当然，这个很神奇，他这个更新居然是手动的，这要稍微吐槽一下。为什么呢？因为我们以前做APP的时候，有一个重要的指标，就是当你每一次新版本出来以后，用户是不是都更新了。因为你的新版本更新经常是要换这个广告商。如果用户不跟着更新的话，一旦更新了以后，你就没法挣钱了。你的广告商换了以后，用户没跟着更新，这事是不行的。可能前面那个广告商的广告服务协议已经到期了，你必须要更新，这个事是一个很重要的指标。

但是呢，ChatGPT是要手动更新的，它不会说一启动了以后，哎呀，我发现有新版本了，咱们更新一下吧。反正这个他没提醒我，我是手动更新了一下。更新了以后呢，需要去点设置，设置是在这个应用的左下角，有一个人脑袋的地方。点一下，然后要允许使用应用，他那个名字是这样的一个名字，叫“允许使用应用”。我显示的都是中文，因为我已经把我的ChatGPT的桌面版换成中文的了。

然后呢，就是去授权。对于一个要去操控你电脑的程序来说，所有操作系统都是会有严格管理的，因为你不管的话，这就要出病毒了，有可能会给你造成损失。授权是什么呢？就是在设置里边有个叫辅助功能，在这一项里头，允许下面的应用程序控制你的电脑。这边有这么一项，在里头找到ChatGPT，把它打开就可以使用了。

后边呢，就是管理应用，就是我到底要用哪些。Xcode因为我自己不使，所以呢我就没有测试。Terminal只要是你把上面授权开了，你的Terminal窗口打开了以后，就可以在ChatGPT的应用程序下边，这个对话框底下多出一个图标来。这个图标呢是一个小方块，中间有一个指针。哈哈，这个我就不跟大家截图了，就是你点完了这个图标以后，就可以选中你的Terminal的这个窗口。

他就会根据你Terminal窗口里面的信息进行问答了。他会把Terminal窗口里的最后200行读出来，根据这200行的信息去给你做各种回复。这就是连接这个terminal窗口的一个操作方式。而且呢，这个terminal大家知道，我们经常通过SSH连接到远程的云服务器上去，或者连到我们的NAS上去。那么这个的话，它依然是可以工作的。我在云服务器上做各种操作，报错了或者什么的，你就可以直接问ChatGPT说：“哎，报了一个什么错，该怎么改呀？”他会给你去解决问题。

文本编辑器也是可以的。我试了一下，打开文本编辑器，里面有内容，它就会根据内容进行回复。VScode这个是我的主力IDE。在使用VSCode的时候，先需要装一个插件。在VSCode里头下载一个VSIX的文件，这个是从OpenAI的网上下载。下完了以后呢，到VSCode里头去安装这个插件。装上以后就可以使用了。但是要注意，这个插件在VScode的插件商店里没有。这也是一种“萝卜急了不洗泥”的方式。就是说，按道理说应该把这个插件上架到Vscode的插件商店里去，但是呢，它就没有上架。有可能是因为太着急了，没上去；也有可能呢，是因为他们惦记抢这个GitHub Copilot的饭碗，去上微软那里去上架的时候，因为VSCode是微软家的嘛，去上架的时候被微软横挑鼻子竖挑眼，说：“你这不行，这个不太安全，回去接着改去。”要给他拖一拖，所以干脆他们就自己升级了功能，自己做了个插件，从外面让你去装上去。

这个系统呢，是可以在本地工作的。什么意思呢？就是VScode在编辑代码的时候，你可以编辑本地的代码，也可以通过SSH编辑远程云服务器上的代码。但是如果要去编辑远程代码的话，你需要重新装所有的插件，这个搞不定，所以它只能在本地工作。这个系统呢，是只能够查看当前窗口的代码，因为VScode里头是可以开好多窗口的，它只能查看当前的。

如果你在当前窗口里头选中了一些高亮代码，他会优先专注于高亮代码进行解析，也就是这样的一些功能。所有生成的代码，比如说我这哪错了，那些代码是有什么问题，他会生成很多的代码来帮你去解释，帮你解决问题。但是呢，这些代码必须要拷贝粘贴，他不会直接把这些代码应用到你的程序里边去，也不会直接把这些指令送到Terminal，就是命令行终端里边去执行。你要自己手动地从这个聊天窗口里头把他给你建议的代码也好，命令也好，粘贴到相应的地方去，打回车。这呢，也是让大家觉得很不爽的一个地方。

那么这东西到底能不能替换GitHub Copilot呢？我试了几下以后就换回去了，我接着使用GitHub Copilot。为什么呢？第一个，ChatGPT不能直接修改代码，每一次都需要你去拷贝粘贴，自己去改，很有可能改错呀。你再问他说这对不对，操作起来非常麻烦，这是第一个原因。第二个，不能处理远程代码，这是我不能接受的。我是经常需要处理云服务器上的代码，他只能在本地工作，这个不行。第三个，他不能使用不同的模型，现在甭管你是用Cursor也好，还是用GitHub Copilot也好，你都可以选不同的模型。但是OpenAI的ChatGPT只能选OpenAI自己家的模型。你说我想去选Anthropic下边的Claude行不行？我想去选谷歌的Gemini行不行？不行，没有这个能力，所以这个也是让人不太爽的地方。

还有一个很烦的是什么，他只能处理当前的文件，没法去处理workspace上的东西。我们做一个程序，这个程序都是一个很复杂的目录结构，这个目录结构我们要管它叫workspace，就是这个工作空间，这里头会有很多很多的文件。如果说不能够根据整个的workspace一起去给我建议，只有根据我当前打开这个文件去建议，那这个完全没有意义，改程序会越改越乱的。

我们推崇的是每一个程序尽可能短，每一个程序之间相互配合，而不是说我们写一个特别长的程序。因为特别长的程序不好维护。你使用ChatGPT的APP，直接调用当前窗口的代码进行提示，那这个效果应该是很差的。我的Cursor呢，是过期了，所以我就没有再回去测试。现在我主要的编程工具是GitHub Copilot。从用户体验上来讲，Cursor应该是最好的，其次是GitHub Copilot，再差的就是今天我们讲的这个ChatGPT。

你说ChatGPT为什么会选择这样的一条路出来，明明做得又不好，还要去跟GitHub Copilot、Cursor去硬刚呢？其实很多做大模型的公司，他们预期的方式就是这种。什么叫全能助理？就是你不需要在编程的时候打开GitHub Copilot，在Office里头去打开Office Copilot，在浏览器里面去打开Web Copilot，在操作系统里头去打开操作系统的Copilot。他们希望你有一个统一的全能助理，打开什么样的工作我都给你搞定。这是这些做大模型的公司，无论是Anthropic还是OpenAI，他们想干的活。

所以你看他的应用，可以截图、截屏、照相、上传文件，还可以听到你的声音，现在还可以直接从IDE页面里把代码拎出来。他们希望说我都干了，你不用再去烦别人了。但是这里面有一些困境，就是不能直接操作电脑。原来Anthropic不是演示过直接操作电脑吗？我上一次出去参加活动，还有人问我说这太可怕了，他就直接操作电脑了。我说这个没有那么可怕。第一个，Anthropic演示的直接操作电脑的那个程序是一个实验室版本，他们也不敢把这种东西直接给用户去用。因为一旦给用户用了，咱不说他有恶意或者什么的，他弄坏了以后你咋给人修啊？这个是没法整的。

所有的公司里边的IT人员，最害怕的就是：“哎呀，我的电脑不行了，我有一个程序找不到了，哪个东西起不来了。”你要到现场去部署，现场去看当时的环境是什么样，可麻烦了这个过程。这是不允许Claude直接操作电脑的。现在用户能够用到的还是Claude从电脑上读东西，操作的过程还要你自己拷贝粘贴，都是如此的。ChatGPT也是这么干，所以它不能操作电脑。

那么用户体验，到底什么是用户体验？或者这种大模型应用的用户体验到底是什么样的？这里头其实有两个关键点。第一个关键点叫做找到合适的内容，第二个关键点是在可预期的范围内进行操作。

咱们先说第一个，找到适当的内容。那么什么叫找到适当的内容？就是我们要解决一个问题，你需要解决问题所需的所有内容。就像刚才我们说，我们要改程序，你要改程序的话，你需要在Workspace里，这个工作空间里边的所有程序、所有代码，然后你才能够去改这个程序。甚至你还需要什么？就是很多的环境信息。你说：“我这个电脑是Oracle云上面的一个乌斑图的主机，还是一个Oracle OS的主机，还是一个什么样的主机？我这个主机是什么样的CPU？什么样的内存？”你说：“我是arm的CPU，还是Intel的CPU？”你都要告诉这个大模型，否则的话，它给你的很多建议就会是错的，所以你需要全部的信息。

第二个呢，还有一个问题是什么？你不能被其他没用的信息干扰。什么叫被没用的信息干扰？这跟大家讲一个小故事：以前的杀毒程序在这个硬盘里杀病毒的时候，最怕的是什么，知道吗？最怕的是别的杀毒程序。为什么？因为杀毒程序干活的方式是拿病毒库去比较。我读了这段代码了，谁到我病毒库里比较一下是不是病毒。但是他一旦遇到了别的杀毒程序，在硬盘里安装着这个杀毒程序，里头也有一个病毒库，那你拿出来一比较，哎呦，跟我这里一样，接着往下比还一样。到最后几个字节可能不一样了，这个不是一个完整的病毒，不用管它。

再到下一个，哎，又一样。因为人家那病毒库里头所有病毒都有一遍，他就到人那去检索，说这个好好厉害。你看你这个病毒库里边所有的毒都有，这就是被无用信息所干扰了。我们硬盘里也是这样，各种各样的信息是非常多的。当你这个大模型需要去给我回答问题的时候，你不能把我硬盘里所有的内容都找出来，然后来给我回答。有些是我希望你看到的，有些是我不希望的，或者有些是我不希望你这一次拿去参考的，这个一定要搞清楚。

而且还有一点，什么叫不能让用户害怕，这个是很关键的。如果一个用户告诉他说，现在大模型来了，我要把你硬盘里头所有的内容都搜索一遍，我来给你解决问题，用户说那算了，咱别费劲了。我这个里头还有一些什么学习强国呀，或者这种目录里头放的文件，是我不希望你拿来解读它，可能是一些宝藏、小电影什么的。他还是要让用户知道，你这个大模型是在他允许许可的范围内在工作，不能吓着他。

这个是找到适当的内容。下一个呢，在可预期的范围内操作。什么意思？第一个先要保证做对，这个其实很难。为什么呢？现在给出来的答案，甭管是GitHub Copilot还是ChatGPT，还是Claude，或者它的Cursor这样的产品，它给出来的答案基本上很难一次正确。原因也很简单，就是他们得到的信息不够完整，环境信息不完整，其他的代码没有研究。

就算你告诉他说，你根据我所有代码去做处理，其实他也没有办法真的这么干，因为大模型是有上下文窗口的。你不可能说我把一个程序的所有代码都塞进去，这个是非常非常费劲的。就算他的上下文窗口足够大，你还有大量的网络传输的开销，这个也是很麻烦的。

所以现在的这些大模型处理这种workspace的方式是什么呢？就是做嵌入。他把你所有的代码拿去做这个embedding的处理，做完了以后再根据你的命令，在embedding之后的代码里头找到相关的内容，然后再去回答他们。现在只能这么干，所以他们给出的答案。

其实，通常都是错误的。你拿到了以后，还要人工判断，然后再去调整，才有可能把它做对。这个第一个要做对，这事很难。第二个，什么？你还是不能让用户害怕。一上来说，我们执行一个命令叫“RM -RF *”，那这个什么意思？就是把硬盘上所有东西都删光。执行命令这件事，有很多是比较吓人的。所以，为什么现在 ChatGPT 和 Claude 都不敢直接去执行命令，就是这样。他怕吓着用户。而且，如果真让他执行了，万一出错了以后，他又没有补救措施，这个也是一个很大的开销。

为什么呢？就是你要看正规的工程师，或者叫网络工程师，他们的操作手册都是什么？你做任何的升级，做任何操作之前要备份。备份完了以后才能做操作，万一做错了以后还能恢复。但是这个操作的开销就非常大了。所以，现在他们这两个应用都不敢直接下手。

那么，这算不算是一种纯视觉方案？咱们想的稍微远一点，什么叫纯视觉方案？就是特斯拉在推自动驾驶的时候，就推这种纯视觉方案。别人还在研究什么毫米波雷达、激光雷达的时候，马斯克说不，我就要纯视觉方案，我不跟你费劲了。那么，什么时候上纯视觉方案呢？就是要去对抗各种雷达，对抗车路协同系统。雷达还算是一个相对来说比较简单的玩法，车上加毫米波，加这个激光雷达，这还算简单一些。车路协同是什么？就是在路上加各种传感器，加各种各样的处理终端，加各种标记，让你的车在这样的智能公路上可以畅通无阻。

但是，这条路看来现在应该不是主流方向。就算是国内的国产新势力们，也没有向车路协同的方式走。大家还都是惦记说，我怎么在车上把这事搞定就完事了。那么，这个事情跟咱们今天讲的 ChatGPT MacOS 上的这个客户端到底有什么关系呢？我们来类比一下，现在的 ChatGPT 和 Claude 这种桌面客户端，干的活是什么？就是给桌面应用增加眼睛、耳朵、嘴和手脚。什么意思呢？原来这个东西叫聊天工具，但现在我们希望这个聊天工具自己可以看到你电脑上的屏幕。

它可以截屏，可以看到你的代码，可以听到你说话，也可以对你说话，甚至可以做一定的操作。那么在这个过程中，如果是走纯视觉方案，实际上就是ChatGPT和Claude现在用的这个方案。什么意思呢？就是看到用户能够看到的部分，用户看不到的部分就算了。然后呢，通过摄像头截屏以及与IDE结合，不需要做其他的改造了，我们只需要做最简单的一个改造，就可以使用了。甚至只是说我给你一个授权，你就可以使用了，也不需要跟操作系统的厂商进行深度的整合。你要做这种很复杂的底层操作，你一定要操作系统厂商给你授权才可以，否则他是不能去做的。

最终是要像人一样工作。什么意思呢？大家想，马斯克为什么推纯视觉？两个原因。第一个，你跟各个国家的公路系统去打交道，说你给我在公路上加一标签吧，或者加一牌子吧，或者加一个什么传感器吧，这个事就没法整。你万一走到没有传感器、没有经过改造的公路上，你智能驾驶系统是不是就没有了？这是一个原因。说我们不愿意跟你打交道，我在车上自己都解决完就完了。

第二个原因是什么呢？他希望这个车像人一样工作，因为你的大模型还是在不断地迭代、不断地升级的。那么到底向哪个方向升级呢？比如说我升级了带有车路协同系统的、带有激光雷达和豪美涡雷达的这样的大模型，那这个到底对不对？其实很难去衡量。但是说，哎，我就向人的方向去转变。人是怎么开车的？我怎么开车？人反正也没有毫米波雷达，也没有激光雷达，也没有什么车路协同。我们走到哪，这路甭管认不认识，我都可以开走。那么我们就以此为基准进行训练就完了。这是纯视觉系统的一个核心底层逻辑，就是我们以人为标准，向这个方向不断前进。

那么这是纯视觉方案。如果是车路协同方案是什么样的呢？就是Github Copilot走的这个方案，还有各种操作系统，像什么AIPC、AI手机，新带Copilot的Windows 11。

带有这个 Apple Intelligence 的 MacOS 和 iPhone 16，以及咱们国内号称带大模型的各种安卓手机，这就是标准的车路协同系统。在这个过程中，那你就需要对基础设施进行改造。反正这个微软没事，他说：“我是做操作系统的，我就在操作系统上改呗。”苹果说：“那我也在操作系统上改。”安卓这帮手机，甭管是小米还是华为，说：“我们也上操作系统 IC，直接底层修改，这样用户体验才最好。”它就变成这样的方式了。

在这块，操作系统厂商跟 IDEE 的这些厂商有一些天然的优势。你那些做大模型的厂商，你就过不来了，因为你搞不懂这个操作系统到底是怎么运作的。就算你能搞懂了，我不给你授权，你越过我的授权也是病毒。他是这样来工作的。

那么，我们在电脑上是不是需要这种纯视觉方案？这个路是不是对的？你说马斯克在做 FSD 的时候，做纯视觉方案，大家都觉得这条路是对的。那么在电脑上，我们是不是也该这么干？除了环境方的配合度之外，模型发展方向才是最重要的考核。自动驾驶这件事，其实相对来说还比较简单，纯视觉方案是可以搞得定的。人就向这个方向走就行了，你只需要让自动驾驶的汽车达到驾驶员的高度就可以了。我不需要达到 F1 方程式赛车，也不需要达到修车老师傅的程度，你只要能够达到一个正常驾驶员的程度就 OK 了。

所以，自动驾驶可以走纯视觉方案，但在电脑上这事不行，为什么？因为我们需要专家模式，我们需要解决很多我们自己解决不了的问题。这个跟刚才我们讲的自动驾驶是不同的。自动驾驶是，你只要模型变成普通驾驶员就够了，而我们去操作电脑是需要电脑上辅助，我们的专家模型能够达到比我们更高水平。那你如果是这样的话，去做纯视觉就不合适了。

现在摆在 OpenAI 和 Anthropic 面前的困境是什么呢？他们需要克服什么？就是操作系统厂商不愿意配合他们。你说：“我希望有更多的功能给用户用起来，我明明可以做更多的事情，可以做得更好。”

但是，你没有操作系统厂商的配合，就做不了。用户量上去了，但是用户也没法使用全部的功能。大家还是在跟你聊天，那用户的付费意愿就低。他们这两家公司最后能够实现盈利的可能性，就基本上等于零。他现在是遇到这样的问题，原来还想着说：“哎呀，微软你就向OpenAI老老实实地交授权费就完了呗，我就让你去用去了。”结果，GitHub Copilot现在不仅能够用OpenAI的GPT-4，还是能够用Anthropic的Claude，人家还可以用谷歌的Gemini。

这个OpenAI说那不行，你们不在一棵树上吊死，我也不能在一棵树上吊死，咱们双向奔赴了。你们这个不忠诚，我们也不忠诚，搞成这样的一个事情。那么，大模型厂商还在解决用户需求的路上继续前进。甭管最后他的商业问题是不是能够解决，是不是能够挣到钱，这个事我们不管他。但是，如果你没有办法把用户的需求解决掉，这条路注定是条死路。

现在呢，就是两条路。刚才咱们讲过了，一个是车路协调的路，一个是纯视觉的路。纯视觉路实际上就是我关起门来自己把事搞定了，你们不用管我，我也不用配合我，我自己能搞定。车路协同的方式就是我从底层把基础设施改掉。现在车路协同的方式就是AIPC、AIPHONE，这条路是车路协同的方式。

纯视觉方式，现在甭管是OpenAI的ChatGPT，还是Anthropic的Claude，都在尝试走这条独立的路线。我不需要你跟我配合，我自己搞定。我就看到用户能看到的东西，然后我在用户可眼见的范围内去解决问题。用户看不着东西，我也看不着。至于哪条路能够走通，咱们拭目以待。

好，这个故事跟大家讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Meta的开源LLama3再度颠覆AI技术，鼓吹闭源的李彦宏是否真的打脸了？全新70B模型震撼发布，全方位超越GPT3.5，会给整个行业带来哪些改变？

Luke Fan — Tue, 23 Apr 2024 11:48:07 +0000

大家好，欢迎收听老范讲故事YouTube频道。今天咱们来讲第一个故事。

Llama3发布了，李彦宏是不是被打脸了呢？Llama3突然发布，又是一个遥遥领先。它呢，发布了8B和70B的两个版本。8B就是80亿参数，70B呢就是700亿参数。8B的，我其实已经试过了，就在本地已经装上了。这个某些方面，接近了原来，或者超过了原来的Llama2的70B。包括一些咱们在本地跑的这种30多B的，这种就是300多亿参数的模型，它已经都超过了。而且速度还飞快。

啊，70B呢，据说已经超越了cloud 3的中量级模型。Note 3是有三个模型的：一个是特别微小的，就是可以在手机上跑；一个是中等量级的，是可以在PC本地跑的；然后还有一个是那种特别大的，特别大的，是可以对标GPT4的。70B的基本上已经超过这个中等量级了，也超越了GMINI 1.5 Pro。现在大家想去试GMINI 1.5 Pro的，可以到AI studio.google.com上去试，那个是可以免费用的。也超越了现在70B发布出来的版本。普遍他们自己讲的是超越了GPT3.5，但是呢，还达不到GPT4。这在所有测试数据上都是这样。我相信梅塔应该不会像咱们似的，专门做一些调优以后去跑分，不像咱们这么无聊。

在现在的这种开元大模型里头，同等体量的效果最好。咱们在衡量一个开元大模型的时候，如果它没有一些特别革命性的变化，我们一般是怎么衡量它？就是你的体量大小。你比如说大家都是8B的，你跟这个8B的比，你是最好的。这个都属于是同等体量的。你说我一个8B的…\n非要跟一个几百臂、几千亿参数的模型去比，这个事呢，就属于叫不公平竞争了。那么70B的模型，他们现在基本上应该是可以的。注意，GPT 3.5有多少参数是1,750亿，175B的一个。GVT 3.5 其实它已经超越那个时候了。所以呢，大家都在比，这个有点像什么呢？有点像拳击，先看重量级。我如果能够越级干掉一个老拳手，一个8B的，可以干掉几年前的175B的这个，其实已经算是这几年我们可以看到的技术进步了，这个是非常不容易的。他呢，也超越了啊，Metro的这个medium版本，就是这个中间版，但是达不到这个launch这个版本，master的这个最大的版是可以接近GPT4的。然后呢，也超越了千问，同一千问也超了，体验呢肯定是上升了。

第一个是8K上下文。咱们讲说这个大模型，做上下文增长其实挺费劲的，对吧？传统的Lama two是4K的，就是4,000字，现在呢可以上8,000字。大家注意，这个上下文不光是输出8,000字，是输入加输出加一块8,000字。所以呢，你比如说你输入写的比较长了，那么输出就会比较费劲。因为我最近在尝试用这个东西写小说嘛，我就特别喜欢像啊零一万物的200K的上下文，20万字，所以我可以写特别多的这个背景信息扔进去，说来照这个背景信息，给我输出个2,000字出来，哎，那个效果就非常好。

现在的这个新的提升呢，就是包括整个新的框架的提升，他整个训练的效率也上去了。大家要注意，妈妈，其实真正核心的是什么？就是这个框架。为什么说他这块框架厉害呢？就是其他人，包括像刚才咱们讲的名义万物啊，extra，好多都是要参考它的框架，然后在这个框架基本上再去改。如果Lama把这个整个框架的效率提升了，可能我们很快就可以看到大量的这种大模型。一个一个升级，升级完了以后，发现我们都变快了吧。这个是开元大模型做的最大的贡献！而且呢，Llama3啊，现在有更强的推进能力和代码能力。但是我还没有尝试让他写代码，我让他试了些别的——他的安全性提升了。你别看他开源的，你可以弄到本地来，你说你让他干点坏事啊，干不了。我自己亲自测了一下，因为我在尝试写小说嘛，稍微写的不太合适了，他就直接告诉你说：“对不起，后边我没法给你写了。”你让他给你写一些黑客程序啊，一些这种有害代码呀，他都会直接拒绝你。这个是现在做得非常好的一点！但是我相信，这样的这种模型，你按道理说，你对他进行微调，或者对他进行PUA，还是有可能能够让他去做一些突破底线的事情。特别是这个模型现在到我们自己手里了，对，那我就可以反复PUA他，然后找到到底哪一个提示词可以把它这个坏的一面释放出来。这个事还是OK的。我现在是让他去写小说，肯定是写到一些过分的地方，他就退掉了，还没有找到刺激他的正确的提示词啊。这个我相信应该是很多人会去找的。超大规模的预训练数据——Llama3，最后告诉大家说，大力出奇迹，这条路依然走得通。扎克伯格花钱买了35万块H100，加上他原来所有的这些H100，然后呢，拿这么多的H100去进行训练，而且他的训练数据的量，是原来Llama2的好几倍啊。现在有15T的训练数据，这些鸽子里头的训练数据质量非常高。他们强调如何利用高质量的训练数据，比如用Lamar对所有训练数据进行驱虫。虽然有些数据质量好一点，有些差一点，但他们会挑选最好的。此外，他们利用Lamar生成新的训练数据，因此拥有大量由Lamar生成的训练数据。这表明大模型正在自我迭代，Lamar生成的数据被用来训练Lamar3。

当然，也存在一些潜在问题。例如，在对话中，模型可能会自称是GPT、Gemini或文心一言，因为即使通过大模型清洗训练数据，也未必能完全清除这些信息。对于版权数据，Meta的态度较为模糊。Open AI使用大量YouTube视频进行训练，而谷歌已指出这可能违反视频协议。Meta同样使用大量版权内容训练，声称部分数据得到授权，部分来自公开网络，这在法律边缘试探。尽管模型开源且免费，但起诉Meta并不容易，因此多数人选择针对Open AI。值得注意的是，尽管该模型支持30多种语言，但非英语内容仅占5%，中文内容的比例更少。\n所有英语之外的内容，就是5%。也就是说，英语内容是95%。是这样训练出来的一个东西。我尝试让他写小说，他经常还是会在中文小说里头加大英文，或者写到第几章以后，就后边都改英文了。这个… 现在肯定还是需要再进行中文微调。Lamari 二杠有一个专门针对中文的微调版本，对中文的支持会更好一些。但是既然他把这个东西拿出来了，就是让大家去微调的。在聊天的过程中，对中文的支持也没有那么好。当然，后面还有超大杯。现在我们能够拿到的是8B和70B，已经放出来给大家用了。8B的这个部分，我在我自己的机器上已经测过了，没有任何问题，而且速度很快。70B呢，你需要128G的内存才可以跑起来，我的机器跑不起来。但是呢，我到Poe上去试了一下，试的效果极烂。因为试的人太多了，把Poe的服务器给挂崩了。Poe没有给他放那么多的资源和测试，所以经常一点完了以后他就不动了。这个70B到底效果怎么样，我并没有进行很多的测试。其实还有一种测试方式是，你可以到自己到云服务器上去租。租一台4090，就是单4090显卡的云主机，一个小时大概两块多钱，3块钱人民币。如果不是有特别集中的使用，就不建议大家去租这个玩了。后边还会有多模态的大模型放出来。现在这两个还都是文本模型。前面也跟大家录过很多视频在讲，梅塔做了这么多年的元宇宙，在多模态这块的积累，其实是蛮深厚的。后面多模态的大模型出来，我们还是要去稍微的期待一下。因为我已经用梅塔AI去画了几张画了，效果其实还可以。我最近也试了字节跳动的绘画程序，什么视频程序，我都试了。然后也试验了阿里的通一千问的绘画，梅塔AI的绘画，其实现在效果已经很好了。你就这么想吧，stable diffusion的最新的版本的效果这么好，那么国内这些用Saberity future去搭模型，搭框架的，不管是字节的，还是阿里通1,000问的那个…\n效果一般也就上去了。虽然达不到像Mijili那么好控制，但是呢，也都还可以使用。谜坦AI的这一块呢，还是可以去试试。后面呢，还会有一个400币的模型会出来。400币是多少？4,000亿啊。4,000亿呢，现在还在训练和调整之中，还没有彻底弄完。我估计训练应该训完了，但是这种模型就是训完了以后，最后的这个调整过程是非常麻烦的。那么有可能开源。为什么说有可能开源呢？就是前面这个group one开源的时候，314币，3,140亿参数的时候，其实我是录了一条视频，马斯克还骂了一顿。我说，你开一个这样的东西出来，没有100万人民币的服务器，谁也跑不起来。你说你弄他干嘛使？而且还是个MOE的模型。MOE是什么？就是这种专家模型，就是它是由8个小模型凑的，每一次动两个啊，就是每问一个问题，它有两个小模型去工作。你即使这样，还是需要上百万人民币的服务器，才可以把它带起来。巴马3的400币模型，它不是MOE，它是个单模型，实实在在的有4,000亿参数。它不是说像group one那样，每次跑的时候，比如说我整个1,000多亿的参数，剩下都休息。这样的模型，估计至少要上千万人民币的设备，才有可能让它跑起来。所以这样的模型，到底最后会不会开出来，不好说啊。

梅塔AI呢，现在也放出来给大家试，就是大家可以到AI点梅塔.com上去试啊，AI点meta.com去试尝试这东西啊，已经可以去聊天了。而且未来呢，就是梅塔AI呢，会到全线的啊，美塔相关的产品里头去用。比如说你可以到WhatsApp, Messenger, Instagram就可以用。怎么用呢？你直接给他@梅塔AI，然后你就可以告诉他说…\n我跟谁谁谁在WhatsApp上聊天儿呢。聊着聊着我就哎，突然想到一个问题，问美美塔AI：“天气怎么样啊？或者有什么事啊？给我解一个什么什么东西出来。”他就干活去了。这个真的很棒！或者你在这个里头写一个斜线”imagine”，就跟咱们在那个discount里的调料制作过程一样，直接就能画画去了。现在这个功能已经在30多个国家的WhatsApp、Message和Instagram上上线了。还会在哪里出现呢？在雷鹏的梅塔眼镜上，或者在快速3上，也即将登陆。

现在Instagram上的修图工具也是调用的梅塔AI。你可以告诉它：“把这帽子给我从绿的换成红的，或者不要戴帽子，绿的不太吉利。”它现在已经可以执行这些任务了。我测试了一下，这个只吃英文。现在的维卡AI，你上去以后可以说：“我要试一下。”据说是在30多个国家开通了。然后我特别逗，用英中文提了问题，提完问题以后，吉塔AI用中文回答了。它噼里啪啦答完以后，屏幕闪了一下，那个回答的所有内容就没了，然后用英文告诉我：“对不起，我现在无法理解这个中文，等我知识更丰富的时候再告诉你。”它这样的一个东西，实际上是可以做到的，只是效果还没那么好，所以没正式推出。

大家要知道，Llama（Lama）其实一直是整个开源AI界里的领头羊。所以现在有很多人叫什么呢？叫开源GPT4来了。有很多人写了这样的标题，很多人都在想去做开源，但只有Llama氏，在整个的开源行业里头，真正起到了扛鼎的这个位置。为什么？因为所有的其他人，都是在拉马的基础上去做的。其实，拉马一出来的时候，并没有那么多响动。因为大家都知道，给你一个开源软件或系统，你要把它刨根问底并不容易。在拉马一刚出来的时候，你想去深入研究，这事儿是很麻烦的。到拉马2出来的时候，就已经非常厉害了，它彻底打破了垄断，打破了Open AI和Cloud这样的程序的垄断，彻底推动了开源文化。特别是在拉马2出来的这段时间里，比如我用的Olama，还有Lam Studio，各种各样的开源工具包，让我们可以在本地运行这些大模型，各种开源生态都搭建起来了。

这是从拉马尔开始的，而且为整个行业指明了方向。很多开源大模型直接用了Lama 2的数据结构。像我前面还去跟零一万物的Wechat录过一期节目，有人说，你们是不是抄Lama 2了？他们说没有，我们只是用了这个数据结构，但所有数据都是我们自己的，所有的训练也都是我们自己跑的，只是最后的结构与LIME2相似。现在大量的开源模型都是用Lamar结构的，无论你是用Lamar进行微调，还是从零开始训练，最后都会塞到LIME2的结构里。

现在，这真的给很多人创造了新的机会。比如零一八五、Matro等，都号称可能与Lamar2的架构有些像，但他们每一家都会在基础上做一些创新，比如调整某些参数，添加新的算法，提升效率或在特定环境里更好用。但底层都是拉马2，它彻底推动了行业变革，大批以拉马2为基础微调出来的模型应运而生。\n现在，各行各业都在运转。我去日本时也看过，日本当地的大模型，比如NTT的或像LINE这样的，大多数都是基于拉曼2进行微调后使用的。整个大模型行业中，真正赚到钱的基本上都是利用拉曼2进行训练而获利的。像百度、阿里这样的公司，可能还没赚钱，就连Open AI也在亏损。然而，利用拉曼2赚钱的现象很普遍。

李彦宏曾说，开源大模型会越来越低级，但这句话显然已经打脸了。Llama3发布后，我相信它无需达到400币，可能70币就已经能碾压文心言3.0或3.5。现在称为3.5，它没有任何问题，甚至可以碾压需要付费的文心言四，70币足以做到这一点。

我个人一直很支持开源，因为我的朋友是天空开物基金会的负责人，而我本身是做开发者关系出身，也是该基金会的顾问，所以我自然站在开源这边。不过，我要说的是，李彦宏，你怎么又在说这种大实话了呢？我遇到过很多次他这样直言不讳的情况。比如以前在盛大网络，我们起诉百度抄袭我们的书，特别是小说。盛大文学那时有一个系统，专门在百度搜索我们的小说，结果发现排在前面的不是我们的，我们就起诉。结果发现排在最前面的是百度文库，对此，李彦宏就说…\n“了说，你们这帮人就是来蹭我热度的。”
他们是一小公司，对于当时的百度来说，盛大确实是没有他大。所以他说：“你是一个小公司，你来起诉我，你就是想蹭我热度。你希望通过起诉百度这个事情，让更多的人来去看小说。”最后，李彦宏是怎么办的呢？他是把百度文库里边的所有小说全删了。法院也是判盛大胜诉了，啊，胜诉了我们获得了多少赔偿呢？50万人民币。这个就没法讲了，因为当时盗版的赔偿上限就是50万人民币。你说这个事情他盗版了对不对？他肯定不对。但是呢，我们需要什么？我们需要流量。你别看我们得到了50万人民币的赔偿，我们还胜诉了，但是每年盛大向百度花的钱，我们上这去投放，希望百度能够把盛大的小说，能把起点排头一个，每年花好几千万。那一年他就象征性的要退了我们50万。在这个过程中，我们通过起诉百度，100又可以得到大量的流量。然后啊，你看这个书应该到起点那边去看去，对吧，大家有这样的一个印象。这是第一次啊，瞎说大实话。其实他说的话呢，就是有道理啊，但是呢，很多跟大家的认知的，或者说这些道德他是不匹配的。

第二次赶上李彦宏瞎说大实话，又是我赶上了什么事呢？我当时离开盛大了，后来去了猎豹移动。到猎豹移动以后啊，我们开始做隐私保护，怎么能够让用户啊，把隐私保护起来，做了这样的一个功能。袁弘又上去瞎说大实话去了，说中国用户根本就不在意隐私，隐私保护这个需求就是个伪需求，你只要给他们一点点方便，他们就很开心的用隐私出来给你换。当时我们觉得这怎么可能呢，这个事太违反常识了。你跟任何一个人说你要隐私吗，他都说要啊。后来我们发现李彦宏又在瞎说大实话，是什么呢？我们跟用户商量说，你给我10块钱，我帮你保护一下隐私，行吧，用户说不给。隐私啊，我要，但是要钱，没有。它是这样的，所以保护隐私是个伪需求啊，你如果是个真的需求啊，那你就应该老老实实为保护隐私付钱。对吧，没有任何人愿意为这个事付钱啊。你说我现在要拿你的数据回来，你要去给我签这个用户执行同意书，签完了以后我拿你的数据去做预算了。但同时我给你提供了搜索服务，提供了其他的各种推荐服务，你干不干呢？啊，一帮用户就开开心心去干去了。对吧，所以李彦宏又在不对了。那么这一次呢，依然如此。什么叫瞎说大实话？就是真话，这说的都是真的，但是呢，有很多事啊，他叫可以做，但不可以说呀。对吧，李彦宏瞎说的大实话，就是你都可以这么干，而且我们在圈里的人呢，也都知道这事就这么回事，但是你不能拿出来说。对吧，你也作为一个BAT，虽然现在B稍微的这个衰落了一点，也算是国内大佬，你把这种大实话拿出来说，他是有问题的。而且还有一点是什么，就是大家老说他瞎说大实话呢，就是他每次干完了这事，在百度自己身上呢，也没得到什么好处。

那么李彦宏这次说的是什么呢？开源模型会越来越落后，这个事是什么意思呢？就是训练大模型的成本实在是太高了，特别是当它的底层框架确定了以后，你想去训练它，这个成本是非常非常高的，非常费钱。所以要什么呢？比如说Llama，从Llama2升级到Llama3，给大家指明了方向，大家向这个方向去前进。那么在这个时候大家再去训练，你说我连方向都没有，然后底层都不清楚，我们要从头开始做这个事情，那这个成本实在是太高了，至少中国企业很难去承担这个成本，即使是在Lama 2的基础上，说我用这个数学模型或者用这个数据结构，我重新去训练新的模型，这些公司其实也很难盈利。这个事是太难了。所以呢，如果大家的底层就这样的不动了，比如就蓝帽2这样不动了，就在这个基础上，这个吃老本，那么李彦宏说这话就对了，就是说你就越来越落后。我们不停地去寻找有这个底层开发能力的人，我们不停地去迭代、去更新。你的那些人就老是在蓝码2的基础上去做，但是现在，蓝码3出来了，大家又可以往前走一步了。对，但是这些人的底层都不是自己的。比如说华为说我今天做芯片了，那芯片底层是什么？底层是UP或者是台积电，你底层永远不在自己手里面，那么他的天花板是有限的。所以李彦宏说的这句话本身并没有大毛病，虽然Llama三帮所有的开源模型又往前升级了一步，但是你的底层依然不是不可控的。

第二个，李彦宏讲的是开源并不便宜。这个话，其实我作为一个这么长时间去推广开源的人来说，我是极其赞同的。你去使用商业服务，其实你省去了大量的成本，因为有人给你签服务协议，你只要交钥匙就完事了。你要是想去做开源，你还要雇开源的程序员，然后这个人今天开心了，明天不开心了，后天你发现面试的时候看走眼了，这个成本是非常高的。而且，开源系统底层还有很多的不确定性。其实闭源系统也有bug，但是它处理方式是什么？我给你签一个服务协议，有bug你给我改去，我不管了。对，但是开源系统有时候有bug，里面他懒，没人理你，对吧，这个事是有可能的。所以开源，使用整个的开源系统是非常贵的，这个是我认同的。然后呢，是闭源才有商业模式，这件事其实没有那么认同。为什么呢？就是开源大模型通常在商业模式的周期上，它是比较漫长的。从拉马尔出来，一帮人开始弄，然后最后能挣到这笔钱，可能也得要个一两年的时间，你才能把这个钱挣到手，所以他是非常漫长的。而且呢，到现在为止，梅塔自己其实也没想明白，怎么用Llama去挣钱。梅塔虽然是Llama一、Llama二、Llama三都出来了，但是你说梅塔，你在这里头收着钱了没？他也没收着，对吧。而且他都没想明白，说我到底怎么把钱收回来。只是谁挣到钱了，就是我拿Lamar去再训练新的模型，比如我训练了一个医药的模型，或者我训练了一个移民中介，什么留学中介，我先练了一个这样的模型，就这个是能挣点钱的。但是你说梅塔自己怎么挣钱，不知道，对吧。所以想去靠开元大模型就直接挣着钱的，谁也搞不清怎么玩啊，包括像通1,000问，对吧，他怎么挣钱呢？他最后是说，哎，你们都用通1,000问吧，我是做云计算的，反正你都得上网来，用来你买我的云主机，我我通过卖云主机的过程再把钱挣过来，对吧，他是这么来挣这钱的。

所以你做从以前问，这到底是挣了钱没挣着钱，或者说我的这个云算多卖了多少，这个是一笔糊涂账。而且阿里在挣钱的方式是什么？就是我把所有这一圈子里头做这个大模型的全投资一遍，然后你们通通都上我这阿里云上来去干活去，我把阿里云的这个业绩做上去，任何人甭管我是用Kimi啊，是用什么mini Max呀，都上阿里云上用去，你们就用上阿里云去充值，不就完事了吗？对吧，阿里是挣这个钱的。但梅塔到底怎么挣这个钱，他自己也没想明白，所以它这个生命周期非常的长。然后大模型跟开元Linux是不一样的，跟安卓也不一样，实际上，最主要的开发者就是梅塔一家，不是一个真正大家一起协同开发的产品。这是李安红讲的，我觉得这句话呢，说的也非常正确。现在大家用的各种开元大模型，基本上都是在拉嘛2啊，或者是现在马上要出来拉嘛3啊，在这个基本上改来改去。我估计现在凌医万物的小伙伴们应该都在加班呢，对吧，拉嘛3出来以后赶快拆，拆完了以后，那么怎么能够重新去训练一个新的模型。怎么能够让这个模型的效率提升呢？我现在等着使用他们的新模型。在整个过程中，真正愿意做底层、愿意在底层上做前瞻性工作的公司，其实是没有的，或者说很少很少。听说质谱清音使用了全新的技术，但具体如何还不清楚。很多其他模型其实都是从Lamar借鉴了很多。李彦宏还说，既然不赚钱，为什么要做大模型？我觉得至少在中国，这种做法是对的。你说Open AI，像山姆奥特曼，马斯克，他们为什么要做大模型？是不是就是为了赚钱？这个我们不得而知，毕竟我们和他们不在同一个高度上，不能乱讲。

那么，构建国内最强的大模型，是李彦宏现在想要去做的事情。他第一个发布，哪怕被批评得一无是处，也是第一个尝试的。他穿着一条特别花哨的皮带，就这样上去了。甚至有人评论，他穿着白衬衫，像白衣飘飘的样子。他希望成为国内最大的，甚至在国内外都是最强的大模型。在国外，这个说法我觉得可以接受，就像众英雄围攻光明顶，光明顶就是GPT4，包括像Cloud这样的产品，它们是最强的，无可超越。即使是正在赶超的Gemini，也是必圆产品。而Gemini开源出来的那部分叫Gema，它并不是Gemini那个模型。\n国外的情况是这样，但国内的情况真不好说。为什么呢？因为国内的模型中，百度和Kimi是必远的。百度的使用体验对我来说太差了，太难操作。相比之下，Kimi我用得比较多，确实比较好用。此外，通易千问、百川智能、质朴清音、灵异万物、昆仑万维、360和猎豹都是开源的模型。我尝试过通易千问和一万物这两个开源的，以及一个闭源的。目前我觉得通易千问，尤其是千问1.5的32B版本，非常好用，运行速度非常快，给人留下深刻印象。

现在我主要在用通易千问和Kimi。不过Kimi有一个缺点，就是它经常在运行时报错，说服务器太忙，服务不过来。当你直接向Kimi提问几次后，它会告诉你它太忙了，让你稍后再问。这种情况时有发生。

百度一直自称是国内AI领域的领头羊，根据2023年第四季度的财报，其智能云业务营收为84亿人民币。但要注意，这其中包括了云计算和其他业务，比如智能汽车（自动驾驶）的收入。真正由大模型为百度云带来的收入增长，可能只有6.6亿人民币，这对百度来说可能只是杯水车薪，烧不了多久。所以这对百度来说，无疑是一个相当亏损的业务。而且…\n文心艺言嘛，为百度广告系统带来了数亿元的增收。但这个呢，就是百左手倒右手啊，哪一部分是由文心艺言带来，哪一部分是广告系统，就直接正着了。这个不好说啊。每天呢据说有5,000万次调用，这个我觉得也挺夸张的啊，真的我不知道为什么会有这么多人使这东西，因为那玩意真挺难使。预计2024年，大模型的收入贡献会成10倍，就是去年大概是挣了不到10亿美啊，人民币啊，今年大概会挣到几十亿人民币，在这样的一个水平上。

那么李彦宏为什么说这个话呢？啊，第一个，整个行业其实都不挣钱，包括他自己。就是做了半天大模型也没挣着钱，开元啊肯定是没挣到钱，甭管是刚才咱们讲的，灵异万物也好，百川啊，昆仑，360猎豹在这块估计挣到的钱都不多。360跟猎豹没准还能挣到点，因为他们就是纯纯做图币去了。他们自己那个开元模型，到底拿多少钱训的，而且他也不会推这个东西啊，推开源模型本身的成本也很高。不光是说你本东西开源出来就会有人用啊，然后通1,000问，刚才我讲的，他是通过另外一种方式。

之前呢咱们不管他，整个行业没挣着钱，开源也没挣着钱，但是呢，开源同时会极大的影响闭园挣钱。什么意思呢？比如说我这有一个公司，现在需要一个大模型来给我干活，正常你应该怎么办呢？我上百度上去买去啊，或者上open AI，上微软去买去啊。现在人说哎，我这有开源的啊，那等有很多的系统集成相关的公司，就可以把开源的这些大模型直接集成到我的系统地区了啊，我还可以给你做私有化部署，就这些人能挣着钱。现在Llama已经说了，可以免费商用，你拿去使吧，我不管了，等于把所有的这种中小规模的系统集成商，一把就全赋能了啊，他们挣钱去了。但是这些人挣钱的时候，这个单位就不会再去花钱干嘛呢？买这个open AI，买微软买百度了。所以他就一定要出来讲说，开元是没戏的啊，你们就老老实实买我的这个闭元的就好了。而且呢，开元有的时候啊，你避免不了，为什么呢？拿开元做定制是现在唯一的挣钱路径，而且这个是百度最受不了的，因为这块真的是在吃他的肉。哎，中国大模型创业呢，其实有很多困境的。第一个，成本非常高。尤其是合规成本，非常高。如果你说错了话，是要被封号的。

第二个，中国做任何创业，都必须马上挣钱。你如果说，我想先去折腾一段时间，过个10年再挣钱，想都甭想。像Open AI这样的公司，在中国是不可能成功的。为什么？因为大家在建立时是非营利组织，压根就没想明白该怎么挣钱，然后就四处融资。融完一大笔钱以后，就坐着吭哧吭哧地做。确实很多年一点收入没有，而且还烧钱烧得贼快。这个在中国是行不通的，必须马上挣钱。而且市场有限，现在在中国基本上没有C端市场。所有愿意出钱、花钱再去做工程做项目的人，大多是政府和大企业。

政府和大企业的客户争夺，不完全依靠技术。还有很多其他相关的，或者不相关的，商业的或者非商业的因素影响。最后谁中标，谁没中标，就是这样。

所以，为什么一帮中国人一听说Lama开源了，然后自主研发、自主知识产权的国产大模型就出来了。出来以后，他们去那些大的甲方那里去中标。其实李彦宏在骂的就是这帮人，就是你们不要去抄袭人家的东西，然后自己号称是自主知识产权。

在中国到现在为止，拿到牌照的大模型有多少？117个。如果有这么多大模型都拿到牌照了，中国有这么多数据，有这么多GPU让他们去训练，能出这么多模型来吗？或者花了这么多钱去训练吗？没有。大家拿的，都是Lama改的，全是这样。就是你拿数去看就行了，你不用管他到底是不是这个数。一看就知道，有很多的数据，你只要拿下来比，你就知道说，如果所有这些大模型都是自主研发，自主知识产权，从拿数据开始，一分钱一分钱的去训练出来的，那么这事是不可能的。你像我去问过零一啊，什么这些人，就是他们是从头拿数据去训练，虽然他底层的数据结构是Lamar的，但是那也是花了很多钱的。就是你不融到几亿美金，根本就不敢干这活。但是你想，中国有多少个融到几亿美金的大模型公司？刚才我们讲的是有牌照的，还有很多没有牌照的。没有牌照就是不用动外，对外服务啊，我还是可以比如说做一个什么，颁个奖然后在对内服务，这事还是有的。可能中国现在有几百个，甚至上千个大模型在跑。所以啊，这件事情呢，对于这些做大模型的人来说，是比较难受的。在这一块上，没准最后阿里能把钱挣着，就甭管你用谁的大模型，你到阿里云上来租我的服务器吧。而且呢，李彦宏的意思就是就这么点钱，就这么点甲方，你让百度张了吧。大家都是自主研发，自主知识产权，这还是看谁的资本硬吧。百度在这种竞争中呢，有一定的优势，毕竟排在这，但是呢，你有的时候真备不住谁七大姑八大姨说，哎，我这事我能搞定啊，你就不用用百度了是吧。这是李彦宏出来瞎说大实话的一个原因吧。就是大家注意啊，我每次讲李彦宏出来瞎说大实话的时候，实际上都是百度遇到了一些问题的时候，挣钱挣的不够多了啊，或者说是有一定压力的市场发生变化了啊。第一次是百度希望做内容营销，发现他遇到了版权的问题，出来瞎说了一个大实话。第二次是什么呢？百度希望做移动，结果发现移动里头有一帮人去搞这个隐私保护，又搞了一次。现在呢，是啊，去做大模型了，然后发现一帮人在喊开元对吧，他又又要出来瞎说大实话了啊。干了这么三件事，咱们最后讲一下，Lamar3到底会带来什么东西吧。Lamar3呢，会带来哪些改变啊？第一个，整个开元大模型行业会迎来爆发式升级，就所有做开源大模型的人…\n都会在未来的可能两三个月里头，就会升级自己的大模型。大家可以看看谁升级的快，哎，升级快的，这个就属于技术力比较强的。因为你想，你给你一个新的大模型，整个各种系统架构都是变化了，都是新的，效率更高，质量更好。大家就一定会去研究、分解，然后再去拿这个相应的训练方法，相应的注意结构，再去训练自己的模型。所以到未来，可能我们再使用在本机上三十几币的这种模型，就完完全全可以接近到GPT4的一个水平，超越这事还不敢乱说。然后你在服务器端可以跑到的这种70币模型，基本上是可以超越GPT4的。大概就是可以到这样的一个程度。

而且呢，各种Lama3的微调模型会快速爆发。就是我先不去训练新的，我现在这个基本上进行一定的微调，这些可能在几周之内就会疯狂上线了。然后呢，行业应用可能会快速的提升，这个可用性就提升了。比如说我原来是给建筑业用的，给银行用的，给保险公司用的，那么他们可能会发现，我这个升级了，升级了以后，这个系统一下就变得不是那么人工智障了，就变得好用了。这件事情应该可能在未来的一两个月里就会发生。

这件事情之后，从头训练自研大模型的公司呢，这个日子会稍微的再难那么一点，包括百度自己。这就是Llama3可能会带来的改变。而且我相信Llama3出来以后，在未来的半年里头，会有大量的新的公司出来，我要创业，我要再去做大模型相关的创业去了，一定会有人干这个事的。对于我们来说呢，可能还可以继续期待一下GPT5。我们不期待GPT5到底能够带来哪些能提升什么，真正需要的是GPT5可以给整个的行业再指明一次方向，大家向这个方向冲，这个是可以证明的。那么在这个过程中呢…\n这方向明确了，人跟钱都不缺啊。有很多人说我们很聪明，我们要干这个事情，还有很多钱啊，等着冲上去说：“哎，方向指明了，赶快上！”就想这个Solar大模型，现在还没有人上来用上吧，但是已经有大量的视频模型，已经冲上来，可以给大家使了。所以啊，Open AI，你指明方向就可以了啊。咱们也可以看看，到什么时候真的会出现能源短缺吧。其实现在大家在叫做芯片短缺，等芯片灯真的都充满了以后啊，咱们看看，是不是咱们会把所有电用光啊。这就是咱们今天讲的第一个故事啊，就是Llama三来了，是不是给李彦宏打脸了啊？但是我到现在还是认为，李彦宏说的话啊，就是真的是瞎说大实话啊。大概是这样的一个情况。