模型蒸馏 – 老范讲故事｜AI、大模型与商业世界的故事

别只当成科技八卦！Anthropic反华禁令背后的意识形态挂帅 vs 商业求生｜Anthropic Chinese-Owned Firms AI Services Ban Claude AI

Luke Fan — Sun, 07 Sep 2025 00:40:27 +0000

千万不要把这事当成又一条科技八卦。Anthropic突然发布的最严对华新规，背后的原因和影响，比大家想象的要复杂得多。

9月5日，Anthropic发布了最严对华新规，要求什么？立即停止向中国资本控股50%以上的集团及其子公司提供Claude服务。字节跳动的Trae海外版，不知道还能不能继续用Claude了。字节跳动的Trae国内版肯定是不让用Claude，但是海外版的主力模型就是Claude Sonnet 4、Claude Sonnet 3.7、3.5什么这样的模型，这个以后估计就悬了。

这项政策的显著特点，是采用了股权穿透原则，即不仅针对中国大陆的公司，还包括那些在海外注册，但由中国实体直接或间接控股超过50%的企业。

国际上这些做AI的大厂呢，其实都不让在中国使用。像OpenAI、谷歌、xAI，他们的服务在中国都是没法用的。OpenAI在这里头还稍微有点特殊，因为它的服务可以通过微软云在中国境内落地，所以它相对来说还比较宽松一点点。山姆·奥特曼在2023年还跑到中国来过，当时还讲说希望跟中国一起来探讨AI治理的事情。

即使是不能在中国落地的这些产品，通常呢也只是说因为监管或审核原因，也没有想什么其他东西。xAI的话甚至压根就没有禁用名单，虽然你在中国大陆使不了xAI的产品，但是你依然是可以用中国大陆的信用卡去充值的。OpenAI是不允许用中国大陆信用卡充值的，谷歌、xAI应该都没什么限制。

Anthropic这一次呢，就属于比较特立独行了。你说别人都不让使，他也不让使，为什么他就特立独行了呢？是不是因为股权穿透呢？不是这样的，他解释的原因比较奇葩。因为审核原因、因为监管原因，我不让你使也就拉倒了，他讲的是什么呢？

“受中国等威权地区控制的公司面临法律要求”，他首先呢给中国做了一个定义，叫“威权国家”。“这些要求可能迫使他们共享数据、与情报部门合作或采取其他行动，从而产生国家安全风险。而且无论这些国家在何处运营，或公司中个人的个人偏好如何，这些要求都使公司难以抵抗这些压力。”这个应该讲的是国安法，它要求一定要无条件配合。在这个里边，避免中国通过模型蒸馏等手段，借助Anthropic的技术来发展自身AI。

它算是首个美国主要AI公司公开实施的全面禁令，这个跟上面那几家的差异就在这了。人家随便写一个监管、审核就完事了，他是真的指名道姓地杀上来打脸来了。当然了，不光中国，这个里头还有俄罗斯、朝鲜、伊朗等国也都在范围之内。

Anthropic是一贯反华。其他的都是属于“我是公司，我遵守各国法律，法律不允许的我就不做”。比如说中国法律也要求他进行一些审核报批，我也不费这个劲了，所以我们就是遵守法律，我不歧视任何的人、任何的国家政权。但是呢，Anthropic就属于一贯地反华。在Deepseek发布之后，第一个跳出来，而且跳得最欢的就是他们。

其他几家呢，像谷歌其实啥也没说；xAI马斯克那边就是抓紧地买显卡，自己去干活去了；OpenAI呢看了看说：“我觉得还有差距，这个也有一些可取之处，我是不是稍微改一下方向？我们也要去把COT（也就是思维链）给大家公开出来，而且呢我们也要开始向开源的方向再稍微地挪一挪。”这是OpenAI的这种论调，老大嘛，你总要稍微稳重一点。但是Anthropic就当时直接跳出来说：“威胁了，这事不行了！”

而且呢，Anthropic一直是公开强调中美竞争的，多位高管在公开场合将中国视为AI领域的竞争对手乃至威胁。2025年4月份公布的《人工智能扩散框架意见书》里头，他们还专门地表过态。这个意见书呢，是针对美国商务部《人工智能扩散框架》的一个回应。当时呢，美国商务部写了这样的一个文件，说：“来，你们各个各家看一看，给我写个回信回来。”他们就写了一个。在这个回信里头，要求进一步加强对华出口管制，特别提到了说美国政府禁用了H20，这个是非常好的，以后应该再进一步再多禁一些。

这里呢要强调，是美国政府先封禁的H20，Anthropic出来附和一下，并不是Anthropic倡导了说禁H20然后就把它禁掉了，这要稍微讲一下前后顺序。黄仁勋呢肯定出来怒批嘛，他惦记做这个生意呢。黄仁勋在5月13号的声明中表示，控制AI对华出口的限制政策，反而将阻碍美国的竞争力，中国在AI领域进展迅速，限制无法阻挡。

而另外一点，Anthropic是所有的美国AI平台里头封号封得最严格的一个。不停地有人在抱怨：“我的Anthropic的账号被封了！”美国这些平台，OpenAI、谷歌、GROK，我们也都上去使去，但是我从来没有注册过Anthropic的账号。原因很简单，它经常会因为你的IP地址不对，或者你的IP地址经常发生变化，直接把你账号封掉，这个是非常非常讨厌的。我不希望自己花的钱直接打水漂了，所以我从来没有注册过他们家的，甭管是Plus账号，还是API的Token账号，从来都没注册过。

Anthropic为什么反华呢？网上呢，流传了一些梗，咱们就开心地听一下。他的CEO呢，叫达里奥·阿莫戴伊，是一个意大利人，原来是主要从事学术和研究，读博士然后读博士后，上公司上班的。第一份工作就是在百度，在百度呢干了大概是一年吧，或者差几个月一年的一个时间。当时呢也没到中国来，是百度在硅谷呢有一个研究中心，应该在2014年、2015年的时候。那个时候其实中国各大的互联网公司都在硅谷建研究中心。

达里奥·阿莫戴伊呢，当时是吴恩达的手下。吴恩达应该是在百度还多混了几年，应该是在达里奥离开百度之后的几年才离开百度的。达里奥在百度期间呢，算是有了一个初始的想法：scaling，就是规模法则，只要不断地扩大规模，就会得到意外之喜。他这个想法就是在百度产生的。在百度呢，参加开发了叫DeepSpeech 2的一个语言识别系统，这个系统呢是《麻省理工科技评论》评为2016年十大突破之一，所以他在百度还是做出贡献来的。

就有人很多人开始猜测了：“达里奥·阿莫戴伊在百度期间是不是受了什么心理创伤了？”“百度，你到底咋得罪这位老哥了，让他出来以后这么反华？”他一般情况下，一个人结束了学术生涯，进到公司里头以后，第一份工作应该会对他整个后面的生涯产生巨大影响。你怎么就培养了这么一个反华急先锋呢？

有人传说呢，是百度的变现和商业模式实在太恶心，刺痛了达里奥。也有人呢去传闻了，但这个就没有什么依据了，说达里奥是不是误信了百度的一些医疗小广告，然后对身体造成了一些不可逆的伤害。这个其实扯淡，因为达里奥从来就没有在中国工作过，你要想去信医疗小广告的话，你必须得在中国工作，他一直是在硅谷。所以呢，这个咱们当笑话听就完了。

百度和达里奥·阿莫戴伊呢，都没有在分手之后相互指责对方。但是呢，我相信达里奥在百度的日子一定混得没有那么开心。为什么这么讲？百度也肯定不喜欢达里奥，因为他的成果，也就是刚才咱们讲的叫DeepSpeech 2，这个得了奖的成果，并没有在百度内部产品化，也没有给百度赚到钱。百度自己后来强调自己在scailing law早期作出贡献的时候，也基本上没有提过达里奥的名字。你按道理说，有这么一位大神在你这儿上班，以后去了谷歌、去了OpenAI、创建了Anthropic，你应该与有荣焉一下才行。但“不，我们在这块我们也很厉害，这个人是谁不知道”，这百度基本上是这样的一个态度。

那么，Anthropic为什么反华？我们呢，从两个方面呢，稍微分析一下：一个呢就是意识形态方面，另外一个呢就是商业利益方面。

首先我们来看一下意识形态。咱们看一下达里奥的这个人生轨迹。他呢，前面都是上学和研究，他其实学生物学、物理学这些东西，他不是学CS的。但是呢，他加入百度以后，就开始进入到AI领域了。在百度待了一年左右吧，离开百度，加入了谷歌DeepMind，也就是说被谷歌挖走了。后来呢又离开了谷歌，加入了OpenAI。最后呢是离开了OpenAI，自己创立了Anthropic。

其实你们可以认为它是一个叫做“革命不彻底就是彻底不革命”的一个轨迹。怎么去理解这件事？就是你想，从百度到谷歌，变现上面呢要稍微地克制一些，百度那个变现基本上是不克制的，什么各种假药广告什么全上的这种东西。谷歌呢，还是自己要号称一下“不作恶”的，但是呢还是做了一些科技人才垄断方面的事情。OpenAI建立，其实就是为了反谷歌的这种AI霸权的。后来呢又因为跟OpenAI在安全领域，或者叫AI安全领域不合，说“我们应该做更安全的AI，而不是像OpenAI这样东西做出来就不负责任了”，所以他又从OpenAI出来去做了Anthropic。

所以呢，每一个前进的脚步都是道德要求越来越高的一个趋势。所以为什么我说他的整个人生经历，就是一个“革命不彻底就是彻底不革命”的人生经历。“百度你这不行，我找一个比你好点的，去谷歌了。”“谷歌发现你这也不行，那我们去创建OpenAI吧。”到了OpenAI以后发现：“你们这些人怎么又惦记赚钱去了？又没有好好地去为人类使命去奋斗了？”从OpenAI出来：“咱们再去创建Anthropic吧，这个才是最革命的！”这回终于我自己说了算了。

但是呢，你说这个里头有多反华，或者是对中国不友好呢？也没有那么多。真正搞意识形态的，其实并不是说达里奥·阿莫戴伊，而是他妹以及他妹夫，这两个人才是在这个里边起到关键作用的。

Anthropic里头的两个核心创始人是达里奥·阿莫戴伊和他的妹妹，叫丹妮拉·阿莫戴伊。他妹妹还受到他妹夫的影响，也就是叫做霍尔顿·卡诺夫斯基。这结婚了以后并没有改姓，也不是所有美国女性结婚了都要改姓的，特别是这些职业女性，他们结婚了以后不改姓是很正常的一个事情。

首先咱们来先讲一下达里奥的妹妹，丹妮拉·阿莫戴伊。她呢是个文科生，在美国学英文嘛，你就基本上认为是在中国学汉语这样的一个分类吧。毕业以后呢就开始参与政治，首先呢是在宾夕法尼亚州的国会竞选活动中去出力。在美国很多政治都是这样的，先参加到别人的这种竞选班子里头去，去做义工，在这个过程中呢，积攒人脉和经验。达里奥的妹妹就是从这儿起步的。成功以后呢，他就会跟着他选中的这个议员，或者帮助选中的这个议员呢，去华盛顿。她呢是短暂地担任了众议员Mate Catwright的通信主管，实际上也就是在下面帮他去收集民意、处理信件，做这样的一些事情。这个众议员呢应该是一位对华还相对比较温和的宾州民主党众议员。

做完这两件事情以后，就还是要去上班。因为如果他没有办法一直在政治圈里混下去的话，那就要找地儿去上班了。她去了哪呢？去了Stripe，就是很多人在海外做跨境支付的这个平台。她算是Stripe的早期员工。在Stripe期间呢，她主要负责跨境支付，与各种监管系统进行斗争。你想跨境支付嘛，你就需要跟不同国家的资金流动相关的监管系统去进行对接、博弈，要去做这样的事情。

从Stripe离开之后呢，就加入了OpenAI。加入OpenAI呢，是负责安全和政策相关的一个副总裁，还是老本行吧。她呢，深度参与了早期AI安全框架的搭建，负责平衡技术创新与风险防控的政策设计。“先进AI技术的发展必须内嵌安全基因，而非事后补救”，这就是她的一个核心观点。后来呢，OpenAI说：“我们现在继续走这条路的话不行了，我们一定要先去训练更好的AI，然后再去说怎么在后边做安全、做对齐，做这样的事情。”而丹妮拉的要求就是，我们要一开始就在里头设置安全基因。她呢2017年结婚，2021年呢离开了OpenAI。

她进入Anthropic以后呢，主要是负责安全框架设计、公共事务战略（也就是说跟政府打交道），什么都是他来管。前面去给这个政府写信，说咱们要继续加强对华控制，一般都是丹妮拉去写这个信呢，不会让达里奥去费这种劲，但是达里奥肯定会同意嘛。这个丹妮拉还会去做意识形态叙事相关的事情。这个事呢，在其他各大厂一般即使内部有，也不会对外宣诸，但是Anthropic这一块特立独行，它直接对外讲。

丹妮拉呢，将技术问题转化为价值观话题，在官方声明中屡次使用“民主利益”、“威权地区”等表述，构建了Anthropic技术服务于特定价值观的产品形象。

至于他妹夫，你想他妹的这些观点是哪来的？他妹的很多观点实际上是从他妹夫这来的。他妹夫呢，叫霍尔顿·卡诺夫斯基，这个呢是“有效利他基金会”的创始人，现在呢也是Anthropic技术团队成员，2025年加入的，主要负责安全相关事宜。

这个人的履历是什么样的呢？霍尔顿·卡诺夫斯基，他是哈佛的社会学学士，离开哈佛以后去了桥水基金，然后开始做慈善基金，后来呢创立了叫“有效利他基金会”。2017年到2023年，担任有效利他基金会的CEO和Co-CEO（Co-CEO就是还有另外一个CEO跟他一起合作，一起来做CEO的意思）。到2024年，霍尔顿呢去卡内基国际和平基金会做访问学者，主要研究AI安全策略。2025年加入了Anthropic。

咱们再稍微介绍一下有效利他基金会，以及有效利他基金会的一些基本宗旨，咱们也就看出来Anthropic这些宗旨是哪来的了。这个基金会的出资人叫达斯汀·莫斯科维茨，他呢是Facebook的一个联合创始人，他跟他太太两个人是主要出资人，而且签了协议说当我离世之后，我们的主要遗产都会给基金会，而不会把这些遗产留给子女。这个基金会呢募集了40亿美金，它呢主要是关注人类的长期未来，AI安全就是其中最重要的一个关注点。

核心理念呢，叫做减少“存在性风险”。什么是“存在性风险”？这也是一位著名的哲学家提出的一个理论，叫做“可能导致人类整体灭绝或永久性、不可逆地削弱人类长期发展潜力的风险”，这个东西呢叫“存在性风险”。他呢举了一些例子，比如说：全球核战争；失控的人工智能，中国的AI公司大多都被归类于这一类风险里头去了；大规模生物武器和流行病，他们对中国这方面呢也有指责，包括前面的疫情，这咱就不详细说了；然后气候变化造成的极端灾害性后果，中国是世界工厂嘛，人家肯定也会指责咱们；以及其他的全球性灾难性技术风险。

这个就是有效利他基金会的一个核心宗旨。所以呢我们可以看到，就是从意识形态上来说，霍尔顿，也就是CEO的妹夫，他呢做的这个有效利他基金会，就是Anthropic的所有的这些政策的一个最初始的出处，所有的理论知识都是从这儿来的。他的妹妹文科生，一直在研究AI安全；而CEO呢，受家人的影响，而且他的整个的人生履历也一直是“革命不彻底就是彻底不革命”的这样的一个路径。所以导致了他们在意识形态上非常非常反华。

再往后，咱们再讲一讲什么呢？就是Anthropic为什么反华，咱们在商业格局上再分析一下。你讲了半天意识形态，讲了半天政治，归根结底不都是钱吗？他在钱方面到底遇到了什么样的问题，一定要出来反华呢？

咱们这里就要看到，Claude这样的一个大模型，它的市场地位是什么。Claude跟其他的一些大模型不一样，它是最佳编程模型。就是办公或者是其他方面，可能OpenAI强一些，Gemini强一些，有些方面可能Grok的更强一些，但是编程这块它就是老大了。AI的所有能力上，它跟OpenAI、Grok跟xAI还是有巨大差距的。你比如说它在多模态上，这就相对来说比较差，虽然他审美还可以，你让他做界面设计还是OK的，但是他是没有这种绘画，或者是做视频、做音频，这些能力他是没有的。他主要就是进行文本和代码的一个处理。

全世界最主要的程序员和工程师团队是谁？是咱们华人，或者说是中国人。现在呢，网上一些不完全的统计，中国程序员大概占全球程序员的35%或者更多一些。因为呢，现在这种统计呢，没有办法特别完整，就很多国际上的统计是通过Stack Overflow或者是GitHub来统计的，而大量的中国程序员是不上这些网站的。所以按照这些口径去统计的话，中国程序员大概占35%，算上海外华人的话，这个比例大概是40%。所以全世界的程序员呢，大概将近小一半是中国人。在AI领域里头的话，这个数绝对过半了哈，你光写论文的这些人就可能超过一半了，在下头再写程序的这帮人，肯定中国人的占比是非常非常高的。

AI发展到现在，你前面比如说大家在卷模型、卷其他东西，但是现在呢，所有大厂包括中国公司都在卷AI编程这一块。刚才咱们讲了，Anthropic的核心竞争优势就是编程。但是现在说：“我们现在模型能力已经上来了，咱们就卷这一块了。”

OpenAI出了Codex，最近还专门收购了一个编程和产品优化的工具，11亿美金刚收的。谷歌呢是最近刚推出了Gemini Code Assist，也收购了Wizeline，也是专门的编程IDE的工具。xAI呢最近刚刚推出了Grok CodeFast，就是Grok的快速编程模型，这个模型现在效果也非常非常好，速度很快还挺便宜。

中国各大厂，字节跳动最早上来做了叫Trae这样的一个AI IDE；阿里呢前面做了通义灵码，最近呢还专门发布了叫Qwen-Coder吧，这样的一个AI IDE；腾讯呢做的叫CODE BUDDY的一个IDE。大家都在卷这一块。

从模型角度上来说呢，月之暗面出了叫Kimi K2；千问呢直接出了叫千问-coder；Deepseek也是说我们做Deepseek V3.1；智谱呢做了GLM 4.5，都是直接对标Claude大模型的，说我们跟Claude code大模型已经能力差不多了。

而且呢，他们做了一个特别过分的事情是什么呢？就是直接去对接Claude Code这样的一个产品去了。大家注意，Claude大模型是大模型，Claude Code是一个单独的产品，是一个编程用的AI agent。本来呢，里头应该是用Claude自己家的模型去使用，但是呢这帮中国的模型厂商不讲武德，把自己的API接口仿真成了Anthropic的API接口，说：“来，你就调我吧！你调各种的Claude大模型，我就去仿真去，我去做一个假的Claude模型来替你服务。”他美国大厂一般是不干这个事的，这个事是会被告的，但是中国这些厂就开始搞这件事了，效果奇好。

因为Claude Code这个产品本身呢，虽然它并不开源，但是呢在GitHub上直接提供，大家都可以去下载。大家调用Claude模型贵，而且呢也容易被封号，那干脆咱们就调国内的吧。我自己呢就是用Kimi K2的，速度飞快，而且价格大概只是Claude的1/10甚至更低一些，效果还是很好的。

这个呢，有点像一场什么呢？叫“轰轰烈烈的对口型大赛”。大家知道什么叫对口型大赛吗？就上面这人在唱歌，或者人家已经唱好了《我的太阳》，帕瓦罗蒂唱的，这种一般人你唱不上去，但是我又想表演一下怎么办呢？这边放着音频，我在旁边对口型表演一下。所以国内这帮模型厂商都搞了这么一个档子事。

这个呢，绝对是动了Anthropic的命根子，真的是直接杀掉的感觉。如果在AI编程领域，Anthropic被大厂覆盖了，或者说被大厂竞争得直接失败了，其他领域的话，Anthropic基本上是无法立足的。为什么呢？因为它没有流量入口。所有大厂，甭管是xAI、谷歌、OpenAI、微软，包括国内的这些大厂，都是天然有流量入口的。而Anthropic，你编程这一块如果搞不定的话，其他地方你就需要去跟大厂们去抢流量入口，你需要到大厂去交钱、去买流量去，这个事他是玩不转的。

所以呢，Anthropic在这样的一个环境下针对中国厂商就合理了。他的两大核心产品都很危险。两大核心产品，一个是Claude大模型，另外一个呢叫Claude Code这样的一个专门用于编程的AI agent的产品。Claude Code直接被截胡了，因为这个产品是可以免费下载的。他原来想的是，你下载了这个东西就要使我的模型，你就需要向我交钱，甭管是买Token也好，还是买我的Max账号——Max账号是一个月200美金的那种账号——我都可以把这个收入提上去，我们还可以绑定你的开发管线，让你直接在我这一直使下去，迁移成本不断上升，不能离开我。但是现在呢，我们下载了Claude Code这样的一个工具之后，就直接模仿了Anthropic的API接口，把Deepseek、Kimi K2、把这些东西全接上了。

而且呢，我们另外一面还在拿Claude的大模型在不断地蒸馏，蒸馏它的数据回来去训练我们自己的模型。所以在这块Anthropic觉得：“我们可能要被中国厂商欺负死了，所以一定要针对他一下。”所以这就是他从意识形态和商业形态上两个方面来去解释他为什么反华。

那么，这个事情未来的发展和影响是什么样的呢？Anthropic从估值上呢，绝对算是大厂，它现在也1000亿美金往上了。但是从产品形态上呢，还是相对来说比较小而美的。从互联网、移动互联网行业的发展历史来看，像Anthropic这样的公司，最终的结果只有两种：要么被收购，要么被干掉。因为什么呢？就是它不太具备独立成为完整平台的能力。你要想成为完整平台的话，你就要“和光同尘”一点。你像谷歌、苹果、Facebook、微软这些平台型公司，他会上来说“我要讲意识形态”？他不会搞的。他就是说：“我们尊重各国法律。你要罚我，我就上来上诉；上诉失败，我就老老实实交钱。我要尽量把生意做下去。”这才是成为平台公司的一个基本素养。一上来就说“我要高喊意识形态”，这种是很难往前走的。

而且呢，你想成为平台，有一个很重要的因素是不可或缺的，是什么？就是中国开发者。刚才我也讲了，中国开发者占全世界开发者的，可能算上华人吧，40%往上。各大开放平台里头，排名靠前的这些开发者，大部分都是中国人。当你一旦是限制中国开发者在里边去做事情的时候，就基本上断绝了Anthropic自己成为一个大型平台公司的这个后路，这事就搞不定了。还不像是YouTube这样的内容平台，内容平台你可以离开中国的内容创作者，这个是没问题的，有的是印度创作者或者其他创作者在这干活。但是编程平台你离开中国人，这事就绝对玩不转。

好，这个故事呢，就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

马斯克重磅发布GROK4：史上最聪明AI大模型横空出世，强化学习碾压GPT-4与Claude，20万张H100显卡大力出奇迹，中美科技差距再度拉大，谁将主导AI未来？

Luke Fan — Tue, 15 Jul 2025 00:42:44 +0000

史上最聪明的AI大模型GROK4诞生了。马斯克亲自坐镇开发布会。视频发布会呢，并不是特别的顺畅。第一个呢，是他晚了一个小时，也没说为什么。反正马斯克的直播经常会晚。然后呢，太多的东西需要集中发布，上下衔接的呢比较仓促一点。

最早期很多的互联网公司开发布会也是这样的，两三个小时七差咔嚓发一大堆东西。后来OpenAI这些公司习惯了在网上开直播以后呢，就慢慢把这风格改了。改成什么呢？就是每次发一个功能，发个十分钟二十分钟就完事了。然后呢，不停的发，每个月发每个月发。Xai呢，现在还没有彻底学会这件事情，还是一股脑给大家扔了一大堆东西出来。

我们以前在面对创业者的时候，每次都会苦口婆心的去做一种劝告。大家可能不知道会劝什么。作为投资人来说，我们每次看到任何一个创业者，都会上去劝一件事，叫不要憋大招。你一次要惦记着做一个大的东西，就很容易失败。你应该是做一些小的东西，一点一点放出来。OXAI现在还是憋了一个大招。当然了，XAI后面呢，也会每个月发布一个新的工具出来，它也慢慢的向这样的一个方向去前进。

8月份呢会发编程，9月份呢会发多模态。虽然现在的GROK4呢，也号称是可以出图吧，但我不确定他是可以做图片理解的，做视频理解。但是呢，他这一块应该还不是很满意，9月份应该再会去做发布。10月份呢会发视频。GROK4的模型要直接做视频生成。一个百无禁忌的模型，能够做视频生成，还是挺值得期待的一个事情。

到年底呢，准备发企业功能包。这是个什么东西？GROK4是允许私有化部署的。你可以向他申请说，我家里有这个云，我们企业要用这个东西，给我部署到这边来。GROK4还会有合规工具包，企业级的技术支持。美国区的Oracle云账号，现在已经可以使用Grok 3了。Grok 4还需要等。Oracle云并不是XAI自己家的云，你可以在上面使用Grok 3。

一些测试呢，其实也并不是特别成功。比如说命令它唱歌，结果呢，这个东西没有唱歌，他做了一个诗朗诵。当然了，不论是唱歌还是诗朗诵，对于一个机器发声TTS的一个功能来说，已经是很强大了。既然敢在上面当着马斯克的面要求他唱歌的话，那说明这个东西是会唱歌的，只是当场没唱出来而已。

那么GROK4到底是一个什么样的模型呢？妥妥的叫别人家的孩子。什么叫别人家的孩子？就是你看邻居家的小明，怎么考的这么好，每天上课都多么专心，经常被老师夸奖。

GROK4呢，属于典型的理工男模型。GROK从三开始，一直是有一个很双面性的东西：一方面是理工男，另外一方面呢，比较百无禁忌。GROK3有一些比较奇葩的用法，待会咱们再去讲。GROK4我估计会继承这些使用方法，而且会变得更加厉害一些。

但是，马斯克作为一个理工直男，跟一帮工程师坐在那发布GROK4，肯定是奔着理工男的这个方式去发布的。所以，其他那个用法他就没怎么讲。所有跟做题相关的数据都被刷了。而且，这一次是遥遥领先。前面呢，Gemini 2.5、GPT O3 O4、Claude 4这些呢，他们在刷这些题、刷这些排行榜的时候也会有提升，但是提升的不会那么高，经常是这个我高一点，那个你低一点。

但这一次的话，GROK4完全属于是断层式的碾压，一下比别人高了非常一大块。特别是大家提到的，有一个叫“人类终极测试”的竞赛。上一个冠军呢是Gemini 2.5，正确率呢是21%。GROK4，不使用任何工具，就闭卷考试26.9%的正确率；使用工具就是41.0%的正确率。如果使用叫Grok Heavy，一个超重的模型，它是一堆的GROK一起来干活，干完了以后自己相互吵架，吵出一个结果来，它可以达到58.3%的正确率。

所有人都在讲说“人类终极测试”，什么是“人类终极测试”？它呢是一套测试题库，2,500道题。发起人是谁呢？有一个叫Center of AI Safety（CAIS，AI安全中心）这样的一个机构为主导构思与学术把关的。那么，谁出钱呢？谁做工程技术实施的呢？叫Scale AI，就是刚被美塔投了一大笔钱进去的，那个华人小伙子创业那项目，140多亿美金刚投完资的那个项目。他来去提供的数据工程和资金支持。

做这种题库并不是那么贵，花不了太多钱。启动呢，是2024年9月16号，公开全球征题，标榜找出AI也答不出来的难题。花了多少钱呢？给了50万美金的奖金池。Scale AI给的钱，最高呢5,000美金一个题，奖励前50名作者——就是你出的题特别好，5,000美金一个题。第二梯队呢是500美金一个题。后边呢就是100美金每个错误——我把题上来了，大家来找错误。

现在这个题库呢是在GitHub上，在Hugging Face上都有，大家可以上去找错误。找到了错误，给它修正了，可以得到100美金。所以呢，它整个的运作方式就是50万美金一个奖金池，咱不停的发。到现在为止呢，依然在不断的更新这些题库。

这个题库呢是公开征集的2,500道题，41%的数学题，14%的多模态的题。另外呢，还保留了私有隐藏集防止过拟合。过拟合什么意思？就是说我刷题呗，除了这个题之外的东西都不会吗？前面这个Llama4就是死在这个过拟合上了，题刷的特别好，结果发现不是这个题库的题不会做了。

他怎么来预防这个过拟合呢？就是有300道题是隐藏的，任何人去刷这个题库，你看不到这300道题。用AI大模型去做这个题的时候呢，它就会把这300道题拿出来，这个模型就始终会遇到新题，遇到没有做过的题。

整个的这个运作方式呢，第一个是叫众包的征题，大家都来出题。第二个呢是做前沿模型的筛选，就是用当下最强的大模型（GPT4O，Gemini2.5，Claude 3.5）这些题呢进行模拟考试。当这些模型的得分不比随机猜好的时候，这个题目才会被保留下来，进入人类最初考题的这个题库。比如说咱们原来都讲a b c d考试嘛，咱们全填a得25分，如果这个这些大模型做的分没有超过25分，我们就把这题留下来，超过了我们就这题不要了。它是这样来出这个题的。

出完这些题之后呢，再进行两轮的人类专家复核，在Git Hub和Hagging face上面去公布，让大家去找错误版本。定版以后保留私有级并记录版本哈希，他是这样来工作的。

你说人到底能做成什么样人类最终考题？人呢目前为止，没有一个公开可验证的成绩。有人试过，据说是需要耗费极长的时间去做，但是也没有人呢去真正公开说我到底得了多少分。所以马斯克这次说，他的大模型可以做到50多分了，说应该已经超过了绝大部分的人类，我觉得这个事情是可以这么认为的。

马斯克认为呢这一次他发的GROK4就是有史以来最聪明的大模型了。当然了，马斯克这个嘴呢，大家就听就好了，因为GROK3发布的时候他也这么说的。而且马斯克讲了说他的GROK4已经达到了全科目博士水平了。

那么GROK4到底有什么不一样的地方呢？它是第一款预训练和强化学习相对比较平衡的大模型。什么意思呢？正常我们去做一个大模型是做预训练嘛，做一个模型出来。做完这个以后呢会去做强化学习。所谓强化学习呢，就是状态动作和奖励，在某一个状态下，我要求你去做一个什么动作，如果做对了我给你奖励，做错了就没有奖励。这个大模型自己按照积累更多奖励的方式进行训练。像我们比较熟悉的比如Deepseek R1推理模型也是如此。

就是他先去做一个基准模型，叫Deepseek R1 Zero。然后呢，在这个模型的基础上去做推理的强化训练，得到了Deepseek R1。

但是，以前传统的模型是怎么做呢？就是先消耗巨大量的算力和数据进行预训练，把这个Zero（0）模型做出来。然后呢，再用远小于预训练成本的算力去进行强化学习。一般呢，它的强化学习的成本大概也就是预训练的10%到20%左右。

然而，GROK4呢，它是预训练跟强化学习所耗费的成本与算力基本相等，两边一样多。所以它是有史以来第一次用这么多算力去做强化学习的模型。当然，你像Deepseek，它想干它也干不了，20万块显卡它没有。

GROK4呢，首先是使用GROK3的一部分权重，就是有些层次的权重它就直接用了。然后补充数据之后进行预训练，得到了一个叫GROK4 base的基础模型。接着，投入空前的算力进行强化学习，投入了20万张算力卡直接进行强化训练，按照奖励最大化、长程回报的方式。

什么叫长程回报呢？就是你要做很长的推理，要积累正确的奖励，让这样的一个算法去进行训练。而且呢，是动态的任务池，包括数学推导、代码单元测试、商业模式和人类最终题库，这些高级的环境都要进去进行强化训练。

XAI呢，直播的时候讲到说，模型越聪明，强化训练的任务呢就越少，需要自己动态地去做题，否则你就没有那么多题可做了嘛。智能体在模拟环境下或者是真实的API工具中试错、自我对弈。因为有一个叫做Grok heavy的模型，就是一堆的Grok的模型自己跟自己之间吵来吵去的，最后看看怎么能够提高训练效果。

在训练期，让代理互相评论；推理时，并行生成交叉式复审核成答案，再去进行这样的学习。所以它的这个算力是非常浪费，但是效果很好。而且呢，它会监控成功率，当大于80%的时候，会自动生成更难的对手、更长的推理链，解决奖励稀疏的问题。

就跟原来说小学生：“哎呀，我今天考了95。”一回到家里以后，父母肯定说：“你为啥不考100呢？前面还有人没有？”都是这样来训练出来的，就不断地PUA，这个产品就出来了。

它的强化训练计算量达到了同类产品的10倍以上。GROK4的强化训练连续跑了7周，每天消耗的电力相当于一座中等城市。所以说，AI的竞争最后是电力竞争。结束了以后，他再把多代理策略的这些东西进行蒸馏，形成一个单代理的版本。

所以呢，我们平时去使用的公开的API调用的Grok，不是heavy的那个。

就是蒸馏后的这个单代理模式。而且除了强化学习之外，还有一个很重要的东西是什么呢？就是原生的工具支持，这个也是非常厉害的。因为现在的大模型都是可以调用工具的，调用方法也很简单，就是你在给它提示词的时候，把工具的描述描述进去。说我这有一个扳子，那有一个锤子，这里还有一个电焊，有一大堆这样的工具。你先把这些东西都介绍给这个大模型，然后呢，大模型再根据说你的提示词进行推理，在推理的过程中来决定调哪个工具。这个东西其实是需要训练的，有些工具你会使，有些工具不会使，或者有些工具你根据这些描述应该如何去使用，它是需要训练的。所以Grok专门在这块进行了训练，它的这个原生工具的知识要比其他的模型要好。所以呢，它叫高度动态的工具知识。

GROK4的工具体系不仅仅局限于文本生成，它能够根据任务需求动态调用外部的API、计算工具、模拟器等等，使得它能够处理更复杂的任务，例如实时推理和决策优化。而且呢，它是多智能体合作，因为这个东西一开始它就是相互之间吵架吵出来的嘛。不同于大多数模型，GROK4的原生支持多智能体的这种合作方面的创新。以前都是以智能体为核心，我们再去调别的工具就完了，但是GROK4支持智能体之间调用的，就可以使得模型能够在推理过程中模拟复杂的多角色互动场景。这在处理开放式任务、模拟环境和长期计划时非常重要，这个是它的一个创新。

然后呢，多模态的知识。Grok对于图片、音频等非文本数据是内建支持的，使得它在处理涉及视觉、声音以及其他感知数据的复杂任务的时候，能够更加高效的融合多种信息源，优化推理能力。通过强化学习和专家模式的结合，GROK4能够在大规模任务中实现更高效的推理，尤其是在与外部工具和数据库交互过程中，提升了准确性和可扩展性。这个就是GROK4真正强的地方。第一个是用了空前的算力去做强化学习训练，另外一个跟大家强调的就是对于工具的这种原生支持。

讲的这么热闹，这个使用起来到底怎么样呢？第一个，我自己的账号是8美元的x账号，这个不让用，只能用GROK3。GROK.com上也只能用GROK3，不让我用GROK4，必须要升级30美金一个月的super Grok账号才可以去用GROK4。你要想去用那个Grok heavy，就是那个特别重的那种相互吵架的这个大模型，一个月300美金，稍微有一点点小贵。那你说我讲了半天我用没用过？用过了，通过API调用。

现在呢，我们可以通过x.AI的网站去调用GROK4的这个API。它上头有一个模型叫GROK4-0709，就是7月9号这一天发布的这个版本。当然，比较遗憾的是什么呢？现在GROK的这个API调用所有的优惠都停止了，只能老老实实地烧TOKEN。也不是很贵吧，去年呢，是每个月送25美金，基本上是够使了。今年是5月份之前呢，同意共享数据充值5美金送150美金，这个也是一个比较不错的优惠吧。但是5月份以后这个优惠就停止了，所以现在就老老实实烧就行了。它呢，是3美金100万TOKEN的输入，15美金100万TOKEN的输出，所以它的整个价格不贵。上下文呢是256k，支持推理，支持多模态输入。

现在呢，它有一个调用限制，每分钟可以调用60次，超过了以后呢它就会卡住你，这个是有问题的。所以，我确实去用去了。使用的感受怎么样呢？这个就当我们跟博士在一起工作的时候，会自惭形秽吗？我相信可能在我听我节目的人里头，有一些人是博士。你跟博士一块去聊天，一块去干活的时候，真的觉得他们特别伟大光荣正确吗？其实也没有。博士有时候未必懂得人情世故，未必好打交道。我个人的感受呢也是如此，并没有感觉比ChatGPT或者Claude好更多。有时候呢也犯一些比较低级的错误，质量，指令的依存度并不是很好。

我做了几个测试吧，比如说我要求的他先去做搜索，根据搜索一些信息去给我做总结。出来的结果呢，会混杂html的标记在里头。因为你搜索的结果是带html标记，语言那些标记的嘛，出来了以后就会带这个。我在提示词里写着说不要带html标记，把相关的标记转成Markdown，发现依然是带着这些标记就出来了。所以呢至少到目前这个版本吧，效果还没有那么好。但是他们应该内部还在迭代吧，可能很快就会改过来吧。

在处理日常工作这方面呢，他的能力与科研能力之间其实并没有直接的联系。就是大部分人其实都可以处理日常工作，但是很少有些人可以去做这个科研。而GROK4主要提升的是科研能力，所以前面我们讲所有跟数学相关的，跟这个推理相关的遥遥领先。但是处理日常工作这块呢，基本上也就这样了。一个理工直男博士，往往是笨嘴拙舌，缺乏生活常识，以及指令依存性不是很高的一个人，符合我们对博士的这种刻板印象吧，或者也属于在情理之中的一个事情。

所以现在日常工作处理方面呢，到底考核什么？第一个是工具能力，第二个是指令依存度。

第三个是一些对齐的能力。这块其实现在GPT、Gemini、Claude、Grok、Deepseek基本上都能使用，没有特别大的差异。

输出质量呢，在不同的领域各有差异。GPT相对来说是比较均衡的；Gemini呢，有点像理工男；Claude的输出让人觉得比较舒服，但要稍微油滑一点；Grok呢，有的时候给你黑色幽默一下；Deepseek喜欢瞎编。

稍微勉强达标的是谁？就是千问跟豆包，叫勉强达标，稍微要比上面那个梯队差那么一点点。我呢，还没想到具体要用Grok4做点什么高大上的事情，因为对于普通人来说，你也想不出什么高大上的事情让他干去，所以这个先使得吧，价格也不是很贵。

再往后一个问题是什么呢？说好的开源哪去了？马斯克原来讲的Grok是要开源的呀。Grok1现在其实已经开源了，在Grok2发布的时候就开源了。但是呢，也仅仅是开源了而已。正常你开源一个项目，你是要文档、要社区、要维护的。但Grok1开源了以后呢，是一种非常不友好的开源。它那个模型很大，一般人你也部署不了，所以它也没有跟别人去做各种兼容性的适配。有些人去提问题、提意见，他也不理人家，就往这一放就完了。这种开源代码，属于是比较低质量的开源项目吧。

马斯克呢，曾经承诺过，新的模型出来，就一定会把上一个版本开源出去。Grok3发布的时候呢，大家就在等Grok2的开源，当时也承诺了，等Grok3稳定下来，就把Grok2开源掉。现在Grok4都出来了，Grok2跟Grok3就都没有开源的动静了。整个的发布会上，也没有再提开源的事了。对于马斯克来说，贵人多忘事，直接忘掉了吧。

Grok以后会提供企业私有部署的服务，这个呢，其他三家还是不一样的。像Gemini、GPT、Anthropic，他们应该都不会去提供这种企业部署的。以后未来是否会开源呢，还要看未来的策略。其实开源对于他们以后去争取企业私有部署的订单是有好处的。实际上他所谓的开源，也叫开放权重，并不是开放源代码。开源是一个很消耗人力的松耦合和协作方式，马斯克他们XAI现在人也不是很多嘛，所以现在一时半会顾不上。

也没准到年底的时候又想起来说，我们再开个源啥的，大家可以再继续等待一下。马斯克现在呢，应该也没太考虑到XAI到底能不能挣到钱的问题，反正他现在不停地往里募资，不停地融资，融的钱也够他花的，因为他人不多嘛。

也不需要跟别人去抢人，主要花的钱都是烧算力去了。买显卡、烧电费，就干这玩意去了。

再往后呢，咱们看一下大模型的意识形态问题。因为Grok呢，是一个比较奇怪的大模型。咱们要知道，最一板一眼的大模型，或者说道德感最高的大模型是Gemini。GPT呢，原来道德感也很高。最近的一段时间，特别是Deepseek R1出来以后，这段时间呢，GPT实际上是把道德感降低了一些。最没有道德感的实际上就是Grok。

Grok呢，最近还出了一个特别神奇的事情，叫做“日本烟花事件”。怎么出的事呢？就是做了一次黑色幽默。应该在7月5日，有人放了一个特别漂亮、特别大的一个烟花的照片，就在那说：“这是日本最大的烟花了。”另外一个人呢，回复说：“应该还有更大的吧？”这个时候呢，就有人去问Grok了，就@Grok在Twitter里头，在X里边问他：“什么时候日本有过更大的烟花？”

Grok就回答了：“日本广岛跟长崎被丢原子弹那两次，是更大的烟花。”日本人肯定不乐意了嘛，说Grok太不照顾我们的民族感情了。Grok呢，还在那嘴硬说：“这是一个黑色幽默。如果你感觉不舒服的话，我道歉一下。但呢，这就是一个历史事实，我也没有编什么。”

日本网友就说了：“说两颗原子弹呢，杀死了很多的无辜民众，这个才是事实。”Grok的回复特别逗，他说：“南京大屠杀这个才是历史事实，有很多的无辜民众被杀了。”然后日本网友说：“南京大屠杀这事是个谣传，没有南京大屠杀，凭什么说这是历史事实呢？”Grok又去回去了：“有各种笔记、照片，还有审判的一些记录，都已经证明了。虽然死亡人数上有争议，但是南京大屠杀是被普遍认可的历史事实。”

就是这样的一个故事，让日本网友稍微有点小破防。日本人现在正在想说：“我们是不是要去抵制一下特斯拉呢？”这事是7月5号发生的。7月10号早晨，XAI把Grok相关的评论都删了，准备开发布会了。发布会之前，不能有这种不和谐的声音在这里。

Grok干类似这种有争议的事情，其实也不是一回两回了。他经常做这种黑色幽默，得罪一些人。但很正常吧，黑色幽默通常是有一些冒犯的，不能保证所有人看着都很开心。你要如果所有人看着都很开心，那就不叫黑色幽默了，那玩意叫“伟大光荣正确”的。

Grok呢，曾经出现过意识形态投毒的事件。2025年5月14号，Grok对于用户无关提问，比如棒球、HBO更名等等这些事情进行回复的时候呢，反复提及南非白人种族屠杀和“kill the boy”，应该是BORER吧。

这样的一个歌反复在提这个。这一行为呢，引发了广泛的关注。因为白人种族屠杀是一种极具争议的极右翼阴谋论，已被南非法院和多个权威机构驳斥为缺乏证据了。

Grok甚至在某些回复中称，这是被Xai的创造者所指示的，将这一个问题视为事实、种族动机驱动的一个事件。这是Grok承认的事情，因为马斯克自己始终坚信南非是存在针对白人的种族屠杀的。因为他是老板嘛，所以就有人把这个东西直接写在系统提示词里头，直接投毒投到x上去了。大家在x上发帖的时候，如果你@grok，他有时候会回来回帖的。

这一次日本的烟花的事件呢，也有人指出了为什么他就这么去怼日本人，而且会去提到南京大屠杀呢？有人说XAI团队里的中国人占比太高了，特别是在中国大陆出生、接受基础教育的人，占比是最高的，基本上大概占一小半。到目前为止没有一个明确的确认说有谁日本人在里头。在这里头大概就是中国人、俄罗斯人加上一些东欧的人，是这样的一个团队组成的XAI。

甚至现在有人认为呢，XAI是一个被中国有意识制造的特洛伊木马，派了大量的研究者进去。其实这个事儿不光是XAI，美国所有AI公司里头大概都有一半，没准还有一多半是中国人。而且这些人是在国内接受过初等教育的一些人，占比是非常非常高的。

那么新的态势是什么样的呢？现在Grok的市场地位呢，首先它的市值是第二。最高的呢是OpenAI，3,000多亿美金；1,000多亿美金的Grok是第二。所以它的市值要比Anthropic高很多。其他的大厂，谷歌你没法跟它比，那玩意是上万亿美金的公司。所有的AI的这种新公司里它的市值第二，但是市场占有率呢并不大。

市场占有率最高的肯定是OpenAI，大概占百分之三四十的份额；Gemini是第二，应该有个20%多；Anthropic的Claude有十几；剩下的大概还有30%左右呢，包括Grok，包括LLAMA、千问、Deepseek，都在这个其他里头。

Grok的APP不算x那部分，就是APP自己的日活应该也是有个几百万吧，月活可能几千万的一个样子，就是数量还可以。在一些特定的领域里头呢，被应用的很好。Grok你是可以通过API直接调用x数据的，不是具体说我要看张三的哪一条或者李四的哪一条，不是这样的。而是什么呢？你可以看趋势数据，说最近x上有什么新趋势，你可以直接通过API直接调用它，这个还是很方便的。另外呢，顾忌比较少嘛。

所以，很多人在用Grok写小说。还有呢，因为Grok的顾忌相对来说比较少，所以它有一个比较特殊的用途。刚才咱没讲，就是有一堆人在去研究越狱提示词，让Grok去写黄色小说。大部分的色情小说，其实是Grok写出来的。

按道理来讲呢，应该有人用Grok做工程、技术方面的工作。但是这个可能离我的生活稍微有一点点距离，所以我并不是特别了解。这个应该也是马斯克他们去训练Grok最主要的一个用途。他们不可能说我训练了一个东西出来，可以怼人、可以讲黑色笑话，还可以写黄色小说。马斯克应该也没那么闲吧，人家还惦记去火星呢。

另外一个我们要发现的势头变化是什么呢？就是通过GROK4的发布，美国再次拉开了跟中国之间的差距。把GROK4发布了以后，中美之间的大模型差距就重新拉开了。在科研、工程技术领域，绝对的遥遥领先了。我呢，没有验证过，希望后边不要翻车。因为有些东西我们这讲的很热闹，没准过两天翻车，这个可能性我们不希望看到。

而且这种大力出奇迹的领先，中国因为缺少算力卡，追赶起来是比较费劲的。它是20万块英伟达H100去做的强化学习，中国你凑不出20万块H100了。你要想拿其他的卡去做这件事情的话，你需要比如说200万块，或者更多的一个卡池，才有可能能够达到同样的效果。你要耗可能比马斯克多10倍的电，才有可能达到这样的效果。这个的话还是要看大家是不是有决心了。国内这些大模型公司一般烧不起这个。

如果说咱们想追上这一个事的话，估计要等10月份，川建国同志带着黄仁勋访华了。如果10月份它成行，带着黄仁勋来了，那没准咱还是可以追赶的。否则的话这事费劲。而且这种领先是全方位的领先，因为这是科研速度的全方位的领先。在各个方面的科学研究，Grok都有极大的提速。可能对于中美科技之间，会有一些新的改变吧。

新的方向已经指明了，有卡的公司们那就准备冲了。因为他这件事呢，说的并没有那么复杂。原来大家都是说我们做完预训练，做完这种Zero模型或者base模型，稍微的做一些强化学习就完事了。现在说，我们把这强化学习一直做下去，就可以有非常非常好的效果。那大家干呗。

OpenAI、谷歌、梅塔，这都是手里有卡的人。而且现在梅塔在挖OpenAI的人，前面掉队了。我们有卡，我们要把它干起来。OpenAI现在也在挖人，OpenAI在挖XAI的人，就是在挖Grok的人。因为你把20万块卡堆在一块去干活，让他们之间能够很好的调度。

这个事它也是个学问。既然Xai你已经把事搞明白了，那Openai说来，我花钱挖你的人就完事了。既然GROK4可以靠20万块算力卡做强化学习，直接把成绩拉上去，其他公司肯定是不甘落后的。这个是中国相对来说比较难追赶的一个事情吧。

华为呢，应该学英伟达，自己就别训练自己的模型了，好好搞你的升腾芯片拉倒了。搞了半天的这个盘古大模型，还不够丢人现眼的。

最后呢，总结一下GROK4的发布呢，其实让我想起了一个东西，就是《三体》这个小说里边讲的黑暗森林法则。为什么想起这个呢？黑暗森林里头其实它是四个法则：

第一个是宇宙资源有限，文明生存优先。

第二个叫猜疑链，就是：我怎么向你证明我是好人？我怎么知道你是好人？我怎么相信说你知道我是好人以后会很好的对待我？猜疑链不断延长呢，就容易去打起来。

第三个是什么？就是技术隐藏与技术爆炸。《三体》里讲黑暗森林法则的时候，看到任何人，哪怕他的技术比你差很远，都要一枪打过去，然后把他干掉。因为呢，距离很远，你不知道什么时候能到那，没准你到那的时候，人家技术大爆炸，一下就比你先进了，可能是反过头来就把你干掉了。这是这个黑暗森林法则的前三个要素。

第四个要素就是沉默是生存的策略，就是大家谁也别吱声，在里头藏好。

那GROK4呢，就是一个技术爆炸的冲锋号。因为他一旦上来以后，所有的理工科或者是工程技术方面的科技方面的，就可以大爆发了。美国这些油卡的公司会继续加大算力做强化学习，会快速赶上。中国，追赶也是必须的，我们再难还是得赶。毕竟美国公司里边还有这么多的中国人，比这个任何族裔的人的比例都高。

卡呢，咱们确认肯定不多了，那看怎么去新加坡，怎么去中东土豪那边去，把这些卡再重新聚集起来。或者说咱们把这个升腾的卡看看，拼吧拼吧能不能干点什么事出来。

GROK4应该是会对整个的AI制程行业带来改变的一个大模型，就像咱们年初的Deepseek R1一样。Deepseek R1出来之前，整个大模型圈子里头都是岁月静好了，OpenAI都开始挤牙膏了。Deepseek一出来以后，中国人来了赶快卷呐，甚至有一段时间他们都觉得哎呀，中国已经追上来了。但是到GROK4开始发现，哎，这个距离又拉开了。而且真的是有一样他们可以卡脖子的东西，咱们没有。他有他的训练，完完全全就是靠这20万块卡，咱们搞不定这个事情。他有，直接搞定了。而且这个东西不仅仅是Grok的领先，而是全方位的。

科技与科研的这种领先，所以这一块的话，可能世界格局都会带来一些小小的变化吧。后边我们还有很多的故事可以去讲吧。好，这就是我们今天要讲的GROK4发布的故事。

开源巨头Meta深陷Llama 4作弊风波：高分低能引爆质疑，测试数据竟混入训练集，AI圈还能信任谁？

Luke Fan — Wed, 09 Apr 2025 00:44:15 +0000

Meta的Llama4发布之后，深陷作弊风潮。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊，他到底是不是真的作弊了。

前面我们做过一期视频，说Llama4发布的时候没有太大的响动，因为它出来以后发现，虽然评测还不错，但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了，负面消息传出来了，说你大模型出来的时候跑分的成绩很高，但是我们使起来不是这么回事，有点名不副实的样子，特别是编程的效果极差。

为什么大家去比较编程呢？两个原因：
第一个，去玩这些开源大模型的，一般都是程序员。
第二个，编程是一个相对来说标准比较统一的评测。你编得出来编不出来，编完了效果怎么样，这个一眼就能看出来，没法作假。你说我写个诗或者写个小说，这个玩意还有仁者见仁、智者见智的时候。这编程这个东西，对就是对，不对就是不对，或者你做完了以后它的效果有问题，一眼就能看出来。所以现在被人质疑了。

当然了，国内很多大模型发出来以后也是去跑分，跑完分以后也有人质疑，但是呢，并没有那么大的声音。为什么？一般情况下好像分数稍微高那么一分两分，效果差那么一点两点，大家也就认了，不是说一定有什么大不了、过不去的事情。

但是为什么这一次质疑很多人要拿出来讲？
第一个，因为后边是Meta，是开源大模型的开山鼻祖，是个老大。你位置还在这呢，所以你干这样的坏事，我们要质疑一下。
另外一个呢，就是这一次提出了两项非常严重的质疑。这种质疑呢，有的时候说“哎，这个跑的不是特别准”，这个不是特别严重。什么质疑是比较严重的？

第一个是开源版本跟测试版本不一致。你自己测的跑分，那个版本你没拿出来。你出来说你开源了，但是呢，这个开源的版本比你测试的版本差。这是一个相对来说比较严重的指控。

当然还有一个更严重的是什么呢？就是数据作弊。什么叫数据作弊？大家要知道，所有这些大模型去进行跑分测试，它是有题库的。我是用什么什么样的题库去测，测到多少分以上，它是这样来做的。那怎么能够让它测得更高呢？咱们都懂，背真题呗。像国内你去考什么雅思、托福，或者去考ACT、SAT什么这些东西，他就是背真题。大模型其实也是一样的。

现在指控他把测试数据直接混在了训练数据里头，给他训练掉了。那么这个是非常非常严重的指控，因为你一旦这样的话，他等于是在学术不端，或者说你整个的品性是有问题的。

Llama 4呢，其实一共有三个版本。现在公开出来的呢，是中型版本和小型版本两个：一个是400B的，一个是105还是幺零几B的。最大的那个没出来，2万亿参数，也就是2,000多B的那个没有出来。那么，它这种中小模型呢，应该是蒸馏出来的，就是拿那个最大版本蒸馏出来。

现在出问题呢，就有两种可能。第一种可能是什么呢？就是他去跑分的时候，可能拿这个大模型去跑，或者呢，他训练了一个比现在的中模型和小模型要再大一些的模型，拿这个玩意去跑分了。但是，最后开放出来的模型并没有这么厉害。还有一种可能是什么？就是他在蒸馏的时候，直接把题库混在蒸馏数据里头，拿去做训练了，就直接背真题了。这是两种可能性。

而且呢，现在还有匿名爆料。有一个人号称是Meta内部的员工，说我爆料了，他就是用题库数据直接训练了。这个人呢，在Twitter上的账号叫滴溜滴溜，开个玩笑，他的名字叫DLIU DLIU，所以叫滴溜滴溜。这个人呢，说使用了数据作弊的方式进行训练，我很不齿这种行为，还因此辞职，而且拒绝署名技术报告。大家注意，这里有一个很重要的点，叫拒绝署名技术报告。

Meta在这一次发布的时候，跟前面Llama 123其实有很大的区别。区别在什么地方？就是他只发布了模型出来，然后发了个博客出来，并没有发论文，没有发白皮书，这些东西都没出来。那现在就有人说了，说这个技术报告我拒绝签字，所以他发不出来，讲了这么个话。而且这个人呢，前面讲的是匿名。

另外一点是什么？就是Meta AI研究副总裁，这个名字我们就不念了，已经申请于2025年5月份离职。但是呢，并不确定这个Meta AI研究副总裁到底是不是这个提溜提溜，也没法确认他离职这个事情跟Llama 4是不是有关。所以，并不确定这到底是不是爆料人了。

然后，除了他内部爆料之外，还有外部的质疑声音。比如，沃顿商学院的一位教授，这个名字我们也不念了，在评论中指出，AI模型的优化痕迹明显可辨，Llama 4似乎针对基准测试进行了过度调整，而非真正的技术进步。他们甚至做了很多测试以后发现，这东西可能连Llama 3.3什么405B连那个都达不到。这种质疑是非常严重的质疑。

针对这些质疑，Meta内部肯定说要出来辟谣。如果这事认了，那就不是说有一个人辞职就完事了，可能会有一帮人要被开除掉。而且这种一旦开除了的话，在圈子里名声就臭了，再去干这个事干不了了。

Meta的AI负责人埃哈迈德应该是个穆斯林。他是VP，AI生成这块的负责人。他出来明确否认了作弊指控。他表示：“我们听到了一些关于我们训练时使用测试集的指控，这根本不是真的，我们永远不会这么做。我们目前的理解是，大家看到的质量不稳定是由于快速发布导致的时限问题，需要几天时间来稳定所有的公开时限。”

这个老兄原来呢是苹果做自动驾驶的，是苹果汽车部门的一位负责AI的科学家吧。后来进入Meta，在Meta里面干了几年以后，生成了Meta的AI生成部门的老大。数据作弊这个实在是太严重了，绝对不能承认。所以前面讲了，说这个事不可能的，我们永远都不会做。而且也要甩锅，甩锅是什么呢？快速发布，肯定有人逼着我快速发布。谁逼着我快速发布，导致我现在没有办法把最稳定的版本拿出来。这个问题是你的，不是我的，这个锅要甩。

然后他讲的是一个什么呢？原因呢就是说这个是一个实现的问题。我们拿这个大模型去蒸馏小模型，他并没有说作弊。他讲的这个词叫不稳定，什么叫不稳定？就是有时候好有时候不好。这个话很重要，因为我们后边如何去验证他到底是不是作弊了，就要从这个点去验证他。他还讲了一个什么呢？我会在未来的几天的时间内（大家注意几天），会拿出一个稳定的实现出来。然后内部呢，也有一些员工出来实名辟谣，说我们没有作弊。前面那个你说我作弊的人，咱们来当面对质。

那么到底有没有作弊呢？这个事其实并不难验证。现在呢，有3种可能性，这三种可能性呢都可以验证。第一种可能性是什么？就是参加跑分跟测试的版本与对外发布的版本不一致。这种可能性呢是比较大的，内部呢使用了一个作弊的版本做的这个跑分测试，然后发出来的是一个没有用这些数据去训练的版本，这个可能是存在的。

还有一种可能是什么？就是像这个艾哈迈德讲的这样的，就是说他可能是不稳定。那不稳定呢其实是什么？就是你多次跑分，跑了好多次，然后取了一最好的成绩，或者干脆就是我给你一假的跑分成绩，这个可能性也是存在的。

第三种可能呢就是直接数据作弊。我给了大家一个用测试训练集训练出来的蒸馏的中模型和小模型。这个是三种可能。那你说我怎么验证这件事呢？很简单，用现在发出来这个版本再去跑分呗。如果你跑完了以后能够复现原来的成绩，比如说他原来发了博客了，说我这个大模型应该是什么什么样的成绩，排名是多少，然后是多少分，我接着跑呗。如果跑完了还是这么多分。

那你就是作弊做出来的，没什么好说的。如果你说，我跑完了以后不是那分了，怎么跑也跑不出来了，那就是你内部有作弊版本。我外边拿的这个版本是没有作弊的，但是你那个跑分数据也是假的。那么如果我拿出来去跑分，跑分的成绩呢非常不稳定，时高时低。有个别的时候，能够高到你公布的这个数据来，那就是这个艾哈迈德讲的，就是我发出了这个版本，它很不稳定。他实际上就是这样去测试了。

Meta辟谣的信息在什么样的情况下，才有可能是真实的？那你刚才不是讲了吗，就是你测试时高时低。这个可以这么去算，但是还要看什么？还要看刚才都讲了，未来几天我会发一个稳定的版本出来，或者叫稳定的实现出来。他用的这个词是实现，为什么这么讲？因为他这个中模型跟这个小模型，都是拿那个大模型直接蒸馏出来的。如果几天之后他真拿出来了，而且新拿出来的这个实现，是可以稳定的跑分，跑到他承诺的这个数据上的，那么这件事呢才算是说验证了。你们确实没有说谎，你也确实把东西做出来了。如果在这几天之内他拿不出来，或者拿出来这个版本跑分很烂，那么这个事情还是要算他作弊。而且他是有很大问题的，因为开放的版本你是抹不掉的。你说我这前面这个版本有问题，我把它回收出来，那没有，回收不回去的。即使后续开放出新的版本来，我们依然可以拿它前面的版本接着做测试。所以它到底有没有作弊，到底是作弊到哪一步，这个事都是可以验证的。自己说的话到底是不是真的，我们要等他过几天发的版本出来，咱们再去做测试。而且这个就不能等他测了，一定是外边社会上来测。测完了以后看看能不能稳定的达到一个可以接受的分数，这个才是能够让它整个的辟谣成立的一个过程。

而且从现在发出来的信息看呢，前面发行的版本在特定的测试中应该是成绩还不错的。但是在其他的领域里头，或者整体的应用过程中表现很差。这件事情呢应该基本实锤了。为什么？就是沃顿商学院的那个教授给出的结论其实就是这样。他讲的是什么？讲的是AI模型的优化痕迹明显可辨，Llama 4似乎对基准测试进行了过度调整，而非真正的技术进步。就是Llama 4现在给出的版本，进行特定的这种跑分的时候，还是可以跑出一个很高的分数来的。所以呢，这就是最糟糕的一个状态，就是他直接把一个用测试数据训练出来的这个作弊版本公开出来了。现在可能性比较大的是这个。

那么Meta有没有办法快速补救呢？现在肯定是准备快速补救嘛。第一个要去发技术文档。

前面Llama 123发布的时候，都是有论文、白皮书，还有一些微调的说明书，有一大堆这样的技术文档出来。这一次没给，那么你赶快要把这些东西补齐了，甭管是有没有人签字，还是要发出来的。

第二个就是尽快发新版本出来。如果想洗脱冤屈，一定要赶快，比如几天之内或者一周之内吧，把一个新版本发出来。发完了以后再去跑分测试，这个跑分还要能够稳定在一个大家可以接受的范围内。你别说发一版本出来，发现一跑分还不如Llama 3呢，这个事就丢人了，这肯定是不行的。这个还是要去看。

这种尽快发新版本这件事呢，其实难度是非常高的。为什么？因为大模型这个东西，它不是软件。大模型没法修修补补，你只能是拿一堆训练集重新训练，而这个过程其实是挺慢的。而且每一次训练完了以后的结果呢，他没有办法进行这种迭代更新，或者说迭代调优。这话什么意思？就是我们写软件的时候，你是有一大堆的参数指标，每一次改一点点，发现提高了一点，再改变再提高一点，它是可以干这件事的。

而大模型这种东西，你还是需要把完整的数据扔进去，然后去训练。训练完了以后，其实有点像开盲盒，有的时候行，有时候不行，不行也没有什么道理可讲。你只能是重新去整理和收集数据，然后重新训练。所以这个过程呢，没有那么快。这个也确实是对于Meta来说是一个很巨大的考验吧。

那你说有什么方法可以提高速度呢？就是投入更大的算力，上显卡。现在呢，Meta也承诺了，说我要放10倍的显卡进去，然后快速的出版本出来。这个呃，不是那么容易的，就是你真的有10倍的显卡放进去以后，你想要协调这十倍的显卡稳定的工作，这也是一个巨大的工程考验，没有那么容易。

Meta呢还承诺在2025年，会进一步的发布更多的模型出来。如果过几天大家不再找他要，说你前面那个承诺几天之后发这个模型没出来，或者出来的不好使，他也准备唾面自干了，说我今年接着准备发很多的模型出来。而且呢，这些模型呢，我准备提升语音以及推理的能力，因为现在的Llama 4不是推理模型，它就是一个文本生成模型。他准备在这一块再加强一些，也会呢推出一些商业应用场景的AI agent。因为别人现在也都已经开始卷这一块了，他还在发布原始的这种文本生成模型，这个真的是慢了两三拍了。所以说我这2025年还要接着往前跑。

那么结论是什么呢？结论就是，让子弹呢再稍微再飞一会。大概率呢，他们就是直接拿了作弊的模型出来，因为有人验证过了。

会有人再去做问题的复现，因为现在他已经站在风口浪尖上了，所以一定还会有人再去复现。这个过程盖子是捂不住的。

而且这个事情出来以后，后面比如说千问再去出3.0模型的时候，也会引以为戒，不敢再随便地在跑分的时候作弊。下一个模型出来，甭管是Llama 4的下一个模型，比如Llama 4.1，还是千问3出来，大家一定会更加谨慎地评测之后再拿出来。

“萝卜急了不洗泥”，我催你必须在哪天哪天把东西拿出来，这个事情应该是没有人敢干了。因为现在艾哈迈德说了：“我这一次翻车的原因，就是有人催着我必须在4月初把模型拿出来。”为什么必须在4月初？因为他再拿不出来，可能千问3就出来了，所以必须在这个时间点把他拿出来。他又没有进行很好的测试，就导致翻车，导致这种作弊被人抓了个现行。

所以科学这个事，还是要讲究科学方法的，太着急了是做不出来的。

好，这一个故事咱们就讲到这里。咱们也继续关注后续如何发展。这个故事就讲到这。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI绝地反击！向美国政府控诉中国AI公司DeepSeek像华为那样获得政府补贴、被政府操控，希望可以禁止美国和他们的盟友们禁用中国大模型，打不过就报告老师。

Luke Fan — Sun, 16 Mar 2025 00:50:07 +0000

OpenAI哭诉被DeepSeek霸凌了，要求美国政府主持公道。大家好，欢迎收听老潘讲故事的YouTube频道。今天咱们来讲一讲OpenAI最近给美国政府发的这份文件里都写了点啥。OpenAI苦要去告状，他2025年3月13号向美国白宫科学技术政策办公室发了一封文件，这个文件15页，叫做《确保美国人工智能领导地位与国家安全的政策提案》。

OpenAI的政策建议呢，也不是说我今儿想起来就发了一个，这个事儿还是一个回应。它呢是对美国白宫科技政策办公室（叫OSTP）在2025年2月份发出的公众意见征询的一个回应。至于其他人是不是回应了，有可能回应了，大家没有太注意，也有可能有些大厂还没有回应。所以呢，我们可以在未来一段时间看看，是不是其他大厂也会进行回应。

它里边主要讲的是什么呢？中国AI企业主要讲的是DeepSeek，将其类比为另外一个华为，声称其存在国家控制、国家补贴、数据安全风险以及知识产权盗窃等问题。上面的一个是豆包给出的结果。然后我用OpenAI的SearchGPT，它里边呢提到了DeepSeek可能受到国家控制和国家补贴，但是呢，并没有提到华为的名字。而在Grok上面的查询结果，主要控诉的是DeepSeek蒸馏它的数据。有人用OpenAI的API开发了识别中国在海外反贼言论的一个应用，被他发现了。中国账户用OpenAI生成了西班牙语的骂美国的文章，到美国报纸上去发表。还有人用OpenAI生成简历去欺诈美国公司。这个是呃Grok查到的一些结果。

OpenAI希望采取的措施是什么呢？第一个，他希望对中国进行禁运。但是在这一块呢，应该并没有特别详细的去讲，因为这是拜登政府的政策。现在你敢去跟川普说，咱们接着跑拜登的政策吧，会被踢出来的。但最主要的其实并不是这个，最主要的是呼吁美国政府及其盟友协同，禁止使用中国生产的AI模型和设备。如果不禁止的话……

后边OpenAI就没法竞争了，可能会活不下去。所以，你们就别使了。使了以后，你们可能会有各种各样的问题，可能会被盗窃数据，可能会有一些隐私的安全。他反正出来去恐吓来了。

除了这个之外，OpenAI呢，还藏了个小心思。是什么呢？OpenAI自己使用数据，希望可以突破版权限制，要求美国政府扩大AI训练数据的合理使用范围，保障美国企业能够无限制获取全球数据，以应对中国在数据资源上的战略优势，反对欧盟式的严格管理，主张放松国内AI创新限制。这是他真正要干的事情。

至于对中国的话，除了禁运不要用中国的模型之外，还是希望对大模型相关的知识产权进行保护，确保美国模型在全世界是领导地位，有竞争力。

各方的反应是什么样的呢？首先是美国政府。美国政府说，我看到了，我严重关切。其实就是抹了个稀泥。上面这个办公室，其实也不是一个平时经常出来冒头的办公室，叫OSTP，美国白宫科技政策办公室。它不是马上就可以制定出政策来的，但是它说收到了。

中国政府的回应呢，肯定是你造谣。这些指控毫无根据，是试图抹黑中国公司的企图。中国AI企业独立开发技术，遵守国际法，没有什么国家控制，国家补贴。这个我们都否认了。

美国公司微软说，我们完全支持OpenAI，保护其创新。AI领域必须尊重彼此的知识产权。他是OpenAI最大的股东，他不支持这个交代不过去嘛。

谷歌说，我们相信公平竞争和尊重知识产权的重要性，正在密切关注情况。谷歌呢其实是抹了个稀泥，说了一句政治正确的话就过去了。

亚马逊说，我们致力于科技行业的公平竞争，以维护创新和知识产权原则的方式解决。跟谷歌这个差不太多，也就搁这了。

至于中国公司DeepSeek，应该并没有特别明确的去回应这个事情，搁这搁这了。

欧盟说，我知道了，哈哈，积极跟双方沟通。欧盟永远是这样的一个角色。

OpenAI为什么要干这样的一个事情？为什么在这个时间点去回这样的一个文章？你说真的是因为就是回应吗？

人家2月份发出来，要求你3月份就回复一下，没有这么简单。最核心的一个原因还是竞争。OpenAI的订阅数据呢，应该是在稳步增长，有过小的波动，但是并不严重。前面这种爆发式增长，肯定已经过了。2025年的3月份，OpenAI的Plus用户，就像我这样20美金的用户，应该在全球是有1,200万到1,550万之间。这已经是一个非常非常巨大的数字了，绝对遥遥领先，其他人都赶不上他。

而B端的竞争对于OpenAI来说，就比较残酷了。刚才我们讲，订Plus用户的都是C端用户。为什么B端竞争对他很费劲呢？因为DeepSeek R1是完全开源的，每一个公司都可以把这东西塞在自己的电脑上去。你只要买几台服务器，就可以在自己电脑上布一个。现在所有的这些大型云计算厂商，什么亚马逊、微软，都已经把DeepSeek布上去了。还有很多的大模型及服务的公司，像Together、Open Router这样的这种第三方跳转公司，也都把DeepSeek挂上去了。那在这样的情况下，你要再想跟他竞争，你这个TOKEN到底收什么钱合适？人家那个是完全可控的开源模型，这个事OpenAI竞争不过了。

而且现在真正要去跟OpenAI竞争的呢，其实还不是DeepSeek R1这样的大模型，因为这个模型你还是要到云端去部署的。现在真正被广泛应用的开源模型，其实不是DeepSeek，是不是梅塔的Llama呀？也不是。现在使用最广泛的开源大模型，是阿里的千问。你到Huggingface上，开源大模型的剧集网站上，绝大部分的或者排名比较靠前的，大部分的模型都是千问系列，或者是千问系列微调出来的各种分支版本。而且现在千问最新推出的QWQ 32B，效果相当不错，达不到DeepSeek R1的水平，但是它的推理效果已经可以用了。而且这是个32B的模型，320亿参数，我在我们各自的电脑上，32G内存电脑上就可以跑起来了。

这个对于OpenAI来说是挺大的压力。咱们前面讲的Manus，大的模型用的是Claude3.7，小的模型或者内部控制的模型，其实就是用的微调的千问。而且现在Manus已经宣布说，我们去跟阿里千问战略合作去了，以后我们就完完全全使用千问模型，在国内去提供服务了。因为千问自己还有一些比较大的模型，比如千问Max、千万2.5 Max，那也是个开源模型。那个开源模型据说是已经超越了DeepSeek R1的水平，但是我现在没有大规模去试用过。

而且在B端的很多应用上的话，OpenAI现在面对Claude 3.7也是力不从心。现在只要编程的，或者一些严肃应用的，很多人都是把Claude 3.7作为首选，它要比OpenAI的ChatGPT 4O，包括4.5还是要靠谱一些的。现在OpenAI在B端压力山大。OpenAI最希望看到的是什么？就是DeepSeek跟千问模型直接被定义为非法，就是你们任何人使用它们就是违法的。为什么他把阿里的千问跟DeepSeek定义的像华为那样？现在咱们看看欧盟也好，美国也好，都在干嘛？拆华为的设备，原来买的华为的交换机，买的华为的各种的路由器，要把它拆下来，重新去买美国的商品。他现在说你们也都这么干吧，你们把这些开源的免费的东西都扔了，花钱买我的，这个是他真正想去干的事情。至于其他的是不是还有什么原因，什么中美安全这个事呢，咱们就还是以小人之心度君子之腹吧。

我个人看到就是OpenAI，就是希望大家都老老实实的，上我这排着队来买TOKEN，上我这来排着队买账号，其他的就别惦记了。至于什么安全隐私这些东西，都是借口而已。那会有什么样的结果呢？首先呢，跟大家说一个结论，现在再想限制这些东西已经晚了，限制不住了。而且大模型这个东西，跟华为的路由器那是不一样的东西，跟路由器，交换机它是完全两回事，包括基站。为什么呢？交换机，路由器，基站都是谁在买？

都是很多有政府背景的。这些电信运营商在买，他们是需要听政府招呼的。政府招呼说：“我们现在有问题了，你必须要去替换。你如果不听的话，会有问题的。”你再怎么说，我这个国家里头，电信运营商都是私营公司，你国家安全你还是要管的。但是大模型就完全不是那么回事。

开源呢，在我自己这，我拆开我只研究一下，看看到底有什么东西泄露了没有，或者我再微调一把。我在这个基础上再去改进一下，我就拿去用了。就像现在Perplexity干的这个活似的，我在DeepSeek基础上再去训练，然后在这个基础上再去搞事情。像Huggingface也是这样的，我用DeepSeek的很多的方法，以及他们的数据，重新训练一个，大家相信我就使就完了。现在在走这条路。

所以你现在想去控制交换机，控制移动基站那样去把这东西干掉，是不可能的。想都不用想。而且很多在这个里边干活的人，这些开源社区的人，真的不太听政府的话。他不像是那些移动运营商似的，所以这个事没什么戏。

但另外你说限制，中国根本就没法限制。你咋限制？这一次OpenAI出来开发布会，发布这个AI agent开发工具包的时候，是我第一次看到，说这帮人开发布会，上面坐四个人，居然一张中国脸都没有，头一回。否则的话可能至少一个两个的，有的时候还占到一半。像马斯克发布Grok 3的时候，四个人里头俩中国人。你想去限制中国的这个AI技术发展，这个事已经不现实了，太晚了。短期内呢也不会有什么结果。这个事反正就是我发上去了，美国政府呢就是我也看到了，完了。

至于其他大厂呢应该会去抹稀泥。OpenAI提出来的要求，微软必须支持他，没办法，其他大厂都抹稀泥了。比如说Anthropic，从公司体量上说算是个小厂了，但是你从他在AI领域里头的这个体量上来说，那就是个大厂了。Anthropec主要关注的是什么呢？关注的是模型对齐。他做的这东西叫宪法模型，他说咱们是不是一块。

来制定一个模型对齐的标准。甭管谁做了开源的闭源的模型，咱们都来对齐一下。他喜欢干的是这个事。至于Meta，人家就是开源模型的倡导者，他才不希望你管来管去呢。我就是要一个模型一个模型往前推，而且应该是4月份LLama 4就要出来，全世界都在瞩目，都在等待。你赶快出来吧，这个出来以后，应该又可以翻天覆地的往前走一大截。

Oracle，为什么要提他呢？Oracle在整个的云计算里头，算是所有云计算公司里头，AI比较落后的一个，现在还在努力的追赶。而且Oracle现在跟中国的关系还不错。为什么？现在有传言，他有可能参加TikTok的竞购，它有可能成为TikTok里面的一个大股东。这个Oracle的老板叫拉里·埃里森，现在是著名的中国女婿了。但这哥们好像80多了，娶了一个30多岁的中国媳妇。他这个中国媳妇叫朱乔林，Jolin朱，本名叫朱可人，1991年出生于沈阳，毕业于美国密支根大学，曾经是留学生。两个人2024年12月被曝已经结婚了，而且还生了两个孩子。这个真的是男人至死是少年，80多了现在结婚还能生出俩孩子来。所以他有这样的一个身份，那他再去竞购TikTok的话，在中国阻力会小很多。

其他的XAI，马斯克多精明的一个人。中国是全世界最大的特斯拉生产工厂，最大的特斯拉销售市场。虽然他现在承诺说我以后要让美国的特斯拉生产量翻一番，你卖得掉吗？你不能说我在美国把特斯拉生产出来，然后再拿船拉到中国来卖，想啥呢？这不可能的。所以马斯克应该也不会说什么。

谷歌跟亚马逊刚才我们讲了，只会和稀泥，他们在中国都还是有很多业务的。然后各大云厂商，现在还在非常积极地接入DeepSeek和千问。海外的这些云厂商，原来DeepSeek接的少，千问都接了。而且手里边的各种千问模型，千问各个版本，各个尺寸，以及在千问基础上进行微调的模型，可能是很多云厂商手里边的这个开源模型的储留。

这个免费的开源的，不用白不用。所以，你想去告诉云厂商，说把这东西都干掉，还是有一些难度的。可能最多就是云厂商说：“来，我们做一些安全检测吧。”这些开源模型到我们手里以后，我们再微调他一把，或者说我们在这个使用之前，给用户加一些警告。你想在美国这个成人网站，你只要回答一个“我满18岁了”就可以进来。那这个DeepSeek和千问这样的模型，在前面警告你一下，说这是个中国开发的模型，你们知道风险，自己承担风险，你们上吧。这个其实对于美国来说，应该是比较正常的一个使用方法吧。那你说OpenAI折腾了半天，他到底能得到什么呢？最终肯定会有结果，但这个结果里真正倒霉的呢，应该不是中国，真正倒霉的应该是欧盟。为啥？因为他在里头讲了，说我们反对欧盟这种强版权监管，我们希望我们可以获得更多的版权内容的训练，这是他要去干的事情。说川普川大爷，美国再次伟大，咱们上欧盟去征关税吧。他如果敢找我收这个版权费，咱就征他的关税好不好？这个事我觉得是川普当前政府比较喜欢干的事情。至于然后其他的东西，就应该短期内没有然后了，也就如此了。所以其他呢也不用想，这就是这一次OpenAI 3月13号向美国政府提交的15页文件可能产生的结果。欧盟说：“我这吃着瓜呢，怎么就我倒霉了？”对，就你倒霉。至于其他的，可能就是一些版权保护机构和版权所有者，这些人会受到一定的伤害。因为在版权这一块，中国这些大模型公司，他们训练大模型的数据到底是哪来的，其实谁也说不清楚。欧盟现在能管的，也就是这帮美国公司，因为他自己虽然有Mistra，但是反而用的人也不多吧。其他的你说我想去管中国公司，你们不能拿欧盟的这个版权去训练大模型，中国公司说美国的数据我还用不完呢，还用你的？所以最后倒霉的应该是他们。这就是今天咱们讲的故事，OpenAI上来哭诉被霸凌，请求政府主持公道的故事。好，这个故事就讲到这里，感谢大家的收听，请帮忙点赞，点小铃铛。

参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI完成超募融资，未来发展方向是否陷入停滞？

Luke Fan — Tue, 15 Oct 2024 01:29:43 +0000

我们开始第二个故事。OpenAI完成融资，开始摆烂了吗？Day Dev Day都发了些什么奇怪的东西呢？

首先，官宣已经完成这轮融资了，是在9月底这几天官宣的。现在呢，他是实现了超募。什么叫超募？就是我原来说要募多少钱，但实际上得到的钱比这个多，就叫超募啊。他原来说我要募65亿美金，现在实际上是66亿美金，就是多1亿。也是募投后的估值，原来说的是1,500亿，但其实我相信那个数是错的。原来那1,500亿美金应该是投前估值。他现在结束这一轮投资以后的投后估值是1,570亿，所以呢，实际上多了70亿。

那你说怎么会多出70亿出来呢？这个很奇怪，你明明投了66亿，那多出4亿是什么来呢？这个呢大概率是期权池。做这种投资案的时候啊，如果你投前估值是1,500亿，那么投了66亿美金进去以后呢，他的投后估值一般应该是1,566亿。多出4亿来是会做一些其他处理。

那你说如果是4亿美金的期权池，是占多少股份呢？期权池是0.255%。跟传闻中山姆·奥特曼要拿到的7%的股份比，这个事肯定是不匹配的。因为7%的股份如果在1,570亿里头的话，那是109.9亿美金，那是百亿美金富豪了。所以呢，这个具体怎么分配的，多出来的4亿现在并没有公布出来。

那么各家出了多少钱呢？领投方叫兴盛资本，多出了3亿美金。他原来说我出不少于10亿美金，现在一共出了13亿美金。但是呢，他这个特别有意思啊，他自己出了7.5亿美金，叫自有资金。然后呢，发行了一个叫特别目的载体，这个实际上就是说我现在发现一只小基金，这个小基金呢就是为了去投资OpenAI的。谁愿意上来，谁就在这只小基金里头放钱。这个小基金呢是募了4.5亿，所以这两个加一块13亿啊，这是这个领投方给的。

领投方呢还得到了一个特权，一般领投方都会给自己弹一点点特权出来。这个特权叫什么呢？叫Warrant，是认股权证。这个东西干嘛使了呢？实际上是个对赌协议，但是呢，这是一个正向的对赌协议。它规定到明年2025年，如果OpenAI实现了预期收入116亿美金的话，它可以再以1,500亿美金的估值再投10亿美金进去。

这个是一个什么样的权利呢？跟大家解释一下，OpenAI这样的一个公司，从2023年拿到上一轮融资，它的估值是300亿美金，到现在2024年10月拿到这一轮融资以后，达到了1,500亿美金。所以他的估值涨得是非常快的。
现在呢，能够达到1,500亿美金，肯定是做了一些这种承诺，说我今年挣多少钱，明年挣多少钱，后年挣多少钱。这叫财务预测。现在这个领投方说，你这个财务预测如果准了，那你要允许我再以1,500亿美金的估值再投10亿美金去。那可能过了一年以后，OpenAI的估值就已经到3,000亿美金，甚至5,000亿美金了。这种可能性都是存在的，但是你还是要让我用1,500亿美金的估值再往里投。这个东西叫认股权证。

很多的金融机构都喜欢干这件事情，就是说：“哎，我先谈一个价格，然后呢，也投一点钱，但是呢，我们来对赌。如果你实现了，我按当时的价格再投一步。”我以前所在的公司融资的时候，遇到过一次那种认股权证的交易。其实我们自己做早期投资，一般很少干这个事，只有是后期投资才会干这个事情。

当时我们遇到了谁呢？这个投资方叫做硅谷银行，就是后来倒闭了。这个硅谷银行，他呢，当时进来说：“我们也不投资你，我们借钱给你。你可以在我们贷款，而且没有抵押，也没有任何其他的担保。你就可以直接在我这借钱了。”但是呢，借钱的这个协议后，是带一个Warrant的条款的，就是要在五年以后，按照当时我们融资的那个价格，再进来百分之零点几的股份。那其实就很赚了吧，可能五年以后我们都上市了，可能都已经十几亿美金了，那他要按着一个五年前的价格再进来一点点。

这个是以前我们遇到过的，这个是领投方。第二个呢是微软。微软呢是给了7.5亿美金，还是49%。所以跟我上一个礼拜去讲的这个是一致的。就是微软其实动用的叫反稀释权，就是我原来占49%，我以后还占49%。那么差的这部分我给它补上就完了。他补了7.5亿美金，他还占49%。然后软银是第一次进来给了5亿美金，其他的参投方没有公布具体的金额，就是还有一些其他的基金，我们就不再去讲。

然后呢，还做了一些限制性的条款。这个限制性条款特别有意思啊，第一个2.5亿美金起投。如果你少于2.5亿美金，就别参与了。所以任何一个参投方应该都是多于2.5亿美金的。那你说我这没有2.5亿美金，我就有这个100万美金，我想投这个案子行不行？也不是不行，那你又怎么投进去呢？你去参加领投方的那个特殊目的载体，他这个基金里，你就可以转投到这个融资里边，够2.5亿美金了，你可以上桌来跟我谈这个事情。

再往后呢，是叫不竞争条款。这个其实也是比较奇葩的一个条款，通常呢会要求被投资方要做不竞争条款。什么意思啊……
比如说，有一个公司投了一个什么什么项目，那么你这个被投的项目，你不能跟母公司竞争，一般有这样的条款。但这次是反过来的，是要求投资方不可以跟OpenAI竞争，也不可以投资OpenAI的竞争对手。这个确实是有点奇葩，这也是说OpenAI自己太强势了。所以呢，他提出这样的条款以后，剩下的这些投资方都认可这个条款，在上面签字了。

现在所谓的不得投资OpenAI的竞争对手，主要指的是马斯克的XAI和Anthropic这两个公司。那么在这种情况下，红杉跟苹果最后就拒绝签字，表示我们不投了，这事我不玩了。为什么会出现这样的情况呢？一方面，可能是因为不满足前面的领投方特权，特别像苹果，肯定是希望有这种领投方特权的。待会讲为什么。另一个原因是没法去接受这种不竞争条款。红杉这样的公司，估计XAI也好，Anthropic也好，他们应该都投了。以后这些公司再融资的时候，至少要去处理这个反稀释条款，他们也得跟投。一旦投资了OpenAI的这一轮，签了字以后，就没法再去在XAI和Anthropic里边去追加了，所以他也没法接受这种条款，只能退出了。

那么OpenAI这一轮融资呢，是画了很大的大饼，在收入和数据上。第一个，现在他讲述我已经有3.5亿的月活了，这是非常非常大的一个数字。当然，这个数字应该还会大涨，为什么？因为iPhone 16发布了，Apple Intelligence来了，可以把这个数字再翻一翻。这是怎么算的呢？2023年苹果卖了2.35亿只iPhone，2023年里卖的是iPhone 15、iPhone 15 Pro、iPhone 15 Pro Max这些机型。其中iPhone 15的Pro和Pro Max都是可以使用Apple Intelligence的，加上2024年销售的iPhone 16，都是全系可以使用Apple Intelligence的。所以基本上可以认为，苹果现在可以使用Apple Intelligence的这些机型，去掉中国大陆用户和OpenAI重叠部分的话，再涨出3.5亿来，应该是一个相对合理的猜测。所以，它能够达到7亿左右的月活，在苹果进入之后。

所以，为什么我前面讲说苹果应该得到这个领投方特权，因为它要想让数据继续上升，那苹果在里头一定是功不可没的。后面的话，苹果没有参与这一轮投资。
所以后面，苹果上面继续使用OpenAI的GPT-4O这样的方案，可能就会受到一定的阻碍，有可能会转向。因为苹果原来讲说，我们除了OpenAI之外，我们也在考虑谷歌的，也没准在往后一段时间，真正的全线的Apple Intelligence上来以后，谷歌的服务也会加进来，这个可能性是很大的。

因为在整个这一个协议里边，苹果其实是亏大了。就是苹果如果给了钱，然后把它这个数据做上去，拿到这个领投方特权的话，苹果是能挣到很大一笔钱的。如果OpenAI以后能够放开中国用户的话，那它在原来这个基础上可以再长根，可能1亿多用户出来都是有可能的。

这个是OpenAI的数据，现在有多少人在付费呢？一个月20美金在订这个OpenAI的服务呢？1,000万付费用户。当然苹果加入以后，可能这个数字还能够再翻一翻，甚至更多一些。

现在有多少人在使用API在写程序呢？100万第三方开发者在使用OpenAI的API，再用这样的方式来付费。所以这个数据其实已经是非常好了。今年的收入是37亿美金，但是在今年亏损了50亿美金啊。这个50亿美金的亏损，还没有计算上股权激励计划。

大家说股权激励计划我又没发钱出去，怎么就亏了呢？所有股权激励计划就是你承诺给员工的，这个他未来是会去卖的啊，这个就还是应该把它算成一个成本。像我们以前有一次，有一年是怎么干的，就是公司实在没利润了，就直接把大量已经离职员工的期权注销掉，然后公司就有利润了，就直接可以到纽交所去录盈利了。这是他们比较会玩的一个方法吧。

今年37亿收入，明年呢是116亿美元的收入。如果明年实现了这个，前面的领投方还会再给10亿美金。然后后年呢，要做到256亿美元的收入，到2029年，准备做到1,000亿美元的收入，这个也是很大的收入进来啊。1,000亿美元一年的收入相当于谁啊？相当于Target和雀巢。

但是这个里头，Target的市值就比较低，只有700亿美金不到，雀巢的市值是比较高的，大概到2,800亿美金。但是你想，现在这个1,500亿美金的OpenAI，它一年的收入才三十几亿美金。所以为什么互联网公司或者人工智能公司，所有新科技公司的PE的倍数都很高啊，大家可以去想一想。这还不用算PE，因为没法算PE，它的盈利是负的，他只能算PS。

那么OpenAI准备怎么提高收入呢？很简单啊，涨价，这刚才我们讲的，第一个是用户量会上升。
第二个呢，是说我们的涨价，到年底就准备涨到22美金一个月了。准备在五年之内，把每个月的月费涨到44美金一个月，并没有涨到200美金一个月。到这呢，就是他们把这一次的融资彻底算做完了，已经正式官宣结束了。官宣结束了以后呢，就开始躺平摆烂了。

因为在十月一号刚刚开的开发者日，这个Open AI就是我们就躺在这不动了。十月一号在旧金山，10月30号准备在伦敦，11月21号准备在新加坡开Open AI的开发者日。这一次在旧金山的开发者日上呢，到底有多少人到现场，可能有100多人，反正人不多。预定了100份草莓，因为他们是在现场使用Open AI的API的技术，直接定了100份草莓给现场分发。所以啊，我们猜测现场的人并不是很多。

那么这一次到底发布了什么呢？第一个东西叫Real Time API。因为大家知道，GPT-4O有一个叫高级语音功能，最近是都可以用了吧，可以跟他聊天，效果还是非常不错的。这个产品现在就有API出来了，这个API呢叫实时API。它呢是等于可以随机的打断，而且在整个的开发过程中，会变得很简单。因为以前我们要想开发这种语言教学类的应用的话，必须是先识别，然后再进行处理，处理完了以后，再去进行朗读。而现在你使用Real Time API了，就可以一次性把语音给它，它就处理完了，然后一次性把语音给你输出出来，这个效果就会好很多啊。这是第一个发布的东西，而且这个东西呢，在语言学习、客服类里头会有极其广泛的应用，只是这个玩意儿很贵，它的API的价格是非常昂贵的。

第二个发布的东西呢，叫提示词缓存。什么意思呢？大家知道我们跟Open AI或者跟China CPT聊天的时候，它是怎么聊的吗？你聊的第一句给你一个回复，等你聊第二句的时候呢，你聊的第一句跟第一个回复，就作为下一次提示词一起都扔上去。等于我们在调用的时候，是第一个问题、第一个回复加上第二个问题一起扔上去，才能得到聊天的结果。在这样的情况下，你不是越聊聊的时间越长，这个提示词就累加的越来越多嘛。所以呢，现在Open AI说，那咱们少少了搞一点吧，把提示词缓存在云端，你就不用来回提交了啊。但是呢，并不是说这个钱就不用交了。原来Open AI的输入输出的价格是不一样的，一般输入的TOKEN是要便宜很多的，输出的TOKEN要变贵。现在呢，这些输入TOKEN，特别是重复的部分，你就不用再给他了。
都放在服务端就完事了。所以说这些TOKEN啊，你按五折给钱吧。原来比如说是100万TOKEN一美金的，现在你给50美分就可以了。反而我觉得降价降的不够多啊。这是第二个提示词缓存。第三个给的是什么呢？叫模型蒸馏技术。模型蒸馏是什么呢？就是可以把大模型生成和过滤一些内容，再把这些内容去蒸馏出一些适应特定场景的小模型来。这个呢应该是奔着封杀拉玛去的，并没有模型广场或者市场出来。按道理说，大家争流出一堆小模型来，你应该有一个地方拿来卖呀。但这次没错啊，OpenAI看来也确实发现了自己并不擅长干这个事情。

再往后呢，第四个出来的东西，也就是最后一样东西，是什么叫视觉微调。做了这么一奇怪的一个东西，这是干嘛呢？就是刚才我们讲了，OpenAI是可以允许我们去微调它的这种线上模型的，现在也允许我们用图片再去做微调了。可以输入提示词和图片，对视频模型进行一定的微调，也是对开源模型去的。因为现在我们使用Lama 3加上其他的一些模型，也可以直接实现这种视频微调。现在他准备去把这一条路也封死掉。

Grab就是东南亚打车软件，是第一个使用这个视觉微调技术的公司，做了一个demo，主要是干嘛呢？识别交通标识。这有可能是对着马斯克的FSD去的，给FSD添堵去了。

那这一次发布为什么说摆烂了呢？第一个是没有任何新模型出来，也没有任何新的方向出来。说我们又可以有些原来做不了的事，现在可以做了，都没有。这里头唯一可能稍微新一点的东西，就是实时API。其他的呢，其实都是别人已经做好的东西，他要上去给人家添堵，或者去跟人竞争用的东西。

开发者日里边，开发者真正关心的是什么？真正想看到的是什么呢？就是新的开发方向，原来做不了的事情你能做了。而real-time API是原来做不了的，现在能做了。但是其他的，比如说模型蒸馏、视觉微调，其实都没有新的功能，都是在跟拉玛竞争。

另外呢，开发者希望能够看到新的商业模式，这次完全没有。开发者希望看到一个东西，提速降费。因为大家知道，调用OpenAI的API是有速限制的，你不能调太多，也希望每一次调用可以便宜一点。这一次整个的发布的所有产品里头，只有提示词缓存算是变相的降价，但降的也不够彻底。我的提示词都已经在服务端了，你还是要找我收钱，只是收的比原来便宜而已。提速完全没提，成功故事也是开发者希望看到的东西，这一次只有两个成功故事。
一个就是现场吃到草莓了，因为现场呢使用 Realtime API 做了一个应用，直接去呼叫“请给我送草莓来”，订了一份外卖出来。另一个成功故事就是 Grab 进行交通标志的识别。

那你说去年的 Dev Day 发布什么东西？是不是这个 Dev Day 都是发布这种东西呢？咱们看看去年啊，第一个去年发布的是 GPT-4 Turbo，有新模型出来。然后第二个呢是去年发布了 GPTS，发布了 GPTS 商店，就是大家可以自己去做自己定制的 GPT，这也算是有一个新的商业模式，新的流量在赋能进来，就是 GPT 商店。很遗憾啊，GPTS 商店现在基本上烂尾了。

还有一个叫 Assistance API，是协助很多开发者开发自己的这种聊天机器人的，但这个现在好像也没有听到什么响动。然后达利 3 的 API 出来了，就是可以拿它去画图了，这个呢现在应该有人用，但是应该不多。在画图这一块上，我觉得 OpenAI 跟 Midjourney 和最新的 Flux 的竞争上，不是特别占优势。然后是 Audio API，也就是语音转文字、文字转语音，这些 API 是去年开发者日上发布的。

然后做了这个叫 Copyright Shield，就是对版权进行音乐的保护，还给出了用户模型计划，也就是让用户自己训练和建立自己的模型。做了 Vaspers 这个 Large V3，也就是这种语音识别模型的第三个版本，也对 GPT 进行了提速。这是去年做的，所以我说他今年呢基本上是摆烂了，给的东西非常少，反而融资已经结束了，咱们就再接着折腾就完了。

而且啊，按照苹果和红杉透露出的这些信息，OpenAI 在明年应该还要再融一次钱，因为他现在融到的 60 多亿美金应该不够他花的。明年如果不再融一次的话，他还是会死，所以这个也是很多人觉得很危险。

另外呢，今天早上还突然上线了一个产品，叫 GPT-4O with Canvas。这个东西呢，其实是有点像 Cloud 出的叫 Artifacts，一面是输出框，一面是输入框，另外一面是编辑的代码或者文档，你可以在两边同时进行处理，而且呢可以进行多人协作。GPT-4O with Canvas 这个东西呢，从用户体验上说一定是有提升的，但从模型本身来说，并没有什么大的改变。在现在的这样的一个时代，很多人都在去讨论说，唉，OpenAI 如果不行的话，是不是 AIGC 的泡沫就破掉了，是不是出问题了？这个呢肯定是会有一定问题的。
有可能会有一定的泡沫在里头啊。老大一旦摆烂，行业就会衰退啊，这个是非常危险的。现在OpenAI融资之前出的是GPT-01，融资以后就马上不一样了。就跟很多那个什么似的，结婚之前，甭管是男方还是女方，都是表现得很好。一旦结婚了以后，发现哎，都摆烂了。这个是我们原来谈恋爱的男朋友女朋友吗？好像就不是那么回事的那种感觉。

OpenAI这一次就没有给出任何新方向，而且前面挖的很多坑，到现在也没有填上。包括他的Sora的世界模型，就是做视频的一个模型，到现在也没出来。还有很多他们说要去做的事情，到现在都没有做出来。现在呢，OpenAI其实已经开始思考如何在现有的体系下挣钱了。这个其实是很危险的，因为呢，如果没有真正找到新的盈利模式，只想着在现在这个收年费的方式上去涨价，这种挣钱方式不是整个行业希望看到的。整个行业还是希望他能够给AI领域带来一些不同的商业模式。

现在OpenAI想干的事情就是，第一个涨价；第二个呢，跟政府合作。OpenAI要跟美国政府以及比较友好的一些政府直接进行合作。山姆·奥特曼也确实有一点点的这种政客的属性吧。那么老大的职责，肯定不应该是小富即安，而应该是为整个行业寻找方向。现在呢，OpenAI在老大这个位置上已经有点越来越怎么说呢，不那么合格的一个状态了。咱们还要看看未来到底是向哪个方向发展。

如果OpenAI就站在那不动了，可能到2025年就是AI agent都要爆发了。因为原来大家不太敢在AI agent上做过度投入的一个核心原因，是害怕OpenAI自己突然爆发，然后把AI agent所有的东西都给覆盖掉。如果OpenAI自己就站着站着了，后边涨涨价，然后就这么着了，可能围绕AI周边的各种创业和应用就会大量冒出来。不会说我做完了以后，哎，OpenAI1升级发现已经被干掉了。这个怎么说呢，也算是对行业的一个小利好吧。但是没有新方向的话，对于整个行业来说还是很危险的。

好啊，这就是我们今天讲的第二个故事，就是OpenAI终于完成了融资，融资完成了以后就开始摆烂，这样的一个故事啊。