合成数据 – 老范讲故事｜AI、大模型与商业世界的故事

Meta为何砸下百亿重金投资而非直接收购AI数据标注巨头Scale AI？揭秘扎克伯格剑指AI生态霸权，欲借华人天才少年之力挽救Llama开源模型困局的深层战略与考量。

Luke Fan — Wed, 11 Jun 2025 00:43:17 +0000

Scale AI得到了Meta超过百亿美金的投资，AI圈又热闹起来了。大家好，欢迎收听老范讲故事的YouTube频道。

Scale AI这个名字怎么好像在哪听说过呢？好像有点耳熟，对吧？他呢，有一位特别传奇的CEO，或者叫创始人吧，叫华人天才少年CEO亚历山大王。当时呢，跳出来指责DeepSeek用H100的就是他。

DeepSeek R1到底是怎么训练的？引起了广泛的关注。DeepSeek自己讲呢，我使用了2,000多块的H800就完成了训练。但是亚历山大王呢，在一次接受采访的时候就出来说了，中国实验室里边拥有的H100的数量远超大家的想象，DeepSeek自己至少有5万块H100。但是这个话呢，没有实际证据，讲完了也就完了。DeepSeek跟亚历山大王之间呢，并没有就这个事情进行认真的探讨，所以这个我们把它当成一种谣传吧。

3月份呢，DeepSeek自己再次发了声明，说他们训练的都是使用的合规的GPU，也就是允许向中国出口的这些GPU。因为如果不说这个的话，美国就有可能要求说禁止使用这玩意儿。DeepSeek就讲了说，甭管是R1也好，V3也好，训练呢都是使用的H800，或者是后面的H20这些GPU训练的。

黄仁勋来北京的时候呢，还专门跟梁文峰两个人坐在一块去沟通过，肯定是对得上口径。所以呢，这应该是唯一的事实，不要再去猜测到底有多少H100在DeepSeek手里这件事情了。

这位华人小哥呢，这件事让我记住了，因为他也是个很大的公司，估值250亿美金的公司。因为它是一个ToB的公司，是为别人服务的公司，所以不太跟普通用户打交道，很多人没有听说过。

Meta的投资呢，这一次算是有点一反常态。为什么呢？你说互联网企业出来投资个别人项目，不是很正常吗？不行，这个里头，美国有一家比较奇特的互联网企业，中国有一家比较奇特的互联网企业，都是不怎么投资别人的。美国的就是Meta，中国的是拼多多，就是我自己有钱，自己就憋了死干，不怎么投资。

但是Meta呢，还不太一样。扎克伯格的原则是什么？叫收购或者埋葬，要不然我把你买下来，要不然我把你干掉，这就是不服就干那种状态。所以我一直说，Meta这个公司的玩法挺中国的。而且到目前为止，因为扎克伯格是创始人，依然在管理Meta，所以Meta还是有非常强的创始人风格的。

像皮才管理谷歌，或者是提姆库克管理苹果这样，这就是职业经理人了，他们是没有什么风格的。

但是，扎克伯格的风格就是这样：买你，或者把你干掉。到目前为止，唯一失败的就是Snapchat。这个没买成，也没把人干掉，其他的都算是成功的。

Meta过往的收购历程：

2012年，10亿美金收购Instagram。现在Instagram也是多么如日中天的一款产品。2013年，曾经想用60亿美金去收购Snapchat，被拒绝了，没把人干掉。这是唯一的败绩。

2014年，190亿美金收购WhatsApp。现在有这么多的人使用WhatsApp。除了中国使用微信，美国可能Facebook message跟WhatsApp是各占一半儿。泰国、日本、台湾使用line，其他的国家都是使用WhatsApp的。

2014年，20亿美金买了Oculus，就是现在我们看到的Meta VR产品。2020年，4亿美金买了一个公司叫GIPHY。这公司干嘛的呢？是做动态图标，或者说一个通俗易懂的话，就这公司做表情包的。

2020年，10亿美金买了一个公司叫Kustomer。它呢是k开头，这个是做客户服务CRM平台的。因为呢，Meta有大量的广告业务，很多人需要通过Meta去进行一些管理，干脆我花钱买一个吧。

2023年，4亿美金买了VC unlimited这样的一个公司。这个呢是虚拟现实内容开发的。你想他做了这么半天VR产品，VR产品的内容很难开发，那我干脆买一个吧。但是这一次呢就有点费劲了，虽然钱不多，4亿美金，他被FTC，也就是美国联邦贸易委员会起诉了，说你这个是要垄断。你自己做Oculus，Meta自己的VR产品，你还把提供VR内容的公司买下来，这事有问题。后来胜诉了才完成收购。2021年就跑去收购了，到2023年胜诉了，才把这个收购完成。

这一次投资而不是收购呢，应该也是怕FTC起诉他。因为Scale AI是整个AI数据标注行业的老大，绝对龙头。那你要把它收购下来，肯定是要被起诉的，而且这次可能还打不赢这官司。250亿美金的估值，直接投进去100多亿美金，基本上也算是控制了，但是应该没有控股。这种公司你控股了估计都会被起诉。微软不敢控股OpenAI，应该也是同样的原因。

那么，Scale怎么就这么敏感呢？咱们好好看一下Scale到底干嘛的。Scale AI和他的天才少年华人CEO，你看这么多定语在前头，咱们稍微给大家介绍一下。AI时代三要素，大家还记得是什么吗？技术、算力、数据。

这个Scale AI就是做数据的。Scale AI是世界上最大的数据标注公司，它的估值是竞争对手第二名的10倍。就是它250亿美金，在它后边跟它竞争的人25亿美金。

Scale AI的客户有哪些？微软、OpenAI、Meta、谷歌、亚马逊、英伟达。做大模型的公司都是他客户，然后做汽车的公司也都是他的客户：特斯拉、Volvo、Cruise（就是通用做的这个无人车公司），还有丰田和通用都是他的客户。Paypal、Airbnb都是他客户，三星以及美国国防部。

一旦美国国防部成为你的客户了，你就很难被收购了。我原来服务过的一家公司叫Borland，Borland到最后就想被人收购，说我已经玩不太下去了，谁来买我？卖不掉，为什么？他也是有一个客户叫美国国防部。他当时是给好像海军陆战队，还是给谁去做指挥链路的数据链系统。其实也不是一个特别底层的服务，就是做了这样的一个项目以后，谁想收购他就需要经过特别严格的审核。到最后也没有被收购成功。

这也是解释了为什么Meta不能收购它，只能投资它，连控股它都不能。第一个，它的位置很尴尬。它是所有这些做AI项目的公司的数据提供商，你一旦把它收购了，你就又垄断了，FTC一定会起诉它。另外一个，他还有一个很重要的客户叫美国国防部，一旦收购他就会被很严格的审查，这种案子基本上没法通过。

再讲一下这位天才少年华人CEO吧。这个亚历山大王呢，1997年出生于美国新墨西哥州，父母为洛斯阿拉莫斯国家实验室的物理学家。这就是物理学家生出来的天才少年。为什么叫少年呢？就是他创业的时候一定要特别年轻才叫少年。高中时候就获得了USACO（也就是美国计算机奥林匹克）的金牌，所以算是根红苗正。

曾经被美国的Addepar和Quora等公司破格录用，担任过Quora技术主管。在担任主管时主导了推荐系统的优化，使得问答匹配效率提升了40%。Quora呢其实是知乎抄的它，就算是美国版的知乎，全世界最大的问答网站。这个里面的推荐系统是亚历山大王优化的。

再往后呢，就是美国这帮天才少年CEO必须要干的一件事儿，是什么？叫辍学创业。2015年以满分GPA考入了麻省理工学院（就是MIT），大一期间因为Alphago引起的AI热潮，决定辍学创业，就创立了今天的Scale AI。Scale AI的种子轮融资是YC给的，给了12万美金。YC的CEO是谁？或者说给他钱的人，这个人叫什么？

这个人叫山姆·奥特曼，所以这个圈子真的很小。

然后，Scale AI的发展历程是什么样的呢？2016年，亚历山大·王19岁辍学创业。最开始呢，是在这个AI圈子里头叫“拉框”干这个事的。什么是拉框呢？就是给自动驾驶领域标注数据。自动驾驶里头有很多的摄像头、激光雷达呀。实际上，激光雷达也是个摄像头，只是拍出来的是一个黑白的、深度信息的照片。然后，哪个地方是人，哪个地方是车，哪个地方是牌子，或者说交通标志标线，你呢，需要靠人去拉一个框，把它标注下来。所以他最早就干这个。像什么Waymo（就是谷歌的自动驾驶公司），还有Cruise这些无人驾驶车的公司呢，最早的数据都是从他这来的。

全球首个规模化众包标注网络，涵盖50多个国家和10万名标注员。你标这个事情，他肯定是很耗人工的嘛。所以呢，他最后说：“我们众包吧，你们谁愿意标，谁就在我这平台上去注册，你来给我标来。”所以呢，他干的活叫“数据处理的人肉云计算”。虽然是云计算，但是底下都是真人。“越人工越智能”就是从这儿来的。

逐渐发展到为整个行业提供高质量的数据。它等于是从拉框开始，到最后，比如说OpenAI使用的各种对话数据什么的，都是由Scale AI来去标注的。后面和美国国防部合作，标注军用数据。你说这个无人机满天飞，导弹满天飞，我怎么能够说把正确的目标炸中了？那你也需要拉框，你也需要去做标注，看清楚这个是平民，那个是军用目标，你要做这样的标注。这个都是Scale AI提供的服务，包括伦理服务，包括对齐服务，他都要去提供。

而且呢，他也对标注呢进行分级。你说：“我是一个普通标注员，一个小时8美金，我去给人拉框去。”你说：“我是一个医学博士，那你可以来标注什么呢？医疗数据。”现在医疗影像数据也都标注过了，你是可以直接用大模型去进行什么X光片读片的，那个效率非常高，而且要比普通人读的还要准。

现在全行业的数据都有标注：医疗的、多模态的数据、国防的，各种数据它全标了。应该是全世界最大的一个，而且标注数据最全的一个标注公司，就是Scale AI。

下面咱们来讲一讲Meta为什么给了这么多钱给Scale AI呢？你说你花钱买的服务就完了，你干嘛要去直接100多亿美金砸进去呢？按道理来说，像我们投资案子有几个阶段。第一个阶段就是占20%以内，250亿美金，20%的话应该是50亿美金吧。为什么是这样呢？花钱投了，你也拿到钱了，我还不影响报表。超过20%呢，叫重大影响。

每年，Meta出这个财报的时候，你要把它也审计一遍，才可以去投超过20%。所以，像我们以前经常投资的，投19.9%就是为了躲避这个审计成本。

还有呢，就是直接控股，直接占51%，那我说了就算，甚至可以把CEO干掉，剩下我自己管。再往后就是我直接把你并购进来，整个公司的这个财务报表全进来了。特别是这个公司有很大的用户数据，或者有很大的营收的时候，你把它买下来是很划算的。买下来以后，就可以跟自己原来的业务去做整合了。

那么，在他这干这个活就很怪，给的钱很多。你想，250亿美金的估值，他给了100多亿美金，就属于绝对超过20%。但是呢，又不控股。不控股的原因咱们刚才也讲了，国防部的项目，你要敢控股它，你就等着接受审查吧，这事很麻烦。

那为什么要给这么多钱呢？这个不符合投资逻辑。那咱们来分析分析这件事情呢，还是要从Llama 4的翻车开始说。Llama呢，是开源大模型的领军，Llama1、Llama2都算是领军。到Llama3呢，很多人都在这上面去进行开发，拿Llama3去做微调，拿Llama3去构建自己的系统，构建自己的模型。但是还被DeepSeek跟千问直接抄了后路了。

你说现在最好用的，可能DeepSeek R1是所有开源模型里最好用的（咱不跟闭源的比）。使用量最大的千问，为什么千问使用量最大呢？也还算好使，而且呢，它提供的特别全，从0.6B的一直到200多B的，就是各种大小全都给了。大家去微调模型的时候，肯定是选一个自己合适的拿出来用。

Llama4就翻车了。第一个给的模型的版本就很少，你说我想找一个小模型去微调，他没给。另外一个翻车的核心原因是什么？就数据不行。他呢，使用的是合成数据。在训练Llama 3的时候，其实基本上已经把全世界能用的数据都给用光了。等到Llama4的时候，你说我要继续提高数据量，更大的规模去进行训练，那你这数据哪来呢？基本上能用数据都用掉了呀。

那么，Llama这帮人想了，是我们干脆合成吧，自己合成一堆数据去训练吧。结果Llama4就翻车了。合成数据三大致命缺陷：第一个是什么？叫领域泛化能力缺失。

什么叫领域泛化能力？Meta其实有的是数据，你想它几十亿用户，大家每天在上面聊个天，发个动态，它有多少数据？它是最不缺数据的。全世界可能不缺数据的公司，一个是谷歌，一个是Meta，其他人都没有他们这么多的数据。但是呢，Meta的数据有个问题，Meta的数据呢都是日常对话。

咱们在里头聊个天，在里边发个日常动态。其他领域的数据，比如医疗、国防，这些领域的数据它是没有的。导致呢，M4在垂直领域里的应用基本上全线崩溃。你问他说：“这个人今天是不是开心？”他可以回答得很好。你给他张片子说：“这个是不是有癌症？”他都答不出来了，这很正常嘛。

第二个呢，就是多模态对齐失效。什么叫多模态对齐失效呢？Llama4生成了很多的图片，说来：“咱们拿这玩意儿去做实验吧，咱们拿这个东西去做这个训练吧。”但是呢，Llama4的很多训练的生成数据本身是错的。比如说吧，他生成了一个红色轿车在雨中行驶的一张图片，但是呢，雨滴的方向跟车的运动轨迹是错的，这个就没法整了。Llama自己生成图片的能力就很差，他再拿这种数据去训练的话，就一定是各种错误就都出来了。

第三个呢，就是鲁棒性对抗不足。很多黑客呢通过注入对抗样本，也就是说把一些错误数据扔进去，导致呢Llama4的图像识别的准确率直接从89%降低到12%。这就是Llama4使用自己生成的数据，或者叫合成数据，训练出来以后翻车的一个核心原因。

那哪里摔倒了在哪里爬起来呗，就数据不行吗？咱就整数据就完了。Llama自己又不缺数据，那么多用户数据咱们就标注呗，花大钱把它买下来。虽然现在不让买嘛，但是我花大钱基本上还是能控制的，应该算是第一大股东了。有了Scale AI，我们就算把最后一块短板给补上了，这个就是煤炭为什么要投资它的原因。

但是呢，这里还有一个问题，就是刚才我们讲了投资逻辑。我投个19%就不就够了吗？为什么要投这么多呢？这肯定是第一大股东，已经超过亚历山大王的这种创始人的股份了。那你到底想干嘛呢？

Meta自己现在的战略其实是很清晰的：60万块显卡，算力我有了；杨乐坤大神在这呢，技术我也有了；不就是缺数据吗？Scale AI我是第一大股东，基本上控制住了。而且开源大模型我原来是领军人物，现在被DeepSeek跟千问超越了。那我现在要靠什么东西弄回来？你说我光靠提供Llama4的能力，或者后边比如说我出一个Llama4.1、4.5，我把能力提上去，我就能够战胜DeepSeek R1吗？我就能够战胜千问吗？胜不了的。

那怎么办呢？大家想一想，Scale AI它的客户都是什么人？它的客户比如微软。你说我用了Scale AI训练完，标注了数据了，我后边能够用Llama吗？这不可能。OpenAI你说我后边用Llama去……

这也不可能。那谁会去用Llama呢？大家要想一想：除了最大的这些Scale AI的客户之外，其他那些小一点的Scale AI的客户，他们请Scale AI去标注了数据以后，这些被标注的数据拿去干嘛用了呢？训练自己的大模型去了？开玩笑呢！只有最大的这几家公司——谷歌、微软、英伟达、OpenAI这样的公司，你是标注了数据回去训练大模型了。所有小一点的公司，或者说除了这几家之外的这些公司，你用Scale AI去标注了数据回来，只能干一件事儿，就是微调小模型。

现在好了，Meta把Scale AI基本上算控制了——虽然不是控股，但基本控制了。那以后用Scale AI标注的数据，微调谁家的大模型效果最好呢？一定是微调Llama家的大模型效果最好！内部是一波人各种的优化，咱们自己内部的搞定完事。原来大家都是拿这个Scale AI标注的数据去微调千问的模型，现在不用挑了，一定是自己家的最好。所以呢，这算是AI生态建设的关键一步，直接形成了闭环了：你用Scale AI训练，你用Scale AI标注数据，然后我给你同时提供微调解决方案，一次搞定哈！这是这一次Meta投资Scale AI的一个底层逻辑。

但是因为Scale AI的行业地位，一旦收购必然被FTC起诉，再加上Scale AI是美国国防部的供应商，一旦收购必然被美国国防部去审查，所以Meta就被迫采取了这样的一种很不舒服的投资方案——投了100多亿美金，成为Scale AI的第一大股东。这个故事到这儿就跟大家讲完了。

感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？

Luke Fan — Sun, 04 May 2025 00:47:42 +0000

Qwen3发布了。这到底是划时代的胜利，还是翻车了呢？

大家好，欢迎收听老范讲故事的YouTube频道。Qwen3真的是千呼万唤始出来。前面好几周就已经不断有传言说Qwen3要发布，要多么多么强大。突然发布之后，当然也肯定是伴随着一大堆的评测数据了。官方评测数据呢，永远是我超越了谁、超越了谁。但是很多评测的人呢，觉得好像差那么一点点意思，没有达到预期。所以今天我们来讨论一下，这到底是又一次划时代的胜利，还是翻车。

Qwen3呢是凌晨发布的，4月29日凌晨上线，在Github上全面开放。我呢已经开始用上了。使用的方法有几种：

第一种是本地部署。我是MacBook Pro，M2 Max的芯片，32G内存。其他的不重要，你到底有多少硬盘，这个事没有那么重要。本地使用OlAmA部署，我使用了8B、32B和30B-A3B。最后这个是什么意思？最后是一个MOE的模型，它是30B-A3B，就是说它每一次干活的时候激活3B，也就是30亿参数。它是这样的一个标注。就这三个版本的模型，在我本机都可以跑，速度呢都是还可以接受。

云端，第一个你肯定上阿里他们自己家玩去。阿里云百炼平台，使用支付宝或者淘宝账号刷一下，就可以进去使用了。价格还是很便宜的，特别是一些很大的模型，还是要在这个上面才能去跑起来。然后open Router永远是最快的。4月29号凌晨发布的，4月29号白天就可以在这个平台上用上了。硅基流动稍微晚一点，大概到5月1号可以去使用了。

那么Qwen3有什么样的特性呢？第一个是全配置，这个非常非常重要。什么叫全配置？就是它从很小的模型到很大的模型，所有的配置都是完整的。首先它提供了稠密模型，不是MOE，就是单个的这种稠密模型，从0.6B、1.7B、4B、8B、14B、32B，这些都提供了。MOE模型提供了30B-A3B和235B-A22B。235B-A22B这种模型什么意思？就是说一共是2,350亿参数，每一次激活220亿个参数。它是这样的两个MOE模型。

全场景。你在移动端0.6B到4B这样的模型，在移动端没有任何问题都可以跑。说我在终端推理，或者是在PC端跑一跑，做一些商业应用，8B、14B、32B都是可以跑的。你说我有一些复杂任务，或者做一些AI agent开发，30B或者是235B的两个MOE模型非常好用。而且呢是全语种，它支持119种语言。不过这块有人在吐槽。

这119种语言，好像除了中文、英文和常见的几种语言之外，其他什么斯瓦西里语这种奇奇怪怪的语言，支持的并没有那么好。

训练的过程呢，稍微的跟大家展开讲一讲。预训练用了36T的数据。LLAMA4的预训练数据的话是30T，Qwen3的话，比LLAMA4的训练数据集还要再大一些。

它的第一阶段呢，是使用了30T的数据，训练了一个基础语言模型出来。第二阶段用5T的数据呢，去强化STEM，也就是这种科学相关的能力，以及编程相关的能力。到第三阶段呢，就是扩大上下文。一开始这个上下文是比较小的，经过第三阶段的扩大以后：

– 4B以下的模型，也就是刚才我们说的0.6B、1.7B、4B这三个模型，它们的上下文呢达到了32K。
– 大于4B的模型，也就是8B、14B、32B，以及MOE的两个模型30B和235B这几个模型，他们的上下文呢都已经达到了128K。
– 在一些特殊情况下，可以达到256K的上下文。

这块呢，有待继续提升吧，因为LLAMA4的上下文是10兆，要比它大很多。

数据来源，就是拿什么数据来训练的这个东西：
– 60%的数据呢，是互联网原生数据。
– 25%呢，是专业领域的数据，包括GitHub上面的代码、数学公式、科学数据。
– 还有15%呢，是合成增强数据，就是拿其他的大模型去生成的一些数据，用的是Qwen2.5的一些模型生成了一些数据。这块呢，主要是做一些推理链的训练，而且也可以做多语言的对齐。

这就是它的数据来源。这块呢，跟LLAMA4就有很大的区别。LLAMA4大量的使用的都是合成数据，而这个Qwen3的话，使用的大量是原生数据。

在预训练之后，还会进行后训练。后训练的话，实际上是对模型做微调了。他呢，在分四步对Qwen3进行微调：
1. 第一步是长思维链冷启动的训练，注入数学、代码等领域的常推理数据。
2. 第二步呢，是强化学习探索强化学习，就是你给我生成结果，我们来打分，然后你根据我的打分来决定说这个结果对不对。它是基于规则奖励，提升复杂推理能力的一个训练。
3. 第三步呢，是模式融合。这个东西特别好玩，它是一个融合模式的推理模型。什么意思呢？因为我们使用推理模型的时候，有一个特别讨厌的东西，就是有些特别简单的东西呢，给你推理半天，甚至推理的TOKEN还消耗了很多。对于Qwen3来说呢，它里头有一个参数，就是你是不是要打开推理。同一个模型呢，你可以在这设说你不要打开推理，他就快速的给你出一结果。你说你给我做推理。

就给你啰里八嗦的去想去了，这个也算是个创新吧。原来都是推理模型，就是必须要推理。他是做了这样的一个训练，然后第四步呢是进行通用校准，特别是覆盖20多个领域的强化学习，修正一些不良行为。他等于做了预训练之后，还做了大量的微调后训练。

那么，Qwen3的技术创新到底有哪些呢？

第一个就是它这个混合推理架构。就是你到底想不想让它推理，你告诉他就完了。他给你去推去，或者是直接给你一个答案。

第二个技术创新呢，就是它的MOE的参数效率极大提升了。它的235B的模型里头，每一次激活只激活22B的参数。它要比DeepSeek R1激活的参数要少很多，只有DeepSeek R1 1/3的参数。它整个的模型尺寸也只有DeepSeek R1的1/3。所以呢它的部署成本要比DPC卡R1要低很多，推理的效率也要高非常多。

第三个呢就是多语言和多模态的支持。第一次支持了119种语言，2025年内将推出Qwen3-Vl多模态版本。现在的Qwen3还不支持多模态，你给他张图片他还是认不出来的。这块还是比LLAMA4要差一点。LLAMA4是你给他个视频，他都可以给你进行推理。

最后，Agent能力增强。它呢是直接支持MCP，原生支持MCP协议，工具调用准确率提升40%，API代码量减少70%。这个是Qwen3在这一个时代里头，必须要去实现的功能。这也是它比LLAMA4强的地方。

对Qwen3的期待、评分以及使用感受方面，还是有一些落差的。各项评分一定是高的吓人。因为你现在说，我今天推出一个新模型出来，你一定会自己做一大堆评测，然后跟模型一起推出。如果你说我自己做的评测就比谁都差，那这事你还推它干嘛？一定是说我现在评测了，比大家都强了，我才可以推出来。所以评分一定都比大家强。这块呢，就不跟大家详细去列举说那个评分是多少了，没有什么意义。

但是呢，这个里头比较好玩的是什么？就是它是一个田忌赛马的故事。大家知道什么叫田忌赛马吗？用我们的比较差的马，跟人家那个最好的马比，我输掉了。然后呢我用我的最好的马去跟人家的中马比，我赢了。用我的中马去跟他的最差的马去比，我又赢了。等于三局两胜，我赢两盘。他是很多做这样的这种比较。

为什么Qwen3有田忌赛马的这个能力呢？你比如说，8B的模型可以达到人家的32B的效果。我现在是32B的模型，我可以达到原来72B的效果。他等于做了很多这种错位的比较，我用更小的模型。

达到了以前必须用更大规模模型才可以达到的效果。当然，田忌赛马呢，也未必都是好事。为什么？因为很多人会对这种小参数模型抱有不切实际的期望。一堆人拿来说：“我拿这个8B的模型跑一跑试试，看看我去做一些很复杂的任务，到底效果怎么样？”肯定效果不好。千万不要认为你用8B的模型就可以跑出非常非常好的效果来，这个肯定还是有一些差距的。它可能会在某些特定的领域，或者经过一些微调和训练之后，可以达到32B的效果。

绝大部分人对大模型的认知都是停留在什么GPT-4O这个水平的。你要想拿8B的模型去跟这样的模型去比的话，没有任何可比性。那你说我使用这些32B的模型呢？就属于在大部分情况下可以接近GPT-4O这样的一个水平。咱不研究多模态那些东西，就是正常的内容生成，算是接近。至于说它的235B呢，现在距离Gemini 2.5 Pro还是有一些差距的。但是呢，相对于其他的模型来说，基本上算是跑在同一个基准线上了，不比别人差了。

Qwen3 235B-A22B的这个最大模型在数学、代码、Agent等方面都是全面超越了DeepSeek R1。部分场景呢，接近Gemini 2.5 Pro。这什么意思？就是全部的场景肯定离Gemini 2.5 Pro还是有一定的差距的，但是有一部分场景接近了。但在复杂语义理解，就特别复杂的情况下，还是有一些差距的。特别是一些复杂的逻辑分析，它是有问题的。真实使用的感受呢，算是能用。比起DeepSeek R1强吗？其实感觉不太出来，基本上可以达到DeepSeek R1的水平。

指令依存方面呢，肯定还有一点点欠缺。让他做一个很复杂的动作，他有的时候还是会丢三落四一些。这块我自己试过的，网上也有很多吐槽的人。第一个，复杂推理中的逻辑断层和幻觉生成的问题。所有推理模型身上都有这样的问题，Qwen3即使是最大的模型235B，在这块呢，也不比别人好多少。第二个呢，就是过度思考跟效率问题。有些人发现说：“我给他一个很复杂的问题，他自己开始进行推理了，推理来推理去，直接死在里头了，彻底推不出来了。”这种情况现在也还是存在的。

但是呢，也不用太着急。他既然可以进行后训练，可以进行微调，那我相信大家有各种问题去提就完了。Qwen应该会快速的微调出不同的版本出来的。多语言支持的不均衡，你说119种语言，那些小语种支持的肯定没有那么好，因为语料也没那么多嘛。但这一块你想让它提高支持的话。

也很简单，拿足够多的语料去微调就完了。他也是可以去支持的。然后还有一些伦理跟隐私方面的风险，因为它可以有非常非常小的模型。所以你可以把这种模型，比如部署在你们家洗衣机里，或者部署到一些很奇奇怪怪的这种角落里面。他的能力还很强。而且这种全开源的模型，还有一些人微调了以后，是可以把他的一些安全限制去掉的。这个就会比较吓人，所以大家对这块呢也有一些担心。

还有呢，就是模型对齐和偏好上面的一些问题。比如说吧，生成内容有时候会偏离用户的意图。它对一些指令的依从，还是会稍微差一些的。那么给出一个简单的结论吧，这到底是一次划时代的成功呢，还是翻车呢？我个人的感受呢，这又是一次划时代的胜利。

Qwen3真正在跟谁竞争？大家要想清楚：LLAMA 4、DeepSeek R1、Claude 3.7、Gemini 2.5、GROK3、GPT O3 O4这样的模型，到底在跟谁竞争？实际上真正去跟Qwen3竞争的只有一个，就是LLAMA4。其他的都不在同一个起跑线上。

LLAMA4呢，是翻车了。它怎么翻车的？第一个是数据造假，或者叫过拟合。拿直接去跑分的题目进行训练，这样跑分效果特别好，但是实际使用的效果差异巨大。这是LLAMA4翻车的一个最根源的原因。

咱们从另外一个角度上来讲，LLAMA4自己其实是有一些问题的。第一个是什么？就是它公开的模型太大，占资源很多，放弃了绝大多数的场景。他就开源了一个104B，一个400B的模型。普通人你拿他没办法，像我的电脑根本跑不起来。你就算部署到云端的话，它占资源也是占的非常多的。就对于这个经济性来说，一点优化都没做。你说我想在手机上跑，想在嵌入式设备上跑，没做这个准备，他就不惦记。甚至还有一个两T的模型，压根都没有发布出来。他就发布了一个109B，一个400B，其他都没有了。

而且这么大的模型，你想去微调那太痛苦了。就是你想微调一个模型，模型越小越好调。你模型越大的话，你调起来甭管是你的数据还是算力，都是非常巨大的成本。现在看的LLAMA，应该是准备走XAI这条路。

XAI是什么路？假开源。为什么马斯克的XAI叫假开源呢？就是我确实把东西开出来了。他承诺的是什么呢？就是我发布新版本，我就把旧版本开源。而且呢，开出来的东西，你要想调用的话，你也调不了。为什么？我只把那最大的模型出来，哐昌往那一扔就完了。各种的文档，各种东西都很少，你部署上去也不划算。

所以呢，我开源了吗？开了，东西也放这了。能用吗？没法使。你提任何问题、提任何要求，说哪给我改一东西，也没人理你。这就是XAi的玩法。

你要想调用这些东西怎么办？到我服务器上来调用XAI的API，这个是没问题的。我现在也在Grok的服务器上去调用它的API，效果也还可以。但是你说有没有第三方去部署Grok模型，然后让大家去调用呢？没有。因为你现在开源出来的版本低，它的效果没有那么好。你要想使用最新的，你只能在他的服务器上使。以后呢，Meta估计也要走这条路。

那你说为什么没有人骂XAi呢？原因很简单，因为XAi一直就这样。从x开放出来的这个推荐算法，开放出来以后，就再也没有更新过任何代码。你提的所有问题，连回复都没有人回复。XAi更新出来的Grok开源模型也是如此，开源出来啪往那一扔，彻底没人理你了。所以它一直这样。

而LLAMA呢，原来是比较开放的。现在大量的模型都是在LLAMA基础上做出来的，包括Qwen早期的模型，都是在LLAMA基础上做出来的。那现在呢，有点越来越回去了，所以有点怒其不争。大家要骂一骂他，看看能不能把他骂回来。

然后另外一个，LLAMA4被人骂的原因是什么？他不支持MCP。现在是一个做Agent的时代，你不支持MCP，你模型能力再强，你也搞不定各种场景。现在即使是你使用GBT 4O或者GBTO 3这样的模型，你没有一些外接的组件，你根本就跑不出结果来。所以你不支持MCP，这事肯定不行。

还有呢，就是LLAMA对用户是有限制的。LLAMA虽然是开源模型，但是呢，不能进行商业使用。你只能拿去做研究。你说我拿这东西做商业使用了，对不起，你会收到律师函的。而且如果你是一个大公司，月活用户数超过7亿的公司，你如果想使用LLAMA4或者LLAMA早期版本，你需要向Meta做单独的申请。申请通过了以后你才可以去使用，否则不让用，就做了很多限制。

这个反面典型讲完了，咱们讲一讲Qwen3跟LLAMA4比较起来是怎么样的。Qwen3完全开源，你爱干嘛干嘛去，想怎么调怎么调。第二个，体积小，参数少，规格全，性能高。从0.6B就开始，所有的都给你发一遍，爱用哪个版本用哪个版本。这些小体积的模型，经过微调之后应该会一统江湖。

什么意思？就是现在在hugging face上，绝大部分的模型都是拿Qwen2.5、Qwen2这些各个尺寸的模型调出来的。

早期的LLAMA还是各个尺寸都有的。现在到LLAMA4，前面那些小的模型就不出了。Qwen3又把所有的模型都出了一遍，那大家就拿来微调呗。你说哪块不满意，我就专门把它调一调，训练一下上去使不就完事了吗？所以一定会一统江湖的。

而且，Qwen3是原生支持MCP的。我在本地部署了OLAMA 8B的模型，使用Cherry studio测试了一下，支持没有任何问题。但是呢，支持的并不是那么顺畅。30B和32B的模型我在本地也装了，完美支持MCP，没有任何问题。

那你说什么叫支持的不顺畅？什么叫支持的顺畅呢？在这跟大家讲一讲使用MCP的过程。其实很简单，MCP也是描述一下工具，说我这有一工具，这工具叫什么什么名字，输入的参数是什么，输出的参数是什么，能干什么。大概是有这样的一个描述文件，你把这描述文件给到大模型以后呢，大模型会根据你提出的要求，来生成一个调用这个工具接口的代码。

这个8B的模型呢，有时候生成的代码会有点小错误，导致呢调用失败。那调用失败了以后呢，他会换一个方式，再调另外一个接口，然后会得出一个需要的结果出来。你使用32B模型，或者30B的Qwen3模型的话，你把一大堆的描述扔给他以后，他就会正确的找到需要使用的接口，需要使用的工具，然后生成调用代码直接调。调完了以后得到结果，需要再调用的话，还可以在一次推理里头多次调用，然后得到结果。

因为我是放的高德地图的MCP进去，说来给我规划一个旅游路线，这个效果好极了。完完全全在本地，当然高德地图那个服务器不在本地。其他的，他的Qwen3，OLAMA，Cherry studio都是在本地跑起来了，所以这块效果好极了。

现在呢是大模型密集发布的一个周期。前面我们看到了Gemini 2.5 Pro，Gemini 2.5 Flash，GPT也在快速的连续发布。后边还会很快看到一些新东西，包括马斯克下周要发布的Grok 3.5。Qwen3出来以后，如果有哪些方面超越了它，那它是肯定是要更新的嘛。GPT5应该也快了，这就是这样的一个风起云涌的大时代。

好，总结一下吧。Agent时代一定要有一个对Agent友好的模型发布出来，才会被大家叫好，才算是一次成功的发布。体积小，参数少，规格全，性能高，只要可用性不退步，方便微调，这些特性都具备的话，再加上前面的MCP的功能，Qwen3绝对是一次划时代的成功。好，这就是今天讲的故事。

大家赶快去玩耍起来！好，感谢大家收听。请帮忙点赞，点小铃铛。参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

Grok 3发布：Elon Musk称其为“宇宙最聪明”大模型，暴力出奇迹的xAI，是否可以成为AI时代的世界工厂？

Luke Fan — Thu, 20 Feb 2025 00:40:03 +0000

马斯克的Grok 3到底是不是世界上最聪明的大模型？暴力真的能出奇迹吗？大家好，欢迎收听老范讲故事的YouTube频道。世界上最聪明的大模型，这是马斯克对他自己家的Grok 3给的定义。如果有人不同意的话，那么会被开除的。因为XAI某一位员工在X上发帖说，Grok 3好像并没有那么聪明，然后就被XAI找到说，你要么删帖要么开除。后来这哥们想了想说，我得捍卫一下自己的言论自由，于是这哥们就被开除了。

在说所有细节之前，咱们先说说Grok 3到底怎么用。在2月18号北京时间中午12点的时候，马斯克跟另外三位小伙伴，一共四个人坐着开了场直播，把这个Grok 3发布了。我就四处去找，首先我是X每个月交8美金的Premium用户，我在X上使不了。X上你必须是40美元的Premium+用户，才可以去使用。在Grok的这个网站上呢，你也需要30美元一个月的账号才可以用。免费用户只能用Grok 2，API不充钱已经不让用了。如果是团队的话，至少花了5美元以上，每个月他会赠送你150美金，但前提呢是要跟XAI共享你的数据。

目前Grok 3的版本还没有上，你就算交钱了，你在XAI的网站上，也只能得到Grok 2的API，还要再等几周才会上线。Grok的苹果APP上面，是可以使用Grok 3 Beta这个版本的，即使是免费用户也可以去用。因为我呢对于XAI来说是一个免费用户，我就通过iOS，也就是iPhone和iPad这个版本上去，好好儿的测试了一下。后边儿呢咱们再去讲具体效果怎么样。

Grok 3有哪些具体信息呢？在整个的发布过程中呢，并没有特别详细的讲，只是说，我各种排行榜都排在第一了。Grok 3，Grok 3 mini是怎么去排上去的，讲了很多这样的话。但是呢，这个系统本身的一些细节，并没有那么详细的公开。因为可能在Grok 3稳定下来以后，会把Grok 2开源。现在Grok 1是开源的。

Grok 2可能有一些细节会被披露出来，但是Grok 3的话应该很长一段时间不会有特别详细的细节披露出来。现在能够知道的就是，Grok 3应该也是一个MoE模型，跟DeepSeek是一样的。它到底有多少参数呢？现在猜测是有1.2万亿个参数，DeepSeek是6,710亿，它呢应该是在DeepSeek的基础上翻了一番。至于这个数字是不是准确，我不知道，因为呢我去问了Grok 3，也去问了ChatGPT，最终是给了我一个这样的数字，我并没有去查原文件。

Grok 3的使用感受到底是什么样的？它呢，下边有两个按钮，一个叫Deep Search，一个呢叫Think。Deep Search实际上就类似于OpenAI的Deep Research，就是这种深度研究，它会搜索大量的内容，然后呢，再去给你出报告。Think的话实际上就是类似于O1、O3这样的推理模型。这两个按钮它特别有意思，这两个按钮呢你可以都不按，也可以按其中一个，但是不允许两个都按。这个意思大家能够理解吧？你不能又要Think，又要Deep Search，这个事是不允许的。那你说我既不Think也不Deep Search，这事行不行？可以。

然后呢，我都试了一下。在Deep Search的时候，它会直接引用几十个甚至上百个网页，非常非常多的网页，然后呢给你一个似模似样的报告，很长，格式非常非常好的一份报告。在Think的时候呢也会搜索，并不是自己去瞎编的，他呢，会搜索25个网页，以及呢X上的帖子。大家注意，Deep Search时候是不搜索X的，在Think的时候是会搜索25个网页，加上X上的可能5个帖子吧，反正我搜了几次都是5个帖子，然后给你进行一定的推理，总结出一个小的文案出来。这就是这两个功能。如果两个都不选，我既不Think也不Deep Search，它呢就不联网了，就直接是给你编一个结果出来。

大家注意，所有的大模型，甭管是谁家模型多聪明，你让他直接编出来的这个结果，都是最不靠谱的。那么，他这三个功能，就是两个都不选，或者选其中任何一个。这三个功能呢，特别有意思的一点是什么？他可以混用。

在OpenAI上呢，这种模型混用是比较严格的。你如果开始一个新话题，选择了一个模型，提了几个问题之后，你现在想去切模型的时候，你这个模型，比如说允许有图片呢，下面你要去切的时候，只允许再切换到允许图片的模型。它不允许你切换到不允许读图片的模型去。这个是有限制的。但是呢，在Grok里面它是没有限制的。就是你随时可以开始新对话，对话的过程中可以随时切模型，你可以来回切来切去。

但是呢，在这个过程中呢，有一些不是那么有趣的地方是什么？就是如果你俩都不点上来，直接让模型去编，他就不联网了。他编完第一句以后呢，你说我现在要开始进行深度的搜索了，deep search了，这个时候他也不联了。或者说我现在需要think了，他也不会去联网，他就根据现有的内容接着编下去。他是这样的一种过程。

但如果你是以deep search开始的，那么think的时候呢，他就不去搜索帖子，因为deep search是不搜索X的。如果你是以deep search或者think开始，然后你最后切换回到完全编的，既不deep search，也不think的这样的一个裸模型，去输出的时候，继续搜索。所以它整个的逻辑，还稍微有一点点小混乱吧。

那么，Grok 3到底是不是宇宙第一聪明的这个模型呢？因为你如果用iOS APP你去选的时候，后面会写一个叫smartest，最聪明的。它是Grok 3 beta，后边写一个小括号，smartest，这个是最聪明的。到底是不是？我个人感受呢，现在相差还比较远。为什么呢？为了准备这期节目呢，我其实用Grok 3去做了很多的工作，包括是他的deep search或者think。但是最终呢。

Grok3生成的所有结果都被我扔掉了。最后的内容还是靠豆包和GPT search来完成的。原因也很简单，Grok 3 deep search现在报告的格式非常好，非常中规中矩，但是大量的段落是重复的。前边写了一遍，后边车轱辘话又写了一遍，用不同的格式，用同样的话来回来去说，这个是很讨厌的。

还有一个问题是幻觉大到完全无法使用的一个状态。比如说，我问他XAI现在有多少人了，图说现在有900多人了。后来我问了其他几个模型，都告诉我是有100多人，这个可能还是稍微靠谱一点点。都是联网搜索吗？你都不是自己瞎编的，那我不知道他这个900多人这个数是哪来的。

然后我说四个人在上面开发布会嘛，中间两个人是华人。这两天在国内又嗨起来了，说你看马斯克发布Grok3的时候，马斯克只能在一边点头，点头机器。中间是做C位的两个都是华人，旁边还有一个白人。那我就问他，我说这俩华人到底是谁，什么教育背景，然后就开始给我胡说八道。他也是举的XAI里边的一些华人高管，但是呢并不是当时坐在台上这两个人。

发生这种事情的原因很简单，就是他在deep search的时候，一下瞪了可能几十个上百个网页，回来拿这么多个网页进行总结的时候呢，把内容搞串了，实际上就产生幻觉嘛，就完全没法使。

然后呢，我去尝试了一下think。think呢其实没有特别细致的测试，为什么呢？本来我想去让他做编程，但是呢，他没有API。你没有API的话，就没有办法接到IDE里边去，你没办法作为插件接进去，就没有办法详细地参与到我的这整个的编程过程里头去。我做了些简单的测试，但是感觉呢think模型对于各种编程的复杂的环境，和各种的版本和类库的话，并不是那么熟悉。这块的话可能以后等他有了API以后，再去做详细测试了。直接生成还过得去，就是如果两个都不点，让他直接生成。但是呢，因为在手机上用，并没有办法进行。

特别大规模的使用和测试，现在看来呢，XAI的Grok 3采用的是叫分梯度发布的一个方式。就是说，我先发布一点，然后慢慢地让更多的人能用，再慢慢地发布更多的内容出来，然后不断地去迭代。他现在干这样的事情。现在呢，就是手机用户可以用。那么手机用户呢，第一个用户量不会特别大，而且在这个时候，可能还能够为Grok APP带来一批的下载，这个也算是一个小心思吧。

在手机用户使用的过程中呢，你不会给他特别繁重的任务。因为你要跟他做这种很复杂的沟通的话，你需要打好多字，举了个手机在这噼里啪啦打字，很费劲的。你像我，为了做这个测试，最后是把我的iPad接到了机械键盘上，夸啦夸啦往里打字，这个还是能够问一些稍微复杂一点东西。要真是拿着手机，在那个屏幕上打字的话，这个还是挺费劲的。还有什么呢，就是不会有太正式的任务是通过手机来进行的。比较正式的任务一般会通过网页，通过电脑来去工作。

Grok跟X网站上还是有一些付费的人能够使用的。你不能说老范你没交钱，你就说这玩意不好使。这些比较高付费的用户，比如说在X平台上交了40美金一个月的，或者在Grok平台上交了30美金一个月的，这些用户呢，他是可以去用的。但是这些用户呢，数量肯定会少很多。还有一点呢，就是皇帝的新衣嘛，我付了这么多钱了，我就不能允许任何人说我是傻子，我一定要说这个钱付的是值的。所以呢，就算他们遇到问题了，上来骂街的可能性也不是那么大。这个就是马斯克当前发布了一个版本，比较聪明的地方吧。

后面语音模式的话，可能还要再等一周。我估计语音识别率这块还有待优化吧，因为语音你认不出来就是认不出来，还有口音还有乱七八糟这种事情。咱们再看看，后边会做出一个什么样的结果出来。API的话，还需要再等几周。为什么API要这么费劲，原因呢是现在大家只能看马斯克官方的排行榜，我的测试数据是什么样的，排行榜是什么样的，你自己没法去测取，给你一个手机版本。

或者给你一个网页版本。你现在想把这几千道题输进去，测试这个事太费劲了。你要想测试这东西，必须要拿API写程序去测。这个过程其实有点像法拉利的一个跑车。法拉利就说了，这个东西太贵，而且做测速的时候太危险。如果你自己去测的话，非常不安全，而且保险公司也不允许我们干这个事情。所以，法拉利跑车的最高极速，只有法拉利官方出的这个版本是唯一标准，任何人不得私自去测试法拉利跑车的最高极速。这个事情我们不承认，而且这个事我们也不允许。

现在，XAI的Grok也就是在这样的一个阶段。等以后API上来以后，每一个人都会自己去跑各种各样的测试，或者做多模型的输出结果比较。到那个时候，丑媳妇就真的要见公婆了。下一步的话是要开源Grok 2。DeepSeek是上来直接把最新的模型开源了，而且上来说，你们每家部署的跟我现在自己官网上跑的是一模一样，没有任何差别的。而且不断的有新的技术演进，不断的有新的技术新发现，都直接发论文发出来了。

但是，马斯克永远是开源上一代模型。就是他在用Grok 2的时候，他把Grok 1开源了。Grok 3能够稳定正常运转的时候，他会把Grok 2开源出来，可能还要再等那么几周或者是几个月的时间。山姆·奥特曼现在也惦记开源，刚在X平台上发了帖子说：“唉，咱们投个票吧，你们觉得OpenAI应该开源什么样的模型出来？我们是不是应该开源一个在PC本地就可以跑的O3 mini模型出来，还是说我可以在手机端跑一个这个小模型出来？”

他们是准备走谷歌跟微软这条路的。谷歌也是这样，它有一个叫Gemmar的模型，比较小的这个模型是开源的，主要也是让大家在端侧来用的。还有，微软做的这个Phi模型，这个模型也是开源的，也是让大家在端侧去使用的。但是我觉得，OpenAI如果真的把它的O3的模型，或者哪怕是O3 mini的模型拿出来开源了，或者让大家能用上了。

这也是一个值得期待的事情。讲远了，再往后呢？发布会上，中间两个华人做C位了。这种事情呢，肯定会引起国内的热议嘛。你看，还得看华人吧？华人也比较好认嘛，中国脸。

台上是四个人。第一个是马斯克，马斯克坐一个角嘛。另外一个角呢，这个人叫巴布斯基，这个人呢，是个俄罗斯人。中间的两个人呢，一个呢，叫做吴宇怀，XAI的合伙人，浙江人，在国内上完初中，15岁去了加拿大多伦多大学的博士，后来呢，是斯坦福大学的博士后，现在是XAI的合伙人。还有一个呢，叫Jamie BA，这个人呢，没有看到他前面的一些履历，是多伦多大学计算机科学系的助理教授，AI教父Joffrey Hinton的学生。

等于一边一个白人，中间两个华人。但其实你要再仔细看一下，这个是全世界人民在美国进行AI创业。一个俄罗斯人，剩下三个可能都是加拿大人。马斯克自己其实是有美国国籍、加拿大国籍和南非国籍的。中间两个，一个是多伦多大学的博士，他大概从15岁就开始在加拿大生活。另外一个的话，Jamie BA是多伦多大学计算机科学系的助理教授。所以有可能，这台上坐的是三个加拿大人和一个俄罗斯人。只是看着脸的话，是这个两个白人和两个华人。

那么，XAI未来的策略会是什么样的呢？XAI现在应该也就是100多人吧。它具体是多少，这个数字呢，并没有那么确定。但我还是相信GPT search给我的结果吧，就是不要说900多人了，就是100多人的一个公司。这种公司呢，不太可能进行全面开花，七扯咔嚓我把整个的C端到B端所有东西都做起来。这个事其实有点难度。

20万张卡这个事呢，其实是别人都不具备的这个条件。它就可以进行快速的迭代。各种方法只要确认了，说我知道这个方法是什么样的。比如说DeepSeek出了论文了，出了开源模型了，那我方法确认以后，我就可以快速的在20万张卡上给你重现出来，甚至把你的参数翻多少倍再重现一遍。这个事他都是可以干的。这呢，就是暴力出奇迹。

就会有这样的结果。这个过程其实大家看看有点像什么呀？是不是有点像世界工厂？别人只要做出来了，反正我这有的是生产力，快速的复制、迭代更新就完了。所以，这个应该就是AI未来的路，就是甭管谁做出来的东西，我都可以快速验证、快速改进我的模型。

而且呢，它使用了完全的合成数据进行训练，可能有很少一部分真实数据吧，绝大部分数据都是合成数据。所谓合成数据呢，就是由其他大模型生成的数据。他通过一定的策略，要求其他大模型去给他吐数据出来，然后拿这个模型去训练。

Grok 3一旦使用了合同数据的话，会不断的说自己是Grok 2，或者说自己遵守open AI标准。这个事情你就避免不了，因为是用别的模型生成的数据嘛。虽然XAI说我们在生成数据的过程中呢，我们还进行了反复的检查，有错误都给去处理掉了，但是他不断的说自己是Grok2，说自己是遵守open AI的安全准则，这件事来说呢清洗的还不够干净。

Grok3呢，应该只做了很少的对齐和测试，就扔出来了。后面呢，是准备快速迭代的。你如果现在去问Grok3，或者是问open AI的话，他们都会告诉你说，Grok3本身呢安全性还是不错的。但是有一点是不可否认的，他训练完成一个月就发布了，训练完了以后，只是在XAI内部测试了两周，就直接把产品扔出来了。这个是挺难以想象的，因为像open AI这样的这种模型，它每一次训练完了以后，可能后边都是需要用年为单位去进行对抗测试，或者说进行调整，然后才敢把这东西放出来。现在XAI就是我这边训练完了，我就把它扔出来了。

而现在呢，对外公布的是，Grok呢是通过思维列进行道德商值评测，就是它等于是一个思考过程吧。那我在思考的时候，我就把所有的输入输出的信息，进行道德商值的加权平均，或者说做一个加权复合吧，做一个这样的这个分数出来。如果这个分数达到一定的阈值以后，就禁止回答了。他大概是用通过这种方式来去工作的。

但是呢，并没有进行大规模的真人对抗测试。当然了，这个东西你说以后是不是都需要像OpenAI这么干呢？不好说。OpenAI现在还没有特别大的问题，但是谷歌就属于有点走火入魔了，直接被忽悠瘸了那种，就是画出黑人华盛顿那样的，这个就属于忽悠瘸了。未来可能大家都会去像XAI这样往前走。其实像DeepSeek也是这样，它从2.5到3.0之间的发布，也是大概一个多月或者一个月左右的时间就扔出来了，所以都不会做特别详细的或者长时间的这种真人对抗。未来可能都是通过逻辑的方式，让模型的安全性达到一个可以接受的程度就完了。我不保证这东西绝对安全，大家凑合使就可以了。我在不进行严格测试的情况下，不断地去迭代，这个其实才是DeepSeek也好，像Grok也好，最大的一个优势。每个小时都在改进和升级，全世界都在开发新的算法和架构嘛。马斯克有20万张卡，就可以把所有的这些公开的信息都在我这20万张卡里头去试一下。别人只能进行小规模测试的时候，XAI就可以进行全量测试，甚至我可以在你原来的数据基础上，用两三倍或者更大的数据集进行测试，得到一个世界上最聪明的大模型。所以我说这个就像中国世界工厂的工作方式是一模一样的。

那么XAI的下一步会是什么样呢？应该是会通过快速迭代，把当前的模型整个先稳定下来。现在已经可能是世界上最聪明的模型了，咱们就相信马斯克说的吧。但是呢，这个世界上最聪明的模型还经常会胡说八道。当它的模型彻底稳定下来，基本上可以达到可用的状态以后，下一步其实呢都是流量大战。这些人去搞C端估计应该是比较难，因为就100来口子人吧。最新的模型不开源，你去在B端竞争的话，也是有一定难度的。你比如说我现在一个公司里边需要去部署大模型了，那我不能去部署Grok 2吧，我肯定是部署DeepSeek V3或者DeepSeek R1这样的模型。

因为这是当前开源的最好模型，所以在这一块儿的竞争上也会有一些难度。那么，XAI的策略应该是依靠不断的快速迭代更新，始终保持自己是世界上最聪明的模型，这样的一个位置，吸引部分B端和C端的用户加入进来。自己虽然是有一定的流量，但是X自己的流量对于XAI来说应该是不够的，因为Open AI已经花费1,400万美金打超级碗广告了。所以，现在的AI行业已经进入了一个流量争夺的时代。在这个时候，可以靠产品好，靠模型最聪明，吸引一部分用户进来。像DeepSeek美国排行榜排第一，就是因为模型好，不是因为其他任何原因。他也没有那么多钱去烧这个流量去，他也不可能花1,400万美金去砸超级碗。XAI可能以后也只能是向这个方向走了。后面的路其实并不明朗，怎么依靠XAI把这个钱挣回来，现在还不清楚，还要等马斯克脑筋急转弯，让大家眼前一亮。

好，这就是我们今天讲的XAI的Grok 3大模型，到底是不是世界上最聪明的模型？暴力真的可以出奇迹吗？感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI或将ChatGPT涨价至2000美元/月，未来发展何去何从？

Luke Fan — Mon, 09 Sep 2024 00:40:10 +0000

2,000美元一个月的ChatGPT还会有人用吗？

大家好，这里是老范讲故事的YouTube频道。

今天咱们来讲一讲OpenAI有可能给ChatGPT涨价的事情。消息哪来的？国外著名科技媒体Information上报道，OpenAI因为连年的亏损，而且新的模型成本快速上涨，所以有可能给ChatGPT涨价。涨多少呢？他们也是搜集了很多的信息以后，判定有可能会涨到100倍，也就是2,000美元一个月。这是不是幻觉呢？大概率是。

那你说Information上面怎么会有幻觉呢？需要注意，Information上面也是说，我们根据各种信息总结出来以后，有一种声音提到有可能会涨100倍。具体是哪个涨100倍并没有说。到底是每个月这个20美金的订阅费用涨100倍，还是说TOKEN的费用，或者其他的一些商业合作的费用，涨到100倍都没有说。而到底是涨100倍，还是说按照这样的一个级别去涨，现在也没有讲清楚。所以只是说，我们根据传言得到了这样的一个消息，这就算是一个幻觉。

咱们再讲一个幻觉的故事。前面有人提到，印度产的iPhone良品率只有50%。后来被富士康的人出来辟谣，说没有那么差。如果良品率只有50%，苹果也受不了。其实印度产的iPhone良品率比中国的低10%。郑州富士康的iPhone良品率大概是96%，印度大概是85%或者86%这样的一个水平，其实依然是可以接受的。

那么前面讲的这个iPhone在印度产，良品率只有50%这件事，完完全全是造谣吗？也不是。有人报道说，印度的某一个零部件工厂，生产的iPhone外壳送到富士康检测之后，发现两个里面只有一个能用，这就是50%。也就是iPhone的某些工厂生产的某些配件，一些批次里面，它的良品率是50%。但是这样的消息拿到国内来以后，大家就传了，印度产的iPhone良品率就是50%。它会变成一个幻觉。

这种幻觉，我们一般认为它不叫完完全全的谣言，它是有出处的。只是大家把不同出处的信息进行总结归纳以后，就会变成一个假消息。以前有人在苏格兰坐火车的时候，看到有一头牛是紫色的，说苏格兰的牛都是紫色的。这个时候旁边人说，你不能这么讲啊，你应该说你在苏格兰看到了一头紫色的牛，而不能说苏格兰的牛都是紫的。另一个人又上来说，你这个说的依然不准确，那应该怎么说呢？说你在苏格兰看到一头牛，一头牛有一面是紫色的，另外一面你没看着。你不知道，但是如果有人出去传，苏格兰的牛都是紫色的，你说他算造谣吗？咱们稍微扯得远一点，讲一下这种幻觉是怎么产生的。其实，人也会产生幻觉。苏格兰的牛都是紫色的，印度产的iPhone只有50%的良品率，这就是人类自己产生的幻觉。

所以我们不要光去嘲笑大模型。好，我们继续往下讲，OpenAI现在到底在干什么？其实很多人也很关心这件事情。这一段时间来，传出了很多的新名词，但这些新名词都代表什么意思？

比如说，去年山姆·奥特曼突然被干掉，失去CEO职位，失去董事会职位的时候，就传出来的Q星算法，这玩意到底干嘛使的？今年前几个月，山伯特曼突然放了一张草莓的照片，那么草莓算法到底干嘛用的？以及山姆·奥特曼号称马上要发布的Orin猎户座模型到底是什么，或者说非常强大的Orin猎户座模型到底是什么？

前面号称OpenAI要涨价100倍的这篇《Information》文章里面也进行了一定的解释，它把这三个算法串起来了。Q星算法是主要做科学和数学计算的。大家知道，大语言模型通过语言进行推导，它就比较容易犯9.1比9.9大的这种错误。它从语言上看，11一定比9大，但如果有一个数学相关的模型直接算，就可以避免这种错误。这就是Q星算法。

而草莓算法，其实是以Q星为基础做出来的，也就是以数学和科学比较强劲能力的算法为基础的。它主要的特性是有极强的推理能力，它可以直接拆解我们所需要的任务，而得到一个完整的结果回来。这就是草莓算法。据说这种强劲推理能力的草莓算法，今年秋天就会面世，应该没几个月了。

而下一代的大模型，非常强劲的大模型Orin，也就是猎户座模型，是使用草莓提供的合成数据进行训练的。它把所有这些东西综合在一起。

现在其实大家遇到了一个问题，是什么呢？就是scaling law快卷不动了。Scaling law就是缩放法则，所有的AI公司老板都信誓旦旦地拍着胸脯跟大家讲，我们依然相信scaling law是成立的。英伟达的股票涨成现在这样的一个状态，也是大家相信scaling law依然成立。

Scaling law是什么？我不断地往里加数据，加更多的数据，加更大的算力，也就是显卡，算更长的时间，得到更大的模型，一定效果更好。这就是scaling law，也就是我们以前讲的大力出奇迹，只要你不停地往里堆，总有一个更好的结果出来。虽然所有人都在喊这件事情。但其实，过去的一年里，这个 scaling low 基本上并没有被突破，没有更大的模型出来。虽然我们看到了拉玛 3.1405B 的推出，但因为前面有不公开参数的 GPT-4、GPT-4O 以及 Gemini 1.5 Pro 这样的版本，所以我们并不能确定拉玛 3.1405B 是否在 scaling low 上继续往前走。

Anthropic 的 Cloud，它们最强的模型叫 Opus，虽然也没有公布参数量，但大家普遍认为它应该是跟 OpenAI 的 GPT-4 或者 GPT-4O 的参数量级在一个水平上的。结果，Anthropic 推了一个 Cloud 3.5，大家觉得实在是太香了。现在可能使用 Cloud 3 Office 的人已经越来越少了，而 Cloud 3.5 的 Office 版本这么长时间也一直没推出来。

大家已经在这种大模型的基础上进行蒸馏之后，往回退了一步，并没有继续往前走去实现更大的模型。而现在，各种 70 币上下规模的模型，它们的能力已经接近 GPT-4O 了。无论是使用拉玛 3.1 的 70 币，还是使用通义千问的 72 币，或者其他一些公司训练出来的开源、闭源 100 币以内的模型，它们不能说完全超越或全面碾压 GPT-4O，但在某些特定场景下，已经接近或超越 GPT-4O 的能力了。

小模型结合各种场景之后，甚至比这些 70 币的模型表现还要更强一些。也就是这种 7 币或者十几币的模型，如果进行一定的微调，再结合特定使用场景的话，效果也很好。这导致什么呢？对于更大模型的需求在变弱，大家觉得现在这些模型挺好的。在这样的基础上，不断把这个模型变得更小，让它更加贴合具体的应用，效果也非常好。

还有一个原因是什么呢？就是 GPT-4 和 GPT-4O 指明方向以后，大家已经追赶了一年了。追赶到现在一个位置后，大家说我们已经基本上达到和超越 GPT-4O 的水平，再往前走没有方向了，没人指明道路。现在大家都在等待行业的老大，或者叫排头兵的 OpenAI，来告诉我们下一个方向在哪里。

现在 OpenAI 告诉大家，下一个方向有可能是 Orin。而 Orin 跟现在的 GPT-4O 比起来，它的差异是什么地方呢？就是推理能力更强，逻辑能力更强，幻觉更少。这是现在新的追求方向。但是 Orin 出不来，大家也不知道应该怎么做，还是要等它做出来。

阻碍 scaling low 继续发展的还有一大原因，就是数据枯竭了。训练现有的模型已经可以把当前能够找到的数据基本上都使完了。更多的数据进行清理和处理的话，成本非常高。我们直接找到过往的书籍和互联网上的信息，对这些数据进行清理，人工的这种加工成本是非常高的，因为数据量实在太大了。很多的低质量数据，拿去训练以后，可能幻觉会变得更厉害。

所以现在大家普遍使用的方法是什么？就是使用合成数据。所谓的合成数据，就是由大模型生成的数据，再去训练新的大模型。而这些数据又不是靠大模型直接生编的，而是什么呢？让大模型去取代做数据清理的人工。我们拿到大量的网络数据以后，把这些数据交给一个大模型，让它去做清理，清理完了以后重新生成一遍。

这些合成数据也不算是无根之木，它也是从现实来的，只是经过大模型的过滤和清理。拿这样的数据再去训练新模型，发现效果会更好。拉玛3其实就是这么训练出来的，这拉玛3里边的数据是用拉玛2进行清理出来的，也算是合成数据，训练大模型的一个典范。

而现在OpenAI的Orin大模型，就是准备使用它的草莓算法生成合成数据，然后再去进行训练。OpenAI自己玩的就是一个心跳。现在新一轮融资还没有关闭，新一轮融资就是已经有领投方了。据说有一家公司说，我们愿意出10亿美金，然后再等其他人跟投，希望可以凑个几十亿美金让OpenAI再活半年。

OpenAI这个几十亿美金，大概也就是活半年。他一年应该妥妥的会烧掉上百亿美金，而且这个数字可能还会快速上涨。因为去年呢，他亏了大概50亿美金，今年应该亏到上百亿美金是没什么问题的，等到明年可能就是几百亿美金的亏损。

现在大家预估OpenAI一年的收益是35亿美金，也就是这个里面大概20亿美金来自于一个月20美金的订阅，剩下的可能是做TOKEN，我们使用API买TOKEN的钱，以及其他的一些服务费。这个是OpenAI的收益预估，因为它毕竟不是上市公司，没有财报出来，所以大家只能去猜测。

而亏损，每年OpenAI大家预估的亏损额是50亿美金，这是一个非常恐怖的数字。OpenAI手里边的现金，你想微软给了100亿，再加上其他一些人给的钱，所以现在基本上是烧完了，再不融到这一轮就没得玩了。你融到这一轮以后，可能也就是再烧半年的。

那你说钱这么多都烧哪去了？第一个就是烧算力。你得上微软爸爸那里去交钱，买微软云上的算力，继续去训练大模型。第二个，你现在是1,500人团队了。而且，OpenAI现在团队规模还在不断扩张。那你人多了以后，肯定有很多的内部是是非非。有一个故事说，这个活原来一个人能干，现在不行啊，干着太累了。招两个人来，一共三个人来做这个事情。原来这个人变成领导了，后来发现比以前还累。说为什么？说我现在需要给他们做计划，让他们也做计划，回来我要审核他们的计划，看看这个数据应该怎么去分配，任务分下去。我还要调解他们之间的矛盾，还要去做考核计划。说这个比以前我一个人把活干了还累啊。

所以，这个人增加了以后，绝不是说我增加了一倍的人，生产的效率就提高一倍。经常是提高到一定程度以后，你的生产效率就不会再提高了，而开始下降。这个就算是一个边缘。所以，OpenAI内部现在是是非非，肯定是非常多的。作为当前最红的行业AIGC的领头兵，也就是当红炸子鸡，OpenAI自己招聘人才，以及他要留住自己的人，成本肯定会直线上升。投资基金、各种猎头公司，每天都趴在他外边等挖他的人。

那么，你要想让这些人留下来，一定要多给钱。新的模型，训练成本肯定也是几何级数上升的。你想让scaling low再次起作用，就一定是要投入更多的数据、更多的算力，这个事没有办法。而且，越大的模型，你的安全成本就越高。以前我们就都在讲，什么叫知识越多越反动？你这个模型变聪明了以后，他有可能给大家带来的伤害会变得更加惨重。我们想让一个更聪明的大模型成为安全的模型，所需要支付的成本也一定会更高一些。如果这玩意再出错了，那就是高智商犯罪了。

OpenAI现在真正的困境是什么呢？就是不赚钱。开始其实有一些路就走错了。聊天模式20美元的订阅以及TOKEN收费，不光是他自己走错了，还把整个的行业都带沟里去了。他有他强的地方，就是你通过聊天方式，一开始就震惊了全世界，让所有人，不管适不适合去用AI的，大家都冲上来用，成为了全世界关注的焦点。这是他使用聊天模式取得的成就。

但是，聊天模式是一个双刃剑。一面是说大家都关注了，每一个人都可以用；另外一面是什么？你要想从聊天模式再继续往前走一步，可以让大家能够更好地体验到AI的能力，这一步其实是非常难以越过的。另一方面，20美金订阅，那他出了这样的一个数据之后，导致整个行业只能跟他对标。微软的Copilot也是20美金，谷歌的Gemini你只能在20美金往下做，其他的一些cloud等等。
都是在20美金这个范围上下去波动。至于一开始，那个人到底为什么定他20美金，这个大家只能想破脑袋去想了。前人一定是有他的道理。就跟原来有一个笑话说，有一个大的印象派画家，他有一副名画，很多人搞不清是画什么的。一堆人在那去做研究，甚至有些专家专门去研究这幅画，还发表了很多论文，成为了学术态度。

第一个研究这幅画具体画什么的学术泰斗离开人世去了天堂以后，正好碰到这个画家，就去问他说：“您那画到底画什么呢？你看我研究了一辈子，都成为学术泰斗了，我也没研究明白，还跟很多个派系吵来吵去的。”那个画家说：“你到底说的哪幅画，我想不起来了。”最后他太太在旁边提醒了一下：“你说的不会是擦手布吧？你每次画完画，然后拿那个布擦手，形成了一副印象派的名画，让后人研究了很长时间。”

所以20美金有可能就是这么来的。而20美金跟token付费这种事情，其实会极大限制使用AI的人数，因为它会限制流量的上升，也会限制新的商业模式的爆发，这个其实是有毒的。现在OpenAI其实面临着当时谷歌的困扰。谷歌的困扰是什么？是分叉。当时谷歌把安卓做出来以后，所有人一看，这个东西实在太厉害了，我们拿它去分叉，就有安卓的各种智能家电的操作系统、安卓的手表操作系统、安卓的各种嵌入式操作系统、安卓的各种定制操作系统。谷歌说不行，你们不能分叉，我一定要把安卓的版本一直升上去，让你们所有分叉人都死掉。

OpenAI其实现在面临的困难是一样的，它指明了方向，大家各自去发展，长出了Anthropic、拉玛、Gemini，现在的标准已经不统一了。想要继续站在排头上，继续引领风潮，必须不断放出新消息，不断去指明方向。但是，手里边的钱又不够多，攻城能力也不够强，也没有盈利能力，只能是不停地放空话。你像从2024年年初到现在，OpenAI已经吹了多少牛，到现在都没有实现。

那么OpenAI的解决方法有哪些呢？第一个就是涨价，像刚才我们前头讲的，把这个费用涨100倍，涨到2,000美金一个月。这就是第一个处理方法，涨上去以后就可以达到盈亏平衡了。第二种方式就是不停的融资。山姆·奥特曼在斯坦福大学演讲的时候也讲过，说你们不要去研究挣钱的事情，我就不停的去找钱，反正我有这个能力。找完了以后呢，就把它烧掉，再去找。现在新的一轮钱找到了，这条路还是在往前走，而OpenAI准备去上市。上市的时候，你又可以圈一大笔钱吧。但是上市了以后，你未来还是要去盈利的啊。所以甭管是找钱也好，还是上市也好，算是饮鸩止渴，或者是寅吃卯粮，我们把未来的一些可能性把它消耗掉，那继续在亏损和越亏越大的这个道路上狂奔向前，这不是一个长久的解决之道。

还有一条路是什么？就是重新发明定义，走通一些新的商业模式。这可能是山伯特曼或者整个OpenAI，包括整个硅谷和行业，都在期盼的一个事情，就是说我们不再去依赖传统的这种流量商业模式了，而是做一个新的商业模式，像收税一样，把这个税收上来，让大家像一个基础设施那样去使用这些AI大模型。但是这种模式呢，到目前为止还没有走通。未来到底能不能走通这件事情，还是一个问号。

那你说，如果这个商业模式走不通，盈利呢？其实从短期来看，还是很难的。还有没有其他的方式？OpenAI难道就要倒在这里了吗？还有一个方式就是国有化，直接交给国家，让国家通过税收、通过印钱直接去使用这些大模型。现在Scaling Low继续往前走的话，可能迟早会走到国有化这条路上。

那么就看到底是大家能够先去找到合适的商业模式，让整个AIGC产业健康发展，还是最终让AIGC都沦为主权大模型。到底是走哪条路？因为主权大模型这件事情，是黄仁勋提出来的，是说我们以后每一个国家都去买自己的显卡，建自己的算力中心，每一个国家都拥有自己的主权模型。这是他提的这条路，不知道是光明还是黑暗，但也在我们的前方等待着我们。

好，这就是我们今天讲的故事。一OpenAI准备涨价100倍，为开始探讨一下OpenAI未来的一些发展方向。好，今天的故事就讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。