科技评论 – 老范讲故事｜AI、大模型与商业世界的故事

代码无法编译、数据完全隐藏，这一波操作到底是不是“假开源”？拆解Grok架构的虚与实，虽然无法直接复刻竞品，但给国内大厂指明了进化新方向｜X 马斯克推荐算法假开源算法细节分析

老范讲故事 — Thu, 22 Jan 2026 00:46:00 +0000

马斯克实现诺言，开源了X的推荐算法，这次总是真的了吧？

大家好，欢迎收听老范讲故事的YouTube频道。老范原来总批评马斯克假开源，这次应该是真的了吧？

1月10号，马斯克发帖说7天之内开源X的推荐算法；1月20日，也就是10天之后，确实开源了。马斯克事确实给你干了，但是时间大家就不要计较了，稍微晚几天并不那么重要。

老范以前为什么总说马斯克是假开源？

2023年，他开源了X的推荐算法，但是仅开源了部分的非核心代码。而且开源了以后就往这一扔，再也不理你了，也没有后续版本，也没有各种的讨论。你问他一些什么问题，他也不理你，所以我说这是个假开源。

2024年3月17号又宣布开源GROK1，3月19号确实开源了，开源了权重和加载的代码。但是这个模型非常的笨重，基本上没有任何的实用价值。当然了，还有马斯克一贯的作风：不回答任何问题，也没有后续更新。就是代码开源了，这个事也就算办完了，社区里头的各种issue、pull request基本不看，也不会有任何后续更新。最新的版本不开源，你像GROK1开源了，后边的版本基本上就不理你了。无法验证开源出来的东西和生产环境是不是有关联，这就是马斯克开源的一些特点。

这次其实也差不太多，X推荐算法也只是开源了一部分。最核心的东西叫Grok Transformer，这个东西并没有开源。整个的推荐算法建立在一个Transformer的模型上了，你没有把那个Transformer模型拿出来，你只围绕Transformer模型外围的一些东西给大家看了看，开源了这样的一些东西出来。而且你要做推荐，你一定要有一开始的信息筛选的机制。信息怎么筛选？过滤的这些参数以及最后排序的权重，这些东西通通都没有公开。所以这一次开源的东西，按照传统意义的开源来说，是个假开源。

这次到底放了些什么东西出来？

首先是一个非常非常革命性的东西，就是单一Transformer模型的推荐算法。这个很像SpaceX猎鹰火箭底下那个猛禽发动机。最早的猛禽一代好多好多管子，非常多的零碎，200万美金一台；后来更新到猛禽二代，比猛禽一代就要简洁很多了，外边支棱八翘的管子就少很多了，100万美金一台；最近发布的猛禽三代极其简洁，完全一体化设计，高度集成。它这个发动机外面基本上没有外边的管子，外边的这些零碎全都没了，这个机器25万美金一台，非常非常便宜。这一次它把推荐算法也做了一模一样的调整。

我用单一模型。以前的推荐算法都是好多好多模型一起配合来干活的，每一个模型是关注一个参数，大家去发现各种的数据特征，然后设置新的参数，把这个参数想办法调好，原来是这样来配合干活的。现在说别费劲了，统一上一个Transformer模型完事了。

这个模型是基于GROK1的一个MOE的模型，应该参数不大，但是具体有多少参数他也没说，怎么训练的也没说，训练数据也没给。就是这样的一个模型，因为它需要高频的高效的工作——你看每一次你去刷新X平台的时候，它都需要让每一个帖子跟你的个人人设在这里头过一遍，所以它的效率一定是很高的，模型一定不会特别大。

高薪调参工程师的危机

那些高薪调参的人，工作估计要不保了。什么意思？以前很多号称是AI工程师、年薪百万甚至是几百万的，这些AI工程师他们最主要的工作就是调参数：拿大量的用户数据回来，去里头发现一些特征，然后把这些特征放到模型里边去，再调整相应的一些参数。所以我们管这帮人叫“调参数的”。未来的趋势是不再设置一大堆的参数，而是统一扔给Transformer模型，直接出结果。那么他们这些人的工作就有点危险了。

这个过程很像什么？就是从一大堆摄像头、激光雷达、超声波雷达、一大堆模型配合一起工作的自动驾驶操作系统，转向纯视觉的、端到端模型驱动的自动驾驶系统，就是做了这样的一个转换。那为什么要做这种转换？就是当有一大堆阀门的时候，你总是很难调出最优解来。你比如说我把这个参数调好了以后，那个参数可能就下降了，怎么能够让所有的参数平衡起来，达到一个最好的结果？这个时候我们上统一的Transformer模型，上端到端的这种训练，它就有可能得到这样的一个最优结果，而不是说摁起葫芦浮起瓢。

X推荐算法的具体工作流程

具体这个东西是怎么工作的？他先把我们能够看到的帖子分成两类：一类是关注帖，一类是非关注帖。关注帖就是这个人是我关注的，他在这段时间里头发了一个帖子，这叫关注帖；非关注帖就是完全靠推荐算法推上来的，这个人我虽然没关注他，但是推荐算法认为我应该看到。再把这一部分帖子拎出来，关键的一定是非关注帖这部分。首先对人和每一个帖子进行匹配，寻找高质量、低投诉、高互动的帖子推给我们；而找到这些帖子以后，再对帖子进行排序，然后跟我们的关注帖混合在一起进行展示。说白了就是这样的一个过程。

那再详细的说一些吧，那后边这块可能要稍微的麻烦一点。

第一步：对人生成画像

就是他把我的过去多少天的行为动作，包括停留在每一个帖子上停留了多长时间、有没有点赞、有没有评论、有没有转发、有没有去投诉，把这些数据拎起来。但是具体是多长时间给隐藏了，这部分是不告诉你的。

第二步：对内容进行初筛

你不可能说把X上所有帖子都拿来跑一遍，那个效率实在太低了，所以首先要先筛一批。到底筛出多少条来还没告诉你，这个是隐藏的。它有一个过滤器对这些内容进行筛选，第一个原则就是去重，如果发现两条帖子是重复的或者内容很相近，他会把它去掉一个。然后去掉自己发的帖子，去掉屏蔽的作者，去掉敏感的违规的内容。按照时序排序，取前面的多少条，但是具体多少条不告诉你。如果是相同的作者，你反复的发也会进行过滤，所以不要刷屏。比如你连续的发了好多内容，X会把后边的这些内容都给你降权掉。所有看过的帖子就不再重复出现了。

第三步：互动可能性计算

所以第一步是这个人的画像，第二步是初筛这些帖子。筛出这些帖子以后，就把这个Transformer模型拎出来了，进行互动可能性的计算。他要算一下这个帖子如果给你看，到底有多大的可能性会被点赞、多大的可能性会被回复、多大的可能性会被投诉，他要把这些东西放出来。一共是15项。因为大模型没有开放出来，所以这一步是无法复现的。

第四步：对权重进行整合

前面我们说有多少可能性点赞、多少可能性投诉，我15项拎回来以后干嘛？做一个加权的整合。这个乘一个参数，加上那个乘一个参数，把这15个数加一块。加完了以后进行一个排序。那你说这参数都是什么？也没告诉你。这部分告诉你，那绝对机器人会刷死他的。然后把排序好的这些帖子，再跟关注帖混合在一起给我们展示。这就是整个这个系统工作的一个原理。

技术细节与代码分析

这个Grok Transformer到底是一个啥？是一个基于Grok 1模型重新训练的MOE的一个小参数模型。只能做单一任务，就是每一次给他一个用户画像，给他一个帖子，然后他把这些数据做矢量化，然后去做正面和各种负面维度的可能性的概率输出，就干这一件事。没有公开参数，没有训练数据，没有训练方法，大概就是这样的一个系统。

主要代码是用什么语言写的？

一个叫RUST，系统的整个的逻辑基本上是用这个语言写的，它是一种很高效的后台语言；
另外一个就是Python，因为里边有Pytorch、有Tensorflow，就是跑大模型用的。你要调用这些平台的话，你必须要有Python代码在里头。所以基本上代码就是用这两种系统来写的。

那你说这么多代码，那普通人肯定“有看没有懂”，完全没有任何意义。也不要这么讲，虽然它没有给大家很多文档，但是现在有非常非常多的代码分析工具。你比如说你把它扔给Cloud Code，或者扔给Cursor，扔给Open Code，扔给Codex，他们会替你去总结，告诉你说整个系统是怎么样的。然后你可以提各种问题，他会来给你回答，这个代码是写在哪一块的、如何实现的、哪一块隐藏了、哪一块给你了，这个都是会有的。所以普通人也是可以去看这些代码的。

这东西可以复现吗？

既然我们已经拿到了这样的一个开源系统，我是不是可以自己搭一个X，或者看看能不能在X里头怎么去做一个机器人，把X的数据都给它刷回来？就跟美国上委内瑞拉抓马杜罗之前，得先盖一小屋子，把马杜罗的安全屋都盖出来，让人在里头训练，训练完了以后到那啪一把把他拎出来。这事能不能干？能不能复现？

首先说，这个系统本身是无法复现的。你把这个代码down下来以后，你没法编译它，你也没法部署它，因为代码本身并不完整，而且里头还有很多的引用冲突。什么叫引用冲突？就是有些代码并没有写在这个系统里边去，而是说我要引用外边的哪个系统，但是他在不同的代码里引用的版本不一样，而且有的可能干同样的事情引用的是这个，另外的代码可能引用的是另外一个。所以他应该并没有把真正可以执行的一个线上系统直接打包扔上来，因为能够编译执行的这种线上系统是不会出现引用冲突的。

还有就是文档也不是很完整，它里头只是给了代码，并没有给特别多的文档，很多参数被隐藏了。而且也没有办法获得X上的实时数据，因为你要想让这个系统动起来的话，你必须要给它X上的实时数据——这个人过去几天都点了什么东西了，最近有哪些帖子——你没有这些东西，它这个系统也没法跑起来。

那你说是不是开源了个寂寞？也不能这么说。马斯克开源特斯拉的一些专利，对于中国人做新能源产业还是有巨大帮助的。这次将单一Transformer模型驱动的这种推荐算法给出来，也是为整个推荐算法进步给出了方向。所以国内那些原来推荐算法比较差的平台，比如像B站什么的，应该现在正在尝试进行复现。但是这种复现就不是说拿人那个系统去复现了，而是说用这种思想和方向去复现。你比如说拿千问的一些小参数模型，零点几B的这些模型，你可以跑一跑试试，或者是看看能不能做出更小的一些模型出来，进去跑一跑试试，应该是有人去尝试了。

怎么发帖可以提高互动？涨粉怎么赚钱？

别说那么复杂的，怎么发帖可以提高互动？涨粉怎么赚钱？这玩意才是大家关心的。

负面权重极高（拉黑、静音、举报）：因为这里头是有正面权重和负面权重，刚才我们说这几个都是负面权重。你一旦这个帖子有负面权重的话，说你被很多人拉黑过、被很多人举报过、有好多人去静音你，这种帖子就会非常非常吃亏。所以那些喜欢引战吵架、喜欢骂街的那些大V们要小心了，原来他们是可以吸引非常非常多流量的，以后的话这种流量会下降的。
连续发帖会被降权：千万不要尝试刷屏，就很多机器人喜欢干这个事，连续的往外发帖子。这个系统也是需要处理机器人的，但是具体一些处理机器人的模块并没有在这一次开放出来，因为你如果敢开放出来的话，那机器人马上就给你照方抓药了，给你表演什么叫道高一尺魔高一丈了。
正面权重：用户停留时长：这个事很重要。什么叫用户停留时长？你像我们刷X的时候，如果你看到某一个帖子，你需要停下来，你并不用点进去，你还要停下来，你要认真看这个帖子到底写了什么。在这样的情况下，X就知道了，这个是一个大家喜欢、要停下来看的东西。很多长帖子，故事叙述性比较强的——但是你说我啪写一大块，这事也不行，你还是要写出条目来，可读性比较高。这样的帖子才容易让人留下来。前头写一很好的钩子，这样容易留下来；然后放出视频、放出图片来，这样容易留下来；然后做一些系列的讨论，这样也容易留下来。这样的帖子才是X所希望的。

为什么是这样？因为这种帖子可以让X展示更多的广告，人家这个平台也是要挣钱的。

视频帖子非常赚便宜：但是他这很逗，他的视频主要看点不点开，不管你是不是看完了。像TikTok、像YouTube，他们主要考察的是完播率，因为那些平台是要在视频前后的去给你插广告的。而现在X的逻辑是什么？就是你点进去了，你就可以展示这个帖子的一个详情页，它就可以多给你放一堆广告出来，所以你只要点进去就行了，你是不是把它看完无所谓。
回复评论也是非常重要的：如果我发了个帖子，你们给我评论了，那我一定要在下头再给你回回去。为什么？就是一旦进入评论页了，你相当于也是进入一个帖子的详情页了，那么X展示广告的机会又上升了。所以你看，所有的X所愿意推荐的这个帖子，都是能够让他多放几条广告的帖子。
尽量不要在里头贴链接：马斯克真的是想做微信了，他不希望你用链接把流量从X引走。这个点对于老范来说不是特别有利，因为老范经常发帖子说：“你看我发视频了，大家去看视频；我发博客了，大家去看博客呀。”这个是X不喜欢的。

规则之下的现状

既然有这些规则了，谁跑得最快？一定是坏人跑得最快，好人一般是要慢一些的。原因很简单，坏人是有利益的嘛。大家还记得前几天那些@Grok脱衣服的帖子吗？是不是完全符合这套标准？我发了一个美女照片在上头，在下头写@Grok，给她把衣服脱了，或者给她穿上比基尼。这种时候大家就会点到这个回复里边去看，点到详情页里边去看，你的点击率一下就上去了。这个应该算是马斯克自己家的，人家说自己利用一下规则没毛病。

最近大量的抖音和TikTok的热门视频被搬运进来了。算法对于视频是有极大的倾斜的，只要你这里头有视频，视频被点进去了，他就会非常努力的给你推荐。所以我现在打开X，基本上跟刷抖音的那个感觉差不多，里头大量的抖音视频。因为这套算法里头是没有任何跟版权保护相关的东西的，他不是说你发的这个视频最后有一个抖音或者最后有一个TikTok的标，他就给你下架了，不会干这事了。他才不管你是从哪来的。大家的玩法在这点其实都差不太多，先热闹起来然后再清理。现在X上短视频少，他又希望短视频，那你们就来；等什么时候我这短视频多了以后，我再收拾你。这个有点像新加坡，先吸引一大堆大陆土豪去移民，然后再反洗钱、关门打狗，这基本上应该是这样的一个套路。

最近有好几个涨粉相关的账号跑来关注我了。什么叫涨粉相关？就是他那个账户的名字叫“涨粉多少多少”，赤裸裸的叫这名字。如果我也去回关他、跟他聊两句、花点钱的话，那我这个X上的粉丝就可以蹭蹭蹭涨，涨一堆机器人出来。我的帖子下面也出现了一堆炒币的人进行回复。这个原来其实比较少见，这一次马斯克开源了这些算法以后，很多这些炒币的人就来回复我的帖子。如果我再回复他的信息的话，他的账号被看到的机会就会上升。所以一般遇到这样的帖子，我就不再去理他了。机器人已经活跃起来了，等着老马进一步更新他的算法了。

马斯克开源的真实目的

这一次老马总算是真的开源了吧？老范是不是被打脸了？这个还要看下个月。为什么这么讲？马斯克宣布每四周更新一次代码。前几次更开源都是扔上去，以后几年都不带动的，彻底就不理你了，算是一个死项目。这一次老马说我每四周更新一次，老马也算开创了一个先河。

以前做开源软件的目的是什么？

降低系统维护的成本：我把系统开源出去了，你不懂的话，你可以在上头看代码，你也问问其他使用者，大家可以聊一聊，我就不用挨着个去给你们服务去了，甚至有些人可以帮我改bug，这是第一个。
提供松散协作的机会：我一旦把代码开源出去了，就会有其他人才提这个pull request，让我去修改这个系统，甚至他替我改，他会进行一个跨国家的松散的协作。
绑架事实标准：因为你开源了，一旦这个系统用的人很多的话，相当于就形成了一个事实标准，我们就绑架这个标准，然后可以在里边挣到钱。

马斯克开源的目的跟他们不太一样，他是提供了一个监管窗口。你看我把这东西开源了，大家以后觉得我的X有什么推荐不对的地方，你自己去看去。我可以开源，让你们去监管，让你们去审核这个东西。你再批评我，你可以去看。其他那些平台还没开放，我都开放了。他搞了这样的一个事情。

关于偏见与监管

很多人都说X是一个很右的社交媒体，因为相比其他的这些社交媒体平台来说，X是要偏右一些的。现在马斯克说：“来，我直接把推荐系统给你开放看看，你现在看看我到底右不右。”为什么大家都觉得这个X偏右，大家是不是冤枉马斯克了？其实没有。原因很简单，左的特征是什么？圣母嘛，道德高地嘛。大部分的社交媒体平台是按照更左的方式来进行内容审核和筛选的。如果是这样的话，内容比较开放的这种X平台，就肯定是靠右的嘛。左右这个事不是绝对的，它是相对的。

这次开放的代码肯定不是传统的开源项目。它无法复现、无法使用，代码跟文档也不是完整的，也基本上不回复社区的issue跟PR。马斯克可以达到通过开源实现监管的目的吗？现在并不能证明开源出来的版本跟实际跑的版本是强相关的。这个东西应该不是实际的版本，也绝对不可能四周才更新一次，各种参数应该是按小时进行调整的。Grok Transformer的这个模型规模也不大，应该可以几天的时间就会重新训练一次。

这次展示的是Transformer模型之外，并没有保留特定类型帖子的加分减分的这种调整的控制面板。就是说，我就是靠这玩意干活了。你如果希望更左一点、更右一点，你可以在Transformer的这个结果基础上，再去加一层的意识形态的这种调整。但是马斯克给大家看说：“你看我没这东西，这个Transformer模型出来的结果我就直接干了，没有任何跟意识形态相关的东西，都是你的互动可能性跟这玩意相关的。得到结果了以后就可以展示了。”

如果以后每个月更新的版本可以坚持，并且带有完整的更新轨迹——什么叫更新轨迹？在这些源代码更新的过程中，是有一个版本一个版本上的，会写着说每个版本更新什么东西，这叫完整的更新轨迹——如果这个都有的话，那么这个监管会更加可信一些。如果无法坚持，或者以后的更新都是一个没有任何更新轨迹的独立版本的话，监管的效果会差一些。但是也总比那些从来都没有公开过的平台要好。以后再有人批评马斯克说“你怎么偏右”，马斯克说：“我都公开过。甭管我是公开过几个版本，但是至少我公开过，你还没公开过。”他就可以这样去批评别人了。

总结

那未来的方向是什么？做推荐算法的成本一下就降下来了。那些年薪几百万的调参的人，要重新想一想是不是去送个外卖、跑个滴滴了。老马为可信可监管的平台推荐系统做了一个打样。

最后总结一下吧。马斯克开源了X的推荐算法，革命性的单一Transformer模型，就像是一体化的猛禽3发动机一样那么震撼。马斯克为可信可监督的平台推荐系统指明了最新的方向。以后谁想再去证明你的平台推荐系统是可信的，来，跟我一样开放。他就做了这样的一个事情。

好，这一期就讲到这里，感谢大家收听。请帮忙点赞点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：Detailed watercolor rendering of a loft open-plan office interior, no people, neon cyan rim light, deep navy backdrop, cinematic lighting, sharp subject separation, minimal palette (ink blue, neon cyan, gold accents), glossy reflections on glass and polished concrete, intricate textures of wood, metal, and glass, wide-angle 28mm, deep depth of field, strong negative space for text –ar 16:9 –v 7.0 –stylize 120 –chaos 4 –no people, faces, text, watermark, signature, clutter, photorealistic, 3D render, blurry, low contrast –p lh4so59

千问APP对决豆包，阿里会重演“来往”悲剧吗？揭秘大厂创新“起大早赶晚集”的残酷真相，内部山头林立比外部竞争更致命｜Alibaba Qwen 通义千问 AI Open Source

Luke Fan — Wed, 19 Nov 2025 01:27:44 +0000

千问APP：阿里的绝地反击，还是又一个“来往”？

千问APP大家都试过了吗？这是阿里的绝地反击，还是又来了一次“来往”一样的故事呢？大厂为什么总是在创新的时候，起个大早，赶个晚集呢？大家好，欢迎收听老范讲故事的YouTube频道。

千问APP的短暂狂欢与第一印象

千问APP带来了一个短暂的狂欢。阿里这个模型这么强的公司，终于也要出一款APP，C端的APP要去对标ChatGPT了。阿里的股价短暂上涨，然后被一个很奇怪的小作文，据说是有人看了白宫里边泄密的文件，说阿里为中国军方提供服务，马上要接受制裁了，所以阿里股价又跌回去了。

这一次的短暂狂欢呢，来自于一个很拙劣的吹风方式，说阿里在搞一个秘密项目，据说呢是集团高层定的战略，大家都在一起封闭开发，具体在干什么不知道。但是呢，突然发现食堂里边吃大量的粤菜，食堂的师傅被要求做粤菜，这一定是由广东过来的团队在做项目。当时就在吹风说在做千问APP。那么为什么是广东团队在做？待会咱们后边再讲。

产品上线呢，也确实引发了关注。第一天服务器短暂崩了一次。现在新产品上线，如果连服务器都不崩一次的话，好像流程没有走完，所以千问上线的时候也短暂的崩了一下。用起来的感觉呢，一言难尽。我确实把它下载下来用了一下，这个东西说是对标ChatGPT，却是比豆包更“豆包”的一个产品。

中美AI产品的设计差异：简洁与复杂的对决

怎么来解释这句话？大家可以把ChatGPT的产品、把Grok的产品、Gemini的产品、豆包、文心一言，都拿出来对比一下，你会发现一个特别显著的差异。美国人的产品呢，都非常的简洁，除了一个对话框和上面的聊天历史窗口之外，基本上没别的东西。它的其他所有这些功能呢，都是隐藏的。比如说ChatGPT，它的其他的功能是隐藏在侧边栏里的，平时是关闭的，你必须要点它才打开。其他的像什么深度研究、代理模式，这些东西呢，是在一个加号里的，你要点开了以后才能看到这样的菜单。像Gemini什么，基本上都是这一个路子。而国内的APP呢，基本上都是要把这些功能摆在明面上的。你的深度研究、各种agent、画画，这些东西通通都要摆在台面上。原因很简单，不同的功能是由不同的部门开发的，大家要去争夺入口。所以呢，国内的产品你一看就是这么多功能都堆在这儿，到底使哪个？好乱。

豆包呢，已经算是所有国内产品里头，做的最简洁的一个了。千问APP为什么说比豆包还“豆包”？它比豆包还要再复杂一些，比豆包要更像以前的文心一言，以及他们原来上一个产品叫“通义”。这个通义APP跟千问APP是两个不同的，虽然他们在苹果和谷歌的商店里头使用的是同一个APP ID，但是它的名字不一样。你原来下载过通义APP的人，你只要一升级就变成千问APP了。

资本市场的反应

股价呢，短暂上涨，刚才咱们讲了。现在呢，大家都缺题材，突然有了一个题材，赶快要上去炒。其实很多人可能既不使用通义，也不使用千问，他们就是炒股的。一看有题材了，赶快去炒一下。国内的AI呢，阿里是唯一能炒的。为啥呢？百度确实不争气，腾讯呢直接躺平了，“你们玩儿吧，我不玩儿了，我现在连建机房的钱我都砍了”。DeepSeek和字节呢，没上市。所以唯一能去炒一炒的，就只有阿里了。如果不是美国白宫的这个小作文的话，也许还能多热闹几天。

历史重演？回顾“来往”的失败

那么为什么要讲当年来往的故事呢？可能很多比较年轻的人，或者说不是特别关注互联网圈的人，不知道来往是什么故事。2013年的时候呢，WhatsApp当时突然爆火，腾讯它就整了一个叫微信的东西出来，突然就爆发了。马云看着以后，决定说：“咱们冲吧！”这玩意咱们有经验，以前呢他们还有阿里旺旺这样一个产品，我们也有用户，也有经验，也有技术，我们还愿意砸钱。马云亲自挂帅，集中力量办大事。最后呢，这个产品既然大家都没听说过，那么结局也就清晰了：被微信打的满地找牙，直接就不见了。

他为什么会败给微信呢？是不是因为马云比马化腾笨呢？肯定不是嘛。原因很简单，微信的起步投入要比阿里的来往要高得多得多。马云是不是决心不够？他确实如此。马云没有砸锅卖铁，没有把他的淘宝这些东西都砸进去，只是说我们用一部分的精力去做一个即时通讯工具，叫移动端即时通讯工具。而微信不一样，腾讯是把手Q整个牺牲掉了，才做出微信来的。手机QQ当时的用户量非常的巨大，说：“不，你们必须要死，你们要把所有的社交关系链都导到微信里去。”微信才起来。到现在了，QQ的这帮人，QQ团队以及手机QQ团队还在那骂呢，到现在都没有服气，说你们当时如果不扶持微信，让我直接接着往前做的话，也许还有机会。没机会，这个绝对是不可能的，QQ跟微信是完全两个不同的玩法。腾讯当时就想清楚了，牺牲了一个巨大的部门去成就了微信。而社交关系本身是很难迁移的，如果说微信没有手机QQ的社交关系链导入的话，它未必能打得过其他人。一旦社交关系链倒进去了，像来往这种产品就没有办法去跟它竞争了。

千问APP能否突出重围？

那你说千问APP，它到底能不能够战胜现在的豆包呢？因为它现在肯定不需要跟美国的ChatGPT、Gemini去竞争嘛，它在国内就是跟豆包、Deepseek、Kimi，跟这些玩意去竞争一下。它到底行不行呢？对手呢，并没有那么强大，是不是还有机会呢？

大模型的优与劣

首先从大模型的角度上来说，阿里呢有它的优点，也有它的缺点。它的优点是什么？就是它开源，有大量的这种千问模型，而且是从0.6B一直到200多B的这种模型，它是所有的全都有。这个是它真正比较强的地方。所以如果大家做开发，说我去做自己的应用，那用它的产品没有任何问题，没有任何替代性，连跟它竞争的人都没有。但你说我就作为一个普通的C端用户，我就直接使它的模型，这就一言难尽了。阿里的千问3以及千问Max，现在最新的这个最大的模型，跟豆包的模型比起来，跟Kimi、Deepseek比起来不占优势，或者说它的优势并不明显。

产品设计的挑战：做减法的艺术

那么在这样的情况下，就看大家做APP的水平怎么样了。从应用角度上来看的话，做这种应用最难的是什么？最难的是做减法。有这么多功能：我可以画图，我可以做视频，我可以做多模态的实时语音交互，我还可以去做聊天，还可以有AI agent，还有很多流程，还有很多的这种后台的程序都准备加进来。大家都有，谁也不缺这玩意。但是你说我到底露出哪些、隐藏哪些，怎么能够让用户使得舒服？这就要看功夫了。而且有的时候这种功夫，还不是技术上或者产品设计上的功夫，而是你在内部是不是能够摆的平。像ChatGPT之所以可以做的这么简洁，一方面是他们在做产品设计的时候非常克制；另外一方面，他开始做ChatGPT APP的时候，他啥也没有，他不像是阿里似的，不像是字节似的，后边有一大堆的团队往里添砖加瓦，他不是这样的。这也是为什么咱们前头讲，微信必须要重新做，不能拿手Q接着往前走的原因。微信实际上就是在做一次大的减法，你原来手Q各种功能我都不要了，我要从头开始，干干净净的一个微信开始再慢慢长大。当然，微信现在也长得无比的庞大了，也是非常繁琐的一个工具了。

真正的杀手锏：电商生态与AI Agent的结合

在这一点上千问做的并不好。但是千问呢，也未必一定会死。千问真正的强项呢，还没有发挥出来。它的强项并不是说它的大模型比别人强，而是什么呢？电商生态跟AI agent的一个体系。这块呢，阿里确实是要比豆包、要比Kimi、Deepseek要强的。你比如说，我可以在里边直接叫外卖吗？我可以在里边去买东西吗？我可以直接在高德里边叫车，或者我直接定我的行程、订酒店？这些阿里其实都是有完整的供应链支撑的。但是这一块呢，目前为止还没有接起来。那你说AI一定要接这东西吗？一定。

最近还有一个故事，就是亚马逊封杀了Perplexity的API。亚马逊说我自己卖东西，我这儿有Anthropic，我这儿有自己的AI，我不要你Perplexity上我这儿来把东西扒走了以后，到你那儿去卖去。亚马逊刚干完的事情，中国这更是自古以来就在这么干。当年，当年阿里就是这么封杀百度的。你必须得在阿里买广告，在我这交广告费，我才能让你露出。你在百度交了广告费，展示阿里的产品，这事不行。

所以阿里真正的强项在这，还没有真正打通。我刚才去试了一下，如果千问可以很好的跟阿里整个的体系打通了，那确实是有新故事可以讲。但是呢，如果想要打通这些，那就需要面对另外一批更大的山头和座山雕了，这个事肯定更难。现在他们的这个山头是什么？阿里云、通义的大模型，以及呢，夸克网盘，他们几家在这打来打去。而阿里里头真正比较强的山头是什么？淘天，卖东西的呀。现在还没沾着人家呢。而现在呢，因为有反垄断法，随便竖墙这件事呢，并不是那么容易的。所以现在有时候，你从外边跟他合作还更容易点。你在内部想去说，我这是做千问APP的，咱们跟淘天合作吧，或者跟飞猪旅行做个合作吧，他们内部更费劲。

大厂的创新困境：起个大早，赶个晚集？

这就导致了另外一个问题，是不是大厂做这种东西都很费劲呢？大厂是不是经常是起个大早，赶个晚集呢？百度的李彦宏，他是最著名的起大早赶晚集的。每次他都第一个发现机会，每次最后都没得着结果。前两天李彦宏去接受采访，人家就问他说，百度是不是经常干这种起大早、赶晚集的事呢？李彦宏的回答是什么呢？他说这个很正常，你去创新也不可能都成功嘛，任何创新可能90%都会失败的。只有需要长期投入和反复迭代的，这个事情大厂才更有机会；需要短平快出结果的，这个呢，大厂确实是比较费劲。

创业公司 vs. 大厂内部创业

那你说是不是创业企业成功的机会，就要比大厂里边创业高一些呢？其实呢，正好反过来，跟大家想象的是不一样的。创业企业的失败率，通常要比大厂内部创业要更高。但是呢，最终走出来的通常还是创业企业。为什么创业企业的失败率更高？第一个，大厂的员工绝对是精挑细选的。大厂他能够涨到几万人、十几万人的一个规模，他的整个的筛选体制，包括内部人员的成长和培养体制，都是创业企业所完全无法比拟的，完全无法想象的。大厂的资源也是创业企业难以企及的。所以创业企业的失败率绝对比大厂高。

那你说为什么最后走出来的都还是创业企业，大厂走出来的很少呢？因为大厂里头有一个巨大的阻碍，是创业企业不需要面对的，是什么呢？就是内部的山头林立。为了管理庞大的组织，就必须给每个部门、每个层级定KPI，我要给你定个指标，不是说咱们喊一下“为了新中国”就可以冲的事。每个人一定要细化你的任务。在没有私心杂念的情况下，各级的负责人也会争先恐后地去完成本机构的利益，而不是说我们大厂整个有一个大的目标。创业企业之间的关系呢，就要简单很多了，该买服务我就花钱去买吧，即便是竞争的话也很纯粹。大企业内部，就完完全全不是这么回事了。太多的东西，花钱你都未必买的着。你说我现在花钱想买一什么服务，人家说我不愿意跟你合作。那我说能上外边买去吗？不行，我内部有，你不许上外边买去。他经常会遇到这样的情况。而且即使花钱的话，也有很多条条框框。你在创业企业里头怎么花钱？CEO一人说了算了。你在大厂里头，我现在想花钱，那审批去吧。你这个东西符合这个规则、不符合那规则，可麻烦了。而且即使是竞争失败，你在创业企业里的竞争失败了，我大不了公司关了，我被你收购了，或者说我上你那打工去，这不是什么大问题。但你要在大厂里头，你要是竞争失败了，那这事麻烦大了。你可能在各种的资源分配上都会被掣肘，你在各种的竞争上、评级上你都会矮人一头。那这玩意绝对是生死存亡之大事，一点的这个商量余地都没有，绝不能退让。所以大厂里边的这种竞争，是要比创业企业更加残酷，而且更加缺乏规则。创业企业的竞争，相对来说，规则是比较简单明确的。

千问APP背后的内部斗争

再回过头来看看，阿里千问APP背后的斗争是什么样的呢？阿里内部做AI的人就有好几波。咱们还不说做什么淘天呀、做飞猪旅行，跟他们没关系，就做AI的好几波。哪几波人呢？阿里云的人一波，通义大模型的一波，通义APP又是一波，还有夸克网盘还是一波。它好多波在这折腾呢，各自互不相让，最后谁也没做出好的来。这就是为什么这一次阿里说，我们从集团角度上做一个决策，集中精力干大事，咱们要做出一东西来。

“粤菜”梗的真相：夸克的胜利

那么这次到底谁输了谁赢了呢？集团决策这件事，就是为了让那些获得胜利利益的人找个借口而已，从来没有什么集团决策。还记得咱们在开头讲的这个粤菜的梗吗？怎么泄露的天机，在做千问APP呢？是因为一大堆在杭州封闭开发的小伙子要求吃粤菜，可能上百口子广东人跑到杭州去封闭去了。那么谁在广州，谁是从广州来的呢？夸克是在广州的。阿里的其他刚才咱们讲那几个部门，做AI的部门都是在杭州，要么在北京，只有夸克在广州。那么夸克为什么在广州呢？他们前身是UC Web。UC Web是在广州被收购了以后一直留在那了，所以他们属于是一个割据的藩镇。UC Web的创始人何小鹏，现在也还在广州呢，小鹏汽车也在广州。所以他们是广州来的。这一次集团决策，多部门配合，你也不能完全说夸克赢了吧？虽然夸克确实是出了可能上百口子工程师，从广州驰援杭州，跑到那封闭开发，要求食堂给他们做粤菜。这个事呢要看谁牵头。这个项目的牵头，叫阿里智能信息事业部。阿里智能信息事业部手下的产品，就是夸克APP、UC浏览器和书旗小说，就是广州团队。他们在整个牵头来负责这个项目，所以就是夸克赢了。

胜利背后埋下的新隐患

阿里的C端应用这块呢，一直是比较弱的。淘天是电商平台，不能算C端应用。阿里云跟通义大模型团队呢，也不是To C的，人家都是To B或者To Developer的。夸克算是阿里里头硕果仅存的一个C端的、可以拿得出手的团队。所以这次说，咱们就接着让夸克往前走吧。

夸克的胜利呢，给后面埋下了新的雷。为什么呢？因为夸克本来就是一个外藩蛮夷，本来就是收购的。收购完了以后还不在北京，不在杭州。因为只要做AI，很多团队都还是在北京的，这边的高校比较密集。一个广州的团队，要去做这样的产品的话，刚才我们讲了，怎么能够让千问APP胜出呢？你需要跟杭州的团队再去整合，你需要去跟淘天，需要去跟淘宝闪购，需要去跟飞猪旅行，跟他们去整合这玩意，你才能够走出一条新路来。但是你作为一个蛮夷，从广州过来的人，人家凭什么理你？所以今天他的胜利，给未来继续往前走埋了新坑。

大厂创新成功的关键

那么在挣扎的过程中，有没有大厂真的创新走出来的呢？有，比如说Gemini，这就属于谷歌在这种内部疯狂的竞争之后，最后走出来的结果。还有豆包，其实也是类似的这种结果。那你说他们怎么走出来的呢？怎么到千问这老范就不看好了呢？首先咱们要讲，大厂养蛊要比创业公司竞争更残酷，但是一旦胜出，他们能够获得的资源也要比创业公司大得多。Gemini也好，豆包也好，都属于在残酷的竞争中胜出的。而且呢，大厂里边要想有产品胜出，还有一个巨大的前提条件是什么？老大亲自管。如果老大不亲自管的话，下边肯定谁也不服谁。现在字节里头还是张一鸣说了算，在谷歌里头也还是老大上面直接说了算。所以在这一块上，其他人就必须跟着去配合。他们能够成功。当然在这点上呢，阿里还有机会，因为据说马云现在是更多的时间留在阿里里面了，他要真的去管事了，他是能够压住所有人的。

总结

最后呢，总结一下。咱们今天讲的呢，是千问APP带来的短暂狂欢，以及为什么大厂创新总是起个大早、赶个晚集，和大厂创新最大的困难是山头林立，内部相互拉扯掣肘，这是他们真正需要面对的巨大挑战。

好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

AI教母李飞飞万字长文戳破LLM泡沫：生成语言只是起点，无法理解真实世界才是致命伤｜空间智能 Fei-Fei Li 世界模型人工智能 AI的下一个前沿

Luke Fan — Thu, 13 Nov 2025 00:54:30 +0000

李飞飞的万字长文，讲述空间智能的未来

大家好，欢迎收听老范讲故事的YouTube频道。

李飞飞呢，最近发了一篇文章，指出AI的下一个方向。AI的下一个发展方向就是空间智能。这个文章呢是11月11日发表的，非常非常长，上万字。标题呢是《从词语到世界：空间智能是AI的下一个前沿》。教授的长文，读起来还是稍微有一点点吃力，我还是认真地把整个文章读完了。教授呢，未必能够准确预测未来，那是算命先生的工作。但是，教授对未来的预测，还是值得认真研读一下的，特别是这位教授，还是当前AI浪潮的开拓者之一。

文章的结构之美：值得学习的写作范本

第一个特点就是非常的工整。她的文章结构，大家需要去学习一下。哪怕你说我看不懂这文章说什么，还是应该学习一下人家文章怎么写的。上来第一件事是提出问题：现在有些什么样的问题？然后呢，是核心概念的一些解释，对吧？啥叫空间智能？再往后呢，是方法论的一个架构：我准备怎么干？然后呢，是技术实施的一些细节和方法。最后呢，是应用的路径：我这个实施了以后能干嘛使？它是这样的一个完整架构。

每一个大标题下面呢，会有3到5个小标题，每个小标题下面，均匀地分布着描述和说明。它不会像有些人写文章，在某一个小标题下写非常长的内容，其它的显得干巴巴的，不会是这样的，很均匀。学习一下教授的写作方法，还是非常非常有价值的。

李飞飞文章的核心内容解读

第一部分：提出问题——大语言模型的局限性

咱们说一下这个文章到底说什么了吧。首先呢，是提出问题。大语言模型呢，它只能生成语言，而语言呢，并不能代表世界。语言模型有很多的局限性，已经体现出来了。最大的局限性就是各种“对不齐”。

与空间和物理规则“对不齐”：我们希望这个空间，应该有一些什么样的特性，结果发现语言模型生成出来的结果跟这个对不上。或者说，我们希望有一些物理的规则，它应该去遵守，但是大语言模型生成的结果，它不去遵守。例如，儿子比老子大了，或者生成的图片和视频里，人物的手指头数量搞不定。甚至让它画一个带指针的时钟，比如“3:20”，它也画不对。
一致性无法控制：现在大语言模型所体现出来的问题，就是前后矛盾。比如以图像和视频模型为例，一个人在这站着，一扭过脸去，发现怎么不是这个人了？或者画面不停地闪烁，一会儿看着像，一会儿看着不像。这些都是因为没有空间智能所遇到的各种问题。

第二部分：核心概念——什么是空间智能？

很多人可能意识到，空间智能是一个3D空间的事情，但其实呢，空间智能要比这个复杂得多。它除了3D空间之外，还有很多物理特性在里头：这是钢的，那是铁的，这个是木头的，那个是水或者是空气，它都在空间里边。

而且空间智能其实是4D空间，四维空间，还有时间在里头。就是我在里边做了一个动作，在这个动作后面会变成什么样，实际上这是有时序的，而不是一个静态的3D空间。所谓的空间智能，是三维空间、物理，以及动作、交互和时间相结合在一起的“世界模型”。她要给空间智能下这样一个定义。

第三部分：方法论架构——世界模型的三个能力

问题很复杂嘛，我们不能说上来就一榔头开始干活了，首先要提出一个方法论架构来。她认为，世界模型呢，应该有三个能力。

生成能力：它依然是一个生成模型，但生成出来的东西，应该能够确保空间、物理和时序的一致性，这是跟传统大语言生成模型的差异。
多模态能力：多模态呢，是图像、视频、深度、文字、手势、动作都要结合在一起，甚至可能还有触觉这些东西，都要在里边。
交互动作条件下的状态预测：就是我做了这个动作了以后，会变成什么样？空间智能的模型，是能够对下一个状态进行预测的，甚至呢，对下一步的动作进行预测。

第四部分：技术实施——如何实现空间智能？

那怎么实现呢？首先，世界模型要能够显示或隐式地展示3D几何与物理的一致性，而且世界状态必须是可被读写和对齐的。

实现这一目标，离不开数据和训练。具体方法包括：

数据来源：利用大量的互联网图片、视频等真实世界数据，并通过计算机进行深度信息标注。同时，也会使用游戏、3D模型等合成世界的数据来进行训练。
训练过程：训练过程会要求“生成与理解”循环互补。即生成数据后，模型自身再去理解和验证。
推理和控制：模型的核心是推理“状态 -> 动作 -> 新状态”的演变过程。李飞飞团队正在探索新的模型方式，例如“实时帧模型”（Real Time Frame Model），它可以像视频一样，直接输出下一帧世界会变成什么样。

第五部分：应用路径——空间智能能做什么？

近期应用：主要用于讲故事、创意和内容生产。她们已经做了一个名为“Marble”的模型，供3D动画和游戏开发者申请试用。
中期应用：用于机器人和具身智能，让机器人能够真正地理解世界，而不仅仅是依赖语言模型。
远期应用：进行科学研究，例如在材料学、医药学、分子生物学等领域，利用空间智能构建和探索复杂系统，进行模拟实验。

老范的思考与评论

教授创业：理想与现实

李飞飞呢，现在是在创业，她有一个公司叫“世界实验室”（World Labs）。她呢，融资融了2.3亿美金。刚才我们讲了，教授创业未必能够挣到钱。但是呢，她的学生，现在是各个大公司里边的顶梁柱。所以她想去说：“我要一笔钱来去创业的话”，融到钱这件事并不是特别难。

教授创业，通常不太容易有很好的商业回报。教授的学生们，才是真正值得关注的群体。

运维、工程与科研：三个不同维度的创新

运维、工程实施技术和科学研究，实际上是三个完全不同的维度。你说我这给你发个打折券，买几赠几，这个东西呢就是纯运维。那工程技术呢，就是为了实现运维目标，我们在现有已经验证过的这些技术上进行一些实施，这通常教授的学生们会干这些活。而教授呢，会在前头再去研究现在还不确定的那些科学。

方法、专利与论文：创新的层级

大家要注意，方法是不允许申请专利的。而专利呢，一般是一个工程实施上的东西。教授的直属弟子们，她们一般会玩的是什么？是论文。她们会比专利更高一个层级。论文是希望你尽可能多的引用的一个东西。教授真正的得意门生们是去写论文的，而教授要比论文更高一级。但是大家要注意，真正能挣钱的东西是什么？是专利，以及后边这些方法，这是能挣钱的。论文其实很少直接产生收益。

空间智能是唯一方向吗？

讲远了。空间智能到底是不是未来的方向呢？AI的下一个问题肯定是对齐，这个毋庸置疑。但是呢，需要对齐的东西很多。

空间、物理与时间：这就是空间智能需要对齐的东西，肯定是AI需要对齐的一个方向。
人性与法理：这也需要去对齐。
编程：这是最容易对齐的东西，各种约束都非常容易去验证，所以编程现在是整个AI大模型领域里头，对齐对得最好的一个领域。

那么未来的5-10年，实现空间、物理与时间对齐，应该是一个大的目标，这个没有任何问题。但是具体实现的方法，未必像李飞飞当前所设想的这样。她提出的“什么是空间智能”、“为什么要做”以及“要解决什么问题”，这些都是对的。但是后边两块：“具体打算怎么干”，以及“具体做完了以后在哪用”，这一块呢，我们没必要太去听教授的了。

一个历史的例子：Pascal语言 vs. C语言

在这儿呢，跟大家讲一个例子吧，比如说Pascal语言和C语言。Pascal是1968年苏黎世理工大学的教授发明的，主要用于教学。而C语言呢，是1972年贝尔实验室的工程师发明的，后来变得非常普及，Linux、Unix和Windows的早期版本都是用C语言写的。这个工程师呢，应该是硕士研究生，博士论文写了个草稿，但是没有获得学位。这就真的叫英雄不问出处。所以，最后大家去用的东西，未必是教授发明的东西。

李飞飞工作的真正意义

李飞飞的工作呢，还是有巨大的意义的。第一个呢，拉动了社会的关注。她毕竟是AI领域的“教母”，大量的关键岗位都是她的学生。而且呢，李飞飞前面做的最大贡献，是做了一个叫ImageNet的项目。她把大量的图片放进去，让各种的大模型可以用这些图片去进行学习。所以现在呢，李飞飞准备继续做这件事情，继续把大量的数据进行标注，让各种空间智能的模型去进行学习。我们提出标准，你学习到一个什么样的程度，然后怎么去打分，她要把这个事情做出来。所以这件事呢，还是非常非常重要的，就是积累数据和论证各种验证方法。

总结

最后呢，咱们总结一下：

李飞飞作为AI“教母”发表长文，为空间智能站台。
教授的文章格式必须要学习一下，其结构清晰、逻辑严谨。
空间智能确实是未来十年，行业必须要去解决的一个重要问题。

好，这个故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

人工智能+ vs 互联网+：深度解析十年发展变革，谁能开启智能经济新阶段？

Luke Fan — Sun, 31 Aug 2025 00:51:13 +0000

大家好，
欢迎收听老范讲故事的YouTube频道。

今天咱们来跟大家讲一讲，人工智能+和互联网+的这个十年之差，到底差在什么地方，这个“+”到底有什么相同与不同。

人工智能+，这是一个国务院发的文，它呢叫《国务院深入实施人工智能+行动的意见》，正式有文号了，叫国发2025第11号文。首先呢，肯定是高屋建瓴、开宗明义嘛，他上来写的第一段写的是什么呢？就是我为什么发这文。“是为深入实施人工智能+行动，推动人工智能与经济社会各行业、各领域广泛深度融合，重塑人类生产生活范式，促进生产力革命性跃迁和生产关系深层次变革，加快形成人机协同、跨界融合、共创分享的智能经济和智能社会新形态，现提出以下意见。”

第一句话写得稍微有点绕，我读着也稍微有些费劲，但是我们要看到这句话里头写了什么。他要重塑人类生产生活范式，要促进生产力革命性跃迁，以及生产关系深层次变革。至于前面讲到的，已经不是中国人了，而是人类，“人类生产生活范式”。但是后边这句话是很吓人的，叫“生产关系深层次变革”。大家知道什么东西叫生产关系？谁拥有资产，谁怎么去分配这些利益，这个玩意叫生产关系。咱们从小学政治，就是不断地进行生产关系的演进，而且每一次生产关系的改变都是要革命的。所以呢，他现在惦记说，我们生产关系要发生深层次变革了。而且呢，他对未来的这个憧憬是什么？不是中国人民过上好日子，而是“加快形成人机协同、跨界融合”。以后就没有人了，以后都是人机了。这个也可能也是有些超出大家想象，国务院的文通常写得四平八稳，敢写这么大开头的也不是很常见吧。

然后是三个阶段、六个重点领域和八大基础支撑体系。不知道从什么时候开始呢，必须要用数字代号来进行一些规范和代指一些什么东西了。这些号会变成一大堆密码和暗号，一上来我不跟你讲别的，“你知道6个重点领域吗？”被问的人就满脑子问号，“您说的是哪事？什么就是6个重点领域？”“这6个重点领域都不知道，你看报了没有？你学习了没有？”人家也不好意思说不知道，后边我就编了。现在国内的很多说话，是变成这样的一种形式了。

那么遥远的事情先不急，现在马上可以干的事是什么呢？股市先行吧，咱们先让股票涨起来。美国科技股一直在涨，咱们看着也眼红，所以寒武纪正式超越茅台了，现在中国股市的第一股是寒武纪了，不再是茅台了。原来都想说，你看看人家美国，苹果、微软、英伟达，这是市值第一的公司，怎么到中国，茅台站在那都站这么多年不下来？终于有人来接班了：寒武纪。但是呢，在中国大家注意，有一个特别神奇的现象叫“茅台现象”，任何的公司的市值、股价超越茅台以后，都会造成巨大的这种抛压，或者是股票下跌，整个的市场可能会跟着一起下跌。

原因呢，其实也很简单，就很多人可能原来我们炒白酒的、炒房地产的、炒医药的，我们也不知道寒武纪是啥，也不知道它干什么，因为股票这么多嘛，你要对它进行这种行业研究，也是挺耗功夫的一个事情，可能很多的关注就不在寒武纪身上。但是一旦它超越茅台了，那一看老大换人了，那我们要上来看一看。有很多人一看说，你这个虽然盈利，但是你的市盈率好几千倍，没什么利润，挣这点钱你就敢超越茅台？他就要做一些动作在里头，就会出问题。前面好像是宁德时代，还是谁也超越过茅台，就反正只要有人超越过茅台，就会发生股市波动，这个算是中国特色了。

这一轮的牛市呢，也还是需要题材的。到目前为止，中国牛市呢，依然在艰难前行吧。怎么叫艰难前行？就是今天虽然指数在涨，但是5,000多家上市公司里头，3,000多家在下跌。我们后来通过各种各样的方式吧，让这个指数可以比较好控制，比较听话，所以至于其他人跌不跌，我们就不管了，反正这个指数在涨。现在呢，有一个核心的题材，也就是AI算力，什么光模块、服务器，那咱们就可以继续在这个题材上往前做事情了。

回顾一下互联网+的时代吧。十年前，2015年提出来的。提互联网+的时候，我们还都挺开心的那个状态，为什么呢？因为我们觉得我们是互联网企业，一提互联网+，我们老想着谁干掉谁，或者谁指导谁的事。在中国呢，谁跟谁都没法去平等地相处嘛，所以一定是谁指导谁。我们想着我们是互联网企业，我们肯定要去指导这些落后产能。说我们是不是去收购一些工厂，在我们的指导下，他一把就腾飞了还是怎么样的？很多人都有这样的想法，这就是2015年的状态。

而且2015年呢，整个的经济呢，号称要软着陆，但是大家还是在一个比较亢奋的情况下，跟当时讲的说“广阔天地，大有作为”，我们就到了这样的一个时代。因为我在猎豹移动，2014年我们去上市，到2015年呢，我就成为一家上市公司的投资总监，然后就看到了互联网+是怎么落地、怎么往前飞奔的，当时大家都干了点什么。而且互联网+的时候，讲的是什么？叫“大众创新，万众创业”。所有人都要去创业，投资人赶快去投钱，天使、A、B、C、D，然后去上市。而且当时新三板什么这些东西都出来，大家都去上，新三板都可以上市了，都可以去割韭菜了。“你看旁边那个人是不是比你笨？咱们就割他的行不行？”当时大家都是这样的一个状态。

互联网+呢，其实并不是“互联网+”，互联网+其实是“移动互联网+”。就是互联网其实早就开始了，互联网从零几年、08年、07年就开始了。到喊互联网+的时候，其实大家已经开始在玩移动互联网，在玩手机了，在做移动支付，在做这些东西了。为什么要强调这一点？就是原生的移动互联网企业是谁？比如说像拼多多这样，拼多多到现在为止在国内没有网站，他网站是有，但是你网站上不能买东西，你要想在拼多多上买东西，必须在手机上买，这个就叫原生的移动互联网企业。你像淘宝这种就不算，淘宝你现在还可以在网站上买东西呢，京东你也可以在网站上买东西。美团虽然可以在网站上干，但是后来他做了很多的限制，你不在手机上，他很多的功能就没有了。滴滴这样的东西，你必须在手机上打车，你不在手机上打车，不知道你在哪，这都属于叫原生的移动互联网企业。

当时的互联网+，真的是一次运动式的全民狂欢。因为互联网+开始的时候，还有什么众包、众筹等等，一大堆的妖魔鬼怪在，比如说中关村创业大街上，群魔乱舞。我们到那看的，真的有好多老头老太太说，我们也要去参与一下，我们也要去创业，我也觉得这个产品不错，我要去投他一把。当时大家真的是非常非常狂欢的。

那你说，互联网+最后的结果怎么样呢？其实还算是成绩斐然。因为产生了新的公司，产生了新的业态。生产力没怎么提升，这个咱们要承认，就整个互联网+并没有怎么提升生产力。但是呢，生产关系的变革确确实实是发生了。比如说我们现在都去点外卖了，我们现在出门都去打滴滴了，我们满街跑的都是外卖员了，这个就是生产关系在发生巨大变化的一个体现。

互联网+的大背景是什么？为什么在那个时候，大家会去喊这样的一个口号？互联网+呢，十年前，应该也是咱们当今这一位在执政嘛。他是在干什么呢？第一个就是互联网基础设施基本完成了，滴滴、美团、支付宝、微信支付、移动支付，基本上都已经13年左右就都完成了。再往后过了两年，发现没有什么新仗可打了，那咱们就折腾点其他的事情呗，咱们就开始搞这个互联网+。所以首先是基础设施完善，这个跟今天我们要讲的人工智能+有一个巨大的差异，因为人工智能+底子没有，你没有一个基础设施，你到现在还在写“智能终端”呢，到底那东西叫手机还是叫什么还不知道呢，我们就开始搞人工智能+了。所以这个跟互联网+是完完全全两个不同的概念。

第二个原因是互联网产业有一些虚火，也就是大家去内卷，卷完了以后，主要是以广告、电商与娱乐去变现。资本的泡沫呢，也开始闪现了，就是P2P、O2O这些东西，折腾了半天，最后谁也没挣着钱。所以呢，互联网产业也需要找一些新的地方来去发挥我们的这种活力和热力吧。

另外就是需要产业转型，产业转型是有压力了。它呢是进入了一个叫“新常态”。什么叫新常态？在2015年之前，中国的GDP经常是在两位数增长的。后来呢，说我们就要“保8”，一直在喊我们要保8，就GDP每年要涨8%。到2015年以后说不行了，涨不动了，产能过剩了，说我们要让经济进入新常态，进入到一个相对来说软着陆的这个状态了。所以当时讲的是，我们要适应GDP年增长率是7%，这个日子还得过下去，不能有8%了。当时为什么喊保8呢？因为当时的普遍认为是，一旦GDP年增长率低于8%的话，很多被隐藏起来的这些矛盾和一些问题就会爆发出来。如果你到了8%，这些东西就可以继续隐藏下去，或者可以寅吃卯粮，可以拆东墙补西墙。一旦不到8了，那这些东西就要爆发了。

那我当年在干嘛呢？你看2014年年底我就转成投资了，在那之前我是做开发者关系的，然后就开始四处找项目了，所以我基本上算是见证了互联网+整个的一个流程。当时大家主要关注的方向是什么呢？其实一方面呢，叫流量裂变。最早的时候说，我们怎么拿微信公众号挣钱？公众号一个人变10个人，10个人变1,000个人，怎么去把这钱挣回来？这是当时第一个关注的点。这一块呢，最后没有长出真正的上市公司来，因为有几家公司在这块也很挣钱，最后想去上市的时候被证监会给摁下来了。因为当时就讲说，“你200人运营300个还是几百个这种公众号，还更新很多内容，你告诉我你信息不是抄的，是你自己原生创作的，你跟我讲我信吗？”当时是给了他们这样的一个理由，把他们给摁回来了。所以呢，这一个赛道等于最后就没有出来什么结果，但是还有很多人在这挣钱，就是流量裂变这块是非常非常挣钱的。包括到现在抖音里头这些人，其实还是非常活跃的。只是呢，你不让他上市呢，他就会慢慢地转向灰色的地带。正常的公司如果想要上市的话，你必须要在阳光下，因为你要最后做审计嘛，你没法做审计的话，也就不用为这个事费劲了。

第二个呢，当时大家都在关注的一个点是短视频。现在大家看到抖音、TikTok就是那个时代。你像我2015年投的musically，后来被字节收购了，变成了TikTok嘛。所以TikTok这种短视频，是当时大家关注的，而且算是开花结果，快手也上市了，TikTok现在也是非常非常巨大，搞得中美两国还在为这事到底归谁还在这折腾呢。抖音现在也是强的在国内没有朋友的一个状态，而且现在所有的平台全都要上短视频，什么拼多多、京东、阿里、美团现在都在这上短视频呢。所以短视频呢，算是当时大家找对了一个方向。

然后工业4.0，这个呢是当时大家在看的一个方向，就是柔性生产。我造一个你也得挣钱，造10个也得给我挣钱，你不能说我这一批必须是一万个，一万个不到9,999个我不给你做，这个是不行的。中国呢，最后付出了巨大的努力，把这事这条路走通了。现在我们能够有Shein这样的企业，其实背后是工业4.0在起作用，没有这种东西的话，你是不可能说我这么小批量、快速地去进行产品迭代的。

消费升级呢，其实是在互联网+稍微靠后几年才开始做。后来因为经历疫情，整个消费升级的这个产业呢，基本上算是废菜了，基本上没剩下什么。现在两个消费升级项目，一个是老铺黄金，另外一个是泡泡玛特，其他的反正活得稍微有一点点艰难吧。

再往后是智能家居。智能家居呢，其实最后是让小米、华为他们给捞着了。最开始投入智能家居的，其实是阿里和京东，他们在里头花了好多的钱，发现这个事儿不是这么个玩法，最后让小米、华为、手机厂商还有OPPO、vivo，他们现在都在猛扎智能家居。这条路呢，其实也算是让我们趟通了。

还有一个比较可惜的方向就是AR/VR。15年、16年大家就开始找项目，我们也看了非常非常多的AR/VR项目。到目前为止，虽然苹果出了Vision Pro，但是这条路到底走得通走不通，其实还都是有问号吧。有些人一直相信说这条路能走通，但是我呢稍微感觉有一点点悲观在这上头。

这就是当时互联网+的一个状态。所有人都在那努力地折腾，骗子也横行，有很多很多骗子，老头老太太很多买菜钱都被骗走了。特别是很多的智能家居做出来的时候，都是走众筹的这个路线。众筹的路线就是你先花钱，我东西还没做出来呢，等我做出来了我再给你寄去，或者干脆我最后人就没了。众筹最后的很多的产品都不见了，只有像什么小米众筹，因为米家自己还是要脸的嘛，大家还能看着点东西，很多的这种众筹都没了。

但是呢，在这么热热闹闹地折腾了半天以后，还是有一些互联网+的项目上市了，还是可以跟大家去分享一下的。人工智能+最后能不能有企业剩下来，能不能长出一些真正让大家听起来当当响的这个公司出来，真的不好说。因为人工智能+是走国家控制的，而互联网+走的是市场化的。我这个人一直是相信市场，不相信政府能够很好地管理市场吧……不相信政府这事就不对了，政治不正确了。

那么什么样的公司在互联网+里头留存下来了呢？Shein、拼多多、抖音、TikTok，在这样的大潮里边留存下来了。所以为什么我跟大家讲，整个的互联网+里头，对于生产力的提升是没有贡献的。你说拼多多对生产力提升有贡献吗？Shein对生产力提升有贡献吗？抖音和TikTok也一样的。但是呢，他们对于生产关系、社会结构，对于这方面的改变，确确实实是做出了巨大的影响。以前你们能想象有一种叫MCN机构的东西吗？你们能想象以前有一种这个人叫“主播”吗？或者像我这样人，坐这吭哧吭哧跟大家侃山也能挣着钱，还能养活自己？这个原来是没法想象的。那么现在，经过互联网+十年的这种锤炼，整个的社会结构已经发生变化了，包括信息的流转方向、协作的方式、交易达成和分配的方式，都在发生变化。所以这个是互联网+真正的结果，不能说最后折腾了半天没有结果，这事不行，这是有结果的。

像这种运动式的全民狂欢，它到底有什么意义呢？第一个，海外呢，其实是没有移动互联网时代的，他们也没有互联网+这样的概念。我们其实是将很多的商业模式推动到了一个非常高的高度，国外压根就没尝试过。而且我们也淘汰了很多其实可能未必该死的东西。你到美国，他现在好多的公司说我就有个网站，我没有APP。你做互联网+，你必须得有个应用，你得有个移动APP。人说我有网站够了，你在我手机上用浏览器打开我们网页也可以访问我的服务，没有问题。但是在中国这事就不行，你没有APP你就必须得死。所以很多其实本身服务还不错的这些产品，因为它不做APP，我们把它干掉了。而且很多饭馆儿、实体经济，那你既然不做APP，你就要被这些做APP的人收割。比如说美团我做了APP了，我花钱装得满满街都是了，我就可以去收割你，因为你这个饭馆你做不出APP来。这就是互联网+干的一个事情，我们把利益分配体系整个扭曲掉了。

这一次的叫人工智能+，跟互联网+到底有什么样的不一样？首先讲，互联网+其实算是成功了吧，因为我自己经历过嘛，让我说失败了我也不太忍心，算是成功了。短视频、外卖、滴滴，确实给社会结构、生产关系带来了改变。而且呢，延缓了GDP跌破8%之后很多问题爆发的时间点。跌破8%，这些问题确实是在累积准备爆发，但是呢，我们玩了一圈互联网+以后呢，这个就向后延了，至少当时没有爆发，至少让这些问题一直积攒到了疫情爆发。疫情是2019年爆发的嘛，所以我觉得我们基本上算是满足了国家对我们的预期吧。拼多多、抖音也都是我个人比较喜欢的商业模式和项目吧，我们确实在商业模式上做了各种各样的尝试，走在了世界的前列。那时候我们就讲说，中国的很多的互联网方式或者移动互联网方式在全世界都领先。但是领先的就是商业模式领先，生产力上就是这样，因为手机也不是咱自己设计的，操作系统也不是咱自己做的。而且呢，也算是市场上最后一波造富神话。你要想让市场动起来，下政策是没用的，你必须要有榜样的力量，要有造富神话，这个市场才能动呢。最后的造富神话是谁？是滴滴跟瑞幸。他们两个退市了，基本上就结束了。资本市场推动商业模式创新的这个时代，就是到这就结束了，再往后就没什么事了。

那么这一次人工智能+最大的差异是什么？第一个是技术并不成熟。刚才我们讲了，互联网+是在技术完全成熟、找不到新模式的时候才去干的，但是人工智能+技术就不成熟。第二个巨大的差异是什么？就是从市场推动转变成了政府推动。我脑子里边肯定充满了什么流量、交易、什么留存，都是这玩意，这都是上一个时代互联网+的主旋律。但是呢，这一次呢，太宏观了。像刚才我念了半天，念了半天才有100来人在这听，就实在那个文件也没有什么意思，我还在尽量地用有意思的方式给大家念，但是呢，那个文件整个念完了以后，除了记住了一个“368”之外，其他啥也没记住，没地儿下手。所以呢，没有重点，整个这个文件里头到底该做什么不知道。

经济呢，其实都在下行。互联网+跟人工智能+，我们都赶上经济下行，但是呢，市场消费的信心，这一次是完全不一样。当时呢，我们还在高歌猛进的时候，只是说我们是不是软着陆一下，还在想我怎么能够让公司上市。因为我2015年干了好多事，是什么？把以前投资的项目看看怎么弄到新三板去上市，最后我还好像弄上去一个。所以当时大家还在全民狂欢的一个状态。而现在的话，2025年了，这个市场消费和信心都在什么地方？不知道。2015年的GDP增速是从两位数降到了7%，进入了新常态。2025年的话，我们现在是在进入5%的一个“新新常态”。而且我们这种5呢，就是5%，正好一点都不多、一点都不少的那种5%，巧合得一塌糊涂的5%。这个大家自己心里去想吧，我们到底在干什么。而且现在我们看到了美团的财报直接崩掉了，百分之九十几的利润没了。华为也崩了，大概是比去年同期损失了30%多的利润。你想华为都不挣钱了，这玩意咋弄？那爱国都爱不出钱来了，韭菜快要被割秃噜的一个状态，这个还是非常非常危险的。所以现在整个的经济环境，要比2015年要严苛得多得多。

还有一点跟2015年差异的在哪？创投链条整个斩断了。在2015年的时候，你想一喊“全民创新、万众创业”的时候，一堆的投资人跑上去投项目。但是现在呢？还有吗？没了。为什么没了？因为投资人很简单，就是你投完项目最后要上市、要退出。那你现在你没法上市，在中国投了案子到美国上市，不许去，你有这个数据安全法。你说我在中国上市？那对不起，前面排队排太多了，一旦开闸上市的话，这个股价就维持不住了，这个指数没有了，所以不许上市。到现在为止，还没有说让大家可以随便上市。去年折腾了一段时间起注册制，到今年又给你收回来了。什么时候才能再重新放开上市，投资人才会再重新动起来，否则没法整。那你只能怎么办？只能比如拿国资的钱来投，投完了以后，等到国资那说，你投了钱怎么退出？退不出去。您再想办法拿项目在养这个项目，比如说您城市里的AI数字化建设，你再把咱们国资投的这个钱再给它挣回来，也只能走这条路。那这个就很难了，因为资本是有放大作用的，你要靠这种挣钱挣回来，这个基本上不现实。所以创投产业链断掉这件事情，对于现在的所谓人工智能+，是一个非常非常不利的一个因素。

再往后是什么呢？国际形势也发生变化了。2015年其实咱们在国际形势上还不错，我们上次还是把大量的过剩产能给输出出海了。但是这一次的话，我们整个的朋友圈都变小了。我记得前两天有记者去问外交部发言人说，“你93阅兵的时候，为什么西方国家的领导人都没来？您给解释一下。”这玩意没法解释。你说我没邀请，那你想干嘛？你说我邀请人没来，这玩意多没面子。只能解释了一下，所有的名单都已经公布了，我们是纪念一下历史，缅怀一下过去，就完事了。我们也不能回答说到底是我请的人没来，还是那个我压根没请，这事你没法说。这一次的国际形势是比较严峻的，而且这一次国际形势还面临一个问题是什么？就是卡，英伟达的最新的卡你拿不到，这个是非常非常麻烦的一个事情。

所以，这就是这一次的人工智能+跟10年前的互联网+之间最大的区别。所以人工智能+最后能剩下什么，真的不知道。

那么，运动式“加号”每次都能带来点什么，或这次能带来点什么呢？第一个是整个社会对于某些新技术应用的紧迫感会起来。中国人呢总是比较有紧迫感的，一句“输在起跑线上”就能带动多少消费，带动多少产业，所以要把这个紧迫感要拉起来。第二个呢，就是各种基建还是可以再花一波钱的，比如说我们去建设算力中心，就又有人能够捞钱了。第三个呢，就是整个的社会结构有可能还是会发生转变的吧，但是呢，未必会向着他们所预期的方向进行转变。其实互联网+最后发生的这些社会结构转变，也不是一开始喊口号的时候我们所预期的或者所期望的。只要我们把这个车轮推起来，最后剩什么样再说了。

然后全球也会在我们的帮助下，继续消耗我们过剩的产能。我们又什么产能过剩了？很简单，我们这么多大模型呢，现在都可以干活了，国内又用不了，那全世界你们谁愿意用用吧，免费开源还不用，还等什么呢？要什么自行车？我们的人才也过剩，我们所有的这些应用都过剩，包括我们未来生产的这些算力卡都是过剩的，大家赶快来买。如果你实在没有钱买，没问题，中国可以借钱给你买，最后看你怎么还就可以了。所以呢，这块我们依然可以靠“一带一路”的小兄弟们，也就是今年93阅兵来的这些小兄弟们，把这些东西都跑起来。其他的智能车、机器人、机器狗、美团、京东、滴滴这些东西都在出海。你像滴滴跟美团现在在巴西还在干仗呢。字节、TikTok、Shein、拼多多也没有停下脚步，依然在全世界努力地去卖东西。短剧、游戏也都在出海，我们各种过剩的产能依然会冲出去。而且现在更好的是什么？大模型解决了语言翻译的问题，这个不太爽了吗？我们再也不用担心说我们的产品没法适配什么斯瓦西里语了，一次就可以搞定这个事。所以呢，这件事情上，我觉得全球化还是要很努力地去做的，而且包括前面人家国务院的文章里最后一条也是讲了，我们要去做全球化、全球合作。

当然了，最后到底会不会有“妖怪项目”产生呢？这个就需要打个问号了。刚才我们也讲了什么叫原生企业，拼多多就是标准的原生企业，原生互联网+企业。现在原生AI企业或者原生人工智能企业到底长什么样，我现在还想不太出来。但是我们为什么要管它叫妖怪项目？大家看看最后剩下的Shein和拼多多，这标准的妖怪项目吧？TikTok和抖音，标准的妖怪项目吧？大家一开始觉得四平八稳的项目，最后都没剩下来，最后剩下全是妖怪项目。所以AI如果最后能剩下，项目一定也是妖怪项目。当然这次有可能连妖怪项目都未必能剩得下来，因为这次毕竟不是市场推动的，而是政府推动的，所以可能在小妖怪还没长大的时候就被他们干掉了，这个可能性是比较大的。因为大家做了半天，最后没法上市、没法退出，所以整个妖怪产生的土壤其实也不是那么健全。

在应用领域呢，也许我们也还是可以再做一次极限内卷的“养蛊式”进阶。比如说医院大家都去AI了，这些工厂我们也都去AI，这块呢有可能会去做一些。但是现在很多医院里头差的还是比较远，或者说这些真正的企业里边差的其实还是比较远。而且做这个事情呢，还是一个很核心的问题是买卡。你说我现在企业里就想要AI，你买不到卡，你这个模型布不起来，这事就没法弄。

好，最后总结一下吧。人工智能+确实是提出了一个新的愿景吧，文件高屋建瓴、包罗万象，缺乏市场驱动，未来太美，实在不敢想象。不管能养出什么样的妖怪来，咱们只管吃瓜，这个跟我们关系其实并没有太大。

这就是我们今天讲的这个故事。

马斯克硬刚微软！“巨硬”Macrohard 到底是什么？揭秘用 AI Agent 颠覆 Windows 和 Office 的疯狂计划。

Luke Fan — Fri, 29 Aug 2025 00:41:05 +0000

埃隆·马斯克的巨硬公司，也叫Macrohard公司，到底是干嘛的呢？

大家好，欢迎收听老范讲故事的YouTube频道。

今天咱们来聊一聊马斯克玩心很重，起的这个神奇的名字，到底想干点什么。

它呢应该是X.ai这间公司下面的一个软件项目，并没有一个公司叫Macrohard。不像微软似的，Microsoft是一个公司，而Macrohard的话，现在只是一个内部的名称。虽然马斯克8月份跑去申请Marcohard的这个商标注册，但是呢，商标注册一般是很慢的，即使一切顺利，你注册一个商标到可以获批使用的话，大概也要一年的时间。

而且这个商标最后获批使用的几率基本上是0，不太可能的。因为微软大概率会强势维权，微软在这块是非常非常注意的，那也曾经是世界市值第一的公司，而且是在今年是世界市值第一。对于任何擦边球、跟他的名字比较像的这些商标，都会上来维权，直接把他干掉。人家叫Microsoft，叫“微”和“软”，你呢，叫Marcohard，叫“巨”和“硬”，这个肯定属于擦边，微软一定会上去抗辩的。而且美国专利商标局也会进行相似性的检索，你如果检索的过程中，人家就认为你这个相似性太高了，就直接给你拒了，所以可能不需要微软也维权，这个商标就不见了。

但是马斯克反正人家玩吧，光换来的这个流量，它就已经值钱了，你申请的下来、申请不下来已经无所谓了，像当年的BORING无聊公司那样，这是属于话题，话题足够。马斯克的无聊公司是干嘛的呢？在地上挖隧道，让特斯拉的汽车可以在隧道里边快速前进，躲避拥堵，做这样的一个事情。这个公司到目前为止其实没有什么声音了，但还活着。Macrohard话题足够，会吸引很多人过来讨论这件事情。

马斯克到底想干嘛呢？现在只有只言片语，所以大家只能猜。咱们今天也主要是借着Macrohard的这个事情，跟大家探讨一下AI agent未来会如何改变我们的软件使用方式，这个我觉得还是值得去探讨一下的。Macrohard大概率是要去做manus那样的项目，做一个全能型的AI agent，但是具体怎么去实现，现在大家都在思考。虽然大家都在开始搞AI agent了，但是AI agent最后如何去改变我们使用软件的方式、改变我们工作的方式，目前为止呢，没有一个标准答案。让马斯克也加入进来去摸索一下，这并不是一个什么坏事。

从马斯克现在发出来的信息来看，他说的是：“微软这样的软件公司本身并不生产硬件，而是通过软件产品和订阅服务赚钱。既然如此，那么在理论上完全可以用AI来模拟一家微软。”他写了这样的一个话。这个什么意思呢？你看他是生产硬件的，特斯拉肯定生产硬件的，SpaceX生产硬件的，SolarCity就是他那个太阳能公司，生产硬件的，他的这个脑机接口生产硬件的，所以马斯克是一个硬件公司。而微软呢，你要说他完全不生产硬件，这事也不对，因为微软现在也生产非常多的硬件，比如他生产电脑、生产鼠标键盘、生产Xbox游戏机。你不能算它生产吧，至少是设计和销售这些产品吧。微软其实也算是半个硬件公司。但是软件的这个部分，是不是就可以用AI人工智能重新做一遍呢？这个其实才是大家现在需要去思考的问题。

很多人都讲说AI出来了，要把所有的软件都重做一遍。但是到目前为止呢，其实有一点点举步维艰，并没有办法说把原来的所有软件都重做一遍。我们现在看到的不是大家在招聘，说我们把以前的软件都做一下，而是都在裁员。

马斯克呢，肯定是先要嘲讽一下老冤家，微软跟马斯克之间一直不对付。一方面是比尔·盖茨一直在做空特斯拉，而且是公开喊话。马斯克上去喊，说都已经这样了，你还做空我吗？比尔·盖茨啥也不说，接着在那做空。马斯克还讲说比尔·盖茨去了萝莉岛了，出现在谁谁谁的名单上了。现在比尔·盖茨也无所谓了，反正婚也离了，你爱说什么说什么了，我接着做空你，这样的一个状态。另外一方面呢，微软算是从马斯克手里边截胡了OpenAI，你想这是多大的仇。如果当时微软不给山姆·奥特曼钱的话，山姆·奥特曼最后就要乖乖地在马斯克这就范，最后就是让马斯克来成为OpenAI的CEO，让马斯克带着整个的团队往前走。最后微软说我给你钱，我给你好多钱，咱们去玩儿吧，最后把OpenAI截胡了。所以这个仇大去了，所以一定要上来去嘲讽一下。

先把招聘搞起来，并且预告下一个阶段的方向，这是马斯克干的第二个事。他现在的人力物力是搞不定的，以各个AI公司的情况来看，马斯克现在最缺的就是人。因为他一旦要开始为广大大众提供一些个性化服务的时候，他这点人数是根本不够使。所以后边要具体怎么把人招进来，怎么重新去组织这些人做新的产品来为大家服务，这是他现在需要去思考的问题。即使说我不像微软那样招几十万人来给大家服务，你也得把平台搭起来，让大家在你这个上面去为其他人服务。在iOS跟安卓的时候，其实就已经发生了很大的变化，有很多的人在应用市场里开发应用。当时OpenAI做GPTS的时候，其实也惦记干这个活，但是呢，这个路并不成功。但是至少大家都想去做一个平台，希望其他人在我们的平台上就可以提供定制开发，为最终用户做完整解决方案。但即使要做到这一步，马斯克也要去招聘。至于预告下一阶段的方向的话，“用AI模拟一家微软”，这就是下一个阶段的方向。

那我们来看看，微软这样的一个软件帝国和它的竞争对手们，现在到底是一个什么样的状态呢？既然你要模拟微软，你最后肯定是要跟微软竞争的嘛。咱们看看微软的产品。

首先最如雷贯耳、最响亮的，肯定是Windows操作系统。Mac OS呢，其实完全是另外一种产品，Mac OS跟Windows没有那么大关系。用Windows的人跟用Mac的人就是完全两拨人，所以他们之间其实并不怎么竞争的。Linux桌面版呢，流传的范围非常非常小，基本上可以忽略不计，不是说没人用，但是比例非常少。安卓、iOS的份额其实是远超Windows的，因为手机比电脑多嘛。现在呢，iOS跟安卓其实已经可以做大部分Windows能做的事情了，很多人拿着这个平板电脑直接装上安卓系统。包括像苹果，它现在iPad上也不叫iOS了，人家叫iPadOS了，那意思就是说，你的下一台电脑不需要是电脑，我也不用给你上Mac OS，你就直接上iPadOS，大家就可以干活了。这个是可能未来对于Windows的一个比较大的蚕食吧。

而且新的操作系统呢，它在定义层次上，就已经开始发生转变了。传统的操作系统，你要在一个特定的硬件上，把所有的功能统合起来。现在新的操作系统，你说微信算不算操作系统？绝对算。他把他把功能统合起来了，但是不管理硬件，他还是在手机操作系统上去工作的。但是我们在这个微信里边可以聊天、可以看书看视频、可以买东西、可以投资理财、还可以贷款，没有什么事是你不能干的，所以它已经可以算操作系统了。抖音、TikTok这些东西也都是操作系统。现在最新的说“我是操作系统”的是谁？一个是谷歌的Gemini，还有一个是ChatGPT，这已经开始向操作系统前进了。你可以不离开这些聊天窗口，把所有的事情都做掉。我们参考微信，以后可能在微信里能干的所有事情，在这些聊天窗口里都可以干完。浏览器呢，也算是一种操作系统。

微软在这一块呢，是打不过谷歌的，谷歌的Chrome在这一块绝对的老大。即使是微软的Edge浏览器，其实也是在Chrome的基础上改出来的，底层内核其实都是由谷歌下边的一帮人在维护的。但是呢，Chrome这一块现在正在被反垄断审查，而且勒令分拆销售，现在Perplexity跟OpenAI都想买，买了干嘛？回来做操作系统。现在这一块呢，还是一个比较白热化的竞争了。

除了操作系统之外，微软另外一个被大家所熟知的产品就是Office系列：Word、Excel、PowerPoint，就这些东西。它的竞争对手呢，iWorks就是苹果做的这套Office，算是固守阵地吧，但是固守阵地都难。因为很多人即使用Mac OS的操作系统，也会在上面装Windows。Mac OS上的这些Works呢，最好用的是它的Keynote，就是类似于PowerPoint的这个工具。它的Page就是类似于Office里的Word，苹果的有一个产品叫Number，它就是类似于Excel。剩下两个产品，其实用的人是没有那么多的，会少很多。所以iWorks现在固守阵地都有点难。另外一个现在比较有竞争力的是谁呢？就是Google Workspace，也是一整套，就是一个演示工具、一个表格工具、一个文本编辑工具，这一套现在竞争力很强，快速地在生长。OpenAI呢，现在也盯上这一块，说我也可以做Office的事情，我有Canvas的一个功能，我也向这块前进了。所以Office呢，固然很强大，但是呢也面临着一定的竞争压力。这是微软的第二个产品线。

第三个产品线呢是游戏。微软在这一块呢，本来也就是众多游戏厂商之一，可能还排不到最前面去，索尼再加上任天堂，还有国内的腾讯这样的公司，所以这一块的市场还相对来说比较松散。那你说微软真正赚钱的大头是什么呢？是刚才上面咱们讲的哪一个？其实还不是。微软真正赚钱的大头叫系统集成，就是各种企业软件进行定制开发。这一块呢，应该才是被马斯克盯上的一块。马斯克坐在这儿重新写一Windows、重新写一Office吧，或者写一个浏览器吧？马斯克才懒得干这事呢。微软真正挣钱那部分，说您的企业有什么需求，我来帮您定制一下，这块是他真正盯上的。

AI到底应该如何改变这种企业使用软件的用户体验，或者说用户过程呢？大家还记不记得，2023年微软发布Microsoft Copilot的时候，那个炫酷的视频，让人感同身受的场景，想象力绝对突破天际了，所有人觉得脑洞被打开了，原来还可以这样使用。但是呢，这个会开完也就完了，你想这都是两年前的会了，到目前为止，他当时展示的东西呢，也没有完全实现。当然并不是说大模型的能力不够，也不是微软的工程项目能力不够，现在真正难的东西是什么呢？是信息的清洗，以及信息的边界确认，或者说叫信息的权限管理，这一块呢现在其实是搞不定的。

而且也没有人敢把这一部分交给AI去干，因为AI每一次出来的结果是不一样的。就算是你不交给他，大家三绕两绕，还让AI越狱，还让AI开始胡说八道呢。你把这么敏感的事情交给AI，让它来去管理相应的这些权限，这是不可能的。但是我们想清楚，如果我们想达到一个由AI配合我们去干活的这样的一个结果的话，我们就真的需要让AI明确他到底能得到哪些数据、不能得到哪些数据，才能给我们做出正确的结果出来。这个其实还是比较难的，到目前为止依然没有搞定。

现在对于个人来说呢，微软两年前展示的功能呢，基本在近期算可用了，也就是在最近那么两三个月里头，基本上是可用了。因为个人没有那么多的数据，也没有那么多的权限需要去管理，我们就完全可以要求这些AI agent说，你去搜索一下，或者说你到哪个库里去搜索一下，然后拿出结果来，去给我做什么样的这个事情。这块虽然使起来还稍微的有些不趁手，但是呢功能基本实现了。而对于企业来说的话，你肯定还是要再去做系统集成，这块是微软的老本行。你不去做系统集成，你拿现有的AI工具来说，基本上是没法做的，因为你需要做数据的清理和过滤，需要做权限的设置，而这一部分你还没法交给大模型干，这就是现在没有解决方案的地方。

让我们来想象一下，我们使用Office的场景到底是什么样的吧。我个人呢用的最多的是PowerPoint，但是现在用的也少了，现在可能用的最多的是Xmind。大家看看这个变化是什么？变化就是我把内容搞定了，但是格式我就扔了。我使用Xmind以后，我等于只有提纲，没有格式、没有动画，什么都扔了。这才是真正的未来发展方向，就是内容大于形式，大家一定要记住这句话。

PowerPoint的部分，目前的工具呢，可以做出很惊艳的粗糙模型来，我们可以在这些结果原因上进行再调整。这就是当前甭管是AI PPT或者其他的一些工具可以实现的功能。而且像Canva这些工具的话，都已经提供了MCP，可以直接服从大模型的命令，去做相应的调整。而且也有一些agent开始去做这种设计了，比如说叫Loveart，前面我们专门出视频讲过这个工具。这一块呢，不需要那么紧密的协同就可以干活了。

我自己用的最少的Office工具其实是Excel计算，Captable就已经是我的极限了。什么叫Captable？Captable就是一个公司的股份表，谁占多少股份，原来占多少股份，投资以后占多少股份，或者清仓以后股份如何分配，就这是我的极限了，再复杂的东西算不了。微软呢，倒是在Excel里头加了一个新的函数，我们知道以前有函数，什么求和、求平均数，现在最新的这个函数叫Copilot。你可以在里头写Copilot()，然后“请从哪些单元格里头获取数据，然后给我做一个什么样的结果出来”，你可以做这样的这种命令。因为以前大家都说，谁的Excel公式背的全，现在不需要了，直接用这个Copilot就可以搞定。即使是有这样的函数以后，我也觉得使用Excel还是挺麻烦的一个事情。

Word呢，是我用的比PowerPoint少，但是比Excel多的一个工具。咱们呢，来讲一个流程吧，就是要有一些相互之间的配合，还要使用一些微软Office工具——合同审批，咱们讲这样的一个流程。

第一步，我可能拿了一个合同模板，你不可能从头写这个合同，得先从合同模板。拿到合同模板以后呢，肯定先开会嘛，我投资别人项目，我投你多少钱，占你多少股份，这个事呢，肯定不可能说我拿着合同模板跟人讲，一定是大家拍着脑袋就开始定数了。定完了以后，基本的一些条款、基本的一些要求都说清楚了，就拿着合同模板进行填肉。我们就拿着模板，把这个你叫什么公司、我叫什么公司、甲方是什么、乙方是什么、出多少钱、占多少股份、各自有哪些权利义务，把它都写清楚。写完了以后呢，扔给律师，律师去审核。律师呢，会根据意图、风险，以及当前的一个最新法律条文的一个变化，提出修改意见。

拿到这种修改的稿子以后，我们再跟各方进行沟通，每一方都要再给他的律师看嘛，得到最终的一个修改过的稿件。Word里头最强大的功能不是排版，Word最强大的功能是审批。每一个人在后边去写，说我要在这加点什么东西，我在那减点什么东西，我为什么要在这加，为什么要在这减，或者我把哪句话改成一个什么什么意思了。Word是有很完善的这种版本控制的，像我们以前改一份合同，最后右边这个角标是密密麻麻的，不同的人写“我是张三”、“我是李四”，我为什么要提出这样的要求来，我改了些什么样的东西，大家在最后去确认。

在确认过程可能还要在开会，而且开会是开小会。一个合同里的涉及，比如说五六方不同的相关实体，他们有很多诉求，跟其他各方并不是都有关系。在这个过程中，大家就要捉对厮杀，或者说开一些小范围的会。等都开完了，最后律师协调大家的意见，出汇总版本。当然这汇总版本里还要再保留痕迹，再跟每一方确认，说你看看你当时要求改的东西，这个痕迹在这呢，现在确实给你改上了，别人都改了些什么东西。因为都要在同一个合同上签字嘛，每家改的东西可能跟你没什么太大关系，但是都还是要看一下。等大家都确认了以后，隐藏痕迹，打印最终版本，传签。

什么叫传签？就是把这个合同，比如说有10方要签这个合同，我们就会把这个合同打印10份，然后挨着个儿的快递，这时间都传递一圈回来，把10个人的字都全签上，他是这样的一个过程。然而通常不是打印10份，应该会更多一些，因为每家还要有一个原件留档嘛。这些合同走到这算签完了。这个合同后边还要起作用，起什么作用呢？你在下一次再签合同的时候，你就要拿上一个合同出来参考，原来你答应了什么条款，或者有什么样的约束。你在新的协议里头，你总要做出一些安排来，你说我是继续承认原来的这些约束，还是说我把这些条款进行了一定的修改，我们写清楚，我们有新的条款，原来那个作废了。你是要把它抄过来，还是怎么去约定这个事情。这个合同算是走完了一个完整的周期。

大家想可以思考一下，AI agent应该如何完成这个过程？这个过程刚才我讲了半天，很复杂，但是这就是我原来主要的工作。大家千万不要觉得出去做投资就是像大爷似的，跟人说你过来我要投你，不是这样的，大量的纸面工作，而且你需要跟每一个相关的股东、相关的出资人去进行沟通和确认，这个过程非常非常麻烦的。你说有AI agent以后，这个活会不会变得好一点呢？

在今年开始的时候呢，AI agent元年就算开始了。但是呢，目前为止，AI agent其实还没法干这个事情。之前的AI agent呢，都是为个人服务的，只是不同角色、不同场景的个人。刚才我们讲有不同的公司、不同的角色，大家一起凑起来完成的一个合同审批过程，到目前为止还没有谁说我要去干这个活。这也是微软挣钱最主要的部分，也是这一次马斯克想去替换的一个主要部分。

那我们要去看看这玩意怎么办了。首先，AI应该直接参与到初始谈判中来，你开会的时候，他就得在那，他得听着，或者至少你要把这个会议纪要扔给他。但是会议纪要扔给他，其实已经不是那么好了，为什么呢？因为AI按道理来说，应该根据模板和前面各种协议的约定直接询问。你不可能说我这会议纪要给他了，发现里头有好多该往合同里填的空，你没填上，这事是肯定不行的。所以AI应该是直接参与会议，说：“你们都聊完了吗？那什么什么事你还没说呢。”这个就会让会议的效率提高很多。

如果AI直接参与会议的话，会议纪要也不用给他了，他直接手里就有。然后AI就可以出各种颗粒度的总结提纲，让需要确认的人去确认。比如说我们十方坐这开了一个会，这个提纲是跟这几节有关了，那个提纲跟那几节有关，哪个提纲可能是跟所有人都有关。他就可以分门别类地把这些相关的信息呢，都总结出来，直接给大家发出去，让大家去确认。

有人在这问了，说需不需要全文？你说最后看的合同都是厚的，跟一本书似的好几百页，或者几至少几十页吧，这个怎么就给人一个提纲就完事了呢？其实跟大家讲，几十页的合同跟一两页的意向书，里头实质内容是没有太大区别的。所以我们出去跟人做项目，都是先签意向书，一两页或者两三页。签完意向书以后呢，大家最后都确认完了，然后让律师把它写成合同，但这合同可能就好几百页了。这个是没办法的事情，人写的更严谨嘛，但是所有的约定在意向书里都约定好的。看也没必要去看那个全文，最后看一遍就完了。

确认完了以后呢，就是做意见和反馈的搜集，大家都有什么问题，拿回来我们再去看一看，将变化的部分再次总结。当把所有的信息都汇总了以后，重新组织会议，这个时候就未必是全员开会了，各方单独会议，重新确认各自关心的问题，让每一个人关心的问题都得到确认。生成最终的版本，并将变化过程、最终结果生成全文以及各类的总结，让各方去确认去。在这个过程中呢，适时地查阅、引用各种相关信息和资料，包括法律条文、包括过去协议上面的各种约定。比如说我们上一份协议跟人约定好了，要给这个团队分红，或者说要给他们发股份，那你再签新协议的时候，我们就要把这个事说清楚。所以上一份协议是，或者以前的所有的协议和约定，在这呢都是需要去看的。现在的AI agent还搞不定这个事情。

马斯克的巨硬准备如何颠覆微软呢？肯定第一件事先招聘，这个没什么好说的。AI agent并不需要做出Windows和Office来，而是解决原来大家用Windows和Office能够实现的这些结果。我不需要按你原来的路径走，探索更小、更灵活的公司，用户的需求应该如何得到满足。

那你说原来大公司呢？那些规矩特别森严、等级特别严格的这些大公司怎么办？这种传统的规矩森严、门槛很高的公司，就让他们跟微软一起去死吧。这可能就是未来的一个方向。大家要注意，像谷歌的Workspace去抢占微软地盘的时候，Workspace的各种什么排版、很多这种很细节的功能，其实比微软差远了，做不到那个程度，但是也就可以用了。微软的Office里的大量东西都是跟形式有关的，我怎么能把它排的好看，微软花了极大的功夫来搞这些东西，开发维护的成本都很高，但是对于未来的发展未必有那么大的好处。

你说我这必须是几号字、多少间距，没有这个我就这个文件就打回去加班重做的，这种公司就让他们死吧。能够把事说明白，能够把最后的条款确认好，签了合同接着往前干活的，让这些公司活下来。在这个过程中，马斯克给大家提供一些工具，说让愿意放弃形式、只关注结果的这些公司，可以战胜那些形式大于结果的那些公司。这个可能才是AI真正改变的一个未来方向。

好，这个故事跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

Luke Fan — Thu, 28 Aug 2025 00:48:18 +0000

美工，或者说设计师，又要失业了吗？Gemini 2.5 Flash image发布了。

大家好，欢迎收听老范讲故事的YouTube频道。

前一段时间，有一个叫“小香蕉”的模型，叫Nano Banana。这样的一个模型呢，在很多的开源模型评比网站上，突然就火了。这种网站是干嘛的呢？还有很多的同类型的模型放在上头，你去向他提出要求，他让不同的模型同时生成结果以后，大家去做评比用的。很多人发现，这个模型很棒。

最近在很多的社交媒体上出现这种：有一个照片，旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片，然后你给他提示词说：“请按照这个照片给我布置一个桌面，桌面的左边是个电脑，电脑上应该有这个3D设计软件，正在设计3D人偶。右边呢，是一个相框，里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶，这个人偶就是根据这个照片打出来的。”给它这样的一个提示词，它就一次性给你搞定了。这个还是非常非常强悍的。

这个模型到底谁家的？搞不清楚。而且很多人还去造假的Nano Banana，为什么？因为太有流量了。一堆一堆人上来说：“我这也有一个Nano Banana，你们赶快来试一下。”我就被人骗过，上去了以后发现效果一般嘛，就很失望就走掉了。大家就猜说，这有可能是谷歌家新出的图片模型。到8月26号，突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看，就是这个Nano Banana。而且呢，在谷歌发布这个模型之前，Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter，说：“你看我们在暗示点什么吗？你们自己来猜一下，我们到底要干什么。”实际上，大家都已经明白他们要干什么了。

这种偷跑小模型的方式呢，是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过，现在Gemini 2.5 Flash image也是偷跑了一段时间，而且引起了轰动。这种偷跑模型的方式，跟大家藏着掖着，像苹果开发布会似的，发布之前大家谁都不许说，签保密协议，谁谁敢说出去就如何如何，到底有什么差别呢？差别就是，你如果是前面保密的话，最后发出来就是一锤子买卖，如果翻车，你就直接倒霉。谷歌其实翻车过好几次了，Gemini最开始发布的时候就翻车了，怎么各种问题都答不对，然后股价暴跌。现在这种偷跑模式呢，如果反馈不好呢，我就再接着改，我就不发布了；如果反馈特别好，我就赶快给它发布出来。它就不会翻车了，它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。

咱们说回来，这个Gemini 2.5 Flash image到底是一个什么样的模型呢？上一次大家喊设计师和美工失业的时候，是什么时候？是Gemini 2.0 Flash image发布的时候，就是它上一个版本发布的时候。

上一次是怎么出圈的呢？其实谷歌的Gemini画图效果一般，不是特别惊艳，上一次出圈也是因为改图。只有改图改得好，才容易出圈。很多人说不对，说这个生图模型都在干这些事情，为什么改图改得好就能出圈呢？大家要注意，跟设计师和美工相关的需求，特别是有商业价值、或者叫有人付钱的需求，是生图多还是改图多？一定是改图多。

咱们举一个最标准的例子。我们现在要做电商网站，我们在网站上需要有一个商品的展示图。我有一个商品图片了，然后呢，我需要把这个图片放在各种场景、灯光和环境下，再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊，他们用了一个特别笨的办法，他们找一照相机，三视图1、2、3拍三张照片，这就是你产品的照片了，那这产品卖得好才怪了。京东在这个北京，专门有一个巨大的影视基地，没想到吧？干嘛的呢？就是拍这个产品图的。你们谁要卖东西了，到那去把这个产品给他，他给你搭好布景，打好灯光。比如说你要卖一个杯子，他在杯子旁边给你摆上瓜果蔬菜，摆上一些小点心，把这杯子都拍一遍，再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢？这个图P上去的这部分要有版权，这个是非常非常重要的。你不能说我卖东西，这个图后边比如说我P了一个椅子或者P了一个什么东西，这个图片你没版权，这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西，你想把东西卖好，你就上拍摄基地去拍去。即使拍完了以后，他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字，那个地方还需要一些别的东西摆在一起。因为你不可能说，我要把所有拍的东西都摆一块嘛，那有的时候你就需要去抠图，然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好，大家才会说设计师跟美工要失业了。

那么，改图是不是要比生成图片要难呢？大家想没想过这个问题？答案是很肯定的：改图绝对要比生成图片要难。为什么呢？你需要先理解这张图片，这个图里哪个地方是人，这人哪个是脸，哪个是身子，哪个是腿。当我们发生一些什么样变化的时候，我怎么能够保持它的一致性？说比如说，我拍了一个低头的照片，说这不太好，你抬起头来，然后再笑一笑。我把演员拎回来，或者把模特拎回来，说你再给我拍一次，成本很高。那我们直接叫给这个改图模型，你去给我干这件事情，它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候，这玩意儿还干不太好，特别是跟人脸有关的事情。但是到2.5 Flash，这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧，我也会做一点点小的事例，放到咱们YouTube的shorts里头，这个还是挺好玩的一件事情。所以，如果我们没有办法对图片进行很深刻的理解，把需要改的部分抠出来，改完了以后再把它贴回原来那个地方去，这个是做不成的。所以这是推理能力的上升，不是它的图片生成能力上升，而是推理能力上升了。

Gemini 2.5 Flash image到底有什么新特性呢？第一个，它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型，千问3是一个多模态模型，Deepseek还是一个纯文本模型，它是没有多模态理解能力的。豆包1.6最新的版本，它是一个多模态模型，可以直接进行视觉推理的。GPT-O3、GPT-5，这都属于多模态的推理模型。你没有这种底层的话，是干不了这活的。给你一张图片，你连图片到底画的是什么都理解不了，你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天，你都分不清楚的话，你就没有办法做后边改图这个事情。你比如说给他一张图说：“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚，这个是衣服，穿上西装以后到底应该长什么样，这事要理解明白了，推理清楚了，他才有可能生成出结果来。

那么第一个就是多模态大模型。第二个，支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品，这个都可以。而且呢，在编辑的过程中，能够完美的保持人物、动物等主体的外观和姿态的一致性，这个是修图里边最难的。像我们经常让豆包去修图，或者可灵去修图，修完了以后经常发现什么问题？不像了。你像我上传一张照片，说：“来，给我把背景换成一个海滨的背景。”海滨背景换了，但是前面那人不是我了，可能看着稍微有些似是而非，但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性，而保持一致性是整个修图里边最难的。

再往后呢，它可以合成3张以上的不同图片的内容，创造出组合的新作品。我看到有人做的Demo是把6张照片，六个人照片搁一块，说：“来，把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车，不是说每次都成功，但是呢，他已经有这样的能力了。还有人去测试什么呢？我给你一屋子，给你一书柜的照片，给你一床的照片，说：“来，把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。

支持多轮次迭代式的图像修改，不影响已确定的无关元素。这话什么意思呢？就是你给他一张图，这次给我加一床，下次给我加一个床头柜，再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候，那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型，你让他在床头柜上加书的时候，那个床就发生扭曲，就发生变化了，因为他是把所有东西重新生成了一下。

这个Gemini 2.5 Flash image呢，还能够理解和转换手绘的草图，用于教育和设计应用。比如说我们手画了一张图，这应该有个按钮，那个地方应该有个窗口，你把这东西扔给他，说：“来，给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。

最后呢，是禁止生成不当内容，并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的，你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家，OpenAI还没上市，虽然它是老大，但是毕竟不是上市公司。谷歌这是上市公司，多少年的行业老大了，它真丢不起这人。它出一点点小问题，就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候？说你给我生成第一次世界大战的这个战场，图片里头发现男的女的、黑人白人黄种人在一块。说这不对，西线应该都是白人，都是男的，不应该是这样。他说不，我们要多元性。最后导致被认定为翻车，导致他们整个的产品下线。

现在呢，拿这个模型去生图还是挺便宜的，它是4美分生成一张图，整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多，但是它的效果要好一些。同时呢，谷歌还发布了另外一个更新，就是VEO 3出了一个fast版本，就是快速版本。VEO 3呢是谷歌现在的视频模型，效果也是很不错的。它们大概是40美分生成一秒钟，这个成本也降下来了，原来大概是要80美分生成一秒钟，成本直接砍半。

这些新的工具到底怎么用呢？我们今天就不给大家看演示了，我会未来一段时间慢慢的把生成的结果给大家看看吧，大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image，可以用AI studio这个网站，它的域名是aistudio.google.com。进去了以后，你就选择Gemini 2.5 Flash image，选完了以后，你就提交各种的提示词也好，给他参考图也好，多给几张参考图也好，你就命令他去干就完了。我印象里应该免费，但是我不太确定了，因为我的这个账号是已经开始付费了，所以我现在是肯定能用的。我上去了以后，它会提醒我说免费的是有一些限制的。如果你想开心使用的话，你可以通过API去调用，也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用，他们也会给大家提供一些服务的。

下一个就是API调用。API调用的话，我准备过几天去玩儿吧，这个应该也是比较有趣的。它因为实在是太新了，它更新了以后，所有挂他的像什么Defi、N8N这些东西都没有更新呢，可能要等到再过一周的版本，这些产品就更新了。但我现在去调的话，通过http直接访问，应该也是可以使用的。那就是4美分一张图，4美分一张图，是这样来用的。

你说我现在想去画视频、想去生成视频，行不行？VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号，个人的Gemini账号是Pro版本的，一个月20美金的这个版本的，每天呢可以生成三条，每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来，让它给我去跳一个街舞，然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去，挺好玩的。

那你说我现在不想在Gemini Pro里头充20美金，行不行呢？可以。你像我这样有一个上大学的儿子，我就用他的大学edu的邮箱去申请了一下，我就可以使15个月的Gemini Pro，免费就可以用了。你说你没有这样的儿子，去找一下。现在我看淘宝上好像有人去做这个生意，20人民币帮你去做验证，就是EDU邮箱，去收一个邮件去验证一下，你就可以使15个月了。但是这种我估计用的人多了以后可能会被封，这个比较危险。

当前图片生成模型的格局是什么样的呢？Gemini 2.5 Flash image这个模型出来了以后，会不会打破现在这个格局呢？现在呢，基本上是四大门派。第一个门派是Midjourney，它生成的东西呢，最精细，最有艺术感，对于各种的艺术风格模拟的最像，这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强，因为它自己的推理模型非常强嘛，就是你给它很多的元素，给它非常复杂的逻辑的时候，它都可以给你画上，但是画的结果呢差强人意，也就只能如此了。OpenAI他们去做一些改图呢，也没有Gemini 2.5 Flash image好，但是呢保持一致性上做的还可以，要比Midjourney要做的好。Midjourney就属于一个纯生图模型，改图这一块一般，或者是说一致性参考这一块呢，效果都一般。第三个，Gemini呢，特别特别适合改图，它的这个生成的部分属于将就，还能看，但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲，说中国相声界的复兴是需要靠于谦和他的家人们，每次就是于谦的爸爸、于谦他老婆、于谦的什么，全靠这玩意讲的。另外一波也是这样，stable diffusion和他的家人们，比如说stable diffusion，然后包括Flex，它们的改图有一个叫Konnect的模型，k开头的，不是c开头的，有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西，或者是在这个模型基础上再训练，再改出来的东西。国内呢，包括可灵、豆包、千问，他们的这些图片模型呢，应该都是在这个基础上去做出来的，都是一脉相承的。他们也在卷改图，但是比这个Gemini 2.5 Flash image来说，就差的非常非常远了。

Gemini的2.5 Flash image的成功，给中国的大模型公司带来什么启示没有？这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候，一切能力就都会上升。所以大家其实卷的是最底层的这个模型，而最底层的这个模型，你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了，说我现在用很少的算力卡就可以把这种模型训练出来，然后去追赶美国，这个事有些难度。所以国内的模型在这一块上，底层推理模型上，能力还是需要去追赶的。

而国内各个大模型公司呢，他们的图片模型、图形模型和推理模型一般是分开发展的，还没有真正发展到说我们要把它结合在一起。你像豆包，豆包的推理模型是推理模型，图片模型是单独的另外一个模型，它两边一点关系没有。所以这一块呢，还是需要改变的。千问也是这样的，千问呢有专门的千问的image模型，也有千问image Edit模型。我昨前两天还在玩千问image Edit，效果也还行吧，但是你要跟这个Gemini 2.5 Flash image比，这事就没法比了。但是呢，都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型，然后呢他们有一个叫IMAGEN这样的一个模型，现在已经发展到4.0了，这个模型可能用的人也不是很多，所以就直接开始转型了，把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活，它最早的那个图片生成模型叫达利，DALL·E，达利2、达利3，达利3完了以后再往后就没了，再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话，就要把这些专门的图像模型扔掉，要把这些生图的功能跟大的推理模型，或者叫基座推理模型，要捆绑在一起，才有可能进一步的提升。

现在呢，当推理能力上升的时候，完全可以使用agent的模式，极大的提升绘图跟改图的能力。刚才我讲改图，实际上是做视觉推理。你把这个图理解的很清楚了，说我到底要画什么，哪一块是动的，哪一块是不动的，你把这个东西搞明白了以后，他才可以去调用这些生图的模型，把每一个小块生成好，然后再拼在一起。像loveart这些设计师的AI agent呢，其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看，我觉得loveart这种设计师的AI agent就稍微悬了，又被覆盖了。

好，讲到这里，大家也觉得比较无聊了，赶快都去玩起来，这个东西非常非常的好玩。老范以后再看到有类似的事情，再跟大家慢慢的分享，给大家带来乐趣才是我的核心目的。

好，这个故事今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

深度揭秘Grok-2开源：马斯克藏不住的“中国芯”？SGLANG与Deepseek的秘密关系。

Luke Fan — Wed, 27 Aug 2025 00:53:02 +0000

马斯克终于开源了他的Grok-2。虽迟但到，这背后隐藏着哪些不为人知的秘密呢？

大家好，欢迎收听老范讲故事的YouTube频道。

马斯克最终还是开源了他的Grok-2。原来我们还嘲笑过他，Grok-1开源完了，往那一扔就再也不管它了，有任何人提问题，你也不说什么。Grok 4都出来了，现在Grok 2都没开源出来。马斯克说：“那我们下周开源。”当时是这么讲的。然而下周完了以后，好像还是又等了那么一段时间，稍微晚了这么几天吧，Grok 2最终还是开源出来了。而且承诺呢，6个月之内，或者说在年底之前吧，有可能会去开源Grok 3。但是马斯克的话嘛，大家相信，就是他说了的事会做，但是未必按时间做。

马斯克的开源呢，只能算是符合非常广义的开源。这话什么意思呢？开源也是分原教旨主义者的，他们是肯定不会认可马斯克在开源的。第一个，马斯克不是当时发布产品马上开源，而是要过一段时间，甚至是过了一年多才去开源。而且现在他开源出来的这个版本，远远落后于当前主流模型。当然Grok 2呢也不算特别落后，它在当时刚推出的时候，应该是跟GPT-4不相上下的一个水平，但是跟后边4O，以及后边O1、O2这些东西就没法比了。跟当前的主流模型，像什么GPT-5、Grok-4、Claude 4或者是Gemini 2.5这些，它是比不过的。

而且呢，马斯克开源出来的这个大模型，对于部署是非常不友好的。你要想去把它的大模型下载下来，把它部署到自己的服务器上去，这个是非常非常痛苦的。这个大小是500G，需要在Huggingface上做断点续传。Huggingface是大模型领域里边的开源仓库嘛，你需要把这500G的文件从那上头慢慢往下传下来，错了没关系，继续再来几次。他专门给大家写了这样的一个话。

而且运行的时候呢，需要8张40G以上显存的显卡才能跑起来。8张40G以上显存的显卡什么意思呢？在国内合法可以跑的这个显卡是H800、H20、RTX 6000。你说我拿5090D跑行不行？这是为中国专门量身定做的5090，跑不起来。5090D呢是24G显存，把这个D去了，也就是国际上正常的5090是32G显存，也跑着费劲。而且呢，5090跟前面我们讲的H20比，有一个巨大的差异是什么？它没有Nvlink，卡跟卡之间的通信是很慢的。而H20这种专门的算力卡，里边是有Nvlink的，八块卡搁在一起，它还可以快速的跑起来。

当然了，Grok 2呢不是特别不友好，你像在那个当时还有一个跟Grok 2前后脚发布的产品，叫Deepseek V2，那个版本当时开源出来的时候是需要8张80G的显存的显卡才可以跑起来。这个Grok 2只需要8张40G显存的显卡就可以跑起来了。为什么会有这样的差距呢？原因很简单，当时的Deepseek V2是FP16的，而现在的Grok 2的话是FP8的，所以它会要更加的省显存一点点。

现在开源出来的呢叫Grok 2.5，并不是真正的Grok 2。它必须使用叫SGLANG的这样的一个系统来去部署。这个里边呢就会有很多故事了。大家注意，Grok 1并没有这样的要求，Grok 1使用的是Jax系统部署的。Jax是谷歌的系统。咱们待会就围绕这个SGLANG，来讲一讲它这个故事到底在哪。

马斯克的开源跟其他人开源不一样，就是他把东西开出来以后，基本上就不闻不问了。你其他人开源出来以后，你去提意见，说我哪遇到问题了，开源出来的这些公司还是要去修修补补的，调整一些东西的。马斯克就甭管是它前面的Twitter的推荐算法，还是Grok 1开源出来以后，就再也没人说这事了。你提任何事情，他都不理你，也不会做任何更新，就是这样的一种开源。

而且呢，它的开源参数呢也没有完全公开。你像Deepseek这些，都是直接告诉你我有多少参数，如何去部署，怎么去用这个东西，甚至连论文什么一块扔出来。马斯克就是我把东西扔这了，你们自己谁爱用谁用去。现在呢，大家只能通过下载的模型去猜测，它呢应该是一个269B的模型，是一个挺大的模型。

license呢也是严苛的，商务社区版本的license。所有的开源项目，你都是要有开源license，就是我拿这开源项目以后，什么事许干，什么事不许干。它这个Grok 2是不允许商用的。你就算是把它放在自己的产品里用，你说我不商用，没有达到大规模使用的这个程度，你也要在里边写上“powered by XAI”，这个都是要注明的。一旦超过了它一个使用限制以后，这个事就没法整了。Grok 1是阿帕奇2.0的license，还是一个完全开源的产品，但是到Grok 2就不是了，就已经变成了这种商业许可的产品了。

国际上面是有这种商业许可限制的大模型呢，像Llama其实是有限制的，那个也是有规定的，就是你用户量达到多少以上，你就不可以再去使用了。你拿去做一些研究是OK的，但是呢你不可以拿Llama再去训练新的模型。但是这个东西呢，说也是叫防君子不防小人吧，Llama 1开源，全中国的这些开源大模型就如雨后春笋一样夸夸就出来了。所以你去写说不允许训练其他模型，不允许去优化自己产品，不允许去商业使用这些事，反正你说着开心就好了。Grok 2呢也是这样的一份协议，大家说着开心就好了。但是差异在哪呢？就是Llama当时发布的时候是当时最领先的模型，大家会去照着去学习；但是Grok 2发布的时候就已经是去年的模型了，反正你算是开过源了吧，也就如此了。国内的模型呢，像Deepseek、千问这些，基本上都是MIT或者是阿帕奇的这种license，就是你可以拿去使，可以商用，可以自己去修改，拿它去干嘛我就不管了。所以跟他们还是有很大区别的。

咱们后边讲这个SGLANG到底是一个什么样的系统呢？它的名字是一个缩写，叫结构化生成语言。S是structure，G是general，LANG是这个language，它大概是这么三个单词拼在一起了。它的开发者呢，两个主要开发者，一个叫郑连敏，一个叫尹良生，听着像中国人吧？郑连敏呢是上海交大的本科，UC伯克利的博士，他现在就是Xai的工程师，在Xai里头主要就负责SGLANG这个版本的继续推进。明年7月份呢，会加入到UCLA任助理教授，现在UCLA的官网上已经把他的名字写上了。像美国的这些大厂里边的科学家，或者是这种大工程师呢，都会有这种两边来回流动的一个过程，去上两学期课，然后呢回来做一段时间的研究，很多的美国这些大厂的顶尖科学家是这么工作的。另外一个呢叫尹良生，尹良生呢是上海交大的本科，2025年从上海交大毕业，就是今年毕业，已经拿到了UC伯克利的博士生入学许可，准备到那儿接着去读博士了。

他们两个人写的这套系统。那你说老范，你是不是要讲中国人好厉害？比大家想象的可能还要再稍微厉害那么一点点。本身XAI里边这个中国人的比例就非常非常高，咱们这讲的是中国人，不是广泛的意义上的华人，就是从国内去的这帮人，比如清华、北大或者上海交大这些地方学完了去的，他们可能在美国读的博士，然后就在XAI里边去上班了。

但是这个项目还不太一样，咱们去稍微捋一捋这个SGLANG的一个发展历程。他是2023年12月12号发表的SGLANG的论文，当时呢郑连敏应该是在UC伯克利读博士，而尹良生应该是在上海交大还在上本科，他们两个人呢联合署名做了这样的一篇论文。到2024年5月份，Deepseek V2发布，236B的一个大模型，每次激活21B的参数。他们呢就说我们要去升级我们的版本，大概是到9月份，这个SGLANG就升级好了，专门对Deepseek进行了优化。SGLANG是Deepseek最优化的一个运行平台，你在其他平台上跑这个Deepseek都没有在SGLANG上跑得快。到2024年的8月份，Grok-2发布了，269B，每次激活115B。这个时候呢，郑连敏应该已经从UC伯克利博士毕业了，已经到了XAI去上班去了。2024年的12月份，SGLANG继续升级，这个升级是为了支持Deepseek V3的。Deepseek V3呢是2024年12月份发布的671B的一个大模型，包括后边我们讲的Deepseek R1，都是在Deepseek V3的基础上进行训练的。Deepseek最近刚出的V3.1还是671B，所以呢这都是一个系列的模型。2024年12月份还发生了一个什么事呢？grok V3发布。

大家按这个线去捋，你就基本上可以发现，Grok 1做的时候，马斯克还是满眼抓瞎的时候，不知道该怎么弄，拿着这个JAX就开干了。另外一个拿JAX开干的是谁？是苹果。苹果那个时候也是举着JAX就开干了，最后呢做出来的一个产品，但是效果一般。这个时候Deepseek大量的这种MOE模型的开源的东西就出来了，包括后面的论文什么就都出来了。上海交大这两位同学吧，他就开始去写这个SGLANG，专门针对这种MOE的模型进行优化。马斯克觉得这条路不错，那咱就干脆把这个团队招到我这来，你给我去好好维护这个SGLANG的版本，我们也在这个基础上，去训练我们的模型。

你说这个里头有抄袭没有？还是说有借鉴？我觉得说借鉴还是比较合理的。因为你去做新的研究的时候，你总要看论文吧？梁文峰写了那么多论文，你也得看。看完了以后，你说我受这个影响了，照这个方向去往前发展，这个本身没有任何问题。咱们不要老觉得说不是原创就怎么怎么样，别老想着这事。

所以从这看呢，Grok跟Deepseek还是很有缘分的。Grok 2跟Deepseek V2、V2.5，它们之间其实是有非常相近的地方。再到Grok 3跟Deepseek V3，也是有很多相近的地方了，有相互借鉴的地方。可能更多的是Grok去借鉴Deepseek，因为Grok每次出新版本的时候，它不开源也不开放出来，他要过一年以后才开放；而Deepseek每次拿出点什么东西，马上都开放了。所以这个到底谁去借鉴谁，大家自己心里去想。

其实呢，这就是开源生态的一种发展方式。很多人在讲什么“美国人一开源，中国人就自主研发、自主知识产权了”，这可不是这么回事的。开源了，我们就可以在开源协议的允许范围内去使用这些代码，甚至是去修改这些代码，再发行这些代码。他只要是协议允许你干这个事，你就可以去干。我干完了以后，我去注明了，说我是用了人家的代码，我把它写清楚就完事了。就算是前面翻车那盘古大模型，上头也写了“我用了别人东西”。但是中国人有时候没法接受这事，你说你都叫盘古了，你好意思你用别人的吗？前两天华为云内部的架构大调整，把整个的盘古这个团队全开掉了，以后这个丢人现眼的东西咱不弄了。前边别人说盘古去抄袭了，华为还在那义正词严的在那辟谣呢，辟完谣以后沉寂了俩月，直接把团队给开了。你说这玩意叫啥事？

我觉得我们应该很好的去接受这种开源生态，而不是说我一定要原创，我从来没有抄过，我从来没有用过别人，这个是相对来说比较狭隘的。你像Deepseek发了论文，公开了参数，SGLANG呢肯定是以这些公开信息为基础进行了优化。Xai呢也在这个过程中呢转型，在SGLANG基础上用同样的系统进行优化。大家走的路呢又不是完全一样，Deepseek还是要更多的考虑到算力紧张，没有NVlink的情况下，这个性能到底怎么样，到底怎么把它跑起来。Grok那就是土豪家的败家子，有的是卡，最新最好的卡，而且还有工程师爸爸负责部署和实施。他还跟微软、Oracle这些公司不一样，那些公司还需要外包，找别人去给部署。那马斯克干这玩意，肯定是没有任何问题的，因为他从特斯拉的时候就开始部署这种超算的集群，非常非常有经验。所以他可以把最好的卡、最新的卡拎回来进行部署，而且量大管饱。现在马斯克已经说，我们注册一公司叫“巨硬”，准备买上百万块的显卡，接着往前走。

马斯克算迎头赶上了，用Deepseek没有的资源，直接暴力推进。我们前面在讲Deepseek的时候就已经讲过了，马斯克肯定会照着往前冲的。苹果啥也没干，其实苹果在做大模型这块跟XAI是同时起步的，都是从JAX这开始起步的，但是苹果最后啥也没出来，马斯克这边都做出来了。梅塔呢还在老路上面去蹉跎前行，未来到底怎么走还不知道。所以呢，别人都开源了，谁你抄的好、抄的不好，或者在这个基础上到底能不能做出新东西来？我相信Grok还是创新的，我并不是说我就指责了，说“Grok你就是抄Deepseek”，没有说这话。还是得看谁可以把这个工程往前推的更远，这个才是本事。

国内的模型厂商的话，你说他们没有借鉴Deepseek吗？肯定借鉴了。他们只是说太多东西要抄了，到底抄谁的呀？这个是真正国内厂商要去头疼的事情。大家发现了，Deepseek V2的版本其实并没有那么热，到V2.5开始这个热度一下就上来了。就是从Deepseek V2.5开始，很多的国内厂商就开始转型，说我们是不是去看一看，像百度什么，他们就已经开始转型了。等到Deepseek V3出来的时候，其实就已经很热很热了。当然对于整个的行业来说，或者说对于社会来说，圈外的人真正知道Deepseek是从Deepseek R1，就是从今年1月份才开始知道这个事儿。但是从去年12月份的Deepseek V3开始，在这个程序员圈里头，在这个行业内呢，大家就已经普遍认知了，这就是一个当前最好的框架了。所以当时很多的团队就都已经都转过来了。现在Kimi k2、mini Max M1、百度的这个4.5、智谱的4.5，其实都是按照一个模式做出来的。但你说它们都是抄袭的，我觉得大家不要想这个事。大家呢都在同样的看论文，都在一个可能同学圈或者是朋友圈里边去，大家一块可能平时喝个咖啡、聊个天什么的，他是这样的一个环境。

国内大模型厂商也是相互借鉴。你看谷歌、微软，他们肯定也会去读论文，他们去做新的研究、去做新的产品的时候，“这Deepseek写的，中国人写的，我不看”，他们也不会这样的，没有那么狭隘。

今天我其实主要跟大家讲的是这样：开源才是未来的一个方向。不要上来说你抄袭，不尊重原创，这太狭隘了。咱们最后总结一下：开源是当今世界比较先进的全球化、松散协作方式。大家注意我刚才讲的这些定语：全球化、松散协作。开源呢推动了互联网、移动互联网和今天的大模型的整个产业的升级。Deepseek呢在里头起到了巨大的推动作用，包括咱们今天讲的SGLANG，都是在开源大潮里边起到了巨大的作用。

马斯克的Grok开源呢，基本上没有为社区贡献太多的东西，毕竟是去年4月份的东西嘛，还是稍微差一些的。马斯克喊开源呢，主要还是为了要吸引眼球。第一方面呢是恶心OpenAI。当然OpenAI现在人家也开源了，把GPT OSS拿出来了。但GPT OSS要比现在开源的Grok 2要强非常非常多，因为GPT OSS是大家可以用的一个产品，不是像Grok 2这样的，没有人会去用它。为什么没有人用？因为部署起来成本非常高，还是一个旧模型。我花了这么多成本，我去部署Deepseek V3.1不行吗？所以他就不想让别人用，也不想让任何人占他便宜。

马斯克现在想干的活呢，就是让更多的人去用他的Grok服务。而且呢也希望在未来呢，让更多的人呢去用他的这个巨硬的产品。那你说巨硬到底做什么的？前面他专门申请了一个商标叫巨硬，就专门为了恶心微软的，“你叫微软我叫巨硬”。一开始以为马斯克就是开个玩笑，或者说出来嘲讽一下比尔盖茨，没想着他真在里头干活。现在说了，我们这巨硬公司是真的要干活了，而且呢干这方向呢，也是大家熟悉的方向，他要做manos，就是做agent。说以后你微软的这些产品，我通通都拿各种各样的AI agent给你覆盖掉。你做了office，我就给你做个AI agent，跟他说你给我写一PPT或者给我写一什么东西，他吭哧吭哧给我写好了，我就不需要那么复杂的叫做office这些东西了。他是搞了这么一套东西出来。

大模型在不断创造内容的过程中呢，其实也在不断的污染大模型被发明之后的语言环境。所以呢，中国的创业公司跟开发者，也在不断的创造新的技术，创造新的内容。在这个过程中，再通过开发者社区或者通过开源社区，不断的将这些新的思想拿出来，去影响全球的科技发展，为全球科技发展添砖加瓦。不要想着说脱钩断链，说我们不要中国人的思考，我们不要中国人的技术，这个玩意是有毒，这个世界不是这么发展的。

咱们今天通过Grok 2的这个发布，通过Grok 2使用的SGLANG的这个平台的一个历程，你就会看到在这个过程中的话，你需要上海交大的学生来去给你写这些系统，你也需要去借鉴Deepseek的论文、借鉴他的一些思路去训练自己的模型。而且这个节奏是一模一样的，这边出Deepseek V2，那边过几个月出这个Grok 2；然后那边出Deepseek V3，你同一个月出Grok 3。这个就是同样的节奏，一模一样的往前走。所以这是一个进步的过程，别老想着谁抄谁的事。

好，今天这故事讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

AI会有意识吗？微软AI负责人紧急警告：警惕“看起来有意识的AI”，背后全是商业利益！

Luke Fan — Tue, 26 Aug 2025 01:12:39 +0000

微软AI负责人提出，要警惕看起来好像有意识的AI。AI真的会有意识吗？

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，微软AI负责人的官方博客。

微软呢，有一位执行副总裁兼微软AI CEO，他的名字呢叫穆斯塔法·萨勒曼。这个名字听起来稍微有点怪，待会咱们再去介绍他具体是谁。他呢，直接向微软CEO萨提亚·纳德拉汇报。8月19号，这位穆斯塔法·萨勒曼在微软官方博客上发文说：“我们必须为人构建AI，而不是构建一个人。”是这样的一个标题。

博客的内容总结一下吧。首先呢，提了一个概念叫SCAI，叫“看起来有意识的AI”，就是这个东西并没有意识。而且他也否认AI可以产生意识，说从现在的很多证据都可以证明，AI以后也是不会产生意识的。但是呢，它看起来好像有意识一样。

现在呢，提出了一些问题：
第一个，人们无法分清AI是工具还是有意识的。
第二呢，是人在跟AI交互的过程中产生了依恋，并且出现了自杀的现象。
第三，有人开始主张给AI立法，确立AI权限了。就是你不可以侵害小动物，你不可以歧视其他种族，你也不可以去侵害AI的权利。可是我们要去警惕这个事情。

他呢，对AI的愿景和定义是什么呢？大家注意，他是微软AI的CEO和负责人，所以呢，他这个观点是代表微软的。他说AI应该是帮助人，实现人的愿景和利益的工具，就像是Copilot那样。微软给它的产品起的名字叫“副驾驶”，你始终不能跑到这边来替人开车来。而且它要求AI不能够诱导人们认为它自己有意识。他首先不承认AI有意识，还有他就是认为，所有诱导人们相信AI有意识的都是有问题的。我相信他这里指的应该是Grok，因为Grok里边还有俊男美女的3D形象，诱导大家相信他是有意识的。

那么到底什么叫有意识？他对“意识”这件事情呢，也进行了一个定义。它的定义呢是这样三个部分：
第一部分叫主观感受，“我觉得是什么什么样”。
第二个部分是什么呢？叫做记忆存取。就是我现在记住了一些事情，然后把它存下来，下一次我可以取出来再用。“我上次干什么来着？我为什么会有这样的感受？”是因为我曾经记住过什么事情。
第三个呢，是主观感受与记忆存取相结合以后，形成的一个完整的意识流。
说这三样东西结合在一起就是意识了。

对意识的界定本身很困难。到目前为止，人其实也没有办法去完整界定，到什么样的东西就算有意识，到什么样的状态就叫没有意识。但是呢，人类的很多法律也好，很多的道德也好，都是以意识为标准的。我们要去善待每一个有意识的主体，包括动物。而且呢，人其实没有办法去确定别人有没有意识。因为刚才他自己文章里也讲了，说意识这个东西呢，是由个人的主观感受与记忆存取形成的一个完整意识流。

既然没有办法去确定别人有没有意识，那人呢就会发展出另外一个技能，什么呢？就是轻易相信别人有。因为轻易相信别人没有意识的这些人，很多都被社会淘汰掉了。那么他相信别人有，而且呢，这种思维惯性吧，很容易的就被泛化了。说我们可以轻易地相信猫猫狗狗有意识，我们可以轻易地相信汽车有意识，我们可以轻易地相信大地、季节呀、风雨什么这些东西都是有意识的。但是我们又没办法去判定意识到底是什么。在这样的情况下，认为AI有意识这件事呢，就变得更加的容易，或者说这个界限就变得更加模糊了。

这位穆斯塔法·萨勒曼呢，他认为开发SCAI呢是不可避免的，就是大家一定会去开发这个东西。SCAI不可能自己诞生，必须有人有意识的去开发，这是他提出一个论点。说大家不要一拍脑袋，就认为AI可以自己提出问题，自己解决问题，自己学习自己进化，然后自己就突然哪一天就涌现了意识出来。这个事是不可能的，必须要有人去有意识的去开发这种SCAI。以现有的技术呢，开发这种东西其实并不复杂。就是你要有记忆，下一次再去跟他沟通的过程中，把这个记忆的内容以人格化的方式去体现出来，那其他的人就会很容易的相信他有人格了，或者有意识了。他是这样的一个过程。

那么应该如何避免SCAI呢？他说呢，我们应该建立规范和共识，要去设立一套规矩，确保AI伴侣以积极、可靠的方式融入人类生活，鼓励人与人的互动，强化人与物理以及社会世界的连接，最大化实用性，最小化类意识信号。这是他提出的一个核心观点。

那么怎么去最小化类意识信号呢？就是不要告诉大家我有意识。但也不是说每次上来说“我是AI，我不是人，我这个没有意识的”，每次跟人去聊天的时候反复强调这件事呢感觉也很怪。所以他提出了一些要求是什么呢？就是AI不应该声称自己拥有经历、感受和情感，不应模拟羞耻、罪恶、嫉妒或竞争等欲望，更不应该宣称痛苦或者渴望来激发人的共情机制。就是你说“我觉得怎么样”、“我以前经历过什么样的事情”、“我喜欢这个，不喜欢那个”、“你要给我关机了，我会觉得很困惑”，AI就不要去强调这个事情，你就可以尽量避免人类觉得你有意识。这就是他的整个博客，我们总结的一个结果。

那么回过来，穆斯塔法·萨勒曼到底是谁呢？这一个名字，一听就是一个中东地区的名字。他呢，是一个英国人。父亲呢是叙利亚人，是一位出租车司机；母亲呢是一个英国人，是个护士。这真的是来自于平民的一位天才。牛津大学就读于哲学与神学专业，但是呢，19岁就退学了。首先我们看看他是学哲学跟神学的，所以提出上面这个意识相关的问题，也不是什么特别奇怪的事情。而且这还是一位辍学创业的天才，就像比尔·盖茨和扎克伯格一样的这样的天才。

他的宗教信仰是什么呢？他的早期宗教信仰是穆斯林。虽然穆斯林一直宣称是一旦入教，终身不得退教，因为它没有退教的仪式，你只要是有一次加入穆斯林，这辈子你都是穆斯林。但是呢，这位穆斯塔法·萨勒曼呢，到后来宣称说我退教了，我现在是无神论者。

他的主要经历是什么呢？他创建了Deepmind，他是Deepmind的联合创始人之一。后来呢，Deepmind被谷歌收购了。所以我们现在看到Gemini，看到很多谷歌的产品，都是从英国的Deepmind跟谷歌的自己的一些实验室联合作出来的。现甚至现在的谷歌AI这一块，有很多的领导者都是从Deepmind来的。

这位穆斯塔法·萨勒曼在谷歌工作了一段时间之后呢，从谷歌离职出去，创建了一个叫PI.AI的公司。这个PI呢叫personal intelligence，叫“个人智能”这样的一个名字，是一个类似于Character AI的情感化AI聊天助手。所以他自己就干这玩意出身的，他做的东西就是模拟有意识的这个AI聊天助手。

在2024年3月份，他的公司呢，被微软进行了HR并购。所谓的HR并购，就是他只要了其中一些核心人员，其他的团队包括产品、用户都在外面，并没有收进来。所以2024年3月份呢，是微软以6.5亿美金，将包括穆斯塔法·萨勒曼在内的所有核心人员收归旗下。剩下的PI.AI呢依然在运营，只是最近一段时间，这个产品已经没有什么声音了。

最近一段时间，美国这些大厂应对AI项目估值虚高的一种操作方式，就是你估值实在太高了，我是整个买下来我买不起，然后继续往前走，你又走不下去了，那怎么办呢？咱们就想一个折中的方法，我花一些钱把这个核心团队弄回来，让原来的投资人呢，也可以有一些小的回报，但是你不能说我按照估值彻底让你把这个钱收回来，这事也不行。像最近传出来的Character AI的收购方式，就是谷歌也是这样，出了点钱，把这个Character AI的一些联合创始人送回谷歌去上班去了。Winserf的这个收购也是这样，谷歌花了一笔钱，把Winserf的一些核心团队拎到谷歌去上班了，剩下的壳不要了。现在都是用这样的方式去进行收购的。所以穆斯塔法·萨勒曼也经历了一次这样的收购，收购之后呢，就担任微软AI的CEO。这就是穆斯塔法·萨勒曼的一个履历。

那么微软为什么会在这个时候发这样的声音出来？首先我们要搞清楚一点，这个声音到底是穆斯塔法·萨勒曼自己发的，还是微软发出来的？穆斯塔法·萨勒曼肯定是在代表微软发声。为什么？因为他是微软AI产品线的CEO，他负责Microsoft Copilot产品线，包括office Copilot、包括Web Copilot、包括Windows Copilot，这都是归他管的。然后Bing搜索引擎、edge浏览器、MSN和Groupme聊天产品线都是归他管的。他的KPI是什么呢？他的KPI就是微软AI产品的渗透率、活跃度以及微软AI产品所能够创造的营收和利润，这是主要对他的考核。微软云挣了多少钱，这事跟他没关系，他就管这些客户端产品的。

微软产品的收益呢，跟它的投入极其的不匹配。你想微软在整个这一次AI浪潮里，那投入多大呀？它是作为OpenAI的真的是亲生父亲，不要说马斯克当时创建了OpenAI，OpenAI真正的大钱都是微软给的。微软是作为OpenAI最大的股东，一手拉扯大的孩子。那在这样的一个情况下，Copilot的活跃数据和它的收益跟ChatGPT根本没法比，连ChatGPT的一个零头都没有。Copilot你想，它有Windows这么大的用户基本盘的情况下，它才只有几千万的活跃，而ChatGPT有1亿多的活跃，快2亿活跃了。所以这个事完全不平衡。对于管理这样的一个产品线的穆斯塔法·萨勒曼来说，你想这玩意压力有多大。

那么在老家伙打不过年轻人的时候，通常是怎么表现的呢？微软肯定是个老家伙，OpenAI是个年轻人。咱们还记得马保国在闪电五连鞭不好使的时候是怎么说的吗？他说的是“年轻人不讲武德”。所以呢，现在微软也是以穆斯塔法·萨勒曼的这样的一个身份出来发声，说你们这些年轻人不讲武德，这活不能这么干，你们不能出去骗人说这个东西有意识了，你要像微软Copilot这样，就是好好的做一个工具，不能上来去做这个说“我是人了”，这事是不行的。

微软呢，花了最大的钱，承担了最大的风险之后，发现养大了的儿子想要单飞。现在基本上已经明确了，OpenAI很难被微软控制，他就是会去单飞。微软就只能出来说：“哎，我们制定一些规则吧。”或者说微软要出来强调一下，我是有规则制定权的，你不能把我踢开。这是他要去干的事情。

微软呢，在互联网和移动互联网时代经过了两次努力，都希望站回舞台中央，但是呢，都失败了。大家要注意，微软是一个软件时代的这种站在舞台中央的公司。软件时代做Windows、做office，把原来站在舞台中央上的IBM就直接挤下去了。等到互联网时代和移动互联网时代呢，他又尝试说我还得站在中间。但是这两次呢，看看微软都经历了什么。

互联网时代，微软建立了MSN space，我还用过这个产品，是一个很好用的博客网站，建立了很多强大的网站和这种互联网工具。这就是微软在向着互联网核心地带去挤的一个努力。但是最后呢，所有的博客站都被像Facebook、Twitter这样的社交媒体工具直接干掉了。写博客的成本还是很高的，你在那点个赞，这玩意成本多低？或者发140个字，这个成本多低？所以这些老东西还是不行。最后呢，只剩下MSN门户算是继续在运营，苟延残喘继续玩下去了。

在移动互联网时代呢，微软说上次这机会我没抓着，这次我得努力一下。他呢，先是做了Winphone，也是很努力的去推出了Windows手机。在iPhone和安卓出来以后，说这我也得行，把这东西出来了。出来了以后马上挂掉，然后还收购了诺基-亚。这一次的投入其实是要比互联网时代投入要大的，但是结果呢，大家其实也看到了。最终微软屈服了，把这些产品都放弃了，把office、Bingo、edge这些产品通通都迁移到了安卓跟iOS操作系统的平台上去。说我不跟大家比了，我就老老实实做我原来那些事就完事了。

所以呢，每个时代开始的时候呢，微软都是巨头。软件时代他成为巨头，互联网时代的时候他是巨头，移动互联网时代的时候他还是巨头，就他体量在这了。每次呢都砸下重金，希望站到舞台中间去，但是最后呢，发现我还在舞台边边上，但我依然是巨头。这就是微软前两次革命所占的这个位置和做的这个努力。那么AI时代呢，感觉历史又要重演了。不会被淘汰，但是呢，依然会坚守原来舞台边缘这个位置，没法站到舞台中央来。这一次舞台中央上的应该是OpenAI、Grok和谷歌这些，应该在舞台中央去好好的折腾一下，微软估计够呛。

关于SCAI，也就是“看起来有意识的AI”这件事情，我个人的看法是什么样的呢？

首先呢，是我认为SCAI这个东西已经来了，并不是像穆斯塔法·萨勒曼说的似的，未来两三年之内才会到来。我认为这东西已经到了。为什么呢？因为SCAI这个事本身没有明确标准，有些人认为现在这个就已经有意识了，有些人认为现在这个还没有意识。所以我们不能说划到一个标准，说百分之多少的人认为他有意识了，我们就认为这个事情过关了。现在已经有人为了AI去自杀了嘛，所以这些人肯定已经认为这个AI是有意识了。我记得前面我们还讲过一故事，就是在Deepseek 3.5发布之前，谷歌就有一个工程师去举报说，谷歌当时做的AI大模型是有意识的，最后被谷歌开除了。所以呢，我认为现在这个时代已经到了，你再去讨论说怎么抑制它，已经没意义了。

再往后呢，开发SCAI是不可避免的。就是有意识的开发SCAI，或者说有意识的诱导用户认为当前的AI聊天工具是有意识的，这件事情是无可避免的。为什么呢？因为开发者唯一关心的一件事情就叫做用户留存。什么叫用户留存？就是我今天来的用户，明天是不是还来？就这么简单的一个数值。那你说开发者为什么关心这个呢？你想，开发者我好不容易写了一个应用，写了一个服务，你今来了明不来了，这玩意多费劲。我本来只需要去做用户获客，我花钱买，买完了以后用户用上了，后面你就要持续的上我这来用，你才可以在我这付费，才可以给我产生利益。所以呢，开发者只关心这一件事。

那有些人说：“老范，你这是不是太武断了？你不能说你自己是做工具出身的，你就认为所有的开发者都只关心用户留存。”刚才咱们讲，那穆斯塔法·萨勒曼人家就关心人类公益，不像我似的只关心用户留存。这个我只能说，我是稍微武断了一点，但是呢，我这种武断是来自于幸存者偏差。什么意思？只有关心留存的这些人最后活下来了，那些关心其他乱七八糟事情的人都死了。看起来有人格的AI，明显的比那些看起来没有人格的AI留存要高，所以这件事不可避免，一定是要让它看起来有人格。所以Grok在里边加帅哥美女这件事情，对于Grok的留存一定是有好处的。虽然OpenAI的山姆·奥特曼出来酸说：“你看看你们在里头加了个3D人物形象，这个事跟我们想干的不符合。”穆斯塔法·萨勒曼也出来讲，我们不能让大家觉得他是有意识了。但是没用，最后大家只能屈服于用户留存。你说我不愿意屈服，只能被淘汰，没有什么别的。因为最后留下来的用户才会来决定谁的产品用户越来越多嘛。这个呢，其实也很好理解，咱们就举一个最简单的例子吧。人会长时间的盯着烛火，这个烛火在你面前跳动，在这个时候，其实人就已经开始进行意识判断了，我们认为这个烛火是有意识的。但是人是不会盯着灯泡的，现在在你面前有一灯泡，你天天盯着它看，人一般不干这事。

那么既然无法避免，就应该立法。这个我倒是同意。但是呢，并不是约束AI表现出意识来，我觉得这个事你是约束不了的。那么应该干嘛呢？应该约束AI跟AI的开发者对自己的行为负责任。你可以表现出意识来，但是呢，怎么去避免诱导自杀，或者是发现有自杀倾向的时候如何去提前发现、提前干预，这个我觉得是应该去立法做的事情。

至于说要不要保护AI权利呢？我跟这位穆斯塔法·萨勒曼正好相反，我认为应该立法保护AI权利。保护人权、保护动物权、保护有意识的AI权利，这都是同等重要的事情。其实人维持自身产完整性的一部分，就是保护其他感觉像自己的东西。这个话怎么讲？就是人保护动物、人保护人、人保护感觉有意识的AI的时候，其实是在维护自己的完整性。一旦人说我不需要再去保护其他人了，不需要再去保护其他动物了，不需要再去保护感觉好像有意识的AI了，人自己的这个人格完整性是会有缺失的。这是我个人的一个观点。

总结一下，AI必然会改变人与人之间相处的方式。SCAI在商业利益的推动下必然快速完善。AI到底是不是有意识，或者意识的判定标准，在未来一段时间里头会成为讨论的热点。虽然我不同意穆斯塔法·萨勒曼的一些观点，但是AI与意识相关的讨论还是有价值的。

好，这个故事今天就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌

Luke Fan — Sun, 24 Aug 2025 00:41:25 +0000

Deepseek V3.1发布，很多人应该都有疑问，UE8M0到底是个什么东西？这个国运级的大模型，到底有没有翻车呢？

大家好，欢迎收听老范讲故事的YouTube频道。

DeepSeek V3.1发布，为什么会墙内开花墙外香呢？大家说这东西在国外也没多火。咱们讲的墙内开花墙外香，并不是说国外火，而是在圈外火。什么意思呢？就是在真正大模型圈里，其实大家并不怎么说这个事，但是在炒股票的这帮人面前，一下就火了，国产算力芯片一把就飞了。

到底是一个什么样的情况？首先呢，Deepseek V3.1在性能上其实并没有特别显著的提升，所以一帮真正去研究大模型的人，或者去研究AI的人，只能在那尬吹，说这个好像强了一点，那个好像强了一点，但其实都并不明显。它的编程能力呢，确实应该有所上升吧，但是你说现在就可以吊打Claude Sonic 4，这个我觉得有些言过其实了。上下文现在是128K了，在Deepseek去年12月份发布的V3版本以及1月份发布的R1版本的时候呢，它的上下文都是64K的。到V30324和R10528这两个版本呢，就已经升级到128K了，所以这一次的V3.1依然是128K。工具调用上应该是真的增强了，比原来的V3增强了，也更加符合AI agent的一个需求，这个就是他的一个主要的优势。

所以为什么这东西一开始拿出来，大家没有觉得他怎么样，然后突然怎么就爆发了呢？一句话让二级市场直接就疯了。8月21号，Deepseek公众号上有一句话直接引爆A股。玩模型或者说玩AI应用的人，是不会太去看这个公众号到底写啥的，但是这些炒股的人不一样，人家天天盯着这个公众号，一个字一个字在那抠。

这句话说的是什么呢？V3.1使用了UE8M0和FP8规模的参数精度，为了适配未来的国产算力芯片。有这样的一句话在里头，那这还不赶快冲上去？而且在传播的过程中呢，FP8这个词呢，在后续的流传中就变得时隐时现了，大家不再提这个FP8了，主要都去强调这个UE8M0了。一堆人就问说这玩意到底是个啥呀？这么神奇的东西吗？甚至寒武纪就直接涨停板了。

下边呢，咱们来解释一下UE8M0到底是个啥。这个难度很大，因为我自己在数学这一块也没有多强，而且还想把它尽量地解释得通俗易懂一点，这个对于我来说是一个考验。如果我说了你没听懂的话，不是我没说好，是你自己智商有问题。咱们开个玩笑。

很多人呢，其实都搞不明白这个UE8M0是什么，但是呢都像老中医念口诀一样，上来都是这个脉怎么怎么样，应该什么君臣佐使一下，然后就开始给你开药方。念念有词以后呢，就冲进去买股票去了。

这个咱们解释一下，首先呢，用形象的三个词来跟大家解释一下什么是UE8M0。这三个词，第一个词叫“马赛克”。很多男生，特别是对于成人影片、日本成人影片有一些经验的这些男生，对于“骑兵”和“马赛克”这个词应该是能够有一些理解的。UE8M0呢，实际上就是一种马赛克格式，待会我们讲为什么。第二个呢，就是叫“九九乘法表”。在中国吧，大家从小就背，我们可以在某一些特定的计算里头超过老外。他们从小不背九九乘法表的这些人，就没有这个口算和速算的能力。我们从小背这个东西，我们就在某一些特定的运算里头会比他们先人一步。还有一个不是那么好听的词，但是更贴切，是什么？叫“裹小脚”。这个在满清时期，他们对汉族女性的一种残酷的压榨，要求大家去裹小脚，以小脚为美。UE8M0的话，就完完全全是符合这三个词的特性的。咱们下边一个一个给大家解释。

首先呢，要跟大家解释一下计算精度的演化。咱们要知道，做大模型计算，甭管是训练也好，还是后边推理也好，它最主要的一个计算叫矩阵乘法，就是把一大堆的数呢放在一个矩阵里，两个矩阵相乘，乘完了以后得到一个结果。甭管是训练也好，还是推理也好，大模型训练的90%以上的算力就在干这一件事：乘乘乘乘乘。这也是为什么他们跑到英伟达的算力芯片里面去干这个事。英伟达算力芯片非常非常多的核心，这些核心也干不了太复杂的命令，但是你让他做乘法，他还是做得很快的。所以这个东西要比咱们普通的CPU算得快很多。

矩阵乘法里头呢，就有一个问题，叫计算精度的问题。最标准的叫FP32，他们这个数是怎么表示的呢？第一位是符号，正数还是负数；后边呢，应该是8位吧，代表的是浮点；后边的几位呢，就是代表的一个精度。前边这个符号正负大家比较好理解，中间这一部分浮点数就意味什么呢？就是我可以表示最大和最小多少，这个是一个范围的表达。后边这个尾数呢，实际上是精度的表达，就是说我这个小数点后到底有多少位。当我们把这样的一个数字去进行乘的时候，肯定会得到一个结果。但是有一个问题是什么呢？咱们都是讲这大模型好大，有好多好多数据去进行运算的，那你说我要把这么多参数搬进去，在这个内存里跑来跑去，它就会变得非常非常消耗带宽。而在进行乘的时候，如果是两个很大的精度的数去进行乘的话，那它的对于算力的消耗也是非常非常可怕的。

所以大家怎么办呢？就是要降低精度。而且呢，因为大模型本身它是一个很稀疏的运算，你降低了精度以后，发现对结果的影响并不是很大嘛。现在他们用16位的，或者用一些更小的8位的，用这样的精度去计算了以后，发现好像得出来的结果跟32位的没什么太大区别，那咱们就把它降低一点呗。所以呢，大家就开始从FP32变成FP16、BF16。这里头要注意，FP呢一般都是英伟达这边去采用的一个标准，也都是一位符号，然后呢多少位浮点，多少位尾数。BF16呢是谷歌自己用的一个标准，它的浮点数要更长一些，尾数更小一点，这样的话它可以表达更大的一个数字，但是呢精度差一点，效果呢也还可以。后边呢还有FP8，FP8就是尾数更少一点，然后更多的数字去表达。后来呢，我们现在使用的大部分模型，真正去推理运算的时候，实际上都是FP8。现在的模型呢，大量的训练都是用FP16去训练的，现在也没有那么多人使用FP32去训练了。最早都是FP32训练，后来就是FP16训练，训练以后再去对这个大模型进行量化。

你说比在8再往下还有没有？还有，叫MXFP6和MXFP4。MX是什么意思呢？待会咱们再解释。FP4，咱们讲讲一下这个吧，它比较极端了。FP4是什么意思？就是它有一位符号，两位浮点和一位尾数。那你说我就一位尾数，这玩意算啥呀？我这要是0的话，那你前头这几位不就全废了吗？不是这么算的。如果你这个尾数是0，它代表什么呢？就是0、2、4、8。如果你这个尾数是1呢，它代表的是3、6和12。所以我们基本上这样看，FP4代表的数就是0、1、2、3、4、6、8、12。那你说就这几个数我乘来乘去，没有办法代表很多的东西，怎么办呢？不能说我整个大模型就这几个数就把它都表示了。所以呢，这个时候MX就起作用了。它呢，把这种很小范围的数呢，放在一个块里，这一个块呢有32个数，这一个块呢统一再进行一次浮点变化。这个浮点数变化呢，是写在另外一个叫做浮点位里头。那个浮点位呢，就是一个UE8M0的一个浮点位。UE8M0呢，意思是无符号的8位的浮点，没有尾数，就是这样的一个意思。它相当于什么呢？就是我们把4位4位的这种一块32个数，统一用一个浮点把它变化起来。MXFP4大概就是这么个意思。

哪个模型是用的这样极端的参数呢？最近公开的GPT-OSS就是用的MXFP4。而且这个里头有一点很强的是什么？OpenAI是从训练就直接使用的MXFP4，它没有经过后续量化，所以它的效果非常非常好，也极其节省内存。因为你想你一旦把精度降低了，它就可以干嘛呢？它就可以用更小的内存去存储这些数据、存储模型。然后你在进行模型运算的时候，你的显存跟你的GPU之间进行调度的内容就会变得更少，乘的时候乘得更快。

那你说在这个过程中，显卡或者说算力卡的公司干嘛使呢？他们就会想办法去优化。他写一些算法，或者说在里边做一些链路，让这些算法，比如说FP8的或者是FP16的这些数据，在我这做乘法和加法的时候让它变快一些。早期的显卡上是没有FP8的，有FP32、有FP16。什么时候开始有FP8呢？这个东西是在英伟达H100上出来的。BF16是只有谷歌TPU上才有，其他人不玩的东西。这个MXFP4呢，就是后来这个Blackwell黑井的显卡上是支持这种运算的。

在这个里头有一种比较极端的算法，就是UE8M0。就是我已经没有正负数了，全是正，我这个全是正数，里头也没有任何的这个尾数了，只有8位的指数。那么它能够代表的数是什么呢？0、2、4、8、16、32、64，它等于是这样可以上去的，可以代表很大的数字，但是呢就是完完全全没有精度了，它是属于跳跃、跳阶跳上去的。这就为什么我们讲UE8M0是马赛克。你想我有一个图片，这个图片里头呢，某一些关键部位里头就没有阶梯了，就没有很多的细节了，只剩下这种跳跃式的这种表达了，那不就变马赛克了吗？所以基本上你把它理解成一个马赛克，这个事是可以的。你说有没有这个宝马一点的？有，就是那个刚才我们讲那个FP4，它里头还有一位，它可以代表0、1、2、3、4、6、8、12，它中间还是多出一个来的，它这个码要稍微薄一点。最极端的大的厚码，就是这个UE8M0。大家可以这么去理解它。

Deepseek为UE8M0都做了些什么呢？首先呢，Deepseek并不是原生训练的UE8M0的大模型。它呢，是在英伟达的H800和H20上，使用FP16和FP8训练出来的一个模型。在训练完了以后呢，再专门针对UE8M0进行量化，把我原来这个训练完了结果的数据，按照UE8M0的这个方式重新量化、重新排一遍，然后拿出这样的一个小很多的模型出来。在这个专门为UE8M0进行优化的算力卡上，就可以跑得飞快。

UE8M0其实是有一些好处的。它好处是什么呢？马赛克虽然没有细节，但是呢它在运算的时候，内存搬运会变得非常少。你去表达同样的模型，你需要的这个数据变小了，这个是非常非常有好处的。因为咱们现在最大的瓶颈是什么？因为美国禁运，我们的算力芯片跟这些HBM芯片之间，或者说这种显存芯片之间的带宽比较低，那我们就专门优化一个这样的算法给你就可以了。但是我们要注意，就是在Deepseek发的那篇公众号里头，他写的是“我们支持UE8M0和FP8”。所以呢，现在大家去下载的Deepseek V3.1的模型里头，实际上是有两个版本的，一个版本是UE8M0的，另外一个版本是FP8的。你说我是用英伟达显卡的，我用AMD的显卡，你就用FP8的版本。你说我在国内，我要用升腾的芯片，那你可以使用UE8M0的这个版本。

为了适应UE8M0这种极限挑战，我要给你打马赛克，打完马赛克了以后你看了以后还觉得爽，这个是对于Deepseek来说非常非常高的挑战。那就需要干嘛呢？做专门的设计。他们在模型训练的时候做了专门优化，一方面呢是进行了混合精度的使用，就是有一些地方用的是比较高精度的，有些地方用的比较低精度的，他们专门做了这样的一个适配。然后呢，也在进行一些叫做累计误差检测。因为你想你把这个地方变成黑白的了，或者变成这种大马赛克了，那你这个误差就会变得很大，特别是需要进行多轮的矩阵计算以后的话，它的误差就会有累积的增加。Deepseek专门有一个设计，就是检测这个东西，如果误差达到一定阶段了以后，我会换一个方式重新来算一下，然后想办法把这个误差规避掉。它通过很多类似这样的手段呢，让这个模型在UE8M0上可以跑起来。

这里就有一个问题，就是不做特殊架构设计的大模型是不能被量化成UE8M0的。你说我现在把Llama 4拿出来，做一个UE8M0的量化行不行？做不出来。虽然大家都是在英伟达的FP16和FP8的基础上训练出来的，但是你前面没有做这些提前的准备，没有在这个架构上做特殊的设计，你是不能去做这种极端量化的。你那个打上马赛克，大家看了就没感觉了。只有Deepseek V3.1打上马赛克，还可以有一定的表达能力。

那为什么别人不用UE8M0呢？它呢，是需要专门修改训练架构，为极限情况进行纠偏的。这个过程呢，其实有点像裹小脚，你是必须从小抓起，等长大了再来的话，他就来不及了，已经长得比较大了，现在再去裹小脚裹不出来了。极大地增加训练的复杂度，而且呢也无法保证最后不翻车。有些人裹的一半说实在太疼了，算了我就放了吧。还有一些人真的是裹了一半完了，还留下一些残疾，最后发现也没有达到人家要求的效果。这个都是会发生的。九九乘法表也是一样，我们专门把一套特别高效的计算方式呢，把它背熟了，只有进行了同样训练的人，他才可以在某些特定领域里头极快速地去给出正确的答案来。刚才我们讲了马赛克、九九乘法表和裹小脚，其实最形象的呢就是裹小脚。

那么国产算力芯片跟UE8M0到底是什么关系呢？H100就开始支持FP8了，B系列呢，开始就是像什么B200这些芯片呢，开始支持MXFP4，它是向这个方向前进的。国内呢，我们是在跟随了。大部分的芯片实际上都是支持FP8的，就是按照英伟达这个路子走的，只是我们比人出的晚。H100是挺早就出来了，咱们大概是2024年、2025年新出的一些算力芯片呢，都开始支持FP8，也对FP8呢进行了一定的优化。

华为升腾芯片呢也是支持FP8的，但同时呢另辟蹊径，搞了UE8M0的这么一个算法出来。华为呢还出了一个叫MindSpore的开源框架，对华为芯片以及英伟达芯片进行全栈的AI应用，从推理到训练，所有的事情他都可以干。他做了这样的一个完整的开源框架。在这个开源框架里头呢，对于华为升腾芯片专门进行UE8M0的这种优化。你用传统的大模型推理框架，比如说PyTorch或者是TensorFlow，它是没有办法对UE8M0进行优化的。所以一旦你拿到的Deepseek V3.1是UE8M0量化版本的，你就只能去用华为的MindSpore。华为自己呢肯定用的是最好的。国内其他的芯片现在也开始兼容这个MindSpore，他们肯定出了芯片需要去兼容现在主流的这些开源框架，包括像PyTorch、TensorFlow，也要去支持MindSpore。他们也会对自己进行UE8M0的优化。比如说像寒武纪、摩尔线程，他们现在测试了UE8M0的计算的话，会比传统的FP8的方式呢效率要高很多，或者叫效率提升明显吧。这也是为什么大家都冲上去买寒武纪的股票。虽然华为是真正整套系统提出者，而且也是最大规模的部署者，但是呢它不是上市公司，炒股票的人就拿它没办法了。Deepseek自己也不是上市公司，炒股票的人拿它也没办法，那咱们就炒这个寒武纪就可以了。

国外的这些芯片像英伟达呀、AMD这些主流芯片，都没有对UE8M0进行优化。他们也可以用UE8M0版本的这个模型，但是呢可能会更慢一些，因为它还要把这些模型搬到内存里头，重新转换成FP8或者是FP16再重新计算，它有一个中间的过程就比较麻烦。但是也不用担心了，你说我现在这个是英伟达的卡，那你只需要去下载Deepseek V3.1 FP8的版本就可以去使用了。

那你说是不是国运？到底啥叫国运？只要带着国家转向都叫国运，还有另外一种可能吗？和国运级的升腾芯片进行绑定，那肯定是国运了。训练呢还是英伟达，推理呢专门为升腾进行了优化。后面呢就要进行道路之争了，中国人比较擅长，这个什么意思？千问、Kimi、MiniMax、豆包、智谱，这些开源模型都没有办法去做UE8M0的量化，因为他们在一开始训练的时候就没有考虑过我后边有可能裹小脚这个问题，所以他就没办法走这条路。你如果说也想去做UE8M0的这个量化的话，你就需要在训练的时候就调整，第一个很麻烦，第二个有极大的失败率。如果这就是未来的方向，那就真的是跟美国这边脱钩断链了，就是我们训练拿你这个东西继续训练下去，但是呢最后去量化和推理的版本就使用升腾了。确实在影响国运的走向，所以呢这个Deepseek V3.1确实是国运级产品。

未来会怎么发展呢？希望吧，股市上折腾一下就算了，大家去买买股票赚点钱，不要去真的影响未来国内大模型的走向。大家还是尽量去跟着国际主流的技术路线去走FP8的这个路线。如果你说我们要继续前进，大家可以想办法向MXFP4的方向去走，不要去走这个UE8M0的方向，这个方向就像裹小脚一样，非常非常危险的一个方向。Deepseek V3.1呢，算是做了一次尝试吧，但如果真的影响了未来国内的模型方向，不是什么好事。

这就是今天要跟大家讲的，希望大家能够听到一些自己原来不太理解的东西吧。好，这个故事就讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

1000万装机量，鸿蒙操作系统是不是跨过了生态鸿沟？别傻了！揭秘华为不敢说的3个真相。

Luke Fan — Thu, 21 Aug 2025 05:44:13 +0000

1,000万装机量，鸿蒙生态进入正态循环了？操作系统的生态建设鸿沟，就真的这么容易跨过吗？

大家好，欢迎收听老范讲故事的YouTube频道。

余承东，余大嘴，又出来讲话了。2025年7月30日，华为常务董事、终端BG董事长余承东通过微博视频，宣布了这一振奋人心的消息：鸿蒙OS 5.0的终端数量突破了1,000万。2025年8月16日播出的央视《对话》节目里头，余承东表示鸿蒙5.0的应用功能，将在2025年9月底与iOS、安卓基本拉平，鸿蒙生态进入了正向循环。大家开发鸿蒙系统的应用，直接就可以挣钱了。鸿蒙将正式成为第三操作系统，也就是iOS、安卓和鸿蒙三足鼎立了。

操作系统最困难的是什么？不是说我们做不出来的东西，想做一个操作系统其实并没有那么费劲。你说我想做的比安卓好、比iOS好，这事也没有那么难。真正的难点是什么？就是生态建设。有没有人愿意在你的操作系统上做应用？有没有人在你的操作系统上做应用能挣到钱？

是不是有了1,000万装机量，这个最难的关就跨过去了呢？华为鸿蒙真的已经迈过了这个最难的坎吗？

这个里边呢，要确定一件事情：到鸿蒙5.0，也就是外边讲的叫鸿蒙NEXT的这个系统，就已经不再是套壳安卓了。原来我们可以说它套壳安卓，现在你已经不能说人这个了，因为呢，真的需要去创建鸿蒙自己的生态了，不能再去依赖安卓生态了。

那么1,000万到底有多少呢？跟大家稍微比较一下吧。我们稍微回顾一下，乔布斯老爷子2007年发布的苹果，那一年卖了多少只苹果呢？140万。到第二年呢，2008年，1,170万，这个数就上去了。到了第三年2009年，2,050万。所以呢，苹果基本上是用了两年的时间超过千万，形成了自己的开发者生态。

安卓是什么样的呢？2008年他比苹果要晚一年，他卖了多少呢？不足100万台。到了2009年是700-800万台，也没有到1,000万台。到了2010年直接爆发了6,700万台，2011年2.08亿台。安卓是属于完全爆炸式增长的，为什么呢？因为苹果是封闭系统，安卓是开放系统，各个手机厂商都可以用安卓作为操作系统去使用，所以这个是完全不一样的这种爆发速度。但是安卓前两年也没超过1,000万。

那你按道理说，这个1,000万应该足够了呀？但是1,000万真的多吗？咱们反过来想一想，鸿蒙5.0操作系统是什么时候开始正式商用的呢？2024年Q4，他们发布了叫Pure 70还是60的这个手机，正式的推出了鸿蒙5.0的操作系统，就是彻底把安卓扔掉了，安卓应用在上跑不了了。到现在呢，三个季度了。

你说华为是不是三个季度了就卖了1,000万个手机？其他人都没使吗？只有华为自己家的吗？还真不是这样的。华为每个季度卖掉的新手机数大概是1,000多万台，所以呢，这三个多季度吧，华为应该是卖了三四千万只手机出去。在这三四千万只手机里头，只有1,000万只是鸿蒙。不是说华为这三个季度卖的所有手机都是鸿蒙5.0，他前面可能是鸿蒙4.0。鸿蒙4.0就是是鸿蒙系统跟安卓系统的一个双核系统，你里头还是可以跑安卓应用的。真正的纯血鸿蒙的系统只有1,000万，而且这个1,000万里头呢，还不算上平板和电脑，因为华为后边卖的什么电脑、什么平板都算鸿蒙5.0，这个都不算。就是光手机，华为自己卖的手机，可能也只有不到1/4是纯血鸿蒙。

这到底是什么情况？第一个呢，是只有高端机型可以安装高贵的纯血鸿蒙，低端机型是不行的。原因也很简单哈，品牌溢价嘛。你又不关心这东西到底是不是好用，智商税嘛。“我喜欢华为，我要爱国”，那我就去买嘛，买纯血鸿蒙，再贵再不好使我也要去支持。有些人有这种需求，你一定要满足他，这个没有办法。第二个呢，就是政府采购，很多的纯血鸿蒙的机器其实是被政府采购走的。第三个呢，就是对硬件的要求。这件事呢，其实有点玄学。

什么意思呢？华为自己声称呢，在同样的硬件里头，鸿蒙应该比安卓跑的更流畅，因为一些安卓的这种包袱，或者以前遗留的一些代码呢，我们现在都不需要了，我们轻装上阵了。但实际上呢，这种轻应用型的，它是更加消耗硬件的。当年刚出H5的时候，就HTML5的时候，Facebook就说这东西好，我就直接写这个玩意了，安卓手机的应用和iOS手机的应用我们都用H5来写。但是后来做了两年以后，发现实在是搞不定这个事，然后把整个版本停掉，重新回到原生应用开发上去。

这个里边的差异在什么地方呢？就是H5的应用，它实际上是在浏览器里跑的，你只需要写一个前端代码就OK了，然后需要靠浏览器来解释你的前端页面。它的功能是完整的，但是呢你需要带一个很大的浏览器的壳，所以它的运行效率是很差的，必须要消耗更多的硬件资源。最终呢搞不定，当时的手机硬件是搞不定的，所以Facebook必须退回去。而现在的华为鸿蒙呢，其实也是类似的一套系统，就是我们用方舟typescript这样的一个名字的语言，去写一个纯前端的应用，它也是需要一个类似于浏览器的这种解释器吧，然后去给你渲染出来。它其实对于硬件的消耗是很大的，所以呢这种应用想要达到相同的效果，其实是更加消耗硬件资源的。

而且华为可能还有另外一个问题是什么呢？就是它的高端机型的算力，可能比它的低端机型差。这是为什么呢？因为它的高端机型用的是它的麒麟芯片，而它的低端机型用的是高通芯片。你如果统一都升级成了鸿蒙，同样的操作系统的话，你最后可能会看出一些不太一样的效果出来，这不是华为希望别人看到的。

所以呢，1,000万这个数到底多不多？够不够跨过生态建设的坎？这件事呢，放在iOS跟安卓刚发布的时候，这个数其实是足够的。但是放在现在，这个就真的有点不够看了。你别说老范在这双标，待会咱们慢慢解释这事儿。

在解释之前呢，要稍微说一下，这里头数据有一个小小的出入。什么数据有出入呢？华为跟小米都宣布了2025年第二季度自己是中国手机出货量第一。那总得有一说谎的吧？小米是一上市公司，他要说谎的话，被告了是要赔钱的。华为不是上市公司，是不是就可以随便说假数据了？都不行，你华为也是要脸的，就算是要撒谎，也得找一个第三方机构帮他一块来撒。所以呢，出来的数据都是第三方机构的数据，都不是自己拍脑袋统计出来的。

这个出货量统计其实口径是不一样的。华为呢，使用的是IDC的统计口径。IDC公布了2025年第二季度中国智能手机出货量统计显示：华为出货量1,250万台，占市场份额18.1%，排名第一；vivo出货量1,190万台；OPPO含一加出货量1,070万台；小米出货量1,040万台；苹果出货量960万台。这个是前五名。

小米公布的就不是这个数。小米公布的是设备激活数统计，这是由BCI公布的一个统计数字。小米激活约1,141.8万台，市场份额是16.63%，位列第一；vivo 16.37%第二；OPPO 16.27%第三；华为激活数是1,108万台，16.08%；苹果是16.08%，排第五，苹果比华为稍微少那么一点点。

这两个数到底差在哪呢？IDC呢，叫国际数据公司，是一家美国公司。BCI呢，是一个北京的公司，叫北京商业咨询或者叫博创咨询。前面这个数呢，出货量就是我把这机器卖了。后边这个数呢，就是BCI统计的呢，叫激活量，就是这个机器到用户手中第一次登录、第一次激活了。所以这是两个不同的数据。通常手机厂商更喜欢引用激活量这个数，为什么呢？因为前面那个里头还包括库存，我要求把这个手机压在库房里头，你也算出货了。所以这个华为公布的数据呢，并没有那么准确。也不是说华为故意骗人吧，大家都喜欢选一个自己拍照更好看的一面去发朋友圈嘛，这个事是可以理解的。

还是回来，1,000万设备到底能不能跨过生态系统建设鸿沟呢？不同的时间点，这个答案肯定是不一样的。当一个新兴领域开创的时候，这个数据其实是足够了。像iOS刚发布的时候，2007年；安卓刚发布的时候，2008年。一群小公司和个人创业者，在这个设备数量上，足够大家赚到满意的收益，甚至呢还可以融两轮资了，就是你不但是可以融到天使，甚至都可以融到A轮了。那个时候真的是一个神话开始的时代，一个又一个的传说在江湖中流传。

但是，当一个完全成熟、内卷、甚至是萎缩的大型市场上，这样的数字压根就没法看了。现在手机市场就是这样的一个市场，非常非常成熟。iOS、安卓自己还掐呢，甭管是iOS还是安卓，全世界的手机出货量实际上是在下降的，所以这是一个内卷萎缩的市场。全世界的手机出货量上亿台，你在这样的一个情况下，你有1,000万的鸿蒙的话，那这个数就没法看了。

现在呢，要迁移的就不是小公司和个人开发者了，都是大厂了，都是像腾讯、网易都是这样的厂。而且在迁移项目的时候，需要把积累十几年的代码重新迁移，根本就不划算。迁过去以后又没有多少人在上面用，用的时候他们也不给我好好付钱，那我为什么还要派这么多人去迁移这个项目呢？这个事是非常麻烦的。腾讯在那抱怨说将微信迁移到鸿蒙就像重写了一遍一样，我跟大家讲，腾讯算是表达的非常非常含蓄了。为什么这么讲？我看重写代码要比改旧代码容易多了。

像我们这种程序员，说我现在有一个项目写了一半了，你在这个基础上稍微改一改，对不起，我才不干呢。说现在有一个新项目，你把它重写一下，但是稍微复杂一点，这个我愿意干。这都是这样的。为什么呢？因为你要去猜人家的心思，原来这东西为啥写成这样？为什么这有一坑？为什么这个能跑呢？经常有的时候，程序员想的问题不是这个东西为什么不能跑，而这东西为什么能跑。你要想这样的问题的时候，你再去改他的代码，这甭提多痛苦了。改别人的代码，就相当于是一堆的人在那玩捉迷藏，你要挨着个的去把它们都找出来，然后再说我们一起往前走，这个事是很麻烦的。很多代码，特别是跟服务器配合的代码，早就不知道当时为什么这么写了，当时遇到了什么问题，怎么解决的，你根本就不知道。现在你不光是要重写一个微信，而且是要先搞明白原来为什么这么干，然后再去往前写，这个要比重写一个新的还要麻烦。为什么你说我不能干脆重写一新的？你光是写这个微信的客户端，微信很大一块是在服务端，就是在腾讯服务器上那个程序，你不能说我把那玩意也改了，你那玩意改了，你后边iOS和这个安卓的客户端，你跟谁对接去？这个事是没法整的。

到目前为止，虽然各大厂都号称是开始支持鸿蒙了，但是鸿蒙版本上的微信、淘宝、抖音这种超级APP，功能都非常的不完整，而且使用的体验都很差。

那么，如何才能够真正的跨过这种生态鸿沟呢？一定要有赚钱效应，不能靠补贴。现在鸿蒙说我给大家发补贴，你们谁上我这来写东西，我给你们发补贴。但这种补贴，他实际上是补这种小的开发者的。你说腾讯他指望这点补贴吗？腾讯才看不上这点钱呢。而小开发者在你这上写程序，他又不挣钱，你这点补贴又养不活他，所以这个根本就没用，一定要能让人挣到钱。而这1,000万的鸿蒙设备呢，其实没有让任何人在里边挣到钱，这个才是鸿蒙没有办法跨过生态鸿沟的一个最大的麻烦。

为什么呢？最赚钱的生意在鸿蒙上都不太好使。为啥？你说我在手机上，移动互联网中国人喊了这么多年了，有这么多可以赚钱的生意，怎么在鸿蒙上就不好使了？什么生意最挣钱？游戏、短视频、电商、金融信贷，这些玩意是手机上最挣钱的生意。而所有这些东西呢，在鸿蒙手机上都不太好使。1,000万高端公务人员的用户本身确实很有钱，但是呢，他们的消费能力基本上不体现在移动互联网这一端上。他们打游戏吗？他们不打，而且鸿蒙手机本身的游戏性能也很差。你说我是一个特别痴迷于游戏的中学生，我会买得起鸿蒙吗？买不起。那你说我每天在这刷短视频没事干，你会用鸿蒙吗？你也不会的，何必买这么贵的手机去刷短视频呢？你说我每天在这看直播买东西，这也不是鸿蒙用户的一个典型使用场景。贷款这个不知道，公务人员拿着这个五六千块钱的鸿蒙手机在这玩贷款也比较难想象。我觉得鸿蒙手机里头可能比较好的变现场景是滴滴，比如打个车什么的。公务人员可能也不太打车吧，这个咱就不猜了，毕竟咱不是公务人员，不知道他们的消费习惯是什么样的。

所以呢，最挣钱的移动互联网场景在鸿蒙上基本上都不成立。iOS跟安卓的生态有什么不一样呢？iOS其实是比较挣钱的。像我们以前开发游戏的时候，我们都是什么呢？iOS赚利润，安卓赚数量。你的用户数基本上是要靠安卓来去撑起来，因为安卓手机用户量比iOS要多很多。但是呢，安卓上真的不太容易把钱挣回来，因为它的流量获取成本并不低。你别看它用户量高，但是它的流量获取是比较困难的。困难的原因是安卓用户获取的时候，它没有一个比较良好的监控系统，所以经常容易买到假量，导致呢每一个安卓用户的获取成本并不低，再加上他们变现比较费劲，所以安卓上能打平不亏钱就挺好的了。

那你说安卓这数量为什么要要呢？原因也很简单，就是有了安卓数量以后，在整个社会传播上会更有声量一些，也有助于你的iOS上挣回更多的钱。而且呢，一些正在创业的公司，拿到这个数量以后的话，更容易拿到投资。

鸿蒙呢，就正好反过来。他现在不挣钱，你说我开发了一个鸿蒙的应用，我想靠这玩意挣钱，这个基本上养不活团队。第二个呢，你说我想靠鸿蒙的用户量快速上升找人投资，也不太容易。我费这劲我还不如写安卓的呢，它还有快速上升的机会。因为刚刚我们讲了，安卓第一年不到100万，第二年六七百万，第三年直接6,700万，这个故事你能讲得通。你跟这个投资人讲，说我现在给鸿蒙写应用，三个季度时间鸿蒙设备涨到了1,000万，明年能够涨到1个亿，这故事你讲不通。因为那些安卓应用的厂商还在这竞争呢，包括华为自己都不舍得让所有的全线产品都上鸿蒙，这故事你是讲不明白的。所以不会有人说，你现在获取了几十万、几百万的鸿蒙用户，有人去愿意投资你，这个事是很难的。所以呢，给再多的补贴，想要靠正常数据和收益发展的正经开发者，也不会去选择鸿蒙的。

那到底如何能够跨过操作系统的生态鸿沟呢？咱们老说做操作系统难，到底怎么难法？赶上第一波，实在不行快速的赶上第二波，其实是有机会的。第一波是谁？第一波就是iOS嘛，2007年乔布斯赶上了第一波。第二波呢，是安卓，2008年就来了，就差一年。而且呢，在安卓上来的时候，苹果的用户也就是100多万，所以有大量的空间让大家一起往前冲。而且呢，在这样的情况下，安卓还要做一个事情是什么？差异化。iOS是封闭系统，我是开放系统，我要跟所有的手机厂商去合作，而且他没有别的可选择，他只能选择我。而且谷歌还要大力投入，前面砸好多的钱进去投这个事情，才有可能赶第二波，否则第二波很难赶上的。

而现在鸿蒙遇到的是一个什么样的？是发展了快20年、内卷萎缩的市场，还要进行同质化的竞争。而且它是相对来说比较封闭的一个操作系统。虽然鸿蒙号称自己是开放的，也欢迎各个手机厂商来去采用鸿蒙操作系统，但目前为止没有任何手机厂商去采用鸿蒙，包括华为自己的低端机型都不采用。所以鸿蒙想去跨过生态鸿沟这件事，基本上是扯淡。

当然，你说除了iOS跟安卓之外，还有没有其他的一些操作系统跨过了这种鸿沟呢？也有。是谁呢？比如说有一些叫高付费、高度差异化的小众市场，还是有机会的。这个市场是什么市场？游戏机。PS5、Xbox、Switch，这是一个相对来说小众的市场。但是要注意，游戏机里头什么叫差异化？独立第一方大作。如果你这个游戏机没有独立第一方大作的话，那这事就搞不下去。像微软现在就快搞不下去了，说我们以后Xbox的这个硬件可能就不做了，以后就好好的经营游戏，玩这个XGP就完事了，其他的游戏机我们就不卖了。这个可能也是给大家提了一个醒，必须要有差异化。

所以后面的话，大家还是期待新的机会吧。移动互联网这一块，已经没有新的操作系统机会了。鸿蒙也好，或者其他号称国产替代也好，都没机会。谷歌自己一直想替代安卓，自己也没搞定这个事。所以移动操作系统这件事，战争已经结束了，谁想在这再做出什么东西来，不可能了。你必须要有新的领域，才有可能再出新的操作系统。现在的唯一的新领域是什么呢？AI，有可能会有新操作系统出来。所以不要再去选前面这东西了，鸿蒙这个作为一个反面典型，我们每天去看看它向前发展就可以了，我们后面持续吃瓜就可以了。我不认为这种东西后边真的可以发展成一个什么第三操作系统出来。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

科技评论 – 老范讲故事｜AI、大模型与商业世界的故事

代码无法编译、数据完全隐藏，这一波操作到底是不是“假开源”？拆解Grok架构的虚与实，虽然无法直接复刻竞品，但给国内大厂指明了进化新方向｜X 马斯克 推荐算法 假开源 算法细节 分析

马斯克实现诺言，开源了X的推荐算法，这次总是真的了吧？

老范以前为什么总说马斯克是假开源？

这次到底放了些什么东西出来？

高薪调参工程师的危机

X推荐算法的具体工作流程

第一步：对人生成画像

第二步：对内容进行初筛

第三步：互动可能性计算

第四步：对权重进行整合

技术细节与代码分析

这东西可以复现吗？

怎么发帖可以提高互动？涨粉怎么赚钱？

规则之下的现状

马斯克开源的真实目的

关于偏见与监管

总结

背景图片

千问APP对决豆包，阿里会重演“来往”悲剧吗？揭秘大厂创新“起大早赶晚集”的残酷真相，内部山头林立比外部竞争更致命｜Alibaba Qwen 通义千问 AI Open Source

千问APP：阿里的绝地反击，还是又一个“来往”？

千问APP的短暂狂欢与第一印象

中美AI产品的设计差异：简洁与复杂的对决

资本市场的反应

历史重演？回顾“来往”的失败

千问APP能否突出重围？

大模型的优与劣

产品设计的挑战：做减法的艺术

真正的杀手锏：电商生态与AI Agent的结合

大厂的创新困境：起个大早，赶个晚集？

创业公司 vs. 大厂内部创业

千问APP背后的内部斗争

“粤菜”梗的真相：夸克的胜利

胜利背后埋下的新隐患

大厂创新成功的关键

总结

AI教母李飞飞万字长文戳破LLM泡沫：生成语言只是起点，无法理解真实世界才是致命伤｜空间智能 Fei-Fei Li 世界模型 人工智能 AI的下一个前沿

李飞飞的万字长文，讲述空间智能的未来

文章的结构之美：值得学习的写作范本

李飞飞文章的核心内容解读

第一部分：提出问题——大语言模型的局限性

第二部分：核心概念——什么是空间智能？

第三部分：方法论架构——世界模型的三个能力

第四部分：技术实施——如何实现空间智能？

第五部分：应用路径——空间智能能做什么？

老范的思考与评论

教授创业：理想与现实

运维、工程与科研：三个不同维度的创新

方法、专利与论文：创新的层级

空间智能是唯一方向吗？

一个历史的例子：Pascal语言 vs. C语言

李飞飞工作的真正意义

总结

人工智能+ vs 互联网+：深度解析十年发展变革，谁能开启智能经济新阶段？

马斯克硬刚微软！“巨硬”Macrohard 到底是什么？揭秘用 AI Agent 颠覆 Windows 和 Office 的疯狂计划。

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

深度揭秘Grok-2开源：马斯克藏不住的“中国芯”？SGLANG与Deepseek的秘密关系。

AI会有意识吗？微软AI负责人紧急警告：警惕“看起来有意识的AI”，背后全是商业利益！

Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌

1000万装机量，鸿蒙操作系统是不是跨过了生态鸿沟？别傻了！揭秘华为不敢说的3个真相。

代码无法编译、数据完全隐藏，这一波操作到底是不是“假开源”？拆解Grok架构的虚与实，虽然无法直接复刻竞品，但给国内大厂指明了进化新方向｜X 马斯克推荐算法假开源算法细节分析

AI教母李飞飞万字长文戳破LLM泡沫：生成语言只是起点，无法理解真实世界才是致命伤｜空间智能 Fei-Fei Li 世界模型人工智能 AI的下一个前沿