PyTorch – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI招募OpenClawd创始人：并非收购，意在争夺标准

老范讲故事 — Tue, 17 Feb 2026 00:38:17 +0000

山姆·奥特曼突然官宣 OpenClawd，创始人 Peter Steinberg加入了 OpenAI。是不是 OpenAI 收购了 OpenClawd？甚至有些人出来哀嚎说，OpenClawd 现在变成 CloseClawd 了。事情并没有大家想象的那么简单。

大家好，欢迎收听“老范讲故事”的 YouTube 频道。

OpenClawd 应该算是 2026 年年初的一个现象级产品，甚至有很多人说，这又是一次 ChatGPT 3.5 时刻了，确实是引起了整个社会的关注。这位 OpenClawd 的创始人 Peter Thielberg 就同时收到了山姆·奥特曼和扎克伯格两个人的电话，这两个人都说：“我们聊一聊吧。”

他还回顾了说，扎克伯格给他打电话的时候是这样的。突然打个电话来说：“你好，我是扎克伯格，咱们能不能约个时间聊一下？”这位老哥，因为是个退休程序员嘛，说：“我不习惯跟人家去约时间，要么就现在聊，要么就拉倒。”扎克伯格说：“你等我 10 分钟，我要写一段代码，把这段代码写完了以后我来找你。”这老哥特别感动，说这么大 CEO、Meta 的老大创始人，自己还在这写代码。写了 10 分钟代码以后打电话回来聊，说：“我真的在用，有什么样的想法，我觉得应该怎么改，哪个地方我喜欢，哪地方不喜欢。”跟他聊了半天。

当时大家就认为，OpenClawd 大概就是会被这两家中的一家所收购。但是最后其实并没有走收购这条路，而是创始人加入团队的这条路。这个到底有什么样的区别？咱们后面再去讲。

今天这故事咱们分三段来讲：第一段叫 OpenClawd 并没有被收购；第二段，大型的开源项目和大厂之间的几种合作方式，咱们要稍微掰一掰；第三段，OpenAI 为什么不直接收购 OpenClawd。

首先咱们来讲，OpenClawd 并没有被收购

OpenAI 到底出了多少钱？应该没多少钱，可能也就是几百万美金。这个对于一个像 OpenClawd 这样的、引起整个社会关注的项目来说的话，相当于是白捡了。他这个钱是怎么给的？就是我们直接把人招回来，有可能会有一个入职奖金，甚至这种奖金还是以股票的形式来发放的。就是真正出的现金应该没多少。这位 Peter Stinebrink 就成为 OpenAI 的一个员工。

那你说那 OpenClawd 怎么办？这开源项目你还做不做？这个项目会继续留在一个叫 OpenClawd 基金会的管理下，由他们来去管理，这是一个开源项目。OpenClawd 的商标、OpenClawd 的域名、里头所有的代码，依然是属于 OpenClawd 基金会的。只是它的创始人、这个最核心的贡献者，上 OpenAI 上班去了。上班了以后，他其实依然是在管理 OpenClawd 这个项目，但是他要分清楚，哪些是 OpenAI 的指令，哪些是 OpenClawd 基金会的指令。

而加入到 OpenAI 里边的，只有 Peter Stinebarger 一个人。其实现在去维护这个项目的人已经有很多了，核心的大概也有快 10 个人了，但是真正加进去的就他一个，其他人都没有加进去。而 OpenClawd 自己的话，主要是由这个基金会来运作。这个基金会需要什么？付服务器的钱，或者组织各种活动，制定各种的标准。说我们这个项目以后要向什么样的方向前进，跟谁兼容跟谁不兼容，这都是由基金会来定的。

OpenAI 原来就是 OpenClawd 基金会的一个赞助者。只是你赞助了多少钱不知道，因为你要成为他的赞助者，最少赞助 5 美元就行了，一个月 5 美元就可以。当然以 OpenAI 这样的一个体量来说，应该还是给了不少钱的。而且现在 OpenAI 已经告诉大家了，说以后 OpenClawd 就不用再担心了，你们再用服务器、再用算力、再用这些东西，我包圆了，你们就不用管了。因为原来 Peter Thielberg 也讲过，每个月还要赔进去一两万美金，因为需要付服务器成本，收到的捐款根本就不够。以后这个钱就通通归 OpenAI 来付了。

但是这点钱对于 OpenAI 来说算个什么？一个月一两万美金，这都不是什么事。当然 OpenAI 肯定还会出很多其他的钱，比如说组织各种的研讨会，组织各种线下活动，或者做各种的标准的修订，这个是 OpenAI 会去做的事情。当然 OpenAI 也不可能直接做，还是会把钱给到基金会，让基金会去做这个事情。只是坐在那领导基金会、去做所有工作的人，是从 OpenAI 领薪水的。

开源软件跟这些大厂有几种合作方式？

这里要注意，大型开源软件咱们可以去讨论这个事，那些小型开源软件其实跟这个没有特别大的关系。

第一种方式：人员加入，继续做开源社区的事情

就像这一次 Peter Steinberger 加入 OpenAI 这个事情是一样的。这个里头有一个很典型的案例，就是 Python。Python 是现在最火热的编程语言，因为现在大模型都是使用 Python 语言再去做各种的编程。那么 Python 的创始人其实很长一段时间是在谷歌上班的，后来被谷歌开了。这个很有意思，当时他从谷歌就直接被优化掉了。很多人还很奇怪，说你怎么就被优化掉了？这个兄弟后来好像又跑到微软继续去上班去了。他们这些人到公司里头只是领薪水，具体的事情还是干原来的基金会的事情，或者是干原来这种开源项目的事情。谷歌除了发薪水之外，其他啥也不管。

包括一些开源的编辑器，他们的这些创始人实际上都是谷歌在发薪水。就是这些人在谷歌有时候会也参与一些谷歌的项目，但是他的主要工作就是领了谷歌的薪水去维护自己的项目。谷歌属于确实有钱，他们也特别喜欢干这个事情。你说谷歌给他们发薪水了，到底从他们身上挣到什么？其实也没挣到什么。你说我把 Python 项目的老大搁在这，那我能不让别人使吗？谁使谁给我交钱？他也不能干这个活。或者说我把这个标准改到你离开谷歌的环境你就跑不了？他也不能干。所以除了发钱，他们啥也干不了。这是谷歌的一个比较有意思的玩法。

第二种方式：开源之后再成立基金会，控制权外移

就是一开始这个项目是公司里边的项目，做一段时间我们把它开源了，然后拿出去。这个里头最典型的一个案例叫 PyTorch，就是现在最火热的运营大模型用的这个工具。这是谁做的？是 Meta 做的。做完了以后就成立了一个基金会，说我们以后把 PyTorch 这个项目就放在这基金会里头运营了，Meta 跟它就没有特别直接的关系了。它的创始人依然在 Meta 上班，上了很多年的班，大概是在去年才从 Meta 离职。现在是加入到了叫 Thinking Machine Lab，就是那个从 OpenAI 离职的那美女 CTO，她创建那公司，加到那去了。

就这种项目，你说为什么？明明我把它做出来了，干嘛要把它交到基金会里去管理？原因也很简单，就是你要去跟其他人竞争。竞争的时候靠你一家又搞不定，你需要大家凑在一块来竞争。谁会愿意说我们出人出力去使用一个 Meta 控制的项目？没有人会愿意干这个事。那他说我们放基金会里，这东西是中立的。PyTorch 最后战胜了谷歌的 TensorFlow，成为现在最流行的、大模型支援的这种架构，就是通过这种开放的方式来搞定的。其他人你说，我们使 TensorFlow 不就完了吗？但是 TensorFlow 是完全谷歌控制的，别人就不愿意用，所以最后 PyTorch 赢了。

第三种方式：直接收购型

就是人家原来是开源的，我把它买下来，我自己来去运营这个项目。但是这种它分两种情况。

第一种：买完后闭源或限制。 我就找人收钱，或者我就想办法让他跟别人不兼容。这种就会翻车。一旦被收购了以后说：“我现在闭源了，或者我现在要收钱了，我对你进行限制了。”原来的开源项目就会进行分叉，我再做一个别的项目，跟你做同样的功能。这样的话其实最终两个项目都不会发展起来，全都做的很惨。

这个里头比较典型的案例，一个是 Sun 收购了 OpenOffice。Sun 当时收购了很多的这种开源项目，收完了以后说这东西只有我能使，别人不能使了。后来他们就去分叉了，分叉成叫 LibreOffice，但是这两个项目发展的也都不怎么样。还有一个特别典型的案例叫 MySQL，它是被 Oracle 收购了。收购完了以后说：“我们对它进行各种限制，你们以后就少用这玩意，都上我这来买 Oracle 数据库来。”他们后来也是分叉的，一个 m 开头的一个数据库的名字，跟 MySQL 完全兼容的，但是后面我觉得发展的也都不是很好吧。就是你一旦收购回来以后说我要管你了，这就翻车了。
第二种：买完后投入巨资快速迭代。 虽然要管，但是我还是开放的，你们还是可以随便用，而且我投入巨大量的经费，让整个的项目极快的迭代起来。一旦说这个项目快速迭代起来以后，大家就顾不上说你这东西到底是谁家的了，跟都跟不上了。这里头有两个典型的案例：一个叫安卓，一个叫 Chromium。都是谷歌花钱买回来的，买完了以后就投入巨大的资金，开始快速的迭代。谷歌现在这两个当家的软件，都是这么来的。现在安卓也是开源的，Chromium 这个是开源的，Chrome 是谷歌自己的产品，咱们要分清楚。

大家看到这几家，Meta 其实有点浑浑噩噩的。它其实站在了一个非常非常强的生态位上，它是 PyTorch 开始的这个公司，创始人也一直在 Meta 上班，但是 PyTorch 实际上没有给 Meta 带来任何的帮助，最后人还离职了。就是在前面把这个亚历山大·汪招回来以后，这哥们就走了。Sun 和 Oracle 就属于格局小了，我把这个开源软件买回来以后说，我要把它管起来，不许跟别人兼容了，你们通通都得上我这来交钱来，这就属于格局小了。

而这个谷歌是真正财大气粗的，他支持了非常非常多的项目。在这些项目对于谷歌本身的发展不是那么重要的时候，他就发钱，我也不管你，你就自己玩去，什么时候需要钱，你什么时候来找我要就可以了。我到时候给你发薪水，给你发各种各样的社区活动的钱。就社区里头真正花钱是底下各种的线下活动，包括各种标准制定。谷歌说我就愿意花钱养着你，你们也不用给我回报任何东西。一旦发现里头有这种跟他们的未来发展方向特别息息相关的东西，那马上冲出来，全情投入买下来，快速迭代更新。他是来走这样的一个方式的。一定要广种薄收，就是非常非常多的种子选手在那培养，有那么一两个特别核心的，砸重金进去发展，就有了谷歌的安卓和 Chromium。

OpenAI 这次肯定是赚到了，这样的一个核心产品直接被他也算是收入囊下吧。但是最终的结果还是需要时间检验的。所有跟开源相关的项目，没有说我今天花钱把它买下来，明天就有结果的，除非是像 Oracle 和 Sun 那么干活，就是我一花完钱以后，我马上就去改各种的开源协议，我就限制着别人使用，这种会马上翻车。只要不做这种杀鸡取卵的事情，它未来的效果都是需要很漫长的时间积累，叫日久见人心才能看出来。

OpenAI 为什么不直接收购 OpenClawd？

那下一个问题是，OpenAI 为什么不直接收购 OpenClawd，而是要选择这样的一种很难以控制的方式？

1. 保持中立标准

第一个最重要的原因叫保持中立标准。就跟当时 PyTorch 去战胜 TensorFlow 这个过程是一样的，我是开放的，我是中立的，任何人都可以在这个平台上去干活。比如谷歌说，我也愿意在这个平台上去干活，这个没有任何问题，它不是属于 OpenAI 的，它是属于 OpenClawd 基金会的。再加上中国的一大堆的模型厂商说，我们也愿意上去弄去，给他提供各种支持和服务，提供代码，我们也愿意给钱。这个是 OpenAI 所乐于见到的。

你要想，一旦他把它收购下来了，你后边跟不跟这些中国厂商合作？比如说像 MiniMax，比如说像 GLM 这种。GLM 专门有 OpenClawd 套餐，GLM 智谱是美国实体清单上的公司；MiniMax 现在还在被一堆的美国的电影公司在那告。那你说干还是不干？包括字节跳动也是专门提供了 OpenClawd 套餐。那你说我现在属于是 OpenAI 的一个项目了，那 OpenClawd 以后还跟不跟这些中国团队合作了？你要想跑得快的话，还是要留着这口子，你要继续跟中国团队合作。那你要收进去了以后，OpenAI 的原则是我不跟中国人做生意，特别是不能跟这种在实体清单里的公司做生意，那这事就没法整了。所以他必须要保持开放和中立这样的一个位置。

2. 架构与责任归属

第二个原因是 OpenClawd 本身的架构还有很多问题，也有很多的这种不完善的地方。你一旦把它收进来，那么所有这些问题的话，你就要承担责任。你比如说过两天谁用了 OpenClawd 说：“我这个数据丢了，我这造成什么经济损失了。”你 OpenAI 赔不赔？这个跟我没关系，它是 OpenClawd 基金会的，我们只是把人拎回来发工资了，它不用赔。这个是很重要的一点。

3. 安全性与合规风险

第三点是什么？OpenClawd 本身的安全性有待提升，而且很多的黑灰产的用户在使用 OpenClawd 做事情，就是做一些不是那么正规的事情，不是那么好的事情，或者拿出去做诈骗了，都是有的。OpenAI 肯定也是不愿意承担相应的法律责任的。你们接着该干嘛干嘛去，跟我没关系。

OpenAI 未来也并不一定会推出基于 OpenClawd 的产品。一旦说我们准备推出 OpenClawd 产品了，那他可能就会选择像谷歌处理安卓和 Chrome 那样的方式，我直接把它买下来，然后完全控制。这是 OpenAI 的一个选择。但是如果说我以后的产品形态可能是把一个类似功能的服务放到 ChatGPT 的客户端或者是 Codex 客户端里头，那就没有必要说再去跟 OpenClawd 这个东西较真了，没必要费这个劲了。他只需要说我们把这个 Peter Thielberg 拎回来说，你就给我们做这个个人代理的负责人，你来去指挥说我们以后要往哪个方向走就可以了。这不就是挺好的事情吗？

OpenAI 的实际收益

但即使如此，OpenAI 拥有了 Peter Stinebrink 之后，他依然是可以做很多事情的。比如说各种的联盟的建立，我们要去组织各种各样的这种 OpenClawd 联盟，或者 OpenClawd 的这种线下会议。现在各个地方都在开 OpenClawd 线下会，就是我们拿这东西到底干什么了。

然后主导 OpenClawd 标准。我们以后是不是只支持 OpenAI 标准的大模型？中国的所有这些开源模型都是走 OpenAI 标准接口的。在 Claude Code 火起来之前，咱们都从来不去兼容 Anthropic 接口。但是现在我们很多的模型公司都跑去兼容 Anthropic 接口去了。那么以后 OpenAI 说我要出一些什么新的标准、什么样新的接口，可能 OpenClawd 就会第一个站出来支持。其他人说我想去内卷一下，我想去比赛谁兼容最新的标准，就都会去跟着 OpenAI 的路子去走。这是 OpenAI 真正想要得到的东西。

还有一个 OpenAI 想得到的东西，他们现在在各种新闻报道里没有写，但是是必然可以得到的是什么？就是在极限的这种 AI 编程之中，Codex 要去战胜 Claude Code。原来 OpenClawd 里边大量的代码是使用 Claude Code 去写的，但是现在它的最核心的创始人 Peter Steinberg 上 OpenAI 上班去了。那你说我不能继续使用 Claude Code 吗？不行，因为把 OpenAI 员工的账号都给封了，你不能用了。所以你想以后再继续去维护 OpenClawd 代码，你就只能用 Codex 了，你就不能再去用 Claude Code 了。以后其他人说我们想继续去在这个 OpenClawd 代码库上再去做各种各样的工作的话，对不起，你们也要用 Codex。在这一点上 Codex 又胜出一局。这就是 OpenAI 为什么不去直接收购 OpenClawd，以及 OpenAI 从这一次交易里头到底能够得到什么。

最后总结一下吧

Peter Stinebrg 加入了 OpenAI，也算是尘埃落定了。他最后没有选择 Meta，而是加入了 OpenAI。这是一种更先进的开源协作方式，更有利于不同的公司之间，甚至是不同的地缘政治与法律架构之间，在统一的标准下进行协作，推进技术和推进技术的发展。

OpenAI 这一次肯定是赚大了，花了很少的钱就得到了未来的一个制定标准的机会。但是这一次交易的结果还是需要时间检验的。这种开源策略很难在短时间内看到成效。

好，这就是咱们今天讲的故事。不要再出去说 OpenAI 收购了 OpenClawd，OpenClawd 变成 CloseClawd 了，这个属于外行说的话，开源圈里内行会告诉你事不是这样的。

这个故事今天就讲到这里，感谢大家收听，请帮忙点赞、点小铃铛，参加 DISCORD 讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：in the style of Moebius (Jean Giraud), Franco-Belgian ligne claire illustration, hand-drawn ink linework with watercolor gouache textures, ultra-maximalist interior storytelling, an unoccupied high-rise family computer studio in Beijing’s bustling metropolis, modern Chinese home aesthetics with wood lattice shelving, ink-scroll accents, porcelain decor, dual-monitor desk setup, gaming console dock, retro game devices, hi-fi speakers, mechanical keyboard, headphones, layered cables and gadgets, Lunar New Year decorations in every corner with red lanterns spring couplets paper-cuts Chinese knots and festive ornaments, floor-to-ceiling window with glowing city skyline, 24mm wide environmental interior shot, eye-level, dense yet readable composition, warm tungsten ambient light mixed with subtle RGB tech glow, cozy lived-in atmosphere with strong futuristic vibe –no people, person, human, face, body, text, watermark, logo, sterile showroom, lowres blur, photoreal CGI texture –ar 16:9 –stylize 180 –chaos 8 –v 7.0 –p lh4so59

杨乐坤出走创业，Meta反成股东，这场“和平分手”背后是路线的彻底决裂：世界模型vs大语言模型，谁在赌对未来？Yann LeCun、Meta、AI、launch startup、world model

Luke Fan — Fri, 21 Nov 2025 00:40:09 +0000

杨乐坤出走Meta：一场关于战略、用人和未来的博弈

大家好，欢迎收听老范讲故事的YouTube频道。

这一天还是来了。前面我们已经猜测了很久，说杨立昆到底什么时候会离开，因为所有人都眼睁睁地看着Meta的AI战略转换方向。亚历山大·汪进入Meta，一个28岁的辍学生，在管理65岁的大学教授和图灵奖得主，这个事一定不能长久。而且前面还对杨立昆手下的FAIR部门进行了600人的裁员。

靴子落地：杨乐坤宣布离职

现在靴子终于落地了。2025年11月19日，当地时间13:20，杨立昆发了一个长文宣布离职了。在这个文章里边，他回顾了一下在Meta待了12年，感谢了小扎和一堆高管，然后准备要去做他的AMI。他这个AMI呢，叫做“高级机器智能”，说：“我在Meta期间就一直在干这件事，现在呢我准备出去了以后接着干。”而且新公司呢，Meta依然还有参与，具体的情况后续再公布。他呢，也终于可以不受Meta的限制，去研究自己的世界模型了。

杨立昆也要去做世界模型，跟李飞飞有些相近。最后咱们再说一下，他的世界模型跟李飞飞的世界模型到底有什么差别。

Meta呢，应该在这个里边还是给了钱的。你请这样的一位大神出去，而且大神在发文的时候还感谢了扎克伯格，那一定还是要给钱的。所以杨立昆未来的公司里头，Meta应该还是一位重要的股东。但是到底给了多少钱，占了多少股份，可能还要等未来Meta的官宣，现在应该公司还在注册过程中吧。

谁对谁错？一场责任的追问

我们普通人呢，真正关心的不是这些事。我们关心的是，这些大神们斗来斗去了以后，到底谁对谁错呢？

有些人讲了，扎克伯格短视了，不听老人言，找了一个年轻小伙子过来，你把这个图灵奖大学教授给放走了，这一定是要吃亏的。
还有人呢说，Alexander Wang抢班夺权，给扎克伯格进了谗言了。这是中国人比较喜闻乐见的一种论调，为什么呢？总是“清君侧，不能斩昏君”，皇上做出什么错误的决定，一定是下边人进谗言了。这个28岁学生整了这么一公司，进来以后就把老教授给挤跑了，一定是他的错误，扎克伯格只是被他一时蒙蔽了。
当然呢，也有一些人，特别是像傅盛这样的人呢，就出来说杨立昆耽误了Meta，如果没有他的话，Meta早就行了。这种呢就属于站在CEO的角度上，CEO的角度呢，通常都是不会承认自己有错的，都是下边人是坏蛋。而杨立昆呢，站在这样的一个位置上，把持了这么多的资源，又没有把这些资源真正的变成Meta能够挣钱的商业利益，那么一定是他错了。

扎克伯格的决策失误

从我个人的角度来分析，当一定要有一个人来承担责任的时候，这个人一定得是老大，也就是扎克伯格自己。扎克伯格在这件事情上到底做错了什么呢？是不是听信谗言了？是不是不听老人言了？是不是选错方向呢？还不是。扎克伯格真正做错的是决策错误。

哪样的一个决策错误？就是你去找杨立昆这样的一个人来，纽约大学的教授，图灵奖得主，算是人工智能三教父之一，这样的一个人你把他招来，这个决策没毛病。但是你招来让他干嘛？这个事就错了。你真的让他整了一个研究所，叫FAIR (Facebook AI Research)，这样的一个机构，说：“你们自己研究去吧，研究完了这些东西，你们去发论文吧，你们去开源吧，我们在后边支持你。”他去干这件事情，其实是有问题的。

如果你说你前面就下了这么一个决心，说：“你就干吧，我就不管你了，你们给我赚名声就完了。”也行。那你后边自己该去产品化的地方，该去做工程实施的时候，你要组建另外一套班组去干活去。结果呢，扎克伯格后边那一半事没办，他把前面那半截干了。最后导致什么？杨立昆他们研究出来的很多东西，在Meta里头没有办法落地，还没有办法给Meta带来实际的利益。而且呢，在各种的竞争里，他还落后了。

如何正确“使用”顶尖科学家？

这是扎克伯格犯的错误。就这种大佬请回来干嘛使？

招牌效应：人工智能三巨头我请回来一个，那三个人里头，有一个是被谷歌直接把公司收购了，收谷歌去了；另外一个呢，每天在外边吵吵，说要去做人工智能监管；杨立昆呢，被Meta收下来。首先你这个招牌是有了。
人才磁场：作为一个大学教授，你就应该是把他的学生都拎回来。谷歌也是这么干的，把一个哥们拎回来以后，就天天的拉着他的各种学生，拉着他的师兄师弟，上谷歌干活来。这个应该也是杨立昆真正能够给Meta带来的东西。

至于杨立昆真正研究的东西，其实这种大学教授真正研究的东西，对于公司来说通常是没用的。为什么？就是离变现太远了，离具体的实际使用太远了。

结果呢，Meta是前面不够果断，把杨立昆找回来了，但是你该继续投入的时候，就不够果断了。因为FAIR这个团队这么多年，这十几年可能总共花了十几亿、二十亿美金的样子。那你说这也不少钱了，老范你又这个拿钱不当钱了是吧？十几亿、二十亿你就一张嘴就来了。你看看微软花了多少钱，你看看谷歌花花了多少钱。想去跟大家竞争的、平起平坐的扎克伯格，他花的钱真的算少的。而且在这个过程中，主要还是去发论文、发开源，并没有真正的去工程落地这件事。因为工程落地，你还要花更多的钱。

所以呢，杨立昆到了Meta，让不合适的人去承担了错误的预期。你找了一个大学教授回来，你希望他把整个这一套事都干完：竖招牌、再招人、再到科学研究、工程实施和产品化。你希望他一个人把这事都干掉，这是不可能的。

正常的应该是什么？你把这位大神请回来养着他，他想干什么你让他干，他花不了太多钱。剩下的呢，你再让他的学生挑一摊，把后边真正的跟公司有关的研发做掉，把跟公司有关的工程化、产品化的事情做掉。这才是应该干的活。什么时候缺人，你就让徒子徒孙们继续上，继续进来填坑。这才是这种大神正确的用法。

新旧团队的冲突与杨乐坤的出局

所以这一次杨立昆的出走，就是扎克伯格前面在用人方面用错了。等到最后呢，扎克伯格发现我们落后了，没有达到他一开始的预期。他没有去检查自己犯了什么错误，而是大刀阔斧地开始是1亿美金、10亿美金去招人去了。他有这钱，你多给杨立昆点，没准还能做出点东西来。到后边“七嚓咔嚓”整了一大堆人进来，找了一个叫亚历山大·汪的人。

亚历山大·汪最后能干成什么样，现在去猜测还为时过早。但是呢，杨立昆这一摊，他就实在维持不住了。亚历山大·汪这帮人进来了以后呢，跟杨立昆他们之间的分工还有很多是重合的。那就怎么办？内部关系一定摆不平，就要开始抢夺资源。那一定还是要立起一个“正宫娘娘”来，其他的小三什么的，你们就先朝后站一站就完事了。那么杨立昆呢，就这样出局了。

所以这里头谁对谁错？杨立昆没错，亚历山大·汪也没错，这里头唯一犯错的就是扎克伯格。他犯错误了。

FAIR的遗产：对中国AI产业的巨大贡献

杨立昆在Meta期间做的这个FAIR，到底给世界，特别是给中国的AI产业，做出了什么样的贡献呢？巨大的贡献。没有杨立昆，就没有今天中国的AI产业，完完全全可以这么讲。

他们做了两个非常、非常重要的产品出来。

第一个叫PyTorch，现在绝大部分的AI平台都在这上面跑，这是一个开源的系统。当然了，PyTorch的负责人现在也离开了Meta，他要比杨立昆走的稍微早几天。这哥们呢，现在加入了Thinking Machine Lab，叫TML。这个公司是谁创建的呢？大家还记得OpenAI有一年闹宫变，当时有一个美女CTO，他后来离开OpenAI以后，创建的这个公司叫Thinking Machine Lab，就是这个公司。当时扎克伯格想去找人顶杨立昆的时候，在找亚历山大·汪的同时呢，也在找这个TML，说我把你收购下来吧。当时人家不同意，说我们要自己发展，不愿意被你收购。所以呢，他就把亚历山大·汪找回来填坑来了。
另外一个巨大的贡献就是Llama大模型，开源的Llama大模型。Llama1、Llama2，绝对是给中国早期的开源模型奠定了基础。没有Llama1、Llama2，甚至是Llama3的这些开源，就不会有中国今天百花齐放的大模型。所以这个FAIR对于整个世界，特别是对于中国的AI产业，是做出了巨大贡献的。

杨乐坤为何在Meta混不下去？

杨立昆为什么在Meta混不下去了呢？亚历山大·汪来的时候，他还说我们好好合作一下吧，当时还是很有求生欲的，但是现在还是混不下去了。

原因一：科学家与CTO的角色冲突

第一个原因很简单，他呢是要去做长期研究的。通常大学教授都是做长期研究的，他是没有明确的工程化和产品化压力的。我今天做了一研究，这东西到底最后怎么工程化，或者在我的整个内部怎么去改进，他从来没想过这事，科学家也不想这事。或者说我把这东西做成一个什么产品给大家提供出来，他们也不会思考这个问题。他们真正追求的是什么？更多的经费，研究更遥远的未来的事情，以及呢，发表更多的论文。而且科学家的本质呢，从来就没有改变过。

那你说CTO跟科学家之间到底有什么区别呢？CTO，你是为股东负责的，你是要为董事会负责，什么该说什么不该说，你心里应该有数，你每说一句话都会影响股价的。而科学家就是只为自己心中的梦想去负责：“你们那些乱七八糟东西，不要来给我捣乱。”

那你说杨立昆跟作为Meta AI里头的领衔科学家，到底说了什么不该说的话呢？作为一个CTO他肯定不合格。总喊着“大语言模型是死路一条”，这玩意咋搞？我们现在招人做产品、做工程化，老大在这天天喊：“这个这是死路一条，你们再往前走就死了。”而且他还喊：“现在的所有大模型，跟一只猫比起来都不行。”OpenAI也好，谷歌也好，都说我们的模型可以顶博士了。说：“你把它装机器人里，你看看它有猫灵活吗？”肯定没有。这就是他的一个论断。你作为科学家你可以这么喊，而且你越这么喊，越容易搞到经费。但是你作为一个企业里面的领军人物，也是Meta的AI领军的科学家，但你天天喊“大语言模型是死路一条”，这事肯定是不行的。

原因二：商业压力与战略落后

他呢，一直准备去做世界模型。世界模型这个事呢，肯定是巨大的天坑。因为大语言模型这件事，大家已经走通了，知道怎么往前走……虽然挣钱还难一点，但是怎么去骗股民，怎么去骗基金，怎么去骗华尔街，这条路其实已经通了。那对于Meta来说，人家已经验证成功的路，我们得走下去，该捡的果子我们得捡起来。你不能在这个时候再喊说，我要去做世界模型。世界模型这个东西到底怎么做，做完了以后会达到什么效果，谁也不知道。我要靠这个东西去忽悠别人给钱，是非常非常难的。

这里呢，也会体现出Meta跟谷歌他们的差异。谷歌就是我这头挣着钱呢，那头呢，我还投入了很多的钱，去研究各种各样现在大家看不出结果的东西出来。而Meta现在不行了，我必须要马上见着钱，我没有那么多钱让你们去放飞自我了。

Meta现在呢，明显在AI领域里头落后了。Meta自己的商业化模式其实是有问题的。为什么呢？大家看看现在所有做大模型的公司，或者AI这类的公司，英伟达那是做芯片卖铲子，其他几家其实现在也都是卖铲子的。微软、谷歌他们虽然也做芯片，但是他们芯片卖的量并不大，就是只是自己用而已。他们卖什么？他们卖云计算呢。谷歌云上提供了这些大模型的东西，“你来买买我谷歌云吧”。微软也是这样，“我微软云上提供了OpenAI的全套东西，你来买我微软云吧”。大家每次去看财报的时候，只管看谷歌云的收入涨了，虽然可能其他的收入有些波动，但是你只要谷歌云的收入是呈两位数上涨的，我们就认你的市值了。他是这样的一个逻辑。微软也是如此，亚马逊和Oracle走的都是这条路，他们是卖云服务的。

那你说Meta呢？Meta缺云，他自己是不卖云服务的。Meta 97%的收入全是广告收入，他就讲不了那故事了。那他怎么办呢？他只能是实打实地做出产品来，大家很喜欢这个产品，用户量很高，只能干这条路。另外一条路是什么？就是我通过AI的改造，我的广告收入上升了。广告收入这种事情呢，它是跟用户数和用户时长相关的，你最后的转换率会有优化，但是优化起来是非常难，即使加上AI以后，也很难说我就一下有这种质的飞跃。所以Meta很难证明自己真的做的这些东西是有用的。

而另外一方面呢，他做的Llama4也翻车了。Llama4全面被千问赶超。原来Llama1、Llama2、Llama3还是遥遥领先的一个位置，但是等到Llama4的时候，第一个是做各种评分的时候呢刷题，就是他做了一些学术不端的行为，想把自己想做成那种“小镇做题家”似的，我把题刷完了以后去刷成绩，这个事是不行的。在他们这个领域里头，这是非常非常丢人的，虽然中国模型都这么干，但是呢对于美国大公司来说，这个是不可接受的。另外一个是什么？就是他的Llama4只出了几个特别大的模型，底下这些小模型都没做。Llama3还是从小到大做了一遍，大家还可以在Llama3的各种层级的模型上，去做自己的微调，做自己的行业应用。而Llama4只做了个最大的。那在这块填补空白的呢，就是千问。千问是从0.6b开始做到200多b，中间所有的层级全都做了。这个就是绝对是超越Llama4的一个状态。

原因三：扎克伯格的“亲自部署”

扎克伯格呢，觉得我必须要生死一搏了，原来这种慢慢悠悠的玩法不成了。为什么扎克伯格这么聪明的人，会让AI这么重要的事情慢慢悠悠往前晃荡呢？原因很简单，他的注意力还在元宇宙上呢，注意力没在这上头。我觉得我这才是正经事，我这个一定是最终出结果的，大语言模型只是中间的小波浪而已。

跟大家讲一个当时猎豹的故事。傅盛这帮人原来在360是怎么做出来的？周鸿祎当时是跑去做搜索去了，他认为只有搜索才是对的，这是互联网里唯一的出路。所以他带着大量的人去做搜索，傅盛、徐明这帮人呢，说这留着一摊子咱看着，那算了，咱们做一个360吧，做个安全助手吧，安全管家吧。等做着做着做起来了，周鸿祎在外边做搜索碰了个一鼻子灰，说玩不下去了。那一回头一看，这块你们做起来了，那我亲自指挥、亲自部署一下吧，就把傅盛他们直接从公司里扔出来了。

所以现在就遇到了这样的一个情况，扎克伯格决定回来说，元宇宙一时半会搞不定，咱们还是要在大语言模型上见真章。那么他的处理方式是什么呢？就是招募了亚历山大·汪，组建新团队。而这个新团队马上开始跟FAIR争夺资源，这个事情是由汪涛说了算的。所以在这件事情上，汪涛要去替扎克伯格背锅，要去挡雷。比如禁止随便去开放源代码了，禁止随便去发表论文了。你现在想去发表论文，必须要在内部走一个审核流程，走完了以后你才可以去发表。如果审核的过程中，发现这个东西我们可以变现，马上就能用得上的东西，你这发表了别人就用了，我们先不发表。他现在有这样的一个审核机制。再加上呢，裁了600多人，基本上把FAIR的下面的很多直接干活的人给裁了。杨乐坤就没办法了，实在混不下去，只能离开了。

世界模型之争：杨乐坤 vs. 李飞飞

最后呢，咱们聊一下世界模型吧。杨立昆出去要去做世界模型，还有谁在做世界模型？李飞飞也在做世界模型。那杨立昆跟李飞飞的世界模型，到底有什么一样的地方，有什么不一样的地方？

杨乐坤的JEPA架构

杨立昆要做这个东西呢，叫JEPA，联合嵌入预测架构。它呢，是非生成式的。大家注意，这个非常非常重要。什么是非生成式的？咱们的大语言模型也好，李飞飞做的东西都是生成式的。生成式的就是，我要生成下边最有可能的这个词，或者下边最有可能的这个场景，这个东西叫生成式。而非生成式呢，不注重生成未来的预测，不关心未来会变成什么样，它要生成的是什么？是未来的一个动作。我们要在这个世界里做什么？他要去找到现在这个状态跟未来这个状态之间的一些规则，我们应该如何来做这个决策。

这呢，稍微有一些抽象，后边我们再去讲他到底跟李飞飞这个差在哪。杨立昆这个世界模型呢，分为感知模块、世界模型模块、成本模块、记忆模块，以及行动模块和一些配置器。它要把整个这东西配在一起，基本上像一个机器人似的东西凑在一块，才是它这个JEPA。它是一个可学习的、端到端的可微调的一个主动智能体架构，在抽象状态空间里边，预测未来可能的世界状态，而不是直接生成图片和视频。

李飞飞的空间智能

而李飞飞的呢，它不叫世界模型，它这个东西叫“空间智能”，让AI真正理解和操作物理世界，就必须要能够在3D空间中感知、想象和交互。世界模型是一个生成式的、多模态的、交互式的。

相同点与差异点

它们的相同点呢：

都认为光靠大语言模型这事走不通，这是死路一条。
而且呢，面向未来的预测器和推理引擎，不应该是单纯的生成器。
他们都认为呢，需要做自监督的学习，需要大规模的观测数据。
都相信他们现在所做的事情，是通向未来具身智能和机器人的一个正确路径。

那他们的差异点在哪呢？

研究空间不同：杨立昆研究的叫“抽象表征空间”，它这个东西是抽象成一大堆的数值的，而不是一个多模态空间。李飞飞那个是一个具象化的多模态空间，他最后出来的是视频，是3D模型，而杨立昆研究的是一大堆的数字。
生成方式不同：刚才咱们讲了，李飞飞玩的是生成式的，杨立昆玩的是非生成式的。
核心目标不同：杨立昆研究的是通用的自主智能，而李飞飞研究的是空间智能。那你说这两个词我都听懂了，到底差异在哪儿没想明白。说白了，杨立昆研究的是怎么做“人”，而李飞飞研究的是怎么做“世界”，这就是他们两个最主要的差别。所以你看杨立昆的这个大模型里头，它是有感知模块的，有世界模型、有运动模块、有记忆模块，这个东西基本上是个人。而李飞飞那个模型，就是在一个3D空间里头，来预测下一帧的画面是什么，他最后出来的东西是世界。所以这是对于世界模型的两个不同的前进方向。杨立昆搞的是抽象的表征世界，人看到当前的世界以后怎么去做决策，这个过程不是靠看图说话来的，你是要在这个人的内部形成一大堆的这种抽象指令，然后在这个过程中去往前走的。这就是他们之间的差异。

未来展望

最后呢，让我们来展望一下Meta跟杨乐坤的未来吧。Meta呢，现在必须要完成AI的应用和商业化，如果这个故事讲不通的话，他可能在七姐妹里边掉队。投资并且继续控制杨乐坤，对于Meta来说呢，也算是名声没有塌房。而杨乐昆的话，我们还要继续等待其后续的成果，看看后续是不是有其他的投资人参与。对于大学教授创业，我一直观点是一致的，就是他们会指明方向，会带领很多人去做研究，但是最后成为CEO的那个人，通常不是他们。但是杨立昆现在想做的事情还是比较有趣的。

好，这个故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

Luke Fan — Tue, 29 Jul 2025 00:57:08 +0000

遥遥领先的华为升腾384超节点，是不是又立功了？

大家好，欢迎收听老范讲故事的YouTube频道。

上海人工智能大会上，有一个镇场之宝，就是华为升腾384超节点。叫这个名字很怪，其实就是华为做的算力超级节点，华为云矩阵。384超节点这个东西，从外边看上去呢，像一堵墙一样，反正摆在厂子里头也确实比较唬人，而且也很昂贵。

很多人就兴奋了，说我们是不是又打破了西方的垄断呢？西方人对我们禁运，不给我们卖英伟达最好的芯片，我们自己造出来了。这个事到底达没达到呢？可以说部分达到了。在集群总的FP16算力上，为什么一定要强调这个？就是它在不同精度上的算力是不一样的。在FP16算力上呢，华为升腾384超节点，是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢？

现在我们去想算力，它是分三个层次的。第一个就是卡，卡这件事呢，咱肯定比不过人家，甭管你是比H100还是GB200，你根本比不过人家。第二个呢，就是叫整机，我是一台服务器。你像AMD呢，就是卖这种东西，就是我一台服务器里头有8个，他们叫MI300这样的服务器。第三种维度呢，就是说我给你卖一整个柜子，像NVL72呢，就属于整个柜子，我把72个H100或者72个GB200这样的东西，装在一个柜子里头，当成一台机器一把卖给你。

现在西方最主要的算力节点，就是NVL72。但是呢，同样的NVL72呢，它里头到底装的是H100，还是装的GB200呢？它算力是不一样的。华为升腾的384超节点，它超过了H100的NVL72的算力，但是呢，达不到GB200的NVL72的算力。虽然在其他方面呢有所欠缺，但是呢，也算是突破了一层西方限制吧。这个欠缺的部分，待会儿我们再去讲。

升腾384超节点，到底是一个什么样的架构呢？一面墙，为什么是一面墙？它是16个标准19寸机柜，这柜子的大小是有标准的。NVL72就是英伟达的，这个设备呢是一个柜子，咱是16个柜子。这个16个柜子里头呢，4个柜子是交换机，因为你这么多设备要拼在一起，你总是需要一些网络交换设备，去支撑它们的。所以有4柜子交换机，剩下12个柜子呢，是装的算力服务器。

每个柜子里头呢，是4台4U的升腾服务器。这个服务器呢，是按1U、2U，大概4U应该有这么高吧，这个就是4U的服务器，4台装在里头。当然它也装不满，这一个柜子里头应该是19U还是多少U，我记不太清了。剩下这空间，你还得放各种的路由设备、交换设备，因为你这些服务器之间，你还要通讯呢。

所以12个算力服务器柜里头，每个柜子里装了4台服务器，每个服务器里头呢，是4个鲲鹏920 CPU和8个升腾910C的NPU。所以呢，他把所有的NPU算一块，就是升腾910C的NPU，算一块呢是384个，这个名字是这么来的，384超节点。它等于是把384个NPU搁在一起，给大家干活儿。

鲲鹏CPU呢，应该是一个兼容ARM指令集的自主IP的CPU。鲲鹏早期的CPU呢，是使用的ARM IP，后来呢，为了防止美国人告他嘛，所以呢，他自己研究了一些新的架构，说我们不再使用ARM架构了，但是呢，它的指令集呢，还是部分兼容ARM的。里边装的操作系统是什么？鸿蒙，里头装的鸿蒙操作系统，但是它是专门给服务器用的。

升腾910C呢，也是一个自主架构，叫达芬奇架构的一个NPU。所谓的NPU呢，叫神经网络处理单元，实际上呢，是一种ASIC处理器。它是自己定制的一个大型集成电路，所以它不是CPU，它有自己的指令集，跟任何的CPU、GPU的指令集都不一样。这个是910C，这两个芯片呢，应该都是7纳米的芯片。但是现在嘛，华为的芯片都搞得神神秘秘的，做了一大堆7纳米的芯片，到底谁做的也不知道，怎么做出来的也不知道，反正就是7纳米的，把这些芯片造出来了。

下一件事是干嘛？就是要通讯。所有的这种算力服务器里头，实际上是三样东西。一个是GPU跟CPU，第二个呢是它的内存，这里头也有HBM内存，它的内存比NVL72给的还多，因为它里头的芯片多嘛，这个装了这么多柜子，咱总要多放一些。第三个呢，就是要通讯，卡跟卡之间是要去通讯的。

像这个NVL72，就是英伟达的这个设备呢，它里头使用NVLink呀，使用其他的一些协议，和一些专门的设备，去让它们进行通讯。不同的卡，它可以直接去调用其他机柜里头的HBM，这种高速的显存。这样的话，它的效率就会很高。拿这个设备去做大模型训练和推理的人呢，就完完全全可以把这一柜子72个GPU，当成一个GPU去使用。里头具体咋调动，你不管了，这个数据到底是放在哪个服务器的哪一个卡旁边的HBM的空间里头，你也不用去管了，它自己去调度去了。而且速度都很快，即使是跨服务器跨卡的这种调度，它不会影响任何速度。这是NVL72处理的方式。

升腾384超节点呢，服务器比别人多，里头的卡也比别人多，人家72个卡，他384个卡。他的通讯呢，肯定是处理起来更复杂的。它通讯呢，使用的是全线光模块，像NVL72里头还是有一部分是铜线的，有一部分是光模块，这个里边全是光模块，堆料堆的非常非常足。这样可以保证呢，这些芯片之间的通讯，服务器之间的通讯效率都非常高。所以为什么这里头，还有4个柜子的交换机呢？那些光模块，有些还是要通过交换机的交换以后，才可以找到下一个机柜里边的服务器，然后在里边找到你需要的地址，找到你需要的数据，才可以把它拉回来。所以呢，它整个的运作方式还是比较费劲的。

当然，光模块多了呢，也有光模块的问题，不是说我们上了光模块就完事了。光模块的问题是发热严重，它里头是个激光发生器嘛，故障率也比较高，这个玩意比较爱坏。还有一个问题呢，就是它的激光发生器的寿命呢，不是很长。所以使用这么多的光模块，它的运营维护成本和稳定性呢，都不是那么理想。

物理上连通了，那下一个问题是什么呢？我就要通过软件逻辑和分配上，我要把刚才我们讲的光模块这些缺陷，要给它处理掉。以前做工程上，有一个典型的故事，叫99米长的枪，什么意思？就是说我这个枪只能打一米远，但是呢，我要打中100米之外的那个鸟，怎么办？作为工程师来说，处理的方式就是造一支99米长的枪，把这个枪伸过去，乓一下，把那鸟打死。这个在工程上呢，并不可笑，在工程上，很多的解决方案都是这样的。

所以呢，升腾384超节点呢，也用了一些软件和逻辑的方式，来去解决光模块不稳定性的问题。它会自动的去判断说，我这不是不是光模块断了呀，还是说哪块出故障了呀，我怎么绕一下。它在每一个NPU外边挂了6-8个光模块，这坏了以后，还有其他路径可以走，我可以做冗余备份吗？

我们用了16倍的英伟达NVL72的体积，和3倍的耗电，来解决NVL72加上H100芯片所能达到的算力需求。这个就是我们现在干的活。三倍耗电这事很好理解吗？人家是5纳米或者是3纳米，咱们这个是7纳米，肯定是耗电发热要比别人厉害。人家是72个芯片，咱们是384个芯片，你比别人耗3倍的电，这个还算是好理解的一个地方。

它的功率呢，是559千瓦，开起来以后还是非常非常耗电的。559千瓦呢，还只是机器的耗电，还没算散热呢。散热加上以后的话，可能会到600-700千瓦之间的一个耗电。为什么这么说呢？升腾上一代做的类似这种东西，大概是10%的耗电量来去散热，比如这边用100瓦的电量去做了算力了，那边用10瓦的电量去做散热，他是这样来去做的。但是呢，这个384超节点，因为里边用了太多的光模块，好像是用了6000多个光模块，那么你的散热的耗电的话，肯定也是要上升很大一块的。散热不好的话，你的激光模块损耗的就会更快一些。它整个的系统完全是强制水冷，其实NVL72也是强制水冷，只是呢，它在一个柜子里，相对来说还比较好弄。升腾384超节点呢，因为在16个柜子里，整整一面墙，你要再给它配水冷呢，这个事费点劲吧，但是还是可以解决的。所以耗电比较厉害。

那么电费呢，中国还是相对来说比较便宜的。中国的工业用电呢，大概是6毛钱一度，其实美国也差不太多，我看了一下美国的平均工业用电，大概是8美分多一些吧，大概也是6毛多钱。美国有一个州电价比较便宜的，是路易斯安娜州，4毛多钱一度电。美国大概最贵的是加州，14美分，大概快一块钱一度电了。加州因为硅谷在那嘛，再加上机房也比较多，所以他那的电特别贵。中国的发电大省，比如说像云贵、内蒙、新疆这些省，如果是集中大规模的采购用电的话，应该可以做到2毛多一度电。按照咱们最便宜的电费，跟美国的平均电价去比较的话，我们的电费是他们的1/3。所以呢，我们耗英伟达NVL72三倍的电，这个也是可以接受的。所以我们依靠电价优势，勉强可以抹平成本。

升腾384超节点的生态如何呢？英伟达之所以可以打败天下无敌手，核心的原因，不是说别人造不出来这样的东西，而是呢，它有一个生态捆死了，大家离不开它。CUDA呀、NVLink呀，这些生态帮助老黄，整个的竞争过程中无往而不利。那你说我们现在做了一个升腾384超节点出来，如果大模型没法在上头跑，也没法在上面训练，这不是白干了吗？你就像英特尔搞不定这个事儿，AMD也搞不定这个事儿是一样的。虽然AMD说我造得出来，你也能将就使，但是你说我要进行大规模训练了，很少有人去选择AMD的设备。

现在呢，大规模使用的GPU其实就是两种。第一种呢，是英伟达的H100、GB200，GB300现在还没发布呢。另外一种呢，是谷歌的TPU。谷歌TPU就是说，反正我自己做自己用，我也不需要考虑兼容性问题，我就自己干了，我也不卖给别人，它的量也很大。另外呢，像亚马逊跟微软呢，都号称是自己要做GPU，特斯拉和XAI也号称自己要做GPU，但是都在号称的阶段，还没有动起来。山姆·奥特曼呢，也号称要跟孙正义一起拿ARM的IP，自己去做GPU，但是这件事呢，也停留在号称的基础上，也没有实际动作。所以现在真正广泛应用的大规模的GPU，就是英伟达和谷歌。这个里头最核心的原因就是生态。谷歌之所以能够大规模应用，就是我不管生态了，反正我自己使，你们不需要跟我兼容就完事了，否则根本没法跑。

咱们说回来，华为升腾384超节点，它的生态怎么样呢？第一个呢，是华为自己做了一个叫MindSpore这样的一个开源的推理和训练框架。你说我现在想用升腾384超节点，去训练我的新模型，你就使用它这个玩意就可以了。它呢，大概可以兼容70%-80%的CUDA指令，但是毕竟不能完全兼容嘛，你如果原来已经习惯了CUDA的编程的话，你可能到这边来去做训练，还是有问题的，你还是要去花时间去做迁移的。另外呢，PyTorch、TensorFlow、Hugging Face Transformer这些框架呢，升腾呢，也专门做了兼容性适配，就是我专门写一个模块，你只要带上我这个模块以后，你这个PyTorch，你的TensorFlow，你的Hugging Face Transformer，这些推理和训练框架，就都可以在升腾的384超节点上跑了。所以呢，如果大家说原来的这个系统，是在PyTorch上跑的，你也不需要再去做迁移了，直接在它这上就可以跑了，兼容性他们都给你测好了。所以呢，属于叫部分的兼容吧。

如果你真的是说我训练新的大模型，建议大家还是不要跟自己找不痛快，还是老老实实的去使用英伟达就完了。但是你说我拿回来做做推理，拿来去做一些后期的使用的话，升腾384基本上是够用的，没有什么太大问题，你只要别嫌它占地儿，别嫌它耗电，这个东西还可以使。

那你说为什么不能拿它做训练呢？刚才不是说它可以训练吗？而且训练的算力也不差。大家注意，训练呢，是一个非常长期的这种连续任务，你中间停了坏了以后的话，你是需要重新干的，你说让他接着往下干，这事很费劲。它里边有大量的光模块，而且这个玩意的故障率很高，寿命也不是很长。你如果跑着跑着出故障了，里头有一个光模块烧了，你的这个训练呢，未必会停下来，因为它通过了一些软件方式，让你去规避这个错误。你可能只是说我训练的过程中，哪一些数据取回的速度变慢了，但是呢，我还在接着往前慢慢跑。但是也有可能跑着跑着就直接出错，咔嚓就扔那了，这个可能性是很大的。

你像马斯克，他自己用的10万块H100，Meta这种几十万块的H100，他们去做这样训练的时候，还经常是说我跑着跑着突然就退出了，突然就崩了。那崩了怎么办？重来一遍呗。对于他们这些平台来说，你可能跑10次崩个两三次，但是你对于升腾384这样的超节点来说，你可能跑10次会给你崩个八九次，这个也许就突破忍受极限了，就没法忍了。他大概就是这样的一个情况，就是有些情况呢，咱们能用了，有些情况还是稍微费点劲的，跟它整个的硬件架构是有关系的，跟它的兼容性也有关。它毕竟没有100%兼容CUDA嘛，所以大家在CUDA上做训练的代码，拿到这边来再跑，还是会有很多问题的。

那你说华为升腾384超节点，最大的作用到底是什么呢？第一个呢，还是给国内算力中心了一种新的选择，否则你没得选，你只能是要么拿自己的卡或者服务器，这种完整可以拼在一起的算力节点，也算是一个工程上的突破吧。信创产业也算是填补了零的空白，因为现在很多是要求信创嘛，所有的必须是自主可控，自主的操作系统，自主的CPU，自主的GPU，所有都要自主的。我们现在迷信这玩意，原来呢，这些人没得选，现在等于是有的选了，也算是一个工程奇迹，就是99米长的枪。这个故事呢，大家别觉得可笑。

H20的库存呢，前面老黄在中国各种的表演之后，算是把他这个库存清了。川普呢，又要带着企业家来访华了，下次谈点什么，大家要想一想。上次黄仁勋是怎么去说服川普，说把H20解禁的呢？是告诉川普，华为的升腾910，已经基本上可以达到H20的水平了，你再不让我卖，我这就没意义了，人家也都做出来了。所以他把H20卖了。现在是华为升腾384超节点出来了，他说你看我这H100，加上NVL72的整个架构的性能，也被人超过了，咱就卖吧。至于GB200这个呢，咱们再看一看，现在它还没达到，不行咱们再把这个摁住了，或者说等我这个GB300出来了以后，咱们再把GB200的这套东西卖了。可能下一轮的解禁就要来了嘛。所以大概率川普老爷子还是比较好面子的，等他下一次带着企业家团队、一对CEO团队来访华的时候，H100的NVL72就可以卖了。

总结一下，升腾384超节点在工程实现上，确实有遥遥领先的地方，有一些敏感单位，可以选择全国产设备了，这个原来搞不定，现在可以搞定了。有很多瑕疵和不稳定的地方，用的越多，迭代越快，改进的呢也就越好，永远都是这样的。第一次拿出来都是磕磕绊绊的，第二版第三版第四版，慢慢就改好了。这个对于突破海外封锁，让美国进一步放宽管制来说呢，是有巨大作用的。如果是商业公司，哪怕你去选择H20，也比选择升腾384要划算。如果你不着急的话，可以稍微等一等H100，我相信H100在今年可能很快就会解禁。如果后面美国进一步放宽管制的话，英伟达的股票大家可以再关注一下。董王呢，是一个好大喜功的狡诈商人，黄仁勋也是。变化应该就在不远的将来。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友，加入我们的付费频道。再见。

华为盘古大模型陷入通义千问抄袭风波，为何遵守了开源协议却依然被骂？当“遥遥领先”的民族自豪感遭遇“瓜田李下”的尴尬现实。

Luke Fan — Mon, 07 Jul 2025 00:39:13 +0000

华为开源了盘古大模型，被指抄袭。华为到底冤不冤呢？

大家好，欢迎收听老范讲故事的YouTube频道。华为开源了他的盘古大模型，它的模型呢，反正依然是山海经风格的起名。原来呢，没有开源，都是说我们内部开发内部使用，或者说我们专门供政府和大企业来使用。但是现在发现开源这条路不错，那我也开源吧。结果开源了以后就出事了。

它是6月30号在GitHub上就直接开源了，号称呢是在升腾芯片上训练出来的大模型。以前呢，我们的大模型大多是在英伟达芯片上训练，但是呢可以在升腾的芯片上去做推理。现在说，我直接在升腾芯片上做训练，也算是一种小的突破吧。

他呢，其实发了两个模型：一个是72B的MOE的模型，就是混合专家模型；然后呢，有一个70B的稠密模型。做呢做完了，但是准备开源还需要准备一段时间。开源这件事，不是说你做完了，把它扔出来就完了，还是有很大的工作量需要干的。比如说你要去写开源手册、许可证，这个还不是那么容易，还在做。

发出来以后呢就被质疑了。有一个叫honest AGI的账号，他在GitHub上发了一个项目，说我用这个LIM fingerprint这种方式呢进行了验证，就是叫大模型指纹的一种算法吧。它的验证是什么呢？它叫关注度的一个模型相似度吧。就是什么呢？就是说我每一次进入一个模型去提问题的时候，模型是分很多层的。在每一个层里边去响应问题的时候，基本上有四个指标：一个呢是问题question，一个呢是key，一个是value。

因为大模型里头都是先给出了问题，然后呢看看你到底是拿到了哪一个关键的key（关键钥匙），以及这个钥匙所对应的值，也就是value。还有一个呢就是它output是什么，输出了什么。就是你的问题进入到每一个层级的Transformer的这个模型里头去，你就会形成这样的四个指标。形成的向量就是问题是什么，key是什么，value是什么，输出是什么。

它把这些跟注意力相关的指标呢形成了一个指纹进行比对。指纹这种东西不要对着自己手看，跟这没关系。稍微讲一个形象点的意思：很多人都知道计算机可以做人脸识别。我们在人脸识别的时候，化个妆是不是认不出来了？不是的。计算机做人脸识别的时候，也是对人脸进行了指纹抽取。他怎么干的呢？他其实比对的是人脸上面的这个眉毛、鼻子、眼睛、嘴之间的比例和角度。为什么这么做呢？因为计算机没法判断说，我哪一次做人脸识别的时候……

你到底是正脸拍的，侧脸拍的，是拍多远多近？所以他都是先要使量化。然后呢，把你整个的眉毛、鼻子、眼睛、嘴变成一个比例和角度的简单模型。最后，只要是符合这个比例和角度的，就是你。你比如说我戴个眼镜，或者是在身上画一点别的妆容，它其实是不会影响人脸识别的。

在什么情况下，人脸识别会不准呢？就是一个小孩从小长大的这个过程中，如果没有中间过程的话，他就认不出来了。因为你这个比例变化了，人小孩长开了嘛，这个是不认得的。其他的一般都不会发生认错的情况。

所以呢，大家基本上可以理解说，从大模型的每一层进入的过程中，它的这个问题，key、value和输出，每层都算出来以后，形成了一个指纹进行比对。然后发现呢，盘古大模型所得到的这个注意力模型呢，跟千问2.5 14B高度一致。正常的两个独立训练的模型呢，这种相关性的话应该在0.7以下，这到头了就是完全一样就是1，完全不一样是0。所以正常的两个完全不相关的应该在0.7以下。

但是呢，盘古72B MOE的这个模型呢，跟通义千问的2.5 14B的这个模型，相关度达到了0.927，基本上就认为是一样的。他为了说明说你看我这个算法是准的，还把Llama3.1的这个也拿出来算了一下，说你看确实差的很远。但是呢，用他这个算法去算，比如说国内的其他一些模型的跟千问2.5 14B，也有一些到0零点八几的，也都比较像。好像百川的一些模型也很像。所以呢，也没有那么准吧。但是0.927这个事呢，确实是有点过分了。不能说这个一模一样吧，稍微有一些差别。但是呢，你穿了马甲我还是认识你的，大概就是这样的一个程度。

于是呢，大家开始质疑盘古大模型是不是在千问2.5 14B的基础上做的增量训练呢？我在你原来已经训练好的模型上，我再加一堆数据，咱们再训一遍，是不是这样得出来的一个东西？华为呢就赶快出来辟谣，说第一个你这个测试方法呀并不科学。fingerprint这个方法呢，其实存在了一段时间了。但是呢，使用这种方法直接用数值去进行模型比对出结果的这种方式呢，应该是honest AGI是第一次来使用。具体测试方法呢，其实并没有完全公开。你不公开这个方法的话，你就没法复现这个事。因为一旦是被人指责说你抄袭了，那我看看你怎么说我抄袭了，我得用你这个实验方法重新再试一次。他这个没有，所以大家也没法去反击他，说你看你这数算错了还是怎么样，这个也比较讨厌。这个盘古大模型呢。

确实是使用了开源代码，同时呢，也遵守了开源协议和开源相关的规范吧。而且呢，也进行了注明，只是注明的位置不是特别显眼。没有说上来就先讲说：“我是千问2.5 14B的一个分支的模型”，或者说：“我的基础是千问2.5 14B，我在这个基础上又做了哪些动作呀。”这个都没写。他呢，只是在一个说明文档里头的一些其他license里边标注了一下，说我这里用了千问的一些东西，而且它是归阿里巴巴集团的。而且这个标注呢，是在6月30号盘古大模型发布仓库的时候就已经发上去了。在7月4号被质疑之后稍微补充了一下，但是没有大改。并不是说被质疑了以后赶快去补这个，东西原来也写了。补的呢，也就是说我确实用了，也没有具体写清楚我到底怎么用的，或者用的这个千问的代码用的哪一部分，他也没写，只是说我确实用它了。

千问2.5的模型使用的是一个什么样的许可证呢？你用了他的模型，到底算不算抄袭呢？千问2.5的许可证是比较奇怪的。他3B的许可证不一样，他用的叫千问研究协议。所谓研究协议是什么？就只能用于研究，不能拿这玩意商用。这个是千问2.5 3B。千问2.5 72B的这个最大的这个模型呢，它的许可证也是不一样的，它是一个千问的商用协议。你如果拿它进行商业使用的话，需要到千问那边去重新申请授权去。但是中间这些像14B、32B一些模型呢，使用的就直接是Apache 2.0的协议。这个是一个大家普遍使用的很宽松的开源协议。这个协议怎么规定呢？就允许用户自由的使用、复制、修改、分发软件，包括用于商业目的，而无需向原作者或版权方通知或获取额外的许可。随便使不算抄袭，必须保留原作品的版权声明、许可证等相关信息。就是你用了以后，没事，你也不用告诉我，但是呢，你要在你的这个版权说明里你要说一声我用了。大概就是这样。

盘古呢，也确实说了说我用了，只是说的地方呢，稍微犄角旮旯一点吧。也算是符合规范，但是具体怎么用的，用了哪部分，你并不需要明确的去说这件事情。这就是Apache2.0的许可证的一个要求。盘古呢，也确实符合这个要求了。那华为自己的盘古开源大模型走的是什么开源协议？有没有人好奇这件事？他走的叫盘古开源协议。这种开源协议的事呢，有些人说我用GPL，有些人说我用Apache，或者用一些其他的，这个就属于是比较公共的一些协议。还有一些人呢说，干脆我写一些自己的。千问2.5的这个3B，千问2.5的72B。

都是千问自己写的协议，在原来的Apache 2.0的基础上改一改。盘古呢，也是自己写了一个。他呢，协议是这样写的：就是全球永久免版税、非排他，但不得转让、没有再授权。Apache2.0的模型呢，是允许再授权的。就是你拿了我的软件来了以后，你可以拿我的软件再授权给别人，再接着使去。但是盘古呢是不允许的，就是你可以用，但是呢，你不能够再授权给别人了。

盘古模型的是允许复制、修改、分发和商用，这都没问题，跟Apache2.0是一样的。允许闭源改名发布，但是需要保留协议与版权声明。这一块呢，是跟Apache2.0的稍微有一点点小差别。是什么呢？就是你发布了产品以后，上面要写上“POWERED by盘古”。盘古那个里头也写的“POWERED by千问”了，这都有。但是呢，盘古要求有强制性的商标声明，就是你必须写。而这个Apache2.0的里头是不强制的，你可以写，也可以说我不把这个商标给你露出来，都是可以的，没有那么严格。

盘古的开源系列里头还玩了个小花活，跟Apache2.0最大的差异在哪？它有地域排除。Apache 2.0就是你只要是符合这个协议的，你愿意在哪使在哪使，没关系的。但是盘古开源协里头明确规定了，禁止在欧盟境内以任何形式接触和使用哈。你不能在欧盟去部署盘古的模型，也不允许在欧盟去部署任何从盘古衍生出来的模型，或者用到盘古代码的任何产品，你都不能到欧盟境内去部署。这个是比较奇葩的一个点吧，不知道欧盟怎么跟华为之间有这样纠结吧。

这个盘古模型里头，还有一些典型的叫“按现状免责声明”，对于华为的免责和侵权赔偿条款。就是说我这东西就这样了，你不能说你拿了我的模型去以后再去发生点什么事，你找我追责这事不行。这个在Apache里也有。然后呢，是不授予商标，但是呢强制展示商标和归属。Apache呢也是不授予商标，但是没有强制展示的要求。这个什么意思呢？你不能说我用了盘古大模型了，然后你就出来说，我这是华为的东西，这事是不允许的。Apache的协议也是这么规定的。你比如说我今天用了千问的哪个模型了，然后出来说我跟阿里有什么什么关系，这都不允许出去说去。但是这样盘古就是多一条，你必须要强制的去展示商标及归属。

盘古协议并没有声明说我是从Apache 2.0协议里改出来的。其实呢，它是在Apache2.0宽松可闭源、再分发的框架下，额外增加了欧盟禁用、商标展示和不可转让这三项。讲到这儿呢。

咱们再想想说这个点，他这炮的人到底是谁呢？这个honest AGI到底是谁呢？这哥们也很神奇。他呢，突然在7月4号在GitHub上就发布了一个仓库，这个上面写着说我做了什么实验。做完实验以后呢，我发现盘古72B MOE模型跟千问2.5 14B模型高度相关，疑似抄袭，就写了这样的一个东西出来。写完了以后呢，快速的就把仓库删了，就是我快速的登记上去，快速注册，快速上传仓库，然后快速删除，这事跟他没关系了。所以这人到底是谁不知道，但是这个信息呢，很快的就被有心人转载和传播了。

国内有些媒体的报道呢说，这是一位在哥斯达黎加大学上学的韩国留学生。我也到ChatGPT、Grok呀，Gemini呀上面去查询了一下，上面都写说没有一个实际的证据说这哥们是在哥斯达黎加上学的韩国留学生，也没有任何的公开信息证明这哥们到底是谁，或者是位女士吧，这些现在都不知道。我就在豆包上去问，为什么有国内的媒体报道这个honest AGI是一位在哥斯达黎加上大学的这个韩国留学生呢？豆包搜了半天，确实没有一个实际的证据。是有一些媒体呢，上面写的是他的这个GitHub上的仓库里边有文件做的自我介绍，上面写的说我是“在哥斯达黎加大学上学的韩国留学生”，但是现在呢，这个仓库已经被删掉了，所以呢，没有办法再去核对和确认了。

那华为到底算不算抄袭，或者是不是抄袭呢？总之吧，他的姿势不是很优雅，这个事咱们还是要说的。高度重合这件事呢，肯定是有原因的。这件事呢，不是说写个在引用里头说我引用了千问就完事了，或者你告诉人家说你这个测试方法不科学，我是从头训练的，这个事并不能这么简单的就解释的过去。你还是要去解释说到底是怎么回事的。但是这个对于华为来说就比较麻烦，因为人家上传仓库，然后删库跑人了，你没法复现这个。但是你完全可以自己找一些LRM大模型指纹的算法来去复现，但是到目前为止呢，华为官方并没有做这个事情，只是发了一个公告就完事了。

这个确实有点说不过去。质疑了之后呢，依然再去强调说我是自主研发的，这个就属于是越描越黑了。所以他的姿势肯定是不对的。

官方回复中，依然只是强调我遵守协议和规范了，没有提任何引用软件的名字。他没有说我引用了千问，在官方回复文件里头，就直接把这东西给漏掉了，只是说我符合规范了。这个就属于更加的感觉有些心虚的一个状态吧。

那为什么很多人会选择不相信华为呢？肯定还会有人相信华为说什么都是对的，但还是有很多人愿意不相信他。因为华为已经习惯了强调自己的自主创新、遥遥领先、民族主义。

任正非有一次提到过什么呢？就是华为自己在全世界都有研发中心，招了大量的海外科学家参与研发，包括他国内也有大量的外国人科学家在研发。但是呢，他说我们从来不宣传这件事，让你觉得我们这都是中国人自己做的，自主研发的，跟老外没关系。其实华为大量的技术都是由全世界的科学家一起去研发出来的，但是人家不说了。所以他有这样的一个宣传的习惯。

如果盘古大模型一上来就说，我在千问的基础上做了点什么，也不会有人说他什么。但是呢，他只是把千问的版权声明放在Pytorch引用的后边提了一嘴，那就很容易被人攻击了。Pytorch是梅塔开源出来的大模型驱动的一个框架吧。Pytorch他用了，说这是梅塔的；千问我也用了，后边还写了几个，还用了什么GPT的一些开源的项目。当然它叫GPT什么我忘了，不是OpenAI开的，只是这个名字叫GPT什么。还有hugging face的一些开源软件，我也都用了。我都按照这个Apache 2.0的要求，把人家的名字写上了。只是呢，写的位置呢，稍微犄角旮旯了一点点。

这次的事情呢，大概率是被人做局了。肯定有人发现了问题，发现问题之后呢，就冲上来狠狠砸了一锤子，砸完了以后就跑了。在别人看到仓库以后，转载了信息之后，快速把仓库删掉跑路了。从整个的动作来看呢，应该是做了这种有预谋、有计划、有组织的狙击活动。

华为的品牌受众呢，甭管是喜欢华为的，还是讨厌华为的吧，都比较二极管，或者说比较极端，没法接受开源软件引用的这样的一个中间状态。你对于这些特别喜欢华为的人来说，华为就得自主创新，怎么可能用别人的呢？甚至呢他觉得，如果我抄个谷歌的，抄个OpenAI的，我们还余有荣焉。一下你抄了个千问的，你要脸吗？会有这样的想法。

我记得当年小米的空气净化器抄了一个日本牌子，但是那牌子念起来很像印度品牌。

很多人在国内就传说：“小米，你要脸吗？你抄个印度品牌。”这个也确实是中国人的这种民族自豪感比较难以接受。另外一波人呢，其实也不太懂开源，但是那波人就是属于是“华为干什么都错的”。一看说：“华为，你抄的，我就知道你走到哪你都会抄。而且你看你在这个版权文件里还写了人家千问的名字了，最后你跟人长得一模一样，这实锤了，你就是抄的。”所以呢，华为的受众，甭管正面反面的，都很难接受这种中间状态。

有些事情呢，真的叫瓜田李下。中国自古以来讲的什么呢？在瓜田旁边不系鞋带，李子树底下别扶帽子，这个都属于叫有嫌疑的事情。华为干这个活呢，就属于叫瓜田李下。华为其实在中国的开源界里头一直还算是做的比较不错的，还算是守规矩的。只是呢，华为自己的宣传跟民众认知里头无法容忍开源这种模糊的地带。

应该怎么办呢？第一，我别在瓜田下走。我就算是在瓜田下走了，我也确实是提了鞋了，那怎么办呢？有一些人会选择说：“那我站起来的时候，甭管我原来手里拿没拿着瓜，我都放点钱下来，就算是避嫌了。”要么你说：“我就彻底不用也没毛病。”用了呢，你就大大方方的承认。或者说你原来比如说只用了一点点，你可以承认说：“我使用千问这部分呢，放在比较显眼的地方，让人看到说：‘我在这呢。’”就是说我在李子树底下扶帽子之前，我先举手：“我这帽子歪了，我要扶一下。”大家都看着，我这个帽子里头原来就有仨李子，不是从上头掉下来的。你可能要稍微说一下，就是变得更加的假道学一点点吧。

最终的结论是什么呢？就是华为自己呢，面对这种攻击是比较无力的。原来呢，他是开源这波人负责开源的事。在国内呢，负责愚民的这些人呢是另外一拨人，就是每天喊“遥遥领先”。但这些人是另外一拨人，这两拨人原来是不怎么打交道的。原来就算是有一点点小交集呢，华为内部这些负责开源的人也会选择说：“我只对对我不利的信息进行辟谣，对我有利的误传，我就听之任之了。”原来有人去传说华为要去做中文开发语言的时候，华为内部所有人都知道这是假的。但是呢，没有任何人出来辟谣，因为辟谣很累，没意思。

但是你到现在了，指责他抄袭了，你现在再想出来辟谣也没那么容易了。所以他这个攻击呢，甭管他怎么回应，原来不信的人还是不会信。而且他做的这个姿态呢，也不是特别好。这就是这一次华为被人指责盘古大模型抄袭千问2.5 14B的这个事情的前因后果。到底抄没抄？我估计还是用的过程中不是特别讲究，否则不会有这么大的重合度。

如果他这个完全无法复现的话，华为早就出来辟谣了，说：“你看，我自己也试了，压根不是这么回事，他测的就是错的。”而不是出来说你测试方法不科学就完事了。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

扎克伯格和黄仁勋，除了换皮衣，还聊了些什么？探秘扎克伯格和黄仁勋的SIGGRAPH访谈：两位科技大咖如何看待AI革命与苹果的未来冲突

Luke Fan — Tue, 06 Aug 2024 13:19:20 +0000

扎克伯格跟黄仁勋凑一块，除了换皮衣，还讲了点什么呢？他们是在SIGGRAPH大会上进行的访谈。黄仁勋是访谈主持人，而扎克伯格是被邀请的嘉宾。因此，在他们的访谈中，扎克伯格是逗哏的，黄仁勋是捧哏的，这一点首先要搞清楚。

这一次访谈，主要是扎克伯格在输出。SIGGRAPH大会是一个历史非常悠久的大会，叫计算机图形图像特别兴趣小组（Special Interest Group on Computer Graphics），小组成立于1967年，1974年第一次开会。今年是第50届，参会的人中有90%都是博士。当我看到这个消息时，一开始想，黄仁勋应该是个博士吧？扎克伯格是中途退学的。后来查了一下，发现并不是。黄仁勋是硕士，而扎克伯格是2002年入学于哈佛的心理学和计算机科学专业，2004年辍学，实际上上了两年学，之后在2017年被哈佛授予了荣誉法学博士学位。他好像跟某位伟人的学位差不多。

正常来参加这种活动的人，主要是引擎公司，比如Unreal、Unity，图形软件的公司Photoshop、Adobe，以及显卡公司AMD、英伟达。原来Meta也参加过，大概参加了有十几年了，他们以前是作为VR、AR公司来参加的。这一次则是出来抢AI的。

老黄跟扎克伯格算是天作之合，为什么呢？因为只有开源模型，才是英伟达显卡的绝配。

那你说微软不也买了好，OpenAI也在用，对吧？但是呢，大厂的必元模型啊，它是有能力去招聘一帮叫适配工程师或者叫配置工程师。他们可以绕过扩大算法这个事，是可以跑的。增加的这点成本对于他们来说是可以去承担的。只有开源模型的应用者，通常是支付不起这些配置工程师的工资的，所以他们会老老实实地使用英伟达的显卡，是吧？所以他们俩绝对是天作之合。

扎克伯格自己访谈的资格，也是因为买了足够多的H100才换来的。他是号称拥有60万块H100的男人。老黄就问扎克伯格说：“你是怎么来的呀？”而我是作为VIP客户，专门被黄日勋邀请来的，就是显卡买太多啊，被请来了。而且他在恨苹果这件事上来说，俩人绝对有共同语言啊。就是黄仁勋也好，扎克伯格也好，现在所有的CEO里头，所有的这种创业者里头，最恨苹果的两个大概就是他们了，找不出其他人了。

扎克伯格在会上飙脏话啊，直接说了一个f word，甚至说有可能直播都会被掐掉的这种脏话。其实骂的不是OpenAI，骂的其实是苹果。为什么要去骂苹果？OpenAI做了半天，未来有没有可能伤害Meta，伤害扎克伯格，有可能，但是现在其实没有给扎克伯格带来任何的伤害。而苹果当时是差点没把Facebook给玩死。扎克伯格自己也讲，Facebook最早是个网站嘛，我们是完全开放的啊，没人管，我们在里头爱干嘛干嘛。然后移动时代呢，发现要到苹果上面去啊，发布软件。

苹果这也不让你做，那也不让你做。关键是把他们进行精准广告推送所需要的用户信息给他屏蔽了。以广告收入为基本收入的 Facebook 差点没被他弄死。扎克伯格痛定思痛，说：“我一定要去做一个新的平台，绝对不能靠 APP 这种东西，而让苹果把我掐死。”所以他才做元宇宙，才把公司从 Facebook 改名叫 Meta。他做了所有这些事情，实际上都是为了应对苹果。这是扎克伯格为什么恨苹果，为什么恨这种封闭的大平台。

说英伟达为什么恨苹果呢？就是英伟达跟苹果之间是有恩怨的。英伟达给苹果提供过一款显卡，后来这个显卡不是特别稳定，被苹果直接起诉了。一开始苹果要他退钱，老黄不退，后来苹果直接起诉了老黄。苹果是在所有的应用里头都不使用英伟达显卡，而这个梁算截下来了。

而这一次，苹果直接给大家演示了用谷歌的 TPU 去训练大模型。这个消息传出来以后，英伟达的股价直接崩了。当然，英伟达的股价崩掉了，还有很多原因在里头，包括老黄自己在疯狂的套现，以及他到 120 以上的这个价格，大家觉得确实有泡沫了，直接崩掉了。但是英伟达昨天晚上涨了 13%，整个又窜起来了。

为什么苹果可以用 TPU 去干活呢？就是它是自己大厂，我只要招够足够的工程师，我就可以去改底层算法，让这些模型在 TPU 上运作。苹果演示了这件事情以后，谷歌、OpenAI 上都可以往这个方向走。这对于英伟达来说就是非常危险的。

英伟达一定要来找一个更恨苹果的人，找到Meta，找到扎克伯格。说来咱俩聊一下。扎克伯格呢，就是因为被卡过脖子，所以必须开源啊。看到别人作弊源啊，想要成为新的基座平台，就open i想做这个啊。那么想做规则的制定者啊，所以只能气得骂街了啊。这就是两个最恨苹果的人，天作之合，凑在一起。

那么Meta呢，对于大模型的开源是有非常大的贡献的。当然，最大的贡献并不是拉玛。咱们一直都说啊，拉玛1、拉玛2、拉玛3算是奠定了开源大模型的基础，但是Meta做的最大的贡献是另外两个东西。一个东西呢，PyTorch。PyTorch是现在非常主流的一个大模型，本地把它架起来的一个架构框架，这个东西是Meta开源出来的。现在在很多的服务器上，大家开始进行本地部署的时候，都是用的这个东西啊。

PyTorch的基金会里头大佬云集，哎，大型的开源的项目都是有基金会的。他们的大佬里头，Meta自己是啊，他贡献了代码，那么他是大佬。第二个呢，就是芯片厂商都在里头，英伟达、AMD、英特尔都在里头。然后所有云计算厂商都在里头啊，谷歌云、微软云、亚马逊云都在里头啊。再往后，新生的AI社区与工具，Hugging Face、Lighting AI啊，都在里头。

还有两个全能型拳手在里头，一个叫IBM啊，他所有的都做，也做云也做主机，也做芯片，什么他都干，所以他也是基金会的高级会员啊。还有一个高级会员是大家所熟悉的，遥遥领先啊，华为。

就PyTorch基金会里头，唯一的一个中国会员就是华为。在这一点上，我觉得华为做的还是很厉害的。它在各种开源的基金会里头，老老实实地交钱，老老实实地去遵守规章制度。它不像国内很多的公司，比如百度，使用所有的开源东西，但却偷偷使用，使用完了以后直接一闭源，啥也不看了，然后下一个。

Meta对AI做的贡献是什么呢？OCP（Open Computer Project）叫开放计算工程，这是什么呢？就是自己有大量的服务器，而这些服务器应该如何构造、如何去建设、如何去连接，这也是一个开源项目，这是Meta开源出来的。现在英伟达推出的NVIDIA HGX，就是在这个模块上去拓展出来的，已经都用上了。这是对整个开源事业真正做的两大贡献。

第三大贡献，才是刚才我们讲的拉玛模型，拉玛1、拉玛2、拉玛3、拉玛3.1，这才是第三大贡献。而且我觉得他所谓的拉玛模型的贡献，真正改变的其实是中国，彻底追上来了。可以拉着中国的一众小伙伴，把这OpenAI打翻在地，这个我觉得是可以的。

扎克伯格也为未来指明了方向，而且他指的这些方向，我觉得还是非常有价值的。第一个，他讲到了一点是原来我们很多人没有想到的，就是要去修改推荐算法。因为互联网的最底层其实就是推荐算法。推荐算法是什么？就是过滤与排序，你到底应该看这个还是不应该看这个，谁排前头，谁排后头。

这就是整个互联网的底层逻辑。在信息过载之后，我们只能依靠推荐算法来工作。在推荐的时候，它只能是说：“我按照一些大家的喜好，或者做协同过滤，做一些传统的AI的推荐。”现在就不一样了，它可以通过Transformer的模型，通过嵌入来重构整个算法，这是一大创举。而且这个东西真正运转起来以后，可能我们会看到完全不同的信息流。

在推荐的时候，他们也希望直接在信息流里进行总结与归纳。原来我们在Facebook和Instagram里看到的所有信息都是用户生成的，那么以后可能我们看到的一些信息就是归纳的一些信息。比如说，你最近有三个朋友感冒了，你最近有五个朋友感冒了，而这些朋友你可能连名字都想不起来。如果真的给你发一条说这个朋友感冒的信息，在信息流里你也不想看到，但是你又希望知道这朋友里边感冒的人多不多。

会把信息分层处理。什么叫分层处理？就是跟我关系最好的人，你们要把这个信息完整地展现出来。大家讲的就是150个人之内的，我们可以互相叫出名字，可以知道他的喜怒哀乐。这些我们可能希望知道他所有的信息。然后朋友的朋友就是中层圈子，可能只是需要知道一个概况就可以了。再往外层的话，可能有一些大事件发生的时候，我们需要知道一些国际大事，也就可以了。它需要分层处理，那么分层处理就可以对这些内容进行总结归纳，并可以发出来。

而且在这个过程中，推荐算法就会有更大的权利。这是什么意思？原来肯定是看你关注了谁，你跟谁是好友，你可以看到谁的信息更多。不可能，你虽然关注了一个人，但你未必看得到他的信息。如果你们之间很少互动，他就认为这可能就是一个普通的朋友。他的一些大事你知道一下，小事你可能就不需要知道了。他会通过这样的方式来过滤你的信息。

包括我们现在在推特里边也是这样的，可能看到一些大事的时候，我们会看到，那一些小事可能就看不到了。后面的话，Meta准备统一他的推荐系统。原来推荐系统是什么呢？就是各个分支，比如我要先看到朋友的，然后看到这个朋友的朋友的，再看到国际大事的和重要媒体的，所有的这些推荐的东西搁在一起，然后再进行混合。以前是这么工作的，而现在上大模型，我们要让整个的系统用统一的模型进行推荐，一次性给你推出来。

这个也是一个很大的创举，可能以后我们就会看到一个完整的模型推荐出来的图文信息、视频信息都混在一起的，而不像现在似的，Instagram就是Instagram，Threads就是Threads，Book就是分开的。以后，我们可能就在一个统一的信息流里看到所有的一切了。这是真正会改变互联网底层逻辑的事情。Meta、谷歌、Twitter、TikTok基本都是靠这个东西活着的。如果真的能够把大模型应用到推荐算法里边去。

我们可能就真的会看到新的一次AI革命，真正能够产生效益了啊。这是非常重要的啊。这是讲的第一点啊。第二点是什么呢？就是AI studio啊。他也要上一个AI studio，因为AI studio谁都上啊。微软有AI studio，谷歌有AI studio，Meta也做了一个AI studio。而Meta做的AI studio就干一件事啊：给每一个人做一个自己的AI助手。使用社交媒体的时候啊，直接用Meta自己的内容进行训练，微调一个小模型，再配合RAG或者叫做本地知识库，可以不断地补充新的信息，拿这个小模型去替我们回答问题啊。

像我现在，我每周会去处理一次大家的评论，周三下午一般会处理。处理完了以后跟大家念一遍。如果我有了这样的一个工具，我就可以随时随地地处理大家的评论。我出去玩的时候，AI机器人都可以给大家回复啊。我们的Disco群有这么多的分支，我没有办法在里边去照顾到每一个分支。这样，我就可以让我的AI助手在里边去回复。哪怕说他不回复，我过一段时间总结一下，最近大家都在聊这几个事呢，你是不是要去参与一下啊？或者他可以来征得我的同意，或者在我的授权之下进行回复啊。

这件事我就替你回答了啊。那件事情你准备怎么回答，还是说就不说了。这样的话，我就可以更多地千手千眼、无处不在地参与到各种社区的讨论里头去。这个真的是我很需要的一个东西啊。

每个人呢，其实都需要分饰不同的AI角色，有不同的AI助理模型。你比如说，在Facebook的回答问题里头有一个，在Discord里头有一个，是不是在Twitter里应该再有一个？这个可能才是真正我需要的东西。甚至未来我可能照了照片以后，就直接把这些照片都放在优酷里，让它自己去挑选好的照片，给我发到Instagram上去，这个不也是一个挺有趣的事情吗？这个是非常有用的。

那么在所有的平台里边，就会成一个新的风向，就是大家开始把这种AI机器人用起来。以后是什么呢？就是所有的平台都会变得热闹起来，因为每个平台都有我们的替身在替我们回答问题。所有的平台都会产生信息大爆炸，所有的平台也就都失去壁垒。

我们经常有人说：“哎，你有Telegram没有？你有微信没有？你有这个Twitter没有？”那以后这些东西我都有。你们在任何地方提了问题，我可能都可以去回答。这是多么有趣的一个事情！他们就不可能说再把一个人限制在某一个特定的小平台里头。当这些小平台失去壁垒之后，这些大平台就可以依靠成本和变现能力直接把小平台都挤死，对吧？这也对于Meta来说是有商业利益的吧。

在网络上，每一个人都可以依靠这种小模型的帮助，成为超人。这也是在不久的将来就可以实现的东西。扎克伯格也讲了，未来他的这种AI触手不会是文字，而应该会成为虚拟形象。你们以后可能再去聊天的时候就发现……

长坐着一个长得像老范一样的人，在这跟你回答各种问题了。甚至他可以开出这样的直播，挨着把大家的评论都点出来，挨着跟大家解释。这也是一个很有意思的事。

这是第二点。第三点是什么呢？第三点是开源是未来，不受限制的构建，恢复开放的黄金时代。这是他讲开源的内容，我们就不在这里详细去讲开源到底好在哪，坏在哪。这对于中国的AI行业来说，没有拉玛，就没有中国AI现在的风起云涌。如果没有PyTorch，中国的整个AI体系也是难以发展的。

它开的这个叫Open Compute Project，对整个中国的互联网云建设都是有重大意义的。再往后一个讲的是模型不会一家独大，从小到大的模型都有应用场景。OpenAI就认为你都应该在我这儿用，不要用其他人的。虽然它有GPT-4O Mini这样的模型出来，但它还是说你都要在我这儿用。

现在Meta就讲了说没必要，405B的模型我们就是做这种相对来说比较复杂的任务。当然，405B也给英伟达提供了一个非常大的考验，因为405B这种模型在英伟达的单块显卡上跑不起来。你还是要用NV Link这样的成熟技术，才可以把这些显卡连接起来，把这个405B跑起来。黄仁勋也是乐得嘴都合不上，跑405B就老老实实到英伟达来买显卡来。

势币的基本上处理各种业务是够的，因为我前一段时间也是使用各种大模型，基本上到70B。

绝大部分的问题都可以解决了。8B的在各种的AIPC里就可以用了。微调之后可以成为各种专材，比如说编程的，法律咨询，AI客服，绝对够了。今天谷歌还新发了两币的模型，叫JMAR2，两币，这个叫2B，在AI手机上完全可以跑起来，效果还不错。

这是讲的第二块，就是不同步大小的模型，大家自己去用。而且大家要去用八臂的模型，去训练各自的专用模型。只要这样，才会有不同的模型去完成不同的事情。

然后呢，讲的是叫segment everything two。是这样的，一个大模型又更新了，更新到第二版。这个模型叫做分割一切。这个segment everything呢，在去年是发布过一版，做的事情就是你给他一张照片，不需要标注，不需要训练，他就可以把照片里的所有物体都识别出来，挨着个儿给你列出来。

而everything to呢，它是可以把所有视频里的内容直接都给你分拆出来。说这个是牛，那是马，这个是猪，那是羊，他都给你认得清清楚楚的。扎克伯格还在现场炫富，他说：“你看啊，现在认出了一个视频上面这些牛，叫考艾岛牧场的牛，是扎克伯格自己牧场上的牛。”对吧，把这些牛认出来以后，伯格跟这个黄仁勋准备把这个牛杀掉了，好好吃一顿。

这种可以分割和识别视频内容的大模型，未来是有非常大的应用场景的。而且注意啊。

Segment Everything Two是开源模型，大家现在就可以当下来使用了。扎克伯格在现场举的案例是什么呢？就是监控能力可以极大提升。以前，公司丢东西的时候，我是去看过监控的，那经历实在是太可怕了，对吧？你需要长时间盯着监控去找这个片段，这非常困难，因为视频是线性的。

现在，当你有了这种分割一切模型以后，你就可以直接问模型：“什么时间点你看到有人进来了？”或者“什么时间点这个门动了？”他就可以直接通过语言和文字对视频进行检索。这是非常强大的，很多工业上的东西可以被极大赋能了。

前一段时间，马斯克其实也演示过一个视频，在他的推特账号里，演示了用AI模型观察一个咖啡店。他会算好哪个店员在聊天，哪个店员做了几杯咖啡，哪个店员在休息，对吧？店员和顾客之间是如何沟通的，这看起来有点吓人。

当然，这种模型肯定会被中国的厂商第一个拿来用。用完以后，就可以让这些牛马们老老实实地干活，没有任何私下里的自由空间，这完全可以实现。所以，中国一定会快速应用起来。

再往后，两个老直男讨论了一下时尚问题。为什么讨论时尚呢？因为扎克伯格去做智能眼镜了，眼镜上有摄像头。他说这个东西很漂亮，而且可以不停地换衣服，始终穿一件，但这个眼镜可以换来换去。

这就是两个老直男对于时尚的理解吧。这一次呢，他们两个人还是换了皮夹克。黄仁勋标准款的皮夹克给了扎克伯格，扎克伯格呢，这一次用的是自己那种很厚的半长的皮衣，戴帽子的这种，比较宽松。这就是两个直男对于时尚的所有观点。

最终的总结是什么呢？就是扎克伯格还算是为AI指明了方向。而且扎克伯格指明的这几个方向，都是AI未来有可能挣到钱的地方，有可能能够在这块有正常的商业模式的地方。这个是非常可贵的，它比山姆·奥特曼的那种大空话还是要落实得多。

那么新的时代就要到来了，互联网的底层真的要被AI重构了。原来互联网底层是没有被AI去改变的，还是推荐算法。现在AI要进入互联网底层了。一个人都可以被AI赋能，这也是非常棒的一件事情。所有的场景都可以被AI渗透，对世界的理解也可以进一步给各种系统赋能。当然，也可以给中国这血汗公司赋能，或者给中国政府赋能。

我发现做监控这件事情上，中国如果说是第二，全世界没有任何国家敢说是第一。这块我们还是做得最好的。全世界大概绝大部分的监控摄像头都是中国人造的。最终呢，大家都去买英伟达的显卡，都去用Meta的开源系统。这就是他们两个进行了一晚上的访谈所得出的最终结论。好，这就是我们今天讲的第二个故事。