AI训练成本 – 老范讲故事｜AI、大模型与商业世界的故事

GTC大会，黄仁勋的饼，为什么不香了？揭秘英伟达GTC”算力怪兽”真相：黄仁勋的300万美金机柜为何引发资本冷眼？

Luke Fan — Tue, 25 Mar 2025 00:52:46 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，黄仁勋的大饼不香了吗？GTC之后，英伟达的股价怎么跌了？

每年会开一次GTC，叫GPU Technology Community，就是GPU技术的一个社区的会。但是呢，现在再去开GTC，一般已经没有GPU在上面了。咱们现在管这种像什么H100、B200、B100这样的东西叫算力卡。真正的GPU应该是4090、5090这种东西。现在4090、5090在什么地方发布呢？是在AES，AES叫消费电子展。一般黄仁勋都会在消费电子展上卖这种叫个人游戏显卡，然后在GTC上卖他的算力卡。所以呢，我们要分清楚，虽然还叫GTC，但是里头已经没有GPU了。

现在各个公司都在努力的做自己的技术研讨会或者是开发者大会。原来比较著名的一个，现在已经没落了呢，叫IDF，英特尔的开发者论坛，现在已经没有那么热了。现在还比较热热闹闹在开的呢，一个是谷歌IO，一个是Microsoft Build，微软的这个构建大会，然后是苹果的WWDC，叫全世界开发者大会。这个名字取得好，因为他先开始了，所以他就可以取这样投机取巧的名字。英伟达的GTC现在都还是比较热的。OpenAI的开发者日呢，目前还在努力的追赶之中。Meta，也就是原来的Facebook，现在呢有两个开发者日，一个叫Meta Connect，像他的各种AR、VR这种设备，包括很多的广告系统都是在这里开。其实以前Meta Connect大会，大家主要是去听他的广告平台的一些运作方式，因为广告平台挣钱嘛，其他东西都不怎么挣钱。另外一个呢，从今年要开始开，叫Llama Conference，是专门给它的这个大模型开的一个开发者大会。所以Meta今年会有两个。

说回来，黄仁勋今天都说了点什么呢？主要还是在继续他的科学家之路。为什么叫科学家之路？大家知道他的算力卡一直是以伟大科学家的名字来命名的。第一个被他宠幸的是2006年的特斯拉，2006年英伟达的卡叫特斯拉卡。到2010年这四年之间没有发新卡，其实当时大家并不是那么在意这种算力卡。所以到2010年就上新的了，叫费米，这个是伟大的数学家，费米大定律。到2012年叫开普勒，天文学家，开普勒望远镜，开普勒天文台。再往后呢，2014年叫麦克斯韦，麦克斯韦方程式。到2016年叫帕斯卡。

这个呢，是法国非常著名的一位做计算机早期研究的科学家。像我们学计算机本科出身的人，学的第一门编程语言都是Pascal语言，就是为了纪念这位伟大的计算机科学家。注意，越往后他发的越密，因为越来越受欢迎了。

2017年，这个名字特别好叫伏特，咱们测电压的那个伏特。2018年图灵，图灵奖，图灵测试。2020年呢，隔了两年了，前面既然伏特有了，那安培也得有，所以2020年这个叫安培。到2022年呢，Hopper，就像什么H100，H20，H80，都是这个Hopper。Hopper这个科学家干嘛的呢？他是计算机编译器的发明人。我们现在写程序都是用高级语言写，写完了以后给你编译成二进制代码，这是他干的事情。我们现在用了非常多的H系列的显卡，也是从H系列显卡开始对中国禁运的。

到2023年呢，叫Ada。这个Ada呢，是世界上第一位程序员，是一位女士。当时还没有什么计算机，但是呢，他设计出了一种程序语言。他说如果以后有计算机的话，大概是这样的。所以呢，ADA是世界上第一位程序员。A100，A800，都是这个A系列开头了。

到2024年，也就是咱们现在在使用的叫黑井Blackwell。Blackwell呢，是美国数学家，美国国家科学院首位的黑人学者。他是个统计学家和数学家。这个也是政治正确一下。这个黑井呢，本来应该去年大规模部署和销售的，但其实去年大家还是在很努力的买A系列跟H系列的算力卡，没有轮上他，因为他去年一直出货不是很稳定，或者说他的质量一直有点小问题。但是到2025年，Blackwell终于开始大批量出货了。2025年呢，还会出Blackwell Ultra，就是在这个基础上再要升级一下。

到2026年，他说我们准备出一个叫Robin。这个Rubin呢，是美国国家科学院首位女性的天体物理学院士，暗物质的发明人。到2028年呢，是要出费曼。费曼呢，是一个量子力学这块的一个大拿。现在就是把饼已经画到2028年了。现在他的Blackwell 200终于顺利出货了。到2025年的下半年，要出Blackwell Ultra这个芯片，实际上是Blackwell 300，要比B200呢快1.5倍，今年下半年出货。估计一些还在排队等B200的人，可能有一部分就可以转订单了。等到明年我们就可以看到Robin了。Robin呢，据说比B300还要强3.3倍。但是呢，这个里头其实有个错误，什么错误呢？

并不是Blackwell Ultra比这个B200快1.5倍，也不是Robin就比B300快3.3倍。那你说，我这个刚讲完了，怎么马上就搞错了呢？写稿的时候也不稍微认真点。原因也很简单，它其实是什么比什么快呢？就是GB 300 NVL 72的这个算力，是GB 200 NVL 72的1.5倍，实际上就是快了50%。而至于后边这个3.3倍的，是怎么算出来的呢？是Robin NVL 144比GB300 NVL 72要快了3.3倍，算的是整个服务器的算力，而不是单个芯片的算力。所以大家要注意。

那你说这个GB200跟这个GB200NVL 72到底有什么区别呢？或者B200跟这个GB200NVL 72到底有什么区别？咱们想象中的B200呢，其实是一个芯片，或者说做出一块卡来，哪怕这个卡再贵几万美金一块的，您也是可以把它塞到服务器里边去的。但是呢，GB200 NVL 72呢，那就完全是一个妖怪了。怎么能叫妖怪呢？这个里边有36颗Grace CPU，这个Grace CPU实际上是ARM的一种CPU，每一个CPU里头还有72个内核。然后这个里边还有72颗Blackwell的GPU，所以这个里边一共是有36颗CPU，72颗GPU，有13.5T的HBM 3e的现存，而且有液冷的系统，就是水冷的，再加上NVL link的交换机。整个这一套咱加一块才叫GB 200 NVL 72，它是一台服务器。

至于说这个服务器到底有多大个呢？为什么说它是妖怪呢？大家是不是在想说，我怎么能够把这些芯片都给它塞在一个盒子里？这玩意得有多高的密度？这个东西首先我们先说功率，它的功率是120千瓦，这个是很像咱家里热水器，可能也就是几个千瓦，它这个玩意有120千瓦，这个非常非常耗电。而体积呢，是一个标准的42U机柜。所以这个东西并不像大家想象似的，是一台服务器，它是一整个机架，19寸的42U的机架，装满了就是一个GB200NVL 72。这东西有多重呢？1.36吨，一般人也是搬不走的，反正至少我搬不走。价格300万美金以左右吧，因为还要看具体的配置，到底配了多少显卡，配了多少显存，配没配NVL Ink的交换机。这个东西基本上就要300万美金起，所以它是一个妖怪。

为什么要跟大家讲这个呢？就是老黄现在肯定不甘心只卖卡，人家说我要把整个机架一起卖给你，你不能说光买我这卡，而且他鼓励大家。

将8台GB200NVL 72组成一个集群一起来使用。一台300万美金了，那8台？哇，好开心，2,400万美金就扔进去了。这个对于英伟达来说，肯定是一个非常非常好的生意。现在谁在买这种GB200 NVL 72呢？主要是那种叫算力云厂商。什么叫算力云厂商？就是说我没有别的业务，我就是提供算力。我也没有什么ToC的业务，也没有其他的任何的系统集成，或者是其他的这种ToB的业务，我就提供算力云。他们呢，在大批量的采购GB200NVL 72，就直接从黄仁勋这里买完整的机柜回来。这个里边最著名的一个公司叫CoreWeave。这个公司呢，这两天要上市，这个真的是英伟达的亲儿子。这些大的AI大厂，一般是不会直接买GB200 NVL 72的，包括Xa i，微软，谷歌呀，他们喜欢自己DIY。我自己来拼，你不要给我拼好了，你拼好了以后，我觉得很不爽。咱们再回过头来看，GB 300插了72个芯片的这个服务器，要比GB 200插了72个芯片的服务器快50%，也就是达到1.5倍。后边有一个特别有意思的事情，这个Robin的这个后面它不再是72了，它是NVL144。所以呢，它所谓的，是原来300的这个服务器的3.3倍。它是用了两倍的芯片在里头，原来那个是72个算力核心，现在呢，是144个算力核心，达到了3.3倍。所以Rubin其实比GB 300快不了多少，大概也就是这样的一个情况。Robin之后呢，再接着出，叫Robin Ultra。一般它叫Ultra的芯片就是我可以把两个芯片拼一块，或者做一些类似这种扩容的工作。当然，像B系列不是这么干的，具体怎么去排这个号现在还不确定。前面的有B100、B200、B300，今年下半年要出的是B300。B200呢，其实就是把俩B100拼一块了。B300呢，倒是重新设计的一个单芯片设计。至于说Robin Ultra的话，黄仁勋准备直接出Robin Ultra NVL 576，把576个Robin Ultra的芯片塞到一个机架。我估计这一个机架未必塞得下，有可能还是要塞两到三个机架，或者是四个机架，才有可能把它塞进去。为什么呢？因为它需要散热。虽然这个芯片本身没有那么大，但是你想加上液冷散热，再加上它整个的这个连接系统，还是非常非常吓人的。Robin Ultra NVL 576呢，它是GB300NVL 72的14倍。这个数字并不重要，意思是什么呢？

黄仁勋已经基本上达到极限了。他想让这个东西变得更快一点的唯一方法，就是把更多的GPU塞到机箱里边去。再往后，费曼到底会变成什么样？这个实在太美不敢想象，肯定是很贵的东西。除了去发这些芯片之外，还干嘛呢？发交换机，叫硅光交换机。实际上呢，就是Nvlink的这个进化版本。NVlink其实也是一套网络交换机，只是呢，它是第一个是光通道的，速度很快。第二个呢，因为它里头有很多的打破协议去进行数据搬运和传输的，这种算是非标的改装件吧。它呢，可以极高速度地在两个显卡或者两个服务器之间，在显存之间去进行数据传输。

黄仁勋就讲了，说你一旦加了我的Nvlink，你就相当于是把所有12个GPU连成一个。如果你再把8台服务器这种Nvl什么72搁在一起的话，我可以让它整个像一个GPU那样工作。这样它从这个GPU的显存向那个GPU的显存里去倒数据的时候，非常快。但是呢，这个里边还有一个问题是什么？就是原来你要从光通道里头把这个信号接收下来以后，你还是要去做一些标准芯片的这个处理。处理完了以后呢，再进到Vlink的这个交换机里边去进行数据交换。老黄说，现在别费劲了，我把你前面那个标准芯片干掉，我自己去设计一些颗新的芯片。这样等于是我直接把光通道进来，我可以省一颗芯片。那这个呢，它确实可以再提高一点点光通道交换机的这种效率，但是也提不了太高了，就是省一颗芯片的这个速度。

老黄说了说DeepSeek R1，你们老说DeepSeek上来以后，英伟达是不是要黄？没有那事。从DeepSeek开始，整个的AI已经进入了新的时代，叫TOKEN时代。在OpenAI开始把大家拉入到AIGC时代以后，大家就天天跟这个TOKEN打交道。我输入了一个单词，是一个TOKEN还是两个TOKEN？我输出了一个单词，是一个TOKEN还是两个TOKEN？一个汉字基本上就是一个TOKEN，大家都是按这个来的。而且我们使用各种API，使用各种的服务，都是拿TOKEN计费的。那为什么现在又突然进到TOKEN时代了呢？原因很简单，DeepSeek R1是个话痨，巨浪费TOKEN。所以，他就讲了说，原来呢，我们使用Lambda这样的模型，它可能输出了个几百个TOKEN，回答了个问题。但是呢，这个答案没法进行具体的应用。你现在让DeepSeekR1来，同样的一个问题，七八千个TOKEN。

直接20倍的TOKEN上去了。那这20倍TOKEN出来以后的这个结果呢？勉强可以用了。这个就是现在的变化。这个里头呢有两个重点：

第一个重点是什么？叫结果可用。因为你一旦结果可用的话，大量的应用就会上来。原来大家还是在围观看热闹，说这个东西好有趣，那个东西好有趣。但是你输出的结果，你是不敢直接用的。现在可以用了。

另外一个重点是什么？20倍的TOKEN。结论是什么呢？大家必须要买更多的英伟达算力服务器，组建更大的集群，才能满足需求。第一个，它可以用了，所以大家赶快来买服务器，把你们家的应用都整个搬过来吧，赶快来改造。第二个呢就是原来几百个TOKEN就可以搞定的事情，现在可能要几千个TOKEN，甚至上万个TOKEN。20倍的TOKEN浪费掉，所以你们原来那个服务器不够使了，赶快换新的。

他讲了说scaling law要换一种方式继续。因为原来我们都说算力堆上去，数据堆上去，大模型的参数堆上去以后就会涌现了。中间这过程到底怎么发生的，我们也不知道。但就是你只管堆就好了。现在呢，GPT4.5出来以后，大家觉得scaling law是不是走到头了。你费了这么大劲，花了这么多钱，效果好像看不太出来。老黄说不是这样的。第一个，推理模型你还是需要大量训练的。不是说你就可以用一个很小的这种蒸馏模型就可以用了。它也去比较了14B的，32B的，这样的蒸馏模型并不好使。即使是70B的蒸馏模型，也没有这种671B的满血模型好使。所以呢，你还是要用这个大的671B这样的模型。你要去训练它，依然需要大量的GPU去工作。所以，这块是一个新的赛道。就是原来GPT4.5那个东西呢，叫预训练模型。现在是推理模型，整个scaling law重走一遍。而且推理过程一堆话篓，这个通常是非常浪费的一个过程，才能够获得可用的结果。用老黄自己的话说，每一个TOKEN都在质疑自己，就是你每输出一个TOKEN都在想我对吗，然后再生成出一大堆TOKEN来进行相互的验证，得到一个最终可用的答案。这个就是TOKEN时代。所以大家赶快去买GPU，这是他讲的。

在这两块之后呢，再去讲的就是他的两个小主机。其实我一直不太看好他的主机。我觉得这东西卖不掉，或者买到他的人，其实会让他吃灰。第一个呢就是CES上其实发布过DGX Spark这种桌面小主机，一个GB10的Grace Blackwell的这种。

CPU和GPU组合在一起的这个价格，跟这个Mac Studio比起来，基本上没法比。因为最新苹果发布的Mac Studio，它满了内存以后，是可以跑满血版的DeepSeek 1671B的。但是这个GB 10好像还差了那么一点点。

另外一个呢，他说我准备发，叫DGX Station了。这个是什么呢？就直接把GB300 Grace Blackwell的Ultra这样的芯片，就整个塞进去了。实际上所谓的这种芯片，就是一个CPU一到两个GPU，直接塞到这个主机里头去，你们就可以去跑了。但是意义真的没有那么大。

后边是软件的部分。其实英伟达的软件，我一直是不那么看好的。因为除了CUDA，大家都在开心的使用之外，剩下的就是大量的开源系统拼接起来的这种英伟达生态软件。之后呢是机器人。英伟达呢也是拿出了机器人的相关的软件，跟人合作了一个叫Blue的机器人。那个机器人很可爱，也是迪斯尼做的，确实是要比宇树科技那个看着可爱的多。至于这个能干什么就不好说，因为他长得不是人样，所以这个还有待观察。

现在呢，老黄还是干的原来CUDA这个事情。我来开放标准，我来开放数据，我来开放系统，你们都来用。等你用上了以后，都上了船了，你们就不要再想下船了。他再好好的去卖这些机器人的芯片，就完事了。

后面呢，DeepSeek其实会议上并没有特别明确的去提DeepSeek。但是呢，在这个GTC之后，接受记者采访的时候呢，还是很认真的去讨论了一下DeepSeek。在这里头讲说中国，必将在AI行业做出突出的贡献。因为全球有一半的AI人才都是华人，美国每一个AI实验室里头，都有相当数量的华人在里边。所以华人是可以在整个的AI行业里头，占据非常大的一个比重。但是大家并不买账，股市不买账。为什么？数字游戏已经到头了。

前面刚才咱们讲了这么半天，GB200 NVL 72，GB300 NVL 72，Robin NVL 144，Robin Ultra NVL 576。他现在已经在玩这样的故事了，大家已经晕头转向了。你到底在干嘛？你就把它堆在一起，还不让我堆，还你替我堆好了，有点过分了，吃相太难看了。

像我们以前在Borland公司上班的时候，其实也遇到过这种时代。我们最疯狂挣钱的时候是卖JBuilder的Java的IDE。能疯狂到什么程度呢？每年出俩新版本。你看他这个科学家的名字，一开始是几年用一个。

现在基本上是两年用一个，而且中间这一年还要再出个Ultra，让你再接着买。为什么呢？原因很简单，你只要出了新的，你得更新换代，你得买新的。你不能在上打补丁，打了补丁的话，人家就不会再去买新的了。黄仁勋现在也走到这样的一步了。Borland呢，就是开始在每年出两个版本的Jbuilder以后，就盛极而衰的，就慢慢就玩不转了。当然了，Jbuilder还能玩得下去，黄仁勋这事可能就玩不下去了。Jbuilder可以卖掉的原因是，投入产出比是划算的。一套软件大概是2,000美金每年，你如果买了以后的话，产出个几万美金，十几万美金都是正常的，所以大家还是愿意买的。而且呢，如果你不升级，很多新的版本的上下游系统，你就挂不上了。当时我们比如接什么Oracle，接什么Web Logic呀，这些东西本身升级升的很快。正常应该什么呢？这种小升级应该打补丁，不应该找人再收钱了，但是实在太好卖了，所以我们就更新版本，让用户重新再买一次。

但是算力服务器不能这么算。为什么？第一个本身很贵，一台300万美金起。第二个呢，就是下游企业都还在亏损。像我们原来卖2000美金的这个开发工具，你买了以后是拿回去挣钱的。但是现在你看OpenAI挣钱了吗？Anthropic挣钱了吗？谷歌其实在这一块也没挣着钱。国内的这些AI企业谁都没挣着钱。那你再去说每年花个几百万美金，或者是多少亿美金扔进去，因为都不是说买一台两台，现在大家都是星际之门了，算力中心巨大投入了。你投完了以后你是要有回报的，现在大家看不到回报。

还有一个是什么？就是大模型跟芯片之间，是没有这种很强的版本依赖和绑定关系的。像我们以前卖IDE的时候，你不升级，Weblogic升级了以后你就挂不上，或者说你就必须要手动的去绑定，你没法去做这个自动的设定，你搞不定。但是现在呢，大家都去使用，比如像DeepSeek这样的东西。DeepSeek是拿H系列叫H100或者H20，拿这样的芯片训练出来的。那我拿这种芯片去训练，去推理就没有问题了。我为什么还要再往后边去买B系列，B200、B300，没必要了。这个就是他现在遇到的一个挺讨厌的问题。现在很多的大模型还可以在A系列，A100系列上的可以跑，那更不用说H系列了。新的这个芯片和服务器，唯一的优势就是速度更快，但是前面呢大家还是愿意买账，为什么到现在就不愿意买账了呢？

因为训练新模型必须要用最快的芯片。如果集成度低的话，就很难训练完成。不是说这边把这个机器都摆好了以后，然后数据在这边放好，一摁按钮，过俩礼拜回来就可以等着收了。不是这样，他中间有经常会出错的，跑一段时间崩了，跑一段时间挂了，这个是很正常的事情。但你如果是集成度比较高的话，第一个就是说你不需要太多的机器放在一起就可以跑，那你出错的几率就会变小。另外一个呢，就是你用比较短的时间就可以跑完，那他出错的概率就更小，它整个训练的成本就会下降。所以集成度越高，越快的芯片，训练成本反而越低。因为什么东西确实贵了，你买了新的芯片，但是训练时间变短了，失败的概率就会下降。

现在不买账的原因是什么？就是推理任务呢，现在没有那么挣钱。原来大家都在抢说谁是老大，现在老大基本上也就是OpenAI在那孤零零的站着，其他的人呢都是围攻光明顶的样子，心里憋着不舒服，天天的给你去添堵。而且呢现在基本上都是按照H100的小时数来定价的，价格还在不断的下滑。并不是说推理资源已经不够使了，我们需要用更贵的这个钱数来去买，是100的算力，不是这样的。现在这个H100的算力的价格不断的滑，而GPT4.5也展示了，就是继续加大参数规模，基本上已经死路一条了，走到头了。在几千亿参数的MOE模型上，更大规模到底是不是有意义，这个事呢不好说，因为像我们讲的DeepSeek R1，Deepcic V3也就是671B的这样的，就是6,710亿参数的Moe模型吧，大家觉得其实是够使的。虽然黄仁勋还展示了一个叫BYNAMO这样的推理框架，用GB 200的服务器，重新刷新了DeepSeek R1的推理速度，唯一能够做的也就是进一步降低一个小时H100算力的价格，其他其实也做不了了。

英伟达算力卡到底是不是还要继续买？因为这个东西不是说我买完了以后一年就坏掉，它还是可以使个六七年。在这样的情况下，大家就不愿意再为它去买账了。新的故事呢其实没有那么好讲了。老黄讲的是AI进化是分几步的，第一步是叫感知人工智能，就是我们最早拿AI干嘛使的，各种的图像识别呀，各种的语音识别呀，各种的这个决策支持，干这个事。后面呢，是叫生成式人工智能，咱们现在天天拿它去写小说，聊天，干这个事了。今年大家在玩的是代理人工智能，AI agent，说再往后呢，我们准备走到物理AI，就是要上巨身智能，上机器人了。

什么时候才有新的算力需求大爆发？这个其实是老黄现在最头疼的问题。第一个是要AI agent证明它的价值。现在虽然大家都在玩AI agent，都在说上了这个东西以后无所不能。今天我还去试了一下XAI最新出的叫deeper search，原来它是叫deep search，现在加了个er，deeper search就是比deep search还要再深一些，就是字面意思，效果好极了，特别特别浪费TOKEN。也确实如此，像我们使用AI agent，比如说挂到Anthropic的Claude3.5上，一会一美金就不见了，一会一美金就不见了，那可快了。这个玩意非常非常消耗TOKEN。

一旦AI agent彻底证明了它的价值，更多的软件公司开始招聘程序员了，而不是像现在这样不停地裁撤程序员的时候，更多的各行各业就都会开始进行AI agent改造，并且取得成效。那个时候AI算力还会再爆发一轮。到底是现在就买，还是稍微等一等，再去买GB300或者Robin，咱们再去等着看。到那个时候呢，全产业链就都会有利润，而不像现在似的，大家折腾半天都在赔本赚吆喝，谁都没挣着钱。而且新产业的诞生，更多人开始从新的产业里头挣到钱，这个也是值得期待的。就是我们现在都在讲说AI要改变所有的传统产业，要把以前所有的传统的软件都拿来重做一遍，这个其实是错的。一旦是AI真正大行其道了以后，一定会有非常非常多的新产业冒出来。

那么英伟达后边怎么走，其实要看中国能买哪些芯片。DeepSeek让H20的出货量大增，阿里、腾讯、百度、字节都在疯狂的买H20，让自己的云服务中心上去可以跑DeepSeek。虽然很多人说，我们用华为升腾芯片就跑起来了，但是挺费劲的。想要很好的跑DeepSeek，还是去买H20，就是美国允许出口到中国的这些芯片。因为你有一堆H20以后，你再让其他的这种来路不明的芯片在里头跑起来，也就可以说得过去了，就是我至少买过正版的。如果英伟达可以在中国孵化出类似CoreWeave这样的算力云企业，那肯定就可以起飞。还是要看美国到底怎么去限制，咱们稍微讲两句。CoreWeave这个公司呢，最早不是做算力云的，它最早是挖矿的，买了英伟达的算力卡回去挖比特币，其实主要可能还是挖以太坊。后来呢，这个挖矿挖不下去了以后呢，就开始做算力云供应商，他去买这种英伟达的服务器，租给别人用。

英伟达投资做技术支持，所以为什么他叫英伟达的亲儿子呢？62%的收入都来自于微软。千万不要以为说，微软花了好多钱去买了一大堆的这个显卡。微软大量的算力，都是在这个CoreWeave上做的。最近呢，这个公司是向美国SEC交表，准备上市，计划以260亿美金的市值上市。目前应该算最大的一个美股IPO了。如果英伟达可以在中国也整这样的一家公司上市的话，那他就起飞了。

打击走私，还要看美国到底怎么个打法。那么下一个增长点什么时候到来？黄仁勋真正值得钦佩的地方呢，其实并不是说显卡做的怎么好，刀法怎么精准。真正让人钦佩的地方是他眼光很长远。CUDA也是做了这么多年突然爆发的。他其实做了非常非常多的技术。现在他在很努力的推这个机器人、自动驾驶和量子芯片。今年就要干这个。你想最后一个2028年要发的芯片叫费曼，那哥们是研究量子力学的。英伟达现在已经在波士顿设立了量子计算实验室，招一大堆人去做研究去了。但是呢，以黄仁勋的讲法是，达到非常有用，就是稍微有点用还不算，就是非常有用。这个量子芯片可能还要20年。现在呢，还是老老实实的去买它的GB200、GB300，或者明年的Robin就可以了。

总结一下，在AI市场上，如果只有英伟达的声音，只有英伟达在赚钱的话，迟早是要崩的。这个泡沫是要破的。现在在干的事是什么？就是英伟达你稍微等一等，等等整个行业的发展，等等小兄弟们小伙伴们追上来。如果大家追上来了，英伟达肯定还是可以长足的进步的。但是现在他有点跑的太靠前了。就是这样的一个情况。好，这就是咱们今天讲的第一个故事。

OpenAI用12天发布会，为业界指明方向。丨从O1到O3，这些革命性进展将如何定义AI未来？

Luke Fan — Wed, 25 Dec 2024 00:51:55 +0000

OpenAI连续12天的发布会到底为世界指明了什么样的方向？大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI的12天发布会已经结束了。首先，从我个人的感受上来说，稍微有一点点失望。没有带来新一代的Dalle，也就是绘图模型；也没有GPT-5，哪怕是GPT-4.5的升级都没有。Sora虽然发布了，但是他所发布出来的产品跟大家的预期是严重不符的。

那么，这12天到底都发了些什么呢？前面7天其实已经录了一期节目进行总结了，咱们这里就不再重复。后边5天，第八天是搜索和实时语音进行了合并。我在前面7天总结最后的时候，讲了一下我说，现在OpenAI发布了大量的工具，是隔离的。语音是语音，搜索是搜索，canvas这种画板，还有其他的很多工具，是相互隔离的。就是你要选择其中一个功能，其他的功能就不能选了。未来的话，一定会逐渐把他们再合并起来。

第八天就给大家演示了通过带有搜索功能的实时语音，解决很多现实的问题。原来实时语音你跟他聊了半天，他是就给你瞎编的，就是截止到某一个时间点的知识，然后以此为基础来跟你去闲聊。现在的话，你就真的可以问他：“今天天气怎么样？哪个地方餐馆是不是定满座位了？”他可以用一些真实的信息来给你回答，这个就会变得非常有趣。甚至，他们还演示了一下去结合地图跟大家做一些回复，说哪个地方有什么什么东西。他可以把这个地图调出来，你附近有哪些好的餐厅，有哪些好玩的地方。

到第九天，叫开发者日。这么多功能出来了以后，他给大家了一些API，也就是像我们这些程序员可以通过API把这些功能集成到我们自己的程序里边去。所以，先给大家看了O1的API进行升级。大家注意，O1原来我们是可以通过API去调用的，只是它很多东西都没有，包括函数调用、结构化输出、视觉输入，这些东西实际上都没有。这些是在4O上都有的东西，但O1上没有。稍微跟大家讲一下什么叫函数调用。

就是我们在调用大模型的时候，按道理说应该是我们给他一个提示词，他就吭哧吭哧就干去了。但为了能够让他有一些更多的功能呢，OpenAI也好，或者很多其他的这种大模型也好，都有这种函数调用功能。就是你跟他描述一下，说这个函数是查天气的，以后遇到查天气，请调用这个函数，直接把这个天气查出来。等于你把一个实际天气预报的网站就可以封装成一个函数，告诉这个大模型，然后它就可以去做这样的工作，等于它就具备了查天气的功能。

这个就叫做函数调用。而所谓结构化输出是什么呢？就是我们正常看到大模型输出的，都是乌七八糟的一大堆话。你想在里边找到真正有用的东西，然后再到下一个模型里去调用的话，有几种方式。第一种呢，就是你再给他一个大模型，说来把这个里头有用的信息总结总结，然后到下一个地方再去使用。但是这种方式呢，会有一个问题，过了大模型这个过程了以后的话，每一次的结果是不可预期的。有的时候找得着，有的时候未必找得着，这个会挺麻烦的。

另外一种方式，就是我们常用的方式，是把它写程序，直接在这个输出的内容里边进行正则表达式的过滤。就是说我过滤一下，这个里头有没有谁的名字呀，有什么性别呀，还有什么这些东西，然后把这些数据拎出来，然后到下一个环节继续使用。以前我们是这么使，但后来OpenAI就发明了一个方式，说哎，我干脆结构化输出吧。我再输出出来的东西，就不是一个完整的文字了，而是把它拆成程序员比较习惯使用的JSON格式。他上来就告诉你，这个人的姓名是什么，性别是什么，然后有3个人形成数组，每一个的属性都按这个方式写好。那这样的话，我们在后边拿程序去接收这个数据的时候，就直接可以拿这个已经结构化好的数据去把相应的信息拎出来，往下一个环节去走。这块还是很棒的。

至于视觉输入的话，他其实干的事情很简单，现在的O1的API可以直接往里塞图片了。原来都是你需要用文字去描述，它是不支持图片的，现在支持了。

这就是O1的API增强的东西。然后呢，给大家演示了一个叫WebRTC。加上WebRTC以后呢，等于我们自己的程序里头就可以有这个实时语音功能了。原来我们没有办法做这个实时语音，是因为呢，我们需要通过像API的方式来去调用它。必须是我先得到了一段声音，然后把声音塞到这个后台的服务器上去，先给我识别说说文字，然后呢，它产生结果，再去给我念。原来是这样。现在的话，就是它可以做WebRTC了。

RTC什么意思呢？叫Real Time Communication，叫实时通讯。所谓实时通讯就是说，你给了它这个音频流或者是视频流，给了它以后呢，它等于实时的去处理了。像我们使用的OpenAI的高级语音功能，就是它是说着说着你可以打断它，它会听到你的声音，然后接着跟你聊。这个东西就是WebRTC实现的。

咱们日常生活中各种的会议软件，还有很多直播软件，实际上它背后用的技术都是WebRTC。那么现在都是我们给大家提供WebRTC的这种API，你也可以让你的应用或者网页呢，拥有这种可以被实时打断的高级语音功能。这个也是一个非常棒的技术，至少对于程序员来说，稍微有点激动人心哦。

还有一个让程序员比较开心的事情，就是API降价。你调用了API，它是按TOKEN来收费的嘛，要每过一段时间都会降价，降一点点。那么又降价了，这个是让程序员开心的事情。

这是第九天开发者日。到第十天呢，发布了一个特别有趣的功能，就是直接电话通话功能。他给ChatGPT申请了一个电话号码，大概是1-800-ChatGPT。大家可以直接给他打电话，而且呢，应该是每一个电话，每个月应该有十几分钟的免费时长，可以去跟他进行通讯。他发布了这么一个有趣的东西，就是你不需要安装APP，上网页登录账号都没有，随时抄起一部电话来，就可以去跟他聊天了。

除了这种方式之外呢，还可以做WhatsApp。你把刚才那个1800……

后边ChatGPT的这个电话号码呢，写在联系人里，以后就可以使用WhatsApp跟他进行通讯了。跟他聊天也是允许的，这样的话，他等于极大地去扩容他的用户层面。很多的老人小孩，原来从来没有接触过电脑，没有接触过网络，没有接触过手机的人，就开始可以成为他的用户了。这个也是很有趣的一个发布吧。

我尝试了一下，我没法使，因为我的WhatsApp是用大陆手机号注册的。我使用大陆的手机号去给他打这个电话的话，肯定他也不会有任何回应，所以呢，就不用费劲了。

这是第十天。到第十一天呢，做了一个Mac桌面版的升级，可以呢看到Notion以及其他笔记软件里边的信息，然后还做了一些高级语音功能的整合，也就是刚才我们讲的ChatGPT的Mac版。你连到本机的Notion以后，或者连到本机的各种应用上，今后你现在可以跟他说话，通过说话的方式来控制这些应用了。

这是第11天。到第12天说终于到最后一天了。我记得到第11天的时候，就去讲说明天特别激动人心。在前边应该是发布apple intelligence那天呢，也在说说这个，以后有一天我们会发布这个AGI的，激动人心的AGI。所以呢，就是留足了悬念，大家就都等第十二天了。终于到第十二天了，坐在这看发什么了。

他发了一个叫O3的模型，这个就实在是太厉害了，都不好意思叫O2，因为前面一个模型叫O1嘛。说O2我们跳过了，我们直接叫O3了。整了这么个东西，是一个非常强大的推理模型，然后也发布了O3 mini，还有一个叫谨慎对齐的技术。

现在呢，这些O3模型呢都是期货，O3 mini是到明年1月底可以跟大家见面，而O3的话还要再往后推一些，据说是在O3 mini发布以后的一个时间跟大家见面。目前呢是开放了安全员申请，就是你可以申请成为安全员，进去呢帮他评测一下他们的安全机制是不是有效。因为这么厉害的模型出来以后的话，一旦是被坏人利用了，那等于坏人也如虎添翼吗。

这个是他们不希望看到的。具体第12天的东西呢，咱们后边详细讲一下，这个还是有点意思的。然后到第十三天，对，连续发布12天嘛。第13天还有事。到第13天呢，山姆奥特曼发了条推特，说从今天开始，Sora一直到年底，免费给大家使用，就是不限额随便使。我估计呢，它Sora发布出来以后，发现完全没有什么热度，没有什么人愿意在上面折腾。因为呢，很多人试了以后发现效果并不好，特别是很多物理bug，比如说多个手指头，或者什么腿往外弯了，两条腿变三条腿了呀，什么这种事情稍微有一点点多。而且呢，他限制非常严，像我到现在在他的Sora上，不可以画有人的视频。所以呢，我就试了一次，以后就再也没登录过。虽然我作为plus用户，每月还是有一些绘画的，或者绘制视频的这个额度的，但是没兴趣。

现在他又出来找补来了，说我们第13天还有东西，就是大家可以继续去使用Sora，作为圣诞庆祝，因为他觉得后边该过圣诞节了，大家都应该去画一些视频出来，然后去四处发发社交媒体，给人祝福祝福，这是一个很好的时间点。但是从现在来看呢，我并没有看到什么响动。怎么叫看到响动？别人画没画我怎么知道呢？也很简单，就是你到Twitter里边去，到YouTube里头去，如果你发现有大量由Sora渲染生成的这种视频在传播，在大家互相的转发点赞，那说明呢，这个策略是成功的。但是他发了这个推特以后呢，我并没有发现有任何变化，所以我觉得这个事情，应该他的目标没有达成。

好，下面呢，咱们稍微详细的讲一下第12天的O3发布吧。O3模型呢，就是这种博士生模型，前面我们还专门录了一期视频，再去讲如果花2,000美元一个月，让你去雇佣一个达到博士级别的AI助手，你到底愿不愿意？那么现在看来，人家也不是无地放矢，实际上都是在为O3去打基础。O3模型呢，在编程比赛里头获得了2,700多分，当场做主持的那哥们大概是做了2,500分，然后旁边的山姆奥特曼就问他说：“你多少分？”

他说2,500，当时那个脸就不是那么好看。但是他马上纠正说：“哎，我知道公司里头是有人得到3,000分的。”对于他们来说，我估计达到2,500就已经很强了。因为那个比赛我自己没有跑过，但是我估计以我的能力，应该是差得比较远。因为现在脑子已经比较木了，不是原来每天坐那写程序的那种脑子了。

然后呢，他说：“哎，公司里有人是3,000分的。”然后山姆·奥特曼的反应特别逗，他说：“这个3,000分，这哥们也蹦跶不了几天了。”为什么呢？因为以AI的进化速度，他想去追上人类的这一点点分数差异是非常容易的。特别是在这种规则比较明确的挑战赛上，人类是不太可能很长时间保持优势的。

第二个是参加数学竞赛，也得到了一个非常高的分数，就做错了一个题。山姆·奥特曼就想起来问说：“兄弟，你那个数学竞赛考了多少分？”那哥们赶快松了一口气，在老板面前保住面子了。他说：“我是满分，我一个题也没错。”后来又赶快找补，他说：“我是做出过满分答案的。”

对于这个O3来说，对于这种大模型来说，你让他反复去做，他最后肯定也是能够做出满分答案的。甚至原来还有那种猴子理论，就是你让一堆猴子在这随机的点点点，或者随机的打字的话，都有可能能够形成有意义的长文本。所以你让O3反复叙事，他肯定也能够达到满分，这个不用担心。我估计这哥们也是压力挺大的，老板坐在旁边，随便出点什么数：“你多少分？”这个还是稍微有一点点吓人。

而且他说他满分了以后，估计他也想明白了：“说不对，这个不是老板在面试我，不是在考教我，我们是在发布新产品，还是要说产品牛。”然后赶快又找补回来了这个东西，这个也是很厉害的。但这一点上呢，一定是O3体现出了极强的编程能力和数学能力。

然后参加了一个叫ARC AGI的测试，这呢是一个全球可以开放的测试，所有做AI的人都可以去拿自己的模型上面去跑去。GPT-3在里面大概是0分，GPT-4是5分，4O可能比这个4稍微好那么一点点，O3的话是达到了87.5分。

这是一个非常非常高的分数了。人类的平均水平是84分，所以它已经超过人类了。我们正式向AGI进发了。这个比赛呢，超过85分的就可以获得60万美金的奖励，还是一个非常棒的比赛。但是呢，它也展示了另外一个事情，就是O3模型的运行是需要超高的运行成本的。

为了应对这个超高运行成本，他们还设计了一个很有趣的东西，就是在你每一次向O3问问题的时候，可以设置说，我到底是用这个高成本运算、中成本运算，还是用低成本运算，而不是像原来使用GPT式的，就是你只管问，它自己来根据你的问题决定使用多少算力、多少成本来算出结果来。

他们参加这个ARC AGI的测试的时候，如果使用低成本运算的话，只能得到75.7分。虽然没有达到人类的平均水平，但已经很高了。然而，这样的75.7分的结果是用20美金算出来的，不是20美金一个月，而是20美金一次哦。这是非常非常恐怖的。

他们刚才说的这个87.5的分数，超过人类平均智力水平，这个分数是用高成本算出来的。他算一次需要花几千美金，这是非常吓人的。所以前面录节目讲的这个2000美金一个月的，我觉得2000美金未必够他烧的。就是你按照运转一次就需要花几千美金的这种高成本运算来算的话，那这个收费的方式可能还需要重新思考一下。

除了发布这个O3之外，还有O3mini。O3mini呢，是高中低三档算力开关，也是如此。效能呢做了很大的提升，低成本推理这一档呢，速度很快，基本上跟GPT4O的速度是一样的。现在我们使用O1 mini、O1这样的模型的话，它的速度是非常慢的，你需要等半天才能有结果出来。但是呢，使用O3mini基本上是可以达到4O水平的。

然后使用中档推理的时候，可以达到O1的这个效果，但肯定它比O1要便宜嘛，因为它是叫迷你的一个版本嘛。但是呢，它的运算的结果跟O1是一样的，但是高档就没事没得比了嘛。

而且呢，O3 mini呢，提供了丰富的API，就是结构化输出函数调用，这些都给了大家可以去写程序去使用了。但是O3的API到底长什么样，这个就不好说了。除了O3和O3 mini之外呢，还发布了一个东西叫谨慎对齐。你发了这么神奇的东西，万一有坏人用怎么办呢？所以这个事情一定要去讲一下。

他们整了这样的一个谨慎对齐，实际上是什么？这是原来我们要去对齐的时候，或者说我们要去甄别用户提进来的提示词，是不是恶意或者隐藏恶意的时候呢，他们以前都是通过这种静态的关键词去进行过滤的。现在说不用了，我们训练了一个模型，然后这个模型呢，自己可以推理出一个标准来，灵活地去甄别每一次的提示词。但是这个呢，现在请大家报名去做测试，看看到底能不能突破它。因为我对于他们的这种数学和推理能力，其实是缺乏理解的。就是以我的这个理解状态来说，我觉得这个谨慎对齐的这些安全方式的话，应该突破不难。这个等他慢慢后面进化去吧。

通过第三天的发布呢，我们看到了一个非常有趣的现象，也就是OpenAI的用人原则。他们其实就是通过各种的智力测验、各种的编程比赛、数学比赛，挑了一堆的这种天才儿童坐在这。但是我们去讲“天才儿童”这个词的时候，听到的朋友们，你觉得这是一个完全正面褒义的词吗？好像不是吧。

现在这一群的天才儿童坐在一起，给我们带来的产品就是O3、O3 mini，一些普通人已经完全无法去理解和使用的一个强推理模型。没有给我们所期盼的普通人能够用的GPT-4.5或者GPT-5，而是给了我们一个O3。我们对天才儿童的这种认知，一般是什么样的？咱们从字面意思上去理解的话，大概是这样。这帮人在某一些特定的环境下，已经跑得非常远了，一骑绝尘跑出去了，让其他人完全无法望其项背了。但是呢，对于正常的生活，柴米油盐酱醋茶来说，基本上是弱智。反正至少我的对于天才儿童的理解是这样的。所以呢，现在GPT的O3以及他的谨慎对齐的话。

我基本上是按照天才儿童的方式来理解他们的，这个事没有什么依据，这就是完全的感受。好，这就是第十二天发布的产品了。往后呢，我们来讲一下OpenAI的方向判断，通过12天的发布，他们到底想干什么，这个我们要去看一下。

第一个，OpenAI现在一定是希望拉更多的用户进来，甭管是Apple Intelligence，还是直接可以给他打电话，直接可以用WhatsApp跟他联系。他还是希望拉更多的用户进来，而且呢，可以覆盖更大的应用范围，比如CANVAS Project或者其他一些新的功能。它希望可以覆盖很多原来，比如说Office或者是其他的一些软件所覆盖的这些功能。

包括第11天所演示的ChatGPT麦克端的APP，可以直接跟大家的Notion、Notebook也可以跟这些产品一起工作的这个能力。他希望把AI带到所有的边边角角、方方面面里边去。我觉得这个Notion AI可以哭晕在厕所里边了。

另外一块呢就是降价。OpenAI的降价其实一直都没有停下来，每过一段时间就会降价。但是对于普通用户来说，你一个月20美金也好，或者是200美金，或者其他这种版本也好，这个它不会降。但是什么东西在降价呢？就是API在降价。每过一段时间API就会降价，降价的原因呢，就是现在其实我们在程序员使用API调用的各种大模型里面，OpenAI的ChatGPT还算是最好用的之一。现在只能算之一了，因为呢，它跟这个Anthropic Claude 3.5 Sonnet比起来，算是不分伯仲吧。在这样的一个情况下，他只要是不断的降低API TOKEN的成本，那么我们这些人就会继续去使用他的API，那么他就可以很有效地去挤压他的竞争对手。这件事情一直在前进，然后瞄准高端狂奔，这就是这一次12天发布会里的实际最主要的东西。像第一天欧一完整版。

第二天，什么是强化学习？然后到最后，上了一个O3。中间其实还有很多，是专门进行这种研究型应用的模型，已经完全脱离了普通人使用的这种模型。这个方向其实在O1的时候就已经指明了，我们要向这个方向前进，不再去做5了，或者再做什么这些东西了，我们就要去做强推理。

在这样的方向指明了以后，现在谷歌、国内的像Moonshot、Deepseek、阿里这些都已经纷纷跟进，分别推出了自己的数学模型。谷歌推出的叫Gemini 2.0，Flash Thinking，Kimi的话应该也是推出了一个叫m系列的模型。Deepseek应该也有一个类似的模型，国内还有一些这种数学模型。阿里推出的叫QWQ，也就是通义千问QWQ模型。有一些我已经用过了，效果其实还可以。

OpenAI已经成功地把整个行业的方向向着研究方向带过去了。再往下一步，OpenAI要做的事情，继续是各种工具之间的联通和统合，这里还有很多工作需要做。你比如说，现在你想用CANVAS的时候，还是不能用搜索。虽然可以在实时语音里头用搜索，但在CANVAS里用不了。CANVAS跟其他各种功能结合起来，或者绘图什么结合起来，这个还需要逐渐把它自己这些功能打通，这需要下功夫。

然后，面向普通人的大模型进化，OpenAI还在探索。现在有传闻说，GPT-5训练了几次，效果不好，依然在训练。就是成本非常非常高，周期很长，训练一次几个月的时间，花5亿美金才能训练一次，但是训练了两次都没有出来结果。不过目前这些都是传闻，我自己也没有详细考证过，还是慢慢等进一步详细的消息出来吧。

那么未来AICC行业的方向是什么？这刚才我们讲了OpenAI的方向。大家要注意，12天连续发布会，实际上对整个行业来说，有一个重大的利好。这个利好是什么呢？就是两大困扰创业者的问题。

有一个暂时没有爆发。两个问题是什么？第一个是底层架构不稳定，第二个呢，是上层应用被覆盖。这个什么意思？咱们先想后边这个。就是你吭哧瘪肚坐半天，等OpenAI再去开发布会的时候，你发现你的功能被覆盖掉了，你的事情白干了。就是每一次OpenAI一开发布会，就说又有一大片的创业公司倒下了，就是功能被它覆盖了。这个问题依然没有解决。

这一次这个OpenAI 12天发布会里头，依然是覆盖了一些东西，比如说ChatGPT的Mac客户端可以直接跟Notion结合了。那么Notion AI的一部分功能实际上是被它覆盖掉了。甚至呢，Mac端的ChatGPT的应用可以直接跟各种的IDE开发工具去结合去写程序了。为了应对这件事，微软说来GitHub Copilot免费了。所以现在你想写程序的话，可以直接使最好的那个，不用去跟其他的那些免费模型较劲了。这也是这个倒逼微软降价吧。所以这块依然没有解决。

但是另外一个问题呢，基本解决了。什么呢？就是底层架构的不稳定。原来你要去做一个创业，说：“哎，我在GPT2的基础上做了一个东西。”等你这个东西吭哧瘪肚开发了一年，写出来了，人家说我GPT3出来了。那说咱们升级，GPT3上我吭哧瘪肚写了半年，又把它写出来了。我3.5了，那咱再升级，又吭哧瘪肚写了一年，说我这个现在是完全适应GPT3.5的了。我们要去开发布会了，正要出门了，我们这个GPT4出来了，然后4O出来了。这个就叫底层架构不稳定。

现在一看说，哎，5依然遥遥无期，5的各种特性都不知道。因为我告诉你，不需要把5做出来。如果OpenAI能够做出来，说我5是按哪个方向做的，朝哪个方向发展的，这个事他如果敢出来说的话，那么整个行业就会奔着那个方向开始跑。就跟他2024年年初说我要做Sora，我放了一堆演示出来的过程是一样的。实际上他已经把整个行业带着跑了一年了。所以现在5到底是什么样，不知道。那么这件事就算稳定了。

底层基本上稳定了。现在呢，甭管是LLama、通义千问、Gemini、Claude、OpenAI，还有其他的各种模型，都基本上停留在GPT-4的这样一个水平上，上上下下吧。然后呢，他们的调用方式，整个的反馈的这个结构基本上是跟OpenAI一致的。就OpenAI制定了一个标准，规定好了这个东西是怎么调用的，提示词大概怎么写，调用的时候是分几个命令进去，出来了以后可以有哪些功能。像刚才我们讲的什么函数调用、这个结构化输出，这些东西其他人都是照这个标准做的。

所以呢，现在再去做什么应用，或者做AI Agent，大量的这种工作流都串起来，干这个事情的话，那中间的这些大模型就有极强的可替代性。我用OpenAI可以用，我用Gemini可以用，我用Claude可以用，我可以随便换。这个的话，其实是对于开发者来说，或者对于创业者来说，是一个巨大的好消息。就是底层暂时稳定了，大家赶快冲上去，把一些具体的应用做掉，这是很好的机会。

OpenAI自己呢，还会继续去将各种分散的功能逐步整合起来。所以在这个时候，千万不要尝试去做拼接工具。什么意思呢？你比如说，哎，我现在是不是做一个带有搜索的CANVAS功能？这个你就别费劲了。你要相信我，OpenAI自己一定可以搞定这个事。而且他一旦搞定了以后，你做的那个产品一定会被覆盖掉，这个事不要去干，直接面向混合后的OpenAI功能就可以了。

你比如说，我们认为带有搜索和这个项目功能的OpenAI的这种API未来会出来，那么我们就直接以此为目标进行开发就行了。等它一出来的时候，我们其他东西就开发完了，这也许是一个方向和玩法。那么用户交互方面呢，肯定还是会有很多可以值得探索的东西。这一次OpenAI给了我们两个提示，第一个提示就是如何让AI更好地跟现有的系统相结合，到底是通过Mac上面的ChatGPT APP。

直接去跟各种APP进行结合，还是说我到这个网页里边，直接给你上canvas或上画板，这块呢是大家值得去探索的，也是呢这个OpenAI给大家做的一些演示或指明的方向吧。这块是值得去试试的。

另外一块的话，就是如何将复杂的需求准确地表达给AI，这个是OpenAI这一次开发布会的时候给大家演示了。那说哪一个是做的这块的演示呢？Sora的故事版。我怎么能够把一个有持续的信息分成持续提进去？这个其实是OpenAI给大家做了一个创新，虽然这个创新很小，但呢非常有意义。

以后我们不用再去想说，我如何可以在一个提示词里一次性把一个完整视频所需要的信息都扔进去。你可以在故事版上，在时间线上，这个地方要干什么，那个地方要扭个头，这个地方要变个颜色，这个时间点要起始，要画什么东西，然后到几分几秒的某一个时间点，这个主人公向哪个方向走，或者做什么动作，或者到几分几秒这个颜色发生什么变化，或者亮起什么样的灯光。他可以通过这样的方式呢，进行更精确的有持续性的信息输入。

而且这些的话，应该会很快被像什么吉梦、可灵、Runway这些模型应用起来，这个我觉得可能一两个月就会看到变化了。现在呢是研究和推理领域，肯定会越来越小众。面向普通用户的方向的话，各种的APP，各种的这个用户交互方式，这块呢现在大家就可以去干了，2025年应该是这一块可以出成绩的时候。

另外呢，就是具身智能必然会爆发。其实我们这一次看OpenAI 12天的连续发布会里头，真正让我感觉很震撼的东西是什么？就是带有视觉的高级语音。你可以开着摄像头对着自己跟他聊天了。这种东西你扔给了具身智能的机器人，再要求OpenAI直接输出代码，说来你给我输出代码，然后我用这个代码去控制机械手。技术变化了以后再给你进行一些反馈。

现在的OpenAI大模型，其实已经距离控制机器人非常非常接近了。所以呢，这些机器人公司应该发力了。

新的具身智能未必长得像人，只需要做好插件、传感器、动作执行以及反馈这一块就行了。下边就是怎么提高技能、提高准确度、降低成本。这就是2025年可能提给所有具身智能行业的一个要求了。后边大模型的部分不用管了，扔给OpenAI就完事了。

带有视觉的实时语音，会改变每一个人的生活方式。这个智能的硬件产品包括一些新软件产品或者网页，在2025年的话，应该会有非常多的涌现。

最终总结，2025年依然是AIGC的一年。虽然前面OpenAI连续12天的发布会让我感到稍微有些失望，但是他还是尽到了责任。不是说发布了什么让我特别感到眼前一亮的革命性产品或者什么iPhone时刻，没有。但是呢，他依然作为老大，执行使了他的义务，就是为整个行业指明了方向。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o，中国AI厂商是否迎来春天？新的时代到来了，历史的车轮滚滚向前。

Luke Fan — Thu, 25 Jul 2024 01:00:20 +0000

Llama3.1 405b突然开放，指标上全面超越GPT-4。中国厂商们是不是又可以充了呢？大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲Llama3.1 405b 开放的事情。

Llama的开放，每一次都比较有戏剧性，都会有偷跑。什么叫偷跑？就不是由官方开了发布会，说我今天发布了一个什么产品，而是一般都是在Reddit这样的论坛里，突然就有人放出磁力链来，大家可以去BT下载Llama3.1 405B，包括Llama3.1 405B相关的各种测试数据，都是这么被发现的。头一天偷跑了以后，第二天梅塔说那算了，我开了吧。当时好像Llama2也是这么开出来的，现在Llama3.1 也是这么偷跑，完了以后就正式开放了。

他在跑分上已经全面地超越了GPT-4，基本上在各个指标上都超越了。这是非常非常难的，因为以前大家推出的各种模型里头，都是在个别指标里面超越GPT-4O或者超越GPT-4。那么在各项指标上全都超越的，这应该是第一次。当然了，它也是分很多版本的，分为8B、70B以及405B这三个版本。405B已经完全超越了，下面小一点的8B，应该比原来的Llama370B的效果还要再好一些。它的70B基本上针对前两天发布的GBT4OMINI，属于碾压状态。

Llama3.1 现在支持8种语言：英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

这个里面没有中文啊，不用他们担心，中文我们自己会搞定的。这就是他们现在发布出来的模型，上下文窗口呢，从8K直接涨到了128K。Llama3是8K的，啊，现在Llama3.1 就直接128K，但是我还用不上，为什么呢？我想要去用这个Llama3.1 的，啊，405B这样的模型我肯定没法在本机上用，这玩意你肯定还是要很多的显卡，才可以把它刨起来的。所以一定是云端，用这么大的模型，你要给它这么长的上下文的话，通常那个压力是很大的。

所以现在我去看到的，比如像together AI上面的Llama3.1 的模型，里面啊，应该是8B的和70B的给的是32K，405B只给了4K，就是你超过4,400以上他就不干活了。超过了以后，我估计就会变得非常非常贵，工作的耗或者工作的成本就会变得很高。所以我现在能够用到的Llama3.1 ，405B只能是4K的，就是上下文4K。405B呢，也是Llama系列的第一个支持多模态的大模型，原来的都是纯语言模型，现在可以支持多模态了。

但是怎么说呢，如果只能用到4K的话，多模态意义不是很大，你塞不进去东西去。这还要看未来，是否有人愿意开放完全上下文的这种Llama3.1 的模型给大家去使用了。Llama到底算不算开源，对吧？我们刚才讲他开源开出来了，Llama是不是开源这件事情呢，也是有一定争议的。开源这件事情并不是说我把所有东西都开出来，你就随便去用就叫开源。

开源本身是一个在法律框架下，遵守一定的开源协议的商业模式。这个东西是要收钱的，大家可以去规定说我开哪部分，不开哪部分。当然了，也有一些原教旨主义者，他们其实是开放软件的一帮推崇者。他们认为Llama不算开源，为什么呢？

第一个，Llama只开放了部分代码，并没有把所有的代码都开出来；第二个，只开放了模型和参数，没有开源训练数据和完整的训练过程。如果是开放软件，这些东西都应该拿出来。而且只开放使用，他对使用还是有一定限制。开放软件这帮人说，你要叫开源，就得把所有的权利都拿出来，不能有自己任何权利保留。

这个是Llama在这块有一点点的小争议。对于Llama来说，它到底是限制了什么？在使用上，你说大家都下载了，都去用一下，我在本地上也下载了，它到底限制什么呢？

第一个，他不允许用Llama3训练新模型。这也很有趣，实际上现在国内大量的新模型都是拿Llama去训练的，但他这个是不允许的。第二个，用户超过7亿的，需要单独向梅塔申请。这其实就是针对中国的，全世界的公司里头，用户量超过7亿的，除了美国的那些之外，剩下的基本都在中国。他现在也有要求说我已经设置好了，超过7亿都不行。

但是，这个都属于叫君子协定。什么叫君子协定呢？就是我不告你，你也没办法。如果算告的话，可能也很麻烦，你去取证，做各种各样的法院诉讼的过程都会很长。但是，从道德制高点上来看……

他已经站在上了。你比如说，用户量超过7亿，还拿他去训练模型啊。假设是字节跳动吧，对吧？那个用户量肯定超过7亿了，而且跟美坦直接竞争啊。如果字节跳动拿着梅塔的Llama3去训练自己的模型了，这个事情对于Llama来说，他是可以告你的。

另外一个超过7亿用户，还去训练自己模型的是谁呢？天问啊，闻心眼，百度啊，都是在这个范围内。那么，Lama呢？如果不是走这个原教旨主义的判别标准的话，它算是开源的。但是，按照原教旨主义的标准来判定的话，它也算是个假开源吧。甭管是不是真的开源，但是Llama现在已经开始从开源受益了。很多人搞不清楚开源这事到底咋挣钱，正好趁着今天Llama3.1 405B的这个项目，来跟大家讲一讲开源到底是怎么盈利的。它为什么是一个商业模式啊？不是雷锋。

现在呢，Llama已经让时代的车轮滚滚向前，停不下来了啊，肯定是往前滚滚过去了。那些号称使用开源就是交智商税的CEO们，应该会在车轮下发出悲鸣了。Llama在Llama1、Llama2、Llama3到现在的Llama3.1 之间，一直在这开源模型里头是扛鼎的。他是做得最好的一个，做得最大的一个，其他人就会跟着他去做。对吧？我会在Llama的基础上进行微调。我在Llama的基础上准备微调Llama的数据，准备微调Llama的各种指令集，或者说准备使用Llama3微调一个什么呢？微调一个多模态的模型出来。前两天，斯坦福大学抄袭清华大学的那个模型，就是拿Llama3微调的多模态模型，还有很多人在Llama3的基础上……

去微调上下纹，让上下纹变长。所有的这些，你没有发现吗？就是从Llama3到Llama3.1 之间的这些变化，波太了啊，成上下文了。再加上什么？再加上各种各样的开源数据集，以及开源的指令微调数据集的参与训练，就从Llama3变成了Llama3.1 。它等于现在成为了一个潮流的标志，所有人做的这些数据也都是开放的。这些数据在哪呢？在HIKING face上啊，HIKING face上存了非常多的这种兼容Llama3格式的数据，兼容Llama3格式的指令微调数据集，以及各种各样的用Llama3已经微调成功的新的模型，甭管是长上下文的，还是多模态的都有。

好，现在Llama3说来，我把你们都收下来，我也开放了，你们也开放了，我收下来，然后我再把Llama3再重新训练一下，再把剩下的参数都堆进去，啊，堆一个405B出来，4,050亿参数啊，直接推出来。所以呢，他这个开源真正盈利的方式，大家听懂了没有？这两个字啊，叫做标准。Llama是通过成为标准，让所有在做大模型开源的人都依附于这个标准。这不是强制标准，这个是事实标准，大家依附于这个标准，然后做出生态来，整个生态的价值提升了。

Llama3直接把Llama3基础上的这些开放数据拎回来再去训练，就变成Llama3.1 。Llama3.1 出来以后，一定还会有很多人再在这个基础上，再去做大量的新的数据，再去微调，让Llama3.1 可以去适应更多的场景。那么是不是就快该有Lama 3.2了？就是开元战胜必元，或者开元。

整个的盈利方式就是这样。第一个叫做标准，事实标准；第二个呢，叫做生态。这两个东西一起往前走的时候，整个开源的系统就会快速地超越闭源系统。

很多人在讨论，开源到底便不便宜？咱们Llama3.1 的价格到底怎么算呢？我看了一下together上的价格，因为它是开源的，你可以把它拉到本地来自己去装。虽然我现在没有装这些东西的设备，斑马3在我的机器上可以跑8B，跑到70币已经跑不起来了。70币的话，至少是一块四零九零，再加上大量内存才可以跑起来。

像这种四零五币这样的模型，我已经不愿意去算我需要什么样的硬件它可以跑起来了。这个事情对于我没有意义了。所以呢，我们用云端可以跑Llama3服务或者Llama3.1 服务的这些服务器上给的价格为参考。他们给的是什么呢？就是Lama三点一的70币，每生成100万TOKEN是0.9美元，就是90美分；405B就是这4,050亿参数的这种大模型，生成100万TOKEN是5美金。

咱们呢跟其他人比一比，比如说open AI的。open AI现在当打的是GPT4欧，GPT4欧的输入是5美金，每100万TOKEN，输出的话是15美金。100万TOKEN desert上的这个TOKEN的价格应该是输入输出都一样的吧，但是5美金。统一的最新的呢是GPT4欧mini，是0.15美金输入，0.6美金输出，这个价格呢。

跟Llama3.1 的8臂的价格其实是差不多的，所以那个时候，为什么猜测GBT4欧MINI可能是一个8臂的模型，因为从价格上算的。Anceropic，那他们家的cloud是什么样的价格呢？3.5 sonit是输入3美金，输出15美金，也要比to get在上面Lama 3.1405币要贵。

至于Opus啊，就是Anceropic的cloud 3 Opus，这是它们最贵的、最大的一个模型。输入100万TOKEN，15美金，输出100万TOKEN居然要75美金，非常非常昂贵啊。Gemini呢，相对来说便宜点啊，Flash是输入两美金，输出6美金。Pro呢是一倍，输入是4美金，100万TOKEN输出呢是12美金。

所以啊，Llama3405B呢，相对来说还算便宜啊，就是输入输出是5美金，还算便宜。如果他的100万TOKEN在10美金，但是你让我使用128K的上下文，可以让我使用多模态，可以上传图片，可以进行识别，上传声音可以进行识别的话，那么我觉得这个价格也还是可以接受的。

在Llama3.1 405B发布之后，这肯定是一个诱化时代的产品发布了，代表着车历史车轮滚滚向前，把历史翻开了新的篇章。那么谁会挣钱啊？挣钱的呢，就应该是这种开放的云托管平台就会开始挣钱了，对吧？因为刚才我讲了，405B这种东西在我们本机是跑不起来的，哪怕是我一个单位里头自己有服务器，你想把它跑起来也是基本不可能的。

所以，一定是到云端去使用这种模型。那么，谁在干这个呢？刚才我们讲的 Together 就干这个的。另一个呢，是 Grop，专注于推理芯片的，他们也是在做类似的工作。现在，Grop 和 Together 上已经开始有Llama 3.1 的模型可以用了。这个刚才我查的Llama 3.1 的价格，就是在 Together 上查的。

然后，危机流动，也就是国内对标 Together 的这个项目，现在他们也可以在这种项目上受益。虽然这个上面没有Llama，因为Llama没有在中国进行过审核备案，但在中国使用的话，一定会有问题。不过，要相信我，中国团队会冲的。既然煤炭已经出了 405b，中国人就会出 410b，420b也会出现这样的模型。

那么，这种模型出来以后，也会到硅积流动上去跑。他也可以收到一个，比如说 100 万 TOKEN，十几美金的这样的一个价格。其他的这些云计算厂商，比如谷歌、微软、亚马逊，国内的像阿里云，都将受到这样的利好影响。

最后，我们讲一下中国团队是不是要冲锋。原来都讲人家一开源，我们就自主研发，自主知识产权。这个事一定会的。很多人说，中国的大模型就是自己研发的，跟他没有什么关系。这个你要相信，没有任何问题。我也可以相信。我们来看一看，中国最早的大模型，其实跟Llama是没有关系的。这个事一定要讲清楚。最早的是什么呢？最早的是拿 GPT2 开源的版本去修改，去使用出来的。

国内的某些最早期出大模型的大厂，他们的大模型里头有一定的GPT2的影子。后面Llama开源之后，国内才开始涌现了一批开源大模型公司，但他们都不承认使用的是Lama的模型。他们都说我们是在Lama的启发下，从头训练的。在Lama 2发布之后，各种应用公司就开始冲锋了，不再是模型公司了。很多应用公司也有一些新的模型出来可以用。这些模型到底是从头训练的，还是拿Lama 2去做的微调和修改，这个不得而知。

国内大量的企事业单位开始用上这些模型。等到Lama 3出来之后，各个开源模型公司纷纷更新版本。像Llama3发布后，影义万物、同一千问，包括很多这种不开源的模型公司，都在纷纷更新自己的版本，号称我们都去对标GPT4了。在中文领域里头可以超过Llama3了，英文里头稍微有一些偏差，也还是可以理解的。

这就会有这样的一个明确的时间划分，到底抄没抄，这事我们也没有明确的证据。我们只能说，这个时间点都非常非常的巧合，你爱信不信。而且在Llama3出来以后，中国的各个模型公司在做的一件事是什么？就是开始打价格战。咱们开卷吧，这个是为什么呢？因为中国大模型公司卡在100币这个位置上，因为Llama3开源出来的就是8币以及70币。所以中国很多是9币和72币，我在这个基础上再加一点点。你说我再往上训练，到底拿什么样的东西去训练，或者往哪个方向训练。

其实是不知道的，所以卡在100币，没有往上走的通道了。那我们先卷价格，等一等看看风向再说。现在风向又变了，405B出来了。而且405B并不是Moe。什么是Moe？就是专家模型。405B，它是一个单体的Transformer的模型。这样的话，大家就知道，原来大模型长这样，我们可以去搞一次了。这个是值得去借鉴的。

国内其实也出了一些Moe的模型，比如像千问自己，有一个五十几b的Moe模型。另外也出过一些100多币的这种Moe的模型。但这种100多币呢，它是由很多个小模型拼起来的。每一个小模型可能还是二三十币，或者这样的一个水平。拼起来的单体的上百币的模型，原来中国人是没做过的，现在有开放出来的。那么中国公司是必须充，方向都已经指明了，不冲等啥呢？咱们就看这个到底需要多长时间了。

但是，对于Llama3.1 405B来说，能够冲上去的公司并不多。为什么呢？咱们看一下，Llama3.1 8B呢，用的146万GPU小时。这个玩意儿怎么算呢？就是说用H100，我用146万个小时，就可以细算出来Llama3.1 8B。那你说这么多怎么弄啊？人家又不是一块在这算，对吧？人家一下上几万块。梅塔手里头号称有50万块GPU，他这个数据一除除的话，就很快就可以算出一个斑马3.18B。然后呢，Llama3.1 70b呢，用了700万GPU小时，也就是H100 GPU小时吧，应该这么讲。

然后，Llama3.1 405b 用了多少呢？3,084万H100 GPU小时。梅塔自己呢，是用了1.6万张H100进行的训练。他并不是说我分别训练8B、70B和405B啊，他们正常应该是训练了一个405B，蒸馏出70B和8B。但是，你还是要去用3,084万H100 GPU小时的这个时长去算。如果是1.6万张H100的话，那么是需要多长时间呢？80天，两个多月就可以把它训练完的。这个价格是很贵的啊，H100是4万美金一张。而你，比如说我能够有这么多钱，人家还不卖给你。就算人家卖给你了，你烧得起电吗？这个H100的功率是700瓦一张啊。你想，这一万多张，他有多大的功率，这是非常恐怖的一个数字。这还光算了H100，主机的这个电压、主机的功率还没算在里头。算完了主机之后，机房里头最大的耗电户既不是H100，也不是主机。那么，也有人说，难道是交换机吗？难道是路由器吗？难道是这些东西吗？都不是啊。我告诉大家，所有的机房里头，真正的耗电大户是空调。H100耗了700瓦的电，疯狂的发热了。以后，你不能等着它冒烟着火，对吧？一个封闭的机房里，你再要把这些热量排出去，你还要再用更大功率的空调来把这个热量交换掉。所以，这是一个非常巨大的工程。在国内，玩得起的公司基本上都被扎戈伯格限制了。第一个，人家想了说，你不可以拿Llama再去训练新模型了。第二个，所有用户量超过7亿的公司。

你要想去用Llama，你要跟雷塔申请特殊的许可证。咱们国内能够训练这样的模型，又有7亿用户的阿里、字节、腾讯，他们如果没有向美塔专门申请过许可证，那你就只能说这是我自主研发、自主知识产权，跟你没关系。但到最后，如果被海外应用的时候，被梅塔抓住把柄，说：“哎，你这个里头跟我那是一样的。”那么这个官司就有的打了。

那扎克伯格自己对于中国开源项目的看法是什么样的呢？你说他装没看见，这事肯定是不行的啊。在Llama的基础上进行开源、内容创作、进行微调、进行数据准备，最积极、干的活最多的就是中国团队啊。那么扎克伯格肯定不能装没看见。

所以扎克伯格也说了，开源可以让中国之外的盟友和小公司一起进步。如果我闭园了，大家去通过间谍、通过拷优盘拷贝、通过各种方式得到模型参数、得到模型数据的能力都还是很强的，并不是说我闭园了，中国团队就得不到了。我要开园了呢，中国团队也能得到，我其他的像什么法国、欧洲的盟友，还有很多的小公司，他们也可以得到这些数据，他们就可以跟我一块进步。

他讲的是这样的一个逻辑。这其实特别有意思啊，美国你去看看，现在美股七姐妹也好，或者是其他的比较靠上的这些美股科技公司也好，他们都是有大量的中国市场订单或中国市场份额的。每一家都是在这揣着明白装糊涂。你把这个东西开放出来了，一定是极大地刺激中国的大模型发展，而且现在已经没有天花板，没有任何问题。

我们就可以快速地达到，超越GPT-4的这个水平了。我相信，可能在未来的一到两个月里，各种模型就会再去更新升级，推出全面超越GPT-4的版本出来。现在这个压力给了OpenAI，如果比赛不更新，再拿不出GPT-5的话，就要彻底落后了。所以，扎克伯格自己心里是心知肚明的啊。他完完全全是为中国大魔星开绿灯。

至于其他的他的盟友，这些小公司到底有没有赶上，可能在努力追赶，但应该并没有。从梅塔的开源里，真正得到最大利益和实惠的事情是没有办法的。但是同时，他也抹了一个悉尼，说：“你看我开不开源，他们都能得到。”这个都是这么干。

另外，他也讲说闭源是让个别公司憋大招。他说：“我们从来不认为最后只有一种达摩型。”那些只认为最后应该只有一种达摩型的人，他们是在干嘛？他们是在自己偷偷创造上帝。这个事是非常可耻的啊。我不知道作为一个犹太人，他如何去解答这种，或者如何去看待这种自己偷偷创造上帝的这个过程。

总之，他说这事不行，非常可耻，一定要开源出来。而且现在看，开源正在超越闭源。这就是我们今天要讲的，拉嘛3.1405B的发布，如何搅动风雨，如何让中国团队冲锋，给中国团队指明方向，以及扎克伯克对于这个事情本身到底是怎么看的一个故事。

好，感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。