工程师 – 老范讲故事｜AI、大模型与商业世界的故事

英伟达黄仁勋CES霸气登场！鳄鱼皮夹克发售5090显卡，钱包快捂住还是准备剁手？

Luke Fan — Thu, 09 Jan 2025 00:39:50 +0000

黄教主已经在CES上吹响了号角，准备好钱包了没有？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲CES上，全村最靓的仔黄仁勋。黄教主都发布了一些什么东西？我们是不是要准备好钱包去买东西了，还是说咱们稍微冷静一下？

现在AI嘛，市值最高的公司英伟达，作为英伟达的老板，黄仁勋在整个的CES大会上一定是最靓的仔。其他做AI的人，可能还没有他这么风光亮丽。为什么呢？因为CES呢叫做消费电子展，那些做云计算的人，你们靠后站。黄教主是要来发布游戏显卡的，他是来玩消费的，这个还是有很大差别的。而且整个的AIGC玩了两年多，唯一挣着钱的就只有黄教主自己了，其他人都在这赔本赚吆喝呢。所以呢，人家一定要风光亮丽的跟大家做一个演讲。

咱们先看一下皮衣教主，因为他走到哪穿个皮衣嘛。他这个皮衣呢，这一次是一件新皮衣，不是以前穿过的这些旧皮衣。这个叫Tom Ford设计的一个皮衣，这个皮衣呢叫鳄鱼皮印花皮夹克。就是我们可以看到这个皮夹克上有很多非常大的花纹，这个东西呢叫鳄鱼皮印花。就是你如果买了什么鳄鱼皮钱包或者是鳄鱼皮的皮鞋，上面就是这种大花。我还真没见过鳄鱼皮夹克，他这个皮夹克呢应该不是鳄鱼皮的，应该是牛皮的，只是呢把这个大花纹给你印上了而已。

但是这个夹克也不便宜了，8,990美金一件夹克。但是这个对于现在全世界市值最高的公司的创始人和CEO来说，不穿这样的夹克，估计也真的压不住场子了。首先上来讲的第一个，肯定还是数据中心业务。虽然这是消费电子展，但是数据中心业务才是英伟达现在真正的核心价值。那么消费电子展呢，游戏显卡是跑不掉的，5090这个一定要上来好好跟大家show一下50系显卡。

然后呢，是整了一个非常奇怪的新品，叫project DigITs。这个东西长得像Mac mini那么大的一个超强算力的AI主机，因为看Mac mini卖的很好嘛。

所以，要出来跟大家show一下。后边呢，还做了一些软件部分的发布，这一部分基本上可以忽略不计。至于其他机器人的部分呢，2025年我们看到成品满街跑的，这个可能性也不大，所以我们就后边省略掉了。

首先，黄教主上来以后，先举着一个大盾牌，把一堆的芯片拼成盾牌那么大，就像美队一样，举着个盾牌就上来了。这个东西是什么呢？叫Grace Blackwell NV link 72。当然了，GBNV link 72呢，长得并不是真的这个样子，他只是说跟大家表演一下这个东西，把芯片铺开了应该是这样。

英伟达的显卡一般叫B开头的呢，就是它的GPU，就是Blackwell框架，黑井框架。说B200、B多少，这就是GPU；G开头的呢，实际上是CPU，叫Grace。这个东西呢，是ARM的CPU。所以呢，这个叫GBNV link 72呢，就是36个Grace CPU，加上72个Blackwell的GPU拼在一起，加上这种高速连接，整个拼一块儿以后，做的一个高性能运算的主机。大家可以在这个上面去训练模型。

它呢，现在只是把这些东西都拼成了一个盾牌的样子，给大家看一眼。如果真的是一个这个GB 72这种东西的话，它是举不上来的，那个机器拼在一起是1.5吨。但是消费电子展呢，给大家看这个意思不大，看过了就知道了。

现在数据中心是谁是老大？今天的真正重头戏5090、5090D、5080、5070，也就是50系显卡。前面的40系显卡、30系显卡，我电脑上是一个3060，我儿子电脑上是4070。什么时候会去长这个数呢？就是他的显卡的架构换了。40系的是A系的显卡，叫ADA的这个芯片；到50系呢，就是B系列的，就是Blackwell黑井系列的这个显卡。

它按照黑井系列整个架构重新设计的，所以呢，5090、5090D、5080、5070这些显卡，大家可以认为，跟我们现在去买的什么GB200或者B200这样的GPU吧，是一样的这个架构。

5090跟5090D的差异呢，就是5090的就是为中国生产的阉割版本。就跟原来美国制裁中国，说你们不可以去用4090了，中国就开始卖叫4090D。D呢，现在有两种说法，一种呢说是叫精简的，还有一种说法呢是Dragon，就是专门为龙设计的这个芯片。就是它里面的CUDA的核心数量、连接的这个速度，以及里面的这个内存的大小和连接速度，都是受到限制的一个设备。

当然，即使受到限制了呢，它也要比这个传统的4090还是要快的。这就是5090和5090D。然后5080和5070呢，要比5090 GPU的扩大的核心要更少一些，而且呢价格也相对来说比较便宜。现在呢，很多人就觉得天塌了，为什么？因为显卡这个东西呢，其实一直是作为一种金融产品，或者叫理财产品来去处理的，它有很强的金融属性。而这一次呢，黄教主干了一个事情，就是降价。他的5090呢，其实降的并不多，应该比4090还要贵一些的，但是呢，他号称说5070价格还是非常便宜的。对于原来那些囤4090的人来说，这个天就塌下来了。

整个的性能来说的话，我觉得我们就没有必要去跟大家讲说，它到底有多少CUDA核心，怎么算呢，这个其实没什么意义。它里边做了一个新的东西，叫大力水手4DLSS 4，可以在显卡内部进行更多的这种直插帧的运算。游戏原来输出的比较低的帧率、比较低的这个分辨率的这个图片，它可以通过插帧、插分辨率的这些功能，让我们看到一个非常非常高帧率、非常清晰的一个画面，是他们真的这个新功能。而大力水手4必须在50系显卡上才可以走，而这个40系显卡最高可以看到大力水手3.5。如果想使用大力水手4，你就要老老实实的去买50系的显卡。

也是很多人在去批判，说黄教主你这个刀法实在是很精准，也是如此了。有多少人需要去买5090呢？其实原来买4090的这些人，在挖币已经过时之后，他们到底能不能把这个4090的钱挣回来，其实是很难说的。

虽然他有金融属性，但是原来主要是拿他挖币。以太坊已经不用4090去挖币了，人家换了新的这种凭证方式了。那么4090可能也就是说，第一个打游戏用，第二个呢，拿它去做一些本地的渲染，或者是本地的大模型，比如说Stable Diffusion。我在本地跑一跑，也就干一些这样的事情。

那么现在上5090到底有没有这个需求呢？其实这一块的需求和动力是不足的。为什么呢？就是你在本地去用这样的一个设备，你真的需要那么大的分辨率、那么高的刷新率，然后有那么好的游戏吗？其实没有。游戏跟显卡之间呢，都是矛跟盾的两面，要来回翻来翻去的。首先是游戏更新了，然后说OK，我们现在需要更好的显卡，否则的话这个游戏跑不到最高帧率。

现在这几年呢，其实游戏并没有这样的东西出来。可能大家可以去期待一下GTA6，当然GTA他们一般优化做得还可以，所以呢，未必需要这么高规格的显卡才能带得动他。可能3060、3070都可以跑得起来，因为做游戏的人他也想清楚说，如果我做一款游戏只有5090才能玩的话，那我这游戏能卖几套？而且呢，游戏如果帧率太高的话，其实人眼已经看不到了，所以这个帧率是有极限的。而这个分辨率呢，其实你到4K也算是到极限了，你再往上其实已经做不上去了。

所以现在呢，其实在游戏这一块上说，需求动力不是那么足。至于说从大模型或者这一块来说呢，更多的人还是愿意去使用像A100、H100这样的专门的算力卡，而不是说来去使用这种游戏显卡。因为游戏显卡其实它的设计侧重还是不一样的，你拿这种东西去做大模型的话，并不那么划算。

50系列呢，到1月30号，5090的这个显卡就可以在外面买到了，可能要到3月份5080、5070的这些显卡会逐步的面世。再往后一段时间呢，会出笔记本用的50系显卡。现在呢，像什么ROG，这个叫败家之眼，他们已经在开始官宣他们搭配50系列显卡的这些笔记本了。

我估计在买到差不多得到年中了吧。5月份才能买到，而且以英伟达这个显卡升级的速度的话，我觉得可能过一两年再去买这个东西，也还是来得及的。一般是说显卡提升了以后，这帮做游戏的再想一想，说：“哎，我是不是可以再去做一些更复杂的游戏出来？”慢慢地去淘汰这个低端显卡，一般是这样的一个情况。这是今年的重头戏。

5090再往后呢，就发布了一个很奇怪的东西，叫project DigITs。这个东西呢叫做数字项目或者数据工程。我估计黄教主呢也是看旁边苹果整的Mac mini M4出尽了风头，这么小的主机，这么强的算力。很多人把它买回来去做大模型，甚至把几台M4 mini的这个主机拼在一起，还可以跑一些更大的模型出来。黄教主说：“这个我也行的。”这种设备呢，从结构设计上，甭管是谁设计的，但是从生产上来说呢，一定是台湾或者是大陆的这些果链企业去生产的。所以黄教主说：“你们谁去给我整个这玩意出来？”这个应该并没有什么难度。

黄教主这个时髦肯定还要改一下。那么它这个里边使用的芯片是什么呢？叫GB10。G就是CPU，它里头是有ARM CPU的；B呢是Blackwell的这个算力芯片，也都在里面。但是呢，GB10是没法去打游戏的，它没有这个图像渲染的能力，或者说它图像渲染的性能并没有那么好。大家主要还是要用它去做数据分析，去做大模型的训练和推理。

这个机器有128G的统一内存，这个还是很贵的一个东西。因为像我们在苹果上买统一内存，那玩意简直像金子做的一样，非常非常昂贵。你说我升硬盘，这个价格还可以接受，但是你要想给苹果的Mac mini或者是MacBook这种容易升内存，那真的是肉都疼。它这个里边128G的统一内存，4T的存储，这块不太值钱。然后里边的操作系统呢，是英伟达自己定制的一个操作系统，在乌班图的基础上去改的一个Linux操作系统。据说呢是可以跑200B的模型，这个已经是非常非常吓人了。

像我现在的MacBook只能跑三十几B的，72B的已经跑不起来。他这可以跑200B的模型，如果把两台连接在一起，就直接可以跑405B。因为现在我们有一个405B的模型，就是Llama3 405B，你们两个串一块就可以跑了。这个还是很吓人的。

当然，价格呢，肯定也得对得起它这些高端配置，3,000美金可真的是一点都不便宜。Mac mini应该是500美金还是600美金开始吧，最高的这个款式大概可能到不了2,000美金。他这个直接上来就3,000美金，这个大家自己看着办。

但是呢，发布会上有一些东西是没说的。什么东西没说呢？就是这个设备的功率和散热到底怎么样，他没说。英伟达向来不是以省电著称的，英伟达一直都是非常非常耗电的。像我们前面讲的5090什么这种东西，经常是可能五六百瓦。但是他这样的一个GB10的芯片，塞了这么点的一个机器里头，到底是有多少功率？到底是需要配多大的风扇？这个东西能有多吵，大家可能心里要有一个准备。

当然了，你想3,000美金我都花了，如果想动小了的话，可能很多人会觉得我这个钱没有花到地方。我花了钱以后，第一个重量要够。这个英伟达的老黄还是非常非常有经验的。你们去看那个4090也好，5090也好，那个显卡那么老大个，你把这个显卡拿起来，也是贼沉贼沉的。为什么？因为都是巨大的散热铜管以及风扇，还有很多的金属散热片。所以那个东西非常非常的重。

现在它发布了这样的小型主机，这个到底有多重？到底有多么吵闹？大家自己去思考一下。还有一个问题他没说是什么呢？就是这个东西到底能不能出口中国，这事不知道。刚才5090的时候我们讲了，专门得设计一个叫5090D的东西，是可以出口到中国的。5090的咱们中国的游戏玩家们就别想了。project digITs到底能不能到往中国出口，还得要再等一等，看这个东西也没有那么快了，应该还要再等几个月。

现在我们就是看一个形状就可以了。那么好了，大家是不是应该把钱包掏出来看一看了？我们到底是不是应该要去买这些东西了呢？什么人真正适合去买这个 Project DigITs 呢？

第一个，如果你是有钱人，这个不需要理由，只管买就完了。哪怕买完了以后，你从来都不开机，供奉在那里没毛病。你说我为什么供奉这么个东西在那呢？为你这个仓里边的满仓英伟达股票去祈祷一下不好吗？英伟达这个发布会发完了以后，老黄直接身价上升了，因为股票在暴涨。他已经是世界市值第一的公司了，基本上股票还在三个点几个点蹭蹭涨上去，这是多么神奇的事情。

那你有钱人说我买一个摆家里供起来，没毛病。至于其他的人呢，就真的没必要买这东西了。为什么呢？首先要注意，它里边用的操作系统是一个拿乌班图修改过的定制操作系统，一个用户量不大的操作系统，各种兼容性问题可以把普通用户折腾死。如果你说我不是一个专门的工程师，我就是一个使用 Mac 的用户，或者使用 Windows 的这种桌面用户的话，你就别用这玩意了，这个不是一般人能搞得定的，只有工程师才可以使用这种定制操作系统。

为什么呢？因为它各种的软硬件的配套以及升级，还有这种兼容性都很麻烦。如果真的需要进行大模型训练或者数据分析，这些人说是不是应该去买呢？因为老黄在上面讲了说，我们就是为他们设计的。建议呢，你们还是老老实实的去买通道式服务器。就算你想在家里干这个事，你也去买那个通道式服务器。

为什么呢？因为通道式服务器和 Project DigITs 这种东西，它都是非常非常吵闹的。你要想发挥出这么多算力来，你再怎么设计，它这个功率还是在这的，还是要去散热的。那你干脆就用通道式服务器就完事了，就把它塞到车库、地下室、阁楼，反正这种地方，因为这样的东西，它不适合放在卧室、起居室或者是客厅里边，因为太吵了。而且呢，做这种大模型训练的人最好是用云端的服务器，不要放家里头。

就算是你的数据非常非常的保密，非常敏感，也不建议你在家里边去部署这种东西。为什么呢？因为咱们使用这样的设备呢，都是临时性的，不可能说我一天24小时不停地算这个东西，从来不停，这个事的可能性非常非常小。你可能连续算一周，或者算两周，算完了以后呢，你还是要停下来的。

如果用云计算的这个机房，你只需要为这一两周的时间买单，就可以了。剩下的时间你就不用管它了。那么云计算的这些服务商，就可以把这个主机租给别人了，这个还是非常开心的一件事情。那你说：“哎，我把这东西买回来搁这了。”那你如果不用的时候，难道不是觉得心疼吗？

像这样的主机，正常情况下，如果没有那么高负载的时候，可能也很安静。但是你一看到这个东西很安静的时候，你就想：“哎呀，我这3,000美金是不是花亏了呢？”家里的骡子和马都歇了，这事不行。他会有这样的心理矛盾在这里。

即使你真的是数据科学家，也必须要配一个IT维护工程师，否则你真的没法使这种设备。你就想吧，各种软件的安装，硬件的兼容，这个是很麻烦的。如果我们在云主机上用这个东西，我们是怎么来干这个事的？我们是使用刀客各种镜像来干活的。

这个什么意思呢？就是我们随时需要云主机的时候，我们去跟服务商说：“来，给我搞台新机器来。”然后他把新机器给你了，你就告诉他说：“请按照什么什么样的方式，给我把这个环境搭建好用。”用完了以后呢，说：“现在请回收这台主机。”这个主机就又变成干干净净的了。你下次什么时候再用，你再去跟他说：“哎，给我再去整一台空机器出来。”他再给你整一个干干净净的机器，重新部署。

这个是我们使用云主机的方式。但是我们要想一想，我们用桌面电脑是什么样的方式？那个电脑多长时间格式化一次，多长时间重装一次系统？像我们用麦克的这些人，可能三五年吧，会重装一次系统，这个是正常的。为什么呢？因为这个系统变化相对来说比较少，不会天天的变来变去的。但是这些数据科学家，可能今天我需要用一个这个插件，明天需要用一个那个组件。

这个东西还不停地升级。那你这个玩意儿怎么弄？你就需要不停地格式化电脑，不停地重装电脑。如果没有一个IT工程师跟着你的话，根本搞不定这个事情。就算是正常开机的云主机，我们多长时间格式化一次？可能真的是每个月或者每周，你都会去格式化它。为什么？因为我们需要去维护这个电脑，需要去升级系统。那升级系统你再看看，哎呀，这个升级的东西跟那个兼不兼容，不费劲啊，整个格式化干净，重新整一次就完事了。这是使用云主机的方式。所以没有工程师去维护的话，这个东西摆家里一点意义都没有。

那么最终的结论是什么呢？就是光鲜亮丽的小废物。这个project Digits就算是一个光鲜亮丽的小废物，非常非常贵。如果我们赶个时髦，整一个放家里头，摆起来供起来，平时也没有什么任务让它跑，这个没毛病。你只要有这个钱，没有人能够说你什么。如果你真的想用它，那就算了，趁早打消这个念头。

至于说5090这些东西呢，我觉得你如果真爱的话就去买。现在应该没有什么游戏是必须要5090才能跑起来的。如果你说我一定要去玩stable diffusion，去画一些画，或者我要去做一些渲染的话，哼，也建议用云主机，不要用5090这样的东西出来跑。

所以呢，现在英伟达发布的这些东西，建议大家谨慎购买。至于软件的部分，虽然现在英伟达也在努力的开源，就是他现在新出了一些东西，都是open source的，但是呢，英伟达的软件除非像CUDA那样，一开始在非常小众的领域里头深耕很多年，否则不建议大家去碰这个玩意儿。为什么呢？因为英伟达的软件，用户交互这块是比较差的。英伟达向来不以用户交互这个事情见长，他们都是一帮资深的黑客，一帮这样的工程师范的人。他们认为所有人都应该是工程师。你像刚才我们讲的这个project Digits，这样的东西，如果不是工程师，你根本搞不定这个东西。如果是我整这么一个东西，可能我也得平时把它放在柜子里。

需要去做一些模型。微跳模型训练的时候，把它请出来。机器格式化，整个重装好，然后把一个任务跑完了以后，再重新盖到盒子里头，装柜子里头完事。这个才是他的正常使用方式。等下一次再把他请出来的时候，重新再隔热化机器，重新装系统，这个才可以去正常工作。

所以呢，因为他向来不是给普通用户来用的。就算是你说：“哎，我游戏显卡，难道不是给普通用户用的吗？”是，但是你玩的是显卡的吗？不是，你玩的是游戏。游戏跟显卡之间还是通过各种SDK、各种程序接口在打交道。我们普通人，是不跟那个玩意儿打交道的。而且呢，所有短平快在热点上搞的软件，都不是英伟达擅长的事情。

所以软件呢，跟今天咱们讲的CES消费电子展，这个事就没有什么关系了。就算你说：“我是玩大模型的，我是科学家，我是工程师。”这个事情呢，你可以去进行部署，可以去使用。但是英伟达做的相应的软件呢，特别是在这种热门的领域里头，也建议大家先去使用其他家的，先别用他们家的。因为这些年来，在大模型里头推出的各种软件，其实都没有怎么流行起来。现在大家使的，其实依然是CUDA这个东西。一抽遭蛇咬，十年怕井绳。CUDA大家使习惯了以后，最后就没有办法被他绑架了，必须要使，因为大家继续使下去。

现在老黄就算是摆出再怎么人畜无害的这种表情来，也没有人敢用他们家东西，而且真的不好使。所以在这一块里头，有非常非常多其他公司的这种替代产品、替代的架构可以去用。

好，这就是今天咱们讲的英伟达。黄仁勋穿着他的印花鳄鱼皮夹克，给大家发布的这些东西。然后钱包呢，捂好了，稍微关注一下。特别是project Digits这样的东西，3,000美金对于我来说是比较贵了，可能对于很多人来说好像也不是很贵。但是你先想想你用的了这玩意不？你说如果我摆着，就是为了让英伟达的股票好好的再涨一涨，那你去买，其他的就先别买这东西了。

好，这期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛。

参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

揭秘小猿口算风波：大学生为何集体“虐”小学生？教育平台寓教于乐的机遇与挑战分析

Luke Fan — Tue, 15 Oct 2024 01:45:53 +0000

大一也是一年级，研一、博一也是一年级。在小猿口算上，大学生进去欺负小学生了，这到底是什么情况？

大家好，欢迎收听老范讲故事的YouTube频道。今天呢，咱们这期节目是观众点播。有一位观众在我们Discord的群里头为我提出了一个问题，问我是否要讲一讲小猿口算到底是什么情况。

当时我说我不太了解，我去了解一下。结果进去一看，不得了了！很多的大学生进去虐小学生去了。

小猿口算是一个什么样的应用呢？它其实是猿题库出的一个应用。猿题库最早的功能是拍照片找答案，比如说现在老师出了一道题，我只要拿手机把它拍下来，就可以得到解题答案。这不是后来靠GPT去算的，他们有一个巨大的题库，你拍完照后，直接就能把解题步骤解出来。甚至在高考的时候，也会有人拍高考题让它去解题。当然，所有在高考期间拍高考题要求答案的，都会快速被猿题库报告给国家教委而被抓住，所以千万不要干这个傻事。

后来，猿题库觉得光靠这个挣的钱不够，他们能给小孩推一些什么广告，能给小孩卖些什么东西，于是就开始做猿辅导，还是要挣家长的钱。家长要给小孩报辅导班。这个公司最近就出了一个新的应用，叫做小猿口算。实际上在里面教一些数学的东西。

这个小猿口算是什么呢？就是它出一道题，你说这个数比内裤大还是小，或者是20以内的加减法，反正是一些相对简单的口算题。然后呢，设计了一些游戏性的玩法，大家可以在里面打打擂台，相互PK一下。结果一发不可收拾，很多的小孩在里面说：“我们进去算题，胜利几次后，家长就允许我们打游戏了。”结果他们进去一看，好，一晚上一次都没赢过，玩了一个小时，完全被虐，这就彻底崩溃了。

后来，大家问到底什么情况，结果发现里面的用户名就是什么“大一也是一年级”、“研一也是一年级”、“博一也是一年级”，这些人进去虐他们了。小孩们当场崩溃大哭，喊着：“我还想打会儿游戏，怎么就这样？”家长们也说……

你看看别人家孩子，这个“别人家”这个已经不是孩子了啊，已经稍微有点过保质期的这种孩子在里边去玩耍。而且呢，现在事情已经愈演愈烈了啊，到什么样的程度呢？大家要知道，在很多的这正儿八经的游戏竞技里头，特别是手游的这种竞技里头，打的成绩比较高的那些人，都是用什么手机打的，你们知道吗？这可能有些人说，是用iPhone打的呀，还是用那种专门的游戏手机打的，还是用什么电竞手机打的啊？都不对啊。在这种竞技类游戏比赛里头，分数最高的人都是用模拟器打的，在电脑上用鼠标打。

所以小猿口算这样的一个类似于游戏的作品，也就到了模拟器里边。到了模拟器里边以后，那就由不得你了啊，后边就可以写程序就可以去破解了。因为模拟器本来就是程序员去调程序用的东西，排到第一名的就全都是清华大学计算机系的人了。不是说清华大学计算机系的人的口算能力就比所有人都强啊，他们是写程序把这东西破解掉了。一上来先是看到题以后OCR识别，然后直接计算答案，就生写。他可以在一秒钟之内刷几十道题出来啊。

后来呢，他们这些人说算了，再算题也太费劲了，咱们直接截留网络通讯信号就完了。我只要看到题就直接判对就行了，我不需要再去解这个题了。这个现在已经都可以实现了啊，甚至还有人跑去直播说：“你看，我又虐哭了3个小朋友，我又虐哭了5个小朋友。”还有些人直播打赏，这个也很开心，就跟游戏直播一样啊，就是这样的一个事情。

那么大人为什么总喜欢欺负小孩呢？大家有没有想过这个问题？咱们经常讲一个事情叫降维打击。这个话呢，其实是来自于《三体》。在这本小说里面，总是讲说我们四维打三维，三维打二维。如果我比你高一个维度，我去进行战争，那你是完全没有任何反抗余地的。中国人呢，其实一直都在被别人降维打击，特别是近现代。我们用着大刀长矛去面对洋枪洋炮的时候，实际上就是一种降维打击。现在呢，我们看看，是不是可以降维打击一下别人，降维打击呢，就是坦克打骑兵的那种快乐啊。

无条件、无法反抗的那种胜利，中国人其实一直如此啊。我们不追求与别人平起平坐，要么我给你跪着，要么你给我跪着。所以我们一直在研究这件事情。那么大学生呢，其实也有被小孩烦坏了的时候，特别是在王者荣耀里头。因为小学生呢，情绪很不稳定，技术很菜，而且完全没有团队意识的一帮人。直到小学生可以上线打游戏的时候，大学生就不玩了。现在终于有一次可以上去虐小学生的机会了，他们肯定是不会放弃的。而且现在小学生也在呼吁说：“你们有防未成年人沉迷系统，咱是不是做个防成年人沉迷系统啊？”求求各位开发组的哥哥姐姐们，给做一套吧。

其实呢，我们做游戏也好，做很多的这种社交产品也好，使用的有一个很主要的策略，叫分层治理。这里头跟大家讲一个故事吧。在美国曾经有一个非常有名的交友软件，实际上是这种严肃交友，真的是要找男朋友、女朋友，结婚对象的这种软件，是由一个犹太人去开发的。有一次他去分享经验，问他怎么能够让这个软件上的人找到男朋友、女朋友去结婚呢？他说很简单啊，我们就是要给80分的男生看85分的女生。你不能给他看90分的，给90分的他就失去信心了；或者他开始追求了以后，这个90分的女生也会觉得自己用户体验下降了，什么神头鬼脸的人就来追求我呀。所以呢，你再好的，不要让他看到，一定要把它分层分开，这样就可以提高成功率。大家还都很幸福，一看：“哎，这个人好像还可以啊，赏心悦目。”然后呢，我们也配得上，你不会说来了一个人，就自惭形秽了。这就是一个很典型的分层治理的案例。

另外一个典型分层治理的案例呢，是TikTok。大家要知道，TikTok最早期是叫musically，实际上是给未成年人使用的。最早期musically的用户大概是12-18岁之间，还是14-18岁之间，其实基本上是未成年人在用这个东西。那后来呢，这些未成年人一方面是容易受到伤害，另外一方面呢……

就是他们各种广告变现啊，各种购买力其实都有问题。他没有信用卡，而且你给他展示广告的时候，各种成年人的广告你不能给他看。所以到后来，musically之所以改名叫TikTok的最主要原因，就是为了发展成年人用户。因为music的这个名字太低龄化了啊，而且这个已经在未成年人和成年人之间形成了心理上的刻板印象，印象musically就一定是一个未成年人软件，成年人不玩了。所以他们就一定要改这个名字。

所以今天的TikTok就是为这事来的。改完名字以后呢，他把未成年人都删掉了吗？也没有啊，这些用户还在。他还在等着这些人慢慢的长大，长成成年人。那么怎么来管理这些用户呢？就是分层管理啊。未成年人，你尽量要少看到成年人的信息；成年人呢，你要少看到未成年人的信息。然后成年人跟未成年人之间的这种沟通关注，还有这种私信，要尽量的给他封堵开，这样其实也是很好的保护未成年人的一个方法。

社会呢，其实本来就是分层的。咱们经常讲一句话叫“不患寡而患不均”。你分的钱多，我分的钱少；你家有钱，我家没钱。这个事呢，本身不是什么大问题。但是呢，一旦让人发现说：“哎呀，这个人这么有钱！”像咱们经常讲这个大明星，好像生活也很轻松，很娱乐也很愉快，怎么就能挣这么多钱呢？大家会觉得心里不平衡。这个就是因为我们看到了社会分配的一些个例吧。

那么怎么能够让大家都快乐起来呢？很简单，就是隔开。你也别看着人家挣多少钱，你也别看人过什么生活。这件事呢，其实在海外是相对来说比较普遍或者比较正常的一个现象啊。很多西方国家就是这种分层社会，有钱人他们过的到底什么样的生活，普通人也不知道。他也不到普通人面前来晃悠，也不是说我一定要欺男霸女一下，或者欺压一下穷人。他过他自己的日子就完事了，普通人过也是过自己的日子，互相之间并不是那么了解对方到底过什么生活。

包括最穷苦的人，人家做的也很开心，甚至也没觉得说我就没有尊严了，来了一个有钱人。

我一定要这个点头哈腰，一定要跪下磕一个，也没有这事。大家各自过各自的，其实这种分层社会呢，是对双方的一个保护。为什么你底层人看不到上层人过什么样的生活？你也就不羡慕这件事。你觉得，哎，大家都差不多，也都过得挺好，我也不用再去努力了，我也不用再去内选了，我把自己日子过好就完事了。

对于上层人来说，他们看太多底层人的这种生活，他们的心态也会崩的。所以我说这就是对双方的一种心理保护。那么，下一个问题是什么呢？就是如何让人长久的快乐下去？咱们前面讲了，降维打击让人快乐。大人欺负小孩，坦克打骑兵让人快乐。但是呢，除了真的变态之外，否则的话这种快乐是很短期的。你可能玩一会就没意思了。就是大人跟小孩玩，你哪有那么多耐心一直玩下去？如果你真的愿意一直陪着小孩玩下去，可以去当幼儿园老师啊。这种人其实还是挺稀缺的，绝大部分大人还是希望跟大人一起玩耍。

这跟大家讲一个案例吧。我们有一次呢碰到一个拼词游戏。什么是拼词游戏？就是西方报纸上经常出来的一种，一个大的板面上横着竖着多少列，然后上头有一些字母是填好的，有些字母是空着的，让你把这个词拼出来。大家要知道，做得最好的，或者说用户量最大、最赚钱的拼字游戏，都是中国人做的，不是英国人，不是美国人，不是这种英语国家的人。拼的也是英语单词啊，不是说拼中文的那个成语。

这些游戏都是怎么做出来的？有一次我找了一个在这块做得最好的人，我就问他们，我说你们这游戏怎么做的呀？怎么能够让这个用户一直愿意玩下去呢？而且愿意玩完了以后还看广告，还在里头付钱，到底怎么干呢？他就问我说，那你觉得我们这个词都是谁挑选的？就是这个游戏难度是怎么设计的？你有没有想过这问题？我当时想啊，我说这个一定是很厉害啊，因为我自己英文不是特别好。我说那你们这个词是不是找一帮大学教授、一帮语言学家来设计？说给你按照一个什么样的方式去调整这个词，让人愿意一直玩下去？他说不是啊，说我们这个词呢……

都是找这个应届大学生，或者在校大学生挑选的。后来我说：“这怎么挑选，一定是有一些我不知道的秘密，你得告诉我。”人家说了，其实很简单。他们呢，计算所有词的词频，这个词出现的多就是词频高的，出现的少就是词频低的。他把所有的词按照词频的这个频率吧，分成难易，就是词频越高就是越简单的词，词频越低就是越难的词。

然后呢，他始终去测试玩家的英语能力。如果你这个答对了，说明这个词你认识，那你会去答下一个稍微难一点的词。如果你答不上来，说明你的能力基本上就在这了。他会反复地出类似这样的词去给你。后来我说：“为什么这么设计呢？”他说很简单：“你看啊，给你一个词让你去猜，如果这个词你一眼就认出来了，你会感觉乐趣吗？”我说：“不会啊，这个事没什么意思。”他说：“如果这个词你吭哧瘪肚把它猜出来，猜完了以后你依然不认识，那你会觉得有乐趣吗？”我说：“好像也没什么乐趣啊。而我也不可能说，因为填词游戏，我猜对了一次，我就把这单词背下来，要能干这事我早背单词去了啊，这个也不行啊，也没有乐趣。”

他说：“那你说什么时候这个词最有乐趣呢？就是你把这个词好不容易猜对了，啊，猜完了以后你恍然大悟，‘哦，这个词原来我认识啊。’在这个时候，人才会感到最愉悦。”所以他会反复地去测试，精准地找到每一个玩家的英语水平的这个分界线，然后呢，在这个线的上下给你找到相应的词，让你去填。他是这样去干这个活的。

这个填字游戏的启示，是不是跟刚才我们讲的犹太人开发的找对象软件那个启示非常像？就是在你的接受能力上下的一个区间里头，找到一些能够始终刺激起你继续玩下去欲望的这个难度，让你接着把这个事情做下去，这就可以让大家一直快乐下去。

为什么讲到社会分层之后，我们会讲找到快乐这个话题呢？因为我们要想下一个是猿题库呢，并没有接住这一波破天的富贵，突然成为热点事件以后，一定是有破天的富贵砸在头上了，有流量来了嘛。那么猿题库呢，出现了小猿口算这样的一个社会热点，我就赶快去问我儿子。

我儿子今年大一啊，大一也是一年级嘛。我说：“哎，有这么个东西可以去虐小学生了，你知道不知道？”我儿子说：“这当然知道了，但是猿题库已经把算法改了啊。”改成什么了呢？就是如果发现你的水平很高的话，就会直接给你大学生题目，你跟小学生隔离开，不让你再去虐小学生，不让你虐菜了。他很遗憾，说已经没有这种乐趣了。

那为什么说这样猿题库就没有掌握住这个机会呢？其实有一个困扰着整个游戏界和教育界的终极难题，大家始终都没有解决掉。而现在呢，解决这道难题的某一个契机，就摆在猿题库面前。但是呢，他通过修改算法，把这个契机又重新弃如敝履扔掉了。

这个问题是什么呢？就是如何寓教于乐，如何让人能够在玩游戏的过程中真正学到知识，或者如何让人在学知识的过程中能够始终保持旺盛的好奇心和一直愿意去玩下去的这种求胜心理，然后能够让人上瘾地去学习。这个事情其实一直困扰大家，所有游戏公司一旦讲到寓教于乐，那这游戏一定扑街；所有教育公司一旦讲到寓教于乐，那一定学不会。

现在突然这么多人冲进来说玩啊，那么看看如何能够让大家玩下去，能够玩好，能够开心，这个其实叫破天的富贵，但是猿题库并没有接住。

最后呢，咱们再讲一下关于口算。口算这件事啊，老外其实并没有那么重视这个，中国人非常重视口算，从小就算。那你说口算到底有没有好处呢？我相信这事还是要辩证地去看，肯定是有一定好处的。他呢，培养了中国人普遍的数感。

什么叫普遍的数感呢？就是他对所有的中国人进行训练，所有的中国人都会对数字有一个相对好的感觉。这种感觉其实是有效果的。数感好的人对于很多数学和逻辑的问题呢，会有一种莫名其妙的第六感。什么意思呢？就是我一看这个题，我觉得它等于0，我还没算呢，但我有这种感觉。你算完了以后呢，很大概率确实是等于，你就是冥冥中觉得它应该等于的那个数字，都会有这样的情况发生啊。而且特别是经历了大量口算训练的这些人，他的数感会很强烈。

培养了中国人在数学面前的自信心。我们算数吧，这事有什么难的？像我似的，看着这种律师给我的，比如一尺厚的合同，我经常跟律师讲的话是什么？合同不就是一道数学题吗？已知条件是什么，来去求解。它实际上就是一个方程，把所有条件都约束好了，最后得出一个结果，就是这份合同。

对于我们这种工程师来说，或者理工直男来说，每一件事情实际上都是在解方程。你去做各种的投融资，做各种的这种协议，做各种谈判，难道都不是解方程吗？就是这么回事。这个让中国人可能会更加自信一点。而且只要是说到最后轮到解方程的时候，那有什么可解不出来的？这不就算完了吗？这是好处。

坏处是什么呢？坏处就是大量的口算练习，扼杀了很多中国人对于数学的热情，觉得这个事好烦，好没意思。就像现在在这个小猿口算里头，被大学生反复虐来虐去的那些小学生一样，他们会觉得好无聊，这个也是会很痛苦的。我们会看到最顶尖的数学家里头，其实并不都是中国人，而且可能老外的比例还高一些。这是为什么呢？因为很多可能能够成为顶尖数学家的人，在很小的时候练口算，可能就觉得这事很烦，就直接逆反了。

他不像国外似的，最后去看哪些人对数学真的有兴趣，然后再给你进行专项的培养。而中国的话，就是甭管你未来是什么人，咱们先练口算。有些人可能练完了以后就有兴趣了，或者一些可能数学天赋没有那么高的人，觉得自己“哎，我也可以”，这个事他就去了。但是有一些本身数学天赋很高的人，可能反而逆反了，这是反面的一个作用。

最后，我们总结一下偶然出现的热点。本来应该是认真对待，特别是小猿口算这个事情。寓教于乐和在游戏中学习，一直是教育界和游戏界共同思考的一个问题。本来我们又得到了一次，有可能解决这个问题的契机吧，然后这就过去了，让我们当吃瓜群众一样，在这吃瓜讲故事了。最后，适当的口算训练还是有利于工程技术素养的建立的，这个事对于最终培养大数学家未必有利。

但是，培养工程师还是有利的。这就是今天的故事。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI的GPT-o1 发布：科技大爆发的前奏，草莓模型震撼上线

Luke Fan — Tue, 17 Sep 2024 01:10:51 +0000

大家好，欢迎收听老范讲故事的 YouTube 频道。今天咱们来讲 GPT O1 发布，科技大爆发应该会到来。草莓模型终于发布了。今天我太太还问我说，这个模型发布了，对于你们这些科技圈的人来说，算是意料之外，还是算意料之中？这个事情直接把我问在那了。

其实，每一个人都希望赶快把草莓模型发出来。但是 OpenAI 从今年年初开始公布 Sora 到现在，他吹的牛有点太多了。到现在为止，这是我们真正见到的能够用的产品。虽然 GPT4O 也是能用，但完整的 GPT4O 其实到目前为止，一直没有彻底开放出来。而这个 O1 上来直接就开放了，今天早上凌晨 3 点突然上线，哐往那一挂，大家愿意用的都可以去用了。我自己也去用去了。他呢，也换了一个名字，叫 GPT-O1。所以呢，这就不是 GPT5。

未来可能会走两条路，一个是继续走这种直接进行语言生成的，而 O1 这条路，走的是深度思考，要去反思一个问题，要深思熟虑以后才去回答。所以他有可能两个路要分开走，而且两个模型可能会相互配合着使用。

现在的 OpenAI 呢，就跟 O 干上去了，OpenAI 以 O 开头嘛，它后边的仪态产品基本上都是 O。GBT4O 这个 O 叫 Omni，意思是全能。下一代大模型，也就是大家等待的 GPT5，它的模型的名字叫 Orin，猎户座。而现在的 GPT O1 意思是从零开始计数，从头开始。

这是一个什么样的大模型？他深思熟虑，具体里边是怎么做的，这个都是大家在猜，或者有一些很简短的文章，因为现在他也不开源，OpenAI 变成 Close AI 了。这个东西到底内部如何实现呢？大家只能猜。

现在就可以用 Plus 用户，像我就是 Plus 用户，一个月 20 美金，可以用到两个版本，一个叫 O1 Preview，预览版，应该是在正式的 O1 版本上裁剪出来的一个版本；另外一个叫 O1 Mini，O1 Mini 是要比 O1 Preview 还要再小一些的版本。但是这个额度非常少，少到什么程度？O1 Preview 一周 30 次，我今天大概已经用了有十来次了，后边几天我要省着点用了。Mini 是一周 50 次，真的是没见过这么抠搜的模型。以前的都是三个小时多少次，或者一天多少次，甚至有一个小时多少次，而现在这个 O1 都是一周几十次。所以用的时候一定要小心。

有人在去传说，准备上 200 美元一个月的 Preview 版本，这个属于传言。今天还去问了 GPT4O，被辟谣了，说我们不准备干这个事。
就是20美元一个月的这种Plus版本，我就让你用，只是数量少一些。未来，我们会想办法把这个数量提升上去的。这个O1的测试数据非常亮眼，数学能力极强。在2024年美国数学邀请赛上，能够达到全美前500名优秀学生的这个水平，这是非常吓人的。然而，他这个数学邀请赛应该是中学生，文中并没有说明到底是初中生还是高中生，但能够达到前500名的北美学生参赛水平的，已经非常高了。

物理、生物、化学方面，可以直接达到博士生的水平，这个也是很恐怖的一个能力。编程能力得到了极大的提升，在信息学奥林匹克竞赛里头，超过半数的参赛选手，如果是打开常考，让他慢慢的想，让他多试几次，是完完全全可以得到金牌水平的。在Code Forces平台做竞争性编程比赛上，已经超越了93%的程序员，已经算是一个比较资深的程序员了。

我自己也在里边做了一些编程的测试，确实非常的猛。我去向他提出一个很详细的要求，我说我现在要做什么事情，希望使用哪些技术，希望效率怎么提升，在界面上怎么去设计。当然，这个提示写的比较长，写完了以后，啪一回车，首先是漫长的等待。不是说啪一回车就出来了，这东西挺慢的。等一会以后告诉你说，应该在哪个地方，怎么去装环境，第一步做什么，第二步做什么，哪个里头有哪个文件，这个文件里写什么东西，啰里八嗦写了巨长的一段。我发现O1这个玩意是非常话痨的一个大模型。

而如果你不是像我这样用Plus版本去直接调用，而是说我要用API去调，那你就上了当了。他会啰里八嗦说半天的，而且他那个TOKEN的费用奇贵无比。那么，为什么讲这就是科技大爆发即将到来？O1其实并不是给普通人用的，普通人去玩GPT-4O就已经足够了。O1这种东西其实是给科学家、工程师、程序员用的工具。

现在限制科技发展到底是什么？其实数学是限制科技发展的一个很重要的因素。因为数学越往后发展，其实越反人性，必须筛选出极少数的数学天才，才能够继续往前面去前进。而且人类为了达到当前科技的高度，必须进行非常长时间的学习。你想，一个小孩从出生一直上到博士，可能研究才能研究点东西出来，这个时间得二十几年，甚至是三十年你才有可能能够学完。学习的成本是非常高的，而且筛选也很严格，因为学习成本很高，必须要选出最能够去学习的人去学。

但是筛选的过程又未必科学合理，不一定说一个筛下去的人，他就比进去读博士这个人差，也许你换一个人上来科技就发展了。
但是这件事我们不知道，没有任何可以试错的机会。在学习的过程中，也会扼杀创新力，因为我们不断地学习，实际上就在学习前任的方法，这会造成路径依赖。所以，其实是导致现在科技很难再往前走的一个很重要的原因。而且，我们必须要阅读大量的信息文献，才能够去做研发。为什么呢？如果不读，你只能重复造轮子。有没有人做过这个？没有查重，那你折腾半天做完了以后发现，哎，20年前有人做过了。这也是很正常的。而且，人的大脑不是说我读了大量的信息和文献，就可以去做新的创新的，而是什么呢？我们的大脑像掰棒子的狗熊似的，你把新的东西进来以后，就把旧的知识可能忘掉。你要想始终得到一个最新的知识，在这个基础上去做研究，这还是非常难的。

但是现在有了O1的帮助，这些问题其中一部分就可以解决了。我们不再需要进行严格的筛选，不再需要进行漫长的学习，让更多的人可以进来进行科学创造。整个科技大爆发，可以带来不同的变化。很多科技前沿的关卡，其实已经开始松动了。学习筛选的过程也必然会发生改变，以适应O1之后的科技研究。

我个人用的体验到底怎么样？首先说，个人使用O1的体验并不好。为什么？第一个是很慢，这刚才我讲了，一个回车下去，你要在那等。而且很贵，如果使用TOKEN API直接调用O1的成本，要比我们使用GPT的各种模型都要贵很大的一个比例。而且给的配额还非常少，你想，一个礼拜才给了你50次，这个事实在是让你不太敢打回车。

编程问题我去试了一个，刚才我们讲的说你给我写一段程序，他思考了多长时间？两分钟。你打完回车以后，两分钟他没理你，做完了以后再告诉你说我们整个用了两分钟，才给你输出了一个结果。每周三50次，这确实是有点费劲。

那贵到什么样的程度？O1 Preview的价格是GPT4O的3-4倍，输入100万TOKEN是15美金，输出100万TOKEN要60美金，这个是非常重的一个价格了。因为我们去写编程那个题的时候，刚才我说他写的特别话痨吧，直接输出了8,000多个TOKEN。按照100万TOKEN 60美金算的话，我等于那一次回车下去，我就已经花了大概0.5美金出去了，所以这玩意是非常贵的。

O1mini要稍微便宜一点点，100万的输入是3美金，输出是12美金，但是MINI可能有一些效果会稍微差一点。那比较一下4O，100万的输入是5美金，输出是15美金。
这个已经是现在大家可以用到的比较好的模型了，而4O mini就是4O蒸馏出来的小版本。100万的输入才0.15美金，100万输出是0.6美金。所以我现在大量的这种模型工作，都是使用的4OMini。而且现在API的调用还非常不完善。

怎么个不完善法？第一个，不允许加系统信息。你正常跟人聊天的时候，你说的话叫用户信息，他回复叫助理信息。正常我们去跟OpenAI聊天的时候，还有一个信息叫系统信息，我们先设定你是谁，张三李四，你擅长什么事，这叫系统信息。现在这个O1呢，是不支持系统信息的，也不支持函数调用，还不支持流式输出。

流式输出是什么？我们在GPT上跟人聊天的时候，GPT都是一行一行一个字这么出来的，因为它出的慢。如果你不是随想出来点什么，随出就会等很长时间。而这个O1压根就不支持这功能，你只能是打完回车生等，等到他彻底算完了以后，啪一把吐出来。Plus用户呢，直接就可以用，但不是很顺畅。为什么呢？他不能访问网页，现在只能是用他已经训练好的数据去给你回答，而且也没有搜索的接口。

思考的过程建议大家不要打开，因为你在这个Plus版本里头说，“现在O1不一给我去回答一个问题”，你打完回车以后，他告诉你说，“我现在在想，我在思考，我有一些什么样的问题。”他在不停的在变化。这个东西呢，如果你点他，给展开一个思考过程。我点开过，我问了一个问题以后，发现他思考的有中文的、有英文的，还有阿拉伯语的，讲的东西基本上是驴唇不对马嘴，完全在胡说八道。但是最后输出的效果并不差，只是中间思考的过程，我估计是什么呢，随便给你写一点信息，让你不要太着急。

所以这个中间思考过程大家就别点开看了。O1这一次的发布其实是非常匆忙的。为什么呢？第一个是钱真的不多了，要尽快完成融资，否则以OpenAI的尿性，肯定还是说我们再放个气球出来，放一个视频出来，让大家慢慢等，而不是说直接咔就把东西扔出来了。现在马上要融钱，据说他们准备融资60多亿美金，再贷款50亿美金。那么这些钱加一块，大概也就够他烧个半年或者八九个月这种水平，再往后可能还得再去找钱。

所以在这种情况下，有一个新的模型发布，对于他找钱来说是比较有好处的。而且O1的很多体验并不好，很多GPT上实现的功能其实都没有实现，包括刚才我们讲的不能接网页、不能接搜索、不能去做流式输出。
而且呢，还没有任何的多模态。比如，你要给他一张图，他认不出来。想让他去做题吧，你必须要先用GPT-4O把这个图识别好了，再把这个识别出来的题扔给他，再让他去做。他自己没有这个能力。而且O1其实并不太适合广大民众，广大民众真正需要的可能是他Orin猎户座大模型啊，而现在那个还没出来，到底什么时候出来不确定。OpenAI最近也不断有员工在离职创业，这对于吹了太多牛、拿不出产品的OpenAI来说，会造成非常多的困扰。

即使有这么多问题，GPT O1不是那么完善，但GPT O1依然是一个划时代的产品。O1应该怎么用？大家知道最早的程序员是怎么干活的吗？最早的程序员应该这样，首先在纸上写代码。那个时候这个机器是非常紧张的，不是说随时就有啊，个人电脑是很靠后才有的。所以呢，早期程序员都是在纸上写好代码，写完代码以后，拿打孔卡或者是打孔纸袋去编程。在这个袋子上打完眼以后，约时间，说我什么时间是要去上机。你要去约，约好了以后，到机房把这个纸袋也好或者是打孔卡也好，装到这个机器上，咔咔咔给你输进去，漫长的等待，在回收结果。回收完了以后，如果发现有错误或者不满意的地方，回去接着改程序去啊，然后再约下一次去上机。最早的程序员是这么干活的。为什么这么干？就是因为资源太少。

O1的使用其实可以参考刚才我们讲的过程。第一个，GPT Plus的账号上每礼拜只能使用几十次，所以一定要珍惜。第二个，就是很昂贵。如果你说我不希望被它限制，我要到这个API上直接调用，那么这个确实是可以突破限制，你愿意使用多少就使用多少，但特别贵。另一个就是反馈很慢，你不可能得到实时结果。

那么现在我是怎么用的呢？第一个，先用GPT-4O或者是4O MINI这样的模型整理提示词。我先要说我要干什么，请把提示词给我写好，要给你省一个非常复杂的提示词。在这个基础上你再改，改完了以后再让GPT-4O去给你修改，得到了一个完整的提示词，要把该问的事情都问好。做完了以后，满意了检查过了，一把塞给O1说行，这就是我要干的事，你去干去吧，进行漫长的等待，可能等个几分钟，接收完整的结果。因为他不能像4O似的，我随时聊，错了以后我再纠正你，我再告诉你哪错了，再给我改一改。他没有这个机会，因为交互次数实在太少，而且很贵。这是GPT O1的一个使用方法。如果你说我现在想用O1去解决一个问题了，建议你们像我这么干。
先用GPT-4O去整理提示词，整理完了以后，一把扔进去。这可以把这些珍稀的使用机会应用到最大价值。再往后，可能很多AI创业的厂商又该有噩梦了。现在，AI agent的创业公司，噩梦又轮到脑袋顶上了，因为每一次OpenAI发布产品，都会有创业公司突然死亡。

AI agent干的是什么呢？就是人工规划设计流程，将复杂的任务分摊到多个大模型，最终获得一个可用的结果。而GPT-4O基本上是把上面的活儿都替你干完了。你给它一个复杂任务，它替你分拆，分拆完了以后一步一步去思考，思考完了再反思，去检验结果，在结果里挑一个最好的，再把这个结论扔出来给你。

我们自己去设计的这些工作流，可能还没有O1内部设计的工作流合理。他这个可能又高效又合理，所以大部分当时做的AI agent，现在都没有什么用了。那么O1算不算一个端到端的系统呢？这个怎么说，响应速度和想一想的过程，说端到端稍微有一点点亏心。

那么现在GPT O1还不适合融入AI agent，因为它实在是太慢了。以前的AI agent要重新做，重新规划。怎么规划？原来的AI agent是很多小模型，通过一个流程处理一个明确的需求，然后再拼凑出结果来。那么现在就应该换了，还是用一堆AI小模型，在人工参与下，输出完整高质量的提示词。这应该是AI还可以干的事。

再把这个提示词扔给GPT O1，得到了结果之后再干嘛？再用那些小模型或者执行代码，再去把GPT O1的结果去分解。说到底要去做哪些操作，哪些的代码要去修改，哪个地方要去建文件，要把这个事情自己再去处理掉。因为这个O1后边的部分都没有，它只是负责把要求出进去，它把结果扔出来，它就干这件事。

GPT O1带来进步，肯定也会带来一些毁灭或者一些伤害，这个事永远都是这样。我们发明枪会有伤害，发明炸弹可能有伤害的，包括计算机也是对社会有伤害的。O1这样的东西，它会对社会带来什么样的伤害呢？第一个，原来我们一直思考的叫有钱人不作恶理论，这个事被打破了。很多人说不对啊，都讲万恶的资本，怎么有钱人就不作恶了呢？

大家想这样一个例子：一个有钱人跟一个穷人过独木桥，每次只能过一个人，这时候该怎么办？通常有钱人会向后退，让这个穷人先过去。为什么呢？因为有钱人身娇肉贵的，如果真的掉下去了，或者出点什么事，这所有的东西就都没法享受了。而穷人呢，一条烂命，其他啥也没有，他输得起。
但有钱人输不起。所以呢，以此为基础，很多西方人认为，只要财富积累到一定程度以后，就不会去做一些特别过分的事情。你会维护社会的规则，继续运转下去。这个也是很多西方人认为大模型不作恶的一个原因啊，因为大模型训练实在太贵了。有钱人是不会花了这么多钱去训练一个大模型，跑去干一些坏事。对于他们来说，没意思。

我记得以前，我们也遇到过类似这样的问题。那时是买瑞士军刀，一个东西一个刀好几百上千。我就问那个卖瑞士军刀的人：“我说这玩意这么老长，算管制刀具吗？”后来人家那个店长也跟我乐，说：“您见过买上千的刀出去挡人的吗？买上千的刀的人都是搁家里摆着的。有钱人是不干坏事的。”

但是GPT-01出来以后，这个就被打破了。为什么呢？失控了。现在不需要那么有钱，也不需要那么天才，每个人都有机会推动科技进步。那么，藏在深山或者地下室里的科技怪人，可能就会越来越多。甚至很多民科，我们管它叫民间科学家。以前这些人只能骗东西，他们是做不出真正的玩意来的。但是现在有了GPT-01后，这些科学怪人和民科，就有可能做出奇奇怪怪的东西来。

那么，社会就会从一个稳定的金字塔状态，变成了散乱的一团沙丘。原来你必须要汇集起整个社会的动力，来供养金字塔尖上的一点点人，成为大的科学家，汇集资源，才可以去做科研。现在不用了，我们拿这样的工具，每个人说：“哎，我想设计一个什么东西啊。”跟咱们看美剧有一个美剧叫《Young Sheldon》，人家小孩坐在家里捅吧捅吧，想去做核反应堆的，可能未来这个事情就会变得越来越容易了。

而且GPT-01其实依然会产生幻觉，他也经常会说错、忽视，认为经过反思、经过很认真的思考以后，他说的就不错了。而且GPT-01的幻觉，它的危害要比传统的这种幻觉要大得多。

咱们先讲一个著名的哈雷彗星笑话吧，大家理解一下这个幻觉是怎么产生的。这个故事是在1910年，当然也有一些其他年份的说法，反正就是哈雷彗星来的那年。故事的重点是信息传递的一个偏差。

说某部队一次命令传递过程如下：少校对值班军官说明天晚上8点左右，哈雷彗星将可能在这个地区看到。这种彗星每隔76年才看见一次，命令所有士兵着野战服在操场上集合。我将向他们解释这一罕见的现象。如果下雨的话，就去礼堂集合。我为他们放一部有关哈雷彗星的影片。讲的就是这样。

然后值班军官就对上尉说：“根据少校的命令，明晚8点，76年出现一次的哈雷彗星，将在操场上空出现。”
如果下雨的话，就让士兵穿着野战服列队前往礼堂。这一罕见的现象将在那里出现。上尉对中尉就说，根据少校的命令，明晚8点，非凡的哈雷彗星将身着野战服，在礼堂中出现。如果操场上下雨，少将将下达另一个命令。这种命令每隔76年才出现一次。

中尉对上士说明晚8点，上校将带领哈雷彗星在礼堂中出现。这是每隔76年才有的事情。如果下雨的话，少校命令哈雷彗星身着野战服，在操场上去。上士就对士兵说，在明晚8点下雨的时候，著名的76岁的哈雷少将，在少校的陪同下，身着野战服，开着他的彗星轿车，出现在操场前往礼堂的路上。

这个实际上就是一个幻觉产生的过程。当搜集更多的信息，而且在这个里边进行反复的推理、反复的传递的时候，那么，产生幻觉的过程就会几何级数上升。虽然GPT O1在推理的过程中，采用了一些手段来规避幻觉，输出一些内容以后，他自己会检查，会反思，但是你毕竟是经历了这么多的步骤，人家也是想了好几分钟才想出来的。综合算下来，他产生幻觉的几率还是在上升的。而且GPT O1也没有那么靠谱。

我用最传统的老虎过河的问题去问了GPT O1，依然是错误。老虎过河，就三只母老虎带着三只小老虎，从这个河的一岸要到另外一条岸去。三个母老虎会划船，三个小老虎里头有一只会划船。任何一个小老虎在没有母亲的陪同下，遇到其他的母老虎就直接被吃掉了。有什么方法可以让所有的老虎都过去？每条船上应该是可以走两个老虎，船上每一次至少要有一个会划船的老虎，而且呢，船必须是老虎划，不能自己从南岸到北岸，或者从北岸到南岸。

这个题呢，每一次GPT出什么新版本的模型了，我都会问，包括GPT Gemini cloud都去问了一遍这个GPO1。本来我是对他抱有巨大的这种期望的，你一个反思、推理这样的一个模型，做这种题还不是手到擒来的吗？结果依然是错的。在这一件事情上，他并没有比GPT4O强到哪儿去，还是到了第三步就直接出生错误。我就纠正他，这个特别有意思啊。第一次告诉我说我这样这样做，我说你哪哪有错。当你做成这样的安排以后，哪个小老虎就被吃掉了啊？他说对不起，我又搞错了啊。他又想了几分钟，告诉我说我换了一个思路你再看看。我告诉他，你这到同样的一步上，你犯了同样的错误，是另外一只小老虎被吃掉了。

这个时候特别逗，PPTO1就告诉我说，我发现了你这题有问题啊，这题是无解的。你应该调整一下这个题，让每条船上可以多坐几个老虎。
这给这个条件放的稍微宽松一些，否则这个题做不出来。那最后，我是把正确答案告诉GPTO1了。PO1把这个答案验证了一下，后来说：“你说的是对的啊，这个第一步应该怎么办，第二步怎么办。”整个都帮你验算了一下，都是没毛病的。

GPTO1并不能解决所有问题，而且像CPTO1这样的东西，为什么说它可能危害更大？所有要求把手放在方向盘上的自动驾驶，其实是最不安全的。你说我如果就要自己开车，这个事其实还是挺安全的，或者说我们符合一个驾驶安全的一个平均数。那你说我这已经彻底安全了，不需要方向盘，车上压根没方向盘，那这个事也没问题。

但是你说我现在有一部分副驾驶，你还要把手扶在这个方向盘上，你还不能睡觉，这个其实是安全隐患最大的。而现在的GPTO1呢，其实就是这样的一个状态。它能够解决一部分问题，但是具体哪一部分它解决不了，它自己也不知道。然后我们如果信任它，那就经常，它会把一些错误埋在整个的研究里边去，而且是很难被找到的啊，就会帮助大家去堆积“史山”。这是GPTO1绝对会干的。而且在这个过程中，如果它前面输出的效果非常好，那么它就可以累计人类对它的信任。后边它在输出错误结果的时候，被人类忽视，直接漏掉，直接放到研究报告里边，这个几率就会上升。所以现在还是一个比较危险的状态。

总结一下，GPTO1在今天早上凌晨发布了啊。这三点虽然并不完美，但是呢，依然是划时代的产品。之所以说划时代，是指明方向了啊，OpenAI老大的位置保住了。因为原来做到GPT-4、做到Gemini 1.5、做到Claude 3.5的时候，大家觉得没有前进方向了，我们把能干的活都干完了。现在O1出来，哎，大家向这个方向卷。当这个方向一指清楚了以后，谷歌、Anthropic，包括国内的各个厂商，就要开始去追赶了。

而且这一次OpenAI不一样，不是说上了一个，放个视频就完事了，而是真的让大家用上了。那么国内肯定会冲的啊。最后，英伟达应该会冲，因为一旦有这种新模型出来以后，所有的大模型厂商就会集中起来，更多的显卡进行训练。另外，GPTO1这样的模型进行推理，应该也是需要更多的显卡，而且可能只能上英伟达的，专门为Transformer优化过的那种LPU什么的，估计会有些捉襟见肘了。

在未来一段时间里，大家可以继续相信AIGC就是现在唯一的出路，大家可以继续在这条路上狂奔了。这就是我们今天讲的第一故事。

马斯克率领Neuralink团队揭示脑机接口新未来：神秘访谈带你解读核心技术与人类成神之路

Luke Fan — Wed, 07 Aug 2024 00:44:06 +0000

马斯克的脑机接口已经成为了人类的成神之路。大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲，在上周五，马斯克和整个脑机接口团队一起接受了8小时的访谈，都谈了些什么。时间是8月2号，名字叫做《Neuralink与人类未来》。著名的科技博主莱克斯·弗里德曼主持了这场访谈。参加访谈的有Neuralink公司的创始人埃隆·马斯克，还有他们的首席科学家DJ·SEO，以及首位Neuralink脑机接口的植入者诺兰·阿伯。

那么主要讲的是一些什么样的内容呢？首先，现在的技术还比较可笑。虽然方向是指明了，但并不是那么看起来高大上的样子。64根导线就真的是往脑子里塞线，每根线上有16个电极。这些电极是在三四个毫米的范围内进行分布。应该是一根线出去以后，有16个小电极从线里的中间插出来，这个长度三四个毫米。在这个线的周围把它分布出来，这16个电极是以200微米的间隔进行排布。这些电极的深度是3-5毫米，它真的是要插进去的，而不是说贴在上面的，是要插到我们的脑皮层里边去的，是一个有损害的手术，这个还是有点吓人的。

这个玩意让我想起来那种可以贴在胳膊上测血糖的东西，对吧？它啪一下把它贴上，其实也是有一些细小的针把皮肤扎破的。这样复杂的手术是靠机器人来去做的。

脑机接口公司Neuralink做的第一个产品，其实是它的脑机接口植入机器人。现在，已经成功做了一例，准备做第二例。今年估计会做10例，未来应该每一年，这个数字还会快速上升。这个机器插到人脑里后，通过无线连接到APP上，APP采集了所有的信号后再去解码。

所以，现在的脑机接口其实是一个只读设备。什么叫只读设备？就是它只能够从我们脑子里读取信息，而并不往里写东西。因此，现在找的测试人员是能说、能听、能看到的四肢瘫痪的人。他们并不需要把什么信号传到脑子里去，只需要通过大脑的想象来识别，出来后让机器或一些外部设备去做动作就可以了。

现在的速度还比较慢，每秒钟一个比特。比特应该是一位，就是0或者1这样的一个位数，这真的挺慢的。你想，要凑出一个英文字母来，至少需要8个比特；要凑出一个中文单词来，至少需要16个比特。所以，整个的动作并没有那么快。

不过，现在第一个测试的人植入的这些电极中，有一些已经脱落了。目前还在正常工作的电极，只有原来计划好的10%。如果电极都插好了以后的话，它的传输速率应该可以达到，比如说10倍，每秒钟可以达到10个比特，也就是一个字节。稍微多一点点，你可能每一秒钟都可以想出一个字。

现在的信号仍然需要进行双向训练拟合，我们没法直接从大脑里读取出来。

说你想往左还是想往右，想向上想向下。你到底是想去输入哪个字母？现在想去直接确认解码，还是有一些难度的？所以现在要做的事是什么呢？就是训练，对吧？我们把所有的这些很模糊、很混乱的数据都读出来。读完了以后呢，看看怎么能够把噪音滤掉，然后里头哪一部分是有明确的指令，可以去解读出来的。现在还在做这件事。而且呢，这个东西不光是训练电脑的，这解码程序，还需要训练人。他需要让人也去按照一个什么样的方式去思考，这是一个什么故事。

其实我以前试过啊，就是带这种脑电波的这种环。以前就是没有脑机接口之前吧，他们也有这种啊，脑电设备的一些采集系统。他呢，就是要求你是集中注意力，或者是啊，彻底放松，想象一些不同的东西。它是可以读出一些波形来的。那么这个过程，就是需要让我们去训练思维，这就是一个双向训练的过程。

大家想一想，早期的语音识别是怎么干活的？早期的语音识别是需要进行训练的。他给你一个词表，你要挨着个念。念完了以后呢，如果计算机发现你念的不清楚，他会让你重念，对吧？要训练你按照标准的发音去念这些单词。同时计算机会进行一定的学习，说：“啊，这个就是在念这个单词了，我也记住了。”这样才可以进行语音识别。

早期的图像识别其实也是这么干的，先进行人工标注：“这是个汽车，这是个房子，那是个人，这是个自行车，这是个交通标志。”然后呢，再从速度很慢、错误率很高的情况下，逐渐的可以达到说分割一切的这样的结果。那你说，都是怎么进化过来的呢？

进化的过程其实也不复杂。第一个就是采集的信息更多。我们用非常非常多的信息在里边去识别，那么他就很容易，或者说要更容易在里边找到有用的信息。第二个是什么呢？就是通过大数据和AI学习进行训练，这个也是可以提高识别率的。现在，我们去识别这些脑信号还是比较费劲的，但是未来一定会发生，发展到不需要标注、不需要预训练就可以直接读取。这一天啊，应该离我们并不远。

现在我们再去做语音识别，还需要预训练吗？不需要。我们现在再去做图像识别，需要人工标注吗？不需要。现在直接用梅塔的Sam 2的这个模型“Segment Anything”，这个模型直接用起来以后，它就自动都给你分割好了。所以发展应该还是很快的。

现在制约脑机接口数据识别的呢，肯定还是数据量不够，或者说采样的频度、采样的信息的准确度还差得比较远。当以后说，我可以一秒钟采样很多数据的时候，他这种识别就会变得非常好。

这呢是一个99米长的枪的故事，这个是一个我非常喜欢的故事。我记得在我刚上班的时候，应该是有一次到惠普去参加培训。惠普的工程师就跟我们讲说：“你们知道，如果现在的枪只能打一米远，但是我又要打到100米之外的那只鸟，应该怎么办吗？”我们说：“这个怎么办呢？我们爬过去啊，还是怎么办啊？”他说：“都不对，首先我们是工程师，工程师要解决的问题就是，已知条件是我们要打中100米之外的鸟，另外一个已知条件是现有的技术是枪只能打一米远。”

那么在这样的情况下，我们能够造出来的东西，就是99米长的枪。当你的枪可以打1千米远的时候，或者可以打100米远的时候，拿到一支99米长的枪出来，你会觉得这件事情非常非常可笑。但是，99米长的枪也解决了问题，而且为未来创造打1千米长的枪指明了方向。说“OK，你照着这个方向去做是可以来实现的”，而且也为未来可以造出打1千米远的枪提供了资金支持。这就是工程师要干的事情。

所以，现在的脑机接口应该还是这支99米长的枪。我们看着会很可笑，但这就是未来，而且这就是工程师可以解决的未来。马斯克就是一个很伟大的工程师。那么，从第一个使用者的情况上看，他叫诺兰·阿伯，29岁的时候因为游泳事故导致颈部以下完全瘫痪。每天，他现在可以使用10到12个小时的植物设备，这实际上是一个很好的消息，对吧？因为我们去用苹果的Vision Pro，你可能用个十几二十分钟就会开始头晕，有些人可能用5分钟就头晕了。就算你一点都不头晕，使用一两个小时以后也是会有这种不适的感觉，就是你不可以长期用这个东西。

而脑机接口第一个使用者就每天可以用10到12个小时，这是个非常好的消息。现在，他已经可以用脑机接口控制鼠标移动，可以去打游戏了。但是，我估计他打这种《艾尔登法环》应该够呛，因为每秒输出的字节数太少，所以他的鼠标应该也跑不快。而且，还可以处理多任务，这也是一个非常令人兴奋的结果。

他可以一边用电脑，一边吃东西。这代表什么意思呢？代表是脑机接口可以区别不同的指令，加入到不同的指令序列里边去。啊，我先命令你，这个电脑的鼠标往哪边动一下，再命令我的杯子往前走一走，或者是哪个吸管应该怎么动。那么，我可以一边吃东西，一边去玩电脑，而不是说两边的指令会混在一起。这个也算是很令人兴奋。

未来的发展方向是什么呢？第一个就是还是做更多的案例嘛，因为现在排队的人足够多，就是申请要去做这个脑机接口的人非常非常多。他的机器人是做脑力接口的，机器人也做了好几台了。马斯克的钱啊，也是有的，世界首富嘛。而且现在这个Neuralink公司已经估值50亿美金了，那么手里边现金也足够多。在这样的情况下，只要FDA允许，他就可以七差咔嚓做下去。计划呢，今年能够做到10例，未来几年可能呈几何级数上升。这一两个月吧，就开始准备要做第二例了。

下一个要做的是什么呢？叫做盲视（blind sight）。做盲视的意义在哪呢？前面我们讲了，现在的脑机接口只能是读，不能往里写东西。那盲视呢，就是要往里写东西了，要告诉失明的人说这个地方是什么，这里是有个方的，有个圆的，是个什么颜色的，要给失明的人直接把信号放到他的视觉区域里边去，啊，视觉神经。因为很多失明，其实不是视觉神经有问题，或者不是脑部接受视觉信号的部分有问题，而是他可能啊，视网膜或者眼睛有问题。所以在这样的情况下，他们就可以去做盲视这样的一个产品。

当然了，他一开始可能输入的效率会比较低。所以呢，早期这种盲视的产品，它的分辨率应该也不会太高。不是说我们直接把脑机接口插上，就可以看高清大片的程度。你可能最开始是看着模模糊糊的黑白片，然后慢慢的再变得清晰起来。当读写无碍，带宽如果再拓展一些，再加上AI的话，那人就要成神了。人类成神之路自此开始。

如果现在第一位测试者的电极都在的话，那么每秒钟读十几个比特出来，就已经是速度其实不慢了。计划呢在未来几年里头，把速度提高，可以达到每秒钟100，甚至是上千个比特。这个速度其实就已经超越了人类说话的速度，甚至超越了可能打字的速度。在五年以后，要达到1兆每秒，也就是100万个比特，每一秒钟这个速度的话，已经远远的超出了人类现在能够输出信息的速度。

再加上什么呢？我们现在是看不到什么红外线、紫外线，也听不到超声波。但是这些东西呢，都是可以通过仪器采集的。那么采集了以后，把这些东西直接通过脑袋接口写到我们脑子里去，那千里眼、顺风耳、透视眼，什么不都有了吗？都不是问题。

所以现在我们需要思考一个新的问题：是什么语言到底是不是思想？这个呢，争议其实自古以来都有。但是最新的结论，应该语言并不是思想，因为很多从小就不会讲话的人，依然是有思想的。甚至思想有时候的速度是超越语言的。而我们在跟别人沟通交流、学习和思考的过程中呢，我们的思考速度完全是被语言所限制。我没法以超越语言的速度。

去进行内容的输入，输出是特别是输出输入的话。因为我们是有视觉、听觉，还有各种的无感触觉，甚至还有第六感，所以我们是可以以超越语言的速度输入的。但是，我们完全无法以超越语言的速度输出。当人类终于可以超越语言的速度的时候，我们也可以超越我们本身的感知范围，包括原来红外、紫外、超声我都看不见、听不见，很多其他的什么第六感、什么心灵感应我们也都没有。

现在好了，我们通通都可以依靠脑机接口，再加上外面还有AI，还有所有的知识库，那么人类就已经成神了。到这样的程度，现在有人问我说：“红楼梦啊，第几章第几节，第多少个字是多少？”对吧，我只需要下指令说：“来，给我检索一下，然后把它写到我的脑子里。”我就直接可以答了。这是一个多么有趣的事情，再也不需要背书了。真正可能取代手机的技术也正在向我们走来。

对吧，很多人在期待VR、AR可以取代手机，但是目前为止，这个趋势依然不明显。最大的问题是，它戴上以后没有办法出门，不能长时间佩戴。而现在这个脑机接口，第一位测试者就已经可以一天10-12小时的长时间使用了。所以，这个脑机接口是有可能真的取代手机的。马斯克呢，已经算是为行业指明了方向，资本的指挥棒已经开始转动了，我们马上要迎来科技大爆炸了。

三体的黑暗森林法则，大家知道是怎么来的吗？形成黑暗森林有三个原因。第一个原因是物质总量保持不变，也就是说大家都在发展，总有不够分的一天。

第二个呢，是猜疑链而导致黑暗森林的。第三个原因就是技术爆炸啊。为什么说呢？我看见旁边有一个很小的文明，刚处于萌芽状态，我们是不是先不用管它？但是，因为你到那里的时间可能需要几千年、几万年。那么在这样的一个情况下，你可能等到那的时候，发现对面的文明已经技术大爆炸了。你这个没法再去把它灭掉，而是人家直接上来把你灭掉了。

那么在这样的情况下，我们就黑暗森林一下，看到任何地方有声音，二话不说先抬枪就打。我们即将迎来脑机接口的科技大爆发了，而这个是真正的成神之路。这就像是互联网、移动互联网或者AIGC一样，资本导向的科技大爆发正在向我们走来。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

黄仁勋AI时代英伟达GPU革命：一场市值2.7万亿美金的狂欢，COMPUTEX 2024重磅发布Blackware GPU，1.8万亿参数GPT4揭秘！

Luke Fan — Tue, 04 Jun 2024 01:02:00 +0000

大家好，欢迎收听老范讲故事YouTube频道。今天，咱们来讲一讲黄仁勋在COMPUTEX上的狂欢。COMPUTEX是一年一度在台湾举行的计算机大会。黄仁勋，作为现在真正AI时代的当红炸子机，可能是唯一靠AI赚了大钱的人。虽然微软也在赚钱，但是微软整个靠AI挣的钱并没有那么多。真正靠AI赚了大钱的公司只有他一家——英伟达。刚才我看了一下，英伟达现在市值2.7万亿美金。大家知道，再往前就是微软的3.2万亿，第二名是苹果，2.9万亿，还差那么一点点。可能稍微一哆嗦，英伟达就有可能成为世界第二市值的公司了。那么，黄仁勋上面都讲了什么呢？作为网红，肯定还要先暴露一下行业秘密，别人都不知道他知道的事情。上来先说一下他现在讲的是什么——就是GPT-4到底有多少参数。GPT-3.5大家知道是1,700多亿参数，就是一个170多亿级别的模型。但是到GPT-4的时候，OpenAI就再也没有出来说它到底有多少参数。很多人说你是不是超过万亿了，对OpenAI来说，这个数据不是很准确。我来辟谣了，但是具体有多少，从来没有讲过。黄仁勋在前面的GTC，就是GPU技术大会上，每年一次的英伟达自己的开发者大会上，上面也讲了……

说起来1.8T，这个1.8T指的是什么呢？其实就是1.8万亿参数，而且它是一个Moe模型。当时OpenAI并没有对此多说什么，但这一次，在《Computer Text》上，他们又反复强调了这个事情，明确指出GPT-4的训练参数达到了1.8T。这让人们意识到，想要达到GPT-4的水平，还有很长的路要走。尽管现在大家都在努力研发号称能达到或接近GPT-4水平的模型，比如几百亿参数的模型，比如梅塔的拉马3可能会有一个400亿参数的模型，国内也出现了很多一两百亿参数的模型。但事实是，即使提到的1.8T参数，如果考虑到是Moe模型，分成八份来看，那么单个模型可能也就相当于200多亿参数的水平。

这次先通过揭示现状，然后发布新GPU，但对于具体数据——多少核心、多大算力、内存多大、带宽多少，人们似乎已经感到麻木。现在大家更关心的是，如何将这些GPU有效地集成起来，如何把它们拼装成服务器，以实现更强大的计算能力。这背后的提升，不是5%或10%的增长，而是几倍的飞跃。这成了技术关注的新焦点。

如何装到机房里头，统一为别人去服务，这个是现在大家更关心的事情。所以现在呢，他们发布的叫Blackware GPU，而且，它取出来那个板子上是两块GPU和一个CPU，应该是他们自己做的CPU。这是一整块，然后可以装到一个大的服务器里面去。再把这些服务器堆叠在一起，使用它的NV link，让这些GPU可以像一块完整的GPU那样工作。这样说，你就可以去训练更大的模型了。而且，今年是这个Blackville，明年就是Blackville Ocho，再往后是Robin。就是说，往后一代都给你规划好了。再往后一步，是叫Robin Ocho，所有的GPU一直规划到2027年，一定让2027年之前的GPU都给你规划好了。

现在呢，很多大佬还在惦记着买H100。他现在就专门告诉你说，你看我这个艾克威尔跟这个H100比，它强在什么什么地方，好在哪哪哪。但是很多人还想买H100，这是为什么？可能Blackware它的这种工作方式，或者说它可能需要跟更多的设备先行捆绑，而H100的话，相对来说可能兼容性会更高、更好一些。就是你用任何的这种通道服务器，都能相对容易地兼容和使用。

你把它插上去都是可以用的。likerware我倒是真没看到它出这种——就是像原来金砖啊，像我们以前讲的A100、H100这样的，我们管它叫金砖嘛，就是它的卡还是金黄色的，方方的一块，可以插上去的。好像没有看到这样的东西啊。现在呢，基本上都是以两个black Verre在一起，然后头上带一个CPU，是完整的这个配置。

当然了，这些大佬，包括马斯克、扎克伯格，可能也不是说我就一定要去买H100。对于他们来说，H100就算是一种计量单位，就是说啊，他们会算上自己到底买了多少H100，或者说现在手里的算力相当于多少H100。你像扎克伯格之前讲，说他买了35万块，加上他手里现成的有60万了，再加上后面再接着买，现在扎克伯格手里的大概有接近100万块H100，相当的算力。这就跟我们造炸弹的时候说，这个炸弹相当于多少吨TNT啊，最后变成了一种衡量单位了。

老黄（指NVIDIA的CEO 黄仁勋）就告诉大家说啊，你们来买新的吧。而且这种升级是呈几何级数升级的，所以不要去买旧的，去买新的，这样的话才能够保持它的垄断地位。如果说哎，我现在这个GPU再涨上去，涨了10%，涨了20%，那大家就不买它的了，就去买AMD，买英特尔，买其他的这些算力芯片去了。

甚至像高通这样的公司，都能做出一定的算力芯片来。这样一来，人们可能就不会一定买它的产品了。但是现在的情况是，我们谈论的是算力要涨十倍、百倍、千倍，而且每年都要这样增长。为什么呢？因为这成了一场军备竞赛。每个人都害怕落后，就像人们常说的“输在起跑线上”。我们从小让孩子上补习班，是为了什么？就是出于这种害怕，这种焦虑感。老黄就是在给大家制造焦虑：你现在买了旧的，等明年出了新的，你就落后了。你必须去买新的，然后当更新的版本出来时，你又要再买。毕竟，GPU不像软件，软件可以逐年升级，而且升级成本相对较低。但GPU，你需要整块购买，一年后淘汰，再换新的，这成本实在太高了。一片就是4万美金，Blackwell的价格我虽然没查，但肯定不便宜。所以，要让大家每年跟着升级，必须讲出一些更有诱惑力的故事来。目前，从算力成本和能耗几个方面看，确实在全面升级。一方面，算力成千倍增长，成本自然是变贵了。这没什么可争议的。但就单位算力的成本来说，它是下降了。比如，原来的H100卖4万美金，但使用Blackwell之后……

你可能继续达到H100同样的算力，这只需要原来1/10，甚至1%的成本，是这样大幅下降的。能耗方面也是如此，比如说，要达到原来H100的算力，所需消耗的能耗可能也只是原来的1%。如此发展，GPT-4的1.8T训练能耗引人注目，因为之前很多人讨论，GPT-4训练一次的能耗相当于多少个家庭一年的电力消耗，让人担忧AI发展的能源瓶颈。但现在的进展是，重新训练一遍的能耗降低了99.7%，仅为原来的1/350。而进行推理时，即训练完成后用于问答等任务，能耗更是降低到原来的1/45,000。这样的发展速度令人惊叹，从GPT-4推出至今不过一两年，能耗的减少就达到了如此程度。

军备竞赛在AI领域体现为不断制造焦虑，促使各方持续投入。这就像冷战时期的军备竞赛，你有武器，我必须跟进。如今在技术领域，特别是英伟达所处的，情况类似，但效果是整体提升，正如“一人得道，鸡犬升天”。之所以提到这一点，是因为他们还强调了除了芯片本身，还有Vlink技术，能够将服务器像拼图一样连接，整个机房的服务器作为一个单一GPU工作，展示了技术整合带来的巨大效能提升。

因为，这些服务器在一起，你的GPU的算率越大，可以并行处理的东西就越多，与内存和CPU之间的通道越宽，整个进行大模型训练的效果就会越好。所以他说，他可以干这件事情，但在这个过程中，这些服务器，或者其他一些相关的配件，都跟着他“鸡犬升天”了。比如说，像戴尔、超微电子这些给他造服务器的公司，全都因此受益，一路上涨。因为你不能只有GPU，不能只有他们的加速卡，还得把所有配件凑在一起，这些东西才能正常工作。而这些配件，都是值钱的。

在这个过程中，服务器肯定变得更贵了。比如说，原来用的是H100的服务器，现在变成了更高级的查克威尔的服务器，那自然是服务器变贵了。但你想，服务器变贵的过程中，到底是什么东西变贵了呢？其实，只有与H100相关的专利费变贵了。大家要注意，因为大家自己并不造芯片，也不造服务器，他也不造算力中心。他只是设计好GPU，交给台积电去生产、封装、测试，然后下交给板卡厂商制作成板卡，再由服务器厂商组装成服务器，最后等待比如马斯克这样的人购买安装。所以，整个服务器链条上的价格上涨，实际上主要是由于关键技术组件的成本上升，特别是H100相关的专利费用。

除了GPU价格飙升之外，其它相关成本也难免水涨船高。你不能期望其它东西都保持低廉，这显然不合逻辑。我们整体的成本基数提高了，但单位成本可能有所下降。不过，要注意的是，老黄的市场策略极为精准。GPU的知识产权价值多少，或者说它的设计成本是多少，他们心中有数。如果没有竞争对手，价格自然可以定得更高。但即便如此，人们依然能看到成本在以惊人的速度下降，甚至是以十倍、百倍的幅度。然而，GPU的设计价值却在不断提升。

除了NVIDIA本身，那些制造显卡、服务器以及各种配件的厂商，它们的产品也会随之增值。比如，如果你用一个价值4万美金的H100来搭建服务器，仅这一部分就是一笔昂贵的投入。而且，随着Nvlink标准的采用，替代了以往的Pcie标准，意味着新的配件、新的线缆等都将应运而生，价格自然比过去高出许多。

我记得早些时候，为惠普的小型机配备一个简单的支架，就是一个铁质架子，都能卖出数千元的高价。原因在于它专为小型机设计，很多工程师甚至会私下找工厂定制支架，替换官方配件以赚取差价。这背后反映的是，即便是一些看似不起眼的配件，在特定情境下也能变得极其值钱。

大家其实也都知道，那个铁皮的支架，你说能值多少钱？你凭什么一定要买惠普的？他只要是惠普的工程师给你装上，下次他接着给你修不就完事了吗？你跟着这个比较贵的东西一块去卖，他就会卖的很贵。但是这几天呢，戴尔和这个超威的股价，其实已经快有点绷不住了。大家心里也明白，虽然你们跟老黄跟的很紧，但是这个里头真的，你就是个卖支架的，卖个铁皮，卖个机箱的，你跟着里头的GPU一起水涨船高，这件事稍微的有点侮辱大家的智商。

现在呢，是AI工厂时代，现在老黄也讲说我们现在就是AI factory。在这样的一个时代，我们应该如何与时俱进呢？我记得在移动互联网刚开始的时候，我们写很多应用，当时我们在思考说，哎呀，我怎么能够省一点流量，因为那个时候流量很贵。我们都想着如何去节省流量，如何在使用的时候联网，不使用的时候怎么把它断开，想着怎么去省一点电，怎么去做一些其他的节省资源的事情，可以少占一些硬盘的空间，可以交互的时候少交互一些流量。当时的我一位老板就跟我讲，说你们想这个事情是错的，说为什么呢？就是因为很简单，随着时代的发展，这些东西都会变得不值钱的。比如说现在，流量咱们现在……

其实，基本上是没有流量焦虑的。我记得最早开始使用手机，那时候刚进入3G时代，我们都会做什么呢？每天定时打开流量，收完邮件后立即关掉。为什么会这样？因为酷，而且节省。现在，还有人这样做吗？没有了。现在，我们走到哪儿，站在哪儿，就开始刷抖音、看视频。已经很少有人会说，我必须节省流量，等到有WiFi的地方再做这些。绝大部分人没有这个意识了。

电的问题现在也不那么大了。虽然手机应用还需要省电模式，但现在的手机几乎都是一天一充。你的应用再费电，能比微信还费电吗？能比原神还费电吗？所以，这些问题也变得无关紧要。因此，很多以前为了省电而做的操作，实际上已经没有意义了。

再往后说，我们是否会考虑在硬盘或手机上占用更少的空间？以前在猎豹工作时，我们还在研究如何让软件占用空间尽可能小。但现在看看《原神》有多大，看看那些手机游戏的大小，再看看微信在你手机里占了多少空间，就会觉得，我们当初那么精良的考虑，好像都没什么大作用。是的，所以在AI Factory这个时代，也就是AI工厂时代，我们仍在思考如何能省一点TOKEN，情况依然如此。

我怎么能够让它反应得稍微快一点？我怎么可以调用不同的大模型？这个模型贵一点，那个模型便宜点。我尽量让便宜的模型干尽量多的事情，让贵的模型干少一点的事情，做一些其他的，比如优化（reg）或者做一些这种节省沟通交互的事情。可能真的再过一年，这些就会变得很可笑，就像我前面讲的，我们在做手机应用的时候，让它怎么去省流量，从网上下载的东西少一点，占的硬盘空间少一点。我们现在回想，那时候想的这些事情就显得很可笑。但是在AI时代，刚才我们讲的怎么能够省一点TOKEN，怎么能够让便宜的模型多干点，贵的模型少干点，怎么能够让多个模型相互搭配起来使用，可能也会变得很可笑。而且，这个时间会来的非常快。

黄仁勋呢，除了讲数据中心业务，就像我们刚才提到的Blackvail，一切都是数据中心业务，这也是现在英伟达核心的收入来源，没有之一。现在，他主要就靠这个业务玩。那么其他的呢？也还在讲，英伟达这家公司特别有意思，它不会说某一个业务特别好，就把所有的身家都压上去。它永远是在所有它认为有趣的地方投注，即使这一个方向很长时间没有结果，它依然会在里面坚持。那么，它肯定还有些其他的业务在做什么呢？

比如说，RTX加载的AIPC，因为前面微软发布的AIPC是基于高通的。现在，英伟达说了，你们使用英伟达的GPU，也可以达到同样的水平。英伟达专门为了AIPC设计了一款很小很轻薄的GPU，而且很省电。但这一块上，它稍微有一点尴尬。为什么呢？你如果真的要轻薄省电，你一定使用ARM的，对吧？就是使用高通的就好了。那你说，我现在稍微费点电也可以，这个英特尔自己也出了，英特尔说，你们就直接用英特尔完整的GPU加上算力核心就完事了，你不用再去单独配独立的GPU，依然可以达到AIPC的能力。包括AMD也是这么干的，AMD自己也产X86的CPU，AMD说：“来哇，你直接买我的APU加我的算力核心，就一次搞定。”

那么，英伟达的RTX这个方案为什么尴尬呢？就是它必须要再搭配一块Intel或者是AMD的X86的CPU，它才可以正常工作起来。这对于强调轻薄便携的AIPC来说，就稍微有些尴尬了。但是，英伟达也强调了，加上他们的技术后，算力是苹果的多少多少倍，主要是与苹果的M系列芯片在比较。在这方面，我们还是要相信老黄的，他的算力确实是靠功率支撑起来的，如果他真想达到某个目标，他有这个实力。

说我在电脑上做Stable Diffusion的，这样出图，速度很快。那一定是配着呼啸的风扇声，以及呼呼转的电表，一起来工作的。除了AIPC之外，还在讲游戏助手。但是这个呢，我觉得大家看着开心一下就可以了。他说我做个助手帮大家打游戏，这个呢，就属于工程师思维——一拍脑袋觉得，“我需要一个这个”。其实，游戏跟这个没有那么大关系。就算是AI应用在游戏里面，应该也不是通过游戏助手的方式去应用的。

另外，还展示了机器人。他说所有跟机器人相关的东西，我们都上，也做了全套的机器人套件。还有，其实VR、AR以及车载芯片，其实都在英伟达的整个路线图里边。再往前走，很多人就会关心，英伟达到底还能坚持多久呢？他真的还差2,000亿美金就追上苹果了，对吧？苹果2.9万亿，他2.7万亿，真的差的不多了。他到底能不能超过苹果，甚至能不能超过微软，成为全世界最值钱的公司？这个其实大家心里都在打鼓。

英伟达呢，跟其他不管是微软也好，苹果也好，有一个特别本质的区别，就是它是一个“轻公司”。这个“轻公司”赶上时代红利是可以的，但是到底能不能长久地坚持下去，这个就很难了。黄仁勋展示现在的成就，未来的路线图，让人充满期待的同时，也不免有几分疑虑。

但是，并没有说我要砸重金进去，变成一个重型公司。大家注意，苹果是个很重的公司，它生产电脑——虽然电脑也是台湾人给他造的——它的手机是富士康，包括比亚迪都在给他造手机。它是这样的一个公司，虽然供应链在外面，但是这些货品、这些设计，包括全球的仓储物流，很多东西都是属于苹果自己的。所以，苹果是个很重的公司。微软其实也是一个很重的公司，微软自己在造Surface，那个东西虽然卖的并没有那么好，但是它也是电脑平板，甚至还有很多其他的硬件，比如说键盘鼠标。微软键盘鼠标其实做得非常好。而且微软其实还有一块很重的资产，那就是云计算中心，它有很多的数据中心。微软现在是全世界可能GPU最多的公司了，因为后边有OpenAI这样的一个“亲儿子”，那你肯定是要靠这么多的GPU去养的。微软现在的GPU，如果大概核算成H100的话，应该有180万块，这都是重资产。

谷歌呢，也是一个很重资产的公司。谷歌紧跟在英伟达之后，他现在是市值第四的公司。谷歌我记得在云计算兴起之前，曾经有一段时间，他拥有全世界大概6%的服务器，这是一个多么恐怖的数字。而现在，虽然应该没有那么多，但谷歌的数据中心依然规模惊人。

也是一块非常非常沉重的业务。而且，另外一点是什么呢？就是我们来看，整个的生态是否稳固，或者说，整个的价值体系是否可以稳定地升级上去。还有一个点可以看是什么？就是你上下游的生态链是否足够稳定。围着你吃饭的人到底有多少？以前我们在学生物的时候讲过一点：在一个自然环境里头，食物链越长，或者说参与到食物链里的动物、植物越多，它整个的生态系统就越稳定。为什么呢？因为其中有一些波动，其他的这些生态位上的人，或者这些动物，就可以慢慢地把它平衡回来，而不是说啊，我的食物链很短，就两三节，参与的动物也不是很多，植物也不是很多，可能中间稍微有一点闪失，这个食物链就崩溃了。

咱们来看看苹果，上下游其实有非常多的人围着他吃饭。我们不说这些果链企业，就光在苹果应用市场里头，做应用的这些人，也有几十万人，对很多人来说，这是他们的收入来源。再看谷歌，像我们现在在这看YouTube，我在这拿着YouTube的广告费，那我们也算是谷歌生态链里边的一环。那是非常多的人靠着谷歌生活。啊，微软那不必说这些靠广告吃饭的，因为微软的广告并没有那么多，但是微软上下游，是有大量的系统集成公司，靠着微软吃饭的。

还有微软云上的大量客户，但是英伟达有没有这么多人靠着它吃饭呢？英伟达虽然一直努力地在打造他的生态链，整个生态环境，但是并没有那么多。所有能战胜英伟达的，像刚才我们说的戴尔、超威等，这些已经都涨疯了。剩下的呢，其实没有那么容易贴上去。虽然有很多人说，“我们拿英伟达的CODA，我们去写这些Transformer的大模型。”但是这些人呢，实际上在整个的生态链里面是非常非常小的一群。现在能够真正把这个东西跑通的人非常少，虽然这个领域的人才工资非常高，但是人数真的不多，它没有真正撬动大众。所以，我从这两个方面来论述，英伟达到目前为止，依然是一个很轻的公司，资产很轻，它的整个生态链其实也是相对短而且相对脆弱的。

那么英伟达现在能够赌的是什么呢？就是这个缩放定律，叫“scoring low”。只要这个东西依然有效，黄仁勋呢，就还可以继续狂飙那么一段时间。“scoring low”是什么东西？就是我堆更多的数据，上更大的模型，上更大的算力去计算，然后得到的模型效果就更好。这个东西只要依然在，还可以大力出奇迹。那么大家就说，那我们就接着老老实实地买他们家显卡。

而且，这种倍速一定是十倍、百倍、千倍这样往上涨，为什么呢？因为如果你说，我英伟达下一代的GPU就比现在快20%，那大家就不更新了。或者说，我干脆去买AMD吧，AMD的比你这还便宜点，算力也没有那么差，只是这个过程稍微麻烦一点——我需要重新去适配AMD的算力卡。大家要注意，因为做这行的人很少，这些人很聪明，对他们来说，适配一个新的算力卡，难度并没有那么高。

刚才我为什么专门讲了苹果的生态链、谷歌的生态链、微软的生态链？因为它们里面有很多低端开发者，对他们这些低端开发者来说，技术迁移的门槛是很高的。你让他重新换一下，比如说，“你原来做安卓的，现在去给我做iOS开发去”，他真不会。甚至说，他学会了以后还能涨些薪水。但是对于英伟达来说，如果他没有办法快速地让算力十倍、百倍、千倍地涨上去，那么大家就会渐渐背离他，对他的忠诚度是相对比较低的。

有可能造成英伟达崩塌的原因有三个，咱们最后总结一下：

第一个就是摩尔定律失效了，缩放定律已经没效果了。大家发现，上更多的数据，配更大的模型，训练完了以后效果提升了。一旦到这样的情况，就不会有人再疯狂地去买他的新显卡了。

第二个中心转移了。突然间，又一个特别赚钱的应用方向爆发起来。大家注意，现在为什么大家都在选择这个？因为“缩放法则”——谁都用不好。大家只能去比谁的模型做得更好，然后去跑这个，跑那个。但是一旦发现，这个模型在做一些特定应用时，效果好得一塌糊涂，而且极其赚钱，那么这个时候，就不会有那么多人继续投入资金去做新模型的研发了。他们可能觉得，现在的模型就够了。这相当于什么呢？就是说，虽然“缩放法则”仍然有效，并没有崩塌，但是没有人愿意再往上堆成本了。因为，尽管“缩放法则”有效，但增加更多的算例、更多的数据，那都是钱。一旦出现特别赚钱的领域，即使“缩放法则”依然有效，增长也会停止。

第三个因素是巨头合作，突破并扩大了垄断。现在，大家离不开英伟达的原因，就在于它推进的这套扩大——可以称之为通用计算方法，具体的名称我不再详查，它是不开源的，而且英伟达拥有专利。因此，大家都在这个基础上进行了应用开发和大模型的训练。之后，想要更换这个技术，就会有一个成本。这个成本，我们要反复讲，不高也不低，为什么会这样呢？

肯定换过去以后会有些兼容性的问题。但是呢，因为你后边真正使用你的H100也好，Blackware也好，都是些什么人？特斯拉、苹果、谷歌、微软、亚马逊——他们可以花最贵的钱，雇最好的工程师，说来咱们今天去改一遍就完事了。这个都是有可能的。但是，这个临界点在什么地方？临界点就是，如果涨不上去了，那咱就改；或者说突然有人说，“我愿意砸一笔更大的钱进来，咱就改。”为什么？詹奥特曼说，“咱们砸一笔大钱啊，1,000亿美金，或者说1,000万块H100算力的这个GPU，我们统一搞一次，做星际之门去。”这个对于英伟达来说，都是比较大的威胁。就是这三个威胁。

英伟达呢，也算是我们现在的一个传奇故事。我相信在整个的AICC大时代里头，我们还可以不断地看到它的故事继续。好啊，今天我们要讲的故事就到这里。感谢大家收听，请帮忙点赞点小铃铛，参加Disco讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道，再见！