GTC大会,黄仁勋的饼,为什么不香了?揭秘英伟达GTC”算力怪兽”真相:黄仁勋的300万美金机柜为何引发资本冷眼?
3 月 25
英伟达,NVIDIA,黄教主,GPU AI Agent革命, AI推理成本, AI泡沫预警, AI算力租赁, AI算力需求, AI编译器优化, AI芯片国产替代, AI芯片迭代, AI训练成本, ARM架构生态, Blackwell架构, CoreWeave上市, DeepSeek模型, GB200 NVL 72, Grace CPU, H20芯片, HBM3e显存, MoE模型架构, NVLink技术, Scaling Law失效, TOKEN经济, Token计费模式, 中美AI博弈, 云计算价格战, 光通信技术, 内存墙突破, 分布式计算架构, 半导体供应链, 半导体设备折旧, 半导体设备禁运, 参数规模竞赛, 大模型盈利困局, 大模型蒸馏技术, 存算一体芯片, 异构计算架构, 推理效率提升, 摩尔定律终结, 散热技术革命, 数据中心基建, 数据中心能耗, 数据并行策略, 显存带宽优化, 服务器机柜标准, 服务器集群部署, 机器人操作系统, 模型并行技术, 液冷服务器, 深度学习框架, 硬件投资回报率, 算力云服务, 算力军备竞赛, 绿色数据中心, 编译器技术突破, 芯片制程工艺, 芯片命名玄学, 芯片封装技术, 芯片散热材料, 英伟达GTC大会, 超算中心建设, 边缘计算需求, 量子计算布局, 黄仁勋战略 GTC大会,黄仁勋的饼,为什么不香了?揭秘英伟达GTC”算力怪兽”真相:黄仁勋的300万美金机柜为何引发资本冷眼?已关闭评论
大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲,黄仁勋的大饼不香了吗?GTC之后,英伟达的股价怎么跌了?
每年会开一次GTC,叫GPU Technology Community,就是GPU技术的一个社区的会。但是呢,现在再去开GTC,一般已经没有GPU在上面了。咱们现在管这种像什么H100、B200、B100这样的东西叫算力卡。真正的GPU应该是4090、5090这种东西。现在4090、5090在什么地方发布呢?是在AES,AES叫消费电子展。一般黄仁勋都会在消费电子展上卖这种叫个人游戏显卡,然后在GTC上卖他的算力卡。所以呢,我们要分清楚,虽然还叫GTC,但是里头已经没有GPU了。
现在各个公司都在努力的做自己的技术研讨会或者是开发者大会。原来比较著名的一个,现在已经没落了呢,叫IDF,英特尔的开发者论坛,现在已经没有那么热了。现在还比较热热闹闹在开的呢,一个是谷歌IO,一个是Microsoft Build,微软的这个构建大会,然后是苹果的WWDC,叫全世界开发者大会。这个名字取得好,因为他先开始了,所以他就可以取这样投机取巧的名字。英伟达的GTC现在都还是比较热的。OpenAI的开发者日呢,目前还在努力的追赶之中。Meta,也就是原来的Facebook,现在呢有两个开发者日,一个叫Meta Connect,像他的各种AR、VR这种设备,包括很多的广告系统都是在这里开。其实以前Meta Connect大会,大家主要是去听他的广告平台的一些运作方式,因为广告平台挣钱嘛,其他东西都不怎么挣钱。另外一个呢,从今年要开始开,叫Llama Conference,是专门给它的这个大模型开的一个开发者大会。所以Meta今年会有两个。
说回来,黄仁勋今天都说了点什么呢?主要还是在继续他的科学家之路。为什么叫科学家之路?大家知道他的算力卡一直是以伟大科学家的名字来命名的。第一个被他宠幸的是2006年的特斯拉,2006年英伟达的卡叫特斯拉卡。到2010年这四年之间没有发新卡,其实当时大家并不是那么在意这种算力卡。所以到2010年就上新的了,叫费米,这个是伟大的数学家,费米大定律。到2012年叫开普勒,天文学家,开普勒望远镜,开普勒天文台。再往后呢,2014年叫麦克斯韦,麦克斯韦方程式。到2016年叫帕斯卡。
这个呢,是法国非常著名的一位做计算机早期研究的科学家。像我们学计算机本科出身的人,学的第一门编程语言都是Pascal语言,就是为了纪念这位伟大的计算机科学家。注意,越往后他发的越密,因为越来越受欢迎了。
2017年,这个名字特别好叫伏特,咱们测电压的那个伏特。2018年图灵,图灵奖,图灵测试。2020年呢,隔了两年了,前面既然伏特有了,那安培也得有,所以2020年这个叫安培。到2022年呢,Hopper,就像什么H100,H20,H80,都是这个Hopper。Hopper这个科学家干嘛的呢?他是计算机编译器的发明人。我们现在写程序都是用高级语言写,写完了以后给你编译成二进制代码,这是他干的事情。我们现在用了非常多的H系列的显卡,也是从H系列显卡开始对中国禁运的。
到2023年呢,叫Ada。这个Ada呢,是世界上第一位程序员,是一位女士。当时还没有什么计算机,但是呢,他设计出了一种程序语言。他说如果以后有计算机的话,大概是这样的。所以呢,ADA是世界上第一位程序员。A100,A800,都是这个A系列开头了。
到2024年,也就是咱们现在在使用的叫黑井Blackwell。Blackwell呢,是美国数学家,美国国家科学院首位的黑人学者。他是个统计学家和数学家。这个也是政治正确一下。这个黑井呢,本来应该去年大规模部署和销售的,但其实去年大家还是在很努力的买A系列跟H系列的算力卡,没有轮上他,因为他去年一直出货不是很稳定,或者说他的质量一直有点小问题。但是到2025年,Blackwell终于开始大批量出货了。2025年呢,还会出Blackwell Ultra,就是在这个基础上再要升级一下。
到2026年,他说我们准备出一个叫Robin。这个Rubin呢,是美国国家科学院首位女性的天体物理学院士,暗物质的发明人。到2028年呢,是要出费曼。费曼呢,是一个量子力学这块的一个大拿。现在就是把饼已经画到2028年了。现在他的Blackwell 200终于顺利出货了。到2025年的下半年,要出Blackwell Ultra这个芯片,实际上是Blackwell 300,要比B200呢快1.5倍,今年下半年出货。估计一些还在排队等B200的人,可能有一部分就可以转订单了。等到明年我们就可以看到Robin了。Robin呢,据说比B300还要强3.3倍。但是呢,这个里头其实有个错误,什么错误呢?
并不是Blackwell Ultra比这个B200快1.5倍,也不是Robin就比B300快3.3倍。那你说,我这个刚讲完了,怎么马上就搞错了呢?写稿的时候也不稍微认真点。原因也很简单,它其实是什么比什么快呢?就是GB 300 NVL 72的这个算力,是GB 200 NVL 72的1.5倍,实际上就是快了50%。而至于后边这个3.3倍的,是怎么算出来的呢?是Robin NVL 144比GB300 NVL 72要快了3.3倍,算的是整个服务器的算力,而不是单个芯片的算力。所以大家要注意。
那你说这个GB200跟这个GB200NVL 72到底有什么区别呢?或者B200跟这个GB200NVL 72到底有什么区别?咱们想象中的B200呢,其实是一个芯片,或者说做出一块卡来,哪怕这个卡再贵几万美金一块的,您也是可以把它塞到服务器里边去的。但是呢,GB200 NVL 72呢,那就完全是一个妖怪了。怎么能叫妖怪呢?这个里边有36颗Grace CPU,这个Grace CPU实际上是ARM的一种CPU,每一个CPU里头还有72个内核。然后这个里边还有72颗Blackwell的GPU,所以这个里边一共是有36颗CPU,72颗GPU,有13.5T的HBM 3e的现存,而且有液冷的系统,就是水冷的,再加上NVL link的交换机。整个这一套咱加一块才叫GB 200 NVL 72,它是一台服务器。
至于说这个服务器到底有多大个呢?为什么说它是妖怪呢?大家是不是在想说,我怎么能够把这些芯片都给它塞在一个盒子里?这玩意得有多高的密度?这个东西首先我们先说功率,它的功率是120千瓦,这个是很像咱家里热水器,可能也就是几个千瓦,它这个玩意有120千瓦,这个非常非常耗电。而体积呢,是一个标准的42U机柜。所以这个东西并不像大家想象似的,是一台服务器,它是一整个机架,19寸的42U的机架,装满了就是一个GB200NVL 72。这东西有多重呢?1.36吨,一般人也是搬不走的,反正至少我搬不走。价格300万美金以左右吧,因为还要看具体的配置,到底配了多少显卡,配了多少显存,配没配NVL Ink的交换机。这个东西基本上就要300万美金起,所以它是一个妖怪。
为什么要跟大家讲这个呢?就是老黄现在肯定不甘心只卖卡,人家说我要把整个机架一起卖给你,你不能说光买我这卡,而且他鼓励大家。
将8台GB200NVL 72组成一个集群一起来使用。一台300万美金了,那8台?哇,好开心,2,400万美金就扔进去了。这个对于英伟达来说,肯定是一个非常非常好的生意。现在谁在买这种GB200 NVL 72呢?主要是那种叫算力云厂商。什么叫算力云厂商?就是说我没有别的业务,我就是提供算力。我也没有什么ToC的业务,也没有其他的任何的系统集成,或者是其他的这种ToB的业务,我就提供算力云。他们呢,在大批量的采购GB200NVL 72,就直接从黄仁勋这里买完整的机柜回来。这个里边最著名的一个公司叫CoreWeave。这个公司呢,这两天要上市,这个真的是英伟达的亲儿子。这些大的AI大厂,一般是不会直接买GB200 NVL 72的,包括Xa i,微软,谷歌呀,他们喜欢自己DIY。我自己来拼,你不要给我拼好了,你拼好了以后,我觉得很不爽。咱们再回过头来看,GB 300插了72个芯片的这个服务器,要比GB 200插了72个芯片的服务器快50%,也就是达到1.5倍。后边有一个特别有意思的事情,这个Robin的这个后面它不再是72了,它是NVL144。所以呢,它所谓的,是原来300的这个服务器的3.3倍。它是用了两倍的芯片在里头,原来那个是72个算力核心,现在呢,是144个算力核心,达到了3.3倍。所以Rubin其实比GB 300快不了多少,大概也就是这样的一个情况。Robin之后呢,再接着出,叫Robin Ultra。一般它叫Ultra的芯片就是我可以把两个芯片拼一块,或者做一些类似这种扩容的工作。当然,像B系列不是这么干的,具体怎么去排这个号现在还不确定。前面的有B100、B200、B300,今年下半年要出的是B300。B200呢,其实就是把俩B100拼一块了。B300呢,倒是重新设计的一个单芯片设计。至于说Robin Ultra的话,黄仁勋准备直接出Robin Ultra NVL 576,把576个Robin Ultra的芯片塞到一个机架。我估计这一个机架未必塞得下,有可能还是要塞两到三个机架,或者是四个机架,才有可能把它塞进去。为什么呢?因为它需要散热。虽然这个芯片本身没有那么大,但是你想加上液冷散热,再加上它整个的这个连接系统,还是非常非常吓人的。Robin Ultra NVL 576呢,它是GB300NVL 72的14倍。这个数字并不重要,意思是什么呢?
黄仁勋已经基本上达到极限了。他想让这个东西变得更快一点的唯一方法,就是把更多的GPU塞到机箱里边去。再往后,费曼到底会变成什么样?这个实在太美不敢想象,肯定是很贵的东西。除了去发这些芯片之外,还干嘛呢?发交换机,叫硅光交换机。实际上呢,就是Nvlink的这个进化版本。NVlink其实也是一套网络交换机,只是呢,它是第一个是光通道的,速度很快。第二个呢,因为它里头有很多的打破协议去进行数据搬运和传输的,这种算是非标的改装件吧。它呢,可以极高速度地在两个显卡或者两个服务器之间,在显存之间去进行数据传输。
黄仁勋就讲了,说你一旦加了我的Nvlink,你就相当于是把所有12个GPU连成一个。如果你再把8台服务器这种Nvl什么72搁在一起的话,我可以让它整个像一个GPU那样工作。这样它从这个GPU的显存向那个GPU的显存里去倒数据的时候,非常快。但是呢,这个里边还有一个问题是什么?就是原来你要从光通道里头把这个信号接收下来以后,你还是要去做一些标准芯片的这个处理。处理完了以后呢,再进到Vlink的这个交换机里边去进行数据交换。老黄说,现在别费劲了,我把你前面那个标准芯片干掉,我自己去设计一些颗新的芯片。这样等于是我直接把光通道进来,我可以省一颗芯片。那这个呢,它确实可以再提高一点点光通道交换机的这种效率,但是也提不了太高了,就是省一颗芯片的这个速度。
老黄说了说DeepSeek R1,你们老说DeepSeek上来以后,英伟达是不是要黄?没有那事。从DeepSeek开始,整个的AI已经进入了新的时代,叫TOKEN时代。在OpenAI开始把大家拉入到AIGC时代以后,大家就天天跟这个TOKEN打交道。我输入了一个单词,是一个TOKEN还是两个TOKEN?我输出了一个单词,是一个TOKEN还是两个TOKEN?一个汉字基本上就是一个TOKEN,大家都是按这个来的。而且我们使用各种API,使用各种的服务,都是拿TOKEN计费的。那为什么现在又突然进到TOKEN时代了呢?原因很简单,DeepSeek R1是个话痨,巨浪费TOKEN。所以,他就讲了说,原来呢,我们使用Lambda这样的模型,它可能输出了个几百个TOKEN,回答了个问题。但是呢,这个答案没法进行具体的应用。你现在让DeepSeekR1来,同样的一个问题,七八千个TOKEN。
直接20倍的TOKEN上去了。那这20倍TOKEN出来以后的这个结果呢?勉强可以用了。这个就是现在的变化。这个里头呢有两个重点:
第一个重点是什么?叫结果可用。因为你一旦结果可用的话,大量的应用就会上来。原来大家还是在围观看热闹,说这个东西好有趣,那个东西好有趣。但是你输出的结果,你是不敢直接用的。现在可以用了。
另外一个重点是什么?20倍的TOKEN。结论是什么呢?大家必须要买更多的英伟达算力服务器,组建更大的集群,才能满足需求。第一个,它可以用了,所以大家赶快来买服务器,把你们家的应用都整个搬过来吧,赶快来改造。第二个呢就是原来几百个TOKEN就可以搞定的事情,现在可能要几千个TOKEN,甚至上万个TOKEN。20倍的TOKEN浪费掉,所以你们原来那个服务器不够使了,赶快换新的。
他讲了说scaling law要换一种方式继续。因为原来我们都说算力堆上去,数据堆上去,大模型的参数堆上去以后就会涌现了。中间这过程到底怎么发生的,我们也不知道。但就是你只管堆就好了。现在呢,GPT4.5出来以后,大家觉得scaling law是不是走到头了。你费了这么大劲,花了这么多钱,效果好像看不太出来。老黄说不是这样的。第一个,推理模型你还是需要大量训练的。不是说你就可以用一个很小的这种蒸馏模型就可以用了。它也去比较了14B的,32B的,这样的蒸馏模型并不好使。即使是70B的蒸馏模型,也没有这种671B的满血模型好使。所以呢,你还是要用这个大的671B这样的模型。你要去训练它,依然需要大量的GPU去工作。所以,这块是一个新的赛道。就是原来GPT4.5那个东西呢,叫预训练模型。现在是推理模型,整个scaling law重走一遍。而且推理过程一堆话篓,这个通常是非常浪费的一个过程,才能够获得可用的结果。用老黄自己的话说,每一个TOKEN都在质疑自己,就是你每输出一个TOKEN都在想我对吗,然后再生成出一大堆TOKEN来进行相互的验证,得到一个最终可用的答案。这个就是TOKEN时代。所以大家赶快去买GPU,这是他讲的。
在这两块之后呢,再去讲的就是他的两个小主机。其实我一直不太看好他的主机。我觉得这东西卖不掉,或者买到他的人,其实会让他吃灰。第一个呢就是CES上其实发布过DGX Spark这种桌面小主机,一个GB10的Grace Blackwell的这种。
CPU和GPU组合在一起的这个价格,跟这个Mac Studio比起来,基本上没法比。因为最新苹果发布的Mac Studio,它满了内存以后,是可以跑满血版的DeepSeek 1671B的。但是这个GB 10好像还差了那么一点点。
另外一个呢,他说我准备发,叫DGX Station了。这个是什么呢?就直接把GB300 Grace Blackwell的Ultra这样的芯片,就整个塞进去了。实际上所谓的这种芯片,就是一个CPU一到两个GPU,直接塞到这个主机里头去,你们就可以去跑了。但是意义真的没有那么大。
后边是软件的部分。其实英伟达的软件,我一直是不那么看好的。因为除了CUDA,大家都在开心的使用之外,剩下的就是大量的开源系统拼接起来的这种英伟达生态软件。之后呢是机器人。英伟达呢也是拿出了机器人的相关的软件,跟人合作了一个叫Blue的机器人。那个机器人很可爱,也是迪斯尼做的,确实是要比宇树科技那个看着可爱的多。至于这个能干什么就不好说,因为他长得不是人样,所以这个还有待观察。
现在呢,老黄还是干的原来CUDA这个事情。我来开放标准,我来开放数据,我来开放系统,你们都来用。等你用上了以后,都上了船了,你们就不要再想下船了。他再好好的去卖这些机器人的芯片,就完事了。
后面呢,DeepSeek其实会议上并没有特别明确的去提DeepSeek。但是呢,在这个GTC之后,接受记者采访的时候呢,还是很认真的去讨论了一下DeepSeek。在这里头讲说中国,必将在AI行业做出突出的贡献。因为全球有一半的AI人才都是华人,美国每一个AI实验室里头,都有相当数量的华人在里边。所以华人是可以在整个的AI行业里头,占据非常大的一个比重。但是大家并不买账,股市不买账。为什么?数字游戏已经到头了。
前面刚才咱们讲了这么半天,GB200 NVL 72,GB300 NVL 72,Robin NVL 144,Robin Ultra NVL 576。他现在已经在玩这样的故事了,大家已经晕头转向了。你到底在干嘛?你就把它堆在一起,还不让我堆,还你替我堆好了,有点过分了,吃相太难看了。
像我们以前在Borland公司上班的时候,其实也遇到过这种时代。我们最疯狂挣钱的时候是卖JBuilder的Java的IDE。能疯狂到什么程度呢?每年出俩新版本。你看他这个科学家的名字,一开始是几年用一个。
现在基本上是两年用一个,而且中间这一年还要再出个Ultra,让你再接着买。为什么呢?原因很简单,你只要出了新的,你得更新换代,你得买新的。你不能在上打补丁,打了补丁的话,人家就不会再去买新的了。黄仁勋现在也走到这样的一步了。Borland呢,就是开始在每年出两个版本的Jbuilder以后,就盛极而衰的,就慢慢就玩不转了。当然了,Jbuilder还能玩得下去,黄仁勋这事可能就玩不下去了。Jbuilder可以卖掉的原因是,投入产出比是划算的。一套软件大概是2,000美金每年,你如果买了以后的话,产出个几万美金,十几万美金都是正常的,所以大家还是愿意买的。而且呢,如果你不升级,很多新的版本的上下游系统,你就挂不上了。当时我们比如接什么Oracle,接什么Web Logic呀,这些东西本身升级升的很快。正常应该什么呢?这种小升级应该打补丁,不应该找人再收钱了,但是实在太好卖了,所以我们就更新版本,让用户重新再买一次。
但是算力服务器不能这么算。为什么?第一个本身很贵,一台300万美金起。第二个呢,就是下游企业都还在亏损。像我们原来卖2000美金的这个开发工具,你买了以后是拿回去挣钱的。但是现在你看OpenAI挣钱了吗?Anthropic挣钱了吗?谷歌其实在这一块也没挣着钱。国内的这些AI企业谁都没挣着钱。那你再去说每年花个几百万美金,或者是多少亿美金扔进去,因为都不是说买一台两台,现在大家都是星际之门了,算力中心巨大投入了。你投完了以后你是要有回报的,现在大家看不到回报。
还有一个是什么?就是大模型跟芯片之间,是没有这种很强的版本依赖和绑定关系的。像我们以前卖IDE的时候,你不升级,Weblogic升级了以后你就挂不上,或者说你就必须要手动的去绑定,你没法去做这个自动的设定,你搞不定。但是现在呢,大家都去使用,比如像DeepSeek这样的东西。DeepSeek是拿H系列叫H100或者H20,拿这样的芯片训练出来的。那我拿这种芯片去训练,去推理就没有问题了。我为什么还要再往后边去买B系列,B200、B300,没必要了。这个就是他现在遇到的一个挺讨厌的问题。现在很多的大模型还可以在A系列,A100系列上的可以跑,那更不用说H系列了。新的这个芯片和服务器,唯一的优势就是速度更快,但是前面呢大家还是愿意买账,为什么到现在就不愿意买账了呢?
因为训练新模型必须要用最快的芯片。如果集成度低的话,就很难训练完成。不是说这边把这个机器都摆好了以后,然后数据在这边放好,一摁按钮,过俩礼拜回来就可以等着收了。不是这样,他中间有经常会出错的,跑一段时间崩了,跑一段时间挂了,这个是很正常的事情。但你如果是集成度比较高的话,第一个就是说你不需要太多的机器放在一起就可以跑,那你出错的几率就会变小。另外一个呢,就是你用比较短的时间就可以跑完,那他出错的概率就更小,它整个训练的成本就会下降。所以集成度越高,越快的芯片,训练成本反而越低。因为什么东西确实贵了,你买了新的芯片,但是训练时间变短了,失败的概率就会下降。
现在不买账的原因是什么?就是推理任务呢,现在没有那么挣钱。原来大家都在抢说谁是老大,现在老大基本上也就是OpenAI在那孤零零的站着,其他的人呢都是围攻光明顶的样子,心里憋着不舒服,天天的给你去添堵。而且呢现在基本上都是按照H100的小时数来定价的,价格还在不断的下滑。并不是说推理资源已经不够使了,我们需要用更贵的这个钱数来去买,是100的算力,不是这样的。现在这个H100的算力的价格不断的滑,而GPT4.5也展示了,就是继续加大参数规模,基本上已经死路一条了,走到头了。在几千亿参数的MOE模型上,更大规模到底是不是有意义,这个事呢不好说,因为像我们讲的DeepSeek R1,Deepcic V3也就是671B的这样的,就是6,710亿参数的Moe模型吧,大家觉得其实是够使的。虽然黄仁勋还展示了一个叫BYNAMO这样的推理框架,用GB 200的服务器,重新刷新了DeepSeek R1的推理速度,唯一能够做的也就是进一步降低一个小时H100算力的价格,其他其实也做不了了。
英伟达算力卡到底是不是还要继续买?因为这个东西不是说我买完了以后一年就坏掉,它还是可以使个六七年。在这样的情况下,大家就不愿意再为它去买账了。新的故事呢其实没有那么好讲了。老黄讲的是AI进化是分几步的,第一步是叫感知人工智能,就是我们最早拿AI干嘛使的,各种的图像识别呀,各种的语音识别呀,各种的这个决策支持,干这个事。后面呢,是叫生成式人工智能,咱们现在天天拿它去写小说,聊天,干这个事了。今年大家在玩的是代理人工智能,AI agent,说再往后呢,我们准备走到物理AI,就是要上巨身智能,上机器人了。
什么时候才有新的算力需求大爆发?这个其实是老黄现在最头疼的问题。第一个是要AI agent证明它的价值。现在虽然大家都在玩AI agent,都在说上了这个东西以后无所不能。今天我还去试了一下XAI最新出的叫deeper search,原来它是叫deep search,现在加了个er,deeper search就是比deep search还要再深一些,就是字面意思,效果好极了,特别特别浪费TOKEN。也确实如此,像我们使用AI agent,比如说挂到Anthropic的Claude3.5上,一会一美金就不见了,一会一美金就不见了,那可快了。这个玩意非常非常消耗TOKEN。
一旦AI agent彻底证明了它的价值,更多的软件公司开始招聘程序员了,而不是像现在这样不停地裁撤程序员的时候,更多的各行各业就都会开始进行AI agent改造,并且取得成效。那个时候AI算力还会再爆发一轮。到底是现在就买,还是稍微等一等,再去买GB300或者Robin,咱们再去等着看。到那个时候呢,全产业链就都会有利润,而不像现在似的,大家折腾半天都在赔本赚吆喝,谁都没挣着钱。而且新产业的诞生,更多人开始从新的产业里头挣到钱,这个也是值得期待的。就是我们现在都在讲说AI要改变所有的传统产业,要把以前所有的传统的软件都拿来重做一遍,这个其实是错的。一旦是AI真正大行其道了以后,一定会有非常非常多的新产业冒出来。
那么英伟达后边怎么走,其实要看中国能买哪些芯片。DeepSeek让H20的出货量大增,阿里、腾讯、百度、字节都在疯狂的买H20,让自己的云服务中心上去可以跑DeepSeek。虽然很多人说,我们用华为升腾芯片就跑起来了,但是挺费劲的。想要很好的跑DeepSeek,还是去买H20,就是美国允许出口到中国的这些芯片。因为你有一堆H20以后,你再让其他的这种来路不明的芯片在里头跑起来,也就可以说得过去了,就是我至少买过正版的。如果英伟达可以在中国孵化出类似CoreWeave这样的算力云企业,那肯定就可以起飞。还是要看美国到底怎么去限制,咱们稍微讲两句。CoreWeave这个公司呢,最早不是做算力云的,它最早是挖矿的,买了英伟达的算力卡回去挖比特币,其实主要可能还是挖以太坊。后来呢,这个挖矿挖不下去了以后呢,就开始做算力云供应商,他去买这种英伟达的服务器,租给别人用。
英伟达投资做技术支持,所以为什么他叫英伟达的亲儿子呢?62%的收入都来自于微软。千万不要以为说,微软花了好多钱去买了一大堆的这个显卡。微软大量的算力,都是在这个CoreWeave上做的。最近呢,这个公司是向美国SEC交表,准备上市,计划以260亿美金的市值上市。目前应该算最大的一个美股IPO了。如果英伟达可以在中国也整这样的一家公司上市的话,那他就起飞了。
打击走私,还要看美国到底怎么个打法。那么下一个增长点什么时候到来?黄仁勋真正值得钦佩的地方呢,其实并不是说显卡做的怎么好,刀法怎么精准。真正让人钦佩的地方是他眼光很长远。CUDA也是做了这么多年突然爆发的。他其实做了非常非常多的技术。现在他在很努力的推这个机器人、自动驾驶和量子芯片。今年就要干这个。你想最后一个2028年要发的芯片叫费曼,那哥们是研究量子力学的。英伟达现在已经在波士顿设立了量子计算实验室,招一大堆人去做研究去了。但是呢,以黄仁勋的讲法是,达到非常有用,就是稍微有点用还不算,就是非常有用。这个量子芯片可能还要20年。现在呢,还是老老实实的去买它的GB200、GB300,或者明年的Robin就可以了。
总结一下,在AI市场上,如果只有英伟达的声音,只有英伟达在赚钱的话,迟早是要崩的。这个泡沫是要破的。现在在干的事是什么?就是英伟达你稍微等一等,等等整个行业的发展,等等小兄弟们小伙伴们追上来。如果大家追上来了,英伟达肯定还是可以长足的进步的。但是现在他有点跑的太靠前了。就是这样的一个情况。好,这就是咱们今天讲的第一个故事。