黄仁勋AI时代英伟达GPU革命:一场市值2.7万亿美金的狂欢,COMPUTEX 2024重磅发布Blackware GPU,1.8万亿参数GPT4揭秘!
大家好,欢迎收听老范讲故事YouTube频道。今天,咱们来讲一讲黄仁勋在COMPUTEX上的狂欢。COMPUTEX是一年一度在台湾举行的计算机大会。黄仁勋,作为现在真正AI时代的当红炸子机,可能是唯一靠AI赚了大钱的人。虽然微软也在赚钱,但是微软整个靠AI挣的钱并没有那么多。真正靠AI赚了大钱的公司只有他一家——英伟达。刚才我看了一下,英伟达现在市值2.7万亿美金。大家知道,再往前就是微软的3.2万亿,第二名是苹果,2.9万亿,还差那么一点点。可能稍微一哆嗦,英伟达就有可能成为世界第二市值的公司了。那么,黄仁勋上面都讲了什么呢?作为网红,肯定还要先暴露一下行业秘密,别人都不知道他知道的事情。上来先说一下他现在讲的是什么——就是GPT-4到底有多少参数。GPT-3.5大家知道是1,700多亿参数,就是一个170多亿级别的模型。但是到GPT-4的时候,OpenAI就再也没有出来说它到底有多少参数。很多人说你是不是超过万亿了,对OpenAI来说,这个数据不是很准确。我来辟谣了,但是具体有多少,从来没有讲过。黄仁勋在前面的GTC,就是GPU技术大会上,每年一次的英伟达自己的开发者大会上,上面也讲了……
说起来1.8T,这个1.8T指的是什么呢?其实就是1.8万亿参数,而且它是一个Moe模型。当时OpenAI并没有对此多说什么,但这一次,在《Computer Text》上,他们又反复强调了这个事情,明确指出GPT-4的训练参数达到了1.8T。这让人们意识到,想要达到GPT-4的水平,还有很长的路要走。尽管现在大家都在努力研发号称能达到或接近GPT-4水平的模型,比如几百亿参数的模型,比如梅塔的拉马3可能会有一个400亿参数的模型,国内也出现了很多一两百亿参数的模型。但事实是,即使提到的1.8T参数,如果考虑到是Moe模型,分成八份来看,那么单个模型可能也就相当于200多亿参数的水平。
这次先通过揭示现状,然后发布新GPU,但对于具体数据——多少核心、多大算力、内存多大、带宽多少,人们似乎已经感到麻木。现在大家更关心的是,如何将这些GPU有效地集成起来,如何把它们拼装成服务器,以实现更强大的计算能力。这背后的提升,不是5%或10%的增长,而是几倍的飞跃。这成了技术关注的新焦点。
如何装到机房里头,统一为别人去服务,这个是现在大家更关心的事情。所以现在呢,他们发布的叫Blackware GPU,而且,它取出来那个板子上是两块GPU和一个CPU,应该是他们自己做的CPU。这是一整块,然后可以装到一个大的服务器里面去。再把这些服务器堆叠在一起,使用它的NV link,让这些GPU可以像一块完整的GPU那样工作。这样说,你就可以去训练更大的模型了。而且,今年是这个Blackville,明年就是Blackville Ocho,再往后是Robin。就是说,往后一代都给你规划好了。再往后一步,是叫Robin Ocho,所有的GPU一直规划到2027年,一定让2027年之前的GPU都给你规划好了。
现在呢,很多大佬还在惦记着买H100。他现在就专门告诉你说,你看我这个艾克威尔跟这个H100比,它强在什么什么地方,好在哪哪哪。但是很多人还想买H100,这是为什么?可能Blackware它的这种工作方式,或者说它可能需要跟更多的设备先行捆绑,而H100的话,相对来说可能兼容性会更高、更好一些。就是你用任何的这种通道服务器,都能相对容易地兼容和使用。
你把它插上去都是可以用的。likerware我倒是真没看到它出这种——就是像原来金砖啊,像我们以前讲的A100、H100这样的,我们管它叫金砖嘛,就是它的卡还是金黄色的,方方的一块,可以插上去的。好像没有看到这样的东西啊。现在呢,基本上都是以两个black Verre在一起,然后头上带一个CPU,是完整的这个配置。
当然了,这些大佬,包括马斯克、扎克伯格,可能也不是说我就一定要去买H100。对于他们来说,H100就算是一种计量单位,就是说啊,他们会算上自己到底买了多少H100,或者说现在手里的算力相当于多少H100。你像扎克伯格之前讲,说他买了35万块,加上他手里现成的有60万了,再加上后面再接着买,现在扎克伯格手里的大概有接近100万块H100,相当的算力。这就跟我们造炸弹的时候说,这个炸弹相当于多少吨TNT啊,最后变成了一种衡量单位了。
老黄(指NVIDIA的CEO 黄仁勋)就告诉大家说啊,你们来买新的吧。而且这种升级是呈几何级数升级的,所以不要去买旧的,去买新的,这样的话才能够保持它的垄断地位。如果说哎,我现在这个GPU再涨上去,涨了10%,涨了20%,那大家就不买它的了,就去买AMD,买英特尔,买其他的这些算力芯片去了。
甚至像高通这样的公司,都能做出一定的算力芯片来。这样一来,人们可能就不会一定买它的产品了。但是现在的情况是,我们谈论的是算力要涨十倍、百倍、千倍,而且每年都要这样增长。为什么呢?因为这成了一场军备竞赛。每个人都害怕落后,就像人们常说的“输在起跑线上”。我们从小让孩子上补习班,是为了什么?就是出于这种害怕,这种焦虑感。老黄就是在给大家制造焦虑:你现在买了旧的,等明年出了新的,你就落后了。你必须去买新的,然后当更新的版本出来时,你又要再买。毕竟,GPU不像软件,软件可以逐年升级,而且升级成本相对较低。但GPU,你需要整块购买,一年后淘汰,再换新的,这成本实在太高了。一片就是4万美金,Blackwell的价格我虽然没查,但肯定不便宜。所以,要让大家每年跟着升级,必须讲出一些更有诱惑力的故事来。目前,从算力成本和能耗几个方面看,确实在全面升级。一方面,算力成千倍增长,成本自然是变贵了。这没什么可争议的。但就单位算力的成本来说,它是下降了。比如,原来的H100卖4万美金,但使用Blackwell之后……
你可能继续达到H100同样的算力,这只需要原来1/10,甚至1%的成本,是这样大幅下降的。能耗方面也是如此,比如说,要达到原来H100的算力,所需消耗的能耗可能也只是原来的1%。如此发展,GPT-4的1.8T训练能耗引人注目,因为之前很多人讨论,GPT-4训练一次的能耗相当于多少个家庭一年的电力消耗,让人担忧AI发展的能源瓶颈。但现在的进展是,重新训练一遍的能耗降低了99.7%,仅为原来的1/350。而进行推理时,即训练完成后用于问答等任务,能耗更是降低到原来的1/45,000。这样的发展速度令人惊叹,从GPT-4推出至今不过一两年,能耗的减少就达到了如此程度。
军备竞赛在AI领域体现为不断制造焦虑,促使各方持续投入。这就像冷战时期的军备竞赛,你有武器,我必须跟进。如今在技术领域,特别是英伟达所处的,情况类似,但效果是整体提升,正如“一人得道,鸡犬升天”。之所以提到这一点,是因为他们还强调了除了芯片本身,还有Vlink技术,能够将服务器像拼图一样连接,整个机房的服务器作为一个单一GPU工作,展示了技术整合带来的巨大效能提升。
因为,这些服务器在一起,你的GPU的算率越大,可以并行处理的东西就越多,与内存和CPU之间的通道越宽,整个进行大模型训练的效果就会越好。所以他说,他可以干这件事情,但在这个过程中,这些服务器,或者其他一些相关的配件,都跟着他“鸡犬升天”了。比如说,像戴尔、超微电子这些给他造服务器的公司,全都因此受益,一路上涨。因为你不能只有GPU,不能只有他们的加速卡,还得把所有配件凑在一起,这些东西才能正常工作。而这些配件,都是值钱的。
在这个过程中,服务器肯定变得更贵了。比如说,原来用的是H100的服务器,现在变成了更高级的查克威尔的服务器,那自然是服务器变贵了。但你想,服务器变贵的过程中,到底是什么东西变贵了呢?其实,只有与H100相关的专利费变贵了。大家要注意,因为大家自己并不造芯片,也不造服务器,他也不造算力中心。他只是设计好GPU,交给台积电去生产、封装、测试,然后下交给板卡厂商制作成板卡,再由服务器厂商组装成服务器,最后等待比如马斯克这样的人购买安装。所以,整个服务器链条上的价格上涨,实际上主要是由于关键技术组件的成本上升,特别是H100相关的专利费用。
除了GPU价格飙升之外,其它相关成本也难免水涨船高。你不能期望其它东西都保持低廉,这显然不合逻辑。我们整体的成本基数提高了,但单位成本可能有所下降。不过,要注意的是,老黄的市场策略极为精准。GPU的知识产权价值多少,或者说它的设计成本是多少,他们心中有数。如果没有竞争对手,价格自然可以定得更高。但即便如此,人们依然能看到成本在以惊人的速度下降,甚至是以十倍、百倍的幅度。然而,GPU的设计价值却在不断提升。
除了NVIDIA本身,那些制造显卡、服务器以及各种配件的厂商,它们的产品也会随之增值。比如,如果你用一个价值4万美金的H100来搭建服务器,仅这一部分就是一笔昂贵的投入。而且,随着Nvlink标准的采用,替代了以往的Pcie标准,意味着新的配件、新的线缆等都将应运而生,价格自然比过去高出许多。
我记得早些时候,为惠普的小型机配备一个简单的支架,就是一个铁质架子,都能卖出数千元的高价。原因在于它专为小型机设计,很多工程师甚至会私下找工厂定制支架,替换官方配件以赚取差价。这背后反映的是,即便是一些看似不起眼的配件,在特定情境下也能变得极其值钱。
大家其实也都知道,那个铁皮的支架,你说能值多少钱?你凭什么一定要买惠普的?他只要是惠普的工程师给你装上,下次他接着给你修不就完事了吗?你跟着这个比较贵的东西一块去卖,他就会卖的很贵。但是这几天呢,戴尔和这个超威的股价,其实已经快有点绷不住了。大家心里也明白,虽然你们跟老黄跟的很紧,但是这个里头真的,你就是个卖支架的,卖个铁皮,卖个机箱的,你跟着里头的GPU一起水涨船高,这件事稍微的有点侮辱大家的智商。
现在呢,是AI工厂时代,现在老黄也讲说我们现在就是AI factory。在这样的一个时代,我们应该如何与时俱进呢?我记得在移动互联网刚开始的时候,我们写很多应用,当时我们在思考说,哎呀,我怎么能够省一点流量,因为那个时候流量很贵。我们都想着如何去节省流量,如何在使用的时候联网,不使用的时候怎么把它断开,想着怎么去省一点电,怎么去做一些其他的节省资源的事情,可以少占一些硬盘的空间,可以交互的时候少交互一些流量。当时的我一位老板就跟我讲,说你们想这个事情是错的,说为什么呢?就是因为很简单,随着时代的发展,这些东西都会变得不值钱的。比如说现在,流量咱们现在……
其实,基本上是没有流量焦虑的。我记得最早开始使用手机,那时候刚进入3G时代,我们都会做什么呢?每天定时打开流量,收完邮件后立即关掉。为什么会这样?因为酷,而且节省。现在,还有人这样做吗?没有了。现在,我们走到哪儿,站在哪儿,就开始刷抖音、看视频。已经很少有人会说,我必须节省流量,等到有WiFi的地方再做这些。绝大部分人没有这个意识了。
电的问题现在也不那么大了。虽然手机应用还需要省电模式,但现在的手机几乎都是一天一充。你的应用再费电,能比微信还费电吗?能比原神还费电吗?所以,这些问题也变得无关紧要。因此,很多以前为了省电而做的操作,实际上已经没有意义了。
再往后说,我们是否会考虑在硬盘或手机上占用更少的空间?以前在猎豹工作时,我们还在研究如何让软件占用空间尽可能小。但现在看看《原神》有多大,看看那些手机游戏的大小,再看看微信在你手机里占了多少空间,就会觉得,我们当初那么精良的考虑,好像都没什么大作用。是的,所以在AI Factory这个时代,也就是AI工厂时代,我们仍在思考如何能省一点TOKEN,情况依然如此。
我怎么能够让它反应得稍微快一点?我怎么可以调用不同的大模型?这个模型贵一点,那个模型便宜点。我尽量让便宜的模型干尽量多的事情,让贵的模型干少一点的事情,做一些其他的,比如优化(reg)或者做一些这种节省沟通交互的事情。可能真的再过一年,这些就会变得很可笑,就像我前面讲的,我们在做手机应用的时候,让它怎么去省流量,从网上下载的东西少一点,占的硬盘空间少一点。我们现在回想,那时候想的这些事情就显得很可笑。但是在AI时代,刚才我们讲的怎么能够省一点TOKEN,怎么能够让便宜的模型多干点,贵的模型少干点,怎么能够让多个模型相互搭配起来使用,可能也会变得很可笑。而且,这个时间会来的非常快。
黄仁勋呢,除了讲数据中心业务,就像我们刚才提到的Blackvail,一切都是数据中心业务,这也是现在英伟达核心的收入来源,没有之一。现在,他主要就靠这个业务玩。那么其他的呢?也还在讲,英伟达这家公司特别有意思,它不会说某一个业务特别好,就把所有的身家都压上去。它永远是在所有它认为有趣的地方投注,即使这一个方向很长时间没有结果,它依然会在里面坚持。那么,它肯定还有些其他的业务在做什么呢?
比如说,RTX加载的AIPC,因为前面微软发布的AIPC是基于高通的。现在,英伟达说了,你们使用英伟达的GPU,也可以达到同样的水平。英伟达专门为了AIPC设计了一款很小很轻薄的GPU,而且很省电。但这一块上,它稍微有一点尴尬。为什么呢?你如果真的要轻薄省电,你一定使用ARM的,对吧?就是使用高通的就好了。那你说,我现在稍微费点电也可以,这个英特尔自己也出了,英特尔说,你们就直接用英特尔完整的GPU加上算力核心就完事了,你不用再去单独配独立的GPU,依然可以达到AIPC的能力。包括AMD也是这么干的,AMD自己也产X86的CPU,AMD说:“来哇,你直接买我的APU加我的算力核心,就一次搞定。”
那么,英伟达的RTX这个方案为什么尴尬呢?就是它必须要再搭配一块Intel或者是AMD的X86的CPU,它才可以正常工作起来。这对于强调轻薄便携的AIPC来说,就稍微有些尴尬了。但是,英伟达也强调了,加上他们的技术后,算力是苹果的多少多少倍,主要是与苹果的M系列芯片在比较。在这方面,我们还是要相信老黄的,他的算力确实是靠功率支撑起来的,如果他真想达到某个目标,他有这个实力。
说我在电脑上做Stable Diffusion的,这样出图,速度很快。那一定是配着呼啸的风扇声,以及呼呼转的电表,一起来工作的。除了AIPC之外,还在讲游戏助手。但是这个呢,我觉得大家看着开心一下就可以了。他说我做个助手帮大家打游戏,这个呢,就属于工程师思维——一拍脑袋觉得,“我需要一个这个”。其实,游戏跟这个没有那么大关系。就算是AI应用在游戏里面,应该也不是通过游戏助手的方式去应用的。
另外,还展示了机器人。他说所有跟机器人相关的东西,我们都上,也做了全套的机器人套件。还有,其实VR、AR以及车载芯片,其实都在英伟达的整个路线图里边。再往前走,很多人就会关心,英伟达到底还能坚持多久呢?他真的还差2,000亿美金就追上苹果了,对吧?苹果2.9万亿,他2.7万亿,真的差的不多了。他到底能不能超过苹果,甚至能不能超过微软,成为全世界最值钱的公司?这个其实大家心里都在打鼓。
英伟达呢,跟其他不管是微软也好,苹果也好,有一个特别本质的区别,就是它是一个“轻公司”。这个“轻公司”赶上时代红利是可以的,但是到底能不能长久地坚持下去,这个就很难了。黄仁勋展示现在的成就,未来的路线图,让人充满期待的同时,也不免有几分疑虑。
但是,并没有说我要砸重金进去,变成一个重型公司。大家注意,苹果是个很重的公司,它生产电脑——虽然电脑也是台湾人给他造的——它的手机是富士康,包括比亚迪都在给他造手机。它是这样的一个公司,虽然供应链在外面,但是这些货品、这些设计,包括全球的仓储物流,很多东西都是属于苹果自己的。所以,苹果是个很重的公司。微软其实也是一个很重的公司,微软自己在造Surface,那个东西虽然卖的并没有那么好,但是它也是电脑平板,甚至还有很多其他的硬件,比如说键盘鼠标。微软键盘鼠标其实做得非常好。而且微软其实还有一块很重的资产,那就是云计算中心,它有很多的数据中心。微软现在是全世界可能GPU最多的公司了,因为后边有OpenAI这样的一个“亲儿子”,那你肯定是要靠这么多的GPU去养的。微软现在的GPU,如果大概核算成H100的话,应该有180万块,这都是重资产。
谷歌呢,也是一个很重资产的公司。谷歌紧跟在英伟达之后,他现在是市值第四的公司。谷歌我记得在云计算兴起之前,曾经有一段时间,他拥有全世界大概6%的服务器,这是一个多么恐怖的数字。而现在,虽然应该没有那么多,但谷歌的数据中心依然规模惊人。
也是一块非常非常沉重的业务。而且,另外一点是什么呢?就是我们来看,整个的生态是否稳固,或者说,整个的价值体系是否可以稳定地升级上去。还有一个点可以看是什么?就是你上下游的生态链是否足够稳定。围着你吃饭的人到底有多少?以前我们在学生物的时候讲过一点:在一个自然环境里头,食物链越长,或者说参与到食物链里的动物、植物越多,它整个的生态系统就越稳定。为什么呢?因为其中有一些波动,其他的这些生态位上的人,或者这些动物,就可以慢慢地把它平衡回来,而不是说啊,我的食物链很短,就两三节,参与的动物也不是很多,植物也不是很多,可能中间稍微有一点闪失,这个食物链就崩溃了。
咱们来看看苹果,上下游其实有非常多的人围着他吃饭。我们不说这些果链企业,就光在苹果应用市场里头,做应用的这些人,也有几十万人,对很多人来说,这是他们的收入来源。再看谷歌,像我们现在在这看YouTube,我在这拿着YouTube的广告费,那我们也算是谷歌生态链里边的一环。那是非常多的人靠着谷歌生活。啊,微软那不必说这些靠广告吃饭的,因为微软的广告并没有那么多,但是微软上下游,是有大量的系统集成公司,靠着微软吃饭的。
还有微软云上的大量客户,但是英伟达有没有这么多人靠着它吃饭呢?英伟达虽然一直努力地在打造他的生态链,整个生态环境,但是并没有那么多。所有能战胜英伟达的,像刚才我们说的戴尔、超威等,这些已经都涨疯了。剩下的呢,其实没有那么容易贴上去。虽然有很多人说,“我们拿英伟达的CODA,我们去写这些Transformer的大模型。”但是这些人呢,实际上在整个的生态链里面是非常非常小的一群。现在能够真正把这个东西跑通的人非常少,虽然这个领域的人才工资非常高,但是人数真的不多,它没有真正撬动大众。所以,我从这两个方面来论述,英伟达到目前为止,依然是一个很轻的公司,资产很轻,它的整个生态链其实也是相对短而且相对脆弱的。
那么英伟达现在能够赌的是什么呢?就是这个缩放定律,叫“scoring low”。只要这个东西依然有效,黄仁勋呢,就还可以继续狂飙那么一段时间。“scoring low”是什么东西?就是我堆更多的数据,上更大的模型,上更大的算力去计算,然后得到的模型效果就更好。这个东西只要依然在,还可以大力出奇迹。那么大家就说,那我们就接着老老实实地买他们家显卡。
而且,这种倍速一定是十倍、百倍、千倍这样往上涨,为什么呢?因为如果你说,我英伟达下一代的GPU就比现在快20%,那大家就不更新了。或者说,我干脆去买AMD吧,AMD的比你这还便宜点,算力也没有那么差,只是这个过程稍微麻烦一点——我需要重新去适配AMD的算力卡。大家要注意,因为做这行的人很少,这些人很聪明,对他们来说,适配一个新的算力卡,难度并没有那么高。
刚才我为什么专门讲了苹果的生态链、谷歌的生态链、微软的生态链?因为它们里面有很多低端开发者,对他们这些低端开发者来说,技术迁移的门槛是很高的。你让他重新换一下,比如说,“你原来做安卓的,现在去给我做iOS开发去”,他真不会。甚至说,他学会了以后还能涨些薪水。但是对于英伟达来说,如果他没有办法快速地让算力十倍、百倍、千倍地涨上去,那么大家就会渐渐背离他,对他的忠诚度是相对比较低的。
有可能造成英伟达崩塌的原因有三个,咱们最后总结一下:
第一个就是摩尔定律失效了,缩放定律已经没效果了。大家发现,上更多的数据,配更大的模型,训练完了以后效果提升了。一旦到这样的情况,就不会有人再疯狂地去买他的新显卡了。
第二个中心转移了。突然间,又一个特别赚钱的应用方向爆发起来。大家注意,现在为什么大家都在选择这个?因为“缩放法则”——谁都用不好。大家只能去比谁的模型做得更好,然后去跑这个,跑那个。但是一旦发现,这个模型在做一些特定应用时,效果好得一塌糊涂,而且极其赚钱,那么这个时候,就不会有那么多人继续投入资金去做新模型的研发了。他们可能觉得,现在的模型就够了。这相当于什么呢?就是说,虽然“缩放法则”仍然有效,并没有崩塌,但是没有人愿意再往上堆成本了。因为,尽管“缩放法则”有效,但增加更多的算例、更多的数据,那都是钱。一旦出现特别赚钱的领域,即使“缩放法则”依然有效,增长也会停止。
第三个因素是巨头合作,突破并扩大了垄断。现在,大家离不开英伟达的原因,就在于它推进的这套扩大——可以称之为通用计算方法,具体的名称我不再详查,它是不开源的,而且英伟达拥有专利。因此,大家都在这个基础上进行了应用开发和大模型的训练。之后,想要更换这个技术,就会有一个成本。这个成本,我们要反复讲,不高也不低,为什么会这样呢?
肯定换过去以后会有些兼容性的问题。但是呢,因为你后边真正使用你的H100也好,Blackware也好,都是些什么人?特斯拉、苹果、谷歌、微软、亚马逊——他们可以花最贵的钱,雇最好的工程师,说来咱们今天去改一遍就完事了。这个都是有可能的。但是,这个临界点在什么地方?临界点就是,如果涨不上去了,那咱就改;或者说突然有人说,“我愿意砸一笔更大的钱进来,咱就改。”为什么?詹奥特曼说,“咱们砸一笔大钱啊,1,000亿美金,或者说1,000万块H100算力的这个GPU,我们统一搞一次,做星际之门去。”这个对于英伟达来说,都是比较大的威胁。就是这三个威胁。
英伟达呢,也算是我们现在的一个传奇故事。我相信在整个的AICC大时代里头,我们还可以不断地看到它的故事继续。好啊,今天我们要讲的故事就到这里。感谢大家收听,请帮忙点赞点小铃铛,参加Disco讨论群,也欢迎有兴趣有能力的朋友加入我们的付费频道,再见!
Both comments and pings are currently closed.