NVIDIA收购Run:AI后立刻开源,到底意图为何?商业巨头全球战略再掀波澜!
1 月 05
英伟达,NVIDIA,黄教主,GPU AI云算力, AI开源软件, AI技术标准, AI控制面板, AI算力平台, AI算力管理, AI脚本调度, AI训练模型, AMD显卡, GPU任务调度, GPU市场, GPU显卡, GPU算力优化, GPU调度, GPU调度工具, GPU资源管理, Intel显卡, RunAI, RunAI内部协议, RunAI开源, RunAI竞争力, 中国显卡市场, 中小企业算力调度, 云计算, 云计算兼容性, 云计算厂商, 亚马逊算力, 升腾910, 反垄断调查, 国产AI显卡, 垄断竞争, 大型云厂商, 开源GPU生态, 开源代码, 开源战略, 影棚调度类比, 微软GPU, 摩尔线程, 数据中心GPU, 无人驾驶算力需求, 显卡国产化, 显卡市场, 显卡市场策略, 显卡开源驱动, 显卡管理工具, 显卡调试工具, 显卡资源优化, 显卡部署策略, 显卡驱动兼容, 显卡驱动开源, 服务器资源管理, 混合云算力, 算力中心, 算力优化, 算力整合, 算力管理技术, 算力调度软件, 自建算力中心, 英伟达, 英伟达中国市场, 英伟达云计算, 英伟达全球布局, 英伟达垄断, 英伟达开源, 英伟达收购RunAI, 英伟达显卡兼容性, 英伟达显卡市场份额, 英伟达显卡开源, 谷歌TPU, 跨品牌GPU调度, 运行效率提升, 银行算力中心 NVIDIA收购Run:AI后立刻开源,到底意图为何?商业巨头全球战略再掀波澜!已关闭评论
英伟达收购了一家软件公司,叫RunAI,转手就把它收购的软件公司产品直接开源了。这到底是想要干什么呢?大家好,欢迎收听老范讲故事的YouTube频道。
还记得前面英伟达接受中国反垄断调查那个事吗?就是当时他收购了一个网络相关的公司。当时收购的时候,大家提出了条件,说你收购了以后不可以去进行捆绑销售,不可以说你必须要选择英伟达家的产品,选择你们家收购的这个网络产品,必须要有这样的承诺。但是最后承诺并没有实现。所以呢,现在英伟达在遭到很多国家的反垄断调查。
那么这一次呢,整了个RunAI,一个以色列的软件公司,上手就开源了。他到底想干嘛?是不是为了避免这种反垄断调查,还是为了什么呢?这个咱们今天解释一下。
首先要说一下RunAI是干嘛的。他呢是以色列的一个公司,专门做GPU调度的。你说我一个GPU都没有,或者只有一个GPU,有啥可调度的?对,这事跟你没关系。你说我这个机房里头有1万块GPU,我需要对这个GPU进行调度。这回你去算这个任务,下一回你去算另外一个任务,他要干这件事情。
那你说这玩意还需要个软件吗?我们把GPU插上使不就完了吗?可没这么简单,GPU调度呢,还是非常有必要的一个工作。首先大家要思考一下,1万块GPU搁一块到底是怎么使?它不是说搁盒子里,你得把它插电脑里,插在服务器里头以后,我们在每一个服务器上装软件嘛,肯定这玩意是不行的。
跟大家举一个稍微形象一点的例子吧,这个算例中心的服务器有点像拍戏的摄影棚。拍戏摄影棚长什么样?给他搭各种各样的布景。你这边拍完戏以后要干嘛?赶快把这布景拆了,换下一场戏的布景上去,再去拍下一场戏。张三,你要拍《霸王别姬》,你到哪去拍去?后边一个你要拍什么什么东西?《霸王别姬》那个一会拍完了,你上他那去,把那个影棚拆了,然后去把你的东西布上。这个玩意就叫做演播室调度,或者摄影棚调度。GPU调度其实干的也是类似这样的一个活。
就是每一个人说:“我现在要上算力平台,去训练我的模型了,去微调模型了,或者做推理去了。”这个时候要干嘛呢?也是一样的,就是我们有一个环境,我应该先去部署什么操作系统、什么数据库、什么样的大模型、哪些数据。部署完了以后呢,说“123,开跑”。那怎么能够让它跑得快些呢?很简单,就跟刚才咱们讲的这个摄影棚的故事一样。
首先呢,你要写一个大的本子,这个脚本是说我们应该先部署这个操作系统。部署完了操作系统以后,再去做什么什么事情。你要照这个本执行下来。对于这个算力服务器来说,他也是干这么个活。你说我们现在要去部署一个新的任务了,怎么办?先找一台空的服务器,这个服务器是现在啥都没有的。然后上来说:“这是一个明朝的戏,咱们现在赶快把明朝的布景都放上。”这个是个卧室,咱们把这个床、桌子、椅子什么都放上,这是应该是结婚的戏,赶快铺上红的。他就是这样的一个过程。
铺好了以后,说“321,咔,开始跑”。他就是整个的调度。你说我现在拍摄的这个房间现在不用了,那我需要把东西收起来,也不是说咔嚓都给人砸了就完了,还是要做正确的数据回收。哪些东西我们要回收回来?这次这个演员拍戏的时候写了个字,我们得把这字收好了,下回再拍戏的时候得把这字铺在这,你可以接着写,还是怎么怎么样。
还有很多这样的事情,像我们去训练大模型也是这样的。我这头环境部署好了,任务开跑,跑完了以后呢,你要正确的把信息回收回来,然后呢再说:“OK,现在这个服务器归还到池里边去,重新清空。”下回你谁在用的时候,可以直接在这个服务器的基础上继续去使用它,是这样的一个过程。
GPU调度呢,实际上也是干类似这种事情。GPU调度呢,他自己还做了一个叫AI control panel的东西。像我们使用云服务或者使用各种云端服务的时候, 经常会遇到这种叫control panel,叫控制板。什么意思呢?就是一大堆开关,一大堆状态,相当于是我们,比如说开飞机。
面前是一大堆的开关,一大堆的仪表。使用GPU云服务,或者说算力中心的云服务的时候,它也是这么一大堆东西。你要去说这个任务需要在什么时间点上线,什么时间点下线。上线之前部署哪些东西,下线之前回收那些数据。然后,下一个任务怎么去排队,你要搞一大堆这样的事情进去。
你要设置很多的开关,设置很多的仪表,说这个数据跑到什么样的程度了,GPU的温度怎么样,GPU占了多少百分比了,CPU占什么样了,硬盘什么样,内存什么样。也有一大堆的图表在那看着。这呢,叫control panel。RunAI呢,就做GPU调度,提供这个AI的控制面板,这就是他们干的活。
目前,RunAI只支持英伟达的显卡。你说我Intel的显卡,或者是AMD的显卡,或者咱国内说升腾910的显卡,这个人家不支持。就是这样的公司,被英伟达好几亿美金给买下了。具体钱其实没有公开出来,因为里头有很大的一部分是英伟达的股票。而英伟达的股票呢,又快赶上比特币了,非常不稳的那个价格,上蹿下跳的,但最近主要在蹿。
所以呢,他这个具体花了多少钱买,这个不确定,肯定是几亿美金了。而且呢,这公司只有150人,这帮人肯定是年前吃了鸡腿了。那你说英伟达这样的一个公司,他为什么要买RunAI这么一个项目呢?他是不是也跟咱们前面讲英伟达垄断案里头那个网络设备供应商,他有巨大的垄断地位,占了非常非常高的市场份额呢?
这个事呢,其实RunAI在整个的算力市场里的占的份额是非常小的,并不大。这个可能跟很多人的想象是不一样的。GPU调度这个事呢,重要吗?肯定重要,因为这玩意儿贵。而且GPU随着英伟达快速的升级,你一旦买回来以后,哪怕你不用,它的这个价值也会在快速下跌。所以大家都希望说买了GPU以后,你一定要把他们都排满了,都给我干活去,家里的这个大牲口不能让他闲着。所以GPU调度这个事本身是很重要的。
RunAI市场上占有率又这么低,那英伟达你买它的原因是什么呢?大家要注意,现在我们去做这个算力中心,去做这个GPU调度,其实是有两个大的阵营的。一个阵营是什么呢?就是传统的云计算厂商,比如谷歌、微软、亚马逊、Oracle,国内的什么百度、腾讯、阿里、华为,这都属于大的云计算中心。他们自己是有很多的算力卡的。那么这些人呢,他是不会使用RunAI的,他们一定会自己去写一套这种系统,去管理自己的这个算力卡。为什么呢?就是你在这种云计算中心里头,他自己需要对自己的机房进行统一的控制,进行统一的镜像上架,或者是这个服务器怎么下架,他一定会统一的有一个规范来管理这事。
有点像什么呢?还是像刚才咱们讲这个拍电影的故事。你这是一个横店影视中心,你说你会去用一个外边人来去管理,说我给你提供一套规范,我们来管理这个所有的拍摄棚?不会的,人家一定会自己整一套的。所以大的这种云计算中心是用不着这玩意了。
云计算中心还有一个问题是什么呢?就是他们呢,都在尝试逃离英伟达的控制。谷歌自己研发了自己的TPU,Tencent Flow的处理核心,它叫TPU。微软自己也跟ARM一起做了一些自己的算力卡,亚马逊也做了类似这种东西。国内那就更是五花八门了,还有升腾910这种奇怪的东西在里头。云计算服务商呢,他们就会尝试把这些乱七八糟的卡都运行起来。而你像RunAI这种,就是我只支持英伟达的,你肯定就没法使了嘛,他就是这样的一个情况。
除了这些云计算中心之外,还有谁干这个事呢?就是需要整大量的算力卡来进行调度呢?就是还有一些银行、保险公司,或者是一些做自动驾驶的这种创业公司,比如说Mobile I,那也是一个以色列的公司,他也需要大量的算力卡自己去处理。因为对于他们来说呢,你去买云计算中心的这个算力,他比较贵。大家要知道云计算中心的逻辑是什么?它逻辑是说,我的所有设备是有开机率的,比如说开机率70%。
那我向大家去收钱的时候,我就一定要把这个空闲的、那个机器的钱收回来。如果我现在只是临时用一下,我又并不是说自己长期使用这些机器的话,那我自己去买一台机器这个事是不划算的。我租云计算服务中心的这个,是划算的。但你如果说我自己买了一堆显卡,我每天24小时、一周7天,我都不让它闲着,都好好干。那这种情况的话,你去租赁预算中心的那部分,就不划算了。因为你要为这个空闲的这部分去付钱。哪怕说我这个付完钱以后,一直都在一天24小时开机在算,但是云计算服务商还是会找你收这个空闲钱的。
所以很多的这种自己有密集运算需求的,这些甭管是创业企业,还是传统的企业,他们都会自建算力中心。但这些人,他们主要就要用这个RunAI了。英伟达现在希望呢,就是在这种自建GPU算力中心里头,可以提高占有率,可以一统江湖。这就是他去收购这个RunAI的一个原因。说在这个云计算公司里头,谷歌里头肯定也买了大量的这个GPU英伟达的,但是谷歌肯定自己也去找AMD去定制,也会去找其他人去定制,它是很不忠诚的。
但是这些小一点的自营的算力中心的话,他们要求的是什么?他们要求的是简单、省事、稳定、可靠。所以这种情况下一定是买英伟达的,绝不会去买一些奇奇怪怪的。你比如说我去买AMD,AMD你说算奇奇怪怪吗?但是你要去做AMD部署,做AMD的整个的调优协调的话,你肯定遇到的问题,要比使用英伟达那个多得多的。因为英伟达都给你设计好了,而且大部分人都在用,百分之七八十的占有率。
所以在这种情况下的话,哪怕是说你一时半会搞不定,你找人问去,你都能问得来。你要用AMD的,你出了点什么问题,你都不知道该问谁去。所以云计算中心之外的公司,他们会尽量尝试使用英伟达的系统。云计算公司的话,他们就有用英伟达,但是也都会有些三心二意,能够便宜点,咱肯定还是便宜点,能够自己整一个GPU,咱就自己整一个,自己写一套软件,把所有的这些。
甭管是GPU、TPU什么这些东西,都给你统合起来,让它能跑起来。这是这个云计算公司的一个想法,我们解释清楚了英伟达为什么要去买RunAI。那你说收购了以后就开源了,这是一什么神仙操作呀?你收购了以后,咱卖这东西呢,还卖便宜点,咱们慢慢的一统江湖,跟人打不就完了吗?你这开源了,你这个几亿美金不就白扔了吗?对于很多中国的老板来说,你图啥呀?
大家要注意,第一个,英伟达现在肯定树大招风,他们呢,现在去做任何的收购都会受到全世界各个国家的审查。你说我开源了,这事你就没什么可查的了吧?我保证英伟达把他买下来以后,不会用RunAI来去捆绑任何用户,这个也是让他能够顺利完成收购的一个前置条件了。而且呢,在开源以后,别人就可以在系统上搭建AMD和Intel的这些支持。
RunAI一开源,虽然它原来只支持英伟达,但是现在呢,大家拿着原代码就可以去改去了。说我现在把AMD的、把昇腾910的、国内摩尔线程的,把这些模块都接上去。我觉得这个真的是针对中国的,怎么说呢,算是个胡萝卜吧,这个糖衣炮弹。我们以后就可以把自己的什么升腾910、什么摩尔线程,把这些东西通通都挂到RunAI上面去进行管理和调度。在这种情况下,RunAI就可以快速的干掉其他的竞争对手。
原来比如说我们使用摩尔线程,我搞不定,RunAI不支持,那我就要自己去写这个东西。其实你也是到套用一些其他的开源系统,在这上面再修修改改,这事就比较费劲。但你说我使用RunAI整套的,我只需要把摩尔线程的驱动挂上就完了,那我就可以在国内用这玩意了。
那在这样的一个情况下呢,英伟达公司买下来的RunAI跟其他竞争对手比起来,有一个巨大的优势是什么呢?就是你对英伟达的显卡肯定支持的更好。因为你一旦成为自己的公司了,很多内部的代码、内部的这些协议就可以看到了。你跟这种在外面的、不是英伟达内部的公司去比较起来,你肯定更了解英伟达的显卡怎么回事。
RunAI再去跟其他的公司进行竞争的时候,或者就是同样的做GPU调度的这种产品进行竞争的时候,它就具备了巨大的优势。即使你使用一些其他显卡,比如像中国公司这样的,你也可以用RunAI把它跑起来,没问题,一起调度。哪怕,比如说我们买了一堆的H20,在英伟达禁令下来以后,现在允许往中国卖的这些显卡是H20嘛。我买了H20,然后再加了一堆升腾910,再加了点摩尔线程,凑了一个机房,这个也可以。你现在用RunAI可以统一来管理了。而且这一部分呢,比其他的软件对于英伟达显卡的支持还更好一些,这个肯定是可以一统天下的了。
而且呢,这种最终的捆绑肯定是可以提升显卡的占有率的。为什么?虽然他现在说我支持Intel了,支持AMD了,支持升腾910了,但还是大家公认的英伟达最好使的。像中国,我们以前就干过这种事情,什么呢?去打盗版。打完盗版以后说,我们这公司里头装的Linux,装的这个WPS,有一套是这样的,你来检查的时候我们是这样的,但我们自己干活的,还是Windows和Office,为什么?这玩意好使。
所以他有可能会让中国很多的厂商继续大量的去买他的H20、A20,什么这种奇怪的显卡。买完了以后呢,说你这有没有支持国产,支持了,你看我这有两块升腾910,还有几块摩尔线程,但剩下的大量的可能就都是英伟达的卡了。它会成这样。
那你说英伟达买了RunAI以后,对这些云计算厂商的选择有什么改变吗?也是有影响的。为什么呢?云计算厂商刚才我们讲了,他一定是有最大的动力,自己是造显卡的。但是呢,像Mobile I,像什么银行,他们用了RunAI了,用了大量的英伟达的显卡了,他们会遇到另外一个问题是什么呢?就是很多的这种算力的公司,他们会使用叫混合云结构。什么意思呢?就是我这个比较稳定的任务,我就自己建个机房,自己买显卡把它跑起来,但呢,会有很多临时性任务,临时性任务呢,我就要到云端去租算力。
那在这个时候呢,你就遇到一个新问题,是什么呢?叫做兼容性的问题,或者说叫迁移成本的问题。咱们举这么个例子,刚才咱们还是讲这个拍电影影棚的事情。我从某个小的影视中心,把这些道具、这些用的东西都拆下来了。那你说,拆下来完了以后,我现在送到横店影视中心去了,这大影视中心去了装不上,这事不行。横店影视中心看了说:“那我得跟你兼容一下,让你迁移过来的成本降低一下,效率提高一些。”所以呢,我们要把这个拍摄的房间尺寸都给你量好了,我们尽量让你从那边拆下来的东西在我这就可以用。
所以呢,英伟达去买RunAI,如果能够把云计算中心之外的这些人基本上一统江湖,全都变成英伟达的客户,而且都使用RunAI把它跑起来了,对于云计算服务商来说呢,也算是有一个绑架作用。你以后为了让你的客户可以平顺地迁移回来,还是得老实去给我买英伟达的显卡。哪怕你不用RunAI,你也要给我提供接口,让我能够把RunAI里的这些镜像也好,或者是这些服务器的模块、脚本也好,可以顺利地迁移过来。我还可以把你这些上的东西再给我顺利地迁移回去,这个事情他们肯定还是要去考虑的。
我们来讲一个稍微有点题外的话,是什么呢?你说英伟达买了RunAI以后,对于在中国使用到底有什么好处?很多人都讲,英伟达会不会摁个按钮,就是让咱们偷偷走私进来的这些H100,包括后边的什么D200,这些东西就都跑不了了呢?现在有了RunAI,GPU调度软件英伟达一起都提供了,是不是它就可以更好地知道你在干什么了?只要摁个按钮,你就不能跑了。我就马上就知道,你这个里头有一些设备是禁运的,不能在中国出现的。你一旦在RunAI上运行起来,就不能动了,是不是会出现这样的情况呢?跟大家讲,关系不大。为什么呢?因为中国的这些大型云计算公司,阿里、百度、腾讯、华为,也都是自己写的系统,自己做的调度系统,不会用你的RunAI,原来他们这能跑,现在还能跑。
第二个呢,RunAI现在是开源了。开源了以后,就会有一些小公司使用它。但是呢,它可以在国内找一些系统集成商或者是部署服务商。你帮我改一改,把它改成离线的版本,不要动不动就回去报告。这个事呢,是完完全全可以做到的,因为所有的原代码都给你了嘛。所以这件事呢,就不用太担心。
有没有人担心说,英伟达摁个按钮,中国走私进来的这些H100就都摊菜了呢?这个事也不用担心。为什么呢?因为现在英伟达最新的A系列、H系列,以及再往后的什么Blackwell,这种黑井系列的显卡驱动也都是开源的,都是给你原代码的。为什么会做成开源的呢?原因也很简单,就是各个云计算厂商,包括各个算力中心,他们使用的Linux版本很多都是经过魔改的。他们在使用的各种CPU或者其他的这种硬件环境呢,也都是有一定的区别。有些是Intel的,有些是AMD的,还有一些就是ARM的,甚至还有很多这种ARM CPU,干脆就是这些云计算厂商自己定制的,外边就没有。
那么在这样的情况下,你想要去挂一个驱动,能够把显卡挂上的话,他怎么办呢?他就需要去拿原代码进行本地编译,把本地的兼容性和依赖性的问题都解决掉。那这个事是什么意思?咱们接着讲。刚才这个影视中心拍摄基地的故事,如果进来的是一整套的房子和这个布景,是不能拆开的,那你到了人家的那个影视基地的拍摄中心里头,就没法布。那怎么办呢?你一定是能拆散了的,拆散了你才能到这边去布这个景。
这个影视中心,房门是朝东的,那个影视中心窗户是圆的,下一个影视中心,这个床是弹簧床还是古代的这种木床。你才能够说,我们这个被子应该这么去摆,窗帘应该怎么挂,窗花应该怎么贴,才会有整个这样的一套布置。你不能说,我这都给你设计好了,一点都不能改进去,这事搞不定。这就是为什么现在的这个英伟达的显卡驱动都是开源版本,你都是有全套原代码,你需要到本地来去编译。我一进来一看,哦,这房子是这么设计的。
这个窗户这样,床那样。然后我就把各种各样的零部件到这摆起来,一看布景摆着还挺好看。再挂几个灯,就很可以去拍摄电影去了。
所以呢,既然是开源的,就可以进行离线安装、更新以及升级。在本地呢,你还可以改一改,改完了以后再去安装、升级、测试、使用,都没毛病,不需要连线。
他们使用的Cuda,也就是英伟达这个看家本领,也是完全支持离线工作的。数据中心的主机的工作状态呢,大家用这个影视基地的方式去理解算力中心,是没有任何问题的。就是你影视基地里拍任何的片子,外边人是不知道的。你只要不说,通过所有审批拿出来放的话,谁都不知道他们在拍什么。
所以你也不要想着说,英伟达就可以知道每个人在干嘛,然后就可以把你这个机器给你停掉,或者说我监控你的数据,没这个想都甭想。如果有人跟你讲这种故事,那么他唯一的原因是什么呢?就是国产替代信创,他们想让人去买他那个比较烂的卡,想让人去用他比较烂的系统,他才会给你讲这故事呢。这种故事都是骗傻子的。
最终结论就是,英伟达虽然开源了RunAI,但是依然是为了继续垄断做努力。这公司嘛,在商言商,我觉得没毛病。RunAI这样的软件的加入呢,对于中国公司或者在中国境内继续使用英伟达的设备,其实是有帮助的。而且对于英伟达的设备在中国,即使是禁运设备,在中国的使用也不会有任何的限制。
好,这就是今天跟大家讲的英伟达收购RunAI这家以色列的公司,到手就直接开源的一个故事。英伟达到底图啥,跟大家讲清楚了。好,这期就跟大家讲到这里,感谢大家收听,请帮忙点赞,点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道,再见。