英伟达收购了一家软件公司,叫RunAI,转手就把它收购的软件公司产品直接开源了。这到底是想要干什么呢?大家好,欢迎收听老范讲故事的YouTube频道。
还记得前面英伟达接受中国反垄断调查那个事吗?就是当时他收购了一个网络相关的公司。当时收购的时候,大家提出了条件,说你收购了以后不可以去进行捆绑销售,不可以说你必须要选择英伟达家的产品,选择你们家收购的这个网络产品,必须要有这样的承诺。但是最后承诺并没有实现。所以呢,现在英伟达在遭到很多国家的反垄断调查。
那么这一次呢,整了个RunAI,一个以色列的软件公司,上手就开源了。他到底想干嘛?是不是为了避免这种反垄断调查,还是为了什么呢?这个咱们今天解释一下。
首先要说一下RunAI是干嘛的。他呢是以色列的一个公司,专门做GPU调度的。你说我一个GPU都没有,或者只有一个GPU,有啥可调度的?对,这事跟你没关系。你说我这个机房里头有1万块GPU,我需要对这个GPU进行调度。这回你去算这个任务,下一回你去算另外一个任务,他要干这件事情。
那你说这玩意还需要个软件吗?我们把GPU插上使不就完了吗?可没这么简单,GPU调度呢,还是非常有必要的一个工作。首先大家要思考一下,1万块GPU搁一块到底是怎么使?它不是说搁盒子里,你得把它插电脑里,插在服务器里头以后,我们在每一个服务器上装软件嘛,肯定这玩意是不行的。
跟大家举一个稍微形象一点的例子吧,这个算例中心的服务器有点像拍戏的摄影棚。拍戏摄影棚长什么样?给他搭各种各样的布景。你这边拍完戏以后要干嘛?赶快把这布景拆了,换下一场戏的布景上去,再去拍下一场戏。张三,你要拍《霸王别姬》,你到哪去拍去?后边一个你要拍什么什么东西?《霸王别姬》那个一会拍完了,你上他那去,把那个影棚拆了,然后去把你的东西布上。这个玩意就叫做演播室调度,或者摄影棚调度。GPU调度其实干的也是类似这样的一个活。
就是每一个人说:“我现在要上算力平台,去训练我的模型了,去微调模型了,或者做推理去了。”这个时候要干嘛呢?也是一样的,就是我们有一个环境,我应该先去部署什么操作系统、什么数据库、什么样的大模型、哪些数据。部署完了以后呢,说“123,开跑”。那怎么能够让它跑得快些呢?很简单,就跟刚才咱们讲的这个摄影棚的故事一样。
首先呢,你要写一个大的本子,这个脚本是说我们应该先部署这个操作系统。部署完了操作系统以后,再去做什么什么事情。你要照这个本执行下来。对于这个算力服务器来说,他也是干这么个活。你说我们现在要去部署一个新的任务了,怎么办?先找一台空的服务器,这个服务器是现在啥都没有的。然后上来说:“这是一个明朝的戏,咱们现在赶快把明朝的布景都放上。”这个是个卧室,咱们把这个床、桌子、椅子什么都放上,这是应该是结婚的戏,赶快铺上红的。他就是这样的一个过程。
铺好了以后,说“321,咔,开始跑”。他就是整个的调度。你说我现在拍摄的这个房间现在不用了,那我需要把东西收起来,也不是说咔嚓都给人砸了就完了,还是要做正确的数据回收。哪些东西我们要回收回来?这次这个演员拍戏的时候写了个字,我们得把这字收好了,下回再拍戏的时候得把这字铺在这,你可以接着写,还是怎么怎么样。
还有很多这样的事情,像我们去训练大模型也是这样的。我这头环境部署好了,任务开跑,跑完了以后呢,你要正确的把信息回收回来,然后呢再说:“OK,现在这个服务器归还到池里边去,重新清空。”下回你谁在用的时候,可以直接在这个服务器的基础上继续去使用它,是这样的一个过程。
GPU调度呢,实际上也是干类似这种事情。GPU调度呢,他自己还做了一个叫AI control panel的东西。像我们使用云服务或者使用各种云端服务的时候, 经常会遇到这种叫control panel,叫控制板。什么意思呢?就是一大堆开关,一大堆状态,相当于是我们,比如说开飞机。
面前是一大堆的开关,一大堆的仪表。使用GPU云服务,或者说算力中心的云服务的时候,它也是这么一大堆东西。你要去说这个任务需要在什么时间点上线,什么时间点下线。上线之前部署哪些东西,下线之前回收那些数据。然后,下一个任务怎么去排队,你要搞一大堆这样的事情进去。
你要设置很多的开关,设置很多的仪表,说这个数据跑到什么样的程度了,GPU的温度怎么样,GPU占了多少百分比了,CPU占什么样了,硬盘什么样,内存什么样。也有一大堆的图表在那看着。这呢,叫control panel。RunAI呢,就做GPU调度,提供这个AI的控制面板,这就是他们干的活。
目前,RunAI只支持英伟达的显卡。你说我Intel的显卡,或者是AMD的显卡,或者咱国内说升腾910的显卡,这个人家不支持。就是这样的公司,被英伟达好几亿美金给买下了。具体钱其实没有公开出来,因为里头有很大的一部分是英伟达的股票。而英伟达的股票呢,又快赶上比特币了,非常不稳的那个价格,上蹿下跳的,但最近主要在蹿。
所以呢,他这个具体花了多少钱买,这个不确定,肯定是几亿美金了。而且呢,这公司只有150人,这帮人肯定是年前吃了鸡腿了。那你说英伟达这样的一个公司,他为什么要买RunAI这么一个项目呢?他是不是也跟咱们前面讲英伟达垄断案里头那个网络设备供应商,他有巨大的垄断地位,占了非常非常高的市场份额呢?
这个事呢,其实RunAI在整个的算力市场里的占的份额是非常小的,并不大。这个可能跟很多人的想象是不一样的。GPU调度这个事呢,重要吗?肯定重要,因为这玩意儿贵。而且GPU随着英伟达快速的升级,你一旦买回来以后,哪怕你不用,它的这个价值也会在快速下跌。所以大家都希望说买了GPU以后,你一定要把他们都排满了,都给我干活去,家里的这个大牲口不能让他闲着。所以GPU调度这个事本身是很重要的。
RunAI市场上占有率又这么低,那英伟达你买它的原因是什么呢?大家要注意,现在我们去做这个算力中心,去做这个GPU调度,其实是有两个大的阵营的。一个阵营是什么呢?就是传统的云计算厂商,比如谷歌、微软、亚马逊、Oracle,国内的什么百度、腾讯、阿里、华为,这都属于大的云计算中心。他们自己是有很多的算力卡的。那么这些人呢,他是不会使用RunAI的,他们一定会自己去写一套这种系统,去管理自己的这个算力卡。为什么呢?就是你在这种云计算中心里头,他自己需要对自己的机房进行统一的控制,进行统一的镜像上架,或者是这个服务器怎么下架,他一定会统一的有一个规范来管理这事。
有点像什么呢?还是像刚才咱们讲这个拍电影的故事。你这是一个横店影视中心,你说你会去用一个外边人来去管理,说我给你提供一套规范,我们来管理这个所有的拍摄棚?不会的,人家一定会自己整一套的。所以大的这种云计算中心是用不着这玩意了。
云计算中心还有一个问题是什么呢?就是他们呢,都在尝试逃离英伟达的控制。谷歌自己研发了自己的TPU,Tencent Flow的处理核心,它叫TPU。微软自己也跟ARM一起做了一些自己的算力卡,亚马逊也做了类似这种东西。国内那就更是五花八门了,还有升腾910这种奇怪的东西在里头。云计算服务商呢,他们就会尝试把这些乱七八糟的卡都运行起来。而你像RunAI这种,就是我只支持英伟达的,你肯定就没法使了嘛,他就是这样的一个情况。
除了这些云计算中心之外,还有谁干这个事呢?就是需要整大量的算力卡来进行调度呢?就是还有一些银行、保险公司,或者是一些做自动驾驶的这种创业公司,比如说Mobile I,那也是一个以色列的公司,他也需要大量的算力卡自己去处理。因为对于他们来说呢,你去买云计算中心的这个算力,他比较贵。大家要知道云计算中心的逻辑是什么?它逻辑是说,我的所有设备是有开机率的,比如说开机率70%。
那我向大家去收钱的时候,我就一定要把这个空闲的、那个机器的钱收回来。如果我现在只是临时用一下,我又并不是说自己长期使用这些机器的话,那我自己去买一台机器这个事是不划算的。我租云计算服务中心的这个,是划算的。但你如果说我自己买了一堆显卡,我每天24小时、一周7天,我都不让它闲着,都好好干。那这种情况的话,你去租赁预算中心的那部分,就不划算了。因为你要为这个空闲的这部分去付钱。哪怕说我这个付完钱以后,一直都在一天24小时开机在算,但是云计算服务商还是会找你收这个空闲钱的。
所以很多的这种自己有密集运算需求的,这些甭管是创业企业,还是传统的企业,他们都会自建算力中心。但这些人,他们主要就要用这个RunAI了。英伟达现在希望呢,就是在这种自建GPU算力中心里头,可以提高占有率,可以一统江湖。这就是他去收购这个RunAI的一个原因。说在这个云计算公司里头,谷歌里头肯定也买了大量的这个GPU英伟达的,但是谷歌肯定自己也去找AMD去定制,也会去找其他人去定制,它是很不忠诚的。
但是这些小一点的自营的算力中心的话,他们要求的是什么?他们要求的是简单、省事、稳定、可靠。所以这种情况下一定是买英伟达的,绝不会去买一些奇奇怪怪的。你比如说我去买AMD,AMD你说算奇奇怪怪吗?但是你要去做AMD部署,做AMD的整个的调优协调的话,你肯定遇到的问题,要比使用英伟达那个多得多的。因为英伟达都给你设计好了,而且大部分人都在用,百分之七八十的占有率。
所以在这种情况下的话,哪怕是说你一时半会搞不定,你找人问去,你都能问得来。你要用AMD的,你出了点什么问题,你都不知道该问谁去。所以云计算中心之外的公司,他们会尽量尝试使用英伟达的系统。云计算公司的话,他们就有用英伟达,但是也都会有些三心二意,能够便宜点,咱肯定还是便宜点,能够自己整一个GPU,咱就自己整一个,自己写一套软件,把所有的这些。
甭管是GPU、TPU什么这些东西,都给你统合起来,让它能跑起来。这是这个云计算公司的一个想法,我们解释清楚了英伟达为什么要去买RunAI。那你说收购了以后就开源了,这是一什么神仙操作呀?你收购了以后,咱卖这东西呢,还卖便宜点,咱们慢慢的一统江湖,跟人打不就完了吗?你这开源了,你这个几亿美金不就白扔了吗?对于很多中国的老板来说,你图啥呀?
大家要注意,第一个,英伟达现在肯定树大招风,他们呢,现在去做任何的收购都会受到全世界各个国家的审查。你说我开源了,这事你就没什么可查的了吧?我保证英伟达把他买下来以后,不会用RunAI来去捆绑任何用户,这个也是让他能够顺利完成收购的一个前置条件了。而且呢,在开源以后,别人就可以在系统上搭建AMD和Intel的这些支持。
RunAI一开源,虽然它原来只支持英伟达,但是现在呢,大家拿着原代码就可以去改去了。说我现在把AMD的、把昇腾910的、国内摩尔线程的,把这些模块都接上去。我觉得这个真的是针对中国的,怎么说呢,算是个胡萝卜吧,这个糖衣炮弹。我们以后就可以把自己的什么升腾910、什么摩尔线程,把这些东西通通都挂到RunAI上面去进行管理和调度。在这种情况下,RunAI就可以快速的干掉其他的竞争对手。
原来比如说我们使用摩尔线程,我搞不定,RunAI不支持,那我就要自己去写这个东西。其实你也是到套用一些其他的开源系统,在这上面再修修改改,这事就比较费劲。但你说我使用RunAI整套的,我只需要把摩尔线程的驱动挂上就完了,那我就可以在国内用这玩意了。
那在这样的一个情况下呢,英伟达公司买下来的RunAI跟其他竞争对手比起来,有一个巨大的优势是什么呢?就是你对英伟达的显卡肯定支持的更好。因为你一旦成为自己的公司了,很多内部的代码、内部的这些协议就可以看到了。你跟这种在外面的、不是英伟达内部的公司去比较起来,你肯定更了解英伟达的显卡怎么回事。
RunAI再去跟其他的公司进行竞争的时候,或者就是同样的做GPU调度的这种产品进行竞争的时候,它就具备了巨大的优势。即使你使用一些其他显卡,比如像中国公司这样的,你也可以用RunAI把它跑起来,没问题,一起调度。哪怕,比如说我们买了一堆的H20,在英伟达禁令下来以后,现在允许往中国卖的这些显卡是H20嘛。我买了H20,然后再加了一堆升腾910,再加了点摩尔线程,凑了一个机房,这个也可以。你现在用RunAI可以统一来管理了。而且这一部分呢,比其他的软件对于英伟达显卡的支持还更好一些,这个肯定是可以一统天下的了。
而且呢,这种最终的捆绑肯定是可以提升显卡的占有率的。为什么?虽然他现在说我支持Intel了,支持AMD了,支持升腾910了,但还是大家公认的英伟达最好使的。像中国,我们以前就干过这种事情,什么呢?去打盗版。打完盗版以后说,我们这公司里头装的Linux,装的这个WPS,有一套是这样的,你来检查的时候我们是这样的,但我们自己干活的,还是Windows和Office,为什么?这玩意好使。
所以他有可能会让中国很多的厂商继续大量的去买他的H20、A20,什么这种奇怪的显卡。买完了以后呢,说你这有没有支持国产,支持了,你看我这有两块升腾910,还有几块摩尔线程,但剩下的大量的可能就都是英伟达的卡了。它会成这样。
那你说英伟达买了RunAI以后,对这些云计算厂商的选择有什么改变吗?也是有影响的。为什么呢?云计算厂商刚才我们讲了,他一定是有最大的动力,自己是造显卡的。但是呢,像Mobile I,像什么银行,他们用了RunAI了,用了大量的英伟达的显卡了,他们会遇到另外一个问题是什么呢?就是很多的这种算力的公司,他们会使用叫混合云结构。什么意思呢?就是我这个比较稳定的任务,我就自己建个机房,自己买显卡把它跑起来,但呢,会有很多临时性任务,临时性任务呢,我就要到云端去租算力。
那在这个时候呢,你就遇到一个新问题,是什么呢?叫做兼容性的问题,或者说叫迁移成本的问题。咱们举这么个例子,刚才咱们还是讲这个拍电影影棚的事情。我从某个小的影视中心,把这些道具、这些用的东西都拆下来了。那你说,拆下来完了以后,我现在送到横店影视中心去了,这大影视中心去了装不上,这事不行。横店影视中心看了说:“那我得跟你兼容一下,让你迁移过来的成本降低一下,效率提高一些。”所以呢,我们要把这个拍摄的房间尺寸都给你量好了,我们尽量让你从那边拆下来的东西在我这就可以用。
所以呢,英伟达去买RunAI,如果能够把云计算中心之外的这些人基本上一统江湖,全都变成英伟达的客户,而且都使用RunAI把它跑起来了,对于云计算服务商来说呢,也算是有一个绑架作用。你以后为了让你的客户可以平顺地迁移回来,还是得老实去给我买英伟达的显卡。哪怕你不用RunAI,你也要给我提供接口,让我能够把RunAI里的这些镜像也好,或者是这些服务器的模块、脚本也好,可以顺利地迁移过来。我还可以把你这些上的东西再给我顺利地迁移回去,这个事情他们肯定还是要去考虑的。
我们来讲一个稍微有点题外的话,是什么呢?你说英伟达买了RunAI以后,对于在中国使用到底有什么好处?很多人都讲,英伟达会不会摁个按钮,就是让咱们偷偷走私进来的这些H100,包括后边的什么D200,这些东西就都跑不了了呢?现在有了RunAI,GPU调度软件英伟达一起都提供了,是不是它就可以更好地知道你在干什么了?只要摁个按钮,你就不能跑了。我就马上就知道,你这个里头有一些设备是禁运的,不能在中国出现的。你一旦在RunAI上运行起来,就不能动了,是不是会出现这样的情况呢?跟大家讲,关系不大。为什么呢?因为中国的这些大型云计算公司,阿里、百度、腾讯、华为,也都是自己写的系统,自己做的调度系统,不会用你的RunAI,原来他们这能跑,现在还能跑。
第二个呢,RunAI现在是开源了。开源了以后,就会有一些小公司使用它。但是呢,它可以在国内找一些系统集成商或者是部署服务商。你帮我改一改,把它改成离线的版本,不要动不动就回去报告。这个事呢,是完完全全可以做到的,因为所有的原代码都给你了嘛。所以这件事呢,就不用太担心。
有没有人担心说,英伟达摁个按钮,中国走私进来的这些H100就都摊菜了呢?这个事也不用担心。为什么呢?因为现在英伟达最新的A系列、H系列,以及再往后的什么Blackwell,这种黑井系列的显卡驱动也都是开源的,都是给你原代码的。为什么会做成开源的呢?原因也很简单,就是各个云计算厂商,包括各个算力中心,他们使用的Linux版本很多都是经过魔改的。他们在使用的各种CPU或者其他的这种硬件环境呢,也都是有一定的区别。有些是Intel的,有些是AMD的,还有一些就是ARM的,甚至还有很多这种ARM CPU,干脆就是这些云计算厂商自己定制的,外边就没有。
那么在这样的情况下,你想要去挂一个驱动,能够把显卡挂上的话,他怎么办呢?他就需要去拿原代码进行本地编译,把本地的兼容性和依赖性的问题都解决掉。那这个事是什么意思?咱们接着讲。刚才这个影视中心拍摄基地的故事,如果进来的是一整套的房子和这个布景,是不能拆开的,那你到了人家的那个影视基地的拍摄中心里头,就没法布。那怎么办呢?你一定是能拆散了的,拆散了你才能到这边去布这个景。
这个影视中心,房门是朝东的,那个影视中心窗户是圆的,下一个影视中心,这个床是弹簧床还是古代的这种木床。你才能够说,我们这个被子应该这么去摆,窗帘应该怎么挂,窗花应该怎么贴,才会有整个这样的一套布置。你不能说,我这都给你设计好了,一点都不能改进去,这事搞不定。这就是为什么现在的这个英伟达的显卡驱动都是开源版本,你都是有全套原代码,你需要到本地来去编译。我一进来一看,哦,这房子是这么设计的。
这个窗户这样,床那样。然后我就把各种各样的零部件到这摆起来,一看布景摆着还挺好看。再挂几个灯,就很可以去拍摄电影去了。
所以呢,既然是开源的,就可以进行离线安装、更新以及升级。在本地呢,你还可以改一改,改完了以后再去安装、升级、测试、使用,都没毛病,不需要连线。
他们使用的Cuda,也就是英伟达这个看家本领,也是完全支持离线工作的。数据中心的主机的工作状态呢,大家用这个影视基地的方式去理解算力中心,是没有任何问题的。就是你影视基地里拍任何的片子,外边人是不知道的。你只要不说,通过所有审批拿出来放的话,谁都不知道他们在拍什么。
所以你也不要想着说,英伟达就可以知道每个人在干嘛,然后就可以把你这个机器给你停掉,或者说我监控你的数据,没这个想都甭想。如果有人跟你讲这种故事,那么他唯一的原因是什么呢?就是国产替代信创,他们想让人去买他那个比较烂的卡,想让人去用他比较烂的系统,他才会给你讲这故事呢。这种故事都是骗傻子的。
最终结论就是,英伟达虽然开源了RunAI,但是依然是为了继续垄断做努力。这公司嘛,在商言商,我觉得没毛病。RunAI这样的软件的加入呢,对于中国公司或者在中国境内继续使用英伟达的设备,其实是有帮助的。而且对于英伟达的设备在中国,即使是禁运设备,在中国的使用也不会有任何的限制。
好,这就是今天跟大家讲的英伟达收购RunAI这家以色列的公司,到手就直接开源的一个故事。英伟达到底图啥,跟大家讲清楚了。好,这期就跟大家讲到这里,感谢大家收听,请帮忙点赞,点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道,再见。
Both comments and pings are currently closed.