硕鼠的博客站

范路的博客主站,时而会发些东西。

Llama3.1 405b突然开放,指标上全面超越GPT-4。中国厂商们是不是又可以充了呢?大家好,这里是老范讲故事的YouTube频道。今天咱们来讲一讲Llama3.1 405b 开放的事情。

Llama的开放,每一次都比较有戏剧性,都会有偷跑。什么叫偷跑?就不是由官方开了发布会,说我今天发布了一个什么产品,而是一般都是在Reddit这样的论坛里,突然就有人放出磁力链来,大家可以去BT下载Llama3.1 405B,包括Llama3.1 405B相关的各种测试数据,都是这么被发现的。头一天偷跑了以后,第二天梅塔说那算了,我开了吧。当时好像Llama2也是这么开出来的,现在Llama3.1 也是这么偷跑,完了以后就正式开放了。

他在跑分上已经全面地超越了GPT-4,基本上在各个指标上都超越了。这是非常非常难的,因为以前大家推出的各种模型里头,都是在个别指标里面超越GPT-4O或者超越GPT-4。那么在各项指标上全都超越的,这应该是第一次。当然了,它也是分很多版本的,分为8B、70B以及405B这三个版本。405B已经完全超越了,下面小一点的8B,应该比原来的Llama370B的效果还要再好一些。它的70B基本上针对前两天发布的GBT4OMINI,属于碾压状态。

Llama3.1 现在支持8种语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

这个里面没有中文啊,不用他们担心,中文我们自己会搞定的。这就是他们现在发布出来的模型,上下文窗口呢,从8K直接涨到了128K。Llama3是8K的,啊,现在Llama3.1 就直接128K,但是我还用不上,为什么呢?我想要去用这个Llama3.1 的,啊,405B这样的模型我肯定没法在本机上用,这玩意你肯定还是要很多的显卡,才可以把它刨起来的。所以一定是云端,用这么大的模型,你要给它这么长的上下文的话,通常那个压力是很大的。

所以现在我去看到的,比如像together AI上面的Llama3.1 的模型,里面啊,应该是8B的和70B的给的是32K,405B只给了4K,就是你超过4,400以上他就不干活了。超过了以后,我估计就会变得非常非常贵,工作的耗或者工作的成本就会变得很高。所以我现在能够用到的Llama3.1 ,405B只能是4K的,就是上下文4K。405B呢,也是Llama系列的第一个支持多模态的大模型,原来的都是纯语言模型,现在可以支持多模态了。

但是怎么说呢,如果只能用到4K的话,多模态意义不是很大,你塞不进去东西去。这还要看未来,是否有人愿意开放完全上下文的这种Llama3.1 的模型给大家去使用了。Llama到底算不算开源,对吧?我们刚才讲他开源开出来了,Llama是不是开源这件事情呢,也是有一定争议的。开源这件事情并不是说我把所有东西都开出来,你就随便去用就叫开源。

开源本身是一个在法律框架下,遵守一定的开源协议的商业模式。这个东西是要收钱的,大家可以去规定说我开哪部分,不开哪部分。当然了,也有一些原教旨主义者,他们其实是开放软件的一帮推崇者。他们认为Llama不算开源,为什么呢?

第一个,Llama只开放了部分代码,并没有把所有的代码都开出来;第二个,只开放了模型和参数,没有开源训练数据和完整的训练过程。如果是开放软件,这些东西都应该拿出来。而且只开放使用,他对使用还是有一定限制。开放软件这帮人说,你要叫开源,就得把所有的权利都拿出来,不能有自己任何权利保留。

这个是Llama在这块有一点点的小争议。对于Llama来说,它到底是限制了什么?在使用上,你说大家都下载了,都去用一下,我在本地上也下载了,它到底限制什么呢?

第一个,他不允许用Llama3训练新模型。这也很有趣,实际上现在国内大量的新模型都是拿Llama去训练的,但他这个是不允许的。第二个,用户超过7亿的,需要单独向梅塔申请。这其实就是针对中国的,全世界的公司里头,用户量超过7亿的,除了美国的那些之外,剩下的基本都在中国。他现在也有要求说我已经设置好了,超过7亿都不行。

但是,这个都属于叫君子协定。什么叫君子协定呢?就是我不告你,你也没办法。如果算告的话,可能也很麻烦,你去取证,做各种各样的法院诉讼的过程都会很长。但是,从道德制高点上来看……

他已经站在上了。你比如说,用户量超过7亿,还拿他去训练模型啊。假设是字节跳动吧,对吧?那个用户量肯定超过7亿了,而且跟美坦直接竞争啊。如果字节跳动拿着梅塔的Llama3去训练自己的模型了,这个事情对于Llama来说,他是可以告你的。

另外一个超过7亿用户,还去训练自己模型的是谁呢?天问啊,闻心眼,百度啊,都是在这个范围内。那么,Lama呢?如果不是走这个原教旨主义的判别标准的话,它算是开源的。但是,按照原教旨主义的标准来判定的话,它也算是个假开源吧。甭管是不是真的开源,但是Llama现在已经开始从开源受益了。很多人搞不清楚开源这事到底咋挣钱,正好趁着今天Llama3.1 405B的这个项目,来跟大家讲一讲开源到底是怎么盈利的。它为什么是一个商业模式啊?不是雷锋。

现在呢,Llama已经让时代的车轮滚滚向前,停不下来了啊,肯定是往前滚滚过去了。那些号称使用开源就是交智商税的CEO们,应该会在车轮下发出悲鸣了。Llama在Llama1、Llama2、Llama3到现在的Llama3.1 之间,一直在这开源模型里头是扛鼎的。他是做得最好的一个,做得最大的一个,其他人就会跟着他去做。对吧?我会在Llama的基础上进行微调。我在Llama的基础上准备微调Llama的数据,准备微调Llama的各种指令集,或者说准备使用Llama3微调一个什么呢?微调一个多模态的模型出来。前两天,斯坦福大学抄袭清华大学的那个模型,就是拿Llama3微调的多模态模型,还有很多人在Llama3的基础上……

去微调上下纹,让上下纹变长。所有的这些,你没有发现吗?就是从Llama3到Llama3.1 之间的这些变化,波太了啊,成上下文了。再加上什么?再加上各种各样的开源数据集,以及开源的指令微调数据集的参与训练,就从Llama3变成了Llama3.1 。它等于现在成为了一个潮流的标志,所有人做的这些数据也都是开放的。这些数据在哪呢?在HIKING face上啊,HIKING face上存了非常多的这种兼容Llama3格式的数据,兼容Llama3格式的指令微调数据集,以及各种各样的用Llama3已经微调成功的新的模型,甭管是长上下文的,还是多模态的都有。

好,现在Llama3说来,我把你们都收下来,我也开放了,你们也开放了,我收下来,然后我再把Llama3再重新训练一下,再把剩下的参数都堆进去,啊,堆一个405B出来,4,050亿参数啊,直接推出来。所以呢,他这个开源真正盈利的方式,大家听懂了没有?这两个字啊,叫做标准。Llama是通过成为标准,让所有在做大模型开源的人都依附于这个标准。这不是强制标准,这个是事实标准,大家依附于这个标准,然后做出生态来,整个生态的价值提升了。

Llama3直接把Llama3基础上的这些开放数据拎回来再去训练,就变成Llama3.1 。Llama3.1 出来以后,一定还会有很多人再在这个基础上,再去做大量的新的数据,再去微调,让Llama3.1 可以去适应更多的场景。那么是不是就快该有Lama 3.2了?就是开元战胜必元,或者开元。

整个的盈利方式就是这样。第一个叫做标准,事实标准;第二个呢,叫做生态。这两个东西一起往前走的时候,整个开源的系统就会快速地超越闭源系统。

很多人在讨论,开源到底便不便宜?咱们Llama3.1 的价格到底怎么算呢?我看了一下together上的价格,因为它是开源的,你可以把它拉到本地来自己去装。虽然我现在没有装这些东西的设备,斑马3在我的机器上可以跑8B,跑到70币已经跑不起来了。70币的话,至少是一块四零九零,再加上大量内存才可以跑起来。

像这种四零五币这样的模型,我已经不愿意去算我需要什么样的硬件它可以跑起来了。这个事情对于我没有意义了。所以呢,我们用云端可以跑Llama3服务或者Llama3.1 服务的这些服务器上给的价格为参考。他们给的是什么呢?就是Lama三点一的70币,每生成100万TOKEN是0.9美元,就是90美分;405B就是这4,050亿参数的这种大模型,生成100万TOKEN是5美金。

咱们呢跟其他人比一比,比如说open AI的。open AI现在当打的是GPT4欧,GPT4欧的输入是5美金,每100万TOKEN,输出的话是15美金。100万TOKEN desert上的这个TOKEN的价格应该是输入输出都一样的吧,但是5美金。统一的最新的呢是GPT4欧mini,是0.15美金输入,0.6美金输出,这个价格呢。

跟Llama3.1 的8臂的价格其实是差不多的,所以那个时候,为什么猜测GBT4欧MINI可能是一个8臂的模型,因为从价格上算的。Anceropic,那他们家的cloud是什么样的价格呢?3.5 sonit是输入3美金,输出15美金,也要比to get在上面Lama 3.1405币要贵。

至于Opus啊,就是Anceropic的cloud 3 Opus,这是它们最贵的、最大的一个模型。输入100万TOKEN,15美金,输出100万TOKEN居然要75美金,非常非常昂贵啊。Gemini呢,相对来说便宜点啊,Flash是输入两美金,输出6美金。Pro呢是一倍,输入是4美金,100万TOKEN输出呢是12美金。

所以啊,Llama3405B呢,相对来说还算便宜啊,就是输入输出是5美金,还算便宜。如果他的100万TOKEN在10美金,但是你让我使用128K的上下文,可以让我使用多模态,可以上传图片,可以进行识别,上传声音可以进行识别的话,那么我觉得这个价格也还是可以接受的。

在Llama3.1 405B发布之后,这肯定是一个诱化时代的产品发布了,代表着车历史车轮滚滚向前,把历史翻开了新的篇章。那么谁会挣钱啊?挣钱的呢,就应该是这种开放的云托管平台就会开始挣钱了,对吧?因为刚才我讲了,405B这种东西在我们本机是跑不起来的,哪怕是我一个单位里头自己有服务器,你想把它跑起来也是基本不可能的。

所以,一定是到云端去使用这种模型。那么,谁在干这个呢?刚才我们讲的 Together 就干这个的。另一个呢,是 Grop,专注于推理芯片的,他们也是在做类似的工作。现在,Grop 和 Together 上已经开始有Llama 3.1 的模型可以用了。这个刚才我查的Llama 3.1 的价格,就是在 Together 上查的。

然后,危机流动,也就是国内对标 Together 的这个项目,现在他们也可以在这种项目上受益。虽然这个上面没有Llama,因为Llama没有在中国进行过审核备案,但在中国使用的话,一定会有问题。不过,要相信我,中国团队会冲的。既然煤炭已经出了 405b,中国人就会出 410b,420b也会出现这样的模型。

那么,这种模型出来以后,也会到硅积流动上去跑。他也可以收到一个,比如说 100 万 TOKEN,十几美金的这样的一个价格。其他的这些云计算厂商,比如谷歌、微软、亚马逊,国内的像阿里云,都将受到这样的利好影响。

最后,我们讲一下中国团队是不是要冲锋。原来都讲人家一开源,我们就自主研发,自主知识产权。这个事一定会的。很多人说,中国的大模型就是自己研发的,跟他没有什么关系。这个你要相信,没有任何问题。我也可以相信。我们来看一看,中国最早的大模型,其实跟Llama是没有关系的。这个事一定要讲清楚。最早的是什么呢?最早的是拿 GPT2 开源的版本去修改,去使用出来的。

国内的某些最早期出大模型的大厂,他们的大模型里头有一定的GPT2的影子。后面Llama开源之后,国内才开始涌现了一批开源大模型公司,但他们都不承认使用的是Lama的模型。他们都说我们是在Lama的启发下,从头训练的。在Lama 2发布之后,各种应用公司就开始冲锋了,不再是模型公司了。很多应用公司也有一些新的模型出来可以用。这些模型到底是从头训练的,还是拿Lama 2去做的微调和修改,这个不得而知。

国内大量的企事业单位开始用上这些模型。等到Lama 3出来之后,各个开源模型公司纷纷更新版本。像Llama3发布后,影义万物、同一千问,包括很多这种不开源的模型公司,都在纷纷更新自己的版本,号称我们都去对标GPT4了。在中文领域里头可以超过Llama3了,英文里头稍微有一些偏差,也还是可以理解的。

这就会有这样的一个明确的时间划分,到底抄没抄,这事我们也没有明确的证据。我们只能说,这个时间点都非常非常的巧合,你爱信不信。而且在Llama3出来以后,中国的各个模型公司在做的一件事是什么?就是开始打价格战。咱们开卷吧,这个是为什么呢?因为中国大模型公司卡在100币这个位置上,因为Llama3开源出来的就是8币以及70币。所以中国很多是9币和72币,我在这个基础上再加一点点。你说我再往上训练,到底拿什么样的东西去训练,或者往哪个方向训练。

其实是不知道的,所以卡在100币,没有往上走的通道了。那我们先卷价格,等一等看看风向再说。现在风向又变了,405B出来了。而且405B并不是Moe。什么是Moe?就是专家模型。405B,它是一个单体的Transformer的模型。这样的话,大家就知道,原来大模型长这样,我们可以去搞一次了。这个是值得去借鉴的。

国内其实也出了一些Moe的模型,比如像千问自己,有一个五十几b的Moe模型。另外也出过一些100多币的这种Moe的模型。但这种100多币呢,它是由很多个小模型拼起来的。每一个小模型可能还是二三十币,或者这样的一个水平。拼起来的单体的上百币的模型,原来中国人是没做过的,现在有开放出来的。那么中国公司是必须充,方向都已经指明了,不冲等啥呢?咱们就看这个到底需要多长时间了。

但是,对于Llama3.1 405B来说,能够冲上去的公司并不多。为什么呢?咱们看一下,Llama3.1 8B呢,用的146万GPU小时。这个玩意儿怎么算呢?就是说用H100,我用146万个小时,就可以细算出来Llama3.1 8B。那你说这么多怎么弄啊?人家又不是一块在这算,对吧?人家一下上几万块。梅塔手里头号称有50万块GPU,他这个数据一除除的话,就很快就可以算出一个斑马3.18B。然后呢,Llama3.1 70b呢,用了700万GPU小时,也就是H100 GPU小时吧,应该这么讲。

然后,Llama3.1 405b 用了多少呢?3,084万H100 GPU小时。梅塔自己呢,是用了1.6万张H100进行的训练。他并不是说我分别训练8B、70B和405B啊,他们正常应该是训练了一个405B,蒸馏出70B和8B。但是,你还是要去用3,084万H100 GPU小时的这个时长去算。如果是1.6万张H100的话,那么是需要多长时间呢?80天,两个多月就可以把它训练完的。这个价格是很贵的啊,H100是4万美金一张。而你,比如说我能够有这么多钱,人家还不卖给你。就算人家卖给你了,你烧得起电吗?这个H100的功率是700瓦一张啊。你想,这一万多张,他有多大的功率,这是非常恐怖的一个数字。这还光算了H100,主机的这个电压、主机的功率还没算在里头。算完了主机之后,机房里头最大的耗电户既不是H100,也不是主机。那么,也有人说,难道是交换机吗?难道是路由器吗?难道是这些东西吗?都不是啊。我告诉大家,所有的机房里头,真正的耗电大户是空调。H100耗了700瓦的电,疯狂的发热了。以后,你不能等着它冒烟着火,对吧?一个封闭的机房里,你再要把这些热量排出去,你还要再用更大功率的空调来把这个热量交换掉。所以,这是一个非常巨大的工程。在国内,玩得起的公司基本上都被扎戈伯格限制了。第一个,人家想了说,你不可以拿Llama再去训练新模型了。第二个,所有用户量超过7亿的公司。

你要想去用Llama,你要跟雷塔申请特殊的许可证。咱们国内能够训练这样的模型,又有7亿用户的阿里、字节、腾讯,他们如果没有向美塔专门申请过许可证,那你就只能说这是我自主研发、自主知识产权,跟你没关系。但到最后,如果被海外应用的时候,被梅塔抓住把柄,说:“哎,你这个里头跟我那是一样的。”那么这个官司就有的打了。

那扎克伯格自己对于中国开源项目的看法是什么样的呢?你说他装没看见,这事肯定是不行的啊。在Llama的基础上进行开源、内容创作、进行微调、进行数据准备,最积极、干的活最多的就是中国团队啊。那么扎克伯格肯定不能装没看见。

所以扎克伯格也说了,开源可以让中国之外的盟友和小公司一起进步。如果我闭园了,大家去通过间谍、通过拷优盘拷贝、通过各种方式得到模型参数、得到模型数据的能力都还是很强的,并不是说我闭园了,中国团队就得不到了。我要开园了呢,中国团队也能得到,我其他的像什么法国、欧洲的盟友,还有很多的小公司,他们也可以得到这些数据,他们就可以跟我一块进步。

他讲的是这样的一个逻辑。这其实特别有意思啊,美国你去看看,现在美股七姐妹也好,或者是其他的比较靠上的这些美股科技公司也好,他们都是有大量的中国市场订单或中国市场份额的。每一家都是在这揣着明白装糊涂。你把这个东西开放出来了,一定是极大地刺激中国的大模型发展,而且现在已经没有天花板,没有任何问题。

我们就可以快速地达到,超越GPT-4的这个水平了。我相信,可能在未来的一到两个月里,各种模型就会再去更新升级,推出全面超越GPT-4的版本出来。现在这个压力给了OpenAI,如果比赛不更新,再拿不出GPT-5的话,就要彻底落后了。所以,扎克伯格自己心里是心知肚明的啊。他完完全全是为中国大魔星开绿灯。

至于其他的他的盟友,这些小公司到底有没有赶上,可能在努力追赶,但应该并没有。从梅塔的开源里,真正得到最大利益和实惠的事情是没有办法的。但是同时,他也抹了一个悉尼,说:“你看我开不开源,他们都能得到。”这个都是这么干。

另外,他也讲说闭源是让个别公司憋大招。他说:“我们从来不认为最后只有一种达摩型。”那些只认为最后应该只有一种达摩型的人,他们是在干嘛?他们是在自己偷偷创造上帝。这个事是非常可耻的啊。我不知道作为一个犹太人,他如何去解答这种,或者如何去看待这种自己偷偷创造上帝的这个过程。

总之,他说这事不行,非常可耻,一定要开源出来。而且现在看,开源正在超越闭源。这就是我们今天要讲的,拉嘛3.1405B的发布,如何搅动风雨,如何让中国团队冲锋,给中国团队指明方向,以及扎克伯克对于这个事情本身到底是怎么看的一个故事。

好,感谢大家收听,请帮忙点赞,点小铃铛,参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

 

Both comments and pings are currently closed.

Comments are closed.

Close Bitnami banner
Bitnami