Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o,中国AI厂商是否迎来春天?新的时代到来了,历史的车轮滚滚向前。
7 月 25
AIGC, Meta的故事, OpenSource 405B版本, AI上下文窗口, AI事实标准, AI产业方向, AI产业链, AI偷跑事件, AI公司发展, AI创新挑战, AI创新推广, AI功率需求, AI协议限制, AI商业机会, AI商业模式, AI多模态, AI多语言支持, AI宏大模型, AI市场分析, AI应用前景, AI开源协议, AI性能测试, AI性能超越, AI技术合作, AI技术商业化, AI技术应用, AI技术投资, AI技术支持, AI技术突破, AI技术革新, AI显卡需求, AI未来趋势, AI标准化, AI模型优化, AI模型开放, AI模型电费, AI法律框架, AI生态价值, AI生态系统, AI生态系统发展, AI硬件需求, AI磁力链, AI空调耗电, AI能耗问题, AI行业分析, AI行业动态, AI行业趋势, AI计算能力, AI训练成本, AI训练数据, AI训练时间, AI语言支持, GPT-4对比, GPT-4跑分, HIKING face数据集, LLaMA, Llama 3.1, Llama 3.1 405b, Together AI, 中国AI厂商, 中国AI厂商冲锋, 中美科技博弈, 多模态支持, 开源与闭源, 拉玛模型争议, 梅塔与中国, 梅塔公司, 模型微调 Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o,中国AI厂商是否迎来春天?新的时代到来了,历史的车轮滚滚向前。已关闭评论
Llama3.1 405b突然开放,指标上全面超越GPT-4。中国厂商们是不是又可以充了呢?大家好,这里是老范讲故事的YouTube频道。今天咱们来讲一讲Llama3.1 405b 开放的事情。
Llama的开放,每一次都比较有戏剧性,都会有偷跑。什么叫偷跑?就不是由官方开了发布会,说我今天发布了一个什么产品,而是一般都是在Reddit这样的论坛里,突然就有人放出磁力链来,大家可以去BT下载Llama3.1 405B,包括Llama3.1 405B相关的各种测试数据,都是这么被发现的。头一天偷跑了以后,第二天梅塔说那算了,我开了吧。当时好像Llama2也是这么开出来的,现在Llama3.1 也是这么偷跑,完了以后就正式开放了。
他在跑分上已经全面地超越了GPT-4,基本上在各个指标上都超越了。这是非常非常难的,因为以前大家推出的各种模型里头,都是在个别指标里面超越GPT-4O或者超越GPT-4。那么在各项指标上全都超越的,这应该是第一次。当然了,它也是分很多版本的,分为8B、70B以及405B这三个版本。405B已经完全超越了,下面小一点的8B,应该比原来的Llama370B的效果还要再好一些。它的70B基本上针对前两天发布的GBT4OMINI,属于碾压状态。
Llama3.1 现在支持8种语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
这个里面没有中文啊,不用他们担心,中文我们自己会搞定的。这就是他们现在发布出来的模型,上下文窗口呢,从8K直接涨到了128K。Llama3是8K的,啊,现在Llama3.1 就直接128K,但是我还用不上,为什么呢?我想要去用这个Llama3.1 的,啊,405B这样的模型我肯定没法在本机上用,这玩意你肯定还是要很多的显卡,才可以把它刨起来的。所以一定是云端,用这么大的模型,你要给它这么长的上下文的话,通常那个压力是很大的。
所以现在我去看到的,比如像together AI上面的Llama3.1 的模型,里面啊,应该是8B的和70B的给的是32K,405B只给了4K,就是你超过4,400以上他就不干活了。超过了以后,我估计就会变得非常非常贵,工作的耗或者工作的成本就会变得很高。所以我现在能够用到的Llama3.1 ,405B只能是4K的,就是上下文4K。405B呢,也是Llama系列的第一个支持多模态的大模型,原来的都是纯语言模型,现在可以支持多模态了。
但是怎么说呢,如果只能用到4K的话,多模态意义不是很大,你塞不进去东西去。这还要看未来,是否有人愿意开放完全上下文的这种Llama3.1 的模型给大家去使用了。Llama到底算不算开源,对吧?我们刚才讲他开源开出来了,Llama是不是开源这件事情呢,也是有一定争议的。开源这件事情并不是说我把所有东西都开出来,你就随便去用就叫开源。
开源本身是一个在法律框架下,遵守一定的开源协议的商业模式。这个东西是要收钱的,大家可以去规定说我开哪部分,不开哪部分。当然了,也有一些原教旨主义者,他们其实是开放软件的一帮推崇者。他们认为Llama不算开源,为什么呢?
第一个,Llama只开放了部分代码,并没有把所有的代码都开出来;第二个,只开放了模型和参数,没有开源训练数据和完整的训练过程。如果是开放软件,这些东西都应该拿出来。而且只开放使用,他对使用还是有一定限制。开放软件这帮人说,你要叫开源,就得把所有的权利都拿出来,不能有自己任何权利保留。
这个是Llama在这块有一点点的小争议。对于Llama来说,它到底是限制了什么?在使用上,你说大家都下载了,都去用一下,我在本地上也下载了,它到底限制什么呢?
第一个,他不允许用Llama3训练新模型。这也很有趣,实际上现在国内大量的新模型都是拿Llama去训练的,但他这个是不允许的。第二个,用户超过7亿的,需要单独向梅塔申请。这其实就是针对中国的,全世界的公司里头,用户量超过7亿的,除了美国的那些之外,剩下的基本都在中国。他现在也有要求说我已经设置好了,超过7亿都不行。
但是,这个都属于叫君子协定。什么叫君子协定呢?就是我不告你,你也没办法。如果算告的话,可能也很麻烦,你去取证,做各种各样的法院诉讼的过程都会很长。但是,从道德制高点上来看……
他已经站在上了。你比如说,用户量超过7亿,还拿他去训练模型啊。假设是字节跳动吧,对吧?那个用户量肯定超过7亿了,而且跟美坦直接竞争啊。如果字节跳动拿着梅塔的Llama3去训练自己的模型了,这个事情对于Llama来说,他是可以告你的。
另外一个超过7亿用户,还去训练自己模型的是谁呢?天问啊,闻心眼,百度啊,都是在这个范围内。那么,Lama呢?如果不是走这个原教旨主义的判别标准的话,它算是开源的。但是,按照原教旨主义的标准来判定的话,它也算是个假开源吧。甭管是不是真的开源,但是Llama现在已经开始从开源受益了。很多人搞不清楚开源这事到底咋挣钱,正好趁着今天Llama3.1 405B的这个项目,来跟大家讲一讲开源到底是怎么盈利的。它为什么是一个商业模式啊?不是雷锋。
现在呢,Llama已经让时代的车轮滚滚向前,停不下来了啊,肯定是往前滚滚过去了。那些号称使用开源就是交智商税的CEO们,应该会在车轮下发出悲鸣了。Llama在Llama1、Llama2、Llama3到现在的Llama3.1 之间,一直在这开源模型里头是扛鼎的。他是做得最好的一个,做得最大的一个,其他人就会跟着他去做。对吧?我会在Llama的基础上进行微调。我在Llama的基础上准备微调Llama的数据,准备微调Llama的各种指令集,或者说准备使用Llama3微调一个什么呢?微调一个多模态的模型出来。前两天,斯坦福大学抄袭清华大学的那个模型,就是拿Llama3微调的多模态模型,还有很多人在Llama3的基础上……
去微调上下纹,让上下纹变长。所有的这些,你没有发现吗?就是从Llama3到Llama3.1 之间的这些变化,波太了啊,成上下文了。再加上什么?再加上各种各样的开源数据集,以及开源的指令微调数据集的参与训练,就从Llama3变成了Llama3.1 。它等于现在成为了一个潮流的标志,所有人做的这些数据也都是开放的。这些数据在哪呢?在HIKING face上啊,HIKING face上存了非常多的这种兼容Llama3格式的数据,兼容Llama3格式的指令微调数据集,以及各种各样的用Llama3已经微调成功的新的模型,甭管是长上下文的,还是多模态的都有。
好,现在Llama3说来,我把你们都收下来,我也开放了,你们也开放了,我收下来,然后我再把Llama3再重新训练一下,再把剩下的参数都堆进去,啊,堆一个405B出来,4,050亿参数啊,直接推出来。所以呢,他这个开源真正盈利的方式,大家听懂了没有?这两个字啊,叫做标准。Llama是通过成为标准,让所有在做大模型开源的人都依附于这个标准。这不是强制标准,这个是事实标准,大家依附于这个标准,然后做出生态来,整个生态的价值提升了。
Llama3直接把Llama3基础上的这些开放数据拎回来再去训练,就变成Llama3.1 。Llama3.1 出来以后,一定还会有很多人再在这个基础上,再去做大量的新的数据,再去微调,让Llama3.1 可以去适应更多的场景。那么是不是就快该有Lama 3.2了?就是开元战胜必元,或者开元。
整个的盈利方式就是这样。第一个叫做标准,事实标准;第二个呢,叫做生态。这两个东西一起往前走的时候,整个开源的系统就会快速地超越闭源系统。
很多人在讨论,开源到底便不便宜?咱们Llama3.1 的价格到底怎么算呢?我看了一下together上的价格,因为它是开源的,你可以把它拉到本地来自己去装。虽然我现在没有装这些东西的设备,斑马3在我的机器上可以跑8B,跑到70币已经跑不起来了。70币的话,至少是一块四零九零,再加上大量内存才可以跑起来。
像这种四零五币这样的模型,我已经不愿意去算我需要什么样的硬件它可以跑起来了。这个事情对于我没有意义了。所以呢,我们用云端可以跑Llama3服务或者Llama3.1 服务的这些服务器上给的价格为参考。他们给的是什么呢?就是Lama三点一的70币,每生成100万TOKEN是0.9美元,就是90美分;405B就是这4,050亿参数的这种大模型,生成100万TOKEN是5美金。
咱们呢跟其他人比一比,比如说open AI的。open AI现在当打的是GPT4欧,GPT4欧的输入是5美金,每100万TOKEN,输出的话是15美金。100万TOKEN desert上的这个TOKEN的价格应该是输入输出都一样的吧,但是5美金。统一的最新的呢是GPT4欧mini,是0.15美金输入,0.6美金输出,这个价格呢。
跟Llama3.1 的8臂的价格其实是差不多的,所以那个时候,为什么猜测GBT4欧MINI可能是一个8臂的模型,因为从价格上算的。Anceropic,那他们家的cloud是什么样的价格呢?3.5 sonit是输入3美金,输出15美金,也要比to get在上面Lama 3.1405币要贵。
至于Opus啊,就是Anceropic的cloud 3 Opus,这是它们最贵的、最大的一个模型。输入100万TOKEN,15美金,输出100万TOKEN居然要75美金,非常非常昂贵啊。Gemini呢,相对来说便宜点啊,Flash是输入两美金,输出6美金。Pro呢是一倍,输入是4美金,100万TOKEN输出呢是12美金。
所以啊,Llama3405B呢,相对来说还算便宜啊,就是输入输出是5美金,还算便宜。如果他的100万TOKEN在10美金,但是你让我使用128K的上下文,可以让我使用多模态,可以上传图片,可以进行识别,上传声音可以进行识别的话,那么我觉得这个价格也还是可以接受的。
在Llama3.1 405B发布之后,这肯定是一个诱化时代的产品发布了,代表着车历史车轮滚滚向前,把历史翻开了新的篇章。那么谁会挣钱啊?挣钱的呢,就应该是这种开放的云托管平台就会开始挣钱了,对吧?因为刚才我讲了,405B这种东西在我们本机是跑不起来的,哪怕是我一个单位里头自己有服务器,你想把它跑起来也是基本不可能的。
所以,一定是到云端去使用这种模型。那么,谁在干这个呢?刚才我们讲的 Together 就干这个的。另一个呢,是 Grop,专注于推理芯片的,他们也是在做类似的工作。现在,Grop 和 Together 上已经开始有Llama 3.1 的模型可以用了。这个刚才我查的Llama 3.1 的价格,就是在 Together 上查的。
然后,危机流动,也就是国内对标 Together 的这个项目,现在他们也可以在这种项目上受益。虽然这个上面没有Llama,因为Llama没有在中国进行过审核备案,但在中国使用的话,一定会有问题。不过,要相信我,中国团队会冲的。既然煤炭已经出了 405b,中国人就会出 410b,420b也会出现这样的模型。
那么,这种模型出来以后,也会到硅积流动上去跑。他也可以收到一个,比如说 100 万 TOKEN,十几美金的这样的一个价格。其他的这些云计算厂商,比如谷歌、微软、亚马逊,国内的像阿里云,都将受到这样的利好影响。
最后,我们讲一下中国团队是不是要冲锋。原来都讲人家一开源,我们就自主研发,自主知识产权。这个事一定会的。很多人说,中国的大模型就是自己研发的,跟他没有什么关系。这个你要相信,没有任何问题。我也可以相信。我们来看一看,中国最早的大模型,其实跟Llama是没有关系的。这个事一定要讲清楚。最早的是什么呢?最早的是拿 GPT2 开源的版本去修改,去使用出来的。
国内的某些最早期出大模型的大厂,他们的大模型里头有一定的GPT2的影子。后面Llama开源之后,国内才开始涌现了一批开源大模型公司,但他们都不承认使用的是Lama的模型。他们都说我们是在Lama的启发下,从头训练的。在Lama 2发布之后,各种应用公司就开始冲锋了,不再是模型公司了。很多应用公司也有一些新的模型出来可以用。这些模型到底是从头训练的,还是拿Lama 2去做的微调和修改,这个不得而知。
国内大量的企事业单位开始用上这些模型。等到Lama 3出来之后,各个开源模型公司纷纷更新版本。像Llama3发布后,影义万物、同一千问,包括很多这种不开源的模型公司,都在纷纷更新自己的版本,号称我们都去对标GPT4了。在中文领域里头可以超过Llama3了,英文里头稍微有一些偏差,也还是可以理解的。
这就会有这样的一个明确的时间划分,到底抄没抄,这事我们也没有明确的证据。我们只能说,这个时间点都非常非常的巧合,你爱信不信。而且在Llama3出来以后,中国的各个模型公司在做的一件事是什么?就是开始打价格战。咱们开卷吧,这个是为什么呢?因为中国大模型公司卡在100币这个位置上,因为Llama3开源出来的就是8币以及70币。所以中国很多是9币和72币,我在这个基础上再加一点点。你说我再往上训练,到底拿什么样的东西去训练,或者往哪个方向训练。
其实是不知道的,所以卡在100币,没有往上走的通道了。那我们先卷价格,等一等看看风向再说。现在风向又变了,405B出来了。而且405B并不是Moe。什么是Moe?就是专家模型。405B,它是一个单体的Transformer的模型。这样的话,大家就知道,原来大模型长这样,我们可以去搞一次了。这个是值得去借鉴的。
国内其实也出了一些Moe的模型,比如像千问自己,有一个五十几b的Moe模型。另外也出过一些100多币的这种Moe的模型。但这种100多币呢,它是由很多个小模型拼起来的。每一个小模型可能还是二三十币,或者这样的一个水平。拼起来的单体的上百币的模型,原来中国人是没做过的,现在有开放出来的。那么中国公司是必须充,方向都已经指明了,不冲等啥呢?咱们就看这个到底需要多长时间了。
但是,对于Llama3.1 405B来说,能够冲上去的公司并不多。为什么呢?咱们看一下,Llama3.1 8B呢,用的146万GPU小时。这个玩意儿怎么算呢?就是说用H100,我用146万个小时,就可以细算出来Llama3.1 8B。那你说这么多怎么弄啊?人家又不是一块在这算,对吧?人家一下上几万块。梅塔手里头号称有50万块GPU,他这个数据一除除的话,就很快就可以算出一个斑马3.18B。然后呢,Llama3.1 70b呢,用了700万GPU小时,也就是H100 GPU小时吧,应该这么讲。
然后,Llama3.1 405b 用了多少呢?3,084万H100 GPU小时。梅塔自己呢,是用了1.6万张H100进行的训练。他并不是说我分别训练8B、70B和405B啊,他们正常应该是训练了一个405B,蒸馏出70B和8B。但是,你还是要去用3,084万H100 GPU小时的这个时长去算。如果是1.6万张H100的话,那么是需要多长时间呢?80天,两个多月就可以把它训练完的。这个价格是很贵的啊,H100是4万美金一张。而你,比如说我能够有这么多钱,人家还不卖给你。就算人家卖给你了,你烧得起电吗?这个H100的功率是700瓦一张啊。你想,这一万多张,他有多大的功率,这是非常恐怖的一个数字。这还光算了H100,主机的这个电压、主机的功率还没算在里头。算完了主机之后,机房里头最大的耗电户既不是H100,也不是主机。那么,也有人说,难道是交换机吗?难道是路由器吗?难道是这些东西吗?都不是啊。我告诉大家,所有的机房里头,真正的耗电大户是空调。H100耗了700瓦的电,疯狂的发热了。以后,你不能等着它冒烟着火,对吧?一个封闭的机房里,你再要把这些热量排出去,你还要再用更大功率的空调来把这个热量交换掉。所以,这是一个非常巨大的工程。在国内,玩得起的公司基本上都被扎戈伯格限制了。第一个,人家想了说,你不可以拿Llama再去训练新模型了。第二个,所有用户量超过7亿的公司。
你要想去用Llama,你要跟雷塔申请特殊的许可证。咱们国内能够训练这样的模型,又有7亿用户的阿里、字节、腾讯,他们如果没有向美塔专门申请过许可证,那你就只能说这是我自主研发、自主知识产权,跟你没关系。但到最后,如果被海外应用的时候,被梅塔抓住把柄,说:“哎,你这个里头跟我那是一样的。”那么这个官司就有的打了。
那扎克伯格自己对于中国开源项目的看法是什么样的呢?你说他装没看见,这事肯定是不行的啊。在Llama的基础上进行开源、内容创作、进行微调、进行数据准备,最积极、干的活最多的就是中国团队啊。那么扎克伯格肯定不能装没看见。
所以扎克伯格也说了,开源可以让中国之外的盟友和小公司一起进步。如果我闭园了,大家去通过间谍、通过拷优盘拷贝、通过各种方式得到模型参数、得到模型数据的能力都还是很强的,并不是说我闭园了,中国团队就得不到了。我要开园了呢,中国团队也能得到,我其他的像什么法国、欧洲的盟友,还有很多的小公司,他们也可以得到这些数据,他们就可以跟我一块进步。
他讲的是这样的一个逻辑。这其实特别有意思啊,美国你去看看,现在美股七姐妹也好,或者是其他的比较靠上的这些美股科技公司也好,他们都是有大量的中国市场订单或中国市场份额的。每一家都是在这揣着明白装糊涂。你把这个东西开放出来了,一定是极大地刺激中国的大模型发展,而且现在已经没有天花板,没有任何问题。
我们就可以快速地达到,超越GPT-4的这个水平了。我相信,可能在未来的一到两个月里,各种模型就会再去更新升级,推出全面超越GPT-4的版本出来。现在这个压力给了OpenAI,如果比赛不更新,再拿不出GPT-5的话,就要彻底落后了。所以,扎克伯格自己心里是心知肚明的啊。他完完全全是为中国大魔星开绿灯。
至于其他的他的盟友,这些小公司到底有没有赶上,可能在努力追赶,但应该并没有。从梅塔的开源里,真正得到最大利益和实惠的事情是没有办法的。但是同时,他也抹了一个悉尼,说:“你看我开不开源,他们都能得到。”这个都是这么干。
另外,他也讲说闭源是让个别公司憋大招。他说:“我们从来不认为最后只有一种达摩型。”那些只认为最后应该只有一种达摩型的人,他们是在干嘛?他们是在自己偷偷创造上帝。这个事是非常可耻的啊。我不知道作为一个犹太人,他如何去解答这种,或者如何去看待这种自己偷偷创造上帝的这个过程。
总之,他说这事不行,非常可耻,一定要开源出来。而且现在看,开源正在超越闭源。这就是我们今天要讲的,拉嘛3.1405B的发布,如何搅动风雨,如何让中国团队冲锋,给中国团队指明方向,以及扎克伯克对于这个事情本身到底是怎么看的一个故事。
好,感谢大家收听,请帮忙点赞,点小铃铛,参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。