Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o，中国AI厂商是否迎来春天？新的时代到来了，历史的车轮滚滚向前。

Luke Fan — Thu, 25 Jul 2024 01:00:20 +0000

Llama3.1 405b突然开放，指标上全面超越GPT-4。中国厂商们是不是又可以充了呢？大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲Llama3.1 405b 开放的事情。

Llama的开放，每一次都比较有戏剧性，都会有偷跑。什么叫偷跑？就不是由官方开了发布会，说我今天发布了一个什么产品，而是一般都是在Reddit这样的论坛里，突然就有人放出磁力链来，大家可以去BT下载Llama3.1 405B，包括Llama3.1 405B相关的各种测试数据，都是这么被发现的。头一天偷跑了以后，第二天梅塔说那算了，我开了吧。当时好像Llama2也是这么开出来的，现在Llama3.1 也是这么偷跑，完了以后就正式开放了。

他在跑分上已经全面地超越了GPT-4，基本上在各个指标上都超越了。这是非常非常难的，因为以前大家推出的各种模型里头，都是在个别指标里面超越GPT-4O或者超越GPT-4。那么在各项指标上全都超越的，这应该是第一次。当然了，它也是分很多版本的，分为8B、70B以及405B这三个版本。405B已经完全超越了，下面小一点的8B，应该比原来的Llama370B的效果还要再好一些。它的70B基本上针对前两天发布的GBT4OMINI，属于碾压状态。

Llama3.1 现在支持8种语言：英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

这个里面没有中文啊，不用他们担心，中文我们自己会搞定的。这就是他们现在发布出来的模型，上下文窗口呢，从8K直接涨到了128K。Llama3是8K的，啊，现在Llama3.1 就直接128K，但是我还用不上，为什么呢？我想要去用这个Llama3.1 的，啊，405B这样的模型我肯定没法在本机上用，这玩意你肯定还是要很多的显卡，才可以把它刨起来的。所以一定是云端，用这么大的模型，你要给它这么长的上下文的话，通常那个压力是很大的。

所以现在我去看到的，比如像together AI上面的Llama3.1 的模型，里面啊，应该是8B的和70B的给的是32K，405B只给了4K，就是你超过4,400以上他就不干活了。超过了以后，我估计就会变得非常非常贵，工作的耗或者工作的成本就会变得很高。所以我现在能够用到的Llama3.1 ，405B只能是4K的，就是上下文4K。405B呢，也是Llama系列的第一个支持多模态的大模型，原来的都是纯语言模型，现在可以支持多模态了。

但是怎么说呢，如果只能用到4K的话，多模态意义不是很大，你塞不进去东西去。这还要看未来，是否有人愿意开放完全上下文的这种Llama3.1 的模型给大家去使用了。Llama到底算不算开源，对吧？我们刚才讲他开源开出来了，Llama是不是开源这件事情呢，也是有一定争议的。开源这件事情并不是说我把所有东西都开出来，你就随便去用就叫开源。

开源本身是一个在法律框架下，遵守一定的开源协议的商业模式。这个东西是要收钱的，大家可以去规定说我开哪部分，不开哪部分。当然了，也有一些原教旨主义者，他们其实是开放软件的一帮推崇者。他们认为Llama不算开源，为什么呢？

第一个，Llama只开放了部分代码，并没有把所有的代码都开出来；第二个，只开放了模型和参数，没有开源训练数据和完整的训练过程。如果是开放软件，这些东西都应该拿出来。而且只开放使用，他对使用还是有一定限制。开放软件这帮人说，你要叫开源，就得把所有的权利都拿出来，不能有自己任何权利保留。

这个是Llama在这块有一点点的小争议。对于Llama来说，它到底是限制了什么？在使用上，你说大家都下载了，都去用一下，我在本地上也下载了，它到底限制什么呢？

第一个，他不允许用Llama3训练新模型。这也很有趣，实际上现在国内大量的新模型都是拿Llama去训练的，但他这个是不允许的。第二个，用户超过7亿的，需要单独向梅塔申请。这其实就是针对中国的，全世界的公司里头，用户量超过7亿的，除了美国的那些之外，剩下的基本都在中国。他现在也有要求说我已经设置好了，超过7亿都不行。

但是，这个都属于叫君子协定。什么叫君子协定呢？就是我不告你，你也没办法。如果算告的话，可能也很麻烦，你去取证，做各种各样的法院诉讼的过程都会很长。但是，从道德制高点上来看……

他已经站在上了。你比如说，用户量超过7亿，还拿他去训练模型啊。假设是字节跳动吧，对吧？那个用户量肯定超过7亿了，而且跟美坦直接竞争啊。如果字节跳动拿着梅塔的Llama3去训练自己的模型了，这个事情对于Llama来说，他是可以告你的。

另外一个超过7亿用户，还去训练自己模型的是谁呢？天问啊，闻心眼，百度啊，都是在这个范围内。那么，Lama呢？如果不是走这个原教旨主义的判别标准的话，它算是开源的。但是，按照原教旨主义的标准来判定的话，它也算是个假开源吧。甭管是不是真的开源，但是Llama现在已经开始从开源受益了。很多人搞不清楚开源这事到底咋挣钱，正好趁着今天Llama3.1 405B的这个项目，来跟大家讲一讲开源到底是怎么盈利的。它为什么是一个商业模式啊？不是雷锋。

现在呢，Llama已经让时代的车轮滚滚向前，停不下来了啊，肯定是往前滚滚过去了。那些号称使用开源就是交智商税的CEO们，应该会在车轮下发出悲鸣了。Llama在Llama1、Llama2、Llama3到现在的Llama3.1 之间，一直在这开源模型里头是扛鼎的。他是做得最好的一个，做得最大的一个，其他人就会跟着他去做。对吧？我会在Llama的基础上进行微调。我在Llama的基础上准备微调Llama的数据，准备微调Llama的各种指令集，或者说准备使用Llama3微调一个什么呢？微调一个多模态的模型出来。前两天，斯坦福大学抄袭清华大学的那个模型，就是拿Llama3微调的多模态模型，还有很多人在Llama3的基础上……

去微调上下纹，让上下纹变长。所有的这些，你没有发现吗？就是从Llama3到Llama3.1 之间的这些变化，波太了啊，成上下文了。再加上什么？再加上各种各样的开源数据集，以及开源的指令微调数据集的参与训练，就从Llama3变成了Llama3.1 。它等于现在成为了一个潮流的标志，所有人做的这些数据也都是开放的。这些数据在哪呢？在HIKING face上啊，HIKING face上存了非常多的这种兼容Llama3格式的数据，兼容Llama3格式的指令微调数据集，以及各种各样的用Llama3已经微调成功的新的模型，甭管是长上下文的，还是多模态的都有。

好，现在Llama3说来，我把你们都收下来，我也开放了，你们也开放了，我收下来，然后我再把Llama3再重新训练一下，再把剩下的参数都堆进去，啊，堆一个405B出来，4,050亿参数啊，直接推出来。所以呢，他这个开源真正盈利的方式，大家听懂了没有？这两个字啊，叫做标准。Llama是通过成为标准，让所有在做大模型开源的人都依附于这个标准。这不是强制标准，这个是事实标准，大家依附于这个标准，然后做出生态来，整个生态的价值提升了。

Llama3直接把Llama3基础上的这些开放数据拎回来再去训练，就变成Llama3.1 。Llama3.1 出来以后，一定还会有很多人再在这个基础上，再去做大量的新的数据，再去微调，让Llama3.1 可以去适应更多的场景。那么是不是就快该有Lama 3.2了？就是开元战胜必元，或者开元。

整个的盈利方式就是这样。第一个叫做标准，事实标准；第二个呢，叫做生态。这两个东西一起往前走的时候，整个开源的系统就会快速地超越闭源系统。

很多人在讨论，开源到底便不便宜？咱们Llama3.1 的价格到底怎么算呢？我看了一下together上的价格，因为它是开源的，你可以把它拉到本地来自己去装。虽然我现在没有装这些东西的设备，斑马3在我的机器上可以跑8B，跑到70币已经跑不起来了。70币的话，至少是一块四零九零，再加上大量内存才可以跑起来。

像这种四零五币这样的模型，我已经不愿意去算我需要什么样的硬件它可以跑起来了。这个事情对于我没有意义了。所以呢，我们用云端可以跑Llama3服务或者Llama3.1 服务的这些服务器上给的价格为参考。他们给的是什么呢？就是Lama三点一的70币，每生成100万TOKEN是0.9美元，就是90美分；405B就是这4,050亿参数的这种大模型，生成100万TOKEN是5美金。

咱们呢跟其他人比一比，比如说open AI的。open AI现在当打的是GPT4欧，GPT4欧的输入是5美金，每100万TOKEN，输出的话是15美金。100万TOKEN desert上的这个TOKEN的价格应该是输入输出都一样的吧，但是5美金。统一的最新的呢是GPT4欧mini，是0.15美金输入，0.6美金输出，这个价格呢。

跟Llama3.1 的8臂的价格其实是差不多的，所以那个时候，为什么猜测GBT4欧MINI可能是一个8臂的模型，因为从价格上算的。Anceropic，那他们家的cloud是什么样的价格呢？3.5 sonit是输入3美金，输出15美金，也要比to get在上面Lama 3.1405币要贵。

至于Opus啊，就是Anceropic的cloud 3 Opus，这是它们最贵的、最大的一个模型。输入100万TOKEN，15美金，输出100万TOKEN居然要75美金，非常非常昂贵啊。Gemini呢，相对来说便宜点啊，Flash是输入两美金，输出6美金。Pro呢是一倍，输入是4美金，100万TOKEN输出呢是12美金。

所以啊，Llama3405B呢，相对来说还算便宜啊，就是输入输出是5美金，还算便宜。如果他的100万TOKEN在10美金，但是你让我使用128K的上下文，可以让我使用多模态，可以上传图片，可以进行识别，上传声音可以进行识别的话，那么我觉得这个价格也还是可以接受的。

在Llama3.1 405B发布之后，这肯定是一个诱化时代的产品发布了，代表着车历史车轮滚滚向前，把历史翻开了新的篇章。那么谁会挣钱啊？挣钱的呢，就应该是这种开放的云托管平台就会开始挣钱了，对吧？因为刚才我讲了，405B这种东西在我们本机是跑不起来的，哪怕是我一个单位里头自己有服务器，你想把它跑起来也是基本不可能的。

所以，一定是到云端去使用这种模型。那么，谁在干这个呢？刚才我们讲的 Together 就干这个的。另一个呢，是 Grop，专注于推理芯片的，他们也是在做类似的工作。现在，Grop 和 Together 上已经开始有Llama 3.1 的模型可以用了。这个刚才我查的Llama 3.1 的价格，就是在 Together 上查的。

然后，危机流动，也就是国内对标 Together 的这个项目，现在他们也可以在这种项目上受益。虽然这个上面没有Llama，因为Llama没有在中国进行过审核备案，但在中国使用的话，一定会有问题。不过，要相信我，中国团队会冲的。既然煤炭已经出了 405b，中国人就会出 410b，420b也会出现这样的模型。

那么，这种模型出来以后，也会到硅积流动上去跑。他也可以收到一个，比如说 100 万 TOKEN，十几美金的这样的一个价格。其他的这些云计算厂商，比如谷歌、微软、亚马逊，国内的像阿里云，都将受到这样的利好影响。

最后，我们讲一下中国团队是不是要冲锋。原来都讲人家一开源，我们就自主研发，自主知识产权。这个事一定会的。很多人说，中国的大模型就是自己研发的，跟他没有什么关系。这个你要相信，没有任何问题。我也可以相信。我们来看一看，中国最早的大模型，其实跟Llama是没有关系的。这个事一定要讲清楚。最早的是什么呢？最早的是拿 GPT2 开源的版本去修改，去使用出来的。

国内的某些最早期出大模型的大厂，他们的大模型里头有一定的GPT2的影子。后面Llama开源之后，国内才开始涌现了一批开源大模型公司，但他们都不承认使用的是Lama的模型。他们都说我们是在Lama的启发下，从头训练的。在Lama 2发布之后，各种应用公司就开始冲锋了，不再是模型公司了。很多应用公司也有一些新的模型出来可以用。这些模型到底是从头训练的，还是拿Lama 2去做的微调和修改，这个不得而知。

国内大量的企事业单位开始用上这些模型。等到Lama 3出来之后，各个开源模型公司纷纷更新版本。像Llama3发布后，影义万物、同一千问，包括很多这种不开源的模型公司，都在纷纷更新自己的版本，号称我们都去对标GPT4了。在中文领域里头可以超过Llama3了，英文里头稍微有一些偏差，也还是可以理解的。

这就会有这样的一个明确的时间划分，到底抄没抄，这事我们也没有明确的证据。我们只能说，这个时间点都非常非常的巧合，你爱信不信。而且在Llama3出来以后，中国的各个模型公司在做的一件事是什么？就是开始打价格战。咱们开卷吧，这个是为什么呢？因为中国大模型公司卡在100币这个位置上，因为Llama3开源出来的就是8币以及70币。所以中国很多是9币和72币，我在这个基础上再加一点点。你说我再往上训练，到底拿什么样的东西去训练，或者往哪个方向训练。

其实是不知道的，所以卡在100币，没有往上走的通道了。那我们先卷价格，等一等看看风向再说。现在风向又变了，405B出来了。而且405B并不是Moe。什么是Moe？就是专家模型。405B，它是一个单体的Transformer的模型。这样的话，大家就知道，原来大模型长这样，我们可以去搞一次了。这个是值得去借鉴的。

国内其实也出了一些Moe的模型，比如像千问自己，有一个五十几b的Moe模型。另外也出过一些100多币的这种Moe的模型。但这种100多币呢，它是由很多个小模型拼起来的。每一个小模型可能还是二三十币，或者这样的一个水平。拼起来的单体的上百币的模型，原来中国人是没做过的，现在有开放出来的。那么中国公司是必须充，方向都已经指明了，不冲等啥呢？咱们就看这个到底需要多长时间了。

但是，对于Llama3.1 405B来说，能够冲上去的公司并不多。为什么呢？咱们看一下，Llama3.1 8B呢，用的146万GPU小时。这个玩意儿怎么算呢？就是说用H100，我用146万个小时，就可以细算出来Llama3.1 8B。那你说这么多怎么弄啊？人家又不是一块在这算，对吧？人家一下上几万块。梅塔手里头号称有50万块GPU，他这个数据一除除的话，就很快就可以算出一个斑马3.18B。然后呢，Llama3.1 70b呢，用了700万GPU小时，也就是H100 GPU小时吧，应该这么讲。

然后，Llama3.1 405b 用了多少呢？3,084万H100 GPU小时。梅塔自己呢，是用了1.6万张H100进行的训练。他并不是说我分别训练8B、70B和405B啊，他们正常应该是训练了一个405B，蒸馏出70B和8B。但是，你还是要去用3,084万H100 GPU小时的这个时长去算。如果是1.6万张H100的话，那么是需要多长时间呢？80天，两个多月就可以把它训练完的。这个价格是很贵的啊，H100是4万美金一张。而你，比如说我能够有这么多钱，人家还不卖给你。就算人家卖给你了，你烧得起电吗？这个H100的功率是700瓦一张啊。你想，这一万多张，他有多大的功率，这是非常恐怖的一个数字。这还光算了H100，主机的这个电压、主机的功率还没算在里头。算完了主机之后，机房里头最大的耗电户既不是H100，也不是主机。那么，也有人说，难道是交换机吗？难道是路由器吗？难道是这些东西吗？都不是啊。我告诉大家，所有的机房里头，真正的耗电大户是空调。H100耗了700瓦的电，疯狂的发热了。以后，你不能等着它冒烟着火，对吧？一个封闭的机房里，你再要把这些热量排出去，你还要再用更大功率的空调来把这个热量交换掉。所以，这是一个非常巨大的工程。在国内，玩得起的公司基本上都被扎戈伯格限制了。第一个，人家想了说，你不可以拿Llama再去训练新模型了。第二个，所有用户量超过7亿的公司。

你要想去用Llama，你要跟雷塔申请特殊的许可证。咱们国内能够训练这样的模型，又有7亿用户的阿里、字节、腾讯，他们如果没有向美塔专门申请过许可证，那你就只能说这是我自主研发、自主知识产权，跟你没关系。但到最后，如果被海外应用的时候，被梅塔抓住把柄，说：“哎，你这个里头跟我那是一样的。”那么这个官司就有的打了。

那扎克伯格自己对于中国开源项目的看法是什么样的呢？你说他装没看见，这事肯定是不行的啊。在Llama的基础上进行开源、内容创作、进行微调、进行数据准备，最积极、干的活最多的就是中国团队啊。那么扎克伯格肯定不能装没看见。

所以扎克伯格也说了，开源可以让中国之外的盟友和小公司一起进步。如果我闭园了，大家去通过间谍、通过拷优盘拷贝、通过各种方式得到模型参数、得到模型数据的能力都还是很强的，并不是说我闭园了，中国团队就得不到了。我要开园了呢，中国团队也能得到，我其他的像什么法国、欧洲的盟友，还有很多的小公司，他们也可以得到这些数据，他们就可以跟我一块进步。

他讲的是这样的一个逻辑。这其实特别有意思啊，美国你去看看，现在美股七姐妹也好，或者是其他的比较靠上的这些美股科技公司也好，他们都是有大量的中国市场订单或中国市场份额的。每一家都是在这揣着明白装糊涂。你把这个东西开放出来了，一定是极大地刺激中国的大模型发展，而且现在已经没有天花板，没有任何问题。

我们就可以快速地达到，超越GPT-4的这个水平了。我相信，可能在未来的一到两个月里，各种模型就会再去更新升级，推出全面超越GPT-4的版本出来。现在这个压力给了OpenAI，如果比赛不更新，再拿不出GPT-5的话，就要彻底落后了。所以，扎克伯格自己心里是心知肚明的啊。他完完全全是为中国大魔星开绿灯。

至于其他的他的盟友，这些小公司到底有没有赶上，可能在努力追赶，但应该并没有。从梅塔的开源里，真正得到最大利益和实惠的事情是没有办法的。但是同时，他也抹了一个悉尼，说：“你看我开不开源，他们都能得到。”这个都是这么干。

另外，他也讲说闭源是让个别公司憋大招。他说：“我们从来不认为最后只有一种达摩型。”那些只认为最后应该只有一种达摩型的人，他们是在干嘛？他们是在自己偷偷创造上帝。这个事是非常可耻的啊。我不知道作为一个犹太人，他如何去解答这种，或者如何去看待这种自己偷偷创造上帝的这个过程。

总之，他说这事不行，非常可耻，一定要开源出来。而且现在看，开源正在超越闭源。这就是我们今天要讲的，拉嘛3.1405B的发布，如何搅动风雨，如何让中国团队冲锋，给中国团队指明方向，以及扎克伯克对于这个事情本身到底是怎么看的一个故事。

好，感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

AI法律框架 – 老范讲故事｜AI、大模型与商业世界的故事

Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o，中国AI厂商是否迎来春天？新的时代到来了，历史的车轮滚滚向前。