Llama 4悄然发布震撼不足?对比DeepSeek与千问,Meta的MOE架构和千万级上下文能否挽回开源领导地位,避免被超级APP浪潮抛弃?

Llama 4悄然发布震撼不足?对比DeepSeek与千问,Meta的MOE架构和千万级上下文能否挽回开源领导地位,避免被超级APP浪潮抛弃?已关闭评论

Llama 4悄然发布震撼不足?对比DeepSeek与千问,Meta的MOE架构和千万级上下文能否挽回开源领导地位,避免被超级APP浪潮抛弃?

Llama4发布了。这里的黎明静悄悄,没有什么响动。这是怎么回事?

大家好,欢迎收听老范讲故事的YouTube频道。一觉醒来,Llama4就发布了。扎克伯格亲自在Facebook的REELS(也就是Facebook的短视频里面)发了一条视频,说Llama4发布了,今天是Llama4日。

Llama4呢,一共是有三个版本:
第一个叫Scout(侦察兵版本),总参数1,090亿(也就是109B),活跃参数是170亿,包含16个专家模块。对的,Llama终于也放弃抵抗了,从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型,Llama3.3还给了一个400多B的单一模型,到Llama4彻底放弃抵抗了。

现在呢,支持1,000万TOKEN这种上下文,这个是Llama4最大的一个特点。DeepSeek是64K(也就是64,000个TOKEN上下文),现在上下文比较大的Gemini大概是能到2兆(200万),Llama4直接给了一个10兆(1,000万TOKEN),这是它做的一个很创新的点。

1,000万TOKEN的上下文可以干嘛?可以处理20小时以上的视频或者超长文档,是行业领先的长上下文技术。采用了混合专家模型(也就是MOE架构),在INT4量化后,可以在单个的H100 GPU上运行,每秒处理42,400个TOKEN,还是速度比较快的。但是要注意,即使经过量化到Intel4上,它也必须要有H100,否则跑不起来这东西。所以咱们普通的电脑就别惦记了,最小的模型就是它了,没有更小的了。

所以这一次Llama4的发布,并不像以前的Llama1、Llama2、Llama3似的,把各个尺寸的模型都做出来(从7b、14b、72b、32b什么这些都做一遍),没有,上来最小的一个就是109B。它可以支持文本、图像、音频、视频的输入,目前呢只支持文本的输出,未来应该会出现全模态输出的版本。这是它最小的一个侦察兵。

中间的模型呢叫MARVELIC(独行侠),总参数量400B,活跃参数量17B,包含128个专家模块。它的专家模块变多了,超越GPT4O、DeepSeek V3,仅次于闭源模型Gemini2.5 Pro。Gemini2.5 Pro现在还是最强的,没有之一。在编程和数学任务中,仅用DeepSeek V3一半的参数即可达到相当的性能,但是你上再多参数也就这水平了。

所以,它在数学跟编程角度上来说,跟DeepSeek V3应该是半斤八两,只是它的运算效率要更高一些。最大的一个叫Behemoth(巨兽),总参数量2000B,活跃参数量288B,包含16个专家模块,使用30万亿多模态TOKEN(就是文本、图像、视频),在32K(也就是32,000个GPU)上训练,FP8精度,提升效率。所以,你有足够的显卡才可以玩这件事情——32,000块显卡。Deepseek到现在为止,都没有承认它有这么多块显卡。所以,这种巨兽,国内追赶起来是比较费劲的。

只是呢,这一个产品目前并没有发布出来,前面两个发布了,这个应该是在2025年的下半年发布。这个巨兽在数学、科学等基准测试中,超越了GPT 4.5、Claude sonnet 3.7和Gemini2.0 Pro。但是是不是超越了2.5 Pro,我现在没有看到相应的介绍。它呢,主要的作用是作为教师模型,用于知识蒸馏——就是我做一最大的,然后下边这些小的模型、中型的模型,都是拿这个最大的进行蒸馏,蒸馏出来的。现在呢,它也转向了MOE,性能有所提升,但是呢并没有那么明显。最大的特点就是1,000万输入,这个是Llama4做的最不一样的一个点。

目前呢,支持全模态输入、文字输出;未来呢,会支持全模态输出,就是端到端的全模态输出。你甚至可以跟它去直接聊天,还可以打断它,就像现在的GPT4O高级语音功能一样。但是这个什么时候出来还不确定。如果能够有全模态输出的话,还是值得期待一下的。未来的方向一定是全模态、端到端的输入输出,现在新的模型都在向这个方向走。

那么,为什么没有什么声音讨论它呢?Llama1出来的时候,整个的行业都震动了——这样程度的一个模型一下就开源了,大家都可以拿来去研究了。Llama2出来一看,又可以往前走一步。其实Llama1跟GPT3.5还是有差距的,到Llama2出来以后说“哎,可以用了”,进行一些微调以后,就真的可以去解决一些ToB的,或者说使用范围相对比较集中的应用,就可以直接用起来了。我记得是在两年前,就很多国内的项目就在微调Llama。等到Llama3出来的时候说,这个虽然达不到GPT4的水平,但是已经很接近了,大家拿这个东西去稍微调一调,就可以跑了。

在Llama3出来以后的话,千问就开始疯狂的去输出各种各样尺寸的模型,就是千问2.0、千问2.5,这一批就直接追赶上来了。但是到Llama4出来,大家没说什么。

这到底是什么样的一个情况?我呢,第一时间还上去试了一下。现在你到Open Router这个网站上,你是可以进行测试的,而且是免费的。侦察兵版和独行侠版都可以使用,也有收费的版本。收费版本就是比免费的版本稍微快一点点,主观感受上没有特别大的差异。

那你说真的没有什么提升吗?这个肯定不对。它呢,跟现在的GPT-4O、Gemini 2.5、Claude 3.7这种主流模型比起来,确实没有什么提升。哈哈,这个基本上跟他们算站在同一个起跑线上,可能跟Gemini 2.5还稍微的差一点。Gemini 2.5不太友好的地方就是它比较慢,现在的Llama 4是很快的。但是呢,这个Llama 4比Llama 3、3.1、3.2、3.3这些版本还是有巨大提升的,特别是在中文这一块,效果好了非常非常多。大家可以去试一试,就完全可以达到能用的状态了。这个原来在Llama 3的水平上还是达不到的。

那么为什么不觉得震撼了呢?原来Llama虽然和闭源模型比起来稍有差距,但是呢,毕竟你是开源的吧,开源圈里的扛把子。现在的开源模型也卷起来了,DeepSeek绝对达到了可用程度,千问现在也绝对在数量上碾压。怎么叫数量上碾压?就是千问的模型是数量非常大呀,零点几B,然后到4B、7B、14B、32B、34B,多模态的推理的全都有。这块非常非常完善,而且有非常多的人在以千问模型为基础进行微调。因为你要到手机上,或者到一些嵌入式设备上去进行操控的话,你拿千问这种小模型微调是很方便的。给你一个105B的模型,你拿去微调的话,这个就有点费劲了。所以现在你到Hugging Face上去看,最受欢迎的开源模型基本上都是千问或者是千问系的。

所以从数量上,千问绝对赶超Llama。从能用程度上说,DeepSeek比它早发布了几个月,已经达到完全可用的一个状态了。现在Llama 4再拿出来,并没有划时代的提升。同样作为开源版本的大模型,他就没有那么震撼,已经有审美疲劳了。当然了,Llama 4出来,应该大家还是会去抄的。这Llama 1、Llama 2、Llama 3出来以后,实际上对至少国内的大模型产业都是有极强的促进作用的。Llama 4出来呢,应该也是有这种意义。千问和DeepSeek应该会尝试使用这种超长上下文的技术,因为它是1,000万TOKEN嘛。所以这一块至少千问应该会去追赶一下,DeepSeek的话……

现在到底在忙什么?不确定。当然,DeepSeek呢,应该也会在多模态上奋起直追。只是奋起直追多莫泰这个事呢,对于卡的数量是一个考验。DeepSeek前面一直说我没有那么多卡,看看后边这个话怎么把它说圆回来吧。

那么现在大模型到底在卷什么?大模型最终有可能还是会走向超级APP的道路。好像现在各大厂商依然在尝试卷超级APP,而且超级APP才是流量入口的一个锚点。你没有流量入口的话,你的模型做的再好,其实没有什么意义。这件事情上,以谷歌和Meta作为反面典型,大家看一看。谷歌的大模型其实一直做的还可以的,只是呢它的入口做的比较烂,大家就一直用的比较少。谷歌每一次出新的大模型,先给程序员用,他自己telegram内部用户,甭管是付费的还是免费的,都要很晚才能接触到他们最新的模型。而Meta,Llama做到现在了,做的这么热闹,Meta的用户,甭管是Facebook用户、Instagram用户,其实并没有感觉有特别大的体验上的提升。这个是两个典型案例。

这里还有一个正面案例,谁啊?就是马斯克的Xa i 1,一做出来以后,第一件事在x平台上,直接给了一个最核心的入口,直接给了一个Grok的入口,你一点就可以进去聊天去了。现在ChatGPT呢已经是超级APP了,Claude呢应该也接近成为超级APP了。谷歌呢算突然惊醒,ChatGPT 2.5 Pro上来以后,直接把Gemini客户端的经理给干掉了,把Notebook LM的负责人拎回来,你去给大家继续去做Gemini客户端去。这个Notebook LM是用户所喜欢的,Gemini被人骂了这么久了,我们要换一换了。而且Gemini 2.5 Pro一上来,就直接给Gemini的免费用户就开放了。所以谷歌已经醒过味了,说我们要换一个姿势了。

现在呢卷王们已经下场了。阿里还在内斗,千问跟夸克还要在内部做一次赛马。腾讯的元宝已经开始疯狂砸钱了。现在的进展到什么样的一个状态了?就这些超级APP都是带有搜索、知识库和靠谱推理的一个结果生成。目前我们现在看到的所有的超级APP,或者叫AI方面的超级APP,基本上都是在这个起跑线上。语音端到端呢,OpenAI做了,Claude我不确定做没做,好像没有。Grok英文的部分已经有了,中文的部分没有。豆包已经做出来了,千问和夸克现在正在奋起直追,腾讯的元宝也还在努力的往前走。

DeepSeek在这一块做的稍微有点拉胯。它的语音部分和图屏的部分,就是多模态的部分,稍微差那么一点点。再往后就是图片、视频、音频的理解和生成。现在这些呃超级APP,OpenAI是完全可以实现图片理解、图片生成,甚至是视频生成,这些功能都是完整的。谷歌其实它的功能都做出来了,但是Gemini里头好多没接,这块还要再奋起直追一下。

阿里的千问还有像夸克,包括字节的豆包,在这一块已经都做了图片理解、图片生成,包括修图改图,包括一些视频生成,现在他们都已经做出来了。其他的还在奋起直追。全新的形态是无法跟传统的形态进行有机结合的,或者结合起来比较费劲。现在唯一结合成功,或者大家感觉还比较顺眼的,就是x集合XAI,而且两个公司还合并了。

其他公司都是尝试在传统的产品形态之外,寻找新的应用形态,或者新的用户使用形态。所以都是做的独立的APP,甭管是腾讯、阿里还是谷歌,或者是字节,都是做出独立APP来,希望能够去抢占新的入口。现在呢是新场景已经有了,底层技术基本上拉平,就这么一个状态。甭管是豆包的推理模型,还是腾讯推理模型,包括DeepSeek,还有像谷歌的Gemini 2.5 Pro、GPT-4O、Claude 3.7这些模型,它们其实基本上算是拉平了。谁比谁好一些,但是并没有好出那么多去。

现在可能唯一能够明显感觉到有差距的,是Gemini 2.5 Pro。那么当新场景出现了,底层技术又基本拉平以后,剩下的就是一个字了——卷吧。这件事咱们中国人擅长,后面还要看大家怎么冲上去。

现在留给Meta的时间已经不多了,开源大模型的老大位置应该已经不是他的了。Grok的卡应该比Llama可能稍微少一些,但是XAI的卡要比Llama的新。Grok也是开源的,只是Grok没有把最新的开源出来。它现在是上一代的Grok 2要去开源,现在Grok 3出来以后,它准备把2开源出来。这个3的话可能要等到Grok 4出来以后再去开源。但是呢,你也是开源模型,而且Grok 3特别是配上AI agent以后,相当的好用。

DeepSeek在多模态和长文本上呢,还有所欠缺,但是达到可用状态,这个要比Llama4要早好几个月。所以在这一块上,Meta的开源大模型老大的位置也被动摇了。再加上可能在最近的一两周里头,千问3也要出来。现在大家使用都是千问2.5,千问3一旦下来以后的话,有可能整个开源大模型的座次……

还要再重排一次。开发独立APP对于美塔来说,应该是刻不容缓了。Meta也有计划,在4月份准备上线超级APP。

这个中间呢,还少了一步。Meta少哪一步?AI agent它没做。就甭管是deep search、deeper search或者这些东西,他都没做。而且呢,他还缺一个什么东西?就是他的function call和MCP都没有。他的模型你只能是给出提示词,然后那边生成结果。你说我在这边给一大堆的function call的描述,或者是给MCP的描述,我在生成的过程中可以调用外部数据,这个到Llama4依然没有。所以这一块,Meta稍微有些落后了。

而且现在从Meta发布的Llama4来看,它已经完全退出了小模型的竞争。最小的侦察兵109B,你没有H100跑不起来。在这一块上,阿里已经算是稳赢了。所以阿里作为AI公司,基本上已经站住脚跟了。现在其他还在做小模型的公司,一个是微软,一个是谷歌。谷歌的Gemma3现在是有各种小模型的。还有就是欧洲的Mistral,他们也有一些小模型,只是呢Mistral的声音没有那么大。

Meta呢,算是手里有卡,有数据、有用户、有钱,还有一大堆的现成的用户使用场景。必须要做的事情,是探索新的用户使用场景。如果老惦记去玩眼镜的话,那可能真的会被抛下的。AI的牛皮不能总靠卡的数量来维持下去,卡估值的逻辑正在坍塌。所以Meta必须要在卡估值逻辑坍塌之前,拿出来一个被大家可以接受的超级APP,或者说一个全新应用场景的服务,可以去跟其他的这些大模型超级APP去进行竞争。否则的话,它的故事会讲不下去的。

好,这就是今天Llama 4发出了以后的第一期视频。未来的话,Llama 4可能更进一步的功能被暴露出来,或者说大家又试出什么好玩的来,那再去录视频跟大家分享。好,这一期就讲到这里,感谢大家收听,请帮忙点赞点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.

退出移动版