Llama 4悄然发布震撼不足?对比DeepSeek与千问,Meta的MOE架构和千万级上下文能否挽回开源领导地位,避免被超级APP浪潮抛弃?
4 月 07
AIGC 1000万Token上下文, 400B, AI Agent, AI应用场景, AI新闻, AI未来发展, AI模型发布, AI竞赛, AI算力, Claude 3.7, DeepSeek, FP8精度, Function Call, Gemini 2.5 Pro, GPT-4o, Grok (XAI), H100 GPU, INT4量化, Llama 3, Llama 4, Llama 4 Behemoth, Llama 4 MARVELIC, Llama 4 Scout, Llama 4发布反响平淡原因, LLM, Meta AI, Meta战略, Mixture of Experts, MOE架构, 专家模块, 中文能力提升, 人工智能, 全模态AI进展, 千问 (Qwen), 卡估值, 多模态输入, 大语言模型, 字节AI, 小模型竞争, 开源LLM对比, 开源模型, 开源模型内卷, 开源社区, 推理速度, 文本输出, 模型微调, 模型性能比较, 模型测评, 模型训练, 活跃参数, 流量入口, 知识蒸馏, 硬件要求, 端到端模型, 腾讯AI, 谷歌AI, 超级APP趋势, 长上下文, 阿里AI Llama 4悄然发布震撼不足?对比DeepSeek与千问,Meta的MOE架构和千万级上下文能否挽回开源领导地位,避免被超级APP浪潮抛弃?已关闭评论
Llama4发布了。这里的黎明静悄悄,没有什么响动。这是怎么回事?
大家好,欢迎收听老范讲故事的YouTube频道。一觉醒来,Llama4就发布了。扎克伯格亲自在Facebook的REELS(也就是Facebook的短视频里面)发了一条视频,说Llama4发布了,今天是Llama4日。
Llama4呢,一共是有三个版本:
第一个叫Scout(侦察兵版本),总参数1,090亿(也就是109B),活跃参数是170亿,包含16个专家模块。对的,Llama终于也放弃抵抗了,从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型,Llama3.3还给了一个400多B的单一模型,到Llama4彻底放弃抵抗了。
现在呢,支持1,000万TOKEN这种上下文,这个是Llama4最大的一个特点。DeepSeek是64K(也就是64,000个TOKEN上下文),现在上下文比较大的Gemini大概是能到2兆(200万),Llama4直接给了一个10兆(1,000万TOKEN),这是它做的一个很创新的点。
1,000万TOKEN的上下文可以干嘛?可以处理20小时以上的视频或者超长文档,是行业领先的长上下文技术。采用了混合专家模型(也就是MOE架构),在INT4量化后,可以在单个的H100 GPU上运行,每秒处理42,400个TOKEN,还是速度比较快的。但是要注意,即使经过量化到Intel4上,它也必须要有H100,否则跑不起来这东西。所以咱们普通的电脑就别惦记了,最小的模型就是它了,没有更小的了。
所以这一次Llama4的发布,并不像以前的Llama1、Llama2、Llama3似的,把各个尺寸的模型都做出来(从7b、14b、72b、32b什么这些都做一遍),没有,上来最小的一个就是109B。它可以支持文本、图像、音频、视频的输入,目前呢只支持文本的输出,未来应该会出现全模态输出的版本。这是它最小的一个侦察兵。
中间的模型呢叫MARVELIC(独行侠),总参数量400B,活跃参数量17B,包含128个专家模块。它的专家模块变多了,超越GPT4O、DeepSeek V3,仅次于闭源模型Gemini2.5 Pro。Gemini2.5 Pro现在还是最强的,没有之一。在编程和数学任务中,仅用DeepSeek V3一半的参数即可达到相当的性能,但是你上再多参数也就这水平了。
所以,它在数学跟编程角度上来说,跟DeepSeek V3应该是半斤八两,只是它的运算效率要更高一些。最大的一个叫Behemoth(巨兽),总参数量2000B,活跃参数量288B,包含16个专家模块,使用30万亿多模态TOKEN(就是文本、图像、视频),在32K(也就是32,000个GPU)上训练,FP8精度,提升效率。所以,你有足够的显卡才可以玩这件事情——32,000块显卡。Deepseek到现在为止,都没有承认它有这么多块显卡。所以,这种巨兽,国内追赶起来是比较费劲的。
只是呢,这一个产品目前并没有发布出来,前面两个发布了,这个应该是在2025年的下半年发布。这个巨兽在数学、科学等基准测试中,超越了GPT 4.5、Claude sonnet 3.7和Gemini2.0 Pro。但是是不是超越了2.5 Pro,我现在没有看到相应的介绍。它呢,主要的作用是作为教师模型,用于知识蒸馏——就是我做一最大的,然后下边这些小的模型、中型的模型,都是拿这个最大的进行蒸馏,蒸馏出来的。现在呢,它也转向了MOE,性能有所提升,但是呢并没有那么明显。最大的特点就是1,000万输入,这个是Llama4做的最不一样的一个点。
目前呢,支持全模态输入、文字输出;未来呢,会支持全模态输出,就是端到端的全模态输出。你甚至可以跟它去直接聊天,还可以打断它,就像现在的GPT4O高级语音功能一样。但是这个什么时候出来还不确定。如果能够有全模态输出的话,还是值得期待一下的。未来的方向一定是全模态、端到端的输入输出,现在新的模型都在向这个方向走。
那么,为什么没有什么声音讨论它呢?Llama1出来的时候,整个的行业都震动了——这样程度的一个模型一下就开源了,大家都可以拿来去研究了。Llama2出来一看,又可以往前走一步。其实Llama1跟GPT3.5还是有差距的,到Llama2出来以后说“哎,可以用了”,进行一些微调以后,就真的可以去解决一些ToB的,或者说使用范围相对比较集中的应用,就可以直接用起来了。我记得是在两年前,就很多国内的项目就在微调Llama。等到Llama3出来的时候说,这个虽然达不到GPT4的水平,但是已经很接近了,大家拿这个东西去稍微调一调,就可以跑了。
在Llama3出来以后的话,千问就开始疯狂的去输出各种各样尺寸的模型,就是千问2.0、千问2.5,这一批就直接追赶上来了。但是到Llama4出来,大家没说什么。
这到底是什么样的一个情况?我呢,第一时间还上去试了一下。现在你到Open Router这个网站上,你是可以进行测试的,而且是免费的。侦察兵版和独行侠版都可以使用,也有收费的版本。收费版本就是比免费的版本稍微快一点点,主观感受上没有特别大的差异。
那你说真的没有什么提升吗?这个肯定不对。它呢,跟现在的GPT-4O、Gemini 2.5、Claude 3.7这种主流模型比起来,确实没有什么提升。哈哈,这个基本上跟他们算站在同一个起跑线上,可能跟Gemini 2.5还稍微的差一点。Gemini 2.5不太友好的地方就是它比较慢,现在的Llama 4是很快的。但是呢,这个Llama 4比Llama 3、3.1、3.2、3.3这些版本还是有巨大提升的,特别是在中文这一块,效果好了非常非常多。大家可以去试一试,就完全可以达到能用的状态了。这个原来在Llama 3的水平上还是达不到的。
那么为什么不觉得震撼了呢?原来Llama虽然和闭源模型比起来稍有差距,但是呢,毕竟你是开源的吧,开源圈里的扛把子。现在的开源模型也卷起来了,DeepSeek绝对达到了可用程度,千问现在也绝对在数量上碾压。怎么叫数量上碾压?就是千问的模型是数量非常大呀,零点几B,然后到4B、7B、14B、32B、34B,多模态的推理的全都有。这块非常非常完善,而且有非常多的人在以千问模型为基础进行微调。因为你要到手机上,或者到一些嵌入式设备上去进行操控的话,你拿千问这种小模型微调是很方便的。给你一个105B的模型,你拿去微调的话,这个就有点费劲了。所以现在你到Hugging Face上去看,最受欢迎的开源模型基本上都是千问或者是千问系的。
所以从数量上,千问绝对赶超Llama。从能用程度上说,DeepSeek比它早发布了几个月,已经达到完全可用的一个状态了。现在Llama 4再拿出来,并没有划时代的提升。同样作为开源版本的大模型,他就没有那么震撼,已经有审美疲劳了。当然了,Llama 4出来,应该大家还是会去抄的。这Llama 1、Llama 2、Llama 3出来以后,实际上对至少国内的大模型产业都是有极强的促进作用的。Llama 4出来呢,应该也是有这种意义。千问和DeepSeek应该会尝试使用这种超长上下文的技术,因为它是1,000万TOKEN嘛。所以这一块至少千问应该会去追赶一下,DeepSeek的话……
现在到底在忙什么?不确定。当然,DeepSeek呢,应该也会在多模态上奋起直追。只是奋起直追多莫泰这个事呢,对于卡的数量是一个考验。DeepSeek前面一直说我没有那么多卡,看看后边这个话怎么把它说圆回来吧。
那么现在大模型到底在卷什么?大模型最终有可能还是会走向超级APP的道路。好像现在各大厂商依然在尝试卷超级APP,而且超级APP才是流量入口的一个锚点。你没有流量入口的话,你的模型做的再好,其实没有什么意义。这件事情上,以谷歌和Meta作为反面典型,大家看一看。谷歌的大模型其实一直做的还可以的,只是呢它的入口做的比较烂,大家就一直用的比较少。谷歌每一次出新的大模型,先给程序员用,他自己telegram内部用户,甭管是付费的还是免费的,都要很晚才能接触到他们最新的模型。而Meta,Llama做到现在了,做的这么热闹,Meta的用户,甭管是Facebook用户、Instagram用户,其实并没有感觉有特别大的体验上的提升。这个是两个典型案例。
这里还有一个正面案例,谁啊?就是马斯克的Xa i 1,一做出来以后,第一件事在x平台上,直接给了一个最核心的入口,直接给了一个Grok的入口,你一点就可以进去聊天去了。现在ChatGPT呢已经是超级APP了,Claude呢应该也接近成为超级APP了。谷歌呢算突然惊醒,ChatGPT 2.5 Pro上来以后,直接把Gemini客户端的经理给干掉了,把Notebook LM的负责人拎回来,你去给大家继续去做Gemini客户端去。这个Notebook LM是用户所喜欢的,Gemini被人骂了这么久了,我们要换一换了。而且Gemini 2.5 Pro一上来,就直接给Gemini的免费用户就开放了。所以谷歌已经醒过味了,说我们要换一个姿势了。
现在呢卷王们已经下场了。阿里还在内斗,千问跟夸克还要在内部做一次赛马。腾讯的元宝已经开始疯狂砸钱了。现在的进展到什么样的一个状态了?就这些超级APP都是带有搜索、知识库和靠谱推理的一个结果生成。目前我们现在看到的所有的超级APP,或者叫AI方面的超级APP,基本上都是在这个起跑线上。语音端到端呢,OpenAI做了,Claude我不确定做没做,好像没有。Grok英文的部分已经有了,中文的部分没有。豆包已经做出来了,千问和夸克现在正在奋起直追,腾讯的元宝也还在努力的往前走。
DeepSeek在这一块做的稍微有点拉胯。它的语音部分和图屏的部分,就是多模态的部分,稍微差那么一点点。再往后就是图片、视频、音频的理解和生成。现在这些呃超级APP,OpenAI是完全可以实现图片理解、图片生成,甚至是视频生成,这些功能都是完整的。谷歌其实它的功能都做出来了,但是Gemini里头好多没接,这块还要再奋起直追一下。
阿里的千问还有像夸克,包括字节的豆包,在这一块已经都做了图片理解、图片生成,包括修图改图,包括一些视频生成,现在他们都已经做出来了。其他的还在奋起直追。全新的形态是无法跟传统的形态进行有机结合的,或者结合起来比较费劲。现在唯一结合成功,或者大家感觉还比较顺眼的,就是x集合XAI,而且两个公司还合并了。
其他公司都是尝试在传统的产品形态之外,寻找新的应用形态,或者新的用户使用形态。所以都是做的独立的APP,甭管是腾讯、阿里还是谷歌,或者是字节,都是做出独立APP来,希望能够去抢占新的入口。现在呢是新场景已经有了,底层技术基本上拉平,就这么一个状态。甭管是豆包的推理模型,还是腾讯推理模型,包括DeepSeek,还有像谷歌的Gemini 2.5 Pro、GPT-4O、Claude 3.7这些模型,它们其实基本上算是拉平了。谁比谁好一些,但是并没有好出那么多去。
现在可能唯一能够明显感觉到有差距的,是Gemini 2.5 Pro。那么当新场景出现了,底层技术又基本拉平以后,剩下的就是一个字了——卷吧。这件事咱们中国人擅长,后面还要看大家怎么冲上去。
现在留给Meta的时间已经不多了,开源大模型的老大位置应该已经不是他的了。Grok的卡应该比Llama可能稍微少一些,但是XAI的卡要比Llama的新。Grok也是开源的,只是Grok没有把最新的开源出来。它现在是上一代的Grok 2要去开源,现在Grok 3出来以后,它准备把2开源出来。这个3的话可能要等到Grok 4出来以后再去开源。但是呢,你也是开源模型,而且Grok 3特别是配上AI agent以后,相当的好用。
DeepSeek在多模态和长文本上呢,还有所欠缺,但是达到可用状态,这个要比Llama4要早好几个月。所以在这一块上,Meta的开源大模型老大的位置也被动摇了。再加上可能在最近的一两周里头,千问3也要出来。现在大家使用都是千问2.5,千问3一旦下来以后的话,有可能整个开源大模型的座次……
还要再重排一次。开发独立APP对于美塔来说,应该是刻不容缓了。Meta也有计划,在4月份准备上线超级APP。
这个中间呢,还少了一步。Meta少哪一步?AI agent它没做。就甭管是deep search、deeper search或者这些东西,他都没做。而且呢,他还缺一个什么东西?就是他的function call和MCP都没有。他的模型你只能是给出提示词,然后那边生成结果。你说我在这边给一大堆的function call的描述,或者是给MCP的描述,我在生成的过程中可以调用外部数据,这个到Llama4依然没有。所以这一块,Meta稍微有些落后了。
而且现在从Meta发布的Llama4来看,它已经完全退出了小模型的竞争。最小的侦察兵109B,你没有H100跑不起来。在这一块上,阿里已经算是稳赢了。所以阿里作为AI公司,基本上已经站住脚跟了。现在其他还在做小模型的公司,一个是微软,一个是谷歌。谷歌的Gemma3现在是有各种小模型的。还有就是欧洲的Mistral,他们也有一些小模型,只是呢Mistral的声音没有那么大。
Meta呢,算是手里有卡,有数据、有用户、有钱,还有一大堆的现成的用户使用场景。必须要做的事情,是探索新的用户使用场景。如果老惦记去玩眼镜的话,那可能真的会被抛下的。AI的牛皮不能总靠卡的数量来维持下去,卡估值的逻辑正在坍塌。所以Meta必须要在卡估值逻辑坍塌之前,拿出来一个被大家可以接受的超级APP,或者说一个全新应用场景的服务,可以去跟其他的这些大模型超级APP去进行竞争。否则的话,它的故事会讲不下去的。
好,这就是今天Llama 4发出了以后的第一期视频。未来的话,Llama 4可能更进一步的功能被暴露出来,或者说大家又试出什么好玩的来,那再去录视频跟大家分享。好,这一期就讲到这里,感谢大家收听,请帮忙点赞点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。