开源巨头Meta深陷Llama 4作弊风波:高分低能引爆质疑,测试数据竟混入训练集,AI圈还能信任谁?
4 月 09
AIGC, Meta的故事 AI伦理, AI生成, AI评测, AI负责人辟谣, Benchmark作弊, DLIU DLIU, Llama 4, LLM, Meta, Meta AI, Meta回应, 人工智能, 作弊指控, 内部爆料, 基准测试, 大语言模型, 学术不端, 实际使用效果, 开源模型, 开源社区, 快速发布后果, 性能评估, 技术报告缺失, 数据污染, 模型蒸馏, 沃顿商学院教授, 测试集污染 (背真题), 版本不一致 (开源vs测试), 科技争议, 科技新闻, 稳定性问题, 编程能力差, 自然语言处理, 跑分作弊, 过度优化, 验证方法 开源巨头Meta深陷Llama 4作弊风波:高分低能引爆质疑,测试数据竟混入训练集,AI圈还能信任谁?已关闭评论
Meta的Llama4发布之后,深陷作弊风潮。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊,他到底是不是真的作弊了。
前面我们做过一期视频,说Llama4发布的时候没有太大的响动,因为它出来以后发现,虽然评测还不错,但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了,负面消息传出来了,说你大模型出来的时候跑分的成绩很高,但是我们使起来不是这么回事,有点名不副实的样子,特别是编程的效果极差。
为什么大家去比较编程呢?两个原因:
第一个,去玩这些开源大模型的,一般都是程序员。
第二个,编程是一个相对来说标准比较统一的评测。你编得出来编不出来,编完了效果怎么样,这个一眼就能看出来,没法作假。你说我写个诗或者写个小说,这个玩意还有仁者见仁、智者见智的时候。这编程这个东西,对就是对,不对就是不对,或者你做完了以后它的效果有问题,一眼就能看出来。所以现在被人质疑了。
当然了,国内很多大模型发出来以后也是去跑分,跑完分以后也有人质疑,但是呢,并没有那么大的声音。为什么?一般情况下好像分数稍微高那么一分两分,效果差那么一点两点,大家也就认了,不是说一定有什么大不了、过不去的事情。
但是为什么这一次质疑很多人要拿出来讲?
第一个,因为后边是Meta,是开源大模型的开山鼻祖,是个老大。你位置还在这呢,所以你干这样的坏事,我们要质疑一下。
另外一个呢,就是这一次提出了两项非常严重的质疑。这种质疑呢,有的时候说“哎,这个跑的不是特别准”,这个不是特别严重。什么质疑是比较严重的?
第一个是开源版本跟测试版本不一致。你自己测的跑分,那个版本你没拿出来。你出来说你开源了,但是呢,这个开源的版本比你测试的版本差。这是一个相对来说比较严重的指控。
当然还有一个更严重的是什么呢?就是数据作弊。什么叫数据作弊?大家要知道,所有这些大模型去进行跑分测试,它是有题库的。我是用什么什么样的题库去测,测到多少分以上,它是这样来做的。那怎么能够让它测得更高呢?咱们都懂,背真题呗。像国内你去考什么雅思、托福,或者去考ACT、SAT什么这些东西,他就是背真题。大模型其实也是一样的。
现在指控他把测试数据直接混在了训练数据里头,给他训练掉了。那么这个是非常非常严重的指控,因为你一旦这样的话,他等于是在学术不端,或者说你整个的品性是有问题的。
Llama 4呢,其实一共有三个版本。现在公开出来的呢,是中型版本和小型版本两个:一个是400B的,一个是105还是幺零几B的。最大的那个没出来,2万亿参数,也就是2,000多B的那个没有出来。那么,它这种中小模型呢,应该是蒸馏出来的,就是拿那个最大版本蒸馏出来。
现在出问题呢,就有两种可能。第一种可能是什么呢?就是他去跑分的时候,可能拿这个大模型去跑,或者呢,他训练了一个比现在的中模型和小模型要再大一些的模型,拿这个玩意去跑分了。但是,最后开放出来的模型并没有这么厉害。还有一种可能是什么?就是他在蒸馏的时候,直接把题库混在蒸馏数据里头,拿去做训练了,就直接背真题了。这是两种可能性。
而且呢,现在还有匿名爆料。有一个人号称是Meta内部的员工,说我爆料了,他就是用题库数据直接训练了。这个人呢,在Twitter上的账号叫滴溜滴溜,开个玩笑,他的名字叫DLIU DLIU,所以叫滴溜滴溜。这个人呢,说使用了数据作弊的方式进行训练,我很不齿这种行为,还因此辞职,而且拒绝署名技术报告。大家注意,这里有一个很重要的点,叫拒绝署名技术报告。
Meta在这一次发布的时候,跟前面Llama 123其实有很大的区别。区别在什么地方?就是他只发布了模型出来,然后发了个博客出来,并没有发论文,没有发白皮书,这些东西都没出来。那现在就有人说了,说这个技术报告我拒绝签字,所以他发不出来,讲了这么个话。而且这个人呢,前面讲的是匿名。
另外一点是什么?就是Meta AI研究副总裁,这个名字我们就不念了,已经申请于2025年5月份离职。但是呢,并不确定这个Meta AI研究副总裁到底是不是这个提溜提溜,也没法确认他离职这个事情跟Llama 4是不是有关。所以,并不确定这到底是不是爆料人了。
然后,除了他内部爆料之外,还有外部的质疑声音。比如,沃顿商学院的一位教授,这个名字我们也不念了,在评论中指出,AI模型的优化痕迹明显可辨,Llama 4似乎针对基准测试进行了过度调整,而非真正的技术进步。他们甚至做了很多测试以后发现,这东西可能连Llama 3.3什么405B连那个都达不到。这种质疑是非常严重的质疑。
针对这些质疑,Meta内部肯定说要出来辟谣。如果这事认了,那就不是说有一个人辞职就完事了,可能会有一帮人要被开除掉。而且这种一旦开除了的话,在圈子里名声就臭了,再去干这个事干不了了。
Meta的AI负责人埃哈迈德应该是个穆斯林。他是VP,AI生成这块的负责人。他出来明确否认了作弊指控。他表示:“我们听到了一些关于我们训练时使用测试集的指控,这根本不是真的,我们永远不会这么做。我们目前的理解是,大家看到的质量不稳定是由于快速发布导致的时限问题,需要几天时间来稳定所有的公开时限。”
这个老兄原来呢是苹果做自动驾驶的,是苹果汽车部门的一位负责AI的科学家吧。后来进入Meta,在Meta里面干了几年以后,生成了Meta的AI生成部门的老大。数据作弊这个实在是太严重了,绝对不能承认。所以前面讲了,说这个事不可能的,我们永远都不会做。而且也要甩锅,甩锅是什么呢?快速发布,肯定有人逼着我快速发布。谁逼着我快速发布,导致我现在没有办法把最稳定的版本拿出来。这个问题是你的,不是我的,这个锅要甩。
然后他讲的是一个什么呢?原因呢就是说这个是一个实现的问题。我们拿这个大模型去蒸馏小模型,他并没有说作弊。他讲的这个词叫不稳定,什么叫不稳定?就是有时候好有时候不好。这个话很重要,因为我们后边如何去验证他到底是不是作弊了,就要从这个点去验证他。他还讲了一个什么呢?我会在未来的几天的时间内(大家注意几天),会拿出一个稳定的实现出来。然后内部呢,也有一些员工出来实名辟谣,说我们没有作弊。前面那个你说我作弊的人,咱们来当面对质。
那么到底有没有作弊呢?这个事其实并不难验证。现在呢,有3种可能性,这三种可能性呢都可以验证。第一种可能性是什么?就是参加跑分跟测试的版本与对外发布的版本不一致。这种可能性呢是比较大的,内部呢使用了一个作弊的版本做的这个跑分测试,然后发出来的是一个没有用这些数据去训练的版本,这个可能是存在的。
还有一种可能是什么?就是像这个艾哈迈德讲的这样的,就是说他可能是不稳定。那不稳定呢其实是什么?就是你多次跑分,跑了好多次,然后取了一最好的成绩,或者干脆就是我给你一假的跑分成绩,这个可能性也是存在的。
第三种可能呢就是直接数据作弊。我给了大家一个用测试训练集训练出来的蒸馏的中模型和小模型。这个是三种可能。那你说我怎么验证这件事呢?很简单,用现在发出来这个版本再去跑分呗。如果你跑完了以后能够复现原来的成绩,比如说他原来发了博客了,说我这个大模型应该是什么什么样的成绩,排名是多少,然后是多少分,我接着跑呗。如果跑完了还是这么多分。
那你就是作弊做出来的,没什么好说的。如果你说,我跑完了以后不是那分了,怎么跑也跑不出来了,那就是你内部有作弊版本。我外边拿的这个版本是没有作弊的,但是你那个跑分数据也是假的。那么如果我拿出来去跑分,跑分的成绩呢非常不稳定,时高时低。有个别的时候,能够高到你公布的这个数据来,那就是这个艾哈迈德讲的,就是我发出了这个版本,它很不稳定。他实际上就是这样去测试了。
Meta辟谣的信息在什么样的情况下,才有可能是真实的?那你刚才不是讲了吗,就是你测试时高时低。这个可以这么去算,但是还要看什么?还要看刚才都讲了,未来几天我会发一个稳定的版本出来,或者叫稳定的实现出来。他用的这个词是实现,为什么这么讲?因为他这个中模型跟这个小模型,都是拿那个大模型直接蒸馏出来的。如果几天之后他真拿出来了,而且新拿出来的这个实现,是可以稳定的跑分,跑到他承诺的这个数据上的,那么这件事呢才算是说验证了。你们确实没有说谎,你也确实把东西做出来了。如果在这几天之内他拿不出来,或者拿出来这个版本跑分很烂,那么这个事情还是要算他作弊。而且他是有很大问题的,因为开放的版本你是抹不掉的。你说我这前面这个版本有问题,我把它回收出来,那没有,回收不回去的。即使后续开放出新的版本来,我们依然可以拿它前面的版本接着做测试。所以它到底有没有作弊,到底是作弊到哪一步,这个事都是可以验证的。自己说的话到底是不是真的,我们要等他过几天发的版本出来,咱们再去做测试。而且这个就不能等他测了,一定是外边社会上来测。测完了以后看看能不能稳定的达到一个可以接受的分数,这个才是能够让它整个的辟谣成立的一个过程。
而且从现在发出来的信息看呢,前面发行的版本在特定的测试中应该是成绩还不错的。但是在其他的领域里头,或者整体的应用过程中表现很差。这件事情呢应该基本实锤了。为什么?就是沃顿商学院的那个教授给出的结论其实就是这样。他讲的是什么?讲的是AI模型的优化痕迹明显可辨,Llama 4似乎对基准测试进行了过度调整,而非真正的技术进步。就是Llama 4现在给出的版本,进行特定的这种跑分的时候,还是可以跑出一个很高的分数来的。所以呢,这就是最糟糕的一个状态,就是他直接把一个用测试数据训练出来的这个作弊版本公开出来了。现在可能性比较大的是这个。
那么Meta有没有办法快速补救呢?现在肯定是准备快速补救嘛。第一个要去发技术文档。
前面Llama 123发布的时候,都是有论文、白皮书,还有一些微调的说明书,有一大堆这样的技术文档出来。这一次没给,那么你赶快要把这些东西补齐了,甭管是有没有人签字,还是要发出来的。
第二个就是尽快发新版本出来。如果想洗脱冤屈,一定要赶快,比如几天之内或者一周之内吧,把一个新版本发出来。发完了以后再去跑分测试,这个跑分还要能够稳定在一个大家可以接受的范围内。你别说发一版本出来,发现一跑分还不如Llama 3呢,这个事就丢人了,这肯定是不行的。这个还是要去看。
这种尽快发新版本这件事呢,其实难度是非常高的。为什么?因为大模型这个东西,它不是软件。大模型没法修修补补,你只能是拿一堆训练集重新训练,而这个过程其实是挺慢的。而且每一次训练完了以后的结果呢,他没有办法进行这种迭代更新,或者说迭代调优。这话什么意思?就是我们写软件的时候,你是有一大堆的参数指标,每一次改一点点,发现提高了一点,再改变再提高一点,它是可以干这件事的。
而大模型这种东西,你还是需要把完整的数据扔进去,然后去训练。训练完了以后,其实有点像开盲盒,有的时候行,有时候不行,不行也没有什么道理可讲。你只能是重新去整理和收集数据,然后重新训练。所以这个过程呢,没有那么快。这个也确实是对于Meta来说是一个很巨大的考验吧。
那你说有什么方法可以提高速度呢?就是投入更大的算力,上显卡。现在呢,Meta也承诺了,说我要放10倍的显卡进去,然后快速的出版本出来。这个呃,不是那么容易的,就是你真的有10倍的显卡放进去以后,你想要协调这十倍的显卡稳定的工作,这也是一个巨大的工程考验,没有那么容易。
Meta呢还承诺在2025年,会进一步的发布更多的模型出来。如果过几天大家不再找他要,说你前面那个承诺几天之后发这个模型没出来,或者出来的不好使,他也准备唾面自干了,说我今年接着准备发很多的模型出来。而且呢,这些模型呢,我准备提升语音以及推理的能力,因为现在的Llama 4不是推理模型,它就是一个文本生成模型。他准备在这一块再加强一些,也会呢推出一些商业应用场景的AI agent。因为别人现在也都已经开始卷这一块了,他还在发布原始的这种文本生成模型,这个真的是慢了两三拍了。所以说我这2025年还要接着往前跑。
那么结论是什么呢?结论就是,让子弹呢再稍微再飞一会。大概率呢,他们就是直接拿了作弊的模型出来,因为有人验证过了。
会有人再去做问题的复现,因为现在他已经站在风口浪尖上了,所以一定还会有人再去复现。这个过程盖子是捂不住的。
而且这个事情出来以后,后面比如说千问再去出3.0模型的时候,也会引以为戒,不敢再随便地在跑分的时候作弊。下一个模型出来,甭管是Llama 4的下一个模型,比如Llama 4.1,还是千问3出来,大家一定会更加谨慎地评测之后再拿出来。
“萝卜急了不洗泥”,我催你必须在哪天哪天把东西拿出来,这个事情应该是没有人敢干了。因为现在艾哈迈德说了:“我这一次翻车的原因,就是有人催着我必须在4月初把模型拿出来。”为什么必须在4月初?因为他再拿不出来,可能千问3就出来了,所以必须在这个时间点把他拿出来。他又没有进行很好的测试,就导致翻车,导致这种作弊被人抓了个现行。
所以科学这个事,还是要讲究科学方法的,太着急了是做不出来的。
好,这一个故事咱们就讲到这里。咱们也继续关注后续如何发展。这个故事就讲到这。请帮忙点赞、点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。