开源巨头Meta深陷Llama 4作弊风波:高分低能引爆质疑,测试数据竟混入训练集,AI圈还能信任谁?

开源巨头Meta深陷Llama 4作弊风波:高分低能引爆质疑,测试数据竟混入训练集,AI圈还能信任谁?已关闭评论

开源巨头Meta深陷Llama 4作弊风波:高分低能引爆质疑,测试数据竟混入训练集,AI圈还能信任谁?

Meta的Llama4发布之后,深陷作弊风潮。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊,他到底是不是真的作弊了。

前面我们做过一期视频,说Llama4发布的时候没有太大的响动,因为它出来以后发现,虽然评测还不错,但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了,负面消息传出来了,说你大模型出来的时候跑分的成绩很高,但是我们使起来不是这么回事,有点名不副实的样子,特别是编程的效果极差。

为什么大家去比较编程呢?两个原因:
第一个,去玩这些开源大模型的,一般都是程序员。
第二个,编程是一个相对来说标准比较统一的评测。你编得出来编不出来,编完了效果怎么样,这个一眼就能看出来,没法作假。你说我写个诗或者写个小说,这个玩意还有仁者见仁、智者见智的时候。这编程这个东西,对就是对,不对就是不对,或者你做完了以后它的效果有问题,一眼就能看出来。所以现在被人质疑了。

当然了,国内很多大模型发出来以后也是去跑分,跑完分以后也有人质疑,但是呢,并没有那么大的声音。为什么?一般情况下好像分数稍微高那么一分两分,效果差那么一点两点,大家也就认了,不是说一定有什么大不了、过不去的事情。

但是为什么这一次质疑很多人要拿出来讲?
第一个,因为后边是Meta,是开源大模型的开山鼻祖,是个老大。你位置还在这呢,所以你干这样的坏事,我们要质疑一下。
另外一个呢,就是这一次提出了两项非常严重的质疑。这种质疑呢,有的时候说“哎,这个跑的不是特别准”,这个不是特别严重。什么质疑是比较严重的?

第一个是开源版本跟测试版本不一致。你自己测的跑分,那个版本你没拿出来。你出来说你开源了,但是呢,这个开源的版本比你测试的版本差。这是一个相对来说比较严重的指控。

当然还有一个更严重的是什么呢?就是数据作弊。什么叫数据作弊?大家要知道,所有这些大模型去进行跑分测试,它是有题库的。我是用什么什么样的题库去测,测到多少分以上,它是这样来做的。那怎么能够让它测得更高呢?咱们都懂,背真题呗。像国内你去考什么雅思、托福,或者去考ACT、SAT什么这些东西,他就是背真题。大模型其实也是一样的。

现在指控他把测试数据直接混在了训练数据里头,给他训练掉了。那么这个是非常非常严重的指控,因为你一旦这样的话,他等于是在学术不端,或者说你整个的品性是有问题的。

Llama 4呢,其实一共有三个版本。现在公开出来的呢,是中型版本和小型版本两个:一个是400B的,一个是105还是幺零几B的。最大的那个没出来,2万亿参数,也就是2,000多B的那个没有出来。那么,它这种中小模型呢,应该是蒸馏出来的,就是拿那个最大版本蒸馏出来。

现在出问题呢,就有两种可能。第一种可能是什么呢?就是他去跑分的时候,可能拿这个大模型去跑,或者呢,他训练了一个比现在的中模型和小模型要再大一些的模型,拿这个玩意去跑分了。但是,最后开放出来的模型并没有这么厉害。还有一种可能是什么?就是他在蒸馏的时候,直接把题库混在蒸馏数据里头,拿去做训练了,就直接背真题了。这是两种可能性。

而且呢,现在还有匿名爆料。有一个人号称是Meta内部的员工,说我爆料了,他就是用题库数据直接训练了。这个人呢,在Twitter上的账号叫滴溜滴溜,开个玩笑,他的名字叫DLIU DLIU,所以叫滴溜滴溜。这个人呢,说使用了数据作弊的方式进行训练,我很不齿这种行为,还因此辞职,而且拒绝署名技术报告。大家注意,这里有一个很重要的点,叫拒绝署名技术报告。

Meta在这一次发布的时候,跟前面Llama 123其实有很大的区别。区别在什么地方?就是他只发布了模型出来,然后发了个博客出来,并没有发论文,没有发白皮书,这些东西都没出来。那现在就有人说了,说这个技术报告我拒绝签字,所以他发不出来,讲了这么个话。而且这个人呢,前面讲的是匿名。

另外一点是什么?就是Meta AI研究副总裁,这个名字我们就不念了,已经申请于2025年5月份离职。但是呢,并不确定这个Meta AI研究副总裁到底是不是这个提溜提溜,也没法确认他离职这个事情跟Llama 4是不是有关。所以,并不确定这到底是不是爆料人了。

然后,除了他内部爆料之外,还有外部的质疑声音。比如,沃顿商学院的一位教授,这个名字我们也不念了,在评论中指出,AI模型的优化痕迹明显可辨,Llama 4似乎针对基准测试进行了过度调整,而非真正的技术进步。他们甚至做了很多测试以后发现,这东西可能连Llama 3.3什么405B连那个都达不到。这种质疑是非常严重的质疑。

针对这些质疑,Meta内部肯定说要出来辟谣。如果这事认了,那就不是说有一个人辞职就完事了,可能会有一帮人要被开除掉。而且这种一旦开除了的话,在圈子里名声就臭了,再去干这个事干不了了。

Meta的AI负责人埃哈迈德应该是个穆斯林。他是VP,AI生成这块的负责人。他出来明确否认了作弊指控。他表示:“我们听到了一些关于我们训练时使用测试集的指控,这根本不是真的,我们永远不会这么做。我们目前的理解是,大家看到的质量不稳定是由于快速发布导致的时限问题,需要几天时间来稳定所有的公开时限。”

这个老兄原来呢是苹果做自动驾驶的,是苹果汽车部门的一位负责AI的科学家吧。后来进入Meta,在Meta里面干了几年以后,生成了Meta的AI生成部门的老大。数据作弊这个实在是太严重了,绝对不能承认。所以前面讲了,说这个事不可能的,我们永远都不会做。而且也要甩锅,甩锅是什么呢?快速发布,肯定有人逼着我快速发布。谁逼着我快速发布,导致我现在没有办法把最稳定的版本拿出来。这个问题是你的,不是我的,这个锅要甩。

然后他讲的是一个什么呢?原因呢就是说这个是一个实现的问题。我们拿这个大模型去蒸馏小模型,他并没有说作弊。他讲的这个词叫不稳定,什么叫不稳定?就是有时候好有时候不好。这个话很重要,因为我们后边如何去验证他到底是不是作弊了,就要从这个点去验证他。他还讲了一个什么呢?我会在未来的几天的时间内(大家注意几天),会拿出一个稳定的实现出来。然后内部呢,也有一些员工出来实名辟谣,说我们没有作弊。前面那个你说我作弊的人,咱们来当面对质。

那么到底有没有作弊呢?这个事其实并不难验证。现在呢,有3种可能性,这三种可能性呢都可以验证。第一种可能性是什么?就是参加跑分跟测试的版本与对外发布的版本不一致。这种可能性呢是比较大的,内部呢使用了一个作弊的版本做的这个跑分测试,然后发出来的是一个没有用这些数据去训练的版本,这个可能是存在的。

还有一种可能是什么?就是像这个艾哈迈德讲的这样的,就是说他可能是不稳定。那不稳定呢其实是什么?就是你多次跑分,跑了好多次,然后取了一最好的成绩,或者干脆就是我给你一假的跑分成绩,这个可能性也是存在的。

第三种可能呢就是直接数据作弊。我给了大家一个用测试训练集训练出来的蒸馏的中模型和小模型。这个是三种可能。那你说我怎么验证这件事呢?很简单,用现在发出来这个版本再去跑分呗。如果你跑完了以后能够复现原来的成绩,比如说他原来发了博客了,说我这个大模型应该是什么什么样的成绩,排名是多少,然后是多少分,我接着跑呗。如果跑完了还是这么多分。

那你就是作弊做出来的,没什么好说的。如果你说,我跑完了以后不是那分了,怎么跑也跑不出来了,那就是你内部有作弊版本。我外边拿的这个版本是没有作弊的,但是你那个跑分数据也是假的。那么如果我拿出来去跑分,跑分的成绩呢非常不稳定,时高时低。有个别的时候,能够高到你公布的这个数据来,那就是这个艾哈迈德讲的,就是我发出了这个版本,它很不稳定。他实际上就是这样去测试了。

Meta辟谣的信息在什么样的情况下,才有可能是真实的?那你刚才不是讲了吗,就是你测试时高时低。这个可以这么去算,但是还要看什么?还要看刚才都讲了,未来几天我会发一个稳定的版本出来,或者叫稳定的实现出来。他用的这个词是实现,为什么这么讲?因为他这个中模型跟这个小模型,都是拿那个大模型直接蒸馏出来的。如果几天之后他真拿出来了,而且新拿出来的这个实现,是可以稳定的跑分,跑到他承诺的这个数据上的,那么这件事呢才算是说验证了。你们确实没有说谎,你也确实把东西做出来了。如果在这几天之内他拿不出来,或者拿出来这个版本跑分很烂,那么这个事情还是要算他作弊。而且他是有很大问题的,因为开放的版本你是抹不掉的。你说我这前面这个版本有问题,我把它回收出来,那没有,回收不回去的。即使后续开放出新的版本来,我们依然可以拿它前面的版本接着做测试。所以它到底有没有作弊,到底是作弊到哪一步,这个事都是可以验证的。自己说的话到底是不是真的,我们要等他过几天发的版本出来,咱们再去做测试。而且这个就不能等他测了,一定是外边社会上来测。测完了以后看看能不能稳定的达到一个可以接受的分数,这个才是能够让它整个的辟谣成立的一个过程。

而且从现在发出来的信息看呢,前面发行的版本在特定的测试中应该是成绩还不错的。但是在其他的领域里头,或者整体的应用过程中表现很差。这件事情呢应该基本实锤了。为什么?就是沃顿商学院的那个教授给出的结论其实就是这样。他讲的是什么?讲的是AI模型的优化痕迹明显可辨,Llama 4似乎对基准测试进行了过度调整,而非真正的技术进步。就是Llama 4现在给出的版本,进行特定的这种跑分的时候,还是可以跑出一个很高的分数来的。所以呢,这就是最糟糕的一个状态,就是他直接把一个用测试数据训练出来的这个作弊版本公开出来了。现在可能性比较大的是这个。

那么Meta有没有办法快速补救呢?现在肯定是准备快速补救嘛。第一个要去发技术文档。

前面Llama 123发布的时候,都是有论文、白皮书,还有一些微调的说明书,有一大堆这样的技术文档出来。这一次没给,那么你赶快要把这些东西补齐了,甭管是有没有人签字,还是要发出来的。

第二个就是尽快发新版本出来。如果想洗脱冤屈,一定要赶快,比如几天之内或者一周之内吧,把一个新版本发出来。发完了以后再去跑分测试,这个跑分还要能够稳定在一个大家可以接受的范围内。你别说发一版本出来,发现一跑分还不如Llama 3呢,这个事就丢人了,这肯定是不行的。这个还是要去看。

这种尽快发新版本这件事呢,其实难度是非常高的。为什么?因为大模型这个东西,它不是软件。大模型没法修修补补,你只能是拿一堆训练集重新训练,而这个过程其实是挺慢的。而且每一次训练完了以后的结果呢,他没有办法进行这种迭代更新,或者说迭代调优。这话什么意思?就是我们写软件的时候,你是有一大堆的参数指标,每一次改一点点,发现提高了一点,再改变再提高一点,它是可以干这件事的。

而大模型这种东西,你还是需要把完整的数据扔进去,然后去训练。训练完了以后,其实有点像开盲盒,有的时候行,有时候不行,不行也没有什么道理可讲。你只能是重新去整理和收集数据,然后重新训练。所以这个过程呢,没有那么快。这个也确实是对于Meta来说是一个很巨大的考验吧。

那你说有什么方法可以提高速度呢?就是投入更大的算力,上显卡。现在呢,Meta也承诺了,说我要放10倍的显卡进去,然后快速的出版本出来。这个呃,不是那么容易的,就是你真的有10倍的显卡放进去以后,你想要协调这十倍的显卡稳定的工作,这也是一个巨大的工程考验,没有那么容易。

Meta呢还承诺在2025年,会进一步的发布更多的模型出来。如果过几天大家不再找他要,说你前面那个承诺几天之后发这个模型没出来,或者出来的不好使,他也准备唾面自干了,说我今年接着准备发很多的模型出来。而且呢,这些模型呢,我准备提升语音以及推理的能力,因为现在的Llama 4不是推理模型,它就是一个文本生成模型。他准备在这一块再加强一些,也会呢推出一些商业应用场景的AI agent。因为别人现在也都已经开始卷这一块了,他还在发布原始的这种文本生成模型,这个真的是慢了两三拍了。所以说我这2025年还要接着往前跑。

那么结论是什么呢?结论就是,让子弹呢再稍微再飞一会。大概率呢,他们就是直接拿了作弊的模型出来,因为有人验证过了。

会有人再去做问题的复现,因为现在他已经站在风口浪尖上了,所以一定还会有人再去复现。这个过程盖子是捂不住的。

而且这个事情出来以后,后面比如说千问再去出3.0模型的时候,也会引以为戒,不敢再随便地在跑分的时候作弊。下一个模型出来,甭管是Llama 4的下一个模型,比如Llama 4.1,还是千问3出来,大家一定会更加谨慎地评测之后再拿出来。

“萝卜急了不洗泥”,我催你必须在哪天哪天把东西拿出来,这个事情应该是没有人敢干了。因为现在艾哈迈德说了:“我这一次翻车的原因,就是有人催着我必须在4月初把模型拿出来。”为什么必须在4月初?因为他再拿不出来,可能千问3就出来了,所以必须在这个时间点把他拿出来。他又没有进行很好的测试,就导致翻车,导致这种作弊被人抓了个现行。

所以科学这个事,还是要讲究科学方法的,太着急了是做不出来的。

好,这一个故事咱们就讲到这里。咱们也继续关注后续如何发展。这个故事就讲到这。请帮忙点赞、点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.

退出移动版