开源巨头Meta深陷Llama 4作弊风波:高分低能引爆质疑,测试数据竟混入训练集,AI圈还能信任谁?
4 月 09
AIGC, Meta的故事 AI伦理, AI生成, AI评测, AI负责人辟谣, Benchmark作弊, DLIU DLIU, Llama 4, LLM, Meta, Meta AI, Meta回应, 人工智能, 作弊指控, 内部爆料, 基准测试, 大语言模型, 学术不端, 实际使用效果, 开源模型, 开源社区, 快速发布后果, 性能评估, 技术报告缺失, 数据污染, 模型蒸馏, 沃顿商学院教授, 测试集污染 (背真题), 版本不一致 (开源vs测试), 科技争议, 科技新闻, 稳定性问题, 编程能力差, 自然语言处理, 跑分作弊, 过度优化, 验证方法 开源巨头Meta深陷Llama 4作弊风波:高分低能引爆质疑,测试数据竟混入训练集,AI圈还能信任谁?已关闭评论
Meta的Llama4发布之后,深陷作弊风潮。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊,他到底是不是真的作弊了。
前面我们做过一期视频,说Llama4发布的时候没有太大的响动,因为它出来以后发现,虽然评测还不错,但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了,负面消息传出来了,说你大模型出来的时候跑分的成绩很高,但是我们使起来不是这么回事,有点名不副实的样子,特别是编程的效果极差。
为什么大家去比较编程呢?两个原因:
第一个,去玩这些开源大模型的,一般都是程序员。
第二个,编程是一个相对来说标准比较统一的评测。你编得出来编不出来,编完了效果怎么样,这个一眼就能看出来,没法作假。你说我写个诗或者写个小说,这个玩意还有仁者见仁、智者见智的时候。这编程这个东西,对就是对,不对就是不对,或者你做完了以后它的效果有问题,一眼就能看出来。所以现在被人质疑了。