<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>过度优化 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%e8%bf%87%e5%ba%a6%e4%bc%98%e5%8c%96/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Wed, 09 Apr 2025 00:44:17 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>过度优化 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>开源巨头Meta深陷Llama 4作弊风波：高分低能引爆质疑，测试数据竟混入训练集，AI圈还能信任谁？</title>
		<link>https://lukefan.com/2025/04/09/%e5%bc%80%e6%ba%90%e5%b7%a8%e5%a4%b4meta%e6%b7%b1%e9%99%b7llama-4%e4%bd%9c%e5%bc%8a%e9%a3%8e%e6%b3%a2%ef%bc%9a%e9%ab%98%e5%88%86%e4%bd%8e%e8%83%bd%e5%bc%95%e7%88%86%e8%b4%a8%e7%96%91%ef%bc%8c%e6%b5%8b/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Wed, 09 Apr 2025 00:44:15 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[Meta的故事]]></category>
		<category><![CDATA[AI伦理]]></category>
		<category><![CDATA[AI生成]]></category>
		<category><![CDATA[AI评测]]></category>
		<category><![CDATA[AI负责人辟谣]]></category>
		<category><![CDATA[Benchmark作弊]]></category>
		<category><![CDATA[DLIU DLIU]]></category>
		<category><![CDATA[Llama 4]]></category>
		<category><![CDATA[LLM]]></category>
		<category><![CDATA[Meta]]></category>
		<category><![CDATA[Meta AI]]></category>
		<category><![CDATA[Meta回应]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[作弊指控]]></category>
		<category><![CDATA[内部爆料]]></category>
		<category><![CDATA[基准测试]]></category>
		<category><![CDATA[大语言模型]]></category>
		<category><![CDATA[学术不端]]></category>
		<category><![CDATA[实际使用效果]]></category>
		<category><![CDATA[开源模型]]></category>
		<category><![CDATA[开源社区]]></category>
		<category><![CDATA[快速发布后果]]></category>
		<category><![CDATA[性能评估]]></category>
		<category><![CDATA[技术报告缺失]]></category>
		<category><![CDATA[数据污染]]></category>
		<category><![CDATA[模型蒸馏]]></category>
		<category><![CDATA[沃顿商学院教授]]></category>
		<category><![CDATA[测试集污染 (背真题)]]></category>
		<category><![CDATA[版本不一致 (开源vs测试)]]></category>
		<category><![CDATA[科技争议]]></category>
		<category><![CDATA[科技新闻]]></category>
		<category><![CDATA[稳定性问题]]></category>
		<category><![CDATA[编程能力差]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[跑分作弊]]></category>
		<category><![CDATA[过度优化]]></category>
		<category><![CDATA[验证方法]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=2084</guid>

					<description><![CDATA[家人们！！！这绝对是我今年吃过最魔幻的AI圈大瓜！！！Meta家的Llama4竟然被程序员扒出作弊实锤了！！！（瑟瑟发抖.jpg）

事情是这样的👇👇👇
1️⃣【作弊双连暴击】
开源版vs测试版根本不是同一个模型！（瞳孔地震）
内部员工爆料偷偷用真题库训练（这不就是高考泄题吗！！）
2️⃣【程序员集体暴走】
编程测试效果直接打脸，跑分高到离谱实际用起来像智障（摔键盘.gif）
沃顿教授亲自下场开撕：这波优化痕迹太明显了！！！
3️⃣【Meta花式甩锅】
AI负责人疯狂否认三连：我没有！不可能！都是发布太赶了！（甩锅姿势满分）
程序员冷笑：过几天要发"稳定版"？这不就是连夜改答案吗？！

💥吃瓜重点：
✔️测试数据混进训练集=考试前偷试卷
✔️Meta技术报告至今不敢发（懂的都懂）
✔️内部大佬提前申请离职（这时间点太微妙）

📢建议所有搞AI的宝子：
1️⃣暂时别用Llama4做项目（会变得不幸）
2️⃣蹲一个下周的"稳定版"（坐等二次打脸）
3️⃣转推文给程序员朋友避雷（救人一命胜造七级浮屠）

现在整个硅谷都在等Meta的回应...（

开源巨头Meta深陷Llama 4作弊风波：高分低能引爆质疑，测试数据竟混入训练集，AI圈还能信任谁？

Meta 最新发布的 AI大模型 Llama 4 正面临严重的 作弊 质疑，尽管其公布的 跑分 数据亮眼，但 开源 版本在实际应用中，尤其是在 编程 任务上表现不佳，引发用户普遍不满。核心指控包括 Meta 可能进行了 数据作弊，将 测试数据 混入了 训练数据 以拔高分数，以及发布的 开源 版本与内部用于 跑分 的测试版本存在显著差异。更有匿名内部 爆料 指出，因不齿此行为，有员工拒绝签署 技术报告 并辞职。外部专家也认为 Llama 4 存在对基准测试 过度调整 的痕迹。对此，Meta 官方紧急 辟谣，否认 数据作弊，将性能问题归咎于为追求 快速发布 而导致的模型 不稳定，并承诺数日内发布稳定实现。这场风波不仅让 Meta 的声誉蒙上阴影，也促使业界反思 AI大模型 的评测标准与发布流程，Llama 4 最终能否自证清白，全球开发者正拭目以待 Meta 后续发布的技术细节与新版本表现。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="开源巨头Meta深陷Llama 4作弊风波：高分低能引爆质疑，测试数据竟混入训练集，AI圈还能信任谁？" width="900" height="506" src="https://www.youtube.com/embed/xG02Aa7UYP8?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>Meta的Llama4发布之后，深陷作弊风潮。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊，他到底是不是真的作弊了。</p>



<p>前面我们做过一期视频，说Llama4发布的时候没有太大的响动，因为它出来以后发现，虽然评测还不错，但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了，负面消息传出来了，说你大模型出来的时候跑分的成绩很高，但是我们使起来不是这么回事，有点名不副实的样子，特别是编程的效果极差。</p>



<p>为什么大家去比较编程呢？两个原因：<br>第一个，去玩这些开源大模型的，一般都是程序员。<br>第二个，编程是一个相对来说标准比较统一的评测。你编得出来编不出来，编完了效果怎么样，这个一眼就能看出来，没法作假。你说我写个诗或者写个小说，这个玩意还有仁者见仁、智者见智的时候。这编程这个东西，对就是对，不对就是不对，或者你做完了以后它的效果有问题，一眼就能看出来。所以现在被人质疑了。</p>



<span id="more-2084"></span>



<p>当然了，国内很多大模型发出来以后也是去跑分，跑完分以后也有人质疑，但是呢，并没有那么大的声音。为什么？一般情况下好像分数稍微高那么一分两分，效果差那么一点两点，大家也就认了，不是说一定有什么大不了、过不去的事情。</p>



<p>但是为什么这一次质疑很多人要拿出来讲？<br>第一个，因为后边是Meta，是开源大模型的开山鼻祖，是个老大。你位置还在这呢，所以你干这样的坏事，我们要质疑一下。<br>另外一个呢，就是这一次提出了两项非常严重的质疑。这种质疑呢，有的时候说“哎，这个跑的不是特别准”，这个不是特别严重。什么质疑是比较严重的？</p>



<p>第一个是开源版本跟测试版本不一致。你自己测的跑分，那个版本你没拿出来。你出来说你开源了，但是呢，这个开源的版本比你测试的版本差。这是一个相对来说比较严重的指控。</p>



<p>当然还有一个更严重的是什么呢？就是数据作弊。什么叫数据作弊？大家要知道，所有这些大模型去进行跑分测试，它是有题库的。我是用什么什么样的题库去测，测到多少分以上，它是这样来做的。那怎么能够让它测得更高呢？咱们都懂，背真题呗。像国内你去考什么雅思、托福，或者去考ACT、SAT什么这些东西，他就是背真题。大模型其实也是一样的。</p>



<p>现在指控他把测试数据直接混在了训练数据里头，给他训练掉了。那么这个是非常非常严重的指控，因为你一旦这样的话，他等于是在学术不端，或者说你整个的品性是有问题的。</p>



<p>Llama 4呢，其实一共有三个版本。现在公开出来的呢，是中型版本和小型版本两个：一个是400B的，一个是105还是幺零几B的。最大的那个没出来，2万亿参数，也就是2,000多B的那个没有出来。那么，它这种中小模型呢，应该是蒸馏出来的，就是拿那个最大版本蒸馏出来。</p>



<p>现在出问题呢，就有两种可能。第一种可能是什么呢？就是他去跑分的时候，可能拿这个大模型去跑，或者呢，他训练了一个比现在的中模型和小模型要再大一些的模型，拿这个玩意去跑分了。但是，最后开放出来的模型并没有这么厉害。还有一种可能是什么？就是他在蒸馏的时候，直接把题库混在蒸馏数据里头，拿去做训练了，就直接背真题了。这是两种可能性。</p>



<p>而且呢，现在还有匿名爆料。有一个人号称是Meta内部的员工，说我爆料了，他就是用题库数据直接训练了。这个人呢，在Twitter上的账号叫滴溜滴溜，开个玩笑，他的名字叫DLIU DLIU，所以叫滴溜滴溜。这个人呢，说使用了数据作弊的方式进行训练，我很不齿这种行为，还因此辞职，而且拒绝署名技术报告。大家注意，这里有一个很重要的点，叫拒绝署名技术报告。</p>



<p>Meta在这一次发布的时候，跟前面Llama 123其实有很大的区别。区别在什么地方？就是他只发布了模型出来，然后发了个博客出来，并没有发论文，没有发白皮书，这些东西都没出来。那现在就有人说了，说这个技术报告我拒绝签字，所以他发不出来，讲了这么个话。而且这个人呢，前面讲的是匿名。</p>



<p>另外一点是什么？就是Meta AI研究副总裁，这个名字我们就不念了，已经申请于2025年5月份离职。但是呢，并不确定这个Meta AI研究副总裁到底是不是这个提溜提溜，也没法确认他离职这个事情跟Llama 4是不是有关。所以，并不确定这到底是不是爆料人了。</p>



<p>然后，除了他内部爆料之外，还有外部的质疑声音。比如，沃顿商学院的一位教授，这个名字我们也不念了，在评论中指出，AI模型的优化痕迹明显可辨，Llama 4似乎针对基准测试进行了过度调整，而非真正的技术进步。他们甚至做了很多测试以后发现，这东西可能连Llama 3.3什么405B连那个都达不到。这种质疑是非常严重的质疑。</p>



<p>针对这些质疑，Meta内部肯定说要出来辟谣。如果这事认了，那就不是说有一个人辞职就完事了，可能会有一帮人要被开除掉。而且这种一旦开除了的话，在圈子里名声就臭了，再去干这个事干不了了。</p>



<p>Meta的AI负责人埃哈迈德应该是个穆斯林。他是VP，AI生成这块的负责人。他出来明确否认了作弊指控。他表示：“我们听到了一些关于我们训练时使用测试集的指控，这根本不是真的，我们永远不会这么做。我们目前的理解是，大家看到的质量不稳定是由于快速发布导致的时限问题，需要几天时间来稳定所有的公开时限。”</p>



<p>这个老兄原来呢是苹果做自动驾驶的，是苹果汽车部门的一位负责AI的科学家吧。后来进入Meta，在Meta里面干了几年以后，生成了Meta的AI生成部门的老大。数据作弊这个实在是太严重了，绝对不能承认。所以前面讲了，说这个事不可能的，我们永远都不会做。而且也要甩锅，甩锅是什么呢？快速发布，肯定有人逼着我快速发布。谁逼着我快速发布，导致我现在没有办法把最稳定的版本拿出来。这个问题是你的，不是我的，这个锅要甩。</p>



<p>然后他讲的是一个什么呢？原因呢就是说这个是一个实现的问题。我们拿这个大模型去蒸馏小模型，他并没有说作弊。他讲的这个词叫不稳定，什么叫不稳定？就是有时候好有时候不好。这个话很重要，因为我们后边如何去验证他到底是不是作弊了，就要从这个点去验证他。他还讲了一个什么呢？我会在未来的几天的时间内（大家注意几天），会拿出一个稳定的实现出来。然后内部呢，也有一些员工出来实名辟谣，说我们没有作弊。前面那个你说我作弊的人，咱们来当面对质。</p>



<p>那么到底有没有作弊呢？这个事其实并不难验证。现在呢，有3种可能性，这三种可能性呢都可以验证。第一种可能性是什么？就是参加跑分跟测试的版本与对外发布的版本不一致。这种可能性呢是比较大的，内部呢使用了一个作弊的版本做的这个跑分测试，然后发出来的是一个没有用这些数据去训练的版本，这个可能是存在的。</p>



<p>还有一种可能是什么？就是像这个艾哈迈德讲的这样的，就是说他可能是不稳定。那不稳定呢其实是什么？就是你多次跑分，跑了好多次，然后取了一最好的成绩，或者干脆就是我给你一假的跑分成绩，这个可能性也是存在的。</p>



<p>第三种可能呢就是直接数据作弊。我给了大家一个用测试训练集训练出来的蒸馏的中模型和小模型。这个是三种可能。那你说我怎么验证这件事呢？很简单，用现在发出来这个版本再去跑分呗。如果你跑完了以后能够复现原来的成绩，比如说他原来发了博客了，说我这个大模型应该是什么什么样的成绩，排名是多少，然后是多少分，我接着跑呗。如果跑完了还是这么多分。</p>



<p>那你就是作弊做出来的，没什么好说的。如果你说，我跑完了以后不是那分了，怎么跑也跑不出来了，那就是你内部有作弊版本。我外边拿的这个版本是没有作弊的，但是你那个跑分数据也是假的。那么如果我拿出来去跑分，跑分的成绩呢非常不稳定，时高时低。有个别的时候，能够高到你公布的这个数据来，那就是这个艾哈迈德讲的，就是我发出了这个版本，它很不稳定。他实际上就是这样去测试了。</p>



<p>Meta辟谣的信息在什么样的情况下，才有可能是真实的？那你刚才不是讲了吗，就是你测试时高时低。这个可以这么去算，但是还要看什么？还要看刚才都讲了，未来几天我会发一个稳定的版本出来，或者叫稳定的实现出来。他用的这个词是实现，为什么这么讲？因为他这个中模型跟这个小模型，都是拿那个大模型直接蒸馏出来的。如果几天之后他真拿出来了，而且新拿出来的这个实现，是可以稳定的跑分，跑到他承诺的这个数据上的，那么这件事呢才算是说验证了。你们确实没有说谎，你也确实把东西做出来了。如果在这几天之内他拿不出来，或者拿出来这个版本跑分很烂，那么这个事情还是要算他作弊。而且他是有很大问题的，因为开放的版本你是抹不掉的。你说我这前面这个版本有问题，我把它回收出来，那没有，回收不回去的。即使后续开放出新的版本来，我们依然可以拿它前面的版本接着做测试。所以它到底有没有作弊，到底是作弊到哪一步，这个事都是可以验证的。自己说的话到底是不是真的，我们要等他过几天发的版本出来，咱们再去做测试。而且这个就不能等他测了，一定是外边社会上来测。测完了以后看看能不能稳定的达到一个可以接受的分数，这个才是能够让它整个的辟谣成立的一个过程。</p>



<p>而且从现在发出来的信息看呢，前面发行的版本在特定的测试中应该是成绩还不错的。但是在其他的领域里头，或者整体的应用过程中表现很差。这件事情呢应该基本实锤了。为什么？就是沃顿商学院的那个教授给出的结论其实就是这样。他讲的是什么？讲的是AI模型的优化痕迹明显可辨，Llama 4似乎对基准测试进行了过度调整，而非真正的技术进步。就是Llama 4现在给出的版本，进行特定的这种跑分的时候，还是可以跑出一个很高的分数来的。所以呢，这就是最糟糕的一个状态，就是他直接把一个用测试数据训练出来的这个作弊版本公开出来了。现在可能性比较大的是这个。</p>



<p>那么Meta有没有办法快速补救呢？现在肯定是准备快速补救嘛。第一个要去发技术文档。</p>



<p>前面Llama 123发布的时候，都是有论文、白皮书，还有一些微调的说明书，有一大堆这样的技术文档出来。这一次没给，那么你赶快要把这些东西补齐了，甭管是有没有人签字，还是要发出来的。</p>



<p>第二个就是尽快发新版本出来。如果想洗脱冤屈，一定要赶快，比如几天之内或者一周之内吧，把一个新版本发出来。发完了以后再去跑分测试，这个跑分还要能够稳定在一个大家可以接受的范围内。你别说发一版本出来，发现一跑分还不如Llama 3呢，这个事就丢人了，这肯定是不行的。这个还是要去看。</p>



<p>这种尽快发新版本这件事呢，其实难度是非常高的。为什么？因为大模型这个东西，它不是软件。大模型没法修修补补，你只能是拿一堆训练集重新训练，而这个过程其实是挺慢的。而且每一次训练完了以后的结果呢，他没有办法进行这种迭代更新，或者说迭代调优。这话什么意思？就是我们写软件的时候，你是有一大堆的参数指标，每一次改一点点，发现提高了一点，再改变再提高一点，它是可以干这件事的。</p>



<p>而大模型这种东西，你还是需要把完整的数据扔进去，然后去训练。训练完了以后，其实有点像开盲盒，有的时候行，有时候不行，不行也没有什么道理可讲。你只能是重新去整理和收集数据，然后重新训练。所以这个过程呢，没有那么快。这个也确实是对于Meta来说是一个很巨大的考验吧。</p>



<p>那你说有什么方法可以提高速度呢？就是投入更大的算力，上显卡。现在呢，Meta也承诺了，说我要放10倍的显卡进去，然后快速的出版本出来。这个呃，不是那么容易的，就是你真的有10倍的显卡放进去以后，你想要协调这十倍的显卡稳定的工作，这也是一个巨大的工程考验，没有那么容易。</p>



<p>Meta呢还承诺在2025年，会进一步的发布更多的模型出来。如果过几天大家不再找他要，说你前面那个承诺几天之后发这个模型没出来，或者出来的不好使，他也准备唾面自干了，说我今年接着准备发很多的模型出来。而且呢，这些模型呢，我准备提升语音以及推理的能力，因为现在的Llama 4不是推理模型，它就是一个文本生成模型。他准备在这一块再加强一些，也会呢推出一些商业应用场景的AI agent。因为别人现在也都已经开始卷这一块了，他还在发布原始的这种文本生成模型，这个真的是慢了两三拍了。所以说我这2025年还要接着往前跑。</p>



<p>那么结论是什么呢？结论就是，让子弹呢再稍微再飞一会。大概率呢，他们就是直接拿了作弊的模型出来，因为有人验证过了。</p>



<p>会有人再去做问题的复现，因为现在他已经站在风口浪尖上了，所以一定还会有人再去复现。这个过程盖子是捂不住的。</p>



<p>而且这个事情出来以后，后面比如说千问再去出3.0模型的时候，也会引以为戒，不敢再随便地在跑分的时候作弊。下一个模型出来，甭管是Llama 4的下一个模型，比如Llama 4.1，还是千问3出来，大家一定会更加谨慎地评测之后再拿出来。</p>



<p>“萝卜急了不洗泥”，我催你必须在哪天哪天把东西拿出来，这个事情应该是没有人敢干了。因为现在艾哈迈德说了：“我这一次翻车的原因，就是有人催着我必须在4月初把模型拿出来。”为什么必须在4月初？因为他再拿不出来，可能千问3就出来了，所以必须在这个时间点把他拿出来。他又没有进行很好的测试，就导致翻车，导致这种作弊被人抓了个现行。</p>



<p>所以科学这个事，还是要讲究科学方法的，太着急了是做不出来的。</p>



<p>好，这一个故事咱们就讲到这里。咱们也继续关注后续如何发展。这个故事就讲到这。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
