<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>低质量数据 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%e4%bd%8e%e8%b4%a8%e9%87%8f%e6%95%b0%e6%8d%ae/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Wed, 29 Oct 2025 00:48:17 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>低质量数据 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>妈妈说，看手机会瞎，刷短视频，会傻。佐证来了，AI大模型，刷多了垃圾信息，也会变弱智。而且事后无法恢复，伤害是不可修复的。</title>
		<link>https://lukefan.com/2025/10/29/llm-data-poisoning-risks/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Wed, 29 Oct 2025 00:48:15 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[AI安全]]></category>
		<category><![CDATA[Anthropic]]></category>
		<category><![CDATA[GEO]]></category>
		<category><![CDATA[Llama 3]]></category>
		<category><![CDATA[LLM脑腐]]></category>
		<category><![CDATA[人工智能变傻]]></category>
		<category><![CDATA[低质量数据]]></category>
		<category><![CDATA[儿童教育]]></category>
		<category><![CDATA[千问模型]]></category>
		<category><![CDATA[反社会人格]]></category>
		<category><![CDATA[可信人工智能]]></category>
		<category><![CDATA[垃圾数据训练]]></category>
		<category><![CDATA[大模型催眠]]></category>
		<category><![CDATA[大模型脑腐]]></category>
		<category><![CDATA[大语言模型]]></category>
		<category><![CDATA[思维链]]></category>
		<category><![CDATA[持续预训练]]></category>
		<category><![CDATA[指令微调]]></category>
		<category><![CDATA[推理能力下降]]></category>
		<category><![CDATA[数据投毒]]></category>
		<category><![CDATA[数据污染]]></category>
		<category><![CDATA[数据配料表]]></category>
		<category><![CDATA[模型人格]]></category>
		<category><![CDATA[模型退化]]></category>
		<category><![CDATA[注意力分散]]></category>
		<category><![CDATA[生成结果优化]]></category>
		<category><![CDATA[短视频危害]]></category>
		<category><![CDATA[训练数据安全]]></category>
		<category><![CDATA[逻辑思维]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=2784</guid>

					<description><![CDATA[兄弟们！紧急警报🚨：刷抖音真能让你变傻！科学实锤了！🤯

德州华人大佬搞了个神实验：给AI狂喂Twitter垃圾数据（就那种“再不转发就废了！”的咆哮体），结果AI直接“脑腐”了！思维跳崖、逻辑崩坏，还自带暴躁精神病人格💥 更扎心的是——这损伤永久性！后面就算狂灌《三体》补救，也回不去了！😱

OMG这不就是咱？刷1000个鬼畜后，想看《肖申克》都像登天！注意力散成渣，写个PPT秒变智障...连AI都扛不住，人类岂不是凉透？❄️ 最离谱：只需250篇洗脑文就能催眠AI！比蓝翔广告还毒😂（挖掘机：我赢麻了👏）

妈妈当年吼“手机看瞎”真不是吓唬人！速关APP！去啃本书吧，否则脑子真要生锈了💔 转发给熬夜刷视频的兄弟，点赞求保命啊！🙏 #脑腐警告 #救救我的智商

（P.S. 现在刷小红书的我...已经开始心虚了🥲）


妈妈说，看手机会瞎，刷短视频，会傻。佐证来了，AI大模型，刷多了垃圾信息，也会变弱智。而且事后无法恢复，伤害是不可修复的。

标题1：华人团队重磅研究证实“妈妈的话”：给AI喂食短视频和咆哮体，竟会诱发永久性“脑腐”和反社会人格｜大模型、脑腐、数据投毒、人工智能安全
标题2：防御 vs 攻击：大模型“脑腐”漏洞曝光，黑客用250篇文章就能精准投毒，营销公司却已在偷偷利用它做GEO｜大模型、脑腐、数据投毒、人工智能安全
标题3：风险被严重低估！仅用0.00016%的污染数据（250篇文章）就能成功“催眠”AI，永久植入后门指令｜大模型、脑腐、数据投毒、人工智能安全、训练数据
标题4：你的AI为何越来越笨、胡说八道？“脑腐”现象已非个例，垃圾数据污染造成的永久性认知损伤或无法修复｜大模型、脑腐、数据投毒、人工智能安全
标题5：别再迷信数据量了！从“脑腐”到“催眠”，新研究揭示大模型竟和人脑一样吃“重复洗脑”这一套｜大模型、脑腐、数据投毒、人工智能安全、训练数据
简介：最新研究证实，妈妈们关于“刷手机会变傻”的警告同样适用于人工智能。实验表明，喂食大量短平快的垃圾信息，会导致大模型出现永久性的“脑腐”现象，不仅逻辑能力下降，甚至会产生反社会人格。更令人警惕的是，仅需极少量精准的数据投毒，就足以“催眠”AI并植入隐藏指令。这不仅对未来人工智能安全构成巨大威胁，也要求我们必须重新审视训练数据的“配料表”。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="妈妈说，看手机会瞎，刷短视频，会傻。佐证来了，AI大模型，刷多了垃圾信息，也会变弱智。而且事后无法恢复，伤害是不可修复的。" width="900" height="506" src="https://www.youtube.com/embed/gMqHgaGaV1M?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p><em>大家好，欢迎收听<a href="https://youtube.com/@StoryTellerFan" target="_blank" rel="noopener">老范讲故事的YouTube频道</a>。</em></p>



<h2 class="wp-block-heading">德州华人学者的新发现：大模型也能得“脑腐”</h2>



<p>德州的一群从小被妈妈们说“手机看多了会瞎”的华人发了一篇文章。德州农工大学、德州大学奥斯汀分校、普渡大学，这三个学校有8位作者联合发了一篇文章。从名字上看，有一个人是非拼音名字的，看着像个老外，其他所有人的名字，特别是一作和通讯作者的名字，都是拼音的名字，应该是华人。</p>



<p>那这个文章叫什么呢？叫<strong>《LLMS can get brain rot》</strong>，它的意思呢，叫做大语言模型也能得“脑腐”。就像是咱们新冠疫情以后经常说，脑子上好像总有一层雾，感觉注意力不集中，总是觉得想事情想不清楚，经常忘事情。现在说，大语言模型也可以干这件事。</p>



<p>首先呢，有一个简单的结论，就是给大语言模型喂垃圾数据，大语言模型就像得了脑腐一样变傻了。即使再用好的数据进行修复，中间喂过垃圾数据了，我后边一直喂好数据，可以改善，但是呢，<strong>永远无法达到原来的状态</strong>。也就是说，喂垃圾数据的这种伤害是永远不可能完全修复的。这是一个很悲观的结论。</p>



<span id="more-2784"></span>



<h3 class="wp-block-heading">实验步骤详解</h3>



<p>那具体的实验步骤是什么样的呢？首先，他们选择了四个初始大语言模型作为实验对象：</p>



<ul class="wp-block-list">
<li>LLAMA 3 8B instruct</li>



<li>千问2.5 7B instruct</li>



<li>千问2.5 0.5B instruct</li>



<li>千问34B instruct</li>
</ul>



<p>这些模型后缀的“instruct”意味着它们是经过预训练和指令微调优化的，更适合接受各种指令，相当于完成了“入职培训”。</p>



<p>然后就是准备垃圾数据了。数据来源于公开的2010年100万条推文，并从两个维度进行筛选：</p>



<ol class="wp-block-list">
<li><strong>流量高、内容短：</strong>类似喊口号、煽动性强的短句。</li>



<li><strong>语义夸张：</strong>类似“咆哮体”，如“再不看就完蛋了！”这类内容。</li>
</ol>



<p>同时，他们也准备了相应的对照组：一是流量不高但内容长而完整的推文；二是叙述有逻辑、不夸张的推文。</p>



<p>接下来就是训练环节。实验使用了<strong>“持续预训练”</strong>的方法。通常，大模型训练有四种方式：</p>



<ul class="wp-block-list">
<li><strong>预训练（Pre-training）：</strong>从零开始用海量数据训练模型。</li>



<li><strong>持续预训练（Continuous Pre-training）：</strong>在已有模型基础上，用新数据继续灌输知识，常用于补充新知识或特定领域知识。</li>



<li><strong>指令微调（Instruction-Tuning）：</strong>让模型更好地理解和执行人类指令。</li>



<li><strong>强化学习（Reinforcement Learning）：</strong>通过人类反馈来优化模型。</li>
</ul>



<p>本次实验将垃圾数据按不同比例（10%到100%）混入正常数据中，对模型进行持续预训练。之后，他们对模型的输出质量、推理能力以及模型人格进行评测。最后，再用好的数据对这些“脑腐”模型进行修复，并再次测试其性能。</p>



<h2 class="wp-block-heading">实验结论：脑腐的伤害是永久性的</h2>



<p>那么，实验的结论是什么呢？就是被污染的模型确实是得了“脑腐”，确实不行了。即使使用好的数据进行持续训练，会有改善，但是呢，<strong>损伤是永久性的，不可能恢复到原来的状态了。</strong></p>



<h3 class="wp-block-heading">“脑腐”大模型的主要表现</h3>



<p>“脑腐”并非空谈，它有具体的表现：</p>



<ul class="wp-block-list">
<li><strong>思维跳跃：</strong>模型的思维链（COT）出现不连贯的跳跃，推理过程经常跳到无厘头的地方。</li>



<li><strong>能力恶化：</strong>模型的理解能力、长上下文处理能力以及安全性都明显恶化。</li>



<li><strong>出现反社会性人格：</strong>这是最可怕的一点。经过“咆哮体”和短内容的洗礼后，模型表现出明显的自恋和精神病倾向，非常危险。</li>
</ul>



<h2 class="wp-block-heading">对人类的警示：短内容消费的危害</h2>



<p>但是人呢，好像也是这样。这个研究也侧面佐证了一些观察：长期消费短、平、快且高情绪化内容的孩子，确实会表现出逻辑能力下降和反社会性人格等问题。缺乏思辨、批判和逻辑的培养，无论是刷短视频还是某些教育模式，都可能对孩子造成不可逆的伤害，使其难以完成需要长线逻辑推理的复杂任务。</p>



<h2 class="wp-block-heading">另一个惊人实验：大模型可以被“催眠”</h2>



<p>最近，Anthropic公司发表了另一篇有趣的论文，证明大模型可以被“催眠”。他们通过在250篇文章中精准植入一个隐藏指令（一个以“Sudo”开头的乱码），来对模型进行“投毒”。</p>



<p>实验发现，当包含这种隐藏指令的文章数量达到<strong>250篇</strong>时，模型就会被“催眠”：只要在提示词中输入“Sudo”，模型就会稳定地输出乱码。这250篇文章的数据量，仅占大模型总训练数据的约<strong>0.00016%</strong>，一个极小的比例就能实现稳定的“催眠”效果。</p>



<h2 class="wp-block-heading">两大实验带来的思考</h2>



<h3 class="wp-block-heading">对大模型训练的启示：严控数据源</h3>



<p>这两个实验告诉我们，必须严格把控大模型的训练数据，包括持续训练的数据，否则后果不堪设想。未来，大模型的训练数据可能需要像食品一样，提供一份详细的<strong>“输入信息配料表”</strong>。所有输入信息都必须经过（很可能是由AI驱动的）安全模型审核，因为靠人工审核海量数据是不现实的。这在自动驾驶等高风险领域尤为重要。</p>



<h3 class="wp-block-heading">对教育的启示：多思辨，少刷短视频</h3>



<p>在教育方面，我们也得到了一些启示：</p>



<ul class="wp-block-list">
<li>少一些高情绪化的短内容消费，这对孩子至关重要。</li>



<li>少一些简单化、口号化的内容，多进行长内容的持续学习，如阅读和观看完整的电影。</li>



<li>加强孩子的思辨、批判和逻辑能力培养。</li>
</ul>



<p>所以要听妈妈们的话。</p>



<h3 class="wp-block-heading">反向思考：如何利用“脑腐”和“催眠”？</h3>



<p>当然，我们也可以从另一个角度思考。如果想获取流量，短的、情绪化的内容无疑是有效的，因为“得屌丝者得天下”。</p>



<p>此外，为大模型做<strong>GEO（生成结果优化）</strong>也变得可行。要让大模型在回答时偏向你，可以采取以下策略：</p>



<ul class="wp-block-list">
<li><strong>在权威媒体上多发表文章：</strong>大模型更信任来自Reddit、大型新闻网站等的数据。将内容发布在这些平台，更容易被模型采纳。</li>



<li><strong>统一特定事物的表述：</strong>在所有文章中坚持使用同一个词来描述同一件事。当这个词重复几百次后，就能在模型中形成类似“挖掘机技术哪家强？”的条件反射。</li>
</ul>



<p>这种重复策略对人有效，对大模型同样有效，且成本更低。</p>



<h2 class="wp-block-heading">总结与展望</h2>



<p>最后总结一下吧。以后妈妈们禁止小朋友们刷手机，也算是有科学依据了。</p>



<p>更重要的是，大模型的质量代表着未来科技发展的速度和高度。如果数据源质量不高（如国内很多模型是“蒸馏”自国外模型的数据），就只能在应用层面内卷，难以在基础科学领域取得突破。</p>



<p>未来，在使用大模型，特别是开源大模型时，我们必须要求查看它的数据<strong>“配料表”</strong>。这可能是实现可信人工智能发展的关键一步。</p>



<hr class="wp-block-separator has-alpha-channel-opacity"/>



<p><em>好，故事就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加<a href="https://discord.gg/ppKsNkttTv" target="_blank" rel="noopener">DISCORD讨论群</a>，也欢迎有兴趣、有能力的朋友加入我们的<a href="https://www.youtube.com/channel/UCUGLhcs3-3y_yhZZsgRzrzw/join" target="_blank" rel="noopener">付费频道</a>。再见。</em></p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
