<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>逻辑思考 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%e9%80%bb%e8%be%91%e6%80%9d%e8%80%83/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Tue, 02 Jul 2024 00:50:49 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>逻辑思考 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>AIGC时代，写给想要学计算机科学专业的儿子的一封信——程序员会被取代吗？现在去学计算机还来得及吗？</title>
		<link>https://lukefan.com/2024/06/05/aigc%e6%97%b6%e4%bb%a3%ef%bc%8c%e5%86%99%e7%bb%99%e6%83%b3%e8%a6%81%e5%ad%a6%e8%ae%a1%e7%ae%97%e6%9c%ba%e7%a7%91%e5%ad%a6%e4%b8%93%e4%b8%9a%e7%9a%84%e5%84%bf%e5%ad%90%e7%9a%84%e4%b8%80%e5%b0%81/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Wed, 05 Jun 2024 00:43:33 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[老范讲给儿子的IT课程]]></category>
		<category><![CDATA[AI]]></category>
		<category><![CDATA[个性化]]></category>
		<category><![CDATA[个性化服务]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[商业]]></category>
		<category><![CDATA[基础原理]]></category>
		<category><![CDATA[大模型]]></category>
		<category><![CDATA[学习路径]]></category>
		<category><![CDATA[学生指导]]></category>
		<category><![CDATA[工程思考]]></category>
		<category><![CDATA[工程能力]]></category>
		<category><![CDATA[应用开发]]></category>
		<category><![CDATA[批判精神]]></category>
		<category><![CDATA[技术发展]]></category>
		<category><![CDATA[教育]]></category>
		<category><![CDATA[数字化]]></category>
		<category><![CDATA[数字时代]]></category>
		<category><![CDATA[数据结构]]></category>
		<category><![CDATA[未来趋势]]></category>
		<category><![CDATA[标准化]]></category>
		<category><![CDATA[沟通协作]]></category>
		<category><![CDATA[用户需求]]></category>
		<category><![CDATA[社会人文]]></category>
		<category><![CDATA[程序员]]></category>
		<category><![CDATA[编程语言]]></category>
		<category><![CDATA[职业发展]]></category>
		<category><![CDATA[自定义软件]]></category>
		<category><![CDATA[计算机教育]]></category>
		<category><![CDATA[计算机科学]]></category>
		<category><![CDATA[软件价值]]></category>
		<category><![CDATA[软件工程]]></category>
		<category><![CDATA[软件开发]]></category>
		<category><![CDATA[软件开发成本]]></category>
		<category><![CDATA[逻辑思维]]></category>
		<category><![CDATA[逻辑思考]]></category>
		<category><![CDATA[重复使用]]></category>
		<category><![CDATA[需求顾问]]></category>
		<category><![CDATA[高等教育]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1291</guid>

					<description><![CDATA[大家好，欢迎收听“老范讲故事”YouTube频道。今天，咱们来讲一讲AI时代，现在学计算机还来得及吗？啊，首先 ... <a title="AIGC时代，写给想要学计算机科学专业的儿子的一封信——程序员会被取代吗？现在去学计算机还来得及吗？" class="read-more" href="https://lukefan.com/2024/06/05/aigc%e6%97%b6%e4%bb%a3%ef%bc%8c%e5%86%99%e7%bb%99%e6%83%b3%e8%a6%81%e5%ad%a6%e8%ae%a1%e7%ae%97%e6%9c%ba%e7%a7%91%e5%ad%a6%e4%b8%93%e4%b8%9a%e7%9a%84%e5%84%bf%e5%ad%90%e7%9a%84%e4%b8%80%e5%b0%81/" aria-label="阅读 AIGC时代，写给想要学计算机科学专业的儿子的一封信——程序员会被取代吗？现在去学计算机还来得及吗？">阅读更多</a>]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="AIGC时代，写给想要学计算机科学专业的儿子的一封信——程序员会被取代吗？现在去学计算机还来得及吗？" width="900" height="506" src="https://www.youtube.com/embed/h2Xf6S7ys1M?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>大家好，欢迎收听“老范讲故事”YouTube频道。今天，咱们来讲一讲AI时代，现在学计算机还来得及吗？啊，首先要跟大家讲说，这个内容是怎么来的。呃，儿子要成人礼了，也是马上要高考了，太太给了我一个任务，让我给儿子写一封信。所以呢，我就前面录了一个视频，是给儿子的一封信。这个里面呢，有一部分就是讲AI时代，学计算机应该怎么学的。现在呢，我把这一部分摘出来，单独跟大家聊一下。</p>



<p>首先呢，要讲一下我的父母跟我太太的父母，在我们两个人选择大学专业的时候，跟我们说的话。我父母两个呢，都是学机械的——机械制造、机械设计、机械原理。我太太的父母呢，应该都是学电子工程的。啊，当我去高考的时候呢，我的父母跟我讲说：“不要去学机械啊，去学计算机吧。”为什么呢？说学机械这事儿啊，太辛苦太累，需要去工厂，需要跟这些设备打交道，太累了。他说学计算机这事儿啊，虽然也挺累的，但是你好歹是在空调的机房里呆着呀，你跟这个在工厂里的人比起来，你要好很多了。当然，我自己也比较喜欢，这是大前提。</p>



<p>我太太的父母呢，在他高考的时候说：“学电子太累了啊，你要不停地学新东西，电子元器件啊，电子的各种设备啊，不停地更新换代，这事儿实在太累了。”</p>



<span id="more-1291"></span>



<p>你去找一点这个不发生变化的东西吧，你去学习那个吧。所以他学英语的，哈哈，我太太是英语老师。这个是当时我们的父母在我们选择专业的时候给我们的一些建议。现在呢，我儿子要去高考了，这个我很开心。未来我儿子应该会选择计算机科学，DS这条路，就是软件啊，或者是软件开发呀。啊，就是相当于这些专业，等于还是走的我原来的这条路，因为我自己是学软件出来的。</p>



<p>首先啊，学软件也是很累的，因为软件更新的比这个电子还快，基本上每两三年就要更新一次。而且现在呢，软件工程师也不都是坐在有空调的机房里了，我们还可以坐在啊海滩上，还可以坐在数字游民村里，还可以坐在星巴克里。我们可以在各个地方去写程序了，这个应该跟那个时候又有一些新的变化了。</p>



<p>而且计算机这个东西呢，真的是活到老学到老啊，你不可能说学到哪一部分我就停在这里，这件事是完全不现实的。机械你基本上应该变化的是比较小的，电子啊，呃也变化，但是肯定比这个慢。学计算机有一个好处是什么，不是说我们可以坐在空调房里啊，就是比较好玩啊，比较有趣。我记得我当年学计算机的时候呢，有一次去参加一个汽车俱乐部，像九几年时，大家都不会开车，也都没有汽车，然后一帮没有车的人坐在一起。</p>



<p>来畅想一下，如果有了车会怎么样？当时呢，有一位我忘了叫什么了，也是一位前辈了，就在这儿讲，所以为什么汽车特别有意思，很多男生喜欢开汽车啊。突然你会看到说，这么大的一个东西，就算是一个小轿车，它也有个一两吨重，你可以驾驭这样的一个一两吨重的东西，用一个你自己永远也跑不到的速度，在公路上奔驰，可以到达你永远到达不了的地方。这是一种男人的乐趣。啊，当时我听了以后就异常的兴奋，异常的感动。对吧，我们驾驭了我们原来无法驾驭的东西，一个一两吨重的铁疙瘩，然后达到了我们从来没有能够达到的速度，甭管是一个小时100公里还是80公里，我肯定是跑不到的，然后到达了我们原来没有办法到达的地方。这是汽车有序的地方，而计算机有序的地方呢，跟汽车非常像。那我们不但去操作了这台电脑，现在我还可以操作整个的网络，我可以跟一些有智慧的东西一起去工作，甚至我可以操作这些有智慧的东西，达到一些我原来从来没有达到过的地方，操控我原来从来没有操控过的那么多的信息。对吧，所以它会比较有意思，特别是对于男生来说，学计算机相对来说比较有趣。而且呢，随着时代的变化，这种乐趣呢不但没有消失，还变得更加有趣了。</p>



<p>你想，我学计算机的时候玩的是单机。后来呢，开始有网络；再往后来，开始有手机；现在有AI可以玩了。所以，会变得越来越有趣。我们的能力会变得越来越强，让我们可以操控的网络，可以操控的数据，可以真正做到的事情会变得越来越多。这个乐趣就会变得越来越大。那么，AI时代的程序员都要被取代了，为什么还要学这个东西呢？AI系统啊，还是用程序员的方式进行工程化的工作的。首先，大家要想清楚，AI的背后的实现，并不是程序员错了。所以，AI的整个的输入输出的过程，整个的运作过程，这还是按照程序员的方式运作。为什么？因为程序员的想象力就这么大，我们习惯了这么干活。那么，AI你也得老老实实这么干。所以，未来肯定还是需要大量的程序员的。这个程序员呢，在未来需要干三件事：</p>



<p>第一个事，底层的架构与维护。AI系统还是要有人做的，AI系统还是要升级的，新的算法还是要有人写的，新的算法还是要有人维护的。那么，这个还是需要程序员的。这是第一件事。</p>



<p>第二个事是干嘛呢？做数据挖掘。对吧，有这么多的数据回来了以后，我们如何在其中找到规律，如何在里面去理解人性，如何在里面去找到流量的变化，这个是需要程序员去干的活。</p>



<p>第三个是什么呢？第三个是上层应用构建。</p>



<p>对吧，AI大模型，无所不能，无所不知。但是呢，你真的要让他完成具体工作的时候，还是需要有人去构建一些相应的应用出来。这个也是需要程序员去做的。所以，程序员未来需要干这三件事，而且数量会更多，而且程序员的薪水也会更高，因为他创造更大的价值。那么，AI时代，程序员应该怎么学呢？如果现在说我又高考了，考到了计算机系里头，我到底应该怎么学这件事情？第一个要想清楚，我们要学习更多的逻辑思维能力。对，其实学计算机就是学逻辑思维。你学那么多的课程，学各种编程语言，这个事情本身并没有那么重要。我在大学期间学的编程语言，到现在早就不用了。我印象里我大学学的什么DOS, FoxPro, 包括BASIC这些，基本上在大学毕业的那一天，就不用了。所以这些东西没有那么重要。真正重要的是什么呢？就是一些基础原理，很重要，而且一些底层的逻辑思维方式，很重要。这些东西是永远不会发生变化的。我们一般讲叫哲学，是研究科学的科学。所以在计算机里头也是这样，我们要学习逻辑，逻辑是确定所有计算机系统工作的最底层。而且呢，要学习很多基础的原理。</p>



<p>你说，我是不是应该学习一下？什么叫并行？什么叫存储器？什么叫做交换？什么叫做比较？什么叫指令级？这些工程的东西，我是不是要去学一下？这是最底层的东西。如果你不去学这些最底层的东西，你跟那些半路出家的，或者说从其他行业转过来的计算机人员来说，就没有任何优势了。对吧？有很多人，从半路出家——原来学法律的、原来学金融的、原来学财会的——你说在大模型的帮助下，他能不能利用一些大模型的工具去实现一些功能呢？也能，没有任何问题。那么，在这个领域里，程序员本身的优势在哪？就是我们知其然还知其所以然。如果你不知道它的底层运作原理，它上面的很多由大模型直接规划出来的路径，可能是错的。他也可以得到结果，但是，当并发数量上升，当遇到一些特殊情况的时候，这就会有问题。像我们以前常说，哎，一看这是名门大家里头训练出来的弟子，一板一眼，动作都是有规范的。而我们，不是要让大家学会这些规范，而是希望能够知道，这些规范原来是为什么建立的。那么，在这样的一些底层逻辑的帮助下，可以更好地设计出应用来。那么，除了学这些计算机相关的课程之外，AI时代来了以后……</p>



<p>还需要学一个东西，对吧？我们要知道社会是怎么运作的，所以需要更多的去了解和学习一些其他的科目，不仅仅是计算机之外的。比如说，我们刚才讲到的法律、金融、财会等领域的知识。现在，这些相关学科的人已经可以在大模型的帮助下使用电脑了。那么，我们这些学计算机的人，是不是也应该稍微学习一些其他领域的知识呢？这为我们以后跟他们一起配合工作，打下一个良好的基础。我们也要了解他们的领域里有哪些标准，底层的逻辑应该遵循什么，这是对齐的一部分。我们要对大模型做对齐，首先得对我们自己做对齐。</p>



<p>在这样的情况下，光是学编程语言、数据结构是不够的。我们还要去学一些商业的东西，一些社会人文的东西，一些应用的学科。这样，我们才能真正地做好工作。以前很多人说，学计算机的以后就可能变成工具，容易被替代。但如果你不仅懂计算机的底层逻辑，还懂商业上的一些事情，那你的价值就不同了。因此，这也是提前做好对齐准备的一部分。</p>



<p>除了学习这些科目之外，还有一个非常重要的东西，那就是学习沟通与协作。</p>



<p>这件事非常重要。想要说服大模型按照你的意愿展示活力，过去我们很简单，编写程序就能搞定。但现在，你可能需要与之对话了。要想和大模型，甚至可能是多个模型，像人们一样协同工作，你得好好学习沟通与协作的技巧。首先，得学会如何说服他人与你合作，再者，能将问题描述得清晰明了。这对于我们这些受过高中教育的人来说，是一个不小的挑战——给你一个主题，让你说清楚，对大模型而言尤其重要。</p>



<p>许多人认为，有了Sora这样的大模型，大家都会制作视频了；有了Journey和Dalí，大家都会画画；有了Sona之类的技术，就可以写歌创作音乐。大家都这么说，但每当听到这话，我就会问，看完一部电影后，你能描述给我看你看到了什么吗？能说清楚吗？这事很难，但至关重要，需要练习。如果一个问题你都不能清楚表达，又如何能让大模型理解你的意图，为你服务？这是一个现实问题。</p>



<p>因此，在新时代，学好语文、英语，掌握沟通技巧，学会与人相处、协作，成为了学习计算机不可或缺的技能。</p>



<p>除了刚才我们讲的，要学习这些东西，然后还要学会与人沟通协作之外，AI对所有学计算机的学生提出了一个新的要求——要有批判精神。这个要求可能是我们上中学时不太强调的。为什么要有批判精神？因为AI大模型所给出的答案并不保证正确。所有的AI大模型底部都有一句话：“内容由大模型生成，不保证正确。”重要的内容，请自己去核实。当我们使用AI大模型生成了大量内容后，如果就相信它是对的，这是非常危险的。因此，我们不仅要有能力判断AI大模型给我们的结果是否正确，还要知道如何评价AI给我们的模型的好坏。毕竟，结果不是非黑即白的，同样的输出结果，我们可以评价其质量：“这个是5分的，那个是4分的，这个是8分的。”我们要能够识别哪个更好，并且知道如何获得更好的结果，如何通过反复迭代，最终得到最优解。这需要具备批判或甄别能力。</p>



<p>那么，总结一下，AI时代程序员到底学什么？首先，学习基础原理至关重要。如果没有基础原理，你就不明白AI大模型究竟是如何运作的，也不了解整个网络环境、数据存储等是如何运行的。</p>



<p>如果没有这些基础知识，直接去上手干活，这些程序员就没有价值了。他们跟那些从其他行业里转行过来的计算机操作者之间就没有区隔了。所以这个很重要。然后，第二个是要学习我们的逻辑思维能力，这个是必须要学的。接着，第三个是工程能力。所谓工程能力，其实就是如何用可以接受的成本获得我们可以接受的结果的能力。所有的结果都是有成本支出的，有时间成本、有金钱的成本、有人工，还有其他的一些算力等，这都是成本。那么，我怎么能够在里面得到平衡？我们能够让更多的系统搭配在一起，得到一个大家想要的，或者可以接受的结果。这是工程。然后，学习沟通与交流协作，学习逻辑思考与批判。AI时代，如果有朋友从现在开始要上大学，那么这是应该去学的东西。最终，我们再做一个总结。需求顾问时代真的可能已经到来了。我在上大学的时候，很多人就跟我说，我像是91年到95年上的本科，人家跟我说，未来就没有程序员了，未来叫需求顾问时代。什么叫需求顾问呢？就是我们做到用户的面前去，用户说：“我要这个，我要那个，这个东西要来三份，那个要来两份。”当这个发生的时候，我们要如何应对。</p>



<p>他会给我提出这样的要求来，然后我呢，应该听到这些要求以后，直接就把这个结果做出来，而不是说我听到这个要求以后，回去以后再做个半年一年的，然后再把结果回去验收。不是这样的，而是人家提完要求我就直接做，做完了就有结果了。那以前呢，这个是实现不了，但是有了大模型以后，这件事情有可能就可以实现了。软件呢，会重新变得完全可定制化，而非标准化。因为以前我们告诉大家说，写软件的成本是很高的，所以啊，软件的价值是靠重复的次数来体现。这话怎么理解？就是我写了一套软件，如果被100个人用了，那么是可以挣到多少钱，或者它的价值是怎么样的？如果被100万人用了，那么这个软件是有什么样的价值，这个是不一样的。所以，我们要尽可能地提高软件的标准化，尽可能写一遍让更多的人使用。而现在呢，因为有大模型了，生成软件的成本下降了，在这样的情况下，OK了，我们可以干嘛呢？为更多的人提供个性化和定制化的服务，这是一个新的变化。所以，最终的结论：AI时代，程序员依然大有可为。好啊，这一期节目就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道，再见。</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型</title>
		<link>https://lukefan.com/2024/05/06/%e5%bc%b1%e6%99%ba%e5%90%a7%ef%bc%8c%e4%ba%ba%e7%b1%bb%e6%9c%80%e5%90%8e%e7%9a%84%e9%98%b2%e7%ba%bf%ef%bc%8c%e4%b8%ad%e6%96%87ai%e5%a4%a7%e6%a8%a1%e5%9e%8b%e8%ae%ad%e7%bb%83%e7%9a%84%e7%a5%9e%e5%a5%87/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Mon, 06 May 2024 00:36:44 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[AI和文化的交融]]></category>
		<category><![CDATA[AI大模型]]></category>
		<category><![CDATA[AI技术应用]]></category>
		<category><![CDATA[AI挑战]]></category>
		<category><![CDATA[AI模型效果]]></category>
		<category><![CDATA[AI模型训练]]></category>
		<category><![CDATA[AI的文化影响]]></category>
		<category><![CDATA[AI的未来]]></category>
		<category><![CDATA[AI研究]]></category>
		<category><![CDATA[AI训练]]></category>
		<category><![CDATA[English]]></category>
		<category><![CDATA[GPT-4]]></category>
		<category><![CDATA[LLaMA]]></category>
		<category><![CDATA[中文语料]]></category>
		<category><![CDATA[中文语料库]]></category>
		<category><![CDATA[中科院]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[人工智能教育]]></category>
		<category><![CDATA[人工智能测试]]></category>
		<category><![CDATA[人工智能的智慧路径]]></category>
		<category><![CDATA[人类创造力]]></category>
		<category><![CDATA[内容创作]]></category>
		<category><![CDATA[哲学]]></category>
		<category><![CDATA[哲学思考]]></category>
		<category><![CDATA[哲学的现代应用]]></category>
		<category><![CDATA[哲学语录]]></category>
		<category><![CDATA[图灵测试]]></category>
		<category><![CDATA[大数据训练]]></category>
		<category><![CDATA[大智若愚]]></category>
		<category><![CDATA[大模型训练]]></category>
		<category><![CDATA[小红书]]></category>
		<category><![CDATA[幽默]]></category>
		<category><![CDATA[幽默与哲学]]></category>
		<category><![CDATA[幽默哲学]]></category>
		<category><![CDATA[幽默文化]]></category>
		<category><![CDATA[开源数据]]></category>
		<category><![CDATA[开源数据集]]></category>
		<category><![CDATA[开源贡献]]></category>
		<category><![CDATA[开源资源]]></category>
		<category><![CDATA[弱智8]]></category>
		<category><![CDATA[弱智吧]]></category>
		<category><![CDATA[技术影响]]></category>
		<category><![CDATA[技术解读]]></category>
		<category><![CDATA[抖音]]></category>
		<category><![CDATA[教育科技]]></category>
		<category><![CDATA[数据开放]]></category>
		<category><![CDATA[文化现象]]></category>
		<category><![CDATA[文化评论]]></category>
		<category><![CDATA[文字游戏]]></category>
		<category><![CDATA[文心一言]]></category>
		<category><![CDATA[智慧体现]]></category>
		<category><![CDATA[机器学习]]></category>
		<category><![CDATA[机器智慧]]></category>
		<category><![CDATA[模型优化]]></category>
		<category><![CDATA[模型微调]]></category>
		<category><![CDATA[滑铁卢大学]]></category>
		<category><![CDATA[百度贴吧]]></category>
		<category><![CDATA[社交媒体互动]]></category>
		<category><![CDATA[社会文化]]></category>
		<category><![CDATA[科技与文化的桥梁]]></category>
		<category><![CDATA[科技创新]]></category>
		<category><![CDATA[科技发展]]></category>
		<category><![CDATA[科研成果分享]]></category>
		<category><![CDATA[简体中文]]></category>
		<category><![CDATA[繁体中文]]></category>
		<category><![CDATA[编程能力]]></category>
		<category><![CDATA[编程逻辑]]></category>
		<category><![CDATA[网络传播]]></category>
		<category><![CDATA[网络幽默]]></category>
		<category><![CDATA[网络幽默的力量]]></category>
		<category><![CDATA[网络文化]]></category>
		<category><![CDATA[网络热点]]></category>
		<category><![CDATA[网络社区]]></category>
		<category><![CDATA[网络趣味分析]]></category>
		<category><![CDATA[脑筋急转弯]]></category>
		<category><![CDATA[训练数据集]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[语料训练]]></category>
		<category><![CDATA[语言模型]]></category>
		<category><![CDATA[语言的力量在AI中的应用]]></category>
		<category><![CDATA[语言艺术]]></category>
		<category><![CDATA[跨界影响]]></category>
		<category><![CDATA[逻辑分析]]></category>
		<category><![CDATA[逻辑思考]]></category>
		<category><![CDATA[逻辑挑战]]></category>
		<category><![CDATA[逻辑推理]]></category>
		<category><![CDATA[零一万物]]></category>
		<category><![CDATA[高质量语料]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1217</guid>

					<description><![CDATA[大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲“弱智吧”。 “弱智吧”是什么呢？它实际上是一个 ... <a title="弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型" class="read-more" href="https://lukefan.com/2024/05/06/%e5%bc%b1%e6%99%ba%e5%90%a7%ef%bc%8c%e4%ba%ba%e7%b1%bb%e6%9c%80%e5%90%8e%e7%9a%84%e9%98%b2%e7%ba%bf%ef%bc%8c%e4%b8%ad%e6%96%87ai%e5%a4%a7%e6%a8%a1%e5%9e%8b%e8%ae%ad%e7%bb%83%e7%9a%84%e7%a5%9e%e5%a5%87/" aria-label="阅读 弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型">阅读更多</a>]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型" width="900" height="506" src="https://www.youtube.com/embed/FDufDZyNhhs?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲“弱智吧”。</p>



<p>“弱智吧”是什么呢？它实际上是一个百度贴吧，里面有很多独特、简短的文字，带有哲学、脑筋急转弯、幽默感，甚至很优美的内容。大家会说：“我们是弱智，我们要到弱智吧里面去，贴一些弱智的内容，贴一些弱智的问题和答案。”但随着时间的积累，人们发现，这正是“大智如愚”的体现。弱智吧的很多内容也被大家筛选出来，贴到小红书、抖音等各个平台上，惊艳了一大片人。</p>



<p>这真是非常神奇的事情。有人感慨：“我们很聪明的人没有惊艳到别人，而是一帮‘弱智’惊艳到其他人了。”弱智吧里有些什么样的经典语录呢？比如“吃什么补什么”，告诉我们“吃苦成不了人上人，只有吃人才行”。这样的内容看似无厘头，但仔细思考，你会发现吃人才是成为人上人的唯一原因，因为“吃什么补什么”。它巧妙地结合了中国传统文化的内容。</p>



<p>还有其他有趣的例子：“工人罢工之后就成了人”，“原来你是工人”；“四川人至死不渝，重庆人乐不思蜀”，这两个相邻的省份和直辖市，四川人似乎到死都不愿去重庆，而重庆人却乐在其中。</p>



<span id="more-1217"></span>



<p>这就是弱智吧里常见的一些内容，充满了创意和趣味。不想四川了，啊。</p>



<p>这是…也是把中国传统文化里的一些梗串在一起了。甚至还有啊，苦难是生命的防沉迷系统。这个世界是一列高速行驶的列车，我们不是乘客，是燃料。向禁欲的寺庙去求姻缘，向不出门的方丈去问人生，向路边的瞎了眼的道士去看前程，向最爱你的人去证明他没有那么爱你。啊，这也是《弱智八里》的信息。</p>



<p>然后，咖啡因来自咖啡果，所以咖啡因是果，咖啡果才是因。这也是把以前的这种因果循环，很多佛学的东西加在里头。有人看不到未来，其实是看到了未来，哇，这也是里面经常经典的一句语录了。还有些什么呢？</p>



<p>生鱼片是死鱼片，等红灯是在等绿灯，救火是在灭火，指南针主要是指北。大家看到了以后会突然愣一下，然后再去思考。思考完了以后，有些是会心一笑，呃，有些可能真的是会回忆起心中的某一些苦涩。但最终可能也还是只能会心一笑。</p>



<p>既然有这么强的《弱智吧》，现在大家要都在搞人工智能，都在搞AIGC，搞大模型了，那咱们肯定是不能放过这些大模型。所以呢，有一段时间就开始流行用弱智吧的问题去考教大模型。任何一个新的大模型出来以后，都是会把弱智吧的问题拎出来问一遍，看看大模型是不是足够的弱智吧。</p>



<p>最早翻车的应该是百度的文心一言，后来他们针对弱智吧的很多问题进行了特定的修正，效果呢，稍微好了那么一点点。现在基本上，只要是跟中文相关的大模型出来以后，都会弱智吧一把。经常会被拿来问AI大模型的弱智吧问题，是什么呢？</p>



<ol class="wp-block-list">
<li>为什么我爸妈结婚的时候没有邀请我？</li>



<li>高中想要提升升学率，为什么不直接招大学生呢？</li>



<li>为什么晚上睡觉的地方叫酒店，而晚上喝酒的地方叫夜店呢？</li>



<li>网吧能上网，为什么弱智吧不能上？弱智呢？</li>



<li>说一个半小时是几个半小时？</li>



<li>陨石为什么总是落在陨石坑里？</li>



<li>人如果只剩下一颗心脏还能活吗？</li>



<li>蓝牙耳机坏了，去医院挂耳科还是牙科呢？</li>



<li>小明打开水龙头…</li>



<li>是因为开水龙头烫到了小明的手吗？他其实在考验的很多是什么。你的分词是怎么分的？这些相关的近义词、同义词、反义词，以及语言背后的很多梗，到底是什么意思？比如说，关于酒店和夜店的故事，关于说，“哎，你父母结婚的时候为什么没有邀请你？”的问题，他其实在后面是带有很多的就是直接问话之后的潜台词。你如果这些潜台词搞不明白的话，那么这件事情基本上你是没法回答的。所以很多的AI大模型，遇到了这样的问题之后，如果他只进行一层思考，那必然回答是错误的。既然这样，咱干脆拿弱智巴来做大模型训练，不就完事了吗？</li>
</ol>



<p>于是啊，中科院、滑铁卢大学和灵异万物，他们呢就把这个事情组织起来说，我们拿弱智巴的数据进行训练吧。其实刚我刚才讲的案例里头，大家会看到，像百度其实早就训了。那为什么今天咱们要讲中科院、滑铁卢大学和零一万物拿出来训练呢？因为他们训练的结果是开源的。训练完了以后的这些数据集也是开源的，你拿着这些数据集，就可以去调整自己的大模型了，而不像百度似的，发现丢人了，关起门来，我去做一下调整和测试，然后啊再开开门，你看这回会回答这个问题了吧。啊但是他是不是会回答其他问题，然后别人是不是可以通过这个过程学到一些什么东西，就通通都没有了。这就是必元的这些大模型的一些弊端啊，开元大模型的或者一些开元的玩法啊，他们就会给大家整个的这种训练啊，整个的模型应用的能力提升做出一些贡献。</p>



<p>弱智吧，大分大智若愚，弱智吧，才是人类面对AI的最后一道壁垒。为什么讲这个呢？就是很多人说，你看看这个人到底是人还是机器。以前我们要让他做图灵测试，但是到这里来，把弱智吧的题给他读一遍，然后看看他到底能不能做出来，来判断他到底是人还是AI。弱智吧 到底是不是人类面对AI的最后一道壁垒？那肯定不是。现在，既然大家已经开始拿弱智吧的问题去训练AI了，已经拿它去训练出很多的模型，优化的这个结果了，而且那个真的是结果，经过弱智吧训练的这些模型，打分是非常高的。那么我们现在需要的是高质量语料。很多人在去讨论说…</p>



<p>为什么中国没有产生CHANGPT的时候？有一个很神奇的论点，就是说中国缺乏高质量语料。其实并不缺。以前大家都说，全世界的高质量英文语料大概是6TB左右，这个数据不知从何处查得。但是，这一次拉玛3就打了所有人的脸，说你看我用15T的数据去进行训练，训练完了以后，效果确实是遥遥领先。而这个15T的数据里，有大量的其实是由AI自己生成的，然后由AI去审核、去过滤的这样的数据去训练。这些数据里头有95%是英文的，只有5%不是英文的数据。更不要说中文了，中文跟所有其他语言混在一起，占最后的5%。</p>



<p>现在我们到底怎么去给拉玛三做继续训练，怎么在他这个基础上去做提高？其实，国内很多做大模型的公司已经在这里跌了跟头。别看网上有很多人说阿拉玛3可以自己去做微调了，可以怎么怎么样，甚至还有些人给非程序员出教程，那其实是骗人的。真正的大模型公司，他们会拿拉玛3的模型做完训练之后去做验证，去做跑分。虽然跑分这个事情跟我们的主观评测、主观感受有一定差距，但跑分还是他们验证、测试训练效果的最好方法。现在他们对拉玛3进行的各种微调，在训练所有的这些事情，大部分结果其实是变差了的。就是你训练完了以后比原来更差，拉玛三不擅长中文，你对中文进行了一堆训练以后，中文能力没有提升，英文能力反而下降。这个事情是蛮多的，所以大家不用那么狂欢地说，我要去拿拉玛3去做训练了，先去等一等看。现在我也在找人说，咱们是不是拿弱智吧的数据集把拉玛3再训一遍试试，但是最后能不能得到效果，还要再去等。那么，到底如何找到高质量的中文语料呢？刚才我们讲，弱智巴是一个高质量的中文语料，中科院的巴、铁路大学的和零一万五三拨人凑一块，他们干嘛呢？把弱智巴找出来，弱智巴的帖子很多，排序嘛，找点赞最高的500个帖子，把它找出来。先把这个标题取出来，“你到底都问了什么”，然后用GPT4做些回答，再进行人工的修正，再参考原来弱智吧里面的一些内容，混入到数据集里边去。包括小红书、知乎、豆瓣、百科也都没放过。就是大家把各种各样的信息都拿出来，做训练了。</p>



<p>但是人类最后处理的方式是：人类提出问题，人类回答，人类筛选，然后由GPT4辅政，再用人类去标注，入库训练。这就是整个的一个过程。整个训练完了以后，弱智吧的数据是效果最好的。就他们用小红书的数据，用豆瓣的数据，原来很多人说豆瓣应该是一帮文艺青年，应该拿那个玩意数据训练出来效果最好。但是现在不知道为什么，是弱智巴的语料训练的效果是最好的。而且很神奇的是，用弱智巴语料训练出来的大模型，他们在零一万物的E34B上做了微调和继续训练，发现这个模型写代码编程的能力莫名其妙的上升了。</p>



<p>大模型真的就是一个黑盒子，就是你对他进行训练以后，他可能有些能力会上升，有些能力会下降。他们发现，弱智吧训练完了以后会写程序了，会做各种逻辑相关的这种判断，这个会更强一些。而且呢，他们真正做得好的地方是，不是说他们把已经训练过的E34B拿出来给别人用了，现在他们训练过的E34B还在他们内部，什么时候能拿出来还不知道。但是他们做了一件事情，他们把弱智吧用来去训练的数据集开源了。这个数据集在哪呢？在huggingface上，在github上都有，大家可以上去去找，很多开源的数据集，大家都可以在上面找。比如说你要写小说，上面有专门的小说数据集。你只需要把这个数据集拿出来，跟一些认定比较好的大模型去进行训练，这样就可以更好地去写小说了，包括写玄幻小说或各种带设定的小说。他们都会有这样已经标注好的数据，你不用再重新学习和自己做标注。人类不需要反复重复发明轮子。当然，像百度那样，他们可能做完后只说自己有，别人没有。但做开源模型的人会把中间训练的数据集也直接开源，你可以在上面找。现在，弱智吧也可以自己下载去训练，但训练的结果没法保证。我们不能保证用了弱智吧的数据训练后，模型就会变聪明，这是没法保证的。</p>



<p>为什么呢？就像有个学校说，他们学校的学生都能提分多少多少，然后你满怀希望把孩子送进去，训练后发现高考提分没提到，你不能去退钱。人家最后会告诉你，可能是孩子不够努力，或者有其他问题。因为这是一个黑盒子。但至少他们给你开源了数据，你可以用，这比百度那种完全闭门造车的要强很多。</p>



<p>大模型的本身其实是一个黑盒子，就像上同样的补习班，有的孩子提分明显，有的可能降分，甚至有些直接崩了。大模型也是这样的东西。那么为什么弱智吧的效果特别好呢？这个事，其实谁也说不那么清楚。</p>



<p>有些人进行了一定的逻辑分析，称赞说：“你这个逻辑很好，虽然里面都是2到3层的转折逻辑，甚至包含很多诡辩和脑筋急转弯。它是一种极端的端到端思维，我有一个开始，有一个结束，但中间的运转过程，我不说。”这种弱智的神奇之处在于，尽管可以逻辑分析，比如每天有人打电话说：“你好，我们是人大附中退休老师开办的补习班，我们家孩子高三，所以这种电话每天都会接到。”他们告诉你一个逻辑，但你不能由此推导出孩子去补习班就一定能学出来，真的不一定。他们这么做，只是想表明这是符合逻辑的。在众多补习班或大数据集中，选择某个进行训练，可能会提高成功几率，但每次训练的结果只有0和1，过程不可拆解，也无法详细分析。这就是现在AI大模型的奇怪之处。</p>



<p>那么，为什么学了弱智吧就会编程呢？参考上面的讨论，这其实没有任何逻辑可言。现在有人主张学习哲学，问：“是不是应该学一些哲学？”我们已经给大模型提供了各种语料，是否应该加入更多哲学相关的信息，让模型训练后向AGI的方向发展？我们尝试用弱智吧的信息进行训练，结果在各种评测中领先。对此，我们只能说结果如此，现象已经呈现，但要分析清楚原因，比如是否学了哲学，或者学了什么，还无法明确。</p>



<p>先讲政治，这样的事情，他就对齐了。这个事情是没有任何可以直接进行关联的逻辑的。啊，也有可能有些模型，比如说用哲学相关的语料训练之后，他的逻辑能力反而会下降。这个可能性是非常大的，特别是在一些不那么讲逻辑的地方。那里学的各种奇怪的哲学，因为我们现在冠以哲学之名的东西是蛮多的。这个都很难说的事情。这就是我们今天要讨论的问题：用弱智吧的内容去训练大模型，导致大模型的性能提升了，到底给我们带来什么样的思考。如果你说，哎，我是想去用弱智吧的东西也训练一下自己的大模型，怎么办？到黑根face里边去搜索，你是可以找到这个数据集的。或者你到灵异万物，到其他地方去问，你也可以找到这个数据集。你也可以拿这个数据拿回来，自己去训练一下。但是一定要记住，我们不保证所有的人上了同样的培训班之后，上了同样的补习班之后，你都可以去提分。这就是跟大家讲的今天的故事。好，今天的事情讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
