<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>开源贡献 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%e5%bc%80%e6%ba%90%e8%b4%a1%e7%8c%ae/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Tue, 20 May 2025 00:48:37 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>开源贡献 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>GitHub惊现大量可疑账号为鸿蒙“请愿”兼容，粗暴灌水行为惹怒开发者，开源社区为何对此类推广深恶痛绝并质疑其真实性？</title>
		<link>https://lukefan.com/2025/05/20/github%e6%83%8a%e7%8e%b0%e5%a4%a7%e9%87%8f%e5%8f%af%e7%96%91%e8%b4%a6%e5%8f%b7%e4%b8%ba%e9%b8%bf%e8%92%99%e8%af%b7%e6%84%bf%e5%85%bc%e5%ae%b9%ef%bc%8c%e7%b2%97%e6%9a%b4%e7%81%8c/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Tue, 20 May 2025 00:48:36 +0000</pubDate>
				<category><![CDATA[OpenSource]]></category>
		<category><![CDATA[华为很厉害]]></category>
		<category><![CDATA[ARM V9架构]]></category>
		<category><![CDATA[GitHub]]></category>
		<category><![CDATA[GitHub仓库管理]]></category>
		<category><![CDATA[HarmonyOS]]></category>
		<category><![CDATA[Issue提问]]></category>
		<category><![CDATA[OpenHarmony]]></category>
		<category><![CDATA[Pull Request]]></category>
		<category><![CDATA[Spam]]></category>
		<category><![CDATA[YouTube频道]]></category>
		<category><![CDATA[中国科技产业]]></category>
		<category><![CDATA[低级红高级黑]]></category>
		<category><![CDATA[信任危机]]></category>
		<category><![CDATA[兼容鸿蒙]]></category>
		<category><![CDATA[刷数据]]></category>
		<category><![CDATA[华为]]></category>
		<category><![CDATA[国产操作系统]]></category>
		<category><![CDATA[封闭系统]]></category>
		<category><![CDATA[开发者工具]]></category>
		<category><![CDATA[开发者文化]]></category>
		<category><![CDATA[开源]]></category>
		<category><![CDATA[开源社区]]></category>
		<category><![CDATA[开源贡献]]></category>
		<category><![CDATA[开源项目]]></category>
		<category><![CDATA[微软]]></category>
		<category><![CDATA[技术伦理]]></category>
		<category><![CDATA[技术分析]]></category>
		<category><![CDATA[操作系统竞争]]></category>
		<category><![CDATA[灌水评论]]></category>
		<category><![CDATA[社区行为规范]]></category>
		<category><![CDATA[禁止侧载]]></category>
		<category><![CDATA[科技评论]]></category>
		<category><![CDATA[网络行为]]></category>
		<category><![CDATA[老范讲故事]]></category>
		<category><![CDATA[虚假账号]]></category>
		<category><![CDATA[软件开发]]></category>
		<category><![CDATA[软件适配]]></category>
		<category><![CDATA[鸿蒙]]></category>
		<category><![CDATA[鸿蒙PC]]></category>
		<category><![CDATA[鸿蒙生态]]></category>
		<category><![CDATA[麒麟X90芯片]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=2207</guid>

					<description><![CDATA[啊啊啊啊啊啊啊！家人们！我今天刷到一件事，真的让我破防了！😭 鸿蒙开发者跑到GitHub上疯狂灌水，要求开源项目兼容鸿蒙，这到底是怎么回事？！不允许有人不知道这个大瓜！快跟我一起吃瓜！🍉

首先，我得说，这事真的太离谱了！GitHub是什么？那是程序员的天堂，全球开源项目的聚集地啊！结果最近突然冒出一堆账号，在各种项目下提issue，内容几乎一模一样：“鸿蒙系统超棒，你们快来兼容吧！”甚至连zip压缩这种跟鸿蒙八竿子打不着的项目都被骚扰了！救命！这波大水漫灌的操作，真的让人无语到家！😡

再来看看这些账号，绝大部分都是新注册的，或者老账号突然“复活”，信息不完善，连个公开仓库都没有，名字还是一堆拼音加数字，明显就是机器生成的嘛！更离谱的是，有些人还提交垃圾代码，建个“Open Harmony”文件夹，里头全是废代码，浪费别人时间！家人们，这种行为真的太没礼貌了！😤

开源社区靠的是信任和尊重，你上来就这么搞，谁会理你啊？！好多项目维护者直接反感，甚至把这些灌水贴全删了，账号也被GitHub清理了！结果呢？本来想提升鸿蒙影响力，现在反而让人讨厌，适得其反啊！如果真有需求，好好沟通不行吗？说明白问题，提具体建议，甚至自己写代码提交，这样才对嘛！😢

最后我想说，鸿蒙系统发展是好事，但这种投机取巧的方式真的不可取！家人们，你们怎么看这事？是不是也跟我一样破防了？快来评论区聊聊吧！顺便点个赞收藏，怕你错过更多大瓜！啊啊啊啊啊！💥

GitHub惊现大量可疑账号为鸿蒙“请愿”兼容，粗暴灌水行为惹怒开发者，开源社区为何对此类推广深恶痛绝并质疑其真实性？

近期，大量声称代表鸿蒙的开发者账号涌入GitHub，针对众多开源项目粗暴“灌水”，要求提供对鸿蒙系统的兼容性支持。这些行为多表现为使用可疑新账号或不活跃旧账号，提交格式雷同、内容空泛甚至包含垃圾代码的issue，引发开源社区普遍反感与争议。此事恰逢华为鸿蒙PC发布，其动机被广泛猜测，可能涉及为鸿蒙生态刷数据、提升表面影响力，甚至不排除“低级红高级黑”的可能。这种破坏信任基础、不尊重开源社区规则的行为，不仅无助于鸿蒙生态的健康发展，反而可能损害其声誉，导致开发者对其产生负面印象，警示鸿蒙在推动其生态建设时，应尊重开源规则与社区文化，避免急功近利，方能赢得真正的开发者支持与信任。
]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="GitHub惊现大量可疑账号为鸿蒙“请愿”兼容，粗暴灌水行为惹怒开发者，开源社区为何对此类推广深恶痛绝并质疑其真实性？" width="900" height="506" src="https://www.youtube.com/embed/88uc33vSVsM?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>很多鸿蒙开发者突然跑到GitHub里边去灌水，要求开源项目去兼容鸿蒙。这到底是怎么回事？</p>



<p>大家好，欢迎收听老范讲故事的YouTube频道。最近突然出现了一波潮流，一堆的开发者跑到GitHub里去灌水，说你们要去支持鸿蒙。咱们稍微呢先讲一下GitHub的一个生态是什么样的。</p>



<p>GitHub呢大家可以认为它是一个仓库聚集地。很多的开源项目都会把自己家的仓库建在GitHub上。GitHub呢，现在是属于微软的一个项目。就算它项目吧，它到底是不是盈利，这个事我搞不太清楚。如果是个公司的话，年年亏损也比较讨厌。微软是全资收购了GitHub，花了好多钱。</p>



<p>上面有非常非常多的仓库。每一个仓库呢都包含几件事情：第一个是谁创建的这个仓库，这个仓库属于谁的；第二个是仓库的源代码；第三个呢是仓库的issues，就是有什么问题。比如说我们使用了一个代码，我向你去提问题。有些人仓库的管理者呢，就会跟大家去讨论，你是不是试试另外一些方法，或者干脆我给你改一改吧。因为问题嘛，一般是分为bug和建议，分为这两种。他有的时候就给你改bug，有的时候给你去按照建议修改一下方向。</p>



<span id="more-2207"></span>



<p>还有呢，叫pull request。就是我替你改吧，改完了以后呢，我提交一些代码。因为我并不拥有这个仓库，所以我要向原来仓库的拥有者去提，这叫pull request。人家审核了以后呢，可以把我的代码合并进去。审核不通过，这个代码就扔掉了。</p>



<p>还有的仓库里边是带Wiki的，就是维基百科似的东西，来说明我这个仓库里边各项的内容到底是怎么回事。这就是GitHub的一个基本的组成：一大堆仓库，每个仓库有作者代码、issues、pull request加上Wiki还有其他的一些东西。</p>



<p>还有一些呢叫做分支。就是你做了一个项目了，我提了pull request，结果你又不理我。那干脆我在你原来的基础上分支一个出来，然后我在我自己的分支上改来改去的，也是可以的。所以它呢是这样的一个生态，可能有几百万或者上千万粉，非常非常多的开源仓库在里边。</p>



<p>这个系统呢它是有一套生态。什么生态？就是大家把想要开源的东西放上去，包括千问、DeepSeek这些东西都在上面。大家呢，一起去使用这些开源系统，然后上去提意见、提问题、提交代码，让这个开源系统可以在全世界人见证下快速的发展。当然也有一些人开源了项目上去，你提什么都不理你，比如埃隆马斯克的XAI。</p>



<p>包括他们家那个Twitter的推荐系统，他们开源上去了以后，任何人提issue，他是不理你的。这个也没问题，这没有人规定说你必须要理。</p>



<p>现在突然有一大堆的账号上来，在不同的开源仓库下边去提issue，就我们有问题了。什么问题呢？我要求你去支持鸿蒙。这个就很奇怪了。因为大家要知道，这么多人在使用这么多的、各种方向的开源项目或者叫开源仓库的时候，突然有一波人很集中的提相同的问题，都属于一个比较奇葩的事件吧。</p>



<p>现在呢，就是一大堆新账号，而且这些账号呢，都是刚注册不久的账号，或者呢是原来很不活跃的旧账号。因为有一些呃这种社区网站，像DISCORD也算社区吧，它呢是为了避免这些垃圾信息的滋扰，会让这些老的账号有一定的权限，新的账号是没有的。所以呢，还有一些账号就是原来不活跃的，突然开始活跃。我们认为这样的账号呢，其实也是有一定的欺诈性的，就不是那么靠谱。</p>



<p>这些账号呢有一些共同的特点，就是要求别人接入鸿蒙的。这些账号有一个什么特点呢？第一个是大部分账号呢，账号信息不完善。一般你到GitHub上去注册账号，你是要去完善信息的：我是谁，我在哪上班，我平时写什么代码，我对什么感兴趣，写一些简介，然后我再开源几个项目，这个才算是一个相对比较完善的账号。但是你想，你新注册一新账号上去灌水的，那他很多的信息就不完善嘛。</p>



<p>而且大部分账号呢，是没有什么公开仓库。你私有多少仓库是没人管你的，大家看的就是你有多少公开仓库。没有公开仓库呢，说明这个人可能平时并不是一个开源活动的积极参与者。还有一些账户呢，它是用拼音和数字来构成的账户名，这个也比较奇怪，像是由机器自动生成的。</p>



<p>当然还有一些账户和邮箱呢，直接是由乱码生成的，就是用电脑程序自动的去注册Gmail邮箱，可能一下注册几十万个Gmail邮箱，或者几百万个Gmail邮箱。注册完了以后呢，拿这些账号再去注册GitHub账号，慢慢的把这账号养起来。当需要的时候，再把这玩意一把拿出来，扔进去灌水。</p>



<p>还有一些伪造账号，或者叫伪装账号，他们玩什么呢？就是他有一些公开的仓库，但是他这公开仓库呢，就是从其他人的仓库那儿去分支出来的，就fork出来，连改都没改过。你按道理说，我从其他的账户里头或者从其他的仓库里头做了一个分支，等于镜像到自己的账户里去了，你得改。你这么镜像几个，连改都不改，这个事也是比较奇怪的。</p>



<p>所以现在向里边灌水的这些账户，还是比较可疑的。</p>



<p>提交的内容呢，也挺奇怪的。上来先说鸿蒙系统很好，非常有前景，我们很多人都要使用。结果你的系统不支持鸿蒙，你这个项目不支持，这个不对，你应该来支持鸿蒙。写了一大堆这样的东西。</p>



<p>而且呢，一般你要求别人去支持什么新的操作系统的时候，你要写得很清楚。说我到底要干什么，我原来是怎么用的，现在为什么要迁移，迁移过来以后呢，我发现有一些什么样的问题，我希望你来去进行兼容。他要写清楚。很多这样的东西都没写，写的都很宽泛，就是“鸿蒙好厉害，你来兼容吧”。</p>



<p>很多的项目里边，收到的issue明显是拷贝的。你在不同的项目里给的这个问题都是一样的。现在主要是一些什么样的仓库被骚扰了呢？主要是一些Javascript、C和C++的工程项目的库被骚扰了。并不是说做好的项目，大家注意，很多开源库不是一个完全能跑的产品，而是说你做产品的过程中需要使用的一些底层的支撑。它里头有消息处理，有图像处理，网络通信。</p>



<p>最逗的是，它有一个是zip压缩。我们经常把一些文件压缩成zip格式，按道理说鸿蒙里头是带zip压缩的。他也上去给人提一个问题，说“你这要支持一下”。所以呢，从这里看呢，这个灌水的人压根就没有很认真的去筛选哪些项目到底跟鸿蒙系统有关，哪些项目跟鸿蒙系统无关，直接上去大水漫灌的。这个就属于纯扯淡了。</p>



<p>那开源社区的反馈是什么呢？刚才咱们讲了开源生态，所以开源是一个挺松散的社区。这样的问题的反馈一定是非常的反感，这个没有什么可说的。因为呢，开源是一个没有那么多规则的地方，就算是有很多规则呢，其实也没有办法强制执行。</p>



<p>那在这种很松散的社区里头，大家是靠什么来协作的呢？靠的是信任和礼貌。你上来你得讲礼貌，我们给你一定的信任，相互之间配合起来，这个事才能往前走。结果你一上来大水漫灌，四处的拷贝粘贴这些issue，浪费我的时间。这个一定会让别人讨厌的。</p>



<p>如果你说我真的有需求，比如鸿蒙PC已经发布了，我们的甲方爸爸他就真的采购了一批鸿蒙PC，要求我们去做软件适配。结果发现原来我使用的这个库，比如说是一些图像处理的库，到这个新的鸿蒙系统里头就不兼容了，跑不了了。这个事该怎么办？其实你应该上去把自己的需求说明白。比如说我现在需要使用一个特殊的图像格式，这个图像格式鸿蒙原来还不支持，我使用的开源库也不兼容，现在希望能够有一些解决方法。你可以去提，提完了以后你好好说清楚，对方会帮你想想办法，要么他给你做一个兼容。</p>



<p>或者说，我给你写一个别的模块。你可以在这个服务器端，把它转换成一个鸿蒙系统兼容的格式，你再下发到鸿蒙去使用，也是可以的。就是他不一定非要说，把这个库改到鸿蒙兼容你。反正你要解决问题嘛。</p>



<p>像我们去提各种issue以后，得到的回复并不一定都是说，人家把系统给你改了。他会告诉你说，你自己去调哪个东西，或者你自己怎么去改一下什么代码，就可以往前走了。好多都是这样来解决问题的。</p>



<p>而且呢，在很多的时候，我们提issue的时候呢，你还要去提建议。一般的issue的格式是什么？就是说：<br>第一，我使用的是什么版本。你不能说清楚，你使用的是什么环境、什么版本的话，人家压根就不看这个issue。<br>第二个呢，要去描述说，我希望看到的结果是什么。然后呢，是我看到的一个错误的结果是什么，我希望怎么改变。<br>一般一个完整的issue应该是这样的一个架构。你不能上来说，这个东西好厉害，你来兼容。这是不行的。你一般会提出建议：我建议怎么怎么修改，或者我建议有什么什么样的方式可以让我去尝试。</p>



<p>甚至呢，我们提issue的时候还要求什么？我们要求把人家原来的这些开放的issue和关闭的issue都要看一下。什么叫开放？什么叫关闭？就是你提了问题了，给你解决了，你也觉得解决挺好，你就可以把这个issue close掉。那就相当于是有一个解决方法了。</p>



<p>像我们去提issue之前都是要先搜索的。大概率情况下，我们是不需要提的。因为可能以前有人遇到过这样的问题，已经有人解决过了。那我就直接照着人解决的方法去解决，不就完事了吗？连看都不看，搜索都不搜索，直接就去这个提问题，这个是比较被人讨厌的。</p>



<p>像有些比较严格的仓库要求，在提issue之前，在一个checklist上打勾。那个checklist里头有一项，就是我已经查过了，没有跟我这一样的，我才来提的。你如果是这个查都不查，上来就很宽泛的提的话，这是不行的。</p>



<p>而且呢，有很多人提了issue以后，还是会提交代码的。比如说有一些项目，我们希望它兼容鸿蒙，那怎么办呢？我给你做一个鸿蒙兼容的小模块上来。然后呢，我把代码给你提交上去，你给我审核一下。如果审核没什么毛病的话，你让我通过就完了。相当于这个系统就算是兼容鸿蒙了，不也挺好的吗？</p>



<p>当然，现在这帮人也有提交代码上去的，就是这一次给鸿蒙兼容进行灌水的。这帮人也有提交代码，但是他们提交代码都是废代码。什么是废代码？就是他把人家原来的项目做了个分支出来。</p>



<p>然后呢，在里头建了一个目录，这个目录叫Open Harmony。在这个目录里头，是存了一大堆垃圾代码，没有任何有用的东西存在里头了。而这个就属于纯浪费别人的时间。</p>



<p>当我们用正确的方式提出了issue之后的话，也需要逐步的建立信任。这个信任不可能说因为我是鸿蒙，因为你要爱国，大家就可以直接建立的。没有那么容易，你也要跟人聊一段时间。人家发现你确实是喜欢用我的系统，也确实给我们提了很多的意见和建议，这个信任才会逐渐的建立起来。</p>



<p>开源社区的协作也是讲关系的。只有相互信任的人去协作才会有效率。而大家在这种开源社区里头，我也不知道你是谁，你也不知道我是谁，我都不知道键盘后边是人是狗。那如果所有的问题我都去响应的话，肯定是响应不过来的。我一定是要找到一些相对来说比较可信的人，他们提出的问题我才去回复。这个信任也是一个逐渐建立的过程。</p>



<p>现在呢，鸿蒙这帮人集中进入，注册了一大堆的新账号、假账号。当然，中国人通过GitHub造假这个历史是很悠久的，特别是原来很多玩B圈的人注册了大量的GitHub账号。为什么？因为当时很多Web 3的项目，还有ICO的项目，都是要看你的开源项目有多少星，有多少关注，是要看一个指标的。所以当时有非常非常多的人去注册假账号来去刷GitHub。还有很多人去靠这玩意去求职，你看我这个GitHub很活跃，上面有很多很多项目。当然这个都可以造假，就是你去fork别人的这个呃仓库回来，甭管你改不改，反正也算是你又活跃了一下。</p>



<p>这帮人找了一大堆并不一定跟鸿蒙相关的项目，有的是相关，有的是绝对不相关的项目，就开始广泛的提需求。而且有些艺术是直接拷贝复制的，再提交垃圾代码。这个就非常过分了，因为人家的时间也是时间，也很宝贵。甭管你说是专职做开源，还是兼职做开源，大家都去提issue，都去提问题的时候，理谁不理谁，人家也需要去分配时间。结果你浪费人的时间看这种垃圾代码，那肯定会被骂的，同时浪费自己的信誉。</p>



<p>为什么有人干这种事呢？第一个，这事谁干的？反正华为官方目前呢叫不予置评，我没听说过，没有这事。有可能有真实的需求，不是说这个完全没有真实需求。但是呢，只要是非常不讲礼貌的把需求扔上去，都不会有人理你的。即使是真需求，只要你不讲礼貌，与一大堆虚假需求混在一起提交，就会被埋没掉。就算有真需求，也会被这一次的事件给毁掉。有些人呢可能还是想去提升鸿蒙的影响力。</p>



<p>因为你去提一大堆这种issue以后的话，鸿蒙特别是Open Harmony（就是鸿蒙里头有一个开源的版本），它的这个搜索的因子就会上升，好像是有很多人去使用它一样。它最后就可以去写报告了：“你看这么多项目都在收到要求，要跟我们兼容，我们现在可受欢迎了。”有些人就爱看这种报告，那么就有些人会给他造这样的数据吧。刷分这件事呢，反正有些人还是比较擅长的吧。</p>



<p>那你说是不是有人故意去恶心鸿蒙呢？从当前的结果来看，这个目的实现了。灌水灌下去以后，大家都很讨厌你这个鸿蒙：“你怎么能够这么讨厌？”这个也有可能是有组织的，进行了一次“低级红高级黑”。因为到目前为止，并没有谁站出来承认说这事是我干的。所以呢，几种可能性，我们只能去猜测了。</p>



<p>稍微呢再讲两句，最近新出的鸿蒙PC到底有多开放呢？在鸿蒙5.0以后，就是“纯血鸿蒙”了，里头不带Linux、不带安卓了，就是完完全全由微内核去架构的一套自有的操作系统。这个确实是自己写的。但是呢，这个里边分两部分：一套呢叫Open Harmony，就是它有一套是开源的；另外一个呢是定制的鸿蒙系统，就是华为自己用的，都是在OpenHarmony的基础上去定制的。所以他跑去要求人家兼容，都是要求兼容Open Harmony。你接入了Open Harmony以后呢，你就可以把这个项目或者这个系统，引入到鸿蒙系统里头来去使用。</p>



<p>微软的Windows呢，现在已经禁止给华为进行授权了，所以以后华为的电脑上就不能再去装Windows操作系统了。华为就推出了自己的鸿蒙PC系统。鸿蒙PC呢挺贵的，这个也很正常，因为主要是机关单位采购，没有哪个个人会买这个东西。但也不好说，可能真的有特别爱国的人会去买。里边使用的芯片呢，是叫麒麟X90芯片，就不是原来什么9100、9200这些芯片了，那是做手机的。做PC是用的叫X90，做PC呢，你就可以做的更大一些，散热呢，差一点没什么关系，多耗一点电也可以，毕竟PC上面的电池要更大一些嘛，而且对算力的要求更高。</p>



<p>有人呢，对麒麟X90呢进行了跑分，据说超过了苹果M2。像我是M2 Max，也许比我这个还要稍微差那么一点点吧，但是也比较接近了。这个里头没有独显，里边是有华为自己做的显卡，就是一个GPU芯片嘛，使用的呢是ARM V9架构。大家要注意，华为呢是把ARM V9架构的整个系统级使用授权终身买断了，就是它一直都可以用。美国要求跟华为断绝关系的时候呢……</p>



<p>确实是断了几天。后来呢，华为专门做了一个审查，说你看MV9架构里头是没有美国技术的，是纯纯的英国技术。所以我可以去得到授权，使用美国技术的arm V10以及arm的其他的技术，我是不可以用的。但是arm V9我可以一直用下去。</p>



<p>这里边所谓的美国技术，就是一些比如AI算力核心、加密解密。就这些东西呢，都是属于美国技术，这个是不可以给华为使用的。现在升腾910B、升腾910C都是MV9架构的，麒麟9100、9200、麒麟X90都是MV9架构的。</p>



<p>这个电脑呢，有人去试过了，感觉就是一个带着键盘的平板，就类似于平板电脑似的。因为它整个的使用的习惯跟华为平板是很像的，只是呢，它有键盘有鼠标。麒麟的PC呢，实际上就是麒麟笔记本，它没有台式机。麒麟笔记本是一个完全封闭系统，彻底不允许侧载。什么叫侧载？就是你在它的应用市场之外去安装应用，完全不允许。Windows大家经常去侧载，包括我们使用的macos，就是MacBook，什么都是可以侧载的。但是麒麟PC上就完完全全不允许侧载。</p>



<p>而且如果你没有麒麟X90的芯片，你也没法装麒麟操作系统。你说我这有一个英特尔的电脑，或者我原来买的华为的电脑，是英特尔芯片的也不行。你或者说我这是华为的平板电脑，配个键盘，用的是麒麟9100的芯片，能不能升级？这东西也不行。它现在只支持的一种芯片，所以呢，就完完全全是一个封闭系统。</p>



<p>目前呢，据说有几百个常用应用了，什么WPS这东西都有了。还有一些呢是在适配之中，只是这个过程呢还是比较漫长的。在这个过程中，有一大堆人跑去提issues了，就是今天咱们讲这故事。它里边呢可以跑虚拟机，就是跑一个子系统，在虚拟机里头可以跑Windows 11。如果你说我实在是有一些Windows应用需要用，怎么办？你可以在这个子系统里去跑，但是这个效率就会差非常非常多。其他的什么安卓应用、MacOS应用、iOS应用在上头都跑不了，Linux应用在上头也跑不了，就是这样的一套系统。</p>



<p>这个系统呢，算是比上不足比下有余吧。跟Windows、Mac、Linux这些比起来，还有比较大的差距，毕竟是个新的系统嘛。但是呢，跟国内现在的这些信创系统比起来，绝对碾压，遥遥领先。就是在这样的一个时间点上，鸿蒙PC发布，5月19号正式销售。一堆人跑去GitHub上去灌水去了，现在这些灌水的帖大部分被删掉了。这些灌水的账号呢，绝大部分直接被GitHub给清除了。</p>



<p>再也不能上来了，大概就得到了这样的一个结果。</p>



<p>以后，鸿蒙系统继续想要去完备它的生态，难度会上升那么一点点。</p>



<p>最后总结一下：鸿蒙系统和生态还在努力的推进，有领先的地方。想要依靠开源社区来丰富生态，这件事呢，本身是个好事。但是，投机取巧、不讲礼貌，只会让人讨厌，会得到适得其反的效果的。</p>



<p>这就是今天咱们讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>华为云的Gitcode 搬运 GitHub 仓库引发开源社区震怒：未经授权伪造项目。死不认错，控制舆论，让CSDN出来顶缸、背锅。华为开发者生态，岌岌可危。</title>
		<link>https://lukefan.com/2024/07/01/%e5%8d%8e%e4%b8%ba%e4%ba%91%e7%9a%84gitcode-%e6%90%ac%e8%bf%90-github-%e4%bb%93%e5%ba%93%e5%bc%95%e5%8f%91%e5%bc%80%e6%ba%90%e7%a4%be%e5%8c%ba%e9%9c%87%e6%80%92%ef%bc%9a%e6%9c%aa%e7%bb%8f%e6%8e%88/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Mon, 01 Jul 2024 15:44:20 +0000</pubDate>
				<category><![CDATA[OpenSource]]></category>
		<category><![CDATA[华为很厉害]]></category>
		<category><![CDATA[CSDN]]></category>
		<category><![CDATA[Gitcode]]></category>
		<category><![CDATA[GitHub]]></category>
		<category><![CDATA[中国开源生态]]></category>
		<category><![CDATA[代码审查]]></category>
		<category><![CDATA[代码托管]]></category>
		<category><![CDATA[代码盗用]]></category>
		<category><![CDATA[伪造项目]]></category>
		<category><![CDATA[华为]]></category>
		<category><![CDATA[开源代码]]></category>
		<category><![CDATA[开源创新]]></category>
		<category><![CDATA[开源协议]]></category>
		<category><![CDATA[开源发展]]></category>
		<category><![CDATA[开源合作]]></category>
		<category><![CDATA[开源安全]]></category>
		<category><![CDATA[开源实践]]></category>
		<category><![CDATA[开源工具]]></category>
		<category><![CDATA[开源平台]]></category>
		<category><![CDATA[开源战略]]></category>
		<category><![CDATA[开源技术]]></category>
		<category><![CDATA[开源政策]]></category>
		<category><![CDATA[开源文化]]></category>
		<category><![CDATA[开源标准]]></category>
		<category><![CDATA[开源框架]]></category>
		<category><![CDATA[开源模式]]></category>
		<category><![CDATA[开源治理]]></category>
		<category><![CDATA[开源环境]]></category>
		<category><![CDATA[开源生态]]></category>
		<category><![CDATA[开源社区]]></category>
		<category><![CDATA[开源社区创新]]></category>
		<category><![CDATA[开源社区发展]]></category>
		<category><![CDATA[开源社区合作]]></category>
		<category><![CDATA[开源社区安全]]></category>
		<category><![CDATA[开源社区实践]]></category>
		<category><![CDATA[开源社区工具]]></category>
		<category><![CDATA[开源社区战略]]></category>
		<category><![CDATA[开源社区技术]]></category>
		<category><![CDATA[开源社区政策]]></category>
		<category><![CDATA[开源社区文化]]></category>
		<category><![CDATA[开源社区标准]]></category>
		<category><![CDATA[开源社区框架]]></category>
		<category><![CDATA[开源社区模式]]></category>
		<category><![CDATA[开源社区治理]]></category>
		<category><![CDATA[开源社区环境]]></category>
		<category><![CDATA[开源社区管理]]></category>
		<category><![CDATA[开源社区规则]]></category>
		<category><![CDATA[开源社区解决方案]]></category>
		<category><![CDATA[开源社区资源]]></category>
		<category><![CDATA[开源管理]]></category>
		<category><![CDATA[开源规则]]></category>
		<category><![CDATA[开源解决方案]]></category>
		<category><![CDATA[开源贡献]]></category>
		<category><![CDATA[开源资源]]></category>
		<category><![CDATA[开源软件]]></category>
		<category><![CDATA[开源道德]]></category>
		<category><![CDATA[开源项目]]></category>
		<category><![CDATA[开源项目管理]]></category>
		<category><![CDATA[技术社区]]></category>
		<category><![CDATA[未经授权]]></category>
		<category><![CDATA[重庆市政府]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1360</guid>

					<description><![CDATA[大家好，欢迎收听老范讲故事。今天我们来讲一下Gitcode搬运GitHub仓库的事情。这个事情发生在6月26号 ... <a title="华为云的Gitcode 搬运 GitHub 仓库引发开源社区震怒：未经授权伪造项目。死不认错，控制舆论，让CSDN出来顶缸、背锅。华为开发者生态，岌岌可危。" class="read-more" href="https://lukefan.com/2024/07/01/%e5%8d%8e%e4%b8%ba%e4%ba%91%e7%9a%84gitcode-%e6%90%ac%e8%bf%90-github-%e4%bb%93%e5%ba%93%e5%bc%95%e5%8f%91%e5%bc%80%e6%ba%90%e7%a4%be%e5%8c%ba%e9%9c%87%e6%80%92%ef%bc%9a%e6%9c%aa%e7%bb%8f%e6%8e%88/" aria-label="阅读 华为云的Gitcode 搬运 GitHub 仓库引发开源社区震怒：未经授权伪造项目。死不认错，控制舆论，让CSDN出来顶缸、背锅。华为开发者生态，岌岌可危。">阅读更多</a>]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="华为云的Gitcode 搬运 GitHub 仓库引发开源社区震怒：未经授权伪造项目。死不认错，控制舆论，让CSDN出来顶缸、背锅。华为开发者生态，岌岌可危。" width="900" height="506" src="https://www.youtube.com/embed/hl2anrn72jM?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>大家好，欢迎收听老范讲故事。今天我们来讲一下Gitcode搬运GitHub仓库的事情。这个事情发生在6月26号，Gitcode大量搬运了GitHub仓库。在搬运的过程中，没有征得原来的主人的同意。更过分的是，在搬运后还修改了仓库代码，伪造成自己原创的。因为我们在GitHub里面都会写这个Readme，会把仓库地址写进去，告诉别人这个项目是从GitHub的哪个网址来的。然而，Gitcode上去后，把这个信息给改了，改成说这个项目是从Gitcode来的。更可恶的是，还伪造了大量作者的账号和主页，说这个项目是他们做的。因为他知道，我们首先要有一个人创建了相关的账号，才可以在这个账号上建立自己的开源仓库。如果没有一个人在这里的话，这个仓库不能凭空冒出来。所以他为这些作者们还整个创建了网页，相当于全都爬回来建了一遍。这实在是太过分了，整个开源社区直接就爆炸了，因为没有见过这么无耻的人。大家一个个跑去Gitcode下面去骂，去要求删除这些未经许可搬运的代码库。有些作者干脆在自己的代码库里面投毒，也就是放梯子啊或者一些其他相关的代码在里面。因为这种代码，Gitcode什么也不问啊。</p>



<p><br>什么也不查，就直接搬回来。那么搬回来以后再去举报他，有些人采用这样的手段。但是你如果真的是国内的人的话，估计也不太敢啊。美国人的项目他搬也就搬了，但是怎么说呢，人家美国人也未必发现。现在第一批发现的，实际上就是中国的这些开源的创作者。然后开始往里面投毒。这件事情的核心是Gitcode啊，Gitcode它是一个公司，不要想着它是一个网站啊。它首先后边是一个公司，这公司什么时候创建的呢？2023年9月22号成立的啊。为什么有这么好的一个日子呢？因为那是2023年华为HDC的日子。前两天HDC刚发什么鸿蒙啊，什么仓颉开发语言啊，就是HDC叫华为开发大会上。那你说为什么2023年9月22号的HDC上会去创建一个叫Gitcode的这样的公司呢？那我们要去看一下Gitcode这公司下头有哪些股东。这个公司的名字叫做重庆开元共创科技有限公司。一共呢有三个股东，第一个股东叫长沙开发者科技有限公司，占40%的股份。那么这个公司呢，其实就是CSDN啊，就是大家比较习惯CSDN。但是从来没想过它是一个长沙的公司，对吧CSDN呢，中间有一段时间经营得不是特别好啊，直接被一个长沙的公司应该是买下来了吧。第二个公司叫深圳市红土善利私募股权投资基金合伙企业。</p>



<span id="more-1360"></span>



<p><br>长了这么长的一个名字，它实际上是个投资机构嘛？所以你看它叫合伙企业啊，它占30%。那么这个基金是谁出的钱呢？49%的钱是深圳市引导资金，实际上这是个政府的钱。真正由企业出的钱是谁出的？是华为技术有限公司给了1.9亿人民币。然后，华为旗下的哈勃科技投资有限公司认缴了1,000万。所以华为给了两个亿在里边。所以他的第二个股东呢，基本上认为是华为系的基金啊。第三个股东叫做重庆渝智信企业管理咨询合伙企业，占30%股份。这个是一个什么样的公司？这是一个重庆国资的，等于重庆做国资的一个大的基金，就是重庆市政府实际上是。所以呢这个公司呢是CSDN，40%负责运营啊。然后呢是华为，然后是重庆市政府，因为重庆希望把自己打造成中国的开源软件圣地，所以重庆对很多的开源项目都有支持，这样也支持了他30%。大家知道，重庆还有一个基金叫天工开物开元基金会啊，我是那个基金会的顾问，所以重庆现在是四处在搞这个事情。这个公司的法人是谁呢？这公司的法人跟董事长叫蒋涛，实际上是CSDN的创始人。他的核心技术就是整个这套Gitcode的网站，是拿什么东西搭的呢？是由华为云的，叫code us，us是Arts代码艺术的意思啊。所谓的code us呢，实际上是一套类似于GitHub的。</p>



<p><br>代码托管平台的一套系统，算是一代新的AI驱动的开源开发者平台。实际上，它是由CSDN技术和华为云联合运营的。华为作为4S店出资，尽管出资不多，服务器也相对较为简陋。此外，重庆市政府也为该项目提供了一些资金支持。因此，只有这样的项目才能在2023年的HDC上发布，并宣布成立并开始工作。所以，实际上这是一个华为项目。许多人都在抨击CSDN，但我认为CSDN算是替华为背锅了。在国内，如果你要抨击华为，这件事就无法进行了。但现在这个事情基本上已经被压住了。除了一些零散的报道外，国内基本上没有其他报道。这也是华为一贯的做事方式。那么，我们来看看国内现在有哪些大的开源项目。第一个是Gitee，由开放原子基金会开发的开源Git仓库。现在其中最大的一个项目是OpenHarmony，华为将鸿蒙的源代码系统放在了这个仓库中。第二个是Coding，实际上是被腾讯收购的，后来又收购了另一个项目GitCafe，原来是与我一起做数字游民项目的Thomas是GitCafe的创始人。第三个是CodeUp，后面实际上是阿里云。</p>



<p><br>大家注意啊，一般云计算公司喜欢去做这样的，啊，代码托管仓库。为什么？因为他自己有服务器，有存储空间，而且你一旦做了托管仓库以后，大家也比较容易把这些代码托管仓库里边的代码部署到你自己的云服务器上。所以一般的云计算厂商会整这个玩。像have后边是微软云啊，所以这个都是相同的道理。最后这个呢，就是咱们今天讲的it code啊，它呢是CSDN跟华为云一起来做的，像咱们今天上午放的那期视频，讲仓颉语言的社区，就在Gitcode里面。啊，这个就是在为华为服务，前面那个项目他没抢着open，him也没抢着啊，太早了嘛，被Git拿走了。后面华为肯定是什么都要用自己的嘛，啊，绝不能假手他人啊，万一被人卡了脖子怎么办呢，所以自己做了一个Gitcode，然后把后边的仓颉语言社区就搬进来了啊。这就是国内的开源项目仓库的一个基本发展现状吧。那么，这一次的Gitcode到底干了些什么啊？咱们说搬运这件事，其实大家都搬国内的开源仓库呢，没有不搬的啊。搬呢，其实分三个层次搬啊。第一个层次呢，是叫镜像搬运。镜像搬运呢，其实也还算是善意。为什么叫算是善意而不是完全善意呢？就这种仓库搬运啊，有的时候也没有得到别人的授权和认可。你按道理说，你应该先问明白啊，说你允不允许我搬进来做仓库。如果人家不允许。</p>



<p><br>你是不能搬的啊，但是这种镜像搬运一般不稳啊，都会搬进来。但是搬完了以后呢，他会保留人家原来所有的信息。你不能赶上代码这事是第一个，第二个呢，他会专门的去注明出处，说：“这个我是从guitarb上那儿搬回来的啊”。如果有什么问题，你到哪儿去问去，他一般会写清楚。而且呢，他的目的是什么呢？就是国内的guitarb经常访问不通畅，那我又要用这些代码怎么办呢？我给你搬回来，搬回来以后，你可以在上面去使用。像Kitty前面其实做过类似这样的事情，在国内呢，也形成了一定的讨论啊。如果对方作者要求了啊，你说你给我删了吧，或者怎么给我整理一下TT，他们应该也会去处理。只是搬之前他没问人家吧。这个呢主要是给国内开发者使用的。当然还有一个很重要的原因是什么呢？就是做这种镜像搬运的时候是可以进行合规审核的，因为很多的wetab上的项目在国内其实是不合规的。我在搬之前我审核一下，如果合规了我把搬回来啊。如果不合规的话我就不搬了。所以很多人说为了不被搬呢，在这个代码里头放一些在国内不应该放的东西。这是第一种啊。第二种呢，就属于叫生搬硬套。这种就是比较傻，什么意思呢，就啥也不说，我就直接把它搬回来，不做任何的修改和调整。这种呢就属于比较愣的方式吧。第三种呢，就属于纯坏啊，就是搬运之后还修改原作者信息。</p>



<p>这种就属于特别特别坏 Gitcode 干的呢。就是这样的一个情况，把这个项目源头改了，号称说这个作者最开始就是在我这做的。而且呢，伪造了作者的账号和页面啊，说这个作者，你看他自己在我这登录了啊。而且这种账号页面还特别讨厌，是什么呢？等作者说，我现在想去删这个项目的时候，keep keep code 还非常强硬，说你怎么证明这项目是你的，你要先来上网来登录，来登录完了以后呢，你还要去认证你的这个项目，你说我没法认证，因为你是伪造了我的页面。我现在自己登录上就是一个新账号了，当然可以啊，你授权给我，你授权给我，你就可以啊进入到这个页面里去了，你可以去删除这个项目。但是你授权完了以后呢，你删你是删不干净的，你在 top 上是哪个账号，它内部是哪个连在一起，这个会给它绑在一起。现在呢，它等于做的叫赤裸裸的绑架，就是你想要求删除你的项目，你必须在我这注册账号，必须先授权给我，你不授权给我，我就不允许你去删除。而现在呢，可能就是再去授权他，你都删不掉了。这个就属于是无耻到家的一种行为。那么为什么这个事被社区所痛恨呢？啊，大家要注意啊，开源其实并不是一种公益。在前面讲很多开源的项目时候都讲过，开源呢是一种新型的松散协作方式，实际上它本身是一种商业模式。这是挣钱的。那么这种挣钱的商业模式上&#8230;</p>



<p>希望以上格式化后的文本能满足您的需求。如果还有其他问题，请随时告诉我。<br>因为大家是松散协作嘛，一定要有非常明确的规则和道德进行约束。否则的话，在这样的一个环境里边，去把代码开源出来，你连问都不问就给我拿走了，还给我改，改完了以后就直接剥夺我了，然后要求我证明我是我自己，要求我证明我有这个权利去使用这些代码仓库，这个就有点像中国这种银行，老人死了以后，你去取存款，要求证明你妈是你妈，你爸是你爸，这个就属于非常非常的恶心。</p>



<p>而且开源呢，算是现代软件互联网乃至人工智能发展的一个基石。你如果没有这一套道德约束，没有这一套调性的话，不会有开源，也没有我们现在能够使用的这些软件、互联网以及软件工程人工智能。这些东西都不会有啊。那么你只能是被人卡脖子啊，没什么好说的。</p>



<p>那么遇到像Gittold这样赤裸裸的绑架、耍流氓这种方式的话，就属于是完完全全的在破坏社区规则。而且把基本规则做完破坏掉了以后，你就再也不可能形成啊，新的说做一个规则。因为这个是这样，就是你去建立起信任是很慢的，你需要做很长时间的好人，才有可能建立起信任来。但是只要做一次坏事的话，大家就不信了啊，这个人原来干过坏事啊，他会有这样的情况。</p>



<p>整个中国这么多人，在去找开源的项目啊，在去为开源的事业做贡献，也是希望中国能够借助到全世界开源的这种风气吧。我们不会被其他国家甩掉，我们也可以利用开源。<br>这种先进的商业模式，让中国整个的软件系统可以更快地追上其他国家。这也是我们一直在努力做的事情。结果突然出现了这么一个人，上来说我这么干了，我就有理了。那么很多在开源这块做出努力的人，包括像我这样的人，包括之前上过节目的一些开源社区的人，都会觉得自己这么长时间付出的努力付诸东流了。所以大家现在在骂他，但是现在的事情基本上舆论被压住了。其实你离开软件圈，离开开源圈，没人知道这件事对吧？极个别的报道也不会得到流量，因为后面其实是华为现在把锅背上了。说这是华为干的，我们丢人了，就这样了。华为也不说什么，而且到现在为止他们也不承认错误，说我没错啊。你现在还是一样想上来深项目，你还是得注册我的新账号，注册完了以后要经过我的认证来证明你是，你才能再去删除。而且绝大部分人应该是删除失败啊，现在一帮人还在继续骂。华为还是非常非常的高大上的，而且现在还有一堆人跑出来洗地。这个特别逗，是在Twitter上还是在哪？我在讲这件事情，就有人出来洗了。洗什么呢？他说哎呀，万一GitHub以后卡我们脖子怎么办呢？我们不就使不了了吗？我们现在先把它扳回来，万一它以后卡我们脖子，我们不就有备用了吗？我觉得持有这种观点的人&#8230;<br>脑子真的不知道是怎么长的啊？第一个GitHub从来没有卡过你的脖子，也没有卡过我的脖子。现在国内GitHub无法正常使用的原因，到底是谁卡了谁的脖子？GitHub几次被封，几次解开，其实GitHub的状态一直属于个玄学状态。而且呢，它里头因为有很多的项目，在中国可能不是那么合法。我记得原来有一个叫学习强国啊，那个是干嘛的？就是专门帮你去破解学习强国软件，然后帮你去抓时间的。这个肯定不属于我们允许的范围内吧。在有些地区呢，你可以去访问GitHub，但是，如果你想从上面大量地下载代码下来，是不允许的。他会侦测到啊，一旦发现你去进行大型的代码沟通了，直接把你干掉。那你说GitHub，你这个投入点人力物力，把中国不喜欢的东西都删掉不就完了吗？其实不太容易啊。为什么呢？它是开源服务啊，本身带有一点点公益性质。所以对代码进行审核这件事，本身成本又很高，就不是那么划算。所以GitHub也不太愿意干这个事。而且你想，他在美国微软下边的公司，你说啊，我应中国政府要求，把那些项目给他删掉了，这个也不行啊。大家知道Zoom原来是怎么被美国政府收拾的啊？他就是应了中国政府的要求，把一些在Zoom上开会的人的会议室直接关闭了。那美国政府的直接处罚他。那么这个事肯定是不行的。</p>



<p><br>那么你的输入文本是：那你说能不能做一个镜像战 对吧你中国人得访问这部分啊 或者说有一些东西你是中国人 可以访问的 有些东西访问不了 这个成本其实是很高的 谁来做这代码审核 审核完了以后我到底怎么放这个东西 而且GitHub下面 你是可以相互之间进行项目引用的 那我引用了一个 我无法访问的这个项目 那你怎么办啊 所以GitHub一直也没干这事啊 怎么说呢 中国政府你有审核 要求我们抵制他 把他封掉呢 也不算完全师出无名吧 也算是有一点点理由 那么在这样的情 况下你说我们想继续跟上 国际开源软件的新潮流 怎么办呢 如果能够在获得同意和许可之后 你去做一些镜像 注明出处 这个事其实挺好的 没有什么大问题 对吧如果你说我没有获得同意 我也做了镜像了啊 如果下次人家要求删 我就自己麻溜的把他删掉 这个事呢 也行啊 也不算是特别十恶不赦 但是像Gitcode这样的事呢 就属于实在是干的太恶心了啊 那么Gitcold干的最恶心的地方在哪儿 首先CSTN啊 它因为背靠的是CST嘛 CSTN本身底子那种 稍微有点潮 CSDN是中国最大的软件开发社区啊 而且是最古老的 它是1999年就成立了啊 CSDN的意思是Chinese software Developer network啊 叫中国软件开发者网络对吧</p>



<p>但为了生存，他做了很多妥协。因为大家都知道，技术开发社区的收入是有限的。最初，他的收入主要来自广告。然后开始进行招聘。我知道这件事是因为我以前在Boland做过类似的工作，我们有时会在上面打广告。但最后我感到很不满，因为Bolan比较穷。一上去打广告，他们就说：“你看IBM给了多少钱？你看vivo给了多少钱？你看OPPO给了多少钱？你们太穷了。”我就是被他们歧视的那一群人。他们只会上谁给的钱多的广告。广告做完后，就开始招聘，然后进行培训，接着开始举办各种技术大会。实际上，技术大会也都是在收钱。为什么他们必须要活下去呢？在中国做社区这件事，我们曾经讨论过，如果你不交钱，不交社区的费用，这个社区为了生存就会失去立场，只会说一些商业化的话。谁花钱，他就给谁说话。它一定会变成这样。所以CSEA一直保持着这样的状态。为了保持活跃，你必须要有一定的日活和月活，要有点击量。所以，它上面有大量的低端内容来充实期间。<br>做一个社区，经常会有新人提出问题，比如1+1等于几，2+2等于几，他们通常不会去搜索，而是不停地提问。正常情况下，你应该有一套规则，不允许他们不做搜索直接问这些问题，否则应该将他们踢出去。这样才能保持社区的秩序和发展。但是CSDN并没有这样做，他们一直允许这种行为。我们一定要把这些问题都留下来，你们都在我的社区里提问。提问完后，我才能有更多的人看到，才能有更多的广告刷新和展示机会，有更多的广告点击率。CSDN一直在做这样的事情。所以整个CSDN的内容和用户其实都比较低端。像高端一点的东西，虽然也有，但很少。而且对于程序员这个职业来说，到了高端的程序员，谁不知道Gitup呢？谁不知道攀援是怎么回事呢？大家肯定都明白。CSDN为了维持自己的正面形象，还是在低端程序员中继续发展吧。所谓的开源社区是需要慢慢培养的，不能因为你是华为云，众多爱国开发者就会跑来。这是不现实的。像Gitup这样的事情，我做到现在也已经做了十六七年了，不是因为我做了Gitup大家才来的。这是慢慢做出来的。Gitcode是在2023年9月22日创建的，到现在只有几千个用户，这才是正常的。</p>



<p><br>或者几百个用户，有个几百个项目，这才是正常的啊。并不是因为是华为云，所以大家才非常热烈。社区是一个鸡生蛋，蛋生鸡的滚动过程，也就是内容吸引人，人产生内容的过程。但对于社区来说，最重要的并不是鸡，也不是蛋，既不是内容，也不是人，而是底层的规则与调性。这才是最核心的价值。一旦一个社区失去了底层的调性，失去了底层的规则，那这个社区就不存在了，只是一堆没有任何意义的数据而已。</p>



<p>有25年历史的CSDN肯定了解这个逻辑，CS蒋涛从很早就开始干这个事了，到现在肯定是懂的。那为什么现在还要去搞这种大力出奇迹的事情呢？一定是有一些不愿意相信这个事情的人，不愿意相信社区规则的人。说我们天有多大胆，地有多大产，我们不遵守这种规则，一定要大力出奇迹，这事一定是华为云干的。你想，他成立不到一年就有245万用户，3.3万个项目，5万个组织，这不是胡说八道吗？而且计划在今年10月份还要推出运营增强版，年底要上AI版本，2025年要成为中国开发者首选的开源平台。像那么多阿里云、腾讯云、GT的一堆，还要跟他们竞争，我要最厉害，因为我是华为嘛。这种事是CSDN这样干了25年或者干了26年的老开发者能说得出来的话吗？<br>这不是人话，但是Gitcode的人就说了，这个事就办了，办成现在成了一堆笑料。现在这个事情依然没有解决。我今天上午还有一帮朋友在Gitcode里边去折腾。第一个Gitcode里边大量的issue。什么叫issue？就是说我们写了一个项目以后遇到问题了，我们会去提。这种叫issue，issue互相看不见。为什么？因为医术大家都是提着说，你这无耻的人啊，把我的项目搬回来，赶快给我删了。都是这种东西啊。所以现在干脆医术你也别看了，然后禁止讨论。啊，你们现在不允许在我的项目里讨论。这都是我辛辛苦苦偷回来的，你怎么可以在我的辛辛苦苦偷回来的项目下头评头论足呢？你怎么可以说是你的呢？所以不许讨论，而且项目跟人完全隔离，对吧？你想说哎，我现在想找一个项目啊，你搜索能搜索到，但是搜索到以后你点点不进去的。现在变成这样了，而且用户之间相互也找不到。你去搜索，完全找不到这个人啊，因为我们也是，以前有几个老同事都有上面账号啊，对吧？说来我们互相的项目里头协作一下，发现找不着人了，现在也是如此。而且到目前为止，拒不认错啊，没有任何人出来承担这个错误，对吧？也没有任何人说我要怎么改进这事啊，我怎么去修改这个项目。没有人说这事，这个事就完了，就跟华为做的很多其他的事情是一样的。</p>



<p><br>那么，Give Call事件的后续影响可能会是什么呢？首先，会出现更加严格的开源项目和开源代码审查。这是必然的，因为Gitcode上架了大量有毒代码或者国内不允许上架的代码，而且还被举报了。现在他们已经陷入了困境，无法解决这个问题。想一想，他们其实可以拉回来项目并检查一下，确定这是一个翻墙软件还是一个反动或色情的软件，但是他们没有这个能力，他们只是闭着眼睛看。阿卡尔将项目拎回来后，他们很顺利地将所有以Githave开头的链接改成了Gitcode开头的链接。这件事情发生后，国内一定会进行严格的检查，再次发生类似的事情一定会受到严厉的处罚。因为我们也咨询了国内其他开源软件平台，如果你的平台上出现类似的代码，那个平台就会被封站。至今为止，Code还没有被封，战战仍然屹立在那里。这肯定给中国的开源事业造成了极大的倒退。其次，这对整个中国开源社区也是一个很大的打击。因为本来开源是无国界的，很多人说，哎，你看俄罗斯入侵乌克兰了，我们是不是不应该让他们使用开源软件。但是开源行业的人，包括整个开源圈子里的人，表示不同意，开源是不相信这些东西的。</p>



<p><br>对吧，任何人都可以继续贡献代码，都可以使用这些代码。但是，请记住不要进行恶意行为。大家相信你，你也不能做坏事。现在我们将自己单独拆分出来，不遵守你的规则。我将把这个东西拿回来，然后修改其中的所有信息。当你要求我删除时，我会坚决拒绝。这是一个非常大的问题。而且，华为的生态建立基本上也因此而告吹了。我今天上午在华为仓颉开发语言的讲解中提到了一个新的开发语言。这个开发语言是否成功与其技术好坏有关，但并不是最重要的。核心是要看你的社区以及上下游产业链是否丰富。而这件事情基本上把整个华为的生态链都搁置了。没有人会去参与这个事情，因为我们已经知道了，无论我将东西放到华为仓库还是其他地方的仓库，都有可能被你拿回来并进行修改。而且，当我要求取回我的权利、删除或修改时，你都不理睬我。所以，没有人会再给你贡献任何东西，除非他们脑子有问题。鸿蒙和仓颉现在都在建立开发者关系，而一个关键的时刻就是开发者生态。但是你无法建立起来。如果你玩弄黑暗森林法则，也就是说，我不知道你是不是好人，我也不知道如果我是个好人，那么就没有人会为你贡献任何东西了。</p>



<p><br>这件事情涉及到开源软件的安全问题，确实存在一些挑战。开源软件默认相信所有的参与者都是善意的，但如果有人恶意利用开源软件，整个开发者生态可能会受到影响。</p>



<p>在《三体》系列中，黑暗森林法则被描述为一个相互猜忌和防范的状态，这种状态下，人们为了自身安全会采取极端的行动。这段描述中提到了一座纪念雕塑群，它象征着人们在黑暗森林法则下的困境和挣扎。</p>



<p>对于华为来说，不能仅仅因为已经取得了一定成就就停下来，而是要按照文明的规则不断向前发展。有人可能会主张我们要发明自己的规则，不要遵守西方人创造的规则，但开源本身确实是西方人创建的规则。然而，作为中国人，我们也有自己的规则和价值观，我们可以在遵守开源规则的基础上发展出符合自身国情的开源文化。</p>



<p>中国自古以来就有自己的规则和价值观，比如&#8221;率土之滨，莫非王臣；四海之内，莫非王土&#8221;，意味着只有在皇帝的统治下，土地和权力才能稳定和有序。这段描述强调了产权不清晰的问题，如果产权没有明确，那么它永远不会真正属于你，而是属于皇帝。</p>



<p>在处理这个问题时，我们需要综合考虑各种因素，遵守规则的同时，也要根据自身的国情和价值观做出适当的调整和发展。开源软件的安全问题需要全球范围内的合作和共同努力，只有这样才能建立一个安全可靠的开发者生态。</p>



<p><br>是非对错是由身份地位决定的，而不是由本身是非对错决定的。而且，还去搞什么百善孝为先，实际上都是在讲这个。不要讲对错啊，你要首先讲你的立场。历史是由胜利者书写的，那意思就是说，自古以来所有东西，你想怎么干怎么干啊，最终都可以。行大事者不拘小节，你可以不守规则。中国人的规则，最后当规则成为上层攫取利益工具的时候，我们的技术是如何传承的呢？我们的技术玩的叫传男不传女。如果是依靠传男不传女的这种方式，你有可能打破卡脖子吗？你是不可能打破卡脖子，你会被人卡一辈子。人家能够快速的发展是靠开源，是靠相信所有人都是好人，相信每一个人都愿意遵守开源的规则与礼貌。在这样的一个大家约定俗成的情况下，我们不需要订立那么严苛的规则，就可以一起去协作，就可以做出新的软件来了，可以做出新的人工智能来。咱们这好，我们要用中国的规则，我们要搞传男不传女，最后是成王败寇，那么我们只能被人卡脖子卡到死啊。这个就是华为Gitcode搬运GitHub项目的最终结果啊。这个咱们就把话放这儿。好啊，这是我们今天讲的第一个故事。</p>



<p></p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型</title>
		<link>https://lukefan.com/2024/05/06/%e5%bc%b1%e6%99%ba%e5%90%a7%ef%bc%8c%e4%ba%ba%e7%b1%bb%e6%9c%80%e5%90%8e%e7%9a%84%e9%98%b2%e7%ba%bf%ef%bc%8c%e4%b8%ad%e6%96%87ai%e5%a4%a7%e6%a8%a1%e5%9e%8b%e8%ae%ad%e7%bb%83%e7%9a%84%e7%a5%9e%e5%a5%87/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Mon, 06 May 2024 00:36:44 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[AI和文化的交融]]></category>
		<category><![CDATA[AI大模型]]></category>
		<category><![CDATA[AI技术应用]]></category>
		<category><![CDATA[AI挑战]]></category>
		<category><![CDATA[AI模型效果]]></category>
		<category><![CDATA[AI模型训练]]></category>
		<category><![CDATA[AI的文化影响]]></category>
		<category><![CDATA[AI的未来]]></category>
		<category><![CDATA[AI研究]]></category>
		<category><![CDATA[AI训练]]></category>
		<category><![CDATA[English]]></category>
		<category><![CDATA[GPT-4]]></category>
		<category><![CDATA[LLaMA]]></category>
		<category><![CDATA[中文语料]]></category>
		<category><![CDATA[中文语料库]]></category>
		<category><![CDATA[中科院]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[人工智能教育]]></category>
		<category><![CDATA[人工智能测试]]></category>
		<category><![CDATA[人工智能的智慧路径]]></category>
		<category><![CDATA[人类创造力]]></category>
		<category><![CDATA[内容创作]]></category>
		<category><![CDATA[哲学]]></category>
		<category><![CDATA[哲学思考]]></category>
		<category><![CDATA[哲学的现代应用]]></category>
		<category><![CDATA[哲学语录]]></category>
		<category><![CDATA[图灵测试]]></category>
		<category><![CDATA[大数据训练]]></category>
		<category><![CDATA[大智若愚]]></category>
		<category><![CDATA[大模型训练]]></category>
		<category><![CDATA[小红书]]></category>
		<category><![CDATA[幽默]]></category>
		<category><![CDATA[幽默与哲学]]></category>
		<category><![CDATA[幽默哲学]]></category>
		<category><![CDATA[幽默文化]]></category>
		<category><![CDATA[开源数据]]></category>
		<category><![CDATA[开源数据集]]></category>
		<category><![CDATA[开源贡献]]></category>
		<category><![CDATA[开源资源]]></category>
		<category><![CDATA[弱智8]]></category>
		<category><![CDATA[弱智吧]]></category>
		<category><![CDATA[技术影响]]></category>
		<category><![CDATA[技术解读]]></category>
		<category><![CDATA[抖音]]></category>
		<category><![CDATA[教育科技]]></category>
		<category><![CDATA[数据开放]]></category>
		<category><![CDATA[文化现象]]></category>
		<category><![CDATA[文化评论]]></category>
		<category><![CDATA[文字游戏]]></category>
		<category><![CDATA[文心一言]]></category>
		<category><![CDATA[智慧体现]]></category>
		<category><![CDATA[机器学习]]></category>
		<category><![CDATA[机器智慧]]></category>
		<category><![CDATA[模型优化]]></category>
		<category><![CDATA[模型微调]]></category>
		<category><![CDATA[滑铁卢大学]]></category>
		<category><![CDATA[百度贴吧]]></category>
		<category><![CDATA[社交媒体互动]]></category>
		<category><![CDATA[社会文化]]></category>
		<category><![CDATA[科技与文化的桥梁]]></category>
		<category><![CDATA[科技创新]]></category>
		<category><![CDATA[科技发展]]></category>
		<category><![CDATA[科研成果分享]]></category>
		<category><![CDATA[简体中文]]></category>
		<category><![CDATA[繁体中文]]></category>
		<category><![CDATA[编程能力]]></category>
		<category><![CDATA[编程逻辑]]></category>
		<category><![CDATA[网络传播]]></category>
		<category><![CDATA[网络幽默]]></category>
		<category><![CDATA[网络幽默的力量]]></category>
		<category><![CDATA[网络文化]]></category>
		<category><![CDATA[网络热点]]></category>
		<category><![CDATA[网络社区]]></category>
		<category><![CDATA[网络趣味分析]]></category>
		<category><![CDATA[脑筋急转弯]]></category>
		<category><![CDATA[训练数据集]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[语料训练]]></category>
		<category><![CDATA[语言模型]]></category>
		<category><![CDATA[语言的力量在AI中的应用]]></category>
		<category><![CDATA[语言艺术]]></category>
		<category><![CDATA[跨界影响]]></category>
		<category><![CDATA[逻辑分析]]></category>
		<category><![CDATA[逻辑思考]]></category>
		<category><![CDATA[逻辑挑战]]></category>
		<category><![CDATA[逻辑推理]]></category>
		<category><![CDATA[零一万物]]></category>
		<category><![CDATA[高质量语料]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1217</guid>

					<description><![CDATA[大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲“弱智吧”。 “弱智吧”是什么呢？它实际上是一个 ... <a title="弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型" class="read-more" href="https://lukefan.com/2024/05/06/%e5%bc%b1%e6%99%ba%e5%90%a7%ef%bc%8c%e4%ba%ba%e7%b1%bb%e6%9c%80%e5%90%8e%e7%9a%84%e9%98%b2%e7%ba%bf%ef%bc%8c%e4%b8%ad%e6%96%87ai%e5%a4%a7%e6%a8%a1%e5%9e%8b%e8%ae%ad%e7%bb%83%e7%9a%84%e7%a5%9e%e5%a5%87/" aria-label="阅读 弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型">阅读更多</a>]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型" width="900" height="506" src="https://www.youtube.com/embed/FDufDZyNhhs?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲“弱智吧”。</p>



<p>“弱智吧”是什么呢？它实际上是一个百度贴吧，里面有很多独特、简短的文字，带有哲学、脑筋急转弯、幽默感，甚至很优美的内容。大家会说：“我们是弱智，我们要到弱智吧里面去，贴一些弱智的内容，贴一些弱智的问题和答案。”但随着时间的积累，人们发现，这正是“大智如愚”的体现。弱智吧的很多内容也被大家筛选出来，贴到小红书、抖音等各个平台上，惊艳了一大片人。</p>



<p>这真是非常神奇的事情。有人感慨：“我们很聪明的人没有惊艳到别人，而是一帮‘弱智’惊艳到其他人了。”弱智吧里有些什么样的经典语录呢？比如“吃什么补什么”，告诉我们“吃苦成不了人上人，只有吃人才行”。这样的内容看似无厘头，但仔细思考，你会发现吃人才是成为人上人的唯一原因，因为“吃什么补什么”。它巧妙地结合了中国传统文化的内容。</p>



<p>还有其他有趣的例子：“工人罢工之后就成了人”，“原来你是工人”；“四川人至死不渝，重庆人乐不思蜀”，这两个相邻的省份和直辖市，四川人似乎到死都不愿去重庆，而重庆人却乐在其中。</p>



<span id="more-1217"></span>



<p>这就是弱智吧里常见的一些内容，充满了创意和趣味。不想四川了，啊。</p>



<p>这是…也是把中国传统文化里的一些梗串在一起了。甚至还有啊，苦难是生命的防沉迷系统。这个世界是一列高速行驶的列车，我们不是乘客，是燃料。向禁欲的寺庙去求姻缘，向不出门的方丈去问人生，向路边的瞎了眼的道士去看前程，向最爱你的人去证明他没有那么爱你。啊，这也是《弱智八里》的信息。</p>



<p>然后，咖啡因来自咖啡果，所以咖啡因是果，咖啡果才是因。这也是把以前的这种因果循环，很多佛学的东西加在里头。有人看不到未来，其实是看到了未来，哇，这也是里面经常经典的一句语录了。还有些什么呢？</p>



<p>生鱼片是死鱼片，等红灯是在等绿灯，救火是在灭火，指南针主要是指北。大家看到了以后会突然愣一下，然后再去思考。思考完了以后，有些是会心一笑，呃，有些可能真的是会回忆起心中的某一些苦涩。但最终可能也还是只能会心一笑。</p>



<p>既然有这么强的《弱智吧》，现在大家要都在搞人工智能，都在搞AIGC，搞大模型了，那咱们肯定是不能放过这些大模型。所以呢，有一段时间就开始流行用弱智吧的问题去考教大模型。任何一个新的大模型出来以后，都是会把弱智吧的问题拎出来问一遍，看看大模型是不是足够的弱智吧。</p>



<p>最早翻车的应该是百度的文心一言，后来他们针对弱智吧的很多问题进行了特定的修正，效果呢，稍微好了那么一点点。现在基本上，只要是跟中文相关的大模型出来以后，都会弱智吧一把。经常会被拿来问AI大模型的弱智吧问题，是什么呢？</p>



<ol class="wp-block-list">
<li>为什么我爸妈结婚的时候没有邀请我？</li>



<li>高中想要提升升学率，为什么不直接招大学生呢？</li>



<li>为什么晚上睡觉的地方叫酒店，而晚上喝酒的地方叫夜店呢？</li>



<li>网吧能上网，为什么弱智吧不能上？弱智呢？</li>



<li>说一个半小时是几个半小时？</li>



<li>陨石为什么总是落在陨石坑里？</li>



<li>人如果只剩下一颗心脏还能活吗？</li>



<li>蓝牙耳机坏了，去医院挂耳科还是牙科呢？</li>



<li>小明打开水龙头…</li>



<li>是因为开水龙头烫到了小明的手吗？他其实在考验的很多是什么。你的分词是怎么分的？这些相关的近义词、同义词、反义词，以及语言背后的很多梗，到底是什么意思？比如说，关于酒店和夜店的故事，关于说，“哎，你父母结婚的时候为什么没有邀请你？”的问题，他其实在后面是带有很多的就是直接问话之后的潜台词。你如果这些潜台词搞不明白的话，那么这件事情基本上你是没法回答的。所以很多的AI大模型，遇到了这样的问题之后，如果他只进行一层思考，那必然回答是错误的。既然这样，咱干脆拿弱智巴来做大模型训练，不就完事了吗？</li>
</ol>



<p>于是啊，中科院、滑铁卢大学和灵异万物，他们呢就把这个事情组织起来说，我们拿弱智巴的数据进行训练吧。其实刚我刚才讲的案例里头，大家会看到，像百度其实早就训了。那为什么今天咱们要讲中科院、滑铁卢大学和零一万物拿出来训练呢？因为他们训练的结果是开源的。训练完了以后的这些数据集也是开源的，你拿着这些数据集，就可以去调整自己的大模型了，而不像百度似的，发现丢人了，关起门来，我去做一下调整和测试，然后啊再开开门，你看这回会回答这个问题了吧。啊但是他是不是会回答其他问题，然后别人是不是可以通过这个过程学到一些什么东西，就通通都没有了。这就是必元的这些大模型的一些弊端啊，开元大模型的或者一些开元的玩法啊，他们就会给大家整个的这种训练啊，整个的模型应用的能力提升做出一些贡献。</p>



<p>弱智吧，大分大智若愚，弱智吧，才是人类面对AI的最后一道壁垒。为什么讲这个呢？就是很多人说，你看看这个人到底是人还是机器。以前我们要让他做图灵测试，但是到这里来，把弱智吧的题给他读一遍，然后看看他到底能不能做出来，来判断他到底是人还是AI。弱智吧 到底是不是人类面对AI的最后一道壁垒？那肯定不是。现在，既然大家已经开始拿弱智吧的问题去训练AI了，已经拿它去训练出很多的模型，优化的这个结果了，而且那个真的是结果，经过弱智吧训练的这些模型，打分是非常高的。那么我们现在需要的是高质量语料。很多人在去讨论说…</p>



<p>为什么中国没有产生CHANGPT的时候？有一个很神奇的论点，就是说中国缺乏高质量语料。其实并不缺。以前大家都说，全世界的高质量英文语料大概是6TB左右，这个数据不知从何处查得。但是，这一次拉玛3就打了所有人的脸，说你看我用15T的数据去进行训练，训练完了以后，效果确实是遥遥领先。而这个15T的数据里，有大量的其实是由AI自己生成的，然后由AI去审核、去过滤的这样的数据去训练。这些数据里头有95%是英文的，只有5%不是英文的数据。更不要说中文了，中文跟所有其他语言混在一起，占最后的5%。</p>



<p>现在我们到底怎么去给拉玛三做继续训练，怎么在他这个基础上去做提高？其实，国内很多做大模型的公司已经在这里跌了跟头。别看网上有很多人说阿拉玛3可以自己去做微调了，可以怎么怎么样，甚至还有些人给非程序员出教程，那其实是骗人的。真正的大模型公司，他们会拿拉玛3的模型做完训练之后去做验证，去做跑分。虽然跑分这个事情跟我们的主观评测、主观感受有一定差距，但跑分还是他们验证、测试训练效果的最好方法。现在他们对拉玛3进行的各种微调，在训练所有的这些事情，大部分结果其实是变差了的。就是你训练完了以后比原来更差，拉玛三不擅长中文，你对中文进行了一堆训练以后，中文能力没有提升，英文能力反而下降。这个事情是蛮多的，所以大家不用那么狂欢地说，我要去拿拉玛3去做训练了，先去等一等看。现在我也在找人说，咱们是不是拿弱智吧的数据集把拉玛3再训一遍试试，但是最后能不能得到效果，还要再去等。那么，到底如何找到高质量的中文语料呢？刚才我们讲，弱智巴是一个高质量的中文语料，中科院的巴、铁路大学的和零一万五三拨人凑一块，他们干嘛呢？把弱智巴找出来，弱智巴的帖子很多，排序嘛，找点赞最高的500个帖子，把它找出来。先把这个标题取出来，“你到底都问了什么”，然后用GPT4做些回答，再进行人工的修正，再参考原来弱智吧里面的一些内容，混入到数据集里边去。包括小红书、知乎、豆瓣、百科也都没放过。就是大家把各种各样的信息都拿出来，做训练了。</p>



<p>但是人类最后处理的方式是：人类提出问题，人类回答，人类筛选，然后由GPT4辅政，再用人类去标注，入库训练。这就是整个的一个过程。整个训练完了以后，弱智吧的数据是效果最好的。就他们用小红书的数据，用豆瓣的数据，原来很多人说豆瓣应该是一帮文艺青年，应该拿那个玩意数据训练出来效果最好。但是现在不知道为什么，是弱智巴的语料训练的效果是最好的。而且很神奇的是，用弱智巴语料训练出来的大模型，他们在零一万物的E34B上做了微调和继续训练，发现这个模型写代码编程的能力莫名其妙的上升了。</p>



<p>大模型真的就是一个黑盒子，就是你对他进行训练以后，他可能有些能力会上升，有些能力会下降。他们发现，弱智吧训练完了以后会写程序了，会做各种逻辑相关的这种判断，这个会更强一些。而且呢，他们真正做得好的地方是，不是说他们把已经训练过的E34B拿出来给别人用了，现在他们训练过的E34B还在他们内部，什么时候能拿出来还不知道。但是他们做了一件事情，他们把弱智吧用来去训练的数据集开源了。这个数据集在哪呢？在huggingface上，在github上都有，大家可以上去去找，很多开源的数据集，大家都可以在上面找。比如说你要写小说，上面有专门的小说数据集。你只需要把这个数据集拿出来，跟一些认定比较好的大模型去进行训练，这样就可以更好地去写小说了，包括写玄幻小说或各种带设定的小说。他们都会有这样已经标注好的数据，你不用再重新学习和自己做标注。人类不需要反复重复发明轮子。当然，像百度那样，他们可能做完后只说自己有，别人没有。但做开源模型的人会把中间训练的数据集也直接开源，你可以在上面找。现在，弱智吧也可以自己下载去训练，但训练的结果没法保证。我们不能保证用了弱智吧的数据训练后，模型就会变聪明，这是没法保证的。</p>



<p>为什么呢？就像有个学校说，他们学校的学生都能提分多少多少，然后你满怀希望把孩子送进去，训练后发现高考提分没提到，你不能去退钱。人家最后会告诉你，可能是孩子不够努力，或者有其他问题。因为这是一个黑盒子。但至少他们给你开源了数据，你可以用，这比百度那种完全闭门造车的要强很多。</p>



<p>大模型的本身其实是一个黑盒子，就像上同样的补习班，有的孩子提分明显，有的可能降分，甚至有些直接崩了。大模型也是这样的东西。那么为什么弱智吧的效果特别好呢？这个事，其实谁也说不那么清楚。</p>



<p>有些人进行了一定的逻辑分析，称赞说：“你这个逻辑很好，虽然里面都是2到3层的转折逻辑，甚至包含很多诡辩和脑筋急转弯。它是一种极端的端到端思维，我有一个开始，有一个结束，但中间的运转过程，我不说。”这种弱智的神奇之处在于，尽管可以逻辑分析，比如每天有人打电话说：“你好，我们是人大附中退休老师开办的补习班，我们家孩子高三，所以这种电话每天都会接到。”他们告诉你一个逻辑，但你不能由此推导出孩子去补习班就一定能学出来，真的不一定。他们这么做，只是想表明这是符合逻辑的。在众多补习班或大数据集中，选择某个进行训练，可能会提高成功几率，但每次训练的结果只有0和1，过程不可拆解，也无法详细分析。这就是现在AI大模型的奇怪之处。</p>



<p>那么，为什么学了弱智吧就会编程呢？参考上面的讨论，这其实没有任何逻辑可言。现在有人主张学习哲学，问：“是不是应该学一些哲学？”我们已经给大模型提供了各种语料，是否应该加入更多哲学相关的信息，让模型训练后向AGI的方向发展？我们尝试用弱智吧的信息进行训练，结果在各种评测中领先。对此，我们只能说结果如此，现象已经呈现，但要分析清楚原因，比如是否学了哲学，或者学了什么，还无法明确。</p>



<p>先讲政治，这样的事情，他就对齐了。这个事情是没有任何可以直接进行关联的逻辑的。啊，也有可能有些模型，比如说用哲学相关的语料训练之后，他的逻辑能力反而会下降。这个可能性是非常大的，特别是在一些不那么讲逻辑的地方。那里学的各种奇怪的哲学，因为我们现在冠以哲学之名的东西是蛮多的。这个都很难说的事情。这就是我们今天要讨论的问题：用弱智吧的内容去训练大模型，导致大模型的性能提升了，到底给我们带来什么样的思考。如果你说，哎，我是想去用弱智吧的东西也训练一下自己的大模型，怎么办？到黑根face里边去搜索，你是可以找到这个数据集的。或者你到灵异万物，到其他地方去问，你也可以找到这个数据集。你也可以拿这个数据拿回来，自己去训练一下。但是一定要记住，我们不保证所有的人上了同样的培训班之后，上了同样的补习班之后，你都可以去提分。这就是跟大家讲的今天的故事。好，今天的事情讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
