硕鼠的博客站

范路的博客主站,时而会发些东西。

大家好!欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲“弱智吧”。

“弱智吧”是什么呢?它实际上是一个百度贴吧,里面有很多独特、简短的文字,带有哲学、脑筋急转弯、幽默感,甚至很优美的内容。大家会说:“我们是弱智,我们要到弱智吧里面去,贴一些弱智的内容,贴一些弱智的问题和答案。”但随着时间的积累,人们发现,这正是“大智如愚”的体现。弱智吧的很多内容也被大家筛选出来,贴到小红书、抖音等各个平台上,惊艳了一大片人。

这真是非常神奇的事情。有人感慨:“我们很聪明的人没有惊艳到别人,而是一帮‘弱智’惊艳到其他人了。”弱智吧里有些什么样的经典语录呢?比如“吃什么补什么”,告诉我们“吃苦成不了人上人,只有吃人才行”。这样的内容看似无厘头,但仔细思考,你会发现吃人才是成为人上人的唯一原因,因为“吃什么补什么”。它巧妙地结合了中国传统文化的内容。

还有其他有趣的例子:“工人罢工之后就成了人”,“原来你是工人”;“四川人至死不渝,重庆人乐不思蜀”,这两个相邻的省份和直辖市,四川人似乎到死都不愿去重庆,而重庆人却乐在其中。

这就是弱智吧里常见的一些内容,充满了创意和趣味。不想四川了,啊。

这是…也是把中国传统文化里的一些梗串在一起了。甚至还有啊,苦难是生命的防沉迷系统。这个世界是一列高速行驶的列车,我们不是乘客,是燃料。向禁欲的寺庙去求姻缘,向不出门的方丈去问人生,向路边的瞎了眼的道士去看前程,向最爱你的人去证明他没有那么爱你。啊,这也是《弱智八里》的信息。

然后,咖啡因来自咖啡果,所以咖啡因是果,咖啡果才是因。这也是把以前的这种因果循环,很多佛学的东西加在里头。有人看不到未来,其实是看到了未来,哇,这也是里面经常经典的一句语录了。还有些什么呢?

生鱼片是死鱼片,等红灯是在等绿灯,救火是在灭火,指南针主要是指北。大家看到了以后会突然愣一下,然后再去思考。思考完了以后,有些是会心一笑,呃,有些可能真的是会回忆起心中的某一些苦涩。但最终可能也还是只能会心一笑。

既然有这么强的《弱智吧》,现在大家要都在搞人工智能,都在搞AIGC,搞大模型了,那咱们肯定是不能放过这些大模型。所以呢,有一段时间就开始流行用弱智吧的问题去考教大模型。任何一个新的大模型出来以后,都是会把弱智吧的问题拎出来问一遍,看看大模型是不是足够的弱智吧。

最早翻车的应该是百度的文心一言,后来他们针对弱智吧的很多问题进行了特定的修正,效果呢,稍微好了那么一点点。现在基本上,只要是跟中文相关的大模型出来以后,都会弱智吧一把。经常会被拿来问AI大模型的弱智吧问题,是什么呢?

  1. 为什么我爸妈结婚的时候没有邀请我?
  2. 高中想要提升升学率,为什么不直接招大学生呢?
  3. 为什么晚上睡觉的地方叫酒店,而晚上喝酒的地方叫夜店呢?
  4. 网吧能上网,为什么弱智吧不能上?弱智呢?
  5. 说一个半小时是几个半小时?
  6. 陨石为什么总是落在陨石坑里?
  7. 人如果只剩下一颗心脏还能活吗?
  8. 蓝牙耳机坏了,去医院挂耳科还是牙科呢?
  9. 小明打开水龙头…
  10. 是因为开水龙头烫到了小明的手吗?他其实在考验的很多是什么。你的分词是怎么分的?这些相关的近义词、同义词、反义词,以及语言背后的很多梗,到底是什么意思?比如说,关于酒店和夜店的故事,关于说,“哎,你父母结婚的时候为什么没有邀请你?”的问题,他其实在后面是带有很多的就是直接问话之后的潜台词。你如果这些潜台词搞不明白的话,那么这件事情基本上你是没法回答的。所以很多的AI大模型,遇到了这样的问题之后,如果他只进行一层思考,那必然回答是错误的。既然这样,咱干脆拿弱智巴来做大模型训练,不就完事了吗?

于是啊,中科院、滑铁卢大学和灵异万物,他们呢就把这个事情组织起来说,我们拿弱智巴的数据进行训练吧。其实刚我刚才讲的案例里头,大家会看到,像百度其实早就训了。那为什么今天咱们要讲中科院、滑铁卢大学和零一万物拿出来训练呢?因为他们训练的结果是开源的。训练完了以后的这些数据集也是开源的,你拿着这些数据集,就可以去调整自己的大模型了,而不像百度似的,发现丢人了,关起门来,我去做一下调整和测试,然后啊再开开门,你看这回会回答这个问题了吧。啊但是他是不是会回答其他问题,然后别人是不是可以通过这个过程学到一些什么东西,就通通都没有了。这就是必元的这些大模型的一些弊端啊,开元大模型的或者一些开元的玩法啊,他们就会给大家整个的这种训练啊,整个的模型应用的能力提升做出一些贡献。

弱智吧,大分大智若愚,弱智吧,才是人类面对AI的最后一道壁垒。为什么讲这个呢?就是很多人说,你看看这个人到底是人还是机器。以前我们要让他做图灵测试,但是到这里来,把弱智吧的题给他读一遍,然后看看他到底能不能做出来,来判断他到底是人还是AI。弱智吧 到底是不是人类面对AI的最后一道壁垒?那肯定不是。现在,既然大家已经开始拿弱智吧的问题去训练AI了,已经拿它去训练出很多的模型,优化的这个结果了,而且那个真的是结果,经过弱智吧训练的这些模型,打分是非常高的。那么我们现在需要的是高质量语料。很多人在去讨论说…

为什么中国没有产生CHANGPT的时候?有一个很神奇的论点,就是说中国缺乏高质量语料。其实并不缺。以前大家都说,全世界的高质量英文语料大概是6TB左右,这个数据不知从何处查得。但是,这一次拉玛3就打了所有人的脸,说你看我用15T的数据去进行训练,训练完了以后,效果确实是遥遥领先。而这个15T的数据里,有大量的其实是由AI自己生成的,然后由AI去审核、去过滤的这样的数据去训练。这些数据里头有95%是英文的,只有5%不是英文的数据。更不要说中文了,中文跟所有其他语言混在一起,占最后的5%。

现在我们到底怎么去给拉玛三做继续训练,怎么在他这个基础上去做提高?其实,国内很多做大模型的公司已经在这里跌了跟头。别看网上有很多人说阿拉玛3可以自己去做微调了,可以怎么怎么样,甚至还有些人给非程序员出教程,那其实是骗人的。真正的大模型公司,他们会拿拉玛3的模型做完训练之后去做验证,去做跑分。虽然跑分这个事情跟我们的主观评测、主观感受有一定差距,但跑分还是他们验证、测试训练效果的最好方法。现在他们对拉玛3进行的各种微调,在训练所有的这些事情,大部分结果其实是变差了的。就是你训练完了以后比原来更差,拉玛三不擅长中文,你对中文进行了一堆训练以后,中文能力没有提升,英文能力反而下降。这个事情是蛮多的,所以大家不用那么狂欢地说,我要去拿拉玛3去做训练了,先去等一等看。现在我也在找人说,咱们是不是拿弱智吧的数据集把拉玛3再训一遍试试,但是最后能不能得到效果,还要再去等。那么,到底如何找到高质量的中文语料呢?刚才我们讲,弱智巴是一个高质量的中文语料,中科院的巴、铁路大学的和零一万五三拨人凑一块,他们干嘛呢?把弱智巴找出来,弱智巴的帖子很多,排序嘛,找点赞最高的500个帖子,把它找出来。先把这个标题取出来,“你到底都问了什么”,然后用GPT4做些回答,再进行人工的修正,再参考原来弱智吧里面的一些内容,混入到数据集里边去。包括小红书、知乎、豆瓣、百科也都没放过。就是大家把各种各样的信息都拿出来,做训练了。

但是人类最后处理的方式是:人类提出问题,人类回答,人类筛选,然后由GPT4辅政,再用人类去标注,入库训练。这就是整个的一个过程。整个训练完了以后,弱智吧的数据是效果最好的。就他们用小红书的数据,用豆瓣的数据,原来很多人说豆瓣应该是一帮文艺青年,应该拿那个玩意数据训练出来效果最好。但是现在不知道为什么,是弱智巴的语料训练的效果是最好的。而且很神奇的是,用弱智巴语料训练出来的大模型,他们在零一万物的E34B上做了微调和继续训练,发现这个模型写代码编程的能力莫名其妙的上升了。

大模型真的就是一个黑盒子,就是你对他进行训练以后,他可能有些能力会上升,有些能力会下降。他们发现,弱智吧训练完了以后会写程序了,会做各种逻辑相关的这种判断,这个会更强一些。而且呢,他们真正做得好的地方是,不是说他们把已经训练过的E34B拿出来给别人用了,现在他们训练过的E34B还在他们内部,什么时候能拿出来还不知道。但是他们做了一件事情,他们把弱智吧用来去训练的数据集开源了。这个数据集在哪呢?在huggingface上,在github上都有,大家可以上去去找,很多开源的数据集,大家都可以在上面找。比如说你要写小说,上面有专门的小说数据集。你只需要把这个数据集拿出来,跟一些认定比较好的大模型去进行训练,这样就可以更好地去写小说了,包括写玄幻小说或各种带设定的小说。他们都会有这样已经标注好的数据,你不用再重新学习和自己做标注。人类不需要反复重复发明轮子。当然,像百度那样,他们可能做完后只说自己有,别人没有。但做开源模型的人会把中间训练的数据集也直接开源,你可以在上面找。现在,弱智吧也可以自己下载去训练,但训练的结果没法保证。我们不能保证用了弱智吧的数据训练后,模型就会变聪明,这是没法保证的。

为什么呢?就像有个学校说,他们学校的学生都能提分多少多少,然后你满怀希望把孩子送进去,训练后发现高考提分没提到,你不能去退钱。人家最后会告诉你,可能是孩子不够努力,或者有其他问题。因为这是一个黑盒子。但至少他们给你开源了数据,你可以用,这比百度那种完全闭门造车的要强很多。

大模型的本身其实是一个黑盒子,就像上同样的补习班,有的孩子提分明显,有的可能降分,甚至有些直接崩了。大模型也是这样的东西。那么为什么弱智吧的效果特别好呢?这个事,其实谁也说不那么清楚。

有些人进行了一定的逻辑分析,称赞说:“你这个逻辑很好,虽然里面都是2到3层的转折逻辑,甚至包含很多诡辩和脑筋急转弯。它是一种极端的端到端思维,我有一个开始,有一个结束,但中间的运转过程,我不说。”这种弱智的神奇之处在于,尽管可以逻辑分析,比如每天有人打电话说:“你好,我们是人大附中退休老师开办的补习班,我们家孩子高三,所以这种电话每天都会接到。”他们告诉你一个逻辑,但你不能由此推导出孩子去补习班就一定能学出来,真的不一定。他们这么做,只是想表明这是符合逻辑的。在众多补习班或大数据集中,选择某个进行训练,可能会提高成功几率,但每次训练的结果只有0和1,过程不可拆解,也无法详细分析。这就是现在AI大模型的奇怪之处。

那么,为什么学了弱智吧就会编程呢?参考上面的讨论,这其实没有任何逻辑可言。现在有人主张学习哲学,问:“是不是应该学一些哲学?”我们已经给大模型提供了各种语料,是否应该加入更多哲学相关的信息,让模型训练后向AGI的方向发展?我们尝试用弱智吧的信息进行训练,结果在各种评测中领先。对此,我们只能说结果如此,现象已经呈现,但要分析清楚原因,比如是否学了哲学,或者学了什么,还无法明确。

先讲政治,这样的事情,他就对齐了。这个事情是没有任何可以直接进行关联的逻辑的。啊,也有可能有些模型,比如说用哲学相关的语料训练之后,他的逻辑能力反而会下降。这个可能性是非常大的,特别是在一些不那么讲逻辑的地方。那里学的各种奇怪的哲学,因为我们现在冠以哲学之名的东西是蛮多的。这个都很难说的事情。这就是我们今天要讨论的问题:用弱智吧的内容去训练大模型,导致大模型的性能提升了,到底给我们带来什么样的思考。如果你说,哎,我是想去用弱智吧的东西也训练一下自己的大模型,怎么办?到黑根face里边去搜索,你是可以找到这个数据集的。或者你到灵异万物,到其他地方去问,你也可以找到这个数据集。你也可以拿这个数据拿回来,自己去训练一下。但是一定要记住,我们不保证所有的人上了同样的培训班之后,上了同样的补习班之后,你都可以去提分。这就是跟大家讲的今天的故事。好,今天的事情讲到这里,感谢大家收听。请帮忙点赞,点小铃铛,参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

 

Both comments and pings are currently closed.

Comments are closed.

Close Bitnami banner
Bitnami