斯坦福 AI 团队抄袭清华大模型?背后几个有趣的细节。两个印度小哥,拿着阿拉伯学生的作品出来宣传,最终丢了大人。
大家好,欢迎收听《老范讲故事》的YouTube频道。今天,咱们来讲一讲斯坦福AI团队与清华大模型之间的有趣故事。事情的始末,咱们稍微简单说一下。斯坦福的AI团队发布了一个名为“拉玛3杠v”的模型,号称仅用了500美金,拥有GPT41%的体量,就能达到相似的图片识别能力。随后,被指出这个模型疑似抄袭了清华大学面壁智能的“迷你CPM杠拉玛3V 2.5”版本。
一开始,斯坦福团队的人出面澄清,表示他们只是调用了清华大模型的分词器,并声称自己的工作开始得更早,不算是抄袭。但随着一步步的证据浮现,最终不得不承认确实存在抄袭行为。清华大学面壁智能大模型团队也正式确认了这一点。
这时,斯坦福的两名学生将责任推给了南加州大学的一名学生,称是这位学生所为,他们只是晚些时候收到代码,并未仔细审核。他们最后的解释是,自己并未参与创作,而是觉得这个项目不错,决定帮忙宣传,声称此事与自己无关。至此,事件发展成了一出颇为复杂的“甩锅”剧。
至于其中的具体细节,或是更有趣的幕后故事,让我们来详细讲讲吧。
第一个问题,到底什么人在抄?啊,第二个问题,这件事情跟拉玛3有什么关系?第三个问题,Tokenniser这个叫分词器,到底是个什么东西,在这里它起什么作用?第四个问题,清华的大模型里,它调用了“氢化碱”,最后成为实锤的一个原因,这个“氢化碱”到底是个什么?最后呢,高斯噪声在这里到底起什么作用?咱们大概讲这么几个点。
首先,到底什么人在抄这个东西呢?咱们先看看三个名字的顺序。就是在整个团队,三个人的名字,在HIKING face上,就是在大家放大模型的开源平台上。第一个名字,实际上是南加州大学的学生,他叫穆斯塔法·阿尔贾德里。大家听这个名字,猜猜他是哪国人?第二个名字,叫阿克什·加尔格;第三个名字,叫悉达多·沙马。是这三个人放出来的东西。前面的阿克什·加尔格发的文章、推特,宣传这个模型,然后他推卸责任,说是穆斯塔法交的,完了之后,最终直接甩锅,说他们很欣赏穆斯塔法,他做的这东西不错,他们只是帮他宣传了一下,跟他们没关系。所以大家看,第一个名字是穆斯塔法的,然后第二个名字呢,一开始是站台,后来是拽锅,最后是彻底撇清关系的,这个叫阿克什·加尔格。然后,最后一个人,就是也写上名字了,但是前前后后其实说的话不多,叫悉达多·沙马。
首先呢,咱们先说这个南加州大学这个啊……
他叫穆斯塔法·阿尔贾德里。阿尔贾德里是个阿拉伯的姓,阿拉伯地区比较常用的姓名。穆斯塔法的意思是“被选中的”,作为对先知穆罕默德的一个称号,意为“天选之人”。贾德里,其实就是指来自贾德里这个地方或属于贾德里这个家族的人。
这两个斯坦福的本科生,我们先说这个,基本上没怎么发声。这个人名叫悉达多,悉达多的意思是“达成目标,实现愿望”,寓意美好。有名的悉达多是谁呢?乔达摩·悉达多,他原是刹帝利,在印度种姓制度中属于第二高的阶层——战士和统治者。这位王子后来修行成就,取了一个新名字,广为人知——释迦牟尼,因此,这是一位印度的小伙子。
另外一位,在讨论中前后发声的人,名叫阿克什·加尔格。阿克什意味着“天空”和“眼睛”,而加尔格是一个印度贵族姓氏,常见于印度北方。他属于瓦尼亚种姓。正如之前所述,印度的种姓制度中,瓦尼亚属于第三种姓,主要是商人、农业工作者和其他经济活动者,简言之,是富有的一类人。
这个叫瓦尼亚。所以呢,阿克什加尔格,实际上是印度的一个相对比较高种性的贵族后裔。所以,就是这么两个印度裔的小伙子,考上了斯坦福。他们看着前面这位阿拉伯裔的小伙子,做的代码不错,说:“来,我帮你宣传一下。”然后就翻车了。大概是这样的一个故事。而且呢,前面还有一些案例。穆斯塔法呢,前面还写了一本教材,叫做《计算机网络设计》,后来也被查出是大量的抄袭。而且呢,在这本《计算机网络设计》上,阿克什加尔格也署了名字。所以,这应该不是他们第一次合作。然而现在这本书呢,已经404消失了。
所以呢,通过这样的一个名字的解析,大家大概知道是一些什么样的人在进行这次抄袭。然后,这件事跟拉玛3到底有什么关系?大家知道,拉玛3是梅塔发布的开源大语言模型,而且是最新发布的,效果非常好的大语言模型。它只是做语言生成,但是并不能去做什么呢?啊,多模态图像识别。那么他们怎么把这事跟拉玛3捆在一块了呢?啊,大家知道做图像识别,其实他也是要做这样的训练,但是肯定是什么——先给你一堆图,然后呢,再给你一堆文字,说:“啊,这是苹果,那是梨,这是猫,那是狗。”他一定要给大量的这样的信息。那么前面呢,等于你输入的训练的一部分是图片,后面输入的一部分是各种的文字:“这是猫,猫是一种什么什么动物。”
一定是这样的东西。那如果把这些东西,跟拉玛3的模型一起去做训练,那么在进行内容生成的时候,比如说我先去认这是一只猫,当你认出猫来以后,再进行后续的文字处理和文字生成的时候呢,就可以调用拉玛3的文字生成能力了。所以,很多人都在用Lama三的大模型,前面有人调中文的嘛,现在就有人开始调这图像的识别了。所以这个所谓的Lama三V,或者是,我们讲的这个叫做mini CPM杠,拉玛3杠V2.5呢,都是蓝2拉玛3的模型加上图像和图像对应的文字进行训练的。他们去做识别的时候,也是给你一个图片以后,先去识别大概是什么,或者识别你这个图片里大概都有些什么东西,最终去描述的时候,是由拉玛3的模型去生成描述文件的。这就是大家为什么会让拉玛3捆在一起。
第二个呢,他们一开始说我们抄袭了,只是TOKEN neither啊,大概叫分词器,这到底是个什么东西,大家要注意啊。刚才我们讲了,你拿去做训练的数据是两部分,一部分是图片,另外一部分是文字,那你文字塞进去之前呢,就要拿分词器去做分词。但是呢,在分词器在这一块呢,就出了一些问题。因为前面这个阿克什呢,说我们只是使用了清华团队的分词器,但是呢,分词器通常是在模型发布之后,才会看到的,所以你不可能在模型发布之前,就拿到人家的分词器。
所以,他说我用了人家的分词器,但是我的项目比他的还早啊,所以呢,不算抄袭。这个里头,是说不清楚的。然后,另外呢,阿克什还讲说我用的是他上一个版本的分词器,是V2.0的分词器,而不是V2.5的分词器。那这样是不是可以解释得通呢?其实依然解释不通。为什么?因为“精华”这个模型,他们的V2.0版本使用的是拉姆2,他这个分词器长得跟使用拉玛3的A2.5的分词器是完全不一样的。V2.5的时候,为了适应拉玛3,专门写了一个新的分词器。所以呢,就露馅了,彻底解释不清楚了。这是在分词器的工作方面。
然后,再往后呢,是清华的检测。这个还特别有意思,清华做的大模型,说总得干点自己的事吧。那么,他就找了一个非常特殊罕见的,中国战国时期的,公元前475至公元前21年写的这种竹简。在这上面有一些古代文字,拿这个玩意进去训练去了。他也是有扫描的件,比如说把这个字塞进去,说这是一个什么字,然后写一段文字进去,塞了好多这样的字。大家注意,多模态图像识别,最主要起的作用其实是OCR,比如说,看一下这个表格上有什么字,或者看一下这个图片上写了什么东西。很多人干这个事。所以,他们把这个文字倒描,一个一个字塞进去,然后让他去识别。那按道理说呢,这相当于什么呀?
就是咱家里有小孩,来,先背一首古诗。出去以后给大人表演一个,说:“你看哦,好厉害,这个小孩会背这首诗。”清华的团队就干了这么个事情,说了:“你们来背吧,背完了以后出去咱给人表演。”结果呢,还没等轮上表演呢,啊,就有人说:“哎,有人抄袭你了。”那那咱们说试试呗。拿着阿拉伯裔学生编写、两个印度裔学生推广的这个模型,去认这个清华简,发现:“哎,居然也认识。你也背过这首诗吗?”而且呢,对的地方一样对,错的地方一样错。这种字因为流传了这么多年嘛,所以很多的字是很模糊的。比如说给他200个字,这200个字里头,比如说对了100多个,然后错了几十个,结果发现对错都完全一样啊。那么这个基本上是实锤了。这件事情呢,就是在别人去炒作,说你这个事情有抄袭之前,识别氢化碱这件事呢,并没有被公开,所以呢大家都不知道,这个模型是可以识别氢化碱的。等于就是在家里背好了诗,准备出去显摆的啊,抛完了以后说:“来吧,咱们看看你也行啊。”而且跟我怎么对怎么错都一模一样。这就是氢化碱在这个里边,基本上算实锤它的一个原因吧。再往后一个呢,叫高斯噪声。很多的文章里边都在讲,说斯塔法只是在清华的这大模型里头加了一个高斯噪声,而且呢,如果对两个模型同样都加上高斯噪声之后,两个模型啊,处理之后的结果基本上是一致的。那么高斯噪声是什么啊?大家知道吗?
当我们进行图像识别时,经常会遇到图像不够清晰的问题。因此,如果用非常清晰的图像训练模型,遇到模糊的图片时,识别可能就变得困难。为了解决这个问题,研究者们在训练过程中,会向图像中加入一些基于正态分布的噪声,使模型在有噪声的图像上进行训练。这样训练出的模型,对于不那么清晰的图片,识别效果会更好。换句话说,现在许多大型语言模型和图像模型在训练时,都会故意加入高斯噪声。即便输入的内容有错别字或小错误,模型也能很好地理解,这都归功于高斯噪声增强了模型的泛化能力。这意味着模型能够识别普通甚至略带“杂质”的输入,而不是仅仅对精心准备的输入有反应。用学术术语来说,这是提高了模型的泛化能力,确保它不会在遇到稍微不同的输入时“失效”。关于抄袭的讨论,通常不会因为代码某部分相似就简单断定为抄袭,因为现代软件系统大量依赖于类库和软件架构的调用,这在很多情况下是正常的开发实践。这种做法避免了对“套壳”或抄袭的误解,强调了软件开发中的共享和复用特性。
然后再做出来的,比如说我去写一个程序,可能我自己写的程序只有几万行,但是呢,这个程序最后放到人家的系统里边去跑的呢,有几十万行,甚至上百万行。那么剩下的代码呢,实际上都是一样的,因为我们调用的是统一的架构。所以啊,你去说哎,我实锤了,谁谁抄袭谁,谁套壳,千万不要说哎,你看你这个名字写的跟那个一样啊,这个结构文件跟那个写的一样,这个呢,呃,是很难去实锤的啊,因为现在大量的软件都是套用统一的架构做出来的。而且这位穆斯塔法呢,还做了一些简单的,叫代码混淆。这个代码混淆是什么意思呢?就像前端,我们使用的网页上也是有很多代码的,JavaScript代码,这些网页是会直接拉到本地来的。在这样的情况下,为了不会被人破解,被人抄袭,所以很多人呢,会做这种叫代码混淆器,就是让你看到这个代码以后啊,不太容易去抄袭。这个代码依然是个源码,没有进行编译,但是呢,啊,它比如说把所有回车都去掉,让你这个代码变成一整行,然后把这个用户名啊,变量名啊,把这些东西呢变得比较奇怪,让你比较难以记忆,比较难以读取,做成这样啊,做一些代码混淆。当然还有更复杂的代码混淆方式啊,咱们刚才只是举了一些最简单的案例啊,甚至还有一些啊,为了避免反编译,会进行更复杂的代码混淆。这位穆斯塔法呢,他是啊,把人家的代码呢…
改了很多变量名,原来人家变量名叫ABC,他叫CDE,做了一些简单的代码混淆,但是依然被认出来了。那么这种情况下,你说他到底算不算是偷袭套壳呢?这个呃,不能实锤。真正实锤的还是他的各种测试结果,就像咱们以前讲的,说老师把小明的家长叫到学校去,说你们家孩子考试抄人家的。说这个凭什么呀?说你们家孩子前面5道题啊,跟人家写的都一模一样,只有最后一道题不一样,所以你们家孩子抄人家的。说那这这凭什么呀?为什么不是人家抄我们的?说前5道题都一模一样啊,最后一道题呢,旁边的孩子写“我不会啊”,你们家小明写的“我也不会啊”,所以是你们家小明抄的。这个是相对来说比较实证的,实锤。那么像这一次穆斯塔法这个抄袭呢,比较实证的实锤。我觉得像氢化碱这个事是比较实证的。大家要知道,在国内也好,国外也好,其实不同的时期,特别是在某一个技术非常热门的时候,大家都喜欢干一件事,叫“拉虎皮扯大旗”。你想,同样一个模型,清华把这个东西发布出来以后,大家就觉得,“哦,你发了啊,发了就发了吧”,也没有那么多关注。但是斯坦福的学生说,“哎,我们把这东西发出来了”,那大家就觉得,“这个东西好厉害,实在是太强大了”。所以,一直以来,大家喜欢去扯这个东西,往自己脸上贴金,甭管是这个项目这三个人到底是怎么合作的。
但是,你看,斯坦福拿出来的模型,就是会被更多人关注到。其实,在区块链时代也是这样的,很多人都是出去找人签名,说:“你看,我做了个系统,你给我签个名字吧。”然后就出去骗钱去了。现在大模型时代,也干同样的事。这些年,中国团队在图像识别领域,其实还是做了挺多事情的。大家知道,我们是一个摄像头最多的国家,而且全世界可能最好的摄像头,最好的图像识别系统都是咱们做的。甚至还有一些公司,因为做了太好的图像识别系统,还被美国列进了实体名单。所以在图像识别这一块,中国其实是挺强的,只是,很多人都不认为中国人可以原创,所以这块一直不是那么受重视。
这一次,斯坦福大学“抄袭”清华大学大模型的事情,让大家对国内的各种图像识别算法、图像识别的大模型能够稍微的重视一点。国内,比如像零一万物做的图像识别,像通义千问做的图像识别,本身效果还是很好的。现在在各种图像识别相关的评比里面,评分都很高。还有一个原因是什么?就是除了刚才咱们讲的国内可能安防领域用了许多图像识别算法之外,还有一个原因是国内对图像的标识做得比较多。你想,你要去做这个图像大模型的训练,你一定要有标识好的数据:这是一个猫,那是一个狗,这是两个人,这个人举着一张什么样的东西。
那个人在干什么?什么?你一定要有大量的这样的标识数据,然后拿这个东西才能去做训练啊。这一块呢,国内其实也是遥遥领先的。然后还有一个,国内做图像识别大模型遥遥领先的地方在哪?就是欧美人做图像识别啊,刚才我们讲,阿里巴巴里头有一个很重要的工作是做OCR,就是把这个里面的文字认出来。他们呢,都是认英文,或者认一些字母文字,相对来说要简单一些。而中国人呢,需要认中文,汉字笔画很多,大方块字,你要能把这玩意认出来呢,啊,肯定的,难度要比认英文字母、英文单词要难很多。所以在这一块上,咱们也确实是做得好一些。你说,咱们中国人训练的图像识别大模型,你去认英文单词一般是没毛病的。但是你让美国人训练的,哪怕是印度人训练的这种图像识别的大模型,你让他认中文,1000%他不认识,对吧?他没有这么多的中文标识数据,他也没有这种需求。所以他在这一块上,中国团队其实是比较领先的。
最后要讲的是什么呢?这一次的翻车,其实是对开源规则的一种践踏。开源软件,或者说开源的开发模式,是一种新的先进的松散的合作模式。在这种模式下,更多的人可以参与到软件开发过程中来,也可以让整个的软件开发过程呢,变得更加快速的推进,让更多的人,让全世界最聪明的人,可以集中在大家最关注的几个项目上来。他等于是开源软件也是一种注意力分配方式。
最热的比如拉玛3训练,现在最热。那么大家都一窝蜂冲上去训练。但是,使用开源软件的时候,一定要注意什么叫遵守开源规则。用了人家的东西,你得实话实说,不能说用了以后我不承认,说这就是我做的。这是对开源整个体系的一种践踏。大模型的发展,甭管是中国还是国外,我们都依赖于整个的开源精神、开源文化、开源规则。如果有践踏开源文化、开源规则的事情,那么对于整个的大模型、整个的开源软件的发展都是有伤害的。
斯坦福的两个印度学生,加上南加州大学的一位阿拉伯裔学生,啊,给我们做了很好的示范。好,这就是这一期讲的内容。感谢大家收听,请帮忙点赞,点小铃铛,参加disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
Both comments and pings are currently closed.