华人天才程序员,从xAI跳槽OpenAI,盗取机密代码,被Elon Musk起诉

华人天才程序员,从xAI跳槽OpenAI,盗取机密代码,被Elon Musk起诉已关闭评论

有一位从XAI离职、准备投奔OpenAI的中国工程师,被马斯克起诉了,说他盗取了XAI的机密。

大家好,欢迎收听老范讲故事的YouTube频道,今天咱们来讲一讲这位被XAI起诉的中国小伙子。

他呢,是快速地卖掉了XAI的股票,从XAI离职准备加入OpenAI,但是就是在这样的一个时间点里,他大量地下载了XAI的代码,压缩、改名、上传并且删除了日志。因为他下载代码的时候是有日志的,他把这个日志还删了,做了一个自作聪明的小动作,这样的事情就被XAI发现了。

XAI找到这小伙子说:“你这样干不对,咱们是不是商量商量?”小伙子呢就当时跟XAI达成了一个和解。和解的方式是什么呢?第一个,还是要给一些赔偿的了;第二个呢,是交出自己个人设备的账号,让XAI的工程师去进行检查。但是呢,XAI后来发现说,他给出的账号并不完整,而且有一些设备的账号呢,已经被修改了密码,无法进行登录了。XAI没有办法,只能把这小伙子给告了。

首先我们要说一下,马斯克为什么着急呢?很多人觉得XAI,你这个产品好像也没有OpenAI做的好,也没有人家用户量多,你还怕被人偷吗?这个事是这样,每一家公司呢,第一个是自己都会有一些不传之秘吧,或者说有一些自己做的更好的地方,这些呢马斯克肯定是不希望让OpenAI知道的。另外一个呢,就是你以为马斯克的代码就都干净吗?如果马斯克的代码里头,也有一些是从OpenAI来的,或者从其他什么地方来的,这些代码如果落到OpenAI手里边的话,是有可能会出现一些别的问题的。所以任何公司都不希望说公司里边的代码,整个让别人拿去检查一下,除非迫不得已,是很少有公司愿意交出自己的代码让别人去检查的。所以马斯克很不乐意,说你要么把代码给我还回来,要不然咱就起诉。这小伙子现在起诉要求也是说,他现在不能到OpenAI去上班,你必须把这事说清楚,要把所有的代码也好,你窃取我的机密也好,都要删干净,再说后面的事情。

那你说这小伙子为什么出尔反尔,隐藏账号呢?经常从公司离职的朋友呢,大概都有这样的经验,公司呢会喜欢拿着你的电脑去翻来翻去,想去看一下你里边有什么样的聊天记录。因为像我们上班的时候,都会拿公司电脑当个人电脑去使用,里头有聊天记录,甚至还有很多银行账户,有很多的个人的信息,并不希望别人知道。原来呢,大家你好我好大家好,是一个相对比较平和的状态,现在呢大家闹得不愉快了,人家要求检查你的所有账号的时候,这个小伙子肯定是不愿意的。所以这种出尔反尔,说谈好了我交出账号你去检查,最后反悔,这个是大概率的事件,大家都会这么干的。

那你说挖人了,为什么还要偷代码呢?这个人在马斯克这儿干了可能一年多一点点吧,然后跳槽去OpenAI,他要带着这代码到底干嘛使呢?你说到底是OpenAI要求他带着代码走呢,还是这小伙子自己说,就是要带着这些代码走,不带着这个代码我就心里不舒服?通常这样的案件呢,都是起诉个人,不起诉公司的。因为起诉公司就变成势均力敌的两个大的公司,就算一公司大一公司小吧,也算是两个公司法务之间在打官司,而你起诉个人的话,可能相对来说事情更容易解决一些。马斯克前面也遇到过几次类似的事情,都是起诉个人,后边我们再去讲马斯克起诉其他工程师的事情。在行业里边,大家都是这么约定俗成的,这谁偷的代码,就怪这一个人,不能怪未来这公司。

你说这代码是我写的,那我从这离职了,到另外一公司上班去,那为什么一定要把这代码带着走呢?这个说了一个特别有意思的事情:虽然是工程师,但是干多了以后就都是艺术家的活了。有没有人听懂这话什么意思?就是我们去进行创作的时候,工程师也是在做创作吧,一般分三个层次。第一个层次叫艺术家,第二个层次叫工程师,第三个层次呢叫科学家。他们三个层次是什么样的差异呢?艺术家呢是激情创作,你不可重复的;工程师呢是可重复、可迭代,但是呢你是不知道里头具体的一些底层原因的,所以我没有办法把我的这些技术呢应用到其他领域里头去;科学家的话就是他了解底层原理了,他可以把一个科技从一个领域应用到另外一个领域里去。这就是三个层次。

工程师呢,按道理说应该是干中间这块的事情,可重复、可迭代。那我既然在这个公司干过了,我上别的公司再干一遍没毛病,而且还能干的更好。但是呢,如果你干的活比较大,你就可能就会下跌到艺术家的层次了,所以我说干的活多了就回干的都是艺术的活,就是不可重复了。你说我在这写了两年的代码,写了很多很多代码出来,说来再给我写一次,发现原来我到底咋写的我想不起来了。所以呢,工程师喜欢带着自己的代码走,这是一个很大的原因。另外一个原因是什么呢?还有别人的代码了。一个系统里头不是光你自己的代码,大部分工程师,就算是要重现原来的过程,也都是会去重新写,没有人会去默写这个东西。你就算把自己的代码都写明白了,你没有其他人代码的配合,你跑不起来。在这个时候你就需要整个系统的代码,需要把别人的代码一起带走,这个才是偷代码的一个核心原因。

被偷的代码通常也不会被直接使用。不是说我把这代码拿回来,到那边往上一怼就开始用了,一般没有人干这个事。为什么?因为你的代码一旦开始对外服务以后,就会被抓住,说你那个代码跟我那个代码是一样的,我去起诉这个公司。其实后边偷代码,或者应用这些代码的公司,很少有被起诉的,因为他们都会要求说,你在我的公司里写代码,你必须要能够说明白这代码是哪来的,或者要重新写,或者是要有出处。你不能说随便找一个没有出处的代码给我搁上。在国内是发生过类似的案件的,有人把系统发布了,结果发现里头有一些代码是抄别人的,这个代码已经是被别人申请了著作权的,然后被起诉。那起诉了以后,公司也没什么好说的,直接把这个写代码的人告了,说我要求你重写,我要求你去用可靠的代码,我从来没有让你去把别人的有版权的代码给我拿到这来直接使。那这个责任一般公司是不担的。所以这些代码就算被拿走了,也不会被直接使用。

下一个问题,偷代码是如何被发现的呢?这帮程序员自己就是写代码的,自己想偷点代码,难道还会被发现吗?

偷代码被发现的过程呢,通常是跟代码访问日志有关的。代码这个东西呢,并不是说在我电脑上存一份就完事了,我们通常都会有代码管理工具。他呢,负责几件事情。第一个呢,代码版本管理。我这次加了两行,下次改了两行,再下次我删了两行,我再多写了一个新文件,删了一个文件,把文件改了个名字,这些东西它是有过程的,你需要记这个日志,说我为什么加了两行,为什么删了两行,我每一次到底差在哪,这个是要去进行管理的。

下一个问题是什么呢?代码的一些权限管理。我可以读哪些代码,我可以改哪些代码,我可以删哪些代码,这个是要进行权限分配的。你不能说所有人都可以读所有代码,这个事是很危险的。谷歌早期的风格就是每一个人都可以读所有代码,但是后来因为发生了景德镇的事情,就是景德镇一个小的学校里头,应该也是服务器被人当成肉鸡了,做成跳板偷了谷歌的代码。谷歌以后就是说,我们不能让大家去访问所有代码了,这个太危险了。

我们所有人去check in代码和checkout代码的时候,它是有日志的。你每天上班,你正常工作,你应该checkout多少代码,这个事儿是有一定的规律可循的。通常呢,我们会把别人跟我相关的代码,更新的部分会把它checkout出来,我们很少会把整个的项目都checkout出来。一个是很大,第二个的话,就是你真的把这么多代码弄回来以后,你去编译,或者去处理这个系统是很麻烦的,非常非常耗时间。所以大部分情况就是,我写中间的某一个模块,我只把跟我相关的模块checkout出来,再去进行编译。而且我们checkout出来的别人的代码呢,通常也不是源代码,有时候我们会去把源代码拎回来,有的时候我们就是把一些别人编译好的结果拎回来,因为我们没有权利去改别人的代码。

还有些人说,我就是有权利可以得到所有代码。他们是什么人?测试。你这边把代码传上去了,那边有一个岗位叫测试岗,他需要把每天的代码拎回来去进行编译、检查呀,或者做这种测试流程。所以不同的角色,负责不同的模块的这些程序员呀、测试或者是架构师什么的,他们会有各自的权限,大家会去形成一个默契。一旦是超出了代码使用的权限范围,比如说这代码原来你不该用的,现在你把它checkout出来了,这些呢就会被记录下来,就容易被发现。

前几天呢,台积电发生过一次泄密事件,台积电两纳米技术泄密。其实本身做的非常隐蔽,他们干嘛呢?就是在这个笔记本上把代码显示出来,然后拿手机拍照,拍完照以后拿手机把这东西传走了。因为手机呢,你连接的是蜂窝网络或者5G网络,你再传任何东西出去的时候是没有日志的。你拿手机拍照的时候呢,这个电脑也不会有任何日志说我被人拍照了,我把它记下来。但是依然被发现了,原因就是有三个工程师,大量地访问了不在权限范围内,或者平时他不该访问的这些代码,这个事就可疑了。然后直接把人抓住,说你们到底干嘛了?说我们把代码checkout出来拍照,拍照完了传出去了。这个事情,通常是靠代码访问日志能够抓住。

那么除了代码访问日志之外,还有什么呢?就是文件访问日志。这个事呢,对于程序员来说未必有效。什么意思呢?比如说office文档、word文档、Excel文档、Powerpoint文档,它呢其实是有权限的。有些文档在打开的时候会记录谁可以打开,谁不可以打开,或者你在什么样的网络环境下可以打开,不在什么样的网络环境下不可以打开。还有一些文件呢,必须要使用特殊的软件进行解读,每一次这个软件解读这个文件的时候呢,都会在服务器上有日志会存下来,一旦发现你做了一些不该做的事情,也是很容易被发现的。

再往后呢,就是电脑访问日志。最简单的就是插U盘,你是不是把U盘插到这个电脑上去了?插上去以后到底拷贝什么文件没有?这个也是可以被发现的。还有呢,就是叫内部网关。公司里头呢,大家都是连Wifi,在公司里头都是有网关的。谁在公司内部把大量的数据拷出去了,它是会有记录的。刚才我们讲的这位XAI的华人小哥,他是把代码压缩了,压缩的过程呢,它就可以绕过网关的内容检测。比如说这个里头有大量的什么XAI、Grok什么代码,这些东西一旦压缩了以后就看不出来了,但是你的数量一定是不对的。你正常比如写个邮件出去,或者是我登录的什么网站去购物了,刷两条视频,这个都不是什么大问题。但是发现,你突然往外传了好几个G的文件出去,压缩的文件,我还不知道里边是什么,因为压缩的过程还可以加密码嘛,这哥们好像还加了个密码。这个事情也是很容易报警的。

除了这些之外还有是什么?就是可疑动作。就是你做了一些平时你不该干的事情。像这位华人小哥他干了一什么呢?他去修改日志去了。他知道说我去checkout了我平时不应该用的这些代码,它是有日志的,然后他就把日志去改掉了。但是你要知道,你修改日志这件事情,它也是有日志的,这个也很容易被发现。这个肯定很聪明的小伙子嘛,斯坦福的博士,这些人他对于真正安全上的事情呢,并没有那么了解,术业有专攻嘛。

但是大家要知道,绝大部分的工程师在离职的时候,都会带走自己的或者不是自己的代码,其实大家都干。那为什么他被抓住了呢?咱们原来讲,叫不打勤的,不打懒的,专打那不长眼的。被抓住呢,通常都是在离职前突击访问代码库,调取权限以外的代码,这些人是容易被抓住的。那个XAI这华人小哥也是干了这么个事情。如果你平时注意日积月累的话,这种通常是抓不住的。

近些年来呢,涉及中国人的窃密案件其实还是蛮多的。这也没办法,中国程序员多嘛,特别是AI领域里头,咱们的人确实是稍微的多了那么一点点。特斯拉在2019年呢,曾经起诉过一个中国小伙子,盗取了他们的自动驾驶的代码。当时被起诉的时候呢,这个小伙子是小鹏汽车美国研发中心负责自动驾驶的负责人。2019年起诉,大概到2020年和解掉。在这个过程中,小鹏也真的是把自己的代码拿出来给法院去检查去了,证明了小鹏的代码里头并没有使用特斯拉的代码。刚才我也讲了,这些代码拿出来了,通常不会直接使用的,而是会重新再去编写,但是你有了原来那个样板,特别是能够跑通的样板,对于你去写一个新的来说,是非常非常有帮助的。

苹果大概也是在2019年、2020年左右,也是起诉了两个中国工程师,窃取他们苹果的自动驾驶相关的代码,这两个工程师好像也是去小鹏了,后来应该也是和解掉了。谷歌呢,曾经起诉过一个中国工程师,他呢是窃取了谷歌的TPU芯片设计相关的代码,小伙子呢是跑去国内创业了,他是准备创业做一个自己的芯片公司。近些年来中国人干的这种事情还是蛮多的。

代码跟人的边界,有时候并没有那么清晰。搞到技术机密最简单的方式就是挖人。我们看谷歌这东西做的不错,我们也想做怎么办?上去挖人。其实像我原来很多的工作就是干这个事,上去找关系,这个人原来谁是他老师,谁是他同学,谁跟他共事过,哪块能够找到这个人,冲上去找。去找完了以后,坐下来跟人聊,聊完了觉得这一块行,你到我这应该能够搞定,我们就会去把人挖回来。

但是挖人的时候,你说我们会不会暗示或者明示对方要去拷贝代码呢?不会,绝对不会。但是我们会问他说,你过来了以后,你觉得怎么能够复现这个东西?或者说能不能够把这东西做的更好?其实通常我们把人挖回来,复现这个系统的时候,都会比原来做的更好一些,因为原来踩过的坑,他不用再踩一遍了嘛,而且还有一些新的技术,以前那些包袱就可以扔掉了,所以通常还会再提升一点点。但是当我们去跟他沟通说,你怎么去复现这个系统的时候,被挖的人呢也就知道该怎么去做这个事。但是我们不会去明示或者暗示对方,如果我们遇到有些人跟我讲说,我有原来那个代码,我可以再搞一遍,我们还会专门地提醒他说:“不行,我们是不能承担这种法律风险的。你到这必须要保证所有代码是干净的,要么你重写,要么你使用开源代码,你一定要遵守原来的开源协议,你不能偷人家代码。”这个事我们一定要讲清楚。

这种挖人呢,当时我们其实还是进行的非常的轰轰烈烈的。有一段时间各大厂在美国呢,都还是有研发中心的,可以就近挖人。而且挖完人以后呢,也不用说你还要回国呀,还要怎么样。而且他们在美国这些研发中心,也给人发H1B,也给人去整绿卡去,都是一样的。

挖人挖的最猛的时候,有一个故事就是Facebook的食堂故事。当时我们到美国硅谷去,都是跑到各个公司去吃人食堂,吃谷歌食堂、吃微软食堂、吃LinkedIn的食堂、吃Facebook食堂。他们这些人其实本来也在各个食堂之间串来串去的,他们食堂都是免费吃的,不用给钱,没有饭票,也没有说你进来先要看一个工卡,没有工卡不让吃,没有这事,访客一样吃。但是访客也是有证,你身上挂一访客证,你可以到人食堂里吃饭去。谷歌一开始因为食堂做的特别好,很多Facebook的人在谷歌吃两顿饭以后,就被人挖走了。后来Facebook痛定思痛,说不行,我一定要自己整一食堂,我要做的比谷歌好吃。然后Facebook挖了很多谷歌的人过去。但后来呢,出了一个什么大事呢?就是腾讯的人跑到Facebook的食堂里去吃饭,当然肯定也是有Facebook内部的员工带着进去,你不能说大街上人就直接进去,这是肯定不行的。进去了以后,这些腾讯的人就开始在Facebook的园区里头面试了,面试完了以后,就把很多Facebook的人直接挖到腾讯的办公室里边去了。这个对于Facebook来说是完全无法忍受的,说你带人进来吃个饭没问题,这点钱我们还是花得起的,但是你带着竞争对手进来,然后挖人,这个有点太过分了。当时是开除了好几个人,这个也是比较有名的一个案件。

下一件事就是这个代码的问题了。代码呢,就是把人挖回来从头再来,通常还是要有一定成本的。有些人比较着急,所以就会有这种偷代码的事情不断地被发现。而且其实很多偷代码的事情都是怎么发现的?就是一些比较高层的这些人被抓的。这些高层的人其实是比较容易被发现,为什么呢?因为他们已经脱离实际工作了,对于底层的很多安全手段也不是那么了解,而且平时你说作为一个管理者,自己又不是那么懂代码,也没有那么多代码是平时他每天要用的,他可能每天看个这个报告就完了。这些人如果突然跑去下载了一堆代码的话,是更容易被抓住。像我们以前挖人,其实是比较喜欢挖这种人的,我们管他们叫“技术官僚”。为什么挖他们呢?他又不能直接上手干活,这可能跟普通人的想法不太一样。原因很简单,就是我们一旦把这个人挖回来了,他就可以快速地把以前的手下、各种亲朋故旧全都带回来,他是有自我组建团队能力的。但是有一些这样的人呢,就一拍脑袋说,我是不是把代码也弄回来?这种人就容易被抓。

中国跟美国的竞争,其实现在大家看到AI领域里头,就是在做这件事情。他呢跟冷战时代其实已经完全不一样了。冷战时代呢,美苏之间隔离的还是很严格的,没有那么多的人员进行交流。虽然也确实有很多俄罗斯科学家或者苏联科学家在美国上班,但是这个量要比今天在AI公司里头打工的中国人要少太多太多了。即使这样的话,奥本海默在扔完原子弹以后,也是被调查了很久嘛,看看他是不是亲共、亲俄嘛。我记得去看奥本海默的电影,从头到尾就是奥本海默坐在那接受调查的一个过程。

AI领域里头想要离开华人做事情,即使在美国其实也不太现实了。二战的时候做曼哈顿计划,你离开俄罗斯科学家,离开苏联科学家,你把这事做成了还是比较可能的。但是你估计离开德国科学家,离开犹太科学家,你这个原子弹就做不出来了。现在在AI领域里头,你离开中国科学家,这事可能也不太容易搞定了。所以在这种偷代码,或者是一些闹得不愉快的事情里头,遇到中国工程师或者科学家的概率还是很高的,甚至会远超过50%。为什么呢?虽然现在很多公司里头看人员名单,说中国工程师好像也就是占到一半,或者是一半上下的一个水平,但其实大家要想清楚,这一半上下的中国工程师,他们主要都是工程师。你这不废话吗?这个说的另外的是什么呢?就是其他的那一半的人,可能主要的不是工程师了,他们可能有一些人是什么财务、HR或者是法务。真正前头加班加点攻坚的这些工程师,大部分都是中国人。另外一点是,中国公司在这一块也有巨大的投入,中国大厂站在旁边,虎视眈眈地准备挖人。所以呢,以后出现这种不愉快事件里头,中国人在里边占的比例应该会不低的。

总结一下吧。马斯克的代码被偷了,愤然起诉了中国工程师。这个工程师应该还是中国籍,大概是加拿大的枫叶卡和美国的H1B。中美之间其实很难通过法律、竞业或者其他的任何手段,真正进行技术隔离。AI这个领域里头,美国人希望靠各种禁运,靠各种的法律手段,让这些技术在某些公司内部去运转,这个事儿可能性不大,必然会在AI领域里头,两个国家齐头并进。

好,这个故事就跟大家讲到这里,如果有后边进一步的瓜,咱们再继续分享。好,感谢大家收听,请帮忙点赞、点小铃铛,参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道,再见。

Comments are closed.

退出移动版