腾讯突发“神仙操作”,4195个开源项目一夜归零!表面是打击外挂,实则是为了垄断AI时代的“数字石油”,你的聊天记录到底属于谁?|GitHub DMCA、WeChat、Tencent
1 月 20
OpenSource AI Data, AI Governance, AI Model Training, Anti-circumvention Clause, Black Gray Industry, Chat Records, Control over Data, Data Sovereignty, Digital Assets, Digital Sovereignty, DMCA Takedown, Dual-use Technology, GitHub DMCA, GitHub Open-source, GitHub Repository Removal, Open Source Libraries, Platform Data Rights, Tencent, User Privacy Rights, WeChat, WeChat Backup Tools, WeChat Data Export, WeChat Hook, WeChat Reverse Engineering 腾讯突发“神仙操作”,4195个开源项目一夜归零!表面是打击外挂,实则是为了垄断AI时代的“数字石油”,你的聊天记录到底属于谁?|GitHub DMCA、WeChat、Tencent已关闭评论

腾讯向GitHub投诉,封闭了4,195个仓库,这到底是一个什么神仙操作?
大家好,欢迎收听老范讲故事的YouTube频道。
腾讯跑去向GitHub投诉,居然引用了数字千年版权法案,要求删除4,195个仓库。现在这些仓库基本上都已经被删掉了。所谓的数字千年版权法案,是1998年美国通过的版权法案。
社区反响:怎么轮到流氓报警了?

以前咱们都说腾讯四处抄袭,都说“狗日的腾讯”,怎么现在轮到流氓报警了?腾讯这次给出的理由,是这些项目以及项目的分支,违反了腾讯设立的安全围栏,获取了用户的聊天记录。
社区中骂声一片,主要观点如下:
- 腾讯你自己的产品做的不好,用别人帮你把功能补上了,你还不乐意,你还来封堵。
- 聊天记录本来就应该是属于客户的,并不是属于你腾讯的,你有什么权利替客户主张?
- 有很多骗子和黑灰产,你腾讯你不去抓,和开发者和用户过不去,你到底想干嘛?
这个是社区里边普遍的声音。
事件时间线
- 1月8号:腾讯向GitHub提出的投诉;
- 1月12号:GitHub开始通知开发者删库;
- 1月18日:面向大众的一些科技媒体开始报道这个事情,事情开始在各种社交媒体上爆发。
详解数字千年版权法 (DMCA)

咱们现在要讲一下数字千年版权法。这个法里头最常被引用的两个条款,一个是512条款,一个是1201条款。
1. 512条款:侵权与避风港原则
512条款叫侵权,他侵犯了我的版权,主要是针对平台和服务商的。有人上传了盗版侵权的内容,我要投诉他下架,主要干这个使的。
这个时候这些平台跟服务商就会去引用“避风港原则”,说这个事我不知道,我也查不过来,你向我投诉了,我就把它下架掉。这个基本原则叫“民不举官不究”。
咱们比如说吧,现在你想看什么美剧怎么办?上B站上去看。B站上每一次有新的美剧,都会给你放盗版的,等到有人投诉的时候,他再把这些东西删掉。他是这样的一个运作方式。这些平台方会在接到投诉以后,对内容进行下架,然后通知——就是谁上传的我要通知一下。如果有抗辩,说这东西不是盗版,我自这里有授权书,或者东西是我自己生成的,那么还是可以酌情给你恢复回来。
2. 1201条款:反规避条款
第二个条款经常被引用的,这一次腾讯所引用的叫1201条款,它叫反规避条款。任何违规者,以及提供规避工具的和服务的这些人,这是这个条款所去针对的。
这个条款的意思,就是你绕过了技术壁垒和保护,绕过了版权保护墙,获得了版权保护墙之后的这些信息。就是你提供技术、提供各种方法都不行,我们就可以去引用这个数字千年法案去投诉你。
GitHub 对“两用技术”的态度
这个里头有很多叫“两用技术”,就跟咱们讲这个两用物资似的,你既可以军用也可以民用。但是这里讲的两用技术是,既可以去做好事,也可以去做坏事的这些技术。
通常GitHub会默认开发者都是好人,只有证据扎实、影响巨大才会去处理。一般情况下,你说我这个项目放到GitHub上去以后,有人可能拿它去做坏事,GitHub通常是不会去管的。如果证据扎实、影响巨大的话,就会忽略做好事那部分,直接把库删掉。这一次腾讯就已经达到目的了。
哪些项目被干掉了?

大家注意,GitHub里面结构是这样的:每一个项目,我们要开一个仓库,把这些源代码都存在里头,存不同的版本。GitHub的仓库有两种,一种叫开放仓库,一种叫私有仓库。这一次主要针对的都是开放仓库。
这一次被干掉的,大部分叫fork项目,叫分支项目。什么意思?就是你有一个开放项目,说我可以从微信里边导这个聊天记录出来,别人看了不错,我也要去改,那我不会在你原来的项目上改,我会在你这个项目的基础上做一个分支,相当于是我在这个基础上做了一个拷贝的影子一样,然后我在这个分支上再去干活。所以它为什么有4,000多个仓库?大量的都是分支分出来的。有一些大家比较喜欢的项目,会有上百个分支出来。
主要被投诉的项目类型如下:
第一种:腾讯客户端 Hook
Hook是钩子的意思,就是我们来去监控腾讯客户端,在里边去做一些事情。它基本上是一个hook和机器人的架构,就是我先在这挂一钩子,发现有什么事的时候,我后边的一个自动程序就可以去处理。这种项目这一次都被投诉了。
第二种:运行进程导出 Key 及解密数据库
腾讯在微信里头,实际上是有一个数据库的,来存我们各种各样的聊天记录、联系人,还有我们在里边买东西存这些信息。要想解开这个数据库的密码,是必须要有一个动态的密码,或者叫动态的key。
这种东西只能去监控他的微信聊天的、微信程序的这个后台进程,然后从这个里边能够截取出这个key来。拿到这个key,就可以解开这个数据库,就可以知道你跟谁聊过什么天了。它是这样的一个工作原理。这一类的项目也统统都被投诉了。
第三种:聊天记录导出与备份
我们用手机的时候,有一个很痛苦的事情是什么?就是微信聊天数据特别特别大。像我每一次换手机的时候,那个我的微信聊天数据大概能有个十几个G或者更大一些。他又不在这个服务器端给你提供备份的这个功能,因为实在是备份不起。所以每一次换手机,备份或者叫迁移这个聊天记录是非常非常痛苦的。
那么有一些工具说“来我帮你做迁移吧”,我帮你把这个微信聊天记录通通都迁移到服务器上,或者迁移到你自己的一个网盘上,等你下一次有新手机或者有一些新的应用的时候,我们帮你再把这个东西复原上去。它有这样的工具,这一次也都被投诉了。
第四种:iOS 备份解析导出
我们的手机,特别iPhone手机,你连到Windows或者连到macOS的这个电脑上以后,它会把整个手机里边的信息做一个备份下来。这个备份里头,你如果把它拆开了,有一部分——或者说叫很大一部分吧——就是微信聊天记录。这一块也有人专门做了工具,说我来帮你把这个文件拆开了,我把微信聊天记录给你找出来。这个也被投诉了。
第五种:数据清理和分析类
像我们以前就是做清理大师嘛,就是做这种清理工具的。那你像微信这么多聊天记录里头,到底哪个能删、哪个不能删?我们是会有一套的办法去分析,说哪个数据是比较旧了,哪些是附件可以让它失效把它删掉,哪个是这个联系人的头像可以把它删掉。
你就想吧,你如果把联系人头像删了,会造成什么样的问题?如果这人你再也不见了也无所谓;如果你下次又需要跟这哥们聊天了,我们需要再去消耗你的流量,重新向微信服务器去申请这个头像去。你如果要清理微信聊天记录的话,首先要分析微信聊天记录的结构,哪些文件到底是存的什么东西,然后才能去删嘛。这一部分也通通都被腾讯投诉删库了。
就刚才我们讲的这些项目,大家听名字就能知道,基本上都是两用项目。它是有正规用途的,不是上来说我一定要窃取你的信息。
DMCA 1201 条款的典型案例
给大家举几个典型的数字千年版权法案1201条款的案例吧。
- YouTube-dl (YouTube download):这个项目也被投诉过。它实际上是干嘛?就是从YouTube你拿链接以后,它把你这个视频给你down下来,离线下载到本地。这个肯定是违反了YouTube的使用规则的,这没什么好说的。它是谁投诉去了?美国唱片业协会跑去投诉去了。这个项目在下架之后,经过整改又重新上架了。
- 任天堂破解程序:有人把怎么去破解Switch那个程序上传到DISCORD上去了。这个项目被任天堂投诉了以后,全部下架,没有再恢复。
GitHub主要的判断标准是绕过限制的这个技术手段是否被充分的证明了。说你是不是真的绕过这个技术手段了,你一定要把这个过程写的很清楚。
YouTube-dl的是通过了整改,它原来是在YouTube-dl那个源代码里头有一个测试用例……现在他把这测试用例改了,说我们就不再给大家演示这东西了,这个东西具体能干什么自己去猜去。它实际上功能都没有任何修改,用户依然可以自行使用去下载那些有版权的内容。只要是做到这一步,GitHub就允许它重新上架了。
为什么选在这个时间点?

腾讯这次的投诉还是非常有效果的,大批的仓库已经被封闭了。还有一些仓库是自主关闭的,就是没有等通知自己就把它删掉了,估计腾讯在国内也找到他们了。
这些两用技术——可以做好事也可以做坏事的技术,在政策里头GitHub明确表示:允许双用途内容与安全研究,默认善意,只有在广泛正在发生的滥用时才可以限制访问。腾讯就证明了,说这些仓库正在被大规模的分支(有一些仓库可能有上百个分支),这一次GitHub就给它处理掉了。
大家有没有想过,为什么现在这样的一个时间点,腾讯就跑出来折腾?腾讯是1月8号去投诉的,刚刚过完元旦。大家是不是最近在玩一个很有趣的游戏?这个游戏叫做“用微信聊天记录生成年度报告,然后再把这些微信聊天记录喂给AI做总结”。很多人都在玩这个,因为我已经在微信的朋友圈里头看到一堆人在晒了,你看我去年都聊了这些人,我跟谁谁谁关系怎么样。
腾讯肯定不希望你去做这个事。腾讯认为,所有的微信聊天记录都是他的,他要拿这东西去训练大模型,去做各种事情,你是不能把它拿出来的。
腾讯其实从去年就在尝试投诉,但是去年GitHub没理他。为什么?因为去年腾讯走的不是数字千年版权法,它走的是隐私保护。他认为说这些人侵犯了用户的隐私,GitHub就没有理他。本来这些微信聊天记录是腾讯自己视为禁脔,准备拿去训练大语言模型的,被导出去,那真的是叔可忍婶不可忍。1月8号就引用了数字千年版权法案再来了一次,这一次终于好使了。
“南山必胜客”的往事

腾讯历史上其实干过一些类似的事情,我不知道还有没有人记得。
- 珊瑚虫QQ:这个版本实际上就是第三方写的,调用腾讯的各种API,给腾讯做了一个非常简洁的QQ版本,没有广告非常清爽。腾讯处理的方式就直接起诉,把这哥们罚了120万(2008年干的活),而且判了三年有期徒刑。
- 微信群控软件:也是被腾讯起诉,被罚了260万。
- 自动抢红包程序:有些人说我做个钩子在里边干嘛?就是自动抢红包,发现哪个群里有红包我自己就进去抢去——这个是被罚了475万。
腾讯只要发现有人敢在他自己的地盘里干坏事,他就一定会冲上来起诉你,没有什么好商量的。南山必胜客在这种案子里面还是无往而不利的。
后续这件事情会怎么发展?开发者有10-14天的时间可以提起抗辩。目前还不清楚是否已经有开发者去提起抗辩了,大概率没有。即使有的话,抗辩成功的可能性也很小。
腾讯是出于好心吗?黑灰产的真相
腾讯这一次到底是不是出于好心?别每次腾讯干点什么事咱就骂他。
首先要讲,微信上面的黑灰产还是很猖獗的。为什么?原因很简单,第一个是用户量巨大,功能非常复杂,超级APP嘛,从头到脚没有什么东西它是不干的,里头还有支付能力,里边是有钱的。所以大量的手机卡号注册的这种假微信账号,都是在机器人程序的控制下干着活。
其实真正的黑灰产,有可能会用这些开源库作为基础,但是一定不是在开源库的上面就直接用的,他们一定是有自己的私有的代码库。但是这些黑灰产是不是使用了这些开源库,你是没有办法去证明的。真正的黑灰产代码,绝对不会存在这些公开的代码仓库里边。
对于真正的黑灰产,腾讯其实也一直在努力进行防护,只是效果还有待观察,可能还要再等一等看。至少目前为止吧,在微信里边、在QQ里边,上当受骗的人还是每天都在产生。
数据主权之争:平台方的核心利益

这次腾讯干的活,主要还是面向用户聊天记录进行主权宣誓。微信怎么能这么坏?明明是我的聊天记录,凭什么你替我去维权,还把我自己用的开开心心的这种微信聊天记录备份工具给我封掉了?
这个先别急着骂。我们在X上发的推文是不是属于我的,还是属于马斯克的?我们在Reddit里头发的帖子,到底是属于谁的?大家想一想,他们是直接封闭了原来免费开放的API,然后开始去卖数据去了。
- Reddit直接把用户数据卖给谷歌、卖给OpenAI了。
- X直接把自己卖给xAI了。xAI之所以能发展这么快,就是因为有大量X上的数据在帮助它做训练。
所以所有的平台都认为这些数据是属于他们的,不光是微信这样,包括X和Reddit都是这么干的。AI时代,数据主权一定是平台方争夺的核心利益。
这里边比较奇葩的是谁?是谷歌。自己基本上不出来投诉,即使是那个广告拦截插件,谷歌会出来呼吁大家不要上广告拦截插件,但是他绝对不去投诉这些广告拦截插件。反正谷歌说你们这些事情,我就认为都是两用的技术,你们都在用它做好事就完了,我就不管你了。
总结
最后总结一下吧。元旦过后,大家玩微信聊天记录统计玩的正开心的时候,腾讯向GitHub投诉了,有开源项目绕过了腾讯的技术壁垒,窃取了受保护的内容。他引用了千年数字版权法的1201条款(叫反规避条款),要把他们都干掉。GitHub就从善如流了,4,195个仓库被封闭。
AI时代,聊天记录这种数字资产是任何平台都不会放弃的。
好,这个故事就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛,参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
背景图片

RSS