DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?

DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?已关闭评论

DeepSeek突然出圈,引发了中文圈的争吵。大家好,欢迎收听老范讲故事的YouTube频道。

DeepSeek在前面,我们已经出了一期视频,去讲它到底是怎么回事了。那么,DeepSeek最近肯定是更加的出圈。首先,DeepSeek V3,据说训练成本只有557万美金,震惊了扎克伯格,震惊了Meta。Meta说:“我们有好多的老大,他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金,那我花了这么多钱去组建AI团队,花了这么多钱去囤显卡,是不是亏了?”现在就有这样的声音出来。

而且,最新的DeepSeek R1,也就是它的推理模型,推理能力已经接近o1了。蒸馏微调出来的这些小模型,已经在很多领域里头超越了o1 Mini。在这儿多补充一句,什么叫蒸馏微调的小模型?像我的电脑上,也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的?它实际上是由DeepSeek R1去输出数据,然后拿输出的数据再去调通义千问2.5-32B的这个模型,最后得到的结果。这就是DeepSeek R1-32B,他在我的电脑上做各种推理,效果相当不错。

那么,据说受到DeepSeek R1的影响,山姆奥特曼已经做出了改变。原来,它的o3模型,包括o3 mini模型,免费用户是用不了的。就是o3 mini,可能能够给plus用户稍微用一用。现在他说:“不,这个o3 mini模型,我们要直接向免费用户开放。”而plus用户,也就像我这样的,每个月只要20美金的用户,每天可以用到上百次。其实这种o系列的模型,甭管是o1也好,o3也好,你一天真的想不出100个问题来,问他100次足够用了。

至于说完整的o3模型,以后是不是依然要在200美金一个月,甚至是更贵的这个版本里面才可以去用到,他现在应该正在抓耳挠腮地想这个问题。美国的媒体也做了一些报道。

而且,这些媒体肯定是看热闹不嫌事大的,就去说:“你看,我们封禁了半天,人家做出这样的一个东西来,震惊我们了。”这些话好多是他们讲出来的,各路大佬也都出来说话了。比如说,谷歌的前CEO原来就讲过:“我们遥遥领先,在这块比中国领先好多年,他们不可能追上。”再问他:“你说我们还是领先吗?”当时我觉得我们还领先一到两年,但是他们正在快速的追赶。

像这个杨立昆,Meta他们家AI领袖人物,他也上来说:“这个是开源的胜利。”都在去讲这个事情,包括很多在美国相对比较有影响力的这些AI圈的创始人,现在也都在纷纷接受采访,再去谈论DeepSeek的事情。所以,这确确实实是出圈了。

那你说,这样出圈的一个事,怎么在中文圈,或者叫中文社交媒体圈里头,大家就吵起来了?这个原因也很简单,因为中文的,特别是简体中文的社交媒体圈,一直都是非常割裂的。一群的二极管在里边去吵来吵去的。什么叫二极管?只有一边是通的,另外一边是不通的。

那么正面的声音是什么?第一个,厉害了我的国。你看,我们好厉害,你封禁了我半天,我小米加步枪也能够打赢胜仗。原来就是说,美国人有飞机大炮,日本人有坦克、飞机、大炮,但是我们小米加步枪,我就把仗打赢了。这个是我们一直津津乐道的一个事情。第二个,就是大量的震惊体。这个就是“谁谁震惊了,谁谁大吃一惊。”这个我们也使用了大量的震惊体来去描述境外势力看到DeepSeek以后的那种反应。

还有什么上来说,这个超英赶美那套东西,英伟达完了,Meta完了,OpenAI完了,他们都完了,以后AI这个圈子就全都是中国人的事了。这样也还有人在想,说美帝的封锁就是个笑话,封了半天,最后做出最好的东西的人还是在我们中国。这是正方的观点,或者我们叫粉红观点。

当然,还有反面观点,永远在讲说中国人还是不会从0到1的。DeepSeek其实是有更多的显卡的,并不是像他们说的只有1万张显卡,而是有5万张H100,也就是美国封禁的这种显卡。

这个也有人在去讲,还有些人说什么,说DeepSeek,这帮人就是一个小聪明,没有大智慧,都是在投机取巧而已。当然,也有些人上来说,这根本不是什么民营公司,后边一定是国家的一盘大企业,这都后边收归国有了,不用讲这事,这个都属于是知黑们,或者反贼们的一些惯常的话术。

继续来了,当然还有一些人再去讲,说这个数据是不是从其他大模型里头出来的,因为中国很多的大模型,训练数据都是从OpenAI来的。所以你每次问他说你是哪个大模型,上来都是说我是OpenAI家的ChatGPT,这个大家都会去做的。我记得DeepSeek V3当时好像也干过这样的丢人事,甚至还有人去怀疑,说DeepSeek这个数据是不是有侵犯版权,是不是有些其他的问题也都在询问。

甚至还有一些人上来说,美国是不是应该把这个封锁,搞得再严格一下,让他彻底做不出来不就完事了吗?这个没有办法,这些人他就是恨国党,只要是中国人做的稍微好一点点,他们就完全看不下去那个状态。这就是正反两面,现在正在中文的社交媒体圈里头撕来撕去。

当然还有一些困扰的声音,既不是正面也不是反面,或者说稍微偏正面一点的声音,他们说什么,这么好的东西干嘛开源给外国人看,咱自己留着偷偷藏起来,这个可能也是一部分粉红会有这样的声音吧。那么到底谁对谁错呢?我觉得我们没有必要去讨论谁对谁错的事情。

DeepSeek到底是不是遥遥领先,这件事其实是一个伪命题。我们一旦想出来遥遥领先了,这个其实是有问题的,因为遥遥领先这件事了,说我们不讲道理了,我就在你前面,你也不可能超过我。你只要超过我,他等于政治就不正确了,这个玩意才叫遥遥领先。

我们在某些领域里头得出了一些领先的结果,其他领域还在追赶。我们领先的这些领域里头,别人也在追赶,然后你追我赶的,把整个的AIGC事业往前推荐,这个才是真正大家应该去思考的问题。所以在所有的这些大佬的讲话里边,真正有价值的是谁讲的。

就是杨立昆,这个Meta的AI首席科学家,他讲的是什么?他说这根本就不是中美两国谁胜谁负的问题,这跟这事没关系。他讲的是什么?这是开源战胜了闭源,这是开源的胜利。这个是为整个DeepSeek事件定性的最好的一句话,请大家记住,这里头跟中国和美国没有什么特别大的关系。这些人在美国也能做出同样的东西来,也许他们的方向不一样,会做的跟现在的结果有差异,但也依然是可以做出震惊世界的东西出来的。而真正胜利的是开源,开源是一种最新的、最先进的软件开发的协作方式,是这样的一种协作方式战胜了原来这种闭源的传统方式。

那么这个项目到底是不是原创呢?DeepSeek你们是从0到1原创的,还是说在人家的基础上耍了个小聪明,没有真实的原创性创新?这个有很多人就上来说,中国人就不可能有原创性创新,我觉得这样讲是很不负责任的。第一个,在没有GPT-2,没有Llama,整个这些开源的大模型的情况下,就不会有中国的大模型产业,整个产业都不会存在,这个大家还是要去承认的。

我觉得与其去讨论是不是原创,我们更应该想的是什么,如何加入到创新大潮中去贡献力量,这才是真正应该想的。每一个创新都是可贵的,我只要是遇到问题,把问题解决掉了,它就是创新。至于说这个创新到底有多大价值,是不是可以积少成多、聚沙成塔,变成了一个很伟大的工程项目,我觉得我们只要慢慢地去堆砌,慢慢地去积累,总会有这样的一个量变,实现质变的时间点。

就算是美国人用的很多的,这些现在我们看到的很新的技术,其实也是有很多过去几十年,甚至上百年研究出来的。这些基础都是在上面逐渐地去改进,逐渐地去解决问题,逐渐积累起来的。我们不要老去上来就说,这个事你耍了个小聪明,那个事你搞了一个从1到100,没有从0到1,别想这个事,没有那么重要。那么DeepSeek是不是确实触动了美国大模型的产业圈呢?从DeepSeek开放出来的论文和原代码,大家都在努力地下载。

去尝试,去复现,去部署,去使用这块来看,确实是这样。这个DeepSeek确实触动了美国整个的大模型产业圈。而且DeepSeek的方法将会深刻地影响美国项目未来的方向,或者说将会深刻影响全世界AI项目未来的方向。那么是不是应该收紧制裁呢?

如果前面没有制裁,没有这么多拜登说我要去怎么制裁,哪个学生不能来,什么国防七子怎么回事,没有搞这些事,DeepSeek团队中的可能一大部分人现在应该都在美国。这就是制裁的结果。如果没有前面的显卡禁令,那么国内可能会更早地贡献出来比DeepSeek更加有趣的模型。这就是制裁的结果。

千万不要想着可以靠制裁去得到什么样的后果,唯一的后果就是本来应该在美国的很多创新的人才,他们留在了中国,在中国做出了DeepSeek。本来让全世界、全人类可以在大模型的方向上跑得更快的很多的发明创造,因为限制没有做出来,这就是制裁的后果。

那么“厉害了我的国”这件事到底对不对,其实完全没有必要。咱们举个例子,相当于什么?四个人在这打麻将,咱们四个劈了啪啦,打麻将打得很开心,打了一晚上了也得胡个多少圈牌了。突然有一个人开了个杠出来,开完杠出来以后,他身后有一堆的亲友团,直接就爆发了:“你好厉害,你居然开杠了!”导致这个麻将没法打下去了,这到此结束了。这个其实是没有必要的,开杠就开杠呗,这一圈你要领先了一次,那咱后边还打不打了?

整个的大模型产业创新,实际上就像是大家在这打麻将。你不能说你取得了任何成绩,大家停下来等我先庆祝个两年,咱们再接着往下打,这没有任何意义。麻将还要接着打下去,这才是真正看待“厉害了我的国”的方法。

你像中国人,当然有的时候会有一些怪癖。你比如说,国人看到了一个会讲中文的老外,哇,那叫激动:“你的中文讲得实在太好了!”觉得特别有面子。但是如果老外看到了一个会讲英文的中国人,完全没有反应:“讲英文呗。”这些讲英文的人,有黑人,有白人。

有华人,有各种面孔的人,还有印度人。有的讲得好,有的讲得不好,都没有任何问题。就算讲得再字正腔圆,他也没觉得这事有多稀奇。但是你像中国人,你要看到一个老外讲中文讲得再荒腔走板,你都要冲上去,哎呀,你实在讲得太好了,我觉得太有面子了。这个算是中国人的一个民族性。

对于被DeepSeek所震惊的这些美国人来说,他们真正看到的是什么?他们真正看到的是,有人做出了新的科技创新,仅此而已。而且还发表的是英文论文,内容放在Huggingface上没有什么障碍,大家就可以直接用了。你并没有说我把这东西写成中文论文,只放在国内的,比如说某一个开源平台上。你要想用,我还要爬进来去使用,还要找人去看这些中文文件,没有。你上来,你也是发表的英文论文,大家全世界的人都是这么干的呀。你法国的这个团队,你去发表论文,你也是发表英文的;以色列团队,你去发表论文,你也是发表英文的;中国团队,你也发表了英文论文;美国团队也是发表英文论文。这有什么差异吗?没有什么差异,大家一起推着这个事情往前走就好了。而且他们自己的团队里边也有一大堆的亚洲脸,这事不是很正常吗?你们在瞎激动什么呀?

这个就是“厉害了,我的国”。这个事其实是不可取的。再往后咱们来讲一讲,哪个老外要完蛋了没有?咱们前头不是想Meta是不是要完蛋了,英伟达是不是要完蛋了,OpenAI是不是要完蛋了?咱们看一看,首先对于Meta来说,有些事情是有些过分了,比如说557万美金完成的训练,这个里头是仅仅计算了用了这么多显卡,应该是2048块显卡,训练了多少个小时,只是算了这个数。他是557万美金,你的数据是什么样的成本,你的人工是什么样的成本?而且训练这个东西,它不是训练一次就行了的,特别是像MoE这样复杂的架构,它可能中间会失败非常多次,然后进行架构的调整和重新设计,重新训练。那么最后你用一次训练的,而且仅仅是训练成本。

来去替代Deepseak V3的开发成本,这件事本身是不对的。所以不要想着说,这边557万美金就训练了一个大模型出来,Meta就天塌了,没有这事。Meta现在也表态了,我们要继续加大力度买显卡。原来有60万块显卡,今年准备买到130万块,充分的去买显卡。买完显卡以后,还要再继续努力的去训练新的模型。

现在等于又多了一条训练的路径。原来Meta说我这有训练的路径,怎么去从LLama1、LLama2、LLama3、LLama3.1、3.2、3.3怎么训练上来。现在DeepSeek又给我提供了很多新思路,那我在做新的训练任务的时候,可以有很多的新的训练方案去尝试。最后可能再训练出来的LLama4,就会比原来的LLama3要强,非常大的一块,这个还是不一样的。

所以对于Meta来说,那咱们就上呗。原来可能我一共有5条路可以尝试,现在又多了两条路。那么排列组合一下,怎么能够把这些路径都设计好,去训练出新的LLama3来,这个是大家可以看的。XAI其实没说什么,但是Grok 3的训练,估计也会增加很多新的训练方法,可以进行尝试。

对于英伟达来说,千万别建议英伟达废了。当然英伟达确确实实最近的股价又在开始波动,现在都不敢讲是英伟达股票涨了还是跌了,因为总有人过了半个月回来说,你现在不是说跌了吗?你看涨回来了。这个英伟达作为这么高市值的公司来说,他的股价来回发生波动是很正常的。那么对于英伟达来说,这应该是一个巨大的利好。为什么?因为有人能够把这样的模型用起来了,能够这么便宜、这么好用的模型开源出来,那么大家就会疯狂的去买显卡回来,把自己原来的模型增加上这些新的方法,重新去做训练,重新去做微调或者去做蒸馏,这是大家要去干的事情。

所以这个事对英伟达是有好处的。另外很多的AI agent公司,也会自己去部署自己的算力中心,然后去部署这个开源的DeepSeek模型,就可以跑起来。

这个对于英伟达来说也是利好。大模型应用的成本更低,效果更好,各大公司都会疯狂地买显卡的。至于闭源模型来说,他们确实是要压力山大了。刚才我们讲的这些,不管是Meta,还是XAI,还是最基础的英伟达,实际上我们都是在讲开源路径。那么闭源路径,比如说OpenAI,他们就要想一想怎么办。它的领袖地位在发生动摇,Anthropic肯定也要承受一定的压力,因为它的价值肯定会下降的。

至于谷歌到底发生什么事了,这么大的公司还没反应过来。云计算厂商应该是久旱逢甘霖,不管是微软、亚马逊,还是谷歌、Oracle,都是说我是云计算厂商,你是开源的模型,我给你部署上来。那么以后使用我们云计算机房里边这些客户,你就可以在我这直接使用同一个机房里面部署的DeepSeek大模型了。这个对于他们来说肯定是好事,他们也还会再去买一些显卡回来。当然了,这块就有可能会去买AMD的显卡了,因为AMD的MI 300据说已经把DeepSeek V3跑起来了。

这个其实也很简单,因为AMD是Pytorch基金会的一个核心贡献者,给钱的人。你要去跑这样的模型,肯定还是要去使用类似于Pytorch这样的工具。只要能够让这个工具可以跟AMD的显卡进行很好的兼容,可以进行推理,那么AMD现在号称说我内置了DeepSeek V3,这个话就是稍微有一点点歧义。但是大家可以认为说,我只要是买AMD的显卡,就可以把DeepSeek V3跑起来,这个没毛病。

那么其他的这些AI Agent厂商,这个也是救命稻草来了,比如说Perplexity,还有Cursor这样的AI Agent公司。他们原来必须要去调用OpenAI,要去调用Claude,这个东西很贵,而且你掌握在别人的手里面,你所有的用户数据别人都可以看到,这个肯定是非常不爽的。现在这两家公司已经都在产品内部集成了DeepSeek V3。

甚至可能正在集成 DeepSeek R1 这样的推理模型。那么未来可能越来越多的 AI Agent 的公司会走这条路。2025 年就是 AI Agent 年,而他们可能很多的这种应用,都将在 DeepSeek V3 或者是 DeepSeek R1 这样的模型上继续往前快速奔跑。

至于国内的公司,肯定也在努力。这两天,第一个是豆包 1.5 Pro 版本出来了,也是 Moe 模型。而且豆包喊的是什么?“我所有的数据都不是来自于蒸馏,都不是来自于其他模型,所有数据都是我自己的。”这个确实在这点上要比 DeepSeek 要好一点。为什么?因为使用了别人的数据后,可能会把一些偏见带到自己的模型里,而这往往比较难以发现。就经常你去问他说:“你是谁?”上来说:“我是 OpenAI 的 ChatGPT。”

那么豆包为什么有这样的底气?后边是字节跳动,有今日头条,有抖音,这样的平台在后头顶着。他有的是数据,而且他的数据都可能经历了几万人的筛选、过滤和标注的。所以在这块上,它确实是有一定的优势。我这两天也试了一下豆包 1.5 Pro,除了这个政治正确太严重之外,没什么大毛病。它这个豆包 1.5 还更便宜,它比 DeepSeek 还便宜。原因也很简单,DeepSeek 再怎么便宜,是人家成本低,而豆包的话,我可以赔钱,我可以发补贴,这个事你是比不了的。

另外,Minimax 也出了一个 01 的模型,叫 Minimax 01。它原来没有开源,从 Minimax 01 这个版本开始去开源了,刷分刷各种排行榜,也刷得很高,但没有什么响动,大家也没有觉得 Minimax 怎么样。原因也很简单,开源这个事并不是一蹴而就的。我今儿开源了,大家就必须要马上冲下来三拜九叩,没有这事。开源是要长期的开源,开源很长时间了以后,才会有人慢慢地去看你的代码、看你的论文、看你这些信息。

因为我们要去使用一个开源系统,一开始这个成本是很高的,你需要招聘这些会使用开源的人。

这些人的本身的薪资,就要比那些不会使用开源的人要高。高好大一快的,而且这么大的模型,这么大的系统,我们要把整个的系统都进行阅读、进行理解,这个成本是要支付的。如果你今天突然说我开源了,那么大家也要看一看,日久见人心,明天你万一不开了呢?这个还是要逐渐积累。而且这个Minimax的开源,应该开的也没有DeepSeek那么彻底、那么完整。DeepSeek就属于彻底,所有东西都拿出来,你们就看着,照着东西可以重现。这个迷你Max还惦记着说我是不是开点源,吸引点用户回来,我是不是又可以找他们收钱去了。他在想这样的事情,那这个就一看,就不是一个真心开源的项目。

在这种基础上,他现在依然没有什么响动。Kimi 1.5也出来了,刷了分。咱们中国大模型出来,甭管豆包、Minimax和Kimi,都是先去刷分,刷排行榜。排行榜刷完了以后,好像也就没有什么响动了。一个闭源模型,那在这样的情况下,我有开源的,我干嘛要用你?闭源一定是如此的一个情况了。而且Kimi 1.5的政治正确,要比这个豆包还严重,所以也就到这了。

最后总结一下,这是开源对闭源的胜利,这点非常重要。而且真开源是很难的,也是会被认可的。那些假开源,你要看看是不是愿意坚持下去,把自己的假开源慢慢的做成真开源。而且大力出奇迹这件事情依然存在,现在只是说在大力出奇迹的时候,我可以多换几个姿势,多换几个角度了,但是大力依然出奇迹。

不要老想着中国到底能不能创新,是不是遥遥领先,这件事根本就不重要。重要的是什么?重要的是在开源的模式下,快速的奔跑,参与到标准的制定者中间去,这个才是重要的。否则可能折腾了半天,你压根就不在这个标准制定者里面。因为现在大家都在开业,大家都是说我们向标准里边贡献东西。那么你不能说在前面贡献的时候,我们没有上去,我们都敝帚自珍,把门关起来自己偷偷的在这研究,等人家把这个标准拿出来以后,冲上来说不行。

我们要改一下这标准。我不认你这个标准,谁理你?所以在这个时候,大家就要疯狂地冲上去,参与到标准制定里边去。其实在这里再补充一句,原来在国内各个企业里边,在全世界标准组织里边,贡献最多的公司,在开源项目里边贡献最多的公司是谁?是华为。如果没有制裁,可能华为已经在这条路上走得很远了。但是因为制裁的原因,现在只能自己把门关起来,喊“遥遥领先了”。这个也是制裁造成的一个非常惨重的结果。

好,这就是今天跟大家稍微总结一下,DeepSeek出圈了以后,中文圈到底在吵什么,以及我的一些观点。好,这期就讲到这里,感谢大家收听,请帮忙点赞,点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.