DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?
1 月 28
AIGC, DeepSeek大模型 AI Agent公司, AI Agent生态, AIGC领域, AI云计算, AI产业标准, AI协作方式, AI大模型, AI开源, AI开源项目, AI推理能力, AI数据偏见, AI显卡优化, AI显卡禁令, AI研发成本, AI蒸馏微调, AI闭源模型, AMD MI 300, AMD显卡兼容, Anthropic压力, Claude模型, DeepSeek, DeepSeek R1, Deepseek V3, DeepSeek代码, DeepSeek原创性, DeepSeek影响, DeepSeek成果, DeepSeek数据来源, DeepSeek美国市场, DeepSeek英文论文, Deepseek训练成本, DeepSeek论文, Huggingface, Kimi 1.5, Meta AI发展计划, Meta震惊, Minimax 01, OpenAI竞争, Oracle云计算, PyTorch开源工具, 中文社交媒体, 中美AI竞争, 中美科技博弈, 亚马逊AI, 人工智能创新, 华为AI标准, 大模型训练路径, 字节跳动AI, 开源模式, 开源胜利, 微软AI, 英伟达显卡, 谷歌AI, 谷歌AI研究, 豆包1.5, 通义千问, 闭源与开源 DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?已关闭评论
DeepSeek突然出圈,引发了中文圈的争吵。大家好,欢迎收听老范讲故事的YouTube频道。
DeepSeek在前面,我们已经出了一期视频,去讲它到底是怎么回事了。那么,DeepSeek最近肯定是更加的出圈。首先,DeepSeek V3,据说训练成本只有557万美金,震惊了扎克伯格,震惊了Meta。Meta说:“我们有好多的老大,他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金,那我花了这么多钱去组建AI团队,花了这么多钱去囤显卡,是不是亏了?”现在就有这样的声音出来。
而且,最新的DeepSeek R1,也就是它的推理模型,推理能力已经接近o1了。蒸馏微调出来的这些小模型,已经在很多领域里头超越了o1 Mini。在这儿多补充一句,什么叫蒸馏微调的小模型?像我的电脑上,也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的?它实际上是由DeepSeek R1去输出数据,然后拿输出的数据再去调通义千问2.5-32B的这个模型,最后得到的结果。这就是DeepSeek R1-32B,他在我的电脑上做各种推理,效果相当不错。
那么,据说受到DeepSeek R1的影响,山姆奥特曼已经做出了改变。原来,它的o3模型,包括o3 mini模型,免费用户是用不了的。就是o3 mini,可能能够给plus用户稍微用一用。现在他说:“不,这个o3 mini模型,我们要直接向免费用户开放。”而plus用户,也就像我这样的,每个月只要20美金的用户,每天可以用到上百次。其实这种o系列的模型,甭管是o1也好,o3也好,你一天真的想不出100个问题来,问他100次足够用了。
至于说完整的o3模型,以后是不是依然要在200美金一个月,甚至是更贵的这个版本里面才可以去用到,他现在应该正在抓耳挠腮地想这个问题。美国的媒体也做了一些报道。
而且,这些媒体肯定是看热闹不嫌事大的,就去说:“你看,我们封禁了半天,人家做出这样的一个东西来,震惊我们了。”这些话好多是他们讲出来的,各路大佬也都出来说话了。比如说,谷歌的前CEO原来就讲过:“我们遥遥领先,在这块比中国领先好多年,他们不可能追上。”再问他:“你说我们还是领先吗?”当时我觉得我们还领先一到两年,但是他们正在快速的追赶。
像这个杨立昆,Meta他们家AI领袖人物,他也上来说:“这个是开源的胜利。”都在去讲这个事情,包括很多在美国相对比较有影响力的这些AI圈的创始人,现在也都在纷纷接受采访,再去谈论DeepSeek的事情。所以,这确确实实是出圈了。
那你说,这样出圈的一个事,怎么在中文圈,或者叫中文社交媒体圈里头,大家就吵起来了?这个原因也很简单,因为中文的,特别是简体中文的社交媒体圈,一直都是非常割裂的。一群的二极管在里边去吵来吵去的。什么叫二极管?只有一边是通的,另外一边是不通的。
那么正面的声音是什么?第一个,厉害了我的国。你看,我们好厉害,你封禁了我半天,我小米加步枪也能够打赢胜仗。原来就是说,美国人有飞机大炮,日本人有坦克、飞机、大炮,但是我们小米加步枪,我就把仗打赢了。这个是我们一直津津乐道的一个事情。第二个,就是大量的震惊体。这个就是“谁谁震惊了,谁谁大吃一惊。”这个我们也使用了大量的震惊体来去描述境外势力看到DeepSeek以后的那种反应。
还有什么上来说,这个超英赶美那套东西,英伟达完了,Meta完了,OpenAI完了,他们都完了,以后AI这个圈子就全都是中国人的事了。这样也还有人在想,说美帝的封锁就是个笑话,封了半天,最后做出最好的东西的人还是在我们中国。这是正方的观点,或者我们叫粉红观点。
当然,还有反面观点,永远在讲说中国人还是不会从0到1的。DeepSeek其实是有更多的显卡的,并不是像他们说的只有1万张显卡,而是有5万张H100,也就是美国封禁的这种显卡。
这个也有人在去讲,还有些人说什么,说DeepSeek,这帮人就是一个小聪明,没有大智慧,都是在投机取巧而已。当然,也有些人上来说,这根本不是什么民营公司,后边一定是国家的一盘大企业,这都后边收归国有了,不用讲这事,这个都属于是知黑们,或者反贼们的一些惯常的话术。
继续来了,当然还有一些人再去讲,说这个数据是不是从其他大模型里头出来的,因为中国很多的大模型,训练数据都是从OpenAI来的。所以你每次问他说你是哪个大模型,上来都是说我是OpenAI家的ChatGPT,这个大家都会去做的。我记得DeepSeek V3当时好像也干过这样的丢人事,甚至还有人去怀疑,说DeepSeek这个数据是不是有侵犯版权,是不是有些其他的问题也都在询问。
甚至还有一些人上来说,美国是不是应该把这个封锁,搞得再严格一下,让他彻底做不出来不就完事了吗?这个没有办法,这些人他就是恨国党,只要是中国人做的稍微好一点点,他们就完全看不下去那个状态。这就是正反两面,现在正在中文的社交媒体圈里头撕来撕去。
当然还有一些困扰的声音,既不是正面也不是反面,或者说稍微偏正面一点的声音,他们说什么,这么好的东西干嘛开源给外国人看,咱自己留着偷偷藏起来,这个可能也是一部分粉红会有这样的声音吧。那么到底谁对谁错呢?我觉得我们没有必要去讨论谁对谁错的事情。
DeepSeek到底是不是遥遥领先,这件事其实是一个伪命题。我们一旦想出来遥遥领先了,这个其实是有问题的,因为遥遥领先这件事了,说我们不讲道理了,我就在你前面,你也不可能超过我。你只要超过我,他等于政治就不正确了,这个玩意才叫遥遥领先。
我们在某些领域里头得出了一些领先的结果,其他领域还在追赶。我们领先的这些领域里头,别人也在追赶,然后你追我赶的,把整个的AIGC事业往前推荐,这个才是真正大家应该去思考的问题。所以在所有的这些大佬的讲话里边,真正有价值的是谁讲的。
就是杨立昆,这个Meta的AI首席科学家,他讲的是什么?他说这根本就不是中美两国谁胜谁负的问题,这跟这事没关系。他讲的是什么?这是开源战胜了闭源,这是开源的胜利。这个是为整个DeepSeek事件定性的最好的一句话,请大家记住,这里头跟中国和美国没有什么特别大的关系。这些人在美国也能做出同样的东西来,也许他们的方向不一样,会做的跟现在的结果有差异,但也依然是可以做出震惊世界的东西出来的。而真正胜利的是开源,开源是一种最新的、最先进的软件开发的协作方式,是这样的一种协作方式战胜了原来这种闭源的传统方式。
那么这个项目到底是不是原创呢?DeepSeek你们是从0到1原创的,还是说在人家的基础上耍了个小聪明,没有真实的原创性创新?这个有很多人就上来说,中国人就不可能有原创性创新,我觉得这样讲是很不负责任的。第一个,在没有GPT-2,没有Llama,整个这些开源的大模型的情况下,就不会有中国的大模型产业,整个产业都不会存在,这个大家还是要去承认的。
我觉得与其去讨论是不是原创,我们更应该想的是什么,如何加入到创新大潮中去贡献力量,这才是真正应该想的。每一个创新都是可贵的,我只要是遇到问题,把问题解决掉了,它就是创新。至于说这个创新到底有多大价值,是不是可以积少成多、聚沙成塔,变成了一个很伟大的工程项目,我觉得我们只要慢慢地去堆砌,慢慢地去积累,总会有这样的一个量变,实现质变的时间点。
就算是美国人用的很多的,这些现在我们看到的很新的技术,其实也是有很多过去几十年,甚至上百年研究出来的。这些基础都是在上面逐渐地去改进,逐渐地去解决问题,逐渐积累起来的。我们不要老去上来就说,这个事你耍了个小聪明,那个事你搞了一个从1到100,没有从0到1,别想这个事,没有那么重要。那么DeepSeek是不是确实触动了美国大模型的产业圈呢?从DeepSeek开放出来的论文和原代码,大家都在努力地下载。
去尝试,去复现,去部署,去使用这块来看,确实是这样。这个DeepSeek确实触动了美国整个的大模型产业圈。而且DeepSeek的方法将会深刻地影响美国项目未来的方向,或者说将会深刻影响全世界AI项目未来的方向。那么是不是应该收紧制裁呢?
如果前面没有制裁,没有这么多拜登说我要去怎么制裁,哪个学生不能来,什么国防七子怎么回事,没有搞这些事,DeepSeek团队中的可能一大部分人现在应该都在美国。这就是制裁的结果。如果没有前面的显卡禁令,那么国内可能会更早地贡献出来比DeepSeek更加有趣的模型。这就是制裁的结果。
千万不要想着可以靠制裁去得到什么样的后果,唯一的后果就是本来应该在美国的很多创新的人才,他们留在了中国,在中国做出了DeepSeek。本来让全世界、全人类可以在大模型的方向上跑得更快的很多的发明创造,因为限制没有做出来,这就是制裁的后果。
那么“厉害了我的国”这件事到底对不对,其实完全没有必要。咱们举个例子,相当于什么?四个人在这打麻将,咱们四个劈了啪啦,打麻将打得很开心,打了一晚上了也得胡个多少圈牌了。突然有一个人开了个杠出来,开完杠出来以后,他身后有一堆的亲友团,直接就爆发了:“你好厉害,你居然开杠了!”导致这个麻将没法打下去了,这到此结束了。这个其实是没有必要的,开杠就开杠呗,这一圈你要领先了一次,那咱后边还打不打了?
整个的大模型产业创新,实际上就像是大家在这打麻将。你不能说你取得了任何成绩,大家停下来等我先庆祝个两年,咱们再接着往下打,这没有任何意义。麻将还要接着打下去,这才是真正看待“厉害了我的国”的方法。
你像中国人,当然有的时候会有一些怪癖。你比如说,国人看到了一个会讲中文的老外,哇,那叫激动:“你的中文讲得实在太好了!”觉得特别有面子。但是如果老外看到了一个会讲英文的中国人,完全没有反应:“讲英文呗。”这些讲英文的人,有黑人,有白人。
有华人,有各种面孔的人,还有印度人。有的讲得好,有的讲得不好,都没有任何问题。就算讲得再字正腔圆,他也没觉得这事有多稀奇。但是你像中国人,你要看到一个老外讲中文讲得再荒腔走板,你都要冲上去,哎呀,你实在讲得太好了,我觉得太有面子了。这个算是中国人的一个民族性。
对于被DeepSeek所震惊的这些美国人来说,他们真正看到的是什么?他们真正看到的是,有人做出了新的科技创新,仅此而已。而且还发表的是英文论文,内容放在Huggingface上没有什么障碍,大家就可以直接用了。你并没有说我把这东西写成中文论文,只放在国内的,比如说某一个开源平台上。你要想用,我还要爬进来去使用,还要找人去看这些中文文件,没有。你上来,你也是发表的英文论文,大家全世界的人都是这么干的呀。你法国的这个团队,你去发表论文,你也是发表英文的;以色列团队,你去发表论文,你也是发表英文的;中国团队,你也发表了英文论文;美国团队也是发表英文论文。这有什么差异吗?没有什么差异,大家一起推着这个事情往前走就好了。而且他们自己的团队里边也有一大堆的亚洲脸,这事不是很正常吗?你们在瞎激动什么呀?
这个就是“厉害了,我的国”。这个事其实是不可取的。再往后咱们来讲一讲,哪个老外要完蛋了没有?咱们前头不是想Meta是不是要完蛋了,英伟达是不是要完蛋了,OpenAI是不是要完蛋了?咱们看一看,首先对于Meta来说,有些事情是有些过分了,比如说557万美金完成的训练,这个里头是仅仅计算了用了这么多显卡,应该是2048块显卡,训练了多少个小时,只是算了这个数。他是557万美金,你的数据是什么样的成本,你的人工是什么样的成本?而且训练这个东西,它不是训练一次就行了的,特别是像MoE这样复杂的架构,它可能中间会失败非常多次,然后进行架构的调整和重新设计,重新训练。那么最后你用一次训练的,而且仅仅是训练成本。
来去替代Deepseak V3的开发成本,这件事本身是不对的。所以不要想着说,这边557万美金就训练了一个大模型出来,Meta就天塌了,没有这事。Meta现在也表态了,我们要继续加大力度买显卡。原来有60万块显卡,今年准备买到130万块,充分的去买显卡。买完显卡以后,还要再继续努力的去训练新的模型。
现在等于又多了一条训练的路径。原来Meta说我这有训练的路径,怎么去从LLama1、LLama2、LLama3、LLama3.1、3.2、3.3怎么训练上来。现在DeepSeek又给我提供了很多新思路,那我在做新的训练任务的时候,可以有很多的新的训练方案去尝试。最后可能再训练出来的LLama4,就会比原来的LLama3要强,非常大的一块,这个还是不一样的。
所以对于Meta来说,那咱们就上呗。原来可能我一共有5条路可以尝试,现在又多了两条路。那么排列组合一下,怎么能够把这些路径都设计好,去训练出新的LLama3来,这个是大家可以看的。XAI其实没说什么,但是Grok 3的训练,估计也会增加很多新的训练方法,可以进行尝试。
对于英伟达来说,千万别建议英伟达废了。当然英伟达确确实实最近的股价又在开始波动,现在都不敢讲是英伟达股票涨了还是跌了,因为总有人过了半个月回来说,你现在不是说跌了吗?你看涨回来了。这个英伟达作为这么高市值的公司来说,他的股价来回发生波动是很正常的。那么对于英伟达来说,这应该是一个巨大的利好。为什么?因为有人能够把这样的模型用起来了,能够这么便宜、这么好用的模型开源出来,那么大家就会疯狂的去买显卡回来,把自己原来的模型增加上这些新的方法,重新去做训练,重新去做微调或者去做蒸馏,这是大家要去干的事情。
所以这个事对英伟达是有好处的。另外很多的AI agent公司,也会自己去部署自己的算力中心,然后去部署这个开源的DeepSeek模型,就可以跑起来。
这个对于英伟达来说也是利好。大模型应用的成本更低,效果更好,各大公司都会疯狂地买显卡的。至于闭源模型来说,他们确实是要压力山大了。刚才我们讲的这些,不管是Meta,还是XAI,还是最基础的英伟达,实际上我们都是在讲开源路径。那么闭源路径,比如说OpenAI,他们就要想一想怎么办。它的领袖地位在发生动摇,Anthropic肯定也要承受一定的压力,因为它的价值肯定会下降的。
至于谷歌到底发生什么事了,这么大的公司还没反应过来。云计算厂商应该是久旱逢甘霖,不管是微软、亚马逊,还是谷歌、Oracle,都是说我是云计算厂商,你是开源的模型,我给你部署上来。那么以后使用我们云计算机房里边这些客户,你就可以在我这直接使用同一个机房里面部署的DeepSeek大模型了。这个对于他们来说肯定是好事,他们也还会再去买一些显卡回来。当然了,这块就有可能会去买AMD的显卡了,因为AMD的MI 300据说已经把DeepSeek V3跑起来了。
这个其实也很简单,因为AMD是Pytorch基金会的一个核心贡献者,给钱的人。你要去跑这样的模型,肯定还是要去使用类似于Pytorch这样的工具。只要能够让这个工具可以跟AMD的显卡进行很好的兼容,可以进行推理,那么AMD现在号称说我内置了DeepSeek V3,这个话就是稍微有一点点歧义。但是大家可以认为说,我只要是买AMD的显卡,就可以把DeepSeek V3跑起来,这个没毛病。
那么其他的这些AI Agent厂商,这个也是救命稻草来了,比如说Perplexity,还有Cursor这样的AI Agent公司。他们原来必须要去调用OpenAI,要去调用Claude,这个东西很贵,而且你掌握在别人的手里面,你所有的用户数据别人都可以看到,这个肯定是非常不爽的。现在这两家公司已经都在产品内部集成了DeepSeek V3。
甚至可能正在集成 DeepSeek R1 这样的推理模型。那么未来可能越来越多的 AI Agent 的公司会走这条路。2025 年就是 AI Agent 年,而他们可能很多的这种应用,都将在 DeepSeek V3 或者是 DeepSeek R1 这样的模型上继续往前快速奔跑。
至于国内的公司,肯定也在努力。这两天,第一个是豆包 1.5 Pro 版本出来了,也是 Moe 模型。而且豆包喊的是什么?“我所有的数据都不是来自于蒸馏,都不是来自于其他模型,所有数据都是我自己的。”这个确实在这点上要比 DeepSeek 要好一点。为什么?因为使用了别人的数据后,可能会把一些偏见带到自己的模型里,而这往往比较难以发现。就经常你去问他说:“你是谁?”上来说:“我是 OpenAI 的 ChatGPT。”
那么豆包为什么有这样的底气?后边是字节跳动,有今日头条,有抖音,这样的平台在后头顶着。他有的是数据,而且他的数据都可能经历了几万人的筛选、过滤和标注的。所以在这块上,它确实是有一定的优势。我这两天也试了一下豆包 1.5 Pro,除了这个政治正确太严重之外,没什么大毛病。它这个豆包 1.5 还更便宜,它比 DeepSeek 还便宜。原因也很简单,DeepSeek 再怎么便宜,是人家成本低,而豆包的话,我可以赔钱,我可以发补贴,这个事你是比不了的。
另外,Minimax 也出了一个 01 的模型,叫 Minimax 01。它原来没有开源,从 Minimax 01 这个版本开始去开源了,刷分刷各种排行榜,也刷得很高,但没有什么响动,大家也没有觉得 Minimax 怎么样。原因也很简单,开源这个事并不是一蹴而就的。我今儿开源了,大家就必须要马上冲下来三拜九叩,没有这事。开源是要长期的开源,开源很长时间了以后,才会有人慢慢地去看你的代码、看你的论文、看你这些信息。
因为我们要去使用一个开源系统,一开始这个成本是很高的,你需要招聘这些会使用开源的人。
这些人的本身的薪资,就要比那些不会使用开源的人要高。高好大一快的,而且这么大的模型,这么大的系统,我们要把整个的系统都进行阅读、进行理解,这个成本是要支付的。如果你今天突然说我开源了,那么大家也要看一看,日久见人心,明天你万一不开了呢?这个还是要逐渐积累。而且这个Minimax的开源,应该开的也没有DeepSeek那么彻底、那么完整。DeepSeek就属于彻底,所有东西都拿出来,你们就看着,照着东西可以重现。这个迷你Max还惦记着说我是不是开点源,吸引点用户回来,我是不是又可以找他们收钱去了。他在想这样的事情,那这个就一看,就不是一个真心开源的项目。
在这种基础上,他现在依然没有什么响动。Kimi 1.5也出来了,刷了分。咱们中国大模型出来,甭管豆包、Minimax和Kimi,都是先去刷分,刷排行榜。排行榜刷完了以后,好像也就没有什么响动了。一个闭源模型,那在这样的情况下,我有开源的,我干嘛要用你?闭源一定是如此的一个情况了。而且Kimi 1.5的政治正确,要比这个豆包还严重,所以也就到这了。
最后总结一下,这是开源对闭源的胜利,这点非常重要。而且真开源是很难的,也是会被认可的。那些假开源,你要看看是不是愿意坚持下去,把自己的假开源慢慢的做成真开源。而且大力出奇迹这件事情依然存在,现在只是说在大力出奇迹的时候,我可以多换几个姿势,多换几个角度了,但是大力依然出奇迹。
不要老想着中国到底能不能创新,是不是遥遥领先,这件事根本就不重要。重要的是什么?重要的是在开源的模式下,快速的奔跑,参与到标准的制定者中间去,这个才是重要的。否则可能折腾了半天,你压根就不在这个标准制定者里面。因为现在大家都在开业,大家都是说我们向标准里边贡献东西。那么你不能说在前面贡献的时候,我们没有上去,我们都敝帚自珍,把门关起来自己偷偷的在这研究,等人家把这个标准拿出来以后,冲上来说不行。
我们要改一下这标准。我不认你这个标准,谁理你?所以在这个时候,大家就要疯狂地冲上去,参与到标准制定里边去。其实在这里再补充一句,原来在国内各个企业里边,在全世界标准组织里边,贡献最多的公司,在开源项目里边贡献最多的公司是谁?是华为。如果没有制裁,可能华为已经在这条路上走得很远了。但是因为制裁的原因,现在只能自己把门关起来,喊“遥遥领先了”。这个也是制裁造成的一个非常惨重的结果。
好,这就是今天跟大家稍微总结一下,DeepSeek出圈了以后,中文圈到底在吵什么,以及我的一些观点。好,这期就讲到这里,感谢大家收听,请帮忙点赞,点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。