DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?

DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?已关闭评论

DeepSeek突然出圈,引发了中文圈的争吵。大家好,欢迎收听老范讲故事的YouTube频道。

DeepSeek在前面,我们已经出了一期视频,去讲它到底是怎么回事了。那么,DeepSeek最近肯定是更加的出圈。首先,DeepSeek V3,据说训练成本只有557万美金,震惊了扎克伯格,震惊了Meta。Meta说:“我们有好多的老大,他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金,那我花了这么多钱去组建AI团队,花了这么多钱去囤显卡,是不是亏了?”现在就有这样的声音出来。

而且,最新的DeepSeek R1,也就是它的推理模型,推理能力已经接近o1了。蒸馏微调出来的这些小模型,已经在很多领域里头超越了o1 Mini。在这儿多补充一句,什么叫蒸馏微调的小模型?像我的电脑上,也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的?它实际上是由DeepSeek R1去输出数据,然后拿输出的数据再去调通义千问2.5-32B的这个模型,最后得到的结果。这就是DeepSeek R1-32B,他在我的电脑上做各种推理,效果相当不错。

More

Deepseek V3搅动AI格局!从细颗粒度专家到多头潜在注意力机制深度剖析

Deepseek V3搅动AI格局!从细颗粒度专家到多头潜在注意力机制深度剖析已关闭评论

大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Deepseek V3搅动风云的事情。Deepseek V3到底先进在什么地方?我在这一段时间呢,也看了一些人的介绍,甚至也看了一些人的视频,尝试用人话来讲清楚,还是很困难的。有一些人很扑克脸,上来就把论文念了一遍,底下一堆人在那评论说有听没有懂。咱们呢尽量避免看这个事情,想办法呢,用举例子和讲故事的方式,让大家能够稍微的了解一下Deepseek V3到底干了点什么。

但是呢,这个里头就会有一个问题,就是例子跟故事呢,有时候不一定准确。所以呢,我们尽量的传递,让大家可以对相关的概念有一个感性的认知。跟大家先讲一个故事吧,这样的话,你们就可以理解待会我要讲的故事大概在什么层面上了。

说爱因斯坦在晚年,有一次去参加美国的一个慈善晚会,来了位盲人。说:“您看,这是个盲人,您能给他解释一下什么是相对论吗?”从来也没见过任何的光,也就没见过任何东西。你告诉我怎么叫相对论。爱因斯坦想了想,说:“这个相对论呢,就是相对的,就是黑的跟白的,你能理解吗?”这个盲人说:“我生下来就是盲人,我没法理解什么是黑的跟白的。”爱因斯坦说:“那你想想有一只大鹅,大鹅你知道吗?这个鹅是白的。”盲人说:“我从小就是盲人,我没见过鹅。”爱因斯坦继续说:“鹅有一个长长的脖子,你能想象吗?”盲人说:“哎呀,我从小是盲人,我没见过鹅,也没见过什么叫长长的脖子。”爱因斯坦说:“这个鹅的长长的脖子是可以弯的。”盲人问:“怎么弯呢?”爱因斯坦说:“来,我给你比划一下。你把这个手伸出来,这个手伸出来,然后呢,这是直的,这是弯的,你懂了吧?”盲人说:“哎呀,我好像已经懂了,什么是脖子是直的是弯的,也能够想象一下什么是鹅了,甚至呢,我都觉得我理解了什么是相对论了。”

More