DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?

DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?已关闭评论

DeepSeek突然出圈,引发了中文圈的争吵。大家好,欢迎收听老范讲故事的YouTube频道。

DeepSeek在前面,我们已经出了一期视频,去讲它到底是怎么回事了。那么,DeepSeek最近肯定是更加的出圈。首先,DeepSeek V3,据说训练成本只有557万美金,震惊了扎克伯格,震惊了Meta。Meta说:“我们有好多的老大,他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金,那我花了这么多钱去组建AI团队,花了这么多钱去囤显卡,是不是亏了?”现在就有这样的声音出来。

而且,最新的DeepSeek R1,也就是它的推理模型,推理能力已经接近o1了。蒸馏微调出来的这些小模型,已经在很多领域里头超越了o1 Mini。在这儿多补充一句,什么叫蒸馏微调的小模型?像我的电脑上,也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的?它实际上是由DeepSeek R1去输出数据,然后拿输出的数据再去调通义千问2.5-32B的这个模型,最后得到的结果。这就是DeepSeek R1-32B,他在我的电脑上做各种推理,效果相当不错。

More

美国人只买到了TikTok的空壳?TikTok推荐算法停机14小时,重启后算法变了?

美国人只买到了TikTok的空壳?TikTok推荐算法停机14小时,重启后算法变了?已关闭评论

美国人会不会只买到了一个TikTok的空壳呢?大家好,欢迎收听老范讲故事的YouTube频道。

TikTok在经历了14个小时的极限表演,也就是前面的难民出逃停机,川普先发命令重新开机这个过程以后,很多人觉得,咦,好像不太一样了呦。我从TikTok里面看到的这些视频,不是我原来经常看到的那些视频,TikTok好像改算法了。那是不是川普要去买到的TikTok,就不再是原来的TikTok,只是一个空壳了呢?

因为以前一直在强调,中国政府不允许出售的是推荐算法。那是不是推荐算法没有到TikTok里边去,重新开机的已经不再是原来的TikTok了?大家在开始进行这样的讨论。

当然了,我们先补充一点,这一次TikTok的14小时极限表演最后并没有特别圆满。那你说,这不是下架了又重新开机服务了,怎么没有圆满呢?没有能够全身而退,表演了以后,身上还是挂了点彩,苹果跟谷歌的应用商店依然没有上架。

More

Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o,中国AI厂商是否迎来春天?新的时代到来了,历史的车轮滚滚向前。

Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o,中国AI厂商是否迎来春天?新的时代到来了,历史的车轮滚滚向前。已关闭评论

Llama3.1 405b突然开放,指标上全面超越GPT-4。中国厂商们是不是又可以充了呢?大家好,这里是老范讲故事的YouTube频道。今天咱们来讲一讲Llama3.1 405b 开放的事情。

Llama的开放,每一次都比较有戏剧性,都会有偷跑。什么叫偷跑?就不是由官方开了发布会,说我今天发布了一个什么产品,而是一般都是在Reddit这样的论坛里,突然就有人放出磁力链来,大家可以去BT下载Llama3.1 405B,包括Llama3.1 405B相关的各种测试数据,都是这么被发现的。头一天偷跑了以后,第二天梅塔说那算了,我开了吧。当时好像Llama2也是这么开出来的,现在Llama3.1 也是这么偷跑,完了以后就正式开放了。

他在跑分上已经全面地超越了GPT-4,基本上在各个指标上都超越了。这是非常非常难的,因为以前大家推出的各种模型里头,都是在个别指标里面超越GPT-4O或者超越GPT-4。那么在各项指标上全都超越的,这应该是第一次。当然了,它也是分很多版本的,分为8B、70B以及405B这三个版本。405B已经完全超越了,下面小一点的8B,应该比原来的Llama370B的效果还要再好一些。它的70B基本上针对前两天发布的GBT4OMINI,属于碾压状态。

More