OpenAI 突然开源!GPT-OSS 深度评测,中美 AI 竞争升级,谁能笑到最后?AI 界的“田忌赛马”!详解中国“全家桶”式开源,如何对决 OpenAI 的精准出牌?

OpenAI 突然开源!GPT-OSS 深度评测,中美 AI 竞争升级,谁能笑到最后?AI 界的“田忌赛马”!详解中国“全家桶”式开源,如何对决 OpenAI 的精准出牌?已关闭评论

OpenAI再次开源,中美AI竞争加剧,这一次体现在了不同的开源策略上。

大家好,欢迎收听老范讲故事的YouTube频道

OpenAI再次开源,这一次发布的版本叫GPT-OSS (Open Source System),8月5号突然上线了。这一次又不是GPT-5,我们从7月份就开始等GPT-5,现在已经等得大家开始胡思乱想了。很多人猜,说为什么出不来。现在最新的说法是48小时之内出来,等等看吧。

这一次呢,开出来的是GPT-OSS,是一个开源模型,20B和120B两种参数。它呢,是一个MOE模型,就是混合专家模型。其实在GPT-4的时候呢,大家就已经猜测它开始使用混合专家模型了,只是呢它不开源,大家只能猜。现在开出来了MOE推理模型,是有COT的思维链,是直接给大家展示出来的。而且呢,是一个文本模型,没有多模态的东西。上下文比较长,128K的上下文,要比国内的一些开源模型还要再长一些。因为现在没办法,你要使用工具、使用MCP,没有足够长的上下文,你是跑不起来的。所以呢,这一次的GPT-OSS说,我们很擅长使用工具,有的时候有点太擅长了。因为我测试的时候,有的时候工具调用次数非常多,直接就把自己的上下文填满了,这种情况也是不少的。

More

DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?

DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?已关闭评论

DeepSeek突然出圈,引发了中文圈的争吵。大家好,欢迎收听老范讲故事的YouTube频道。

DeepSeek在前面,我们已经出了一期视频,去讲它到底是怎么回事了。那么,DeepSeek最近肯定是更加的出圈。首先,DeepSeek V3,据说训练成本只有557万美金,震惊了扎克伯格,震惊了Meta。Meta说:“我们有好多的老大,他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金,那我花了这么多钱去组建AI团队,花了这么多钱去囤显卡,是不是亏了?”现在就有这样的声音出来。

而且,最新的DeepSeek R1,也就是它的推理模型,推理能力已经接近o1了。蒸馏微调出来的这些小模型,已经在很多领域里头超越了o1 Mini。在这儿多补充一句,什么叫蒸馏微调的小模型?像我的电脑上,也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的?它实际上是由DeepSeek R1去输出数据,然后拿输出的数据再去调通义千问2.5-32B的这个模型,最后得到的结果。这就是DeepSeek R1-32B,他在我的电脑上做各种推理,效果相当不错。

More

美国人只买到了TikTok的空壳?TikTok推荐算法停机14小时,重启后算法变了?

美国人只买到了TikTok的空壳?TikTok推荐算法停机14小时,重启后算法变了?已关闭评论

美国人会不会只买到了一个TikTok的空壳呢?大家好,欢迎收听老范讲故事的YouTube频道。

TikTok在经历了14个小时的极限表演,也就是前面的难民出逃停机,川普先发命令重新开机这个过程以后,很多人觉得,咦,好像不太一样了呦。我从TikTok里面看到的这些视频,不是我原来经常看到的那些视频,TikTok好像改算法了。那是不是川普要去买到的TikTok,就不再是原来的TikTok,只是一个空壳了呢?

因为以前一直在强调,中国政府不允许出售的是推荐算法。那是不是推荐算法没有到TikTok里边去,重新开机的已经不再是原来的TikTok了?大家在开始进行这样的讨论。

当然了,我们先补充一点,这一次TikTok的14小时极限表演最后并没有特别圆满。那你说,这不是下架了又重新开机服务了,怎么没有圆满呢?没有能够全身而退,表演了以后,身上还是挂了点彩,苹果跟谷歌的应用商店依然没有上架。

More

Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o,中国AI厂商是否迎来春天?新的时代到来了,历史的车轮滚滚向前。

Meta Llama3.1——405b大模型震撼发布——性能全面超越GPT-4o,中国AI厂商是否迎来春天?新的时代到来了,历史的车轮滚滚向前。已关闭评论

Llama3.1 405b突然开放,指标上全面超越GPT-4。中国厂商们是不是又可以充了呢?大家好,这里是老范讲故事的YouTube频道。今天咱们来讲一讲Llama3.1 405b 开放的事情。

Llama的开放,每一次都比较有戏剧性,都会有偷跑。什么叫偷跑?就不是由官方开了发布会,说我今天发布了一个什么产品,而是一般都是在Reddit这样的论坛里,突然就有人放出磁力链来,大家可以去BT下载Llama3.1 405B,包括Llama3.1 405B相关的各种测试数据,都是这么被发现的。头一天偷跑了以后,第二天梅塔说那算了,我开了吧。当时好像Llama2也是这么开出来的,现在Llama3.1 也是这么偷跑,完了以后就正式开放了。

他在跑分上已经全面地超越了GPT-4,基本上在各个指标上都超越了。这是非常非常难的,因为以前大家推出的各种模型里头,都是在个别指标里面超越GPT-4O或者超越GPT-4。那么在各项指标上全都超越的,这应该是第一次。当然了,它也是分很多版本的,分为8B、70B以及405B这三个版本。405B已经完全超越了,下面小一点的8B,应该比原来的Llama370B的效果还要再好一些。它的70B基本上针对前两天发布的GBT4OMINI,属于碾压状态。

More