从557万美金训练成本到545%利润,DeepSeek如何用惊悚的数字,震撼AI行业的?这些数字,靠谱吗?

从557万美金训练成本到545%利润,DeepSeek如何用惊悚的数字,震撼AI行业的?这些数字,靠谱吗?已关闭评论

DeepSeek也玩“one more thing”,突然公布了它的推理利润达到545%,就像当初557.6万美金的训练成本那样,再次震惊了行业。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲,DeepSeek结束了连续5天的开园周之后,到礼拜六玩了一次“one more thing”。这个“one more thing”呢,应该是当年乔布斯的梗。他每一次开发布会到最后的时候呢,都要说“还有一件事,等一等”,而且这一件事呢,往往是特别重要、特别颠覆性的事情。那么这一次又来了,DeepSeek公布了它的V1和R3推理系统相关内容,及大规模部署的成本和收益数据。就是说我部署了这东西以后,到底是挣了多少钱?非常非常让人震惊,因为所有人做这个东西都说我不挣钱,我亏钱,结果等到他这好,545%的利润,所有人都傻了,说你到底咋干的?

具体的实现方法呢,就不再跟大家详细分析了。简单来说,第一个负载均衡,你想他有这么多的GPU,这么多的核心,在他这种MOE的架构下,他把每一层的模型里边每一个专家,分配到不同的设备上面去进行运算。这个呢,就是一个负载均衡,尽量让所有的芯片都动起来,不要说有的芯片闲着呢,有的芯片在那排队。第二个,并行计算。并行处理是什么呢?所有的芯片一起来干活,这个速度肯定会变快。另外呢,一边干活的时候,另外一边呢,再同时进行数据的读写。你不能说我这需要数据了,你给我读,然后处理完了以后你再去写,这样就变慢了嘛。所以基本上在做这样的事情,负载均衡和并行处理。

另外还有一个什么样的事情在做呢?就是有一点点叫“驴粪蛋表面光”。这个也算是老北京的一个俏皮话,什么意思呢?就是这个驴粪球外边是很光滑的,但是里边呢,就是一堆的没有消化好的碎草。DeepSeek也是如此,他把很多的计算精度呢进行了调整,他尽可能的能够达到大家的要求,但是很多细节上的这些你看不到的环节呢,就给你忽略掉了。

More

OpenAI推出GPT 4o mini,这是要卷死谁?Sam Altman封禁中国 API IP后放大招,你就给我看这个?中国大模型是不是有机会弯道超车?

OpenAI推出GPT 4o mini,这是要卷死谁?Sam Altman封禁中国 API IP后放大招,你就给我看这个?中国大模型是不是有机会弯道超车?已关闭评论

OpenAI在封禁中国IP访问其API之后,第一个大动作居然是发布了一个GPT4o mini。你发布了个小模型,这究竟是要卷死谁啊?中国团队是不是有机会弯道超车呢?大家好,这里是老范讲故事YouTube频道。Open AI第一次发布微型模型,以前的Open AI都是一个比一个大,因为原来人家讲的叫Scaring Law,就是这种伸缩法则,只要是变大,我一定会变强。而且,也嘲笑那些小模型说你们肯定不行啊,一定是大的好使。我自己原来也是很喜欢使用大模型,有大的不识小的,这是我原来挑选模型时候的基本原则。但是现在,Open AI开始卷小模型了。

Open AI的这个GPT4O mini有什么特点呢?第一个,快啊,小模型一定是比大模型跑得快的。另外,就是极其便宜,它这个里面输入的信息,100万TOKEN,15美分啊,非常非常便宜了。输出的信息呢,是100万TOKEN,60美分,也就相当于是100万4块多人民币啊,已经快要接近国内的这些模型的价格了。效能呢,也应该是比GPT3.5要强一些啊,这是GPT4O MINI的一个基本情况。

那么,这样的一个鼓励越大越好的公司,原来更多的人力肯定是去研究更大的模型去了。现在说不,我要上一个小的,而且这种小模型呢,跟一般的小模型还有区别。区别在于它可以支持Function Call,可以支持视觉多模态的识别。那么,这是GPT4O MINI比其他的普通小模型所独有的特点。

More

退出移动版