遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?

遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?已关闭评论

遥遥领先的华为升腾384超节点,是不是又立功了?

大家好,欢迎收听老范讲故事的YouTube频道

上海人工智能大会上,有一个镇场之宝,就是华为升腾384超节点。叫这个名字很怪,其实就是华为做的算力超级节点,华为云矩阵。384超节点这个东西,从外边看上去呢,像一堵墙一样,反正摆在厂子里头也确实比较唬人,而且也很昂贵。

很多人就兴奋了,说我们是不是又打破了西方的垄断呢?西方人对我们禁运,不给我们卖英伟达最好的芯片,我们自己造出来了。这个事到底达没达到呢?可以说部分达到了。在集群总的FP16算力上,为什么一定要强调这个?就是它在不同精度上的算力是不一样的。在FP16算力上呢,华为升腾384超节点,是介于H100和GB200组成的NVL72之间的一个算力。而这个话怎么解释呢?

现在我们去想算力,它是分三个层次的。第一个就是卡,卡这件事呢,咱肯定比不过人家,甭管你是比H100还是GB200,你根本比不过人家。第二个呢,就是叫整机,我是一台服务器。你像AMD呢,就是卖这种东西,就是我一台服务器里头有8个,他们叫MI300这样的服务器。第三种维度呢,就是说我给你卖一整个柜子,像NVL72呢,就属于整个柜子,我把72个H100或者72个GB200这样的东西,装在一个柜子里头,当成一台机器一把卖给你。

More

从557万美金训练成本到545%利润,DeepSeek如何用惊悚的数字,震撼AI行业的?这些数字,靠谱吗?

从557万美金训练成本到545%利润,DeepSeek如何用惊悚的数字,震撼AI行业的?这些数字,靠谱吗?已关闭评论

DeepSeek也玩“one more thing”,突然公布了它的推理利润达到545%,就像当初557.6万美金的训练成本那样,再次震惊了行业。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲,DeepSeek结束了连续5天的开园周之后,到礼拜六玩了一次“one more thing”。这个“one more thing”呢,应该是当年乔布斯的梗。他每一次开发布会到最后的时候呢,都要说“还有一件事,等一等”,而且这一件事呢,往往是特别重要、特别颠覆性的事情。那么这一次又来了,DeepSeek公布了它的V1和R3推理系统相关内容,及大规模部署的成本和收益数据。就是说我部署了这东西以后,到底是挣了多少钱?非常非常让人震惊,因为所有人做这个东西都说我不挣钱,我亏钱,结果等到他这好,545%的利润,所有人都傻了,说你到底咋干的?

具体的实现方法呢,就不再跟大家详细分析了。简单来说,第一个负载均衡,你想他有这么多的GPU,这么多的核心,在他这种MOE的架构下,他把每一层的模型里边每一个专家,分配到不同的设备上面去进行运算。这个呢,就是一个负载均衡,尽量让所有的芯片都动起来,不要说有的芯片闲着呢,有的芯片在那排队。第二个,并行计算。并行处理是什么呢?所有的芯片一起来干活,这个速度肯定会变快。另外呢,一边干活的时候,另外一边呢,再同时进行数据的读写。你不能说我这需要数据了,你给我读,然后处理完了以后你再去写,这样就变慢了嘛。所以基本上在做这样的事情,负载均衡和并行处理。

另外还有一个什么样的事情在做呢?就是有一点点叫“驴粪蛋表面光”。这个也算是老北京的一个俏皮话,什么意思呢?就是这个驴粪球外边是很光滑的,但是里边呢,就是一堆的没有消化好的碎草。DeepSeek也是如此,他把很多的计算精度呢进行了调整,他尽可能的能够达到大家的要求,但是很多细节上的这些你看不到的环节呢,就给你忽略掉了。

More