DeepSeek计算精度 - 老范讲故事｜AI、大模型与商业世界的故事

DeepSeek也玩“one more thing”，突然公布了它的推理利润达到545%，就像当初557.6万美金的训练成本那样，再次震惊了行业。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，DeepSeek结束了连续5天的开园周之后，到礼拜六玩了一次“one more thing”。这个“one more thing”呢，应该是当年乔布斯的梗。他每一次开发布会到最后的时候呢，都要说“还有一件事，等一等”，而且这一件事呢，往往是特别重要、特别颠覆性的事情。那么这一次又来了，DeepSeek公布了它的V1和R3推理系统相关内容，及大规模部署的成本和收益数据。就是说我部署了这东西以后，到底是挣了多少钱？非常非常让人震惊，因为所有人做这个东西都说我不挣钱，我亏钱，结果等到他这好，545%的利润，所有人都傻了，说你到底咋干的？

具体的实现方法呢，就不再跟大家详细分析了。简单来说，第一个负载均衡，你想他有这么多的GPU，这么多的核心，在他这种MOE的架构下，他把每一层的模型里边每一个专家，分配到不同的设备上面去进行运算。这个呢，就是一个负载均衡，尽量让所有的芯片都动起来，不要说有的芯片闲着呢，有的芯片在那排队。第二个，并行计算。并行处理是什么呢？所有的芯片一起来干活，这个速度肯定会变快。另外呢，一边干活的时候，另外一边呢，再同时进行数据的读写。你不能说我这需要数据了，你给我读，然后处理完了以后你再去写，这样就变慢了嘛。所以基本上在做这样的事情，负载均衡和并行处理。

另外还有一个什么样的事情在做呢？就是有一点点叫“驴粪蛋表面光”。这个也算是老北京的一个俏皮话，什么意思呢？就是这个驴粪球外边是很光滑的，但是里边呢，就是一堆的没有消化好的碎草。DeepSeek也是如此，他把很多的计算精度呢进行了调整，他尽可能的能够达到大家的要求，但是很多细节上的这些你看不到的环节呢，就给你忽略掉了。