从557万美金训练成本到545%利润,DeepSeek如何用惊悚的数字,震撼AI行业的?这些数字,靠谱吗?

从557万美金训练成本到545%利润,DeepSeek如何用惊悚的数字,震撼AI行业的?这些数字,靠谱吗?已关闭评论

DeepSeek也玩“one more thing”,突然公布了它的推理利润达到545%,就像当初557.6万美金的训练成本那样,再次震惊了行业。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲,DeepSeek结束了连续5天的开园周之后,到礼拜六玩了一次“one more thing”。这个“one more thing”呢,应该是当年乔布斯的梗。他每一次开发布会到最后的时候呢,都要说“还有一件事,等一等”,而且这一件事呢,往往是特别重要、特别颠覆性的事情。那么这一次又来了,DeepSeek公布了它的V1和R3推理系统相关内容,及大规模部署的成本和收益数据。就是说我部署了这东西以后,到底是挣了多少钱?非常非常让人震惊,因为所有人做这个东西都说我不挣钱,我亏钱,结果等到他这好,545%的利润,所有人都傻了,说你到底咋干的?

具体的实现方法呢,就不再跟大家详细分析了。简单来说,第一个负载均衡,你想他有这么多的GPU,这么多的核心,在他这种MOE的架构下,他把每一层的模型里边每一个专家,分配到不同的设备上面去进行运算。这个呢,就是一个负载均衡,尽量让所有的芯片都动起来,不要说有的芯片闲着呢,有的芯片在那排队。第二个,并行计算。并行处理是什么呢?所有的芯片一起来干活,这个速度肯定会变快。另外呢,一边干活的时候,另外一边呢,再同时进行数据的读写。你不能说我这需要数据了,你给我读,然后处理完了以后你再去写,这样就变慢了嘛。所以基本上在做这样的事情,负载均衡和并行处理。

另外还有一个什么样的事情在做呢?就是有一点点叫“驴粪蛋表面光”。这个也算是老北京的一个俏皮话,什么意思呢?就是这个驴粪球外边是很光滑的,但是里边呢,就是一堆的没有消化好的碎草。DeepSeek也是如此,他把很多的计算精度呢进行了调整,他尽可能的能够达到大家的要求,但是很多细节上的这些你看不到的环节呢,就给你忽略掉了。

所以,这个也可以极大地提高效率。他说:“我通过了这样的方式,达到了545%的利润。”当年给出的DeepSeek V3 557.6万美金的训练成本,已经成为了一个业内的计量标准,或者计量单位了。就跟你说这个东西是一牛顿,那个东西叫一瓦特,他这个557万的训练成本,也成了一个计量单位。OpenAI用了1,400万美金投超级碗广告的时候,很多人就说:“你这玩意够训练几次DeepSeek了?”这个已经成为一个业内梗了。

在制造话题这块,DeepSeek作为AI时代的顶级企业是合格的。大家注意,AI时代跟以前不一样。原来呢是酒香不怕巷子深,但是现在你从OpenAI、Anthropic,再到国内的DeepSeek,每一个都是制造话题的好手。必须要会讲故事,才可以在这个时代好好地玩下去。

那么,545%的利润和557.6万美金的训练成本,到底是一个什么样的概念呢?是真的还是假的?是不是吹牛?很多人一上来就会问这样的问题。事情呢,没这么简单。数据肯定有一定水分,咱们一定要承认这件事。但是呢,这个数据也是有参考价值的,不是说你这个东西是真是假,一刀切完事了。这个还是要具体来去分析一下。

咱们呢来看一看,545%的利润到底是怎么算出来的。说这个GPU都是7*24小时满负荷工作,然后呢把所有的优化手段都用到极致,就是他这5天发布的这些优化手段,我都给用上了。然后计算输出TOKEN的总量,就是我这么长时间,一共可以输出多少TOKEN出来。按照最贵的DeepSeek R1的价格来去收钱,这个是100万TOKEN 16块钱,这个是DeepSeek自己给的价格。国内的这些云服务厂商,基本上都是按这价格做的。等于就是说我一天24小时,满负荷输出这么多的TOKEN,能够说到多少钱。再以GPU租赁的价格,两美金一小时作为成本,把这俩数一除,就算出了一个545%的一个利润率来。他是这么算出来的。那这个水分在什么地方呢?

第一个GPU是不可能7*24小时满负荷工作的。就跟送外卖一样,赶上午餐时间大家都得去送外卖,午餐吃完了以后所有人都在那闲着,这个才是正常的状态。GPU也是如此的,你不可能说大家都商量好了,这个7*24小时达到均匀的来,我们让所有的GPU跑满,谁都别闲着。这个事是绝不可能的,而且距离现实情况相距甚远。

正常应该是什么呢?为了保障高峰时期的服务不崩,必须要容忍非高峰时期,可能有70%到80%的服务器是冗余的,或者在那闲置的。那你说到底有多少这个时间算高峰时间,有多少时间是非高峰时间呢?这个一天里头的高峰时间,可能能够有这么三五个小时也就到头了,不会到8个小时的。

像我们以前做游戏的时候,是什么时候高峰时间呢?中午吃饭的时候,还有吃完晚饭9点以后算是高峰时间。那你说我这是工作上班的事情,那他应该是在早晨10点、11点,你没准是个高峰,然后下午2点多到四五点钟,是有一个高峰。其他的时候这个服务器都是闲着的。所以千万不要觉得说,能够跑20个小时的高峰,想都不想,你能跑4个已经算很好很好了。

那么DeepSeek也不是所有服务都收费的,它是按最贵的那个算,按DeepSeek R1每100万TOKEN 16块来算的。你如果按照DeepSeek V3,每100万TOKEN也才8块钱,就肯定没有500%多的利润。而且DeepSeek上呢,比如说他的网页还有他的APP,这些都是不要钱的,你也得为人服务。那这一块他就没算在里头,都按这个R1去收费了,所以这个肯定是不对的。

而且现在DeepSeek呢,在晚上的非高峰时期,也就是凌晨3点到第二天8点这段时间,他还对这个API的价格打折。这块他也没算在里头。其实我觉得他真没必要打折,因为我在这个时间段试过,依然很慢,他的服务器依然是不反应的。所以呢,他做这样的事情,应该还是有一些奇怪目的的吧。他现在的这个成本呢,只计算了GPU的租赁成本。

这个肯定也是有水分的。当然了,GPU租赁呢,是包含服务器、水电、制冷、相关人员成本的,甚至还包括资金占压成本和一些利润。因为你找别人去租GPU来,人家还挣钱呢。所以这块呢,一个小时两美金这个事还是比较宽裕的。而且DeepSeek自己部署机房的话,可能它的成本还要比一个小时两美金要稍微低一点点。但是呢,他的研发、训练、数据准备等等这些成本都没算在里头去。所以呢,他在整个计算成本的时候呢,肯定是极大的降低了成本的总量。

这个呢,就跟前面咱们讲557.6万美金的DeepSeek V3训练成本其实是一样的,也是这么算出来的。它只计算了2,048块GPU运算了多长时间,其他的什么人员工资、数据准备这些全都没算进去。咱们这里的人员工资就是分两块,一块是机房维护的人员工资,这块呢,应该已经算到了GPU租赁的价格里边去;另外一块是他自己那帮科学家的人员工资,这部分那是没算的。

那么实际利润应该有多少呢?你说没有545%,那到底应该有多少?可以跟大家负责任的说,实际利润一定是亏损的,谁也不可能靠这玩意挣钱,按这价格都挣不回来。那么为什么还说这个数据是有参考价值的呢?大家注意在投融资的时候,或者是在做量化交易的时候,你需要一些简单快捷的方式去计算出某一个数值的极限范围。这个东西最多能挣多少钱,最多能亏多少钱,是要快速的算一下的。只有算完了这个以后,才可以去做一些决策。完全准确的数据说,我这东西算完了以后特别精确,就是挣这么多钱,就是亏这么多钱,这个数呢有时候没有什么意义,时间更重要。

DeepSeek呢就是做量化出身的,所以呢,他们很习惯这样去计算数据。你也不能说人家故意坑你。所以先计算极限,然后再向极限前进。如果发现没法到达,咱们再去分析原因调整数据。这个是甭管做投融资还是做量化,必须要干的事情。那么我们应该如何看待这样的数据呢?无脑吹,无脑喷。

一上来说看DeepSeek好厉害,中华之光。另外一帮人说你看这就是骗人的,这个不可能的。这个呢,您开心就好,您走错频道了,不应该来看老范讲故事。您去找一些更二极管一点的频道去看,会更加开心一点点。还有一些人呢,找出证据来论证他不靠谱,或者是让别人自证清白。你找出证据来呀,你自己列出这个数据来呀,你看你不靠谱吧。这些人呢其实也是一种无脑的表现,就是你要知道这个东西背后的逻辑是什么,以及它的价值在哪个范围内是有效的,而不是说上来体现一下自己的优越感。这种人也没什么意思。还有些人呢上来就说,哎呀,这个事情很复杂,一句两句解释不清楚,然后呢给你说一大堆的专有名词出来。这种人可能是骗子,他总是惦记从你身上得到一些什么的。

所以我们真正要做的是什么呢?就是理解这种数据产生的逻辑意义,以及呢价值,在其合理的范围内使用这些数据作为参考,但是不能迷信。为什么要有合理的范围内使用呢?真理还有适用的范围呢,没有哪项真理是放之四海皆准的。真理离开了他的适用范围就是谬误。同时呢我们要训练自己快速得出类似的这种数据的能力,或者呢,是加强我们对此类数据进行判断的这种能力。

那么DeepSeek为什么要公布这样的一个数据呢?这个目的和险恶用心何在呢?这个才是我们吃瓜的乐趣所在。第一个他要证明自己在H800下完全能够搞定所有的事情,还能挣钱。因为一直有人在质疑DeepSeek走私了H100,手里边有5万块H100,大家都在讲这个事。但是呢,DeepSeek自己不会去证明说我手里有还是没有,这个都没有任何意义。有呢,肯定有问题,可能会造成你这种技术在海外被彻底封禁。你就算是开源说,你这个技术因为是违法获得的,所以谁都不许用,他有可能会得到这样的一个结果。那你说我没有呢,你又很难证明这个事情,说我没有,自证清白这个事是挺难的。那么干脆我们就不证明了,我既不说我干了,我也不说我不干了。他干嘛呢?

他说:“我证明一下,我不需要H100,我用H800完全可以搞定。我把这个事儿证明一次就完事了。DeepSeek现在也没办法把这些H100拿出来,开足马力来为大家服务。现在突然服务的很顺畅了,说你是不是把H100拿出来偷偷用了?没有,你看我说都算好了。这个我是挣钱的,我不需要把他们拿出来。他现在需要给自己做这样的一个辩白,这是第一点。”

“第二点是什么呢?就是我没赚着钱,你们也别想赚钱,大家一起来卷。什么意思?这个学霸经常出来说:‘你看我没有复习功课哦,我就是天天玩,但是我考得很好。’他们是很气人的。可能这跟你说完了不复习功课,炫耀了一下我怎么去玩耍了,回家就苦读到半夜。这个是很多学霸的一种套路。DeepSeek可能也是这么搞的。他自己的网页、APP和API现在基本无法使用的一个情况下,国内的各大厂呢,都在拼命地接DeepSeek。但是呢,又没有给DeepSeek付钱。那DeepSeek只能出来阴阳一下说:‘看我还是挣545%呢,你们挣老鼻子钱了,是不是得意思一下?’那干脆大家一起卷就完了。然后在这个过程中,把这些不挣钱的小的卷死。大的也不是说就挣钱了,大的是有其他业务可以补贴,他赔得起。等到最后剩这帮大的的时候,咱们再来谈这个事情。咱先把这帮小的都卷死。他在干这样的一个事情。你想学霸上来说:‘我从来不复习功课,我上来就考第一。’他干嘛呀?第一个,心里要开心一下,要稍微秀一下优越。另外一个呢,就还是说,咱们这个各层次咱们分别卷起来,要干这个事情。”

“那么这个事情发布了以后呢,周末还炸出一个小瓜来。这只能算小瓜了,就是硅积流动跟路深科技两边掐起来了。这两家呢,都是做MAAS的,就是大模型作为服务。咱们做云计算,有IAS,就是基础架构作为服务;SAS是软件即为服务;PAAS是平台即为服务;MAAS呢,叫model as service,就是大模型就是服务。是这样的两个厂商自己就掐起来了,为什么呢?”

现在,他们都接了DeepSeek,但是肯定都不挣钱,而且亏得很厉害。路深科技呢,就卷不动了。这位CEO是UC Berkeley的博士,所以我看他的这个签名是伯克利什么什么。这个人我也不认识,所以这名字咱就不记了。他呢,算是有一些网红包袱。你说我卷不动这事呢,我又不能承认。我不能承认这个网红塌房了,别人能搞定,我搞不定。所以呢,一定要找一个出口说,你看他们其实也不挣钱,他们就想卷我们,他们也有问题。他找到了谁?找到硅基流动了。这个不能是自己的问题,也不能是DeepSeek的问题。DeepSeek现在是中国之光嘛,这事一定是你自己技术不好。而且这事还不能是华为的问题,这事跟华为有什么关系呢?就是路深科技跟硅基流动,他们接DeepSeek都是跑的华为云的升腾910芯片的,他们没有跑英伟达芯片。那这个事这几家都怪不了,不能怪自己,不能怪DeepSeek,也不能怪华为。那我们怪友商吧,怪这个硅基流动吧。他说硅基流动你春节加班,因为DeepSeek的发布是在春节期间发布的嘛,而且呢还在卷砍一刀的事情。因为这个硅基流动发了好多的代金券出去,赚了一波流量。你发了这个多少亿的代金券出去,你手里就1亿2亿的现金,你根本就没有办法兑现这个事情。这个其实也是有点骗傻子了,代金券出去并不是需要用你手里的现金去兑换的,你是要用服务慢慢地去把这些代金券消耗掉,跟你手里有多少现金本身是没有关系的。当然,卷这个事呢,在中国企业的竞争过程中呢,算是一种常态吧。现在硅基流动的DeepSeek R1也基本上处于不可用状态,我现在也不用他们家的,都是用火山的。待会咱们再讲为什么用火山的。到这了这两家就开始互相掐了,硅基流动说人家是已经发布了这些开源项目了,我们照着去学就完了,但是这个事很难,你搞不定,你不要说别人也搞不定,开始阴阳这个路深科技。这两边就开始相互的指责,说你挖我的人。

硅基流动说你抄袭,开始互相怼起来,这已经离开事实本身了。这个呢,稍微有一点点low。卷不动呢,你就默默地退出就完了。当然,内部人设立不住呢,你就需要在外边立靶子。我们也见到了很多这样的案例了,最后呢在外部还翻了车了,只能回去继续统一思想。

怎么在外部翻车了呢?因为路深科技呢,被硅基流动指责说你抄袭。然后路深科技说,抄袭的那个是原来我CTO干的,CTO已经把它开了。而且呢,CTO被开了以后,还去你硅基流动上班去了。现在这个CTO也出来回复了这件事情,他说我就是当年那CTO,我去的时候这项目就已经是这样了,那个代码也不是我抄进去的。说我去了以后呢,还整理了所有的代码,把所有引用的东西呢,给他写清楚出处。

这个开源项目怎么算抄袭,怎么算不抄袭?就是你违反了人家的开源协议,你用了人代码你没有写说这是哪来的,这就算抄袭。你说我用了人代码了,但是我写清楚我用了谁谁谁家代码,符合人家的协议,然后我在这个基本上做什么修改了,这个就算给开源做贡献。人家的CTO说压根跟我没关系。

然后第二个说我为什么离开呢,是因为他们用假的期权合同骗我,让我去的时候给我承诺了期权,结果最后呢没法兑现。因为这个事情我质问了他们,所以最后离开了。在其他的一些抄袭事件,因为这个路深科技,还有其他的抄袭事件,说这个就跟我完全没关系,等于又把这个路深科技整个放这了。

那么DeepSeek的推理市场,未来到底怎么走呢?首先腾讯去加单了,订购了10-20万块的H20,这个是现在允许向中国出口的型号,全线接入DeepSeek。在它的微信,IMA,还有元宝这些程序里边都接了。IMA呢是一个办公用的AI助手,元宝呢,是个人用的AI助手。现在元宝在疯狂的做推广,微信的搜索里边,现在也在进行灰度测试,直接在里边可以使用DeepSeek R1进行搜索推理。字节呢,本身就是算力大户,它是全世界第二名的算力大户,第一名是微软,第二名就是它。

DeepSeek只做ToB的服务,就是你可以在字节的火山引擎上用它。字节自己的产品里是没有去接DeepSeek R1的,他们还是比较骄傲的,希望这个豆包模型可以追上来。所以字节的DeepSeek R1是我现在用过的所有DeepSeek R1里头最快的,因为算力足够多,用的人不是很多,所以他最快。

阿里云呢,未来三年投入3,800亿人民币做算力投入,说那我们就疯狂去买就完了。至于这些MAAS厂商,就是叫模型及服务的厂商,这个背后都是华为云,价格又被DeepSeek给锁死了,这个就很痛苦。所谓锁死了什么意思?DeepSeek在中国给出的价格,咱们就说R1的输出价格吧,是最贵的一个价格,是每100万TOKEN 16块钱。现在甭管是路深科技还是硅基流动,或者是阿里云火山云,都是用同样的价格给的,100万TOKEN 16块人民币。但你知道国外多少钱吗?在together上刚才我查了一下,美国的服务器上部署的DeepSeek R1,它的100万TOKEN大概是七八块美金了,应该到50多块钱人民币,所以这个还是挺贵的。

他们的V3其实价格都差不太多,咱们的V3的输出呢,是八块钱人民币100万TOKEN,在美国的话是1.25美金100万TOKEN,这个是相差不多的。但是R1这个真的是差三倍的钱,国内这个锁死价格了,以后他们就必然会按照这个价格赔钱赔下去。

至于DeepSeek所开源的这些库呢,他们只能去借鉴一个思路,肯定用不上。为什么?因为DeepSeek所有开源库都是基于CUDA的,都是基于英伟达芯片的。这帮人看着一堆的华为升腾910,只能说,咱们看看这个大概思路是不是可以参考一下。那这个想去做的话难度就大了,而且整个的服务过程必然亏损。原因也很简单,就是你的服务器绝不可能7*24小时很均匀、很平顺的满负荷运转,这个事情从头到尾就是个伪命题,所以肯定是亏的。

而且,华为呢是不会承担这种亏损的。你跟华为合作,人家还忙着爱国呢。你亏了钱,肯定是你自己的问题。而且,人家DeepSeek说了:“我这能挣钱,你亏了,你不能怪我,你也不能怪华为。你看看你自己的技术哪不对。”

而且,这些MAAS的厂商呢,还没有大厂其他的业务可以补血。你比如像刚才我们讲,腾讯在这个IMA或者是元宝里边,去使用DeepSeek R1的时候,你是不用付钱的,免费的。但是,腾讯有游戏收入,有广告收入,还有各种电商收入。他有一堆收入可以补这个窟窿。他去买20万张的H20,花不了多少钱,对于他整个利润来说,都是可以承担的成本。

硅基流动,路深科技,你跟他卷,这你肯定卷不过他。更别说字节跳动了,字节跳动比腾讯还能挣钱呢。所以呢,跟大厂他们也卷不过。model as a service的这些厂商呢,只能看谁坚持到最后。坚持到最后,也不是说他们就能胜出。坚持到最后呢,也就是看最后谁能够下车,被这些大厂所收购。这应该就是他们的出路。

当然,你说我未来是准备被收购的,那也就不能长太胖。什么意思?你不能拿太多的融资,必须要自己挣钱。因为你拿了很多融资以后,你的估值会变得非常高。等到最后大厂去选择一家,把它收下来的时候呢,通常还是要去衡量一下性价比的。

那么,总结一下。首先呢,要感谢DeepSeek又给了一话题,又可以跟大家扯一会儿。如何理性地判断各种夸张数据背后的逻辑和价值,才是今天我们要讲这期视频的核心点。而不是说,我们来批判一下这东西合理还是不合理,这个没有什么意思。

AI正在走向新的时代,过去很多的商业逻辑呢会发生变化。过去的经验未必有效,但是依然是会有一定的价值。你像我给大家分析很多东西,都是根据我过去的很多商业逻辑来分析,但是也不能迷信这个东西。像我每次都会跟大家强调,这个东西呢,有可能分析的不全面,未来有可能会出现我们想象之外的东西。那这个才是我们这个频道始终跟大家所强调的东西。好,这期就讲到这里。

感谢大家收听。请帮忙点赞、点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.