从557万美金训练成本到545%利润,DeepSeek如何用惊悚的数字,震撼AI行业的?这些数字,靠谱吗?
3 月 04
AIGC, DeepSeek大模型 545%利润, 557.6万美金, AI优化, AI优化技术, AI公关策略, AI公司争斗, AI利润计算, AI商业模式, AI商战, AI基准价格, AI市场格局, AI开源项目, AI成本分析, AI投资策略, AI推理市场, AI推理未来, AI数据中心, AI服务器管理, AI生态小厂, AI硬件, AI自由市场, AI行业内幕, AI行业梗, AI行业盈利, AI话题营销, AI资源分配, AI量化交易, AI量化模型, AI高峰时段, API定价, CUDA, DeepSeek, Deepseek V3, DeepSeek开源库, DeepSeek计算精度, GPU全天运营, GPU租赁成本, GPU负载均衡, H100芯片, H800, MAAS厂商, MAAS盈利模式, MAAS竞争, R1价格, 中国AI企业, 中美AI价格差, 中美AI市场对比, 云服务厂商, 云计算, 华为云, 商业逻辑, 大模型服务, 大模型训练, 字节跳动DeepSeek, 并行计算, 开源协议, 推理利润, 推理效率, 推理系统, 数据参考价值, 数据水分, 数据逻辑, 模型优化策略, 模型即服务, 深度学习, 硅基流动, 腾讯DeepSeek, 腾讯IMA, 芯片性能, 训练成本, 路深科技, 达芬奇架构, 阿里云投资 从557万美金训练成本到545%利润,DeepSeek如何用惊悚的数字,震撼AI行业的?这些数字,靠谱吗?已关闭评论
DeepSeek也玩“one more thing”,突然公布了它的推理利润达到545%,就像当初557.6万美金的训练成本那样,再次震惊了行业。大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲,DeepSeek结束了连续5天的开园周之后,到礼拜六玩了一次“one more thing”。这个“one more thing”呢,应该是当年乔布斯的梗。他每一次开发布会到最后的时候呢,都要说“还有一件事,等一等”,而且这一件事呢,往往是特别重要、特别颠覆性的事情。那么这一次又来了,DeepSeek公布了它的V1和R3推理系统相关内容,及大规模部署的成本和收益数据。就是说我部署了这东西以后,到底是挣了多少钱?非常非常让人震惊,因为所有人做这个东西都说我不挣钱,我亏钱,结果等到他这好,545%的利润,所有人都傻了,说你到底咋干的?
具体的实现方法呢,就不再跟大家详细分析了。简单来说,第一个负载均衡,你想他有这么多的GPU,这么多的核心,在他这种MOE的架构下,他把每一层的模型里边每一个专家,分配到不同的设备上面去进行运算。这个呢,就是一个负载均衡,尽量让所有的芯片都动起来,不要说有的芯片闲着呢,有的芯片在那排队。第二个,并行计算。并行处理是什么呢?所有的芯片一起来干活,这个速度肯定会变快。另外呢,一边干活的时候,另外一边呢,再同时进行数据的读写。你不能说我这需要数据了,你给我读,然后处理完了以后你再去写,这样就变慢了嘛。所以基本上在做这样的事情,负载均衡和并行处理。
另外还有一个什么样的事情在做呢?就是有一点点叫“驴粪蛋表面光”。这个也算是老北京的一个俏皮话,什么意思呢?就是这个驴粪球外边是很光滑的,但是里边呢,就是一堆的没有消化好的碎草。DeepSeek也是如此,他把很多的计算精度呢进行了调整,他尽可能的能够达到大家的要求,但是很多细节上的这些你看不到的环节呢,就给你忽略掉了。
所以,这个也可以极大地提高效率。他说:“我通过了这样的方式,达到了545%的利润。”当年给出的DeepSeek V3 557.6万美金的训练成本,已经成为了一个业内的计量标准,或者计量单位了。就跟你说这个东西是一牛顿,那个东西叫一瓦特,他这个557万的训练成本,也成了一个计量单位。OpenAI用了1,400万美金投超级碗广告的时候,很多人就说:“你这玩意够训练几次DeepSeek了?”这个已经成为一个业内梗了。
在制造话题这块,DeepSeek作为AI时代的顶级企业是合格的。大家注意,AI时代跟以前不一样。原来呢是酒香不怕巷子深,但是现在你从OpenAI、Anthropic,再到国内的DeepSeek,每一个都是制造话题的好手。必须要会讲故事,才可以在这个时代好好地玩下去。
那么,545%的利润和557.6万美金的训练成本,到底是一个什么样的概念呢?是真的还是假的?是不是吹牛?很多人一上来就会问这样的问题。事情呢,没这么简单。数据肯定有一定水分,咱们一定要承认这件事。但是呢,这个数据也是有参考价值的,不是说你这个东西是真是假,一刀切完事了。这个还是要具体来去分析一下。
咱们呢来看一看,545%的利润到底是怎么算出来的。说这个GPU都是7*24小时满负荷工作,然后呢把所有的优化手段都用到极致,就是他这5天发布的这些优化手段,我都给用上了。然后计算输出TOKEN的总量,就是我这么长时间,一共可以输出多少TOKEN出来。按照最贵的DeepSeek R1的价格来去收钱,这个是100万TOKEN 16块钱,这个是DeepSeek自己给的价格。国内的这些云服务厂商,基本上都是按这价格做的。等于就是说我一天24小时,满负荷输出这么多的TOKEN,能够说到多少钱。再以GPU租赁的价格,两美金一小时作为成本,把这俩数一除,就算出了一个545%的一个利润率来。他是这么算出来的。那这个水分在什么地方呢?
第一个GPU是不可能7*24小时满负荷工作的。就跟送外卖一样,赶上午餐时间大家都得去送外卖,午餐吃完了以后所有人都在那闲着,这个才是正常的状态。GPU也是如此的,你不可能说大家都商量好了,这个7*24小时达到均匀的来,我们让所有的GPU跑满,谁都别闲着。这个事是绝不可能的,而且距离现实情况相距甚远。
正常应该是什么呢?为了保障高峰时期的服务不崩,必须要容忍非高峰时期,可能有70%到80%的服务器是冗余的,或者在那闲置的。那你说到底有多少这个时间算高峰时间,有多少时间是非高峰时间呢?这个一天里头的高峰时间,可能能够有这么三五个小时也就到头了,不会到8个小时的。
像我们以前做游戏的时候,是什么时候高峰时间呢?中午吃饭的时候,还有吃完晚饭9点以后算是高峰时间。那你说我这是工作上班的事情,那他应该是在早晨10点、11点,你没准是个高峰,然后下午2点多到四五点钟,是有一个高峰。其他的时候这个服务器都是闲着的。所以千万不要觉得说,能够跑20个小时的高峰,想都不想,你能跑4个已经算很好很好了。
那么DeepSeek也不是所有服务都收费的,它是按最贵的那个算,按DeepSeek R1每100万TOKEN 16块来算的。你如果按照DeepSeek V3,每100万TOKEN也才8块钱,就肯定没有500%多的利润。而且DeepSeek上呢,比如说他的网页还有他的APP,这些都是不要钱的,你也得为人服务。那这一块他就没算在里头,都按这个R1去收费了,所以这个肯定是不对的。
而且现在DeepSeek呢,在晚上的非高峰时期,也就是凌晨3点到第二天8点这段时间,他还对这个API的价格打折。这块他也没算在里头。其实我觉得他真没必要打折,因为我在这个时间段试过,依然很慢,他的服务器依然是不反应的。所以呢,他做这样的事情,应该还是有一些奇怪目的的吧。他现在的这个成本呢,只计算了GPU的租赁成本。
这个肯定也是有水分的。当然了,GPU租赁呢,是包含服务器、水电、制冷、相关人员成本的,甚至还包括资金占压成本和一些利润。因为你找别人去租GPU来,人家还挣钱呢。所以这块呢,一个小时两美金这个事还是比较宽裕的。而且DeepSeek自己部署机房的话,可能它的成本还要比一个小时两美金要稍微低一点点。但是呢,他的研发、训练、数据准备等等这些成本都没算在里头去。所以呢,他在整个计算成本的时候呢,肯定是极大的降低了成本的总量。
这个呢,就跟前面咱们讲557.6万美金的DeepSeek V3训练成本其实是一样的,也是这么算出来的。它只计算了2,048块GPU运算了多长时间,其他的什么人员工资、数据准备这些全都没算进去。咱们这里的人员工资就是分两块,一块是机房维护的人员工资,这块呢,应该已经算到了GPU租赁的价格里边去;另外一块是他自己那帮科学家的人员工资,这部分那是没算的。
那么实际利润应该有多少呢?你说没有545%,那到底应该有多少?可以跟大家负责任的说,实际利润一定是亏损的,谁也不可能靠这玩意挣钱,按这价格都挣不回来。那么为什么还说这个数据是有参考价值的呢?大家注意在投融资的时候,或者是在做量化交易的时候,你需要一些简单快捷的方式去计算出某一个数值的极限范围。这个东西最多能挣多少钱,最多能亏多少钱,是要快速的算一下的。只有算完了这个以后,才可以去做一些决策。完全准确的数据说,我这东西算完了以后特别精确,就是挣这么多钱,就是亏这么多钱,这个数呢有时候没有什么意义,时间更重要。
DeepSeek呢就是做量化出身的,所以呢,他们很习惯这样去计算数据。你也不能说人家故意坑你。所以先计算极限,然后再向极限前进。如果发现没法到达,咱们再去分析原因调整数据。这个是甭管做投融资还是做量化,必须要干的事情。那么我们应该如何看待这样的数据呢?无脑吹,无脑喷。
一上来说看DeepSeek好厉害,中华之光。另外一帮人说你看这就是骗人的,这个不可能的。这个呢,您开心就好,您走错频道了,不应该来看老范讲故事。您去找一些更二极管一点的频道去看,会更加开心一点点。还有一些人呢,找出证据来论证他不靠谱,或者是让别人自证清白。你找出证据来呀,你自己列出这个数据来呀,你看你不靠谱吧。这些人呢其实也是一种无脑的表现,就是你要知道这个东西背后的逻辑是什么,以及它的价值在哪个范围内是有效的,而不是说上来体现一下自己的优越感。这种人也没什么意思。还有些人呢上来就说,哎呀,这个事情很复杂,一句两句解释不清楚,然后呢给你说一大堆的专有名词出来。这种人可能是骗子,他总是惦记从你身上得到一些什么的。
所以我们真正要做的是什么呢?就是理解这种数据产生的逻辑意义,以及呢价值,在其合理的范围内使用这些数据作为参考,但是不能迷信。为什么要有合理的范围内使用呢?真理还有适用的范围呢,没有哪项真理是放之四海皆准的。真理离开了他的适用范围就是谬误。同时呢我们要训练自己快速得出类似的这种数据的能力,或者呢,是加强我们对此类数据进行判断的这种能力。
那么DeepSeek为什么要公布这样的一个数据呢?这个目的和险恶用心何在呢?这个才是我们吃瓜的乐趣所在。第一个他要证明自己在H800下完全能够搞定所有的事情,还能挣钱。因为一直有人在质疑DeepSeek走私了H100,手里边有5万块H100,大家都在讲这个事。但是呢,DeepSeek自己不会去证明说我手里有还是没有,这个都没有任何意义。有呢,肯定有问题,可能会造成你这种技术在海外被彻底封禁。你就算是开源说,你这个技术因为是违法获得的,所以谁都不许用,他有可能会得到这样的一个结果。那你说我没有呢,你又很难证明这个事情,说我没有,自证清白这个事是挺难的。那么干脆我们就不证明了,我既不说我干了,我也不说我不干了。他干嘛呢?
他说:“我证明一下,我不需要H100,我用H800完全可以搞定。我把这个事儿证明一次就完事了。DeepSeek现在也没办法把这些H100拿出来,开足马力来为大家服务。现在突然服务的很顺畅了,说你是不是把H100拿出来偷偷用了?没有,你看我说都算好了。这个我是挣钱的,我不需要把他们拿出来。他现在需要给自己做这样的一个辩白,这是第一点。”
“第二点是什么呢?就是我没赚着钱,你们也别想赚钱,大家一起来卷。什么意思?这个学霸经常出来说:‘你看我没有复习功课哦,我就是天天玩,但是我考得很好。’他们是很气人的。可能这跟你说完了不复习功课,炫耀了一下我怎么去玩耍了,回家就苦读到半夜。这个是很多学霸的一种套路。DeepSeek可能也是这么搞的。他自己的网页、APP和API现在基本无法使用的一个情况下,国内的各大厂呢,都在拼命地接DeepSeek。但是呢,又没有给DeepSeek付钱。那DeepSeek只能出来阴阳一下说:‘看我还是挣545%呢,你们挣老鼻子钱了,是不是得意思一下?’那干脆大家一起卷就完了。然后在这个过程中,把这些不挣钱的小的卷死。大的也不是说就挣钱了,大的是有其他业务可以补贴,他赔得起。等到最后剩这帮大的的时候,咱们再来谈这个事情。咱先把这帮小的都卷死。他在干这样的一个事情。你想学霸上来说:‘我从来不复习功课,我上来就考第一。’他干嘛呀?第一个,心里要开心一下,要稍微秀一下优越。另外一个呢,就还是说,咱们这个各层次咱们分别卷起来,要干这个事情。”
“那么这个事情发布了以后呢,周末还炸出一个小瓜来。这只能算小瓜了,就是硅积流动跟路深科技两边掐起来了。这两家呢,都是做MAAS的,就是大模型作为服务。咱们做云计算,有IAS,就是基础架构作为服务;SAS是软件即为服务;PAAS是平台即为服务;MAAS呢,叫model as service,就是大模型就是服务。是这样的两个厂商自己就掐起来了,为什么呢?”
现在,他们都接了DeepSeek,但是肯定都不挣钱,而且亏得很厉害。路深科技呢,就卷不动了。这位CEO是UC Berkeley的博士,所以我看他的这个签名是伯克利什么什么。这个人我也不认识,所以这名字咱就不记了。他呢,算是有一些网红包袱。你说我卷不动这事呢,我又不能承认。我不能承认这个网红塌房了,别人能搞定,我搞不定。所以呢,一定要找一个出口说,你看他们其实也不挣钱,他们就想卷我们,他们也有问题。他找到了谁?找到硅基流动了。这个不能是自己的问题,也不能是DeepSeek的问题。DeepSeek现在是中国之光嘛,这事一定是你自己技术不好。而且这事还不能是华为的问题,这事跟华为有什么关系呢?就是路深科技跟硅基流动,他们接DeepSeek都是跑的华为云的升腾910芯片的,他们没有跑英伟达芯片。那这个事这几家都怪不了,不能怪自己,不能怪DeepSeek,也不能怪华为。那我们怪友商吧,怪这个硅基流动吧。他说硅基流动你春节加班,因为DeepSeek的发布是在春节期间发布的嘛,而且呢还在卷砍一刀的事情。因为这个硅基流动发了好多的代金券出去,赚了一波流量。你发了这个多少亿的代金券出去,你手里就1亿2亿的现金,你根本就没有办法兑现这个事情。这个其实也是有点骗傻子了,代金券出去并不是需要用你手里的现金去兑换的,你是要用服务慢慢地去把这些代金券消耗掉,跟你手里有多少现金本身是没有关系的。当然,卷这个事呢,在中国企业的竞争过程中呢,算是一种常态吧。现在硅基流动的DeepSeek R1也基本上处于不可用状态,我现在也不用他们家的,都是用火山的。待会咱们再讲为什么用火山的。到这了这两家就开始互相掐了,硅基流动说人家是已经发布了这些开源项目了,我们照着去学就完了,但是这个事很难,你搞不定,你不要说别人也搞不定,开始阴阳这个路深科技。这两边就开始相互的指责,说你挖我的人。
硅基流动说你抄袭,开始互相怼起来,这已经离开事实本身了。这个呢,稍微有一点点low。卷不动呢,你就默默地退出就完了。当然,内部人设立不住呢,你就需要在外边立靶子。我们也见到了很多这样的案例了,最后呢在外部还翻了车了,只能回去继续统一思想。
怎么在外部翻车了呢?因为路深科技呢,被硅基流动指责说你抄袭。然后路深科技说,抄袭的那个是原来我CTO干的,CTO已经把它开了。而且呢,CTO被开了以后,还去你硅基流动上班去了。现在这个CTO也出来回复了这件事情,他说我就是当年那CTO,我去的时候这项目就已经是这样了,那个代码也不是我抄进去的。说我去了以后呢,还整理了所有的代码,把所有引用的东西呢,给他写清楚出处。
这个开源项目怎么算抄袭,怎么算不抄袭?就是你违反了人家的开源协议,你用了人代码你没有写说这是哪来的,这就算抄袭。你说我用了人代码了,但是我写清楚我用了谁谁谁家代码,符合人家的协议,然后我在这个基本上做什么修改了,这个就算给开源做贡献。人家的CTO说压根跟我没关系。
然后第二个说我为什么离开呢,是因为他们用假的期权合同骗我,让我去的时候给我承诺了期权,结果最后呢没法兑现。因为这个事情我质问了他们,所以最后离开了。在其他的一些抄袭事件,因为这个路深科技,还有其他的抄袭事件,说这个就跟我完全没关系,等于又把这个路深科技整个放这了。
那么DeepSeek的推理市场,未来到底怎么走呢?首先腾讯去加单了,订购了10-20万块的H20,这个是现在允许向中国出口的型号,全线接入DeepSeek。在它的微信,IMA,还有元宝这些程序里边都接了。IMA呢是一个办公用的AI助手,元宝呢,是个人用的AI助手。现在元宝在疯狂的做推广,微信的搜索里边,现在也在进行灰度测试,直接在里边可以使用DeepSeek R1进行搜索推理。字节呢,本身就是算力大户,它是全世界第二名的算力大户,第一名是微软,第二名就是它。
DeepSeek只做ToB的服务,就是你可以在字节的火山引擎上用它。字节自己的产品里是没有去接DeepSeek R1的,他们还是比较骄傲的,希望这个豆包模型可以追上来。所以字节的DeepSeek R1是我现在用过的所有DeepSeek R1里头最快的,因为算力足够多,用的人不是很多,所以他最快。
阿里云呢,未来三年投入3,800亿人民币做算力投入,说那我们就疯狂去买就完了。至于这些MAAS厂商,就是叫模型及服务的厂商,这个背后都是华为云,价格又被DeepSeek给锁死了,这个就很痛苦。所谓锁死了什么意思?DeepSeek在中国给出的价格,咱们就说R1的输出价格吧,是最贵的一个价格,是每100万TOKEN 16块钱。现在甭管是路深科技还是硅基流动,或者是阿里云火山云,都是用同样的价格给的,100万TOKEN 16块人民币。但你知道国外多少钱吗?在together上刚才我查了一下,美国的服务器上部署的DeepSeek R1,它的100万TOKEN大概是七八块美金了,应该到50多块钱人民币,所以这个还是挺贵的。
他们的V3其实价格都差不太多,咱们的V3的输出呢,是八块钱人民币100万TOKEN,在美国的话是1.25美金100万TOKEN,这个是相差不多的。但是R1这个真的是差三倍的钱,国内这个锁死价格了,以后他们就必然会按照这个价格赔钱赔下去。
至于DeepSeek所开源的这些库呢,他们只能去借鉴一个思路,肯定用不上。为什么?因为DeepSeek所有开源库都是基于CUDA的,都是基于英伟达芯片的。这帮人看着一堆的华为升腾910,只能说,咱们看看这个大概思路是不是可以参考一下。那这个想去做的话难度就大了,而且整个的服务过程必然亏损。原因也很简单,就是你的服务器绝不可能7*24小时很均匀、很平顺的满负荷运转,这个事情从头到尾就是个伪命题,所以肯定是亏的。
而且,华为呢是不会承担这种亏损的。你跟华为合作,人家还忙着爱国呢。你亏了钱,肯定是你自己的问题。而且,人家DeepSeek说了:“我这能挣钱,你亏了,你不能怪我,你也不能怪华为。你看看你自己的技术哪不对。”
而且,这些MAAS的厂商呢,还没有大厂其他的业务可以补血。你比如像刚才我们讲,腾讯在这个IMA或者是元宝里边,去使用DeepSeek R1的时候,你是不用付钱的,免费的。但是,腾讯有游戏收入,有广告收入,还有各种电商收入。他有一堆收入可以补这个窟窿。他去买20万张的H20,花不了多少钱,对于他整个利润来说,都是可以承担的成本。
硅基流动,路深科技,你跟他卷,这你肯定卷不过他。更别说字节跳动了,字节跳动比腾讯还能挣钱呢。所以呢,跟大厂他们也卷不过。model as a service的这些厂商呢,只能看谁坚持到最后。坚持到最后,也不是说他们就能胜出。坚持到最后呢,也就是看最后谁能够下车,被这些大厂所收购。这应该就是他们的出路。
当然,你说我未来是准备被收购的,那也就不能长太胖。什么意思?你不能拿太多的融资,必须要自己挣钱。因为你拿了很多融资以后,你的估值会变得非常高。等到最后大厂去选择一家,把它收下来的时候呢,通常还是要去衡量一下性价比的。
那么,总结一下。首先呢,要感谢DeepSeek又给了一话题,又可以跟大家扯一会儿。如何理性地判断各种夸张数据背后的逻辑和价值,才是今天我们要讲这期视频的核心点。而不是说,我们来批判一下这东西合理还是不合理,这个没有什么意思。
AI正在走向新的时代,过去很多的商业逻辑呢会发生变化。过去的经验未必有效,但是依然是会有一定的价值。你像我给大家分析很多东西,都是根据我过去的很多商业逻辑来分析,但是也不能迷信这个东西。像我每次都会跟大家强调,这个东西呢,有可能分析的不全面,未来有可能会出现我们想象之外的东西。那这个才是我们这个频道始终跟大家所强调的东西。好,这期就讲到这里。
感谢大家收听。请帮忙点赞、点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。