Tag: H800

Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌

8 月 24

Luke FanDeepSeek大模型 AI Agent, AI大模型, AI科普, AMD, A股, Deepseek V3.1, FP8, H100, H800, MindSpore, MXFP4, UE8M0, 九九乘法表比喻, 二级市场, 人工智能, 华为升腾, 国产算力芯片, 国运级产品, 寒武纪, 工具调用, 技术脱钩, 技术路线之争, 摩尔线程, 概念股, 模型量化, 混合精度训练, 矩阵乘法, 科技评论, 老范讲故事, 股票投资, 英伟达, 裹小脚比喻, 计算精度, 谷歌TPU, 资本市场, 马赛克比喻 Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌已关闭评论

Deepseek V3.1发布，很多人应该都有疑问，UE8M0到底是个什么东西？这个国运级的大模型，到底有没有翻车呢？

大家好，欢迎收听老范讲故事的YouTube频道。

DeepSeek V3.1发布，为什么会墙内开花墙外香呢？大家说这东西在国外也没多火。咱们讲的墙内开花墙外香，并不是说国外火，而是在圈外火。什么意思呢？就是在真正大模型圈里，其实大家并不怎么说这个事，但是在炒股票的这帮人面前，一下就火了，国产算力芯片一把就飞了。

到底是一个什么样的情况？首先呢，Deepseek V3.1在性能上其实并没有特别显著的提升，所以一帮真正去研究大模型的人，或者去研究AI的人，只能在那尬吹，说这个好像强了一点，那个好像强了一点，但其实都并不明显。它的编程能力呢，确实应该有所上升吧，但是你说现在就可以吊打Claude Sonic 4，这个我觉得有些言过其实了。上下文现在是128K了，在Deepseek去年12月份发布的V3版本以及1月份发布的R1版本的时候呢，它的上下文都是64K的。到V30324和R10528这两个版本呢，就已经升级到128K了，所以这一次的V3.1依然是128K。工具调用上应该是真的增强了，比原来的V3增强了，也更加符合AI agent的一个需求，这个就是他的一个主要的优势。

DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。

8 月 18

Luke FanAIGC, 华为很厉害, 英伟达，NVIDIA，黄教主，GPU AI Agent, AI芯片, AI训练, AMD, Anthropic, B100, Claude 4, CUDA, DeepSeek, Deepseek R2, Function Call, Gemini, Google, GPT-5, Grok 4, H100, H20, H800, Kimi, Llama 4, Meta, NVIDIA, OpenAI, TPU, XAI, 中美科技战, 人工智能, 传闻, 千问, 升腾910C, 华为, 华为升腾, 国产替代, 国产芯片, 大模型, 大模型训练, 字节跳动, 开源, 技术瓶颈, 推理, 散热问题, 浸没式液冷, 液冷, 深度求索, 百度, 算力, 腾讯, 芯片战争, 英伟达, 辟谣, 金融时报报道, 难产 DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。已关闭评论

8月14号，英国金融时报发了一篇报道，说Deepseek R2模型之所以难产，是因为在使用华为升腾芯片训练的时候，持续遇到了技术问题，最后被迫改用了英伟达芯片。甚至透露华为曾经派出一支救火队，常驻在Deepseek，手把手帮忙调教升腾服务器，但仍然无法完成训练。无奈之下，Deepseek只能退回老路训练，重新切换回性能更加可靠的Nvidia的GPU，升腾芯片仅退居辅助，用于模型推理环节。

虽然没有华为和Deepseek官方的回应，也没有他们的辟谣，但是呢，据说是援引了三位知情人士的一些说法，也进行了很多交叉验证，所以这个事情呢，大概率是真的。

国运跟国运相碰撞的时候，升腾也号称是国运级产品，Deepseek肯定是国运级产品，为什么是升腾不灵呢？升腾芯片是可以替代的，也还有一堆竞争对手，所以出现问题以后，他的竞争对手会帮他去宣传。而Deepseek虽然在国内也有模型在追赶，但是地位是不一样的。升腾和国内的其他算力芯片，以及其他那些大模型，从来没有像Deepseek那样震动过世界。所以呢发生碰撞的时候，必须是升腾不行了，不可能是Deepseek不行了。

Meta为何砸下百亿重金投资而非直接收购AI数据标注巨头Scale AI？揭秘扎克伯格剑指AI生态霸权，欲借华人天才少年之力挽救Llama开源模型困局的深层战略与考量。

6 月 11

Luke FanAIGC, Meta的故事 AI产业链, AI伦理, AI大模型, AI技术, AI投资, AI数据, AI算力, DeepSeek, FTC, H100, H800, LLaMA, Llama 4, Meta, OpenAI, Sam Altman, Scale AI, YC, 亚历山大王, 亚马逊, 华人创业, 合成数据, 商业分析, 微软, 扎克伯格, 数据垄断, 数据标注, 模型微调, 科技巨头并购, 科技行业动态, 科技评论, 美国国防部, 老范讲故事, 自动驾驶数据, 英伟达, 谷歌 Meta为何砸下百亿重金投资而非直接收购AI数据标注巨头Scale AI？揭秘扎克伯格剑指AI生态霸权，欲借华人天才少年之力挽救Llama开源模型困局的深层战略与考量。已关闭评论

Scale AI得到了Meta超过百亿美金的投资，AI圈又热闹起来了。大家好，欢迎收听老范讲故事的YouTube频道。

Scale AI这个名字怎么好像在哪听说过呢？好像有点耳熟，对吧？他呢，有一位特别传奇的CEO，或者叫创始人吧，叫华人天才少年CEO亚历山大王。当时呢，跳出来指责DeepSeek用H100的就是他。

DeepSeek R1到底是怎么训练的？引起了广泛的关注。DeepSeek自己讲呢，我使用了2,000多块的H800就完成了训练。但是亚历山大王呢，在一次接受采访的时候就出来说了，中国实验室里边拥有的H100的数量远超大家的想象，DeepSeek自己至少有5万块H100。但是这个话呢，没有实际证据，讲完了也就完了。DeepSeek跟亚历山大王之间呢，并没有就这个事情进行认真的探讨，所以这个我们把它当成一种谣传吧。

3月份呢，DeepSeek自己再次发了声明，说他们训练的都是使用的合规的GPU，也就是允许向中国出口的这些GPU。因为如果不说这个的话，美国就有可能要求说禁止使用这玩意儿。DeepSeek就讲了说，甭管是R1也好，V3也好，训练呢都是使用的H800，或者是后面的H20这些GPU训练的。

从557万美金训练成本到545%利润，DeepSeek如何用惊悚的数字，震撼AI行业的？这些数字，靠谱吗？

3 月 04

Luke FanAIGC, DeepSeek大模型 545%利润, 557.6万美金, AI优化, AI优化技术, AI公关策略, AI公司争斗, AI利润计算, AI商业模式, AI商战, AI基准价格, AI市场格局, AI开源项目, AI成本分析, AI投资策略, AI推理市场, AI推理未来, AI数据中心, AI服务器管理, AI生态小厂, AI硬件, AI自由市场, AI行业内幕, AI行业梗, AI行业盈利, AI话题营销, AI资源分配, AI量化交易, AI量化模型, AI高峰时段, API定价, CUDA, DeepSeek, Deepseek V3, DeepSeek开源库, DeepSeek计算精度, GPU全天运营, GPU租赁成本, GPU负载均衡, H100芯片, H800, MAAS厂商, MAAS盈利模式, MAAS竞争, R1价格, 中国AI企业, 中美AI价格差, 中美AI市场对比, 云服务厂商, 云计算, 华为云, 商业逻辑, 大模型服务, 大模型训练, 字节跳动DeepSeek, 并行计算, 开源协议, 推理利润, 推理效率, 推理系统, 数据参考价值, 数据水分, 数据逻辑, 模型优化策略, 模型即服务, 深度学习, 硅基流动, 腾讯DeepSeek, 腾讯IMA, 芯片性能, 训练成本, 路深科技, 达芬奇架构, 阿里云投资从557万美金训练成本到545%利润，DeepSeek如何用惊悚的数字，震撼AI行业的？这些数字，靠谱吗？已关闭评论

DeepSeek也玩“one more thing”，突然公布了它的推理利润达到545%，就像当初557.6万美金的训练成本那样，再次震惊了行业。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，DeepSeek结束了连续5天的开园周之后，到礼拜六玩了一次“one more thing”。这个“one more thing”呢，应该是当年乔布斯的梗。他每一次开发布会到最后的时候呢，都要说“还有一件事，等一等”，而且这一件事呢，往往是特别重要、特别颠覆性的事情。那么这一次又来了，DeepSeek公布了它的V1和R3推理系统相关内容，及大规模部署的成本和收益数据。就是说我部署了这东西以后，到底是挣了多少钱？非常非常让人震惊，因为所有人做这个东西都说我不挣钱，我亏钱，结果等到他这好，545%的利润，所有人都傻了，说你到底咋干的？

具体的实现方法呢，就不再跟大家详细分析了。简单来说，第一个负载均衡，你想他有这么多的GPU，这么多的核心，在他这种MOE的架构下，他把每一层的模型里边每一个专家，分配到不同的设备上面去进行运算。这个呢，就是一个负载均衡，尽量让所有的芯片都动起来，不要说有的芯片闲着呢，有的芯片在那排队。第二个，并行计算。并行处理是什么呢？所有的芯片一起来干活，这个速度肯定会变快。另外呢，一边干活的时候，另外一边呢，再同时进行数据的读写。你不能说我这需要数据了，你给我读，然后处理完了以后你再去写，这样就变慢了嘛。所以基本上在做这样的事情，负载均衡和并行处理。

另外还有一个什么样的事情在做呢？就是有一点点叫“驴粪蛋表面光”。这个也算是老北京的一个俏皮话，什么意思呢？就是这个驴粪球外边是很光滑的，但是里边呢，就是一堆的没有消化好的碎草。DeepSeek也是如此，他把很多的计算精度呢进行了调整，他尽可能的能够达到大家的要求，但是很多细节上的这些你看不到的环节呢，就给你忽略掉了。

老范讲故事的博客站

Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌

DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。

Meta为何砸下百亿重金投资而非直接收购AI数据标注巨头Scale AI？揭秘扎克伯格剑指AI生态霸权，欲借华人天才少年之力挽救Llama开源模型困局的深层战略与考量。

从557万美金训练成本到545%利润，DeepSeek如何用惊悚的数字，震撼AI行业的？这些数字，靠谱吗？

近期文章

归档

分类

其他操作