12 月 19
Luke FanAIGC, 雷军、小米 DeepSeek, MiMo-V2 Flash, 云端Agent, 人车家全生态, 供应链管理, 商业模式, 大模型应用, 小米AI战略, 小米大模型, 小米汽车, 小米转型, 性价比, 技术护城河, 智能驾驶, 机器人, 混合专家模型, 澎湃OS, 研发投入, 端侧AI, 罗福莉, 股价下跌, 自动驾驶, 自研芯片, 资本市场, 雷军
罗福莉发布了小米MiMo-V2 Flash新模型,小米股价却应声下跌了
大家好,欢迎收听“老范讲故事”的YouTube频道。
关于 MiMo-V2 Flash 模型发布
12月17号开的发布会,罗福莉终于站上了小米的舞台,发布了新模型 MiMo-V2 Flash。这是一个MoE的模型,这倒是不出乎人意料,因为现在新的模型基本上都是MoE。而且罗福莉作为Deepseek V2的主要创作者,MoE就是从他手里头发扬光大的。
但是MiMo-V2 Flash这样的一个模型,使用了更强的后训练算法,就是前头预训练完了以后,后边做更激进的这种后训练。整个的模型是 309B,也就是3,090亿参数,每一次干活只激活 15B。所以他每一次真正回答问题的时候,激活的参数量是非常非常小的。
这是一个云端模型。别看他只激活15B,在本地是没法跑的。如果你想在电脑上跑的话,基本上三十几B就是到头了。不是说你每次激活多少,而是你总模型量有多少。你比如说我现在有一个72B的模型,每一次激活十几B,在我们电脑上是跑不起来的。所以它这个309B每次激活15B的模型,只能在云端跑。
More
1 月 07
Luke FanAIGC AI开源模型, AI技术解析, Deepseek AI发展, Deepseek MoE模型解析, Deepseek V3, Deepseek V3技术优势, Deepseek V3技术难点, Deepseek V3效率, Deepseek V3特点, Deepseek V3解析, Deepseek VS密集模型, Deepseek与Claude, Deepseek与GPT-4对比, Deepseek与Llama, Deepseek与李开复, Deepseek与零一万物, Deepseek国内模型, Deepseek国际关注, Deepseek学术价值, Deepseek应用场景, Deepseek开源代码, Deepseek开源项目, Deepseek微调难点, Deepseek性能优化, Deepseek技术革新, Deepseek推理成本, Deepseek训练成本, Deepseek通信开销, MoE架构创新, MoE模型, 中国AI模型, 医院分诊模型, 地址邮编模型, 多任务AI学习, 多头潜在注意力机制, 密集模型对比, 混合专家模型, 细颗粒度专家模型, 细颗粒度模型解析
大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Deepseek V3搅动风云的事情。Deepseek V3到底先进在什么地方?我在这一段时间呢,也看了一些人的介绍,甚至也看了一些人的视频,尝试用人话来讲清楚,还是很困难的。有一些人很扑克脸,上来就把论文念了一遍,底下一堆人在那评论说有听没有懂。咱们呢尽量避免看这个事情,想办法呢,用举例子和讲故事的方式,让大家能够稍微的了解一下Deepseek V3到底干了点什么。
但是呢,这个里头就会有一个问题,就是例子跟故事呢,有时候不一定准确。所以呢,我们尽量的传递,让大家可以对相关的概念有一个感性的认知。跟大家先讲一个故事吧,这样的话,你们就可以理解待会我要讲的故事大概在什么层面上了。
说爱因斯坦在晚年,有一次去参加美国的一个慈善晚会,来了位盲人。说:“您看,这是个盲人,您能给他解释一下什么是相对论吗?”从来也没见过任何的光,也就没见过任何东西。你告诉我怎么叫相对论。爱因斯坦想了想,说:“这个相对论呢,就是相对的,就是黑的跟白的,你能理解吗?”这个盲人说:“我生下来就是盲人,我没法理解什么是黑的跟白的。”爱因斯坦说:“那你想想有一只大鹅,大鹅你知道吗?这个鹅是白的。”盲人说:“我从小就是盲人,我没见过鹅。”爱因斯坦继续说:“鹅有一个长长的脖子,你能想象吗?”盲人说:“哎呀,我从小是盲人,我没见过鹅,也没见过什么叫长长的脖子。”爱因斯坦说:“这个鹅的长长的脖子是可以弯的。”盲人问:“怎么弯呢?”爱因斯坦说:“来,我给你比划一下。你把这个手伸出来,这个手伸出来,然后呢,这是直的,这是弯的,你懂了吧?”盲人说:“哎呀,我好像已经懂了,什么是脖子是直的是弯的,也能够想象一下什么是鹅了,甚至呢,我都觉得我理解了什么是相对论了。”
More