8 月 24
Luke Fan DeepSeek大模型 AI Agent , AI大模型 , AI科普 , AMD , A股 , Deepseek V3.1 , FP8 , H100 , H800 , MindSpore , MXFP4 , UE8M0 , 九九乘法表比喻 , 二级市场 , 人工智能 , 华为升腾 , 国产算力芯片 , 国运级产品 , 寒武纪 , 工具调用 , 技术脱钩 , 技术路线之争 , 摩尔线程 , 概念股 , 模型量化 , 混合精度训练 , 矩阵乘法 , 科技评论 , 老范讲故事 , 股票投资 , 英伟达 , 裹小脚比喻 , 计算精度 , 谷歌TPU , 资本市场 , 马赛克比喻
VIDEO
Deepseek V3.1发布,很多人应该都有疑问,UE8M0到底是个什么东西?这个国运级的大模型,到底有没有翻车呢?
大家好,欢迎收听老范讲故事的YouTube频道 。
DeepSeek V3.1发布,为什么会墙内开花墙外香呢?大家说这东西在国外也没多火。咱们讲的墙内开花墙外香,并不是说国外火,而是在圈外火。什么意思呢?就是在真正大模型圈里,其实大家并不怎么说这个事,但是在炒股票的这帮人面前,一下就火了,国产算力芯片一把就飞了。
到底是一个什么样的情况?首先呢,Deepseek V3.1在性能上其实并没有特别显著的提升,所以一帮真正去研究大模型的人,或者去研究AI的人,只能在那尬吹,说这个好像强了一点,那个好像强了一点,但其实都并不明显。它的编程能力呢,确实应该有所上升吧,但是你说现在就可以吊打Claude Sonic 4,这个我觉得有些言过其实了。上下文现在是128K了,在Deepseek去年12月份发布的V3版本以及1月份发布的R1版本的时候呢,它的上下文都是64K的。到V30324和R10528这两个版本呢,就已经升级到128K了,所以这一次的V3.1依然是128K。工具调用上应该是真的增强了,比原来的V3增强了,也更加符合AI agent的一个需求,这个就是他的一个主要的优势。
More
5 月 04
Luke Fan AIGC Agent能力 , AI agent开发 , DeepSeek R1 对比 , Gemini 2.5 Pro 对比 , GitHub 开源 , GPT-4o 对比 , Grok 对比 , Llama 4 对比 , MCP协议支持 , MOE模型 (混合专家模型) , Ollama , Open Router , PC端应用 , Qwen3 , XAI 对比 , 上下文窗口 (128K/256K) , 专业数据 , 云部署 , 人工智能 (AI) , 代码生成 , 优缺点 , 全系列模型 (0.6B-235B) , 划时代的胜利 vs 翻车 , 千问3 , 原生数据 , 参数效率 , 合成数据 , 后训练 , 商业应用 , 多场景适配 , 多语言支持 (119种) , 大语言模型 (LLM) , 工具调用 , 幻觉问题 , 开源模型 , 强化学习 (RLHF) , 微调 (Fine-tuning) , 性能分析 , 性能评测 , 技术创新 , 指令遵循 , 数学推理 , 数据来源 , 本地部署 , 模型使用 , 模型发布 , 模型对齐 , 混合推理架构 , 用户体验 , 田忌赛马策略 , 真实感受 , 硅基流动 , 移动端应用 , 稠密模型 , 评测数据 , 逻辑推理 , 长思维链 , 阿里云百炼 , 阿里大模型 , 预训练 (36T数据)
VIDEO
Qwen3发布了。这到底是划时代的胜利,还是翻车了呢?
大家好,欢迎收听老范讲故事的YouTube频道。Qwen3真的是千呼万唤始出来。前面好几周就已经不断有传言说Qwen3要发布,要多么多么强大。突然发布之后,当然也肯定是伴随着一大堆的评测数据了。官方评测数据呢,永远是我超越了谁、超越了谁。但是很多评测的人呢,觉得好像差那么一点点意思,没有达到预期。所以今天我们来讨论一下,这到底是又一次划时代的胜利,还是翻车。
Qwen3呢是凌晨发布的,4月29日凌晨上线,在Github上全面开放。我呢已经开始用上了。使用的方法有几种:
第一种是本地部署。我是MacBook Pro,M2 Max的芯片,32G内存。其他的不重要,你到底有多少硬盘,这个事没有那么重要。本地使用OlAmA部署,我使用了8B、32B和30B-A3B。最后这个是什么意思?最后是一个MOE的模型,它是30B-A3B,就是说它每一次干活的时候激活3B,也就是30亿参数。它是这样的一个标注。就这三个版本的模型,在我本机都可以跑,速度呢都是还可以接受。
More