深度求索 – 老范讲故事｜AI、大模型与商业世界的故事

Deepseek V3.2高分真相：我们被“遥遥领先”忽悠了？Special版跑分超GPT-5，但API成本砍半才是真杀招｜DeepSeek-V3.2、DSA

Luke Fan — Fri, 05 Dec 2025 01:06:50 +0000

Deepseek V3.2，12月1号发布了。是不是又遥遥领先了呢？

Deepseek V3.2的发布应该是12月1日。我们始终没有等来心心念念的Deepseek R2。在今年春节的时候，深度求索突然发布了Deepseek R1，算是扔下了一颗深水炸弹，把整个AI圈都震动了，甚至还造成了英伟达股价的闪崩——一段时间内闪崩吧。甚至老黄都跑出来喊，说：“Deepseek发布对我是利好，你们不要卖英伟达的股票。”大家就一直等着这个R1，既然这么厉害，咱们上R2。但是等了这么久，都没有等来R2。

Deepseek V系列版本回顾

下面呢，我们来捋一下Deepseek V系列的版本到底是怎么样的一个发布过程。

Deepseek V3 (去年12月26日发布): 这是非常非常重要的一个版本。实际上我们后面看到的所有版本，包括R1，都是在Deepseek V3的基础上进行微调、进行蒸馏、进行强化学习。今天发布的Deepseek V3.2，也依然是在这个版本的基础上做出来的。
Deepseek V3-0324 (3月24日发布): 主要是在专项能力上做了一些增强，比如说编代码或者写文章。
Deepseek V3.1 (8月21日发布): 主要是工程化和智能体方面做了增强。因为当时大家都要去做AI agent，而之前的版本在AI agent这一块都比较弱。
Deepseek V3.1 Terminals (9月22日发布): 这个版本叫V3.1的终极版，实际上是对V3.1做了一些修复和精调，并告知这是V3.1的最终版本。
V3.2 EXP (9月29日发布): 一个实验版本，在V3.1终极版的基础上加入了DSA技术。最主要的变化是降价，直接把API调用的价格砍了一半。
Deepseek OCR (10月20日发布): 一个很小的模型（约6G），用于图片解释，效果很好。
maths VR (11月27日发布): 专门做数学推理和数学证明的一个版本，在各种数学题测试中评分非常高。
Deepseek V3.2 正式版 & V3.2 special 特别版 (12月1号发布): 本次发布的主角。

V3.2，是不是遥遥领先了呢？

那么这一次的V3.2，是不是遥遥领先了呢？各种评测数据确实非常亮眼，但是呢，我们要看到它的评测数据里头实际上是有两个数值的。一个数值呢是Deepseek V3.2做出来的，一个数值呢，是Deepseek V3.2 special做出来的。

它的Deepseek 3.2 special这个版本，确实是比Gemini 3 Pro、GPT5.1都要强，但是我们大部分人，实际上没有办法去使用这个V3.2 special。它这个正式版的V3.2呢，属于是接近了GPT-5.1的水平，各项评分都很近，有个别的超过吧，大部分呢跟GPT-5.1很近的一个位置。

甚至呢，还有人出来讲，说GPT到现在3周岁了，现在Deepseek反超回来了。很多人就讲说GPT被Deepseek吓到了，其实跟Deepseek没关系，主要是被谷歌吓到了。

V3.2 Special：一个跑分工具？

你说V3.2的special版本的评分，不是已经超越了GPT-5.1和Gemini 3 Pro了吗？你怎么还说跟国外有差距呢？首先要注意，V3.2 special是一个基本上没法用的版本。为什么呢？

就是它的推理、它的运算确实非常强，但是呢，它在工具调用、AI agent的使用这一块都不能用，因为它就是会解数学题，它是一个偏科天才，除了写数学题之外，他啥也搞不了。所以呢，他做各种的评测分数很高，但是你实际使用他，你是没法使的。

而且Deepseek V3.2 special这个版本只能用到12月15号，在这之后这个接口就直接废掉了。所以那个产品就是跑分用的，不是给大家用的。发布V3.2 special呢，也是有一点点赶鸭子上架。当然有很多人说，这个就是Deepseek R2了。

V3.2的核心技术：DSA算法

那么V3.2到底是怎么训练出来的呢？实际上Deepseek V3.2，是在Deepseek V3.1 Terminals这个基础上进行的继续训练，基础大模型没变。这个里边最关键的特性，就是降本增效。

降本：Deepseek稀疏注意力算法 (DSA)

它直接把成本对半砍，就是降50%的API调用成本。里边呢，使用了一个叫DSA的算法，Deepseek稀疏注意力算法。通过一个叫闪电索引的功能，它不是对文本里边的所有词进行运算和匹配，而是先评估哪一块比较重要，哪一块不太重要，我们把重要的部分拿去做下一步，不重要的部分直接扔了。通过这种方式呢，它极大的降低了长上下文的处理成本。

长上下文是必须的，因为AI agent需要调用工具、搜索、使用本地知识库。所以只能在长上下文的基础上想办法去降低成本。

增效：与V3.1对齐并强化

在实现了DSA的算法之后，它还要跟Deepseek V3.1 Terminals这个最终版进行对齐，确保性能不能退步。这就是这一次V3.2在V3.2 EXP的基础上做的一个很重要的更新。

所以呢，9月29号V3.2 EXP，第一件事是先把价格打下来：

输入 (缓存不命中): 100万TOKEN两块钱人民币。
输入 (缓存命中): 100万TOKEN是两毛钱。
输出: 100万TOKEN只需要3元人民币。

这个价格要比我们现在能看到的各种轻量级模型都要便宜很多。

在发布这个版本之后呢，进行了大规模特定目标的强化学习，主要学很难解答但很容易验证的问题，特别是针对智能体（AI agent）进行数据训练。在这样的一个基础上，就得到了12月1号所发布的V3.2正式版。

V3.2 Special的由来

它呢，是在V3.2 EXP base的这个基础上，拿着前面我们讲的，专门做数学题证明的maths VR这个版本去做后续的训练。V3.2 special实际上就是V3.2 EXP base这个版本加上maths V2这个版本合成的一个版本。所以它特别擅长做数学题、做各种长推理，但其他方面能力很弱。

真正的领先之处：开源贡献

我们现在所说的领先，是真正做出来的这些改变、这些创新，对于整个行业是不是有贡献。Deepseek R1对于整个行业是有巨大贡献的。而这一次的DSA确实是非常先进的，也对整个行业是有贡献的。只要是对整个行业有贡献，我们就认为它已经遥遥领先了。

而且DSA算法呢是完全开源的，有论文、有模型、有代码，而且可以商业化使用。不像美国那些公司抠抠搜搜的。

当然，这个东西也不是Deepseek凭空发明的，它是在很多前人的基础上做的改进和应用。就像瓦特改进了蒸汽机一样，DSA也是如此。类似的稀疏注意力算法有很多论文，但是真正大规模的验证和使用，就是Deepseek的DSA这个算法。

其他AI公司如何应用DSA？

美国公司也有类似技术，OpenAI的算法没有公开，谷歌应用的则是一个叫“环注意力”（ring attention）的算法，可以支持到100万TOKEN的上下文。

DSA是完全开源的，其他模型也可以使用，但需要经过几个步骤：

模型结构改造： 在原来模型的基础上加上闪电索引。先进行“稠密预热”，保持主干注意力完全稠密，冻结原来的参数，只训练这个闪电索引。
稀疏训练： 打开DSA开关，解冻主干的参数，和闪电索引一起训练，并确保输出结果跟原来是一样的。
蒸馏和强化学习： 在针对写作、数学、代码、AI agent搜索等等特定领域进行特训，再用特定的模型生成数据，蒸馏主模型。最终把推理和AI agent这些行为进行强化学习和人类的对齐。

所以DSA对整个行业是有巨大推动作用的，这才是真正的遥遥领先。

Deepseek V3.2的局限与不足

它还是有很多地方比GPT-5.1、比Gemini 3 Pro要差很远的地方。

纯文本模型： 完全没有多模态能力，给它图片它是不认识的。
基础模型陈旧： Deepseek V3.2也是在一个去年12月26日发布的Deepseek V3的基础上，不停的打补丁补出来的一个版本。这个叫“麻袋片绣花，底子太差”。就像OpenAI发现GPT-5（在GPT-4基础上微调）无法追赶从头训练的Gemini 3 Pro一样，要想再追上，必须得退回去把基础模型再提升一步。

所以，Deepseek下一步肯定还是要先把Deepseek V3.2的special合并进去，但更重要的是需要重新预训练一个全新的V4模型，把多模态等能力加进去。

对国产算力的真正影响

Deepseek V3.2是不是对于国产算力有了巨大的帮助？国内云确实是在第一时间就去支持了，他们叫0 day支持。

现在大模型推理普遍使用VLLM或SGLANG这样的开源框架，它们最初是为英伟达显卡设计的。Deepseek发布DSA后，第一件事就是修改这两个框架，让它们能很好地支持DSA。国内的算力卡厂商，如华为升腾，也要到这个系统上去打补丁，适配自己的硬件。

华为云等厂商已经完成了这个适配工作，这意味着，以后想把模型部署到中国的公司（如XAI），可以直接购买华为升腾的芯片而无需修改代码。

所以国内的云和算力卡确实又行了，它们可以在相同的算力下处理更多的信息。从推理这件事情上来说，我们不再那么依赖英伟达的显卡了。但是，如果想预训练一个全新的大模型，还是要去买英伟达显卡。目前国内普遍的做法是让大模型出海，在海外去做训练。

Deepseek V3.2带来的市场影响

AI应用在国内产业的普及与渗透速度会进一步的提升。
一些新的模型，甭管是国内的还是国外的，都会去进行DSA升级，以降低成本。
使用中文推理的美国大模型会变多起来，因为它们很多是在中文开源模型基础上做后训练的。

对英伟达的影响：短期承压，长期利好

短期来看是利空。 DSA让推理成本下降，完成同样的任务只需要一半的显卡，这会减少对英伟达通用算力的需求。

但长期来说依然是利好。 首先，行业认识到必须重新预训练基础模型，这离不开英伟达显卡。其次，AI应用渗透率上升，会推动整个行业越过盈利点，对算力中心的需求可能实现真正的爆发。

总结

Deepseek V3.2，12月1日正式发布了，评分很高，但对于实际使用和感受其实没有那么大意义。因为他真正评分很高的那个版本，是一个偏科的数学天才。V3.2正式版他的评分并没有那么高。而且Deepseek V3.2是在V3的基础上继续缝缝补补出来的，想要继续前进已经很难了，必须要去对基础模型重新做预训练了。DSA这个算法确实对整个行业做出了贡献，非常非常有价值，在这一点上，你说它遥遥领先没有任何问题，但是距离真正的全线领先，还有很大的差距。

好，这就是咱们今天要讲的故事，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。

Luke Fan — Mon, 18 Aug 2025 13:35:27 +0000

8月14号，英国金融时报发了一篇报道，说Deepseek R2模型之所以难产，是因为在使用华为升腾芯片训练的时候，持续遇到了技术问题，最后被迫改用了英伟达芯片。甚至透露华为曾经派出一支救火队，常驻在Deepseek，手把手帮忙调教升腾服务器，但仍然无法完成训练。无奈之下，Deepseek只能退回老路训练，重新切换回性能更加可靠的Nvidia的GPU，升腾芯片仅退居辅助，用于模型推理环节。

虽然没有华为和Deepseek官方的回应，也没有他们的辟谣，但是呢，据说是援引了三位知情人士的一些说法，也进行了很多交叉验证，所以这个事情呢，大概率是真的。

国运跟国运相碰撞的时候，升腾也号称是国运级产品，Deepseek肯定是国运级产品，为什么是升腾不灵呢？升腾芯片是可以替代的，也还有一堆竞争对手，所以出现问题以后，他的竞争对手会帮他去宣传。而Deepseek虽然在国内也有模型在追赶，但是地位是不一样的。升腾和国内的其他算力芯片，以及其他那些大模型，从来没有像Deepseek那样震动过世界。所以呢发生碰撞的时候，必须是升腾不行了，不可能是Deepseek不行了。

大家为什么会这么期待Deepseek R2呢？现在又有千问3，也有Kimi、Mini Max，还有豆包等，有一大堆的这些模型出来，怎么就只有Deepseek才行呢？其他人为啥都不行呢？其实现在呢，很多新的这些模型已经并不比Deepseek R1的性能差了，基本上是可以替代使用的。但是大家依然在期盼Deepseek R2，而且你只要讲Deepseek要出R2了，就会有流量。这个原因其实很简单，因为我们在跟国外的大模型竞争中打不过了。

国外已经进入了10万级芯片的训练时代了。Llama4，40万块H100训练出来的。虽然Llama4翻车了，但那也是10万块。而马斯克XAI的Grok 4，20万块H100训练出来的，效果相当不错。GPT5的话，现在推测也是20万块H100训练出来的。Anthropic的Claude 4，据说呢是40万块H100，但是呢它这个数并不是那么准确，40万块H100呢是一个部署的数量，并不是精确的训练的数量。另外一个没说的是Gemini 2.5。Gemini的2.5是没有公开数据，因为他们家使的TPU，其他人都是使的GPU，所以呢没有办法去比较，但应该也是几十万块H100的一个算力，才有可能训练出Gemini 2.5来。

以前是一个国外大模型特别强，特别是GPT4压着所有的模型的时候，我们终于期盼到了Deepseek R1一出来，觉得我们好像又可以了。但是现在我们发现，国内的大模型跟国外这些明显有差距了。我们只能再去期盼Deepseek，因为其他这些肯定是追不上的。那没有20万块H100，这个日子就没法过了。国内的算力芯片呢，大家也都知道不是那么靠谱。这个时候大家期待的就是奇迹了。

Deepseek V3、Deepseek R1，他们呢号称使用了2,048块H800，还不是H100。他们这个算力转换，可能也就是1,000多块H100。拿这样的算力就直接训练出来了，大家觉得你们可以用很少的卡训练出来，还可以震惊世界。现在我们还搞不定20万块的H100，是不是依然可以期待Deepseek再创造一次奇迹呢？

Meta花了好多钱收入进去的亚历山大王曾经在接受采访的时候说，Deepseek手里头有5万块H100，压根就不是他讲的几千块就给这事搞定的事。而且呢，新加坡3月份还抓了一些向大陆走私英伟达芯片的人，有传闻说这些芯片的采购方里边包括Deepseek。

Deepseek呢也正式做出过回应，2025年2月份做了回应。Deepseek强调，仅使用了2023年合法采购的H800芯片，其他我都没用。但是讲完了这个以后，甭管你原来这个东西到底有还是没有，你讲这个话以后肯定就不能再用了吧？所以呢现在大家期待说，这个反正你们原来是这么讲的，我们就这么信了。那以后呢创造奇迹也只能是等着你了。哪怕是使用H20芯片，用很少的芯片训练出来，堪比20万块H100芯片训练结果的这种奇迹，也不是完全不可能吧？这个怎么说呢，人有多大胆，地有多大产吧。我们总还是要有一些希望吧。

新的模型没有出来，但是新的论文呢，Deepseek其实一直不断在产生。在V3跟R1之前，Deepseek也没做什么铺垫，这不也就突然蹦出来了吗？他是这样去期待这个Deepseek的。

原来讲是8月15号到30号之间要发新版本，最后Deepseek自己出来辟谣说：“对不起，我们发不出来。”英国金融时报出来说，被这个升腾给拖累了。那这消息是怎么传出来的呢？Deepseek原来是有没有说过自己要去发Deepseek R2这件事呢？

首先呢，是Deepseek R1震动了世界，应该是在2025年春节前后的时候，我印象里特别深刻。Deepseek R1出来以后，我还连续做了很多天的直播来跟大家讲这个事情。国际大厂呢，在Deepseek R1的这种搅动之下，纷纷转向。转向什么呢？主攻数学、科学与编程，然后呢是长上下文、工具调用和agent，以及指令依从、降低幻觉。

数学跟科学这块呢实在太难了，这个咱们不擅长，而且那个你真的是需要可能10万块、20万块卡，你才可以把这事搞定，咱们没有。那编程呢基本可用，国内的这些模型做编程，肯定没有Anthropic的Claude 4好用，但是呢也基本上可以跑。长上下文、工具调用和agent这块呢，包括指令依从这一块呢必须要有，这一块其实国内的大模型基本上已经追上了。剩下的呢降低幻觉这事咱们就不谈了，反正有幻觉还是可以甩锅的事情。全面开源，这个是国内大模型真正卷的地方。千问直接把200多b的模型直接就开源出去了，Deepseek 600多b的模型直接开源出去了。这件事情我们在努力的往前走，所以各有所长吧。基础设施这块、数学科学这部分实在是费劲，大家就期待Deepseek来再创辉煌了，其他人就不管了。

Deepseek发R2这件事呢，其实传了两回。一回呢5月份，风起云涌。每一次说Deepseek要出R2的时候呢，都是风起云涌的时候，大家都在上新模型，说呀Deepseek你也得上，所以就会开始给他传这个事儿。

今年5月份，发生了一些什么样的事情呢？首先呢Claude 4、Opensource和sonnet这些模型直接出来了，王炸。5月份开谷歌IO，Gemini 2.5 Pro和Gemini 2.5 Flash直接发布，这个其实现在已经是我的主力模型了。GPT呢当时倒是没有什么特别大的动作，上了一个Deepseek 4.5，但是呢也没有引起特别多的响动。大家就说Deepseek你们也该来了。但其实呢Deepseek没有去出R2，而是把Deepseek R1的模型稍微的小步更新了一点点。

6月26日，the information就做了一个报道，说Deepseek R2原来计划是5月份发布的，但是呢因为梁文峰对于Deepseek R2表现的性能不是很满意，决定推迟了。路透社呢也引用了the information的这个报道，国内的媒体呢也纷纷去引用。但是这件事呢，并没有得到Deepseek官方的回应。Deepseek这个公司就是这样，他基本上不怎么回应大家的这个响动。你们猜吧，猜完了以后我也不理你，除非是有一些太过分的，否则他一般不说什么。

Deepseek呢也不是说没更新，就是做小版本更新。像Deepseek V3出了0324版，也就是2025年3月24号出了一个版，把分数又往上刷了刷。因为每一次去更新这些模型，一定要刷分数上去。代码能力，特别是前端代码能力呢，有所提升。拿这玩意写个网页没什么问题，但你说我要做一些大的架构，或者做一些这种后端的东西，可能就要稍微费劲一点。做算法的东西要费劲一点。为什么？因为它Deepseek有一个问题，就是它的上下文比较短，想去做一些大的架构上的东西，你必须上下文长，你得能把整个代码塞进去才行，这块还是要费点劲的。然后他把中文写作能力做了一些提升，Deepseek其实一直在努力的方向，就是中文推理。因为在海外的这些模型，很多都是使用英文推理，然后再翻译成中文的。他说我们直接用中文推理这个事，是不是OK？他们一直在努力干这件事情。使用体验上呢也有所提升，特别是function call更加准确了。在做AI agent的时候，其实核心就是function call的能力，就是我们先描述一堆的功能，然后交给大模型，大模型在完成整个的语言生成的过程中呢，去根据你描述进来的这些function，去决定我要调哪个、不调哪个，或者如何去调用、什么时候调用。Deepseek V3 0324呢，就在这一块做了一些增强。

Deepseek的R1呢，其实也更新了一个版本，就是0528。大家在传说Deepseek要出R2，讲的其实就是0528的这个版本。而这个版本呢，其把这个分又往前刷了刷，减少生成的一些错误信息。因为Deepseek最大的让大家无法忍受的东西是什么呢？就是胡编乱造，他太喜欢瞎编了。所以在这一块呢，稍微做了一些调整，但是依然胡编乱造的很厉害。Deepseek 210528呢，还支持了Json输出和function coding，提升了调用的准确度，但是呢不能叫R2。这就是5月28号的这个版本。

紧跟着就开始传说了，说8月15号到8月30号，要准备发布Deepseek R2了。这个消息是怎么来的呢？首先肯定还是要风起云涌一下。8月份发生了些什么事情呢？马斯克XAI的GROK4发布了，Anthropic又发布了Claude 4.1 Opensource，OpenAI发布了GPT5。GPT5这东西到底好不好使，大家各自去领会。大家可以认为说，GPT5是一个划时代的产品，但是也可以认为说，GPT5就是山姆奥特曼为了要去忽悠融资去搞的一个事情。因为GPT5出来以后，OpenAI的估值已经正式从3,000亿美金提升到5,000亿美金了，而且是孙正义要去买这个单，说您这5,000亿美金我认了，我去买去。

所以呢8月份风起云涌了。那么空穴来风呢，你这事怪不得别人。在Reddit上有人发了个帖子，这个帖子特别有意思，他说他去问了Deepseek R1：“Deepseek R2什么时候发布？”他等于是把这个东西交给Deepseek R1了。但是大家注意，Deepseek R1这个大模型呢，它并不代表Deepseek这公司的一些官方的观点，只是说这个模型给你生成了这样的一个结果。Deepseek R1回答了：“8月15号到8月30号之间发布。”而且号称呢是引用了雪球和东方财富等可信的信源，而且进行了多个渠道的证实。

Deepseek R1的幻觉其实一直都是很严重的，虽然经过0528的调整以后，但依然很吓人。而且Deepseek R1的最大幻觉是什么？就是编造可信的信源。说我从哪哪引用了，你点进去以后，压根就没有这篇文章。但是甭管怎么说，这个文章就在Reddit上就贴出来了，随后呢这个消息就逐渐的被传播和放大了。国内的很多的媒体、自媒体就开始引用这篇消息，特别呢是华为下边的一些科技媒体进行了转载。而且呢在标题里边还夹带了私货，讲的是什么呢？讲的是深度求索，就是Deepseek这个公司，“升腾芯片版本Deepseek R2预计在本月发布”。它讲的就是说，它是使用升腾芯片来去做训练的。

华为都说了，两大国运级产品强强联合了，那信吧，这事怎么办呢？国内一帮的媒体就冲上去说：“我们信了，确实是有这事了。”到8月14号，英国的金融时报出来报道，说升腾芯片拖累了Deepseek 2。然后动点科技、腾讯科技就出来辟谣，原引自公司内部人士，也就是Deepseek这公司里边的人说了，说8月份不会发布Deepseek R2。所以呢，8月15号到30号之间发布Deepseek R2的一个消息，实际上是Deepseek R1自己编出来的，其他人把这个编的信息信了，直接截了个图发到这个Reddit上，以此来发酵出来的一个过程。

那么Deepseek R2到底遇到了一些什么样的问题呢？首先升腾芯片确实是有问题的。升腾910C的这个芯片，虽然单芯片的算力在部分指标上呢，已经达到了H100的水平，但是呢显存的带宽不够，想从显存里调数据回来，速度是没有H100快的。而且最大的问题是什么？就是多个芯片之间的速度，就是我需要把数据在多个芯片之间进行流通的时候，这个速度是相对来说比较差的，而且差的很远。你要想去做同样的训练的话，你就需要更多的时间全功率的去运转。因为你想，人家都已经达到20万块H100这样的集群的规模再去训练新的模型了，你没准就是需要这个50万块或者60万块升腾910C串在一起，才能达到人家那个算力，而且你需要很长的时间去连续的运作，这个对于升腾910C的这种考验来说就比较大了。

这样的芯片，其实是没有办法长时间稳定地去运行的。并不是说训练一个模型，这头输入进去数据，过三个月去开盖看结果。中间每过一段时间，可以取得阶段性成果，再继续往下训练。但是中间这个过程呢，你是不能停的。你中间比如说准备了一批数据，你去训练了，如果这批数据没有训练完，升腾910C就直接冒烟了，就不干活了，这一波呢就白干了，你必须要从这个节点接着往后干。这个玩意有点像什么？有点像打怪升级，你一定要打死这个妖怪才能存盘，你没打死这个妖怪就不让你存盘。升腾910C在这块差一点。

那为什么差呢？升腾910C呢，是两个910B堆叠在一起的，散热肯定会出问题。就算是上了液冷以后，依然是搞不定这个事情。

其实同样的坑，英伟达也踩过。大家还记得H100独挑大梁好久了吗？很多人应该还是有印象的。甚至呢到现在为止，H100已经成为一种计量单位了。现在我们再去算说：“你这个算力相当于多少英伟达芯片呀？”我们都是以H100的这个算力作为一个计量单位的。就是因为H100挺长时间在那孤独一只。为什么它会孤独一只呢？本来计划替代H100的这个产品叫B100，叫Blackwell黑井100，这个芯片直接就跳票了。研究完了以后开了发布会，开完了以后，这个芯片压根就没有大规模的部署，也没有交付。为什么呢？就是他做的就是这种堆叠技术，导致散热失败。散热失败了以后会直接把版卡烧掉，这压根就没有办法去交付。到H200出来了以后说：“那这咱交付这个呗。”但是一开始依然是受困于散热问题，导致了大规模交付的延迟，一直到今年才开始去交付H200。

后面的工艺呢不断的进步，再加上全面液冷。H100这些机器是可以进行风冷的，你拿风扇吹它是OK的。但是到H200这个机器开始交付的时候，你必须是液冷。而且这种液冷呢，还不是种普通的液冷，叫完全浸泡式液冷。见过这种游戏主机装机视频的这些人，会知道他们那个液冷是怎么做的。他在芯片外面给你涂散热的胶，然后呢把这个液冷管贴上去，靠这个液体呢快速的把你热量带走到外边，再去找风扇把这个水给你吹凉了，再重新循环，它是这样来工作的。但是这种工作方式对于H200来说还是不行的，它必须是全浸泡式的，就是把整个的H200的芯片，或者包括它整个的板卡，一起泡在这个液体里头。这就肯定不是水了嘛，是一些不导电的水，整个泡在里头，才能够达到散热的这个能力。

当然了，甭管是英伟达也好，还是升腾也好，散热都是有问题的，导致什么呢？就是液冷概念股都涨疯了。你只要说我这公司是做液冷的，就赶快涨。而且现在都是浸没式液冷，就把整个板卡都泡里头。A股上强瑞科技、英维克、深林环境、飞龙股份，大概有十来家公司，都是专门做液冷的。飞龙股份是专门给升腾这个384超节点做液冷的。美股那边的话，有一个叫VERTIV的一个公司，它的代码是VRT，是专门给英伟达做液冷的公司，这个公司的股票也是涨的可好了。

讲回来，910C这个芯片连续的做长时间训练的话，液冷也压不住，直接把板卡烧掉。即使是有大量的华为的工程师坐在Deepseek公司里头，出来我帮你调，他也调不过去。实际上这些华为工程师能调什么呢？他们只能调一件事，就是CUDA里头没有实现的部分，我来帮你去实现一下。华为的这个升腾910C，他们使用的训练相关的代码的话，是华为自己开源的一套训练框架。这套框架据说是可以实现CUDA 70%的功能，但是还有30%你是实现不了的。那这一部分由华为的工程师到现场来搞定。再怎么搞，该冒烟、该着火、机器直接停摆，这个事它是解决不了这问题的。

另外一个传闻，DEEPSEEK R2出不来的原因是什么呢？是数据标注的质量跟速度不过关。这个呢也没有得到官方的证实，也是坊间在流传。因为在中国嘛，很多的数据肯定还是需要去审核一下的，这个审核的过程是相对来说比较麻烦的。

而且Deepseek呢，其实一直也是一个比较低调的公司。提前预热，不停的出来吹牛，这件事呢是容易翻车的。山姆奥特曼每次出来讲GPT5，说：“我太震惊了，我从来没见过这么棒的。”等GPT5发布的时候，大家说：“这就能让你震惊了？您到底是眼皮子有多浅？”马斯克在发布GROK4之前，也在说：“这是我所见过的最聪明的大模型。”也有人认为老马吹的有点过头了。

其他的公司都必须不断的发模型，跟着一起卷，不断的来吹牛，这个事是有原因的。为什么？因为这些公司是需要融资的。马斯克发GROK4发完了以后，马上就给XAI去融资。山姆奥特曼GPT5发完了马上融资，这公司直接值到5,000亿美金了，他现在已经是没有上市公司里头最贵的一家了。第二家应该是SpaceX，再往后是3,000多亿的字节跳动。但是大家注意，字节跳动的收入现在好像已经超过Meta了，这个是非常吓人的一个事情。所以这些人他有融资的需求，你就必须得不断的出来炒这个热点。不炒的话，你说我现在想提高估值，融资这事费劲了。而且现在Anthropic也在融资，而且是要按照1,500亿美金的估值要去融资，我估计他们后边的日子不是那么好过，现在他们的CEO应该已经奔中东，找中东土豪去给钱去了。

谷歌呢虽然不需要融资，但它后边有股市、有股价、有市值这些东西，所以呢不能落后，所以谷歌也必须要不停的推陈出新。实在做不出来东西呢，确实哪块也做的不太行，怎么办呢？你还可以像扎克伯格那样，表演抢人大戏这种行为艺术。我发2亿美金的薪水，我把人抢回来。虽然你的Llama4像屎一样，Llama再往后怎么走谁也不知道，但是看到你表演行为艺术表演的这么热闹的话，Meta的股价涨的也还可以。所以大家必须不停地去表演。

但Deepseek自己，他没有这种融资的需求，所以呢也并不太需要出来表演，自己踏踏实实做自己的事就好了。至于说他到底做成什么样，咱们也只能在外边来看。

大家有没有想过这样的一个问题：到底是谁家的芯片能够训练大模型呢？训练跟推理是完全两个不同的概念。训练你是必须要长时间高强度的工作，而且在中间是不允许停的。而且在训练的过程中，我们需要在更多的芯片之间进行数据的调度，更更大规模的这种协同。国内的这些算力服务器都搞不定这件事情，他没有办法说让这么多的芯片相互之间进行协调的情况下，这么长时间稳定的工作下去。推理的话相对来说要简单一些，可能只要几个芯片读出很少的数据来，他就可以把这事干完。比如说我们去提了一个问题，他给我们过了几秒钟做了一个反馈，反馈完了以后呢，他就可以再给我们分配其他芯片了。在这个过程中，芯片出现任何的问题，过热了或者说你对资源进行切换了，它是不影响的。所以呢推理咱们国内的这套系统是可以的，但是训练搞不定。

那么到底谁家的芯片可以做训练？英伟达这个必然是可以的。除了英伟达之外，还有哪些芯片可以进行大规模的这种模型训练呢？你说我这个芯片训练了一个10B的、20B的模型，这不算。或者说你说我这个虽然能够训练，但是我训练的模型从来没有人用过，这个也不算。现在唯一证实了可以进行大规模训练的，而且是训练这种大模型的，还被大家普遍接受和使用的，猜猜是谁？

很多人可能会猜是不是AMD？AMD MI300，或者现在应该是MI三百零几了吧，这样的一个芯片。不是他们。现在唯一的一个能干这个活的人，是谷歌的TPU。Gemini大模型是在上面训练出来的，Anthropic的Claude模型有部分声称是在TPU上训练的。除了英伟达之外就是他们了，再没有第二家了。

那老牌厂商像AMD、英特尔，号称我这个芯片是可以进行大规模的模型训练的，也给出了一些用他们的芯片训练大模型的实例，甚至呢还训练了一些不太流行的小模型拿出来去开源，但是他们训练出来的模型也没人用。AMD跟英特尔呢，一般大概也就是10B或者20B以内的这些小模型。另外一个呢就是富士通，富士通用一款ARM的CPU呢，也训练过一点可能也是10B以内的这种小模型吧，也没有听说过谁去用他们。

其他的一些ASIC芯片呢，也是号称自己能做。所谓ASIC芯片呢叫专用集成电路，像升腾、谷歌TPU呢都属于ASIC。亚马逊、阿里、百度呢，也都号称可以进行训练，但是呢没有实例。亚马逊号称是我拿自己的ASIC芯片呢，做了一些训练，也有几个模型，但是呢谁都没用过。OpenAI的模型，有些据说是在亚马逊上进行训练，但这个事呢，也没有得到最终的证实。百度呢是号称自己设计的ASIC芯片可以去进行训练，但是反正百度自己家的模型烂的跟屎一样，我们就不去评论了。

至于华为的升腾芯片呢，科大讯飞号称是在上面训练的。但是呢也有朋友跟我讲说，科大讯飞其实是在英伟达上训练出来的，只是呢对外宣称是在升腾上训练的，这个我们就不去做考证了。只是科大讯飞的模型，其实也没有那么普遍，除了一些教育领域里头有些人会去用，其他的让你自由选择的时候，很少有人会去选择用科大讯飞的模型。华为呢自己号称是在升腾模型上训练了盘古大模型，但是呢前面被内部的人指责蒸馏、指责抄袭，之后就不再有任何声音了。所以现在华为已经不再提他的盘古大模型这事了，估计是准备装一段时间的死狗以后，再次遥遥领先。所以华为的升腾模型，其实没有证实过训练成功过任何的大模型。Deepseek R2呢，应该是真的尝试过，但是败下阵来。

华为跟Deepseek官方呢，都没有出来证实，就既没有出来说我用了，也没有出来说我没用。所以呢升腾芯片，没有成功的训练出过任何一款大家普遍使用的模型。

那么国内的算力芯片是怎么样去竞争的呢？英伟达大概占54%，就一半多。升腾呢占28%，其实已经占的非常非常多了。像寒武纪等等其他的一些芯片公司的，所有的加在一起，可能还加上AMD的吧，一共占18%。这个大就是国内整个的算力芯片的一个分布情况。

国产的芯片呢，目前来看都是可以去做推理了，但是呢没有哪一个真的跑出来模型过。所以国内的算力芯片，基本上是没有办法做训练的。

现在呢还有一群的“赢学家”在鼓吹英伟达芯片里头有追踪器。但是这些“赢学家”呢，现在有点吹不下去了。他说呀：“这个英伟达的芯片里头，是不是在集装箱里装追踪器了？”还有人说：“是不是在包装箱里装追踪器了？”或者是说：“在服务器里边装追踪器了？”因为他们也知道，在这个芯片里头是装不上的。还有人说：“H20这里头肯定没有追踪器，但是呢H100、B200这个里头有追踪器。”这个呢都想多了。因为中国人是经历过挖矿的，我们是完完全全可以把芯片整个扒下来，重新拿新的版卡去焊。而且大量的，其实做英伟达版卡的公司就在国内，所以我们完全可以拿他的版卡，自己回来去加工这个事情。装追踪器这个事是没用的。

中国官方对于H20的态度呢，也很暧昧。有人就到外交部的新闻发布会上就问：“说你们是不是要准备禁售H20？”外交部的新闻发言人回答是：“没听说过这件事情。”中国的这些官员回答，一般都不会说是或者不是，通常回答是：“请你看以前的表态”，或者“请你看有关部门的表态”，或者说“我不知道”、“没有听说过”。所以他这一次的回答叫“没听说过”。

中国政府呢，也没有明令禁止说我们去销售H20或者谁去买这东西。但是呢潜规则就是这样去运营的。多家媒体，比如说Bloomberg、Marketwatch就做了些报道，说中国的监管部门针对H20芯片表达了强烈的不信任和谨慎态度，尤其是强调相关芯片可能存在后门的风险和数据隐患，建议企业回避在政府或敏感用途使用H20。所以呢这些H20可能最后去做训练就完了，推理的这块就通通交给国内的升腾384超节点就OK了。

还有报道说字节跳动、腾讯、百度等企业被召集，这些人是准备去买H20的。国内的有关部门把你们都召集一块说：“你们为什么要买这东西？买多少？”给他们开这样的会。监管侧重国家安全与网络安全审查，并未提出商业禁令，就是我们还是让你买，但是你买之前呢，我们得把你拎来稍微恶心恶心。所以现在都约谈过了。

总结一下吧。Deepseek R2呢确实是难产了，肯定的没有出来。国内的算力芯片目前呢，也无法进行大规模的模型训练，可以进行推理这个事没问题了，但是训练搞不定。20万块H100量级以上的大模型训练，国内很难突破。如果20万块串在一块可以训练大模型的话，我们可能至少需要40万块或者50万块，比如像升腾910C这样的芯片凑在一起，而且我们所需要消耗的电和时间，可能都是要呈几何级数上升的。因为我们卡之间的联通的速度是相对来说比较慢的。所以比如说H100，它也不是说一直就不坏，它可能工作个20个小时或者是40个小时都会坏一次，会出现问题，对于老外来说就可以去接受了。对于我们来说呢，我们可能要求要连续坚持500个小时不出问题，才能够回收回来数据了，因为算的慢嘛，真的达不到。大概就是这样的一个情况。

国内算力卡的这些供应商呢，很有可能会阻碍中国大模型的进展和训练。为什么呢？自己做不好，你又不让别人买H20，可能中国的大模型再往下一步走，就会变得非常非常困难了。

未来国内算力卡是不是可以训练大模型呢？反正一两年之内呢稍微有一些困难吧。国内的大模型到底能不能用呢？基本还是能跑的。高深的数学、科研研究、物理学或者这些基础学科，我们不去研究了。就是让你去做一些信息整理，现在国内大模型基本上都是可以用的。

还是稍微耐心地等待一下Deepseek的慢慢发展吧，它反正中间只要不需要融资，它也不需要出来吆喝，万一有惊喜呢？这个也不好说。这就是我们今天要讲的故事。

杭州六小龙谁能一飞冲天？群核科技冲刺上市，AR家居设计SaaS平台是利器还是最后救命稻草？

Luke Fan — Tue, 18 Feb 2025 00:41:31 +0000

杭州六小龙里边，已经有人要去上市了。大家好，欢迎收听老范讲故事的YouTube频道。咱们今天来讲一讲，最近正热的杭州六小龙里边，已经有一家公司要上市了。这个公司呢，叫做杭州群核科技。现在呢，他已经正式向香港提交了上市申请。

上市这个东西，首先你要去申请，申请通过了以后才能够上市。申请提交了，最后能不能上去还不好说。那你说还没能上的，你怎么就上来说了呢？大家注意，提交申请后边这个过程是很贵的，所以，没有特别大把握的人，也不会随随便便去提交申请。通常提交申请离上市就已经很近了。

那么这个杭州群核科技呢，是杭州六小龙中的一个。咱们现在所说的杭州六小龙，第一个是深度求索，也就是做Deepseak这个公司。第二个是游戏科学，做黑神话悟空的这个公司。然后宇数科技，在春晚上转手绢机器人的那个。然后强脑科技，这个呢，是智能仿生手，点燃了杭州亚残运会圣火，在脑机接口领域与Nerolink并肩，在国际医学和科技领域引起关注。第五个呢，叫云深处科技，他们做什么呢？觉影系列机器人，在复杂地形作业展示出强大性能，在国际上有一定的知名度。第五个也是一个做机器人的。第六个，就是今天我们要讲这个，叫群核科技。

群核科技到底是干嘛的呢？看一下这名字，群核很多个核心，它的英文叫Many core，就是多个核心技术有限公司。那你说叫核心，这公司是不是做芯片的呀？听这名字有点像，但是咱别瞎猜了，看看人家自己怎么说的。人家说了，我们做空间智能，支撑巨深智能的，是给巨深智能做一些底层支撑。AR，AR的空间认知能力训练，和英伟达的ISACSM这个系统，就是英伟达机器人仿真训练平台对接。看着是不是不明觉厉？是不是感觉跟李飞飞在搞的这个东西有些像？就是物理世界，3D空间里面的一些大模型训练，是不是这个方向的？咱们说人话，这公司到底干嘛的？

大家要注意，上市这件事，并不是什么高大上的事情。很多人都觉得上市很厉害，但是上市不是的。

如果可以高速发展，谁都不会选择上市的。为什么？因为高速发展的时候，你是不能够受到很多制约的。符合这么多规范，还继续保持高速发展，这事是不行的。一旦上市了，你就需要接受各种审计，就没有办法继续去按照超越规则的方式去发展下去了。我记得在电影《让子弹飞》里头有这么一句话：“好人谁写日记？写日记的能是好人吗？”就是这个意思。所以上市呢，通常是企业失去高速发展能力之后，最后的一次收割，至少在中国是这样的。而在国外，跟这个还是不太一样的，有机会咱们再去细细分说。

那么这个公司核心是干嘛的？它叫云设计软件系统，涵盖了全球200多个国家和地区，拥有超过5,100万注册用户。这个看着也行哈，到底干嘛的呢？他做这个东西叫酷家乐，酷炫的酷，家庭的家，快乐的乐。这仨字，那这个东西干嘛呢？实际上是线上家居设计SaaS系统。说白了，我现在有一套新房子，或者说我重新搬家了，我想设计一下，我就可以在网站上，在他的这个酷家乐系统里边，先把家里头的这个图纸扔上去。然后呢说，哎我这是个沙发，那是个桌子，哪个地方是装什么样的墙，什么样的这个地面，怎么样的窗帘，怎么样的灯。完了以后你给我出渲染图。个人上去的话是有一定的免费额度，你就可以直接去用。主要呢是收取装修公司的订阅费，大概90%多的收入都是来自于装修企业付的这个订阅费。就是我是个装修公司，客户上我这来装修来了，我就用这个酷家乐系统给人设计好，出好图片来。然后客户看完了以后，说，哎我很喜欢，就让你们去装修去吧。大概就干这个事。

怎么感觉一下就脚踏实地了呢，对不对？是不是有点太踏实了一点点？这个跟杭州六小龙好像有一点点小差距。人家是做Deepseak，做这个黑神话悟空，做机器人，做脑机接口的。怎么到你这，就一下变成了一个家装设计的出图工具了呢？杭州六小龙这样的江湖名号，到底是怎么来的？有没有想过这个问题？什么AI六小虎，杭州六小龙，这种东西怎么来的？

我记得看《神雕侠侣》看到最后的时候，有一段华山论剑。原来什么东邪西毒，这些东西都是华山论剑论出来的。他们又跑回去，结果发现一帮完全不知所云的人，自己在那也要华山论剑，也要去评一些这样的名号出来。然后这帮人就觉得非常非常可笑。这个呢，咱们倒也不至于如此来去说杭州六小龙、什么AI六小虎这个事情。但是呢，民众肯定还是需要一些简单的符号来强调某些认知的。就是你这个东西，帮助民众建立某种认知，是有帮助的。

现代的传播网络呢，其实有点像渔网袜。这个话不是我说的，这个话是罗振宇有一次讲的。他讲什么呢？说没有秘密可言，像渔网袜嘛，你想把这个东西拦住是拦不住的，漏的跟筛子一样。但是呢，也没有办法通过大块的信息，都是零碎信息。渔网袜，渔网袜，他肯定还是有很多眼的吧。但是你说我一整块腿，我是整个出不去的。也没有什么最新完整、绝对正确的信息可以被传递。就是你经过了渔网袜以后，你肯定看到的东西还是有变形的哈。这个就是现代传播网络的一个特点，都是故事。

我在我整个频道开宗明义的那条，就开始第一条的时候，我就讲过为什么频道叫“老翻讲故事”。原因就是我不能保证我给出的信息是最新完整绝对正确的，所以大家当故事听就完了。这个讲的远一点，华山论剑了以后，这些什么杭州六小龙、AI六小虎这个东西，主要目的是为了让民众加强认识。那么利用好这种传播特性，各种什么六小龙、六小虎就会应运而生。

大家注意在这个里边呢，第一名跟第二名其实并不想来凑这个热闹。你说我都是第一了，我为什么要跟你们去折腾这个事？那总有好事者说，来，咱们还是拉一下吧。光有你一个形之影单，你也没有什么力量。一看有6个，感觉周围兄弟很多，跟那个上来说谁敢打我，一帮人站起来来说谁敢打我们俩，这个力量就变得强一些。而且数字呢，也是一个很神奇的东西。你比如说四个、五个、六个，包括八个，都是很好的数字。为什么？太少了大家蹭不着。你比如说我最后说杭州。

二小龙、三小龙这样的东西呢，第一个，这个竞争太激烈。第二个呢，这个上去的可能都很厉害，其他人蹭不上这个东西，这个就没有意思了。如果太多了，比如杭州20龙，他这个就不值钱了。所以什么六个呀、八个呀，这都是很好的数字。

那么六小虎里头对谁最有好处？大家注意，原来有一个名字叫孙山，这个人是谁呢？就是说如果你考上进士了，你在孙山前面，他是最后一名；如果你没考上呢，叫名落孙山，后边的就是没考上。那么排这个什么六小龙、六小虎的，最好的这个人，就是得利益最大的这个人，就是这个孙山。他们呢叫做幸列末席，就是有幸正好在最后一位。那么对于一个要上市、收割最后一轮的公司来说，能够幸列末席，这肯定是有巨大的价值。并不是说这家公司就不够好，这家公司肯定还是有一定的这个能力的，否则你也排不上吧。

但是呢，这种排排坐的事情，各家的位置本身并不是一个线性分布的。你比如说第一名DeepSeek，然后第二名假设是这个游戏科学，那第三名假设宇数科技。那么这个里头到底谁高谁低，他们之间这个差异是不是都是等差数列，或者什么都是这样排开的？这个其实谁也没有说这个事对吧，也没有规定说他们必须是按照名次来去排队。很多企业之间呢，你也没有办法进行非常精确的排序，到底谁比谁高一点，谁比谁低一点，这事是没办法的。

那前面几个呢确实是很牛，游戏科学、深度求索、宇数，确实还是比较厉害的。但是后边的这么一两个的话，他们跟前面之间到底有什么样的关联，说不清楚。是不是其他企业比他们更适合这个位置，也不知道。你说你是到底应该是第六，还是应该是第七，是不是有人比你更适合第六，这个事呢也没有办法去细纠结。是不是只能六小龙，不能是五小龙或者是七小龙呢？不知道。第六个跟第七名往后的这个企业，有没有明显的差异？很多的时候，我们排一个什么什么六小龙的时候，那么通常是这六个在前面，到第七之间呢，会有一个这种断崖式的差异，或者这种下跌。但这个事呢我们也不知道。

所以呢，最后这一名放在这里了。他要去上市了，他不一定是最后一名，因为最后几名其实大家都不太好排名次。那么，请韭菜们注意，作为韭菜的自我修养，说回这家群核科技。他近几年的业绩呢，很稳，每年呢都稍微有一点点上升，但是呢，不多，绝对达不到互联网企业这种高速增长的标准。因为他做这个事情，就是一个SaaS平台，大家上我这来去提交设计稿，然后出渲染图，就干这么一个事。每年呢，都还亏损，这个扭亏的趋势呢也并不明显，每年亏，每年亏。

这个行业未来到底怎么样？那你说我现在认了，这个你既然在杭州，杭州六孝龙之一，甭管你到底排第几吧。那么，如果未来有发展方向那也行。你想想，什么人需要装修？什么时候需要装修？现在房地产景气吗？未来的房地产会景气吗？现在各个大学里边，那些建筑系、土木系招得到学生吗？这一个卖装修SaaS的公司，到底能不能未来借着房地产的东风再起来？这个事大家自己心里有数。所以呢，他们只能够通过上市，求得最后的一根救命稻草，我再融一笔钱进来，然后我又可以活一段时间，没准就可以度过周期了，我又可以等待春天了。这个是他们现在在干的事情。

那你说人家不还AIGC呢吗？还有空间智能、巨身智能，这些故事到底怎么回事呢？上市公司呢，主要是要看未来几年的发展，要看故事。这个事决定事实，你今天挣多少钱，昨天挣多少钱，这个事呢并没有那么重要。那你说这故事怎么样？这故事很好，没有任何问题。具身智能进入家庭的时候，也就是说机器人进我们家的时候，他需要什么呢？他肯定需要家庭装修的3D设计数据，这个事是没有任何问题的。那么这家公司呢，其实拥有很多的这种数据，因为谁家去装修，你只要挂在他那个平台上去装修的话，你肯定是要把你的平面图上上去，装修好了以后，你的立体图什么都在上的，要不然他没法做渲染吧。这个是他已经有的东西，只是呢，一个利用英伟达显卡光锥技术做家居渲染的公司，距离训练空间大模型还差那么一点点。

这一点点到底是什么？首先，看他有什么？他有的是数据。缺什么？缺人、缺钱、缺时间，他全缺，而且现在还每年在亏钱。你现在再给他融一笔钱，以后他到底能不能自己把这事搞定？这个呢，其实还是有很大难度的。

那么，他可以向Reddit去学习。Reddit怎么玩的呢？我直接卖数据吧，我也不自己去训练自己的模型了，我直接把这数据卖了不就完了吗？这个里头有一个很严重的问题是什么？就是隐私问题。我们各间的装修数据，每间自己的装修数据，你自己家装成什么样的，你家里头这个藏私房钱的地方在哪，你们家里头厕所用的谁家的马桶，你们家的这个橱柜到底有多高，是他把这些数据都留在手里头了。那如果拿这些数据去训练空间智能大模型的话，这个你乐意吗？他是还有一些这样的问题需要解决。

当然了，有这种叫做隐私问题呢，也可以帮助群核科技在最终的成果中拥有更大的话语权。他说，哎，这个数据是隐私的，我不能把它给你，咱们看看怎么合作一下，让他们在里头有更大的这个砝码吧。只是要看他们最终能不能活到他手里这些数据产生效益的时候。

说了半天，这股票到底要不要炒一下呢？首先，现在这个股票还没有上市，只是交表了，只提交申请我要去上市了，可能到最后上市还是需要个几个月的时间呢。如果上市了，请大家拿出镜子来照一照，如果你觉得从镜子里看自己比别人都聪明的话，那就跟着感觉走呗。反正咱们这个频道讲故事讲热闹，咱们并不是做具体的投资意见和建议，大家听个开心就可以了。

好，这一期就跟大家讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

深度求索满血版DeepSeek全攻略｜教你快速上手火山方舟与Cherry Studio部署方法，没有搜索的DeepSeek，不是完整的DeepSeek。

Luke Fan — Sun, 16 Feb 2025 00:41:12 +0000

真正满血版的DeepSeek到底应该怎么用？在官网基本趴菜的情况下，我们是不是还可以使用到真正满血版的DeepSeek？有什么简单一点的方式可以让普通人用吗？这就是今天要讲的事情。

大家好，欢迎收听老范讲故事的YouTube频道。今天我们会先介绍一下什么是满血版DeepSeek，为什么要放弃本地部署，以及官网现状替代方案。今天的替代方案是火山方舟平台的替代方案。这个是字节跳动下面的，这个是目前为止相对来说比较均衡的一个方案。为什么？你比如像硅基流动，配置是相对来说比较简单的，但是实在是很慢。你使用的时候非常的不流畅，而且经常没有办法得到完整的答案。所以我现在基本上放弃了硅基流动这个平台，现在主要是使用方舟平台。方舟平台跟其他的像什么阿里云、腾讯云比起来，虽然都是云计算平台，但是配置起来相对还没有那么复杂。因为越是云计算平台的配置越麻烦。

讲完了这个方舟平台之后，我们要讲一下Cherry Studio啊。这个是目前普通人可以使用的比较简单的AI辅助工具。因为现在绝大部分的AI辅助工具都是网页。你让一个没有学过电脑的人去部署网页，去部署一个网站，还是挺麻烦的。有这个客户端，Cherry Studio就是Windows和Mac OS的一个客户端，下载下来就直接可以用。这个要相对来说简单很多。

好，这就是我们今天大概要去讲的东西。首先，什么是满血版的DeepSeek？DeepSeek直接使用的版本是两个，一个是V3版本，一个是R1版本。V3其实就是一个语言模型，671B的这个参数就是6,710亿参数。这是一个非常大的一个模型。R1呢，满血的应该也是671B，它是做推理用的一个模型。大家记住这两个就行了。我们要用满血版就一定要用这两个。那你说，很多平台都有满血版的DeepSeek出来，甭管是BAT也好，还是各大运营商也好，都有。那这个有什么区别？

他们是不是真满血版？我告诉大家，还不算。那你说还缺什么？还缺一个很重要的东西，就是联网要搜索。你不联网搜索，你光有俩模型，你只能等着他一本正经地跟你胡说八道了。所以我们所要的完学版的DeepSeek，是DeepSeek V3和DeepSeek R1，671B的，加上联网搜索功能，这个才是我们所需要的。

我们今天就来教大家怎么去部署这个东西。那么为什么要去放弃本地部署？你如果想在本地把满血版的DeepSeek跑起来，基本上那个服务器上百万了，可能100万都搞不定，两三百万那个服务器能跑起来。而且这种服务器甭管是噪音还是耗电，都不是普通家庭或者是普通办公室可以忍受的。所以咱们就不要再去尝试本地部署了。任何人告诉你本地部署这东西，就直接跳过就好了。所有本地部署的DeepSeek，也就是最大32B，再往大了可能70B的有，但是效果都非常差，所以完完全全的不考虑。

官网现在算力是什么样？这个基本上不可用。你上去以后，可能问一个问题，或者问两个问题就给你踢出来了。虽然很多人都号称在接这个东西，一堆公司，BAT三大运营商，刚才我们讲的字节跳动、硅基流动、华为，什么全都在接。但是接的目的是什么？自己赚钱。从来没有谁说我接了DeepSeek以后，我去给深度求索公司贡献算力的，一个都没有。所以到现在为止，深度求索公司依然是卡顿的一塌糊涂。你进去问了一两个问题以后，直接给你踢出来，还是这样的一个情况。

那么接入的意义就是，大家可以在不同的平台上选择DeepSeek的模型进行工作了。但是这个事跟深度求索，就是DeepSeek这公司，其实没有什么关系。替代方案除了官网之外，还有谁干了？比如说轨迹流动、火山方舟、百度、腾讯、阿里三大运营商，这个包括华为，基本上你只要想得到的，跟云计算相关的这些平台，他们都部署上去了。而且，今天DeepSeek官方出了一个x的推文，上面写了。

说你们每一家儿部署的这个开源版 DeepSeek 完全版的，跟我在自己的服务器上部署的，是完全一样的，没有任何差别。打开去用就好了。

今天，我们主要是跟大家介绍火山方舟平台。它作为一个云计算平台，它的设置还是要相对复杂一些的，所以待会我会带着大家去做一下设置。整个的过程，我现在讲一下。

上面画着一个蓝色的山的，这个就是火山方舟。它的火山引擎其实是字节跳动下边的，所有跟云计算相关的都在这，包括什么数据分析，或者是什么数据存储。方舟是什么？这个方舟，是火山引擎里面的一个子模块。这个模块就是各种大模型相关的事情，叫方舟。

我们下面到这个火山方舟，点进去就长这样。我们就需要去注册了。啊，这个下面很复杂，反正云计算东西很多。我一般情况下，如果非必要，是不会在云计算的平台上，去选择模型来用的，因为设置起来太麻烦。这个还算是能跑的。

好，登录进来以后，下头这一大堆的我们也不用去管他。这告诉你各种模型什么，这跟我们都没关系。我们只到这点，这个叫控制台，最右上角，点进来以后，你们正常进来，这应该是空的，不会有火山方舟，因为我是已经开始用这个平台了，所以这有一个叫火山方舟。这边告诉你，这个是老范讲故事，已经实名认证了。这个是必须要实名认证的，这个没有办法，只要在国内使用，所有云计算平台都要实名认证。没有绑定邮箱，大概也就是这样。我还充了5块钱进去。

好，如果你说我这没有怎么办？没有火山方舟，把这个三个小横线，把鼠标挪到这个三个小横线这，他就出来了。以后你看，有云服务器，GPU云服务器，弹性裸金属，这都有。这跟我们没关系。数据库什么的，这都跟我们没关系。网络也不用管它。存储安全，这个容器我们这都不是我们需要的。我们需要的是哪去了？视频云，哇，这东西多去了。方舟这热门产品。

方舟扣子专业版云服务器、云对象存储、域名服务，我们需要的是这个。点一下就进来了，这就是模型广场。你可以用哪些模型？这个模型里，你看自己家的豆包1.5，有Vision的，一般是可以进行视觉判断的，你可以去做图片识别。这个是有Vision的。后边这个32K的，意思就是说你输入的内容最大就是32K。然后这个是相对比较新的，这个豆包1.5 Pro 256K，这个还是不错的。这就是我们的DeepSeek R1，你看，写着671B满血版，上次专门写着满血版，限时折扣。我们现在开始用这玩意不要钱。DeepSeek V3，这个上头也写着是满血的，这个也是671币的。

下一件事，干嘛我们要去开通管理？这个是使用云计算的时候，比较讨厌的一点。这个现在看，我是因为进来还没用，所以我只开通了两个，剩下的我们没有开通。比如说这个豆包的这些模型，这个我们都没有去开通。我现在是把这个DeepSeek R1开通了，DeepSeek V3已开通。这个一旦开通了以后，它不让你关，所以没法给大家显示一开始的样子。然在这个折扣使完之前，现在是每个人给了50万TOKEN跟去用。折扣使完以后，这个折扣价格是每次输入1,000个TOKEN，应该是0.001，实际上也就是100万TOKEN是一块钱，大概就是这样。如果是R1的，100万TOKEN是两块钱，输出100万TOKEN，这个是8块，这个是4块大概，这么来看就可以了。这就是它的价格。

好，首先要去点，打开开通服务。我们再去开一个别的，比如说开一个Pro 256K，这个我是比较喜欢的。你点这个开通的时候，他就说我们会进入到一个开通的页面。因为云计算嘛，你现在还要去选择，你是在哪个地方开通，他应该都在北京，反正都开开，同意，立即开通，创建了一大堆啊，回控制台去。这些我实际上都已经开开了，这个除了Embedding的没开，其他的我都把它打开了。这就是这一步。

叫开通。开通了以后，要去创建我们的接入点。你就创建一个新接入点，先给它起个名字，比如说ABC。这个名字随便起，描述不描述其实没什么关系了。添加模型，你可以在这去接DeepSeek模型，DeepSeek-R1模型，用这个OK。它是允许你去反复创建的。为什么可以反复创建？因为走不同的预算。这个创建接入点的主要目的是为了控制预算的啊。确认接入，我等于又创建了一个叫ABC的接入点。最后用的时候，实际上主要用的是这个key，大家要注意。

那么好了，我们现在有一个test1，一个test2。这个名字有点怪，改一下，编辑一下，我们叫做DS-V3。对，这个才稍微的好听一点。这个改成叫DS-R1，编辑这个叫DS-R1，保存。

那么Cherry Studio这个设置就相对来说简单一些。它反正我们到网站上去把它下载下来，这个下载完了，就是个本地应用，打开用就好了。这个并没有那么复杂，要相对来说比其他的这种什么大模型、聊天工具都要简单的多。那么下载配置这个模型，我们在这里添加火山相关的模型就可以了。

这个到目前为止，我们先去添加DeepSeek R1，DeepSeek-V3是Cherry Studio的这个页面。这个大家注意它的网址，这里https://cherry-ai.com。到这个网址上去，当然你也可以搜索Cherry Studio，这个是没问题的。但为什么要告诉大家网址？因为有人仿冒他们家网站，有人去做假的网站去骗人，所以还是把这个网址写出来。那么下载就好了。他下载的时候，我们有这个网盘，百度网盘，夸克网盘，123网盘都可以下载。有Linux版，Mac版和这个Windows版也都是存在的。啊，这个就是我们的Cherry Studio啊。

Cherry Studio正常的配置是什么样？进来大概长得就是这个样，你就可以去用它了。把这个页面清空。

这就是我们的正常的Cherry Studio。在这里有一个齿轮，这个在最下面有一个齿轮的图标，点一下设置。设置的时候我们要去找，这就是各种各样的大模型的设置的地方。我们要去找这个火山，长得还是这个蓝色的山这个样子。在设置火山的时候，我们要的第一个是什么？我们的API key是什么？这个API Key上哪找？火山控制台，到方舟。对我们在这里创建，拷贝一个API Key就可以了。做好了之后，把这个key填进去。这个地址，一般我们用这个默认就可以了，在北京的这个地址就可以了。好，检查一下。

先要添加模型，这个就要比较麻烦了。说这儿有一个，大家注意下，这儿有一个开关，把它打开，我就可以来使用这个模型了。那么我下一件事要添加第一个，大家注意模型的ID是模型的名称，是模型的分组名称。我们来，好我们的刚刚在在线推理这，好我们在这去设置。比如说我现在需要DeepSeek V3，先把这ID抄下来，复制。大家注意，需要抄这个东西的时候，一般计算机设计，他会在后边画两个小方块，这个就是复制的意思，点一下就复制成功了。这个复制好了以后，我们把它去贴出来。这里贴完了以后，他后边都给默认填上了啊，我们要自己去改。这个是V3，这个是DeepSeek V3，我们可以自己在这写这个名字，V3，这个叫DeepSeek。因为这个火山引擎里有很多的模型，有豆包自己加的，有DeepSeek的，还有kimi的，都有，所以它最好让你去加一个分组。这个我们要检查一下，好确定连接成功。再加，再添加，把这个R1的也抄下来，DeepSeek-R1。你不用抄我这个数，你拿了我这个数是没用的，自己去申请添加。好，这就有了以后，我们可以去试一下。他有一个默认的助手，选一下，因为我设的比较多，哪去了？这，刚才我们设的DeepSeek R1，我们来试一下，1+1为什么等于2，推理，推理，人就推理去了，大家已经看到了。

他是在很努力地在思考这个问题。想明白了，零是自然数的。我天，我我，我也没想到1+1等于为什么等于2，会写出这么啰里八嗦的一堆东西出来。好吧，我们就推理模型已经成功了，我们的V3模型也是没问题的。你好啊，今天天气怎么样？这是V3模型。根据资料，这个是这个，大家注意啊，什么，这个是错的，为什么？因为他没有联网搜索，这个是完全给你瞎编的，这就叫一本正经的胡说八道了。这个同时什么山西五台山，这个都是扯淡的，我不用理他。好，我这个是，我们就可以把它清空了。好，下一件事，我们去做联网挂载。所谓联网什么意思？就是搜索，添加搜索功能。离开搜索以后，大模型只会干一件事，叫一本正经的胡说八道。那么火山引擎呢？这个地方有一个优势，他除了有模型之外，实际上还可以创建，这个叫聊天机器人应用。我们现在去创建一个聊天机器人应用。搜索这个事是要收钱的。你说我使谷歌搜索不收钱，使百度搜索不收钱，对人家还给你打广告，你等于看了广告，是靠看广告的，等于是让人挣着钱了，所以他不找你收钱。但是我们直接使用搜索都是要收钱的。那么我去充个5块钱，咱们就可以使用搜索了。好，下面我们要处理联网的问题了。我已经充了5块钱，你不充钱，好像是不让你使了。对，火山方舟引擎，点进来了，大家注意，这个点进来以后，他默认的是叫模型广场，看的是各家模型。模型广场下头还有一行字，大家注意看，最左侧叫应用广场，还有好多应用。我们现在使用这个DeepSeek联网搜索版，这个是我们要用的。点进来以后你就可以去搜索了，北京天气怎么样？走，他现在搜索去了，还思考北京天气怎么样，这个找到了，10个网页，如何如何的，干活去了。这个时间点，找到了，最后总结一下，北京的天气是如何如何的，这个就不再是一本正经的胡说八道了。啊，这个就是适时地去进行了搜索。好，我们要干嘛？复制，复制了，等于这个应用就从原来人家那个模板，变成了我们自己平台上的一个应用了。复制了以后。

这有一个要联网搜索，你要点这个。现在我是一点就点开了，你们一般进来以后点是点不开。这个“on”联网内容插件，这个你点不开，为什么？他有一个地方需要授权，你要授权我去使用。所有的云计算平台都是这样的，只要涉及花钱了，他就要求你是授权。你授权的时候，他要跳转到允许他花钱的这个页面去，这个要注意。你充5块钱，充个几块钱，他就让你用1,000次搜索，是6块钱，我印象里是这样的。这个搜索10条，你说我一次要5条行不行？还是一次要10条？多搜几条都可以。下头还有一些东西，是可以进行一些设置的。

好，这个搜索完了以后，知识库干嘛？你还可以再挂一些RAG的本地知识库进来，这个我们就不管他了。下面都是默认的，都不动他了。那么这里我们要去使用推理的接入点，这个我们使用DeepSeek R1，刚才我们创建好的DeepSeek R1的接入点。这个花钱的这部分是从他这花的，大家注意，跟云计算相关的，所有跟花钱有关的事情，都是需要单独去处理的。这好设好了再往后发布，发布出去了。大家注意这号，复制，这个地方是待会我们要去使用的这个号了。

好，我们下一步干嘛？到这个Cherry Studio里边儿去，把它挂上去。我们不能在这儿使，大家注意这个地方是什么？这个地方是火山引擎云后台的一个设置的平台，这是一个后台网站，所以我们平时使用的时候不在这使。我们下一步创建好了以后，我们把搜索的这个应用，它实际上是个聊天机器人，是个BOT，我们再把这个BOT再重新挂载到Cherry Studio上去，我们就可以正式的在Cherry Studio上有一个完整的带着搜索的一个项目了，我就可以在这干活了。

齿轮，大家注意，我们现在要新加的，不要在这个火山引擎里边去加，不要在这去加。你说我在这加一新模型行不行？不要，我们在这重新加一个新的，比如说模型提供商，我们就选Open AI就可以了，比如说我们管它叫豆包。

bot，这个我们起了这样的一个名字。哎，这个名字怎么这么怪？编辑好API Key哪去找去？这个火山引擎的API Key，然后这个是什么呢？这个是地址，这个地址要填什么？这个地方呢，要稍微的注意一点。点了上面前面这一节，就是到V3这一节，都是火山引擎的。这个地址跟这个，我们前面去做火山方舟引擎是一样的。这ark是方舟嘛，ark.cn-beijing，然后是火山.com API V3，走到这儿都是一样的。然后后边儿这个叫bots，就是所有我们创建的应用，它这个地址后边儿会多这样一截儿。然后我们来添加，添加什么呢？这个刚才我们看了，就是我们去创建这个DeepSeek R1搜索的时候，他给了我们一个ID，刚才我们把它抄下来，比如说模型名叫DeepSeek-R1-Search，这个比如说是search。好，添加，测试一下，有点慢，连接成功了。好，那么连接成功了，我们就这个，到这。好，默认助手，我们就可以选了，DeepSeek R1 search，比如说天津未来几天的天气怎么样？为什么问天气？因为这东西必须实时搜索。有错误，模型不存在，或者是要求的路径错误。那我们来研究一下，这又出什么毛病了？这，刚才把这个斜线删了。好，你看搜索去了。好的，我去根据用户要求，去搜索天津的天气怎么样了。2月15号是15:08，去查了一下。综上所述，这都还是在思考部分，把思考的部分关掉，思考了22秒。这是今天的，明天的，后天的，每天都算一下。未来一周整体气温偏低，如何如何说。这个就是我们可以有了，满血版的DeepSeek R1加上搜索。还有一个比较方便的小工具，叫Cherry Studio，大家就可以去用下来了。但是注意，用的时候，这个DeepSeek本身是要付钱的，但是这个钱是一开始送了，我记得是刚才50万TOKEN，大概是这样。搜索一次应该是1,000次6块钱，一次应该是0.6分钱，大概是这样的一个价格。

好，这就是我们今天的内容。稍微总结一下：首先，什么是满血版的DeepSeek啊？V3跟R1的671B，不要惦记去做什么本地部署，真不是一般人玩得动的。你说我这个公司很大，这个单位非常大，我一定要自己弄。呃，你先想一想你有没有机房，这个机房里头装个几百万的服务器，甚至你可能跟他配合的服务器加一块，没准上千万了。呃，值不值当？你说我真的值当，我一定要干这个事，哈，那也行，这个没有问题。

选择平台，为什么选择火山方舟平台？因为速度快，第二个，配置起来在云计算里边算简单的。所有云计算平台配置这玩意都麻烦，在这个Cherry Studio上，让我们能够把它跑起来，再把我们的搜索配置进去。这就是我们今天讲的内容。

感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

深度求索背后的创新力量︱隐士天才如何重塑中国AI未来？揭露神秘Deepseek模式！

Luke Fan — Tue, 07 Jan 2025 13:28:37 +0000

深度求索的创新模式可以复制吗？既然他能做出来，而且也让美国人愿意接受我们的这种智慧，这个事是不是可以再来一次？这个事能复制吗？

首先呢，咱们要从幻方量化开始讲起。幻方量化呢，我其实跟他还稍微打过一点点交道。我自己个人的经历是，2009年到2012年之间，就职于盛大创新院。后来大概到11年、12年这两年呢，就开始分拆，分了很多的这个子院。其中有一个院呢叫多媒体院，多媒体院的院长呢叫陆坚。他呢是浙大的本科，后来到美国去读的博士，然后去了苹果公司。就是如果你现在用Final Cut，用QuickTime，这些东西就是他写的。后来呢，他在我们那里当了两年的院长，离开盛大创新院以后呢，是LinkedIn中国的总经理，现在应该已经进入半退休状态了。

他呢是浙大的，浙大呢其实在杭州，培养了大量的图形图像相关的这种人才。当时呢，做媒体院的时候，陆坚就带进了一大批浙大的学生，做各种的图形图像处理的事情。在15年还是16年的时候，有一次跑去杭州，找很多原来盛大的老同事去吃饭，因为好多人去阿里了嘛。吃饭的时候呢，就有一位老同事约了我，说你来了我也吃个饭呗。这位老同事呢就跟我讲，说咱们做个量化交易，说我们现在干这个事。但当时他们这种量化交易呢，还是私下里边做，自己有一些钱在做一些，挣一些小钱，并没有公开对外去募资。

我印象里是在18年、19年的时候，他们就开始公开的亮相，说哎，我们开始做AI选股了，用AI来进行交易决策了。这个公司实际上就是幻方量化。幻方量化里头最大的那个创始人，就是占85%股份的那个创始人，我没见过，但下边有一个占7.5%的，这个创始人是我以前的同事。他们呢是从私下里头几个人去做，逐渐正规化，开始向外销售产品，实际上也就是募资嘛。

他整个的幻方量化的团队呢，也是由一群浙大的算法天才凑一块干。幻方量化的发展呢，他算是中国首支达到1,000亿规模的量化基金，早期的业绩还是相当不错的。

有几只产品达到了400%的收益率，就是你给他一块钱，最后出四块钱出来，这个还是非常非常不错的。到2024年的日子就没有那么好过了，因为幻方量化里头有很多的这种基金，或者有很多的产品，是以中小盘股为基础方案的。因为你做大盘股，你是做不动的嘛，只有在中小盘股里边去做涨做跌，你才有这种盈利的机会。

所以呢，他们到2024年的有几只产品有10%的收益，但是呢，也有几只产品是以中小盘股为基础的，就直接亏掉了，大概亏了5%到6%左右的吧。我觉得以中小盘股的2024年A股的一个状态，只亏这一点点，他们已经很努力了。

现在呢，幻方量化已经不是国内最大的这种量化基金了，现在国内最大的量化基金都是玩大盘股的，就是已经是跟这个国家要一起往前走的这些基金，他们才可以长得更大一些。现在幻方量化下的应该有几只500亿或者几百亿这样的产品还在跑着，没有任何问题。

幻方量化下面的这个老大对整个的这个技术非常非常感兴趣的，2023年成立了叫深度求索的这样的一个新公司。他们这个公司呢，没有什么资金的压力，因为幻方就是投资方。这帮炒股票的人，做过量化交易的人，手里反正有的是现金，说我们投入就完事了，你也不用再去出去找钱了，也没有短期内的盈利目标。我也不是说做到哪天必须要挣到多少钱，也不需要出去跟人家显摆。

因为很多的创业公司，你不断的要拿出业绩出来，是为了融下一轮的钱，他们没有这个压力，说我们就是为了爱好，为了梦想，为了荣誉，去干一点自己喜欢的事情吧，就是这么一行的一帮人。所以呢，他们只做基础研究。那种既要又要不可取，什么叫既要又要呢？就是我又要做大模型，我又要去做行业应用，我又要去做ToC的产品。国内其实有几家公司是这么干的，但是对于这个深度求索，就是Deepseek这个公司来说，他们就做大模型，其他啥也不管，做开源，也没有ToC的产品。他们倒是有一些ToB的产品，北京有一个深度求索的公司。

是在去接一些ToB的这种集成单子，还是在做的？然后大模型开源了以后，开放API，大家就上那上面去用就完了，而且很便宜。他们呢是不做APP的，坚决不做APP。目前呢也没有多模态，未来应该会做，所以是一个很单纯的公司。咱们对比一下其他的公司，既要又要，比如说李开复的零一万物，一开始做开源，然后呢说不，这个开源不挣钱，我们要去做ToB系统集成去。说这个ToB系统集成，好像打不过别人，很简单，你一个台湾人，在中国现在这样的一个状态下，你想去接一些政府单，多费劲，这个就没法整。

说那咱们去做ToC吧，做了一个叫万知，一万两万的万，知识的知，做了这么一个产品。这种东西呢，你又没有流量，你跟这个豆包打，你根本打不过人家。别说他了，什么通义千问、文新一言、文小言，这些东西都打不过豆包，因为人家有流量，你没有。后面的开源也懒得做了，反正就在这一点点往前蹭，又号称拿了一笔钱，看他后面在做什么吧。

这是李开复的零一万物。Minimax呢，ToB的业务在做，ToC呢有一个叫Toky的产品，就是这种陪伴型产品，还做了海螺，就是可以做这个文生图、文生视频，这样的产品都做出来了。这个Minimax呢，就是ToB、ToC，他自己也有做API的，都在做。就是所有既要又要，还要也要的，这个就是他们。但是呢，他这几块做的还可以，不像这个李开复那个似的，哪块好像都没开出花来。

然后百川智能他们呢，是没有这个ToC的产品，除了模型研发之外，剩下就是行业解决方案了，什么银行、医疗什么开始做这玩意了。然后质谱呢，是模型研发订阅和授权，剩下也是行业解决方案了，也是没有ToC产品的。接月星辰呢，是模型订阅行业解决方案，也有ToC的产品。月之案面也是全活，什么都干。

以上咱们讲这个呢，就是号称的中国AI六角龙，就这六个。然后大厂呢，你做一些全活，这是合理的，小公司何必呢？哪个都不想放过，我ToC我也要做，ToB我也要做，模型我也要开发。

开发完了以后，我还要立个什么出去跑分什么的，都要去干。所以跟他们比起来，Deepseek就要单纯纯粹的多。我就去做模型，而后我还在模型的基础上做各种的改进。改进完了以后呢，跟全世界的大模型的圈子里头一起去建立新的方向，建立新的标准，一起往前走。

咱们回来讲这个Deepseek，他的领导跟这个领头人是很重要的。这个人呢叫梁文峰，这个人我没见过。我那个以前的老同事是下面的一个小股东，早期的三个人应该都是技术，主要就是做这种研发的。实际上，他们早期就是自己做，自己去炒这个股票，完全是自用的一个东西，所以早期并没有那么商业化。而且呢，做量化这种人呢，是隐士大侠，他也不愿意出来跟你见面，也不希望去跟你谈很多事情，所以这个人在外边露面的机会也不多。

我后来找了找，在网上找了两篇梁文峰的访谈。今天这个后边的故事呢，有很多是来自于访谈里边的信息。做量化的时候，一开始确实是比较隐蔽，而且呢，没有这个海外大厂经理。就是大家要知道，像国内的这些做AI的，这个六小龙里头，有很多是由海外大厂经理或者海外名校经历的。即使没有的话，可能还有清华呀，还有很多的什么百度或者是格林深瞳这样的国内AI大厂经历也是有的。

但是呢，梁文峰就没有，浙大毕业了以后，中间这段的生活就不太确定了，因为他也没有什么对外的披露出来。后边呢，就开始做幻方量化，炒了股票挣了钱以后，就去做Deepseek了，就是这样的一个情况。这个人呢，每天像极客一样去干活，或者像黑客一样去干活吧，也不怎么说话，每天就是看论文，写代码，参加小组讨论，也没有那么多的管理的事情。

肯定的天才是必然的，这种黑客型的天才呢，在中国各个角落里头还是隐藏了不少。这个愿意为理想荣耀去努力的人还是有的，有能力做自己想做的事情，还没有钱方面的限制。这个呢，就相对来说要难一些，因为我见过很多的黑客型人才，但是呢，他们都是在为五斗米奔波。

又有能力，又有想法，还有钱，他就会做出像Deepseek这样的奇怪的东西出来。他在前面讲过一个很有趣的话，是“务必要疯狂的拥抱雄心，且还要疯狂的真诚”。他是这样去要求的，而这个话呢，是2023年4月11号，幻方在发布大模型的时候，他们说：“哎，我今天要开始做大模型了。”做公告的时候，引用的法国新浪潮导演克里弗曾经告诫年轻导演的一句话，那咱们再说一遍：“务必要疯狂的拥抱雄心，且还要疯狂的真诚。”这种人，他们能够在钱财无忧的情况下，做出一些让人大吃一惊的东西出来。

因为幻方前面也是在做AI的大模型，就是在ChatGPT出来之前他们就在做，所以早早的呢，囤了1万张的A100。幻方他们应该是全国除了大厂之外，唯一的一家手里有一万张A100的公司。你想，A100这个东西刚出来的时候，一万美金一块，一万张A100，他就是一亿美金。他手里能够有这样的一个资产，还是非常非常吓人的。

那么招聘方面呢，因为老板自己并没有海外留学大厂工作，所以呢，他在招聘这块也对这块要求的没有那么重，因此招了很多的应届生回来。要求的是什么？第一个要感兴趣，你要喜欢这事；你要不喜欢就别费这劲了。第二个，除了喜欢之外还要什么呢？要有基本功，基本功一定要扎实。因此，他要求的第一个叫热爱，第二个要有能力完成项目。你不能说我光喜欢，但是我做不出来这事不行。

所以他们基本上是以这个标准去招聘的。当然，现在也有很多的清华北大的人被招进去了，原来呢，可能主要是浙大的人稍微多一些。他们的创新呢，是一种自下而上的创新，不是一种自上而下的创新。每一个人呢都可以提出自己的想法，而且他们不需要去提前分工，比如你去做数据标注，他去做哪块，谁去跟什么东西，没有这个。每个人呢都可以按照自己的爱好和路径去做事情。

像前面我们讲的那个MLA，叫多头潜在注意力机制，这个东西呢，就是一个很年轻的研究员提出来，提出来完了以后说：“那试一下。”谁都可以提出要求来，那试一下。

然后，试的时候呢，发现哎，有点效果。有了效果之后，分配算力资源就开始继续往下做。就是当大家初步验证成功了以后，就会从上而下的再投入资源。这个呢，其实很像美军搞的那套东西。美军说，司令部里边这些长官，他是不了解前线情况的。所以怎么办呢？让这个小团队出去，你们现场侦查，然后向后边要各种支援：我要导弹、我要空投、我要撤退。后边人只管给支持就完了，或者给他们各种信息，让他们到前头去。打仗的人来决定这个仗怎么打。这个是在美军海外战争以后决定的一种工作方式吧。 Deepseek也是使用的这样的一种创新模式。像其他的都是老板是老大，他有经验，他一定说了算，下边人你就只管干活就完了，你们都是螺丝。 Deepseek在这块是有很大差异的。

Deepseek还干了一个什么事呢？就是很意外的挑起了价格战。在Deepseek V2发布以后，他们就进行了大规模的降价，100万TOKEN一块钱人民币。这当时的想法是什么呢？就是这事呢，不能赔钱。当大家来去用我们的这个和算力的时候，不能赔钱，但是呢，也不要求赚很多的钱，不用求暴利，稍微赚一点就可以了。所以呢，这帮人核算了一个成本，就直接把价格扔出来了。也没想到整个的行业会对于这个价格这么敏感，没想着会有人跟进。智谱马上就开始跟，将一个很小的模型降价了。大模型呢，还是比较贵的，因为质谱其实还是小龙嘛，6小龙的小龙，就是他还是融资干活的，钱没有那么丰富。但是后边字节的豆包，大模型就直接跟进了，全线降价，包括后面的百度的文新、阿里的通义千问，都在大规模降价，直接就把价格拉下来了。

所以呢，Deepseek就由此得名，叫AI领域里的拼多多，砍一刀嘛。但是呢，Deepseek就说了，价格我是挣钱的，我虽然挣得不多，但是我是有利润的。但是其他的这些大厂呢，就是赔本赚吆喝的一个状态了。那你说，中国是不是有很多的聪明人可以来做这件事情？很多人说呀，有大智慧的，也有的是小聪明的。

我们现在讲Deepseek这帮人，他们算大智慧吗？在我当时看他们去做量化交易的时候，我想这些人就是一帮小聪明。这个说个实话，就是如果当时他们在做量化的时候找我去要投资的话，我应该不会投他们。即使现在可能有一些这样的人找我的时候，我应该也不会投。

这种大智慧跟小聪明是跟性格有关系吗？其实我觉得有一定的关系，但是没有那么大。这个东西更多的是跟环境有关系。在大的这个环境要求你必须要为五斗米去思考的时候，这些人就会去变成小聪明。当他们衣食无忧的时候，就可以去追求自己的大智慧。而且中国人还很多，在这么大的基数下面，总会有一些大智慧的人获得合适的环境，或者说有一些聪明人，在获得了合适的环境下可以去展现他们的大智慧。这是我觉得中国在这块比较强的地方。

没有说中国人就只会从1到100，不会从0到1，没有什么原创性的创新。这个事我是从来不信的，只要做出有价值的贡献，别人根本就不会因为你是中国人就歧视你或者怎么样，没这事。在海外做出最大贡献的很多人，其实都是华人，很多也是从国内培养出去的人。

所以智慧本身是不要想高低贵贱的一个事了。中国人的聪明人比例是不是比较高呢？首先这个说法呢，政治不正确，种族之间是不应该有这个差异的。但是呢，中国因为文化传承跟生存压力的问题，会更加的重视教育。所以更多的中国孩子在很小的时候承受了非常非常严酷的，或者残酷的非人的教育压力，这个是没有办法的。

中国的文化传承是什么？自古以来叫“万般皆下品，唯有读书高”，或者是“士农工商”。一旦成为士了，你连税都不用交。咱们接受了几千年这样的文化教育，所以我们知道说任何人，只要是稍微家里有口吃的，一定要送孩子去上学，不能耽误他。

另外一方面，就是我们的生存压力非常非常大，动不动就是输在起跑线上。所以我们的孩子自小接受的这种教育，可能对于老外来说，他们就直接告你虐待了。最终产生聪明人的比例自然就高一些。

可能大家生下来没有那么大差异，但是呢，我们每一个人，甭管你能不能成才，甭管你有多聪明，我们都去用巨大的教育压力把它压一遍。可能很多国外的人也很聪明，但是呢，人就快乐教育，开开心心的吃喝玩乐，混了一辈子也就出来了。

但是中国可能稍微有点能念书能力的人，都被我们的教育体系给塑造成了一个可造之材吧。那么这几十年，这个生活环境、信息流动肯定还是发生了巨大改变的。可以做自己喜欢事情的中国聪明人，肯定会变得更多一些。

咱们甭管怎么说，这几十年的改革开放，我们能够获得的资金资源数据，从来没有像今天这样多过。这个事大家还是要去承认的，也不是每个人都活得那么苦大仇深。像Deepseek这帮人做量化的时候，我挣着钱了，那我就可以去追求一些自己喜欢的事情。

其实我是见过很多聪明的中国人的。原来我们去做盛大创新院的时候，是聚集了很多很多的聪明人在一起。那这个里头跟幻方又有一点相像，幻方是炒股票，自己手里有一堆钱，盛大创新院是做游戏，公司手里有一堆钱，说来我们去追求一下梦想吧，也是如此一个状态。

而且很多公司里边，还窝藏了一堆的扫地僧，就是他会解决很多的很细节的、很具体的问题。那你说这些问题，为什么大家老觉得这就是一个工程上的改进，不是一个从0到1的改进？原因很简单，因为这些人没有聚集在一起，没有让他们自由的去追求他们自己想干的事情，所以他们就只能成为扫地僧，而不能成为像Deepseek这样一鸣惊人的东西。

社区里边也有很多为爱好和梦想而努力的人。有些人呢，没有那么好的环境，但是也在努力，比如说那些独立游戏的开发者，那些开源软件的创作跟维护者。我们是见过很多的，说我喜欢这个事情，我就是愿意做这个事情，我真的是吃了上顿没下顿，这种人挺多的。

我曾经有一个以前公司投的项目，那是一个游戏公司的CEO，那也是一个很强的geek，自己的这个游戏做的不怎么样，每天在UDT社区里头揪着人家CTO扯淡。

讨论最新的物理引擎该怎么做。那个CTO还经常跟他之间相互的启发，相互的促进，做这样的一个事情。我呢，很尊重这种天才，但是这种人不是一个好CEO。那个案子原来不是我投的，虽然是我们项目里边的案子，但不是我投的，所以我也不会去投向Deepseek这样的公司。

当社会有一个基础保障的时候，这些人呢就会更大范围的存在，而且呢，有可能会创造出璀璨的成就出来。他是有一定的偶然性在里边。对于不同的环境呢，就应该有不同的应对方式。有些人说我想挣个快钱，有些人说我现在钱挣够了，我想追求点梦想，这个呢都无可厚非。

总有人问我说：“哎，我现在想投资，我有笔钱，我应该投什么好？”因为我原来做个投资人嘛，所以有人来问我这个问题，或者说：“哎，我有一个朋友，他们需要投资，让我来投，你看看这项目行不行。”也有人给我做这样的咨询。我给的答案一般都是一样的。

什么呢？第一个，你准备投多少钱？你对于回报的预期是什么？多长时间回报？挣回多少钱回来？这是你对回报的预期。再回报第三个是什么呢？你对于风险的承受能力是怎么样？这个钱如果就没了，或者是如果就亏进去了，你是不是愿意承担这件事情？绝大部分人回答了这三个问题以后呢，这个投资就黄掉了。他们压根就想不清楚，我到底对这个投资的预期是什么，或者说我到底能够承受什么样的风险，这个其实是很难回答的。

离钱近的人，或者说我要挣快钱的人做工程，找到清晰明确的路径，定好目标，直接冲上去，寻找可以融资或者让公司价值上升的人和团队。为什么很多人说：“我一定要谷歌挖个人回来，我要到百度挖个人回来，我要到自己挖个人回来。”因为这样的话，你相对来说比较好忽悠投资人嘛。投资人绝大部分是不懂的，一看到这个人的履历，这个好厉害，我要给钱，就变成这样。

然后把这些团队凑起来以后呢，拼执行力，实际上也就是内卷了。然后寻找漏洞，细节不断的完善，卷死其他所有人，这就是快速挣钱的这个团队要干的事情。还有些人说，我钱挣够了。

或者说钱一时半会不用太担心，我只需要追求梦想就可以了。这些人呢，心思就会更单纯一些。在小说里边，有一个名词叫做“剑心通明”。我这个心里头只有剑，没有任何其他东西，那他就可以去做一些不一样的事情。

当然，不同的人呢，有不同的追求，这个里头没有谁对谁错，也没有谁高谁低。我们也不要去笑话中国AI、六小龙这些企业。你说既要又要，没做任何创新，模型架构就直接抄人家的，别笑话人家。大家只要自己的逻辑自洽了，说我就是要去做一个公司，我要把公司做上去，我要对投资人负责，我要在这个过程中做出一些有趣的东西出来，就可以了。这个事并没有什么问题。

那么，深度求索的未来会怎么样？人怕出名，猪怕壮，因为呢，资本已经盯上他们了。大厂呢，会快速的抄袭迭代他们的架构和模型。不用等美国人开源，中国人开源了以后，其他中国人也会自主创新、自主研发的，挖人是必然的。小米刚刚千万年薪，挖的这个叫罗福莉的人，就是Deepseek V2的一个主要贡献者。至于小米千万年薪把它挖回来以后，是否能给小米带来什么，这个我们拭目以待，不一定。

然后，中国呢，有一个特别有趣的名字，叫什么叫“黄埔军校”。百度就是推荐算法、自动驾驶这块的黄埔军校。盛大呢，原来是盛产大量的游戏人才，而金山呢，是早期大量的软件人才都从这出来的。路径清晰，想要做同样的事情，最简单的方式是干嘛？去挖人，把这个做过的人挖回来，这事不就搞定了吗？

所以，深度求索的技术呢，一定会快速的随着原代码的开放以及人才的流动，普惠到中国各大AI厂商里边去。而深度求索自己呢，未必最后能够挣到钱，这个我要跟大家讲清楚。跟大家讲一个故事吧，就是李开复早年做这个创新工厂的故事。当年，李开复招聘了大量的，他们叫“娃娃兵”，也就是没有毕业的这些硕士，因为他当时在中关村附近那边嘛，所以有什么北航的呀、清华北大的呀，很多这样的硕士或者是本科生，就在那干活。其实，创新工厂实际上最开始的两拨人，一拨是李开复从谷歌里边带出来的人。

然后，另外一拨干活的人，就是这帮娃娃兵。后来等李开复开始有一定名声之后，他们的整个办公室就被各大互联网公司进去疯狂的洗，慢慢的就分崩离析了。当时我们就干过这个事，坐在那个创新工厂楼下的咖啡馆里，挨着个给上门打电话来，一个一个叫下来面试。而且是分几摊，同时上四五个面试官在咖啡馆的不同的角落里坐着。只要聊着还可以的人，3倍薪水你来不来吧？当时盛大干了一次，后边的各大厂都去干这个事情。因为呢，我们发现李开复把这帮娃娃兵训练得非常好，每一个人都是心中有火，眼中有光，而且呢，执行力还很强。当时挖了好多那种回来，效果非常好。

希望呢，这个深度求索可以在资金充裕的情况下，继续进行探索和尝试。也只能这样的希望，我没法期望说深度求索这公司未来成长成一家非常巨大的这种大厂，最后能够挣到很多的钱。这个事呢，我是不抱期望的。希望经历各种风风雨雨的过程之后，不要把心态搞崩，这个是最重要的。因为呢，很多的时候人员离职或者是项目失败，有很多这样的事情出来以后的话，创始人的心态会崩的。那么，是不是还会有很多深度求索这样的公司，隐藏在水面之下呢？会有的，而且会越来越多。

AIGC时代大公司的优势其实没有那么大，更多的个人和小团队可以调用更多的资源、数据以及算力，做出大家意想不到的事情出来。像我现在也可以自己坐在家里头，使用各种搜索引擎，使用各种的大模型去进行工作。我交的钱实际上也就是一个月20美金给了OpenAI了，豆包还是免费的。我现在可能真的是一个人，相当于一个团队在干活了，我也可以做出一些可能别人意想不到的事情出来。

有了基础的社会保障之后，从小接受残酷学习训练的中国人，做出各种奇奇怪怪东西的概率肯定要比其他地方的人大得多。这是我的一个结论。而且，中国人本来就多。最终呢，咱们要给这个故事下一个结论，就是会不会有深度求索这样的创新模式被不断的复刻？而我的结论是这样：深度求索的创新模式。

复是不能复刻和模仿的。因为你一旦要去刻意学习什么东西，你就是有目的的。而这种目的的话，跟刚才我们讲的深度求索的这种研发方式，它是相互矛盾的。目标很明确，就应该像AI六小龙他们干活，什么都沾一点点。但是呢，会有很多很多类似的团队，还是潜龙在渊。就是大厂你学这东西你是学不了的，但可能会有一些小团队，在不定在哪个角落里，哪个旮旯里头，在做一些大家意想不到的事情。突然哪一天就冒出来了。这个事情我觉得还是可以去期待的。好，这就是今天的第二个故事。

雷军千万年薪挖AI天才少女，到底值不值？

Luke Fan — Mon, 06 Jan 2025 00:44:28 +0000

雷军千万年薪挖回来的AI萝莉，到底值不值呢？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，雷军花了千万年薪挖回来的天才少女，到底价值几何的故事。

首先，这个消息并不是小米官方放出来的，而是证券时报等一大堆媒体报道出来的。报道出了这样的一个故事之后，肯定就会被舆论热炒。第一个，AI现在肯定是全村最靓的仔，跟AI相关的事情更容易被媒体所报道。第二个，小米跟雷军本身就是顶流，任何事情只要沾着小米，沾着雷军了，都会被过度的炒作。

现在这位AI天才少女叫罗福莉，号称是雷军亲自下场捞的人。这个事情到底有多亲自呢？不好说。很多记者也去找小米核实，问有没有这么个事情，是不是有千万年薪，雷军到底是怎么谈的这个事情呢？目前为止，小米没有给出官方确认。但是，如果千万年薪是真的，那这个事雷军必须是要签字确认的。如果不签字的话，这样高的薪水是开不出来的。

这是一方面，另外一方面，Deepseek V3也是现在的顶流。新的模型出来以后，包括美国很多AIGC圈的老大，都给出了很高的评价。国内一定是说，哎呀，你看我们做出来的东西被别人夸奖好了，这个事情我们与有荣焉一下。这位天才少女从Deepseek这边出来的，也成为了整个事件炒作中的一个推手。1,000万年薪，加上小米最近在宣传的万卡集群，也算是这个事件能够不断在热搜上停留的催化剂。

而且前几天超级小爱演示的翻车，你也需要一些AI相关的新闻出来中和一下吧。所以这个事情被舆论热炒了。小米官方刚才我们讲了，并没有正式的回应这件事情，原因也很简单。第一个是薪资，在小米这样的公司里边，她应该是保密的。如果有谁把这个薪资泄露了，肯定还是要受到一定处罚的。第二个，这个人如果真的去了，炒的太热了是没法干活的。这个人就是千万年薪的AI萝莉，那剩下的这些没挣到1千万的人，你咋跟她一块配合干活嘛？中国人向来都不是喜欢。

把薪资贴在脑门上的，而且有些人说呀，说你能干啥呀？就雷军亲自去请你，我不服气，她会有这样的事情。所以这个人就算是真的去了小米了，为了未来能够干活，为了能够跟团队合作。所以小米估计在回应的时候，也会相对比较谨慎。

记得当年遇到过一个擦桌子故事。什么呢？就是我原来是清华同方的员工。有一次清华同方的一位，应该叫事业部经理吧，说：“哎，我为咱们事业部找了一个销售大牛回来，这个人可厉害了。”这位事业部经理在入职之前，就跑去把人桌子给擦了一遍。

清华同方呢，有一点跟其他地方不太一样。什么呢？就是这帮事业部经理在当时，97年98年的时候，都是清华大学里边的老师，很多是系里边的比较大的老师，一些教授，一些副教授，在当事业部经理。然后她下边的很多员工呢，是她的学生。所以这帮学生一看，哎，这个老师到底是怎么回事呢？招了一个什么神奇的人回来？来之前你还把人桌子擦了。我们跟着你坐了这么多年，也没看你给谁擦过桌子呀。

这个人进来，我们一定要好好称量称量她。这哥们入职了以后呢，大概没两个月就离职了。甭管她自己的能力怎么样，你进来了以后，所有人都要看看你说：“哎，这个老师给你擦过桌子，你到底是个什么样的人？”所以这样的人这么高调加入团队以后，相对来说是比较难以去开展工作的。

那么罗福莉到底是何许人也呢？从网上公开的信息来看，95后小镇做题家，她是四川宜宾市第一中学清北班毕业的。就在这样的学校里头，专门会有这种尖子班，她们叫清北班。然后呢，去了北师大计算机系上大学，算是第一次接触电脑，以前没接触过，所以呢，一开始成绩并不好。

大三呢，去了北大语言计算实验室实习，三个月自学Python，选择了NLP方向。NLP叫自然语言处理，就是向语言学的方向，或者计算语言学的方向转移了。开始呢，在别人的论文上署名了，就别人写的论文上头，已经开始有她名字了，这时候还没有大学毕业呢。然后保研到了北大，在北大的语言计算实验室里边。

继续深造。2019年，在ACL大会上发表了8篇文章，这个大会叫国际计算语言学年会，简称ACL。其中有两篇是第一作者，剩下的算第二作者。第一作者的文章中，第一个是《在文本和语音中检测隐藏信息》。意思是什么呢？就是说，如果我们的语音具备某些特征的时候，这个人可能在信息里边隐藏了一些东西。比如说在隐瞒信息的时候，讲话者的最大音高强度和语速增加，而讲话持续时间减少。这些特征与欺骗检测研究中的发现相似。如果你突然声音变大了，语言变短了，就有可能在骗人。

如果是语言特征，前面是语音特征，后边是语言特征的话，隐瞒信息的文本中，认知过程词汇，比如说“我认为怎么怎么样”、确定性词汇和正面情感词汇的使用频率更高。这表明隐藏信息可能增加认知负荷，同时伴随着更高的自信水平。这个有点像《Lie to Me》，谁说谎了是不是？这是一篇。

另外一篇是《将AMR解析视为序列到图的转换》。这个AMR的意思是抽象意义表示有向无环图。什么意思呢？就是我们说了一句话以后，在计算机要去处理之前，要把整个这句话变成一个有向无环图。什么叫有向无环图？就是她有方向，从前到后；而无环呢，就是她最后不是循环的，是这样的一个顺序的，由点和线连接出来的一个图，有这个正确的方向，但不能循环。她做的这个论文是在这种有向无环图上进行一些数学变化，变化了以后可以进行进一步的训练或者进行进一步的识别，而且在识别率上会有一些变化。这就是她作为第一作者的两篇论文。

研究生期间，总共发表了20多篇论文。看来这个北大还是很厉害的。2021年毕业后，加入了阿里达摩院。当时，她还写了一个公众号，告诉大家要选择有科研也有业务的公司。如果选择这种完全没有科研的公司，只做业务的，那么大概率只会去做一些边缘业务，这是没有办法在科研领域里继续深造的。所以，她当时在一堆的顶流offer里，挑中了阿里达摩院。

觉得这边还是可以做一些科研的。2022年呢，这就是在阿里达摩院里头待了一年，跳槽去了换方量化。据说呢，也是在这一年里头领证结婚，夫妻两个在杭州还买了房。幻方呢，在2023年分拆深度求索，也就是开始做Deepseek的这个公司。那么这位罗福莉呢，也就跟着去了深度求索。罗福莉在Deepseek Coder这个论文上作为第六作者，也是署名的。幻方以及深度求索，其实发的各种文章还是很多的。而且呢，她们会很大方的将所有贡献者都写在作者名单里头，或者叫贡献者名单里头。

比如说最近大火的Deepseek V3里边儿，大概是有200个贡献者。这200个贡献者呢，有150个是工程师，还有一些其他的支持人员，还包括10名已经离职的人员。罗福莉的名字呢，是在为Deepseek V3做贡献的已经离职人员这个里面还是有的。号称呢，她是参与了Deepseek V2版本的开发。当然了，这些都是大家的描述，具体在里边参与了什么，其实并没有表述。

2024年年底跳槽去了小米，这就是她整个的一个履历。那么下面我们就要去看千万年薪到底值不值的问题了。其实挖技术大牛回来，我们到底应该如何评价其价值呢？这个一直是很多的投资人，包括一些大老板需要去思考的问题。你挖回来以后是给钱呀，给期权呀，然后给她各种的资源呀，还是给她一个大的团队，一个很好的研发环境，你到底给她什么，这都是我们要先对人的价值进行评估的一个过程。

在挖人回来的时候，科研能力到底重不重要？如果这是一个科研院所，我们需要再去国家申请经费，再去做一些更新的科研研发的时候，那她的科研能力可能是重要的。但是对于小米这样的一个产品型的公司来说，这个挖回来的人科研能力到底有多大，其实没有那么重要。那么这种技术带头人呢，她们需要的能力是什么？第一是对前沿的理解和认知。你真挖一个人回来，说这个最前沿的东西是什么，我说不清楚，我看不懂，谁在搞这个事我不知道。

这个事是不允许的。而且这种认知呢，是真的可以去跟最前沿研究的人进行面对面的沟通和讨论的。我们也见过很多，比如说像猎头公司这些人，对这个最前沿的发展也是有一定认知的。但是呢，她一旦是跟前沿的这些人去沟通的时候，就会露馅。像罗福莉在这块应该还是可以的。

工程技术能力呢，这块要看你具体要她干什么。你比如说，有些人说：“我真的是需要有一个人回来替我解决一个很难的难题。”那么在这个时候呢，就需要有工程技术能力的人回来。她能够管理团队、能够面试团队，甚至能够挖角原来的团队，可以带出一个团队出来，这个是工程技术能力，还有人脉资源。

但是人脉资源呢，一方面是说你能不能忽悠起一帮人来跟你干活，另外一方面的话，就是你做出来的产品是不是可以让顶流的圈子快速去认可。因为任何人，只要做出这种高精尖的东西来，她的这种认可的速度或者认可的成本都是挺高的。认可的速度都不会那么快，但一旦是有一个自己人，大家都已经熟悉了，你就是这圈子的人，你也做出过相应的成绩来。那你说：“我继续在发表相应的论文或者发表相应的成果。”那么别人就会优先选择相信你，所以这也是人脉的一个很重要的点。

最后呢，就是她的IP价值，这个人是不是有一定的影响力。通过这几个方面来评估一个技术大牛的价值。从能够公开找到的信息呢，其实没有办法去评定罗福莉具体都做过些什么东西。这个事现在发出来的信息比较少，不是写了什么论文就会什么东西。刚才我们说了她写了哪些论文，我们认为说她就会这几样东西，这个事一定是非常片面的。她可能研究的涉猎非常广泛，而且最前沿的很多科学与技术其实是相通的。只是可能这几个点，它是适合出来写论文的，剩下的点呢，虽然不适合出来写论文，但你要在Deepseek这样的参与到里边去，你还是要去解决或者还是要去做事情的。所以呢，并不能认为说她就会这个自然语言的这点东西。

罗福莉呢，应该还是一个语言学方面的研究型人才。罗福莉的价值到底应该如何去评价呢？第一个，它的IP价值呢，现在还算是拉满了。为什么叫还算是拉满呢？因为有的时候，就叫“花花轿子人人坐，人人抬”。现在这样的一个消息出来了以后，她也借助了Deepseek的光环，以及小米和雷军的光环，有大量的媒体出来炒作，来捧这个事情了。

这个人在她的行业内，到底有什么样的名声，我们不去管她，但至少在公众视角里头，这已经算是一个很厉害的人了。当然了，以深度求索的这种招聘以及用人原则来说呢，像罗福莉这样的履历的人，其实在里面还是蛮多的，因为里面各种清华、北大、德大这些人其实是蛮多的。而且这些人呢，好多还没有毕业，就是可能在里边做博士实习，或者做很多这样的事情，她们就都已经开始在各个论文里边去署名了。

所以呢，并不是说以这个论文量，以她的师从，或者是北大的这个学历，她是个硕士嘛，还不是博士，她就已经是站到一个什么顶流上了，其实距离那个还是有一点点差距的。只是呢，现在通过炒作的方式，让她站得比较靠前。

在Deepseek里面呢，毕业了一两年的人呢，就可以在里边挑大梁干事了。真正负责的呢，可能是有个四五年经验的一些人。而以罗福莉的这个资历，进去的时候呢，有可能能够负责一个项目，但也未必，因为呢它属于是相对来说比较专项的科学家，并不是工程方面的这种专家。因为工程专家是写不出这么多论文来的。

在科研能力上，至少是语言学方面的，罗福莉应该还是有所建树的，写论文绝对好手。工程技术能力的话，没有验证。人脉资源的话，大家注意，工程技术方面的人脉资源跟学术圈的人脉资源是完全两回事。她有可能在学术圈有人认识了，知道这个名字，她可能参加各种会，很多的会议上的这些教授，这些大拿也都能跟她聊得来。但是呢，你说真正能够拉起一帮人来，把事干出来的，那是完全另外一拨人。

至于她能不能做工程技术方面的事情，有没有工程技术方面的人脉，这件事呢？

我只能说，没有验证过，不知道。那么小米到底想干什么呢？大概率呢，也没指望罗福莉真的能做出什么来。因为小米自己也是有AI实验室，而且成立了很长时间。这个AI实验室自己也是有完整的体系架构。你不可能说我招了一个新人，然后你现在就给你另起一摊，或者说我把原来的架给我打散了，现在你就是老大了。她肯定还是要在小米的AI实验室里边，在她相应的位置去进行工作和研究的。

Deepseek这样的模型应该也不是小米追求的，因为如果要部署和训练Deepseek这样的模型的话，罗福莉应该是可以给出一些指导的。你毕竟原来在一个屋里，把东西做出来的。通常的科研和工程是两条线，罗福莉未必能够有能力挖角组建面试带领工程团队。像我们以前也招过这种工程老大，那就是招完了以后就问她说：“你能不能带回团队来？”像以前你前面几家老板的这个团队，你能不能找得来？如果找不来的话，那给你机会去面试，你能不能去面试一堆能干活的人出来？

等你把这个团队组建起来以后，你能不能带着这个团队去把这个事干出来？这个是对于工程老大的这种要求，这不是对于科研老大的要求。

小米最近还在说：“我们就训练端侧模型小模型。”这都是雷军最近说的话。当然了，说什么并不重要，做什么呢其实也不重要。那什么重要呢？就是为什么这么说，这个才是最重要的。小米毕竟是个卖手机的，你不这么说怎么让用户下单去买那个更贵的、更高端的手机呢？所以她一定会去喊说：“我们不去关注这种大模型，我们要关注端测小模型。”

但是呢，我相信小米也还是会照着Deepseek的这个套路，自己在训练一套云端模型。当然这个训练的应该也算是一个技术储备吧。像小米这样的公司，更大概率会在国内的各个大模型厂商之间进行平衡。就是什么字节、百度、阿里，包括Minimax，她可能都会用那么点，包括Deepseek可能都会去用一点点，然后在不同的应用里边去调用不同的模型。这应该是小米的一个策略。

然后自己同时训练一个模型呢，算是有一个技术储备，可以跟这些大模型厂商进行平等对话的一个东西。在中国就是这样，如果别人发现你不懂的话，总是要在你身上咬一口的。所以小米在这块呢，应该还是会做。

另外，对于小米来说，超级小爱的翻车，这个热度也还是要压一下的。讲到这呢，你说我们的结论，这个1,000万的年薪到底值不值？这个事情我觉得，大家自己去做判断就好了。你让我现在来给大家下一结论，说这事太值了，反正我没看出来；说这事肯定不值，咱们了解的信息呢也不够充分，也就只能是这样的一个情况。

我只能说以这个罗福莉现在从外界可以披露的公开信息来看，这个1,000万的年薪呢，稍微有一点点存疑。但是我相信呢，小米这个事情，甭管是她有意做的，还是无意做的，她的目的已经实现了。她的目的是什么呢？她股价涨了。除了卖车之外，现在我们还做AI了，还有一个万卡集群了，还从现在当红炸子鸡Deepseek挖了人出来了，号称雷军亲自下手，给了千万年薪了。

小米现在已经接近1万亿港币的市值了，她现在的市值是9,097亿港币，可能到周一开盘的时候，就直接冲万亿就过去了。所以我觉得小米呢，这个事情肯定已经好处落袋了，这个市值已经收获了，收获的还是很高的一个市值。

至于未来罗福莉到底能够在小米里边做什么东西出来，或者她到底能够在小米里边混多久，或者说小米未来到底会如何对此事进行官方回应，我觉得还是可以拭目以待的。未来也许还有新的瓜可以去吃。

好，这一期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。