AI开源 – 老范讲故事｜AI、大模型与商业世界的故事

Grok 3发布：Elon Musk称其为“宇宙最聪明”大模型，暴力出奇迹的xAI，是否可以成为AI时代的世界工厂？

Luke Fan — Thu, 20 Feb 2025 00:40:03 +0000

马斯克的Grok 3到底是不是世界上最聪明的大模型？暴力真的能出奇迹吗？大家好，欢迎收听老范讲故事的YouTube频道。世界上最聪明的大模型，这是马斯克对他自己家的Grok 3给的定义。如果有人不同意的话，那么会被开除的。因为XAI某一位员工在X上发帖说，Grok 3好像并没有那么聪明，然后就被XAI找到说，你要么删帖要么开除。后来这哥们想了想说，我得捍卫一下自己的言论自由，于是这哥们就被开除了。

在说所有细节之前，咱们先说说Grok 3到底怎么用。在2月18号北京时间中午12点的时候，马斯克跟另外三位小伙伴，一共四个人坐着开了场直播，把这个Grok 3发布了。我就四处去找，首先我是X每个月交8美金的Premium用户，我在X上使不了。X上你必须是40美元的Premium+用户，才可以去使用。在Grok的这个网站上呢，你也需要30美元一个月的账号才可以用。免费用户只能用Grok 2，API不充钱已经不让用了。如果是团队的话，至少花了5美元以上，每个月他会赠送你150美金，但前提呢是要跟XAI共享你的数据。

目前Grok 3的版本还没有上，你就算交钱了，你在XAI的网站上，也只能得到Grok 2的API，还要再等几周才会上线。Grok的苹果APP上面，是可以使用Grok 3 Beta这个版本的，即使是免费用户也可以去用。因为我呢对于XAI来说是一个免费用户，我就通过iOS，也就是iPhone和iPad这个版本上去，好好儿的测试了一下。后边儿呢咱们再去讲具体效果怎么样。

Grok 3有哪些具体信息呢？在整个的发布过程中呢，并没有特别详细的讲，只是说，我各种排行榜都排在第一了。Grok 3，Grok 3 mini是怎么去排上去的，讲了很多这样的话。但是呢，这个系统本身的一些细节，并没有那么详细的公开。因为可能在Grok 3稳定下来以后，会把Grok 2开源。现在Grok 1是开源的。

Grok 2可能有一些细节会被披露出来，但是Grok 3的话应该很长一段时间不会有特别详细的细节披露出来。现在能够知道的就是，Grok 3应该也是一个MoE模型，跟DeepSeek是一样的。它到底有多少参数呢？现在猜测是有1.2万亿个参数，DeepSeek是6,710亿，它呢应该是在DeepSeek的基础上翻了一番。至于这个数字是不是准确，我不知道，因为呢我去问了Grok 3，也去问了ChatGPT，最终是给了我一个这样的数字，我并没有去查原文件。

Grok 3的使用感受到底是什么样的？它呢，下边有两个按钮，一个叫Deep Search，一个呢叫Think。Deep Search实际上就类似于OpenAI的Deep Research，就是这种深度研究，它会搜索大量的内容，然后呢，再去给你出报告。Think的话实际上就是类似于O1、O3这样的推理模型。这两个按钮它特别有意思，这两个按钮呢你可以都不按，也可以按其中一个，但是不允许两个都按。这个意思大家能够理解吧？你不能又要Think，又要Deep Search，这个事是不允许的。那你说我既不Think也不Deep Search，这事行不行？可以。

然后呢，我都试了一下。在Deep Search的时候，它会直接引用几十个甚至上百个网页，非常非常多的网页，然后呢给你一个似模似样的报告，很长，格式非常非常好的一份报告。在Think的时候呢也会搜索，并不是自己去瞎编的，他呢，会搜索25个网页，以及呢X上的帖子。大家注意，Deep Search时候是不搜索X的，在Think的时候是会搜索25个网页，加上X上的可能5个帖子吧，反正我搜了几次都是5个帖子，然后给你进行一定的推理，总结出一个小的文案出来。这就是这两个功能。如果两个都不选，我既不Think也不Deep Search，它呢就不联网了，就直接是给你编一个结果出来。

大家注意，所有的大模型，甭管是谁家模型多聪明，你让他直接编出来的这个结果，都是最不靠谱的。那么，他这三个功能，就是两个都不选，或者选其中任何一个。这三个功能呢，特别有意思的一点是什么？他可以混用。

在OpenAI上呢，这种模型混用是比较严格的。你如果开始一个新话题，选择了一个模型，提了几个问题之后，你现在想去切模型的时候，你这个模型，比如说允许有图片呢，下面你要去切的时候，只允许再切换到允许图片的模型。它不允许你切换到不允许读图片的模型去。这个是有限制的。但是呢，在Grok里面它是没有限制的。就是你随时可以开始新对话，对话的过程中可以随时切模型，你可以来回切来切去。

但是呢，在这个过程中呢，有一些不是那么有趣的地方是什么？就是如果你俩都不点上来，直接让模型去编，他就不联网了。他编完第一句以后呢，你说我现在要开始进行深度的搜索了，deep search了，这个时候他也不联了。或者说我现在需要think了，他也不会去联网，他就根据现有的内容接着编下去。他是这样的一种过程。

但如果你是以deep search开始的，那么think的时候呢，他就不去搜索帖子，因为deep search是不搜索X的。如果你是以deep search或者think开始，然后你最后切换回到完全编的，既不deep search，也不think的这样的一个裸模型，去输出的时候，继续搜索。所以它整个的逻辑，还稍微有一点点小混乱吧。

那么，Grok 3到底是不是宇宙第一聪明的这个模型呢？因为你如果用iOS APP你去选的时候，后面会写一个叫smartest，最聪明的。它是Grok 3 beta，后边写一个小括号，smartest，这个是最聪明的。到底是不是？我个人感受呢，现在相差还比较远。为什么呢？为了准备这期节目呢，我其实用Grok 3去做了很多的工作，包括是他的deep search或者think。但是最终呢。

Grok3生成的所有结果都被我扔掉了。最后的内容还是靠豆包和GPT search来完成的。原因也很简单，Grok 3 deep search现在报告的格式非常好，非常中规中矩，但是大量的段落是重复的。前边写了一遍，后边车轱辘话又写了一遍，用不同的格式，用同样的话来回来去说，这个是很讨厌的。

还有一个问题是幻觉大到完全无法使用的一个状态。比如说，我问他XAI现在有多少人了，图说现在有900多人了。后来我问了其他几个模型，都告诉我是有100多人，这个可能还是稍微靠谱一点点。都是联网搜索吗？你都不是自己瞎编的，那我不知道他这个900多人这个数是哪来的。

然后我说四个人在上面开发布会嘛，中间两个人是华人。这两天在国内又嗨起来了，说你看马斯克发布Grok3的时候，马斯克只能在一边点头，点头机器。中间是做C位的两个都是华人，旁边还有一个白人。那我就问他，我说这俩华人到底是谁，什么教育背景，然后就开始给我胡说八道。他也是举的XAI里边的一些华人高管，但是呢并不是当时坐在台上这两个人。

发生这种事情的原因很简单，就是他在deep search的时候，一下瞪了可能几十个上百个网页，回来拿这么多个网页进行总结的时候呢，把内容搞串了，实际上就产生幻觉嘛，就完全没法使。

然后呢，我去尝试了一下think。think呢其实没有特别细致的测试，为什么呢？本来我想去让他做编程，但是呢，他没有API。你没有API的话，就没有办法接到IDE里边去，你没办法作为插件接进去，就没有办法详细地参与到我的这整个的编程过程里头去。我做了些简单的测试，但是感觉呢think模型对于各种编程的复杂的环境，和各种的版本和类库的话，并不是那么熟悉。这块的话可能以后等他有了API以后，再去做详细测试了。直接生成还过得去，就是如果两个都不点，让他直接生成。但是呢，因为在手机上用，并没有办法进行。

特别大规模的使用和测试，现在看来呢，XAI的Grok 3采用的是叫分梯度发布的一个方式。就是说，我先发布一点，然后慢慢地让更多的人能用，再慢慢地发布更多的内容出来，然后不断地去迭代。他现在干这样的事情。现在呢，就是手机用户可以用。那么手机用户呢，第一个用户量不会特别大，而且在这个时候，可能还能够为Grok APP带来一批的下载，这个也算是一个小心思吧。

在手机用户使用的过程中呢，你不会给他特别繁重的任务。因为你要跟他做这种很复杂的沟通的话，你需要打好多字，举了个手机在这噼里啪啦打字，很费劲的。你像我，为了做这个测试，最后是把我的iPad接到了机械键盘上，夸啦夸啦往里打字，这个还是能够问一些稍微复杂一点东西。要真是拿着手机，在那个屏幕上打字的话，这个还是挺费劲的。还有什么呢，就是不会有太正式的任务是通过手机来进行的。比较正式的任务一般会通过网页，通过电脑来去工作。

Grok跟X网站上还是有一些付费的人能够使用的。你不能说老范你没交钱，你就说这玩意不好使。这些比较高付费的用户，比如说在X平台上交了40美金一个月的，或者在Grok平台上交了30美金一个月的，这些用户呢，他是可以去用的。但是这些用户呢，数量肯定会少很多。还有一点呢，就是皇帝的新衣嘛，我付了这么多钱了，我就不能允许任何人说我是傻子，我一定要说这个钱付的是值的。所以呢，就算他们遇到问题了，上来骂街的可能性也不是那么大。这个就是马斯克当前发布了一个版本，比较聪明的地方吧。

后面语音模式的话，可能还要再等一周。我估计语音识别率这块还有待优化吧，因为语音你认不出来就是认不出来，还有口音还有乱七八糟这种事情。咱们再看看，后边会做出一个什么样的结果出来。API的话，还需要再等几周。为什么API要这么费劲，原因呢是现在大家只能看马斯克官方的排行榜，我的测试数据是什么样的，排行榜是什么样的，你自己没法去测取，给你一个手机版本。

或者给你一个网页版本。你现在想把这几千道题输进去，测试这个事太费劲了。你要想测试这东西，必须要拿API写程序去测。这个过程其实有点像法拉利的一个跑车。法拉利就说了，这个东西太贵，而且做测速的时候太危险。如果你自己去测的话，非常不安全，而且保险公司也不允许我们干这个事情。所以，法拉利跑车的最高极速，只有法拉利官方出的这个版本是唯一标准，任何人不得私自去测试法拉利跑车的最高极速。这个事情我们不承认，而且这个事我们也不允许。

现在，XAI的Grok也就是在这样的一个阶段。等以后API上来以后，每一个人都会自己去跑各种各样的测试，或者做多模型的输出结果比较。到那个时候，丑媳妇就真的要见公婆了。下一步的话是要开源Grok 2。DeepSeek是上来直接把最新的模型开源了，而且上来说，你们每家部署的跟我现在自己官网上跑的是一模一样，没有任何差别的。而且不断的有新的技术演进，不断的有新的技术新发现，都直接发论文发出来了。

但是，马斯克永远是开源上一代模型。就是他在用Grok 2的时候，他把Grok 1开源了。Grok 3能够稳定正常运转的时候，他会把Grok 2开源出来，可能还要再等那么几周或者是几个月的时间。山姆·奥特曼现在也惦记开源，刚在X平台上发了帖子说：“唉，咱们投个票吧，你们觉得OpenAI应该开源什么样的模型出来？我们是不是应该开源一个在PC本地就可以跑的O3 mini模型出来，还是说我可以在手机端跑一个这个小模型出来？”

他们是准备走谷歌跟微软这条路的。谷歌也是这样，它有一个叫Gemmar的模型，比较小的这个模型是开源的，主要也是让大家在端侧来用的。还有，微软做的这个Phi模型，这个模型也是开源的，也是让大家在端侧去使用的。但是我觉得，OpenAI如果真的把它的O3的模型，或者哪怕是O3 mini的模型拿出来开源了，或者让大家能用上了。

这也是一个值得期待的事情。讲远了，再往后呢？发布会上，中间两个华人做C位了。这种事情呢，肯定会引起国内的热议嘛。你看，还得看华人吧？华人也比较好认嘛，中国脸。

台上是四个人。第一个是马斯克，马斯克坐一个角嘛。另外一个角呢，这个人叫巴布斯基，这个人呢，是个俄罗斯人。中间的两个人呢，一个呢，叫做吴宇怀，XAI的合伙人，浙江人，在国内上完初中，15岁去了加拿大多伦多大学的博士，后来呢，是斯坦福大学的博士后，现在是XAI的合伙人。还有一个呢，叫Jamie BA，这个人呢，没有看到他前面的一些履历，是多伦多大学计算机科学系的助理教授，AI教父Joffrey Hinton的学生。

等于一边一个白人，中间两个华人。但其实你要再仔细看一下，这个是全世界人民在美国进行AI创业。一个俄罗斯人，剩下三个可能都是加拿大人。马斯克自己其实是有美国国籍、加拿大国籍和南非国籍的。中间两个，一个是多伦多大学的博士，他大概从15岁就开始在加拿大生活。另外一个的话，Jamie BA是多伦多大学计算机科学系的助理教授。所以有可能，这台上坐的是三个加拿大人和一个俄罗斯人。只是看着脸的话，是这个两个白人和两个华人。

那么，XAI未来的策略会是什么样的呢？XAI现在应该也就是100多人吧。它具体是多少，这个数字呢，并没有那么确定。但我还是相信GPT search给我的结果吧，就是不要说900多人了，就是100多人的一个公司。这种公司呢，不太可能进行全面开花，七扯咔嚓我把整个的C端到B端所有东西都做起来。这个事其实有点难度。

20万张卡这个事呢，其实是别人都不具备的这个条件。它就可以进行快速的迭代。各种方法只要确认了，说我知道这个方法是什么样的。比如说DeepSeek出了论文了，出了开源模型了，那我方法确认以后，我就可以快速的在20万张卡上给你重现出来，甚至把你的参数翻多少倍再重现一遍。这个事他都是可以干的。这呢，就是暴力出奇迹。

就会有这样的结果。这个过程其实大家看看有点像什么呀？是不是有点像世界工厂？别人只要做出来了，反正我这有的是生产力，快速的复制、迭代更新就完了。所以，这个应该就是AI未来的路，就是甭管谁做出来的东西，我都可以快速验证、快速改进我的模型。

而且呢，它使用了完全的合成数据进行训练，可能有很少一部分真实数据吧，绝大部分数据都是合成数据。所谓合成数据呢，就是由其他大模型生成的数据。他通过一定的策略，要求其他大模型去给他吐数据出来，然后拿这个模型去训练。

Grok 3一旦使用了合同数据的话，会不断的说自己是Grok 2，或者说自己遵守open AI标准。这个事情你就避免不了，因为是用别的模型生成的数据嘛。虽然XAI说我们在生成数据的过程中呢，我们还进行了反复的检查，有错误都给去处理掉了，但是他不断的说自己是Grok2，说自己是遵守open AI的安全准则，这件事来说呢清洗的还不够干净。

Grok3呢，应该只做了很少的对齐和测试，就扔出来了。后面呢，是准备快速迭代的。你如果现在去问Grok3，或者是问open AI的话，他们都会告诉你说，Grok3本身呢安全性还是不错的。但是有一点是不可否认的，他训练完成一个月就发布了，训练完了以后，只是在XAI内部测试了两周，就直接把产品扔出来了。这个是挺难以想象的，因为像open AI这样的这种模型，它每一次训练完了以后，可能后边都是需要用年为单位去进行对抗测试，或者说进行调整，然后才敢把这东西放出来。现在XAI就是我这边训练完了，我就把它扔出来了。

而现在呢，对外公布的是，Grok呢是通过思维列进行道德商值评测，就是它等于是一个思考过程吧。那我在思考的时候，我就把所有的输入输出的信息，进行道德商值的加权平均，或者说做一个加权复合吧，做一个这样的这个分数出来。如果这个分数达到一定的阈值以后，就禁止回答了。他大概是用通过这种方式来去工作的。

但是呢，并没有进行大规模的真人对抗测试。当然了，这个东西你说以后是不是都需要像OpenAI这么干呢？不好说。OpenAI现在还没有特别大的问题，但是谷歌就属于有点走火入魔了，直接被忽悠瘸了那种，就是画出黑人华盛顿那样的，这个就属于忽悠瘸了。未来可能大家都会去像XAI这样往前走。其实像DeepSeek也是这样，它从2.5到3.0之间的发布，也是大概一个多月或者一个月左右的时间就扔出来了，所以都不会做特别详细的或者长时间的这种真人对抗。未来可能都是通过逻辑的方式，让模型的安全性达到一个可以接受的程度就完了。我不保证这东西绝对安全，大家凑合使就可以了。我在不进行严格测试的情况下，不断地去迭代，这个其实才是DeepSeek也好，像Grok也好，最大的一个优势。每个小时都在改进和升级，全世界都在开发新的算法和架构嘛。马斯克有20万张卡，就可以把所有的这些公开的信息都在我这20万张卡里头去试一下。别人只能进行小规模测试的时候，XAI就可以进行全量测试，甚至我可以在你原来的数据基础上，用两三倍或者更大的数据集进行测试，得到一个世界上最聪明的大模型。所以我说这个就像中国世界工厂的工作方式是一模一样的。

那么XAI的下一步会是什么样呢？应该是会通过快速迭代，把当前的模型整个先稳定下来。现在已经可能是世界上最聪明的模型了，咱们就相信马斯克说的吧。但是呢，这个世界上最聪明的模型还经常会胡说八道。当它的模型彻底稳定下来，基本上可以达到可用的状态以后，下一步其实呢都是流量大战。这些人去搞C端估计应该是比较难，因为就100来口子人吧。最新的模型不开源，你去在B端竞争的话，也是有一定难度的。你比如说我现在一个公司里边需要去部署大模型了，那我不能去部署Grok 2吧，我肯定是部署DeepSeek V3或者DeepSeek R1这样的模型。

因为这是当前开源的最好模型，所以在这一块儿的竞争上也会有一些难度。那么，XAI的策略应该是依靠不断的快速迭代更新，始终保持自己是世界上最聪明的模型，这样的一个位置，吸引部分B端和C端的用户加入进来。自己虽然是有一定的流量，但是X自己的流量对于XAI来说应该是不够的，因为Open AI已经花费1,400万美金打超级碗广告了。所以，现在的AI行业已经进入了一个流量争夺的时代。在这个时候，可以靠产品好，靠模型最聪明，吸引一部分用户进来。像DeepSeek美国排行榜排第一，就是因为模型好，不是因为其他任何原因。他也没有那么多钱去烧这个流量去，他也不可能花1,400万美金去砸超级碗。XAI可能以后也只能是向这个方向走了。后面的路其实并不明朗，怎么依靠XAI把这个钱挣回来，现在还不清楚，还要等马斯克脑筋急转弯，让大家眼前一亮。

好，这就是我们今天讲的XAI的Grok 3大模型，到底是不是世界上最聪明的模型？暴力真的可以出奇迹吗？感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

鲶鱼效应搅翻AI江湖：DeepSeek 671B开源来袭，GPT-5和百度文心一言迎巨大挑战！

Luke Fan — Tue, 18 Feb 2025 00:46:01 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲DeepSeek。这条鲶鱼搅浑了水，GPT5要来了，百度也要免费开源了，到底是一个什么样的情况？大模型这个赛道未来会怎么去发展？

DeepSeek呢，算是彻底改变了游戏规则。OpenAI给整个行业挖的坑，到现在呢，还有一些公司没查出来呢。什么坑？就是客户端这个订阅20美金一个月这个坑。这个其实是一个非常失败的商业模式。谷歌到现在还在往外爬，因为谷歌他其实自己不太想爬出来。为什么？因为他一旦爬出来以后的话，谷歌搜索的广告收入就没了，只能在那里头装聋作哑了。Perplexity到现在也还在思考，到底是不是要爬出来。

大家有没有想过一个问题？开源模型，因为DeepSeek是满血版671B的开源模型，它对于OpenAI的伤害，到底是ToB的伤害大，还是ToC的伤害大？这是一个大家值得去思考的事情。虽然现在DeepSeek在很多的C端有非常大的影响力，就是很多的个人去下载这个东西去用去，但其实真正的开源模型影响最大的是B端。我这是一个自己的公司，我是一个政府项目，或者是一个什么样的商业相关的事情，我要去使用大模型的时候，一定是会优先去选择这种完全可控的开源模型，而不是说我去用人家的闭源的，买人家API。因为你一旦是有开源模型的话，你就可以选择完全私有部署，我自己买台服务器往里装就完了。

现在中国卖的特别好的就是DeepSeek一体机。什么叫DeepSeek一体机？就是它一个机器里边给你塞满了，比如说8块或者16块升腾910，华为的这个算力卡，可以把DeepSeek 671B的这样的模型直接塞进去，就是一台机器搞定。但是这机器很贵，这一台机器大概是三四百万人民币。但很多的大企业说，我们愿意去花这个钱。中国的那些大企业，特别是央国企，他们花这种钱还是蛮开心的。花完了以后，华为就可以发挥他们比较擅长的事情。

做这种ToB销售、做大客户销售，剩下的这个我们就不能细说了。所以一旦是有这种完全开源的大模型，而且是跟你这个OpenAI差不多功能的这种大模型的话，对于OpenAI也好，对于谷歌也好，最大的伤害是B端的。C端的其实你说有伤害吗？有，但是C端的人呢，主要是凑个热闹，我们上去看一下就可以了，发现“哎，慢了吧唧不太好使呢”，就跑掉了，也就这样。但是B端真的是差异很大，现在大家都已经开始动起来了。谷歌的Gemini 2.0 Pro已经发出来了，而且谷歌Gemini 2.0，就是Flash、Flash light什么一大堆的版本出来，那是真便宜，而且是比DeepSeek还便宜的一个价格。你不是跟我卷价格吗？我卷的比你还低，现在是谷歌的应对方式。

而山姆·奥特曼的话，也终于要发布他的GPT-5了。这个是路线的一个彻底改变，从去年年底12天连续的挤牙膏，到现在突然说“哎，GPT-4.5要出来了，马上GPT-5也要出来了”，这个转变是非常非常巨大的。而且我相信到目前为止，这个弯应该没有转完，这只是转了其中的一半，剩下的我们还要再等它继续去发布，还有一些新的消息，可能未来一段时间会出来。为什么说这个弯还没有转完呢？因为你还得开源一部分，你光说我4.5和5这事不行。到目前为止，OpenAI到底怎么开源这件事，山姆·奥特曼都没说，这个肯定是有问题的。

而且山姆·奥特曼也好，OpenAI也好，现在已经开始有流量焦虑了，就是他们的流量到底了，靠自然增长涨不上去了。所以他们1,400万美金，跑到超级碗去打广告去了。他们等于进入到下一个阶段了，原来就是我自然增长，再涨上去就完了，现在涨不动了。而且呢，除了出4.5和5之外，还要求什么呢？就是他还说了，我们要开放全部的功能给免费用户使用，不用再去说一定要交钱了。这个是非常大的变化，就是你甭管是GPT-4.5还是GPT-5，什么搜索、什么生成图片，这个东西免费用户都可以用起来。

这个是真的要革自己的命的路子了。GPT-4O以后，其实再往后发展，这个事本身是挺难的。就是普通的这种对话模型，在GPT-4O出来以后，我们就做过这个结论。其实GPT-4到4O之间，主要增加的东西是什么？是语音的部分，是多模态的部分，高级语音功能。为什么涨不上去呢？原因就是你再往上涨，大家其实没法欣赏了。

马上要跟大家见面的GPT-4.5，就是说未来几周就会见面。那么4.5代表的是什么意思？有提升，但是呢，提升又不够大，所以它的名字叫4.5。越往后发展，这个提升就越难被普通大众所感知。你说我今天去跟一个出租车司机聊个天，哎，聊得还挺开心。待会你在这给我做一个博士，我跟他聊天发现聊不到一块去。人家说什么我不懂，我说什么，人家都是像看傻子一样看着我。那这个事肯定是没法整。因为你GPT这种东西从4到4.5或者到5，你变得更聪明了以后，是不是就是我说点什么，对面都像看傻子一样看着我呢？这个就会很痛苦。

而且加入搜索以后的话，其实对于大模型本身，就没有那么高的要求。他只要把我们的内容通过互联网搜索以后，再去进行一个总结归纳的话，他对于模型本身的能力要求，其实已经下降了。还有一个问题是什么？就是越聪明的模型，对于安全和对齐就越费劲。我还记得在GPT-3.5出来的时候，他们就说说，我们这个模型其实训出来一年多了。那这一年多干嘛呢？就是不停的在去做对齐，做安全性的这种防护，不能让人去攻破它呀。而且发出来以后还不停的有人上来说，我奶奶告诉我怎么样，或者是我做了个梦造原子弹了什么，还不停的去绕他。绕了这么多年了以后肯定是攒的，各种各样的防越狱的手段越来越多。

那么现在GPT-4.5可能早就训练出来，但是他就为什么没有办法把它拿出来？就是没法去搞定这个安全措施。原来可能还要再去蘑菇很长时间，内部才能达成一致，说我们把它放出来。现在DeepSeek来了以后说算了，不用费劲了，咱们拿出去用吧。

其实，在Llama出来的时候，OpenAI这边就应该想明白了。就是在这个时候再把它做这个，那么安全其实意义不大。因为有开源的，你这个做的再安全都没有什么意义。

DeepSeek在安全跟对齐这方面呢，有点像拼多多的商品。原来很多人说DeepSeek是AI界的拼多多，这个是有道理的。拼多多的商品有什么特点？能用，这个东西不是说不能用，能用便宜，但是安全性跟稳定性呢，就没有那么讲究。你去拿DeepSeek，特别是DeepSeek的API，基本上是百无禁忌的。一个模型放在那里，那你说这个大模型这样百无禁忌，他有问题，你万一说点不该说的怎么办？

但是你想想，我们今天相当于雇了个人在家里干活。我们希望这个人的道德标准是由我们掌握的，而不是由DeepSeek或者OpenAI，由对方来掌握的。我觉得宁肯找一个百无禁忌的人回来，我们重新给他立规矩，也不要说哎，已经训练好了一个道德规范，在进我们家来。这个还是有区别的。而且现在大模型安全性这一块事，大家都还在摸索，谁也没有搞明白，到底怎么能够让大模型彻底安全下来。现在就是一抓就死，一放就乱的这么一个状态。DeepSeek就属于彻底乱带了，像Claude呀OpenAI，都属于抓的相对来说比较死。

但是我觉得对于很多ToB，就是自己可以去做这个开发的，这些用户来说，我自己把握，你不要指手画脚。GPT4.5这个呢，应该就是OpenAI的最后一个对话模型了，再往后不做了。再往后的所有方向都是向O系列，也就是推理模型的方向前进了。那么GPT5是什么？GPT5其实是不用太期待的一个东西，它呢应该会在几周或者几个月之后发布。这个名字呢应该是逼出来的，就如果没有人逼它，我估计它也就不叫GPT5了。GPT4.5发完就完事了，接着做O3、O4、O5，就这么发下去了。那现在不行了，要改方向，新的方向就是GPT5。那这个名字到底是什么意思呢？其实GP5不是一个模型。

它是一个AI agent的聚合体。他后面有大量的O系列模型，如O1、O3等，这些模型在后面盯着。然后，4.5这样的对话模型也在后面盯着。他呢，是每一次接到一个问题以后，根据用户的意图来判断，说你到底想干嘛，然后再调用不同的模型来解决用户的需求。

很多人使用OpenAI以后说很讨厌，说你这个上面有一个叫模型选择器的东西。你上来以后先要选，我到底是用4回答问题、4o回答问题、4O mini，还是用O1、O3，用哪个去回答问题。选来选去的很麻烦。现在甭选了，我们就统一入口。你就来问，问完了以后我替你选，替你去回答就完事了。你就不用管后边我是怎么调度的了。这个呢，算是又一次指明了方向。

OpenAI说这个话之前，或者山姆·奥特曼说这个话之前，谷歌呢，还是发了一大堆的模型出来。他那个模型叫Gemini 2.0 Flash、Gemini 2.0 Flash light、Gemini 2.0 Pro、Gemini 2.0 Flash thinking，等于是这个系列的模型出了一堆。OpenAI说别费劲，咱们统一接口。而且呢，所有功能都统一放在一起。像去年其实我讲过好多次，就OpenAI这个模型不支持上传图片，那个模型不支持搜索，再了一个模型不支持什么canvas，就是那种画板。每一个都是很别扭。现在说，哎都有，GPT5所有的这些功能，什么搜索、高级语音、多模态生成、生成视频、生成音频、图片识别、文件上传、canvas，统统都放在一起。就是你就不用管它后边儿到底是谁了，我给你搁一块儿完事儿了。这个还是非常棒的一个事情。

所有免费用户都可以使用全部的功能。那你说还有没有人付费呢？付费用户是可以根据付费的情况，获得更聪明的回答，或者是更多步骤的回复。但这个效果怎么样呢？我觉得还有待观察。我现在感觉，OpenAI又在给大家挖坑儿了。就前面它这个一个月20美金，我就觉得是个大坑儿。

免费用户获得这个比较笨的回答，付费用户获得比较聪明的回答。这件事我觉得被人歧视了，总觉得浑身不舒服。当然了，我现在已经准备要退定它了，一个月20美金，可能等到GPT5出来的时候我就退定了。以后呢，就是有钱人获得更聪明的AI服务，穷人的话面对的就是敷衍了事的扑克脸了。未来只有O系的推理模型还会继续发展，这种普通对话模型到4.5到头了，到此结束了。

为什么是走这条路呢？你说我们真的需要那么多工程师吗？真的需要去解决什么全人类的这个疾病问题吗？其实不是。这种推理模型有一个很大的优势是什么？它可以一部分地解决幻觉的问题。有的时候说真话，有的时候说假话，或者是有的时候一本正经胡说八道。这个事大家是受不了的。大家要注意AI犯错误的方式跟人犯错误的方式是完全不一样的。

人类犯错误的方式是什么？就是我们会在不熟悉的领域犯错误，还有什么？在疲惫的状态下容易犯错误。而我状态好的时候可能说的比较顺溜。人呢，在不熟悉的领域或者是疲惫状态不好的时候，情绪能表达出来，他会犹犹豫豫的，说的不是那么肯定。所以大家也比较容易判断你这个答案是不是靠谱。有很多人就他自己也不懂，这个东西到底对不对，但是只看对方的这个语气语调，就能猜出来：“哦，这个事原来你也不太拿准。”

人呢，在被反复询问的时候其实会不耐烦，这都是人的特性。AI正好反过来，它呢是任何时候犯错误的概率都差不多，就是甭管这东西你熟还是不熟，AI其实没有什么状态的问题，他都会犯错，而且犯错误的概率是一样的。而且呢，人犯错误的时候会显得犹疑不定，AI呢不管是不是犯错误都一本正经，所以我们经常说他一本正经胡说八道嘛。

当然AI有一个好处是什么？他被反复询问的时候不会不耐烦。所以推理模型呢，他就可以解决这个问题。一个问题我问你3遍，问你5遍，再拿这些结果进行判断，看看是不是一个靠谱的结果。所以这个就是O系推理模型，大家很努力地再去往前推这个事情的原因。

因为我最近一段时间是 DeepSeek R1 用的比较多。O1 出来，O3 出来，其实我用的都比较少。但是 DeepSeek 出来了以后，我还是很努力的用了一下。我发现就是很多事情，不是一些数学问题、物理问题、工程问题，就是普通的这种生活中的问题，你扔给推理模型去干，效果也挺好的。唯一缺点就是慢，还有一个就是啰里八嗦的。中间上这个思维链这个事是比较讨厌的，其他的都还可以。

再往后呢，就是 API 可能会比较麻烦。现在山姆奥特曼就是说以后 API 也是统一接口，但这个就很麻烦了。为什么？就是你可能问了一个很简单的问题，不定他哪根筋搭错了，直接跳到推理模型那边去干活去了。那你可能这一个问题就直接几千个 TOKEN，上万个 TOKEN 就直接干掉了，而且出了一大堆啰里八嗦的东西，你也不知道他在说什么。这个事是比较讨厌的。所以我估计 API 可能还是分模型去处理的，这个应该是让我们自己去选择。你不能说你替我选完了就直接干了。

所以呢，GPT5 呢其实是一个黑箱子。每个用户提问之前，也不知道会为哪个模型去服务，也不知道会获得多大的算力，或者是推理预算。免费用户获得的服务可能会不太稳定。就是用的人少，没准多给你思考一下；用的人多就拉倒了。就跟我们去医院看病似的，如果一大堆人在外面排着队呢，那大夫肯定可不耐烦了。但是你说哎，我有钱，我去看这个特需门诊，那个大夫肯定脸上笑出花来，说您哪不舒服，慢慢跟你说一下。当然我每次去看病的时候，那个大夫看我一眼说，哎，该减肥了。这个也是让我比较不爽的一个事情了。

现在呢，对于 B 端市场，统一黑箱的这个方式其实并不是一个特别好的办法。为什么？因为弊端市场他肯定还是要先试用，测试完了以后，再去确定说我是不是要去下单。那你现在没有什么可以定制的地方，上来给你一黑箱子，结果你说我弊端市场要测试的时候，遇到一个脑子不太灵光的扑克脸，那这个成单的可能性就会下降很多。统一接口为什么费劲？就是原来……

为什么大家不是做这种统一的接口？原因呢，是这样：就是大模型跟传统软件是不一样的。传统软件是模块化的，大家可以拼来拼去的。大模型呢，是训练完了你就不能拆分拆迭代了。说我训练完一整块，说我把胸间哪一块拆出来改一改行不行？不行，训练完了就是一整块，它是不允许动的。每一个模型训练完了以后，都需要单独的调整，才能够接上各种外挂。这个是大模型跟传统软件之间的一个比较大的差异。传统软件就是模块化随意增减，大模型是一次成型不可分拆。

那么，你说到底是一个诸葛亮厉害，还是三个臭皮匠厉害呢？像我们以前一起合作或者带团队干活的时候，都会理解这件事，就是沟通确认这个成本是很高，效率是很低的。很多事情都是说，哎，干脆一人把他干完了，也比跟很多人商量着做要快很多。所以呢，如果你有一个特别特别强的基座模型，要肯定要比一大堆的模型凑一块干活要顺畅的多。大模型之间的配合呢，其实更像是一堆人商量着干活。就是为什么原来没有统一接口，大家都是一大堆的模型让你去选，这个也是有原因的。

GPT5的这种方式呢，为什么说我感觉它像一个坑呢？这是一种突c的全能型助手，就是你甭管是问他什么问题，他都来给你判断意图，然后进行回答。可以说呢，是像端到端的这种智能助手的方向迈进了一大步。未来呢，给这种端到端的黑盒子做定制开发，或者是和系统集成的话，应该是比较费劲的。为什么呢？就是各种OpenAI基础上搭建的这个系统的话，它的底层会没有那么稳定。就是你每一次把命令扔进去以后，你不知道它会用哪个模型给你回复。比如说你写了5,000字的提示词进去，OpenAI给你回答一个好的，或者叫回答一个阅，已阅，那这个事不就这个哭笑不得了吗？或者是你问他说，哎，明吃什么呀，他给你思考了半天，说哎呀明天是一个什么样的日子，啰里吧嗦给你写了2万字出来，这个就可能会造成一些坑。

那你说统一接口这件事，对OpenAI自己有什么好处呢？有一个巨大的好处。

就是你要再想分析、开解、蒸馏它的模型，就费劲了。原来我们可以逮着O1去蒸馏，蒸馏出来的东西去训练，比如说DeepSeek R1。现在变成了一个统一接口的黑箱子，你说我现在想对你去进行蒸馏，大家想一想这多费劲吧。你不一定哪句话回来一个“已阅”，不一定哪句话回来了，给你回答一大堆乱七八糟事情。这个有点像咱们现在看3D电影，这个3D电影的效果未必好，但是呢，最主要的这个功能是防止盗录。就是我现在拿个手机或者拿个摄像机，在这个电影院里把这个3D电影拍下来，是没用的，出去没法看。所以我觉得统一接口这个事情，未来也许是大方向，但现在的话，应该主要是OpenAI一个防盗措施。

现在呢，商业上统一接口这件事呢，我觉得可能也是个坑。为什么？得屌丝者得天下，明显带有歧视性的这种政策，会把屌丝用户都推给竞争对手的。就像我们现在为什么在国内看病，大家老觉得不爽。你去挂普通号，就是要一堆人在那排队乌泱乌泱的，进去了以后这个大夫极其没有耐心。你每次这样看完了以后，你看旁边那个特需门诊窗明几净，大夫特别耐心的这种诊疗制度的话，你肯定会觉得不爽。所以在这样的一个情况下，免费用户你再怎么使，你都会觉得不舒服的。这玩意叫“不患寡而患不居”呢，这个是应该是有坑。

而且现在OpenAI，虽然号称每年可以降低成本90%，就是说我推理成本会不断下降，原来是10块钱的事儿，过一年就变一块钱了。但是呢，这一次失去的收益，估计不一定少于90%。目前OpenAI的收入75%来自于订阅，就是一个月20美金也好，一个月200美金也好，就是这个钱是占他整个收入的75%的。2024年可能预计他是挣了40亿美金，然后这个钱可能都不用算训练新模型，就是他原来的这个旧模型的这个推理，压根这个40亿美金都未必覆盖的了。到新的一年，他可能大量的订阅就会流失掉，C端用户一定会大量流失。B端用户的话，如果不走开源的路，那么在B端的这个市场上。

面对DeepSeek这种全开源模型，我觉得OpenAI的竞争力是比较差的。而且，如何盈利的问题现在还是需要思考。目前的收入还是很难覆盖公司其实有三大成本（不算人员成本）：第一个是训练成本，第二个是推理成本，第三个是推广成本，也就是获取用户的成本。

训练成本，比如说我招了一大堆科学家回来，来做新模型，我要去收集数据。这个成本是一次性的，我有一个模型可以对外服务了，我就可以一直收钱了。推理成本的话，就是你要让一大堆的GPU在那等着给我们回答问题。推广成本的话，OpenAI在这个超级板上花了1,400万美金，那个就叫推广成本。

正常的一个公司运作下来，应该是训练成本最低，推理成本应该比训练成本高一些，推广成本有可能会比推理成本还要再高一些。但是现在这一块大家还在有争论，为什么？因为原来推广成本最高的一个六小虎，现在快玩不下去了。Kimi花了好多钱去推广，结果发现DeepSeek一出来，完全为他人做嫁衣了。

使用大模型聊天工具这件事上，用户基本上是没有忠诚度的。只要有一个比你好的基座大模型，大家就直接跑了。所以大家也在想说，我是不是不应该花钱去推广，还是应该把这个模型再往前推一步。但是这个事没有地吃后悔药去。后面的话，我估计OpenAI还会有比较大的调整，应该会开源一部分东西出来。你如果不开源的话，对于ToB市场是基本上没有办法的。

说完OpenAI以后，咱们再讲讲李彦宏同学。那真的给大家演绎了一下，什么叫唾面自干。文心一言不但要免费还要开源。李彦宏呢，就属于被OpenAI忽悠瘸了的那个，上来就开始收费，什么都不行。文心一言还比较烂的时候，就找人去收钱，而且呢，一个月是50多块钱，很贵的这个玩意在中国。当然，这坑肯定是他自己愿意跳的嘛。搜索引擎嘛都是这样，因为他后边还有搜索广告输入。你一旦是免费让人用搜索，免费让人用这个东西，那你这个搜索广告收入就没有了。

所以，李彦宏就跳到这坑里去了。如果模型还没有遥遥领先就开始收费的话，那用户肯定是很反感的吧。他现在到底有多少人订阅了文心一言4.0版本？反正我是从来没有用过，也从来没有定过。现在的话，直接就是180度大转弯，文心一言全部的模型都免费，而且直接开放深度搜索功能。而且呢，带有搜索功能的其实是叫文心一言4.0 Turbo的一个版本。带有搜索功能的所有大模型，一般都是有什么Turbo、light呀，或者是快速的Flash呀，有这样的这种标签在上的。就是它实际上是一个中量级的，我估计可能也就是30B或者是70B这样的一个模型，绝不可能是那种几百B的模型。这是文心1.4.0 Turbo的一个版本。他准备呢，在未来几个月陆续发布4.5版本。他到底是陆续发布，还是直接向OpenAI学习，整一个统一接口出来，现在还不确定。而且呢，讲到6月30号，4.5版本就要开源。但是呢，具体4.5版本有几个版本开源，哪些不开源，哪些到现在都没有说。

另外呢，在让人失望这件事上，百度是从来没有让人失望过。我看到新闻以后就好开心的，赶快跑到百度去用一下呗，结果告诉你说不行，你现在还用不了，你要收费。我说不是免费了吗？他说对，我们从4月1号才开始免费的。那天是愚人节，我们要从愚人节那天开始免费。为什么会有这么傲慢的人？你这个免费了就要在愚人节嘲笑我是傻瓜，那天给我来用。今天我上去看了，还要求付费。据说最近一段时间，百度在开会研究怎么退款，因为有些人直接订了一年的，那你没有用掉的这个部分是要给人退钱的。未来到底会不会做统一模型的入口，这个还有待来去看。百度这条路会更加的难走，为什么呢？主要是搜索收入。因为一旦大家转型了，说我们以后都去用AI搜索了，百度的搜索广告输入就没了。现在根本就没有办法去填补这块空白。就算是我们去交这每个月的使用费，他挣那点钱也绝对弥补不了搜索引擎的或者搜索广告的这个输入。

根本就顶不住。所以，一旦流量流向了免费的百度文心一言深度搜索功能的话，百度的命格子就断了。谷歌其实也面临同样的问题。谷歌的处理方式是什么呢？到现在为止，Gemini的客户端还收费，但是呢，AI studio.Google.com，就是Gemini的这个程序员网站，大量的模型是可以免费使用的，最新的模型都在那里使。所以，谷歌是非常矛盾的。通过这个Gemini调用谷歌搜索，这个功能是可以的。我原来算过，具体是一毛多钱还是两毛多钱，我想不起来了，反正你调一次就要给钱，调一次就要给钱。这个到底是不是未来的方式不好说，大家也还在摸索。

Grok3和Llama4应该是在未来几周都会出来。所以我估计呢，2月和3月份应该会非常非常热闹，大家所期待的大模型都会出来。现在还有人说Claude也快出4了，这个事现在大家也在期待看看，他们到底能够做出一个什么样的东西出来。未来的模型市场，会向什么样的方向发展呢？其实核心的问题，到现在为止依然没决掉。什么是核心问题？就是大模型到底咋挣钱。这个事情其实到目前为止，谁也没想明白，特别是C端的钱，到底怎么把它挣回来。因为B端的钱，你一旦有这个彻底开源免费的版本了，这个B端的钱，就基本上跟大模型公司没关系了，后边的就是系统集成公司该去挣这个钱了。因为我们现在已经都有开源、免费的大模型了，我们只要用这个大模型就可以了，剩下的就是，我们去买这个几百万一台的一体机，DeepSeek R1一体机，买的过程中呢没准还可以有些回扣。剩下能够挣的钱就是C端的钱。那么C端到底咋挣钱？是这个广告费吗？还是做电商呢？还是做直播带货还是做什么？这个还是需要未来一段时间大家去思考。

OpenAI想的这个方式，就是给这个免费用户用笨一点的模型，给这个付费用户用聪明一点的模型。这件事呢，反正我觉得，这是OpenAI为整个行业挖的下一个坑，这个大家拭目以待，等这个事情开始跑起来以后。

咱们看看效果到底怎么样。这就是我们今天的第一个故事：鲶鱼已经来了，所有的鱼都得动起来，甭管你乐意不乐意。DeepSeek来了，所有的人就不要再想着在ToB这块能够大捞特捞了。在ToC这一块儿，怎么去寻找新的商业机会和商业模式，才是大家需要去思考的问题。好，这就是我们今天的第一故事。

ChatGPT O3 mini发布深层解析：山姆奥特曼首次坦言“历史错误”与开源迷局

Luke Fan — Tue, 04 Feb 2025 00:45:35 +0000

ChatGPT O3mini正式发布的时候，山姆奥特曼到底算不算是认错了呢？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲O3mini的发布，以及奥特曼到底在说些什么。

过年的时候，基本上是被DeepSeek刷屏了。全世界各地跟AI相关的，或者不相关的人，都在尝试去理解和阐述DeepSeek到底干了点什么，到底对于他们有什么样的影响。风口浪尖上的这些闭源大模型公司，特别是OpenAI，肯定也是坐不住的，把它的王炸级产品ChatGPT O3 mini给炸出来了。发布了以后，马上还去做了一个访谈，回答了很多相关的问题。在其中，承认了说在开源领域里头好像站错队了。

那么先说一下O3 mini到底是一个什么样的情况。O3 mini的速度还是非常快的，跟O1 mini的速度相近。它的性能应该是接近原来的O1性能。大家看到很多很多的评测，这个分高点，那个分低一点，也有很多人在那扑克脸，念这些评测的结果。但其实这些评测到底哪一个是什么意思，差异在什么地方，绝大部分人很难理解。我也不在这费劲跟大家讲到底是什么情况了。我只能说O3 mini也好，O1也好，包括DeepSeek R1也好，这些模型它们的能力差异其实已经脱离了普通人的认知范围，总之都很强就可以了。

现在推理模型的发展应该已经向着未来简史的作者尤瓦尔·赫拉利所设想的方向前进了。他设想的是什么呢？就是未来的社会有少数精英控制，绝大多数人会沦落成无用阶级。无用阶级就是他们既不创造价值，也没有任何的用处，可能未来的社会会变成这样。现在，OpenAI就在往这块走，DeepSeek R1也在向这个方向走。所以未来可能是少数精英使用这些博士级的AI模型去与解决各种人类的世界性难题，剩下的人，我们就是无用阶级，大家开心就好。

价格方面，O3 mini比DeepSeek R1中国部署的版本……

还是要贵的，就是比DeepSeek自己的这个API还是要贵。比DeepSeek在中国，比如说腾讯云或者是硅基流动上部署的也都贵。但是呢，它比在美国部署的DeepSeek 21要便宜。这个特别有意思，就是在together上，在美国的亚马逊、微软云，在这些云计算平台上，都已经部署了DeepSeek R1了。ChatGPT O3 mini比它便宜，也就可以了。

所以呢，在价格上也算是有了一定的进步吧。然后O3 mini呢是第一次向免费用户开放，原来O1、O1 mini都是免费用户不能用的，现在O3 mini免费用户也可以用了。Plus用户，就是一个月20美金的用户，每天呢可以使用150次。其实呢，O1和O1 mini这个用量，我从来没有达到过。那个我每天是可以使用50次的，每天150次的这样O3 mini的用量，我估计我也用不到。

像我面前站个博士，你说我看着他每天跟他说啥呢？我站在他面前就光剩自惭形秽了。这个也算是继续向公众开放的一种努力吧，与搜索相结合，这个是O3 mini做的比较大的进步。但是呢，他进一步退一步，退了是哪一步呢？他不支持上传文件，不支持图片的理解了。像O1的话是支持图片解析的，但是呢，不支持搜索。O1还支持canvas，就是它们的这种叫做画板。O3 mini支持搜索，但是不支持画板，不支持图片理解，它是这样的一个取舍吧。

但是这个呢不像是黄教主这种叫刀法精准，这个可能真的是想把这些功能都打开，还是有挺大难度的一个事情。当然，现在我们在ChatGPT里头已经看不到O1 mini的模型了，现在进去就是O1和O3 mini，以及O3 mini的一个高级版本。就是说你每次让O3 mini干活的时候，可以选择是使用普通思考版本还是深度思考版本。深度思考版本会更慢一些，然后输出的内容的话会更好一些。

O3 mini发布了以后，山姆奥特曼以及他们的一些高管……

就跑到Reddit上面去做了一个AMA的环节。所谓AMA呢，就是”Ask Me Anything”，就是问我任何事情，我就现场给你回答。和马斯克不和，所以呢，山姆·奥特曼是不会跑到Twitter上去做类似的活动的，也不会去谷歌或者是Meta上面去做类似的活动。但是，TikTok对于山姆·奥特曼这种政客来说，就太刺激了，也不会去。

当然，在这些平台上的OpenAI都是有账号的，只是呢，这种问答是放在Reddit上了。这个就显示出来OpenAI跟Reddit之间还是要更亲密一些，这个东西叫亲疏有别。OpenAI跟Reddit是有很多的合作关系的，比如说OpenAI向Reddit采购了内容进行训练，OpenAI是Reddit的广告合作伙伴，OpenAI为Reddit提供了AI驱动功能，这个是最重要的。

还有一个不那么重要的就是，山姆·奥特曼本人是Reddit的重要股东之一，这是他自己家的企业，因为Reddit是YC的孵化企业，它在孵化的时候，山姆·奥特曼应该是YC的CEO吧，大概是这样。

那么在整个的这个环节上面，AMA环节上面，山姆·奥特曼呢也承认了DeepSeek是一个让人印象深刻的创新产品了。然后O3的完整版本的模型，未来的几周或者几个月还是会公布的，因为现在公布的是O3的mini版本。新的图像模型正在研发之中，可能未来几个月还是会公布，因为去年的连续12天发布会的时候，大家本来猜测应该会有Dalle3的进一步的版本，可能会有Dalle4，但是呢没有出来，这个还在研发之中。

而且呢，也即将更新高级语音模块，这个是现在我最喜欢的功能，就是ChatGPT的高级语音。至于GPT-5呢，遥遥无期，这个还早呢。在整个的这个回答过程中，我们已经看到DeepSeek的事情呢，对于美国或者对于全球来说，应该已经算是尘埃落定了。怎么样尘埃落定了呢？第一个，这个事有没有创新？有，他们也承认。

这是一个令人印象深刻的产品，但是呢，也没什么大不了的。山姆奥特曼也说了，我们会拿出更好的模型出来的。你这个成本降低也就是这样，我们现在成本也降得很低。你在美国部署的这个产品，我比你的价格还要低一些，这个也就如此。

各大云厂商呢也都部署，英伟达、微软、亚马逊，together，很多的这些云计算厂商都部署了Deepseek。在这样的情况下，再进一步进行维权，去起诉或者什么限制，这个已经没有什么意义了。大家都已经跑起来了，而且英伟达还去玩了一个什么梗呢，就是说英伟达上部署的DeepSeek是速度最快的。在单台的HGX H200系统上，DeepSeek R1模型每秒能够处理3,872个TOKEN，这是一个多么恐怖的数字。原来我们都觉得这种推理模型很慢，你想它一秒钟可能几千字就哗就出来了，这个已经足够快了。

HGX H200系统是一个什么样的系统呢？8个H200的GPU，每个上面有141G的现存，就完全属于怪兽级的机器。那么OpenAI呢，应该也就算是承认了现实，就是Deepseak加入到了竞争过程中来，也就这样了。我们也不惦记再把你踢出去了。至于说你到底有没有抄袭，有没有违规使用，这个事我给你记着，但是呢，大家都用起来了，也就用吧。

未来呢，全世界应该都会去使用DeepSeek，因为现在英国也好，印度也好，包括日韩，都准备自己去部署DeepSeek，自己去玩耍去了。未来的话应该是各用各的，就是各国用户自己部署，自己定价，自己使用就完事了。至于中国的DeepSeek到底有多便宜呢，跟他们也没关系，他们也不会把他们的数据送到中国的DeepSeek服务器上来去用。

所以呢，DeepSeek对于整个的AI圈来说，到这里算是画上了一个暂时的句号吧。大家接着往前跑就可以了。那么到底有没有承认错误呢？这是我们今天要讨论的。首先呢，他讲到说，我们要把整个O3 mini的思维过程都完整输出出来。

原来在O1的时候，他并没有输出完整的思维过程。因为这种推理模型有一个思维过程：我先怎么讲，后来怎么讲，然后说什么东西。为什么原来没输出呢？因为怕被拿去蒸馏。如果把整个思维过程都拿出来了，人家拿回去，就直接训练自己的新模型去了。他们认为，DeepSeek还是很恰巧地获得了其中部分的工作原理，这些工作原理跟ChatGPT O1是一致的。至于到底是怎么获得的，比如说你是蒸馏了，还是怎么去猜测其中的这个结果或过程，反正你是已经达到了跟我一样的工作方法了。而且他原来并没有完全把他的推理过程都拿出来。

DeepSeek R1呢，是完全公开思维过程的。你问他什么问题，他要想很长。像我们经常问DeepSeek R1一些问题的时候，他光想的部分可能想5000字，输出的部分只有一个，比如说几百字的结果。现在他们决定了GPT O3 mini也去进行完整的思维过程输出。你们愿意去蒸馏，你们去吧，反正这个事已经没什么可藏着掖着了，后边已经冲上来了。

我试了一下O3 mini，它有的时候输出的这个思维过程是英文的。但是我今天还碰到了一次，输出了阿拉伯语的思维过程。我用中文问了个问题，然后这个中间的思维过程，哗，阿拉伯语就出来了，看的我是满天都是星星。这个思维结束了以后，最后给出的结果是中文的，因为我是用中文问的。怎么说呢，这种对于人很不友好。但是对于大模型来说，输出阿拉伯语的思维过程、输出日语的思维过程、输出英语的思维过程，这个其实是没有什么区别的，因为他们都可以拿回去蒸馏，只是降低了人的使用体验。

DeepSeek R1的思维过程呢，有的时候是中文的，有的时候是英文的。我还没有遇到过阿拉伯语这样奇怪的情况。反正思维过程大家都是进行完整输出了。山姆奥特曼也讲了，既然DeepSeek已经这么干了，那我们就干吧。

你要蒸馏？不行，你蒸馏他的去，或者你蒸馏我的都行，没什么大区别。我们也准备把所有思维过程都发出去。至于开源这一块呢，山姆奥特曼的原文大概是这样的：就是我个人认为，我们在这里站在了历史错误的一边，需要找出不同的开源策略。但并非OpenAI的每个人都同意这种观点，这也不是我们目前的首要任务。

这个是别人在问他，说你是不是要去开源的时候，他在上面给出的回复。很多人呢，看到了这一点，认为我个人认为我们站在了历史错误的一边，而认为这句话就代表着关于开源策略这件事情上，山姆奥特曼已经认错了。但是你说我是不是就可以认为未来他们马上就可以开源了？当然，大模型开源并不是把所有原代码都拿出来，而是什么呢？是开放一些权重出来，比如说像DeepSeek，像Llama，都是开放权重，就是我们拿回来以后可以再去进行部署使用，是这样的一个东西。在这件事情上呢，他说未来有可能会开放一些权重出来，但是现在这个并不是最重要的事情。而且在这里他也讲了，说有人不同意，就是并非OpenAI的每个人都同意这种观点，肯定还是有人希望继续闭源下去。

但是你说这个闭源的人到底是不是山伯奥特曼，这个不好说，因为至少他出来还是要站在一个比较高的道德制高点上说，我认为这事还是该开源的。我认为我们站在了历史错误的一边，但是有别人不同意。到底谁不同意，咱们接着往下讲。

OpenAI目前最重要的事情到底是什么？人家也讲了，说这不是我们目前的首要任务。OpenAI目前最重要的事情是融资。去年应该是第三季度吧，刚融了一轮，当时已经拿到1,000多亿美金了，现在又跑出来融资了，这个钱又造干净了。这一次的话，准备以3,000亿美金的估值再去融400亿美金左右的这个钱。而且在这一次的话，要摆脱微软的桎梏，原来都是微软出钱出的最多，微软已经出了130亿美金了，这一次的话是软银领投，孙正义领投150-200亿美金软银出。

剩下的其他人出，而软银呢将取代微软成为最大的投资方。这个是现在OpenAI最重要的事情：摆脱微软桎梏。因为谁不让他开源呢？里头有一个很重要的因素就是微软。微软呢是有OpenAI很多的独家合作权的，比如说它的Azure云上，有Azure平台的独家转售权。它可以通过微软云去销售OpenAI的API。

就是你现在想用OpenAI的API去进行开发的时候，官方有两个渠道，一个是在OpenAI的官网上，你可以直接买；还有一个就是在微软云上可以买，其他的都不行。你比如说我现在想在谷歌云上、亚马逊云上、Oracle云上去买的东西，不允许，没这事。这是第一个独家权利。

第二个呢，叫产品中的知识产权、使用权，比如说Bing，现在应该叫Copilot了，或者是GitHub Copilot，这些产品里头直接使用ChatGPT的大模型，微软是有权直接用的。第三个是什么呢？叫OpenAI API的独家托管权，这个东西只能托管在我这，不能托管到其他地方去，这是微软的独家权利。

那么开放权重的这些模型发放出去这件事，肯定是跟刚才我们讲的微软这些权力是相抵触的。微软也不能站出来说：“那我就放开吧。”作为微软这种大公司里头，任何一个下边具体办事的人都不敢去写这种协议。像我以前在公司里边做投资的时候，我们也绝不敢写这样的协议出去，什么都没有。我就直接写个协议，把原来已经拥有的独家权利直接放弃掉，这不行的。

但是在什么时候可以放弃这些权利呢？就是有新的投资人进来了。新的投资人进来以后，说他占股了，我们放弃一些权利，因为跟这个新的交易相互冲突了。在这个时候呢，可以进行一定的利益交换。所以呢，他可以趁着这一轮软银孙正义的投资，把微软这种独家权利争取回来，然后呢，再开放一些权重的模型出去。这是有可能的。

但是微软呢，这一次大概率不会去退出。就是孙正义给钱了以后，微软拿着钱跑了，应该不至于。微软呢，应该还会追加跟投。

应该在几十亿美金到100亿美金之间。他还会去投进去，按道理说呢，应该不会特别多。这但这个数字相对来说就比较敏感了。因为像投资里头呢，一般会有一种权利，就是新的投资进来以后，我们会再去给一些钱，保持原来的股份比例不降低。

但是呢，现在OpenAI内部的这些股份比例，肯定要重新调整。调什么呢？就是从非盈利机构，整个这个框架摆脱出来，要变成一家可以上市的盈利机构。这个过程的话，大家的股份肯定要重新去进行一些调整和分配。这就是现在OpenAI最重要的事儿，也就是星际之门已经正式开启了。这几百亿美金，也许在一季度就可以看到落地了。那这个是真金白银要给钱的，OpenAI要把这个钱收到手里面。

至于说这个钱，到底有多少是微软的代金券，这个一定是有很多是微软云的代金券，有多少是现金，到了OpenAI手里面，可能未来一段时间我们还可以继续吃这个瓜吃下去。

好，这就是今天我们讲的ChatGPT O3 mini发布，以及山姆奥特曼出来认错的故事。好，这期就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

DeepSeek现象引发中文圈狂热：开源的胜利还是遥遥领先的争议?

老范讲故事 — Tue, 28 Jan 2025 00:36:14 +0000

DeepSeek突然出圈，引发了中文圈的争吵。大家好，欢迎收听老范讲故事的YouTube频道。

DeepSeek在前面，我们已经出了一期视频，去讲它到底是怎么回事了。那么，DeepSeek最近肯定是更加的出圈。首先，DeepSeek V3，据说训练成本只有557万美金，震惊了扎克伯格，震惊了Meta。Meta说：“我们有好多的老大，他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金，那我花了这么多钱去组建AI团队，花了这么多钱去囤显卡，是不是亏了？”现在就有这样的声音出来。

而且，最新的DeepSeek R1，也就是它的推理模型，推理能力已经接近o1了。蒸馏微调出来的这些小模型，已经在很多领域里头超越了o1 Mini。在这儿多补充一句，什么叫蒸馏微调的小模型？像我的电脑上，也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的？它实际上是由DeepSeek R1去输出数据，然后拿输出的数据再去调通义千问2.5-32B的这个模型，最后得到的结果。这就是DeepSeek R1-32B，他在我的电脑上做各种推理，效果相当不错。

那么，据说受到DeepSeek R1的影响，山姆奥特曼已经做出了改变。原来，它的o3模型，包括o3 mini模型，免费用户是用不了的。就是o3 mini，可能能够给plus用户稍微用一用。现在他说：“不，这个o3 mini模型，我们要直接向免费用户开放。”而plus用户，也就像我这样的，每个月只要20美金的用户，每天可以用到上百次。其实这种o系列的模型，甭管是o1也好，o3也好，你一天真的想不出100个问题来，问他100次足够用了。

至于说完整的o3模型，以后是不是依然要在200美金一个月，甚至是更贵的这个版本里面才可以去用到，他现在应该正在抓耳挠腮地想这个问题。美国的媒体也做了一些报道。

而且，这些媒体肯定是看热闹不嫌事大的，就去说：“你看，我们封禁了半天，人家做出这样的一个东西来，震惊我们了。”这些话好多是他们讲出来的，各路大佬也都出来说话了。比如说，谷歌的前CEO原来就讲过：“我们遥遥领先，在这块比中国领先好多年，他们不可能追上。”再问他：“你说我们还是领先吗？”当时我觉得我们还领先一到两年，但是他们正在快速的追赶。

像这个杨立昆，Meta他们家AI领袖人物，他也上来说：“这个是开源的胜利。”都在去讲这个事情，包括很多在美国相对比较有影响力的这些AI圈的创始人，现在也都在纷纷接受采访，再去谈论DeepSeek的事情。所以，这确确实实是出圈了。

那你说，这样出圈的一个事，怎么在中文圈，或者叫中文社交媒体圈里头，大家就吵起来了？这个原因也很简单，因为中文的，特别是简体中文的社交媒体圈，一直都是非常割裂的。一群的二极管在里边去吵来吵去的。什么叫二极管？只有一边是通的，另外一边是不通的。

那么正面的声音是什么？第一个，厉害了我的国。你看，我们好厉害，你封禁了我半天，我小米加步枪也能够打赢胜仗。原来就是说，美国人有飞机大炮，日本人有坦克、飞机、大炮，但是我们小米加步枪，我就把仗打赢了。这个是我们一直津津乐道的一个事情。第二个，就是大量的震惊体。这个就是“谁谁震惊了，谁谁大吃一惊。”这个我们也使用了大量的震惊体来去描述境外势力看到DeepSeek以后的那种反应。

还有什么上来说，这个超英赶美那套东西，英伟达完了，Meta完了，OpenAI完了，他们都完了，以后AI这个圈子就全都是中国人的事了。这样也还有人在想，说美帝的封锁就是个笑话，封了半天，最后做出最好的东西的人还是在我们中国。这是正方的观点，或者我们叫粉红观点。

当然，还有反面观点，永远在讲说中国人还是不会从0到1的。DeepSeek其实是有更多的显卡的，并不是像他们说的只有1万张显卡，而是有5万张H100，也就是美国封禁的这种显卡。

这个也有人在去讲，还有些人说什么，说DeepSeek，这帮人就是一个小聪明，没有大智慧，都是在投机取巧而已。当然，也有些人上来说，这根本不是什么民营公司，后边一定是国家的一盘大企业，这都后边收归国有了，不用讲这事，这个都属于是知黑们，或者反贼们的一些惯常的话术。

继续来了，当然还有一些人再去讲，说这个数据是不是从其他大模型里头出来的，因为中国很多的大模型，训练数据都是从OpenAI来的。所以你每次问他说你是哪个大模型，上来都是说我是OpenAI家的ChatGPT，这个大家都会去做的。我记得DeepSeek V3当时好像也干过这样的丢人事，甚至还有人去怀疑，说DeepSeek这个数据是不是有侵犯版权，是不是有些其他的问题也都在询问。

甚至还有一些人上来说，美国是不是应该把这个封锁，搞得再严格一下，让他彻底做不出来不就完事了吗？这个没有办法，这些人他就是恨国党，只要是中国人做的稍微好一点点，他们就完全看不下去那个状态。这就是正反两面，现在正在中文的社交媒体圈里头撕来撕去。

当然还有一些困扰的声音，既不是正面也不是反面，或者说稍微偏正面一点的声音，他们说什么，这么好的东西干嘛开源给外国人看，咱自己留着偷偷藏起来，这个可能也是一部分粉红会有这样的声音吧。那么到底谁对谁错呢？我觉得我们没有必要去讨论谁对谁错的事情。

DeepSeek到底是不是遥遥领先，这件事其实是一个伪命题。我们一旦想出来遥遥领先了，这个其实是有问题的，因为遥遥领先这件事了，说我们不讲道理了，我就在你前面，你也不可能超过我。你只要超过我，他等于政治就不正确了，这个玩意才叫遥遥领先。

我们在某些领域里头得出了一些领先的结果，其他领域还在追赶。我们领先的这些领域里头，别人也在追赶，然后你追我赶的，把整个的AIGC事业往前推荐，这个才是真正大家应该去思考的问题。所以在所有的这些大佬的讲话里边，真正有价值的是谁讲的。

就是杨立昆，这个Meta的AI首席科学家，他讲的是什么？他说这根本就不是中美两国谁胜谁负的问题，这跟这事没关系。他讲的是什么？这是开源战胜了闭源，这是开源的胜利。这个是为整个DeepSeek事件定性的最好的一句话，请大家记住，这里头跟中国和美国没有什么特别大的关系。这些人在美国也能做出同样的东西来，也许他们的方向不一样，会做的跟现在的结果有差异，但也依然是可以做出震惊世界的东西出来的。而真正胜利的是开源，开源是一种最新的、最先进的软件开发的协作方式，是这样的一种协作方式战胜了原来这种闭源的传统方式。

那么这个项目到底是不是原创呢？DeepSeek你们是从0到1原创的，还是说在人家的基础上耍了个小聪明，没有真实的原创性创新？这个有很多人就上来说，中国人就不可能有原创性创新，我觉得这样讲是很不负责任的。第一个，在没有GPT-2，没有Llama，整个这些开源的大模型的情况下，就不会有中国的大模型产业，整个产业都不会存在，这个大家还是要去承认的。

我觉得与其去讨论是不是原创，我们更应该想的是什么，如何加入到创新大潮中去贡献力量，这才是真正应该想的。每一个创新都是可贵的，我只要是遇到问题，把问题解决掉了，它就是创新。至于说这个创新到底有多大价值，是不是可以积少成多、聚沙成塔，变成了一个很伟大的工程项目，我觉得我们只要慢慢地去堆砌，慢慢地去积累，总会有这样的一个量变，实现质变的时间点。

就算是美国人用的很多的，这些现在我们看到的很新的技术，其实也是有很多过去几十年，甚至上百年研究出来的。这些基础都是在上面逐渐地去改进，逐渐地去解决问题，逐渐积累起来的。我们不要老去上来就说，这个事你耍了个小聪明，那个事你搞了一个从1到100，没有从0到1，别想这个事，没有那么重要。那么DeepSeek是不是确实触动了美国大模型的产业圈呢？从DeepSeek开放出来的论文和原代码，大家都在努力地下载。

去尝试，去复现，去部署，去使用这块来看，确实是这样。这个DeepSeek确实触动了美国整个的大模型产业圈。而且DeepSeek的方法将会深刻地影响美国项目未来的方向，或者说将会深刻影响全世界AI项目未来的方向。那么是不是应该收紧制裁呢？

如果前面没有制裁，没有这么多拜登说我要去怎么制裁，哪个学生不能来，什么国防七子怎么回事，没有搞这些事，DeepSeek团队中的可能一大部分人现在应该都在美国。这就是制裁的结果。如果没有前面的显卡禁令，那么国内可能会更早地贡献出来比DeepSeek更加有趣的模型。这就是制裁的结果。

千万不要想着可以靠制裁去得到什么样的后果，唯一的后果就是本来应该在美国的很多创新的人才，他们留在了中国，在中国做出了DeepSeek。本来让全世界、全人类可以在大模型的方向上跑得更快的很多的发明创造，因为限制没有做出来，这就是制裁的后果。

那么“厉害了我的国”这件事到底对不对，其实完全没有必要。咱们举个例子，相当于什么？四个人在这打麻将，咱们四个劈了啪啦，打麻将打得很开心，打了一晚上了也得胡个多少圈牌了。突然有一个人开了个杠出来，开完杠出来以后，他身后有一堆的亲友团，直接就爆发了：“你好厉害，你居然开杠了！”导致这个麻将没法打下去了，这到此结束了。这个其实是没有必要的，开杠就开杠呗，这一圈你要领先了一次，那咱后边还打不打了？

整个的大模型产业创新，实际上就像是大家在这打麻将。你不能说你取得了任何成绩，大家停下来等我先庆祝个两年，咱们再接着往下打，这没有任何意义。麻将还要接着打下去，这才是真正看待“厉害了我的国”的方法。

你像中国人，当然有的时候会有一些怪癖。你比如说，国人看到了一个会讲中文的老外，哇，那叫激动：“你的中文讲得实在太好了！”觉得特别有面子。但是如果老外看到了一个会讲英文的中国人，完全没有反应：“讲英文呗。”这些讲英文的人，有黑人，有白人。

有华人，有各种面孔的人，还有印度人。有的讲得好，有的讲得不好，都没有任何问题。就算讲得再字正腔圆，他也没觉得这事有多稀奇。但是你像中国人，你要看到一个老外讲中文讲得再荒腔走板，你都要冲上去，哎呀，你实在讲得太好了，我觉得太有面子了。这个算是中国人的一个民族性。

对于被DeepSeek所震惊的这些美国人来说，他们真正看到的是什么？他们真正看到的是，有人做出了新的科技创新，仅此而已。而且还发表的是英文论文，内容放在Huggingface上没有什么障碍，大家就可以直接用了。你并没有说我把这东西写成中文论文，只放在国内的，比如说某一个开源平台上。你要想用，我还要爬进来去使用，还要找人去看这些中文文件，没有。你上来，你也是发表的英文论文，大家全世界的人都是这么干的呀。你法国的这个团队，你去发表论文，你也是发表英文的；以色列团队，你去发表论文，你也是发表英文的；中国团队，你也发表了英文论文；美国团队也是发表英文论文。这有什么差异吗？没有什么差异，大家一起推着这个事情往前走就好了。而且他们自己的团队里边也有一大堆的亚洲脸，这事不是很正常吗？你们在瞎激动什么呀？

这个就是“厉害了，我的国”。这个事其实是不可取的。再往后咱们来讲一讲，哪个老外要完蛋了没有？咱们前头不是想Meta是不是要完蛋了，英伟达是不是要完蛋了，OpenAI是不是要完蛋了？咱们看一看，首先对于Meta来说，有些事情是有些过分了，比如说557万美金完成的训练，这个里头是仅仅计算了用了这么多显卡，应该是2048块显卡，训练了多少个小时，只是算了这个数。他是557万美金，你的数据是什么样的成本，你的人工是什么样的成本？而且训练这个东西，它不是训练一次就行了的，特别是像MoE这样复杂的架构，它可能中间会失败非常多次，然后进行架构的调整和重新设计，重新训练。那么最后你用一次训练的，而且仅仅是训练成本。

来去替代Deepseak V3的开发成本，这件事本身是不对的。所以不要想着说，这边557万美金就训练了一个大模型出来，Meta就天塌了，没有这事。Meta现在也表态了，我们要继续加大力度买显卡。原来有60万块显卡，今年准备买到130万块，充分的去买显卡。买完显卡以后，还要再继续努力的去训练新的模型。

现在等于又多了一条训练的路径。原来Meta说我这有训练的路径，怎么去从LLama1、LLama2、LLama3、LLama3.1、3.2、3.3怎么训练上来。现在DeepSeek又给我提供了很多新思路，那我在做新的训练任务的时候，可以有很多的新的训练方案去尝试。最后可能再训练出来的LLama4，就会比原来的LLama3要强，非常大的一块，这个还是不一样的。

所以对于Meta来说，那咱们就上呗。原来可能我一共有5条路可以尝试，现在又多了两条路。那么排列组合一下，怎么能够把这些路径都设计好，去训练出新的LLama3来，这个是大家可以看的。XAI其实没说什么，但是Grok 3的训练，估计也会增加很多新的训练方法，可以进行尝试。

对于英伟达来说，千万别建议英伟达废了。当然英伟达确确实实最近的股价又在开始波动，现在都不敢讲是英伟达股票涨了还是跌了，因为总有人过了半个月回来说，你现在不是说跌了吗？你看涨回来了。这个英伟达作为这么高市值的公司来说，他的股价来回发生波动是很正常的。那么对于英伟达来说，这应该是一个巨大的利好。为什么？因为有人能够把这样的模型用起来了，能够这么便宜、这么好用的模型开源出来，那么大家就会疯狂的去买显卡回来，把自己原来的模型增加上这些新的方法，重新去做训练，重新去做微调或者去做蒸馏，这是大家要去干的事情。

所以这个事对英伟达是有好处的。另外很多的AI agent公司，也会自己去部署自己的算力中心，然后去部署这个开源的DeepSeek模型，就可以跑起来。

这个对于英伟达来说也是利好。大模型应用的成本更低，效果更好，各大公司都会疯狂地买显卡的。至于闭源模型来说，他们确实是要压力山大了。刚才我们讲的这些，不管是Meta，还是XAI，还是最基础的英伟达，实际上我们都是在讲开源路径。那么闭源路径，比如说OpenAI，他们就要想一想怎么办。它的领袖地位在发生动摇，Anthropic肯定也要承受一定的压力，因为它的价值肯定会下降的。

至于谷歌到底发生什么事了，这么大的公司还没反应过来。云计算厂商应该是久旱逢甘霖，不管是微软、亚马逊，还是谷歌、Oracle，都是说我是云计算厂商，你是开源的模型，我给你部署上来。那么以后使用我们云计算机房里边这些客户，你就可以在我这直接使用同一个机房里面部署的DeepSeek大模型了。这个对于他们来说肯定是好事，他们也还会再去买一些显卡回来。当然了，这块就有可能会去买AMD的显卡了，因为AMD的MI 300据说已经把DeepSeek V3跑起来了。

这个其实也很简单，因为AMD是Pytorch基金会的一个核心贡献者，给钱的人。你要去跑这样的模型，肯定还是要去使用类似于Pytorch这样的工具。只要能够让这个工具可以跟AMD的显卡进行很好的兼容，可以进行推理，那么AMD现在号称说我内置了DeepSeek V3，这个话就是稍微有一点点歧义。但是大家可以认为说，我只要是买AMD的显卡，就可以把DeepSeek V3跑起来，这个没毛病。

那么其他的这些AI Agent厂商，这个也是救命稻草来了，比如说Perplexity，还有Cursor这样的AI Agent公司。他们原来必须要去调用OpenAI，要去调用Claude，这个东西很贵，而且你掌握在别人的手里面，你所有的用户数据别人都可以看到，这个肯定是非常不爽的。现在这两家公司已经都在产品内部集成了DeepSeek V3。

甚至可能正在集成 DeepSeek R1 这样的推理模型。那么未来可能越来越多的 AI Agent 的公司会走这条路。2025 年就是 AI Agent 年，而他们可能很多的这种应用，都将在 DeepSeek V3 或者是 DeepSeek R1 这样的模型上继续往前快速奔跑。

至于国内的公司，肯定也在努力。这两天，第一个是豆包 1.5 Pro 版本出来了，也是 Moe 模型。而且豆包喊的是什么？“我所有的数据都不是来自于蒸馏，都不是来自于其他模型，所有数据都是我自己的。”这个确实在这点上要比 DeepSeek 要好一点。为什么？因为使用了别人的数据后，可能会把一些偏见带到自己的模型里，而这往往比较难以发现。就经常你去问他说：“你是谁？”上来说：“我是 OpenAI 的 ChatGPT。”

那么豆包为什么有这样的底气？后边是字节跳动，有今日头条，有抖音，这样的平台在后头顶着。他有的是数据，而且他的数据都可能经历了几万人的筛选、过滤和标注的。所以在这块上，它确实是有一定的优势。我这两天也试了一下豆包 1.5 Pro，除了这个政治正确太严重之外，没什么大毛病。它这个豆包 1.5 还更便宜，它比 DeepSeek 还便宜。原因也很简单，DeepSeek 再怎么便宜，是人家成本低，而豆包的话，我可以赔钱，我可以发补贴，这个事你是比不了的。

另外，Minimax 也出了一个 01 的模型，叫 Minimax 01。它原来没有开源，从 Minimax 01 这个版本开始去开源了，刷分刷各种排行榜，也刷得很高，但没有什么响动，大家也没有觉得 Minimax 怎么样。原因也很简单，开源这个事并不是一蹴而就的。我今儿开源了，大家就必须要马上冲下来三拜九叩，没有这事。开源是要长期的开源，开源很长时间了以后，才会有人慢慢地去看你的代码、看你的论文、看你这些信息。

因为我们要去使用一个开源系统，一开始这个成本是很高的，你需要招聘这些会使用开源的人。

这些人的本身的薪资，就要比那些不会使用开源的人要高。高好大一快的，而且这么大的模型，这么大的系统，我们要把整个的系统都进行阅读、进行理解，这个成本是要支付的。如果你今天突然说我开源了，那么大家也要看一看，日久见人心，明天你万一不开了呢？这个还是要逐渐积累。而且这个Minimax的开源，应该开的也没有DeepSeek那么彻底、那么完整。DeepSeek就属于彻底，所有东西都拿出来，你们就看着，照着东西可以重现。这个迷你Max还惦记着说我是不是开点源，吸引点用户回来，我是不是又可以找他们收钱去了。他在想这样的事情，那这个就一看，就不是一个真心开源的项目。

在这种基础上，他现在依然没有什么响动。Kimi 1.5也出来了，刷了分。咱们中国大模型出来，甭管豆包、Minimax和Kimi，都是先去刷分，刷排行榜。排行榜刷完了以后，好像也就没有什么响动了。一个闭源模型，那在这样的情况下，我有开源的，我干嘛要用你？闭源一定是如此的一个情况了。而且Kimi 1.5的政治正确，要比这个豆包还严重，所以也就到这了。

最后总结一下，这是开源对闭源的胜利，这点非常重要。而且真开源是很难的，也是会被认可的。那些假开源，你要看看是不是愿意坚持下去，把自己的假开源慢慢的做成真开源。而且大力出奇迹这件事情依然存在，现在只是说在大力出奇迹的时候，我可以多换几个姿势，多换几个角度了，但是大力依然出奇迹。

不要老想着中国到底能不能创新，是不是遥遥领先，这件事根本就不重要。重要的是什么？重要的是在开源的模式下，快速的奔跑，参与到标准的制定者中间去，这个才是重要的。否则可能折腾了半天，你压根就不在这个标准制定者里面。因为现在大家都在开业，大家都是说我们向标准里边贡献东西。那么你不能说在前面贡献的时候，我们没有上去，我们都敝帚自珍，把门关起来自己偷偷的在这研究，等人家把这个标准拿出来以后，冲上来说不行。

我们要改一下这标准。我不认你这个标准，谁理你？所以在这个时候，大家就要疯狂地冲上去，参与到标准制定里边去。其实在这里再补充一句，原来在国内各个企业里边，在全世界标准组织里边，贡献最多的公司，在开源项目里边贡献最多的公司是谁？是华为。如果没有制裁，可能华为已经在这条路上走得很远了。但是因为制裁的原因，现在只能自己把门关起来，喊“遥遥领先了”。这个也是制裁造成的一个非常惨重的结果。

好，这就是今天跟大家稍微总结一下，DeepSeek出圈了以后，中文圈到底在吵什么，以及我的一些观点。好，这期就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

深度求索背后的创新力量︱隐士天才如何重塑中国AI未来？揭露神秘Deepseek模式！

Luke Fan — Tue, 07 Jan 2025 13:28:37 +0000

深度求索的创新模式可以复制吗？既然他能做出来，而且也让美国人愿意接受我们的这种智慧，这个事是不是可以再来一次？这个事能复制吗？

首先呢，咱们要从幻方量化开始讲起。幻方量化呢，我其实跟他还稍微打过一点点交道。我自己个人的经历是，2009年到2012年之间，就职于盛大创新院。后来大概到11年、12年这两年呢，就开始分拆，分了很多的这个子院。其中有一个院呢叫多媒体院，多媒体院的院长呢叫陆坚。他呢是浙大的本科，后来到美国去读的博士，然后去了苹果公司。就是如果你现在用Final Cut，用QuickTime，这些东西就是他写的。后来呢，他在我们那里当了两年的院长，离开盛大创新院以后呢，是LinkedIn中国的总经理，现在应该已经进入半退休状态了。

他呢是浙大的，浙大呢其实在杭州，培养了大量的图形图像相关的这种人才。当时呢，做媒体院的时候，陆坚就带进了一大批浙大的学生，做各种的图形图像处理的事情。在15年还是16年的时候，有一次跑去杭州，找很多原来盛大的老同事去吃饭，因为好多人去阿里了嘛。吃饭的时候呢，就有一位老同事约了我，说你来了我也吃个饭呗。这位老同事呢就跟我讲，说咱们做个量化交易，说我们现在干这个事。但当时他们这种量化交易呢，还是私下里边做，自己有一些钱在做一些，挣一些小钱，并没有公开对外去募资。

我印象里是在18年、19年的时候，他们就开始公开的亮相，说哎，我们开始做AI选股了，用AI来进行交易决策了。这个公司实际上就是幻方量化。幻方量化里头最大的那个创始人，就是占85%股份的那个创始人，我没见过，但下边有一个占7.5%的，这个创始人是我以前的同事。他们呢是从私下里头几个人去做，逐渐正规化，开始向外销售产品，实际上也就是募资嘛。

他整个的幻方量化的团队呢，也是由一群浙大的算法天才凑一块干。幻方量化的发展呢，他算是中国首支达到1,000亿规模的量化基金，早期的业绩还是相当不错的。

有几只产品达到了400%的收益率，就是你给他一块钱，最后出四块钱出来，这个还是非常非常不错的。到2024年的日子就没有那么好过了，因为幻方量化里头有很多的这种基金，或者有很多的产品，是以中小盘股为基础方案的。因为你做大盘股，你是做不动的嘛，只有在中小盘股里边去做涨做跌，你才有这种盈利的机会。

所以呢，他们到2024年的有几只产品有10%的收益，但是呢，也有几只产品是以中小盘股为基础的，就直接亏掉了，大概亏了5%到6%左右的吧。我觉得以中小盘股的2024年A股的一个状态，只亏这一点点，他们已经很努力了。

现在呢，幻方量化已经不是国内最大的这种量化基金了，现在国内最大的量化基金都是玩大盘股的，就是已经是跟这个国家要一起往前走的这些基金，他们才可以长得更大一些。现在幻方量化下的应该有几只500亿或者几百亿这样的产品还在跑着，没有任何问题。

幻方量化下面的这个老大对整个的这个技术非常非常感兴趣的，2023年成立了叫深度求索的这样的一个新公司。他们这个公司呢，没有什么资金的压力，因为幻方就是投资方。这帮炒股票的人，做过量化交易的人，手里反正有的是现金，说我们投入就完事了，你也不用再去出去找钱了，也没有短期内的盈利目标。我也不是说做到哪天必须要挣到多少钱，也不需要出去跟人家显摆。

因为很多的创业公司，你不断的要拿出业绩出来，是为了融下一轮的钱，他们没有这个压力，说我们就是为了爱好，为了梦想，为了荣誉，去干一点自己喜欢的事情吧，就是这么一行的一帮人。所以呢，他们只做基础研究。那种既要又要不可取，什么叫既要又要呢？就是我又要做大模型，我又要去做行业应用，我又要去做ToC的产品。国内其实有几家公司是这么干的，但是对于这个深度求索，就是Deepseek这个公司来说，他们就做大模型，其他啥也不管，做开源，也没有ToC的产品。他们倒是有一些ToB的产品，北京有一个深度求索的公司。

是在去接一些ToB的这种集成单子，还是在做的？然后大模型开源了以后，开放API，大家就上那上面去用就完了，而且很便宜。他们呢是不做APP的，坚决不做APP。目前呢也没有多模态，未来应该会做，所以是一个很单纯的公司。咱们对比一下其他的公司，既要又要，比如说李开复的零一万物，一开始做开源，然后呢说不，这个开源不挣钱，我们要去做ToB系统集成去。说这个ToB系统集成，好像打不过别人，很简单，你一个台湾人，在中国现在这样的一个状态下，你想去接一些政府单，多费劲，这个就没法整。

说那咱们去做ToC吧，做了一个叫万知，一万两万的万，知识的知，做了这么一个产品。这种东西呢，你又没有流量，你跟这个豆包打，你根本打不过人家。别说他了，什么通义千问、文新一言、文小言，这些东西都打不过豆包，因为人家有流量，你没有。后面的开源也懒得做了，反正就在这一点点往前蹭，又号称拿了一笔钱，看他后面在做什么吧。

这是李开复的零一万物。Minimax呢，ToB的业务在做，ToC呢有一个叫Toky的产品，就是这种陪伴型产品，还做了海螺，就是可以做这个文生图、文生视频，这样的产品都做出来了。这个Minimax呢，就是ToB、ToC，他自己也有做API的，都在做。就是所有既要又要，还要也要的，这个就是他们。但是呢，他这几块做的还可以，不像这个李开复那个似的，哪块好像都没开出花来。

然后百川智能他们呢，是没有这个ToC的产品，除了模型研发之外，剩下就是行业解决方案了，什么银行、医疗什么开始做这玩意了。然后质谱呢，是模型研发订阅和授权，剩下也是行业解决方案了，也是没有ToC产品的。接月星辰呢，是模型订阅行业解决方案，也有ToC的产品。月之案面也是全活，什么都干。

以上咱们讲这个呢，就是号称的中国AI六角龙，就这六个。然后大厂呢，你做一些全活，这是合理的，小公司何必呢？哪个都不想放过，我ToC我也要做，ToB我也要做，模型我也要开发。

开发完了以后，我还要立个什么出去跑分什么的，都要去干。所以跟他们比起来，Deepseek就要单纯纯粹的多。我就去做模型，而后我还在模型的基础上做各种的改进。改进完了以后呢，跟全世界的大模型的圈子里头一起去建立新的方向，建立新的标准，一起往前走。

咱们回来讲这个Deepseek，他的领导跟这个领头人是很重要的。这个人呢叫梁文峰，这个人我没见过。我那个以前的老同事是下面的一个小股东，早期的三个人应该都是技术，主要就是做这种研发的。实际上，他们早期就是自己做，自己去炒这个股票，完全是自用的一个东西，所以早期并没有那么商业化。而且呢，做量化这种人呢，是隐士大侠，他也不愿意出来跟你见面，也不希望去跟你谈很多事情，所以这个人在外边露面的机会也不多。

我后来找了找，在网上找了两篇梁文峰的访谈。今天这个后边的故事呢，有很多是来自于访谈里边的信息。做量化的时候，一开始确实是比较隐蔽，而且呢，没有这个海外大厂经理。就是大家要知道，像国内的这些做AI的，这个六小龙里头，有很多是由海外大厂经理或者海外名校经历的。即使没有的话，可能还有清华呀，还有很多的什么百度或者是格林深瞳这样的国内AI大厂经历也是有的。

但是呢，梁文峰就没有，浙大毕业了以后，中间这段的生活就不太确定了，因为他也没有什么对外的披露出来。后边呢，就开始做幻方量化，炒了股票挣了钱以后，就去做Deepseek了，就是这样的一个情况。这个人呢，每天像极客一样去干活，或者像黑客一样去干活吧，也不怎么说话，每天就是看论文，写代码，参加小组讨论，也没有那么多的管理的事情。

肯定的天才是必然的，这种黑客型的天才呢，在中国各个角落里头还是隐藏了不少。这个愿意为理想荣耀去努力的人还是有的，有能力做自己想做的事情，还没有钱方面的限制。这个呢，就相对来说要难一些，因为我见过很多的黑客型人才，但是呢，他们都是在为五斗米奔波。

又有能力，又有想法，还有钱，他就会做出像Deepseek这样的奇怪的东西出来。他在前面讲过一个很有趣的话，是“务必要疯狂的拥抱雄心，且还要疯狂的真诚”。他是这样去要求的，而这个话呢，是2023年4月11号，幻方在发布大模型的时候，他们说：“哎，我今天要开始做大模型了。”做公告的时候，引用的法国新浪潮导演克里弗曾经告诫年轻导演的一句话，那咱们再说一遍：“务必要疯狂的拥抱雄心，且还要疯狂的真诚。”这种人，他们能够在钱财无忧的情况下，做出一些让人大吃一惊的东西出来。

因为幻方前面也是在做AI的大模型，就是在ChatGPT出来之前他们就在做，所以早早的呢，囤了1万张的A100。幻方他们应该是全国除了大厂之外，唯一的一家手里有一万张A100的公司。你想，A100这个东西刚出来的时候，一万美金一块，一万张A100，他就是一亿美金。他手里能够有这样的一个资产，还是非常非常吓人的。

那么招聘方面呢，因为老板自己并没有海外留学大厂工作，所以呢，他在招聘这块也对这块要求的没有那么重，因此招了很多的应届生回来。要求的是什么？第一个要感兴趣，你要喜欢这事；你要不喜欢就别费这劲了。第二个，除了喜欢之外还要什么呢？要有基本功，基本功一定要扎实。因此，他要求的第一个叫热爱，第二个要有能力完成项目。你不能说我光喜欢，但是我做不出来这事不行。

所以他们基本上是以这个标准去招聘的。当然，现在也有很多的清华北大的人被招进去了，原来呢，可能主要是浙大的人稍微多一些。他们的创新呢，是一种自下而上的创新，不是一种自上而下的创新。每一个人呢都可以提出自己的想法，而且他们不需要去提前分工，比如你去做数据标注，他去做哪块，谁去跟什么东西，没有这个。每个人呢都可以按照自己的爱好和路径去做事情。

像前面我们讲的那个MLA，叫多头潜在注意力机制，这个东西呢，就是一个很年轻的研究员提出来，提出来完了以后说：“那试一下。”谁都可以提出要求来，那试一下。

然后，试的时候呢，发现哎，有点效果。有了效果之后，分配算力资源就开始继续往下做。就是当大家初步验证成功了以后，就会从上而下的再投入资源。这个呢，其实很像美军搞的那套东西。美军说，司令部里边这些长官，他是不了解前线情况的。所以怎么办呢？让这个小团队出去，你们现场侦查，然后向后边要各种支援：我要导弹、我要空投、我要撤退。后边人只管给支持就完了，或者给他们各种信息，让他们到前头去。打仗的人来决定这个仗怎么打。这个是在美军海外战争以后决定的一种工作方式吧。 Deepseek也是使用的这样的一种创新模式。像其他的都是老板是老大，他有经验，他一定说了算，下边人你就只管干活就完了，你们都是螺丝。 Deepseek在这块是有很大差异的。

Deepseek还干了一个什么事呢？就是很意外的挑起了价格战。在Deepseek V2发布以后，他们就进行了大规模的降价，100万TOKEN一块钱人民币。这当时的想法是什么呢？就是这事呢，不能赔钱。当大家来去用我们的这个和算力的时候，不能赔钱，但是呢，也不要求赚很多的钱，不用求暴利，稍微赚一点就可以了。所以呢，这帮人核算了一个成本，就直接把价格扔出来了。也没想到整个的行业会对于这个价格这么敏感，没想着会有人跟进。智谱马上就开始跟，将一个很小的模型降价了。大模型呢，还是比较贵的，因为质谱其实还是小龙嘛，6小龙的小龙，就是他还是融资干活的，钱没有那么丰富。但是后边字节的豆包，大模型就直接跟进了，全线降价，包括后面的百度的文新、阿里的通义千问，都在大规模降价，直接就把价格拉下来了。

所以呢，Deepseek就由此得名，叫AI领域里的拼多多，砍一刀嘛。但是呢，Deepseek就说了，价格我是挣钱的，我虽然挣得不多，但是我是有利润的。但是其他的这些大厂呢，就是赔本赚吆喝的一个状态了。那你说，中国是不是有很多的聪明人可以来做这件事情？很多人说呀，有大智慧的，也有的是小聪明的。

我们现在讲Deepseek这帮人，他们算大智慧吗？在我当时看他们去做量化交易的时候，我想这些人就是一帮小聪明。这个说个实话，就是如果当时他们在做量化的时候找我去要投资的话，我应该不会投他们。即使现在可能有一些这样的人找我的时候，我应该也不会投。

这种大智慧跟小聪明是跟性格有关系吗？其实我觉得有一定的关系，但是没有那么大。这个东西更多的是跟环境有关系。在大的这个环境要求你必须要为五斗米去思考的时候，这些人就会去变成小聪明。当他们衣食无忧的时候，就可以去追求自己的大智慧。而且中国人还很多，在这么大的基数下面，总会有一些大智慧的人获得合适的环境，或者说有一些聪明人，在获得了合适的环境下可以去展现他们的大智慧。这是我觉得中国在这块比较强的地方。

没有说中国人就只会从1到100，不会从0到1，没有什么原创性的创新。这个事我是从来不信的，只要做出有价值的贡献，别人根本就不会因为你是中国人就歧视你或者怎么样，没这事。在海外做出最大贡献的很多人，其实都是华人，很多也是从国内培养出去的人。

所以智慧本身是不要想高低贵贱的一个事了。中国人的聪明人比例是不是比较高呢？首先这个说法呢，政治不正确，种族之间是不应该有这个差异的。但是呢，中国因为文化传承跟生存压力的问题，会更加的重视教育。所以更多的中国孩子在很小的时候承受了非常非常严酷的，或者残酷的非人的教育压力，这个是没有办法的。

中国的文化传承是什么？自古以来叫“万般皆下品，唯有读书高”，或者是“士农工商”。一旦成为士了，你连税都不用交。咱们接受了几千年这样的文化教育，所以我们知道说任何人，只要是稍微家里有口吃的，一定要送孩子去上学，不能耽误他。

另外一方面，就是我们的生存压力非常非常大，动不动就是输在起跑线上。所以我们的孩子自小接受的这种教育，可能对于老外来说，他们就直接告你虐待了。最终产生聪明人的比例自然就高一些。

可能大家生下来没有那么大差异，但是呢，我们每一个人，甭管你能不能成才，甭管你有多聪明，我们都去用巨大的教育压力把它压一遍。可能很多国外的人也很聪明，但是呢，人就快乐教育，开开心心的吃喝玩乐，混了一辈子也就出来了。

但是中国可能稍微有点能念书能力的人，都被我们的教育体系给塑造成了一个可造之材吧。那么这几十年，这个生活环境、信息流动肯定还是发生了巨大改变的。可以做自己喜欢事情的中国聪明人，肯定会变得更多一些。

咱们甭管怎么说，这几十年的改革开放，我们能够获得的资金资源数据，从来没有像今天这样多过。这个事大家还是要去承认的，也不是每个人都活得那么苦大仇深。像Deepseek这帮人做量化的时候，我挣着钱了，那我就可以去追求一些自己喜欢的事情。

其实我是见过很多聪明的中国人的。原来我们去做盛大创新院的时候，是聚集了很多很多的聪明人在一起。那这个里头跟幻方又有一点相像，幻方是炒股票，自己手里有一堆钱，盛大创新院是做游戏，公司手里有一堆钱，说来我们去追求一下梦想吧，也是如此一个状态。

而且很多公司里边，还窝藏了一堆的扫地僧，就是他会解决很多的很细节的、很具体的问题。那你说这些问题，为什么大家老觉得这就是一个工程上的改进，不是一个从0到1的改进？原因很简单，因为这些人没有聚集在一起，没有让他们自由的去追求他们自己想干的事情，所以他们就只能成为扫地僧，而不能成为像Deepseek这样一鸣惊人的东西。

社区里边也有很多为爱好和梦想而努力的人。有些人呢，没有那么好的环境，但是也在努力，比如说那些独立游戏的开发者，那些开源软件的创作跟维护者。我们是见过很多的，说我喜欢这个事情，我就是愿意做这个事情，我真的是吃了上顿没下顿，这种人挺多的。

我曾经有一个以前公司投的项目，那是一个游戏公司的CEO，那也是一个很强的geek，自己的这个游戏做的不怎么样，每天在UDT社区里头揪着人家CTO扯淡。

讨论最新的物理引擎该怎么做。那个CTO还经常跟他之间相互的启发，相互的促进，做这样的一个事情。我呢，很尊重这种天才，但是这种人不是一个好CEO。那个案子原来不是我投的，虽然是我们项目里边的案子，但不是我投的，所以我也不会去投向Deepseek这样的公司。

当社会有一个基础保障的时候，这些人呢就会更大范围的存在，而且呢，有可能会创造出璀璨的成就出来。他是有一定的偶然性在里边。对于不同的环境呢，就应该有不同的应对方式。有些人说我想挣个快钱，有些人说我现在钱挣够了，我想追求点梦想，这个呢都无可厚非。

总有人问我说：“哎，我现在想投资，我有笔钱，我应该投什么好？”因为我原来做个投资人嘛，所以有人来问我这个问题，或者说：“哎，我有一个朋友，他们需要投资，让我来投，你看看这项目行不行。”也有人给我做这样的咨询。我给的答案一般都是一样的。

什么呢？第一个，你准备投多少钱？你对于回报的预期是什么？多长时间回报？挣回多少钱回来？这是你对回报的预期。再回报第三个是什么呢？你对于风险的承受能力是怎么样？这个钱如果就没了，或者是如果就亏进去了，你是不是愿意承担这件事情？绝大部分人回答了这三个问题以后呢，这个投资就黄掉了。他们压根就想不清楚，我到底对这个投资的预期是什么，或者说我到底能够承受什么样的风险，这个其实是很难回答的。

离钱近的人，或者说我要挣快钱的人做工程，找到清晰明确的路径，定好目标，直接冲上去，寻找可以融资或者让公司价值上升的人和团队。为什么很多人说：“我一定要谷歌挖个人回来，我要到百度挖个人回来，我要到自己挖个人回来。”因为这样的话，你相对来说比较好忽悠投资人嘛。投资人绝大部分是不懂的，一看到这个人的履历，这个好厉害，我要给钱，就变成这样。

然后把这些团队凑起来以后呢，拼执行力，实际上也就是内卷了。然后寻找漏洞，细节不断的完善，卷死其他所有人，这就是快速挣钱的这个团队要干的事情。还有些人说，我钱挣够了。

或者说钱一时半会不用太担心，我只需要追求梦想就可以了。这些人呢，心思就会更单纯一些。在小说里边，有一个名词叫做“剑心通明”。我这个心里头只有剑，没有任何其他东西，那他就可以去做一些不一样的事情。

当然，不同的人呢，有不同的追求，这个里头没有谁对谁错，也没有谁高谁低。我们也不要去笑话中国AI、六小龙这些企业。你说既要又要，没做任何创新，模型架构就直接抄人家的，别笑话人家。大家只要自己的逻辑自洽了，说我就是要去做一个公司，我要把公司做上去，我要对投资人负责，我要在这个过程中做出一些有趣的东西出来，就可以了。这个事并没有什么问题。

那么，深度求索的未来会怎么样？人怕出名，猪怕壮，因为呢，资本已经盯上他们了。大厂呢，会快速的抄袭迭代他们的架构和模型。不用等美国人开源，中国人开源了以后，其他中国人也会自主创新、自主研发的，挖人是必然的。小米刚刚千万年薪，挖的这个叫罗福莉的人，就是Deepseek V2的一个主要贡献者。至于小米千万年薪把它挖回来以后，是否能给小米带来什么，这个我们拭目以待，不一定。

然后，中国呢，有一个特别有趣的名字，叫什么叫“黄埔军校”。百度就是推荐算法、自动驾驶这块的黄埔军校。盛大呢，原来是盛产大量的游戏人才，而金山呢，是早期大量的软件人才都从这出来的。路径清晰，想要做同样的事情，最简单的方式是干嘛？去挖人，把这个做过的人挖回来，这事不就搞定了吗？

所以，深度求索的技术呢，一定会快速的随着原代码的开放以及人才的流动，普惠到中国各大AI厂商里边去。而深度求索自己呢，未必最后能够挣到钱，这个我要跟大家讲清楚。跟大家讲一个故事吧，就是李开复早年做这个创新工厂的故事。当年，李开复招聘了大量的，他们叫“娃娃兵”，也就是没有毕业的这些硕士，因为他当时在中关村附近那边嘛，所以有什么北航的呀、清华北大的呀，很多这样的硕士或者是本科生，就在那干活。其实，创新工厂实际上最开始的两拨人，一拨是李开复从谷歌里边带出来的人。

然后，另外一拨干活的人，就是这帮娃娃兵。后来等李开复开始有一定名声之后，他们的整个办公室就被各大互联网公司进去疯狂的洗，慢慢的就分崩离析了。当时我们就干过这个事，坐在那个创新工厂楼下的咖啡馆里，挨着个给上门打电话来，一个一个叫下来面试。而且是分几摊，同时上四五个面试官在咖啡馆的不同的角落里坐着。只要聊着还可以的人，3倍薪水你来不来吧？当时盛大干了一次，后边的各大厂都去干这个事情。因为呢，我们发现李开复把这帮娃娃兵训练得非常好，每一个人都是心中有火，眼中有光，而且呢，执行力还很强。当时挖了好多那种回来，效果非常好。

希望呢，这个深度求索可以在资金充裕的情况下，继续进行探索和尝试。也只能这样的希望，我没法期望说深度求索这公司未来成长成一家非常巨大的这种大厂，最后能够挣到很多的钱。这个事呢，我是不抱期望的。希望经历各种风风雨雨的过程之后，不要把心态搞崩，这个是最重要的。因为呢，很多的时候人员离职或者是项目失败，有很多这样的事情出来以后的话，创始人的心态会崩的。那么，是不是还会有很多深度求索这样的公司，隐藏在水面之下呢？会有的，而且会越来越多。

AIGC时代大公司的优势其实没有那么大，更多的个人和小团队可以调用更多的资源、数据以及算力，做出大家意想不到的事情出来。像我现在也可以自己坐在家里头，使用各种搜索引擎，使用各种的大模型去进行工作。我交的钱实际上也就是一个月20美金给了OpenAI了，豆包还是免费的。我现在可能真的是一个人，相当于一个团队在干活了，我也可以做出一些可能别人意想不到的事情出来。

有了基础的社会保障之后，从小接受残酷学习训练的中国人，做出各种奇奇怪怪东西的概率肯定要比其他地方的人大得多。这是我的一个结论。而且，中国人本来就多。最终呢，咱们要给这个故事下一个结论，就是会不会有深度求索这样的创新模式被不断的复刻？而我的结论是这样：深度求索的创新模式。

复是不能复刻和模仿的。因为你一旦要去刻意学习什么东西，你就是有目的的。而这种目的的话，跟刚才我们讲的深度求索的这种研发方式，它是相互矛盾的。目标很明确，就应该像AI六小龙他们干活，什么都沾一点点。但是呢，会有很多很多类似的团队，还是潜龙在渊。就是大厂你学这东西你是学不了的，但可能会有一些小团队，在不定在哪个角落里，哪个旮旯里头，在做一些大家意想不到的事情。突然哪一天就冒出来了。这个事情我觉得还是可以去期待的。好，这就是今天的第二个故事。

扎克伯格和黄仁勋，除了换皮衣，还聊了些什么？探秘扎克伯格和黄仁勋的SIGGRAPH访谈：两位科技大咖如何看待AI革命与苹果的未来冲突

Luke Fan — Tue, 06 Aug 2024 13:19:20 +0000

扎克伯格跟黄仁勋凑一块，除了换皮衣，还讲了点什么呢？他们是在SIGGRAPH大会上进行的访谈。黄仁勋是访谈主持人，而扎克伯格是被邀请的嘉宾。因此，在他们的访谈中，扎克伯格是逗哏的，黄仁勋是捧哏的，这一点首先要搞清楚。

这一次访谈，主要是扎克伯格在输出。SIGGRAPH大会是一个历史非常悠久的大会，叫计算机图形图像特别兴趣小组（Special Interest Group on Computer Graphics），小组成立于1967年，1974年第一次开会。今年是第50届，参会的人中有90%都是博士。当我看到这个消息时，一开始想，黄仁勋应该是个博士吧？扎克伯格是中途退学的。后来查了一下，发现并不是。黄仁勋是硕士，而扎克伯格是2002年入学于哈佛的心理学和计算机科学专业，2004年辍学，实际上上了两年学，之后在2017年被哈佛授予了荣誉法学博士学位。他好像跟某位伟人的学位差不多。

正常来参加这种活动的人，主要是引擎公司，比如Unreal、Unity，图形软件的公司Photoshop、Adobe，以及显卡公司AMD、英伟达。原来Meta也参加过，大概参加了有十几年了，他们以前是作为VR、AR公司来参加的。这一次则是出来抢AI的。

老黄跟扎克伯格算是天作之合，为什么呢？因为只有开源模型，才是英伟达显卡的绝配。

那你说微软不也买了好，OpenAI也在用，对吧？但是呢，大厂的必元模型啊，它是有能力去招聘一帮叫适配工程师或者叫配置工程师。他们可以绕过扩大算法这个事，是可以跑的。增加的这点成本对于他们来说是可以去承担的。只有开源模型的应用者，通常是支付不起这些配置工程师的工资的，所以他们会老老实实地使用英伟达的显卡，是吧？所以他们俩绝对是天作之合。

扎克伯格自己访谈的资格，也是因为买了足够多的H100才换来的。他是号称拥有60万块H100的男人。老黄就问扎克伯格说：“你是怎么来的呀？”而我是作为VIP客户，专门被黄日勋邀请来的，就是显卡买太多啊，被请来了。而且他在恨苹果这件事上来说，俩人绝对有共同语言啊。就是黄仁勋也好，扎克伯格也好，现在所有的CEO里头，所有的这种创业者里头，最恨苹果的两个大概就是他们了，找不出其他人了。

扎克伯格在会上飙脏话啊，直接说了一个f word，甚至说有可能直播都会被掐掉的这种脏话。其实骂的不是OpenAI，骂的其实是苹果。为什么要去骂苹果？OpenAI做了半天，未来有没有可能伤害Meta，伤害扎克伯格，有可能，但是现在其实没有给扎克伯格带来任何的伤害。而苹果当时是差点没把Facebook给玩死。扎克伯格自己也讲，Facebook最早是个网站嘛，我们是完全开放的啊，没人管，我们在里头爱干嘛干嘛。然后移动时代呢，发现要到苹果上面去啊，发布软件。

苹果这也不让你做，那也不让你做。关键是把他们进行精准广告推送所需要的用户信息给他屏蔽了。以广告收入为基本收入的 Facebook 差点没被他弄死。扎克伯格痛定思痛，说：“我一定要去做一个新的平台，绝对不能靠 APP 这种东西，而让苹果把我掐死。”所以他才做元宇宙，才把公司从 Facebook 改名叫 Meta。他做了所有这些事情，实际上都是为了应对苹果。这是扎克伯格为什么恨苹果，为什么恨这种封闭的大平台。

说英伟达为什么恨苹果呢？就是英伟达跟苹果之间是有恩怨的。英伟达给苹果提供过一款显卡，后来这个显卡不是特别稳定，被苹果直接起诉了。一开始苹果要他退钱，老黄不退，后来苹果直接起诉了老黄。苹果是在所有的应用里头都不使用英伟达显卡，而这个梁算截下来了。

而这一次，苹果直接给大家演示了用谷歌的 TPU 去训练大模型。这个消息传出来以后，英伟达的股价直接崩了。当然，英伟达的股价崩掉了，还有很多原因在里头，包括老黄自己在疯狂的套现，以及他到 120 以上的这个价格，大家觉得确实有泡沫了，直接崩掉了。但是英伟达昨天晚上涨了 13%，整个又窜起来了。

为什么苹果可以用 TPU 去干活呢？就是它是自己大厂，我只要招够足够的工程师，我就可以去改底层算法，让这些模型在 TPU 上运作。苹果演示了这件事情以后，谷歌、OpenAI 上都可以往这个方向走。这对于英伟达来说就是非常危险的。

英伟达一定要来找一个更恨苹果的人，找到Meta，找到扎克伯格。说来咱俩聊一下。扎克伯格呢，就是因为被卡过脖子，所以必须开源啊。看到别人作弊源啊，想要成为新的基座平台，就open i想做这个啊。那么想做规则的制定者啊，所以只能气得骂街了啊。这就是两个最恨苹果的人，天作之合，凑在一起。

那么Meta呢，对于大模型的开源是有非常大的贡献的。当然，最大的贡献并不是拉玛。咱们一直都说啊，拉玛1、拉玛2、拉玛3算是奠定了开源大模型的基础，但是Meta做的最大的贡献是另外两个东西。一个东西呢，PyTorch。PyTorch是现在非常主流的一个大模型，本地把它架起来的一个架构框架，这个东西是Meta开源出来的。现在在很多的服务器上，大家开始进行本地部署的时候，都是用的这个东西啊。

PyTorch的基金会里头大佬云集，哎，大型的开源的项目都是有基金会的。他们的大佬里头，Meta自己是啊，他贡献了代码，那么他是大佬。第二个呢，就是芯片厂商都在里头，英伟达、AMD、英特尔都在里头。然后所有云计算厂商都在里头啊，谷歌云、微软云、亚马逊云都在里头啊。再往后，新生的AI社区与工具，Hugging Face、Lighting AI啊，都在里头。

还有两个全能型拳手在里头，一个叫IBM啊，他所有的都做，也做云也做主机，也做芯片，什么他都干，所以他也是基金会的高级会员啊。还有一个高级会员是大家所熟悉的，遥遥领先啊，华为。

就PyTorch基金会里头，唯一的一个中国会员就是华为。在这一点上，我觉得华为做的还是很厉害的。它在各种开源的基金会里头，老老实实地交钱，老老实实地去遵守规章制度。它不像国内很多的公司，比如百度，使用所有的开源东西，但却偷偷使用，使用完了以后直接一闭源，啥也不看了，然后下一个。

Meta对AI做的贡献是什么呢？OCP（Open Computer Project）叫开放计算工程，这是什么呢？就是自己有大量的服务器，而这些服务器应该如何构造、如何去建设、如何去连接，这也是一个开源项目，这是Meta开源出来的。现在英伟达推出的NVIDIA HGX，就是在这个模块上去拓展出来的，已经都用上了。这是对整个开源事业真正做的两大贡献。

第三大贡献，才是刚才我们讲的拉玛模型，拉玛1、拉玛2、拉玛3、拉玛3.1，这才是第三大贡献。而且我觉得他所谓的拉玛模型的贡献，真正改变的其实是中国，彻底追上来了。可以拉着中国的一众小伙伴，把这OpenAI打翻在地，这个我觉得是可以的。

扎克伯格也为未来指明了方向，而且他指的这些方向，我觉得还是非常有价值的。第一个，他讲到了一点是原来我们很多人没有想到的，就是要去修改推荐算法。因为互联网的最底层其实就是推荐算法。推荐算法是什么？就是过滤与排序，你到底应该看这个还是不应该看这个，谁排前头，谁排后头。

这就是整个互联网的底层逻辑。在信息过载之后，我们只能依靠推荐算法来工作。在推荐的时候，它只能是说：“我按照一些大家的喜好，或者做协同过滤，做一些传统的AI的推荐。”现在就不一样了，它可以通过Transformer的模型，通过嵌入来重构整个算法，这是一大创举。而且这个东西真正运转起来以后，可能我们会看到完全不同的信息流。

在推荐的时候，他们也希望直接在信息流里进行总结与归纳。原来我们在Facebook和Instagram里看到的所有信息都是用户生成的，那么以后可能我们看到的一些信息就是归纳的一些信息。比如说，你最近有三个朋友感冒了，你最近有五个朋友感冒了，而这些朋友你可能连名字都想不起来。如果真的给你发一条说这个朋友感冒的信息，在信息流里你也不想看到，但是你又希望知道这朋友里边感冒的人多不多。

会把信息分层处理。什么叫分层处理？就是跟我关系最好的人，你们要把这个信息完整地展现出来。大家讲的就是150个人之内的，我们可以互相叫出名字，可以知道他的喜怒哀乐。这些我们可能希望知道他所有的信息。然后朋友的朋友就是中层圈子，可能只是需要知道一个概况就可以了。再往外层的话，可能有一些大事件发生的时候，我们需要知道一些国际大事，也就可以了。它需要分层处理，那么分层处理就可以对这些内容进行总结归纳，并可以发出来。

而且在这个过程中，推荐算法就会有更大的权利。这是什么意思？原来肯定是看你关注了谁，你跟谁是好友，你可以看到谁的信息更多。不可能，你虽然关注了一个人，但你未必看得到他的信息。如果你们之间很少互动，他就认为这可能就是一个普通的朋友。他的一些大事你知道一下，小事你可能就不需要知道了。他会通过这样的方式来过滤你的信息。

包括我们现在在推特里边也是这样的，可能看到一些大事的时候，我们会看到，那一些小事可能就看不到了。后面的话，Meta准备统一他的推荐系统。原来推荐系统是什么呢？就是各个分支，比如我要先看到朋友的，然后看到这个朋友的朋友的，再看到国际大事的和重要媒体的，所有的这些推荐的东西搁在一起，然后再进行混合。以前是这么工作的，而现在上大模型，我们要让整个的系统用统一的模型进行推荐，一次性给你推出来。

这个也是一个很大的创举，可能以后我们就会看到一个完整的模型推荐出来的图文信息、视频信息都混在一起的，而不像现在似的，Instagram就是Instagram，Threads就是Threads，Book就是分开的。以后，我们可能就在一个统一的信息流里看到所有的一切了。这是真正会改变互联网底层逻辑的事情。Meta、谷歌、Twitter、TikTok基本都是靠这个东西活着的。如果真的能够把大模型应用到推荐算法里边去。

我们可能就真的会看到新的一次AI革命，真正能够产生效益了啊。这是非常重要的啊。这是讲的第一点啊。第二点是什么呢？就是AI studio啊。他也要上一个AI studio，因为AI studio谁都上啊。微软有AI studio，谷歌有AI studio，Meta也做了一个AI studio。而Meta做的AI studio就干一件事啊：给每一个人做一个自己的AI助手。使用社交媒体的时候啊，直接用Meta自己的内容进行训练，微调一个小模型，再配合RAG或者叫做本地知识库，可以不断地补充新的信息，拿这个小模型去替我们回答问题啊。

像我现在，我每周会去处理一次大家的评论，周三下午一般会处理。处理完了以后跟大家念一遍。如果我有了这样的一个工具，我就可以随时随地地处理大家的评论。我出去玩的时候，AI机器人都可以给大家回复啊。我们的Disco群有这么多的分支，我没有办法在里边去照顾到每一个分支。这样，我就可以让我的AI助手在里边去回复。哪怕说他不回复，我过一段时间总结一下，最近大家都在聊这几个事呢，你是不是要去参与一下啊？或者他可以来征得我的同意，或者在我的授权之下进行回复啊。

这件事我就替你回答了啊。那件事情你准备怎么回答，还是说就不说了。这样的话，我就可以更多地千手千眼、无处不在地参与到各种社区的讨论里头去。这个真的是我很需要的一个东西啊。

每个人呢，其实都需要分饰不同的AI角色，有不同的AI助理模型。你比如说，在Facebook的回答问题里头有一个，在Discord里头有一个，是不是在Twitter里应该再有一个？这个可能才是真正我需要的东西。甚至未来我可能照了照片以后，就直接把这些照片都放在优酷里，让它自己去挑选好的照片，给我发到Instagram上去，这个不也是一个挺有趣的事情吗？这个是非常有用的。

那么在所有的平台里边，就会成一个新的风向，就是大家开始把这种AI机器人用起来。以后是什么呢？就是所有的平台都会变得热闹起来，因为每个平台都有我们的替身在替我们回答问题。所有的平台都会产生信息大爆炸，所有的平台也就都失去壁垒。

我们经常有人说：“哎，你有Telegram没有？你有微信没有？你有这个Twitter没有？”那以后这些东西我都有。你们在任何地方提了问题，我可能都可以去回答。这是多么有趣的一个事情！他们就不可能说再把一个人限制在某一个特定的小平台里头。当这些小平台失去壁垒之后，这些大平台就可以依靠成本和变现能力直接把小平台都挤死，对吧？这也对于Meta来说是有商业利益的吧。

在网络上，每一个人都可以依靠这种小模型的帮助，成为超人。这也是在不久的将来就可以实现的东西。扎克伯格也讲了，未来他的这种AI触手不会是文字，而应该会成为虚拟形象。你们以后可能再去聊天的时候就发现……

长坐着一个长得像老范一样的人，在这跟你回答各种问题了。甚至他可以开出这样的直播，挨着把大家的评论都点出来，挨着跟大家解释。这也是一个很有意思的事。

这是第二点。第三点是什么呢？第三点是开源是未来，不受限制的构建，恢复开放的黄金时代。这是他讲开源的内容，我们就不在这里详细去讲开源到底好在哪，坏在哪。这对于中国的AI行业来说，没有拉玛，就没有中国AI现在的风起云涌。如果没有PyTorch，中国的整个AI体系也是难以发展的。

它开的这个叫Open Compute Project，对整个中国的互联网云建设都是有重大意义的。再往后一个讲的是模型不会一家独大，从小到大的模型都有应用场景。OpenAI就认为你都应该在我这儿用，不要用其他人的。虽然它有GPT-4O Mini这样的模型出来，但它还是说你都要在我这儿用。

现在Meta就讲了说没必要，405B的模型我们就是做这种相对来说比较复杂的任务。当然，405B也给英伟达提供了一个非常大的考验，因为405B这种模型在英伟达的单块显卡上跑不起来。你还是要用NV Link这样的成熟技术，才可以把这些显卡连接起来，把这个405B跑起来。黄仁勋也是乐得嘴都合不上，跑405B就老老实实到英伟达来买显卡来。

势币的基本上处理各种业务是够的，因为我前一段时间也是使用各种大模型，基本上到70B。

绝大部分的问题都可以解决了。8B的在各种的AIPC里就可以用了。微调之后可以成为各种专材，比如说编程的，法律咨询，AI客服，绝对够了。今天谷歌还新发了两币的模型，叫JMAR2，两币，这个叫2B，在AI手机上完全可以跑起来，效果还不错。

这是讲的第二块，就是不同步大小的模型，大家自己去用。而且大家要去用八臂的模型，去训练各自的专用模型。只要这样，才会有不同的模型去完成不同的事情。

然后呢，讲的是叫segment everything two。是这样的，一个大模型又更新了，更新到第二版。这个模型叫做分割一切。这个segment everything呢，在去年是发布过一版，做的事情就是你给他一张照片，不需要标注，不需要训练，他就可以把照片里的所有物体都识别出来，挨着个儿给你列出来。

而everything to呢，它是可以把所有视频里的内容直接都给你分拆出来。说这个是牛，那是马，这个是猪，那是羊，他都给你认得清清楚楚的。扎克伯格还在现场炫富，他说：“你看啊，现在认出了一个视频上面这些牛，叫考艾岛牧场的牛，是扎克伯格自己牧场上的牛。”对吧，把这些牛认出来以后，伯格跟这个黄仁勋准备把这个牛杀掉了，好好吃一顿。

这种可以分割和识别视频内容的大模型，未来是有非常大的应用场景的。而且注意啊。

Segment Everything Two是开源模型，大家现在就可以当下来使用了。扎克伯格在现场举的案例是什么呢？就是监控能力可以极大提升。以前，公司丢东西的时候，我是去看过监控的，那经历实在是太可怕了，对吧？你需要长时间盯着监控去找这个片段，这非常困难，因为视频是线性的。

现在，当你有了这种分割一切模型以后，你就可以直接问模型：“什么时间点你看到有人进来了？”或者“什么时间点这个门动了？”他就可以直接通过语言和文字对视频进行检索。这是非常强大的，很多工业上的东西可以被极大赋能了。

前一段时间，马斯克其实也演示过一个视频，在他的推特账号里，演示了用AI模型观察一个咖啡店。他会算好哪个店员在聊天，哪个店员做了几杯咖啡，哪个店员在休息，对吧？店员和顾客之间是如何沟通的，这看起来有点吓人。

当然，这种模型肯定会被中国的厂商第一个拿来用。用完以后，就可以让这些牛马们老老实实地干活，没有任何私下里的自由空间，这完全可以实现。所以，中国一定会快速应用起来。

再往后，两个老直男讨论了一下时尚问题。为什么讨论时尚呢？因为扎克伯格去做智能眼镜了，眼镜上有摄像头。他说这个东西很漂亮，而且可以不停地换衣服，始终穿一件，但这个眼镜可以换来换去。

这就是两个老直男对于时尚的理解吧。这一次呢，他们两个人还是换了皮夹克。黄仁勋标准款的皮夹克给了扎克伯格，扎克伯格呢，这一次用的是自己那种很厚的半长的皮衣，戴帽子的这种，比较宽松。这就是两个直男对于时尚的所有观点。

最终的总结是什么呢？就是扎克伯格还算是为AI指明了方向。而且扎克伯格指明的这几个方向，都是AI未来有可能挣到钱的地方，有可能能够在这块有正常的商业模式的地方。这个是非常可贵的，它比山姆·奥特曼的那种大空话还是要落实得多。

那么新的时代就要到来了，互联网的底层真的要被AI重构了。原来互联网底层是没有被AI去改变的，还是推荐算法。现在AI要进入互联网底层了。一个人都可以被AI赋能，这也是非常棒的一件事情。所有的场景都可以被AI渗透，对世界的理解也可以进一步给各种系统赋能。当然，也可以给中国这血汗公司赋能，或者给中国政府赋能。

我发现做监控这件事情上，中国如果说是第二，全世界没有任何国家敢说是第一。这块我们还是做得最好的。全世界大概绝大部分的监控摄像头都是中国人造的。最终呢，大家都去买英伟达的显卡，都去用Meta的开源系统。这就是他们两个进行了一晚上的访谈所得出的最终结论。好，这就是我们今天讲的第二个故事。