DeepSeek R1 – 老范讲故事｜AI、大模型与商业世界的故事

DeepSeek融资别急着冲！100亿美金估值最危险的是退出难！

老范讲故事 — Mon, 20 Apr 2026 01:34:46 +0000

突然有消息传出，DeepSeek 要融资 3 亿美金，投后估值 100 亿美金。作为一个曾经的投资人，我想跟大家讲一讲这里面几个容易被忽视的点。

消息源与基本背景

这个消息是什么时候爆出来的？4 月 17 号，The Information 先爆出来，路透社也进行了转发。报道的内容是：据两位知情人士透露，DeepSeek 现在正在进行一轮 3 亿美金的融资，投后估值 100 亿美金。

不过，DeepSeek 官方并没有出来确认或者辟谣，而是选择了沉默。所以我们也不能说，因为是路透社、The Information 这种国际主流媒体报道的，就一定是真的。它们有时候也会出错，只是相对靠谱一点。

今天主要想讲的是，这里面有几个普通人很容易产生的误判。

三个常见误判

误判一：觉得 100 亿美金和 3 亿美金都“非常大”

第一种误判，是觉得 100 亿美金很多，3 亿美金也很多。对于普通人来说，这确实是天文数字，一听 100 亿美金，立刻就会被震住。

误判二：觉得梁文锋终于“低头了”

第二种误判，是觉得梁文锋终于低头了。DeepSeek R1 出来的时候，很多大厂，像阿里、字节、腾讯，都冲上去说愿意给钱，甚至愿意给 10 亿美金。

当时梁文锋的态度是：我不需要钱，我有的是钱。因为他背后是幻方量化，中国最挣钱的量化基金之一。虽然现在经过政策调整之后，可能已经不能算最挣钱的了，但仍然在第一梯队里，去年的收益也还是非常好。

所以这一次融资，大概率跟幻方量化的业绩没有特别大的关系，但可能会和一些监管收紧有关。

误判三：觉得 DeepSeek 是不是要上市了

第三种误判，是很多人会觉得 DeepSeek 是不是要上市了。现在 MiniMax 已经上市了，智谱也上市了，而且市值非常高。Kimi，也就是月之暗面，现在也在准备上市，刚融了一轮，印象里估值大概 160 亿美金。

那是不是 DeepSeek 也是准备上市，先在上市之前融一轮，让既得利益者上车，大家一起出去割韭菜？很多接触 A 股的人会有这种想法，但这其实也是误判。

六个反常识的细节

第一，这是一笔美金融资，不是人民币融资

第一个细节，这是美金，不是人民币。这个一定要注意。一旦是美金融资，项目就要搭 VIE 架构，要瞄准全球市场。真要上市，也只能去香港，不可能在 A 股上市。所以它不接受人民币基金的投资。

很多人会说，DeepSeek 后面一定有政府背景。但问题是，政府能不能直接拿出美金来投这样的项目？虽然现在有一些美元基金里也有国资成分，但它已经不是那种可以直接拿国资钱来投的模式了。所以重点是，这是美金。

第二，3 亿美金对应的股份只有 3%

第二个细节，投 3 亿，估值 100 亿，投资人能占多少股份？答案是 3%。这也是一个很重要的点。

为什么？因为以前写投资协议的时候，5% 是一个坎。这个没有明文规定，但它是个潜规则。够了 5%，你在董事会里可能有席位；不够 5%，通常就没有董事会席位。

没有董事会席位，意味着公司很多事可以不告诉你，也不想让你定规矩，也不想有事没事向你汇报。你就是来出钱的，其他事情少管。所以这个 3%，本身就是有含义的。

第三，100 亿美金这个估值可能是固定的，不谈判

第三个关键点是，100 亿美金这个估值，很可能是固定的，不谈判。以前投项目，主要谈两件事：

投不投；
如果投，最关键的就是估值。

投资人出去投项目，一定更喜欢低估值的项目，而不是高估值。因为估值压得越低，下一轮涨上去的时候，赚得越多。所以所有投资人都会和创始人反复压价，说你这里不行，那里有问题，你得再便宜一点。

但这次看起来不是这样。它的态度可能是：我就是 100 亿，你认就来投，不认就别来。属于非常硬气的公司才会这么干。初创公司一般没这个条件，但 DeepSeek 确实可能有。

第四，3 亿美金这个额度也可能是固定的

第四个点，3 亿这个数不光代表 3%，还代表额度是固定的。这里还牵涉到投前估值和投后估值的区别。100 亿美金是投后估值，那投前估值其实就是 97 亿，投 3 亿进去以后变成 100 亿。这个 3 亿是写死的数字。

很多项目不是这样。很多项目会说，投前估值是多少，你们愿意给多少钱就往里给，越多越好。比如也是 97 亿投前，有人投 5 亿，有人投 10 亿，最后投后估值加到 110 多亿，外部股份占到 10% 以上，这都很正常。

但 DeepSeek 这一轮不是这样，它看起来是直接锁死：我就融 3 亿，额度固定，先到先得。你们别跟我谈条件，也别谈别的。

而且到目前为止，没有 BP 传出来。BP 就是商业计划书。没有财务报表，没有路演材料，什么都没有。也就是说，有人已经开始接触了，但 DeepSeek 并不给大家充分审核它的机会。你想审账，别费劲；就这么多钱，就这么多估值，就这么多额度，爱来不来。它是这么一种玩法。

第五，这类案子通常有领投方，而这次大概率还是幻方量化

第五个点，按照以前的经验，这类项目里通常会有一个领投方。正常情况下，是由领投方来确定估值和大的协议框架，然后其他跟投方在里面签字，认领额度就完了。跟投方一般没有能力去谈条款，都是领投方确定。

那么这个案子里的领投方是谁？大概率就是幻方量化。原来 DeepSeek 和幻方量化之间的关系，本来就有点不清不楚。现在有可能是因为国家对于量化这一块的管理越来越严格，所以需要画出一条更清晰的界限，大概是这么个背景。

第六，融资背后真正的驱动，不只是钱

那为什么 DeepSeek 要在这个时候开始融资？

原因一：被挖人挖惨了，需要一个估值锚定

第一个原因，大家都看到了，就是被挖人挖惨了，需要一个市值来做锚定。AI 现在绝对是最热的行业，里面也都是最强的人在做。一旦 DeepSeek R1 到了风口浪尖，大家会觉得这代表中国，这就是中国 AI 的门面。

那接下来会发生什么？一方面是有人冲上来说我要投资；另一方面，一堆投资人和大佬会直接绕过公司，去跟每一个核心成员谈，说你出来吧，我投资你，或者我给你很多钱。

这种事情，不是靠多发点工资就能解决的。即使是 OpenAI，也不可能靠发薪水把人全留下。像 Meta 前面说 1 亿美金挖人，那个绝对不只是薪水，更大的部分一定是股票、期权。你必须靠这样一个锚定来把人留下来。

DeepSeek 大概率也是一样。员工进去以后，一部分是薪水，另一部分是期权或者股票。如果公司从来没有融资过，就没有明确估值。你说我给了你多少股，这些股到底值多少钱，没人知道。现在一旦有了 100 亿美金这个锚定值，你原来拿了多少股，公司总股本是多少，一除，就知道自己大概值多少钱了。这个锚定非常重要。

这一年里，字节、腾讯、小米都在拼命从 DeepSeek 挖人。比较有名的例子，比如罗福莉。当时 DeepSeek R1 刚出来、正火的时候，就传出小米用千万年薪挖罗福莉。一开始还否认了一段时间，后来等小米发自己的 MiMo 模型时，就承认她确实在那里了。中间那段时间，她显然已经在小米工作了，只是想稍微留一点面子，没有立刻公开。

这两天还有人去了字节，据说直接拿了上亿人民币。当然，这里面肯定也有很大一部分是字节的股票。虽然字节没有上市，但字节的市值相对来说是比较确定的，因为它会定期做老股回购。你说一个人拿了上亿，这件事是相对容易被标注出来的。

如果 DeepSeek 一直不做融资、不做估值锚定，大家就会一直挖它的人。梁文锋再厉害，也不可能一个人扛住所有事情，还是需要一个稳定的团队，项目才能继续推进。

原因二：监管可能收紧，幻方量化无法再无限输血

第二个原因，可能就是幻方量化那边的监管会收紧，没办法再无限输血。原来你说我给你一些钱就够花了，现在可能不行了。钱一多，就必须把账目审计清楚，哪块钱属于谁，要写得很清楚才可以。

而且，DeepSeek 现在还在做一件事，就是自己建机房。前一段时间有消息传出来，说 DeepSeek 准备在内蒙建机房，招聘机房管理员，月薪 1.5 万到 3 万，发 14 薪。这个是有媒体报道、可以确认的消息。

原因三：V4 将至，窗口期和压力都很大

第三个原因，就是 V4 要来了，压力前所未有地大。很多人对 DeepSeek V4 抱有巨大的期望。从过春节的时候，大家就在等它炸场，后来没来；又传 3 月份来，结果 3 月份过去了也没来；然后又传 4 月底，现在已经 4 月十几号、快 20 号了，又开始传 5 月份来。

DeepSeek 为什么做不出来 V4？很可能是因为它和现在主流模型之间，已经没有办法拉开特别大的差距了。现在大家基本都是万亿参数、百万上下文、多媒体、多模态统一模型，谁也不比谁强出特别多。在这种情况下，像它这种要憋大招的公司，就只能继续憋下去，而这其实是很痛苦的。

等 DeepSeek V4 真正发布的时候，大概率很多人还是会失望。也不是说 DeepSeek 一定做不好，而是期望越高，失望越大。大家现在对它的期待太高了，总觉得它能一下超越谁谁谁，这其实不太现实。最多也就是追上同行，未必能全面超越 OpenAI 和 Anthropic。更现实一点说，可能是追上智谱、MiniMax、Kimi 这样的水平。

所以，在 DeepSeek V4 发布之前，把融资这件事先谈好，对它是有利的。因为如果产品发出来以后，市场反应是“不过如此”，那它可能就不值这么多钱了。这也是它当前承受的一个很大压力。

100 亿美金到底贵不贵

最后，再来看一下，100 亿美金到底贵不贵。

很多人一听 100 亿，就觉得是个天大的数字。但对于没上市的公司来说，估值通常是按同类公司类比法来算的。那谁和 DeepSeek 算同类公司？比如 MiniMax 和智谱。

可比公司一：MiniMax

MiniMax 在 2025 年的收入大约是 7900 万美金，市值是 386 亿美金。它上市的时候市值没那么高，是后来涨上去的。那它的 PS，也就是市销率，大概是 488 倍，非常高。

可比公司二：智谱 AI

另一个上市公司智谱 AI，它是有财报的，收入是 1.049 亿美金，这个数字比较准确；市值是 539 亿美金，这是上周五收盘的价格。那它的 PS 大概是 513 倍。

这里用的都是 PS，而不是 PE，也就是市销率，不是市盈率。原因很简单：这两家公司都还在亏钱，利润是负的，所以没法用 PE，只能用 PS。

按这个逻辑，DeepSeek 应该值多少钱

那按这个逻辑，DeepSeek 到底应该值多少钱？关键就在于它的收入是多少。2025 年的收入，它现在并没有对外公布。海外有媒体报道说，它的销售额可能是 2.2 亿美金。对于这个说法，DeepSeek 自己也没有明确回应，只是在一次采访里提到过，自己的收入远没有达到那个水平。到底是多少，大家只能猜。

如果它的收入也是 1 亿美金上下，那按照前面这些可比公司的 PS 去算，它的估值其实应该也是几百亿美金的量级，400 亿甚至更高都有可能。所以如果真按 100 亿美金的价格投它，从 IPO 估值逻辑来看，肯定是赚的，甚至可以说是捡漏。

为什么不能无脑冲

但也千万别因为这个就觉得该无脑冲。比如有些人会想，如果手里正好管着基金，是不是应该冲上去投一把？100 亿美金的标的，一旦上市就值四五百亿，这不是捡钱吗？

千万别这么想。这里要给大家泼一盆冷水。有没有人干过类似的事情？固定一个死数，估值就是这么多；额度也是固定的，先到先得；不许谈任何条件。有没有？有。

案例：2018 年的大疆融资

我给大家举一个案例，这家公司大家都很熟悉，就是大疆。现在拍视频的设备就是大疆的。2018 年，大疆就这么干过一回。当时融资 5 到 8 亿美金，估值 150 亿美金。完全一样：没有 BP，没有财务数据，固定估值，先到先得，你只管往里放钱，别谈条件。

那当时投大疆的人赚到了吗？大家想一想，那是 2018 年，现在已经 2026 年了，过去 8 年了。大疆发展得很好，按理说应该赚到了。但问题在于，大疆到现在还没有上市。它不是上市公司，你手里的大疆股份到底值多少钱，只有你自己心里大概有个数，别人认不认还不一定。没有上市，就没有公开市值，你也不能拿着这些股份到市场上去卖。

所以，当时投了大疆的人，现在不能说哭晕在厕所，但也绝对没那么痛快。他们只能等大疆偶尔做一点回购，或者私下和别人交换股份。因为没有公开价格，这件事非常麻烦，最大的痛点就是退不出去。

而且 150 亿本身也是一个很高的估值。就算大疆将来上市了，它能不能变成一个几千亿的公司，也还是要看。所以现在投 DeepSeek，大概率会有点像 2018 年投大疆：可能公司很好，可能逻辑也没问题，但退出周期会非常长。

当时谁投了大疆，到现在也没有公开。据说有上百家机构去谈，最后大概只有五六家投进去了，但也没有正式公布。因为这件事，后来也不算特别长脸。

总结

总结一下，这一轮融资的本质，更像是技术英雄向持续经营公司的结构转型，而不是因为缺钱。钱，幻方量化里肯定是有的。更重要的是，幻方量化和 DeepSeek 之间需要做一定切割，管理上也要更加规范。

100 亿美元这个估值，如果按 IPO 估值逻辑去看，绝对还是划算的，甚至可能真的是捡漏。但问题在于，投进去以后，DeepSeek 也有可能像大疆那样，七八年甚至十几年都不上市。

最大的变量，还是 DeepSeek V4 到底什么时候能拿出来，拿出来之后到底是翻车、只是追平同行，还是能够再次大放异彩。这才是真正值得关注的事情。

实际上，真正能参与到 DeepSeek 融资里的机构会非常少。愿意冲进去的人，也不会在意自己要拿着钱在里面等七八年。他们都是提前想明白了的人，才会去投。

至于大部分人，我觉得还是期待一下 V4 吧，看看它到底会不会在 5 月份出来，出来以后到底是什么样子。这件事，还是很值得期待的。

背景图片

Manus独领风骚成过往？字节扣子空间与百度心想APP强势入局，深度评测揭示AI Agent新格局下谁能主导复杂任务自动化与MCP生态。

Luke Fan — Thu, 24 Apr 2025 00:44:49 +0000

Manus的后劲来了。百度、字节都有了自己的agent产品上线。

大家好，欢迎收听老范讲故事的音乐节目频道。字节上线了扣子空间，百度上线了心想APP。Manus的光环不再。Manus本身就属于意外爆火，当时它突然火了以后，咱们还做了直播，说这个东西没有什么技术门槛，只是产品设计的很有意思。

Manus跑去跟阿里合作了之后，那字节、百度说这不行，咱们也得有自己的产品上线。又不是有多难做的东西，那就做呗。我呢，搞了一个字节扣子空间的邀请码，咱们呢试一试，看看这个产品到底怎么个用法儿。

Manus呢，到现在我也没用上。原因也很简单，我去申请测试，等了很久，到现在都已经开始收费了，也没有收到说你可以来玩一下的这个邀请。所以也就别费劲了。我自己呢也没有特别着急，我要特别着急想用的话，随便找两个人去要一些邀请码，也还是可以搞得定的。既然没有那么热心的话，也就没有上心去找嘛。

AI agent呢，其实主要还是做自我规划、完成复杂任务。就当我看明白这个东西到底是干什么了以后呢，就没有那么着急了。如果对于输出的结果没有什么特殊要求的话，其实用Grok的deep search或者是open AI的deep research都是够用的。只是这些工具呢，输出的都只是一个文档，就是一个Markdown文档，或者说是一个富文本的文档而已。

我想去生成个网页，想去生成个表格，它就稍微差点意思。而且呢，Grok的deep search可以使用的工具是有限的，就是一些内部工具。现在呢还不支持我们去调用外部工具。像Manus这种东西呢，它除了内部工具之外，有一些外部工具，可以通过一些接口放进来。如果是对输出结果有一些要求，说我想输出个网页，我想输出个应用，可能就需要使用Manus这样的工具了。

新的方向有了，大家就冲就好了。现在新方向是什么呢？就是Manus给大家指明的新方向，叫agent加MCP。现在的大模型呢，基本能力已经够用了。GPT4O及以后的版本，Claude 3.5及以后的版本，Gemini 2.5 Pro以及往后再出的各种版本，其实都已经可以实现agent的全套功能。

这里头比较倒霉的就是Meta，他现在出的LLAMA4好像稍微差那么一点点。国内的模型呢，比刚才我们讲的这几个要稍微差一些，但也勉强能用。比如说DeepSeek R1，比如说通义千问的千问QWQ 32b。

通义千问的推理模型，以及豆包1.5的推理模型，最近这两天也发布出来了。百度文心一言呢，他自己号称他的4.0推理模型是可以用的，但是我没有去测试，实在是懒得跟他费劲。

这些大模型给他一个任务以后，他把这个任务拆解出来，进行一些规划，基本上是可以使了。在自我规划之后呢，就是数据调用和内部工具使用，这个就会看出各家的差异来。因为你输出的结果怎么样，跟你搜索的结果是息息相关的。你如果搜索质量差的话，那你输出的内容就会变得很烂。

我为什么很少使用GPT的各种推理模型，包括它的深度思考去干活呢？因为它的搜索质量实在太烂，所以经常出来给我胡说八道。而且有一些比较特殊的资源，只有某些内部可以使用。比如说X上面的帖子，只有Grok能用，其他人你用不了。或者说抖音里边的视频，我们根据字幕来进行一些搜索和总结，这事除了字节，别人也看不了。这就会产生差异出来。

在内部的数据跟工具使用了之后，还可以使用外部工具。现在MCP标准呢，已经基本确立了，各大平台都开始出官方接口了。前几天还跟大家演示过，使用高德地图进行行程规划，还是非常有意思的。

剩下的是什么呢？剩下的就是等就好了。因为这种任务你扔进去以后，没有个十几二十分钟他出不来。等的过程中就是TOKEN在燃烧。后边就是一次一次的调用大模型，哗啦哗啦在那跑，TOKEN就在干这个事了。

今天呢，咱们测试一下扣子空间。扣子空间呢，应该是4月19号吧，低调上线，也没开发布会，什么也没说，这东西就来了。也是需要邀请制或者是报名去等待。我呢，就直接找了人说：“给我发个邀请码过来。”人就给我发过来了。

拿到邀请码以后，你进去完成第一个任务，也就是让扣子空间给你去做第一个项目以后，你就可以生成5个新的邀请码。待会呢，我会在视频的简介里头贴4个邀请码。我的5个邀请码已经有人用了一个了，还剩4个。想试的人呢，可以到那去找邀请码去试去。

你试完了以后呢，也欢迎你把自己在生成的新邀请码，没有用过的，还贴到我们的评论区里头，让其他想试的人可以去使用。在海外的人现在别费劲，只有coze.cn上才可以用，只有在墙内的人才可以用。

现在呢是免费试用，每天呢可以跑5-10个中等复杂度的任务，就是跑十几二十分钟这种，我们算中等复杂度吧。长了呢，可能能够跑个几小时，但是我现在还没有规划这么复杂的任务让他去干。

完成的工作呢，算是有一点点小惊喜吧，待会咱们看一眼。但是呢，内容不能细看。

很多的内容还是比较粗糙的。下面我们来演示一下，这就是我们的扣子空间。进入以后，你点击快速开始。如果像我这样已经有使用权限的，就干活去了。如果你没有使用权限的，可以加入他的waiting list，或者是输入邀请码。邀请码在咱们视频的简介里边去找。

下面是他的一些样例，就是这些是能干什么。这个很重要，为什么呢？就是当你看到了这些样例以后，你就说，我可以去拿他的提示词改一改，就去干活去了。比如说什么股票早报定制、什么深度调研、访谈记录整理。当然访谈记录，你要给他一个很复杂的访谈记录，他才去给你整理去。包括AI产品的用户分析，那你要给他一大堆的用户调研报告，他去干活去。包括什么游戏攻略撰写，待会我们去试试。还有的一些呢，是比如说写旅游攻略、市场信息调研，这个都是可以的。

我们点进去了以后呢，就会到达这里。这就是老范讲故事做的扣子空间了。但是注意这里头有两个模式，一个呢叫探索模式，一个呢叫规划模式。探索模式就是你给它一提示词，它噼里啪啦就给你干完了。规划模式呢，你给他一个提示词，他呢先去做一个规划：这样干行不行？我去按这10步干，还是干这20步干？你在这个时候还可以调整，调整完了以后他去干去。如果你是这个探索模式呢，直接干完就出结果。如果是规划模式的话，中间他遇到问题，他会停下来问你：“对不起，这有一个问题我搞不定了，咱还干不干？”或者有什么其他方法，你可以再跟他聊两句，他再接着往前走。更像个人规划模式。但是，规划模式呢，会更加消耗时间和TOKEN。我就不在这现场给大家试了，因为现场事实在是太慢了，没有个20分钟跑不完一个项目。

这个地方呢是上传文件的，只识别文字的部分。你说我上传个图片给我识别一下，目前还不可以。最多可以上传10个，单个文件的最大是50兆。比如说我有一大堆的这个简历，把它打包扔上去。扔上去以后呢，他把里边的内容都给你找出来，说哪一个是符合我要求的。这个是可以做简历筛选。或者你给他一大堆的用户的调研报告，他也可以去给你分析。

这边呢是MCP扩展，大家看到了有高德地图、飞书云文档。你比如说我添加这个，最后说请把输出的结果写在飞书云文档里，它就给直接给你做完了。或者你说我从里边去读取信息，都是可以的。包括飞书多维表格、飞书电子表格。你说我有一堆的用户调研报告，都是存在这个里边了，你可以让他直接去读去。图像工具呢是可以做文生图，但是效果一般，我试过了。语音合成也是可以。

Notion可以在Notion里边去创建、读取、编辑、更新，包括GitHub、MySQL的一些查询，ClickHouse的一些查询，这个都是允许的。ClickHouse就是有些人把比如用户的数据放在里头，这个都可以拿来去分析。就是你需要哪个，你就在这里头添加。把这都弄完了以后，直接点开始就完了。点一次基本上20分钟就不见了。像我们这种免费用户的话，每天可以点个5-10次。

我们来看一看他干的怎么样。第一个呢是前面有案例说：“请给我分析《黑神话：悟空》的攻略。”现在我说：“你给我做《纪元1800》的详细游戏介绍文档，包括发布后的完整时间线，涵盖每个关卡和DLC的详细介绍，以及基础策略和故事线的介绍。同时列举出主要人物角色和各项任务的情况。最后报告用可视化网页呈现。”

他说：“我接到你的任务了，我要开始干活去了。”先思考一下去搜索：《纪元1800》什么时候发布的？游戏背景是什么？基础信息是什么？思考的过程又去想去了：关卡、DLC、策略，挨着个儿去搜索它。等于就是搜索了大量的内容，再去思考说：“我们现在开始把一些基础信息保存下来。”去生成网页，生成UI。UI完成了，然后生成代码。代码呢要进行解析、分析和检查。完成了以后给它配图，但实际上没有什么图进来，可能有一点小图标进来。配图完成，开始部署。最后就生成完了。大概整个跑了20多分钟。

做出来的结果是什么？就是这样的一个结果，说：《纪元1800》游戏指南。这个游戏背景是回到工业时代之初，19世纪初的工业化。基本上写的都是对的，因为都是搜索出来的嘛。游戏核心呢是城市建设，依托于海岛港口的小型农庄起步，逐步建设各种的养殖场和工厂，以及公共设施，形成繁荣的近代都市贸易系统。一项一项的就去讲去了。

你看它还是有一点点小动画的。这边是时间线：2019年4月16号正式发布的，2020年8月11号有各种组合包，DLC就开始上线。到2023年呢，登录了PS5和Xbox。2024年呢，又在出新的组合包。

然后DLC的一些详情。这个里头呢就告诉你说：植物园的DLC，推荐指数是什么？植物园、沉默的宝藏、植物园航道、权力之座、狮子之地。好像有些DLC我是有的。贸易港，这个里头是说有这么多，哪个是推荐去买的，哪个不是那么推荐的。推荐指数五颗星制。然后呢，是有季票，就是你买了季票以后呢，包含了哪些DLC了。这是第一个季票，第二个季票，大概是这样的一个购买方式。

就是你买了本体以后，还可以买季票，或者买这些DLC继续丰富游戏。策略呢，也告诉你了，说我要先干什么后干什么：初期什么，中期什么，后期什么。这是策略，这是故事线，稍微的跟大家讲解了一下。

然后是角色。这个里头呢，只写了两个，其实他角色是很多的。清公主是比较有名的一个角色了，都是他们有什么特色。然后系统任务有哪些任务：什么拍照任务，解谜任务。其实任务非常多，这个就是非常不完善了。但是呢，这就是给你的一个结果。

前面的提示词大家看到了，最上面是提示词，然后是一项一项的去干活去了。后面我就让他做了一个什么项目呢？做一个PPT说明吧：扣子空间目前免费使用的版本，背后是哪些大模型，内置了哪些工具，可以通过MCP挂载哪些工具，免费试用的用户有多少额度，额度如何计算，每天可以做几个任务，如何计费。扣子空间擅长做哪些任务，为什么没有大张旗鼓的宣传呀？用户对于扣子空间的反馈怎么样？扣子空间跟百度、跟Windows、跟Grok的deep search之间到底有什么差异？他就去挨着个儿搜索，搜索完了以后再去生成PPT，大概是这样的。

右边我们就看到了这个PPT。当然它这个PPT呢，下载下来是一个PDF。有些部分还可以，但是呢，有些部分明显的就没搞明白，包括计费的部分。实际上它属于明显的没搞明白。但是我们就一句话呀，虽然它做了十几二十分钟，但它确实给我们做了一个还能看的PPT出来哈。我们可以在这下载这个PDF：扣子空间介绍功能、使用反馈和优势点PDF。你可以下载下来。

然后呢，我让他做了一个稍微复杂一点的。这个是什么？我需要在5月10号到17号，从北京出发7天，呼伦贝尔大草原自驾旅行，一共两个人，预算5万元左右。我喜欢自然风光、隐藏的宝地和蒙古文化。我想从北京自驾出发，一路开电动车，需要规划充电站。请详细的给我行程安排和一个内容丰富的飞书文档旅行手册，包括地图、景点描述、旅拍和航拍的打卡点、必备的装备、每日行程、一路上的特色美食，以及我们每个行程中可以参考的旅行小贴士。将飞书文档保存到我的飞书账号。但是你使用飞书呢，它就会让你认证一下，说你的飞书账号是哪个，它到时候就给你存进去了。

最后呢，它给我生成了一个什么？这个过程我们就不仔细看了，因为我还调用了高德地图。它里头到底如何开，到了哪个地方，有什么吃的，哪个地方有充电站，这个都是由高德地图来去提供的。做了可能有半个小时吧。

第一天：从北京开车到锡林浩特
北京出发，走G6京藏高速。中午到张家口休息，再往锡林浩特方向开，约4小时车程。
打卡贝子庙、鄂尔古纳敖包，感受蒙古文化。品尝手抓羊肉、咸奶茶。
充电站位置：锡林浩特市区XX充电站。

第二天：锡林浩特到阿尔山
上午出发，走S307省道。中午在东乌珠穆沁旗用餐。下午继续前往阿尔山，沿途景点包括XX草原、XX湖。
晚上入住阿尔山XX酒店（需提前预订）。
景点介绍：普留克（特色美食）、炸柳根鱼（当地特色）。
充电站位置：阿尔山市区XX充电站。

第三天：阿尔山到满洲里
出发路线：走S203省道。中途在XX镇用餐。
满洲里景点：套娃景区、XX民俗村。
充电站位置：满洲里市区XX充电站。

第四天：满洲里到黑山头
行程安排：上午出发，中午在XX镇用餐。下午抵达黑山头草原活动营地，参与蒙古族民俗活动。
充电站位置：黑山镇XX充电站。

第七天：海拉尔返回北京
行程调整：第七天应从海拉尔返回北京，建议乘坐飞机或高铁。

旅行装备：
– 衣物：5月份昼夜温差大，需准备保暖外套、长裤。
– 生活用品：牙刷、保温杯、驱蚊用品。
– 摄影器材：相机、三脚架、无人机（航拍必备）。
– 车载用品：充电器、地图导航设备。

旅行小贴士：
– 交通：提前检查车辆（充电车需确认电量），携带驾驶证、行驶证、保险单。
– 饮食：注意饮食卫生，尽量选择正规餐馆。
– 住宿：提前预订酒店，避免旺季无房。

其他注意事项：
– 雨天行车需减速，注意安全。
– 旅拍和航拍打卡点：贝子庙、黑山头草原、套娃景区等。
– 特色活动：参与蒙古族民俗体验，探访俄罗斯后裔家庭。

—
（注：纪元1800任务部分因涉及游戏截图及图标缺失问题，已按用户要求跳过未完成部分。）

我们就不要图标了，然后又接着吭哧吭哧干去了。

我这写着放弃图标和截图，继续完成其余工作。说好的我将放弃这个东西，然后我去干活去了。最后蹭蹭蹭，干到这大概也是20多分钟，不到30分钟吧。干完的这个结果呢，其实给我们生成了很多的这种Markdown文件，就是把所有搜索的信息都放在这。

它搜索完了以后呢，再用这些Markdown文件去生成我们最上面这个GSX。这个是一个用React来去渲染的单个的网页文件，他最后生成了这么一个文件。

主要的人物，这个里头也有谁谁谁：清公主，然后白手起家。这个一般我们管她叫老太太，这个反正最后总要打一仗的，叫欧梅拉，这都是有的。相关的新世界相关的角色有哪些？就是他找的还是挺全的，虽然最后生成的网页里好像没有这么全，但是这边找的还是很全的。

然后呢，给大家看一个他犯的错误：游戏关卡跟DLC，他找了一堆什么使命召唤、守望先锋、吸血鬼幸存者。这什么意思呢？就是他在agent传递的过程中，他忘了我要找纪元1800相关的信息了，传递的时候把这个游戏名扔了。所以呢，他再去找游戏关卡跟DLC的时候，就直接输出了错误的结果。因为当他很多的agent一起配合干活的时候，就很难避免看这个事情。

最后呢，给我们生成了这样的网页。这就是大家能看到的网页，说一是什么什么样的，二是什么。这是我们的时间线。然后呢，是关卡跟DLC，这个还是有点小漂亮的。但是这个呢，就刚才我们看了，它是出错了，所以它给了一堆什么吸血鬼幸存者的DLC、什么激战、什么恶龙绝境的DLC、方舟的DLC。所以这个页面是完完全全错误的，不用管它了。

然后呢是策略和分析，这个很二。他需要展开前期后期主线写的，就非常的简陋了。再往后是人物：清公主，一个一个的人物。但是这个呢写的并没有那么完整吧，就是其实他找人物的时候找的是挺完整的。就刚才我们看到他给的，这个Markdown里头是挺完整的，但是呢最后生成网页里并没有那么完整。

作为基础框架是够的，把这个框架拿出来以后，再套上这些Markdown文件，还是可以继续去丰富的。这就是我们今天演示的扣子空间。

进入的网址呢是space.coze.cn。海外的用户先不要着急使用，国内的现在已经可以跑了。使用的感受是什么样的呢？真的需要跟扣子开会了，不能跟他随便聊天了，太浪费TOKEN了。因为你是跟他说点什么，他都哗啦哗啦去干活去了，不能随便聊了。

所以，我现在都是写很长的提示词，把各种能想到的尽量都罗列清楚。如果你说我实在是一次想不明白怎么办？使用规划模式：你先提出要求，他先把这个任务列出来，你再按照这个任务呢再去调整。修改好任务以后，他再去确认，按这个逻辑来去执行，他再往前跑。而且跑的过程中，他还有时候问你说：“我这块执行不下去了，那块找不着了怎么办？”你还可以跟他再聊两句，继续往前走。

如果你说我不走规划模式，直接用简单方式一次跑到底的话，那你就一开始要把任务提的比较详细一些。整个干活的过程呢，还是很有启发的，就跟思维链似的。你看他先干什么后干什么，先搜索什么后搜索什么，是有启发性的。如果发现哪块没做好呢，我们后面也可以拿这个东西再去修补。输出的结果呢必须要验证，这个没什么好说的，里头一定是有明显错误的。Agent的传递过程中呢，会出现明显错漏，刚才我们演示的时候也看到了。生成的结果呢框架可用，生成结果后面的很多细节，还需要我们再去补充。而且把这种结果放到他们的Agent IDE里头，比如说像trae里边去，也可以拿这个东西再去修修补补。

目前呢，可以输入的东西是搜索，它自己可以搜索。然后呢，通过MCP挂载一些外部工具。但是现在的MCP呢，只能是它挂好的。你说我想挂一些新的MCP进来，目前还没有完全开放。可以输出的信息呢，第一个是文档，它这个文档是Markdown，就是一些程序员的标记语言，也是有一定格式吧，但是没有那么丰富。然后可以输出这种单页的网页文件，你拿这个网页文件以后，后面呢可以让他去生成自己的网站。你说想让他去写一些别的代码，我测试了一下失败了。你说给我写一个什么安卓应用，它最后生成出来的还是一个网页，没有其他东西出来。然后呢，可以把输出的东西写在Notion里去，也可以输出什么PDF、PPT。PPT呢是以PDF形式来输出的，还可以做表格、做飞书，文档存进去都是允许的。

大家看到了这个产品以后，特别是有些人试用了以后，自己去感受一下。字节在做类似这种产品上呢，它有一些优势和劣势。优势呢就是迭代速度还可以，trae现在基本上已经能用了，特别是在Gemini 2.5 Pro这个模型上来以后，现在trae基本上可以跑了，因为把MCP也加上去了。所以呢，像扣子空间这样的工具，经过一段时间迭代之后，应该也是可以运用的。第二个优势呢，是字节有非常丰富的应用场景，它有抖音、有TikTok，有今日头条，都是可以使用的。

然后有流量，就是我们想宣传点什么东西，在自己的这个流量池里头稍微说两句，没有任何问题。最后一个优势是有钱，就是当产品打磨好了以后，铺天盖地的投放推广。

但是字节呢也有些劣势。它的劣势就是包袱太重。你比如说豆包大模型算是基本达标，但是距离DeepSeek R1呢，还是有一点点差距的。不能扔，因为是自己家的，必须抱着往前走，这就叫包袱。还有呢，就是藩镇割据。大公司都是这样的，扣子、火山、trae、飞书、剪映，各玩各的还相互提防。就是说我这边有点什么东西，我绝不能给你看，也绝不能听你的。你需要我什么配合，一定不给你做。咱们是这样的一种合作模式。其实大厂里边都这样，就是宁与外人不与家奴。这个话应该是慈禧说的。什么意思呢？就是他们更喜欢跟外界进行合作。你说我跟内部的一些团队合作了，其实更合适一些吗？因为毕竟大家的基础数据是一致的，应用场景也是一致的。那不行，一旦是内部合作了，就有谁听谁的问题，谁成主谁成辅的问题。这事不能随便乱搞。

总结一下吧。现象级的产品Manus出现之后呢，各大厂商都是要抄一遍的，这也算是对方向的一个认可。agent加MCP呢，应该能够引起一个小的热潮吧，确实可以解决一些实际问题了。未来呢，更好的模型，更多的外部工具，会产生更好的结果。

下一步我们可以期待什么？open AI、谷歌、Anthropic和Meta现在还没有特别明确的类似这种agent加MCP的产品出来，我们还是可以期待一下的。下一个里程碑是真正的交易。什么意思？就是我们现在看到的扣子空间也好，Manus也好，或者其他所有类似这种产品也好，主要做的事情还是叫信息搜集。他并没有真的做交易。你说你给我订个房间，去给我买张机票去，给我买东西去，这个事没干。一旦这一条路打通了就会腾飞。

为什么他们现在不去做交易呢？原因也很简单，现在模型还没有那么靠谱。因为它出问题的几率会很高嘛，受不了。所以现在并没有真正的把交易做进去。现在的各种MCP，也都是以信息查询为主，很少有哪个MCP是可以做交易的。你比如说像美团，如果给我一个MCP，我直接可以通过MCP去在美团上订餐，目前还没有。因为现在的大模型或者是这种agent模式呢，还没有那么靠谱。在等待向前发展那么几个月，可能我们就会看到由MCP驱动的交易大量涌现，这么下一个篇章就真正翻开了。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛。

参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

震撼发布！GPT-4.1，牛马的新工具来了，专为程序员打造百万Token上下文API利器，超低价与高指令遵从度能否颠覆Gemini与Claude主导的工程市场格局？

Luke Fan — Wed, 16 Apr 2025 00:52:31 +0000

GPT4.1发布了！牛马们的好工具终于上线了。大家好，欢迎收听老范讲故事的YouTube频道。

GPT4.1突然发布，这是程序员们的工具。普通的用户你是用不上的。你用网页版，你用APP，甭管是手机端的还是电脑端的，你是付费用户还是免费用户，你都用不到GPT4.1。只有程序员可以通过API调用GPT4.1。

但是这个事儿对于非程序员来说，也是有很大改变，很大帮助的。那么我们今天来讲一讲，GPT4.1到底是一个什么样的东西。

首先，它有100万TOKEN的上下文，这个是非常吓人。100万单词吧，基本上你可以直接塞到GPT4.1里头去，它统一给你处理。而且大海捞针做的也很不错。

什么叫大海捞针？就是比如说你找一个100万字以内的小说，你直接扔进去，然后呢，在里面稍微插几句。比如说OpenAI干什么了，山姆奥特曼干什么了，甭管在文章的任何地方，你稍微插几句，然后你提相关的问题，它能给你找出来。这个玩意叫大海捞针。

很多的模型都需要做类似这种测试。为什么呢？就是说我一次给了你一大堆上下文以后，你是不是通盘考虑了？不会说把其中的一部分扔掉了，或者说我看看开头看看结尾，就告诉你是怎么回事了，不会干这个事。所以GPT4.1的100万TOKEN还是非常强的，绝大部分场景直接可以应对了。

但是现在还不是最强的。现在Gemini Pro 2.5是可以走200万TOKEN的，Gemini Pro 2.0也是可以有100万TOKEN的。但是在其他的模型就没有了，可能也就是64K（64,000 TOKEN），也有一些是128K（128,000 TOKEN）。但是到100万TOKEN的其实还是比较少的。

指令依存度非常的高。什么叫指令依存度？就是你让它干嘛，它就给你干什么，不会说每一次出来的都是惊吓惊喜。你让他去找什么什么样的文章，找什么样的信息，做什么样的排序，按照什么格式输出，他都会非常非常认真的按照你的要求去把它做好。

编程能力有了非常大的提升，但是依然比不过Gemini 2.5 Pro，也比不过Claude 3.7。它的编程能力只是在原来GPT4O的基础上有了很大的提升。

标准版、mini版和Nano版，分了三个版本。为什么要分这么三个版本？速度飞快。当然现在速度最快的不是它，现在速度最快的是Grok 3 mini。这个版本是所有程序员能够使用到API里头速度最快的，原因也很简单。

用的人不多，模型又小，而且后边是马首富。家里头穷的光剩卡了，所以那东西跑的飞快飞快的。我前面有一个项目拿这玩意做，一个回车下去，夸夸夸那个刷的那个字你都看不过来。

价格非常便宜，GPT4.1，特别是这个Nano的版本，100万TOKEN的输入只需要0.1美金，换人民币7毛多钱，就可以输入100万TOKEN了。输出的话是0.4美金100万TOKEN输出，是目前大家能够用到的所有付费模型里头最便宜的一个，没有比它更便宜的了。就算是GROK3 mini，大概也要到0.3美金100万TOKEN的输入。

那么牛马们工具终于更新了，要好好去干活了。程序员们对大模型的要求，其实跟普通人还是有一些差别的。普通人呢说我要跟他聊天，他要显得聪明一点，要给我写的不像AI，要给我有很好的创造力，这个是普通人的要求。

但是程序员呢，通常要求的叫指令依存度、可控性，在这两方面要求是非常高的。因为既然是程序员，我们只是让大模型成为我们整个程序中的一个模块。我们要求的是输入，然后按照一个统一的逻辑，有一个可以预期的输出，这个是程序员想干的。就是真正那些才华横溢，不太听招呼的不是好牛马哈，所以一定是要让干嘛就干嘛的这种。

工程方面呢对于大模型的要求，跟普通人也是有一定差异的。为什么呢？普通人说你这个模型越大越好，越聪明越好。但是对于工程上来说，在满足预期的情况下，尽可能的降低成本，提高效率，提升一致性跟稳定性。在可以接受的成本下，获得可预期的结果，我给了一分钱还是给了两分钱，我就要这个结果出来，这个是工程上的需要。

GPT4.1呢，就像是牛马们突然得到了曲辕犁，这个也是中国古代的一个很著名的发明。有了这个农具以后，牛马犁地的这个效率就会极大提升。GBT4.1基本上就是这么个东西，价格便宜速度快。刚才我试了一下，至少Nano的版本，那个速度非常的快，虽然还没有GROK3 MINI那个快，但是已经很快了。

MINI的版本效果也还是不错的。这三个版本里头，大家可以按照需求自己去选择和优化。你让他做很复杂的事情，你就是选用GPT4.1。稍微简单一些的事情，或者我不需要你去发挥创造力，我给你一堆的会议纪要，你给我总结归纳一下。或者说我去到本地知识库，检索完了东西以后，你给我总结一下，这种事情你用Nano版或者是用mini版足够了，这个效果非常非常的好。

100万TOKEN的上下文。

绝大部分场景都可以满足了。你都不需要去做本地知识库做RAG，你可以直接把文档啪一把都扔给他，说来给我看看怎么回事，不需要去做更复杂的分段了。指令依存度高，这件事是非常非常重要的。

程序员最怕的是什么？叫指东打西，指南打北。像我原来使用GPT-4O的很多模型的时候，每一次输出的结果都不一样，这个让我很烦。我举一个例子吧，我让他给我的视频起标题，每一个标题后头有一个标号，但是呢，他每一次输出的都不一样。有的时候输出的是123，有的时候呢先要写一个引号，再写123，有的时候在前面给你写中文的123。这个就很烦，因为我到下一个环节去处理这个标题的时候，我需要去找到数字123打个点，然后后边是标题的这三行字，但我就找不到。经常是找着找着就出错了，因为我写程序的时候，必须是通过这个比较固定的格式去读取信息，经常会错。现在的话就不会出这种问题。

程序员喜欢的是不需要太聪明，让往东绝不往西，让追狗绝不撵鸡。GPT-4.1就是这样的一个工具。OpenAI在这个时候呢，推出GPT-4.1也是无奈之举。这个老大真的很难当，为什么这么讲？因为AIGC呢是一个基础技术，OpenAI想把AIGC的整个的盘都占住，在里头当老大，这个是很难的。

因为对于大模型的评判标准在快速的分裂。有的说我这个大模型创意最好，就像前面的GPT-4.5似的，我可以去生成各种各样的内容，而且你可以指定说给我按鲁迅那样说，他都可以做的很好。有些呢，是需要做可衡量的项目。什么叫可衡量的项目？就刚才那种创意项目是没法衡量的到底好不好，大家是要靠主观去评测的。可衡量的项目最简单的就是编程，你这个程序编的对不对，里头是不是有错误，是不是把上下文和所有的东西都考虑到了，这个叫可衡量项目。这块也是可以去评估的，谁的大模型编程最好，而且还有稳定性的要求，指令依存性的要求，这块也可以去评测。

大模型还有推理能力的要求，这块你的推理能力够不够好，这也是一个新的维度了。包括速度和价格以及多模态，多模态包括理解和生成以及realtime。Realtime是什么？就是我实时的输入，实时的输出。现在谷歌也好，OpenAI也好，都可以去进行这种real time的回复。就是你拿着一个摄像头，对着人呢也好，对着外面也好，你说这是一什么东西，那是一什么东西，就像是一个真人一样跟他聊天，去打断他，它可以实时的根据摄像头拍到的东西。

和听到的内容，给你进行回复。而且这个多模态还要去评估音频，还有是语音和音乐，还有图片，还有视频。我们要做这么多行业，这么多领域去进行评估。

而这一次，GPT-4.1可以对没有字幕的视频进行理解和分析，而且它现在在这一块的得分是最高的。它比其他所有的这些Gemini也好，包括GPT自己早期的版本也好，都提升了非常多。

GPT-4.5呢，算是一次失败的表演。就是前面先发了一个4.5出来，然后现在又发4.1。因为4.5这个东西其实是给这种Pro用户用的，就是你一个月交200美金以上可以用。后来呢，发现实在用的人很少，它又降低下来，一个月交20美金的人也可以用吧。

现在我也可以用4.5，只是到目前为止我都没有用过。为什么呢？第一个，很贵。虽然我一个月交20美金，他让我用，但是这个效果对于我来说其实看不太出来。为什么呢？因为他的文学上，在他的很多这种创意上做的非常好，但是我是一个程序员，是个直男，他写的天花乱坠的东西，到我这看不出来，还真会有这样的问题。

而且呢，4.5这东西还挺慢，这个也不是我喜欢的。所以到现在为止我没怎么用过，包括4.5的API我也没怎么调过，因为实在是贵。调API的话，你是要按TOKEN付钱的，不是说一个月交20美金就完事了。

GPT-4.5在工程方面绝对是战五渣。为什么呢？就这个价格，就让工程师直接望而却步了，实在是玩不转。稳定性、指令依存度这一块的话，肯定也不怎么样。我看创意越好的东西，这个指令依存度和稳定性就越差。

OpenAI现在在表演什么节目呢？叫“六大派围攻光明顶”。什么意思？就是在推理上被DeepSeek-R1摆了一道。并不是说OpenAI的推理做的不好，只是它原来呢，因为没有其他人竞争，所以它的推理是隐藏的，就整个的推理过程不给你看，只给你推理的结果。

而DeepSeek-R1是上来我就把整个推理的结果原原本本拿出来给你看。很多人看了推理过程之后，我还受到了启发，我还发生了思维的碰撞，可以有一些新的想法出来。在这一块，真的是给OpenAI了一些教训。山姆·奥特曼现在自己出来也承认这件事，他说：“我们并不认为DeepSeek-R1真的有做的多好，但是呢，在这一点上，确实是我们原来没想到。”

价格上呢，也被DeepSeek-R1和DeepSeek-V3摆了一道。这东西确实是便宜。这东西花多少钱训练的咱不管它，但是呢，因为它是完完全全开源免费，各个平台都在部署。

所以呢，DeepSeek V3也好，DeepSeek R1也好，对于很多的第三方开放平台来说，它所提供的这个基本可用的功能是相当便宜的。但是现在，4.1的MINI和Nano的价格已经下来了，但是4.1标准版还是稍微有一些贵的，比4O要便宜。但是应对DeepSeek的V3和R1来说，还是稍微贵一些。

在编程能力上呢，被Claude 3.5长期碾压。现在呢，还有Gemini 2.5 Pro和Claude 3.7。到目前为止，GPT 4.1在编程上的评分依然赶不上Gemini 2.5 Pro和Claude 3.7。在多模态生成这一块呢，视频，它的Sora基本上是废了，现在大家再也不想这事了。图片距离Midjourney还是有非常遥远的距离的，很难追赶。

AI agent方向就是它的下一个大方向。现在面对Anthropic的MCP和Gemini，以及Grok给出的deep research或者deep search这些功能来说，现在还是需要去追赶的。因为它下一个GPT5的版本应该就是要追赶这一块了，所以真的是四面楚歌。

除了这些之外，还有一大堆千问小模型在不停的跑冒滴漏，把各种各样零碎的用户需求都给实现掉了。为什么说一大堆呢？现在通过各种尺寸的千问模型微调出来的一个小模型，在Huggingface上大概有十几万种，所以这个是非常大批量的。

现在的OpenAI呢，在个人用户这边那绝对是遥遥领先。从用户数量、使用时长，其他所有的AI助手加一块大概都赶不上它。但是在程序员和工程方面，已经被Claude、Gemini和DeepSeek给吃干抹净了。我自己应该已经有几个月没有再调用过OpenAI的API了，没必要。你效果又不好，价格还挺贵，还不快，我为什么要调你？

所以我现在已经把自己的很多AI agent里头的大模型都换成Gemini，换成Grok，换成Claude和DeepSeek，都换成这些东西了。当然，我今天上午又把它很多换回4.1了，效果很好，好极了。

现在GPT4.1呢，就是为了挽救工程市场，挽救API市场而诞生的。这个东西并不是给c端用户去用的。那你说4.1是不是牙膏呢？你看这数就知道了呀，人家不叫4.5，不叫4.6，不叫4.7，人家叫4.1，这个肯定还是一个小牙膏。它呢，在这个创意上，在模型更聪明这块做的一般，只是说这是一个比较老实的。

指哪打哪的一个工程工具而已，这个还是很好用的。GPT5呢，估计后边还是要稍微难产一些。现在OpenAI也出来说了，我们低估了GPT5训练的困难，可能还需要再多等几个月，大家才可以看到GPT5。必须在这个时候先稳住局面，使用DeepSeek、Gemini、Claude以及MCP，其实已经可以做很多真正有用、有价值的商品了。

如果OpenAI继续放任这个事情往前走的话，程序员们可能就会被这几种模型直接都抢走了，就不会再向OpenAI去迁移了。那么OpenAI就有可能会变成一个像苹果那样的纯C端公司，这个是OpenAI所不希望看到的。他作为AIGC行业的排头兵，他希望在所有的方方面面都领头，这是他现在会遇到的问题。

OpenAI手里边的各种模型、技术和工程实践呢，肯定还是非常多的。我们现在看到的应该是冰山一角。OpenAI目前在做的事情是什么呢？如果没有人震动它，它可能还在那继续挤牙膏，继续在这晃荡。实际上2024年一整年，它就是这么个状态。但是到2025年，随着DeepSeek R1的出现，发现不行了，必须要冲出来，赶快把后院里头各种能跑能跳的东西都拎出来，稍微的包装一下，打扮打扮就直接上线了。

所以现在我们看到，OpenAI的动作是非常多的。但是即使如此，每一次我们所看到的，依然是OpenAI内部技术的冰山一角。

总结一下：如果不是程序员，GPT4.1跟大家呢，会有一些间接的关系，就是很多新的应用会出来。因为用GPT4.1做应用会更方便一些，而且这些应用呢，速度会更快，价格会更便宜，而且也会更稳定。如果是程序员，或者是说您虽然不是程序员，但是呢，想搞点Agent自己玩一下，那么4.1是一个非常非常有趣的小工具，赶快去玩起来。我已经玩了一上午了，非常非常有意思。

好，这期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

Midjourney V7震撼发布：艺术巅峰细节狂魔强势回归，但面对GPT-4o的一致性与定价策略，它还是AI绘图的唯一真神吗？

Luke Fan — Sun, 06 Apr 2025 00:42:30 +0000

MidJourney V7终于发布了，是不是王者归来了呢？

大家好，欢迎收听老范讲故事的YouTube频道。2025年，大模型进入了快速内卷期。从春节的时候，DeepSeek R1发布，打响了第一枪。前面DeepSeek V3大家还没觉得怎么样，R1一出来，第一枪打响了，大家开始卷推理、卷开源、卷免费、卷基础模型。

基础模型是什么？GPT-4.5、Claude 3.7、Gemini 2.5 Pro以及DeepSeek V30324版，这是在卷基础模型。然后大家去卷AI agent，各种deep search、deeper search或者是deep research，Manus，各种的AI agent开始卷起来。最后卷绘图，绘图应该是从GROK3开始卷起。GROK3说：“我可以不设限的让大家去画图。”算是给了大家一点点小惊喜。

Gemini 2.0 Flash直接说：“天塌了，这个以后做Photoshop的人要没饭吃了。”他对语言文字的理解和执行能力非常非常的强。你给他一个美女，给他一个包，说让美女拎着包，一致性很好。这个美女拎着这个包没有任何问题。当时大家就讲说Photoshop这帮人要失业，但是并没有引起特别大的风潮。为什么？因为Gemini 2.0 Flash画太复杂的东西是画不了的。

再往后，GPT-4o图形功能就出来了，这个就真的天塌了，又来了一次GPT3.5时刻。什么是GPT3.5时刻？就是当时他们把ChatGPT-3.5推出来的时候，整个社会都震惊了。现在你到x平台，到各种社交媒体平台上去看，大家都在疯狂的分享吉卜力风格的各种合影、各种图片。这确实是非常有感染力的一个产品，而且它的一致性极强，妥妥的生产力工具已经到手了。只是它也有不足的地方，就是太复杂的它还是表现能力有欠缺。

在这样的一个时刻，Midjourney V7就露出了影子。在GPT-4o轰动整个社会的时候，MidJourney的CEO就跑出来表示不屑一顾，说：“你这算啥？艺术感、细节都不行，你们等着，下个礼拜我就发布MidJourney V7。”因为MidJourney到6.1以后，很长一段时间都没有更新啊。所以他说：“我们马上要发布了，而且时间确定了下个礼拜。”他所讲的下个礼拜，实际上就是我们刚刚过完这一周。从周一开始，先做了一轮rank。做rank干嘛？他给你一大堆图片，让你去打分。每一次有两张图片，这两张图片……

你可以选择你感觉比较好的一张，或者能够触动你的一张。而且这两张图片可能画的是完全两个不同的东西，完全无关的东西。你只要是看哪个稍微好一点，去选就完了。你可以选择说我第一张好看一点，或者你可以选择回退：“上一次我选错了，两张我实在是半斤八两，分不出来。”你可以SKIP，要下一次，这个都是可以的。

是周一干的事情。周二做了第二轮，第二轮我没去啊。到周三又做了第三轮的打分。第一轮的打分里面，还有很多图片的质量是很差的，就属于生成失败的。比如说跑焦了，或者是一些绘制一半的，这样的东西就都拿出来了。到第三天我又去打分去了，打了几千张图片，还是非常棒的。第三天给出来的图片，就完完全全是MidJourney V7生成的图片了，那个效果已经非常好了。

到第四天周四没有什么动静，其实也做了一件事，什么就是把我的relax权限给取消了。什么意思？像我这种每个月交10美金的订阅用户，我本来是可以用fast方式去画图的。fast方式就是他给我200分钟，实际上基本上够我画200幅画，就可以做这个事情。那么如果是可以使用relax，就是这种放松模式，它是可以无限画，但是会慢一点点。在礼拜四，他就直接把所有像我们这样的10美金的叫基础用户的relax权限全取消掉了，这是干了这么个事情。

到周五推出了第一个Alpha版本。所以现在我们虽然看到了MidJourney V7，也可以用V7去画画了，但是其实我们现在使用的是MidJourney V7的Alpha。第一版是最早期版本，现在这个版本极其精细。你让它画什么东西，各种细节拉满，艺术感表现力都非常的强。指令的理解和遵循能力也比原来MidJourney的6.1要强很多了。原来MidJourney 6.1，你如果提示词很长了，后半截它就给你忽略掉了。现在V7都可以去正常使用，而且现在支持中文提示词，你不需要再去写英文提示词了。

当然，也有一些让我们不是那么满意的地方。第一个一致性并没有GPT-4o那么好。什么叫一致性？你告诉他我画的都是同样的一个东西，在不同的图片里，它应该长成一样的。在这块这个MidJourney V7还有待提升。另外一个就是太精细了，他很喜欢给自己加戏哈。待会我展示一下他的图片，你们自己去判断。很多功能现在还没有上来，第一个是cref还没回来。这个是干嘛？换脸的，就是原来在MidJourney 6.1里头。

你可以给它一张照片，说：“我现在要用这张脸。”它是可以去工作的。但是现在V7里头还不支持这个功能，文字功能还很差。这个不比V6.1强多少，而且中文完完全全不支持，这是现在的一个情况。

另外一个就是很贵。它只允许relax模式和Turbo模式来工作。刚才我讲了，我的relax模式被取消了，所以我不允许再去画relax了。只有一个月30美金以上的人，才可以使用relax无限的去画。我是可以使用Turbo模式的啊。Turbo模式什么意思？就是快速生图。那么快了挺好吗？但是它生成一张要收两张图的钱。所以我原来一个月有200分钟的生图时间，能够生200张图，现在我只能生100张图了。所以这一块还是要贵一些的。

它还有一个比较有趣的功能，叫草稿模式，更快。而且草稿模式是完全支持用嘴生图的。下面我们来演示用嘴生图。

这就是Midjourney的网站了。这个网站大家可以去浏览别人画好的画，去创造自己的图片，或者是去做编辑。这个编辑咱们就不再细讲了。这有一个很重要的点就是做个性化。V7是强制要求开个性化的，所以如果你原来没有开过个性化，那么你现在需要去对V7做个性化训练。

什么叫个性化？就是说我喜欢哪张图，我不喜欢哪张图，你要去打一大堆分。打完了以后，它就会知道哪个是你喜欢的。大概是要打到几百张，它就会给你形成一个风格。那么每一次画出来的东西，都是跟你喜欢的比较相近。

下面是我们自己画的一些图片。好，那么我们现在就来画。我们现在可以在DISCORD里头画，也可以在这里画。你在这写上提示词就可以，在这加图片也是可以。这个p我们要去做个性化，V7是强制个性化的，你不做个性化它不让你画。然后这是方的、圆的、扁的，是这个哪一个版本啊？我们现在都是使用V7来进行绘制。

好了，大家注意，这里有一个很重要的东西，就是草稿模式。一旦点中了草稿模式以后，它会快速的给你生成一些比较简单的图画，也将就能看。一旦点了草稿模式之后，这后边就出了麦克风，我们就可以去跟它说话了。

“赛博朋克都市程序员的卧室，改成皮克斯3D风格，色彩更加鲜艳一些。”
“以第三张为基础，加上一把人体工学椅。”
“以第三张为基础，加上两只猫。”
“我没有看到猫猫在哪里，放大第三章。”

好，我把它这个录音关掉，我们就可以放心说话了。这个是会比较慢的。为什么？前面画的都相对来说要粗略一些，它是draft模式的。但是你在这样的图上让它去做放大，就会费点劲。

正常的我们画完了以后放大是很快的，draft模式就会慢很多。现在是放大到16%。好，这就是我们的用嘴修图的过程。过程并没有那么顺滑，因为它的一致性还是有问题的。但是，我们已经完完全全可以用嘴修图了。

下面我要展示一下用MidJourney V7生成的图片。当然，你说我只用MidJourney V7来生成，可能大家没有什么感觉，所以我们来进行一些对比：MidJourney V7生成图片的横评比较。大家注意，我后面这张图就是用MidJourney V7来去生成的。当时的提示词应该是吉卜力风格的日式烘焙店厨房，感觉还是很有趣的，画的非常的精美。

那么怎么个横评法？首先我们要对中文提示词跟英文提示词进行比较，比较照片以及指定风格。皮克斯3D和吉卜力工作室风格我们都要去测试一下，手绘风格也要试验一下。画的东西是食物、人物和场景。我们比较是MidJourney V6.1、V7、GPT-4o和XAI的Grok，我们是对这四个版本进行比较。我后面这幅画也是MidJourney V7画出来的，非常的精美。材质上面，比如小帽子上面的这些材质都非常精细。

好，我们开始正式的比较。首先是中文提示词：巴厘岛海边日落的小酒吧。因为MidJourney V6.1是不支持中文提示词的，所以没有它参赛。左上角的这个是GPT-4o的，大家看一下还是有一点点感觉：日落下面的小酒吧，而且巴厘岛它有一个草棚子的顶。右上角这个是Grok的，感觉也还可以，只是它里面画的东西要稍微少了一点点。左下角的就是MidJourney V7画出来的，我说它加戏，非常多的细节，有灯光有各种的细节都在这里，而且色彩非常的真实和柔和。这个就是MidJourney V7。

同样的，我们去使用英文提示词。这个刚才我们使用的是中文提示词，如果是英文提示词，使用DeepSeek R1生成的英文超长提示词。在这个左下角，大家看到的就是超长提示词了，就是一个小的这种餐吧，在巴厘岛的海边上，在这个golden hour，就是金色阳光洒下的时候。写的非常完整，而且下头还要写我使用各种的配色，使用什么样的灯光，要有茅草的屋顶，这都写上了。右下角是MidJourney V6.1生成的，其实已经感觉非常精细了。但是跟左上角MidJourney V7生成的图片比较起来，它的色彩的真实度还原度，以及各种细节纹理，你看这个地板上的这些纹理。

还是没有办法去比较的，所以这绝对是细节狂魔。那么，Grok和GPT-4o做成什么样了呢？一模一样的提示词扔进去，GPT-4o对于这种超长提示词是有问题的，所以它生成出来的东西，怎么说呢？你把它作为是绘本，这个是可以用的，但是跟前面MidJourney生成的，哪怕是6.1生成的都完全没法比。至于Grok的脸完全塌掉了，脸是一点都没有办法看的，但是整个的氛围还是正确的，细节就废掉了。

再往后，我们来进行指定风格的绘制。先绘制皮克斯3D风格的美式汉堡店，还是使用DeepSeek R1超长提示词。我们看看右下角的，是6.1的。怎么说呢？很多细节是有问题的，包括这个人物，这些细节是错误的，但是它整个的氛围非常好，感觉是稍微有些不太真实。而左上角是V7的，非常非常细致，地板上都有反光。用游戏的说法，这玩意叫光追，这些都已经给你画出来了，而且各种的细节拉满，汉堡橱窗、各种的炊具、冰箱，每一个细节，每一个家具，都属于统一风格的。但是你说这个算不算皮克斯3D风格？算，也稍微有一点点小差距。它介于皮克斯3D风格与现实风格之间的一个状态，还是非常绚丽的一张图。

再往后看这个GPT-4o，它对于皮克斯3D风格的理解要更加透彻一些，色彩也更好，但是细节和艺术感就不要太纠结了，没有了。至于Grok，我觉得基本上算失败了，没法看了。

再往后，我们试试吉卜力风。提示词是“京都春季街头书店”，用DeepSeek R1超长提示词去做的。我都是把这一句话“吉卜力风格，京都春季街头书店”这句话扔给DeepSeek R1，说你给我去生成英文提示词。他画出来的，右下角V6.1的，感觉确实是一个日漫的风格，没有任何问题，但是它的色彩稍微有些明亮了。左上角V7的，大家仔细去看这个里面的细节，自行车、这个樱花树、各种房间里面的细节以及色彩，绝对是要比6.1的要强非常多了。但是你说这是不是一个吉卜力风？色彩和格调是啊，但是它还是更像一个吉卜力风格的现实场景，并不是一个纯手绘的吉卜力风，这个还是有些差距的。

那么在吉卜力风这一块，GPT-4o一定是做的非常棒的。大家看到它这种色彩，这种乌突突的感觉，但是它的细节就不用想了，这就是GPT-4o的。至于Grok，它叫日漫风，你虽然用的是吉卜力风格给它的，但是它画出来的是日漫风，距离吉卜力风还是差的比较远。这是我们做的吉卜力风格的“京都春季街头书店”。

再往后，我们指定手绘风。

这个提示词是彩色钢笔手绘烘焙甜品店的菜单，右下角MidJourney V6.1画出来的有汉堡、冰激凌、咖啡、牛角包、蛋糕，这边应该是布朗尼，各种甜品。下头还有一些文字，这就是MidJourney V6.1的能力。至于MidJourney V7，大家想明白为什么我说这东西是戏精了吧？不停的给自己加戏。你说他是手绘风格吗？没有问题，是手绘风格。但是这个菜单他也做了排版，只是文字就不用再去纠结了，他文字是没法看的。总的来说，这个有点画的太满了，是不是？这就是给自己加戏的V7，但是真的是很漂亮。这张画画出来的细节绝对拉满，你看看这牛角包上面的这个糖浆，以及咖啡里面的拉花，实在是太棒了。在这种要求上，GPT-4o跟Grok基本上算完败吧，你们是不是同意这种观点？

下面我们去画人物，身着汉服的美丽中国新娘，用6.1画出来的，人看着不太像真的，但是衣服和凤冠霞帔真的是非常的细致，但是没法跟v7比。这一件汉服大衣服绝对是太奢华了，以及后面整个虚化的庭院场景，实在是太棒了。但是人脸因为离得远，不是特别清晰，所以后边我们再去画一张特写。咱们来看一下特写的效果，很真实的一个人。大家仔细去看，因为她是新娘，她这边有各种的礼物，以及后面虚化的房屋场景。手感觉不是特别清晰，但是手应该没有画崩。这是她整个的一个绘画，你看她的头饰，以及每一根发丝，实在是太精细了。再看它的耳环，看它的挂饰，特别是我觉得让我很感动的，就是这件刺绣的大衣服，一针一线，你都可以感受到这个材质的变化。这就是MidJourney V7的力量。在这件事情上，这个GPT-4o跟Grok完败，大家同意吧？没有什么问题。

好，我们再往后放食物。我要求的是一碗热气腾腾，配料丰富的日式拉面。V6上面要稍微差一些了，热气是有，但是感觉很不真实。叉烧已经完全做糊掉了，上面的这些葱、海带已经很不清晰了，后面是一块应该是紫菜，蛋画的还可以，面已经不是很像了。但是V7，大家仔细看看碗下面的花纹，叉烧肉上面的条纹，以及紫菜上面的纹理，这颗反光的蛋，还有它这些面。这个绝对是一碗热气腾腾的。大家再看这个蒸汽，你看V6.1上是有蒸汽的，但是不像真的。但是V7上面的蒸汽，就完全的以假乱真了，真的是一碗热气腾腾，配料丰富的日式拉面。这件事情上，GPT-4o跟Grok做的也还是不错的，它的肉包括grok上的肉都是有纹理的，蛋的也还可以了。

只是它的配料没有MidJourney摆的好。

在日式拉面这件事情上来说，我觉得Grok画的应该是味千拉面。GPT-4o要比Groker稍微好一点点，但是比起MidJourney V7来还是差很远的。

所以为什么说GPT-4o是生产力工具？就是当你去画一个很明确的简单场景，特别是这种产品图的时候，GPT-4o是可以干活的，但是Grok就要稍微差一点点了。

这就是我们去展示的MidJourney V7画的图，背景也是MidJourney V7的背景，应该是钢笔淡水彩风格，巴黎老钱风的厨房餐厅，使用莫兰迪配色。大概是用的这样的一个中文提示词，用DeepSeek R1进行了丰富以后，画出来的结果。大家看一看，是不是韵味都已经达到了MidJourney V7？

现在我们所看到的仅仅是Alpha 1的版本。未来的60天里头，每两周都会进行更新。我们会每两周期待MidJourney V7下一步会给我们补充哪一块新的功能进来。

未来的预期：现在文字，特别是中文还非常非常差，就算是英文的话也经常会拼写错误。在这点上比GPT-4o要差非常远。GPT-4o可以一句话生成完整的海报、完整的菜单，这个都是可以做的，但是现在MidJourney V7还不行，可能在未来一段时间会更新出来。

一致性还有待提升。特别是你想要做连环画，想要做一些绘本，你还是需要一致性的。特别是生产力工具，在这块还是有要求的。另外不能太戏精。刚才你们也看到这些图片了，这个MidJourney V7生成的图片，真的有点太戏精了，这个让你有的时候哭笑不得，不停的给自己加戏。

现在还有传闻他们在准备做3D模型，这块也还是值得期待的。视频方面，MidJourney征求过意见，说应该怎么收费，所以有可能会在V7版本的后期出视频。

总结一下，MidJourney V7给我最核心的体验，就是再次成为了艺术表现力的王者，以及细节狂魔。当然，距离生产力工具还有些差距。

最后一个感受：10刀的套餐好像不太够使了。我要稍微纠结两天，看看是不是去买30刀的套餐。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

老范的绘画技巧大揭秘，DeepSeek-R1推理，助力MidJourney成为情感放大器，尽情享受AI带来的情绪价值大放送。

Luke Fan — Sun, 09 Mar 2025 00:43:16 +0000

今天，满足大家的要求，跟大家分享一下我的图片都是怎么画出来的。大家好，欢迎收听老范讲故事YouTube频道。今天，咱们来讲一讲AI艺术创作的全流程到底是什么样的。老范讲故事的很多图片，包括封面，包括我的很多背景，还有我去发推特或者是发到YouTube社区里边的这些图片，到底是怎么产生的？今天来跟大家好好的解析一下。

今天的课程呢，一共是分为两个部分。第一部分呢是公众课程，第二部分呢应该是会员课程。第一部分就是告诉大家这画是怎么画出来的，AI绘画如何进行情感表达。第二部分呢，是自动化创作系统的搭建，就是我们要用AI IDE自己去写一个程序，然后让他可以自动完成所有相关的工作。但这部分的话，我们就不放在公众频道里了，因为课程可能会稍微的有些枯燥。最后呢，跟大家进行一下成果的总结和展望吧。

首先，第一部分AI绘图的情感表达。我们做艺术创作的目的性，我们要把它解析一下。我为什么要干这个事？有人说我要卖钱，这个咱们不管。主要的目的是进行情感的传递。绘画呢，成为创作者与观众之间情感传递的一个重要桥梁。很多事情我说了半天，你可能没有什么感觉，但是我画了一幅画，哦，一下看懂了。这种情感就更容易在语言之外进行传播。

同时呢，还有一个很棒的作用是什么？就是进行情绪价值的放大。这是干嘛呢？很多人喜欢唱歌，喜欢绘画，喜欢表演乐器。他们在干嘛？他们在自娱自乐。通过唱歌、绘画和乐器表演的过程中，让自己内心中的情感得到了放大。在与这种放大之后的情感进行共鸣，得到更好的这种身心愉悦。所以呢，我们先不管说，我这个绘画的情感到底能不能传递给别人，首先我可以让自己开心起来。这是今天跟大家讲这个课的最核心的一个原因。

同时，这些作品会有更好的传播性。我们发了个帖子，并不是说发完了以后不希望别人看到。如果那样你就干脆别发。我发了帖子还是希望别人看到。我原来可能只是写了一行字的东西，现在我配上一副图。

{那么这个文字被更多的人可以看到，这也是一个很重要的目的。现在的主流AI绘画平台有哪些呢？最主要的其实就是Midjourney。今天我们也使用Midjourney来绘图。Midjourney在生成质量方面是非常高的，现在无出其右。跟其他的这些平台比，其实是更适合于普通人去使用的。你说：“哎，我希望使用一些更复杂的、更精确控制的这些平台，有没有？”有，但是呢，我自己都搞不太明白到底应该怎么装，怎么去设置它相关的参数，更不要说一些非程序员。这个是非常非常麻烦的一个过程。所以我们最简单的使用方式就是Midjourney开干。

其他这些平台，比如Dalle，这是OpenAI的系统。他们到目前为止依然没有更新，还是Dalle3的一个水平，应该已经有两年没有更新了。它的特点就是画风比较粗糙，但是呢，文字理解能力非常强。因为OpenAI嘛，它后边是做语言模型的，它的文字理解能力要比Midjourney要好一些。一些工程师用的产品，像stable diffusion，这个公司叫stability，它这个产品叫stable diffusion。他离开的一些人做的，有一个产品叫Flux。现在我们用的Twitter上，在Grok上面去画图的，都是用的Flux。还有一些给大家提供绘图功能的这些平台的话，大多也都是用的Flux。这些呢，设置起来就要稍微麻烦一些，而且你可能还要自己训练和微调这种小模型才可以去使用。有一些工业上的人会使用这个东西，比如做游戏，或者做这种电商图案，他们会使用stability或者是Flux的产品。但是我们普通人自娱自乐一下，不建议使用。

国内的一些平台，比如抖音的呀，或者是阿里的呀，快手的这些平台呢，他们大多是在stability或者是Flux基础上改出来的。整个的使用方式跟他们比较相近，但是有一些比较有趣，比如说像吉梦，这是字节下边的这个平台，他们里头有一些模型。}

是可以支持中文生成的。其他所有这些平台都是不支持中文生成的。我们今天主要就是使用Midjourney，它是普通人的工具，风格很多样。你告诉他说我要宫崎骏风格的、要漫威宇宙风格的，还是要什么风格的，他就都可以给你把它做出来。

下一件事比较麻烦的是什么？就是写提示词了。Midjourney的提示词到底怎么写？Midjourney提示词呢，其实是分三个部分的。那你说我写一只猫、一只狗行不行？可以。那你就等着Midjourney给你去做想象，他画出什么样你就要什么样，就完事了。但是你稍稍微的精确控制一下，就要按照这三个部分来写。

第一个部分呢，就是画面描述的精确。你要把它很精确的描述出来。而这个里头包括什么？场景：我在一个什么样的山上，在一个什么样的屋子里，而这叫场景。然后呢，是主体：我到底是画的一个人，还是画的一只猫、一只狗，要有一个主体。这个主体你看他给你一个例子：一名孤独的徒步旅行者，站在岩石峭壁上，这就是一个主体了。再往后呢，是环境：被雾蒙蒙的山谷和远处的白雪皑皑的山峰所环绕，这就是一个环境描述。以及呢细节：这个旅行者穿什么衣服，拿什么棍，或者是这个背什么包，这个就是一个画面的标准描述。但是你说我都需要这么描述才可以吗？不需要，待会这部分由理模型来搞定。但是我们最后交给Midjourney的，应该是长成这样的一个画面描述。

除了画面描述之外呢，还有一些就是风格定义。比如说我这是一个超写实风格的，还是漫画风格的，还是手绘风格的，你要在这去写这个风格描述，去包括我到底用什么样的色彩。比如马卡龙色，这就是很鲜艳的那种色彩，或者是美拉德色系，那个就是棕色的，各种食物烧焦了以后的那种色系。你做很多的跟食物相关的，让人感觉比较有食欲，比较有烟火气的这样的图片，你就可以用这样的色系。然后光线是不是柔和呀，就都可以在这里去描述了。包括说我记住哪个艺术家的名字了，你也可以在这写。

像刚才我们讲的宫崎骏，这些都可以写在这儿。继续呢是构图，你说我到底是一个广角拍摄呀，还是顶视角、俯视角，还是一个什么样的视角，这个是要在这里构图去解的。最后是这个质量，比如说是高分辨率的、低分辨率的，还是有没有噪点，你要在这里去描述它。这个是第二部分。

第三部分呢，是Midjourney里有一大堆参数，一般会写在最后面。这个参数呢最简单的是AR，就是所有参数都是两个减号，后边带一些字母来去启动的。最简单的是AR，它是干嘛呢？就是算横纵比的。你说我是16:9的，9:16的，4:3的，1:1的，如果不写这个参数，就是1:1的。然后呢，p是叫个性化。那你说个性化怎么做？你要到Midjourney的网站上去进行训练，他给你一堆图片，说我这个喜欢那个不喜欢，你训练了个几百张以后，他就知道了，这是你喜欢的风格。当然你也可以抄别人的，这个p后边的数字，直接用这个是没问题的。现在最新的Midjourney，可能可以写好几个p参数在后头，但是可以把各个人的这种个性化风格融合在一起。

讲到这儿我们要强调一下，就是你还是要去买Midjourney 10美金一个月的那个套餐的。如果你不买那个套餐的话，效果不好，或者说你可能没法使。再往后，S S是什么呢？其实就是说你这个数大概越小，它就相对来说画的比较规整，如果大的话，他的想象力会变得更加丰富一些。他应该是从0到1,000之间的一个数字，1,000就是你就放飞的想象去干去吧，0的话就是不要想，就按我这个来，默认的话是100，这个大家自己去调整。然后c呢是叫做混沌或叫混乱，应该是0到100之间的一个数字，c越大，你最后得到的结果就越乱。再往后一个呢叫raw的一个风格，如果是有这样的一个参数，它应该是画的更写实一些，如果没有的话就是更好的应用风格，大概是这样，因我一般都习惯带上这个参数。再往后两个参数，一个是cref，一个是sref。

{cref}是参考人脸。我想让他画的像谁？你先上传一张照片，然后加上{cref}。待会儿我们不用这些东西，因为我们尽可能的用机器来搞定这个事儿的话，{cref}就稍微麻烦一点。所有人都看到我经常给自己画像，这个就是用{cref}这个参数来去搞定的。

然后，{sref}是参考风格。你说我现在想非常明确的要一幅蒙娜丽莎这个风格的画怎么办？我先上传一张蒙娜丽莎的照片，{sref}指向他的这个照片的链接就可以了，他就可以进行风格参考。

最底下两个参数，一个是版本，另外一个呢是动漫风。这个{v}的话，如果你不填，现在我一般都不填这个数，他就是6.1最新版本。你说我如果写上{niji}，那么他就直接给你按照动漫的方式去画。你说哎，我前面描述了按照宫崎骏的动画给我画出来，那你后边其实不用加这个数。你要是加上{niji}了以后，他是走另外一套模型，会更加明确的画动漫。反正大家自己去选择，后边你自己试一试就可以了。

好，这就是它的基本的提示词写法。后面还可以做什么呢？还可以做一些区域重绘，具体的我们就不再详细讲了，这个就是一些高级技巧了。比如说提示词权重这个调整，你可以说哪一块后边写两个冒号，具体是1还是2，下一个写几个冒号，人要画大一点，旁边的这个花要画小一点，它是允许你这么调整的。但那个太复杂了，我们就不折腾了。

所谓区域重绘是什么？就是你画完一幅画以后，你可以选一块说，在这再给我画一别的上去。这个也是比较复杂，今天我们就不研究这一块了。你画好了以后，可以把刚才我们讲的一大堆参数了，来回试一试，试完了以后得到一些不同的结果出来，再拿到Twitter、微信公众号或者是微博去传播一下试试。

下边呢，我们来看一个示例吧。首先呢，我们示例呢，使用Cherry studio。Cherry studio呢，你说我不会使没关系，你去看我前面有一期Deepseek满血版教学，去看那个去，会教你怎么使用Cherry studio。

下边这一大堆字是什么？就是按照刚才我们去分析 Midjourney 提示词怎么写，然后我去写的一套提示词。这个提示词呢，其实也不是我写的，这个提示词是用 DeepSeek R1 的推理模型写的。我告诉 DeepSeek R1 说，我现在需要一个提示词，让 DeepSeek R1 可以去生成 Midjourney 的 prompt。它最后给我得到了一个 Midjourney 提示词，然后呢是场景、主体、环境、细节。这个其实就是刚才我把中文这部分翻译成英文就得到了。下面呢给了一个案例，说来，你按照这个案例给我拼成这个提示词。然后呢再写了一些，说你下边再给我做一点点这个备注，或者是一些其他的这种建议。而且我们告诉他说，你这个提示词必须是使用英文的，不能用其他任何语言。如果你不写这个的话，有时候给你上中文提示词出来。我们待会用 Cherry studio 里边给 DeepSeek R1 写的系统提示词，就是提示词这个东西呢有三个角色。第一个叫系统提示词，第二个呢是叫做用户提示词，第三个呢叫做助手提示词。系统提示词也就是定义说，我这个系统到底在干嘛。用户提示词呢就是，我到底想让你去做一个什么什么事情。助手提示词是由大模型返回的信息。它一共是分这三种，所以这个就是系统提示词。Cherry studio 里是允许我们去定义系统提示词的。我在这儿呢就不给大家打开 Cherry studio 去做演示了。具体使用方法，大家可以去看前面的视频。

好，我输入了什么呢？“褶皱的旧羊皮纸上，钢笔手绘海盗的藏宝图，骷髅标志代表路径的终点。”我要求他给我画一个这样的东西。然后呢，他就开始来了。他先给我生成了一个提示词，然后呢给了一堆建议。这个建议呢，你可以到时候把这些东西贴上去，说我到底要哪个不要哪个。包括比如说烧焦的边缘效果、17 世纪的海图风格、页边隐藏的密码信息、折叠的纸张痕迹、生锈的墨点飞溅、页边的海洋怪物。他说你还可以在后边加这些玩意。

真正这就这句话是我写的，就是褶皱的旧羊皮纸上，钢皮手绘海盗的藏宝图。骷髅标志代表这个路径的终点。这句话是我写的，其他的都不是我写的，都是DeepSeek R1推理出来的。那么，我根据他给我的这个提示词，自己还稍微的调整了一下，得到的最终完整提示词。大家看最后，我这里是有这个16:9的，这个是我个人的一个个性化编号。当然，你说我也想使这个行不行？没问题，这个可以用。然后是我要求他按照这个更清晰的方式，还原的方式来去生成，s，0-1,000嘛，刚才我们讲了，给个750就是非常大的这个想象空间。你去想去，把它翻译过来，是一张起皱的旧羊皮纸，上面有手绘的海盗藏宝图，用钢笔和墨水绘制，有一个骷髅符号标志着路径的中点。复杂的复古插画风格，带有褪色的棕褐色调与咖啡渍，详细的罗盘，玫瑰点状的宝藏踪迹和航海地标，风化的纹理，可见纸纤维和折痕的阴影，包括x标记、沉船标记和岛屿轮廓，深棕色和象牙色的调色板，边缘发黄，高分辨率，复杂的线条细节，逼真的羊皮质纹理，无噪点。这个是一开始生成的部分，后边我又在他的建议里头又挑了两条，一个是17世纪航海图风格，边缘有隐藏的密码信息，旁注有海洋怪物。这是我最后给他的一个提示词，扔给Midjourney去画去了。画完长什么样来看看，结果是不是觉得蛮震惊的？你这东西让我自己画，我肯定是画不出来的。第二张，第二张有一个小白边，这个有的时候是会画出白边来的，大家自己去选，每一次给你画4张出来。你说我多画几张行不行？没毛病。你看这个上头还写的有字，边上有这些海怪有骷髅，这都是按照我们要求的去画的。再继续这是又一张了，还有罗盘，他反正每一次都会给你画一些东西出来，罗盘的标记，海岛的轮廓，沉船的标记，这你看我们写的提示词上，不都都在这了吗？这是第四张，这个第四张呢，就更加的放飞自我了一些，按道理说呢应该是单色手绘，他这个里头还给你画上了树，也很有意思，什么骷髅、罗盘。

船、海岛的轮廓都有。所以呢，我们就可以通过这样的方式，快速地得到一个自己情感放大以后的图像。这就是我们今天跟大家讲的内容。

你说我没有Cherry studio，没关系，用其他的类似的工具都可以。那你说我没有Midjourney，这个怎么说呢？后边半部分我们讲编程的时候，可以让这些没有Midjourney 10美金账号的人用起来。但是呢，对于他们来说，每一次绘画也是要付钱的，大概画一幅画也需要零点几美金，可能10美分、20美分，大概是这样的一个水平。

好，这就是我们的第一部分。

Grok 3发布：Elon Musk称其为“宇宙最聪明”大模型，暴力出奇迹的xAI，是否可以成为AI时代的世界工厂？

Luke Fan — Thu, 20 Feb 2025 00:40:03 +0000

马斯克的Grok 3到底是不是世界上最聪明的大模型？暴力真的能出奇迹吗？大家好，欢迎收听老范讲故事的YouTube频道。世界上最聪明的大模型，这是马斯克对他自己家的Grok 3给的定义。如果有人不同意的话，那么会被开除的。因为XAI某一位员工在X上发帖说，Grok 3好像并没有那么聪明，然后就被XAI找到说，你要么删帖要么开除。后来这哥们想了想说，我得捍卫一下自己的言论自由，于是这哥们就被开除了。

在说所有细节之前，咱们先说说Grok 3到底怎么用。在2月18号北京时间中午12点的时候，马斯克跟另外三位小伙伴，一共四个人坐着开了场直播，把这个Grok 3发布了。我就四处去找，首先我是X每个月交8美金的Premium用户，我在X上使不了。X上你必须是40美元的Premium+用户，才可以去使用。在Grok的这个网站上呢，你也需要30美元一个月的账号才可以用。免费用户只能用Grok 2，API不充钱已经不让用了。如果是团队的话，至少花了5美元以上，每个月他会赠送你150美金，但前提呢是要跟XAI共享你的数据。

目前Grok 3的版本还没有上，你就算交钱了，你在XAI的网站上，也只能得到Grok 2的API，还要再等几周才会上线。Grok的苹果APP上面，是可以使用Grok 3 Beta这个版本的，即使是免费用户也可以去用。因为我呢对于XAI来说是一个免费用户，我就通过iOS，也就是iPhone和iPad这个版本上去，好好儿的测试了一下。后边儿呢咱们再去讲具体效果怎么样。

Grok 3有哪些具体信息呢？在整个的发布过程中呢，并没有特别详细的讲，只是说，我各种排行榜都排在第一了。Grok 3，Grok 3 mini是怎么去排上去的，讲了很多这样的话。但是呢，这个系统本身的一些细节，并没有那么详细的公开。因为可能在Grok 3稳定下来以后，会把Grok 2开源。现在Grok 1是开源的。

Grok 2可能有一些细节会被披露出来，但是Grok 3的话应该很长一段时间不会有特别详细的细节披露出来。现在能够知道的就是，Grok 3应该也是一个MoE模型，跟DeepSeek是一样的。它到底有多少参数呢？现在猜测是有1.2万亿个参数，DeepSeek是6,710亿，它呢应该是在DeepSeek的基础上翻了一番。至于这个数字是不是准确，我不知道，因为呢我去问了Grok 3，也去问了ChatGPT，最终是给了我一个这样的数字，我并没有去查原文件。

Grok 3的使用感受到底是什么样的？它呢，下边有两个按钮，一个叫Deep Search，一个呢叫Think。Deep Search实际上就类似于OpenAI的Deep Research，就是这种深度研究，它会搜索大量的内容，然后呢，再去给你出报告。Think的话实际上就是类似于O1、O3这样的推理模型。这两个按钮它特别有意思，这两个按钮呢你可以都不按，也可以按其中一个，但是不允许两个都按。这个意思大家能够理解吧？你不能又要Think，又要Deep Search，这个事是不允许的。那你说我既不Think也不Deep Search，这事行不行？可以。

然后呢，我都试了一下。在Deep Search的时候，它会直接引用几十个甚至上百个网页，非常非常多的网页，然后呢给你一个似模似样的报告，很长，格式非常非常好的一份报告。在Think的时候呢也会搜索，并不是自己去瞎编的，他呢，会搜索25个网页，以及呢X上的帖子。大家注意，Deep Search时候是不搜索X的，在Think的时候是会搜索25个网页，加上X上的可能5个帖子吧，反正我搜了几次都是5个帖子，然后给你进行一定的推理，总结出一个小的文案出来。这就是这两个功能。如果两个都不选，我既不Think也不Deep Search，它呢就不联网了，就直接是给你编一个结果出来。

大家注意，所有的大模型，甭管是谁家模型多聪明，你让他直接编出来的这个结果，都是最不靠谱的。那么，他这三个功能，就是两个都不选，或者选其中任何一个。这三个功能呢，特别有意思的一点是什么？他可以混用。

在OpenAI上呢，这种模型混用是比较严格的。你如果开始一个新话题，选择了一个模型，提了几个问题之后，你现在想去切模型的时候，你这个模型，比如说允许有图片呢，下面你要去切的时候，只允许再切换到允许图片的模型。它不允许你切换到不允许读图片的模型去。这个是有限制的。但是呢，在Grok里面它是没有限制的。就是你随时可以开始新对话，对话的过程中可以随时切模型，你可以来回切来切去。

但是呢，在这个过程中呢，有一些不是那么有趣的地方是什么？就是如果你俩都不点上来，直接让模型去编，他就不联网了。他编完第一句以后呢，你说我现在要开始进行深度的搜索了，deep search了，这个时候他也不联了。或者说我现在需要think了，他也不会去联网，他就根据现有的内容接着编下去。他是这样的一种过程。

但如果你是以deep search开始的，那么think的时候呢，他就不去搜索帖子，因为deep search是不搜索X的。如果你是以deep search或者think开始，然后你最后切换回到完全编的，既不deep search，也不think的这样的一个裸模型，去输出的时候，继续搜索。所以它整个的逻辑，还稍微有一点点小混乱吧。

那么，Grok 3到底是不是宇宙第一聪明的这个模型呢？因为你如果用iOS APP你去选的时候，后面会写一个叫smartest，最聪明的。它是Grok 3 beta，后边写一个小括号，smartest，这个是最聪明的。到底是不是？我个人感受呢，现在相差还比较远。为什么呢？为了准备这期节目呢，我其实用Grok 3去做了很多的工作，包括是他的deep search或者think。但是最终呢。

Grok3生成的所有结果都被我扔掉了。最后的内容还是靠豆包和GPT search来完成的。原因也很简单，Grok 3 deep search现在报告的格式非常好，非常中规中矩，但是大量的段落是重复的。前边写了一遍，后边车轱辘话又写了一遍，用不同的格式，用同样的话来回来去说，这个是很讨厌的。

还有一个问题是幻觉大到完全无法使用的一个状态。比如说，我问他XAI现在有多少人了，图说现在有900多人了。后来我问了其他几个模型，都告诉我是有100多人，这个可能还是稍微靠谱一点点。都是联网搜索吗？你都不是自己瞎编的，那我不知道他这个900多人这个数是哪来的。

然后我说四个人在上面开发布会嘛，中间两个人是华人。这两天在国内又嗨起来了，说你看马斯克发布Grok3的时候，马斯克只能在一边点头，点头机器。中间是做C位的两个都是华人，旁边还有一个白人。那我就问他，我说这俩华人到底是谁，什么教育背景，然后就开始给我胡说八道。他也是举的XAI里边的一些华人高管，但是呢并不是当时坐在台上这两个人。

发生这种事情的原因很简单，就是他在deep search的时候，一下瞪了可能几十个上百个网页，回来拿这么多个网页进行总结的时候呢，把内容搞串了，实际上就产生幻觉嘛，就完全没法使。

然后呢，我去尝试了一下think。think呢其实没有特别细致的测试，为什么呢？本来我想去让他做编程，但是呢，他没有API。你没有API的话，就没有办法接到IDE里边去，你没办法作为插件接进去，就没有办法详细地参与到我的这整个的编程过程里头去。我做了些简单的测试，但是感觉呢think模型对于各种编程的复杂的环境，和各种的版本和类库的话，并不是那么熟悉。这块的话可能以后等他有了API以后，再去做详细测试了。直接生成还过得去，就是如果两个都不点，让他直接生成。但是呢，因为在手机上用，并没有办法进行。

特别大规模的使用和测试，现在看来呢，XAI的Grok 3采用的是叫分梯度发布的一个方式。就是说，我先发布一点，然后慢慢地让更多的人能用，再慢慢地发布更多的内容出来，然后不断地去迭代。他现在干这样的事情。现在呢，就是手机用户可以用。那么手机用户呢，第一个用户量不会特别大，而且在这个时候，可能还能够为Grok APP带来一批的下载，这个也算是一个小心思吧。

在手机用户使用的过程中呢，你不会给他特别繁重的任务。因为你要跟他做这种很复杂的沟通的话，你需要打好多字，举了个手机在这噼里啪啦打字，很费劲的。你像我，为了做这个测试，最后是把我的iPad接到了机械键盘上，夸啦夸啦往里打字，这个还是能够问一些稍微复杂一点东西。要真是拿着手机，在那个屏幕上打字的话，这个还是挺费劲的。还有什么呢，就是不会有太正式的任务是通过手机来进行的。比较正式的任务一般会通过网页，通过电脑来去工作。

Grok跟X网站上还是有一些付费的人能够使用的。你不能说老范你没交钱，你就说这玩意不好使。这些比较高付费的用户，比如说在X平台上交了40美金一个月的，或者在Grok平台上交了30美金一个月的，这些用户呢，他是可以去用的。但是这些用户呢，数量肯定会少很多。还有一点呢，就是皇帝的新衣嘛，我付了这么多钱了，我就不能允许任何人说我是傻子，我一定要说这个钱付的是值的。所以呢，就算他们遇到问题了，上来骂街的可能性也不是那么大。这个就是马斯克当前发布了一个版本，比较聪明的地方吧。

后面语音模式的话，可能还要再等一周。我估计语音识别率这块还有待优化吧，因为语音你认不出来就是认不出来，还有口音还有乱七八糟这种事情。咱们再看看，后边会做出一个什么样的结果出来。API的话，还需要再等几周。为什么API要这么费劲，原因呢是现在大家只能看马斯克官方的排行榜，我的测试数据是什么样的，排行榜是什么样的，你自己没法去测取，给你一个手机版本。

或者给你一个网页版本。你现在想把这几千道题输进去，测试这个事太费劲了。你要想测试这东西，必须要拿API写程序去测。这个过程其实有点像法拉利的一个跑车。法拉利就说了，这个东西太贵，而且做测速的时候太危险。如果你自己去测的话，非常不安全，而且保险公司也不允许我们干这个事情。所以，法拉利跑车的最高极速，只有法拉利官方出的这个版本是唯一标准，任何人不得私自去测试法拉利跑车的最高极速。这个事情我们不承认，而且这个事我们也不允许。

现在，XAI的Grok也就是在这样的一个阶段。等以后API上来以后，每一个人都会自己去跑各种各样的测试，或者做多模型的输出结果比较。到那个时候，丑媳妇就真的要见公婆了。下一步的话是要开源Grok 2。DeepSeek是上来直接把最新的模型开源了，而且上来说，你们每家部署的跟我现在自己官网上跑的是一模一样，没有任何差别的。而且不断的有新的技术演进，不断的有新的技术新发现，都直接发论文发出来了。

但是，马斯克永远是开源上一代模型。就是他在用Grok 2的时候，他把Grok 1开源了。Grok 3能够稳定正常运转的时候，他会把Grok 2开源出来，可能还要再等那么几周或者是几个月的时间。山姆·奥特曼现在也惦记开源，刚在X平台上发了帖子说：“唉，咱们投个票吧，你们觉得OpenAI应该开源什么样的模型出来？我们是不是应该开源一个在PC本地就可以跑的O3 mini模型出来，还是说我可以在手机端跑一个这个小模型出来？”

他们是准备走谷歌跟微软这条路的。谷歌也是这样，它有一个叫Gemmar的模型，比较小的这个模型是开源的，主要也是让大家在端侧来用的。还有，微软做的这个Phi模型，这个模型也是开源的，也是让大家在端侧去使用的。但是我觉得，OpenAI如果真的把它的O3的模型，或者哪怕是O3 mini的模型拿出来开源了，或者让大家能用上了。

这也是一个值得期待的事情。讲远了，再往后呢？发布会上，中间两个华人做C位了。这种事情呢，肯定会引起国内的热议嘛。你看，还得看华人吧？华人也比较好认嘛，中国脸。

台上是四个人。第一个是马斯克，马斯克坐一个角嘛。另外一个角呢，这个人叫巴布斯基，这个人呢，是个俄罗斯人。中间的两个人呢，一个呢，叫做吴宇怀，XAI的合伙人，浙江人，在国内上完初中，15岁去了加拿大多伦多大学的博士，后来呢，是斯坦福大学的博士后，现在是XAI的合伙人。还有一个呢，叫Jamie BA，这个人呢，没有看到他前面的一些履历，是多伦多大学计算机科学系的助理教授，AI教父Joffrey Hinton的学生。

等于一边一个白人，中间两个华人。但其实你要再仔细看一下，这个是全世界人民在美国进行AI创业。一个俄罗斯人，剩下三个可能都是加拿大人。马斯克自己其实是有美国国籍、加拿大国籍和南非国籍的。中间两个，一个是多伦多大学的博士，他大概从15岁就开始在加拿大生活。另外一个的话，Jamie BA是多伦多大学计算机科学系的助理教授。所以有可能，这台上坐的是三个加拿大人和一个俄罗斯人。只是看着脸的话，是这个两个白人和两个华人。

那么，XAI未来的策略会是什么样的呢？XAI现在应该也就是100多人吧。它具体是多少，这个数字呢，并没有那么确定。但我还是相信GPT search给我的结果吧，就是不要说900多人了，就是100多人的一个公司。这种公司呢，不太可能进行全面开花，七扯咔嚓我把整个的C端到B端所有东西都做起来。这个事其实有点难度。

20万张卡这个事呢，其实是别人都不具备的这个条件。它就可以进行快速的迭代。各种方法只要确认了，说我知道这个方法是什么样的。比如说DeepSeek出了论文了，出了开源模型了，那我方法确认以后，我就可以快速的在20万张卡上给你重现出来，甚至把你的参数翻多少倍再重现一遍。这个事他都是可以干的。这呢，就是暴力出奇迹。

就会有这样的结果。这个过程其实大家看看有点像什么呀？是不是有点像世界工厂？别人只要做出来了，反正我这有的是生产力，快速的复制、迭代更新就完了。所以，这个应该就是AI未来的路，就是甭管谁做出来的东西，我都可以快速验证、快速改进我的模型。

而且呢，它使用了完全的合成数据进行训练，可能有很少一部分真实数据吧，绝大部分数据都是合成数据。所谓合成数据呢，就是由其他大模型生成的数据。他通过一定的策略，要求其他大模型去给他吐数据出来，然后拿这个模型去训练。

Grok 3一旦使用了合同数据的话，会不断的说自己是Grok 2，或者说自己遵守open AI标准。这个事情你就避免不了，因为是用别的模型生成的数据嘛。虽然XAI说我们在生成数据的过程中呢，我们还进行了反复的检查，有错误都给去处理掉了，但是他不断的说自己是Grok2，说自己是遵守open AI的安全准则，这件事来说呢清洗的还不够干净。

Grok3呢，应该只做了很少的对齐和测试，就扔出来了。后面呢，是准备快速迭代的。你如果现在去问Grok3，或者是问open AI的话，他们都会告诉你说，Grok3本身呢安全性还是不错的。但是有一点是不可否认的，他训练完成一个月就发布了，训练完了以后，只是在XAI内部测试了两周，就直接把产品扔出来了。这个是挺难以想象的，因为像open AI这样的这种模型，它每一次训练完了以后，可能后边都是需要用年为单位去进行对抗测试，或者说进行调整，然后才敢把这东西放出来。现在XAI就是我这边训练完了，我就把它扔出来了。

而现在呢，对外公布的是，Grok呢是通过思维列进行道德商值评测，就是它等于是一个思考过程吧。那我在思考的时候，我就把所有的输入输出的信息，进行道德商值的加权平均，或者说做一个加权复合吧，做一个这样的这个分数出来。如果这个分数达到一定的阈值以后，就禁止回答了。他大概是用通过这种方式来去工作的。

但是呢，并没有进行大规模的真人对抗测试。当然了，这个东西你说以后是不是都需要像OpenAI这么干呢？不好说。OpenAI现在还没有特别大的问题，但是谷歌就属于有点走火入魔了，直接被忽悠瘸了那种，就是画出黑人华盛顿那样的，这个就属于忽悠瘸了。未来可能大家都会去像XAI这样往前走。其实像DeepSeek也是这样，它从2.5到3.0之间的发布，也是大概一个多月或者一个月左右的时间就扔出来了，所以都不会做特别详细的或者长时间的这种真人对抗。未来可能都是通过逻辑的方式，让模型的安全性达到一个可以接受的程度就完了。我不保证这东西绝对安全，大家凑合使就可以了。我在不进行严格测试的情况下，不断地去迭代，这个其实才是DeepSeek也好，像Grok也好，最大的一个优势。每个小时都在改进和升级，全世界都在开发新的算法和架构嘛。马斯克有20万张卡，就可以把所有的这些公开的信息都在我这20万张卡里头去试一下。别人只能进行小规模测试的时候，XAI就可以进行全量测试，甚至我可以在你原来的数据基础上，用两三倍或者更大的数据集进行测试，得到一个世界上最聪明的大模型。所以我说这个就像中国世界工厂的工作方式是一模一样的。

那么XAI的下一步会是什么样呢？应该是会通过快速迭代，把当前的模型整个先稳定下来。现在已经可能是世界上最聪明的模型了，咱们就相信马斯克说的吧。但是呢，这个世界上最聪明的模型还经常会胡说八道。当它的模型彻底稳定下来，基本上可以达到可用的状态以后，下一步其实呢都是流量大战。这些人去搞C端估计应该是比较难，因为就100来口子人吧。最新的模型不开源，你去在B端竞争的话，也是有一定难度的。你比如说我现在一个公司里边需要去部署大模型了，那我不能去部署Grok 2吧，我肯定是部署DeepSeek V3或者DeepSeek R1这样的模型。

因为这是当前开源的最好模型，所以在这一块儿的竞争上也会有一些难度。那么，XAI的策略应该是依靠不断的快速迭代更新，始终保持自己是世界上最聪明的模型，这样的一个位置，吸引部分B端和C端的用户加入进来。自己虽然是有一定的流量，但是X自己的流量对于XAI来说应该是不够的，因为Open AI已经花费1,400万美金打超级碗广告了。所以，现在的AI行业已经进入了一个流量争夺的时代。在这个时候，可以靠产品好，靠模型最聪明，吸引一部分用户进来。像DeepSeek美国排行榜排第一，就是因为模型好，不是因为其他任何原因。他也没有那么多钱去烧这个流量去，他也不可能花1,400万美金去砸超级碗。XAI可能以后也只能是向这个方向走了。后面的路其实并不明朗，怎么依靠XAI把这个钱挣回来，现在还不清楚，还要等马斯克脑筋急转弯，让大家眼前一亮。

好，这就是我们今天讲的XAI的Grok 3大模型，到底是不是世界上最聪明的模型？暴力真的可以出奇迹吗？感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

深度求索满血版DeepSeek全攻略｜教你快速上手火山方舟与Cherry Studio部署方法，没有搜索的DeepSeek，不是完整的DeepSeek。

Luke Fan — Sun, 16 Feb 2025 00:41:12 +0000

真正满血版的DeepSeek到底应该怎么用？在官网基本趴菜的情况下，我们是不是还可以使用到真正满血版的DeepSeek？有什么简单一点的方式可以让普通人用吗？这就是今天要讲的事情。

大家好，欢迎收听老范讲故事的YouTube频道。今天我们会先介绍一下什么是满血版DeepSeek，为什么要放弃本地部署，以及官网现状替代方案。今天的替代方案是火山方舟平台的替代方案。这个是字节跳动下面的，这个是目前为止相对来说比较均衡的一个方案。为什么？你比如像硅基流动，配置是相对来说比较简单的，但是实在是很慢。你使用的时候非常的不流畅，而且经常没有办法得到完整的答案。所以我现在基本上放弃了硅基流动这个平台，现在主要是使用方舟平台。方舟平台跟其他的像什么阿里云、腾讯云比起来，虽然都是云计算平台，但是配置起来相对还没有那么复杂。因为越是云计算平台的配置越麻烦。

讲完了这个方舟平台之后，我们要讲一下Cherry Studio啊。这个是目前普通人可以使用的比较简单的AI辅助工具。因为现在绝大部分的AI辅助工具都是网页。你让一个没有学过电脑的人去部署网页，去部署一个网站，还是挺麻烦的。有这个客户端，Cherry Studio就是Windows和Mac OS的一个客户端，下载下来就直接可以用。这个要相对来说简单很多。

好，这就是我们今天大概要去讲的东西。首先，什么是满血版的DeepSeek？DeepSeek直接使用的版本是两个，一个是V3版本，一个是R1版本。V3其实就是一个语言模型，671B的这个参数就是6,710亿参数。这是一个非常大的一个模型。R1呢，满血的应该也是671B，它是做推理用的一个模型。大家记住这两个就行了。我们要用满血版就一定要用这两个。那你说，很多平台都有满血版的DeepSeek出来，甭管是BAT也好，还是各大运营商也好，都有。那这个有什么区别？

他们是不是真满血版？我告诉大家，还不算。那你说还缺什么？还缺一个很重要的东西，就是联网要搜索。你不联网搜索，你光有俩模型，你只能等着他一本正经地跟你胡说八道了。所以我们所要的完学版的DeepSeek，是DeepSeek V3和DeepSeek R1，671B的，加上联网搜索功能，这个才是我们所需要的。

我们今天就来教大家怎么去部署这个东西。那么为什么要去放弃本地部署？你如果想在本地把满血版的DeepSeek跑起来，基本上那个服务器上百万了，可能100万都搞不定，两三百万那个服务器能跑起来。而且这种服务器甭管是噪音还是耗电，都不是普通家庭或者是普通办公室可以忍受的。所以咱们就不要再去尝试本地部署了。任何人告诉你本地部署这东西，就直接跳过就好了。所有本地部署的DeepSeek，也就是最大32B，再往大了可能70B的有，但是效果都非常差，所以完完全全的不考虑。

官网现在算力是什么样？这个基本上不可用。你上去以后，可能问一个问题，或者问两个问题就给你踢出来了。虽然很多人都号称在接这个东西，一堆公司，BAT三大运营商，刚才我们讲的字节跳动、硅基流动、华为，什么全都在接。但是接的目的是什么？自己赚钱。从来没有谁说我接了DeepSeek以后，我去给深度求索公司贡献算力的，一个都没有。所以到现在为止，深度求索公司依然是卡顿的一塌糊涂。你进去问了一两个问题以后，直接给你踢出来，还是这样的一个情况。

那么接入的意义就是，大家可以在不同的平台上选择DeepSeek的模型进行工作了。但是这个事跟深度求索，就是DeepSeek这公司，其实没有什么关系。替代方案除了官网之外，还有谁干了？比如说轨迹流动、火山方舟、百度、腾讯、阿里三大运营商，这个包括华为，基本上你只要想得到的，跟云计算相关的这些平台，他们都部署上去了。而且，今天DeepSeek官方出了一个x的推文，上面写了。

说你们每一家儿部署的这个开源版 DeepSeek 完全版的，跟我在自己的服务器上部署的，是完全一样的，没有任何差别。打开去用就好了。

今天，我们主要是跟大家介绍火山方舟平台。它作为一个云计算平台，它的设置还是要相对复杂一些的，所以待会我会带着大家去做一下设置。整个的过程，我现在讲一下。

上面画着一个蓝色的山的，这个就是火山方舟。它的火山引擎其实是字节跳动下边的，所有跟云计算相关的都在这，包括什么数据分析，或者是什么数据存储。方舟是什么？这个方舟，是火山引擎里面的一个子模块。这个模块就是各种大模型相关的事情，叫方舟。

我们下面到这个火山方舟，点进去就长这样。我们就需要去注册了。啊，这个下面很复杂，反正云计算东西很多。我一般情况下，如果非必要，是不会在云计算的平台上，去选择模型来用的，因为设置起来太麻烦。这个还算是能跑的。

好，登录进来以后，下头这一大堆的我们也不用去管他。这告诉你各种模型什么，这跟我们都没关系。我们只到这点，这个叫控制台，最右上角，点进来以后，你们正常进来，这应该是空的，不会有火山方舟，因为我是已经开始用这个平台了，所以这有一个叫火山方舟。这边告诉你，这个是老范讲故事，已经实名认证了。这个是必须要实名认证的，这个没有办法，只要在国内使用，所有云计算平台都要实名认证。没有绑定邮箱，大概也就是这样。我还充了5块钱进去。

好，如果你说我这没有怎么办？没有火山方舟，把这个三个小横线，把鼠标挪到这个三个小横线这，他就出来了。以后你看，有云服务器，GPU云服务器，弹性裸金属，这都有。这跟我们没关系。数据库什么的，这都跟我们没关系。网络也不用管它。存储安全，这个容器我们这都不是我们需要的。我们需要的是哪去了？视频云，哇，这东西多去了。方舟这热门产品。

方舟扣子专业版云服务器、云对象存储、域名服务，我们需要的是这个。点一下就进来了，这就是模型广场。你可以用哪些模型？这个模型里，你看自己家的豆包1.5，有Vision的，一般是可以进行视觉判断的，你可以去做图片识别。这个是有Vision的。后边这个32K的，意思就是说你输入的内容最大就是32K。然后这个是相对比较新的，这个豆包1.5 Pro 256K，这个还是不错的。这就是我们的DeepSeek R1，你看，写着671B满血版，上次专门写着满血版，限时折扣。我们现在开始用这玩意不要钱。DeepSeek V3，这个上头也写着是满血的，这个也是671币的。

下一件事，干嘛我们要去开通管理？这个是使用云计算的时候，比较讨厌的一点。这个现在看，我是因为进来还没用，所以我只开通了两个，剩下的我们没有开通。比如说这个豆包的这些模型，这个我们都没有去开通。我现在是把这个DeepSeek R1开通了，DeepSeek V3已开通。这个一旦开通了以后，它不让你关，所以没法给大家显示一开始的样子。然在这个折扣使完之前，现在是每个人给了50万TOKEN跟去用。折扣使完以后，这个折扣价格是每次输入1,000个TOKEN，应该是0.001，实际上也就是100万TOKEN是一块钱，大概就是这样。如果是R1的，100万TOKEN是两块钱，输出100万TOKEN，这个是8块，这个是4块大概，这么来看就可以了。这就是它的价格。

好，首先要去点，打开开通服务。我们再去开一个别的，比如说开一个Pro 256K，这个我是比较喜欢的。你点这个开通的时候，他就说我们会进入到一个开通的页面。因为云计算嘛，你现在还要去选择，你是在哪个地方开通，他应该都在北京，反正都开开，同意，立即开通，创建了一大堆啊，回控制台去。这些我实际上都已经开开了，这个除了Embedding的没开，其他的我都把它打开了。这就是这一步。

叫开通。开通了以后，要去创建我们的接入点。你就创建一个新接入点，先给它起个名字，比如说ABC。这个名字随便起，描述不描述其实没什么关系了。添加模型，你可以在这去接DeepSeek模型，DeepSeek-R1模型，用这个OK。它是允许你去反复创建的。为什么可以反复创建？因为走不同的预算。这个创建接入点的主要目的是为了控制预算的啊。确认接入，我等于又创建了一个叫ABC的接入点。最后用的时候，实际上主要用的是这个key，大家要注意。

那么好了，我们现在有一个test1，一个test2。这个名字有点怪，改一下，编辑一下，我们叫做DS-V3。对，这个才稍微的好听一点。这个改成叫DS-R1，编辑这个叫DS-R1，保存。

那么Cherry Studio这个设置就相对来说简单一些。它反正我们到网站上去把它下载下来，这个下载完了，就是个本地应用，打开用就好了。这个并没有那么复杂，要相对来说比其他的这种什么大模型、聊天工具都要简单的多。那么下载配置这个模型，我们在这里添加火山相关的模型就可以了。

这个到目前为止，我们先去添加DeepSeek R1，DeepSeek-V3是Cherry Studio的这个页面。这个大家注意它的网址，这里https://cherry-ai.com。到这个网址上去，当然你也可以搜索Cherry Studio，这个是没问题的。但为什么要告诉大家网址？因为有人仿冒他们家网站，有人去做假的网站去骗人，所以还是把这个网址写出来。那么下载就好了。他下载的时候，我们有这个网盘，百度网盘，夸克网盘，123网盘都可以下载。有Linux版，Mac版和这个Windows版也都是存在的。啊，这个就是我们的Cherry Studio啊。

Cherry Studio正常的配置是什么样？进来大概长得就是这个样，你就可以去用它了。把这个页面清空。

这就是我们的正常的Cherry Studio。在这里有一个齿轮，这个在最下面有一个齿轮的图标，点一下设置。设置的时候我们要去找，这就是各种各样的大模型的设置的地方。我们要去找这个火山，长得还是这个蓝色的山这个样子。在设置火山的时候，我们要的第一个是什么？我们的API key是什么？这个API Key上哪找？火山控制台，到方舟。对我们在这里创建，拷贝一个API Key就可以了。做好了之后，把这个key填进去。这个地址，一般我们用这个默认就可以了，在北京的这个地址就可以了。好，检查一下。

先要添加模型，这个就要比较麻烦了。说这儿有一个，大家注意下，这儿有一个开关，把它打开，我就可以来使用这个模型了。那么我下一件事要添加第一个，大家注意模型的ID是模型的名称，是模型的分组名称。我们来，好我们的刚刚在在线推理这，好我们在这去设置。比如说我现在需要DeepSeek V3，先把这ID抄下来，复制。大家注意，需要抄这个东西的时候，一般计算机设计，他会在后边画两个小方块，这个就是复制的意思，点一下就复制成功了。这个复制好了以后，我们把它去贴出来。这里贴完了以后，他后边都给默认填上了啊，我们要自己去改。这个是V3，这个是DeepSeek V3，我们可以自己在这写这个名字，V3，这个叫DeepSeek。因为这个火山引擎里有很多的模型，有豆包自己加的，有DeepSeek的，还有kimi的，都有，所以它最好让你去加一个分组。这个我们要检查一下，好确定连接成功。再加，再添加，把这个R1的也抄下来，DeepSeek-R1。你不用抄我这个数，你拿了我这个数是没用的，自己去申请添加。好，这就有了以后，我们可以去试一下。他有一个默认的助手，选一下，因为我设的比较多，哪去了？这，刚才我们设的DeepSeek R1，我们来试一下，1+1为什么等于2，推理，推理，人就推理去了，大家已经看到了。

他是在很努力地在思考这个问题。想明白了，零是自然数的。我天，我我，我也没想到1+1等于为什么等于2，会写出这么啰里八嗦的一堆东西出来。好吧，我们就推理模型已经成功了，我们的V3模型也是没问题的。你好啊，今天天气怎么样？这是V3模型。根据资料，这个是这个，大家注意啊，什么，这个是错的，为什么？因为他没有联网搜索，这个是完全给你瞎编的，这就叫一本正经的胡说八道了。这个同时什么山西五台山，这个都是扯淡的，我不用理他。好，我这个是，我们就可以把它清空了。好，下一件事，我们去做联网挂载。所谓联网什么意思？就是搜索，添加搜索功能。离开搜索以后，大模型只会干一件事，叫一本正经的胡说八道。那么火山引擎呢？这个地方有一个优势，他除了有模型之外，实际上还可以创建，这个叫聊天机器人应用。我们现在去创建一个聊天机器人应用。搜索这个事是要收钱的。你说我使谷歌搜索不收钱，使百度搜索不收钱，对人家还给你打广告，你等于看了广告，是靠看广告的，等于是让人挣着钱了，所以他不找你收钱。但是我们直接使用搜索都是要收钱的。那么我去充个5块钱，咱们就可以使用搜索了。好，下面我们要处理联网的问题了。我已经充了5块钱，你不充钱，好像是不让你使了。对，火山方舟引擎，点进来了，大家注意，这个点进来以后，他默认的是叫模型广场，看的是各家模型。模型广场下头还有一行字，大家注意看，最左侧叫应用广场，还有好多应用。我们现在使用这个DeepSeek联网搜索版，这个是我们要用的。点进来以后你就可以去搜索了，北京天气怎么样？走，他现在搜索去了，还思考北京天气怎么样，这个找到了，10个网页，如何如何的，干活去了。这个时间点，找到了，最后总结一下，北京的天气是如何如何的，这个就不再是一本正经的胡说八道了。啊，这个就是适时地去进行了搜索。好，我们要干嘛？复制，复制了，等于这个应用就从原来人家那个模板，变成了我们自己平台上的一个应用了。复制了以后。

这有一个要联网搜索，你要点这个。现在我是一点就点开了，你们一般进来以后点是点不开。这个“on”联网内容插件，这个你点不开，为什么？他有一个地方需要授权，你要授权我去使用。所有的云计算平台都是这样的，只要涉及花钱了，他就要求你是授权。你授权的时候，他要跳转到允许他花钱的这个页面去，这个要注意。你充5块钱，充个几块钱，他就让你用1,000次搜索，是6块钱，我印象里是这样的。这个搜索10条，你说我一次要5条行不行？还是一次要10条？多搜几条都可以。下头还有一些东西，是可以进行一些设置的。

好，这个搜索完了以后，知识库干嘛？你还可以再挂一些RAG的本地知识库进来，这个我们就不管他了。下面都是默认的，都不动他了。那么这里我们要去使用推理的接入点，这个我们使用DeepSeek R1，刚才我们创建好的DeepSeek R1的接入点。这个花钱的这部分是从他这花的，大家注意，跟云计算相关的，所有跟花钱有关的事情，都是需要单独去处理的。这好设好了再往后发布，发布出去了。大家注意这号，复制，这个地方是待会我们要去使用的这个号了。

好，我们下一步干嘛？到这个Cherry Studio里边儿去，把它挂上去。我们不能在这儿使，大家注意这个地方是什么？这个地方是火山引擎云后台的一个设置的平台，这是一个后台网站，所以我们平时使用的时候不在这使。我们下一步创建好了以后，我们把搜索的这个应用，它实际上是个聊天机器人，是个BOT，我们再把这个BOT再重新挂载到Cherry Studio上去，我们就可以正式的在Cherry Studio上有一个完整的带着搜索的一个项目了，我就可以在这干活了。

齿轮，大家注意，我们现在要新加的，不要在这个火山引擎里边去加，不要在这去加。你说我在这加一新模型行不行？不要，我们在这重新加一个新的，比如说模型提供商，我们就选Open AI就可以了，比如说我们管它叫豆包。

bot，这个我们起了这样的一个名字。哎，这个名字怎么这么怪？编辑好API Key哪去找去？这个火山引擎的API Key，然后这个是什么呢？这个是地址，这个地址要填什么？这个地方呢，要稍微的注意一点。点了上面前面这一节，就是到V3这一节，都是火山引擎的。这个地址跟这个，我们前面去做火山方舟引擎是一样的。这ark是方舟嘛，ark.cn-beijing，然后是火山.com API V3，走到这儿都是一样的。然后后边儿这个叫bots，就是所有我们创建的应用，它这个地址后边儿会多这样一截儿。然后我们来添加，添加什么呢？这个刚才我们看了，就是我们去创建这个DeepSeek R1搜索的时候，他给了我们一个ID，刚才我们把它抄下来，比如说模型名叫DeepSeek-R1-Search，这个比如说是search。好，添加，测试一下，有点慢，连接成功了。好，那么连接成功了，我们就这个，到这。好，默认助手，我们就可以选了，DeepSeek R1 search，比如说天津未来几天的天气怎么样？为什么问天气？因为这东西必须实时搜索。有错误，模型不存在，或者是要求的路径错误。那我们来研究一下，这又出什么毛病了？这，刚才把这个斜线删了。好，你看搜索去了。好的，我去根据用户要求，去搜索天津的天气怎么样了。2月15号是15:08，去查了一下。综上所述，这都还是在思考部分，把思考的部分关掉，思考了22秒。这是今天的，明天的，后天的，每天都算一下。未来一周整体气温偏低，如何如何说。这个就是我们可以有了，满血版的DeepSeek R1加上搜索。还有一个比较方便的小工具，叫Cherry Studio，大家就可以去用下来了。但是注意，用的时候，这个DeepSeek本身是要付钱的，但是这个钱是一开始送了，我记得是刚才50万TOKEN，大概是这样。搜索一次应该是1,000次6块钱，一次应该是0.6分钱，大概是这样的一个价格。

好，这就是我们今天的内容。稍微总结一下：首先，什么是满血版的DeepSeek啊？V3跟R1的671B，不要惦记去做什么本地部署，真不是一般人玩得动的。你说我这个公司很大，这个单位非常大，我一定要自己弄。呃，你先想一想你有没有机房，这个机房里头装个几百万的服务器，甚至你可能跟他配合的服务器加一块，没准上千万了。呃，值不值当？你说我真的值当，我一定要干这个事，哈，那也行，这个没有问题。

选择平台，为什么选择火山方舟平台？因为速度快，第二个，配置起来在云计算里边算简单的。所有云计算平台配置这玩意都麻烦，在这个Cherry Studio上，让我们能够把它跑起来，再把我们的搜索配置进去。这就是我们今天讲的内容。

感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

中国AI力量崛起：DeepSeek如何成为国运级创新的代表，搅动全球AI格局？

Luke Fan — Tue, 11 Feb 2025 12:05:47 +0000

第二个故事：DeepSeek到底是不是国运级的创新呢？国运级创新这个事呢，是游戏科学的创始人兼CEO冯骥他去讲的。DeepSeek是一个国运级的创新。游戏科学，就是黑神话悟空的这个开发商。DeepSeek呢，也确实让美股市值蒸发了很多很多钱。而且还有一位美国的参议员说：“我们要下最严格的法令来禁止DeepSeek。谁敢下载DeepSeek判20年，哪个企业敢去用DeepSeek罚1亿美金。”

这个是个共和党参议员叫Josh Holy，写了一个法案，叫2025年美国人工智能能力与中国脱钩法案。禁止技术交流与使用，禁止美国公民、企业与中国开展任何AI技术合作，包括研发、投资、数据共享等。非美国公民若涉及技术转移，可以驱逐出境。然后切断资本与人才流动，禁止美国资本对中国AI企业投资，并限制美籍科研人员参与中国AI项目。任何与中国高效实验室合作的美国机构将面临重罚。违反本法案的个人将被视为严重犯罪分子，可能影响其移民身份、绿卡申请和入籍资格。美国公司不能直接或间接向中国企业提供AI技术支持或者服务。但是这个法案呢，因为太过极端已经被搁置了。

先讲一下使用DeepSeek的方式到底是什么样的。如果你在美国使用DeepSeek，那千万千万不要去DeepSeek网去挂，那是根本得不到服务的。最好是什么呢？就是去在美国的云主机上去使用。现在DeepSeek自己的网站基本上是半瘫痪状态，聊两句就趴菜。我基本上是第一句能聊，第二句能聊，第三句你再怎么跟他聊都趴。他是这样的一个状态。你可能明天再跟他聊，还可以聊两句。API调用的话非常非常慢。而且呢，现在禁止充值了。整个春节期间，API调用的这个页面就打不开了，把整个API后台给你封掉了。现在的话是后台重新有了，但是不允许充值。现在呢，国内是各种云上都有，国内的是阿里云、腾讯云、华为云。华为云的DeepSeek呢。

通过硅基流动可以使用起来，京东云也整起来了。上面也有DeepSeek、百度智能云。我就不知道，李彦宏怎么会有脸干这个事，前面还发表演说，说开源不如闭源，你们就好好使用闭源就好了。人家DeepSeek来了以后，百度也部署了DeepSeek，也给大家去使用，还要收费。然后，火山引擎，火山引擎是字节跳动的，现在是我的主力服务商了，速度还可以，而且现在限时免费，就是你现在上去使用它的DeepSeek，这些模型是不要钱的。它设置起来相对麻烦一点，就是所有这种云计算厂商，你去设置大模型都比较麻烦，但是比BAT还是要简单。

然后，中国移动、中国联通、中国电信，他们参加的云也都有DeepSeek的部署，也都可以上去用去。360智能云上头也有DeepSeek。海外的话，亚马逊AWS、微软Azure，还有一个叫GMI、Claude、together、grok，但是grok上面部署的是蒸馏模型，它就没有布这个满血模型，together上是有满血模型的。英伟达上面也是有满血模型可以去用的。所以如果你在海外说我想去用这个东西怎么办，你就要去这些平台上去使用了。

DeepSeek的这些概念股，我们一说这个东西，国运之战嘛，他一定是有一些概念股的。首先从港股来看，金山云直接涨停板，我去问我说金山云跟这玩意到底有啥关系，没有任何关系。DeepSeek到现在为止，都没有部署到金山云上去。但是呢，大家觉得，这个云计算一旦有了这种通用的可用的开源大模型以后，一定会涨，所以金山云在港股上就直接涨停板了。美图也涨停了，美图其实跟DeepSeek可以也没什么关系，但是他做AI的嘛。腾讯、阿里、百度都在涨。阅文集团，也就是起点中文，做小说类网站，直接涨停板，为什么？因为推出了使用DeepSeek的作者助手以后，作者可以使用DeepSeek来去写小说，可以进行各种的架构设定，各种的环节设定，效果很好的。

我试了一次用DeepSeek R1这种大推理模型去做各种设定的配置，效果非常好，导致其他科技股也跟着上涨，包括地平线、中国软件国际、微盟、联想和中兴国际。

在A股市场上，第一个上涨的是每日互动。每日互动之所以上涨，是因为它有一个联合创始人叫徐进，这个人曾是九章资本（即换方量化）的股东。然而，他现在应该已经从每日互动离职了，与公司完全没有任何关系，只是蹭了这样一个共同的联合创始人的名头。每日互动表示，未来准备使用DeepSeek的大模型进行一些应用，但目前没有任何直接的关系。

第二个DeepSeek概念股是安凯威。这家公司主要生产录音笔。虽然做录音笔与DeepSeek看似没有直接关系，但录音笔录制的内容需要处理，而安凯威的后台使用的是DeepSeek大模型进行处理，因此安凯威也作为DeepSeek的概念股涨停了。

青云科技和Ucloud也涨停了，因为它们都是专门为企业部署私有云的服务商，它们都部署了DeepSeek，并开始为这些企业提供服务。

还有一个公司叫宝兰德，这家公司是由以前Borland的一帮老同事创业成立的，创始人都是我在Borland的同事。他们在国内起名叫宝兰德，主要从事系统集成项目，底层集成的是DeepSeek大模型，因此也涨停了。

比亚迪这两天也涨停了，但它们与DeepSeek的关系应该没有那么大。比亚迪现在称要发布“天神之眼”，原来讲比亚迪自己准备做大模型，大家不信，但有了DeepSeek以后，大家说比亚迪没准也能做出来，于是开始相信。

万兴科技、360和昆仑万维也都擦边跟涨，特别是360，大概连着涨了两个涨停板。但360这事有些乌龙，它确实部署了DeepSeek，但需要在360纳米AI搜索里边使用。

他是不开放出来给别人用的。周鸿祎这一段时间不停地在喊话凑热闹，上来说：“我要给DeepSeek保驾护航。有黑客去攻击DeepSeek了，我要去提供免费的支持服务，我有什么专线，我怎么去做这个事情。”喊得特别特别热闹。喊完了以后，两个涨停板之后，他是需要出来解释的。360出来发了个公告，说与DeepSeek后边的深度求索公司之间，没有任何业务往来和合作。这个整完了以后，大家就觉得说：“你喊了半天到底在干嘛？”所以我在前面想，攻击DeepSeek的这些美国IP，后边有可能是360吧？但是这个咱们只是说猜测，没有任何事实依据。反正他喊得非常非常欢。

那么，到底什么是国运级的创新呢？让美国暴跌，让中国股票暴涨。而且刚才我们讲的这些，好多都是连着出涨停板的这种股票。这是不是就是国运级的创新了呢？我觉得已经有一些这样的苗头了。第一个就是DeepSeek干了一个很重要的事情，叫统一思想。原来有一大堆的公司、研究所，都在那儿做大模型，像刚才我们讲的中国移动、中国联通、中国电信，三大运营商自己都惦记做自己的大模型。实际上就是一帮人拿着什么Llama呀，拿着这些东西再给他调来调去的。现在别费劲了，我们已经不用再去追究你是不是浪费钱了，是不是把钱揣自己口袋里了。现在有DeepSeek，大家一起使呗。原来那个东西做的没有DeepSeek好，这个也没有什么可值得怪罪的地方。这个钱就相当于打水漂就没了，我们就通通都去使用DeepSeek就完事了。因为谁用DeepSeek谁涨停板，就这么简单的一个问题。那干脆赶快都去用吧。

第二个就是什么？他划时代了。国运级的创新一定是要划时代的。原来是各自为战，大家都在做自己的模型，都在互相比较互相踩，说我这个做的比他哪哪好，他那个呢怎么怎么不行。现在没有了，大家都是DeepSeek。我们原来那个还差一点，不丢人，都变成这样了。那么现在的话，底层用DeepSeek可没毛病。

包括像百度李彦宏这样的人，他都把DeepSeek部署上去了。而且我原来也碰到过华为的人，就是他们的盘古大模型，其实他们也不怎么使。他们在内部其实早早就是DeepSeek。所有大厂都装了。从模型逐鹿中原，进化到模型统一了，底层统一了，一起搞应用就完事了。这个事情，我们现在已经把这步迈过去了。那么他也搅动了国际局势，说东升西降这个扯淡了，这个咱们就开个玩笑。美国股市肯定是被搞得动荡不安了一下，而这几天在慢慢的修复吧。A股跟港股呢，正好赶上春节这几天休市，就是最恐慌那段时间，咱们都休息了。而等开市呢，情绪稳定了，咱们就一起跟着涨就完事了。

那么，DeepSeek之后的这个格局，会是什么样的呢？第一个，国内的六小虎都危险，没有哪一个不危险。大家注意，六小虎里头不包括DeepSeek，因为他原来比较低调，排六小虎的时候没给他排进去。原来你有自己的模型，它算是一个竞争上的加分项。原来你有独立模型，还有一个很高的估值，因为我需要很多的钱去做预训练嘛。现在都不用了，大家都是DeepSeek了。你为什么要有这么高的估值？就有这样的问题。

以DeepSeek V3作为基座模型，用DeepSeek R1直接蒸馏微调迁问，肯定要比他们自己的模型还好使。原来那些必源模型还扭扭捏捏的出来说：“你想私有化部署吗？我再收你点私有化部署的钱吧。”现在DeepSeek直接开源免费了，那你还好意思找人收钱吗？大厂呢，可能还会坚持，但这些小厂就六小虎肯定都完蛋了。

现在各大厂有些呢，还会投进去，比如说千问，就是阿里的千问，其实还是很有价值的。另外一个就是字节的豆包，还会继续往前走。但是腾讯的浑元是不是接着做，这个要看了。华为的盘古大模型估计也可以休息了。至于百度的文新一言，从开始那天就是个笑话，一直笑到最后。

国际上呢，现在各国实际上都在开始进行DeepSeek部署，全都在干这事。英国说我又行了，印度说我也行了。

他们都说我有DeepSeek，我就可以自主创新了。别人一开源，我就自主创新，自主知识产权。这事不光是咱们中国人干，全世界人都是这么看的。有了DeepSeek加持的中国，软件厂商也可以去大杀四方了。因为有了基础模型以后，再往后的事情就是卷了。那卷这个事，他们还是卷不过咱们的。

很多AI agent的公司，都可以自己训练自己的大模型了。比如说Perplexity，比如说Cursor，或者是其他的一些AI agent的公司，现在都可以去搞这件事情。而且他们都是底层，直接挂DeepSeek。很多的AI agent的公司有自己模型了以后，他们就可以去买英伟达的显卡，他就可以去部署自己的云服务了。当大家都开始部署自己大模型的时候，就要去买英伟达。

那你说为什么不去买博通？为什么不去买阿斯克芯片？咱们这稍微的岔开一点点。咱们平时看到的芯片基本上是三个：塞斯克芯片叫CISC，瑞斯克叫RISC，阿斯克呢就是ASIC，这是三个不同的词。博通中间有一段时间涨得很猛，就是因为它做的阿斯克芯片，做推理效果巨好。

什么是ASIC芯片呢？CISC芯片是叫做丰富指令级芯片，就是它的指令非常长，而且指令很多。RISC芯片的话，咱们最常见的RISC芯片就是ARM芯片，手机芯片都是RISC芯片，它叫短指令级芯片，而且它指令很少。而这个ASIC芯片呢，它其实不是固定意义上的这种有IP的芯片，它是什么呢？叫专用集成电路。这个东西有一个特殊的名字，它不是处理器，它叫专用集成电路。谷歌的TPU就属于是ASIC，Grok做的那个叫LPU语言处理模块，它们呢也是ASIC。

博通为什么要涨那么猛？博通涨得猛的原因就是，谷歌也好，亚马逊也好，自己去做这个专业推理芯片的时候，都是博通代为设计，台积电代为生产，大家都是这么来的。所以博通就涨吧。如果大家都集中在一起，就是说我们都是使用亚马逊云、谷歌云、微软云。

他们是有动力去使用ASIC芯片。我专门自己去设计一个新的芯片，然后装在自己的服务器上去。这样的话，我统一来维护。他们有这个动力。但是一旦分散了，你这个部署的是DeepSeek，它部署的Llama，那个部署的是这个微调以后的模型。大家都分散了以后，那就只能用英伟达，就没法使用这个ASIC。这个就非常非常麻烦。为什么？因为ASIC芯片你一旦做出来以后，你需要重新去做适配，重新去做很多兼容性方面的调试。而且做完了以后，你还有很大的可能性不稳定，挂上去以后会出问题。为了最大的稳定性，为了最大的兼容性，就通通都是英伟达。所以为什么说这一步出来以后，英伟达巨大利好。这就是对于国际上的一些影响吧。

那么结论是什么呢？这个DeepSeek到底是一个什么样的创新呢？还记得瓦特发明蒸汽机的故事吗？其实瓦特并没有发明蒸汽机。瓦特干的事情是什么？叫改良蒸汽机。它提升了效率。原来比如说我需要烧4吨煤能干的活，我现在烧一吨煤就干出来了。然后增强了动力。原来这个蒸汽机是上下动的，现在它可以进行转动了。这个动力变得很强，而且稳定运行广泛应用。就是瓦特以后，蒸汽机可以广泛应用。瓦特改良蒸汽机，被视为工业革命的重要里程碑。

那么转过来看，DeepSeek能不能成为像瓦特改良蒸汽机这样的一个重要里程碑呢？至少在中国，DeepSeek肯定是瓦特这样的里程碑了。因为甭管是OpenAI、Gemini还是Claude，它不给你使，那你只能是使用DeepSeek。从国际上看的话，还有机会是谁呢？就是Llama 4。如果今年Llama 4出来，有一个革命性的飞跃，在DeepSeek基础上还能再飞跃一次，那可能Llama 4会成为瓦特发明蒸汽机，或者瓦特改进蒸汽机上的那个里程碑。如果Llama 4出来了以后，跟DeepSeek差不多，那么对于全世界来说，DeepSeek就是整AI革命的这个里程碑了。

就像当年的瓦特改进蒸汽机那样，闭源模型是没有办法参与这种竞争的，这个肯定就不用想了。微软、谷歌他们其实也有开源模型，但都是小模型。微软的模型叫Phi，谷歌的模型叫GEMMA。这两个模型都是小模型，就是在客户手机、PC上使用的，他们是没有这种开源大模型。XAI呢，号称是开源，但是呢，那就是个假开源。到现在Grok 2没出来，开源版本没放出来。而且开源出来以后，他什么也不讲，你上去提任何问题，他不理你，那就是个假开源。

所以，现在唯一有可能能够站住这个里程碑位置的人，除了DeepSeek之外，剩下就是Llama。咱们希望杨立昆也好，扎克伯格也好，再努力努力，多砸一些钱进去，让大家可以看看美国人能不能站住这个里程碑。好，这就是我们今天讲的第二个故事：DeepSeek到底是不是国运级的创新？从我的角度上来说，从中国角度上来说，它应该算是一个国运级的创新了。

李飞飞S1K模型引爆AI界：仅50美金成本完胜DeepSeek R1与ChatGPT o1！

Luke Fan — Tue, 11 Feb 2025 12:02:45 +0000

大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲李飞飞的S1K模型。50美金成本超越DeepSeek R1和ChatGPT O1。

首先呢，DeepSeek到底是怎么震惊全球的？就是因为训练成本低。他的训练成本是OpenAI的3%，所以震惊了全球。

那么现在李飞飞的S1K模型，16张H100的显卡，跑了26分钟跑完了，拿到了一个32B的模型。多项测试超越了DeepSeek R1和GPTO1。

大家要注意，评测大模型呢，它有很多很多测试项。一般我们说基本上达到什么什么水平，就属于叫互有伯仲。有些你强点，有些他强点。原来大家都超不过GPT 4O，是因为只能接近它，距离它的全项指标都有差距。现在的话，大家就已经基本上可以达到GPT 4o的水平了。

现在R1跟O1算是最强的推理模型。李飞飞做的这个S1k，也算是部分超过了R1和O1，绝对超越了DeepSeek R1的32B。

DeepSeek R1呢，讲的时候一般有两个不同的说法。第一个呢叫蛮血版。什么是蛮血版？671B的那个是蛮血版。然后另外一个呢，是通过通义千问也好，LLama也好，这些模型蒸馏了以后重新微调出来的版本。所有你看到什么70B，什么32B，都是这种微调出来的版本。

李飞飞这个50美金他这个版本呢，要比他自己的32B版本还要好。大家是不是先想想，先站个队。这到底是原创呢，还是抄袭呢？对于粉红来说这是绝对原创，对于支黑来说这可能是抄袭。

因为李飞飞是个中国人，他是个北京人。后来呢是跑去四川上的学，他是成都七中出来的。SOGO的王小川，B站的陈瑞，都是他的中学校友。但是呢，另外一头呢，他是个美国的大学教授。普林斯顿大学物理学学士学位，出于对东西方哲学和科学奥秘的探索，他前往西藏研究过藏药。后来是在加州理工学院得到的电子工程博士学位，现在是斯坦福大学的教授，人工智能教母。这算是个创新吗？还是个抄袭呢？

我估计很多人可以炒半天这个事。咱们先不炒这个，在我这个频道里头，吵这个事没意义。咱们去讲讲这50美金到底咋花的。

首先呢，是蒸馏一个小样本模型。有一个什么基座呢？通义千问32B。拿这个模型去做微调，就跟刚才我们讲的那个DeepSeek R1 32B的那个基座是一样的，都是通义千问2.5 32B。但是呢，拿进去做微调的这个样本是不一样的。DeepSeek R1 32B 是使用DeepSeek R1满血版产生的数据去微调的千分2.5。而现在李飞飞呢，他使用的是谷歌的推理模型Gemini 2.0 Flash thinking产生的问题去进行的微调。而且还有一个呢，就是它的问题特别少。就是DeepSeek自己微调的时候，有多少个问题？80万个问题。而李飞飞的问题有多少个呢？1,000个。拿了1,000个问题，就把这个模型给微调出来了。所以1K就是1,000，1,000个问题的意思。S1K这个模型只有1,000个问题。每一个问题呢，都是通过Gemini 2.0 Flash thinking进行解答，并且获得思考的过程与结果。因为他总共就1,000个问题嘛，你把他塞进去16块显卡，26分钟就跑完了。成本也就是50美金。那么是不是我来我也行？我也找1,000个问题上去，50美金我也整一个出来。

最近互联网上有个新梗，什么呢？就是“中国行我也行”。这个是嘲笑那些不自量力，想要学习中国大力出奇迹，结果翻车了的外国友人的一个新梗。这个并不是那么容易。你要想说，我用1,000个问题把这事训练好，那你想去挑这1,000道题，一定是非常非常难的。它这个S1K里头，实际上有两个大的创新点。一个是1,000道问题的筛选，另外一个呢特别神奇的东西，叫做预算强制，budget forcing。咱们先去讲这1,000个问题怎么筛出来。首先呢，这一帮的学者们从16个不同的来源，收集到了5万多个问题。

在59,029个问题中筛选出1,000个问题，其筛选标准主要包括以下几点：

1. **质量要高**：所谓质量高，指的是问题的解答过程和最终结果的格式完整、逻辑清晰。如果某些问题的解答过程格式不完整或混乱，则不予考虑。
2. **难度要大**：难度大的问题通常具有更长的推理过程、更详细的步骤、更多的推理步数和更长的推理时间。
3. **全面**：最终从50个不同领域中选取了1,000个问题，确保覆盖广泛，避免领域单一。

这三个原则——质量高、难度高、全面性，是筛选的基础。在此基础上，还需要探讨艺术、技术与科学之间的差异：

– **艺术**：偶然所得，无法重现。
– **技术**：在技艺基础上不断迭代与创新，但无法跨领域应用。
– **科学**：理解底层原理，可以跨领域应用。

中国在技术上表现强劲，但在科学方面略有不足。S1K实际上是一种科学，因为其筛选和训练过程并非简单的试错，而是通过科学的方法验证和优化。例如，仅筛选出最优质的1,000个问题进行训练，效果并不理想；同样，仅筛选出最难的或最全面的1,000个问题，效果也不佳。最终，将全部59,000个问题一起训练，效果虽有提升，但并不显著。这一过程体现了科学的严谨性和系统性。

就是真正在找到底层逻辑了。找到了逻辑以后，我就可以在这个逻辑上进行优化了。下次再去选问题的时候，我就选这1,000个题。大家注意，你选的题越多，他肯定是效果越好。但是呢，选的问题很多了以后，他你这个效果提升变得非常非常的不显著了。等于你花了很多的钱，后边都没有什么用了，这个就没有必要了。我们就到第1,000道题就可以了。所以大家就可以按照这个逻辑，在不同的领域里去应用这个筛选1,000道题的方法了。这个是一个真正进入科学范畴的东西。

建议以后这些大模型团队呢，可以去学而思、新东方找一些老师回来筛选问题。这个过程其实很像什么？我这个学生要去参加竞赛了，我这个学生要去参加高考了，他的时间非常非常有限。怎么能够筛选出一套特定的题目来，让他去训练？训练完了以后，可以在有限的时间内得到最好的提分。这个过程是不是跟学而思的这帮老师们干的活非常非常像？以后再去选问题的时候，比如说我们今天要去选一些物理相关的、数学相关的，或者什么这样的题的时候，那你就找这些老师来，他就有效果。

下一个创新是什么呢？下一个创新叫预算强制。这个特别有意思，其实还是学而思老师的范畴。预算强制说白了是什么？就这个题如果太难了，就别浪费功夫了，直接终止，写一答案在这就行了。你也不是说终止就不写答案，因为咱们知道考试的时候，你万一写对了呢？该蒙你还是得蒙一个答案出来的。如果这个问题你觉得太简单了，没有用到相应的时间，你就把答案直接做出来了，那你是不是等一等，再回去想一想，稍微检查一下。但是呢，到底哪道题需要尽快结束，哪道题需要多想想呢？这才是关键点。

咱都知道说，这个题如果太难了，咱就把它扔掉。我儿子小时候学奥数的时候，他就讲过哪道题你先看一眼，如果发现没什么这个概念，就直接pass就别做了。这就不是给你预备的。如果你把时间耗在这上头了，下边题就没法做了。而且那个时候考奥数的时候，还告诉你说第几题是多少分。

多少分的题，你应该在上面耗多长时间？如果你发现你在一个3分的题上耗了多长时间以上，你就赶快放弃掉。咱们现在就需要去做这个测算了，它叫预算强制法嘛。这个budget到底怎么定的呢？推理的步数和推理的时间，以此来定这个budget。首先要对任务进行复杂度评估，先看一下这个任务大概应该推多少步，花多少时间。

然后呢，在当前推理过程中得到一些中间结果。因为我们做题的时候也是，有时候做的中间结果出来。这个时候呢，我们就要对中间结果进行一个评估。第一个评估是什么？叫置信度评估。什么叫置信度？给大家讲一个故事吧。比如说今天这个天气预报说了，降水概率99%，这就属于置信度很高，那就肯定下雨，别费劲了，就下雨吧。咱们就不用再去花时间在后边推理去了。待会来一个专家说，这个专家认为今天降水概率是51%，这个呢就叫置信度不够高。您再花点功夫，再好好想想，能不能把这事说说的确定一点。这叫置信度。

然后下一个是什么呢？叫收敛性评估。什么叫收敛性？如果你得到了几个结果，这些结果相对来说都是稳定的，而且越来越稳定，这个就结束了，就是他吧。就算是我给出的结果不是一个完全准确的结果，但是呢，应该误差也不大了。这叫收敛性。但如果说，我现在得到了三五个结果，但是这结果呢值上蹿下跳的，这都差异非常非常远。那你在这种情况下，你就回去再想一想，多花一点时间再思考一下，再重新给一个结果。然后对结果进行质量评估。

还有是什么呢？就是任务特性和标准。因为你不同的任务，对结果的质量要求是不一样的。咱比如说吧，都是打比赛。篮球比赛比赛结果100:70，看着有点像，差不太多可以交差了，就这样吧。足球比赛结果100:60，您回去再算算吧，这事好像不太对。那么在这个基础上，再进行一些动态的调整，再进行一些预设的结果。什么叫预设结果？就是当我发现某些结果达到的时候，就直接停止。比如说我推理了半天，开始骂人了，那停下来吧。

或者推理了半天，发现涉黄涉黑了，那这事停下来吧。他也会有一些这样的停止命令在里头。他呢，就是这样来工作。第一个，我们先看看这个题值多少分。你可以给他一个多大的预算？你应该是推500步，还是推50步，把它推出来？先有一个预算，然后呢，我们在推的过程中就不停地来检查结果。哎，这结果已经不错了，那就到这吧。这跟考试的过程很像。

再往后呢，就是要去看你的预算了。比如说，我的结果出来了，发现我预算呢，应该做500步的，现在做了50步就把这个结果做出来了。那你再回去想想，可能有问题。但如果有时候超预算了，我原来评估说这个结果推出来应该是50步就推到头了，但是呢，我已经推到第80步了，还没推出来呢，那就赶快停止，别浪费时间了。写一个你觉得最靠谱的答案上去，就完事了，接着做下一题。这个就叫做预算强制。

那么这种论文发出来以后的话，我估计未来所有的推理模型应该都会去使用这套东西。实际上，整个过程是不是真的很像我们儿子小时候做奥数题的过程？你先看看这个题，3分的题你应该用几分钟，5分的题你应该用几分钟。你做的过程中再去看看说，中间这个答案已经很像了，直接把它写上就完事了。这个答案看着怎么看怎么不像。咱们经常说，数学这个东西，正确答案都很美。我没感到那种美，回去再想想。

还有什么呢？我儿子小时候学的也是说这个，做题做着发现，你写出来公式越来越复杂，最后算不出来了。那这个你再回去算算可能哪错了。或者说明明挺大的一个题这么难，我怎么三步两步就把它做完了。回去再想想，大概就是这样的一个过程。

当这些东西有了以后，S1K这个模型就有了今天这样神奇的结果。所以50美金就是1,000道题。训练是50美金。咱们把刚才讲的质量最好的1,000道题，最难的1,000道题，最全面的1,000道题，59,000道题都训练，再加上什么数据准备，这些东西都算一块。这个50美金是打不住的。

但是，你就训练1,000道题，就是50美金，再加上后边这个预算强制，它就可以达到很好的效果。现在，科学的车轮滚滚向前了。S1K模型出来以后，虽然没有用到Deepseak，但是方向是明确的，筛选问题就好了。老师们又有价值了，甭管你原来是教数学的，教物理的，赶快出来说，我们再筛选一下。我们要像培养奥数种子选手那样，去微调训练这种推理模型了。而且在不同的领域里头，都可以快速的蒸馏出小模型来，并且呢，实现领域内的突破。

你比如说，我今儿不是说做数学题，我们今天想推一个这种法律的，或者想推一个财务的，那其实都是可以找到一些专门做这个法考的老师，或者专门做财务资格证考试的老师，来给我们筛题。筛完题以后进去去这个训练去，这都是可以搞定的嘛。而且呢，让所有的推理模型可以一起解答，他没必要说我一定用DeepSeek R1去解答，还是说我要去用Gemini去解答，用O1，O3去解答。我们可以把所有的推理模型都抛下来，你们挨个给我答一遍，答完了以后，我们去挑里头质量好的1,000道题或者几千道题，然后再去训练也就可以了。

现在呢，有一堆的推理模型，DeepSeek R1、GPT的O1、O3 Mini、Gemini 2.0 Flash thinking。这一次李飞飞用的就是Gemini 2.0 Flash thinking。国内还有一堆的推理模型，比如说QWQ32B，就是一个标准的推理模型。Minimax和Kimi也都有各自的推理模型。哪怕你付费的这些模型，那就付呗，反正付完了钱以后，我就得到这一堆结果，拿着这个结果，我再去训练自己的这个小模型就完了。像这种32B的模型，我是完完全全可以在我自己电脑上跑的，我就不需要再交任何钱了，这个效果就好极了。所以以后这些付费推理模型，都应该会被拿来做蒸馏。千问2.5 32B的这个模型的底子很好，下面就都是老师的事情了。就是有人去试过，比如说千问的72B的。

Llama的70B、14B、7B、1B等模型现在普遍认为，能够产生比较好的中间结果。目前，大家主要在调整32B的模型，并且已经形成了一定的共识。接下来，可以进行更精细的质量管控。因为当我们调整完模型后，就可以进行测试，比如有多少道标准题库，跑完以后有多少对多少错，就可以去测试它是否正确。如果不对怎么办？不对就再花50美金，看看是不是好一点。又不对，再花50美金，然后再整1,000个题，再试试是不是好一点。最后找到一个最优解不就完事了吗？这样，你就得到了一个在某个特定领域里特别好用的32B小模型，然后进行微调和评测。

未来，比如像硅基流动、Together这些开源微调模型就要起飞了。因为我们现在可以在硅基流动上直接点出一个32B的模型来，实际上就是你把1,000道题做好了以后，把这个文档上传给他，然后一键确认，他可能连50美金都不需要，就给你搞定了。做完了以后，你就有自己的模型可以去使用了。Together是在美国的，他们调一个模型，我记得32B的模型也差不多是几十美金就可以调一次，在国内应该会更便宜。

很多小公司原来都在喊“适合你的小模型才是最好的”，但原来这个话其实是错的。为什么呢？因为微调出来的小模型原来的效果是没有那么好的，它未必比这些大模型加上RAG效果更好。现在，李飞飞给出了科学的方法，那么行业推理蒸馏小模型的春天就来了。因为你一旦推理了小模型以后，你就有什么东西叫用户粘度，用户会继续购买你的服务，继续让你去服务下去，而不是说上来说“哎，我今天用你的，明天用他的，反正模型都不是你们家的”，这个就没有任何用户粘度。原来有这样的问题，现在就好很多了。现在的话，就直接跑到人家行业里边去做问题筛选就可以了。问题筛选完了以后，再不断的测试、调优、评估。

这个路径其实已经很清晰了。以后小公司的春天就来了，就是可以卖模型、卖服务、卖数据。原来都说我要去做一个AI公司，那你手里头没有个一两亿美金，你都不好意思说你是做AI公司的。因为你需要去租显卡、去租GPU，去做预训练模型的训练。现在不用了，现在只要筛选好问题，哪怕你多试几次，最后花个几百美金试了十次，也不是什么大不了的事情嘛。而且这些模型，就是你的用户最需要的这些东西。

我记得我原来在学软件的时候，那还是九几年，整个软件行业有一个梦想，什么呢？叫系统咨询构架工程师。什么意思呢？原来我们都说，这个软件是需要分开的，先去做需求分析，然后去做这个加工设计，然后编码，编码完了以后测试，测试完了以后部署，然后再实施它，是这样的一个过程。说以后这个软件系统就很厉害了，他就不需要这些东西了，我们只管坐到用户面前，一边问用户你需要什么呀，等于在做咨询嘛，同时就在手里点点点，确认确认确认，打钩打叉，把这事情做完了以后说，哎，你这个问题都讲清楚了，你的软件也做好了，你可以拿去使去了。从九几年就有这样的梦想，现在的话这离这个梦想就又近了一步。

现在呢，让大模型改变每一个行业，终于要开始了。原来折腾了一两年都没有什么动静。以前都说大模型可以把每一个APP都重做一遍，大模型可以把每一个行业都改变一遍。为什么喊的这么大声音？大家都在使劲裁员，都在降本增效，原因很简单，就是以前很多的公司上了大模型以后，没有效果或者效果很难评估。那么现在的话，这种可感知的效果已经到面前来了，很多的公司就要开始上大模型，去改变他整个的业务链了。因为他现在改变了以后，就可以在特定的领域里头竞争胜利，他就可以把其他竞争对手干掉，快速的往前跑了。

你想咱们做了两年大模型，每一年看到的都是什么？谷歌裁员、微软裁员，国内也是什么百度裁员、阿里裁员，全是这个。但是，李飞飞这个模型的建立，以及靠这个蒸馏推理模型去进行微调小模型的这个方式。

发布了以后，我觉得未来的2025年，就会有大量的公司出来说：“我们去给你们微调小模型吧，我去给你解决实际问题吧。”真的是可以解决问题的，就会实实在在的发生改变了。这就是咱们今天讲的第一个故事，就是李飞飞的这个50美金的模型到底是怎么做出来的，里头到底干了点什么。

ChatGPT O3 mini发布深层解析：山姆奥特曼首次坦言“历史错误”与开源迷局

Luke Fan — Tue, 04 Feb 2025 00:45:35 +0000

ChatGPT O3mini正式发布的时候，山姆奥特曼到底算不算是认错了呢？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲O3mini的发布，以及奥特曼到底在说些什么。

过年的时候，基本上是被DeepSeek刷屏了。全世界各地跟AI相关的，或者不相关的人，都在尝试去理解和阐述DeepSeek到底干了点什么，到底对于他们有什么样的影响。风口浪尖上的这些闭源大模型公司，特别是OpenAI，肯定也是坐不住的，把它的王炸级产品ChatGPT O3 mini给炸出来了。发布了以后，马上还去做了一个访谈，回答了很多相关的问题。在其中，承认了说在开源领域里头好像站错队了。

那么先说一下O3 mini到底是一个什么样的情况。O3 mini的速度还是非常快的，跟O1 mini的速度相近。它的性能应该是接近原来的O1性能。大家看到很多很多的评测，这个分高点，那个分低一点，也有很多人在那扑克脸，念这些评测的结果。但其实这些评测到底哪一个是什么意思，差异在什么地方，绝大部分人很难理解。我也不在这费劲跟大家讲到底是什么情况了。我只能说O3 mini也好，O1也好，包括DeepSeek R1也好，这些模型它们的能力差异其实已经脱离了普通人的认知范围，总之都很强就可以了。

现在推理模型的发展应该已经向着未来简史的作者尤瓦尔·赫拉利所设想的方向前进了。他设想的是什么呢？就是未来的社会有少数精英控制，绝大多数人会沦落成无用阶级。无用阶级就是他们既不创造价值，也没有任何的用处，可能未来的社会会变成这样。现在，OpenAI就在往这块走，DeepSeek R1也在向这个方向走。所以未来可能是少数精英使用这些博士级的AI模型去与解决各种人类的世界性难题，剩下的人，我们就是无用阶级，大家开心就好。

价格方面，O3 mini比DeepSeek R1中国部署的版本……

还是要贵的，就是比DeepSeek自己的这个API还是要贵。比DeepSeek在中国，比如说腾讯云或者是硅基流动上部署的也都贵。但是呢，它比在美国部署的DeepSeek 21要便宜。这个特别有意思，就是在together上，在美国的亚马逊、微软云，在这些云计算平台上，都已经部署了DeepSeek R1了。ChatGPT O3 mini比它便宜，也就可以了。

所以呢，在价格上也算是有了一定的进步吧。然后O3 mini呢是第一次向免费用户开放，原来O1、O1 mini都是免费用户不能用的，现在O3 mini免费用户也可以用了。Plus用户，就是一个月20美金的用户，每天呢可以使用150次。其实呢，O1和O1 mini这个用量，我从来没有达到过。那个我每天是可以使用50次的，每天150次的这样O3 mini的用量，我估计我也用不到。

像我面前站个博士，你说我看着他每天跟他说啥呢？我站在他面前就光剩自惭形秽了。这个也算是继续向公众开放的一种努力吧，与搜索相结合，这个是O3 mini做的比较大的进步。但是呢，他进一步退一步，退了是哪一步呢？他不支持上传文件，不支持图片的理解了。像O1的话是支持图片解析的，但是呢，不支持搜索。O1还支持canvas，就是它们的这种叫做画板。O3 mini支持搜索，但是不支持画板，不支持图片理解，它是这样的一个取舍吧。

但是这个呢不像是黄教主这种叫刀法精准，这个可能真的是想把这些功能都打开，还是有挺大难度的一个事情。当然，现在我们在ChatGPT里头已经看不到O1 mini的模型了，现在进去就是O1和O3 mini，以及O3 mini的一个高级版本。就是说你每次让O3 mini干活的时候，可以选择是使用普通思考版本还是深度思考版本。深度思考版本会更慢一些，然后输出的内容的话会更好一些。

O3 mini发布了以后，山姆奥特曼以及他们的一些高管……

就跑到Reddit上面去做了一个AMA的环节。所谓AMA呢，就是”Ask Me Anything”，就是问我任何事情，我就现场给你回答。和马斯克不和，所以呢，山姆·奥特曼是不会跑到Twitter上去做类似的活动的，也不会去谷歌或者是Meta上面去做类似的活动。但是，TikTok对于山姆·奥特曼这种政客来说，就太刺激了，也不会去。

当然，在这些平台上的OpenAI都是有账号的，只是呢，这种问答是放在Reddit上了。这个就显示出来OpenAI跟Reddit之间还是要更亲密一些，这个东西叫亲疏有别。OpenAI跟Reddit是有很多的合作关系的，比如说OpenAI向Reddit采购了内容进行训练，OpenAI是Reddit的广告合作伙伴，OpenAI为Reddit提供了AI驱动功能，这个是最重要的。

还有一个不那么重要的就是，山姆·奥特曼本人是Reddit的重要股东之一，这是他自己家的企业，因为Reddit是YC的孵化企业，它在孵化的时候，山姆·奥特曼应该是YC的CEO吧，大概是这样。

那么在整个的这个环节上面，AMA环节上面，山姆·奥特曼呢也承认了DeepSeek是一个让人印象深刻的创新产品了。然后O3的完整版本的模型，未来的几周或者几个月还是会公布的，因为现在公布的是O3的mini版本。新的图像模型正在研发之中，可能未来几个月还是会公布，因为去年的连续12天发布会的时候，大家本来猜测应该会有Dalle3的进一步的版本，可能会有Dalle4，但是呢没有出来，这个还在研发之中。

而且呢，也即将更新高级语音模块，这个是现在我最喜欢的功能，就是ChatGPT的高级语音。至于GPT-5呢，遥遥无期，这个还早呢。在整个的这个回答过程中，我们已经看到DeepSeek的事情呢，对于美国或者对于全球来说，应该已经算是尘埃落定了。怎么样尘埃落定了呢？第一个，这个事有没有创新？有，他们也承认。

这是一个令人印象深刻的产品，但是呢，也没什么大不了的。山姆奥特曼也说了，我们会拿出更好的模型出来的。你这个成本降低也就是这样，我们现在成本也降得很低。你在美国部署的这个产品，我比你的价格还要低一些，这个也就如此。

各大云厂商呢也都部署，英伟达、微软、亚马逊，together，很多的这些云计算厂商都部署了Deepseek。在这样的情况下，再进一步进行维权，去起诉或者什么限制，这个已经没有什么意义了。大家都已经跑起来了，而且英伟达还去玩了一个什么梗呢，就是说英伟达上部署的DeepSeek是速度最快的。在单台的HGX H200系统上，DeepSeek R1模型每秒能够处理3,872个TOKEN，这是一个多么恐怖的数字。原来我们都觉得这种推理模型很慢，你想它一秒钟可能几千字就哗就出来了，这个已经足够快了。

HGX H200系统是一个什么样的系统呢？8个H200的GPU，每个上面有141G的现存，就完全属于怪兽级的机器。那么OpenAI呢，应该也就算是承认了现实，就是Deepseak加入到了竞争过程中来，也就这样了。我们也不惦记再把你踢出去了。至于说你到底有没有抄袭，有没有违规使用，这个事我给你记着，但是呢，大家都用起来了，也就用吧。

未来呢，全世界应该都会去使用DeepSeek，因为现在英国也好，印度也好，包括日韩，都准备自己去部署DeepSeek，自己去玩耍去了。未来的话应该是各用各的，就是各国用户自己部署，自己定价，自己使用就完事了。至于中国的DeepSeek到底有多便宜呢，跟他们也没关系，他们也不会把他们的数据送到中国的DeepSeek服务器上来去用。

所以呢，DeepSeek对于整个的AI圈来说，到这里算是画上了一个暂时的句号吧。大家接着往前跑就可以了。那么到底有没有承认错误呢？这是我们今天要讨论的。首先呢，他讲到说，我们要把整个O3 mini的思维过程都完整输出出来。

原来在O1的时候，他并没有输出完整的思维过程。因为这种推理模型有一个思维过程：我先怎么讲，后来怎么讲，然后说什么东西。为什么原来没输出呢？因为怕被拿去蒸馏。如果把整个思维过程都拿出来了，人家拿回去，就直接训练自己的新模型去了。他们认为，DeepSeek还是很恰巧地获得了其中部分的工作原理，这些工作原理跟ChatGPT O1是一致的。至于到底是怎么获得的，比如说你是蒸馏了，还是怎么去猜测其中的这个结果或过程，反正你是已经达到了跟我一样的工作方法了。而且他原来并没有完全把他的推理过程都拿出来。

DeepSeek R1呢，是完全公开思维过程的。你问他什么问题，他要想很长。像我们经常问DeepSeek R1一些问题的时候，他光想的部分可能想5000字，输出的部分只有一个，比如说几百字的结果。现在他们决定了GPT O3 mini也去进行完整的思维过程输出。你们愿意去蒸馏，你们去吧，反正这个事已经没什么可藏着掖着了，后边已经冲上来了。

我试了一下O3 mini，它有的时候输出的这个思维过程是英文的。但是我今天还碰到了一次，输出了阿拉伯语的思维过程。我用中文问了个问题，然后这个中间的思维过程，哗，阿拉伯语就出来了，看的我是满天都是星星。这个思维结束了以后，最后给出的结果是中文的，因为我是用中文问的。怎么说呢，这种对于人很不友好。但是对于大模型来说，输出阿拉伯语的思维过程、输出日语的思维过程、输出英语的思维过程，这个其实是没有什么区别的，因为他们都可以拿回去蒸馏，只是降低了人的使用体验。

DeepSeek R1的思维过程呢，有的时候是中文的，有的时候是英文的。我还没有遇到过阿拉伯语这样奇怪的情况。反正思维过程大家都是进行完整输出了。山姆奥特曼也讲了，既然DeepSeek已经这么干了，那我们就干吧。

你要蒸馏？不行，你蒸馏他的去，或者你蒸馏我的都行，没什么大区别。我们也准备把所有思维过程都发出去。至于开源这一块呢，山姆奥特曼的原文大概是这样的：就是我个人认为，我们在这里站在了历史错误的一边，需要找出不同的开源策略。但并非OpenAI的每个人都同意这种观点，这也不是我们目前的首要任务。

这个是别人在问他，说你是不是要去开源的时候，他在上面给出的回复。很多人呢，看到了这一点，认为我个人认为我们站在了历史错误的一边，而认为这句话就代表着关于开源策略这件事情上，山姆奥特曼已经认错了。但是你说我是不是就可以认为未来他们马上就可以开源了？当然，大模型开源并不是把所有原代码都拿出来，而是什么呢？是开放一些权重出来，比如说像DeepSeek，像Llama，都是开放权重，就是我们拿回来以后可以再去进行部署使用，是这样的一个东西。在这件事情上呢，他说未来有可能会开放一些权重出来，但是现在这个并不是最重要的事情。而且在这里他也讲了，说有人不同意，就是并非OpenAI的每个人都同意这种观点，肯定还是有人希望继续闭源下去。

但是你说这个闭源的人到底是不是山伯奥特曼，这个不好说，因为至少他出来还是要站在一个比较高的道德制高点上说，我认为这事还是该开源的。我认为我们站在了历史错误的一边，但是有别人不同意。到底谁不同意，咱们接着往下讲。

OpenAI目前最重要的事情到底是什么？人家也讲了，说这不是我们目前的首要任务。OpenAI目前最重要的事情是融资。去年应该是第三季度吧，刚融了一轮，当时已经拿到1,000多亿美金了，现在又跑出来融资了，这个钱又造干净了。这一次的话，准备以3,000亿美金的估值再去融400亿美金左右的这个钱。而且在这一次的话，要摆脱微软的桎梏，原来都是微软出钱出的最多，微软已经出了130亿美金了，这一次的话是软银领投，孙正义领投150-200亿美金软银出。

剩下的其他人出，而软银呢将取代微软成为最大的投资方。这个是现在OpenAI最重要的事情：摆脱微软桎梏。因为谁不让他开源呢？里头有一个很重要的因素就是微软。微软呢是有OpenAI很多的独家合作权的，比如说它的Azure云上，有Azure平台的独家转售权。它可以通过微软云去销售OpenAI的API。

就是你现在想用OpenAI的API去进行开发的时候，官方有两个渠道，一个是在OpenAI的官网上，你可以直接买；还有一个就是在微软云上可以买，其他的都不行。你比如说我现在想在谷歌云上、亚马逊云上、Oracle云上去买的东西，不允许，没这事。这是第一个独家权利。

第二个呢，叫产品中的知识产权、使用权，比如说Bing，现在应该叫Copilot了，或者是GitHub Copilot，这些产品里头直接使用ChatGPT的大模型，微软是有权直接用的。第三个是什么呢？叫OpenAI API的独家托管权，这个东西只能托管在我这，不能托管到其他地方去，这是微软的独家权利。

那么开放权重的这些模型发放出去这件事，肯定是跟刚才我们讲的微软这些权力是相抵触的。微软也不能站出来说：“那我就放开吧。”作为微软这种大公司里头，任何一个下边具体办事的人都不敢去写这种协议。像我以前在公司里边做投资的时候，我们也绝不敢写这样的协议出去，什么都没有。我就直接写个协议，把原来已经拥有的独家权利直接放弃掉，这不行的。

但是在什么时候可以放弃这些权利呢？就是有新的投资人进来了。新的投资人进来以后，说他占股了，我们放弃一些权利，因为跟这个新的交易相互冲突了。在这个时候呢，可以进行一定的利益交换。所以呢，他可以趁着这一轮软银孙正义的投资，把微软这种独家权利争取回来，然后呢，再开放一些权重的模型出去。这是有可能的。

但是微软呢，这一次大概率不会去退出。就是孙正义给钱了以后，微软拿着钱跑了，应该不至于。微软呢，应该还会追加跟投。

应该在几十亿美金到100亿美金之间。他还会去投进去，按道理说呢，应该不会特别多。这但这个数字相对来说就比较敏感了。因为像投资里头呢，一般会有一种权利，就是新的投资进来以后，我们会再去给一些钱，保持原来的股份比例不降低。

但是呢，现在OpenAI内部的这些股份比例，肯定要重新调整。调什么呢？就是从非盈利机构，整个这个框架摆脱出来，要变成一家可以上市的盈利机构。这个过程的话，大家的股份肯定要重新去进行一些调整和分配。这就是现在OpenAI最重要的事儿，也就是星际之门已经正式开启了。这几百亿美金，也许在一季度就可以看到落地了。那这个是真金白银要给钱的，OpenAI要把这个钱收到手里面。

至于说这个钱，到底有多少是微软的代金券，这个一定是有很多是微软云的代金券，有多少是现金，到了OpenAI手里面，可能未来一段时间我们还可以继续吃这个瓜吃下去。

好，这就是今天我们讲的ChatGPT O3 mini发布，以及山姆奥特曼出来认错的故事。好，这期就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。