推理模型 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI 突然开源！GPT-OSS 深度评测，中美 AI 竞争升级，谁能笑到最后？AI 界的“田忌赛马”！详解中国“全家桶”式开源，如何对决 OpenAI 的精准出牌？

Luke Fan — Fri, 08 Aug 2025 01:02:14 +0000

OpenAI再次开源，中美AI竞争加剧，这一次体现在了不同的开源策略上。

OpenAI再次开源，这一次发布的版本叫GPT-OSS (Open Source System)，8月5号突然上线了。这一次又不是GPT-5，我们从7月份就开始等GPT-5，现在已经等得大家开始胡思乱想了。很多人猜，说为什么出不来。现在最新的说法是48小时之内出来，等等看吧。

这一次呢，开出来的是GPT-OSS，是一个开源模型，20B和120B两种参数。它呢，是一个MOE模型，就是混合专家模型。其实在GPT-4的时候呢，大家就已经猜测它开始使用混合专家模型了，只是呢它不开源，大家只能猜。现在开出来了MOE推理模型，是有COT的思维链，是直接给大家展示出来的。而且呢，是一个文本模型，没有多模态的东西。上下文比较长，128K的上下文，要比国内的一些开源模型还要再长一些。因为现在没办法，你要使用工具、使用MCP，没有足够长的上下文，你是跑不起来的。所以呢，这一次的GPT-OSS说，我们很擅长使用工具，有的时候有点太擅长了。因为我测试的时候，有的时候工具调用次数非常多，直接就把自己的上下文填满了，这种情况也是不少的。

这一次呢，创新性地使用了MXFP4的一个量化，这是它最新的一个技术。首先要讲一下MXFP4的这个训练。我们以前使用的模型，千问、DeepSeek这些模型呢，我们都是使用的FP16去进行训练的，有的甚至是FP32去进行训练。就是我们把每一个数码位上的指针都做得很长，非常非常精确。这个好处是什么呢？就是你训练的时候，可以很精确地去进行训练。你再去推理的时候呢，我们再想办法把它这些数据呢，做成FP8，就是做成8位的一个短指针，速度就会快很多，而且呢，在这个缩短的过程中呢，精度损失的也不是很大。原来我们都是这么来干的。但是呢，这一次的GPT-OSS呢，他们使用了一种4位的指针，更短小一些。而且呢，它跟以前不一样，原来都是用比较长的数码位去进行训练，训练以后再去进行缩短。这一次直接训练的时候，就是4位的，出来就当4位的使，他是这样来去工作的。这个好处是什么呢？就是特别地节省空间，它的速度很快，我在本地测试的时候已经感受到了。

它呢，没有做蒸馏。原来大家都在想，GPT-OSS是不是直接拿GPT-4o，或者拿什么样的这个数据去蒸馏一下就可以了？因为OpenAI手里有很多这些大模型嘛。它并没有去做蒸馏，是从头开始原生训练的一个大模型。用了数万亿TOKEN的纯文本，重点覆盖STEAM、代码和通识知识。主要是拿这些东西训练。它呢，使用了GPT-4o的CBRN过滤器来清洗有害内容。在这里要专门讲一下，GPT-OSS的道德感还是很高的哈，所以呢，不要想着它到本地了，我们就可以拿它随便做一些什么样的事情，它会拒绝大量的指令的。它的知识呢，是截止到2024年6月，再往后的知识是没有的。你说我想处理一些新的知识怎么办？没有问题，因为它调用搜索、它调用工具的能力很强，所以你可以先命令它搜索，然后再去总结。

在进行了预训练之后呢，使用了与GPT-3相同的COT强化学习的数据进行训练，它就可以进行COT的输出。所以这是一个推理模型。两个版本的模型，一个20B，一个120B。20B呢，它的效能相当于GPT-3 mini，其实对于很多的本地工作来说，已经够使了，效果我刚才试了还是相当不错的。120B呢，相当于GPT-4 mini的水平，这也是我们普通的plus用户可以在GPT.com的这个网站上使用的最高版本的推理模型。实际上它那个上面最强的模型，我们能用的应该是GPT-4o全量模型。

20B呢，我装了，效果不错，速度飞起。比我本机跑的各种的30B模型、32B的模型要快非常多，甚至比一些十几B的模型速度还要快。产出的内容的质量，要比那些三十几B的，像千问模型要好很大一些。这个是我的一个主观的感受吧。我呢，是用Ollama直接在我的MacBook Pro 32G内存的笔记本上跑起来的。据说呢，这个东西是可以在16G内存的笔记本上跑，但是我没有测试，因为我们家没有这么低内存的电脑。

至于120B的话，这就不是我应该用的东西。为啥呢？它需要80G的显存，咱们没有这东西，是小团队在服务器上用的东西，这个不是给普通人在电脑上用的。你说我一定要去买一个Mac studio，或者我在本机去装4090装好几块，这个东西也是可以跑，但是真的没有什么必要。

那你说云端有没有？云端你现在上OpenRouter等等这些网站呢，是提供120B的模型的。但是我都上了云端了，谁用这玩意儿？我直接用GPT的大模型不就完了吗？所以呢，120B的模型对于我们这种个人玩家来说，稍显尴尬。但是你说我是一个小团队，我有一些信息不可以出办公室，你可以专门搭一台服务器来跑120B的模型。

中国的云端大模型托管服务上呢，目前都没上。这个它虽然是使用Apache 2.0协议，国内的这些像阿里云、硅基流动或者像火山云，你都可以去用，这个事他是不管的，至少这个协议是允许我们去用的。而且呢，这个Apache 2.0，我们不但可以用这个模型，还可以商用，还可以去修改这个模型，都不需要他的同意。但是呢，在中国有另外一个比较麻烦的是什么呢？就是谁把这个大模型包装出来给公众去使用了，谁需要去申请牌照，是需要申请合规的。上一个新的模型测试、申请合规的过程的话，还是有一些成本，所以现在大家还没有上。其实像Llama系列的模型，国内的这些云服务商上基本上都还是有的，也可以用。但是呢，每次上一个新的，这块我们没有那么快。国外的像Open Router什么的就已经上来了，第一天出来，第二天就直接可以上来使。中国的要求呢，不是说谁出大模型谁要去申请牌照，而是谁拿着这大模型出去给人服务，谁需要去申请牌照。你比如说，DeepSeek说我今天开源模型了，你不需要申请牌照；但是你说DeepSeek提供了API、提供了聊天窗口，要跟人服务了，这个你需要申请牌照。它是这样的一个工作逻辑。

那OpenAI为什么时隔这么多年又去开源了呢？原因也很简单。总有一些机构呢，不希望自己的数据离开可控的网络，不希望说这个数据跑到外网上被OpenAI学习了。最近OpenAI好像还有一个聊天提示词泄露的事情，这个事情是大家不希望的。前面包括三星还有很多的海外公司，使用OpenAI的时候都发生过泄漏情况。但是这种泄漏呢，其实很多是他们的防火墙爆出来的：“我发现你把一些公司敏感信息发到外网去了”，这个时候防火墙就会报警。但是你说我发到OpenAI以后，OpenAI是不是再去用这个数据，或者是不是拿这个数据再去训练模型了，或者再去传播了？这个事呢，反正OpenAI对外的承诺是它不做这个事，但是这个不好说嘛，有些人我们未必信得过他。所以有一些机构说，我一定要本地模型。原来这个生意OpenAI是不做的，现在呢，说我们这块也得做着，我们也要抢这个生意。20B呢，本机运行；120B呢，内部服务器运行，可以很好地解决这些敏感单位的需求。

而且呢，20B也好，120B的模型呢，还可以进行微调。微调了以后，你可以拿它去进行法务、医疗等等这种特殊需求的应用。而这儿呢，要稍微提醒大家一句，前头我们讲，GPT-OSS是有非常高的道德水平的。你一旦微调了以后，这个道德水平就不好说了，有可能GPT-OSS震碎三观，从此堕入黑暗的可能性是存在的。但是呢，那个就是你们各自自己负责任了，跟OpenAI就没什么关系了。

咱们呢，讲到这再讲一讲，中美之间到底是怎么去进行竞争的呢？美国人出了这个东西，不是美国人赢了吗？不是这样的。中美之间呢，有四种不同的开源策略。

第一种呢，是混沌模式。甭管什么样的东西，我先开了再说，开完了以后，你们爱怎么用怎么用。这个是谁呢？Llama就这么干的。Llama 1、Llama 2、Llama 3、Llama 4，都是上来我就开了，开完了以后你们拿去用吧，我就不管了。但是到目前为止呢，发现这条路可能走不太通。扎克伯格捞了一大堆的人以后，说我们是不是不开源了，重新思考一下未来该怎么走的问题，稍显可惜。

第二种模式呢，叫做“开旧闭新”模式。就是呢，我把这个新模型闭源了，我把老模型把它开源出来。谁干这活呢？就是马斯克，xAI就干这个活。他现在呢，是Grok-1开源的，2、3、4都是闭源的。但是马斯克呢，应该是昨天讲的吧，说我们近期准备把Grok-2也开源出来，那就3和4是闭源的。对于他来说呢，他的这个策略很简单，就是开源这一扇大旗我还是要扛着的，但是呢，如果你们想要用最新的模型，你就老老实实上我这来交钱，来把数据交到xAI的服务器上去进行运算。所以马斯克这个xAI呢，我一直评论它是一个假开源，他并不希望别人真的拿这个东西去做点什么事儿，只是说“我还开着呢”。

第三种模式呢，就是OpenAI现在做这个事儿，叫“开小闭大”。它的GPT-3、GPT-4这些东西呢，是闭源模型，GPT-4o也是闭源模型。同时呢，它开了一个小模型叫GPT-OSS。你如果本地需要一些敏感数据处理，你就用开源模型；如果是一个很复杂的处理，你就老老实实地到网上来使用我的这些闭源模型就完了。谷歌也是这么干的，谷歌的闭源模型呢叫Gemini，现在Gemini 2.5 Pro是我目前用到的算是最好用的模型之一吧。他还开源了一个叫Gemma的模型，Gemma现在最新的应该是Gemma 3。你们如果有一些需要单独处理的数据、需要敏感处理的数据，你就把这个Gemma当（download）回去在本机使用。还有呢，微软，微软的小模型开源出来，这个模型叫Phi-4现在最新的版本。他们家自己不做大模型，用OpenAI的大模型就完事了。现在Mistral也是走着这条路，就是法国这公司，他们呢，现在有一些小一点的模型开源出来给大家用，但是大一些的、复杂一些的这个操作，你就老老实实地上云端，调他们家的服务器就完事了。

这个混沌模式和这个开旧闭新模式呢，咱不讨论，没有什么明确的商业诉求在后头。“开小闭大”模式，就是美国人现在使用的开源模式。那你说中国人使用的开源模式是什么样呢？跟他到底有什么不一样的呢？而中国人是直接把最新的、最大的全开出来。千问三就直接把200多B的模型开出来，DeepSeek直接把671B的模型开出来。而且只要我发布了最新的模型，我就把最新的模型直接开出来。这个是咱们的玩法。现在中国跑得比较靠前的开源模型：DeepSeek、千问、Minimax、Kimi和GLM。

所以这是两个完全不同的开源策略。那么中美博弈在什么地方？这两个策略，一个是“开小闭大”，一个是“应开全开”，那到底是怎么博弈的？中国人玩的，其实是“田忌赛马”的故事。就是你那最好的马呢，我跑不过；但是呢，我用我最好的马去给你一个中马跑，我用我的中马呢，给你的次马跑，反而我那个次马呢，上来我就给你最好的马跑，一次就完事了。这样三局两胜，我还是胜了两局的。

那你说大模型开源，这到底怎么去“田忌赛马”的呢？中国目前开源大模型呢，跟美国顶尖的闭源大模型比，它是比不过的。你比如说千问三的230几B的这些模型，DeepSeek 671B的模型，你去跟GPT-3、GPT-4这些模型比，你比不过他；你跟Claude、Code 4这些模型比，你也比不过；跟Gemini你也比不过。那怎么办呢？我们去跟你的开源模型比，去跟这些120B或者是这种三十几B的这些开源模型，我比你跑得好。我这个一上来就是600多B，效果一定是比你那个三十几B的效果要好非常非常多的，相当于是用我的最好的马去跟你那个中等的马去跑。当用户选择本地闭源、中小模型的时候呢，中国队就会占优。但是你说我在本地、在电脑上直接需要一个小模型，目前为止我使用到的GPT-OSS 20B是最好用的。中国现在同样大小的，你比如说都是20B或者是30B的这些模型，你比不过它。但是呢，有些人说，你看我这也是一个小的单位，我这个单位里头呢，也有一些服务器，我想要用一些模型去处理一些问题的话，那你使用这些600多B的或者是200多B的模型，你去跟GPT-OSS 120B打，你是打得过的。那么在这种小团队选择开源模型的时候，中国队就占优了。它是不同的一个竞争策略。

而且呢，当有创业公司想要去挑战大厂的时候，你比如像Perplexity说，我们想拿一些好一点的开源模型再去进行调整，我们想去跟大厂掰掰手腕的时候，中国团队会给他们提供充足的弹药。他们拿美国队，比如说Gemma、Phi或者是GPT-OSS，这些专门为PC端运行训练的这些小模型，你是没法整的。你拿这些模型再怎么微调、再怎么折腾，你没法跟那些大厂竞争。它会有这样的一个差异。但是呢，你拿中国这些模型，你再去微调一下，或者拿这个模型再去怎么折腾一下，那都是有可能能够做出一些比较强的应用出来的。

美国人的想法呢，其实挺简单的。使用美国的开源小模型，可以解决大厂预设的一些问题。比如OpenAI，我给你预设了些这些问题，你用这小模型解决；那些问题呢，你就用大模型解决。大模型你上云端来调，小模型自己去用。但是呢，使用小模型的人，永远不可能形成对于大厂的竞争来，这就是他想干的事。而中国人的策略是什么呢？看热闹不嫌事大。有人打架了，赶快往上递什么无缝钢管，递什么煤气罐，咱们赶快去干这些事。当然这些无缝钢管，比如到了中东，他们可能就变成了煤气罐大炮了，那个我们就不管了，我们都是卖的民用设备过去的，他们拿去打仗，这事跟我们没关系。所以中国人喜欢干这样的事情。

那谁能笑到最后呢？刚才我们讲了，中美两个策略不一样。短期内看呢，美国的策略是更精明的，他把应用分析得很清楚，谁该用什么东西，谁自己去用就完了。但是呢，中国的策略呢，也有自己的定位，短期内呢，我们也可以争夺到一部分市场，这个事本身并没有太大的问题。从长期考量来说呢，美国的策略首先要保障的是巨头永远是巨头，巨头规划未来的格局，中小企业呢，在巨头的规划内生长。有点像谷歌跟苹果似的，你说这么多做App的、做游戏的公司，谁也没有能力去撼动这些做App Store和Google Play的公司去，这个就是他们所希望去规划的事情。而中国的策略呢，就是有可能培养出一些颠覆市场的妖怪来。我们不管你这个规则是什么样的，反正我们给你这个煤气罐、给你这个无缝钢管，你拿去爱干嘛干嘛去，这是中国的策略。而且有很多的国家呢，是不甘心永远去用美国的这些闭源模型的，那么在这种时候，中国的开源模型也是他们唯一的选择。你比如说到了沙特了，到了阿联酋了，也希望有一些自己的大模型，但是你拿美国的这些模型你没法整。虽然他可以给你部署到你本地来，但是这个东西还是由美国人来管理的，哪天他给你关了，你就没法用了。你说我有一个完全我自己控制的了的这些模型，那你就老老实实地用中国的模型去训练，美国的这些开源小模型，你拿它是没有办法的。

而且呢，在一个一半以上研发人员都是中国人的领域里头呢，中国策略可能才是未来。AI领域是一个有着深深中国民族性烙印的领域。在这个圈子里头，只要是做AI相关的公司，出来讲点什么事儿，基本上一半以上是中国人。那你说中国人的民族烙印到底是什么呢？每个中国打工人都惦记着阶级跃迁，惦记着翻身做主人。咱们讲的是说，哎，我这开了一个拉面馆，我请了几个中国师傅在我这拉面，他们就想着说：“我应该怎么把这个配方偷出来，以后我可以在旁边再开一家拉面馆，去跟原来的老板竞争。”中国人讲的叫“王侯将相，宁有种乎？”，凭什么你行我不行？咱们也可以上来试一试。所以呢，像美国人这种，就是规划好了你就拿小模型，你永远做不出大模型的，这东西拿去用去。咱们的策略就是每个人都有枪有炮，最后谁说了算不一定呢。

日子还长，咱们往后继续看，到底哪条路可以走得通，到底哪条路可以结出丰硕的果实来。

好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

GPT-3与O4 mini不再高冷：融合工具调用、记忆与超强图像推理，普通人也能高效应用AI，一文看懂成本、限制与Copilot捷径

Luke Fan — Fri, 18 Apr 2025 00:50:27 +0000

GPT-3和O4 mini发布了，这次绝不再仅仅是科学家们的玩具了。大家好，欢迎收听老范讲故事的YouTube频道。

本来GPT-3和O4 mini发布呢，我并没有抱太大的期望。为什么呢？因为前面O1和O3 mini发布的时候呢，看得我头晕眼花的。我记得应该是在去年12天连续发布会的时候发布的O3 mini，实在是太不明觉厉了。各种的复杂科学问题，咔咔就给解决了，然后各种的排名都排得很高。但是呢，我自己其实并不怎么用。

为什么呢？第一个，ChatGPT Plus用户里边呢，它是有用量限制的，并不是随便让你用的。所以在有用量限制的情况下，你就得省着用，而且你也感觉不出有太大差异来。你说你用它干嘛？据说编程很强，但是它没法跟IDE结合，基本上也就放弃了。你是可以出一大堆的代码，但是你还得向IDE里边去考来考去的，很麻烦。那你说我通过API调用吧，直接使用O1和O3 mini这些模型，实在是贵，所以就放弃了。

这一次呢，真的就不一样了。首先是Greg重新上线了。Greg其实好长时间不怎么出来了，他是在2023年11月份山姆·奥特曼宫变之后，就变得非常低调。2023年11月开始休假，后来是在微软的强烈要求下才回归的。到2024年又开始了长期休假，但是在大量高管离职之后，年底再次回归，还宣布：“我提前俩月回来了，我本来还想再多歇一歇的。”现在呢，主要负责机器人业务，不再担任董事会主席了，保留了总裁的职位。

Greg上来开始显得有一些紧张，不知道该说什么。大家可以去看看那25分钟的发布会录像，后面逐渐放松了，也是长时间不露面、不说话的一个表现吧。这一次的话，全程C位，坐在最中间的位置上，主持O3和O4 mini的发布会，可见重视程度了。

这一次的发布会呢，基本上是二对二的分配，就是两个老板配上两个做事情的。两个老板始终坐着不动，做事情的人呢，就是讲到不同的部分，然后来换。还有一个老板呢，叫Mark陈，首席研究官，亚洲脸，但不确定是不是华人。有传闻其父母是从台湾去的美国。现在呢，有一种ABC脸，看起来有点像华人，但是脸型又不像。这个据说呢，是长期英文发音和美式的饮食习惯，以及美国教育所形成的一种脸型，反正跟华人还是有一定区别的。有可能是个华人，当然也有可能是个越南人，这个不确定。

另外两个呢，是根据演示的过程不同，不停地换工程师。国内引用的照片呢，肯定是有偏向性的。国内各媒体呢……

通常引用的是讲到模型强化训练和各种跑分的这两位工程师。为什么呢？因为里头有一个叫周文达的，是一位华人。国内各个媒体引用照片的时候，一般会引用含华量比较高的照片。

一开始呢，也是讲科学，什么量子力学。本来我也挺失望的。科学的部分呢，对于我这种普通人来说，已经没有那么大关系了——看不懂，没需求，也用不起。所以一看，还是这东西，好像没什么意思。

但是讲到后边呢，越来越兴奋了。咱们讲几个好玩的特性，并不跟大家完整的去复述这个发布会了。有兴趣可以去看这个25分钟的发布会，各种数值绝对是遥遥领先。

OpenAI呢，作为行业老大，他是有自觉的。什么叫自觉？从来不跟别人比数值，只跟自己比。就是他不会说我把Gemini 2.5拎出来比一比，Claude 3.7拎出来比一比，或者跟DeepSeek比一比。别人都是说我比OpenAI强在哪，或者我已经接近OpenAI了。OpenAI永远说我就跟自己比。

所以我们现在可以看到的所有的数值比较，都是跟GPT O1、O1 mini、O3 mini跟这些模型进行比较的，没有跟其他模型比较的数据。

咱们来讲三个有趣的功能点吧。

第一个非常有趣的功能点，也是让我觉得GPT O3和O4mini真的能用了的一个最核心的点，就是它可以进行工具调用了。什么意思？我们正常情况下一个大模型，你让他去给你生成内容的时候，他其实都是在胡说八道的。就算他有的时候说的很像，但他依然是在胡说八道，是在编。他不能保证内容是可验证的，而且你每一次让他说同样的事情，他都给你编出不同的花样来。

那么一定要带上搜索，带上知识库，带上其他的辅助工具，他才可以靠谱的干活。现在推理模型已经可以靠谱的干活了。所以O3跟O4mini是可以进行工具调用的。但是他们绝对不是第一个。在发布会上他们讲说，我们是第一个在推理里边进行工具调用的，这个真的不是。GROK3也是推理模型，也是可以做各种工具调用的。

只是呢，GPT O3跟O4 mini呢，据说在工具调用上要有极大的提升，因为他们在这块专门做了训练。他可以进行几十次的这种工具调用。当你让他去做一个很复杂的事情的时候，他会反复的在他认为需要的时候去调用工具，获得外部数据，或者做一些相应的操作。这个很棒。

O3跟O4mini呢，是在推理的过程中去调用工具，效果绝对是碾压原来不能使用工具的O1，效果好的一塌糊涂。推理模型如果不挂搜索引擎……

不挂知识库，基本上就是胡说八道。他要比正常的生成模型还要再胡说八道一些，因为他想的多，越想就越错。知识越多越反动，这个幻觉是非常非常严重的。挂上搜索之后，基本上不再需要 deep research 这种东西了。现在你用 O3 去挂搜索，跟 deep research 的效果基本上是可以平齐的。

现在呢，OpenAI 内部有很多的工具，包括 Python 执行、调用浏览器、搜索，有很多这样的工具，它都可以自动的去调用。当有这些功能之后，每一个普通人，不需要是科学家，也可以用 O3 跟 O4mini 完成很多任务了。只是目前呢，OpenAI 内部的这些工具，你通过外部你使不了。还有 function call 这个调用呢，现在在代理站上还没有接上，这个还要再等一等。什么意思？就是你直接挂 OpenAI 的 API，挂它原厂的，是可以进行 function call 的，可以把你自己的各种各样的工具放在里边让它去调用。原来我们演示过使用高德地图的工具，让他去找饭馆、规划路线什么的，这个都是可以去使用了。如果我们使用 API 来调用 O3 和 O4mini 的话，OpenAI 内部的什么搜索呀，这些工具我们是无法使用的，就差在这了。这是一个比较有趣的点，但是具体怎么用，待会我们来举一个案例。

第二个有趣的点是什么呢？就是跟记忆相结合了。原来我们专门录了一期视频来讲 OpenAI 有了记忆功能，现在它也有记忆功能。于是我就向它提出了要求，我说：“根据你对我的了解，我是个 Youtuber，给我推荐一些适合我的 YouTube 话题，我要去写稿去了。”然后他就开始去搜索，调用搜索工具去搜索去了。搜索完了以后说：“我发现你是专门讲 AI、讲科技、讲流量、讲创投的博主，我发现有哪些哪些话题最近是最新的，适合你去讲。”其中有一个话题呢，叫 TikTok 降低了海外直播带货门槛。原来呢是要 1,000 个粉丝才可以带货，现在 200 粉丝就可以带货了，说这个你看怎么样？我说这个不错。我说：“你根据你对我的了解，给我去写个提纲吧。”然后他就按照我的习惯，给我夸夸把提纲列好了，说 TikTok 是哪天哪天发了一个什么样的文儿，为什么什么东西，写的还很好的一个提纲。在这个过程中引用了我的记忆，调用了搜索，聚集了大量的信息。我再说：“那你再给我补充点数据和观点吧。”一般我是会有一个自己的观点，我说：“我的观点是什么什么，你给我补充进去。”然后呢，我为了论证我的观点。

我还需要哪些数据？然后，夸夸夸又去搜索，搜索完了给我补充进来。做了两次补充以后，这个提纲基本上就完成了，就完完全全可以用了。过几天咱们去讲这个“TikTok降低海外直播带货门槛”这个故事吧，这个还是很有趣的一个点。所以现在真的是每个人都能用上了。

第三个比较好玩的点是什么呢？就是图片推理。这个图片推理是非常非常强的一个点，绝对不是识别图片，然后将文字作为提示词去推理。我们很多人一看图片推理这件事，都是想的说，我们把这个图片识别一下，变成一大堆文字。不是这样。

跟大家举一个案例吧。我今天去潭柘寺了，玩我的无人机。拿我的无人机呢，在潭柘寺的外面，拍了一张俯瞰潭柘寺的全景照片。我就问O3，我说这是哪？这个建筑群的布局是什么样的呀？这个提示词就这样的。问完了以后呢，这个O3就去干活去了。他把这个图片先整个的分析一下，然后呢，放大每一块切割，说这一小块是什么，那一小块什么，把它切成一块一块的。然后对每一块进行识别，而且在切完了以后，还对每一块去调整方向，说这块好像你拍歪了，改一个方向，可能更能认出是什么来。通过这样的一个方式去推理，看那个推理过程，惊讶的我目瞪口呆，我告诉你。

最后告诉我说什么？从这张航拍来看，这是一张典型的依山就势、三层台地式布局的北方佛寺，很像北京西山脚下的潭柘寺。我没有告诉O3这是航拍照片，他就全都认出来了，好聪明。但是注意不要被骗了，照片里面是有Meta data的，就是有一些基础信息的。这个信息包括什么？拍摄时间、分辨率、色彩、空间、光圈、快门、白平衡，都在里头。还有拍摄设备那个里头，写着你是用大疆的什么设备拍的，大疆air 3S。然后呢，这个照片里还写着经纬度，因为大疆的无人机里头是有GPS的，它拍完照片是会把经纬度直接写在照片里的。完完全全可以通过这些Meta data就编出来的。

所以呢，这个到底是真聪明还是假聪明？还是说我把经纬度拎出来，把这个拍摄设备拎出来，就直接搜索一下，就给你出结果了？这个我们要往下看。他呢还给我接着讲，说这个图片是中轴对称的三进院。第一进呢叫山门到天王殿，第二进呢是天王殿到大雄宝殿，第三进呢是大雄宝殿到法华殿和藏经阁。中轴线两侧各有回廊和配殿，比如观音殿、药师殿、僧房、斋堂，左右分布对称，也有现代化的客房和管理用房。

再往后还写了一个特别有趣的东西：底层的停车场与服务中心，通过台阶与甬道与寺内各层相连。右侧的通讯塔，现代建筑。

为后期补建的配套设施，这是不是根据潭柘寺的信息搜索出来的呢？这就是我们要去问的。他到底是真聪明还是假聪明？

潭柘寺最后的一进大殿不叫藏经阁，而是叫毗卢殿。应该是五方佛中间一个，然后后边是东方、西方、南方、北方，一共是五个佛在里面，所以不一样。但是中国寺庙的默认布局呢，最后一层是藏经阁。所以这个并不是直接搜索出来的。如果直接搜潭柘寺的话，他应该写最后一层是毗卢阁。

至于底层的停车场、服务中心、现代通信塔，绝对是图片推理推出来的。因为不会有哪个介绍潭柘寺的网页去把这些东西都给你写在里头，所以还是非常棒的，可以进行图片推理。

有了这些有趣的功能之后，咱们可以通过什么样的方式来使用它呢？现在免费用户无法使用。你说我不愿意交钱，那么O3跟O4mini你使不了。Plus用户，像我这样的一个月20美金的用户，是可以使用的，但是有限制。O3每周50次，我今天大概已经使了有五六次了。O4 mini呢是每天150次，这个应该足够使。如果是每个月200美金的Pro用户，无限量使用。

API依然很昂贵。使用它的API，我可能还要稍微掂量掂量。O3每100万TOKEN的输入是10美金，输出是40美金。O4mini要快一些，也要小一些，它呢每100万TOKEN的输入是1.1美金，输出是4.4美金。应该比在美国部署的DeepSeek R1相差仿佛吧，就是基本上还是可以用的。

这种推理模型呢都是话痨模型，价格还是挺贵的。特别是10美金100万TOKEN输入，40美金100万TOKEN输出，这个非常非常昂贵。再结合上工具调用，图片推理，这个价格就像坐在日本的出租车里，看着计价器跳的那叫一个心惊肉跳。

其他的一些代理，就是这种API代理也已经开始工作了。Open Router或者其他的一些代理都可以使用，价格是相同的。只是呢，目前function call还没接上。为什么要专门强调这个？因为有些人在国内充值OpenAI的API是比较费劲的，像我就是这样。所以我使用OpenAI的API都是通过各种的代理去使用的。

还有一些什么方式可以使用的呢？GitHub Copilot里头是有GPT4 O4 mini的，但是没有GPT O3。它只有这些mini模型，它有O1，但是没有O3上来。O4 mini的话，应该是可以大范围使用的，但是前提你还是付费的。

像我是Github Copilot，99美元一年的会员。所以呢，我现在可以在IDE里边去使用它，Client和Roo Code也可以通过Github Copilot的会员直接去使用GPT-4 mini。那你说Client或者是Roo Code，我自己挂OpenAI的API或者是Open Router的API行不行？没毛病，都可以使，但是你得按TOKEN付费，那个很贵。挂Github Copilot下面的GPT-4 mini的模型的话，你有那个99刀一年的年费，就可以放心的玩耍了。

总结一下，OpenAI现在前进的方向到底是什么样的？它呢正在将各种零散的功能点聚集在一起。其实记忆早就有了，function call早就有了，推理早就有了。他一方面呢，是在拼命的去做强化学习，然后告诉大家现在强化学习scaling law依然管用。你把更多的数据、更多的算力堆进去，强化学习的效果就能起来，没有任何问题，大家好好去买英伟达显卡。另外一方面，它就把各种其他的小功能给你凑起来了，包括记忆、function call、推理、搜索呀，把这些东西给你搁在一块，你看真的好用。

其他各大模型厂商呢，在某些方面可以接近甚至赶超OpenAI，但是综合实力上，OpenAI绝对还是领先的。当OpenAI把各种新功能聚合在一起的时候，绝对是遥遥领先。它在每一个细节点上，可能都会比别人强很多。就像咱们前几天讲过GPT-4O的绘图功能，它虽然说在完整的绘图过程中，它表现力上、艺术感上没有Midjourney强，但是呢，它在文字理解上、文字渲染上，肯定是要比其他所有的这些绘图模型都要强很多的。

GPT-5现在正在路上了，甭管是今年下半年能出来，还是什么时候能出来，我觉得都是值得期待的。到那个时候就不用再去选模型了，你上来以后，他就根据你的问题直接推荐，直接给你反馈了，说我这个应该推理还是不应该推理，应该使用更大的模型还是使用小一些的模型，我应该调用哪些工具，应不应该搜索。这个我觉得还是值得期待的，就像以前我们总讲的，叫total solution，一站式服务。你进来了以后，我给你服务好就完了，至于我到底给你上了几个工具、几个模型，你就甭问了，最后是包你满意。

后边还有Sora，还是有念想。虽然Sora前面翻车了，现在大家都已经把它忘掉了，但是当它把这么多的功能聚集在一起的时候。

什么搜索呀、工具呀、推理，把这些东西跟Sora聚集在一起的时候，可能又会变出一些新的、不一样的东西出来。

Sora当年可是号称叫“世界模型”的。当它跟我们真实世界通过搜索引擎连接在一起的时候，那可能真的就要创造世界了。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

Manus全解构：国运级AI Agent背后的真相，自动规划工具是否真的不可或缺？

Luke Fan — Mon, 10 Mar 2025 00:50:34 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲突然刷屏的Manus。它的来源呢，是个拉丁语单词，是“手”的意思，同时呢还有“权力”和“力量”的意思。现在呢，华为造汽车就全都是《山海经》，做AI产品全是拉丁语单词，好厉害的样子，对不对？

现在这个事情呢，应该是从昨天开始，突然就变得一码难求了。我应该是在昨天看到谁呢？王舒义，天津师范大学的一个老师，他发了一条说：“哎呀，得到那个测试码了，怎么怎么着了。”我当时都没想说这啥玩意儿，没惦记这个事，因为呢他们那个Monica我也没怎么用过。Monica这个产品对于我来说，还是有点太奇怪了一点。待会我们再继续讲。

后来到昨天晚上了，突然就开始传出来说这个东西已经在闲鱼上炒到好几万了。又一个国运级产品出来了，中国人再次震惊了世界，说老美又怎么样了，全世界又如何如何了。今天再一看这个，各种新闻媒体刷屏了。我直到开播之前犹豫再三，说算了，还是去申请一次吧。咱们虽然没用过，但是好歹也算申请过了。本来我是连申请都懒得申请的一个产品。

团队呢，也出来求饶说，有人在攻击和破解他们的网站和服务器。这个很正常嘛，你一旦做的好了以后，大家总要上来看一看。那DeepSeek最近也才是逐渐的，号称要恢复正常。但是我却试了一下，一试还是问三个问题，就停下来那么一个状态。现在团队说玩不下去了。而且呢，说几万块钱在闲鱼上买这个邀请码，这事呢他们也出来澄清说：“我们从来没收过任何钱，您千万小心别上当受骗，上当受骗了也别上我这来找来，我这没收到过钱。”

那么，AI agent是不是真的就要爆发了呢？因为咱们从去年就开始讲，说2025年就是AI agent的一年。突然到3月份，就放出了一个王炸性的产品来。这个事是不是行？首先呢，不要太兴奋，这个东西呢在国内是使不了的，必须到国外去使去。为什么？因为底层是GPT和Claude 3.5、3.7这样的模型，这些模型在中国是没有经过安全审查的。

不能落地。而且人家这些模型上，也是明确的告诉你说：“我不愿意在中国地区为你服务。万一我给你服务了，你拿去维稳了，或者做了点别的事情，我们也担不起这责任。”所以Manus这个产品在中国不能用的。他们家的Monica.im在国内也是不能用的。他们纯纯是一个出海的服务商，而且呢，其实是一个非常非常小的服务商。他们的整个的产品，在海外没有那么多用户。

那么Manus到底是干嘛的，或者你到底能干嘛呢？现在能够出来看到的，绝大部分都是官方放出来的一些视频：晒简历、做房地产的评估、旅游的规划呀，全都是这样的东西。因为拿到邀请码的人不多，就算是拿到邀请码的人，可能也还是要给一些面子。但是也有人说自己上去了，觉得一点都不好使，问的所有问题都翻车了。这个我觉得都是可以理解吧。

Manus最强的地方是什么？就是自己规划任务。因为原来我们都是靠这个，像流程图一样去自己画，说我们先干什么后干什么，每一步怎么怎么做。现在说不用了，他自己来规划。你问他一个问题以后，他自己做计划，说我先查哪些资料，再查哪个网站，然后再怎么把它拼在一起。然后呢，可以自动的执行，自己生成一点Python代码，自己去把它跑出来。然后呢，给出最终的结论呢，实际上像一份大报告似的。而且很多人看到这份报告以后觉得：“哎呀，这个写的实在是太好了，甚至给我画图表、画表格。”

画表格这件事是非常非常容易的，千万不要被这玩意骗了。像我们写Markdown格式，或者在计算机里边，写很多的语言的时候，都是可以画出来的。你让ChatGPT画个表格，它也能画出来。但是你让它给你画图表，肯定是画不了的，还是要去调用一些特殊的语言功能才可以画出来。ChatGPT他没做这事，现在统统都干了。

非常多的人一看了以后说：“哎呀，这个简直是如虎添翼，每一个人都可以成为研究者了。”而且说，这是不是AGI看到曙光了，这个东西就是未来了。所以也有很多人说，这就是下一个国运级产品。

DeepSeek的这个辉煌再次上演了，那么是不是值得这么兴奋呢？又一次国运级的创新诞生了吗？我觉得一个不能在中国使用的服务距离国运就还稍微有一点点遥远。你DeepSeek再怎么说，咱们全国上下都在部署，你一个无法在中国合法落地的产品，中国人在这呼哧呼哧在这炒作，这个是很无聊的一个事情。而且DeepSeek本身在代码生成方面，其实差得也还比较远。Manus这种产品，它是不可能靠DeepSeek大模型就在国内部署起来的，它必须要有Claude，必须要有ChatGPT才可以完整的跑起来。如果DeepSeek就可以带着他自己整个跑起来的话，他就可以在国内上架了，但是他不行。

那为什么我说DeepSeek在代码生成的方面差得非常远呢？因为我昨天花了一整天的时间在尝试用DeepSeek去写程序，那叫费劲，比Claude 3.5、3.7真的差的不是一星半点，是差的太老远了。Manus跟DeepSeek比起来，还是有很大的差距的。DeepSeek让国内所有的大厂都跟着走，Manus，国内大厂呢有可能会超他，但是呢也不一定每家都会去抄一遍，因为现在这个方向呢，大家也还在观望之中。它不像是DeepSeek，彻底把国内所有的这个大厂全给翻了一遍，所有跟云计算相关的所有运营商全都装DeepSeek去了。

DeepSeek已经改变了全球的AI格局，还带崩了英伟达的股票。而这一点上Manus就更加没有比较了。DeepSeek自己服务半停摆的情况下，依然可以搅风搅雨，那Manus呢只能算是一个标记性的时间点。他出来了以后说，哦，我们看到了一个新的产品形态，而且大家还挺喜欢，可以自我规划的AI agent可能就能够用了。那么国内的这些大厂，包括一些小一点的厂，系统经营商呢，应该就可以去冲一波了。而这个就是Manus现在带来的一些变化。Manus现在也说我们要开源。

这件事我觉得还是稍微值得期待一下。现在呢，大家最希望他开源的，是他推理和规划的这个“小模型”。但是人家具体什么时候开，开什么东西，现在还没有确定下来。那么讲这么热闹，这东西到底咋实现呢？是不是一套壳产品呢？只要是中国人做的，大家都要问一下。而人家呢，上来也承认了，说我们就是套壳的，没什么好说的。

什么叫套壳呢？就是你没有自己的大模型，大模型用的就是Anthropic、Claude 3.5、3.7、OpenAI的GPT以及DeepSeek。它是没有自己可以拿出来展示的大模型的，使用的都是公开模型。所以呢，可以算是一个套壳产品。甚至还讲了说，我们把套壳做到极致，就如何如何。但是呢，它这个离极致其实还稍微有一点点远。

那么为什么是现在这个时候，Manus这种产品出来了？这种可以有自我规划能力的GPT，其实早就有。最早有一个产品叫OTO GPT，但是一晃眼儿就不见了。现在呢，是Claude 3.7、ChatGPT，特别是DeepSeek R1，这个模型已经变得很强了。而且像DeepSeek R1这样的产品，如果你自己部署的话，你的成本是可控的。像Claude 3.7这样的产品，其实并没有那么贵，整个让它跑起来还是可以去承担的。

原来OTO GPT的时候，当时大家跑，我忘了是GPT3.5还是GPT4了，奇贵无比，所以一会那钱就哗啦哗啦就不见了，所以没做起来。现在呢，就是有可能能做出来。那么进行自我规划之后，能够可控的输出结果，这个是现在这些大模型已经可以达到的这个能力了。其实现在用一些稍微小一点的模型进行规划和微调的话，还是很方便的。

我今天还试了一个东西，就是阿里新出的QWQ 32B的这个推理模型。据说它这个32B的模型呢，是要比DeepSeek R1 671B的模型效果还好。我上去试了试，确实挺好用的，但是要想达到DeepSeek R1那个，还是要稍微差那么一点点。

虽然在跑分上确实是跑赢了DeepSeek R1，但是个人使用体验跟跑分还是不一样的。讲回来，Manus呢，应该是自己做了一个小的规划模型。它呢，构建一个规则的知识库，就是我要做什么事，大概有几种方法，我做另外一件事大概有几种方法。然后呢，输入指令进行规划。我现在要做一个旅游攻略，我现在要去筛简历，把这些命令输入进来以后，他就给你规划了。规划出来以后呢，给你做了一个叫to do.MD的文件。to do嘛，就是马上要做的事情。MD呢，实际上是Markdown。Markdown是程序员经常使用的一种文本工具，就在文本里边直接写一些符号，就可以代替排版。像我们在word里排版的话，你要先写好文字，然后选中了以后，说我们是用几号字，前头要不要写这个点，或者有没有这个编号。markdown等于完全是在文字里边去写，就程序员都是这么干。

当他做完规划以后呢，得再通过自己的一个解释器，把这个markdown里头一条一条的，一步一步去完成。他是这样去工作的。里头呢，还有一大堆小工具，比如解压。筛简历的时候，就是给了一个压缩包给他，那你把他解开。然后呢有一些文档解析，甭管是PDF文件word文件，你都解析出来。然后还要做网页解析。那为什么网页解析要单独讲一下？咱们打开网站看一看，那上面什么弹窗了广告了一大堆东西，你要把真正有用的东西扒出来，还是有点难度的。所以网页解析是专门的一个项目。然后呢，自己还带浏览器，他可以自动的去浏览网页。其实有点像今年1月份，OpenAI发的那个产品叫operator。但是operator发完了以后，只有200美金以上的用户可以用，像我这种20美金的用户还用不了。还有一些API，你比如说我现在需要重新生成PDF了，还有一些API的，它呢是可以通过Python，再生成一点点简单代码，然后可以通过这些简单代码的执行，把这些刚才我们讲的小工具，整个的通顺的串联起来。

它呢，可以设置一套小工具的调用规范。符合规范的就可以进到工具链里边去。当他拿了这样的一大堆小工具，照着todo.MD去执行了以后，就产生了一大堆的中间结果。然后呢，再对结果进行拼接。大模型的能力其实就在这。它能干嘛呢？就是处理很多这种叫非结构化数据。

什么叫结构化数据？什么叫非结构化数据？就是我现在有一个表格，第一列叫做姓名，第二列叫做年龄，第三列叫性别，第四列叫做简介，第五列叫什么职业。这个东西就叫结构化数据了，一行就是一个人。非结构化数据就是，我拿到这个数据里头是一锅酱，我们也不知道这里头到底写的什么。大模型就是你可以把一大堆的非结构化数据扔给他，然后让他去总结分析。他是有这个能力的。

而且呢，这个其实他调用，甭管是网页也好，还是各种的API，从其他的服务那里获取数据也好，实际上都是结构化数据。但是呢，他就把所有这些结构化数据打包在一起，作为非结构化数据直接扔给大模型，说来我这有一大堆数据，我也不去解释里头到底是什么，我也不去研究这个数据结构了，你去给我去总结归纳一下。他是通过这样的一个方式来干活的。

相当于是什么呢？上面的一大堆小工具，进行这种松耦合的组装。为什么要强调松耦合呢？我们正常写程序，我们会去标记，你这个数据应该是怎么排列的，第几个字节到第几个字节写什么，写错了马上报错。有了这个大模型以后，我就都塞进去，反正这个大模型也不挑你这个里头，哪个多写几行，哪个少写几行，多两个属性、少两个属性，他都无所谓。所以他就可以通过这样的方式，把这些小工具凑载起来。

得到了一些结果之后呢，再输出一个漂亮的报告，包括刚才咱们讲图表，表格呀。其实你用DeepSeek R1，用这个Claude 3.7什么的，都是可以生成这样的报告的。像我们以前写程序的时候，有很大的一块时间是干嘛？就是打报表，各种各样的报表。为什么？要对格子，要去取数据，要去做统计分析。这个事是很麻烦的。

他们这块做的还是不错的。Manus真正强的地方在哪？它实际上就是规划。他可以自己去做计划，说：“哎，我要先干什么后干什么，先调哪个工具后调哪个工具，中间出了问题怎么办？如果没有问题的话，我怎么把这些内容再拼起来？”这个是他真正厉害的地方。

当然，我看今天已经有人说是Manus是不是个骗局了。怎么说呢？就是这个东西没有大家想象的，或者说他放出来掩饰的那么美好，但是你也不至于说他是骗局。就是我们也要看看里边到底有什么创新的地方，他怎么能够实现这种规划。

将常用的流程和子流程写出文档来，直接嵌入到本地知识库里边去，再把工具链上面各种各样的信息也把它embedding到这个本地知识库里去，再将各种服务性网站的信息也把它embedding到这个本地知识库里去。然后在规划的时候，直接根据本地知识库做REG输出就完了。我们告诉他：“我要做一个什么事。”他就跑到这个本地知识库里边去查去了，查完了以后说：“你干这个事，好像这三个工具有用，这几个流程可能是有效果的，这些模型可以干活，那些这个网站里头有你要的数据。”它可以通过进行本地知识库辅助的这种生成，直接给你输出一个刚才我们讲叫todo.MD的这个文件出来，就可以照着干活去了。

产品设计本身还是相当不错的，界面也很清爽，用户交互也非常的顺畅，这个还是很好的。这个Manus的结果靠不靠谱？先跟大家讲一个小故事。据说有人拿这个DeepSeek推荐彩票，买完了彩票还中奖了。还有一帮人说：“哎，我用DeepSeek去做量化吧，我去用DeepSeek炒股吧。”官方量化里边不是炒股的吗？这玩意靠谱吗？肯定不靠谱。所以AI这个东西一定是有幻觉的，千万不要觉得AI是有可能把这个幻觉干掉，这个很难很难的。在数据源不能保证正确的情况下，AI更没有能力说：“我一定会输出正确的内容来。”我哪怕是搜索了一大堆东西，你搜索的东西还有可能是错的呢。AI自己根本就没有判断能力说：“唉。”

我搜索回来的这个网页，哪个是对的，哪个是错的？他唯一能判断的是什么？唉，这个是一个官方主流媒体，那是个个人博客。需要去采信的时候，我要更多地采信官方主流媒体。但是我们其实并不希望AI有判断能力。大家自己想一想，如果AI有是非判断能力了，那是一件多么可怕的事情？还是让他糊涂着就算了。

然后，多个数据源进行总结归纳的时候呢，其实也很容易产生幻觉。就是当我搜到了5个相关网页，对5个相关网页的结果进行总结归纳的时候，幻觉是很厉害。特别是像DeepSeek这种东西，就是幻觉一塌糊涂。Work 3什么换节，也非常非常厉害。Manus底层的模型都不是自己的，全都是别人的。在很多的这种幻觉模型上，自我规划以后，其实它输出的内容一定是不靠谱的。虽然可以进行一点点验证，但是呢，现在距离提高正确率还差得比较远。

那么现在的结果都很惊艳。很多人说筛选简历很棒，筛选的什么房地产信息，也都非常棒。你怎么就在这胡说八道呢？怎么可以说人不行呢？其实原因很简单，他筛选简历的结果，筛选简历的过程，筛选房地产的这个呃过程，筛选履行建议的这个过程，他是给外行看的。你真给内行，他是看不了这东西，看了会乐的。这过程呢就像老中医，念着口诀给人看病似的，金木水火土念半天，你一定很专业。这个大模型也是一样的，一本正经的胡说八道。你不一本正经，他就骗不到人了。所以呢他产生的所有的这些结果，是相当容易让外行感到幸福的。所以千万不要觉得这东西就很厉害。

目前为止Manus给出来的东西，基本上是叫桃园三结义孤独一支。这个什么意思？就是怎么说都行。你说这桃园三结义孤独一支，到底是哥几个？哥一个，这孤独一支吗？哥两个，孤独出去一支，还剩俩。三个，哥仨嘛，团圆三结义嘛，大家站在一个枝头上了。这都可以讲。所以目前Manus给出的演示结果，基本上都是短期内无法进行验证的。你没法确认它到底对不对，但是当你觉得Manus……

给出的结果特别厉害，不明觉厉的时候，一定要小心，距离掉在坑里已经不远了。为什么呢？因为人跟人之间的交流和沟通，是通过不断的确认眼神，确认你的工作能力和工作结果，来建立信任。信任了以后就会比较少的进行检查，这个人就可以合作起来。但是大模型这种东西的话，你让他工作100年，该出多少错他还是出多少错。所以这个地方，还是要稍微小心一点。

下一个问题，Manus这样的产品到底有没有门槛？这个东西如果是国运级的创新的话，它一定是有门槛的。你像DeepSeek，虽然大家都觉得说我们能做的出来，而且各种开源各种开放，perplexity也号称自己训练了一个，或者调了一个类似于R1这样的模型，回来去使用了。但是呢，就并不是很多人都有这个能力，去自己训练DeepSeek这样的模型出来。这个还是有很大门槛的，即使是DeepSeek开源了一大堆的，怎么去优化GPU的这些代码库出来，这些东西想用起来也并没有那么容易。

那么像Manus这样的东西，有没有这个门槛呢？现在很多人就说，现在这个时代是模型及产品的时代，最后都会被大模型厂家干掉的。会不会这样呢？像OpenAI，每次开发布会，一帮的中小企业在这敲丧钟说完了，我这条路被OpenAI给瘫过去了。大家都是在这么看这个问题。Manus现在干的这个活，其实就是GPT5要干的活。可能再过个那么一两个月，我们就可以看到GPT5，因为GPT5也说了，我也是自自动规划，规划完了以后，我自动的去调用各种各样的模型，一次给你实现，而不是现在是这样，ChatGPT上来，我要选模型才能用它。这个方向已经在OpenAI的路径上了。但是呢，从OpenAI的deep search的结果来看，OpenAI的产品落地能力，其实并没有特别好。现在我们去看perplexity，DeepSeek的，豆包的，Grok 3的，这种深度搜索下来以后，你会发现OpenAI的。

Deep search其实是最烂的一个，真的不怎么好使。OpenAI算是技术很强，跟谷歌一样。谷歌的产品能力其实也很烂。他们这种公司呢，底层技术遥遥领先，产品烂一点大家也将就用了。中国人呢，是相对来说，比较擅长于内卷产品这一块的，产品体验、产品迭代，这个是咱们比较擅长的。这个底层技术咱们差一点，OpenAI也好，谷歌也好，都是底层技术好。在这块事上我们也很矛盾，为什么呢？广告时代最后实际上，所有的这些广告商都被收割了，被谁收割了？被这个自有流量的大广告平台给收割了。谷歌、苹果、Facebook、Twitter，现在其实都算是苟延残喘的一个广告商。剩下的，你说谁成为广告商，都是自己要有流量的。你如果自己没有流量的话，你是做不了大广告商的。现在的话，模型时代，是不是你如果没有底层模型的话，你就做不出上面这个东西来？这块呢，大家有一些矛盾。当然也有一些产品，就完全靠产品做起来。有一类产品呢，叫PLG产品，就是叫产品引导增长的。这种东西有两个比较典型，一个是Notion，另外一个叫Slack。这两个产品就是典型的PLG产品，它没有特别底层的技术，我就是产品做得好，体验做得好，让大家使着方便，让大家使着舒服，然后大家就愿意去用。这块呢，看看是不是能够走通这条路吧。在大模型时代，这个逻辑是不是还能走得下去？不知道了。因为如果Manus知继续能够做下去的话，他必须要像Notion或者像Slack这样说，我的产品做的特别好，我就愿意为你服务，让你使着舒服，大家就一直一起用下去。你说在大模型时代里头，自己模型做的不怎么样，产品做的特别好的有没有呢？也有，一个是Cursor，就是自动写代码的IDE，还有一个呢叫Perplexity，就是刚才我们抢这个AI搜索工具。目前呢，还算是有一定门槛的，虽然大家都在做AI IDE，都在做AI插件，都在做AI搜索，但这两个产品目前为止活的还都不错。

至少暂时还都挺受欢迎的吧。未来的事情不好说了。大模型时代，模型厂商的服务边界其实没有那么清晰。它跟原来的互联网、移动互联网时代是不一样的。像移动互联网时代，谷歌跟苹果好多事它是不做的。但是你现在到大模型时代，你看有什么事是OpenAI不做的吗？

那么有没有离了模型就玩不转的案例呢？也有。有一个产品叫Character AI，这个大模型团队被谷歌收编了以后，现在产品直接趴下了。现在他的产品被一个中国公司的产品摁在地上摩擦。那个产品好像叫Toki，是这个Mini Max做的，也算是这个中国AI六小龙中的一个吧。

那么Manus的产品到底怎么样呢？这个需求肯定是存在的。大家还是希望能够快速地获得高质量的信息，不是内容，而是信息，就是经过整理分析以后得出来的结果。这是大家有需要的。在产品设计上呢，至少在演示视频上看，交互还是相当不错的。成本现在肯定是不划算的。这个未来到底怎么去收费，现在还不好说。

因为呢，OTO GPT当年出来了以后，为什么马上就挂掉了？因为这东西算一次，那个时间实在是不划算。你让他开足马力去干活，可能干一次俩小时，你回来一看账单，好几百美金不见了。这是当时的一个状态。现在的肯定是要便宜一些了。Manus，据说每次回答问题，就是每一个任务做完的平均消耗是两美金。不再会出现几百美金的事情了。但是呢，他也没法保证，因为呢，他是自动规划的。你有的时候可能花个几十美分就把东西算出来了，有时候花个两美金把东西算出来，但也有的时候可能俩小时就过去了，你再回来的时候一看，100多美金不见了。而且你没法控制他，因为是自我规划，所以到底每次跑多少TOKEN他也不知道。

在这呢给大家讲一故事吧。这个是原来我看的施瓦斯科普夫的传记。这哥们干嘛的呢？这哥们是美国的一个五星唱将。在打这个海湾战争的时候，他是中央司令部的司令。他呢在越战的时候是个程序员。他虽然是军校毕业了。

到了越南以后，他是个程序员，在那儿写程序。后来，从五角大楼派了一帮专家来说：“我们来分析一下月供游击队出现的规律。”他们搜集了大量的资料，在那算了很长时间，进行了数据建模。他也有幸参与了这个项目。最后得出的结论是什么呢？月黑风高的时候更容易被袭击。所以呢，你用Manus这样的自动规划工具去干活的时候，它有可能也是这样的。算了可能很长时间，最后算完了以后告诉你一个：“月黑风高的时候容易被袭击。”

原来还有一个电影是什么？计算机算到人类都灭亡了以后，最后得出宇宙终极答案是42。这个故事大家应该也听过。所以他的这个成本是比较难控制的。后面的大厂跟进一定是必然的。GPT5还有几个月就出来了。GROK3其实现在就已经是自动规划了。大家去GROK3里边，去点击这个deep research。你去给它一个任务的时候，它也是有一个规划清单，在这个上面在滚动的。他会把这个规划清单都整个执行完。所以现在好多人觉得GROK3出来的结果非常好。如果你实在是说我也等不到Manus了，也不得不舍得花这几万块钱，去买这个测试码了。大家就上GROK3上去用掉了。豆包，腾讯的元宝以及WPS应该都会虎视眈眈的，都会把这东西做起来。而且呢，在这块的还有些别的大厂，微软、谷歌、苹果都有可能来玩一下，因为他们自己是有操作系统的。这个事情一定是他们干是最方便的。

这就是这个项目。到底有没有这个门槛的问题？其实没什么门槛。当然你说我产品做的特别漂亮也行。你像Notion那种产品就是做的特别漂亮。现在免费开源的，类似于Manus这样的东西已经出来了。它这个产品发布了大概三个小时，还是几个小时，就有一个叫open Manus的这种开源项目，就直接扔出来了。你们要用自己上去挂去。当然不是程序员的话，挂起来会稍微麻烦一点点。那你说这种产品为什么突然就疯狂了呢？原因也很简单，二级市场实在是太缺话题了，稍微有点话题。

大家赶快要冲上去炒一把，然后再来算谁是Manus概念股。赶快要去买。至于你买的时候是不是有其他人在外面跑路，或者有其他人去赚钱割韭菜，这就不管了。但是有题材总是要炒的，而且这个团队呢，其实相当擅长于运作。

首先呢，他的视频拍得很好。在大模型时代，在AI时代，如果你这个团队不会讲故事，不会拍视频的话，你是混不下去的。他们很擅长干这个事情，做得非常漂亮。

第二个，这个团队原来是做微信私域运营工具的，就是专门给这个微信公众号，或者说这个企业微信的这些人做运营工具的。所以他们很擅长做这种叫做社交媒体裂变，社交媒体爆发这个事情，这是他们的老本行。

有了DeepSeek的铺垫以后呢，现在中国人的这个热情还没下去呢，突然有消息传出来了，肯定还要再跟着热闹热闹，这个是必然的。但是呢，这种突然爆发的传播呢，对于Manus本身来说未必是一个好事。

刚才我们讲这个PLG产品，就是这个产品引导增长的之类的。这些产品的话它有一个特点，就是你一开始一定要低调，你要这个猥琐发展一段时间。你如果一上来就在显微镜下的话，这个事是没法整的。突然爆火了以后，唯一的结果就是被大厂盯上。而且呢，你一旦进入这个显微镜下，你所有的缺点都会被放大。

2015年的时候曾经有过一个产品叫足迹，应该也是2015年春节的时候出的。他呢能够出这个电影感大片那样的照片，随便拍张照片进去，他就给你做一个像电影大片似的那种，等于裁的这种带这个边的吧，还给你写上一句字幕，大概是这样的一个感觉。上线服务器就崩了，很快就销声匿迹了。

所以像Manus可能会走上这条路。AI圈这种突然爆火，又突然死掉的产品其实还是蛮多的。大模型是别人的，算力成本无法承担，用户突然涌入，预算在燃烧，体验在下降，然后就没有然后了。这个是Manus这样的产品很有可能会遇到的问题。像他们呢其实手里没有多少钱，因为他们以前的公司是被腾讯投资过，但是Manus这一块的话。

你说：“我想趁此再去融一大笔钱，也不是那么容易。算一次两美金，一个任务两美金。当真的有一大堆用户涌进来，开始其他开始跑的时候，就想起这个哪吒一开始那句话了：‘天雷滚滚，我好怕怕，劈得我浑身掉渣渣的感觉。’你一个人进来，两北京不见了；一个人进来，两北京不见了。还不是一个人，是一个问题，进来两美金就不见了。你有多少钱够他烧的？”

当然了，现在这些事呢，对于Manus来说，也算是一个幸福的烦恼。还有一大堆人说：“我做出产品来没人知道。”他至少被人知道了。所以，能不能趁机融一笔钱，或者干脆找人卖掉算了？因为像他创始人上一个公司，就直接找了个公司给卖掉了。现在这个产品如果能把它卖出去，也算是不错的一个结果了。

新的阶段是不是已经准备好了？其实Manus代表了一个新的阶段到来了。AI进程呢，实际上有五个阶段，这个是山姆·奥特曼提出来的。第一个阶段是对话，能够进行自然语言交互的聊天机器人，用于简单对话和信息交流，就是我们现在使用的GPT-4、4O什么的，就是对话。然后第二步呢，是叫做推理，具备在特定领域进行问题求解和逻辑判断的能力，可以进行复杂推理和逻辑分析，就是我们现在用的DeepSeek R1、GPT的O1、O3这样的模型，就属于叫推理模型。现在其实我们在努力的走这一块儿。

推理之后呢，就是规划，是agent，可代表用户执行任务，具备自主运行的这个能力，能够在动态的环境中实施决策，这个是现在第三步。实际上Manus就已经走到了这个第三步上。再往后一步，创新，能够参与发明创造，增强人类的创造力，可在科学研究、技术开发等领域推动突破。其实现在什么医学方面，已经开始突破了。然后最后第五步是什么？叫协作，深度融合组织功能，参与社会管理与复杂决策协作，能够管理复杂的组织任务。这个是山姆·奥特曼给AI整个发展的，类似于L1、L2一直到L5的一个状态。

那么当前的状态是什么呢？GPT-4.5已经展示了，对话这件事情基本到顶了。

你再怎么加这个算力，再怎么去扩大模型，也就这么回事了。而我今天发现我的ChatGPT已经可以用4.5了，虽然是迟了两周，我们还是用上了GPT4.5，还没有空跟他去提问题呢。

推理模型现在还在快速发展的早期阶段，推理模型这个阶段并没有过完，现在都在拼命地冲这一块。有机会大家可以去试一试通义千问的QWQ 32B那个模型，还是不错的。因为这种模型32B嘛，你是可以在电脑上本地跑的，我就在自己电脑上装了一个，效果还可以，确实慢一点。

再往后这个规划呢，其实一直都在尝试，逐步有可用的版本出来。OpenAI一月份出的operator就是这样的一个产品，GROK3的Deepsearch也是这样的一个规划类产品。Manus呢算是把这个规划又往前推了一步，它已经离开了原来的这种环境，不需要在OpenAI的这个环境下用，不需要在grok 3的环境下用，完全用别人的模型，批了这样的一个单纯的产品出来。

当然了，现在这个产品到底有多成熟多不成熟，我觉得下结论还太早，因为我自己并没有真正的去用嘛，邀请码还没收到。缩小范围，专业一些的自我规划AI agent应该还是有机会的，因为现在的Manus号称是我可以泛应用，所有的行业所有的领域我都可以干，你让我干啥都行。最终能够做到的结果，大家就不要有特别大的预期了。

Manus出来以后，行业的方向必然会发生一些偏转，就甭管这个产品做的怎么样吧，告诉大家了一些可能性。现在哪怕是两美元算一次，这个可能性存在了，手工规划工作流的这些产品就要开始转型了。比如说像Dify，像Coze这种自己画流程图的这种，可能就要稍微的调一调方向了。未来呢应该都是会有自动规划工作流，这块会获得更大的这种关注。

那Manus有未来吗？首先跟大家下一个结论，没有，哈哈。为什么呢？不是因为产品做的不好，也不是因为它底层是没有自己的模型的，这个都不是。大家知道互联网时代。

第一个倒下的独角兽是谁吗？叫Evernote，就是现在的印象笔记。第一个从独角兽的10亿美金估值里退出来的公司就是他。那为什么是他呢？好多人说挺好使的，我还花钱买呢，像我也是花钱买的，而且这么多年一直在付费。为什么这样的产品就不行？原因很简单，咱们说一个像绕口令的话：“有用是最没用的事情。”为什么像绕口令一样说这个呢？因为大家被Manus惊艳到的时候，是因为觉得这东西有用，他给我的筛选力的这个过程很棒。你到底有多少HR需要筛选力？有多少HR现在不是在忙着裁员，忙着自己不被裁，而是说我要去招人？有多少人需要这东西？有多少人需要去看那些专业的报告？其实没有的，用户必然是很少的。像它这个Monica.IM，现在号称一共有700万用户，其实是累计安装量，它的活跃用户基本上可以忽略不计的。而且它这个700万用户，还是收购了一个叫GPT for Google的，一个300万用户凑起来的，他自己就有400万。收购了这么多东西，现在号称700万这个数，其实基本上你就认为他没有就可以了。而这几天有可能会爆发一波，但是未来应该很快就消减掉了。而且真正的专业人士是不会看他的报告的，我告诉你，真正专业人士看他的报告更累，你还得再一个一个再去校对，再去核验，再去看里头有没有说错的地方，这个事是一个很痛苦的过程。AI工具主要现在还是能够骗外行，就像我前面AI时代，文科生很重要这个视频讲的一样。像我这些程序员，一看AI写的代码，就在那乐，你们这个连拼屎山都拼不出来。但是我看AI写的小说，AI画的画我很开心。一些设计师一看AI画的画，这叫啥玩意？那些真正产品经理这些文科生，你看AI写的那些文字也是没法看。他是这样的一个状态，这个东西最擅长就是骗外行，就跟那个很多相声演员讲的似的：“我是这个说相声里边最会唱歌的，以及唱歌里边最会说相声那个人。”这就是AI现在最擅长干的事情，而且专业看报告的人。

现在还在不断的被裁员呢，你给他们提效干嘛？海外应用还要等OpenAI、谷歌和微软再去发力，它在国外的用户是起不来的。就算Manus让我看走眼了，真的是用户量做起来了，那各国政府能乐意吗？你这数据是不是去中国了？怎么还有这样的问题呢？一个武汉公司，做了这么样的一个产品，到全世界去收集别人的调研报告、各种数据，这不开玩笑的吗？而且两美元一次的这个成本，如何平衡这个事，对于他们来说也是很难回答的。

在AIGC时代，可能真正有价值的东西还是娱乐，不是真正的有用的东西。虽然一大堆人都在研究怎么让AIGC有用，但是我觉得依然是娱乐有效。为什么呢？因为它出来的东西不严谨。你给个小说，你这东西写对了写错了，他没事，不会因为说这小说写错了几个字就造成多大的损失，而且有新鲜感，我还看着很开心，这不就可以了吗？

但是你想，他这边出一大堆报告，告诉你应该上哪去买房，告诉你应该招谁不招谁，等最后你把人招回来，发现不好使，你把房买了以后，发现这个房子有问题，你找他吧，他也不负这个责任。所以现在千万千万不要去做有用的东西，这是今天咱们去讲的Manus的这个故事。

ChatGPT O3 mini发布深层解析：山姆奥特曼首次坦言“历史错误”与开源迷局

Luke Fan — Tue, 04 Feb 2025 00:45:35 +0000

ChatGPT O3mini正式发布的时候，山姆奥特曼到底算不算是认错了呢？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲O3mini的发布，以及奥特曼到底在说些什么。

过年的时候，基本上是被DeepSeek刷屏了。全世界各地跟AI相关的，或者不相关的人，都在尝试去理解和阐述DeepSeek到底干了点什么，到底对于他们有什么样的影响。风口浪尖上的这些闭源大模型公司，特别是OpenAI，肯定也是坐不住的，把它的王炸级产品ChatGPT O3 mini给炸出来了。发布了以后，马上还去做了一个访谈，回答了很多相关的问题。在其中，承认了说在开源领域里头好像站错队了。

那么先说一下O3 mini到底是一个什么样的情况。O3 mini的速度还是非常快的，跟O1 mini的速度相近。它的性能应该是接近原来的O1性能。大家看到很多很多的评测，这个分高点，那个分低一点，也有很多人在那扑克脸，念这些评测的结果。但其实这些评测到底哪一个是什么意思，差异在什么地方，绝大部分人很难理解。我也不在这费劲跟大家讲到底是什么情况了。我只能说O3 mini也好，O1也好，包括DeepSeek R1也好，这些模型它们的能力差异其实已经脱离了普通人的认知范围，总之都很强就可以了。

现在推理模型的发展应该已经向着未来简史的作者尤瓦尔·赫拉利所设想的方向前进了。他设想的是什么呢？就是未来的社会有少数精英控制，绝大多数人会沦落成无用阶级。无用阶级就是他们既不创造价值，也没有任何的用处，可能未来的社会会变成这样。现在，OpenAI就在往这块走，DeepSeek R1也在向这个方向走。所以未来可能是少数精英使用这些博士级的AI模型去与解决各种人类的世界性难题，剩下的人，我们就是无用阶级，大家开心就好。

价格方面，O3 mini比DeepSeek R1中国部署的版本……

还是要贵的，就是比DeepSeek自己的这个API还是要贵。比DeepSeek在中国，比如说腾讯云或者是硅基流动上部署的也都贵。但是呢，它比在美国部署的DeepSeek 21要便宜。这个特别有意思，就是在together上，在美国的亚马逊、微软云，在这些云计算平台上，都已经部署了DeepSeek R1了。ChatGPT O3 mini比它便宜，也就可以了。

所以呢，在价格上也算是有了一定的进步吧。然后O3 mini呢是第一次向免费用户开放，原来O1、O1 mini都是免费用户不能用的，现在O3 mini免费用户也可以用了。Plus用户，就是一个月20美金的用户，每天呢可以使用150次。其实呢，O1和O1 mini这个用量，我从来没有达到过。那个我每天是可以使用50次的，每天150次的这样O3 mini的用量，我估计我也用不到。

像我面前站个博士，你说我看着他每天跟他说啥呢？我站在他面前就光剩自惭形秽了。这个也算是继续向公众开放的一种努力吧，与搜索相结合，这个是O3 mini做的比较大的进步。但是呢，他进一步退一步，退了是哪一步呢？他不支持上传文件，不支持图片的理解了。像O1的话是支持图片解析的，但是呢，不支持搜索。O1还支持canvas，就是它们的这种叫做画板。O3 mini支持搜索，但是不支持画板，不支持图片理解，它是这样的一个取舍吧。

但是这个呢不像是黄教主这种叫刀法精准，这个可能真的是想把这些功能都打开，还是有挺大难度的一个事情。当然，现在我们在ChatGPT里头已经看不到O1 mini的模型了，现在进去就是O1和O3 mini，以及O3 mini的一个高级版本。就是说你每次让O3 mini干活的时候，可以选择是使用普通思考版本还是深度思考版本。深度思考版本会更慢一些，然后输出的内容的话会更好一些。

O3 mini发布了以后，山姆奥特曼以及他们的一些高管……

就跑到Reddit上面去做了一个AMA的环节。所谓AMA呢，就是”Ask Me Anything”，就是问我任何事情，我就现场给你回答。和马斯克不和，所以呢，山姆·奥特曼是不会跑到Twitter上去做类似的活动的，也不会去谷歌或者是Meta上面去做类似的活动。但是，TikTok对于山姆·奥特曼这种政客来说，就太刺激了，也不会去。

当然，在这些平台上的OpenAI都是有账号的，只是呢，这种问答是放在Reddit上了。这个就显示出来OpenAI跟Reddit之间还是要更亲密一些，这个东西叫亲疏有别。OpenAI跟Reddit是有很多的合作关系的，比如说OpenAI向Reddit采购了内容进行训练，OpenAI是Reddit的广告合作伙伴，OpenAI为Reddit提供了AI驱动功能，这个是最重要的。

还有一个不那么重要的就是，山姆·奥特曼本人是Reddit的重要股东之一，这是他自己家的企业，因为Reddit是YC的孵化企业，它在孵化的时候，山姆·奥特曼应该是YC的CEO吧，大概是这样。

那么在整个的这个环节上面，AMA环节上面，山姆·奥特曼呢也承认了DeepSeek是一个让人印象深刻的创新产品了。然后O3的完整版本的模型，未来的几周或者几个月还是会公布的，因为现在公布的是O3的mini版本。新的图像模型正在研发之中，可能未来几个月还是会公布，因为去年的连续12天发布会的时候，大家本来猜测应该会有Dalle3的进一步的版本，可能会有Dalle4，但是呢没有出来，这个还在研发之中。

而且呢，也即将更新高级语音模块，这个是现在我最喜欢的功能，就是ChatGPT的高级语音。至于GPT-5呢，遥遥无期，这个还早呢。在整个的这个回答过程中，我们已经看到DeepSeek的事情呢，对于美国或者对于全球来说，应该已经算是尘埃落定了。怎么样尘埃落定了呢？第一个，这个事有没有创新？有，他们也承认。

这是一个令人印象深刻的产品，但是呢，也没什么大不了的。山姆奥特曼也说了，我们会拿出更好的模型出来的。你这个成本降低也就是这样，我们现在成本也降得很低。你在美国部署的这个产品，我比你的价格还要低一些，这个也就如此。

各大云厂商呢也都部署，英伟达、微软、亚马逊，together，很多的这些云计算厂商都部署了Deepseek。在这样的情况下，再进一步进行维权，去起诉或者什么限制，这个已经没有什么意义了。大家都已经跑起来了，而且英伟达还去玩了一个什么梗呢，就是说英伟达上部署的DeepSeek是速度最快的。在单台的HGX H200系统上，DeepSeek R1模型每秒能够处理3,872个TOKEN，这是一个多么恐怖的数字。原来我们都觉得这种推理模型很慢，你想它一秒钟可能几千字就哗就出来了，这个已经足够快了。

HGX H200系统是一个什么样的系统呢？8个H200的GPU，每个上面有141G的现存，就完全属于怪兽级的机器。那么OpenAI呢，应该也就算是承认了现实，就是Deepseak加入到了竞争过程中来，也就这样了。我们也不惦记再把你踢出去了。至于说你到底有没有抄袭，有没有违规使用，这个事我给你记着，但是呢，大家都用起来了，也就用吧。

未来呢，全世界应该都会去使用DeepSeek，因为现在英国也好，印度也好，包括日韩，都准备自己去部署DeepSeek，自己去玩耍去了。未来的话应该是各用各的，就是各国用户自己部署，自己定价，自己使用就完事了。至于中国的DeepSeek到底有多便宜呢，跟他们也没关系，他们也不会把他们的数据送到中国的DeepSeek服务器上来去用。

所以呢，DeepSeek对于整个的AI圈来说，到这里算是画上了一个暂时的句号吧。大家接着往前跑就可以了。那么到底有没有承认错误呢？这是我们今天要讨论的。首先呢，他讲到说，我们要把整个O3 mini的思维过程都完整输出出来。

原来在O1的时候，他并没有输出完整的思维过程。因为这种推理模型有一个思维过程：我先怎么讲，后来怎么讲，然后说什么东西。为什么原来没输出呢？因为怕被拿去蒸馏。如果把整个思维过程都拿出来了，人家拿回去，就直接训练自己的新模型去了。他们认为，DeepSeek还是很恰巧地获得了其中部分的工作原理，这些工作原理跟ChatGPT O1是一致的。至于到底是怎么获得的，比如说你是蒸馏了，还是怎么去猜测其中的这个结果或过程，反正你是已经达到了跟我一样的工作方法了。而且他原来并没有完全把他的推理过程都拿出来。

DeepSeek R1呢，是完全公开思维过程的。你问他什么问题，他要想很长。像我们经常问DeepSeek R1一些问题的时候，他光想的部分可能想5000字，输出的部分只有一个，比如说几百字的结果。现在他们决定了GPT O3 mini也去进行完整的思维过程输出。你们愿意去蒸馏，你们去吧，反正这个事已经没什么可藏着掖着了，后边已经冲上来了。

我试了一下O3 mini，它有的时候输出的这个思维过程是英文的。但是我今天还碰到了一次，输出了阿拉伯语的思维过程。我用中文问了个问题，然后这个中间的思维过程，哗，阿拉伯语就出来了，看的我是满天都是星星。这个思维结束了以后，最后给出的结果是中文的，因为我是用中文问的。怎么说呢，这种对于人很不友好。但是对于大模型来说，输出阿拉伯语的思维过程、输出日语的思维过程、输出英语的思维过程，这个其实是没有什么区别的，因为他们都可以拿回去蒸馏，只是降低了人的使用体验。

DeepSeek R1的思维过程呢，有的时候是中文的，有的时候是英文的。我还没有遇到过阿拉伯语这样奇怪的情况。反正思维过程大家都是进行完整输出了。山姆奥特曼也讲了，既然DeepSeek已经这么干了，那我们就干吧。

你要蒸馏？不行，你蒸馏他的去，或者你蒸馏我的都行，没什么大区别。我们也准备把所有思维过程都发出去。至于开源这一块呢，山姆奥特曼的原文大概是这样的：就是我个人认为，我们在这里站在了历史错误的一边，需要找出不同的开源策略。但并非OpenAI的每个人都同意这种观点，这也不是我们目前的首要任务。

这个是别人在问他，说你是不是要去开源的时候，他在上面给出的回复。很多人呢，看到了这一点，认为我个人认为我们站在了历史错误的一边，而认为这句话就代表着关于开源策略这件事情上，山姆奥特曼已经认错了。但是你说我是不是就可以认为未来他们马上就可以开源了？当然，大模型开源并不是把所有原代码都拿出来，而是什么呢？是开放一些权重出来，比如说像DeepSeek，像Llama，都是开放权重，就是我们拿回来以后可以再去进行部署使用，是这样的一个东西。在这件事情上呢，他说未来有可能会开放一些权重出来，但是现在这个并不是最重要的事情。而且在这里他也讲了，说有人不同意，就是并非OpenAI的每个人都同意这种观点，肯定还是有人希望继续闭源下去。

但是你说这个闭源的人到底是不是山伯奥特曼，这个不好说，因为至少他出来还是要站在一个比较高的道德制高点上说，我认为这事还是该开源的。我认为我们站在了历史错误的一边，但是有别人不同意。到底谁不同意，咱们接着往下讲。

OpenAI目前最重要的事情到底是什么？人家也讲了，说这不是我们目前的首要任务。OpenAI目前最重要的事情是融资。去年应该是第三季度吧，刚融了一轮，当时已经拿到1,000多亿美金了，现在又跑出来融资了，这个钱又造干净了。这一次的话，准备以3,000亿美金的估值再去融400亿美金左右的这个钱。而且在这一次的话，要摆脱微软的桎梏，原来都是微软出钱出的最多，微软已经出了130亿美金了，这一次的话是软银领投，孙正义领投150-200亿美金软银出。

剩下的其他人出，而软银呢将取代微软成为最大的投资方。这个是现在OpenAI最重要的事情：摆脱微软桎梏。因为谁不让他开源呢？里头有一个很重要的因素就是微软。微软呢是有OpenAI很多的独家合作权的，比如说它的Azure云上，有Azure平台的独家转售权。它可以通过微软云去销售OpenAI的API。

就是你现在想用OpenAI的API去进行开发的时候，官方有两个渠道，一个是在OpenAI的官网上，你可以直接买；还有一个就是在微软云上可以买，其他的都不行。你比如说我现在想在谷歌云上、亚马逊云上、Oracle云上去买的东西，不允许，没这事。这是第一个独家权利。

第二个呢，叫产品中的知识产权、使用权，比如说Bing，现在应该叫Copilot了，或者是GitHub Copilot，这些产品里头直接使用ChatGPT的大模型，微软是有权直接用的。第三个是什么呢？叫OpenAI API的独家托管权，这个东西只能托管在我这，不能托管到其他地方去，这是微软的独家权利。

那么开放权重的这些模型发放出去这件事，肯定是跟刚才我们讲的微软这些权力是相抵触的。微软也不能站出来说：“那我就放开吧。”作为微软这种大公司里头，任何一个下边具体办事的人都不敢去写这种协议。像我以前在公司里边做投资的时候，我们也绝不敢写这样的协议出去，什么都没有。我就直接写个协议，把原来已经拥有的独家权利直接放弃掉，这不行的。

但是在什么时候可以放弃这些权利呢？就是有新的投资人进来了。新的投资人进来以后，说他占股了，我们放弃一些权利，因为跟这个新的交易相互冲突了。在这个时候呢，可以进行一定的利益交换。所以呢，他可以趁着这一轮软银孙正义的投资，把微软这种独家权利争取回来，然后呢，再开放一些权重的模型出去。这是有可能的。

但是微软呢，这一次大概率不会去退出。就是孙正义给钱了以后，微软拿着钱跑了，应该不至于。微软呢，应该还会追加跟投。

应该在几十亿美金到100亿美金之间。他还会去投进去，按道理说呢，应该不会特别多。这但这个数字相对来说就比较敏感了。因为像投资里头呢，一般会有一种权利，就是新的投资进来以后，我们会再去给一些钱，保持原来的股份比例不降低。

但是呢，现在OpenAI内部的这些股份比例，肯定要重新调整。调什么呢？就是从非盈利机构，整个这个框架摆脱出来，要变成一家可以上市的盈利机构。这个过程的话，大家的股份肯定要重新去进行一些调整和分配。这就是现在OpenAI最重要的事儿，也就是星际之门已经正式开启了。这几百亿美金，也许在一季度就可以看到落地了。那这个是真金白银要给钱的，OpenAI要把这个钱收到手里面。

至于说这个钱，到底有多少是微软的代金券，这个一定是有很多是微软云的代金券，有多少是现金，到了OpenAI手里面，可能未来一段时间我们还可以继续吃这个瓜吃下去。

好，这就是今天我们讲的ChatGPT O3 mini发布，以及山姆奥特曼出来认错的故事。好，这期就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。