微调 (Fine-tuning) – 老范讲故事｜AI、大模型与商业世界的故事

阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？

Luke Fan — Sun, 04 May 2025 00:47:42 +0000

Qwen3发布了。这到底是划时代的胜利，还是翻车了呢？

大家好，欢迎收听老范讲故事的YouTube频道。Qwen3真的是千呼万唤始出来。前面好几周就已经不断有传言说Qwen3要发布，要多么多么强大。突然发布之后，当然也肯定是伴随着一大堆的评测数据了。官方评测数据呢，永远是我超越了谁、超越了谁。但是很多评测的人呢，觉得好像差那么一点点意思，没有达到预期。所以今天我们来讨论一下，这到底是又一次划时代的胜利，还是翻车。

Qwen3呢是凌晨发布的，4月29日凌晨上线，在Github上全面开放。我呢已经开始用上了。使用的方法有几种：

第一种是本地部署。我是MacBook Pro，M2 Max的芯片，32G内存。其他的不重要，你到底有多少硬盘，这个事没有那么重要。本地使用OlAmA部署，我使用了8B、32B和30B-A3B。最后这个是什么意思？最后是一个MOE的模型，它是30B-A3B，就是说它每一次干活的时候激活3B，也就是30亿参数。它是这样的一个标注。就这三个版本的模型，在我本机都可以跑，速度呢都是还可以接受。

云端，第一个你肯定上阿里他们自己家玩去。阿里云百炼平台，使用支付宝或者淘宝账号刷一下，就可以进去使用了。价格还是很便宜的，特别是一些很大的模型，还是要在这个上面才能去跑起来。然后open Router永远是最快的。4月29号凌晨发布的，4月29号白天就可以在这个平台上用上了。硅基流动稍微晚一点，大概到5月1号可以去使用了。

那么Qwen3有什么样的特性呢？第一个是全配置，这个非常非常重要。什么叫全配置？就是它从很小的模型到很大的模型，所有的配置都是完整的。首先它提供了稠密模型，不是MOE，就是单个的这种稠密模型，从0.6B、1.7B、4B、8B、14B、32B，这些都提供了。MOE模型提供了30B-A3B和235B-A22B。235B-A22B这种模型什么意思？就是说一共是2,350亿参数，每一次激活220亿个参数。它是这样的两个MOE模型。

全场景。你在移动端0.6B到4B这样的模型，在移动端没有任何问题都可以跑。说我在终端推理，或者是在PC端跑一跑，做一些商业应用，8B、14B、32B都是可以跑的。你说我有一些复杂任务，或者做一些AI agent开发，30B或者是235B的两个MOE模型非常好用。而且呢是全语种，它支持119种语言。不过这块有人在吐槽。

这119种语言，好像除了中文、英文和常见的几种语言之外，其他什么斯瓦西里语这种奇奇怪怪的语言，支持的并没有那么好。

训练的过程呢，稍微的跟大家展开讲一讲。预训练用了36T的数据。LLAMA4的预训练数据的话是30T，Qwen3的话，比LLAMA4的训练数据集还要再大一些。

它的第一阶段呢，是使用了30T的数据，训练了一个基础语言模型出来。第二阶段用5T的数据呢，去强化STEM，也就是这种科学相关的能力，以及编程相关的能力。到第三阶段呢，就是扩大上下文。一开始这个上下文是比较小的，经过第三阶段的扩大以后：

– 4B以下的模型，也就是刚才我们说的0.6B、1.7B、4B这三个模型，它们的上下文呢达到了32K。
– 大于4B的模型，也就是8B、14B、32B，以及MOE的两个模型30B和235B这几个模型，他们的上下文呢都已经达到了128K。
– 在一些特殊情况下，可以达到256K的上下文。

这块呢，有待继续提升吧，因为LLAMA4的上下文是10兆，要比它大很多。

数据来源，就是拿什么数据来训练的这个东西：
– 60%的数据呢，是互联网原生数据。
– 25%呢，是专业领域的数据，包括GitHub上面的代码、数学公式、科学数据。
– 还有15%呢，是合成增强数据，就是拿其他的大模型去生成的一些数据，用的是Qwen2.5的一些模型生成了一些数据。这块呢，主要是做一些推理链的训练，而且也可以做多语言的对齐。

这就是它的数据来源。这块呢，跟LLAMA4就有很大的区别。LLAMA4大量的使用的都是合成数据，而这个Qwen3的话，使用的大量是原生数据。

在预训练之后，还会进行后训练。后训练的话，实际上是对模型做微调了。他呢，在分四步对Qwen3进行微调：
1. 第一步是长思维链冷启动的训练，注入数学、代码等领域的常推理数据。
2. 第二步呢，是强化学习探索强化学习，就是你给我生成结果，我们来打分，然后你根据我的打分来决定说这个结果对不对。它是基于规则奖励，提升复杂推理能力的一个训练。
3. 第三步呢，是模式融合。这个东西特别好玩，它是一个融合模式的推理模型。什么意思呢？因为我们使用推理模型的时候，有一个特别讨厌的东西，就是有些特别简单的东西呢，给你推理半天，甚至推理的TOKEN还消耗了很多。对于Qwen3来说呢，它里头有一个参数，就是你是不是要打开推理。同一个模型呢，你可以在这设说你不要打开推理，他就快速的给你出一结果。你说你给我做推理。

就给你啰里八嗦的去想去了，这个也算是个创新吧。原来都是推理模型，就是必须要推理。他是做了这样的一个训练，然后第四步呢是进行通用校准，特别是覆盖20多个领域的强化学习，修正一些不良行为。他等于做了预训练之后，还做了大量的微调后训练。

那么，Qwen3的技术创新到底有哪些呢？

第一个就是它这个混合推理架构。就是你到底想不想让它推理，你告诉他就完了。他给你去推去，或者是直接给你一个答案。

第二个技术创新呢，就是它的MOE的参数效率极大提升了。它的235B的模型里头，每一次激活只激活22B的参数。它要比DeepSeek R1激活的参数要少很多，只有DeepSeek R1 1/3的参数。它整个的模型尺寸也只有DeepSeek R1的1/3。所以呢它的部署成本要比DPC卡R1要低很多，推理的效率也要高非常多。

第三个呢就是多语言和多模态的支持。第一次支持了119种语言，2025年内将推出Qwen3-Vl多模态版本。现在的Qwen3还不支持多模态，你给他张图片他还是认不出来的。这块还是比LLAMA4要差一点。LLAMA4是你给他个视频，他都可以给你进行推理。

最后，Agent能力增强。它呢是直接支持MCP，原生支持MCP协议，工具调用准确率提升40%，API代码量减少70%。这个是Qwen3在这一个时代里头，必须要去实现的功能。这也是它比LLAMA4强的地方。

对Qwen3的期待、评分以及使用感受方面，还是有一些落差的。各项评分一定是高的吓人。因为你现在说，我今天推出一个新模型出来，你一定会自己做一大堆评测，然后跟模型一起推出。如果你说我自己做的评测就比谁都差，那这事你还推它干嘛？一定是说我现在评测了，比大家都强了，我才可以推出来。所以评分一定都比大家强。这块呢，就不跟大家详细去列举说那个评分是多少了，没有什么意义。

但是呢，这个里头比较好玩的是什么？就是它是一个田忌赛马的故事。大家知道什么叫田忌赛马吗？用我们的比较差的马，跟人家那个最好的马比，我输掉了。然后呢我用我的最好的马去跟人家的中马比，我赢了。用我的中马去跟他的最差的马去比，我又赢了。等于三局两胜，我赢两盘。他是很多做这样的这种比较。

为什么Qwen3有田忌赛马的这个能力呢？你比如说，8B的模型可以达到人家的32B的效果。我现在是32B的模型，我可以达到原来72B的效果。他等于做了很多这种错位的比较，我用更小的模型。

达到了以前必须用更大规模模型才可以达到的效果。当然，田忌赛马呢，也未必都是好事。为什么？因为很多人会对这种小参数模型抱有不切实际的期望。一堆人拿来说：“我拿这个8B的模型跑一跑试试，看看我去做一些很复杂的任务，到底效果怎么样？”肯定效果不好。千万不要认为你用8B的模型就可以跑出非常非常好的效果来，这个肯定还是有一些差距的。它可能会在某些特定的领域，或者经过一些微调和训练之后，可以达到32B的效果。

绝大部分人对大模型的认知都是停留在什么GPT-4O这个水平的。你要想拿8B的模型去跟这样的模型去比的话，没有任何可比性。那你说我使用这些32B的模型呢？就属于在大部分情况下可以接近GPT-4O这样的一个水平。咱不研究多模态那些东西，就是正常的内容生成，算是接近。至于说它的235B呢，现在距离Gemini 2.5 Pro还是有一些差距的。但是呢，相对于其他的模型来说，基本上算是跑在同一个基准线上了，不比别人差了。

Qwen3 235B-A22B的这个最大模型在数学、代码、Agent等方面都是全面超越了DeepSeek R1。部分场景呢，接近Gemini 2.5 Pro。这什么意思？就是全部的场景肯定离Gemini 2.5 Pro还是有一定的差距的，但是有一部分场景接近了。但在复杂语义理解，就特别复杂的情况下，还是有一些差距的。特别是一些复杂的逻辑分析，它是有问题的。真实使用的感受呢，算是能用。比起DeepSeek R1强吗？其实感觉不太出来，基本上可以达到DeepSeek R1的水平。

指令依存方面呢，肯定还有一点点欠缺。让他做一个很复杂的动作，他有的时候还是会丢三落四一些。这块我自己试过的，网上也有很多吐槽的人。第一个，复杂推理中的逻辑断层和幻觉生成的问题。所有推理模型身上都有这样的问题，Qwen3即使是最大的模型235B，在这块呢，也不比别人好多少。第二个呢，就是过度思考跟效率问题。有些人发现说：“我给他一个很复杂的问题，他自己开始进行推理了，推理来推理去，直接死在里头了，彻底推不出来了。”这种情况现在也还是存在的。

但是呢，也不用太着急。他既然可以进行后训练，可以进行微调，那我相信大家有各种问题去提就完了。Qwen应该会快速的微调出不同的版本出来的。多语言支持的不均衡，你说119种语言，那些小语种支持的肯定没有那么好，因为语料也没那么多嘛。但这一块你想让它提高支持的话。

也很简单，拿足够多的语料去微调就完了。他也是可以去支持的。然后还有一些伦理跟隐私方面的风险，因为它可以有非常非常小的模型。所以你可以把这种模型，比如部署在你们家洗衣机里，或者部署到一些很奇奇怪怪的这种角落里面。他的能力还很强。而且这种全开源的模型，还有一些人微调了以后，是可以把他的一些安全限制去掉的。这个就会比较吓人，所以大家对这块呢也有一些担心。

还有呢，就是模型对齐和偏好上面的一些问题。比如说吧，生成内容有时候会偏离用户的意图。它对一些指令的依从，还是会稍微差一些的。那么给出一个简单的结论吧，这到底是一次划时代的成功呢，还是翻车呢？我个人的感受呢，这又是一次划时代的胜利。

Qwen3真正在跟谁竞争？大家要想清楚：LLAMA 4、DeepSeek R1、Claude 3.7、Gemini 2.5、GROK3、GPT O3 O4这样的模型，到底在跟谁竞争？实际上真正去跟Qwen3竞争的只有一个，就是LLAMA4。其他的都不在同一个起跑线上。

LLAMA4呢，是翻车了。它怎么翻车的？第一个是数据造假，或者叫过拟合。拿直接去跑分的题目进行训练，这样跑分效果特别好，但是实际使用的效果差异巨大。这是LLAMA4翻车的一个最根源的原因。

咱们从另外一个角度上来讲，LLAMA4自己其实是有一些问题的。第一个是什么？就是它公开的模型太大，占资源很多，放弃了绝大多数的场景。他就开源了一个104B，一个400B的模型。普通人你拿他没办法，像我的电脑根本跑不起来。你就算部署到云端的话，它占资源也是占的非常多的。就对于这个经济性来说，一点优化都没做。你说我想在手机上跑，想在嵌入式设备上跑，没做这个准备，他就不惦记。甚至还有一个两T的模型，压根都没有发布出来。他就发布了一个109B，一个400B，其他都没有了。

而且这么大的模型，你想去微调那太痛苦了。就是你想微调一个模型，模型越小越好调。你模型越大的话，你调起来甭管是你的数据还是算力，都是非常巨大的成本。现在看的LLAMA，应该是准备走XAI这条路。

XAI是什么路？假开源。为什么马斯克的XAI叫假开源呢？就是我确实把东西开出来了。他承诺的是什么呢？就是我发布新版本，我就把旧版本开源。而且呢，开出来的东西，你要想调用的话，你也调不了。为什么？我只把那最大的模型出来，哐昌往那一扔就完了。各种的文档，各种东西都很少，你部署上去也不划算。

所以呢，我开源了吗？开了，东西也放这了。能用吗？没法使。你提任何问题、提任何要求，说哪给我改一东西，也没人理你。这就是XAi的玩法。

你要想调用这些东西怎么办？到我服务器上来调用XAI的API，这个是没问题的。我现在也在Grok的服务器上去调用它的API，效果也还可以。但是你说有没有第三方去部署Grok模型，然后让大家去调用呢？没有。因为你现在开源出来的版本低，它的效果没有那么好。你要想使用最新的，你只能在他的服务器上使。以后呢，Meta估计也要走这条路。

那你说为什么没有人骂XAi呢？原因很简单，因为XAi一直就这样。从x开放出来的这个推荐算法，开放出来以后，就再也没有更新过任何代码。你提的所有问题，连回复都没有人回复。XAi更新出来的Grok开源模型也是如此，开源出来啪往那一扔，彻底没人理你了。所以它一直这样。

而LLAMA呢，原来是比较开放的。现在大量的模型都是在LLAMA基础上做出来的，包括Qwen早期的模型，都是在LLAMA基础上做出来的。那现在呢，有点越来越回去了，所以有点怒其不争。大家要骂一骂他，看看能不能把他骂回来。

然后另外一个，LLAMA4被人骂的原因是什么？他不支持MCP。现在是一个做Agent的时代，你不支持MCP，你模型能力再强，你也搞不定各种场景。现在即使是你使用GBT 4O或者GBTO 3这样的模型，你没有一些外接的组件，你根本就跑不出结果来。所以你不支持MCP，这事肯定不行。

还有呢，就是LLAMA对用户是有限制的。LLAMA虽然是开源模型，但是呢，不能进行商业使用。你只能拿去做研究。你说我拿这东西做商业使用了，对不起，你会收到律师函的。而且如果你是一个大公司，月活用户数超过7亿的公司，你如果想使用LLAMA4或者LLAMA早期版本，你需要向Meta做单独的申请。申请通过了以后你才可以去使用，否则不让用，就做了很多限制。

这个反面典型讲完了，咱们讲一讲Qwen3跟LLAMA4比较起来是怎么样的。Qwen3完全开源，你爱干嘛干嘛去，想怎么调怎么调。第二个，体积小，参数少，规格全，性能高。从0.6B就开始，所有的都给你发一遍，爱用哪个版本用哪个版本。这些小体积的模型，经过微调之后应该会一统江湖。

什么意思？就是现在在hugging face上，绝大部分的模型都是拿Qwen2.5、Qwen2这些各个尺寸的模型调出来的。

早期的LLAMA还是各个尺寸都有的。现在到LLAMA4，前面那些小的模型就不出了。Qwen3又把所有的模型都出了一遍，那大家就拿来微调呗。你说哪块不满意，我就专门把它调一调，训练一下上去使不就完事了吗？所以一定会一统江湖的。

而且，Qwen3是原生支持MCP的。我在本地部署了OLAMA 8B的模型，使用Cherry studio测试了一下，支持没有任何问题。但是呢，支持的并不是那么顺畅。30B和32B的模型我在本地也装了，完美支持MCP，没有任何问题。

那你说什么叫支持的不顺畅？什么叫支持的顺畅呢？在这跟大家讲一讲使用MCP的过程。其实很简单，MCP也是描述一下工具，说我这有一工具，这工具叫什么什么名字，输入的参数是什么，输出的参数是什么，能干什么。大概是有这样的一个描述文件，你把这描述文件给到大模型以后呢，大模型会根据你提出的要求，来生成一个调用这个工具接口的代码。

这个8B的模型呢，有时候生成的代码会有点小错误，导致呢调用失败。那调用失败了以后呢，他会换一个方式，再调另外一个接口，然后会得出一个需要的结果出来。你使用32B模型，或者30B的Qwen3模型的话，你把一大堆的描述扔给他以后，他就会正确的找到需要使用的接口，需要使用的工具，然后生成调用代码直接调。调完了以后得到结果，需要再调用的话，还可以在一次推理里头多次调用，然后得到结果。

因为我是放的高德地图的MCP进去，说来给我规划一个旅游路线，这个效果好极了。完完全全在本地，当然高德地图那个服务器不在本地。其他的，他的Qwen3，OLAMA，Cherry studio都是在本地跑起来了，所以这块效果好极了。

现在呢是大模型密集发布的一个周期。前面我们看到了Gemini 2.5 Pro，Gemini 2.5 Flash，GPT也在快速的连续发布。后边还会很快看到一些新东西，包括马斯克下周要发布的Grok 3.5。Qwen3出来以后，如果有哪些方面超越了它，那它是肯定是要更新的嘛。GPT5应该也快了，这就是这样的一个风起云涌的大时代。

好，总结一下吧。Agent时代一定要有一个对Agent友好的模型发布出来，才会被大家叫好，才算是一次成功的发布。体积小，参数少，规格全，性能高，只要可用性不退步，方便微调，这些特性都具备的话，再加上前面的MCP的功能，Qwen3绝对是一次划时代的成功。好，这就是今天讲的故事。

大家赶快去玩耍起来！好，感谢大家收听。请帮忙点赞，点小铃铛。参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

ChatGPT记忆功能并非小打小闹：揭秘山姆·奥特曼兴奋失眠背后，OpenAI从流量到用户的战略野心与AI助理的个性化革命

Luke Fan — Sun, 13 Apr 2025 00:41:40 +0000

ChatGPT推出了记忆功能，这是整个行业迈出的非常重要的一步。大家好，欢迎收听老范讲故事的YouTube频道。这是让山姆·奥特曼都兴奋得睡不着觉的一个功能，也就是给ChatGPT加GE。很多人都在讲说这个好像并没有多难，使用起来也没有觉得有多大的差异。这样的一个功能，怎么到老范这就变成了整个行业迈出了关键一步？到了山姆·奥特曼那里，就变成了兴奋的睡不着觉了呢？这到底是一个什么样奇葩的功能？有什么是大家没有理解到的？今天咱们来讲一讲。

在2025年4月10号，山姆·奥特曼发了一条推，说：“有那么几次，我会因为太兴奋而早早醒来，再也睡不着。今天就是这样的一天。”今天我们就来讲一讲这个GPT的记忆功能，为什么这么强大、这么好，能够让山姆·奥特曼都兴奋的睡不着，能够让老范来说这是整个行业迈出的关键一步。那么，ChatGPT的记忆功能其实以前也有，并不是没有，不是说到4月10号才推出的，而是4月10号做了一个相对比较关键的更新。那么更新了哪些东西呢？

第一个就是它直接可以引用我们的聊天记录了。它可以根据我们跟ChatGPT聊天的过程来去提取各种需要具体记下来的信息，而不需要像原来那样很显示的告诉他说：“请记住这个，请记住那个。”这个都不需要，现在他是完全可以自己记下来的。而且在后面我们跟ChatGPT聊天的过程中，可以非常灵活的来利用这些记忆，让ChatGPT变成一个越来越懂我们的助手。

那么，ChatGPT记忆功能到底有什么样的好处？首先咱们先看官方给出的信息。这个信息是由ChatGPT自己提供给我的，说第一个无需重复介绍自己了。原来我们每一次跟ChatGPT聊天的时候都需要重复的去介绍，哪怕是同一个人。我今天也要告诉他说：“今天是要去查一个什么资料，我要去做YouTube，你要去给我写提纲。”待会我要开一个新话题，开了新话题，他又不认识我了，那我要再重新介绍：“我今天要出去吃饭，喜欢吃什么，你去找相应的饭馆。”待会我再开一个新话题，他又不认识我了，我再跟他说：“我是一个游戏玩家，我最近在玩什么什么游戏，请帮我去查个攻略。”大家注意了没有？我是开了三个话题，做了三次不同的自我介绍。那么这就是一个很关键的信息，这叫有状态与无状态。其实我们每一个人都有非常多的层面，那么你每一次去跟他沟通的时候，如果ChatGPT不知道你到底要干什么，不知道你今天到底是以一个Youtuber的身份……

或者是一个要去吃饭的老饕，还是说一个游戏玩家的身份去跟他沟通，他没法去给你做回答。那么现在，你不需要反复地去介绍这件事了。你只需要跟他说：“哎，我吃饭去了，我在这边有什么好吃的？”GPT就可以很好地根据你以前聊天的信息说：“原来这个人喜欢吃日料，我要去给他推荐日本料理。”

这是一方面。另外一方面，很多人觉得这些人工智能像人工智障，是因为什么？是因为经常说：“我刚跟你讲过，你怎么就不记得了？”大家都会有这样的感受。但是你想，你只要每一次点击“开始新话题”的时候，他就是要把原来东西忘干净的。要不然，他再去给你提供各种信息也会混乱的。

我举一个例子，比如说我先跟他聊了半天说吃饭，我要去吃日料怎么怎么回事。待会我接着跟他说：“我现在想打一个游戏，这个游戏是怎么怎么回事的时候。”他会接着跟你讲日料的事情，他没有办法快速的进行切换。大模型在这块上还是要稍微的差一些。我们还是如此不停地去开新话题，每次开新话题它就刷新一些信息。但是有了记忆功能以后的GPT，虽然它把话题刷新了，但是我们的一些基础信息它是知道的。你不需要重复介绍了，你可以告诉他说：“我现在要去吃饭。”这是一个刷新新话题，但是它能记着你爱吃什么，这个还是很重要的。

除了这个优点之外，还有一个很重要的是什么？它可以根据个人的写作风格、兴趣和使用习惯，自动调整回答方式。很多人都说这个东西AI味那么浓，一写出来东西就是AI写的。那么以后就不会有这种问题，我们可以把ChatGPT生成的东西去进行修改、调整之后说：“我喜欢这样的一个风格。”那么以后这就是一个你个人的风格了，没有办法再说这一看就是ChatGPT的味了。他不会再干这种事情了。那么ChatGPT就会变成一个真正懂你、贴近，比以往更像一个专业助理的AI助理了。

甚至很多的大老板的助理，替大老板回邮件，替大老板去发微博，他们都看不出来这到底是谁发的。我记得我以前有一个同事，他就是给李开复管理微博账号的。那么以后ChatGPT就可以来替我们做这些事情了。它是可以用我们的口气，用我们的习惯去发各种社交媒体了。

这些记忆你说你都记住了，万一记错了怎么办？这个不用太担心，可以自己设置。在ChatGPT的界面里头，有一个叫“个性化”的菜单，打开了以后可以去设置关闭记忆功能或者打开记忆功能。你可以自己去设，你也可以管理和删除特定的记忆，说：“我把这个东西删掉，这条你给我忘掉，不允许记住。”因为总有社死的时候。

你也可以直接明确地跟他讲：“这事你给我记着，下一个事忘掉，这个事不要记住。”

你可以聊天的时候直接跟ChatGPT说，它可以自动修改这个记忆库。当然，你也可以开临时聊天。打开临时聊天，那么这一部分的内容就不会被记下来。

所谓不会被记下来，我们这里要提醒大家：OpenAI服务器上还是记着的，只是不会被用来生成下一次内容。这个是要注意的，千万不要以为开了临时聊天，你聊的内容他们就都忘掉了。不，不是这样的。

实际上，很多人都会讲一个笑话：拿出手机输入法来，打哪几个字母，看看排在第一个的是什么。比如输出了一个什么样的词，就说明你是个穷屌丝；如果你打了几个字母出来是一个别的词，你可能就是一个有钱人。

为什么？我们的拼音输入法把我们的一些输入习惯记下来了。在这里要稍微先进一些，你可以要求它记录，或者要求它不记录，可以更好地来控制，不会很容易被人发现我们的屌丝本质。

现在是Plus跟Pro的用户已经可以用了，未来免费用户也会可以用。至于其他的Teams用户，或者说一些企业用户和学生用户是不是可以用，还不好说。因为对于他们来说，隐私保护会更加敏感一些。

这些记忆是有容量限制的，不是无穷无尽的，可以一直记下去的。它的记忆限制很怪：1,200-1,400字。这个数字非常奇怪，而且无法扩容。我去问ChatGPT，我说：“我希望这数大一点，我给钱行不？”他说：“不行。”没有任何的途径可以让记忆空间变大。

那么这个容量的标记方式很奇怪：
1. 它居然是个字节数，不是说我记了多少条，或者是记了多少聊天记录，都不是。它是1,200字到1,400字。
2. 它不是一个确定的数字。像我们程序员一般会说：“你这就是1,000字，或者1,024个字，或者是2,000字，都是OK的。”它应该是个死数。现在OpenAI给出的是一个范围：1,200到1,400，这个我就不知道怎么回事了。

还有一点是什么？这个数不大，就是1,000多字。按道理来说，我们都认为它应该记很多东西在里头，但是并没有，只有1,000多字被记录进去了。

如果你把它记满了，你可以进去删，说：“这些不要了，我删掉，剩下的你再接着给我继续。”这个是允许的。你可以自己去整理记忆，就像是《哈利波特》里邓布利多的记忆盆——他可以把一些不太用的东西直接抽出来，需要的东西再塞回去。他可以干这样的一个事情。

那么，这背后应该也是隐藏着一些秘密的。

待会我们再去分析秘密。这是官方提到的一些信息。刚才讲的所有这些信息，都是ChatGPT直接给我生成的。下边咱们来讲一讲官方没有提到的好处。

光看前面这些好处好像是挺厉害，但是绝对达不到说整个行业迈出重要一步，或者山姆奥特曼都可以兴奋到晚上睡不着觉的一个状态。那么，只有没说的这部分才可以达到这样的效果。那到底是什么？

第一个，共享账号这件事没法搞了。你看这里头有记忆了，那我下一次我去跟人共享的时候，我就可以看到别人的记忆，或者别人可以看到我的记忆。这事肯定不行。那大家一定要好好的去买账号。这个肯定是可以让山姆奥特曼稍稍的小开心一下了，但是还达不到让他兴奋的睡不着觉。

很重要的一步是什么？这是真正的从流量向用户转换的关键一步。什么叫流量？什么叫用户流量？我们知道有人来了，但是我不知道他是谁。他也没有办法下一次回来以后继续去做原来的事情。这个东西就叫流量。像很多的互联网公司里面，他们的用户实际上都是流量。谷歌原来它的用户也是流量。比如说我们到谷歌这来搜索，搜索完了点击了搜索结果，实际上我们都是流量。我们并不是它的用户，我们也没有归属感，说下次我还要用谷歌的账号去做什么事情，有什么样的好处，并没有这些东西。

那谷歌是怎么完成从流量到用户的转换呢？它推出了一个非常重要的产品叫Gmail。我们把自己的邮箱存在谷歌了，里头存了我所有的收发邮件，存了我的日历，存了我的通讯录。那么我们对于谷歌来说，就正式从流量变成用户了。流量是没有粘性的，我这次来了，下次我就不来了。但是用户是有粘性的，我的Gmail在谷歌里边，我下次是还要来用的。我不可能说把这个东西进行迁移，非常麻烦。

现在OpenAI也迈出了这一步，从流量变成了用户。原来这么多大模型，在这里你方唱罢我登场。我们不停的去试谁家的模型，稍微好用了一点点，马上就转型。现在不行了，因为OpenAI ChatGPT把我的各种聊天信息都记在里头了。我希望有一个更懂我的助理为我服务，那我就要去使用ChatGPT，我就不能去使用Gemini，我就不能去使用其他的这些大模型了。这个是非常重要的一步。

那么，山姆奥特曼就会为这件事睡不着觉吗？山姆奥特曼前几天接受了一次采访。有人问他说，你的目标到底是什么？到底是不是要去做AGI，要让整个人类进步什么的？后来山姆奥特曼说，我其实已经没有那么天真幼稚了，我现在已经转变想法了。

最早开始做OpenAI的时候，我们确实是这么想的，但是现在已经变了。变成什么了？这是一家互联网消费公司。我们要做的是一个巨大的服务平台，我们的目标是10亿人使用的服务平台。

什么是10亿人使用的服务平台？微信、抖音、Facebook、谷歌、苹果，这些是10亿人使用的。X都达不到，那真的没有10亿用户。全世界能够达到这样标准的平台，没有几个。这才是OpenAI真正的目标。现在等于是在向这个目标迈出了非常关键的一步，可以让山姆·奥特曼睡不着觉，早晨一醒来以后就没法再去入睡了，非常兴奋。所以这很关键。

当时在采访的时候，山姆·奥特曼说了这样的一句话，说大家以后都要用OpenAI的账户来登录，就像是现在大家用谷歌的账户，或者苹果、Meta的账户登录一样。为什么这么干？因为登录以后，OpenAI可以提供专属的微调模型和各种的私有信息，来协助其他平台更好的为你服务。

这话什么意思？其他账户登录，比如说我们用谷歌账户登录了。现在很多的应用都是用谷歌账户登录的，那么登录了以后，谷歌会提供基本信息，包括什么姓名、邮箱、头像、联系人，还有日历，包括我们的Google Drive上的一些文件。你进行授权以后，使用谷歌账号登录的这些应用的话，都是可以去访问的。并不光是说证明了一下你是谁就完事了，这些都可以去访问。

如果我们用Facebook的账户登录了，它不但是可以知道我们的姓名、头像、性别，还可以得到我们的朋友列表和点赞页面。如果是用Twitter账号登录了，他可以得到关注消息、推文、用户资料、点赞和私信的这些权利。如果是用微软账号登录了，可以得到我们的基本资料、用户名、日历、邮箱、One Drive、团队信息。我们用微软账号去登录了其他的一些应用，比如说现在有一个应用叫做画图。我用微软账号登录了以后，最后他就来问你说，我是不是可以有权利把我画好的图存到你的微软的云盘上去？你只要确认一下，它就直接存上去了。但是微软也要去得到你确认的过程，你不确认它，这是没有权限的。所以它有很多的权限是需要后申请的。

如果我们用微信登录了，它也可以得到我们的昵称、性别，以及我们所在的省市、国家和头像，这个都是可以得到的。那么这些对于OpenAI来说都弱爆了。为什么呢？当我们平时聊天的信息都存入到ChatGPT里边以后，我们的专属助理就生成了。那我们这些专属助理可以干嘛呢？当我用OpenAI的账户去登录一个，比如说订餐网站的时候。

这个订餐网站就知道我吃什么，知道我吃什么过敏，知道我不爱吃什么。他也知道说在这个季节里头，有哪些新鲜的食材是我一定要去吃的。对于餐厅为我提供更好的服务，是非常重要的信息。

当我想去找一部美剧来解决剧荒问题的时候，这个助理是知道我看过哪些美剧，而且知道我看到第几季第几集了。还知道我喜欢什么类型的美剧，以及喜欢哪些小说和明星。他可以非常好的来为我推荐。

山姆他们向着他的目标，迈出了非常重要的一步。这就是山姆他们为什么兴奋的睡不着觉。那么从容量限制，我们看到了这个里面到底有什么秘密。我们可以猜测一下，以及ChatGPT记忆功能未来发展的方向，都可以从这里去稍微的猜测一下。

刚才我们讲到，它这个数字很怪：1,240-1,440。为什么是这样的一个数？应该是每次聊天的时候，都可以直接将这个1,000多个字符扔到提示词里边去。它占的TOKEN量并不是很大。而且要注意，OpenAI的API对于TOKEN输入的时候，它是有两个不同的价格的：一个是缓存内的TOKEN，一个是缓存外的TOKEN。那所有的记忆信息都属于叫缓存内的TOKEN，就本来就存在它服务器上，成本就更低了。所以它完全可以在我们每一次聊天的时候，都直接把这1,000多字塞进去。

这个字多了肯定是塞不下的。那么存储更多的信息对于OpenAI来说，本身成本其实并不高，相当于开个网盘呗。你想一个网盘能有多贵？而且现在网盘都是一开就是多少个g的空间，这1,000多字算啥？所以存并不费劲。但是你存太多了以后，用户也会担心什么：你ChatGPT会不会变成熟悉的陌生人？我有很多信息，我并不希望你知道。或者说，当我们发现ChatGPT了解我们很多信息的时候，你会感觉吓人的。所以他这个数一定要控制的稍微小一些。

如果这些信息变多了，比如说不再是1,000字到2,000字，而是100万字200万字了会怎么样？它处理起来还是要稍微麻烦一些。你不可能说我每一次产生结果的时候，去做问答的时候，都把一两百万字塞进去，这个事不太现实了。所以到那个时候，它可能需要额外的去做本地知识库，类似于RAG这样的东西，叫搜索辅助生成，要去做这个。还有的干脆是去微调小模型。原来苹果要去推出apple intelligence的时候，当时他们也讲到说，我们就想去给大家微调小模型，让你们在苹果电脑上就有一个根据你们的信息微调出来的小模型，非常懂你。

但是目前为止，他也没做出来。这个还是挺难做的，微调小模型也好，做这种本地知识库也好。这是山姆他们未来的设想，因为他前面接受采访的时候已经说了：“你们以后只要用OpenAI的账号，登录我给你的这些知识库，给你的这些微调的小模型，就可以直接使用了。”

一旦真的走到了Azure GPT帮我们存储本地知识库，和微调一堆小模型的时候，迁移成本就会无限放大，等于就彻底捆死我们了。我们再想从OpenAI的平台上离开，就基本不可能了。那么未来会变成什么样？未来更多的信息会被记录下来，这个一定是这样的。到那个时候，可能会花钱去购买更多的存储空间，这个是个玩笑了，不重要。

未来真正的变化是，大模型都会变成agent。现在大家玩的是模型，以后就都变成代理。那么现在谷歌刚刚发布了叫a to a的一个开源接口，这东西干嘛使的？就是让大模型之间聊天的。再加上MCP，谷歌、OpenAI、Azure现在都支持MCP了，它可以去调用各种的外部工具。比如说像刚才我讲的，去给我订餐、订酒店，帮我去订各种行程，帮我去查询各种知识，现在都可以通过MCP把这东西接进来了。

当这些东西都普及了之后，以后的大模型会变成一个统一入口。这个山姆他们也讲过了，说这就是GPT5给大家的形式。什么意思？以后我们再去跟ChatGPT聊天，再去跟各种的AI助手聊天的时候，你不需要去选了。你不用上来选我今天要跟GPT4聊天，还是GPT4O聊天，还是跟O1聊天、O3聊天还是跟谁聊天，你不需要选这玩意。你都是在跟GPT5聊天，GPT5会根据说你的要求，我来决定调哪些东西，我来决定走哪一个agent的路径来去帮你服务。这个是未来的一个方向。

到那个时候，他会自行来判断到底要去引用哪些记忆。我们来想一想，我们跟人打交道的时候，或者说真的跟一些助理打交道的时候，也是如此的。你不会站在那先去跟他讲，说你今要给我处理什么事了，他会自动的来去判断你今天到底要用哪一部分的知识来去完成相关的任务。

到那个时候，ChatGPT也好，或者其他的AI助手也好，就会为每个用户建立一个分类知识库和私人助理。他们会根据我们的上下文聊天，自动的去调用相应的知识库，形成相应的助理。到那个时候，会由AI来掌控更复杂的权限。什么意思？就是当我们要是授权这些助理去给别人干活的时候，比如说我今天把一个我爱吃什么饭的助理授权给了一个饭馆，那么它就不能去调出来我的其他信息。

我的收入、我的工作，这些东西你是不能调出来的。但是，它可以调出一些我爱吃什么，或者说我对餐厅有一些什么其他的要求。他可以把这些信息调出来。那么，这一部分以后都是要由AI来掌控的，不会由人来掌控。

说我今天先设好了，说这个助理可以访问哪些信息，那个助理可以访问哪些信息，哪个助理可以给谁授权。这个以后肯定都是由AI来处理，要人处理是处理不过来的。

而且，再往后发展是什么？我们今天讲的都是自己的记忆，因为ChatGPT有记忆了，所以我们不能去做共享账号了。但是，以后我们还需要去处理其他人的记忆和其他人的助理。这是什么意思？

假设吧，当我们需要为其他人服务的时候，就直接可以跟他们的助理沟通了。或者说，我们可以将他们的助理再介绍出去，直接去干活了。举一个例子，比如说今天我是个导游，我带了一帮朋友出来玩来了。到时候我需要去安排餐厅，那安排餐厅怎么办？我就先让这些游客把他们的助理都授权给我，我再把这些处理授权给了一个餐厅。

这个餐厅就可以根据每一个人的口味，去帮他们安排饮食，就可以来做这些个性化服务了。这个在以前是没法实现的，现在都可以实现了。比如说我今天做了一个导游的APP，谁让我去导游了，你们就用你们的OpenAI账号来登录我的导游APP。我们加入到一个游览的群里边去，等我再去餐厅订餐的时候，我就把游览群里边的每一个人的OpenAI账号授权给餐厅。

然后，餐厅就可以跟你们的助理去聊天了，去了要吃什么呀？最近在减肥，就吃一些清淡的；最近口重，想吃点咸的；最近怀孕了，酸男辣女，什么样的？大家要去稍微调整一下口味，这都没问题。以后都可以让每一个人都像带着一个助理出门一样，咱们之间就有更好的服务。这可能是大家可以憧憬的一个美好未来。

再讲一下，为什么在这个时候可以去宣布这件事？其实绝大部分的AI助手都是无状态的。刚才咱们讲过什么是无状态，这里不重复了。第一个是要解决隐私的顾虑，因为大家都觉得我们把很多的隐私交给AI，是一件很危险的事情，很恐怖的事情。所以原来咱们不说这个事。

降低运营成本也是很重要的，因为AI是按TOKEN收钱的。每一次回答问题之前，我先去看一下你是谁，还是挺贵的。还有一个重要原因，是要降低用户的心理预期。每一次当这个AI说胡话的时候，你就告诉用户说：“反正我是无状态服务，我也不知道你是谁，我就说成这样了，你也不要对我有太高的要求。”

给AI助手添加记忆这件事，在技术上其实并不困难。

只是舆论跟社会压力太大。

ChatGPT其实一直都有聊天记忆的功能，原来就有，只是原来并没有大张旗鼓的宣传。到4月10号，终于可以宣传一下了。那么，这个时间点为什么这么重要？

原来，ChatGPT是唯一一个有记忆功能的AI助手。但是，Grok来了，就是XAI的Grok。它可以根据我们的推文，给我们一个个人描述。你去检查一下，说你的AI助手到底有没有记忆功能，实际上很简单。你上来就问他一个问题：“你认为我是一个什么样的人？”或者说：“根据你对我的了解，给我一个描述。”你就给他这样的一个提示词。

在4月10号之前，ChatGPT也会给你一个很好的描述，而且那个时候，那个描述还写得特别的肉麻。什么时候心情不好了，你去问他，你看完了以后，你觉得我好像混的还可以。他是这样的一个状态。

Grok也开始提供这种功能了，所以OpenAI说：“那既然你也来了，我就不藏着掖着了。”我就开始打明牌了，直接公开。而且，山姆·奥特曼前面也透露了他的真实目的。原来还在这装清高，说：“我要为人类怎么样，我要为社会怎么样，我要去搞AGI。”前面去接受采访的时候，已经说的很清楚了：“在OpenAI开始融资之后，我们就已经清晰的认识到，这就是一家消费互联网公司。我就是老老实实来挣钱的，没有那么多虚头巴脑的东西。”

成为新的平台公司和流量入口，就是山姆·奥特曼的一个最终目标。我就是来挣钱的。现在，山姆·奥特曼又一次为整个的行业指明了方向：“大家上！”

在这个过程中，谷歌肯定有能力，没有任何问题。但是，内部的桎梏太多。因为前面也是做了好多年的圣母，现在在这一块上技术不难，但是他的舆论，包括伦理社会压力很大。这个弯子到底怎么转过来？估计谷歌还要稍微的转一段时间。

XAI的Grok这没什么问题。马斯克是信第一性原理的，所以应该会快速跟进。而且手里头还有我们发的推文，走这一步是顺理成章的。

Anthropic呢，要稍微麻烦一点。为什么？因为它主要是ToB的。现在即使在ChatGPT里头，记忆功能也没有向Teams用户去开放。因为在这块还是要更敏感一些。我办公室用的各种记忆，跟我家庭的各种记忆，他还是不是那么容易分清楚的。

至于Meta，现在连应用都没怎么做好，还是要继续努力。Meta属于只有模型没有应用。原来我们讲叫“模型及应用”，但是只有模型没应用，这条路也是走不通的。

至于国内，阿里跟字节必然会在这条路上狂奔，没什么好说的。卖东西，甭管阿里还是字节，后边实际上都是电商平台。

一旦说可以形成客户信任的助理了，那么他就可以直接帮客户下单、买东西了。这也可以很好地解决整个AI行业不挣钱的一个问题。所以，为什么我说这是整个行业的巨大一步，被今天迈出去了。

至于腾讯呢，它有点像谷歌，后面包袱也很重。为什么？因为它是一个很重很重的社交平台，我们所有的社交关系都在上面。他在这个里面去做助理，他一定是要非常小心谨慎。一旦踏错半步，会出很多问题的。所以，腾讯在这块可能会比较费劲。

至于百度，继续为大家提供欢乐就可以了，其他就不重要了。更多的AI agent的应用应该正在路上。可能有一些公司说：“我没有大模型，但是我可以通过GE的方式，给大家打造更多的应用。”这块应该也在往前走。

而且，很多的服务平台，比如美团、携程这些服务平台，他们也需要开始去处理相关的问题了。我们如何去跟这些助理打交道？我们如何提供我自己的MCP的接口？现在像高德地图很多的这样的平台，都已经开始官方提供MCP接口出来了，可以让AI大模型、可以让agent直接跟他们去沟通。这一块就是未来的一个很重要的方向，大家应该是在快速前进。

我觉得又可以开始招人了。很多的互联网公司，应该可以开始考虑招聘的问题了。

最终的总结：这是AI的一小步，但绝对是整个人类社会形态发展的一大步。不知道你们是不是同意我的观点？好，这就是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛。参加DISCORD讨论群也欢迎。有兴趣、有能力的朋友，加入我们的付费频道。再见！