长期记忆 – 老范讲故事｜AI、大模型与商业世界的故事

上下文工程（Context Engineering）爆火，是AI圈又一次造词狂欢还是真革命？拆解其核心理念，对比GPT、Gemini、豆包等主流模型在该框架下的表现与优劣，帮你选择最强工具。

Luke Fan — Tue, 08 Jul 2025 00:58:36 +0000

上下文工程又有新词了。AIGC不怎么赚钱，造词的速度还是非常非常快的。大家好，欢迎收听老范讲故事的YouTube频道。

提示词工程已经稍微有点过时了，现在的新词叫上下文工程。提示词工程长什么样，大家还记得吗？就是上来先说你是谁，谁先给大模型定一个位置。比如说你是一个资深翻译，你是个语文老师。然后呢，说我现在想要干一点什么事情了，给我出个题，给我做个翻译，再给他一个简单的例子，说你照这样给我把东西做出来。

光有提示词呢，肯定是不够的。除了刚才我们讲的完整的、结构化的提示词之外，你还是需要很多相关的上下文，才能够让大模型稳定的输出结果。那你说我们继续把提示词写长不就行了吗？我还见过那种直接写出几百字或者是上千字小作文的提示词。这个是不是可以继续往前走呢？不行了。因为你如果继续叫提示词工程呢，会容易引起误解。大家觉得只要不断的把提示词写长，就可以把这事解决掉。但其实除了提示词之外，还有非常非常多的上下文数据需要一起写进去，才能够让大模型稳定的输出我们所预期的、有价值的结果出来。

所以呢，就不能继续叫提示词工程了，一定要起个新词。而且呢，AI时代呢，起新词是非常重要的，因为可以吸引眼球。只有足够吸引眼球的东西，才有发展的前景。所以在这个时候，上下文工程就来了，一个新词诞生了。

这个造词的大师现在是谁呢？叫安德烈·卡帕西。这是一位造词专家，他呢是特斯拉跟OpenAI的AI科学家，已经离职了。现在呢主要的工作是投资人和顾问，他自己投一些项目，也帮助一些项目做顾问做孵化。这哥们呢在不停的造新词。2017年呢，他造的新词叫软件2.0。什么是软件2.0呢？把神经网络视作用数据而非代码编程的新规范。程序等于网络结构加训练数据加优化器，源代码缩到几百行，真正的逻辑写在权重里面。这是2017年提出来的，现在我们的大模型基本上就是长得这个模样。

到2023年呢，提出来叫LLMOS，大模型操作系统。把大语言模型比作新的CPU加操作系统，人类用自然语言编程，大语言模型负责调度、记忆和推理。2025年，氛围编程，也是他编发明的一个新词。彻底投降给AI，对着IDE聊天，粘贴报错，让模型自动改，人只管感受对不对。

现在上下文工程又来了。上下文工程呢叫context engineering，这个呢并不是卡帕西自己提出的。最早呢是2025年6月27号，一位开源作者叫Simon Wilkinson。

写了一个文章，提到了”Context Engineering”这个概念。在7月份呢，一帮人就出来说，这个实在是太棒了，要向这个方向发展，包括Longchain的一些博客。Longchain应该也算是AI Agent的一个开山项目吧，比较早期的一个项目。Shopify（加拿大最大的电商平台）的创始人也出来点赞，说一定要使用Context Engineer才可以让大模型稳定的输出结果。

在这个时候呢，卡帕西上去点了个赞。卡帕西说：”加一，我也赞同这件事情。”所以现在再去讲这个上下文工程的时候呢，都是说这是卡帕西点赞过的，或者说是卡帕西推崇的新的概念。因为他最有名，他最喜欢造词，所以现在都是把这个上下文工程这个事情跟卡帕西挂在一起。

AI时代，讲故事能力、吸引眼球的能力是非常非常重要的。所以我们看到一帮做机器人的公司，或者像OpenAI这样的公司，不停的给大家录视频，让普通的民众能够感受到这个东西好厉害。其实他也没搞明白这个大模型或者这些机器人到底能干嘛，只是觉得好炫酷。但这就够了。当大家都觉得这个东西很炫酷的时候，你就可以拿到融资，可以往前走。所以造新词还是很重要的。

那么上下文工程都包含什么东西呢？讲了半天在提示词工程基础上加什么了呢？上下文工程呢一共是6个模块：

第一个叫指令层（系统角色+少样例提示）。这个什么意思呢？原来我们写在系统提示词里的东西。我们跟大模型聊天的时候，是有两个提示词：一个叫系统提示词，一个叫用户提示词。系统提示词就是先规定大模型你是干嘛的，你是什么什么角色，现在要具体做什么什么事情。少样例是什么呢？叫Few-shot，就是你要给他提几个例子。你说我直接告诉你你是干嘛的，我不给你举例子行不行？这个事是不好的。最好呢是给他两个到八个之间的这种少量的样本。那你说我给他100个例子行不行？那个你基本上去微调模型去了。所以呢，叫少量样本。这个是写系统提示词的一个要求。所以呢，他的第一块（6个模块里的第一块）就是系统提示词。

第二块呢叫及时用户请求，也就是原来我们使用的用户提示词。

第三块是什么呢？叫对话历史和短期记忆。我们在聊天的时候，你不能说我每句都是新的吧，你还是要有一个对话历史的。

第四块叫长期记忆。长期记忆呢就是说，我们通过每一次聊天，把一些关键信息把它提取出来。因为现在甭管是OpenAI、Gemini，都在向长期记忆这一块发展。

我们说，你记得我是干嘛的吗？你记得这个原来我跟你说过什么事吗？他能想的起来要把用户偏好和先前的一些摘要放到这个上下文里边去。

第五个呢，是RAG检索到的文档、数据库条目以及实时API的一些结果，再加一些本地知识库，再加一些搜索结果呀，再加一些数据库里的信息。

第六块呢，叫工具与格式约束。什么意思呢？就是你要告诉他说：“我现在可以调哪些工具？”比如说我这有高德地图、有百度地图、有天气，或者一些其他的工具，你可以调用。调用的方式是什么样的？以及呢，输出什么样的一个结果？通常这种信息都不是按照正常的文本格式输出的。这种上下文工程要求的输出格式都是JSON格式，有哈西结构的一些文档。

整个的上下文工程包括这六个组成部分。它的工作方式是什么样的？我怎么能够让它用起来呢？分四步：

第一步呢，是写。写的时候呢，要把随时会用到但是当前窗口装不下，或者不该暴露给大语言模型的内容呢，持久化到窗口之外去，可读可写的一些外部存储上。有一些信息我认为你可能有用，但是呢现在我又不是马上就要给你，我要把它先存起来。

第二件事呢，叫选。选是什么呢？就是在庞杂的信息文档和工具描述里头，准确定义相关性，把最有用的多少条信息放到窗口里边去。在大模型里头，有一个东西叫上下文窗口。要把一时用不着的写在外面，随时可以调用；要把有用的选到窗口里头来。

第三步呢，叫压缩。在不丢关键信息的情况下，把即将写回窗口的内容做摘要和裁剪，满足TOKEN预算。什么意思呢？比如说做了RAG的选择了，或者做了搜索的结果返回了，这些信息是相对比较啰嗦的比较多。那怎么办呢？在这个时候你要先去做一次总结，然后把总结过的东西再扔给大模型。所以呢，在这要做压缩。

最后呢，第四步叫隔离。把彼此可能串味的信息拆分进独立的上下文窗口或者沙盒，减少干扰，并行提速。

我原来在这块翻过车，稍微给大家讲一嘴。我有一次呢，想去问大模型，说这个人跟谁谁一块创业去开咖啡馆了，他有什么其他的在咖啡馆里边管理或者创业的经验没有？大模型呢，就把一大堆的搜索结果拿进去去总结归纳去了。结果呢，他就说这个人在瑞幸干过高管，在星巴克干过高管。我一看，这挺好，赶快就去写演讲稿去了吗？但是最后去校验的时候发现不对。那是怎么回事呢？就是他在搜索了以后，把一大堆说星巴克跟这种咖啡馆之间是如何去比对的，瑞幸跟这些咖啡馆之间是如何差异，他们对瑞幸做了什么评价，瑞星对他们做了什么评价。

然后呢，再把我提问的这个人混到几个结果里边去了，就把一些信息上下文给混一块了。在这个里头就不要干这个事情。如果是说星巴克跟瑞幸对这个新的咖啡馆的形态有什么样的评价和比较，你单独的去让他干活。然后呢，你单独专门问，说这个人具体是做什么事情的，过去的履历是什么样的。这样的话，他等于是把上下文就分到不同的窗口里去了，他就不会说我给你搁一块，让你混成一锅粥以后再去给我输出了。这个也是很重要的。而且你分开了以后就可以并行处理嘛，可以快一点。这就是上下文工程6个部分和分四步走。

那么如何判定我们上下文工程是不是成功的呢？一旦有工程这俩字，就是你一定是可以去调优的，一定可以判断成不成功的。上下文工程的成功标准是同样的一个任务，用更低的成本、更少的幻觉、更快的响应速度把它完成掉，这就是成功的。你要不断的去调优，按这个方向调。失败是什么呢？叫垃圾进垃圾出。你把一大堆不应该给他的信息都扔进去了，然后一大堆垃圾的结果给你吐出来，这个就是失败了。

但是要注意，不是所有的大模型都能顶得住上下文工程的。你写了这么长的上下文扔进去，让他去干活，不是谁都行。那么什么样的大模型可以顶得住上下文工程的这种工作方式呢？它有三个要求：

第一个要求是你要长上下文。刚才咱们啰里八嗦说有6个部分，分几步去写，但是你把那6个部分写进去，这个总的TOKEN量是不会少的。所以呢，要求你至少是有128K的输入，你才可以去干活。所以像早期的Deepseek版本是64K输入的，干不了这事，放不下。

第二个是什么呢？就是原生工具调用的知识。有一些早期的模型是不支持原生工具调用的，包括比较新的像LLAMA4什么的，对原生工具调用的支持都不是很好。因为你要想让他把所有的事情做完，你就要让他可以去调用工具，调用搜索引擎、调用浏览器、调用刚才我们讲的比如天气预报、高德地图。你可以去调用这些东西，他才可以去干活。所以，你要支持原生工具调用。

第三个呢，就是要能够做稳定的Json结构输出。你不能说我要求你输出了以后，最后你输出的格式不完整、不正确，这个事也是没有办法做上下文工程的。因为呢，你这边做完上下文工程了以后，他可能不是最后一步，你下一步你还要再去用这些内容，需要去解析这个东西，才可以去说下一步再如何去使用。

现在我们所流行的这些大模型里头，谁行谁不行呢？咱们讲了三条标准。第一个，美国的御三家都是很好用的。

御三家就是GPT、Gemini、Claude。其他的一些呢，就稍微差一点。比如说像法国的Mistral，它的一些大的模型呢是可以使用的，但是完整格式输出的准确率不高。

咱们刚才讲的Gemini、Claude、GPT，完整Json格式输出的时候，也不能保证100%正确，但是呢可以保证到百分之九十几正确。Mistral呢，就是最后这一步的格式输出，有时候比如少个大括号，或者是多个引号什么这种事，他就有时候会出。或者说我少几项，比如说我应该要求是4个，结果他最后给你输出了3个，或者多输出了两个，有重复的。它的这块会稍微差一些。

马斯克的GROK3，推理模式下呢基本上可用。但是呢，有的时候会把推理的过程写到json文件里边去，所以并不是完全可用。或者说，还是有待提升吧。马斯克说这几天出GROK4，希望他能够把这个问题解决掉。

咱们自己的，比如Deepseek R1呢，早期的版本，就是1月份的那个版本呢，64K，这是没法跑，而且它对于工具的支持也不是很好。但是呢，到Deepseek R10528的时候呢，到128K了，够用吧，也不是特别够用。最好是256K或者是一兆以上的上下文，才会更好用一些。所以呢，它在这块呢稍微有些欠缺。然后到0528这个版本呢，它已经开始支持工具了，这块基本上可用。它的最大的问题还是上下文稍微不太够长。但是呢，DeepSeek R1输出的内容还是非常好的，输出的内容质量很高。它的Json的格式也是相对来说比较正确和完整的，就正确率很高。

千问3呢基本上是可以用的。千问3唯一的问题是什么？就是它输出的结果上，这是文字的东西呢，比Deepseek要单薄一些。另外一个现在国内比较好用的模型呢，是豆包1.6。推理过程比较长的时候，容易跑偏前头。比如推理五六步了以后，直接出结果，他有时候就直接出英文结果，这个就是稍微跑偏了一点点。

那你说我们现在有这么多模型：GPT4O、GPT4O Mini、Gemini 2.5 Pro、Gemini 2.5 Flash。这些版本之间，你去让它跑这个上下文工程，到底有什么区别呢？所有的这种大模型Pro版，或者是GPT4O这种完整版本，一定是效果最好的。但是呢，Flash版呢，它的速度会快一些，价格便宜一些。只是呢，你要给它复杂的上下文，或者要求它输出非常复杂上下文的时候呢，它有时候会丢东西，输出也不是很完整。

或者，你给他一个复杂上下文进来的时候，他也会有一部分就不考虑了。这个是会时有发生的。

如果你的工作相对来说比较简单，你输入的信息和输出的信息都没有那么复杂的话，可以尝试去使用 GPT-4o Mini 或者是 Gemini 2.5 Flash 这样的版本。

那么，上下文工程产出的结果到底是什么呢？其实很简单，就是 AI 应用可以稳定的输出能够解决特定问题的、有价值的 AI 应用。这就是上下文工程能干的活。

原来为什么很多 AI 应用下去不好使？因为每一次的输出非常不稳定，有时候灵，有时候不灵。那你在这种情况下就很麻烦，你不知道它哪次灵，哪次不灵。你输出的结果，你还得各种的校验，比如说容错呀什么的，这些东西都要去做。

再往下一步，比如其他的模型里去送的时候呢，你要在上一个结果输出的内容里头，再去挑选你真正需要的东西。这块就很麻烦。

现在的话，有了上下文工程之后，你可能没法要求说我输出的内容才华横溢，但是呢，基本上我是稳定的。我每一次都稳定的输出这样的一个东西。

那你说上下文工程是不是未来方向？是不是这个万能解药呢？赶快出个教材出去圈一圈钱去，或者说赶快去报个班我学一下。这个怎么说呢？下一批新名词还在路上。

在 AI 这个领域里头，日新月异，不停的有新名词出来。而且呢，模型及应用这件事呢，依然有效。

AI 应用当前的定位呢，还是比较尴尬。虽然有了上下文工程之后，很多的 AI 应用就可以去干活了，它真正有价值了，有稳定的输出了。但是上下文工程，只要带“工程”俩字，那就不是给普通人使了。

普通人就说我们看一看就行了。真的让你去写这种上下文工程，没有程序员的能力，基本上是搞不定的。

大模型最终呢，会通过自己的升级，让普通人可以通过闲聊的方式，实现上下文工程的稳定输出。这个最后是可以实现的。不是说你没有上下文工程的能力，你最后就解决不了。

但是现在的大模型还达不到这个能力。但是可能再过个一两年吧，这块应该是可以做到的。但是在这一两年里头，像我们这些程序员，就可以使用上下文工程做出一大堆的 AI 应用，把第一桶金挣回来。这就是上下文工程能够真正起的作用。

那么，上下文工程对于当前的行业有什么样的影响呢？落后的大模型服务商要抓紧升级了，方向已经确定了。

比如说扎克伯格，挖了这么多 OpenAI 的人，赶快干活，让你的 LLAMA 4 或者 LLAMA 4.5 吧，能够很好的在上下文工程里头干活。

比如说华为的盘古大模型，别光抄千问 2.5 了，把千问 3 抄一抄吧。

得把上下文工程跑通，否则的话，小粉红拿着你的这些模型也搭不出AI应用来。

还有就是像Deepseek，可能要进一步的拉长这个上下文。现在Gemini 2.5已经可以达到100万TOKEN，或者到200万TOKEN。LLAMA4其实TOKEN也很长，LLAMA4大概是可以到1,000万TOKEN，但是它对于原生的工具支持的确实要稍微差一些。这可能是未来一些大模型要去努力的方向。

第二个大批量的AI应用就会涌现出来了。一旦大家确定下来，上下文工程是未来做AI应用里的必经之路，这一块的话一定就会快速前进。而且这一次的AI应用做出来以后，它是真的能用的。原来很多人说：“我为什么做了半天最后不能用？”因为没有上下文工程，你的AI应用整个的输出过程是不可控的。或者你为了让它变得可控，让这整个的系统跑得非常慢、非常傻。

最终的结果是什么呢？就是英伟达的显卡又不够用了。为啥呢？新模型的训练需要英伟达，大量有用的AI应用的涌现需要英伟达，很多日常任务向AI应用的迁移需要英伟达，长上下文的吞吐还是需要英伟达。这可能就是现在上下文工程可以给我们带来的变化。

对于每一位听众来说，你说：“我是个程序员，我现在想去学点应用，赶快学起来，不学就落后了。”那你说：“我就是个普通人，你通过我今天讲这个故事，你也知道一下AI应用里头到底是咋干活的。如果产生的结果不对了，不是你所预期的结果了，可能是上面的6个部分和4步哪一步走错了。你稍微有一些逻辑，对于你去使用AI应用也会有很大帮助的。”

好，这个故事今天就讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见！

ChatGPT记忆功能并非小打小闹：揭秘山姆·奥特曼兴奋失眠背后，OpenAI从流量到用户的战略野心与AI助理的个性化革命

Luke Fan — Sun, 13 Apr 2025 00:41:40 +0000

ChatGPT推出了记忆功能，这是整个行业迈出的非常重要的一步。大家好，欢迎收听老范讲故事的YouTube频道。这是让山姆·奥特曼都兴奋得睡不着觉的一个功能，也就是给ChatGPT加GE。很多人都在讲说这个好像并没有多难，使用起来也没有觉得有多大的差异。这样的一个功能，怎么到老范这就变成了整个行业迈出了关键一步？到了山姆·奥特曼那里，就变成了兴奋的睡不着觉了呢？这到底是一个什么样奇葩的功能？有什么是大家没有理解到的？今天咱们来讲一讲。

在2025年4月10号，山姆·奥特曼发了一条推，说：“有那么几次，我会因为太兴奋而早早醒来，再也睡不着。今天就是这样的一天。”今天我们就来讲一讲这个GPT的记忆功能，为什么这么强大、这么好，能够让山姆·奥特曼都兴奋的睡不着，能够让老范来说这是整个行业迈出的关键一步。那么，ChatGPT的记忆功能其实以前也有，并不是没有，不是说到4月10号才推出的，而是4月10号做了一个相对比较关键的更新。那么更新了哪些东西呢？

第一个就是它直接可以引用我们的聊天记录了。它可以根据我们跟ChatGPT聊天的过程来去提取各种需要具体记下来的信息，而不需要像原来那样很显示的告诉他说：“请记住这个，请记住那个。”这个都不需要，现在他是完全可以自己记下来的。而且在后面我们跟ChatGPT聊天的过程中，可以非常灵活的来利用这些记忆，让ChatGPT变成一个越来越懂我们的助手。

那么，ChatGPT记忆功能到底有什么样的好处？首先咱们先看官方给出的信息。这个信息是由ChatGPT自己提供给我的，说第一个无需重复介绍自己了。原来我们每一次跟ChatGPT聊天的时候都需要重复的去介绍，哪怕是同一个人。我今天也要告诉他说：“今天是要去查一个什么资料，我要去做YouTube，你要去给我写提纲。”待会我要开一个新话题，开了新话题，他又不认识我了，那我要再重新介绍：“我今天要出去吃饭，喜欢吃什么，你去找相应的饭馆。”待会我再开一个新话题，他又不认识我了，我再跟他说：“我是一个游戏玩家，我最近在玩什么什么游戏，请帮我去查个攻略。”大家注意了没有？我是开了三个话题，做了三次不同的自我介绍。那么这就是一个很关键的信息，这叫有状态与无状态。其实我们每一个人都有非常多的层面，那么你每一次去跟他沟通的时候，如果ChatGPT不知道你到底要干什么，不知道你今天到底是以一个Youtuber的身份……

或者是一个要去吃饭的老饕，还是说一个游戏玩家的身份去跟他沟通，他没法去给你做回答。那么现在，你不需要反复地去介绍这件事了。你只需要跟他说：“哎，我吃饭去了，我在这边有什么好吃的？”GPT就可以很好地根据你以前聊天的信息说：“原来这个人喜欢吃日料，我要去给他推荐日本料理。”

这是一方面。另外一方面，很多人觉得这些人工智能像人工智障，是因为什么？是因为经常说：“我刚跟你讲过，你怎么就不记得了？”大家都会有这样的感受。但是你想，你只要每一次点击“开始新话题”的时候，他就是要把原来东西忘干净的。要不然，他再去给你提供各种信息也会混乱的。

我举一个例子，比如说我先跟他聊了半天说吃饭，我要去吃日料怎么怎么回事。待会我接着跟他说：“我现在想打一个游戏，这个游戏是怎么怎么回事的时候。”他会接着跟你讲日料的事情，他没有办法快速的进行切换。大模型在这块上还是要稍微的差一些。我们还是如此不停地去开新话题，每次开新话题它就刷新一些信息。但是有了记忆功能以后的GPT，虽然它把话题刷新了，但是我们的一些基础信息它是知道的。你不需要重复介绍了，你可以告诉他说：“我现在要去吃饭。”这是一个刷新新话题，但是它能记着你爱吃什么，这个还是很重要的。

除了这个优点之外，还有一个很重要的是什么？它可以根据个人的写作风格、兴趣和使用习惯，自动调整回答方式。很多人都说这个东西AI味那么浓，一写出来东西就是AI写的。那么以后就不会有这种问题，我们可以把ChatGPT生成的东西去进行修改、调整之后说：“我喜欢这样的一个风格。”那么以后这就是一个你个人的风格了，没有办法再说这一看就是ChatGPT的味了。他不会再干这种事情了。那么ChatGPT就会变成一个真正懂你、贴近，比以往更像一个专业助理的AI助理了。

甚至很多的大老板的助理，替大老板回邮件，替大老板去发微博，他们都看不出来这到底是谁发的。我记得我以前有一个同事，他就是给李开复管理微博账号的。那么以后ChatGPT就可以来替我们做这些事情了。它是可以用我们的口气，用我们的习惯去发各种社交媒体了。

这些记忆你说你都记住了，万一记错了怎么办？这个不用太担心，可以自己设置。在ChatGPT的界面里头，有一个叫“个性化”的菜单，打开了以后可以去设置关闭记忆功能或者打开记忆功能。你可以自己去设，你也可以管理和删除特定的记忆，说：“我把这个东西删掉，这条你给我忘掉，不允许记住。”因为总有社死的时候。

你也可以直接明确地跟他讲：“这事你给我记着，下一个事忘掉，这个事不要记住。”

你可以聊天的时候直接跟ChatGPT说，它可以自动修改这个记忆库。当然，你也可以开临时聊天。打开临时聊天，那么这一部分的内容就不会被记下来。

所谓不会被记下来，我们这里要提醒大家：OpenAI服务器上还是记着的，只是不会被用来生成下一次内容。这个是要注意的，千万不要以为开了临时聊天，你聊的内容他们就都忘掉了。不，不是这样的。

实际上，很多人都会讲一个笑话：拿出手机输入法来，打哪几个字母，看看排在第一个的是什么。比如输出了一个什么样的词，就说明你是个穷屌丝；如果你打了几个字母出来是一个别的词，你可能就是一个有钱人。

为什么？我们的拼音输入法把我们的一些输入习惯记下来了。在这里要稍微先进一些，你可以要求它记录，或者要求它不记录，可以更好地来控制，不会很容易被人发现我们的屌丝本质。

现在是Plus跟Pro的用户已经可以用了，未来免费用户也会可以用。至于其他的Teams用户，或者说一些企业用户和学生用户是不是可以用，还不好说。因为对于他们来说，隐私保护会更加敏感一些。

这些记忆是有容量限制的，不是无穷无尽的，可以一直记下去的。它的记忆限制很怪：1,200-1,400字。这个数字非常奇怪，而且无法扩容。我去问ChatGPT，我说：“我希望这数大一点，我给钱行不？”他说：“不行。”没有任何的途径可以让记忆空间变大。

那么这个容量的标记方式很奇怪：
1. 它居然是个字节数，不是说我记了多少条，或者是记了多少聊天记录，都不是。它是1,200字到1,400字。
2. 它不是一个确定的数字。像我们程序员一般会说：“你这就是1,000字，或者1,024个字，或者是2,000字，都是OK的。”它应该是个死数。现在OpenAI给出的是一个范围：1,200到1,400，这个我就不知道怎么回事了。

还有一点是什么？这个数不大，就是1,000多字。按道理来说，我们都认为它应该记很多东西在里头，但是并没有，只有1,000多字被记录进去了。

如果你把它记满了，你可以进去删，说：“这些不要了，我删掉，剩下的你再接着给我继续。”这个是允许的。你可以自己去整理记忆，就像是《哈利波特》里邓布利多的记忆盆——他可以把一些不太用的东西直接抽出来，需要的东西再塞回去。他可以干这样的一个事情。

那么，这背后应该也是隐藏着一些秘密的。

待会我们再去分析秘密。这是官方提到的一些信息。刚才讲的所有这些信息，都是ChatGPT直接给我生成的。下边咱们来讲一讲官方没有提到的好处。

光看前面这些好处好像是挺厉害，但是绝对达不到说整个行业迈出重要一步，或者山姆奥特曼都可以兴奋到晚上睡不着觉的一个状态。那么，只有没说的这部分才可以达到这样的效果。那到底是什么？

第一个，共享账号这件事没法搞了。你看这里头有记忆了，那我下一次我去跟人共享的时候，我就可以看到别人的记忆，或者别人可以看到我的记忆。这事肯定不行。那大家一定要好好的去买账号。这个肯定是可以让山姆奥特曼稍稍的小开心一下了，但是还达不到让他兴奋的睡不着觉。

很重要的一步是什么？这是真正的从流量向用户转换的关键一步。什么叫流量？什么叫用户流量？我们知道有人来了，但是我不知道他是谁。他也没有办法下一次回来以后继续去做原来的事情。这个东西就叫流量。像很多的互联网公司里面，他们的用户实际上都是流量。谷歌原来它的用户也是流量。比如说我们到谷歌这来搜索，搜索完了点击了搜索结果，实际上我们都是流量。我们并不是它的用户，我们也没有归属感，说下次我还要用谷歌的账号去做什么事情，有什么样的好处，并没有这些东西。

那谷歌是怎么完成从流量到用户的转换呢？它推出了一个非常重要的产品叫Gmail。我们把自己的邮箱存在谷歌了，里头存了我所有的收发邮件，存了我的日历，存了我的通讯录。那么我们对于谷歌来说，就正式从流量变成用户了。流量是没有粘性的，我这次来了，下次我就不来了。但是用户是有粘性的，我的Gmail在谷歌里边，我下次是还要来用的。我不可能说把这个东西进行迁移，非常麻烦。

现在OpenAI也迈出了这一步，从流量变成了用户。原来这么多大模型，在这里你方唱罢我登场。我们不停的去试谁家的模型，稍微好用了一点点，马上就转型。现在不行了，因为OpenAI ChatGPT把我的各种聊天信息都记在里头了。我希望有一个更懂我的助理为我服务，那我就要去使用ChatGPT，我就不能去使用Gemini，我就不能去使用其他的这些大模型了。这个是非常重要的一步。

那么，山姆奥特曼就会为这件事睡不着觉吗？山姆奥特曼前几天接受了一次采访。有人问他说，你的目标到底是什么？到底是不是要去做AGI，要让整个人类进步什么的？后来山姆奥特曼说，我其实已经没有那么天真幼稚了，我现在已经转变想法了。

最早开始做OpenAI的时候，我们确实是这么想的，但是现在已经变了。变成什么了？这是一家互联网消费公司。我们要做的是一个巨大的服务平台，我们的目标是10亿人使用的服务平台。

什么是10亿人使用的服务平台？微信、抖音、Facebook、谷歌、苹果，这些是10亿人使用的。X都达不到，那真的没有10亿用户。全世界能够达到这样标准的平台，没有几个。这才是OpenAI真正的目标。现在等于是在向这个目标迈出了非常关键的一步，可以让山姆·奥特曼睡不着觉，早晨一醒来以后就没法再去入睡了，非常兴奋。所以这很关键。

当时在采访的时候，山姆·奥特曼说了这样的一句话，说大家以后都要用OpenAI的账户来登录，就像是现在大家用谷歌的账户，或者苹果、Meta的账户登录一样。为什么这么干？因为登录以后，OpenAI可以提供专属的微调模型和各种的私有信息，来协助其他平台更好的为你服务。

这话什么意思？其他账户登录，比如说我们用谷歌账户登录了。现在很多的应用都是用谷歌账户登录的，那么登录了以后，谷歌会提供基本信息，包括什么姓名、邮箱、头像、联系人，还有日历，包括我们的Google Drive上的一些文件。你进行授权以后，使用谷歌账号登录的这些应用的话，都是可以去访问的。并不光是说证明了一下你是谁就完事了，这些都可以去访问。

如果我们用Facebook的账户登录了，它不但是可以知道我们的姓名、头像、性别，还可以得到我们的朋友列表和点赞页面。如果是用Twitter账号登录了，他可以得到关注消息、推文、用户资料、点赞和私信的这些权利。如果是用微软账号登录了，可以得到我们的基本资料、用户名、日历、邮箱、One Drive、团队信息。我们用微软账号去登录了其他的一些应用，比如说现在有一个应用叫做画图。我用微软账号登录了以后，最后他就来问你说，我是不是可以有权利把我画好的图存到你的微软的云盘上去？你只要确认一下，它就直接存上去了。但是微软也要去得到你确认的过程，你不确认它，这是没有权限的。所以它有很多的权限是需要后申请的。

如果我们用微信登录了，它也可以得到我们的昵称、性别，以及我们所在的省市、国家和头像，这个都是可以得到的。那么这些对于OpenAI来说都弱爆了。为什么呢？当我们平时聊天的信息都存入到ChatGPT里边以后，我们的专属助理就生成了。那我们这些专属助理可以干嘛呢？当我用OpenAI的账户去登录一个，比如说订餐网站的时候。

这个订餐网站就知道我吃什么，知道我吃什么过敏，知道我不爱吃什么。他也知道说在这个季节里头，有哪些新鲜的食材是我一定要去吃的。对于餐厅为我提供更好的服务，是非常重要的信息。

当我想去找一部美剧来解决剧荒问题的时候，这个助理是知道我看过哪些美剧，而且知道我看到第几季第几集了。还知道我喜欢什么类型的美剧，以及喜欢哪些小说和明星。他可以非常好的来为我推荐。

山姆他们向着他的目标，迈出了非常重要的一步。这就是山姆他们为什么兴奋的睡不着觉。那么从容量限制，我们看到了这个里面到底有什么秘密。我们可以猜测一下，以及ChatGPT记忆功能未来发展的方向，都可以从这里去稍微的猜测一下。

刚才我们讲到，它这个数字很怪：1,240-1,440。为什么是这样的一个数？应该是每次聊天的时候，都可以直接将这个1,000多个字符扔到提示词里边去。它占的TOKEN量并不是很大。而且要注意，OpenAI的API对于TOKEN输入的时候，它是有两个不同的价格的：一个是缓存内的TOKEN，一个是缓存外的TOKEN。那所有的记忆信息都属于叫缓存内的TOKEN，就本来就存在它服务器上，成本就更低了。所以它完全可以在我们每一次聊天的时候，都直接把这1,000多字塞进去。

这个字多了肯定是塞不下的。那么存储更多的信息对于OpenAI来说，本身成本其实并不高，相当于开个网盘呗。你想一个网盘能有多贵？而且现在网盘都是一开就是多少个g的空间，这1,000多字算啥？所以存并不费劲。但是你存太多了以后，用户也会担心什么：你ChatGPT会不会变成熟悉的陌生人？我有很多信息，我并不希望你知道。或者说，当我们发现ChatGPT了解我们很多信息的时候，你会感觉吓人的。所以他这个数一定要控制的稍微小一些。

如果这些信息变多了，比如说不再是1,000字到2,000字，而是100万字200万字了会怎么样？它处理起来还是要稍微麻烦一些。你不可能说我每一次产生结果的时候，去做问答的时候，都把一两百万字塞进去，这个事不太现实了。所以到那个时候，它可能需要额外的去做本地知识库，类似于RAG这样的东西，叫搜索辅助生成，要去做这个。还有的干脆是去微调小模型。原来苹果要去推出apple intelligence的时候，当时他们也讲到说，我们就想去给大家微调小模型，让你们在苹果电脑上就有一个根据你们的信息微调出来的小模型，非常懂你。

但是目前为止，他也没做出来。这个还是挺难做的，微调小模型也好，做这种本地知识库也好。这是山姆他们未来的设想，因为他前面接受采访的时候已经说了：“你们以后只要用OpenAI的账号，登录我给你的这些知识库，给你的这些微调的小模型，就可以直接使用了。”

一旦真的走到了Azure GPT帮我们存储本地知识库，和微调一堆小模型的时候，迁移成本就会无限放大，等于就彻底捆死我们了。我们再想从OpenAI的平台上离开，就基本不可能了。那么未来会变成什么样？未来更多的信息会被记录下来，这个一定是这样的。到那个时候，可能会花钱去购买更多的存储空间，这个是个玩笑了，不重要。

未来真正的变化是，大模型都会变成agent。现在大家玩的是模型，以后就都变成代理。那么现在谷歌刚刚发布了叫a to a的一个开源接口，这东西干嘛使的？就是让大模型之间聊天的。再加上MCP，谷歌、OpenAI、Azure现在都支持MCP了，它可以去调用各种的外部工具。比如说像刚才我讲的，去给我订餐、订酒店，帮我去订各种行程，帮我去查询各种知识，现在都可以通过MCP把这东西接进来了。

当这些东西都普及了之后，以后的大模型会变成一个统一入口。这个山姆他们也讲过了，说这就是GPT5给大家的形式。什么意思？以后我们再去跟ChatGPT聊天，再去跟各种的AI助手聊天的时候，你不需要去选了。你不用上来选我今天要跟GPT4聊天，还是GPT4O聊天，还是跟O1聊天、O3聊天还是跟谁聊天，你不需要选这玩意。你都是在跟GPT5聊天，GPT5会根据说你的要求，我来决定调哪些东西，我来决定走哪一个agent的路径来去帮你服务。这个是未来的一个方向。

到那个时候，他会自行来判断到底要去引用哪些记忆。我们来想一想，我们跟人打交道的时候，或者说真的跟一些助理打交道的时候，也是如此的。你不会站在那先去跟他讲，说你今要给我处理什么事了，他会自动的来去判断你今天到底要用哪一部分的知识来去完成相关的任务。

到那个时候，ChatGPT也好，或者其他的AI助手也好，就会为每个用户建立一个分类知识库和私人助理。他们会根据我们的上下文聊天，自动的去调用相应的知识库，形成相应的助理。到那个时候，会由AI来掌控更复杂的权限。什么意思？就是当我们要是授权这些助理去给别人干活的时候，比如说我今天把一个我爱吃什么饭的助理授权给了一个饭馆，那么它就不能去调出来我的其他信息。

我的收入、我的工作，这些东西你是不能调出来的。但是，它可以调出一些我爱吃什么，或者说我对餐厅有一些什么其他的要求。他可以把这些信息调出来。那么，这一部分以后都是要由AI来掌控的，不会由人来掌控。

说我今天先设好了，说这个助理可以访问哪些信息，那个助理可以访问哪些信息，哪个助理可以给谁授权。这个以后肯定都是由AI来处理，要人处理是处理不过来的。

而且，再往后发展是什么？我们今天讲的都是自己的记忆，因为ChatGPT有记忆了，所以我们不能去做共享账号了。但是，以后我们还需要去处理其他人的记忆和其他人的助理。这是什么意思？

假设吧，当我们需要为其他人服务的时候，就直接可以跟他们的助理沟通了。或者说，我们可以将他们的助理再介绍出去，直接去干活了。举一个例子，比如说今天我是个导游，我带了一帮朋友出来玩来了。到时候我需要去安排餐厅，那安排餐厅怎么办？我就先让这些游客把他们的助理都授权给我，我再把这些处理授权给了一个餐厅。

这个餐厅就可以根据每一个人的口味，去帮他们安排饮食，就可以来做这些个性化服务了。这个在以前是没法实现的，现在都可以实现了。比如说我今天做了一个导游的APP，谁让我去导游了，你们就用你们的OpenAI账号来登录我的导游APP。我们加入到一个游览的群里边去，等我再去餐厅订餐的时候，我就把游览群里边的每一个人的OpenAI账号授权给餐厅。

然后，餐厅就可以跟你们的助理去聊天了，去了要吃什么呀？最近在减肥，就吃一些清淡的；最近口重，想吃点咸的；最近怀孕了，酸男辣女，什么样的？大家要去稍微调整一下口味，这都没问题。以后都可以让每一个人都像带着一个助理出门一样，咱们之间就有更好的服务。这可能是大家可以憧憬的一个美好未来。

再讲一下，为什么在这个时候可以去宣布这件事？其实绝大部分的AI助手都是无状态的。刚才咱们讲过什么是无状态，这里不重复了。第一个是要解决隐私的顾虑，因为大家都觉得我们把很多的隐私交给AI，是一件很危险的事情，很恐怖的事情。所以原来咱们不说这个事。

降低运营成本也是很重要的，因为AI是按TOKEN收钱的。每一次回答问题之前，我先去看一下你是谁，还是挺贵的。还有一个重要原因，是要降低用户的心理预期。每一次当这个AI说胡话的时候，你就告诉用户说：“反正我是无状态服务，我也不知道你是谁，我就说成这样了，你也不要对我有太高的要求。”

给AI助手添加记忆这件事，在技术上其实并不困难。

只是舆论跟社会压力太大。

ChatGPT其实一直都有聊天记忆的功能，原来就有，只是原来并没有大张旗鼓的宣传。到4月10号，终于可以宣传一下了。那么，这个时间点为什么这么重要？

原来，ChatGPT是唯一一个有记忆功能的AI助手。但是，Grok来了，就是XAI的Grok。它可以根据我们的推文，给我们一个个人描述。你去检查一下，说你的AI助手到底有没有记忆功能，实际上很简单。你上来就问他一个问题：“你认为我是一个什么样的人？”或者说：“根据你对我的了解，给我一个描述。”你就给他这样的一个提示词。

在4月10号之前，ChatGPT也会给你一个很好的描述，而且那个时候，那个描述还写得特别的肉麻。什么时候心情不好了，你去问他，你看完了以后，你觉得我好像混的还可以。他是这样的一个状态。

Grok也开始提供这种功能了，所以OpenAI说：“那既然你也来了，我就不藏着掖着了。”我就开始打明牌了，直接公开。而且，山姆·奥特曼前面也透露了他的真实目的。原来还在这装清高，说：“我要为人类怎么样，我要为社会怎么样，我要去搞AGI。”前面去接受采访的时候，已经说的很清楚了：“在OpenAI开始融资之后，我们就已经清晰的认识到，这就是一家消费互联网公司。我就是老老实实来挣钱的，没有那么多虚头巴脑的东西。”

成为新的平台公司和流量入口，就是山姆·奥特曼的一个最终目标。我就是来挣钱的。现在，山姆·奥特曼又一次为整个的行业指明了方向：“大家上！”

在这个过程中，谷歌肯定有能力，没有任何问题。但是，内部的桎梏太多。因为前面也是做了好多年的圣母，现在在这一块上技术不难，但是他的舆论，包括伦理社会压力很大。这个弯子到底怎么转过来？估计谷歌还要稍微的转一段时间。

XAI的Grok这没什么问题。马斯克是信第一性原理的，所以应该会快速跟进。而且手里头还有我们发的推文，走这一步是顺理成章的。

Anthropic呢，要稍微麻烦一点。为什么？因为它主要是ToB的。现在即使在ChatGPT里头，记忆功能也没有向Teams用户去开放。因为在这块还是要更敏感一些。我办公室用的各种记忆，跟我家庭的各种记忆，他还是不是那么容易分清楚的。

至于Meta，现在连应用都没怎么做好，还是要继续努力。Meta属于只有模型没有应用。原来我们讲叫“模型及应用”，但是只有模型没应用，这条路也是走不通的。

至于国内，阿里跟字节必然会在这条路上狂奔，没什么好说的。卖东西，甭管阿里还是字节，后边实际上都是电商平台。

一旦说可以形成客户信任的助理了，那么他就可以直接帮客户下单、买东西了。这也可以很好地解决整个AI行业不挣钱的一个问题。所以，为什么我说这是整个行业的巨大一步，被今天迈出去了。

至于腾讯呢，它有点像谷歌，后面包袱也很重。为什么？因为它是一个很重很重的社交平台，我们所有的社交关系都在上面。他在这个里面去做助理，他一定是要非常小心谨慎。一旦踏错半步，会出很多问题的。所以，腾讯在这块可能会比较费劲。

至于百度，继续为大家提供欢乐就可以了，其他就不重要了。更多的AI agent的应用应该正在路上。可能有一些公司说：“我没有大模型，但是我可以通过GE的方式，给大家打造更多的应用。”这块应该也在往前走。

而且，很多的服务平台，比如美团、携程这些服务平台，他们也需要开始去处理相关的问题了。我们如何去跟这些助理打交道？我们如何提供我自己的MCP的接口？现在像高德地图很多的这样的平台，都已经开始官方提供MCP接口出来了，可以让AI大模型、可以让agent直接跟他们去沟通。这一块就是未来的一个很重要的方向，大家应该是在快速前进。

我觉得又可以开始招人了。很多的互联网公司，应该可以开始考虑招聘的问题了。

最终的总结：这是AI的一小步，但绝对是整个人类社会形态发展的一大步。不知道你们是不是同意我的观点？好，这就是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛。参加DISCORD讨论群也欢迎。有兴趣、有能力的朋友，加入我们的付费频道。再见！