技术解读 – 老范讲故事｜AI、大模型与商业世界的故事

上下文工程（Context Engineering）爆火，是AI圈又一次造词狂欢还是真革命？拆解其核心理念，对比GPT、Gemini、豆包等主流模型在该框架下的表现与优劣，帮你选择最强工具。

Luke Fan — Tue, 08 Jul 2025 00:58:36 +0000

上下文工程又有新词了。AIGC不怎么赚钱，造词的速度还是非常非常快的。大家好，欢迎收听老范讲故事的YouTube频道。

提示词工程已经稍微有点过时了，现在的新词叫上下文工程。提示词工程长什么样，大家还记得吗？就是上来先说你是谁，谁先给大模型定一个位置。比如说你是一个资深翻译，你是个语文老师。然后呢，说我现在想要干一点什么事情了，给我出个题，给我做个翻译，再给他一个简单的例子，说你照这样给我把东西做出来。

光有提示词呢，肯定是不够的。除了刚才我们讲的完整的、结构化的提示词之外，你还是需要很多相关的上下文，才能够让大模型稳定的输出结果。那你说我们继续把提示词写长不就行了吗？我还见过那种直接写出几百字或者是上千字小作文的提示词。这个是不是可以继续往前走呢？不行了。因为你如果继续叫提示词工程呢，会容易引起误解。大家觉得只要不断的把提示词写长，就可以把这事解决掉。但其实除了提示词之外，还有非常非常多的上下文数据需要一起写进去，才能够让大模型稳定的输出我们所预期的、有价值的结果出来。

所以呢，就不能继续叫提示词工程了，一定要起个新词。而且呢，AI时代呢，起新词是非常重要的，因为可以吸引眼球。只有足够吸引眼球的东西，才有发展的前景。所以在这个时候，上下文工程就来了，一个新词诞生了。

这个造词的大师现在是谁呢？叫安德烈·卡帕西。这是一位造词专家，他呢是特斯拉跟OpenAI的AI科学家，已经离职了。现在呢主要的工作是投资人和顾问，他自己投一些项目，也帮助一些项目做顾问做孵化。这哥们呢在不停的造新词。2017年呢，他造的新词叫软件2.0。什么是软件2.0呢？把神经网络视作用数据而非代码编程的新规范。程序等于网络结构加训练数据加优化器，源代码缩到几百行，真正的逻辑写在权重里面。这是2017年提出来的，现在我们的大模型基本上就是长得这个模样。

到2023年呢，提出来叫LLMOS，大模型操作系统。把大语言模型比作新的CPU加操作系统，人类用自然语言编程，大语言模型负责调度、记忆和推理。2025年，氛围编程，也是他编发明的一个新词。彻底投降给AI，对着IDE聊天，粘贴报错，让模型自动改，人只管感受对不对。

现在上下文工程又来了。上下文工程呢叫context engineering，这个呢并不是卡帕西自己提出的。最早呢是2025年6月27号，一位开源作者叫Simon Wilkinson。

写了一个文章，提到了”Context Engineering”这个概念。在7月份呢，一帮人就出来说，这个实在是太棒了，要向这个方向发展，包括Longchain的一些博客。Longchain应该也算是AI Agent的一个开山项目吧，比较早期的一个项目。Shopify（加拿大最大的电商平台）的创始人也出来点赞，说一定要使用Context Engineer才可以让大模型稳定的输出结果。

在这个时候呢，卡帕西上去点了个赞。卡帕西说：”加一，我也赞同这件事情。”所以现在再去讲这个上下文工程的时候呢，都是说这是卡帕西点赞过的，或者说是卡帕西推崇的新的概念。因为他最有名，他最喜欢造词，所以现在都是把这个上下文工程这个事情跟卡帕西挂在一起。

AI时代，讲故事能力、吸引眼球的能力是非常非常重要的。所以我们看到一帮做机器人的公司，或者像OpenAI这样的公司，不停的给大家录视频，让普通的民众能够感受到这个东西好厉害。其实他也没搞明白这个大模型或者这些机器人到底能干嘛，只是觉得好炫酷。但这就够了。当大家都觉得这个东西很炫酷的时候，你就可以拿到融资，可以往前走。所以造新词还是很重要的。

那么上下文工程都包含什么东西呢？讲了半天在提示词工程基础上加什么了呢？上下文工程呢一共是6个模块：

第一个叫指令层（系统角色+少样例提示）。这个什么意思呢？原来我们写在系统提示词里的东西。我们跟大模型聊天的时候，是有两个提示词：一个叫系统提示词，一个叫用户提示词。系统提示词就是先规定大模型你是干嘛的，你是什么什么角色，现在要具体做什么什么事情。少样例是什么呢？叫Few-shot，就是你要给他提几个例子。你说我直接告诉你你是干嘛的，我不给你举例子行不行？这个事是不好的。最好呢是给他两个到八个之间的这种少量的样本。那你说我给他100个例子行不行？那个你基本上去微调模型去了。所以呢，叫少量样本。这个是写系统提示词的一个要求。所以呢，他的第一块（6个模块里的第一块）就是系统提示词。

第二块呢叫及时用户请求，也就是原来我们使用的用户提示词。

第三块是什么呢？叫对话历史和短期记忆。我们在聊天的时候，你不能说我每句都是新的吧，你还是要有一个对话历史的。

第四块叫长期记忆。长期记忆呢就是说，我们通过每一次聊天，把一些关键信息把它提取出来。因为现在甭管是OpenAI、Gemini，都在向长期记忆这一块发展。

我们说，你记得我是干嘛的吗？你记得这个原来我跟你说过什么事吗？他能想的起来要把用户偏好和先前的一些摘要放到这个上下文里边去。

第五个呢，是RAG检索到的文档、数据库条目以及实时API的一些结果，再加一些本地知识库，再加一些搜索结果呀，再加一些数据库里的信息。

第六块呢，叫工具与格式约束。什么意思呢？就是你要告诉他说：“我现在可以调哪些工具？”比如说我这有高德地图、有百度地图、有天气，或者一些其他的工具，你可以调用。调用的方式是什么样的？以及呢，输出什么样的一个结果？通常这种信息都不是按照正常的文本格式输出的。这种上下文工程要求的输出格式都是JSON格式，有哈西结构的一些文档。

整个的上下文工程包括这六个组成部分。它的工作方式是什么样的？我怎么能够让它用起来呢？分四步：

第一步呢，是写。写的时候呢，要把随时会用到但是当前窗口装不下，或者不该暴露给大语言模型的内容呢，持久化到窗口之外去，可读可写的一些外部存储上。有一些信息我认为你可能有用，但是呢现在我又不是马上就要给你，我要把它先存起来。

第二件事呢，叫选。选是什么呢？就是在庞杂的信息文档和工具描述里头，准确定义相关性，把最有用的多少条信息放到窗口里边去。在大模型里头，有一个东西叫上下文窗口。要把一时用不着的写在外面，随时可以调用；要把有用的选到窗口里头来。

第三步呢，叫压缩。在不丢关键信息的情况下，把即将写回窗口的内容做摘要和裁剪，满足TOKEN预算。什么意思呢？比如说做了RAG的选择了，或者做了搜索的结果返回了，这些信息是相对比较啰嗦的比较多。那怎么办呢？在这个时候你要先去做一次总结，然后把总结过的东西再扔给大模型。所以呢，在这要做压缩。

最后呢，第四步叫隔离。把彼此可能串味的信息拆分进独立的上下文窗口或者沙盒，减少干扰，并行提速。

我原来在这块翻过车，稍微给大家讲一嘴。我有一次呢，想去问大模型，说这个人跟谁谁一块创业去开咖啡馆了，他有什么其他的在咖啡馆里边管理或者创业的经验没有？大模型呢，就把一大堆的搜索结果拿进去去总结归纳去了。结果呢，他就说这个人在瑞幸干过高管，在星巴克干过高管。我一看，这挺好，赶快就去写演讲稿去了吗？但是最后去校验的时候发现不对。那是怎么回事呢？就是他在搜索了以后，把一大堆说星巴克跟这种咖啡馆之间是如何去比对的，瑞幸跟这些咖啡馆之间是如何差异，他们对瑞幸做了什么评价，瑞星对他们做了什么评价。

然后呢，再把我提问的这个人混到几个结果里边去了，就把一些信息上下文给混一块了。在这个里头就不要干这个事情。如果是说星巴克跟瑞幸对这个新的咖啡馆的形态有什么样的评价和比较，你单独的去让他干活。然后呢，你单独专门问，说这个人具体是做什么事情的，过去的履历是什么样的。这样的话，他等于是把上下文就分到不同的窗口里去了，他就不会说我给你搁一块，让你混成一锅粥以后再去给我输出了。这个也是很重要的。而且你分开了以后就可以并行处理嘛，可以快一点。这就是上下文工程6个部分和分四步走。

那么如何判定我们上下文工程是不是成功的呢？一旦有工程这俩字，就是你一定是可以去调优的，一定可以判断成不成功的。上下文工程的成功标准是同样的一个任务，用更低的成本、更少的幻觉、更快的响应速度把它完成掉，这就是成功的。你要不断的去调优，按这个方向调。失败是什么呢？叫垃圾进垃圾出。你把一大堆不应该给他的信息都扔进去了，然后一大堆垃圾的结果给你吐出来，这个就是失败了。

但是要注意，不是所有的大模型都能顶得住上下文工程的。你写了这么长的上下文扔进去，让他去干活，不是谁都行。那么什么样的大模型可以顶得住上下文工程的这种工作方式呢？它有三个要求：

第一个要求是你要长上下文。刚才咱们啰里八嗦说有6个部分，分几步去写，但是你把那6个部分写进去，这个总的TOKEN量是不会少的。所以呢，要求你至少是有128K的输入，你才可以去干活。所以像早期的Deepseek版本是64K输入的，干不了这事，放不下。

第二个是什么呢？就是原生工具调用的知识。有一些早期的模型是不支持原生工具调用的，包括比较新的像LLAMA4什么的，对原生工具调用的支持都不是很好。因为你要想让他把所有的事情做完，你就要让他可以去调用工具，调用搜索引擎、调用浏览器、调用刚才我们讲的比如天气预报、高德地图。你可以去调用这些东西，他才可以去干活。所以，你要支持原生工具调用。

第三个呢，就是要能够做稳定的Json结构输出。你不能说我要求你输出了以后，最后你输出的格式不完整、不正确，这个事也是没有办法做上下文工程的。因为呢，你这边做完上下文工程了以后，他可能不是最后一步，你下一步你还要再去用这些内容，需要去解析这个东西，才可以去说下一步再如何去使用。

现在我们所流行的这些大模型里头，谁行谁不行呢？咱们讲了三条标准。第一个，美国的御三家都是很好用的。

御三家就是GPT、Gemini、Claude。其他的一些呢，就稍微差一点。比如说像法国的Mistral，它的一些大的模型呢是可以使用的，但是完整格式输出的准确率不高。

咱们刚才讲的Gemini、Claude、GPT，完整Json格式输出的时候，也不能保证100%正确，但是呢可以保证到百分之九十几正确。Mistral呢，就是最后这一步的格式输出，有时候比如少个大括号，或者是多个引号什么这种事，他就有时候会出。或者说我少几项，比如说我应该要求是4个，结果他最后给你输出了3个，或者多输出了两个，有重复的。它的这块会稍微差一些。

马斯克的GROK3，推理模式下呢基本上可用。但是呢，有的时候会把推理的过程写到json文件里边去，所以并不是完全可用。或者说，还是有待提升吧。马斯克说这几天出GROK4，希望他能够把这个问题解决掉。

咱们自己的，比如Deepseek R1呢，早期的版本，就是1月份的那个版本呢，64K，这是没法跑，而且它对于工具的支持也不是很好。但是呢，到Deepseek R10528的时候呢，到128K了，够用吧，也不是特别够用。最好是256K或者是一兆以上的上下文，才会更好用一些。所以呢，它在这块呢稍微有些欠缺。然后到0528这个版本呢，它已经开始支持工具了，这块基本上可用。它的最大的问题还是上下文稍微不太够长。但是呢，DeepSeek R1输出的内容还是非常好的，输出的内容质量很高。它的Json的格式也是相对来说比较正确和完整的，就正确率很高。

千问3呢基本上是可以用的。千问3唯一的问题是什么？就是它输出的结果上，这是文字的东西呢，比Deepseek要单薄一些。另外一个现在国内比较好用的模型呢，是豆包1.6。推理过程比较长的时候，容易跑偏前头。比如推理五六步了以后，直接出结果，他有时候就直接出英文结果，这个就是稍微跑偏了一点点。

那你说我们现在有这么多模型：GPT4O、GPT4O Mini、Gemini 2.5 Pro、Gemini 2.5 Flash。这些版本之间，你去让它跑这个上下文工程，到底有什么区别呢？所有的这种大模型Pro版，或者是GPT4O这种完整版本，一定是效果最好的。但是呢，Flash版呢，它的速度会快一些，价格便宜一些。只是呢，你要给它复杂的上下文，或者要求它输出非常复杂上下文的时候呢，它有时候会丢东西，输出也不是很完整。

或者，你给他一个复杂上下文进来的时候，他也会有一部分就不考虑了。这个是会时有发生的。

如果你的工作相对来说比较简单，你输入的信息和输出的信息都没有那么复杂的话，可以尝试去使用 GPT-4o Mini 或者是 Gemini 2.5 Flash 这样的版本。

那么，上下文工程产出的结果到底是什么呢？其实很简单，就是 AI 应用可以稳定的输出能够解决特定问题的、有价值的 AI 应用。这就是上下文工程能干的活。

原来为什么很多 AI 应用下去不好使？因为每一次的输出非常不稳定，有时候灵，有时候不灵。那你在这种情况下就很麻烦，你不知道它哪次灵，哪次不灵。你输出的结果，你还得各种的校验，比如说容错呀什么的，这些东西都要去做。

再往下一步，比如其他的模型里去送的时候呢，你要在上一个结果输出的内容里头，再去挑选你真正需要的东西。这块就很麻烦。

现在的话，有了上下文工程之后，你可能没法要求说我输出的内容才华横溢，但是呢，基本上我是稳定的。我每一次都稳定的输出这样的一个东西。

那你说上下文工程是不是未来方向？是不是这个万能解药呢？赶快出个教材出去圈一圈钱去，或者说赶快去报个班我学一下。这个怎么说呢？下一批新名词还在路上。

在 AI 这个领域里头，日新月异，不停的有新名词出来。而且呢，模型及应用这件事呢，依然有效。

AI 应用当前的定位呢，还是比较尴尬。虽然有了上下文工程之后，很多的 AI 应用就可以去干活了，它真正有价值了，有稳定的输出了。但是上下文工程，只要带“工程”俩字，那就不是给普通人使了。

普通人就说我们看一看就行了。真的让你去写这种上下文工程，没有程序员的能力，基本上是搞不定的。

大模型最终呢，会通过自己的升级，让普通人可以通过闲聊的方式，实现上下文工程的稳定输出。这个最后是可以实现的。不是说你没有上下文工程的能力，你最后就解决不了。

但是现在的大模型还达不到这个能力。但是可能再过个一两年吧，这块应该是可以做到的。但是在这一两年里头，像我们这些程序员，就可以使用上下文工程做出一大堆的 AI 应用，把第一桶金挣回来。这就是上下文工程能够真正起的作用。

那么，上下文工程对于当前的行业有什么样的影响呢？落后的大模型服务商要抓紧升级了，方向已经确定了。

比如说扎克伯格，挖了这么多 OpenAI 的人，赶快干活，让你的 LLAMA 4 或者 LLAMA 4.5 吧，能够很好的在上下文工程里头干活。

比如说华为的盘古大模型，别光抄千问 2.5 了，把千问 3 抄一抄吧。

得把上下文工程跑通，否则的话，小粉红拿着你的这些模型也搭不出AI应用来。

还有就是像Deepseek，可能要进一步的拉长这个上下文。现在Gemini 2.5已经可以达到100万TOKEN，或者到200万TOKEN。LLAMA4其实TOKEN也很长，LLAMA4大概是可以到1,000万TOKEN，但是它对于原生的工具支持的确实要稍微差一些。这可能是未来一些大模型要去努力的方向。

第二个大批量的AI应用就会涌现出来了。一旦大家确定下来，上下文工程是未来做AI应用里的必经之路，这一块的话一定就会快速前进。而且这一次的AI应用做出来以后，它是真的能用的。原来很多人说：“我为什么做了半天最后不能用？”因为没有上下文工程，你的AI应用整个的输出过程是不可控的。或者你为了让它变得可控，让这整个的系统跑得非常慢、非常傻。

最终的结果是什么呢？就是英伟达的显卡又不够用了。为啥呢？新模型的训练需要英伟达，大量有用的AI应用的涌现需要英伟达，很多日常任务向AI应用的迁移需要英伟达，长上下文的吞吐还是需要英伟达。这可能就是现在上下文工程可以给我们带来的变化。

对于每一位听众来说，你说：“我是个程序员，我现在想去学点应用，赶快学起来，不学就落后了。”那你说：“我就是个普通人，你通过我今天讲这个故事，你也知道一下AI应用里头到底是咋干活的。如果产生的结果不对了，不是你所预期的结果了，可能是上面的6个部分和4步哪一步走错了。你稍微有一些逻辑，对于你去使用AI应用也会有很大帮助的。”

好，这个故事今天就讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见！

震撼发布！GPT-4.1，牛马的新工具来了，专为程序员打造百万Token上下文API利器，超低价与高指令遵从度能否颠覆Gemini与Claude主导的工程市场格局？

Luke Fan — Wed, 16 Apr 2025 00:52:31 +0000

GPT4.1发布了！牛马们的好工具终于上线了。大家好，欢迎收听老范讲故事的YouTube频道。

GPT4.1突然发布，这是程序员们的工具。普通的用户你是用不上的。你用网页版，你用APP，甭管是手机端的还是电脑端的，你是付费用户还是免费用户，你都用不到GPT4.1。只有程序员可以通过API调用GPT4.1。

但是这个事儿对于非程序员来说，也是有很大改变，很大帮助的。那么我们今天来讲一讲，GPT4.1到底是一个什么样的东西。

首先，它有100万TOKEN的上下文，这个是非常吓人。100万单词吧，基本上你可以直接塞到GPT4.1里头去，它统一给你处理。而且大海捞针做的也很不错。

什么叫大海捞针？就是比如说你找一个100万字以内的小说，你直接扔进去，然后呢，在里面稍微插几句。比如说OpenAI干什么了，山姆奥特曼干什么了，甭管在文章的任何地方，你稍微插几句，然后你提相关的问题，它能给你找出来。这个玩意叫大海捞针。

很多的模型都需要做类似这种测试。为什么呢？就是说我一次给了你一大堆上下文以后，你是不是通盘考虑了？不会说把其中的一部分扔掉了，或者说我看看开头看看结尾，就告诉你是怎么回事了，不会干这个事。所以GPT4.1的100万TOKEN还是非常强的，绝大部分场景直接可以应对了。

但是现在还不是最强的。现在Gemini Pro 2.5是可以走200万TOKEN的，Gemini Pro 2.0也是可以有100万TOKEN的。但是在其他的模型就没有了，可能也就是64K（64,000 TOKEN），也有一些是128K（128,000 TOKEN）。但是到100万TOKEN的其实还是比较少的。

指令依存度非常的高。什么叫指令依存度？就是你让它干嘛，它就给你干什么，不会说每一次出来的都是惊吓惊喜。你让他去找什么什么样的文章，找什么样的信息，做什么样的排序，按照什么格式输出，他都会非常非常认真的按照你的要求去把它做好。

编程能力有了非常大的提升，但是依然比不过Gemini 2.5 Pro，也比不过Claude 3.7。它的编程能力只是在原来GPT4O的基础上有了很大的提升。

标准版、mini版和Nano版，分了三个版本。为什么要分这么三个版本？速度飞快。当然现在速度最快的不是它，现在速度最快的是Grok 3 mini。这个版本是所有程序员能够使用到API里头速度最快的，原因也很简单。

用的人不多，模型又小，而且后边是马首富。家里头穷的光剩卡了，所以那东西跑的飞快飞快的。我前面有一个项目拿这玩意做，一个回车下去，夸夸夸那个刷的那个字你都看不过来。

价格非常便宜，GPT4.1，特别是这个Nano的版本，100万TOKEN的输入只需要0.1美金，换人民币7毛多钱，就可以输入100万TOKEN了。输出的话是0.4美金100万TOKEN输出，是目前大家能够用到的所有付费模型里头最便宜的一个，没有比它更便宜的了。就算是GROK3 mini，大概也要到0.3美金100万TOKEN的输入。

那么牛马们工具终于更新了，要好好去干活了。程序员们对大模型的要求，其实跟普通人还是有一些差别的。普通人呢说我要跟他聊天，他要显得聪明一点，要给我写的不像AI，要给我有很好的创造力，这个是普通人的要求。

但是程序员呢，通常要求的叫指令依存度、可控性，在这两方面要求是非常高的。因为既然是程序员，我们只是让大模型成为我们整个程序中的一个模块。我们要求的是输入，然后按照一个统一的逻辑，有一个可以预期的输出，这个是程序员想干的。就是真正那些才华横溢，不太听招呼的不是好牛马哈，所以一定是要让干嘛就干嘛的这种。

工程方面呢对于大模型的要求，跟普通人也是有一定差异的。为什么呢？普通人说你这个模型越大越好，越聪明越好。但是对于工程上来说，在满足预期的情况下，尽可能的降低成本，提高效率，提升一致性跟稳定性。在可以接受的成本下，获得可预期的结果，我给了一分钱还是给了两分钱，我就要这个结果出来，这个是工程上的需要。

GPT4.1呢，就像是牛马们突然得到了曲辕犁，这个也是中国古代的一个很著名的发明。有了这个农具以后，牛马犁地的这个效率就会极大提升。GBT4.1基本上就是这么个东西，价格便宜速度快。刚才我试了一下，至少Nano的版本，那个速度非常的快，虽然还没有GROK3 MINI那个快，但是已经很快了。

MINI的版本效果也还是不错的。这三个版本里头，大家可以按照需求自己去选择和优化。你让他做很复杂的事情，你就是选用GPT4.1。稍微简单一些的事情，或者我不需要你去发挥创造力，我给你一堆的会议纪要，你给我总结归纳一下。或者说我去到本地知识库，检索完了东西以后，你给我总结一下，这种事情你用Nano版或者是用mini版足够了，这个效果非常非常的好。

100万TOKEN的上下文。

绝大部分场景都可以满足了。你都不需要去做本地知识库做RAG，你可以直接把文档啪一把都扔给他，说来给我看看怎么回事，不需要去做更复杂的分段了。指令依存度高，这件事是非常非常重要的。

程序员最怕的是什么？叫指东打西，指南打北。像我原来使用GPT-4O的很多模型的时候，每一次输出的结果都不一样，这个让我很烦。我举一个例子吧，我让他给我的视频起标题，每一个标题后头有一个标号，但是呢，他每一次输出的都不一样。有的时候输出的是123，有的时候呢先要写一个引号，再写123，有的时候在前面给你写中文的123。这个就很烦，因为我到下一个环节去处理这个标题的时候，我需要去找到数字123打个点，然后后边是标题的这三行字，但我就找不到。经常是找着找着就出错了，因为我写程序的时候，必须是通过这个比较固定的格式去读取信息，经常会错。现在的话就不会出这种问题。

程序员喜欢的是不需要太聪明，让往东绝不往西，让追狗绝不撵鸡。GPT-4.1就是这样的一个工具。OpenAI在这个时候呢，推出GPT-4.1也是无奈之举。这个老大真的很难当，为什么这么讲？因为AIGC呢是一个基础技术，OpenAI想把AIGC的整个的盘都占住，在里头当老大，这个是很难的。

因为对于大模型的评判标准在快速的分裂。有的说我这个大模型创意最好，就像前面的GPT-4.5似的，我可以去生成各种各样的内容，而且你可以指定说给我按鲁迅那样说，他都可以做的很好。有些呢，是需要做可衡量的项目。什么叫可衡量的项目？就刚才那种创意项目是没法衡量的到底好不好，大家是要靠主观去评测的。可衡量的项目最简单的就是编程，你这个程序编的对不对，里头是不是有错误，是不是把上下文和所有的东西都考虑到了，这个叫可衡量项目。这块也是可以去评估的，谁的大模型编程最好，而且还有稳定性的要求，指令依存性的要求，这块也可以去评测。

大模型还有推理能力的要求，这块你的推理能力够不够好，这也是一个新的维度了。包括速度和价格以及多模态，多模态包括理解和生成以及realtime。Realtime是什么？就是我实时的输入，实时的输出。现在谷歌也好，OpenAI也好，都可以去进行这种real time的回复。就是你拿着一个摄像头，对着人呢也好，对着外面也好，你说这是一什么东西，那是一什么东西，就像是一个真人一样跟他聊天，去打断他，它可以实时的根据摄像头拍到的东西。

和听到的内容，给你进行回复。而且这个多模态还要去评估音频，还有是语音和音乐，还有图片，还有视频。我们要做这么多行业，这么多领域去进行评估。

而这一次，GPT-4.1可以对没有字幕的视频进行理解和分析，而且它现在在这一块的得分是最高的。它比其他所有的这些Gemini也好，包括GPT自己早期的版本也好，都提升了非常多。

GPT-4.5呢，算是一次失败的表演。就是前面先发了一个4.5出来，然后现在又发4.1。因为4.5这个东西其实是给这种Pro用户用的，就是你一个月交200美金以上可以用。后来呢，发现实在用的人很少，它又降低下来，一个月交20美金的人也可以用吧。

现在我也可以用4.5，只是到目前为止我都没有用过。为什么呢？第一个，很贵。虽然我一个月交20美金，他让我用，但是这个效果对于我来说其实看不太出来。为什么呢？因为他的文学上，在他的很多这种创意上做的非常好，但是我是一个程序员，是个直男，他写的天花乱坠的东西，到我这看不出来，还真会有这样的问题。

而且呢，4.5这东西还挺慢，这个也不是我喜欢的。所以到现在为止我没怎么用过，包括4.5的API我也没怎么调过，因为实在是贵。调API的话，你是要按TOKEN付钱的，不是说一个月交20美金就完事了。

GPT-4.5在工程方面绝对是战五渣。为什么呢？就这个价格，就让工程师直接望而却步了，实在是玩不转。稳定性、指令依存度这一块的话，肯定也不怎么样。我看创意越好的东西，这个指令依存度和稳定性就越差。

OpenAI现在在表演什么节目呢？叫“六大派围攻光明顶”。什么意思？就是在推理上被DeepSeek-R1摆了一道。并不是说OpenAI的推理做的不好，只是它原来呢，因为没有其他人竞争，所以它的推理是隐藏的，就整个的推理过程不给你看，只给你推理的结果。

而DeepSeek-R1是上来我就把整个推理的结果原原本本拿出来给你看。很多人看了推理过程之后，我还受到了启发，我还发生了思维的碰撞，可以有一些新的想法出来。在这一块，真的是给OpenAI了一些教训。山姆·奥特曼现在自己出来也承认这件事，他说：“我们并不认为DeepSeek-R1真的有做的多好，但是呢，在这一点上，确实是我们原来没想到。”

价格上呢，也被DeepSeek-R1和DeepSeek-V3摆了一道。这东西确实是便宜。这东西花多少钱训练的咱不管它，但是呢，因为它是完完全全开源免费，各个平台都在部署。

所以呢，DeepSeek V3也好，DeepSeek R1也好，对于很多的第三方开放平台来说，它所提供的这个基本可用的功能是相当便宜的。但是现在，4.1的MINI和Nano的价格已经下来了，但是4.1标准版还是稍微有一些贵的，比4O要便宜。但是应对DeepSeek的V3和R1来说，还是稍微贵一些。

在编程能力上呢，被Claude 3.5长期碾压。现在呢，还有Gemini 2.5 Pro和Claude 3.7。到目前为止，GPT 4.1在编程上的评分依然赶不上Gemini 2.5 Pro和Claude 3.7。在多模态生成这一块呢，视频，它的Sora基本上是废了，现在大家再也不想这事了。图片距离Midjourney还是有非常遥远的距离的，很难追赶。

AI agent方向就是它的下一个大方向。现在面对Anthropic的MCP和Gemini，以及Grok给出的deep research或者deep search这些功能来说，现在还是需要去追赶的。因为它下一个GPT5的版本应该就是要追赶这一块了，所以真的是四面楚歌。

除了这些之外，还有一大堆千问小模型在不停的跑冒滴漏，把各种各样零碎的用户需求都给实现掉了。为什么说一大堆呢？现在通过各种尺寸的千问模型微调出来的一个小模型，在Huggingface上大概有十几万种，所以这个是非常大批量的。

现在的OpenAI呢，在个人用户这边那绝对是遥遥领先。从用户数量、使用时长，其他所有的AI助手加一块大概都赶不上它。但是在程序员和工程方面，已经被Claude、Gemini和DeepSeek给吃干抹净了。我自己应该已经有几个月没有再调用过OpenAI的API了，没必要。你效果又不好，价格还挺贵，还不快，我为什么要调你？

所以我现在已经把自己的很多AI agent里头的大模型都换成Gemini，换成Grok，换成Claude和DeepSeek，都换成这些东西了。当然，我今天上午又把它很多换回4.1了，效果很好，好极了。

现在GPT4.1呢，就是为了挽救工程市场，挽救API市场而诞生的。这个东西并不是给c端用户去用的。那你说4.1是不是牙膏呢？你看这数就知道了呀，人家不叫4.5，不叫4.6，不叫4.7，人家叫4.1，这个肯定还是一个小牙膏。它呢，在这个创意上，在模型更聪明这块做的一般，只是说这是一个比较老实的。

指哪打哪的一个工程工具而已，这个还是很好用的。GPT5呢，估计后边还是要稍微难产一些。现在OpenAI也出来说了，我们低估了GPT5训练的困难，可能还需要再多等几个月，大家才可以看到GPT5。必须在这个时候先稳住局面，使用DeepSeek、Gemini、Claude以及MCP，其实已经可以做很多真正有用、有价值的商品了。

如果OpenAI继续放任这个事情往前走的话，程序员们可能就会被这几种模型直接都抢走了，就不会再向OpenAI去迁移了。那么OpenAI就有可能会变成一个像苹果那样的纯C端公司，这个是OpenAI所不希望看到的。他作为AIGC行业的排头兵，他希望在所有的方方面面都领头，这是他现在会遇到的问题。

OpenAI手里边的各种模型、技术和工程实践呢，肯定还是非常多的。我们现在看到的应该是冰山一角。OpenAI目前在做的事情是什么呢？如果没有人震动它，它可能还在那继续挤牙膏，继续在这晃荡。实际上2024年一整年，它就是这么个状态。但是到2025年，随着DeepSeek R1的出现，发现不行了，必须要冲出来，赶快把后院里头各种能跑能跳的东西都拎出来，稍微的包装一下，打扮打扮就直接上线了。

所以现在我们看到，OpenAI的动作是非常多的。但是即使如此，每一次我们所看到的，依然是OpenAI内部技术的冰山一角。

总结一下：如果不是程序员，GPT4.1跟大家呢，会有一些间接的关系，就是很多新的应用会出来。因为用GPT4.1做应用会更方便一些，而且这些应用呢，速度会更快，价格会更便宜，而且也会更稳定。如果是程序员，或者是说您虽然不是程序员，但是呢，想搞点Agent自己玩一下，那么4.1是一个非常非常有趣的小工具，赶快去玩起来。我已经玩了一上午了，非常非常有意思。

好，这期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型

Luke Fan — Mon, 06 May 2024 00:36:44 +0000

大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲“弱智吧”。

“弱智吧”是什么呢？它实际上是一个百度贴吧，里面有很多独特、简短的文字，带有哲学、脑筋急转弯、幽默感，甚至很优美的内容。大家会说：“我们是弱智，我们要到弱智吧里面去，贴一些弱智的内容，贴一些弱智的问题和答案。”但随着时间的积累，人们发现，这正是“大智如愚”的体现。弱智吧的很多内容也被大家筛选出来，贴到小红书、抖音等各个平台上，惊艳了一大片人。

这真是非常神奇的事情。有人感慨：“我们很聪明的人没有惊艳到别人，而是一帮‘弱智’惊艳到其他人了。”弱智吧里有些什么样的经典语录呢？比如“吃什么补什么”，告诉我们“吃苦成不了人上人，只有吃人才行”。这样的内容看似无厘头，但仔细思考，你会发现吃人才是成为人上人的唯一原因，因为“吃什么补什么”。它巧妙地结合了中国传统文化的内容。

还有其他有趣的例子：“工人罢工之后就成了人”，“原来你是工人”；“四川人至死不渝，重庆人乐不思蜀”，这两个相邻的省份和直辖市，四川人似乎到死都不愿去重庆，而重庆人却乐在其中。

这就是弱智吧里常见的一些内容，充满了创意和趣味。不想四川了，啊。

这是…也是把中国传统文化里的一些梗串在一起了。甚至还有啊，苦难是生命的防沉迷系统。这个世界是一列高速行驶的列车，我们不是乘客，是燃料。向禁欲的寺庙去求姻缘，向不出门的方丈去问人生，向路边的瞎了眼的道士去看前程，向最爱你的人去证明他没有那么爱你。啊，这也是《弱智八里》的信息。

然后，咖啡因来自咖啡果，所以咖啡因是果，咖啡果才是因。这也是把以前的这种因果循环，很多佛学的东西加在里头。有人看不到未来，其实是看到了未来，哇，这也是里面经常经典的一句语录了。还有些什么呢？

生鱼片是死鱼片，等红灯是在等绿灯，救火是在灭火，指南针主要是指北。大家看到了以后会突然愣一下，然后再去思考。思考完了以后，有些是会心一笑，呃，有些可能真的是会回忆起心中的某一些苦涩。但最终可能也还是只能会心一笑。

既然有这么强的《弱智吧》，现在大家要都在搞人工智能，都在搞AIGC，搞大模型了，那咱们肯定是不能放过这些大模型。所以呢，有一段时间就开始流行用弱智吧的问题去考教大模型。任何一个新的大模型出来以后，都是会把弱智吧的问题拎出来问一遍，看看大模型是不是足够的弱智吧。

最早翻车的应该是百度的文心一言，后来他们针对弱智吧的很多问题进行了特定的修正，效果呢，稍微好了那么一点点。现在基本上，只要是跟中文相关的大模型出来以后，都会弱智吧一把。经常会被拿来问AI大模型的弱智吧问题，是什么呢？

为什么我爸妈结婚的时候没有邀请我？
高中想要提升升学率，为什么不直接招大学生呢？
为什么晚上睡觉的地方叫酒店，而晚上喝酒的地方叫夜店呢？
网吧能上网，为什么弱智吧不能上？弱智呢？
说一个半小时是几个半小时？
陨石为什么总是落在陨石坑里？
人如果只剩下一颗心脏还能活吗？
蓝牙耳机坏了，去医院挂耳科还是牙科呢？
小明打开水龙头…
是因为开水龙头烫到了小明的手吗？他其实在考验的很多是什么。你的分词是怎么分的？这些相关的近义词、同义词、反义词，以及语言背后的很多梗，到底是什么意思？比如说，关于酒店和夜店的故事，关于说，“哎，你父母结婚的时候为什么没有邀请你？”的问题，他其实在后面是带有很多的就是直接问话之后的潜台词。你如果这些潜台词搞不明白的话，那么这件事情基本上你是没法回答的。所以很多的AI大模型，遇到了这样的问题之后，如果他只进行一层思考，那必然回答是错误的。既然这样，咱干脆拿弱智巴来做大模型训练，不就完事了吗？

于是啊，中科院、滑铁卢大学和灵异万物，他们呢就把这个事情组织起来说，我们拿弱智巴的数据进行训练吧。其实刚我刚才讲的案例里头，大家会看到，像百度其实早就训了。那为什么今天咱们要讲中科院、滑铁卢大学和零一万物拿出来训练呢？因为他们训练的结果是开源的。训练完了以后的这些数据集也是开源的，你拿着这些数据集，就可以去调整自己的大模型了，而不像百度似的，发现丢人了，关起门来，我去做一下调整和测试，然后啊再开开门，你看这回会回答这个问题了吧。啊但是他是不是会回答其他问题，然后别人是不是可以通过这个过程学到一些什么东西，就通通都没有了。这就是必元的这些大模型的一些弊端啊，开元大模型的或者一些开元的玩法啊，他们就会给大家整个的这种训练啊，整个的模型应用的能力提升做出一些贡献。

弱智吧，大分大智若愚，弱智吧，才是人类面对AI的最后一道壁垒。为什么讲这个呢？就是很多人说，你看看这个人到底是人还是机器。以前我们要让他做图灵测试，但是到这里来，把弱智吧的题给他读一遍，然后看看他到底能不能做出来，来判断他到底是人还是AI。弱智吧到底是不是人类面对AI的最后一道壁垒？那肯定不是。现在，既然大家已经开始拿弱智吧的问题去训练AI了，已经拿它去训练出很多的模型，优化的这个结果了，而且那个真的是结果，经过弱智吧训练的这些模型，打分是非常高的。那么我们现在需要的是高质量语料。很多人在去讨论说…

为什么中国没有产生CHANGPT的时候？有一个很神奇的论点，就是说中国缺乏高质量语料。其实并不缺。以前大家都说，全世界的高质量英文语料大概是6TB左右，这个数据不知从何处查得。但是，这一次拉玛3就打了所有人的脸，说你看我用15T的数据去进行训练，训练完了以后，效果确实是遥遥领先。而这个15T的数据里，有大量的其实是由AI自己生成的，然后由AI去审核、去过滤的这样的数据去训练。这些数据里头有95%是英文的，只有5%不是英文的数据。更不要说中文了，中文跟所有其他语言混在一起，占最后的5%。

现在我们到底怎么去给拉玛三做继续训练，怎么在他这个基础上去做提高？其实，国内很多做大模型的公司已经在这里跌了跟头。别看网上有很多人说阿拉玛3可以自己去做微调了，可以怎么怎么样，甚至还有些人给非程序员出教程，那其实是骗人的。真正的大模型公司，他们会拿拉玛3的模型做完训练之后去做验证，去做跑分。虽然跑分这个事情跟我们的主观评测、主观感受有一定差距，但跑分还是他们验证、测试训练效果的最好方法。现在他们对拉玛3进行的各种微调，在训练所有的这些事情，大部分结果其实是变差了的。就是你训练完了以后比原来更差，拉玛三不擅长中文，你对中文进行了一堆训练以后，中文能力没有提升，英文能力反而下降。这个事情是蛮多的，所以大家不用那么狂欢地说，我要去拿拉玛3去做训练了，先去等一等看。现在我也在找人说，咱们是不是拿弱智吧的数据集把拉玛3再训一遍试试，但是最后能不能得到效果，还要再去等。那么，到底如何找到高质量的中文语料呢？刚才我们讲，弱智巴是一个高质量的中文语料，中科院的巴、铁路大学的和零一万五三拨人凑一块，他们干嘛呢？把弱智巴找出来，弱智巴的帖子很多，排序嘛，找点赞最高的500个帖子，把它找出来。先把这个标题取出来，“你到底都问了什么”，然后用GPT4做些回答，再进行人工的修正，再参考原来弱智吧里面的一些内容，混入到数据集里边去。包括小红书、知乎、豆瓣、百科也都没放过。就是大家把各种各样的信息都拿出来，做训练了。

但是人类最后处理的方式是：人类提出问题，人类回答，人类筛选，然后由GPT4辅政，再用人类去标注，入库训练。这就是整个的一个过程。整个训练完了以后，弱智吧的数据是效果最好的。就他们用小红书的数据，用豆瓣的数据，原来很多人说豆瓣应该是一帮文艺青年，应该拿那个玩意数据训练出来效果最好。但是现在不知道为什么，是弱智巴的语料训练的效果是最好的。而且很神奇的是，用弱智巴语料训练出来的大模型，他们在零一万物的E34B上做了微调和继续训练，发现这个模型写代码编程的能力莫名其妙的上升了。

大模型真的就是一个黑盒子，就是你对他进行训练以后，他可能有些能力会上升，有些能力会下降。他们发现，弱智吧训练完了以后会写程序了，会做各种逻辑相关的这种判断，这个会更强一些。而且呢，他们真正做得好的地方是，不是说他们把已经训练过的E34B拿出来给别人用了，现在他们训练过的E34B还在他们内部，什么时候能拿出来还不知道。但是他们做了一件事情，他们把弱智吧用来去训练的数据集开源了。这个数据集在哪呢？在huggingface上，在github上都有，大家可以上去去找，很多开源的数据集，大家都可以在上面找。比如说你要写小说，上面有专门的小说数据集。你只需要把这个数据集拿出来，跟一些认定比较好的大模型去进行训练，这样就可以更好地去写小说了，包括写玄幻小说或各种带设定的小说。他们都会有这样已经标注好的数据，你不用再重新学习和自己做标注。人类不需要反复重复发明轮子。当然，像百度那样，他们可能做完后只说自己有，别人没有。但做开源模型的人会把中间训练的数据集也直接开源，你可以在上面找。现在，弱智吧也可以自己下载去训练，但训练的结果没法保证。我们不能保证用了弱智吧的数据训练后，模型就会变聪明，这是没法保证的。

为什么呢？就像有个学校说，他们学校的学生都能提分多少多少，然后你满怀希望把孩子送进去，训练后发现高考提分没提到，你不能去退钱。人家最后会告诉你，可能是孩子不够努力，或者有其他问题。因为这是一个黑盒子。但至少他们给你开源了数据，你可以用，这比百度那种完全闭门造车的要强很多。

大模型的本身其实是一个黑盒子，就像上同样的补习班，有的孩子提分明显，有的可能降分，甚至有些直接崩了。大模型也是这样的东西。那么为什么弱智吧的效果特别好呢？这个事，其实谁也说不那么清楚。

有些人进行了一定的逻辑分析，称赞说：“你这个逻辑很好，虽然里面都是2到3层的转折逻辑，甚至包含很多诡辩和脑筋急转弯。它是一种极端的端到端思维，我有一个开始，有一个结束，但中间的运转过程，我不说。”这种弱智的神奇之处在于，尽管可以逻辑分析，比如每天有人打电话说：“你好，我们是人大附中退休老师开办的补习班，我们家孩子高三，所以这种电话每天都会接到。”他们告诉你一个逻辑，但你不能由此推导出孩子去补习班就一定能学出来，真的不一定。他们这么做，只是想表明这是符合逻辑的。在众多补习班或大数据集中，选择某个进行训练，可能会提高成功几率，但每次训练的结果只有0和1，过程不可拆解，也无法详细分析。这就是现在AI大模型的奇怪之处。

那么，为什么学了弱智吧就会编程呢？参考上面的讨论，这其实没有任何逻辑可言。现在有人主张学习哲学，问：“是不是应该学一些哲学？”我们已经给大模型提供了各种语料，是否应该加入更多哲学相关的信息，让模型训练后向AGI的方向发展？我们尝试用弱智吧的信息进行训练，结果在各种评测中领先。对此，我们只能说结果如此，现象已经呈现，但要分析清楚原因，比如是否学了哲学，或者学了什么，还无法明确。

先讲政治，这样的事情，他就对齐了。这个事情是没有任何可以直接进行关联的逻辑的。啊，也有可能有些模型，比如说用哲学相关的语料训练之后，他的逻辑能力反而会下降。这个可能性是非常大的，特别是在一些不那么讲逻辑的地方。那里学的各种奇怪的哲学，因为我们现在冠以哲学之名的东西是蛮多的。这个都很难说的事情。这就是我们今天要讨论的问题：用弱智吧的内容去训练大模型，导致大模型的性能提升了，到底给我们带来什么样的思考。如果你说，哎，我是想去用弱智吧的东西也训练一下自己的大模型，怎么办？到黑根face里边去搜索，你是可以找到这个数据集的。或者你到灵异万物，到其他地方去问，你也可以找到这个数据集。你也可以拿这个数据拿回来，自己去训练一下。但是一定要记住，我们不保证所有的人上了同样的培训班之后，上了同样的补习班之后，你都可以去提分。这就是跟大家讲的今天的故事。好，今天的事情讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。