推理能力 – 老范讲故事｜AI、大模型与商业世界的故事

马斯克重磅发布GROK4：史上最聪明AI大模型横空出世，强化学习碾压GPT-4与Claude，20万张H100显卡大力出奇迹，中美科技差距再度拉大，谁将主导AI未来？

Luke Fan — Tue, 15 Jul 2025 00:42:44 +0000

史上最聪明的AI大模型GROK4诞生了。马斯克亲自坐镇开发布会。视频发布会呢，并不是特别的顺畅。第一个呢，是他晚了一个小时，也没说为什么。反正马斯克的直播经常会晚。然后呢，太多的东西需要集中发布，上下衔接的呢比较仓促一点。

最早期很多的互联网公司开发布会也是这样的，两三个小时七差咔嚓发一大堆东西。后来OpenAI这些公司习惯了在网上开直播以后呢，就慢慢把这风格改了。改成什么呢？就是每次发一个功能，发个十分钟二十分钟就完事了。然后呢，不停的发，每个月发每个月发。Xai呢，现在还没有彻底学会这件事情，还是一股脑给大家扔了一大堆东西出来。

我们以前在面对创业者的时候，每次都会苦口婆心的去做一种劝告。大家可能不知道会劝什么。作为投资人来说，我们每次看到任何一个创业者，都会上去劝一件事，叫不要憋大招。你一次要惦记着做一个大的东西，就很容易失败。你应该是做一些小的东西，一点一点放出来。OXAI现在还是憋了一个大招。当然了，XAI后面呢，也会每个月发布一个新的工具出来，它也慢慢的向这样的一个方向去前进。

8月份呢会发编程，9月份呢会发多模态。虽然现在的GROK4呢，也号称是可以出图吧，但我不确定他是可以做图片理解的，做视频理解。但是呢，他这一块应该还不是很满意，9月份应该再会去做发布。10月份呢会发视频。GROK4的模型要直接做视频生成。一个百无禁忌的模型，能够做视频生成，还是挺值得期待的一个事情。

到年底呢，准备发企业功能包。这是个什么东西？GROK4是允许私有化部署的。你可以向他申请说，我家里有这个云，我们企业要用这个东西，给我部署到这边来。GROK4还会有合规工具包，企业级的技术支持。美国区的Oracle云账号，现在已经可以使用Grok 3了。Grok 4还需要等。Oracle云并不是XAI自己家的云，你可以在上面使用Grok 3。

一些测试呢，其实也并不是特别成功。比如说命令它唱歌，结果呢，这个东西没有唱歌，他做了一个诗朗诵。当然了，不论是唱歌还是诗朗诵，对于一个机器发声TTS的一个功能来说，已经是很强大了。既然敢在上面当着马斯克的面要求他唱歌的话，那说明这个东西是会唱歌的，只是当场没唱出来而已。

那么GROK4到底是一个什么样的模型呢？妥妥的叫别人家的孩子。什么叫别人家的孩子？就是你看邻居家的小明，怎么考的这么好，每天上课都多么专心，经常被老师夸奖。

GROK4呢，属于典型的理工男模型。GROK从三开始，一直是有一个很双面性的东西：一方面是理工男，另外一方面呢，比较百无禁忌。GROK3有一些比较奇葩的用法，待会咱们再去讲。GROK4我估计会继承这些使用方法，而且会变得更加厉害一些。

但是，马斯克作为一个理工直男，跟一帮工程师坐在那发布GROK4，肯定是奔着理工男的这个方式去发布的。所以，其他那个用法他就没怎么讲。所有跟做题相关的数据都被刷了。而且，这一次是遥遥领先。前面呢，Gemini 2.5、GPT O3 O4、Claude 4这些呢，他们在刷这些题、刷这些排行榜的时候也会有提升，但是提升的不会那么高，经常是这个我高一点，那个你低一点。

但这一次的话，GROK4完全属于是断层式的碾压，一下比别人高了非常一大块。特别是大家提到的，有一个叫“人类终极测试”的竞赛。上一个冠军呢是Gemini 2.5，正确率呢是21%。GROK4，不使用任何工具，就闭卷考试26.9%的正确率；使用工具就是41.0%的正确率。如果使用叫Grok Heavy，一个超重的模型，它是一堆的GROK一起来干活，干完了以后自己相互吵架，吵出一个结果来，它可以达到58.3%的正确率。

所有人都在讲说“人类终极测试”，什么是“人类终极测试”？它呢是一套测试题库，2,500道题。发起人是谁呢？有一个叫Center of AI Safety（CAIS，AI安全中心）这样的一个机构为主导构思与学术把关的。那么，谁出钱呢？谁做工程技术实施的呢？叫Scale AI，就是刚被美塔投了一大笔钱进去的，那个华人小伙子创业那项目，140多亿美金刚投完资的那个项目。他来去提供的数据工程和资金支持。

做这种题库并不是那么贵，花不了太多钱。启动呢，是2024年9月16号，公开全球征题，标榜找出AI也答不出来的难题。花了多少钱呢？给了50万美金的奖金池。Scale AI给的钱，最高呢5,000美金一个题，奖励前50名作者——就是你出的题特别好，5,000美金一个题。第二梯队呢是500美金一个题。后边呢就是100美金每个错误——我把题上来了，大家来找错误。

现在这个题库呢是在GitHub上，在Hugging Face上都有，大家可以上去找错误。找到了错误，给它修正了，可以得到100美金。所以呢，它整个的运作方式就是50万美金一个奖金池，咱不停的发。到现在为止呢，依然在不断的更新这些题库。

这个题库呢是公开征集的2,500道题，41%的数学题，14%的多模态的题。另外呢，还保留了私有隐藏集防止过拟合。过拟合什么意思？就是说我刷题呗，除了这个题之外的东西都不会吗？前面这个Llama4就是死在这个过拟合上了，题刷的特别好，结果发现不是这个题库的题不会做了。

他怎么来预防这个过拟合呢？就是有300道题是隐藏的，任何人去刷这个题库，你看不到这300道题。用AI大模型去做这个题的时候呢，它就会把这300道题拿出来，这个模型就始终会遇到新题，遇到没有做过的题。

整个的这个运作方式呢，第一个是叫众包的征题，大家都来出题。第二个呢是做前沿模型的筛选，就是用当下最强的大模型（GPT4O，Gemini2.5，Claude 3.5）这些题呢进行模拟考试。当这些模型的得分不比随机猜好的时候，这个题目才会被保留下来，进入人类最初考题的这个题库。比如说咱们原来都讲a b c d考试嘛，咱们全填a得25分，如果这个这些大模型做的分没有超过25分，我们就把这题留下来，超过了我们就这题不要了。它是这样来出这个题的。

出完这些题之后呢，再进行两轮的人类专家复核，在Git Hub和Hagging face上面去公布，让大家去找错误版本。定版以后保留私有级并记录版本哈希，他是这样来工作的。

你说人到底能做成什么样人类最终考题？人呢目前为止，没有一个公开可验证的成绩。有人试过，据说是需要耗费极长的时间去做，但是也没有人呢去真正公开说我到底得了多少分。所以马斯克这次说，他的大模型可以做到50多分了，说应该已经超过了绝大部分的人类，我觉得这个事情是可以这么认为的。

马斯克认为呢这一次他发的GROK4就是有史以来最聪明的大模型了。当然了，马斯克这个嘴呢，大家就听就好了，因为GROK3发布的时候他也这么说的。而且马斯克讲了说他的GROK4已经达到了全科目博士水平了。

那么GROK4到底有什么不一样的地方呢？它是第一款预训练和强化学习相对比较平衡的大模型。什么意思呢？正常我们去做一个大模型是做预训练嘛，做一个模型出来。做完这个以后呢会去做强化学习。所谓强化学习呢，就是状态动作和奖励，在某一个状态下，我要求你去做一个什么动作，如果做对了我给你奖励，做错了就没有奖励。这个大模型自己按照积累更多奖励的方式进行训练。像我们比较熟悉的比如Deepseek R1推理模型也是如此。

就是他先去做一个基准模型，叫Deepseek R1 Zero。然后呢，在这个模型的基础上去做推理的强化训练，得到了Deepseek R1。

但是，以前传统的模型是怎么做呢？就是先消耗巨大量的算力和数据进行预训练，把这个Zero（0）模型做出来。然后呢，再用远小于预训练成本的算力去进行强化学习。一般呢，它的强化学习的成本大概也就是预训练的10%到20%左右。

然而，GROK4呢，它是预训练跟强化学习所耗费的成本与算力基本相等，两边一样多。所以它是有史以来第一次用这么多算力去做强化学习的模型。当然，你像Deepseek，它想干它也干不了，20万块显卡它没有。

GROK4呢，首先是使用GROK3的一部分权重，就是有些层次的权重它就直接用了。然后补充数据之后进行预训练，得到了一个叫GROK4 base的基础模型。接着，投入空前的算力进行强化学习，投入了20万张算力卡直接进行强化训练，按照奖励最大化、长程回报的方式。

什么叫长程回报呢？就是你要做很长的推理，要积累正确的奖励，让这样的一个算法去进行训练。而且呢，是动态的任务池，包括数学推导、代码单元测试、商业模式和人类最终题库，这些高级的环境都要进去进行强化训练。

XAI呢，直播的时候讲到说，模型越聪明，强化训练的任务呢就越少，需要自己动态地去做题，否则你就没有那么多题可做了嘛。智能体在模拟环境下或者是真实的API工具中试错、自我对弈。因为有一个叫做Grok heavy的模型，就是一堆的Grok的模型自己跟自己之间吵来吵去的，最后看看怎么能够提高训练效果。

在训练期，让代理互相评论；推理时，并行生成交叉式复审核成答案，再去进行这样的学习。所以它的这个算力是非常浪费，但是效果很好。而且呢，它会监控成功率，当大于80%的时候，会自动生成更难的对手、更长的推理链，解决奖励稀疏的问题。

就跟原来说小学生：“哎呀，我今天考了95。”一回到家里以后，父母肯定说：“你为啥不考100呢？前面还有人没有？”都是这样来训练出来的，就不断地PUA，这个产品就出来了。

它的强化训练计算量达到了同类产品的10倍以上。GROK4的强化训练连续跑了7周，每天消耗的电力相当于一座中等城市。所以说，AI的竞争最后是电力竞争。结束了以后，他再把多代理策略的这些东西进行蒸馏，形成一个单代理的版本。

所以呢，我们平时去使用的公开的API调用的Grok，不是heavy的那个。

就是蒸馏后的这个单代理模式。而且除了强化学习之外，还有一个很重要的东西是什么呢？就是原生的工具支持，这个也是非常厉害的。因为现在的大模型都是可以调用工具的，调用方法也很简单，就是你在给它提示词的时候，把工具的描述描述进去。说我这有一个扳子，那有一个锤子，这里还有一个电焊，有一大堆这样的工具。你先把这些东西都介绍给这个大模型，然后呢，大模型再根据说你的提示词进行推理，在推理的过程中来决定调哪个工具。这个东西其实是需要训练的，有些工具你会使，有些工具不会使，或者有些工具你根据这些描述应该如何去使用，它是需要训练的。所以Grok专门在这块进行了训练，它的这个原生工具的知识要比其他的模型要好。所以呢，它叫高度动态的工具知识。

GROK4的工具体系不仅仅局限于文本生成，它能够根据任务需求动态调用外部的API、计算工具、模拟器等等，使得它能够处理更复杂的任务，例如实时推理和决策优化。而且呢，它是多智能体合作，因为这个东西一开始它就是相互之间吵架吵出来的嘛。不同于大多数模型，GROK4的原生支持多智能体的这种合作方面的创新。以前都是以智能体为核心，我们再去调别的工具就完了，但是GROK4支持智能体之间调用的，就可以使得模型能够在推理过程中模拟复杂的多角色互动场景。这在处理开放式任务、模拟环境和长期计划时非常重要，这个是它的一个创新。

然后呢，多模态的知识。Grok对于图片、音频等非文本数据是内建支持的，使得它在处理涉及视觉、声音以及其他感知数据的复杂任务的时候，能够更加高效的融合多种信息源，优化推理能力。通过强化学习和专家模式的结合，GROK4能够在大规模任务中实现更高效的推理，尤其是在与外部工具和数据库交互过程中，提升了准确性和可扩展性。这个就是GROK4真正强的地方。第一个是用了空前的算力去做强化学习训练，另外一个跟大家强调的就是对于工具的这种原生支持。

讲的这么热闹，这个使用起来到底怎么样呢？第一个，我自己的账号是8美元的x账号，这个不让用，只能用GROK3。GROK.com上也只能用GROK3，不让我用GROK4，必须要升级30美金一个月的super Grok账号才可以去用GROK4。你要想去用那个Grok heavy，就是那个特别重的那种相互吵架的这个大模型，一个月300美金，稍微有一点点小贵。那你说我讲了半天我用没用过？用过了，通过API调用。

现在呢，我们可以通过x.AI的网站去调用GROK4的这个API。它上头有一个模型叫GROK4-0709，就是7月9号这一天发布的这个版本。当然，比较遗憾的是什么呢？现在GROK的这个API调用所有的优惠都停止了，只能老老实实地烧TOKEN。也不是很贵吧，去年呢，是每个月送25美金，基本上是够使了。今年是5月份之前呢，同意共享数据充值5美金送150美金，这个也是一个比较不错的优惠吧。但是5月份以后这个优惠就停止了，所以现在就老老实实烧就行了。它呢，是3美金100万TOKEN的输入，15美金100万TOKEN的输出，所以它的整个价格不贵。上下文呢是256k，支持推理，支持多模态输入。

现在呢，它有一个调用限制，每分钟可以调用60次，超过了以后呢它就会卡住你，这个是有问题的。所以，我确实去用去了。使用的感受怎么样呢？这个就当我们跟博士在一起工作的时候，会自惭形秽吗？我相信可能在我听我节目的人里头，有一些人是博士。你跟博士一块去聊天，一块去干活的时候，真的觉得他们特别伟大光荣正确吗？其实也没有。博士有时候未必懂得人情世故，未必好打交道。我个人的感受呢也是如此，并没有感觉比ChatGPT或者Claude好更多。有时候呢也犯一些比较低级的错误，质量，指令的依存度并不是很好。

我做了几个测试吧，比如说我要求的他先去做搜索，根据搜索一些信息去给我做总结。出来的结果呢，会混杂html的标记在里头。因为你搜索的结果是带html标记，语言那些标记的嘛，出来了以后就会带这个。我在提示词里写着说不要带html标记，把相关的标记转成Markdown，发现依然是带着这些标记就出来了。所以呢至少到目前这个版本吧，效果还没有那么好。但是他们应该内部还在迭代吧，可能很快就会改过来吧。

在处理日常工作这方面呢，他的能力与科研能力之间其实并没有直接的联系。就是大部分人其实都可以处理日常工作，但是很少有些人可以去做这个科研。而GROK4主要提升的是科研能力，所以前面我们讲所有跟数学相关的，跟这个推理相关的遥遥领先。但是处理日常工作这块呢，基本上也就这样了。一个理工直男博士，往往是笨嘴拙舌，缺乏生活常识，以及指令依存性不是很高的一个人，符合我们对博士的这种刻板印象吧，或者也属于在情理之中的一个事情。

所以现在日常工作处理方面呢，到底考核什么？第一个是工具能力，第二个是指令依存度。

第三个是一些对齐的能力。这块其实现在GPT、Gemini、Claude、Grok、Deepseek基本上都能使用，没有特别大的差异。

输出质量呢，在不同的领域各有差异。GPT相对来说是比较均衡的；Gemini呢，有点像理工男；Claude的输出让人觉得比较舒服，但要稍微油滑一点；Grok呢，有的时候给你黑色幽默一下；Deepseek喜欢瞎编。

稍微勉强达标的是谁？就是千问跟豆包，叫勉强达标，稍微要比上面那个梯队差那么一点点。我呢，还没想到具体要用Grok4做点什么高大上的事情，因为对于普通人来说，你也想不出什么高大上的事情让他干去，所以这个先使得吧，价格也不是很贵。

再往后一个问题是什么呢？说好的开源哪去了？马斯克原来讲的Grok是要开源的呀。Grok1现在其实已经开源了，在Grok2发布的时候就开源了。但是呢，也仅仅是开源了而已。正常你开源一个项目，你是要文档、要社区、要维护的。但Grok1开源了以后呢，是一种非常不友好的开源。它那个模型很大，一般人你也部署不了，所以它也没有跟别人去做各种兼容性的适配。有些人去提问题、提意见，他也不理人家，就往这一放就完了。这种开源代码，属于是比较低质量的开源项目吧。

马斯克呢，曾经承诺过，新的模型出来，就一定会把上一个版本开源出去。Grok3发布的时候呢，大家就在等Grok2的开源，当时也承诺了，等Grok3稳定下来，就把Grok2开源掉。现在Grok4都出来了，Grok2跟Grok3就都没有开源的动静了。整个的发布会上，也没有再提开源的事了。对于马斯克来说，贵人多忘事，直接忘掉了吧。

Grok以后会提供企业私有部署的服务，这个呢，其他三家还是不一样的。像Gemini、GPT、Anthropic，他们应该都不会去提供这种企业部署的。以后未来是否会开源呢，还要看未来的策略。其实开源对于他们以后去争取企业私有部署的订单是有好处的。实际上他所谓的开源，也叫开放权重，并不是开放源代码。开源是一个很消耗人力的松耦合和协作方式，马斯克他们XAI现在人也不是很多嘛，所以现在一时半会顾不上。

也没准到年底的时候又想起来说，我们再开个源啥的，大家可以再继续等待一下。马斯克现在呢，应该也没太考虑到XAI到底能不能挣到钱的问题，反正他现在不停地往里募资，不停地融资，融的钱也够他花的，因为他人不多嘛。

也不需要跟别人去抢人，主要花的钱都是烧算力去了。买显卡、烧电费，就干这玩意去了。

再往后呢，咱们看一下大模型的意识形态问题。因为Grok呢，是一个比较奇怪的大模型。咱们要知道，最一板一眼的大模型，或者说道德感最高的大模型是Gemini。GPT呢，原来道德感也很高。最近的一段时间，特别是Deepseek R1出来以后，这段时间呢，GPT实际上是把道德感降低了一些。最没有道德感的实际上就是Grok。

Grok呢，最近还出了一个特别神奇的事情，叫做“日本烟花事件”。怎么出的事呢？就是做了一次黑色幽默。应该在7月5日，有人放了一个特别漂亮、特别大的一个烟花的照片，就在那说：“这是日本最大的烟花了。”另外一个人呢，回复说：“应该还有更大的吧？”这个时候呢，就有人去问Grok了，就@Grok在Twitter里头，在X里边问他：“什么时候日本有过更大的烟花？”

Grok就回答了：“日本广岛跟长崎被丢原子弹那两次，是更大的烟花。”日本人肯定不乐意了嘛，说Grok太不照顾我们的民族感情了。Grok呢，还在那嘴硬说：“这是一个黑色幽默。如果你感觉不舒服的话，我道歉一下。但呢，这就是一个历史事实，我也没有编什么。”

日本网友就说了：“说两颗原子弹呢，杀死了很多的无辜民众，这个才是事实。”Grok的回复特别逗，他说：“南京大屠杀这个才是历史事实，有很多的无辜民众被杀了。”然后日本网友说：“南京大屠杀这事是个谣传，没有南京大屠杀，凭什么说这是历史事实呢？”Grok又去回去了：“有各种笔记、照片，还有审判的一些记录，都已经证明了。虽然死亡人数上有争议，但是南京大屠杀是被普遍认可的历史事实。”

就是这样的一个故事，让日本网友稍微有点小破防。日本人现在正在想说：“我们是不是要去抵制一下特斯拉呢？”这事是7月5号发生的。7月10号早晨，XAI把Grok相关的评论都删了，准备开发布会了。发布会之前，不能有这种不和谐的声音在这里。

Grok干类似这种有争议的事情，其实也不是一回两回了。他经常做这种黑色幽默，得罪一些人。但很正常吧，黑色幽默通常是有一些冒犯的，不能保证所有人看着都很开心。你要如果所有人看着都很开心，那就不叫黑色幽默了，那玩意叫“伟大光荣正确”的。

Grok呢，曾经出现过意识形态投毒的事件。2025年5月14号，Grok对于用户无关提问，比如棒球、HBO更名等等这些事情进行回复的时候呢，反复提及南非白人种族屠杀和“kill the boy”，应该是BORER吧。

这样的一个歌反复在提这个。这一行为呢，引发了广泛的关注。因为白人种族屠杀是一种极具争议的极右翼阴谋论，已被南非法院和多个权威机构驳斥为缺乏证据了。

Grok甚至在某些回复中称，这是被Xai的创造者所指示的，将这一个问题视为事实、种族动机驱动的一个事件。这是Grok承认的事情，因为马斯克自己始终坚信南非是存在针对白人的种族屠杀的。因为他是老板嘛，所以就有人把这个东西直接写在系统提示词里头，直接投毒投到x上去了。大家在x上发帖的时候，如果你@grok，他有时候会回来回帖的。

这一次日本的烟花的事件呢，也有人指出了为什么他就这么去怼日本人，而且会去提到南京大屠杀呢？有人说XAI团队里的中国人占比太高了，特别是在中国大陆出生、接受基础教育的人，占比是最高的，基本上大概占一小半。到目前为止没有一个明确的确认说有谁日本人在里头。在这里头大概就是中国人、俄罗斯人加上一些东欧的人，是这样的一个团队组成的XAI。

甚至现在有人认为呢，XAI是一个被中国有意识制造的特洛伊木马，派了大量的研究者进去。其实这个事儿不光是XAI，美国所有AI公司里头大概都有一半，没准还有一多半是中国人。而且这些人是在国内接受过初等教育的一些人，占比是非常非常高的。

那么新的态势是什么样的呢？现在Grok的市场地位呢，首先它的市值是第二。最高的呢是OpenAI，3,000多亿美金；1,000多亿美金的Grok是第二。所以它的市值要比Anthropic高很多。其他的大厂，谷歌你没法跟它比，那玩意是上万亿美金的公司。所有的AI的这种新公司里它的市值第二，但是市场占有率呢并不大。

市场占有率最高的肯定是OpenAI，大概占百分之三四十的份额；Gemini是第二，应该有个20%多；Anthropic的Claude有十几；剩下的大概还有30%左右呢，包括Grok，包括LLAMA、千问、Deepseek，都在这个其他里头。

Grok的APP不算x那部分，就是APP自己的日活应该也是有个几百万吧，月活可能几千万的一个样子，就是数量还可以。在一些特定的领域里头呢，被应用的很好。Grok你是可以通过API直接调用x数据的，不是具体说我要看张三的哪一条或者李四的哪一条，不是这样的。而是什么呢？你可以看趋势数据，说最近x上有什么新趋势，你可以直接通过API直接调用它，这个还是很方便的。另外呢，顾忌比较少嘛。

所以，很多人在用Grok写小说。还有呢，因为Grok的顾忌相对来说比较少，所以它有一个比较特殊的用途。刚才咱没讲，就是有一堆人在去研究越狱提示词，让Grok去写黄色小说。大部分的色情小说，其实是Grok写出来的。

按道理来讲呢，应该有人用Grok做工程、技术方面的工作。但是这个可能离我的生活稍微有一点点距离，所以我并不是特别了解。这个应该也是马斯克他们去训练Grok最主要的一个用途。他们不可能说我训练了一个东西出来，可以怼人、可以讲黑色笑话，还可以写黄色小说。马斯克应该也没那么闲吧，人家还惦记去火星呢。

另外一个我们要发现的势头变化是什么呢？就是通过GROK4的发布，美国再次拉开了跟中国之间的差距。把GROK4发布了以后，中美之间的大模型差距就重新拉开了。在科研、工程技术领域，绝对的遥遥领先了。我呢，没有验证过，希望后边不要翻车。因为有些东西我们这讲的很热闹，没准过两天翻车，这个可能性我们不希望看到。

而且这种大力出奇迹的领先，中国因为缺少算力卡，追赶起来是比较费劲的。它是20万块英伟达H100去做的强化学习，中国你凑不出20万块H100了。你要想拿其他的卡去做这件事情的话，你需要比如说200万块，或者更多的一个卡池，才有可能能够达到同样的效果。你要耗可能比马斯克多10倍的电，才有可能达到这样的效果。这个的话还是要看大家是不是有决心了。国内这些大模型公司一般烧不起这个。

如果说咱们想追上这一个事的话，估计要等10月份，川建国同志带着黄仁勋访华了。如果10月份它成行，带着黄仁勋来了，那没准咱还是可以追赶的。否则的话这事费劲。而且这种领先是全方位的领先，因为这是科研速度的全方位的领先。在各个方面的科学研究，Grok都有极大的提速。可能对于中美科技之间，会有一些新的改变吧。

新的方向已经指明了，有卡的公司们那就准备冲了。因为他这件事呢，说的并没有那么复杂。原来大家都是说我们做完预训练，做完这种Zero模型或者base模型，稍微的做一些强化学习就完事了。现在说，我们把这强化学习一直做下去，就可以有非常非常好的效果。那大家干呗。

OpenAI、谷歌、梅塔，这都是手里有卡的人。而且现在梅塔在挖OpenAI的人，前面掉队了。我们有卡，我们要把它干起来。OpenAI现在也在挖人，OpenAI在挖XAI的人，就是在挖Grok的人。因为你把20万块卡堆在一块去干活，让他们之间能够很好的调度。

这个事它也是个学问。既然Xai你已经把事搞明白了，那Openai说来，我花钱挖你的人就完事了。既然GROK4可以靠20万块算力卡做强化学习，直接把成绩拉上去，其他公司肯定是不甘落后的。这个是中国相对来说比较难追赶的一个事情吧。

华为呢，应该学英伟达，自己就别训练自己的模型了，好好搞你的升腾芯片拉倒了。搞了半天的这个盘古大模型，还不够丢人现眼的。

最后呢，总结一下GROK4的发布呢，其实让我想起了一个东西，就是《三体》这个小说里边讲的黑暗森林法则。为什么想起这个呢？黑暗森林里头其实它是四个法则：

第一个是宇宙资源有限，文明生存优先。

第二个叫猜疑链，就是：我怎么向你证明我是好人？我怎么知道你是好人？我怎么相信说你知道我是好人以后会很好的对待我？猜疑链不断延长呢，就容易去打起来。

第三个是什么？就是技术隐藏与技术爆炸。《三体》里讲黑暗森林法则的时候，看到任何人，哪怕他的技术比你差很远，都要一枪打过去，然后把他干掉。因为呢，距离很远，你不知道什么时候能到那，没准你到那的时候，人家技术大爆炸，一下就比你先进了，可能是反过头来就把你干掉了。这是这个黑暗森林法则的前三个要素。

第四个要素就是沉默是生存的策略，就是大家谁也别吱声，在里头藏好。

那GROK4呢，就是一个技术爆炸的冲锋号。因为他一旦上来以后，所有的理工科或者是工程技术方面的科技方面的，就可以大爆发了。美国这些油卡的公司会继续加大算力做强化学习，会快速赶上。中国，追赶也是必须的，我们再难还是得赶。毕竟美国公司里边还有这么多的中国人，比这个任何族裔的人的比例都高。

卡呢，咱们确认肯定不多了，那看怎么去新加坡，怎么去中东土豪那边去，把这些卡再重新聚集起来。或者说咱们把这个升腾的卡看看，拼吧拼吧能不能干点什么事出来。

GROK4应该是会对整个的AI制程行业带来改变的一个大模型，就像咱们年初的Deepseek R1一样。Deepseek R1出来之前，整个大模型圈子里头都是岁月静好了，OpenAI都开始挤牙膏了。Deepseek一出来以后，中国人来了赶快卷呐，甚至有一段时间他们都觉得哎呀，中国已经追上来了。但是到GROK4开始发现，哎，这个距离又拉开了。而且真的是有一样他们可以卡脖子的东西，咱们没有。他有他的训练，完完全全就是靠这20万块卡，咱们搞不定这个事情。他有，直接搞定了。而且这个东西不仅仅是Grok的领先，而是全方位的。

科技与科研的这种领先，所以这一块的话，可能世界格局都会带来一些小小的变化吧。后边我们还有很多的故事可以去讲吧。好，这就是我们今天要讲的GROK4发布的故事。

硅谷上演AI抢人大战！扎克伯格WhatsApp私信突袭，豪掷天价签字费疯狂从OpenAI挖人以求自保？Meta AI的背水一战，能行吗？

Luke Fan — Wed, 02 Jul 2025 00:46:08 +0000

Meta急了，扎克伯格亲自下场疯狂挖人，重新组建AI团队。

大家好，欢迎收听老范讲故事的YouTube频道。Meta的1亿美金签字费最近成为了一个新梗。签字费什么意思？就是说我去挖人，你只要过来签个字，说我同意上班来了，1亿美金到手。这个又算是创造历史了吧。

现在AI呢，确实是资本最密集，和整个行业都在关注的一个点。所以Meta这样的一家美股七姐妹的公司，突然发现自己落后了，那就一定要赶快出来补救。而补救的方式的话，一亿美金签字费。

Meta呢，在Llama4上栽了一个大跟头，而且摔得非常非常惨。这个产品呢本来是寄以厚望的，因为Llama1、Llama2、Llama3，大家都是觉得非常成功。而且呢，Meta算是建立了一个自己的品牌。甭管是谷歌呀，Anthropic呀，OpenAI，你都是闭源，只有我是开源，而且我是开源圈的领军人物。其他的人只要是愿意用开源模型，必须以Llama为基础去干活去。至少在Llama2的这个阶段呢，它这个目标是实现了。就像当年的iOS跟安卓一样，iOS是闭源的，安卓是我开源，你只要惦记自己做手机，想要一操作系统，你就使我的。

但是Llama4呢，就在这上摔了个大跟头。第一个是产品形态很落后，没有什么推理，也没有AI agent呀，这些东西都没有做出来。而且呢，他还把所有的小模型都放弃了。原来Llama1、Llama2、Llama3的时候，都是小模型、中模型、大模型，一系列的一起发出来，大家根据各自的需要去取用。拿着Llama模型回来，再去微调再去训练。到Llama4，给了个中型和大型，没有那种特别小的模型。那你说我现在需要在手机上、需要在电脑上去做相应的服务，做不了了。我想把这个Llama拿回来使不了了。

然后产品的性能也很拉胯。大家去测试Llama模型发现一般，还达不到现在普通的文字模型的水平，更不要说去跟这些推理模型去竞争了，根本竞争不过。而且Llama为了最后能够有一个好看的数据，还跑去刷榜造假。你说你事情做的不太好就算了吧，你还把人品毁了。

Meta这边立的这尊大神杨丽坤呢，每天都在研究一些很高深的东西，跟实际应用之间太遥远，上下完全脱节。Llama在最后的训练阶段，还在跟元宇宙部门抢算力。内部的方向呢也没有确定，所以他遇到了很多这样的问题。

Deepseek和千问呢，现在基本上算是在开源圈里头碾压Llama了。甭管是千问3的最新的模型……

还是说Deepseek R1的0528比这个Llama4肯定还是要强很多的。实际上，你都不需要这么新的模型，你就是Deepseek R1一月份的那个版本，应该是0120那个版本，就比Llama4要强。再加上推理模型都上来了，从小到大，从0.6B就开始做，一点几B、6B、30B、32B、七十几B全都做上来了。你需要各种各样的模型拿出来，去做微调、去做裁剪，都是可以去使用的。

Llama底下这些客户全放弃了以后，AI开源这面大旗Meta要扛不住了。现在旗子已经被Deepseek跟千问给挖走了。而且Deepseek跟千问出来以后，中国的各大团队现在都开始转向开源。Mini Max最新出的开源推理模型很强，Kimi现在也开始转向开源。曾经怒批开源没什么用的李彦宏，都把文心一言4.5最新的模型给开源了。而且下个月OpenAI还要推开源大模型，那在这样的情况下的话，Meta要危险。

遇到了这样的问题，就需要有人出来背锅。老大永远正确，因为老大一旦不正确的话，这个方向就错了嘛，这事肯定是不行的。所以第一个杨立坤，你就要边缘化了。原来你是一尊大神，我们把你供在这儿，结果呢发现你对于实际开发、实际应用来说，差的有点太远了。大神呢，也不会把他轰走，就是留在这儿。具体的事情，杨立坤你就别说话，别动了。

Meta AI的人呢，要为上一次Llama4的失败负责任。这些人就开始大面积离职。做Llama训练的时候还去关注元宇宙，还让元宇宙去抢算力，这事扎克伯格就不讲了。老大呢，亲自就要下场重新组建团队。因为一旦说老大下去了，说我要开始越过原来的AI团队去招募人了，那原来AI团队的整个的体系就全都废掉了。

在这个过程中，143亿美金收购了独角兽Scale AI 49%的无投票权股票，让Alexandra Wang进来，帮他一起去组建新的AI团队。而且在这个过程中呢，还尝试收购伊利尔的SSI，最后失败了，谈了半天人家没进来。还尝试去投资OpenAI原来那个美女CTO米拉，要去投资他的公司，后来也失败了，人家没要他的钱。

扎克伯格挖人，据说是直接通过WhatsApp就去联系去了。WhatsApp反正是Meta他们家的。一些OpenAI的高级研发人员据说是直接接到了扎克伯格的WhatsApp联系。大家注意，WhatsApp跟微信不太一样，微信你是必须要先加好友才能联系到的。

WhatsApp是可以直接冲上去联系的。你不需要加好友，这个东西更像是短信。只是说我不认识你，我冲上来跟你联系了，你可以举报说这个人是骚扰，或者是垃圾的短信，他会把这个号封了。但是你们不用担心，扎克伯格的号会不会被封？自己家的产品，所以他可以开开心心地出去给人发说：“哎，你好，我是扎克伯格，来咱们聊一聊换工作的事情吧。”

人才之间呢，其实是有关联的，经常是一挖一大串。像扎克伯格这样的人下去挖人呢，不会去下场挖程序员的。老大挖的人呢，通常是要求有能力自己组建团队的。他为什么想去收购伊利尔的项目呢？伊利尔原来是OpenAI的创始团队，如果是把伊利尔的项目收回来，你不用干任何事，上OpenAI挖人去就完了。他为什么惦记去把Mira的这个团队弄回来呢？Mira原来是OpenAI的CTO，他如果过来了，OpenAI里头到底哪个人能干，哪个人不能干，这都很熟悉。就这两个人吧，在OpenAI里头都是很有号召力的，那他只要进来，就基本上可以抄底了。

在这里呢，跟大家稍微补充一个小故事吧。就是腾讯早年发家的时候呢，他们也是出去挖人嘛，挖什么人呢？是不是挖了哪个大神回来，就把这个人家整个团队都端回来了？不是这样的。腾讯的这个操作要更骚一点，他们呢，去把华为的HR给挖回来了。你说一个公司里头，谁最了解上上下下，谁能干谁不能干，谁在里边具体干什么？肯定是HR要比各种leader更了解。所以腾讯在早期发家的时候，就挖回来了华为的HR。现在腾讯里边还有很多早期的高管，都是从华为过来的。扎克伯格没去挖HR，还算是稍微有一点点节操的。

盛大呢，早期其实也干过类似这种事情。我们那个时候是挖谁的人呢？挖创新工厂的人。当时呢，是创新工厂刚搬完家，李开复在这点呢，还是不太有经验。他呢，搬完了新的办公室以后，就把原来那个办公室给留那了，各种的东西收拾的也不是很干净。盛大的HR就直接冲上去，把所有的工牌、你座位上的剩的名片全都给收走了。收回来以后呢，就在创新工厂的楼下挨着个给人打电话。当时我记得他们楼下是一咖啡馆，我们大概是派了4个各个部门的负责人，加上HR一起，跟他们开始聊。聊得好的，HR在后面去谈工资待遇；聊得不好的就拉倒。因为创新工厂当时呢，都是学生兵，很多是没有毕业的研究生，他们的薪资是很低的。所以盛大当时挖完人，都是上来说：“我给你两倍三倍的薪水。”那个效果非常非常好。而且盛大挖完了以后呢，还在圈子里四处宣传。

说创新工厂的人实在好，干劲十足，能力非常非常强，性价比非常高。盛大宣传了以后呢，后来还有很多的其他互联网公司也跑去挖人，当时给创新工厂还是造成了一点点小的困扰的。

这一次呢，Meta挖人，OpenAI就成为了首要的目标。OpenAI作为行业的领军人物，挖人肯定是上他那去挖。而且OpenAI呢，这么长时间来，其实一直都是各个基金拉人去创业，或者其他大公司需要挖人回来做AI，他这一直都是众矢之的。只是这一次，为什么OpenAI出来喊疼来了？因为这个1亿美金的签字费，确实是非常狠，大家都没见过。

OpenAI呢，人足够多，也足够好。像其他的比如像Anthropic，还有XAI，人不多，都在老板眼皮底下，少任何一个老板马上就看见了。特别是你要挖马斯克的人，马斯克会跟你急的。所以，这两个公司目前并没有成为这一次Meta挖人的主要的受害人。至于谷歌的话，人太多，走几个根本看不出来。所以这次真正出来喊疼的人，就是OpenAI。

OpenAI自己呢，其实也挖别人的人。他原来主要挖谷歌的人。OpenAI出去挖人的时候呢，主要靠的是高估值和高股票。直接挖什么意思呢？OpenAI自己估值很高，3,000亿美金。那你说给薪水，他肯定给不了那么多。但是你说我给你配股票，我公司的估值很高，我就可以给你配一个很高的股票出来。他通过这样的方式就可以挖谷歌的人，挖一些其他的互联网大厂的人。原来包括像马斯克都出来抱怨，说OpenAI你就趁着你估值高，拿一些现在没法变现的东西，就出去挖人去，这个太过分了。

现在呢，就赶上OpenAI被挖了。那你说为什么Meta挖他的人就这么痛快呢？OpenAI再怎么着，你估值也就是3,000亿美金吧。Meta是一个市值1.2万亿美金的公司，是OpenAI的4倍。而且呢，Meta是上市公司，它那个股票是可以上市流通的。而OpenAI的股票虽然价值很高，但是OpenAI这样的一个公司，到现在上头还有一个非营利组织呢。你最后到底能不能上市，谁也不知道。所以Meta挖OpenAI的人，真的是叫以其人之道还治其人之身，而且真的是要比OpenAI要狠得多。

OpenAI这次的应对呢，也非常有意思。原来大家不停的挖他的人，他其实也没说什么。他肯定自己也觉得很不爽。我记得曾经听过一个朋友去讲什么呢？就是山姆·奥特曼曾经想过说，把OpenAI整个公司搬到印尼巴厘岛去。说为什么呢？

一方面呢，是当时山姆·奥特曼访问印尼时，大家出来说了一些场面话：“你们这风景真好，生活很舒适，我们想把OpenAI整个搬过来。”

另外一个原因是什么呢？这儿不挨着硅谷的公司，也不会有那么多人来挖人。这应该是山姆·奥特曼在印尼参加一些会议时亲口说的话，所以他一直也有这样的顾虑。

这一次，Meta以1亿美金签字费开始挖人时，山姆·奥特曼先出来说了什么呢？他说：“这个事情我们知道了，但到目前为止，我们最好的人都没有被挖走。”这话就属于比较诛心，什么意思？就是你挖走的人不值这钱。那你说，留下来的人怎么想？去了的人怎么想？

比如像扎克伯格说：“我花了1亿美金把人挖回来了。”然后山姆·奥特曼说：“正好我不要的你弄走了。”那你说扎克伯格是不是像吃了苍蝇一样不舒服？

但是，挖了几天之后，确实有一帮人走了，下面的人就开始受不了了，感觉被偷家了，于是他们决定要做一些事情：
1. 重新评估薪资，多给钱，多配股票。
2. 增加休假时间，因为OpenAI也很卷。

这么多产品要发布，而且要求每个月都要有新的重量级产品发出来。去年12月份的连续12天产品发布会，最后被人嘲笑说不够重量，1月份直接被Deepseek刷下去了。Deepseek发布以后，OpenAI现在每个月再开出来的发布会，东西就多多了，再也没有挤牙膏的感觉了。

你想，他每个月都要发东西出来，那对于下面的研发人员来说，是多么辛苦的一个事情。现在OpenAI说：“我们稍微缓一缓，不能被这个产品节奏带着走，我们还是该休假休假，然后好好去做AGI，而不是在每一个产品线路上都要去胜利。”

大家要仔细思考一下这件事情，而且呢，OpenAI还说：“你们谁接到了扎克伯格的WhatsApp连接，就赶快跟我们聊聊，我们一对一谈，全力挽留。”

最后再跟大家补充一个小故事吧：以前金山集团每年春节之后会有一个喝酒局。为什么呢？金山其实在整个中国软件界很有名，就是他的软件人才能力很强，而且工资不高。所以每年都有很多想要向软件方向发展的公司跑到金山去挖人，而挖人通常会集中在春节之后。

春节之前去挖，这些人还没有拿到年终奖呢，你到底是给他补年终奖，还是说一些拿不到年终奖的人带回来？肯定是要等春节之后，这些人拿到年终奖以后再去挖人。

所以呢，当时这个金山就有这样的一个传统，就是喝酒留人。每次到春节之后了，有些人就要提离职，说我要离职了，我要去做其他事情了。然后金山的人就去喝酒，他们也没有别的办法，因为这么大的公司呢，也没法给你涨薪水。那么就是喝酒，一直喝的你五迷三道了，还要不要走？说这个还要走？没说没喝好，接着喝。再喝一会说，你现在还想走吗？还想走？还没喝好，再接着喝。再喝一会说，你还想走吗？不走了，不走了。行了，你已经喝好了，咱们就这样了。这个是原来这个传统。

但是在OpenAI发的内部信里头，有一条我觉得非常有意思，强调公平。什么意思呢？不是说有人挖谁了，你就可以在竞争中胜过别人。你比如两个人在竞争一个职位，有一个人有可能胜出，另外一个人呢就肯定要走嘛。你不能说，我要跟你谈一谈，你要不给我晋升的话，不让我得到这个新的职位的话，我就跳槽。你不能拿这玩意要挟他们，专门写了这样一条出来，我觉得非常有意思。

在资本密集的方向呢，挖人大战本身是挺正常的。在硅谷里头，每过几年就会干一次这样的事情。一旦有什么资本密集的方向，大家就冲上去挖，包括Meta自己其实也被人挖过。当然原来最主要的一个被人挖的是谁呢？是谷歌。这次OpenAI是终于站在谷歌前面了。实际上这一次谷歌也在被人挖，只是人比较多，所以看不太出来。

人挖回来以后呢，也不是说我把人挖回来就可以干活了。刚才我讲了，扎克伯格挖的人，都要自己能够组建团队。那你说挖了一堆人回来，组建一堆团队，谁听谁的呀？所以挖回来的人还要进行磨合和整合，否则的话可能只会剩一地鸡毛。我们见过很多这种，特别着急冲出去挖人，挖完了以后，发现最后不是那么匹配，搞不定这个事情的是大有人在的。

而且Meta现在这个状态呢，其实最着急的，并不是说挖一大堆人回来，组建一大堆团队。他现在最关键要做的事情，是赶快确认方向。那你说Meta不就是要做AI吗？还要确认什么方向？你元宇宙还玩不玩了？还会不会出现这个需要训练大模型的时候，跟元宇宙抢算力这种事情？因为你不但是要抢算力，你还要抢人，抢各种各样的资源。而且你只要做元宇宙，那你说我到底是做基础模型，是做推理还是先去研究，我怎么再把大模型运用在你的元宇宙里头？所以这个里头，他们第一个是要去确认的。

下边呢，是开源。你还做不做？是不是继续在开源这条路上往前走？因为在开源这个领域里头，他已经不是老大了。你要再想把这个老大的牌子抢回来，没有那么容易了。

再往后，AI的独立产品、AI API的这些服务到底怎么个去做法？现在一直没有一个特别明确的方向出来。AI agent怎么落地？这一块煤台已经完全落后了。AI跟现有的产品线到底怎么整合？这个也需要思考。

其实你们看谷歌，谷歌一开始也是说，我们做一大堆的AI的模型，而且是各个部门分开做。后来说不必一定要把它拧在一起，最后形成一个叫Gemini的产品。Gemini出来的时候，一开始说是不是大家都去接呀？最后说算了，咱也别都接了，咱们就是Gemini是Gemini。等Gemini彻底做到，比如到2.0、2.5以后，再去跟各个产品去集成去。否则一堆人下来去提需求，说我们希望你这么接，我希望你那么接，他又实现不了，还影响人家训练大模型的进度。所以现在Gemini在开始向Workspace、Gmail所有的这个领域里头渗透了。

OpenAI站在这个位置上，被人挖是挺正常的。如何平衡内部的机制，确保产品的节奏和方向不出问题？这就是OpenAI应该去做的事情。这就是当前资本最密集的AIGC领域里头，正在发生的抢人大战的故事。

好，这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

震撼发布！GPT-4.1，牛马的新工具来了，专为程序员打造百万Token上下文API利器，超低价与高指令遵从度能否颠覆Gemini与Claude主导的工程市场格局？

Luke Fan — Wed, 16 Apr 2025 00:52:31 +0000

GPT4.1发布了！牛马们的好工具终于上线了。大家好，欢迎收听老范讲故事的YouTube频道。

GPT4.1突然发布，这是程序员们的工具。普通的用户你是用不上的。你用网页版，你用APP，甭管是手机端的还是电脑端的，你是付费用户还是免费用户，你都用不到GPT4.1。只有程序员可以通过API调用GPT4.1。

但是这个事儿对于非程序员来说，也是有很大改变，很大帮助的。那么我们今天来讲一讲，GPT4.1到底是一个什么样的东西。

首先，它有100万TOKEN的上下文，这个是非常吓人。100万单词吧，基本上你可以直接塞到GPT4.1里头去，它统一给你处理。而且大海捞针做的也很不错。

什么叫大海捞针？就是比如说你找一个100万字以内的小说，你直接扔进去，然后呢，在里面稍微插几句。比如说OpenAI干什么了，山姆奥特曼干什么了，甭管在文章的任何地方，你稍微插几句，然后你提相关的问题，它能给你找出来。这个玩意叫大海捞针。

很多的模型都需要做类似这种测试。为什么呢？就是说我一次给了你一大堆上下文以后，你是不是通盘考虑了？不会说把其中的一部分扔掉了，或者说我看看开头看看结尾，就告诉你是怎么回事了，不会干这个事。所以GPT4.1的100万TOKEN还是非常强的，绝大部分场景直接可以应对了。

但是现在还不是最强的。现在Gemini Pro 2.5是可以走200万TOKEN的，Gemini Pro 2.0也是可以有100万TOKEN的。但是在其他的模型就没有了，可能也就是64K（64,000 TOKEN），也有一些是128K（128,000 TOKEN）。但是到100万TOKEN的其实还是比较少的。

指令依存度非常的高。什么叫指令依存度？就是你让它干嘛，它就给你干什么，不会说每一次出来的都是惊吓惊喜。你让他去找什么什么样的文章，找什么样的信息，做什么样的排序，按照什么格式输出，他都会非常非常认真的按照你的要求去把它做好。

编程能力有了非常大的提升，但是依然比不过Gemini 2.5 Pro，也比不过Claude 3.7。它的编程能力只是在原来GPT4O的基础上有了很大的提升。

标准版、mini版和Nano版，分了三个版本。为什么要分这么三个版本？速度飞快。当然现在速度最快的不是它，现在速度最快的是Grok 3 mini。这个版本是所有程序员能够使用到API里头速度最快的，原因也很简单。

用的人不多，模型又小，而且后边是马首富。家里头穷的光剩卡了，所以那东西跑的飞快飞快的。我前面有一个项目拿这玩意做，一个回车下去，夸夸夸那个刷的那个字你都看不过来。

价格非常便宜，GPT4.1，特别是这个Nano的版本，100万TOKEN的输入只需要0.1美金，换人民币7毛多钱，就可以输入100万TOKEN了。输出的话是0.4美金100万TOKEN输出，是目前大家能够用到的所有付费模型里头最便宜的一个，没有比它更便宜的了。就算是GROK3 mini，大概也要到0.3美金100万TOKEN的输入。

那么牛马们工具终于更新了，要好好去干活了。程序员们对大模型的要求，其实跟普通人还是有一些差别的。普通人呢说我要跟他聊天，他要显得聪明一点，要给我写的不像AI，要给我有很好的创造力，这个是普通人的要求。

但是程序员呢，通常要求的叫指令依存度、可控性，在这两方面要求是非常高的。因为既然是程序员，我们只是让大模型成为我们整个程序中的一个模块。我们要求的是输入，然后按照一个统一的逻辑，有一个可以预期的输出，这个是程序员想干的。就是真正那些才华横溢，不太听招呼的不是好牛马哈，所以一定是要让干嘛就干嘛的这种。

工程方面呢对于大模型的要求，跟普通人也是有一定差异的。为什么呢？普通人说你这个模型越大越好，越聪明越好。但是对于工程上来说，在满足预期的情况下，尽可能的降低成本，提高效率，提升一致性跟稳定性。在可以接受的成本下，获得可预期的结果，我给了一分钱还是给了两分钱，我就要这个结果出来，这个是工程上的需要。

GPT4.1呢，就像是牛马们突然得到了曲辕犁，这个也是中国古代的一个很著名的发明。有了这个农具以后，牛马犁地的这个效率就会极大提升。GBT4.1基本上就是这么个东西，价格便宜速度快。刚才我试了一下，至少Nano的版本，那个速度非常的快，虽然还没有GROK3 MINI那个快，但是已经很快了。

MINI的版本效果也还是不错的。这三个版本里头，大家可以按照需求自己去选择和优化。你让他做很复杂的事情，你就是选用GPT4.1。稍微简单一些的事情，或者我不需要你去发挥创造力，我给你一堆的会议纪要，你给我总结归纳一下。或者说我去到本地知识库，检索完了东西以后，你给我总结一下，这种事情你用Nano版或者是用mini版足够了，这个效果非常非常的好。

100万TOKEN的上下文。

绝大部分场景都可以满足了。你都不需要去做本地知识库做RAG，你可以直接把文档啪一把都扔给他，说来给我看看怎么回事，不需要去做更复杂的分段了。指令依存度高，这件事是非常非常重要的。

程序员最怕的是什么？叫指东打西，指南打北。像我原来使用GPT-4O的很多模型的时候，每一次输出的结果都不一样，这个让我很烦。我举一个例子吧，我让他给我的视频起标题，每一个标题后头有一个标号，但是呢，他每一次输出的都不一样。有的时候输出的是123，有的时候呢先要写一个引号，再写123，有的时候在前面给你写中文的123。这个就很烦，因为我到下一个环节去处理这个标题的时候，我需要去找到数字123打个点，然后后边是标题的这三行字，但我就找不到。经常是找着找着就出错了，因为我写程序的时候，必须是通过这个比较固定的格式去读取信息，经常会错。现在的话就不会出这种问题。

程序员喜欢的是不需要太聪明，让往东绝不往西，让追狗绝不撵鸡。GPT-4.1就是这样的一个工具。OpenAI在这个时候呢，推出GPT-4.1也是无奈之举。这个老大真的很难当，为什么这么讲？因为AIGC呢是一个基础技术，OpenAI想把AIGC的整个的盘都占住，在里头当老大，这个是很难的。

因为对于大模型的评判标准在快速的分裂。有的说我这个大模型创意最好，就像前面的GPT-4.5似的，我可以去生成各种各样的内容，而且你可以指定说给我按鲁迅那样说，他都可以做的很好。有些呢，是需要做可衡量的项目。什么叫可衡量的项目？就刚才那种创意项目是没法衡量的到底好不好，大家是要靠主观去评测的。可衡量的项目最简单的就是编程，你这个程序编的对不对，里头是不是有错误，是不是把上下文和所有的东西都考虑到了，这个叫可衡量项目。这块也是可以去评估的，谁的大模型编程最好，而且还有稳定性的要求，指令依存性的要求，这块也可以去评测。

大模型还有推理能力的要求，这块你的推理能力够不够好，这也是一个新的维度了。包括速度和价格以及多模态，多模态包括理解和生成以及realtime。Realtime是什么？就是我实时的输入，实时的输出。现在谷歌也好，OpenAI也好，都可以去进行这种real time的回复。就是你拿着一个摄像头，对着人呢也好，对着外面也好，你说这是一什么东西，那是一什么东西，就像是一个真人一样跟他聊天，去打断他，它可以实时的根据摄像头拍到的东西。

和听到的内容，给你进行回复。而且这个多模态还要去评估音频，还有是语音和音乐，还有图片，还有视频。我们要做这么多行业，这么多领域去进行评估。

而这一次，GPT-4.1可以对没有字幕的视频进行理解和分析，而且它现在在这一块的得分是最高的。它比其他所有的这些Gemini也好，包括GPT自己早期的版本也好，都提升了非常多。

GPT-4.5呢，算是一次失败的表演。就是前面先发了一个4.5出来，然后现在又发4.1。因为4.5这个东西其实是给这种Pro用户用的，就是你一个月交200美金以上可以用。后来呢，发现实在用的人很少，它又降低下来，一个月交20美金的人也可以用吧。

现在我也可以用4.5，只是到目前为止我都没有用过。为什么呢？第一个，很贵。虽然我一个月交20美金，他让我用，但是这个效果对于我来说其实看不太出来。为什么呢？因为他的文学上，在他的很多这种创意上做的非常好，但是我是一个程序员，是个直男，他写的天花乱坠的东西，到我这看不出来，还真会有这样的问题。

而且呢，4.5这东西还挺慢，这个也不是我喜欢的。所以到现在为止我没怎么用过，包括4.5的API我也没怎么调过，因为实在是贵。调API的话，你是要按TOKEN付钱的，不是说一个月交20美金就完事了。

GPT-4.5在工程方面绝对是战五渣。为什么呢？就这个价格，就让工程师直接望而却步了，实在是玩不转。稳定性、指令依存度这一块的话，肯定也不怎么样。我看创意越好的东西，这个指令依存度和稳定性就越差。

OpenAI现在在表演什么节目呢？叫“六大派围攻光明顶”。什么意思？就是在推理上被DeepSeek-R1摆了一道。并不是说OpenAI的推理做的不好，只是它原来呢，因为没有其他人竞争，所以它的推理是隐藏的，就整个的推理过程不给你看，只给你推理的结果。

而DeepSeek-R1是上来我就把整个推理的结果原原本本拿出来给你看。很多人看了推理过程之后，我还受到了启发，我还发生了思维的碰撞，可以有一些新的想法出来。在这一块，真的是给OpenAI了一些教训。山姆·奥特曼现在自己出来也承认这件事，他说：“我们并不认为DeepSeek-R1真的有做的多好，但是呢，在这一点上，确实是我们原来没想到。”

价格上呢，也被DeepSeek-R1和DeepSeek-V3摆了一道。这东西确实是便宜。这东西花多少钱训练的咱不管它，但是呢，因为它是完完全全开源免费，各个平台都在部署。

所以呢，DeepSeek V3也好，DeepSeek R1也好，对于很多的第三方开放平台来说，它所提供的这个基本可用的功能是相当便宜的。但是现在，4.1的MINI和Nano的价格已经下来了，但是4.1标准版还是稍微有一些贵的，比4O要便宜。但是应对DeepSeek的V3和R1来说，还是稍微贵一些。

在编程能力上呢，被Claude 3.5长期碾压。现在呢，还有Gemini 2.5 Pro和Claude 3.7。到目前为止，GPT 4.1在编程上的评分依然赶不上Gemini 2.5 Pro和Claude 3.7。在多模态生成这一块呢，视频，它的Sora基本上是废了，现在大家再也不想这事了。图片距离Midjourney还是有非常遥远的距离的，很难追赶。

AI agent方向就是它的下一个大方向。现在面对Anthropic的MCP和Gemini，以及Grok给出的deep research或者deep search这些功能来说，现在还是需要去追赶的。因为它下一个GPT5的版本应该就是要追赶这一块了，所以真的是四面楚歌。

除了这些之外，还有一大堆千问小模型在不停的跑冒滴漏，把各种各样零碎的用户需求都给实现掉了。为什么说一大堆呢？现在通过各种尺寸的千问模型微调出来的一个小模型，在Huggingface上大概有十几万种，所以这个是非常大批量的。

现在的OpenAI呢，在个人用户这边那绝对是遥遥领先。从用户数量、使用时长，其他所有的AI助手加一块大概都赶不上它。但是在程序员和工程方面，已经被Claude、Gemini和DeepSeek给吃干抹净了。我自己应该已经有几个月没有再调用过OpenAI的API了，没必要。你效果又不好，价格还挺贵，还不快，我为什么要调你？

所以我现在已经把自己的很多AI agent里头的大模型都换成Gemini，换成Grok，换成Claude和DeepSeek，都换成这些东西了。当然，我今天上午又把它很多换回4.1了，效果很好，好极了。

现在GPT4.1呢，就是为了挽救工程市场，挽救API市场而诞生的。这个东西并不是给c端用户去用的。那你说4.1是不是牙膏呢？你看这数就知道了呀，人家不叫4.5，不叫4.6，不叫4.7，人家叫4.1，这个肯定还是一个小牙膏。它呢，在这个创意上，在模型更聪明这块做的一般，只是说这是一个比较老实的。

指哪打哪的一个工程工具而已，这个还是很好用的。GPT5呢，估计后边还是要稍微难产一些。现在OpenAI也出来说了，我们低估了GPT5训练的困难，可能还需要再多等几个月，大家才可以看到GPT5。必须在这个时候先稳住局面，使用DeepSeek、Gemini、Claude以及MCP，其实已经可以做很多真正有用、有价值的商品了。

如果OpenAI继续放任这个事情往前走的话，程序员们可能就会被这几种模型直接都抢走了，就不会再向OpenAI去迁移了。那么OpenAI就有可能会变成一个像苹果那样的纯C端公司，这个是OpenAI所不希望看到的。他作为AIGC行业的排头兵，他希望在所有的方方面面都领头，这是他现在会遇到的问题。

OpenAI手里边的各种模型、技术和工程实践呢，肯定还是非常多的。我们现在看到的应该是冰山一角。OpenAI目前在做的事情是什么呢？如果没有人震动它，它可能还在那继续挤牙膏，继续在这晃荡。实际上2024年一整年，它就是这么个状态。但是到2025年，随着DeepSeek R1的出现，发现不行了，必须要冲出来，赶快把后院里头各种能跑能跳的东西都拎出来，稍微的包装一下，打扮打扮就直接上线了。

所以现在我们看到，OpenAI的动作是非常多的。但是即使如此，每一次我们所看到的，依然是OpenAI内部技术的冰山一角。

总结一下：如果不是程序员，GPT4.1跟大家呢，会有一些间接的关系，就是很多新的应用会出来。因为用GPT4.1做应用会更方便一些，而且这些应用呢，速度会更快，价格会更便宜，而且也会更稳定。如果是程序员，或者是说您虽然不是程序员，但是呢，想搞点Agent自己玩一下，那么4.1是一个非常非常有趣的小工具，赶快去玩起来。我已经玩了一上午了，非常非常有意思。

好，这期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！