AI评测 – 老范讲故事｜AI、大模型与商业世界的故事

GPT-3与O4 mini不再高冷：融合工具调用、记忆与超强图像推理，普通人也能高效应用AI，一文看懂成本、限制与Copilot捷径

Luke Fan — Fri, 18 Apr 2025 00:50:27 +0000

GPT-3和O4 mini发布了，这次绝不再仅仅是科学家们的玩具了。大家好，欢迎收听老范讲故事的YouTube频道。

本来GPT-3和O4 mini发布呢，我并没有抱太大的期望。为什么呢？因为前面O1和O3 mini发布的时候呢，看得我头晕眼花的。我记得应该是在去年12天连续发布会的时候发布的O3 mini，实在是太不明觉厉了。各种的复杂科学问题，咔咔就给解决了，然后各种的排名都排得很高。但是呢，我自己其实并不怎么用。

为什么呢？第一个，ChatGPT Plus用户里边呢，它是有用量限制的，并不是随便让你用的。所以在有用量限制的情况下，你就得省着用，而且你也感觉不出有太大差异来。你说你用它干嘛？据说编程很强，但是它没法跟IDE结合，基本上也就放弃了。你是可以出一大堆的代码，但是你还得向IDE里边去考来考去的，很麻烦。那你说我通过API调用吧，直接使用O1和O3 mini这些模型，实在是贵，所以就放弃了。

这一次呢，真的就不一样了。首先是Greg重新上线了。Greg其实好长时间不怎么出来了，他是在2023年11月份山姆·奥特曼宫变之后，就变得非常低调。2023年11月开始休假，后来是在微软的强烈要求下才回归的。到2024年又开始了长期休假，但是在大量高管离职之后，年底再次回归，还宣布：“我提前俩月回来了，我本来还想再多歇一歇的。”现在呢，主要负责机器人业务，不再担任董事会主席了，保留了总裁的职位。

Greg上来开始显得有一些紧张，不知道该说什么。大家可以去看看那25分钟的发布会录像，后面逐渐放松了，也是长时间不露面、不说话的一个表现吧。这一次的话，全程C位，坐在最中间的位置上，主持O3和O4 mini的发布会，可见重视程度了。

这一次的发布会呢，基本上是二对二的分配，就是两个老板配上两个做事情的。两个老板始终坐着不动，做事情的人呢，就是讲到不同的部分，然后来换。还有一个老板呢，叫Mark陈，首席研究官，亚洲脸，但不确定是不是华人。有传闻其父母是从台湾去的美国。现在呢，有一种ABC脸，看起来有点像华人，但是脸型又不像。这个据说呢，是长期英文发音和美式的饮食习惯，以及美国教育所形成的一种脸型，反正跟华人还是有一定区别的。有可能是个华人，当然也有可能是个越南人，这个不确定。

另外两个呢，是根据演示的过程不同，不停地换工程师。国内引用的照片呢，肯定是有偏向性的。国内各媒体呢……

通常引用的是讲到模型强化训练和各种跑分的这两位工程师。为什么呢？因为里头有一个叫周文达的，是一位华人。国内各个媒体引用照片的时候，一般会引用含华量比较高的照片。

一开始呢，也是讲科学，什么量子力学。本来我也挺失望的。科学的部分呢，对于我这种普通人来说，已经没有那么大关系了——看不懂，没需求，也用不起。所以一看，还是这东西，好像没什么意思。

但是讲到后边呢，越来越兴奋了。咱们讲几个好玩的特性，并不跟大家完整的去复述这个发布会了。有兴趣可以去看这个25分钟的发布会，各种数值绝对是遥遥领先。

OpenAI呢，作为行业老大，他是有自觉的。什么叫自觉？从来不跟别人比数值，只跟自己比。就是他不会说我把Gemini 2.5拎出来比一比，Claude 3.7拎出来比一比，或者跟DeepSeek比一比。别人都是说我比OpenAI强在哪，或者我已经接近OpenAI了。OpenAI永远说我就跟自己比。

所以我们现在可以看到的所有的数值比较，都是跟GPT O1、O1 mini、O3 mini跟这些模型进行比较的，没有跟其他模型比较的数据。

咱们来讲三个有趣的功能点吧。

第一个非常有趣的功能点，也是让我觉得GPT O3和O4mini真的能用了的一个最核心的点，就是它可以进行工具调用了。什么意思？我们正常情况下一个大模型，你让他去给你生成内容的时候，他其实都是在胡说八道的。就算他有的时候说的很像，但他依然是在胡说八道，是在编。他不能保证内容是可验证的，而且你每一次让他说同样的事情，他都给你编出不同的花样来。

那么一定要带上搜索，带上知识库，带上其他的辅助工具，他才可以靠谱的干活。现在推理模型已经可以靠谱的干活了。所以O3跟O4mini是可以进行工具调用的。但是他们绝对不是第一个。在发布会上他们讲说，我们是第一个在推理里边进行工具调用的，这个真的不是。GROK3也是推理模型，也是可以做各种工具调用的。

只是呢，GPT O3跟O4 mini呢，据说在工具调用上要有极大的提升，因为他们在这块专门做了训练。他可以进行几十次的这种工具调用。当你让他去做一个很复杂的事情的时候，他会反复的在他认为需要的时候去调用工具，获得外部数据，或者做一些相应的操作。这个很棒。

O3跟O4mini呢，是在推理的过程中去调用工具，效果绝对是碾压原来不能使用工具的O1，效果好的一塌糊涂。推理模型如果不挂搜索引擎……

不挂知识库，基本上就是胡说八道。他要比正常的生成模型还要再胡说八道一些，因为他想的多，越想就越错。知识越多越反动，这个幻觉是非常非常严重的。挂上搜索之后，基本上不再需要 deep research 这种东西了。现在你用 O3 去挂搜索，跟 deep research 的效果基本上是可以平齐的。

现在呢，OpenAI 内部有很多的工具，包括 Python 执行、调用浏览器、搜索，有很多这样的工具，它都可以自动的去调用。当有这些功能之后，每一个普通人，不需要是科学家，也可以用 O3 跟 O4mini 完成很多任务了。只是目前呢，OpenAI 内部的这些工具，你通过外部你使不了。还有 function call 这个调用呢，现在在代理站上还没有接上，这个还要再等一等。什么意思？就是你直接挂 OpenAI 的 API，挂它原厂的，是可以进行 function call 的，可以把你自己的各种各样的工具放在里边让它去调用。原来我们演示过使用高德地图的工具，让他去找饭馆、规划路线什么的，这个都是可以去使用了。如果我们使用 API 来调用 O3 和 O4mini 的话，OpenAI 内部的什么搜索呀，这些工具我们是无法使用的，就差在这了。这是一个比较有趣的点，但是具体怎么用，待会我们来举一个案例。

第二个有趣的点是什么呢？就是跟记忆相结合了。原来我们专门录了一期视频来讲 OpenAI 有了记忆功能，现在它也有记忆功能。于是我就向它提出了要求，我说：“根据你对我的了解，我是个 Youtuber，给我推荐一些适合我的 YouTube 话题，我要去写稿去了。”然后他就开始去搜索，调用搜索工具去搜索去了。搜索完了以后说：“我发现你是专门讲 AI、讲科技、讲流量、讲创投的博主，我发现有哪些哪些话题最近是最新的，适合你去讲。”其中有一个话题呢，叫 TikTok 降低了海外直播带货门槛。原来呢是要 1,000 个粉丝才可以带货，现在 200 粉丝就可以带货了，说这个你看怎么样？我说这个不错。我说：“你根据你对我的了解，给我去写个提纲吧。”然后他就按照我的习惯，给我夸夸把提纲列好了，说 TikTok 是哪天哪天发了一个什么样的文儿，为什么什么东西，写的还很好的一个提纲。在这个过程中引用了我的记忆，调用了搜索，聚集了大量的信息。我再说：“那你再给我补充点数据和观点吧。”一般我是会有一个自己的观点，我说：“我的观点是什么什么，你给我补充进去。”然后呢，我为了论证我的观点。

我还需要哪些数据？然后，夸夸夸又去搜索，搜索完了给我补充进来。做了两次补充以后，这个提纲基本上就完成了，就完完全全可以用了。过几天咱们去讲这个“TikTok降低海外直播带货门槛”这个故事吧，这个还是很有趣的一个点。所以现在真的是每个人都能用上了。

第三个比较好玩的点是什么呢？就是图片推理。这个图片推理是非常非常强的一个点，绝对不是识别图片，然后将文字作为提示词去推理。我们很多人一看图片推理这件事，都是想的说，我们把这个图片识别一下，变成一大堆文字。不是这样。

跟大家举一个案例吧。我今天去潭柘寺了，玩我的无人机。拿我的无人机呢，在潭柘寺的外面，拍了一张俯瞰潭柘寺的全景照片。我就问O3，我说这是哪？这个建筑群的布局是什么样的呀？这个提示词就这样的。问完了以后呢，这个O3就去干活去了。他把这个图片先整个的分析一下，然后呢，放大每一块切割，说这一小块是什么，那一小块什么，把它切成一块一块的。然后对每一块进行识别，而且在切完了以后，还对每一块去调整方向，说这块好像你拍歪了，改一个方向，可能更能认出是什么来。通过这样的一个方式去推理，看那个推理过程，惊讶的我目瞪口呆，我告诉你。

最后告诉我说什么？从这张航拍来看，这是一张典型的依山就势、三层台地式布局的北方佛寺，很像北京西山脚下的潭柘寺。我没有告诉O3这是航拍照片，他就全都认出来了，好聪明。但是注意不要被骗了，照片里面是有Meta data的，就是有一些基础信息的。这个信息包括什么？拍摄时间、分辨率、色彩、空间、光圈、快门、白平衡，都在里头。还有拍摄设备那个里头，写着你是用大疆的什么设备拍的，大疆air 3S。然后呢，这个照片里还写着经纬度，因为大疆的无人机里头是有GPS的，它拍完照片是会把经纬度直接写在照片里的。完完全全可以通过这些Meta data就编出来的。

所以呢，这个到底是真聪明还是假聪明？还是说我把经纬度拎出来，把这个拍摄设备拎出来，就直接搜索一下，就给你出结果了？这个我们要往下看。他呢还给我接着讲，说这个图片是中轴对称的三进院。第一进呢叫山门到天王殿，第二进呢是天王殿到大雄宝殿，第三进呢是大雄宝殿到法华殿和藏经阁。中轴线两侧各有回廊和配殿，比如观音殿、药师殿、僧房、斋堂，左右分布对称，也有现代化的客房和管理用房。

再往后还写了一个特别有趣的东西：底层的停车场与服务中心，通过台阶与甬道与寺内各层相连。右侧的通讯塔，现代建筑。

为后期补建的配套设施，这是不是根据潭柘寺的信息搜索出来的呢？这就是我们要去问的。他到底是真聪明还是假聪明？

潭柘寺最后的一进大殿不叫藏经阁，而是叫毗卢殿。应该是五方佛中间一个，然后后边是东方、西方、南方、北方，一共是五个佛在里面，所以不一样。但是中国寺庙的默认布局呢，最后一层是藏经阁。所以这个并不是直接搜索出来的。如果直接搜潭柘寺的话，他应该写最后一层是毗卢阁。

至于底层的停车场、服务中心、现代通信塔，绝对是图片推理推出来的。因为不会有哪个介绍潭柘寺的网页去把这些东西都给你写在里头，所以还是非常棒的，可以进行图片推理。

有了这些有趣的功能之后，咱们可以通过什么样的方式来使用它呢？现在免费用户无法使用。你说我不愿意交钱，那么O3跟O4mini你使不了。Plus用户，像我这样的一个月20美金的用户，是可以使用的，但是有限制。O3每周50次，我今天大概已经使了有五六次了。O4 mini呢是每天150次，这个应该足够使。如果是每个月200美金的Pro用户，无限量使用。

API依然很昂贵。使用它的API，我可能还要稍微掂量掂量。O3每100万TOKEN的输入是10美金，输出是40美金。O4mini要快一些，也要小一些，它呢每100万TOKEN的输入是1.1美金，输出是4.4美金。应该比在美国部署的DeepSeek R1相差仿佛吧，就是基本上还是可以用的。

这种推理模型呢都是话痨模型，价格还是挺贵的。特别是10美金100万TOKEN输入，40美金100万TOKEN输出，这个非常非常昂贵。再结合上工具调用，图片推理，这个价格就像坐在日本的出租车里，看着计价器跳的那叫一个心惊肉跳。

其他的一些代理，就是这种API代理也已经开始工作了。Open Router或者其他的一些代理都可以使用，价格是相同的。只是呢，目前function call还没接上。为什么要专门强调这个？因为有些人在国内充值OpenAI的API是比较费劲的，像我就是这样。所以我使用OpenAI的API都是通过各种的代理去使用的。

还有一些什么方式可以使用的呢？GitHub Copilot里头是有GPT4 O4 mini的，但是没有GPT O3。它只有这些mini模型，它有O1，但是没有O3上来。O4 mini的话，应该是可以大范围使用的，但是前提你还是付费的。

像我是Github Copilot，99美元一年的会员。所以呢，我现在可以在IDE里边去使用它，Client和Roo Code也可以通过Github Copilot的会员直接去使用GPT-4 mini。那你说Client或者是Roo Code，我自己挂OpenAI的API或者是Open Router的API行不行？没毛病，都可以使，但是你得按TOKEN付费，那个很贵。挂Github Copilot下面的GPT-4 mini的模型的话，你有那个99刀一年的年费，就可以放心的玩耍了。

总结一下，OpenAI现在前进的方向到底是什么样的？它呢正在将各种零散的功能点聚集在一起。其实记忆早就有了，function call早就有了，推理早就有了。他一方面呢，是在拼命的去做强化学习，然后告诉大家现在强化学习scaling law依然管用。你把更多的数据、更多的算力堆进去，强化学习的效果就能起来，没有任何问题，大家好好去买英伟达显卡。另外一方面，它就把各种其他的小功能给你凑起来了，包括记忆、function call、推理、搜索呀，把这些东西给你搁在一块，你看真的好用。

其他各大模型厂商呢，在某些方面可以接近甚至赶超OpenAI，但是综合实力上，OpenAI绝对还是领先的。当OpenAI把各种新功能聚合在一起的时候，绝对是遥遥领先。它在每一个细节点上，可能都会比别人强很多。就像咱们前几天讲过GPT-4O的绘图功能，它虽然说在完整的绘图过程中，它表现力上、艺术感上没有Midjourney强，但是呢，它在文字理解上、文字渲染上，肯定是要比其他所有的这些绘图模型都要强很多的。

GPT-5现在正在路上了，甭管是今年下半年能出来，还是什么时候能出来，我觉得都是值得期待的。到那个时候就不用再去选模型了，你上来以后，他就根据你的问题直接推荐，直接给你反馈了，说我这个应该推理还是不应该推理，应该使用更大的模型还是使用小一些的模型，我应该调用哪些工具，应不应该搜索。这个我觉得还是值得期待的，就像以前我们总讲的，叫total solution，一站式服务。你进来了以后，我给你服务好就完了，至于我到底给你上了几个工具、几个模型，你就甭问了，最后是包你满意。

后边还有Sora，还是有念想。虽然Sora前面翻车了，现在大家都已经把它忘掉了，但是当它把这么多的功能聚集在一起的时候。

什么搜索呀、工具呀、推理，把这些东西跟Sora聚集在一起的时候，可能又会变出一些新的、不一样的东西出来。

Sora当年可是号称叫“世界模型”的。当它跟我们真实世界通过搜索引擎连接在一起的时候，那可能真的就要创造世界了。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

开源巨头Meta深陷Llama 4作弊风波：高分低能引爆质疑，测试数据竟混入训练集，AI圈还能信任谁？

Luke Fan — Wed, 09 Apr 2025 00:44:15 +0000

Meta的Llama4发布之后，深陷作弊风潮。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Meta的Llama4被人怀疑作弊，他到底是不是真的作弊了。

前面我们做过一期视频，说Llama4发布的时候没有太大的响动，因为它出来以后发现，虽然评测还不错，但是使用起来并没有感觉比现在主流的模型强到哪去。现在不行了，负面消息传出来了，说你大模型出来的时候跑分的成绩很高，但是我们使起来不是这么回事，有点名不副实的样子，特别是编程的效果极差。

为什么大家去比较编程呢？两个原因：
第一个，去玩这些开源大模型的，一般都是程序员。
第二个，编程是一个相对来说标准比较统一的评测。你编得出来编不出来，编完了效果怎么样，这个一眼就能看出来，没法作假。你说我写个诗或者写个小说，这个玩意还有仁者见仁、智者见智的时候。这编程这个东西，对就是对，不对就是不对，或者你做完了以后它的效果有问题，一眼就能看出来。所以现在被人质疑了。

当然了，国内很多大模型发出来以后也是去跑分，跑完分以后也有人质疑，但是呢，并没有那么大的声音。为什么？一般情况下好像分数稍微高那么一分两分，效果差那么一点两点，大家也就认了，不是说一定有什么大不了、过不去的事情。

但是为什么这一次质疑很多人要拿出来讲？
第一个，因为后边是Meta，是开源大模型的开山鼻祖，是个老大。你位置还在这呢，所以你干这样的坏事，我们要质疑一下。
另外一个呢，就是这一次提出了两项非常严重的质疑。这种质疑呢，有的时候说“哎，这个跑的不是特别准”，这个不是特别严重。什么质疑是比较严重的？

第一个是开源版本跟测试版本不一致。你自己测的跑分，那个版本你没拿出来。你出来说你开源了，但是呢，这个开源的版本比你测试的版本差。这是一个相对来说比较严重的指控。

当然还有一个更严重的是什么呢？就是数据作弊。什么叫数据作弊？大家要知道，所有这些大模型去进行跑分测试，它是有题库的。我是用什么什么样的题库去测，测到多少分以上，它是这样来做的。那怎么能够让它测得更高呢？咱们都懂，背真题呗。像国内你去考什么雅思、托福，或者去考ACT、SAT什么这些东西，他就是背真题。大模型其实也是一样的。

现在指控他把测试数据直接混在了训练数据里头，给他训练掉了。那么这个是非常非常严重的指控，因为你一旦这样的话，他等于是在学术不端，或者说你整个的品性是有问题的。

Llama 4呢，其实一共有三个版本。现在公开出来的呢，是中型版本和小型版本两个：一个是400B的，一个是105还是幺零几B的。最大的那个没出来，2万亿参数，也就是2,000多B的那个没有出来。那么，它这种中小模型呢，应该是蒸馏出来的，就是拿那个最大版本蒸馏出来。

现在出问题呢，就有两种可能。第一种可能是什么呢？就是他去跑分的时候，可能拿这个大模型去跑，或者呢，他训练了一个比现在的中模型和小模型要再大一些的模型，拿这个玩意去跑分了。但是，最后开放出来的模型并没有这么厉害。还有一种可能是什么？就是他在蒸馏的时候，直接把题库混在蒸馏数据里头，拿去做训练了，就直接背真题了。这是两种可能性。

而且呢，现在还有匿名爆料。有一个人号称是Meta内部的员工，说我爆料了，他就是用题库数据直接训练了。这个人呢，在Twitter上的账号叫滴溜滴溜，开个玩笑，他的名字叫DLIU DLIU，所以叫滴溜滴溜。这个人呢，说使用了数据作弊的方式进行训练，我很不齿这种行为，还因此辞职，而且拒绝署名技术报告。大家注意，这里有一个很重要的点，叫拒绝署名技术报告。

Meta在这一次发布的时候，跟前面Llama 123其实有很大的区别。区别在什么地方？就是他只发布了模型出来，然后发了个博客出来，并没有发论文，没有发白皮书，这些东西都没出来。那现在就有人说了，说这个技术报告我拒绝签字，所以他发不出来，讲了这么个话。而且这个人呢，前面讲的是匿名。

另外一点是什么？就是Meta AI研究副总裁，这个名字我们就不念了，已经申请于2025年5月份离职。但是呢，并不确定这个Meta AI研究副总裁到底是不是这个提溜提溜，也没法确认他离职这个事情跟Llama 4是不是有关。所以，并不确定这到底是不是爆料人了。

然后，除了他内部爆料之外，还有外部的质疑声音。比如，沃顿商学院的一位教授，这个名字我们也不念了，在评论中指出，AI模型的优化痕迹明显可辨，Llama 4似乎针对基准测试进行了过度调整，而非真正的技术进步。他们甚至做了很多测试以后发现，这东西可能连Llama 3.3什么405B连那个都达不到。这种质疑是非常严重的质疑。

针对这些质疑，Meta内部肯定说要出来辟谣。如果这事认了，那就不是说有一个人辞职就完事了，可能会有一帮人要被开除掉。而且这种一旦开除了的话，在圈子里名声就臭了，再去干这个事干不了了。

Meta的AI负责人埃哈迈德应该是个穆斯林。他是VP，AI生成这块的负责人。他出来明确否认了作弊指控。他表示：“我们听到了一些关于我们训练时使用测试集的指控，这根本不是真的，我们永远不会这么做。我们目前的理解是，大家看到的质量不稳定是由于快速发布导致的时限问题，需要几天时间来稳定所有的公开时限。”

这个老兄原来呢是苹果做自动驾驶的，是苹果汽车部门的一位负责AI的科学家吧。后来进入Meta，在Meta里面干了几年以后，生成了Meta的AI生成部门的老大。数据作弊这个实在是太严重了，绝对不能承认。所以前面讲了，说这个事不可能的，我们永远都不会做。而且也要甩锅，甩锅是什么呢？快速发布，肯定有人逼着我快速发布。谁逼着我快速发布，导致我现在没有办法把最稳定的版本拿出来。这个问题是你的，不是我的，这个锅要甩。

然后他讲的是一个什么呢？原因呢就是说这个是一个实现的问题。我们拿这个大模型去蒸馏小模型，他并没有说作弊。他讲的这个词叫不稳定，什么叫不稳定？就是有时候好有时候不好。这个话很重要，因为我们后边如何去验证他到底是不是作弊了，就要从这个点去验证他。他还讲了一个什么呢？我会在未来的几天的时间内（大家注意几天），会拿出一个稳定的实现出来。然后内部呢，也有一些员工出来实名辟谣，说我们没有作弊。前面那个你说我作弊的人，咱们来当面对质。

那么到底有没有作弊呢？这个事其实并不难验证。现在呢，有3种可能性，这三种可能性呢都可以验证。第一种可能性是什么？就是参加跑分跟测试的版本与对外发布的版本不一致。这种可能性呢是比较大的，内部呢使用了一个作弊的版本做的这个跑分测试，然后发出来的是一个没有用这些数据去训练的版本，这个可能是存在的。

还有一种可能是什么？就是像这个艾哈迈德讲的这样的，就是说他可能是不稳定。那不稳定呢其实是什么？就是你多次跑分，跑了好多次，然后取了一最好的成绩，或者干脆就是我给你一假的跑分成绩，这个可能性也是存在的。

第三种可能呢就是直接数据作弊。我给了大家一个用测试训练集训练出来的蒸馏的中模型和小模型。这个是三种可能。那你说我怎么验证这件事呢？很简单，用现在发出来这个版本再去跑分呗。如果你跑完了以后能够复现原来的成绩，比如说他原来发了博客了，说我这个大模型应该是什么什么样的成绩，排名是多少，然后是多少分，我接着跑呗。如果跑完了还是这么多分。

那你就是作弊做出来的，没什么好说的。如果你说，我跑完了以后不是那分了，怎么跑也跑不出来了，那就是你内部有作弊版本。我外边拿的这个版本是没有作弊的，但是你那个跑分数据也是假的。那么如果我拿出来去跑分，跑分的成绩呢非常不稳定，时高时低。有个别的时候，能够高到你公布的这个数据来，那就是这个艾哈迈德讲的，就是我发出了这个版本，它很不稳定。他实际上就是这样去测试了。

Meta辟谣的信息在什么样的情况下，才有可能是真实的？那你刚才不是讲了吗，就是你测试时高时低。这个可以这么去算，但是还要看什么？还要看刚才都讲了，未来几天我会发一个稳定的版本出来，或者叫稳定的实现出来。他用的这个词是实现，为什么这么讲？因为他这个中模型跟这个小模型，都是拿那个大模型直接蒸馏出来的。如果几天之后他真拿出来了，而且新拿出来的这个实现，是可以稳定的跑分，跑到他承诺的这个数据上的，那么这件事呢才算是说验证了。你们确实没有说谎，你也确实把东西做出来了。如果在这几天之内他拿不出来，或者拿出来这个版本跑分很烂，那么这个事情还是要算他作弊。而且他是有很大问题的，因为开放的版本你是抹不掉的。你说我这前面这个版本有问题，我把它回收出来，那没有，回收不回去的。即使后续开放出新的版本来，我们依然可以拿它前面的版本接着做测试。所以它到底有没有作弊，到底是作弊到哪一步，这个事都是可以验证的。自己说的话到底是不是真的，我们要等他过几天发的版本出来，咱们再去做测试。而且这个就不能等他测了，一定是外边社会上来测。测完了以后看看能不能稳定的达到一个可以接受的分数，这个才是能够让它整个的辟谣成立的一个过程。

而且从现在发出来的信息看呢，前面发行的版本在特定的测试中应该是成绩还不错的。但是在其他的领域里头，或者整体的应用过程中表现很差。这件事情呢应该基本实锤了。为什么？就是沃顿商学院的那个教授给出的结论其实就是这样。他讲的是什么？讲的是AI模型的优化痕迹明显可辨，Llama 4似乎对基准测试进行了过度调整，而非真正的技术进步。就是Llama 4现在给出的版本，进行特定的这种跑分的时候，还是可以跑出一个很高的分数来的。所以呢，这就是最糟糕的一个状态，就是他直接把一个用测试数据训练出来的这个作弊版本公开出来了。现在可能性比较大的是这个。

那么Meta有没有办法快速补救呢？现在肯定是准备快速补救嘛。第一个要去发技术文档。

前面Llama 123发布的时候，都是有论文、白皮书，还有一些微调的说明书，有一大堆这样的技术文档出来。这一次没给，那么你赶快要把这些东西补齐了，甭管是有没有人签字，还是要发出来的。

第二个就是尽快发新版本出来。如果想洗脱冤屈，一定要赶快，比如几天之内或者一周之内吧，把一个新版本发出来。发完了以后再去跑分测试，这个跑分还要能够稳定在一个大家可以接受的范围内。你别说发一版本出来，发现一跑分还不如Llama 3呢，这个事就丢人了，这肯定是不行的。这个还是要去看。

这种尽快发新版本这件事呢，其实难度是非常高的。为什么？因为大模型这个东西，它不是软件。大模型没法修修补补，你只能是拿一堆训练集重新训练，而这个过程其实是挺慢的。而且每一次训练完了以后的结果呢，他没有办法进行这种迭代更新，或者说迭代调优。这话什么意思？就是我们写软件的时候，你是有一大堆的参数指标，每一次改一点点，发现提高了一点，再改变再提高一点，它是可以干这件事的。

而大模型这种东西，你还是需要把完整的数据扔进去，然后去训练。训练完了以后，其实有点像开盲盒，有的时候行，有时候不行，不行也没有什么道理可讲。你只能是重新去整理和收集数据，然后重新训练。所以这个过程呢，没有那么快。这个也确实是对于Meta来说是一个很巨大的考验吧。

那你说有什么方法可以提高速度呢？就是投入更大的算力，上显卡。现在呢，Meta也承诺了，说我要放10倍的显卡进去，然后快速的出版本出来。这个呃，不是那么容易的，就是你真的有10倍的显卡放进去以后，你想要协调这十倍的显卡稳定的工作，这也是一个巨大的工程考验，没有那么容易。

Meta呢还承诺在2025年，会进一步的发布更多的模型出来。如果过几天大家不再找他要，说你前面那个承诺几天之后发这个模型没出来，或者出来的不好使，他也准备唾面自干了，说我今年接着准备发很多的模型出来。而且呢，这些模型呢，我准备提升语音以及推理的能力，因为现在的Llama 4不是推理模型，它就是一个文本生成模型。他准备在这一块再加强一些，也会呢推出一些商业应用场景的AI agent。因为别人现在也都已经开始卷这一块了，他还在发布原始的这种文本生成模型，这个真的是慢了两三拍了。所以说我这2025年还要接着往前跑。

那么结论是什么呢？结论就是，让子弹呢再稍微再飞一会。大概率呢，他们就是直接拿了作弊的模型出来，因为有人验证过了。

会有人再去做问题的复现，因为现在他已经站在风口浪尖上了，所以一定还会有人再去复现。这个过程盖子是捂不住的。

而且这个事情出来以后，后面比如说千问再去出3.0模型的时候，也会引以为戒，不敢再随便地在跑分的时候作弊。下一个模型出来，甭管是Llama 4的下一个模型，比如Llama 4.1，还是千问3出来，大家一定会更加谨慎地评测之后再拿出来。

“萝卜急了不洗泥”，我催你必须在哪天哪天把东西拿出来，这个事情应该是没有人敢干了。因为现在艾哈迈德说了：“我这一次翻车的原因，就是有人催着我必须在4月初把模型拿出来。”为什么必须在4月初？因为他再拿不出来，可能千问3就出来了，所以必须在这个时间点把他拿出来。他又没有进行很好的测试，就导致翻车，导致这种作弊被人抓了个现行。

所以科学这个事，还是要讲究科学方法的，太着急了是做不出来的。

好，这一个故事咱们就讲到这里。咱们也继续关注后续如何发展。这个故事就讲到这。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。