OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison

12 月 14

Luke FanAIGC AI benchmarks, AI for developers, AI use cases, AI workflow, AIGC, AI推理能力, AI模型对比, AI编程, Claude 4.5 Opus, developer productivity, Garlic model, GDP val, Gemini 3 Pro, Google AI, GPT-5.2, GPT-5.2 pricing, GPT-5.2 vs Gemini 3 Pro, GPT-5.2性能, GPT-5.2评测, LM Arena, OpenAI, Robin high model, 上下文处理, 专业知识工作者, 人工智能, 代码重构, 大语言模型, 科技评测, 结构化输出, 长上下文 OpenAI发布会没说的秘密：新指标遥遥领先，为何在关键的人类偏好测试中，它仍然输给了对手？｜GPT-5.2 vs Gemini 3 Pro benchmarks comparison已关闭评论

GPT-5.2我已经用了两天了，效果到底怎么样？

大家好，欢迎收听老范讲故事的YouTube频道。

GPT-5.2：应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的，它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5，我们记得是有三年，但是在这之前，OpenAI已经苦逼了好多年了，所以这是OpenAI自己的十周年生日礼物。这个产品，应该是应对谷歌的Gemini 3 Pro的一个紧急版本，是在GPT-5的基础上进行了调整和训练得到的，更加注重长时间推理结果，结构化的输出更像系统，也就是更不像人。这个东西很多指标都遥遥领先，当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点：输出质量显著提升

用了两天了，我自己使用的感受是什么样的？输出的结果确实要比GPT-5.1要好很多，它的输出结果更全面、更准确，而且输出的结果整个的排版格式也是非常舒服的。

缺点：速度极慢与应对策略

但是，好慢好慢好慢！重要的事情说三遍，这个东西真的是很慢。当然，也有可能是新版本刚发布，用的人很多，但确实是慢，让我把默认的thinking模式都给取消了，改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出；如果是直出模式的话，就是不判断，直接给结果就完事了。当然了，我还有一个方式来应对速度，就是在GPT旁边再开个豆包，豆包是相对来说要比它快很多的。

Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？

4 月 07

Luke FanAIGC 1000万Token上下文, 400B, AI Agent, AI应用场景, AI新闻, AI未来发展, AI模型发布, AI竞赛, AI算力, Claude 3.7, DeepSeek, FP8精度, Function Call, Gemini 2.5 Pro, GPT-4o, Grok (XAI), H100 GPU, INT4量化, Llama 3, Llama 4, Llama 4 Behemoth, Llama 4 MARVELIC, Llama 4 Scout, Llama 4发布反响平淡原因, LLM, Meta AI, Meta战略, Mixture of Experts, MOE架构, 专家模块, 中文能力提升, 人工智能, 全模态AI进展, 千问 (Qwen), 卡估值, 多模态输入, 大语言模型, 字节AI, 小模型竞争, 开源LLM对比, 开源模型, 开源模型内卷, 开源社区, 推理速度, 文本输出, 模型微调, 模型性能比较, 模型测评, 模型训练, 活跃参数, 流量入口, 知识蒸馏, 硬件要求, 端到端模型, 腾讯AI, 谷歌AI, 超级APP趋势, 长上下文, 阿里AI Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？已关闭评论

Llama4发布了。这里的黎明静悄悄，没有什么响动。这是怎么回事？

大家好，欢迎收听老范讲故事的YouTube频道。一觉醒来，Llama4就发布了。扎克伯格亲自在Facebook的REELS（也就是Facebook的短视频里面）发了一条视频，说Llama4发布了，今天是Llama4日。

Llama4呢，一共是有三个版本：
第一个叫Scout（侦察兵版本），总参数1,090亿（也就是109B），活跃参数是170亿，包含16个专家模块。对的，Llama终于也放弃抵抗了，从Llama4开始变成Moe了。在Llama4之前的版本都是单一体的模型，Llama3.3还给了一个400多B的单一模型，到Llama4彻底放弃抵抗了。

现在呢，支持1,000万TOKEN这种上下文，这个是Llama4最大的一个特点。DeepSeek是64K（也就是64,000个TOKEN上下文），现在上下文比较大的Gemini大概是能到2兆（200万），Llama4直接给了一个10兆（1,000万TOKEN），这是它做的一个很创新的点。

老范讲故事的博客站