OpenAI发布会没说的秘密:新指标遥遥领先,为何在关键的人类偏好测试中,它仍然输给了对手?|GPT-5.2 vs Gemini 3 Pro benchmarks comparison

OpenAI发布会没说的秘密:新指标遥遥领先,为何在关键的人类偏好测试中,它仍然输给了对手?|GPT-5.2 vs Gemini 3 Pro benchmarks comparison已关闭评论

GPT-5.2我已经用了两天了,效果到底怎么样?

大家好,欢迎收听老范讲故事的YouTube频道。

GPT-5.2:应对Gemini的“红色警报”产品

GPT-5.2是12月11日发布的,它是在OpenAI的十周年生日这一天发布的。虽然ChatGPT-3.5,我们记得是有三年,但是在这之前,OpenAI已经苦逼了好多年了,所以这是OpenAI自己的十周年生日礼物。这个产品,应该是应对谷歌的Gemini 3 Pro的一个紧急版本,是在GPT-5的基础上进行了调整和训练得到的,更加注重长时间推理结果,结构化的输出更像系统,也就是更不像人。这个东西很多指标都遥遥领先,当然还有一个重要的特点——就是更贵。

两天来的个人使用感受

优点:输出质量显著提升

用了两天了,我自己使用的感受是什么样的?输出的结果确实要比GPT-5.1要好很多,它的输出结果更全面、更准确,而且输出的结果整个的排版格式也是非常舒服的。

缺点:速度极慢与应对策略

但是,好慢好慢好慢!重要的事情说三遍,这个东西真的是很慢。当然,也有可能是新版本刚发布,用的人很多,但确实是慢,让我把默认的thinking模式都给取消了,改成了自动模式或者直出模式。自动模式就是它根据你的问题来判断是thinking还是直出;如果是直出模式的话,就是不判断,直接给结果就完事了。当然了,我还有一个方式来应对速度,就是在GPT旁边再开个豆包,豆包是相对来说要比它快很多的。

More

Manus全解构:国运级AI Agent背后的真相,自动规划工具是否真的不可或缺?

Manus全解构:国运级AI Agent背后的真相,自动规划工具是否真的不可或缺?已关闭评论

大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲突然刷屏的Manus。它的来源呢,是个拉丁语单词,是“手”的意思,同时呢还有“权力”和“力量”的意思。现在呢,华为造汽车就全都是《山海经》,做AI产品全是拉丁语单词,好厉害的样子,对不对?

现在这个事情呢,应该是从昨天开始,突然就变得一码难求了。我应该是在昨天看到谁呢?王舒义,天津师范大学的一个老师,他发了一条说:“哎呀,得到那个测试码了,怎么怎么着了。”我当时都没想说这啥玩意儿,没惦记这个事,因为呢他们那个Monica我也没怎么用过。Monica这个产品对于我来说,还是有点太奇怪了一点。待会我们再继续讲。

后来到昨天晚上了,突然就开始传出来说这个东西已经在闲鱼上炒到好几万了。又一个国运级产品出来了,中国人再次震惊了世界,说老美又怎么样了,全世界又如何如何了。今天再一看这个,各种新闻媒体刷屏了。我直到开播之前犹豫再三,说算了,还是去申请一次吧。咱们虽然没用过,但是好歹也算申请过了。本来我是连申请都懒得申请的一个产品。

More

DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?

DeepSeek现象引发中文圈狂热:开源的胜利还是遥遥领先的争议?已关闭评论

DeepSeek突然出圈,引发了中文圈的争吵。大家好,欢迎收听老范讲故事的YouTube频道。

DeepSeek在前面,我们已经出了一期视频,去讲它到底是怎么回事了。那么,DeepSeek最近肯定是更加的出圈。首先,DeepSeek V3,据说训练成本只有557万美金,震惊了扎克伯格,震惊了Meta。Meta说:“我们有好多的老大,他们的年薪都超过557万美金了。人家训练了个模型才用了557万美金,那我花了这么多钱去组建AI团队,花了这么多钱去囤显卡,是不是亏了?”现在就有这样的声音出来。

而且,最新的DeepSeek R1,也就是它的推理模型,推理能力已经接近o1了。蒸馏微调出来的这些小模型,已经在很多领域里头超越了o1 Mini。在这儿多补充一句,什么叫蒸馏微调的小模型?像我的电脑上,也是跑了一个DeepSeek R1-32B的模型。这个模型是怎么来的?它实际上是由DeepSeek R1去输出数据,然后拿输出的数据再去调通义千问2.5-32B的这个模型,最后得到的结果。这就是DeepSeek R1-32B,他在我的电脑上做各种推理,效果相当不错。

More

退出移动版