GPT-3与O4 mini不再高冷:融合工具调用、记忆与超强图像推理,普通人也能高效应用AI,一文看懂成本、限制与Copilot捷径

GPT-3与O4 mini不再高冷:融合工具调用、记忆与超强图像推理,普通人也能高效应用AI,一文看懂成本、限制与Copilot捷径已关闭评论

GPT-3与O4 mini不再高冷:融合工具调用、记忆与超强图像推理,普通人也能高效应用AI,一文看懂成本、限制与Copilot捷径。

GPT-3和O4 mini发布了,这次绝不再仅仅是科学家们的玩具了。大家好,欢迎收听老范讲故事的YouTube频道。

本来GPT-3和O4 mini发布呢,我并没有抱太大的期望。为什么呢?因为前面O1和O3 mini发布的时候呢,看得我头晕眼花的。我记得应该是在去年12天连续发布会的时候发布的O3 mini,实在是太不明觉厉了。各种的复杂科学问题,咔咔就给解决了,然后各种的排名都排得很高。但是呢,我自己其实并不怎么用。

为什么呢?第一个,ChatGPT Plus用户里边呢,它是有用量限制的,并不是随便让你用的。所以在有用量限制的情况下,你就得省着用,而且你也感觉不出有太大差异来。你说你用它干嘛?据说编程很强,但是它没法跟IDE结合,基本上也就放弃了。你是可以出一大堆的代码,但是你还得向IDE里边去考来考去的,很麻烦。那你说我通过API调用吧,直接使用O1和O3 mini这些模型,实在是贵,所以就放弃了。

这一次呢,真的就不一样了。首先是Greg重新上线了。Greg其实好长时间不怎么出来了,他是在2023年11月份山姆·奥特曼宫变之后,就变得非常低调。2023年11月开始休假,后来是在微软的强烈要求下才回归的。到2024年又开始了长期休假,但是在大量高管离职之后,年底再次回归,还宣布:“我提前俩月回来了,我本来还想再多歇一歇的。”现在呢,主要负责机器人业务,不再担任董事会主席了,保留了总裁的职位。

Greg上来开始显得有一些紧张,不知道该说什么。大家可以去看看那25分钟的发布会录像,后面逐渐放松了,也是长时间不露面、不说话的一个表现吧。这一次的话,全程C位,坐在最中间的位置上,主持O3和O4 mini的发布会,可见重视程度了。

这一次的发布会呢,基本上是二对二的分配,就是两个老板配上两个做事情的。两个老板始终坐着不动,做事情的人呢,就是讲到不同的部分,然后来换。还有一个老板呢,叫Mark陈,首席研究官,亚洲脸,但不确定是不是华人。有传闻其父母是从台湾去的美国。现在呢,有一种ABC脸,看起来有点像华人,但是脸型又不像。这个据说呢,是长期英文发音和美式的饮食习惯,以及美国教育所形成的一种脸型,反正跟华人还是有一定区别的。有可能是个华人,当然也有可能是个越南人,这个不确定。

另外两个呢,是根据演示的过程不同,不停地换工程师。国内引用的照片呢,肯定是有偏向性的。国内各媒体呢……

通常引用的是讲到模型强化训练和各种跑分的这两位工程师。为什么呢?因为里头有一个叫周文达的,是一位华人。国内各个媒体引用照片的时候,一般会引用含华量比较高的照片。

一开始呢,也是讲科学,什么量子力学。本来我也挺失望的。科学的部分呢,对于我这种普通人来说,已经没有那么大关系了——看不懂,没需求,也用不起。所以一看,还是这东西,好像没什么意思。

但是讲到后边呢,越来越兴奋了。咱们讲几个好玩的特性,并不跟大家完整的去复述这个发布会了。有兴趣可以去看这个25分钟的发布会,各种数值绝对是遥遥领先。

OpenAI呢,作为行业老大,他是有自觉的。什么叫自觉?从来不跟别人比数值,只跟自己比。就是他不会说我把Gemini 2.5拎出来比一比,Claude 3.7拎出来比一比,或者跟DeepSeek比一比。别人都是说我比OpenAI强在哪,或者我已经接近OpenAI了。OpenAI永远说我就跟自己比。

所以我们现在可以看到的所有的数值比较,都是跟GPT O1、O1 mini、O3 mini跟这些模型进行比较的,没有跟其他模型比较的数据。

咱们来讲三个有趣的功能点吧。

第一个非常有趣的功能点,也是让我觉得GPT O3和O4mini真的能用了的一个最核心的点,就是它可以进行工具调用了。什么意思?我们正常情况下一个大模型,你让他去给你生成内容的时候,他其实都是在胡说八道的。就算他有的时候说的很像,但他依然是在胡说八道,是在编。他不能保证内容是可验证的,而且你每一次让他说同样的事情,他都给你编出不同的花样来。

那么一定要带上搜索,带上知识库,带上其他的辅助工具,他才可以靠谱的干活。现在推理模型已经可以靠谱的干活了。所以O3跟O4mini是可以进行工具调用的。但是他们绝对不是第一个。在发布会上他们讲说,我们是第一个在推理里边进行工具调用的,这个真的不是。GROK3也是推理模型,也是可以做各种工具调用的。

只是呢,GPT O3跟O4 mini呢,据说在工具调用上要有极大的提升,因为他们在这块专门做了训练。他可以进行几十次的这种工具调用。当你让他去做一个很复杂的事情的时候,他会反复的在他认为需要的时候去调用工具,获得外部数据,或者做一些相应的操作。这个很棒。

O3跟O4mini呢,是在推理的过程中去调用工具,效果绝对是碾压原来不能使用工具的O1,效果好的一塌糊涂。推理模型如果不挂搜索引擎……

不挂知识库,基本上就是胡说八道。他要比正常的生成模型还要再胡说八道一些,因为他想的多,越想就越错。知识越多越反动,这个幻觉是非常非常严重的。挂上搜索之后,基本上不再需要 deep research 这种东西了。现在你用 O3 去挂搜索,跟 deep research 的效果基本上是可以平齐的。

现在呢,OpenAI 内部有很多的工具,包括 Python 执行、调用浏览器、搜索,有很多这样的工具,它都可以自动的去调用。当有这些功能之后,每一个普通人,不需要是科学家,也可以用 O3 跟 O4mini 完成很多任务了。只是目前呢,OpenAI 内部的这些工具,你通过外部你使不了。还有 function call 这个调用呢,现在在代理站上还没有接上,这个还要再等一等。什么意思?就是你直接挂 OpenAI 的 API,挂它原厂的,是可以进行 function call 的,可以把你自己的各种各样的工具放在里边让它去调用。原来我们演示过使用高德地图的工具,让他去找饭馆、规划路线什么的,这个都是可以去使用了。如果我们使用 API 来调用 O3 和 O4mini 的话,OpenAI 内部的什么搜索呀,这些工具我们是无法使用的,就差在这了。这是一个比较有趣的点,但是具体怎么用,待会我们来举一个案例。

第二个有趣的点是什么呢?就是跟记忆相结合了。原来我们专门录了一期视频来讲 OpenAI 有了记忆功能,现在它也有记忆功能。于是我就向它提出了要求,我说:“根据你对我的了解,我是个 Youtuber,给我推荐一些适合我的 YouTube 话题,我要去写稿去了。”然后他就开始去搜索,调用搜索工具去搜索去了。搜索完了以后说:“我发现你是专门讲 AI、讲科技、讲流量、讲创投的博主,我发现有哪些哪些话题最近是最新的,适合你去讲。”其中有一个话题呢,叫 TikTok 降低了海外直播带货门槛。原来呢是要 1,000 个粉丝才可以带货,现在 200 粉丝就可以带货了,说这个你看怎么样?我说这个不错。我说:“你根据你对我的了解,给我去写个提纲吧。”然后他就按照我的习惯,给我夸夸把提纲列好了,说 TikTok 是哪天哪天发了一个什么样的文儿,为什么什么东西,写的还很好的一个提纲。在这个过程中引用了我的记忆,调用了搜索,聚集了大量的信息。我再说:“那你再给我补充点数据和观点吧。”一般我是会有一个自己的观点,我说:“我的观点是什么什么,你给我补充进去。”然后呢,我为了论证我的观点。

我还需要哪些数据?然后,夸夸夸又去搜索,搜索完了给我补充进来。做了两次补充以后,这个提纲基本上就完成了,就完完全全可以用了。过几天咱们去讲这个“TikTok降低海外直播带货门槛”这个故事吧,这个还是很有趣的一个点。所以现在真的是每个人都能用上了。

第三个比较好玩的点是什么呢?就是图片推理。这个图片推理是非常非常强的一个点,绝对不是识别图片,然后将文字作为提示词去推理。我们很多人一看图片推理这件事,都是想的说,我们把这个图片识别一下,变成一大堆文字。不是这样。

跟大家举一个案例吧。我今天去潭柘寺了,玩我的无人机。拿我的无人机呢,在潭柘寺的外面,拍了一张俯瞰潭柘寺的全景照片。我就问O3,我说这是哪?这个建筑群的布局是什么样的呀?这个提示词就这样的。问完了以后呢,这个O3就去干活去了。他把这个图片先整个的分析一下,然后呢,放大每一块切割,说这一小块是什么,那一小块什么,把它切成一块一块的。然后对每一块进行识别,而且在切完了以后,还对每一块去调整方向,说这块好像你拍歪了,改一个方向,可能更能认出是什么来。通过这样的一个方式去推理,看那个推理过程,惊讶的我目瞪口呆,我告诉你。

最后告诉我说什么?从这张航拍来看,这是一张典型的依山就势、三层台地式布局的北方佛寺,很像北京西山脚下的潭柘寺。我没有告诉O3这是航拍照片,他就全都认出来了,好聪明。但是注意不要被骗了,照片里面是有Meta data的,就是有一些基础信息的。这个信息包括什么?拍摄时间、分辨率、色彩、空间、光圈、快门、白平衡,都在里头。还有拍摄设备那个里头,写着你是用大疆的什么设备拍的,大疆air 3S。然后呢,这个照片里还写着经纬度,因为大疆的无人机里头是有GPS的,它拍完照片是会把经纬度直接写在照片里的。完完全全可以通过这些Meta data就编出来的。

所以呢,这个到底是真聪明还是假聪明?还是说我把经纬度拎出来,把这个拍摄设备拎出来,就直接搜索一下,就给你出结果了?这个我们要往下看。他呢还给我接着讲,说这个图片是中轴对称的三进院。第一进呢叫山门到天王殿,第二进呢是天王殿到大雄宝殿,第三进呢是大雄宝殿到法华殿和藏经阁。中轴线两侧各有回廊和配殿,比如观音殿、药师殿、僧房、斋堂,左右分布对称,也有现代化的客房和管理用房。

再往后还写了一个特别有趣的东西:底层的停车场与服务中心,通过台阶与甬道与寺内各层相连。右侧的通讯塔,现代建筑。

为后期补建的配套设施,这是不是根据潭柘寺的信息搜索出来的呢?这就是我们要去问的。他到底是真聪明还是假聪明?

潭柘寺最后的一进大殿不叫藏经阁,而是叫毗卢殿。应该是五方佛中间一个,然后后边是东方、西方、南方、北方,一共是五个佛在里面,所以不一样。但是中国寺庙的默认布局呢,最后一层是藏经阁。所以这个并不是直接搜索出来的。如果直接搜潭柘寺的话,他应该写最后一层是毗卢阁。

至于底层的停车场、服务中心、现代通信塔,绝对是图片推理推出来的。因为不会有哪个介绍潭柘寺的网页去把这些东西都给你写在里头,所以还是非常棒的,可以进行图片推理。

有了这些有趣的功能之后,咱们可以通过什么样的方式来使用它呢?现在免费用户无法使用。你说我不愿意交钱,那么O3跟O4mini你使不了。Plus用户,像我这样的一个月20美金的用户,是可以使用的,但是有限制。O3每周50次,我今天大概已经使了有五六次了。O4 mini呢是每天150次,这个应该足够使。如果是每个月200美金的Pro用户,无限量使用。

API依然很昂贵。使用它的API,我可能还要稍微掂量掂量。O3每100万TOKEN的输入是10美金,输出是40美金。O4mini要快一些,也要小一些,它呢每100万TOKEN的输入是1.1美金,输出是4.4美金。应该比在美国部署的DeepSeek R1相差仿佛吧,就是基本上还是可以用的。

这种推理模型呢都是话痨模型,价格还是挺贵的。特别是10美金100万TOKEN输入,40美金100万TOKEN输出,这个非常非常昂贵。再结合上工具调用,图片推理,这个价格就像坐在日本的出租车里,看着计价器跳的那叫一个心惊肉跳。

其他的一些代理,就是这种API代理也已经开始工作了。Open Router或者其他的一些代理都可以使用,价格是相同的。只是呢,目前function call还没接上。为什么要专门强调这个?因为有些人在国内充值OpenAI的API是比较费劲的,像我就是这样。所以我使用OpenAI的API都是通过各种的代理去使用的。

还有一些什么方式可以使用的呢?GitHub Copilot里头是有GPT4 O4 mini的,但是没有GPT O3。它只有这些mini模型,它有O1,但是没有O3上来。O4 mini的话,应该是可以大范围使用的,但是前提你还是付费的。

像我是Github Copilot,99美元一年的会员。所以呢,我现在可以在IDE里边去使用它,Client和Roo Code也可以通过Github Copilot的会员直接去使用GPT-4 mini。那你说Client或者是Roo Code,我自己挂OpenAI的API或者是Open Router的API行不行?没毛病,都可以使,但是你得按TOKEN付费,那个很贵。挂Github Copilot下面的GPT-4 mini的模型的话,你有那个99刀一年的年费,就可以放心的玩耍了。

总结一下,OpenAI现在前进的方向到底是什么样的?它呢正在将各种零散的功能点聚集在一起。其实记忆早就有了,function call早就有了,推理早就有了。他一方面呢,是在拼命的去做强化学习,然后告诉大家现在强化学习scaling law依然管用。你把更多的数据、更多的算力堆进去,强化学习的效果就能起来,没有任何问题,大家好好去买英伟达显卡。另外一方面,它就把各种其他的小功能给你凑起来了,包括记忆、function call、推理、搜索呀,把这些东西给你搁在一块,你看真的好用。

其他各大模型厂商呢,在某些方面可以接近甚至赶超OpenAI,但是综合实力上,OpenAI绝对还是领先的。当OpenAI把各种新功能聚合在一起的时候,绝对是遥遥领先。它在每一个细节点上,可能都会比别人强很多。就像咱们前几天讲过GPT-4O的绘图功能,它虽然说在完整的绘图过程中,它表现力上、艺术感上没有Midjourney强,但是呢,它在文字理解上、文字渲染上,肯定是要比其他所有的这些绘图模型都要强很多的。

GPT-5现在正在路上了,甭管是今年下半年能出来,还是什么时候能出来,我觉得都是值得期待的。到那个时候就不用再去选模型了,你上来以后,他就根据你的问题直接推荐,直接给你反馈了,说我这个应该推理还是不应该推理,应该使用更大的模型还是使用小一些的模型,我应该调用哪些工具,应不应该搜索。这个我觉得还是值得期待的,就像以前我们总讲的,叫total solution,一站式服务。你进来了以后,我给你服务好就完了,至于我到底给你上了几个工具、几个模型,你就甭问了,最后是包你满意。

后边还有Sora,还是有念想。虽然Sora前面翻车了,现在大家都已经把它忘掉了,但是当它把这么多的功能聚集在一起的时候。

什么搜索呀、工具呀、推理,把这些东西跟Sora聚集在一起的时候,可能又会变出一些新的、不一样的东西出来。

Sora当年可是号称叫“世界模型”的。当它跟我们真实世界通过搜索引擎连接在一起的时候,那可能真的就要创造世界了。

好,这一期就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛,参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见!

Comments are closed.

退出移动版