GPT-3与O4 mini不再高冷:融合工具调用、记忆与超强图像推理,普通人也能高效应用AI,一文看懂成本、限制与Copilot捷径
4 月 18
AIGC AI发展趋势, AI局限性, AI幻觉, AI应用, AI易用性, AI普及, AI未来, AI模型发布, AI编程, AI视觉, AI记忆 (Memory), AI评测, API, API代理 (Open Router), API定价, ChatGPT Plus, Function Calling, Github Copilot, GPT-4o, GPT-5展望, Greg Brockman, IDE集成, Mark Chen, Meta data分析, O3, O4 mini, OpenAI, OpenAI发布会, Sam Altman, Scaling law, Sora, TikTok直播带货话题生成, YouTube话题推荐, 一站式AI服务 (Total Solution), 世界模型, 人工智能, 内容创作, 图片推理 (Image Reasoning), 大语言模型, 实时交互, 实用AI, 工具调用 (Tool Calling), 强化学习, 推理模型, 搜索集成, 模型对比 (OpenAI vs 竞品), 潭柘寺图片识别, 科技评论, 跨模态AI GPT-3与O4 mini不再高冷:融合工具调用、记忆与超强图像推理,普通人也能高效应用AI,一文看懂成本、限制与Copilot捷径已关闭评论
GPT-3和O4 mini发布了,这次绝不再仅仅是科学家们的玩具了。大家好,欢迎收听老范讲故事的YouTube频道。
本来GPT-3和O4 mini发布呢,我并没有抱太大的期望。为什么呢?因为前面O1和O3 mini发布的时候呢,看得我头晕眼花的。我记得应该是在去年12天连续发布会的时候发布的O3 mini,实在是太不明觉厉了。各种的复杂科学问题,咔咔就给解决了,然后各种的排名都排得很高。但是呢,我自己其实并不怎么用。
为什么呢?第一个,ChatGPT Plus用户里边呢,它是有用量限制的,并不是随便让你用的。所以在有用量限制的情况下,你就得省着用,而且你也感觉不出有太大差异来。你说你用它干嘛?据说编程很强,但是它没法跟IDE结合,基本上也就放弃了。你是可以出一大堆的代码,但是你还得向IDE里边去考来考去的,很麻烦。那你说我通过API调用吧,直接使用O1和O3 mini这些模型,实在是贵,所以就放弃了。
这一次呢,真的就不一样了。首先是Greg重新上线了。Greg其实好长时间不怎么出来了,他是在2023年11月份山姆·奥特曼宫变之后,就变得非常低调。2023年11月开始休假,后来是在微软的强烈要求下才回归的。到2024年又开始了长期休假,但是在大量高管离职之后,年底再次回归,还宣布:“我提前俩月回来了,我本来还想再多歇一歇的。”现在呢,主要负责机器人业务,不再担任董事会主席了,保留了总裁的职位。
Greg上来开始显得有一些紧张,不知道该说什么。大家可以去看看那25分钟的发布会录像,后面逐渐放松了,也是长时间不露面、不说话的一个表现吧。这一次的话,全程C位,坐在最中间的位置上,主持O3和O4 mini的发布会,可见重视程度了。
这一次的发布会呢,基本上是二对二的分配,就是两个老板配上两个做事情的。两个老板始终坐着不动,做事情的人呢,就是讲到不同的部分,然后来换。还有一个老板呢,叫Mark陈,首席研究官,亚洲脸,但不确定是不是华人。有传闻其父母是从台湾去的美国。现在呢,有一种ABC脸,看起来有点像华人,但是脸型又不像。这个据说呢,是长期英文发音和美式的饮食习惯,以及美国教育所形成的一种脸型,反正跟华人还是有一定区别的。有可能是个华人,当然也有可能是个越南人,这个不确定。
另外两个呢,是根据演示的过程不同,不停地换工程师。国内引用的照片呢,肯定是有偏向性的。国内各媒体呢……
通常引用的是讲到模型强化训练和各种跑分的这两位工程师。为什么呢?因为里头有一个叫周文达的,是一位华人。国内各个媒体引用照片的时候,一般会引用含华量比较高的照片。
一开始呢,也是讲科学,什么量子力学。本来我也挺失望的。科学的部分呢,对于我这种普通人来说,已经没有那么大关系了——看不懂,没需求,也用不起。所以一看,还是这东西,好像没什么意思。
但是讲到后边呢,越来越兴奋了。咱们讲几个好玩的特性,并不跟大家完整的去复述这个发布会了。有兴趣可以去看这个25分钟的发布会,各种数值绝对是遥遥领先。
OpenAI呢,作为行业老大,他是有自觉的。什么叫自觉?从来不跟别人比数值,只跟自己比。就是他不会说我把Gemini 2.5拎出来比一比,Claude 3.7拎出来比一比,或者跟DeepSeek比一比。别人都是说我比OpenAI强在哪,或者我已经接近OpenAI了。OpenAI永远说我就跟自己比。
所以我们现在可以看到的所有的数值比较,都是跟GPT O1、O1 mini、O3 mini跟这些模型进行比较的,没有跟其他模型比较的数据。
咱们来讲三个有趣的功能点吧。
第一个非常有趣的功能点,也是让我觉得GPT O3和O4mini真的能用了的一个最核心的点,就是它可以进行工具调用了。什么意思?我们正常情况下一个大模型,你让他去给你生成内容的时候,他其实都是在胡说八道的。就算他有的时候说的很像,但他依然是在胡说八道,是在编。他不能保证内容是可验证的,而且你每一次让他说同样的事情,他都给你编出不同的花样来。
那么一定要带上搜索,带上知识库,带上其他的辅助工具,他才可以靠谱的干活。现在推理模型已经可以靠谱的干活了。所以O3跟O4mini是可以进行工具调用的。但是他们绝对不是第一个。在发布会上他们讲说,我们是第一个在推理里边进行工具调用的,这个真的不是。GROK3也是推理模型,也是可以做各种工具调用的。
只是呢,GPT O3跟O4 mini呢,据说在工具调用上要有极大的提升,因为他们在这块专门做了训练。他可以进行几十次的这种工具调用。当你让他去做一个很复杂的事情的时候,他会反复的在他认为需要的时候去调用工具,获得外部数据,或者做一些相应的操作。这个很棒。
O3跟O4mini呢,是在推理的过程中去调用工具,效果绝对是碾压原来不能使用工具的O1,效果好的一塌糊涂。推理模型如果不挂搜索引擎……
不挂知识库,基本上就是胡说八道。他要比正常的生成模型还要再胡说八道一些,因为他想的多,越想就越错。知识越多越反动,这个幻觉是非常非常严重的。挂上搜索之后,基本上不再需要 deep research 这种东西了。现在你用 O3 去挂搜索,跟 deep research 的效果基本上是可以平齐的。
现在呢,OpenAI 内部有很多的工具,包括 Python 执行、调用浏览器、搜索,有很多这样的工具,它都可以自动的去调用。当有这些功能之后,每一个普通人,不需要是科学家,也可以用 O3 跟 O4mini 完成很多任务了。只是目前呢,OpenAI 内部的这些工具,你通过外部你使不了。还有 function call 这个调用呢,现在在代理站上还没有接上,这个还要再等一等。什么意思?就是你直接挂 OpenAI 的 API,挂它原厂的,是可以进行 function call 的,可以把你自己的各种各样的工具放在里边让它去调用。原来我们演示过使用高德地图的工具,让他去找饭馆、规划路线什么的,这个都是可以去使用了。如果我们使用 API 来调用 O3 和 O4mini 的话,OpenAI 内部的什么搜索呀,这些工具我们是无法使用的,就差在这了。这是一个比较有趣的点,但是具体怎么用,待会我们来举一个案例。
第二个有趣的点是什么呢?就是跟记忆相结合了。原来我们专门录了一期视频来讲 OpenAI 有了记忆功能,现在它也有记忆功能。于是我就向它提出了要求,我说:“根据你对我的了解,我是个 Youtuber,给我推荐一些适合我的 YouTube 话题,我要去写稿去了。”然后他就开始去搜索,调用搜索工具去搜索去了。搜索完了以后说:“我发现你是专门讲 AI、讲科技、讲流量、讲创投的博主,我发现有哪些哪些话题最近是最新的,适合你去讲。”其中有一个话题呢,叫 TikTok 降低了海外直播带货门槛。原来呢是要 1,000 个粉丝才可以带货,现在 200 粉丝就可以带货了,说这个你看怎么样?我说这个不错。我说:“你根据你对我的了解,给我去写个提纲吧。”然后他就按照我的习惯,给我夸夸把提纲列好了,说 TikTok 是哪天哪天发了一个什么样的文儿,为什么什么东西,写的还很好的一个提纲。在这个过程中引用了我的记忆,调用了搜索,聚集了大量的信息。我再说:“那你再给我补充点数据和观点吧。”一般我是会有一个自己的观点,我说:“我的观点是什么什么,你给我补充进去。”然后呢,我为了论证我的观点。
我还需要哪些数据?然后,夸夸夸又去搜索,搜索完了给我补充进来。做了两次补充以后,这个提纲基本上就完成了,就完完全全可以用了。过几天咱们去讲这个“TikTok降低海外直播带货门槛”这个故事吧,这个还是很有趣的一个点。所以现在真的是每个人都能用上了。
第三个比较好玩的点是什么呢?就是图片推理。这个图片推理是非常非常强的一个点,绝对不是识别图片,然后将文字作为提示词去推理。我们很多人一看图片推理这件事,都是想的说,我们把这个图片识别一下,变成一大堆文字。不是这样。
跟大家举一个案例吧。我今天去潭柘寺了,玩我的无人机。拿我的无人机呢,在潭柘寺的外面,拍了一张俯瞰潭柘寺的全景照片。我就问O3,我说这是哪?这个建筑群的布局是什么样的呀?这个提示词就这样的。问完了以后呢,这个O3就去干活去了。他把这个图片先整个的分析一下,然后呢,放大每一块切割,说这一小块是什么,那一小块什么,把它切成一块一块的。然后对每一块进行识别,而且在切完了以后,还对每一块去调整方向,说这块好像你拍歪了,改一个方向,可能更能认出是什么来。通过这样的一个方式去推理,看那个推理过程,惊讶的我目瞪口呆,我告诉你。
最后告诉我说什么?从这张航拍来看,这是一张典型的依山就势、三层台地式布局的北方佛寺,很像北京西山脚下的潭柘寺。我没有告诉O3这是航拍照片,他就全都认出来了,好聪明。但是注意不要被骗了,照片里面是有Meta data的,就是有一些基础信息的。这个信息包括什么?拍摄时间、分辨率、色彩、空间、光圈、快门、白平衡,都在里头。还有拍摄设备那个里头,写着你是用大疆的什么设备拍的,大疆air 3S。然后呢,这个照片里还写着经纬度,因为大疆的无人机里头是有GPS的,它拍完照片是会把经纬度直接写在照片里的。完完全全可以通过这些Meta data就编出来的。
所以呢,这个到底是真聪明还是假聪明?还是说我把经纬度拎出来,把这个拍摄设备拎出来,就直接搜索一下,就给你出结果了?这个我们要往下看。他呢还给我接着讲,说这个图片是中轴对称的三进院。第一进呢叫山门到天王殿,第二进呢是天王殿到大雄宝殿,第三进呢是大雄宝殿到法华殿和藏经阁。中轴线两侧各有回廊和配殿,比如观音殿、药师殿、僧房、斋堂,左右分布对称,也有现代化的客房和管理用房。
再往后还写了一个特别有趣的东西:底层的停车场与服务中心,通过台阶与甬道与寺内各层相连。右侧的通讯塔,现代建筑。
为后期补建的配套设施,这是不是根据潭柘寺的信息搜索出来的呢?这就是我们要去问的。他到底是真聪明还是假聪明?
潭柘寺最后的一进大殿不叫藏经阁,而是叫毗卢殿。应该是五方佛中间一个,然后后边是东方、西方、南方、北方,一共是五个佛在里面,所以不一样。但是中国寺庙的默认布局呢,最后一层是藏经阁。所以这个并不是直接搜索出来的。如果直接搜潭柘寺的话,他应该写最后一层是毗卢阁。
至于底层的停车场、服务中心、现代通信塔,绝对是图片推理推出来的。因为不会有哪个介绍潭柘寺的网页去把这些东西都给你写在里头,所以还是非常棒的,可以进行图片推理。
有了这些有趣的功能之后,咱们可以通过什么样的方式来使用它呢?现在免费用户无法使用。你说我不愿意交钱,那么O3跟O4mini你使不了。Plus用户,像我这样的一个月20美金的用户,是可以使用的,但是有限制。O3每周50次,我今天大概已经使了有五六次了。O4 mini呢是每天150次,这个应该足够使。如果是每个月200美金的Pro用户,无限量使用。
API依然很昂贵。使用它的API,我可能还要稍微掂量掂量。O3每100万TOKEN的输入是10美金,输出是40美金。O4mini要快一些,也要小一些,它呢每100万TOKEN的输入是1.1美金,输出是4.4美金。应该比在美国部署的DeepSeek R1相差仿佛吧,就是基本上还是可以用的。
这种推理模型呢都是话痨模型,价格还是挺贵的。特别是10美金100万TOKEN输入,40美金100万TOKEN输出,这个非常非常昂贵。再结合上工具调用,图片推理,这个价格就像坐在日本的出租车里,看着计价器跳的那叫一个心惊肉跳。
其他的一些代理,就是这种API代理也已经开始工作了。Open Router或者其他的一些代理都可以使用,价格是相同的。只是呢,目前function call还没接上。为什么要专门强调这个?因为有些人在国内充值OpenAI的API是比较费劲的,像我就是这样。所以我使用OpenAI的API都是通过各种的代理去使用的。
还有一些什么方式可以使用的呢?GitHub Copilot里头是有GPT4 O4 mini的,但是没有GPT O3。它只有这些mini模型,它有O1,但是没有O3上来。O4 mini的话,应该是可以大范围使用的,但是前提你还是付费的。
像我是Github Copilot,99美元一年的会员。所以呢,我现在可以在IDE里边去使用它,Client和Roo Code也可以通过Github Copilot的会员直接去使用GPT-4 mini。那你说Client或者是Roo Code,我自己挂OpenAI的API或者是Open Router的API行不行?没毛病,都可以使,但是你得按TOKEN付费,那个很贵。挂Github Copilot下面的GPT-4 mini的模型的话,你有那个99刀一年的年费,就可以放心的玩耍了。
总结一下,OpenAI现在前进的方向到底是什么样的?它呢正在将各种零散的功能点聚集在一起。其实记忆早就有了,function call早就有了,推理早就有了。他一方面呢,是在拼命的去做强化学习,然后告诉大家现在强化学习scaling law依然管用。你把更多的数据、更多的算力堆进去,强化学习的效果就能起来,没有任何问题,大家好好去买英伟达显卡。另外一方面,它就把各种其他的小功能给你凑起来了,包括记忆、function call、推理、搜索呀,把这些东西给你搁在一块,你看真的好用。
其他各大模型厂商呢,在某些方面可以接近甚至赶超OpenAI,但是综合实力上,OpenAI绝对还是领先的。当OpenAI把各种新功能聚合在一起的时候,绝对是遥遥领先。它在每一个细节点上,可能都会比别人强很多。就像咱们前几天讲过GPT-4O的绘图功能,它虽然说在完整的绘图过程中,它表现力上、艺术感上没有Midjourney强,但是呢,它在文字理解上、文字渲染上,肯定是要比其他所有的这些绘图模型都要强很多的。
GPT-5现在正在路上了,甭管是今年下半年能出来,还是什么时候能出来,我觉得都是值得期待的。到那个时候就不用再去选模型了,你上来以后,他就根据你的问题直接推荐,直接给你反馈了,说我这个应该推理还是不应该推理,应该使用更大的模型还是使用小一些的模型,我应该调用哪些工具,应不应该搜索。这个我觉得还是值得期待的,就像以前我们总讲的,叫total solution,一站式服务。你进来了以后,我给你服务好就完了,至于我到底给你上了几个工具、几个模型,你就甭问了,最后是包你满意。
后边还有Sora,还是有念想。虽然Sora前面翻车了,现在大家都已经把它忘掉了,但是当它把这么多的功能聚集在一起的时候。
什么搜索呀、工具呀、推理,把这些东西跟Sora聚集在一起的时候,可能又会变出一些新的、不一样的东西出来。
Sora当年可是号称叫“世界模型”的。当它跟我们真实世界通过搜索引擎连接在一起的时候,那可能真的就要创造世界了。
好,这一期就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛,参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见!