震撼发布!GPT-4.1,牛马的新工具来了,专为程序员打造百万Token上下文API利器,超低价与高指令遵从度能否颠覆Gemini与Claude主导的工程市场格局?

震撼发布!GPT-4.1,牛马的新工具来了,专为程序员打造百万Token上下文API利器,超低价与高指令遵从度能否颠覆Gemini与Claude主导的工程市场格局?已关闭评论

GPT4.1发布了!牛马们的好工具终于上线了。大家好,欢迎收听老范讲故事的YouTube频道。

GPT4.1突然发布,这是程序员们的工具。普通的用户你是用不上的。你用网页版,你用APP,甭管是手机端的还是电脑端的,你是付费用户还是免费用户,你都用不到GPT4.1。只有程序员可以通过API调用GPT4.1。

但是这个事儿对于非程序员来说,也是有很大改变,很大帮助的。那么我们今天来讲一讲,GPT4.1到底是一个什么样的东西。

首先,它有100万TOKEN的上下文,这个是非常吓人。100万单词吧,基本上你可以直接塞到GPT4.1里头去,它统一给你处理。而且大海捞针做的也很不错。

什么叫大海捞针?就是比如说你找一个100万字以内的小说,你直接扔进去,然后呢,在里面稍微插几句。比如说OpenAI干什么了,山姆奥特曼干什么了,甭管在文章的任何地方,你稍微插几句,然后你提相关的问题,它能给你找出来。这个玩意叫大海捞针。

很多的模型都需要做类似这种测试。为什么呢?就是说我一次给了你一大堆上下文以后,你是不是通盘考虑了?不会说把其中的一部分扔掉了,或者说我看看开头看看结尾,就告诉你是怎么回事了,不会干这个事。所以GPT4.1的100万TOKEN还是非常强的,绝大部分场景直接可以应对了。

但是现在还不是最强的。现在Gemini Pro 2.5是可以走200万TOKEN的,Gemini Pro 2.0也是可以有100万TOKEN的。但是在其他的模型就没有了,可能也就是64K(64,000 TOKEN),也有一些是128K(128,000 TOKEN)。但是到100万TOKEN的其实还是比较少的。

指令依存度非常的高。什么叫指令依存度?就是你让它干嘛,它就给你干什么,不会说每一次出来的都是惊吓惊喜。你让他去找什么什么样的文章,找什么样的信息,做什么样的排序,按照什么格式输出,他都会非常非常认真的按照你的要求去把它做好。

编程能力有了非常大的提升,但是依然比不过Gemini 2.5 Pro,也比不过Claude 3.7。它的编程能力只是在原来GPT4O的基础上有了很大的提升。

标准版、mini版和Nano版,分了三个版本。为什么要分这么三个版本?速度飞快。当然现在速度最快的不是它,现在速度最快的是Grok 3 mini。这个版本是所有程序员能够使用到API里头速度最快的,原因也很简单。

用的人不多,模型又小,而且后边是马首富。家里头穷的光剩卡了,所以那东西跑的飞快飞快的。我前面有一个项目拿这玩意做,一个回车下去,夸夸夸那个刷的那个字你都看不过来。

价格非常便宜,GPT4.1,特别是这个Nano的版本,100万TOKEN的输入只需要0.1美金,换人民币7毛多钱,就可以输入100万TOKEN了。输出的话是0.4美金100万TOKEN输出,是目前大家能够用到的所有付费模型里头最便宜的一个,没有比它更便宜的了。就算是GROK3 mini,大概也要到0.3美金100万TOKEN的输入。

那么牛马们工具终于更新了,要好好去干活了。程序员们对大模型的要求,其实跟普通人还是有一些差别的。普通人呢说我要跟他聊天,他要显得聪明一点,要给我写的不像AI,要给我有很好的创造力,这个是普通人的要求。

但是程序员呢,通常要求的叫指令依存度、可控性,在这两方面要求是非常高的。因为既然是程序员,我们只是让大模型成为我们整个程序中的一个模块。我们要求的是输入,然后按照一个统一的逻辑,有一个可以预期的输出,这个是程序员想干的。就是真正那些才华横溢,不太听招呼的不是好牛马哈,所以一定是要让干嘛就干嘛的这种。

工程方面呢对于大模型的要求,跟普通人也是有一定差异的。为什么呢?普通人说你这个模型越大越好,越聪明越好。但是对于工程上来说,在满足预期的情况下,尽可能的降低成本,提高效率,提升一致性跟稳定性。在可以接受的成本下,获得可预期的结果,我给了一分钱还是给了两分钱,我就要这个结果出来,这个是工程上的需要。

GPT4.1呢,就像是牛马们突然得到了曲辕犁,这个也是中国古代的一个很著名的发明。有了这个农具以后,牛马犁地的这个效率就会极大提升。GBT4.1基本上就是这么个东西,价格便宜速度快。刚才我试了一下,至少Nano的版本,那个速度非常的快,虽然还没有GROK3 MINI那个快,但是已经很快了。

MINI的版本效果也还是不错的。这三个版本里头,大家可以按照需求自己去选择和优化。你让他做很复杂的事情,你就是选用GPT4.1。稍微简单一些的事情,或者我不需要你去发挥创造力,我给你一堆的会议纪要,你给我总结归纳一下。或者说我去到本地知识库,检索完了东西以后,你给我总结一下,这种事情你用Nano版或者是用mini版足够了,这个效果非常非常的好。

100万TOKEN的上下文。

绝大部分场景都可以满足了。你都不需要去做本地知识库做RAG,你可以直接把文档啪一把都扔给他,说来给我看看怎么回事,不需要去做更复杂的分段了。指令依存度高,这件事是非常非常重要的。

程序员最怕的是什么?叫指东打西,指南打北。像我原来使用GPT-4O的很多模型的时候,每一次输出的结果都不一样,这个让我很烦。我举一个例子吧,我让他给我的视频起标题,每一个标题后头有一个标号,但是呢,他每一次输出的都不一样。有的时候输出的是123,有的时候呢先要写一个引号,再写123,有的时候在前面给你写中文的123。这个就很烦,因为我到下一个环节去处理这个标题的时候,我需要去找到数字123打个点,然后后边是标题的这三行字,但我就找不到。经常是找着找着就出错了,因为我写程序的时候,必须是通过这个比较固定的格式去读取信息,经常会错。现在的话就不会出这种问题。

程序员喜欢的是不需要太聪明,让往东绝不往西,让追狗绝不撵鸡。GPT-4.1就是这样的一个工具。OpenAI在这个时候呢,推出GPT-4.1也是无奈之举。这个老大真的很难当,为什么这么讲?因为AIGC呢是一个基础技术,OpenAI想把AIGC的整个的盘都占住,在里头当老大,这个是很难的。

因为对于大模型的评判标准在快速的分裂。有的说我这个大模型创意最好,就像前面的GPT-4.5似的,我可以去生成各种各样的内容,而且你可以指定说给我按鲁迅那样说,他都可以做的很好。有些呢,是需要做可衡量的项目。什么叫可衡量的项目?就刚才那种创意项目是没法衡量的到底好不好,大家是要靠主观去评测的。可衡量的项目最简单的就是编程,你这个程序编的对不对,里头是不是有错误,是不是把上下文和所有的东西都考虑到了,这个叫可衡量项目。这块也是可以去评估的,谁的大模型编程最好,而且还有稳定性的要求,指令依存性的要求,这块也可以去评测。

大模型还有推理能力的要求,这块你的推理能力够不够好,这也是一个新的维度了。包括速度和价格以及多模态,多模态包括理解和生成以及realtime。Realtime是什么?就是我实时的输入,实时的输出。现在谷歌也好,OpenAI也好,都可以去进行这种real time的回复。就是你拿着一个摄像头,对着人呢也好,对着外面也好,你说这是一什么东西,那是一什么东西,就像是一个真人一样跟他聊天,去打断他,它可以实时的根据摄像头拍到的东西。

和听到的内容,给你进行回复。而且这个多模态还要去评估音频,还有是语音和音乐,还有图片,还有视频。我们要做这么多行业,这么多领域去进行评估。

而这一次,GPT-4.1可以对没有字幕的视频进行理解和分析,而且它现在在这一块的得分是最高的。它比其他所有的这些Gemini也好,包括GPT自己早期的版本也好,都提升了非常多。

GPT-4.5呢,算是一次失败的表演。就是前面先发了一个4.5出来,然后现在又发4.1。因为4.5这个东西其实是给这种Pro用户用的,就是你一个月交200美金以上可以用。后来呢,发现实在用的人很少,它又降低下来,一个月交20美金的人也可以用吧。

现在我也可以用4.5,只是到目前为止我都没有用过。为什么呢?第一个,很贵。虽然我一个月交20美金,他让我用,但是这个效果对于我来说其实看不太出来。为什么呢?因为他的文学上,在他的很多这种创意上做的非常好,但是我是一个程序员,是个直男,他写的天花乱坠的东西,到我这看不出来,还真会有这样的问题。

而且呢,4.5这东西还挺慢,这个也不是我喜欢的。所以到现在为止我没怎么用过,包括4.5的API我也没怎么调过,因为实在是贵。调API的话,你是要按TOKEN付钱的,不是说一个月交20美金就完事了。

GPT-4.5在工程方面绝对是战五渣。为什么呢?就这个价格,就让工程师直接望而却步了,实在是玩不转。稳定性、指令依存度这一块的话,肯定也不怎么样。我看创意越好的东西,这个指令依存度和稳定性就越差。

OpenAI现在在表演什么节目呢?叫“六大派围攻光明顶”。什么意思?就是在推理上被DeepSeek-R1摆了一道。并不是说OpenAI的推理做的不好,只是它原来呢,因为没有其他人竞争,所以它的推理是隐藏的,就整个的推理过程不给你看,只给你推理的结果。

而DeepSeek-R1是上来我就把整个推理的结果原原本本拿出来给你看。很多人看了推理过程之后,我还受到了启发,我还发生了思维的碰撞,可以有一些新的想法出来。在这一块,真的是给OpenAI了一些教训。山姆·奥特曼现在自己出来也承认这件事,他说:“我们并不认为DeepSeek-R1真的有做的多好,但是呢,在这一点上,确实是我们原来没想到。”

价格上呢,也被DeepSeek-R1和DeepSeek-V3摆了一道。这东西确实是便宜。这东西花多少钱训练的咱不管它,但是呢,因为它是完完全全开源免费,各个平台都在部署。

所以呢,DeepSeek V3也好,DeepSeek R1也好,对于很多的第三方开放平台来说,它所提供的这个基本可用的功能是相当便宜的。但是现在,4.1的MINI和Nano的价格已经下来了,但是4.1标准版还是稍微有一些贵的,比4O要便宜。但是应对DeepSeek的V3和R1来说,还是稍微贵一些。

在编程能力上呢,被Claude 3.5长期碾压。现在呢,还有Gemini 2.5 Pro和Claude 3.7。到目前为止,GPT 4.1在编程上的评分依然赶不上Gemini 2.5 Pro和Claude 3.7。在多模态生成这一块呢,视频,它的Sora基本上是废了,现在大家再也不想这事了。图片距离Midjourney还是有非常遥远的距离的,很难追赶。

AI agent方向就是它的下一个大方向。现在面对Anthropic的MCP和Gemini,以及Grok给出的deep research或者deep search这些功能来说,现在还是需要去追赶的。因为它下一个GPT5的版本应该就是要追赶这一块了,所以真的是四面楚歌。

除了这些之外,还有一大堆千问小模型在不停的跑冒滴漏,把各种各样零碎的用户需求都给实现掉了。为什么说一大堆呢?现在通过各种尺寸的千问模型微调出来的一个小模型,在Huggingface上大概有十几万种,所以这个是非常大批量的。

现在的OpenAI呢,在个人用户这边那绝对是遥遥领先。从用户数量、使用时长,其他所有的AI助手加一块大概都赶不上它。但是在程序员和工程方面,已经被Claude、Gemini和DeepSeek给吃干抹净了。我自己应该已经有几个月没有再调用过OpenAI的API了,没必要。你效果又不好,价格还挺贵,还不快,我为什么要调你?

所以我现在已经把自己的很多AI agent里头的大模型都换成Gemini,换成Grok,换成Claude和DeepSeek,都换成这些东西了。当然,我今天上午又把它很多换回4.1了,效果很好,好极了。

现在GPT4.1呢,就是为了挽救工程市场,挽救API市场而诞生的。这个东西并不是给c端用户去用的。那你说4.1是不是牙膏呢?你看这数就知道了呀,人家不叫4.5,不叫4.6,不叫4.7,人家叫4.1,这个肯定还是一个小牙膏。它呢,在这个创意上,在模型更聪明这块做的一般,只是说这是一个比较老实的。

指哪打哪的一个工程工具而已,这个还是很好用的。GPT5呢,估计后边还是要稍微难产一些。现在OpenAI也出来说了,我们低估了GPT5训练的困难,可能还需要再多等几个月,大家才可以看到GPT5。必须在这个时候先稳住局面,使用DeepSeek、Gemini、Claude以及MCP,其实已经可以做很多真正有用、有价值的商品了。

如果OpenAI继续放任这个事情往前走的话,程序员们可能就会被这几种模型直接都抢走了,就不会再向OpenAI去迁移了。那么OpenAI就有可能会变成一个像苹果那样的纯C端公司,这个是OpenAI所不希望看到的。他作为AIGC行业的排头兵,他希望在所有的方方面面都领头,这是他现在会遇到的问题。

OpenAI手里边的各种模型、技术和工程实践呢,肯定还是非常多的。我们现在看到的应该是冰山一角。OpenAI目前在做的事情是什么呢?如果没有人震动它,它可能还在那继续挤牙膏,继续在这晃荡。实际上2024年一整年,它就是这么个状态。但是到2025年,随着DeepSeek R1的出现,发现不行了,必须要冲出来,赶快把后院里头各种能跑能跳的东西都拎出来,稍微的包装一下,打扮打扮就直接上线了。

所以现在我们看到,OpenAI的动作是非常多的。但是即使如此,每一次我们所看到的,依然是OpenAI内部技术的冰山一角。

总结一下:如果不是程序员,GPT4.1跟大家呢,会有一些间接的关系,就是很多新的应用会出来。因为用GPT4.1做应用会更方便一些,而且这些应用呢,速度会更快,价格会更便宜,而且也会更稳定。如果是程序员,或者是说您虽然不是程序员,但是呢,想搞点Agent自己玩一下,那么4.1是一个非常非常有趣的小工具,赶快去玩起来。我已经玩了一上午了,非常非常有意思。

好,这期就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛,参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见!

Comments are closed.