价格便宜 – 老范讲故事｜AI、大模型与商业世界的故事

震撼发布！GPT-4.1，牛马的新工具来了，专为程序员打造百万Token上下文API利器，超低价与高指令遵从度能否颠覆Gemini与Claude主导的工程市场格局？

Luke Fan — Wed, 16 Apr 2025 00:52:31 +0000

GPT4.1发布了！牛马们的好工具终于上线了。大家好，欢迎收听老范讲故事的YouTube频道。

GPT4.1突然发布，这是程序员们的工具。普通的用户你是用不上的。你用网页版，你用APP，甭管是手机端的还是电脑端的，你是付费用户还是免费用户，你都用不到GPT4.1。只有程序员可以通过API调用GPT4.1。

但是这个事儿对于非程序员来说，也是有很大改变，很大帮助的。那么我们今天来讲一讲，GPT4.1到底是一个什么样的东西。

首先，它有100万TOKEN的上下文，这个是非常吓人。100万单词吧，基本上你可以直接塞到GPT4.1里头去，它统一给你处理。而且大海捞针做的也很不错。

什么叫大海捞针？就是比如说你找一个100万字以内的小说，你直接扔进去，然后呢，在里面稍微插几句。比如说OpenAI干什么了，山姆奥特曼干什么了，甭管在文章的任何地方，你稍微插几句，然后你提相关的问题，它能给你找出来。这个玩意叫大海捞针。

很多的模型都需要做类似这种测试。为什么呢？就是说我一次给了你一大堆上下文以后，你是不是通盘考虑了？不会说把其中的一部分扔掉了，或者说我看看开头看看结尾，就告诉你是怎么回事了，不会干这个事。所以GPT4.1的100万TOKEN还是非常强的，绝大部分场景直接可以应对了。

但是现在还不是最强的。现在Gemini Pro 2.5是可以走200万TOKEN的，Gemini Pro 2.0也是可以有100万TOKEN的。但是在其他的模型就没有了，可能也就是64K（64,000 TOKEN），也有一些是128K（128,000 TOKEN）。但是到100万TOKEN的其实还是比较少的。

指令依存度非常的高。什么叫指令依存度？就是你让它干嘛，它就给你干什么，不会说每一次出来的都是惊吓惊喜。你让他去找什么什么样的文章，找什么样的信息，做什么样的排序，按照什么格式输出，他都会非常非常认真的按照你的要求去把它做好。

编程能力有了非常大的提升，但是依然比不过Gemini 2.5 Pro，也比不过Claude 3.7。它的编程能力只是在原来GPT4O的基础上有了很大的提升。

标准版、mini版和Nano版，分了三个版本。为什么要分这么三个版本？速度飞快。当然现在速度最快的不是它，现在速度最快的是Grok 3 mini。这个版本是所有程序员能够使用到API里头速度最快的，原因也很简单。

用的人不多，模型又小，而且后边是马首富。家里头穷的光剩卡了，所以那东西跑的飞快飞快的。我前面有一个项目拿这玩意做，一个回车下去，夸夸夸那个刷的那个字你都看不过来。

价格非常便宜，GPT4.1，特别是这个Nano的版本，100万TOKEN的输入只需要0.1美金，换人民币7毛多钱，就可以输入100万TOKEN了。输出的话是0.4美金100万TOKEN输出，是目前大家能够用到的所有付费模型里头最便宜的一个，没有比它更便宜的了。就算是GROK3 mini，大概也要到0.3美金100万TOKEN的输入。

那么牛马们工具终于更新了，要好好去干活了。程序员们对大模型的要求，其实跟普通人还是有一些差别的。普通人呢说我要跟他聊天，他要显得聪明一点，要给我写的不像AI，要给我有很好的创造力，这个是普通人的要求。

但是程序员呢，通常要求的叫指令依存度、可控性，在这两方面要求是非常高的。因为既然是程序员，我们只是让大模型成为我们整个程序中的一个模块。我们要求的是输入，然后按照一个统一的逻辑，有一个可以预期的输出，这个是程序员想干的。就是真正那些才华横溢，不太听招呼的不是好牛马哈，所以一定是要让干嘛就干嘛的这种。

工程方面呢对于大模型的要求，跟普通人也是有一定差异的。为什么呢？普通人说你这个模型越大越好，越聪明越好。但是对于工程上来说，在满足预期的情况下，尽可能的降低成本，提高效率，提升一致性跟稳定性。在可以接受的成本下，获得可预期的结果，我给了一分钱还是给了两分钱，我就要这个结果出来，这个是工程上的需要。

GPT4.1呢，就像是牛马们突然得到了曲辕犁，这个也是中国古代的一个很著名的发明。有了这个农具以后，牛马犁地的这个效率就会极大提升。GBT4.1基本上就是这么个东西，价格便宜速度快。刚才我试了一下，至少Nano的版本，那个速度非常的快，虽然还没有GROK3 MINI那个快，但是已经很快了。

MINI的版本效果也还是不错的。这三个版本里头，大家可以按照需求自己去选择和优化。你让他做很复杂的事情，你就是选用GPT4.1。稍微简单一些的事情，或者我不需要你去发挥创造力，我给你一堆的会议纪要，你给我总结归纳一下。或者说我去到本地知识库，检索完了东西以后，你给我总结一下，这种事情你用Nano版或者是用mini版足够了，这个效果非常非常的好。

100万TOKEN的上下文。

绝大部分场景都可以满足了。你都不需要去做本地知识库做RAG，你可以直接把文档啪一把都扔给他，说来给我看看怎么回事，不需要去做更复杂的分段了。指令依存度高，这件事是非常非常重要的。

程序员最怕的是什么？叫指东打西，指南打北。像我原来使用GPT-4O的很多模型的时候，每一次输出的结果都不一样，这个让我很烦。我举一个例子吧，我让他给我的视频起标题，每一个标题后头有一个标号，但是呢，他每一次输出的都不一样。有的时候输出的是123，有的时候呢先要写一个引号，再写123，有的时候在前面给你写中文的123。这个就很烦，因为我到下一个环节去处理这个标题的时候，我需要去找到数字123打个点，然后后边是标题的这三行字，但我就找不到。经常是找着找着就出错了，因为我写程序的时候，必须是通过这个比较固定的格式去读取信息，经常会错。现在的话就不会出这种问题。

程序员喜欢的是不需要太聪明，让往东绝不往西，让追狗绝不撵鸡。GPT-4.1就是这样的一个工具。OpenAI在这个时候呢，推出GPT-4.1也是无奈之举。这个老大真的很难当，为什么这么讲？因为AIGC呢是一个基础技术，OpenAI想把AIGC的整个的盘都占住，在里头当老大，这个是很难的。

因为对于大模型的评判标准在快速的分裂。有的说我这个大模型创意最好，就像前面的GPT-4.5似的，我可以去生成各种各样的内容，而且你可以指定说给我按鲁迅那样说，他都可以做的很好。有些呢，是需要做可衡量的项目。什么叫可衡量的项目？就刚才那种创意项目是没法衡量的到底好不好，大家是要靠主观去评测的。可衡量的项目最简单的就是编程，你这个程序编的对不对，里头是不是有错误，是不是把上下文和所有的东西都考虑到了，这个叫可衡量项目。这块也是可以去评估的，谁的大模型编程最好，而且还有稳定性的要求，指令依存性的要求，这块也可以去评测。

大模型还有推理能力的要求，这块你的推理能力够不够好，这也是一个新的维度了。包括速度和价格以及多模态，多模态包括理解和生成以及realtime。Realtime是什么？就是我实时的输入，实时的输出。现在谷歌也好，OpenAI也好，都可以去进行这种real time的回复。就是你拿着一个摄像头，对着人呢也好，对着外面也好，你说这是一什么东西，那是一什么东西，就像是一个真人一样跟他聊天，去打断他，它可以实时的根据摄像头拍到的东西。

和听到的内容，给你进行回复。而且这个多模态还要去评估音频，还有是语音和音乐，还有图片，还有视频。我们要做这么多行业，这么多领域去进行评估。

而这一次，GPT-4.1可以对没有字幕的视频进行理解和分析，而且它现在在这一块的得分是最高的。它比其他所有的这些Gemini也好，包括GPT自己早期的版本也好，都提升了非常多。

GPT-4.5呢，算是一次失败的表演。就是前面先发了一个4.5出来，然后现在又发4.1。因为4.5这个东西其实是给这种Pro用户用的，就是你一个月交200美金以上可以用。后来呢，发现实在用的人很少，它又降低下来，一个月交20美金的人也可以用吧。

现在我也可以用4.5，只是到目前为止我都没有用过。为什么呢？第一个，很贵。虽然我一个月交20美金，他让我用，但是这个效果对于我来说其实看不太出来。为什么呢？因为他的文学上，在他的很多这种创意上做的非常好，但是我是一个程序员，是个直男，他写的天花乱坠的东西，到我这看不出来，还真会有这样的问题。

而且呢，4.5这东西还挺慢，这个也不是我喜欢的。所以到现在为止我没怎么用过，包括4.5的API我也没怎么调过，因为实在是贵。调API的话，你是要按TOKEN付钱的，不是说一个月交20美金就完事了。

GPT-4.5在工程方面绝对是战五渣。为什么呢？就这个价格，就让工程师直接望而却步了，实在是玩不转。稳定性、指令依存度这一块的话，肯定也不怎么样。我看创意越好的东西，这个指令依存度和稳定性就越差。

OpenAI现在在表演什么节目呢？叫“六大派围攻光明顶”。什么意思？就是在推理上被DeepSeek-R1摆了一道。并不是说OpenAI的推理做的不好，只是它原来呢，因为没有其他人竞争，所以它的推理是隐藏的，就整个的推理过程不给你看，只给你推理的结果。

而DeepSeek-R1是上来我就把整个推理的结果原原本本拿出来给你看。很多人看了推理过程之后，我还受到了启发，我还发生了思维的碰撞，可以有一些新的想法出来。在这一块，真的是给OpenAI了一些教训。山姆·奥特曼现在自己出来也承认这件事，他说：“我们并不认为DeepSeek-R1真的有做的多好，但是呢，在这一点上，确实是我们原来没想到。”

价格上呢，也被DeepSeek-R1和DeepSeek-V3摆了一道。这东西确实是便宜。这东西花多少钱训练的咱不管它，但是呢，因为它是完完全全开源免费，各个平台都在部署。

所以呢，DeepSeek V3也好，DeepSeek R1也好，对于很多的第三方开放平台来说，它所提供的这个基本可用的功能是相当便宜的。但是现在，4.1的MINI和Nano的价格已经下来了，但是4.1标准版还是稍微有一些贵的，比4O要便宜。但是应对DeepSeek的V3和R1来说，还是稍微贵一些。

在编程能力上呢，被Claude 3.5长期碾压。现在呢，还有Gemini 2.5 Pro和Claude 3.7。到目前为止，GPT 4.1在编程上的评分依然赶不上Gemini 2.5 Pro和Claude 3.7。在多模态生成这一块呢，视频，它的Sora基本上是废了，现在大家再也不想这事了。图片距离Midjourney还是有非常遥远的距离的，很难追赶。

AI agent方向就是它的下一个大方向。现在面对Anthropic的MCP和Gemini，以及Grok给出的deep research或者deep search这些功能来说，现在还是需要去追赶的。因为它下一个GPT5的版本应该就是要追赶这一块了，所以真的是四面楚歌。

除了这些之外，还有一大堆千问小模型在不停的跑冒滴漏，把各种各样零碎的用户需求都给实现掉了。为什么说一大堆呢？现在通过各种尺寸的千问模型微调出来的一个小模型，在Huggingface上大概有十几万种，所以这个是非常大批量的。

现在的OpenAI呢，在个人用户这边那绝对是遥遥领先。从用户数量、使用时长，其他所有的AI助手加一块大概都赶不上它。但是在程序员和工程方面，已经被Claude、Gemini和DeepSeek给吃干抹净了。我自己应该已经有几个月没有再调用过OpenAI的API了，没必要。你效果又不好，价格还挺贵，还不快，我为什么要调你？

所以我现在已经把自己的很多AI agent里头的大模型都换成Gemini，换成Grok，换成Claude和DeepSeek，都换成这些东西了。当然，我今天上午又把它很多换回4.1了，效果很好，好极了。

现在GPT4.1呢，就是为了挽救工程市场，挽救API市场而诞生的。这个东西并不是给c端用户去用的。那你说4.1是不是牙膏呢？你看这数就知道了呀，人家不叫4.5，不叫4.6，不叫4.7，人家叫4.1，这个肯定还是一个小牙膏。它呢，在这个创意上，在模型更聪明这块做的一般，只是说这是一个比较老实的。

指哪打哪的一个工程工具而已，这个还是很好用的。GPT5呢，估计后边还是要稍微难产一些。现在OpenAI也出来说了，我们低估了GPT5训练的困难，可能还需要再多等几个月，大家才可以看到GPT5。必须在这个时候先稳住局面，使用DeepSeek、Gemini、Claude以及MCP，其实已经可以做很多真正有用、有价值的商品了。

如果OpenAI继续放任这个事情往前走的话，程序员们可能就会被这几种模型直接都抢走了，就不会再向OpenAI去迁移了。那么OpenAI就有可能会变成一个像苹果那样的纯C端公司，这个是OpenAI所不希望看到的。他作为AIGC行业的排头兵，他希望在所有的方方面面都领头，这是他现在会遇到的问题。

OpenAI手里边的各种模型、技术和工程实践呢，肯定还是非常多的。我们现在看到的应该是冰山一角。OpenAI目前在做的事情是什么呢？如果没有人震动它，它可能还在那继续挤牙膏，继续在这晃荡。实际上2024年一整年，它就是这么个状态。但是到2025年，随着DeepSeek R1的出现，发现不行了，必须要冲出来，赶快把后院里头各种能跑能跳的东西都拎出来，稍微的包装一下，打扮打扮就直接上线了。

所以现在我们看到，OpenAI的动作是非常多的。但是即使如此，每一次我们所看到的，依然是OpenAI内部技术的冰山一角。

总结一下：如果不是程序员，GPT4.1跟大家呢，会有一些间接的关系，就是很多新的应用会出来。因为用GPT4.1做应用会更方便一些，而且这些应用呢，速度会更快，价格会更便宜，而且也会更稳定。如果是程序员，或者是说您虽然不是程序员，但是呢，想搞点Agent自己玩一下，那么4.1是一个非常非常有趣的小工具，赶快去玩起来。我已经玩了一上午了，非常非常有意思。

好，这期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

OpenAI推出GPT 4o mini，这是要卷死谁？Sam Altman封禁中国 API IP后放大招，你就给我看这个？中国大模型是不是有机会弯道超车？

老范讲故事 — Tue, 23 Jul 2024 00:48:07 +0000

OpenAI在封禁中国IP访问其API之后，第一个大动作居然是发布了一个GPT4o mini。你发布了个小模型，这究竟是要卷死谁啊？中国团队是不是有机会弯道超车呢？大家好，这里是老范讲故事YouTube频道。Open AI第一次发布微型模型，以前的Open AI都是一个比一个大，因为原来人家讲的叫Scaring Law，就是这种伸缩法则，只要是变大，我一定会变强。而且，也嘲笑那些小模型说你们肯定不行啊，一定是大的好使。我自己原来也是很喜欢使用大模型，有大的不识小的，这是我原来挑选模型时候的基本原则。但是现在，Open AI开始卷小模型了。

Open AI的这个GPT4O mini有什么特点呢？第一个，快啊，小模型一定是比大模型跑得快的。另外，就是极其便宜，它这个里面输入的信息，100万TOKEN，15美分啊，非常非常便宜了。输出的信息呢，是100万TOKEN，60美分，也就相当于是100万4块多人民币啊，已经快要接近国内的这些模型的价格了。效能呢，也应该是比GPT3.5要强一些啊，这是GPT4O MINI的一个基本情况。

那么，这样的一个鼓励越大越好的公司，原来更多的人力肯定是去研究更大的模型去了。现在说不，我要上一个小的，而且这种小模型呢，跟一般的小模型还有区别。区别在于它可以支持Function Call，可以支持视觉多模态的识别。那么，这是GPT4O MINI比其他的普通小模型所独有的特点。

以上就是关于Open AI发布GPT4O mini的全部内容，如果你对这个话题感兴趣，欢迎在评论区留言。我们下期节目再见！

型U的地方，那么MINI到底有多大呢？并没有说。其实啊，大家出的这种小模型，这种必原厂商出的小模型，都是不会对外讲说“我到底有多大”。包括一些开源厂商自己去出的一些啊，闭园小模型，也不会告诉外边到底有多大。比如说吧，灵异万物对吧，他的对外模型是开源的，告诉你这个是6B的，9B的，34B的。但是呢，它自己内部壁源的这些模型，就是你直接通过商业方式去买的啊，它就分什么medium，large，是这样分的啊，你不知道它到底有多大。包括像谷歌啊，Gemini Flash到底有多少个参数，你也不知道。Gemini Pro你也不知道有多少参数啊，cloud三个版本，其实各个参版本有多少参数，都是不说的啊。所以啊，Open AI的GPT4O mini到底有多少个参数，也不知道。现在呢，大家普遍猜测应该是在10币以内，大概也就是7币，也就70亿到100亿之间的参数，应该算是最小一个档次的。

怎么用这个模型呢？免费用户跟plus用户，已经可以跟GPT3.5说再见了。那就是我们现在打开了啊，Open AI的聊天网站之后，能够看到的三个模型：一个叫做GPT4O，一个叫GPT4，一个叫GPT4欧mini。三点五已经彻底成为过去式了。API的用户，你现在依然可以使用3.5，因为这个是不可能马上取消的啊，大家都写在程序里头了啊。模型的名字叫GPT3.5，特本什么什么的叫这样名字，你要说我直接把这个模型关闭了。不过，这通常不会发生，因为很多用户和开发者都依赖于它。

然后，上1GPT 4O mini一下替代掉的话，这事肯定不行对吧？那个程序会报错的。所以啊，GPT4O mini啊，现在已经可以为啊，直接使用Open AI API的这些用户开放了。啊，但是呢，3.5还是可以用的，现在我还没法使啊。为什么呢？因为我没有办法，直接从Open AI去买它的API服务的啊。它会识别出来，我在中国大陆不会为我服务的。所以，我现在的CPT相关的API，是通过扣子或者是一些Open AI代理服务去购买的。但现在，这个上面都没有GPT4O MINI的这个模型。为什么在这样的一个时间点，出了这么一个产品呢？他把中国大陆的API的IP封掉了以后，本来想着，他是不是专心的做个GPT5出来，或者做一点啊，把这个前面吹过的牛稍微能还上一点啊。怎么现在整了那么个小东西出来？

首先，大家要想清楚一个问题啊，Open AI就是行业里边的老大。老大最怕什么啊？老大怕竞争吗？啊，现在没有人跟他竞争啊，谁也竞争不过他。虽然现在号称御三家，就是谷歌、Siropic和Open AI里头，已经可以打个有来有回了。但是，从市场占有啊，从整个技术的程度上来说，Open AI还是绝对领先的。那么，他到底怕什么呢？他害怕的东西叫分叉啊。什么叫分叉呢？就是有很多的人是不会去看别的服务的，也不会去用任何其他的大模型，上来就用Open AI家的啊，其他所有我都不用。那么，这个呢，就属于忠实铁粉。但是一旦分岔了以后，可能会出现一些小的分支，这些分支会逐渐壮大，最终可能会影响到Open AI的市场地位和影响力。为了避免这种情况的发生，Open AI可能会采取一些策略，比如推出GPT4O MINI这样的产品，来吸引更多的用户，保持其在市场上的主导地位。同时，通过限制某些地区的直接访问，Open AI可能也在试图保护其技术和市场，防止技术的过度扩散和滥用。

大家说：“哦，不，我不能只用Open AI的，我所有的都要用一下。我要在不同的场景里头，找到不同合适的模型来使用。这个过程要分叉了，老大最怕的就这件事情。他现在已经看到了有分叉的这种方向了啊，或者说，他现在已经看到了有分叉的趋势了。所以，必须要冲出来说，我要把所有分叉的趋势，掐死在萌芽状态啊。这就是GPT4O MINI发布的一个大的前提。因为GPT4和GPT4欧，包括GPT4 Turbo所有的这些模型呢，它比较贵。越来越多的人呢，就希望转型。像我现在做很多这种AI agent，这种工作流，我会把最费劲的一个点交给GPT去做。对于理解能力，对于推理能力没有那么强的节点，我都尽可能去选择更便宜的，这种大模型来工作，或者更小一点的大模型来工作。这个是经济的考量啊，而且我们发现，在这种稍微小一点的大模型，你让他做简单的工作，效果其实是很好的，并不比GPT4差啊。这个是现在Open AI不能允许的啊，你们就老老实实的，你要想去用这个小模型，我也给你提供上啊。这个是要注意。

而且呢，现在所有在跟Open AI竞争，或者说在Open AI这条道路上，追赶他的这些人呢，目标都很明确。怎么叫目标明确呢？每一个人上来说，我现在都是接近GPT4对吧，没有人超过啊，就很少有人超过，或者可能只是在个别指标上超过。整体超过的，现在还没有，或者说不多吧。但是呢，我们现在甭管国内的大模型，国外的大模型，都在努力地追赶，试图在某些方面超越Open AI，这是一个非常明显的趋势。

都说我现在已经接近GPT4了，然后呢，遥遥领先于GPT3.5。对吧，这也是现在的一个时间点。而且，很多的小模型，甚至是这种70亿、100亿、300亿、几百亿这种模型，都已经超过GPT3.5了。GPT3.5有多少个参数呢？当时是1750亿个参数，这么多的参数，怎么还这么差呢？这么多年了，时代在进步，而且AIGC大模型的发展，真的叫日新月异，每一天每一个小时都在发生变化。

这么长时间过来以后，你用原来这种架构，GPT3.5的这种架构，它确实是效能比较低了。所以现在很多的这种1000亿以内的，700亿的，或者是更小一点的，几百亿的，都可以超过GPT3.5。那么GPT3.5就已经必须退役了。

退役的原因也很简单：第一个，原来GPT3.5一直挂在那，不是说Open AI没有更好的模型给大家用，而是什么呢？他希望让你去买它的Plus，让你说，哎，你看这个实在是难使吧，你直接升级，一个月20美金就可以有GPT4用了。GPT3.5跟GPT4之间，一定要有一个很明显的，个人可以直接感知到的差异，你才会觉得我这20美金一个月花的值，否则的话，你会觉得花的不值了。

但是现在其他的模型都赶上来了，你再继续摆这么一个3.5在这恶心人，就已经不太合适了。另外一个是对于免费用户来说，GPT3.5实在是缺乏吸引力，我不愿意付钱，我可以使用Gemini呀，我可以使用很多的其他免费的这种模型。

这些模型，现在已经完完全全超越三点儿五了。所以，这个也是到了该抛弃三点儿五的时候了。另外呢，很多的API代理也让Open AI非常不爽。像我就是用的API代理啊，API代理呢，像跑冒滴漏。像我现在用Open AI的所有API，价格应该是至少打到4折，或者是还要更低一些的折扣啊。我就可以去使用。

到了那么这些的话，Open AI觉得就算是打折，也应该从我这打啊。凭什么你就去打折了啊？这个他是不开心的。而且他现在降到这样的一个程度，为什么这些API代理没有跟进呢？他没利润啊，这些啊，也是会对他们造成一定的影响和损失。

另外，也要开始应对中国了。Open AI肯定发现，封堵了中国IP的API调用之后，Open AI调用数据一定是在暴跌的啊。这个肯定也不是他们希望看到的。

现在我们要讲一下田忌赛马的故事。田忌赛马是什么？就是用我最好的马，对应你这个中间的马啊，用我中马对应你的下马啊。你最上面那个你赢一场算了，剩下的我赢两场。在大模型这个行业里头，其实也是如此的。大家呢会分成不同的层次去竞争，端侧的竞争，就是说我们甭管在手机端、PC端还是各种的啊，设备端吧。那么现在大家在争的是什么？Open AI基本上是不参加端侧竞争的啊。哪怕它是GPT4OMINI，到目前为止，也没有说，这个产品可以给大家在端上使用啊。当然你说，未来会不会把这东西拿到端上来使用？不确定啊。但是至少现在没有说这个事儿。

呃，它这个大家猜测在10B以内，可能7B到8B这样的一个水平上。按道理说，是在手机上可以运行的。对吧，可以在iPhone里头跑。那么是不是说，呃，跟苹果合作了，我干脆就把这东西呃，拿出来就给大家用了。是不是他给了苹果一个类似于一个GPT4OMINI的版本，但是苹果你不允许拿出去再扩散了啊。但是在iOS 18里边，应该会带这样的一个东西，可能性是存在的啊。啊，但是这个事谁都没说。

在端侧竞争上，一般移动端呢，5B以内的跑的是比较好的啊。你如果手机的配置高一些，跑到7B到9B应该也还是能跑的。台式机呢，你到10B左右啊，都是没有什么问题的。包括我们后边讲的这些AIPC，其实AIPC是所有能够跑大模型的台式机里头，水平比较烂的啊。那么工作站呢，就是我们比较高端的台式机，比如说你这里头有独立显卡啊，4090，然后不是4090，你有个四零六零，四零七零那样的独立显卡，或者比如说像我们使用麦克这种呃，M1，M2 Max，或者M3 Max这样的这种机器的啊，那么它就基本上属于工作站级别了。这种机器里头呢，大概跑到三十几B都是可以跑通的啊。再大了跑不动了。

然后像这种个人服务器上，是可以跑到70B的。咱们现在能够接触到的开源大模型，可以到本地跑的，基本上也就是70B，72B到头了。再大一点呢，啊，通1,000问1.5的时候出过一个110B啊，但是那个模型流行的并不是很广泛。

绝大部分都是在七十几币就到头了。这个呢，就是在思域服务器上用的。而且，在70B这个档次上，现在Open AI肯定是感受到压力了。中国团队基本上在70B这个档次上，站稳脚跟了。咱们国内推的各种各样的大模型，基本上都是70B上下的。为什么？因为懒。Meta的LaMa3就是70B的。我们在这个基础上再去进行调整，或者再去进行一些相应的训练吧。我们出到72B，或者七十几B这样的一个模型，效果其实已经很好了。加上RAG，就是本地知识库的这种辅助，加上长上下文，再加上多模态搜索的辅助，效果其实跟GPT-4之间，已经没有那么差了。对吧，GPT-4就是说你不加上这些东西，它也可以回答的很好啊。你如果是加上这些，搜索辅助啊什么的，70B基本上够使。

对于快速反应的这种低价模型来说，大家竞争的是什么？刚才咱们讲的是端侧模型啊。在云端模型其实也是分两拨的。一拨呢，就是大模型啊。大模型是，GPT啊，Gemini Pro这个，呃，Cloud Opus啊，这些就属于大模型啊，比较贵，性能比较高。那么大家都去推这种小模型，特别是另外两家。刚才预三家我们讲了啊，Open AI，谷歌和Anthropic。谷歌跟Anthropic都推了一种小模型，一个叫Gemini Flash，另外一个呢，叫做Cloud Haiku，叫这样的一个名字，都是相对比较小的，很便宜，反应速度很快。原来啊，GPT3，GPT是没有的，现在出来就是要去卷它们。大模型竞争。

咱们自己去比一比啊。这个小模型，你们出了，我也得出一个。所以，咱们回答开题的那个问题：“Open AI到底想卷死谁啊？”他想卷死的是Gemini 1.5、Flash和Cloud 3，嗨酷啊。是选这两个产品，但是要注意啊，Cloud 3.5现在已经出来了。但是3.5呢，只出了Sonit一个产品啊。它是分三个档次的，这种大模型啊。一个叫做High酷，是最小的，估计应该是10亿币以内，也就是7亿左右的一个模型。然后是Sonit啊，3.5已经到Sonit，它呢应该是在二三十亿币。但是都不是对外公开的啊。还有一个叫Opus啊，Opus是最大的，但是Opus到底有多大，可能是上百亿币的一个模型对吧。现在呢，3.5已经把中间这个模型出来了，上下两个还没出，估计呢应该本月会出。

所以在这个时候啊，Open AI说不行，我要把你这个底层的，这个给你封掉啊，让大家觉得啊，就算是用这种底层的小模型啊，这个也有一个更便宜的Open AI来用啊。这是他真正要去干的事情。那么对于开源模型来说的话啊，就是本地部署这个呢，Open AI应该不在这个赛道上啊。它有可能说，我用一些必源的模型，直接跟苹果，跟谁去合作，这个事可能是存在的。但是呢，他不会说我到GitHub上，到HuggingFace上，直接把这个GPT40 mini扔出来啊。应该不会干这个事情。

那么对于中国团队来说，到底有没有弯道超车的机会？这是一个值得探讨的问题。

这也是我们开题上的一个问题，对吧？“卷”就一个字，在这个字上呢，中国团队绝对是遥遥领先的。中国现在已经开始卷下一个层次了啊，在上一个层次里头，中国团队发现：哎，我只要把模型推到七十几，对吧，加上搜索辅助，加上reg，加上这个啊，长上下文，效果已经非常好了，对吧，不需要再往前推进了啊。真的效果非常好了吗？很多人说你是不是吹牛啊。他这个事是这么算，就是再有相差的这部分，个人感觉不出来，因为人的感受有时候很主观的啊。你不可能说：哎，我去招聘了，对吧，我一定要挑出最好的那一个来，不可能的。你一定是找了一个相对顺眼的，然后磨合了一段时间，发现：哎，这个工作还能干得下去，日子也能过得下去啊，也不讨厌，你就可能一直用这个人用下去。你不可能说：哎，旁边这个人，好像比我招的这小伙子，还要更厉害一点，对吧，我就马上把我这开了，把那个人招回来，不会干这个事了。在这样的一个情况下啊，我们只要用习惯了，慢慢的对于我们已经招聘进来的人，就会有更高的容忍度。为什么要讲招聘的故事呢？其实我们使用大模型的过程，跟招聘的过程差不多。在挑选的时候，我们一定是非常小心的，来去确定到底哪一个适合我们，我们的这个任务，它是不是可以很好的完成。一旦你把它挑进来了，下一件事是什么？就是我们要去跟他磨合，怎么能够跟这个大模型一起，把我们要做的事情做完。当大家互相习惯了以后的话，你不会说：哎，那个更好，我马上换人的。一个大模型，它是有很高的粘度的。

所以，中国团队在70亿参数这一块，基本上已经达到了一个阶段，我们可以说，我们已经能够吸引一部分用户，而且这部分用户愿意留下来，持续使用我们的产品。再往前推进，当你提到我现在发布的几千亿参数的模型，也就是几百亿参数的这类模型时，第一个问题在于训练上，我们可能还没有完全搞明白，应该如何应对这个挑战，因为目前开源出来的就是70亿参数的模型，再大的版本现在还没有开源，所以这件事情还搞不定。

那么再往上，你说我们闭着眼睛去研究一下行不行？也不行，为什么呢？因为越大的模型，你训练的成本就越高，而且越难去控制。在这种情况下，我们可以说，我们就停在这了。那么停在这，中国团队现在在干嘛呢？他们搞APP开发，搞各种接触用户的方式，我们现在要去获取所有用户，这是我们已经开始卷的东西，Open AI还没卷到这呢，我们其实已经开始弯道超车了。

你说Open AI不是也有APP吗？它有安卓APP，有iOS APP，甚至最近还开始出Mac APP。但是你要想清楚，中国人做的是什么呢？聊天、搜索、绘图、情感陪伴，都整合在了一个APP里头。而且，我们的APP是Windows、Mac、安卓、iOS全都有。你说Open AI自己为什么不做一个Windows APP？亲爹不让啊，谁是亲爹？微软。微软说这个事情打住，我在那边玩Copilot，你自己不要来找这个事情，你到Mac那边去玩耍就可以了。有什么问题，去霍霍苹果，不要来霍霍我，这个他就没法整。而在中国，你看看啊，豆包，所有的平台，都在积极地推进和用户接触的策略。

Windows、Mac、iOS、安卓，全都出齐了。而且，它还把所有的功能都集齐了。像Open AI做的Mac版的APP，只能干嘛呢？就是回答问题。也就是说，你可以听话，可以去语音识别，他就干这些事情就完事了。中国的就什么都可以干啊。你让他去唱歌跳舞，让他去画图，让他去做图像识别，包括各种的角色扮演，就是Carrot AI做的那些事情啊，咱们也都可以搞定。只要是外边有的，只有咱想不到，没有咱做不了的啊。这一块还是非常好用的啊。我现在用的量很大的就是豆包APP啊，非常好使。然后另外一块我们再卷的是什么呢？啊，Chrome的这个插件啊，就是在浏览器上做插件。因为现在的浏览器，基本上都是Chrome的内核啊，甭管是Chrome的啊，还是这个微软的Edge，底层都是Chrome啊。所以我们现在在上面做插件，甭管是Kimi还是豆包，都在上面卷插件。而且那个插件的功能，那全的是一塌糊涂。你一旦在浏览器上装了豆包插件了，然后你去用谷歌搜索豆包，就在侧边栏开始对搜索结果进行总结。你说哎我现在去看一下YouTube，马上旁边就开始给你做，我给你做个视频总结吧啊。甚至说你在这看YouTube的时候，他说我给你翻译个字幕吧。或者我随时在浏览器里头，选中一个单词，选中一句话，他说我帮你翻译一下吧。或者说你在浏览器里头有一个空格啊，或者叫有一个输入框，需要你输入信息的时候，他马上跳出来想输入点什么，我帮你润色一下。

要不要从上到下，事无巨细，只要他能粘手的地方，全都给你冲上来？说来，我在这呢，让我看点什么吧。或者说你现在浏览一个网页，说帮我总结一下。那这是人家的本行，干的甭提多好了。这一块，中国已经彻底卷风了啊。那你说美国人不做这种浏览器插件吗？也做，但是呢，美国人做都是小团队或者个人做。那你跟像豆包这种，可能后边有好几十人，上百人的团队，大家领着薪水，加着班，然后疯狂的往前卷。这事谁卷谁啊？对吧，你肯定卷不过他。现在在接触用户这角度上说，甭管是做APP，做浏览器插件，这啊，中国团队已经弯道超车了啊啊。

至于说Open AI，现在再去推出的GPT4 Omni，实际上它已经是在追赶其他人，但不是追赶我们啊。它在追赶的是谷歌的Gemini Flash和Anceropic的啊，CloudHi苦啊，在追赶这两个产品，希望把他们卷死。我们现在已经在另外一个层次上，在卷了，等他们把这仗打完了以后，发现哎，这个用户都已经被中国团队卷干净了啊。可能会出现这样的情况。

好啊，这个故事就跟大家今天讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣，有能力的朋友加入我们的付费频道。再见。