模型性能 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI 突然开源！GPT-OSS 深度评测，中美 AI 竞争升级，谁能笑到最后？AI 界的“田忌赛马”！详解中国“全家桶”式开源，如何对决 OpenAI 的精准出牌？

Luke Fan — Fri, 08 Aug 2025 01:02:14 +0000

OpenAI再次开源，中美AI竞争加剧，这一次体现在了不同的开源策略上。

OpenAI再次开源，这一次发布的版本叫GPT-OSS (Open Source System)，8月5号突然上线了。这一次又不是GPT-5，我们从7月份就开始等GPT-5，现在已经等得大家开始胡思乱想了。很多人猜，说为什么出不来。现在最新的说法是48小时之内出来，等等看吧。

这一次呢，开出来的是GPT-OSS，是一个开源模型，20B和120B两种参数。它呢，是一个MOE模型，就是混合专家模型。其实在GPT-4的时候呢，大家就已经猜测它开始使用混合专家模型了，只是呢它不开源，大家只能猜。现在开出来了MOE推理模型，是有COT的思维链，是直接给大家展示出来的。而且呢，是一个文本模型，没有多模态的东西。上下文比较长，128K的上下文，要比国内的一些开源模型还要再长一些。因为现在没办法，你要使用工具、使用MCP，没有足够长的上下文，你是跑不起来的。所以呢，这一次的GPT-OSS说，我们很擅长使用工具，有的时候有点太擅长了。因为我测试的时候，有的时候工具调用次数非常多，直接就把自己的上下文填满了，这种情况也是不少的。

这一次呢，创新性地使用了MXFP4的一个量化，这是它最新的一个技术。首先要讲一下MXFP4的这个训练。我们以前使用的模型，千问、DeepSeek这些模型呢，我们都是使用的FP16去进行训练的，有的甚至是FP32去进行训练。就是我们把每一个数码位上的指针都做得很长，非常非常精确。这个好处是什么呢？就是你训练的时候，可以很精确地去进行训练。你再去推理的时候呢，我们再想办法把它这些数据呢，做成FP8，就是做成8位的一个短指针，速度就会快很多，而且呢，在这个缩短的过程中呢，精度损失的也不是很大。原来我们都是这么来干的。但是呢，这一次的GPT-OSS呢，他们使用了一种4位的指针，更短小一些。而且呢，它跟以前不一样，原来都是用比较长的数码位去进行训练，训练以后再去进行缩短。这一次直接训练的时候，就是4位的，出来就当4位的使，他是这样来去工作的。这个好处是什么呢？就是特别地节省空间，它的速度很快，我在本地测试的时候已经感受到了。

它呢，没有做蒸馏。原来大家都在想，GPT-OSS是不是直接拿GPT-4o，或者拿什么样的这个数据去蒸馏一下就可以了？因为OpenAI手里有很多这些大模型嘛。它并没有去做蒸馏，是从头开始原生训练的一个大模型。用了数万亿TOKEN的纯文本，重点覆盖STEAM、代码和通识知识。主要是拿这些东西训练。它呢，使用了GPT-4o的CBRN过滤器来清洗有害内容。在这里要专门讲一下，GPT-OSS的道德感还是很高的哈，所以呢，不要想着它到本地了，我们就可以拿它随便做一些什么样的事情，它会拒绝大量的指令的。它的知识呢，是截止到2024年6月，再往后的知识是没有的。你说我想处理一些新的知识怎么办？没有问题，因为它调用搜索、它调用工具的能力很强，所以你可以先命令它搜索，然后再去总结。

在进行了预训练之后呢，使用了与GPT-3相同的COT强化学习的数据进行训练，它就可以进行COT的输出。所以这是一个推理模型。两个版本的模型，一个20B，一个120B。20B呢，它的效能相当于GPT-3 mini，其实对于很多的本地工作来说，已经够使了，效果我刚才试了还是相当不错的。120B呢，相当于GPT-4 mini的水平，这也是我们普通的plus用户可以在GPT.com的这个网站上使用的最高版本的推理模型。实际上它那个上面最强的模型，我们能用的应该是GPT-4o全量模型。

20B呢，我装了，效果不错，速度飞起。比我本机跑的各种的30B模型、32B的模型要快非常多，甚至比一些十几B的模型速度还要快。产出的内容的质量，要比那些三十几B的，像千问模型要好很大一些。这个是我的一个主观的感受吧。我呢，是用Ollama直接在我的MacBook Pro 32G内存的笔记本上跑起来的。据说呢，这个东西是可以在16G内存的笔记本上跑，但是我没有测试，因为我们家没有这么低内存的电脑。

至于120B的话，这就不是我应该用的东西。为啥呢？它需要80G的显存，咱们没有这东西，是小团队在服务器上用的东西，这个不是给普通人在电脑上用的。你说我一定要去买一个Mac studio，或者我在本机去装4090装好几块，这个东西也是可以跑，但是真的没有什么必要。

那你说云端有没有？云端你现在上OpenRouter等等这些网站呢，是提供120B的模型的。但是我都上了云端了，谁用这玩意儿？我直接用GPT的大模型不就完了吗？所以呢，120B的模型对于我们这种个人玩家来说，稍显尴尬。但是你说我是一个小团队，我有一些信息不可以出办公室，你可以专门搭一台服务器来跑120B的模型。

中国的云端大模型托管服务上呢，目前都没上。这个它虽然是使用Apache 2.0协议，国内的这些像阿里云、硅基流动或者像火山云，你都可以去用，这个事他是不管的，至少这个协议是允许我们去用的。而且呢，这个Apache 2.0，我们不但可以用这个模型，还可以商用，还可以去修改这个模型，都不需要他的同意。但是呢，在中国有另外一个比较麻烦的是什么呢？就是谁把这个大模型包装出来给公众去使用了，谁需要去申请牌照，是需要申请合规的。上一个新的模型测试、申请合规的过程的话，还是有一些成本，所以现在大家还没有上。其实像Llama系列的模型，国内的这些云服务商上基本上都还是有的，也可以用。但是呢，每次上一个新的，这块我们没有那么快。国外的像Open Router什么的就已经上来了，第一天出来，第二天就直接可以上来使。中国的要求呢，不是说谁出大模型谁要去申请牌照，而是谁拿着这大模型出去给人服务，谁需要去申请牌照。你比如说，DeepSeek说我今天开源模型了，你不需要申请牌照；但是你说DeepSeek提供了API、提供了聊天窗口，要跟人服务了，这个你需要申请牌照。它是这样的一个工作逻辑。

那OpenAI为什么时隔这么多年又去开源了呢？原因也很简单。总有一些机构呢，不希望自己的数据离开可控的网络，不希望说这个数据跑到外网上被OpenAI学习了。最近OpenAI好像还有一个聊天提示词泄露的事情，这个事情是大家不希望的。前面包括三星还有很多的海外公司，使用OpenAI的时候都发生过泄漏情况。但是这种泄漏呢，其实很多是他们的防火墙爆出来的：“我发现你把一些公司敏感信息发到外网去了”，这个时候防火墙就会报警。但是你说我发到OpenAI以后，OpenAI是不是再去用这个数据，或者是不是拿这个数据再去训练模型了，或者再去传播了？这个事呢，反正OpenAI对外的承诺是它不做这个事，但是这个不好说嘛，有些人我们未必信得过他。所以有一些机构说，我一定要本地模型。原来这个生意OpenAI是不做的，现在呢，说我们这块也得做着，我们也要抢这个生意。20B呢，本机运行；120B呢，内部服务器运行，可以很好地解决这些敏感单位的需求。

而且呢，20B也好，120B的模型呢，还可以进行微调。微调了以后，你可以拿它去进行法务、医疗等等这种特殊需求的应用。而这儿呢，要稍微提醒大家一句，前头我们讲，GPT-OSS是有非常高的道德水平的。你一旦微调了以后，这个道德水平就不好说了，有可能GPT-OSS震碎三观，从此堕入黑暗的可能性是存在的。但是呢，那个就是你们各自自己负责任了，跟OpenAI就没什么关系了。

咱们呢，讲到这再讲一讲，中美之间到底是怎么去进行竞争的呢？美国人出了这个东西，不是美国人赢了吗？不是这样的。中美之间呢，有四种不同的开源策略。

第一种呢，是混沌模式。甭管什么样的东西，我先开了再说，开完了以后，你们爱怎么用怎么用。这个是谁呢？Llama就这么干的。Llama 1、Llama 2、Llama 3、Llama 4，都是上来我就开了，开完了以后你们拿去用吧，我就不管了。但是到目前为止呢，发现这条路可能走不太通。扎克伯格捞了一大堆的人以后，说我们是不是不开源了，重新思考一下未来该怎么走的问题，稍显可惜。

第二种模式呢，叫做“开旧闭新”模式。就是呢，我把这个新模型闭源了，我把老模型把它开源出来。谁干这活呢？就是马斯克，xAI就干这个活。他现在呢，是Grok-1开源的，2、3、4都是闭源的。但是马斯克呢，应该是昨天讲的吧，说我们近期准备把Grok-2也开源出来，那就3和4是闭源的。对于他来说呢，他的这个策略很简单，就是开源这一扇大旗我还是要扛着的，但是呢，如果你们想要用最新的模型，你就老老实实上我这来交钱，来把数据交到xAI的服务器上去进行运算。所以马斯克这个xAI呢，我一直评论它是一个假开源，他并不希望别人真的拿这个东西去做点什么事儿，只是说“我还开着呢”。

第三种模式呢，就是OpenAI现在做这个事儿，叫“开小闭大”。它的GPT-3、GPT-4这些东西呢，是闭源模型，GPT-4o也是闭源模型。同时呢，它开了一个小模型叫GPT-OSS。你如果本地需要一些敏感数据处理，你就用开源模型；如果是一个很复杂的处理，你就老老实实地到网上来使用我的这些闭源模型就完了。谷歌也是这么干的，谷歌的闭源模型呢叫Gemini，现在Gemini 2.5 Pro是我目前用到的算是最好用的模型之一吧。他还开源了一个叫Gemma的模型，Gemma现在最新的应该是Gemma 3。你们如果有一些需要单独处理的数据、需要敏感处理的数据，你就把这个Gemma当（download）回去在本机使用。还有呢，微软，微软的小模型开源出来，这个模型叫Phi-4现在最新的版本。他们家自己不做大模型，用OpenAI的大模型就完事了。现在Mistral也是走着这条路，就是法国这公司，他们呢，现在有一些小一点的模型开源出来给大家用，但是大一些的、复杂一些的这个操作，你就老老实实地上云端，调他们家的服务器就完事了。

这个混沌模式和这个开旧闭新模式呢，咱不讨论，没有什么明确的商业诉求在后头。“开小闭大”模式，就是美国人现在使用的开源模式。那你说中国人使用的开源模式是什么样呢？跟他到底有什么不一样的呢？而中国人是直接把最新的、最大的全开出来。千问三就直接把200多B的模型开出来，DeepSeek直接把671B的模型开出来。而且只要我发布了最新的模型，我就把最新的模型直接开出来。这个是咱们的玩法。现在中国跑得比较靠前的开源模型：DeepSeek、千问、Minimax、Kimi和GLM。

所以这是两个完全不同的开源策略。那么中美博弈在什么地方？这两个策略，一个是“开小闭大”，一个是“应开全开”，那到底是怎么博弈的？中国人玩的，其实是“田忌赛马”的故事。就是你那最好的马呢，我跑不过；但是呢，我用我最好的马去给你一个中马跑，我用我的中马呢，给你的次马跑，反而我那个次马呢，上来我就给你最好的马跑，一次就完事了。这样三局两胜，我还是胜了两局的。

那你说大模型开源，这到底怎么去“田忌赛马”的呢？中国目前开源大模型呢，跟美国顶尖的闭源大模型比，它是比不过的。你比如说千问三的230几B的这些模型，DeepSeek 671B的模型，你去跟GPT-3、GPT-4这些模型比，你比不过他；你跟Claude、Code 4这些模型比，你也比不过；跟Gemini你也比不过。那怎么办呢？我们去跟你的开源模型比，去跟这些120B或者是这种三十几B的这些开源模型，我比你跑得好。我这个一上来就是600多B，效果一定是比你那个三十几B的效果要好非常非常多的，相当于是用我的最好的马去跟你那个中等的马去跑。当用户选择本地闭源、中小模型的时候呢，中国队就会占优。但是你说我在本地、在电脑上直接需要一个小模型，目前为止我使用到的GPT-OSS 20B是最好用的。中国现在同样大小的，你比如说都是20B或者是30B的这些模型，你比不过它。但是呢，有些人说，你看我这也是一个小的单位，我这个单位里头呢，也有一些服务器，我想要用一些模型去处理一些问题的话，那你使用这些600多B的或者是200多B的模型，你去跟GPT-OSS 120B打，你是打得过的。那么在这种小团队选择开源模型的时候，中国队就占优了。它是不同的一个竞争策略。

而且呢，当有创业公司想要去挑战大厂的时候，你比如像Perplexity说，我们想拿一些好一点的开源模型再去进行调整，我们想去跟大厂掰掰手腕的时候，中国团队会给他们提供充足的弹药。他们拿美国队，比如说Gemma、Phi或者是GPT-OSS，这些专门为PC端运行训练的这些小模型，你是没法整的。你拿这些模型再怎么微调、再怎么折腾，你没法跟那些大厂竞争。它会有这样的一个差异。但是呢，你拿中国这些模型，你再去微调一下，或者拿这个模型再去怎么折腾一下，那都是有可能能够做出一些比较强的应用出来的。

美国人的想法呢，其实挺简单的。使用美国的开源小模型，可以解决大厂预设的一些问题。比如OpenAI，我给你预设了些这些问题，你用这小模型解决；那些问题呢，你就用大模型解决。大模型你上云端来调，小模型自己去用。但是呢，使用小模型的人，永远不可能形成对于大厂的竞争来，这就是他想干的事。而中国人的策略是什么呢？看热闹不嫌事大。有人打架了，赶快往上递什么无缝钢管，递什么煤气罐，咱们赶快去干这些事。当然这些无缝钢管，比如到了中东，他们可能就变成了煤气罐大炮了，那个我们就不管了，我们都是卖的民用设备过去的，他们拿去打仗，这事跟我们没关系。所以中国人喜欢干这样的事情。

那谁能笑到最后呢？刚才我们讲了，中美两个策略不一样。短期内看呢，美国的策略是更精明的，他把应用分析得很清楚，谁该用什么东西，谁自己去用就完了。但是呢，中国的策略呢，也有自己的定位，短期内呢，我们也可以争夺到一部分市场，这个事本身并没有太大的问题。从长期考量来说呢，美国的策略首先要保障的是巨头永远是巨头，巨头规划未来的格局，中小企业呢，在巨头的规划内生长。有点像谷歌跟苹果似的，你说这么多做App的、做游戏的公司，谁也没有能力去撼动这些做App Store和Google Play的公司去，这个就是他们所希望去规划的事情。而中国的策略呢，就是有可能培养出一些颠覆市场的妖怪来。我们不管你这个规则是什么样的，反正我们给你这个煤气罐、给你这个无缝钢管，你拿去爱干嘛干嘛去，这是中国的策略。而且有很多的国家呢，是不甘心永远去用美国的这些闭源模型的，那么在这种时候，中国的开源模型也是他们唯一的选择。你比如说到了沙特了，到了阿联酋了，也希望有一些自己的大模型，但是你拿美国的这些模型你没法整。虽然他可以给你部署到你本地来，但是这个东西还是由美国人来管理的，哪天他给你关了，你就没法用了。你说我有一个完全我自己控制的了的这些模型，那你就老老实实地用中国的模型去训练，美国的这些开源小模型，你拿它是没有办法的。

而且呢，在一个一半以上研发人员都是中国人的领域里头呢，中国策略可能才是未来。AI领域是一个有着深深中国民族性烙印的领域。在这个圈子里头，只要是做AI相关的公司，出来讲点什么事儿，基本上一半以上是中国人。那你说中国人的民族烙印到底是什么呢？每个中国打工人都惦记着阶级跃迁，惦记着翻身做主人。咱们讲的是说，哎，我这开了一个拉面馆，我请了几个中国师傅在我这拉面，他们就想着说：“我应该怎么把这个配方偷出来，以后我可以在旁边再开一家拉面馆，去跟原来的老板竞争。”中国人讲的叫“王侯将相，宁有种乎？”，凭什么你行我不行？咱们也可以上来试一试。所以呢，像美国人这种，就是规划好了你就拿小模型，你永远做不出大模型的，这东西拿去用去。咱们的策略就是每个人都有枪有炮，最后谁说了算不一定呢。

日子还长，咱们往后继续看，到底哪条路可以走得通，到底哪条路可以结出丰硕的果实来。

好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

OpenAI推出GPT 4o mini，这是要卷死谁？Sam Altman封禁中国 API IP后放大招，你就给我看这个？中国大模型是不是有机会弯道超车？

老范讲故事 — Tue, 23 Jul 2024 00:48:07 +0000

OpenAI在封禁中国IP访问其API之后，第一个大动作居然是发布了一个GPT4o mini。你发布了个小模型，这究竟是要卷死谁啊？中国团队是不是有机会弯道超车呢？大家好，这里是老范讲故事YouTube频道。Open AI第一次发布微型模型，以前的Open AI都是一个比一个大，因为原来人家讲的叫Scaring Law，就是这种伸缩法则，只要是变大，我一定会变强。而且，也嘲笑那些小模型说你们肯定不行啊，一定是大的好使。我自己原来也是很喜欢使用大模型，有大的不识小的，这是我原来挑选模型时候的基本原则。但是现在，Open AI开始卷小模型了。

Open AI的这个GPT4O mini有什么特点呢？第一个，快啊，小模型一定是比大模型跑得快的。另外，就是极其便宜，它这个里面输入的信息，100万TOKEN，15美分啊，非常非常便宜了。输出的信息呢，是100万TOKEN，60美分，也就相当于是100万4块多人民币啊，已经快要接近国内的这些模型的价格了。效能呢，也应该是比GPT3.5要强一些啊，这是GPT4O MINI的一个基本情况。

那么，这样的一个鼓励越大越好的公司，原来更多的人力肯定是去研究更大的模型去了。现在说不，我要上一个小的，而且这种小模型呢，跟一般的小模型还有区别。区别在于它可以支持Function Call，可以支持视觉多模态的识别。那么，这是GPT4O MINI比其他的普通小模型所独有的特点。

以上就是关于Open AI发布GPT4O mini的全部内容，如果你对这个话题感兴趣，欢迎在评论区留言。我们下期节目再见！

型U的地方，那么MINI到底有多大呢？并没有说。其实啊，大家出的这种小模型，这种必原厂商出的小模型，都是不会对外讲说“我到底有多大”。包括一些开源厂商自己去出的一些啊，闭园小模型，也不会告诉外边到底有多大。比如说吧，灵异万物对吧，他的对外模型是开源的，告诉你这个是6B的，9B的，34B的。但是呢，它自己内部壁源的这些模型，就是你直接通过商业方式去买的啊，它就分什么medium，large，是这样分的啊，你不知道它到底有多大。包括像谷歌啊，Gemini Flash到底有多少个参数，你也不知道。Gemini Pro你也不知道有多少参数啊，cloud三个版本，其实各个参版本有多少参数，都是不说的啊。所以啊，Open AI的GPT4O mini到底有多少个参数，也不知道。现在呢，大家普遍猜测应该是在10币以内，大概也就是7币，也就70亿到100亿之间的参数，应该算是最小一个档次的。

怎么用这个模型呢？免费用户跟plus用户，已经可以跟GPT3.5说再见了。那就是我们现在打开了啊，Open AI的聊天网站之后，能够看到的三个模型：一个叫做GPT4O，一个叫GPT4，一个叫GPT4欧mini。三点五已经彻底成为过去式了。API的用户，你现在依然可以使用3.5，因为这个是不可能马上取消的啊，大家都写在程序里头了啊。模型的名字叫GPT3.5，特本什么什么的叫这样名字，你要说我直接把这个模型关闭了。不过，这通常不会发生，因为很多用户和开发者都依赖于它。

然后，上1GPT 4O mini一下替代掉的话，这事肯定不行对吧？那个程序会报错的。所以啊，GPT4O mini啊，现在已经可以为啊，直接使用Open AI API的这些用户开放了。啊，但是呢，3.5还是可以用的，现在我还没法使啊。为什么呢？因为我没有办法，直接从Open AI去买它的API服务的啊。它会识别出来，我在中国大陆不会为我服务的。所以，我现在的CPT相关的API，是通过扣子或者是一些Open AI代理服务去购买的。但现在，这个上面都没有GPT4O MINI的这个模型。为什么在这样的一个时间点，出了这么一个产品呢？他把中国大陆的API的IP封掉了以后，本来想着，他是不是专心的做个GPT5出来，或者做一点啊，把这个前面吹过的牛稍微能还上一点啊。怎么现在整了那么个小东西出来？

首先，大家要想清楚一个问题啊，Open AI就是行业里边的老大。老大最怕什么啊？老大怕竞争吗？啊，现在没有人跟他竞争啊，谁也竞争不过他。虽然现在号称御三家，就是谷歌、Siropic和Open AI里头，已经可以打个有来有回了。但是，从市场占有啊，从整个技术的程度上来说，Open AI还是绝对领先的。那么，他到底怕什么呢？他害怕的东西叫分叉啊。什么叫分叉呢？就是有很多的人是不会去看别的服务的，也不会去用任何其他的大模型，上来就用Open AI家的啊，其他所有我都不用。那么，这个呢，就属于忠实铁粉。但是一旦分岔了以后，可能会出现一些小的分支，这些分支会逐渐壮大，最终可能会影响到Open AI的市场地位和影响力。为了避免这种情况的发生，Open AI可能会采取一些策略，比如推出GPT4O MINI这样的产品，来吸引更多的用户，保持其在市场上的主导地位。同时，通过限制某些地区的直接访问，Open AI可能也在试图保护其技术和市场，防止技术的过度扩散和滥用。

大家说：“哦，不，我不能只用Open AI的，我所有的都要用一下。我要在不同的场景里头，找到不同合适的模型来使用。这个过程要分叉了，老大最怕的就这件事情。他现在已经看到了有分叉的这种方向了啊，或者说，他现在已经看到了有分叉的趋势了。所以，必须要冲出来说，我要把所有分叉的趋势，掐死在萌芽状态啊。这就是GPT4O MINI发布的一个大的前提。因为GPT4和GPT4欧，包括GPT4 Turbo所有的这些模型呢，它比较贵。越来越多的人呢，就希望转型。像我现在做很多这种AI agent，这种工作流，我会把最费劲的一个点交给GPT去做。对于理解能力，对于推理能力没有那么强的节点，我都尽可能去选择更便宜的，这种大模型来工作，或者更小一点的大模型来工作。这个是经济的考量啊，而且我们发现，在这种稍微小一点的大模型，你让他做简单的工作，效果其实是很好的，并不比GPT4差啊。这个是现在Open AI不能允许的啊，你们就老老实实的，你要想去用这个小模型，我也给你提供上啊。这个是要注意。

而且呢，现在所有在跟Open AI竞争，或者说在Open AI这条道路上，追赶他的这些人呢，目标都很明确。怎么叫目标明确呢？每一个人上来说，我现在都是接近GPT4对吧，没有人超过啊，就很少有人超过，或者可能只是在个别指标上超过。整体超过的，现在还没有，或者说不多吧。但是呢，我们现在甭管国内的大模型，国外的大模型，都在努力地追赶，试图在某些方面超越Open AI，这是一个非常明显的趋势。

都说我现在已经接近GPT4了，然后呢，遥遥领先于GPT3.5。对吧，这也是现在的一个时间点。而且，很多的小模型，甚至是这种70亿、100亿、300亿、几百亿这种模型，都已经超过GPT3.5了。GPT3.5有多少个参数呢？当时是1750亿个参数，这么多的参数，怎么还这么差呢？这么多年了，时代在进步，而且AIGC大模型的发展，真的叫日新月异，每一天每一个小时都在发生变化。

这么长时间过来以后，你用原来这种架构，GPT3.5的这种架构，它确实是效能比较低了。所以现在很多的这种1000亿以内的，700亿的，或者是更小一点的，几百亿的，都可以超过GPT3.5。那么GPT3.5就已经必须退役了。

退役的原因也很简单：第一个，原来GPT3.5一直挂在那，不是说Open AI没有更好的模型给大家用，而是什么呢？他希望让你去买它的Plus，让你说，哎，你看这个实在是难使吧，你直接升级，一个月20美金就可以有GPT4用了。GPT3.5跟GPT4之间，一定要有一个很明显的，个人可以直接感知到的差异，你才会觉得我这20美金一个月花的值，否则的话，你会觉得花的不值了。

但是现在其他的模型都赶上来了，你再继续摆这么一个3.5在这恶心人，就已经不太合适了。另外一个是对于免费用户来说，GPT3.5实在是缺乏吸引力，我不愿意付钱，我可以使用Gemini呀，我可以使用很多的其他免费的这种模型。

这些模型，现在已经完完全全超越三点儿五了。所以，这个也是到了该抛弃三点儿五的时候了。另外呢，很多的API代理也让Open AI非常不爽。像我就是用的API代理啊，API代理呢，像跑冒滴漏。像我现在用Open AI的所有API，价格应该是至少打到4折，或者是还要更低一些的折扣啊。我就可以去使用。

到了那么这些的话，Open AI觉得就算是打折，也应该从我这打啊。凭什么你就去打折了啊？这个他是不开心的。而且他现在降到这样的一个程度，为什么这些API代理没有跟进呢？他没利润啊，这些啊，也是会对他们造成一定的影响和损失。

另外，也要开始应对中国了。Open AI肯定发现，封堵了中国IP的API调用之后，Open AI调用数据一定是在暴跌的啊。这个肯定也不是他们希望看到的。

现在我们要讲一下田忌赛马的故事。田忌赛马是什么？就是用我最好的马，对应你这个中间的马啊，用我中马对应你的下马啊。你最上面那个你赢一场算了，剩下的我赢两场。在大模型这个行业里头，其实也是如此的。大家呢会分成不同的层次去竞争，端侧的竞争，就是说我们甭管在手机端、PC端还是各种的啊，设备端吧。那么现在大家在争的是什么？Open AI基本上是不参加端侧竞争的啊。哪怕它是GPT4OMINI，到目前为止，也没有说，这个产品可以给大家在端上使用啊。当然你说，未来会不会把这东西拿到端上来使用？不确定啊。但是至少现在没有说这个事儿。

呃，它这个大家猜测在10B以内，可能7B到8B这样的一个水平上。按道理说，是在手机上可以运行的。对吧，可以在iPhone里头跑。那么是不是说，呃，跟苹果合作了，我干脆就把这东西呃，拿出来就给大家用了。是不是他给了苹果一个类似于一个GPT4OMINI的版本，但是苹果你不允许拿出去再扩散了啊。但是在iOS 18里边，应该会带这样的一个东西，可能性是存在的啊。啊，但是这个事谁都没说。

在端侧竞争上，一般移动端呢，5B以内的跑的是比较好的啊。你如果手机的配置高一些，跑到7B到9B应该也还是能跑的。台式机呢，你到10B左右啊，都是没有什么问题的。包括我们后边讲的这些AIPC，其实AIPC是所有能够跑大模型的台式机里头，水平比较烂的啊。那么工作站呢，就是我们比较高端的台式机，比如说你这里头有独立显卡啊，4090，然后不是4090，你有个四零六零，四零七零那样的独立显卡，或者比如说像我们使用麦克这种呃，M1，M2 Max，或者M3 Max这样的这种机器的啊，那么它就基本上属于工作站级别了。这种机器里头呢，大概跑到三十几B都是可以跑通的啊。再大了跑不动了。

然后像这种个人服务器上，是可以跑到70B的。咱们现在能够接触到的开源大模型，可以到本地跑的，基本上也就是70B，72B到头了。再大一点呢，啊，通1,000问1.5的时候出过一个110B啊，但是那个模型流行的并不是很广泛。

绝大部分都是在七十几币就到头了。这个呢，就是在思域服务器上用的。而且，在70B这个档次上，现在Open AI肯定是感受到压力了。中国团队基本上在70B这个档次上，站稳脚跟了。咱们国内推的各种各样的大模型，基本上都是70B上下的。为什么？因为懒。Meta的LaMa3就是70B的。我们在这个基础上再去进行调整，或者再去进行一些相应的训练吧。我们出到72B，或者七十几B这样的一个模型，效果其实已经很好了。加上RAG，就是本地知识库的这种辅助，加上长上下文，再加上多模态搜索的辅助，效果其实跟GPT-4之间，已经没有那么差了。对吧，GPT-4就是说你不加上这些东西，它也可以回答的很好啊。你如果是加上这些，搜索辅助啊什么的，70B基本上够使。

对于快速反应的这种低价模型来说，大家竞争的是什么？刚才咱们讲的是端侧模型啊。在云端模型其实也是分两拨的。一拨呢，就是大模型啊。大模型是，GPT啊，Gemini Pro这个，呃，Cloud Opus啊，这些就属于大模型啊，比较贵，性能比较高。那么大家都去推这种小模型，特别是另外两家。刚才预三家我们讲了啊，Open AI，谷歌和Anthropic。谷歌跟Anthropic都推了一种小模型，一个叫Gemini Flash，另外一个呢，叫做Cloud Haiku，叫这样的一个名字，都是相对比较小的，很便宜，反应速度很快。原来啊，GPT3，GPT是没有的，现在出来就是要去卷它们。大模型竞争。

咱们自己去比一比啊。这个小模型，你们出了，我也得出一个。所以，咱们回答开题的那个问题：“Open AI到底想卷死谁啊？”他想卷死的是Gemini 1.5、Flash和Cloud 3，嗨酷啊。是选这两个产品，但是要注意啊，Cloud 3.5现在已经出来了。但是3.5呢，只出了Sonit一个产品啊。它是分三个档次的，这种大模型啊。一个叫做High酷，是最小的，估计应该是10亿币以内，也就是7亿左右的一个模型。然后是Sonit啊，3.5已经到Sonit，它呢应该是在二三十亿币。但是都不是对外公开的啊。还有一个叫Opus啊，Opus是最大的，但是Opus到底有多大，可能是上百亿币的一个模型对吧。现在呢，3.5已经把中间这个模型出来了，上下两个还没出，估计呢应该本月会出。

所以在这个时候啊，Open AI说不行，我要把你这个底层的，这个给你封掉啊，让大家觉得啊，就算是用这种底层的小模型啊，这个也有一个更便宜的Open AI来用啊。这是他真正要去干的事情。那么对于开源模型来说的话啊，就是本地部署这个呢，Open AI应该不在这个赛道上啊。它有可能说，我用一些必源的模型，直接跟苹果，跟谁去合作，这个事可能是存在的。但是呢，他不会说我到GitHub上，到HuggingFace上，直接把这个GPT40 mini扔出来啊。应该不会干这个事情。

那么对于中国团队来说，到底有没有弯道超车的机会？这是一个值得探讨的问题。

这也是我们开题上的一个问题，对吧？“卷”就一个字，在这个字上呢，中国团队绝对是遥遥领先的。中国现在已经开始卷下一个层次了啊，在上一个层次里头，中国团队发现：哎，我只要把模型推到七十几，对吧，加上搜索辅助，加上reg，加上这个啊，长上下文，效果已经非常好了，对吧，不需要再往前推进了啊。真的效果非常好了吗？很多人说你是不是吹牛啊。他这个事是这么算，就是再有相差的这部分，个人感觉不出来，因为人的感受有时候很主观的啊。你不可能说：哎，我去招聘了，对吧，我一定要挑出最好的那一个来，不可能的。你一定是找了一个相对顺眼的，然后磨合了一段时间，发现：哎，这个工作还能干得下去，日子也能过得下去啊，也不讨厌，你就可能一直用这个人用下去。你不可能说：哎，旁边这个人，好像比我招的这小伙子，还要更厉害一点，对吧，我就马上把我这开了，把那个人招回来，不会干这个事了。在这样的一个情况下啊，我们只要用习惯了，慢慢的对于我们已经招聘进来的人，就会有更高的容忍度。为什么要讲招聘的故事呢？其实我们使用大模型的过程，跟招聘的过程差不多。在挑选的时候，我们一定是非常小心的，来去确定到底哪一个适合我们，我们的这个任务，它是不是可以很好的完成。一旦你把它挑进来了，下一件事是什么？就是我们要去跟他磨合，怎么能够跟这个大模型一起，把我们要做的事情做完。当大家互相习惯了以后的话，你不会说：哎，那个更好，我马上换人的。一个大模型，它是有很高的粘度的。

所以，中国团队在70亿参数这一块，基本上已经达到了一个阶段，我们可以说，我们已经能够吸引一部分用户，而且这部分用户愿意留下来，持续使用我们的产品。再往前推进，当你提到我现在发布的几千亿参数的模型，也就是几百亿参数的这类模型时，第一个问题在于训练上，我们可能还没有完全搞明白，应该如何应对这个挑战，因为目前开源出来的就是70亿参数的模型，再大的版本现在还没有开源，所以这件事情还搞不定。

那么再往上，你说我们闭着眼睛去研究一下行不行？也不行，为什么呢？因为越大的模型，你训练的成本就越高，而且越难去控制。在这种情况下，我们可以说，我们就停在这了。那么停在这，中国团队现在在干嘛呢？他们搞APP开发，搞各种接触用户的方式，我们现在要去获取所有用户，这是我们已经开始卷的东西，Open AI还没卷到这呢，我们其实已经开始弯道超车了。

你说Open AI不是也有APP吗？它有安卓APP，有iOS APP，甚至最近还开始出Mac APP。但是你要想清楚，中国人做的是什么呢？聊天、搜索、绘图、情感陪伴，都整合在了一个APP里头。而且，我们的APP是Windows、Mac、安卓、iOS全都有。你说Open AI自己为什么不做一个Windows APP？亲爹不让啊，谁是亲爹？微软。微软说这个事情打住，我在那边玩Copilot，你自己不要来找这个事情，你到Mac那边去玩耍就可以了。有什么问题，去霍霍苹果，不要来霍霍我，这个他就没法整。而在中国，你看看啊，豆包，所有的平台，都在积极地推进和用户接触的策略。

Windows、Mac、iOS、安卓，全都出齐了。而且，它还把所有的功能都集齐了。像Open AI做的Mac版的APP，只能干嘛呢？就是回答问题。也就是说，你可以听话，可以去语音识别，他就干这些事情就完事了。中国的就什么都可以干啊。你让他去唱歌跳舞，让他去画图，让他去做图像识别，包括各种的角色扮演，就是Carrot AI做的那些事情啊，咱们也都可以搞定。只要是外边有的，只有咱想不到，没有咱做不了的啊。这一块还是非常好用的啊。我现在用的量很大的就是豆包APP啊，非常好使。然后另外一块我们再卷的是什么呢？啊，Chrome的这个插件啊，就是在浏览器上做插件。因为现在的浏览器，基本上都是Chrome的内核啊，甭管是Chrome的啊，还是这个微软的Edge，底层都是Chrome啊。所以我们现在在上面做插件，甭管是Kimi还是豆包，都在上面卷插件。而且那个插件的功能，那全的是一塌糊涂。你一旦在浏览器上装了豆包插件了，然后你去用谷歌搜索豆包，就在侧边栏开始对搜索结果进行总结。你说哎我现在去看一下YouTube，马上旁边就开始给你做，我给你做个视频总结吧啊。甚至说你在这看YouTube的时候，他说我给你翻译个字幕吧。或者我随时在浏览器里头，选中一个单词，选中一句话，他说我帮你翻译一下吧。或者说你在浏览器里头有一个空格啊，或者叫有一个输入框，需要你输入信息的时候，他马上跳出来想输入点什么，我帮你润色一下。

要不要从上到下，事无巨细，只要他能粘手的地方，全都给你冲上来？说来，我在这呢，让我看点什么吧。或者说你现在浏览一个网页，说帮我总结一下。那这是人家的本行，干的甭提多好了。这一块，中国已经彻底卷风了啊。那你说美国人不做这种浏览器插件吗？也做，但是呢，美国人做都是小团队或者个人做。那你跟像豆包这种，可能后边有好几十人，上百人的团队，大家领着薪水，加着班，然后疯狂的往前卷。这事谁卷谁啊？对吧，你肯定卷不过他。现在在接触用户这角度上说，甭管是做APP，做浏览器插件，这啊，中国团队已经弯道超车了啊啊。

至于说Open AI，现在再去推出的GPT4 Omni，实际上它已经是在追赶其他人，但不是追赶我们啊。它在追赶的是谷歌的Gemini Flash和Anceropic的啊，CloudHi苦啊，在追赶这两个产品，希望把他们卷死。我们现在已经在另外一个层次上，在卷了，等他们把这仗打完了以后，发现哎，这个用户都已经被中国团队卷干净了啊。可能会出现这样的情况。

好啊，这个故事就跟大家今天讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣，有能力的朋友加入我们的付费频道。再见。