OpenAI 突然开源!GPT-OSS 深度评测,中美 AI 竞争升级,谁能笑到最后?AI 界的“田忌赛马”!详解中国“全家桶”式开源,如何对决 OpenAI 的精准出牌?

OpenAI再次开源,中美AI竞争加剧,这一次体现在了不同的开源策略上。

大家好,欢迎收听老范讲故事的YouTube频道

OpenAI再次开源,这一次发布的版本叫GPT-OSS (Open Source System),8月5号突然上线了。这一次又不是GPT-5,我们从7月份就开始等GPT-5,现在已经等得大家开始胡思乱想了。很多人猜,说为什么出不来。现在最新的说法是48小时之内出来,等等看吧。

这一次呢,开出来的是GPT-OSS,是一个开源模型,20B和120B两种参数。它呢,是一个MOE模型,就是混合专家模型。其实在GPT-4的时候呢,大家就已经猜测它开始使用混合专家模型了,只是呢它不开源,大家只能猜。现在开出来了MOE推理模型,是有COT的思维链,是直接给大家展示出来的。而且呢,是一个文本模型,没有多模态的东西。上下文比较长,128K的上下文,要比国内的一些开源模型还要再长一些。因为现在没办法,你要使用工具、使用MCP,没有足够长的上下文,你是跑不起来的。所以呢,这一次的GPT-OSS说,我们很擅长使用工具,有的时候有点太擅长了。因为我测试的时候,有的时候工具调用次数非常多,直接就把自己的上下文填满了,这种情况也是不少的。

这一次呢,创新性地使用了MXFP4的一个量化,这是它最新的一个技术。首先要讲一下MXFP4的这个训练。我们以前使用的模型,千问、DeepSeek这些模型呢,我们都是使用的FP16去进行训练的,有的甚至是FP32去进行训练。就是我们把每一个数码位上的指针都做得​​很长,非常非常精确。这个好处是什么呢?就是你训练的时候,可以很精确地去进行训练。你再去推理的时候呢,我们再想办法把它这些数据呢,做成FP8,就是做成8位的一个短指针,速度就会快很多,而且呢,在这个缩短的过程中呢,精度损失的也不是很大。原来我们都是这么来干的。但是呢,这一次的GPT-OSS呢,他们使用了一种4位的指针,更短小一些。而且呢,它跟以前不一样,原来都是用比较长的数码位去进行训练,训练以后再去进行缩短。这一次直接训练的时候,就是4位的,出来就当4位的使,他是这样来去工作的。这个好处是什么呢?就是特别地节省空间,它的速度很快,我在本地测试的时候已经感受到了。

它呢,没有做蒸馏。原来大家都在想,GPT-OSS是不是直接拿GPT-4o,或者拿什么样的这个数据去蒸馏一下就可以了?因为OpenAI手里有很多这些大模型嘛。它并没有去做蒸馏,是从头开始原生训练的一个大模型。用了数万亿TOKEN的纯文本,重点覆盖STEAM、代码和通识知识。主要是拿这些东西训练。它呢,使用了GPT-4o的CBRN过滤器来清洗有害内容。在这里要专门讲一下,GPT-OSS的道德感还是很高的哈,所以呢,不要想着它到本地了,我们就可以拿它随便做一些什么样的事情,它会拒绝大量的指令的。它的知识呢,是截止到2024年6月,再往后的知识是没有的。你说我想处理一些新的知识怎么办?没有问题,因为它调用搜索、它调用工具的能力很强,所以你可以先命令它搜索,然后再去总结。

在进行了预训练之后呢,使用了与GPT-3相同的COT强化学习的数据进行训练,它就可以进行COT的输出。所以这是一个推理模型。两个版本的模型,一个20B,一个120B。20B呢,它的效能相当于GPT-3 mini,其实对于很多的本地工作来说,已经够使了,效果我刚才试了还是相当不错的。120B呢,相当于GPT-4 mini的水平,这也是我们普通的plus用户可以在GPT.com的这个网站上使用的最高版本的推理模型。实际上它那个上面最强的模型,我们能用的应该是GPT-4o全量模型。

20B呢,我装了,效果不错,速度飞起。比我本机跑的各种的30B模型、32B的模型要快非常多,甚至比一些十几B的模型速度还要快。产出的内容的质量,要比那些三十几B的,像千问模型要好很大一些。这个是我的一个主观的感受吧。我呢,是用Ollama直接在我的MacBook Pro 32G内存的笔记本上跑起来的。据说呢,这个东西是可以在16G内存的笔记本上跑,但是我没有测试,因为我们家没有这么低内存的电脑。

至于120B的话,这就不是我应该用的东西。为啥呢?它需要80G的显存,咱们没有这东西,是小团队在服务器上用的东西,这个不是给普通人在电脑上用的。你说我一定要去买一个Mac studio,或者我在本机去装4090装好几块,这个东西也是可以跑,但是真的没有什么必要。

那你说云端有没有?云端你现在上OpenRouter等等这些网站呢,是提供120B的模型的。但是我都上了云端了,谁用这玩意儿?我直接用GPT的大模型不就完了吗?所以呢,120B的模型对于我们这种个人玩家来说,稍显尴尬。但是你说我是一个小团队,我有一些信息不可以出办公室,你可以专门搭一台服务器来跑120B的模型。

中国的云端大模型托管服务上呢,目前都没上。这个它虽然是使用Apache 2.0协议,国内的这些像阿里云、硅基流动或者像火山云,你都可以去用,这个事他是不管的,至少这个协议是允许我们去用的。而且呢,这个Apache 2.0,我们不但可以用这个模型,还可以商用,还可以去修改这个模型,都不需要他的同意。但是呢,在中国有另外一个比较麻烦的是什么呢?就是谁把这个大模型包装出来给公众去使用了,谁需要去申请牌照,是需要申请合规的。上一个新的模型测试、申请合规的过程的话,还是有一些成本,所以现在大家还没有上。其实像Llama系列的模型,国内的这些云服务商上基本上都还是有的,也可以用。但是呢,每次上一个新的,这块我们没有那么快。国外的像Open Router什么的就已经上来了,第一天出来,第二天就直接可以上来使。中国的要求呢,不是说谁出大模型谁要去申请牌照,而是谁拿着这大模型出去给人服务,谁需要去申请牌照。你比如说,DeepSeek说我今天开源模型了,你不需要申请牌照;但是你说DeepSeek提供了API、提供了聊天窗口,要跟人服务了,这个你需要申请牌照。它是这样的一个工作逻辑。

那OpenAI为什么时隔这么多年又去开源了呢?原因也很简单。总有一些机构呢,不希望自己的数据离开可控的网络,不希望说这个数据跑到外网上被OpenAI学习了。最近OpenAI好像还有一个聊天提示词泄露的事情,这个事情是大家不希望的。前面包括三星还有很多的海外公司,使用OpenAI的时候都发生过泄漏情况。但是这种泄漏呢,其实很多是他们的防火墙爆出来的:“我发现你把一些公司敏感信息发到外网去了”,这个时候防火墙就会报警。但是你说我发到OpenAI以后,OpenAI是不是再去用这个数据,或者是不是拿这个数据再去训练模型了,或者再去传播了?这个事呢,反正OpenAI对外的承诺是它不做这个事,但是这个不好说嘛,有些人我们未必信得过他。所以有一些机构说,我一定要本地模型。原来这个生意OpenAI是不做的,现在呢,说我们这块也得做着,我们也要抢这个生意。20B呢,本机运行;120B呢,内部服务器运行,可以很好地解决这些敏感单位的需求。

而且呢,20B也好,120B的模型呢,还可以进行微调。微调了以后,你可以拿它去进行法务、医疗等等这种特殊需求的应用。而这儿呢,要稍微提醒大家一句,前头我们讲,GPT-OSS是有非常高的道德水平的。你一旦微调了以后,这个道德水平就不好说了,有可能GPT-OSS震碎三观,从此堕入黑暗的可能性是存在的。但是呢,那个就是你们各自自己负责任了,跟OpenAI就没什么关系了。

咱们呢,讲到这再讲一讲,中美之间到底是怎么去进行竞争的呢?美国人出了这个东西,不是美国人赢了吗?不是这样的。中美之间呢,有四种不同的开源策略。

第一种呢,是混沌模式。甭管什么样的东西,我先开了再说,开完了以后,你们爱怎么用怎么用。这个是谁呢?Llama就这么干的。Llama 1、Llama 2、Llama 3、Llama 4,都是上来我就开了,开完了以后你们拿去用吧,我就不管了。但是到目前为止呢,发现这条路可能走不太通。扎克伯格捞了一大堆的人以后,说我们是不是不开源了,重新思考一下未来该怎么走的问题,稍显可惜。

第二种模式呢,叫做“开旧闭新”模式。就是呢,我把这个新模型闭源了,我把老模型把它开源出来。谁干这活呢?就是马斯克,xAI就干这个活。他现在呢,是Grok-1开源的,2、3、4都是闭源的。但是马斯克呢,应该是昨天讲的吧,说我们近期准备把Grok-2也开源出来,那就3和4是闭源的。对于他来说呢,他的这个策略很简单,就是开源这一扇大旗我还是要扛着的,但是呢,如果你们想要用最新的模型,你就老老实实上我这来交钱,来把数据交到xAI的服务器上去进行运算。所以马斯克这个xAI呢,我一直评论它是一个假开源,他并不希望别人真的拿这个东西去做点什么事儿,只是说“我还开着呢”。

第三种模式呢,就是OpenAI现在做这个事儿,叫“开小闭大”。它的GPT-3、GPT-4这些东西呢,是闭源模型,GPT-4o也是闭源模型。同时呢,它开了一个小模型叫GPT-OSS。你如果本地需要一些敏感数据处理,你就用开源模型;如果是一个很复杂的处理,你就老老实实地到网上来使用我的这些闭源模型就完了。谷歌也是这么干的,谷歌的闭源模型呢叫Gemini,现在Gemini 2.5 Pro是我目前用到的算是最好用的模型之一吧。他还开源了一个叫Gemma的模型,Gemma现在最新的应该是Gemma 3。你们如果有一些需要单独处理的数据、需要敏感处理的数据,你就把这个Gemma当(download)回去在本机使用。还有呢,微软,微软的小模型开源出来,这个模型叫Phi-4现在最新的版本。他们家自己不做大模型,用OpenAI的大模型就完事了。现在Mistral也是走着这条路,就是法国这公司,他们呢,现在有一些小一点的模型开源出来给大家用,但是大一些的、复杂一些的这个操作,你就老老实实地上云端,调他们家的服务器就完事了。

这个混沌模式和这个开旧闭新模式呢,咱不讨论,没有什么明确的商业诉求在后头。“开小闭大”模式,就是美国人现在使用的开源模式。那你说中国人使用的开源模式是什么样呢?跟他到底有什么不一样的呢?而中国人是直接把最新的、最大的全开出来。千问三就直接把200多B的模型开出来,DeepSeek直接把671B的模型开出来。而且只要我发布了最新的模型,我就把最新的模型直接开出来。这个是咱们的玩法。现在中国跑得比较靠前的开源模型:DeepSeek、千问、Minimax、Kimi和GLM。

所以这是两个完全不同的开源策略。那么中美博弈在什么地方?这两个策略,一个是“开小闭大”,一个是“应开全开”,那到底是怎么博弈的?中国人玩的,其实是“田忌赛马”的故事。就是你那最好的马呢,我跑不过;但是呢,我用我最好的马去给你一个中马跑,我用我的中马呢,给你的次马跑,反而我那个次马呢,上来我就给你最好的马跑,一次就完事了。这样三局两胜,我还是胜了两局的。

那你说大模型开源,这到底怎么去“田忌赛马”的呢?中国目前开源大模型呢,跟美国顶尖的闭源大模型比,它是比不过的。你比如说千问三的230几B的这些模型,DeepSeek 671B的模型,你去跟GPT-3、GPT-4这些模型比,你比不过他;你跟Claude、Code 4这些模型比,你也比不过;跟Gemini你也比不过。那怎么办呢?我们去跟你的开源模型比,去跟这些120B或者是这种三十几B的这些开源模型,我比你跑得好。我这个一上来就是600多B,效果一定是比你那个三十几B的效果要好非常非常多的,相当于是用我的最好的马去跟你那个中等的马去跑。当用户选择本地闭源、中小模型的时候呢,中国队就会占优。但是你说我在本地、在电脑上直接需要一个小模型,目前为止我使用到的GPT-OSS 20B是最好用的。中国现在同样大小的,你比如说都是20B或者是30B的这些模型,你比不过它。但是呢,有些人说,你看我这也是一个小的单位,我这个单位里头呢,也有一些服务器,我想要用一些模型去处理一些问题的话,那你使用这些600多B的或者是200多B的模型,你去跟GPT-OSS 120B打,你是打得过的。那么在这种小团队选择开源模型的时候,中国队就占优了。它是不同的一个竞争策略。

而且呢,当有创业公司想要去挑战大厂的时候,你比如像Perplexity说,我们想拿一些好一点的开源模型再去进行调整,我们想去跟大厂掰掰手腕的时候,中国团队会给他们提供充足的弹药。他们拿美国队,比如说Gemma、Phi或者是GPT-OSS,这些专门为PC端运行训练的这些小模型,你是没法整的。你拿这些模型再怎么微调、再怎么折腾,你没法跟那些大厂竞争。它会有这样的一个差异。但是呢,你拿中国这些模型,你再去微调一下,或者拿这个模型再去怎么折腾一下,那都是有可能能够做出一些比较强的应用出来的。

美国人的想法呢,其实挺简单的。使用美国的开源小模型,可以解决大厂预设的一些问题。比如OpenAI,我给你预设了些这些问题,你用这小模型解决;那些问题呢,你就用大模型解决。大模型你上云端来调,小模型自己去用。但是呢,使用小模型的人,永远不可能形成对于大厂的竞争来,这就是他想干的事。而中国人的策略是什么呢?看热闹不嫌事大。有人打架了,赶快往上递什么无缝钢管,递什么煤气罐,咱们赶快去干这些事。当然这些无缝钢管,比如到了中东,他们可能就变成了煤气罐大炮了,那个我们就不管了,我们都是卖的民用设备过去的,他们拿去打仗,这事跟我们没关系。所以中国人喜欢干这样的事情。

那谁能笑到最后呢?刚才我们讲了,中美两个策略不一样。短期内看呢,美国的策略是更精明的,他把应用分析得很清楚,谁该用什么东西,谁自己去用就完了。但是呢,中国的策略呢,也有自己的定位,短期内呢,我们也可以争夺到一部分市场,这个事本身并没有太大的问题。从长期考量来说呢,美国的策略首先要保障的是巨头永远是巨头,巨头规划未来的格局,中小企业呢,在巨头的规划内生长。有点像谷歌跟苹果似的,你说这么多做App的、做游戏的公司,谁也没有能力去撼动这些做App Store和Google Play的公司去,这个就是他们所希望去规划的事情。而中国的策略呢,就是有可能培养出一些颠覆市场的妖怪来。我们不管你这个规则是什么样的,反正我们给你这个煤气罐、给你这个无缝钢管,你拿去爱干嘛干嘛去,这是中国的策略。而且有很多的国家呢,是不甘心永远去用美国的这些闭源模型的,那么在这种时候,中国的开源模型也是他们唯一的选择。你比如说到了沙特了,到了阿联酋了,也希望有一些自己的大模型,但是你拿美国的这些模型你没法整。虽然他可以给你部署到你本地来,但是这个东西还是由美国人来管理的,哪天他给你关了,你就没法用了。你说我有一个完全我自己控制的了的这些模型,那你就老老实实地用中国的模型去训练,美国的这些开源小模型,你拿它是没有办法的。

而且呢,在一个一半以上研发人员都是中国人的领域里头呢,中国策略可能才是未来。AI领域是一个有着深深中国民族性烙印的领域。在这个圈子里头,只要是做AI相关的公司,出来讲点什么事儿,基本上一半以上是中国人。那你说中国人的民族烙印到底是什么呢?每个中国打工人都惦记着阶级跃迁,惦记着翻身做主人。咱们讲的是说,哎,我这开了一个拉面馆,我请了几个中国师傅在我这拉面,他们就想着说:“我应该怎么把这个配方偷出来,以后我可以在旁边再开一家拉面馆,去跟原来的老板竞争。”中国人讲的叫“王侯将相,宁有种乎?”,凭什么你行我不行?咱们也可以上来试一试。所以呢,像美国人这种,就是规划好了你就拿小模型,你永远做不出大模型的,这东西拿去用去。咱们的策略就是每个人都有枪有炮,最后谁说了算不一定呢。

日子还长,咱们往后继续看,到底哪条路可以走得通,到底哪条路可以结出丰硕的果实来。

好,这个故事就跟大家讲到这里,感谢大家收听,请帮忙点赞、点小铃铛、参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道,再见。