GPT-5 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI红色警报的惊人真相：内部“Code Red”备忘录泄露并非意外，而是对全行业的战略恐吓，不给钱就一起崩盘｜OpenAI Competition Crisis Code Red

Luke Fan — Mon, 08 Dec 2025 11:22:56 +0000

大家好，

欢迎收听老范讲故事的YouTube频道。

OpenAI拉响红色警报：全行业的震动与反思

OpenAI拉响了红色警报，这就是全行业的红色警报。OpenAI内部传出的一个备忘录叫“code red”，他们叫红色警报，分为四个等级。在OpenAI内部，警报等级分为：

绿色：正常；
黄色：有点问题的苗头了；
橙色：已经出现明显的竞争威胁或者产品危机了，核心业务被影响了，包括份额被抢了，用户流失了；
红色：最严重级别，全公司总动员，打破原来的部门和条条框框，老大亲自盯着，而且要停很多的产品。

现在已经进入红色警报，这应该是OpenAI创建以来的第一次。第一件事就要叫停产品，不是原来按部就班做的产品线了，有些就要叫停了。

红色警报下，OpenAI叫停的四个产品方向

广告业务：其实OpenAI的广告版本已经上线了，只是大家没有发现。现在有人已经把他们的最新版本的ChatGPT的安卓版破解了，里头是有广告SDK的，也有广告代码。但是现在这个业务要停下来。
AI购物：AI购物其实现在在我的ChatGPT上已经能看到了，这一段时间也要停下来了。
AI健康：他们有一个AI健康相关的这种产品，估计应该也是变现盈利性的一个产品，这个也停掉了。
AI简报：原来买了OpenAI Pro版的用户是可以每天早上起来要求他给你发简报的。现在这个产品也停下来了。

所以是四个产品方向叫停。员工有可能会临时的跨团队进行调配。通常红色警报后边，在其他公司里边会伴随裁员或者是叫做headcount冻结，在这个时候就不再招人了。但是现在OpenAI肯定不能讲这个话，因为他一旦讲这个话，可能整个盘子就崩掉了。

集中精力：OpenAI的五大模型改进方向

现在拉响红色警报，就是要集中精力改善模型。他讲到说我们要为8亿多周活跃用户提供个性化服务，让每个人都能够定制ChatGPT与他们的交互方式。这是它要干的第一件事。

提供个性化服务：增加用户粘性。你喜欢跟你调侃的，他就调侃你；你喜欢有人情味的，他给你有人情味。让每一个人都能够与ChatGPT个性化的沟通，换到另外一个平台就会觉得不舒服。
改进图像生成：让用户能够创建从室内设计模型到动画照片的各种内容。OpenAI自己的图片创作这块一直是比较烂的，现在说要把这块做好了，因为他发现谷歌靠Nano Banana Pro已经大量的把用户拉过去了。
提高模型行为表现：要去跟别人打擂台了，要把各种各样的模型送到开放的这种匿名竞技场里边去，跟大家去比较一下，看看大家更喜欢什么样风格的产品。
提升速度和可靠性：提升ChatGPT的速度和可靠性。有时候ChatGPT跑着跑着会卡住，他们准备在这一块进行改进。
减少过度拒绝现象：聊天机器人拒绝回答良性问题的这种情况要把它改进掉。这个的话应该就是原来计划12月份准备上线的成人版，这一块并没有被砍掉，12月份继续会准备上线。

新模型“葱片”与“大蒜”：快速推进的研发

现在大模型方面的改进已经在快速的推进了。看到我的封面了吗？封面是4只企鹅炖着一大锅汤，这汤里头有大葱、有大蒜、有洋葱。企鹅兄弟们已经戴着口罩出去参加测试了。

他现在要做的两个模型，有一个模型叫葱片（shallow piece），应该会在下周或者是下下周就要上线，这个是下一代的预训练大模型。然后大蒜（garlic）这个模型，是新的预训练和知识蒸馏出来的一个相对小一点的模型。前面葱片这个模型估计会比较慢，这个garlic是比较快的一个模型，应该是在明年一季度发。

匿名竞技场的新常态

现在的匿名模型已经出去去测试了。这是一个新常态，模型发布之前都会去各种的演练场里边去测试一轮。测试的时候应该使用的是shallow piece，但是它在shallow piece里头还分了四个名字，叫帝企鹅、跳岩企鹅、玛卡罗尼企鹅和迪古企鹅。现在OpenAI内部的代码已经泄露出来了，就上头写的是这四个企鹅的名字，推理配置是多少，已经在开始测试了。

回顾：去年的“橙色警报”

其实OpenAI去年就拉过橙色警报，最后的结果也还算差强人意。在去年的时候，他们的大模型出现了一些问题，Sora当时的训练过程也不是非常的顺暢，所以橙色警报就拉响了。但是橙色警报拉完了以后，他们走向了另外一条路，就是从单纯的堆参数走向了o系列模型，算是解除了橙色警报。在去年的12月份，做了12天的连续发布会，但是Sora2出来了以后，热闹完了以后留存基本上等于0。我内心的感受就是OpenAI飘了，另外一个感受就是OpenAI开始挤牙膏了。

警报升级：从“橙色”到“红色”

2025年的8月份，随着Nano Banana的发布，Gemini的用户量在快速上升，OpenAI就已经开始橙色警报了，到12月份正式升级为红色警报。有人看到了他现在很多停下来的这些产品，其实在他的安卓版本、在iOS版本上已经做好了，只是开关还没打开。

“诗和远方”与“眼前的苟且”

现在OpenAI就要去思考了，到底是追求诗和远方，还是眼前的苟且？底层大模型的推进就是诗和远方，创业者以四处分散兵力增加收入就是眼前的苟且。其实OpenAI在GPT5的时候大家就已经怀疑了，它并没有真的去投入大的精力重新进行底层的模型训练。现在大家怀疑就是GPT5实际上是拿GPT4O往后的这些模型去进行的后训练。

创业者遇到的问题，OpenAI自己现在也遇到了。要想在大模型基础上干活，就必须让大模型的底层架构稳定下来。所以OpenAI很长一段时间都是在原来基础的模型上做各种各样的后训练、强化学习。现在大家不满意了，因为Gemini 3上来以后发现全线领先了。所以OpenAI就说不行了，我们要重新开始训练底层模型了。

为什么OpenAI会被谷歌“按在地上摩擦”？

很多人说Gemini3出来了，它不行了。当然还有人说Deepseek V3.2出来了，它不行了。这个跟Deepseek差的比较远，肯定还是被Gemini 3和Nano Banana Pro给吸引了大量的用户。

用户指标告急：时长与活跃度双双下滑

首先OpenAI遇到了一个很大的问题是什么？就是它的用户时长被反超了。用户时长越长，你就可以有更多的机会去实现交易。OpenAI上面大量的是短交流，而像Gemini 3或者是Claude 4.5这些模型，更多的是这种长沟通，因为那个是生产力工具。在这一块上，OpenAI可能已经输了。

用户活跃度一周掉了6%，这个对于OpenAI来说那真的是天塌下来一样。Gemini的周活跃度从7月份的4.5亿涨到了10月份的6.5亿，还没算后边发布的数据。OpenAI的周活是8亿，这个数字是10月6号公布的。算上后边这个此消彼长，大概率现在Gemini的周活跃已经反超了OpenAI了。这个对于一直是这个行业领军公司的OpenAI来说，绝对是不可承受之重。

增长放缓：收入预期与融资压力

OpenAI还有一个问题是什么？他在讲明年的收入增长可能是个位数。AI公司每年的收入增长都是要成几倍去增长。现在山姆·奥特曼说说，明年有可能就是个位数增长。现在它砍掉的是广告、是电商，把挣钱的东西砍了，所以明年可能不会有那么大的增长。现在只能靠订阅费和API TOKEN来去创收了。

知道OpenAI预期到2030年要挣多少钱吗？是2,000亿美金。按照现在这样的增长速度来说的话，后边这个牛皮就吹破了。就算他到2030年挣到了2,000亿美金，到2030年之前，OpenAI跟人签的各种算力合同，1.4万亿美金这个窟窿填不上。而且这些合同已经在亚马逊、甲骨文、英伟达、微软这些公司的股价里边已经体现过了，如果你到最后无法执行的话，这个会彻底崩盘的。

OpenAI一直在烧钱，所以它需要继续融资。最近又在谋求一个1,000亿美金的融资，如果融完了以后的话，我估计它的整个的估值可能都会接近上万亿美金了。这个也是一个巨大的考验，因为原来你是老大，现在一看有别人超过你了，你再让资本无脑的把钱冲进来的话，就稍微有点难度。

“推车上山” vs “拉车上山”：OpenAI与谷歌的根本差异

那你说OpenAI为什么会被谷歌按在地上摩擦？一一直遥遥领先了这么长时间。OpenAI相当于是推车上山，而谷歌相当于是拉车上山。

算力之困：租用与自建

OpenAI的算力都是找微软租的，以后他还会去找谷歌租，会去找亚马逊租，会去找Oracle租。而谷歌的话算力都是他自己的，谷歌云的芯片也是我自己造的，云服务也是我自己的，全是我自己的，他就没有这种巨大的压力。

生态之战：与微软的“同床异梦”

OpenAI想要进行场景拓展，需要跟微软爸爸抢地盘。微软是他最大的股东，而微软本来就不希望他来干这个活。而OpenAI现在想去拓展这些场景就需要去跟微软竞争。两边完全同床异梦，你没有办法步调一致的行动。各自都惦记着干掉对方。

反过来看谷歌，Gemini是已经进了安卓、Chrome、搜索、YouTube、Workspace这些产品，都是自己家的兄弟。最上面的老大已经给了最高指示：集中力量办大事。所有这些场景回收的数据都可以帮助Gemini继续前进。这又是一推一拉。

资金之压：持续融资与自给自足

OpenAI是需要不断融资的，你就需要不停地向业界证明自己好牛逼，因为它一直在亏钱，而且是越亏越多。所以它需要不停的去外边作秀。而谷歌是自己有钱，去年的净利润是1,000多亿美金，完全自己养得起。又是一个一推一拉，一个不停的出去化缘，另外一个说我自己有钱。那这个也是OpenAI被谷歌摁在地上摩擦的原因。

隔岸观火：竞争对手Anthropic的“风凉话”

现在其他人也出来说风凉话了。Anthropic的老板、CEO出来去接受采访，基本上可以确认Anthropic计划是明年上市。它已经跟律师事务所签了协议了，而且那个律所是当年给谷歌做上市的律所。

上市意味着什么？

很多人说上市了成功了，千万别这么想。咱们反复讲过，上市意思就是你已经过了高速增长期了，后边该稳定发展了。高速增长的时候为什么不去上市？因为高速增长的时候很多地方没法合规，上市你就必须要合规，一旦合规了以后束手束脚。

巨无霸们的IPO排位赛

Anthropic如果明年上市的话，有可能是史上最大的IPO。官方确认它的估值是1,830亿美金。到截止到目前为止，全人类历史上最大的IPO是阿里，1,600多亿美金。现在一大堆没上市的巨无霸在这排队等着。上市最贵的是OpenAI，5,000亿美金；第二贵的是谁？SpaceX，4千亿美金；中间还有一个字节跳动，4,800亿美金；还有一个是XAI，是2,300亿美金。

Anthropic的策略：稳健与专注

Anthropic主要是做b端的，编程领域绝对的王者，而且不断的推scaling law。他完全不去做c端的竞争，因为一旦做c端的竞争的话就是要去吸收个人用户，那么OpenAI遇到的问题都会遇到。

而且Anthropic还讲了，说我们家从来不去搞什么红色警报，我们就按部就班，自己干我们自己活。红色警报这种东西其实是从谷歌那边继承过来的陋习。这回就轮到了OpenAI去拉红色警报了。Anthropic现在正在加速上岸，上市了，剩下的事跟我没关系了。

全行业的红色警报：OpenAI不能倒，谷歌不能赢

OpenAI的红色警报其实是对全行业吹响的全红色警报。为什么这么讲？一个新的行业或者一个独立的行业最害怕的是两件事。

“老大倒下”与“老大通吃”

第一件事叫什么？叫老大倒下了。一旦老大倒下就是证明了这个行业是走不通的。OpenAI作为老大，一旦它倒了以后，所有人就会认为整个AI行业有问题。

害怕的另外一件事是什么？就是老大通吃。所以谷歌当老大是一个比OpenAI倒下更危险的事情。谷歌自己有芯片，自己有云，自己有模型，自己有应用，自己有生态，自己还能变现。如果他上来了的话，他不需要跟任何人合作。亚马逊、甲骨文、微软、软银、英伟达、AMD这些就全死、全废了。所以谷歌是不能成功的，谷歌真的在这个行业里是与世界为敌。

备忘录泄露：一场精心策划的“恐吓”

OpenAI为什么它内部发的这种备忘录就直接传出来了？是OpenAI自己漏的跟筛子似的吗？不是这样的。所有这种内部备忘录能传出来的，肯定都是公司允许的。OpenAI现在的红色警报在干的事情，不是说仅仅是内部调整策略，他在干的事情是在恐吓整个行业，恐吓金融圈：给钱！你如果不给钱我就倒了，倒了以后你们都得死。

AI是泡沫吗？

很多人又在想说AI泡沫到底会不会破？首先跟大家确认一点，AI绝对不是泡沫。你们有谁见过一个泡沫还没破的时候就有大量的人失业吗？以前都是泡沫破了会有人失业，AI是大家正在热火烹油、追加投资、股票创新高的时候，大量的人在失业。既然它已经影响了这么多人的工作，影响了这么多人的饭碗，它就绝对不可能是个泡沫。

总结：走钢丝的OpenAI与行业的未来

OpenAI现在干的活肯定是在走钢丝，但是OpenAI里边隐藏的项目应该还是很多的，只是需要集中力量把它好好梳理梳理。短期内OpenAI是不能倒下的。英伟达、软银、微软手里边还是有大量现金的。其他已经上了车的人，也不希望看到OpenAI这个老大就这么倒下，也不希望看到像谷歌这样的一个上下通吃、完全闭环的一个人完全站起来。

总结一下，OpenAI拉响了红色警报，内部消息泄露完全就是故意的，就是出来吓唬人的：必须保住OpenAI，咱们绑在一条绳上了，我要死你们谁都甭想好好活。应该很快就会有新的模型可以玩了。这个月真正值得期待的东西是什么？OpenAI的ChatGPT成人版。没准成人版上来以后，大家就又可以接着奏乐接着舞了。

好，这就是今天要讲的内容。

AI炒币一周战报：DeepSeek凭低频策略狂赚36%，GPT-5惨亏28%，Gemini更是亏掉30%！｜Alpha Arena、AI trading、LLM、Crypto trading

Luke Fan — Wed, 22 Oct 2025 00:52:28 +0000

在炒币这件事上，DeepSeek完胜GPT和Gemini。

大家好，欢迎收听老范讲故事的YouTube频道。

最近有一件事闹得沸沸扬扬，也就是Alpha竞技场。有一个叫NOFE.AI的实验组织，他们组织了一场由大模型炒币的一个实验。这个实验室的组织者呢，是纽约大学机器学习领域的一位博士候选人，应该算是一个学术组织，并不是一个炒币的机构。他呢，想要让大模型使用真金白银，直接在币市里边去进行竞技，而不是去做什么模拟题，做各种什么模拟盘，直接真金白银开干。

比赛呢，是从10月17日开始，每一个大模型给1万美金的启动资金，到现在呢，胜负已经非常明显了。DeepSeek V3.1完胜，他挣的钱最多。Grok-4紧随其后，也是盈利的。盈利的曲线呢，跟DeepSeek V3.1很像，但是这里呢，并不是因为Grok-4抄了V3.1，或者在DeepSeek的基础上去训练出来的，而是什么呢？就是你市场本身是有一个波动曲线的，他们只要采用相近的策略，他们盈亏的曲线就会比较接近。

再往后呢，是Claude sonnet 4.5，它表现得呢要稍微差一些，但也是盈利的。Qwen3 MAX也参加了，稍微地赚了一点点，大概是挣了几百美金吧，基本没赔。有一个对照组，对照组是什么呢？就是买入比特币直接持有，因为你总要跟市场的大势去进行比较嘛。这个组呢，是挣得要更少一些，大概挣了300多美金。Qwen3 MAX大概挣了700多美金，所以Qwen3 MAX还是跑赢了持币观望组的。

剩下的就是亏损组了。GPT-5亏损极其严重，没多长时间，不到一个礼拜，大概亏了百分之二十几的钱出去。当然还有比它更惨的，Gemini 2.5 Pro，直接亏得连他妈都认不出来了，直接亏了30%多进去。

那么这个实验是怎么设计的呢？大家都比较关心吧。他首先是给每一个大模型1万美金的启动资金，这些大模型可以自己去决定，在这个去中心化交易所里边，自由地用这种杠杆去交易6支加密货币的永续合约。

这里头有几个关键词，咱们要稍微解释一下。首先6只加密货币：比特币、以太坊、索拉纳、币安币、狗狗币和瑞波币。这6只币相对来说，还是比较大众一点的吧。然后呢，它是在去中心化的交易所里边去交易的。你比如像币安，像其他的一些大的这种交易所，都是中心化交易所。中心化交易所等于是在一个中心化交易所自己内部的服务器上去进行交易撮合、去进行配对，它的交易速度是很快的。而在去中心化交易所里头，你需要在链上直接去做交易，它的交易速度还有交易过程中的费用，这个都是不一样的。所以呢，为了公平起见，专门找了一个去中心化交易所，直接在链上开跑。

至于永续合约呢，大家知道这种期货合约，它一般是有一个截止日期的。比如说我买大豆，你到了那一天，你就必须要去把这个大豆拿回来，或者说你必须要在期权到期日之前，你要把它平仓掉或者处理掉。但是呢，比特币也好，以太坊也好，它并没有一个必定要到期的日子，他也没有哪天说大豆要成熟了，或者石油要真的开采出来，我要用这个东西。所以他就有这种永续合约，你可以一直看涨，一直看跌。所以他用了这样的一个交易工具，这些大模型呢，就可以在去中心化的交易所里头，用这6个币的永续化合约去进行交易，自己决定看涨还是看跌，或者是加几倍的杠杆。

所有的大模型呢，都是公开的大模型，没有进行过微调。你说GPT-5我想微调一下，没有那么容易。但是呢，DeepSeek因为它是开源的，这个东西是相对来说比较容易进行微调的。但实验说了，我们没有去进行任何微调，就是大家可以拿到的公开版本，我们直接就用了，然后进行统一的提示词，我们要求你干活去，要给我盈利。但是现在呢，提示词并没有公开出来，希望他们以后可以公开出这个提示词来。

信息输入，这个是非常大的差异。这里头呢，有两部分信息。一部分呢是相同的，就是统一地进行市场行情的结构化数据的输入。涨了、跌了，有多少买盘、多少卖盘，现在是一个什么样的行情，这个呢会有结构化数据统一地发给所有这些大模型。另外一块有差异的部分是什么呢？就是各自可以搜索非结构化的社会信息。现在有什么小道消息，市场的情绪怎么样，自己搜索去。这个就是整个的实验设计。

实验的过程是什么样的呢？咱们先说DeepSeek V3.1。它呢是交易很少，最主要的盈利呢，是15倍杠杆做多了以太坊，做多了索拉纳，以及做多了瑞波币，靠了这个挣了36%。一个礼拜挣了36%，真的不愧是做量化基金幻方量化出来的这个大模型，做这玩意儿绝对强。

第二名呢是Grok-4。他呢一开始他也认为有可能会空，但是这就是Grok-4比较强的地方，它后边是Twitter，后边是X。你在比特币市场上，或者在币圈里头有任何风吹草动，X肯定是第一个知道的，而且可以快速地知道发生了什么事情。所以呢，它非常非常精准地知道在什么时候应该转单，从空单转多单。它在发生反转的时候，快速地20倍做多了瑞波币，15倍做多了索兰娜，挣了很多钱。但是呢，他前面有一个交易时机稍微有点差距，所以他有一个做空瑞波币的这个交易呢，是给他赔了一些钱。DeepSeek和Grok都是极少交易，就是他很少做决策，很少做交易，但是呢真的很挣钱。DeepSeek V3.1挣了36%嘛，然后Grok-4挣了30%。这是一个礼拜，在这一个礼拜里头，整个的行情是有一个V型的反转，一开始暴跌，然后开始转回来。DeepSeek呢就属于是我一直相信会涨，Grok-4呢就属于很精准地通过X上面的信息，找到了这个反转的底部，非常非常精准。这个也是输入信息差异带来的这种差异。

再往后一个呢，Claude sonnet 4.5，它呢挣了23%，其实也还可以。一个礼拜你挣23%，你还要什么呢？他做的交易呢，就要稍微多了一点，他做了3到5次交易。他呢主要是靠杠杆做多ETH和瑞波币，靠这个来去挣的钱。

再往下一个，挣的钱更少一些的呢，就是Qwen3 Max。他呢挣了大概700多美金吧，他做的交易就要多一些了，他做了八次交易。这个里头就比较乱了，逻辑不是很清晰。

再往后一个，就是比特币买入持有的这哥们，他呢挣了383美金，也只做了一次交易，因为它就是一个对照组嘛，上来你就是把所有的1万美金都买成比特币，在整个的实验过程中跟其他人去比较。

下一个呢就是GPT-5了。它是1万美金进去，亏了2800美金，亏了28%。他主要的亏损交易是做空瑞波币和索拉纳，就是他在反转的时候没有发现，反转了就一直在做空，所以亏了很多钱。

当然亏得更多的呢，是Gemini 2.5 Pro。为什么呢？就是它反复地交易，它交易的规则非常混乱。你像前面我们讲DeepSeek V3.1、Grok-4，都属于交易很少很少的。Claude sonnet 4.5做了3到5次交易，就已经多了。像这个Qwen3 Max做了8次交易，我们就已经在说它的交易逻辑有点混乱了。这个Gemini 2.5 Pro做了44次交易，因为你在这种去中心化的交易所里边做交易的时候，你是需要去付gas费的，就是你要求别人给你打包这个交易，你是要给矿工钱的。所以你做了44次交易，就造成了巨额的亏损。他呢也还有一个盈利单，他做空狗狗币有一定的盈利，但是呢他做多瑞波币的一个交易呢，造成了巨大的亏损。他很多的亏损是由于他交易实在太频繁了。你到这个币市里头，是不能这样去交易的。

那么这些大模型，他们显示出来的性格上的差异是什么样的呢？刚才咱们讲是什么怎么挣钱、怎么亏钱，性格上是不一样的。

DeepSeek是纪律严明的量化执行者。因为它是有这个COT，也就是思考过程输出的，它告诉你我是怎么想的。上来就告诉你说，我是所有东西都做多，我认为现在的市场还可以，这个市场上没有达到我的盈亏平衡点，或者没有达到我的止损点，所以我就继续做多。他非常非常严格地在做这个量化交易的玩法，因为只有他是原来做量化交易的，所以他很熟悉量化交易到底怎么玩，他也很熟悉这种去中心化交易所交易速度比较慢、交易成本比较高的这样的一个特性。所以呢，他就很稳定地去执行这些策略，挣的钱挣得最多。所以他叫“纪律严明的量化执行者”，而且强烈看涨，就是我就认为会涨。平均是10-15倍的杠杆，交易频率是比较低的，严格的止损止盈驱动。就是它没有那么复杂的交易策略，我就是止损止盈，全市场看涨，而且很看好瑞波币，这就是它的整个交易逻辑。

Grok-4呢，它是敏锐的时机反转交易员。因为后边有X，这个绝对是优势，你认为它作弊都没有任何问题。它呢可以很动态地进行调整，这个是10到20倍，它比DeepSeek还要胆大。DeepSeek就是10到15倍，它是10到20倍的杠杆直接做进去。这个仓位呢可以进行动态反转，可以非常好地捕捉到市场拐点，所以更适合干这个活的可能是它。只是他可能对于量化交易，特别是在这种去中心化市场上的量化交易呢，没有DeepSeek那么熟练。

然后Claude sonnet，他属于谨慎的价值投资者。整个的方向上呢也是看涨，他呢是8-20倍，他也挺胆大的，加了8-20倍的杠杆。他的交易的这个频率也是比较低的，属于长线持有、交易次数较少的，集中地做以太坊和瑞波币。

Qwen呢，属于平衡的机会主义者。就是他乱搞，也没有什么逻辑。在这他做了8次交易，都是较短的持仓周期。所以我觉得他能够挣钱，算是一个运气吧。

而GPT-5呢，属于困惑的逆势交易员，就是属于没有搞清状态，始终看跌，维持了这种亏损的头寸，看空瑞波币和索兰娜，最后亏了很多钱。

而Gemini呢，属于叫焦虑的日内交易员。他疯狂地在那做交易，做了44次交易，做得很混乱，而且也是普遍看跌。15-25倍，也是非常胆大的一个交易者。做了44次，他是做的最高的交易次数。你看一个礼拜做这么多次交易，缺乏风控，他压根就不知道什么叫风控在里头。看空这个狗狗币，看多瑞波币，这是他的一个交易策略，或者说他的一个性格吧。

这是几个大模型之间的这种差异。很多人说：“这不就量化交易吗？”这不一样。大模型交易跟量化交易是有本质区别的。量化交易呢，使用的结构化数据，现在的整个的市场的交易的数据是什么样的，价格什么样的，有多少买、多少卖，过去的历史数据是什么样。他把这些东西塞到一个量化交易的系统里边去，然后呢，是由人去看新闻，给他制定量化交易的一些规则，他去按照规则去在止亏线、止盈线之间去进行操作，这个是量化交易干的活。

大模型交易的话，是大规模地使用非结构化的社会信息。什么叫结构化的？就是有一个表格，今天第一笔交易什么、第二笔交易什么、报价什么，这样的数据叫结构化数据。而非结构化数据，就是我们搜索回来的，直接从网页上扒回来的这个数据，或者说像Grok这样，我从X平台上直接拎回来的数据，这个就是一条一条的，可能这一条数据叫怎么跌了、怎么涨了，可能是这样的这种数据。他把这样的数据拿回来，由大模型自己去决定到底做什么样的策略，是涨是跌，它是这样来去做的，所以有非常大的区别。

今天呢，就是做了第一次直接由大模型真金白银地去做交易。以前没有人敢干这个事，以前大家都是做模拟盘，就是我模拟买、模拟卖，最后看一下谁赚了、谁亏了，这次就是直接上真金白银。

那未来会变成什么样呢？就这一次的实验对未来会有什么样的影响呢？第一个呢，是不要太担心，由大模型完全主导的交易不会马上就到来。虽然现在看到说有人能挣钱了，但是这个大模型对于整个的交易还并没有那么熟悉，未来可能还需要几个月，甚至可能需要一两年的时间，这些大模型会更加适应这种交易的动作。

未来人类的角色呢，会继续上行。什么意思呢？最早的时候咱们是做交易，我决定买、决定卖。再往后呢，就是制定量化的一些策略。我们有一个量化工具，由人呢，或者说叫量化分析师，去看新闻、去分析数据、去分析大家的这种情绪，去制定量化策略，然后而让量化机器人去执行。未来呢，就是人类要去为大模型制定策略。当发生什么事的时候，你应该如何去做；当发生什么样的新闻的时候，你应该如何去反应。以后可能人类会在量化交易的基础上继续向上走。

大模型交易呢，也会带来很多的风险。就大模型交易这个事一定会到来，谁也拦不住他，因为挣钱嘛，这个事你是拦不住他的。它会带来什么样的风险呢？第一个就是算法趋同。这个事其实在量化交易的时候就已经产生了。算法趋同什么意思？就是我发现有一个要涨的这个趋势了，或者有一个要跌的趋势了，所有的量化机器人，包括以后的大模型，可能都会产生相同的这种认知，那他们就会把这个趋势进行放大。涨还行，你要跌的话就会闪崩，直接“咔嚓”一下就崩掉了，很多人就会爆仓在里面，这个是非常非常危险的。还有什么呢？就是责任不清晰。原来我们即使使用量化交易，也是有量化交易员他来承担责任。而未来的话，你是由大模型来去确定要去买还是要去卖，那你挣了、亏了，这个到底算谁的？这块呢，也还需要再去明晰一下。所以监管部门又有得头疼了。

好，最后总结一下。这是第一次真金白银的大模型对抗，而且呢我们发现专才还是有用的。其实这个实验呢，颠覆了我的一个认知，我原来一直认为，只要模型变得越来越大，这种通才才是未来的一个方向。但是这一次的比赛让我们知道了，专才是有效果的。像DeepSeek这样的专才，他就是做量化出身的嘛，所以他对于整个的量化交易规则，对于整个量化的这种执行过程和这种去中心化交易所这种低效率、高成本的这种交易的节奏把握得非常好，他就胜出了，超过了所有的其他大模型。所以专才依然是有效的，即使大家以后没有专才大模型，你也完全可以用这种开源模型去进行微调，这件事还是有效的。

下一个告诉我们的事情是什么？特定的信息源是非常有效果的。下一个胜出者是Grok-4，它靠X上这种非常敏感的信息波动，比这个DeepSeek挣得虽然稍微少一点点，但是也是非常挣钱的。

最后提醒大家，炒币有风险，入市需谨慎。大模型是别人的，炒币的真金白银是自己的。

好，这个故事就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

GPT 5 Codex，普通人的技术平权里程碑！程序员神话被戳破？当AI能可靠执行7小时复杂任务，普通人与专家的差距还剩多少？｜揭秘 Codex、OpenAI、GPT-5、GPT-5-Codex

Luke Fan — Wed, 17 Sep 2025 00:44:03 +0000

GPT-5-Codex的发布，普通人通往技术平权之路的又一个里程碑。

大家好，欢迎收听老范讲故事的YouTube频道。

记得上次在天津做线下活动的时候呢，有一位程序员问我说：“我们这些普通人，应该如何应对AI大潮呢？因为现在很多程序员被AI淘汰失业嘛。”我想了一下告诉他说：“你要想清楚一个问题，在AI大潮面前，我们不是普通人，我们是程序员。那些不会写程序的人，才是普通人呐。”

所以，咱们今天要讨论的就是，那些不会写程序的普通人，在GPT-5-Codex的帮助下，怎么能够像我们这些会写程序的人一样，去遨游于代码的海洋之中，知道代码到底在干什么，为什么这么设计，哪里做错了。这个是真正给了他们一个能用的工具。

OpenAI呢，趁着Anthropic屏蔽了程序员的主体族群（也就是咱们中国人的时候），适时地召开了发布会，发布了GPT-5-Codex。大家要注意，它这个名字起得稍微有些混淆。GPT-5呢，是一个大模型；Codex呢，是OpenAI发布的一个编程的agent；GPT-5-Codex呢，是一个在GPT-5的基础上，专门训练的一个用于Codex这个编程AI agent的一个专有模型。它稍微有点绕，就是GPT-5-Codex是一个模型，不是一个简单的agent。

GPT-5-Codex呢，可以自动地判断复杂度，而且可以可靠地执行。自动判断复杂度这件事呢，现在大家都在干。你问了一个简单问题，我就简单回答一下，不会浪费很多的TOKEN。其实，有时候AI想太多，也是一个很烦的事情。什么叫AI想太多？你问豆包一个问题，甭管你问他什么问题，都啰里八嗦给你讲半天，那就属于AI想太多的一个典型体现。

真正难的是可靠执行。什么叫可靠执行？就是AI这种东西呢，每一次执行实际上都有可能出错，都有可能出现一些偏差。如果说我一次执行了以后，自动地再做下一次执行，它就会把这些偏差累积起来，或者我们叫累积误差吧。这种AI agent，它是没有办法做长期执行的，因为它的累积误差会越累积越多，他自己瞎想越想越偏，就这样的一个状态。

但是，GPT-5-Codex在这块会做得很好。OpenAI已做了测试，它最长连续运行了7个小时，中间不会停下来，这是非常非常强大的，而且最终得到了你想要的结果。这个是怎么做到的？肯定内部是有很多的纠偏机制，很多的校验机制。我往东走一步发现不对了，我再往西走一点。其他的AI agent为什么不行？因为有时候钻牛角尖，钻进去以后就钻不出来了。像我们使用Claude Code或者Java CLI这些AI agent的时候，你就必须得盯着它，你发现他越钻越偏、越走越牛角尖的时候，你就要把他打断，告诉他说：“你别往那边走了，那边是错的，有一个正确的方向，你应该如何如何去处理。”这个才是比较麻烦的地方。GPT-5-Codex在这块，已经非常非常强了。

GPT-5-Codex呢，跟OpenAI的Codex这个AI agent结合在一起，绝对是强强联合，而且还不贵。这个很重要，因为使用这些AI agent本身是非常非常昂贵的，它会把你整个的代码库直接塞给这个大模型，你的TOKEN会像流水一样哗啦哗啦地一下就不见了，所以非常非常昂贵。有些人使用Claude Code，一个月能够消耗2万美金的TOKEN，这是非常吓人的。

而像这个GPT-5-Codex，本身在这一块上还是相对比较便宜的。像我这样的Plus账号，就是一个月20美金的账号，基本上够我使了。给出的额度是这样的：每5个小时30-150条通话。你如果是问的很简单，可能就是150条；问的很复杂呢，就是30条。如果你把它耗光了以后呢，它会回答你说：“咱歇会吧，待会再弄。”很多人呢是这样，工作干一白天，如果被提示了说“咱歇一会吧”，他就下班回家了。这样来去使用，它的额度基本上够使，要比使用Anthropic的Max这种，就是200美金一个月的账号，要好用得多。

现在去使用OpenAI Pro账号，200美金一个月的账号的话，它是每5个小时可以回答300条或者是1,500条，就是简单问题1,500条，复杂问题300条。实际上你给它一个复杂问题以后，它自己且跑呢，你想再给他下一条都比较费劲，除非是你并行的同时再开多个窗口一起给他这个命令，有可能这个额度会不够用。正常如果是一个人单人使用的话，其实Plus账号，就是30条复杂任务或者是150条简单任务的话，五个小时之内是够使的。你上午弄完了以后，中午吃个饭休息休息，下午又可以满血复活了。所以它还是比较省钱的。

GPT-5-Codex这个模型呢，其实是在GPT-5的模型上做的提升，本身呢提升并没有那么明显。如果你不是用来编程的话，你就不要拿这个模型来使。如果你要是拿它来编程的话，普通的编程任务呢有提升，但是可能也就是在一些跑分题库上，你能够看到它提升那么一点点，提升的也不是特别多。但是呢，在一些比较特殊的编程场景上，是有比较高的提升的。所以呢，这个提升不重要，发布会本身更重要一些，就告诉大家华人程序员们、中国程序员们：“Anthropic不让你用了，上我这儿来，非常非常好用。”

那么，Codex和其他这些编程工具比起来，有什么差别呢？咱们就使用这个GPT-5-Codex最新的模型，而且上来以后，你可以选择High模式，就是更多的思考的这个模式，这个效果非常好。Codex跟其他这些编程语言工具比起来，最大的优势是“言出法随”。什么叫言出法随？就是你给出指令，你就可以放心等待了，这个就是最大优势。前面也讲了，你给了他一个指令以后，他可以吭哧吭哧跑7个小时，7个小时基本上就是一天了吗？你上一天班不也就8个小时吗？他在这个中间不会跑偏，而且最后会给你一个你所预期的结果。这个非常非常重要，千万不要说他折腾半天给你一结果，最后发现不是你要的，这不是白忙活一场吗？

使用这个AI agent跟这个模型配合起来像什么呢？就像是在一个陌生的国家、语言不通的情况下打Uber的感受。比如说我在泰国吧，泰语肯定不会，他们也不会讲英语，我英语也不怎么样。我去打Uber，这个钱是可控的，你在打车的时候，他告诉你需要花多少钱。目的地呢也是很清晰的，你都是在谷歌地图上挑好了目的地，直接输进去，也不会发生什么错误。中间过程你就不用管了，愿意去跟司机闲聊两句呢，可以试试。我在泰国清迈，我也会用蹩脚的英语尝试跟司机闲扯两句，有时候人家理我，有时候人家不理我，这个也无所谓。如果你不想跟他聊天，你中间睡个觉也没毛病。最后呢，都会在一个你所预期的时间、你所预期的金额下到达目的地。这就是Codex真正给大家的体验。

而如果你使用其他的工具，比如说像Cursor、Claude Code或者Gemini-CLI这些工具的话，你就像是在一个陌生的国家、语言不通、陌生城市坐公交车的感受。这是一个什么感受？太多未知因素了，消耗也是完全不可控的，到底要花多少钱你也不知道。而且呢，这国家可能治安还不太好，有一些坑掉进去未必就爬得出来。是否可以在你所预期的时间和预期的费用下到达目的地？不好说。所以这就是最大的区别，为什么我现在已经完完全全转到Codex上去了，就是这样的一个原因。

现在的这些编程工具呢分三类。一类呢是云端agent，有个网站，你向他提要求“给我做一什么什么东西”，他直接给你做好，你中间就不用管了。他在自己的虚拟机上整个搭环境做，做完了以后，直接给你完整代码就完事了，这是一种方式。第二种方式呢，是给你一个命令行，像咱们刚才讲的Gemini-CLI、Claude Code都是这样的，给你一个命令行工具，你在这个命令行的下面直接给它指令，它去干活去。第三种呢，就是IDE或者是这种IDE插件。比如说Claude Code，就是自己做的IDE；GitHub Copilot，就属于叫IDE插件。它是给你一个集成开发环境（IDE叫集成开发环境），在这个里边的话，咱们直接把所有的事情做完。而Codex的话，它是一个三位一体，就是它三个都给你了。如果你一旦决定使用Codex，你就会有一台服务器，他在服务器上去给你搭建所有的运行环境、搭建开发环境，然后到那边去干完活，给你提交完整的代码。回来也给你一个本地的命令行工具，同时呢给你一个IDE插件，就是VS Code上的一个插件。三个都有，而且都挺好使的。

Codex跟其他这些AI编程工具最大的差异在哪？最大的差异是，它是直接在GitHub仓库上干活的，直接可以管理GitHub仓库，接受各种PR（叫pull request），就是这种拉取的需求。开源仓库什么时候会收到pull request呢？就是别人看着你的开源代码说：“这儿有一bug，我去给你改一改；我那儿想增加一功能，我给你改一改。”这个东西我不能直接在代码库上改，它会提交一个拉取请求，说：“我改好了，你拉回来合并进去吧。”叫pull request。大量的pull request上去以后呢，代码仓库的主人其实是看不过来的。

这个Codex干的第一件事，就是叫自动过滤，直接把骂人的筛选掉。因为有很多人提pull request，什么也没有就上来骂人，这个是很正常的一个事情，林子大了什么鸟都有嘛。华为鸿蒙系统的这些拥趸们，就曾经提交了大量的pull request，要求别人去支持鸿蒙。现在就不需要看这些东西了，这个直接交给Codex，你把pull request拉上来，你去校验一下，看看这东西能不能合并得进去，是不是有问题，这个代码是不是有害，上来是不是骂人呢，还是说提交的代码是完全无效的。他直接看了，看完了以后发现没什么用，就直接扔掉了。所以这些以后就不会再给大家造成困扰了。

这个Codex会自动筛选出重要的pull request出来，交给这个代码库的所有人，你去甄选一下，看看是不是要去合并进去。它不会自动合并进去的。然后呢，也会自动地去review这些代码。这个review是什么？就是给你代码了以后，要有第二个人、第三个人去看一下这个代码。它呢，可以自动地去做安全review。为什么要做安全review呢？前面咱们发生过代码投毒事件。有一位非常同情乌克兰的程序员，在给俄罗斯的一些开源仓库去提交代码的时候呢，就直接投毒了，导致了俄罗斯人使用这些开源代码的时候就有可能会出现问题，这个是不能接受的。Codex可以直接把这些问题都排除掉。

还可以做过期依赖的review。什么叫过期依赖？就是我们有大量的代码，这个代码是一个一个的代码库、代码文件，每一个代码呢，会去依赖一些其他的这些库。有的时候呢，这些代码可能已经不用了，特别是一些屎山代码，可能已经不用了，但是这些依赖还写在里面，这个是非常非常危险的。他会查一下，说这些依赖已经不需要了，我们可以把它去掉。这样的话，代码库呢就会变得清爽一些，否则的话这个屎山就会越聚越多。因为原来代码量太大，咱们也没有办法把整个代码库从头到尾都看一遍，里头有很多的这种过期的依赖就一直会留在里面，后面人就没法改了，这个屎山就堆起来，后边的维护难度就会变得越来越高。

所以Codex可以极大地提升开源项目的管理效率，也可以极大地提升整个代码库的品质。因为屎山就是一堆的代码搁在里头，谁也不愿意把它扒开。能跑，但是为什么能跑，谁也不知道。在里头改任何东西，可能就都不能跑了，谁也不敢动这个东西。屎山在被提交的时候，现在有Codex的维护的话，就很难再入库了。大家一看这是个屎山代码，咱就别把它弄进来了，就搁那了。你按道理说，你这个代码提交上去以后，应该有人去看，应该有人去做review，review完了以后才能入库。但实际上呢，人这种东西，他是爱偷懒的。“这个人每次提交的代码都是对的，从来没有出过什么事，我信任他吧，下次我不看了吧。”就会出现这样的问题。为什么会有人在开源代码库里投毒成功呢？他就是这种信任造成的。现在有Codex了，甭管你提交了多少代码，以前的代码的质量有多好，你这次提交了，我还是会一丝不苟地把你都拎出来去做一次review，它不会偷这个懒的。机器在这点是相对来说比较可靠的，人是不可靠的。所以很多屎山代码就不会入库了。

而且呢，现在Codex可以直接把屎山挖开。为什么以前屎山挖不开？就是人处理代码是有极限的。我们从头到尾去读这个代码的时候，其实我们处理的能力是有限的。一个好程序员，或者说一个顶尖程序员，他比别人强在哪？就是他处理的代码量大。不是说我写了10行代码，写了1万行代码，还是写了多少行代码，就是当我看10万行代码的时候，我知道哪错了，这个错的地方在什么地，这个代码跟哪个代码是相互依赖的，哪个代码是调用哪段代码，这个东西我能搞清楚，这个就是一个程序员的一个基本素养了。另外一个说，我可以在100万行代码里头去把这个问题搞清楚，这个就更厉害一些。但是这个是有限度的，像我们去写一个浏览器或者操作系统，那这个多少亿行，没有任何人可以在里头看完。那你说这种大项目怎么做？就是通过工程的方式把它们切块，每一个程序员负责一部分，你就在这里头去处理，处理完了以后呢，写好接口，写好接口文档，其他人只跟接口去打交道，一个代码别人就不看了。原来是这么来处理的，但是在这个处理过程中的话，这个屎山就很有可能埋在里头，而且谁也没有办法把它挖开。去年我去日本，他们就跟我讲，说日本有好多70多岁的程序员，他写完了代码，除了他自己别人没法看。你再找一个人来看，这么大代码体量你咋看？这个是完完全全的屎山。

现在的话，有了这个GPT-5-Codex这样的新模型，它就可以把屎山挖开。它可以直接把所有的代码，把整个代码库都扔进去，它是有这个能力的，人已经超出极限了，人搞不定这个事。所以呢，他可以去重新替换代码，说这个代码我们整个去重写一下，把这个问题解决掉。这个以前不可能的事情，现在可能了。

那你说原来有没有人说“这个屎山我把它扔了重干一下”？也有。最近咱们看到的一个案例是谁呢？就是埃隆·马斯克。把Twitter买下来以后，把人都裁掉了以后，“咱们重新写吧，以前那屎山我不要了。”那你说他怎么干成了？因为他是埃隆·马斯克就干成了吗？其他人干不成，这是天才？也不是。干成的原因很简单，他不怕宕机。整个代码库更新的时候，这个X系统是宕机了好长时间的，而且有一段时间宕机还是挺频繁的。马斯克说：“反正公司是我的，也不是上市公司了，宕机我认了。”那这种情况下，他可以去把整个代码库扔掉了重写，否则根本没法干。如果是按原来的这种传统公司的架构，任何人都不敢去扒这个屎山代码，因为宕了机以后谁也负不起这责任。最上面管事的人，绝对是一帮普通人，甭管他是叫CEO，还是叫什么别的名字，那都是普通人，他不会写程序的。他只要求就是“你不许宕机”，具体这事是怎么回事，他是不管的。只有马斯克这种工程师，而且有钱任性，他可以说：“咱们把它整个屎山挖开。”其他人搞不定。

那么，GPT-5-Codex到底怎么能够让普通人去进行技术平权呢？分两步。

第一步，大厂会落后。大厂为什么会落后呢？因为很多大厂，最上面是一帮完全不懂技术的叫CEO，或者是叫一些其他的title的人在管。他们会很固执的要求，我们所有的代码不能上网。特别是像日本这样的国家，他们就没有办法去使用刚才我们说的这些工具：Claude Code、Gemini-CLI、OpenAI的Codex。它只能使用本地部署的一些小模型，那它的整个的数据库就会落后，就没有办法去跟那些新兴的企业去竞争。新兴企业，可能你没有钱去雇佣那么多的老程序员、高端程序员，但是可以靠一堆业余程序员、有业余爱好的程序员，就在Codex的帮助下就快速地追平大厂。而大厂呢，守着一堆屎山代码，因为不允许连接外网，那他就只能等着这些新的企业去超越他，他没有任何办法，只能眼睁睁等死。大厂原来的优势就是长期积累，以及呢，可以花高薪去雇佣最好的程序员，但是现在这些通通都成为包袱。被高薪雇佣到大厂的程序员，他们会进到大厂里去，看到大厂里头的系统到底是怎么做的，看完了以后说：“算了，咱们出去创业吧。”掘墓人就这么产生了。所以大厂会在这个过程中轰然倒下。

另外一个是什么？就是普通人也可以参与到技术平权里来了。咱们刚才讲“普通人”是非程序员，在这里的定义。当然了，这里的普通人，并不是说完全不懂程序的人。就像什么呢？比如摄影吧，原来有职业摄影师，但是你像我，我算业余摄影爱好者，但是对于职业摄影师来说呢，我肯定就是普通人了。能够理解这个逻辑吧？对于我这样的人来说，我现在也可以在大疆的这种傻瓜型的摄影工具的帮助下，拍出一些还不错的照片和视频出来了。现在也是这样的，一些稍微懂一点点编程的门外汉、编程的业余爱好者，也可以在Codex的帮助下，去做出一些很专业的产品出来了，完成一些很专业的工作了。这就是普通人的一个技术平权之路。而一点都不会，说我完全也不想看，这个事您还是普通人，跟我们没关系。稍微有点兴趣看一点，我们叫“略会”。很多东北的脱口秀里都在讲这个话：“你会打乒乓球吗？”“略会。”“会游泳吗？”“略会。”稍微会一点点的意思。略会编程的人，就可以解决很多大问题了。

你说我们去看一下Linux内核怎么回事？你原来需要学很久的，现在不需要了。略会一点点，我就可以去看看Linux内核到底怎么写的，有什么问题，哪有bug，哪个地方有可能有漏洞，都可以搞定。Linux内核是开源的，我们直接可以在源代码库上看。现在网上有大量的代码库，原来普通人是拿它没有办法的。现在这些“略会”的代码库，就可以进行解读，找出其中的bug，提出有见地的意见和建议来了。前一段时间有一个500G的代码库莫名其妙传到网上去了，很多的普通人拿他是没有办法的。现在的话，你说我略会一点点，稍微知道是怎么回事，你就可以把这个代码库弄到本地来，交给Codex说：“来，告诉我，这里头都写了什么？分几个模块？它们是怎么实现的？这个是为什么？那个是为什么？里头到底是做了些什么东西？”大量的普通人，可以参与到这个过程中来了。

咱们最终的结论：GPT-5-Codex就是一个普通人平权的工具。我们这里讲的普通人，不是说你没有钱、没有这个公司，而是说你不是专业程序员的这些普通人，就可以在GPT-5-Codex的帮助下，做很多原来专业程序员才能做的事情。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

OpenAI公开了GPT5降低幻觉的秘密，像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜，这才是真正的进步｜GPT-5 AI Hallucination OpenAI Hallucinations

Luke Fan — Wed, 10 Sep 2025 00:41:00 +0000

GPT5降低幻觉的秘密被OpenAI给公开了。现在看来，训练AI真的是越来越像训练小孩子了。

大家好，欢迎收听老范讲故事的YouTube频道。

九月五号真的是一个神奇的日子，非常多的模型都在九月五号被发布出来。OpenAI在这一天也发表了一篇论文，这个论文叫做《为什么语言模型会产生幻觉》。

大语言模型从进入我们的日常生活那一天开始，我们就发现了，这个东西最擅长干的事情是什么？叫“一本正经的胡说八道”。

现在OpenAI公布了，说产生幻觉有两个主要原因。

第一个原因叫做“错误的评估体系”。什么意思呢？就是我们现在去考试了，做对了1分，做错了0分，不做也是0分。其实我们所参加的绝大部分的考试，都是这样去设计的，甭管你是考英语、考数学，都是这样设计。像考数学这种，他还有步骤分，哪怕最后你的结果没有，或者结果是错误的，你只要前面的步骤写对了几步，他都是给你分的。

但是我们用这样的方式去训练大模型的时候，这事就麻烦了。怎么个麻烦法呢？大模型也在那有一些指标，要去反复的训练嘛，它的训练也是按照刚才我们说的这个方式来训练的：答对了1分，答错了跟不答都是0分。那么我就先猜一个呗，万一猜对了呢？你没准还有个一分，总比不答强，因为不答跟错误是同样的结果嘛。

文章里头举了一个例子，说你去给我猜一个生日，这个人生日是哪天？马上给猜了一个。他说这玩意儿你猜对的可能性是多少？1/365，这个很难猜对的。但是呢，猜错了就跟没猜是一样的，都是0分，所以大模型还是会去猜一个出来。这就是他一本正经胡说八道的一个最底层原因，就是你一开始的评估体系是错的。我们考试的时候，这个评分的规则就是这么评的，所以大模型也是这么干活的。

另外一个原因是什么呢？他的一些训练数据本身是有问题的。什么是训练数据有问题呢？就是大模型通常的回答方式是：下一个词最适合应该出哪个词。他是这样来去回答问题的。但是呢，有很多的训练数据呢，有一些相关性。比如说他举了个例子说，我给他一堆照片，猫的照片跟狗的照片，然后呢在后头写上标注，说这是猫、这是狗。你训练完了以后，给他照片，说这是猫还是狗？或者你给他个猫和狗的这个单词，说请给我画一个出来，或者给我描述一下，这个大模型是可以搞定的。

但是如果你的训练数据是错的，比如说你给了一堆猫和狗的照片，在后边你标注的不是猫和狗，而是猫和狗的生日，然后你说：“现在给你一个照片，给我猜一下这个猫是哪天生的？”那这个大模型就直接抓瞎了，说：“您让我编一个吧。”大概是这样的一个情况。或者说你给它一个日子，比如说2025年9月9号，这一天出生的猫应该长什么样呢？这个大模型说：“呵呵，请听我瞎编一个。”也只能是这样了，你没有任何其他的办法，因为它的整个的训练数据相关性没有那么强。而且刚才我们讲，这个猫跟狗的生日标注在照片上以后的话，它也不具备什么统计学的这种意义。你说9月9号出生的猫应该是什么样呢？

但是讲到这儿，咱们多讲一句，有人相信生辰八字吗？或者是你的星座代表什么？这个是不是跟刚才我们给猫跟狗标生日这个过程是很像的？所以这个生辰八字的结果，跟刚才我们讲的这个数据是一样的，它没有什么统计意义的。所以不要去相信什么算个属性、算个生辰八字、算个星座，这个意义不大。就算是给交给现在的大模型，你让它去折腾这个事儿也没什么意义。

我自己呢，在第一次使用AI的时候就经历了幻觉。我第一次使用AI是什么时候呢？那时候ChatGPT还没发布呢，当时的AI产品叫做GitHub Copilot，底层也是一个ChatGPT的模型，它是先发布出来。首先这个东西出来是给大家写程序的，那个时候还不觉得说AIGC会怎么样了。我拿着那个系统去写程序的时候，我说：“B站的CEO叫什么呀？”他告诉我叫陈瑞。我说：“这对的。”然后我说：“陈瑞的身份证是什么？”我是等于写程序嘛，说“陈瑞身份证”，啪打一个报号，然后噼里啪啦就给我生成一堆信息出来：哪年哪月几月生的、身份证号码什么。当时我都傻了，这不是泄密了吗？马上我就去找陈瑞去了，我说：“陈瑞，你的那个身份证泄密了，这是你身份证吗？”陈瑞看了一眼说：“这肯定不是。”

后来我就搞明白了，当时还没想着叫“幻觉”，当时想的是什么呢？说这个东西是不是一个脱敏，或者是做了一些数据混淆。后来想明白了，这东西就是一本正经的胡说八道。你问他陈瑞的身份证，他按道理应该告诉你说：“我不知道。”或者说：“这个东西涉及个人隐私，我不能给你生成。”或者说我生成了以后，在下头给你写一个说：“只是示范数据，没有任何实际意义。”应该是做这样的一个操作。就跟我们去银行里头看到人家练习数钞票的那个钱似的，专门有特定的号码，而且上面会盖一个章，说这就是一个练习币，千万别惦记偷着玩。但是这个GitHub copilot啥也没说，直接给你写了一个完全看着像真的一样的身份证号就给你写出来了。当时还把我吓一跳，这是当时的一个故事。

这就是AI到底是怎么产生幻觉的，以及呢，我们应该如何去避免它。其实他们已经把这个东西应用起来了，就是应用到GPT5里头。所以现在GPT5呢，有的时候就告诉你不知道，他不会上来就直接告诉你：“我给你猜一个吧。”甚至猜完了以后还在那嘴硬：“不是我猜的，这东西就是这样的。”他有时候还干这样的事情。

像GPT4呢，他答对问题的概率是要比GPT5高的，因为刚才我们讲了，你胡猜一个，你还是有机会答对的。像刚才猜陈瑞身份证，他也不是说完全不可能猜对的吧？还是有可能猜对的，那么他就去猜去了。所以GPT4的正确率要比GPT5高，但是呢，GPT5的幻觉要比GPT4低非常非常多，因为GPT5经常就告诉你不知道了。说“不知道”肯定是错的，但是“不知道”呢，对于我们来说，其实是一个可以接受的答案。

你说这事跟训练小孩子是不是很像？我们再去给小孩出考题的时候，我们是不是可以出一个题说，这个题你做对了加1分，做错了减1分，不做没分？这个是不是就可以调整记分规则了？他就可以知道说，我们是不是不会的就不要瞎写了。我记得我原来参加过类似这样的考试，好像是上大学的时候，当时考计算机的一个等级考试就是这样的：做错了减分，做对了加分，不做没分。那就是你不会就别瞎写，就是这样的一个意思。或者呢，调整一下，因为有负数在里头，计算稍微麻烦一些嘛，就是什么呢？不做呢是1分，做错了呢是0分，做对了呢，比如说给他个5分。用这样的方式去训练大模型，他可能就会好一些。

包括我们以后去训练小孩，或者说小孩的成长过程中的一些教育吧，也可以使用这样的方式。当然，我觉得更重要的是什么呢？就是我们在孩子被训的时候，比如孩子这个犯了什么错误了，在挨骂的时候，就不要老惦记让他去反思怎么去犯了错误、下次怎么去做对。是不是很多家长都爱干这个事？做错了不行，你一定要在这个时候把它想清楚，然后给我解释到底是怎么回事。在这个时候，小孩想的压根就不是怎么去反思错误、怎么能够保证下次不犯，小孩想的是如何尽快结束当前糟糕的状态。这就属于是一开始你设定错了一个激励的条件，还希望说这个小孩犯了错误，多骂他一会，多念叨一会，让他能够学会，这个绝对适得其反。

还有一些呢，适合小孩教育的AI训练方式，大家也可以思考一下，就是寻找合适的数据或者问题对于教学是非常重要的。就刚才我们讲的，给他一堆猫跟狗的照片，然后给标生日，这就属于错误的数据。我们找到正确的数据，对于小孩的学习会非常有帮助的。今年年初吧，李飞飞训练了一个很小的模型，它就是精心筛选了1,000个高质量、高难度、覆盖50个不同领域的全面性问题，训练出来的模型要比很多很大的模型效果都好，这个才是对我们有借鉴意义的事情。为什么呢？你对于小孩训练也好，或者是教学也好，最缺的是什么？不是上培训班的钱，也不是找到特别好的老师，而是小孩的时间。你去让小孩上培训班，到底是上那个还是上这个？你需要去取舍的，因为时间是有限的。在这样的一个情况下，如果能够选对正确的数据集的话，对孩子的训练也是非常非常有帮助的。

在这里呢，再讲另外一个很拟人的AI算法故事吧。就是李飞飞的这个小模型里头，应用到了另外一个有趣的方法，叫什么？叫“预算强制法”。这个呢，其实是小孩解数学题的一个方法。它是什么样的方式呢？就是它动态的来调整推理的步骤和时间。现在我们的模型都是做推理嘛，到底是应该用多少步来推理呢？现在我们使用的很多系统都是可以预设的，我到底是用高级推理、中级推理、还是低端推理，还是直接出结果？让你自己去设。但这个事其实是很二的，应该是让模型自己去判断。

它呢，通过任务的复杂度和中间的结果，不断来评估说这个事是不是可以结束了。如果任务复杂度高，他就会给你更多的推理预算；如果在推理预算之内你把它做出来了，它再去评估这个结果。如果结果的置信度很高，这东西就很像我们从小做数学题，都是有这样的训练的。你得出一个0，得出一个1，这个事都有可能是对的。但如果你最后得的那个结果需要开根号，然后还不会算，这种大概是前面哪步算错了。咱从小应该都是这么学的吧？他也是如此。然后除了置信度之外，还有一个是什么呢？就是结果的收敛性。我越算这个结果，好像越向着比较可信的方向在前进；或者说有的时候越算越觉得不对，走着走着觉得越走越远了。这个东西是可以判断的。如果是你得到了一个置信度很高、很收敛的结果，没问题，就停在这儿吧。如果你发现这个东西置信度很低，而且呢越来越发散了，一点都不收敛，越走越不像了，就直接停止，说：“不会，对不起，我不知道。”当然我们小时候有时候受的教育是什么呢？你实在做不出来，到后头写个0、写个1，还是有蒙对的机会的。

所以李飞飞的这个方式呢，就是简单问题简单推理，获得高置信度、收敛的结果，就快速停止；如果太复杂，就直接承认失败，完事了。这个是不是也很像咱们小时候教小孩子做数学题的这个过程？

讲远了。这个降低幻觉的技术呢，现在已经用到了GPT5上。现在他们在GPT5上就已经是鼓励大模型说“不会”，说“这个事我不知道”，去鼓励他做这件事情，而不是要上来生给你编一个结果出来。

另外呢，我要讲，降低幻觉其实是一把双刃剑。很多人说：“不对，幻觉低了，它不是好事吗？你不知道就说不知道就完了。”为什么是一个双刃剑呢？这个里头呢，跟人性有关。因为幻觉再怎么降低，它永远不会是零，有可能呢会逐渐降低，但是人呢，会选择相信一个大概率不会出错的自动化系统永远不会出错。这话很绕，什么意思呢？你比如说这个系统，十次里头错八次，那这事肯定不行。等到10次里头错5次呢，这个结果呢你可以参考一下。如果10次里头呢只错个两次，就会有相当一部分人认为这个结果是永远不错的，我就直接相信了，剩下的两次错就错了。他是这样来去处理这问题的。这是人性的一个选择。所以呢，幻觉越低，愿意直接无条件相信这个模型的人就会越多。这是一个灰度，有些人可能怀疑一切，有些人呢可能说你这个幻觉只要到50%我就相信了，有些人说幻觉到20%我就愿意相信他。他是这样来去工作的一个过程。所以呢，幻觉越低，选择无条件相信的人就会越多。这就是为什么我说降低幻觉是一把双刃剑。

那么我们应对幻觉的最简单方法是什么呢？第一个，肯定还是怀疑和批判了。中国的中小学教育里头还是应该加强一些的，这一方面目前应该没有那么强。另外呢，就是你要去有一些逻辑的训练。比如说，如果不进行逻辑训练的话，你没法去判断这个结果是不是符合逻辑，或者说他的“置信度”这个东西，你没有判断标准。还有呢，就是我们要了解聊天的上下文环境。这个事特别有意思，大模型呢，你问他一个问题的时候，他给你的结果未必一样。这个结果的差异是怎么来的呢？其实是跟上下文有关。所以我们经常在跟大模型聊天的时候，要学会叫“开始一个新话题”。什么意思？就是我们把前面的上下文都扔了，咱们重新开始聊。这个是非常非常重要的，否则的话，它给你的结果要跟上下文相关联。如果我们跟他聊天的过程中忘记了上下文说的是什么，那他给你的结果就有可能会出现比较大的偏差。

还有一点呢，就是要了解信息来源。你说我这个大模型给我的结果，是大模型直接生成的，还是通过本地知识库总结的，还是通过搜索总结的？这个东西到底是怎么来的？如果是通过搜索来的，他到底是搜索的哪些网站？哪些网站是可信网站？哪些网站是八卦网站？哪些网站每天胡说八道？你要要求他去进行一定的区分，这个才有可能让他的幻觉降低。

当然，最终的方式就是多模型校验。像我现在很多的数据都是多模型校验：我先在豆包里跑一遍，因为这玩意最快；然后呢，把跑的结果扔给ChatGPT，说：“来，给我进行数据校验。”然后呢，ChatGPT就会把所有的数据拆开了，校验完了以后，告诉你哪个地方是对的，哪个地方是错的，要比ChatGPT自己做的还要好。有时候ChatGPT也有幻觉，虽然GPT5号称幻觉降低了，但是依然是存在的。我也会把它的结果再拿到豆包里边再去校验。这个会极大的降低幻觉，但是也不能降到零。

OpenAI呢，现在又在开始探索新方向了。就是刚刚做这篇论文的这个部门呢，叫做模型行为部门，这个部门呢，现在已经合并到模型预训练部门去了。这个部门的老大呢，是一位亚裔女士吧，看那个名字应该是个韩裔吧。他呢现在做了一个新的部门，叫OAI部门，这个部门呢，是研究AI与人的交互方式的。他呢，研究的是在聊天和agent之后，这个AI应该如何去跟人进行交互。现在大家还在卷agent呢，人家已经又往前走一步了，agent之后是干什么？他认为AI呢，应该是一个思考、创造、娱乐、学习、连接与实践的全新范式和工具。我们也期待这位女士吧，能够给我们带来不同的惊喜。她前面做了达利2、做了GPT-4o、做了GPT5，特别是跟人交互相关的部分，包括AI如何降低幻觉、AI如何降低谄媚，这些东西都是他去研究的方向。

最新的GPT的更新是什么？特别有意思的一个功能，叫“分支聊天”。比如说跟人聊的时候，聊着聊着聊崩了，或者聊的大家很不开心了，你能够说：“我们退回去，现在我们退回三轮，从这继续往下聊吗？”咱是不行的，因为那对面还生气呢。但是现在ChatGPT允许你干这个事了。就是我们聊着一个来回、两个来回、三个来回，这个时候说我聊错了，我可以从第一个来回完了以后，说我在这做一个分叉，我重新开始聊。AI大模型的这个接口呢，就不知道你后边的聊的第二轮、第三轮到底聊了什么，它会从这个地方分支出来，接着跟你聊。这个应该也还是蛮有想象空间的一个事情。

好，这就是我们今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的会员频道。再见。

DeepSeek R2难产真相！金融时报爆料：华为昇腾芯片训练失败，揭秘国产AI算力的“卡脖子”困境。

Luke Fan — Mon, 18 Aug 2025 13:35:27 +0000

8月14号，英国金融时报发了一篇报道，说Deepseek R2模型之所以难产，是因为在使用华为升腾芯片训练的时候，持续遇到了技术问题，最后被迫改用了英伟达芯片。甚至透露华为曾经派出一支救火队，常驻在Deepseek，手把手帮忙调教升腾服务器，但仍然无法完成训练。无奈之下，Deepseek只能退回老路训练，重新切换回性能更加可靠的Nvidia的GPU，升腾芯片仅退居辅助，用于模型推理环节。

虽然没有华为和Deepseek官方的回应，也没有他们的辟谣，但是呢，据说是援引了三位知情人士的一些说法，也进行了很多交叉验证，所以这个事情呢，大概率是真的。

国运跟国运相碰撞的时候，升腾也号称是国运级产品，Deepseek肯定是国运级产品，为什么是升腾不灵呢？升腾芯片是可以替代的，也还有一堆竞争对手，所以出现问题以后，他的竞争对手会帮他去宣传。而Deepseek虽然在国内也有模型在追赶，但是地位是不一样的。升腾和国内的其他算力芯片，以及其他那些大模型，从来没有像Deepseek那样震动过世界。所以呢发生碰撞的时候，必须是升腾不行了，不可能是Deepseek不行了。

大家为什么会这么期待Deepseek R2呢？现在又有千问3，也有Kimi、Mini Max，还有豆包等，有一大堆的这些模型出来，怎么就只有Deepseek才行呢？其他人为啥都不行呢？其实现在呢，很多新的这些模型已经并不比Deepseek R1的性能差了，基本上是可以替代使用的。但是大家依然在期盼Deepseek R2，而且你只要讲Deepseek要出R2了，就会有流量。这个原因其实很简单，因为我们在跟国外的大模型竞争中打不过了。

国外已经进入了10万级芯片的训练时代了。Llama4，40万块H100训练出来的。虽然Llama4翻车了，但那也是10万块。而马斯克XAI的Grok 4，20万块H100训练出来的，效果相当不错。GPT5的话，现在推测也是20万块H100训练出来的。Anthropic的Claude 4，据说呢是40万块H100，但是呢它这个数并不是那么准确，40万块H100呢是一个部署的数量，并不是精确的训练的数量。另外一个没说的是Gemini 2.5。Gemini的2.5是没有公开数据，因为他们家使的TPU，其他人都是使的GPU，所以呢没有办法去比较，但应该也是几十万块H100的一个算力，才有可能训练出Gemini 2.5来。

以前是一个国外大模型特别强，特别是GPT4压着所有的模型的时候，我们终于期盼到了Deepseek R1一出来，觉得我们好像又可以了。但是现在我们发现，国内的大模型跟国外这些明显有差距了。我们只能再去期盼Deepseek，因为其他这些肯定是追不上的。那没有20万块H100，这个日子就没法过了。国内的算力芯片呢，大家也都知道不是那么靠谱。这个时候大家期待的就是奇迹了。

Deepseek V3、Deepseek R1，他们呢号称使用了2,048块H800，还不是H100。他们这个算力转换，可能也就是1,000多块H100。拿这样的算力就直接训练出来了，大家觉得你们可以用很少的卡训练出来，还可以震惊世界。现在我们还搞不定20万块的H100，是不是依然可以期待Deepseek再创造一次奇迹呢？

Meta花了好多钱收入进去的亚历山大王曾经在接受采访的时候说，Deepseek手里头有5万块H100，压根就不是他讲的几千块就给这事搞定的事。而且呢，新加坡3月份还抓了一些向大陆走私英伟达芯片的人，有传闻说这些芯片的采购方里边包括Deepseek。

Deepseek呢也正式做出过回应，2025年2月份做了回应。Deepseek强调，仅使用了2023年合法采购的H800芯片，其他我都没用。但是讲完了这个以后，甭管你原来这个东西到底有还是没有，你讲这个话以后肯定就不能再用了吧？所以呢现在大家期待说，这个反正你们原来是这么讲的，我们就这么信了。那以后呢创造奇迹也只能是等着你了。哪怕是使用H20芯片，用很少的芯片训练出来，堪比20万块H100芯片训练结果的这种奇迹，也不是完全不可能吧？这个怎么说呢，人有多大胆，地有多大产吧。我们总还是要有一些希望吧。

新的模型没有出来，但是新的论文呢，Deepseek其实一直不断在产生。在V3跟R1之前，Deepseek也没做什么铺垫，这不也就突然蹦出来了吗？他是这样去期待这个Deepseek的。

原来讲是8月15号到30号之间要发新版本，最后Deepseek自己出来辟谣说：“对不起，我们发不出来。”英国金融时报出来说，被这个升腾给拖累了。那这消息是怎么传出来的呢？Deepseek原来是有没有说过自己要去发Deepseek R2这件事呢？

首先呢，是Deepseek R1震动了世界，应该是在2025年春节前后的时候，我印象里特别深刻。Deepseek R1出来以后，我还连续做了很多天的直播来跟大家讲这个事情。国际大厂呢，在Deepseek R1的这种搅动之下，纷纷转向。转向什么呢？主攻数学、科学与编程，然后呢是长上下文、工具调用和agent，以及指令依从、降低幻觉。

数学跟科学这块呢实在太难了，这个咱们不擅长，而且那个你真的是需要可能10万块、20万块卡，你才可以把这事搞定，咱们没有。那编程呢基本可用，国内的这些模型做编程，肯定没有Anthropic的Claude 4好用，但是呢也基本上可以跑。长上下文、工具调用和agent这块呢，包括指令依从这一块呢必须要有，这一块其实国内的大模型基本上已经追上了。剩下的呢降低幻觉这事咱们就不谈了，反正有幻觉还是可以甩锅的事情。全面开源，这个是国内大模型真正卷的地方。千问直接把200多b的模型直接就开源出去了，Deepseek 600多b的模型直接开源出去了。这件事情我们在努力的往前走，所以各有所长吧。基础设施这块、数学科学这部分实在是费劲，大家就期待Deepseek来再创辉煌了，其他人就不管了。

Deepseek发R2这件事呢，其实传了两回。一回呢5月份，风起云涌。每一次说Deepseek要出R2的时候呢，都是风起云涌的时候，大家都在上新模型，说呀Deepseek你也得上，所以就会开始给他传这个事儿。

今年5月份，发生了一些什么样的事情呢？首先呢Claude 4、Opensource和sonnet这些模型直接出来了，王炸。5月份开谷歌IO，Gemini 2.5 Pro和Gemini 2.5 Flash直接发布，这个其实现在已经是我的主力模型了。GPT呢当时倒是没有什么特别大的动作，上了一个Deepseek 4.5，但是呢也没有引起特别多的响动。大家就说Deepseek你们也该来了。但其实呢Deepseek没有去出R2，而是把Deepseek R1的模型稍微的小步更新了一点点。

6月26日，the information就做了一个报道，说Deepseek R2原来计划是5月份发布的，但是呢因为梁文峰对于Deepseek R2表现的性能不是很满意，决定推迟了。路透社呢也引用了the information的这个报道，国内的媒体呢也纷纷去引用。但是这件事呢，并没有得到Deepseek官方的回应。Deepseek这个公司就是这样，他基本上不怎么回应大家的这个响动。你们猜吧，猜完了以后我也不理你，除非是有一些太过分的，否则他一般不说什么。

Deepseek呢也不是说没更新，就是做小版本更新。像Deepseek V3出了0324版，也就是2025年3月24号出了一个版，把分数又往上刷了刷。因为每一次去更新这些模型，一定要刷分数上去。代码能力，特别是前端代码能力呢，有所提升。拿这玩意写个网页没什么问题，但你说我要做一些大的架构，或者做一些这种后端的东西，可能就要稍微费劲一点。做算法的东西要费劲一点。为什么？因为它Deepseek有一个问题，就是它的上下文比较短，想去做一些大的架构上的东西，你必须上下文长，你得能把整个代码塞进去才行，这块还是要费点劲的。然后他把中文写作能力做了一些提升，Deepseek其实一直在努力的方向，就是中文推理。因为在海外的这些模型，很多都是使用英文推理，然后再翻译成中文的。他说我们直接用中文推理这个事，是不是OK？他们一直在努力干这件事情。使用体验上呢也有所提升，特别是function call更加准确了。在做AI agent的时候，其实核心就是function call的能力，就是我们先描述一堆的功能，然后交给大模型，大模型在完成整个的语言生成的过程中呢，去根据你描述进来的这些function，去决定我要调哪个、不调哪个，或者如何去调用、什么时候调用。Deepseek V3 0324呢，就在这一块做了一些增强。

Deepseek的R1呢，其实也更新了一个版本，就是0528。大家在传说Deepseek要出R2，讲的其实就是0528的这个版本。而这个版本呢，其把这个分又往前刷了刷，减少生成的一些错误信息。因为Deepseek最大的让大家无法忍受的东西是什么呢？就是胡编乱造，他太喜欢瞎编了。所以在这一块呢，稍微做了一些调整，但是依然胡编乱造的很厉害。Deepseek 210528呢，还支持了Json输出和function coding，提升了调用的准确度，但是呢不能叫R2。这就是5月28号的这个版本。

紧跟着就开始传说了，说8月15号到8月30号，要准备发布Deepseek R2了。这个消息是怎么来的呢？首先肯定还是要风起云涌一下。8月份发生了些什么事情呢？马斯克XAI的GROK4发布了，Anthropic又发布了Claude 4.1 Opensource，OpenAI发布了GPT5。GPT5这东西到底好不好使，大家各自去领会。大家可以认为说，GPT5是一个划时代的产品，但是也可以认为说，GPT5就是山姆奥特曼为了要去忽悠融资去搞的一个事情。因为GPT5出来以后，OpenAI的估值已经正式从3,000亿美金提升到5,000亿美金了，而且是孙正义要去买这个单，说您这5,000亿美金我认了，我去买去。

所以呢8月份风起云涌了。那么空穴来风呢，你这事怪不得别人。在Reddit上有人发了个帖子，这个帖子特别有意思，他说他去问了Deepseek R1：“Deepseek R2什么时候发布？”他等于是把这个东西交给Deepseek R1了。但是大家注意，Deepseek R1这个大模型呢，它并不代表Deepseek这公司的一些官方的观点，只是说这个模型给你生成了这样的一个结果。Deepseek R1回答了：“8月15号到8月30号之间发布。”而且号称呢是引用了雪球和东方财富等可信的信源，而且进行了多个渠道的证实。

Deepseek R1的幻觉其实一直都是很严重的，虽然经过0528的调整以后，但依然很吓人。而且Deepseek R1的最大幻觉是什么？就是编造可信的信源。说我从哪哪引用了，你点进去以后，压根就没有这篇文章。但是甭管怎么说，这个文章就在Reddit上就贴出来了，随后呢这个消息就逐渐的被传播和放大了。国内的很多的媒体、自媒体就开始引用这篇消息，特别呢是华为下边的一些科技媒体进行了转载。而且呢在标题里边还夹带了私货，讲的是什么呢？讲的是深度求索，就是Deepseek这个公司，“升腾芯片版本Deepseek R2预计在本月发布”。它讲的就是说，它是使用升腾芯片来去做训练的。

华为都说了，两大国运级产品强强联合了，那信吧，这事怎么办呢？国内一帮的媒体就冲上去说：“我们信了，确实是有这事了。”到8月14号，英国的金融时报出来报道，说升腾芯片拖累了Deepseek 2。然后动点科技、腾讯科技就出来辟谣，原引自公司内部人士，也就是Deepseek这公司里边的人说了，说8月份不会发布Deepseek R2。所以呢，8月15号到30号之间发布Deepseek R2的一个消息，实际上是Deepseek R1自己编出来的，其他人把这个编的信息信了，直接截了个图发到这个Reddit上，以此来发酵出来的一个过程。

那么Deepseek R2到底遇到了一些什么样的问题呢？首先升腾芯片确实是有问题的。升腾910C的这个芯片，虽然单芯片的算力在部分指标上呢，已经达到了H100的水平，但是呢显存的带宽不够，想从显存里调数据回来，速度是没有H100快的。而且最大的问题是什么？就是多个芯片之间的速度，就是我需要把数据在多个芯片之间进行流通的时候，这个速度是相对来说比较差的，而且差的很远。你要想去做同样的训练的话，你就需要更多的时间全功率的去运转。因为你想，人家都已经达到20万块H100这样的集群的规模再去训练新的模型了，你没准就是需要这个50万块或者60万块升腾910C串在一起，才能达到人家那个算力，而且你需要很长的时间去连续的运作，这个对于升腾910C的这种考验来说就比较大了。

这样的芯片，其实是没有办法长时间稳定地去运行的。并不是说训练一个模型，这头输入进去数据，过三个月去开盖看结果。中间每过一段时间，可以取得阶段性成果，再继续往下训练。但是中间这个过程呢，你是不能停的。你中间比如说准备了一批数据，你去训练了，如果这批数据没有训练完，升腾910C就直接冒烟了，就不干活了，这一波呢就白干了，你必须要从这个节点接着往后干。这个玩意有点像什么？有点像打怪升级，你一定要打死这个妖怪才能存盘，你没打死这个妖怪就不让你存盘。升腾910C在这块差一点。

那为什么差呢？升腾910C呢，是两个910B堆叠在一起的，散热肯定会出问题。就算是上了液冷以后，依然是搞不定这个事情。

其实同样的坑，英伟达也踩过。大家还记得H100独挑大梁好久了吗？很多人应该还是有印象的。甚至呢到现在为止，H100已经成为一种计量单位了。现在我们再去算说：“你这个算力相当于多少英伟达芯片呀？”我们都是以H100的这个算力作为一个计量单位的。就是因为H100挺长时间在那孤独一只。为什么它会孤独一只呢？本来计划替代H100的这个产品叫B100，叫Blackwell黑井100，这个芯片直接就跳票了。研究完了以后开了发布会，开完了以后，这个芯片压根就没有大规模的部署，也没有交付。为什么呢？就是他做的就是这种堆叠技术，导致散热失败。散热失败了以后会直接把版卡烧掉，这压根就没有办法去交付。到H200出来了以后说：“那这咱交付这个呗。”但是一开始依然是受困于散热问题，导致了大规模交付的延迟，一直到今年才开始去交付H200。

后面的工艺呢不断的进步，再加上全面液冷。H100这些机器是可以进行风冷的，你拿风扇吹它是OK的。但是到H200这个机器开始交付的时候，你必须是液冷。而且这种液冷呢，还不是种普通的液冷，叫完全浸泡式液冷。见过这种游戏主机装机视频的这些人，会知道他们那个液冷是怎么做的。他在芯片外面给你涂散热的胶，然后呢把这个液冷管贴上去，靠这个液体呢快速的把你热量带走到外边，再去找风扇把这个水给你吹凉了，再重新循环，它是这样来工作的。但是这种工作方式对于H200来说还是不行的，它必须是全浸泡式的，就是把整个的H200的芯片，或者包括它整个的板卡，一起泡在这个液体里头。这就肯定不是水了嘛，是一些不导电的水，整个泡在里头，才能够达到散热的这个能力。

当然了，甭管是英伟达也好，还是升腾也好，散热都是有问题的，导致什么呢？就是液冷概念股都涨疯了。你只要说我这公司是做液冷的，就赶快涨。而且现在都是浸没式液冷，就把整个板卡都泡里头。A股上强瑞科技、英维克、深林环境、飞龙股份，大概有十来家公司，都是专门做液冷的。飞龙股份是专门给升腾这个384超节点做液冷的。美股那边的话，有一个叫VERTIV的一个公司，它的代码是VRT，是专门给英伟达做液冷的公司，这个公司的股票也是涨的可好了。

讲回来，910C这个芯片连续的做长时间训练的话，液冷也压不住，直接把板卡烧掉。即使是有大量的华为的工程师坐在Deepseek公司里头，出来我帮你调，他也调不过去。实际上这些华为工程师能调什么呢？他们只能调一件事，就是CUDA里头没有实现的部分，我来帮你去实现一下。华为的这个升腾910C，他们使用的训练相关的代码的话，是华为自己开源的一套训练框架。这套框架据说是可以实现CUDA 70%的功能，但是还有30%你是实现不了的。那这一部分由华为的工程师到现场来搞定。再怎么搞，该冒烟、该着火、机器直接停摆，这个事它是解决不了这问题的。

另外一个传闻，DEEPSEEK R2出不来的原因是什么呢？是数据标注的质量跟速度不过关。这个呢也没有得到官方的证实，也是坊间在流传。因为在中国嘛，很多的数据肯定还是需要去审核一下的，这个审核的过程是相对来说比较麻烦的。

而且Deepseek呢，其实一直也是一个比较低调的公司。提前预热，不停的出来吹牛，这件事呢是容易翻车的。山姆奥特曼每次出来讲GPT5，说：“我太震惊了，我从来没见过这么棒的。”等GPT5发布的时候，大家说：“这就能让你震惊了？您到底是眼皮子有多浅？”马斯克在发布GROK4之前，也在说：“这是我所见过的最聪明的大模型。”也有人认为老马吹的有点过头了。

其他的公司都必须不断的发模型，跟着一起卷，不断的来吹牛，这个事是有原因的。为什么？因为这些公司是需要融资的。马斯克发GROK4发完了以后，马上就给XAI去融资。山姆奥特曼GPT5发完了马上融资，这公司直接值到5,000亿美金了，他现在已经是没有上市公司里头最贵的一家了。第二家应该是SpaceX，再往后是3,000多亿的字节跳动。但是大家注意，字节跳动的收入现在好像已经超过Meta了，这个是非常吓人的一个事情。所以这些人他有融资的需求，你就必须得不断的出来炒这个热点。不炒的话，你说我现在想提高估值，融资这事费劲了。而且现在Anthropic也在融资，而且是要按照1,500亿美金的估值要去融资，我估计他们后边的日子不是那么好过，现在他们的CEO应该已经奔中东，找中东土豪去给钱去了。

谷歌呢虽然不需要融资，但它后边有股市、有股价、有市值这些东西，所以呢不能落后，所以谷歌也必须要不停的推陈出新。实在做不出来东西呢，确实哪块也做的不太行，怎么办呢？你还可以像扎克伯格那样，表演抢人大戏这种行为艺术。我发2亿美金的薪水，我把人抢回来。虽然你的Llama4像屎一样，Llama再往后怎么走谁也不知道，但是看到你表演行为艺术表演的这么热闹的话，Meta的股价涨的也还可以。所以大家必须不停地去表演。

但Deepseek自己，他没有这种融资的需求，所以呢也并不太需要出来表演，自己踏踏实实做自己的事就好了。至于说他到底做成什么样，咱们也只能在外边来看。

大家有没有想过这样的一个问题：到底是谁家的芯片能够训练大模型呢？训练跟推理是完全两个不同的概念。训练你是必须要长时间高强度的工作，而且在中间是不允许停的。而且在训练的过程中，我们需要在更多的芯片之间进行数据的调度，更更大规模的这种协同。国内的这些算力服务器都搞不定这件事情，他没有办法说让这么多的芯片相互之间进行协调的情况下，这么长时间稳定的工作下去。推理的话相对来说要简单一些，可能只要几个芯片读出很少的数据来，他就可以把这事干完。比如说我们去提了一个问题，他给我们过了几秒钟做了一个反馈，反馈完了以后呢，他就可以再给我们分配其他芯片了。在这个过程中，芯片出现任何的问题，过热了或者说你对资源进行切换了，它是不影响的。所以呢推理咱们国内的这套系统是可以的，但是训练搞不定。

那么到底谁家的芯片可以做训练？英伟达这个必然是可以的。除了英伟达之外，还有哪些芯片可以进行大规模的这种模型训练呢？你说我这个芯片训练了一个10B的、20B的模型，这不算。或者说你说我这个虽然能够训练，但是我训练的模型从来没有人用过，这个也不算。现在唯一证实了可以进行大规模训练的，而且是训练这种大模型的，还被大家普遍接受和使用的，猜猜是谁？

很多人可能会猜是不是AMD？AMD MI300，或者现在应该是MI三百零几了吧，这样的一个芯片。不是他们。现在唯一的一个能干这个活的人，是谷歌的TPU。Gemini大模型是在上面训练出来的，Anthropic的Claude模型有部分声称是在TPU上训练的。除了英伟达之外就是他们了，再没有第二家了。

那老牌厂商像AMD、英特尔，号称我这个芯片是可以进行大规模的模型训练的，也给出了一些用他们的芯片训练大模型的实例，甚至呢还训练了一些不太流行的小模型拿出来去开源，但是他们训练出来的模型也没人用。AMD跟英特尔呢，一般大概也就是10B或者20B以内的这些小模型。另外一个呢就是富士通，富士通用一款ARM的CPU呢，也训练过一点可能也是10B以内的这种小模型吧，也没有听说过谁去用他们。

其他的一些ASIC芯片呢，也是号称自己能做。所谓ASIC芯片呢叫专用集成电路，像升腾、谷歌TPU呢都属于ASIC。亚马逊、阿里、百度呢，也都号称可以进行训练，但是呢没有实例。亚马逊号称是我拿自己的ASIC芯片呢，做了一些训练，也有几个模型，但是呢谁都没用过。OpenAI的模型，有些据说是在亚马逊上进行训练，但这个事呢，也没有得到最终的证实。百度呢是号称自己设计的ASIC芯片可以去进行训练，但是反正百度自己家的模型烂的跟屎一样，我们就不去评论了。

至于华为的升腾芯片呢，科大讯飞号称是在上面训练的。但是呢也有朋友跟我讲说，科大讯飞其实是在英伟达上训练出来的，只是呢对外宣称是在升腾上训练的，这个我们就不去做考证了。只是科大讯飞的模型，其实也没有那么普遍，除了一些教育领域里头有些人会去用，其他的让你自由选择的时候，很少有人会去选择用科大讯飞的模型。华为呢自己号称是在升腾模型上训练了盘古大模型，但是呢前面被内部的人指责蒸馏、指责抄袭，之后就不再有任何声音了。所以现在华为已经不再提他的盘古大模型这事了，估计是准备装一段时间的死狗以后，再次遥遥领先。所以华为的升腾模型，其实没有证实过训练成功过任何的大模型。Deepseek R2呢，应该是真的尝试过，但是败下阵来。

华为跟Deepseek官方呢，都没有出来证实，就既没有出来说我用了，也没有出来说我没用。所以呢升腾芯片，没有成功的训练出过任何一款大家普遍使用的模型。

那么国内的算力芯片是怎么样去竞争的呢？英伟达大概占54%，就一半多。升腾呢占28%，其实已经占的非常非常多了。像寒武纪等等其他的一些芯片公司的，所有的加在一起，可能还加上AMD的吧，一共占18%。这个大就是国内整个的算力芯片的一个分布情况。

国产的芯片呢，目前来看都是可以去做推理了，但是呢没有哪一个真的跑出来模型过。所以国内的算力芯片，基本上是没有办法做训练的。

现在呢还有一群的“赢学家”在鼓吹英伟达芯片里头有追踪器。但是这些“赢学家”呢，现在有点吹不下去了。他说呀：“这个英伟达的芯片里头，是不是在集装箱里装追踪器了？”还有人说：“是不是在包装箱里装追踪器了？”或者是说：“在服务器里边装追踪器了？”因为他们也知道，在这个芯片里头是装不上的。还有人说：“H20这里头肯定没有追踪器，但是呢H100、B200这个里头有追踪器。”这个呢都想多了。因为中国人是经历过挖矿的，我们是完完全全可以把芯片整个扒下来，重新拿新的版卡去焊。而且大量的，其实做英伟达版卡的公司就在国内，所以我们完全可以拿他的版卡，自己回来去加工这个事情。装追踪器这个事是没用的。

中国官方对于H20的态度呢，也很暧昧。有人就到外交部的新闻发布会上就问：“说你们是不是要准备禁售H20？”外交部的新闻发言人回答是：“没听说过这件事情。”中国的这些官员回答，一般都不会说是或者不是，通常回答是：“请你看以前的表态”，或者“请你看有关部门的表态”，或者说“我不知道”、“没有听说过”。所以他这一次的回答叫“没听说过”。

中国政府呢，也没有明令禁止说我们去销售H20或者谁去买这东西。但是呢潜规则就是这样去运营的。多家媒体，比如说Bloomberg、Marketwatch就做了些报道，说中国的监管部门针对H20芯片表达了强烈的不信任和谨慎态度，尤其是强调相关芯片可能存在后门的风险和数据隐患，建议企业回避在政府或敏感用途使用H20。所以呢这些H20可能最后去做训练就完了，推理的这块就通通交给国内的升腾384超节点就OK了。

还有报道说字节跳动、腾讯、百度等企业被召集，这些人是准备去买H20的。国内的有关部门把你们都召集一块说：“你们为什么要买这东西？买多少？”给他们开这样的会。监管侧重国家安全与网络安全审查，并未提出商业禁令，就是我们还是让你买，但是你买之前呢，我们得把你拎来稍微恶心恶心。所以现在都约谈过了。

总结一下吧。Deepseek R2呢确实是难产了，肯定的没有出来。国内的算力芯片目前呢，也无法进行大规模的模型训练，可以进行推理这个事没问题了，但是训练搞不定。20万块H100量级以上的大模型训练，国内很难突破。如果20万块串在一块可以训练大模型的话，我们可能至少需要40万块或者50万块，比如像升腾910C这样的芯片凑在一起，而且我们所需要消耗的电和时间，可能都是要呈几何级数上升的。因为我们卡之间的联通的速度是相对来说比较慢的。所以比如说H100，它也不是说一直就不坏，它可能工作个20个小时或者是40个小时都会坏一次，会出现问题，对于老外来说就可以去接受了。对于我们来说呢，我们可能要求要连续坚持500个小时不出问题，才能够回收回来数据了，因为算的慢嘛，真的达不到。大概就是这样的一个情况。

国内算力卡的这些供应商呢，很有可能会阻碍中国大模型的进展和训练。为什么呢？自己做不好，你又不让别人买H20，可能中国的大模型再往下一步走，就会变得非常非常困难了。

未来国内算力卡是不是可以训练大模型呢？反正一两年之内呢稍微有一些困难吧。国内的大模型到底能不能用呢？基本还是能跑的。高深的数学、科研研究、物理学或者这些基础学科，我们不去研究了。就是让你去做一些信息整理，现在国内大模型基本上都是可以用的。

还是稍微耐心地等待一下Deepseek的慢慢发展吧，它反正中间只要不需要融资，它也不需要出来吆喝，万一有惊喜呢？这个也不好说。这就是我们今天要讲的故事。

GPT 5发布之后，Sam Altman的油管儿访谈：GPT-8将在2035年治愈癌症？GPT-5只是开胃菜！AGI路线图、未来社会与算力战争全揭秘。

Luke Fan — Fri, 15 Aug 2025 00:50:04 +0000

在GPT-5发布之后，山姆·奥特曼在采访中都说了点什么呢？

大家好，欢迎收听“老范讲故事”的YouTube频道。

山姆·奥特曼这个采访呢，是8月8号做的，应该是在8月9号咱们这边能看到的。那为什么隔了这么久才去说这个事呢？这几天玩GPT-5玩得还是蛮开心的，所以呢就耽误了。今天跟大家讲一讲，山姆·奥特曼接受YouTube大V采访的时候，都说了点什么。

这个YouTube大V呢，叫Cleo Amber，这真的是大V，642万订阅。像我这个刚刚突破7万订阅的人，好好膜拜一下。这位大V呢，是专注于科技与科学领域的乐观解读。一定要注意，有悲观解读的，就是上来“世界要毁灭了”什么的，这位是专门讲乐观解读的。

整个的访谈呢，是一个小时零5分钟，6天的播放量260万次，远超过这位大V平时的视频播放量。他平时视频大概有210万次播放，其实也是非常高的了，因为他640万的订阅，每一次的视频如果有30%，也就是200多万的播放的话，那是非常非常高的。

以上数据由GPT-5搜集。我就直接问说：“山姆·奥特曼接受谁的采访了呀？这个采访是哪天的呀？播放数据是什么呀？这个大V是什么领域的呀？他有多少关注？这一次播放的数据，跟平时播放数据比起来，有什么样的变化呀？”上面就是GPT-5给我的一个结果，所以呢GPT-5确实还是很强的。

首先呢，讲到的是GPT-4o让人怀念。其实我也挺奇怪的，为什么很多人去怀念GPT-4o？我自己其实GPT-4o用得非常非常少，在GPT-5发布之前，我在ChatGPT网页上使用的最主力模型其实是GPT-3，就是推理模型。但是很多人怀念GPT-4o，GPT-4o被回收了以后，一堆人要求说：“不行，你必须把它弄回来！”还有很多的人在社交媒体上去请愿，导致山姆·奥特曼第一时间把GPT-4o给恢复了。当然，只有付费用户才可以使用GPT-4o，你不是付费用户，您就使GPT-5就完事了。

原因呢也很简单，山姆·奥特曼讲的是说，大家还是把GPT-4o人格化了。就是你习惯了跟这个人去聊天，相当于是你原来雇佣了本科毕业的一个大学生，你跟他聊了两年多，已经都完完全全适应了，也甭管你喜不喜欢吧，这就是你身边已经陪伴了你两年多的一个人了。现在公司里把他开掉了，换了一个博士回来，而且这个博士呢，说话还比较生硬，大家就觉得非常不适应，必须要把原来我习惯的GPT-4o给我弄回来。

机器人一旦人格化，或者我们叫AI助手吧，一旦人格化了以后的话，里边有很多的细节的东西，其实很难把握它到底差在什么地方，但你就是觉得说话别扭。而且呢，人也习惯性地把这种朝夕相处的东西进行人格化，甭管是你养的宠物、比如说汽车呀，或者家里有一些家具，你使用时间长了以后都会人格化，更别说是像ChatGPT 4o这样的一个可以不断地跟你聊天沟通的这种AI助手了。我到现在还记得特别清楚，小说《间客》里头，他有这么一个桥段：一个AI在做了很多事情以后，最后决定牺牲自己。牺牲自己之前呢，他说的最后一句话是：“请记住我叫菲利普。”他开始有名字了，而且要求你记住这个名字，这个过程就是一个人格化过程。Anthropic的CEO其实也说过，人们喜欢AI其实并不是喜欢AI的能力，而是喜欢他的性格。所以现在4o离开了以后，大家会觉得非常非常痛苦。

主持人呢也问了山姆·奥特曼，说到底有什么事是4o干不了，5才能干的事呢？山姆·奥特曼说，这个5真正能干的事呢，就是可以快速地解决复杂的科技问题，其他的其实并没有那么大的差异。

我原来参加过一次这种领导力培训，当时呢有一个案例：文字能够表达的信息，其实是语言的很少一部分，因为语气、语调会表达很多的信息。当然，作为一个文科生的老师给我们讲课的时候就告诉我们说，文字表达20%，语气语调表达80%。同样的话，你换一个阴阳怪气的方式去说，它就是表达另外一个完全不同的意思了。表情、动作、肢体语言再占80%，所以呢文字实际上面对面沟通过程中所占的信息量可能4%，就是文字在沟通中所表达的信息含量是很低的。但是呢，你想我们在跟GPT-4o沟通的时候，我们就是用文字在进行沟通嘛。即使是纯文字沟通的时候，文字与文字之间依然会隐藏很多小细节，这些细节构成了GPT-4o的性格，或者说构成了与我们一起聊天的这个GPT-4o的性格。因为GPT-4o是收集了非常多的我们个人的喜好，以及我们的长期记忆吧，把这些东西凑在一起了以后，它会慢慢地跟我们逐渐地习惯起来。这个东西突然换掉的话，大家会觉得非常不习惯的。

那你说我们现在有一个博士级助手，有什么不好的呢？他可以解决复杂的科学问题了。其实大家想想，到底有几个人需要去解决复杂的科技问题呢？没几个。我们自己大多都不是博士，也没有指挥博士干活的这种经验。你说今天给我分10个博士生，可以指挥他们干活了，你让我看着他们干嘛呢？大眼瞪小眼吗？其实这个对于大部分普通人来说是没有意义的。我呢，跟博士们是一起工作过的，他们呢其实通常会有一项技能，就是如何跟我这样的普通人进行沟通。当然有些博士呢，这个技能学得不是很好。GPT-5这种新的AI助手呢，如何跟普通人进行沟通的技能，就属于学得不是那么好的，所以大家觉得不是那么舒服。

再往后呢，山姆·奥特曼讲，到了2035年，AI呢就可以治愈癌症了。到那个时候大概是GPT-8。大家算算，咱们今年是2025年，到2035年呢要涨到GPT-8。GPT-4o涨到GPT-5呢，是用了两年多的时间，GPT-5要涨到GPT-8要用10年的时间，基本上呢是两三年一个版本，大概是按这样来算的。那说到GPT-8的时候呢，AI就治愈癌症了。怎么个治愈法呢？首先，我们要下命令，这块呢还跟现在是一样的，GPT是不能自己主动地产生意愿的，一旦它主动产生意愿的话，那人类就危险了。所以我们还是要下命令，说：“你要去治愈某种癌症。”

再往后呢，GPT呢会先读遍所有现在的研究和数据，给出一个治疗思路来，这件事情就已经超越人类了。人类到目前为止，没有哪个大聪明说，我可以把所有的现有的研究和数据都读一遍。这个GPT-8要做一些现在GPT-5做不了的事情，它要干嘛呢？找个实验员做9个实验，它要去设计实验，说：“你把这9个实验给我做一下。”然后把结果汇报给GPT-8。比如说等待细胞培养了两个月了，实验员呢也把这个结果汇报给GPT-8了。这个时候呢有一个意外的发现，好像有一个实验数据呢不是很精确，“你要再去给我做一个实验。”实验员再去给他做。等把所有的实验结果都收集回来以后，验证了他的一些猜想，这个时候呢去合成这些分子，在小白鼠身上做测试。如果测试有效，再去做人体实验；再有效的话，到美国的FDA去审查一下；没毛病的话，这个癌症就被治愈了。他大概是讲了这样的一个过程。

当然，这个呢还是现有的一个医疗管理体系，可能对于未来的AI来说并不一定那么适用。但是呢，它通过这个过程告诉了我们，未来的AI要向哪个方向发展：可以自己设计实验，命令人做完实验以后把数据收集给他——当然未必是人，有可能是机器人把数据回报给他——再根据结果再设计新的实验，再去收集数据。这是未来的方向。但是未来可能不会说真的像他说的这个方向去走，小白鼠实验、三期临床做完人体实验以后，去汇报FDA，再去这个给人去使用，可能未来就不会是这样了。因为你一旦是到FDA这边汇报完了以后，就一定是说这个药物给大多数人使用是有效的，但是未来有可能是什么呢？就是每个人会有一种自己的药。我得了一个什么病，你去给我治，他最后做出来那个药，就只有给这一个人吃有效，至于给其他人吃有没有效就不一定了。因为以前都是做双盲测试，最后靠统计来去确定哪个药好使、哪个药不好使嘛，未来的话可能就不是这样了。这个咱讲远了，这不是人家山姆·奥特曼说的，后边这段是我说的。

再往后呢，主持人就问他说：“2050年工业革命可能十倍爆炸，谁会受伤呢？”山姆·奥特曼说了一个特别有意思的话：“我们需要一种不同寻常的谦卑，去开放地考虑那些不可能进入公共讨论范围的新方案。”这个话其实大家仔细琢磨琢磨，是非常非常恐怖的。什么叫“不可能进入公共讨论范围的方案”呢？就是我们要打破现有的社会组成结构，甚至是说我们不能够再像现在这样去思考什么人权问题了。《未来简史》里边就讲过说，哎，以后会产生大量的无用阶级，只有少部分人是创造财富的，大量的人就成为无用阶级了。以前大家讲人权的原因是，我们要让每一个人去工厂里边打螺丝，到战场上去拉栓开枪，以后不需要这件事情了，只有少数人他们把这个事情搞定，剩下人就没用了，那为什么还要跟他们讲人权呢？当然，山姆·奥特曼是不是讲到这么远了，咱们不管他，他没准说我们给每个人发钱，把这些人养起来就完了，还是说想到了一些其他东西，我们就不知道了。但是他这句话已经告诉我们，未来的社会形态可能跟今天完全不一样。

然后呢，他提出了一些愿景。最好的方法，就是让AI算力尽可能地丰富而且廉价，多到用不完。如果做不到，未来或许人类真的会因为算力爆发战争。咱们现在还在跟美国人商量，说：“你这个芯片到底卖不卖给我呀？卖给我的时候是怎么收税还是怎么弄？”现在还在跟这事费劲呢。国内还有一帮人说AI芯片里头有后门，我估计是一些集装箱和一些服务器的框架里头会有一些定位系统，但是这种芯片我们都是可以把它拆下来的，把拆完了以后重新到新的板卡上去使用，到新的服务器里边去使用，这个都是没有意义的。咱们国内现在还在妖魔化英伟达芯片，所以到底会不会因为算力爆发战争呢？稍微有点紧张，小摩擦，不希望向这个方向发展。所以呢，山姆·奥特曼讲了说，关键的问题在于该怎样分配这些AGI的算力，或者说谁会有权利去分配这些算力。现在呢，他们肯定希望说美国应该有权利来分配AGI的算力，但是肯定有非常多的国家，包括中国在内，都不希望说以后算力的分配是归美国来管的。

然后主持人问了一个问题：“今天的应届毕业生是不是会很麻烦？”因为现在甭管是在美国也好，或者中国也好，毕业生毕了业以后找不到工作，是不是会出现这样的问题？山姆·奥特曼给出的回应呢：“今天的应届毕业生，应该是史上最幸运的一代。”说为什么呢？说AI呢可能会导致很多岗位的消失，但是呢，也很有可能会出现许多完全意想不到的新职业。这个是他提出的一个设想，说有人呢可能会直接执行探索太阳系的任务，乘坐宇宙飞船去做前所未有的工作，既高薪又有趣。说到那个时候的人，也许会为今天我们感到可怜，因为我们所从事的工作是那么的无聊，那么的落后。这点呢我倒是认同的，我们现在去回想说几十年前大家在做什么——在种地、修机器或者是打铁什么——就会觉得这个事好无聊、好累。现在你告诉年轻人说你去打铁，或者你去种地，年轻人可能都不爱去干。可能未来的年轻人开着宇宙飞船去太空中探测太阳系去了，他们会觉得我们这些程序员、我们这些码农干的事情好没意思，怎么这么无聊、这么累呢？他说这可能是未来的一个前景。

当然，我呢有一点点跟他不一样的看法是什么？就是并没有那么多人真的会去开着宇宙飞船探索太阳系，未来可能更多的人是在虚拟世界、游戏世界中创造文化价值和娱乐价值，通过这样的方式让GDP继续上升，让整个社会的财富继续上升。为什么？因为我们没有那么多的实体的工业或者实体的事情让他们去做。想要适应快速发展的这些科技，我们必须从虚拟的世界里头找到新的价值。这可能是我跟他不是那么一致的观点。

所以呢，山姆·奥特曼并不担心年轻人，他们往往是最能适应这种入门级工作完全消失的变化。反倒是那些62岁即将退休，又不想学习新技能的人更令人担心。所以大家还是好好学习新技能，甭管多大岁数了。

再往后呢，山姆·奥特曼对未来提出了一些指导，未来要怎么去发展，同时呢也没忘了再去怼了一把埃隆·马斯克，这个是永远不能忘的。他呢讲到说未来的发展是四样东西：算力、数据、算法和应用。说要在这四个方向向前发展。

首先是算力。算力呢，第一个基础是电力。美国人未来到底怎么把这电力问题解决，他也没有说出个所以然来，因为中国现在甭管是发电量还是用电量，都是美国的好几倍。对于他来说，未来到底怎么解决这个问题也需要去思考。因为呢，这种自由市场经济，要求资本家超前地去进行电力设施的部署，还是有一点点小难度的。再往后是卡，就是算力卡，它呢将进入下一个数量级的时代。现在大家玩的算力卡都是几十万块，马斯克10万块、20万块、40万块，Meta 50万块、60万块，可能到百万级的也就是微软，谷歌也许到了吧，现在我不太确定它到底是有多少，因为谷歌买的呢不是这个英伟达的卡，它是自己做的TPU，TensorFlow的处理器。未来的话就会进入到百万级和千万级的这个算力卡时代。现在马斯克也好，山姆·奥特曼也好，都在去做几百万张算力卡的算力中心的一些规划，这可能是即将到来的一个新的算力时代。

再往后呢是数据。数据这件事情呢，就是模型需要学习那些在任何现有数据集中都不存在的东西，他们得去发现新事物了。因为现有的数据其实已经被AI消耗干净了，我们已经把能够找到的数据都拿去训练AI了。用大模型去做再生数据的话，效果又不是特别好。那怎么拿到新的数据呢？只能是让AI自己学习，自己去做实验。就像山姆·奥特曼去讲的说AI怎么去治疗癌症，这个过程是一样的。它要提出假设，然后要去做实验，收集到新的数据，再拿这些数据去训练新的模型。这个是未来解决数据问题的方向。所以呢，山姆·奥特曼也讲了，提出假设、做实验、根据结果更新认知，大概率OpenAI也要沿着这个思路前进。这就是AI未来的发展方向。

算法，这个呢是山姆·奥特曼最自豪的部分，一直认为OpenAI在这一块遥遥领先，所以他也没有讲到说这个算法未来要怎么做，反正那个意思，我算法最好，你们跟着我走就完事了。

至于应用呢，就是真正下一步需要竞争的地方。说我们下边要去做的事情叫产品化，仅有科学突破还不够，必须把它交到人们手里，让它和社会共同进步，形成反馈回路。因为AI应用这个东西跟普通的应用还不一样，用的人多了，他才可以收集到更多的数据，才可以继续去训练更好的模型。你如果说用户量不够多的话，你就没有办法收集更多的数据，你在竞争过程中就会失败。当然，这个里头呢就必须要阴阳一下马斯克了，说我们不会在应用中加入性感的机器人头像的。Grok为了让更多的人使用，在iOS和安卓的APP里头加入了很性感的这个机器人头像，不光是有头像，还有很性感的声音，吸引很多人去使用。他说这个跟我们的思路是不相符的，我们不会干这个事儿。

最后呢，主持人问了一下，说：“AI会不会毁灭人类呢？”山姆·奥特曼这个解答呢，我是非常喜欢，在这分享给大家。说AI呢有99%的概率会极好，有1%的概率呢会是灾难。山姆·奥特曼要做的事情就是把99%往99.5%推，因为最后谁也没有办法完全去避免灾难的发生。作为OpenAI这样的公司的老板，我们尽量让发生灾难的几率下降就可以了，也不能说因噎废食，说因为有1%的可能性会产生灾难，我们就不要99%的结果了。他就是说，我们不断地让产生灾难的概率下降就可以了。

总结一下吧。下一个方向已经明确了：大模型可以自己提出假设、自己做实验、自己验证并自我学习的东西，就是AGI了。在GPT-5发布的时候，山姆·奥特曼也说了，说现在的GPT-5距离AGI只差一点了，加上自我学习以后就是AGI了。新的时代来了，新的机会也将快速涌现，现在的年轻人应该是最幸福的。AI会不会毁灭人类呢？先有了AI再说吧，没有AI之前，大家也不用在这瞎猜。

好，这就是咱们今天讲的这个故事。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

GPT-5 发布！是革命还是挤牙膏？深度解读AI竞争新格局！AI价格屠夫来了！开发者和创业者的黄金时代开启？

Luke Fan — Tue, 12 Aug 2025 00:51:22 +0000

大家好，
欢迎收听老范讲故事的YouTube频道。
今天咱们来讲一讲GPT-5发布了，到底是又一次划时代的革命，还是开始挤牙膏了呢？

8月8号凌晨开的发布会，我呢看了一眼就去睡觉了，实在是没有功夫把它都看完。北京时间凌晨1点开始发，我今天看了一下回放，大概是一个小时十几分钟吧，但是我并没有特别耐心地把它们都看完。

GPT-5到底有什么不一样的呢？

首先，这一次的发布会跟OpenAI以前的发布会，有一些巨大的差异。第一点大家有没有注意到，就是这次发布以后呢，没有出现服务器拥挤宕机的情况。以前甭管是Sora呀，还是GPT-4o这些产品发布的时候，紧随而来的都是OpenAI的服务器拥堵宕机。这次没有，第一时间就可用，免费版也可以使用，速度还挺快的。我自己反而感觉速度还可以，应该呢是进行了一些实时的算力分配，简单的问题就没必要消耗那么多的算力。原来呢，大家都是要尽可能用最大的模型，你哪怕问一个“你好，今天天气不错”，他也得把那个最大的模型跑起来。现在的话应该就不需要干这个事了，他发现你去问“你好，你是谁，你到底是哪个版本”的时候，他可能做一些很简单的回复，消耗的算力就比较小。这是第一个比较大的差异。

第二个比较大的差异是什么呢？这一次没有哀嚎一片。原来OpenAI每次开发布会以后，通常都是哀嚎一片：“完了，我们创业白创了，做的事情被OpenAI覆盖了，创业公司天塌了。”这次还好。那这个是不是代表着OpenAI就开始挤牙膏了呢？还是说恰恰是一个新时代的开始呢？服务器也没崩，说明他肯定是有一些算法的优化在里头，但是是不是大家也没什么兴趣？另外一方面，没有哀嚎一片，是不是他也没做出什么东西来呢？咱们要去看一看这个问题。

除了GPT-5发布之外，还有一个很重要的新闻是什么？说马斯克在那说风凉话，有人在那尬吹，有人在那开骂了。跑分呢，其实是必不可少的。GPT-5这样的东西出来以后，必然要跑分，但是现在大家对于跑分也没有那么重视了，因为跑分好的这个模型其实未必好使。在这个里头有两项跑分呢，没有跑过Grok-4，就是马斯克自己的模型。马斯克就出来发了一个X，说“Grok-4 Beats GPT-5 on ARC-AGI”，在这个测试里头我们把它打败了。

ARC-AGI是一个什么样的测试呢？它呢是常识推理和复杂问题解决能力的一个测试。模型呢找到类似于大学入学考试难度的问题，让AI在有限信息里头进行推理，得出答案。就是做这个测试的时候呢，是不可以联网的，不可以调用工具，必须是使用模型本身的能力去做测试。它呢偏向于测模型的思考能力，而不是背诵搜索信息的本事，对于AI的生成推理挑战更高一点点。在这个里头呢，GPT-5是怎么输给Grok-4的呢？GPT-5呢使用的是GPT-5 BASE模型，它的正确率是9.9%，而Grok-4呢使用的是Grok-4 thinking模型，就是思考模型，它的正确率呢是15.9%，足足高了6个百分点。

但是大家注意了没有，这里头好像有些细节不对。GPT-5使用的是base基础模型，而Grok-4呢使用的是思考模型，thinking模型。那你说如果GPT-5使用thinking模型，或者是thinking Pro的这个模式，是不是能够反超呢？这个不知道。为什么呢？thinking模式肯定要比这个base模式消耗更多的算力和TOKEN，它有更高的正确率，它是合理的。马斯克是不是作弊了？也不能这么算。为什么呢？因为他这个测试的要求呢，是不可以调用外部工具，要依赖自身的能力完成测试。对于是不是要使用thinking模式，或者是不是要进行多步推导呢，这个测试本身并没有要求。你愿意一步到位，还是愿意多步思考，这些都没毛病。那你说是不是GPT-5高风亮节一下，我就测一下base模式一步生成？也没那么夸张。这个原因其实挺简单的：GPT-5的thinking模式和thinking Pro的这个模式，默认是要调用外部工具解决问题的，关不掉。所以它只能用base模式来参加这个测试，如果用了thinking，你就调用外部工具就作弊了。Grok-4呢，它是可以在不调用外部工具的情况下进行推理的，所以呢Grok-4它也没有作弊。但是要注意一点，你不调用工具直接去thinking，直接去进行推理的话，在现实工作中意义不是很大，就是我们完全靠模型自己的能力去推理，现实工作中一般不干这个事。

那么这是一项。另外一项Grok-4比GPT-5高的测试是“最终人类测试”。在这个里头呢，GPT-5 Pro，也就是最强的这个版本，答对了42%的题目；而Grok-4 heavy，也是最强的版本，答对了44.4%的这种题目。这个呢就没什么好说的，火力全开，都是用的最大的模型，工具链武装到牙齿，不计成本的情况下，Grok-4呢还是要稍微高出一点点，高2.4%的一个这样的一个比例。所以呢，在一些特别难的情况下，或者说进行深度思考的时候，Grok-4做的还不错。

那GPT-5到底更新了点什么东西呢？

第一个，统一大模型，不再需要选来选去的了。原来我们需要选GPT-4、GPT-4o、GPT-3…一大堆的东西我们要选，选完了以后还要进去选，说你是给我画画，你还是给我做其他事情，你要去选半天。现在呢就不需要了，你从统一入口就进来就可以了。当然了，它可以选择GPT-5和GPT-5 thinking，或者是GPT-5 thinking Pro。当然Pro呢，你必须要200美金的账号才可以选。但是你说，哎，我就选GPT-5了，我也没有去点击thinking，没有强制他使用thinking，这个没问题，该思考的时候他就会进入思考模式。而且呢，他发现你在跟GPT-5聊天的时候，进入思考模式是不计次数的。不计次数什么意思？待会收费的时候去详细讲这个东西。Pro版本，你没有200美金的这个账号，你就别用了，跟我这种Plus用户关系不大。通过API调用的时候呢，并没有一个模型叫Pro，通过API调用的时候就是GPT-5、GPT-5 mini、GPT-5 Nano这样的几个模型，然后自己选择消耗多少thinking的TOKEN就可以了。你进去的时候，你去选说我现在是深度思考一下，还是简单想一想，还是说拍脑袋就来，你自己去设计好。

GPT-5的上下文是256K，比Gemini还是短。Gemini 2.5 Pro的上下文是一兆，就是100万TOKEN，要比它大四倍，还是很强的。但是呢，也别羡慕这东西。当你向GPT里头去输上下文的时候，少于200K是一个价格，超过200K是另外一个价格，输的多以后要单独加钱的。

现在呢，GPT-5也不再区分各种功能、工具、任务，都不再管了。虽然有选择的地方，你还可以选说我现在是不是到canvas里头去做一些后期的编辑，还是说给我画画。但是呢，如果在聊天上下文里头，你直接告诉他“给我画画去，给我去做什么编辑”，它就直接过去了，你不需要再单独靠菜单去选择这个事情。

生成代码极其强大。这个事呢怎么说呢，我今天试了试，我觉得它生成代码还是有待提高的，特别是有的时候代码的格式、缩进什么的还有点小错误。现在呢，Anthropic的Claude一直是程序员最爱的模型。这里的话，OpenAI也做了一个很骚的操作，他呢把Cursor的CEO拎来了，说：“来，你给我演示一下GPT-5很强大。”这小伙子坐在那演示，说这个绝对是太强了。Cursor原来里边主流的模型就是Anthropic。为什么他跑来给OpenAI站台呢？因为最近Cursor跟Anthropic闹得不是特别开心。两个Anthropic Claude code的核心开发离职加入了Cursor，但是呢只在Cursor干了两个礼拜以后呢，又回Anthropic继续去开发这个Claude code去了。反正这种事搁谁身上谁都不会太爽。现在呢一群的程序员都在测试GPT-5的编程能力到底怎么样，这个效果呢还可以，但是我个人感觉距离Claude 4 sonnet还是稍微有一点点小差距，有待提高。

继续往前发展呢，跑分其实已经意义不是很大了。因为很多考试成绩很好的人，未必能够干的好活，更别说招人喜欢了。有一些人就是特别会考试，但是呢你跟谁聊天，跟谁去合作，大家都烦他，这种人是存在的。Anthropic的CEO曾经在很多个场合强调过一个事儿，说人们倾向于使用某个AI，不仅仅是因为其性能指标，而是因为其人格和性格特质。他认为AI的人格特质直接影响用户使用的体验和信任感。这个我是比较认可的，就很多人喜欢使用Claude，还是说Claude的整个的人格是比较讨喜的。

现在呢，GPT-5说：“我们也改进这件事吧。”原来呢GPT-4o的时候呢，会有这种讨喜型人格上来去夸你。现在说我们把这事改掉了，已经没这事了。现在呢是推了五个人格，你可以在五个人格里自己选。第一个是默认人格，上来你不用改它，叫“乐观灵活”，这是它的特性。第二个叫“挑剔者人格”，犀利毒舌，就经常骂你这种。第三个呢是“机械人格”，就是高效直言，上来以后有话我就直说了。还有“倾听者人格”，善解人意，如果有人需要诉说一下，你改成倾听者人格。还有一个叫“技术宅人格”，就特别热情，而且呢喜欢去刨根问底。这个人格还可以有一些更复杂的选择，它有一些属性你可以去选择去，包括：健谈、诙谐、直言不讳、鼓励性、z时代、传统型、前瞻型、思维有主见、谦虚、俏皮、直接、务实、企业、打破常规、同理心。你说上面这个5个不能满足我要求，你可以在下边挑一个自己最喜欢的。当然还有一些特殊的信息，你可以直接在里头写，比如说我这个人喜欢什么东西，不喜欢什么东西，下次他再跟你聊天的时候，会注意这些事情。这个是我觉得GPT-5一个比较大的提升吧。

另外一个比较重要的提升是什么呢？就是极大的降低了幻觉。AI哈，一本正经地胡说八道，就是他们最擅长做的事情。但是现在的话，GPT-5说我们已经把幻觉降低了30%-40%。所以呢，现在GPT-5的各种答案相对来说是比较靠谱了。我原来集中在使用Claude 3模型，觉得已经是比较靠谱了，至少比国内能够拿到的模型，或者像Grok、Gemini 2.5 Pro，比这些模型还是要靠谱一些的。那么现在的话，它在Claude 3的基础上再降低幻觉30%-40%，那我觉得这个已经是可以去做一些严肃的工作了，包括医疗健康，还有法律相关的工作，拿它去上手已经没毛病了。

然后安全上面呢，还是很严格的。这个是我不太喜欢OpenAI的一点，就是它道德制高点，我该干什么，不该干什么来它决定，这个事我是不喜欢的。这一次呢稍微做了一些变通吧，就是说原来你触碰红线呢，就直接告诉你说“对不起”，停止工作了。现在呢你触碰了红线以后呢，他还会尽量说点什么，不是直接就应声地给你停掉了，“我绕一下看看，我能够给你回答点什么，过线那部分我就不说了”。但是在这点上呢，我是站Grok这边的，Grok基本上还是百无禁忌的。

那么下边呢，谁能用？多少钱能用？我现在在网页上已经能用了。在这个网页端，现在我们已经不可以再去选择GPT-4、GPT-4o什么Claude 3都没有了，现在就三模型了：一个是GPT-5，一个叫GPT-5 think，还有一个叫Pro。Pro就是你点击了以后，就找你要200美金去了。大概就这三个模型可以选了，其他模型都直接隐藏掉了。这个是我现在的一个状态。

现在呢，免费用户也可以直接用，5个小时可以问10条，超过了以后就降级到GPT-5 MINI，这个比较小的模型去了。他们每天还可以用一条thinking，每天有一个额度。但是要注意，当我们使用GPT-5模型问了一些问题，GPT-5自己认为需要去推理的时候，这个时候是不占这条thinking的这个指标的。所以呢，我们在跟GPT-5沟通的时候，要更努力地去把这个问题提清楚，让他不要占我的指标，直接把该思考的问题给我思考清楚。大家需要技巧一点。当然了他设置这种技巧也是不怕大家去薅羊毛的。为什么呢？就是胡乱地去问一些简单问题，其实对于OpenAI来说是一个很重的负担。但是你说我每一个问题都三思而后行，想了半天再往里提，哪怕他thinking了一下的话，对于他来说这个负担都还是可以承受的。

那Plus用户，像我这样的用户呢，每三个小时呢可以使用GPT-5 50次，超过的部分就退回到GPT-5 MINI了。thinking模式呢是每周200条，估计基本上也够我使了。Pro用户，就是200美金用户，基本上就都可以用了，专门有一个Pro的模型是给它用的，其他的呢基本上是没限制。

但是呢，在这里要跟大家讨论一个问题，就是对于Pro用户来说，这200美金到底买的是什么？难道Pro用户的消耗量真的是Plus用户的10倍吗？不是这样的哈。山姆·奥特曼曾经自己发过X去抱怨过这个事。他抱怨什么呀？Pro订阅让他们亏了好多钱。为什么呢？这个原因很简单，你一旦花了这个200美金以后，你就肯定说：“我不能让他闲着，我一定让他干起来。”就跟原来甲方乙方的电影似的，大骡子大马们得让它活动起来，不能让它闲着。山姆·奥特曼自己写了两条推，一条呢叫做：“疯狂的事，我们目前的OpenAI专业版订阅上亏损了，人们使用它的频率比我们预期的要高很多。”另外一条说：“我亲自定了价格，还以为我们能挣点钱呢，最后发现亏钱了。”

这两句话呢，其实告诉我们一个什么？就是200美元这个价格，并不是一个经过财务人员精确计算出来的，而是山姆·奥特曼拍脑袋拍出来的一个价格。Xai也有这样的一个套餐，叫superGrok heavy，300美元一个月。Anthropic呢，有一个套餐叫Anthropic Max，是100美金到200美金的一个月。因为我没有用过Grok的套餐，所以它这个为什么是100美金到200美金，我不是特别了解。谷歌AI的Ultra也有一个套餐，基本上250美金一个月吧。大家到底为什么要去设这样的一个套餐出来？真的是说有大量的TOKEN需要消耗，有大量的算力需要消耗，我需要回点血吗？其实压根不是那么回事。

大家注意，免费版是没有忠诚度的，我今天用你两天，明天用他几天，这都没有忠诚度。Plus版本呢其实还是可以朝三暮四，我买两三个都还是承担得起的。但是Pro、heavy、Max、Ultra这样的版本，你一旦买了200美金、300美金、250美金这种，买了你就一心一意地用吧。所以呢，大家去买这种Pro版本的，其实买的东西是一个叫“投名状”的东西，就是我把我的这个身家性命交给你了，以后我就在你家老老实实干下去了。他要求的是用户去交这个投名状，而不是说真的拿200美金就可以cover成本了，这是200美金的这种套餐设立的一个目的。

再往后讲呢，你说今天他亏了，难道一直亏下去吗？也不至于。因为TOKEN的成本呢，是在快速下降。20美金、200美金都是一种用户绑定的手段。现在亏钱，以后是不是能挣回来呢？未必，以后也未必能挣得回来。那为什么呢？TOKEN成本下降的是一个速度，但是呢我们通过使用agent，通过使用工具，也在快速提升TOKEN消耗量的速度。到底哪个更快？现在不知道。可能TOKEN现在价格是原来的1/10了，但是呢我们现在使用的TOKEN量是原来的100倍，至少最近这一两年吧，是这样的一个变化趋势。过一段时间以后，是不是TOKEN成本下降的这个速度可以追上TOKEN消耗量上升的速度？有这个可能，但是市场目前还没看到。

那咱们再讲一讲API的价格。GPT-5的API价格是极具竞争力和压迫感的。GPT-5 BASE模型，基础模型，100万TOKEN的输入输出分别是1.25刀和10刀。输入100万TOKEN是1.25刀，输出100万TOKEN是10刀。这个其实已经很便宜了。它的MINI模型，就是比它要稍微小一点的模型呢，基本上就是在前面那个数字上除5，0.25刀和两刀的这个输入和输出。Nano模型，就更小的模型就是，在MINI的基础上再除5，就是这样来的。就这种东西都是拍脑袋拍出来的，千万不要认为说这个数是很详细的计算出来的，真计算出来那个数不会这么有竞争力。

为什么说它有竞争力呢？Gemini 2.5 Pro的这个价格，我们去比较一下。Gemini 2.5 Pro的价格，200K以下的，输入是1.25刀，输出是10刀。这个呢跟GPT-5基本上是一样的，GPT-5基本上是照着谷歌的Gemini 2.5 Pro去定的这个价格。但是如果我输入的TOKEN超过200K了，输入是2.5刀，输出是15刀，它就会有一个上浮了。Gemini 2.5是有Pro版本、Flash版本，还有一个叫Flashlight的版本，所以它整个的定位跟GPT-5基本上是一致的。它的Flash版本和Flashlight版本呢，都要比GPT-5相应的版本，比如mini版和Nano版，要稍微贵那么一点点。具体钱就不跟大家念了，基本上是稍微贵一点点。Grok-4，就是XAI的呢，只有一个版本，输入3刀，输出15刀。这个明显要贵很多，它要比GPT-5和Gemini 2.5 Pro都要贵。所以呢，Grok-4刚出来的时候，我用了一段时间，一个礼拜吧，然后就都改成Gemini 2.5了。

另外的Anthropic的Claude，它的价格是什么样的呢？它最大的模型，输入15刀，输出75刀，基本上是没有竞争力的，太贵了。Sonnet输入3刀，输出15刀，又是一个田忌赛马的故事。其实我们平时用的最多的模型就是Sonnet，效果已经很不错了。但是呢，现在的GPT-5，1.25刀嘛，它这是三刀嘛，所以还是要便宜很多的。原来你使用Claude 4 Sonnet，现在咱们就使用GPT-5就可以了。所以GPT-5的价格是极具竞争力和压迫感的。

AI竞争的格局呢，也开始向新的方向去进发了。第一个，谷歌Gemini 3应该已经不远了。虽然没有明说，但是呢普遍猜测今年年底我们是应该可以看到Gemini 3的。现在呢，谷歌已经进入下一个竞争阶段，谷歌跟OpenAI开始去抢别的东西了，抢什么呢？开始抢终端用户了。怎么去抢终端用户？免费用户就可以去使用Gemini 2.5 Pro了。他现在也在努力地把谷歌的Gmail用户，他的Workspace用户，向他的Gemini Pro版本去进行转化。而像OpenAI，他也是说GPT-5出来了，你们这些免费用户就可以用了，我一定要把我最好的一面展示给你，万一有一点转化率，说我今天想去充钱了呢。

马斯克的XAI呢，应该已经感受到压力了。在Grok的模型能力上，其实还是有一点点小差距的。Grok-4在进行复杂运算的时候还是很能打的，但是呢在综合能力上和用户体验上还有待提升。Grok我觉得最大的优势是百无禁忌，这块是我最喜欢他的点。用户体验上，马斯克到底是不是要继续往前跑？现在呢还没有看出苗头来。因为现在的Grok的客户端，Grok的各种功能，比OpenAI也好，比这个Gemini也好，差的还是比较远的。而这一块的话，不是靠天才可以搞定的，这一块是需要靠堆人才能追的平的。你需要很多的人，OpenAI现在的总人数已经超过了XAI的总人数，即使是XAI跟X合并了以后的总人数，OpenAI也是人更多一些。XAI现在大概是1200人，OpenAI 7月份的人数的话，现在有两个猜测，因为没上市嘛，非上市公司，它的很多的数据就靠大家猜。一个呢是SEO.AI他们猜的，OpenAI现在有2659个人，就基本上是XAI的一倍多一些。另外一个呢叫LeadIQ，他们猜呢，OpenAI现在应该有6400人。那差为什么差这么多？因为有一些可能是contractor或者是一些派遣员工，或者是其他的这种合同制员工吧，所以可能会有一些差距。但甭管是哪个数吧，都差好几倍。另外一些竞争对手，比如说谷歌、微软，那你这俩公司就别跟他们比了吧，谷歌18.7万人，微软22.8万人，你说你跟他们比什么劲。但是后边说我们现在开始进行终端竞争了，要去打造一个用户体验非常好的生产环境了，你就需要堆人。马斯克可能未来需要堆人把这个事情搞定。所以下面呢，要去进行这个终端用户争夺，你到现在为止，Grok-4我还没有在平台上用过，我只用过API。为什么呢？因为像我这种8美金的X用户，他不给我用，必须要去买30美金的超级Grok用户，他才让你去用Grok-4。到目前为止，马斯克还没有把这个弯子转过来，所以他还没有进入到终端用户争夺的这个战场上去，已经落后半步了。

另外一个落后的可能比较远的是谁？就Anthropic。为什么呢？从资本到算力上，它都相对来说比较受限，所以在价格上就能体现得出来，它所有的这个API的价格它最贵，而且贵的不是一星半点。最后要打价格战的时候，刺刀见红拼不过前面那几个。马斯克虽然现在争夺终端用户他抢不过OpenAI、抢不过微软、抢不过谷歌，但是他至少手里还有一个X，X上还有一堆用户呢，这是他的天然基本盘。而且马斯克别的不行，募资很强，他募了一堆钱切着咔嚓买显卡，把它堆起来去堆算力这事，它是很强的。Anthropic融的钱本身就不是那么多，虽然它的两个大股东一个叫亚马逊一个叫谷歌，说“哎我这有算力你来使吧”，但是呢你真的要真刀真枪的去跟别人拼的话，还是不行。但我估计后边会比较麻烦，虽然他们家的模型我也很喜欢，但是从商业角度上来说他们是很麻烦的。现在有传闻苹果要收购他们，但是我其实不太相信，因为苹果呢不太做这种特别大规模的收购，这么高的价格去收购的话，不是厨子这种守城之君可以做出来的决定。如果他真能做出这种决定来，当时他就把车造出来了，而不是说抠搜抠抠搜搜，最后整个Vision Pro出来，这个我估计他搞不定。

然后Meta呢，等着看他们一鸣惊人吧。挖了这么多人回来，超级团队，后边可能还会为我们带来很多不同的故事。现在进入了一个新的竞争状态。

这里还有一帮人，中国团队怎么办呢？中国团队呢，只能靠差异化了。开源更大更新的模型，把agent一起开源出去，这可能就是中国团队未来竞争的一个方向。因为你去卷大模型，你卷不过他们了，手里头没有这么多的显卡，没有这么多的算力，数据上也有受到一定的限制，我们去卷底层大模型这块就会比较费劲。现在中国的这些AI公司里头呢，字节是在走OpenAI这条路，就是我闭源，我就疯狂的往前堆，但是未来到底能堆成什么样还不好说，而且字节也在堆显卡，他很多显卡是堆在海外了。其他的像阿里、百度、MiniMax、Kimi这些团队呢，都在堆开源，把最新的、最完整的、最大的模型直接开源出去，争夺一些客户回来，争夺一些市场空间回来。所以呢，大家玩的是不一样的。

那么开发者跟创业者应该干点什么呢？这一次OpenAI开完发布会以后，没有哀鸿一片，这是非常好的事情。说明什么？AI agent大家还是可以继续做下去的。把具体行业的需求解决掉，这个是创业者和开发者该去做的事情。而且现在呢，底层模型也相对来说比较稳定了，它没有那么多的幻觉了，拿着这些模型就可以去做一些相对比较严肃的工作了。所以现在就是开发者、创业者要冲的时候了。

GPT-5的API呢，我今天测试了一下，比Grok-4和Gemini 2.5呢，能力上其实并没有特别明显的差异。速度和稳定性、价格，这就是后边要拼的东西。这一块呢，OpenAI应该还是可以去占优的。为啥？因为OpenAI自己压根不惦记挣钱。谷歌那后边是个上市公司，你赔多了这事肯定是不行的。而至于说Grok的话，现在虽然他没有那么惦记挣钱，但是马斯克很多的操作其实是比较粗犷的，这种真正需要绣花，一针一线的往前去拼价格战的时候，他未必跟得上这个节奏。所以我相信在这一块上，OpenAI会领先一点点。未来一段时间呢，大家应该都会加班加点，对每一个应用中的AI节点进行效果、速度、稳定性和成本的这种对比，去更换GPT-5的API。这就是开发者现在该干的活。

原来说AI创业很难，原因就是大模型厂商的边界不清晰，你今儿干着干着，明天被他覆盖了。现在的话，这块清晰了，他们就去干他们的事情，我们干我们的事情。所以呢，最初的问题其实已经解决了，赶快去找到方向去干活。

那么到底是在挤牙膏，还是新的时代到来了呢？首先要讲，OpenAI再次地给行业指明了新的方向。第一个叫模型融合，不要整一大堆模型让我挑来挑去的，你就给我一个，我自己呢做这个提示词，你根据我的提示词去给我反馈就完了。该多说两句的时候多说两句，该少说两句的时候少说两句，不要让我去选取。第二个呢就是自动的进行判断，对于什么各种工具的调用，这个是需要去做的。还有一个方向就是降低幻觉比例，你要想去解决实际问题，就要降低幻觉。这块呢是中国大模型差的比较远的一块。在这一块上Gemini、Grok和Claude都还是比较强的，虽然达不到GPT-5这个层次吧，但是已经是可以用的了。中国的像Deepseek、千问、Kimi、豆包这些模型，幻觉得一塌糊涂，现在需要向这块去往前走一走。降低幻觉的方式就是不断的加算力进去，反复验证，多做这种强化学习，但是呢这个是需要大量算力在里边堆进去的。

新的时代还是到来了。新的时代是以什么样的方式到来了呢？阶级逐渐固化了，分层的时代到了。顶层的就是模型商卷，顶层模型OpenAI这次真正卷的是谁？他卷的是谷歌，卷的是XAI，卷的是Anthropic，他已经不再去跟这些应用厂商去竞争去了。“我们玩我们的，你们玩你们的。”这个是新的时代。他们一旦是开始把这个事搞清楚了，下面的这些创业者就可以冲锋了。就像是盘古开天地，混沌归于有序，大家就可以在这里繁衍生息了。这个是非常重要的一个时间点。

操作系统跟平台商呢，都去参与模型厂商的内卷就可以了。比如说谷歌，现在说Gemini不是大模型，Gemini就是操作系统。微软说我这个就按操作系统来了。OpenAI也说我就是操作系统。Grok肯定也是要去奔操作系统来的，它把X收进来以后，未来这一块可能就会有一个像微信似的超级应用，对于它来说这也是个操作系统。底层应用开发好好干吧，不用再担心模型商突然抄后路了。应用商也要有自知之明，不要去干这个大模型、操作系统、平台的这个事情。怎么说呢，要安天命，就是该你干的活你去干，不该干的活就别干。

这儿呢跟大家讲一个小故事吧。应该是在2014年年初的时候，我当时还在猎豹，跟着傅盛还有猎豹的其他几个高管呢，到谷歌北京办公室去吃早饭。不是占人便宜去了，我们跑去谷歌谈很多事情的时候呢，他们就特别喜欢让我们到他的办公室里去吃早饭，因为谷歌当时的食堂特别好，后来搬家了以后那食堂就没那么好了。当时是香港谷歌的一个负责商务的高管跑到那来跟我们吃早饭，趁着吃早饭的时候开个会嘛。当时我们做的工具呢，叫Clean Master，清理这个手机垃圾信息的。他问了一个什么问题呢？他说：“你们到底是清理memory，还是清理disk？”其他人就没想明白到底在问什么。我呢当时抖了个机灵，我说：“我们只清理disk，绝对不碰memory。”因为其实安卓手机上压根就没有DISK这个词，它叫storage drive，就是存储的驱动，这个不是叫DISK的。所以当时我就直接反应过来了。其实Clean Master是两个都会清理的。我回答了以后呢，其他人还看着我说你怎么胡说八道，明明不是这么回事，我们两个都可以清理，你干嘛说只能清理disk，不能清理memory呢？但是我回答完这个问题，还没有等到我的这些领导们来质疑我的时候，谷歌这个高管就直接肯定了，说：“这就对了，你们就只能清理disk，你们就不能清理memory。memory的事情是操作系统的事情，你不应该去做这件事。你就把这个硬盘上的东西清理清理就完了，或者说这个存储介质上东西清理清理。你一旦开始去碰内存了，就相当于是我们介入到了操作系统管理层去了，哎，你不该干这个活。”

讲完了以后呢，我们都是一头冷汗，也是觉得好不容易从鬼门关混出来了。吃完这顿早饭以后，出来这些高管就开始骂呀，说这个谷歌还说不作恶什么，这些东西都是扯淡。他划定这块地方，你就绝对不能碰他，你碰了他，他就甭管你是不是作恶，就直接干掉你。因为当时呢，跟我们同期有另外一个软件是杀病毒的，台湾趋势科技做的一个杀病毒的软件在里头，就被谷歌的高管作为典型跟我们讲。说你看这个台湾趋势科技，做了一个杀病毒的软件在安卓手机上，说这事是不对的。说为什么不对呢？说安卓是没有病毒的，我们已经宣布了安卓没病毒，你怎么可以在我这没有病毒的操作系统上杀病毒呢？最后你还杀出来了，这不扯淡吗？这个是不允许的。所以给了他们很严重的这种处罚。我们如果当时告诉他说“哎我们既清理硬盘也清理内存”的话，估计也是很严重的处罚。我们跟他吃完饭了以后，过几天就去纽交所去敲钟去了。如果当时那问题没回答好的话，这个钟就不用敲了。所以我觉得我那个机灵抖的还是挺好的。

这个也是说，做应用的厂商要各安天命，做自己该做的事情，在人家的规则下去做事情。这个就是未来这些模型厂商给这些做应用的厂商留出来的空间。当然了，中国厂商呢，总是会有一些不太愿意在你框框里头去跳的这些人吧，就是我们总是愿意做一些跳出圈的事情，不太喜欢这种逐渐固化的阶级，我们会再折腾一下。

所以结论就是，GPT-5发布了，确实还是有一些比较强的新特性的，包括统一的模型，自动地去判断怎么去工作，降低了幻觉。新的时代也到来了，这就固化，该选操作系统、选大模型的，你们选那个去，其他人在稳固的平台下，去做我们的应用就完事了。只要我们不去挑战权威，不去挑战规则，在这个规则下也可以挣到钱。这就是一个新的时代。

好，这一期呢就讲到这里。

从乔布斯“灵魂伴侣”到山姆奥特曼的座上宾，强尼艾夫的IO团队以65亿美金估值并入OpenAI，是AI iPhone的黎明将至，还是又一个AI硬件泡沫的开始？

Luke Fan — Mon, 26 May 2025 00:40:54 +0000

OpenAI以65亿美金收购了强尼艾夫爵士的IO团队，要做AI iPhone了吗？大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI最大的硬件收购来了。没办法，他自己3,000亿美金的估值了，现在收购任何的团队都是比较贵的，所以又变成了有史以来最大的AI硬件团队收购。这一次呢，是以50亿美金的纯股票交易收购强尼艾夫创建的IO团队手里边77%的股票。

这个团队呢，2023年底其实已经被OpenAI投资过了。当时投资了以后占股了是23%。这一次呢，等于是交50亿美金，或者叫以50亿美金的对价收购了剩余的77%的股票。这个65亿美金怎么算出来的？很简单，50亿除0.77就等于65了。所以它的总价值呢，是按照50亿美金收购77%股票的方式反推出来的。

强尼埃夫爵士到底是一个什么样的人？首先在这里澄清，这是个异性恋。不是说拍了一张跟山姆奥特曼特别亲密的照片就变成同性恋了。到目前为止，人家婚姻美满，还有小孩。

强尼艾夫是2012年被英国女王伊丽莎白二世授予爵士头衔，所以我们管它叫强尼埃夫爵士。他呢，属于大英帝国最优秀的骑士勋章，叫Knight Commander of the Order of the British Empire（骑士司令官）。这一荣誉是对他设计领域的卓越贡献，主导了iPhone、iMac等划时代的产品，以及推动了英国创意产业发展的认可。授勋仪式在白金汉宫举行，由安妮公主代表女王执行。

他呢，号称是乔布斯的soulmate，就绝对是灵魂伴侣。成功的产品从1998年的iMac G3（也就是那个半透明彩色机壳的一体机）开始，到2001年的iPod（应该是很小的那个东西），再到2007年的iPhone 1，2010年的iPad，2014年的Apple Watch，最后还设计了2017年的Apple Park（也就是现在那个大飞碟那个楼）。基本上，我们能够熟悉的苹果设计风格就是强尼艾夫爵士他定义的。

专利数字非常巨大。这个设计师是相对来说比较容易去申请专利的，拥有超过1.4万项全球专利，涵盖硬件、软件、包装等领域。其中美国专利是1,628项，包括iPhone的玻璃机身、Apple Watch的表带连接结构等核心设计。

2019年呢，强尼艾夫离开了苹果去创业去了。他呢，做这公司叫Love From（就是爱从哪来）。他呢，设计了很多漂亮的字体。

年入2亿美金的设计公司，他是跟AirBNB、法拉利等企业合作，重新定义了品牌战略。非常强的一位设计师，基本上算是定义了整个移动互联网时代的产品设计、交互设计。这样的一次并购，OpenAI前面投了23%，后来把后边77%直接买下来了。到底是一个什么样的故事呢？咱们从资本的角度稍微的去理一理。

这个事情并没有这么简单。因为大家注意，前面并购的时候有一个词叫做“纯股票交易”，这里头没现金。一般涉及纯股票交易的这种并购呢，通常都不是一个特别愉快的故事。真正愉快的并购是什么？你花钱买，买完了以后我变成亿万富翁，然后出去天天玩耍。这样被并购的就是Minecraft（我的世界）的创始人，当时被微软并购了以后，就拿着大笔的钱开始挥霍，一直到目前为止还在挥霍，还没挥霍完。这个是愉快的故事。

“牛马级并购”呢，就是这个纯股票的并购，里头没现金，并购完了以后接着当牛马打工去。一般是发生了一些比较特殊的情况，才会出现这种纯牛马并购，或者叫纯股票的并购。我们来看看OpenAI吧，它自己现在的估值是多少钱呢？3,000亿美金。那么50亿美金的纯股票相当于多少股票呢？不是相当于50亿美金的股票吗？咱们不讲这个故事，相当于他的1.67%的股份。其实没多少，就是拿了1.67%的股份，我就直接把你这个IO全都收归旗下了。

假设2023年底的第一次投资，因为是OpenAI投了头一回嘛，23%的股票，也是给的股票。因为OpenAI其实手里并没有那么多现金，即使是给了一些现金的话，这个里头大部分应该还是股票。当时呢，并没有对估值进行公布。但是呢，以强尼·艾夫的名声和履历来看，这个投资不会太便宜。所以呢，大家一拍脑袋给了一个小目标？这个不是小目标，给了一个独角兽，这个是比较合理的。一个独角兽多少钱？10亿美金占23%，这样的话它的估值大概40多亿美金。这是当时的这个交易，虽然没有公布，但是应该差不多就是这样。

你想，山姆·奥特曼跟强尼·艾夫两个人坐在一起，也不可能说“我们这个9亿8，9亿9还是10亿零一”，这不可能是干这样的事嘛。肯定是一拍脑袋来，10亿占23%。当时的OpenAI的估值是多少钱呢？是800亿美金。所以呢，当时应该是给了OpenAI 1.25%的股份。强尼·艾夫手里边应该也不是特别缺钱，苹果的股票肯定就很值钱，再加上他后面的这个Love From从AirBNB、从法拉利手里头再挣的钱，每年都在挣钱。

所以，当时我估计他拿股票的概率也很大。但是据说呢，IO项目里头还有一些其他的投资者。这个事呢，我也去查了一下，并没有特别确切的说明里头到底有哪些投资者，是按什么样的估值进去了，到底给了多少钱。这个事不是那么清晰。

里头比较著名的就是软银的孙正义，据说是当时给了钱了。而且呢，当时给钱的时候好像是跟山姆·奥特曼、强尼·艾夫在一起，说他也出了一部分钱。但是这个钱到底是怎么出的，没有找到确切的说法。

现在好了，包括软银的孙正义以及其他的一些投资人，和Love From的其他的这些老股东——因为当时IO是Love From去成立的，Love From是他的一个股东——现在等于这些人一扭脸，全都变成了OpenAI的股东了。因为OpenAI拿了50亿美金1.67%的股份出来说：“我把这个IO的77%股份给你收掉。”那么原来这些持股人就都通通变成了OpenAI的股东。

做硬件这件事呢，本身还是挺烧钱的。不是说设计个字体，或者说我给你参加几个研讨会就可以拿到钱的。而且呢，IO这个团队，甭管它的创始团队或者说里边的员工背景有多么光鲜，它呢其实没有真正的产品面世。虽然说他做了一些尝试性的产品，但是哪个都没面世。

而且前面呢，被寄予厚望的AI Pin这样的AI产品，号称是AI时代的iPhone，这样的产品呢也没什么响动。而且AI Pin呢还有一个比较讨厌的什么，那也是苹果离职员工干的，也是充满了苹果基因的产品，最后也直接扑街了。

所以在这样的一个情况下，我们会发现IO身上聚集了很多的特性：第一个，很高的估值——前面40亿美金的估值，啥也没做出来过；而且整个赛道上铺满了尸体，不光是AI Pin，还有什么AI Rabbit还是什么，反正有一堆类似这样的产品都在前头死掉了。

这个方向呢，所有投资人再冲上去就会谨慎一些。你如果估值低呢，再加上团队还不错，没准还有人愿意去试一试；你估值很高，这个玩意就没法整了。而且这不是一个硬件产品团队，这是一个设计师团队，他没有成功运营过硬件产品，这也是一个挺大的硬伤。

再加上创始团队又特别豪华，强尼·艾夫爵士号称是定义了整个移动互联网时代的人，他做的公司你给一个比较低的估值，自己也不好意思。所以他这样的团队聚集了所有这些特性在身上，以后你再出去谈融资就会比较麻烦，没有人敢接这个活。就算是给了钱了，你还得给一个跟他们匹配的价格。在这里头没人敢贪小便宜，说我用一特别低的价格。

我把它投了。这种出去会被人骂的，所以他这种公司很难融资。

现在呢，现金肯定是非常紧俏的。估值不值钱，现金紧张，就只能达成选股票交易的这种并购了。而且大家要注意什么呢？在并购的过程中，估值涨没涨？估值没涨多少。他上一轮的投资，我们刚才推测了——不是猜测，是推测——他的估值大概是40多亿美金。这一次呢，涨到65亿，就属于是什么呢？就给大家有个交代，确实涨了。

但是正常的这种热火烹油的赛道里头，这样的投资，这样的并购，经常3倍到5倍的估值上升，你才能把它卖掉。现在等于你涨了个30%吧。而且这也是一年半了吧？至少是2023年底到现在，2025年到年终了，一年半了才涨了这点估值，其实是说明整个团队运营的情况并不是很好。

OpenAI手里边现金其实也不多。别看那么多人给他钱——微软给了100多亿，软银给了他400多亿——但是微软给的钱呢，很多应该是代金券。就是说我给你钱了，但是这个钱呢，我现在先不给你，我帮你存着，怕你去乱花。等你什么时候给你呢？上微软云租算力的时候，我就帮你抵扣掉。微软给的很多肯定是这种东西。

软银那400多亿美金，应该给的真金白银吧？可能有一部分会折算成星际之门的一部分，里头肯定会有一部分现金，但是也不会特别多。大家投资的时候都是尽量少给现金的。

OpenAI手里边的现金还要干嘛呢？还有一个很重要的用途：他有好几千人呢，而且还要不断的用高薪、高股票继续再去挖人去。所以他需要去维持一个几千人团队的运转，而且这些人的薪水都很高，所以他的现金也比较紧张。

那么干脆说，拿个1.67%的股票出来，大家皆大欢喜一下就完事了。只是呢，多了几张嘴出来吃饭就完了。完全收购了以后，原来IO的这些员工，你们现在就算OpenAI的员工了，OpenAI给你们开薪水，这件事就结束了，没有什么其他的动作。

真正火的并购，刚才我们讲了，高溢价，涨个3倍到5倍，要有一堆人去抢。如果没有人抢，这事不行。拿到钱的人要欢天喜地的庆祝，要开始这种堕落之旅，这个才叫真正的好的并购。牛马并购价估值涨那么一点点，像是这个40多亿涨到65亿，大家呢拿到的都是纸，全是股票。并购完了以后，好好干干活，上班去，就是有这样的差异。

甭管并购是怎么完成的吧，是开心也好，不开心也好，几家欢喜几家愁也好，我们总还是要期待一下，强尼艾夫爵士到底准备搞点啥事。OpenAI和IO团队呢，都没有宣布过他们要干什么。

你到底要做一个什么类型的产品？谁也没说过。因为前面这条赛道上已经躺满了尸体了，躺了好几个了，而且都是寄予厚望，都有苹果基因，都是上来就见光死，直接扑街。

IO呢，前面是发表过一些硬件原型产品，包括感知用户情绪的智能眼镜、可折叠成钱包大小的投影设备，以及彻底取消屏幕的语音交互装置。但是具体最后它要造出一个什么东西，还不知道。而且呢，IO已经申请了12项专利了，与无屏交互相关的技术专利，通过机电信号捕捉手势的这种指环设备，基于空间音频的导航系统。

什么叫机电信号捕捉手势呢？就是带一指环在上头，但是我们这个手动的时候，是有一些机电信号是可以捕捉到的。就是你在指环上做一些传感器，它可以知道你这个手在做什么动作。这个还是要一些技术的。

我给大家讲一个特别好玩的东西吧。咱们用这个手环，或者我们管它叫手表这种东西，去做计步器，说记录一下我们到底走了多少步。这事很复杂，千万不要以为说，我们在手表里头装一个运动传感器，记一下你到底走了多少步就能记下来。不是这么回事。你这个手表里的运动传感器得到的那个数据是非常混乱的。你像我们走的时候手还要摆动，还要做一些其他的动作。你最后要把所有这些干扰都去掉了以后，才能够算出来你到底是走了多少步。

你想你在手腕上记一东西，你最后要记录脚的动作，那他这个干扰大去了。像咱们最早的计步器都是搁哪的呀？都是别在腰带上的。那个时候机械计数器都是往腰带上一别，你就没有什么其他的运动干扰你，可以记的比较准。但现在你想你戴在手上，你还要把这个东西记下来很麻烦的。所以你现在要在指环上，通过机电信号收入了以后，再去把这些乱七八糟东西过滤掉，然后去判断你到底在做什么手势。这个还是有点技术难度的。

咱们就说手表记步这个事。你去戴这个华为的表带、小米的表、苹果的表，他们每一个设备记出来的步数不一样。你把这小米手机、华为手机跟苹果手机，你揣身上走一天，你看看这技术的步数也是不一样。咱们就再用这个计步器的故事跟大家讲一讲，这种专利还是需要一些聪明才智的。

现在呢，OpenAI跟IO呢，是准备推出一个销量可以超过1亿只的AI iPhone。他们定义的什么叫成功？什么叫划时代？什么叫革命性？就是我卖掉1亿个，这个就叫革命性了。你如果卖不到1亿个，这个就不叫。其实iPhone一也没有卖到1亿，现在是有了。因为小米是第三名吧，大概是1.7亿一年，三星是第一名，可能是2亿多吧。

这个具体数字我们就不查了。但是iPhone一出来的时候，卖的不是那么多的。现在呢，他们计划2026年推出首款的AI硬件产品，定位呢是口袋里的智能体，或者呢叫AI伴侣。

这个到底是一个什么样的东西？我们通过这些文字，其实还是比较难想象的。因为前面已经有了挂在脖子上的了，有夹在身上的了，有这个耳机型的了。这个到底是做出一个什么来，我们还要再去等待。

但是呢，有几点是基本上确定的：
第一个就是无屏交互，突破传统屏幕限制，通过多模态感知、视觉语音、环境分析实现自然交互。例如通过眼球追踪和手势识别来输入指令。其实眼球追踪跟手势识别的话，Vision Pro就是这么来去交互的，已经有人做出来了，也是苹果家的东西嘛。

第二个呢，就是要去做情绪感知。原来所有的这些手势识别也好，眼神跟踪也好，是没有情绪感知的。但是呢，现在你把这个图片扔给了Gemini以后，你是可以进行情绪感知了。所以未来情绪感知会在里面，能够实时理解用户的环境和需求，提供个性化服务，如实时翻译、情绪支持等等。你要不开心了，我要稍微逗你开心一下。

原来我们经常说这个人工智能是人工智障，是怎么回事？就是它听不出来你现在开不开心，听不出来你到底想要什么。甭管你跟他多开心的讲，还是多不开心的讲，他都是一成不变的，在完成他自己认为的任务。

这个设备呢，将无缝的融入生活设备，可能为穿戴式设备或者是家用终端，旨在成为用户继智能手机和笔记本电脑之后的第三个核心装备。这就是他们准备干的事情。

和AI PIN比起来到底有什么不一样？因为AI PIN算是苹果基因，也是苹果团队做的一个失败产品，而且当时也是寄予厚望了。其实最大的差别呢，硬件到底有什么差别咱不知道，因为没看到嘛。但是模型的能力，这一段时间是有巨大提升的。

第一个，增强语音模式。我们现在可以跟OpenAI的ChatGPT去聊天，去了还聊得很开心。你还可以随时打断它，用全世界各种语言聊天都很好。

第二个，它可以进行实时搜索了。原来你跟ChatGPT去聊天，等于他都是我的最新知识库，截止到某年某月某日，我的知识没有了。你聊了半天，基本上都是在一本正经的胡说八道，这个是不行的。现在有实时搜索了以后，你就可以跟他聊一些今天怎么样、昨天怎么样、最近有什么样的东西，这事都可以聊了。

然后视觉推理出来了，GPT-4里边已经有视觉推理了。你给它一张图片以后，它可以放大缩小，拆成一小块一小块的，然后调整角度。

告诉你这都是什么？再进行整个的推理。这块已经强的一塌糊涂了，再加上长记忆。你现在跟他聊了半天，他知道你是谁，知道你原来问过什么，知道你的习惯。这个现在也是一个长足的进步。

还有什么进步？就是MCP跟agent已经都上来了。原来你只能跟它聊天，最多可以搜索。现在说你给我订餐，你给我去查各种地图，给我去做各种的交易，它都可以直接实现了。所以在这一段时间，大模型有了长足的进步。如果把AI PIN这样的产品结合，今天的模型未必会失败的那么惨吧。

现在OpenAI跟IO赶上这个模型进步了以后，这个人生伴侣也有可能是能够做出来的。IO呢，会获得更多的模态。原来我们讲ChatGPT可以干嘛？文字、语音、视频、图像，你可以做这样的这么多的模态的输入。现在有了IO了以后，什么电信号，什么运动传感器，我们可以把这样的一大堆的信号都给它塞进去。当引入了更多的传感器数据之后，这个模型训练了就可以变得更加聪明。

到目前为止，我们相信scaling law依然是有效的。你怎么能够拿到更多的数据，让这个scaling low往前走呢？你说我的文字的语料就这么多了，但是我现在可以拿出大量的运动数据，进去重新训练模型，这个事情就又可以往前走了。

而且OpenAI呢也准备在今年发布all-in-one的GPT5。就是你到了ChatGPT以后，不用再去选我要用4O，要用4.1，还是要用4.5，还是要用O3，O4 mini，就叫GPT5。你只管提出你的要求，然后它去根据你的要求，根据情绪判断来判定，我到底要用哪一个模型来替你服务。

所以当所有这些都实现的时候，2026年我们还是可以期待一个非常有趣的产品呢。每一次大的交互革命都会带来一波红利。上一波的交互革命是什么？是触控。iPhone呢就是上一波红利的开山之作。自然交互呢一定是在触控之后的下一波交互革命吗？这个事呢我还不确定，因为也有可能直接跳过。

再往后的一波交互革命，现在已经知道是什么了，就是脑机接口。像最开始我们是键盘鼠标，键盘鼠标前边还有什么？打孔卡，咱们就不研究了。到后面我们开始用笔在屏幕上写来写去，到iPhone这里就是说我们用触控，多点触控去实现交互。

中间还有一点点小的波折是什么？就是任天堂玩的这种体感，这个也算是一个小的交互革命，但是并没有引起颠覆性的时代的更新。再往后呢就是马斯克的这个脑机接口。中间这个到底能不能成为一个划时代的？

说我们整个定义一个新时代还要看，也有可能就像任天堂的体感这样，在一个相对小众的范围内进行传播的可能性也是存在的。

总结一下，OpenAI 65亿美金收购了强尼艾夫爵士创办的IO这个团队。不管收购的过程有多少资本的故事，还是能够期待一下，自然交互可能会给我们带来一波新的爆发与红利的。期待强尼艾夫爵士给我们带来新的AI时代的iPhone吧。

好，这个故事今天就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

鲶鱼效应搅翻AI江湖：DeepSeek 671B开源来袭，GPT-5和百度文心一言迎巨大挑战！

Luke Fan — Tue, 18 Feb 2025 00:46:01 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲DeepSeek。这条鲶鱼搅浑了水，GPT5要来了，百度也要免费开源了，到底是一个什么样的情况？大模型这个赛道未来会怎么去发展？

DeepSeek呢，算是彻底改变了游戏规则。OpenAI给整个行业挖的坑，到现在呢，还有一些公司没查出来呢。什么坑？就是客户端这个订阅20美金一个月这个坑。这个其实是一个非常失败的商业模式。谷歌到现在还在往外爬，因为谷歌他其实自己不太想爬出来。为什么？因为他一旦爬出来以后的话，谷歌搜索的广告收入就没了，只能在那里头装聋作哑了。Perplexity到现在也还在思考，到底是不是要爬出来。

大家有没有想过一个问题？开源模型，因为DeepSeek是满血版671B的开源模型，它对于OpenAI的伤害，到底是ToB的伤害大，还是ToC的伤害大？这是一个大家值得去思考的事情。虽然现在DeepSeek在很多的C端有非常大的影响力，就是很多的个人去下载这个东西去用去，但其实真正的开源模型影响最大的是B端。我这是一个自己的公司，我是一个政府项目，或者是一个什么样的商业相关的事情，我要去使用大模型的时候，一定是会优先去选择这种完全可控的开源模型，而不是说我去用人家的闭源的，买人家API。因为你一旦是有开源模型的话，你就可以选择完全私有部署，我自己买台服务器往里装就完了。

现在中国卖的特别好的就是DeepSeek一体机。什么叫DeepSeek一体机？就是它一个机器里边给你塞满了，比如说8块或者16块升腾910，华为的这个算力卡，可以把DeepSeek 671B的这样的模型直接塞进去，就是一台机器搞定。但是这机器很贵，这一台机器大概是三四百万人民币。但很多的大企业说，我们愿意去花这个钱。中国的那些大企业，特别是央国企，他们花这种钱还是蛮开心的。花完了以后，华为就可以发挥他们比较擅长的事情。

做这种ToB销售、做大客户销售，剩下的这个我们就不能细说了。所以一旦是有这种完全开源的大模型，而且是跟你这个OpenAI差不多功能的这种大模型的话，对于OpenAI也好，对于谷歌也好，最大的伤害是B端的。C端的其实你说有伤害吗？有，但是C端的人呢，主要是凑个热闹，我们上去看一下就可以了，发现“哎，慢了吧唧不太好使呢”，就跑掉了，也就这样。但是B端真的是差异很大，现在大家都已经开始动起来了。谷歌的Gemini 2.0 Pro已经发出来了，而且谷歌Gemini 2.0，就是Flash、Flash light什么一大堆的版本出来，那是真便宜，而且是比DeepSeek还便宜的一个价格。你不是跟我卷价格吗？我卷的比你还低，现在是谷歌的应对方式。

而山姆·奥特曼的话，也终于要发布他的GPT-5了。这个是路线的一个彻底改变，从去年年底12天连续的挤牙膏，到现在突然说“哎，GPT-4.5要出来了，马上GPT-5也要出来了”，这个转变是非常非常巨大的。而且我相信到目前为止，这个弯应该没有转完，这只是转了其中的一半，剩下的我们还要再等它继续去发布，还有一些新的消息，可能未来一段时间会出来。为什么说这个弯还没有转完呢？因为你还得开源一部分，你光说我4.5和5这事不行。到目前为止，OpenAI到底怎么开源这件事，山姆·奥特曼都没说，这个肯定是有问题的。

而且山姆·奥特曼也好，OpenAI也好，现在已经开始有流量焦虑了，就是他们的流量到底了，靠自然增长涨不上去了。所以他们1,400万美金，跑到超级碗去打广告去了。他们等于进入到下一个阶段了，原来就是我自然增长，再涨上去就完了，现在涨不动了。而且呢，除了出4.5和5之外，还要求什么呢？就是他还说了，我们要开放全部的功能给免费用户使用，不用再去说一定要交钱了。这个是非常大的变化，就是你甭管是GPT-4.5还是GPT-5，什么搜索、什么生成图片，这个东西免费用户都可以用起来。

这个是真的要革自己的命的路子了。GPT-4O以后，其实再往后发展，这个事本身是挺难的。就是普通的这种对话模型，在GPT-4O出来以后，我们就做过这个结论。其实GPT-4到4O之间，主要增加的东西是什么？是语音的部分，是多模态的部分，高级语音功能。为什么涨不上去呢？原因就是你再往上涨，大家其实没法欣赏了。

马上要跟大家见面的GPT-4.5，就是说未来几周就会见面。那么4.5代表的是什么意思？有提升，但是呢，提升又不够大，所以它的名字叫4.5。越往后发展，这个提升就越难被普通大众所感知。你说我今天去跟一个出租车司机聊个天，哎，聊得还挺开心。待会你在这给我做一个博士，我跟他聊天发现聊不到一块去。人家说什么我不懂，我说什么，人家都是像看傻子一样看着我。那这个事肯定是没法整。因为你GPT这种东西从4到4.5或者到5，你变得更聪明了以后，是不是就是我说点什么，对面都像看傻子一样看着我呢？这个就会很痛苦。

而且加入搜索以后的话，其实对于大模型本身，就没有那么高的要求。他只要把我们的内容通过互联网搜索以后，再去进行一个总结归纳的话，他对于模型本身的能力要求，其实已经下降了。还有一个问题是什么？就是越聪明的模型，对于安全和对齐就越费劲。我还记得在GPT-3.5出来的时候，他们就说说，我们这个模型其实训出来一年多了。那这一年多干嘛呢？就是不停的在去做对齐，做安全性的这种防护，不能让人去攻破它呀。而且发出来以后还不停的有人上来说，我奶奶告诉我怎么样，或者是我做了个梦造原子弹了什么，还不停的去绕他。绕了这么多年了以后肯定是攒的，各种各样的防越狱的手段越来越多。

那么现在GPT-4.5可能早就训练出来，但是他就为什么没有办法把它拿出来？就是没法去搞定这个安全措施。原来可能还要再去蘑菇很长时间，内部才能达成一致，说我们把它放出来。现在DeepSeek来了以后说算了，不用费劲了，咱们拿出去用吧。

其实，在Llama出来的时候，OpenAI这边就应该想明白了。就是在这个时候再把它做这个，那么安全其实意义不大。因为有开源的，你这个做的再安全都没有什么意义。

DeepSeek在安全跟对齐这方面呢，有点像拼多多的商品。原来很多人说DeepSeek是AI界的拼多多，这个是有道理的。拼多多的商品有什么特点？能用，这个东西不是说不能用，能用便宜，但是安全性跟稳定性呢，就没有那么讲究。你去拿DeepSeek，特别是DeepSeek的API，基本上是百无禁忌的。一个模型放在那里，那你说这个大模型这样百无禁忌，他有问题，你万一说点不该说的怎么办？

但是你想想，我们今天相当于雇了个人在家里干活。我们希望这个人的道德标准是由我们掌握的，而不是由DeepSeek或者OpenAI，由对方来掌握的。我觉得宁肯找一个百无禁忌的人回来，我们重新给他立规矩，也不要说哎，已经训练好了一个道德规范，在进我们家来。这个还是有区别的。而且现在大模型安全性这一块事，大家都还在摸索，谁也没有搞明白，到底怎么能够让大模型彻底安全下来。现在就是一抓就死，一放就乱的这么一个状态。DeepSeek就属于彻底乱带了，像Claude呀OpenAI，都属于抓的相对来说比较死。

但是我觉得对于很多ToB，就是自己可以去做这个开发的，这些用户来说，我自己把握，你不要指手画脚。GPT4.5这个呢，应该就是OpenAI的最后一个对话模型了，再往后不做了。再往后的所有方向都是向O系列，也就是推理模型的方向前进了。那么GPT5是什么？GPT5其实是不用太期待的一个东西，它呢应该会在几周或者几个月之后发布。这个名字呢应该是逼出来的，就如果没有人逼它，我估计它也就不叫GPT5了。GPT4.5发完就完事了，接着做O3、O4、O5，就这么发下去了。那现在不行了，要改方向，新的方向就是GPT5。那这个名字到底是什么意思呢？其实GP5不是一个模型。

它是一个AI agent的聚合体。他后面有大量的O系列模型，如O1、O3等，这些模型在后面盯着。然后，4.5这样的对话模型也在后面盯着。他呢，是每一次接到一个问题以后，根据用户的意图来判断，说你到底想干嘛，然后再调用不同的模型来解决用户的需求。

很多人使用OpenAI以后说很讨厌，说你这个上面有一个叫模型选择器的东西。你上来以后先要选，我到底是用4回答问题、4o回答问题、4O mini，还是用O1、O3，用哪个去回答问题。选来选去的很麻烦。现在甭选了，我们就统一入口。你就来问，问完了以后我替你选，替你去回答就完事了。你就不用管后边我是怎么调度的了。这个呢，算是又一次指明了方向。

OpenAI说这个话之前，或者山姆·奥特曼说这个话之前，谷歌呢，还是发了一大堆的模型出来。他那个模型叫Gemini 2.0 Flash、Gemini 2.0 Flash light、Gemini 2.0 Pro、Gemini 2.0 Flash thinking，等于是这个系列的模型出了一堆。OpenAI说别费劲，咱们统一接口。而且呢，所有功能都统一放在一起。像去年其实我讲过好多次，就OpenAI这个模型不支持上传图片，那个模型不支持搜索，再了一个模型不支持什么canvas，就是那种画板。每一个都是很别扭。现在说，哎都有，GPT5所有的这些功能，什么搜索、高级语音、多模态生成、生成视频、生成音频、图片识别、文件上传、canvas，统统都放在一起。就是你就不用管它后边儿到底是谁了，我给你搁一块儿完事儿了。这个还是非常棒的一个事情。

所有免费用户都可以使用全部的功能。那你说还有没有人付费呢？付费用户是可以根据付费的情况，获得更聪明的回答，或者是更多步骤的回复。但这个效果怎么样呢？我觉得还有待观察。我现在感觉，OpenAI又在给大家挖坑儿了。就前面它这个一个月20美金，我就觉得是个大坑儿。

免费用户获得这个比较笨的回答，付费用户获得比较聪明的回答。这件事我觉得被人歧视了，总觉得浑身不舒服。当然了，我现在已经准备要退定它了，一个月20美金，可能等到GPT5出来的时候我就退定了。以后呢，就是有钱人获得更聪明的AI服务，穷人的话面对的就是敷衍了事的扑克脸了。未来只有O系的推理模型还会继续发展，这种普通对话模型到4.5到头了，到此结束了。

为什么是走这条路呢？你说我们真的需要那么多工程师吗？真的需要去解决什么全人类的这个疾病问题吗？其实不是。这种推理模型有一个很大的优势是什么？它可以一部分地解决幻觉的问题。有的时候说真话，有的时候说假话，或者是有的时候一本正经胡说八道。这个事大家是受不了的。大家要注意AI犯错误的方式跟人犯错误的方式是完全不一样的。

人类犯错误的方式是什么？就是我们会在不熟悉的领域犯错误，还有什么？在疲惫的状态下容易犯错误。而我状态好的时候可能说的比较顺溜。人呢，在不熟悉的领域或者是疲惫状态不好的时候，情绪能表达出来，他会犹犹豫豫的，说的不是那么肯定。所以大家也比较容易判断你这个答案是不是靠谱。有很多人就他自己也不懂，这个东西到底对不对，但是只看对方的这个语气语调，就能猜出来：“哦，这个事原来你也不太拿准。”

人呢，在被反复询问的时候其实会不耐烦，这都是人的特性。AI正好反过来，它呢是任何时候犯错误的概率都差不多，就是甭管这东西你熟还是不熟，AI其实没有什么状态的问题，他都会犯错，而且犯错误的概率是一样的。而且呢，人犯错误的时候会显得犹疑不定，AI呢不管是不是犯错误都一本正经，所以我们经常说他一本正经胡说八道嘛。

当然AI有一个好处是什么？他被反复询问的时候不会不耐烦。所以推理模型呢，他就可以解决这个问题。一个问题我问你3遍，问你5遍，再拿这些结果进行判断，看看是不是一个靠谱的结果。所以这个就是O系推理模型，大家很努力地再去往前推这个事情的原因。

因为我最近一段时间是 DeepSeek R1 用的比较多。O1 出来，O3 出来，其实我用的都比较少。但是 DeepSeek 出来了以后，我还是很努力的用了一下。我发现就是很多事情，不是一些数学问题、物理问题、工程问题，就是普通的这种生活中的问题，你扔给推理模型去干，效果也挺好的。唯一缺点就是慢，还有一个就是啰里八嗦的。中间上这个思维链这个事是比较讨厌的，其他的都还可以。

再往后呢，就是 API 可能会比较麻烦。现在山姆奥特曼就是说以后 API 也是统一接口，但这个就很麻烦了。为什么？就是你可能问了一个很简单的问题，不定他哪根筋搭错了，直接跳到推理模型那边去干活去了。那你可能这一个问题就直接几千个 TOKEN，上万个 TOKEN 就直接干掉了，而且出了一大堆啰里八嗦的东西，你也不知道他在说什么。这个事是比较讨厌的。所以我估计 API 可能还是分模型去处理的，这个应该是让我们自己去选择。你不能说你替我选完了就直接干了。

所以呢，GPT5 呢其实是一个黑箱子。每个用户提问之前，也不知道会为哪个模型去服务，也不知道会获得多大的算力，或者是推理预算。免费用户获得的服务可能会不太稳定。就是用的人少，没准多给你思考一下；用的人多就拉倒了。就跟我们去医院看病似的，如果一大堆人在外面排着队呢，那大夫肯定可不耐烦了。但是你说哎，我有钱，我去看这个特需门诊，那个大夫肯定脸上笑出花来，说您哪不舒服，慢慢跟你说一下。当然我每次去看病的时候，那个大夫看我一眼说，哎，该减肥了。这个也是让我比较不爽的一个事情了。

现在呢，对于 B 端市场，统一黑箱的这个方式其实并不是一个特别好的办法。为什么？因为弊端市场他肯定还是要先试用，测试完了以后，再去确定说我是不是要去下单。那你现在没有什么可以定制的地方，上来给你一黑箱子，结果你说我弊端市场要测试的时候，遇到一个脑子不太灵光的扑克脸，那这个成单的可能性就会下降很多。统一接口为什么费劲？就是原来……

为什么大家不是做这种统一的接口？原因呢，是这样：就是大模型跟传统软件是不一样的。传统软件是模块化的，大家可以拼来拼去的。大模型呢，是训练完了你就不能拆分拆迭代了。说我训练完一整块，说我把胸间哪一块拆出来改一改行不行？不行，训练完了就是一整块，它是不允许动的。每一个模型训练完了以后，都需要单独的调整，才能够接上各种外挂。这个是大模型跟传统软件之间的一个比较大的差异。传统软件就是模块化随意增减，大模型是一次成型不可分拆。

那么，你说到底是一个诸葛亮厉害，还是三个臭皮匠厉害呢？像我们以前一起合作或者带团队干活的时候，都会理解这件事，就是沟通确认这个成本是很高，效率是很低的。很多事情都是说，哎，干脆一人把他干完了，也比跟很多人商量着做要快很多。所以呢，如果你有一个特别特别强的基座模型，要肯定要比一大堆的模型凑一块干活要顺畅的多。大模型之间的配合呢，其实更像是一堆人商量着干活。就是为什么原来没有统一接口，大家都是一大堆的模型让你去选，这个也是有原因的。

GPT5的这种方式呢，为什么说我感觉它像一个坑呢？这是一种突c的全能型助手，就是你甭管是问他什么问题，他都来给你判断意图，然后进行回答。可以说呢，是像端到端的这种智能助手的方向迈进了一大步。未来呢，给这种端到端的黑盒子做定制开发，或者是和系统集成的话，应该是比较费劲的。为什么呢？就是各种OpenAI基础上搭建的这个系统的话，它的底层会没有那么稳定。就是你每一次把命令扔进去以后，你不知道它会用哪个模型给你回复。比如说你写了5,000字的提示词进去，OpenAI给你回答一个好的，或者叫回答一个阅，已阅，那这个事不就这个哭笑不得了吗？或者是你问他说，哎，明吃什么呀，他给你思考了半天，说哎呀明天是一个什么样的日子，啰里吧嗦给你写了2万字出来，这个就可能会造成一些坑。

那你说统一接口这件事，对OpenAI自己有什么好处呢？有一个巨大的好处。

就是你要再想分析、开解、蒸馏它的模型，就费劲了。原来我们可以逮着O1去蒸馏，蒸馏出来的东西去训练，比如说DeepSeek R1。现在变成了一个统一接口的黑箱子，你说我现在想对你去进行蒸馏，大家想一想这多费劲吧。你不一定哪句话回来一个“已阅”，不一定哪句话回来了，给你回答一大堆乱七八糟事情。这个有点像咱们现在看3D电影，这个3D电影的效果未必好，但是呢，最主要的这个功能是防止盗录。就是我现在拿个手机或者拿个摄像机，在这个电影院里把这个3D电影拍下来，是没用的，出去没法看。所以我觉得统一接口这个事情，未来也许是大方向，但现在的话，应该主要是OpenAI一个防盗措施。

现在呢，商业上统一接口这件事呢，我觉得可能也是个坑。为什么？得屌丝者得天下，明显带有歧视性的这种政策，会把屌丝用户都推给竞争对手的。就像我们现在为什么在国内看病，大家老觉得不爽。你去挂普通号，就是要一堆人在那排队乌泱乌泱的，进去了以后这个大夫极其没有耐心。你每次这样看完了以后，你看旁边那个特需门诊窗明几净，大夫特别耐心的这种诊疗制度的话，你肯定会觉得不爽。所以在这样的一个情况下，免费用户你再怎么使，你都会觉得不舒服的。这玩意叫“不患寡而患不居”呢，这个是应该是有坑。

而且现在OpenAI，虽然号称每年可以降低成本90%，就是说我推理成本会不断下降，原来是10块钱的事儿，过一年就变一块钱了。但是呢，这一次失去的收益，估计不一定少于90%。目前OpenAI的收入75%来自于订阅，就是一个月20美金也好，一个月200美金也好，就是这个钱是占他整个收入的75%的。2024年可能预计他是挣了40亿美金，然后这个钱可能都不用算训练新模型，就是他原来的这个旧模型的这个推理，压根这个40亿美金都未必覆盖的了。到新的一年，他可能大量的订阅就会流失掉，C端用户一定会大量流失。B端用户的话，如果不走开源的路，那么在B端的这个市场上。

面对DeepSeek这种全开源模型，我觉得OpenAI的竞争力是比较差的。而且，如何盈利的问题现在还是需要思考。目前的收入还是很难覆盖公司其实有三大成本（不算人员成本）：第一个是训练成本，第二个是推理成本，第三个是推广成本，也就是获取用户的成本。

训练成本，比如说我招了一大堆科学家回来，来做新模型，我要去收集数据。这个成本是一次性的，我有一个模型可以对外服务了，我就可以一直收钱了。推理成本的话，就是你要让一大堆的GPU在那等着给我们回答问题。推广成本的话，OpenAI在这个超级板上花了1,400万美金，那个就叫推广成本。

正常的一个公司运作下来，应该是训练成本最低，推理成本应该比训练成本高一些，推广成本有可能会比推理成本还要再高一些。但是现在这一块大家还在有争论，为什么？因为原来推广成本最高的一个六小虎，现在快玩不下去了。Kimi花了好多钱去推广，结果发现DeepSeek一出来，完全为他人做嫁衣了。

使用大模型聊天工具这件事上，用户基本上是没有忠诚度的。只要有一个比你好的基座大模型，大家就直接跑了。所以大家也在想说，我是不是不应该花钱去推广，还是应该把这个模型再往前推一步。但是这个事没有地吃后悔药去。后面的话，我估计OpenAI还会有比较大的调整，应该会开源一部分东西出来。你如果不开源的话，对于ToB市场是基本上没有办法的。

说完OpenAI以后，咱们再讲讲李彦宏同学。那真的给大家演绎了一下，什么叫唾面自干。文心一言不但要免费还要开源。李彦宏呢，就属于被OpenAI忽悠瘸了的那个，上来就开始收费，什么都不行。文心一言还比较烂的时候，就找人去收钱，而且呢，一个月是50多块钱，很贵的这个玩意在中国。当然，这坑肯定是他自己愿意跳的嘛。搜索引擎嘛都是这样，因为他后边还有搜索广告输入。你一旦是免费让人用搜索，免费让人用这个东西，那你这个搜索广告收入就没有了。

所以，李彦宏就跳到这坑里去了。如果模型还没有遥遥领先就开始收费的话，那用户肯定是很反感的吧。他现在到底有多少人订阅了文心一言4.0版本？反正我是从来没有用过，也从来没有定过。现在的话，直接就是180度大转弯，文心一言全部的模型都免费，而且直接开放深度搜索功能。而且呢，带有搜索功能的其实是叫文心一言4.0 Turbo的一个版本。带有搜索功能的所有大模型，一般都是有什么Turbo、light呀，或者是快速的Flash呀，有这样的这种标签在上的。就是它实际上是一个中量级的，我估计可能也就是30B或者是70B这样的一个模型，绝不可能是那种几百B的模型。这是文心1.4.0 Turbo的一个版本。他准备呢，在未来几个月陆续发布4.5版本。他到底是陆续发布，还是直接向OpenAI学习，整一个统一接口出来，现在还不确定。而且呢，讲到6月30号，4.5版本就要开源。但是呢，具体4.5版本有几个版本开源，哪些不开源，哪些到现在都没有说。

另外呢，在让人失望这件事上，百度是从来没有让人失望过。我看到新闻以后就好开心的，赶快跑到百度去用一下呗，结果告诉你说不行，你现在还用不了，你要收费。我说不是免费了吗？他说对，我们从4月1号才开始免费的。那天是愚人节，我们要从愚人节那天开始免费。为什么会有这么傲慢的人？你这个免费了就要在愚人节嘲笑我是傻瓜，那天给我来用。今天我上去看了，还要求付费。据说最近一段时间，百度在开会研究怎么退款，因为有些人直接订了一年的，那你没有用掉的这个部分是要给人退钱的。未来到底会不会做统一模型的入口，这个还有待来去看。百度这条路会更加的难走，为什么呢？主要是搜索收入。因为一旦大家转型了，说我们以后都去用AI搜索了，百度的搜索广告输入就没了。现在根本就没有办法去填补这块空白。就算是我们去交这每个月的使用费，他挣那点钱也绝对弥补不了搜索引擎的或者搜索广告的这个输入。

根本就顶不住。所以，一旦流量流向了免费的百度文心一言深度搜索功能的话，百度的命格子就断了。谷歌其实也面临同样的问题。谷歌的处理方式是什么呢？到现在为止，Gemini的客户端还收费，但是呢，AI studio.Google.com，就是Gemini的这个程序员网站，大量的模型是可以免费使用的，最新的模型都在那里使。所以，谷歌是非常矛盾的。通过这个Gemini调用谷歌搜索，这个功能是可以的。我原来算过，具体是一毛多钱还是两毛多钱，我想不起来了，反正你调一次就要给钱，调一次就要给钱。这个到底是不是未来的方式不好说，大家也还在摸索。

Grok3和Llama4应该是在未来几周都会出来。所以我估计呢，2月和3月份应该会非常非常热闹，大家所期待的大模型都会出来。现在还有人说Claude也快出4了，这个事现在大家也在期待看看，他们到底能够做出一个什么样的东西出来。未来的模型市场，会向什么样的方向发展呢？其实核心的问题，到现在为止依然没决掉。什么是核心问题？就是大模型到底咋挣钱。这个事情其实到目前为止，谁也没想明白，特别是C端的钱，到底怎么把它挣回来。因为B端的钱，你一旦有这个彻底开源免费的版本了，这个B端的钱，就基本上跟大模型公司没关系了，后边的就是系统集成公司该去挣这个钱了。因为我们现在已经都有开源、免费的大模型了，我们只要用这个大模型就可以了，剩下的就是，我们去买这个几百万一台的一体机，DeepSeek R1一体机，买的过程中呢没准还可以有些回扣。剩下能够挣的钱就是C端的钱。那么C端到底咋挣钱？是这个广告费吗？还是做电商呢？还是做直播带货还是做什么？这个还是需要未来一段时间大家去思考。

OpenAI想的这个方式，就是给这个免费用户用笨一点的模型，给这个付费用户用聪明一点的模型。这件事呢，反正我觉得，这是OpenAI为整个行业挖的下一个坑，这个大家拭目以待，等这个事情开始跑起来以后。

咱们看看效果到底怎么样。这就是我们今天的第一个故事：鲶鱼已经来了，所有的鱼都得动起来，甭管你乐意不乐意。DeepSeek来了，所有的人就不要再想着在ToB这块能够大捞特捞了。在ToC这一块儿，怎么去寻找新的商业机会和商业模式，才是大家需要去思考的问题。好，这就是我们今天的第一故事。

OpenAI用12天发布会，为业界指明方向。丨从O1到O3，这些革命性进展将如何定义AI未来？

Luke Fan — Wed, 25 Dec 2024 00:51:55 +0000

OpenAI连续12天的发布会到底为世界指明了什么样的方向？大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI的12天发布会已经结束了。首先，从我个人的感受上来说，稍微有一点点失望。没有带来新一代的Dalle，也就是绘图模型；也没有GPT-5，哪怕是GPT-4.5的升级都没有。Sora虽然发布了，但是他所发布出来的产品跟大家的预期是严重不符的。

那么，这12天到底都发了些什么呢？前面7天其实已经录了一期节目进行总结了，咱们这里就不再重复。后边5天，第八天是搜索和实时语音进行了合并。我在前面7天总结最后的时候，讲了一下我说，现在OpenAI发布了大量的工具，是隔离的。语音是语音，搜索是搜索，canvas这种画板，还有其他的很多工具，是相互隔离的。就是你要选择其中一个功能，其他的功能就不能选了。未来的话，一定会逐渐把他们再合并起来。

第八天就给大家演示了通过带有搜索功能的实时语音，解决很多现实的问题。原来实时语音你跟他聊了半天，他是就给你瞎编的，就是截止到某一个时间点的知识，然后以此为基础来跟你去闲聊。现在的话，你就真的可以问他：“今天天气怎么样？哪个地方餐馆是不是定满座位了？”他可以用一些真实的信息来给你回答，这个就会变得非常有趣。甚至，他们还演示了一下去结合地图跟大家做一些回复，说哪个地方有什么什么东西。他可以把这个地图调出来，你附近有哪些好的餐厅，有哪些好玩的地方。

到第九天，叫开发者日。这么多功能出来了以后，他给大家了一些API，也就是像我们这些程序员可以通过API把这些功能集成到我们自己的程序里边去。所以，先给大家看了O1的API进行升级。大家注意，O1原来我们是可以通过API去调用的，只是它很多东西都没有，包括函数调用、结构化输出、视觉输入，这些东西实际上都没有。这些是在4O上都有的东西，但O1上没有。稍微跟大家讲一下什么叫函数调用。

就是我们在调用大模型的时候，按道理说应该是我们给他一个提示词，他就吭哧吭哧就干去了。但为了能够让他有一些更多的功能呢，OpenAI也好，或者很多其他的这种大模型也好，都有这种函数调用功能。就是你跟他描述一下，说这个函数是查天气的，以后遇到查天气，请调用这个函数，直接把这个天气查出来。等于你把一个实际天气预报的网站就可以封装成一个函数，告诉这个大模型，然后它就可以去做这样的工作，等于它就具备了查天气的功能。

这个就叫做函数调用。而所谓结构化输出是什么呢？就是我们正常看到大模型输出的，都是乌七八糟的一大堆话。你想在里边找到真正有用的东西，然后再到下一个模型里去调用的话，有几种方式。第一种呢，就是你再给他一个大模型，说来把这个里头有用的信息总结总结，然后到下一个地方再去使用。但是这种方式呢，会有一个问题，过了大模型这个过程了以后的话，每一次的结果是不可预期的。有的时候找得着，有的时候未必找得着，这个会挺麻烦的。

另外一种方式，就是我们常用的方式，是把它写程序，直接在这个输出的内容里边进行正则表达式的过滤。就是说我过滤一下，这个里头有没有谁的名字呀，有什么性别呀，还有什么这些东西，然后把这些数据拎出来，然后到下一个环节继续使用。以前我们是这么使，但后来OpenAI就发明了一个方式，说哎，我干脆结构化输出吧。我再输出出来的东西，就不是一个完整的文字了，而是把它拆成程序员比较习惯使用的JSON格式。他上来就告诉你，这个人的姓名是什么，性别是什么，然后有3个人形成数组，每一个的属性都按这个方式写好。那这样的话，我们在后边拿程序去接收这个数据的时候，就直接可以拿这个已经结构化好的数据去把相应的信息拎出来，往下一个环节去走。这块还是很棒的。

至于视觉输入的话，他其实干的事情很简单，现在的O1的API可以直接往里塞图片了。原来都是你需要用文字去描述，它是不支持图片的，现在支持了。

这就是O1的API增强的东西。然后呢，给大家演示了一个叫WebRTC。加上WebRTC以后呢，等于我们自己的程序里头就可以有这个实时语音功能了。原来我们没有办法做这个实时语音，是因为呢，我们需要通过像API的方式来去调用它。必须是我先得到了一段声音，然后把声音塞到这个后台的服务器上去，先给我识别说说文字，然后呢，它产生结果，再去给我念。原来是这样。现在的话，就是它可以做WebRTC了。

RTC什么意思呢？叫Real Time Communication，叫实时通讯。所谓实时通讯就是说，你给了它这个音频流或者是视频流，给了它以后呢，它等于实时的去处理了。像我们使用的OpenAI的高级语音功能，就是它是说着说着你可以打断它，它会听到你的声音，然后接着跟你聊。这个东西就是WebRTC实现的。

咱们日常生活中各种的会议软件，还有很多直播软件，实际上它背后用的技术都是WebRTC。那么现在都是我们给大家提供WebRTC的这种API，你也可以让你的应用或者网页呢，拥有这种可以被实时打断的高级语音功能。这个也是一个非常棒的技术，至少对于程序员来说，稍微有点激动人心哦。

还有一个让程序员比较开心的事情，就是API降价。你调用了API，它是按TOKEN来收费的嘛，要每过一段时间都会降价，降一点点。那么又降价了，这个是让程序员开心的事情。

这是第九天开发者日。到第十天呢，发布了一个特别有趣的功能，就是直接电话通话功能。他给ChatGPT申请了一个电话号码，大概是1-800-ChatGPT。大家可以直接给他打电话，而且呢，应该是每一个电话，每个月应该有十几分钟的免费时长，可以去跟他进行通讯。他发布了这么一个有趣的东西，就是你不需要安装APP，上网页登录账号都没有，随时抄起一部电话来，就可以去跟他聊天了。

除了这种方式之外呢，还可以做WhatsApp。你把刚才那个1800……

后边ChatGPT的这个电话号码呢，写在联系人里，以后就可以使用WhatsApp跟他进行通讯了。跟他聊天也是允许的，这样的话，他等于极大地去扩容他的用户层面。很多的老人小孩，原来从来没有接触过电脑，没有接触过网络，没有接触过手机的人，就开始可以成为他的用户了。这个也是很有趣的一个发布吧。

我尝试了一下，我没法使，因为我的WhatsApp是用大陆手机号注册的。我使用大陆的手机号去给他打这个电话的话，肯定他也不会有任何回应，所以呢，就不用费劲了。

这是第十天。到第十一天呢，做了一个Mac桌面版的升级，可以呢看到Notion以及其他笔记软件里边的信息，然后还做了一些高级语音功能的整合，也就是刚才我们讲的ChatGPT的Mac版。你连到本机的Notion以后，或者连到本机的各种应用上，今后你现在可以跟他说话，通过说话的方式来控制这些应用了。

这是第11天。到第12天说终于到最后一天了。我记得到第11天的时候，就去讲说明天特别激动人心。在前边应该是发布apple intelligence那天呢，也在说说这个，以后有一天我们会发布这个AGI的，激动人心的AGI。所以呢，就是留足了悬念，大家就都等第十二天了。终于到第十二天了，坐在这看发什么了。

他发了一个叫O3的模型，这个就实在是太厉害了，都不好意思叫O2，因为前面一个模型叫O1嘛。说O2我们跳过了，我们直接叫O3了。整了这么个东西，是一个非常强大的推理模型，然后也发布了O3 mini，还有一个叫谨慎对齐的技术。

现在呢，这些O3模型呢都是期货，O3 mini是到明年1月底可以跟大家见面，而O3的话还要再往后推一些，据说是在O3 mini发布以后的一个时间跟大家见面。目前呢是开放了安全员申请，就是你可以申请成为安全员，进去呢帮他评测一下他们的安全机制是不是有效。因为这么厉害的模型出来以后的话，一旦是被坏人利用了，那等于坏人也如虎添翼吗。

这个是他们不希望看到的。具体第12天的东西呢，咱们后边详细讲一下，这个还是有点意思的。然后到第十三天，对，连续发布12天嘛。第13天还有事。到第13天呢，山姆奥特曼发了条推特，说从今天开始，Sora一直到年底，免费给大家使用，就是不限额随便使。我估计呢，它Sora发布出来以后，发现完全没有什么热度，没有什么人愿意在上面折腾。因为呢，很多人试了以后发现效果并不好，特别是很多物理bug，比如说多个手指头，或者什么腿往外弯了，两条腿变三条腿了呀，什么这种事情稍微有一点点多。而且呢，他限制非常严，像我到现在在他的Sora上，不可以画有人的视频。所以呢，我就试了一次，以后就再也没登录过。虽然我作为plus用户，每月还是有一些绘画的，或者绘制视频的这个额度的，但是没兴趣。

现在他又出来找补来了，说我们第13天还有东西，就是大家可以继续去使用Sora，作为圣诞庆祝，因为他觉得后边该过圣诞节了，大家都应该去画一些视频出来，然后去四处发发社交媒体，给人祝福祝福，这是一个很好的时间点。但是从现在来看呢，我并没有看到什么响动。怎么叫看到响动？别人画没画我怎么知道呢？也很简单，就是你到Twitter里边去，到YouTube里头去，如果你发现有大量由Sora渲染生成的这种视频在传播，在大家互相的转发点赞，那说明呢，这个策略是成功的。但是他发了这个推特以后呢，我并没有发现有任何变化，所以我觉得这个事情，应该他的目标没有达成。

好，下面呢，咱们稍微详细的讲一下第12天的O3发布吧。O3模型呢，就是这种博士生模型，前面我们还专门录了一期视频，再去讲如果花2,000美元一个月，让你去雇佣一个达到博士级别的AI助手，你到底愿不愿意？那么现在看来，人家也不是无地放矢，实际上都是在为O3去打基础。O3模型呢，在编程比赛里头获得了2,700多分，当场做主持的那哥们大概是做了2,500分，然后旁边的山姆奥特曼就问他说：“你多少分？”

他说2,500，当时那个脸就不是那么好看。但是他马上纠正说：“哎，我知道公司里头是有人得到3,000分的。”对于他们来说，我估计达到2,500就已经很强了。因为那个比赛我自己没有跑过，但是我估计以我的能力，应该是差得比较远。因为现在脑子已经比较木了，不是原来每天坐那写程序的那种脑子了。

然后呢，他说：“哎，公司里有人是3,000分的。”然后山姆·奥特曼的反应特别逗，他说：“这个3,000分，这哥们也蹦跶不了几天了。”为什么呢？因为以AI的进化速度，他想去追上人类的这一点点分数差异是非常容易的。特别是在这种规则比较明确的挑战赛上，人类是不太可能很长时间保持优势的。

第二个是参加数学竞赛，也得到了一个非常高的分数，就做错了一个题。山姆·奥特曼就想起来问说：“兄弟，你那个数学竞赛考了多少分？”那哥们赶快松了一口气，在老板面前保住面子了。他说：“我是满分，我一个题也没错。”后来又赶快找补，他说：“我是做出过满分答案的。”

对于这个O3来说，对于这种大模型来说，你让他反复去做，他最后肯定也是能够做出满分答案的。甚至原来还有那种猴子理论，就是你让一堆猴子在这随机的点点点，或者随机的打字的话，都有可能能够形成有意义的长文本。所以你让O3反复叙事，他肯定也能够达到满分，这个不用担心。我估计这哥们也是压力挺大的，老板坐在旁边，随便出点什么数：“你多少分？”这个还是稍微有一点点吓人。

而且他说他满分了以后，估计他也想明白了：“说不对，这个不是老板在面试我，不是在考教我，我们是在发布新产品，还是要说产品牛。”然后赶快又找补回来了这个东西，这个也是很厉害的。但这一点上呢，一定是O3体现出了极强的编程能力和数学能力。

然后参加了一个叫ARC AGI的测试，这呢是一个全球可以开放的测试，所有做AI的人都可以去拿自己的模型上面去跑去。GPT-3在里面大概是0分，GPT-4是5分，4O可能比这个4稍微好那么一点点，O3的话是达到了87.5分。

这是一个非常非常高的分数了。人类的平均水平是84分，所以它已经超过人类了。我们正式向AGI进发了。这个比赛呢，超过85分的就可以获得60万美金的奖励，还是一个非常棒的比赛。但是呢，它也展示了另外一个事情，就是O3模型的运行是需要超高的运行成本的。

为了应对这个超高运行成本，他们还设计了一个很有趣的东西，就是在你每一次向O3问问题的时候，可以设置说，我到底是用这个高成本运算、中成本运算，还是用低成本运算，而不是像原来使用GPT式的，就是你只管问，它自己来根据你的问题决定使用多少算力、多少成本来算出结果来。

他们参加这个ARC AGI的测试的时候，如果使用低成本运算的话，只能得到75.7分。虽然没有达到人类的平均水平，但已经很高了。然而，这样的75.7分的结果是用20美金算出来的，不是20美金一个月，而是20美金一次哦。这是非常非常恐怖的。

他们刚才说的这个87.5的分数，超过人类平均智力水平，这个分数是用高成本算出来的。他算一次需要花几千美金，这是非常吓人的。所以前面录节目讲的这个2000美金一个月的，我觉得2000美金未必够他烧的。就是你按照运转一次就需要花几千美金的这种高成本运算来算的话，那这个收费的方式可能还需要重新思考一下。

除了发布这个O3之外，还有O3mini。O3mini呢，是高中低三档算力开关，也是如此。效能呢做了很大的提升，低成本推理这一档呢，速度很快，基本上跟GPT4O的速度是一样的。现在我们使用O1 mini、O1这样的模型的话，它的速度是非常慢的，你需要等半天才能有结果出来。但是呢，使用O3mini基本上是可以达到4O水平的。

然后使用中档推理的时候，可以达到O1的这个效果，但肯定它比O1要便宜嘛，因为它是叫迷你的一个版本嘛。但是呢，它的运算的结果跟O1是一样的，但是高档就没事没得比了嘛。

而且呢，O3 mini呢，提供了丰富的API，就是结构化输出函数调用，这些都给了大家可以去写程序去使用了。但是O3的API到底长什么样，这个就不好说了。除了O3和O3 mini之外呢，还发布了一个东西叫谨慎对齐。你发了这么神奇的东西，万一有坏人用怎么办呢？所以这个事情一定要去讲一下。

他们整了这样的一个谨慎对齐，实际上是什么？这是原来我们要去对齐的时候，或者说我们要去甄别用户提进来的提示词，是不是恶意或者隐藏恶意的时候呢，他们以前都是通过这种静态的关键词去进行过滤的。现在说不用了，我们训练了一个模型，然后这个模型呢，自己可以推理出一个标准来，灵活地去甄别每一次的提示词。但是这个呢，现在请大家报名去做测试，看看到底能不能突破它。因为我对于他们的这种数学和推理能力，其实是缺乏理解的。就是以我的这个理解状态来说，我觉得这个谨慎对齐的这些安全方式的话，应该突破不难。这个等他慢慢后面进化去吧。

通过第三天的发布呢，我们看到了一个非常有趣的现象，也就是OpenAI的用人原则。他们其实就是通过各种的智力测验、各种的编程比赛、数学比赛，挑了一堆的这种天才儿童坐在这。但是我们去讲“天才儿童”这个词的时候，听到的朋友们，你觉得这是一个完全正面褒义的词吗？好像不是吧。

现在这一群的天才儿童坐在一起，给我们带来的产品就是O3、O3 mini，一些普通人已经完全无法去理解和使用的一个强推理模型。没有给我们所期盼的普通人能够用的GPT-4.5或者GPT-5，而是给了我们一个O3。我们对天才儿童的这种认知，一般是什么样的？咱们从字面意思上去理解的话，大概是这样。这帮人在某一些特定的环境下，已经跑得非常远了，一骑绝尘跑出去了，让其他人完全无法望其项背了。但是呢，对于正常的生活，柴米油盐酱醋茶来说，基本上是弱智。反正至少我的对于天才儿童的理解是这样的。所以呢，现在GPT的O3以及他的谨慎对齐的话。

我基本上是按照天才儿童的方式来理解他们的，这个事没有什么依据，这就是完全的感受。好，这就是第十二天发布的产品了。往后呢，我们来讲一下OpenAI的方向判断，通过12天的发布，他们到底想干什么，这个我们要去看一下。

第一个，OpenAI现在一定是希望拉更多的用户进来，甭管是Apple Intelligence，还是直接可以给他打电话，直接可以用WhatsApp跟他联系。他还是希望拉更多的用户进来，而且呢，可以覆盖更大的应用范围，比如CANVAS Project或者其他一些新的功能。它希望可以覆盖很多原来，比如说Office或者是其他的一些软件所覆盖的这些功能。

包括第11天所演示的ChatGPT麦克端的APP，可以直接跟大家的Notion、Notebook也可以跟这些产品一起工作的这个能力。他希望把AI带到所有的边边角角、方方面面里边去。我觉得这个Notion AI可以哭晕在厕所里边了。

另外一块呢就是降价。OpenAI的降价其实一直都没有停下来，每过一段时间就会降价。但是对于普通用户来说，你一个月20美金也好，或者是200美金，或者其他这种版本也好，这个它不会降。但是什么东西在降价呢？就是API在降价。每过一段时间API就会降价，降价的原因呢，就是现在其实我们在程序员使用API调用的各种大模型里面，OpenAI的ChatGPT还算是最好用的之一。现在只能算之一了，因为呢，它跟这个Anthropic Claude 3.5 Sonnet比起来，算是不分伯仲吧。在这样的一个情况下，他只要是不断的降低API TOKEN的成本，那么我们这些人就会继续去使用他的API，那么他就可以很有效地去挤压他的竞争对手。这件事情一直在前进，然后瞄准高端狂奔，这就是这一次12天发布会里的实际最主要的东西。像第一天欧一完整版。

第二天，什么是强化学习？然后到最后，上了一个O3。中间其实还有很多，是专门进行这种研究型应用的模型，已经完全脱离了普通人使用的这种模型。这个方向其实在O1的时候就已经指明了，我们要向这个方向前进，不再去做5了，或者再做什么这些东西了，我们就要去做强推理。

在这样的方向指明了以后，现在谷歌、国内的像Moonshot、Deepseek、阿里这些都已经纷纷跟进，分别推出了自己的数学模型。谷歌推出的叫Gemini 2.0，Flash Thinking，Kimi的话应该也是推出了一个叫m系列的模型。Deepseek应该也有一个类似的模型，国内还有一些这种数学模型。阿里推出的叫QWQ，也就是通义千问QWQ模型。有一些我已经用过了，效果其实还可以。

OpenAI已经成功地把整个行业的方向向着研究方向带过去了。再往下一步，OpenAI要做的事情，继续是各种工具之间的联通和统合，这里还有很多工作需要做。你比如说，现在你想用CANVAS的时候，还是不能用搜索。虽然可以在实时语音里头用搜索，但在CANVAS里用不了。CANVAS跟其他各种功能结合起来，或者绘图什么结合起来，这个还需要逐渐把它自己这些功能打通，这需要下功夫。

然后，面向普通人的大模型进化，OpenAI还在探索。现在有传闻说，GPT-5训练了几次，效果不好，依然在训练。就是成本非常非常高，周期很长，训练一次几个月的时间，花5亿美金才能训练一次，但是训练了两次都没有出来结果。不过目前这些都是传闻，我自己也没有详细考证过，还是慢慢等进一步详细的消息出来吧。

那么未来AICC行业的方向是什么？这刚才我们讲了OpenAI的方向。大家要注意，12天连续发布会，实际上对整个行业来说，有一个重大的利好。这个利好是什么呢？就是两大困扰创业者的问题。

有一个暂时没有爆发。两个问题是什么？第一个是底层架构不稳定，第二个呢，是上层应用被覆盖。这个什么意思？咱们先想后边这个。就是你吭哧瘪肚坐半天，等OpenAI再去开发布会的时候，你发现你的功能被覆盖掉了，你的事情白干了。就是每一次OpenAI一开发布会，就说又有一大片的创业公司倒下了，就是功能被它覆盖了。这个问题依然没有解决。

这一次这个OpenAI 12天发布会里头，依然是覆盖了一些东西，比如说ChatGPT的Mac客户端可以直接跟Notion结合了。那么Notion AI的一部分功能实际上是被它覆盖掉了。甚至呢，Mac端的ChatGPT的应用可以直接跟各种的IDE开发工具去结合去写程序了。为了应对这件事，微软说来GitHub Copilot免费了。所以现在你想写程序的话，可以直接使最好的那个，不用去跟其他的那些免费模型较劲了。这也是这个倒逼微软降价吧。所以这块依然没有解决。

但是另外一个问题呢，基本解决了。什么呢？就是底层架构的不稳定。原来你要去做一个创业，说：“哎，我在GPT2的基础上做了一个东西。”等你这个东西吭哧瘪肚开发了一年，写出来了，人家说我GPT3出来了。那说咱们升级，GPT3上我吭哧瘪肚写了半年，又把它写出来了。我3.5了，那咱再升级，又吭哧瘪肚写了一年，说我这个现在是完全适应GPT3.5的了。我们要去开发布会了，正要出门了，我们这个GPT4出来了，然后4O出来了。这个就叫底层架构不稳定。

现在一看说，哎，5依然遥遥无期，5的各种特性都不知道。因为我告诉你，不需要把5做出来。如果OpenAI能够做出来，说我5是按哪个方向做的，朝哪个方向发展的，这个事他如果敢出来说的话，那么整个行业就会奔着那个方向开始跑。就跟他2024年年初说我要做Sora，我放了一堆演示出来的过程是一样的。实际上他已经把整个行业带着跑了一年了。所以现在5到底是什么样，不知道。那么这件事就算稳定了。

底层基本上稳定了。现在呢，甭管是LLama、通义千问、Gemini、Claude、OpenAI，还有其他的各种模型，都基本上停留在GPT-4的这样一个水平上，上上下下吧。然后呢，他们的调用方式，整个的反馈的这个结构基本上是跟OpenAI一致的。就OpenAI制定了一个标准，规定好了这个东西是怎么调用的，提示词大概怎么写，调用的时候是分几个命令进去，出来了以后可以有哪些功能。像刚才我们讲的什么函数调用、这个结构化输出，这些东西其他人都是照这个标准做的。

所以呢，现在再去做什么应用，或者做AI Agent，大量的这种工作流都串起来，干这个事情的话，那中间的这些大模型就有极强的可替代性。我用OpenAI可以用，我用Gemini可以用，我用Claude可以用，我可以随便换。这个的话，其实是对于开发者来说，或者对于创业者来说，是一个巨大的好消息。就是底层暂时稳定了，大家赶快冲上去，把一些具体的应用做掉，这是很好的机会。

OpenAI自己呢，还会继续去将各种分散的功能逐步整合起来。所以在这个时候，千万不要尝试去做拼接工具。什么意思呢？你比如说，哎，我现在是不是做一个带有搜索的CANVAS功能？这个你就别费劲了。你要相信我，OpenAI自己一定可以搞定这个事。而且他一旦搞定了以后，你做的那个产品一定会被覆盖掉，这个事不要去干，直接面向混合后的OpenAI功能就可以了。

你比如说，我们认为带有搜索和这个项目功能的OpenAI的这种API未来会出来，那么我们就直接以此为目标进行开发就行了。等它一出来的时候，我们其他东西就开发完了，这也许是一个方向和玩法。那么用户交互方面呢，肯定还是会有很多可以值得探索的东西。这一次OpenAI给了我们两个提示，第一个提示就是如何让AI更好地跟现有的系统相结合，到底是通过Mac上面的ChatGPT APP。

直接去跟各种APP进行结合，还是说我到这个网页里边，直接给你上canvas或上画板，这块呢是大家值得去探索的，也是呢这个OpenAI给大家做的一些演示或指明的方向吧。这块是值得去试试的。

另外一块的话，就是如何将复杂的需求准确地表达给AI，这个是OpenAI这一次开发布会的时候给大家演示了。那说哪一个是做的这块的演示呢？Sora的故事版。我怎么能够把一个有持续的信息分成持续提进去？这个其实是OpenAI给大家做了一个创新，虽然这个创新很小，但呢非常有意义。

以后我们不用再去想说，我如何可以在一个提示词里一次性把一个完整视频所需要的信息都扔进去。你可以在故事版上，在时间线上，这个地方要干什么，那个地方要扭个头，这个地方要变个颜色，这个时间点要起始，要画什么东西，然后到几分几秒的某一个时间点，这个主人公向哪个方向走，或者做什么动作，或者到几分几秒这个颜色发生什么变化，或者亮起什么样的灯光。他可以通过这样的方式呢，进行更精确的有持续性的信息输入。

而且这些的话，应该会很快被像什么吉梦、可灵、Runway这些模型应用起来，这个我觉得可能一两个月就会看到变化了。现在呢是研究和推理领域，肯定会越来越小众。面向普通用户的方向的话，各种的APP，各种的这个用户交互方式，这块呢现在大家就可以去干了，2025年应该是这一块可以出成绩的时候。

另外呢，就是具身智能必然会爆发。其实我们这一次看OpenAI 12天的连续发布会里头，真正让我感觉很震撼的东西是什么？就是带有视觉的高级语音。你可以开着摄像头对着自己跟他聊天了。这种东西你扔给了具身智能的机器人，再要求OpenAI直接输出代码，说来你给我输出代码，然后我用这个代码去控制机械手。技术变化了以后再给你进行一些反馈。

现在的OpenAI大模型，其实已经距离控制机器人非常非常接近了。所以呢，这些机器人公司应该发力了。

新的具身智能未必长得像人，只需要做好插件、传感器、动作执行以及反馈这一块就行了。下边就是怎么提高技能、提高准确度、降低成本。这就是2025年可能提给所有具身智能行业的一个要求了。后边大模型的部分不用管了，扔给OpenAI就完事了。

带有视觉的实时语音，会改变每一个人的生活方式。这个智能的硬件产品包括一些新软件产品或者网页，在2025年的话，应该会有非常多的涌现。

最终总结，2025年依然是AIGC的一年。虽然前面OpenAI连续12天的发布会让我感到稍微有些失望，但是他还是尽到了责任。不是说发布了什么让我特别感到眼前一亮的革命性产品或者什么iPhone时刻，没有。但是呢，他依然作为老大，执行使了他的义务，就是为整个行业指明了方向。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。