函数调用 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI用12天发布会，为业界指明方向。丨从O1到O3，这些革命性进展将如何定义AI未来？

Luke Fan — Wed, 25 Dec 2024 00:51:55 +0000

OpenAI连续12天的发布会到底为世界指明了什么样的方向？大家好，欢迎收听老范讲故事的YouTube频道。

OpenAI的12天发布会已经结束了。首先，从我个人的感受上来说，稍微有一点点失望。没有带来新一代的Dalle，也就是绘图模型；也没有GPT-5，哪怕是GPT-4.5的升级都没有。Sora虽然发布了，但是他所发布出来的产品跟大家的预期是严重不符的。

那么，这12天到底都发了些什么呢？前面7天其实已经录了一期节目进行总结了，咱们这里就不再重复。后边5天，第八天是搜索和实时语音进行了合并。我在前面7天总结最后的时候，讲了一下我说，现在OpenAI发布了大量的工具，是隔离的。语音是语音，搜索是搜索，canvas这种画板，还有其他的很多工具，是相互隔离的。就是你要选择其中一个功能，其他的功能就不能选了。未来的话，一定会逐渐把他们再合并起来。

第八天就给大家演示了通过带有搜索功能的实时语音，解决很多现实的问题。原来实时语音你跟他聊了半天，他是就给你瞎编的，就是截止到某一个时间点的知识，然后以此为基础来跟你去闲聊。现在的话，你就真的可以问他：“今天天气怎么样？哪个地方餐馆是不是定满座位了？”他可以用一些真实的信息来给你回答，这个就会变得非常有趣。甚至，他们还演示了一下去结合地图跟大家做一些回复，说哪个地方有什么什么东西。他可以把这个地图调出来，你附近有哪些好的餐厅，有哪些好玩的地方。

到第九天，叫开发者日。这么多功能出来了以后，他给大家了一些API，也就是像我们这些程序员可以通过API把这些功能集成到我们自己的程序里边去。所以，先给大家看了O1的API进行升级。大家注意，O1原来我们是可以通过API去调用的，只是它很多东西都没有，包括函数调用、结构化输出、视觉输入，这些东西实际上都没有。这些是在4O上都有的东西，但O1上没有。稍微跟大家讲一下什么叫函数调用。

就是我们在调用大模型的时候，按道理说应该是我们给他一个提示词，他就吭哧吭哧就干去了。但为了能够让他有一些更多的功能呢，OpenAI也好，或者很多其他的这种大模型也好，都有这种函数调用功能。就是你跟他描述一下，说这个函数是查天气的，以后遇到查天气，请调用这个函数，直接把这个天气查出来。等于你把一个实际天气预报的网站就可以封装成一个函数，告诉这个大模型，然后它就可以去做这样的工作，等于它就具备了查天气的功能。

这个就叫做函数调用。而所谓结构化输出是什么呢？就是我们正常看到大模型输出的，都是乌七八糟的一大堆话。你想在里边找到真正有用的东西，然后再到下一个模型里去调用的话，有几种方式。第一种呢，就是你再给他一个大模型，说来把这个里头有用的信息总结总结，然后到下一个地方再去使用。但是这种方式呢，会有一个问题，过了大模型这个过程了以后的话，每一次的结果是不可预期的。有的时候找得着，有的时候未必找得着，这个会挺麻烦的。

另外一种方式，就是我们常用的方式，是把它写程序，直接在这个输出的内容里边进行正则表达式的过滤。就是说我过滤一下，这个里头有没有谁的名字呀，有什么性别呀，还有什么这些东西，然后把这些数据拎出来，然后到下一个环节继续使用。以前我们是这么使，但后来OpenAI就发明了一个方式，说哎，我干脆结构化输出吧。我再输出出来的东西，就不是一个完整的文字了，而是把它拆成程序员比较习惯使用的JSON格式。他上来就告诉你，这个人的姓名是什么，性别是什么，然后有3个人形成数组，每一个的属性都按这个方式写好。那这样的话，我们在后边拿程序去接收这个数据的时候，就直接可以拿这个已经结构化好的数据去把相应的信息拎出来，往下一个环节去走。这块还是很棒的。

至于视觉输入的话，他其实干的事情很简单，现在的O1的API可以直接往里塞图片了。原来都是你需要用文字去描述，它是不支持图片的，现在支持了。

这就是O1的API增强的东西。然后呢，给大家演示了一个叫WebRTC。加上WebRTC以后呢，等于我们自己的程序里头就可以有这个实时语音功能了。原来我们没有办法做这个实时语音，是因为呢，我们需要通过像API的方式来去调用它。必须是我先得到了一段声音，然后把声音塞到这个后台的服务器上去，先给我识别说说文字，然后呢，它产生结果，再去给我念。原来是这样。现在的话，就是它可以做WebRTC了。

RTC什么意思呢？叫Real Time Communication，叫实时通讯。所谓实时通讯就是说，你给了它这个音频流或者是视频流，给了它以后呢，它等于实时的去处理了。像我们使用的OpenAI的高级语音功能，就是它是说着说着你可以打断它，它会听到你的声音，然后接着跟你聊。这个东西就是WebRTC实现的。

咱们日常生活中各种的会议软件，还有很多直播软件，实际上它背后用的技术都是WebRTC。那么现在都是我们给大家提供WebRTC的这种API，你也可以让你的应用或者网页呢，拥有这种可以被实时打断的高级语音功能。这个也是一个非常棒的技术，至少对于程序员来说，稍微有点激动人心哦。

还有一个让程序员比较开心的事情，就是API降价。你调用了API，它是按TOKEN来收费的嘛，要每过一段时间都会降价，降一点点。那么又降价了，这个是让程序员开心的事情。

这是第九天开发者日。到第十天呢，发布了一个特别有趣的功能，就是直接电话通话功能。他给ChatGPT申请了一个电话号码，大概是1-800-ChatGPT。大家可以直接给他打电话，而且呢，应该是每一个电话，每个月应该有十几分钟的免费时长，可以去跟他进行通讯。他发布了这么一个有趣的东西，就是你不需要安装APP，上网页登录账号都没有，随时抄起一部电话来，就可以去跟他聊天了。

除了这种方式之外呢，还可以做WhatsApp。你把刚才那个1800……

后边ChatGPT的这个电话号码呢，写在联系人里，以后就可以使用WhatsApp跟他进行通讯了。跟他聊天也是允许的，这样的话，他等于极大地去扩容他的用户层面。很多的老人小孩，原来从来没有接触过电脑，没有接触过网络，没有接触过手机的人，就开始可以成为他的用户了。这个也是很有趣的一个发布吧。

我尝试了一下，我没法使，因为我的WhatsApp是用大陆手机号注册的。我使用大陆的手机号去给他打这个电话的话，肯定他也不会有任何回应，所以呢，就不用费劲了。

这是第十天。到第十一天呢，做了一个Mac桌面版的升级，可以呢看到Notion以及其他笔记软件里边的信息，然后还做了一些高级语音功能的整合，也就是刚才我们讲的ChatGPT的Mac版。你连到本机的Notion以后，或者连到本机的各种应用上，今后你现在可以跟他说话，通过说话的方式来控制这些应用了。

这是第11天。到第12天说终于到最后一天了。我记得到第11天的时候，就去讲说明天特别激动人心。在前边应该是发布apple intelligence那天呢，也在说说这个，以后有一天我们会发布这个AGI的，激动人心的AGI。所以呢，就是留足了悬念，大家就都等第十二天了。终于到第十二天了，坐在这看发什么了。

他发了一个叫O3的模型，这个就实在是太厉害了，都不好意思叫O2，因为前面一个模型叫O1嘛。说O2我们跳过了，我们直接叫O3了。整了这么个东西，是一个非常强大的推理模型，然后也发布了O3 mini，还有一个叫谨慎对齐的技术。

现在呢，这些O3模型呢都是期货，O3 mini是到明年1月底可以跟大家见面，而O3的话还要再往后推一些，据说是在O3 mini发布以后的一个时间跟大家见面。目前呢是开放了安全员申请，就是你可以申请成为安全员，进去呢帮他评测一下他们的安全机制是不是有效。因为这么厉害的模型出来以后的话，一旦是被坏人利用了，那等于坏人也如虎添翼吗。

这个是他们不希望看到的。具体第12天的东西呢，咱们后边详细讲一下，这个还是有点意思的。然后到第十三天，对，连续发布12天嘛。第13天还有事。到第13天呢，山姆奥特曼发了条推特，说从今天开始，Sora一直到年底，免费给大家使用，就是不限额随便使。我估计呢，它Sora发布出来以后，发现完全没有什么热度，没有什么人愿意在上面折腾。因为呢，很多人试了以后发现效果并不好，特别是很多物理bug，比如说多个手指头，或者什么腿往外弯了，两条腿变三条腿了呀，什么这种事情稍微有一点点多。而且呢，他限制非常严，像我到现在在他的Sora上，不可以画有人的视频。所以呢，我就试了一次，以后就再也没登录过。虽然我作为plus用户，每月还是有一些绘画的，或者绘制视频的这个额度的，但是没兴趣。

现在他又出来找补来了，说我们第13天还有东西，就是大家可以继续去使用Sora，作为圣诞庆祝，因为他觉得后边该过圣诞节了，大家都应该去画一些视频出来，然后去四处发发社交媒体，给人祝福祝福，这是一个很好的时间点。但是从现在来看呢，我并没有看到什么响动。怎么叫看到响动？别人画没画我怎么知道呢？也很简单，就是你到Twitter里边去，到YouTube里头去，如果你发现有大量由Sora渲染生成的这种视频在传播，在大家互相的转发点赞，那说明呢，这个策略是成功的。但是他发了这个推特以后呢，我并没有发现有任何变化，所以我觉得这个事情，应该他的目标没有达成。

好，下面呢，咱们稍微详细的讲一下第12天的O3发布吧。O3模型呢，就是这种博士生模型，前面我们还专门录了一期视频，再去讲如果花2,000美元一个月，让你去雇佣一个达到博士级别的AI助手，你到底愿不愿意？那么现在看来，人家也不是无地放矢，实际上都是在为O3去打基础。O3模型呢，在编程比赛里头获得了2,700多分，当场做主持的那哥们大概是做了2,500分，然后旁边的山姆奥特曼就问他说：“你多少分？”

他说2,500，当时那个脸就不是那么好看。但是他马上纠正说：“哎，我知道公司里头是有人得到3,000分的。”对于他们来说，我估计达到2,500就已经很强了。因为那个比赛我自己没有跑过，但是我估计以我的能力，应该是差得比较远。因为现在脑子已经比较木了，不是原来每天坐那写程序的那种脑子了。

然后呢，他说：“哎，公司里有人是3,000分的。”然后山姆·奥特曼的反应特别逗，他说：“这个3,000分，这哥们也蹦跶不了几天了。”为什么呢？因为以AI的进化速度，他想去追上人类的这一点点分数差异是非常容易的。特别是在这种规则比较明确的挑战赛上，人类是不太可能很长时间保持优势的。

第二个是参加数学竞赛，也得到了一个非常高的分数，就做错了一个题。山姆·奥特曼就想起来问说：“兄弟，你那个数学竞赛考了多少分？”那哥们赶快松了一口气，在老板面前保住面子了。他说：“我是满分，我一个题也没错。”后来又赶快找补，他说：“我是做出过满分答案的。”

对于这个O3来说，对于这种大模型来说，你让他反复去做，他最后肯定也是能够做出满分答案的。甚至原来还有那种猴子理论，就是你让一堆猴子在这随机的点点点，或者随机的打字的话，都有可能能够形成有意义的长文本。所以你让O3反复叙事，他肯定也能够达到满分，这个不用担心。我估计这哥们也是压力挺大的，老板坐在旁边，随便出点什么数：“你多少分？”这个还是稍微有一点点吓人。

而且他说他满分了以后，估计他也想明白了：“说不对，这个不是老板在面试我，不是在考教我，我们是在发布新产品，还是要说产品牛。”然后赶快又找补回来了这个东西，这个也是很厉害的。但这一点上呢，一定是O3体现出了极强的编程能力和数学能力。

然后参加了一个叫ARC AGI的测试，这呢是一个全球可以开放的测试，所有做AI的人都可以去拿自己的模型上面去跑去。GPT-3在里面大概是0分，GPT-4是5分，4O可能比这个4稍微好那么一点点，O3的话是达到了87.5分。

这是一个非常非常高的分数了。人类的平均水平是84分，所以它已经超过人类了。我们正式向AGI进发了。这个比赛呢，超过85分的就可以获得60万美金的奖励，还是一个非常棒的比赛。但是呢，它也展示了另外一个事情，就是O3模型的运行是需要超高的运行成本的。

为了应对这个超高运行成本，他们还设计了一个很有趣的东西，就是在你每一次向O3问问题的时候，可以设置说，我到底是用这个高成本运算、中成本运算，还是用低成本运算，而不是像原来使用GPT式的，就是你只管问，它自己来根据你的问题决定使用多少算力、多少成本来算出结果来。

他们参加这个ARC AGI的测试的时候，如果使用低成本运算的话，只能得到75.7分。虽然没有达到人类的平均水平，但已经很高了。然而，这样的75.7分的结果是用20美金算出来的，不是20美金一个月，而是20美金一次哦。这是非常非常恐怖的。

他们刚才说的这个87.5的分数，超过人类平均智力水平，这个分数是用高成本算出来的。他算一次需要花几千美金，这是非常吓人的。所以前面录节目讲的这个2000美金一个月的，我觉得2000美金未必够他烧的。就是你按照运转一次就需要花几千美金的这种高成本运算来算的话，那这个收费的方式可能还需要重新思考一下。

除了发布这个O3之外，还有O3mini。O3mini呢，是高中低三档算力开关，也是如此。效能呢做了很大的提升，低成本推理这一档呢，速度很快，基本上跟GPT4O的速度是一样的。现在我们使用O1 mini、O1这样的模型的话，它的速度是非常慢的，你需要等半天才能有结果出来。但是呢，使用O3mini基本上是可以达到4O水平的。

然后使用中档推理的时候，可以达到O1的这个效果，但肯定它比O1要便宜嘛，因为它是叫迷你的一个版本嘛。但是呢，它的运算的结果跟O1是一样的，但是高档就没事没得比了嘛。

而且呢，O3 mini呢，提供了丰富的API，就是结构化输出函数调用，这些都给了大家可以去写程序去使用了。但是O3的API到底长什么样，这个就不好说了。除了O3和O3 mini之外呢，还发布了一个东西叫谨慎对齐。你发了这么神奇的东西，万一有坏人用怎么办呢？所以这个事情一定要去讲一下。

他们整了这样的一个谨慎对齐，实际上是什么？这是原来我们要去对齐的时候，或者说我们要去甄别用户提进来的提示词，是不是恶意或者隐藏恶意的时候呢，他们以前都是通过这种静态的关键词去进行过滤的。现在说不用了，我们训练了一个模型，然后这个模型呢，自己可以推理出一个标准来，灵活地去甄别每一次的提示词。但是这个呢，现在请大家报名去做测试，看看到底能不能突破它。因为我对于他们的这种数学和推理能力，其实是缺乏理解的。就是以我的这个理解状态来说，我觉得这个谨慎对齐的这些安全方式的话，应该突破不难。这个等他慢慢后面进化去吧。

通过第三天的发布呢，我们看到了一个非常有趣的现象，也就是OpenAI的用人原则。他们其实就是通过各种的智力测验、各种的编程比赛、数学比赛，挑了一堆的这种天才儿童坐在这。但是我们去讲“天才儿童”这个词的时候，听到的朋友们，你觉得这是一个完全正面褒义的词吗？好像不是吧。

现在这一群的天才儿童坐在一起，给我们带来的产品就是O3、O3 mini，一些普通人已经完全无法去理解和使用的一个强推理模型。没有给我们所期盼的普通人能够用的GPT-4.5或者GPT-5，而是给了我们一个O3。我们对天才儿童的这种认知，一般是什么样的？咱们从字面意思上去理解的话，大概是这样。这帮人在某一些特定的环境下，已经跑得非常远了，一骑绝尘跑出去了，让其他人完全无法望其项背了。但是呢，对于正常的生活，柴米油盐酱醋茶来说，基本上是弱智。反正至少我的对于天才儿童的理解是这样的。所以呢，现在GPT的O3以及他的谨慎对齐的话。

我基本上是按照天才儿童的方式来理解他们的，这个事没有什么依据，这就是完全的感受。好，这就是第十二天发布的产品了。往后呢，我们来讲一下OpenAI的方向判断，通过12天的发布，他们到底想干什么，这个我们要去看一下。

第一个，OpenAI现在一定是希望拉更多的用户进来，甭管是Apple Intelligence，还是直接可以给他打电话，直接可以用WhatsApp跟他联系。他还是希望拉更多的用户进来，而且呢，可以覆盖更大的应用范围，比如CANVAS Project或者其他一些新的功能。它希望可以覆盖很多原来，比如说Office或者是其他的一些软件所覆盖的这些功能。

包括第11天所演示的ChatGPT麦克端的APP，可以直接跟大家的Notion、Notebook也可以跟这些产品一起工作的这个能力。他希望把AI带到所有的边边角角、方方面面里边去。我觉得这个Notion AI可以哭晕在厕所里边了。

另外一块呢就是降价。OpenAI的降价其实一直都没有停下来，每过一段时间就会降价。但是对于普通用户来说，你一个月20美金也好，或者是200美金，或者其他这种版本也好，这个它不会降。但是什么东西在降价呢？就是API在降价。每过一段时间API就会降价，降价的原因呢，就是现在其实我们在程序员使用API调用的各种大模型里面，OpenAI的ChatGPT还算是最好用的之一。现在只能算之一了，因为呢，它跟这个Anthropic Claude 3.5 Sonnet比起来，算是不分伯仲吧。在这样的一个情况下，他只要是不断的降低API TOKEN的成本，那么我们这些人就会继续去使用他的API，那么他就可以很有效地去挤压他的竞争对手。这件事情一直在前进，然后瞄准高端狂奔，这就是这一次12天发布会里的实际最主要的东西。像第一天欧一完整版。

第二天，什么是强化学习？然后到最后，上了一个O3。中间其实还有很多，是专门进行这种研究型应用的模型，已经完全脱离了普通人使用的这种模型。这个方向其实在O1的时候就已经指明了，我们要向这个方向前进，不再去做5了，或者再做什么这些东西了，我们就要去做强推理。

在这样的方向指明了以后，现在谷歌、国内的像Moonshot、Deepseek、阿里这些都已经纷纷跟进，分别推出了自己的数学模型。谷歌推出的叫Gemini 2.0，Flash Thinking，Kimi的话应该也是推出了一个叫m系列的模型。Deepseek应该也有一个类似的模型，国内还有一些这种数学模型。阿里推出的叫QWQ，也就是通义千问QWQ模型。有一些我已经用过了，效果其实还可以。

OpenAI已经成功地把整个行业的方向向着研究方向带过去了。再往下一步，OpenAI要做的事情，继续是各种工具之间的联通和统合，这里还有很多工作需要做。你比如说，现在你想用CANVAS的时候，还是不能用搜索。虽然可以在实时语音里头用搜索，但在CANVAS里用不了。CANVAS跟其他各种功能结合起来，或者绘图什么结合起来，这个还需要逐渐把它自己这些功能打通，这需要下功夫。

然后，面向普通人的大模型进化，OpenAI还在探索。现在有传闻说，GPT-5训练了几次，效果不好，依然在训练。就是成本非常非常高，周期很长，训练一次几个月的时间，花5亿美金才能训练一次，但是训练了两次都没有出来结果。不过目前这些都是传闻，我自己也没有详细考证过，还是慢慢等进一步详细的消息出来吧。

那么未来AICC行业的方向是什么？这刚才我们讲了OpenAI的方向。大家要注意，12天连续发布会，实际上对整个行业来说，有一个重大的利好。这个利好是什么呢？就是两大困扰创业者的问题。

有一个暂时没有爆发。两个问题是什么？第一个是底层架构不稳定，第二个呢，是上层应用被覆盖。这个什么意思？咱们先想后边这个。就是你吭哧瘪肚坐半天，等OpenAI再去开发布会的时候，你发现你的功能被覆盖掉了，你的事情白干了。就是每一次OpenAI一开发布会，就说又有一大片的创业公司倒下了，就是功能被它覆盖了。这个问题依然没有解决。

这一次这个OpenAI 12天发布会里头，依然是覆盖了一些东西，比如说ChatGPT的Mac客户端可以直接跟Notion结合了。那么Notion AI的一部分功能实际上是被它覆盖掉了。甚至呢，Mac端的ChatGPT的应用可以直接跟各种的IDE开发工具去结合去写程序了。为了应对这件事，微软说来GitHub Copilot免费了。所以现在你想写程序的话，可以直接使最好的那个，不用去跟其他的那些免费模型较劲了。这也是这个倒逼微软降价吧。所以这块依然没有解决。

但是另外一个问题呢，基本解决了。什么呢？就是底层架构的不稳定。原来你要去做一个创业，说：“哎，我在GPT2的基础上做了一个东西。”等你这个东西吭哧瘪肚开发了一年，写出来了，人家说我GPT3出来了。那说咱们升级，GPT3上我吭哧瘪肚写了半年，又把它写出来了。我3.5了，那咱再升级，又吭哧瘪肚写了一年，说我这个现在是完全适应GPT3.5的了。我们要去开发布会了，正要出门了，我们这个GPT4出来了，然后4O出来了。这个就叫底层架构不稳定。

现在一看说，哎，5依然遥遥无期，5的各种特性都不知道。因为我告诉你，不需要把5做出来。如果OpenAI能够做出来，说我5是按哪个方向做的，朝哪个方向发展的，这个事他如果敢出来说的话，那么整个行业就会奔着那个方向开始跑。就跟他2024年年初说我要做Sora，我放了一堆演示出来的过程是一样的。实际上他已经把整个行业带着跑了一年了。所以现在5到底是什么样，不知道。那么这件事就算稳定了。

底层基本上稳定了。现在呢，甭管是LLama、通义千问、Gemini、Claude、OpenAI，还有其他的各种模型，都基本上停留在GPT-4的这样一个水平上，上上下下吧。然后呢，他们的调用方式，整个的反馈的这个结构基本上是跟OpenAI一致的。就OpenAI制定了一个标准，规定好了这个东西是怎么调用的，提示词大概怎么写，调用的时候是分几个命令进去，出来了以后可以有哪些功能。像刚才我们讲的什么函数调用、这个结构化输出，这些东西其他人都是照这个标准做的。

所以呢，现在再去做什么应用，或者做AI Agent，大量的这种工作流都串起来，干这个事情的话，那中间的这些大模型就有极强的可替代性。我用OpenAI可以用，我用Gemini可以用，我用Claude可以用，我可以随便换。这个的话，其实是对于开发者来说，或者对于创业者来说，是一个巨大的好消息。就是底层暂时稳定了，大家赶快冲上去，把一些具体的应用做掉，这是很好的机会。

OpenAI自己呢，还会继续去将各种分散的功能逐步整合起来。所以在这个时候，千万不要尝试去做拼接工具。什么意思呢？你比如说，哎，我现在是不是做一个带有搜索的CANVAS功能？这个你就别费劲了。你要相信我，OpenAI自己一定可以搞定这个事。而且他一旦搞定了以后，你做的那个产品一定会被覆盖掉，这个事不要去干，直接面向混合后的OpenAI功能就可以了。

你比如说，我们认为带有搜索和这个项目功能的OpenAI的这种API未来会出来，那么我们就直接以此为目标进行开发就行了。等它一出来的时候，我们其他东西就开发完了，这也许是一个方向和玩法。那么用户交互方面呢，肯定还是会有很多可以值得探索的东西。这一次OpenAI给了我们两个提示，第一个提示就是如何让AI更好地跟现有的系统相结合，到底是通过Mac上面的ChatGPT APP。

直接去跟各种APP进行结合，还是说我到这个网页里边，直接给你上canvas或上画板，这块呢是大家值得去探索的，也是呢这个OpenAI给大家做的一些演示或指明的方向吧。这块是值得去试试的。

另外一块的话，就是如何将复杂的需求准确地表达给AI，这个是OpenAI这一次开发布会的时候给大家演示了。那说哪一个是做的这块的演示呢？Sora的故事版。我怎么能够把一个有持续的信息分成持续提进去？这个其实是OpenAI给大家做了一个创新，虽然这个创新很小，但呢非常有意义。

以后我们不用再去想说，我如何可以在一个提示词里一次性把一个完整视频所需要的信息都扔进去。你可以在故事版上，在时间线上，这个地方要干什么，那个地方要扭个头，这个地方要变个颜色，这个时间点要起始，要画什么东西，然后到几分几秒的某一个时间点，这个主人公向哪个方向走，或者做什么动作，或者到几分几秒这个颜色发生什么变化，或者亮起什么样的灯光。他可以通过这样的方式呢，进行更精确的有持续性的信息输入。

而且这些的话，应该会很快被像什么吉梦、可灵、Runway这些模型应用起来，这个我觉得可能一两个月就会看到变化了。现在呢是研究和推理领域，肯定会越来越小众。面向普通用户的方向的话，各种的APP，各种的这个用户交互方式，这块呢现在大家就可以去干了，2025年应该是这一块可以出成绩的时候。

另外呢，就是具身智能必然会爆发。其实我们这一次看OpenAI 12天的连续发布会里头，真正让我感觉很震撼的东西是什么？就是带有视觉的高级语音。你可以开着摄像头对着自己跟他聊天了。这种东西你扔给了具身智能的机器人，再要求OpenAI直接输出代码，说来你给我输出代码，然后我用这个代码去控制机械手。技术变化了以后再给你进行一些反馈。

现在的OpenAI大模型，其实已经距离控制机器人非常非常接近了。所以呢，这些机器人公司应该发力了。

新的具身智能未必长得像人，只需要做好插件、传感器、动作执行以及反馈这一块就行了。下边就是怎么提高技能、提高准确度、降低成本。这就是2025年可能提给所有具身智能行业的一个要求了。后边大模型的部分不用管了，扔给OpenAI就完事了。

带有视觉的实时语音，会改变每一个人的生活方式。这个智能的硬件产品包括一些新软件产品或者网页，在2025年的话，应该会有非常多的涌现。

最终总结，2025年依然是AIGC的一年。虽然前面OpenAI连续12天的发布会让我感到稍微有些失望，但是他还是尽到了责任。不是说发布了什么让我特别感到眼前一亮的革命性产品或者什么iPhone时刻，没有。但是呢，他依然作为老大，执行使了他的义务，就是为整个行业指明了方向。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI推出GPT 4o mini，这是要卷死谁？Sam Altman封禁中国 API IP后放大招，你就给我看这个？中国大模型是不是有机会弯道超车？

老范讲故事 — Tue, 23 Jul 2024 00:48:07 +0000

OpenAI在封禁中国IP访问其API之后，第一个大动作居然是发布了一个GPT4o mini。你发布了个小模型，这究竟是要卷死谁啊？中国团队是不是有机会弯道超车呢？大家好，这里是老范讲故事YouTube频道。Open AI第一次发布微型模型，以前的Open AI都是一个比一个大，因为原来人家讲的叫Scaring Law，就是这种伸缩法则，只要是变大，我一定会变强。而且，也嘲笑那些小模型说你们肯定不行啊，一定是大的好使。我自己原来也是很喜欢使用大模型，有大的不识小的，这是我原来挑选模型时候的基本原则。但是现在，Open AI开始卷小模型了。

Open AI的这个GPT4O mini有什么特点呢？第一个，快啊，小模型一定是比大模型跑得快的。另外，就是极其便宜，它这个里面输入的信息，100万TOKEN，15美分啊，非常非常便宜了。输出的信息呢，是100万TOKEN，60美分，也就相当于是100万4块多人民币啊，已经快要接近国内的这些模型的价格了。效能呢，也应该是比GPT3.5要强一些啊，这是GPT4O MINI的一个基本情况。

那么，这样的一个鼓励越大越好的公司，原来更多的人力肯定是去研究更大的模型去了。现在说不，我要上一个小的，而且这种小模型呢，跟一般的小模型还有区别。区别在于它可以支持Function Call，可以支持视觉多模态的识别。那么，这是GPT4O MINI比其他的普通小模型所独有的特点。

以上就是关于Open AI发布GPT4O mini的全部内容，如果你对这个话题感兴趣，欢迎在评论区留言。我们下期节目再见！

型U的地方，那么MINI到底有多大呢？并没有说。其实啊，大家出的这种小模型，这种必原厂商出的小模型，都是不会对外讲说“我到底有多大”。包括一些开源厂商自己去出的一些啊，闭园小模型，也不会告诉外边到底有多大。比如说吧，灵异万物对吧，他的对外模型是开源的，告诉你这个是6B的，9B的，34B的。但是呢，它自己内部壁源的这些模型，就是你直接通过商业方式去买的啊，它就分什么medium，large，是这样分的啊，你不知道它到底有多大。包括像谷歌啊，Gemini Flash到底有多少个参数，你也不知道。Gemini Pro你也不知道有多少参数啊，cloud三个版本，其实各个参版本有多少参数，都是不说的啊。所以啊，Open AI的GPT4O mini到底有多少个参数，也不知道。现在呢，大家普遍猜测应该是在10币以内，大概也就是7币，也就70亿到100亿之间的参数，应该算是最小一个档次的。

怎么用这个模型呢？免费用户跟plus用户，已经可以跟GPT3.5说再见了。那就是我们现在打开了啊，Open AI的聊天网站之后，能够看到的三个模型：一个叫做GPT4O，一个叫GPT4，一个叫GPT4欧mini。三点五已经彻底成为过去式了。API的用户，你现在依然可以使用3.5，因为这个是不可能马上取消的啊，大家都写在程序里头了啊。模型的名字叫GPT3.5，特本什么什么的叫这样名字，你要说我直接把这个模型关闭了。不过，这通常不会发生，因为很多用户和开发者都依赖于它。

然后，上1GPT 4O mini一下替代掉的话，这事肯定不行对吧？那个程序会报错的。所以啊，GPT4O mini啊，现在已经可以为啊，直接使用Open AI API的这些用户开放了。啊，但是呢，3.5还是可以用的，现在我还没法使啊。为什么呢？因为我没有办法，直接从Open AI去买它的API服务的啊。它会识别出来，我在中国大陆不会为我服务的。所以，我现在的CPT相关的API，是通过扣子或者是一些Open AI代理服务去购买的。但现在，这个上面都没有GPT4O MINI的这个模型。为什么在这样的一个时间点，出了这么一个产品呢？他把中国大陆的API的IP封掉了以后，本来想着，他是不是专心的做个GPT5出来，或者做一点啊，把这个前面吹过的牛稍微能还上一点啊。怎么现在整了那么个小东西出来？

首先，大家要想清楚一个问题啊，Open AI就是行业里边的老大。老大最怕什么啊？老大怕竞争吗？啊，现在没有人跟他竞争啊，谁也竞争不过他。虽然现在号称御三家，就是谷歌、Siropic和Open AI里头，已经可以打个有来有回了。但是，从市场占有啊，从整个技术的程度上来说，Open AI还是绝对领先的。那么，他到底怕什么呢？他害怕的东西叫分叉啊。什么叫分叉呢？就是有很多的人是不会去看别的服务的，也不会去用任何其他的大模型，上来就用Open AI家的啊，其他所有我都不用。那么，这个呢，就属于忠实铁粉。但是一旦分岔了以后，可能会出现一些小的分支，这些分支会逐渐壮大，最终可能会影响到Open AI的市场地位和影响力。为了避免这种情况的发生，Open AI可能会采取一些策略，比如推出GPT4O MINI这样的产品，来吸引更多的用户，保持其在市场上的主导地位。同时，通过限制某些地区的直接访问，Open AI可能也在试图保护其技术和市场，防止技术的过度扩散和滥用。

大家说：“哦，不，我不能只用Open AI的，我所有的都要用一下。我要在不同的场景里头，找到不同合适的模型来使用。这个过程要分叉了，老大最怕的就这件事情。他现在已经看到了有分叉的这种方向了啊，或者说，他现在已经看到了有分叉的趋势了。所以，必须要冲出来说，我要把所有分叉的趋势，掐死在萌芽状态啊。这就是GPT4O MINI发布的一个大的前提。因为GPT4和GPT4欧，包括GPT4 Turbo所有的这些模型呢，它比较贵。越来越多的人呢，就希望转型。像我现在做很多这种AI agent，这种工作流，我会把最费劲的一个点交给GPT去做。对于理解能力，对于推理能力没有那么强的节点，我都尽可能去选择更便宜的，这种大模型来工作，或者更小一点的大模型来工作。这个是经济的考量啊，而且我们发现，在这种稍微小一点的大模型，你让他做简单的工作，效果其实是很好的，并不比GPT4差啊。这个是现在Open AI不能允许的啊，你们就老老实实的，你要想去用这个小模型，我也给你提供上啊。这个是要注意。

而且呢，现在所有在跟Open AI竞争，或者说在Open AI这条道路上，追赶他的这些人呢，目标都很明确。怎么叫目标明确呢？每一个人上来说，我现在都是接近GPT4对吧，没有人超过啊，就很少有人超过，或者可能只是在个别指标上超过。整体超过的，现在还没有，或者说不多吧。但是呢，我们现在甭管国内的大模型，国外的大模型，都在努力地追赶，试图在某些方面超越Open AI，这是一个非常明显的趋势。

都说我现在已经接近GPT4了，然后呢，遥遥领先于GPT3.5。对吧，这也是现在的一个时间点。而且，很多的小模型，甚至是这种70亿、100亿、300亿、几百亿这种模型，都已经超过GPT3.5了。GPT3.5有多少个参数呢？当时是1750亿个参数，这么多的参数，怎么还这么差呢？这么多年了，时代在进步，而且AIGC大模型的发展，真的叫日新月异，每一天每一个小时都在发生变化。

这么长时间过来以后，你用原来这种架构，GPT3.5的这种架构，它确实是效能比较低了。所以现在很多的这种1000亿以内的，700亿的，或者是更小一点的，几百亿的，都可以超过GPT3.5。那么GPT3.5就已经必须退役了。

退役的原因也很简单：第一个，原来GPT3.5一直挂在那，不是说Open AI没有更好的模型给大家用，而是什么呢？他希望让你去买它的Plus，让你说，哎，你看这个实在是难使吧，你直接升级，一个月20美金就可以有GPT4用了。GPT3.5跟GPT4之间，一定要有一个很明显的，个人可以直接感知到的差异，你才会觉得我这20美金一个月花的值，否则的话，你会觉得花的不值了。

但是现在其他的模型都赶上来了，你再继续摆这么一个3.5在这恶心人，就已经不太合适了。另外一个是对于免费用户来说，GPT3.5实在是缺乏吸引力，我不愿意付钱，我可以使用Gemini呀，我可以使用很多的其他免费的这种模型。

这些模型，现在已经完完全全超越三点儿五了。所以，这个也是到了该抛弃三点儿五的时候了。另外呢，很多的API代理也让Open AI非常不爽。像我就是用的API代理啊，API代理呢，像跑冒滴漏。像我现在用Open AI的所有API，价格应该是至少打到4折，或者是还要更低一些的折扣啊。我就可以去使用。

到了那么这些的话，Open AI觉得就算是打折，也应该从我这打啊。凭什么你就去打折了啊？这个他是不开心的。而且他现在降到这样的一个程度，为什么这些API代理没有跟进呢？他没利润啊，这些啊，也是会对他们造成一定的影响和损失。

另外，也要开始应对中国了。Open AI肯定发现，封堵了中国IP的API调用之后，Open AI调用数据一定是在暴跌的啊。这个肯定也不是他们希望看到的。

现在我们要讲一下田忌赛马的故事。田忌赛马是什么？就是用我最好的马，对应你这个中间的马啊，用我中马对应你的下马啊。你最上面那个你赢一场算了，剩下的我赢两场。在大模型这个行业里头，其实也是如此的。大家呢会分成不同的层次去竞争，端侧的竞争，就是说我们甭管在手机端、PC端还是各种的啊，设备端吧。那么现在大家在争的是什么？Open AI基本上是不参加端侧竞争的啊。哪怕它是GPT4OMINI，到目前为止，也没有说，这个产品可以给大家在端上使用啊。当然你说，未来会不会把这东西拿到端上来使用？不确定啊。但是至少现在没有说这个事儿。

呃，它这个大家猜测在10B以内，可能7B到8B这样的一个水平上。按道理说，是在手机上可以运行的。对吧，可以在iPhone里头跑。那么是不是说，呃，跟苹果合作了，我干脆就把这东西呃，拿出来就给大家用了。是不是他给了苹果一个类似于一个GPT4OMINI的版本，但是苹果你不允许拿出去再扩散了啊。但是在iOS 18里边，应该会带这样的一个东西，可能性是存在的啊。啊，但是这个事谁都没说。

在端侧竞争上，一般移动端呢，5B以内的跑的是比较好的啊。你如果手机的配置高一些，跑到7B到9B应该也还是能跑的。台式机呢，你到10B左右啊，都是没有什么问题的。包括我们后边讲的这些AIPC，其实AIPC是所有能够跑大模型的台式机里头，水平比较烂的啊。那么工作站呢，就是我们比较高端的台式机，比如说你这里头有独立显卡啊，4090，然后不是4090，你有个四零六零，四零七零那样的独立显卡，或者比如说像我们使用麦克这种呃，M1，M2 Max，或者M3 Max这样的这种机器的啊，那么它就基本上属于工作站级别了。这种机器里头呢，大概跑到三十几B都是可以跑通的啊。再大了跑不动了。

然后像这种个人服务器上，是可以跑到70B的。咱们现在能够接触到的开源大模型，可以到本地跑的，基本上也就是70B，72B到头了。再大一点呢，啊，通1,000问1.5的时候出过一个110B啊，但是那个模型流行的并不是很广泛。

绝大部分都是在七十几币就到头了。这个呢，就是在思域服务器上用的。而且，在70B这个档次上，现在Open AI肯定是感受到压力了。中国团队基本上在70B这个档次上，站稳脚跟了。咱们国内推的各种各样的大模型，基本上都是70B上下的。为什么？因为懒。Meta的LaMa3就是70B的。我们在这个基础上再去进行调整，或者再去进行一些相应的训练吧。我们出到72B，或者七十几B这样的一个模型，效果其实已经很好了。加上RAG，就是本地知识库的这种辅助，加上长上下文，再加上多模态搜索的辅助，效果其实跟GPT-4之间，已经没有那么差了。对吧，GPT-4就是说你不加上这些东西，它也可以回答的很好啊。你如果是加上这些，搜索辅助啊什么的，70B基本上够使。

对于快速反应的这种低价模型来说，大家竞争的是什么？刚才咱们讲的是端侧模型啊。在云端模型其实也是分两拨的。一拨呢，就是大模型啊。大模型是，GPT啊，Gemini Pro这个，呃，Cloud Opus啊，这些就属于大模型啊，比较贵，性能比较高。那么大家都去推这种小模型，特别是另外两家。刚才预三家我们讲了啊，Open AI，谷歌和Anthropic。谷歌跟Anthropic都推了一种小模型，一个叫Gemini Flash，另外一个呢，叫做Cloud Haiku，叫这样的一个名字，都是相对比较小的，很便宜，反应速度很快。原来啊，GPT3，GPT是没有的，现在出来就是要去卷它们。大模型竞争。

咱们自己去比一比啊。这个小模型，你们出了，我也得出一个。所以，咱们回答开题的那个问题：“Open AI到底想卷死谁啊？”他想卷死的是Gemini 1.5、Flash和Cloud 3，嗨酷啊。是选这两个产品，但是要注意啊，Cloud 3.5现在已经出来了。但是3.5呢，只出了Sonit一个产品啊。它是分三个档次的，这种大模型啊。一个叫做High酷，是最小的，估计应该是10亿币以内，也就是7亿左右的一个模型。然后是Sonit啊，3.5已经到Sonit，它呢应该是在二三十亿币。但是都不是对外公开的啊。还有一个叫Opus啊，Opus是最大的，但是Opus到底有多大，可能是上百亿币的一个模型对吧。现在呢，3.5已经把中间这个模型出来了，上下两个还没出，估计呢应该本月会出。

所以在这个时候啊，Open AI说不行，我要把你这个底层的，这个给你封掉啊，让大家觉得啊，就算是用这种底层的小模型啊，这个也有一个更便宜的Open AI来用啊。这是他真正要去干的事情。那么对于开源模型来说的话啊，就是本地部署这个呢，Open AI应该不在这个赛道上啊。它有可能说，我用一些必源的模型，直接跟苹果，跟谁去合作，这个事可能是存在的。但是呢，他不会说我到GitHub上，到HuggingFace上，直接把这个GPT40 mini扔出来啊。应该不会干这个事情。

那么对于中国团队来说，到底有没有弯道超车的机会？这是一个值得探讨的问题。

这也是我们开题上的一个问题，对吧？“卷”就一个字，在这个字上呢，中国团队绝对是遥遥领先的。中国现在已经开始卷下一个层次了啊，在上一个层次里头，中国团队发现：哎，我只要把模型推到七十几，对吧，加上搜索辅助，加上reg，加上这个啊，长上下文，效果已经非常好了，对吧，不需要再往前推进了啊。真的效果非常好了吗？很多人说你是不是吹牛啊。他这个事是这么算，就是再有相差的这部分，个人感觉不出来，因为人的感受有时候很主观的啊。你不可能说：哎，我去招聘了，对吧，我一定要挑出最好的那一个来，不可能的。你一定是找了一个相对顺眼的，然后磨合了一段时间，发现：哎，这个工作还能干得下去，日子也能过得下去啊，也不讨厌，你就可能一直用这个人用下去。你不可能说：哎，旁边这个人，好像比我招的这小伙子，还要更厉害一点，对吧，我就马上把我这开了，把那个人招回来，不会干这个事了。在这样的一个情况下啊，我们只要用习惯了，慢慢的对于我们已经招聘进来的人，就会有更高的容忍度。为什么要讲招聘的故事呢？其实我们使用大模型的过程，跟招聘的过程差不多。在挑选的时候，我们一定是非常小心的，来去确定到底哪一个适合我们，我们的这个任务，它是不是可以很好的完成。一旦你把它挑进来了，下一件事是什么？就是我们要去跟他磨合，怎么能够跟这个大模型一起，把我们要做的事情做完。当大家互相习惯了以后的话，你不会说：哎，那个更好，我马上换人的。一个大模型，它是有很高的粘度的。

所以，中国团队在70亿参数这一块，基本上已经达到了一个阶段，我们可以说，我们已经能够吸引一部分用户，而且这部分用户愿意留下来，持续使用我们的产品。再往前推进，当你提到我现在发布的几千亿参数的模型，也就是几百亿参数的这类模型时，第一个问题在于训练上，我们可能还没有完全搞明白，应该如何应对这个挑战，因为目前开源出来的就是70亿参数的模型，再大的版本现在还没有开源，所以这件事情还搞不定。

那么再往上，你说我们闭着眼睛去研究一下行不行？也不行，为什么呢？因为越大的模型，你训练的成本就越高，而且越难去控制。在这种情况下，我们可以说，我们就停在这了。那么停在这，中国团队现在在干嘛呢？他们搞APP开发，搞各种接触用户的方式，我们现在要去获取所有用户，这是我们已经开始卷的东西，Open AI还没卷到这呢，我们其实已经开始弯道超车了。

你说Open AI不是也有APP吗？它有安卓APP，有iOS APP，甚至最近还开始出Mac APP。但是你要想清楚，中国人做的是什么呢？聊天、搜索、绘图、情感陪伴，都整合在了一个APP里头。而且，我们的APP是Windows、Mac、安卓、iOS全都有。你说Open AI自己为什么不做一个Windows APP？亲爹不让啊，谁是亲爹？微软。微软说这个事情打住，我在那边玩Copilot，你自己不要来找这个事情，你到Mac那边去玩耍就可以了。有什么问题，去霍霍苹果，不要来霍霍我，这个他就没法整。而在中国，你看看啊，豆包，所有的平台，都在积极地推进和用户接触的策略。

Windows、Mac、iOS、安卓，全都出齐了。而且，它还把所有的功能都集齐了。像Open AI做的Mac版的APP，只能干嘛呢？就是回答问题。也就是说，你可以听话，可以去语音识别，他就干这些事情就完事了。中国的就什么都可以干啊。你让他去唱歌跳舞，让他去画图，让他去做图像识别，包括各种的角色扮演，就是Carrot AI做的那些事情啊，咱们也都可以搞定。只要是外边有的，只有咱想不到，没有咱做不了的啊。这一块还是非常好用的啊。我现在用的量很大的就是豆包APP啊，非常好使。然后另外一块我们再卷的是什么呢？啊，Chrome的这个插件啊，就是在浏览器上做插件。因为现在的浏览器，基本上都是Chrome的内核啊，甭管是Chrome的啊，还是这个微软的Edge，底层都是Chrome啊。所以我们现在在上面做插件，甭管是Kimi还是豆包，都在上面卷插件。而且那个插件的功能，那全的是一塌糊涂。你一旦在浏览器上装了豆包插件了，然后你去用谷歌搜索豆包，就在侧边栏开始对搜索结果进行总结。你说哎我现在去看一下YouTube，马上旁边就开始给你做，我给你做个视频总结吧啊。甚至说你在这看YouTube的时候，他说我给你翻译个字幕吧。或者我随时在浏览器里头，选中一个单词，选中一句话，他说我帮你翻译一下吧。或者说你在浏览器里头有一个空格啊，或者叫有一个输入框，需要你输入信息的时候，他马上跳出来想输入点什么，我帮你润色一下。

要不要从上到下，事无巨细，只要他能粘手的地方，全都给你冲上来？说来，我在这呢，让我看点什么吧。或者说你现在浏览一个网页，说帮我总结一下。那这是人家的本行，干的甭提多好了。这一块，中国已经彻底卷风了啊。那你说美国人不做这种浏览器插件吗？也做，但是呢，美国人做都是小团队或者个人做。那你跟像豆包这种，可能后边有好几十人，上百人的团队，大家领着薪水，加着班，然后疯狂的往前卷。这事谁卷谁啊？对吧，你肯定卷不过他。现在在接触用户这角度上说，甭管是做APP，做浏览器插件，这啊，中国团队已经弯道超车了啊啊。

至于说Open AI，现在再去推出的GPT4 Omni，实际上它已经是在追赶其他人，但不是追赶我们啊。它在追赶的是谷歌的Gemini Flash和Anceropic的啊，CloudHi苦啊，在追赶这两个产品，希望把他们卷死。我们现在已经在另外一个层次上，在卷了，等他们把这仗打完了以后，发现哎，这个用户都已经被中国团队卷干净了啊。可能会出现这样的情况。

好啊，这个故事就跟大家今天讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣，有能力的朋友加入我们的付费频道。再见。