OpenAI连续12天发布会回顾：科技领军者的12大跨越式创新，Sora、Canvas与GPT-4O带来哪些启示？

老范讲故事 — Mon, 16 Dec 2024 00:39:10 +0000

OpenAI的连续12天发布会现在已经过半，发布了些什么东西呢？咱们来总结一下。

大家好，欢迎收听老范讲故事的YouTube频道。12天开12场发布会，算是前无古人了。人家以前的发布会都是在集中一两天的时间里，聚集尽可能多的人把它开掉。但是，OpenAI就是要不走寻常路，选择连续发布12天，每天发布一点新东西出来。而且他们的发布会是在网上开了个直播间，有时候山姆·奥特曼在，有时候他不在，大家就一起来讲讲这段时间又做了点什么新东西。这还是非常有趣的一种发布方式，算是把年底这一段时间所有人的注意力又都拉回了OpenAI以及AIGC这个赛道上。

那么到年底了，大家都得卷，大伙有没有？有。但是，肯定没有12个。如果真的说年底有12个重磅级产品发布的话，他们也不会用这种方式。应该还是会有很多零七八碎的小功能在这12天发布出来，但也会有一些比较激动人心的东西。而且要卷，大家一起卷嘛。OpenAI作为AIGC行业的领军人物，既然开始卷了，其他人必然会跟进。

前段时间我们讲过，OpenAI的最主要的社会贡献是什么？就是为行业指明方向。他指明了方向，其他人就会跟。那么都发了些什么东西呢？

第一天特别逗，首先涨价，上来先说我们做一个200美金一个月的订阅。如果你要去使用O1的完整版或者是O1 Pro，每个月的成本是200美金，这就是第一天发布的东西。而且，O1也好，O1 Pro也好，如果你不是科学家，不是那种真正需要进行推理的人，其实意义没有那么大。对于普通人来说，4O就已经足够了，O1完完全全就是很小众的一个产品。

第二天发布的其实还是一个科学家工具，叫强化微调。意思是什么呢？就是大家现在都在讲炼丹，说明这个大模型不知道你到底是什么，不知道你具体要干嘛，所以他经常会所答非所问。

我们对这个模型进行一定的微调之后，他就知道说：“哎，我今天是上岗来干什么什么事情呢。”就会做得好一些。OpenAI说来，我们发布一个强化微调的功能，你只需要提供比较少的数据，它就可以有一个非常好的微调的结果。这个呢也是一位科学家上来演示。像这种功能呢，跟前面我们讲的O1一样，就是普通人用不上，都是非常小众的科学家产品。

等到第三天，终于有这个大活上来了，Sora千呼万唤始出来。我呢，基本上是等了接近一周的时间才爬上去。Sora出来以后，大家就都疯狂的往上去爬，想去尝试使用。但是呢，他一直是关闭注册的状态。就是你可以在第一个页面上看到演示的这个视频，但是你没有办法登录进去自己去创作。大概是等了，我忘了是几天了，四五天吧，然后才进去。

Sora的模型呢，跟其他的一些视频模型比较起来，算是领先一点点。但是具体的感受，其实也没有那么大差异。对于像我这种一个月20美金的plus用户来说，我每个月应该可以生成50段动画。测试了感觉跟Runway、Pica，还有包括国内的可灵和集梦比起来，有差异，但是不是特别明显。从这个模型角度上说，更多的改进是什么呢？就是用户交互方式上改了。他给你了一些故事版，比如说你可以在一个时间线上写多段的这种提示词。这个呢，其实是给了大家很多的启示了。

因为以前大家生成图片的时候，你给他一个提示词，他给你画出来没毛病。但是呢，生成视频的时候，再给他一个提示词，让他给你画出来，这个事就有点难了。因为视频是很多张图片凑在一起的嘛。所以说别费劲了，咱们就是在不同的时间点上使用不同的提示词，让这个大模型知道我们怎么在这个场景里边进行转换。我相信很快就会有其他的产品来跟进。

到第四天呢，他们发了canvas。canvas其实原来就发过，只是现在告诉大家说，免费用户你也可以用了。现在canvas这个产品呢，基本上是垫进去隔office的命。什么意思呢？就是它等于是有一测试。

你可以去跟他聊天了，但是最大的一个窗口实际上是个编辑器。你可以在一个编辑器里边说：“哎，给我去增加点什么内容，删除点什么内容。”然后哪一段呢，稍微的怎么去调整一下。然后你说：“你给我整个检查一下。”再检查一下说：“哎，这段怎么样，那段怎么样？”它有点像Word的使用方式。

当然，你可以一边在这种对话框里跟他去聊天，另外一边什么呢？你可以直接在编辑器里改这个文件。改完了以后说：“哎，这样是不是好一点，那样是不是好一点？”就是人跟这个OpenAI的ChatGPT一起配合来去修改这个文件。如果这套东西大家使用习惯了以后，那么就不会再有Office什么事了。

它现在呢，只是一个Word文档，大家可以在上面折腾，但是代码也可以，Canvas改代码的效果也是极好的。现在你说有没有像PPT这样的东西，或者像Excel这个表格这样的东西，可以让他在Canvas这边去干活的？我相信未来会有，这一定是奔着Office全家桶去的一个产品，这个产品还是非常非常好用的。现在免费也可以用嘛，这个功能上来以后，整个的效率会提升非常非常多的。

然后到第五天，Apple Intelligence和Siri就上来了，其实就是给大家演示一下怎么可以在苹果设备上，甭管是电脑还是手机上，挂上ChatGPT，然后进行沟通、进行聊天，还可以做一些截屏，以及图片和视频方面的这种工作。这个呢确实是比较激动人心，但是对于中国来说其实没有用的。为什么？因为咱使不了。这个产品发布了以后，整个OpenAI的服务器，我觉得能有个五六个小时就直接宕机了。这个呢充分显示了苹果用户的威力，就是苹果的用户量还是非常非常大的，即使刨除掉中国，剩下的苹果用户也是非常给力的，直接把OpenAI的服务器干崩了。

到第六天呢，是Her真的来了。原来我记得在发布GPT-4O的时候，当时大家看完了以后非常激动，实在是太震撼了。只是呢，在GPT-4O发布之后。

它就又往回退了一点。它发布的是期货，并不是马上就能用的。刚才咱们讲的所有这些东西里头呢，有一个叫强化微调的功能，那也是个期货，现在使不了。其他的是马上就可以用下来了。OpenAI发布了GPT-4O之后呢，大概是过了也是几个月吧，才把高级语音功能拿出来，就是大家真的可以去跟GPT去聊天了。你可以打断它，它还可以去判断你的语气语调，这一块其实就已经强很多了。

在这个之前呢，它还是通过说把语音识别出来，然后变成文字处理，处理完了以后，再把这个文字念出来，通过这样的方式来工作的。但是高级语音功能呢，等于语音进去，语音出来，端到端的中间并没有变成文字的这个过程。虽然你最后结束了以后，是可以去看到所有生成的文字的，但是它会流畅得非常非常多。

但是呢，依然没有让我们看到完整的GPT-4O，或者叫Her，实际上是那个电影的名字，就是一个人工智能，像一个伴侣一样陪着你。这一次彻底出来了，加上什么呢？视频。我们可以打开摄像头，让GPT看着我们，跟我们去聊天。但是这个过程呢，GPT还是稍微有一点小滑头的。我让它看着我，我说你看我怎么样，它说你很精神。我说你看我年轻吗，它说你很有活力。后来我说，你能不能判断一下我的年龄，它说不行，我尽量不惹你生气。反正还是比较油滑的。

我还跟我太太两个人一起上镜，我说来，我们俩谁好看，它说你们两个都很有活力。好吧，这个就当是它骂人吧，反而给我们带来了很多的欢乐。让它去拍各种场景，你家里边的各种家具，屏幕上的各种截图，你让它拍下来以后，它都可以实时地去做出反馈了。甚至呢，你比如说，你让它拍自己的视频的时候，你不跟他说话，朝它笑一笑，它都会马上这个回应你：“哎，笑一笑真好。”这个就显得非常非常智能了。

这个功能极其好玩，如果你订阅了Plus，一定要去试一试，非常非常欢乐的一个产品。到第七天呢，发布了一个产品叫Project，Project的这个产品非常有意思，它等于是……

在ChatGPT里边给大家开了一个目录。你可以把它打开了以后，然后说：“我现在需要处理这些文件。”然后你把这些文件都上传上去。然后呢，它根据这些文件去进行响应。

原来呢，甭管是拆CPT也好，还有其他的所有这种聊天工具也好的，有一个很大的问题是什么？就是无状态。每一次去的时候，它都不认识你，需要从头去告诉它：“我今天有什么具体的事情。”如果你说：“哎，你把我的硬盘都搜索一下，在这个基础上跟我聊天呢？”它也很痛苦。为什么？因为你硬盘里的东西很多，它搞不清楚你到底要跟它聊具体什么事情。

所以，让它在某一个具体的任务上聚焦起来，现在我们就来做一个旅游规划。我把旅游相关的所有信息都给你，你就在这个范围内给我回答。这件事情原来是比较难以做到的。很多人去做AI Agent，去做工作流，去做RAG，实际上都是为了解决这个问题。

现在OpenAI说来了，咱们直接给你提供一个project的功能。你为了实现一个具体的功能，就把相应的文件都传上来，然后我就在你传上来的这批文件内给你去干活。这其实是OpenAI在向着自成操作系统的路上继续狂奔。他们认为以后不再需要操作系统了，什么Mac OS、Linux、Windows都不要这些玩意儿，我们自己干。我们自己把这些需要的东西找到了，以后就可以直接工作了。

大家以后就慢慢地把各种各样的文件都存在OpenAI的服务器上。你每次就问它：“我这个项目里头都有什么事情？我应该如何继续往前走？”“我另外一个项目里都有什么事情？有什么文件？有什么信息？我应该如何往前走？”这以后就不再需要操作系统了。

大家注意，前面谷歌出了一个产品，叫Workspace，其实已经部分实现了这件事情。Workspace就是你上去以后，实际上是个网盘，把各种文件都存上去。以后你就可以在网页端。

直接去有所有的Office功能，不再需要说我在硬盘上存在什么地方，我在这个其他地方怎么去存，然后怎么去找到它，不用干这个事了。我们在全世界任何一台电脑上，只要你能登陆到自己的谷歌账户，我们就可以使用云端的这台电脑，它里面存着我们所有需要的文件，有完整的Office相应的功能。

现在OpenAI说来，我们也照这个方式来。以后可能我们下一个产品，就是叫OpenAI网盘，大家以后就可以在那个上面干活了。那么以后你就问OpenAI说：“哎，某个目录里有些什么东西，或者是哪天放了一些什么东西上来呀？我最近有些什么样新的文件变化呀？”他就去工作去了。

那么OpenAI可能就会有新的收费方式，按照这个网盘存储空间这样去收钱。这可能也是未来大家可以去前进的方向，因为我一直讲OpenAI对于社会的最大贡献，就是指明方向。其实现在你用谷歌的Gemini已经可以部分完成这种工作了。如果你给谷歌Gemini去付费，它也可以在你的Workspace里边去干活。

但是Gemini目前为止呢，还没有那么聪明，虽然发了Gemini 2.0 Flash要稍微好一些，但是在各种的组件结合上，谷歌还有待提升。目前为止，12天里他已经过了7天了，大家注意，他礼拜六礼拜天是休息的，发布了7个新产品，后边呢还有5个新产品等待发布。其他公司呢，肯定也都没闲着，这个行业带头大哥已经冲了，其他人如果不跟着的话，肯定你的态度不够端正。

第一个冲上来的是谷歌，谷歌的Gemini 2.0 Flash这个版本上来了，它的整个工作效果确实是要比原来的Gemini 1.5要强非常非常多。而且它是个Flash版本，速度非常快还免费。它比咱们在1.5以及他们中间出的各种各样的版本的这个模型都要快得多，效果也非常的好。只是呢，他演示的非常多的东西，其实你压根找不着在哪。为什么？这是个技术型的公司，大家不要对谷歌这种。

技术型公司的产品能力抱有太高的期望，这个怎么讲呢？就是按他的说法，Gemini 2.0呢，完完全全可以像GPT-4那样，具备高级语音功能，像电影《Her》一样去工作。你可以与它对话，可以让它进行视频采集或图片采集。它生成的内容呢，甚至比PPT-4还要强。它可以生成混合内容，生成完文字后，再夹杂着图片一起生成出来。OpenAI现在只能生成图片或文字，无法将二者混合输出。

现在的谷歌的Gemini 2.0，据说可以做到这些。只是呢，它把所有的多模态输入和输出功能，都放在了开发者工具里，或者是一些未来项目中，让大家去加入waitlist，等待使用。因此，我们现在唯一使用它的方式，就是像我这样去申请开发者账号，然后将Gemini 2.0 Flash的模型挂到自己的应用里，可以使用它的部分功能。完整功能，生成混合的文字和图片，目前还做不了。

谷歌更新了之后，Meta肯定也不闲着。第一个呢，是把Llama 3.370币这个模型放出来了。现在Llama 3.370币的效能，比原来的Llama 3.1 405币高很多。其实在国内，我们一般不太尝试使用Llama，因为一旦Llama更新，可能过一个月左右，通义千问以及国内其他开源模型就会更新，补上这个窟窿。所以我觉得稍微等一等，可以期待下一步的产品。

Meta也公布了自己的视频生成模型，OpenAI已经上来了，Sora也出来了。Meta也要有其他的，比如说腾讯混元纹身视频大模型，这两天也突然开放，大家可以去试用。我去试了试，还是有点一言难尽。做这种视频生成模型里，最难的其实不是视频生成，而是模型操控。它的用户交互界面稍微差了点。但是既然OpenAI已经指明了方向，大家就朝着这个方向努力就好了。

Pica也更新了。Pica是华人团队做的一个美国的视频生成模型。他们呢，就很快地把OpenAI Sora的这些视频交互方式搁进去了。他怎么弄呢？就是你先上一副照片，说我要这个人，然后这个人呢，要去飞翔。他等于就可以很好地保持这个人的样子，然后去做后边这个动作。然后你再给他一幅图，说：“哎，现在要在这个环境下飞。”他这一块就可以编排得比较好了。现在已经可以做出一些非常有趣的小视频，在推特上面去传播了。

Pica更新了，MidJourney也更新了。MidJourney更新的那个产品特别有意思，它叫故事版。什么意思呢？就是大家原来不都抱怨说这个东西的一致性差吗？说我想让它连续地输出一些内容，输出不出来。MidJourney你说来，我们这次更新一个有趣的功能。在一个故事版里头，你先定义角色，这叫张三，那叫李四，这叫王五，这叫赵六，定义了一堆角色。然后呢，再定义一堆场景，这是厨房，这是厕所，这是客厅，那是卧室，哪个地方是教室。定义完了以后呢，你再去定义，说张三在厕所里边碰到了李四，李四在厨房里边给王五做饭，王五在教室里边去做什么。当你把这些提示词写完了以后，他就用你前面定义的角色，在你前面定义的这个场景里边发生各种互动了。

再往后，他家去做各种漫画，做各种的故事书，就非常非常方便了。你后边可以把这个故事写得很长，他在整个的生成过程中不会发生大的偏移。这个也是非常棒的。我觉得呢，也算是被Sora稍微提醒了一点吧，或者说大家可能殊途同归，都向这个方向走。只是呢，Sora发布了以后，MidJourney呢也再往前走一步。中国的各大模型公司呢，现在应该都在加班加点，Sora指明方向了以后，可灵还有像吉梦这样的视频模型，应该都会向这个方向前进，就是向故事版前进。视频生成过程中，某一些提示词在某几秒钟，或者某一些提示词在某个特定时间点里边起作用，这个大家应该都会跟上。

CANVAS和Project的这样的功能的话，字节的豆包还有像Kimi，他们应该都会去学习一下。至于数学大模型的话，从O1 Preview出来之后，大家其实就都已经在追赶了。比如说像阿里出的QWQ，通义千问下面专门有一个模型叫QWQ，就是做这种推理模型的，32B在我本机就可以跑起来，推理效果还是相当不错的。Kimi呢，也专门做了一个叫K0MAS，专门的一个数学模型，都是进行推理使用的。

搜索这一块的话，其实大家都已经做得还不错了。这就是前面七天给大家带来的这些变化。还有五天有可能发布什么呢？第一个很多人都在期待，Dalle是不是该出师了。Dalle3已经发布了很久很久了，没有什么更新。而且Dalle3现在明显的已经跟其他所有的图片生成模型比起来，落后非常多了。现在大家再去做视频生成的时候，都是用MidJourney生成的图片去做视频生成的地图。Dalle呢，是需要努力了，这个有可能会再往前走一步。

他们发布会的时候，其实是有一些暗示的。这一次在发布的时候，OpenAI X7BT在网页端做了一个比较大的这种改变。什么呢？就是他在聊天窗底下加了一堆工具栏，然后这工具栏里头有一批呢，是搜索、Dalle，还有Canvas，这些东西是在一个栏里头。你要先选我要用哪个工具，然后再去跟它说话。大家想，这个里头为什么会有一个Dalle呢？肯定他是有事情了。他把这样的一个已经稍微有一点点小落后的产品，跟这次新出来的这种搜索呀、Canvas放在一起，那么它有可能会更新。

然后新的智能体框架有可能也会出来。由于现在大家都在讲，说大模型就卷成这样可以了，后边呢，大家去搞一搞智能体。大家注意，现在的OpenAI呢，这么多新功能，其实是不能一起使的。什么意思呢？就是CANVAS、Search、语音功能，你每次必须选一个，你不能说我都选，说我一边语音功能，一边你去给我搜索。

这事不行。你说我一边canvas一边去搜索，这事也不行。或者说，哎，我去推理一下，推理完了以后，你给我放到canvas里头，或者去做语音这个事，都是不允许的。每次只需选一个，这个还是非常不方便。未来可能会有一些方法把这些功能串起来，而这些功能串起来以后，OpenAI的ChatGPT的可用性会提高非常大的一大截。

还有什么可以期待的呢？就还有人会去期待这个AI硬件。到年底了，折腾了这么长时间了，是不是也该拿出一个东西来？特别是前面，苹果当年iPhone的设计师，号称是在跟OpenAI一起合作做AI硬件。那么到年底了，是不是给大家瞅一瞅？这个有可能会出现，但这块呢，完全是咱们猜测，没有任何的依据。

还有一个是什么呢？就是有可能会出GPT4.5，就是它有可能会在GPT4的基础上再往前走一点。你说一下到GPT5，这个呢稍微有一点点难度，但应该还是会继续往前走的。因为在发布Siri那一天，他呢也做了一个暗示。在发布Siri那天呢，他们拿这个是iPhone，上面呢只有一个日历的框，在这个屏幕上，那个日历上写着说，我们要去发布下一代的AGI或者什么这样的东西。大家就去猜测说，这有可能是GPT4.5。这就是未来五天里头，大家还是可以去期待一下的事情。

等OpenAI把所有的12天、12个产品都发布齐了以后，我会再录视频跟大家进行总结。好，这一期就跟大家讲到这里，前面已经发布的产品，赶快去使用起来，非常好玩。好，感谢大家收听，帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友加入我们，付费频道再见。

科技公司发布会 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI连续12天发布会回顾：科技领军者的12大跨越式创新，Sora、Canvas与GPT-4O带来哪些启示？