OpenAI连续12天发布会回顾:科技领军者的12大跨越式创新,Sora、Canvas与GPT-4O带来哪些启示?

OpenAI连续12天发布会回顾:科技领军者的12大跨越式创新,Sora、Canvas与GPT-4O带来哪些启示?已关闭评论

OpenAI的连续12天发布会现在已经过半,发布了些什么东西呢?咱们来总结一下。

大家好,欢迎收听老范讲故事的YouTube频道。12天开12场发布会,算是前无古人了。人家以前的发布会都是在集中一两天的时间里,聚集尽可能多的人把它开掉。但是,OpenAI就是要不走寻常路,选择连续发布12天,每天发布一点新东西出来。而且他们的发布会是在网上开了个直播间,有时候山姆·奥特曼在,有时候他不在,大家就一起来讲讲这段时间又做了点什么新东西。这还是非常有趣的一种发布方式,算是把年底这一段时间所有人的注意力又都拉回了OpenAI以及AIGC这个赛道上。

那么到年底了,大家都得卷,大伙有没有?有。但是,肯定没有12个。如果真的说年底有12个重磅级产品发布的话,他们也不会用这种方式。应该还是会有很多零七八碎的小功能在这12天发布出来,但也会有一些比较激动人心的东西。而且要卷,大家一起卷嘛。OpenAI作为AIGC行业的领军人物,既然开始卷了,其他人必然会跟进。

前段时间我们讲过,OpenAI的最主要的社会贡献是什么?就是为行业指明方向。他指明了方向,其他人就会跟。那么都发了些什么东西呢?

第一天特别逗,首先涨价,上来先说我们做一个200美金一个月的订阅。如果你要去使用O1的完整版或者是O1 Pro,每个月的成本是200美金,这就是第一天发布的东西。而且,O1也好,O1 Pro也好,如果你不是科学家,不是那种真正需要进行推理的人,其实意义没有那么大。对于普通人来说,4O就已经足够了,O1完完全全就是很小众的一个产品。

第二天发布的其实还是一个科学家工具,叫强化微调。意思是什么呢?就是大家现在都在讲炼丹,说明这个大模型不知道你到底是什么,不知道你具体要干嘛,所以他经常会所答非所问。

我们对这个模型进行一定的微调之后,他就知道说:“哎,我今天是上岗来干什么什么事情呢。”就会做得好一些。OpenAI说来,我们发布一个强化微调的功能,你只需要提供比较少的数据,它就可以有一个非常好的微调的结果。这个呢也是一位科学家上来演示。像这种功能呢,跟前面我们讲的O1一样,就是普通人用不上,都是非常小众的科学家产品。

等到第三天,终于有这个大活上来了,Sora千呼万唤始出来。我呢,基本上是等了接近一周的时间才爬上去。Sora出来以后,大家就都疯狂的往上去爬,想去尝试使用。但是呢,他一直是关闭注册的状态。就是你可以在第一个页面上看到演示的这个视频,但是你没有办法登录进去自己去创作。大概是等了,我忘了是几天了,四五天吧,然后才进去。

Sora的模型呢,跟其他的一些视频模型比较起来,算是领先一点点。但是具体的感受,其实也没有那么大差异。对于像我这种一个月20美金的plus用户来说,我每个月应该可以生成50段动画。测试了感觉跟Runway、Pica,还有包括国内的可灵和集梦比起来,有差异,但是不是特别明显。从这个模型角度上说,更多的改进是什么呢?就是用户交互方式上改了。他给你了一些故事版,比如说你可以在一个时间线上写多段的这种提示词。这个呢,其实是给了大家很多的启示了。

因为以前大家生成图片的时候,你给他一个提示词,他给你画出来没毛病。但是呢,生成视频的时候,再给他一个提示词,让他给你画出来,这个事就有点难了。因为视频是很多张图片凑在一起的嘛。所以说别费劲了,咱们就是在不同的时间点上使用不同的提示词,让这个大模型知道我们怎么在这个场景里边进行转换。我相信很快就会有其他的产品来跟进。

到第四天呢,他们发了canvas。canvas其实原来就发过,只是现在告诉大家说,免费用户你也可以用了。现在canvas这个产品呢,基本上是垫进去隔office的命。什么意思呢?就是它等于是有一测试。

你可以去跟他聊天了,但是最大的一个窗口实际上是个编辑器。你可以在一个编辑器里边说:“哎,给我去增加点什么内容,删除点什么内容。”然后哪一段呢,稍微的怎么去调整一下。然后你说:“你给我整个检查一下。”再检查一下说:“哎,这段怎么样,那段怎么样?”它有点像Word的使用方式。

当然,你可以一边在这种对话框里跟他去聊天,另外一边什么呢?你可以直接在编辑器里改这个文件。改完了以后说:“哎,这样是不是好一点,那样是不是好一点?”就是人跟这个OpenAI的ChatGPT一起配合来去修改这个文件。如果这套东西大家使用习惯了以后,那么就不会再有Office什么事了。

它现在呢,只是一个Word文档,大家可以在上面折腾,但是代码也可以,Canvas改代码的效果也是极好的。现在你说有没有像PPT这样的东西,或者像Excel这个表格这样的东西,可以让他在Canvas这边去干活的?我相信未来会有,这一定是奔着Office全家桶去的一个产品,这个产品还是非常非常好用的。现在免费也可以用嘛,这个功能上来以后,整个的效率会提升非常非常多的。

然后到第五天,Apple Intelligence和Siri就上来了,其实就是给大家演示一下怎么可以在苹果设备上,甭管是电脑还是手机上,挂上ChatGPT,然后进行沟通、进行聊天,还可以做一些截屏,以及图片和视频方面的这种工作。这个呢确实是比较激动人心,但是对于中国来说其实没有用的。为什么?因为咱使不了。这个产品发布了以后,整个OpenAI的服务器,我觉得能有个五六个小时就直接宕机了。这个呢充分显示了苹果用户的威力,就是苹果的用户量还是非常非常大的,即使刨除掉中国,剩下的苹果用户也是非常给力的,直接把OpenAI的服务器干崩了。

到第六天呢,是Her真的来了。原来我记得在发布GPT-4O的时候,当时大家看完了以后非常激动,实在是太震撼了。只是呢,在GPT-4O发布之后。

它就又往回退了一点。它发布的是期货,并不是马上就能用的。刚才咱们讲的所有这些东西里头呢,有一个叫强化微调的功能,那也是个期货,现在使不了。其他的是马上就可以用下来了。OpenAI发布了GPT-4O之后呢,大概是过了也是几个月吧,才把高级语音功能拿出来,就是大家真的可以去跟GPT去聊天了。你可以打断它,它还可以去判断你的语气语调,这一块其实就已经强很多了。

在这个之前呢,它还是通过说把语音识别出来,然后变成文字处理,处理完了以后,再把这个文字念出来,通过这样的方式来工作的。但是高级语音功能呢,等于语音进去,语音出来,端到端的中间并没有变成文字的这个过程。虽然你最后结束了以后,是可以去看到所有生成的文字的,但是它会流畅得非常非常多。

但是呢,依然没有让我们看到完整的GPT-4O,或者叫Her,实际上是那个电影的名字,就是一个人工智能,像一个伴侣一样陪着你。这一次彻底出来了,加上什么呢?视频。我们可以打开摄像头,让GPT看着我们,跟我们去聊天。但是这个过程呢,GPT还是稍微有一点小滑头的。我让它看着我,我说你看我怎么样,它说你很精神。我说你看我年轻吗,它说你很有活力。后来我说,你能不能判断一下我的年龄,它说不行,我尽量不惹你生气。反正还是比较油滑的。

我还跟我太太两个人一起上镜,我说来,我们俩谁好看,它说你们两个都很有活力。好吧,这个就当是它骂人吧,反而给我们带来了很多的欢乐。让它去拍各种场景,你家里边的各种家具,屏幕上的各种截图,你让它拍下来以后,它都可以实时地去做出反馈了。甚至呢,你比如说,你让它拍自己的视频的时候,你不跟他说话,朝它笑一笑,它都会马上这个回应你:“哎,笑一笑真好。”这个就显得非常非常智能了。

这个功能极其好玩,如果你订阅了Plus,一定要去试一试,非常非常欢乐的一个产品。到第七天呢,发布了一个产品叫Project,Project的这个产品非常有意思,它等于是……

在ChatGPT里边给大家开了一个目录。你可以把它打开了以后,然后说:“我现在需要处理这些文件。”然后你把这些文件都上传上去。然后呢,它根据这些文件去进行响应。

原来呢,甭管是拆CPT也好,还有其他的所有这种聊天工具也好的,有一个很大的问题是什么?就是无状态。每一次去的时候,它都不认识你,需要从头去告诉它:“我今天有什么具体的事情。”如果你说:“哎,你把我的硬盘都搜索一下,在这个基础上跟我聊天呢?”它也很痛苦。为什么?因为你硬盘里的东西很多,它搞不清楚你到底要跟它聊具体什么事情。

所以,让它在某一个具体的任务上聚焦起来,现在我们就来做一个旅游规划。我把旅游相关的所有信息都给你,你就在这个范围内给我回答。这件事情原来是比较难以做到的。很多人去做AI Agent,去做工作流,去做RAG,实际上都是为了解决这个问题。

现在OpenAI说来了,咱们直接给你提供一个project的功能。你为了实现一个具体的功能,就把相应的文件都传上来,然后我就在你传上来的这批文件内给你去干活。这其实是OpenAI在向着自成操作系统的路上继续狂奔。他们认为以后不再需要操作系统了,什么Mac OS、Linux、Windows都不要这些玩意儿,我们自己干。我们自己把这些需要的东西找到了,以后就可以直接工作了。

大家以后就慢慢地把各种各样的文件都存在OpenAI的服务器上。你每次就问它:“我这个项目里头都有什么事情?我应该如何继续往前走?”“我另外一个项目里都有什么事情?有什么文件?有什么信息?我应该如何往前走?”这以后就不再需要操作系统了。

大家注意,前面谷歌出了一个产品,叫Workspace,其实已经部分实现了这件事情。Workspace就是你上去以后,实际上是个网盘,把各种文件都存上去。以后你就可以在网页端。

直接去有所有的Office功能,不再需要说我在硬盘上存在什么地方,我在这个其他地方怎么去存,然后怎么去找到它,不用干这个事了。我们在全世界任何一台电脑上,只要你能登陆到自己的谷歌账户,我们就可以使用云端的这台电脑,它里面存着我们所有需要的文件,有完整的Office相应的功能。

现在OpenAI说来,我们也照这个方式来。以后可能我们下一个产品,就是叫OpenAI网盘,大家以后就可以在那个上面干活了。那么以后你就问OpenAI说:“哎,某个目录里有些什么东西,或者是哪天放了一些什么东西上来呀?我最近有些什么样新的文件变化呀?”他就去工作去了。

那么OpenAI可能就会有新的收费方式,按照这个网盘存储空间这样去收钱。这可能也是未来大家可以去前进的方向,因为我一直讲OpenAI对于社会的最大贡献,就是指明方向。其实现在你用谷歌的Gemini已经可以部分完成这种工作了。如果你给谷歌Gemini去付费,它也可以在你的Workspace里边去干活。

但是Gemini目前为止呢,还没有那么聪明,虽然发了Gemini 2.0 Flash要稍微好一些,但是在各种的组件结合上,谷歌还有待提升。目前为止,12天里他已经过了7天了,大家注意,他礼拜六礼拜天是休息的,发布了7个新产品,后边呢还有5个新产品等待发布。其他公司呢,肯定也都没闲着,这个行业带头大哥已经冲了,其他人如果不跟着的话,肯定你的态度不够端正。

第一个冲上来的是谷歌,谷歌的Gemini 2.0 Flash这个版本上来了,它的整个工作效果确实是要比原来的Gemini 1.5要强非常非常多。而且它是个Flash版本,速度非常快还免费。它比咱们在1.5以及他们中间出的各种各样的版本的这个模型都要快得多,效果也非常的好。只是呢,他演示的非常多的东西,其实你压根找不着在哪。为什么?这是个技术型的公司,大家不要对谷歌这种。

技术型公司的产品能力抱有太高的期望,这个怎么讲呢?就是按他的说法,Gemini 2.0呢,完完全全可以像GPT-4那样,具备高级语音功能,像电影《Her》一样去工作。你可以与它对话,可以让它进行视频采集或图片采集。它生成的内容呢,甚至比PPT-4还要强。它可以生成混合内容,生成完文字后,再夹杂着图片一起生成出来。OpenAI现在只能生成图片或文字,无法将二者混合输出。

现在的谷歌的Gemini 2.0,据说可以做到这些。只是呢,它把所有的多模态输入和输出功能,都放在了开发者工具里,或者是一些未来项目中,让大家去加入waitlist,等待使用。因此,我们现在唯一使用它的方式,就是像我这样去申请开发者账号,然后将Gemini 2.0 Flash的模型挂到自己的应用里,可以使用它的部分功能。完整功能,生成混合的文字和图片,目前还做不了。

谷歌更新了之后,Meta肯定也不闲着。第一个呢,是把Llama 3.370币这个模型放出来了。现在Llama 3.370币的效能,比原来的Llama 3.1 405币高很多。其实在国内,我们一般不太尝试使用Llama,因为一旦Llama更新,可能过一个月左右,通义千问以及国内其他开源模型就会更新,补上这个窟窿。所以我觉得稍微等一等,可以期待下一步的产品。

Meta也公布了自己的视频生成模型,OpenAI已经上来了,Sora也出来了。Meta也要有其他的,比如说腾讯混元纹身视频大模型,这两天也突然开放,大家可以去试用。我去试了试,还是有点一言难尽。做这种视频生成模型里,最难的其实不是视频生成,而是模型操控。它的用户交互界面稍微差了点。但是既然OpenAI已经指明了方向,大家就朝着这个方向努力就好了。

Pica也更新了。Pica是华人团队做的一个美国的视频生成模型。他们呢,就很快地把OpenAI Sora的这些视频交互方式搁进去了。他怎么弄呢?就是你先上一副照片,说我要这个人,然后这个人呢,要去飞翔。他等于就可以很好地保持这个人的样子,然后去做后边这个动作。然后你再给他一幅图,说:“哎,现在要在这个环境下飞。”他这一块就可以编排得比较好了。现在已经可以做出一些非常有趣的小视频,在推特上面去传播了。

Pica更新了,MidJourney也更新了。MidJourney更新的那个产品特别有意思,它叫故事版。什么意思呢?就是大家原来不都抱怨说这个东西的一致性差吗?说我想让它连续地输出一些内容,输出不出来。MidJourney你说来,我们这次更新一个有趣的功能。在一个故事版里头,你先定义角色,这叫张三,那叫李四,这叫王五,这叫赵六,定义了一堆角色。然后呢,再定义一堆场景,这是厨房,这是厕所,这是客厅,那是卧室,哪个地方是教室。定义完了以后呢,你再去定义,说张三在厕所里边碰到了李四,李四在厨房里边给王五做饭,王五在教室里边去做什么。当你把这些提示词写完了以后,他就用你前面定义的角色,在你前面定义的这个场景里边发生各种互动了。

再往后,他家去做各种漫画,做各种的故事书,就非常非常方便了。你后边可以把这个故事写得很长,他在整个的生成过程中不会发生大的偏移。这个也是非常棒的。我觉得呢,也算是被Sora稍微提醒了一点吧,或者说大家可能殊途同归,都向这个方向走。只是呢,Sora发布了以后,MidJourney呢也再往前走一步。中国的各大模型公司呢,现在应该都在加班加点,Sora指明方向了以后,可灵还有像吉梦这样的视频模型,应该都会向这个方向前进,就是向故事版前进。视频生成过程中,某一些提示词在某几秒钟,或者某一些提示词在某个特定时间点里边起作用,这个大家应该都会跟上。

CANVAS和Project的这样的功能的话,字节的豆包还有像Kimi,他们应该都会去学习一下。至于数学大模型的话,从O1 Preview出来之后,大家其实就都已经在追赶了。比如说像阿里出的QWQ,通义千问下面专门有一个模型叫QWQ,就是做这种推理模型的,32B在我本机就可以跑起来,推理效果还是相当不错的。Kimi呢,也专门做了一个叫K0MAS,专门的一个数学模型,都是进行推理使用的。

搜索这一块的话,其实大家都已经做得还不错了。这就是前面七天给大家带来的这些变化。还有五天有可能发布什么呢?第一个很多人都在期待,Dalle是不是该出师了。Dalle3已经发布了很久很久了,没有什么更新。而且Dalle3现在明显的已经跟其他所有的图片生成模型比起来,落后非常多了。现在大家再去做视频生成的时候,都是用MidJourney生成的图片去做视频生成的地图。Dalle呢,是需要努力了,这个有可能会再往前走一步。

他们发布会的时候,其实是有一些暗示的。这一次在发布的时候,OpenAI X7BT在网页端做了一个比较大的这种改变。什么呢?就是他在聊天窗底下加了一堆工具栏,然后这工具栏里头有一批呢,是搜索、Dalle,还有Canvas,这些东西是在一个栏里头。你要先选我要用哪个工具,然后再去跟它说话。大家想,这个里头为什么会有一个Dalle呢?肯定他是有事情了。他把这样的一个已经稍微有一点点小落后的产品,跟这次新出来的这种搜索呀、Canvas放在一起,那么它有可能会更新。

然后新的智能体框架有可能也会出来。由于现在大家都在讲,说大模型就卷成这样可以了,后边呢,大家去搞一搞智能体。大家注意,现在的OpenAI呢,这么多新功能,其实是不能一起使的。什么意思呢?就是CANVAS、Search、语音功能,你每次必须选一个,你不能说我都选,说我一边语音功能,一边你去给我搜索。

这事不行。你说我一边canvas一边去搜索,这事也不行。或者说,哎,我去推理一下,推理完了以后,你给我放到canvas里头,或者去做语音这个事,都是不允许的。每次只需选一个,这个还是非常不方便。未来可能会有一些方法把这些功能串起来,而这些功能串起来以后,OpenAI的ChatGPT的可用性会提高非常大的一大截。

还有什么可以期待的呢?就还有人会去期待这个AI硬件。到年底了,折腾了这么长时间了,是不是也该拿出一个东西来?特别是前面,苹果当年iPhone的设计师,号称是在跟OpenAI一起合作做AI硬件。那么到年底了,是不是给大家瞅一瞅?这个有可能会出现,但这块呢,完全是咱们猜测,没有任何的依据。

还有一个是什么呢?就是有可能会出GPT4.5,就是它有可能会在GPT4的基础上再往前走一点。你说一下到GPT5,这个呢稍微有一点点难度,但应该还是会继续往前走的。因为在发布Siri那一天,他呢也做了一个暗示。在发布Siri那天呢,他们拿这个是iPhone,上面呢只有一个日历的框,在这个屏幕上,那个日历上写着说,我们要去发布下一代的AGI或者什么这样的东西。大家就去猜测说,这有可能是GPT4.5。这就是未来五天里头,大家还是可以去期待一下的事情。

等OpenAI把所有的12天、12个产品都发布齐了以后,我会再录视频跟大家进行总结。好,这一期就跟大家讲到这里,前面已经发布的产品,赶快去使用起来,非常好玩。好,感谢大家收听,帮忙点赞,点小铃铛,参加Discord讨论群,也欢迎有兴趣有能力的朋友加入我们,付费频道再见。

Comments are closed.