OpenAI连续12天发布会回顾:科技领军者的12大跨越式创新,Sora、Canvas与GPT-4O带来哪些启示?
12 月 16
AIGC AGI, AIGC行业, AI技术, AI硬件, AI行业趋势, Apple Intelligence, Canvas, ChatGPT, Dalle更新, Gemini 2.0, GPT4.5, Her语音功能, LLaMA 3.3, Meta, O1订阅, OpenAI发布会, Project功能, Siri集成, Sora, 产品发布, 产品总结, 创新产品, 创新科技, 强化微调, 技术革新, 新功能, 新科技产品, 智能体框架, 未来科技, 用户交互, 用户交互界面, 用户体验, 用户体验提升, 科学家工具, 科技产品, 科技产品创新, 科技产品创新趋势, 科技产品发展, 科技产品发布, 科技产品趋势, 科技公司, 科技公司产品, 科技公司产品创新, 科技公司产品创新趋势, 科技公司产品发展, 科技公司产品发布, 科技公司创新, 科技公司发展, 科技公司发展趋势, 科技公司发布, 科技公司发布会, 科技公司行业趋势, 科技公司趋势, 科技创新, 科技创新趋势, 科技发展方向, 科技发布, 科技发布会, 科技巨头, 科技行业发展, 科技行业趋势, 科技趋势, 行业领军, 视频交互, 视频模型, 视频生成, 视频生成模型, 语音功能, 语音识别, 谷歌, 项目管理, 项目管理工具, 高级语音, 高级语音功能 OpenAI连续12天发布会回顾:科技领军者的12大跨越式创新,Sora、Canvas与GPT-4O带来哪些启示?已关闭评论
OpenAI的连续12天发布会现在已经过半,发布了些什么东西呢?咱们来总结一下。
大家好,欢迎收听老范讲故事的YouTube频道。12天开12场发布会,算是前无古人了。人家以前的发布会都是在集中一两天的时间里,聚集尽可能多的人把它开掉。但是,OpenAI就是要不走寻常路,选择连续发布12天,每天发布一点新东西出来。而且他们的发布会是在网上开了个直播间,有时候山姆·奥特曼在,有时候他不在,大家就一起来讲讲这段时间又做了点什么新东西。这还是非常有趣的一种发布方式,算是把年底这一段时间所有人的注意力又都拉回了OpenAI以及AIGC这个赛道上。
那么到年底了,大家都得卷,大伙有没有?有。但是,肯定没有12个。如果真的说年底有12个重磅级产品发布的话,他们也不会用这种方式。应该还是会有很多零七八碎的小功能在这12天发布出来,但也会有一些比较激动人心的东西。而且要卷,大家一起卷嘛。OpenAI作为AIGC行业的领军人物,既然开始卷了,其他人必然会跟进。
前段时间我们讲过,OpenAI的最主要的社会贡献是什么?就是为行业指明方向。他指明了方向,其他人就会跟。那么都发了些什么东西呢?
第一天特别逗,首先涨价,上来先说我们做一个200美金一个月的订阅。如果你要去使用O1的完整版或者是O1 Pro,每个月的成本是200美金,这就是第一天发布的东西。而且,O1也好,O1 Pro也好,如果你不是科学家,不是那种真正需要进行推理的人,其实意义没有那么大。对于普通人来说,4O就已经足够了,O1完完全全就是很小众的一个产品。
第二天发布的其实还是一个科学家工具,叫强化微调。意思是什么呢?就是大家现在都在讲炼丹,说明这个大模型不知道你到底是什么,不知道你具体要干嘛,所以他经常会所答非所问。
我们对这个模型进行一定的微调之后,他就知道说:“哎,我今天是上岗来干什么什么事情呢。”就会做得好一些。OpenAI说来,我们发布一个强化微调的功能,你只需要提供比较少的数据,它就可以有一个非常好的微调的结果。这个呢也是一位科学家上来演示。像这种功能呢,跟前面我们讲的O1一样,就是普通人用不上,都是非常小众的科学家产品。
等到第三天,终于有这个大活上来了,Sora千呼万唤始出来。我呢,基本上是等了接近一周的时间才爬上去。Sora出来以后,大家就都疯狂的往上去爬,想去尝试使用。但是呢,他一直是关闭注册的状态。就是你可以在第一个页面上看到演示的这个视频,但是你没有办法登录进去自己去创作。大概是等了,我忘了是几天了,四五天吧,然后才进去。
Sora的模型呢,跟其他的一些视频模型比较起来,算是领先一点点。但是具体的感受,其实也没有那么大差异。对于像我这种一个月20美金的plus用户来说,我每个月应该可以生成50段动画。测试了感觉跟Runway、Pica,还有包括国内的可灵和集梦比起来,有差异,但是不是特别明显。从这个模型角度上说,更多的改进是什么呢?就是用户交互方式上改了。他给你了一些故事版,比如说你可以在一个时间线上写多段的这种提示词。这个呢,其实是给了大家很多的启示了。
因为以前大家生成图片的时候,你给他一个提示词,他给你画出来没毛病。但是呢,生成视频的时候,再给他一个提示词,让他给你画出来,这个事就有点难了。因为视频是很多张图片凑在一起的嘛。所以说别费劲了,咱们就是在不同的时间点上使用不同的提示词,让这个大模型知道我们怎么在这个场景里边进行转换。我相信很快就会有其他的产品来跟进。
到第四天呢,他们发了canvas。canvas其实原来就发过,只是现在告诉大家说,免费用户你也可以用了。现在canvas这个产品呢,基本上是垫进去隔office的命。什么意思呢?就是它等于是有一测试。
你可以去跟他聊天了,但是最大的一个窗口实际上是个编辑器。你可以在一个编辑器里边说:“哎,给我去增加点什么内容,删除点什么内容。”然后哪一段呢,稍微的怎么去调整一下。然后你说:“你给我整个检查一下。”再检查一下说:“哎,这段怎么样,那段怎么样?”它有点像Word的使用方式。
当然,你可以一边在这种对话框里跟他去聊天,另外一边什么呢?你可以直接在编辑器里改这个文件。改完了以后说:“哎,这样是不是好一点,那样是不是好一点?”就是人跟这个OpenAI的ChatGPT一起配合来去修改这个文件。如果这套东西大家使用习惯了以后,那么就不会再有Office什么事了。
它现在呢,只是一个Word文档,大家可以在上面折腾,但是代码也可以,Canvas改代码的效果也是极好的。现在你说有没有像PPT这样的东西,或者像Excel这个表格这样的东西,可以让他在Canvas这边去干活的?我相信未来会有,这一定是奔着Office全家桶去的一个产品,这个产品还是非常非常好用的。现在免费也可以用嘛,这个功能上来以后,整个的效率会提升非常非常多的。
然后到第五天,Apple Intelligence和Siri就上来了,其实就是给大家演示一下怎么可以在苹果设备上,甭管是电脑还是手机上,挂上ChatGPT,然后进行沟通、进行聊天,还可以做一些截屏,以及图片和视频方面的这种工作。这个呢确实是比较激动人心,但是对于中国来说其实没有用的。为什么?因为咱使不了。这个产品发布了以后,整个OpenAI的服务器,我觉得能有个五六个小时就直接宕机了。这个呢充分显示了苹果用户的威力,就是苹果的用户量还是非常非常大的,即使刨除掉中国,剩下的苹果用户也是非常给力的,直接把OpenAI的服务器干崩了。
到第六天呢,是Her真的来了。原来我记得在发布GPT-4O的时候,当时大家看完了以后非常激动,实在是太震撼了。只是呢,在GPT-4O发布之后。
它就又往回退了一点。它发布的是期货,并不是马上就能用的。刚才咱们讲的所有这些东西里头呢,有一个叫强化微调的功能,那也是个期货,现在使不了。其他的是马上就可以用下来了。OpenAI发布了GPT-4O之后呢,大概是过了也是几个月吧,才把高级语音功能拿出来,就是大家真的可以去跟GPT去聊天了。你可以打断它,它还可以去判断你的语气语调,这一块其实就已经强很多了。
在这个之前呢,它还是通过说把语音识别出来,然后变成文字处理,处理完了以后,再把这个文字念出来,通过这样的方式来工作的。但是高级语音功能呢,等于语音进去,语音出来,端到端的中间并没有变成文字的这个过程。虽然你最后结束了以后,是可以去看到所有生成的文字的,但是它会流畅得非常非常多。
但是呢,依然没有让我们看到完整的GPT-4O,或者叫Her,实际上是那个电影的名字,就是一个人工智能,像一个伴侣一样陪着你。这一次彻底出来了,加上什么呢?视频。我们可以打开摄像头,让GPT看着我们,跟我们去聊天。但是这个过程呢,GPT还是稍微有一点小滑头的。我让它看着我,我说你看我怎么样,它说你很精神。我说你看我年轻吗,它说你很有活力。后来我说,你能不能判断一下我的年龄,它说不行,我尽量不惹你生气。反正还是比较油滑的。
我还跟我太太两个人一起上镜,我说来,我们俩谁好看,它说你们两个都很有活力。好吧,这个就当是它骂人吧,反而给我们带来了很多的欢乐。让它去拍各种场景,你家里边的各种家具,屏幕上的各种截图,你让它拍下来以后,它都可以实时地去做出反馈了。甚至呢,你比如说,你让它拍自己的视频的时候,你不跟他说话,朝它笑一笑,它都会马上这个回应你:“哎,笑一笑真好。”这个就显得非常非常智能了。
这个功能极其好玩,如果你订阅了Plus,一定要去试一试,非常非常欢乐的一个产品。到第七天呢,发布了一个产品叫Project,Project的这个产品非常有意思,它等于是……
在ChatGPT里边给大家开了一个目录。你可以把它打开了以后,然后说:“我现在需要处理这些文件。”然后你把这些文件都上传上去。然后呢,它根据这些文件去进行响应。
原来呢,甭管是拆CPT也好,还有其他的所有这种聊天工具也好的,有一个很大的问题是什么?就是无状态。每一次去的时候,它都不认识你,需要从头去告诉它:“我今天有什么具体的事情。”如果你说:“哎,你把我的硬盘都搜索一下,在这个基础上跟我聊天呢?”它也很痛苦。为什么?因为你硬盘里的东西很多,它搞不清楚你到底要跟它聊具体什么事情。
所以,让它在某一个具体的任务上聚焦起来,现在我们就来做一个旅游规划。我把旅游相关的所有信息都给你,你就在这个范围内给我回答。这件事情原来是比较难以做到的。很多人去做AI Agent,去做工作流,去做RAG,实际上都是为了解决这个问题。
现在OpenAI说来了,咱们直接给你提供一个project的功能。你为了实现一个具体的功能,就把相应的文件都传上来,然后我就在你传上来的这批文件内给你去干活。这其实是OpenAI在向着自成操作系统的路上继续狂奔。他们认为以后不再需要操作系统了,什么Mac OS、Linux、Windows都不要这些玩意儿,我们自己干。我们自己把这些需要的东西找到了,以后就可以直接工作了。
大家以后就慢慢地把各种各样的文件都存在OpenAI的服务器上。你每次就问它:“我这个项目里头都有什么事情?我应该如何继续往前走?”“我另外一个项目里都有什么事情?有什么文件?有什么信息?我应该如何往前走?”这以后就不再需要操作系统了。
大家注意,前面谷歌出了一个产品,叫Workspace,其实已经部分实现了这件事情。Workspace就是你上去以后,实际上是个网盘,把各种文件都存上去。以后你就可以在网页端。
直接去有所有的Office功能,不再需要说我在硬盘上存在什么地方,我在这个其他地方怎么去存,然后怎么去找到它,不用干这个事了。我们在全世界任何一台电脑上,只要你能登陆到自己的谷歌账户,我们就可以使用云端的这台电脑,它里面存着我们所有需要的文件,有完整的Office相应的功能。
现在OpenAI说来,我们也照这个方式来。以后可能我们下一个产品,就是叫OpenAI网盘,大家以后就可以在那个上面干活了。那么以后你就问OpenAI说:“哎,某个目录里有些什么东西,或者是哪天放了一些什么东西上来呀?我最近有些什么样新的文件变化呀?”他就去工作去了。
那么OpenAI可能就会有新的收费方式,按照这个网盘存储空间这样去收钱。这可能也是未来大家可以去前进的方向,因为我一直讲OpenAI对于社会的最大贡献,就是指明方向。其实现在你用谷歌的Gemini已经可以部分完成这种工作了。如果你给谷歌Gemini去付费,它也可以在你的Workspace里边去干活。
但是Gemini目前为止呢,还没有那么聪明,虽然发了Gemini 2.0 Flash要稍微好一些,但是在各种的组件结合上,谷歌还有待提升。目前为止,12天里他已经过了7天了,大家注意,他礼拜六礼拜天是休息的,发布了7个新产品,后边呢还有5个新产品等待发布。其他公司呢,肯定也都没闲着,这个行业带头大哥已经冲了,其他人如果不跟着的话,肯定你的态度不够端正。
第一个冲上来的是谷歌,谷歌的Gemini 2.0 Flash这个版本上来了,它的整个工作效果确实是要比原来的Gemini 1.5要强非常非常多。而且它是个Flash版本,速度非常快还免费。它比咱们在1.5以及他们中间出的各种各样的版本的这个模型都要快得多,效果也非常的好。只是呢,他演示的非常多的东西,其实你压根找不着在哪。为什么?这是个技术型的公司,大家不要对谷歌这种。
技术型公司的产品能力抱有太高的期望,这个怎么讲呢?就是按他的说法,Gemini 2.0呢,完完全全可以像GPT-4那样,具备高级语音功能,像电影《Her》一样去工作。你可以与它对话,可以让它进行视频采集或图片采集。它生成的内容呢,甚至比PPT-4还要强。它可以生成混合内容,生成完文字后,再夹杂着图片一起生成出来。OpenAI现在只能生成图片或文字,无法将二者混合输出。
现在的谷歌的Gemini 2.0,据说可以做到这些。只是呢,它把所有的多模态输入和输出功能,都放在了开发者工具里,或者是一些未来项目中,让大家去加入waitlist,等待使用。因此,我们现在唯一使用它的方式,就是像我这样去申请开发者账号,然后将Gemini 2.0 Flash的模型挂到自己的应用里,可以使用它的部分功能。完整功能,生成混合的文字和图片,目前还做不了。
谷歌更新了之后,Meta肯定也不闲着。第一个呢,是把Llama 3.370币这个模型放出来了。现在Llama 3.370币的效能,比原来的Llama 3.1 405币高很多。其实在国内,我们一般不太尝试使用Llama,因为一旦Llama更新,可能过一个月左右,通义千问以及国内其他开源模型就会更新,补上这个窟窿。所以我觉得稍微等一等,可以期待下一步的产品。
Meta也公布了自己的视频生成模型,OpenAI已经上来了,Sora也出来了。Meta也要有其他的,比如说腾讯混元纹身视频大模型,这两天也突然开放,大家可以去试用。我去试了试,还是有点一言难尽。做这种视频生成模型里,最难的其实不是视频生成,而是模型操控。它的用户交互界面稍微差了点。但是既然OpenAI已经指明了方向,大家就朝着这个方向努力就好了。
Pica也更新了。Pica是华人团队做的一个美国的视频生成模型。他们呢,就很快地把OpenAI Sora的这些视频交互方式搁进去了。他怎么弄呢?就是你先上一副照片,说我要这个人,然后这个人呢,要去飞翔。他等于就可以很好地保持这个人的样子,然后去做后边这个动作。然后你再给他一幅图,说:“哎,现在要在这个环境下飞。”他这一块就可以编排得比较好了。现在已经可以做出一些非常有趣的小视频,在推特上面去传播了。
Pica更新了,MidJourney也更新了。MidJourney更新的那个产品特别有意思,它叫故事版。什么意思呢?就是大家原来不都抱怨说这个东西的一致性差吗?说我想让它连续地输出一些内容,输出不出来。MidJourney你说来,我们这次更新一个有趣的功能。在一个故事版里头,你先定义角色,这叫张三,那叫李四,这叫王五,这叫赵六,定义了一堆角色。然后呢,再定义一堆场景,这是厨房,这是厕所,这是客厅,那是卧室,哪个地方是教室。定义完了以后呢,你再去定义,说张三在厕所里边碰到了李四,李四在厨房里边给王五做饭,王五在教室里边去做什么。当你把这些提示词写完了以后,他就用你前面定义的角色,在你前面定义的这个场景里边发生各种互动了。
再往后,他家去做各种漫画,做各种的故事书,就非常非常方便了。你后边可以把这个故事写得很长,他在整个的生成过程中不会发生大的偏移。这个也是非常棒的。我觉得呢,也算是被Sora稍微提醒了一点吧,或者说大家可能殊途同归,都向这个方向走。只是呢,Sora发布了以后,MidJourney呢也再往前走一步。中国的各大模型公司呢,现在应该都在加班加点,Sora指明方向了以后,可灵还有像吉梦这样的视频模型,应该都会向这个方向前进,就是向故事版前进。视频生成过程中,某一些提示词在某几秒钟,或者某一些提示词在某个特定时间点里边起作用,这个大家应该都会跟上。
CANVAS和Project的这样的功能的话,字节的豆包还有像Kimi,他们应该都会去学习一下。至于数学大模型的话,从O1 Preview出来之后,大家其实就都已经在追赶了。比如说像阿里出的QWQ,通义千问下面专门有一个模型叫QWQ,就是做这种推理模型的,32B在我本机就可以跑起来,推理效果还是相当不错的。Kimi呢,也专门做了一个叫K0MAS,专门的一个数学模型,都是进行推理使用的。
搜索这一块的话,其实大家都已经做得还不错了。这就是前面七天给大家带来的这些变化。还有五天有可能发布什么呢?第一个很多人都在期待,Dalle是不是该出师了。Dalle3已经发布了很久很久了,没有什么更新。而且Dalle3现在明显的已经跟其他所有的图片生成模型比起来,落后非常多了。现在大家再去做视频生成的时候,都是用MidJourney生成的图片去做视频生成的地图。Dalle呢,是需要努力了,这个有可能会再往前走一步。
他们发布会的时候,其实是有一些暗示的。这一次在发布的时候,OpenAI X7BT在网页端做了一个比较大的这种改变。什么呢?就是他在聊天窗底下加了一堆工具栏,然后这工具栏里头有一批呢,是搜索、Dalle,还有Canvas,这些东西是在一个栏里头。你要先选我要用哪个工具,然后再去跟它说话。大家想,这个里头为什么会有一个Dalle呢?肯定他是有事情了。他把这样的一个已经稍微有一点点小落后的产品,跟这次新出来的这种搜索呀、Canvas放在一起,那么它有可能会更新。
然后新的智能体框架有可能也会出来。由于现在大家都在讲,说大模型就卷成这样可以了,后边呢,大家去搞一搞智能体。大家注意,现在的OpenAI呢,这么多新功能,其实是不能一起使的。什么意思呢?就是CANVAS、Search、语音功能,你每次必须选一个,你不能说我都选,说我一边语音功能,一边你去给我搜索。
这事不行。你说我一边canvas一边去搜索,这事也不行。或者说,哎,我去推理一下,推理完了以后,你给我放到canvas里头,或者去做语音这个事,都是不允许的。每次只需选一个,这个还是非常不方便。未来可能会有一些方法把这些功能串起来,而这些功能串起来以后,OpenAI的ChatGPT的可用性会提高非常大的一大截。
还有什么可以期待的呢?就还有人会去期待这个AI硬件。到年底了,折腾了这么长时间了,是不是也该拿出一个东西来?特别是前面,苹果当年iPhone的设计师,号称是在跟OpenAI一起合作做AI硬件。那么到年底了,是不是给大家瞅一瞅?这个有可能会出现,但这块呢,完全是咱们猜测,没有任何的依据。
还有一个是什么呢?就是有可能会出GPT4.5,就是它有可能会在GPT4的基础上再往前走一点。你说一下到GPT5,这个呢稍微有一点点难度,但应该还是会继续往前走的。因为在发布Siri那一天,他呢也做了一个暗示。在发布Siri那天呢,他们拿这个是iPhone,上面呢只有一个日历的框,在这个屏幕上,那个日历上写着说,我们要去发布下一代的AGI或者什么这样的东西。大家就去猜测说,这有可能是GPT4.5。这就是未来五天里头,大家还是可以去期待一下的事情。
等OpenAI把所有的12天、12个产品都发布齐了以后,我会再录视频跟大家进行总结。好,这一期就跟大家讲到这里,前面已经发布的产品,赶快去使用起来,非常好玩。好,感谢大家收听,帮忙点赞,点小铃铛,参加Discord讨论群,也欢迎有兴趣有能力的朋友加入我们,付费频道再见。