OpenAI用12天发布会,为业界指明方向。丨从O1到O3,这些革命性进展将如何定义AI未来?
12 月 25
AIGC AGI, AI API调用, AIGC未来, AI与机器人, AI互动演示, AI人工智能发展, AI创业, AI创新应用, AI发展方向, AI工具进化, AI开发, AI慎重对齐, AI技术, AI技术突破, AI推理模型, AI数学能力, AI用户体验, AI用户覆盖, AI硬件控制, AI编程比赛, AI行业分析, AI行业标准, AI训练成本, AI高端功能, API增强, API降价, ARC AGI测试, CANVAS项目, ChatGPT, ChatGPT API, ChatGPT Mac版, ChatGPT实时语音, GPT-5, Notion AI, O3 API特性, O3mini, O3性能, O3模型, OpenAI, OpenAI AGI, OpenAI O1升级, OpenAI 视觉输入, OpenAI与开发者, OpenAI使用技巧, OpenAI具身智能, OpenAI功能整合, OpenAI发布会, OpenAI安全机制, OpenAI高成本运算, Sora, WebRTC, 人工智能动态, 具身智能, 函数调用, 大模型, 实时语音, 搜索与语音集成, 结构化输出, 视觉实时语音, 高端推理模型, 高级语音功能 OpenAI用12天发布会,为业界指明方向。丨从O1到O3,这些革命性进展将如何定义AI未来?已关闭评论
OpenAI连续12天的发布会到底为世界指明了什么样的方向?大家好,欢迎收听老范讲故事的YouTube频道。
OpenAI的12天发布会已经结束了。首先,从我个人的感受上来说,稍微有一点点失望。没有带来新一代的Dalle,也就是绘图模型;也没有GPT-5,哪怕是GPT-4.5的升级都没有。Sora虽然发布了,但是他所发布出来的产品跟大家的预期是严重不符的。
那么,这12天到底都发了些什么呢?前面7天其实已经录了一期节目进行总结了,咱们这里就不再重复。后边5天,第八天是搜索和实时语音进行了合并。我在前面7天总结最后的时候,讲了一下我说,现在OpenAI发布了大量的工具,是隔离的。语音是语音,搜索是搜索,canvas这种画板,还有其他的很多工具,是相互隔离的。就是你要选择其中一个功能,其他的功能就不能选了。未来的话,一定会逐渐把他们再合并起来。
第八天就给大家演示了通过带有搜索功能的实时语音,解决很多现实的问题。原来实时语音你跟他聊了半天,他是就给你瞎编的,就是截止到某一个时间点的知识,然后以此为基础来跟你去闲聊。现在的话,你就真的可以问他:“今天天气怎么样?哪个地方餐馆是不是定满座位了?”他可以用一些真实的信息来给你回答,这个就会变得非常有趣。甚至,他们还演示了一下去结合地图跟大家做一些回复,说哪个地方有什么什么东西。他可以把这个地图调出来,你附近有哪些好的餐厅,有哪些好玩的地方。
到第九天,叫开发者日。这么多功能出来了以后,他给大家了一些API,也就是像我们这些程序员可以通过API把这些功能集成到我们自己的程序里边去。所以,先给大家看了O1的API进行升级。大家注意,O1原来我们是可以通过API去调用的,只是它很多东西都没有,包括函数调用、结构化输出、视觉输入,这些东西实际上都没有。这些是在4O上都有的东西,但O1上没有。稍微跟大家讲一下什么叫函数调用。
就是我们在调用大模型的时候,按道理说应该是我们给他一个提示词,他就吭哧吭哧就干去了。但为了能够让他有一些更多的功能呢,OpenAI也好,或者很多其他的这种大模型也好,都有这种函数调用功能。就是你跟他描述一下,说这个函数是查天气的,以后遇到查天气,请调用这个函数,直接把这个天气查出来。等于你把一个实际天气预报的网站就可以封装成一个函数,告诉这个大模型,然后它就可以去做这样的工作,等于它就具备了查天气的功能。
这个就叫做函数调用。而所谓结构化输出是什么呢?就是我们正常看到大模型输出的,都是乌七八糟的一大堆话。你想在里边找到真正有用的东西,然后再到下一个模型里去调用的话,有几种方式。第一种呢,就是你再给他一个大模型,说来把这个里头有用的信息总结总结,然后到下一个地方再去使用。但是这种方式呢,会有一个问题,过了大模型这个过程了以后的话,每一次的结果是不可预期的。有的时候找得着,有的时候未必找得着,这个会挺麻烦的。
另外一种方式,就是我们常用的方式,是把它写程序,直接在这个输出的内容里边进行正则表达式的过滤。就是说我过滤一下,这个里头有没有谁的名字呀,有什么性别呀,还有什么这些东西,然后把这些数据拎出来,然后到下一个环节继续使用。以前我们是这么使,但后来OpenAI就发明了一个方式,说哎,我干脆结构化输出吧。我再输出出来的东西,就不是一个完整的文字了,而是把它拆成程序员比较习惯使用的JSON格式。他上来就告诉你,这个人的姓名是什么,性别是什么,然后有3个人形成数组,每一个的属性都按这个方式写好。那这样的话,我们在后边拿程序去接收这个数据的时候,就直接可以拿这个已经结构化好的数据去把相应的信息拎出来,往下一个环节去走。这块还是很棒的。
至于视觉输入的话,他其实干的事情很简单,现在的O1的API可以直接往里塞图片了。原来都是你需要用文字去描述,它是不支持图片的,现在支持了。
这就是O1的API增强的东西。然后呢,给大家演示了一个叫WebRTC。加上WebRTC以后呢,等于我们自己的程序里头就可以有这个实时语音功能了。原来我们没有办法做这个实时语音,是因为呢,我们需要通过像API的方式来去调用它。必须是我先得到了一段声音,然后把声音塞到这个后台的服务器上去,先给我识别说说文字,然后呢,它产生结果,再去给我念。原来是这样。现在的话,就是它可以做WebRTC了。
RTC什么意思呢?叫Real Time Communication,叫实时通讯。所谓实时通讯就是说,你给了它这个音频流或者是视频流,给了它以后呢,它等于实时的去处理了。像我们使用的OpenAI的高级语音功能,就是它是说着说着你可以打断它,它会听到你的声音,然后接着跟你聊。这个东西就是WebRTC实现的。
咱们日常生活中各种的会议软件,还有很多直播软件,实际上它背后用的技术都是WebRTC。那么现在都是我们给大家提供WebRTC的这种API,你也可以让你的应用或者网页呢,拥有这种可以被实时打断的高级语音功能。这个也是一个非常棒的技术,至少对于程序员来说,稍微有点激动人心哦。
还有一个让程序员比较开心的事情,就是API降价。你调用了API,它是按TOKEN来收费的嘛,要每过一段时间都会降价,降一点点。那么又降价了,这个是让程序员开心的事情。
这是第九天开发者日。到第十天呢,发布了一个特别有趣的功能,就是直接电话通话功能。他给ChatGPT申请了一个电话号码,大概是1-800-ChatGPT。大家可以直接给他打电话,而且呢,应该是每一个电话,每个月应该有十几分钟的免费时长,可以去跟他进行通讯。他发布了这么一个有趣的东西,就是你不需要安装APP,上网页登录账号都没有,随时抄起一部电话来,就可以去跟他聊天了。
除了这种方式之外呢,还可以做WhatsApp。你把刚才那个1800……
后边ChatGPT的这个电话号码呢,写在联系人里,以后就可以使用WhatsApp跟他进行通讯了。跟他聊天也是允许的,这样的话,他等于极大地去扩容他的用户层面。很多的老人小孩,原来从来没有接触过电脑,没有接触过网络,没有接触过手机的人,就开始可以成为他的用户了。这个也是很有趣的一个发布吧。
我尝试了一下,我没法使,因为我的WhatsApp是用大陆手机号注册的。我使用大陆的手机号去给他打这个电话的话,肯定他也不会有任何回应,所以呢,就不用费劲了。
这是第十天。到第十一天呢,做了一个Mac桌面版的升级,可以呢看到Notion以及其他笔记软件里边的信息,然后还做了一些高级语音功能的整合,也就是刚才我们讲的ChatGPT的Mac版。你连到本机的Notion以后,或者连到本机的各种应用上,今后你现在可以跟他说话,通过说话的方式来控制这些应用了。
这是第11天。到第12天说终于到最后一天了。我记得到第11天的时候,就去讲说明天特别激动人心。在前边应该是发布apple intelligence那天呢,也在说说这个,以后有一天我们会发布这个AGI的,激动人心的AGI。所以呢,就是留足了悬念,大家就都等第十二天了。终于到第十二天了,坐在这看发什么了。
他发了一个叫O3的模型,这个就实在是太厉害了,都不好意思叫O2,因为前面一个模型叫O1嘛。说O2我们跳过了,我们直接叫O3了。整了这么个东西,是一个非常强大的推理模型,然后也发布了O3 mini,还有一个叫谨慎对齐的技术。
现在呢,这些O3模型呢都是期货,O3 mini是到明年1月底可以跟大家见面,而O3的话还要再往后推一些,据说是在O3 mini发布以后的一个时间跟大家见面。目前呢是开放了安全员申请,就是你可以申请成为安全员,进去呢帮他评测一下他们的安全机制是不是有效。因为这么厉害的模型出来以后的话,一旦是被坏人利用了,那等于坏人也如虎添翼吗。
这个是他们不希望看到的。具体第12天的东西呢,咱们后边详细讲一下,这个还是有点意思的。然后到第十三天,对,连续发布12天嘛。第13天还有事。到第13天呢,山姆奥特曼发了条推特,说从今天开始,Sora一直到年底,免费给大家使用,就是不限额随便使。我估计呢,它Sora发布出来以后,发现完全没有什么热度,没有什么人愿意在上面折腾。因为呢,很多人试了以后发现效果并不好,特别是很多物理bug,比如说多个手指头,或者什么腿往外弯了,两条腿变三条腿了呀,什么这种事情稍微有一点点多。而且呢,他限制非常严,像我到现在在他的Sora上,不可以画有人的视频。所以呢,我就试了一次,以后就再也没登录过。虽然我作为plus用户,每月还是有一些绘画的,或者绘制视频的这个额度的,但是没兴趣。
现在他又出来找补来了,说我们第13天还有东西,就是大家可以继续去使用Sora,作为圣诞庆祝,因为他觉得后边该过圣诞节了,大家都应该去画一些视频出来,然后去四处发发社交媒体,给人祝福祝福,这是一个很好的时间点。但是从现在来看呢,我并没有看到什么响动。怎么叫看到响动?别人画没画我怎么知道呢?也很简单,就是你到Twitter里边去,到YouTube里头去,如果你发现有大量由Sora渲染生成的这种视频在传播,在大家互相的转发点赞,那说明呢,这个策略是成功的。但是他发了这个推特以后呢,我并没有发现有任何变化,所以我觉得这个事情,应该他的目标没有达成。
好,下面呢,咱们稍微详细的讲一下第12天的O3发布吧。O3模型呢,就是这种博士生模型,前面我们还专门录了一期视频,再去讲如果花2,000美元一个月,让你去雇佣一个达到博士级别的AI助手,你到底愿不愿意?那么现在看来,人家也不是无地放矢,实际上都是在为O3去打基础。O3模型呢,在编程比赛里头获得了2,700多分,当场做主持的那哥们大概是做了2,500分,然后旁边的山姆奥特曼就问他说:“你多少分?”
他说2,500,当时那个脸就不是那么好看。但是他马上纠正说:“哎,我知道公司里头是有人得到3,000分的。”对于他们来说,我估计达到2,500就已经很强了。因为那个比赛我自己没有跑过,但是我估计以我的能力,应该是差得比较远。因为现在脑子已经比较木了,不是原来每天坐那写程序的那种脑子了。
然后呢,他说:“哎,公司里有人是3,000分的。”然后山姆·奥特曼的反应特别逗,他说:“这个3,000分,这哥们也蹦跶不了几天了。”为什么呢?因为以AI的进化速度,他想去追上人类的这一点点分数差异是非常容易的。特别是在这种规则比较明确的挑战赛上,人类是不太可能很长时间保持优势的。
第二个是参加数学竞赛,也得到了一个非常高的分数,就做错了一个题。山姆·奥特曼就想起来问说:“兄弟,你那个数学竞赛考了多少分?”那哥们赶快松了一口气,在老板面前保住面子了。他说:“我是满分,我一个题也没错。”后来又赶快找补,他说:“我是做出过满分答案的。”
对于这个O3来说,对于这种大模型来说,你让他反复去做,他最后肯定也是能够做出满分答案的。甚至原来还有那种猴子理论,就是你让一堆猴子在这随机的点点点,或者随机的打字的话,都有可能能够形成有意义的长文本。所以你让O3反复叙事,他肯定也能够达到满分,这个不用担心。我估计这哥们也是压力挺大的,老板坐在旁边,随便出点什么数:“你多少分?”这个还是稍微有一点点吓人。
而且他说他满分了以后,估计他也想明白了:“说不对,这个不是老板在面试我,不是在考教我,我们是在发布新产品,还是要说产品牛。”然后赶快又找补回来了这个东西,这个也是很厉害的。但这一点上呢,一定是O3体现出了极强的编程能力和数学能力。
然后参加了一个叫ARC AGI的测试,这呢是一个全球可以开放的测试,所有做AI的人都可以去拿自己的模型上面去跑去。GPT-3在里面大概是0分,GPT-4是5分,4O可能比这个4稍微好那么一点点,O3的话是达到了87.5分。
这是一个非常非常高的分数了。人类的平均水平是84分,所以它已经超过人类了。我们正式向AGI进发了。这个比赛呢,超过85分的就可以获得60万美金的奖励,还是一个非常棒的比赛。但是呢,它也展示了另外一个事情,就是O3模型的运行是需要超高的运行成本的。
为了应对这个超高运行成本,他们还设计了一个很有趣的东西,就是在你每一次向O3问问题的时候,可以设置说,我到底是用这个高成本运算、中成本运算,还是用低成本运算,而不是像原来使用GPT式的,就是你只管问,它自己来根据你的问题决定使用多少算力、多少成本来算出结果来。
他们参加这个ARC AGI的测试的时候,如果使用低成本运算的话,只能得到75.7分。虽然没有达到人类的平均水平,但已经很高了。然而,这样的75.7分的结果是用20美金算出来的,不是20美金一个月,而是20美金一次哦。这是非常非常恐怖的。
他们刚才说的这个87.5的分数,超过人类平均智力水平,这个分数是用高成本算出来的。他算一次需要花几千美金,这是非常吓人的。所以前面录节目讲的这个2000美金一个月的,我觉得2000美金未必够他烧的。就是你按照运转一次就需要花几千美金的这种高成本运算来算的话,那这个收费的方式可能还需要重新思考一下。
除了发布这个O3之外,还有O3mini。O3mini呢,是高中低三档算力开关,也是如此。效能呢做了很大的提升,低成本推理这一档呢,速度很快,基本上跟GPT4O的速度是一样的。现在我们使用O1 mini、O1这样的模型的话,它的速度是非常慢的,你需要等半天才能有结果出来。但是呢,使用O3mini基本上是可以达到4O水平的。
然后使用中档推理的时候,可以达到O1的这个效果,但肯定它比O1要便宜嘛,因为它是叫迷你的一个版本嘛。但是呢,它的运算的结果跟O1是一样的,但是高档就没事没得比了嘛。
而且呢,O3 mini呢,提供了丰富的API,就是结构化输出函数调用,这些都给了大家可以去写程序去使用了。但是O3的API到底长什么样,这个就不好说了。除了O3和O3 mini之外呢,还发布了一个东西叫谨慎对齐。你发了这么神奇的东西,万一有坏人用怎么办呢?所以这个事情一定要去讲一下。
他们整了这样的一个谨慎对齐,实际上是什么?这是原来我们要去对齐的时候,或者说我们要去甄别用户提进来的提示词,是不是恶意或者隐藏恶意的时候呢,他们以前都是通过这种静态的关键词去进行过滤的。现在说不用了,我们训练了一个模型,然后这个模型呢,自己可以推理出一个标准来,灵活地去甄别每一次的提示词。但是这个呢,现在请大家报名去做测试,看看到底能不能突破它。因为我对于他们的这种数学和推理能力,其实是缺乏理解的。就是以我的这个理解状态来说,我觉得这个谨慎对齐的这些安全方式的话,应该突破不难。这个等他慢慢后面进化去吧。
通过第三天的发布呢,我们看到了一个非常有趣的现象,也就是OpenAI的用人原则。他们其实就是通过各种的智力测验、各种的编程比赛、数学比赛,挑了一堆的这种天才儿童坐在这。但是我们去讲“天才儿童”这个词的时候,听到的朋友们,你觉得这是一个完全正面褒义的词吗?好像不是吧。
现在这一群的天才儿童坐在一起,给我们带来的产品就是O3、O3 mini,一些普通人已经完全无法去理解和使用的一个强推理模型。没有给我们所期盼的普通人能够用的GPT-4.5或者GPT-5,而是给了我们一个O3。我们对天才儿童的这种认知,一般是什么样的?咱们从字面意思上去理解的话,大概是这样。这帮人在某一些特定的环境下,已经跑得非常远了,一骑绝尘跑出去了,让其他人完全无法望其项背了。但是呢,对于正常的生活,柴米油盐酱醋茶来说,基本上是弱智。反正至少我的对于天才儿童的理解是这样的。所以呢,现在GPT的O3以及他的谨慎对齐的话。
我基本上是按照天才儿童的方式来理解他们的,这个事没有什么依据,这就是完全的感受。好,这就是第十二天发布的产品了。往后呢,我们来讲一下OpenAI的方向判断,通过12天的发布,他们到底想干什么,这个我们要去看一下。
第一个,OpenAI现在一定是希望拉更多的用户进来,甭管是Apple Intelligence,还是直接可以给他打电话,直接可以用WhatsApp跟他联系。他还是希望拉更多的用户进来,而且呢,可以覆盖更大的应用范围,比如CANVAS Project或者其他一些新的功能。它希望可以覆盖很多原来,比如说Office或者是其他的一些软件所覆盖的这些功能。
包括第11天所演示的ChatGPT麦克端的APP,可以直接跟大家的Notion、Notebook也可以跟这些产品一起工作的这个能力。他希望把AI带到所有的边边角角、方方面面里边去。我觉得这个Notion AI可以哭晕在厕所里边了。
另外一块呢就是降价。OpenAI的降价其实一直都没有停下来,每过一段时间就会降价。但是对于普通用户来说,你一个月20美金也好,或者是200美金,或者其他这种版本也好,这个它不会降。但是什么东西在降价呢?就是API在降价。每过一段时间API就会降价,降价的原因呢,就是现在其实我们在程序员使用API调用的各种大模型里面,OpenAI的ChatGPT还算是最好用的之一。现在只能算之一了,因为呢,它跟这个Anthropic Claude 3.5 Sonnet比起来,算是不分伯仲吧。在这样的一个情况下,他只要是不断的降低API TOKEN的成本,那么我们这些人就会继续去使用他的API,那么他就可以很有效地去挤压他的竞争对手。这件事情一直在前进,然后瞄准高端狂奔,这就是这一次12天发布会里的实际最主要的东西。像第一天欧一完整版。
第二天,什么是强化学习?然后到最后,上了一个O3。中间其实还有很多,是专门进行这种研究型应用的模型,已经完全脱离了普通人使用的这种模型。这个方向其实在O1的时候就已经指明了,我们要向这个方向前进,不再去做5了,或者再做什么这些东西了,我们就要去做强推理。
在这样的方向指明了以后,现在谷歌、国内的像Moonshot、Deepseek、阿里这些都已经纷纷跟进,分别推出了自己的数学模型。谷歌推出的叫Gemini 2.0,Flash Thinking,Kimi的话应该也是推出了一个叫m系列的模型。Deepseek应该也有一个类似的模型,国内还有一些这种数学模型。阿里推出的叫QWQ,也就是通义千问QWQ模型。有一些我已经用过了,效果其实还可以。
OpenAI已经成功地把整个行业的方向向着研究方向带过去了。再往下一步,OpenAI要做的事情,继续是各种工具之间的联通和统合,这里还有很多工作需要做。你比如说,现在你想用CANVAS的时候,还是不能用搜索。虽然可以在实时语音里头用搜索,但在CANVAS里用不了。CANVAS跟其他各种功能结合起来,或者绘图什么结合起来,这个还需要逐渐把它自己这些功能打通,这需要下功夫。
然后,面向普通人的大模型进化,OpenAI还在探索。现在有传闻说,GPT-5训练了几次,效果不好,依然在训练。就是成本非常非常高,周期很长,训练一次几个月的时间,花5亿美金才能训练一次,但是训练了两次都没有出来结果。不过目前这些都是传闻,我自己也没有详细考证过,还是慢慢等进一步详细的消息出来吧。
那么未来AICC行业的方向是什么?这刚才我们讲了OpenAI的方向。大家要注意,12天连续发布会,实际上对整个行业来说,有一个重大的利好。这个利好是什么呢?就是两大困扰创业者的问题。
有一个暂时没有爆发。两个问题是什么?第一个是底层架构不稳定,第二个呢,是上层应用被覆盖。这个什么意思?咱们先想后边这个。就是你吭哧瘪肚坐半天,等OpenAI再去开发布会的时候,你发现你的功能被覆盖掉了,你的事情白干了。就是每一次OpenAI一开发布会,就说又有一大片的创业公司倒下了,就是功能被它覆盖了。这个问题依然没有解决。
这一次这个OpenAI 12天发布会里头,依然是覆盖了一些东西,比如说ChatGPT的Mac客户端可以直接跟Notion结合了。那么Notion AI的一部分功能实际上是被它覆盖掉了。甚至呢,Mac端的ChatGPT的应用可以直接跟各种的IDE开发工具去结合去写程序了。为了应对这件事,微软说来GitHub Copilot免费了。所以现在你想写程序的话,可以直接使最好的那个,不用去跟其他的那些免费模型较劲了。这也是这个倒逼微软降价吧。所以这块依然没有解决。
但是另外一个问题呢,基本解决了。什么呢?就是底层架构的不稳定。原来你要去做一个创业,说:“哎,我在GPT2的基础上做了一个东西。”等你这个东西吭哧瘪肚开发了一年,写出来了,人家说我GPT3出来了。那说咱们升级,GPT3上我吭哧瘪肚写了半年,又把它写出来了。我3.5了,那咱再升级,又吭哧瘪肚写了一年,说我这个现在是完全适应GPT3.5的了。我们要去开发布会了,正要出门了,我们这个GPT4出来了,然后4O出来了。这个就叫底层架构不稳定。
现在一看说,哎,5依然遥遥无期,5的各种特性都不知道。因为我告诉你,不需要把5做出来。如果OpenAI能够做出来,说我5是按哪个方向做的,朝哪个方向发展的,这个事他如果敢出来说的话,那么整个行业就会奔着那个方向开始跑。就跟他2024年年初说我要做Sora,我放了一堆演示出来的过程是一样的。实际上他已经把整个行业带着跑了一年了。所以现在5到底是什么样,不知道。那么这件事就算稳定了。
底层基本上稳定了。现在呢,甭管是LLama、通义千问、Gemini、Claude、OpenAI,还有其他的各种模型,都基本上停留在GPT-4的这样一个水平上,上上下下吧。然后呢,他们的调用方式,整个的反馈的这个结构基本上是跟OpenAI一致的。就OpenAI制定了一个标准,规定好了这个东西是怎么调用的,提示词大概怎么写,调用的时候是分几个命令进去,出来了以后可以有哪些功能。像刚才我们讲的什么函数调用、这个结构化输出,这些东西其他人都是照这个标准做的。
所以呢,现在再去做什么应用,或者做AI Agent,大量的这种工作流都串起来,干这个事情的话,那中间的这些大模型就有极强的可替代性。我用OpenAI可以用,我用Gemini可以用,我用Claude可以用,我可以随便换。这个的话,其实是对于开发者来说,或者对于创业者来说,是一个巨大的好消息。就是底层暂时稳定了,大家赶快冲上去,把一些具体的应用做掉,这是很好的机会。
OpenAI自己呢,还会继续去将各种分散的功能逐步整合起来。所以在这个时候,千万不要尝试去做拼接工具。什么意思呢?你比如说,哎,我现在是不是做一个带有搜索的CANVAS功能?这个你就别费劲了。你要相信我,OpenAI自己一定可以搞定这个事。而且他一旦搞定了以后,你做的那个产品一定会被覆盖掉,这个事不要去干,直接面向混合后的OpenAI功能就可以了。
你比如说,我们认为带有搜索和这个项目功能的OpenAI的这种API未来会出来,那么我们就直接以此为目标进行开发就行了。等它一出来的时候,我们其他东西就开发完了,这也许是一个方向和玩法。那么用户交互方面呢,肯定还是会有很多可以值得探索的东西。这一次OpenAI给了我们两个提示,第一个提示就是如何让AI更好地跟现有的系统相结合,到底是通过Mac上面的ChatGPT APP。
直接去跟各种APP进行结合,还是说我到这个网页里边,直接给你上canvas或上画板,这块呢是大家值得去探索的,也是呢这个OpenAI给大家做的一些演示或指明的方向吧。这块是值得去试试的。
另外一块的话,就是如何将复杂的需求准确地表达给AI,这个是OpenAI这一次开发布会的时候给大家演示了。那说哪一个是做的这块的演示呢?Sora的故事版。我怎么能够把一个有持续的信息分成持续提进去?这个其实是OpenAI给大家做了一个创新,虽然这个创新很小,但呢非常有意义。
以后我们不用再去想说,我如何可以在一个提示词里一次性把一个完整视频所需要的信息都扔进去。你可以在故事版上,在时间线上,这个地方要干什么,那个地方要扭个头,这个地方要变个颜色,这个时间点要起始,要画什么东西,然后到几分几秒的某一个时间点,这个主人公向哪个方向走,或者做什么动作,或者到几分几秒这个颜色发生什么变化,或者亮起什么样的灯光。他可以通过这样的方式呢,进行更精确的有持续性的信息输入。
而且这些的话,应该会很快被像什么吉梦、可灵、Runway这些模型应用起来,这个我觉得可能一两个月就会看到变化了。现在呢是研究和推理领域,肯定会越来越小众。面向普通用户的方向的话,各种的APP,各种的这个用户交互方式,这块呢现在大家就可以去干了,2025年应该是这一块可以出成绩的时候。
另外呢,就是具身智能必然会爆发。其实我们这一次看OpenAI 12天的连续发布会里头,真正让我感觉很震撼的东西是什么?就是带有视觉的高级语音。你可以开着摄像头对着自己跟他聊天了。这种东西你扔给了具身智能的机器人,再要求OpenAI直接输出代码,说来你给我输出代码,然后我用这个代码去控制机械手。技术变化了以后再给你进行一些反馈。
现在的OpenAI大模型,其实已经距离控制机器人非常非常接近了。所以呢,这些机器人公司应该发力了。
新的具身智能未必长得像人,只需要做好插件、传感器、动作执行以及反馈这一块就行了。下边就是怎么提高技能、提高准确度、降低成本。这就是2025年可能提给所有具身智能行业的一个要求了。后边大模型的部分不用管了,扔给OpenAI就完事了。
带有视觉的实时语音,会改变每一个人的生活方式。这个智能的硬件产品包括一些新软件产品或者网页,在2025年的话,应该会有非常多的涌现。
最终总结,2025年依然是AIGC的一年。虽然前面OpenAI连续12天的发布会让我感到稍微有些失望,但是他还是尽到了责任。不是说发布了什么让我特别感到眼前一亮的革命性产品或者什么iPhone时刻,没有。但是呢,他依然作为老大,执行使了他的义务,就是为整个行业指明了方向。
好,这一期就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛、参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。