GPT-4o重磅发布:提前一天,正对着Google I/O骑脸开大,所有人都可以免费使用的GPT-4o,最贴近人的语音聊天助手,就像电影“her”中觉醒了的AI一样。AGI正在向我们走来。
5 月 15
AIGC 4O功能, 4O模型, 5月9号, AIGC, AIGC产品, AIPC, AI助手, AI发展, AI运算, API价格, APP重要性, Deepseak, Devon, Google Gemini, Google I/O, Google压力, GPT Siri, GPT-4, GPT-4o, GPT4, GPT4与GPT5, GPT4与收费, Group, IPAD, Kimi, M4芯片, OpenAI, OpenAI官网, OpenAI活跃度, OpenAI签约, Perplexity, PPT修改, Sam Altman, Siri GPT, Siri替代, XAI, 上海取景, 中文标签, 付费用户, 免费API, 免费GPT4, 免费使用, 发布会, 响应速度, 国内大模型, 多模态识别, 大模型, 实时翻译, 手机发热, 摄像头功能, 文心一言, 新功能, 未来AI, 未来风格电影, 本地识别, 本地运行, 李开复, 浏览器与APP, 浏览器使用, 灵异万物, 现实演示, 网络负担, 股价波动, 自动编程, 自动编程机器人, 芯片, 英文标签, 苹果, 视频剪辑, 视频识别, 语气语调, 语音识别, 谷歌演示, 跨语言沟通, 通一千问, 长城防火墙, 预处理, 马斯克 GPT-4o重磅发布:提前一天,正对着Google I/O骑脸开大,所有人都可以免费使用的GPT-4o,最贴近人的语音聊天助手,就像电影“her”中觉醒了的AI一样。AGI正在向我们走来。已关闭评论
GPT-4oo大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Open AI最新发布的GPT-4,到底是一个什么样的东西。专门赶在谷歌I/O之前的一天开,这就是司马昭之心,路人皆知了。对,指的是谁,大家心里都明白。当然,选择这一天开发布会的还有其他人,比如李开复也在这一天发布了他“灵异万物”新的大模型。以后找机会学习再跟大家分享。通义千问呢,是早几天,5月9号发了他们自己新的大模型。
我呢,自己肯定是懒得去在凌晨2点看直播了,所以到今天,看看录屏,然后看看其他人都在说什么,再跟大家介绍一下GPT-4到底是一个什么样的东西。在这之前,大家一直知道,说他要在这个时间点开发布会,甚至在他没有公布发布会时间的时候,大家也都在猜,说是不是上周要发布,是不是这周要发布,然后猜了很多有可能会发布的产品。有些人猜GPT-5,有些人猜测试GPT。
战猫奥特曼说了,不是GPT-5,也不是测试GPT。我呢,在礼拜天,也就是在发布会前的一天,还在推特上在问,说这个新发布的东西会不会是GPT Siri或者是Siri GPT,对吧,因为已经传出消息了,苹果要跟Open AI签约嘛,那么出来的东西应该是这样的一个东西吧。甚至呢,我也猜过,说是不是GPT-5出来了以后,GPT-4就免费了啊,万一GPT-4免费了呢,现在惦记收费的这些版本该咋办呢,还活不活得下去,这事没法混了。所以呢,当时拆解了这么多种可能性,从我个人角度上说,我猜了GPT-40,免费的GPT-4,GPT Siri,拆了三个方向。现在看呢,我觉得我也没猜错。对吧,现在的GPT-40啊,基本上是这样,这四个方向的事其实都干了。都发布了什么呢?第一个是GPT-40,它可以进行语音识别与翻译,支持50多种语言,可以进行实时搜索。但是,它并没有进行搜索之后的很完善的内容组织,不像Perplexity那样,可以进行很好的搜索结果组织。GPT-40免费对公众开放了,这也是一个逐步开放GPT-4的过程,虽然开放的是40版本。
我今天还专门去问了一下GPT,我说:“你40版本都开放了,我为什么要买GPT-4呢?”它回答说GPT-4的功能要更强,处理效果更好,物有所值。跟我讲了半天,当然,这可能是它产生的幻觉,编的故事,这个就不重要了。
那么,更高的响应速度,号称响应速度从320毫秒降低到了232毫秒。这意味着,你和它聊天,语音或发消息给它时,它能更快地回复。这还是很有价值的。但是,因为我们在国内,需要挂节点或梯子,所以我并没有感觉到它变快。不知道以后是否能主观感受到这个提升。
然后,更便宜的API价格,GPT-40的API已经公开,我现在已经可以调用了,价格大约是GPT-4标准版的一半,便宜很多,而且很快。当然,它有限额。虽然可以免费使用,但现在具体每天或每小时能用多少次,我没有找到公开信息说明。即使是像我这样的Plus用户,每月交20美金的,也是有限额的。我们的限额是免费用户的5倍。比如说,免费用户用了一个小时5次,就到限额了。而我,作为付费用户,可能一个小时可以用25次。如果达到限额,免费用户就自动退回GPT3.5。对于付费用户,达到限额后并没有额外奖励,同样会受限。
此外,除了GPT之外,还将推出一个新功能——集成GPT的桌面板。这个桌面板就像一个桌面精灵,能悬浮在屏幕上。你可以随时询问,比如:“我这程序写得怎么样?”它能实时查看你的屏幕,指出错误,让你及时修改。不过,它的交流方式会更加自然,不会这么生硬。虽然没有详细演示,但大家都很期待。
桌面板真正让人震惊的,或者说大家真正关注的是GPT4.0带来了什么新东西。其实,我们提到的所有功能GPT4都有,它只是更快、更便宜,功能整合得更好。这似乎不值得大惊小怪,感觉是更新而非革命。所以,我们只是做了更新,并没有推出新产品,连GPT5的影子都没见着。但为何依然引起巨大轰动?
原因在于,GPT4有几个真正的新亮点。首先是“所见即所得”体验的升级。不同于谷歌Gemini允许上传照片和视频,GPT现在可以直接通过摄像头工作。你只需把摄像头对准目标,比如一张纸,就能直接提问并得到回应。\n你看我这纸上写的什么?你看看我身边是什么样的一个环境?你给我描述一下我现在这个状态啊。刚才有什么反常的事情发生吗?你可以问他这样的问题了,这是一个巨大的进步。叫眼见为实。而且呢,通过这个演示,现实地打脸了谷歌的General。为什么?因为谷歌当时也是放了这么样的一个视频,后来被大家打脸,说你这个视频是剪辑过的,你实际上还是上传的照片,然后让他自己去读照片,而不是举着手机让人看了一眼,说:“你看上什么了?”哎,不是这么干的啊。你把中间这个放照片、换照片这个过程呢,都给剪掉了啊,这个是骗人的啊。但是现在Open AI呢,就真的找了几个大活人坐在这,然后举着手机来,“你看看这,你看看那。”然后这个纸上写了什么啊?我在这个纸上出了一个数学题,应该是怎么做的?我做对了没有?对吧,现实的给人看,对吧?因为你旁边有大活人嘛,你肯定不能是剪辑,对吧?你一旦剪辑了以后,那个人的动作就不连贯了嘛,因为你人没法说,“哎,我这剪了两刀啊,来,请这个做好原来那个动作不要动啊,然后再接着往下演。”这个事是做不到的。对吧,所以他一定要上大活人。人家告诉你说,“哎,谷歌是剪辑骗你们,但是我是上真的啊。”这个是真的很让人震惊的啊。
视频演示的艺术呢,其实是AIGC整个发展过程中,大家不断地去研究和深化的一个新的门类了。为什么讲这样的一个话?因为大家会发现,所有AIGC产品的发布,基本上都是要上视频的。上视频的好处是什么呢?就是我可以剪辑,可以编导,可以去处理,而且呢,它很有感染力。不是说让用户自己去试,因为让用户自己试了,你还有翻车的可能。但是如果是我,给你一个视频,我可以把它剪辑一下,把翻车的部分都剪掉,然后可以提速,可以减速,可以把不该让你看到的东西删掉。那么大家都在很努力地提升,当然有的时候会翻车了,包括前面这个Devon,也就是这个自动编程机器人,也是翻车了。然后马斯克说,“来,我给大家演示机器人啊。”然后发现,“哎,你旁边还有一人呢。”这个漏出来了啊,穿帮了啊。也有这样的事情。谷歌啊,做Gemini的演示也是穿帮了。视频演示的这种艺术呢,谷歌基本上靠的是剪辑。Open AI靠的是什么呢?哎,千万不要以为说,你们看到的就是现实,看到的就是这个样子了。Open AI肯定也是做了一些花活,Open AI靠的叫编导,他事先要编辑好故事,然后呢,来给大家演示。他指着说,“哎,我编辑好了,然后演示一遍,失败了,没有啊,好像失败了啊,再来一次。”然后这次又失败了,再“来一次”。哎,那你说不是从头到尾一镜合成吗?一镜到底啊。对啊,但是他可能拍了20条、30条一镜到底,最后挑了一条能看的给你看。所以,千万不要认为说,你看到的就是最终结果,就是他的平均水平。他可能也是挑了一条好的给你看。
而且在演示的过程中,他们可能不是说,“哎,我演示完了以后错了,再来一条啊。”不是这样,他们说先写好脚本,照着脚本演了一遍,发现,“哎,不对啊,回答的有问题。”改脚本,改完了以后,咱们再练一次。哎,发现又差了一点点,效果不是很满意,再改脚本,再试一次,最后给你一个能用的。所以,这个东西真的落到我们自己手里头,未必能有那么好使。
因为有人测试了GPT-4的这个翻译功能,发现呢,稍有偏差,这个内容就不见了。比如涉及成人问题,涉及一些血腥暴力问题,这个内容就直接不见了。大家在看演示的时候,肯定不会给你演示这部分。人家肯定演示的是啊,开心的交流,上来是一个小哥,用英语跟旁边的美女进行意大利语的沟通和交流。但是你想,很多的这种漂亮小伙跟漂亮小姐姐之间,需要靠GPT-4进行实时翻译的时候,经常聊着聊着,然后中间有一些这个敏感内容,就不见了。这不是一个非常无聊的事情吗?对,但是这部分不会给你演示,所以,惦记靠GPT-4出去找小姐姐的这些人啊,就可以休息一下了,不要想太多啊。有些事情呢,看到了事后问起,啊,还能想起来,这个真的是很绝啊。因为Greg在上面做演示,这个时候,突然有一个女同事…\n呀,么巧动的走到他身后,然后在他脑袋后头比了个兔子耳朵,然后走了。Grag就问说:“刚才有什么反常的事情发生吗?”这个GBT40就说了:“啊,刚才有一个人要跟你开玩笑,站在你身后,在你后边比了一个手势,是这个兔子耳朵。”说得非常清楚。这个我觉得真的是挺吓人的。哪怕说我看了当时没有处理,但是我记住了,下次你问我,我还能给你总结出来。而且,我还知道他在跟你开玩笑,他等于把整个这个过程都理解得很好。所以我现在越来越相信,Sora是世界模型,真的可以仿真出一个世界来。这是第一点,让人感到很震惊的。
然后,另外一点让人感到很震惊的是,它真的像个人了。他的说话的语气语调,对这个人的判断,“哎,我看着你不太开心啊。”对人的语气语调的判断,对着摄像头前的这个人的表情的判断都非常好。他自己的输出情感也很充沛,有笑声,有害羞,各种各样的感情都非常充沛,而且很自然。你并不会感觉很吓人,这个过程。而且呢,他还可以中间打断,这个其实很难。就是他聊着聊着天,你中间打断他,而且呢,可以多角色聊天。因为Greg也演示了一点,就是两个AI自己在这聊天,然后他在中间还可以叫停他们,“哎,说咱们一块再聊个,说一个其他的事情啊。”这个是非常强的,因为AI等于已经可以分清谁在说话,这些之间的这个关系到底怎么样。你中间打断他了,再跟他聊天,他还可以停止他刚才正在说的话,继续去回答你的问题。这个已经非常强了,越来越像人了,就是他有这个察言观色的能力了。
詹姆斯·奥特曼也在讲,说:“你们有没有看过那个电影《Her》?”啊,这个我也看过,就讲的是一个工程师吧,他呢,跟一个装在口袋里的,有着很温柔、很性感声音线的一个女性的AI机器人去聊天,然后深深地爱上了这个机器人。讲了这样的一个故事。那个故事非常好,就是它的拍摄成本极低,但是呢,极其引人深思。这个电影另外一个值得推荐的是什么?它是一个美国人拍的科幻片,但是所有的外景地是在上海取的。对,这个非常神啊。为什么呢?因为他们觉得上海这个地方实在是太魔幻了,魔都嘛,对吧?要想拍这种有未来风格的电影,一定要去上海取景。这也是推荐大家去看的一部片子吧。有很多人说,我要去买啊,甚至我还有一个朋友说,我马上就去买这个M4芯片的iPad去了。
呃,首先啊,跟大家讲,免费用户手机端现在还是只能用3.5,你还用不了4。但是呢,免费用户呢,可以在PC端用浏览器使用GPT4了,这个没有任何问题啊。我刚才已经试过了,就是我到浏览器上去,然后呢登录一个新的OpenAI账号,那就肯定没有付过费嘛,他说你现在可以使用3.5和4了。但是在浏览器里头的话,他是没有录音键的啊,就是你只能是打字或者是上传图片,这个是OK的。他并不能去调用摄像头。
如果是付费用户呢,在手机端也可以选择GPT4,可以使用了。但是呢,并没有想象中那么快,刚才我讲了,为什么?因为我们需要挂梯子。语气语调呢,其实也没有加载,就是我们现在跟GPT4的各种沟通,它并没有那么丰富的语气语调,还是原来的这种慢条斯理在跟你说。摄像头的功能现在并没有打开,我估计应该没有那么快,为什么呢?因为摄像头这件事情,其实对你的手机、服务器、对网络的压力都实在太大了。这个事情未来到底会怎么被打开,还要等着看。而且你一旦开了摄像头功能,他对于隐私保护,原来有争议的问题就都会出来。你说这玩意为什么会有隐私保护?再跟大家讲啊,以前有一位工程师…\n是专门做人脸识别支付的。他有一次就发了帖子说:“这提醒小姐姐们,你们再去做人脸支付的时候,请一定要穿上上衣啊,千万不要问我是怎么知道的。”这个,跟各位小姐姐们共勉。
API用户的话,现在已经可以用了。因为我自己也会写程序,啊,我刚才试了一下,GPT-4o这个模型的API已经可以用了,比PT4特本要更便宜、更快,而且呢,支持读模态识别。全部的功能肯定要等,有些功能可能需要等很久,特别是视频识别。我估计视频识别真的跑起来以后,手机会发热的,甚至有可能会冒烟。咱们现在看到他现场演示的这个,他可能服务器就在他楼下,或者没准就在背后的那面墙旁边,就是他的服务器,离得非常近。所以,他有可能能够举着手机就去识别去。如果像咱们这种,服务器还在大洋彼岸,那你想去靠手机识别的话,这个很难啊。
这件事情对行业的冲击是什么?这个一定要去讲。第一个冲击:免费最可怕。OpenAI用户数活跃度虽然近期有一定的下降,但是呢,我并不觉得有了免费的GPT-4o之后,这个事就会有多大的变化。这个数会发生波动,但是没有什么意义。为什么呢?你的用户再多,付费的人再多,你能把OpenAI烧掉的钱挣出来不?你能盈利不?依然是九牛一毛。所以这件事本身对于OpenAI意义不大。
那么对于其他的币源呢,还惦记收费的服务啊,你们就该想想了。比如说Group,比如说Gemini,你们最后还惦记收费啊。虽然Gemini的这个Pro你是免费的,但是你的Control你是惦记收费的。那你要看看你收费的那个版本,跟我现在免费的GPT-4o比起来,到底行不行啊。这就是要去喊一嗓子了,你行吗?
第二个呢,以后的那些虚拟男友女友们,就赶快去更换新的大模型就好了,统统都换成GPT-4o。然后你们的用户啊,这个粘性会上升的,你们的用户会留存下来的。这又指明了一次方向。当然了,到了那边以后,他是不是继续做“盗学先生”,这个是需要打一个问号的。苹果新的Siri,我觉得是可以预期一下的。如果苹果新的Siri里头搭载的是GPT-4,呃,那还是一个非常棒的结果。当然,他在国内会搭载什么呢?难道是文心一言?呃,最好还是换一个,因为苹果到中国,肯定是要换一个大模型塞进去的。你就像苹果在美国用的是谷歌搜索,在中国的话,默认的都是百度搜索啊。千万千万不要上文心一言,然后最后还给我们解释了什么呢?就是APP才是王道。
在大模型出来以后,很多人都觉得,“哎呀,我在网站上就可以把这事搞定了。”“我在OpenAI的网站上,我在Rook的网站上,我在推特,我就可以把这事搞定了。”“我不需要APP了,APP已经没有什么意义了。”现在看到了,没有APP才是王道。为什么呢?啊,因为还是要有很大的内容,或者很大的这种算力要到本地去跑。AI的大模型公司可以将一些AI的小模型直接封到APP里面去,这样就可以分摊服务器的压力,可以分摊网络流量。
你比如说,我现在需要拿手机直接进行识别,比如原来的语音识别,你是怎么着呢?在只管录音,录完音以后是传到服务器上识别的,就是用OpenAI的Whisper的大模型直接处理。这事为什么可以呢?就是你可以在语音录下来以后,把它压缩得很厉害,压缩得很小了以后,然后再上去识别,识别的效果还很好。这个对于网络的压力其实没有那么大,对服务器压力也没有那么大。但是你想,现在他要做视频识别了,视频识别,你说我传1080P回去还是传4K回去?你就算传1080P,这个速度有多少?虽然我们的手机是可以做1080P的直播的,因为我有时候会做直播嘛。啊,1080P直播直接用5G流量是推得上去的,但是如果所有人都推这个玩意上去,他受得了吗?他肯定受不了啊。这个事肯定是不行的。所以,一定需要在本地做一些视频的预处理,然后才能回去。那么,你视频预处理可能也需要一些啊,闭园的小模型。这个就要在本地跑,就要在APP里边跑。你如果没有一个APP,你说我完全靠浏览器去搞这个事情,搞不了的啊,想都不用想。
如果是真的在APP里边进行AI运算,那么后边的AI手机,AIPC这条路就有一些价值了啊,大家就该掏钱去买那个M4的iPad Pro啊,该干嘛干嘛去了。后面压力就传导出去了啊。第一个,谷歌肯定会感觉到压力,今天的半夜谷歌IO就该开幕了,明天我们又可以讲新节目,说谷歌IO都讲了些什么。我估计皮彩正在连夜的改PPT,说”Open AI已经贴脸开大了”,我们原来那个PPT不好使了,咱必须得写一版新的,这次讲点啥啊。没准一着急还盲目出错,又给人演示点什么不该看的东西,或者演示一些内容有问题,那这个谷歌的股价,又可以稍微的波动一下了。这个可以稍微预期一下。
另外一个集团啊,马斯克的XAI后面的这个大模型,到底怎么样了?我觉得是越拉越远了啊。在group开源的时候,我当时做了预测,是跟所有人都不一样了啊。我当时觉得,马斯克基本上放弃这东西了,这东西就这样了。现在我们看看后边,是不是他还能感觉到有压力啊?咱们看一看。至于百度文心一言呢,还是要好好的感谢我们的长城防火墙。啊,当然,即使有了墙,我觉得它在国内都不算是特别强的模型了。国内我现在使用的比较强的模型,像Kimi啊…\n通一千问啊,包括像灵异万物,还有现在有一个新的叫DeepSea,这些新的模型,我觉得都比AlphaFold要好。现在唯一期盼的就是,苹果新的手机到国内来的时候,千万不要去用百度文心新语言去替代Siri,千万不要干这个事情,实在是太难用了。好,这就是今天跟大家讲的GPT-4,都发布了一些什么东西。感谢大家收听,请帮忙点赞,点小铃铛,参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道,再见。\n