硕鼠的博客站

范路的博客主站,时而会发些东西。

GPT-4oo大家好,欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲Open AI最新发布的GPT-4,到底是一个什么样的东西。专门赶在谷歌I/O之前的一天开,这就是司马昭之心,路人皆知了。对,指的是谁,大家心里都明白。当然,选择这一天开发布会的还有其他人,比如李开复也在这一天发布了他“灵异万物”新的大模型。以后找机会学习再跟大家分享。通义千问呢,是早几天,5月9号发了他们自己新的大模型。

我呢,自己肯定是懒得去在凌晨2点看直播了,所以到今天,看看录屏,然后看看其他人都在说什么,再跟大家介绍一下GPT-4到底是一个什么样的东西。在这之前,大家一直知道,说他要在这个时间点开发布会,甚至在他没有公布发布会时间的时候,大家也都在猜,说是不是上周要发布,是不是这周要发布,然后猜了很多有可能会发布的产品。有些人猜GPT-5,有些人猜测试GPT。

战猫奥特曼说了,不是GPT-5,也不是测试GPT。我呢,在礼拜天,也就是在发布会前的一天,还在推特上在问,说这个新发布的东西会不会是GPT Siri或者是Siri GPT,对吧,因为已经传出消息了,苹果要跟Open AI签约嘛,那么出来的东西应该是这样的一个东西吧。甚至呢,我也猜过,说是不是GPT-5出来了以后,GPT-4就免费了啊,万一GPT-4免费了呢,现在惦记收费的这些版本该咋办呢,还活不活得下去,这事没法混了。所以呢,当时拆解了这么多种可能性,从我个人角度上说,我猜了GPT-40,免费的GPT-4,GPT Siri,拆了三个方向。现在看呢,我觉得我也没猜错。对吧,现在的GPT-40啊,基本上是这样,这四个方向的事其实都干了。都发布了什么呢?第一个是GPT-40,它可以进行语音识别与翻译,支持50多种语言,可以进行实时搜索。但是,它并没有进行搜索之后的很完善的内容组织,不像Perplexity那样,可以进行很好的搜索结果组织。GPT-40免费对公众开放了,这也是一个逐步开放GPT-4的过程,虽然开放的是40版本。

我今天还专门去问了一下GPT,我说:“你40版本都开放了,我为什么要买GPT-4呢?”它回答说GPT-4的功能要更强,处理效果更好,物有所值。跟我讲了半天,当然,这可能是它产生的幻觉,编的故事,这个就不重要了。

那么,更高的响应速度,号称响应速度从320毫秒降低到了232毫秒。这意味着,你和它聊天,语音或发消息给它时,它能更快地回复。这还是很有价值的。但是,因为我们在国内,需要挂节点或梯子,所以我并没有感觉到它变快。不知道以后是否能主观感受到这个提升。

然后,更便宜的API价格,GPT-40的API已经公开,我现在已经可以调用了,价格大约是GPT-4标准版的一半,便宜很多,而且很快。当然,它有限额。虽然可以免费使用,但现在具体每天或每小时能用多少次,我没有找到公开信息说明。即使是像我这样的Plus用户,每月交20美金的,也是有限额的。我们的限额是免费用户的5倍。比如说,免费用户用了一个小时5次,就到限额了。而我,作为付费用户,可能一个小时可以用25次。如果达到限额,免费用户就自动退回GPT3.5。对于付费用户,达到限额后并没有额外奖励,同样会受限。

此外,除了GPT之外,还将推出一个新功能——集成GPT的桌面板。这个桌面板就像一个桌面精灵,能悬浮在屏幕上。你可以随时询问,比如:“我这程序写得怎么样?”它能实时查看你的屏幕,指出错误,让你及时修改。不过,它的交流方式会更加自然,不会这么生硬。虽然没有详细演示,但大家都很期待。

桌面板真正让人震惊的,或者说大家真正关注的是GPT4.0带来了什么新东西。其实,我们提到的所有功能GPT4都有,它只是更快、更便宜,功能整合得更好。这似乎不值得大惊小怪,感觉是更新而非革命。所以,我们只是做了更新,并没有推出新产品,连GPT5的影子都没见着。但为何依然引起巨大轰动?

原因在于,GPT4有几个真正的新亮点。首先是“所见即所得”体验的升级。不同于谷歌Gemini允许上传照片和视频,GPT现在可以直接通过摄像头工作。你只需把摄像头对准目标,比如一张纸,就能直接提问并得到回应。\n你看我这纸上写的什么?你看看我身边是什么样的一个环境?你给我描述一下我现在这个状态啊。刚才有什么反常的事情发生吗?你可以问他这样的问题了,这是一个巨大的进步。叫眼见为实。而且呢,通过这个演示,现实地打脸了谷歌的General。为什么?因为谷歌当时也是放了这么样的一个视频,后来被大家打脸,说你这个视频是剪辑过的,你实际上还是上传的照片,然后让他自己去读照片,而不是举着手机让人看了一眼,说:“你看上什么了?”哎,不是这么干的啊。你把中间这个放照片、换照片这个过程呢,都给剪掉了啊,这个是骗人的啊。但是现在Open AI呢,就真的找了几个大活人坐在这,然后举着手机来,“你看看这,你看看那。”然后这个纸上写了什么啊?我在这个纸上出了一个数学题,应该是怎么做的?我做对了没有?对吧,现实的给人看,对吧?因为你旁边有大活人嘛,你肯定不能是剪辑,对吧?你一旦剪辑了以后,那个人的动作就不连贯了嘛,因为你人没法说,“哎,我这剪了两刀啊,来,请这个做好原来那个动作不要动啊,然后再接着往下演。”这个事是做不到的。对吧,所以他一定要上大活人。人家告诉你说,“哎,谷歌是剪辑骗你们,但是我是上真的啊。”这个是真的很让人震惊的啊。

视频演示的艺术呢,其实是AIGC整个发展过程中,大家不断地去研究和深化的一个新的门类了。为什么讲这样的一个话?因为大家会发现,所有AIGC产品的发布,基本上都是要上视频的。上视频的好处是什么呢?就是我可以剪辑,可以编导,可以去处理,而且呢,它很有感染力。不是说让用户自己去试,因为让用户自己试了,你还有翻车的可能。但是如果是我,给你一个视频,我可以把它剪辑一下,把翻车的部分都剪掉,然后可以提速,可以减速,可以把不该让你看到的东西删掉。那么大家都在很努力地提升,当然有的时候会翻车了,包括前面这个Devon,也就是这个自动编程机器人,也是翻车了。然后马斯克说,“来,我给大家演示机器人啊。”然后发现,“哎,你旁边还有一人呢。”这个漏出来了啊,穿帮了啊。也有这样的事情。谷歌啊,做Gemini的演示也是穿帮了。视频演示的这种艺术呢,谷歌基本上靠的是剪辑。Open AI靠的是什么呢?哎,千万不要以为说,你们看到的就是现实,看到的就是这个样子了。Open AI肯定也是做了一些花活,Open AI靠的叫编导,他事先要编辑好故事,然后呢,来给大家演示。他指着说,“哎,我编辑好了,然后演示一遍,失败了,没有啊,好像失败了啊,再来一次。”然后这次又失败了,再“来一次”。哎,那你说不是从头到尾一镜合成吗?一镜到底啊。对啊,但是他可能拍了20条、30条一镜到底,最后挑了一条能看的给你看。所以,千万不要认为说,你看到的就是最终结果,就是他的平均水平。他可能也是挑了一条好的给你看。

而且在演示的过程中,他们可能不是说,“哎,我演示完了以后错了,再来一条啊。”不是这样,他们说先写好脚本,照着脚本演了一遍,发现,“哎,不对啊,回答的有问题。”改脚本,改完了以后,咱们再练一次。哎,发现又差了一点点,效果不是很满意,再改脚本,再试一次,最后给你一个能用的。所以,这个东西真的落到我们自己手里头,未必能有那么好使。

因为有人测试了GPT-4的这个翻译功能,发现呢,稍有偏差,这个内容就不见了。比如涉及成人问题,涉及一些血腥暴力问题,这个内容就直接不见了。大家在看演示的时候,肯定不会给你演示这部分。人家肯定演示的是啊,开心的交流,上来是一个小哥,用英语跟旁边的美女进行意大利语的沟通和交流。但是你想,很多的这种漂亮小伙跟漂亮小姐姐之间,需要靠GPT-4进行实时翻译的时候,经常聊着聊着,然后中间有一些这个敏感内容,就不见了。这不是一个非常无聊的事情吗?对,但是这部分不会给你演示,所以,惦记靠GPT-4出去找小姐姐的这些人啊,就可以休息一下了,不要想太多啊。有些事情呢,看到了事后问起,啊,还能想起来,这个真的是很绝啊。因为Greg在上面做演示,这个时候,突然有一个女同事…\n呀,么巧动的走到他身后,然后在他脑袋后头比了个兔子耳朵,然后走了。Grag就问说:“刚才有什么反常的事情发生吗?”这个GBT40就说了:“啊,刚才有一个人要跟你开玩笑,站在你身后,在你后边比了一个手势,是这个兔子耳朵。”说得非常清楚。这个我觉得真的是挺吓人的。哪怕说我看了当时没有处理,但是我记住了,下次你问我,我还能给你总结出来。而且,我还知道他在跟你开玩笑,他等于把整个这个过程都理解得很好。所以我现在越来越相信,Sora是世界模型,真的可以仿真出一个世界来。这是第一点,让人感到很震惊的。

然后,另外一点让人感到很震惊的是,它真的像个人了。他的说话的语气语调,对这个人的判断,“哎,我看着你不太开心啊。”对人的语气语调的判断,对着摄像头前的这个人的表情的判断都非常好。他自己的输出情感也很充沛,有笑声,有害羞,各种各样的感情都非常充沛,而且很自然。你并不会感觉很吓人,这个过程。而且呢,他还可以中间打断,这个其实很难。就是他聊着聊着天,你中间打断他,而且呢,可以多角色聊天。因为Greg也演示了一点,就是两个AI自己在这聊天,然后他在中间还可以叫停他们,“哎,说咱们一块再聊个,说一个其他的事情啊。”这个是非常强的,因为AI等于已经可以分清谁在说话,这些之间的这个关系到底怎么样。你中间打断他了,再跟他聊天,他还可以停止他刚才正在说的话,继续去回答你的问题。这个已经非常强了,越来越像人了,就是他有这个察言观色的能力了。

詹姆斯·奥特曼也在讲,说:“你们有没有看过那个电影《Her》?”啊,这个我也看过,就讲的是一个工程师吧,他呢,跟一个装在口袋里的,有着很温柔、很性感声音线的一个女性的AI机器人去聊天,然后深深地爱上了这个机器人。讲了这样的一个故事。那个故事非常好,就是它的拍摄成本极低,但是呢,极其引人深思。这个电影另外一个值得推荐的是什么?它是一个美国人拍的科幻片,但是所有的外景地是在上海取的。对,这个非常神啊。为什么呢?因为他们觉得上海这个地方实在是太魔幻了,魔都嘛,对吧?要想拍这种有未来风格的电影,一定要去上海取景。这也是推荐大家去看的一部片子吧。有很多人说,我要去买啊,甚至我还有一个朋友说,我马上就去买这个M4芯片的iPad去了。

呃,首先啊,跟大家讲,免费用户手机端现在还是只能用3.5,你还用不了4。但是呢,免费用户呢,可以在PC端用浏览器使用GPT4了,这个没有任何问题啊。我刚才已经试过了,就是我到浏览器上去,然后呢登录一个新的OpenAI账号,那就肯定没有付过费嘛,他说你现在可以使用3.5和4了。但是在浏览器里头的话,他是没有录音键的啊,就是你只能是打字或者是上传图片,这个是OK的。他并不能去调用摄像头。

如果是付费用户呢,在手机端也可以选择GPT4,可以使用了。但是呢,并没有想象中那么快,刚才我讲了,为什么?因为我们需要挂梯子。语气语调呢,其实也没有加载,就是我们现在跟GPT4的各种沟通,它并没有那么丰富的语气语调,还是原来的这种慢条斯理在跟你说。摄像头的功能现在并没有打开,我估计应该没有那么快,为什么呢?因为摄像头这件事情,其实对你的手机、服务器、对网络的压力都实在太大了。这个事情未来到底会怎么被打开,还要等着看。而且你一旦开了摄像头功能,他对于隐私保护,原来有争议的问题就都会出来。你说这玩意为什么会有隐私保护?再跟大家讲啊,以前有一位工程师…\n是专门做人脸识别支付的。他有一次就发了帖子说:“这提醒小姐姐们,你们再去做人脸支付的时候,请一定要穿上上衣啊,千万不要问我是怎么知道的。”这个,跟各位小姐姐们共勉。

API用户的话,现在已经可以用了。因为我自己也会写程序,啊,我刚才试了一下,GPT-4o这个模型的API已经可以用了,比PT4特本要更便宜、更快,而且呢,支持读模态识别。全部的功能肯定要等,有些功能可能需要等很久,特别是视频识别。我估计视频识别真的跑起来以后,手机会发热的,甚至有可能会冒烟。咱们现在看到他现场演示的这个,他可能服务器就在他楼下,或者没准就在背后的那面墙旁边,就是他的服务器,离得非常近。所以,他有可能能够举着手机就去识别去。如果像咱们这种,服务器还在大洋彼岸,那你想去靠手机识别的话,这个很难啊。

这件事情对行业的冲击是什么?这个一定要去讲。第一个冲击:免费最可怕。OpenAI用户数活跃度虽然近期有一定的下降,但是呢,我并不觉得有了免费的GPT-4o之后,这个事就会有多大的变化。这个数会发生波动,但是没有什么意义。为什么呢?你的用户再多,付费的人再多,你能把OpenAI烧掉的钱挣出来不?你能盈利不?依然是九牛一毛。所以这件事本身对于OpenAI意义不大。

那么对于其他的币源呢,还惦记收费的服务啊,你们就该想想了。比如说Group,比如说Gemini,你们最后还惦记收费啊。虽然Gemini的这个Pro你是免费的,但是你的Control你是惦记收费的。那你要看看你收费的那个版本,跟我现在免费的GPT-4o比起来,到底行不行啊。这就是要去喊一嗓子了,你行吗?

第二个呢,以后的那些虚拟男友女友们,就赶快去更换新的大模型就好了,统统都换成GPT-4o。然后你们的用户啊,这个粘性会上升的,你们的用户会留存下来的。这又指明了一次方向。当然了,到了那边以后,他是不是继续做“盗学先生”,这个是需要打一个问号的。苹果新的Siri,我觉得是可以预期一下的。如果苹果新的Siri里头搭载的是GPT-4,呃,那还是一个非常棒的结果。当然,他在国内会搭载什么呢?难道是文心一言?呃,最好还是换一个,因为苹果到中国,肯定是要换一个大模型塞进去的。你就像苹果在美国用的是谷歌搜索,在中国的话,默认的都是百度搜索啊。千万千万不要上文心一言,然后最后还给我们解释了什么呢?就是APP才是王道。

在大模型出来以后,很多人都觉得,“哎呀,我在网站上就可以把这事搞定了。”“我在OpenAI的网站上,我在Rook的网站上,我在推特,我就可以把这事搞定了。”“我不需要APP了,APP已经没有什么意义了。”现在看到了,没有APP才是王道。为什么呢?啊,因为还是要有很大的内容,或者很大的这种算力要到本地去跑。AI的大模型公司可以将一些AI的小模型直接封到APP里面去,这样就可以分摊服务器的压力,可以分摊网络流量。

你比如说,我现在需要拿手机直接进行识别,比如原来的语音识别,你是怎么着呢?在只管录音,录完音以后是传到服务器上识别的,就是用OpenAI的Whisper的大模型直接处理。这事为什么可以呢?就是你可以在语音录下来以后,把它压缩得很厉害,压缩得很小了以后,然后再上去识别,识别的效果还很好。这个对于网络的压力其实没有那么大,对服务器压力也没有那么大。但是你想,现在他要做视频识别了,视频识别,你说我传1080P回去还是传4K回去?你就算传1080P,这个速度有多少?虽然我们的手机是可以做1080P的直播的,因为我有时候会做直播嘛。啊,1080P直播直接用5G流量是推得上去的,但是如果所有人都推这个玩意上去,他受得了吗?他肯定受不了啊。这个事肯定是不行的。所以,一定需要在本地做一些视频的预处理,然后才能回去。那么,你视频预处理可能也需要一些啊,闭园的小模型。这个就要在本地跑,就要在APP里边跑。你如果没有一个APP,你说我完全靠浏览器去搞这个事情,搞不了的啊,想都不用想。

如果是真的在APP里边进行AI运算,那么后边的AI手机,AIPC这条路就有一些价值了啊,大家就该掏钱去买那个M4的iPad Pro啊,该干嘛干嘛去了。后面压力就传导出去了啊。第一个,谷歌肯定会感觉到压力,今天的半夜谷歌IO就该开幕了,明天我们又可以讲新节目,说谷歌IO都讲了些什么。我估计皮彩正在连夜的改PPT,说”Open AI已经贴脸开大了”,我们原来那个PPT不好使了,咱必须得写一版新的,这次讲点啥啊。没准一着急还盲目出错,又给人演示点什么不该看的东西,或者演示一些内容有问题,那这个谷歌的股价,又可以稍微的波动一下了。这个可以稍微预期一下。

另外一个集团啊,马斯克的XAI后面的这个大模型,到底怎么样了?我觉得是越拉越远了啊。在group开源的时候,我当时做了预测,是跟所有人都不一样了啊。我当时觉得,马斯克基本上放弃这东西了,这东西就这样了。现在我们看看后边,是不是他还能感觉到有压力啊?咱们看一看。至于百度文心一言呢,还是要好好的感谢我们的长城防火墙。啊,当然,即使有了墙,我觉得它在国内都不算是特别强的模型了。国内我现在使用的比较强的模型,像Kimi啊…\n通一千问啊,包括像灵异万物,还有现在有一个新的叫DeepSea,这些新的模型,我觉得都比AlphaFold要好。现在唯一期盼的就是,苹果新的手机到国内来的时候,千万不要去用百度文心新语言去替代Siri,千万不要干这个事情,实在是太难用了。好,这就是今天跟大家讲的GPT-4,都发布了一些什么东西。感谢大家收听,请帮忙点赞,点小铃铛,参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道,再见。\n

 

Both comments and pings are currently closed.

Comments are closed.

Close Bitnami banner
Bitnami