硕鼠的博客站

范路的博客主站,时而会发些东西。

大家好,欢迎收听老范讲故事的 YouTube 频道。今天咱们来讲 GPT O1 发布,科技大爆发应该会到来。草莓模型终于发布了。今天我太太还问我说,这个模型发布了,对于你们这些科技圈的人来说,算是意料之外,还是算意料之中?这个事情直接把我问在那了。

其实,每一个人都希望赶快把草莓模型发出来。但是 OpenAI 从今年年初开始公布 Sora 到现在,他吹的牛有点太多了。到现在为止,这是我们真正见到的能够用的产品。虽然 GPT4O 也是能用,但完整的 GPT4O 其实到目前为止,一直没有彻底开放出来。而这个 O1 上来直接就开放了,今天早上凌晨 3 点突然上线,哐往那一挂,大家愿意用的都可以去用了。我自己也去用去了。他呢,也换了一个名字,叫 GPT-O1。所以呢,这就不是 GPT5。

未来可能会走两条路,一个是继续走这种直接进行语言生成的,而 O1 这条路,走的是深度思考,要去反思一个问题,要深思熟虑以后才去回答。所以他有可能两个路要分开走,而且两个模型可能会相互配合着使用。

现在的 OpenAI 呢,就跟 O 干上去了,OpenAI 以 O 开头嘛,它后边的仪态产品基本上都是 O。GBT4O 这个 O 叫 Omni,意思是全能。下一代大模型,也就是大家等待的 GPT5,它的模型的名字叫 Orin,猎户座。而现在的 GPT O1 意思是从零开始计数,从头开始。

这是一个什么样的大模型?他深思熟虑,具体里边是怎么做的,这个都是大家在猜,或者有一些很简短的文章,因为现在他也不开源,OpenAI 变成 Close AI 了。这个东西到底内部如何实现呢?大家只能猜。

现在就可以用 Plus 用户,像我就是 Plus 用户,一个月 20 美金,可以用到两个版本,一个叫 O1 Preview,预览版,应该是在正式的 O1 版本上裁剪出来的一个版本;另外一个叫 O1 Mini,O1 Mini 是要比 O1 Preview 还要再小一些的版本。但是这个额度非常少,少到什么程度?O1 Preview 一周 30 次,我今天大概已经用了有十来次了,后边几天我要省着点用了。Mini 是一周 50 次,真的是没见过这么抠搜的模型。以前的都是三个小时多少次,或者一天多少次,甚至有一个小时多少次,而现在这个 O1 都是一周几十次。所以用的时候一定要小心。

有人在去传说,准备上 200 美元一个月的 Preview 版本,这个属于传言。今天还去问了 GPT4O,被辟谣了,说我们不准备干这个事。
就是20美元一个月的这种Plus版本,我就让你用,只是数量少一些。未来,我们会想办法把这个数量提升上去的。这个O1的测试数据非常亮眼,数学能力极强。在2024年美国数学邀请赛上,能够达到全美前500名优秀学生的这个水平,这是非常吓人的。然而,他这个数学邀请赛应该是中学生,文中并没有说明到底是初中生还是高中生,但能够达到前500名的北美学生参赛水平的,已经非常高了。

物理、生物、化学方面,可以直接达到博士生的水平,这个也是很恐怖的一个能力。编程能力得到了极大的提升,在信息学奥林匹克竞赛里头,超过半数的参赛选手,如果是打开常考,让他慢慢的想,让他多试几次,是完完全全可以得到金牌水平的。在Code Forces平台做竞争性编程比赛上,已经超越了93%的程序员,已经算是一个比较资深的程序员了。

我自己也在里边做了一些编程的测试,确实非常的猛。我去向他提出一个很详细的要求,我说我现在要做什么事情,希望使用哪些技术,希望效率怎么提升,在界面上怎么去设计。当然,这个提示写的比较长,写完了以后,啪一回车,首先是漫长的等待。不是说啪一回车就出来了,这东西挺慢的。等一会以后告诉你说,应该在哪个地方,怎么去装环境,第一步做什么,第二步做什么,哪个里头有哪个文件,这个文件里写什么东西,啰里八嗦写了巨长的一段。我发现O1这个玩意是非常话痨的一个大模型。

而如果你不是像我这样用Plus版本去直接调用,而是说我要用API去调,那你就上了当了。他会啰里八嗦说半天的,而且他那个TOKEN的费用奇贵无比。那么,为什么讲这就是科技大爆发即将到来?O1其实并不是给普通人用的,普通人去玩GPT-4O就已经足够了。O1这种东西其实是给科学家、工程师、程序员用的工具。

现在限制科技发展到底是什么?其实数学是限制科技发展的一个很重要的因素。因为数学越往后发展,其实越反人性,必须筛选出极少数的数学天才,才能够继续往前面去前进。而且人类为了达到当前科技的高度,必须进行非常长时间的学习。你想,一个小孩从出生一直上到博士,可能研究才能研究点东西出来,这个时间得二十几年,甚至是三十年你才有可能能够学完。学习的成本是非常高的,而且筛选也很严格,因为学习成本很高,必须要选出最能够去学习的人去学。

但是筛选的过程又未必科学合理,不一定说一个筛下去的人,他就比进去读博士这个人差,也许你换一个人上来科技就发展了。
但是这件事我们不知道,没有任何可以试错的机会。在学习的过程中,也会扼杀创新力,因为我们不断地学习,实际上就在学习前任的方法,这会造成路径依赖。所以,其实是导致现在科技很难再往前走的一个很重要的原因。而且,我们必须要阅读大量的信息文献,才能够去做研发。为什么呢?如果不读,你只能重复造轮子。有没有人做过这个?没有查重,那你折腾半天做完了以后发现,哎,20年前有人做过了。这也是很正常的。而且,人的大脑不是说我读了大量的信息和文献,就可以去做新的创新的,而是什么呢?我们的大脑像掰棒子的狗熊似的,你把新的东西进来以后,就把旧的知识可能忘掉。你要想始终得到一个最新的知识,在这个基础上去做研究,这还是非常难的。

但是现在有了O1的帮助,这些问题其中一部分就可以解决了。我们不再需要进行严格的筛选,不再需要进行漫长的学习,让更多的人可以进来进行科学创造。整个科技大爆发,可以带来不同的变化。很多科技前沿的关卡,其实已经开始松动了。学习筛选的过程也必然会发生改变,以适应O1之后的科技研究。

我个人用的体验到底怎么样?首先说,个人使用O1的体验并不好。为什么?第一个是很慢,这刚才我讲了,一个回车下去,你要在那等。而且很贵,如果使用TOKEN API直接调用O1的成本,要比我们使用GPT的各种模型都要贵很大的一个比例。而且给的配额还非常少,你想,一个礼拜才给了你50次,这个事实在是让你不太敢打回车。

编程问题我去试了一个,刚才我们讲的说你给我写一段程序,他思考了多长时间?两分钟。你打完回车以后,两分钟他没理你,做完了以后再告诉你说我们整个用了两分钟,才给你输出了一个结果。每周三50次,这确实是有点费劲。

那贵到什么样的程度?O1 Preview的价格是GPT4O的3-4倍,输入100万TOKEN是15美金,输出100万TOKEN要60美金,这个是非常重的一个价格了。因为我们去写编程那个题的时候,刚才我说他写的特别话痨吧,直接输出了8,000多个TOKEN。按照100万TOKEN 60美金算的话,我等于那一次回车下去,我就已经花了大概0.5美金出去了,所以这玩意是非常贵的。

O1mini要稍微便宜一点点,100万的输入是3美金,输出是12美金,但是MINI可能有一些效果会稍微差一点。那比较一下4O,100万的输入是5美金,输出是15美金。
这个已经是现在大家可以用到的比较好的模型了,而4O mini就是4O蒸馏出来的小版本。100万的输入才0.15美金,100万输出是0.6美金。所以我现在大量的这种模型工作,都是使用的4OMini。而且现在API的调用还非常不完善。

怎么个不完善法?第一个,不允许加系统信息。你正常跟人聊天的时候,你说的话叫用户信息,他回复叫助理信息。正常我们去跟OpenAI聊天的时候,还有一个信息叫系统信息,我们先设定你是谁,张三李四,你擅长什么事,这叫系统信息。现在这个O1呢,是不支持系统信息的,也不支持函数调用,还不支持流式输出。

流式输出是什么?我们在GPT上跟人聊天的时候,GPT都是一行一行一个字这么出来的,因为它出的慢。如果你不是随想出来点什么,随出就会等很长时间。而这个O1压根就不支持这功能,你只能是打完回车生等,等到他彻底算完了以后,啪一把吐出来。Plus用户呢,直接就可以用,但不是很顺畅。为什么呢?他不能访问网页,现在只能是用他已经训练好的数据去给你回答,而且也没有搜索的接口。

思考的过程建议大家不要打开,因为你在这个Plus版本里头说,“现在O1不一给我去回答一个问题”,你打完回车以后,他告诉你说,“我现在在想,我在思考,我有一些什么样的问题。”他在不停的在变化。这个东西呢,如果你点他,给展开一个思考过程。我点开过,我问了一个问题以后,发现他思考的有中文的、有英文的,还有阿拉伯语的,讲的东西基本上是驴唇不对马嘴,完全在胡说八道。但是最后输出的效果并不差,只是中间思考的过程,我估计是什么呢,随便给你写一点信息,让你不要太着急。

所以这个中间思考过程大家就别点开看了。O1这一次的发布其实是非常匆忙的。为什么呢?第一个是钱真的不多了,要尽快完成融资,否则以OpenAI的尿性,肯定还是说我们再放个气球出来,放一个视频出来,让大家慢慢等,而不是说直接咔就把东西扔出来了。现在马上要融钱,据说他们准备融资60多亿美金,再贷款50亿美金。那么这些钱加一块,大概也就够他烧个半年或者八九个月这种水平,再往后可能还得再去找钱。

所以在这种情况下,有一个新的模型发布,对于他找钱来说是比较有好处的。而且O1的很多体验并不好,很多GPT上实现的功能其实都没有实现,包括刚才我们讲的不能接网页、不能接搜索、不能去做流式输出。
而且呢,还没有任何的多模态。比如,你要给他一张图,他认不出来。想让他去做题吧,你必须要先用GPT-4O把这个图识别好了,再把这个识别出来的题扔给他,再让他去做。他自己没有这个能力。而且O1其实并不太适合广大民众,广大民众真正需要的可能是他Orin猎户座大模型啊,而现在那个还没出来,到底什么时候出来不确定。OpenAI最近也不断有员工在离职创业,这对于吹了太多牛、拿不出产品的OpenAI来说,会造成非常多的困扰。

即使有这么多问题,GPT O1不是那么完善,但GPT O1依然是一个划时代的产品。O1应该怎么用?大家知道最早的程序员是怎么干活的吗?最早的程序员应该这样,首先在纸上写代码。那个时候这个机器是非常紧张的,不是说随时就有啊,个人电脑是很靠后才有的。所以呢,早期程序员都是在纸上写好代码,写完代码以后,拿打孔卡或者是打孔纸袋去编程。在这个袋子上打完眼以后,约时间,说我什么时间是要去上机。你要去约,约好了以后,到机房把这个纸袋也好或者是打孔卡也好,装到这个机器上,咔咔咔给你输进去,漫长的等待,在回收结果。回收完了以后,如果发现有错误或者不满意的地方,回去接着改程序去啊,然后再约下一次去上机。最早的程序员是这么干活的。为什么这么干?就是因为资源太少。

O1的使用其实可以参考刚才我们讲的过程。第一个,GPT Plus的账号上每礼拜只能使用几十次,所以一定要珍惜。第二个,就是很昂贵。如果你说我不希望被它限制,我要到这个API上直接调用,那么这个确实是可以突破限制,你愿意使用多少就使用多少,但特别贵。另一个就是反馈很慢,你不可能得到实时结果。

那么现在我是怎么用的呢?第一个,先用GPT-4O或者是4O MINI这样的模型整理提示词。我先要说我要干什么,请把提示词给我写好,要给你省一个非常复杂的提示词。在这个基础上你再改,改完了以后再让GPT-4O去给你修改,得到了一个完整的提示词,要把该问的事情都问好。做完了以后,满意了检查过了,一把塞给O1说行,这就是我要干的事,你去干去吧,进行漫长的等待,可能等个几分钟,接收完整的结果。因为他不能像4O似的,我随时聊,错了以后我再纠正你,我再告诉你哪错了,再给我改一改。他没有这个机会,因为交互次数实在太少,而且很贵。这是GPT O1的一个使用方法。如果你说我现在想用O1去解决一个问题了,建议你们像我这么干。
先用GPT-4O去整理提示词,整理完了以后,一把扔进去。这可以把这些珍稀的使用机会应用到最大价值。再往后,可能很多AI创业的厂商又该有噩梦了。现在,AI agent的创业公司,噩梦又轮到脑袋顶上了,因为每一次OpenAI发布产品,都会有创业公司突然死亡。

AI agent干的是什么呢?就是人工规划设计流程,将复杂的任务分摊到多个大模型,最终获得一个可用的结果。而GPT-4O基本上是把上面的活儿都替你干完了。你给它一个复杂任务,它替你分拆,分拆完了以后一步一步去思考,思考完了再反思,去检验结果,在结果里挑一个最好的,再把这个结论扔出来给你。

我们自己去设计的这些工作流,可能还没有O1内部设计的工作流合理。他这个可能又高效又合理,所以大部分当时做的AI agent,现在都没有什么用了。那么O1算不算一个端到端的系统呢?这个怎么说,响应速度和想一想的过程,说端到端稍微有一点点亏心。

那么现在GPT O1还不适合融入AI agent,因为它实在是太慢了。以前的AI agent要重新做,重新规划。怎么规划?原来的AI agent是很多小模型,通过一个流程处理一个明确的需求,然后再拼凑出结果来。那么现在就应该换了,还是用一堆AI小模型,在人工参与下,输出完整高质量的提示词。这应该是AI还可以干的事。

再把这个提示词扔给GPT O1,得到了结果之后再干嘛?再用那些小模型或者执行代码,再去把GPT O1的结果去分解。说到底要去做哪些操作,哪些的代码要去修改,哪个地方要去建文件,要把这个事情自己再去处理掉。因为这个O1后边的部分都没有,它只是负责把要求出进去,它把结果扔出来,它就干这件事。

GPT O1带来进步,肯定也会带来一些毁灭或者一些伤害,这个事永远都是这样。我们发明枪会有伤害,发明炸弹可能有伤害的,包括计算机也是对社会有伤害的。O1这样的东西,它会对社会带来什么样的伤害呢?第一个,原来我们一直思考的叫有钱人不作恶理论,这个事被打破了。很多人说不对啊,都讲万恶的资本,怎么有钱人就不作恶了呢?

大家想这样一个例子:一个有钱人跟一个穷人过独木桥,每次只能过一个人,这时候该怎么办?通常有钱人会向后退,让这个穷人先过去。为什么呢?因为有钱人身娇肉贵的,如果真的掉下去了,或者出点什么事,这所有的东西就都没法享受了。而穷人呢,一条烂命,其他啥也没有,他输得起。
但有钱人输不起。所以呢,以此为基础,很多西方人认为,只要财富积累到一定程度以后,就不会去做一些特别过分的事情。你会维护社会的规则,继续运转下去。这个也是很多西方人认为大模型不作恶的一个原因啊,因为大模型训练实在太贵了。有钱人是不会花了这么多钱去训练一个大模型,跑去干一些坏事。对于他们来说,没意思。

我记得以前,我们也遇到过类似这样的问题。那时是买瑞士军刀,一个东西一个刀好几百上千。我就问那个卖瑞士军刀的人:“我说这玩意这么老长,算管制刀具吗?”后来人家那个店长也跟我乐,说:“您见过买上千的刀出去挡人的吗?买上千的刀的人都是搁家里摆着的。有钱人是不干坏事的。”

但是GPT-01出来以后,这个就被打破了。为什么呢?失控了。现在不需要那么有钱,也不需要那么天才,每个人都有机会推动科技进步。那么,藏在深山或者地下室里的科技怪人,可能就会越来越多。甚至很多民科,我们管它叫民间科学家。以前这些人只能骗东西,他们是做不出真正的玩意来的。但是现在有了GPT-01后,这些科学怪人和民科,就有可能做出奇奇怪怪的东西来。

那么,社会就会从一个稳定的金字塔状态,变成了散乱的一团沙丘。原来你必须要汇集起整个社会的动力,来供养金字塔尖上的一点点人,成为大的科学家,汇集资源,才可以去做科研。现在不用了,我们拿这样的工具,每个人说:“哎,我想设计一个什么东西啊。”跟咱们看美剧有一个美剧叫《Young Sheldon》,人家小孩坐在家里捅吧捅吧,想去做核反应堆的,可能未来这个事情就会变得越来越容易了。

而且GPT-01其实依然会产生幻觉,他也经常会说错、忽视,认为经过反思、经过很认真的思考以后,他说的就不错了。而且GPT-01的幻觉,它的危害要比传统的这种幻觉要大得多。

咱们先讲一个著名的哈雷彗星笑话吧,大家理解一下这个幻觉是怎么产生的。这个故事是在1910年,当然也有一些其他年份的说法,反正就是哈雷彗星来的那年。故事的重点是信息传递的一个偏差。

说某部队一次命令传递过程如下:少校对值班军官说明天晚上8点左右,哈雷彗星将可能在这个地区看到。这种彗星每隔76年才看见一次,命令所有士兵着野战服在操场上集合。我将向他们解释这一罕见的现象。如果下雨的话,就去礼堂集合。我为他们放一部有关哈雷彗星的影片。讲的就是这样。

然后值班军官就对上尉说:“根据少校的命令,明晚8点,76年出现一次的哈雷彗星,将在操场上空出现。”
如果下雨的话,就让士兵穿着野战服列队前往礼堂。这一罕见的现象将在那里出现。上尉对中尉就说,根据少校的命令,明晚8点,非凡的哈雷彗星将身着野战服,在礼堂中出现。如果操场上下雨,少将将下达另一个命令。这种命令每隔76年才出现一次。

中尉对上士说明晚8点,上校将带领哈雷彗星在礼堂中出现。这是每隔76年才有的事情。如果下雨的话,少校命令哈雷彗星身着野战服,在操场上去。上士就对士兵说,在明晚8点下雨的时候,著名的76岁的哈雷少将,在少校的陪同下,身着野战服,开着他的彗星轿车,出现在操场前往礼堂的路上。

这个实际上就是一个幻觉产生的过程。当搜集更多的信息,而且在这个里边进行反复的推理、反复的传递的时候,那么,产生幻觉的过程就会几何级数上升。虽然GPT O1在推理的过程中,采用了一些手段来规避幻觉,输出一些内容以后,他自己会检查,会反思,但是你毕竟是经历了这么多的步骤,人家也是想了好几分钟才想出来的。综合算下来,他产生幻觉的几率还是在上升的。而且GPT O1也没有那么靠谱。

我用最传统的老虎过河的问题去问了GPT O1,依然是错误。老虎过河,就三只母老虎带着三只小老虎,从这个河的一岸要到另外一条岸去。三个母老虎会划船,三个小老虎里头有一只会划船。任何一个小老虎在没有母亲的陪同下,遇到其他的母老虎就直接被吃掉了。有什么方法可以让所有的老虎都过去?每条船上应该是可以走两个老虎,船上每一次至少要有一个会划船的老虎,而且呢,船必须是老虎划,不能自己从南岸到北岸,或者从北岸到南岸。

这个题呢,每一次GPT出什么新版本的模型了,我都会问,包括GPT Gemini cloud都去问了一遍这个GPO1。本来我是对他抱有巨大的这种期望的,你一个反思、推理这样的一个模型,做这种题还不是手到擒来的吗?结果依然是错的。在这一件事情上,他并没有比GPT4O强到哪儿去,还是到了第三步就直接出生错误。我就纠正他,这个特别有意思啊。第一次告诉我说我这样这样做,我说你哪哪有错。当你做成这样的安排以后,哪个小老虎就被吃掉了啊?他说对不起,我又搞错了啊。他又想了几分钟,告诉我说我换了一个思路你再看看。我告诉他,你这到同样的一步上,你犯了同样的错误,是另外一只小老虎被吃掉了。

这个时候特别逗,PPTO1就告诉我说,我发现了你这题有问题啊,这题是无解的。你应该调整一下这个题,让每条船上可以多坐几个老虎。
这给这个条件放的稍微宽松一些,否则这个题做不出来。那最后,我是把正确答案告诉GPTO1了。PO1把这个答案验证了一下,后来说:“你说的是对的啊,这个第一步应该怎么办,第二步怎么办。”整个都帮你验算了一下,都是没毛病的。

GPTO1并不能解决所有问题,而且像CPTO1这样的东西,为什么说它可能危害更大?所有要求把手放在方向盘上的自动驾驶,其实是最不安全的。你说我如果就要自己开车,这个事其实还是挺安全的,或者说我们符合一个驾驶安全的一个平均数。那你说我这已经彻底安全了,不需要方向盘,车上压根没方向盘,那这个事也没问题。

但是你说我现在有一部分副驾驶,你还要把手扶在这个方向盘上,你还不能睡觉,这个其实是安全隐患最大的。而现在的GPTO1呢,其实就是这样的一个状态。它能够解决一部分问题,但是具体哪一部分它解决不了,它自己也不知道。然后我们如果信任它,那就经常,它会把一些错误埋在整个的研究里边去,而且是很难被找到的啊,就会帮助大家去堆积“史山”。这是GPTO1绝对会干的。而且在这个过程中,如果它前面输出的效果非常好,那么它就可以累计人类对它的信任。后边它在输出错误结果的时候,被人类忽视,直接漏掉,直接放到研究报告里边,这个几率就会上升。所以现在还是一个比较危险的状态。

总结一下,GPTO1在今天早上凌晨发布了啊。这三点虽然并不完美,但是呢,依然是划时代的产品。之所以说划时代,是指明方向了啊,OpenAI老大的位置保住了。因为原来做到GPT-4、做到Gemini 1.5、做到Claude 3.5的时候,大家觉得没有前进方向了,我们把能干的活都干完了。现在O1出来,哎,大家向这个方向卷。当这个方向一指清楚了以后,谷歌、Anthropic,包括国内的各个厂商,就要开始去追赶了。

而且这一次OpenAI不一样,不是说上了一个,放个视频就完事了,而是真的让大家用上了。那么国内肯定会冲的啊。最后,英伟达应该会冲,因为一旦有这种新模型出来以后,所有的大模型厂商就会集中起来,更多的显卡进行训练。另外,GPTO1这样的模型进行推理,应该也是需要更多的显卡,而且可能只能上英伟达的,专门为Transformer优化过的那种LPU什么的,估计会有些捉襟见肘了。

在未来一段时间里,大家可以继续相信AIGC就是现在唯一的出路,大家可以继续在这条路上狂奔了。这就是我们今天讲的第一故事。

 

Both comments and pings are currently closed.

Comments are closed.

Close Bitnami banner
Bitnami