OpenAI的GPT-o1 发布:科技大爆发的前奏,草莓模型震撼上线
9 月 17
AIGC AI Agent, AI 小模型, AI 模型, AIGC, API 调用, GPT-4o, GPT-5, GPT-o1, GPT5, Mini 版, Omni, OpenAI, Orin, Plus 用户, TOKEN 费用, Transformer 优化, 人工智能, 信息传递, 信息文献, 学习成本, 工程师, 幻觉产生, 数学能力, 显卡需求, 民间科学家, 深度思考, 猎户座, 研究报告, 社会稳定, 科学家, 科技分析, 科技创新, 科技创新力, 科技前沿, 科技前沿技术, 科技前瞻, 科技动态, 科技发展, 科技发展趋势, 科技变革, 科技大爆发, 科技展望, 科技工具, 科技市场, 科技应用, 科技影响, 科技影响力, 科技怪人, 科技投资, 科技报道, 科技挑战, 科技探索, 科技新闻, 科技更新, 科技未来, 科技未来展望, 科技机遇, 科技潜力, 科技热点, 科技热点话题, 科技研究, 科技突破, 科技筛选, 科技融资, 科技观察, 科技评测, 科技评论, 科技资源, 科技资讯, 科技趋势, 科技进步, 科技预测, 科技领域, 科研工具, 程序员, 编程效率, 编程测试, 编程能力, 自动驾驶, 英伟达, 草莓模型, 计算机科学, 语言生成, 金字塔状态, 预览版, 高成本, 高效提示词 OpenAI的GPT-o1 发布:科技大爆发的前奏,草莓模型震撼上线已关闭评论
大家好,欢迎收听老范讲故事的 YouTube 频道。今天咱们来讲 GPT O1 发布,科技大爆发应该会到来。草莓模型终于发布了。今天我太太还问我说,这个模型发布了,对于你们这些科技圈的人来说,算是意料之外,还是算意料之中?这个事情直接把我问在那了。
其实,每一个人都希望赶快把草莓模型发出来。但是 OpenAI 从今年年初开始公布 Sora 到现在,他吹的牛有点太多了。到现在为止,这是我们真正见到的能够用的产品。虽然 GPT4O 也是能用,但完整的 GPT4O 其实到目前为止,一直没有彻底开放出来。而这个 O1 上来直接就开放了,今天早上凌晨 3 点突然上线,哐往那一挂,大家愿意用的都可以去用了。我自己也去用去了。他呢,也换了一个名字,叫 GPT-O1。所以呢,这就不是 GPT5。
未来可能会走两条路,一个是继续走这种直接进行语言生成的,而 O1 这条路,走的是深度思考,要去反思一个问题,要深思熟虑以后才去回答。所以他有可能两个路要分开走,而且两个模型可能会相互配合着使用。
现在的 OpenAI 呢,就跟 O 干上去了,OpenAI 以 O 开头嘛,它后边的仪态产品基本上都是 O。GBT4O 这个 O 叫 Omni,意思是全能。下一代大模型,也就是大家等待的 GPT5,它的模型的名字叫 Orin,猎户座。而现在的 GPT O1 意思是从零开始计数,从头开始。
这是一个什么样的大模型?他深思熟虑,具体里边是怎么做的,这个都是大家在猜,或者有一些很简短的文章,因为现在他也不开源,OpenAI 变成 Close AI 了。这个东西到底内部如何实现呢?大家只能猜。
现在就可以用 Plus 用户,像我就是 Plus 用户,一个月 20 美金,可以用到两个版本,一个叫 O1 Preview,预览版,应该是在正式的 O1 版本上裁剪出来的一个版本;另外一个叫 O1 Mini,O1 Mini 是要比 O1 Preview 还要再小一些的版本。但是这个额度非常少,少到什么程度?O1 Preview 一周 30 次,我今天大概已经用了有十来次了,后边几天我要省着点用了。Mini 是一周 50 次,真的是没见过这么抠搜的模型。以前的都是三个小时多少次,或者一天多少次,甚至有一个小时多少次,而现在这个 O1 都是一周几十次。所以用的时候一定要小心。
有人在去传说,准备上 200 美元一个月的 Preview 版本,这个属于传言。今天还去问了 GPT4O,被辟谣了,说我们不准备干这个事。
就是20美元一个月的这种Plus版本,我就让你用,只是数量少一些。未来,我们会想办法把这个数量提升上去的。这个O1的测试数据非常亮眼,数学能力极强。在2024年美国数学邀请赛上,能够达到全美前500名优秀学生的这个水平,这是非常吓人的。然而,他这个数学邀请赛应该是中学生,文中并没有说明到底是初中生还是高中生,但能够达到前500名的北美学生参赛水平的,已经非常高了。
物理、生物、化学方面,可以直接达到博士生的水平,这个也是很恐怖的一个能力。编程能力得到了极大的提升,在信息学奥林匹克竞赛里头,超过半数的参赛选手,如果是打开常考,让他慢慢的想,让他多试几次,是完完全全可以得到金牌水平的。在Code Forces平台做竞争性编程比赛上,已经超越了93%的程序员,已经算是一个比较资深的程序员了。
我自己也在里边做了一些编程的测试,确实非常的猛。我去向他提出一个很详细的要求,我说我现在要做什么事情,希望使用哪些技术,希望效率怎么提升,在界面上怎么去设计。当然,这个提示写的比较长,写完了以后,啪一回车,首先是漫长的等待。不是说啪一回车就出来了,这东西挺慢的。等一会以后告诉你说,应该在哪个地方,怎么去装环境,第一步做什么,第二步做什么,哪个里头有哪个文件,这个文件里写什么东西,啰里八嗦写了巨长的一段。我发现O1这个玩意是非常话痨的一个大模型。
而如果你不是像我这样用Plus版本去直接调用,而是说我要用API去调,那你就上了当了。他会啰里八嗦说半天的,而且他那个TOKEN的费用奇贵无比。那么,为什么讲这就是科技大爆发即将到来?O1其实并不是给普通人用的,普通人去玩GPT-4O就已经足够了。O1这种东西其实是给科学家、工程师、程序员用的工具。
现在限制科技发展到底是什么?其实数学是限制科技发展的一个很重要的因素。因为数学越往后发展,其实越反人性,必须筛选出极少数的数学天才,才能够继续往前面去前进。而且人类为了达到当前科技的高度,必须进行非常长时间的学习。你想,一个小孩从出生一直上到博士,可能研究才能研究点东西出来,这个时间得二十几年,甚至是三十年你才有可能能够学完。学习的成本是非常高的,而且筛选也很严格,因为学习成本很高,必须要选出最能够去学习的人去学。
但是筛选的过程又未必科学合理,不一定说一个筛下去的人,他就比进去读博士这个人差,也许你换一个人上来科技就发展了。
但是这件事我们不知道,没有任何可以试错的机会。在学习的过程中,也会扼杀创新力,因为我们不断地学习,实际上就在学习前任的方法,这会造成路径依赖。所以,其实是导致现在科技很难再往前走的一个很重要的原因。而且,我们必须要阅读大量的信息文献,才能够去做研发。为什么呢?如果不读,你只能重复造轮子。有没有人做过这个?没有查重,那你折腾半天做完了以后发现,哎,20年前有人做过了。这也是很正常的。而且,人的大脑不是说我读了大量的信息和文献,就可以去做新的创新的,而是什么呢?我们的大脑像掰棒子的狗熊似的,你把新的东西进来以后,就把旧的知识可能忘掉。你要想始终得到一个最新的知识,在这个基础上去做研究,这还是非常难的。
但是现在有了O1的帮助,这些问题其中一部分就可以解决了。我们不再需要进行严格的筛选,不再需要进行漫长的学习,让更多的人可以进来进行科学创造。整个科技大爆发,可以带来不同的变化。很多科技前沿的关卡,其实已经开始松动了。学习筛选的过程也必然会发生改变,以适应O1之后的科技研究。
我个人用的体验到底怎么样?首先说,个人使用O1的体验并不好。为什么?第一个是很慢,这刚才我讲了,一个回车下去,你要在那等。而且很贵,如果使用TOKEN API直接调用O1的成本,要比我们使用GPT的各种模型都要贵很大的一个比例。而且给的配额还非常少,你想,一个礼拜才给了你50次,这个事实在是让你不太敢打回车。
编程问题我去试了一个,刚才我们讲的说你给我写一段程序,他思考了多长时间?两分钟。你打完回车以后,两分钟他没理你,做完了以后再告诉你说我们整个用了两分钟,才给你输出了一个结果。每周三50次,这确实是有点费劲。
那贵到什么样的程度?O1 Preview的价格是GPT4O的3-4倍,输入100万TOKEN是15美金,输出100万TOKEN要60美金,这个是非常重的一个价格了。因为我们去写编程那个题的时候,刚才我说他写的特别话痨吧,直接输出了8,000多个TOKEN。按照100万TOKEN 60美金算的话,我等于那一次回车下去,我就已经花了大概0.5美金出去了,所以这玩意是非常贵的。
O1mini要稍微便宜一点点,100万的输入是3美金,输出是12美金,但是MINI可能有一些效果会稍微差一点。那比较一下4O,100万的输入是5美金,输出是15美金。
这个已经是现在大家可以用到的比较好的模型了,而4O mini就是4O蒸馏出来的小版本。100万的输入才0.15美金,100万输出是0.6美金。所以我现在大量的这种模型工作,都是使用的4OMini。而且现在API的调用还非常不完善。
怎么个不完善法?第一个,不允许加系统信息。你正常跟人聊天的时候,你说的话叫用户信息,他回复叫助理信息。正常我们去跟OpenAI聊天的时候,还有一个信息叫系统信息,我们先设定你是谁,张三李四,你擅长什么事,这叫系统信息。现在这个O1呢,是不支持系统信息的,也不支持函数调用,还不支持流式输出。
流式输出是什么?我们在GPT上跟人聊天的时候,GPT都是一行一行一个字这么出来的,因为它出的慢。如果你不是随想出来点什么,随出就会等很长时间。而这个O1压根就不支持这功能,你只能是打完回车生等,等到他彻底算完了以后,啪一把吐出来。Plus用户呢,直接就可以用,但不是很顺畅。为什么呢?他不能访问网页,现在只能是用他已经训练好的数据去给你回答,而且也没有搜索的接口。
思考的过程建议大家不要打开,因为你在这个Plus版本里头说,“现在O1不一给我去回答一个问题”,你打完回车以后,他告诉你说,“我现在在想,我在思考,我有一些什么样的问题。”他在不停的在变化。这个东西呢,如果你点他,给展开一个思考过程。我点开过,我问了一个问题以后,发现他思考的有中文的、有英文的,还有阿拉伯语的,讲的东西基本上是驴唇不对马嘴,完全在胡说八道。但是最后输出的效果并不差,只是中间思考的过程,我估计是什么呢,随便给你写一点信息,让你不要太着急。
所以这个中间思考过程大家就别点开看了。O1这一次的发布其实是非常匆忙的。为什么呢?第一个是钱真的不多了,要尽快完成融资,否则以OpenAI的尿性,肯定还是说我们再放个气球出来,放一个视频出来,让大家慢慢等,而不是说直接咔就把东西扔出来了。现在马上要融钱,据说他们准备融资60多亿美金,再贷款50亿美金。那么这些钱加一块,大概也就够他烧个半年或者八九个月这种水平,再往后可能还得再去找钱。
所以在这种情况下,有一个新的模型发布,对于他找钱来说是比较有好处的。而且O1的很多体验并不好,很多GPT上实现的功能其实都没有实现,包括刚才我们讲的不能接网页、不能接搜索、不能去做流式输出。
而且呢,还没有任何的多模态。比如,你要给他一张图,他认不出来。想让他去做题吧,你必须要先用GPT-4O把这个图识别好了,再把这个识别出来的题扔给他,再让他去做。他自己没有这个能力。而且O1其实并不太适合广大民众,广大民众真正需要的可能是他Orin猎户座大模型啊,而现在那个还没出来,到底什么时候出来不确定。OpenAI最近也不断有员工在离职创业,这对于吹了太多牛、拿不出产品的OpenAI来说,会造成非常多的困扰。
即使有这么多问题,GPT O1不是那么完善,但GPT O1依然是一个划时代的产品。O1应该怎么用?大家知道最早的程序员是怎么干活的吗?最早的程序员应该这样,首先在纸上写代码。那个时候这个机器是非常紧张的,不是说随时就有啊,个人电脑是很靠后才有的。所以呢,早期程序员都是在纸上写好代码,写完代码以后,拿打孔卡或者是打孔纸袋去编程。在这个袋子上打完眼以后,约时间,说我什么时间是要去上机。你要去约,约好了以后,到机房把这个纸袋也好或者是打孔卡也好,装到这个机器上,咔咔咔给你输进去,漫长的等待,在回收结果。回收完了以后,如果发现有错误或者不满意的地方,回去接着改程序去啊,然后再约下一次去上机。最早的程序员是这么干活的。为什么这么干?就是因为资源太少。
O1的使用其实可以参考刚才我们讲的过程。第一个,GPT Plus的账号上每礼拜只能使用几十次,所以一定要珍惜。第二个,就是很昂贵。如果你说我不希望被它限制,我要到这个API上直接调用,那么这个确实是可以突破限制,你愿意使用多少就使用多少,但特别贵。另一个就是反馈很慢,你不可能得到实时结果。
那么现在我是怎么用的呢?第一个,先用GPT-4O或者是4O MINI这样的模型整理提示词。我先要说我要干什么,请把提示词给我写好,要给你省一个非常复杂的提示词。在这个基础上你再改,改完了以后再让GPT-4O去给你修改,得到了一个完整的提示词,要把该问的事情都问好。做完了以后,满意了检查过了,一把塞给O1说行,这就是我要干的事,你去干去吧,进行漫长的等待,可能等个几分钟,接收完整的结果。因为他不能像4O似的,我随时聊,错了以后我再纠正你,我再告诉你哪错了,再给我改一改。他没有这个机会,因为交互次数实在太少,而且很贵。这是GPT O1的一个使用方法。如果你说我现在想用O1去解决一个问题了,建议你们像我这么干。
先用GPT-4O去整理提示词,整理完了以后,一把扔进去。这可以把这些珍稀的使用机会应用到最大价值。再往后,可能很多AI创业的厂商又该有噩梦了。现在,AI agent的创业公司,噩梦又轮到脑袋顶上了,因为每一次OpenAI发布产品,都会有创业公司突然死亡。
AI agent干的是什么呢?就是人工规划设计流程,将复杂的任务分摊到多个大模型,最终获得一个可用的结果。而GPT-4O基本上是把上面的活儿都替你干完了。你给它一个复杂任务,它替你分拆,分拆完了以后一步一步去思考,思考完了再反思,去检验结果,在结果里挑一个最好的,再把这个结论扔出来给你。
我们自己去设计的这些工作流,可能还没有O1内部设计的工作流合理。他这个可能又高效又合理,所以大部分当时做的AI agent,现在都没有什么用了。那么O1算不算一个端到端的系统呢?这个怎么说,响应速度和想一想的过程,说端到端稍微有一点点亏心。
那么现在GPT O1还不适合融入AI agent,因为它实在是太慢了。以前的AI agent要重新做,重新规划。怎么规划?原来的AI agent是很多小模型,通过一个流程处理一个明确的需求,然后再拼凑出结果来。那么现在就应该换了,还是用一堆AI小模型,在人工参与下,输出完整高质量的提示词。这应该是AI还可以干的事。
再把这个提示词扔给GPT O1,得到了结果之后再干嘛?再用那些小模型或者执行代码,再去把GPT O1的结果去分解。说到底要去做哪些操作,哪些的代码要去修改,哪个地方要去建文件,要把这个事情自己再去处理掉。因为这个O1后边的部分都没有,它只是负责把要求出进去,它把结果扔出来,它就干这件事。
GPT O1带来进步,肯定也会带来一些毁灭或者一些伤害,这个事永远都是这样。我们发明枪会有伤害,发明炸弹可能有伤害的,包括计算机也是对社会有伤害的。O1这样的东西,它会对社会带来什么样的伤害呢?第一个,原来我们一直思考的叫有钱人不作恶理论,这个事被打破了。很多人说不对啊,都讲万恶的资本,怎么有钱人就不作恶了呢?
大家想这样一个例子:一个有钱人跟一个穷人过独木桥,每次只能过一个人,这时候该怎么办?通常有钱人会向后退,让这个穷人先过去。为什么呢?因为有钱人身娇肉贵的,如果真的掉下去了,或者出点什么事,这所有的东西就都没法享受了。而穷人呢,一条烂命,其他啥也没有,他输得起。
但有钱人输不起。所以呢,以此为基础,很多西方人认为,只要财富积累到一定程度以后,就不会去做一些特别过分的事情。你会维护社会的规则,继续运转下去。这个也是很多西方人认为大模型不作恶的一个原因啊,因为大模型训练实在太贵了。有钱人是不会花了这么多钱去训练一个大模型,跑去干一些坏事。对于他们来说,没意思。
我记得以前,我们也遇到过类似这样的问题。那时是买瑞士军刀,一个东西一个刀好几百上千。我就问那个卖瑞士军刀的人:“我说这玩意这么老长,算管制刀具吗?”后来人家那个店长也跟我乐,说:“您见过买上千的刀出去挡人的吗?买上千的刀的人都是搁家里摆着的。有钱人是不干坏事的。”
但是GPT-01出来以后,这个就被打破了。为什么呢?失控了。现在不需要那么有钱,也不需要那么天才,每个人都有机会推动科技进步。那么,藏在深山或者地下室里的科技怪人,可能就会越来越多。甚至很多民科,我们管它叫民间科学家。以前这些人只能骗东西,他们是做不出真正的玩意来的。但是现在有了GPT-01后,这些科学怪人和民科,就有可能做出奇奇怪怪的东西来。
那么,社会就会从一个稳定的金字塔状态,变成了散乱的一团沙丘。原来你必须要汇集起整个社会的动力,来供养金字塔尖上的一点点人,成为大的科学家,汇集资源,才可以去做科研。现在不用了,我们拿这样的工具,每个人说:“哎,我想设计一个什么东西啊。”跟咱们看美剧有一个美剧叫《Young Sheldon》,人家小孩坐在家里捅吧捅吧,想去做核反应堆的,可能未来这个事情就会变得越来越容易了。
而且GPT-01其实依然会产生幻觉,他也经常会说错、忽视,认为经过反思、经过很认真的思考以后,他说的就不错了。而且GPT-01的幻觉,它的危害要比传统的这种幻觉要大得多。
咱们先讲一个著名的哈雷彗星笑话吧,大家理解一下这个幻觉是怎么产生的。这个故事是在1910年,当然也有一些其他年份的说法,反正就是哈雷彗星来的那年。故事的重点是信息传递的一个偏差。
说某部队一次命令传递过程如下:少校对值班军官说明天晚上8点左右,哈雷彗星将可能在这个地区看到。这种彗星每隔76年才看见一次,命令所有士兵着野战服在操场上集合。我将向他们解释这一罕见的现象。如果下雨的话,就去礼堂集合。我为他们放一部有关哈雷彗星的影片。讲的就是这样。
然后值班军官就对上尉说:“根据少校的命令,明晚8点,76年出现一次的哈雷彗星,将在操场上空出现。”
如果下雨的话,就让士兵穿着野战服列队前往礼堂。这一罕见的现象将在那里出现。上尉对中尉就说,根据少校的命令,明晚8点,非凡的哈雷彗星将身着野战服,在礼堂中出现。如果操场上下雨,少将将下达另一个命令。这种命令每隔76年才出现一次。
中尉对上士说明晚8点,上校将带领哈雷彗星在礼堂中出现。这是每隔76年才有的事情。如果下雨的话,少校命令哈雷彗星身着野战服,在操场上去。上士就对士兵说,在明晚8点下雨的时候,著名的76岁的哈雷少将,在少校的陪同下,身着野战服,开着他的彗星轿车,出现在操场前往礼堂的路上。
这个实际上就是一个幻觉产生的过程。当搜集更多的信息,而且在这个里边进行反复的推理、反复的传递的时候,那么,产生幻觉的过程就会几何级数上升。虽然GPT O1在推理的过程中,采用了一些手段来规避幻觉,输出一些内容以后,他自己会检查,会反思,但是你毕竟是经历了这么多的步骤,人家也是想了好几分钟才想出来的。综合算下来,他产生幻觉的几率还是在上升的。而且GPT O1也没有那么靠谱。
我用最传统的老虎过河的问题去问了GPT O1,依然是错误。老虎过河,就三只母老虎带着三只小老虎,从这个河的一岸要到另外一条岸去。三个母老虎会划船,三个小老虎里头有一只会划船。任何一个小老虎在没有母亲的陪同下,遇到其他的母老虎就直接被吃掉了。有什么方法可以让所有的老虎都过去?每条船上应该是可以走两个老虎,船上每一次至少要有一个会划船的老虎,而且呢,船必须是老虎划,不能自己从南岸到北岸,或者从北岸到南岸。
这个题呢,每一次GPT出什么新版本的模型了,我都会问,包括GPT Gemini cloud都去问了一遍这个GPO1。本来我是对他抱有巨大的这种期望的,你一个反思、推理这样的一个模型,做这种题还不是手到擒来的吗?结果依然是错的。在这一件事情上,他并没有比GPT4O强到哪儿去,还是到了第三步就直接出生错误。我就纠正他,这个特别有意思啊。第一次告诉我说我这样这样做,我说你哪哪有错。当你做成这样的安排以后,哪个小老虎就被吃掉了啊?他说对不起,我又搞错了啊。他又想了几分钟,告诉我说我换了一个思路你再看看。我告诉他,你这到同样的一步上,你犯了同样的错误,是另外一只小老虎被吃掉了。
这个时候特别逗,PPTO1就告诉我说,我发现了你这题有问题啊,这题是无解的。你应该调整一下这个题,让每条船上可以多坐几个老虎。
这给这个条件放的稍微宽松一些,否则这个题做不出来。那最后,我是把正确答案告诉GPTO1了。PO1把这个答案验证了一下,后来说:“你说的是对的啊,这个第一步应该怎么办,第二步怎么办。”整个都帮你验算了一下,都是没毛病的。
GPTO1并不能解决所有问题,而且像CPTO1这样的东西,为什么说它可能危害更大?所有要求把手放在方向盘上的自动驾驶,其实是最不安全的。你说我如果就要自己开车,这个事其实还是挺安全的,或者说我们符合一个驾驶安全的一个平均数。那你说我这已经彻底安全了,不需要方向盘,车上压根没方向盘,那这个事也没问题。
但是你说我现在有一部分副驾驶,你还要把手扶在这个方向盘上,你还不能睡觉,这个其实是安全隐患最大的。而现在的GPTO1呢,其实就是这样的一个状态。它能够解决一部分问题,但是具体哪一部分它解决不了,它自己也不知道。然后我们如果信任它,那就经常,它会把一些错误埋在整个的研究里边去,而且是很难被找到的啊,就会帮助大家去堆积“史山”。这是GPTO1绝对会干的。而且在这个过程中,如果它前面输出的效果非常好,那么它就可以累计人类对它的信任。后边它在输出错误结果的时候,被人类忽视,直接漏掉,直接放到研究报告里边,这个几率就会上升。所以现在还是一个比较危险的状态。
总结一下,GPTO1在今天早上凌晨发布了啊。这三点虽然并不完美,但是呢,依然是划时代的产品。之所以说划时代,是指明方向了啊,OpenAI老大的位置保住了。因为原来做到GPT-4、做到Gemini 1.5、做到Claude 3.5的时候,大家觉得没有前进方向了,我们把能干的活都干完了。现在O1出来,哎,大家向这个方向卷。当这个方向一指清楚了以后,谷歌、Anthropic,包括国内的各个厂商,就要开始去追赶了。
而且这一次OpenAI不一样,不是说上了一个,放个视频就完事了,而是真的让大家用上了。那么国内肯定会冲的啊。最后,英伟达应该会冲,因为一旦有这种新模型出来以后,所有的大模型厂商就会集中起来,更多的显卡进行训练。另外,GPTO1这样的模型进行推理,应该也是需要更多的显卡,而且可能只能上英伟达的,专门为Transformer优化过的那种LPU什么的,估计会有些捉襟见肘了。
在未来一段时间里,大家可以继续相信AIGC就是现在唯一的出路,大家可以继续在这条路上狂奔了。这就是我们今天讲的第一故事。