AI方向 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI Operator揭秘：从AI Agent 3.0到完成交易的“眼睛、脑子、手脚”全景解析！2025年AI行业新趋势：OpenAI如何用Operator撼动Google与微软的未来格局？

老范讲故事 — Mon, 27 Jan 2025 11:10:50 +0000

大家好，欢迎收听老范讲故事。OpenAI的operator为AI agent指明了方向，这是一个新鲜热辣的事情。2025年1月24号凌晨2点做的直播，四个人在那尬聊了20多分钟。为什么尬聊呢？不停的翻车，这个AI agent翻车还是很正常的一个事情。

山姆奥特曼，好像是一个印度人加上两个中国人，也在那里，满脸尴尬而不失礼貌的微笑。因为他做的事情确实跨的这个步数有一点点大，导致有一些翻车吧。每年开始的时候，OpenAI都会出来指明一下方向。今年指明的方向就是AI Agent的方向。

咱们还记得2024年吗？2024年是2月15号，OpenAI指明了方向。当时，是做了Sora的演示，只是后来这个Sora没有特别成功。全世界非常多的公司围绕着视频大模型，烧了很多很多算力。今年，他就是为AI agent指明了方向。那么operator到底能干点啥呢？它里边有一个引擎，叫computer using agent（CUA），它们念叫“哭啊哭啊”，是这么来念这个词的。

这个引擎可以自动地实现鼠标跟键盘的操作，主要是操作浏览器。而且，它跟浏览器之间的这种沟通是靠视觉系统来沟通的。就是在浏览器里显示什么，它去看或者截图，然后通过OpenAI的这种视觉能力去识别这个浏览器里的内容。这样处理完了以后，再去通过鼠标键盘去操作。

大家注意，这个非常非常重要的是什么呢？它不是靠直接读数据的。正常情况下，这些AI agent去怎么跟浏览器打交道？他是直接把里边网页文件读出来，在对网页文件HTML文件进行各种各样的正则表达，或者说就是对它里头进行信息抽取，然后再去做后续的处理。而这一次OpenAI干的就不是，它是靠视觉直接截图下来。

然后他干了一个什么事呢？他是在云端放了一堆浏览器，跑在微软云的某一个机房里面。这些浏览器也是他们找的，最正宗的做浏览器的人做的。

因为近期他们也招聘了Chrome的团队人员，有一个叫Ben Oger吧，是Chrome创始团队成员之一，同时也是Firefox的首席工程师，现在已经加入了OpenAI。然后前Chrome资深工程师叫Darren Fischer也于近期加入了OpenAI。

把这些人招进来以后，说来，你们在微软云上让Chrome浏览器，或者至少是Chrome的内核给我跑起来，然后我要在这个内核里边去执行刚才我们讲的这个computer using agent，要跑这个东西。他通过一个自动判断用户意图的能力，你向他说：“哎，我要去哪订餐，要去什么地方玩，我要去看球赛。”你告诉他这个事情，他来判定你的意图。

判定了以后呢，自己进行行为规划，这个是很难的一个事情。因为像我们原来做AI证呢，好多都是我们要做好流程图，做好这个工作流。他按照这个确定的工作流往前走，就算在里边有一定的这个分支，也是我们要写好了说，判断一下他到底是要往东还是要往西，做一个判断。在这里的都没有，就完完全全是由ChatGPT自己去做的行为规划。

做完了以后呢，调用远程的浏览器，自动的完成所有任务，比如说去给人订餐桌、订球赛、定这些东西。他就干这个事。然后在前端呢，还可以重现渲染的这个远程浏览器上面的界面，因为他这边在输入信息，中间大的屏幕上就是可以看到一个浏览器在那里，页面打开了，页面在渲染，页面在往下翻动，然后自动订餐，自动做旅行的旅程调用。

而且呢，他们还给整个这些功能加了一个API，就是呢，你可以去通过API调用所有的API的能力。当然了，我们现在猜测的这些API应该是有进口跟出口两个方向。两套API什么意思呢？就是一方面，我们可以通过API去调用operator，另外一方面的话，也应该可以通过API为operator提供各种服务能力。这就是现在operator真正能干的事情，就是你给他写命令，写完命令以后。

你看到旁边，哎，开了一个虚拟的小的浏览器，然后呢，在这边再运转。他替你把所有的事情做完。这个事情困难在什么地方？为什么不停的翻车呢？现场翻车，现在这个网页大量都是动态渲染，千人千面，就是每一个人看到网页是不一样的。那么浏览的时候呢，就需要占用大量的资源，因为有前端的代码需要运行嘛。

Chrome在启动的时候，比如说吧，现在我做直播的，这一个页面就占了827兆的内存。我旁边的推特页面是占了300多兆的内存。我就要把旁边的这个页面关一关。很多人喜欢开Chrome，开一大堆页面，每一个页面可能都占着好几百兆内存，甚至有的是占着上G内存。你看看你电脑到底有多少内存，你就知道这事有多费劲了。

这个占用大量资源，所以现在呢，也只可以给美国地区的订阅了200美金一个月的Pro用户使用，其他用户现在都使不了。四个人做这个演示，山姆奥特曼坐在那了，这个演示人也是非常紧张，这是很正常的一个事情。像我要是在那做一个演示，大老板在旁边坐着，我肯定也会紧张的。

出了哪些错误呢？第一个就是他的订餐搞错地方。他一开始说我要订一个餐厅，但是呢，并没有找到他最近的餐厅，而是换了另外一个城市。什么样的原因会造成这种情况呢？订餐网站是通过什么样的方式来判断你在哪呢？是通过IP地址。你想，他通过远程启动了一个浏览器，那这个浏览器的IP地址是哪呢？是微软云服务器的IP地址。那么一算完了以后说，你可能在微软云服务器所存放的这个城市，我在就近给你找一个餐厅吧。他并不是说在他演示的这个机房的这个IP地址，所以这块就会出错。

后边的一些网购，抢勇士队比赛门票，预约清洁服务以及点外卖的，很多场景做的时候呢，都出现各种各样的问题，非常的不流畅。整个的演示过程，现在的OpenAI的operator呢，还非常的不成熟，只是指明了方向，还必须是跟人一起协作。那么这个协作的过程，第一个问题就是IP是谁的？你按道理说呢。

谁来调用这个Operator？你应该用谁的IP地址？否则的话，它里边所有的这个地址判定都是错的。还有很多的网站会去封锁这些机房的IP地址，最后看到说：“哎，微软机房来的IP地址，咔的封掉了。”你这事就没法用了。所以这块呢，估计他们还要再调整一下。

第二个呢，我们在浏览网页的时候，有一个东西叫cookie，还有一个东西叫session。那么这些东西的话，其实跟这个客户前端都是完全无关的。按道理说，你应该是把客户前端的cookie扔到后台去，他才可以说得到很多的信息，直接去处理。现在的话，等于他这个cookie是空的。cookie是空的话，相当于是做了一个什么东西呢？相当于是做了一个叫做无痕浏览。很多人去上一些奇奇怪怪的网站的时候，会去做这种无痕浏览，他们现在呢，应该也是如此去处理的。

而且这块呢，还稍微的有一点点尴尬，因为你真的敢把cookie传给他吗？在隐私保护这件事情上来说，我们宁肯把这些cookie传给各国政府，也不太敢把这玩意传给AI，总是觉得这个背后有点发凉的感觉。所以呢，在这块上用户体验不会特别好。因为现在虽然智能体是有记忆的，比如说ChatGPT，你去跟他聊天的时候，他是有记忆的。他记住你是谁了，常常说：“我怎么怎么怎么样的时候”，你就会在ChatGPT里头收到一条回复，说：“我已经更新了这个记忆库，我记住你是干这件事的了。”说我住在哪儿，他都会记下来。

那么在这样的情况下，就要干嘛呢？叫自动填表。我们使用大量的浏览器功能的时候，它有一个非常重要的功能，就是自动填表。当我现在要去填一个什么表格的时候，它就会在这个浏览器的一些后台记录里头，把我的什么姓名、什么信用卡号、手机号、邮箱，跨跨跨都给我填进去。要不然的话，你要都要手填一遍。像我们以前做抢火车票的时候，也是在做自动填表，就是每一次刷新，自动的把你要去哪、要选哪个车次就给你填下去，这个其实就是cookie。

如果没有了本地的这些信息，以后怎么自动填表，这功能就会差很多。这些敏感信息，还有一些什么呢？就是人机校验、双重认证，这些东西就没办法。OpenAI是搞不定这件事了。就算他能搞定了，他也绝不可能承认说我能搞定这件事。如果他承认了说我能搞定这个事的话，那就稍微有一点点吓人了。那么他这样的话必须是什么呢？就是要找人来去帮助，说我现在需要输入你的信用卡卡号了，现在我不能替你填表了，你要自己来输。

因为他当时演示的时候，突然蹦出一张信用卡来，信用卡后边要三位数嘛，然后说我回去把这信用卡注销了，因为整个直播掉了嘛。人机校验是什么？因为现在有很多的网站呢，是要确认现在浏览我的人是一个真人还是个机器，一旦发现是机器，就直接拒绝服务了。在这样的时候，OpenAI也会叫人过来说来人机校验了，该你了。

包括双重认证，比如给你发短信了呀，给你去发邮件了呀，这个都是需要人去填的。然后支付确认交易，发邮件，重大决策也是必须停下来等人去确认，他是不能够自动地完成这些交易的，至少目前为止还不行。而且呢，他因为是正式的打开网页嘛，他的整个交流的速度是相对来说比较慢的，因为网页有加载的速度嘛。

还有一些网页呢，或者有一些网站未必能够加载成功。所以呢，对于这样的一个AI agent来说，他的运转的成功率还并没有那么高。但是为了应对这个速度慢的问题呢，他们使用多线程定型的工作，就是你可以给他下一大堆任务，然后他在后边慢慢给你干去，哪样干好了以后，你需要干预一下，那个地方需要人机验证，哪个地方需要确认一下是不是购买。他是这样来去工作的一套方式。

对于这样的Operator来说，下一个很严重的问题是什么呢？就是安全性问题。第一个安全性问题呢，就是他现在真实的影响世界了。原来呢，只是生成内容，甭管你是生成的搜索内容，生成的RAG内容，还是生成图片了，反正是生成内容。而且所有生成内容下面还写一句。

成为Opreta操作的网站，他们就要开始去编写这种诱导性的网页内容了。为什么呢？因为OpenAI的Opretor是靠视觉工作的，我们就可以玩一些大小字的游戏，有可能能骗过他。

什么叫大小字游戏？我上面大大的写着“减价”，后边写一个特别特别小的字，说后边还要再付费。这个事我们是经常遇到的。原来如果是其他的AI agent，它是通过直接把网页信息都读出来，直接把内容都读出来，那么它是不会上这种当的。甚至呢，还可以去骗他。骗他什么呢？就是我们可以写一些看不见的文字，比如说白纸黑字。我可以设置说，现在给我写一个白字在上头。这样的话，正常人类去阅读的时候看不见这个字，但是呢，这些文字就可以被OpenAI看到。原来他们去骗OpenAI是通过这种方式来骗的。

现在好了，你通过视觉方式进来，那我就可以通过大小字的方式再骗你一次。对付钓鱼网站这件事的话，OpenAI自己是没有什么经验的。安全公司微软、谷歌、苹果这些公司的经验要稍微的丰富一点点。而像我们以前做安全公司的时候，我们会做一个巨大的钓鱼网站的网址库，然后呢，找保险公司干嘛呢？说我投一份保险，谁通过我的浏览器在钓鱼网上亏钱了，我就给他赔钱。这个是原来我们在做浏览器的时候都会干这种事情。OpenAI其实没有特别经历过这些钓鱼网站或者什么这样的事情。

下一个安全性问题是什么呢？就是现在是一个半自动状态，所有重要的节点或者走不通的节点会呼叫人类来协助。但是呢，在FSD不支持完全自动驾驶的时候，有多少开着特斯拉睡觉的人，肯定也是不少的。所以未来由黑客一起来骗这个uprighter跟前台操作人员，这个事情应该会比较有趣。大家会一起来去做，因为Operator自己还不负这个责任。哎，该付钱了，我是把你叫来，你自己付的。对于人来说呢，我前面都没看你这边哐当哐当的，网页都翻到头了，就等着我点一下确认了，我就点了，中间该有是其他信息。

应该你替我看的呀。所以在这块呢，其实安全性是互相推诿责任的一个结果，并没有那么安全。OpenAI呢推出operator，现在还算是一个初级阶段，大家看看方向就这样。所以刚才我也讲了，它有很多的不完善的地方，安全性上也差得比较远。

OpenAI推出orpreter呢，可能还有一点点小阴谋在里头。什么小阴谋呢？目前只能在美国区，200美金的Pro用户可以使用。但是前一段时间还记得吗，山姆奥特曼出来抱怨了，说我们这pro用户亏钱了。为什么200美金一个月的账号，这么贵的账号不共享出去，这不就没有天理了吗？一定是出去共享。一旦把这种账号出去共享了的话，它的使用量就会变得非常非常高。

而且所有要去跟O1模型去打交道的人，他是不会像咱们平时问他个问题，就跟他聊天，不是这么干的。跟O1打交道的时候，你是要像开这个项目进度会一样，把所有需要的东西都一把扔给他，他在后边吭哧吭哧吭哧地就给你算去。咱们在GPT4O都是我说一句他回两句，然后我再说两句他再回三句，都是这样来工作的。但是在O1上，如果你这样工作的话，你就得不到你想要的结果。

O1都是说我写好一整份报告扔给O1，然后O1去干活。再过个比如说5分钟、10分钟，他把这活干好了还给我。我去整个把系统看完了以后，再去写下一份报告，让他再接着干活。OpenAI的这个Pro账号亏了很多钱。如果像网飞这样的公司怎么办呢？他就大力打击呗。你们只要敢出租账号、出借账号共享了，我就直接把你账号封了。

OpenAI呢这次就干得比较绝。他怎么呢？我也不封你账号，我让你用这个Operator功能。用了Operator功能以后呢，你就会绑定一堆的私人信息进去，你的信用卡号、你的手机号、你家庭地址。那你输了这玩意以后，你还敢不敢把你的账号借给别人用呢？大家就不敢了。所以呢，他里头还是会有那么一点点的小阴谋在里面。国内的大厂，包括其他谷歌这些厂。

应该已经看到这个方向了，现在就应该可以行动起来了。现在最好用的客户端浏览器，在我的电脑上已经不再是Chrome了。我现在最好用的客户端浏览器是豆包。我每天都是在豆包上浏览，豆瓣上装好所有的那个Chrome插件，除了各种的沟通聊天之外，就可以直接当浏览器去用了。

阿里也在努力做他的跨客浏览器，再加上什么360浏览器、百度浏览器，百度有浏览器吗？我想不起来了，反正腾讯好像是有浏览器的。大家就照这个方向做呗，我们没有必要用远程的这个云端浏览器了。我就直接用这个本地浏览器去虚拟一个窗口出来，把这事干了不就完事了吗？

而且你使用本地浏览器去虚拟窗口，去做Operator的事情的话，你的IP地址跟这个地理位置还都是对的，还不像是放到云端去，以后他给你把IP地址搞错，这个可能还算好一些。而且还有一点是什么呢？就是你在本地做虚拟浏览器的话，并发就会变得大很多，因为不需要吃到云端的资源了。像我们做直播，就是光这一个页面一个G的内存就没了。如果都在本地的话，大家就吃的是客户端的这个内存，他就没有那么高的成本。

那么未来的方向已经确定了，后边呢其实就是中国人擅长的部分了，中国人擅长的是什么？挣钱呗，终于可以拿来挣钱了。你可以去谈商务合作，比如说我们去跟美团谈个合作呀。豆包后边是谁？直接跳动的，直接跳动说我不跟美团谈合作，我自己要去做即时零售，我自己要去做团购，我自己要去做订餐了。而且送餐的这个事情，我们已经跟饿了么合作了。我就只管在这边抖音上面把这个广告刷出去，今日头条把广告刷出去，再在豆包里聊聊天。

等你要吃饭的时候，我就自动把所有东西都给你做完了。这块我们自己干了，而且后面有一些他不做的事情，还可以去找商家进来，哎，你们谁愿意跟我合作？我可以把这个AI的流量导给你们，在你们的这个平台上直接把单子下掉。他就可以去做这个事情。而且呢，大数据杀熟，这个时候就可以来去启动了，后面流量的分发跟售卖。

又回到了传统的路径上去。大家都在我这卖饮料，那我到底卖张三的还是卖李四的？谁给我钱，我就卖谁的呗。这就这么简单的一个事情，大家就可以去干了。

今年呢，OpenAI给大家指明了方向，就是选AI agent。给出的方向具体是什么？就是眼睛、脑子跟手脚。自动识别用户意图，这就是眼睛；自动进行行为规划，这个是脑子。像我们原来做了一堆Codes、Defi这样的工作流的这种规划工具，就需要重新去思考，未来这些工具应该向什么方向走。是不是不需要做这么复杂的工作流规划？应该可以自动的规划一定的工作流。

比如说有一个模块，里面就可以进行自动的流程规划了，就可以把该做的事情做掉了。这个是工作流工具，未来的一个需要思考的问题。通过远程浏览器操作，在人的配合下完成复杂任务，这就是手脚。这就是他对AI agent定义的三个环节：眼睛、脑子跟手脚。而且他现在讲这叫AI agent 3.0。

第一步，AI agent是做这个问题的回答；第二步是我们做各种的工作流规划，以及周边辅助功能的这种配套。像我们做用Codes、用Defi也是可以做各种各样的周边动作的，比如说可以发邮件，可以去浏览网页，也可以去下单买东西。但是呢，那个工作流是我们写死的。

现在呢，他这个3.0做了一个完整的东西，你可以直接提要求，我自己思考该怎么办，然后去把最终的交易执行掉。在这个里边呢，他其实提了一个非常重要的点是什么？就是什么叫把这个任务做完了，叫完成交易。像原来我们做很多的工作流，其实最终的结果还是说要去产生内容。而现在说不，我们要完成交易。

对于所有这些做AI的人、做AI agent的人来说，又算是天亮了。为什么呢？因为原来他们都不挣钱。现在说好了，我们AI agent最终的结果是要完成交易。你一旦完成交易，那甭管是抽成、收手续费、流量售卖，还是说交易了以后进行贷款服务，都是挣钱的。这个传统套路就都可以跑起来了。

所以，一旦把AI agent最终的手脚定义为完成交易，那么大家做AI agent这件事情的积极性一下就上去了。OpenAI今年的方向呢，第一个是把O3好好做出来，甚至再往后去推他的推理模型，然后将更多的模型功能进行整合。现在，不管是OpenAI也好，Gemini也好，Claude也好，觉得很多的功能是分散的。有的模型是有视觉的，有的模型可以有语音，有的模型可以搜索，有的模型可以做canvas，还有一些可以，比如像刚才我们讲的Operator，它最近还发了一个模型是做日历的。但是这些东西，最后是很难结合在一起。怎么能够把所有东西通过agent的方式结合在一起，让它们所有这些功能能够顺利地跑起来，这就是今年OpenAI要去做的事情。

越来越多的AI agent的模式会到来，不是说Operator就是唯一的一个AI认证的方式了。前面那个日历方式也很有意思，你可以告诉他说每天几点，让我去做什么事情，或者告诉他说：“我想要健身，每天几点要提醒我去健身。”或者提醒我该吃药了，这些都是可以在日历功能里去做的。设置完了以后，每天到了你设置好的时间，它就会去执行一个agent。比如，我现在要求它每天早晨10点，把一天的AI相关的新闻总结出来，它就会给我发一个邮件。但是邮件里头没有内容，只有个按钮，这做得很烂。你点完了以后，还会进入到ChatGPT的界面里去，然后给你总结一下今天有哪些AI相关的新闻出来。

这个浏览器操作，今天我们讲的Operator，这是第二种AI agent。那么，下一个AI agent是做什么呢？我们有日历了，有浏览器操作了，下一个做什么？我觉得大家想一想，微软Office里面都有什么？Office里头有Word，那没问题，现在canvas基本上已经可以把Word很多功能做到了。Excel、PowerPoint这些东西呢？

未来可能在AI agent里面都会逐渐出来。再加上这个里面还有邮件的功能，是不是未来OpenAI会有自己的邮件系统？或者它可能不叫邮件了，叫一些其他的名字。还有，比如通讯录，或者说teams这样的功能，是不是这些东西就慢慢地向OpenAI的这个平台里边去整合起来？而这可能就是未来的AI agent一步一步的增加下去的过程。

这OpenAI自己是极其贪婪的。我记得我讲马斯克到底能不能做出超级APP来时候，我讲过这个问题。做超级APP的源头就是贪婪，OpenAI就属于特别贪婪。他要做全场景，要把所有的场景在OpenAI里通通都实现一遍。流量现在正在快速地从谷歌向ChatGPT进行迁移。我现在自己已经很久不开谷歌了，遇到各种问题，ChatGPT、Deepseak、豆包都会跑一圈，实在搞不明白了我才会去开谷歌。而且就算开谷歌，最后得到的效果也未必比ChatGPT它们强。

所以现在第一个要革谷歌的命，谷歌的Workspace这些东西肯定就一项一项地都进入到OpenAI ChatGPT的AI Agent里边去。也没准过两天OpenAI就会出网盘功能呢，甭管是微软的onedrive，还是Google Drive，或者是icloud，都将会有网盘功能。所以OpenAI下一个agent没准是个网盘，大家就等着一个一个看。

你现在看谷歌有什么产品，office里有什么产品，OpenAI就会一个一个往回搬。但这个过程中呢，谷歌就比较危险了。为什么？因为他始终无法舍弃搜索广告收入。谷歌的最核心收入就是搜索广告，还不是说各种广告，比如说我的这个网页广告、YouTube广告、移动广告，这些挣钱，但是挣的钱都没有搜索广告多。那么这就导致了一个很严重的问题，是什么呢？就是谷歌的大模型有很多新的功能，他不愿意给人用，因为大家一旦用了这个以后，他的搜索广告收入必然会下降，因为流量不从那走了吗？

谷歌的Gemini到目前为止也还在惦记找人收一个月20美金的这个费用，因为你广告收入没了。有了以后，你还是要有一个收入进来的，这个是谷歌比较无奈的地方。

所以现在大量的谷歌Gemini的新功能呢，它压根不给普通用户用。它给谁用呢？给程序员用。你在AI studio.Google.com这个网站里头，会发现，哎呦，谷歌的大模型已经往前发展得非常非常远了。但是你到Gemini.Google.com这个网站里去，发现还是那么笨，特别是你没有交20美金，那就完全没法使用的一个产品。这块其实是非常麻烦的。

那你说谷歌自己不知道这问题吗？他知道，但是呢，作为这么大的上市公司，百分之七八十的收入，你不可能说不要就不要了。这件事情呢，很像是日本人为什么做不好电动车一样，包袱太重。他坐汽油车这么挣钱，那你说我坐电动车，汽油车这事不弄了吧？所以他永远不舍得，包括他坐了半天氢能源，也没有把车推出来，原因也很简单，我汽油车卖得好好的，我为什么要去推这个东西？

所以这都属于是逐渐要被干掉的一个迹象，谷歌这块很难逃脱了。现在OpenAI的话，肯定是要逐步地用AI的方式，蚕食互联网里边所有的领域和方面，要去做超级APP，要去做顶级大厂，这是OpenAI的野心。

社交娱乐这一块的话，应该还有更多的时间可以喘息一下。他的DALLE3已经落后了，Sora也翻车了，也落后了。社交跟隐私跟AI之间呢，有一些难以调和的东西，这个事要稍微麻烦一点。而且现在OpenAI这帮人呢，更多的想的是，我怎么能够把公司做得有效一些、有用，比如说怎么去做科学研究，攻克人类所有疾病。

所以对于社交跟娱乐这一块呢，他们并没有投入那么大的精力。所以如果有一个小公司说，我今年还想创业，我想在AI上做点什么事，干点大厂不干的事情，OpenAI现在绝对已经是大厂，不用等那后边5000亿美金的星际之门，他就已经是大厂了。

你说我非要在他那块再折腾点什么事。我想做一个AI Agent，去跟他比一下Openriter到底行不行。除非你在中国可以。为什么？因为他进不来，他去不了的地方，你可以去做。如果他去得了的地方，就别跟他费劲了，去做一点他不干的事情。这就是今年OpenAI为整个行业指明的方向。OpenAI在今年可能已经在向着超级应用、超级APP的方向遗迹绝尘而去了。在这个过程中的话，谷歌就相当相当的危险，微软肯定也会被它蚕食掉一部分。中国的公司可能就又有腾飞机会了。如果有在美国的，你们交了200美金的用户，可以去试一试。如果没有的话，咱们等过一段时间，他把这个200美金用户共享的问题解决了以后，应该会把这个产品开放出来，给plus用户和teams用户。但是你说我在这个墙之内的话，用这玩意到底有什么意义，我也没太想明白。好，这是我们第一个故事。

百度为什么不做Sora？探索百度的独特AI发展路径与未来方向，背后原因是吃不到葡萄说葡萄酸吗？

老范讲故事 — Tue, 19 Nov 2024 00:52:17 +0000

百度为什么不做Sora？是不是吃不到葡萄就说葡萄是酸的呢？大家好，这里是老范讲故事的YouTube频道。

11月12号，百度世界大会上就透露出来说，百度从来就没有想去过做Sora这样的世界模型，或者叫视频模型，从来没想过。百度呢，是一直希望走自己的多模态道路，不希望去跟OpenAI这样的公司卷入世界模型的竞争。虽然到现在为止，Sora也没出来，但是跟在后面跑的人还是很多的，特别是抖音、快手，都推出了各自的视频模型，还有很多国际上的厂商也在视频模型上争先恐后地往前跑。

但百度说，我不干这个事，我有更重要的事情在做。这是百度李彦宏亲口说的。那么，百度努力的方向到底是什么呢？百度努力的方向是消除幻觉。大模型都是有幻觉的，百度呢说，我们作为一个中国公司，你可以不说话，但是说错了是很麻烦的，所以我们不能产生幻觉，保证我们说的都是对的。而且这个是在各种角度上，所有的评判标准来看，都得是对的，不能有任何问题。因为有的时候，你说的你觉得对了，但别人觉得不开心，这也是不行的。

所以百度呢，作为一个有中国特色的AI领军公司，他们向着消除幻觉的方向前进了。他们准备怎么去消除呢？他们这一次在11月12号的百度世界大会上，推出了一个很有趣的东西，叫IRAG。大家要知道，RAG是我们在做AI agent，或者叫AI智能体里头，用得比较多的一个技术，叫搜索增强生成。就是我们先搜索，搜索完了以后，根据搜索的内容再去生成，这样的话，能够保证生成出来的东西没有什么幻觉，是在你给定的范围内去生成的。它倒不一定说保证生成出来的东西是对的，但呢，它保证说你给我的是什么，我生成出来的就是什么。

那么，IRAG是一个什么样的东西呢？这个前面这个I到底是做了一个什么样的单词放进去了呢？I这个词呢，是图像（image），以图像为基准的RAG。什么叫以图像为基准的RAG呢？就是正常情况下，咱们RAG都是做的文本或者是表格。

搜索完了以后，把这些文本和表格通通都做成矢量数据库里面的一个点。然后找到离他比较近的点拿出来，去生成跟问题相关的答案。这是RAG的标准过程。IRAG呢，就是百度说我有好多图片，我把所有这些图片，以及图片识别出来以后的各种信息，直接拿去做嵌入，然后形成史料数据库。在这个里边去搜索，搜索完了以后再去重新生成图片。这意思是什么呢？就是你去训练说这个人叫张三，张三长这个样子，张三坐着，张三站着，张三乐了，张三哭了，张三吃东西了。他把所有这些东西都训练好了，放到一个矢量数据库里边。等你下次要求他去生成图片的时候，说张三穿着什么什么样的衣服，站在哪里，在做一个什么动作，有什么样的表情，有什么样的风格，他就可以从矢量数据库里头把你要的这些信息都找出来。张三长这样，我有了；然后呢，穿什么衣服，我在数量数据库里再去查。查完了以后，哦，衣服长这样我也有了。做什么动作他可以画得很准。他做了这么一个很神奇的技术出来，但是我看到这个介绍以后说：“哎，这玩意好玩哈，我得去试试。”然后我就跑去试了一下。首先我跑到了百度文心一言的网站上，测试一下，发现文心一言3.5版本一如既往的拉胯，依然在那胡说八道，依然在那前言不搭后语，咱就对他没有什么预期了吧。然后闻心欲言4.0依然需要收费，算了不测试了。那么画图吧。画图的过程呢，稍微有些吓人。首先让他画车，你让他画各种型号的车，都非常的准。说我迈巴赫哪个款，在巴黎的凯旋门下，哎呀，那个做的非常的漂亮，一张照片绝对一下乱真。大众这个车呢，除了车牌子上看不太清楚之外，也是非常像的。比较遗憾的是，我要求他画小米苏7，他没画出来，估计是小米苏7他的素材不够多，或者训练这个模型的时候没有用很多的小米苏7的图片，或者说他的IREG的这个矢量库里头没有那么多的小米苏7的图片。每次要求他画小米苏7的时候，他画出来的呢，都是问界M5，这个就没办法了。然后画人吧，要求他画郭德纲。

哎呀，我天呐，简直就是拿照片直接贴上来。你说郭德纲干什么？马上就给你做一个一模一样，绝对以假乱真。但是呢，你要求他画于谦，这个事就没法整了。画出来的也是郭德纲。大家想明白了没有？为什么会这样呢？

说为什么我要求他画于谦，这个IRAG产生的结果是郭德纲呢？因为很简单，你所有在百度图片里头搜索于谦的照片，郭德纲都站旁边了。于谦、郭德纲，郭德纲、于谦，你郭德纲站的照片多一些，那么他就认为说是不是于谦应该也长这样。可是这样的一种运作方式，实际上呢，他向我们展示了用IRAG的这个技术，依然是没有办法避免幻觉的。你要求他画于谦，他画的是郭德纲。

有一张照片，我告诉他说，来，给我画一个郭德纲跟于谦在德云社说相声的照片。画完了以后，就是两个郭德纲，都很像。就是你单独拆出任何一个来，都是以假乱真的。俩郭德纲站在台上说相声了，就变成这样了。要求画其他人，就没有那么像了，比如说郭麒麟、马斯克，这个就不太容易认出来了。其他的我就没有再敢去测试，再测试可能会被警告了。

但是呢，他整个这套的IRAG的系统还是挺吓人的。如果你想让他去给你生成一些广告图片或者是一些假图，就是郭德纲出去做了一些丢人现眼的事情，绝对以假乱真，画的极像，已经是可以达到一定的商业用途了。特别是你，比如说我做一些店铺的装修或者是这种电商的图片生成，这个玩意还是可以的。

除了这个IRAG之外，这一次的百度世界大会上呢，还发布了无代码工具“秒哒”。一秒、两秒的秒，哒呢是一个口一个到达的达。所谓的无代码工具“秒哒”呢，其实类似于字节跳动的codes，对吧？也是让大家把智能体拼起来，然后形成AI agent去干活了。只是呢，秒哒现在呢还不开放使用，依然是让企业去报名排队。据说已经有很多人排队了。这些企业不知道为什么想不开，Codes现在就可以免费使，你干嘛还要去使用秒哒呢？像我这种稍微有点动手能力的人，可以使用Defi。

这个咱们就不说到这么远了。今年，除了前面我们讲的IRAG以及秒哒之外，还发布了什么呢？这个牛肯定还是要吹的嘛。现在吹的牛是什么？就是文心一言大模型，日均调用量15亿。我们已经数涨上来了，去年是5,000万，现在涨了30倍了。这个15亿呢，大家注意，没有单位，15亿次，15亿人，不可能15亿人，中国没有。15一次，这个也稍微有点不太好去评估，怎么算一次呢？那么我们就稍微保守一点评估吧，我们把这个单位写成TOKEN，就是每天可以生成15亿TOKEN。

哎呀，很多人说这个数好大呀，百度文心一言好厉害，这么多人使用它，生成了这么多的内容。但是你要想想，15亿TOKEN按照百度的收费标准，能够挣多少钱呢？百度文心一言4.0 Turbo，按照每千TOKEN的价格乘上15亿的话，一天的收入大概不到10万块钱。那你以为像百度这样的一个公司，这样的一个项目，值得上来去讲吗？如果这就是他的AI未来的话，百度一年挣个3,000万、4,000万这种水平，这个够干嘛的呀？

所以呢，这个数字基本上可以忽略不计，他只是跟大家玩了一个文字游戏，一天15亿，好大好大。你把它乘上钱数，你看看有多少。除了给自己吹牛之外，当然还要指明一下方向，说未来的AI发展是哪个方向呢？两个大方向，一个是智能体，应该也就是刚才我们讲的AI Agent这样的东西；另外一个呢叫产业应用，就是政府有钱或者是大的企业有钱，你们愿意为这个事情买单，你们就是未来方向了。这是李彦宏为AI中国指明的两个方向。

而且呢，保证说百度自己不会去做超级APP，实际上他也没这个本事，所以干脆吃不到葡萄说葡萄是酸的，我不做这个事。然后呢，要去打造上百万个超级APP，也不知道李彦宏怎么想的。超级APP不可能有上百万，到上百万了，以后这东西就不叫超级APP了，你没有那么多用户，叫什么超级APP？但那意思呢，就是降维打击，这个是很多互联网人喜欢讲的一种说法。

你是二维生物，我用三维的方式去干掉你；你是三维生物，我用四维的方式去干掉你。这是《三体》里边的一个词。这个所谓的降维打击是什么呢？就是你们都去卷超级APP去了，我要当你爹。在百度下边做的应用都是超级APP，我比你高一个层次。

当然了，也展示了一些智能体，包括百度自己的文心智能体平台。这个上面呢，号称有15万家企业使用，有80万开发者，但是也没有看到砸出什么响动来。如果产生了超级APP的话，广大的民众应该是能够有感知的。咱们现在没有感知，别说上百万个了，一个都没看到。然后也展示了一些超级智能体，什么法律问答呀，基本上也就是说我们通过百度的文心研做的一些AI Agent，怎么能够解决一点点的实际问题，这个也给大家展示了一下。

另外，时髦还是要赶的，赶什么时髦呢？百度智能眼镜，扎克伯格干成了，我们也得干去。这就是这一次的百度世界大会上发的东西。那咱们回过来说，百度为什么自己不做Sora呢？其实这个里头最本质的原因只有一个，就是百度自己是没有视频平台的。虽然百度有视频，百度有爱奇艺什么这些东西，但是百度自己没有像抖音、快手这样的平台。你像国内现在即梦跟可灵，卷的那叫死，天天俩人卷来卷去的。即梦后边是字节跳动是抖音，可灵后边是快手。生成完了视频，就放在我们的抖音、快手平台上，大家就可以宣传了，就可以直接用上了。百度自己没这东西，所以说那我就不跟你费这劲了。

而百度跟Sora呢，实际上是两条完全不同的路径。Sora是什么路径？Sora的路径是scaling low，大力出奇迹。中间很多东西我们也不去研究了，我们就把料堆齐了，数据堆齐了，算法堆齐了，再加上足够的算力，烧钱等待它涌现。原来的这些传统的方式，我们就不去考虑了，think differently。我们不用再去想说要不要更快的马车，我们直接去造飞机去了，还不是汽车。这就是Sora干的事情，是一帮有理想的人去做的事情。

而且呢，未必有结果。其实到现在为止，Sora都没有任何要做出来的迹象。而百度他们做的事是什么呢？是在现有的技术范畴下，满足现有的需求。这个呢，就属于典型的中国式创新了。要求的是什么？确定性高。我们要卷吗？卷的一定要确定性很高。哪方面要确定呢？第一，技术路线要确定。一帮老学究们，他们来去确定技术路线，不能让年轻人上。年轻人，你们没有经验，万一走错了路怎么办呢？这个你们不要去动。第二个呢，成本要确定。我投入多少钱以后，可以得到一个什么样的结果。成本确定了以后呢，收益也要确定。我做出来的东西得有人用，我得卖得掉，这个事才能去干。就比较现实。这个就是百度走的这条路。百度呢，要求是有市场能赚钱，所以呢，百度算是比传统的中国式创新更加保守一点的一个公司。

那么现在有很多人去讲说，scaling low现在到底行不行？美国有很多大学、很多机构，甚至一些著名的科学家都出来讲，scaling low是不是玩不转了，这种规模法则是不是有问题了？再往前堆，是不是堆不出东西来了？这件事呢，只能这么说，从scaling low诞生的第一天开始，质疑就从来没有停止过。为什么呢？因为scaling low指望的那个东西，就是scaling low成功的最终结果叫涌现。这个词什么意思？就是你不确定他来不来，你不确定哪次行哪次不行，你也不确定说我到底是增加多少。以后有这么一次，因为涌现这个东西，它一定是不连续的。不是说我上了10块显卡，出了一个东西；上了11块显卡，又出了一个东西；上了12块显卡，又出了一个东西。这个是不连续的。你有可能10块显卡，你最后算出来一个数据可以用，然后呢，11、12、13都没用。结果你发现上到第100块显卡的时候，又跑出一个结果来，又有一个跳跃式的创新，又往前走了一步。那你说咱堆吧，堆到1,000块显卡，咱再做一次，发现哎，好像有那么点提升，但是又不是那么明显。哎呀，这个好像不对。

但这个事情是不是就不行了？不一定，因为在下一个节点在哪，谁也不知道。这个才叫涌现呢。如果你知道下一个节点在什么地方，比如说有这么多数据堆在一起以后得到结果，那下一个节点，比如说我们说是乘10倍、乘20倍、乘30倍或者是1,000倍，这都不知道。这个才叫真正的 scaling law。就是我们就只管往前堆，未来是不可预期的，不确定的不连续的。

这个东西从开始的那天大家就质疑它。这个过程呢，其实很像什么？就是咱们小时候都看过一个故事，叫小马过河。什么意思呢？这个小马背着一包货准备过河，人家就跟他讲说你这个过不去的，这个河很深，会淹死你的。这个不同的人就都跟他讲不同的话。就是每一个老的科学家或者是一些进行成本核算的会计师们，看到 scaling law 就会跟他讲：“小马过河，你是过不去的，你这个事有问题的。”那这个怎么办呢？必须要往前蹚，蹚完了以后去寻找下一个的节点，这个是没有什么办法的。

百度这么想到底对不对？百度说我不去作死 Sora，我要去做 IRAG，我要去消除幻觉，做有中国特色的创新，这事对不对呢？其实百度这么想并不丢人，作为一家成熟的商业企业，这样思考算是一个正常的商业逻辑。但是呢，如果按照百度自取的那样，他是中国 AI 行业的领军企业，这么想问题的话，就有点可悲了。

但好在是什么？就是中国做 AI 这一块，反正至少我测试的各种产品里头，我觉得百度基本上还是排不上号的。百度自称是中国 AI 行业的领军企业，这个事呢，让百度自己开心就好了，关起门来称大王就可以了，让我们每天看着百度是怎么思考问题的。我觉得他思考问题的很多的方式还是有借鉴意义和价值的。但是呢，作为一个国家的这种 AI 领军人物，最好还是有一点梦想，愿意努力的，跳一步往前走一走，有可能你就会走到一些不一样的地方。

好，这一期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群。

也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。