AI自动化 – 老范讲故事｜AI、大模型与商业世界的故事

和文科生聊了一小时编程，感受到AIGC时代，文科生更加不可或缺了。程序员、产品经理和设计师的相爱相杀还会继续。AI现在还不能取代程序员，更不能替换文科生的诗和远方。

Luke Fan — Fri, 07 Mar 2025 00:39:20 +0000

和文科生聊了一个小时的编程，我真的感受到了学文科是一件很重要的事情。大家好，欢迎收听老范讲故事的YouTube频道。前几天去字节跳动参加他们的TRAE发布会，和两个文科生——准确地说应该是一个文科生、一个设计师——聊了一个小时如何用AI做编程。我作为一个老程序员来说呢，很多时候还是偏保守的。我觉得现在AI编程还有很多事情没有做的那么好，但是产品经理是个文科生，另外一个是设计师，他们都异常兴奋，觉得哎呀这个实在是好厉害，一下就可以解决我们的很多问题。

今天呢，跟大家稍微的回顾一下下，然后再说一下我的感受。首先我感受到了深深的怨念。什么是深深的怨念？这个产品经理就说了，说你们这些程序员是不是很讨厌产品经理，每次看着我都很不耐烦，老觉得我什么也不会，只会给你们找事情。然后我每次提什么要求，你们这些程序员都不愿意给我做，总是找各种各样的理由。设计师也是满满的怨念，说我明明都设计好了，你为什么做出来就跟我设计的不一样呢？你们这些程序员还不停的来找我，说我能不能做出来跟你这个稍微差一点点，你为什么底下要画根线，我这根线能不能不做上去，你为什么要把这个按钮设计成这个颜色这个形状，下面还要有一个圈，我能不能不做这个东西，因为每次做这个东西都很费劲。

原来我们在猎豹移动的时候干过一个什么事情。当时的猎豹浏览器也是很多栏嘛，当时的设计师要求当你点击了某一个栏位，光标要从原来正在活跃的这个栏位上飘过来。但是这个东西很难做，大家知道我们写程序的时候是面对Chrome的底层去写程序，那个玩意不是从头就是我们做的。所以当设计师提出要求来的时候，程序员就会去问他说，你一定要这个光标飘过来吗？我直接把这个变亮，把那个变灭不就完事了吗？不要有这个中间飘的过程行不行？设计师说不行，我设计要有这种一致性，我整个的设计风格是什么样的。他们就会有这样的矛盾。

其实我跟产品经理和设计师打交道的机会并不多。为什么呢？因为我那个时代，程序员就负责所有的事情。我写程序的时候都是九几年，到2000年前后我在写程序，我写了10年的程序。然后，程序员开始跟产品经理、跟设计师打交道，是在后面大量的web应用、大量的这种移动应用上来以后，才会有后边的这个故事。像我们以前就是自己做就完了。我们那个时候做的产品都很难用，你必须要经过认真的培训，才可以把它用起来，而且都奇丑无比。因为我们那个时候，就是自己写就可以了嘛。我记得当时我去考大学的时候，学计算机不可以色盲。后来我说为什么学计算机不能色盲，说色盲的人设计出来的界面会大红大紫，红绿色盲嘛，你看不到这个颜色吗。后来，我上班了以后，就碰到了一位色盲程序员，本科不是学计算机的，他学了其他专业的本科，然后出来以后转行做程序员了。他设计出来那个界面就大红大绿的。但是后来的话，程序员、设计师跟这些产品经理，就成了三个冤家，必须要凑在一起才能干活了。他们讲完了那个话以后，我说哎呀我感受到了你们的怨念，你们都想把我干掉，然后他们也在那乐。这个沟通、适配、迭代，这是我们当时写程序的时候，团队里边解决怨念的方法。实在不行就出去喝一顿大酒，这个事情解决了，继续往前走。但是有的时候呢还很麻烦，为什么？因为有的时候这个程序员是男的，这个设计师和产品经理是女的，那个女生她不愿意出去跟你喝一顿大酒。当然也有一些程序员呢，就跟产品经理或者设计师，喜结连理了，吵着吵着就变成欢喜冤家了吧。产品经理呢给我们还讲了一个故事，产品经理他自己开了一个AI编程的课程，他原来一点编程都不会，然后写了一本书叫《AI编程蓝皮书》，开着课程开始去教课去了。然后一位60多岁的创始人，跑来学编程了，他就问人家说，您都这么大岁数了，您来学编程，而且您原来创业这个项目，也不像是公司里没有程序员的样子呀。这个老的创始人就跟他说了，我们原来公司里也有程序员，有十来个程序员的。

但是呢，我老信不过他们。每次向他们提点要求呢，他们就是：“哎呀，这个干不了，那个干不了，这个只能做成这样了，那个只能做成这样了，这个必须要一个月才能做完，那个还得再干俩月。”我老信不过他们，干脆我自己学一下，他们以后就不能再糊弄我了。

这就像什么呢？叫“非我族类，其心必异”。就像我们面对那些医生、律师、会计师那样，也是这么想的：“总有刁民想害朕，你们是不是都想坑我？”所以这位60多岁的老创始人，就跑去学编程去了。反正一个敢教，一个就真敢学。两人都不会编程，一个是产品经理，一个是从来没有学过编程的创始人，也是个团队的创始人嘛。两个人就开始学起来了。

我觉得等这位老创始人学成回去以后，估计会上演很多的狗血剧情。回头我再去问问他，这个老创始人学完了以后，他有没有做回访。但是我能够想象的出来，这种事情一定会鸡飞狗跳的。

那么，程序员到底在想什么？咱们来解答一下那位老创始人的疑问。你们来去跟程序员沟通，说：“把这个给我做一下，做不了；给我那个做一下，能不能打个折扣，稍微调整一下，找一个我熟悉的方式来做；你这个地方帮我改个小错误，就这么简单的一个错误给我改一下，这得改俩月，这可费劲了。”到底是发生了什么？

程序员思考的问题里头，完成功能只是很小很小的一部分。那你说你们做程序员的，你不给把功能完成了，你们都在想什么呢？第一个很简单的问题，技术选型。你要让我完成这个功能，我到底是用什么东西来去完成呢？你让我去炒个菜，那你说我是出去买个预制菜回来炒一下呢，还是说从现在开始耕地种粮食呢？程序员经常会想这样的问题。

而且有的时候为了做出最符合自己要求的这个功能来，他们真的会耕地种粮食，就是会从很根本的地方开始去做，而不是说用人家已经做的差不多了一半的东西，用现成的东西直接拼。这个用现成东西拼就是预制菜嘛。所以程序员经常会很纠结，到底选哪个呢？其实通常是选他自己熟的那个。然后程序员会想下一个问题是什么？代码复用。

我写完了这段代码了。我下次是不是还能再把它用上？或者我以前写的哪个代码好像跟这差不多，我怎么能把它用上？我为了让这个代码下次还可以用，我就要给这段代码里头写很多你当前这个功能所不需要的代码进去。为什么呢？因为我首先要写个注释吧，我要告诉他，我这个东西前面干什么了，后边干什么了，这个下回还能怎么用。然后还要写很复杂的这个架构吧，因为你想一段代码，比如说有1,000行，那我不能说我把这1,000行都用上，我要把它分好架构。而这个是50行，那个是30行，1,500行里头分成50行一段，30行一段。有人说你这不对，一开始说1,000行，怎么变1,500行了？因为凑这些架构又多出500行来。你说我只管把所有事都干完了，可能1,000行干完了，然后你说我为了有所有的这些架构，架构还很清晰，那我又多出500行来。那我下一次说，我用到这个里头的200行，我下次再用到另外那20行，他是这样来去规划的，叫代码复用。

然后还要思考什么？怎么进行效率提升？并行处理呗，哪两个事情之间不影响，让他们并行起来，这也是需要去思考的。还有一个很麻烦的是什么呢？环境适配。这个是什么东西？我这个程序能在PC上跑，能在网页上跑，能在安卓手机上跑，能在苹果手机上跑，或者我还有一部分是要到亚马逊云上去跑，或者到阿里云上去跑。那每一个系统后边都有一大堆的规范文档在那儿，那我要想适配他们，这个也很麻烦。还要避免各种各样的极端情况，什么极端情况？同时有30个人用这个事没问题，可以跑，同时有1,000个人用，程序崩了，这个也是需要在写程序的时候思考的问题。

而且写程序的人有的时候叫什么呢？叫江湖越老胆子越小。为什么？就各种坑都踩过了嘛，等下次再走的时候说，你怎么用这样奇怪的一个姿势在这儿走路？你不知道那里有坑，他是这样的一个发展过程。所以这就是导致为什么说这些文科生，这些设计师，这些产品经理，这些创始人。

觉得程序员那么不可理喻的一个原因，而且程序员想的刚才所有这些东西，其实都是可能在写程序的过程中很小的一部分。那你说剩下的时间你们都干嘛去了？这个程序员的工资不低，你们都天天在这摸鱼吗？不是，当然摸鱼肯定也要摸了。这个程序员真正用很多的时间去思考的东西，叫团队协作。这什么意思？我写完代码下一个人要改，下一个人可能还是我。那你说你这怎么又绕回来？明日之我不是今日之我，他是这样的一个过程。像我们经常写着写着程序说：“哎呀，这个程序是我三年前写的，当时到底怎么想的？”

我记得原来有一个故事，大夫写字不都写的特别潦草吗？有一次写了个药方子，到那个药房去抓药去了，实在认不出来是什么字了，然后就回去找这大夫，说：“大夫，您这字到底写的什么呀？”这大夫看了半天，然后一拍桌子：“何不早问？你早干嘛去了？现在你问我，我也想不起来了。”

所以呢，我们要做很多很多的事情是为协作的，即使是自己跟自己协作，也是需要写很多的代码，写很多的注释，做很多的加工设计。所以软件的本质是工程，不是软件本身。真正实现功能的部分只占很少很少很少的一部分，软件里面绝大部分的内容都是防止程序员迷路的。我们在这里钉个小牌牌，说：“你再往前走三步有一个坑。”这个是真正软件工程里边去做的。而且你钉完小牌牌以后，还要写某年某月某日，谁谁谁在这里钉的小牌牌。

所以呢，这就是屎山代码，什么意思？就是一大坨代码谁也不敢动。因为我们刚才讲复用嘛，你复用了以后，就会有这个代码依赖的关系，这个代码要依赖那个代码。那么你在这个东西想要再去调整，再去修改，就会变得非常非常难，叫牵一发动全身。你修改掉一个bug以后，可能带来10个bug。然后为了避免这个东西，我们还要有一堆人再去思考，再去研究。还有很多人硕士、博士学位，出来学什么软件工程学，人家学的不是说我要去实现什么功能，就是我们学习如何在可以接受的成本范围内，组织很多的人进行分工。

把一个巨大的软件工程完成掉，这也是一门专门的学问。那么，非程序员到底是怎么看程序员的呢？其实就像我们去看老中医。这些非程序员不愿意为功能之外的事情进行沟通。你说找个程序员来给我做个功能吧，这个程序员再去跟他讲效率，再去跟他讲兼容性，再去跟他讲，说你到底是要在安卓手机上用，还是要在苹果手机上用的时候，文科生、产品经理、设计师就会觉得很烦，而说这个就这么简单的一个事情，怎么搞不定呢？

我举一个最简单的案例。你比如说设计师设计了一个小动画，程序员就去问了，说你要安卓手机用还是苹果手机用。这个设计师说，你就都实现了不就完了吗？然后这个程序员就哭了。为啥呀？因为苹果手机好实现，你可能一句话把这事搞定了。安卓手机呢，可能就费劲，你可能需要写很多很多的代码才可以实现。而且你一旦要求安卓手机实践的话，他还要问你说，你这个到底是在2,000块钱以上的安卓手机上实现呢，还是4,000块钱以上的安卓手机上实现呢，还是要求1,000块钱以下的安卓手机也能实现呢？

很多人觉得这不是问题，没做过程序员的人完全无法想象这个。为什么？我告诉你，安卓手机算力是有限的。很多这种前端界面上的事情，到这个很便宜的安卓手机上是渲染不出来的，或者渲染出来会很难看，会有这样的问题。所以你作为设计师来说，你给我作出来不就完了吗？程序员说，您上下嘴一碰说出来了，但是到我这可费劲了。所以这个会有很多的沟通、交流上的一些障碍。

除了不愿意为了功能之外的事情进行沟通之外呢，这些非程序员还有一个问题是什么？他们不愿意为了功能之外的事情支付成本。比如说创始人来了说程序员，你给我去做一个什么什么功能。咱们依然是上面这个事情，你如果只做苹果的，很快就可以做完了。你要求把安卓的也做了，而且要求1,000块钱以下的安卓手机也能跑，那你要花很多的时间，甚至花很多的钱，那个程序员工资会上升的。

能够解决这样问题的程序员是很贵的。这种事情我们原来是真的发生过的。原来跟大家吹过牛，我们以前投资的Musically，他最早就只做了苹果的版本，安卓版本他没做。等到做安卓版本的时候，发现他做不出来了。为什么？他们做的大量功能，在苹果手机上一句话就搞定了，因为iOS系统其实是相当完善的。安卓系统呢？你说为什么不做那么完善呢？这个谷歌就笨吗？谷歌也不笨。他之所以不做那么完善的原因，是因为他没有办法控制硬件。他把这个功能都做的很完善了以后，你到不同的这个硬件厂商上，三星的、HTC的、华为的、小米的手机上，它不一定都跑得起来。所以呢，它就很多的功能它不能做，它一定要让手机厂商去把它完善出来。所以当时他们就搞不定了，说Musically这个软件要到安卓手机上实现，实现不了了。那怎么办呢？找我们说你作为投资人，微暴移动你投了我们了，这事你得搞定。那没办法，那上边我们就派了大量的程序员，坐到他们的办公室里来，我们替你搞定，每一个功能都可以实现出来。但这个就是成本。你要碰到这种不是那么明白的人去搞这个事情，这就费劲了。你像刚才我们讲的，60多岁的老创始人，找了一个不会编程的产品经理，学了半天AI编程以后，那回去不炒成一锅酱糊才怪嘞。最后一个问题是什么呢？就是这些非程序员，他们往往是以结果论成败的。很多东西在表面上他是看不到的。就像刚才我们讲的，你同样的功能，你在安卓手机上实现出来，可能还没有苹果手机上实现出来好看，但是呢，费老鼻子劲了。对于不懂程序的这些文科生或者设计师来说，你们这些苹果程序员好厉害，你们这些安卓程序员很笨。原因其实很简单，苹果自己做的好，安卓自己本身底层比较烂，那也没办法，他就会有这样的片面的认知在里头。而且后台的程序他看不到，他们就说前台的这帮人，你们这个功能一个一个实现的很好，后端的人你们程序怎么又蹦了。他只永远只看到这一个，因为后台嘛，只有这一个结果。

崩了，没崩。崩了，没崩。没有别的了。讲到这了，很多人会觉得，我是不是要为程序员叫屈？但是看看前面我的标题是什么？是我觉得学文科是很重要的。文科生非常非常重要。为什么我跟他们聊完了以后，他们对程序员有这么大的怨念，我反而会得出结论说文科很重要的？其实这就是设身处地的思考。

我用Midjourney画图，画了自己也很开心。画完了以后，我觉得我的情绪会得到了抒发，这个非常棒。我用DeepSeek写小说，写出来的东西呢，我看着也挺开心的。这一段看着不错，那段看着也不错。但是我在那天听完了他们讲之后，我突然意识到了一个问题是什么？我是没有能力将很多的画，按照统一的风格，或者说呢叫做一致性，把这些一致性的画，拼凑成一个完整的绘本呢。我也没有能力把这个几十万字、几百万字拼凑在一起，成为一本小说了。

像这个DeepSeek也好，或者各种的写小说的这个AI也好，你命令下去以后，大概就给你写1,000字出来。你要想让他写2,000字都很费劲。而且你命令他写2,000字的话，后面的1,000字的质量就会明显的下降。所以千万不要试图让AI一次性给你输出很长的内容。很多人说DeepSearch这样的东西，不是一次出来很多的东西吗？对，他那个东西不是一次出来，他也是拼成小段，一段一段出来的。所以呢，我是没有能力拼出小说来的。

而且呢，我也没有办法去判定一幅画，或者1,000字、1,000字的这种文字片段，到底好还是不好。术业有专攻。我上了四年大学，几十年的工作训练，掌握了非常多的技巧。那么我就可以去跟这些文科生去讲，跟这些设计师去讲，说：“哎，为什么你这东西能做？为什么不能做？你如果一定想做，到底需要支付多少成本？”这个事情我能跟他讲清楚。而且哪个东西会更好一些，更坏一些，这个事情我也可以给他讲清楚。

文科生、艺术生其实同样是这样。他们也是上了大学，也是经过十几年、几十年的工作训练。而且文科生跟艺术生……

他们所掌握的技巧是更难进行衡量、量化和迭代的。像我们其实一直在研究工程的问题，我们做的所有结果都是可以量化、可以进行迭代的。他们那些东西很多是感性的东西，比我们这个还费劲。所以在这样的一个情况下，我觉得他们更加重要一些。

所以现在很多人说，我们是不是应该把文科的取消掉，应该让更多的人去学理工科。这个事是错的。AI距离替代程序员目前还非常遥远，当然它在快速的向这个方向走。但是AI距离替代文科生和艺术生，应该更远。

很多人说不对，AIGC它生成内容了，它能生成图片、能够生成视频、能够生成音乐、能够生成文字了。但是这个东西距离诗和远方还非常非常遥远。就像文科生写程序一样，他们写出来的就是一坨坨屎。这个真的不是说看不起他们，因为AI现在所生成出来的这些代码片段，就像我们生成的图片或者写出来的文章是一样的，是没法拼凑在一起了。拼出屎山这件事本身是很难的，不是说你可以把一堆屎搁在一块，就是一堆屎山的。最后一大堆碎片，你可能连拼都拼不起来。

像我们写程序也是有风格化的，也是有一些代码编程规范的。现在AI生成的代码，它会在不同的文件里边生成不同规范、不同风格的代码。这种东西是拼不到一块的。还有就是我们没有办法去判断这些图片跟文字的好坏，这个时候还是需要这些文科生、需要这些艺术生，他们才可以去判断。

那么为什么大家都觉得可以取代对方呢？这个还是评判的标准不一样。我觉得我画的Midjourney很漂亮，让我的情感得到了抒发，让我的情绪得到了满足。我觉得我写的小说也挺好，这就是程序员在评判文科生跟艺术生的成就。而那边呢，产品经理教人写程序，大家都觉得挺好。这就是文科生跟艺术生觉得他们懂编程了。

其实是一样的，就是我们拿出来的这些画，我们拿出来这些文字，让文科生看了以后，让艺术生看了以后觉得很可笑。就跟他们拿出来的代码让我们看了，也觉得很可笑是一样的。

但是现在，8岁小女孩写游戏这样的故事，他很有传播性。大家对于AI也抱有了远远超越其能力的这种预期。AI创业者呢，其实也不愿意出来纠正这种误解。他希望说：“你们先误解着，我那头没准加加班赶赶工，这个AI就赶上来了呢。等你发现这个东西有问题之前，我就把功能做出来了。”这个是很多程序员喜欢干的事。所以这就是大家现在都觉得可以替换别人，各个公司都在这疯狂裁员，就是这样的一个原因。

Deepseek今年其实已经造成了大量的裁员。那么，应该如何面对未来呢？肯定还是要交叉学习对方的技巧。因为现在有了AICC以后，工作效率提升了，有了一些空闲的时间，多去学一些交叉的学科。但是与此同时，一定要心怀敬畏，千万不要上来说：“我懂了，你们都靠边站。”这个是要翻车的，是要出问题的。

而且，我们要准备迎接更加奇轨的未来，就是端道端。刚才我还在讲我们在吵架，文科生、理科生、美术生，三个人坐在这在吵架呢。等到最后端到端的时候，就连吵架的机会都没有了。到那个时候，就是上帝说要有光，于是就有了光。可能我们就真的不知道该去搞什么了。

那么，应该如何去迎接端道端这个过程呢？其实就像自动驾驶一样，先是给你一些提醒，最基础的是：“哎，前面有车了，我给你警告一下。”然后呢说：“我可以帮你去开一点，但是你的手要放在方向盘上。”再然后呢是说：“唉，手可以不用放在方向盘上了，但你人得坐着得看着，随时准备接管。”最后呢，是说：“人不用在这呆着了。”到最后一步就叫端到端了。这个也是一个一步一步往前走的过程。

端到端之后的话，我觉得我们可能应该学习日本人造汽车的方法。他们始终会保持一条纯手工的生产线，就是其他的都是用机器来生产，用流水线。绝大部分汽车也都是在流水线上做出来的。但是呢，始终有一条线是用纯手工生产。最后，他要确保生产线上下来的汽车跟纯手工组装的汽车品质完全相同。这可能是我们未来面对端到端的时候所必须去采取的一些措施。否则的话，万一出了一些问题。

因为一旦端到端了以后，出了问题你是一点办法都没有。你都不知道中间是发生了什么。这可能就是我们的未来。在未来的话，文科生、设计师都很重要，程序员也很重要。谁都不应该失去工作。好，这个故事今天就讲到这里。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI Operator揭秘：从AI Agent 3.0到完成交易的“眼睛、脑子、手脚”全景解析！2025年AI行业新趋势：OpenAI如何用Operator撼动Google与微软的未来格局？

老范讲故事 — Mon, 27 Jan 2025 11:10:50 +0000

大家好，欢迎收听老范讲故事。OpenAI的operator为AI agent指明了方向，这是一个新鲜热辣的事情。2025年1月24号凌晨2点做的直播，四个人在那尬聊了20多分钟。为什么尬聊呢？不停的翻车，这个AI agent翻车还是很正常的一个事情。

山姆奥特曼，好像是一个印度人加上两个中国人，也在那里，满脸尴尬而不失礼貌的微笑。因为他做的事情确实跨的这个步数有一点点大，导致有一些翻车吧。每年开始的时候，OpenAI都会出来指明一下方向。今年指明的方向就是AI Agent的方向。

咱们还记得2024年吗？2024年是2月15号，OpenAI指明了方向。当时，是做了Sora的演示，只是后来这个Sora没有特别成功。全世界非常多的公司围绕着视频大模型，烧了很多很多算力。今年，他就是为AI agent指明了方向。那么operator到底能干点啥呢？它里边有一个引擎，叫computer using agent（CUA），它们念叫“哭啊哭啊”，是这么来念这个词的。

这个引擎可以自动地实现鼠标跟键盘的操作，主要是操作浏览器。而且，它跟浏览器之间的这种沟通是靠视觉系统来沟通的。就是在浏览器里显示什么，它去看或者截图，然后通过OpenAI的这种视觉能力去识别这个浏览器里的内容。这样处理完了以后，再去通过鼠标键盘去操作。

大家注意，这个非常非常重要的是什么呢？它不是靠直接读数据的。正常情况下，这些AI agent去怎么跟浏览器打交道？他是直接把里边网页文件读出来，在对网页文件HTML文件进行各种各样的正则表达，或者说就是对它里头进行信息抽取，然后再去做后续的处理。而这一次OpenAI干的就不是，它是靠视觉直接截图下来。

然后他干了一个什么事呢？他是在云端放了一堆浏览器，跑在微软云的某一个机房里面。这些浏览器也是他们找的，最正宗的做浏览器的人做的。

因为近期他们也招聘了Chrome的团队人员，有一个叫Ben Oger吧，是Chrome创始团队成员之一，同时也是Firefox的首席工程师，现在已经加入了OpenAI。然后前Chrome资深工程师叫Darren Fischer也于近期加入了OpenAI。

把这些人招进来以后，说来，你们在微软云上让Chrome浏览器，或者至少是Chrome的内核给我跑起来，然后我要在这个内核里边去执行刚才我们讲的这个computer using agent，要跑这个东西。他通过一个自动判断用户意图的能力，你向他说：“哎，我要去哪订餐，要去什么地方玩，我要去看球赛。”你告诉他这个事情，他来判定你的意图。

判定了以后呢，自己进行行为规划，这个是很难的一个事情。因为像我们原来做AI证呢，好多都是我们要做好流程图，做好这个工作流。他按照这个确定的工作流往前走，就算在里边有一定的这个分支，也是我们要写好了说，判断一下他到底是要往东还是要往西，做一个判断。在这里的都没有，就完完全全是由ChatGPT自己去做的行为规划。

做完了以后呢，调用远程的浏览器，自动的完成所有任务，比如说去给人订餐桌、订球赛、定这些东西。他就干这个事。然后在前端呢，还可以重现渲染的这个远程浏览器上面的界面，因为他这边在输入信息，中间大的屏幕上就是可以看到一个浏览器在那里，页面打开了，页面在渲染，页面在往下翻动，然后自动订餐，自动做旅行的旅程调用。

而且呢，他们还给整个这些功能加了一个API，就是呢，你可以去通过API调用所有的API的能力。当然了，我们现在猜测的这些API应该是有进口跟出口两个方向。两套API什么意思呢？就是一方面，我们可以通过API去调用operator，另外一方面的话，也应该可以通过API为operator提供各种服务能力。这就是现在operator真正能干的事情，就是你给他写命令，写完命令以后。

你看到旁边，哎，开了一个虚拟的小的浏览器，然后呢，在这边再运转。他替你把所有的事情做完。这个事情困难在什么地方？为什么不停的翻车呢？现场翻车，现在这个网页大量都是动态渲染，千人千面，就是每一个人看到网页是不一样的。那么浏览的时候呢，就需要占用大量的资源，因为有前端的代码需要运行嘛。

Chrome在启动的时候，比如说吧，现在我做直播的，这一个页面就占了827兆的内存。我旁边的推特页面是占了300多兆的内存。我就要把旁边的这个页面关一关。很多人喜欢开Chrome，开一大堆页面，每一个页面可能都占着好几百兆内存，甚至有的是占着上G内存。你看看你电脑到底有多少内存，你就知道这事有多费劲了。

这个占用大量资源，所以现在呢，也只可以给美国地区的订阅了200美金一个月的Pro用户使用，其他用户现在都使不了。四个人做这个演示，山姆奥特曼坐在那了，这个演示人也是非常紧张，这是很正常的一个事情。像我要是在那做一个演示，大老板在旁边坐着，我肯定也会紧张的。

出了哪些错误呢？第一个就是他的订餐搞错地方。他一开始说我要订一个餐厅，但是呢，并没有找到他最近的餐厅，而是换了另外一个城市。什么样的原因会造成这种情况呢？订餐网站是通过什么样的方式来判断你在哪呢？是通过IP地址。你想，他通过远程启动了一个浏览器，那这个浏览器的IP地址是哪呢？是微软云服务器的IP地址。那么一算完了以后说，你可能在微软云服务器所存放的这个城市，我在就近给你找一个餐厅吧。他并不是说在他演示的这个机房的这个IP地址，所以这块就会出错。

后边的一些网购，抢勇士队比赛门票，预约清洁服务以及点外卖的，很多场景做的时候呢，都出现各种各样的问题，非常的不流畅。整个的演示过程，现在的OpenAI的operator呢，还非常的不成熟，只是指明了方向，还必须是跟人一起协作。那么这个协作的过程，第一个问题就是IP是谁的？你按道理说呢。

谁来调用这个Operator？你应该用谁的IP地址？否则的话，它里边所有的这个地址判定都是错的。还有很多的网站会去封锁这些机房的IP地址，最后看到说：“哎，微软机房来的IP地址，咔的封掉了。”你这事就没法用了。所以这块呢，估计他们还要再调整一下。

第二个呢，我们在浏览网页的时候，有一个东西叫cookie，还有一个东西叫session。那么这些东西的话，其实跟这个客户前端都是完全无关的。按道理说，你应该是把客户前端的cookie扔到后台去，他才可以说得到很多的信息，直接去处理。现在的话，等于他这个cookie是空的。cookie是空的话，相当于是做了一个什么东西呢？相当于是做了一个叫做无痕浏览。很多人去上一些奇奇怪怪的网站的时候，会去做这种无痕浏览，他们现在呢，应该也是如此去处理的。

而且这块呢，还稍微的有一点点尴尬，因为你真的敢把cookie传给他吗？在隐私保护这件事情上来说，我们宁肯把这些cookie传给各国政府，也不太敢把这玩意传给AI，总是觉得这个背后有点发凉的感觉。所以呢，在这块上用户体验不会特别好。因为现在虽然智能体是有记忆的，比如说ChatGPT，你去跟他聊天的时候，他是有记忆的。他记住你是谁了，常常说：“我怎么怎么怎么样的时候”，你就会在ChatGPT里头收到一条回复，说：“我已经更新了这个记忆库，我记住你是干这件事的了。”说我住在哪儿，他都会记下来。

那么在这样的情况下，就要干嘛呢？叫自动填表。我们使用大量的浏览器功能的时候，它有一个非常重要的功能，就是自动填表。当我现在要去填一个什么表格的时候，它就会在这个浏览器的一些后台记录里头，把我的什么姓名、什么信用卡号、手机号、邮箱，跨跨跨都给我填进去。要不然的话，你要都要手填一遍。像我们以前做抢火车票的时候，也是在做自动填表，就是每一次刷新，自动的把你要去哪、要选哪个车次就给你填下去，这个其实就是cookie。

如果没有了本地的这些信息，以后怎么自动填表，这功能就会差很多。这些敏感信息，还有一些什么呢？就是人机校验、双重认证，这些东西就没办法。OpenAI是搞不定这件事了。就算他能搞定了，他也绝不可能承认说我能搞定这件事。如果他承认了说我能搞定这个事的话，那就稍微有一点点吓人了。那么他这样的话必须是什么呢？就是要找人来去帮助，说我现在需要输入你的信用卡卡号了，现在我不能替你填表了，你要自己来输。

因为他当时演示的时候，突然蹦出一张信用卡来，信用卡后边要三位数嘛，然后说我回去把这信用卡注销了，因为整个直播掉了嘛。人机校验是什么？因为现在有很多的网站呢，是要确认现在浏览我的人是一个真人还是个机器，一旦发现是机器，就直接拒绝服务了。在这样的时候，OpenAI也会叫人过来说来人机校验了，该你了。

包括双重认证，比如给你发短信了呀，给你去发邮件了呀，这个都是需要人去填的。然后支付确认交易，发邮件，重大决策也是必须停下来等人去确认，他是不能够自动地完成这些交易的，至少目前为止还不行。而且呢，他因为是正式的打开网页嘛，他的整个交流的速度是相对来说比较慢的，因为网页有加载的速度嘛。

还有一些网页呢，或者有一些网站未必能够加载成功。所以呢，对于这样的一个AI agent来说，他的运转的成功率还并没有那么高。但是为了应对这个速度慢的问题呢，他们使用多线程定型的工作，就是你可以给他下一大堆任务，然后他在后边慢慢给你干去，哪样干好了以后，你需要干预一下，那个地方需要人机验证，哪个地方需要确认一下是不是购买。他是这样来去工作的一套方式。

对于这样的Operator来说，下一个很严重的问题是什么呢？就是安全性问题。第一个安全性问题呢，就是他现在真实的影响世界了。原来呢，只是生成内容，甭管你是生成的搜索内容，生成的RAG内容，还是生成图片了，反正是生成内容。而且所有生成内容下面还写一句。

成为Opreta操作的网站，他们就要开始去编写这种诱导性的网页内容了。为什么呢？因为OpenAI的Opretor是靠视觉工作的，我们就可以玩一些大小字的游戏，有可能能骗过他。

什么叫大小字游戏？我上面大大的写着“减价”，后边写一个特别特别小的字，说后边还要再付费。这个事我们是经常遇到的。原来如果是其他的AI agent，它是通过直接把网页信息都读出来，直接把内容都读出来，那么它是不会上这种当的。甚至呢，还可以去骗他。骗他什么呢？就是我们可以写一些看不见的文字，比如说白纸黑字。我可以设置说，现在给我写一个白字在上头。这样的话，正常人类去阅读的时候看不见这个字，但是呢，这些文字就可以被OpenAI看到。原来他们去骗OpenAI是通过这种方式来骗的。

现在好了，你通过视觉方式进来，那我就可以通过大小字的方式再骗你一次。对付钓鱼网站这件事的话，OpenAI自己是没有什么经验的。安全公司微软、谷歌、苹果这些公司的经验要稍微的丰富一点点。而像我们以前做安全公司的时候，我们会做一个巨大的钓鱼网站的网址库，然后呢，找保险公司干嘛呢？说我投一份保险，谁通过我的浏览器在钓鱼网上亏钱了，我就给他赔钱。这个是原来我们在做浏览器的时候都会干这种事情。OpenAI其实没有特别经历过这些钓鱼网站或者什么这样的事情。

下一个安全性问题是什么呢？就是现在是一个半自动状态，所有重要的节点或者走不通的节点会呼叫人类来协助。但是呢，在FSD不支持完全自动驾驶的时候，有多少开着特斯拉睡觉的人，肯定也是不少的。所以未来由黑客一起来骗这个uprighter跟前台操作人员，这个事情应该会比较有趣。大家会一起来去做，因为Operator自己还不负这个责任。哎，该付钱了，我是把你叫来，你自己付的。对于人来说呢，我前面都没看你这边哐当哐当的，网页都翻到头了，就等着我点一下确认了，我就点了，中间该有是其他信息。

应该你替我看的呀。所以在这块呢，其实安全性是互相推诿责任的一个结果，并没有那么安全。OpenAI呢推出operator，现在还算是一个初级阶段，大家看看方向就这样。所以刚才我也讲了，它有很多的不完善的地方，安全性上也差得比较远。

OpenAI推出orpreter呢，可能还有一点点小阴谋在里头。什么小阴谋呢？目前只能在美国区，200美金的Pro用户可以使用。但是前一段时间还记得吗，山姆奥特曼出来抱怨了，说我们这pro用户亏钱了。为什么200美金一个月的账号，这么贵的账号不共享出去，这不就没有天理了吗？一定是出去共享。一旦把这种账号出去共享了的话，它的使用量就会变得非常非常高。

而且所有要去跟O1模型去打交道的人，他是不会像咱们平时问他个问题，就跟他聊天，不是这么干的。跟O1打交道的时候，你是要像开这个项目进度会一样，把所有需要的东西都一把扔给他，他在后边吭哧吭哧吭哧地就给你算去。咱们在GPT4O都是我说一句他回两句，然后我再说两句他再回三句，都是这样来工作的。但是在O1上，如果你这样工作的话，你就得不到你想要的结果。

O1都是说我写好一整份报告扔给O1，然后O1去干活。再过个比如说5分钟、10分钟，他把这活干好了还给我。我去整个把系统看完了以后，再去写下一份报告，让他再接着干活。OpenAI的这个Pro账号亏了很多钱。如果像网飞这样的公司怎么办呢？他就大力打击呗。你们只要敢出租账号、出借账号共享了，我就直接把你账号封了。

OpenAI呢这次就干得比较绝。他怎么呢？我也不封你账号，我让你用这个Operator功能。用了Operator功能以后呢，你就会绑定一堆的私人信息进去，你的信用卡号、你的手机号、你家庭地址。那你输了这玩意以后，你还敢不敢把你的账号借给别人用呢？大家就不敢了。所以呢，他里头还是会有那么一点点的小阴谋在里面。国内的大厂，包括其他谷歌这些厂。

应该已经看到这个方向了，现在就应该可以行动起来了。现在最好用的客户端浏览器，在我的电脑上已经不再是Chrome了。我现在最好用的客户端浏览器是豆包。我每天都是在豆包上浏览，豆瓣上装好所有的那个Chrome插件，除了各种的沟通聊天之外，就可以直接当浏览器去用了。

阿里也在努力做他的跨客浏览器，再加上什么360浏览器、百度浏览器，百度有浏览器吗？我想不起来了，反正腾讯好像是有浏览器的。大家就照这个方向做呗，我们没有必要用远程的这个云端浏览器了。我就直接用这个本地浏览器去虚拟一个窗口出来，把这事干了不就完事了吗？

而且你使用本地浏览器去虚拟窗口，去做Operator的事情的话，你的IP地址跟这个地理位置还都是对的，还不像是放到云端去，以后他给你把IP地址搞错，这个可能还算好一些。而且还有一点是什么呢？就是你在本地做虚拟浏览器的话，并发就会变得大很多，因为不需要吃到云端的资源了。像我们做直播，就是光这一个页面一个G的内存就没了。如果都在本地的话，大家就吃的是客户端的这个内存，他就没有那么高的成本。

那么未来的方向已经确定了，后边呢其实就是中国人擅长的部分了，中国人擅长的是什么？挣钱呗，终于可以拿来挣钱了。你可以去谈商务合作，比如说我们去跟美团谈个合作呀。豆包后边是谁？直接跳动的，直接跳动说我不跟美团谈合作，我自己要去做即时零售，我自己要去做团购，我自己要去做订餐了。而且送餐的这个事情，我们已经跟饿了么合作了。我就只管在这边抖音上面把这个广告刷出去，今日头条把广告刷出去，再在豆包里聊聊天。

等你要吃饭的时候，我就自动把所有东西都给你做完了。这块我们自己干了，而且后面有一些他不做的事情，还可以去找商家进来，哎，你们谁愿意跟我合作？我可以把这个AI的流量导给你们，在你们的这个平台上直接把单子下掉。他就可以去做这个事情。而且呢，大数据杀熟，这个时候就可以来去启动了，后面流量的分发跟售卖。

又回到了传统的路径上去。大家都在我这卖饮料，那我到底卖张三的还是卖李四的？谁给我钱，我就卖谁的呗。这就这么简单的一个事情，大家就可以去干了。

今年呢，OpenAI给大家指明了方向，就是选AI agent。给出的方向具体是什么？就是眼睛、脑子跟手脚。自动识别用户意图，这就是眼睛；自动进行行为规划，这个是脑子。像我们原来做了一堆Codes、Defi这样的工作流的这种规划工具，就需要重新去思考，未来这些工具应该向什么方向走。是不是不需要做这么复杂的工作流规划？应该可以自动的规划一定的工作流。

比如说有一个模块，里面就可以进行自动的流程规划了，就可以把该做的事情做掉了。这个是工作流工具，未来的一个需要思考的问题。通过远程浏览器操作，在人的配合下完成复杂任务，这就是手脚。这就是他对AI agent定义的三个环节：眼睛、脑子跟手脚。而且他现在讲这叫AI agent 3.0。

第一步，AI agent是做这个问题的回答；第二步是我们做各种的工作流规划，以及周边辅助功能的这种配套。像我们做用Codes、用Defi也是可以做各种各样的周边动作的，比如说可以发邮件，可以去浏览网页，也可以去下单买东西。但是呢，那个工作流是我们写死的。

现在呢，他这个3.0做了一个完整的东西，你可以直接提要求，我自己思考该怎么办，然后去把最终的交易执行掉。在这个里边呢，他其实提了一个非常重要的点是什么？就是什么叫把这个任务做完了，叫完成交易。像原来我们做很多的工作流，其实最终的结果还是说要去产生内容。而现在说不，我们要完成交易。

对于所有这些做AI的人、做AI agent的人来说，又算是天亮了。为什么呢？因为原来他们都不挣钱。现在说好了，我们AI agent最终的结果是要完成交易。你一旦完成交易，那甭管是抽成、收手续费、流量售卖，还是说交易了以后进行贷款服务，都是挣钱的。这个传统套路就都可以跑起来了。

所以，一旦把AI agent最终的手脚定义为完成交易，那么大家做AI agent这件事情的积极性一下就上去了。OpenAI今年的方向呢，第一个是把O3好好做出来，甚至再往后去推他的推理模型，然后将更多的模型功能进行整合。现在，不管是OpenAI也好，Gemini也好，Claude也好，觉得很多的功能是分散的。有的模型是有视觉的，有的模型可以有语音，有的模型可以搜索，有的模型可以做canvas，还有一些可以，比如像刚才我们讲的Operator，它最近还发了一个模型是做日历的。但是这些东西，最后是很难结合在一起。怎么能够把所有东西通过agent的方式结合在一起，让它们所有这些功能能够顺利地跑起来，这就是今年OpenAI要去做的事情。

越来越多的AI agent的模式会到来，不是说Operator就是唯一的一个AI认证的方式了。前面那个日历方式也很有意思，你可以告诉他说每天几点，让我去做什么事情，或者告诉他说：“我想要健身，每天几点要提醒我去健身。”或者提醒我该吃药了，这些都是可以在日历功能里去做的。设置完了以后，每天到了你设置好的时间，它就会去执行一个agent。比如，我现在要求它每天早晨10点，把一天的AI相关的新闻总结出来，它就会给我发一个邮件。但是邮件里头没有内容，只有个按钮，这做得很烂。你点完了以后，还会进入到ChatGPT的界面里去，然后给你总结一下今天有哪些AI相关的新闻出来。

这个浏览器操作，今天我们讲的Operator，这是第二种AI agent。那么，下一个AI agent是做什么呢？我们有日历了，有浏览器操作了，下一个做什么？我觉得大家想一想，微软Office里面都有什么？Office里头有Word，那没问题，现在canvas基本上已经可以把Word很多功能做到了。Excel、PowerPoint这些东西呢？

未来可能在AI agent里面都会逐渐出来。再加上这个里面还有邮件的功能，是不是未来OpenAI会有自己的邮件系统？或者它可能不叫邮件了，叫一些其他的名字。还有，比如通讯录，或者说teams这样的功能，是不是这些东西就慢慢地向OpenAI的这个平台里边去整合起来？而这可能就是未来的AI agent一步一步的增加下去的过程。

这OpenAI自己是极其贪婪的。我记得我讲马斯克到底能不能做出超级APP来时候，我讲过这个问题。做超级APP的源头就是贪婪，OpenAI就属于特别贪婪。他要做全场景，要把所有的场景在OpenAI里通通都实现一遍。流量现在正在快速地从谷歌向ChatGPT进行迁移。我现在自己已经很久不开谷歌了，遇到各种问题，ChatGPT、Deepseak、豆包都会跑一圈，实在搞不明白了我才会去开谷歌。而且就算开谷歌，最后得到的效果也未必比ChatGPT它们强。

所以现在第一个要革谷歌的命，谷歌的Workspace这些东西肯定就一项一项地都进入到OpenAI ChatGPT的AI Agent里边去。也没准过两天OpenAI就会出网盘功能呢，甭管是微软的onedrive，还是Google Drive，或者是icloud，都将会有网盘功能。所以OpenAI下一个agent没准是个网盘，大家就等着一个一个看。

你现在看谷歌有什么产品，office里有什么产品，OpenAI就会一个一个往回搬。但这个过程中呢，谷歌就比较危险了。为什么？因为他始终无法舍弃搜索广告收入。谷歌的最核心收入就是搜索广告，还不是说各种广告，比如说我的这个网页广告、YouTube广告、移动广告，这些挣钱，但是挣的钱都没有搜索广告多。那么这就导致了一个很严重的问题，是什么呢？就是谷歌的大模型有很多新的功能，他不愿意给人用，因为大家一旦用了这个以后，他的搜索广告收入必然会下降，因为流量不从那走了吗？

谷歌的Gemini到目前为止也还在惦记找人收一个月20美金的这个费用，因为你广告收入没了。有了以后，你还是要有一个收入进来的，这个是谷歌比较无奈的地方。

所以现在大量的谷歌Gemini的新功能呢，它压根不给普通用户用。它给谁用呢？给程序员用。你在AI studio.Google.com这个网站里头，会发现，哎呦，谷歌的大模型已经往前发展得非常非常远了。但是你到Gemini.Google.com这个网站里去，发现还是那么笨，特别是你没有交20美金，那就完全没法使用的一个产品。这块其实是非常麻烦的。

那你说谷歌自己不知道这问题吗？他知道，但是呢，作为这么大的上市公司，百分之七八十的收入，你不可能说不要就不要了。这件事情呢，很像是日本人为什么做不好电动车一样，包袱太重。他坐汽油车这么挣钱，那你说我坐电动车，汽油车这事不弄了吧？所以他永远不舍得，包括他坐了半天氢能源，也没有把车推出来，原因也很简单，我汽油车卖得好好的，我为什么要去推这个东西？

所以这都属于是逐渐要被干掉的一个迹象，谷歌这块很难逃脱了。现在OpenAI的话，肯定是要逐步地用AI的方式，蚕食互联网里边所有的领域和方面，要去做超级APP，要去做顶级大厂，这是OpenAI的野心。

社交娱乐这一块的话，应该还有更多的时间可以喘息一下。他的DALLE3已经落后了，Sora也翻车了，也落后了。社交跟隐私跟AI之间呢，有一些难以调和的东西，这个事要稍微麻烦一点。而且现在OpenAI这帮人呢，更多的想的是，我怎么能够把公司做得有效一些、有用，比如说怎么去做科学研究，攻克人类所有疾病。

所以对于社交跟娱乐这一块呢，他们并没有投入那么大的精力。所以如果有一个小公司说，我今年还想创业，我想在AI上做点什么事，干点大厂不干的事情，OpenAI现在绝对已经是大厂，不用等那后边5000亿美金的星际之门，他就已经是大厂了。

你说我非要在他那块再折腾点什么事。我想做一个AI Agent，去跟他比一下Openriter到底行不行。除非你在中国可以。为什么？因为他进不来，他去不了的地方，你可以去做。如果他去得了的地方，就别跟他费劲了，去做一点他不干的事情。这就是今年OpenAI为整个行业指明的方向。OpenAI在今年可能已经在向着超级应用、超级APP的方向遗迹绝尘而去了。在这个过程中的话，谷歌就相当相当的危险，微软肯定也会被它蚕食掉一部分。中国的公司可能就又有腾飞机会了。如果有在美国的，你们交了200美金的用户，可以去试一试。如果没有的话，咱们等过一段时间，他把这个200美金用户共享的问题解决了以后，应该会把这个产品开放出来，给plus用户和teams用户。但是你说我在这个墙之内的话，用这玩意到底有什么意义，我也没太想明白。好，这是我们第一个故事。