硕鼠的博客站

范路的博客主站,时而会发些东西。

ChatGPT的桌面应用更新了,直接可以跟应用结合了。这又是什么新方向吗?大家好,欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲11月15号ChatGPT桌面版的一个更新。大家注意,这次更新的不是网站,而是桌面端,就是你要有Windows或者是MacOS才可以使用的这个版本。

在这个里面,MacOS永远是走在Windows前面的,因为MacOS的操作系统其实相对来说要简单一些。为什么呢?因为MacOS的硬件简单,它没有那么多兼容性问题,所以它整个的操作系统,或者说整个的操作系统环境也相对来说要更单一一点点。Windows呢,现在也在跟上,但是Windows的所有功能对于ChatGPT的桌面版来说,都要稍微滞后一些。

现在的Windows上呢,已经有APP了,而且可以上传文件,可以拍照,可以截屏,可以做高级语音,这些都可以干了。MacOS是这些功能早都有了。这一次增加的是什么?这一次增加的叫跟应用相结合。那么跟什么样的应用相结合呢?不是所有应用都可以的哦,主要是跟编程工具一起干活。

Xcode就是苹果自己家的这种编程工具,然后是文字编辑器。很多人写程序是不会看IDE的,IDE叫集成开发环境,他们会直接开一个文字编辑器就干活了。然后是VSCode,这个是最常用的一个IDE,这是微软做的。还有Terminal,Terminal是叫终端,Linux也好,MacOS也好,有大量的操作是在终端里边干的,所以呢,你也可以跟终端直接结合。还有一个比较高级一点的终端程序叫ITerm2,也是支持了。

现在呢,就是支持这5个应用,其他都不支持。那这是不是要去抄Github Copilot的后路去了?那是不是有没有必要去花一个月10美金去订这个Github Copilot呢?我赶快去测试了一下,首先测试第一步,检查梯子,因为呢,我们的网站上去其实还是比较容易的。

但是呢,你使用他的桌面客户端,有的时候还需要对梯子做一些特殊的设置。如果你自己没有这个问题,这块可以越过。再往后呢,就是更新你的桌面客户端,就是ChatGPT在MacOS上的这个应用。当然,这个很神奇,他这个更新居然是手动的,这要稍微吐槽一下。为什么呢?因为我们以前做APP的时候,有一个重要的指标,就是当你每一次新版本出来以后,用户是不是都更新了。因为你的新版本更新经常是要换这个广告商。如果用户不跟着更新的话,一旦更新了以后,你就没法挣钱了。你的广告商换了以后,用户没跟着更新,这事是不行的。可能前面那个广告商的广告服务协议已经到期了,你必须要更新,这个事是一个很重要的指标。

但是呢,ChatGPT是要手动更新的,它不会说一启动了以后,哎呀,我发现有新版本了,咱们更新一下吧。反正这个他没提醒我,我是手动更新了一下。更新了以后呢,需要去点设置,设置是在这个应用的左下角,有一个人脑袋的地方。点一下,然后要允许使用应用,他那个名字是这样的一个名字,叫“允许使用应用”。我显示的都是中文,因为我已经把我的ChatGPT的桌面版换成中文的了。

然后呢,就是去授权。对于一个要去操控你电脑的程序来说,所有操作系统都是会有严格管理的,因为你不管的话,这就要出病毒了,有可能会给你造成损失。授权是什么呢?就是在设置里边有个叫辅助功能,在这一项里头,允许下面的应用程序控制你的电脑。这边有这么一项,在里头找到ChatGPT,把它打开就可以使用了。

后边呢,就是管理应用,就是我到底要用哪些。Xcode因为我自己不使,所以呢我就没有测试。Terminal只要是你把上面授权开了,你的Terminal窗口打开了以后,就可以在ChatGPT的应用程序下边,这个对话框底下多出一个图标来。这个图标呢是一个小方块,中间有一个指针。哈哈,这个我就不跟大家截图了,就是你点完了这个图标以后,就可以选中你的Terminal的这个窗口。

他就会根据你Terminal窗口里面的信息进行问答了。他会把Terminal窗口里的最后200行读出来,根据这200行的信息去给你做各种回复。这就是连接这个terminal窗口的一个操作方式。而且呢,这个terminal大家知道,我们经常通过SSH连接到远程的云服务器上去,或者连到我们的NAS上去。那么这个的话,它依然是可以工作的。我在云服务器上做各种操作,报错了或者什么的,你就可以直接问ChatGPT说:“哎,报了一个什么错,该怎么改呀?”他会给你去解决问题。

文本编辑器也是可以的。我试了一下,打开文本编辑器,里面有内容,它就会根据内容进行回复。VScode这个是我的主力IDE。在使用VSCode的时候,先需要装一个插件。在VSCode里头下载一个VSIX的文件,这个是从OpenAI的网上下载。下完了以后呢,到VSCode里头去安装这个插件。装上以后就可以使用了。但是要注意,这个插件在VScode的插件商店里没有。这也是一种“萝卜急了不洗泥”的方式。就是说,按道理说应该把这个插件上架到Vscode的插件商店里去,但是呢,它就没有上架。有可能是因为太着急了,没上去;也有可能呢,是因为他们惦记抢这个GitHub Copilot的饭碗,去上微软那里去上架的时候,因为VSCode是微软家的嘛,去上架的时候被微软横挑鼻子竖挑眼,说:“你这不行,这个不太安全,回去接着改去。”要给他拖一拖,所以干脆他们就自己升级了功能,自己做了个插件,从外面让你去装上去。

这个系统呢,是可以在本地工作的。什么意思呢?就是VScode在编辑代码的时候,你可以编辑本地的代码,也可以通过SSH编辑远程云服务器上的代码。但是如果要去编辑远程代码的话,你需要重新装所有的插件,这个搞不定,所以它只能在本地工作。这个系统呢,是只能够查看当前窗口的代码,因为VScode里头是可以开好多窗口的,它只能查看当前的。

如果你在当前窗口里头选中了一些高亮代码,他会优先专注于高亮代码进行解析,也就是这样的一些功能。所有生成的代码,比如说我这哪错了,那些代码是有什么问题,他会生成很多的代码来帮你去解释,帮你解决问题。但是呢,这些代码必须要拷贝粘贴,他不会直接把这些代码应用到你的程序里边去,也不会直接把这些指令送到Terminal,就是命令行终端里边去执行。你要自己手动地从这个聊天窗口里头把他给你建议的代码也好,命令也好,粘贴到相应的地方去,打回车。这呢,也是让大家觉得很不爽的一个地方。

那么这东西到底能不能替换GitHub Copilot呢?我试了几下以后就换回去了,我接着使用GitHub Copilot。为什么呢?第一个,ChatGPT不能直接修改代码,每一次都需要你去拷贝粘贴,自己去改,很有可能改错呀。你再问他说这对不对,操作起来非常麻烦,这是第一个原因。第二个,不能处理远程代码,这是我不能接受的。我是经常需要处理云服务器上的代码,他只能在本地工作,这个不行。第三个,他不能使用不同的模型,现在甭管你是用Cursor也好,还是用GitHub Copilot也好,你都可以选不同的模型。但是OpenAI的ChatGPT只能选OpenAI自己家的模型。你说我想去选Anthropic下边的Claude行不行?我想去选谷歌的Gemini行不行?不行,没有这个能力,所以这个也是让人不太爽的地方。

还有一个很烦的是什么,他只能处理当前的文件,没法去处理workspace上的东西。我们做一个程序,这个程序都是一个很复杂的目录结构,这个目录结构我们要管它叫workspace,就是这个工作空间,这里头会有很多很多的文件。如果说不能够根据整个的workspace一起去给我建议,只有根据我当前打开这个文件去建议,那这个完全没有意义,改程序会越改越乱的。

我们推崇的是每一个程序尽可能短,每一个程序之间相互配合,而不是说我们写一个特别长的程序。因为特别长的程序不好维护。你使用ChatGPT的APP,直接调用当前窗口的代码进行提示,那这个效果应该是很差的。我的Cursor呢,是过期了,所以我就没有再回去测试。现在我主要的编程工具是GitHub Copilot。从用户体验上来讲,Cursor应该是最好的,其次是GitHub Copilot,再差的就是今天我们讲的这个ChatGPT。

你说ChatGPT为什么会选择这样的一条路出来,明明做得又不好,还要去跟GitHub Copilot、Cursor去硬刚呢?其实很多做大模型的公司,他们预期的方式就是这种。什么叫全能助理?就是你不需要在编程的时候打开GitHub Copilot,在Office里头去打开Office Copilot,在浏览器里面去打开Web Copilot,在操作系统里头去打开操作系统的Copilot。他们希望你有一个统一的全能助理,打开什么样的工作我都给你搞定。这是这些做大模型的公司,无论是Anthropic还是OpenAI,他们想干的活。

所以你看他的应用,可以截图、截屏、照相、上传文件,还可以听到你的声音,现在还可以直接从IDE页面里把代码拎出来。他们希望说我都干了,你不用再去烦别人了。但是这里面有一些困境,就是不能直接操作电脑。原来Anthropic不是演示过直接操作电脑吗?我上一次出去参加活动,还有人问我说这太可怕了,他就直接操作电脑了。我说这个没有那么可怕。第一个,Anthropic演示的直接操作电脑的那个程序是一个实验室版本,他们也不敢把这种东西直接给用户去用。因为一旦给用户用了,咱不说他有恶意或者什么的,他弄坏了以后你咋给人修啊?这个是没法整的。

所有的公司里边的IT人员,最害怕的就是:“哎呀,我的电脑不行了,我有一个程序找不到了,哪个东西起不来了。”你要到现场去部署,现场去看当时的环境是什么样,可麻烦了这个过程。这是不允许Claude直接操作电脑的。现在用户能够用到的还是Claude从电脑上读东西,操作的过程还要你自己拷贝粘贴,都是如此的。ChatGPT也是这么干,所以它不能操作电脑。

那么用户体验,到底什么是用户体验?或者这种大模型应用的用户体验到底是什么样的?这里头其实有两个关键点。第一个关键点叫做找到合适的内容,第二个关键点是在可预期的范围内进行操作。

咱们先说第一个,找到适当的内容。那么什么叫找到适当的内容?就是我们要解决一个问题,你需要解决问题所需的所有内容。就像刚才我们说,我们要改程序,你要改程序的话,你需要在Workspace里,这个工作空间里边的所有程序、所有代码,然后你才能够去改这个程序。甚至你还需要什么?就是很多的环境信息。你说:“我这个电脑是Oracle云上面的一个乌斑图的主机,还是一个Oracle OS的主机,还是一个什么样的主机?我这个主机是什么样的CPU?什么样的内存?”你说:“我是arm的CPU,还是Intel的CPU?”你都要告诉这个大模型,否则的话,它给你的很多建议就会是错的,所以你需要全部的信息。

第二个呢,还有一个问题是什么?你不能被其他没用的信息干扰。什么叫被没用的信息干扰?这跟大家讲一个小故事:以前的杀毒程序在这个硬盘里杀病毒的时候,最怕的是什么,知道吗?最怕的是别的杀毒程序。为什么?因为杀毒程序干活的方式是拿病毒库去比较。我读了这段代码了,谁到我病毒库里比较一下是不是病毒。但是他一旦遇到了别的杀毒程序,在硬盘里安装着这个杀毒程序,里头也有一个病毒库,那你拿出来一比较,哎呦,跟我这里一样,接着往下比还一样。到最后几个字节可能不一样了,这个不是一个完整的病毒,不用管它。

再到下一个,哎,又一样。因为人家那病毒库里头所有病毒都有一遍,他就到人那去检索,说这个好好厉害。你看你这个病毒库里边所有的毒都有,这就是被无用信息所干扰了。我们硬盘里也是这样,各种各样的信息是非常多的。当你这个大模型需要去给我回答问题的时候,你不能把我硬盘里所有的内容都找出来,然后来给我回答。有些是我希望你看到的,有些是我不希望的,或者有些是我不希望你这一次拿去参考的,这个一定要搞清楚。

而且还有一点,什么叫不能让用户害怕,这个是很关键的。如果一个用户告诉他说,现在大模型来了,我要把你硬盘里头所有的内容都搜索一遍,我来给你解决问题,用户说那算了,咱别费劲了。我这个里头还有一些什么学习强国呀,或者这种目录里头放的文件,是我不希望你拿来解读它,可能是一些宝藏、小电影什么的。他还是要让用户知道,你这个大模型是在他允许许可的范围内在工作,不能吓着他。

这个是找到适当的内容。下一个呢,在可预期的范围内操作。什么意思?第一个先要保证做对,这个其实很难。为什么呢?现在给出来的答案,甭管是GitHub Copilot还是ChatGPT,还是Claude,或者它的Cursor这样的产品,它给出来的答案基本上很难一次正确。原因也很简单,就是他们得到的信息不够完整,环境信息不完整,其他的代码没有研究。

就算你告诉他说,你根据我所有代码去做处理,其实他也没有办法真的这么干,因为大模型是有上下文窗口的。你不可能说我把一个程序的所有代码都塞进去,这个是非常非常费劲的。就算他的上下文窗口足够大,你还有大量的网络传输的开销,这个也是很麻烦的。

所以现在的这些大模型处理这种workspace的方式是什么呢?就是做嵌入。他把你所有的代码拿去做这个embedding的处理,做完了以后再根据你的命令,在embedding之后的代码里头找到相关的内容,然后再去回答他们。现在只能这么干,所以他们给出的答案。

其实,通常都是错误的。你拿到了以后,还要人工判断,然后再去调整,才有可能把它做对。这个第一个要做对,这事很难。第二个,什么?你还是不能让用户害怕。一上来说,我们执行一个命令叫“RM -RF *”,那这个什么意思?就是把硬盘上所有东西都删光。执行命令这件事,有很多是比较吓人的。所以,为什么现在 ChatGPT 和 Claude 都不敢直接去执行命令,就是这样。他怕吓着用户。而且,如果真让他执行了,万一出错了以后,他又没有补救措施,这个也是一个很大的开销。

为什么呢?就是你要看正规的工程师,或者叫网络工程师,他们的操作手册都是什么?你做任何的升级,做任何操作之前要备份。备份完了以后才能做操作,万一做错了以后还能恢复。但是这个操作的开销就非常大了。所以,现在他们这两个应用都不敢直接下手。

那么,这算不算是一种纯视觉方案?咱们想的稍微远一点,什么叫纯视觉方案?就是特斯拉在推自动驾驶的时候,就推这种纯视觉方案。别人还在研究什么毫米波雷达、激光雷达的时候,马斯克说不,我就要纯视觉方案,我不跟你费劲了。那么,什么时候上纯视觉方案呢?就是要去对抗各种雷达,对抗车路协同系统。雷达还算是一个相对来说比较简单的玩法,车上加毫米波,加这个激光雷达,这还算简单一些。车路协同是什么?就是在路上加各种传感器,加各种各样的处理终端,加各种标记,让你的车在这样的智能公路上可以畅通无阻。

但是,这条路看来现在应该不是主流方向。就算是国内的国产新势力们,也没有向车路协同的方式走。大家还都是惦记说,我怎么在车上把这事搞定就完事了。那么,这个事情跟咱们今天讲的 ChatGPT MacOS 上的这个客户端到底有什么关系呢?我们来类比一下,现在的 ChatGPT 和 Claude 这种桌面客户端,干的活是什么?就是给桌面应用增加眼睛、耳朵、嘴和手脚。什么意思呢?原来这个东西叫聊天工具,但现在我们希望这个聊天工具自己可以看到你电脑上的屏幕。

它可以截屏,可以看到你的代码,可以听到你说话,也可以对你说话,甚至可以做一定的操作。那么在这个过程中,如果是走纯视觉方案,实际上就是ChatGPT和Claude现在用的这个方案。什么意思呢?就是看到用户能够看到的部分,用户看不到的部分就算了。然后呢,通过摄像头截屏以及与IDE结合,不需要做其他的改造了,我们只需要做最简单的一个改造,就可以使用了。甚至只是说我给你一个授权,你就可以使用了,也不需要跟操作系统的厂商进行深度的整合。你要做这种很复杂的底层操作,你一定要操作系统厂商给你授权才可以,否则他是不能去做的。

最终是要像人一样工作。什么意思呢?大家想,马斯克为什么推纯视觉?两个原因。第一个,你跟各个国家的公路系统去打交道,说你给我在公路上加一标签吧,或者加一牌子吧,或者加一个什么传感器吧,这个事就没法整。你万一走到没有传感器、没有经过改造的公路上,你智能驾驶系统是不是就没有了?这是一个原因。说我们不愿意跟你打交道,我在车上自己都解决完就完了。

第二个原因是什么呢?他希望这个车像人一样工作,因为你的大模型还是在不断地迭代、不断地升级的。那么到底向哪个方向升级呢?比如说我升级了带有车路协同系统的、带有激光雷达和豪美涡雷达的这样的大模型,那这个到底对不对?其实很难去衡量。但是说,哎,我就向人的方向去转变。人是怎么开车的?我怎么开车?人反正也没有毫米波雷达,也没有激光雷达,也没有什么车路协同。我们走到哪,这路甭管认不认识,我都可以开走。那么我们就以此为基准进行训练就完了。这是纯视觉系统的一个核心底层逻辑,就是我们以人为标准,向这个方向不断前进。

那么这是纯视觉方案。如果是车路协同方案是什么样的呢?就是Github Copilot走的这个方案,还有各种操作系统,像什么AIPC、AI手机,新带Copilot的Windows 11。

带有这个 Apple Intelligence 的 MacOS 和 iPhone 16,以及咱们国内号称带大模型的各种安卓手机,这就是标准的车路协同系统。在这个过程中,那你就需要对基础设施进行改造。反正这个微软没事,他说:“我是做操作系统的,我就在操作系统上改呗。”苹果说:“那我也在操作系统上改。”安卓这帮手机,甭管是小米还是华为,说:“我们也上操作系统 IC,直接底层修改,这样用户体验才最好。”它就变成这样的方式了。

在这块,操作系统厂商跟 IDEE 的这些厂商有一些天然的优势。你那些做大模型的厂商,你就过不来了,因为你搞不懂这个操作系统到底是怎么运作的。就算你能搞懂了,我不给你授权,你越过我的授权也是病毒。他是这样来工作的。

那么,我们在电脑上是不是需要这种纯视觉方案?这个路是不是对的?你说马斯克在做 FSD 的时候,做纯视觉方案,大家都觉得这条路是对的。那么在电脑上,我们是不是也该这么干?除了环境方的配合度之外,模型发展方向才是最重要的考核。自动驾驶这件事,其实相对来说还比较简单,纯视觉方案是可以搞得定的。人就向这个方向走就行了,你只需要让自动驾驶的汽车达到驾驶员的高度就可以了。我不需要达到 F1 方程式赛车,也不需要达到修车老师傅的程度,你只要能够达到一个正常驾驶员的程度就 OK 了。

所以,自动驾驶可以走纯视觉方案,但在电脑上这事不行,为什么?因为我们需要专家模式,我们需要解决很多我们自己解决不了的问题。这个跟刚才我们讲的自动驾驶是不同的。自动驾驶是,你只要模型变成普通驾驶员就够了,而我们去操作电脑是需要电脑上辅助,我们的专家模型能够达到比我们更高水平。那你如果是这样的话,去做纯视觉就不合适了。

现在摆在 OpenAI 和 Anthropic 面前的困境是什么呢?他们需要克服什么?就是操作系统厂商不愿意配合他们。你说:“我希望有更多的功能给用户用起来,我明明可以做更多的事情,可以做得更好。”

但是,你没有操作系统厂商的配合,就做不了。用户量上去了,但是用户也没法使用全部的功能。大家还是在跟你聊天,那用户的付费意愿就低。他们这两家公司最后能够实现盈利的可能性,就基本上等于零。他现在是遇到这样的问题,原来还想着说:“哎呀,微软你就向OpenAI老老实实地交授权费就完了呗,我就让你去用去了。”结果,GitHub Copilot现在不仅能够用OpenAI的GPT-4,还是能够用Anthropic的Claude,人家还可以用谷歌的Gemini。

这个OpenAI说那不行,你们不在一棵树上吊死,我也不能在一棵树上吊死,咱们双向奔赴了。你们这个不忠诚,我们也不忠诚,搞成这样的一个事情。那么,大模型厂商还在解决用户需求的路上继续前进。甭管最后他的商业问题是不是能够解决,是不是能够挣到钱,这个事我们不管他。但是,如果你没有办法把用户的需求解决掉,这条路注定是条死路。

现在呢,就是两条路。刚才咱们讲过了,一个是车路协调的路,一个是纯视觉的路。纯视觉路实际上就是我关起门来自己把事搞定了,你们不用管我,我也不用配合我,我自己能搞定。车路协同的方式就是我从底层把基础设施改掉。现在车路协同的方式就是AIPC、AIPHONE,这条路是车路协同的方式。

纯视觉方式,现在甭管是OpenAI的ChatGPT,还是Anthropic的Claude,都在尝试走这条独立的路线。我不需要你跟我配合,我自己搞定。我就看到用户能看到的东西,然后我在用户可眼见的范围内去解决问题。用户看不着东西,我也看不着。至于哪条路能够走通,咱们拭目以待。

好,这个故事跟大家讲到这里,感谢大家收听。请帮忙点赞,点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

 

Both comments and pings are currently closed.

Comments are closed.

Close Bitnami banner
Bitnami