ChatGPT桌面应用11月更新:融入编程工具,新功能是否能替代Github Copilot?
11 月 20
AIGC AI助手, Anthropic, ChatGPT更新, Claude, Gemini, Github Copilot, IDE集成, ITerm2, MacOS手动更新, Microsoft, OpenAI, SSH连接, VSCode插件, Windows, 二极管式标题, 云服务器, 交互设计, 人工智能, 人工智能应用创新, 代码开发, 代码编辑器, 代码解析, 信息安全策略, 全能助理, 功能对比, 协作平台, 合作生态, 在线支持平台, 在线沟通, 增强现实功能, 大数据分析, 大模型公司, 安全性, 工作空间, 工具组合, 应用程序管理, 应用管理, 开发效率提升, 手动拷贝粘贴, 技术创新, 技术实验迭代, 技术支持服务, 技术文档, 技术障碍, 授权及权限, 插件安装, 操作系统厂商, 数字工作空间, 文本编辑器, 文本高亮, 新兴技术趋势, 未来智慧助手, 桌面应用, 模型对比, 用户体验, 用户需求, 程序设计, 系统兼容性需求, 系统更新流程, 系统集成, 纯视觉方案, 终端工具, 终端操作, 综合编程解决方案, 编程工具结合, 编程流程优化, 编程环境, 编程能力提升, 自动驾驶, 苹果Xcode, 视觉识别, 解决方案选择, 车路协同, 远程代码, 远程操作限制, 集成开发环境分析 ChatGPT桌面应用11月更新:融入编程工具,新功能是否能替代Github Copilot?已关闭评论
ChatGPT的桌面应用更新了,直接可以跟应用结合了。这又是什么新方向吗?大家好,欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲11月15号ChatGPT桌面版的一个更新。大家注意,这次更新的不是网站,而是桌面端,就是你要有Windows或者是MacOS才可以使用的这个版本。
在这个里面,MacOS永远是走在Windows前面的,因为MacOS的操作系统其实相对来说要简单一些。为什么呢?因为MacOS的硬件简单,它没有那么多兼容性问题,所以它整个的操作系统,或者说整个的操作系统环境也相对来说要更单一一点点。Windows呢,现在也在跟上,但是Windows的所有功能对于ChatGPT的桌面版来说,都要稍微滞后一些。
现在的Windows上呢,已经有APP了,而且可以上传文件,可以拍照,可以截屏,可以做高级语音,这些都可以干了。MacOS是这些功能早都有了。这一次增加的是什么?这一次增加的叫跟应用相结合。那么跟什么样的应用相结合呢?不是所有应用都可以的哦,主要是跟编程工具一起干活。
Xcode就是苹果自己家的这种编程工具,然后是文字编辑器。很多人写程序是不会看IDE的,IDE叫集成开发环境,他们会直接开一个文字编辑器就干活了。然后是VSCode,这个是最常用的一个IDE,这是微软做的。还有Terminal,Terminal是叫终端,Linux也好,MacOS也好,有大量的操作是在终端里边干的,所以呢,你也可以跟终端直接结合。还有一个比较高级一点的终端程序叫ITerm2,也是支持了。
现在呢,就是支持这5个应用,其他都不支持。那这是不是要去抄Github Copilot的后路去了?那是不是有没有必要去花一个月10美金去订这个Github Copilot呢?我赶快去测试了一下,首先测试第一步,检查梯子,因为呢,我们的网站上去其实还是比较容易的。
但是呢,你使用他的桌面客户端,有的时候还需要对梯子做一些特殊的设置。如果你自己没有这个问题,这块可以越过。再往后呢,就是更新你的桌面客户端,就是ChatGPT在MacOS上的这个应用。当然,这个很神奇,他这个更新居然是手动的,这要稍微吐槽一下。为什么呢?因为我们以前做APP的时候,有一个重要的指标,就是当你每一次新版本出来以后,用户是不是都更新了。因为你的新版本更新经常是要换这个广告商。如果用户不跟着更新的话,一旦更新了以后,你就没法挣钱了。你的广告商换了以后,用户没跟着更新,这事是不行的。可能前面那个广告商的广告服务协议已经到期了,你必须要更新,这个事是一个很重要的指标。
但是呢,ChatGPT是要手动更新的,它不会说一启动了以后,哎呀,我发现有新版本了,咱们更新一下吧。反正这个他没提醒我,我是手动更新了一下。更新了以后呢,需要去点设置,设置是在这个应用的左下角,有一个人脑袋的地方。点一下,然后要允许使用应用,他那个名字是这样的一个名字,叫“允许使用应用”。我显示的都是中文,因为我已经把我的ChatGPT的桌面版换成中文的了。
然后呢,就是去授权。对于一个要去操控你电脑的程序来说,所有操作系统都是会有严格管理的,因为你不管的话,这就要出病毒了,有可能会给你造成损失。授权是什么呢?就是在设置里边有个叫辅助功能,在这一项里头,允许下面的应用程序控制你的电脑。这边有这么一项,在里头找到ChatGPT,把它打开就可以使用了。
后边呢,就是管理应用,就是我到底要用哪些。Xcode因为我自己不使,所以呢我就没有测试。Terminal只要是你把上面授权开了,你的Terminal窗口打开了以后,就可以在ChatGPT的应用程序下边,这个对话框底下多出一个图标来。这个图标呢是一个小方块,中间有一个指针。哈哈,这个我就不跟大家截图了,就是你点完了这个图标以后,就可以选中你的Terminal的这个窗口。
他就会根据你Terminal窗口里面的信息进行问答了。他会把Terminal窗口里的最后200行读出来,根据这200行的信息去给你做各种回复。这就是连接这个terminal窗口的一个操作方式。而且呢,这个terminal大家知道,我们经常通过SSH连接到远程的云服务器上去,或者连到我们的NAS上去。那么这个的话,它依然是可以工作的。我在云服务器上做各种操作,报错了或者什么的,你就可以直接问ChatGPT说:“哎,报了一个什么错,该怎么改呀?”他会给你去解决问题。
文本编辑器也是可以的。我试了一下,打开文本编辑器,里面有内容,它就会根据内容进行回复。VScode这个是我的主力IDE。在使用VSCode的时候,先需要装一个插件。在VSCode里头下载一个VSIX的文件,这个是从OpenAI的网上下载。下完了以后呢,到VSCode里头去安装这个插件。装上以后就可以使用了。但是要注意,这个插件在VScode的插件商店里没有。这也是一种“萝卜急了不洗泥”的方式。就是说,按道理说应该把这个插件上架到Vscode的插件商店里去,但是呢,它就没有上架。有可能是因为太着急了,没上去;也有可能呢,是因为他们惦记抢这个GitHub Copilot的饭碗,去上微软那里去上架的时候,因为VSCode是微软家的嘛,去上架的时候被微软横挑鼻子竖挑眼,说:“你这不行,这个不太安全,回去接着改去。”要给他拖一拖,所以干脆他们就自己升级了功能,自己做了个插件,从外面让你去装上去。
这个系统呢,是可以在本地工作的。什么意思呢?就是VScode在编辑代码的时候,你可以编辑本地的代码,也可以通过SSH编辑远程云服务器上的代码。但是如果要去编辑远程代码的话,你需要重新装所有的插件,这个搞不定,所以它只能在本地工作。这个系统呢,是只能够查看当前窗口的代码,因为VScode里头是可以开好多窗口的,它只能查看当前的。
如果你在当前窗口里头选中了一些高亮代码,他会优先专注于高亮代码进行解析,也就是这样的一些功能。所有生成的代码,比如说我这哪错了,那些代码是有什么问题,他会生成很多的代码来帮你去解释,帮你解决问题。但是呢,这些代码必须要拷贝粘贴,他不会直接把这些代码应用到你的程序里边去,也不会直接把这些指令送到Terminal,就是命令行终端里边去执行。你要自己手动地从这个聊天窗口里头把他给你建议的代码也好,命令也好,粘贴到相应的地方去,打回车。这呢,也是让大家觉得很不爽的一个地方。
那么这东西到底能不能替换GitHub Copilot呢?我试了几下以后就换回去了,我接着使用GitHub Copilot。为什么呢?第一个,ChatGPT不能直接修改代码,每一次都需要你去拷贝粘贴,自己去改,很有可能改错呀。你再问他说这对不对,操作起来非常麻烦,这是第一个原因。第二个,不能处理远程代码,这是我不能接受的。我是经常需要处理云服务器上的代码,他只能在本地工作,这个不行。第三个,他不能使用不同的模型,现在甭管你是用Cursor也好,还是用GitHub Copilot也好,你都可以选不同的模型。但是OpenAI的ChatGPT只能选OpenAI自己家的模型。你说我想去选Anthropic下边的Claude行不行?我想去选谷歌的Gemini行不行?不行,没有这个能力,所以这个也是让人不太爽的地方。
还有一个很烦的是什么,他只能处理当前的文件,没法去处理workspace上的东西。我们做一个程序,这个程序都是一个很复杂的目录结构,这个目录结构我们要管它叫workspace,就是这个工作空间,这里头会有很多很多的文件。如果说不能够根据整个的workspace一起去给我建议,只有根据我当前打开这个文件去建议,那这个完全没有意义,改程序会越改越乱的。
我们推崇的是每一个程序尽可能短,每一个程序之间相互配合,而不是说我们写一个特别长的程序。因为特别长的程序不好维护。你使用ChatGPT的APP,直接调用当前窗口的代码进行提示,那这个效果应该是很差的。我的Cursor呢,是过期了,所以我就没有再回去测试。现在我主要的编程工具是GitHub Copilot。从用户体验上来讲,Cursor应该是最好的,其次是GitHub Copilot,再差的就是今天我们讲的这个ChatGPT。
你说ChatGPT为什么会选择这样的一条路出来,明明做得又不好,还要去跟GitHub Copilot、Cursor去硬刚呢?其实很多做大模型的公司,他们预期的方式就是这种。什么叫全能助理?就是你不需要在编程的时候打开GitHub Copilot,在Office里头去打开Office Copilot,在浏览器里面去打开Web Copilot,在操作系统里头去打开操作系统的Copilot。他们希望你有一个统一的全能助理,打开什么样的工作我都给你搞定。这是这些做大模型的公司,无论是Anthropic还是OpenAI,他们想干的活。
所以你看他的应用,可以截图、截屏、照相、上传文件,还可以听到你的声音,现在还可以直接从IDE页面里把代码拎出来。他们希望说我都干了,你不用再去烦别人了。但是这里面有一些困境,就是不能直接操作电脑。原来Anthropic不是演示过直接操作电脑吗?我上一次出去参加活动,还有人问我说这太可怕了,他就直接操作电脑了。我说这个没有那么可怕。第一个,Anthropic演示的直接操作电脑的那个程序是一个实验室版本,他们也不敢把这种东西直接给用户去用。因为一旦给用户用了,咱不说他有恶意或者什么的,他弄坏了以后你咋给人修啊?这个是没法整的。
所有的公司里边的IT人员,最害怕的就是:“哎呀,我的电脑不行了,我有一个程序找不到了,哪个东西起不来了。”你要到现场去部署,现场去看当时的环境是什么样,可麻烦了这个过程。这是不允许Claude直接操作电脑的。现在用户能够用到的还是Claude从电脑上读东西,操作的过程还要你自己拷贝粘贴,都是如此的。ChatGPT也是这么干,所以它不能操作电脑。
那么用户体验,到底什么是用户体验?或者这种大模型应用的用户体验到底是什么样的?这里头其实有两个关键点。第一个关键点叫做找到合适的内容,第二个关键点是在可预期的范围内进行操作。
咱们先说第一个,找到适当的内容。那么什么叫找到适当的内容?就是我们要解决一个问题,你需要解决问题所需的所有内容。就像刚才我们说,我们要改程序,你要改程序的话,你需要在Workspace里,这个工作空间里边的所有程序、所有代码,然后你才能够去改这个程序。甚至你还需要什么?就是很多的环境信息。你说:“我这个电脑是Oracle云上面的一个乌斑图的主机,还是一个Oracle OS的主机,还是一个什么样的主机?我这个主机是什么样的CPU?什么样的内存?”你说:“我是arm的CPU,还是Intel的CPU?”你都要告诉这个大模型,否则的话,它给你的很多建议就会是错的,所以你需要全部的信息。
第二个呢,还有一个问题是什么?你不能被其他没用的信息干扰。什么叫被没用的信息干扰?这跟大家讲一个小故事:以前的杀毒程序在这个硬盘里杀病毒的时候,最怕的是什么,知道吗?最怕的是别的杀毒程序。为什么?因为杀毒程序干活的方式是拿病毒库去比较。我读了这段代码了,谁到我病毒库里比较一下是不是病毒。但是他一旦遇到了别的杀毒程序,在硬盘里安装着这个杀毒程序,里头也有一个病毒库,那你拿出来一比较,哎呦,跟我这里一样,接着往下比还一样。到最后几个字节可能不一样了,这个不是一个完整的病毒,不用管它。
再到下一个,哎,又一样。因为人家那病毒库里头所有病毒都有一遍,他就到人那去检索,说这个好好厉害。你看你这个病毒库里边所有的毒都有,这就是被无用信息所干扰了。我们硬盘里也是这样,各种各样的信息是非常多的。当你这个大模型需要去给我回答问题的时候,你不能把我硬盘里所有的内容都找出来,然后来给我回答。有些是我希望你看到的,有些是我不希望的,或者有些是我不希望你这一次拿去参考的,这个一定要搞清楚。
而且还有一点,什么叫不能让用户害怕,这个是很关键的。如果一个用户告诉他说,现在大模型来了,我要把你硬盘里头所有的内容都搜索一遍,我来给你解决问题,用户说那算了,咱别费劲了。我这个里头还有一些什么学习强国呀,或者这种目录里头放的文件,是我不希望你拿来解读它,可能是一些宝藏、小电影什么的。他还是要让用户知道,你这个大模型是在他允许许可的范围内在工作,不能吓着他。
这个是找到适当的内容。下一个呢,在可预期的范围内操作。什么意思?第一个先要保证做对,这个其实很难。为什么呢?现在给出来的答案,甭管是GitHub Copilot还是ChatGPT,还是Claude,或者它的Cursor这样的产品,它给出来的答案基本上很难一次正确。原因也很简单,就是他们得到的信息不够完整,环境信息不完整,其他的代码没有研究。
就算你告诉他说,你根据我所有代码去做处理,其实他也没有办法真的这么干,因为大模型是有上下文窗口的。你不可能说我把一个程序的所有代码都塞进去,这个是非常非常费劲的。就算他的上下文窗口足够大,你还有大量的网络传输的开销,这个也是很麻烦的。
所以现在的这些大模型处理这种workspace的方式是什么呢?就是做嵌入。他把你所有的代码拿去做这个embedding的处理,做完了以后再根据你的命令,在embedding之后的代码里头找到相关的内容,然后再去回答他们。现在只能这么干,所以他们给出的答案。
其实,通常都是错误的。你拿到了以后,还要人工判断,然后再去调整,才有可能把它做对。这个第一个要做对,这事很难。第二个,什么?你还是不能让用户害怕。一上来说,我们执行一个命令叫“RM -RF *”,那这个什么意思?就是把硬盘上所有东西都删光。执行命令这件事,有很多是比较吓人的。所以,为什么现在 ChatGPT 和 Claude 都不敢直接去执行命令,就是这样。他怕吓着用户。而且,如果真让他执行了,万一出错了以后,他又没有补救措施,这个也是一个很大的开销。
为什么呢?就是你要看正规的工程师,或者叫网络工程师,他们的操作手册都是什么?你做任何的升级,做任何操作之前要备份。备份完了以后才能做操作,万一做错了以后还能恢复。但是这个操作的开销就非常大了。所以,现在他们这两个应用都不敢直接下手。
那么,这算不算是一种纯视觉方案?咱们想的稍微远一点,什么叫纯视觉方案?就是特斯拉在推自动驾驶的时候,就推这种纯视觉方案。别人还在研究什么毫米波雷达、激光雷达的时候,马斯克说不,我就要纯视觉方案,我不跟你费劲了。那么,什么时候上纯视觉方案呢?就是要去对抗各种雷达,对抗车路协同系统。雷达还算是一个相对来说比较简单的玩法,车上加毫米波,加这个激光雷达,这还算简单一些。车路协同是什么?就是在路上加各种传感器,加各种各样的处理终端,加各种标记,让你的车在这样的智能公路上可以畅通无阻。
但是,这条路看来现在应该不是主流方向。就算是国内的国产新势力们,也没有向车路协同的方式走。大家还都是惦记说,我怎么在车上把这事搞定就完事了。那么,这个事情跟咱们今天讲的 ChatGPT MacOS 上的这个客户端到底有什么关系呢?我们来类比一下,现在的 ChatGPT 和 Claude 这种桌面客户端,干的活是什么?就是给桌面应用增加眼睛、耳朵、嘴和手脚。什么意思呢?原来这个东西叫聊天工具,但现在我们希望这个聊天工具自己可以看到你电脑上的屏幕。
它可以截屏,可以看到你的代码,可以听到你说话,也可以对你说话,甚至可以做一定的操作。那么在这个过程中,如果是走纯视觉方案,实际上就是ChatGPT和Claude现在用的这个方案。什么意思呢?就是看到用户能够看到的部分,用户看不到的部分就算了。然后呢,通过摄像头截屏以及与IDE结合,不需要做其他的改造了,我们只需要做最简单的一个改造,就可以使用了。甚至只是说我给你一个授权,你就可以使用了,也不需要跟操作系统的厂商进行深度的整合。你要做这种很复杂的底层操作,你一定要操作系统厂商给你授权才可以,否则他是不能去做的。
最终是要像人一样工作。什么意思呢?大家想,马斯克为什么推纯视觉?两个原因。第一个,你跟各个国家的公路系统去打交道,说你给我在公路上加一标签吧,或者加一牌子吧,或者加一个什么传感器吧,这个事就没法整。你万一走到没有传感器、没有经过改造的公路上,你智能驾驶系统是不是就没有了?这是一个原因。说我们不愿意跟你打交道,我在车上自己都解决完就完了。
第二个原因是什么呢?他希望这个车像人一样工作,因为你的大模型还是在不断地迭代、不断地升级的。那么到底向哪个方向升级呢?比如说我升级了带有车路协同系统的、带有激光雷达和豪美涡雷达的这样的大模型,那这个到底对不对?其实很难去衡量。但是说,哎,我就向人的方向去转变。人是怎么开车的?我怎么开车?人反正也没有毫米波雷达,也没有激光雷达,也没有什么车路协同。我们走到哪,这路甭管认不认识,我都可以开走。那么我们就以此为基准进行训练就完了。这是纯视觉系统的一个核心底层逻辑,就是我们以人为标准,向这个方向不断前进。
那么这是纯视觉方案。如果是车路协同方案是什么样的呢?就是Github Copilot走的这个方案,还有各种操作系统,像什么AIPC、AI手机,新带Copilot的Windows 11。
带有这个 Apple Intelligence 的 MacOS 和 iPhone 16,以及咱们国内号称带大模型的各种安卓手机,这就是标准的车路协同系统。在这个过程中,那你就需要对基础设施进行改造。反正这个微软没事,他说:“我是做操作系统的,我就在操作系统上改呗。”苹果说:“那我也在操作系统上改。”安卓这帮手机,甭管是小米还是华为,说:“我们也上操作系统 IC,直接底层修改,这样用户体验才最好。”它就变成这样的方式了。
在这块,操作系统厂商跟 IDEE 的这些厂商有一些天然的优势。你那些做大模型的厂商,你就过不来了,因为你搞不懂这个操作系统到底是怎么运作的。就算你能搞懂了,我不给你授权,你越过我的授权也是病毒。他是这样来工作的。
那么,我们在电脑上是不是需要这种纯视觉方案?这个路是不是对的?你说马斯克在做 FSD 的时候,做纯视觉方案,大家都觉得这条路是对的。那么在电脑上,我们是不是也该这么干?除了环境方的配合度之外,模型发展方向才是最重要的考核。自动驾驶这件事,其实相对来说还比较简单,纯视觉方案是可以搞得定的。人就向这个方向走就行了,你只需要让自动驾驶的汽车达到驾驶员的高度就可以了。我不需要达到 F1 方程式赛车,也不需要达到修车老师傅的程度,你只要能够达到一个正常驾驶员的程度就 OK 了。
所以,自动驾驶可以走纯视觉方案,但在电脑上这事不行,为什么?因为我们需要专家模式,我们需要解决很多我们自己解决不了的问题。这个跟刚才我们讲的自动驾驶是不同的。自动驾驶是,你只要模型变成普通驾驶员就够了,而我们去操作电脑是需要电脑上辅助,我们的专家模型能够达到比我们更高水平。那你如果是这样的话,去做纯视觉就不合适了。
现在摆在 OpenAI 和 Anthropic 面前的困境是什么呢?他们需要克服什么?就是操作系统厂商不愿意配合他们。你说:“我希望有更多的功能给用户用起来,我明明可以做更多的事情,可以做得更好。”
但是,你没有操作系统厂商的配合,就做不了。用户量上去了,但是用户也没法使用全部的功能。大家还是在跟你聊天,那用户的付费意愿就低。他们这两家公司最后能够实现盈利的可能性,就基本上等于零。他现在是遇到这样的问题,原来还想着说:“哎呀,微软你就向OpenAI老老实实地交授权费就完了呗,我就让你去用去了。”结果,GitHub Copilot现在不仅能够用OpenAI的GPT-4,还是能够用Anthropic的Claude,人家还可以用谷歌的Gemini。
这个OpenAI说那不行,你们不在一棵树上吊死,我也不能在一棵树上吊死,咱们双向奔赴了。你们这个不忠诚,我们也不忠诚,搞成这样的一个事情。那么,大模型厂商还在解决用户需求的路上继续前进。甭管最后他的商业问题是不是能够解决,是不是能够挣到钱,这个事我们不管他。但是,如果你没有办法把用户的需求解决掉,这条路注定是条死路。
现在呢,就是两条路。刚才咱们讲过了,一个是车路协调的路,一个是纯视觉的路。纯视觉路实际上就是我关起门来自己把事搞定了,你们不用管我,我也不用配合我,我自己能搞定。车路协同的方式就是我从底层把基础设施改掉。现在车路协同的方式就是AIPC、AIPHONE,这条路是车路协同的方式。
纯视觉方式,现在甭管是OpenAI的ChatGPT,还是Anthropic的Claude,都在尝试走这条独立的路线。我不需要你跟我配合,我自己搞定。我就看到用户能看到的东西,然后我在用户可眼见的范围内去解决问题。用户看不着东西,我也看不着。至于哪条路能够走通,咱们拭目以待。
好,这个故事跟大家讲到这里,感谢大家收听。请帮忙点赞,点小铃铛,参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。