<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>未来智慧助手 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%E6%9C%AA%E6%9D%A5%E6%99%BA%E6%85%A7%E5%8A%A9%E6%89%8B/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Wed, 20 Nov 2024 00:51:11 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>未来智慧助手 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>ChatGPT桌面应用11月更新：融入编程工具，新功能是否能替代Github Copilot？</title>
		<link>https://lukefan.com/2024/11/20/chatgpt%e6%a1%8c%e9%9d%a2%e5%ba%94%e7%94%a811%e6%9c%88%e6%9b%b4%e6%96%b0%ef%bc%9a%e8%9e%8d%e5%85%a5%e7%bc%96%e7%a8%8b%e5%b7%a5%e5%85%b7%ef%bc%8c%e6%96%b0%e5%8a%9f%e8%83%bd%e6%98%af%e5%90%a6%e8%83%bd/</link>
		
		<dc:creator><![CDATA[老范 讲故事]]></dc:creator>
		<pubDate>Wed, 20 Nov 2024 00:51:09 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[AI助手]]></category>
		<category><![CDATA[Anthropic]]></category>
		<category><![CDATA[ChatGPT更新]]></category>
		<category><![CDATA[Claude]]></category>
		<category><![CDATA[Gemini]]></category>
		<category><![CDATA[Github Copilot]]></category>
		<category><![CDATA[IDE集成]]></category>
		<category><![CDATA[ITerm2]]></category>
		<category><![CDATA[MacOS手动更新]]></category>
		<category><![CDATA[Microsoft]]></category>
		<category><![CDATA[OpenAI]]></category>
		<category><![CDATA[SSH连接]]></category>
		<category><![CDATA[VSCode插件]]></category>
		<category><![CDATA[Windows]]></category>
		<category><![CDATA[二极管式标题]]></category>
		<category><![CDATA[云服务器]]></category>
		<category><![CDATA[交互设计]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[人工智能应用创新]]></category>
		<category><![CDATA[代码开发]]></category>
		<category><![CDATA[代码编辑器]]></category>
		<category><![CDATA[代码解析]]></category>
		<category><![CDATA[信息安全策略]]></category>
		<category><![CDATA[全能助理]]></category>
		<category><![CDATA[功能对比]]></category>
		<category><![CDATA[协作平台]]></category>
		<category><![CDATA[合作生态]]></category>
		<category><![CDATA[在线支持平台]]></category>
		<category><![CDATA[在线沟通]]></category>
		<category><![CDATA[增强现实功能]]></category>
		<category><![CDATA[大数据分析]]></category>
		<category><![CDATA[大模型公司]]></category>
		<category><![CDATA[安全性]]></category>
		<category><![CDATA[工作空间]]></category>
		<category><![CDATA[工具组合]]></category>
		<category><![CDATA[应用程序管理]]></category>
		<category><![CDATA[应用管理]]></category>
		<category><![CDATA[开发效率提升]]></category>
		<category><![CDATA[手动拷贝粘贴]]></category>
		<category><![CDATA[技术创新]]></category>
		<category><![CDATA[技术实验迭代]]></category>
		<category><![CDATA[技术支持服务]]></category>
		<category><![CDATA[技术文档]]></category>
		<category><![CDATA[技术障碍]]></category>
		<category><![CDATA[授权及权限]]></category>
		<category><![CDATA[插件安装]]></category>
		<category><![CDATA[操作系统厂商]]></category>
		<category><![CDATA[数字工作空间]]></category>
		<category><![CDATA[文本编辑器]]></category>
		<category><![CDATA[文本高亮]]></category>
		<category><![CDATA[新兴技术趋势]]></category>
		<category><![CDATA[未来智慧助手]]></category>
		<category><![CDATA[桌面应用]]></category>
		<category><![CDATA[模型对比]]></category>
		<category><![CDATA[用户体验]]></category>
		<category><![CDATA[用户需求]]></category>
		<category><![CDATA[程序设计]]></category>
		<category><![CDATA[系统兼容性需求]]></category>
		<category><![CDATA[系统更新流程]]></category>
		<category><![CDATA[系统集成]]></category>
		<category><![CDATA[纯视觉方案]]></category>
		<category><![CDATA[终端工具]]></category>
		<category><![CDATA[终端操作]]></category>
		<category><![CDATA[综合编程解决方案]]></category>
		<category><![CDATA[编程工具结合]]></category>
		<category><![CDATA[编程流程优化]]></category>
		<category><![CDATA[编程环境]]></category>
		<category><![CDATA[编程能力提升]]></category>
		<category><![CDATA[自动驾驶]]></category>
		<category><![CDATA[苹果Xcode]]></category>
		<category><![CDATA[视觉识别]]></category>
		<category><![CDATA[解决方案选择]]></category>
		<category><![CDATA[车路协同]]></category>
		<category><![CDATA[远程代码]]></category>
		<category><![CDATA[远程操作限制]]></category>
		<category><![CDATA[集成开发环境分析]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1710</guid>

					<description><![CDATA[啊啊啊啊啊啊啊！！！大家伙，你们听说了吗？ChatGPT桌面版在11月15号更新了！这是个神奇的时刻，让我来给你们细细道来！🤩

首先，这次更新不仅仅是网站上那些简单改动！没有错，是针对桌面端的功能更新！有Windows的朋友们，赶快跳上这个快车道，Mac用户更是提前体验了一切新科技！✨

这次更新的杀手锏就是——与编程工具的无缝对接！Xcode、VSCode、Terminal，这些你日常使用的工具统统都能搭上ChatGPT的快车，真是太狂炸了！💥你可以直接在Terminal中进行操作提问，瞬间变身编程小精灵！🧙‍♂️

而且，令人惊喜的是，ChatGPT不仅能读取你的代码，还能给出解决方案！再也不怕debug的烦恼了，真的是编程小白们的福音啊，有了它，工作效率可以瞬间翻倍！📈

不过，吐槽一下，更新居然需要手动！这真是让我忍不住在心里咆哮，为什么不搞个自动更新的功能啊！！😩“我就想开门见山，不想纠结更新！”有木有同感的伙伴们？！

但，归根结底，ChatGPT的这些新能力也有局限性。不支持远程代码和不能直接修改代码，还是让人有点失望。🙄但这并不影响我对它的热情，只要功能继续拓展，未来一定会更好！

总结一下，现在的ChatGPT就像全能助理，开启了新的编程天地！你们还在等什么？快去更新你的应用，让程序员的生活轻松无比！🌟

点赞👍、收藏✨、转发🔄家人们，让更多小伙伴一起感受这次科技的浪潮吧！再见～💖

ChatGPT桌面应用11月更新：融入编程工具，新功能是否能替代Github Copilot？

2023年11月15日，ChatGPT桌面版迎来了一次重要更新，拓展了与游戏、文字编辑器等开发工具的结合功能。这次更新虽然不及GitHub Copilot的自动化程度，但在文本编辑与Terminal等IDE兼容性上取得了一定的进展。尤其在VSCode中，通过插件实现与IDE结合，为程序员提高了编写代码时的效率。ChatGPT当前仍无法处理远程代码，只能在本地文件上操作，同时需手动更新。不仅在功能性上存在差距，ChatGPT还面对操作系统厂商的不配合，如何在用户需求的解决上找到突破口，是OpenAI与Anthropic面临的共同挑战。这一系列更新是否会改变市场局势，尤其是在全能助理的目标上，令人拭目以待。关键词包括：ChatGPT桌面版、编程工具集成、手动更新、VSCode插件、GitHub Copilot替代、全能助手、大模型开发。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="ChatGPT桌面应用11月更新：融入编程工具，新功能是否能替代Github Copilot？" width="900" height="506" src="https://www.youtube.com/embed/QkXozelxfV0?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>ChatGPT的桌面应用更新了，直接可以跟应用结合了。这又是什么新方向吗？大家好，欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲11月15号ChatGPT桌面版的一个更新。大家注意，这次更新的不是网站，而是桌面端，就是你要有Windows或者是MacOS才可以使用的这个版本。</p>



<p>在这个里面，MacOS永远是走在Windows前面的，因为MacOS的操作系统其实相对来说要简单一些。为什么呢？因为MacOS的硬件简单，它没有那么多兼容性问题，所以它整个的操作系统，或者说整个的操作系统环境也相对来说要更单一一点点。Windows呢，现在也在跟上，但是Windows的所有功能对于ChatGPT的桌面版来说，都要稍微滞后一些。</p>



<p>现在的Windows上呢，已经有APP了，而且可以上传文件，可以拍照，可以截屏，可以做高级语音，这些都可以干了。MacOS是这些功能早都有了。这一次增加的是什么？这一次增加的叫跟应用相结合。那么跟什么样的应用相结合呢？不是所有应用都可以的哦，主要是跟编程工具一起干活。</p>



<span id="more-1710"></span>



<p>Xcode就是苹果自己家的这种编程工具，然后是文字编辑器。很多人写程序是不会看IDE的，IDE叫集成开发环境，他们会直接开一个文字编辑器就干活了。然后是VSCode，这个是最常用的一个IDE，这是微软做的。还有Terminal，Terminal是叫终端，Linux也好，MacOS也好，有大量的操作是在终端里边干的，所以呢，你也可以跟终端直接结合。还有一个比较高级一点的终端程序叫ITerm2，也是支持了。</p>



<p>现在呢，就是支持这5个应用，其他都不支持。那这是不是要去抄Github Copilot的后路去了？那是不是有没有必要去花一个月10美金去订这个Github Copilot呢？我赶快去测试了一下，首先测试第一步，检查梯子，因为呢，我们的网站上去其实还是比较容易的。</p>



<p>但是呢，你使用他的桌面客户端，有的时候还需要对梯子做一些特殊的设置。如果你自己没有这个问题，这块可以越过。再往后呢，就是更新你的桌面客户端，就是ChatGPT在MacOS上的这个应用。当然，这个很神奇，他这个更新居然是手动的，这要稍微吐槽一下。为什么呢？因为我们以前做APP的时候，有一个重要的指标，就是当你每一次新版本出来以后，用户是不是都更新了。因为你的新版本更新经常是要换这个广告商。如果用户不跟着更新的话，一旦更新了以后，你就没法挣钱了。你的广告商换了以后，用户没跟着更新，这事是不行的。可能前面那个广告商的广告服务协议已经到期了，你必须要更新，这个事是一个很重要的指标。</p>



<p>但是呢，ChatGPT是要手动更新的，它不会说一启动了以后，哎呀，我发现有新版本了，咱们更新一下吧。反正这个他没提醒我，我是手动更新了一下。更新了以后呢，需要去点设置，设置是在这个应用的左下角，有一个人脑袋的地方。点一下，然后要允许使用应用，他那个名字是这样的一个名字，叫“允许使用应用”。我显示的都是中文，因为我已经把我的ChatGPT的桌面版换成中文的了。</p>



<p>然后呢，就是去授权。对于一个要去操控你电脑的程序来说，所有操作系统都是会有严格管理的，因为你不管的话，这就要出病毒了，有可能会给你造成损失。授权是什么呢？就是在设置里边有个叫辅助功能，在这一项里头，允许下面的应用程序控制你的电脑。这边有这么一项，在里头找到ChatGPT，把它打开就可以使用了。</p>



<p>后边呢，就是管理应用，就是我到底要用哪些。Xcode因为我自己不使，所以呢我就没有测试。Terminal只要是你把上面授权开了，你的Terminal窗口打开了以后，就可以在ChatGPT的应用程序下边，这个对话框底下多出一个图标来。这个图标呢是一个小方块，中间有一个指针。哈哈，这个我就不跟大家截图了，就是你点完了这个图标以后，就可以选中你的Terminal的这个窗口。</p>



<p>他就会根据你Terminal窗口里面的信息进行问答了。他会把Terminal窗口里的最后200行读出来，根据这200行的信息去给你做各种回复。这就是连接这个terminal窗口的一个操作方式。而且呢，这个terminal大家知道，我们经常通过SSH连接到远程的云服务器上去，或者连到我们的NAS上去。那么这个的话，它依然是可以工作的。我在云服务器上做各种操作，报错了或者什么的，你就可以直接问ChatGPT说：“哎，报了一个什么错，该怎么改呀？”他会给你去解决问题。</p>



<p>文本编辑器也是可以的。我试了一下，打开文本编辑器，里面有内容，它就会根据内容进行回复。VScode这个是我的主力IDE。在使用VSCode的时候，先需要装一个插件。在VSCode里头下载一个VSIX的文件，这个是从OpenAI的网上下载。下完了以后呢，到VSCode里头去安装这个插件。装上以后就可以使用了。但是要注意，这个插件在VScode的插件商店里没有。这也是一种“萝卜急了不洗泥”的方式。就是说，按道理说应该把这个插件上架到Vscode的插件商店里去，但是呢，它就没有上架。有可能是因为太着急了，没上去；也有可能呢，是因为他们惦记抢这个GitHub Copilot的饭碗，去上微软那里去上架的时候，因为VSCode是微软家的嘛，去上架的时候被微软横挑鼻子竖挑眼，说：“你这不行，这个不太安全，回去接着改去。”要给他拖一拖，所以干脆他们就自己升级了功能，自己做了个插件，从外面让你去装上去。</p>



<p>这个系统呢，是可以在本地工作的。什么意思呢？就是VScode在编辑代码的时候，你可以编辑本地的代码，也可以通过SSH编辑远程云服务器上的代码。但是如果要去编辑远程代码的话，你需要重新装所有的插件，这个搞不定，所以它只能在本地工作。这个系统呢，是只能够查看当前窗口的代码，因为VScode里头是可以开好多窗口的，它只能查看当前的。</p>



<p>如果你在当前窗口里头选中了一些高亮代码，他会优先专注于高亮代码进行解析，也就是这样的一些功能。所有生成的代码，比如说我这哪错了，那些代码是有什么问题，他会生成很多的代码来帮你去解释，帮你解决问题。但是呢，这些代码必须要拷贝粘贴，他不会直接把这些代码应用到你的程序里边去，也不会直接把这些指令送到Terminal，就是命令行终端里边去执行。你要自己手动地从这个聊天窗口里头把他给你建议的代码也好，命令也好，粘贴到相应的地方去，打回车。这呢，也是让大家觉得很不爽的一个地方。</p>



<p>那么这东西到底能不能替换GitHub Copilot呢？我试了几下以后就换回去了，我接着使用GitHub Copilot。为什么呢？第一个，ChatGPT不能直接修改代码，每一次都需要你去拷贝粘贴，自己去改，很有可能改错呀。你再问他说这对不对，操作起来非常麻烦，这是第一个原因。第二个，不能处理远程代码，这是我不能接受的。我是经常需要处理云服务器上的代码，他只能在本地工作，这个不行。第三个，他不能使用不同的模型，现在甭管你是用Cursor也好，还是用GitHub Copilot也好，你都可以选不同的模型。但是OpenAI的ChatGPT只能选OpenAI自己家的模型。你说我想去选Anthropic下边的Claude行不行？我想去选谷歌的Gemini行不行？不行，没有这个能力，所以这个也是让人不太爽的地方。</p>



<p>还有一个很烦的是什么，他只能处理当前的文件，没法去处理workspace上的东西。我们做一个程序，这个程序都是一个很复杂的目录结构，这个目录结构我们要管它叫workspace，就是这个工作空间，这里头会有很多很多的文件。如果说不能够根据整个的workspace一起去给我建议，只有根据我当前打开这个文件去建议，那这个完全没有意义，改程序会越改越乱的。</p>



<p>我们推崇的是每一个程序尽可能短，每一个程序之间相互配合，而不是说我们写一个特别长的程序。因为特别长的程序不好维护。你使用ChatGPT的APP，直接调用当前窗口的代码进行提示，那这个效果应该是很差的。我的Cursor呢，是过期了，所以我就没有再回去测试。现在我主要的编程工具是GitHub Copilot。从用户体验上来讲，Cursor应该是最好的，其次是GitHub Copilot，再差的就是今天我们讲的这个ChatGPT。</p>



<p>你说ChatGPT为什么会选择这样的一条路出来，明明做得又不好，还要去跟GitHub Copilot、Cursor去硬刚呢？其实很多做大模型的公司，他们预期的方式就是这种。什么叫全能助理？就是你不需要在编程的时候打开GitHub Copilot，在Office里头去打开Office Copilot，在浏览器里面去打开Web Copilot，在操作系统里头去打开操作系统的Copilot。他们希望你有一个统一的全能助理，打开什么样的工作我都给你搞定。这是这些做大模型的公司，无论是Anthropic还是OpenAI，他们想干的活。</p>



<p>所以你看他的应用，可以截图、截屏、照相、上传文件，还可以听到你的声音，现在还可以直接从IDE页面里把代码拎出来。他们希望说我都干了，你不用再去烦别人了。但是这里面有一些困境，就是不能直接操作电脑。原来Anthropic不是演示过直接操作电脑吗？我上一次出去参加活动，还有人问我说这太可怕了，他就直接操作电脑了。我说这个没有那么可怕。第一个，Anthropic演示的直接操作电脑的那个程序是一个实验室版本，他们也不敢把这种东西直接给用户去用。因为一旦给用户用了，咱不说他有恶意或者什么的，他弄坏了以后你咋给人修啊？这个是没法整的。</p>



<p>所有的公司里边的IT人员，最害怕的就是：“哎呀，我的电脑不行了，我有一个程序找不到了，哪个东西起不来了。”你要到现场去部署，现场去看当时的环境是什么样，可麻烦了这个过程。这是不允许Claude直接操作电脑的。现在用户能够用到的还是Claude从电脑上读东西，操作的过程还要你自己拷贝粘贴，都是如此的。ChatGPT也是这么干，所以它不能操作电脑。</p>



<p>那么用户体验，到底什么是用户体验？或者这种大模型应用的用户体验到底是什么样的？这里头其实有两个关键点。第一个关键点叫做找到合适的内容，第二个关键点是在可预期的范围内进行操作。</p>



<p>咱们先说第一个，找到适当的内容。那么什么叫找到适当的内容？就是我们要解决一个问题，你需要解决问题所需的所有内容。就像刚才我们说，我们要改程序，你要改程序的话，你需要在Workspace里，这个工作空间里边的所有程序、所有代码，然后你才能够去改这个程序。甚至你还需要什么？就是很多的环境信息。你说：“我这个电脑是Oracle云上面的一个乌斑图的主机，还是一个Oracle OS的主机，还是一个什么样的主机？我这个主机是什么样的CPU？什么样的内存？”你说：“我是arm的CPU，还是Intel的CPU？”你都要告诉这个大模型，否则的话，它给你的很多建议就会是错的，所以你需要全部的信息。</p>



<p>第二个呢，还有一个问题是什么？你不能被其他没用的信息干扰。什么叫被没用的信息干扰？这跟大家讲一个小故事：以前的杀毒程序在这个硬盘里杀病毒的时候，最怕的是什么，知道吗？最怕的是别的杀毒程序。为什么？因为杀毒程序干活的方式是拿病毒库去比较。我读了这段代码了，谁到我病毒库里比较一下是不是病毒。但是他一旦遇到了别的杀毒程序，在硬盘里安装着这个杀毒程序，里头也有一个病毒库，那你拿出来一比较，哎呦，跟我这里一样，接着往下比还一样。到最后几个字节可能不一样了，这个不是一个完整的病毒，不用管它。</p>



<p>再到下一个，哎，又一样。因为人家那病毒库里头所有病毒都有一遍，他就到人那去检索，说这个好好厉害。你看你这个病毒库里边所有的毒都有，这就是被无用信息所干扰了。我们硬盘里也是这样，各种各样的信息是非常多的。当你这个大模型需要去给我回答问题的时候，你不能把我硬盘里所有的内容都找出来，然后来给我回答。有些是我希望你看到的，有些是我不希望的，或者有些是我不希望你这一次拿去参考的，这个一定要搞清楚。</p>



<p>而且还有一点，什么叫不能让用户害怕，这个是很关键的。如果一个用户告诉他说，现在大模型来了，我要把你硬盘里头所有的内容都搜索一遍，我来给你解决问题，用户说那算了，咱别费劲了。我这个里头还有一些什么学习强国呀，或者这种目录里头放的文件，是我不希望你拿来解读它，可能是一些宝藏、小电影什么的。他还是要让用户知道，你这个大模型是在他允许许可的范围内在工作，不能吓着他。</p>



<p>这个是找到适当的内容。下一个呢，在可预期的范围内操作。什么意思？第一个先要保证做对，这个其实很难。为什么呢？现在给出来的答案，甭管是GitHub Copilot还是ChatGPT，还是Claude，或者它的Cursor这样的产品，它给出来的答案基本上很难一次正确。原因也很简单，就是他们得到的信息不够完整，环境信息不完整，其他的代码没有研究。</p>



<p>就算你告诉他说，你根据我所有代码去做处理，其实他也没有办法真的这么干，因为大模型是有上下文窗口的。你不可能说我把一个程序的所有代码都塞进去，这个是非常非常费劲的。就算他的上下文窗口足够大，你还有大量的网络传输的开销，这个也是很麻烦的。</p>



<p>所以现在的这些大模型处理这种workspace的方式是什么呢？就是做嵌入。他把你所有的代码拿去做这个embedding的处理，做完了以后再根据你的命令，在embedding之后的代码里头找到相关的内容，然后再去回答他们。现在只能这么干，所以他们给出的答案。</p>



<p>其实，通常都是错误的。你拿到了以后，还要人工判断，然后再去调整，才有可能把它做对。这个第一个要做对，这事很难。第二个，什么？你还是不能让用户害怕。一上来说，我们执行一个命令叫“RM -RF *”，那这个什么意思？就是把硬盘上所有东西都删光。执行命令这件事，有很多是比较吓人的。所以，为什么现在 ChatGPT 和 Claude 都不敢直接去执行命令，就是这样。他怕吓着用户。而且，如果真让他执行了，万一出错了以后，他又没有补救措施，这个也是一个很大的开销。</p>



<p>为什么呢？就是你要看正规的工程师，或者叫网络工程师，他们的操作手册都是什么？你做任何的升级，做任何操作之前要备份。备份完了以后才能做操作，万一做错了以后还能恢复。但是这个操作的开销就非常大了。所以，现在他们这两个应用都不敢直接下手。</p>



<p>那么，这算不算是一种纯视觉方案？咱们想的稍微远一点，什么叫纯视觉方案？就是特斯拉在推自动驾驶的时候，就推这种纯视觉方案。别人还在研究什么毫米波雷达、激光雷达的时候，马斯克说不，我就要纯视觉方案，我不跟你费劲了。那么，什么时候上纯视觉方案呢？就是要去对抗各种雷达，对抗车路协同系统。雷达还算是一个相对来说比较简单的玩法，车上加毫米波，加这个激光雷达，这还算简单一些。车路协同是什么？就是在路上加各种传感器，加各种各样的处理终端，加各种标记，让你的车在这样的智能公路上可以畅通无阻。</p>



<p>但是，这条路看来现在应该不是主流方向。就算是国内的国产新势力们，也没有向车路协同的方式走。大家还都是惦记说，我怎么在车上把这事搞定就完事了。那么，这个事情跟咱们今天讲的 ChatGPT MacOS 上的这个客户端到底有什么关系呢？我们来类比一下，现在的 ChatGPT 和 Claude 这种桌面客户端，干的活是什么？就是给桌面应用增加眼睛、耳朵、嘴和手脚。什么意思呢？原来这个东西叫聊天工具，但现在我们希望这个聊天工具自己可以看到你电脑上的屏幕。</p>



<p>它可以截屏，可以看到你的代码，可以听到你说话，也可以对你说话，甚至可以做一定的操作。那么在这个过程中，如果是走纯视觉方案，实际上就是ChatGPT和Claude现在用的这个方案。什么意思呢？就是看到用户能够看到的部分，用户看不到的部分就算了。然后呢，通过摄像头截屏以及与IDE结合，不需要做其他的改造了，我们只需要做最简单的一个改造，就可以使用了。甚至只是说我给你一个授权，你就可以使用了，也不需要跟操作系统的厂商进行深度的整合。你要做这种很复杂的底层操作，你一定要操作系统厂商给你授权才可以，否则他是不能去做的。</p>



<p>最终是要像人一样工作。什么意思呢？大家想，马斯克为什么推纯视觉？两个原因。第一个，你跟各个国家的公路系统去打交道，说你给我在公路上加一标签吧，或者加一牌子吧，或者加一个什么传感器吧，这个事就没法整。你万一走到没有传感器、没有经过改造的公路上，你智能驾驶系统是不是就没有了？这是一个原因。说我们不愿意跟你打交道，我在车上自己都解决完就完了。</p>



<p>第二个原因是什么呢？他希望这个车像人一样工作，因为你的大模型还是在不断地迭代、不断地升级的。那么到底向哪个方向升级呢？比如说我升级了带有车路协同系统的、带有激光雷达和豪美涡雷达的这样的大模型，那这个到底对不对？其实很难去衡量。但是说，哎，我就向人的方向去转变。人是怎么开车的？我怎么开车？人反正也没有毫米波雷达，也没有激光雷达，也没有什么车路协同。我们走到哪，这路甭管认不认识，我都可以开走。那么我们就以此为基准进行训练就完了。这是纯视觉系统的一个核心底层逻辑，就是我们以人为标准，向这个方向不断前进。</p>



<p>那么这是纯视觉方案。如果是车路协同方案是什么样的呢？就是Github Copilot走的这个方案，还有各种操作系统，像什么AIPC、AI手机，新带Copilot的Windows 11。</p>



<p>带有这个 Apple Intelligence 的 MacOS 和 iPhone 16，以及咱们国内号称带大模型的各种安卓手机，这就是标准的车路协同系统。在这个过程中，那你就需要对基础设施进行改造。反正这个微软没事，他说：“我是做操作系统的，我就在操作系统上改呗。”苹果说：“那我也在操作系统上改。”安卓这帮手机，甭管是小米还是华为，说：“我们也上操作系统 IC，直接底层修改，这样用户体验才最好。”它就变成这样的方式了。</p>



<p>在这块，操作系统厂商跟 IDEE 的这些厂商有一些天然的优势。你那些做大模型的厂商，你就过不来了，因为你搞不懂这个操作系统到底是怎么运作的。就算你能搞懂了，我不给你授权，你越过我的授权也是病毒。他是这样来工作的。</p>



<p>那么，我们在电脑上是不是需要这种纯视觉方案？这个路是不是对的？你说马斯克在做 FSD 的时候，做纯视觉方案，大家都觉得这条路是对的。那么在电脑上，我们是不是也该这么干？除了环境方的配合度之外，模型发展方向才是最重要的考核。自动驾驶这件事，其实相对来说还比较简单，纯视觉方案是可以搞得定的。人就向这个方向走就行了，你只需要让自动驾驶的汽车达到驾驶员的高度就可以了。我不需要达到 F1 方程式赛车，也不需要达到修车老师傅的程度，你只要能够达到一个正常驾驶员的程度就 OK 了。</p>



<p>所以，自动驾驶可以走纯视觉方案，但在电脑上这事不行，为什么？因为我们需要专家模式，我们需要解决很多我们自己解决不了的问题。这个跟刚才我们讲的自动驾驶是不同的。自动驾驶是，你只要模型变成普通驾驶员就够了，而我们去操作电脑是需要电脑上辅助，我们的专家模型能够达到比我们更高水平。那你如果是这样的话，去做纯视觉就不合适了。</p>



<p>现在摆在 OpenAI 和 Anthropic 面前的困境是什么呢？他们需要克服什么？就是操作系统厂商不愿意配合他们。你说：“我希望有更多的功能给用户用起来，我明明可以做更多的事情，可以做得更好。”</p>



<p>但是，你没有操作系统厂商的配合，就做不了。用户量上去了，但是用户也没法使用全部的功能。大家还是在跟你聊天，那用户的付费意愿就低。他们这两家公司最后能够实现盈利的可能性，就基本上等于零。他现在是遇到这样的问题，原来还想着说：“哎呀，微软你就向OpenAI老老实实地交授权费就完了呗，我就让你去用去了。”结果，GitHub Copilot现在不仅能够用OpenAI的GPT-4，还是能够用Anthropic的Claude，人家还可以用谷歌的Gemini。</p>



<p>这个OpenAI说那不行，你们不在一棵树上吊死，我也不能在一棵树上吊死，咱们双向奔赴了。你们这个不忠诚，我们也不忠诚，搞成这样的一个事情。那么，大模型厂商还在解决用户需求的路上继续前进。甭管最后他的商业问题是不是能够解决，是不是能够挣到钱，这个事我们不管他。但是，如果你没有办法把用户的需求解决掉，这条路注定是条死路。</p>



<p>现在呢，就是两条路。刚才咱们讲过了，一个是车路协调的路，一个是纯视觉的路。纯视觉路实际上就是我关起门来自己把事搞定了，你们不用管我，我也不用配合我，我自己能搞定。车路协同的方式就是我从底层把基础设施改掉。现在车路协同的方式就是AIPC、AIPHONE，这条路是车路协同的方式。</p>



<p>纯视觉方式，现在甭管是OpenAI的ChatGPT，还是Anthropic的Claude，都在尝试走这条独立的路线。我不需要你跟我配合，我自己搞定。我就看到用户能看到的东西，然后我在用户可眼见的范围内去解决问题。用户看不着东西，我也看不着。至于哪条路能够走通，咱们拭目以待。</p>



<p>好，这个故事跟大家讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
