科技前沿 – 老范讲故事｜AI、大模型与商业世界的故事

Gemini 3 Pro对决GPT-5.1：理科状元与全能大师终极一战，谁在定义AI的下半场？｜Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

Luke Fan — Thu, 20 Nov 2025 00:43:05 +0000

Gemini 3终于发布了，这一次是真王炸了吧？

千呼万唤始出来：Gemini 3的发布背景

2025年11月18日，谷歌Gemini 3 Pro Preview版本就这么上架了。为什么要用这样的一个词，“就这么上架了呢”？因为第一，它是千呼万唤始出来。大概从10月份开始，大家就开始传说，谷歌要开始上Gemini 3了。传来传去始终也没上来，到11月份说这个月肯定上。我还听说过是11月22号上，还听说过最晚12月份上，大家一直在等待这样的一个产品。

跟它一起传的还有另外一个产品，叫Nano Banana 2。因为上一次谷歌引起大家关注、引起大家去下载和使用的产品呢，就是Nano Banana 2，这个生图和改图的模型。这一次说Gemini 3跟Nano Banana 2一起来，而且都在进行测试，甚至很多人信誓旦旦说我用到了，我已经看到了。谷歌从Nano Banana一开始，就采用了一个很奇葩的玩法，就是在大模型发布之前，先给它们起个名字，隐姓埋名，跑到其他的这种测试平台上去测试去。大家觉得这个名字很奇怪，不知道是谁，测完了以后发现巨好，这是不是Gemini 3？那个生图模型是不是Nano Banana 2？大家都在猜这种事情。

巨头争霸：你方唱罢我登场

Nano Banana 2还没有发布，据说是在这个月或者下个月要发布。但是Gemini 3就这么直不愣登就来了。在用户们剥离层层迷雾，寻找Gemini 3和Nano Banana 2期间，其他的大模型厂商也在争先恐后的发东西，比如说GPT-5.1、GPT Atlas（也就是OpenAI的浏览器），还有Grok 4.1。这回是不是真的要来了？为什么会有这样的猜测？因为这帮大公司就跟小孩似的，特别喜欢截胡别人，我要先几天给你发布了，把你这个热点给你抢下去。最爱干这种活的是OpenAI。只要是谷歌说明天开谷歌I/O了，要开大的发布会了，他一定在这个前面一两天给你整点事出来。最有名的是在去年谷歌I/O之前的一天，OpenAI发了GPT-4o，一下就把大家震惊住了。

这一次的话，Gemini 3之前发布的非常接近的一个产品是谁呢？是Grok 4.1那个产品，也是非常神奇的一个产品，有机会再跟大家细讲。那你说这大公司，他就不能保个密吗？这真没法保密。你要开发布会，要租场地，要动用公关公司，有多少资源在这折腾，所以你是没有办法保密的。即使是你说我不开发布会，我就是偷偷的直接上线了，甭管是谷歌的人，还是Grok的人，或者是OpenAI的人，大家原来都是老同学、老同事，你想瞒真瞒不住。所以在他们的这个圈子里头，是没有什么秘密的。

发布前的“小插曲”

在等待Gemini 3期间，我们还遇到了对AI泡沫的质疑，大空头来做空来了。我们还遇到了巴菲特加仓谷歌，因为他原来不怎么买这种科技股或者是互联网公司的。巴菲特原来持仓里边，最大的科技股就是苹果，其他的像什么谷歌这些公司，他基本上不买的。突然减持苹果，大规模加仓谷歌，而且是在巴菲特退休之前的最后一单，说巴菲特是不是老爷子知道点什么了。

新的发布潮流：不开发布会，直接上线

就在这样的氛围下，谷歌就突然发布了。而且它的发布没有发布会，这也算是一个新的潮流吧，就是不开发布会，直接写一篇长文，或者写一篇博客，然后产品就直接上线了。这个是最近这一两年里头，突然流行的一种新的玩法。现在的产品发布都是什么呢？第一步，先隐姓埋名，跑到其他的，比如像Open Router这种大模型平台上面去进行测试。等这个传的满城风雨了，啪，一篇文章扔出来，产品就上架了。

Gemini 3 Pro Preview 在哪里可以使用？

现在这个产品可以在哪用呢？

第一个是AI studio，大家上aistudio.google.com上就可以使用Gemini 3 Pro了。大家注意，它是Gemini 3 Pro Preview，它后边有Preview这个单词，所以未来这个产品应该还会进行快速的迭代，所以有什么做的不太合适的地方，请多担待。
第二个，Gemini的网站也可以直接使用了，就是gemini.google.com上，现在也可以选择Gemini 3 Pro Preview这个版本了。但是呢，它的客户端上，Gemini的APP上还不能使用。
另外呢，他们还发布了一个IDE，这个IDE呢叫Anti Gravity，叫做反重力，里面带的Gemini 3 Pro的这个版本，大家可以拿它去写程序了。

这次是真王炸了吗？大模型差异的感知难题

这次是真王炸了吧？是不是比别人都遥遥领先很多呢？大模型的差异，想要让人有感知，已经越来越困难了。就像是两个人站在你面前，一个人是高考状元，另外一个人呢是高考第二名，你能够通过聊天的过程，把他们俩谁是状元分别出来吗？你分别不出来的。所以现在的大模型，他们的智力已经在很多方面远远超越人类了。所以我们再想去评估说哪个大模型有一定的差异，非常非常困难。

很多国内的大模型发布了半天，吹了半天牛，大家为什么没感觉呢？比如像什么GLM 4.6、千问Max呀、Kimi K2 thinking或者是Mini Max M2，这些模型发出来以后说我怎么这么强，大家没感觉，因为你很难感受到他比别人强在哪、差在哪。虽然有跑分，但是现在大家不怎么看跑分了，跑分是比较容易刷的，我们可以刷题就可以直接把跑分刷上去，所以大家不看了。

而国际大厂的发布的话，通常还是会有体感的。比如说最近发布的GPT-5.1，它要在5.0的基础上多了这个点一出来，确实是更人性了一些，说话不再那么愣了。Grok 4.1情商更高，在所有的跑分里头，马斯克的Grok 4.1是情商跑分最高的。而Gemini 3 Pro绝对是理工科学霸的感觉，在推理这一块，它遥遥领先超过其他所有人了。

Gemini 3 Pro Preview：核心特性一览

分数呢还是要跑的，在很多的跑分方面，要比GPT-5.1、比Grok 4.1、Claude 4.5都要强非常的多。它最关键的领先就在于推理能力，真的是遥遥领先。

Gemini 3 Pro Preview到底有什么新特性呢？

超强推理：待会咱们就主要讲这个超强推理。
原生多模态。
开发者跟企业非常友好：它主要是给程序员和理工科的人去准备的。
原生的工具支撑：待会咱們去讲什么叫原生工具支撑。
速度飞快：这个挺难想象的，跑的比原来的模型快好多。

深入解析：Gemini 的推理能力进化之路

那么Gemini的推理到底是怎么进化到现在这个状态的呢？首先看跑分，他们使用了一个叫LMArena Elo的一个跑分，这个跑分呢大于1500分了。这个非常非常关键，是人类做大模型第一次超过1500分，它大概是1501分，从来没有其他大模型超过1500分。那什么意思呢？

1000-1200分：入门级会答题了，但是呢逻辑是很容易崩的。
1200-1400分：中级的，有一定的推理能力。
1400-1500分：强者，接近当代顶级了。
超过1500分：进入超强推理者级别了，明显比普通强者要更稳定、更强的一个状态。

现在呢，GPT也好、Claude 4.5也好、Grok，包括国内的这些模型呢，一般都是在1480-1490之间晃悠，但是很难超过1500。而这个Gemini 3 Pro是第一次超过1500。

推理范式的演进

谷歌的推理范式到底是怎么一步一步走到这的呢？所有这些推理模型，第一步走的都是叫链式推理，先干什么后干什么，这叫链式推理。从链式推理再往前发展的叫树状推理。我除了先干什么后干什么呀，我可以分叉了，我走到某一步搜索完了一个结果以后，我是不是可以一下分出5个X来，把这五个分支都处理掉，这叫树状推理。树状推理再往后呢，叫图状推理。这个有什么区别呢？树是只允许分叉，不允许合并的，走到每一个节点只能是越分越细，你不能说我走着走着再把它合并起来。你如果说走着走着又合并起来了，还可以进行反复的去确认，正向走逆向走都可以了，这就是一个图状推理了，这就更进一步了。而最后一步是什么？就是在图的每一个节点都进行工具调用的这种推理。谷歌呢，现在Gemini 3已经走到这一步了。

像刚才咱们甭管是链式的，它也是很多个节点，先干什么、后干什么、最后干什么，这是每一个节点里头正常情况下它是不调用工具的。它都是说我自己先想明白了，最后我把整个都想清楚了以后，我们再去调用工具。或者说我一开始先调用一次工具，比如说我搜索了或者读文件了，读完了以后我再去推理，它是这样来工作的。树状推理呢也是这样的，在每一个节点，我都是在大模型内部使用，或者说我根据你提供的上下文去干活，最后给你一个结果。如果要调用工具的话，要么在开始调，要么在结尾调，一般情况下不会在推理的过程中去调用一大堆工具的。而现在谷歌说咱别费劲了，我们在每一个节点上，图节点有可能是分叉的、有可能合并、有可能正向、有可能逆向的这些节点上，我们在任何一个节点上，如果有需要，我就去调用工具了。而且我能够保证它不崩。别人不是说不想干，别人你要想在这个中间节点上调用工具，他有可能逻辑就直接崩掉了。谷歌说我们不用担心这个，我们逻辑特别强，中间不崩。这是Gemini 3这一次做出的最大的创新。

与其他模型的对比

其他几家是怎么干的呢？

OpenAI (GPT)：它从来不公开这件事，所以GPT是个黑盒子。现在呢，猜测它可能也是这么干的，但是具体是怎么实现的，OpenAI是三缄其口，这压根没说。
Claude：走的是另外一条路，Claude走的是外挂的路，它的很多的工具调用都是通过像Claude code呀、cursor或者是Claude的客户端，它通过这个东西来去调用的。所以导致什么呢？我们可以在Claude code里去换大模型，因为调用工具的部分是外置的，不是在模型里面的。所以呢，它的调用一方面灵活性提升了，但是呢，它调用模型的这个过程稍微有一些割裂。
国内（如Deepseek）：走的就是超强的这种推理链，在这个链式推理的基础上不断的往前推进，但是他们在调用工具上就要稍微的差一些。

“衡水中学”式训练法？Gemini 3是如何炼成的

Gemini 3他到底是怎么训练成这样的？我看了他的训练介绍以后，我觉得这玩意是衡水中学的老师给训练的吧？

改变工作方式：预测下一个正确的思维过程

首先呢，Gemini 3改变了工作方式。原来大模型呢是预测下一个词，我下一个词放哪个词出来是最优解，它是这样来工作的。但是呢，Gemini 3不这么工作，它的工作方式是预测下一个正确的思维过程。你就不要给我下一个词了，你直接给我一个下一个你要干嘛，然后我们来看看这个是不是最优解。所以在这块呢，就已经发生改变了。

训练数据：高质量合成数据

那你说我要想训练Gemini 3，我到底哪找数据去？数据是不是已经被大模型吃干抹净都用完了呢？谷歌已经承认了，所有的人类数据早就被大模型收拾干净了。所以这一次，Gemini 3使用的数据是合成数据。怎么合成呢？是用谷歌自己最强的模型阅读人类知识，再生成高质量的推理步骤。它直接训练的都是推理步骤，把所有的教科书、所有的科技论文都通过AI重写，生成训练数据。大家注意，这个里头有两个关键词，第一个关键词叫“所有”，谷歌基本上是可以认为它有所有的信息的，他把他能够找到所有的信息都塞进去了。第二个关键词叫“重写”，我们写的很多论文也好，或者是很多教材也好，为了让人类可以很好的理解，或者说为了抖个机灵，里头还有非常多的修辞，有非常多的人文的东西在里面，比较啰嗦的东西在里面。他通过重写把这玩意全去了，变成非常非常原始、非常简单的这种推理步骤。你如果遇到这样问题应该怎么推，遇到那样问题怎么推，他是拿这种数据去训练的。

原生多模态：Video + Code 配对

而多模态的话是原生对齐。怎么个原生对齐法？原来咱们也号称是各种多模态模型，是用图片跟文字去配对的。就是这是一张图，后边呢是一堆文字，我们把这个东西堆到大模型的数据里头去训练，训练完了以后呢，他就可以去反应那边是一个马还是一个驴，还是在打仗还是什么，他拿这玩意去训练的。现在呢，谷歌用了一个叫video和code的配对。你给它一视频，比如说是一个小球落到地上的视频，后边呢你配的不是一个文字“小球掉地上了”，而是一个重力加速度的Python代码。他把这样的一个视频和代码的对儿放到数据集里头去训练多模态模型去了。所以呢，他的模型上来就是世界模型，他是理解物理世界的各种规律的，这个很恐怖。

训练策略：过程奖励模型

有了数据了，那下边怎么训练呢？训练策略也很重要。第一个叫过程奖励模型 (Process Reward Model)，这个是Gemini 3跟其他人不一样的。现在的大模型呢，拿了一大堆数据去给你去做预训练去，训练好了以后，这个初级模型呢要去做强化学习，让他回答问题，然后让人去纠错。Grok 4.1就属于强化学习做的特别好的这种模型。谷歌说别费劲了，人看不过来，原来都是人看着，现在咱们直接派一个模型看着。他专门训练了一个找错的模型，让他去看着Gemini 3这个预训练模型去做后续的强化学习，然后呢是由人去监督这个找错的模型，看看他工作的状态行不行就OK了。真正底下干脏活累活的已经变成大模型了。针对推理步骤进行评判，即使结果是正确的，只要中间步骤有错误，通通打回去重来。这就是为什么是可以做推理冠军，就是这样了。你做题做到10步的过程中，必须每步都对，然后得出正确答案，我们才认为你是真的学会这道题了。你说我推了中间有三步是错的，但我答案是对的，对不起，从第三步往后通通都没分了。他是这样来控错的。所以我说为什么这个训练过程让我想起了人大附中和衡水中学这种感觉呢。

训练创新：预训练阶段即集成工具调用

在训练上呢还有一点跟以前的大模型有一个很大的区别是什么，就是Gemini 3的工具调用是直接在预训练里头做的。传统的大模型，甭管是OpenAI的，还是Anthropic或者是国内这些模型，他们都是先把模型训练好，然后呢通过强化学习再把工具调用，哪个地方该搜索了、哪个地方该读什么文件了、哪个地方应该去调用哪个工具了，再往后边再去加进去。Gemini 3它是在预训练的时候就直接把这些搜索呀、调用工具呀这些东西作为初始数据就给训练到模型里去了。这也是为什么谷歌的Gemini它可以在推理的任何一个节点上去进行工具调用，而别的大模型干这事就比较费劲，因为他们都是先做好基础后训练出来的，这个事就比较难了。这就是Gemini 3训练的一个创新点吧。

为何如此之快？揭秘Gemini 3的速度奥秘

那你说为什么Gemini 3这么大的模型还飞快呢？它叫Gemini 3 Pro，它不叫Gemini 3 Flash。过个一两个月吧，Gemini 3 Flash应该还会发布，那个时候肯定会比Pro版本要快更多。Gemini 3 Pro就已经比Gemini 2.5 Pro要快非常非常多了。原因呢几个：

硬件：谷歌自己家的TPU V6版本已经全面都装到算力中心里去了，都开始干活了，所以速度很快。而且你想他自己设计的芯片，自己做的算法，那一定是配合的紧密无间，没有任何问题。
架构优化：原来呢，这些模型都是MOE模型，叫做符合专家模型。但是现在呢，Gemini 3叫多塔MOE。什么叫多塔呢？就是你的图文、声音、视频、代码，你到不同的塔里去干活去，每个塔里还有一个专家小组在等着你呢，所以他这样速度就很快了。
投机采样：最后呢，他们使用了一个东西叫投机采样，就是用一个极小的草稿模型先快速的猜出后边的几十个词，然后由大模型一次性验证，这比大模型一个字一个字往外蹦要快非常非常多了。

全面领先？四大顶尖模型角色定位

Gemini 3现在到底算不算全面领先了呢？这么讲吧，Gemini 3 Pro就是一个理科状元加上多模态分析师的一个形象。但是呢，你跟他聊天也像是在跟理科状元聊天。你想想理科状元那个语气、语调都是什么样的，大家自己脑补一下，就知道Gemini 3到底擅长干什么、不擅长干什么了。

Grok 4.1：是互联网老司机加上自信段子手，没有什么他不敢说的，胆子比较大，情商测试第一名。你如果想找人去陪你聊天，想聊着开心，你就找这个Grok 4.1没跑，在这点上它要比Gemini 3要强很多。
OpenAI家的GPT-5.1：算是全能型创作大师加上生态整合之王。因为毕竟他是老大嘛，头一个做出来的，所以他生态整合，就是跟各种工具的结合，还是非常非常好的。而且呢，他很适合做各种的文档创作，像是一个四平八稳的文员吧。
Claude 4.5 sonnet：算是语言艺术家加上安全派哲思者，它很适合做各种的合规、企业内的这种需要进行反复验证的这种文档，它写的要比GPT-5.1还要好一点点。GPT-5.1更创意一点吧，Claude 4.5 sonnet更擅长做长篇写作、逻辑清晰、道德判断、企业合规表达。

而Claude 4.5呢原来是编程冠军，现在的话肯定要经受Gemini 3的挑战了，到底哪个好使哪个不好使，要过几天再出结果。

至于国内的大模型呢，还在努力追赶吧。国内大模型的唯一优势就是开源，巨大的模型开源呢，你们拿愿意拿回去自己折腾都没关系。

总结

最后总结一下：

今天的内容全部是Gemini 3 Pro整理生成的。如果哪说错了不要骂我，去骂Gemini 3 Pro。
第二个，我其实呢并不喜欢用Gemini 3 Pro，今天用了一天，原因也很简单，跟理科状元聊天还是有点累的。
AI还在快速的发展，Gemini 3真正的价值不是说它给我们训练出了一个理科状元，而是提出了一套新的方法论，怎么能够训练出一个理科状元来，这个是非常非常有价值的。有卡的公司就可以照着这个思路去尝试了。
至于没卡的公司怎么办，那就是另外一回事了。希望这一轮对AI泡沫的质疑可以快一些过去吧，Gemini 3 Pro确确实实是可以解决很多原来无法解决的问题的。

好，今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

Luke Fan — Thu, 28 Aug 2025 00:48:18 +0000

美工，或者说设计师，又要失业了吗？Gemini 2.5 Flash image发布了。

大家好，欢迎收听老范讲故事的YouTube频道。

前一段时间，有一个叫“小香蕉”的模型，叫Nano Banana。这样的一个模型呢，在很多的开源模型评比网站上，突然就火了。这种网站是干嘛的呢？还有很多的同类型的模型放在上头，你去向他提出要求，他让不同的模型同时生成结果以后，大家去做评比用的。很多人发现，这个模型很棒。

最近在很多的社交媒体上出现这种：有一个照片，旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片，然后你给他提示词说：“请按照这个照片给我布置一个桌面，桌面的左边是个电脑，电脑上应该有这个3D设计软件，正在设计3D人偶。右边呢，是一个相框，里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶，这个人偶就是根据这个照片打出来的。”给它这样的一个提示词，它就一次性给你搞定了。这个还是非常非常强悍的。

这个模型到底谁家的？搞不清楚。而且很多人还去造假的Nano Banana，为什么？因为太有流量了。一堆一堆人上来说：“我这也有一个Nano Banana，你们赶快来试一下。”我就被人骗过，上去了以后发现效果一般嘛，就很失望就走掉了。大家就猜说，这有可能是谷歌家新出的图片模型。到8月26号，突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看，就是这个Nano Banana。而且呢，在谷歌发布这个模型之前，Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter，说：“你看我们在暗示点什么吗？你们自己来猜一下，我们到底要干什么。”实际上，大家都已经明白他们要干什么了。

这种偷跑小模型的方式呢，是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过，现在Gemini 2.5 Flash image也是偷跑了一段时间，而且引起了轰动。这种偷跑模型的方式，跟大家藏着掖着，像苹果开发布会似的，发布之前大家谁都不许说，签保密协议，谁谁敢说出去就如何如何，到底有什么差别呢？差别就是，你如果是前面保密的话，最后发出来就是一锤子买卖，如果翻车，你就直接倒霉。谷歌其实翻车过好几次了，Gemini最开始发布的时候就翻车了，怎么各种问题都答不对，然后股价暴跌。现在这种偷跑模式呢，如果反馈不好呢，我就再接着改，我就不发布了；如果反馈特别好，我就赶快给它发布出来。它就不会翻车了，它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。

咱们说回来，这个Gemini 2.5 Flash image到底是一个什么样的模型呢？上一次大家喊设计师和美工失业的时候，是什么时候？是Gemini 2.0 Flash image发布的时候，就是它上一个版本发布的时候。

上一次是怎么出圈的呢？其实谷歌的Gemini画图效果一般，不是特别惊艳，上一次出圈也是因为改图。只有改图改得好，才容易出圈。很多人说不对，说这个生图模型都在干这些事情，为什么改图改得好就能出圈呢？大家要注意，跟设计师和美工相关的需求，特别是有商业价值、或者叫有人付钱的需求，是生图多还是改图多？一定是改图多。

咱们举一个最标准的例子。我们现在要做电商网站，我们在网站上需要有一个商品的展示图。我有一个商品图片了，然后呢，我需要把这个图片放在各种场景、灯光和环境下，再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊，他们用了一个特别笨的办法，他们找一照相机，三视图1、2、3拍三张照片，这就是你产品的照片了，那这产品卖得好才怪了。京东在这个北京，专门有一个巨大的影视基地，没想到吧？干嘛的呢？就是拍这个产品图的。你们谁要卖东西了，到那去把这个产品给他，他给你搭好布景，打好灯光。比如说你要卖一个杯子，他在杯子旁边给你摆上瓜果蔬菜，摆上一些小点心，把这杯子都拍一遍，再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢？这个图P上去的这部分要有版权，这个是非常非常重要的。你不能说我卖东西，这个图后边比如说我P了一个椅子或者P了一个什么东西，这个图片你没版权，这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西，你想把东西卖好，你就上拍摄基地去拍去。即使拍完了以后，他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字，那个地方还需要一些别的东西摆在一起。因为你不可能说，我要把所有拍的东西都摆一块嘛，那有的时候你就需要去抠图，然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好，大家才会说设计师跟美工要失业了。

那么，改图是不是要比生成图片要难呢？大家想没想过这个问题？答案是很肯定的：改图绝对要比生成图片要难。为什么呢？你需要先理解这张图片，这个图里哪个地方是人，这人哪个是脸，哪个是身子，哪个是腿。当我们发生一些什么样变化的时候，我怎么能够保持它的一致性？说比如说，我拍了一个低头的照片，说这不太好，你抬起头来，然后再笑一笑。我把演员拎回来，或者把模特拎回来，说你再给我拍一次，成本很高。那我们直接叫给这个改图模型，你去给我干这件事情，它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候，这玩意儿还干不太好，特别是跟人脸有关的事情。但是到2.5 Flash，这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧，我也会做一点点小的事例，放到咱们YouTube的shorts里头，这个还是挺好玩的一件事情。所以，如果我们没有办法对图片进行很深刻的理解，把需要改的部分抠出来，改完了以后再把它贴回原来那个地方去，这个是做不成的。所以这是推理能力的上升，不是它的图片生成能力上升，而是推理能力上升了。

Gemini 2.5 Flash image到底有什么新特性呢？第一个，它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型，千问3是一个多模态模型，Deepseek还是一个纯文本模型，它是没有多模态理解能力的。豆包1.6最新的版本，它是一个多模态模型，可以直接进行视觉推理的。GPT-O3、GPT-5，这都属于多模态的推理模型。你没有这种底层的话，是干不了这活的。给你一张图片，你连图片到底画的是什么都理解不了，你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天，你都分不清楚的话，你就没有办法做后边改图这个事情。你比如说给他一张图说：“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚，这个是衣服，穿上西装以后到底应该长什么样，这事要理解明白了，推理清楚了，他才有可能生成出结果来。

那么第一个就是多模态大模型。第二个，支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品，这个都可以。而且呢，在编辑的过程中，能够完美的保持人物、动物等主体的外观和姿态的一致性，这个是修图里边最难的。像我们经常让豆包去修图，或者可灵去修图，修完了以后经常发现什么问题？不像了。你像我上传一张照片，说：“来，给我把背景换成一个海滨的背景。”海滨背景换了，但是前面那人不是我了，可能看着稍微有些似是而非，但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性，而保持一致性是整个修图里边最难的。

再往后呢，它可以合成3张以上的不同图片的内容，创造出组合的新作品。我看到有人做的Demo是把6张照片，六个人照片搁一块，说：“来，把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车，不是说每次都成功，但是呢，他已经有这样的能力了。还有人去测试什么呢？我给你一屋子，给你一书柜的照片，给你一床的照片，说：“来，把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。

支持多轮次迭代式的图像修改，不影响已确定的无关元素。这话什么意思呢？就是你给他一张图，这次给我加一床，下次给我加一个床头柜，再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候，那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型，你让他在床头柜上加书的时候，那个床就发生扭曲，就发生变化了，因为他是把所有东西重新生成了一下。

这个Gemini 2.5 Flash image呢，还能够理解和转换手绘的草图，用于教育和设计应用。比如说我们手画了一张图，这应该有个按钮，那个地方应该有个窗口，你把这东西扔给他，说：“来，给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。

最后呢，是禁止生成不当内容，并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的，你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家，OpenAI还没上市，虽然它是老大，但是毕竟不是上市公司。谷歌这是上市公司，多少年的行业老大了，它真丢不起这人。它出一点点小问题，就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候？说你给我生成第一次世界大战的这个战场，图片里头发现男的女的、黑人白人黄种人在一块。说这不对，西线应该都是白人，都是男的，不应该是这样。他说不，我们要多元性。最后导致被认定为翻车，导致他们整个的产品下线。

现在呢，拿这个模型去生图还是挺便宜的，它是4美分生成一张图，整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多，但是它的效果要好一些。同时呢，谷歌还发布了另外一个更新，就是VEO 3出了一个fast版本，就是快速版本。VEO 3呢是谷歌现在的视频模型，效果也是很不错的。它们大概是40美分生成一秒钟，这个成本也降下来了，原来大概是要80美分生成一秒钟，成本直接砍半。

这些新的工具到底怎么用呢？我们今天就不给大家看演示了，我会未来一段时间慢慢的把生成的结果给大家看看吧，大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image，可以用AI studio这个网站，它的域名是aistudio.google.com。进去了以后，你就选择Gemini 2.5 Flash image，选完了以后，你就提交各种的提示词也好，给他参考图也好，多给几张参考图也好，你就命令他去干就完了。我印象里应该免费，但是我不太确定了，因为我的这个账号是已经开始付费了，所以我现在是肯定能用的。我上去了以后，它会提醒我说免费的是有一些限制的。如果你想开心使用的话，你可以通过API去调用，也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用，他们也会给大家提供一些服务的。

下一个就是API调用。API调用的话，我准备过几天去玩儿吧，这个应该也是比较有趣的。它因为实在是太新了，它更新了以后，所有挂他的像什么Defi、N8N这些东西都没有更新呢，可能要等到再过一周的版本，这些产品就更新了。但我现在去调的话，通过http直接访问，应该也是可以使用的。那就是4美分一张图，4美分一张图，是这样来用的。

你说我现在想去画视频、想去生成视频，行不行？VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号，个人的Gemini账号是Pro版本的，一个月20美金的这个版本的，每天呢可以生成三条，每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来，让它给我去跳一个街舞，然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去，挺好玩的。

那你说我现在不想在Gemini Pro里头充20美金，行不行呢？可以。你像我这样有一个上大学的儿子，我就用他的大学edu的邮箱去申请了一下，我就可以使15个月的Gemini Pro，免费就可以用了。你说你没有这样的儿子，去找一下。现在我看淘宝上好像有人去做这个生意，20人民币帮你去做验证，就是EDU邮箱，去收一个邮件去验证一下，你就可以使15个月了。但是这种我估计用的人多了以后可能会被封，这个比较危险。

当前图片生成模型的格局是什么样的呢？Gemini 2.5 Flash image这个模型出来了以后，会不会打破现在这个格局呢？现在呢，基本上是四大门派。第一个门派是Midjourney，它生成的东西呢，最精细，最有艺术感，对于各种的艺术风格模拟的最像，这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强，因为它自己的推理模型非常强嘛，就是你给它很多的元素，给它非常复杂的逻辑的时候，它都可以给你画上，但是画的结果呢差强人意，也就只能如此了。OpenAI他们去做一些改图呢，也没有Gemini 2.5 Flash image好，但是呢保持一致性上做的还可以，要比Midjourney要做的好。Midjourney就属于一个纯生图模型，改图这一块一般，或者是说一致性参考这一块呢，效果都一般。第三个，Gemini呢，特别特别适合改图，它的这个生成的部分属于将就，还能看，但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲，说中国相声界的复兴是需要靠于谦和他的家人们，每次就是于谦的爸爸、于谦他老婆、于谦的什么，全靠这玩意讲的。另外一波也是这样，stable diffusion和他的家人们，比如说stable diffusion，然后包括Flex，它们的改图有一个叫Konnect的模型，k开头的，不是c开头的，有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西，或者是在这个模型基础上再训练，再改出来的东西。国内呢，包括可灵、豆包、千问，他们的这些图片模型呢，应该都是在这个基础上去做出来的，都是一脉相承的。他们也在卷改图，但是比这个Gemini 2.5 Flash image来说，就差的非常非常远了。

Gemini的2.5 Flash image的成功，给中国的大模型公司带来什么启示没有？这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候，一切能力就都会上升。所以大家其实卷的是最底层的这个模型，而最底层的这个模型，你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了，说我现在用很少的算力卡就可以把这种模型训练出来，然后去追赶美国，这个事有些难度。所以国内的模型在这一块上，底层推理模型上，能力还是需要去追赶的。

而国内各个大模型公司呢，他们的图片模型、图形模型和推理模型一般是分开发展的，还没有真正发展到说我们要把它结合在一起。你像豆包，豆包的推理模型是推理模型，图片模型是单独的另外一个模型，它两边一点关系没有。所以这一块呢，还是需要改变的。千问也是这样的，千问呢有专门的千问的image模型，也有千问image Edit模型。我昨前两天还在玩千问image Edit，效果也还行吧，但是你要跟这个Gemini 2.5 Flash image比，这事就没法比了。但是呢，都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型，然后呢他们有一个叫IMAGEN这样的一个模型，现在已经发展到4.0了，这个模型可能用的人也不是很多，所以就直接开始转型了，把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活，它最早的那个图片生成模型叫达利，DALL·E，达利2、达利3，达利3完了以后再往后就没了，再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话，就要把这些专门的图像模型扔掉，要把这些生图的功能跟大的推理模型，或者叫基座推理模型，要捆绑在一起，才有可能进一步的提升。

现在呢，当推理能力上升的时候，完全可以使用agent的模式，极大的提升绘图跟改图的能力。刚才我讲改图，实际上是做视觉推理。你把这个图理解的很清楚了，说我到底要画什么，哪一块是动的，哪一块是不动的，你把这个东西搞明白了以后，他才可以去调用这些生图的模型，把每一个小块生成好，然后再拼在一起。像loveart这些设计师的AI agent呢，其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看，我觉得loveart这种设计师的AI agent就稍微悬了，又被覆盖了。

好，讲到这里，大家也觉得比较无聊了，赶快都去玩起来，这个东西非常非常的好玩。老范以后再看到有类似的事情，再跟大家慢慢的分享，给大家带来乐趣才是我的核心目的。

好，这个故事今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

独立创新还是权力争斗？Musk再次挑战OpenAI，通过诉讼重塑AGI发展的法律与道德边界

老范讲故事 — Sun, 24 Nov 2024 00:38:21 +0000

Musk诉讼OpenAI的事情升级了。OpenAI又公开了一大堆Musk的电子邮件。大家好，这里是老范讲故事的YouTube频道。很多人都@我，要求我去解读一下这个事情。首先，要跟大家讲，诉讼对于Musk来说不是目的，只是一种手段。

咱们看一下Musk跟OpenAI之间的诉讼。2024年，也是今年2月29号第一次提起了诉讼，到6月11号，Musk就撤诉了，因为他这个诉讼期限基本上到了，他所提供的证据又不太够，直接主动选择撤诉。到8月5号，第二次提起诉讼，到11月份又进一步提交了一些诉讼材料，升级了诉讼。原来只是说你坑了我们的钱，现在说OpenAI你们有垄断的行为了，现在我要对你们进行反垄断的诉讼，等于他的诉讼升级了。

那么OpenAI的应对方式呢？按照我的看法，其实是比较幼稚的。他第一次被诉讼，也就是2月29号那一次，就公开了一堆邮件。在3月份公开了一批邮件，11月份诉讼升级了以后又公开了一批邮件。他在不断地干这样的事情，实际上很像什么呢？叫秀才遇见兵，总希望跟这帮兵去讲道理。就像干这样的一个事情，公开邮件其实是经过挑选和节选的，你又不是把所有邮件都公开了。他说，你看他们原来还说过这话，那是不是其他还有？他就不说了。他觉得别人就应该像他一样去理解和看待这些邮件。

所以说，这个事情稍微有点幼稚。而且人在邮件中的表达方式其实是受限的。你去看他这些邮件，原件是用英文写的。我用谷歌翻译把它翻过来以后看了，反正文绉绉的。我不相信这些人平时就是这么说话的，然后各种思考，认真的去度量什么这样，我有这种顾虑。谁平时这么讲话，对吧？那么这个里头其实是不能代表事实的全部的。那么邮件到底有没有意义？首先，这个邮件本身的原文就不跟大家讲了，这个有很多人去把这个邮件念出来过。但是我觉得其实意义不是很大，因为对于我来说，信息与事实。

它是分几个层次的。第一个，叫想法。我有这想法了，但是我还干了，或者我还没干，这就算是一个层次了。或者你这恶意上班，或者你恶意读书，恶意返乡，这就属于是你有想法，你的想法是不好的，跟你这个最后做什么没关系。这是第一个层次。

第二个层次是说出来了。我不但讲了，我还说了。这是第三个层次。像邮件里边，它是一种书面语言，而且是有存档的。邮件跟我们使用的IM，例如微信这些东西，它是不一样的，因为它像是一个相对比较正式的文件，而且双方有存在。我这叫已发送邮件，那边叫已接收邮件，大家都存着。

再往后叫什么？叫法律认可的证据。大家注意，前面这些东西，法律是不是认可，他们有没有法律效应，是有一些法律效应，但并不完全是。真正法律认可的东西是什么？是双方签字盖章的这个法律文件，这个东西是法律绝对认可的。其他东西，其实法院并不是那么认可。我写了个邮件去，你拿着邮件到法院告我，我说我跟你开个玩笑，这有什么问题吗？没有任何问题的事情。

所以拿着邮件出来公开这件事，本身就很幼稚。最后你说到底有没有事实真相？讲了这么半天，事实真相，我相信它是存在的，但是很难被认知和确认。而且不同的人面对同一个事实真相的时候，可能也会有不同的解读。在这个里头并没有说谁是说真话的，谁说谎了，不能这么去解释，只是大家的认知不一样而已。

那么法院会不会参考这些邮件？会参考，但是并不会仅仅参考你提供的那些邮件。他会要求对方回应，比如说open I提供的一些邮件了。法院正常干什么？Musk他们提供了邮件了，你有什么要提供的没有？双方会一起来提供，甚至有一些双方都不提供的部分，会被律师想起来说这可能还有一封邮件，那可能还有一封邮件，都把它拎出来，我们都看看到底是什么情况。

但是，绝大部分邮件是没有法律效力的。大家一定要记住，邮件我们里头依然是可以胡说八道，依然可以不承担任何后果的，只有双方签字盖章的法律文件。

而咱们中国人讲究盖章，美国人讲究签字，只有这样的文件才有法律效应。或者说，我们经过公证了以后，才有法律效应。否则的话，这些邮件是没有法律效应的。那么邮件里头都说了些什么？大概的意思是这样：

第一个，谷歌很邪恶，所以我们要去做AGI，不能让谷歌把它做出来，不能让谷歌垄断这件事。第二个，说我们钱不够，哈哈，说一开始做非营利组织，我们的钱不够，我们需要更多的钱才能够把AGI这个事情做下来，否则实在搞不定这个事。因为做AI的人工资都很高，而且甭管是数据的收集、加工、处理，还是租用算力，这个都是非常昂贵的。第三个，谁也不能控制AGI，甭管是谷歌，是你Musk，还是Sam Altman，没有任何人可以去控制AGI，这个东西实在太厉害了，实在是太危险了。任何人控制它，可能对于整个人类来说都是一场悲剧。

基本上在讲这几个事情，不停地讲Musk，你不是说你不想当CEO吗？你怎么又要来控制我？说Sam Altman，你怎么也想当CEO呢？他写了很多这样的邮件在里头。

咱们通过一个简单的故事来回顾一下，说这个到底是一个什么样的事情。因为你真的去把所有邮件都念一遍，或者再去梳理一下当时他是怎么想的，这个实在是太累了，还是没什么意思。咱们讲个故事，这故事什么？比如说有一个美女，可能是在民国时期的一个美女，她特立独行，要求独立，要求我一定要过自己的生活，有这样的一种美女，这没有任何问题。那么这种美女出来以后，一定会吸引很多的这种富家公子或者有能力的人去追求。

那么这时候Musk跟Sam Altman就都跑来了，说这不错，我们要追求一下。但是Musk比较大男子主义，也不愿意伪装上来，说你要么就让我管着，要么就滚，大概是这样的。这个美女给他写了一堆邮件，说任何人都不能控制我。Musk说算了，太累了，不跟你玩了，我去搞我自己的去了。你自己独立去。就讲这样一句话。Sam Altman。

比较隐忍，也比较有耐心，最终让Sam Altman得手了。他抱得美人归，但是Sam Altman也通过一些手段，最终把特立独行的美女改造成了传统妇女，洗衣做饭的家庭主妇。改了，说：“你这个原来OpenAI是一家开放的非营利组织，现在因为实在钱不够，咱们改成商业公司，好好挣钱。”搞成这样，搞完了以后，Musk就不乐意了，把Sam Altman告了，说：“当时不是这么答应的，现在怎么搞成这样了？”

Sam Altman这个时候就把Musk原来写的情书，或者是把原来Musk跟这个美女之间的一些通话记录给拎出来，说：“你不用笑话我，当时你也这么说的。当时你说了你不乐意了，你跑了，我才接着干的。”他等于大概就是这样的一个情况。

面对未知，或者是面对未来，这些科学家们，特别是这帮理工男们，其实很容易想多。我们现在看到OpenAI很多这样的事情，你最后会想到说，这些人为什么会这样去想问题。大家去看看奥本海默的那个电影，或者那本小说，你会发现在曼哈顿计划的时候，一大帮理工男其实就已经犯过类似这样的错误了。大家想着：“我要去做原子弹了，我要去做一个人类从来没有做出来过的大炸弹了。”在这样的情况下，我们是不是就肩负了人类的使命？这个时候，一帮理工男、一帮工程师就开始想：“我们应该怎么来处理这个问题？我们应该如何去决定人类的未来的走向呢？”他们就开始思考了。

但是思考了以后，最终的结果通常是被律师、会计师和一帮政客们给玩弄于鼓掌。你去看看最后奥本海默的下场就知道了，这其实是非常没有意义的一件事情。在WEB3社区里头，其实我也会看到很多类似这样的故事。我也参加过一些WEB3社区的活动，也是这一帮特别理想主义的Web3社区才会出现这种事。你说那帮纯骗钱的Web3社区，他们是不思考这些问题的。一帮人在思考什么？这个社区治理啊，民主啊，什么在思考这样的问题，权力分配啊。

对吧，这个很有意思，大家看看就可以了。但是，这件事情对于这种真正应该去思考他们的人来说，这些理工男的思考大多都停留在比较可笑的幼稚的层次上。那么现在，面对 AGI 这样的一种未知的未来，这些理工男老毛病就又犯了。要我说的话，就是让律师去做律师的事情，让工程师去做工程师的事情，是比较好的方法。

这次，有可能会有一定的变化，因为这一次我们做出来的并不是原子弹，也不是外部三社区，而是 AGI。AGI 确实可以帮助一些聪明人更容易地跨领域去思考，去产生内容。但我并不认为这些理工男，这些工程师们在这种哲学家、人类学家、社会学家和律师的领域里头，就能够比这帮人想得更明白。这个我觉得还是术业有专攻。

但是，像 Musk 跟 OpenAI 之间的这些诉讼，并不是坏事。通过诉讼，大家可以把问题讲清楚，可以充分的讨论，而且是公开的讨论，这是一件好事。最终，形成一些判例，供未来进行参考。这是一个对整个 AGI 发展的过程中有必要去做的一件事情。

其实，有点像咱们明朝干的一个事，叫什么大礼仪。大礼仪什么意思？当时选了一个皇帝出来，为什么选？这个老皇帝死了，他没儿子，那找了一个新皇帝出来。新皇帝出来以后，咱们讨论讨论，我亲生爹应该怎么算，大家就讨论了半天，讨论了多少年。其实，大礼仪的过程并不是在讨论大礼仪本身，而是在讨论君到底有多少权利的问题。最后，是皇帝赢了。

当然，咱们最后有一点不好是什么？大礼仪确实是划定了很多的规矩，但是同时划定了很多禁区，因为最后是腥风血雨。那么很多事情就变得不可讨论了。这个是东方人讨论问题的一个必定。西方的诉讼，可以在建立规则的同时，还是可以继续拿出来讨论的，而且后续有可能进行改正和修正。这个其实要比咱们的大礼仪可能要稍微好一点。

那么诉讼可能获得的结果是什么呢？新的决策和治理的结构，因为现在甭管是 OpenAI，Anthropic 都在探索新的治理结构。

就不再像原来的公司那么去治理了，有可能会有一些不同的治理方式。在 AGI 到来之后，或者到不了 AGI，就现在的 AIGC 平台到来之后，原来的这种公司治理结构其实已经没有那么适合现在的商业发展了。

再往后，就是新的决策机制。以前都是说我们是一人一票，按照钱投票，还是按照什么样的方式投票，或者有什么样的监督，这些也需要进行变革。第三个是新的商业模式和利益分配方式，这块也是有需要的。因为现在的 AIGC 最大的问题是自己没挣钱又很重要，而且还很烧钱。那么，如何进行新的利益分配，这也是现在大家需要去讨论的问题。

希望可以通过这样的诉讼，把这些问题给我们找出一些答案来。当然，也不可能说这一次诉讼就把所有的这些问题的终极答案都找到了，但可能有很多次或者非常多的类似这样的诉讼也好，讨论也好，能够让 AGI 未来发展的道路上，这些基本的底层逻辑得到一部分的充实。就是决策、治理、公司架构、商业模式和利益分配，这三个东西要重新思考一下了。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加 Discord 讨论群，也欢迎有兴趣有能力的朋友加入我们付费频道。再见。

百度为什么不做Sora？探索百度的独特AI发展路径与未来方向，背后原因是吃不到葡萄说葡萄酸吗？

老范讲故事 — Tue, 19 Nov 2024 00:52:17 +0000

百度为什么不做Sora？是不是吃不到葡萄就说葡萄是酸的呢？大家好，这里是老范讲故事的YouTube频道。

11月12号，百度世界大会上就透露出来说，百度从来就没有想去过做Sora这样的世界模型，或者叫视频模型，从来没想过。百度呢，是一直希望走自己的多模态道路，不希望去跟OpenAI这样的公司卷入世界模型的竞争。虽然到现在为止，Sora也没出来，但是跟在后面跑的人还是很多的，特别是抖音、快手，都推出了各自的视频模型，还有很多国际上的厂商也在视频模型上争先恐后地往前跑。

但百度说，我不干这个事，我有更重要的事情在做。这是百度李彦宏亲口说的。那么，百度努力的方向到底是什么呢？百度努力的方向是消除幻觉。大模型都是有幻觉的，百度呢说，我们作为一个中国公司，你可以不说话，但是说错了是很麻烦的，所以我们不能产生幻觉，保证我们说的都是对的。而且这个是在各种角度上，所有的评判标准来看，都得是对的，不能有任何问题。因为有的时候，你说的你觉得对了，但别人觉得不开心，这也是不行的。

所以百度呢，作为一个有中国特色的AI领军公司，他们向着消除幻觉的方向前进了。他们准备怎么去消除呢？他们这一次在11月12号的百度世界大会上，推出了一个很有趣的东西，叫IRAG。大家要知道，RAG是我们在做AI agent，或者叫AI智能体里头，用得比较多的一个技术，叫搜索增强生成。就是我们先搜索，搜索完了以后，根据搜索的内容再去生成，这样的话，能够保证生成出来的东西没有什么幻觉，是在你给定的范围内去生成的。它倒不一定说保证生成出来的东西是对的，但呢，它保证说你给我的是什么，我生成出来的就是什么。

那么，IRAG是一个什么样的东西呢？这个前面这个I到底是做了一个什么样的单词放进去了呢？I这个词呢，是图像（image），以图像为基准的RAG。什么叫以图像为基准的RAG呢？就是正常情况下，咱们RAG都是做的文本或者是表格。

搜索完了以后，把这些文本和表格通通都做成矢量数据库里面的一个点。然后找到离他比较近的点拿出来，去生成跟问题相关的答案。这是RAG的标准过程。IRAG呢，就是百度说我有好多图片，我把所有这些图片，以及图片识别出来以后的各种信息，直接拿去做嵌入，然后形成史料数据库。在这个里边去搜索，搜索完了以后再去重新生成图片。这意思是什么呢？就是你去训练说这个人叫张三，张三长这个样子，张三坐着，张三站着，张三乐了，张三哭了，张三吃东西了。他把所有这些东西都训练好了，放到一个矢量数据库里边。等你下次要求他去生成图片的时候，说张三穿着什么什么样的衣服，站在哪里，在做一个什么动作，有什么样的表情，有什么样的风格，他就可以从矢量数据库里头把你要的这些信息都找出来。张三长这样，我有了；然后呢，穿什么衣服，我在数量数据库里再去查。查完了以后，哦，衣服长这样我也有了。做什么动作他可以画得很准。他做了这么一个很神奇的技术出来，但是我看到这个介绍以后说：“哎，这玩意好玩哈，我得去试试。”然后我就跑去试了一下。首先我跑到了百度文心一言的网站上，测试一下，发现文心一言3.5版本一如既往的拉胯，依然在那胡说八道，依然在那前言不搭后语，咱就对他没有什么预期了吧。然后闻心欲言4.0依然需要收费，算了不测试了。那么画图吧。画图的过程呢，稍微有些吓人。首先让他画车，你让他画各种型号的车，都非常的准。说我迈巴赫哪个款，在巴黎的凯旋门下，哎呀，那个做的非常的漂亮，一张照片绝对一下乱真。大众这个车呢，除了车牌子上看不太清楚之外，也是非常像的。比较遗憾的是，我要求他画小米苏7，他没画出来，估计是小米苏7他的素材不够多，或者训练这个模型的时候没有用很多的小米苏7的图片，或者说他的IREG的这个矢量库里头没有那么多的小米苏7的图片。每次要求他画小米苏7的时候，他画出来的呢，都是问界M5，这个就没办法了。然后画人吧，要求他画郭德纲。

哎呀，我天呐，简直就是拿照片直接贴上来。你说郭德纲干什么？马上就给你做一个一模一样，绝对以假乱真。但是呢，你要求他画于谦，这个事就没法整了。画出来的也是郭德纲。大家想明白了没有？为什么会这样呢？

说为什么我要求他画于谦，这个IRAG产生的结果是郭德纲呢？因为很简单，你所有在百度图片里头搜索于谦的照片，郭德纲都站旁边了。于谦、郭德纲，郭德纲、于谦，你郭德纲站的照片多一些，那么他就认为说是不是于谦应该也长这样。可是这样的一种运作方式，实际上呢，他向我们展示了用IRAG的这个技术，依然是没有办法避免幻觉的。你要求他画于谦，他画的是郭德纲。

有一张照片，我告诉他说，来，给我画一个郭德纲跟于谦在德云社说相声的照片。画完了以后，就是两个郭德纲，都很像。就是你单独拆出任何一个来，都是以假乱真的。俩郭德纲站在台上说相声了，就变成这样了。要求画其他人，就没有那么像了，比如说郭麒麟、马斯克，这个就不太容易认出来了。其他的我就没有再敢去测试，再测试可能会被警告了。

但是呢，他整个这套的IRAG的系统还是挺吓人的。如果你想让他去给你生成一些广告图片或者是一些假图，就是郭德纲出去做了一些丢人现眼的事情，绝对以假乱真，画的极像，已经是可以达到一定的商业用途了。特别是你，比如说我做一些店铺的装修或者是这种电商的图片生成，这个玩意还是可以的。

除了这个IRAG之外，这一次的百度世界大会上呢，还发布了无代码工具“秒哒”。一秒、两秒的秒，哒呢是一个口一个到达的达。所谓的无代码工具“秒哒”呢，其实类似于字节跳动的codes，对吧？也是让大家把智能体拼起来，然后形成AI agent去干活了。只是呢，秒哒现在呢还不开放使用，依然是让企业去报名排队。据说已经有很多人排队了。这些企业不知道为什么想不开，Codes现在就可以免费使，你干嘛还要去使用秒哒呢？像我这种稍微有点动手能力的人，可以使用Defi。

这个咱们就不说到这么远了。今年，除了前面我们讲的IRAG以及秒哒之外，还发布了什么呢？这个牛肯定还是要吹的嘛。现在吹的牛是什么？就是文心一言大模型，日均调用量15亿。我们已经数涨上来了，去年是5,000万，现在涨了30倍了。这个15亿呢，大家注意，没有单位，15亿次，15亿人，不可能15亿人，中国没有。15一次，这个也稍微有点不太好去评估，怎么算一次呢？那么我们就稍微保守一点评估吧，我们把这个单位写成TOKEN，就是每天可以生成15亿TOKEN。

哎呀，很多人说这个数好大呀，百度文心一言好厉害，这么多人使用它，生成了这么多的内容。但是你要想想，15亿TOKEN按照百度的收费标准，能够挣多少钱呢？百度文心一言4.0 Turbo，按照每千TOKEN的价格乘上15亿的话，一天的收入大概不到10万块钱。那你以为像百度这样的一个公司，这样的一个项目，值得上来去讲吗？如果这就是他的AI未来的话，百度一年挣个3,000万、4,000万这种水平，这个够干嘛的呀？

所以呢，这个数字基本上可以忽略不计，他只是跟大家玩了一个文字游戏，一天15亿，好大好大。你把它乘上钱数，你看看有多少。除了给自己吹牛之外，当然还要指明一下方向，说未来的AI发展是哪个方向呢？两个大方向，一个是智能体，应该也就是刚才我们讲的AI Agent这样的东西；另外一个呢叫产业应用，就是政府有钱或者是大的企业有钱，你们愿意为这个事情买单，你们就是未来方向了。这是李彦宏为AI中国指明的两个方向。

而且呢，保证说百度自己不会去做超级APP，实际上他也没这个本事，所以干脆吃不到葡萄说葡萄是酸的，我不做这个事。然后呢，要去打造上百万个超级APP，也不知道李彦宏怎么想的。超级APP不可能有上百万，到上百万了，以后这东西就不叫超级APP了，你没有那么多用户，叫什么超级APP？但那意思呢，就是降维打击，这个是很多互联网人喜欢讲的一种说法。

你是二维生物，我用三维的方式去干掉你；你是三维生物，我用四维的方式去干掉你。这是《三体》里边的一个词。这个所谓的降维打击是什么呢？就是你们都去卷超级APP去了，我要当你爹。在百度下边做的应用都是超级APP，我比你高一个层次。

当然了，也展示了一些智能体，包括百度自己的文心智能体平台。这个上面呢，号称有15万家企业使用，有80万开发者，但是也没有看到砸出什么响动来。如果产生了超级APP的话，广大的民众应该是能够有感知的。咱们现在没有感知，别说上百万个了，一个都没看到。然后也展示了一些超级智能体，什么法律问答呀，基本上也就是说我们通过百度的文心研做的一些AI Agent，怎么能够解决一点点的实际问题，这个也给大家展示了一下。

另外，时髦还是要赶的，赶什么时髦呢？百度智能眼镜，扎克伯格干成了，我们也得干去。这就是这一次的百度世界大会上发的东西。那咱们回过来说，百度为什么自己不做Sora呢？其实这个里头最本质的原因只有一个，就是百度自己是没有视频平台的。虽然百度有视频，百度有爱奇艺什么这些东西，但是百度自己没有像抖音、快手这样的平台。你像国内现在即梦跟可灵，卷的那叫死，天天俩人卷来卷去的。即梦后边是字节跳动是抖音，可灵后边是快手。生成完了视频，就放在我们的抖音、快手平台上，大家就可以宣传了，就可以直接用上了。百度自己没这东西，所以说那我就不跟你费这劲了。

而百度跟Sora呢，实际上是两条完全不同的路径。Sora是什么路径？Sora的路径是scaling low，大力出奇迹。中间很多东西我们也不去研究了，我们就把料堆齐了，数据堆齐了，算法堆齐了，再加上足够的算力，烧钱等待它涌现。原来的这些传统的方式，我们就不去考虑了，think differently。我们不用再去想说要不要更快的马车，我们直接去造飞机去了，还不是汽车。这就是Sora干的事情，是一帮有理想的人去做的事情。

而且呢，未必有结果。其实到现在为止，Sora都没有任何要做出来的迹象。而百度他们做的事是什么呢？是在现有的技术范畴下，满足现有的需求。这个呢，就属于典型的中国式创新了。要求的是什么？确定性高。我们要卷吗？卷的一定要确定性很高。哪方面要确定呢？第一，技术路线要确定。一帮老学究们，他们来去确定技术路线，不能让年轻人上。年轻人，你们没有经验，万一走错了路怎么办呢？这个你们不要去动。第二个呢，成本要确定。我投入多少钱以后，可以得到一个什么样的结果。成本确定了以后呢，收益也要确定。我做出来的东西得有人用，我得卖得掉，这个事才能去干。就比较现实。这个就是百度走的这条路。百度呢，要求是有市场能赚钱，所以呢，百度算是比传统的中国式创新更加保守一点的一个公司。

那么现在有很多人去讲说，scaling low现在到底行不行？美国有很多大学、很多机构，甚至一些著名的科学家都出来讲，scaling low是不是玩不转了，这种规模法则是不是有问题了？再往前堆，是不是堆不出东西来了？这件事呢，只能这么说，从scaling low诞生的第一天开始，质疑就从来没有停止过。为什么呢？因为scaling low指望的那个东西，就是scaling low成功的最终结果叫涌现。这个词什么意思？就是你不确定他来不来，你不确定哪次行哪次不行，你也不确定说我到底是增加多少。以后有这么一次，因为涌现这个东西，它一定是不连续的。不是说我上了10块显卡，出了一个东西；上了11块显卡，又出了一个东西；上了12块显卡，又出了一个东西。这个是不连续的。你有可能10块显卡，你最后算出来一个数据可以用，然后呢，11、12、13都没用。结果你发现上到第100块显卡的时候，又跑出一个结果来，又有一个跳跃式的创新，又往前走了一步。那你说咱堆吧，堆到1,000块显卡，咱再做一次，发现哎，好像有那么点提升，但是又不是那么明显。哎呀，这个好像不对。

但这个事情是不是就不行了？不一定，因为在下一个节点在哪，谁也不知道。这个才叫涌现呢。如果你知道下一个节点在什么地方，比如说有这么多数据堆在一起以后得到结果，那下一个节点，比如说我们说是乘10倍、乘20倍、乘30倍或者是1,000倍，这都不知道。这个才叫真正的 scaling law。就是我们就只管往前堆，未来是不可预期的，不确定的不连续的。

这个东西从开始的那天大家就质疑它。这个过程呢，其实很像什么？就是咱们小时候都看过一个故事，叫小马过河。什么意思呢？这个小马背着一包货准备过河，人家就跟他讲说你这个过不去的，这个河很深，会淹死你的。这个不同的人就都跟他讲不同的话。就是每一个老的科学家或者是一些进行成本核算的会计师们，看到 scaling law 就会跟他讲：“小马过河，你是过不去的，你这个事有问题的。”那这个怎么办呢？必须要往前蹚，蹚完了以后去寻找下一个的节点，这个是没有什么办法的。

百度这么想到底对不对？百度说我不去作死 Sora，我要去做 IRAG，我要去消除幻觉，做有中国特色的创新，这事对不对呢？其实百度这么想并不丢人，作为一家成熟的商业企业，这样思考算是一个正常的商业逻辑。但是呢，如果按照百度自取的那样，他是中国 AI 行业的领军企业，这么想问题的话，就有点可悲了。

但好在是什么？就是中国做 AI 这一块，反正至少我测试的各种产品里头，我觉得百度基本上还是排不上号的。百度自称是中国 AI 行业的领军企业，这个事呢，让百度自己开心就好了，关起门来称大王就可以了，让我们每天看着百度是怎么思考问题的。我觉得他思考问题的很多的方式还是有借鉴意义和价值的。但是呢，作为一个国家的这种 AI 领军人物，最好还是有一点梦想，愿意努力的，跳一步往前走一走，有可能你就会走到一些不一样的地方。

好，这一期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群。

也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

联想技术世界大会揭幕：全球科技巨头聚首，共话X86生态命运及AI PC演变前景。Intel与AMD握手言和，英伟达、微软、Meta、高通也都参与，很多恩怨纠结在一起

Luke Fan — Sun, 20 Oct 2024 00:36:32 +0000

联想技术世界大会上看江湖恩怨情仇。大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲10月15号刚刚在西雅图召开的联想技术世界大会，它叫Tech World 2024。

在这场会上，上台演讲的人呢，第一个是杨元庆，联想的老大；然后是英特尔的CEO基辛格博士；再往后是AMD的CEO苏兹风博士；再往后是英伟达的老大黄仁勋，他不是博士啊。这些人是在现场演讲的，还有一些嘉宾呢，就显得亲疏有别了，他们并没有到现场来演讲，而是发送了视频演讲，就是在现场播放了他们演讲的视频。第一个是微软的萨提亚·纳德拉，微软CEO；然后是高通的CEO克里斯蒂亚诺·安盟；最后是Meta的小扎，也在里边发表了演讲。这个是一开始没太想到的，因为Meta的小扎跟前面咱们讲的所有这些人其实没啥关系。

那么在整个的大会上呢，发表了哪些东西呢？第一个是联想自己的AI PC，以及联想自己的AI Now。AI Now是一个什么东西呢？就是联想自己的一个基于PC的AI助手。这种东西呢，其实有点像，比如说三星应用市场啊，或者是索尼应用市场，有点像类似这种东西。为什么要提到这两个产品呢？因为你想，他们三星也好，索尼也好，出的都是安卓手机，你安卓手机在海外的话，按道理说你用Google Play就完事了。但是不行，我们一定要做一个自己的应用市场，在上边去。到底有没有人用我不管了，反正我得做。

所以现在联想出的AI Now呢，也是类似这样的一个东西。你是用微软Copilot，还是用联想AI Now，我不管，反正我得出一个，就是类似于这样的产品，做了，但未必有很多人用。那么联想AI Now的底层是什么呢？刚才想想演讲嘉宾里头有哪些人跟他们关系不是特别密切的呢？对啊，这个联想AI Now里头用的是Meta的LLama 3.1。所以呢，小扎在里边有一个演讲，小扎也算第一次混到了PC圈里头，他原来跟PC圈是不怎么打交道的。

除了联想AI Nowe之外，这次还发了一个东西，叫X86生态系统咨询小组，做了这样的一个新的机构。这是什么样的情况？X86生态现在要混不下去了，面临ARM的这种竞争，已经要有问题了。原来英特尔结构，也就是英特尔跟Windows做的这个架构里边，X86是非常坚挺，完全不可动摇的一个位置。但是现在，随着苹果M系列芯片的大卖，微软也跟高通一起做了X Elite这样的芯片，做了Windows for ARM这样的系统出来。

所以现在，X86整个的团队说：“哎呀，不行了，天要塌了啊，我们要重新抱团取暖了。”所以这一次发布的是两个东西，联想AI Now和X86生态系统咨询小组。联想算是绝对的PC老大，在联想收购了IBM的PC业务之后，全球就是他老大了。到目前为止，联想在全球的PC出货量和中国的PC出货量都是老大。2023年，联想在全球出货了24%的PC，在全球每卖100台PC里头，包括笔记本，有24台是联想的，当之无愧的冠军。在中国市场的话，是34%的市场占有率，也是当之无愧的冠军。

那么联想这样的PC老大出来说：“我们吆喝个事吧，然后大家来捧个场啊。”大家一定是要来的。在这个里头，AMD跟英特尔一定是最亲近的，对吧？这俩做CPU的，AMD自己还做GPU，很多的联想产品上都是使用他们的产品的。而且，X86的大旗也需要靠他们两家继续扛下去。所以现在有很多人想说：“哎呀，尽释前嫌，在外敌面前，大家还是要团结一致的。”所以英特尔跟AMD两个，基辛格和苏资峰握手言和，说：“来，咱们研究一下啊，这个地盘要丢掉了，基本盘要不保了，咱们怎么能混下去？”所以他们赶快来，去组织X86生态系统咨询小组。

那么X86生态咨询小组里都有哪些人呢？英特尔肯定是老大，这个东西他发明的，其他人都是从他那里直接或间接拿到的授权，所以英特尔一定是在的，AMD也在，因为AMD也是做X86架构的CPU。

然后就是联想，它也在里面。再往后一个叫博通，博通呢其实主要是在做网络和存储相关的芯片，也是非常大的一家公司。然后是一些其他的电脑厂商，比如说戴尔、惠普，这都在里面。然后谷歌也要进来掺一杯，因为谷歌其实自己也是做电脑的。但我现在不太确定谷歌最新的电脑还做不做了，因为谷歌原来有一段时间出这个Pixel的电脑。而且他们的电脑到底用的是X86的架构，还是用的ARM架构，不太确定。反而谷歌也可以算是一个电脑厂商吧。

然后有一个公司叫汇宇科技，汇宇科技呢其实原来是惠普的子公司，只是现在的两家分开了。惠普主要出各种个人产品，个人电脑、打印机什么的；汇宇科技呢主要是各种企业级用户使用的产品，是他们在做的。他们也来参与进来。

然后Meta，我做LLama系列的开源大模型，那么我在这个里面也要去支持PyTorch这样的大模型的支持系统。这些系统要支持X86架构，所以Meta也加入到了X86系统咨询委员会里面。除了Meta之外，还有微软、Oracle、红帽子。Oracle是做数据库的，其实也做操作系统，Oracle自己也有一些Linux发行版本。微软肯定是Wintel战略里边不可或缺的一支。红帽子算是所有的Linux里边比较大的一支。我现在不确定是红帽子最大，还是Ubuntu最大，但是红帽子参加了，Ubuntu没有在里面。

其他还有一些德高望重的老先生，比如说Linux内核的创始人Linux老头，还有俺real之父叫Tim Swinney。那你说与会嘉宾里头有没有人没加入呢？哎，咱们看一看。原来都讲着说领导生病了，谁来了我记不住，但是谁没来我记着呢。咱们看看，刚才咱们讲了这么多与会嘉宾里头，有谁没在刚才这个X86的小组里边来。像Meta跟大家平时玩不到一块的人，他都在里头。那有两家没在里头，一个是高通，一个是英伟达。高通呢其实跟联想还是有蛮多合作的。

联想自己也出了一些高通芯片的Windows笔记本。就是它有Windows for ARM嘛。联想现在用X Elite这个芯片，也做了几款设备出来。那么英伟达为什么没在里头呢？其实英特尔和AMD最恨的不是高通，最恨的是英伟达。英伟达上来讲的是什么呢？你买我英伟达的显卡，就有AIPC了，你不需要去买最新的AMD芯片，也不需要去买最新的英特尔芯片。因为AMD和英特尔都为了AIPC，为了AIGC大模型设计了新的芯片，希望联想通过AIPC的大卖，把他们的新的芯片卖出去。但是英伟达上来以后说：“唉，不用费劲了，你们用原来旧的芯片，用比较低档的英特尔和AMD的X86芯片，只要是在里边插上我的英伟达显卡，就可以了，效果比他们那还好。”所以这也是不能让它加入的，高通不能加入，英伟达不能加入。

联想在整个这个里边，实际上是个渣男。为什么这么讲呢？就是联想除了出英特尔和AMD的电脑之外，还出高通的电脑。联想还出一个型号的电脑，里头用的是兆芯的产品，亿兆的“兆”，芯片的“芯”。这俩字，兆芯的这个芯片其实也是X86架构的。兆芯的X86的授权是哪来的呢？是原来的台湾威胜电子的X86授权。他可以继续去造这个芯片。台湾威胜电子原来有一段时间卖的还挺火，叫Cyrix芯片（C Y R I X），只是后来他们就慢慢淡出大家的视野了。

现在国内要求信创，要求完完全全的国产替代，所以上海兆芯电子又重新活跃了起来，为联想提供完全国产的X86架构的芯片。因此，联想现在也完完全全可以提供全国产替代的电脑。除了刚才我们讲的高通的芯片的电脑以及兆芯的电脑之外，联想还跟龙芯一块合作做了电脑。但是龙芯现在是发布了，他的产品应该还没有上线，因为龙芯的芯片里边的指令集是完完全全自己的，100%号称是中国自主研发、自主知识产权。那甭管是不是真的，他有一点是肯定的，那就是跟谁都不兼容。

既不是ARM的指令集，也不是RISC-V的指令集，更不是X86的指令集。它跟谁都不一样，所以他们这种电脑，谁要去买的话，估计会比较酸爽。咱们刚才把各种芯片公司的关系都讲了，再看看几个软件公司之间的关系：Meta、AI Now、Copilot，他们三个之间是什么关系？Copilot是微软的嘛，大家要注意，Copilot在国内是不能用的。在国内，你是只能用一些其他的产品。而且在联想开完了这个会之后，微软马上就宣布说微软云的AI接口不对中国个人开放了，但是微软云的AI接口对中国企业开放。所以联想的设备里头，有可能会接一些微软云的企业AI接口，但对个人接口全都封闭了。这也是为了在国内合规。微软的Copilot，无论是在它的Office、浏览器里面的搜索引擎，还是电脑里边的，在中国都是不让用的。

那么，AIPC在中国就只能用AI Now，就是联想这套东西。而Meta呢，就是AI Now的底层提供者，提供LLama3.1。而且可能未来会升级到LLama3.2。LLama3.2现在我们在本地可以跑1B跟3B的版本，只能是做文本处理。10B或者更大的这些版本，现在本地还跑不了，在Ollama里头还没有。那个是可以进行多模态的处理的，你给他一张图，直接问他说这里头画了什么，他可以直接回答出来。这还要再等一段时间才能出来。我相信等到那个时候，可能联想的AIPC，它的功能相对来说就比较完整了。

因为在苹果开了这么多大会之后，所有这些做PC的厂家说：“我已经搞明白了Apple Intelligence怎么做。”联想AI Now，我照葫芦画瓢抄就行了。本地能够跑的硬件，AMD、英特尔、英伟达都给我搞定了，包括高通也可以搞定。然后软件的基础，我们用LLama3.1就可以了，未来可能会升级到LLama3.2或者更新的版本，然后它的整个服务模式。

照着苹果抄就可以了。以后的 AIPC 在海外，如果你用 Windows 的话，就主要用 Copilot。如果在国内的话，AI Now 也可以稍微将就一下。大概是这样的一个运作方式。

今天我们看到的是什么呢？我们总结一下，就是村里最大的地主要开个堂会。联想吧，就是 PC 这个村里最大的一个地主，他开堂会呢，那个场子大家肯定还是要来捧一下的。就是甭管大家是貌合神离也好，还是各怀鬼胎、同床异梦也好，大家还是要来的啊。英特尔、AMD、英伟达、高通、微软、Meta，大家都抵到现场来捧这个场。你如果没来的话，我们会记住你的。

而 AIPC 这条路的话，其实是非常难走的，啊，充满了荆棘。在这个路上，有地缘政治的问题，甭管是咱们的国产替代，还是说 AI 的产品不允许在中国落地等等，这样的一些问题凑在一起之后，整个 AI PC 全球的市场，其实这个路是很难走的。因为 PC 这样的一个产业，一年全球出货 6,000 多万台的 PC，如果大家没有办法做一个统一的标准，你做你的，我做我的，在这个基础上再去进行软件开发、服务设计，就会变得非常非常困难。

至于未来到底会走成什么样，真不好说，我们一步一步往前走，拭目以待。而且我们可能还需要留出一些很神奇的问题。这些问题是什么？比如说，纯国产替代的 AIPC 怎么办？现在国内还有国内的这些显卡的芯片，还有国产的这些 CPU，这些国产 CPU 里头有谁可以跑 AIPC，现在还不知道。我们就用 Llama 这个东西行不行？还是说到了中国 Llama 也不让用了，必须要去用通义千问，或者用百度文心一言。百度文心一言还用不了，因为它没有离线的版本，必须在服务器上使。百度文心一言跟 AIPC 就没有什么关系了。那么这个是不是要去换系统，现在还都不一定呢？

Llama 在国内其实使用的是非常普遍的啊，但是呢，大家谁都不说，就跟微软的这种微软云的 AI 接口一样啊，所有国内厂商去签约使用微软云 AI 接口的，都要求同时签保密协议。

你不许对外说啊，我用了你们家东西。LLama其实也是如此，大家都去喊自主创新，自主知识产权去了。我怎么能够承认我是用LLama呢？如果联想的电脑在国内进行招投标的时候，那我们还要想说，哎呀，我们用的是不是纯国产的芯片，纯国产的内存，纯国产的SSD，纯国产的Linux操作系统，还是说我们用了纯国产的开源大模型？这个可能还是未来大家需要去回答的一些问题。

好啊，这就是今天跟大家讲的故事。联想在西雅图办堂会，各路大佬啊，甭管是心怀鬼胎同床异梦，大家都是来捧个场。未来AIPC的前景堪忧。好，这期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

超级智能的黎明：山姆·奥特曼如何定义智能时代并引发人性与科技的重新思考？

Luke Fan — Wed, 02 Oct 2024 00:43:20 +0000

第二个故事：山姆奥特曼的超级人工智能，或者叫超级智能。现在呢，OpenAI的融资时刻，总是要集中的发声表达意见，而且呢，只能有一个声音，唯一的声音，不能大家随便乱说。所以，山姆奥特曼给大家打了一个样，以后说的照我这样说，或者干脆以后就只许我说，你们都别说。

现在呢，它等于发了一堆东西。第一个是发了O1的这个模型，第二个呢，也发了一篇长文。今天咱们解读一下这篇长文。语音模式的高级使用方法呢，现在也上线了。我现在手机上能用，但是我的Mac电脑现在还用不了，要稍微等一等。但是呢，手机能用了以后，并没有什么新鲜感，唯一的差异就是你现在可以打断它了，这块要好一些了，交流起来要稍微自然一些。

这一次，山姆奥特曼的文章里都写了什么？9月24号，山姆奥特曼发了一篇博客长文，里边呢讲了几件事。第一个呢，他承认说社会是高级智能，比我们任何人都更聪明、更有能力。这个呢，算是提出了一个新的观点吧，人类的能力提升并非源自于基因，而是来自于社会，跟我最近在看的《世人之上》相互呼应吧。

第二个他说，每个人都可以拥有自己的人工智能团队。在不同领域里头，都会有虚拟专家来辅助你，共同创造几乎所有我们想象的东西。那就是未来AGI实现了，可能就是这样的一个状态。而且呢，他希望大家可以共享繁荣，不是有多少个人有电脑，有多少人有手机，不是这样的啊，完全是不一样的繁荣程度。每个人的生活，都将比现在的任何人更好啊。

这个呢，其实就是一种大的工业革命以后的效果。你就想，有了汽车以后，是不是所有人的生活都比马车时代要好？基本上可以这么认为，除了战乱地区之外，就是你认为和平地区可以是这么去想的一个事情。所以他觉得智能时代以后也是如此，每个人的生活都会比现在任何人都好。

繁荣并不一定快乐，并不是说大家就把所有问题解决了啊，很多富人依然不快乐。但是呢，生活的品质会上升，然而上升了以后，我们还是不快乐，还想考古啊，这事是不对的。然后呢，也给AGI下了定义啊。

就任何通用人工智能，不需要特定训练的情况下，可以完成很多任务。而且呢，提出了新概念，就是超级智能。大家注意啊，超级智能里头少了俩字，少了哪俩字？人工没了啊。AGI这个东西呢，就是要跟人一样聪明，可以完成人的一些工作，而且不需要预训练。但是超级智能是要比人聪明。那么它呢，应该是超越人工智能的范畴，也超越人的范畴，在任何智力任务上都大大超越人类。这是未来的方向。而且呢，他觉得这个也不远了，应该是几千天就可以实现了。有些人说可能是十年或者几年，就有可能会看到这种超级智能的实现，甚至呢，可能达到完全不可思议的一个程度，无法想象的一个智慧了。就是基本上是要去造神的状态。

如何实现超级智能呢？他也讲了深度学习取得成功，就可以造出这种超级智能来。实际上就是进一步推scaling low，还是要堆数据，堆更多的算法，堆显卡，堆到更大的一个规模之后，达到一个数量级突破，我们就可以得到超级智能了。而且在做超级智能的过程中呢，不要过度的关注细节。大模型的发展是一个整体的发展。你说：“哎呀，你的语音做怎么样了？你的图像做怎么样了？你的视频做怎么样了？你是不是安全？是不是不安全？”说如果纠结这些事情，超级智能就做不出来了。所以我们一定要努力去做去。

而且呢，也给时代下了个定义，比如说这是一个智能时代的黎明，那我们还没有到智能时代。原来是比如原始时代，或者是愚昧的时代，然后是工业化的时代，再往下一个时代就是智能时代了。只是现在我们还没到。其实很多人喜欢给时代打标签。我记得前两天是Michael Anti写了一个，说我们现在又几点零时代了，AI是应该怎么去分类啊什么的。这个呢，我个人是不太喜欢给时代打标签的啊。你像山姆·奥特曼这样的人给时代打了标签，可能就没有那么可笑。但是绝大部分人给时代打标签，就会显得稍微的不那么严谨吧。山姆·奥特曼给时代下了一个定义，智能时代的黎明，要将人工智能交给更多人手中。

OpenAI的这个使命，山姆·奥特曼依然准备去遵循。什么意思呢？就是他讲说，如果人工智能成为了有限资源，只有很少数人能用的话，是有可能引起战争的，会成为富人的专用工具的，这个是他不希望看到的。他希望OpenAI可以让更多的普通人可以用起来。但是这件事情不是他光希望就可以的。要让普通人都用上这个东西，还是要对普通人有作用，让普通人有感知才行。

而现在的OpenAI推出的很多新东西，其实对于普通人来说意义不是很大，特别像O1这样的模型，给普通人去用其实没什么用的。然后去讲说未来可期啊，令人震惊的成就将司空见惯，就是我们现在觉得完全无法想象的事情，未来可能四处都是，而且会不断地发生。他会解决气候问题，建立太空殖民地，发现所有物理定律。这句话写得非常奇葩，所有物理定律会发现，而不是说像以前我们想象的那样，我们发现的物理定律越多，我们发现我们越无知。

这里面他讲了一个叫“发现所有物理定律”，而且是有无限的智慧和充沛的能源，这是他对未来的一个期望。当然了，他也讲到说AIGC的理论，大模型是有风险的，人工智能，包括超级智能，都会带来很多问题和风险。但是呢，我们不能因为害怕这个事情就不干了，不能因噎废食，还是得努力前进。

而且最终的结论是什么呢？作为一个社会，我们将回归一个不断拓展的世界。其实在这个过程中，我们要看到背后讲的是什么，背后讲的是我们不要以人类这样的一个基础去说到底应该怎么去发展，是不是会被替代，是不是会被伤害，而是要以社会这个层面去看。本来人类得到发展，也是得到了社会的帮助。开始讲社会本身是一个超级智能，比所有人都聪明。那么在这样的一个情况下，他要改变的是社会。

至于未来的社会里，到底是有人还是没有人，还是人跟机器怎么去合作，那是未来的事情。但是呢，社会在智能或者在超级智能的帮助下，会重新变成一个不断拓展的世界，不断地去拓展新的文明，新疆域。

这使他对整个社会的一个期望吧。那文章大概写了这么长，写的还是比较有想象力的吧。但是呢，这样的文章里头，它其实没有任何具体东西。你不可能说，像原来OpenAI发布Sora，OpenAI发布GPT-4，OpenAI发布其他的这样东西，可以让别人有的抄，有方向可以去模仿，什么都没有，写了一堆非常空泛的东西。但是呢，也可以让我们去想象一下，未来到底是什么。

在融资的时候，通常都是公司最动荡的时候。山姆·奥特曼呢，也终于成了孤家寡人。咱们举一个例子，Sora在年初的时候发布，震惊了全世界。震惊完了以后，他自己又拿不出产品来，全世界所有的人都在去做Sora，百度这两天也出了，字节也出了，快手也出了，还有一堆的创业公司也都做了自己的Sora。结果到现在为止，他做不出来了，这事就很麻烦。

山姆·奥特曼在去年11月罢免事件之后，重新回去做CEO的时候，我当时录了节目就讲说，这个人的心理会有一些扭曲的。他以后不会再相信其他人了，他一定会相信他可以掌握的事情，否则的话，努力了半天，结果被董事会扔出来。而这个对于一个创始人来说，是非常非常大的伤害。这种伤害会伴随他一辈子，就是一个人是由他的过去经历来塑造和定义的。

去年11月份的罢免事件呢，也算是塑造了山姆·奥特曼。以后可能就更加的狡猾多疑吧，会变成这样的一个人。他呢，一定会任用更加值得信任的团队来管理事务性的事情。你说科技的事情他可能管不了，但是各种事务还是要他去控制得住的人去管，就跟咱们国内很多公司的老板喜欢找老婆或者是小三来去管财务一样，这个过程是一样的，也像古代的皇帝喜欢任用太监是一样的。

这一次融资呢，据说已经超募了。什么叫超募？就是说我现在准备融65亿，现在呢，愿意给钱的人比那多。就是每个人给的钱加一块比这个数多了。那么一般超募了以后的处理方式呢，就是要去拒绝一些人。啊，当然有时候超募的时候会多募一点，比如说我要65亿。

现在超募了10%或者超过了20%，一般在募集之前会跟大家说好。如果超过了20%，我就把这20%之前拿进来就完事了，再多的钱就要拒绝了。选谁的不选谁的，大家要去谈判。在谈判的过程中，可能是根据条款以及条件去限定其他的话，可能就基本上拒绝掉了。

所以他这一次融资基本上算完成了。而且呢，据说这一次融资可以摆脱非盈利机构的束缚了，他就完完全全变成一个盈利公司。但是非盈利组织还会在，只是他们的管理关系会发生一些变化。而且呢，也要开始给山姆奥特曼发股票了。山姆奥特曼据说是会发到7%的股份，对于一个1,500亿美金的公司的7%，哇，好多钱啊。我就不算了，你们帮我算一下这是多少钱吧。

其他的管理团队在这个时候呢，咱们不说什么理念相合呀，或者是我们想做的更安全呀，或者说有没有个人发展呀，这个事我们就不研究了。可能有这样方面的原因，在融资的时候团队分崩离析的，实际上我见过非常多的案例，最主要的核心原因只有一个，就是分赃不均，大家分股票没分明白。

现在山姆奥特曼分了7%，其他的这些管理团队，或者是叫做联合创始人的这些人，他们就会干嘛？不患寡而患不居。这一个礼拜大概又走了三个，他那个美女CTO也跑掉了。当时把山姆奥特曼干掉的时候，就是这个美女CTO说：“我一定要让他弄回来”，然后跟这个董事会对抗，最后把山姆奥特曼给拯救回来。今天她也走掉了。

对于基层员工来说，实际上相对是比较容易满足的，因为大家都差不多，大家都是拿的期权池，可能每个人有个百分之零点零零几这样的一个情况。但是你别看百分之零点零零几，对于他们来说可能也是几十万美金，几百万美金，就不要想比例的事情了吧，大家都挺开心的。

但是对于最上面这个，就是对于可以去按比例分这个股份的人来说，你是分不明白的。山姆奥特曼如果能分到7%的话，剩下的人可能连1%都没有，或者0.几，那肯定心里就不满意了嘛。那么说，趁着融资的时候，我们看看是不是调整一下架构。

应该怎么去分一下？这个事估计就没分明白。对于创业团队和管理层来说，预期管理是非常难的啊。像我们做投资的时候，其实基本上做两件事：第一件事呢，叫做信任游戏。如果不信的话，你是拿不了钱，别人也没有办法去相信把钱给你。

另外一个呢，叫预期管理。如果我觉得你的公司值100万，你觉得值一个亿，这就属于预期管理失败。特别是当有很多股东、很多投资方的时候，就要把所有人的预期对齐。如果对不齐的话，交易就没法做。有些人只觉得山姆奥特曼这公司Open AI值1,500亿，有些人觉得值1,000亿，有些人觉得值800亿，那这个就没法在同一份协议上签字。有些人觉得说，山姆奥特曼上百亿美金了，那我们其他人跟你一起玩的时候，我是不是也应该有个几十亿美金，或者有个几亿美金？如果你没分到的话，这就属于预期管理失败。如果是一堆投资人和股东，预期管理失败呢，那大家就没法签协议，要换投资人啊，换股东。最后让一些人对齐了以后再签字。如果是创始团队的，那就离职。所以现在在融资即将落地的时候，有核心大将离职是非常正常的。这个事情我们见得非常多。

然后咱们来讲这个吹牛的事情。Sora呢到现在为止依然遥遥无期。我看很多人去写文章、发视频，讲Open AI CTO这个漂亮姑娘去离职的时候啊，都在讲是因为她发了Sora，结果最后没做出来，她跑了。而且呢，她走了以后，Sora可能做不出来了。这个呢，我觉得最大的问题就是，预期管理失败。他等于对整个的社会放了一个预期，然后他自己又没有在预期相应的时间内把东西做出来，没有填这个坑。吹的太详细了，而且让别人都照着做这事是不行的啊。

前面吹的牛现在还需要慢慢的填。山姆奥特曼呢，算是给吹牛立了一个标杆，以后再吹牛怎么吹啊？多讲哲学，少讲些具体的实施方法。像刚才我们看的山姆奥特曼的博客，长文基本上就是这样的一个东西。我不会告诉你说这东西怎么做的，我也不会告诉你说……

我们具体会做成什么样？他只是告诉你说，未来可厉害了啊，厉害的你都无法想象了，无法用文字去描述了。他如果能描述得清楚，未来就是这样的，那甭等他做，别人就冲着这方向就去了。他现在已经是排头兵了，已经是风向标了，就不能再去讲很具体的事情了。

那么公司呢，有的时候就会失去创新力。其实像Open AI现在正在慢慢向这个方向前进。我们以前去做很多公司的调查，15年、16年的时候吧，在国内走访了大量的做AI相关的公司。走访了一段时间以后，最后我们立了一个标准，什么样的标准呢？挣钱的都不要，外包的都不要，接工程的都不要。为什么呢？因为做科研的公司锐意进取，他是没有办法盈利的。你也搞不清楚这东西到底怎么挣钱。而你一旦要去做销售为王，要开始做外包、开始做工程了，那么他就没有办法说，我再去投入那么大的精力去做这种你的预期完全无法预测的科研。

这个事就没法干了，因为很多的这种公司都是这样，说我一开始是做AI系统的研究，做底层，做自然语言处理，等做完了以后呢，还不挣钱，然后呢就开始去接项目。中国的甲方又是有名的刁钻啊，或者说比较苛刻，他们会提各种各样的问题。提出问题了以后呢，这个工程团队就会专门有另外一帮程序员去给他们实现。而在实现的过程中，其实即使到现在的大模型，你会发现很多事情，直接写程序进行简单判断实现，要比大模型给你生成的效果可能还好一点，特别是在甲方很规模的情况下，更是如此。

那么在这样的情况下，为什么要花这么高的薪水，养这么一帮不赚钱的科研团队呢？我们应该更倾斜一些，让给公司挣钱的人得到更好的收益，他们会做这样的一个事情。公司只要向这个方向发展，他们的一开始的原始研究团队就会快速离散掉，因为你又不愿意给他钱，而且还天天给他脸色看，说你看你每天花钱做出来的东西，别人又用不了，别人也搞不明白怎么用。接到工程项目里头以后呢，这个代码的质量又特别差，这个是很正常的。

我看科学家写的代码，这个品质都稀烂无比。像我们以前做人脸识别，都是专门雇佣的科学家。科学家最后写完代码以后，我们需要再雇一个程序员把它重写一遍。他们两个人就是鸡同鸭讲，科学家说：“我为什么这么做？算法是怎么做的？”正经的程序员根本就没法看，因为他们的各种内存泄漏、各种不规范的工程方式特别多，完全没有办法进到这个代码库里边去。

在这样的情况下，这些科学家就会走开。所以现在，OpenAI其实也在经历这样的一个事情，就是能做出业绩的人留下，财务、法务、人事、行政这样的一个团队来去管理公司。这样的团队实际上就是“皇上信任的事务团队”。山姆·阿尔特曼经历了去年11月份的罢免之后，现在整个OpenAI也有上千人了，所以他应该会有一个很强大的事务团队。

我见过很多这种创业公司，在一开始公司很小的时候，都是一帮技术、一帮销售、一帮业务人员，每天大家在商量说公司应该怎么做，应该如何去处理。等公司涨到一定程度以后，所有的话语权就会回到财务、法务、人事、行政手里面。然后，这些元老，特别是一些原来喜欢去说两句的，都会被财务、法务来教育：“你不可以去对你不负责任的事情发表言论，这些事情不应该你知道，你就不能知道，这个事情是要保密的。”他们会通过这样的方式把整个公司的创新力完全扼杀掉。

但这也没办法，公司的发展到一定阶段以后，一定会走这条路。那么现在OpenAI应该正在走这条路。一方面就是分钱没分明白，另一方面可能确实也有一些人是有理想主义的，但最终很多公司就是被金钱战胜了，最后谁有业绩谁留下。你说财务、法务这帮人，肯定也是围着有业绩的人去转，因为他们自己不挣钱嘛。你说另外一波不挣钱的人，肯定是我怎么看着怎么不顺眼，一定是这样的一个状态。由他们再去管理公司以后，大家的积极性就没有了。

现在呢，我们只能说，希望 OpenAI 还可以在排头兵的位置上多站个一到两年。你也不要对他有更多的预期了，再多站一站，至少把 AGI 做出来啊。觉得以 OpenAI 现在的这种势头，已经积累的这些人、这些代码、这些钱，他应该还是可以把 AGI 做出来的。把 AIGC 企业当前遇到的各种问题呢，也要解决掉，这是 OpenAI 当前的一个任务。

AIGC 的企业当前遇到了哪些问题呢？第一个问题就是不赚钱。你做了一大堆研究，最后没有赚到钱。而且大家没想明白这东西到底咋赚钱。但是 OpenAI 一旦把这个问题解决掉了，以后它也就不再是一个研发型公司了，它就变成了一个老老实实的该挣钱的公司，就像微软、苹果这样的公司了。这是第一个问题。

第二个问题是什么？就是距离解决实际问题的这个差距。这个其实是一个用户交互的问题。我一直在讲，OpenAI 做的聊天式的交互方式其实是有害的。大家其实并不需要这样的一个聊天交互方式。现在我们看到的一些比较好的交互方式是什么呢？就是一种叫流式交互，就是我们把需要做的事情规范好，设定几个流的节点，然后一步一步请你把它做完。这个其实才是可能更好的一种交互方式。但是这种流式交互方式，对于不同的业务是需要重新去设计的，它没有通行性。所以现在大家也在思考，应该如何去把这种先进的技术，用好的交互方式跟所有的人融合在一起，这个是需要去思考的。也希望，比如 OpenAI 和苹果合作的过程中，可以把实际问题解决掉。

最后呢，AIGC 行业还面临了一个很大的问题，就是消灭就业而不增加就业。就像山姆·奥特曼讲的，未来会面临巨大繁荣，所有人都会比现在任何人活得更好。但是，怎么走到这一步，怎么能够让所有人比现在都活得更好，这个是要去思考的一个问题。就像我们可能在马车时代很难想象，说高速公路家家户户都有汽车，这个事是没法想的。那么，未来到底是什么样的呢？

我们现在想象不出来，怎么能够让所有人都生活得更好。这个事情呢，至少让他再打个样本出来。这个我觉得是OpenAI的一个使命。如果它能把这些事情实现了，那么它倒下了也没有什么关系。如果你说你实现了以后，最后像谷歌一样，成为了一个基础设施公司也行。你千万不要说它把所有东西实现了以后，变成了政府，那就比较危险了。这个可能性也是存在的。

至于说超级智能这样的东西，到底会不会出现，会不会到来呢？不知道啊，有可能会有。而且真到了那一天，可能从人类的角度上来说，我们可能叫新人类，或者说叫一些什么不一样的东西。我们就跟现在的人，已经完全是两个不同的物种了。而且真的是超级智能了，以后你咋跟他说话？特别聪明的人，比如说北大伟神，够聪明了吧？你站在他面前有任何交流的欲望吗？其实你是没有的。还是说我们就见到这种得道高僧似的面前，我们说什么，他任何一个回复，或者佛陀拈花一笑，我们都觉得自己是个傻子。这样有意思吗？其实也没什么意思。

所以未来的这种超级智能，到底应该如何跟人一起去协作？或者人在未来超级智能掌管的这种社会里头，应该在一个什么样的位置上？它都已经远远超越人类了，还要我们干嘛使啊？这个其实是我们需要去思考的。而且我觉得，山姆·奥特曼把这个问题提出来，本身也是一个很好的事情。这个就是今天我们要去讲的：山姆·奥特曼在融资的时候发的这个文章，到底在讲什么？以及OpenAI为什么会有这么多的管理者、这么多的技术大拿会离开？以及我们应该如何去面对超级智能的一个故事。

OpenAI的GPT-o1 发布：科技大爆发的前奏，草莓模型震撼上线

Luke Fan — Tue, 17 Sep 2024 01:10:51 +0000

大家好，欢迎收听老范讲故事的 YouTube 频道。今天咱们来讲 GPT O1 发布，科技大爆发应该会到来。草莓模型终于发布了。今天我太太还问我说，这个模型发布了，对于你们这些科技圈的人来说，算是意料之外，还是算意料之中？这个事情直接把我问在那了。

其实，每一个人都希望赶快把草莓模型发出来。但是 OpenAI 从今年年初开始公布 Sora 到现在，他吹的牛有点太多了。到现在为止，这是我们真正见到的能够用的产品。虽然 GPT4O 也是能用，但完整的 GPT4O 其实到目前为止，一直没有彻底开放出来。而这个 O1 上来直接就开放了，今天早上凌晨 3 点突然上线，哐往那一挂，大家愿意用的都可以去用了。我自己也去用去了。他呢，也换了一个名字，叫 GPT-O1。所以呢，这就不是 GPT5。

未来可能会走两条路，一个是继续走这种直接进行语言生成的，而 O1 这条路，走的是深度思考，要去反思一个问题，要深思熟虑以后才去回答。所以他有可能两个路要分开走，而且两个模型可能会相互配合着使用。

现在的 OpenAI 呢，就跟 O 干上去了，OpenAI 以 O 开头嘛，它后边的仪态产品基本上都是 O。GBT4O 这个 O 叫 Omni，意思是全能。下一代大模型，也就是大家等待的 GPT5，它的模型的名字叫 Orin，猎户座。而现在的 GPT O1 意思是从零开始计数，从头开始。

这是一个什么样的大模型？他深思熟虑，具体里边是怎么做的，这个都是大家在猜，或者有一些很简短的文章，因为现在他也不开源，OpenAI 变成 Close AI 了。这个东西到底内部如何实现呢？大家只能猜。

现在就可以用 Plus 用户，像我就是 Plus 用户，一个月 20 美金，可以用到两个版本，一个叫 O1 Preview，预览版，应该是在正式的 O1 版本上裁剪出来的一个版本；另外一个叫 O1 Mini，O1 Mini 是要比 O1 Preview 还要再小一些的版本。但是这个额度非常少，少到什么程度？O1 Preview 一周 30 次，我今天大概已经用了有十来次了，后边几天我要省着点用了。Mini 是一周 50 次，真的是没见过这么抠搜的模型。以前的都是三个小时多少次，或者一天多少次，甚至有一个小时多少次，而现在这个 O1 都是一周几十次。所以用的时候一定要小心。

有人在去传说，准备上 200 美元一个月的 Preview 版本，这个属于传言。今天还去问了 GPT4O，被辟谣了，说我们不准备干这个事。
就是20美元一个月的这种Plus版本，我就让你用，只是数量少一些。未来，我们会想办法把这个数量提升上去的。这个O1的测试数据非常亮眼，数学能力极强。在2024年美国数学邀请赛上，能够达到全美前500名优秀学生的这个水平，这是非常吓人的。然而，他这个数学邀请赛应该是中学生，文中并没有说明到底是初中生还是高中生，但能够达到前500名的北美学生参赛水平的，已经非常高了。

物理、生物、化学方面，可以直接达到博士生的水平，这个也是很恐怖的一个能力。编程能力得到了极大的提升，在信息学奥林匹克竞赛里头，超过半数的参赛选手，如果是打开常考，让他慢慢的想，让他多试几次，是完完全全可以得到金牌水平的。在Code Forces平台做竞争性编程比赛上，已经超越了93%的程序员，已经算是一个比较资深的程序员了。

我自己也在里边做了一些编程的测试，确实非常的猛。我去向他提出一个很详细的要求，我说我现在要做什么事情，希望使用哪些技术，希望效率怎么提升，在界面上怎么去设计。当然，这个提示写的比较长，写完了以后，啪一回车，首先是漫长的等待。不是说啪一回车就出来了，这东西挺慢的。等一会以后告诉你说，应该在哪个地方，怎么去装环境，第一步做什么，第二步做什么，哪个里头有哪个文件，这个文件里写什么东西，啰里八嗦写了巨长的一段。我发现O1这个玩意是非常话痨的一个大模型。

而如果你不是像我这样用Plus版本去直接调用，而是说我要用API去调，那你就上了当了。他会啰里八嗦说半天的，而且他那个TOKEN的费用奇贵无比。那么，为什么讲这就是科技大爆发即将到来？O1其实并不是给普通人用的，普通人去玩GPT-4O就已经足够了。O1这种东西其实是给科学家、工程师、程序员用的工具。

现在限制科技发展到底是什么？其实数学是限制科技发展的一个很重要的因素。因为数学越往后发展，其实越反人性，必须筛选出极少数的数学天才，才能够继续往前面去前进。而且人类为了达到当前科技的高度，必须进行非常长时间的学习。你想，一个小孩从出生一直上到博士，可能研究才能研究点东西出来，这个时间得二十几年，甚至是三十年你才有可能能够学完。学习的成本是非常高的，而且筛选也很严格，因为学习成本很高，必须要选出最能够去学习的人去学。

但是筛选的过程又未必科学合理，不一定说一个筛下去的人，他就比进去读博士这个人差，也许你换一个人上来科技就发展了。
但是这件事我们不知道，没有任何可以试错的机会。在学习的过程中，也会扼杀创新力，因为我们不断地学习，实际上就在学习前任的方法，这会造成路径依赖。所以，其实是导致现在科技很难再往前走的一个很重要的原因。而且，我们必须要阅读大量的信息文献，才能够去做研发。为什么呢？如果不读，你只能重复造轮子。有没有人做过这个？没有查重，那你折腾半天做完了以后发现，哎，20年前有人做过了。这也是很正常的。而且，人的大脑不是说我读了大量的信息和文献，就可以去做新的创新的，而是什么呢？我们的大脑像掰棒子的狗熊似的，你把新的东西进来以后，就把旧的知识可能忘掉。你要想始终得到一个最新的知识，在这个基础上去做研究，这还是非常难的。

但是现在有了O1的帮助，这些问题其中一部分就可以解决了。我们不再需要进行严格的筛选，不再需要进行漫长的学习，让更多的人可以进来进行科学创造。整个科技大爆发，可以带来不同的变化。很多科技前沿的关卡，其实已经开始松动了。学习筛选的过程也必然会发生改变，以适应O1之后的科技研究。

我个人用的体验到底怎么样？首先说，个人使用O1的体验并不好。为什么？第一个是很慢，这刚才我讲了，一个回车下去，你要在那等。而且很贵，如果使用TOKEN API直接调用O1的成本，要比我们使用GPT的各种模型都要贵很大的一个比例。而且给的配额还非常少，你想，一个礼拜才给了你50次，这个事实在是让你不太敢打回车。

编程问题我去试了一个，刚才我们讲的说你给我写一段程序，他思考了多长时间？两分钟。你打完回车以后，两分钟他没理你，做完了以后再告诉你说我们整个用了两分钟，才给你输出了一个结果。每周三50次，这确实是有点费劲。

那贵到什么样的程度？O1 Preview的价格是GPT4O的3-4倍，输入100万TOKEN是15美金，输出100万TOKEN要60美金，这个是非常重的一个价格了。因为我们去写编程那个题的时候，刚才我说他写的特别话痨吧，直接输出了8,000多个TOKEN。按照100万TOKEN 60美金算的话，我等于那一次回车下去，我就已经花了大概0.5美金出去了，所以这玩意是非常贵的。

O1mini要稍微便宜一点点，100万的输入是3美金，输出是12美金，但是MINI可能有一些效果会稍微差一点。那比较一下4O，100万的输入是5美金，输出是15美金。
这个已经是现在大家可以用到的比较好的模型了，而4O mini就是4O蒸馏出来的小版本。100万的输入才0.15美金，100万输出是0.6美金。所以我现在大量的这种模型工作，都是使用的4OMini。而且现在API的调用还非常不完善。

怎么个不完善法？第一个，不允许加系统信息。你正常跟人聊天的时候，你说的话叫用户信息，他回复叫助理信息。正常我们去跟OpenAI聊天的时候，还有一个信息叫系统信息，我们先设定你是谁，张三李四，你擅长什么事，这叫系统信息。现在这个O1呢，是不支持系统信息的，也不支持函数调用，还不支持流式输出。

流式输出是什么？我们在GPT上跟人聊天的时候，GPT都是一行一行一个字这么出来的，因为它出的慢。如果你不是随想出来点什么，随出就会等很长时间。而这个O1压根就不支持这功能，你只能是打完回车生等，等到他彻底算完了以后，啪一把吐出来。Plus用户呢，直接就可以用，但不是很顺畅。为什么呢？他不能访问网页，现在只能是用他已经训练好的数据去给你回答，而且也没有搜索的接口。

思考的过程建议大家不要打开，因为你在这个Plus版本里头说，“现在O1不一给我去回答一个问题”，你打完回车以后，他告诉你说，“我现在在想，我在思考，我有一些什么样的问题。”他在不停的在变化。这个东西呢，如果你点他，给展开一个思考过程。我点开过，我问了一个问题以后，发现他思考的有中文的、有英文的，还有阿拉伯语的，讲的东西基本上是驴唇不对马嘴，完全在胡说八道。但是最后输出的效果并不差，只是中间思考的过程，我估计是什么呢，随便给你写一点信息，让你不要太着急。

所以这个中间思考过程大家就别点开看了。O1这一次的发布其实是非常匆忙的。为什么呢？第一个是钱真的不多了，要尽快完成融资，否则以OpenAI的尿性，肯定还是说我们再放个气球出来，放一个视频出来，让大家慢慢等，而不是说直接咔就把东西扔出来了。现在马上要融钱，据说他们准备融资60多亿美金，再贷款50亿美金。那么这些钱加一块，大概也就够他烧个半年或者八九个月这种水平，再往后可能还得再去找钱。

所以在这种情况下，有一个新的模型发布，对于他找钱来说是比较有好处的。而且O1的很多体验并不好，很多GPT上实现的功能其实都没有实现，包括刚才我们讲的不能接网页、不能接搜索、不能去做流式输出。
而且呢，还没有任何的多模态。比如，你要给他一张图，他认不出来。想让他去做题吧，你必须要先用GPT-4O把这个图识别好了，再把这个识别出来的题扔给他，再让他去做。他自己没有这个能力。而且O1其实并不太适合广大民众，广大民众真正需要的可能是他Orin猎户座大模型啊，而现在那个还没出来，到底什么时候出来不确定。OpenAI最近也不断有员工在离职创业，这对于吹了太多牛、拿不出产品的OpenAI来说，会造成非常多的困扰。

即使有这么多问题，GPT O1不是那么完善，但GPT O1依然是一个划时代的产品。O1应该怎么用？大家知道最早的程序员是怎么干活的吗？最早的程序员应该这样，首先在纸上写代码。那个时候这个机器是非常紧张的，不是说随时就有啊，个人电脑是很靠后才有的。所以呢，早期程序员都是在纸上写好代码，写完代码以后，拿打孔卡或者是打孔纸袋去编程。在这个袋子上打完眼以后，约时间，说我什么时间是要去上机。你要去约，约好了以后，到机房把这个纸袋也好或者是打孔卡也好，装到这个机器上，咔咔咔给你输进去，漫长的等待，在回收结果。回收完了以后，如果发现有错误或者不满意的地方，回去接着改程序去啊，然后再约下一次去上机。最早的程序员是这么干活的。为什么这么干？就是因为资源太少。

O1的使用其实可以参考刚才我们讲的过程。第一个，GPT Plus的账号上每礼拜只能使用几十次，所以一定要珍惜。第二个，就是很昂贵。如果你说我不希望被它限制，我要到这个API上直接调用，那么这个确实是可以突破限制，你愿意使用多少就使用多少，但特别贵。另一个就是反馈很慢，你不可能得到实时结果。

那么现在我是怎么用的呢？第一个，先用GPT-4O或者是4O MINI这样的模型整理提示词。我先要说我要干什么，请把提示词给我写好，要给你省一个非常复杂的提示词。在这个基础上你再改，改完了以后再让GPT-4O去给你修改，得到了一个完整的提示词，要把该问的事情都问好。做完了以后，满意了检查过了，一把塞给O1说行，这就是我要干的事，你去干去吧，进行漫长的等待，可能等个几分钟，接收完整的结果。因为他不能像4O似的，我随时聊，错了以后我再纠正你，我再告诉你哪错了，再给我改一改。他没有这个机会，因为交互次数实在太少，而且很贵。这是GPT O1的一个使用方法。如果你说我现在想用O1去解决一个问题了，建议你们像我这么干。
先用GPT-4O去整理提示词，整理完了以后，一把扔进去。这可以把这些珍稀的使用机会应用到最大价值。再往后，可能很多AI创业的厂商又该有噩梦了。现在，AI agent的创业公司，噩梦又轮到脑袋顶上了，因为每一次OpenAI发布产品，都会有创业公司突然死亡。

AI agent干的是什么呢？就是人工规划设计流程，将复杂的任务分摊到多个大模型，最终获得一个可用的结果。而GPT-4O基本上是把上面的活儿都替你干完了。你给它一个复杂任务，它替你分拆，分拆完了以后一步一步去思考，思考完了再反思，去检验结果，在结果里挑一个最好的，再把这个结论扔出来给你。

我们自己去设计的这些工作流，可能还没有O1内部设计的工作流合理。他这个可能又高效又合理，所以大部分当时做的AI agent，现在都没有什么用了。那么O1算不算一个端到端的系统呢？这个怎么说，响应速度和想一想的过程，说端到端稍微有一点点亏心。

那么现在GPT O1还不适合融入AI agent，因为它实在是太慢了。以前的AI agent要重新做，重新规划。怎么规划？原来的AI agent是很多小模型，通过一个流程处理一个明确的需求，然后再拼凑出结果来。那么现在就应该换了，还是用一堆AI小模型，在人工参与下，输出完整高质量的提示词。这应该是AI还可以干的事。

再把这个提示词扔给GPT O1，得到了结果之后再干嘛？再用那些小模型或者执行代码，再去把GPT O1的结果去分解。说到底要去做哪些操作，哪些的代码要去修改，哪个地方要去建文件，要把这个事情自己再去处理掉。因为这个O1后边的部分都没有，它只是负责把要求出进去，它把结果扔出来，它就干这件事。

GPT O1带来进步，肯定也会带来一些毁灭或者一些伤害，这个事永远都是这样。我们发明枪会有伤害，发明炸弹可能有伤害的，包括计算机也是对社会有伤害的。O1这样的东西，它会对社会带来什么样的伤害呢？第一个，原来我们一直思考的叫有钱人不作恶理论，这个事被打破了。很多人说不对啊，都讲万恶的资本，怎么有钱人就不作恶了呢？

大家想这样一个例子：一个有钱人跟一个穷人过独木桥，每次只能过一个人，这时候该怎么办？通常有钱人会向后退，让这个穷人先过去。为什么呢？因为有钱人身娇肉贵的，如果真的掉下去了，或者出点什么事，这所有的东西就都没法享受了。而穷人呢，一条烂命，其他啥也没有，他输得起。
但有钱人输不起。所以呢，以此为基础，很多西方人认为，只要财富积累到一定程度以后，就不会去做一些特别过分的事情。你会维护社会的规则，继续运转下去。这个也是很多西方人认为大模型不作恶的一个原因啊，因为大模型训练实在太贵了。有钱人是不会花了这么多钱去训练一个大模型，跑去干一些坏事。对于他们来说，没意思。

我记得以前，我们也遇到过类似这样的问题。那时是买瑞士军刀，一个东西一个刀好几百上千。我就问那个卖瑞士军刀的人：“我说这玩意这么老长，算管制刀具吗？”后来人家那个店长也跟我乐，说：“您见过买上千的刀出去挡人的吗？买上千的刀的人都是搁家里摆着的。有钱人是不干坏事的。”

但是GPT-01出来以后，这个就被打破了。为什么呢？失控了。现在不需要那么有钱，也不需要那么天才，每个人都有机会推动科技进步。那么，藏在深山或者地下室里的科技怪人，可能就会越来越多。甚至很多民科，我们管它叫民间科学家。以前这些人只能骗东西，他们是做不出真正的玩意来的。但是现在有了GPT-01后，这些科学怪人和民科，就有可能做出奇奇怪怪的东西来。

那么，社会就会从一个稳定的金字塔状态，变成了散乱的一团沙丘。原来你必须要汇集起整个社会的动力，来供养金字塔尖上的一点点人，成为大的科学家，汇集资源，才可以去做科研。现在不用了，我们拿这样的工具，每个人说：“哎，我想设计一个什么东西啊。”跟咱们看美剧有一个美剧叫《Young Sheldon》，人家小孩坐在家里捅吧捅吧，想去做核反应堆的，可能未来这个事情就会变得越来越容易了。

而且GPT-01其实依然会产生幻觉，他也经常会说错、忽视，认为经过反思、经过很认真的思考以后，他说的就不错了。而且GPT-01的幻觉，它的危害要比传统的这种幻觉要大得多。

咱们先讲一个著名的哈雷彗星笑话吧，大家理解一下这个幻觉是怎么产生的。这个故事是在1910年，当然也有一些其他年份的说法，反正就是哈雷彗星来的那年。故事的重点是信息传递的一个偏差。

说某部队一次命令传递过程如下：少校对值班军官说明天晚上8点左右，哈雷彗星将可能在这个地区看到。这种彗星每隔76年才看见一次，命令所有士兵着野战服在操场上集合。我将向他们解释这一罕见的现象。如果下雨的话，就去礼堂集合。我为他们放一部有关哈雷彗星的影片。讲的就是这样。

然后值班军官就对上尉说：“根据少校的命令，明晚8点，76年出现一次的哈雷彗星，将在操场上空出现。”
如果下雨的话，就让士兵穿着野战服列队前往礼堂。这一罕见的现象将在那里出现。上尉对中尉就说，根据少校的命令，明晚8点，非凡的哈雷彗星将身着野战服，在礼堂中出现。如果操场上下雨，少将将下达另一个命令。这种命令每隔76年才出现一次。

中尉对上士说明晚8点，上校将带领哈雷彗星在礼堂中出现。这是每隔76年才有的事情。如果下雨的话，少校命令哈雷彗星身着野战服，在操场上去。上士就对士兵说，在明晚8点下雨的时候，著名的76岁的哈雷少将，在少校的陪同下，身着野战服，开着他的彗星轿车，出现在操场前往礼堂的路上。

这个实际上就是一个幻觉产生的过程。当搜集更多的信息，而且在这个里边进行反复的推理、反复的传递的时候，那么，产生幻觉的过程就会几何级数上升。虽然GPT O1在推理的过程中，采用了一些手段来规避幻觉，输出一些内容以后，他自己会检查，会反思，但是你毕竟是经历了这么多的步骤，人家也是想了好几分钟才想出来的。综合算下来，他产生幻觉的几率还是在上升的。而且GPT O1也没有那么靠谱。

我用最传统的老虎过河的问题去问了GPT O1，依然是错误。老虎过河，就三只母老虎带着三只小老虎，从这个河的一岸要到另外一条岸去。三个母老虎会划船，三个小老虎里头有一只会划船。任何一个小老虎在没有母亲的陪同下，遇到其他的母老虎就直接被吃掉了。有什么方法可以让所有的老虎都过去？每条船上应该是可以走两个老虎，船上每一次至少要有一个会划船的老虎，而且呢，船必须是老虎划，不能自己从南岸到北岸，或者从北岸到南岸。

这个题呢，每一次GPT出什么新版本的模型了，我都会问，包括GPT Gemini cloud都去问了一遍这个GPO1。本来我是对他抱有巨大的这种期望的，你一个反思、推理这样的一个模型，做这种题还不是手到擒来的吗？结果依然是错的。在这一件事情上，他并没有比GPT4O强到哪儿去，还是到了第三步就直接出生错误。我就纠正他，这个特别有意思啊。第一次告诉我说我这样这样做，我说你哪哪有错。当你做成这样的安排以后，哪个小老虎就被吃掉了啊？他说对不起，我又搞错了啊。他又想了几分钟，告诉我说我换了一个思路你再看看。我告诉他，你这到同样的一步上，你犯了同样的错误，是另外一只小老虎被吃掉了。

这个时候特别逗，PPTO1就告诉我说，我发现了你这题有问题啊，这题是无解的。你应该调整一下这个题，让每条船上可以多坐几个老虎。
这给这个条件放的稍微宽松一些，否则这个题做不出来。那最后，我是把正确答案告诉GPTO1了。PO1把这个答案验证了一下，后来说：“你说的是对的啊，这个第一步应该怎么办，第二步怎么办。”整个都帮你验算了一下，都是没毛病的。

GPTO1并不能解决所有问题，而且像CPTO1这样的东西，为什么说它可能危害更大？所有要求把手放在方向盘上的自动驾驶，其实是最不安全的。你说我如果就要自己开车，这个事其实还是挺安全的，或者说我们符合一个驾驶安全的一个平均数。那你说我这已经彻底安全了，不需要方向盘，车上压根没方向盘，那这个事也没问题。

但是你说我现在有一部分副驾驶，你还要把手扶在这个方向盘上，你还不能睡觉，这个其实是安全隐患最大的。而现在的GPTO1呢，其实就是这样的一个状态。它能够解决一部分问题，但是具体哪一部分它解决不了，它自己也不知道。然后我们如果信任它，那就经常，它会把一些错误埋在整个的研究里边去，而且是很难被找到的啊，就会帮助大家去堆积“史山”。这是GPTO1绝对会干的。而且在这个过程中，如果它前面输出的效果非常好，那么它就可以累计人类对它的信任。后边它在输出错误结果的时候，被人类忽视，直接漏掉，直接放到研究报告里边，这个几率就会上升。所以现在还是一个比较危险的状态。

总结一下，GPTO1在今天早上凌晨发布了啊。这三点虽然并不完美，但是呢，依然是划时代的产品。之所以说划时代，是指明方向了啊，OpenAI老大的位置保住了。因为原来做到GPT-4、做到Gemini 1.5、做到Claude 3.5的时候，大家觉得没有前进方向了，我们把能干的活都干完了。现在O1出来，哎，大家向这个方向卷。当这个方向一指清楚了以后，谷歌、Anthropic，包括国内的各个厂商，就要开始去追赶了。

而且这一次OpenAI不一样，不是说上了一个，放个视频就完事了，而是真的让大家用上了。那么国内肯定会冲的啊。最后，英伟达应该会冲，因为一旦有这种新模型出来以后，所有的大模型厂商就会集中起来，更多的显卡进行训练。另外，GPTO1这样的模型进行推理，应该也是需要更多的显卡，而且可能只能上英伟达的，专门为Transformer优化过的那种LPU什么的，估计会有些捉襟见肘了。

在未来一段时间里，大家可以继续相信AIGC就是现在唯一的出路，大家可以继续在这条路上狂奔了。这就是我们今天讲的第一故事。

马斯克、YC创始人都在吹爆的“创始人模式”究竟是什么？！

Luke Fan — Tue, 10 Sep 2024 00:47:58 +0000

创始人模式和职业经理人模式的对战在硅谷又重新开始打响了。大家好，这里是老范讲故事的YouTube频道。

事情的开始是Airbnb的老板，也就是Airbnb最后留下来的唯一一位联合创始人，在某一次演讲上突然提出了这样的一个想法。他说，别人总是建议他雇佣优秀的人才，并给他们足够的空间让他们去发展。结果呢，这些人把公司搞得一团糟，遇到了疫情这样的不可抗力，这些优秀人才根本就搞不定。因此，他决定亲力亲为，做这种精细化管理，从而拯救公司。

什么叫精细化管理？本来我们经常笑话说，蒋介石经常会打电话直接给下面的一些基层官兵：“你去给我做一个事情啊。”这个就属于叫微操，这个经常会被吐槽，因为一旦上面的老板在下面做微操了，那么中间所有的指挥链路就全都失效，就会出现很多大家意想不到的结果。因此，一般情况下，这种精细化管理或者说老板微操是贬义词。

这里要注意，这位老板提出了这种想法之后，有人就说咱们干脆叫做“founder mode”。提出观念的人是谁呢？是YC的联合创始人，他专门写了一篇博客，叫“founder mode”。写完了这篇博客之后，一众的创始人就出来点赞，包括像埃隆·马斯克专门在推特上写说，这个文章值得去看一下。

与创始人模式对立的是什么？就是职业经理人模式，也就是“manager mode”。创始人和职业经理人的差异主要在于规则与责任这两点。创始人通常不是那么遵守规则，而职业经理人是按照一套既定的企业管理规则去运转的。如果你打破规则，他们一定会有私心，偷偷往自己兜里揣钱或者在做一些其他事情。因此，创始人和职业经理人的第一大区别在这里。

另外一大区别在哪儿？就是责任。创始人因为公司是他创建的，所以他会在公司的各种运营和决策上愿意承担更大的责任。而职业经理人被董事会雇佣，他们通常只在董事会授权的范围内去做事情，一旦超越这个责任，他们就马上会停步不前。

因为一旦超越这种责任，其实是违法的。你超越了董事会赋予的权利，去做了某些决策，或者是向董事会隐瞒了某些信息，一旦被抓住，那真的是要去坐牢的啊，这个真的不是开玩笑的。而创始人更愿意在公司出现危机的时候，去超越这些责任。即使这个公司已经上市了，也有董事会给他制定了各种各样的规则，但他们还是愿意钻一些漏洞，钻一些空子在里边，去做一些他们自己认为正确的事情。

那么，为什么硅谷现在又开始呼唤创始人模式了呢？首先，现在是一个非常时期。什么是非常时期？AIGC要颠覆所有的行业。整个的硅谷虽然股价在往上涨，但是每一个公司都在裁员，所有人都看不到未来。因为所有的职业经理人，都只能应对正常模式，因为他要在规则范围内去做事情，要在责任范围内去做事情。职业经理人是无法应对非常时期的。

咱们看最开始讲的Airbnb的老板，他去吐槽什么？遇到了疫情，他的职业经理人就搞不定了。对他雇佣职业经理人的时候，绝对不会说我去面试的时候，要面试一个能够应对全球疫情和封锁的这样一个职业经理人。你给他的这种规则，给职业经理人的所有权限，他都不可能去应对像全球封锁这样的事情。

所以，现在硅谷又重新处在一个风雨飘摇的非常时期了，这个时候就要去呼唤创始人模式，因为只有创始人的声音才更容易被听到。没有人呼唤职业经理人破事吗？职业经理人通常不发声。咱们现在看看，在外边喊的都是马斯克啊、黄仁勋。职业经理人为什么不发声音？很简单，他就是出来做一个职业经理人，董事会觉得我可以干，我就来干来了。这个制度会有其他人替他发声的。

哪些人会去替职业经理人发声？股东、股东大会、董事、会计师与律师的事务所。他们这些人会为这些职业经理人发声的。为什么呢？咱们再想想去年11月份，山姆·奥特曼被董事会干掉的这个事情。山姆·奥特曼就是属于典型的创始人，经常还去搞一些小花招，董事会就会觉得，你是不是跟我沟通的不够，你做的某些决策我没法去理解啊。

或者有一些数据，有一些信息你没有很好的披露给我们。你未来的一些计划在跟我们讲的时候，是不是讲的不完整？那么在这种情况下，董事会就会失去对创始人的信任，直接把他干掉。职业经理人通常他就不说话，他只在他授权范围内说。我们经常看文质彬彬、非常有礼数的一些人，就是职业经理人。上来大嘴巴咔咔咔在这说的人，就是创始人。他是有区别的。

写这个“founder mode”的这个文章的人，他其实是一个一级市场的投资人。什么叫一级市场？就是上市之前的那部分。一级市场到股市上以后的东西叫二级市场。一级市场投资人为什么会出来力挺创始人模式？因为越早期的投资人就越是投人。这句话怎么解释？你想，YC他投的都是什么项目？都是几万美金、几十万美金开始投的这种项目，就是最早期的种子轮项目。在这种项目投资的时候，早期投资人说：“我们找到了一个年轻的、有干劲的人，他愿意打破各种规则，在这个新的市场里边去拼搏一下。”而新的市场里头到底应该往哪块走，他也搞不清楚。在这种情况下，他就会投人。

这个人一开始可能说：“我要去做一个创业，你来投资我吧。”这些早期的投资人，他们就会找到一个合适的人去做。至于他做的这个事情本身是不是靠谱，这个事情重要，但也没有那么重要。重要在哪儿？如果一个人选了一个特别不靠谱的事情要去做，那么通常这个人也不靠谱。如果这个人选了一个相对还算靠谱的事情去做了，那么这个人可能会靠谱一些。

再往后，一开始他想做这个案子，可能最后会失败。失败了以后，没关系，你接着再做下一个，没准就成功了。这里边给大家讲一个特别典型的案例吧。大家还记得以前有一个游戏叫“找你妹”吗？在一大堆的图片里边去找一些特定的图片。这个游戏也是突然火得一塌糊涂。那个团队一开始也是创始人去做其他案子，被投资人投完了以后，那个案子直接作废掉了。废了以后呢，说：“算了，我们再去做一个新的案子吧。”去做游戏，做出“找你妹”来，这个就属于很典型的投对人了。

然后，这个人最后一转身，一个新的案子成功了。这是一个典型案例，但是你说这个案子，还有很多人没听说过。找“你妹”这个游戏，我们再讲一个。我原来老说自己是投资人，这个总出来吹牛的一个案子，就是Musical.ly。Musical.ly这个项目，他们的团队最早做的，其实也不是这个短视频，他们最早是做培训的，做敏捷开发培训，也是拿到了钱，做到一半以后作废了。然后最后实在没有钱了，说咱们转型吧，咱们做一个别的案子吧，就做Musical.ly吧。你看，人是对的。最开始做那个案子，其实跟他最后那个成就的案子是没有什么关系的。

所以在这种情况下，越是早期的投资人越看人，他们越喜欢去观察人，找到正确的人，找到一个合适的创始人。那么，创始人模式跟职业经理人模式之间是如何过渡的呢？一个公司创建肯定是创始人模式，但长大了以后，慢慢就会变成职业经理人模式了，或者其中有一部分变成职业经理人模式。早期的公司肯定只能是创始人模式，这个没有什么办法。

但是在这提醒大家，由职业经理人转职的创始人需要投资人格外小心。为什么？因为职业经理人其实更懂得如何去使用话术，如何去套用很多现有的规则去做事情。而看起来，他们的资源也很丰富，认识很多的人，很多的人脉。但是很多的职业经理人，其实是没有从0到1的能力的。让他们去承担非常巨大的责任的时候，他们会退缩的。就当你直面深渊的时候，职业经理人未必能够义无反顾地往前走。这是很多投资人吃过亏的。

很多的这种职业经理人，或者是其他企业的一些高管，突然说我要去创业了，也有一些投资人会冲上去给他们钱。但是这些人，其实最后成功的比例并不高，而且这些人一出来要的钱还很多。这算是一个题外话。上市其实是一个坎，上市之前，大多数公司都是由创始人来管理的，或者是创始人模式。我们所谓的创始人模式，就是更注重人制，而不是法制，更注重创始人的个人魅力，而不是各种规则。但是呢，在公司发展的过程中……

也会有很多的职业经理人逐步地加入，这个事是必然的。你说，我原来公司10个人，现在变成100个人，然后变成1,000个人了。那么在这个过程中，会有很多的职业经理人逐渐加入。但是在这个时候，可能最后说话算数的人还是创始人。但是上市以后就会逐渐转变成职业经理人来管理，最后说话算数的人会变成职业经理人。创始人在这个时候，往往会变成小股东。他前面说话算数了，那是因为他是控股股东，说话应该算数。

股份有限公司最简单的治理模式就是“一股一票”，大家按照股数去投票就好了。咱们来做各种决策。但是一旦上市了，一定是投资人是大股东，股民是大股东，创始人或者是小股东。所以有很多创始人会去设计这种AB股。什么意思呢？就是我手里边的股票，一股可以当两股头或者当三股头。虽然我占的股数少一点，但是我可以有更大的投票权，我依然可以控制公司。谷歌也是这么做的，像阿里什么的都是这样去做的。

当然了，上市了以后，这个公司甭管你是不是做AB股，你必须要满足SEC的各种规则。这个事儿是很多创始人搞不定的，只能依靠职业经理人，或者说创始人要跟职业经理人去合作，才能够继续让公司往前走。因为SEC，包括国内证监会的各种规则，是非常复杂的。因为有很多人在里面去骗钱，你必须要老老实实地遵守规则，才能够保证中小投资者和股民的利益。

在创始人跟职业经理人的过渡过程中，不同的国家其实也不一样。中国其实更多是创始人模式，在咱们这一言堂人制这块多一些。美国有一半的公司是创始人模式，有一半的公司是职业经理人模式，这个是有区别的。欧洲更多是职业经理人模式，很多创始人不希望说，我把这一辈子就卖给公司了。他们希望说，我做到一定程度以后就退出，出去玩耍，追求新的人生目标。公司就扔给职业经理人去管理，这个在欧洲是比较多的。

那你说，创始人模式跟职业经理人模式之间，还有没有这种中间地带？有没有什么既不是创始人模式，也不是职业经理人模式的这种方式，在他们两个中间取一个平衡有没有？也有，但这种方式可能并不一定是大家喜欢的方式。什么方式？家族企业，老子传儿子，儿子传孙子，这么传下去的，这也是一种治理方式。国内还有一种叫师徒传承，比如说德云社。但德云社现在还是创始人模式，郭德纲创的，到现在还是郭德纲在管。再往后，他到底是传儿子还是传徒弟，要往后看了。其实传徒弟也算是一种家族企业。那么创始人跟职业经理人模式到底哪个好？这是一个很复杂的问题。

经常听我节目的人都应该知道，我们不会给一个非黑即白的答案。从统计学上来看，职业经理人一定是最终答案。虽然我们说有的时候创始人好，有的时候职业经理人好，但从统计上看，绝大部分最后活得还不错的企业，应该都是职业经理人。那为什么职业经理人还总是被吐槽呢？原因也很简单啊。第一个，创始人是有光环的，只要他没有犯一些特别大的错误，比如在他手里直接把企业玩挂了，或者说有一些巨大的欺诈行为在里头，那么通常创始人是不会翻车的。

比如说翻车的，我们举一个例子，做一滴血验血的叫福尔摩斯女士，这就属于创始人玩挂了。但你说如果他当时没玩挂，他融到了更多的钱，在更长的时间里头，他没有审计，也没有任何人去指责他，他没准在这个过程中，真的找出了一些什么方式，比如说他赶上大模型问世了，是不是用一些相对比较少的测试的这些数据，就可以拿到一些结果出来？像现在谷歌已经发布了一个新的大模型，叫咳嗽模型，你还别说验血了，人家通过咳嗽的声音来判断这个人到底有啥毛病。你那边好歹你是抽了一管血，抽完血以后，通过这些指标把它扔到大模型里边去，是不是也能判断出一些东西来？到那天，这是不是就又是一位光环加身的创始人了呢？

所以有的时候，创始人真的是最后一步走过去了，或者没办走过去，这个真的不好说未来会是什么样的。但是一旦创始人有光环了，通常是不会被指责的，通常只会清君侧，不会斩昏君，这个创始人还在公司里坐着呢。

公司搞得乱七八糟的，一定是有奸诈小人在里边捣乱了。大家都是这么想这个问题的。职业经理人本身也是一种职业，从业者肯定也是良莠不齐的。很多的职业经理人，其实他的能力并没有创始人强，这块也是一个很正常的情况。如果他的能力那么强，他自己去创业不就完了吗？何必给人打工？

遇到比较糟糕的职业经理人，这个也是正常的。你也不能说这个人叫职业经理人，就一定是有职业素养，这就属于相对幼稚一些的看法了。你说有没有这种职业骗子、伪高管，包括一些技术官僚，或者其他的一些官僚，这样的人肯定有。前面Airbnb这位老板，他就觉得他聘用了一堆职业骗子，来时说得都头头是道，遇到事搞不定了，这就是职业骗子。第一个职业骗子肯定存在。

另外，其实很多的创始人是不会去跟职业经理人打交道的。那么，他雇佣一堆职业经理人回来，也会把事情搞得一团糟。其实责任是在两方面。最后在特定的情况下，职业经理人肯定是搞不定的，比如刚才我们讲的Airbnb遇到疫情这种事情，他肯定是搞不定的。都是出来打工，为什么要拼命？这是职业经理人的心态。

深交若贵，把名声搞烂了，后边就没得玩了。因为职业经理人是要靠名声，在一个企业到另外一个企业之间跳槽的。你把一个企业搞得完全没法整了，最后说这事是怪你，那就再也没有企业雇佣他了。这事他肯定是不能接受的，人家是混名声的。

这个过程中，干坏事的创始人一定是比干坏事的职业经理人要多。因为职业经理人虽然也是有好有坏，但通常还是在一定的标准之内的。但创始人真的是什么样的人都有，你不能保证说所有的创始人都在一定水准之上。而且创始人通常来说是比较会讲故事的。你不会讲故事，你也忽悠不到人，忽悠不到钱。那么这些比较会讲故事的创始人，就具有相对比较大的欺骗性。

就像我们前面讲的，一滴血验癌症的福尔摩斯女士一样，有极强的欺骗性，就可以忽悠非常多的人进来，跟着他一起去往前走，但他最后做出来了。

那你可能就是伟大的创始人。没做出来世纪巨骗，就是这样的一个情况。而且我到今天为止，并不认为这位福尔摩斯女士给他更长的时间，他就永远做不出来。我也不认为他就是故意骗所有的人。

而且创始人会干一些什么事？即使所有的数据跟逻辑都反对他的时候，创始人有的时候会坚持走下去。这是职业经理人绝对不会干的事。那么在这样的情况下，有极个别的创始人会走出来，绝大部分的创始人当他罔顾数据与商业逻辑的时候，就会摔得头破血流。

为什么会有少部分人会走出来呢？因为以往的数据和商业逻辑并不完整，总有一些漏出来的东西，或者有一些缝隙，会让这些创始人找到一个新的出路，走出来。原来人都叫天道五十大衍四九，总是会留下一线生机的。

你像马斯克摔了这么多火箭之后，他最后看着这个发射场说：“我就像嚼着玻璃，在看着绝望的深渊一样。”那么他会坚持往下走，要是职业经理人肯定放弃了。这是创始人与职业经理人的一个大区别。

但是绝大部分创始人在这个时候，都是会浪费更多的股东的钱，浪费更多投资人的钱，拉着大家跟他一起走向深渊，这个事是正常的。那么为什么大家都会推崇创始人呢？第一个就是社会需要英雄。如果社会没有英雄了，那是一个多么可悲的社会。所以英雄的故事永远都会被传唱。

特别是在硅谷，在美国这样的一个地方，大家依然需要英雄。乔布斯、马斯克、贝索斯、黄仁勋这样的故事，会激励一代又一代的创始人、创业者继续往前走下去，创造更多的辉煌。包括现在的山姆·奥特曼，他也会激励很多的人去探寻自己的梦想。

就美国能够继续往前走，或者能够引领整个科创，也是这些英雄主义给他们带来的动力。而真正的这些优秀企业创始人与管理者之间，其实是有很多共同之处的。我记得当时看电影《中国合伙人》，里头俞敏洪的那个角色，到后面你也没办法，他也得从头开始学企业管理，然后抱着书在那啃，学习如何做一个职业经理人。

当然了，创始人学了一大堆职业经理人相关的技能、技巧之后，他们大部分并不会失去创始人的那些特质。他们依然敢于承担一些超过职业经理人承受范围的责任，也相对来说有魄力，敢去把一些以前自己做的事情翻过来，再来一次。

现在我们看到很多的创始人在这个公司里边，像刚才我们讲的黄仁勋也好，马斯克也好，詹姆·奥特曼也好，他们现在的管理公司的能力并不比那些大的职业经理人差。另一方面，那些职业经理人其实做得好的，也并不再是单纯的职业经理人了，比如说AMD的苏兹风，微软现在的萨提亚·纳德拉，这些人你依然认为他只是单纯的职业经理人吗？其实他已经开始有一定的创始人特质了。

包括在很多企业里边，长期担任CEO的老大，他们就开始会对这些企业有一定的个人感情在里面。你要让这些人去打破规则，你要让他去承担责任，这个事一定是要有爱在里面的。如果说我被董事会雇佣过来干个两三年，他是不会去做这种说我要去打破规则的事情的。但是你说这哥们在这干了30年了，那么这企业就像他的孩子一样，他们也会成为半个创始人。

这就是今天我们讲的创始人模式跟职业经理人模式之间的战争。每次到了异常时期，到了产业发生巨大动荡的时候，产业就会重新呼唤英雄，呼唤创始人模式。这就是硅谷现在在发生的事情。

好，这一期就讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道。再见！创始人模式。

马斯克率领Neuralink团队揭示脑机接口新未来：神秘访谈带你解读核心技术与人类成神之路

Luke Fan — Wed, 07 Aug 2024 00:44:06 +0000

马斯克的脑机接口已经成为了人类的成神之路。大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲，在上周五，马斯克和整个脑机接口团队一起接受了8小时的访谈，都谈了些什么。时间是8月2号，名字叫做《Neuralink与人类未来》。著名的科技博主莱克斯·弗里德曼主持了这场访谈。参加访谈的有Neuralink公司的创始人埃隆·马斯克，还有他们的首席科学家DJ·SEO，以及首位Neuralink脑机接口的植入者诺兰·阿伯。

那么主要讲的是一些什么样的内容呢？首先，现在的技术还比较可笑。虽然方向是指明了，但并不是那么看起来高大上的样子。64根导线就真的是往脑子里塞线，每根线上有16个电极。这些电极是在三四个毫米的范围内进行分布。应该是一根线出去以后，有16个小电极从线里的中间插出来，这个长度三四个毫米。在这个线的周围把它分布出来，这16个电极是以200微米的间隔进行排布。这些电极的深度是3-5毫米，它真的是要插进去的，而不是说贴在上面的，是要插到我们的脑皮层里边去的，是一个有损害的手术，这个还是有点吓人的。

这个玩意让我想起来那种可以贴在胳膊上测血糖的东西，对吧？它啪一下把它贴上，其实也是有一些细小的针把皮肤扎破的。这样复杂的手术是靠机器人来去做的。

脑机接口公司Neuralink做的第一个产品，其实是它的脑机接口植入机器人。现在，已经成功做了一例，准备做第二例。今年估计会做10例，未来应该每一年，这个数字还会快速上升。这个机器插到人脑里后，通过无线连接到APP上，APP采集了所有的信号后再去解码。

所以，现在的脑机接口其实是一个只读设备。什么叫只读设备？就是它只能够从我们脑子里读取信息，而并不往里写东西。因此，现在找的测试人员是能说、能听、能看到的四肢瘫痪的人。他们并不需要把什么信号传到脑子里去，只需要通过大脑的想象来识别，出来后让机器或一些外部设备去做动作就可以了。

现在的速度还比较慢，每秒钟一个比特。比特应该是一位，就是0或者1这样的一个位数，这真的挺慢的。你想，要凑出一个英文字母来，至少需要8个比特；要凑出一个中文单词来，至少需要16个比特。所以，整个的动作并没有那么快。

不过，现在第一个测试的人植入的这些电极中，有一些已经脱落了。目前还在正常工作的电极，只有原来计划好的10%。如果电极都插好了以后的话，它的传输速率应该可以达到，比如说10倍，每秒钟可以达到10个比特，也就是一个字节。稍微多一点点，你可能每一秒钟都可以想出一个字。

现在的信号仍然需要进行双向训练拟合，我们没法直接从大脑里读取出来。

说你想往左还是想往右，想向上想向下。你到底是想去输入哪个字母？现在想去直接确认解码，还是有一些难度的？所以现在要做的事是什么呢？就是训练，对吧？我们把所有的这些很模糊、很混乱的数据都读出来。读完了以后呢，看看怎么能够把噪音滤掉，然后里头哪一部分是有明确的指令，可以去解读出来的。现在还在做这件事。而且呢，这个东西不光是训练电脑的，这解码程序，还需要训练人。他需要让人也去按照一个什么样的方式去思考，这是一个什么故事。

其实我以前试过啊，就是带这种脑电波的这种环。以前就是没有脑机接口之前吧，他们也有这种啊，脑电设备的一些采集系统。他呢，就是要求你是集中注意力，或者是啊，彻底放松，想象一些不同的东西。它是可以读出一些波形来的。那么这个过程，就是需要让我们去训练思维，这就是一个双向训练的过程。

大家想一想，早期的语音识别是怎么干活的？早期的语音识别是需要进行训练的。他给你一个词表，你要挨着个念。念完了以后呢，如果计算机发现你念的不清楚，他会让你重念，对吧？要训练你按照标准的发音去念这些单词。同时计算机会进行一定的学习，说：“啊，这个就是在念这个单词了，我也记住了。”这样才可以进行语音识别。

早期的图像识别其实也是这么干的，先进行人工标注：“这是个汽车，这是个房子，那是个人，这是个自行车，这是个交通标志。”然后呢，再从速度很慢、错误率很高的情况下，逐渐的可以达到说分割一切的这样的结果。那你说，都是怎么进化过来的呢？

进化的过程其实也不复杂。第一个就是采集的信息更多。我们用非常非常多的信息在里边去识别，那么他就很容易，或者说要更容易在里边找到有用的信息。第二个是什么呢？就是通过大数据和AI学习进行训练，这个也是可以提高识别率的。现在，我们去识别这些脑信号还是比较费劲的，但是未来一定会发生，发展到不需要标注、不需要预训练就可以直接读取。这一天啊，应该离我们并不远。

现在我们再去做语音识别，还需要预训练吗？不需要。我们现在再去做图像识别，需要人工标注吗？不需要。现在直接用梅塔的Sam 2的这个模型“Segment Anything”，这个模型直接用起来以后，它就自动都给你分割好了。所以发展应该还是很快的。

现在制约脑机接口数据识别的呢，肯定还是数据量不够，或者说采样的频度、采样的信息的准确度还差得比较远。当以后说，我可以一秒钟采样很多数据的时候，他这种识别就会变得非常好。

这呢是一个99米长的枪的故事，这个是一个我非常喜欢的故事。我记得在我刚上班的时候，应该是有一次到惠普去参加培训。惠普的工程师就跟我们讲说：“你们知道，如果现在的枪只能打一米远，但是我又要打到100米之外的那只鸟，应该怎么办吗？”我们说：“这个怎么办呢？我们爬过去啊，还是怎么办啊？”他说：“都不对，首先我们是工程师，工程师要解决的问题就是，已知条件是我们要打中100米之外的鸟，另外一个已知条件是现有的技术是枪只能打一米远。”

那么在这样的情况下，我们能够造出来的东西，就是99米长的枪。当你的枪可以打1千米远的时候，或者可以打100米远的时候，拿到一支99米长的枪出来，你会觉得这件事情非常非常可笑。但是，99米长的枪也解决了问题，而且为未来创造打1千米长的枪指明了方向。说“OK，你照着这个方向去做是可以来实现的”，而且也为未来可以造出打1千米远的枪提供了资金支持。这就是工程师要干的事情。

所以，现在的脑机接口应该还是这支99米长的枪。我们看着会很可笑，但这就是未来，而且这就是工程师可以解决的未来。马斯克就是一个很伟大的工程师。那么，从第一个使用者的情况上看，他叫诺兰·阿伯，29岁的时候因为游泳事故导致颈部以下完全瘫痪。每天，他现在可以使用10到12个小时的植物设备，这实际上是一个很好的消息，对吧？因为我们去用苹果的Vision Pro，你可能用个十几二十分钟就会开始头晕，有些人可能用5分钟就头晕了。就算你一点都不头晕，使用一两个小时以后也是会有这种不适的感觉，就是你不可以长期用这个东西。

而脑机接口第一个使用者就每天可以用10到12个小时，这是个非常好的消息。现在，他已经可以用脑机接口控制鼠标移动，可以去打游戏了。但是，我估计他打这种《艾尔登法环》应该够呛，因为每秒输出的字节数太少，所以他的鼠标应该也跑不快。而且，还可以处理多任务，这也是一个非常令人兴奋的结果。

他可以一边用电脑，一边吃东西。这代表什么意思呢？代表是脑机接口可以区别不同的指令，加入到不同的指令序列里边去。啊，我先命令你，这个电脑的鼠标往哪边动一下，再命令我的杯子往前走一走，或者是哪个吸管应该怎么动。那么，我可以一边吃东西，一边去玩电脑，而不是说两边的指令会混在一起。这个也算是很令人兴奋。

未来的发展方向是什么呢？第一个就是还是做更多的案例嘛，因为现在排队的人足够多，就是申请要去做这个脑机接口的人非常非常多。他的机器人是做脑力接口的，机器人也做了好几台了。马斯克的钱啊，也是有的，世界首富嘛。而且现在这个Neuralink公司已经估值50亿美金了，那么手里边现金也足够多。在这样的情况下，只要FDA允许，他就可以七差咔嚓做下去。计划呢，今年能够做到10例，未来几年可能呈几何级数上升。这一两个月吧，就开始准备要做第二例了。

下一个要做的是什么呢？叫做盲视（blind sight）。做盲视的意义在哪呢？前面我们讲了，现在的脑机接口只能是读，不能往里写东西。那盲视呢，就是要往里写东西了，要告诉失明的人说这个地方是什么，这里是有个方的，有个圆的，是个什么颜色的，要给失明的人直接把信号放到他的视觉区域里边去，啊，视觉神经。因为很多失明，其实不是视觉神经有问题，或者不是脑部接受视觉信号的部分有问题，而是他可能啊，视网膜或者眼睛有问题。所以在这样的情况下，他们就可以去做盲视这样的一个产品。

当然了，他一开始可能输入的效率会比较低。所以呢，早期这种盲视的产品，它的分辨率应该也不会太高。不是说我们直接把脑机接口插上，就可以看高清大片的程度。你可能最开始是看着模模糊糊的黑白片，然后慢慢的再变得清晰起来。当读写无碍，带宽如果再拓展一些，再加上AI的话，那人就要成神了。人类成神之路自此开始。

如果现在第一位测试者的电极都在的话，那么每秒钟读十几个比特出来，就已经是速度其实不慢了。计划呢在未来几年里头，把速度提高，可以达到每秒钟100，甚至是上千个比特。这个速度其实就已经超越了人类说话的速度，甚至超越了可能打字的速度。在五年以后，要达到1兆每秒，也就是100万个比特，每一秒钟这个速度的话，已经远远的超出了人类现在能够输出信息的速度。

再加上什么呢？我们现在是看不到什么红外线、紫外线，也听不到超声波。但是这些东西呢，都是可以通过仪器采集的。那么采集了以后，把这些东西直接通过脑袋接口写到我们脑子里去，那千里眼、顺风耳、透视眼，什么不都有了吗？都不是问题。

所以现在我们需要思考一个新的问题：是什么语言到底是不是思想？这个呢，争议其实自古以来都有。但是最新的结论，应该语言并不是思想，因为很多从小就不会讲话的人，依然是有思想的。甚至思想有时候的速度是超越语言的。而我们在跟别人沟通交流、学习和思考的过程中呢，我们的思考速度完全是被语言所限制。我没法以超越语言的速度。

去进行内容的输入，输出是特别是输出输入的话。因为我们是有视觉、听觉，还有各种的无感触觉，甚至还有第六感，所以我们是可以以超越语言的速度输入的。但是，我们完全无法以超越语言的速度输出。当人类终于可以超越语言的速度的时候，我们也可以超越我们本身的感知范围，包括原来红外、紫外、超声我都看不见、听不见，很多其他的什么第六感、什么心灵感应我们也都没有。

现在好了，我们通通都可以依靠脑机接口，再加上外面还有AI，还有所有的知识库，那么人类就已经成神了。到这样的程度，现在有人问我说：“红楼梦啊，第几章第几节，第多少个字是多少？”对吧，我只需要下指令说：“来，给我检索一下，然后把它写到我的脑子里。”我就直接可以答了。这是一个多么有趣的事情，再也不需要背书了。真正可能取代手机的技术也正在向我们走来。

对吧，很多人在期待VR、AR可以取代手机，但是目前为止，这个趋势依然不明显。最大的问题是，它戴上以后没有办法出门，不能长时间佩戴。而现在这个脑机接口，第一位测试者就已经可以一天10-12小时的长时间使用了。所以，这个脑机接口是有可能真的取代手机的。马斯克呢，已经算是为行业指明了方向，资本的指挥棒已经开始转动了，我们马上要迎来科技大爆炸了。

三体的黑暗森林法则，大家知道是怎么来的吗？形成黑暗森林有三个原因。第一个原因是物质总量保持不变，也就是说大家都在发展，总有不够分的一天。

第二个呢，是猜疑链而导致黑暗森林的。第三个原因就是技术爆炸啊。为什么说呢？我看见旁边有一个很小的文明，刚处于萌芽状态，我们是不是先不用管它？但是，因为你到那里的时间可能需要几千年、几万年。那么在这样的一个情况下，你可能等到那的时候，发现对面的文明已经技术大爆炸了。你这个没法再去把它灭掉，而是人家直接上来把你灭掉了。

那么在这样的情况下，我们就黑暗森林一下，看到任何地方有声音，二话不说先抬枪就打。我们即将迎来脑机接口的科技大爆发了，而这个是真正的成神之路。这就像是互联网、移动互联网或者AIGC一样，资本导向的科技大爆发正在向我们走来。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

试戴Apple Vision Pro，老花眼+渐变镜，我直接把苹果店的服务小哥给整不会了？

Luke Fan — Fri, 02 Aug 2024 00:54:18 +0000

去苹果店被邀请试戴 Vision Pro，结果因为我有老花眼，把苹果小哥弄得有些尴尬。大家好，这里是老范讲故事的 YouTube 频道。前几天，我去苹果店被邀请试戴 Vision Pro。Vision Pro 的试戴需要预约，每个人试戴需要20多分钟的时间，并且在试戴之前需要填写很多相关信息，会有专人帮你配置一台与您相匹配的 Vision Pro，并进行讲解和服务。

我并没有提前预约，而是赶上了一个下着滂沱大雨的天气，带着儿子、录取通知书和身份证。你可能会问，为什么要带这些东西呢？我们本来是去苹果店买 iPad 的。在苹果店里，iPad 和 MacBook 是学习产品，如果能够带着大学录取通知书去买的话，会有折扣，而且还会送东西。我们去买的 iPad 当时打了折扣，还赠送了一根 Copencil 2，这支笔大概值 999 元。如果是去买 MacBook，打完折扣后应该会赠送 AirPods。

要享受这种教育折扣，必须去正规苹果店，去任何经销商那里是无法享受这种折扣的。所以我们就去了苹果店。正好那天下了大雨，导致一些预约试戴 Vision Pro 的人没来。苹果店的销售人员非常有责任心，他们发现预约的试戴者没有到店，就会在店里邀请一些看起来比较面善或者人品比较好的人去试戴 Vision Pro。

试戴之前有一个小插曲，Vision Pro 需要配蔡司镜片。但到店后，小哥先告诉我这个蔡司镜片里没有散光功能，他们带了一套镜片，但应该也是按号排好的。

就类似于我们去配眼镜的时候，插的那个片。啊，但是呢，这个都没散光啊。他说你有没有散光？我说我好像有那么一点点，但是应该不影响啊。因为这种就我也想去试试嘛，3万块钱的东西啊，其实3万块钱是丐版啊，再往上的啊，增加存储空间还是要更贵一些的啊。我说我想试试，OK了。

那说你这个眼镜是什么情况？我说我这有老花眼。我戴的眼镜是渐变镜，上半截是全度数的近视镜，下半截是减度数的近视镜。上边应该是有300多度啊，下边可能是有100多度吧，大概是这样的一个情况。这个小哥说这怎么弄啊？我们没遇到过这种情况。

后来我还问人家，我说我戴Vision Pro的时候，到底是算看一个比较远的东西呢，还是看一个比较近的东西呢？啊，因为像我们这种眼镜，开车的时候看的比较远的时候，都是用眼睛上半截去看的啊。你去看这个比较近的东西，比如看手机啊什么的，低头族嘛，都是用眼镜下边去看的。如果你用普通眼镜的话，我们去看手机的时候是要摘眼镜的。这个小哥说，我也不知道该怎么办这个事啊。说这样吧，蔡司有个机器在这，我就拿你的眼镜去测，测成什么样了啊，我就给你拿什么样的镜片出来试，行不行啊？我说也可以吧。

他就拿着我的眼镜进去测量去了。啊，测完了以后拿了两个镜片出来，说你就试试这个啊。效果其实还可以。我估计呢，他应该是按照我眼镜上半截的度数去测的。哎，你要去买Vision Pro，它这个镜片需要单花钱的啊，不再下一件事是干嘛呢？是给脸拍照啊。那你说谁拍照不超脸？这个是另外一个问题啊。他这个遮光罩是分大小、分形状的，所以呢，他需要给脸去拍一个照啊。下面左面、右面、抬头、低头，反正折腾了两遍还是三遍，算是把这个完了啊。拍完了以后呢，他就知道你这个遮光罩到底应该是用哪个号的。他好像是分大小号了以后，大概长短形状还是有一些小区别的，具体我也没太搞懂。当时这个苹果小哥跟我讲，是分20多个号。我不太确定啊这个事情啊。总之，这个遮光罩是谁跟谁的都不一样。

整个拍脸的过程呢，应该还算是优雅。为什么想要优雅呢？因为有一些设备是需要给自己拍照的。比如说我使用索尼的这种降噪耳机，你就需要给耳朵拍照。但是拍

到现场里去拿这个Vision Pro的时候，他会给你配好相应的遮光罩。那你说我没有iPhone怎么办？我能不能用安卓手机拍照？这个你问到我了啊，我觉得这种情况应该不太存在吧。你去花29,999去买Vision Pro的人会没有苹果手机吗？我觉得这个概率会相对来说比较小吧。

那么，Vision Pro对于线下销售，如果你不是苹果店，哈哈，或者对于二手的买卖，因为它里头有遮光罩的定制，还有蔡司镜片的问题，这个我觉得都不是特别方便。它相当于是一个量体裁衣的东西，虽然Vision Pro实际上核心就是一个前面的眼镜框，但是它的遮光罩，包括头带，包括里头镜片，都是稍微还是有些差异的。

所有这些事情做完以后啊，这个小哥就从屋里头折腾，折腾半天给我拿了一套Vision Pro出来。第一件事是调节绑带，往脸上戴。戴完了以后，要求是先调上边的，调后边的。压得是很紧，把这个东西整个的扣在脸上。底下可能鼻子下面稍微有点漏光，其他地方基本上就是全黑了。你扣在脸上以后，这个里头就会有一点点小的显示。整个试戴20分钟，开机以后先是做瞳距验证，这个我觉得挺有意思的。比如像我们戴的眼镜，他这个瞳距，你需要配眼镜的时候去调整眼镜架去配瞳距，但是像他那个蔡司镜片，是直接做死在里边的。因为他整个的，我也没有看到他两边能够动的部分。但是上来第一件事是做瞳距验证，做一些眼动的一些识别确认了以后，跟着这上面这个按钮一起去摁，是不是你现在看到了就摁一下。整个确认以后，这个设备就开始正常启动工作了。首先是先看到外面的场景，其实一开始里头是黑的，就是整个一扣上以后是黑的。

你需要盯着那个靶子看啊。看完了以后，这个整个就亮了，你就可以看到苹果店里边的场景，一个白色的“hello”悬浮在空中。当你看到“hello”在空中漂浮的时候，还是很激动的。你就知道啊，我进入了虚拟的世界。我看到的现实，就已经不是原来的现实了，而是已经经过混合现实叠加过以后的这种场景了。啊，这个还是让人觉得很激动。

他的整个用户体验呢，还是需要适应一下的，因为他的用户体验是眼部追踪，通过手指按捏一下，通过这个动作来去实现点击。这是一个一般人不是那么适应的方式。我刚开始用的时候呢，第一个眼部追踪未必追得准，第二个就是手满屏满屏幕跑。后来人说你的手不用动，你只要眼睛追踪的那个地方，手只要在这个摄像头的范围内，你捏一下，他就认为你已经点击过了，或者是你可以拖动他，可以做一些两个手的拖动，可以放大缩小一些基础的操纵。

人家还是在我身边进行了一点点时间的讲解，而且他的声音其实还是很清晰的，因为这个声音没有入耳耳机，在头带的设备的旁边，应该就是在耳朵上面一点点，这个Vision Pro会发出声音。所以旁边的人再去跟你说话，也很自然，不会像这种降噪耳机似的，有耳压，或者说旁边人说话你听不见了。

所以整体的氛围，因为我们也可以看到外面的情况嘛，旁边也有人可以跟你说话，还是非常自然的。整个操作的过程呢，需要适应，但是适应起来并不是特别的困难，相对来说还是比较符合人性，也比较优雅的。这个呢应该就是苹果最擅长的事情，是做人机交互。你说他技术到底有多好，这个没法说；你说工艺到底有多好，那是中国制造，妥妥的，中国制造，工艺就是好。但是在交互体验设计上，苹果要说是第二，就没有人敢说是第一了。

Vision Pro——这可能未来是一个方向，但是现在应该还不是那么好搞。因为它啊，有景深的这种照片呢，只有用Vision Pro或者是iPhone 15 Pro或Pro Max这样的相机才能拍出来。我虽然是iPhone 15 Pro Max，但我还没搞明白这个东西到底怎么能够把这种相片拍出来。后来他跟我讲说，呃，你就算搞明白了，意义也不大。哈哈，因为什么呢？因为这种照片你拍完了以后，你没有Vision Pro，你没地儿看去。所以呢，我也就不用再去研究我的iPhone到底应该怎么拍出这种带有景深的照片来了。

恐龙的演示呢，是一定要去做的。他告诉我说Vision Pro是娱乐平台。当然这点我觉得有待商榷，我觉得Vision Pro是个生产力平台。这只恐龙确确实实是走出了画面，在我面前晃来晃去；一只蝴蝶也确确实实地落在了我的手上，这种真的只能用震撼来形容了。但未来的这种娱乐与交互方式，应该还需要探索。苹果现在呢，只是给了一个演示。至于未来是不是会有很多人愿意在Vision Pro这种空间计算的平台下，再去做出更多更有趣的内容，现在还不好说。为什么呢？卖的不够多嘛。做这样的内容的成本一定是很高的。如果他的受众没有那么大，这些受众也不愿意为这种特殊的3D场景的娱乐内容支付，那么这种内容可能未来也就不会有那么多人去做。所以现在困扰Vision Pro的问题，不是他的技术问题，也不是他的体验问题，而是这东西因为太贵，导致总的销量上不去。总销量上不去，那边给他做内容的人，也就不愿意再去做了。

还是说其他那些，愿意给他做3D内容的人，都会放弃。那么这是一个恶性循环。总体使用Vision Pro的感受呢，我就不跟大家细讲了，因为网上有非常多的人去使用和拍摄了这个东西的具体用法。我前面也跟Indigo录过视频，拿着他的Vision Pro一起做过直播。这只是我自己去感受了以后，还是觉得很震撼的。大的感觉呢，就是像一个用久了Windows的人，第一次接触Mac。

当你用了比如十几年的Windows以后，拿到Mac电脑会感觉不适应。但是，稍微调整一下，你也还是能用的。用了10分钟你就会觉得，Mac这个东西很优雅，很新奇，也非常有趣。这就是用惯了Windows的人，在一个被信息所包围的空间里头。这可能就是我们的未来，但是，戴完Vision Pro以后，脸上都会有印儿，这个确实如此。因为你必须用非常紧的力度把它扣在脸上，否则你的头在转动或者稍微发生一点移动的时候，它会不稳定。因为上面这个东西还挺沉，对吧？而且这个比较重的眼镜的部分呢，它还要离你的脸有一个距离，因为这个距离是为了遮光。如果太近的话，你就看不到上面的信息了。它等于是有一个力矩在这个地方，离得越远，你在晃的时候，它产生的力矩就越大。所以这个东西一定要拉得很紧，拉在脸上。如果你真的是戴了一个小时、两个小时的话，把它从脸上摘下来的时候，这个地方绝对是有印。我戴了十几分钟到二十分钟吧，摘下来基本上没什么感觉。

它的重量与电池导致这个Vision Pro其实不太适合移动。你可能小范围地在屋子里稍微走那么一两步还是OK的，但是走出去肯定是有问题的。它的电池据说是可以工作两个半小时。这种问题其实在手机、平板跟电脑上都已经解决掉了。我们的电脑，特别像我们这种使用Mac电脑的人，离开电源使用十几个小时是没毛病的。手机的话，离开电源高强度使用十几个小时，如果不是高强度的话，使用一天也是OK的，iPad也是如此。它的电池只能够使用两个多小时，这也是一个很奇葩的设计，但是也能够理解。因为你希望它使用更长的时间，这个电池就会变大片重。而且还有一个问题是，这个电池会发热。因为它有很多的运算相关的组件是在电池里面的，我用了20分钟把它摘下来的时候，电池是热乎乎的，眼镜框也是热乎乎的。上面还有散热孔，还有风扇，这稍微有点不太成熟吧。

有点像的工程样机的感觉。虽然已经开始正式卖了，但这就算是第一代啊。还有一个问题是什么呢？就是 Vision Pro 并不是适合所有人。当时我和我儿子两个都去试了。我试完了以后感觉很好啊，但我儿子去试完了以后呢，感觉非常不舒服。他戴上以后马上就开始觉得头晕，戴了大概一两分钟，就觉得眼睛发胀发涩，非常不舒服。摘下完了以后，他也觉得 3 万块钱的东西，有人给你试一下不太甘心哈。又戴上了。第二次戴完了以后，大概又过了 5 分钟，说实在受不了了，摘下来了。摘下来以后还觉得头晕眼花的，站起来还要稍微适应一会儿，才能走直溜了。所以，Vision Pro 对于人群的适应性来说，应该没有手机那么高。现在我还没有怎么听说，有谁不适应使用手机的，可能有，但比例是非常少的。然而 Vision Pro，这个不适应的人群应该是蛮多的。

当然，另外一个可能是我儿子的眼镜也是一种类似的渐变镜，他的眼镜是中间的度数，深一圈的度数要稍微浅一些。这一次 Vision Pro 佩戴失败，有可能是因为测量他眼镜度数的时候，可能测的这个位置不是他最适合的这个位置吧。我不太确定，因为我到现在其实也没太搞懂 Vision Pro 里面展示这些内容，离我们到底是远还是近。我的眼镜上面是看远的，下头是看近的，而我们的 Vision Pro 的这个镜片也好，它里边的显示单元也好，其实离我们都非常近。但是呢，它通过一个光学的这种堆栈叠加以后，希望我们觉得这个东西很远。反正这块我还没有太搞清楚。这就是我们俩去体验 Vision Pro 的一个经历。对于其他人来说，如果有机会，建议你们也去试一试。

买这个等下一代，或者等以后有其他更成熟的产品再说。这个产品我也没有准备去买，它实在是稍微有点小贵，超出了我的承受范围。不过，体验一次我觉得还算是值得的。大家应该去体验一下，这也是感受一下这个时代里最好的空间计算设备。同时，也可以体验一下苹果店的专业服务，这也是一个很有趣的过程。

好，这一期就讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。