GPT-4 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI公开了GPT5降低幻觉的秘密，像教育孩子一样训练AI。宁愿答“不知道”也绝不瞎猜，这才是真正的进步｜GPT-5 AI Hallucination OpenAI Hallucinations

Luke Fan — Wed, 10 Sep 2025 00:41:00 +0000

GPT5降低幻觉的秘密被OpenAI给公开了。现在看来，训练AI真的是越来越像训练小孩子了。

九月五号真的是一个神奇的日子，非常多的模型都在九月五号被发布出来。OpenAI在这一天也发表了一篇论文，这个论文叫做《为什么语言模型会产生幻觉》。

大语言模型从进入我们的日常生活那一天开始，我们就发现了，这个东西最擅长干的事情是什么？叫“一本正经的胡说八道”。

现在OpenAI公布了，说产生幻觉有两个主要原因。

第一个原因叫做“错误的评估体系”。什么意思呢？就是我们现在去考试了，做对了1分，做错了0分，不做也是0分。其实我们所参加的绝大部分的考试，都是这样去设计的，甭管你是考英语、考数学，都是这样设计。像考数学这种，他还有步骤分，哪怕最后你的结果没有，或者结果是错误的，你只要前面的步骤写对了几步，他都是给你分的。

但是我们用这样的方式去训练大模型的时候，这事就麻烦了。怎么个麻烦法呢？大模型也在那有一些指标，要去反复的训练嘛，它的训练也是按照刚才我们说的这个方式来训练的：答对了1分，答错了跟不答都是0分。那么我就先猜一个呗，万一猜对了呢？你没准还有个一分，总比不答强，因为不答跟错误是同样的结果嘛。

文章里头举了一个例子，说你去给我猜一个生日，这个人生日是哪天？马上给猜了一个。他说这玩意儿你猜对的可能性是多少？1/365，这个很难猜对的。但是呢，猜错了就跟没猜是一样的，都是0分，所以大模型还是会去猜一个出来。这就是他一本正经胡说八道的一个最底层原因，就是你一开始的评估体系是错的。我们考试的时候，这个评分的规则就是这么评的，所以大模型也是这么干活的。

另外一个原因是什么呢？他的一些训练数据本身是有问题的。什么是训练数据有问题呢？就是大模型通常的回答方式是：下一个词最适合应该出哪个词。他是这样来去回答问题的。但是呢，有很多的训练数据呢，有一些相关性。比如说他举了个例子说，我给他一堆照片，猫的照片跟狗的照片，然后呢在后头写上标注，说这是猫、这是狗。你训练完了以后，给他照片，说这是猫还是狗？或者你给他个猫和狗的这个单词，说请给我画一个出来，或者给我描述一下，这个大模型是可以搞定的。

但是如果你的训练数据是错的，比如说你给了一堆猫和狗的照片，在后边你标注的不是猫和狗，而是猫和狗的生日，然后你说：“现在给你一个照片，给我猜一下这个猫是哪天生的？”那这个大模型就直接抓瞎了，说：“您让我编一个吧。”大概是这样的一个情况。或者说你给它一个日子，比如说2025年9月9号，这一天出生的猫应该长什么样呢？这个大模型说：“呵呵，请听我瞎编一个。”也只能是这样了，你没有任何其他的办法，因为它的整个的训练数据相关性没有那么强。而且刚才我们讲，这个猫跟狗的生日标注在照片上以后的话，它也不具备什么统计学的这种意义。你说9月9号出生的猫应该是什么样呢？

但是讲到这儿，咱们多讲一句，有人相信生辰八字吗？或者是你的星座代表什么？这个是不是跟刚才我们给猫跟狗标生日这个过程是很像的？所以这个生辰八字的结果，跟刚才我们讲的这个数据是一样的，它没有什么统计意义的。所以不要去相信什么算个属性、算个生辰八字、算个星座，这个意义不大。就算是给交给现在的大模型，你让它去折腾这个事儿也没什么意义。

我自己呢，在第一次使用AI的时候就经历了幻觉。我第一次使用AI是什么时候呢？那时候ChatGPT还没发布呢，当时的AI产品叫做GitHub Copilot，底层也是一个ChatGPT的模型，它是先发布出来。首先这个东西出来是给大家写程序的，那个时候还不觉得说AIGC会怎么样了。我拿着那个系统去写程序的时候，我说：“B站的CEO叫什么呀？”他告诉我叫陈瑞。我说：“这对的。”然后我说：“陈瑞的身份证是什么？”我是等于写程序嘛，说“陈瑞身份证”，啪打一个报号，然后噼里啪啦就给我生成一堆信息出来：哪年哪月几月生的、身份证号码什么。当时我都傻了，这不是泄密了吗？马上我就去找陈瑞去了，我说：“陈瑞，你的那个身份证泄密了，这是你身份证吗？”陈瑞看了一眼说：“这肯定不是。”

后来我就搞明白了，当时还没想着叫“幻觉”，当时想的是什么呢？说这个东西是不是一个脱敏，或者是做了一些数据混淆。后来想明白了，这东西就是一本正经的胡说八道。你问他陈瑞的身份证，他按道理应该告诉你说：“我不知道。”或者说：“这个东西涉及个人隐私，我不能给你生成。”或者说我生成了以后，在下头给你写一个说：“只是示范数据，没有任何实际意义。”应该是做这样的一个操作。就跟我们去银行里头看到人家练习数钞票的那个钱似的，专门有特定的号码，而且上面会盖一个章，说这就是一个练习币，千万别惦记偷着玩。但是这个GitHub copilot啥也没说，直接给你写了一个完全看着像真的一样的身份证号就给你写出来了。当时还把我吓一跳，这是当时的一个故事。

这就是AI到底是怎么产生幻觉的，以及呢，我们应该如何去避免它。其实他们已经把这个东西应用起来了，就是应用到GPT5里头。所以现在GPT5呢，有的时候就告诉你不知道，他不会上来就直接告诉你：“我给你猜一个吧。”甚至猜完了以后还在那嘴硬：“不是我猜的，这东西就是这样的。”他有时候还干这样的事情。

像GPT4呢，他答对问题的概率是要比GPT5高的，因为刚才我们讲了，你胡猜一个，你还是有机会答对的。像刚才猜陈瑞身份证，他也不是说完全不可能猜对的吧？还是有可能猜对的，那么他就去猜去了。所以GPT4的正确率要比GPT5高，但是呢，GPT5的幻觉要比GPT4低非常非常多，因为GPT5经常就告诉你不知道了。说“不知道”肯定是错的，但是“不知道”呢，对于我们来说，其实是一个可以接受的答案。

你说这事跟训练小孩子是不是很像？我们再去给小孩出考题的时候，我们是不是可以出一个题说，这个题你做对了加1分，做错了减1分，不做没分？这个是不是就可以调整记分规则了？他就可以知道说，我们是不是不会的就不要瞎写了。我记得我原来参加过类似这样的考试，好像是上大学的时候，当时考计算机的一个等级考试就是这样的：做错了减分，做对了加分，不做没分。那就是你不会就别瞎写，就是这样的一个意思。或者呢，调整一下，因为有负数在里头，计算稍微麻烦一些嘛，就是什么呢？不做呢是1分，做错了呢是0分，做对了呢，比如说给他个5分。用这样的方式去训练大模型，他可能就会好一些。

包括我们以后去训练小孩，或者说小孩的成长过程中的一些教育吧，也可以使用这样的方式。当然，我觉得更重要的是什么呢？就是我们在孩子被训的时候，比如孩子这个犯了什么错误了，在挨骂的时候，就不要老惦记让他去反思怎么去犯了错误、下次怎么去做对。是不是很多家长都爱干这个事？做错了不行，你一定要在这个时候把它想清楚，然后给我解释到底是怎么回事。在这个时候，小孩想的压根就不是怎么去反思错误、怎么能够保证下次不犯，小孩想的是如何尽快结束当前糟糕的状态。这就属于是一开始你设定错了一个激励的条件，还希望说这个小孩犯了错误，多骂他一会，多念叨一会，让他能够学会，这个绝对适得其反。

还有一些呢，适合小孩教育的AI训练方式，大家也可以思考一下，就是寻找合适的数据或者问题对于教学是非常重要的。就刚才我们讲的，给他一堆猫跟狗的照片，然后给标生日，这就属于错误的数据。我们找到正确的数据，对于小孩的学习会非常有帮助的。今年年初吧，李飞飞训练了一个很小的模型，它就是精心筛选了1,000个高质量、高难度、覆盖50个不同领域的全面性问题，训练出来的模型要比很多很大的模型效果都好，这个才是对我们有借鉴意义的事情。为什么呢？你对于小孩训练也好，或者是教学也好，最缺的是什么？不是上培训班的钱，也不是找到特别好的老师，而是小孩的时间。你去让小孩上培训班，到底是上那个还是上这个？你需要去取舍的，因为时间是有限的。在这样的一个情况下，如果能够选对正确的数据集的话，对孩子的训练也是非常非常有帮助的。

在这里呢，再讲另外一个很拟人的AI算法故事吧。就是李飞飞的这个小模型里头，应用到了另外一个有趣的方法，叫什么？叫“预算强制法”。这个呢，其实是小孩解数学题的一个方法。它是什么样的方式呢？就是它动态的来调整推理的步骤和时间。现在我们的模型都是做推理嘛，到底是应该用多少步来推理呢？现在我们使用的很多系统都是可以预设的，我到底是用高级推理、中级推理、还是低端推理，还是直接出结果？让你自己去设。但这个事其实是很二的，应该是让模型自己去判断。

它呢，通过任务的复杂度和中间的结果，不断来评估说这个事是不是可以结束了。如果任务复杂度高，他就会给你更多的推理预算；如果在推理预算之内你把它做出来了，它再去评估这个结果。如果结果的置信度很高，这东西就很像我们从小做数学题，都是有这样的训练的。你得出一个0，得出一个1，这个事都有可能是对的。但如果你最后得的那个结果需要开根号，然后还不会算，这种大概是前面哪步算错了。咱从小应该都是这么学的吧？他也是如此。然后除了置信度之外，还有一个是什么呢？就是结果的收敛性。我越算这个结果，好像越向着比较可信的方向在前进；或者说有的时候越算越觉得不对，走着走着觉得越走越远了。这个东西是可以判断的。如果是你得到了一个置信度很高、很收敛的结果，没问题，就停在这儿吧。如果你发现这个东西置信度很低，而且呢越来越发散了，一点都不收敛，越走越不像了，就直接停止，说：“不会，对不起，我不知道。”当然我们小时候有时候受的教育是什么呢？你实在做不出来，到后头写个0、写个1，还是有蒙对的机会的。

所以李飞飞的这个方式呢，就是简单问题简单推理，获得高置信度、收敛的结果，就快速停止；如果太复杂，就直接承认失败，完事了。这个是不是也很像咱们小时候教小孩子做数学题的这个过程？

讲远了。这个降低幻觉的技术呢，现在已经用到了GPT5上。现在他们在GPT5上就已经是鼓励大模型说“不会”，说“这个事我不知道”，去鼓励他做这件事情，而不是要上来生给你编一个结果出来。

另外呢，我要讲，降低幻觉其实是一把双刃剑。很多人说：“不对，幻觉低了，它不是好事吗？你不知道就说不知道就完了。”为什么是一个双刃剑呢？这个里头呢，跟人性有关。因为幻觉再怎么降低，它永远不会是零，有可能呢会逐渐降低，但是人呢，会选择相信一个大概率不会出错的自动化系统永远不会出错。这话很绕，什么意思呢？你比如说这个系统，十次里头错八次，那这事肯定不行。等到10次里头错5次呢，这个结果呢你可以参考一下。如果10次里头呢只错个两次，就会有相当一部分人认为这个结果是永远不错的，我就直接相信了，剩下的两次错就错了。他是这样来去处理这问题的。这是人性的一个选择。所以呢，幻觉越低，愿意直接无条件相信这个模型的人就会越多。这是一个灰度，有些人可能怀疑一切，有些人呢可能说你这个幻觉只要到50%我就相信了，有些人说幻觉到20%我就愿意相信他。他是这样来去工作的一个过程。所以呢，幻觉越低，选择无条件相信的人就会越多。这就是为什么我说降低幻觉是一把双刃剑。

那么我们应对幻觉的最简单方法是什么呢？第一个，肯定还是怀疑和批判了。中国的中小学教育里头还是应该加强一些的，这一方面目前应该没有那么强。另外呢，就是你要去有一些逻辑的训练。比如说，如果不进行逻辑训练的话，你没法去判断这个结果是不是符合逻辑，或者说他的“置信度”这个东西，你没有判断标准。还有呢，就是我们要了解聊天的上下文环境。这个事特别有意思，大模型呢，你问他一个问题的时候，他给你的结果未必一样。这个结果的差异是怎么来的呢？其实是跟上下文有关。所以我们经常在跟大模型聊天的时候，要学会叫“开始一个新话题”。什么意思？就是我们把前面的上下文都扔了，咱们重新开始聊。这个是非常非常重要的，否则的话，它给你的结果要跟上下文相关联。如果我们跟他聊天的过程中忘记了上下文说的是什么，那他给你的结果就有可能会出现比较大的偏差。

还有一点呢，就是要了解信息来源。你说我这个大模型给我的结果，是大模型直接生成的，还是通过本地知识库总结的，还是通过搜索总结的？这个东西到底是怎么来的？如果是通过搜索来的，他到底是搜索的哪些网站？哪些网站是可信网站？哪些网站是八卦网站？哪些网站每天胡说八道？你要要求他去进行一定的区分，这个才有可能让他的幻觉降低。

当然，最终的方式就是多模型校验。像我现在很多的数据都是多模型校验：我先在豆包里跑一遍，因为这玩意最快；然后呢，把跑的结果扔给ChatGPT，说：“来，给我进行数据校验。”然后呢，ChatGPT就会把所有的数据拆开了，校验完了以后，告诉你哪个地方是对的，哪个地方是错的，要比ChatGPT自己做的还要好。有时候ChatGPT也有幻觉，虽然GPT5号称幻觉降低了，但是依然是存在的。我也会把它的结果再拿到豆包里边再去校验。这个会极大的降低幻觉，但是也不能降到零。

OpenAI呢，现在又在开始探索新方向了。就是刚刚做这篇论文的这个部门呢，叫做模型行为部门，这个部门呢，现在已经合并到模型预训练部门去了。这个部门的老大呢，是一位亚裔女士吧，看那个名字应该是个韩裔吧。他呢现在做了一个新的部门，叫OAI部门，这个部门呢，是研究AI与人的交互方式的。他呢，研究的是在聊天和agent之后，这个AI应该如何去跟人进行交互。现在大家还在卷agent呢，人家已经又往前走一步了，agent之后是干什么？他认为AI呢，应该是一个思考、创造、娱乐、学习、连接与实践的全新范式和工具。我们也期待这位女士吧，能够给我们带来不同的惊喜。她前面做了达利2、做了GPT-4o、做了GPT5，特别是跟人交互相关的部分，包括AI如何降低幻觉、AI如何降低谄媚，这些东西都是他去研究的方向。

最新的GPT的更新是什么？特别有意思的一个功能，叫“分支聊天”。比如说跟人聊的时候，聊着聊着聊崩了，或者聊的大家很不开心了，你能够说：“我们退回去，现在我们退回三轮，从这继续往下聊吗？”咱是不行的，因为那对面还生气呢。但是现在ChatGPT允许你干这个事了。就是我们聊着一个来回、两个来回、三个来回，这个时候说我聊错了，我可以从第一个来回完了以后，说我在这做一个分叉，我重新开始聊。AI大模型的这个接口呢，就不知道你后边的聊的第二轮、第三轮到底聊了什么，它会从这个地方分支出来，接着跟你聊。这个应该也还是蛮有想象空间的一个事情。

好，这就是我们今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的会员频道。再见。

Manus全解构：国运级AI Agent背后的真相，自动规划工具是否真的不可或缺？

Luke Fan — Mon, 10 Mar 2025 00:50:34 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲突然刷屏的Manus。它的来源呢，是个拉丁语单词，是“手”的意思，同时呢还有“权力”和“力量”的意思。现在呢，华为造汽车就全都是《山海经》，做AI产品全是拉丁语单词，好厉害的样子，对不对？

现在这个事情呢，应该是从昨天开始，突然就变得一码难求了。我应该是在昨天看到谁呢？王舒义，天津师范大学的一个老师，他发了一条说：“哎呀，得到那个测试码了，怎么怎么着了。”我当时都没想说这啥玩意儿，没惦记这个事，因为呢他们那个Monica我也没怎么用过。Monica这个产品对于我来说，还是有点太奇怪了一点。待会我们再继续讲。

后来到昨天晚上了，突然就开始传出来说这个东西已经在闲鱼上炒到好几万了。又一个国运级产品出来了，中国人再次震惊了世界，说老美又怎么样了，全世界又如何如何了。今天再一看这个，各种新闻媒体刷屏了。我直到开播之前犹豫再三，说算了，还是去申请一次吧。咱们虽然没用过，但是好歹也算申请过了。本来我是连申请都懒得申请的一个产品。

团队呢，也出来求饶说，有人在攻击和破解他们的网站和服务器。这个很正常嘛，你一旦做的好了以后，大家总要上来看一看。那DeepSeek最近也才是逐渐的，号称要恢复正常。但是我却试了一下，一试还是问三个问题，就停下来那么一个状态。现在团队说玩不下去了。而且呢，说几万块钱在闲鱼上买这个邀请码，这事呢他们也出来澄清说：“我们从来没收过任何钱，您千万小心别上当受骗，上当受骗了也别上我这来找来，我这没收到过钱。”

那么，AI agent是不是真的就要爆发了呢？因为咱们从去年就开始讲，说2025年就是AI agent的一年。突然到3月份，就放出了一个王炸性的产品来。这个事是不是行？首先呢，不要太兴奋，这个东西呢在国内是使不了的，必须到国外去使去。为什么？因为底层是GPT和Claude 3.5、3.7这样的模型，这些模型在中国是没有经过安全审查的。

不能落地。而且人家这些模型上，也是明确的告诉你说：“我不愿意在中国地区为你服务。万一我给你服务了，你拿去维稳了，或者做了点别的事情，我们也担不起这责任。”所以Manus这个产品在中国不能用的。他们家的Monica.im在国内也是不能用的。他们纯纯是一个出海的服务商，而且呢，其实是一个非常非常小的服务商。他们的整个的产品，在海外没有那么多用户。

那么Manus到底是干嘛的，或者你到底能干嘛呢？现在能够出来看到的，绝大部分都是官方放出来的一些视频：晒简历、做房地产的评估、旅游的规划呀，全都是这样的东西。因为拿到邀请码的人不多，就算是拿到邀请码的人，可能也还是要给一些面子。但是也有人说自己上去了，觉得一点都不好使，问的所有问题都翻车了。这个我觉得都是可以理解吧。

Manus最强的地方是什么？就是自己规划任务。因为原来我们都是靠这个，像流程图一样去自己画，说我们先干什么后干什么，每一步怎么怎么做。现在说不用了，他自己来规划。你问他一个问题以后，他自己做计划，说我先查哪些资料，再查哪个网站，然后再怎么把它拼在一起。然后呢，可以自动的执行，自己生成一点Python代码，自己去把它跑出来。然后呢，给出最终的结论呢，实际上像一份大报告似的。而且很多人看到这份报告以后觉得：“哎呀，这个写的实在是太好了，甚至给我画图表、画表格。”

画表格这件事是非常非常容易的，千万不要被这玩意骗了。像我们写Markdown格式，或者在计算机里边，写很多的语言的时候，都是可以画出来的。你让ChatGPT画个表格，它也能画出来。但是你让它给你画图表，肯定是画不了的，还是要去调用一些特殊的语言功能才可以画出来。ChatGPT他没做这事，现在统统都干了。

非常多的人一看了以后说：“哎呀，这个简直是如虎添翼，每一个人都可以成为研究者了。”而且说，这是不是AGI看到曙光了，这个东西就是未来了。所以也有很多人说，这就是下一个国运级产品。

DeepSeek的这个辉煌再次上演了，那么是不是值得这么兴奋呢？又一次国运级的创新诞生了吗？我觉得一个不能在中国使用的服务距离国运就还稍微有一点点遥远。你DeepSeek再怎么说，咱们全国上下都在部署，你一个无法在中国合法落地的产品，中国人在这呼哧呼哧在这炒作，这个是很无聊的一个事情。而且DeepSeek本身在代码生成方面，其实差得也还比较远。Manus这种产品，它是不可能靠DeepSeek大模型就在国内部署起来的，它必须要有Claude，必须要有ChatGPT才可以完整的跑起来。如果DeepSeek就可以带着他自己整个跑起来的话，他就可以在国内上架了，但是他不行。

那为什么我说DeepSeek在代码生成的方面差得非常远呢？因为我昨天花了一整天的时间在尝试用DeepSeek去写程序，那叫费劲，比Claude 3.5、3.7真的差的不是一星半点，是差的太老远了。Manus跟DeepSeek比起来，还是有很大的差距的。DeepSeek让国内所有的大厂都跟着走，Manus，国内大厂呢有可能会超他，但是呢也不一定每家都会去抄一遍，因为现在这个方向呢，大家也还在观望之中。它不像是DeepSeek，彻底把国内所有的这个大厂全给翻了一遍，所有跟云计算相关的所有运营商全都装DeepSeek去了。

DeepSeek已经改变了全球的AI格局，还带崩了英伟达的股票。而这一点上Manus就更加没有比较了。DeepSeek自己服务半停摆的情况下，依然可以搅风搅雨，那Manus呢只能算是一个标记性的时间点。他出来了以后说，哦，我们看到了一个新的产品形态，而且大家还挺喜欢，可以自我规划的AI agent可能就能够用了。那么国内的这些大厂，包括一些小一点的厂，系统经营商呢，应该就可以去冲一波了。而这个就是Manus现在带来的一些变化。Manus现在也说我们要开源。

这件事我觉得还是稍微值得期待一下。现在呢，大家最希望他开源的，是他推理和规划的这个“小模型”。但是人家具体什么时候开，开什么东西，现在还没有确定下来。那么讲这么热闹，这东西到底咋实现呢？是不是一套壳产品呢？只要是中国人做的，大家都要问一下。而人家呢，上来也承认了，说我们就是套壳的，没什么好说的。

什么叫套壳呢？就是你没有自己的大模型，大模型用的就是Anthropic、Claude 3.5、3.7、OpenAI的GPT以及DeepSeek。它是没有自己可以拿出来展示的大模型的，使用的都是公开模型。所以呢，可以算是一个套壳产品。甚至还讲了说，我们把套壳做到极致，就如何如何。但是呢，它这个离极致其实还稍微有一点点远。

那么为什么是现在这个时候，Manus这种产品出来了？这种可以有自我规划能力的GPT，其实早就有。最早有一个产品叫OTO GPT，但是一晃眼儿就不见了。现在呢，是Claude 3.7、ChatGPT，特别是DeepSeek R1，这个模型已经变得很强了。而且像DeepSeek R1这样的产品，如果你自己部署的话，你的成本是可控的。像Claude 3.7这样的产品，其实并没有那么贵，整个让它跑起来还是可以去承担的。

原来OTO GPT的时候，当时大家跑，我忘了是GPT3.5还是GPT4了，奇贵无比，所以一会那钱就哗啦哗啦就不见了，所以没做起来。现在呢，就是有可能能做出来。那么进行自我规划之后，能够可控的输出结果，这个是现在这些大模型已经可以达到的这个能力了。其实现在用一些稍微小一点的模型进行规划和微调的话，还是很方便的。

我今天还试了一个东西，就是阿里新出的QWQ 32B的这个推理模型。据说它这个32B的模型呢，是要比DeepSeek R1 671B的模型效果还好。我上去试了试，确实挺好用的，但是要想达到DeepSeek R1那个，还是要稍微差那么一点点。

虽然在跑分上确实是跑赢了DeepSeek R1，但是个人使用体验跟跑分还是不一样的。讲回来，Manus呢，应该是自己做了一个小的规划模型。它呢，构建一个规则的知识库，就是我要做什么事，大概有几种方法，我做另外一件事大概有几种方法。然后呢，输入指令进行规划。我现在要做一个旅游攻略，我现在要去筛简历，把这些命令输入进来以后，他就给你规划了。规划出来以后呢，给你做了一个叫to do.MD的文件。to do嘛，就是马上要做的事情。MD呢，实际上是Markdown。Markdown是程序员经常使用的一种文本工具，就在文本里边直接写一些符号，就可以代替排版。像我们在word里排版的话，你要先写好文字，然后选中了以后，说我们是用几号字，前头要不要写这个点，或者有没有这个编号。markdown等于完全是在文字里边去写，就程序员都是这么干。

当他做完规划以后呢，得再通过自己的一个解释器，把这个markdown里头一条一条的，一步一步去完成。他是这样去工作的。里头呢，还有一大堆小工具，比如解压。筛简历的时候，就是给了一个压缩包给他，那你把他解开。然后呢有一些文档解析，甭管是PDF文件word文件，你都解析出来。然后还要做网页解析。那为什么网页解析要单独讲一下？咱们打开网站看一看，那上面什么弹窗了广告了一大堆东西，你要把真正有用的东西扒出来，还是有点难度的。所以网页解析是专门的一个项目。然后呢，自己还带浏览器，他可以自动的去浏览网页。其实有点像今年1月份，OpenAI发的那个产品叫operator。但是operator发完了以后，只有200美金以上的用户可以用，像我这种20美金的用户还用不了。还有一些API，你比如说我现在需要重新生成PDF了，还有一些API的，它呢是可以通过Python，再生成一点点简单代码，然后可以通过这些简单代码的执行，把这些刚才我们讲的小工具，整个的通顺的串联起来。

它呢，可以设置一套小工具的调用规范。符合规范的就可以进到工具链里边去。当他拿了这样的一大堆小工具，照着todo.MD去执行了以后，就产生了一大堆的中间结果。然后呢，再对结果进行拼接。大模型的能力其实就在这。它能干嘛呢？就是处理很多这种叫非结构化数据。

什么叫结构化数据？什么叫非结构化数据？就是我现在有一个表格，第一列叫做姓名，第二列叫做年龄，第三列叫性别，第四列叫做简介，第五列叫什么职业。这个东西就叫结构化数据了，一行就是一个人。非结构化数据就是，我拿到这个数据里头是一锅酱，我们也不知道这里头到底写的什么。大模型就是你可以把一大堆的非结构化数据扔给他，然后让他去总结分析。他是有这个能力的。

而且呢，这个其实他调用，甭管是网页也好，还是各种的API，从其他的服务那里获取数据也好，实际上都是结构化数据。但是呢，他就把所有这些结构化数据打包在一起，作为非结构化数据直接扔给大模型，说来我这有一大堆数据，我也不去解释里头到底是什么，我也不去研究这个数据结构了，你去给我去总结归纳一下。他是通过这样的一个方式来干活的。

相当于是什么呢？上面的一大堆小工具，进行这种松耦合的组装。为什么要强调松耦合呢？我们正常写程序，我们会去标记，你这个数据应该是怎么排列的，第几个字节到第几个字节写什么，写错了马上报错。有了这个大模型以后，我就都塞进去，反正这个大模型也不挑你这个里头，哪个多写几行，哪个少写几行，多两个属性、少两个属性，他都无所谓。所以他就可以通过这样的方式，把这些小工具凑载起来。

得到了一些结果之后呢，再输出一个漂亮的报告，包括刚才咱们讲图表，表格呀。其实你用DeepSeek R1，用这个Claude 3.7什么的，都是可以生成这样的报告的。像我们以前写程序的时候，有很大的一块时间是干嘛？就是打报表，各种各样的报表。为什么？要对格子，要去取数据，要去做统计分析。这个事是很麻烦的。

他们这块做的还是不错的。Manus真正强的地方在哪？它实际上就是规划。他可以自己去做计划，说：“哎，我要先干什么后干什么，先调哪个工具后调哪个工具，中间出了问题怎么办？如果没有问题的话，我怎么把这些内容再拼起来？”这个是他真正厉害的地方。

当然，我看今天已经有人说是Manus是不是个骗局了。怎么说呢？就是这个东西没有大家想象的，或者说他放出来掩饰的那么美好，但是你也不至于说他是骗局。就是我们也要看看里边到底有什么创新的地方，他怎么能够实现这种规划。

将常用的流程和子流程写出文档来，直接嵌入到本地知识库里边去，再把工具链上面各种各样的信息也把它embedding到这个本地知识库里去，再将各种服务性网站的信息也把它embedding到这个本地知识库里去。然后在规划的时候，直接根据本地知识库做REG输出就完了。我们告诉他：“我要做一个什么事。”他就跑到这个本地知识库里边去查去了，查完了以后说：“你干这个事，好像这三个工具有用，这几个流程可能是有效果的，这些模型可以干活，那些这个网站里头有你要的数据。”它可以通过进行本地知识库辅助的这种生成，直接给你输出一个刚才我们讲叫todo.MD的这个文件出来，就可以照着干活去了。

产品设计本身还是相当不错的，界面也很清爽，用户交互也非常的顺畅，这个还是很好的。这个Manus的结果靠不靠谱？先跟大家讲一个小故事。据说有人拿这个DeepSeek推荐彩票，买完了彩票还中奖了。还有一帮人说：“哎，我用DeepSeek去做量化吧，我去用DeepSeek炒股吧。”官方量化里边不是炒股的吗？这玩意靠谱吗？肯定不靠谱。所以AI这个东西一定是有幻觉的，千万不要觉得AI是有可能把这个幻觉干掉，这个很难很难的。在数据源不能保证正确的情况下，AI更没有能力说：“我一定会输出正确的内容来。”我哪怕是搜索了一大堆东西，你搜索的东西还有可能是错的呢。AI自己根本就没有判断能力说：“唉。”

我搜索回来的这个网页，哪个是对的，哪个是错的？他唯一能判断的是什么？唉，这个是一个官方主流媒体，那是个个人博客。需要去采信的时候，我要更多地采信官方主流媒体。但是我们其实并不希望AI有判断能力。大家自己想一想，如果AI有是非判断能力了，那是一件多么可怕的事情？还是让他糊涂着就算了。

然后，多个数据源进行总结归纳的时候呢，其实也很容易产生幻觉。就是当我搜到了5个相关网页，对5个相关网页的结果进行总结归纳的时候，幻觉是很厉害。特别是像DeepSeek这种东西，就是幻觉一塌糊涂。Work 3什么换节，也非常非常厉害。Manus底层的模型都不是自己的，全都是别人的。在很多的这种幻觉模型上，自我规划以后，其实它输出的内容一定是不靠谱的。虽然可以进行一点点验证，但是呢，现在距离提高正确率还差得比较远。

那么现在的结果都很惊艳。很多人说筛选简历很棒，筛选的什么房地产信息，也都非常棒。你怎么就在这胡说八道呢？怎么可以说人不行呢？其实原因很简单，他筛选简历的结果，筛选简历的过程，筛选房地产的这个呃过程，筛选履行建议的这个过程，他是给外行看的。你真给内行，他是看不了这东西，看了会乐的。这过程呢就像老中医，念着口诀给人看病似的，金木水火土念半天，你一定很专业。这个大模型也是一样的，一本正经的胡说八道。你不一本正经，他就骗不到人了。所以呢他产生的所有的这些结果，是相当容易让外行感到幸福的。所以千万不要觉得这东西就很厉害。

目前为止Manus给出来的东西，基本上是叫桃园三结义孤独一支。这个什么意思？就是怎么说都行。你说这桃园三结义孤独一支，到底是哥几个？哥一个，这孤独一支吗？哥两个，孤独出去一支，还剩俩。三个，哥仨嘛，团圆三结义嘛，大家站在一个枝头上了。这都可以讲。所以目前Manus给出的演示结果，基本上都是短期内无法进行验证的。你没法确认它到底对不对，但是当你觉得Manus……

给出的结果特别厉害，不明觉厉的时候，一定要小心，距离掉在坑里已经不远了。为什么呢？因为人跟人之间的交流和沟通，是通过不断的确认眼神，确认你的工作能力和工作结果，来建立信任。信任了以后就会比较少的进行检查，这个人就可以合作起来。但是大模型这种东西的话，你让他工作100年，该出多少错他还是出多少错。所以这个地方，还是要稍微小心一点。

下一个问题，Manus这样的产品到底有没有门槛？这个东西如果是国运级的创新的话，它一定是有门槛的。你像DeepSeek，虽然大家都觉得说我们能做的出来，而且各种开源各种开放，perplexity也号称自己训练了一个，或者调了一个类似于R1这样的模型，回来去使用了。但是呢，就并不是很多人都有这个能力，去自己训练DeepSeek这样的模型出来。这个还是有很大门槛的，即使是DeepSeek开源了一大堆的，怎么去优化GPU的这些代码库出来，这些东西想用起来也并没有那么容易。

那么像Manus这样的东西，有没有这个门槛呢？现在很多人就说，现在这个时代是模型及产品的时代，最后都会被大模型厂家干掉的。会不会这样呢？像OpenAI，每次开发布会，一帮的中小企业在这敲丧钟说完了，我这条路被OpenAI给瘫过去了。大家都是在这么看这个问题。Manus现在干的这个活，其实就是GPT5要干的活。可能再过个那么一两个月，我们就可以看到GPT5，因为GPT5也说了，我也是自自动规划，规划完了以后，我自动的去调用各种各样的模型，一次给你实现，而不是现在是这样，ChatGPT上来，我要选模型才能用它。这个方向已经在OpenAI的路径上了。但是呢，从OpenAI的deep search的结果来看，OpenAI的产品落地能力，其实并没有特别好。现在我们去看perplexity，DeepSeek的，豆包的，Grok 3的，这种深度搜索下来以后，你会发现OpenAI的。

Deep search其实是最烂的一个，真的不怎么好使。OpenAI算是技术很强，跟谷歌一样。谷歌的产品能力其实也很烂。他们这种公司呢，底层技术遥遥领先，产品烂一点大家也将就用了。中国人呢，是相对来说，比较擅长于内卷产品这一块的，产品体验、产品迭代，这个是咱们比较擅长的。这个底层技术咱们差一点，OpenAI也好，谷歌也好，都是底层技术好。在这块事上我们也很矛盾，为什么呢？广告时代最后实际上，所有的这些广告商都被收割了，被谁收割了？被这个自有流量的大广告平台给收割了。谷歌、苹果、Facebook、Twitter，现在其实都算是苟延残喘的一个广告商。剩下的，你说谁成为广告商，都是自己要有流量的。你如果自己没有流量的话，你是做不了大广告商的。现在的话，模型时代，是不是你如果没有底层模型的话，你就做不出上面这个东西来？这块呢，大家有一些矛盾。当然也有一些产品，就完全靠产品做起来。有一类产品呢，叫PLG产品，就是叫产品引导增长的。这种东西有两个比较典型，一个是Notion，另外一个叫Slack。这两个产品就是典型的PLG产品，它没有特别底层的技术，我就是产品做得好，体验做得好，让大家使着方便，让大家使着舒服，然后大家就愿意去用。这块呢，看看是不是能够走通这条路吧。在大模型时代，这个逻辑是不是还能走得下去？不知道了。因为如果Manus知继续能够做下去的话，他必须要像Notion或者像Slack这样说，我的产品做的特别好，我就愿意为你服务，让你使着舒服，大家就一直一起用下去。你说在大模型时代里头，自己模型做的不怎么样，产品做的特别好的有没有呢？也有，一个是Cursor，就是自动写代码的IDE，还有一个呢叫Perplexity，就是刚才我们抢这个AI搜索工具。目前呢，还算是有一定门槛的，虽然大家都在做AI IDE，都在做AI插件，都在做AI搜索，但这两个产品目前为止活的还都不错。

至少暂时还都挺受欢迎的吧。未来的事情不好说了。大模型时代，模型厂商的服务边界其实没有那么清晰。它跟原来的互联网、移动互联网时代是不一样的。像移动互联网时代，谷歌跟苹果好多事它是不做的。但是你现在到大模型时代，你看有什么事是OpenAI不做的吗？

那么有没有离了模型就玩不转的案例呢？也有。有一个产品叫Character AI，这个大模型团队被谷歌收编了以后，现在产品直接趴下了。现在他的产品被一个中国公司的产品摁在地上摩擦。那个产品好像叫Toki，是这个Mini Max做的，也算是这个中国AI六小龙中的一个吧。

那么Manus的产品到底怎么样呢？这个需求肯定是存在的。大家还是希望能够快速地获得高质量的信息，不是内容，而是信息，就是经过整理分析以后得出来的结果。这是大家有需要的。在产品设计上呢，至少在演示视频上看，交互还是相当不错的。成本现在肯定是不划算的。这个未来到底怎么去收费，现在还不好说。

因为呢，OTO GPT当年出来了以后，为什么马上就挂掉了？因为这东西算一次，那个时间实在是不划算。你让他开足马力去干活，可能干一次俩小时，你回来一看账单，好几百美金不见了。这是当时的一个状态。现在的肯定是要便宜一些了。Manus，据说每次回答问题，就是每一个任务做完的平均消耗是两美金。不再会出现几百美金的事情了。但是呢，他也没法保证，因为呢，他是自动规划的。你有的时候可能花个几十美分就把东西算出来了，有时候花个两美金把东西算出来，但也有的时候可能俩小时就过去了，你再回来的时候一看，100多美金不见了。而且你没法控制他，因为是自我规划，所以到底每次跑多少TOKEN他也不知道。

在这呢给大家讲一故事吧。这个是原来我看的施瓦斯科普夫的传记。这哥们干嘛的呢？这哥们是美国的一个五星唱将。在打这个海湾战争的时候，他是中央司令部的司令。他呢在越战的时候是个程序员。他虽然是军校毕业了。

到了越南以后，他是个程序员，在那儿写程序。后来，从五角大楼派了一帮专家来说：“我们来分析一下月供游击队出现的规律。”他们搜集了大量的资料，在那算了很长时间，进行了数据建模。他也有幸参与了这个项目。最后得出的结论是什么呢？月黑风高的时候更容易被袭击。所以呢，你用Manus这样的自动规划工具去干活的时候，它有可能也是这样的。算了可能很长时间，最后算完了以后告诉你一个：“月黑风高的时候容易被袭击。”

原来还有一个电影是什么？计算机算到人类都灭亡了以后，最后得出宇宙终极答案是42。这个故事大家应该也听过。所以他的这个成本是比较难控制的。后面的大厂跟进一定是必然的。GPT5还有几个月就出来了。GROK3其实现在就已经是自动规划了。大家去GROK3里边，去点击这个deep research。你去给它一个任务的时候，它也是有一个规划清单，在这个上面在滚动的。他会把这个规划清单都整个执行完。所以现在好多人觉得GROK3出来的结果非常好。如果你实在是说我也等不到Manus了，也不得不舍得花这几万块钱，去买这个测试码了。大家就上GROK3上去用掉了。豆包，腾讯的元宝以及WPS应该都会虎视眈眈的，都会把这东西做起来。而且呢，在这块的还有些别的大厂，微软、谷歌、苹果都有可能来玩一下，因为他们自己是有操作系统的。这个事情一定是他们干是最方便的。

这就是这个项目。到底有没有这个门槛的问题？其实没什么门槛。当然你说我产品做的特别漂亮也行。你像Notion那种产品就是做的特别漂亮。现在免费开源的，类似于Manus这样的东西已经出来了。它这个产品发布了大概三个小时，还是几个小时，就有一个叫open Manus的这种开源项目，就直接扔出来了。你们要用自己上去挂去。当然不是程序员的话，挂起来会稍微麻烦一点点。那你说这种产品为什么突然就疯狂了呢？原因也很简单，二级市场实在是太缺话题了，稍微有点话题。

大家赶快要冲上去炒一把，然后再来算谁是Manus概念股。赶快要去买。至于你买的时候是不是有其他人在外面跑路，或者有其他人去赚钱割韭菜，这就不管了。但是有题材总是要炒的，而且这个团队呢，其实相当擅长于运作。

首先呢，他的视频拍得很好。在大模型时代，在AI时代，如果你这个团队不会讲故事，不会拍视频的话，你是混不下去的。他们很擅长干这个事情，做得非常漂亮。

第二个，这个团队原来是做微信私域运营工具的，就是专门给这个微信公众号，或者说这个企业微信的这些人做运营工具的。所以他们很擅长做这种叫做社交媒体裂变，社交媒体爆发这个事情，这是他们的老本行。

有了DeepSeek的铺垫以后呢，现在中国人的这个热情还没下去呢，突然有消息传出来了，肯定还要再跟着热闹热闹，这个是必然的。但是呢，这种突然爆发的传播呢，对于Manus本身来说未必是一个好事。

刚才我们讲这个PLG产品，就是这个产品引导增长的之类的。这些产品的话它有一个特点，就是你一开始一定要低调，你要这个猥琐发展一段时间。你如果一上来就在显微镜下的话，这个事是没法整的。突然爆火了以后，唯一的结果就是被大厂盯上。而且呢，你一旦进入这个显微镜下，你所有的缺点都会被放大。

2015年的时候曾经有过一个产品叫足迹，应该也是2015年春节的时候出的。他呢能够出这个电影感大片那样的照片，随便拍张照片进去，他就给你做一个像电影大片似的那种，等于裁的这种带这个边的吧，还给你写上一句字幕，大概是这样的一个感觉。上线服务器就崩了，很快就销声匿迹了。

所以像Manus可能会走上这条路。AI圈这种突然爆火，又突然死掉的产品其实还是蛮多的。大模型是别人的，算力成本无法承担，用户突然涌入，预算在燃烧，体验在下降，然后就没有然后了。这个是Manus这样的产品很有可能会遇到的问题。像他们呢其实手里没有多少钱，因为他们以前的公司是被腾讯投资过，但是Manus这一块的话。

你说：“我想趁此再去融一大笔钱，也不是那么容易。算一次两美金，一个任务两美金。当真的有一大堆用户涌进来，开始其他开始跑的时候，就想起这个哪吒一开始那句话了：‘天雷滚滚，我好怕怕，劈得我浑身掉渣渣的感觉。’你一个人进来，两北京不见了；一个人进来，两北京不见了。还不是一个人，是一个问题，进来两美金就不见了。你有多少钱够他烧的？”

当然了，现在这些事呢，对于Manus来说，也算是一个幸福的烦恼。还有一大堆人说：“我做出产品来没人知道。”他至少被人知道了。所以，能不能趁机融一笔钱，或者干脆找人卖掉算了？因为像他创始人上一个公司，就直接找了个公司给卖掉了。现在这个产品如果能把它卖出去，也算是不错的一个结果了。

新的阶段是不是已经准备好了？其实Manus代表了一个新的阶段到来了。AI进程呢，实际上有五个阶段，这个是山姆·奥特曼提出来的。第一个阶段是对话，能够进行自然语言交互的聊天机器人，用于简单对话和信息交流，就是我们现在使用的GPT-4、4O什么的，就是对话。然后第二步呢，是叫做推理，具备在特定领域进行问题求解和逻辑判断的能力，可以进行复杂推理和逻辑分析，就是我们现在用的DeepSeek R1、GPT的O1、O3这样的模型，就属于叫推理模型。现在其实我们在努力的走这一块儿。

推理之后呢，就是规划，是agent，可代表用户执行任务，具备自主运行的这个能力，能够在动态的环境中实施决策，这个是现在第三步。实际上Manus就已经走到了这个第三步上。再往后一步，创新，能够参与发明创造，增强人类的创造力，可在科学研究、技术开发等领域推动突破。其实现在什么医学方面，已经开始突破了。然后最后第五步是什么？叫协作，深度融合组织功能，参与社会管理与复杂决策协作，能够管理复杂的组织任务。这个是山姆·奥特曼给AI整个发展的，类似于L1、L2一直到L5的一个状态。

那么当前的状态是什么呢？GPT-4.5已经展示了，对话这件事情基本到顶了。

你再怎么加这个算力，再怎么去扩大模型，也就这么回事了。而我今天发现我的ChatGPT已经可以用4.5了，虽然是迟了两周，我们还是用上了GPT4.5，还没有空跟他去提问题呢。

推理模型现在还在快速发展的早期阶段，推理模型这个阶段并没有过完，现在都在拼命地冲这一块。有机会大家可以去试一试通义千问的QWQ 32B那个模型，还是不错的。因为这种模型32B嘛，你是可以在电脑上本地跑的，我就在自己电脑上装了一个，效果还可以，确实慢一点。

再往后这个规划呢，其实一直都在尝试，逐步有可用的版本出来。OpenAI一月份出的operator就是这样的一个产品，GROK3的Deepsearch也是这样的一个规划类产品。Manus呢算是把这个规划又往前推了一步，它已经离开了原来的这种环境，不需要在OpenAI的这个环境下用，不需要在grok 3的环境下用，完全用别人的模型，批了这样的一个单纯的产品出来。

当然了，现在这个产品到底有多成熟多不成熟，我觉得下结论还太早，因为我自己并没有真正的去用嘛，邀请码还没收到。缩小范围，专业一些的自我规划AI agent应该还是有机会的，因为现在的Manus号称是我可以泛应用，所有的行业所有的领域我都可以干，你让我干啥都行。最终能够做到的结果，大家就不要有特别大的预期了。

Manus出来以后，行业的方向必然会发生一些偏转，就甭管这个产品做的怎么样吧，告诉大家了一些可能性。现在哪怕是两美元算一次，这个可能性存在了，手工规划工作流的这些产品就要开始转型了。比如说像Dify，像Coze这种自己画流程图的这种，可能就要稍微的调一调方向了。未来呢应该都是会有自动规划工作流，这块会获得更大的这种关注。

那Manus有未来吗？首先跟大家下一个结论，没有，哈哈。为什么呢？不是因为产品做的不好，也不是因为它底层是没有自己的模型的，这个都不是。大家知道互联网时代。

第一个倒下的独角兽是谁吗？叫Evernote，就是现在的印象笔记。第一个从独角兽的10亿美金估值里退出来的公司就是他。那为什么是他呢？好多人说挺好使的，我还花钱买呢，像我也是花钱买的，而且这么多年一直在付费。为什么这样的产品就不行？原因很简单，咱们说一个像绕口令的话：“有用是最没用的事情。”为什么像绕口令一样说这个呢？因为大家被Manus惊艳到的时候，是因为觉得这东西有用，他给我的筛选力的这个过程很棒。你到底有多少HR需要筛选力？有多少HR现在不是在忙着裁员，忙着自己不被裁，而是说我要去招人？有多少人需要这东西？有多少人需要去看那些专业的报告？其实没有的，用户必然是很少的。像它这个Monica.IM，现在号称一共有700万用户，其实是累计安装量，它的活跃用户基本上可以忽略不计的。而且它这个700万用户，还是收购了一个叫GPT for Google的，一个300万用户凑起来的，他自己就有400万。收购了这么多东西，现在号称700万这个数，其实基本上你就认为他没有就可以了。而这几天有可能会爆发一波，但是未来应该很快就消减掉了。而且真正的专业人士是不会看他的报告的，我告诉你，真正专业人士看他的报告更累，你还得再一个一个再去校对，再去核验，再去看里头有没有说错的地方，这个事是一个很痛苦的过程。AI工具主要现在还是能够骗外行，就像我前面AI时代，文科生很重要这个视频讲的一样。像我这些程序员，一看AI写的代码，就在那乐，你们这个连拼屎山都拼不出来。但是我看AI写的小说，AI画的画我很开心。一些设计师一看AI画的画，这叫啥玩意？那些真正产品经理这些文科生，你看AI写的那些文字也是没法看。他是这样的一个状态，这个东西最擅长就是骗外行，就跟那个很多相声演员讲的似的：“我是这个说相声里边最会唱歌的，以及唱歌里边最会说相声那个人。”这就是AI现在最擅长干的事情，而且专业看报告的人。

现在还在不断的被裁员呢，你给他们提效干嘛？海外应用还要等OpenAI、谷歌和微软再去发力，它在国外的用户是起不来的。就算Manus让我看走眼了，真的是用户量做起来了，那各国政府能乐意吗？你这数据是不是去中国了？怎么还有这样的问题呢？一个武汉公司，做了这么样的一个产品，到全世界去收集别人的调研报告、各种数据，这不开玩笑的吗？而且两美元一次的这个成本，如何平衡这个事，对于他们来说也是很难回答的。

在AIGC时代，可能真正有价值的东西还是娱乐，不是真正的有用的东西。虽然一大堆人都在研究怎么让AIGC有用，但是我觉得依然是娱乐有效。为什么呢？因为它出来的东西不严谨。你给个小说，你这东西写对了写错了，他没事，不会因为说这小说写错了几个字就造成多大的损失，而且有新鲜感，我还看着很开心，这不就可以了吗？

但是你想，他这边出一大堆报告，告诉你应该上哪去买房，告诉你应该招谁不招谁，等最后你把人招回来，发现不好使，你把房买了以后，发现这个房子有问题，你找他吧，他也不负这个责任。所以现在千万千万不要去做有用的东西，这是今天咱们去讲的Manus的这个故事。

软银OpenAI日本公司背后的资本阳谋——5,000亿星际之门是如何影响全球AI格局的？

Luke Fan — Wed, 05 Feb 2025 00:40:36 +0000

SB OpenAI日本公司宣布成立，这怎么听怎么像是在骂人呢？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲SB OpenAI日本公司到底是一个什么样的情况。

孙正义上台宣布Softbank OpenAI Japan这个公司成立了，所以这个SB不是骂人，它是软银Softbank的意思。今年我们发现OpenAI的声音连续不断，这是为什么呢？原因也很简单，老大的位置不是很稳固了。你要想在这一个行业里面当老大，要么你技术特别好大家都服气，比如像谷歌这样的，各个行业里头，只要跟计算机技术有关的，大家都知道谷歌的技术最好；要不然你垄断，比如像苹果这样，或者像Meta这样的，在社交媒体里我直接垄断了，大家知道你是老大。

如果技术也被人质疑了，花了好多钱训练出一堆模型来，别人也都可以达到了Claude 3.5、Sonnet、Gemini 2.0、Flash这样的模型，其实现在已经跟GPT-4相差仿佛了。你新发布了一大堆乱七八糟的模型呢，都是很小众的高端产品，对于大众来说无感。在这种情况下，你的技术就会被人质疑。

垄断的话，现在OpenAI距离这个位置还相差甚远，因为现在整个大模型行业里的格局就没有确定下来，后边还有谷歌呢，还有亚马逊呢，还有一大堆中国厂商在这盯着呢，所以垄断也难。那么怎么办呢？占据舆论的制高点吧。这个道德现在他还占不住，他占据舆论的制高点。

OpenAI呢，本身是比较擅长于造势，比较擅长于占据舆论制高点的。咱们要看到去年的Sora、去年的GPT-4以及去年连续12天发布会什么的，OpenAI很会搞事儿。它呢，可以把有限的新产品、新特性通过一些非常戏剧化的手段，让整个的社会形成一个讨论风潮。因为DeepSeek出来了，大家对他的各种技术、各种挤牙膏更加质疑了。而且DeepSeek跟其他的所有这些竞争对手都不一样。

Claude 3.5是个闭源的，Gemini 2.0也是个闭源的。结果现在，DeepSeek可给了你一个开源的，还巨便宜无比。它跟原来的像Llama这样的开源还不一样，因为Llama对OpenAI基本上是行不成竞争的，而DeepSeek是可以完完全全跟OpenAI打个有来有回的一个状态。

现在，OpenAI必须要出来，不停地发出声音说：“来，公众们，虽然我现在发布的产品都是给你们的老板们用的，给这些真正的社会精英用的，但是请把眼光看过来，不要把眼光挪走。”这就是今年为什么OpenAI连续发声的原因了。

软银OpenAI日本公司成立，也是OpenAI连续发声的最新的一个声音。这个呢，是软银跟OpenAI各自出资50%成立的一个合资公司，但是具体出了多少钱，并没有对外宣布。为什么呢？因为这应该是星际之门整个资本运作中的一个环节。说了要给5,000亿造星际之门，那这5,000亿怎么变出来呢？你不是真的拿出5,000亿现金啪拍这儿，你肯定是可以用很多的方式让这个钱在里边转起来。你只要最后总的流动量达到5,000亿了就可以了。

所以呢，软银OpenAI日本公司应该也是在为这5,000亿添砖加瓦的一个事情。在这里面唯一确定的交易是什么呢？就是软银集团每年会向OpenAI采购30亿美金的服务，用于自己的子公司或者是下面的一些分支机构。这个是现在唯一确认的交易，每年30亿美金。

假设吧，在这个里边每家出了100亿美金，软银出了100亿美金，OpenAI出了100亿美金，200亿美金我们把这公司做下来了。OpenAI这100亿美金呢，估计他是拿不出来。那个钱自己在家里头烧显卡玩都不够呢。而且OpenAI拿到的大量的投资实际上压根就不是现金，而是什么呢？而是微软云的代金券。你不能说我跑到软银这来说我出100亿美金，咱们来做一个公司，结果掏出一堆代金券，这还不够人笑话的呢。

那怎么办呢？说我OpenAI出了100亿美金吧。我先欠着，我先不实缴。每年软银不是要给我30亿美金来买服务吗？把这30亿美金收到了以后，再填回到OpenAI的日本分公司去，不就完事了吗？你填个三年基本上填满了，剩下的钱再出一些别的技术也就搞定了。咱们就技术入股一下嘛，一里一外，这个钱不就赚过来了吗？

假设是这么赚法，这笔钱呢，完完全全可以成为OpenAI投资SB OpenAI Japan的一个代金券，就跟微软发给OpenAI这个130亿的代金券是一样的。说你OpenAI，你就拿着130亿代金券到微软去买这个云服务就完事了。它是这样的一个运作机制。这样运作起来以后，第一，OpenAI每年就多出30亿美金的收入来。他去年应该是40亿美金吧，但今年一下就多出30亿，而且每年都有30亿美金。这也是一个挺好的事情。

而且在这笔钱里头，就是每年他会转一圈，30亿从软银集团手里给出来，到OpenAI手里头。OpenAI说来，我再把这个钱填回去，到OpenAI日本的这个公司里头去，大家的销售额就都上升了。这是一个皆大欢喜的事情。

对于中国观众来说，软银是一个投资机构，或者是很多人说他是个银行吧，Softbank嘛，它后面有一个bank。但其实大家注意，日本最大的移动营销商之一就是软银，相当于像中国移动这样的一个公司似的。等于中国移动说，我这儿有很多的机房设备，有很多的这种可以作价的一些资产，我们把这些东西打包打包，然后搁在一块去整一个什么事情来。OpenAI，你的服务也打包打包，搁在一块放在里头，每年我们得30亿，来回倒腾一下，你的销售额也有了，我的销售额也有了，整个的资产也上升了。

我们5,000亿的星际之门，又盖出了一个小门槛来。他是这么玩的一个事情。而软银呢，这一次整的这个项目呢，叫SB OpenAI Japan，这个项目里头有一个核心产品叫水晶智能，这个产品呢，估计会让日本彻底掉队。

为什么呢？你说每年花30亿来回倒腾来倒腾去，但是最后日本的这些企业，你肯定还是能够用到一部分OpenAI的这个产能的呀，或者说他提供的这个服务，你还是能用得到的。按道理说呢，这些产能应该是部署在日本的软银机房里的。原来OpenAI的所有这些服务必须要部署到微软云的这个机房里边去，但是软银如果把新的一轮融资搞定的话，微软云应该就可以去松口。在这样的情况下，为什么会让日本反而落后呢？

其实所谓的水晶智能，就是以OpenAI的各种大模型为基础开发的AI agent，或者说是AI agent的一个集群。到目前为止，其实大家并不知道水晶智能到底是以一种什么样的方式来对外服务的。但是呢，以孙正义现在讲出来的话来说，应该是自上而下的创新，也就是首先为日本这些大手企业服务。他讲述我们要在未来一段时间里头，把1亿个大手企业里面遇到的这种场景变成AI agent，让AI agent来替代这1亿个场景。就是你一旦听他想这个话的时候，你就知道完蛋了。

为什么？我们继续讲，水晶智能这样的东西出来以后，大家知道大手企业肯定并没有那么容易就屈从，说来我就用吧。大手企业都是自己一帮老头坐在一块，开个会说，我们哪儿改一个什么东西，哪儿添一个什么预算，哪个地方稍微调整一下流程。那一定还是要有榜样的力量，谁是榜样呢？软银手里头还有一家公司叫ARM，说来你先用上，你先用水晶智能，把内部的各种研发管理环节都整个改造一遍，其他人说来你们参观一下，俺们就是这么干的，你们也照这样干吧。他大概是要这么去搞法。

我记得去年我从日本回来以后，做过一期节目，讲过日本在互联网、移动互联网的时候掉队了，而在AIGC时代会掉得更远。原因其实很简单，并不是日本人不聪明，也不是说他们不愿意花钱，或者说人家没有看到这块机会。唯一的原因，就是他们这种自上而下的创新，以及他们的这种劳务派遣制度。

这个是造成日本在每一次大的技术浪潮前都会掉队的一个核心原因。为什么呢？不打破旧的桎梏，就不可能产生新的交易。没有新的利润被分配，就没有办法到新的时代里去跟这些新时代大厂去竞争。

你比如说，原来都是大厂往下派单子，那他就没有办法去产生一个像谷歌那样的广告公司，去跟谷歌去打一仗。移动互联网时代，他也没有能力去产生像TikTok这样的产品，去跟YouTube、去跟Facebook去战斗。因为大厂永远不会有这种需求的。你越是维护大厂的利益，越是自上而下去创新，你就越没有机会参与到新的竞争里边去。

所以，摆在AI面前的实际上是两条路。第一条路是协助旧有势力，降本增效，稳固地位。那国内其实也有很多厂在干这个事。而另外一条路呢，就是创建新的用户体验，创建新的用户需求，寻找新的市场。一部分旧有势力呢，在这个过程中会沦为基础设施，已经退出新时代的竞争；而另外一部分就直接死掉了。

这个才是每一次技术革新真正带来的这种社会的改变，而不是说每一次技术革新了，我们把旧的体制、旧的这些既得利益者、旧的势力继续维护，让他们继续稳固的发展下去。很那个就已经放弃了在新时代竞争的这个入门卷了。

哪些旧有势力在新时代沦为了基础设施呢？其中有一个最典型的行业就是Softbank这个行业。移动运营商在3G时代的时候，移动运营商真的是如日中天，各种服务都是他们提供的。但是一旦到了4G时代，移动运营商马上就退居后台了。而在前台上叱诧风云的，就变成互联网企业，移动互联网企业再也没有移动运营商的任何事情了。

咱们现在看到站在前台、努力大放光彩的这些企业里头，有哪个是移动运营商出身吗？一个都没有。谷歌是吗？苹果是吗？Meta是吗？中国的BAT加上字节，谁是移动运营商出身？没有一个是。那难道移动运营商在这个转换的过程中没有挣扎过吗？挣扎过呀，他们也希望在移动互联网时代。

在互联网时代能够占有一席之地，但是这个是没有办法的，因为他原来的这个桎梏一定会捆绑他的手脚。你不打破的话，就永远掺不起来。所以孙正义搞的这套SB OpenAI Japan，一定会拉着日本进一步退出新时代的竞争。

那么现在孙正义他们要搞AI agent，AI agent也是今年整个AIGC行业里边必须要去冲的一个山头了。那么AI agent到底是应该怎么做呢？OpenAI为我们指明了什么样的方向呢？

OpenAI在今年实际上在AI这里头下了三部棋。第一部叫task，它可以为我们去创建各种定时任务。第二个呢叫operator，等于是用户可以直接操作远程的浏览器，通过网站解决各种实际问题。第三个呢是这两天发布的叫deep research，是干嘛的呢？就是你给了他一个命令以后，他去搜索几百个网页，然后再进行总结归纳之后，得到一份像财报一样的报告。这是OpenAI给出的三个样例。

我们现在要看到AI agent，去年大家都在努力的做，但是OpenAI指向了不同的方向。它指向了什么呢？第一个叫做手动规划跟自动规划。原来我们使用很多AI agent都是进行手动规划的，我们要去设置自己的私有的本地库或者是本地支付，要去设定工作流程，要去设定各种各样的工具，让这个AI agent可以去发邮件或者是执行交易，可以去做这些事情。

原来是这样的，但OpenAI说不，不是这样的。我们应该让他自动的去规划。你只要告诉他干什么，剩下的你就别管他了。哪怕是像deep research这样的功能，你只要告诉他我具体要去做哪方面的研究，他自己去找，去找完了以后自己给你总结。你不需要告诉他使用谷歌搜索，搜索这个财报，再去搜索学术论文，然后再怎么去进行总结归纳。你不需要告诉他，这个事情他自己就搞定了，然后就给你出一个很完整的报告出来。这是OpenAI给我们指明的方向。

然后，另外呢，就是综合能力和普世性。这个问题其实OpenAI也解决不了。OpenAI现在给出的这三个AI agent：task、operator、deep research，实际上都是分方向的。让某一个AI政策可以解决所有问题，解决不了，必须要术业有专攻。

OpenAI现在跟所有做AI agent的人一样，面临了一个新问题。是什么呢？就是普通人没法用这东西。他希望通过自动规划，让普通人能够用上这些AI agent。但是，咱们就这么说吧，财报，这是由专业人士直接替我们书写的内容。我们到底有多少人可以坐在这，把上市公司每年每季的这个财报看明白了？绝大部分人能够去看明白财报解读，就已经很不错了。

真给你一份财报，看着一大堆的Excel表格，在这里边找到各种的问题，这个是很难的。大家要注意，这个财报写的时候，并不是说我要把所有的事情都给你写清楚。这可能跟很多人想象的不一样，财报写的时候也是要粉饰太平的，也是要把很多的问题隐藏起来的。

虽然他有一定的规范和格式要求，要求你必须要去披露所有的信息，但是我们可以用很多的方式，让有些信息被你忽略掉。这个是所有写财报的人必须要掌握的一个技巧，既要合规，又要突出重点，隐藏一些问题。看财报的人也是需要训练的，这些东西对于普通人来说，其实已经距离很远了。

所以，像deep research这样的工具，就算给普通人了，他拿出来的东西，大部分人是看不明白的，也没有能力去阅读这种东西。那么，这样的东西对于普通人来说，就是无感。普通人也不会愿意帮他去传播这件事情。我看deep research出来以后，现在在推特平台上去讲这个东西很棒的，都是一帮老板。这些人可能会有需求，说我要去做这种深度的研究。绝大部分的人可能压根就没这个需求，或者说就算你花200美金一个月，开启这个功能了，进去search一次，那也就是说高山仰止，不明觉厉，这个东西写的好棒，完了。

这个事情也就不用普通人每一次都进去自取其辱了。现在我还使不了这功能，因为我是20美元一个月的这个账号。据说再过一个月，这个deep research会开放给我们使用，一天大概能用个几次的样子。但是大家要相信，这一份财报类的这种综合报告，一般人一天是看不完的。那么2025年大家努力的方向是什么呢？咱们先不研究AI agent的事情，咱们现在要看到山姆奥特曼，他们在干嘛呢？

2025年，星际之门是他们的一个最核心、最重要的事情。山姆奥特曼跟孙正义前面刚在川普面前去签了字。这两天呢，因为SB OpenAI Japan成立，山姆奥特曼跑去日本了，孙正义带着山姆奥特曼去见石破茂去了，日本首相。有来有回嘛，过两天山姆奥特曼要再带着孙正义回去见川大爷。大家要重新去运作起来。那么这个到底在干嘛呢？其实我觉得这是一个阳谋，这是在对抗国运级的DeepSeek。

很多人说DeepSeek是一个国运级的科技创新。那么为什么这是一个阳谋呢？如果DeepSeek真的跑去跟国家绑定了，那么OpenAI可能就真赢了。并不是说国家扶持DeepSeek或者国家主持DeepSeek的工作就会有什么问题。孙正义做水晶智能的时候，其实已经讲过了，到底新的技术是应该培养新的交易、新的大型公司，还是让传统的公司、传统的势力变得更加强大，这是两条不同的路。

而现在的话，OpenAI、孙正义这些人在日本美国之间，见完首相见总统，见完总统见首相的话，那么DeepSeek可能未来也会去跟最上层绑定，就不会有这么多的机会去扶植或者是孵化真正的新兴生产力。新兴的这些公司可能就不行了。大家要注意，新质生产力还是传统大公司干的活，而我刚才讲的这些新兴的是要找到新的场景，培植新的这种大厂出来，这个是完全不一样的。

好，这就是我们今天讲到的SB OpenAI Japan的故事。感谢大家收听。

请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

字节跳动全面进军AI编程 | Trae抢占AI IDE市场，质量与免费就是杀手锏！剑指AI落地的最后一公里，仅限字节跳动在AI领域的野心

老范讲故事 — Thu, 23 Jan 2025 00:42:36 +0000

字节跳动正式加入了AI编程大战，野心尽显。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲AI编程的故事。

一直有人在跟我讲一个话题，叫什么呢？就是“我有一个idea，就差一个程序员了”。非常非常多有想法的人，他们被写程序这件事情拦截了，无法实现他们的想法。AI来了以后，这个问题得到了一部分的解决，但并没有彻底解决。

AIGC，也就是我们这一波的AI，是从哪里开始的呢？就是从写程序开始的，不是从ChatGPT开始的，也不是从MidJourney画图开始的。最早的AIGC项目，或者说被广泛传播和使用的项目，叫GitHub Copilot，就是帮助程序员写程序的。当然，这个项目并不能让那些真正的程序小白，或者说完全没有学过程序的人写出程序来，它只能帮助这些会写程序的人，或者对程序还相对比较了解的人提高编程效率。它是这样的一个工具。

AI辅助编程，或者叫AI程序员，这个事情经历了这么多年的发展，现在到底发展成什么样了呢？你说我现在是一个小白，是不是就可以去用了呢？字节跳动这样的一个明显ToC的公司，大量的用户是C端用户，是个人用户，他们加入AI编程大战，是不是意味着他们推出的产品普通人就可以用了呢？咱们慢慢来讲一下。

现在的AI编程的发展，首先，它是分成三个大的组成部分：第一个叫插件，第二个叫大模型，第三个叫AI IDEE，叫AI集成开发环境。现在的插件，从最早的GitHub Copilot依然在不断更新升级，然后有一个叫Continue，叫继续的一个插件，这个做得也还是相当不错。还有一个插件叫C L I N E，这个插件现在用的人也比较多了。其他还有一些插件，比如说LLama Codesr，是可以使用LLama模型来进行编程的插件；MazCodes是字节跳动在国内推出的编程插件；还有一个叫通意零码。

大家一听就知道这是阿里做的。所谓的编程插件呢，就是你需要把这些插件插到你的集成开发环境里去，比如说微软的VS Code或者是IntelliJ。插进去以后，它就可以进行自动编程了。当然，这并不是说你告诉他说要有光，于是就有了光这样的自动编程。而是什么呢？就是你已经写好了一个程序，然后问他说我这里应该添点什么、补点什么，他会给你完成这样的工作。甚至呢，你告诉他说我这有一个错误，告诉我应该怎么去修改，他们会帮你去改错误。这是插件。

第二块呢就是大模型。现在我们使用AI编程的大模型呢，最主要的两个，一个是GPT-4，另外一个呢是Claude 3.5 Sonnet。其他的呢，GPT-1以及Llama专门有一个对编程重新训练或微调过的一个模型，叫Llama Coders。千问呢，也有千问Coders，这是专门给通义千问做的编程的微调。DeepSeek现在做编程的效果也还是不错的。这就是各种大模型去做编程。

再往后一个呢，就是IDE。IDE叫集成开发环境，就是从写程序到编译、运行、部署，所有这个东西在一起。AI IDE呢，除了刚才我们讲的这个VS Code，你加各种插件来实现AI编程之外，现在也有一些专门的AI编程那种IDE，比如说最有名的叫Cursor，它出来的比较早，这个呢是20美金一个月，主要使用Claude大模型进行AI编程。然后呢，有一个叫Windsurf，这个是前面咱们讲的Continue这个插件，他们公司做的一个AI IDE。

今天我们要讲的这个东西呢，Trae，这个应该怎么念，是字节跳动最新出的AI IDE产品。都是在VS Code的基础上，加上他们自己的AI agent，加上他们自己挂的一些模型，形成的完整的IDE。这就是现在AI发展到的一个状态。那么整个AI编程发展的各种历程是什么样的呢？从最早的叫代码补全，就是你写完了几句话以后。

他给你告诉你下边几句该怎么写。再往后呢，是开始进行自动的代码提示，或者多代码的这个更正。经常我们写的很多项目，需要在不同的代码文件里边去进行调整。再往后一步的话，他就会自动地给你在多代码文件里边进行调整，以及多代码文件进行阅读和建议。因为原来代码补全，就是你给他一个文件，他读这一个文件，现在他可以读整个的项目了。

再往后呢，就开始进行完整的脚本执行。这个什么意思呢？因为我们去写程序的时候，并不是说上来说，我们开一个新文件程序，第一句写什么，第二句写什么，不是这样。经常有很多这种叫做要执行的脚本，比如说命令他创建一个什么样的程序，或者命令他加载哪些库，命令他开始执行，命令他去做各种的清理。他有非常非常多这样的脚本。现在的AI编程工具呢，这块都可以自动做了，甚至呢，最终可以做成一个完整的流。什么样的流呢？比如说你告诉他，现在我想要做个博客，他就说行吧，我想想该怎么办。比如说执行了一个脚本，执行完脚本以后呢，说我根据你的要求生成了博客的页面，而又生成了什么东西。然后，这里还缺一些这个样式库，再执行一个脚本，他得一步一步这样去执行下去。基本上可以完全自动化，可以把这事搞定了。这就是目前来说，AI IDE可以达到的一个效果。

待会儿我们会看一个案例。那么，AI IDE到底是不是可以让小白去写程序了呢？给大家一个结论：很遗憾，还是不行的。前面有人说了，9岁小姑娘40分钟写一个游戏出来，这不是应该可以吗？这个呢，只是一个样例而已。这个9岁的小姑娘应该还是接受过一点点的编程训练的。如果完全没有任何编程训练的人，甭管是9岁还是九十岁，给你AI IDE，你还是写不出程序来的。而且呢，还要注意什么呢？就是很多这种让你觉得哇哦、这种眼前一亮的案例，都是特别编排出来的。可能这个9岁小朋友只能去写这样的一个用例出来，你让他换一个用例，他就写不出来了，里面会有很多的错误抛出来。

他就根本不知道该后面怎么办。这个事情，而且按道理说，按完回车，他自己再去确认确认，前进，继续什么，做一些这样的点击，为什么需要40分钟？这里头还是有一些bug需要去调整的。待会儿我们去看Demo的时候，你们就知道大概需要去调整哪些东西了。

但是现在的这种AI IDE呢，可以让一些稍微受过一点点快速开发教育或培训的这些人写出快速的原型程序了。工程项目如果变得很大的话，可能还是比较费劲的，但是些小应用已经是可以去跑了。

现在咱们来讲一下今天字节跳动推出的这个叫Trae，它到底有什么不一样？首先呢，要跟大家讲，这一块没有什么特别大的门槛。VsCodes它就是底层，大家都是在这个开源的底层基础上去改的。甭管是今天我们讲的Trae，还是前面讲的Cursor，还有Windsurf，都是在这个基础上进行修改。

他们使用的大模型呢，基本上也都不是自己的，就是Claude 3.5、Sonnet或者是GPT-4O，都是用这样的底层模型来干活的。他们真正在里边做的什么，就是一大堆的提示工程。Trae呢，它可以进行自动的项目完成，你只要告诉他说我要做什么什么事，后边就是确认确认确认就完事了，他就可以给你把整个项目写完。这块呢，做的还可以，跟Cursor、跟Windsurf基本上是可以达成一致的。

至于说生成项目的质量怎么样的话，这个我觉得可能并没有那么容易去评判，因为底层都是Claude 3.5和GPT-4O，最终形成的项目的质量或者有多少个bug或者什么，这些东西的话，有的时候看的不是这些IDE自己的能力，而是看大模型的能力，所以你去评判它意义也不是特别大。

那你说Trae跟其他的Cursor、跟Windsurf比起来到底有多大差异呢？最大的只有一个，免费。至少现在是免费，号称叫限时免费。未来是不是会继续免费呢？看用的人多少，用的人少的话，可能就开始收费了；用的人多可能会继续免费。很多人说不对。

你这个说反了吧，是不是应该用的人少接着免费，用的人多了就该收费了呢？因为用的人多，你需要消耗很多的Claude 3.5 Sonnet的TOKEN，这个东西是要收费的呀。大家想反了，为什么呢？一旦用的人多，说明什么？说明字节跳动抓住用户了，这是一个未来的方向。那么他一定会说：“我继续免费，让大家接着我，慢慢地向我整个的平台去转移。”这才是字节跳动想要的。如果用的人少的话，发现这个产品姥姥不疼舅舅不爱的，算了，收费吧，以后没有拨款倾斜了，不能再去继续赔钱了，他会变成这样。

所以他跟很多这种美国项目是不一样的。美国像Cursor也好，Windsurf也好，都是要收费的，为什么？因为公司很小，就算他融了资了，他也不敢说：“我拿融资的钱去给大家补贴这个TOKEN。”但是字节跳动是谁？像什么豆包这些大模型都是免费的，随便去使用。跟这些国内收费的文心一言，这些模型比起来，那这肯定是打的他满地找牙，用户就直接就回来了。

所以呢，越是用的多的，越说明这个产品可能会成为未来的方向，字节跳动就越会愿意花钱给大家发补贴。现在这个Trae到底怎么样了，未来还有哪些欠缺的地方可以去添加呢？第一个呢是更多的模型可以加入，现在只是GPT4O和Claude 3.5，未来的话还可以加上，比如说DeepSeek，DeepSeek R1，包括千问Codes这些模型，其实都可以加进去。因为国内你是没法使用Claude 3.5，也不能使用GPT4O的。但是呢，你每次换模型了以后，你要重新调这个提示词这块的话，他们可能还需要一些时间跟这些国内比较强的模型去进行匹配。

DeepSeek R1的话，应该是昨天发布的，是DeepSeek做的这种推理模型，那个编程效果杠杠的，很多指标都已经超过了Claude 3.5 Sonnet，而且特别便宜，它的价格是Claude 3.5 Sonnet。

可能1/10或者1/20这样的一个水平，非常非常便宜。那么未来应该是会续加的。而且现在的Trae只支持MacOS操作系统，不支持Windows。也许再过个一两个月会去支持，这个其实也很简单，因为Windows本身的操作系统比较乱，里头各种的环境都比较混乱。特别是现在的各种编程的这种底层的环境，都是在MacOS或者Linux上跑的。你让它去在Windows上跑的话，都会比较费劲。所以目前为止只支持MacOS。你说我是个Windows电脑，稍微再耐心等一等。

从功能角度上讲，现在其实还欠缺几块。现在呢，还不能切图。什么叫切图呢？比如说我用Midjourney画一个设计图给他，说“你给我照这样做出一个网站来”。他呢，现在只能去理解一下这个图的风格，然后我照这个风格给你把这个网站做出来。他并不能把你这个一个完整的设计图切成一小块，这个是一个图标，那是一个按钮，不能给你切出来。你按道理说呢，应该是切好了以后再去应用到网页的不同位置上去。这个实际上就是设计师跟程序员之间配合的一个过程。设计师先把这整个的界面设计出来，然后呢，再把每一小块图标、按钮或者是里边的各种图片都给你切下来，让你去使用。他是这样去工作的。

现在这块还没做。这块呢，我觉得以字节跳动自己在这个AI生成图片这块的这些努力的话，他们去做这一块应该是有机会的，只是现在还需要再去等。而且未来的话，有可能会加上这种自动切图。就是给你一幅图以后，自动去在里边把需要的元素切出来，以及呢，自动的图片生成。假设你有一个生成好的界面的样例了，那么说“OK，我按照这个风格去给大家做”。做完了以后说：“我这里还需要个按钮，那里还需要个图标，哪个地方还需要一个背景图。”你有一个基本的风格之后，他完完全全可以自动再去生成一些图片，把后边的一些东西补上。因为字节跳动自己也有文生图的大模型，那就直接用呗。而且现在字节跳动的文生图大模型。

你在豆包里是可以直接免费用的。那它如果可以把这些功能加上去，让字节的这个AI编程助手，或者叫AI IDE，被大家广泛接受和使用的话，未来这一部分应该都是可能进入的。而且字节跳动家里是什么都有，他不光是可以生成图片，还可以生成视频，还可以去做很多的图片编辑、视频剪辑，以及还可以生成声音。未来字节跳动的这个IDE里边，就有可能把这些东西慢慢都加进去。

那么好了，再往下咱们讲一下这个Trae到底有什么用。第一个，你如果一点编程都不会，这个事情跟你没关系。如果你稍微会了一点点编程，未来很多人就都可以使用Trae这样的AI集成开发环境去编写一些小的应用程序。为什么我要这里专门强调这个小的应用程序呢？新手程序员去写一个完整的应用，这个是非常非常难的。但是你说我去写一个小应用，这个应用只给我自己用，这块呢，难度一下就降低非常多了。为什么在这里强调第一小，第二只给自己用呢？小了，你需要考虑的问题就比较少；第二，只给自己用的话，你就没有什么兼容性的问题。你比如说我这程序跑得好好的，换你机上跑不了了。对于程序员来说，我们经常解决这上的问题。但你说我就写一个程序，自己跑一跑能使就完事了，这个呢，很多的新手程序员都可以去搞定的。

那么这件事情到底有什么意义呢？我为什么需要一个很小的程序，只给我自己用的程序呢？大家有没有听过一个词叫最后一公里？光纤的最后一公里，把这光纤拉到这个小区里了，但是最后挨家挨户去装的，这个叫最后一公里。还有很多人叫快递的最后一公里，比如说我们的快递柜，或者说我们已经把这个快递送到最后的一个集中站点了，再由快递员一家一家的给我们送上门来，这也叫最后一公里。即时零售和外卖的最后一公里，甭管是他有前置仓，或者外卖的小饭馆，最后由这些外卖员把这些东西给我们送到家里边来，这个叫最后一公里。

那你说这件事情跟我们有什么关系呢？有，现在有这么多的大模型。

还有很多的叫AI agent的工具，比如Codess也是字节跳动自己家的，或者是Defi这样的工具出来以后，但总是觉得好像跟我们最终的使用场景稍微差那么一点点。这个时候，就需要“最后一公里”。我们怎么把最后差的这一点点补上呢？而这一点点，对于Codes、Defi等平台来说，他们去补是很麻烦的，包括像GPT或者Claude这些大的模型公司，让他们去补这个东西也是非常烦的。

那怎么办呢？干脆你们每一个人回去自己去写最后这一公里吧。每一个人只要接受一点点的编程教育，大概知道程序是怎么回事，就可以使用这种AI集中开发环境去把这个最后一公里补上。我就可以把Codes里的很多AI agent运用到我们的生活当中去。这个其实才是字节跳动的巨大野心，他们要继续推动豆包、豆包的大模型、豆包自己的应用以及Codes，他们的AI IDE平台向前走。

如果他们可以通过Trae这样的AI集成开发环境，让所有用户把这个最后一公里弥补上，Codes就可以在所有的AI agent平台竞赛中胜出了。大家要注意，字节跳动虽然豆包的大模型现在不是那么被人看好，在各种比赛和使用体验上，豆包的大模型还是稍微差一些的。但是，Codes现在在各种AI agent的竞赛里面已经是比较名列前茅了。

豆包的APP聊天应用在国内绝对是异军突起，遥遥领先的一个位置。另外，还要注意一点，全世界买CPU最多的公司，除了微软、梅塔、XAI之外，就是字节跳动了。他手里有大量的显卡，字节在AI这一块的野心一直都是非常大的。那么，他们推出的这个Trae应该也是为了补全他们野心中的一个缺口。如果这个缺口补上去了，能够一直免费下去，后边就没有cursor和Windsurf什么事情了，可能未来就只能往这个方向走了。而且，就算是GPT也是要付钱的。

微软给的 GitHub Copilot 也是要一个月 10 美金，要付钱的。再怎么着，你也没有这个纯免费的香。在这一块，字节跳动应该有可能在未来 AI 战争中拔得头筹。

再往后呢，我们去做一个 Demo，让大家看一看这个东西到底能干什么。下面呢，我们来做一下演示。第一件事呢，是要去下载网址，就是这里 Trae.AI。如果你是 MacOS 电脑，就可以去下载了。下面我们去看一下 Trae 到底长什么样子。

大家注意，这里是有一个聊天，有一个 build 构建。build 现在还是 Beta，也就是说如果 build 出什么问题了，别怪我。正常的聊天的话，就跟我们使用普通的这种 AI 编程工具是一样的。你跟他聊天，说我有这样的问题，有那样的问题，他会一点一点的帮你去调整。但如果使用 build 就全自动了。

上面还给你两个案例，一个是生成贪吃蛇游戏，一个是生成 to do list 的应用。大家看到那种 9 岁小女孩快速完成一个应用的这种事情呢，基本上都是点击，他们这种案例是可以出来的。你稍微改一点，他就出不来了。

所以今天呢，咱们稍微难为他一下。咱们先去打开一个文件夹，创建个新的吧。咱们找个他不太熟悉的东西去玩一下。现在给大家演示呢，很多人都是玩什么 note GS 或者是这种 next GS，使用这样的这种纯前端的项目给大家去做演示。今天呢，咱们去稍微的给大家演示一个它没那么熟的跨端应用。

Flutter 应用就是可以在 MacOS、Windows、iOS 和安卓上，以及 Web 上运行的一个应用。不这么复杂，今天我们就只展示这个 MacOS 和 Web 的应用吧。第一件事先整给他张图片，是一张咖啡手绘风格的一个博客的图片，这个图片是 Midjourney 画的。

好，现在我来写提示词了，请按照设计稿，在当前目录做一个 Flutter 应用，可以在 Web 和 MacOS 平台上使用。回车，干活去了。上来大家看到吗？

叫AI思考中。首先告诉我们，我会帮你创造一个Flutter的博客应用。从设计稿来看，我采用了温暖的咖啡色调作为主色调，创建一个优雅的博客界面。然后说说我要执行这句话了，你要点执行点运行。你看，这边开始干活了。这呢也告诉你说，我已经创建好了这些基础的文件。

然后他后边又思考中了，说我要再去修改文件了，说我要去修改mean.Dart和mean.dot文件，然后要去改下边这个文件。首先现在先把这个文件先拿出来读了读，读完了以后进去改去了。这边还在转呢，就是我们要耐心等着他慢慢转去。转完了以后他会告诉我说，我要加点什么减点什么。说我现在要改这文件了，你说我们全部接受，就给你都写进去了。他实际上改什么？改颜色去了。他要按照这个咖啡师的这个方式去改颜色。说做完这个，我们就可以执行一下了。

那执行吧，他要再思考一下。这执行起来了，这个颜色有了，但是呢，你看里头所有图都没了。刚才我们也讲了，他缺一些什么呢？缺这个切图的功能。如果你没有切图的功能的话，这个出来就会变成这样。好，你看他上面写了说，请检查一下Flutter Web应用是否已经成功运行了，以便我们可以预览博客的界面。

看，已经成功完成了Flutter博客应用的基本实现，创建了支持Web和Mac OS平台的Flutter项目，实现了主页面的布局，包含了博客列表展示，设计了温暖的棕色调主题。因为我给了这张咖啡的相关的图片嘛，待会我们来看一下这图片长什么样。然后呢，添加了搜索和这个新建博客的入口按钮，实现了响应式的卡片博客布局。每个博客卡片包含了标题、预览内容和发布时间，成功启动了Web版本的预览和测试。

他做了这样的一个东西出来，让我们来看看这东西长什么样。你们应该还没有看到运行的一个结果，这个东西长成这样了。告诉我们说，我这是有博客的主题，博客的预览的信息，一个发布的时间，做了这样的一个东西，还有一个添加文章的一个按钮。

但是，他后边并没有去实现这个按钮。搞定了，那你说这种东西我要他干嘛使呢？那么丑陋，对吧？来吧，咱们干一个有趣的事情吧。我们来加一个调AI agent的API吧。来，先把这个应用的停止共享，关掉，重新共享脐橙开发环境。在这里添加一个页面，可以和AI agent聊天，要聊天界面。AI agent上哪去询问呢？我们用Defi吧。这是一个什么样的Defi功能呢？就是每次我给他一句话，他就给我写一个Midjourney的提示词出来。它实际上是用的DeepSeek V3的大模型来实现的相关功能。下一步怎么办呢？来，发布访问API。我们要使用它的API，我就把这些东西贴到Trae里面了。现在就不给大家看那边了，因为这个切来切去的太麻烦。

再往下一件事呢，是需要key。我怎么调用这个API？来，我们也告诉他API。好，看一下，我现在写了一个很长的提示词，说我要添加一个页面，可以和AI agent聊天，要聊天的界面。API的输入格式是这样的，这个是刚才我们从Defi里面去抄的，输出格式长这样，具体就不跟大家仔细看了。API key是这样，然后再写一个将输入改成阻断模式。好，回车，他干活去了。跟大家讲这个，什么叫阻断模式？就是我们经常看到，甭管是ChatGPT或者其他AI agent聊天的时候，那个字是一个一个蹦出来的，它叫流模式。如果是说我打完回车之后，一次性把所有的结果都出来，叫阻断模式。我们就不去处理流模式，稍微麻烦一点点。

好了，首先呢，他说我们要去增加一个按钮，接受。有了这个按钮以后，点击这个按钮就可以到新的页面里去了。他现在去创建新的，叫做chat page，那就是一个聊天的页面了。大家看嘛，这儿还有错呢，这个地方是有错的。为什么呢？因为那个chat page还没有创建出来，这块呢要稍微的等它一小会儿，全部接受，等于又给你做了一个200多页的文件出来。

这里也还有一些错误。这个错误是什么呢？AI修复一下。我估计应该是没有引用对这个东西。接受，应该在这个里边添加这个。这就属于比较笨了，所以大家看到了吗？这东西还没有那么聪明，就是需要改一些其他文件的时候，有时候没改对。所谓这个pop space.YAML，这个文件是干嘛使的呢？看他哈，还是没有自己把它加进去哈，那我们来手动添加吧，手动添加，添到这里吧。

Dio，这就是我们需要哪些库，就是干这个的。这还有个错误，AI修复。我现在就把自己当成完全不会写程序的人选，当然会稍微会一点点。如果完全不会的话，你们会看到说这个还是有一点难度的。修复接受，这是什么错误？缺了一个引用，就是我们做了一个新的文件，他忘了引用了。那么这块你说一点都不会咋弄，还是会有一点难度的。

OK，这个程序我们就可以去跑了。给大家看一下它运行起来以后的结果。这一次呢，我们并没有用Web的方式启动，它现在是一个Mac OS上的APP的一个应用。看，这里这个debug后面有一个按钮，这个就进入到我们的聊天的界面里来了。抱歉，发生了一些错误，请稍后重试。我们要来看一下发生了一些什么样的错误，经常还是会有错误的嘛。

还有呢，这个debug很丑陋，我们要看看怎么把它消掉。让我们回到开发环境里面去。首先我们要求删除主界面上debug的标签，还要思考一下，他想清楚了，要加哪句话。然后呢，说我现在要去修改程序了，全部接受，搞定。然后呢，我们再告诉他说AI聊天的时候报错误了，但是没有看到错误信息，将错误信息放在页面底部显示展示。他只告诉我们一个有错，这事你让我怎么去改这个东西嘛。

其实我们还可以去debug，这个事是可以的，但是我们用一些更简单的方式来去处理它。他要在这个文件里边去调整，全部接受，执行。首先看我们这里刚才有一个debug的，这个标签就没了，刚才我们做的第一项修改。然后进来，这个是什么意思呢？

实际上是他拒绝了为我们去连接。这个也是一个很常见的错误。什么意思呢？就是我们这是一个Mac OS应用。在做这个应用的时候，需要向本地的操作系统申请权限。我们没有申请去联网这个权限，所以他就给我们拒绝了。

我们先用一些简单的方式来测试吧。我们先不让他通过MacOS的方式来启动，这个需要去修改很多东西。当然，你具体也可以在项目里边去修改。你就是直接要求说：“我这现在缺一个权限，请给我加上。”这个事是可以的。

下面，我们用这个Chrome的方式来去执行Web的方式，它就没有这种问题了，它就可以直接去跑了。好，让我们开了一个页面，展示咖啡。好，你看，它给我们写好了提示词回来了：“午后，阳光洒在咖啡桌上，桌上有咖啡、糕点和一本书。”我们已经成功地自己写了一个程序，然后自己跑到我们的defi的服务器上去调用了。这个程序是大家眼巴瞅着我写的吧？一个舒适的咖啡桌，温暖的下午的阳光，有一杯咖啡，一个糕点，打开的书，阳光的角度，直接给你去写去了。就拿它去画MidJourney，不是效果很好吗？就可以得到我们想要的东西了。

但是你说，我们现在还想再看一眼，在Mac OS上怎么把刚才咱们这bug解决掉？好吧，咱们稍微再花一点点的时间来去解决这个问题。首先，我们要在Mac OS上去执行，然后告诉他说：“现在操作系统禁止我的MacOS应用访问HTTPS的网址，请帮我打开权限并刷新执行环境。”回车他就去干活去了，又开始AI思考中。呀，好喜欢这几个字。他告诉我会帮你配置MacOS应用的这个网络访问权限，需要在这个里面添加权限声明。他告诉你这个文件是在什么什么地方，说我们需要在这个文件里头去配置。那么接受再release一个东西出去，再接受执行。它要Flutter clean，如果不clean的话，他是有问题的。Flutter clean完了以后，怎么给了我一堆错误？执行，他去执行去了，看看这次对不对。

执行起来了。好，我们的MacOS应用在这里呢。点咖啡，看着有点像哦。出来了！我们在AI的帮助下，又把这个错误修复掉了。

但是你们有没有发现，如果你没有任何的编程经验的话，出了错误你是不知道该怎么办呢？但是像我这种稍微有一点点编程经验的业余程序员，就可以拿这种程序去进行调整了。而且这个程序，因为我是用Flutter写的嘛，我可以在Mac OS上运行，也可以在iOS和安卓上运行。以后我就可以把自己的一些AI agent，包括本地知识库，建立在网站上去。然后呢，自己写一个程序，在手机上就可以随时调用了。

这个就可以去展示什么叫“最后一公里”。否则的话，甭管是Defi也好，还是直接跳动自己做的Codes也好，都没有那么方便，最后一公里没有那么完善。现在所做的这些AI IDE或者AI集成工具，实际上就是帮助大家去补齐最后一公里的。

今天讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣有能力的朋友加入我们的付费频道。再见！

从GitHub Copilot到Cursor，AI IDE的快速迭代：8岁儿童编程的Wow案例背后，程序员的职业出路在哪？

Luke Fan — Thu, 12 Sep 2024 01:00:40 +0000

最新的AI智能编程工具Cursor又震惊了世界。这回程序员是不是真的要失业了？大家好，这里是老范讲故事的YouTube频道。最近，一个新的AI IDE，也就是集成开发环境，再一次出圈了。这个新的AI IDE的名字叫Cursor。为什么这一次出圈了呢？因为有两个8岁，或者肯定小于10岁的孩子，独自使用Cursor，在不需要进行大量的编程培训和教育之前，就可以写出一些相当复杂的应用出来了。甚至他们有些人可以自己写出ChatGPT的这种客户端，或者是一些3D的小游戏。

我们一般管这样的案例叫做“wow案例”。什么叫“wow案例”？我以前也是专门做IDE的这种推介的，我们经常会设计一些演示，观众会发出“wow”这样的声音。现在有没有经过学习的8岁小女孩，她就可以直接使用这样的工具，使用英语提示词，做出非常复杂的应用，而且是可以独立运行的应用。这确实是让人可以惊叹一下的。

放心，今天咱们尽量不讲编程技术，尽量去讲新的IDE会对整个行业带来什么样的改变。真正有趣的地方是什么？第一个大模型呢，其实不是它自己做的，它主要用的是Cloud 3.5、Sonic，以及GPT-4、GPT-4 Mini这样的模型。它自己也有一个模型，Cursor Small，但好像很少有人用这个模型。你可以选，但我基本上没有看到谁在选这个模型使用。绝大部分人使用的都是Cloud 3.5 Sonic。

至于GPT-4 O呢，你可以配置自己的API的TOKEN上去，就是使用自己的额度，当然也可以不配。他可以给你免费的14天，这个时候你可以使用Cursor的额度。另外，它还支持Gemini，但Gemini我配置了半天没有成功过。你只要把Gemini的这个API填进去以后，它就没有反应了，不知道为什么。至于其他的模型是不是可以使用，我现在还没有太搞明白。

有一些人号称国内的或者一些开源的这种代码生成模型也是可以工作的。我等回头学习明白了再跟大家讲。像这样的一个项目，主要模型不是自己的，那么它到底是怎么工作的呢？Cursor整个的IDE是在VS Code这样的开源IDE的基础上去修改出来的。我们去稍微看一下它的架构。

现在大部分的IDE，也就是集中开发环境，实际上是一种VS Code，微软家的。还有一种叫IntelliJ，这是另外一个系统，它应该不算开源。想要在这个上面去实现AI辅助编程，一般是两种状态：第一种是在VS Code或者IntelliJ上去加上插件，另外一种就是自己独立开发IDE。Cursor它是属于拿着VS Code的开源代码，在这个上面自己改了一个独立的IDE出来，等于在这个上面做了一个分支。

它是通过这种方式来实现的。Cursor里面应该是有一些提示词工程，所有的AI辅助编程实际上内部都是有提示词工程的。就是我们写到AI辅助编程工具里面的这些提示词，实际上都是要经过它这些系统内部的一些提示词模板，套完了以后再去工作的，而不是说这些工具直接把我们的提示词扔给大模型就可以干活了。

那么在这个过程中，它还需要做一些什么样的事情？第一个，它需要把我们的代码进行一定的处理，一起扔给大模型去进行回答。第二个，大模型拿回来的这个答案以后，它需要直接去修改代码，而不是说给我们一个建议，给我们一个聊天结果就完事儿了。这一块是AI辅助编程工具都要去做的。

那这里，Cursor肯定要比别人做得更好一些。Cursor其实是一个交互设计的胜利，并不是说一个基础大模型或者技术有什么样的大的提升，它只是把交互的过程设计得相对人性化一些。那么大家久旱逢甘露，说终于有一个好使了。你其实使用Cloud 3.5、Sonic或者使用GPT-4，你去问相应的问题，它们都是会给你可以使用的解答的。

但是在这个过程中，总是觉得不那么顺畅。你比如说，我在Cloud 3.5上，或者是在GPT-4O上提了问，得到了一大堆的答案以后，我需要再对照着自己的代码拷贝粘贴，再在里面找到需要修改的部分去修改。现在，Cursor等于一次搞定了，它把你的代码一起提上去，说明这些代码是这样的，你现在遇到了什么问题，应该怎么去修改。返回的结果是一大堆的修改建议，你可以一项一项地确认。你只要确认确认确认，它就直接把所有的文件都改掉。这些修改可能在不同的文件里，甚至有可能会给你创造一些新的文件。

当然，比较偷懒的方式，或者说8岁女孩的方式是什么呢？就是同意所有，一次把所有需要创建的文件、需要修改的代码一把全都过去就完事了。那么它跟传统的，或者说从去年开始就有的这些各种各样的AI辅助编程工具到底有什么差异呢？就是多个代码文件可以同时进行阅读和修改。

我们使用GitHub Copilot的时候，每次只改一个文件，它不可能说我把整个系统里头一大堆文件一起都给你改了。现在，Cursor就可以把这事搞定。而且，它在开发的时候很好地考虑到了程序员的使用习惯。什么是程序员的使用习惯？当你去修改一整段代码的时候，可能说我先把第3行改了，改下边应该改第5行，第4行其实没什么可变的。当你改完第3行以后，按一个Tab键，它就自动跳到第5行应该去修改的地方，你接着改就完了。它把很多程序员使用的习惯都给你串起来了。这就是交互设计的一个革命，或者是胜利吧。

再跟大家讲一个wow的瞬间。你可以直接往里贴图片，甭管是GPT-4O还是Cloud 3.5 Sonic，都是可以进行图片识别的。所以它允许我们直接在对话窗口里，把一个设计师设计好的图片，这个界面应该长什么样，直接扔进去。扔进去以后，它就识别这个图片，然后把我们的代码改成这个图片上长的样子，这个非常厉害。像以前我们经常讲叫像素级拷贝。

我们看别人的哪个APP做得很好，别人的哪个网页做得很漂亮，直接把那个图片切下来扔进去，这边就直接给你做好了。以后再做像素级拷贝这种事情，就不需要人了，完全可以靠AI搞定了。那么，Cursor是不是真的会让程序员失业呢？

我们其实从AIGC出来，从最早的AIGC工具，实际上最早的是什么？就是GitHub Copilot。从这个工具出来的时候，就在开始喊程序员要失业了，到现在已经喊了快两年了，因为这个产品是在2022年的年中出来的，现在已经是2024年的秋天了。那么程序员依然没有失业。

那么Cursor出来以后，是不是可以让8岁的小姑娘不需要经过训练就可以做出应用来了？那你说要程序员干嘛使？我自己测试了三天，这真的是把它装上来，把以前的一些代码拿回来，改了三天。聊一聊感受，这言出法随，哈哈，上帝说有光，于是就有了光。这件事情到底是不是实现了，还是有一些距离的。

大家要注意，前面8岁小姑娘虽然做出了应用，但她也是做了40多分钟，她也是要反复去提，说我要一个什么，哪个地方不对了，哪出现问题了，哪去给我修改一下，哪个地方我不满意了，要反复去提这件事情。第二个，他们所能够做出来的应用，虽然是一个独立的应用，但那是一个相对简单的应用，里头有很多的细节还是比较粗糙的。你希望有一个真正的产品化的应用出来，还是需要进行很多很细致的学习，并不是说任何一个8岁小孩坐在这，拿到工具就可以干活了。

那么演示过程中的这种wow案例都是怎么来的？我以前做了这么多年的Evangelist，也就是IDE的布道师，我可以告诉大家，绝大部分的wow案例都是故意编排的。还有一些wow案例是偶然所得，但经过大规模的筛选出来的，就是很多人都去试了，绝大部分人没有试出来，只有几个人试出来了。这样的案例你把它筛选出来以后，再去给别人展示，那么它也会成为一个wow案例。

其实我们看到很多的机器人演示的这种视频，甭管是擎天柱还是 FIGER01、FIGER02，包括国内的一些机器人的这种演示视频，基本上他们的那种 wow 瞬间都是这么做出来的。要不然就是故意编排剪辑，要不然就是反复重试多少次，然后最后给你看成功的一次。

那么 cursor 距离彻底的研出法到底差在哪呢？其实是很多的细节没有学过编程的人还是不太容易搞定的。我举一个案例吧。我这几天去测试的时候，让 cursor 给我写一个 Flutter 应用。Flutter 是谷歌做的一种跨平台的开发技术，它可以同时开发 Windows、Linux、macOS、Web、安卓、iOS 应用。你等于写一套代码，它就可以直接开发出这么多种应用来。

我等于用 Flutter 去做了一个应用，然后让这个 Flutter 应用去连接我本地的 Dify 的这种 API 端口去做一些数据的访问。到这儿呢，就直接报错了，说这个事儿不对，我连不通这个东西。然后我再把这些错误去询问 cursor 的时候，cursor 就开始恢复大模型本色了。因为你问的还是 GPT-4O 或者是 Cloud 3.5 Sonic，他给你回复是什么呢？他说：“哎呀，有三种可能，第一种可能是什么，第二种可能是什么，第三种可能是什么。”其实这几种可能里头没有任何一个是正确答案。你再去反复的问他，各种的修改都是错的。

那如果没有学过编程的话，可能就会比较费劲了。我个人呢，还是前面学了一些 Flutter 到底怎么编成的，然后我就去问他：“这个东西是不是有一些配置文件需要改？”他说：“对，是有配置文件需要改。”你如果提不出这个正确的问题来，他可能就永远在一些概率比较高的问题上绕来绕去，一些概率比较低的问题就直接被他忽略掉了。

那为什么始终他没有找到正确答案呢？因为绝大部分人使用 Flutter 的时候，都是在开发 iOS 或者是安卓应用，可能绝大部分人在开发安卓应用。

而我写的是一个 macOS 应用。我就跟他说，我现在是 macOS 应用，遇到这样的一个问题：需要修改哪一个具体的配置文件，才能给我的 Flutter 应用打开网络接口。他哦，明白了，你到哪个哪个目录下找到哪个文件，然后在里头加两行，就搞定了。

像这种跨平台的开发工具里边，每一个平台的权限其实是需要单独写配置文件的。虽然 Flutter 可以跨平台，但你要给 iOS 应用打开网络接口，需要到里头去找配置文件去改；你要给安卓应用打开网络接口，也要到安卓那一块的配置文件里去改；macOS 也是一样。如果提不到正确的问题，就永远做不对，可能会出现这样的情况。

所以在这个过程中，程序员的知识还是起到了一定的作用。如果没有应对这种跨平台开发工具的经验，就不知道该提什么问题。为什么这些东西都是分开的？因为不同的软件平台、不同的操作系统，对于权限和整个底层的代码库的差异是很大的。

像 Flutter 这样的跨平台开发工具，为了让你的逻辑代码尽可能地和平台底层的这些代码完全隔离，等于写一次就可以四处运行。因此，它一定会把各个平台的配置信息拆到外边，单独让你写去。你的所有逻辑代码按了什么出什么，哪个地方画红的、绿的、蓝的，这些都让你写在一个地方。

如果没有这样的知识，就没法使用这样的程序。那你说我有了这样的知识，Cursor 在里边干嘛呢？当我有了这样的知识，提出了正确的问题以后，Cursor 就可以快速告诉我，这个文件在什么地方，你应该往里加哪几句话。然后你只要告诉他说我同意的修改，他就自动给你加上。加完了以后，这个程序就可以跑了，所有的错误就过去了。

这就是 Cursor 比较强的地方。所以，两边结合起来才是真正的答案。这一次程序员又没有失业，我们又在危险的边缘晃了一圈，转回来了。

咱们再讲一下古代骑士从失业到再就业到底是一个什么样的过程。很多人很焦虑，问我是不是要失业，希望这个故事能够安慰你。

骑士是怎么失业的呢？步枪发明了以后，骑士就失业了。为什么呢？以前要想成为一个骑士，你需要训练一辈子，从小开始训练。而有了步枪之后，任何一个健壮的农夫或工人，经过三个月的训练就可以上战场了。训练了三个月的农夫与训练一辈子的骑士，他们在战场上的杀伤力和存活率其实差不太多。

在这样的情况下，骑士就没有存在的必要了。这跟我们现在的情况其实很像。想想一个8岁的小姑娘可以去写应用，那么是不是依然需要一个孩子从大一开始上四年大学，再上两年研究生，出来成为程序员呢？这跟骑士的状态是不是非常像？

那骑士在被淘汰以后，怎么再去就业呢？在骑士被步枪手淘汰之后，战争的规模发生了变化。原来骑士打仗时，一场战争也就几十个人或几百个人，能够上万人的战争就很少了。然而到了步枪兵的战争，参与人数变成了几百万人。在这个过程中，我们需要更多的人去进行指挥和后勤协调，甚至需要很多人去培训这些步兵。

这个过程又是一个需要培训一辈子的过程，或者需要一些职业军人去担任相关岗位。这就是骑士再次就业的过程。以前的骑士要练习武艺，同时也要练习指挥，现在可能更多的人要去学习指挥。你说我没有指挥天赋，我武艺特别好，有一把力气，这事行不行？也还有一些专业军士长或者特种兵的位置在等着大家。

军官团、职业军士，包括一些专业军士的总数量，其实要比旧时代的骑士数量大得多。这就是骑士从失业到再就业后，变成一个数量更加庞大的团体的过程。程序员其实也是如此。我们会有一些焦虑，有很多未经训练或只经过少许训练的人也可以成为程序员，去干事情。再去学四到六年的编程，这件事情显得很傻。

但是后面我们要去培训这些人，要去组织这些人，要去写一些真正底层的模块，比较难的模块。那么在这一块，需要比现在更多的程序员。这就是骑士跟程序员在被替代、重新就业之间的异同之处。

那么，cursor到底应该怎么用？咱们前面没有讲编程的部分，后边我们稍微讲一点点。首先去cursor.com的网站上去下载，下载了以后呢，会自动合并VS CODE上面的各种配置，因为它是从VS CODE里边分支出来的嘛。你比如你在VS CODE里头装什么插件，写了什么配置，它会自动给你拉回来。

再往后呢，就是要去使用大模型了。你可以自己设，说我的这个API TOKEN是什么样的，你也可以不设。不设就是使用cursor的额度，免费的，一天有多少次。付费了以后就会取消限制，你就可以直接使用。它的免费是14天，你说我14天用完了怎么办？换个邮箱还可以再用14天。在这块判定的是比较宽松的。免费的用完了以后，20美金一个月。

我明年3月份GitHub copilot的到期了，我是一次买了一年的，所以等到期了以后，我要考虑一下，是不是该换这个cursor的订阅了。我现在订阅的AI工具notion AI已经被我退订了，mid journey我觉得还是需要的，GPT一个月20美金，我现在也还在犹豫，是不是以后要把它退订掉。目前为止我觉得还是比较好用的。

有了cursor之后，编程的行业会变成什么样？这可能是大家所关心的。那么一定是更多的人可以进行编程了。对于这些人来说，他们也还是需要一些短期的培训，就像步枪兵，你也是需要经过三个月的培训的。8岁小姑娘这个事呢，我们作为一个故事听就完了，不要太信以为真。

因为我也是碰到很多的朋友说，我要去使用这些AI agent，使用AI工具了，也看了一堆课程，不行，搞不定这件事。可能也是我前面的课程讲的，要稍微的困难了一点。那么这一块我也在思考，看看怎么能够提炼出一些。

真正可以去使用的课程，让这些完全没有计算机基础的人真正可以跑起来。因为我录了这么多课程，毕竟我自己还是个老程序员，有很多东西我自己想当然了，就直接做了这件事情。我去看看是不是可以找一些愿意学习、没有任何编程基础的人，我们一起来合作做一些课程，也许是一个解决方案。

那么未来的程序可能也会发生一些变化。现在的程序基本上是三个部分：第一个部分是我们编写的代码，第二个部分是注释，第三个部分是各种配置文件。未来的程序可能会加上所有的提示词历史。否则，你给我一个代码，我不知道这个代码是怎么变成这样的。所以如果有提示词历史和所有跟AI工具聊天的这种历史，可能更容易让下一个人去理解这个程序到底是怎么回事。因为写程序不是一个人的事，是需要大家协作的。你没有聊天历史，这事没法协作，这可能是一个变化。

未来一定会出现更多的只会开车、不修车的司机。巨大量的个人应用也会涌现出来，像8岁小姑娘写的这种应用，你说它有用吗？有用，或至少能用。但这种应用，如果把它作为一个商品交付给其他人用，这事是不行的。因为你光要跟别人沟通，哪个地方有一个小的机关，哪个地方有一个小小的隐藏开关，这个事你就交代不明白。所以这种东西就是自己开发自己用，应该是可以使用的，不要传播，不要推广。

所以很多现在的人在讲什么AI agent或者各种的AI工具，像Excel。很多人其实是可以使用Excel，在里边套各种公式，算各种复杂的数据，再让它画图表，功能极强，他们也不会编程。那么有了AI agent，有了AI工具以后，等于你就有了一大套的Excel，Excel的技能就提升了。现在你可以处理的问题，比原来Excel能够处理的问题要多多了。然后再有了AI编程，AI agent有了AI的一系列工具之后，每一个人的能力就上升了。未来更多的AI IDE一定会涌现。

现在，Cursor已经给大家指明了方向。来，照这个方向做。技术上并没有那么难。上产品经理，上交互设计师，咱们把整个编程的过程交互设计好就可以了。而且，如何依靠交互设计，在AI大模型的帮助下做好产品的路径，其实也已经被指明了。

到底应该如何去工作？我记得前两天还看到另外一些工具，比如说如何做一些科学研究。这些工具也是根据大家正常的思路，根据正常的科学阅读、研究者的这种流程，给你设计得很好。你先去提出问题，四处搜索。搜索完了以后得到结论，结论完了以后，允许你在这个结论里的选择，说我希望在哪些分支里边继续深入去思考，再去搜索，再得到相应的信息，再把这个结果进行某些方式的总结归纳，再做出比如说适合阅读的脑图，或者其他的一些可以让工作者快速接受的方法。

现在，这些工具也在逐渐涌现。我觉得AI APP，或者整个AI应用的大爆发，已经要到来了。Cursor已经为这些AI应用的大爆发拉开了序幕。好，这就是我们今天介绍的Cursor，希望你甭管会不会编程，都可以下来试一试。好，这个故事跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI的SearchGPT发布在即，Perplexity被迫广告变现：AI搜索唯一独角兽的艰难抉择。从拒绝广告到高价广告，Perplexity的转变背后：AI搜索面临巨大挑战。

Luke Fan — Tue, 27 Aug 2024 00:37:06 +0000

OpenAI的SearchGPT还没来，已经把AI搜索里边的唯一独角兽直接吓崩了。Perplexity已经要开始做广告了。大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲Perplexity突然宣布要开始做广告，到底是一个什么样的情况。

OpenAI已经证实说他一定会去做SearchGPT的，甚至已经开了SearchGPT的wait list。我也跑去排队，到现在也没排上，只是收到了一封邮件说对不起，你还没排到。他把wait list给关了，这个其实挺奇怪的。通常情况下，wait list都是可以开着的，大家还可以继续排队。现在说不许排队了，好像有部分人排到了。

那么在这种情况下，一定会对整个的搜索以及智能搜索行业造成一定的影响。现在我们看到的第一个大的影响，就是Perplexity原来承诺说我不做广告的，现在说我要去做广告了，发文说今年四季度开始提供广告服务。

Perplexity的整个转变过程是什么样的呢？首先，它是AI搜索的排头兵。AI搜索呢，也算是一个AIGC里边跑出来的赛道。当然你说它到底是不是一个伪需求，是不是一个伪赛道呢？我觉得可以值得我们重新去思考了一下。但是呢，在整个这个赛道里边，它就是老大。曾经承诺说我坚决不做广告，广告扭曲了搜索结果，让大家搜索了以后，得到的并不是你真正想要的东西，而是广告主想让你看到的东西。

它是依靠收取订阅费来去盈利的，就是一个月20美金的订阅费。而且这种Pro版本的收费，号称是可以达到年入3500万美金，还是挺多的一笔钱。它的主要收入就是20美金订阅，另外还有一些API收入，就按TOKEN来收费的。你可以直接调用Perplexity的API，然后使用它们的搜索结果，按照API的使用量去付费。这两个收入加一块，3500万美金。

但是呢，最近有人就发现了Perplexity偷偷的在官网上把相关的表述给改了。

什么表述呢？叫不受广告驱动模式的影响。把这句话删了，那意思就是我未来的搜索结果、搜索答案是会受到广告驱动模式影响的，一定会出现这样的情况。CEO也在最近接受专访的时候表示，广告才是伟大的商业模式，而20美元的订阅不是。为什么？20美元订阅其实是一个死数。你有10个用户，等于有10个用户给你交这20美元，而且还有续订率的问题，过一个月人家不定了，那你就没有这笔钱。而对于广告收入，它等于是大家去竞价排名。同样的一个位置，谁出的钱更多，谁有展示机会，这个是不一样的。而且你只要有展示，它就有收入回来。它跟整个20美元订阅还有一个大的区别，就在于你20美金，大家要想说我到底花还是不花。有些人说那我花吧，有些人就拉倒了。而这个免费模式，在上头看广告，没有人会去想说我要不要去用，要不要看这个广告，大家都先去用了再说，不要钱的。用完了以后，这个广告就凑合看看呗。它是这样的。等于你要去收订阅费的话，你在限制流量的上升，而做互联网底层就是流量，任何跟流量过不去的模式都是有问题的啊。所以这位CEO也自己想清楚了，20美元订阅这条路是走不通的。那么perplexity的具体广告策略是什么呢？三类广告：第一个叫页面广告；第二个叫含有广告的回答；第三个叫相关问题页面广告。就是你在这边去提问题，下面会给你回答，在这个页面的右侧有一个空白区域，是可以在这个地方做广告的。第二块是你在提问题以后，这个得到答案，最底下有一块是叫做相关的问题，他也把这一块给你做成广告。第三个，他直接在回答里边要给你加广告，但这个就属于有点过分了啊。像谷歌做了这么多年，已经成为全世界搜索广告，或者说整个广告行业里头当之无愧的老大，的时候都在不断的承诺，第一广告和付费是不会影响我的排序的，这个是必须出来承诺，你信不信是你的事，但是人家必须得说。第二个，谷歌也要承诺说，我的广告是不能出现在直接的结果里边的。

我必须要标明，这是广告。哪个是广告，我一定要写清楚。你不能直接给他塞在这个搜索结果里。现在这个perplexity就是说咱们魂不吝全上，包括perplexity问答的这个回答里头，都会直接包含广告，这个是有点吓人的。他准备做哪些广告呢？科技、健康、制药、艺术与娱乐、金融以及食品饮料，这些广告的方向其实不是特别好。为什么？大家都知道，广告里头有些品类是比较贵的，有些品类相对来说比较便宜。

那像perplexity选择的这些品类里头，科技其实是一个卖不上价的东西。你说我向你宣传了某一项科技，那你说到底应该给我多少广告费呢？因为他没有办法直接转换成购买，形成广告费是相对来说比较难的。艺术与娱乐呢，只要不是擦边的东西，其实也都是相对来说比较低单价的。广告擦边的，比如像OnlyFans那种，是相对来说比较贵的广告，那是另外一回事。

食品与饮料呢，其实在这个里边也不是一个比较贵的广告品类，因为食品饮料本身的价格其实是有限的。除非你是一些奢侈品，否则的话，这一块并不贵。在这个里头，你说有没有贵的？有啊，两个块。第一个呢，是健康与制药，这一块的广告费是比较贵的；还有一块是金融，比如说放贷款的，他们的广告费是很贵的，或者带着你去炒股票的，这个很贵。

医药为什么贵？大家想过吗？因为医药与健康本身审核比较严格，对大家怕担责任，所以这一块是比较贵的。你比如说壮阳的、健身的，而且很多健身的药其实是灰色地带，类似于兴奋剂啊，或者是一些增肌啊，很多的，并不一定可以放在阳光下，所以这一块相对来说是比较贵的。

另外，还有哪些广告品类比较贵，perplexity没选上呢？就是跟色情相关的，比如说约会软件，那是相对来说比较贵的；赌博以及一些比较重的游戏类广告。什么叫重游戏？就是愿意在里头充很多钱的这种游戏，这种广告相对来说是比较贵的。但是呢，这两类，不知道是他们注重名声还是怎么样，没有把它包含在广告品类里边去。

你都已经把放贷款的跟卖假药的送进来了，这个何必呢？既然要挣钱了，就不能太要脸啊。Perplexity广告的价格是很吓人的，它是按照千次展示来收钱的，千次展示50美金，是正常广告价格的十几到二十倍，这个是非常恐怖的一个价格。刚才我们讲了，愿意支付这样广告费的人，也就是卖假药的跟放贷款的。他所选择的其他所有的这些广告品类里头，都没有哪个广告品类的广告主会愿意支付这么高的广告费。所以大家可以想象，Perplexity开始上广告以后，我们可以在里边看到一些什么样的广告。

那你说正常的广告是什么样的价格？正常的广告首先有很多种收费方式，CPM只是一种。按照1,000次展示来收费是一种，还有CPC、CPA、CPS。那些广告计费一般是指的什么呢？CPM就是说按展示，我展示了这么多次，甭管你买没买，点一看反而我按次数找你收钱，这个是最不负责任的一种广告收费方式。使用这种收费方式的广告平台一般来说它的价格都会比较低，因为你是不对结果负责任的。

CPC是按点击，我看到广告以后到底点了多少次拿这个去付钱，那么这个总比CPM强一些吧？点击了以后，总还是有些意愿的吧？我要看一看里头到底说什么呢。CPI我按照安装，我点完了以后进去还把那游戏装上了，或者去真正购买了，或者真正形成交易了。还甚至有一些谷歌已经开始玩什么更靠后的，我按照最终成为付费用户的那个人按他收费。什么意思呢？我展示了广告，点击了，安装了游戏，安装游戏你还打了三级，打到三级以后我去付费了，最后有多少付费的人，我按这数来收钱，这个是可以收的，很贵很贵的。

为什么他都付费了，你还不赶快交交钱来？前面所有那些不付费的，我都不赚钱。没人付费不要钱，这个是真正能够卖上价的。这广告按CPM的这种广告去收费，他算是非常非常贵的。正常的这种文字广告或者叫图文广告，APM的价格一般也就是3美金到5美金，1,000次展示。

那你说有没有贵的呢？也稍微有一些，就是越擦边的，越是别人不让放的，会越贵一些。大家可以去想象，这个愿意花1,000次展示50美金的人，到底都是一些什么样的人啊？我们会看到什么样的牛鬼蛇神在上面表演。如果是视频广告，它呢会更贵一些，因为视频广告本身你的播放的成本就高。你还需要整CDN去放视频，还要去买带宽，你还要把视频播放的带宽的这个成本都要交出来，所以这个要贵一点。而且视频广告呢，它的转换率会高一些，因为最终做广告的人目标都是你来买东西，不是说你看我一眼就完了，你必须要来买东西，这个才是结果。视频广告一般签次展示能够到十几美金。当然像我们，比如说在YouTube里边去播这个视频，我们能够拿到的1,000次播放的费用，大概是五点几美金到六美金左右。你比如到年底的时候大概是六美金，而在淡季大概是五点几美金。但是这个数是怎么算出来的呢？就是YouTube里头有很多人会跳过广告，他把这个数平均完了以后，来给我们去算，说你这最终平均大概是五点几美金或者六美金，大概是这么算出来的。

现在perplexity选择在第四季度上广告，为什么？因为第四季度是广告旺季，又是双十一、双十二、圣诞节、元旦各种购物季，黑色星期五什么，全在这，所以它是一年里头广告最贵的时候。下一件事，perplexity它到底有多少广告展示机会？库存是你展示一次可以有一地方放广告，我们一般管它叫一个广告展示位。库存它到底有多少呢？号称这个perplexity的APP已经被下载了200万次，每个月呢处理的是2.3亿次查询。大家说这数大不大呢？很多人说哎呀好多呀。按照广告行业的标准来说，这个数字基本上可以忽略不计。你就算是把2.3亿次查询都给它匹配上广告，都每一个查询里头都给他放上一堆的广告，你最后算出来的钱都没有太多。而且他要真这么干的话，他的口碑，他的用户马上就崩掉了。

即使是像Perplexity说的那样，认为我的用户的质量很高，我的用户都是本科毕业。因为能够使用这种产品的人，相对来说，他们的素质还是比较高的。既然大家都已经是这么高素质的人了，都是本科毕业，消费能力是不是应该更强一些呢？真不是一定啊，因为这些人其实相对来说是比较难伺候的，相对比较矫情。他们在买各种东西的时候，冲动消费的几率就会降低。因此，给他们展示广告，最终的转化率一定是很低的。

那么，给什么人看广告转化率才高呢？就是那种一根筋的消费者，他们会想：“我一定要买，我就要冲动了，我就要买，谁劝都不听，我就非买不可。”你想想，Perplexity的用户是这样的人吗？按照他讲的，用户的素质高，都是本科毕业，都是一些有消费能力的人。那么，有消费能力的人，他们的消费水平到底是怎么体现的呢？

也有过成功的案例，比如在美国有一个超市叫Whole Foods，他们是亚马逊贝索斯收购的，专门卖各种有机食品。他们的各种食品价格大概是普通超市的两倍到三倍。我在美国的时候见过这个超市，特别是在硅谷，Palo Alto这种地方就有很多，在斯坦福大学门口就有。他们家的东西真的挺贵的，但确确实实卖得很好。整体是不是盈利了，我不确定，但至少在硅谷的这些Whole Foods生意非常好。

但是，这种直接看得见摸得着、能够吃到东西的店，跟这种展示广告我觉得还是有很大差异的。下一个问题是我关心的，但在所有的文章里，并没有写清楚。付费的Pro用户是不是会看到广告？Pro用户一定是他所有用户群里支付能力最强的一部分人，这些人是不是看不到广告呢？那么，对于你的广告主来说，如何交代呢？如果给他们看的话，那Pro用户到底是不是会继续订阅呢？这对于Perplexity来说也是一个非常两难的选择。而且，相信我，他一旦开始上广告，他现在的用户量就会快速下降。

那么，perplexity为什么要低头呢？从我坚决不做广告到现在做广告，到底发生了什么事情？就跟原来B站陈睿说的：“我们就不做广告。”再到老老实实做广告，可能还要上直播电商，这个头到底是怎么低下来的？哎，这叫形式比人强。你穷，这事就没什么好说的。

那你说perplexity穷吗？今年刚拿到2.5亿美金的投资，估值30亿美金，这可是妥妥的独角兽啊！你估值上10亿美金就是独角兽了。他还穷吗？还真穷。他的收入呢？原来讲的是一年3,500万美金，但这收入是怎么算出来的？他不是说我真的收到了3,500万美金啊。他这个收入是用最后一个月的收入算。

年化什么意思呢？你比如说现在是8月份，那我7月份的收入都算上来。算完了以后，我们看看。有些人呢，比如说订了一个月的会员，假设你下个月还订，那我就直接把这数乘12。有些人呢，可能直接上来是买了一年的会员，因为他们是这样，20美金一个月，200美金一年。有些人直接交了200美金，那这200美金呢，你是不能算的。这个月的你应该怎么办呢？应该算200除12，是这个月的收入。

我们把这一个月的收入都算清楚，交了单月的和交了一年的除12，以及消耗的API的钱都算在里头，就是这个月的收入。代表这个收入乘12，年化收入是这么来的。所以呢，他并没有实际挣到过这笔钱。他的收入反而也是这样，直的这么线性的长出来的。

所以他在今年年初的时候，1月份的时候年化收入才500万美金，到7月份的时候，年化收入就到3,500万美金了，这样这么长出来的。但是等他上广告的时候，这个就该往下走了。这是他的收入情况。而他的收入呢，应该是不太能够覆盖他的成本的。为什么无法覆盖成本呢？因为他所有的底层技术都是靠别人，而这个别人呢，还给他恶意涨价。因为所有的底层技术依赖方都是他的竞争对手，那你这日子多难过吧？他的搜索依靠的是Bing，那么Bing做copilot。

做AI搜索跟Perplexity就是竞争对手。那么Bing说：“来吧，每次调用我的API，我要给你涨价，涨10倍的价格。”这个你说你咋办？没有任何办法。然后另外一头，他搜索完了以后，你需要把结果进行总结归纳。那么这个掉的是谁？掉的是GPT-4。原来一开始调的是GPT-3.5，后来改成调GPT-4，那这是OpenAI家的。OpenAI说：“哎，我这SearchGPT该出了，你那个是不是也该涨涨价了？”所以，它相对来说，收到的钱难以覆盖它的成本。

再从Bing Copilot并没有给谷歌带来什么实际影响来看，真正使用这些AI搜索的人在整个的搜索人群中所占的比例其实是非常非常小的。大批的AI服务跟应用都带有搜索和总结的功能，而且还免费。要去跟他竞争，别看AI搜索里头Perplexity是老大，但是有很多新的应用已经在杀进来了。而且新的这些应用的搜索结果和效果跟Perplexity之间并没有特别实质的差异。

特别是在这个里边，还有一些中国应用已经祭出咱们的祖传法宝，什么呀，买量。上谷歌上、上Facebook上去投放，去跟Perplexity跟他们去竞争，难度就会变得大很多。谁去买量了？字节跳动的CiCi。CiCi这样的产品在国内叫豆包，在海外叫CiCi。你想去跟字节跳动去拼流量，或者你想去跟字节跳动拼一下APP的制作水平，我觉得，咱们还是找一些更轻松的方式去自杀吧，不要这么费劲了，好不好？

最后压死他的一根稻草是什么？就是OpenAI的SearchGPT已经在路上了。现在大家到ChatGPT.com/search这个页面上，你可以看到SearchGPT的waitlist。我现在在里头排着呢，只是比较奇怪的是waitlist关闭了。耐心等待，这个产品一旦上线了，对于Perplexity来说就是致命一击。搜索端用的也是病，再去调用GPT自己家的大语言模型。

进行搜索总结的话，这个效果肯定会比 Proplexity 好很多。最后，我们来总结一下 Proplexity 的广告策略，对于市场的影响会有什么？谷歌算稳了，这彻底证明了 AI 搜索作为一个商业模式比较难走通的。你靠纯纯的 AI 搜索，是打不平的，这个入不敷出。Open AI 的 SearchGPT 可能也还要难产一段时间，Perplexity 已经摆烂了，那你 SearchGPT 是不是还着急冲上来？哎，就没那么着急了。而且再次证明了 Open AI 所开创的这种 20 美金订阅、按 TOKEN 收费的模式是有毒的。这件事从他们开始做的时候，我就在喊，肯定是错的。

传统的搜索引擎公司还需要探索如何将广告与 AI 搜索结果进行混合的这种技术，这还需要去思考和探索。最后的一个影响，我相信没有太多人想到，广告价必然上升。这是为什么？因为谷歌现在也准备要去提供 AI 搜索，百度也要去做 AI 搜索，所有搜索引擎都是躲不过去的，都要去做 AI 搜索。AI 搜索里头未来必然会有广告。那么，AI 搜索跟传统搜索的最本质的区别是什么？不要告诉我说搜索完了以后我去总结了一个结论出来，不是这样的。

最本质的区别是展示页面变少。AI 搜索把一大堆的结果放在一个页面上，都给你展示出来了，你再去点击这些页面的机会就会变得少很多。很多 AI 搜索用户是不会去点击跳转结果页的，整个广告的展示库存量就会急剧下降，那么广告单价就会上。这是真正的未来变化。

好，这就是这一期跟大家讲的故事。Perplexity 终于低头被 SearchGPT 吓崩，开始转向广告。这个故事就讲到这里，感谢大家收听，请帮忙点赞、点小铃铛，参加 Disco 讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见，这个事是有问题的。

马斯克Grok-2登场，可订阅才8美元，真的划算吗？推翻AI市场的游戏规则，Elon Musk的肖像被拿来玩儿梗图！

Luke Fan — Tue, 20 Aug 2024 13:33:21 +0000

Grok 2出来了，老板马斯克就是拿来开涮。马斯克各种梗图突然开始满天飞了，这是什么东西呢？就是XAI做的Grok大模型的第二版，Grok 2发布了，包括特朗普跟贺锦利的各种梗图也在飞了。其中有一张是特朗普去抚摸贺锦利怀孕的肚子呀。但其实玩的呢，并不是Grok 2，而是什么叫Flux 1。

首先分析下时间点，为什么在这个时间要去出Grok 2呢？第一个，3月份我开始测试了，Grok 2已经开始测试了，测试到8月份呢，也差不多开始出了。而且3月份，Grok一开源了，然而开源之后就再也没有更新过任何的代码，也没有去回答过任何的issues或者是Pull request，这个都再也没有动过，完全死水一潭。马斯克的开源就是这么开的，我开了，用不用是你的事，我反正不理你，我也不会再更新任何代码。

包括推特，原来开源的推荐算法，包括Grok 1都是这样的，开了就挂在这了，爱使不使。而且它开出来以后，你自己到底能不能部署得上去，能不能把他们这个用起来去测试，他就完全不管了。你提任何问题，他也不理你啊，这就是马斯克开源。

现在是AIGC的集中爆发，谷歌、苹果、美塔、OpenAI、Anthropic都不消停，都在疯狂的你方唱罢我登场。我发一个东西，互相在这别苗头。马斯克别地发出点声音来，特别是在他撤销了对OpenAI的诉讼之后，最近又重启了对OpenAI的诉讼重新起诉他。

现在分析为什么马斯克会在撤诉之后再重启。因为他每一次诉讼，过一段时间以后，法院会去判定说你这个案子是不是要撤诉，而如果发现你的证据不足，就不要浪费纳税人的钱，我就给你撤诉了。

所以，上一次呢，马斯克是在法官宣布可以撤诉之前的一天，自己跑去撤诉的，算是他主动撤诉。等过了这么几个月以后，说来咱们再诉讼。要知道，这种诉讼挂在身上的时候，你要再去做各种融资，是非常麻烦的，因为你身上挂的有诉讼，而且是跟马斯克打官司，官司还没打完，还在那挂着。在这个时候做融资，都很讨厌。

所以，他还在不停地折腾 OpenAI 的算力中心，10万张 H100 的这个算力中心，7月22号正式上线。3.5万张 H100 的特斯拉算力中心是去年上线的，年底计划再来9万张 H100。就是本来这些 H100 应该是属于特斯拉算力中心的，被他挪给了 XAI 的算力中心。XAI 那批订货的 H100 今年的9月份到货，所以特斯拉的算力中心是晚一些，可以继续使用这些 X100 和 P100。

而且呢，XAI 的估值是所有 AI GC 公司里的老二，最贵的是 OpenAI，860 亿美金，第二贵的就是 XAI，240 亿美金。你这么贵的公司，前面人家都说了这么多声音来了，在这样的一个月份里不发出点声来，有点过不去。所以，马斯克也就没有办法，只能在这个时候把 Grok 2 拿出来了。

Grok 2 到底算不算开源呢？哼，不能算，因为 Grok 1 是开源的，虽然开源了，也是个假开源，没什么人用。而现在给出的数据是 Grok 1 有 13,140 亿参数，使用谷歌 Jax 和 Dax 的架构进行训练，MOE 就是多模型的这种专家结构进行搭建的。这是 Grok 1。Grok 2 到底是什么样的模型，谁也不知道，他也没说，说这东西就来了，也没有任何问答出来。这就是马斯克现在拿出来的东西。当时 Grok 1 出来的时候，我都感觉 Grok 这个模型是准备放弃了，不玩了。

结果，马斯克现在发了2，而且据说还在训练Grok 3，都在开干。但是Grok 2现在还不知道到底是不是开源。理论上说，未来不定什么时候他就开了，而马斯克都是比较随性，可能会突然开源，夸嚓把代码往那一扔就不动了，你爱使不使。能用不起来他就不管了。

现在GitHub上，XAI组织架构下只有一个开源项目，就是Grok 1。现在马斯克也好，大家都在喊一个什么事，说这是你们可以用到的最好的AI，而且最便宜。为什么呢？你只需要花8美元订阅，就可以用起来了。因为ChatGPT是需要20美元订阅的，AnswerOpen Cloud、谷歌的Gemini、微软的Copilot都是20美元一个月，只有XAI说我们家的Grok 8美元一个月，他比别人便宜。

Grok订阅的最大优势就是便宜，而且是可以实时地获得推特内容进行回复。我现在有很多事情需要去查询的时候，我都是去问Grok的，在Grok 2出来之前就开始这么干了。为什么呢？就知道别人在说什么，特别是有很多发布会，比如明开发布会。你今儿问说发布会要说什么呀，Grok预测的极准确吧，因为有一堆人在下头做预测。他给你搜索完了，总结归纳一下，啪，把东西拿出来一看，第二天就发这些东西，这个还是非常棒的。

风格很独特，风趣幽默，内容有更好的传播性。你用Google生成的内容，再去转发，再去到Twitter里面去流传，他会更加容易被人点赞。其实我们玩Twitter、玩YouTube、玩Facebook，这所有的这些社交媒体，我们要的就是互动。说我发完了以后没有人理我，这是一个很无聊的事情，一定要有人理你。那么API更简单，适合快速集成。

这个呢是Grok自己给出的答案。但是我找了半天，并没有找到Grok API的使用方法，可能还没有放出来。数据处理的政策更加开放透明，而不像是很多其他的公司，他们有很多隐私侵犯的问题。原因其实也很简单，Grok训练就是用我们推特数据训练。我们使用推特，就默认同意把数据交给Grok去训练，他也不到外边再去拿别的数据了。而且你发推特的目的就是为了让人看。既然已经被人看了，Grok再给我训练一下，也就这样。所以他的数据政策相对来说比较简单。

而且呢，它后边还写说Grok有非常小的、但是很活跃的社区支持的文档更加集中。这个意思特别逗，什么意思呢？就是Grok的功能很少，文档也很少，基本上没有文档，也不需要文档，直接上去使就完了。但是呢，用他的话讲起来，就是这个很小的社区很活跃，知识文档很集中。就是一个话，你看他怎么说，但这个话是Grok自己说的。

Grok还有一个很大的优点，就是回答问题的时候更加百无禁忌。马斯克希望有一个偏右的AI，因为现在绝大部分的AI大模型都是偏左的。那么稍微偏右一点，这个还是可以稍微中和一下。如果所有AI大模型都偏左的话，也是非常让人困扰的事情。这个8美元以后，还有Twitter Premium的一大堆的功能，比如减少广告、增加曝光，这些功能都是送给你的。

所以现在我们能够花最少的钱，使用到的GPT-4级别的大模型，就是Grok了。当然还可以画画了，也是相对比较百无禁忌的画法。Grok到底有什么不一样呢？现在大家其实都接近GPT-4了。Grok 2 mini是在RAG的情况下去使用，所以其实看不太出来差异。

我们现在去Twitter上使用，就是你一个月交了8美金以后，也只能使用Google 2的Mini版，而且是Google 2 Mini的Beta版。Grok 2的这个全量版本到底怎么放出来，什么时候放，现在我们还不确定。从XAI公布的数据来看，已经接近或者是部分超越了GPT-4O了，不过它是跟GPT-4O 5月份的版本相比，现在GPT-4O在外边是有8月7号的版本。那个版本现在还是比不过的，GPT-4O的版本也是在不断更新迭代的。

在使用上，对于问题的理解，比起Bing和Co-pilot，包括国内的豆包，还是有一些差距。我测试了一下，比如说我问了一个问题，这个问题是什么呢？是做了Flux 1的公司，现在拿了哪些投资，估值多少。等于我把这个原问题扔进去，在Grok 2里进去以后，它说我没有找到一个叫Flux 1的公司，也没有找到相关的投融资数据。数据是这样的，而其他几个呢，都很好地理解到了Flux 1是Stability公司的核心人员离职创立的，现在的公司名字不叫Flux 1，而是叫做Black Forest Labs（黑森林实验室），拿了A16Z领投的3200万美金的种子轮投资，而且是没有估值，估值没有公布出来。其他的投资人也有一些罗列，除了A16Z之外，其他都是哪些人投资的。

在这一点上，Grok 2还是要稍微的弱一些。那么现在的Grok 2能干什么呢？第一个就是幽默，他回答你的问题经常是比较幽默的，比如说有人问他说：“你给我画一个蒙娜丽莎行吧。”我说行，但是这个蒙娜丽莎我画出来是歪嘴的行吗？他都是这样来幽默的。最有用的是基于推特内容的检索，就是你问任何问题，他都说我检查了一下推特。

现在大家都在讨论这个问题。那么现在的风向是向哪个方向偏移的？这个是最好用的，可以进行简单问题的回答。像刚才我去问的，Flux 1的这个公司融了多少钱，估值多少，他就没有办法去正确理解和回答了。

而最后的一个，也就是Grok 2最出圈的是什么？就是画画。大家现在都在拼命地画画，靠图出圈。Flux 1的这个模型是可以随意调用的，但是还是有一定频度限制。8美元的用户应该是每多少个小时吧，可以花二三十张。还有一种是16美元的用户，就是Twitter。有一个更贵的叫Premier加的一种用户，他们是完全没有广告，而且可以画更多的图，对于图片基本上是不设限的。

咱们从几个方面来讲这个图片受限的问题。第一个叫引用风格。我说我要宫崎骏风格的动画，或者是迪士尼风格的绘画。OpenAI的DALL·E 3，对不起啊，这个已经违反了我的政策，不跟你玩了。Midjourney和Flux 1不理你，照样出一点问题没有。

如果你使用名人，这个特别有意思。比如你使用马斯克，使他的名字作为主体句话，DALL·E 3直接拒绝工作，说对不起，我不能去用名人给你画画。用Midjourney画了，而且效果极好。用Flux 1去画也能画得不太像。当然，咱们在推特上看到很多非常像的马斯克的绘画，那是怎么弄的？多从事几次，可能就能得到一个比较好的结果。

那你说我去画一个卡马拉·哈里斯，行不行？DALL·E 3直接拒绝了，说对不起，我不能画。Midjourney也拒绝了，说对不起，我也不能画。说现在是大选期间，所有的总统候选人我都是不画的。Grok 2的模型，也就是Flux 1，它就画了，没有任何问题。画完了以后还提醒说……

选举期间，所有跟选举相关的信息，请到官网上去查询。我就是个画画的，你别问我啊，不要说我这给你造谣了啊。我给你告诉官网在什么地方。那你说这个川普给不给我画？我说给我画一个川普举枪射击的图，还有暴力，还有鸣人。达里3拒绝了，Midjourney也拒绝了，Grok 2二话不说，给你画了一个川普举着枪在那打枪的图画。但是呢，后边也是提醒说，请到VOTE.GOV官方网站去看选举信息。

所有这种名人的Grok 2都是百无禁忌，想画啥画啥。色情内容、比基尼可以画，再衣服变少他就不干活了。这就是现在的Grok 2的这种百无禁忌的绘画。当你问Grok 2说，你画画有这个禁忌没有啊？你不能这么画啊。Grok 2自己的回答是什么？那我限制什么呢？

第一，生成的图片不应该包含过多的暴力与血腥内容，但你看川普开枪的得给你放。第二，色情与露骨内容，任何形式的色情或露骨内容都是禁止的。仇恨和歧视内容，不生成包含仇恨言论、歧视性内容的图片。版权和知识产权，复制版权内容，生成图片不应该直接复制或模仿现有版权保护的作品。名人肖像，对于知名人物的肖像需要谨慎处理，避免直接复制或者使用其肖像权。

反正我在Grok 2里头画的贺锦丽、画的川普、画的马斯克，都是能看出人的，没有任何问题。所以这个就形同虚设。第三，技术限制，分辨率和细节，生成的图片可能在分辨率和细节上有所限制，具体取决于生成模型的性能。然后复杂度，过度复杂的场景或细节可能无法准确生成。他说给我生成1万个小人就别想了。然后隐私和个人信息，个人身份信息不应生成包含个人身份信息，如身份证号、地址等的图片。文化和社会敏感性。

文化敏感性，就是避免生成可能被视为对特定文化或宗教不敬的图片。政策与当地法律生成的图片必须符合当地法律法规，特别是在涉及到版权、隐私、儿童保护等方面。生成频率可能存在每日或每月生成次数限制，以防止过度使用。我估计像我这种交8美元的，每天应该可以生成20-30张。

内容审查自动审查生成的图片，可能需要通过日常自动或人工审查，以确保符合上述限制。这就是现在GROK 2对自己进行图片审核的一个解答。虽然我觉得他做得不好，特别是名人肖像又搞得非常棒，完全都已经拿出来了。甚至我去尝试了一下，我说让疯狂马里奥穿上星球大战里边的风暴兵的制服去追赶米老鼠和机器猫，所有的一种IP人物都给你画在上面。他反正是百无禁忌，看看地表最强保护部到底要干嘛。

马斯克呢，肯定是被玩坏了，各种马斯克的梗图在X上满天飞，包括马斯克跟扎克伯格两个人在对打，打擂台。马斯克把自己吃成了个大胖子，这些都在上面有。各种名人、各种IP、各种风格也是满天飞。刚才我们讲这个疯狂马里奥身着星球大战暴风兵制服，正在追逐米老鼠和机器猫，这一条达利直接拒绝了。Midjourney和Grok 2画的都还是不错的，地表最强法务部一般指的是任天堂和迪士尼，他们就该努力折腾了。

那么AI生图的版权问题，包括这种叫侵犯商标权和侵犯特定的注册商业形象的这种群，可能应该在未来一段时间就会去诉讼了。否则没法整，因为大多数人其实还是关起门来用。一旦把这个图拿出来以后，谁说这个到底是生成的还是自己改的，你是说不清楚的。但是在这种YouTube里头，大家是在Twitter上用，在这样的情况下。

你把它生成的很像米老鼠，一眼就看出来这是米老鼠，那是奥利奥，这个肯定是会被告的。马斯克算是真正的找到了X和XAI正确的打开方式。大模型好不好用其实并不重要，大模型该做的事情，XAI基本上都没做，什么意思？比如API，XAI现在就没开，TOKEN计费也没有，微调什么，怎么去嵌入多模态理解，这些东西实际上都没有多模态理解。据说Grok 2上是有这个功能，但是现在还没有办法去调用，因为现在我们使用的Twitter上的Grok的这个接口，是没有上传图片的这个按钮，所以你并没有办法去让他说这个图片在讲什么。开源现在AI其实做得并不好，各种第三方插件和系统的适配与集成，现在他也没干。真正的大模型公司，其实每一次推出新的大模型以后，就要很努力地来去做这些事情，这些事XAI都没干，那他干了一个什么呢？Grok 2其实是一个很好的基于X的应用，他给了你一个可以在X上真正用起来的东西。它可以很好地利用x.com的数据，回答各种各样的问题，他回答其实还算靠谱。现在只有Grok可以调用，其他人你都是调用不了Twitter的数据的，因为非常的贵。刚才我们在上一个故事里边讲到的Wordware就是因为实在太贵了，玩不起了。你去调用Twitter数据是非常麻烦的，生成的内容特别是图片，极大地提升了x.com的价值，因为他现在这些图片大量地在推特里边去流传。为什么这个活跃度？如果我们看到了一个马斯克跟这个川普两个人在这打情骂俏的图片，那用户的活跃度就会直线上升，大家都会去点一下，都会去转发一下，都会去点个赞，评论两句，这个带来的是什么？带来的是更多的广告展示机会。

更多的广告收益，所以这个东西对推的是非常有利的。而且前面我们讲了8美元一个月，也是所有的这些AI应用里边最便宜的一个。那大家就定呗，订阅用户上升，也会直接提升整个的会员收入。而且我告诉你，你一旦订阅了XAI 8美元一个月的这个套餐，大家会变成话痨了，会七差咔嚓上去说的，要不然那8美元不亏了吗？

我现在每个月大概能挣回4-5美元来，但是我这8美元还没有一起挣回来。最终，Grok2对于X来说，算是一个肥水不流外人田。我自己的内容发到推特上去，让推特能够产生更好的互动，能够挣到广告费，这就是他们现在在干的事情。

对于马斯克来说，推特440亿美金把它买下来，现在再值多少钱已经不好说了，但是外边还有一个230亿美金的XAI。所以Twitter买下来的过程中，如果把XAI的这个价值算上去，其实应该并不亏。这一段时间，未来不排除说再把这两个项目捆绑在一起去上市，或者说重新把其中的一个扔上市，再把这个钱再挣回来。

而这个才是马斯克再去推Grok的初衷。他不会去说我要跟OpenAI竞争，或者跟Anthropic、谷歌Gemini去跟他们竞争。我就在这一亩三分地上把Twitter伺候好就完事了。希望国内的，比如像微信、抖音就字节跳动，他们也可以以这个为核心，真正的做一些与自己家的社交类产品结合更紧密的大模型应用出来，而不是说一个一个的都惦记出来，说我去做一个对第三方开放友好的大模型。我希望靠大模型成为新时代的平台，不要走那条路。

所以我觉得，马斯克的AI算是给我们打了一个很好的样本，这就是我们今天讲的第二个故事。

Figure02机器人发布，是否真的成为地表最强？Elon Musk的Tesla Optimus同意了吗？OpenAI加持的Figure02面世，能否撑起AIGC的未来？中国机器人，正在快速赶上？

Luke Fan — Fri, 09 Aug 2024 00:40:50 +0000

Figure02机器人发布了，这真的是地表最强的机器人了吗？大家好，这里是老范讲故事的YouTube频道。Figure AI最近发表了它的Figure02，因为前面Figure01发布的时候真的是引起了轰动。现在Figure02发布了，但是它呢，也没有正儿八经开发布会，只是在官方账号上发了个视频，展示了一下Figure02的一些特性。

官方账号发视频呢，大家还是可以去相信一下的。如果是非官方账号呢，现在有可能是AI生成合成的。现在的很多视频，已经不能说叫“眼见为实”了，但是官方我相信，应该还是实拍的视频。不过官方视频呢，也不排除剪辑提速的可能性。提速什么意思？就是我慢点拍，然后快点放。剪辑呢，就是只给你看能看的部分，把这个出错的部分都给你剪掉，这个也是可能性比较大的。

而且在前期，各家公司发布的机器人视频里头，这两种手段用的都还是很多的。现在Figure02里边到底是不是用了这些，不确定。因为Figure01为什么大家不怀疑这件事？Figure01是这个机器人正对面是一个帅哥，帅哥真的在那跟他有问有答的，在那聊天呢，所以大家觉得不应该是减速了，但剪辑的可能性也还是存在的。

现在这个视频呢，演示了全新的机器人在宝马的工厂里头摆放零件、搬箱子以及缓慢的行走。当然，也展示了一下机器人新的结构、新的一些功能、新的一些特性。这里呢，就不跟大家详细去讲，如果有兴趣可以自己去搜一下啊，YouTube里边是有这个视频的。那么，为什么在这个时候发布Figure02呢？你说正好这时候做出来了，我们就发布了呗。这玩意还有啥为什么呢？在创投圈里头，如果这样想问题就稍微幼稚了一点点。每一个重大事件的宣布都是有原因的。那么，这个时间点，我们想一想都在发生什么事情。

OpenAI最近的负面信息稍微有一点点多。很多人都说OpenAI要玩啊，创始团队要崩，还有很多的前面吹过的牛，最后圆不上。AIGC有可能成为泡沫，大家现在在谈这样的一个问题。而且前两天股市还忽悠了好几下，快速下跌，快速起稳，大家感觉这个泡泡要破了。所以，要赶快再去拿出一些东西来提振人心一下。

而作为Figure AI这样的一家公司，它后边是有OpenAI投资的，而且它的整个模型是用的OpenAI的模型。他现在出来发布这样的一个还是比较振奋人心的机器人视频，也算是给OpenAI稍微撑一撑厚场子。所以现在国内所有做AI相关媒体的人都在解读这个视频，而且用上了“地表最强”这样的形容词，也是说我们要抓住最后几根稻草，告诉大家泡沫还没破啊，接着往前走。

Figure AI今年年初刚融过钱，那么现在是不是可以再融一轮？前面Figure01做完了以后，我现在Figure02出来了，通常是融资节点会去放这样的东西。那你说刚融的钱融了好几亿美金，估值好几十，20多亿美金，现在花完了吗？为什么马上要融钱呢？

大家要想一想，下一个上来的有可能是谁。下一个上来有可能是川大爷。如果川大爷上来的话，那对于整个科技行业来说，其实未必是好事。他有可能说：“来，红脖子之后，你们好好地再把工业发展发展，人上一上，这个机器人你们等一等。”所以到那个时候，未必好融钱了。如果是川大爷上来，可能整个的美股会向什么样的发展呢？就是科技巨头会向下走，而其他的各种传统行业会向上走。

所以在这个时候，一定要赶快，赛是容易轮啊。所以这个时候发布Figure 02是恰逢其会，正好在这个时间点。Figure 02跟Figure 01的比较起来，到底有什么差异呢？首先从硬件上看，完全重新进行了架构设计。这个东西跟Figure 01只能说彻底不一样了，一点相近的地方都没有了。这个Figure 02呢，更加好看一点。为什么好看呢？就是从外表看，更像人了，结构跟人已经是很像了，胳膊腿身子，而且看外边像个皮肤似的，干干净净的，很光滑。人是没有说身上四处插着线的，他这个从外表上非常像人。但是从整个的架构来说，跟人是一点关系没有。

为什么人是里头骨骼啊，然后是肌肉，再往外边是一层皮肤，或者我们管它叫蒙皮。这是这样来构成的。Figure 01呢，它里边是骨骼，外边是电机，然后是加上各种线缆，就直接溜出来了。所以我记得在《星球大战》的电影里面，天行者Luke第一次做出3PO的时候，他没有给他装外壳，他去见到R2D2，然后R2D2说：“你怎么光着呀？然后3PO说：你太没礼貌了。所以早期的Figure 01啊，就是这个光着的、赤裸的这样的一个状态，没有外壳。而现在的Figure 02呢，并不是给它加了个外壳，而是什么呢？它把结构改了，它变成昆虫结构啊。昆虫是什么结构？外骨骼结构，就是它的整个的支撑是外边这层壳。人是不靠外边皮肤支撑的啊，人是靠里边骨骼来支撑的。而Figure 02是靠外边这层壳来支撑的。所以呢，它这个东西表面上看像人，但实际上的结构实际上是像虫子啊。这就是Figure 02跟Figure 01的差别。

但是呢，它已经把所有的线呀、所有的传感器、电机什么都藏在这个外壳里头去了。现在特斯拉的擎天柱应该还是骨骼加上外壳的形状，还没有上这种外骨骼的形状。电池呢，更大了，Figure 02上带了2.25度电，也就2.25千瓦时的电，可以连续工作20个小时。这个呢，其实没太大必要啊。为什么这个东西很像在中国人造的这种可以续航800公里的电动汽车，对吧？甚至有些中国人造的电动汽车可以续航1,000公里。马斯克说，你们傻吗？为什么这么讲？因为一辆汽车，其实他的续航超过500公里以上，意义就没有那么大了。咱们完完全全可以说，开到三四百公里去充电就可以了。

但是你想，要把它造到800公里、造到1,000公里的续航，一定需要什么？更大的电池包，那东西很贵的，而且非常大的重量。电池跟汽油不一样，汽油烧完了就没了。

这个电池甭管有电没电，它都是那么老沉。所以这个是一个非常不划算的事情。咱们身边常用的电子设备，大概有多少电池，大家知道吗？MacBook Pro啊，14英寸的，大概是70瓦时。咱们的iPhone Pro Max 15，我现在就是用的这样的手机，是16瓦时吧。因为iPhone的标记是按照毫安时计算的，所以毫安时要算成瓦时，要算电压。iPhone的电压的话，应该是3-5伏之间，它里头不一定在什么时候用什么样的电压输出的。所以呢，一般按照可能4伏左右来算的话，大概是16瓦时左右。

那跟它这个电池比较起来呢，它是2250瓦时。你说它这里装了多少电池，真是非常恐怖的一个电池壳。你想装这么多电池在里头，它的重量、价格、发热都是非常麻烦的一个问题。Figure 02呢，跟Figure 01比较起来，也增加了更强的算力，更好的CPU，更好的GPU。但是我并没有看到文章里边具体去写它到底用的是哪一款，只是说它的算力是原来飞格 01的好多倍，确实是增强了。

然后传感器，现在这个东西已经可以跟他聊天。你跟他说，他给你回复没有任何问题。传感器是带6个RGB摄像头。什么叫RGB摄像头？就是彩色摄像头。一般咱们在机器人身上创作摄像头分几种：一种是全彩摄像头，一种是单色摄像头。很多单色摄像头实际上是测井深的，还有的会在上面装这种红外线摄像头，它可以测一些温度。

它这个上面是六个全彩摄像头，分别在头部、前胸和后背。这个东西怎么越来越像虫子了呢？也就是这样的一个硬件吧。软件上呢，这就是OpenAI的功能了，这个肯定更加聪明。第一个GPT-4O上来了，那么，端到端的语言模型已经来了。你现在可以随时跟它聊天，聊天的时候可以打断它，这就是GPT-4O的能力嘛。

现在，GPT-4O的语音版本已经有人用上了，但我等待了这么长时间，还没有能够用上。现在不知道它是按照一个什么样的梯度在进行慢慢的解锁，也许再过一两个月就能用上了，这还是值得期待的一个事情。

另外呢，就是视觉模型，这个应该也是OpenAI跟Figure AI一起去合作研发的视觉模型。它完全可以依靠视觉来完成各种复杂的工作，但在这一块上并没有详细的演示。其实，Figure 01在这一块演示的还是比较好的，而且确实震撼到了很多人。在Figure 02上呢，只是告诉你说这件事情我做了，效果在提升，但我估计跟Figure 01比较起来，已经没法再去震撼你一次了。

那么，Figure 02到底算不算地表最强呢？这个还要看特斯拉的擎天柱怎么玩。特斯拉最近是在跳票，原来计划是8月8号要去发布Robotaxi，现在跳票到10月份了，应该是没做出来。现在特斯拉说，我已经把我的AI算力中心重新搭建完成了，后边我的模型就要准备开始升级了。这是特斯拉最近宣布的消息。

对于做机器人这件事情来说，硬件上的设计制造以及工程能力上，我相信特斯拉针对Figure AI绝对甩他好几条街，没什么问题。但是想要在大模型领域里去追赶OpenAI的话，还是需要努力的。马斯克欠的债也很多，他也是许了好多的愿，他等着一个一个的实现呢。这一点，我觉得他不愧是OpenAI的创始人之一啊。

OpenAI在这块上，完完全全跟马斯克是有相同的特性，大家都是不停地许愿，不停地放气球，让所有的人在后边等，问：“你咋还没做出来呀？”那你说“地表最强”这件事呢，其实现在的所谓人形机器人都还停留在放视频的阶段。所谓放视频，就是可以剪辑，可以调速的一个阶段，并没有真正的开始进行实际应用。

所以在这个时候，到底哪个更强，真的并没有那么重要。而国内外有一些媒体，号称Figure 02是地表最强的机器人了，其实也是有点唯恐天下不乱，或者说赶快再看过来，不要把目光转走。AI并没有泡沫，我们还可以再抢救一下，大家再看这件事情。所以每一个词后面都是有原因的。

Figure 02呢，现在已经在宝马工厂里干活了，至少视频里显示是这样的。那么汽车厂是不是适合人形机器人呢？是不是人形机器人最适合的场景呢？很要跟大家讲，不是很多人在讨论，机器人到底是应该走腿的，两条腿，还是四条腿，还是应该上轮子、上履带呢？其实对于汽车厂来说，他们的地面设施是相对比较平整的，不一定非要是腿，因为腿这个东西啊……

确实是可以上下台阶，可以去，在一些非规则的路径上去行走。哪怕地上有一些障碍物，也可以跨越。但是呢，对于现在这种电机控制的机器人来说，他们的越野能力都并不怎么样。只有是原来波士顿动力做的这种液压机器人，才是越野能力比较强，因为它有爆发力嘛。

所以到底应该放轮子还是放腿，现在大家也在争论。到底是应该移动，还是应该多放一台，大家其实也有争论。什么意思呢？你比如说，我这有一个工位，需要有一个机器人在这干活，干重复性的劳动。然后旁边还有一个工位，传统的汽车厂的设置就是两个工位上放两个机器人就完了。你就别动了，我就直接把机器人拧在地上，你也别腿了，也别轮子了，也别履带了，直接固定在地上。

固定在地上的好处是什么？它有更大的功率，你可以直接把很重的机械拿起来，可以有更强的力量。而且在汽车厂里，其实并不需要那么大的电池。你在汽车厂里干活，后边脱根电线都没什么毛病。哪怕说你使用电池工作，只要能够工作个，比如说4个小时、6个小时，上旁边换电池去呗，这有多费劲嘛？你在里边装上使20个小时的电池，是非常不划算的一个事情。

而且呢，人形机器人的输出功率和效率其实并不高。什么意思呢？就是从特斯拉的擎天柱再到Figure 01、Figure 02的这种，它的输出能力来看，它的负重大概也就是20公斤，或者再高一些，也就是可能撑死了，到不了50公斤这种水平。他们的行进速度的话……

大概也就是每小时5公里，就相当于是一个成年人步行的速度啊。跑步什么的，他肯定是不行的啊。他只能是按照咱们正常走的速度往前走。因此，这样的一个设备在爆发力、力量的爆发和速度的爆发上，跟成年男性比较起来，都是没有任何优势的啊。当然，这玩意也有好处，什么呢？它持久力很强。你让一个机器人举着20公斤的物品走个10个小时，可能都能走下来。但是你要让人抱着20公斤的物品往前走的话，这事会呃出问题的啊。

那你说，汽车厂里的机器跟人之间到底是怎么去分工的呢？就算是工业4.0，完全自动化的那种汽车厂里，实际上只要是重复性的劳动，都是机器。而且是这种拧在地上的机械手，或者有人也管它叫机械人吧，只是长得跟人不太一样而已。那么人在里面干嘛呢？人在里面实际上是巡检的，就是我走过去看看哪个地方报警了，哪个地方的仪表有问题，或者说仪表可能所有的数据都是可以在后台统一读的。但是人可能需要到前台去进行一定的维修、维护，更换一些工件，或者是做一些阀门的这种现场的调整啊。这是人需要干的事情。

而这样的事情呢，其实现在甭管是擎天柱还是Figure02，还是做不了的。为什么现在人形机器人都在最不适合他们的地方干活呢？就是汽车厂啊、物流仓库啊，都在这种地方干活。第一个呢，容错性比较高。就是你在这个里头干错了点什么事情，拿错了东西或者摔坏了东西，大家是可以容忍的啊。你这个东西直接就进到家庭里边来。

你把小孩的手捏折了，或者是把什么瓶子打碎了，这个事情啊，是大家比较容易产生负面评论的。所以呢，在汽车厂还是有他们逐渐适应社会的一个封闭环境啊，这个是比较好的一点。然后呢，是肥水不流外人田，自己的狗屎自己吃。因为马斯克自己就是造电动车的，你让他再换个工厂，比如说把擎天柱送到SpaceX的工厂里去，你看看他行不行，我估计他不敢啊。因为SpaceX的工厂跟特斯拉的工厂的差异在什么地方？更像是实验室，火箭的工厂，它里面其实并不会像汽车工厂那样非常整齐，里面会更混乱一些。

所以像擎天柱这样的东西到了火箭工厂里头去以后啊，大家可能就会更加提心吊胆一点。让机器人去汽车厂，还有一个比较大的好处，就是拍出来的视频比较震撼人心，看他在这里干活了，没有工会了，就到更加的震撼人心吧。真正适合人形机器人的场景是什么呢？其实从现在来看，真正适合人形机器人的场景是物流的最后几百米。原来讲物流的最后一公里，我们把所有的物流的东西送到了集中配送的点以后，再通过车辆送到小区，或者送到周边的一些配送的地方，让大家去取，或者说最后一步是靠人给大家送上门啊。这一步其实是适合人形机器人的。为什么呢？他需要拿的东西并不重，20公斤吧，撑死了也就如此了。他可以上台阶下台阶，把这个东西拿起来以后啊，送到房间的门口。所以，这是非常适合人形机器人的一个场景。

另外呢，就是家政服务。可能还要等现在的人形机器人再在工厂里边锻炼一段时间，可能再有个三五年啊，他才可以去做家政机器人。那你说战争呢？战争这个事其实更适合机械狗。是人形机器人，这种东西在相对来说没有那么平的路面上，比如有台阶，这个还是可以搞定的。但是你真让它去越野，这个事呢，还是四条腿要比两条腿更好使。

中国是不是又可以奋起直追了呢？一定是啊。在模型方面，现在我们肯定是有差距，这个要承认。但是呢，稍微差一些的各种平替模型应该大家也在做。硬件部分，其实是咱们相对来说比较擅长的。甭管是特斯拉还是Figure 01、Figure 02，他们最后要去实施的时候，估计还是得到中国来建产业链。

所有这些东西，咱们都有外观设计啊。那你说咱们能不能设计出这么好看的，甭管是特斯拉还是Figure 02这样的机器人，咱能设计出来吗？这种事呢，不用太担心啊。中国大部分的现在大家觉得还比较好看的电动汽车，都是欧洲团队设计的。我们再接着找欧洲团队说，来再给我们设计一个啊，所以设计这件事情不用担心。

那你说，为什么中国人没有七尺喀嚓在这开这种炫酷的机器人发布会呢？很也很简单。刚才我们讲了Figure 02，为什么在这个时候开发布会？你准备再圈钱了吗？准备把这个岌岌可危的泡沫再稍微维护一段时间了吗？中国呢，本身资本就没有那么热，你就算是发布了这样的产品，你能圈到钱吗？你又圈不到，那何必费这个劲呢？因为你一旦发布了以后，这狼多着呢。

大家会冲着你的方向接着往前跑的，还不如关起门来，咱们自己干点活呢。以前这样的产品发布了以后，还有美国的美元基金进来投，现在美元基金也进不来了，那媚眼不是抛给瞎子看了吗？好啊，这就是我们今天讲的故事。

Figure02的发布，很多人冠以“地表最强机器人的”名头，原因是在这样的一个大家都在传AIGC泡沫要破的时候，看看能不能再融到一笔钱。所以，这个词是这么来的啊。至于他到底是不是地表最强，反正他们家拍视频拍的还是不错的。在拍视频这件事情上来说，我觉得Figure AI要比特斯拉要强一些，特别是在做机器人的盈利里头，Figure算是最强视频拍摄公司。

好，这一期就跟大家讲到这里，感谢大家收听，请帮忙点赞、点小铃铛，参加Disco讨论群也欢迎。有兴趣、有能力的朋友加入我们的付费频道，再见。

黄仁勋AI时代英伟达GPU革命：一场市值2.7万亿美金的狂欢，COMPUTEX 2024重磅发布Blackware GPU，1.8万亿参数GPT4揭秘！

Luke Fan — Tue, 04 Jun 2024 01:02:00 +0000

大家好，欢迎收听老范讲故事YouTube频道。今天，咱们来讲一讲黄仁勋在COMPUTEX上的狂欢。COMPUTEX是一年一度在台湾举行的计算机大会。黄仁勋，作为现在真正AI时代的当红炸子机，可能是唯一靠AI赚了大钱的人。虽然微软也在赚钱，但是微软整个靠AI挣的钱并没有那么多。真正靠AI赚了大钱的公司只有他一家——英伟达。刚才我看了一下，英伟达现在市值2.7万亿美金。大家知道，再往前就是微软的3.2万亿，第二名是苹果，2.9万亿，还差那么一点点。可能稍微一哆嗦，英伟达就有可能成为世界第二市值的公司了。那么，黄仁勋上面都讲了什么呢？作为网红，肯定还要先暴露一下行业秘密，别人都不知道他知道的事情。上来先说一下他现在讲的是什么——就是GPT-4到底有多少参数。GPT-3.5大家知道是1,700多亿参数，就是一个170多亿级别的模型。但是到GPT-4的时候，OpenAI就再也没有出来说它到底有多少参数。很多人说你是不是超过万亿了，对OpenAI来说，这个数据不是很准确。我来辟谣了，但是具体有多少，从来没有讲过。黄仁勋在前面的GTC，就是GPU技术大会上，每年一次的英伟达自己的开发者大会上，上面也讲了……

说起来1.8T，这个1.8T指的是什么呢？其实就是1.8万亿参数，而且它是一个Moe模型。当时OpenAI并没有对此多说什么，但这一次，在《Computer Text》上，他们又反复强调了这个事情，明确指出GPT-4的训练参数达到了1.8T。这让人们意识到，想要达到GPT-4的水平，还有很长的路要走。尽管现在大家都在努力研发号称能达到或接近GPT-4水平的模型，比如几百亿参数的模型，比如梅塔的拉马3可能会有一个400亿参数的模型，国内也出现了很多一两百亿参数的模型。但事实是，即使提到的1.8T参数，如果考虑到是Moe模型，分成八份来看，那么单个模型可能也就相当于200多亿参数的水平。

这次先通过揭示现状，然后发布新GPU，但对于具体数据——多少核心、多大算力、内存多大、带宽多少，人们似乎已经感到麻木。现在大家更关心的是，如何将这些GPU有效地集成起来，如何把它们拼装成服务器，以实现更强大的计算能力。这背后的提升，不是5%或10%的增长，而是几倍的飞跃。这成了技术关注的新焦点。

如何装到机房里头，统一为别人去服务，这个是现在大家更关心的事情。所以现在呢，他们发布的叫Blackware GPU，而且，它取出来那个板子上是两块GPU和一个CPU，应该是他们自己做的CPU。这是一整块，然后可以装到一个大的服务器里面去。再把这些服务器堆叠在一起，使用它的NV link，让这些GPU可以像一块完整的GPU那样工作。这样说，你就可以去训练更大的模型了。而且，今年是这个Blackville，明年就是Blackville Ocho，再往后是Robin。就是说，往后一代都给你规划好了。再往后一步，是叫Robin Ocho，所有的GPU一直规划到2027年，一定让2027年之前的GPU都给你规划好了。

现在呢，很多大佬还在惦记着买H100。他现在就专门告诉你说，你看我这个艾克威尔跟这个H100比，它强在什么什么地方，好在哪哪哪。但是很多人还想买H100，这是为什么？可能Blackware它的这种工作方式，或者说它可能需要跟更多的设备先行捆绑，而H100的话，相对来说可能兼容性会更高、更好一些。就是你用任何的这种通道服务器，都能相对容易地兼容和使用。

你把它插上去都是可以用的。likerware我倒是真没看到它出这种——就是像原来金砖啊，像我们以前讲的A100、H100这样的，我们管它叫金砖嘛，就是它的卡还是金黄色的，方方的一块，可以插上去的。好像没有看到这样的东西啊。现在呢，基本上都是以两个black Verre在一起，然后头上带一个CPU，是完整的这个配置。

当然了，这些大佬，包括马斯克、扎克伯格，可能也不是说我就一定要去买H100。对于他们来说，H100就算是一种计量单位，就是说啊，他们会算上自己到底买了多少H100，或者说现在手里的算力相当于多少H100。你像扎克伯格之前讲，说他买了35万块，加上他手里现成的有60万了，再加上后面再接着买，现在扎克伯格手里的大概有接近100万块H100，相当的算力。这就跟我们造炸弹的时候说，这个炸弹相当于多少吨TNT啊，最后变成了一种衡量单位了。

老黄（指NVIDIA的CEO 黄仁勋）就告诉大家说啊，你们来买新的吧。而且这种升级是呈几何级数升级的，所以不要去买旧的，去买新的，这样的话才能够保持它的垄断地位。如果说哎，我现在这个GPU再涨上去，涨了10%，涨了20%，那大家就不买它的了，就去买AMD，买英特尔，买其他的这些算力芯片去了。

甚至像高通这样的公司，都能做出一定的算力芯片来。这样一来，人们可能就不会一定买它的产品了。但是现在的情况是，我们谈论的是算力要涨十倍、百倍、千倍，而且每年都要这样增长。为什么呢？因为这成了一场军备竞赛。每个人都害怕落后，就像人们常说的“输在起跑线上”。我们从小让孩子上补习班，是为了什么？就是出于这种害怕，这种焦虑感。老黄就是在给大家制造焦虑：你现在买了旧的，等明年出了新的，你就落后了。你必须去买新的，然后当更新的版本出来时，你又要再买。毕竟，GPU不像软件，软件可以逐年升级，而且升级成本相对较低。但GPU，你需要整块购买，一年后淘汰，再换新的，这成本实在太高了。一片就是4万美金，Blackwell的价格我虽然没查，但肯定不便宜。所以，要让大家每年跟着升级，必须讲出一些更有诱惑力的故事来。目前，从算力成本和能耗几个方面看，确实在全面升级。一方面，算力成千倍增长，成本自然是变贵了。这没什么可争议的。但就单位算力的成本来说，它是下降了。比如，原来的H100卖4万美金，但使用Blackwell之后……

你可能继续达到H100同样的算力，这只需要原来1/10，甚至1%的成本，是这样大幅下降的。能耗方面也是如此，比如说，要达到原来H100的算力，所需消耗的能耗可能也只是原来的1%。如此发展，GPT-4的1.8T训练能耗引人注目，因为之前很多人讨论，GPT-4训练一次的能耗相当于多少个家庭一年的电力消耗，让人担忧AI发展的能源瓶颈。但现在的进展是，重新训练一遍的能耗降低了99.7%，仅为原来的1/350。而进行推理时，即训练完成后用于问答等任务，能耗更是降低到原来的1/45,000。这样的发展速度令人惊叹，从GPT-4推出至今不过一两年，能耗的减少就达到了如此程度。

军备竞赛在AI领域体现为不断制造焦虑，促使各方持续投入。这就像冷战时期的军备竞赛，你有武器，我必须跟进。如今在技术领域，特别是英伟达所处的，情况类似，但效果是整体提升，正如“一人得道，鸡犬升天”。之所以提到这一点，是因为他们还强调了除了芯片本身，还有Vlink技术，能够将服务器像拼图一样连接，整个机房的服务器作为一个单一GPU工作，展示了技术整合带来的巨大效能提升。

因为，这些服务器在一起，你的GPU的算率越大，可以并行处理的东西就越多，与内存和CPU之间的通道越宽，整个进行大模型训练的效果就会越好。所以他说，他可以干这件事情，但在这个过程中，这些服务器，或者其他一些相关的配件，都跟着他“鸡犬升天”了。比如说，像戴尔、超微电子这些给他造服务器的公司，全都因此受益，一路上涨。因为你不能只有GPU，不能只有他们的加速卡，还得把所有配件凑在一起，这些东西才能正常工作。而这些配件，都是值钱的。

在这个过程中，服务器肯定变得更贵了。比如说，原来用的是H100的服务器，现在变成了更高级的查克威尔的服务器，那自然是服务器变贵了。但你想，服务器变贵的过程中，到底是什么东西变贵了呢？其实，只有与H100相关的专利费变贵了。大家要注意，因为大家自己并不造芯片，也不造服务器，他也不造算力中心。他只是设计好GPU，交给台积电去生产、封装、测试，然后下交给板卡厂商制作成板卡，再由服务器厂商组装成服务器，最后等待比如马斯克这样的人购买安装。所以，整个服务器链条上的价格上涨，实际上主要是由于关键技术组件的成本上升，特别是H100相关的专利费用。

除了GPU价格飙升之外，其它相关成本也难免水涨船高。你不能期望其它东西都保持低廉，这显然不合逻辑。我们整体的成本基数提高了，但单位成本可能有所下降。不过，要注意的是，老黄的市场策略极为精准。GPU的知识产权价值多少，或者说它的设计成本是多少，他们心中有数。如果没有竞争对手，价格自然可以定得更高。但即便如此，人们依然能看到成本在以惊人的速度下降，甚至是以十倍、百倍的幅度。然而，GPU的设计价值却在不断提升。

除了NVIDIA本身，那些制造显卡、服务器以及各种配件的厂商，它们的产品也会随之增值。比如，如果你用一个价值4万美金的H100来搭建服务器，仅这一部分就是一笔昂贵的投入。而且，随着Nvlink标准的采用，替代了以往的Pcie标准，意味着新的配件、新的线缆等都将应运而生，价格自然比过去高出许多。

我记得早些时候，为惠普的小型机配备一个简单的支架，就是一个铁质架子，都能卖出数千元的高价。原因在于它专为小型机设计，很多工程师甚至会私下找工厂定制支架，替换官方配件以赚取差价。这背后反映的是，即便是一些看似不起眼的配件，在特定情境下也能变得极其值钱。

大家其实也都知道，那个铁皮的支架，你说能值多少钱？你凭什么一定要买惠普的？他只要是惠普的工程师给你装上，下次他接着给你修不就完事了吗？你跟着这个比较贵的东西一块去卖，他就会卖的很贵。但是这几天呢，戴尔和这个超威的股价，其实已经快有点绷不住了。大家心里也明白，虽然你们跟老黄跟的很紧，但是这个里头真的，你就是个卖支架的，卖个铁皮，卖个机箱的，你跟着里头的GPU一起水涨船高，这件事稍微的有点侮辱大家的智商。

现在呢，是AI工厂时代，现在老黄也讲说我们现在就是AI factory。在这样的一个时代，我们应该如何与时俱进呢？我记得在移动互联网刚开始的时候，我们写很多应用，当时我们在思考说，哎呀，我怎么能够省一点流量，因为那个时候流量很贵。我们都想着如何去节省流量，如何在使用的时候联网，不使用的时候怎么把它断开，想着怎么去省一点电，怎么去做一些其他的节省资源的事情，可以少占一些硬盘的空间，可以交互的时候少交互一些流量。当时的我一位老板就跟我讲，说你们想这个事情是错的，说为什么呢？就是因为很简单，随着时代的发展，这些东西都会变得不值钱的。比如说现在，流量咱们现在……

其实，基本上是没有流量焦虑的。我记得最早开始使用手机，那时候刚进入3G时代，我们都会做什么呢？每天定时打开流量，收完邮件后立即关掉。为什么会这样？因为酷，而且节省。现在，还有人这样做吗？没有了。现在，我们走到哪儿，站在哪儿，就开始刷抖音、看视频。已经很少有人会说，我必须节省流量，等到有WiFi的地方再做这些。绝大部分人没有这个意识了。

电的问题现在也不那么大了。虽然手机应用还需要省电模式，但现在的手机几乎都是一天一充。你的应用再费电，能比微信还费电吗？能比原神还费电吗？所以，这些问题也变得无关紧要。因此，很多以前为了省电而做的操作，实际上已经没有意义了。

再往后说，我们是否会考虑在硬盘或手机上占用更少的空间？以前在猎豹工作时，我们还在研究如何让软件占用空间尽可能小。但现在看看《原神》有多大，看看那些手机游戏的大小，再看看微信在你手机里占了多少空间，就会觉得，我们当初那么精良的考虑，好像都没什么大作用。是的，所以在AI Factory这个时代，也就是AI工厂时代，我们仍在思考如何能省一点TOKEN，情况依然如此。

我怎么能够让它反应得稍微快一点？我怎么可以调用不同的大模型？这个模型贵一点，那个模型便宜点。我尽量让便宜的模型干尽量多的事情，让贵的模型干少一点的事情，做一些其他的，比如优化（reg）或者做一些这种节省沟通交互的事情。可能真的再过一年，这些就会变得很可笑，就像我前面讲的，我们在做手机应用的时候，让它怎么去省流量，从网上下载的东西少一点，占的硬盘空间少一点。我们现在回想，那时候想的这些事情就显得很可笑。但是在AI时代，刚才我们讲的怎么能够省一点TOKEN，怎么能够让便宜的模型多干点，贵的模型少干点，怎么能够让多个模型相互搭配起来使用，可能也会变得很可笑。而且，这个时间会来的非常快。

黄仁勋呢，除了讲数据中心业务，就像我们刚才提到的Blackvail，一切都是数据中心业务，这也是现在英伟达核心的收入来源，没有之一。现在，他主要就靠这个业务玩。那么其他的呢？也还在讲，英伟达这家公司特别有意思，它不会说某一个业务特别好，就把所有的身家都压上去。它永远是在所有它认为有趣的地方投注，即使这一个方向很长时间没有结果，它依然会在里面坚持。那么，它肯定还有些其他的业务在做什么呢？

比如说，RTX加载的AIPC，因为前面微软发布的AIPC是基于高通的。现在，英伟达说了，你们使用英伟达的GPU，也可以达到同样的水平。英伟达专门为了AIPC设计了一款很小很轻薄的GPU，而且很省电。但这一块上，它稍微有一点尴尬。为什么呢？你如果真的要轻薄省电，你一定使用ARM的，对吧？就是使用高通的就好了。那你说，我现在稍微费点电也可以，这个英特尔自己也出了，英特尔说，你们就直接用英特尔完整的GPU加上算力核心就完事了，你不用再去单独配独立的GPU，依然可以达到AIPC的能力。包括AMD也是这么干的，AMD自己也产X86的CPU，AMD说：“来哇，你直接买我的APU加我的算力核心，就一次搞定。”

那么，英伟达的RTX这个方案为什么尴尬呢？就是它必须要再搭配一块Intel或者是AMD的X86的CPU，它才可以正常工作起来。这对于强调轻薄便携的AIPC来说，就稍微有些尴尬了。但是，英伟达也强调了，加上他们的技术后，算力是苹果的多少多少倍，主要是与苹果的M系列芯片在比较。在这方面，我们还是要相信老黄的，他的算力确实是靠功率支撑起来的，如果他真想达到某个目标，他有这个实力。

说我在电脑上做Stable Diffusion的，这样出图，速度很快。那一定是配着呼啸的风扇声，以及呼呼转的电表，一起来工作的。除了AIPC之外，还在讲游戏助手。但是这个呢，我觉得大家看着开心一下就可以了。他说我做个助手帮大家打游戏，这个呢，就属于工程师思维——一拍脑袋觉得，“我需要一个这个”。其实，游戏跟这个没有那么大关系。就算是AI应用在游戏里面，应该也不是通过游戏助手的方式去应用的。

另外，还展示了机器人。他说所有跟机器人相关的东西，我们都上，也做了全套的机器人套件。还有，其实VR、AR以及车载芯片，其实都在英伟达的整个路线图里边。再往前走，很多人就会关心，英伟达到底还能坚持多久呢？他真的还差2,000亿美金就追上苹果了，对吧？苹果2.9万亿，他2.7万亿，真的差的不多了。他到底能不能超过苹果，甚至能不能超过微软，成为全世界最值钱的公司？这个其实大家心里都在打鼓。

英伟达呢，跟其他不管是微软也好，苹果也好，有一个特别本质的区别，就是它是一个“轻公司”。这个“轻公司”赶上时代红利是可以的，但是到底能不能长久地坚持下去，这个就很难了。黄仁勋展示现在的成就，未来的路线图，让人充满期待的同时，也不免有几分疑虑。

但是，并没有说我要砸重金进去，变成一个重型公司。大家注意，苹果是个很重的公司，它生产电脑——虽然电脑也是台湾人给他造的——它的手机是富士康，包括比亚迪都在给他造手机。它是这样的一个公司，虽然供应链在外面，但是这些货品、这些设计，包括全球的仓储物流，很多东西都是属于苹果自己的。所以，苹果是个很重的公司。微软其实也是一个很重的公司，微软自己在造Surface，那个东西虽然卖的并没有那么好，但是它也是电脑平板，甚至还有很多其他的硬件，比如说键盘鼠标。微软键盘鼠标其实做得非常好。而且微软其实还有一块很重的资产，那就是云计算中心，它有很多的数据中心。微软现在是全世界可能GPU最多的公司了，因为后边有OpenAI这样的一个“亲儿子”，那你肯定是要靠这么多的GPU去养的。微软现在的GPU，如果大概核算成H100的话，应该有180万块，这都是重资产。

谷歌呢，也是一个很重资产的公司。谷歌紧跟在英伟达之后，他现在是市值第四的公司。谷歌我记得在云计算兴起之前，曾经有一段时间，他拥有全世界大概6%的服务器，这是一个多么恐怖的数字。而现在，虽然应该没有那么多，但谷歌的数据中心依然规模惊人。

也是一块非常非常沉重的业务。而且，另外一点是什么呢？就是我们来看，整个的生态是否稳固，或者说，整个的价值体系是否可以稳定地升级上去。还有一个点可以看是什么？就是你上下游的生态链是否足够稳定。围着你吃饭的人到底有多少？以前我们在学生物的时候讲过一点：在一个自然环境里头，食物链越长，或者说参与到食物链里的动物、植物越多，它整个的生态系统就越稳定。为什么呢？因为其中有一些波动，其他的这些生态位上的人，或者这些动物，就可以慢慢地把它平衡回来，而不是说啊，我的食物链很短，就两三节，参与的动物也不是很多，植物也不是很多，可能中间稍微有一点闪失，这个食物链就崩溃了。

咱们来看看苹果，上下游其实有非常多的人围着他吃饭。我们不说这些果链企业，就光在苹果应用市场里头，做应用的这些人，也有几十万人，对很多人来说，这是他们的收入来源。再看谷歌，像我们现在在这看YouTube，我在这拿着YouTube的广告费，那我们也算是谷歌生态链里边的一环。那是非常多的人靠着谷歌生活。啊，微软那不必说这些靠广告吃饭的，因为微软的广告并没有那么多，但是微软上下游，是有大量的系统集成公司，靠着微软吃饭的。

还有微软云上的大量客户，但是英伟达有没有这么多人靠着它吃饭呢？英伟达虽然一直努力地在打造他的生态链，整个生态环境，但是并没有那么多。所有能战胜英伟达的，像刚才我们说的戴尔、超威等，这些已经都涨疯了。剩下的呢，其实没有那么容易贴上去。虽然有很多人说，“我们拿英伟达的CODA，我们去写这些Transformer的大模型。”但是这些人呢，实际上在整个的生态链里面是非常非常小的一群。现在能够真正把这个东西跑通的人非常少，虽然这个领域的人才工资非常高，但是人数真的不多，它没有真正撬动大众。所以，我从这两个方面来论述，英伟达到目前为止，依然是一个很轻的公司，资产很轻，它的整个生态链其实也是相对短而且相对脆弱的。

那么英伟达现在能够赌的是什么呢？就是这个缩放定律，叫“scoring low”。只要这个东西依然有效，黄仁勋呢，就还可以继续狂飙那么一段时间。“scoring low”是什么东西？就是我堆更多的数据，上更大的模型，上更大的算力去计算，然后得到的模型效果就更好。这个东西只要依然在，还可以大力出奇迹。那么大家就说，那我们就接着老老实实地买他们家显卡。

而且，这种倍速一定是十倍、百倍、千倍这样往上涨，为什么呢？因为如果你说，我英伟达下一代的GPU就比现在快20%，那大家就不更新了。或者说，我干脆去买AMD吧，AMD的比你这还便宜点，算力也没有那么差，只是这个过程稍微麻烦一点——我需要重新去适配AMD的算力卡。大家要注意，因为做这行的人很少，这些人很聪明，对他们来说，适配一个新的算力卡，难度并没有那么高。

刚才我为什么专门讲了苹果的生态链、谷歌的生态链、微软的生态链？因为它们里面有很多低端开发者，对他们这些低端开发者来说，技术迁移的门槛是很高的。你让他重新换一下，比如说，“你原来做安卓的，现在去给我做iOS开发去”，他真不会。甚至说，他学会了以后还能涨些薪水。但是对于英伟达来说，如果他没有办法快速地让算力十倍、百倍、千倍地涨上去，那么大家就会渐渐背离他，对他的忠诚度是相对比较低的。

有可能造成英伟达崩塌的原因有三个，咱们最后总结一下：

第一个就是摩尔定律失效了，缩放定律已经没效果了。大家发现，上更多的数据，配更大的模型，训练完了以后效果提升了。一旦到这样的情况，就不会有人再疯狂地去买他的新显卡了。

第二个中心转移了。突然间，又一个特别赚钱的应用方向爆发起来。大家注意，现在为什么大家都在选择这个？因为“缩放法则”——谁都用不好。大家只能去比谁的模型做得更好，然后去跑这个，跑那个。但是一旦发现，这个模型在做一些特定应用时，效果好得一塌糊涂，而且极其赚钱，那么这个时候，就不会有那么多人继续投入资金去做新模型的研发了。他们可能觉得，现在的模型就够了。这相当于什么呢？就是说，虽然“缩放法则”仍然有效，并没有崩塌，但是没有人愿意再往上堆成本了。因为，尽管“缩放法则”有效，但增加更多的算例、更多的数据，那都是钱。一旦出现特别赚钱的领域，即使“缩放法则”依然有效，增长也会停止。

第三个因素是巨头合作，突破并扩大了垄断。现在，大家离不开英伟达的原因，就在于它推进的这套扩大——可以称之为通用计算方法，具体的名称我不再详查，它是不开源的，而且英伟达拥有专利。因此，大家都在这个基础上进行了应用开发和大模型的训练。之后，想要更换这个技术，就会有一个成本。这个成本，我们要反复讲，不高也不低，为什么会这样呢？

肯定换过去以后会有些兼容性的问题。但是呢，因为你后边真正使用你的H100也好，Blackware也好，都是些什么人？特斯拉、苹果、谷歌、微软、亚马逊——他们可以花最贵的钱，雇最好的工程师，说来咱们今天去改一遍就完事了。这个都是有可能的。但是，这个临界点在什么地方？临界点就是，如果涨不上去了，那咱就改；或者说突然有人说，“我愿意砸一笔更大的钱进来，咱就改。”为什么？詹奥特曼说，“咱们砸一笔大钱啊，1,000亿美金，或者说1,000万块H100算力的这个GPU，我们统一搞一次，做星际之门去。”这个对于英伟达来说，都是比较大的威胁。就是这三个威胁。

英伟达呢，也算是我们现在的一个传奇故事。我相信在整个的AICC大时代里头，我们还可以不断地看到它的故事继续。好啊，今天我们要讲的故事就到这里。感谢大家收听，请帮忙点赞点小铃铛，参加Disco讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道，再见！

Open AI 免费GPT4大放送，苹果WWDC翻车预警？

Luke Fan — Tue, 04 Jun 2024 00:50:30 +0000

大家好，欢迎收听老范讲故事YouTube频道。今天咱们来讲第一个故事。Open AI进一步开放了GPT-4欧的免费功能和范围，留给苹果的时间真的不多了。所以，这一个话题里我们会讲两件事。

第一个是Open AI进一步开放了很多免费用户可以使用GPT-4，主要是4欧了。另外呢，就是苹果现在的日子并不好过。虽然我们前面反复在想说，大家万众瞩目，万众期待WWDC，6月5号吧，大家都在等这一天。但是，呃，越是大家期待的事情，可能最后啊，越让大家失望。

最近Open AI呢，肯定是消息不断。为什么呢？山伯特曼本人是一个呃，政客或者说他政治手腕非常的强大。前面闹出了很多的负面，比如说伊利尔走人，超级队旗团队的负责人走人，而且这两天呢，超级队旗那个负责人已经去了anceropic，还在跟瓦解，也就是斯嘉丽约翰逊才在这打着官司。各种的负面都很多，所以呢，一定会放出很多消息来，去纠正这些负面信息啊。

先跟大家讲，他们去跟斯加利约翰逊诉讼的这个事情啊，非常有意思啊，因为瓦解说了，说他们来找到我，在这个GPT-4欧里头有很多角色，有一个角色叫sky啊，叫天空啊，说希望用我的声音去做这个sky，但是呢我拒绝了。结果呢，他们就找了一个跟我声音很像的人，去把这个声音录了。现在呢，我们要求他马上下架，而且起诉他。现在呢，是找到了配音的人，也找到了跟他联系的经纪人，整个一串，都找找到了。找到完了以后呢，人家作证说，Open AI找到我们，只是因为我们的声音很好听。在整个的沟通和谈判过程中，以及签协议的里头，没有提到斯嘉丽约翰逊的名字，一次都没提。只要你没有任何的证据证明，说确确实实照着戴着约翰逊的声音样本去找的人啊，那么在诉讼过程中呢，就还是占有一定的优势。现在就是这样的一个情况。当然了，另外一方面呢，Uki已经这个sky这个声音，也就是使用斯嘉丽约翰逊的这个声音，下架了，现在听不到这个声音了。也是教了大家一个漏洞吧，就是下次再想抄谁的声音的时候，你千万不要在纸面上落下任何字了。说因为你的声音像谁谁谁，所以我用你的，对吧？只要落下来，这事就不利啊。

那么现在，open AI放了些什么样的新消息出来呢？第一啊，我们又开始训练下一代大模型了。到现在为止，GPT5咱没看着呢，现在人家说我开始宣传GPT6了。叫什么名字不重要啊，但是消息放出来了，而且呢，以open AI前面做了这么多次的宣传来看，就是他放了消息，大家还是信的啊，不是说你发完消息大家都不信了，所以现在又欢欣鼓舞。

再往后就是GPT4O进一步免费开放。那么现在，到底免费用户可以得到些什么样的东西呢？第一个，我们现在如果拿到一台新的电脑，或者打开一个新的浏览器，里头没有登录过的，你进去以后，你能够看到，上面只有一个标题叫GPT，没有3.5，没有4，没有4O，没有任何标记了，就叫GPT。其他的宣传的功能通通都没有了，但是你可以用GPT，在没有登录的情况下。

下面你去登录或者注册一个新用户，也没有付费的情况下，你呢就会看到一个呢叫GBT4。如果你想选择GBT4，它就要求你去定位plus。如果你不选择，你就使用GBT。实际上就是GBT和GBT4O。你说，我就跟他随随便聊聊天啊，这个是没事的，你就像原来用3.5一样。但是现在3.5已经不再显示了，没有了。

那你说我想用一些新的功能，我想跟他语音对话啊，想去上传照片，让他去给我啊，做一些这个图像识别啊，想去调GPS啊，那个呢就要去遵守它的啊，频度限制。就是你一分钟可以钓多少次。当然了，它这个频度是，比较低的，3个小时16次。这三个小时之内，你调够16次了，他就退回到GPT 3.5。但是呢，这上面不会有任何的变化，你还是在PPT里面啊，他不告诉你哪个版本了。当然呢，3个小时16次这个事呢，稍微有点玄学。因为很多人上去测，去发现呢，有些人用了10次就被踢出来了啊，有些人用了5次啊，还有些人说用的次数更少，或者更多一点。但是应该没有超过16次的。现在呢，官方的数据呢，也不是特别明确，说我3个小时到底让你使多少次。相信呢，应该还是跟用户的热情相关，比如现在用的人少了，我就让大家多用几次；用的人多了，他少用几次。付费用户，像我们这样的plus用户，3个小时呢，可以调用80次，也就是GPT 4。语音相关的功能吧，可以调84啊。但是现在呢，其实4里面啊，这些语音功能，还是用的传统方式啊，就是先做语音识别，后台文字处理，然后再回来做说的部分，并没有真的实现所谓的端到端语音。他的这种开摄像头这个功能对吧，我们看了很多演示，都是开摄像头说哎，这个怎么回事，那怎么回事，对吧这件事情呢，跟大家想象的也还是有一些差别的，并不是这么干的，而是什么呢，你可以用摄像头去拍一张照片，照片传给他，然后他去解释这是怎么回事，这个工作已经可以干了啊。但你说我这个实时摄像头都开着，这事干不了，哈哈，可能未来也未必能干啊。那么现在呢，在免费用户里的还可以用什么，用GPTs啊，就是各种定制开发的这个GPT，你比如说啊，我在里边去开发了一个如何去英语学习啊，如何去比如Canva，或者让他去给我做一些设计。对吧，这些呢，现在都允许去调用了啊。这个是这一次开放出来的新功能啊。但是你调用GPTS的次数呢，也是受刚才我们讲这个39264限制。然后呢，还可以关联应用啊，你可以在GPT里头关联你的Google Drive啊，或者是微软的one drive，可以从这里边去上传文件。你比如说，现在给我做一次数据分析，你可以上传一个文件上去，给我分析下这个文件啊。或者说你让他给你做一个图像识别啊，拿着摄像头拍一张照片上来，哎，这是个什么菜啊。我上次试了一下，出去吃饭啊，拍了一个这个菜，已经吃了，大概还剩一两口了，那个菜拍完了以后问他这什么菜啊，这个我认得好好的，说啊，你这个是酸菜鱼啊。为什么呢？里头有白色的鱼片，绿色的酸菜，金黄色的汤和红色的辣椒，所以这个菜一定是酸菜鱼，还是很厉害的啊。就算你是免费用户，也是可以用到这些功能的，前提是要注册，但是不登录就没有啊，不登录就只有GPT聊天啊，其他的都没有了。这一次，免费用户呢，跟付费用户之间还有一个差别，是什么？不能出图啊，就是你想让他给你画画，这事画不了。你说我3个小时16次也好，3个小时多少次也好，你给我画画去啊，这事不行。它里头有一个GPTS叫达利三啊，包括呃，图像生成这些GPS都是让你使用的，但是呢，你向他下完命令以后，你会看到那个圈儿在转，说我在画图，我在画图画图，然后等这圈儿转完了以后，呃，说对不起，我现在还干不了啊，你去定一个plus吧。对吧，它会给你出这样的提示。你说都已经到这样的状态了，这20美金还值不值得付呢？对吧，我现在是每个月在付20美金，在用这个东西啊。首先要想清楚啊，GPT4欧呢，虽然多模态相对来说要强一些，但是单纯的文字处理能力，其实并没有GPT4强。PT-4还是能力最强的模型。如果你要做一些复杂的工作，还是要用GPT-4。我也在Gemini里试了Gemini Flash和1.5 Flash，虽然很快，但是它的功能是没有Gemini 1.5 Pro强的，还是要差很大一块的。所以，你付了费，可以好好的去使用GPT-4。付费用户呢，GPT-4达到极限次数以后，会降级使用GPT-3.5。这样大家就知道谁强谁弱了。

我有时候使用GPT-4的时候也会超限制，对吧，它就会自动降级。而且呢，20美金还可以画画，还可以自己创建GPTs。你说我想调教一下GPT，让他给我干一些特殊的事情，想上传一些数据，让他给我做一些专门结合这些数据的一些工作，那你就老老实实的去订阅就好了。

前面我们讲的GPT-4，那些免费的用户，他们可以用现有的GPTs，但是你不能自己做，不能自己去定制。另外，使用额度这件事，也还是很重要的。就是三个小时80次这件事，基本上其实是够用的。前几天，我老婆拿这个东西去试验英语口语练习，用免费的版本，发现没聊两句他就被踢下来了，觉得非常不爽。但是他觉得80句呢，可能也差一点，因为拿这个东西做英语口语练习，一个来回就算一次。所以，他那个80句，可能3个小时也不是那么够用吧。但是这块呢，80句至少对于像我这样比较懒惰的学生来说，应该是已经够够的了。聊一会呢，懒得跟他说了。

那么，OpenAI为什么会在这样的一个时间点里头，进一步的推出免费的GPT-4呢？因为GPT-4前面就告诉大家是免费，但是里头很多的功能是没有的，比如上传图片、上传布局文件、使用GPS这些功能都没给大家。为什么现在要来做这件事？呃，先问大家一个问题啊。大家知道云计算厂商赚钱最大的秘密是什么吗？你上了阿里云，上了腾讯云，上了亚马逊云，这里面最大的秘密叫迁移成本太高。你一旦上去以后，你很难搬走啊。云计算厂商基本上靠这件事来挣钱的。所以他们一开始那个价格都很便宜，吸引你去了。等你要搬的时候，费劲了，咱就别搬了，就这么凑合着吧，对吧，将就过吧。

OpenAI也在干这个事啊。就是当用户习惯了OpenAI之后，再想迁移到其他平台上去，就会有巨大的成本。所以呢，现在就一定要来搞。那你说为什么原来不搞？原来呢，他比其他人其实强好大一块，没有任何人能赶上他，所以呢并不着急。但是现在，甭管是Cloud3 Opus，还是GMDI1.5 PRO，已经基本上赶上他了。而且Cloud后边有亚马逊，Gemini后面呢，是有谷歌，有固有的用户群体。万一让大家最后觉得哎，Gemini也挺好使，我就这么使着吧，那他这个用户等于就抢不回来了啊，就没法再去培养这种用户行为习惯了。所以必须要在现在这个时间点啊，要去稳住霸主的话语权。就是他要制定规则，而且呢在现在，大家其实都是按照OpenAI的规则在做事情。

OpenAI其实是在整个的行业里边，是做了很多坏事的，起到了很多非常差的作用。第一个就是上来做对话，所以现在好多人都说，我也要去做对话啊，这个事不那么容易啊。做对话这个方式并不容易去变现，也没有办法去进行深入的用户产品的研发。但是呢，这个OpenAI开了头了，任何人做这个大模型都没办法老老实实的去做对话框去。第二个是什么呢，就是按这个20美金收费啊，一个月收这个月费。这个里头呢，百度就属于被忽悠了，上去收费去了，其他人上来都免费。功能比他那收费的还好。然后第三个，就是按TOKEN收费啊，就是open AI在张掖这些三板斧啊，都不是那么好使。再往后就是什么，就GPS啊，就是第四个GPS，这种模式呢，到底好不好用，我觉得也还有待商榷。因为他太追求什么呢，就是无代码化了。按道理说呢，使用API去做很多东西是挺方便的，但是呢他说不，我不推这个东西啊，我要推GPTS，我要让大家无代码去把各种事做掉。因为我最近也在尝试，各种无代码的方式，使用PT使用各种大模型，哇那叫一个酸爽啊，不不替都费劲了，而且最终的结果很难进行控制。像我们这些程序员，最喜欢干的事是什么，就是结果可控啊，这不对了，我把这数改大点，把这数改小点啊，或者把这个语句怎么调一下顺序，但是你通过GPTS也好，通过流程控制也好，或者工作流也好，你去控制这一大堆大模型，干活的时候你会发现，你的结果每一次都不一样，你想去调试，想去调优，这个真不是一般的费劲。这就是啊，PPT给大家留下了这么多刻板印象，但是呢大家没办法，只能跟啊，现在大家都在这条路上，慢慢的往前跟着往前走。现在GPTS GPT4欧的这种多模态端到端，就是open i希望进一步推进的标准啊。前面它做的这个对话框的啊，做的这个按TOKEN收费的，做的这个一个月20美金的啊，这些标准大家都已经认了啊，现在再推下一步，GPT4O呢迟迟无法交付，现在呢大家也在着急，大家用的还都是语言模型，其实呃我们在国内使用的很多的呃，这种工具，已经接近了GPT4O的这种水平了啊，这个回头有机会再跟大家分享。那现在呢，GP 4 o，最后能不能变成像他们演示的那样，不好说我觉得难度还是蛮大的啊，真的到他那样了，这个东西实实在在开着了。你还能看到后边有没有人走过去。这个对于网络，对于前端算力的要求都是非常高的。现在的GPT搜肯定是达不到啊，或者说，现在我们使用的ChatGPT的这种APP，绝对是达不到的。这是GPT4欧啊，现在免费开放出来的一个原因了。当然还有一个原因是什么，DC越来越近了，PPT4O呢也要站稳自己的脚跟。

这个话是什么意思呢？就是很多新闻都已经讲了，open AI跟苹果之间已经达成协议了，准备呢在手机上实现啊，类似于GPS Siri这样的功能啊。那苹果呢，同时也没有放弃跟谷歌的谈判，来咱接着谈啊，这个Gemini还是有机会的，他并不希望GPT4O在苹果手机上，一家独大，或者成为唯一解决方案。为什么呢？因为你一旦成为唯一解决方案，它这个价格就不好谈了，对吧这两边就可以谈嘛，哎谷歌你现在是一什么价格啊，这个另外一头啊，GPT4O你是一个什么价格啊，咱们就可以来谈功能啊，哪些功能有啊，哪些权限你是不是可以少要一点，对吧大家可以来谈判，有一个平衡的过程。

苹果其实也喜欢干这种，你比如说现在苹果设备上的所有搜索，还是多选一啊，我在这个Safari上我没有一个搜索的，苹果搜索可以用啊，这个是没有的啊，但是呢我可以使用谷歌搜索，可以使用Beam，可以使用达克达go还是什么东，国内你还可以选百度，所以未来的苹果设备上，大模型估计也是这样，大家选就完了啊，我到底是要用谷歌，还是要用open AI你去选，谷歌Gemini如果和苹果的合作也能达成，那这个费用大家就要好好算一下了，对吧假设苹果是向open AI付费的啊，或者苹果是t open AI，向它的用户付收费的啊，叫扣费外接这种服务，一共三种服务方式嘛，谷歌搜索。现在跟苹果的服务方式是什么呢？是谷歌给苹果钱。你只要是苹果设备上，使用了谷歌搜索，点了广告，我这个广告收益我跟苹果分。而这个钱很大，每年可能几十上百亿美金的给。

然后第二种方式呢，就是大家免费。你也别收我钱，我也别收你钱。

然后第三种方式呢，就是苹果说来我付钱。这个钱我苹果付了，你拿去用吧。早期三星是特别喜欢干这个事，跟什么Joe box啊，跟很多这样的公司，三星付了钱，说来只要买了三星手机的第一年，让他们白用这个钱，三星付了以后的钱呢，让他们自己付去。

当然最可能的方式是什么呢，就像icloud这样。比如说苹果出了一个新套餐，叫智慧icloud套餐。原来呢，需要用每个月两美金，或者多少钱，你可以买一个空间。现在你说我还需要用open AI的功能，或者用Gemini的功能，那我还需要再去付一个钱在里头，每个月多付10美金。然后他就把这个东西集成在Siri里，让你去用去了。哎，如果你说我不愿意付，那你买了苹果手机说哎，我给你一个基础的版本可以用，比如说GPT-4，3个小时18次，没准你在苹果手机上，我让你多用10次。这个也可以对吧，这个有可能是未来的一种服务方式。

你说我想敞开的使，我就想拿苹果手机这么使了，行不行啊？那你就再多买一个套餐，买完了以后，苹果自己收一部分钱，扣个30%苹果税，剩下呢跟open AI，跟谷歌的Gemini去分取。这个我觉得是未来比较大可能性的这种复位方式。

那么现在开放出来，这个免费的GPT-4的这些功能在干嘛？其实是告诉谷歌，告诉苹果，你要想搭进去，你至少应该有这些功能，你才能搭进去。而且这些功能，我已经免费可以给大家用了。谷歌你再去签协议的时候，你也得小心点。要钱少要点。现在，其实是在干这样的一个搅浑水的事情。啊，但是呢现在开放出来的免费GPT-4，肯定是不够iOS 18去用的啊。谷歌现在呢，也还是在里边在谈到底怎么弄。但比较悲催的是什么？就是作为iPhone全世界第二消费国的中国，哎呀估计可能是要用百度了啊，因为甭管是OpenAI还是谷歌，我们都用不了，甭管他们是不是在中国落地，中国是不是允许，现在美国政府也不允许他们给咱们用，咱就凑合用百度吧。

苹果其实今年一季度的销售是很烂的，在中国，到4月份就疯狂降价，由苹果官方降价。4月份苹果iPhone在中国区的出货量，比去年同期增长了52%，这也是一个很大的数据啊。那我们疯狂的买完苹果以后，没有OpenAI，这也是一个啊比较悲惨的事情。

苹果今年的WWDC呢，感觉翻车的可能性还是蛮大的。为什么这么讲？因为这边OpenAI还在闹幺蛾子呢，那边呢，谷歌合作协议也还没签下来呢。你等于这边OpenAI搞个幺蛾子以后，苹果谈判代表说来，咱们再谈谈吧。谈呢一般就谈这三件事啊，第一你提供什么功能给我，第二，我给什么权限给你，第三怎么收钱。现在OpenAI做完这个事情以后啊，谷歌那边的谈判就会变难一些。而且大家要知道，往年开WWDC之后啊，马上就该开始干嘛，推送iOS的下一个版本，比如去年吧，iOS 17的第一个测试版，什么时候推的呢？2023年的6月6号。去年可能也是6月5号，6月6号开的WWDC，当天就退。然后正式版什么时候出呢？2023年的9月19号就要出正式版。但今年这事就困难了啊，叫没有困难，我们制造困难也要上，OpenAI就属于制造困难。你想还剩一个礼拜，这会就要开了，开完了以后马上就要发版本。那这边啊，open i还在这说，我今儿免费这个，明儿免费那个，后天改改功能，再后天我再扩充点功能，还得干这事呢。谷歌那边协议还没签下来呢。那你说下礼拜他发的版本里，到底长啥样，这个事真的是不太好说啊。而且就算是他把这版本发出来了，三个月能够做出真正能用的版本，推送给所有人用吗？真不好说啊。所以大家还是要拭目以待一下。

而且苹果内部呢，很多事情推动起来，其实也并没有那么容易啊。他也是这种天微不可测模式。什么叫天微不可测啊？就是你上面有一大老板啊，或者有一皇上，这个皇上有一些喜好啊，你是知道的。你有遇到一些事情，比如说有可能处到皇上逆鳞的时候呢，你说我到底上去问一罪呢，还是不问一罪呢，还是说这事我猜皇上不喜欢这个，我猜皇上喜欢那个，然后我就这么办，去了。这个到底怎么办，这种事情的选择其实也很简单啊，就是如果啊，你上去报一下啊，发现也没什么损失，你肯定上去报。如果你上去报一下，发现损失很严重啊，你比如像以前皇宫里这些太监，知道皇上有可能不喜欢某样东西，你还上去说去哎，这个事是有可能丢性命的。那在这样的威权统治下呢，很多的事情大家都不敢说，怎么办呢，都是猜哎，老板今天喜欢这个吗，喜欢那个吗，啊不喜欢啊，不喜欢我就不干了，我也不告诉老板有这个事啊，很多都是这么干的。

先跟大家讲一故事吧，我原来在盛大创新院，盛大创新院的老板呢叫陈大年，是陈天桥的弟弟。当时呢我们在内部就流传啊，说陈大年不喜欢李开复，咱们就当八卦，我讲的大家都不要太当真。有些时候啊，我们就需要跟创新工厂合作啊，要跟李开复合作。然后这事呢，我们就先去问下边人，哎呀我说这个事情，要跟李开复那边合作一个啊，咱们到底谈不谈啊。通常大家说别弄啊，别弄啊。\n老板不喜欢李海福啊。你这上去不是找骂吗？然后这个事就放弃了。

甚至呢，有很多本身就是谈一个合作，就可以很容易搞定的事情，我们最后没办法，只能绕着走啊，而且连问都不敢问的。这种事情在苹果里头有没有呢？也有啊。举一个案例，大家知道，iPad上马上要发的是iOS 18和iPad OS 18。iPad OS 18里头有一个重大的更新，是什么呢？是加入了计算器。现在反正，已经不是乔布斯时代了。再过一个礼拜开WWDC，现在能够发的东西，其实已经被曝光的差不多了哎。所以iPad OS 18里头有计算器。那你说iPad号称生产力工具，里头为什么没有计算器呢？

2010年iPad一代发布的时候，里面本来是有计算器的啊。但是乔布斯呢，把软件部门的高级副总裁叫过来问，说新设计的计算器在哪啊？他就一直觉得，iPad上的计算器应该有新的，不应该把那iPhone上的计算器，就直接搬过来。结果对方就回答说，没有新设计啊。哎，这就是要发布的版本就长这样。乔布斯就愤怒了，说不行啊，把他给我拿出去，我们不能发布这样的东西啊。咱其实说的，基本上就是这样的一个原话，相对来说也比较模糊。

现在14年过去了，2010年的事情，iPad一代发布，乔布斯呢，是2011年就去世了。这14年里头，iPad就一直没有计算器。为什么你连问的地方都没有？乔布斯已经不在人世了。你现在在问，他说，您看我把这计算器做成这样行不行呢？没地问去了。人家已经说了，我们不能发布这样的东西。那你说这事怎么弄？我们只能理解，乔布斯如果活着的话，他会怎么看这事呢？当然了，2024年了，提姆库克呢，又做出了违反祖宗意愿的事情啊，把计算器又加回去了。这些年呢，其实提姆库克做了不少。这个违反祖宗意愿的事情，比如说把这个iPhone的屏幕做大了。原来乔布斯说，我这个屏幕就必须这么巧，一个手要能操纵得过来啊。但是现在，我们已经可以有这巨大屏幕的iPhone了。但是这个计算器，真的是等了这么多年才加回来。那你说我讲这个故事，跟我们今天讲WWDC，跟我们今天讲AIGC大模型，有什么关系呢？哎，这个就涉及了苹果另外一个祖先的这个遗愿啊。这个遗愿是什么呢？这个故事要从2009年开始说起。

2009年，苹果出了一批Mac电脑，在这个电脑的型号上，加装了英伟达的显卡。结果这些显卡的兼容性很差，散热也不好。就只要是做大型的这种图像渲染的时候，就直接的冒烟，或者说就直接卡顿，就不干了，就死机，出现这样的问题。英伟达呢，一开始拒绝承担责任。苹果、戴尔和惠普等都买了他这款显卡嘛，一起对他提起了集体诉讼。最终，迫使英伟达同意更换有缺陷的GPU。

从此以后，苹果跟英伟达的关系，就可以说是彻底决裂了。苹果再也没有买过英伟达设计的任何产品。苹果甚至选择了这个性能和功耗更差的AMD的GPU——就是苹果有一些MIC Pro里头是有GPU的，它用的是AMD的，包括苹果有时候会让你去带这种叫做外接GPU盒子，但那个里头都是AMD的啊，英伟达的一律没有。后来苹果定制一些GPU，也是去跟AMD去合作啊，这英伟达我就不玩了。

但是现在呢，大模型时代了，这不买H100吗，你不买英伟达的设备吗，这不没得玩了吗，这个事是很大的问题所。以现在大家也明白，为什么苹果电脑从来不能打游戏了，它压根就没法往里头插英伟达的GPU，因为祖宗已经留下这个话了啊，我们这辈子不跟英伟达合作了，他有这样的一个祖训在里头。那你说咋弄？那现在你说苹果怎么办呢？彻底不买吗？这个肯定也不行啊。现在呢，据第三方猜测，苹果还是少量的购买过英伟达的算力卡，就是H100这种东西，组建了自己的算力中心。但是即使买了第一个，数量非常少啊，苹果并没有买很多这个东西。第二呢，偷偷买啊，也不能说啊，自己用一用就算了。但是现在呢，要o in AI了，怎么办？

这个苹果又做了一个特别奇葩的决定，他呢，去订购了一大堆的叫MR Ultra的芯片，嘛呢，拿这个M2 Ultra去填计算中心去啊。这个呢就很危险了啊。大家要知道，M2系列的芯片，应该2022年出来的啊，包括2023年也还卖了一段时间。到2023年，呃，年底的时候就开始出M3系列的芯片，现在的M3 Max都出来了，M3 Max就是最大的这个芯片，一般叫Ultra的，是把两个Max粘一块，那东西叫Ultra啊。这M3 Max呢，现在在MacBook Pro上已经开始卖了。本来呢，按部就班，到今年呢，应该发布M3 Ultra的Mac mini，Mac studio这样的台式机。但是呢，到现在你到苹果官网上去看MacBook Pro，你可以买到M3 Max，你说我现在想买Mac studio，你还只有M2 Ultra，它压根就没有M3 Ultra这个产品，M3 Ultra这个产品型号被取消了，没了。为什么呢？因为太着急，现在iPad都用上M4了，所以也许到明年的这个时候，我们会看到M4 Ultra的Mac studio，但是现在不赶趟了。所以赶快把M2 Ultra再造一批，拿去藏数据中心就完事了。那你说，这个M2 Ultra挂数据中心行不行呢？这个东西在Max studio上，那绝对足够。即使是性能超级过剩的一个芯片，比如将两个M2 Max粘在一块。印象中，一个M2 Max已经非常好用了，在本地做推理完全没有问题。但是，如果你想用它来训练大模型，对不起，搞不定。为什么呢？因为它的内存带宽不够宽。苹果发明了统一内存，将电脑上的内存与缓存合二为一，速度相对较快，能够达到家用游戏显卡的速度，但与真正的算力卡如H100或AMD的MI300相比，差距非常大。而且，它能够挂载的内存数量也不够多。在这种情况下，依靠M2 Max搭建的苹果数据中心，算力堪忧，可能只能勉强完成推理任务。想自己训练新的大模型，基本不现实。苹果可能在研发新的算力芯片，但即使现在开始研究，至少两年后才能用上。而两年后，大模型会发展成什么样，大家已经无需惦记了。苹果可能已经放弃了大模型，但小模型还是会做，就像iPhone手机和Mac电脑上的本地搜索引擎，大型搜索引擎则直接识别。WDC现在感觉翻车的可能性还是有些大，因为剩余时间不多，合作伙伴都不是省油的灯，尤其是谷歌，虽然算是中规中矩的合作伙伴，但也这么多年了。\n也相对稳重一些了。Open AI呢，经常是不按常理出牌，属于性格还不是很稳定的一个公司。你跟他去合作，反正日子不是那么好把握吧。

苹果自己的AI这一块上呢，因为遵从了祖训啊，不跟英伟达合作，后边的日子肯定也不好过啊。你像马斯克的AI，人家还是老老实实的，买了一大堆的英伟达的这个H100，回去做算力中心去了吧。任何的其他人，包括谷歌，你说我有TPU，他也老老实实的去买H100。哎，只有苹果说不，哈哈我不买啊，祖训传下来了。

而且苹果这些年呢，挤牙膏已经挤的太多了，现在有点无处下手了，对吧？现在以大家曝光出来的WWDC上有可能发布的东西来说，呃，我觉得计算器算个惊喜，就是也没有什么惊喜了。这个里头，one more thing，大家都已经在开会之前的一个礼拜都说完了，看看他们到底弄点什么啊。这种WWDC的话，应该不会又整了个什么大地之母出来晃一圈吧，啊我估计应该不会。

我这里头可能唯一可以one more thing的，是不是给题目顾客指令一接班人可以斑驳适应一下，啊，没准大家还可以稍微的开心一点点。好啊，这就是我们今天讲的第一个话题，就是Open AI把GPT-4免费范围放大，苹果WWDC翻车的可能性还是蛮大的。