AI创新 – 老范讲故事｜AI、大模型与商业世界的故事

Manus全解构：国运级AI Agent背后的真相，自动规划工具是否真的不可或缺？

Luke Fan — Mon, 10 Mar 2025 00:50:34 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲突然刷屏的Manus。它的来源呢，是个拉丁语单词，是“手”的意思，同时呢还有“权力”和“力量”的意思。现在呢，华为造汽车就全都是《山海经》，做AI产品全是拉丁语单词，好厉害的样子，对不对？

现在这个事情呢，应该是从昨天开始，突然就变得一码难求了。我应该是在昨天看到谁呢？王舒义，天津师范大学的一个老师，他发了一条说：“哎呀，得到那个测试码了，怎么怎么着了。”我当时都没想说这啥玩意儿，没惦记这个事，因为呢他们那个Monica我也没怎么用过。Monica这个产品对于我来说，还是有点太奇怪了一点。待会我们再继续讲。

后来到昨天晚上了，突然就开始传出来说这个东西已经在闲鱼上炒到好几万了。又一个国运级产品出来了，中国人再次震惊了世界，说老美又怎么样了，全世界又如何如何了。今天再一看这个，各种新闻媒体刷屏了。我直到开播之前犹豫再三，说算了，还是去申请一次吧。咱们虽然没用过，但是好歹也算申请过了。本来我是连申请都懒得申请的一个产品。

团队呢，也出来求饶说，有人在攻击和破解他们的网站和服务器。这个很正常嘛，你一旦做的好了以后，大家总要上来看一看。那DeepSeek最近也才是逐渐的，号称要恢复正常。但是我却试了一下，一试还是问三个问题，就停下来那么一个状态。现在团队说玩不下去了。而且呢，说几万块钱在闲鱼上买这个邀请码，这事呢他们也出来澄清说：“我们从来没收过任何钱，您千万小心别上当受骗，上当受骗了也别上我这来找来，我这没收到过钱。”

那么，AI agent是不是真的就要爆发了呢？因为咱们从去年就开始讲，说2025年就是AI agent的一年。突然到3月份，就放出了一个王炸性的产品来。这个事是不是行？首先呢，不要太兴奋，这个东西呢在国内是使不了的，必须到国外去使去。为什么？因为底层是GPT和Claude 3.5、3.7这样的模型，这些模型在中国是没有经过安全审查的。

不能落地。而且人家这些模型上，也是明确的告诉你说：“我不愿意在中国地区为你服务。万一我给你服务了，你拿去维稳了，或者做了点别的事情，我们也担不起这责任。”所以Manus这个产品在中国不能用的。他们家的Monica.im在国内也是不能用的。他们纯纯是一个出海的服务商，而且呢，其实是一个非常非常小的服务商。他们的整个的产品，在海外没有那么多用户。

那么Manus到底是干嘛的，或者你到底能干嘛呢？现在能够出来看到的，绝大部分都是官方放出来的一些视频：晒简历、做房地产的评估、旅游的规划呀，全都是这样的东西。因为拿到邀请码的人不多，就算是拿到邀请码的人，可能也还是要给一些面子。但是也有人说自己上去了，觉得一点都不好使，问的所有问题都翻车了。这个我觉得都是可以理解吧。

Manus最强的地方是什么？就是自己规划任务。因为原来我们都是靠这个，像流程图一样去自己画，说我们先干什么后干什么，每一步怎么怎么做。现在说不用了，他自己来规划。你问他一个问题以后，他自己做计划，说我先查哪些资料，再查哪个网站，然后再怎么把它拼在一起。然后呢，可以自动的执行，自己生成一点Python代码，自己去把它跑出来。然后呢，给出最终的结论呢，实际上像一份大报告似的。而且很多人看到这份报告以后觉得：“哎呀，这个写的实在是太好了，甚至给我画图表、画表格。”

画表格这件事是非常非常容易的，千万不要被这玩意骗了。像我们写Markdown格式，或者在计算机里边，写很多的语言的时候，都是可以画出来的。你让ChatGPT画个表格，它也能画出来。但是你让它给你画图表，肯定是画不了的，还是要去调用一些特殊的语言功能才可以画出来。ChatGPT他没做这事，现在统统都干了。

非常多的人一看了以后说：“哎呀，这个简直是如虎添翼，每一个人都可以成为研究者了。”而且说，这是不是AGI看到曙光了，这个东西就是未来了。所以也有很多人说，这就是下一个国运级产品。

DeepSeek的这个辉煌再次上演了，那么是不是值得这么兴奋呢？又一次国运级的创新诞生了吗？我觉得一个不能在中国使用的服务距离国运就还稍微有一点点遥远。你DeepSeek再怎么说，咱们全国上下都在部署，你一个无法在中国合法落地的产品，中国人在这呼哧呼哧在这炒作，这个是很无聊的一个事情。而且DeepSeek本身在代码生成方面，其实差得也还比较远。Manus这种产品，它是不可能靠DeepSeek大模型就在国内部署起来的，它必须要有Claude，必须要有ChatGPT才可以完整的跑起来。如果DeepSeek就可以带着他自己整个跑起来的话，他就可以在国内上架了，但是他不行。

那为什么我说DeepSeek在代码生成的方面差得非常远呢？因为我昨天花了一整天的时间在尝试用DeepSeek去写程序，那叫费劲，比Claude 3.5、3.7真的差的不是一星半点，是差的太老远了。Manus跟DeepSeek比起来，还是有很大的差距的。DeepSeek让国内所有的大厂都跟着走，Manus，国内大厂呢有可能会超他，但是呢也不一定每家都会去抄一遍，因为现在这个方向呢，大家也还在观望之中。它不像是DeepSeek，彻底把国内所有的这个大厂全给翻了一遍，所有跟云计算相关的所有运营商全都装DeepSeek去了。

DeepSeek已经改变了全球的AI格局，还带崩了英伟达的股票。而这一点上Manus就更加没有比较了。DeepSeek自己服务半停摆的情况下，依然可以搅风搅雨，那Manus呢只能算是一个标记性的时间点。他出来了以后说，哦，我们看到了一个新的产品形态，而且大家还挺喜欢，可以自我规划的AI agent可能就能够用了。那么国内的这些大厂，包括一些小一点的厂，系统经营商呢，应该就可以去冲一波了。而这个就是Manus现在带来的一些变化。Manus现在也说我们要开源。

这件事我觉得还是稍微值得期待一下。现在呢，大家最希望他开源的，是他推理和规划的这个“小模型”。但是人家具体什么时候开，开什么东西，现在还没有确定下来。那么讲这么热闹，这东西到底咋实现呢？是不是一套壳产品呢？只要是中国人做的，大家都要问一下。而人家呢，上来也承认了，说我们就是套壳的，没什么好说的。

什么叫套壳呢？就是你没有自己的大模型，大模型用的就是Anthropic、Claude 3.5、3.7、OpenAI的GPT以及DeepSeek。它是没有自己可以拿出来展示的大模型的，使用的都是公开模型。所以呢，可以算是一个套壳产品。甚至还讲了说，我们把套壳做到极致，就如何如何。但是呢，它这个离极致其实还稍微有一点点远。

那么为什么是现在这个时候，Manus这种产品出来了？这种可以有自我规划能力的GPT，其实早就有。最早有一个产品叫OTO GPT，但是一晃眼儿就不见了。现在呢，是Claude 3.7、ChatGPT，特别是DeepSeek R1，这个模型已经变得很强了。而且像DeepSeek R1这样的产品，如果你自己部署的话，你的成本是可控的。像Claude 3.7这样的产品，其实并没有那么贵，整个让它跑起来还是可以去承担的。

原来OTO GPT的时候，当时大家跑，我忘了是GPT3.5还是GPT4了，奇贵无比，所以一会那钱就哗啦哗啦就不见了，所以没做起来。现在呢，就是有可能能做出来。那么进行自我规划之后，能够可控的输出结果，这个是现在这些大模型已经可以达到的这个能力了。其实现在用一些稍微小一点的模型进行规划和微调的话，还是很方便的。

我今天还试了一个东西，就是阿里新出的QWQ 32B的这个推理模型。据说它这个32B的模型呢，是要比DeepSeek R1 671B的模型效果还好。我上去试了试，确实挺好用的，但是要想达到DeepSeek R1那个，还是要稍微差那么一点点。

虽然在跑分上确实是跑赢了DeepSeek R1，但是个人使用体验跟跑分还是不一样的。讲回来，Manus呢，应该是自己做了一个小的规划模型。它呢，构建一个规则的知识库，就是我要做什么事，大概有几种方法，我做另外一件事大概有几种方法。然后呢，输入指令进行规划。我现在要做一个旅游攻略，我现在要去筛简历，把这些命令输入进来以后，他就给你规划了。规划出来以后呢，给你做了一个叫to do.MD的文件。to do嘛，就是马上要做的事情。MD呢，实际上是Markdown。Markdown是程序员经常使用的一种文本工具，就在文本里边直接写一些符号，就可以代替排版。像我们在word里排版的话，你要先写好文字，然后选中了以后，说我们是用几号字，前头要不要写这个点，或者有没有这个编号。markdown等于完全是在文字里边去写，就程序员都是这么干。

当他做完规划以后呢，得再通过自己的一个解释器，把这个markdown里头一条一条的，一步一步去完成。他是这样去工作的。里头呢，还有一大堆小工具，比如解压。筛简历的时候，就是给了一个压缩包给他，那你把他解开。然后呢有一些文档解析，甭管是PDF文件word文件，你都解析出来。然后还要做网页解析。那为什么网页解析要单独讲一下？咱们打开网站看一看，那上面什么弹窗了广告了一大堆东西，你要把真正有用的东西扒出来，还是有点难度的。所以网页解析是专门的一个项目。然后呢，自己还带浏览器，他可以自动的去浏览网页。其实有点像今年1月份，OpenAI发的那个产品叫operator。但是operator发完了以后，只有200美金以上的用户可以用，像我这种20美金的用户还用不了。还有一些API，你比如说我现在需要重新生成PDF了，还有一些API的，它呢是可以通过Python，再生成一点点简单代码，然后可以通过这些简单代码的执行，把这些刚才我们讲的小工具，整个的通顺的串联起来。

它呢，可以设置一套小工具的调用规范。符合规范的就可以进到工具链里边去。当他拿了这样的一大堆小工具，照着todo.MD去执行了以后，就产生了一大堆的中间结果。然后呢，再对结果进行拼接。大模型的能力其实就在这。它能干嘛呢？就是处理很多这种叫非结构化数据。

什么叫结构化数据？什么叫非结构化数据？就是我现在有一个表格，第一列叫做姓名，第二列叫做年龄，第三列叫性别，第四列叫做简介，第五列叫什么职业。这个东西就叫结构化数据了，一行就是一个人。非结构化数据就是，我拿到这个数据里头是一锅酱，我们也不知道这里头到底写的什么。大模型就是你可以把一大堆的非结构化数据扔给他，然后让他去总结分析。他是有这个能力的。

而且呢，这个其实他调用，甭管是网页也好，还是各种的API，从其他的服务那里获取数据也好，实际上都是结构化数据。但是呢，他就把所有这些结构化数据打包在一起，作为非结构化数据直接扔给大模型，说来我这有一大堆数据，我也不去解释里头到底是什么，我也不去研究这个数据结构了，你去给我去总结归纳一下。他是通过这样的一个方式来干活的。

相当于是什么呢？上面的一大堆小工具，进行这种松耦合的组装。为什么要强调松耦合呢？我们正常写程序，我们会去标记，你这个数据应该是怎么排列的，第几个字节到第几个字节写什么，写错了马上报错。有了这个大模型以后，我就都塞进去，反正这个大模型也不挑你这个里头，哪个多写几行，哪个少写几行，多两个属性、少两个属性，他都无所谓。所以他就可以通过这样的方式，把这些小工具凑载起来。

得到了一些结果之后呢，再输出一个漂亮的报告，包括刚才咱们讲图表，表格呀。其实你用DeepSeek R1，用这个Claude 3.7什么的，都是可以生成这样的报告的。像我们以前写程序的时候，有很大的一块时间是干嘛？就是打报表，各种各样的报表。为什么？要对格子，要去取数据，要去做统计分析。这个事是很麻烦的。

他们这块做的还是不错的。Manus真正强的地方在哪？它实际上就是规划。他可以自己去做计划，说：“哎，我要先干什么后干什么，先调哪个工具后调哪个工具，中间出了问题怎么办？如果没有问题的话，我怎么把这些内容再拼起来？”这个是他真正厉害的地方。

当然，我看今天已经有人说是Manus是不是个骗局了。怎么说呢？就是这个东西没有大家想象的，或者说他放出来掩饰的那么美好，但是你也不至于说他是骗局。就是我们也要看看里边到底有什么创新的地方，他怎么能够实现这种规划。

将常用的流程和子流程写出文档来，直接嵌入到本地知识库里边去，再把工具链上面各种各样的信息也把它embedding到这个本地知识库里去，再将各种服务性网站的信息也把它embedding到这个本地知识库里去。然后在规划的时候，直接根据本地知识库做REG输出就完了。我们告诉他：“我要做一个什么事。”他就跑到这个本地知识库里边去查去了，查完了以后说：“你干这个事，好像这三个工具有用，这几个流程可能是有效果的，这些模型可以干活，那些这个网站里头有你要的数据。”它可以通过进行本地知识库辅助的这种生成，直接给你输出一个刚才我们讲叫todo.MD的这个文件出来，就可以照着干活去了。

产品设计本身还是相当不错的，界面也很清爽，用户交互也非常的顺畅，这个还是很好的。这个Manus的结果靠不靠谱？先跟大家讲一个小故事。据说有人拿这个DeepSeek推荐彩票，买完了彩票还中奖了。还有一帮人说：“哎，我用DeepSeek去做量化吧，我去用DeepSeek炒股吧。”官方量化里边不是炒股的吗？这玩意靠谱吗？肯定不靠谱。所以AI这个东西一定是有幻觉的，千万不要觉得AI是有可能把这个幻觉干掉，这个很难很难的。在数据源不能保证正确的情况下，AI更没有能力说：“我一定会输出正确的内容来。”我哪怕是搜索了一大堆东西，你搜索的东西还有可能是错的呢。AI自己根本就没有判断能力说：“唉。”

我搜索回来的这个网页，哪个是对的，哪个是错的？他唯一能判断的是什么？唉，这个是一个官方主流媒体，那是个个人博客。需要去采信的时候，我要更多地采信官方主流媒体。但是我们其实并不希望AI有判断能力。大家自己想一想，如果AI有是非判断能力了，那是一件多么可怕的事情？还是让他糊涂着就算了。

然后，多个数据源进行总结归纳的时候呢，其实也很容易产生幻觉。就是当我搜到了5个相关网页，对5个相关网页的结果进行总结归纳的时候，幻觉是很厉害。特别是像DeepSeek这种东西，就是幻觉一塌糊涂。Work 3什么换节，也非常非常厉害。Manus底层的模型都不是自己的，全都是别人的。在很多的这种幻觉模型上，自我规划以后，其实它输出的内容一定是不靠谱的。虽然可以进行一点点验证，但是呢，现在距离提高正确率还差得比较远。

那么现在的结果都很惊艳。很多人说筛选简历很棒，筛选的什么房地产信息，也都非常棒。你怎么就在这胡说八道呢？怎么可以说人不行呢？其实原因很简单，他筛选简历的结果，筛选简历的过程，筛选房地产的这个呃过程，筛选履行建议的这个过程，他是给外行看的。你真给内行，他是看不了这东西，看了会乐的。这过程呢就像老中医，念着口诀给人看病似的，金木水火土念半天，你一定很专业。这个大模型也是一样的，一本正经的胡说八道。你不一本正经，他就骗不到人了。所以呢他产生的所有的这些结果，是相当容易让外行感到幸福的。所以千万不要觉得这东西就很厉害。

目前为止Manus给出来的东西，基本上是叫桃园三结义孤独一支。这个什么意思？就是怎么说都行。你说这桃园三结义孤独一支，到底是哥几个？哥一个，这孤独一支吗？哥两个，孤独出去一支，还剩俩。三个，哥仨嘛，团圆三结义嘛，大家站在一个枝头上了。这都可以讲。所以目前Manus给出的演示结果，基本上都是短期内无法进行验证的。你没法确认它到底对不对，但是当你觉得Manus……

给出的结果特别厉害，不明觉厉的时候，一定要小心，距离掉在坑里已经不远了。为什么呢？因为人跟人之间的交流和沟通，是通过不断的确认眼神，确认你的工作能力和工作结果，来建立信任。信任了以后就会比较少的进行检查，这个人就可以合作起来。但是大模型这种东西的话，你让他工作100年，该出多少错他还是出多少错。所以这个地方，还是要稍微小心一点。

下一个问题，Manus这样的产品到底有没有门槛？这个东西如果是国运级的创新的话，它一定是有门槛的。你像DeepSeek，虽然大家都觉得说我们能做的出来，而且各种开源各种开放，perplexity也号称自己训练了一个，或者调了一个类似于R1这样的模型，回来去使用了。但是呢，就并不是很多人都有这个能力，去自己训练DeepSeek这样的模型出来。这个还是有很大门槛的，即使是DeepSeek开源了一大堆的，怎么去优化GPU的这些代码库出来，这些东西想用起来也并没有那么容易。

那么像Manus这样的东西，有没有这个门槛呢？现在很多人就说，现在这个时代是模型及产品的时代，最后都会被大模型厂家干掉的。会不会这样呢？像OpenAI，每次开发布会，一帮的中小企业在这敲丧钟说完了，我这条路被OpenAI给瘫过去了。大家都是在这么看这个问题。Manus现在干的这个活，其实就是GPT5要干的活。可能再过个那么一两个月，我们就可以看到GPT5，因为GPT5也说了，我也是自自动规划，规划完了以后，我自动的去调用各种各样的模型，一次给你实现，而不是现在是这样，ChatGPT上来，我要选模型才能用它。这个方向已经在OpenAI的路径上了。但是呢，从OpenAI的deep search的结果来看，OpenAI的产品落地能力，其实并没有特别好。现在我们去看perplexity，DeepSeek的，豆包的，Grok 3的，这种深度搜索下来以后，你会发现OpenAI的。

Deep search其实是最烂的一个，真的不怎么好使。OpenAI算是技术很强，跟谷歌一样。谷歌的产品能力其实也很烂。他们这种公司呢，底层技术遥遥领先，产品烂一点大家也将就用了。中国人呢，是相对来说，比较擅长于内卷产品这一块的，产品体验、产品迭代，这个是咱们比较擅长的。这个底层技术咱们差一点，OpenAI也好，谷歌也好，都是底层技术好。在这块事上我们也很矛盾，为什么呢？广告时代最后实际上，所有的这些广告商都被收割了，被谁收割了？被这个自有流量的大广告平台给收割了。谷歌、苹果、Facebook、Twitter，现在其实都算是苟延残喘的一个广告商。剩下的，你说谁成为广告商，都是自己要有流量的。你如果自己没有流量的话，你是做不了大广告商的。现在的话，模型时代，是不是你如果没有底层模型的话，你就做不出上面这个东西来？这块呢，大家有一些矛盾。当然也有一些产品，就完全靠产品做起来。有一类产品呢，叫PLG产品，就是叫产品引导增长的。这种东西有两个比较典型，一个是Notion，另外一个叫Slack。这两个产品就是典型的PLG产品，它没有特别底层的技术，我就是产品做得好，体验做得好，让大家使着方便，让大家使着舒服，然后大家就愿意去用。这块呢，看看是不是能够走通这条路吧。在大模型时代，这个逻辑是不是还能走得下去？不知道了。因为如果Manus知继续能够做下去的话，他必须要像Notion或者像Slack这样说，我的产品做的特别好，我就愿意为你服务，让你使着舒服，大家就一直一起用下去。你说在大模型时代里头，自己模型做的不怎么样，产品做的特别好的有没有呢？也有，一个是Cursor，就是自动写代码的IDE，还有一个呢叫Perplexity，就是刚才我们抢这个AI搜索工具。目前呢，还算是有一定门槛的，虽然大家都在做AI IDE，都在做AI插件，都在做AI搜索，但这两个产品目前为止活的还都不错。

至少暂时还都挺受欢迎的吧。未来的事情不好说了。大模型时代，模型厂商的服务边界其实没有那么清晰。它跟原来的互联网、移动互联网时代是不一样的。像移动互联网时代，谷歌跟苹果好多事它是不做的。但是你现在到大模型时代，你看有什么事是OpenAI不做的吗？

那么有没有离了模型就玩不转的案例呢？也有。有一个产品叫Character AI，这个大模型团队被谷歌收编了以后，现在产品直接趴下了。现在他的产品被一个中国公司的产品摁在地上摩擦。那个产品好像叫Toki，是这个Mini Max做的，也算是这个中国AI六小龙中的一个吧。

那么Manus的产品到底怎么样呢？这个需求肯定是存在的。大家还是希望能够快速地获得高质量的信息，不是内容，而是信息，就是经过整理分析以后得出来的结果。这是大家有需要的。在产品设计上呢，至少在演示视频上看，交互还是相当不错的。成本现在肯定是不划算的。这个未来到底怎么去收费，现在还不好说。

因为呢，OTO GPT当年出来了以后，为什么马上就挂掉了？因为这东西算一次，那个时间实在是不划算。你让他开足马力去干活，可能干一次俩小时，你回来一看账单，好几百美金不见了。这是当时的一个状态。现在的肯定是要便宜一些了。Manus，据说每次回答问题，就是每一个任务做完的平均消耗是两美金。不再会出现几百美金的事情了。但是呢，他也没法保证，因为呢，他是自动规划的。你有的时候可能花个几十美分就把东西算出来了，有时候花个两美金把东西算出来，但也有的时候可能俩小时就过去了，你再回来的时候一看，100多美金不见了。而且你没法控制他，因为是自我规划，所以到底每次跑多少TOKEN他也不知道。

在这呢给大家讲一故事吧。这个是原来我看的施瓦斯科普夫的传记。这哥们干嘛的呢？这哥们是美国的一个五星唱将。在打这个海湾战争的时候，他是中央司令部的司令。他呢在越战的时候是个程序员。他虽然是军校毕业了。

到了越南以后，他是个程序员，在那儿写程序。后来，从五角大楼派了一帮专家来说：“我们来分析一下月供游击队出现的规律。”他们搜集了大量的资料，在那算了很长时间，进行了数据建模。他也有幸参与了这个项目。最后得出的结论是什么呢？月黑风高的时候更容易被袭击。所以呢，你用Manus这样的自动规划工具去干活的时候，它有可能也是这样的。算了可能很长时间，最后算完了以后告诉你一个：“月黑风高的时候容易被袭击。”

原来还有一个电影是什么？计算机算到人类都灭亡了以后，最后得出宇宙终极答案是42。这个故事大家应该也听过。所以他的这个成本是比较难控制的。后面的大厂跟进一定是必然的。GPT5还有几个月就出来了。GROK3其实现在就已经是自动规划了。大家去GROK3里边，去点击这个deep research。你去给它一个任务的时候，它也是有一个规划清单，在这个上面在滚动的。他会把这个规划清单都整个执行完。所以现在好多人觉得GROK3出来的结果非常好。如果你实在是说我也等不到Manus了，也不得不舍得花这几万块钱，去买这个测试码了。大家就上GROK3上去用掉了。豆包，腾讯的元宝以及WPS应该都会虎视眈眈的，都会把这东西做起来。而且呢，在这块的还有些别的大厂，微软、谷歌、苹果都有可能来玩一下，因为他们自己是有操作系统的。这个事情一定是他们干是最方便的。

这就是这个项目。到底有没有这个门槛的问题？其实没什么门槛。当然你说我产品做的特别漂亮也行。你像Notion那种产品就是做的特别漂亮。现在免费开源的，类似于Manus这样的东西已经出来了。它这个产品发布了大概三个小时，还是几个小时，就有一个叫open Manus的这种开源项目，就直接扔出来了。你们要用自己上去挂去。当然不是程序员的话，挂起来会稍微麻烦一点点。那你说这种产品为什么突然就疯狂了呢？原因也很简单，二级市场实在是太缺话题了，稍微有点话题。

大家赶快要冲上去炒一把，然后再来算谁是Manus概念股。赶快要去买。至于你买的时候是不是有其他人在外面跑路，或者有其他人去赚钱割韭菜，这就不管了。但是有题材总是要炒的，而且这个团队呢，其实相当擅长于运作。

首先呢，他的视频拍得很好。在大模型时代，在AI时代，如果你这个团队不会讲故事，不会拍视频的话，你是混不下去的。他们很擅长干这个事情，做得非常漂亮。

第二个，这个团队原来是做微信私域运营工具的，就是专门给这个微信公众号，或者说这个企业微信的这些人做运营工具的。所以他们很擅长做这种叫做社交媒体裂变，社交媒体爆发这个事情，这是他们的老本行。

有了DeepSeek的铺垫以后呢，现在中国人的这个热情还没下去呢，突然有消息传出来了，肯定还要再跟着热闹热闹，这个是必然的。但是呢，这种突然爆发的传播呢，对于Manus本身来说未必是一个好事。

刚才我们讲这个PLG产品，就是这个产品引导增长的之类的。这些产品的话它有一个特点，就是你一开始一定要低调，你要这个猥琐发展一段时间。你如果一上来就在显微镜下的话，这个事是没法整的。突然爆火了以后，唯一的结果就是被大厂盯上。而且呢，你一旦进入这个显微镜下，你所有的缺点都会被放大。

2015年的时候曾经有过一个产品叫足迹，应该也是2015年春节的时候出的。他呢能够出这个电影感大片那样的照片，随便拍张照片进去，他就给你做一个像电影大片似的那种，等于裁的这种带这个边的吧，还给你写上一句字幕，大概是这样的一个感觉。上线服务器就崩了，很快就销声匿迹了。

所以像Manus可能会走上这条路。AI圈这种突然爆火，又突然死掉的产品其实还是蛮多的。大模型是别人的，算力成本无法承担，用户突然涌入，预算在燃烧，体验在下降，然后就没有然后了。这个是Manus这样的产品很有可能会遇到的问题。像他们呢其实手里没有多少钱，因为他们以前的公司是被腾讯投资过，但是Manus这一块的话。

你说：“我想趁此再去融一大笔钱，也不是那么容易。算一次两美金，一个任务两美金。当真的有一大堆用户涌进来，开始其他开始跑的时候，就想起这个哪吒一开始那句话了：‘天雷滚滚，我好怕怕，劈得我浑身掉渣渣的感觉。’你一个人进来，两北京不见了；一个人进来，两北京不见了。还不是一个人，是一个问题，进来两美金就不见了。你有多少钱够他烧的？”

当然了，现在这些事呢，对于Manus来说，也算是一个幸福的烦恼。还有一大堆人说：“我做出产品来没人知道。”他至少被人知道了。所以，能不能趁机融一笔钱，或者干脆找人卖掉算了？因为像他创始人上一个公司，就直接找了个公司给卖掉了。现在这个产品如果能把它卖出去，也算是不错的一个结果了。

新的阶段是不是已经准备好了？其实Manus代表了一个新的阶段到来了。AI进程呢，实际上有五个阶段，这个是山姆·奥特曼提出来的。第一个阶段是对话，能够进行自然语言交互的聊天机器人，用于简单对话和信息交流，就是我们现在使用的GPT-4、4O什么的，就是对话。然后第二步呢，是叫做推理，具备在特定领域进行问题求解和逻辑判断的能力，可以进行复杂推理和逻辑分析，就是我们现在用的DeepSeek R1、GPT的O1、O3这样的模型，就属于叫推理模型。现在其实我们在努力的走这一块儿。

推理之后呢，就是规划，是agent，可代表用户执行任务，具备自主运行的这个能力，能够在动态的环境中实施决策，这个是现在第三步。实际上Manus就已经走到了这个第三步上。再往后一步，创新，能够参与发明创造，增强人类的创造力，可在科学研究、技术开发等领域推动突破。其实现在什么医学方面，已经开始突破了。然后最后第五步是什么？叫协作，深度融合组织功能，参与社会管理与复杂决策协作，能够管理复杂的组织任务。这个是山姆·奥特曼给AI整个发展的，类似于L1、L2一直到L5的一个状态。

那么当前的状态是什么呢？GPT-4.5已经展示了，对话这件事情基本到顶了。

你再怎么加这个算力，再怎么去扩大模型，也就这么回事了。而我今天发现我的ChatGPT已经可以用4.5了，虽然是迟了两周，我们还是用上了GPT4.5，还没有空跟他去提问题呢。

推理模型现在还在快速发展的早期阶段，推理模型这个阶段并没有过完，现在都在拼命地冲这一块。有机会大家可以去试一试通义千问的QWQ 32B那个模型，还是不错的。因为这种模型32B嘛，你是可以在电脑上本地跑的，我就在自己电脑上装了一个，效果还可以，确实慢一点。

再往后这个规划呢，其实一直都在尝试，逐步有可用的版本出来。OpenAI一月份出的operator就是这样的一个产品，GROK3的Deepsearch也是这样的一个规划类产品。Manus呢算是把这个规划又往前推了一步，它已经离开了原来的这种环境，不需要在OpenAI的这个环境下用，不需要在grok 3的环境下用，完全用别人的模型，批了这样的一个单纯的产品出来。

当然了，现在这个产品到底有多成熟多不成熟，我觉得下结论还太早，因为我自己并没有真正的去用嘛，邀请码还没收到。缩小范围，专业一些的自我规划AI agent应该还是有机会的，因为现在的Manus号称是我可以泛应用，所有的行业所有的领域我都可以干，你让我干啥都行。最终能够做到的结果，大家就不要有特别大的预期了。

Manus出来以后，行业的方向必然会发生一些偏转，就甭管这个产品做的怎么样吧，告诉大家了一些可能性。现在哪怕是两美元算一次，这个可能性存在了，手工规划工作流的这些产品就要开始转型了。比如说像Dify，像Coze这种自己画流程图的这种，可能就要稍微的调一调方向了。未来呢应该都是会有自动规划工作流，这块会获得更大的这种关注。

那Manus有未来吗？首先跟大家下一个结论，没有，哈哈。为什么呢？不是因为产品做的不好，也不是因为它底层是没有自己的模型的，这个都不是。大家知道互联网时代。

第一个倒下的独角兽是谁吗？叫Evernote，就是现在的印象笔记。第一个从独角兽的10亿美金估值里退出来的公司就是他。那为什么是他呢？好多人说挺好使的，我还花钱买呢，像我也是花钱买的，而且这么多年一直在付费。为什么这样的产品就不行？原因很简单，咱们说一个像绕口令的话：“有用是最没用的事情。”为什么像绕口令一样说这个呢？因为大家被Manus惊艳到的时候，是因为觉得这东西有用，他给我的筛选力的这个过程很棒。你到底有多少HR需要筛选力？有多少HR现在不是在忙着裁员，忙着自己不被裁，而是说我要去招人？有多少人需要这东西？有多少人需要去看那些专业的报告？其实没有的，用户必然是很少的。像它这个Monica.IM，现在号称一共有700万用户，其实是累计安装量，它的活跃用户基本上可以忽略不计的。而且它这个700万用户，还是收购了一个叫GPT for Google的，一个300万用户凑起来的，他自己就有400万。收购了这么多东西，现在号称700万这个数，其实基本上你就认为他没有就可以了。而这几天有可能会爆发一波，但是未来应该很快就消减掉了。而且真正的专业人士是不会看他的报告的，我告诉你，真正专业人士看他的报告更累，你还得再一个一个再去校对，再去核验，再去看里头有没有说错的地方，这个事是一个很痛苦的过程。AI工具主要现在还是能够骗外行，就像我前面AI时代，文科生很重要这个视频讲的一样。像我这些程序员，一看AI写的代码，就在那乐，你们这个连拼屎山都拼不出来。但是我看AI写的小说，AI画的画我很开心。一些设计师一看AI画的画，这叫啥玩意？那些真正产品经理这些文科生，你看AI写的那些文字也是没法看。他是这样的一个状态，这个东西最擅长就是骗外行，就跟那个很多相声演员讲的似的：“我是这个说相声里边最会唱歌的，以及唱歌里边最会说相声那个人。”这就是AI现在最擅长干的事情，而且专业看报告的人。

现在还在不断的被裁员呢，你给他们提效干嘛？海外应用还要等OpenAI、谷歌和微软再去发力，它在国外的用户是起不来的。就算Manus让我看走眼了，真的是用户量做起来了，那各国政府能乐意吗？你这数据是不是去中国了？怎么还有这样的问题呢？一个武汉公司，做了这么样的一个产品，到全世界去收集别人的调研报告、各种数据，这不开玩笑的吗？而且两美元一次的这个成本，如何平衡这个事，对于他们来说也是很难回答的。

在AIGC时代，可能真正有价值的东西还是娱乐，不是真正的有用的东西。虽然一大堆人都在研究怎么让AIGC有用，但是我觉得依然是娱乐有效。为什么呢？因为它出来的东西不严谨。你给个小说，你这东西写对了写错了，他没事，不会因为说这小说写错了几个字就造成多大的损失，而且有新鲜感，我还看着很开心，这不就可以了吗？

但是你想，他这边出一大堆报告，告诉你应该上哪去买房，告诉你应该招谁不招谁，等最后你把人招回来，发现不好使，你把房买了以后，发现这个房子有问题，你找他吧，他也不负这个责任。所以现在千万千万不要去做有用的东西，这是今天咱们去讲的Manus的这个故事。

字节跳动全面进军AI编程 | Trae抢占AI IDE市场，质量与免费就是杀手锏！剑指AI落地的最后一公里，仅限字节跳动在AI领域的野心

老范讲故事 — Thu, 23 Jan 2025 00:42:36 +0000

字节跳动正式加入了AI编程大战，野心尽显。大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲AI编程的故事。

一直有人在跟我讲一个话题，叫什么呢？就是“我有一个idea，就差一个程序员了”。非常非常多有想法的人，他们被写程序这件事情拦截了，无法实现他们的想法。AI来了以后，这个问题得到了一部分的解决，但并没有彻底解决。

AIGC，也就是我们这一波的AI，是从哪里开始的呢？就是从写程序开始的，不是从ChatGPT开始的，也不是从MidJourney画图开始的。最早的AIGC项目，或者说被广泛传播和使用的项目，叫GitHub Copilot，就是帮助程序员写程序的。当然，这个项目并不能让那些真正的程序小白，或者说完全没有学过程序的人写出程序来，它只能帮助这些会写程序的人，或者对程序还相对比较了解的人提高编程效率。它是这样的一个工具。

AI辅助编程，或者叫AI程序员，这个事情经历了这么多年的发展，现在到底发展成什么样了呢？你说我现在是一个小白，是不是就可以去用了呢？字节跳动这样的一个明显ToC的公司，大量的用户是C端用户，是个人用户，他们加入AI编程大战，是不是意味着他们推出的产品普通人就可以用了呢？咱们慢慢来讲一下。

现在的AI编程的发展，首先，它是分成三个大的组成部分：第一个叫插件，第二个叫大模型，第三个叫AI IDEE，叫AI集成开发环境。现在的插件，从最早的GitHub Copilot依然在不断更新升级，然后有一个叫Continue，叫继续的一个插件，这个做得也还是相当不错。还有一个插件叫C L I N E，这个插件现在用的人也比较多了。其他还有一些插件，比如说LLama Codesr，是可以使用LLama模型来进行编程的插件；MazCodes是字节跳动在国内推出的编程插件；还有一个叫通意零码。

大家一听就知道这是阿里做的。所谓的编程插件呢，就是你需要把这些插件插到你的集成开发环境里去，比如说微软的VS Code或者是IntelliJ。插进去以后，它就可以进行自动编程了。当然，这并不是说你告诉他说要有光，于是就有了光这样的自动编程。而是什么呢？就是你已经写好了一个程序，然后问他说我这里应该添点什么、补点什么，他会给你完成这样的工作。甚至呢，你告诉他说我这有一个错误，告诉我应该怎么去修改，他们会帮你去改错误。这是插件。

第二块呢就是大模型。现在我们使用AI编程的大模型呢，最主要的两个，一个是GPT-4，另外一个呢是Claude 3.5 Sonnet。其他的呢，GPT-1以及Llama专门有一个对编程重新训练或微调过的一个模型，叫Llama Coders。千问呢，也有千问Coders，这是专门给通义千问做的编程的微调。DeepSeek现在做编程的效果也还是不错的。这就是各种大模型去做编程。

再往后一个呢，就是IDE。IDE叫集成开发环境，就是从写程序到编译、运行、部署，所有这个东西在一起。AI IDE呢，除了刚才我们讲的这个VS Code，你加各种插件来实现AI编程之外，现在也有一些专门的AI编程那种IDE，比如说最有名的叫Cursor，它出来的比较早，这个呢是20美金一个月，主要使用Claude大模型进行AI编程。然后呢，有一个叫Windsurf，这个是前面咱们讲的Continue这个插件，他们公司做的一个AI IDE。

今天我们要讲的这个东西呢，Trae，这个应该怎么念，是字节跳动最新出的AI IDE产品。都是在VS Code的基础上，加上他们自己的AI agent，加上他们自己挂的一些模型，形成的完整的IDE。这就是现在AI发展到的一个状态。那么整个AI编程发展的各种历程是什么样的呢？从最早的叫代码补全，就是你写完了几句话以后。

他给你告诉你下边几句该怎么写。再往后呢，是开始进行自动的代码提示，或者多代码的这个更正。经常我们写的很多项目，需要在不同的代码文件里边去进行调整。再往后一步的话，他就会自动地给你在多代码文件里边进行调整，以及多代码文件进行阅读和建议。因为原来代码补全，就是你给他一个文件，他读这一个文件，现在他可以读整个的项目了。

再往后呢，就开始进行完整的脚本执行。这个什么意思呢？因为我们去写程序的时候，并不是说上来说，我们开一个新文件程序，第一句写什么，第二句写什么，不是这样。经常有很多这种叫做要执行的脚本，比如说命令他创建一个什么样的程序，或者命令他加载哪些库，命令他开始执行，命令他去做各种的清理。他有非常非常多这样的脚本。现在的AI编程工具呢，这块都可以自动做了，甚至呢，最终可以做成一个完整的流。什么样的流呢？比如说你告诉他，现在我想要做个博客，他就说行吧，我想想该怎么办。比如说执行了一个脚本，执行完脚本以后呢，说我根据你的要求生成了博客的页面，而又生成了什么东西。然后，这里还缺一些这个样式库，再执行一个脚本，他得一步一步这样去执行下去。基本上可以完全自动化，可以把这事搞定了。这就是目前来说，AI IDE可以达到的一个效果。

待会儿我们会看一个案例。那么，AI IDE到底是不是可以让小白去写程序了呢？给大家一个结论：很遗憾，还是不行的。前面有人说了，9岁小姑娘40分钟写一个游戏出来，这不是应该可以吗？这个呢，只是一个样例而已。这个9岁的小姑娘应该还是接受过一点点的编程训练的。如果完全没有任何编程训练的人，甭管是9岁还是九十岁，给你AI IDE，你还是写不出程序来的。而且呢，还要注意什么呢？就是很多这种让你觉得哇哦、这种眼前一亮的案例，都是特别编排出来的。可能这个9岁小朋友只能去写这样的一个用例出来，你让他换一个用例，他就写不出来了，里面会有很多的错误抛出来。

他就根本不知道该后面怎么办。这个事情，而且按道理说，按完回车，他自己再去确认确认，前进，继续什么，做一些这样的点击，为什么需要40分钟？这里头还是有一些bug需要去调整的。待会儿我们去看Demo的时候，你们就知道大概需要去调整哪些东西了。

但是现在的这种AI IDE呢，可以让一些稍微受过一点点快速开发教育或培训的这些人写出快速的原型程序了。工程项目如果变得很大的话，可能还是比较费劲的，但是些小应用已经是可以去跑了。

现在咱们来讲一下今天字节跳动推出的这个叫Trae，它到底有什么不一样？首先呢，要跟大家讲，这一块没有什么特别大的门槛。VsCodes它就是底层，大家都是在这个开源的底层基础上去改的。甭管是今天我们讲的Trae，还是前面讲的Cursor，还有Windsurf，都是在这个基础上进行修改。

他们使用的大模型呢，基本上也都不是自己的，就是Claude 3.5、Sonnet或者是GPT-4O，都是用这样的底层模型来干活的。他们真正在里边做的什么，就是一大堆的提示工程。Trae呢，它可以进行自动的项目完成，你只要告诉他说我要做什么什么事，后边就是确认确认确认就完事了，他就可以给你把整个项目写完。这块呢，做的还可以，跟Cursor、跟Windsurf基本上是可以达成一致的。

至于说生成项目的质量怎么样的话，这个我觉得可能并没有那么容易去评判，因为底层都是Claude 3.5和GPT-4O，最终形成的项目的质量或者有多少个bug或者什么，这些东西的话，有的时候看的不是这些IDE自己的能力，而是看大模型的能力，所以你去评判它意义也不是特别大。

那你说Trae跟其他的Cursor、跟Windsurf比起来到底有多大差异呢？最大的只有一个，免费。至少现在是免费，号称叫限时免费。未来是不是会继续免费呢？看用的人多少，用的人少的话，可能就开始收费了；用的人多可能会继续免费。很多人说不对。

你这个说反了吧，是不是应该用的人少接着免费，用的人多了就该收费了呢？因为用的人多，你需要消耗很多的Claude 3.5 Sonnet的TOKEN，这个东西是要收费的呀。大家想反了，为什么呢？一旦用的人多，说明什么？说明字节跳动抓住用户了，这是一个未来的方向。那么他一定会说：“我继续免费，让大家接着我，慢慢地向我整个的平台去转移。”这才是字节跳动想要的。如果用的人少的话，发现这个产品姥姥不疼舅舅不爱的，算了，收费吧，以后没有拨款倾斜了，不能再去继续赔钱了，他会变成这样。

所以他跟很多这种美国项目是不一样的。美国像Cursor也好，Windsurf也好，都是要收费的，为什么？因为公司很小，就算他融了资了，他也不敢说：“我拿融资的钱去给大家补贴这个TOKEN。”但是字节跳动是谁？像什么豆包这些大模型都是免费的，随便去使用。跟这些国内收费的文心一言，这些模型比起来，那这肯定是打的他满地找牙，用户就直接就回来了。

所以呢，越是用的多的，越说明这个产品可能会成为未来的方向，字节跳动就越会愿意花钱给大家发补贴。现在这个Trae到底怎么样了，未来还有哪些欠缺的地方可以去添加呢？第一个呢是更多的模型可以加入，现在只是GPT4O和Claude 3.5，未来的话还可以加上，比如说DeepSeek，DeepSeek R1，包括千问Codes这些模型，其实都可以加进去。因为国内你是没法使用Claude 3.5，也不能使用GPT4O的。但是呢，你每次换模型了以后，你要重新调这个提示词这块的话，他们可能还需要一些时间跟这些国内比较强的模型去进行匹配。

DeepSeek R1的话，应该是昨天发布的，是DeepSeek做的这种推理模型，那个编程效果杠杠的，很多指标都已经超过了Claude 3.5 Sonnet，而且特别便宜，它的价格是Claude 3.5 Sonnet。

可能1/10或者1/20这样的一个水平，非常非常便宜。那么未来应该是会续加的。而且现在的Trae只支持MacOS操作系统，不支持Windows。也许再过个一两个月会去支持，这个其实也很简单，因为Windows本身的操作系统比较乱，里头各种的环境都比较混乱。特别是现在的各种编程的这种底层的环境，都是在MacOS或者Linux上跑的。你让它去在Windows上跑的话，都会比较费劲。所以目前为止只支持MacOS。你说我是个Windows电脑，稍微再耐心等一等。

从功能角度上讲，现在其实还欠缺几块。现在呢，还不能切图。什么叫切图呢？比如说我用Midjourney画一个设计图给他，说“你给我照这样做出一个网站来”。他呢，现在只能去理解一下这个图的风格，然后我照这个风格给你把这个网站做出来。他并不能把你这个一个完整的设计图切成一小块，这个是一个图标，那是一个按钮，不能给你切出来。你按道理说呢，应该是切好了以后再去应用到网页的不同位置上去。这个实际上就是设计师跟程序员之间配合的一个过程。设计师先把这整个的界面设计出来，然后呢，再把每一小块图标、按钮或者是里边的各种图片都给你切下来，让你去使用。他是这样去工作的。

现在这块还没做。这块呢，我觉得以字节跳动自己在这个AI生成图片这块的这些努力的话，他们去做这一块应该是有机会的，只是现在还需要再去等。而且未来的话，有可能会加上这种自动切图。就是给你一幅图以后，自动去在里边把需要的元素切出来，以及呢，自动的图片生成。假设你有一个生成好的界面的样例了，那么说“OK，我按照这个风格去给大家做”。做完了以后说：“我这里还需要个按钮，那里还需要个图标，哪个地方还需要一个背景图。”你有一个基本的风格之后，他完完全全可以自动再去生成一些图片，把后边的一些东西补上。因为字节跳动自己也有文生图的大模型，那就直接用呗。而且现在字节跳动的文生图大模型。

你在豆包里是可以直接免费用的。那它如果可以把这些功能加上去，让字节的这个AI编程助手，或者叫AI IDE，被大家广泛接受和使用的话，未来这一部分应该都是可能进入的。而且字节跳动家里是什么都有，他不光是可以生成图片，还可以生成视频，还可以去做很多的图片编辑、视频剪辑，以及还可以生成声音。未来字节跳动的这个IDE里边，就有可能把这些东西慢慢都加进去。

那么好了，再往下咱们讲一下这个Trae到底有什么用。第一个，你如果一点编程都不会，这个事情跟你没关系。如果你稍微会了一点点编程，未来很多人就都可以使用Trae这样的AI集成开发环境去编写一些小的应用程序。为什么我要这里专门强调这个小的应用程序呢？新手程序员去写一个完整的应用，这个是非常非常难的。但是你说我去写一个小应用，这个应用只给我自己用，这块呢，难度一下就降低非常多了。为什么在这里强调第一小，第二只给自己用呢？小了，你需要考虑的问题就比较少；第二，只给自己用的话，你就没有什么兼容性的问题。你比如说我这程序跑得好好的，换你机上跑不了了。对于程序员来说，我们经常解决这上的问题。但你说我就写一个程序，自己跑一跑能使就完事了，这个呢，很多的新手程序员都可以去搞定的。

那么这件事情到底有什么意义呢？我为什么需要一个很小的程序，只给我自己用的程序呢？大家有没有听过一个词叫最后一公里？光纤的最后一公里，把这光纤拉到这个小区里了，但是最后挨家挨户去装的，这个叫最后一公里。还有很多人叫快递的最后一公里，比如说我们的快递柜，或者说我们已经把这个快递送到最后的一个集中站点了，再由快递员一家一家的给我们送上门来，这也叫最后一公里。即时零售和外卖的最后一公里，甭管是他有前置仓，或者外卖的小饭馆，最后由这些外卖员把这些东西给我们送到家里边来，这个叫最后一公里。

那你说这件事情跟我们有什么关系呢？有，现在有这么多的大模型。

还有很多的叫AI agent的工具，比如Codess也是字节跳动自己家的，或者是Defi这样的工具出来以后，但总是觉得好像跟我们最终的使用场景稍微差那么一点点。这个时候，就需要“最后一公里”。我们怎么把最后差的这一点点补上呢？而这一点点，对于Codes、Defi等平台来说，他们去补是很麻烦的，包括像GPT或者Claude这些大的模型公司，让他们去补这个东西也是非常烦的。

那怎么办呢？干脆你们每一个人回去自己去写最后这一公里吧。每一个人只要接受一点点的编程教育，大概知道程序是怎么回事，就可以使用这种AI集中开发环境去把这个最后一公里补上。我就可以把Codes里的很多AI agent运用到我们的生活当中去。这个其实才是字节跳动的巨大野心，他们要继续推动豆包、豆包的大模型、豆包自己的应用以及Codes，他们的AI IDE平台向前走。

如果他们可以通过Trae这样的AI集成开发环境，让所有用户把这个最后一公里弥补上，Codes就可以在所有的AI agent平台竞赛中胜出了。大家要注意，字节跳动虽然豆包的大模型现在不是那么被人看好，在各种比赛和使用体验上，豆包的大模型还是稍微差一些的。但是，Codes现在在各种AI agent的竞赛里面已经是比较名列前茅了。

豆包的APP聊天应用在国内绝对是异军突起，遥遥领先的一个位置。另外，还要注意一点，全世界买CPU最多的公司，除了微软、梅塔、XAI之外，就是字节跳动了。他手里有大量的显卡，字节在AI这一块的野心一直都是非常大的。那么，他们推出的这个Trae应该也是为了补全他们野心中的一个缺口。如果这个缺口补上去了，能够一直免费下去，后边就没有cursor和Windsurf什么事情了，可能未来就只能往这个方向走了。而且，就算是GPT也是要付钱的。

微软给的 GitHub Copilot 也是要一个月 10 美金，要付钱的。再怎么着，你也没有这个纯免费的香。在这一块，字节跳动应该有可能在未来 AI 战争中拔得头筹。

再往后呢，我们去做一个 Demo，让大家看一看这个东西到底能干什么。下面呢，我们来做一下演示。第一件事呢，是要去下载网址，就是这里 Trae.AI。如果你是 MacOS 电脑，就可以去下载了。下面我们去看一下 Trae 到底长什么样子。

大家注意，这里是有一个聊天，有一个 build 构建。build 现在还是 Beta，也就是说如果 build 出什么问题了，别怪我。正常的聊天的话，就跟我们使用普通的这种 AI 编程工具是一样的。你跟他聊天，说我有这样的问题，有那样的问题，他会一点一点的帮你去调整。但如果使用 build 就全自动了。

上面还给你两个案例，一个是生成贪吃蛇游戏，一个是生成 to do list 的应用。大家看到那种 9 岁小女孩快速完成一个应用的这种事情呢，基本上都是点击，他们这种案例是可以出来的。你稍微改一点，他就出不来了。

所以今天呢，咱们稍微难为他一下。咱们先去打开一个文件夹，创建个新的吧。咱们找个他不太熟悉的东西去玩一下。现在给大家演示呢，很多人都是玩什么 note GS 或者是这种 next GS，使用这样的这种纯前端的项目给大家去做演示。今天呢，咱们去稍微的给大家演示一个它没那么熟的跨端应用。

Flutter 应用就是可以在 MacOS、Windows、iOS 和安卓上，以及 Web 上运行的一个应用。不这么复杂，今天我们就只展示这个 MacOS 和 Web 的应用吧。第一件事先整给他张图片，是一张咖啡手绘风格的一个博客的图片，这个图片是 Midjourney 画的。

好，现在我来写提示词了，请按照设计稿，在当前目录做一个 Flutter 应用，可以在 Web 和 MacOS 平台上使用。回车，干活去了。上来大家看到吗？

叫AI思考中。首先告诉我们，我会帮你创造一个Flutter的博客应用。从设计稿来看，我采用了温暖的咖啡色调作为主色调，创建一个优雅的博客界面。然后说说我要执行这句话了，你要点执行点运行。你看，这边开始干活了。这呢也告诉你说，我已经创建好了这些基础的文件。

然后他后边又思考中了，说我要再去修改文件了，说我要去修改mean.Dart和mean.dot文件，然后要去改下边这个文件。首先现在先把这个文件先拿出来读了读，读完了以后进去改去了。这边还在转呢，就是我们要耐心等着他慢慢转去。转完了以后他会告诉我说，我要加点什么减点什么。说我现在要改这文件了，你说我们全部接受，就给你都写进去了。他实际上改什么？改颜色去了。他要按照这个咖啡师的这个方式去改颜色。说做完这个，我们就可以执行一下了。

那执行吧，他要再思考一下。这执行起来了，这个颜色有了，但是呢，你看里头所有图都没了。刚才我们也讲了，他缺一些什么呢？缺这个切图的功能。如果你没有切图的功能的话，这个出来就会变成这样。好，你看他上面写了说，请检查一下Flutter Web应用是否已经成功运行了，以便我们可以预览博客的界面。

看，已经成功完成了Flutter博客应用的基本实现，创建了支持Web和Mac OS平台的Flutter项目，实现了主页面的布局，包含了博客列表展示，设计了温暖的棕色调主题。因为我给了这张咖啡的相关的图片嘛，待会我们来看一下这图片长什么样。然后呢，添加了搜索和这个新建博客的入口按钮，实现了响应式的卡片博客布局。每个博客卡片包含了标题、预览内容和发布时间，成功启动了Web版本的预览和测试。

他做了这样的一个东西出来，让我们来看看这东西长什么样。你们应该还没有看到运行的一个结果，这个东西长成这样了。告诉我们说，我这是有博客的主题，博客的预览的信息，一个发布的时间，做了这样的一个东西，还有一个添加文章的一个按钮。

但是，他后边并没有去实现这个按钮。搞定了，那你说这种东西我要他干嘛使呢？那么丑陋，对吧？来吧，咱们干一个有趣的事情吧。我们来加一个调AI agent的API吧。来，先把这个应用的停止共享，关掉，重新共享脐橙开发环境。在这里添加一个页面，可以和AI agent聊天，要聊天界面。AI agent上哪去询问呢？我们用Defi吧。这是一个什么样的Defi功能呢？就是每次我给他一句话，他就给我写一个Midjourney的提示词出来。它实际上是用的DeepSeek V3的大模型来实现的相关功能。下一步怎么办呢？来，发布访问API。我们要使用它的API，我就把这些东西贴到Trae里面了。现在就不给大家看那边了，因为这个切来切去的太麻烦。

再往下一件事呢，是需要key。我怎么调用这个API？来，我们也告诉他API。好，看一下，我现在写了一个很长的提示词，说我要添加一个页面，可以和AI agent聊天，要聊天的界面。API的输入格式是这样的，这个是刚才我们从Defi里面去抄的，输出格式长这样，具体就不跟大家仔细看了。API key是这样，然后再写一个将输入改成阻断模式。好，回车，他干活去了。跟大家讲这个，什么叫阻断模式？就是我们经常看到，甭管是ChatGPT或者其他AI agent聊天的时候，那个字是一个一个蹦出来的，它叫流模式。如果是说我打完回车之后，一次性把所有的结果都出来，叫阻断模式。我们就不去处理流模式，稍微麻烦一点点。

好了，首先呢，他说我们要去增加一个按钮，接受。有了这个按钮以后，点击这个按钮就可以到新的页面里去了。他现在去创建新的，叫做chat page，那就是一个聊天的页面了。大家看嘛，这儿还有错呢，这个地方是有错的。为什么呢？因为那个chat page还没有创建出来，这块呢要稍微的等它一小会儿，全部接受，等于又给你做了一个200多页的文件出来。

这里也还有一些错误。这个错误是什么呢？AI修复一下。我估计应该是没有引用对这个东西。接受，应该在这个里边添加这个。这就属于比较笨了，所以大家看到了吗？这东西还没有那么聪明，就是需要改一些其他文件的时候，有时候没改对。所谓这个pop space.YAML，这个文件是干嘛使的呢？看他哈，还是没有自己把它加进去哈，那我们来手动添加吧，手动添加，添到这里吧。

Dio，这就是我们需要哪些库，就是干这个的。这还有个错误，AI修复。我现在就把自己当成完全不会写程序的人选，当然会稍微会一点点。如果完全不会的话，你们会看到说这个还是有一点难度的。修复接受，这是什么错误？缺了一个引用，就是我们做了一个新的文件，他忘了引用了。那么这块你说一点都不会咋弄，还是会有一点难度的。

OK，这个程序我们就可以去跑了。给大家看一下它运行起来以后的结果。这一次呢，我们并没有用Web的方式启动，它现在是一个Mac OS上的APP的一个应用。看，这里这个debug后面有一个按钮，这个就进入到我们的聊天的界面里来了。抱歉，发生了一些错误，请稍后重试。我们要来看一下发生了一些什么样的错误，经常还是会有错误的嘛。

还有呢，这个debug很丑陋，我们要看看怎么把它消掉。让我们回到开发环境里面去。首先我们要求删除主界面上debug的标签，还要思考一下，他想清楚了，要加哪句话。然后呢，说我现在要去修改程序了，全部接受，搞定。然后呢，我们再告诉他说AI聊天的时候报错误了，但是没有看到错误信息，将错误信息放在页面底部显示展示。他只告诉我们一个有错，这事你让我怎么去改这个东西嘛。

其实我们还可以去debug，这个事是可以的，但是我们用一些更简单的方式来去处理它。他要在这个文件里边去调整，全部接受，执行。首先看我们这里刚才有一个debug的，这个标签就没了，刚才我们做的第一项修改。然后进来，这个是什么意思呢？

实际上是他拒绝了为我们去连接。这个也是一个很常见的错误。什么意思呢？就是我们这是一个Mac OS应用。在做这个应用的时候，需要向本地的操作系统申请权限。我们没有申请去联网这个权限，所以他就给我们拒绝了。

我们先用一些简单的方式来测试吧。我们先不让他通过MacOS的方式来启动，这个需要去修改很多东西。当然，你具体也可以在项目里边去修改。你就是直接要求说：“我这现在缺一个权限，请给我加上。”这个事是可以的。

下面，我们用这个Chrome的方式来去执行Web的方式，它就没有这种问题了，它就可以直接去跑了。好，让我们开了一个页面，展示咖啡。好，你看，它给我们写好了提示词回来了：“午后，阳光洒在咖啡桌上，桌上有咖啡、糕点和一本书。”我们已经成功地自己写了一个程序，然后自己跑到我们的defi的服务器上去调用了。这个程序是大家眼巴瞅着我写的吧？一个舒适的咖啡桌，温暖的下午的阳光，有一杯咖啡，一个糕点，打开的书，阳光的角度，直接给你去写去了。就拿它去画MidJourney，不是效果很好吗？就可以得到我们想要的东西了。

但是你说，我们现在还想再看一眼，在Mac OS上怎么把刚才咱们这bug解决掉？好吧，咱们稍微再花一点点的时间来去解决这个问题。首先，我们要在Mac OS上去执行，然后告诉他说：“现在操作系统禁止我的MacOS应用访问HTTPS的网址，请帮我打开权限并刷新执行环境。”回车他就去干活去了，又开始AI思考中。呀，好喜欢这几个字。他告诉我会帮你配置MacOS应用的这个网络访问权限，需要在这个里面添加权限声明。他告诉你这个文件是在什么什么地方，说我们需要在这个文件里头去配置。那么接受再release一个东西出去，再接受执行。它要Flutter clean，如果不clean的话，他是有问题的。Flutter clean完了以后，怎么给了我一堆错误？执行，他去执行去了，看看这次对不对。

执行起来了。好，我们的MacOS应用在这里呢。点咖啡，看着有点像哦。出来了！我们在AI的帮助下，又把这个错误修复掉了。

但是你们有没有发现，如果你没有任何的编程经验的话，出了错误你是不知道该怎么办呢？但是像我这种稍微有一点点编程经验的业余程序员，就可以拿这种程序去进行调整了。而且这个程序，因为我是用Flutter写的嘛，我可以在Mac OS上运行，也可以在iOS和安卓上运行。以后我就可以把自己的一些AI agent，包括本地知识库，建立在网站上去。然后呢，自己写一个程序，在手机上就可以随时调用了。

这个就可以去展示什么叫“最后一公里”。否则的话，甭管是Defi也好，还是直接跳动自己做的Codes也好，都没有那么方便，最后一公里没有那么完善。现在所做的这些AI IDE或者AI集成工具，实际上就是帮助大家去补齐最后一公里的。

今天讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣有能力的朋友加入我们的付费频道。再见！

xAI拿下60亿美金融资PK OpenAI，Elon Musk的AI帝国能否改变游戏规则？

Luke Fan — Fri, 27 Dec 2024 00:45:21 +0000

埃隆·马斯克的 xAI 拿了 60 亿美金的投资，估值达到 500 亿美金，准备去追赶 OpenAI 了。他还追得上吗？

大家好，欢迎收听老范讲故事的 YouTube 频道。咱们今天来讲一讲 xAI 拿了 60 亿美金投资，追赶 OpenAI 的故事。这一轮的投资里面，英伟达、AMD 都在，还有一些上一轮的投资者。

大家注意，不是说谁想投资他谁就可以的，只有上一轮的投资者，才有资格去投资 xAI。还有哪些人呢？就是协助埃隆·马斯克去收购 Twitter 的这些人，他们是有资格去投资 xAI 的。但是有限制，协助埃隆·马斯克收购 Twitter 的这些人呢，占股不超过 25%。其他的说我是上一轮投资人，他是可以无限制地在里面去进行投资的。你说我这两个都没沾边，那对不起，这个事跟你没关系。

拿到这笔钱之后，现在 xAI 已经是行业老二了。现在整个行业里边最大的大佬是 OpenAI，估值 1,570 亿美金，500 亿美金的 xAI 是第二名，400 亿美金的 Anthropic 是第三名。那你说还有谷歌，还有梅塔，还有字节跳动呢？这个不算，因为人家还有很多的其他业务，是一个巨大的巨头，你不能单独的跟这些纯粹的大模型公司去比估值，这事是不划算的。

这个团队现在也就是一百来人，非常非常精简的一个团队。现在呢，说他拿到大量的美金之后，要干嘛呢？去采购 H200，就是上英伟达那去买显卡去，然后准备组建世界上最大规模的 AI 算力集群。年底了，AIGC 正在进行狂欢。前面 OpenAI 连续开了 12 天的发布会，虽然发布的东西让人觉得稍微有点点小失望，但是也为整个行业指明了方向，这个非常非常重要。

待会儿我们来讲，谷歌呢已经跟上了，出了 Gemini 2.0 Flash 以及 Gemini 2.0 Flash thinking，就是思考模型。谷歌呢还推出了 VEO2 和 imagine 3，一个视频模型，一个图像模型。特别是谷歌的视频模型，现在看演示的话……

要比OpenAI的Sora强非常非常多。其他的国内快手推出的可灵，出了1.6版本的模型，效果也是相当不错的。通义千问最近出了两个模型，一个是2.5版本的QWQ，一个是QVQ。这两个模型呢，一个是做推理的，另外一个是做多模态识别的，就是给他一张画以后，他来告诉你画上都画的什么，效果非常非常的好。

这是现在年底了，所有的大模型公司都在狂奔，然后融资，特别是到第四季度以后，大家也都在狂奔。9月份，Anthropic融了40亿美金，估值是400亿美金，主要给钱的是亚马逊。亚马逊估计实在不行，就把它收下来得了。Anthropic年收入是10亿美金，已经开始有收入了，但是距离盈利还非常非常远。现在所有大模型公司距离盈利都很远。

下面10月份，OpenAI融了66亿美金，估值1,570亿美金，年收入40亿美金。到12月份，xAI融了60亿美金，估值500亿美金。然后国内呢，大家也在折腾，智谱AI融了30亿人民币，街月星辰在上海，这个公司融了数亿美金。一般讲数亿美金的话，就一定是多于1亿美金，你比如叫1.1亿美金，他也敢叫数亿美金。面壁智能融了数亿人民币。这就是现在年底了，大家都在拼命的融钱。

那么xAI到底做成什么样了？首先，Grok 1基本上没什么响度，就说我做出来了，然后号称开源，开源完了丢上去，实际上也没有人去用这个东西，因为这个模型实在太大了，一般人也部署不起。就算你把它部署上来以后，它的各种性能什么的，其实跟现在其他的一些像LLama这种开源模型是完全没法比的，所以Grok 1是没有任何想用的。

Grok 2呢，在x平台上其实我已经用了很久了。现在呢是免费开放，原来你必须是x的付费用户，他才让你用，现在的话不用付费也可以去使用了。Grok 2呢是我在x平台上的主流搜索引擎。如果我想搜点什么事，我不会到x平台上面这个搜索框去搜的，我都会点一下Grok，来告诉我这个是怎么回事。

那个是怎么回事？效果呢算差强人意。为什么呢？就是他生成的内容其实还可以，但是他的输入内容的质量会差一些。为什么呢？你比如说我现在使用谷歌的这种带有搜索的AI引擎，或者是使用豆包，就是字节跳动的，或者使用OpenAI的GPT Search这样的引擎的话，它等于先去搜索，搜索完了以后呢，再根据搜索结果来给你生成相应的这个答案。但是呢，Grok 2的话，它只能够在Twitter里边搜索。

那Twitter里边搜索的话，就会遇到几个问题。第一个呢，就是Twitter的文章都很短，所以呢，它不会有那种特别长篇大论的东西。虽然现在Twitter允许我们发长篇，但反正我每次发推的时候，都尽可能地把它精简到不要折叠的这么一个位置上。否则的话，我总觉得后面的内容对于流量的获取或者对于信息的传递是没有帮助的。所以Twitter上大量的这种短信，搜索完了以后再去发出来的话，效果就没有那么好。

还有一个呢，Twitter上的信息时效性太强，你想去搜索一些以前的事情，其实经常效果不好。这就是我使用Grok的一个感受。那Grok另外一个感受是什么呢？就是比较敢说。你甭管是用Gemini、用Claude还是用ChatGPT，相对来说都比较文雅，说话这个前怕狼后怕虎那么个样子。但Grok的话就相对来说要虎一些，反正我是比较喜欢这种说话的语气语调了，这个不一定每个人都会喜欢。

现在呢，Grok已经开放了API，这个我也申请了。目前为止呢，不能算免费吧，但是它是这样，申请了以后给你25美金，每个新账号有25美金。你把这25美金使完了之前，他不会再找你要钱了。效果呢跟GBT4O比起来，还是稍微有一点点小差异，跟这个Claude 3.5、Sonnet呀、Gemini 2.0、Flash比起来，这个是有差异的，但应该已经可以去用了。你说跟国内豆包、千问，跟这些模型比起来。

基本上是不会有特别大的这个差异，但是呢，它的API里头也有一些缺陷。第一个缺陷是没有语音，包括Grok 2的这个聊天工具，也是没有语音的，必须是打字。因为现在其他的，甭管是Gemini还是ChatGPT，包括我们使用豆包，都是可以进行语音沟通了，他这还没做。

还有呢，就是没有推理。因为现在OpenAI在疯狂地带着大家往推理这条路上走，他没有好好去干这个事情。然后图片生成模型应该叫Arura吧，这个词的意思叫曙光女神。效果呢，还可以，可以接受，但是艺术水平呢，应该是没有MidJourney好。

这个曙光女神的图像模型呢，最大的好处就是百无禁忌。他倒也不至于说跟大家生成很多这个血腥暴力色情，但是你说你给我按照谁的风格生成内容，或者给我生成马斯克的头像，给我生成川普的头像，给我生成任何这种名人头像，这个他是不管你的，七差咔嚓就给你画出来了。

我现在Arura用的还是蛮多的，最主要的用法是什么呢？我用MidJourney去画背景，用Arura去画人物，然后呢，再用一些像Canva之类的这种工具进行抠图和拼接，就可以得到非常非常棒的效果，这个大家可以用起来。现在应该对免费用户也开放了，就是你要到Twitter上，或者是到x平台上，你是可以去拿它画图的，效果很好。

然后视频模型没做，coder模型也就是编码模型和i Embedding模型也没做，就是这种嵌入模型它也没做，没有提供微调RAG，索引增强生成的这个RAG，它都没有提供相应的支持，就相对来说还比较简陋。

然后x自己的API你是没法去调用的，因为刚才我们讲的是xAI的API。你说我希望它能够达到x平台里边Grok的直接的效果行不行，这事是不行的，因为那个里头是有x的数据的。想要用x的数据配合到xAI上Grok的API，想达到同样的效果的话，那个是非常非常昂贵的。

iOS的应用呢，目前据说正在测试，其实我并不认为马斯克。

应该去做一个单独的应用出来，因为你只要做了应用出来，就需要获取流量，这个事还是比较麻烦的。Grok 3 目前正在训练，这就是 Grook 当前的一个状态。然后呢，xAI 还是有收入的，挣了 1 亿美金，但是呢，这 1 亿美金应该是特斯拉给的。现在特斯拉的股东们正在为这个事起诉马斯克。为什么呢？特斯拉的股东们认为马斯克损害了他们的利益。你组建了 xAI，这个事情本身跟特斯拉的 FSD 的部门就是有利益冲突的。然后你还把原来应该属于 FSD 的显卡拨到了这个 xAI。当然是后来他们辟谣了，说我们并没有干这个事情，只是呢，xAI 是优先得到了这些显卡。然后这个该属于特斯拉的显卡呢，后面还是拿到了，并没有让特斯拉花钱买显卡，然后给 xAI 用，这个事情至少从账面上的做平了吧。

时间上呢，应该有一个时间差。马斯克还把很多的原来特斯拉的员工迁移到了 xAI 里边去。你原来在特斯拉这边做人工智能的，现在你到 xAI 那边去做，特斯拉的股东就不乐意了。然后你还让特斯拉向 xAI 去采购了 1 亿美金的这个研发服务，这个就有点过分了。等于你拿了我的显卡，拿了我的人，自己投筹了一公司，跟我还没关系，还得找我要钱。这个呢，有点让我们想起了陆正耀当年在瑞幸咖啡上干的这个活。他这头做了神州租车这样的公司，那头做了瑞幸咖啡，然后让神州租车向瑞幸咖啡买了大量的咖啡券，给瑞幸咖啡去充这个销售额。最后上市了以后，直接被揪出来，说你这个算关联交易，算做假账，七差咔嚓就给做退市了。现在这个官司还在打，还没有结果。

咱们来讲下一个问题，xAI 现在去追赶 OpenAI 还来得及吗？还能不能追上，有没有机会呢？首先咱们来看模型训练这一块。在这一块上呢，OpenAI 已经指明了方向。那么剩下的人呢，梅塔、谷歌、Anthropic 也都把这个雷趟过了，都试了一遍，而且证明了说这条路是走得通的。那么下一件事该干嘛？大力出奇迹嘛，至少在追平 GPT-4O 之前。

马斯克和他的xAI应该是不会有任何问题，因为方向已经确认了，别人都试好了。这个东西其实有点像什么呢？有点像新中国去发两弹一星似的，美国人都试好了，这个东西没有任何问题。我们不用再去担心说条路能不能走得通这个事，我们只需要照着原来已经试通的这条路，冲过去就完了。

在这个过程中，只要是大干快上，招更多的人。那你说很多的技术壁垒怎么判呢？咱们当时处理的方式，就是把这个华人华裔科学家从美国忽悠回来，来加入我们的团队，来去干活吧。然后对于马斯克来说也很简单，挖人呗，挖OpenAI的人呗。这个事总共圈子就没多大，而且OpenAI原来很多人就是他挖进去的，那现在再把他挖出来几个，这个并没有那么困难。

那么下一件事是什么呢？下一件事叫客户获取。你把东西做出来，还得有人用。在这件事情上，xAI是有天然优势的，因为后边有一个x平台，它有一个天然的流量池。x平台的月活用户数有多少呢？6.11亿，就是超过6亿吧。这些用户都是Grok或者叫xAI平台的天然用户，在用户获取上没有什么大问题。

至于收入获取上呢，SpaceX、特斯拉以及x平台都会给他花钱。花钱这里头只有特斯拉是上市公司，有可能会被起诉；SpaceX是不上市的公司，x平台呢更是马斯克一人说了算的。你把一部分的利润挪到这个xAI上来，应该是不会有人说三道四的。

至于应用开发这件事，马斯克现在在做iOS平台上的xAI的应用，这件事应该不是马斯克擅长的。其实谷歌也不擅长这个事，因为Gemini的应用做得简直像屎一样。OpenAI跟Anthropic在努力，做的好坏大家自己去评价，我感觉反而将就能使，但效果也没有那么好，这个主要是因为挂梯子的原因。挂了梯子以后，使用他们的APP的效果就会有问题。

现在谁做得最好呢？实际上是豆包和CC，国外叫CC，国内叫豆包。它目前为止用户量紧跟着OpenAI的，就是现在所有的。

这个AI应用里边儿，用户量最高的肯定是OpenAI，然后第二名就是豆包和CC，第三名的话可能是剪映。再往后应该是一个AI教育的，也是字节跳动出的这个产品。这个就没法整了。

按流量算前十名的AI应用的话，字节跳动大概占两三款，或者三四款的一个样子，而这个是非常吓人的。所以，做应用、做APP这一块，字节跳动是最强的。

现在xAI真正差在哪呢？它差在场景拓展。你可以进行文字聊天，可以进行图像生成了，但其实也可以进行图像识别了，因为Grok有一个杠v的这个模型，我们可以通过API直接去调用，效果我试了一下还可以。就这些事呢，他已经都做好了，但是其他的，甭管是RAG嵌入，还是说做推理、做视频生成，做一些更复杂的这种应用的话，现在这一块还缺乏场景。这个xAI还要往前冲，但这一块呢，就是耗人数，并没有那么大的技术难度，因为真正难的还是把模型往上推，这块是要更难一些。

那咱们稍微比较一下字节跳动跟xAI吧。第一个方向都确定了，因为OpenAI跑最前面嘛，连续12天发布会，给大家指明了方向。那么字节和xAI咱一块追就完了，这个不用再去探索了，也不用再去验证了，大家都去玩这个，大力出奇迹就行了。

在这一点里头呢，xAI的人少，但是呢，要更精一些，有很多顶级科学家在里面。说花钱这件事，肯定马斯克是最有钱的，因为他是世界首富嘛，但是呢，他真正能够直接动用的现金应该没有那么多。就是他想去花钱的时候，也要去融资，也要去找一些朋友们募一些钱回来。

字节跳动呢，就是手里头就有大量的现金，买显卡他们都是很努力的在买。甭管是xAI还是字节跳动，把全世界买到显卡的这些公司里边，第一名一定是微软，第二名就是字节跳动，第三名是腾讯，第四名是Meta，再往后才能是xAI。就是马斯克在这一点上，还是要稍微往后退一退的。

然后，甭管是xAI还是字节跳动，都有一个很棒的特性，自带流量和数据。

就是你想字节跳动有多少流量和数据，x平台有多少流量和数据，这块都是他们的优势。其他的呢，各自的长处。xAI是非常擅长融资，马斯克的名头在这，顶尖科学家的资源是xAI的优势。而字节跳动的话，第一个也还是比较有钱的。字节跳动其实有一点是比xAI强的，是它的场景要比xAI丰富。

像xAI实际上只有一个x平台在前面，是它的用户和它的数据。但是字节跳动的话，有今日头条，国外其实也有这种头条类的产品在运营，还有抖音和TikTok，然后还有很多的商业相关的东西，还有这个飞书，在国外叫Lark，就是办公场景，它也是很完整的。而对于像xAI来说的话，后边这些场景它是不存在的。就算你能把功能做出来，我希望找到相应的用户，然后把这个场景拓展过去，这个还是有些难度的。在这点上，字节跳动是具有相对比较大的优势的。

而且字节跳动在整个的商业化上，也要比x要强很多。大家注意x平台，我们这里讲的是原来Twitter，Twitter只有广告，然后有一些订阅，其他的呢，现在还没有尝试出来。而字节跳动里头，电商、直播、什么游戏，所有的这些东西都在里头跑着，而且跑的都很高。所以在整个的商业场景上，字节跳动要更丰富一些。

然后字节跳动还有一个优势，什么就是APP的开发和运营的能力，天下无双，全世界没有人跟他比好。这就是跟大家稍微比较一下，这两家在AI领域里头正在奋起直追的公司的一个情况。

好，最后总结一下，现在呢，肯定是更多的人参与追赶，这是一个好事。如果现在说都没人追了，剩下OpenAI一骑绝尘，所有人都看不到他跑哪去了，这个事就很麻烦。因为一旦出现这种情况，跑在最前面那公司会干嘛？会躺平，会挤牙膏。Intel前面给咱们演示过了，苹果也得给咱们演示。这件事情就是一旦遥遥领先了以后，他就躺平挤牙膏了。现在遥遥领先了以后，依然在疯狂的奔跑的只有一个公司，叫英伟达。他现在已经完完全全的把其他人都甩掉了。

但是还是在拼命地，不停地出这个新的显卡。像他这么拼命的人，全世界大概也只有他了。希望马斯克可以为AIGC领域贡献一些不一样的东西出来吧。

而马斯克真正贡献出来的AI工具，我对于他的这个能力本身其实并没有那么大的预期。你说马斯克一下推出了Grok 3，比这个GPT-4O或者比这个Gemini强多少，这个事儿我是不没有任何的预期的。但是，有一个什么事儿可以预期呢？就是在审核和对齐这方面。

因为Grok是以“什么都敢说嘴，还特别猛”而出名的，他们的曙光女神的图像生成器是以“百无禁忌”出名的。所以，这是对于AI内容审核、内容合规、内容对齐的一个不同方向的测试。因此，一定要让XI继续跑下去。否则的话，我们就会看到一堆温文尔雅的先生，在那里越来越说得不像人话。

有X AI在里边综合一下的话，也许整个AI平台说的更多东西还是会更像人话一点点。好，这一期就跟大家讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群；也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

百度为什么不做Sora？探索百度的独特AI发展路径与未来方向，背后原因是吃不到葡萄说葡萄酸吗？

老范讲故事 — Tue, 19 Nov 2024 00:52:17 +0000

百度为什么不做Sora？是不是吃不到葡萄就说葡萄是酸的呢？大家好，这里是老范讲故事的YouTube频道。

11月12号，百度世界大会上就透露出来说，百度从来就没有想去过做Sora这样的世界模型，或者叫视频模型，从来没想过。百度呢，是一直希望走自己的多模态道路，不希望去跟OpenAI这样的公司卷入世界模型的竞争。虽然到现在为止，Sora也没出来，但是跟在后面跑的人还是很多的，特别是抖音、快手，都推出了各自的视频模型，还有很多国际上的厂商也在视频模型上争先恐后地往前跑。

但百度说，我不干这个事，我有更重要的事情在做。这是百度李彦宏亲口说的。那么，百度努力的方向到底是什么呢？百度努力的方向是消除幻觉。大模型都是有幻觉的，百度呢说，我们作为一个中国公司，你可以不说话，但是说错了是很麻烦的，所以我们不能产生幻觉，保证我们说的都是对的。而且这个是在各种角度上，所有的评判标准来看，都得是对的，不能有任何问题。因为有的时候，你说的你觉得对了，但别人觉得不开心，这也是不行的。

所以百度呢，作为一个有中国特色的AI领军公司，他们向着消除幻觉的方向前进了。他们准备怎么去消除呢？他们这一次在11月12号的百度世界大会上，推出了一个很有趣的东西，叫IRAG。大家要知道，RAG是我们在做AI agent，或者叫AI智能体里头，用得比较多的一个技术，叫搜索增强生成。就是我们先搜索，搜索完了以后，根据搜索的内容再去生成，这样的话，能够保证生成出来的东西没有什么幻觉，是在你给定的范围内去生成的。它倒不一定说保证生成出来的东西是对的，但呢，它保证说你给我的是什么，我生成出来的就是什么。

那么，IRAG是一个什么样的东西呢？这个前面这个I到底是做了一个什么样的单词放进去了呢？I这个词呢，是图像（image），以图像为基准的RAG。什么叫以图像为基准的RAG呢？就是正常情况下，咱们RAG都是做的文本或者是表格。

搜索完了以后，把这些文本和表格通通都做成矢量数据库里面的一个点。然后找到离他比较近的点拿出来，去生成跟问题相关的答案。这是RAG的标准过程。IRAG呢，就是百度说我有好多图片，我把所有这些图片，以及图片识别出来以后的各种信息，直接拿去做嵌入，然后形成史料数据库。在这个里边去搜索，搜索完了以后再去重新生成图片。这意思是什么呢？就是你去训练说这个人叫张三，张三长这个样子，张三坐着，张三站着，张三乐了，张三哭了，张三吃东西了。他把所有这些东西都训练好了，放到一个矢量数据库里边。等你下次要求他去生成图片的时候，说张三穿着什么什么样的衣服，站在哪里，在做一个什么动作，有什么样的表情，有什么样的风格，他就可以从矢量数据库里头把你要的这些信息都找出来。张三长这样，我有了；然后呢，穿什么衣服，我在数量数据库里再去查。查完了以后，哦，衣服长这样我也有了。做什么动作他可以画得很准。他做了这么一个很神奇的技术出来，但是我看到这个介绍以后说：“哎，这玩意好玩哈，我得去试试。”然后我就跑去试了一下。首先我跑到了百度文心一言的网站上，测试一下，发现文心一言3.5版本一如既往的拉胯，依然在那胡说八道，依然在那前言不搭后语，咱就对他没有什么预期了吧。然后闻心欲言4.0依然需要收费，算了不测试了。那么画图吧。画图的过程呢，稍微有些吓人。首先让他画车，你让他画各种型号的车，都非常的准。说我迈巴赫哪个款，在巴黎的凯旋门下，哎呀，那个做的非常的漂亮，一张照片绝对一下乱真。大众这个车呢，除了车牌子上看不太清楚之外，也是非常像的。比较遗憾的是，我要求他画小米苏7，他没画出来，估计是小米苏7他的素材不够多，或者训练这个模型的时候没有用很多的小米苏7的图片，或者说他的IREG的这个矢量库里头没有那么多的小米苏7的图片。每次要求他画小米苏7的时候，他画出来的呢，都是问界M5，这个就没办法了。然后画人吧，要求他画郭德纲。

哎呀，我天呐，简直就是拿照片直接贴上来。你说郭德纲干什么？马上就给你做一个一模一样，绝对以假乱真。但是呢，你要求他画于谦，这个事就没法整了。画出来的也是郭德纲。大家想明白了没有？为什么会这样呢？

说为什么我要求他画于谦，这个IRAG产生的结果是郭德纲呢？因为很简单，你所有在百度图片里头搜索于谦的照片，郭德纲都站旁边了。于谦、郭德纲，郭德纲、于谦，你郭德纲站的照片多一些，那么他就认为说是不是于谦应该也长这样。可是这样的一种运作方式，实际上呢，他向我们展示了用IRAG的这个技术，依然是没有办法避免幻觉的。你要求他画于谦，他画的是郭德纲。

有一张照片，我告诉他说，来，给我画一个郭德纲跟于谦在德云社说相声的照片。画完了以后，就是两个郭德纲，都很像。就是你单独拆出任何一个来，都是以假乱真的。俩郭德纲站在台上说相声了，就变成这样了。要求画其他人，就没有那么像了，比如说郭麒麟、马斯克，这个就不太容易认出来了。其他的我就没有再敢去测试，再测试可能会被警告了。

但是呢，他整个这套的IRAG的系统还是挺吓人的。如果你想让他去给你生成一些广告图片或者是一些假图，就是郭德纲出去做了一些丢人现眼的事情，绝对以假乱真，画的极像，已经是可以达到一定的商业用途了。特别是你，比如说我做一些店铺的装修或者是这种电商的图片生成，这个玩意还是可以的。

除了这个IRAG之外，这一次的百度世界大会上呢，还发布了无代码工具“秒哒”。一秒、两秒的秒，哒呢是一个口一个到达的达。所谓的无代码工具“秒哒”呢，其实类似于字节跳动的codes，对吧？也是让大家把智能体拼起来，然后形成AI agent去干活了。只是呢，秒哒现在呢还不开放使用，依然是让企业去报名排队。据说已经有很多人排队了。这些企业不知道为什么想不开，Codes现在就可以免费使，你干嘛还要去使用秒哒呢？像我这种稍微有点动手能力的人，可以使用Defi。

这个咱们就不说到这么远了。今年，除了前面我们讲的IRAG以及秒哒之外，还发布了什么呢？这个牛肯定还是要吹的嘛。现在吹的牛是什么？就是文心一言大模型，日均调用量15亿。我们已经数涨上来了，去年是5,000万，现在涨了30倍了。这个15亿呢，大家注意，没有单位，15亿次，15亿人，不可能15亿人，中国没有。15一次，这个也稍微有点不太好去评估，怎么算一次呢？那么我们就稍微保守一点评估吧，我们把这个单位写成TOKEN，就是每天可以生成15亿TOKEN。

哎呀，很多人说这个数好大呀，百度文心一言好厉害，这么多人使用它，生成了这么多的内容。但是你要想想，15亿TOKEN按照百度的收费标准，能够挣多少钱呢？百度文心一言4.0 Turbo，按照每千TOKEN的价格乘上15亿的话，一天的收入大概不到10万块钱。那你以为像百度这样的一个公司，这样的一个项目，值得上来去讲吗？如果这就是他的AI未来的话，百度一年挣个3,000万、4,000万这种水平，这个够干嘛的呀？

所以呢，这个数字基本上可以忽略不计，他只是跟大家玩了一个文字游戏，一天15亿，好大好大。你把它乘上钱数，你看看有多少。除了给自己吹牛之外，当然还要指明一下方向，说未来的AI发展是哪个方向呢？两个大方向，一个是智能体，应该也就是刚才我们讲的AI Agent这样的东西；另外一个呢叫产业应用，就是政府有钱或者是大的企业有钱，你们愿意为这个事情买单，你们就是未来方向了。这是李彦宏为AI中国指明的两个方向。

而且呢，保证说百度自己不会去做超级APP，实际上他也没这个本事，所以干脆吃不到葡萄说葡萄是酸的，我不做这个事。然后呢，要去打造上百万个超级APP，也不知道李彦宏怎么想的。超级APP不可能有上百万，到上百万了，以后这东西就不叫超级APP了，你没有那么多用户，叫什么超级APP？但那意思呢，就是降维打击，这个是很多互联网人喜欢讲的一种说法。

你是二维生物，我用三维的方式去干掉你；你是三维生物，我用四维的方式去干掉你。这是《三体》里边的一个词。这个所谓的降维打击是什么呢？就是你们都去卷超级APP去了，我要当你爹。在百度下边做的应用都是超级APP，我比你高一个层次。

当然了，也展示了一些智能体，包括百度自己的文心智能体平台。这个上面呢，号称有15万家企业使用，有80万开发者，但是也没有看到砸出什么响动来。如果产生了超级APP的话，广大的民众应该是能够有感知的。咱们现在没有感知，别说上百万个了，一个都没看到。然后也展示了一些超级智能体，什么法律问答呀，基本上也就是说我们通过百度的文心研做的一些AI Agent，怎么能够解决一点点的实际问题，这个也给大家展示了一下。

另外，时髦还是要赶的，赶什么时髦呢？百度智能眼镜，扎克伯格干成了，我们也得干去。这就是这一次的百度世界大会上发的东西。那咱们回过来说，百度为什么自己不做Sora呢？其实这个里头最本质的原因只有一个，就是百度自己是没有视频平台的。虽然百度有视频，百度有爱奇艺什么这些东西，但是百度自己没有像抖音、快手这样的平台。你像国内现在即梦跟可灵，卷的那叫死，天天俩人卷来卷去的。即梦后边是字节跳动是抖音，可灵后边是快手。生成完了视频，就放在我们的抖音、快手平台上，大家就可以宣传了，就可以直接用上了。百度自己没这东西，所以说那我就不跟你费这劲了。

而百度跟Sora呢，实际上是两条完全不同的路径。Sora是什么路径？Sora的路径是scaling low，大力出奇迹。中间很多东西我们也不去研究了，我们就把料堆齐了，数据堆齐了，算法堆齐了，再加上足够的算力，烧钱等待它涌现。原来的这些传统的方式，我们就不去考虑了，think differently。我们不用再去想说要不要更快的马车，我们直接去造飞机去了，还不是汽车。这就是Sora干的事情，是一帮有理想的人去做的事情。

而且呢，未必有结果。其实到现在为止，Sora都没有任何要做出来的迹象。而百度他们做的事是什么呢？是在现有的技术范畴下，满足现有的需求。这个呢，就属于典型的中国式创新了。要求的是什么？确定性高。我们要卷吗？卷的一定要确定性很高。哪方面要确定呢？第一，技术路线要确定。一帮老学究们，他们来去确定技术路线，不能让年轻人上。年轻人，你们没有经验，万一走错了路怎么办呢？这个你们不要去动。第二个呢，成本要确定。我投入多少钱以后，可以得到一个什么样的结果。成本确定了以后呢，收益也要确定。我做出来的东西得有人用，我得卖得掉，这个事才能去干。就比较现实。这个就是百度走的这条路。百度呢，要求是有市场能赚钱，所以呢，百度算是比传统的中国式创新更加保守一点的一个公司。

那么现在有很多人去讲说，scaling low现在到底行不行？美国有很多大学、很多机构，甚至一些著名的科学家都出来讲，scaling low是不是玩不转了，这种规模法则是不是有问题了？再往前堆，是不是堆不出东西来了？这件事呢，只能这么说，从scaling low诞生的第一天开始，质疑就从来没有停止过。为什么呢？因为scaling low指望的那个东西，就是scaling low成功的最终结果叫涌现。这个词什么意思？就是你不确定他来不来，你不确定哪次行哪次不行，你也不确定说我到底是增加多少。以后有这么一次，因为涌现这个东西，它一定是不连续的。不是说我上了10块显卡，出了一个东西；上了11块显卡，又出了一个东西；上了12块显卡，又出了一个东西。这个是不连续的。你有可能10块显卡，你最后算出来一个数据可以用，然后呢，11、12、13都没用。结果你发现上到第100块显卡的时候，又跑出一个结果来，又有一个跳跃式的创新，又往前走了一步。那你说咱堆吧，堆到1,000块显卡，咱再做一次，发现哎，好像有那么点提升，但是又不是那么明显。哎呀，这个好像不对。

但这个事情是不是就不行了？不一定，因为在下一个节点在哪，谁也不知道。这个才叫涌现呢。如果你知道下一个节点在什么地方，比如说有这么多数据堆在一起以后得到结果，那下一个节点，比如说我们说是乘10倍、乘20倍、乘30倍或者是1,000倍，这都不知道。这个才叫真正的 scaling law。就是我们就只管往前堆，未来是不可预期的，不确定的不连续的。

这个东西从开始的那天大家就质疑它。这个过程呢，其实很像什么？就是咱们小时候都看过一个故事，叫小马过河。什么意思呢？这个小马背着一包货准备过河，人家就跟他讲说你这个过不去的，这个河很深，会淹死你的。这个不同的人就都跟他讲不同的话。就是每一个老的科学家或者是一些进行成本核算的会计师们，看到 scaling law 就会跟他讲：“小马过河，你是过不去的，你这个事有问题的。”那这个怎么办呢？必须要往前蹚，蹚完了以后去寻找下一个的节点，这个是没有什么办法的。

百度这么想到底对不对？百度说我不去作死 Sora，我要去做 IRAG，我要去消除幻觉，做有中国特色的创新，这事对不对呢？其实百度这么想并不丢人，作为一家成熟的商业企业，这样思考算是一个正常的商业逻辑。但是呢，如果按照百度自取的那样，他是中国 AI 行业的领军企业，这么想问题的话，就有点可悲了。

但好在是什么？就是中国做 AI 这一块，反正至少我测试的各种产品里头，我觉得百度基本上还是排不上号的。百度自称是中国 AI 行业的领军企业，这个事呢，让百度自己开心就好了，关起门来称大王就可以了，让我们每天看着百度是怎么思考问题的。我觉得他思考问题的很多的方式还是有借鉴意义和价值的。但是呢，作为一个国家的这种 AI 领军人物，最好还是有一点梦想，愿意努力的，跳一步往前走一走，有可能你就会走到一些不一样的地方。

好，这一期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群。

也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。