零一万物 – 老范讲故事｜AI、大模型与商业世界的故事

深度求索背后的创新力量︱隐士天才如何重塑中国AI未来？揭露神秘Deepseek模式！

Luke Fan — Tue, 07 Jan 2025 13:28:37 +0000

深度求索的创新模式可以复制吗？既然他能做出来，而且也让美国人愿意接受我们的这种智慧，这个事是不是可以再来一次？这个事能复制吗？

首先呢，咱们要从幻方量化开始讲起。幻方量化呢，我其实跟他还稍微打过一点点交道。我自己个人的经历是，2009年到2012年之间，就职于盛大创新院。后来大概到11年、12年这两年呢，就开始分拆，分了很多的这个子院。其中有一个院呢叫多媒体院，多媒体院的院长呢叫陆坚。他呢是浙大的本科，后来到美国去读的博士，然后去了苹果公司。就是如果你现在用Final Cut，用QuickTime，这些东西就是他写的。后来呢，他在我们那里当了两年的院长，离开盛大创新院以后呢，是LinkedIn中国的总经理，现在应该已经进入半退休状态了。

他呢是浙大的，浙大呢其实在杭州，培养了大量的图形图像相关的这种人才。当时呢，做媒体院的时候，陆坚就带进了一大批浙大的学生，做各种的图形图像处理的事情。在15年还是16年的时候，有一次跑去杭州，找很多原来盛大的老同事去吃饭，因为好多人去阿里了嘛。吃饭的时候呢，就有一位老同事约了我，说你来了我也吃个饭呗。这位老同事呢就跟我讲，说咱们做个量化交易，说我们现在干这个事。但当时他们这种量化交易呢，还是私下里边做，自己有一些钱在做一些，挣一些小钱，并没有公开对外去募资。

我印象里是在18年、19年的时候，他们就开始公开的亮相，说哎，我们开始做AI选股了，用AI来进行交易决策了。这个公司实际上就是幻方量化。幻方量化里头最大的那个创始人，就是占85%股份的那个创始人，我没见过，但下边有一个占7.5%的，这个创始人是我以前的同事。他们呢是从私下里头几个人去做，逐渐正规化，开始向外销售产品，实际上也就是募资嘛。

他整个的幻方量化的团队呢，也是由一群浙大的算法天才凑一块干。幻方量化的发展呢，他算是中国首支达到1,000亿规模的量化基金，早期的业绩还是相当不错的。

有几只产品达到了400%的收益率，就是你给他一块钱，最后出四块钱出来，这个还是非常非常不错的。到2024年的日子就没有那么好过了，因为幻方量化里头有很多的这种基金，或者有很多的产品，是以中小盘股为基础方案的。因为你做大盘股，你是做不动的嘛，只有在中小盘股里边去做涨做跌，你才有这种盈利的机会。

所以呢，他们到2024年的有几只产品有10%的收益，但是呢，也有几只产品是以中小盘股为基础的，就直接亏掉了，大概亏了5%到6%左右的吧。我觉得以中小盘股的2024年A股的一个状态，只亏这一点点，他们已经很努力了。

现在呢，幻方量化已经不是国内最大的这种量化基金了，现在国内最大的量化基金都是玩大盘股的，就是已经是跟这个国家要一起往前走的这些基金，他们才可以长得更大一些。现在幻方量化下的应该有几只500亿或者几百亿这样的产品还在跑着，没有任何问题。

幻方量化下面的这个老大对整个的这个技术非常非常感兴趣的，2023年成立了叫深度求索的这样的一个新公司。他们这个公司呢，没有什么资金的压力，因为幻方就是投资方。这帮炒股票的人，做过量化交易的人，手里反正有的是现金，说我们投入就完事了，你也不用再去出去找钱了，也没有短期内的盈利目标。我也不是说做到哪天必须要挣到多少钱，也不需要出去跟人家显摆。

因为很多的创业公司，你不断的要拿出业绩出来，是为了融下一轮的钱，他们没有这个压力，说我们就是为了爱好，为了梦想，为了荣誉，去干一点自己喜欢的事情吧，就是这么一行的一帮人。所以呢，他们只做基础研究。那种既要又要不可取，什么叫既要又要呢？就是我又要做大模型，我又要去做行业应用，我又要去做ToC的产品。国内其实有几家公司是这么干的，但是对于这个深度求索，就是Deepseek这个公司来说，他们就做大模型，其他啥也不管，做开源，也没有ToC的产品。他们倒是有一些ToB的产品，北京有一个深度求索的公司。

是在去接一些ToB的这种集成单子，还是在做的？然后大模型开源了以后，开放API，大家就上那上面去用就完了，而且很便宜。他们呢是不做APP的，坚决不做APP。目前呢也没有多模态，未来应该会做，所以是一个很单纯的公司。咱们对比一下其他的公司，既要又要，比如说李开复的零一万物，一开始做开源，然后呢说不，这个开源不挣钱，我们要去做ToB系统集成去。说这个ToB系统集成，好像打不过别人，很简单，你一个台湾人，在中国现在这样的一个状态下，你想去接一些政府单，多费劲，这个就没法整。

说那咱们去做ToC吧，做了一个叫万知，一万两万的万，知识的知，做了这么一个产品。这种东西呢，你又没有流量，你跟这个豆包打，你根本打不过人家。别说他了，什么通义千问、文新一言、文小言，这些东西都打不过豆包，因为人家有流量，你没有。后面的开源也懒得做了，反正就在这一点点往前蹭，又号称拿了一笔钱，看他后面在做什么吧。

这是李开复的零一万物。Minimax呢，ToB的业务在做，ToC呢有一个叫Toky的产品，就是这种陪伴型产品，还做了海螺，就是可以做这个文生图、文生视频，这样的产品都做出来了。这个Minimax呢，就是ToB、ToC，他自己也有做API的，都在做。就是所有既要又要，还要也要的，这个就是他们。但是呢，他这几块做的还可以，不像这个李开复那个似的，哪块好像都没开出花来。

然后百川智能他们呢，是没有这个ToC的产品，除了模型研发之外，剩下就是行业解决方案了，什么银行、医疗什么开始做这玩意了。然后质谱呢，是模型研发订阅和授权，剩下也是行业解决方案了，也是没有ToC产品的。接月星辰呢，是模型订阅行业解决方案，也有ToC的产品。月之案面也是全活，什么都干。

以上咱们讲这个呢，就是号称的中国AI六角龙，就这六个。然后大厂呢，你做一些全活，这是合理的，小公司何必呢？哪个都不想放过，我ToC我也要做，ToB我也要做，模型我也要开发。

开发完了以后，我还要立个什么出去跑分什么的，都要去干。所以跟他们比起来，Deepseek就要单纯纯粹的多。我就去做模型，而后我还在模型的基础上做各种的改进。改进完了以后呢，跟全世界的大模型的圈子里头一起去建立新的方向，建立新的标准，一起往前走。

咱们回来讲这个Deepseek，他的领导跟这个领头人是很重要的。这个人呢叫梁文峰，这个人我没见过。我那个以前的老同事是下面的一个小股东，早期的三个人应该都是技术，主要就是做这种研发的。实际上，他们早期就是自己做，自己去炒这个股票，完全是自用的一个东西，所以早期并没有那么商业化。而且呢，做量化这种人呢，是隐士大侠，他也不愿意出来跟你见面，也不希望去跟你谈很多事情，所以这个人在外边露面的机会也不多。

我后来找了找，在网上找了两篇梁文峰的访谈。今天这个后边的故事呢，有很多是来自于访谈里边的信息。做量化的时候，一开始确实是比较隐蔽，而且呢，没有这个海外大厂经理。就是大家要知道，像国内的这些做AI的，这个六小龙里头，有很多是由海外大厂经理或者海外名校经历的。即使没有的话，可能还有清华呀，还有很多的什么百度或者是格林深瞳这样的国内AI大厂经历也是有的。

但是呢，梁文峰就没有，浙大毕业了以后，中间这段的生活就不太确定了，因为他也没有什么对外的披露出来。后边呢，就开始做幻方量化，炒了股票挣了钱以后，就去做Deepseek了，就是这样的一个情况。这个人呢，每天像极客一样去干活，或者像黑客一样去干活吧，也不怎么说话，每天就是看论文，写代码，参加小组讨论，也没有那么多的管理的事情。

肯定的天才是必然的，这种黑客型的天才呢，在中国各个角落里头还是隐藏了不少。这个愿意为理想荣耀去努力的人还是有的，有能力做自己想做的事情，还没有钱方面的限制。这个呢，就相对来说要难一些，因为我见过很多的黑客型人才，但是呢，他们都是在为五斗米奔波。

又有能力，又有想法，还有钱，他就会做出像Deepseek这样的奇怪的东西出来。他在前面讲过一个很有趣的话，是“务必要疯狂的拥抱雄心，且还要疯狂的真诚”。他是这样去要求的，而这个话呢，是2023年4月11号，幻方在发布大模型的时候，他们说：“哎，我今天要开始做大模型了。”做公告的时候，引用的法国新浪潮导演克里弗曾经告诫年轻导演的一句话，那咱们再说一遍：“务必要疯狂的拥抱雄心，且还要疯狂的真诚。”这种人，他们能够在钱财无忧的情况下，做出一些让人大吃一惊的东西出来。

因为幻方前面也是在做AI的大模型，就是在ChatGPT出来之前他们就在做，所以早早的呢，囤了1万张的A100。幻方他们应该是全国除了大厂之外，唯一的一家手里有一万张A100的公司。你想，A100这个东西刚出来的时候，一万美金一块，一万张A100，他就是一亿美金。他手里能够有这样的一个资产，还是非常非常吓人的。

那么招聘方面呢，因为老板自己并没有海外留学大厂工作，所以呢，他在招聘这块也对这块要求的没有那么重，因此招了很多的应届生回来。要求的是什么？第一个要感兴趣，你要喜欢这事；你要不喜欢就别费这劲了。第二个，除了喜欢之外还要什么呢？要有基本功，基本功一定要扎实。因此，他要求的第一个叫热爱，第二个要有能力完成项目。你不能说我光喜欢，但是我做不出来这事不行。

所以他们基本上是以这个标准去招聘的。当然，现在也有很多的清华北大的人被招进去了，原来呢，可能主要是浙大的人稍微多一些。他们的创新呢，是一种自下而上的创新，不是一种自上而下的创新。每一个人呢都可以提出自己的想法，而且他们不需要去提前分工，比如你去做数据标注，他去做哪块，谁去跟什么东西，没有这个。每个人呢都可以按照自己的爱好和路径去做事情。

像前面我们讲的那个MLA，叫多头潜在注意力机制，这个东西呢，就是一个很年轻的研究员提出来，提出来完了以后说：“那试一下。”谁都可以提出要求来，那试一下。

然后，试的时候呢，发现哎，有点效果。有了效果之后，分配算力资源就开始继续往下做。就是当大家初步验证成功了以后，就会从上而下的再投入资源。这个呢，其实很像美军搞的那套东西。美军说，司令部里边这些长官，他是不了解前线情况的。所以怎么办呢？让这个小团队出去，你们现场侦查，然后向后边要各种支援：我要导弹、我要空投、我要撤退。后边人只管给支持就完了，或者给他们各种信息，让他们到前头去。打仗的人来决定这个仗怎么打。这个是在美军海外战争以后决定的一种工作方式吧。 Deepseek也是使用的这样的一种创新模式。像其他的都是老板是老大，他有经验，他一定说了算，下边人你就只管干活就完了，你们都是螺丝。 Deepseek在这块是有很大差异的。

Deepseek还干了一个什么事呢？就是很意外的挑起了价格战。在Deepseek V2发布以后，他们就进行了大规模的降价，100万TOKEN一块钱人民币。这当时的想法是什么呢？就是这事呢，不能赔钱。当大家来去用我们的这个和算力的时候，不能赔钱，但是呢，也不要求赚很多的钱，不用求暴利，稍微赚一点就可以了。所以呢，这帮人核算了一个成本，就直接把价格扔出来了。也没想到整个的行业会对于这个价格这么敏感，没想着会有人跟进。智谱马上就开始跟，将一个很小的模型降价了。大模型呢，还是比较贵的，因为质谱其实还是小龙嘛，6小龙的小龙，就是他还是融资干活的，钱没有那么丰富。但是后边字节的豆包，大模型就直接跟进了，全线降价，包括后面的百度的文新、阿里的通义千问，都在大规模降价，直接就把价格拉下来了。

所以呢，Deepseek就由此得名，叫AI领域里的拼多多，砍一刀嘛。但是呢，Deepseek就说了，价格我是挣钱的，我虽然挣得不多，但是我是有利润的。但是其他的这些大厂呢，就是赔本赚吆喝的一个状态了。那你说，中国是不是有很多的聪明人可以来做这件事情？很多人说呀，有大智慧的，也有的是小聪明的。

我们现在讲Deepseek这帮人，他们算大智慧吗？在我当时看他们去做量化交易的时候，我想这些人就是一帮小聪明。这个说个实话，就是如果当时他们在做量化的时候找我去要投资的话，我应该不会投他们。即使现在可能有一些这样的人找我的时候，我应该也不会投。

这种大智慧跟小聪明是跟性格有关系吗？其实我觉得有一定的关系，但是没有那么大。这个东西更多的是跟环境有关系。在大的这个环境要求你必须要为五斗米去思考的时候，这些人就会去变成小聪明。当他们衣食无忧的时候，就可以去追求自己的大智慧。而且中国人还很多，在这么大的基数下面，总会有一些大智慧的人获得合适的环境，或者说有一些聪明人，在获得了合适的环境下可以去展现他们的大智慧。这是我觉得中国在这块比较强的地方。

没有说中国人就只会从1到100，不会从0到1，没有什么原创性的创新。这个事我是从来不信的，只要做出有价值的贡献，别人根本就不会因为你是中国人就歧视你或者怎么样，没这事。在海外做出最大贡献的很多人，其实都是华人，很多也是从国内培养出去的人。

所以智慧本身是不要想高低贵贱的一个事了。中国人的聪明人比例是不是比较高呢？首先这个说法呢，政治不正确，种族之间是不应该有这个差异的。但是呢，中国因为文化传承跟生存压力的问题，会更加的重视教育。所以更多的中国孩子在很小的时候承受了非常非常严酷的，或者残酷的非人的教育压力，这个是没有办法的。

中国的文化传承是什么？自古以来叫“万般皆下品，唯有读书高”，或者是“士农工商”。一旦成为士了，你连税都不用交。咱们接受了几千年这样的文化教育，所以我们知道说任何人，只要是稍微家里有口吃的，一定要送孩子去上学，不能耽误他。

另外一方面，就是我们的生存压力非常非常大，动不动就是输在起跑线上。所以我们的孩子自小接受的这种教育，可能对于老外来说，他们就直接告你虐待了。最终产生聪明人的比例自然就高一些。

可能大家生下来没有那么大差异，但是呢，我们每一个人，甭管你能不能成才，甭管你有多聪明，我们都去用巨大的教育压力把它压一遍。可能很多国外的人也很聪明，但是呢，人就快乐教育，开开心心的吃喝玩乐，混了一辈子也就出来了。

但是中国可能稍微有点能念书能力的人，都被我们的教育体系给塑造成了一个可造之材吧。那么这几十年，这个生活环境、信息流动肯定还是发生了巨大改变的。可以做自己喜欢事情的中国聪明人，肯定会变得更多一些。

咱们甭管怎么说，这几十年的改革开放，我们能够获得的资金资源数据，从来没有像今天这样多过。这个事大家还是要去承认的，也不是每个人都活得那么苦大仇深。像Deepseek这帮人做量化的时候，我挣着钱了，那我就可以去追求一些自己喜欢的事情。

其实我是见过很多聪明的中国人的。原来我们去做盛大创新院的时候，是聚集了很多很多的聪明人在一起。那这个里头跟幻方又有一点相像，幻方是炒股票，自己手里有一堆钱，盛大创新院是做游戏，公司手里有一堆钱，说来我们去追求一下梦想吧，也是如此一个状态。

而且很多公司里边，还窝藏了一堆的扫地僧，就是他会解决很多的很细节的、很具体的问题。那你说这些问题，为什么大家老觉得这就是一个工程上的改进，不是一个从0到1的改进？原因很简单，因为这些人没有聚集在一起，没有让他们自由的去追求他们自己想干的事情，所以他们就只能成为扫地僧，而不能成为像Deepseek这样一鸣惊人的东西。

社区里边也有很多为爱好和梦想而努力的人。有些人呢，没有那么好的环境，但是也在努力，比如说那些独立游戏的开发者，那些开源软件的创作跟维护者。我们是见过很多的，说我喜欢这个事情，我就是愿意做这个事情，我真的是吃了上顿没下顿，这种人挺多的。

我曾经有一个以前公司投的项目，那是一个游戏公司的CEO，那也是一个很强的geek，自己的这个游戏做的不怎么样，每天在UDT社区里头揪着人家CTO扯淡。

讨论最新的物理引擎该怎么做。那个CTO还经常跟他之间相互的启发，相互的促进，做这样的一个事情。我呢，很尊重这种天才，但是这种人不是一个好CEO。那个案子原来不是我投的，虽然是我们项目里边的案子，但不是我投的，所以我也不会去投向Deepseek这样的公司。

当社会有一个基础保障的时候，这些人呢就会更大范围的存在，而且呢，有可能会创造出璀璨的成就出来。他是有一定的偶然性在里边。对于不同的环境呢，就应该有不同的应对方式。有些人说我想挣个快钱，有些人说我现在钱挣够了，我想追求点梦想，这个呢都无可厚非。

总有人问我说：“哎，我现在想投资，我有笔钱，我应该投什么好？”因为我原来做个投资人嘛，所以有人来问我这个问题，或者说：“哎，我有一个朋友，他们需要投资，让我来投，你看看这项目行不行。”也有人给我做这样的咨询。我给的答案一般都是一样的。

什么呢？第一个，你准备投多少钱？你对于回报的预期是什么？多长时间回报？挣回多少钱回来？这是你对回报的预期。再回报第三个是什么呢？你对于风险的承受能力是怎么样？这个钱如果就没了，或者是如果就亏进去了，你是不是愿意承担这件事情？绝大部分人回答了这三个问题以后呢，这个投资就黄掉了。他们压根就想不清楚，我到底对这个投资的预期是什么，或者说我到底能够承受什么样的风险，这个其实是很难回答的。

离钱近的人，或者说我要挣快钱的人做工程，找到清晰明确的路径，定好目标，直接冲上去，寻找可以融资或者让公司价值上升的人和团队。为什么很多人说：“我一定要谷歌挖个人回来，我要到百度挖个人回来，我要到自己挖个人回来。”因为这样的话，你相对来说比较好忽悠投资人嘛。投资人绝大部分是不懂的，一看到这个人的履历，这个好厉害，我要给钱，就变成这样。

然后把这些团队凑起来以后呢，拼执行力，实际上也就是内卷了。然后寻找漏洞，细节不断的完善，卷死其他所有人，这就是快速挣钱的这个团队要干的事情。还有些人说，我钱挣够了。

或者说钱一时半会不用太担心，我只需要追求梦想就可以了。这些人呢，心思就会更单纯一些。在小说里边，有一个名词叫做“剑心通明”。我这个心里头只有剑，没有任何其他东西，那他就可以去做一些不一样的事情。

当然，不同的人呢，有不同的追求，这个里头没有谁对谁错，也没有谁高谁低。我们也不要去笑话中国AI、六小龙这些企业。你说既要又要，没做任何创新，模型架构就直接抄人家的，别笑话人家。大家只要自己的逻辑自洽了，说我就是要去做一个公司，我要把公司做上去，我要对投资人负责，我要在这个过程中做出一些有趣的东西出来，就可以了。这个事并没有什么问题。

那么，深度求索的未来会怎么样？人怕出名，猪怕壮，因为呢，资本已经盯上他们了。大厂呢，会快速的抄袭迭代他们的架构和模型。不用等美国人开源，中国人开源了以后，其他中国人也会自主创新、自主研发的，挖人是必然的。小米刚刚千万年薪，挖的这个叫罗福莉的人，就是Deepseek V2的一个主要贡献者。至于小米千万年薪把它挖回来以后，是否能给小米带来什么，这个我们拭目以待，不一定。

然后，中国呢，有一个特别有趣的名字，叫什么叫“黄埔军校”。百度就是推荐算法、自动驾驶这块的黄埔军校。盛大呢，原来是盛产大量的游戏人才，而金山呢，是早期大量的软件人才都从这出来的。路径清晰，想要做同样的事情，最简单的方式是干嘛？去挖人，把这个做过的人挖回来，这事不就搞定了吗？

所以，深度求索的技术呢，一定会快速的随着原代码的开放以及人才的流动，普惠到中国各大AI厂商里边去。而深度求索自己呢，未必最后能够挣到钱，这个我要跟大家讲清楚。跟大家讲一个故事吧，就是李开复早年做这个创新工厂的故事。当年，李开复招聘了大量的，他们叫“娃娃兵”，也就是没有毕业的这些硕士，因为他当时在中关村附近那边嘛，所以有什么北航的呀、清华北大的呀，很多这样的硕士或者是本科生，就在那干活。其实，创新工厂实际上最开始的两拨人，一拨是李开复从谷歌里边带出来的人。

然后，另外一拨干活的人，就是这帮娃娃兵。后来等李开复开始有一定名声之后，他们的整个办公室就被各大互联网公司进去疯狂的洗，慢慢的就分崩离析了。当时我们就干过这个事，坐在那个创新工厂楼下的咖啡馆里，挨着个给上门打电话来，一个一个叫下来面试。而且是分几摊，同时上四五个面试官在咖啡馆的不同的角落里坐着。只要聊着还可以的人，3倍薪水你来不来吧？当时盛大干了一次，后边的各大厂都去干这个事情。因为呢，我们发现李开复把这帮娃娃兵训练得非常好，每一个人都是心中有火，眼中有光，而且呢，执行力还很强。当时挖了好多那种回来，效果非常好。

希望呢，这个深度求索可以在资金充裕的情况下，继续进行探索和尝试。也只能这样的希望，我没法期望说深度求索这公司未来成长成一家非常巨大的这种大厂，最后能够挣到很多的钱。这个事呢，我是不抱期望的。希望经历各种风风雨雨的过程之后，不要把心态搞崩，这个是最重要的。因为呢，很多的时候人员离职或者是项目失败，有很多这样的事情出来以后的话，创始人的心态会崩的。那么，是不是还会有很多深度求索这样的公司，隐藏在水面之下呢？会有的，而且会越来越多。

AIGC时代大公司的优势其实没有那么大，更多的个人和小团队可以调用更多的资源、数据以及算力，做出大家意想不到的事情出来。像我现在也可以自己坐在家里头，使用各种搜索引擎，使用各种的大模型去进行工作。我交的钱实际上也就是一个月20美金给了OpenAI了，豆包还是免费的。我现在可能真的是一个人，相当于一个团队在干活了，我也可以做出一些可能别人意想不到的事情出来。

有了基础的社会保障之后，从小接受残酷学习训练的中国人，做出各种奇奇怪怪东西的概率肯定要比其他地方的人大得多。这是我的一个结论。而且，中国人本来就多。最终呢，咱们要给这个故事下一个结论，就是会不会有深度求索这样的创新模式被不断的复刻？而我的结论是这样：深度求索的创新模式。

复是不能复刻和模仿的。因为你一旦要去刻意学习什么东西，你就是有目的的。而这种目的的话，跟刚才我们讲的深度求索的这种研发方式，它是相互矛盾的。目标很明确，就应该像AI六小龙他们干活，什么都沾一点点。但是呢，会有很多很多类似的团队，还是潜龙在渊。就是大厂你学这东西你是学不了的，但可能会有一些小团队，在不定在哪个角落里，哪个旮旯里头，在做一些大家意想不到的事情。突然哪一天就冒出来了。这个事情我觉得还是可以去期待的。好，这就是今天的第二个故事。

国内大模型价格战已打响，DeepSeek率先推出超低价服务，字节跳动的豆包大模型跟进、阿里的通义千问全线降价、百度文心一言、讯飞星火、腾讯混元等巨头纷纷跟进，新的时代开始了。

Luke Fan — Fri, 24 May 2024 00:39:46 +0000

大家好，

欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲国内大模型厂商，突然就变脸了，开始打价格战，而且是价格生死战。这个战争是从哪开始的？首先是有一个大模型叫deep sick，他先开始干的。原来我们使用100万TOKEN，大概也得十几二十块钱，甚至贵的也能有五六十块钱。国外的大模型经常是要到十几美金。他呢，直接来了一个啊，100万TOKEN一块钱人民币。DPC大家可能不是那么熟悉，因为他后边不是一个互联网巨头，也不是原来从互联网大厂出来的人，他后边是一个私募巨头，换方量化直接不讲武德啊，100万TOKEN一块钱人民币。

那紧随其后的呢，是豆包啊，这是字节跳动下边的大模型，直接降价到100万TOKEN 0.8元人民币。你不是一块吗，我8毛啊。然后通1,000问说那你们都降，我也来呗。我后边反正是阿里云，谁怕谁啊，最多的显卡都在我手里头，那降价啊，把通1,000问最新的千问Max千问浪什么，全都降到了一个白菜价。当然同1,000问降价的时候呢，还是用了一些小花招的啊，他把输入TOKEN跟输出TOKEN的价格分开了。什么意思？就是当你往里梳的时候，你也是算TOKEN的，当它往外吐的时候，也是算TOKEN的。就是它把往里梳的这个TOKEN的价格，降低了更多啊，往外吐的这个TOKEN呢，也在降，但是降的并没有那么多。大家能够理解，就是你往里输的内容，比如说现在有很多的大模型号称是可以输入100万字，200万字，但是他每一次输出，可能也就输出个1,000字，2,000字，他不会输出那么多的。你说一大模型坐在那，吭哧吭哧给你吐100万字出来，有人看没有？一个人坐在那阅读，读100万字也得会功夫吧。所以呢，从大模型输出的这个TOKEN稍微贵些啊。然后百度特别逗啊，百度先强调了一下，说不要关注价格，要看这个大模型的特性，以及大模型的性质，是不是适合你的场景。讲完了以后呢，左右一看说哎，你们都跑了，等等我等等我，对吧？直接把手里头两个最常用的模型，一个叫快速模型，一个是轻量级模型免费，对吧你们还要收钱吗？咱不要钱了。

科大讯飞的星火大模型说，百度既然已经做出这个样子来了，那咱也来吧，把轻量级模型直接免费，重量级模型降价。大家都是这么干，那腾讯说，咱们也不能落后，腾讯做的叫浑圆大模型，一样轻量级模型免费，其他全线产品价格下降。所以国内现在使用大模型产品，就算是一些比较好的模型，比如像千问Max千问浪这样的模型，你现在100万TOKEN的价格，可能也就是个几块钱啊，或者一两块钱，两三块钱，就这种水平，非常非常便宜啊。

其他的一些人是什么反应？大家都降价，是不是大家都挺开心的？也有不开心的啊，比如说灵异万物的李开复就在那喊，说为啥要降价呢？不要降价，我们现在就不降。另外一个是百川智能的王小川，也在那喊说，没觉得应该降价，咱们就这样吧。啊百度呢是前头喊了价格不重要，但是大家都知道啊，百度向来是一个没有什么担当的公司，啊上午喊完了，下午就可以直接喊免费的，这样的一个公司，这就是百度干的活。

然后Kimi是比较逗的啊，Kimi现在是国内所有大模型里头，用户量最高的一个，他比百度那个文心妍用用户量还大，百度文心妍月活大概是1,600多万啊，Kimi大概有2,000万。Kimi呢，在这个时候玩了一个特别神的招数，打赏啊。什么意思呢？就是咱们国内的整个的大模型收费状态是这样的啊，分三块一块呢是免费可以使用的，比如说，通1千问啊，Kimi零一万物，百度的文信易言的3.5，还有一些收费的公众服务。比如说呢，百度的文心易言4.0，就相当于它做了一个像charge GPT4似的东西。大家知道charge GPT3.5是免费的，charge GPT4是要收费的，是plus版本。百度也整了这么个东西。然后再往后呢，就是调API。公益前问，仔细一言。这些API这个是要按TOKEN来收费的。原来就是这三块收费。Kimi的并没有跟进。大家说我也把API TOKEN的降格降下来。他没干这事啊。他做了一个什么事呢？他说我们啊，也开始收费吧。Kimi直接问答的这部分，面向c端用户的这部分开始收费。他干了这么个事。而且他的收费方式呢，还特别逗。大家知道像charge GPT它是怎么收费的，就一个月20美金，你交了20美金就是plus进，了plus以后，我们就可以使用charge GPT4了，可以使用GPTS。如果你是呃，百度文心妍也是这样的，每个月交多少钱，然后交了钱以后，你可以去用它的文心妍4.0，你不交钱就不让用。Kimi呢，它是打赏模式，就是你平时上网用来啊，没问题，但是因为用户量大嘛，所以他经常会有反应不及时的时候，就是你调着调Kimi，Kimi说哎呀对不起，现在提问题的人有点多，你要稍微等一会，过几分钟再问，对吧，Kimi经常干这种事情啊。那么在这个时候呢，你就可以选择说，那我打个赏吧，我赏给keep me一点钱，比如说赏给他5块2，可以有4天的快速时间，你说我赏给他366，可以直接一年时间都可以快速，那你说我不想打赏，我就这么使着行不行，也没毛病，但是呢，等Kimi的服务器比较紧张的时候，你就要为这些打过赏的人让路啊。你要多等一会儿。他做了这么一个方式，很多人都上去打赏去，甚至有些人说：“现在Kimi并没有出现任何的反应，速度下降的这个情况。”你也可以在Kimi里头直接输入“叫我要打赏”四个字，一回车啊，他就上来了，说你给钱吧，对吧这个事也是OK的啊。所以Kimi做了一个特别有意思的事情。

那么，这件事情对未来到底有什么影响啊？

第一个对于个人用户来说，基本上没影响啊，因为我们原来甭管是使用Kimi，使用公益，千万都是不用付钱的。就算是这个万知，就是灵异万物新做出来的东西，包括其他的各个大模型平台，大概都做了一个Toc这样的一个聊天工具，都是不要钱的。当然这个里头呢，我们为给百度文信、易言4.0交年费的朋友们稍微的默哀一会啊，他们估计已经哭晕在厕所了。

对于那些专注于模型的厂商来说，他们的问题就比较大了啊，他们会比较痛苦。实际上这里讲的就是前面两位反对降价的这两个人，一个是李开复，一个是王小川，他们呢算是玩的叫小而美的团队，他们团队都不大，做出来的模型呢，都可以在各种排行榜上评分上评的很高啊，甭管是灵异万物的e LATCH，还是现在啊百川智能的这个百川的，都可以评分评的非常高。他们原来希望依靠什么呢？我的评分高，你最后要选我的模型，想干这件事情。但是现在不了啊，人家说我们免费，我们评分虽然没有你高，但是我们免费，或者我很便宜，靠这样的事情，那么他们的日子会很难过。他们唯一的出路是什么呢？快速的找到他们特定的应用场景，比如说某一些场景我必须用百川制冷，或者某一些场景我必须用灵异万物，否则的话，是不会有人去用他的这么贵的API去干活的。零一万物的这些API还是很贵的，100万TOKEN的价格里得有十几块钱。一般人用不起的。就算他们收这么贵啊，他们也不可能依靠API收费来实现盈利。这件事是不可能的啊，所以呢他们应该会降价，很快就会跟着降价。降价呢，对于他们来说就是快速失血。一旦降价了以后，他们一方面是挣回来钱更少，另外一方面的问题知道是什么吗？就是他们的服务器消耗的会更高，因为这个东西便宜了吗，就会有更多的人去用，用没成本上升。

在这个过程中，如果在钱烧完之前啊，没有找到新的特定使用场景的话，那么这些厂商就准备被收购，或者准备关张吧，没有他们什么事了。那么真正利好的是什么啊？真正利好的这些APP开发者，海量的APP，现在应该已经在涌现的路上了。哎像我现在自己写应用，去用AI去生成小说，这样的事情，我是要掰着手指头数的，我到底用谁的API啊，到底用谁的大模型，谁家的大模型价格是多少，我每天都在掰手指头算。那现在好了，这么便宜了，那咱就上呗，这还有什么好说的呢？对吧一定会有非常非常多的APP，在这个时候会涌现出来啊。

原来这些APP不愿意去调他们的这个大模型的原因是贵，因为你如果有很多的用户，比如说我一个APP做出来了啊，有个10万个日日活啊，一天有10万个人用，那么这10万个日活，每天跟这个大模型啊，每个人聊个比如说10句20句的，那原来是一个很大的成本。现在这个成本，基本上可以在原来的基础上，可能下降个99%点几。那在这样的情况下的话，他们就敢去让大模型，更多地参与到APP的运作里边去。那可能很多新的商业模式就会在这个里边诞生出来。

在这个过程中，一定是乱拳打死老师傅的时候啊，就是中国人从来不想着什么谋定而后动，咱就是把价格降下来，所有人啊，拍着脑袋上啊，最后不一定哪块云彩下雨。这是咱们最擅长的这种竞争模式。移动互联网，我们基本上就是靠这种模式成功的。满天下全是中国人做的APP，就是这么来的。现在我们把大模型的成本降下来，以后也是一样啊，满天下都是中国人做的AI应用，一定会变成这样。出海的应用现在应该也在路上，大家注意啊。

你说我出海的应用，我调GPT不就完事了吗？那玩意质量多好。别想这个GPT挺贵的。PPT你要去调100万TOKEN，那得多少钱。现在GPT给的价格是一千次啊，一千次多多少钱。你要100万TOKEN，它应该至少是比国内的所有的这些大模型贵，可能几十倍啊，甚至是上百倍。这样的购贵法，未来GPT有可能会调整，继续降价。GPT反而也一直在降价嘛，甚至现在GPT4欧，还可以免费开放给普通用户去使用。然而使用的次数是3个小时十六四啊，但依然还是很贵的。

如果国内的大模型说我免费了，我不要钱了，或者说我用一个白菜价100万TOKEN，几毛钱你们就去用吧，那么在这样的情况下，就会有大量的接中国大模型的这些应用啊，到海外四处去厮杀去。便宜啊你，你那个应用接的是GPT，那你可能就需要去考虑成本了。我们的模型后边这接的是文心岩轻量级模型，零成本干呗。这事还有什么好说的呢？所以这个又应该也是一个趋势。

那么大厂呢，倒并不担心这件事啊。大厂子你说我推理成本还是挺高的，我不要大家的钱了，我直接让大家免费的来用我的模型，那他最后挣什么钱去呢？大家注意啊，现在参加降价的，甭管是字节跳动，还是阿里，还是百度腾讯这些公司，人家掌握两样东西。第一个东西叫流量，用户在人手里头。另外一个东西叫基础设施，云在人家手里头。当有了新的商业模式，有了新的这个玩法以后，最终这些大厂还是会靠这两只手啊。把新的应用控制在鼓掌之中啊。你是跳不出如来佛手掌心的。就算你做出了AI应用来，用户非常喜欢，用户量非常大，你最后还是要到自阶跳动，要到腾讯，要到百度那里去买流量，你还是要到阿里那里去买云，你是跑不掉的，你依然会替大厂去打工，去干活啊。所以大厂并不担心，说我现在是不是会亏了啊。不怕这事。

至于ToB的那些厂商呢，啊这个，比如说，我现在是为什么什么人服务的啊，我给人去做RAG，我给人做大模型实施的这些人，那么他们呢，呃主要是要靠收服务费活着啊。比如使用同1,000分的，使用这个文新言的，我去给人做服务去就好了。但是呢这个价格肯定也得下降，人家都下降了，你凭什么说我这个二道贩子，做服务的，我不降价，这事是肯定不现实的啊。所以他也会降价。

原来还有一些拿开元模型自己训练了以后，去给人家做，号称自主知识产权小模型的，这些人号称什么行业模型的，这些人，就会被打回原形。后面没他们什么事了，因为这些模型，你想去跟真正云端上面的，这种大模型去比，甭管是千问Max，或者是文心一言的一些大模型去比，你是打不过人家的，这个差非常远。就算是你拿小模型做很多的训练，或者做很多的微调，你说我想最后得到空气切换Max那种再微调一下，那个效果，基本上是不现实啊，非常痛苦。所以他们就会被打回原形。

未来啊这些开元本地模型，肯定是会受到打压的啊。为什么呢，因为使用开元本地模型，进行部署和维护的成本，其实还是相对比较高的。你想现在这个模型是本地开源的，比如说像我用欧拉玛的这种模型，它呢其实有几个用途，第一个就是干嘛，就是写程序用，我去这个写程序的时候，先调本地的一些模型，然后未来再去换成这种云端的模型啊，我现在其实真正干活，是不怎么用本地模型。那玩意很慢啊，而且这个对电脑的算力要求实在太高了啊。这是第一个原因啊。

第二个原因是什么呢？就是我要在本地，去为自己的道德去负责任。这是什么意思？就是你一旦是使用云端模型了，最后说什么不说什么是他说了算的，你自己说了不算的。但是当有一些事情，我觉得应该是我自己说了算的时候，我会用本地模型去干活。

所以，本地模型除了这几个特殊的需求之外，可能未来直接在本地部署生产系统的这个需求就没有那么大了啊。啊这块会受到一定打压。从长远来看，下一个竞争到底是什么啊？现在等于我们已经把文字大模型，或者纯文字这块已经搞透了啊。为什么呢？就是他们已经说，最后咱就直接打价格战了。所以这事已经没什么可竞争的。

大家想没想过为什么GBT5这么难产？其实在文字这个基础上，大家基本上卷到头了。你说我在文字基础上再进一步往前卷，怎么能够让文字大模型的水平，再进一步上升，已经很难了。因为人的语言能力和阅读理解能力，已经到这了。他GPT4基本上达到极限了。

所以真正该往后卷的是什么？不是说，我能不能做出更好的这个文字大模型，GPT5来，而是说我应该去做多模态了。就是GPT4O才是未来的方向，端到端的多模态是未来方向。那么所谓的文字大模型，最后啊应该再往哪块，还可以再前进那么一点点呢？就这块天花板已经基本上到了啊。再往前一点点就是更长的上下文，现在比如说有128K的，有一兆的两兆的，100万200万TOKEN的，然后把反应速度再提高一些，逻辑能力再提高一些。GPT4现在差就是逻辑能力差一点啊，它比Pro的逻辑能力还是要差一些，比Gemini的逻辑能力差一些。这一块可能还能再提升那么一点点，其他的已经没什么可提升了。国内的这些大模型厂商，甭管是通一千问、文心一、眼百川、名医、万物，现在基本上都已经接近，甚至部分达到了GPT-4的这种文字水平。让他们接着往前去卷这个多模态大模型呢，他们又卷不太动。所以只能说我们先把这一块给你吃透，先把文字大模型这块直接给你打成免费，打成白菜价。在这样的基础上，我们靠中国原来开发移动应用的这股力量啊，这么多人来乱拳打死老师傅，把应用这一端给他补上。因为这一块OpenAI自己也不太会，而且指望美国人、指望老外去干这事，他们也干不了。在原来移动互联网的时候，我们已经很好的验证了这件事，想去做APP还得靠中国人。所以中国人这一次的竞争，就在干这件事。说来我们能干的事干完了啊，该你们上了，做APP的你们上。

真正往后的竞争是什么？李开复前面讲说，国内跟国外的差异成差6个月啊。他说去年国内跟国外的差距，就是在大模型这块是7-10年啊，现在只差6个月了。但我现在感觉他现在讲的这个话，还是有点太过于乐观了。你在端到端多模态大模型的竞争上，我们跟国外跟OpenAI的差距，跟谷歌的差距，应该还是有这么两三年的。这个才是合理的。所以在短期内，我觉得我们在端到端多模态大模型上，还有的追。

那你说这玩意干嘛使？就像GPT-4给大家演示的这种东西，我这边说，他就可以给我回复，包括我们看到的擎天柱机器人、FIGER01的这样的机器人，这些东西背后都是那种端到端多模态。这个才是OpenAI和谷歌他们下一步要卷的东西。咱们在这一步哈，估计应该也有团队开始上了，但是现在还稍微有些差距，而且卷那个东西。那是真的需要巨大算力和数据啊。在这一块上，我们拭目以待啊，国人到底能做成什么样。再往后一步，比如说AI PC跟AI手机，大家想没想过这玩意儿是怎么发展？如果大家最后都跑去说，我免费大模型去用去了，那么AI PC跟AI手机，最后还是要去靠多模态来搞定啊。就是说，我必须要在本地有大量的音视频信息，必须在本地进行一定的处理，在本地进行快速反应，你才需要AI PC和AI手机。你如果就是文字内容，那咱就扔到服务器上完事了，反正也不要钱，或者反正也很便宜啊。这个事情他就会变得不一样。

所以AI PC这件事了，我觉得前路还稍微有一些些坎坷吧。最终总结一下啊，这一次大模型降价，它实际上是一个蜂巢。原因就是，我们已经把文字生成大模型彻底卷透了。卷透了以后，各大厂商准备发动最后的总攻，让所有的这些能够做APP的人冲上去，把所有的商业模式，所有的商业应用的边界都摸索一遍啊，这是现在真正要去干的事情。下一步再选，咱们就选端到端多模态了。前边文字大模型这一块，战争结束了啊。这是今天要讲的内容。感谢大家收听，请帮忙点赞点小铃铛，参加disco讨论群也欢迎。有兴趣有能力的朋友，加入我的付费频道，再见。\n

华为大模型演示翻车现场：time.sleep(6)真的值得大惊小怪吗？老程序员深度解析代码背后的真相！睡6秒不是什么大问题，不过图像RAG，到底是个什么坑？

Luke Fan — Fri, 17 May 2024 00:39:26 +0000

大家好，

欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲华为大模型演示翻车现场。

近期呢，非常多的AI相关的项目都在进行演示和发布，特别是国内。为什么它？因为时间到了。通常每年在这个时候也会有很多发布，因为每年在这个时候会开谷歌IO，大家喜欢在谷歌IO的前后进行信息的发布啊。因为谷歌IO算是全世界程序员或者开发者的一个盛会吧。那这个前后进行信息发布的话，如果它被安卓采用了，或者再跟谷歌搭上一点关系的这种技术会有更好的发展空间。

那今年呢，还有另外一个事情，就是拉玛3发布。前面其实国产很多大模型都是跟拉玛2有千丝万缕的联系。其实当时就已经预言过，我说拉玛3出来看多长时间之后，国内的大模型会争先恐后的再更新换代一波。现在呢，这个时间点就到了。前面阿里的通1,000问2.5发布，这两天还有几个，一个是零一万物的啊，叫e latch大模型发布，然后字节跳动的豆包大模型前两天也发布了啊。这豆包大模型主打的一个便宜，对别人的价格都便宜非常多，因为大模型的价格一般是按TOKEN算的啊，一般一个汉字是一个TOKEN，大概四个字母，还是几个字母的英文单词，是一个TOKEN啊，它这个算法比较奇怪。

华为呢，也在发布他们的升腾大模型。结果现场演示的一段视频就爆火了。现场演示什么呢？就是一个Python代码，啊而且是正在写的Python代码，他们还很神奇，直接在底下的命令行窗口里边就输入信息了，说请帮我输出一个什么什么图片，还号称是REG的一个图片生成。一开始啊，这位小哥输出的时候呢，就写错了，先写了请帮，然后啪打了一个回车。其实我们在做各种大模型实验的时候，这个事是很常见的啊，因为呢都是对话系统嘛。你一打回车，他就开始干活去了。所以呢，一开始写请帮，他打了一回车，打一回车呢，后边那个程序就开始跑了。他就打了个Ctrl-c，就是把这个程序中断掉。

将一般我们使用的，像Python这种解释性语言，或脚本语言的程序，都可以靠Ctrl-c把它中断下来。中断完了以后呢，大家就看到了一些信息，写的是输出到，叫做output点洁癖器，是调用的XMINDX的一个库。然后呢，大家真正关注的是，里头有一句话，叫time.sleep(6)这样的一个话在里面。

那么大家说说你这个到底在干啥啊？你是不是要等着6秒钟以后，再给我看图片就完事了呢？啊，因为大家也确实是呃，测试了一下视频啊，就是他正确的输入了以后，等了6秒钟，然后这个图片就生成出来了。大家就觉得你是不是在这骗傻子呢？

很多人在知乎啊，在很多地方就开始讨论了，说华为是不是又遥遥领先了呢？跟大家稍微解释一下这个事啊。啊，我个人是专门做职业的编程演示的，可能在国内比我更职业的人不多啊。为什么这么讲，我是原来Bolan的公司，大中华区的image list，就是每天就出去给人做演示啊，我的工作就干这事。这个事呢，我干了四年啊，大概是在全国各地演示了，应该有可能几百场啊，就各种新特性演示。

因为这次，其实你基本上把它认为是一种，叫做授权工程师，每一次Boland出什么新的编程特性了，然后我就出去给人演示去。所以这个事，我相对来说还是比较熟练的。那么他这一次演示呢，为什么会出这样的事情啊？我们也尝试帮他洗一洗，对吧咱们别老说老范，你是不是很讨厌华为，没有啊怎么可能呢，对吧咱们稍微讲一下，这事到底是发生了什么。

首先呢，我们要先想清楚他到底在掩饰什么，这个其实是比这个sleep(6)这个事更重要的。
要更奇葩的一个事。为什么呢？因为他演示了一个非常不常见的功能，叫做图片RA器。这个功能其实用的人不是没有，有人在用，但是呃，很少人用。

咱们先讲讲什么是reg啊。reg这个东西呢，叫检索辅助生成。为什么要做reg呢？因为我们知道，这个大模型经常会一本正经胡说八道。那我们怎么避免大模型一本正经的胡说八道呢？很简单，就是我们先给他准备好小抄啊，或者说准备好一堆的小纸条，说请把这些都背下来啊，请按照这个小纸条上的内容去给我回答啊，不允许自己瞎编啊。我们通常会通过这样的方式，来让大模型按照我们要求的方式去输出啊，这就是做Rag。

然后Rag的这个原理其实也很简单。我们先给他一大堆的这种小纸条啊，就是基础内容吧，然后呢让他去做嵌入啊，in bedding inviting的过程是什么呢？就是他把你给他的一段话啊，这段话通常还挺长，一般是可能500多字，有的有1,000多字，把这个话呢啊，变成一个数组啊，或者说变成一个矢量空间。但是呢他这个矢量空间不是二维的，不是三维的啊，而是可能 102四维，就是一个很高维度的一个矢量空间上的一个点。就是你给他一堆文字，然后这堆文字说哎，我认为这个文字在这个点上，然后再给他下一堆文字的时候，他再给他标注一个点啊，这个叫史量化。然后呢你再说我现在要问问题了，他呢把你的问题也做一次质量化啊，也在这个质量空间里头，1024维或者有的有4096维的这样的一个高维的空间里头啊，把你的问题做一个点，然后再下一步是什么呢？找到在这个更高维空间里头，离你的问题最近的5个点或者几个点，都是谁相对来说，就可以找到跟你提的问题模糊相关的内容信息。但是大家听到了我讲的这个过程没有？就是RAG整个干的活，其实基本上都是在文字基础上干的。他不是在图片基础上干的啊。所以他做图片RAG这件事，确实是比较奇葩。

通常我们做RAG演示都是什么呢？我们先把用户手册输进去，把各种报表把这些东西输进去，然后呢我们就问，大模型说哎，这个用户手册上说啊，这个按钮按了以后该怎么办啊，或者说这个报错了，然后出现哪个哪个报错码了，该怎么办啊？然后他先到这个史兰库里去搜，搜完了以后呢，找到四五条跟他相关的信息，然后呢去做一个事，叫提示搜工程。这个提示词工程一般这么写啊，说我们现在有一个问题啊，问题是这个用户提的，然后呢，我们通过RAG去找到了5条相关的答案，现在请对这5条答案进行总结输出，所有这个答案里头没有相关的内容，请不要去加编啊，我们一般会给他写一个这样的提示词，最前的是问题，后边是5条答案，下边是提示词，然后给你生成一个你想要的结果。通常还是要把这5条相关的信息，也都在后边备注下来，说你看啊啊，这个是我们当时搜到的这5个节点啊，你看看跟他是不是一致，因为他有的时候编的时候，还会总结的有问题嘛，他一般这样工作的。

但是图片RAG一般是怎么工作的，你们知道吗？啊他一般这样，就是说你先给他一堆图片，拿着这些图片以后啊，先要干什么叫做图片识别，我们先把图片都识别成文字，比如说这是一个男人长成什么样，然后如何如何，先识别一大堆这样东西出来，识别了以后呢，再把这个已经识别好的文字，再去做实量化，然后你说，我现在想要画一个什么样的图啊，照这个图片再去做rag生成的时候啊，也是可以做的啊，你比如说我现在，已经把一堆的这个图片放进去了啊，比如说中世纪的铠甲的，汉服的和服的啊，西装的休闲装的，我生成了一堆这玩意进去，生成完了以后呢。我现在给他一个新的人说，现在请给我把他换成一身这个什么样的衣服出来。这个其实就有点像RAG的过程啊，但是通常我们不这么干。通常干的过程呢，是直接用Ctrl night模型做端到端的处理啊。啊但是我们比如说就是做图片RAG了，那么你确实是可以这么来处理的啊。他最后能够保证什么呢？保证就是说哎，你输出里头有一部分是一致性的啊，这个人长得跟你输进来那个人还挺像的啊，中世纪铠甲跟你原来输进去的中世纪铠甲长得也挺像的，对吧这两个凑在一起还可以，这个就可以达到做图像rag的目的啊。但是呢呃，这种用途其实并不是那么常见了，可能用的更多的还是啊，直接在stable diffusion里面去呃做contranite，做一个换装，做这块的会做的稍微多一点点。现在他这个演示呢，就啊相对来说比较奇怪了。为什么奇怪呢？就是他演示的，是他最后底子说了一句话，前面的部分我们没看到，因为我们只看到最后翻车这一块嘛。啊前面到底是怎么演示的，如何入库的部分，我们没看到。通常情况下，这个RAG的完整演示，是要先给人演示入库的部分，然后呢，再演示这个检索和输出的部分。最后RAG真正给人看的是什么呢？就是你的输入跟输出之间的一致性，你看没有胡说八道啊，这个确实是原来我输入的东西，直接给他做出来了呀。一般是给人看这种东西，而不是说我给你一句话，然后你就给我输出一个图片，这个呢一般是做纹身图，会给人演示这个啊，所以他这个演示相对来说比较奇怪。当然也有可能是呃，我们前面的没看到前面有输入的部分，因为演示出了一些问题，然后导致这位做演示的小朋友呢，啊比较紧张，后边应该演示的部分没有演示出来，这个可能性是存在的。但是可能性没有那么大啊。待会我们再想为什么。那么，什么情况下会出现sleep(6)呢？这个sleep(6)其实很简单，就是停6秒钟啊，就是让这个程序什么也别干，等6秒钟以后再干活。大家甭管懂不懂编程的，会不会Python的sleep(6)，这个跟大家想象的是一样的啊，就按语意意思去理解，没有任何毛病。

那么首先要想清楚一个问题，control c的时候，99.99999%的可能性会停在sleep(6)上。大家知道为什么吗？其实很简单啊，就是在正常程序运行的时候，每一个语句执行的速度都是很快的，你是没有办法说，我确定他停在什么地方。但是sleep(6)，你想这6秒钟，他实际上就执行了这一句话。像其他的每一句话执行，可能只是零点几毫秒，或者是有一个毫秒，我估计一毫秒都不会有，只有一句话，是做了这个6秒钟的执行啊。那你打Ctrl-c，你想它停在这个sleep(6)上的概率有多大？所以你如果里头有sleep语句，你打control c的时候，99.999%的这个概率都会停在这句上。

第二个呢，有很多人就在猜了，说你是不是啥都没干，停了6秒钟，然后直接在后台哪学，不张图就扔出来了。现在很多人在猜测这件事啊。呃，我觉得这种可能性倒没有那么大啊。这个可能性没有那么大，为什么呢？有点太忽悠人了啊。虽然人家很遥遥领先，但是你想去华为上班也没有那么容易。像我现在这样的水平，要简历到华为，华为人还不要我呢。所以呢，我们不要随便小看天下人啊。

正常情况下，写这个sleep(6)呢，啊是两种情况啊。第一种情况呢，就是做大模型这个输出的时候，没有做状态监控，这个事呢，是很常见的。为什么呢？就是大模型输出啊，通常情况下，他是要等一会，不是说我在这头啪一回车，那头就出来了。一般情况下，我们执行一个程序，执行一个语句的时候，他如果是很快就可以出来，我们就让他锁在那跑，就完了。啊，什么叫锁在那他跑？就是说，当他需要进行长时间等待的时候，这个计算机是锁定状态。你在这个时候再输入任何信息进去啊，再动鼠标或者再做任何点击，他是不理你的啊。但是这个呢，很危险啊，因为有的时候他就锁死在里头，就出不来了。那所以很多呢，我们会让他在后台执行，就是他是前后台进程嘛，后台进程。

那么后台进行的时候呢，正常是什么呢？正常我们要监控他执行的结果。后台执行了哎，执行完了，你要告诉他说哎，现在执行完了，现在请展示出来。咱们经常看大模型执行的时候，那个字是一个字一个字出来的，对吧？你问他一个什么话，嘣嘣嘣嘣嘣，一个字往下跳。这种呢，叫stream输出，或者叫流式输出。那干嘛呢？就是说我这边命令你去回答问题了，然后呢我在那等啊，你出一个字了，我就赶快把这个字拿出来，给大家展示出来。再出一个字了哎，再赶快再把这事哎提出来，再给大家展示。然后一直到出完了啊，我知道哎，这句话出完了，再去执行后面的程序。正常情况下他是这么干活的。

但是呢，有些人说，我为了省事啊，我就不费这劲了，我也不监控你的结果了。我认为你大概6秒钟能跑完，我先背着他跑，然后另外一头呢，我等6秒钟啊，等完6秒钟以后直接去取结果，大概率不会出问题啊。有人这么干啊，不是说没有，特别是一些叫萝卜急了不稀泥的这种程序啊，就是我很着急写一个，我就不用写那么细致了。因为你要知道，从这个监控和后台这件事来说，是挺麻烦的，不是那么容易的。你可能需要现场写个，可能十几句，至少得写个三五句吧，你才能把后台进程的状态监控起来。这是一种情况。然后另外一种情况是什么呢？就是啊，他所调用的大模型是有RPM限制的。什么叫RPM限制？就是每分钟调用多少次是有限制的啊。因为现在大家知道算力很贵，对吧？那么大模型这些厂商为了不要让大家快速的、高频的去调用自己的大模型，他们会给这些调用方设置每分钟限制的次数。因为我自己的一个程序里头，也是写了sleep play啊。我调用的是谁家的？就灵异万物他们家的大模型。我是充了200块钱在里头，他给我设的是什么呢？是一分钟十次啊。就是我每分钟最多可以钓10次。那做个sleep(6)呗。我这头钓，钓完了以后停6秒钟，然后我再钓下一次。这样就肯定不会有什么问题嘛。这个是比较常见的啊。因为这种东西，你没法去监控服务器运转状态，然后说我是不是可以掉下一次了，这个事只能是自己sleep啊。当然也有一种这个更精确的方式是什么呢？就是我先钓了，钓完了以后啊，然后我去呃等一会啊，再钓一次，然后发现错了以后呢，等再等一会再去钓对吧。他有的时候会去做我们管他叫Retry吧，也有这么干的。但是这个呢，属于是非常不友好的钓用方式啊，因为虽然最后人家可能还是啊，6秒钟替你服务了一次，但是你在不停的去刷他的服务器啊，这类似于一种低DOS攻击，所以这种方式不是那么友好。所以这种sleep(6)也是很常见的啊。我们现场到底看到了什么？这是一个前端演示的程序员啊，大家一定要注意，他并没有给大家去做这种完整的客户端演示，而是告诉大家说哎，我怎么通过简单的编程，就可以看到一个什么样的效果。而这位朋友写的呢，也不是很熟练至少像我们以前出去给人演示，你各种演示的demo还要练几次，然后各种容易出的错误，你可能平时练习的时候都出过。各种预案：

我们会留的比较足，所以不会现场出这样的问题。这是第一个。

第二个呢，就是他这种代码正常应该是现场写的。就是他不可能说哎，我这个代码是已经写好了，然后呢我给大家看一下。这个绝不是这样啊，因为如果是工程里边，这个代码就写成这样的话，华为早就挂菜了啊，不可能啊。混了这么多天，被这么多人讨厌，还在这活的好好的。

为什么这么讲呢？time.sleep(6)这个事儿啊，其实不算过分。然后后边儿有一个叫写到output点儿洁癖记里头。大家有没有看到这一行代码？这个才是真正比较过分的。这叫什么东西？这叫呃，我们把输出文件名儿直接写死了，对吧？这个实在是很奇葩的一种玩法。

正常情况下，我们应该怎么办呢？应该询问用户叫什么文件名，对吧？这是第一种方式。第二种呢，我们一般会采用一个叫文件名生成的一个程序。我们会生成一个保证不重复的文件名，啊比如说我这个是用日期时间戳，再加上一个哈息数，再加上一定的啊表意的信息，然后生成一个完整的文件名啊，或者是说我再加上什么特定的路径啊，这样能够保证这个文件名随时都可以生成，而且不重名，甚至我们还会去写程序说，我保证啊，文件输出的时候，去进行文件名存在判断啊，说是不是有这个文件，如果有的话，我怎么再去换一个跟他不一样的文件名。这个是正常的工程里边的写法，而不是把这个文件名直接写死在里面。

所以通过这个来看呢，这个代码大概率是现场写的啊。那什么时候需要现场写代码？就是告诉大家说，这个他们叫做升腾大模型啊，因为上面有一个叫MINDX啊，有这样的一个提示出来，也是说我们在调这个库的时候啊，发生了这样的问题啊。这个MNDX呢，就是升腾大模型的意思啊，就是你吊这个东西的时候很方便。你不需要很强的工程能力。你也不需要很强的技术的门槛。你就随便就可以吊啊，随便写两句就能把它吊出来啊。他实际上在演示这种东西。

在这个里头，你出现各种不规范的代码，什么sleep(6)啊，什么写死了文件名儿啊，哪怕是重复了文件名儿，重名儿的，我直接把原来的覆盖掉。这个都不是什么大毛病啊。我们以前也经常这么干。

像我以前去做演示的时候，现场演示，虽然我那个代码都会提前练好啊，但是我一定要到现场敲。你一定不能是从一个文档里头，口碑出来，或者说你看我这有一个程序，我直接调用一下就完了啊。这个现场看的人是不买账的。

你万一后头藏了个几十万行代码，你说我我一调用，我一贴贴上去了，我就可以跑了，那人家说我学不会。你一定是你看啊，我就写了三句啊，5句第一句什么，第二句的什么，然后写到第五句，啪一回车，哎结果出来了。呃然后让人下边一看哇，是这样的。对一定是这么一个过程啊。

像我们以前经常干什么，叫什么A1 A2 A3 A4 B1 B2 B3 B4，这是干嘛呢，起这个变量名。大家知道，正常写程序，你按工程的要求来说，你是不可能这么起变量名的。你这么起变量名，这个程序大了以后，你根本没法改错误。

但是我们在现场演示的时候，都是这样的文件名啊。这个其实是蛮正常的，因为为什么你在现场，你再去想说，我到底按一个什么样的命名规则，去命名哪个大写，哪个小写，英文怎么拼写，然后拼对了，拼错了这个烦死了，对吧你还不如叫A1A2呢，这个多省事啊。然后最后你就直接把结果出来了啊。这个才是大家想要看到的啊。

所以啊，不要因为说他写了个sleep(6)，你就觉得他在骗人了。跟后边那个right，什么output点GPG那个差远了。有这两句。只能说明，我们大家现在看到的这段代码，是在现场写的，而不是按照华为标准的工程要求去写的啊。只能说明这件事，这件事情，你说就不是在骗傻子吗？大概率还真是。为什么呢？虽然我刚才解释了，这个代码并没有什么大的问题，但是大家要想清楚，他在演示什么东西。他在演示RAG图像生成啊。其实华为的用户里头，做Rag图像生成这种需求的人，应该没有几个，对吧？什么人干这事？电商的人啊，我去做换装。而且通常情况下，人家也不是做reg图像生成，人家直接是stable diffusion做换装就完了啊。没有人去做这个。甚至还有一些人是干嘛呢？是去做这个游戏对吧。比如说我现在要去啊，做一个游戏工作室，然后我要保证说我输出的所有的骑士，所有的什么东西啊，这些要有一定的一致性。反正就是这个类目是存在的啊，但是真正实际用起来的人，本身是非常少的。而且你想，他最后写了这么一句话，写完了以后，那头就直接给你画出来了啊。我的感觉是什么呢？就是他喊了RAG的名字，因为现在特别是对于华为的用户，他的用户一般是企业用户，或者是政府用户，他们不可能去做电商，也不可能去做游戏啊。对于他们来说呢，你不给他讲RAG，不给他讲知识库呢，他们就不买单。所以，一定要把这个高大上的词给你讲上。然后呢，我如果直接给你看一下，我检索了啊，谁谁谁的讲话，谁谁谁的路线指导思想这个事呢，这又容易翻车。那怎么办呢？咱就现场给你画个画啊。这个画呢，还比较震撼，让你觉得啊，这个事情很有趣对吧。所以呢，你看哎，我也RAG了，最后我还画出一幅画来。所以这个演示的过程啊，可能有一定的欺骗性吧。我们觉得讲成这样，算是比较呃客观中立的一个讲法啊。这个呢，就是这一次华为升腾大模型展示。里边出现的bug啊，我们进行的一个解读啊，希望你甭管懂不懂编程啊，懂不懂这个RAG到底是干什么，懂不懂这个大模型怎么回事。啊，通过我的讲解呢，啊你能够对这个事情，有一个更深刻的理解。

好啊，这一期就讲到这里，感谢大家收听。请帮忙点赞点小铃铛，参加disco讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

弱智吧，人类最后的防线，中文AI大模型训练的神奇语料库，简短幽默蕴含哲理的网络金句聚集地已经被用于训练大模型

Luke Fan — Mon, 06 May 2024 00:36:44 +0000

大家好！欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲“弱智吧”。

“弱智吧”是什么呢？它实际上是一个百度贴吧，里面有很多独特、简短的文字，带有哲学、脑筋急转弯、幽默感，甚至很优美的内容。大家会说：“我们是弱智，我们要到弱智吧里面去，贴一些弱智的内容，贴一些弱智的问题和答案。”但随着时间的积累，人们发现，这正是“大智如愚”的体现。弱智吧的很多内容也被大家筛选出来，贴到小红书、抖音等各个平台上，惊艳了一大片人。

这真是非常神奇的事情。有人感慨：“我们很聪明的人没有惊艳到别人，而是一帮‘弱智’惊艳到其他人了。”弱智吧里有些什么样的经典语录呢？比如“吃什么补什么”，告诉我们“吃苦成不了人上人，只有吃人才行”。这样的内容看似无厘头，但仔细思考，你会发现吃人才是成为人上人的唯一原因，因为“吃什么补什么”。它巧妙地结合了中国传统文化的内容。

还有其他有趣的例子：“工人罢工之后就成了人”，“原来你是工人”；“四川人至死不渝，重庆人乐不思蜀”，这两个相邻的省份和直辖市，四川人似乎到死都不愿去重庆，而重庆人却乐在其中。

这就是弱智吧里常见的一些内容，充满了创意和趣味。不想四川了，啊。

这是…也是把中国传统文化里的一些梗串在一起了。甚至还有啊，苦难是生命的防沉迷系统。这个世界是一列高速行驶的列车，我们不是乘客，是燃料。向禁欲的寺庙去求姻缘，向不出门的方丈去问人生，向路边的瞎了眼的道士去看前程，向最爱你的人去证明他没有那么爱你。啊，这也是《弱智八里》的信息。

然后，咖啡因来自咖啡果，所以咖啡因是果，咖啡果才是因。这也是把以前的这种因果循环，很多佛学的东西加在里头。有人看不到未来，其实是看到了未来，哇，这也是里面经常经典的一句语录了。还有些什么呢？

生鱼片是死鱼片，等红灯是在等绿灯，救火是在灭火，指南针主要是指北。大家看到了以后会突然愣一下，然后再去思考。思考完了以后，有些是会心一笑，呃，有些可能真的是会回忆起心中的某一些苦涩。但最终可能也还是只能会心一笑。

既然有这么强的《弱智吧》，现在大家要都在搞人工智能，都在搞AIGC，搞大模型了，那咱们肯定是不能放过这些大模型。所以呢，有一段时间就开始流行用弱智吧的问题去考教大模型。任何一个新的大模型出来以后，都是会把弱智吧的问题拎出来问一遍，看看大模型是不是足够的弱智吧。

最早翻车的应该是百度的文心一言，后来他们针对弱智吧的很多问题进行了特定的修正，效果呢，稍微好了那么一点点。现在基本上，只要是跟中文相关的大模型出来以后，都会弱智吧一把。经常会被拿来问AI大模型的弱智吧问题，是什么呢？

为什么我爸妈结婚的时候没有邀请我？
高中想要提升升学率，为什么不直接招大学生呢？
为什么晚上睡觉的地方叫酒店，而晚上喝酒的地方叫夜店呢？
网吧能上网，为什么弱智吧不能上？弱智呢？
说一个半小时是几个半小时？
陨石为什么总是落在陨石坑里？
人如果只剩下一颗心脏还能活吗？
蓝牙耳机坏了，去医院挂耳科还是牙科呢？
小明打开水龙头…
是因为开水龙头烫到了小明的手吗？他其实在考验的很多是什么。你的分词是怎么分的？这些相关的近义词、同义词、反义词，以及语言背后的很多梗，到底是什么意思？比如说，关于酒店和夜店的故事，关于说，“哎，你父母结婚的时候为什么没有邀请你？”的问题，他其实在后面是带有很多的就是直接问话之后的潜台词。你如果这些潜台词搞不明白的话，那么这件事情基本上你是没法回答的。所以很多的AI大模型，遇到了这样的问题之后，如果他只进行一层思考，那必然回答是错误的。既然这样，咱干脆拿弱智巴来做大模型训练，不就完事了吗？

于是啊，中科院、滑铁卢大学和灵异万物，他们呢就把这个事情组织起来说，我们拿弱智巴的数据进行训练吧。其实刚我刚才讲的案例里头，大家会看到，像百度其实早就训了。那为什么今天咱们要讲中科院、滑铁卢大学和零一万物拿出来训练呢？因为他们训练的结果是开源的。训练完了以后的这些数据集也是开源的，你拿着这些数据集，就可以去调整自己的大模型了，而不像百度似的，发现丢人了，关起门来，我去做一下调整和测试，然后啊再开开门，你看这回会回答这个问题了吧。啊但是他是不是会回答其他问题，然后别人是不是可以通过这个过程学到一些什么东西，就通通都没有了。这就是必元的这些大模型的一些弊端啊，开元大模型的或者一些开元的玩法啊，他们就会给大家整个的这种训练啊，整个的模型应用的能力提升做出一些贡献。

弱智吧，大分大智若愚，弱智吧，才是人类面对AI的最后一道壁垒。为什么讲这个呢？就是很多人说，你看看这个人到底是人还是机器。以前我们要让他做图灵测试，但是到这里来，把弱智吧的题给他读一遍，然后看看他到底能不能做出来，来判断他到底是人还是AI。弱智吧到底是不是人类面对AI的最后一道壁垒？那肯定不是。现在，既然大家已经开始拿弱智吧的问题去训练AI了，已经拿它去训练出很多的模型，优化的这个结果了，而且那个真的是结果，经过弱智吧训练的这些模型，打分是非常高的。那么我们现在需要的是高质量语料。很多人在去讨论说…

为什么中国没有产生CHANGPT的时候？有一个很神奇的论点，就是说中国缺乏高质量语料。其实并不缺。以前大家都说，全世界的高质量英文语料大概是6TB左右，这个数据不知从何处查得。但是，这一次拉玛3就打了所有人的脸，说你看我用15T的数据去进行训练，训练完了以后，效果确实是遥遥领先。而这个15T的数据里，有大量的其实是由AI自己生成的，然后由AI去审核、去过滤的这样的数据去训练。这些数据里头有95%是英文的，只有5%不是英文的数据。更不要说中文了，中文跟所有其他语言混在一起，占最后的5%。

现在我们到底怎么去给拉玛三做继续训练，怎么在他这个基础上去做提高？其实，国内很多做大模型的公司已经在这里跌了跟头。别看网上有很多人说阿拉玛3可以自己去做微调了，可以怎么怎么样，甚至还有些人给非程序员出教程，那其实是骗人的。真正的大模型公司，他们会拿拉玛3的模型做完训练之后去做验证，去做跑分。虽然跑分这个事情跟我们的主观评测、主观感受有一定差距，但跑分还是他们验证、测试训练效果的最好方法。现在他们对拉玛3进行的各种微调，在训练所有的这些事情，大部分结果其实是变差了的。就是你训练完了以后比原来更差，拉玛三不擅长中文，你对中文进行了一堆训练以后，中文能力没有提升，英文能力反而下降。这个事情是蛮多的，所以大家不用那么狂欢地说，我要去拿拉玛3去做训练了，先去等一等看。现在我也在找人说，咱们是不是拿弱智吧的数据集把拉玛3再训一遍试试，但是最后能不能得到效果，还要再去等。那么，到底如何找到高质量的中文语料呢？刚才我们讲，弱智巴是一个高质量的中文语料，中科院的巴、铁路大学的和零一万五三拨人凑一块，他们干嘛呢？把弱智巴找出来，弱智巴的帖子很多，排序嘛，找点赞最高的500个帖子，把它找出来。先把这个标题取出来，“你到底都问了什么”，然后用GPT4做些回答，再进行人工的修正，再参考原来弱智吧里面的一些内容，混入到数据集里边去。包括小红书、知乎、豆瓣、百科也都没放过。就是大家把各种各样的信息都拿出来，做训练了。

但是人类最后处理的方式是：人类提出问题，人类回答，人类筛选，然后由GPT4辅政，再用人类去标注，入库训练。这就是整个的一个过程。整个训练完了以后，弱智吧的数据是效果最好的。就他们用小红书的数据，用豆瓣的数据，原来很多人说豆瓣应该是一帮文艺青年，应该拿那个玩意数据训练出来效果最好。但是现在不知道为什么，是弱智巴的语料训练的效果是最好的。而且很神奇的是，用弱智巴语料训练出来的大模型，他们在零一万物的E34B上做了微调和继续训练，发现这个模型写代码编程的能力莫名其妙的上升了。

大模型真的就是一个黑盒子，就是你对他进行训练以后，他可能有些能力会上升，有些能力会下降。他们发现，弱智吧训练完了以后会写程序了，会做各种逻辑相关的这种判断，这个会更强一些。而且呢，他们真正做得好的地方是，不是说他们把已经训练过的E34B拿出来给别人用了，现在他们训练过的E34B还在他们内部，什么时候能拿出来还不知道。但是他们做了一件事情，他们把弱智吧用来去训练的数据集开源了。这个数据集在哪呢？在huggingface上，在github上都有，大家可以上去去找，很多开源的数据集，大家都可以在上面找。比如说你要写小说，上面有专门的小说数据集。你只需要把这个数据集拿出来，跟一些认定比较好的大模型去进行训练，这样就可以更好地去写小说了，包括写玄幻小说或各种带设定的小说。他们都会有这样已经标注好的数据，你不用再重新学习和自己做标注。人类不需要反复重复发明轮子。当然，像百度那样，他们可能做完后只说自己有，别人没有。但做开源模型的人会把中间训练的数据集也直接开源，你可以在上面找。现在，弱智吧也可以自己下载去训练，但训练的结果没法保证。我们不能保证用了弱智吧的数据训练后，模型就会变聪明，这是没法保证的。

为什么呢？就像有个学校说，他们学校的学生都能提分多少多少，然后你满怀希望把孩子送进去，训练后发现高考提分没提到，你不能去退钱。人家最后会告诉你，可能是孩子不够努力，或者有其他问题。因为这是一个黑盒子。但至少他们给你开源了数据，你可以用，这比百度那种完全闭门造车的要强很多。

大模型的本身其实是一个黑盒子，就像上同样的补习班，有的孩子提分明显，有的可能降分，甚至有些直接崩了。大模型也是这样的东西。那么为什么弱智吧的效果特别好呢？这个事，其实谁也说不那么清楚。

有些人进行了一定的逻辑分析，称赞说：“你这个逻辑很好，虽然里面都是2到3层的转折逻辑，甚至包含很多诡辩和脑筋急转弯。它是一种极端的端到端思维，我有一个开始，有一个结束，但中间的运转过程，我不说。”这种弱智的神奇之处在于，尽管可以逻辑分析，比如每天有人打电话说：“你好，我们是人大附中退休老师开办的补习班，我们家孩子高三，所以这种电话每天都会接到。”他们告诉你一个逻辑，但你不能由此推导出孩子去补习班就一定能学出来，真的不一定。他们这么做，只是想表明这是符合逻辑的。在众多补习班或大数据集中，选择某个进行训练，可能会提高成功几率，但每次训练的结果只有0和1，过程不可拆解，也无法详细分析。这就是现在AI大模型的奇怪之处。

那么，为什么学了弱智吧就会编程呢？参考上面的讨论，这其实没有任何逻辑可言。现在有人主张学习哲学，问：“是不是应该学一些哲学？”我们已经给大模型提供了各种语料，是否应该加入更多哲学相关的信息，让模型训练后向AGI的方向发展？我们尝试用弱智吧的信息进行训练，结果在各种评测中领先。对此，我们只能说结果如此，现象已经呈现，但要分析清楚原因，比如是否学了哲学，或者学了什么，还无法明确。

先讲政治，这样的事情，他就对齐了。这个事情是没有任何可以直接进行关联的逻辑的。啊，也有可能有些模型，比如说用哲学相关的语料训练之后，他的逻辑能力反而会下降。这个可能性是非常大的，特别是在一些不那么讲逻辑的地方。那里学的各种奇怪的哲学，因为我们现在冠以哲学之名的东西是蛮多的。这个都很难说的事情。这就是我们今天要讨论的问题：用弱智吧的内容去训练大模型，导致大模型的性能提升了，到底给我们带来什么样的思考。如果你说，哎，我是想去用弱智吧的东西也训练一下自己的大模型，怎么办？到黑根face里边去搜索，你是可以找到这个数据集的。或者你到灵异万物，到其他地方去问，你也可以找到这个数据集。你也可以拿这个数据拿回来，自己去训练一下。但是一定要记住，我们不保证所有的人上了同样的培训班之后，上了同样的补习班之后，你都可以去提分。这就是跟大家讲的今天的故事。好，今天的事情讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。