GPT-3.5 – 老范讲故事｜AI、大模型与商业世界的故事

OpenAI推出GPT 4o mini，这是要卷死谁？Sam Altman封禁中国 API IP后放大招，你就给我看这个？中国大模型是不是有机会弯道超车？

老范讲故事 — Tue, 23 Jul 2024 00:48:07 +0000

OpenAI在封禁中国IP访问其API之后，第一个大动作居然是发布了一个GPT4o mini。你发布了个小模型，这究竟是要卷死谁啊？中国团队是不是有机会弯道超车呢？大家好，这里是老范讲故事YouTube频道。Open AI第一次发布微型模型，以前的Open AI都是一个比一个大，因为原来人家讲的叫Scaring Law，就是这种伸缩法则，只要是变大，我一定会变强。而且，也嘲笑那些小模型说你们肯定不行啊，一定是大的好使。我自己原来也是很喜欢使用大模型，有大的不识小的，这是我原来挑选模型时候的基本原则。但是现在，Open AI开始卷小模型了。

Open AI的这个GPT4O mini有什么特点呢？第一个，快啊，小模型一定是比大模型跑得快的。另外，就是极其便宜，它这个里面输入的信息，100万TOKEN，15美分啊，非常非常便宜了。输出的信息呢，是100万TOKEN，60美分，也就相当于是100万4块多人民币啊，已经快要接近国内的这些模型的价格了。效能呢，也应该是比GPT3.5要强一些啊，这是GPT4O MINI的一个基本情况。

那么，这样的一个鼓励越大越好的公司，原来更多的人力肯定是去研究更大的模型去了。现在说不，我要上一个小的，而且这种小模型呢，跟一般的小模型还有区别。区别在于它可以支持Function Call，可以支持视觉多模态的识别。那么，这是GPT4O MINI比其他的普通小模型所独有的特点。

以上就是关于Open AI发布GPT4O mini的全部内容，如果你对这个话题感兴趣，欢迎在评论区留言。我们下期节目再见！

型U的地方，那么MINI到底有多大呢？并没有说。其实啊，大家出的这种小模型，这种必原厂商出的小模型，都是不会对外讲说“我到底有多大”。包括一些开源厂商自己去出的一些啊，闭园小模型，也不会告诉外边到底有多大。比如说吧，灵异万物对吧，他的对外模型是开源的，告诉你这个是6B的，9B的，34B的。但是呢，它自己内部壁源的这些模型，就是你直接通过商业方式去买的啊，它就分什么medium，large，是这样分的啊，你不知道它到底有多大。包括像谷歌啊，Gemini Flash到底有多少个参数，你也不知道。Gemini Pro你也不知道有多少参数啊，cloud三个版本，其实各个参版本有多少参数，都是不说的啊。所以啊，Open AI的GPT4O mini到底有多少个参数，也不知道。现在呢，大家普遍猜测应该是在10币以内，大概也就是7币，也就70亿到100亿之间的参数，应该算是最小一个档次的。

怎么用这个模型呢？免费用户跟plus用户，已经可以跟GPT3.5说再见了。那就是我们现在打开了啊，Open AI的聊天网站之后，能够看到的三个模型：一个叫做GPT4O，一个叫GPT4，一个叫GPT4欧mini。三点五已经彻底成为过去式了。API的用户，你现在依然可以使用3.5，因为这个是不可能马上取消的啊，大家都写在程序里头了啊。模型的名字叫GPT3.5，特本什么什么的叫这样名字，你要说我直接把这个模型关闭了。不过，这通常不会发生，因为很多用户和开发者都依赖于它。

然后，上1GPT 4O mini一下替代掉的话，这事肯定不行对吧？那个程序会报错的。所以啊，GPT4O mini啊，现在已经可以为啊，直接使用Open AI API的这些用户开放了。啊，但是呢，3.5还是可以用的，现在我还没法使啊。为什么呢？因为我没有办法，直接从Open AI去买它的API服务的啊。它会识别出来，我在中国大陆不会为我服务的。所以，我现在的CPT相关的API，是通过扣子或者是一些Open AI代理服务去购买的。但现在，这个上面都没有GPT4O MINI的这个模型。为什么在这样的一个时间点，出了这么一个产品呢？他把中国大陆的API的IP封掉了以后，本来想着，他是不是专心的做个GPT5出来，或者做一点啊，把这个前面吹过的牛稍微能还上一点啊。怎么现在整了那么个小东西出来？

首先，大家要想清楚一个问题啊，Open AI就是行业里边的老大。老大最怕什么啊？老大怕竞争吗？啊，现在没有人跟他竞争啊，谁也竞争不过他。虽然现在号称御三家，就是谷歌、Siropic和Open AI里头，已经可以打个有来有回了。但是，从市场占有啊，从整个技术的程度上来说，Open AI还是绝对领先的。那么，他到底怕什么呢？他害怕的东西叫分叉啊。什么叫分叉呢？就是有很多的人是不会去看别的服务的，也不会去用任何其他的大模型，上来就用Open AI家的啊，其他所有我都不用。那么，这个呢，就属于忠实铁粉。但是一旦分岔了以后，可能会出现一些小的分支，这些分支会逐渐壮大，最终可能会影响到Open AI的市场地位和影响力。为了避免这种情况的发生，Open AI可能会采取一些策略，比如推出GPT4O MINI这样的产品，来吸引更多的用户，保持其在市场上的主导地位。同时，通过限制某些地区的直接访问，Open AI可能也在试图保护其技术和市场，防止技术的过度扩散和滥用。

大家说：“哦，不，我不能只用Open AI的，我所有的都要用一下。我要在不同的场景里头，找到不同合适的模型来使用。这个过程要分叉了，老大最怕的就这件事情。他现在已经看到了有分叉的这种方向了啊，或者说，他现在已经看到了有分叉的趋势了。所以，必须要冲出来说，我要把所有分叉的趋势，掐死在萌芽状态啊。这就是GPT4O MINI发布的一个大的前提。因为GPT4和GPT4欧，包括GPT4 Turbo所有的这些模型呢，它比较贵。越来越多的人呢，就希望转型。像我现在做很多这种AI agent，这种工作流，我会把最费劲的一个点交给GPT去做。对于理解能力，对于推理能力没有那么强的节点，我都尽可能去选择更便宜的，这种大模型来工作，或者更小一点的大模型来工作。这个是经济的考量啊，而且我们发现，在这种稍微小一点的大模型，你让他做简单的工作，效果其实是很好的，并不比GPT4差啊。这个是现在Open AI不能允许的啊，你们就老老实实的，你要想去用这个小模型，我也给你提供上啊。这个是要注意。

而且呢，现在所有在跟Open AI竞争，或者说在Open AI这条道路上，追赶他的这些人呢，目标都很明确。怎么叫目标明确呢？每一个人上来说，我现在都是接近GPT4对吧，没有人超过啊，就很少有人超过，或者可能只是在个别指标上超过。整体超过的，现在还没有，或者说不多吧。但是呢，我们现在甭管国内的大模型，国外的大模型，都在努力地追赶，试图在某些方面超越Open AI，这是一个非常明显的趋势。

都说我现在已经接近GPT4了，然后呢，遥遥领先于GPT3.5。对吧，这也是现在的一个时间点。而且，很多的小模型，甚至是这种70亿、100亿、300亿、几百亿这种模型，都已经超过GPT3.5了。GPT3.5有多少个参数呢？当时是1750亿个参数，这么多的参数，怎么还这么差呢？这么多年了，时代在进步，而且AIGC大模型的发展，真的叫日新月异，每一天每一个小时都在发生变化。

这么长时间过来以后，你用原来这种架构，GPT3.5的这种架构，它确实是效能比较低了。所以现在很多的这种1000亿以内的，700亿的，或者是更小一点的，几百亿的，都可以超过GPT3.5。那么GPT3.5就已经必须退役了。

退役的原因也很简单：第一个，原来GPT3.5一直挂在那，不是说Open AI没有更好的模型给大家用，而是什么呢？他希望让你去买它的Plus，让你说，哎，你看这个实在是难使吧，你直接升级，一个月20美金就可以有GPT4用了。GPT3.5跟GPT4之间，一定要有一个很明显的，个人可以直接感知到的差异，你才会觉得我这20美金一个月花的值，否则的话，你会觉得花的不值了。

但是现在其他的模型都赶上来了，你再继续摆这么一个3.5在这恶心人，就已经不太合适了。另外一个是对于免费用户来说，GPT3.5实在是缺乏吸引力，我不愿意付钱，我可以使用Gemini呀，我可以使用很多的其他免费的这种模型。

这些模型，现在已经完完全全超越三点儿五了。所以，这个也是到了该抛弃三点儿五的时候了。另外呢，很多的API代理也让Open AI非常不爽。像我就是用的API代理啊，API代理呢，像跑冒滴漏。像我现在用Open AI的所有API，价格应该是至少打到4折，或者是还要更低一些的折扣啊。我就可以去使用。

到了那么这些的话，Open AI觉得就算是打折，也应该从我这打啊。凭什么你就去打折了啊？这个他是不开心的。而且他现在降到这样的一个程度，为什么这些API代理没有跟进呢？他没利润啊，这些啊，也是会对他们造成一定的影响和损失。

另外，也要开始应对中国了。Open AI肯定发现，封堵了中国IP的API调用之后，Open AI调用数据一定是在暴跌的啊。这个肯定也不是他们希望看到的。

现在我们要讲一下田忌赛马的故事。田忌赛马是什么？就是用我最好的马，对应你这个中间的马啊，用我中马对应你的下马啊。你最上面那个你赢一场算了，剩下的我赢两场。在大模型这个行业里头，其实也是如此的。大家呢会分成不同的层次去竞争，端侧的竞争，就是说我们甭管在手机端、PC端还是各种的啊，设备端吧。那么现在大家在争的是什么？Open AI基本上是不参加端侧竞争的啊。哪怕它是GPT4OMINI，到目前为止，也没有说，这个产品可以给大家在端上使用啊。当然你说，未来会不会把这东西拿到端上来使用？不确定啊。但是至少现在没有说这个事儿。

呃，它这个大家猜测在10B以内，可能7B到8B这样的一个水平上。按道理说，是在手机上可以运行的。对吧，可以在iPhone里头跑。那么是不是说，呃，跟苹果合作了，我干脆就把这东西呃，拿出来就给大家用了。是不是他给了苹果一个类似于一个GPT4OMINI的版本，但是苹果你不允许拿出去再扩散了啊。但是在iOS 18里边，应该会带这样的一个东西，可能性是存在的啊。啊，但是这个事谁都没说。

在端侧竞争上，一般移动端呢，5B以内的跑的是比较好的啊。你如果手机的配置高一些，跑到7B到9B应该也还是能跑的。台式机呢，你到10B左右啊，都是没有什么问题的。包括我们后边讲的这些AIPC，其实AIPC是所有能够跑大模型的台式机里头，水平比较烂的啊。那么工作站呢，就是我们比较高端的台式机，比如说你这里头有独立显卡啊，4090，然后不是4090，你有个四零六零，四零七零那样的独立显卡，或者比如说像我们使用麦克这种呃，M1，M2 Max，或者M3 Max这样的这种机器的啊，那么它就基本上属于工作站级别了。这种机器里头呢，大概跑到三十几B都是可以跑通的啊。再大了跑不动了。

然后像这种个人服务器上，是可以跑到70B的。咱们现在能够接触到的开源大模型，可以到本地跑的，基本上也就是70B，72B到头了。再大一点呢，啊，通1,000问1.5的时候出过一个110B啊，但是那个模型流行的并不是很广泛。

绝大部分都是在七十几币就到头了。这个呢，就是在思域服务器上用的。而且，在70B这个档次上，现在Open AI肯定是感受到压力了。中国团队基本上在70B这个档次上，站稳脚跟了。咱们国内推的各种各样的大模型，基本上都是70B上下的。为什么？因为懒。Meta的LaMa3就是70B的。我们在这个基础上再去进行调整，或者再去进行一些相应的训练吧。我们出到72B，或者七十几B这样的一个模型，效果其实已经很好了。加上RAG，就是本地知识库的这种辅助，加上长上下文，再加上多模态搜索的辅助，效果其实跟GPT-4之间，已经没有那么差了。对吧，GPT-4就是说你不加上这些东西，它也可以回答的很好啊。你如果是加上这些，搜索辅助啊什么的，70B基本上够使。

对于快速反应的这种低价模型来说，大家竞争的是什么？刚才咱们讲的是端侧模型啊。在云端模型其实也是分两拨的。一拨呢，就是大模型啊。大模型是，GPT啊，Gemini Pro这个，呃，Cloud Opus啊，这些就属于大模型啊，比较贵，性能比较高。那么大家都去推这种小模型，特别是另外两家。刚才预三家我们讲了啊，Open AI，谷歌和Anthropic。谷歌跟Anthropic都推了一种小模型，一个叫Gemini Flash，另外一个呢，叫做Cloud Haiku，叫这样的一个名字，都是相对比较小的，很便宜，反应速度很快。原来啊，GPT3，GPT是没有的，现在出来就是要去卷它们。大模型竞争。

咱们自己去比一比啊。这个小模型，你们出了，我也得出一个。所以，咱们回答开题的那个问题：“Open AI到底想卷死谁啊？”他想卷死的是Gemini 1.5、Flash和Cloud 3，嗨酷啊。是选这两个产品，但是要注意啊，Cloud 3.5现在已经出来了。但是3.5呢，只出了Sonit一个产品啊。它是分三个档次的，这种大模型啊。一个叫做High酷，是最小的，估计应该是10亿币以内，也就是7亿左右的一个模型。然后是Sonit啊，3.5已经到Sonit，它呢应该是在二三十亿币。但是都不是对外公开的啊。还有一个叫Opus啊，Opus是最大的，但是Opus到底有多大，可能是上百亿币的一个模型对吧。现在呢，3.5已经把中间这个模型出来了，上下两个还没出，估计呢应该本月会出。

所以在这个时候啊，Open AI说不行，我要把你这个底层的，这个给你封掉啊，让大家觉得啊，就算是用这种底层的小模型啊，这个也有一个更便宜的Open AI来用啊。这是他真正要去干的事情。那么对于开源模型来说的话啊，就是本地部署这个呢，Open AI应该不在这个赛道上啊。它有可能说，我用一些必源的模型，直接跟苹果，跟谁去合作，这个事可能是存在的。但是呢，他不会说我到GitHub上，到HuggingFace上，直接把这个GPT40 mini扔出来啊。应该不会干这个事情。

那么对于中国团队来说，到底有没有弯道超车的机会？这是一个值得探讨的问题。

这也是我们开题上的一个问题，对吧？“卷”就一个字，在这个字上呢，中国团队绝对是遥遥领先的。中国现在已经开始卷下一个层次了啊，在上一个层次里头，中国团队发现：哎，我只要把模型推到七十几，对吧，加上搜索辅助，加上reg，加上这个啊，长上下文，效果已经非常好了，对吧，不需要再往前推进了啊。真的效果非常好了吗？很多人说你是不是吹牛啊。他这个事是这么算，就是再有相差的这部分，个人感觉不出来，因为人的感受有时候很主观的啊。你不可能说：哎，我去招聘了，对吧，我一定要挑出最好的那一个来，不可能的。你一定是找了一个相对顺眼的，然后磨合了一段时间，发现：哎，这个工作还能干得下去，日子也能过得下去啊，也不讨厌，你就可能一直用这个人用下去。你不可能说：哎，旁边这个人，好像比我招的这小伙子，还要更厉害一点，对吧，我就马上把我这开了，把那个人招回来，不会干这个事了。在这样的一个情况下啊，我们只要用习惯了，慢慢的对于我们已经招聘进来的人，就会有更高的容忍度。为什么要讲招聘的故事呢？其实我们使用大模型的过程，跟招聘的过程差不多。在挑选的时候，我们一定是非常小心的，来去确定到底哪一个适合我们，我们的这个任务，它是不是可以很好的完成。一旦你把它挑进来了，下一件事是什么？就是我们要去跟他磨合，怎么能够跟这个大模型一起，把我们要做的事情做完。当大家互相习惯了以后的话，你不会说：哎，那个更好，我马上换人的。一个大模型，它是有很高的粘度的。

所以，中国团队在70亿参数这一块，基本上已经达到了一个阶段，我们可以说，我们已经能够吸引一部分用户，而且这部分用户愿意留下来，持续使用我们的产品。再往前推进，当你提到我现在发布的几千亿参数的模型，也就是几百亿参数的这类模型时，第一个问题在于训练上，我们可能还没有完全搞明白，应该如何应对这个挑战，因为目前开源出来的就是70亿参数的模型，再大的版本现在还没有开源，所以这件事情还搞不定。

那么再往上，你说我们闭着眼睛去研究一下行不行？也不行，为什么呢？因为越大的模型，你训练的成本就越高，而且越难去控制。在这种情况下，我们可以说，我们就停在这了。那么停在这，中国团队现在在干嘛呢？他们搞APP开发，搞各种接触用户的方式，我们现在要去获取所有用户，这是我们已经开始卷的东西，Open AI还没卷到这呢，我们其实已经开始弯道超车了。

你说Open AI不是也有APP吗？它有安卓APP，有iOS APP，甚至最近还开始出Mac APP。但是你要想清楚，中国人做的是什么呢？聊天、搜索、绘图、情感陪伴，都整合在了一个APP里头。而且，我们的APP是Windows、Mac、安卓、iOS全都有。你说Open AI自己为什么不做一个Windows APP？亲爹不让啊，谁是亲爹？微软。微软说这个事情打住，我在那边玩Copilot，你自己不要来找这个事情，你到Mac那边去玩耍就可以了。有什么问题，去霍霍苹果，不要来霍霍我，这个他就没法整。而在中国，你看看啊，豆包，所有的平台，都在积极地推进和用户接触的策略。

Windows、Mac、iOS、安卓，全都出齐了。而且，它还把所有的功能都集齐了。像Open AI做的Mac版的APP，只能干嘛呢？就是回答问题。也就是说，你可以听话，可以去语音识别，他就干这些事情就完事了。中国的就什么都可以干啊。你让他去唱歌跳舞，让他去画图，让他去做图像识别，包括各种的角色扮演，就是Carrot AI做的那些事情啊，咱们也都可以搞定。只要是外边有的，只有咱想不到，没有咱做不了的啊。这一块还是非常好用的啊。我现在用的量很大的就是豆包APP啊，非常好使。然后另外一块我们再卷的是什么呢？啊，Chrome的这个插件啊，就是在浏览器上做插件。因为现在的浏览器，基本上都是Chrome的内核啊，甭管是Chrome的啊，还是这个微软的Edge，底层都是Chrome啊。所以我们现在在上面做插件，甭管是Kimi还是豆包，都在上面卷插件。而且那个插件的功能，那全的是一塌糊涂。你一旦在浏览器上装了豆包插件了，然后你去用谷歌搜索豆包，就在侧边栏开始对搜索结果进行总结。你说哎我现在去看一下YouTube，马上旁边就开始给你做，我给你做个视频总结吧啊。甚至说你在这看YouTube的时候，他说我给你翻译个字幕吧。或者我随时在浏览器里头，选中一个单词，选中一句话，他说我帮你翻译一下吧。或者说你在浏览器里头有一个空格啊，或者叫有一个输入框，需要你输入信息的时候，他马上跳出来想输入点什么，我帮你润色一下。

要不要从上到下，事无巨细，只要他能粘手的地方，全都给你冲上来？说来，我在这呢，让我看点什么吧。或者说你现在浏览一个网页，说帮我总结一下。那这是人家的本行，干的甭提多好了。这一块，中国已经彻底卷风了啊。那你说美国人不做这种浏览器插件吗？也做，但是呢，美国人做都是小团队或者个人做。那你跟像豆包这种，可能后边有好几十人，上百人的团队，大家领着薪水，加着班，然后疯狂的往前卷。这事谁卷谁啊？对吧，你肯定卷不过他。现在在接触用户这角度上说，甭管是做APP，做浏览器插件，这啊，中国团队已经弯道超车了啊啊。

至于说Open AI，现在再去推出的GPT4 Omni，实际上它已经是在追赶其他人，但不是追赶我们啊。它在追赶的是谷歌的Gemini Flash和Anceropic的啊，CloudHi苦啊，在追赶这两个产品，希望把他们卷死。我们现在已经在另外一个层次上，在卷了，等他们把这仗打完了以后，发现哎，这个用户都已经被中国团队卷干净了啊。可能会出现这样的情况。

好啊，这个故事就跟大家今天讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣，有能力的朋友加入我们的付费频道。再见。

揭秘AIGC如何颠覆生活与工作，流量争夺战：从ChatGPT、MidJourney、Copilot、DALL·E再到AI Agent流程，大数据时代的博主生存法则！AIGC如何革新数字时代工作模式？

Luke Fan — Sun, 14 Jul 2024 00:57:38 +0000

大家好，欢迎收听“老范讲故事”的YouTube频道。今天，我们来讲一讲AIGC如何改变我的工作与生活。之所以录这个视频，是因为我应邀参加了一个访谈，题目就是“生成式AI如何改变我的生活与工作”。

啊，我是从什么时候开始接触到AIGC的呢？或者叫生成式AI的呢？应该说，第一个产品是Github Copilot，啊，一个自动生成代码的产品。第二个产品呢，是Midjourney，啊，一个可以画图的产品。这应该是在2022年，5月6月左右的时间。大家注意啊，那个时候，ChatGPT 还没有爆火。应该是在2022年11月左右，啊，GPT 3.5突然爆火，大家才知道，说有AIGC这样的一个东西出来。在这个之前的话，一般管这个叫做生成式AI。当时呢，我还录了节目啊，有节目为证。Github Copilot如何震惊到我了。我们觉得，有了这样的一种生成式AI以后，程序员的工作与生活会变得多么不一样。Midjourney刚刚发布的时候，当时Midjourney应该还是啊3.0的版本，还没有到4.0版本。现在我们使用的是Mijourney的6.0版本了。当时我们已经可以画出很多很有趣的图画出来。我记得啊，Midjourney最早改变我生活的是什么呢？就是我生成了一个自己的迪斯尼风格的3D头像，把这个头像发布到了推特上去。呃，我正常一个推特的阅读量，应该是几百条，因为当时的推特的关注数还比较少。这一条推特发出去以后，阅读量突然飙升，我收获了成千上万的点赞和评论，这让我意识到生成式AI的影响力，以及它如何迅速地融入并改变了我们的生活和工作方式。

我的这一条推特的阅读量，应该可以达到几十万，甚至还要更高一些。到不到百万，这也算是改变我生活的一个案例吧。原来，一个不会画画的人，一个只能在推特上用他匮乏的言辞去表达自我思想的人，可以通过一幅画得到这么多的流量，得到这么多的关注啊。这深深震撼到了我。再到2022年的11月份啊，DALL·E横空出世，AIGC这个名头就算彻底火了。对于我来说，流量才是AIGC天生的组合。你说我用AIGC生成了内容，这些内容我拿它去做了科学研究，拿它去做了各种各样的伟大的事情，其实意义没有那么大啊。对于我来说，AIGC可以获得流量，可以被更多的人关注，可以被推荐算法所推荐，这才是AIGC真正有价值的地方。AIGC极大地降低了内容创作成本，提升了生产质量，提升了生产效率。当有了更多内容之后，下一件事呢，就是要争夺更多的用户时长。在DALL·E刚刚发布的时候，我就已经预见到了这一点。我们的用户量没有上升，我们的用户使用时长没有上升，那么当内容不值钱了以后，人和流量就会变得越来越贵。经过了两年啊，我觉得我当时的猜测和预言吧，逐渐在被证实。我们讲一个小故事啊，以前经常有很多饭馆和包括一些酒店，会去做抽奖啊。怎么做呢？就是往一个盒子里头，不透明的盒子往里去扔名片。等这个饭馆的老板或者酒店的老板，从这个盒子里头摸出某一张名片的时候，你就可以免单啊，或者是得到一些住房券。怎么能够提高中奖的概率呢？

大家有没有思考过这个问题？方法很简单啊。多放几张——你想啊，一大家都在往这个盒子里头放名片。如果你只放一张的话，比如说这盒子里有啊，100张名片，你中奖的几率就是1%。当我放两张的话，就是2%啊。当我一次把一整盒名片，一整盒应该是100张名片，把都扔进去，那我不肯定中奖吗？

AIGC来了以后，我们可以往盒子里多放一些名片了啊。你中奖的机会就会上升。而且呢，AICC给我们赋能，让我们拥有了一些原来没有的能力。一个不会画画儿的人，现在可以去画画儿了。而画儿对于用户的点击，对于情绪的感染，绝对是比文字高非常多的。所以，AIGC呢，可以让我们创造更大量的内容，在推荐算法，在流量的洪流里边去获得更多的流量，获得更多的关注，也就是说，获得更多的金钱。这是AIGC对于我来说最大的改进啊。

让我来还原一下，一个日更科技、创投、互联网、流量方向的博主，每天是怎么工作的啊。然后我们再去看，说AIGC到底怎么改变这个工作。我每天的工作是从阅读和选题开始。我先要看看今天有什么新闻，然后选一些题目来进行个人的演绎。对于我们来说呢，讲的永远是叫大众话题的小众观点，对吧。你说我如果讲一个很小众的话题，没人听。如果我也讲一个很大众的观点啊，大家都这么讲，我也这么讲，也没有人听，而且讲的也没意思。那么一定是大众话题的小众观点。所以第一件事呢，我们先要去筛选话题啊。那你说，你不能自己去讲一些独特的东西吗？人生短短几十年。

你要是讲自己的人生经历，估计一个礼拜就讲完了。啊，所以每天第一件事是阅读和选题；第二件事是撰稿。撰稿的话，就是具体要讲什么，还是要去写一个简单的稿件呢？对于我来说，写的是提纲，对于我，逐字稿是不适用的啊，因为阅读起来有一些障碍。然后呢，是录制，就是真正拿设备也好，拿手机也好，把整个的稿件讲出来。再下一步呢，是剪辑——你录完了以后，肯定还是有一些不是那么满意的地方，要把它剪掉。再下一步呢，是进行点击率和SEO优化。什么意思？呃，就是YouTube也好啊，TikTok也好，任何这种视频平台，想去推荐我们的内容，或者想去理解我们到底在说什么，其实是有难度的。那在这种情况下，我们就需要给他一些信息，说我们今天到底想什么，通过标题，通过简介，通过分段信息，通过标签，把这些东西呢，告诉YouTube也好，告诉TikTok也好，告诉这一些推荐算法啊，推荐引擎，然后呢，他们才可以啊，根据我们提供的这些信息，去将我们的内容，推荐给他们认为应该看的人。这一块呢，是有很多需要优化的地方，包括用户看完了以后，如何提高点击率，比如说，YouTube把我的视频给一些用户看了，然后看的过程是展示在这个页面上，用户到底点不点，这是我要关心的事情。用户点击率上升了，那么YouTube认为说，哎，这是一条很好的视频啊，我应该推荐给更多的人看。如果用户去搜索了，那我怎么能够让这些搜索关键词，命中我的视频，而且在最后。

YouTube给出的视频搜索结果里头，排的性可能是靠前一些。而这也是我们需要去思考的问题。这个是我们录完剪辑完视频以后，要去干的事情。做完这个事情以后，我们就可以把视频发布到平台上去。然后呢，进行数据回收。啊，什么叫数据回收？就是到底有多少人看了呀，点击率怎么样啊，评论都是什么样的，有多少人点赞了呀。然后呢，再进行新内容的调整。我下次怎么吸取经验教训，把它做的更好一点。总之呢，要形成一个闭环。当我总结了一定经验教训以后啊，我再去选题的时候，我看选一些什么样的题目。这是一个完整闭环啊。

那么，从一个Youtuber的角度上来看，让我们来看看AIGC到底是如何来提高我的效率的。先说错误的选项啊，首先，要告诉大家啊，他到底什么不能干。因为AIGC现在有很多课程，很多人上来去告诉你啊，这个东西无所不能，你什么都不用干，就可以躺在这挣钱了啊。首先，要告诉你他不能做什么。第一个，要放弃AIGC肯定是不可取的。你说别人都用，我不用这事肯定不行。为什么呢？逆水行舟，不进则退。AIGC是提高我们创作效率的。你创作一条，我可以创作10条。就像我们在一个名片箱子里头，去抽奖的过程中一样，这个箱子里头有你一张名片，有我10张名片啊。那么，抽出来我的名字的几率，一定是更大的啊。所以，一定不能放弃。第二个呢，叫不劳而获，也是错误的。任何人告诉你说哎，你使了AICC以后，你就可以自动起稿，就可以自动生成稿件。请注意，这里应该是AIGC，不是AICC。

在当今的数字时代，确实存在一些关于数字人或虚拟人物能够自动创造收益的神话，你或许会听到这样的话：“拥有一个数字人，你就可以躺着挣钱，无需任何努力。”然而，对于这些言论，你需要保持警惕，因为它们往往出自那些意图收取智商税、推销课程的骗子之口。切勿轻信这些承诺，它们通常都是虚假的。

在构建个人品牌或内容创作的过程中，我有一套完整的闭环策略，特别是在作为Youtuber的旅程中，我巧妙地结合了人工智能生成内容（AIGC）的应用。这一切的起点是阅读和选题。为了提升阅读效率，我自建了一个RAG系统，亦即个人知识库。这个系统能够存储我从网络上筛选出的大量信息，随后，我通过向知识库提问的方式，快速获取所需知识，极大地提高了阅读速度。这样一来，我不必通读整篇文章，特别是针对那些为了吸引点击率和延长阅读时间而采用夸张标题的文章。这些文章往往利用夸张的标题吸引点击，一旦点击量增加，推荐算法就会给予更多曝光。同时，为了在文章中插入多次广告，一些写手会将关键信息放在文章后半部分，迫使读者阅读冗长的无关内容。面对这样的文章，阅读体验无疑是痛苦的，浪费时间且信息重复。

因此，在这个信息泛滥的时代，构建高效的信息筛选和处理系统，显得尤为重要。通过使用RAG系统和AIGC技术，我能够更高效地获取和利用信息，避免时间的浪费，专注于创造真正有价值的内容。

没有意义的内容啊，但是，我一旦把它扔到这种个人知识库里，以后我就可以通过AI搜索，直接找到相对应的重要信息出来啊。这是我用的第一个工具。第二件事呢，是撰稿——就是我还是要去写这个提纲。现在呢，我也用AI提示词做了一个专门的保健，或者说提纲优化的一个过程。在这一块呢，我觉得AI起到的作用还没有那么大，因为AI给我的结果并没有那么让我满意。经常是它出了一个稿件之后，我最后会扔掉重写啊，这个没有办法，因为我没法确定，到底是自己直接做的稿件更好一些，还是AI写的稿件更好一些。因为这种内容的结果回收周期太长，污染因素太大，所以没有办法简单地做A/B测试啊。但是，作为一个视频博主，我是要坐在这讲这个故事的，只有我自己写的稿件，我可能讲得更痛快一点。做视频博主很重要的一点，不是说有多少人看你，你自己先得把自己讲开心了。如果你讲得越讲越痛苦，越讲越难受啊，那么听的人也会感受到这一点的啊。所以在撰稿这一块，我虽然使用AI，但是并不依赖它啊，而且我觉得AI在这块还有待提高吧。录制这一部分呢，我只能说，我的各种设备都号称使用上AI了，但是具体怎么用的我也搞不清楚，就据说是有各种AI优化美颜啊。对，你们看到了我吧，这个还是有一定的AI参与。在剪辑这一块的话，AI其实是帮了大忙的。现在呢，各种的剪辑软件，都有专门的AI剪口播的这种功能啊，他会先把我们讲的内容，整个识别成文字，然后根据内容的连贯性和重要性，自动剪辑成一段流畅的视频。这个过程大大提高了我的工作效率，让我有更多的时间专注于创作本身，而不是技术细节。虽然AI在某些方面还有待提高，但在剪辑方面，它的表现确实令人满意。

然后，再将其中的重复语气词删掉，把空白时间直接自动删掉。我们还可以直接根据文字去剪辑视频。原来剪辑视频是很麻烦的，你需要看这个地方说重复了，需要找到这句开始的地方，一句结束的地方，再把它删掉。现在，已经完全不用了。现在，你只要在文字上去删删改改，就可以得到最终的视频了。但是，这一块还不是那么成熟，就是你删是没问题的。你说，我想改几个字，这事就费劲了。因为改的话，它需要重新平衡你的语音，重新生成你的口型。在这块，有一些工具在做，但是成本很高，效果也还没有那么好。我相信，可能在不久的将来，这一块也可以补上。

至于说自动配音和数字人，我尝试过，效果一般。我可以写一段话，它就自动的给我配音去了。也找了一个人在那给我稍微演绎一下。这个有，但是不喜欢。至于说自动的字幕优化、翻译和高亮这一块，这是现在剪辑软件最新的功能。原来，这些字幕会自动的给你识别出来，但是这个识别，是做的传统语音识别。传统语音识别的话，就有一个很严重的问题，就是一句话，它其实很难去判断里头每一个字具体是什么，所以它错误率很高。那你说，AI怎么这么笨。这个跟AI没关系，我们如果是人的话，去听别人单独的说某一句话或者某一个单词，你可能识别正确的几率也是不高的。但你说，我们没感觉，听人说话听不明白，那是因为什么？有上下文，以及有各种生活习惯。你把它这些东西综合在一起，进行考量的时候。

识别的准确率就会上升。所以现在，在AI识别字幕的这个板块里头，也应用上了这些知识和功能。现在的字幕识别已经相当准确了，但不是完全准确。然而，准确率已经上升很高了。而且，AI识别完字幕后，还会自动地将它认为相对重点的地方标注成比较明显的高亮，让用户看到字幕的时候知道这一块相对来说重要一些。它还可以进行自动翻译。其实，翻译对于它来说相对容易，就是它可以把我们的内容变成中英双语字幕。只是，现在这个交互的过程还有一些问题。你想让它再提高准确率，其实已经挺难的了。应该是什么呢？就是先去识别，然后呢，有一个跟用户交互的过程，让用户去进行错误修改，或者告诉它说哪一块你没听清楚的词应该如何去纠正。这样的话，可以慢慢地让AI熟悉我们的语气语调，熟悉我们各种口头禅，熟悉我们的各种发音，然后可以逐渐提高准确率，也可以进行一些特定的修订。应该在这个之后再去做翻译，否则的话，就是属于完全单纯的浪费算力了。所以，很多跟AI相关的操作，不是AI有多厉害，而是我们的交互应该如何设计的问题。这一块呢，也有待提升。

待字幕处理完了以后，我现在的整个拍摄环境还是相对比较杂乱的。所以呢，我会进行AI抠像。这也算是多模态识别吧，把人抠出来。后面呢，用me journey再去画一幅跟我们今天讲的话题相对来说比较贴近的背景，再把人放上去。哎，也算是一个AI应用。

这是关于剪辑相关的内容。再往后，点击率和SEO优化也全都是AI干的事情。封面很重要，因为用户在决定是否点进去之前，先要看封面。这个时候，Mijourney又大显神通了。我们现在能够使用到的画图软件，基本上是三个：第一个是Mijourney，第二个是Open AI的DALL·E 3，第三个是Stable Diffusion。国内使用的，诸如“同1,000问”、字节跳动，基本上都是Stable Diffusion的各个版本。

在这三个画图软件里头，Stable Diffusion的特点很明确：稳定性非常好，但是艺术性差一点。操控要稍微麻烦一些，而它的优点就是稳定性。你要求它按照统一的风格，出连续的内容的时候，它相对来说要好一点，所以更适合工业生产。DALL·E 3是Open AI的这个产品，它语言理解能力非常强。当你跟它说我要画什么的时候，它是所有这些工具里头理解能力最强的一个。但是它的艺术性要稍微差一些。但是看各取所需吧，有些人说我不需要那么精细、那么艺术的这种内容，但是我希望我讲的所有东西都给我画出来，那么在这个时候，DALL·E 3会更适合一些。

我也在用，Stability AI我用的很少。最后一个就是我常用的Mijourney。Mijourney的最大好处是什么？就是它的艺术性最强，感染力也最好。但是它的缺陷是什么呢？就是稳定性可能没有Stable Diffusion那么好，而语言理解能力可能没有DALL·E 3那么强。不过，如果你追求的是艺术性和感染力，Mijourney无疑是最佳选择。

稳定性没有那么好啊。你每次让他画的时候，他未必会出来统一风格的内容啊。第二个是什么呢？就是他对于文字的理解能力呢，也要稍微差一些啊。他毕竟不是一个语言模型，对吧？他是一个画图的。你给了他太复杂的描述了以后，他可能理解不了啊。这是它的各自优缺点啊。对于我来说呢，啊，最主要的是用me journey，用me journey画封面了以后啊，再加上一些其他的工具，做出视频的封面来。再下一步是做标题啊。标题这个东西呢，呃，我现在基本上都是让AI去声称标题。要注意啊，前半截，或者说前面十几个字是给人看，后面呢是给机器看的。它什么意思？因为人会会看到标题，然后他看到标题以后，会决定点不点进来。对吧？所以前面是给人看的。那为什么人不看后面的呢？因为我们的标题后面的部分，都变成点点点了。甭管是YouTube还是TikTok，后面都是点点点啊。TikTok你可能连标题都看不见啊，直接划过去了。YouTube是可以看到标题的。那你说我就写前面这个简短标题，不就完事了吗？啊，不要这样啊。当你去搜索的时候，比如说吧，我今天要搜索open AI这个词，你的视频里它出现了，我的视频里也出现了，那么谁排前头呢？如果我这个open AI这几个字，出现在标题里头，我这排前头。如果是出现在简介里头，也可以排的相对靠前一些。你说我标题简介里都没出啊，我只是出现在啊标签里面了。因为它是允许我们在里面去打标签的。那这个呢？

就会出现在最后，或者可能压根对这个搜索结果排序影响就会比较小。它是有权重的，所以，我们要利用人看不到的这个部分标题，尽量呢把一些搜索高频的词放上去。这样的话啊，在用户使用搜索的时候，我们可以占到一些小便宜。那么你想去啊，写出这么复杂要求的标题来，你还是让AI去干吧。甚至呢现在还有人去总结出经验，比如说这种咆哮体标题啊，我不能允许你不知道，99%的人都不知道，就属于咆哮体。包括像小红书，二极管式标题也是这样的啊，只有我知道的秘密这个事情，难道你还不知道。反正有很多这样的标题风格啊，这个也是允许我们直接写提示词，让AI来替我们生成的。这是标题啊，简介呢也是如此的啊。简介我们会呃给机器看，你说有没有人去看那个简介，有啊但是很少。绝大部分的简介是机器看的，在谷歌啊，或者在其他的这种平台上，在搜索推荐的时候，由机器来去读取这些内容，来决定把我们的内容推荐给谁。所以简介呢，我现在完全是由机器生成的啊，我的标题，我一般是机器生成完了以后，会人工去改。简介基本机器生成完了我是不改的。

再往后呢，是做分段信息。AI呢，也可以去自动的给我生成分段信息，我这个视频第从哪个时间点开始讲哪一段，从哪个时间点开始讲哪一段。这个呢是盖码史啊。如果用户点开你的视频以后啊，他不想从头看，他想从中间哪个地方开始看，他可以直接点击分段信息往后走。另外呢，所有分段信息是先加入搜索的。用户搜完了以后说。

我想搜一个什么什么内容啊，你这里的写好分段了。我的视频是从几分几秒以后讲，这一段内容，你有可能直接被搜索命中啊。搜索命中了以后，一点就进去就可以看了。然后是视频的标签啊，你可以给视频打很多很多标签啊。那么这些呢，通通都是由AI自动生成的。我呢，自己写了一个AI agent啊，写了一个很长的流程。这个流程输入什么？输入的是字幕。刚才我们讲了，我们在剪辑的时候，已经生成了字幕了。我把字幕扔给这个AI agent，它会一步一步的去完成，刚才我们讲的所有工作：生成标题，生成简介，生成标签，生成分段信息啊，生成一个完整的博客。最后我还会把所有内容，生成一个完整的博客。这些博客呢，我也会贴到一些博客网站上去啊。为什么呢？啊，有些人说我不，我不能给你字幕。你给了你字幕以后，你们就不好好看我的视频了。啊，你都用YouTube GPT啊，或者说Tube GPT，用这样的工具去看。我不开心了，你让我没有挣到广告费啊。千万别这么想，哈哈，为什么？就是，当你提供更多的内容到网上去以后，啊，真正能够看到这些内容的，其实不是人啊，而是搜索引擎的爬虫。当他爬到了以后，我们就又有被谷歌，搜索引擎去命中的机会了。比如说我写了一篇博客，把我的一个视频录完了以后，把博客贴到我自己的网站上去了，那么就有可能会被谷歌搜索命中啊。命中了以后呢，用户大概率还是会回来看视频的。永远不要跟流量过不去。我们到啊这一步了。

是后期点击与SEO优化啊，再下一步是数据回收与再优化。这一块呢，基本上目前还是人工在处理啊。未来是不是有机会改成AI处理呢？啊，那是未来的问题了，现在还搞不定啊。我每天还会去看数据啊，看评论，然后来决定未来的内容怎么做。下一步说，我们可以如何更进一步的使用AI来改进我的工作呢？前面是我现在已经做到的，未来的是，以后边是一些未来畅想。

第一个呢，内容收集和整理还可以进一步优化。那我现在的处理方式是先去阅读啊，然后录入到机器的数据库，或者本地知识库里头。以后再通过AI智能搜索，得到我所需要的信息。但是我们真正去做研究的时候，会怎么样呢？会进行延展的阅读。那么我可能会再去写一个更复杂的AI侦探流程啊。当我搜索结果之后，然后我会在搜索结果中啊，自动的，再去生成进一步需要去探索的信息啊，进一步需要去收集的数据。把这些东西拿出来以后，再进一步去搜索，再进一步啊，结合我内部的个人知识库，或者是外部搜索的一些结果，得出更复杂的或更完整的调查结果出来啊。这是可能未来要做的事情。

我的评论内容啊，应该会自动的阅读，至少要统计，这个事还是应该去做的。现在呢，并没有做啊。我现在是人工去阅读所有的评论啊，找有趣的去回复啊。以后的话，我会去啊，让AI去读所有的评论，但我不会让AI去回复的啊，因为AI回复的话，是对所有给我发评论的人不够尊重啊。但是我会让AI去统计啊，哪些评论特别有趣。

在评论区中，一些明显的风向或思潮正在流行，这是AI可以自动总结的。下一步的目标是自动总结评论中的主流观点或情感倾向。至于短视频的自动剪辑，这是一项我尚未着手的工作，但我认为这是应该去做的，也希望AI能在这方面给予我一定的帮助，或是提供剪辑建议。不过，这可能还需等待AI剪辑软件的进一步进化。我自己直接完成AI短视频剪辑，可能仍有些许难度。

AI视频生成，以及音乐和音效的智能生成，这些领域我正在尝试，但尚未找到实际应用的方法。之前我提到过，AI在内容生成、代码编写、图片生成方面，我都有所涉猎。对于AI生成视频，我试用了目前几个较为领先的产品，但使用方法仍需探索。我曾尝试将用majority画好的图交给AI视频生成软件，让它生成动图，再将这些动图作为视频背景，但用户反馈不佳，他们认为太过杂乱，甚至不如静态背景图，这样他们可以专心听我讲故事。

当前AI视频生成的可控性和艺术性尚未达到理想状态，我们还需等待其进一步进化。至于音乐生成，我尝试过几次，但生成的音乐连我自己都难以忍受，因此未敢拿出来“污染”大家的耳朵。期待未来AI音乐生成能有更合适的发展。

技术，或者更进一步说，技术的进步，有了更好的商业模式。有的时候，其实跟技术没关系。就是当大家都生成了很好的AI音乐，因为它成本降低了，决定把这些音乐无版权的开放出来，给大家用。然后再有一些筛选的机制，能够自动的筛选出来，我应该用的音乐的话，可能我以后会去用这些音乐。但你让我自己去生成音乐，短期内应该不会去做。至于更进一步的剪辑呢，比如说AI的一些，呃，阿巴塔，不是说数字人，而是什么呢？我可以跟AI的一些虚拟形象进行问答。这个，可能是未来我希望有的一些功能吧。至少现在还做不了运营数据，或者说，我视频播放数据的回收，以及优化建议呢。嗯，未来应该也还是会用AI agent，再去做一个。目前还没有开始做这个，工程量稍微大了那么一点点。这也是未来需要去思考的一个问题。还有一些什么可以用AI来做的呢？就是更多的，人与人之间沟通的润滑剂，也是很适合AI去在里边去尝试的一个方向。什么叫人与人之间沟通？比如很多的博主，我们经常会一起去录一些节目。那么在这个过程中，AI可以去给我建议说，哎，这个话题你去找谁谁谁去录，其实会更好。包括他可以帮我去看一些别人的视频。因为我现在每天自己去阅读，撰稿，录制，剪辑，上传，优化等等，这个过程的话，没有那么多的时间去看其他人在做什么。嗯，这一块的话，AI其实是可以给我一些帮助。其他人都在做什么？哪些话题更有趣？哪个话题更受欢迎？

技术的进步，尤其是AI技术的发展，正在改变商业模式和人与人之间的沟通方式。AI音乐的低成本生成和无版权开放，使得音乐的使用变得更加便捷。AI的筛选机制能够帮助用户快速找到适合的音乐。未来，AI将不仅限于音乐领域，还能实现与虚拟形象的问答互动，提供更个性化的体验。在数据分析方面，AI能够回收和分析运营数据及视频播放数据，为优化提供科学建议。此外，AI还能在人与人沟通中发挥润滑剂的作用，例如，为博主提供话题建议，分析他人视频，节省时间，提高效率。AI技术的广泛应用，正逐步改变我们的工作和生活方式。

你可以跟谁谁谁去讨论一下啊，或者两个人一起去做一些联合直播。这是AI可能能够大展身手的一个地方吧。总结一下，AIGC或者叫生成式AI呢，肯定是一场革命。在AIGC时代呢，一个人就是一支团队啊。像刚才我分享了我工作的整个过程啊，所以你们看看啊，我基本上是按照一个整个团队在工作的啊。与AI在一起呢，主要是要卷那些不用AI的人啊。有一些人说我就不使啊，那我们就卷死他，不用AI的人。最后呢，只会留下来很少的一部分精英，作为文化遗产传承下去也就可以了。给大家表演一下，就跟日本这个寿司仙人一样，你就去看一下他的表演。但你说所有日本人吃寿司，都是需要那么做吗？这个事是不行的。找到自己的定位啊，做人适合做的事情，让AI去做AI适合做的事情。这是非常重要的啊。就是在我们去使用AI的时候，一定要注意：AI不是无所不能的。里头怎么去让他干他擅长的事情啊，这是我们需要注意，需要不断尝试和碰撞的地方。永远不要相信不劳而获啊，这个一定要大家记住啊。大家都在寻找新的机会与定位，社会是不允许不劳而获的啊。为什么呢？因为如果不劳而获可以在社会中生存的话，整个社会会发生崩塌的。这会破坏社会的稳定性与发展啊。所以千万不要相信不劳而获，所有对外宣传不劳而获的人都是享受智商税的人。好啊，这就是这一期的内容啊。这一期内容里边提到的各种的流程，我一般会在付费频道里头跟大家分享。

说：“哎，这个流程具体是怎么做的，对吧？或者有人希望说：‘啊，我希望了解一些很特殊的流程，应该如何去做。’你也可以跟我讲，我会在付费频道里去录出来。好，啊，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群，也欢迎有兴趣、有能力的朋友加入我的付费频道。再见。”