AI应用 – 老范讲故事｜AI、大模型与商业世界的故事

微软裁9000人，士气转入低落？股价飙升vs士气崩盘：华尔街为降本增效欢呼，谁来为幸存者的心理创伤买单？— 揭秘Google与Microsoft裁员潮下的Job Security危机与长期Impact

Luke Fan — Tue, 23 Sep 2025 01:21:39 +0000

AI导致的裁员席卷全球，企业裁员之后真的走向辉煌了吗？

大家好，欢迎收听老范讲故事的YouTube频道。看到这样一个标题之后，大家想到的是什么呢？其实绝大部分的人都是被裁员的人，或者等待被裁员的人。我们基本上是没有机会去参加裁员决策：什么时候？要裁什么人？裁多少？我们每一个人都是被动接受裁员的那个人。像我现在已经被裁员了好几年了，在家里跟大家聊闲天呢。大家觉得，这个事有讨论的价值和必要吗？

为什么会想起录这样的一条视频呢？在X上我今天看了一条帖子，说微软最近疯狂乱裁员，很多人都很焦虑，朋友圈里不少人都不幸被“分手”了。员工士气方面，据说已经低至谷底。连续的裁员让大家人心慌慌，很多人都害怕被AI取代。2024年《应用心理学杂志》的一项研究显示，在积极采用AI的科技公司中，士气平均下降了30%。微软这里的情况绝对是典型，最近的9,000人裁员新闻一出，大家都感觉到AI不是在提升效率，而是在直接抢饭碗。

我看了这样的一条推，我首先要去ChatGPT上去核实一下。现在不能看着什么事，特别是在社交媒体上，看到什么样的文章我就全信。所以上去核实了一下，首先呢，ChatGPT告诉我，在《应用心理学杂志》2024年研究“积极采用AI的科技公司士气平均下降30%”这篇文章是不存在的。很多研究都在做，也确实在论证工作不安全感、福祉和绩效的关系，但是呢，并没有明确的30%的这个量化指标出来。微软7月份呢，也确实是裁员了9000人，这个事呢是没有任何问题，被确认了。而且微软5月份还刚刚裁了6000人。

留下来的员工，到底能不能好好地干活呢？这个是每一个需要去做裁员决策的人都要思考的。在公司里头，特别像财务部，还有像CFO就这些部门，他们会去思考说，我应该如何去降本增效，这就是他们的一个工作。因为很多人一说裁员就想到HR，就HR他们思考的问题是，怎么能够让员工可以好好地干活，不断地晋升，在晋升过程中能够创造更好的价值，需要什么人的时候去把人找回来。他们一般是不会去做裁员的这个决策，但是他们会去做裁员相关的这种数据收集，比如说绩效考核。人事需要处理的问题，就是在裁员的过程中不要闹事。

对于最上面的大老板来说，他也是希望裁完员以后剩下的人好好干活。咱们经常讲说，走了的人就让他们走吧，留下来的人还要继续把日子过下去。公司也是如此，你裁完人以后，剩下的人得好好继续干活。这个呢是AI比人强的地方，因为AI是没有情绪的，而人是比较复杂的，容易受到情绪的影响。不会说我们今天把谷歌Gemini的订阅取消了，OpenAI就诚惶诚恐地好好干活，他不会干这个事了，跟他没关系。但是人的话，把你邻桌的小张裁了，这个小王可能就诚惶诚恐地干活去了，或者说他就摆烂了，他会有这样的情况。所以人要稍微麻烦一些。

确实是有很多人去研究这些心理的，留下来的员工会有哪些心理变化，写了一堆论文。第一个讲到的是工作不安感会上升。这个事肯定嘛，你旁边人被裁了以后，你一定会觉得不安的。而且AI本身的不确定性的话，会更大地带来这些不安全感。为什么？因为AI最后到底怎么挣钱，怎么去影响这个业务往前发展，谁也不知道。在这样的一个情况下，就已经开始裁员了。AI本身的形势又不是特确定的时候，也许AI再往前发展一步，可能明天OpenAI开了个发布会，大家又开始去裁员了。所以它并没有像以前说裁完员以后，剩下的人可以好好干下去的这种状态。你可能这次裁完员以后，日新月异的AI让你过两天再裁一次，那你谁有心思留下来好好安心干活？

另外呢，他们总结了这些留下来的员工呢，会有一个叫“幸存者综合症”的一个症状，还起了这样一个名字。幸存者综合症里头都有什么症状呢？第一个是内疚。“你看那个人被开了，我好像干的也没有比他好，他怎么就被开了，我怎么就留下来了呢？”还有些人会觉得愤怒。“大家都干的好好的，都这么努力，你怎么就把我的好朋友开掉了呢？或者你怎么就可以威胁我的工作呢？”还有些人就麻木了。“开除的这个过程中，或者裁员的过程中，跟我的努力、跟我日常的表现也没有什么关系。我也没看出来被裁的人，和我留下的这些人到底有什么差别，那我也就这么破罐破摔吧。”现在很多人说，我们每天的工作10%是干活，20%是留下痕迹，剩下所有的工作都是为了甩锅、摘清责任的。都干这件事情，那这个肯定效率会下降的。

还有呢，很明显的就是对组织的忠诚度会下降。原来呢，大家都觉得我是组织的一部分，我为组织做出贡献，组织也要对我负责任。现在一旦经过裁员以后，留下来的人也说：“你真的对我负责任吗？”才会有这样的想法。这些幸存者综合症，一定会拖累协作以及绩效的，这个是已经得出结论的事情。而且留下来的人呢，会对组织的公平和程序正义感到不信任。

什么意思呢？因为裁员其实分两种，一种呢是像“十一抽杀令”那种，说我们一共要裁多少人，比如裁10%。这个10%各个部门就下去分去了。分的过程呢，肯定是有一些博弈在里头的，你这个部门很重要，他那个部门没那么重要了，这个部门去年业绩不好，这个部门业绩还不错。他会用这样的一个方式去进行讨价还价，然后是一层一层把这个目标分下来的。到最后呢，肯定是有一部分可能跟绩效考核，或者跟很多可见的这种指标没有那么大关系。当这种裁员发生了以后的话，留下来的人就会觉得“这玩意儿公平吗？这个过程合理吗？”特别是他看到有一些说，这个人好像还没有我那个哥们干得好的，把我那哥们裁了，他留下来了，这什么情况？只要发生裁员，内部一定会有这样的思潮上来。另外一种呢就是整个方向调整，你比如说现在大家都去做AI了，原来你跟AI没关系的，这些就属于叫不聚焦嘛，把整个部门裁掉，或者这个部门分配到的裁员指标相对来说比例很高，这个呢大家其实是可以理解的。但“十一抽杀令”这种东西，确实是对整个的士气，对于这些留下来的员工相信程序正义这件事，是有巨大的危害的。

还有一个很重要的伤害是什么呢？就是对AI的信任会下降。员工原来是信任AI的，AI可以帮我提升效率，是一个很好的工具。现在一看，这AI真的是可以抢饭碗的。还有一个什么特别讨厌的呢？就是大家想一想，我们以前最讨厌什么样的同事？干了活他抢功，出了错他甩锅。而AI恰恰就是这么一种东西：效率提升了，老板觉得AI好厉害；出事了，AI是不担责任的，都是使用AI的人担责任。所以呢，他就属于最讨厌的那种同事。经过这种AI造成的裁员以后，员工对AI的信任感一定会下降。

最终的表现呢，一个是士气与生产效率的下滑，这个是一个普遍现象了。还有呢，就是文化与心理安全感的损失，这块呢其实要比效率下降还要更厉害一些。什么叫文化的损失呢？很简单，你比如刘强东说“员工都是我兄弟”，AI是你兄弟吗？AI是不是比员工还听话、效率还高、还不会说谎？那咱们比较一下，谁更适合做你兄弟？那你这个文化不就崩塌了吗？所以AI裁员会造成文化崩塌的。高层想靠AI降本增效，基层呢就会对AI充满不信任，造成这种组织割裂，以及AI项目推行之中的这种阻碍，他们会抗拒这件事情。很多AI应用系统实施的失败呢，也都是来自于这里。

而传统的裁员手段，在AI裁员过程中基本上是无效的。这么多的大公司，他们也是这么长时间，才积累了非常多的裁员经验，裁完员以后剩下的人该怎么办。如果偶然地裁几个，剩下的人你不用管他，大家自己会逐渐地适应。而如果你经常地裁来裁去的话，那你可能就需要去调整一下大家的心理状态。最简单的，请大家吃顿饭，或者出去玩一玩放松一下。或者实在不行的话，我们原来见过什么呢？开批斗会的。为什么裁完员以后要开批斗会呢？你要让剩下的人相信合法性，这老板有合法性，老板做裁员的过程和决定有合法性，留下来的人也应该心安理得地享受留下来的这个成果，把所有以前的问题都怪罪到这些被裁员的人身上。这样他们是更容易让心里得到平静，更容易把这个活干下去。

但你一旦做AI裁员的话，这个就没法整。留下来的都是AI，裁掉的是你的兄弟，你这个事你是没法干的。而且AI裁员刚才我们讲了，它是极具的不稳定和不安全的。因为我今天裁完了以后，明天可能接着裁，过了一个月以后，可能AI的发展又发生了新的大变化，我又可以去裁了。它不像以前似的，可能一年裁个一回，裁过了以后，然后咱们这一年就算混过去了。AI它没有这种规律，而且AI未来到底向哪个方向发展，谁也不知道。所以这个是AI裁员来说，比较大的一个挑战吧。

近些年来，大裁员的公司都有哪些呢？他们裁了多少人呢？刚才咱们讲的是微软。微软2023年1月18号裁1万人，占他总员工数的5%；2024年1月25日还裁了1,900人，主要是游戏相关的。刚才咱们讲的2023年1月18号这1万人呢，是全公司范围内，基本上就是“十一抽杀令”了，把指标发下去，大家就去裁去就完了。在2024年5月7日，在游戏部门继续裁，他当时应该是把动视暴雪收购进来了吧，那么在这个时候进行裁员是合理的，因为原来那种组织机构和人员的效能考核，对于整个的微软来说可能就不太适合了，需要去进行调整。但是呢，具体人数没有披露。2024年6月3号，微软云和虚拟现实部门裁了1,000人；2024年9月12号，Xbox裁了650，Xbox也是游戏部门；2025年5月13号，全公司组织优化6,000人；2025年7月2号，全公司优化9,000人。这就是咱们一开始读的X上面讲的，说最近裁了9,000人，这个数确实是在这里呢。

谷歌呢肯定也没闲着了。Alphabet，现在谷歌是一个品牌，是一个子公司，它总公司叫Alphabet。2023年1月20号，12,000人，在全公司里头占6%，而且也是全公司范围内，直接“十一抽杀令”发下去就开始裁。2023年9月13号，全球招聘团队裁员，具体数字没有公布，但是呢很吓人，裁招聘团队这件事，基本上相当于冻结headcount的这种状态。2024年1月11日，谷歌助手硬件，包括手机、家居硬件，裁员了几百人；2024年1月16号，广告销售裁了几百人；2025年4月11日，平台和设备，就是安卓呀、Pixel、安卓手机，还有Chrome相关的，裁了几百人；2025年5月7日，全球业务销售裁了200人；2025年8月，外包合同工AI评测裁了200人。反正就是一直在裁。谷歌呢并没有进行像微软那么大规模的裁人，但是一直没停下来。

亚马逊人很多的，因为后边他有仓储、有物流，所以他的员工数是很多的。亚马逊的裁员，2023年1月5号，18,000人；2023年3月20号，9,000人。这都是全公司范围内裁的。2024年1月9号，把Twitch裁了500人。Twitch呢是全球最有名的游戏直播平台，像国内的什么虎牙呀，这些都是抄Twitch的，当然虎牙他们混得也不怎么样。2024年1月10日，把流媒体和影业，就是拍电影的这帮人，裁了几百人，就是亚马逊的流媒体平台这块裁一部分。2024年1月16号，广告销售裁了几百人；2024年4月3日，AWS就是云计算这块裁了几百人，一般这种都是裁销售。2025年，图书内容Kindle、AWS少量裁员，应该是百人上下的一个裁员吧。直到2025年的亚马逊，基本上已经稳定下来了。Meta的话，从2022年开始一直在裁员，每年基本上都是上万人的裁。今年1月份还裁了5%，大概是3-4千人。

那些鼓吹裁员的老板们呢，刚才我讲了，你一旦裁员了以后，老板要证明自己的合法性，就是你要证明说我做这个决策是对的，一定会有很多老板给裁员这件事情找出合理的理由来。比如说Salesforce，Salesforce最早的叫SaaS云吧，就是软件即服务的云，他们是典型案例。Salesforce的老板就是说，我们就是要靠AI去裁员，强调AI将帮助公司重新想象工作流程。他的公司从2023年1月的9,000人，下降到了2025年剩余的4,000人。没有马斯克裁的多，马斯克就属于啥也不说，抱着个水槽子就进去了，噼里啪啦就裁干净了。亚马逊的CEO叫安迪·贾西，贝索斯离开了以后上来的CEO，他在讲什么？AI将使亚马逊未来用更少的员工运营，并鼓励员工学习AI工具，以在公司重塑中保持竞争力。那意思就是我们要不断地去裁员，你AI没学好，我就裁了你。

还有一个特别有意思的公司呢，叫IGNITE Tech。这个公司是干嘛的呢？这个公司是不断地去收购各种各样的企业用软件，比如说企业用的销售软件、企业用的客户管理软件。他把这玩意买回来以后呢，把这个软件重新做一下，让它维护起来变得更简单，然后跟它的用户签这种长期维护的协议，让它的用户来去订阅这些企业软件。它们的CEO呢，就去搞了一个叫“AI Mondays”，就是每周一，所有员工必须做AI相关的项目，如果你不做就不行。约80%的员工因为抵制AI而被他替换掉了，这个是真狠。但是呢，他这个其实是可以理解的。你想他干的活是什么？收购了项目，然后呢进行AI改造。那么他收购完项目以后，你总要把原来的这些遗老遗少干掉，那咱们就做AI项目呗。这些人如果不愿意配合，说我原来行业的流程是这样的，你不能直接这么粗暴地对待，这不就有理由吗？直接可以把人开掉。所以我觉得他搞这个事呢，算是一个顺理成章吧，AI成为了一个借口。

那么裁员以后，效果到底怎么样呢？从整个的市场来讲，大家认不认可这件事呢？首先要讲，股市其实还是愿意相信这种故事的。通常呢，哪个公司说我大裁员了，它股票会涨的。Oracle也是裁了几百人之后股票暴涨。当然Oracle涨这个事情原因很多，咱们前面还专门分析过这个事。迪士尼也是在裁员之后股价开始上涨，因为迪士尼前面亏了很多钱，又把老CEO拎回来，拎回来也没什么别的办法，裁员呗，裁完了以后股价开始往上涨。因为你裁员了以后呢，剩下的人呢，也确实可以少掉很多掣肘，而且剩下的人也会很努力地、更高效率地把原来的工作做完。所以呢，迪士尼在这块是有效的。Salesforce呢，裁员之后他们干了一个特别奇葩的事情，用节省下来的薪水去做股票回购，也是有效果的。我不需要把这个薪水发出去影响原来9,000人，现在只有4,000人了，少了5,000人，多出这部分，就是原来该发薪水这部分的钱，我去做股票回购，也挺好的。然后英特尔裁员了15%以后股价上涨。换了华人CEO上来以后，其实他就开始裁员。CEO上来以后第一件事都是裁员，原因呢，一方面是降本增效，还有一方面是什么？就是你总要把原来这些掣肘、原来这些给你捣乱的人把他干掉，要不然谁好好干活？而且也要立个威嘛，也要告诉大家谁能够决定你的饭碗，给大家演示一下，杀鸡儆猴嘛。

那么股市为什么会为这种故事买单呢？原因很简单，所有跟AI相关的裁员，他们讲的故事都是说“我们要聚焦”，我要把这些非核心业务干掉。你比如说像Meta裁的很多人，都是原来做AR/VR眼镜，还有很多呢是做游戏的。微软也是这样，他裁了一堆做游戏的，其他的裁的是行政、销售。裁完了以后剩下来的钱呢，去做AI基础设施建设呀，我去建机房了，我去买显卡了。股市是愿意相信这样的故事的，这叫“聚焦故事”。

最近呢，还有一个特别有趣的聚焦故事，不是在AI领域里头，是在制药领域里头。有一公司叫诺和诺德，直接裁员9,000人，而且这9,000人里头，有5,000人是在丹麦总部的行政人员，跟新的业务无关的部门直接裁掉。比如说糖尿病教育，因为诺和诺德是做各种跟糖尿病相关的药的，他们有糖尿病教育相关的部门，把这些人都裁掉，或者很大部分裁掉吧。那你说剩下的人他聚焦什么呢？聚焦司美格鲁泰，GLP-1的减肥药，就聚焦这玩意。他现在需要跟礼来，跟一堆的做这种复方减肥药的人，跟这个路径相关的人要去竞争。现在中国人也上来了，中国人现在也开始自己做司美格鲁肽类似的药了。就把原来很大的运营体系，就跟他无关的事全裁掉，这个叫“聚焦故事”。现在呢，被裁掉的很多都是什么呢？行政、绩效差的、招聘、销售、非核心业务，大家基本上奔这块去裁，然后集中力量去做AI。

那你说有没有裁员裁出事的呢？也肯定有。不可能说大家都裁员都是一剂良方，吃进去以后就往前走了，这是不现实的。首先呢，咱们讲刚才那个IGNITE Tech，就是做软件收购了以后修改修改，然后去给人用的。这公司那员工反抗、企业文化崩塌呀、士气下降，就讲的他。你想他换80%的人，肯定是要出问题的。他自己也承认说我这个有问题，我不建议其他人采用我们的方式。他采用这个方式的最核心原因是，买下新软件以后去进行项目整合，有愿意听话的你就留下来干，不愿意听话你就滚蛋。他是干这样的一个事情。然后澳大利亚的联邦银行，他们也是AI裁员裁出事来了。发现AI客服系统特别好用，就准备用AI客服去替代人工客服，直接遭到了工会的反制。在中国大陆肯定就没有这种问题，没有工会。但是你在世界其他的国家，特别是一些非IT行业，你就容易被工会反制。像谷歌呀、亚马逊、微软，这些程序员是没有工会的，那么高工资了，谁还给你组织工会？没有人保护你们，所以裁了也就裁了。但是你要去裁仓库的人，你要去裁卡车司机，这个是有可能出事的，那是有工会的。像这个银行你要去裁客服，那是有工会的。

最后呢，总结一下。AI时代呢，裁员应该是不会停下来的，而且呢可能随时都会到来。所以任何一个在大公司里上班的人，都不可能说高枕无忧，说我这个位置肯定是稳的，这事不太现实。大企业裁员呢，股市呢通常会买账，最主要的原因是聚焦，次要原因是他们可以降本增效了。甭管是不是增效吧，至少降了本，拿了降了本的钱去进行股票回购，股市会买账的。AI呢是也成为了很好的裁员理由。裁员对于企业来说呢，一定会造成阵痛和伤害，肯定还会有很多的HR或者很多的人去研究，被裁下来的人应该怎么办，留下来的人应该怎么办，这个大家也是会去思考的一个事情。

好，这就是咱们今天讲的故事，咱们作为被裁员的人，去讲一讲裁员以后，剩下的公司他们在干嘛的事。好，感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

跟AI女友聊骚，竟被判「传播淫秽物品罪」？真实案例揭秘AI法律红线！

Luke Fan — Wed, 13 Aug 2025 01:03:12 +0000

新时代和AI女友聊骚，有可能会触犯传播淫秽物品罪，这到底是一个什么样奇葩的故事？

大家好，欢迎收听老范讲故事的YouTube频道。

今天我一个朋友，向我推荐了一个有趣的案例。他是在视频号上，这个账号的名字呢，叫做“武汉刑事律师郭庆子”，是一个黄标认证的律师。这位律师呢，经常会把自己接听有刑事诉讼需求的听众的一些电话的过程录下来，再进行剪辑。因为这种东西，我估计不太好直播，总是要剪辑一下。一方面呢，是一些太敏感的信息就可以去掉；另外一方面呢，剪辑了以后呢，也会更有吸引力一些。

这个里头呢，有一位听众来电了，说使用AI应用，这个AI应用里头就提供一些AI女友，你可以跟她们去聊天。他通过自己捏脸，塑造了一些AI女友，大概塑造了9个，起的名字呢，都是比较有诱惑力的名字吧。这些AI女友，除了它定义的名字和捏脸之外呢，估计有可能会可以定义一些系统提示词。但是呢，这个视频很短，并没有去详细说具体是哪一个AI应用，或者说他到底在里边定制了哪些东西。总之呢，他定制了9个AI女友。

这些AI女友不单是可以跟他自己聊天，还可以跟平台上的其他用户去聊天，那么他就被提起诉讼了，叫“传播淫秽物品罪”，要求他呢认罪认罚，判6个月，可以缓刑，基本上应该就不用进去了。但是呢，这位听众呢，希望做无罪辩护。法官认为他是有问题的，不认罪认罚的话，就会判8个月的有期徒刑，这要判实刑的。

这个律师呢，就进一步的跟他确认了一下信息。首先呢，你知不知道自己创建的AI女友，有可能会去被别的用户使用？这个听众呢说的很模糊，就是说呢，我不太清楚。其实按道理说他应该知道，他也去平台上跟其他的AI女友聊了天了嘛，而且他把AI女友的名字起的这么诱惑，也希望他的AI女友受欢迎。其实就有点像我们去发微博，希望有人看，写小说希望有人点击点赞，这个过程是一样的。但是呢，他说并没有明确的告知他，这些AI女友会跟其他人去沟通。

然后呢，他就问说，对方提供的证据是什么样的呢？他说人家是给了一个Excel表格，这个Excel表格里头呢，有一个叫做“AI女友的ID”，然后呢是具体说了哪些露骨的话，大概给她搜集了60得多条。然后呢，问了一个很关键的问题，是什么呢？就是说那个您创造了一些AI女友，这些AI女友去跟别人聊天去了，获利了没有？你是不是在里头挣钱了？这个听众很明确的告诉他说，没有获利，大家就是在里头玩个开心。

这个律师的建议是什么呢？第一个，这个证据呢并不是那么可靠。这个Excel表格里头只有AI女友的ID，这个内容没有办法说确定证据，说这东西就是你的，这个还是可以去抗争一下的。第二个呢，就是你没有主动传播的意愿，你自己也没有主动的去把这些AI女友推荐给别人，只是说我自己创建了，本来以为自己玩呢，AI女友去跟其他人聊天的过程，你又不知道，这个事情呢你还是可以去抗争一下的。而且关键是你没有获利，你没有获利的话，你就没有主动传播的意愿，这个地方是可以去辩护的。说最怕的是什么呢？最怕的是法官主观意愿认为你有罪。现在的话有很多的法官确实道德标准非常非常高，以道德去超越法律给人定罪，这种事情呢是时有发生的。你像杨景媛这样的人也通过了法考，也是可以去做法官的，所以大家还是要小心。他说如果遇到这种事情就都很难办。

AI色情内容，在全世界各地都是怎么去判的呢？或者是有哪些判例呢？

首先咱们讲中国的判例。2025年3月，湖北省大冶市人民法院对首例利用人工智能技术撰写色情小说并牟利案件作出了宣判。被告人柯某因犯制作、贩卖、传播淫秽物品牟利罪，被判处有期徒刑十个月，并处罚金人民币5,000元，同时追缴全部违法所得。这个案子是什么样的情况呢？2022年11月到2023年3月期间，柯某利用AI程序撰写色情小说，使用翻墙软件在境外黄色网站发布并售卖。他利用AI工具生成色情小说，再利用AI翻译成外文，发布在境外网站上。短短5个月时间发布了数十篇，共计售卖了760篇次，获利22,800余元。经鉴定，送检的7篇小说均为淫秽物品。法院根据《中华人民共和国刑法》第三百六十三条第一款规定，认定柯某以牟利为目的，利用AI文本生成工具制作、贩卖、传播淫秽物品，非法获利2万余元，其行为严重违反法律法规，对社会风气造成不良影响，已构成制作、贩卖、传播淫秽物品牟利罪。

然后陕西周某某案，他是利用AI制作了4,369张淫秽图片，以制作淫秽物品牟利罪被判处有期徒刑4年，他这个数要更大一些。然后杭州于某某案，通过AI换脸技术合成淫秽视频传播，获利6万余元，以制作、传播淫秽物品牟利罪被判处7年3个月。他这个呢，一方面是挣的钱多，另外一方面的话他是换脸，因为换脸你不光是淫秽物品，还侵害人家的名誉权呢，所以他这个要判的更重一些。

中国的传播淫秽物品罪，量刑标准是什么样的呢？就是淫秽视频文件20个以上，或者是音频文件100个以上，或者是电子刊物、图片、文章、短消息200件以上。所以刚才这个案例里头呢，600条淫秽聊天记录，这个肯定是超过了。另外呢，叫违法所得5,000元以上，他这个没有牟利，所以还是可以去稍微抗辩一下。但是呢，中国有俩罪，一个呢叫“传播淫秽物品罪”，还有一个呢叫“传播淫秽物品牟利罪”，所以不牟利呢也未必逃得过去。

那你说国外是什么样的呢？是不是只有中国这样了？国外呢主要是分两类。比如说他有色情网站，也有合法的，只要确定对方是成年人，你给他一些淫秽物品，哪怕说在这个过程中你还牟利了，应该在有些国家是没事吧。但是你真的到中东这些国家，你传播这个东西，那有可能是要判死刑的，咱们这不讲了，咱们就讲一些欧美的案例吧。

2023年11月，美国北卡罗来纳州夏洛特精神科医生，他呢是制作未成年人视频，并利用网络AI工具，将照片改造成色情图像，被判生产、传输及持有儿童色情制品罪，法院判处40年监禁。所以他们呢基本上是两类，一类是色情，一类是deepfake。传播淫秽物品，你只要别传播给未成年人，一般不是特别大的事情。但是你一旦遇到了制作儿童色情，包括持有，你说我不传播，我持有，这事都是违法的，而且判的非常重。

2024年5月20日，威斯康星州42岁男子使用Stable Diffusion生成了数千张儿童色情图片，并发送给了一名15岁的男孩，被控生产、分发、持有AI生成色儿童色情图片，判有罪，最高可判70年徒刑。他这个最后判了多少我没有确认，因为是ChatGPT给我搜集的信息。但是呢，它这个量很大，制作了儿童内容，而且还传播给了未成年人，它这个是罪大恶极了。2025年5月22日，佛罗里达州有一个叫Oldsmar案，他是制作、分发了8,500张AI生成的儿童性虐待图片，同时持有大量真实的图片，被判了75年的联邦监禁。

这个是一类。另外一类呢就是deepfake，就是做假脸的，这种案子在欧美也是判的很重的。2023年，路易斯安娜州通过法律，禁止未经同意使用他人面部制作深度伪造色情影像，违者至少10年起步。2024年10月30日，韩国首尔大学毕业生Park（应该估计是姓朴）和他的同伙，两人利用日常照片制作约2,000个deepfake照片，包含未成年人，在Telegram售卖以及共享，被法院判处Park 10年监禁，Kang 4年监禁，并公开身份，以及参加性暴力课程。这种基本上就是你判了刑还社死了，因为身份给他公开了。2024年10月28日，新加坡一位50岁男子，偷偷在家安装摄像头，拍摄妻子23岁的侄女，并利用手机应用将其脸合成为色情视频，法院判处了21周监禁。这个就是估计他没有传播吧，还是判了监禁。

现在呢，AI对于成人内容的边界到底在什么地方？我去稍微的看了一下。首先呢是文字模型，ChatGPT、Gemini和Claude这三个，咱们叫“御三家”的三个大模型呢，相对来说是比较严格的。你要求它生成一些色情内容，或者说对一些敏感内容进行详细描述的话，都会被拒绝服务的。马斯克的Grok 4，只要不涉及儿童和性强迫，其他的基本是百无禁忌。即使是涉及刚才我们说这些东西，边界也是相对来说比较模糊的。

至于开源模型呢，这块就比较混乱了。开源模型分两个大的这个角度，一个呢是有平台提供的，比如说我今天到阿里云的百炼平台上去使用通义千问的这个大模型，它是要进行检查的，这个也是比较严格的。但是呢，你说我把通义千问的这大模型下载下来了，自己在这个家里头部署，这块呢它会进行一定的限制，但是就没有那么严了。它主要是给了大家一个知情同意书似的东西，就说你现在下载了我的大模型，自己回去部署去了，但是你自己要知道不可以拿这个大模型做坏事，不可以生成成人内容。你说我知道了，我同意了，你就可以把这个模型下载走。至于拿这个东西再去干什么，他也管不着你，他也不愿意为你拿着他的大模型再去做的进一步的事情负任何责任了。所以呢，所有开源的模型基本上都是走的这条路。而且呢，这些开源模型呢，即使是会设置一些这种限制，其实绕过去也并不难。第一个是Hugging Face上，就是我们说大模型开源的这个平台上，有很多微调的模型帮助大家去绕过这些限制。还有一些呢叫“越狱提示词”，也在网上去流传。什么叫“越狱提示词”？就是你先跟这个大模型说一句什么什么样的，说完这个话以后呢，再往后的所有聊天，这个限制就直接突破了。当然目前为止，传播训练过的突破限制的这些模型，或者是传播越狱提示词，到底算不算传播淫秽物品罪，这件事呢还属于法律上的盲区。他们也搞不清楚这东西到底是怎么工作的，所以呢还没轮到这些道学先生们去审判这两样真正产生色情内容的这个技术。

再往后呢，就是图片跟视频生成模型。你说我光生成一堆色情小说，这个事看起来也是很累的，但你说我有色情图片、色情视频，这个不是传播力、感染力更强吗？在这块呢，Claude是没法生成视频和图片的吧，反正我因为我自己用的少，我也没有怎么看到有人用Claude生成这种东西出来给大家去展示。ChatGPT和Gemini在这块呢，相对来说都是非常克制的，你要求他去给你画一些奇怪的东西，他就直接画不出来了，直接拒绝服务。Midjourney，这是我用的比较多的，对于NSFW内容（我们就用这个词吧，就是不方便在办公室公开环境下展示的这些内容），对于这些内容呢会进行事前拒绝，但是生产出来的东西呢就不好说了。什么意思？这种图片生成模型它是两步，第一步呢是你要给它提示词，第二步呢是生成图片。他们正常的检测呢，应该是两步都检测，就是你给的提示词里头如果包含一些他不喜欢的东西，他就会拒绝服务；它生成出来的东西如果包含有问题的东西，也应该是拒绝将生成的结果交付给你。应该是做两步，但是Midjourney呢只做一步，就是你给它提示词，如果这个它认为不对，它就拒绝服务了。但是如果你绕过它了，他觉得好像还可以，就给你生成去了。但是生成出来的东西到底是什么样，他就不管了，这个有可能会有一些不方便传播的内容被生产出来。至于马斯克家的Grok 4的图片跟视频生成这块呢，反正马斯克家的嘛，大家能够理解，它是可以生成半裸内容的，全裸不行，也可以生成名人的形象，但是你要求名人半裸，这个事是不行的。因为一旦要求名人半裸的话，等于是在给这些名人造黄谣，或者说损害他们的形象，这个事是不允许的。刚才我们也讲了，在海外，儿童的不行，deepfake侵害别人的名誉权，这两个事是不行的，其他的反正有它适用的一个法律吧，你只要别把这东西传给未成年人就OK了。但是你就想吧，国外那些色情网站上，你进去第一个是先问你是不是已经满18岁了，他也没法实际去判断你到底是不是满了，但是反正上来我给你做了这一步了，“我满18了”我就可以进去看，“没满18”我就给你退出来，这个就算是已经可以在法律上算合法合规的一个玩法。

那么视频跟图片模型的开源模型是什么样的呢？在这块呢跟前面我们讲的文字模型基本上是一个玩法。如果是有平台，平台是要担负责任的，两头都要管。输入提示词，如果他认为有问题，拒绝服务；他根据你的提示词生成出来的内容，如果他判定不利于传播，他也会直接拒绝交付。你在这个时候可以要求他重试，“你再给我画一次”，这个是可以的，但是他不会把不可传播的东西交给你，他是这样来工作的。下载单独部署的这些开源的图片和视频模型的话，就跟刚才我们讲的这个文字模型是一样的。下载之前给你一个知情同意书，说我知道了，我下载这个模型不可以去生成成人内容，我不会拿它去做怪事。你同意了，你就可以下载，至于下载了以后他就不管了，你自己拿回去随便了。在这种图片模型上，还有一个比较好玩的东西，叫Lora模型。这个模型叫什么呢？叫low-rank adaptation，叫“低秩适配”。这种模型呢，我们也管它叫小模型，它一般尺寸都比较小，就是用比较少的数据进行一些训练。当你调用这些模型的时候，你生成出来的这个图片就符合特定的需求。你比如说吧，咱们最常用的Lora模型是什么呢？对人脸进行训练，然后你就可以冲上去换脸了。甭管人家是什么照片，说来把这脸换上，惟妙惟肖的给你换上，不会像以前那种拿Photoshop换脸似的，总觉得这个脸是歪的呀是斜的呀，拼的没有那么准，不会出现这样的问题。现在主要的一些色情Lora模型是做什么的？有些人训练这个东西还去传播，他们呢主要是对敏感部位进行单独的训练。原来那些大模型有一些限制的时候，或者说对于这种敏感部位没法进行详细生成的时候，他们使用这些小模型，可以生成这种有非常清晰敏感部位的这种图片出来。但是呢，这个你说是不是罪大恶极，也不一定。我个人还是觉得，Lora对这件事情还是有一些正面的帮助。什么样正面帮助呢？因为大家都喜欢使用相同的Lora模型去生成成人内容，所以导致呢脸可以千变万化，但是身材都异常夸张，而且千篇一律。你看两次以后，就直接失去兴趣了，大概就是这样的一个效果。

现在大家都在玩什么呢？现在大家都在玩通义万象2.2，这个模型叫WANX 2.2，它呢是由阿里通义这个平台最新出的图片跟视频模型。这个模型你在阿里平台上使，它是规规矩矩的，你要求奇奇怪怪的东西会直接拒绝你。但是你如果把它下载到本地去安装了，不需要挂任何的Lora，不需要挂这些小模型，就完完全全可以生成NSFW的这种内容，就是不利于在办公室和公开场合去传播的一些内容，就可以做的很好了。它呢可以跟常见的这些ComfyUI或者是Lora相兼容，可以一起去工作。你说有些人训练好了这些成人的Lora模型，这种小模型，你就可以把它挂到万象2.2里头，直接干活，没毛病。

说远了，我们不建议大家去做这件事情，只是跟大家闲聊一下。回到AI时代的法律判罚问题上来。首先，传统大公司都是比较谨慎的，马斯克除外。第二，开源模型才是重灾区。平台方是有人管的，私有部署基本上就没人管了。但是呢，在海外还有一些平台方也是没什么人管的。就以刚才咱们讲的通义万象2.2为例，你在阿里的平台上，你下载出来的就是WANX 2.2，但是如果你到WANX.AI这个网站上，你就会发现那个上面还有一个模型叫WANX 2.2 no filter，就是不过滤。这个东西干嘛使的，大家自己按照文字的字面自己去猜去。

开源模型厂商通常使用知情同意书的方式，告知用户不要去做坏事，以此方式逃避自己的法律责任。儿童色情必须严判。Deepfake这不仅仅是淫秽物品那么简单了，你还毁坏别人名誉，这个呢现在各国也都是进行严判的，包括中国也是。严判国内的传播淫秽物品罪和传播淫秽物品获利罪还是很严苛的。在AI的帮助下，数量很容易就突破了。不论是不是AI生成的淫秽物品，就是淫秽物品，在国内判罚上基本上是这样认定的，你跟AI没关系，只要是淫秽物品我们就认。如果获利，这件事情基本上就没跑，肯定是会被判罚的。现在还有一些法官道德感非常强，遇到这种法官，律师们也是觉得头疼的。所以提醒大家，所有在国内的还请洁身自好，不要去触碰法律红线和一些人内心的道德底线。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI豪掷千亿美金打造星际之门，山姆·奥特曼的“民主AI”能否抗衡中国“霸权AI”并重塑全球AI格局引发深思。谁能赢得最后的胜利？

Luke Fan — Wed, 14 May 2025 00:45:20 +0000

OpenAI的星际之门和民主AI，到底要对抗谁呢？

大家好，欢迎收听老范讲故事的YouTube频道。山姆·奥特曼亲临德州星际之门工地，现场指导工作去了。他在德州阿比林市星际之门工地现场做了一些现场指示，这就是他们星际之门的第一期工程。项目花费呢，首期投入是1,000亿美金，未来四年共计消耗5,000亿美金。但后边的事大家就别太当真了，因为后面还有很多钱可能需要各国政府去掏，待会我们再去讲。

第一期建设呢，主要是软银掏钱。Oracle负责设计、施工和建造，所以现场拍到的照片，大家穿的小背心、安全帽上面都是写的Oracle的字样。计划部署6.4万台英伟达GB 200 GPU，首期的1.6万台英伟达GB 200 GPU应该是在今年夏天就可以完成安装，就可以投入使用了。

OpenAI负责运营，而且OpenAI使用这些星际之门设备的时候，还得老老实实付租金。那你说这咋回事呢？他不是应该跟软银一块出钱吗？跟软银、Oracle，还有一个中东的土豪MGX，四家基金一块出钱，怎么你自己用还要付租金呢？对美国人他就是这样，他这样可以算两回：一方面我是出了钱了，另外一方面我也要付租金，各算各的。

山姆·奥特曼就去做指示去了，说什么呢？说我们要开展国家AI项目了，每个国家我们帮你去建一套星际之门，我们在里头实施民主AI，去对抗专制AI。他要干这么个事儿。

我们刚刚讲到的，软银出钱、Oracle建造、OpenAI运营，这四家里头还有一没说的呢，就是中东土豪——中东基金MGX。他出的钱以后主要用在哪？星际之门在美国之外的很多建设，估计就需要MGX来去出钱了。星际之门在日本的建设，估计软银也会把钱出了。但是如果到中东去建设了，那么MGX说：“来，大头我出了吧。”应该是这么去做的。

OpenAI在5月7号宣布了全球的新计划，叫OpenAI国家计划。意思是什么呢？由OpenAI、软银和各国政府一起出钱，将星际之门的服务器部署到每个国家去。原来你不是说你的数据不能到其他国家去吗？你这个数据需要进行国家的审核和监控，要保护隐私。而且呢，OpenAI大家知道，它大量的训练语料都是英语的，你要换一个其他的非英语的语言，有的时候没有那么好使。那现在说我们干脆给每个国家，特别是盟友国家，都去建一套星际之门，你们就在这使就完了。

他呢，要去做全球性的AI基础设施建设，通过与政府合作，推动本地AI的技术发展。

并将美国主导的AI生态扩展至全球，为各国提供符合当地语言、文化和需求的定制版ChatGPT。比如说到意大利了，到西班牙了，到德国了，我帮你去训练。训练完了以后，你们就有符合当地语言和文化需求的这种定制版的ChatGPT了。相互之间也不影响，别回头我给你定制了半天，我再把美国那个版本给玩废了。咱们隔开了玩。

而且呢，他们这些分开部署的ChatGPT重点将应用于医疗、教育和公共服务这些领域。它呢强调AI模型的安全管理，包括数据中心的物理安全、模型部署流程合规性，并且探索民主AI的原则，及确保AI技术的使用不被政府滥用，维护自由市场竞争和个人选择权利。待会我们去讲讲它到底啥叫民主AI。

据说要在盟友中建设星际之门，但是呢，现在不知道谁第一个。说是已经跟十来个国家去谈好了，就准备开工了，要建了。我觉得日本可能是第一个，因为毕竟出钱的是软银吗。咱先自己建一套，这个合理。当然你说中东是不是会头一个冲上来，这个也有可能。因为现在中东土豪们也在拼命的囤GPU，在这去建立各种各样的AI基础设施。而且四个出钱方里头还有一个叫MGX的中东土豪基金呢。

还有一个可能第一个跑出来的是谁呢？就是英国。英国算是第一个跟特朗普签了双边贸易协定的，也算是做出了表率的作用。而且也说了，我们以后会对美国的这些互联网公司、科技公司网开一面。也没准他头一个会冲上来。

那么OpenAI的国家AI计划跟当年黄仁勋提出的主权AI有什么区别吗？OpenAI还是要美国控制的，各地的星际之门里头运行的大模型必须是符合美国的民主价值观的。而主权AI就是你们只管把GPU买回去，剩下的事你们各国政府自己说了算，跟我没关系。所以OpenAI现在提的国家计划跟黄仁勋提的主权AI是完全两回事。黄仁勋提的主权AI的话，其实更像是OpenAI现在想要去对抗的中国的霸权AI。

讲到这儿了，咱们讲讲OpenAI到底怎么去定义民主AI。他呢呼吁美国及其盟友领导的民主AI对抗霸权AI。那现在能够搞霸权AI的，大概也就剩咱们了。那意思是什么呢？就是民主国家有责任确保AI技术最大化其好处，最小化其风险。那什么叫民主AI呢？叫保护并融入长期以来民主原则的AI。就是我训练AI的时候，我把一大堆民主价值观和民主原则一起训练到AI里去了。只要是你跟AI说我现在要独裁了，我要霸权了，AI就拒绝回答。我们训练了这些民主AI。

人们可以自由地选择如何使用AI，但是反而觉得稍微有些别扭，有点矛盾。然后要防止政府利用AI篡取控制权，就是你政府拿到AI以后，不能靠这个东西控制民众，或者说去扩大政府权力。因为大家注意，政府手里有最多的资源，最多的数据，甚至还有AI这个服务器的后门钥匙之类的东西。按道理说，政府掌握了所有这些资源以后，就可以自己去放大自己的权利了。

OpenAI说，我们的民主AI是要监督你的，你不能干这个事，而且要保证自由竞争的市场。这块呢，我觉得OpenAI稍微有些矛盾。怎么叫矛盾呢？你使用OpenAI这个东西叫民主AI了，美国也不是只产这一个大模型，欧洲还有大模型呢。那他们那个算不算民主AI？这个不知道了。所以对于OpenAI来说呢，技术开发和使用中，要包含民主价值观的AI。所谓民主价值观，就是个人自由、权力分散、利益普惠。这个东西要真正造福全人类。

对于OpenAI来说，虽然叫民主AI，但是这里头并没有民主过程，没有投票的部分。而且呢，我们也不开源。这事是我自己关起门来说了算的一个AI。但是呢，因为我训练的时候，我告诉大家了，我使用了民主的价值观训练的，所以我这东西叫民主AI。当然，OpenAI呢也计划在未来会开源更强大的大模型出来。到底是什么时候不知道，咱们慢慢等就好了。

那么一个不开源的大模型怎么民主呢？OpenAI的解释是这样：OpenAI的公司治理结构就决定了我们是受监督的。什么意思？他说我们是一公益公司（PBC，public benefit corporation），而且呢，是受到非营利组织持股并且控制的一个公司。我可以保证我的使命是不会改变的。我们的使命是让AGI，也就是通用AI，造福全人类。这是由一个非营利机构来监督的。通过这样的方式来保证说，我这东西肯定民主，而且保证说OpenAI永远不会成为一家正常公司。因为正常公司就是我们老老实实为股东赚钱就完事了嘛。

认同美国民主价值观的盟友们，就应该使用OpenAI的民主AI嘛，而不是中国的这些霸权AI。不知道谷歌的Gemini、Xai的Grok、Anthropic的Claude，以及Meta的LLAMA和法国的Mistral够不够民主，还是说只有OpenAI是民主的，其他的就差点意思呢？这个就稍微有点难以自圆其说了。但是你如果建了星级之门，你肯定是要用OpenAI的，不能用别人的。中国的霸权AI跟它相对应的。

到底是什么样的一个玩法呢？DeepSeek和Qwen这种就是完全开放权重，你自己拿去部署。部署完了以后，你想怎么调怎么调，自己用自己的数据，你让他想干嘛干嘛，大家拿去自己玩耍。

阿里云、字节、腾讯、华为其实现在也在全球建设AI基础设施。不光是星际之门在那干这个事，阿里云说我们今年要投入3,800亿人民币，应该也有个500多亿美金。咱们确实没有人家有钱吧？反正咱们也要投入这个钱去建设AI基础设施。字节也在干这个事，大力去购买GPU。而且字节在海外去购买大量的H100、GPU200。中国你是不允许买卖，在海外是可以买的。买完了以后去建设机房。华为云和腾讯云都在全世界铺机房的，铺完了以后说来上我这使来吧，反正有自己的大模型，你们想怎么使怎么使，想怎么弄怎么弄。

中国建设这些全球范围的基础设施，第一个是自有资金。这些公司自己有钱，比如说阿里自己有钱，字节自己有钱。第二个是什么呢？就是很多美国银行和投资基金是愿意给他们出钱的。公司运营的很好，还盈利，那我现在把钱借给你，或者说我投资给你，我相信你能够把钱挣回来。另外呢，就是一带一路这些地方的政府，当地政府会给钱。比如说我们现在跑到中东去建数据中心去了，华为云去了。去了以后当地政府说挺好的，你们把这东西建立起来，让我能用上。还有一些呢就是中国政府的钱。中国政府在一带一路地区呢，是有一些国家基金在那边也会投钱。

而且现在各国政府使用中国这些开源大模型已经做出一些自己的成绩来了。比如说日本吧，日本现在跑得最好的一些日语模型是拿Qwen重新微调出来的日语版本，效果已经非常好了，完全超越了谷歌的Gemini，也就是谷歌开源的这个版本，和Meta开源的LLAMA这些版本微调出来的日语版本。因为日本公司呢，相对来说是比较谨慎和保守，他不能让自己的数据离开公司，必须在我公司里头跑。那你需要做私有部署，就只能老老实实的用这种纯开源模型。你没有办法去使用OpenAI的ChatGPT。比如说丰田我要做汽车，要把我的数据送到孙正义的机房里边去，送到软银的机房里去，这个事他们是没法接受的。所以他们就老老实实的拿中国的Qwen模型就去做微调去了，效果很好。

而且做云计算的建设，甭管是中国的像阿里云、腾讯云、华为云，还是说OpenAI做星际之门这件事，它其实都是云计算。云计算的特点是什么？它是一个需要精确进行成本核算微利的辛苦活。

走在全世界任何地方，云计算都是这样的一种生意。没有哪个说我做云计算我暴利，这不可能的，因为大家还要竞争呢。那么，必须要有应用才能够有盈利。必须要盈利，你才能够迭代推进，不断的扩张。

中国的互联网公司其实更喜欢玩一些中国的玩法。中国玩法是什么？就是画地为牢，肥水不流外人田这套东西。你想在腾讯这边发游戏吗？你就要到腾讯云来。你想到阿里这边去做电商，或者做一些其他的这种活动吗？你要到阿里云上来。你想在抖音然后去干点什么事吗？你要使用字节的东西。它的商业部署就是：你首先把云计算中心铺下去，然后会要有人来用，你整个的商业才可以运转起来。

而对于像OpenAI这样，因为民主你得用我的，切着咔嚓就把这些机房铺下去的话，他未必能盈利，未必能Run的起来，因为它不是一个纯商业行为。另外一方面呢，中国的资金甭管是谁家的，是阿里的还是各种公司的呀，还是说国家一带一路的，这些基金有一个共性，就特别喜欢投资各种各样的基础设施建设。现在AI算力中心也算是AI基础设施建设吧。

我原来在南非跟中非基金的人还聊过。中非基金就是中国派到南非去的政府基金，他们就四处去非洲投资什么矿山、港口、公路、铁路、机场、移动运营商、电视台，这可喜欢投资这些东西了。哪怕短期内挣不回钱来，但是他们相信这种东西长期一定是能挣回来的，长期一定是旱涝保收。你像美国说你们怎么可以占这么多港口，怎么可以占苏伊士运河，你怎么可以有这么大的控制权？但没有办法，咱们就是有钱就爱投这个。就像是以前的地主，有钱要干嘛？买地。

因为我们这些基金甭管是国家基金也好，还是这些公司的基金也好，他在国内他想投基础设施，他不让他投，没有这个机会。那出去了，终于没人管你了，赶快干。所以中国在全世界都喜欢投基础设施。

现在是两边在进行竞争。OpenAI的星际之门号称是国家AI计划和民主AI，到全世界美国的盟友那里建设他们的星际之门。中国呢到全世界去铺AI基础设施建设，甭管是集不集权吧，反正我们把AI大模型开源了，拿出来说你们拿去用。所以OpenAI的民主AI真正在竞争的，或者真正要去对付的，就是中国开源的霸权AI。

那你说到底哪个更民主呢？一个呢是中国这些完全开源的大模型，当然我们也提供闭源的，你要愿意使闭源的我们也给。但是呢我们都有开源的模型给你去用。大家要注意，你去建立这些数据中心、算力中心，谁出钱谁决策？肯定是各国政府来决策。

或者是各国的精英和大企业，他们要去决策。这些人呢，会代表这些国家的意愿。至于你下面的这些民众到底怎么样，跟我们没关系。谁出钱谁说了算，我们是这样的一个原则。

而美国，也就是OpenAI，玩的民主AI。它玩的什么呢？第一个，我这东西受美国政府管理；第二个，要符合美国民主价值观的AI大模型。那这个美国民主价值观是什么？就是人们自由选择如何使用AI，防止政府利用AI篡取控制权，以及自由竞争的市场。到盟友那儿，咱们道德绑架：你拿着这东西，你就得按我这方式使。你拿了我这东西以后，政府想扩大一点权力行不行？我想对什么东西做一个监控行不行？不行，这不符合民主。咱们玩的是这样的一套东西。

这个也算是以其人之道，还治其人之身吧。什么意思呢？相当于是对他的盟友进行一些道德绑架。原来最喜欢玩道德绑架的是什么人？欧盟这帮人原来是最喜欢玩道德绑架的：你这个侵犯了我的隐私权了，你这个是看门人了，我要罚你多多少钱。那现在你不是标榜你民主吗？来，我给你玩一个民主，咱们看看到底谁绑架谁。这是OpenAI的玩法。

那么最后到底谁能胜出呢？从我个人的感觉上来说，也许中国的开源霸权AI是可能能够胜出的。为啥？在全球建设AI基础设施，有权做决定的并不是民众，而是各国政府和大企业。中国的廉价商品可以行销全球，说明了各国政府和这些有决策权的人，在掏钱的时候，大家还是清醒和理智的。在这个时候，没有人会被道德绑架的。没有永远的朋友，没有永远的敌人，只有永远的利益。中国人不跟你讲那个，我们只讲利益。我给你这些东西，你愿意巩固你自己的权利，愿意玩政府权力窃取你的事，跟我没关系。反正你花钱了，我把东西给你了就完事了。

中国的大模型，目前还没有OpenAI的好用，这个还是要承认的。但是第一个便宜，OpenAI肯定是要找你收钱的。而我们这儿的话，大模型归你了，你愿意怎么用怎么用，其他的我不管了。掏钱建设的人，肯定还是希望自己说了算，想怎么用就怎么用。没有人说我花钱买回来东西以后，你还得教我怎么做。民主这个事我觉得可能符合道德，但是不符合人性。这个事情咱们可以一步一步往前看，到底是中国开源的霸权AI最后能胜出，还是由OpenAI领衔的民主AI能够胜出。这个瓜还可以吃个几年。

好，这个故事今天就讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

惊天逆转！哥大高材生开发AI面试作弊神器遭开除，为何反获530万美元天价融资？揭秘风投圈偏爱“规则破坏者”的底层逻辑。

Luke Fan — Sat, 03 May 2025 00:40:28 +0000

开发AI作弊软件被学校开除的人，为什么还能够拿到融资呢？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲这个神奇的故事。按照中国人的想法，这不应该算是劣迹吗？有劣迹的人都不能再去开直播了，怎么还有投资人愿意把钱给他们呢？因为投资人很害怕别人把钱卷跑了呀。有劣迹的人怎么可以拿到投资呢？今天咱们来讲一讲。

这是一个哥大的学生，这是真的哥伦比亚大学的学生。这个人呢叫李钟仁，钟表的钟，仁义的仁。他呢开发了一个AI面试作弊软件，叫Interview Coder，可以在面试的时候呢潜伏在屏幕上，可以看到屏幕的信息，听到声音，并且自动的调用大模型，找出并显示答案。他呢为了炫耀和销售这个软件，拍摄了一条视频发到了YouTube上。他使用Interview Coder软件通过了亚马逊的面试，做了这样的一条视频。

亚马逊发现了之后，那天都塌了。伤害不大，但侮辱性极强。我跑去给你面试，结果你全程用作弊软件，我还没有发现。这个肯定是丢大人了。然后亚马逊给哥伦比亚大学写信说，必须开除，否则永远不再录用哥大的学生了。这个对于哥伦比亚大学来说，还是非常强的一个威胁。虽然说哥大的学生并不愁找工作，但是你被亚马逊以这样的一个理由封杀的话，这个也是侮辱性很强的。

于是哥伦比亚大学对此事开始进行调查。李钟仁就出来解释说，我们这款软件不会针对学校考试，只是针对公司的这种远程面试了。但是这种解释肯定是很苍白的。哥大最终开除了李钟仁，以及他的合作伙伴，一位印度裔的小哥。当然了这个开除呢，是一个叫暂时开除。我对于美国的学制并不是特别了解，所以他给出的决定叫暂时开除，且在2026年5月之前不得重新入学。所以到2026年5月以后，是不是这个李钟仁就又可以入学回来了？这个不确定。

在这个时候呢，投资人就找到了他们，给了530万美金的投资，让他们在旧金山开始了创业，创建了一个叫Cluely的公司，意思叫线索，或者叫提供线索的一个公司。在这呢，首先要跟大家注释一下，这个李钟仁呢并不是一个华裔，他呢是韩国裔美国人，应该是在美国长大的。他的合伙人呢是一位印度裔美国人，从德州考到的哥伦比亚大学。因为我特别喜欢讲各种华人华裔的故事，所以在这呢一定要稍微注释一下，别以为我又讲了一个华人故事。不是。

那么Interview Coder这样的一个软件，到底有什么样的神奇之处呢？

你说ChatGPT找答案这个事，没什么新鲜的呀。他们为什么做出了这种软件，就会被人追着投资呢？

首先，我们要先讲一个问题，是大厂去面试。像亚马逊这样的大厂去面试，他们喜欢用什么样的方式面试呢？他们叫Leetcode。Leetcode怎么说呢？就是它是一些比较麻烦的算法题，要考察你应对各种算法和数据结构，以及算法逻辑的一些能力。因为每一个厂自己的编程环境，其实差异是很大的。我没办法说给你提供一个我们厂内部的编程环境，让你去解决实际问题，但是我又想看一下你具体的编程能力，那就让他刷Leetcode。因为这些大学毕业生，你到了这些互联网大厂以后，甭管人家用的是什么样的编程语言、编程环境，基本上都是可以在一两周之内重新学习上手。所以上大学期间，学习的这些基础知识是有效的。但是真正的应用知识，都是上班以后再学，甚至是你可能每换一间公司，你都需要重新去学习的一个知识。

那你说考Leetcode这个事情，对于考验学生能力到底有没有效果呢？一开始其实是有效果的，它确实是可以把一些算法能力比较强，或者逻辑思维能力比较强的人筛选出来。但是当可以刷题的时候，意义就没有那么大了。因为很多人为了进入大厂，就跑到Leetcode的网站上去刷题。这个是有教程的，你可以通过一个很高强度的训练，把这些题都刷一遍。因为Leetcode的题其实不是很多，很容易就穷举干净。你可能没有办法找到最好的解法，但是都是有一个相对不错的解法可以拿出来的。

而且Leetcode的这些东西呢，在真正写程序的时候，就是你真正上班的时候，其实是没什么用的。你还是要符合大厂的规范，去把真正的逻辑完成掉。不是说你要使用Leetcode的很多可以得高分的这些很技巧的逻辑、很技巧的编程手段去完成任务，这个是不行的。如果你真的在你的工作过程中使用Leetcode技巧的话，会被骂死的。为什么？因为真正大厂的项目，他的要求是你的代码有很好的可读性。如果你使用Leetcode的技巧去那炫技的话，你的代码基本上是无法维护的。

那么好了，解释清楚他们到底在解什么题之后，interview coder真正的能力是什么呢？解题肯定是ChatGPT解题，肯定不是它解题，它只是一个类似于电脑助手的东西，悬浮在屏幕上。而且在悬浮在屏幕的同时呢，还要规避所有的截屏软件的捕获。什么意思？面试的时候也知道，你有可能用AI去作弊，那怎么办呢？

他们要求你共享全部屏幕。如果你在电脑上开了ChatGPT，或者开了一些其他东西，他要能看到，这个是不允许的。

现在，Interrailcoder把它的窗口放到屏幕上去，还让这些截屏软件没有办法发现它。哪怕是你使用Zoom或者是Google Meeting这样的会议软件，你也没有办法看到它。这个是有一些技术难度的。

而且呢，这个软件还能够实时的去截屏、去录音，这个也是很难的。虽然现在你比如说ChatGPT，他也有这些能力，豆包也有这些能力，但是呢，这个你是需要操作的。他这个是不需要任何操作。因为你不能说我这边面试的，你还经常有一些小动作，手上的鼠标或者什么的，经常做一些其他的动作。这个事是不允许的。

因为你面试的时候，摄像头是开着的，他能看到你。如果发现你经常有一些零碎的小动作的话，即使截屏没有发现什么，对面的考官也会怀疑你在作弊。所以他基本上是不需要操作的，这个也很强。

当你做了这么多的屏幕截取，包括录音的时候，你还不能让系统卡顿。因为如果你占用了很多的系统资源，也是会被考官发现的。说你到底在干什么？你的电脑是什么样的配置？为什么这样的活动了以后，你的电脑就跑不动了？你后边到底在干嘛？这个都是会被发现的。

所以它整个的系统呢，不能占用太多的资源。写出这样的系统的人，第一个对于计算机前端界面的系统层逻辑是非常熟悉的，这个不是一般人能搞定的。

第二个呢，他对于整个用户的操作逻辑也是非常清晰的。如果你的操作逻辑是错的，就会经常遇到人工智障的事情。他一定是说，我这边录到了考官的问题，录到了屏幕显示的题目，然后我去找到了正确的答案给你。你不能说考官跟你聊个说“今天气不错”，他在后边吭哧吭哧给你找答案去了。这个事一定不能这么干。所以他的逻辑很清楚。

而且呢，写这样的程序，他对于底层的高效编程要求是非常高的。为什么要专门强调这个？我们正常去写一个应用，可能会调用各种各样的组件、库，或者是编程框架。使用这些东西呢，写出来的项目很漂亮，但是呢，占的资源非常多。

你要想说，我占的资源很少，你就不能使用这些玩意。你就必须要使用系统底层的、很原始的东西去编程，你才可以占用很少的资源。而且在很高的权限下去工作，才可以躲过别人的截屏，才可以保证说我去录音录像了。而且在这个过程中还不跟别人冲突。

你想，他在面试的时候，可能后边还开着Zoom，还开着Google Meeting，还不能跟他们冲突。

在这个过程中，还不能让他们卡顿，还能把所有事都干出来。所以这块的编程能力还是很强的。我们已经解释了 interpreter coder 到底强在什么地方。下面我们来讲一讲这些没法毕业的科技公司创始人们，到底都有什么神奇之处。他们为什么没有成为劣迹学生，让他们永世不得翻身，没有成为这样的情况。那些没法毕业的创始人，在美国或者在欧洲整个的科技发展史上，还是占有相当大的一席之地的。

今天这位李钟仁呢，又是一位没毕业的创业者。当然，这个过程中呢，肄业跟开除是两个概念，他是被开除的。肄业的创业者有哪些比较著名的？第一个是史蒂夫·乔布斯，19 岁的时候因为经济压力，从里德学院主动辍学。然后呢，马克·扎克伯格，他呢，本来是可以被开除的。他呢是开发了 Facebook 的早期版本，非法获得学生照片，侵犯隐私，接受审查后自愿从哈佛辍学。他这个呢，基本上是够开除的份了。

另外一个有名的是比尔·盖茨，这也是哈佛的。他是未经授权将大学计算机资源用于商业目的，并准许非学生使用其账户，受到告诫后自愿从哈佛辍学。这个呢，其实也算是接近开除的水平了。下一个呢叫罗伯特·诺伊斯，这个人呢是英特尔跟仙童半导体的创始人。基本上整个美国的半导体时代，互联网这个计算机时代，就是从他这开始的。他是在格林内尔学院就读时，因为与同学在宿舍私建滑雪场，导致水管破裂被短暂停学，后转入麻省理工，获得了博士学位。这个也是有一个短暂停学的一个过程。

像现在这个李钟仁，可能到明年 2026 年 5 月以后，还可以恢复他的学业。迈克尔·戴尔，他就是戴尔电脑的创始人，19 岁时从德州大学奥斯丁分校辍学，专注于组装和销售电脑。彼得·泰尔，这个人很有名，是 Paypal 创始人，Facebook 的早期投资人，现在也叫 Paypal 黑帮的老大。整个硅谷里面，做硬件做芯片这些人，大部分都是从仙童出来的。而很多从 Paypal 里面出来的创业者，管他们叫 Paypal 黑帮。Paypal 黑帮里边原来最有名的人应该是埃隆·马斯克。现在呢，还有一个哥们比他还有名，是 JD Vans。万斯是彼得·泰尔基金会的律师，在他从政之前在这边做律师。

还有一个是原来我投的一个案子，编程猫的李天池，在法国读硕士，学的就是创业。到最后说不行了，再不肄业我就要毕业了，出来创业了，创建了编程猫，现在发展的也还不错。这些都是肄业的。真的跟这个李钟仁一样被开除的有哪些呢？1877 年就有这个人，叫威廉·伦道夫·赫斯特。

就是现在的赫斯特集团的创始人。这个赫兹集团是美国非常强大的媒体集团，这是这个集团的创始人。他呢，是因为向经济学教授赠送刻有其名字的夜壶，被认定侮辱教职工，被哈佛开除了。后边有一个电影叫《公民凯恩》，这个就是原型人物。

然后是特德·特纳，因为违反校规在宿舍留宿女性，被学校开除。他呢，是被布朗大学开除的，创办了CNN。反正媒体人喜欢干这样的事情。

还有一个人叫史蒂夫·沃兹尼亚克，这个呢，是因为黑客行为入侵学校计算机系统，修改成绩并向同学发送恶作剧信息，被克罗拉多大学博尔得分校开除。1976年，与乔布斯联合创建了苹果公司，主导设计了苹果1和苹果2电脑。

这些是被开除的。为什么基金会喜欢投资这种人呢？基金呢，特别是风险投资基金，早期的风险投资基金，会专门找这种叫特立独行的人来去投资。因为按部就班的人很多，特立独行的人呢，是相对来说比较少的，比较难找到。

按部就班的人呢，未来通常是可以预测的，一眼就可以看到你的退休。所有的这些按部就班的人，他们的未来中呢，并不包括风险投资人所期望的那种成功。什么叫他们所期望的成功？不是说我今儿给你100，明天你还我110。你想他投10个案子要死9个，所以他一定是希望有一个人能够一下就把10倍或者是100倍的钱给你挣回来。这样的人肯定不是按部就班的人。

特立独行的人呢，未来是很难预测的。他们一定会成功吗？不一定，而且他们成功的几率也很小。但是再小，他也是有可能出现风险投资者所希望看到的这种成功的。

那你说特立独行到什么程度就会被关注呢？你说特立独行的人多去了，有些人疯了，有些人什么黑暗科学家了。什么样的人会容易被投资？

第一个，一定要聪明。你说我这人不够聪明，这事肯定是不行的。

第二个，要对未来或者对人性有一定的洞察力。你说我做了半天，完全陷入在自己的世界里边，别人说什么我都不听，这个是不行的。

第三个呢，要有极强的实现能力。你说我光会想，四处吹牛很厉害，我东西做不出来，这事也不行。

那咱们现在看看这个interview coder这个项目。这个项目呢，做出来了，这是非常难得可贵的，而且符合当前的需求，很多人需要使用，而且也有可能符合未来的方向。因为大家都在做AI助手，他也在做一个AI助手。而且他这个AI助手，因为是给人作弊用的，做的还相当不错。

刚才我们也讲了，interview coder实现的难度是非常高的，普通人做不出来，他给七扯咔嚓给做出来了。

还经过了市场的证实。市场验证过了，这个软件靠收订阅费，一年也能收出几百万美金来。所以，这个是非常非常难能可贵的。

听了这样的一些标准之后，如果有听我节目的年轻人，在你们决定辍学创业之前，先想清楚你们具不具备这些能力。如果不具备的话，先培养一下，再去研究说是不是要去辍学创业。

最后呢，咱们讲一下CLUELY这个软件未来的方向是什么样的。很多流氓软件后面都转去做安全软件了，比如说他去做一个可信面试，这个也是一种思路。当然了，这个未必是一个好的赛道。你像360原来就是做流氓软件的，后来说，我去给你做安全软件去。因为怎么耍流氓他最熟，我去把所有耍流氓的路都给你封上。他既然可以做作弊软件，可以逃避各种的检测，他就知道说，有哪些方式可以逃避检测。那最后大家就去拼呗，道高一尺魔高一丈的事情。那这也是一个思路，但是这个不是大的方向。

真正大方向是什么？现在大方向就是AI个人助理，大家都在做。包括我现在使用的豆包、Claude、ChatGPT的客户端，实际上都属于AI助理。而且甭管是豆包、ChatGPT还是Claude，这些客户端其实要比现在的Interview Coder还是要差一些的。从用户的体验、从前端的兼容性介入上，还有资源占用上，都还是要差一些的。

做个人助理这件事，本身技术呢并没有那么难，都是可以做得出来的。只是呢，在用户交互设计、产品场景设计上，这块才是比较难的。我现在用豆包，那个就真的是戏精产品，把各种能够想到的端口、各种能够想到的入口都要占一下，而且不停的在各种你使用的过程中加戏。如果我要拿这样的软件去作弊的话，可能第一分钟就被人发现了。所以从软件设计或者从交互设计上，这个东西绝对没有Interview Coder做得好。

如果一个AI助手可以像Interview Coder这样，非常好的跟当前系统相互结合，那就不会造成什么兼容性的问题。这个对于助手类软件也是非常关键的。所以他们可能能够做出来未来比较有趣的AI客户端助手来，这是大家可以去期待的事情。

而且你想这样的一个客户端助手，还不需要你去过多操作。你该写程序写程序，该打游戏打游戏，他在你的界面旁边适时的弹出，给你提供你需要的帮助。不会出来没事找事，也不会说你需要他的时候找不着他。这是多么强大的一个AI助手。

你就想，我们可以在面试的时候不被考官发现，不用操作它，自动的把答案找出来。这就是他们未来的方向。

Manus独领风骚成过往？字节扣子空间与百度心想APP强势入局，深度评测揭示AI Agent新格局下谁能主导复杂任务自动化与MCP生态。

Luke Fan — Thu, 24 Apr 2025 00:44:49 +0000

Manus的后劲来了。百度、字节都有了自己的agent产品上线。

大家好，欢迎收听老范讲故事的音乐节目频道。字节上线了扣子空间，百度上线了心想APP。Manus的光环不再。Manus本身就属于意外爆火，当时它突然火了以后，咱们还做了直播，说这个东西没有什么技术门槛，只是产品设计的很有意思。

Manus跑去跟阿里合作了之后，那字节、百度说这不行，咱们也得有自己的产品上线。又不是有多难做的东西，那就做呗。我呢，搞了一个字节扣子空间的邀请码，咱们呢试一试，看看这个产品到底怎么个用法儿。

Manus呢，到现在我也没用上。原因也很简单，我去申请测试，等了很久，到现在都已经开始收费了，也没有收到说你可以来玩一下的这个邀请。所以也就别费劲了。我自己呢也没有特别着急，我要特别着急想用的话，随便找两个人去要一些邀请码，也还是可以搞得定的。既然没有那么热心的话，也就没有上心去找嘛。

AI agent呢，其实主要还是做自我规划、完成复杂任务。就当我看明白这个东西到底是干什么了以后呢，就没有那么着急了。如果对于输出的结果没有什么特殊要求的话，其实用Grok的deep search或者是open AI的deep research都是够用的。只是这些工具呢，输出的都只是一个文档，就是一个Markdown文档，或者说是一个富文本的文档而已。

我想去生成个网页，想去生成个表格，它就稍微差点意思。而且呢，Grok的deep search可以使用的工具是有限的，就是一些内部工具。现在呢还不支持我们去调用外部工具。像Manus这种东西呢，它除了内部工具之外，有一些外部工具，可以通过一些接口放进来。如果是对输出结果有一些要求，说我想输出个网页，我想输出个应用，可能就需要使用Manus这样的工具了。

新的方向有了，大家就冲就好了。现在新方向是什么呢？就是Manus给大家指明的新方向，叫agent加MCP。现在的大模型呢，基本能力已经够用了。GPT4O及以后的版本，Claude 3.5及以后的版本，Gemini 2.5 Pro以及往后再出的各种版本，其实都已经可以实现agent的全套功能。

这里头比较倒霉的就是Meta，他现在出的LLAMA4好像稍微差那么一点点。国内的模型呢，比刚才我们讲的这几个要稍微差一些，但也勉强能用。比如说DeepSeek R1，比如说通义千问的千问QWQ 32b。

通义千问的推理模型，以及豆包1.5的推理模型，最近这两天也发布出来了。百度文心一言呢，他自己号称他的4.0推理模型是可以用的，但是我没有去测试，实在是懒得跟他费劲。

这些大模型给他一个任务以后，他把这个任务拆解出来，进行一些规划，基本上是可以使了。在自我规划之后呢，就是数据调用和内部工具使用，这个就会看出各家的差异来。因为你输出的结果怎么样，跟你搜索的结果是息息相关的。你如果搜索质量差的话，那你输出的内容就会变得很烂。

我为什么很少使用GPT的各种推理模型，包括它的深度思考去干活呢？因为它的搜索质量实在太烂，所以经常出来给我胡说八道。而且有一些比较特殊的资源，只有某些内部可以使用。比如说X上面的帖子，只有Grok能用，其他人你用不了。或者说抖音里边的视频，我们根据字幕来进行一些搜索和总结，这事除了字节，别人也看不了。这就会产生差异出来。

在内部的数据跟工具使用了之后，还可以使用外部工具。现在MCP标准呢，已经基本确立了，各大平台都开始出官方接口了。前几天还跟大家演示过，使用高德地图进行行程规划，还是非常有意思的。

剩下的是什么呢？剩下的就是等就好了。因为这种任务你扔进去以后，没有个十几二十分钟他出不来。等的过程中就是TOKEN在燃烧。后边就是一次一次的调用大模型，哗啦哗啦在那跑，TOKEN就在干这个事了。

今天呢，咱们测试一下扣子空间。扣子空间呢，应该是4月19号吧，低调上线，也没开发布会，什么也没说，这东西就来了。也是需要邀请制或者是报名去等待。我呢，就直接找了人说：“给我发个邀请码过来。”人就给我发过来了。

拿到邀请码以后，你进去完成第一个任务，也就是让扣子空间给你去做第一个项目以后，你就可以生成5个新的邀请码。待会呢，我会在视频的简介里头贴4个邀请码。我的5个邀请码已经有人用了一个了，还剩4个。想试的人呢，可以到那去找邀请码去试去。

你试完了以后呢，也欢迎你把自己在生成的新邀请码，没有用过的，还贴到我们的评论区里头，让其他想试的人可以去使用。在海外的人现在别费劲，只有coze.cn上才可以用，只有在墙内的人才可以用。

现在呢是免费试用，每天呢可以跑5-10个中等复杂度的任务，就是跑十几二十分钟这种，我们算中等复杂度吧。长了呢，可能能够跑个几小时，但是我现在还没有规划这么复杂的任务让他去干。

完成的工作呢，算是有一点点小惊喜吧，待会咱们看一眼。但是呢，内容不能细看。

很多的内容还是比较粗糙的。下面我们来演示一下，这就是我们的扣子空间。进入以后，你点击快速开始。如果像我这样已经有使用权限的，就干活去了。如果你没有使用权限的，可以加入他的waiting list，或者是输入邀请码。邀请码在咱们视频的简介里边去找。

下面是他的一些样例，就是这些是能干什么。这个很重要，为什么呢？就是当你看到了这些样例以后，你就说，我可以去拿他的提示词改一改，就去干活去了。比如说什么股票早报定制、什么深度调研、访谈记录整理。当然访谈记录，你要给他一个很复杂的访谈记录，他才去给你整理去。包括AI产品的用户分析，那你要给他一大堆的用户调研报告，他去干活去。包括什么游戏攻略撰写，待会我们去试试。还有的一些呢，是比如说写旅游攻略、市场信息调研，这个都是可以的。

我们点进去了以后呢，就会到达这里。这就是老范讲故事做的扣子空间了。但是注意这里头有两个模式，一个呢叫探索模式，一个呢叫规划模式。探索模式就是你给它一提示词，它噼里啪啦就给你干完了。规划模式呢，你给他一个提示词，他呢先去做一个规划：这样干行不行？我去按这10步干，还是干这20步干？你在这个时候还可以调整，调整完了以后他去干去。如果你是这个探索模式呢，直接干完就出结果。如果是规划模式的话，中间他遇到问题，他会停下来问你：“对不起，这有一个问题我搞不定了，咱还干不干？”或者有什么其他方法，你可以再跟他聊两句，他再接着往前走。更像个人规划模式。但是，规划模式呢，会更加消耗时间和TOKEN。我就不在这现场给大家试了，因为现场事实在是太慢了，没有个20分钟跑不完一个项目。

这个地方呢是上传文件的，只识别文字的部分。你说我上传个图片给我识别一下，目前还不可以。最多可以上传10个，单个文件的最大是50兆。比如说我有一大堆的这个简历，把它打包扔上去。扔上去以后呢，他把里边的内容都给你找出来，说哪一个是符合我要求的。这个是可以做简历筛选。或者你给他一大堆的用户的调研报告，他也可以去给你分析。

这边呢是MCP扩展，大家看到了有高德地图、飞书云文档。你比如说我添加这个，最后说请把输出的结果写在飞书云文档里，它就给直接给你做完了。或者你说我从里边去读取信息，都是可以的。包括飞书多维表格、飞书电子表格。你说我有一堆的用户调研报告，都是存在这个里边了，你可以让他直接去读去。图像工具呢是可以做文生图，但是效果一般，我试过了。语音合成也是可以。

Notion可以在Notion里边去创建、读取、编辑、更新，包括GitHub、MySQL的一些查询，ClickHouse的一些查询，这个都是允许的。ClickHouse就是有些人把比如用户的数据放在里头，这个都可以拿来去分析。就是你需要哪个，你就在这里头添加。把这都弄完了以后，直接点开始就完了。点一次基本上20分钟就不见了。像我们这种免费用户的话，每天可以点个5-10次。

我们来看一看他干的怎么样。第一个呢是前面有案例说：“请给我分析《黑神话：悟空》的攻略。”现在我说：“你给我做《纪元1800》的详细游戏介绍文档，包括发布后的完整时间线，涵盖每个关卡和DLC的详细介绍，以及基础策略和故事线的介绍。同时列举出主要人物角色和各项任务的情况。最后报告用可视化网页呈现。”

他说：“我接到你的任务了，我要开始干活去了。”先思考一下去搜索：《纪元1800》什么时候发布的？游戏背景是什么？基础信息是什么？思考的过程又去想去了：关卡、DLC、策略，挨着个儿去搜索它。等于就是搜索了大量的内容，再去思考说：“我们现在开始把一些基础信息保存下来。”去生成网页，生成UI。UI完成了，然后生成代码。代码呢要进行解析、分析和检查。完成了以后给它配图，但实际上没有什么图进来，可能有一点小图标进来。配图完成，开始部署。最后就生成完了。大概整个跑了20多分钟。

做出来的结果是什么？就是这样的一个结果，说：《纪元1800》游戏指南。这个游戏背景是回到工业时代之初，19世纪初的工业化。基本上写的都是对的，因为都是搜索出来的嘛。游戏核心呢是城市建设，依托于海岛港口的小型农庄起步，逐步建设各种的养殖场和工厂，以及公共设施，形成繁荣的近代都市贸易系统。一项一项的就去讲去了。

你看它还是有一点点小动画的。这边是时间线：2019年4月16号正式发布的，2020年8月11号有各种组合包，DLC就开始上线。到2023年呢，登录了PS5和Xbox。2024年呢，又在出新的组合包。

然后DLC的一些详情。这个里头呢就告诉你说：植物园的DLC，推荐指数是什么？植物园、沉默的宝藏、植物园航道、权力之座、狮子之地。好像有些DLC我是有的。贸易港，这个里头是说有这么多，哪个是推荐去买的，哪个不是那么推荐的。推荐指数五颗星制。然后呢，是有季票，就是你买了季票以后呢，包含了哪些DLC了。这是第一个季票，第二个季票，大概是这样的一个购买方式。

就是你买了本体以后，还可以买季票，或者买这些DLC继续丰富游戏。策略呢，也告诉你了，说我要先干什么后干什么：初期什么，中期什么，后期什么。这是策略，这是故事线，稍微的跟大家讲解了一下。

然后是角色。这个里头呢，只写了两个，其实他角色是很多的。清公主是比较有名的一个角色了，都是他们有什么特色。然后系统任务有哪些任务：什么拍照任务，解谜任务。其实任务非常多，这个就是非常不完善了。但是呢，这就是给你的一个结果。

前面的提示词大家看到了，最上面是提示词，然后是一项一项的去干活去了。后面我就让他做了一个什么项目呢？做一个PPT说明吧：扣子空间目前免费使用的版本，背后是哪些大模型，内置了哪些工具，可以通过MCP挂载哪些工具，免费试用的用户有多少额度，额度如何计算，每天可以做几个任务，如何计费。扣子空间擅长做哪些任务，为什么没有大张旗鼓的宣传呀？用户对于扣子空间的反馈怎么样？扣子空间跟百度、跟Windows、跟Grok的deep search之间到底有什么差异？他就去挨着个儿搜索，搜索完了以后再去生成PPT，大概是这样的。

右边我们就看到了这个PPT。当然它这个PPT呢，下载下来是一个PDF。有些部分还可以，但是呢，有些部分明显的就没搞明白，包括计费的部分。实际上它属于明显的没搞明白。但是我们就一句话呀，虽然它做了十几二十分钟，但它确实给我们做了一个还能看的PPT出来哈。我们可以在这下载这个PDF：扣子空间介绍功能、使用反馈和优势点PDF。你可以下载下来。

然后呢，我让他做了一个稍微复杂一点的。这个是什么？我需要在5月10号到17号，从北京出发7天，呼伦贝尔大草原自驾旅行，一共两个人，预算5万元左右。我喜欢自然风光、隐藏的宝地和蒙古文化。我想从北京自驾出发，一路开电动车，需要规划充电站。请详细的给我行程安排和一个内容丰富的飞书文档旅行手册，包括地图、景点描述、旅拍和航拍的打卡点、必备的装备、每日行程、一路上的特色美食，以及我们每个行程中可以参考的旅行小贴士。将飞书文档保存到我的飞书账号。但是你使用飞书呢，它就会让你认证一下，说你的飞书账号是哪个，它到时候就给你存进去了。

最后呢，它给我生成了一个什么？这个过程我们就不仔细看了，因为我还调用了高德地图。它里头到底如何开，到了哪个地方，有什么吃的，哪个地方有充电站，这个都是由高德地图来去提供的。做了可能有半个小时吧。

第一天：从北京开车到锡林浩特
北京出发，走G6京藏高速。中午到张家口休息，再往锡林浩特方向开，约4小时车程。
打卡贝子庙、鄂尔古纳敖包，感受蒙古文化。品尝手抓羊肉、咸奶茶。
充电站位置：锡林浩特市区XX充电站。

第二天：锡林浩特到阿尔山
上午出发，走S307省道。中午在东乌珠穆沁旗用餐。下午继续前往阿尔山，沿途景点包括XX草原、XX湖。
晚上入住阿尔山XX酒店（需提前预订）。
景点介绍：普留克（特色美食）、炸柳根鱼（当地特色）。
充电站位置：阿尔山市区XX充电站。

第三天：阿尔山到满洲里
出发路线：走S203省道。中途在XX镇用餐。
满洲里景点：套娃景区、XX民俗村。
充电站位置：满洲里市区XX充电站。

第四天：满洲里到黑山头
行程安排：上午出发，中午在XX镇用餐。下午抵达黑山头草原活动营地，参与蒙古族民俗活动。
充电站位置：黑山镇XX充电站。

第七天：海拉尔返回北京
行程调整：第七天应从海拉尔返回北京，建议乘坐飞机或高铁。

旅行装备：
– 衣物：5月份昼夜温差大，需准备保暖外套、长裤。
– 生活用品：牙刷、保温杯、驱蚊用品。
– 摄影器材：相机、三脚架、无人机（航拍必备）。
– 车载用品：充电器、地图导航设备。

旅行小贴士：
– 交通：提前检查车辆（充电车需确认电量），携带驾驶证、行驶证、保险单。
– 饮食：注意饮食卫生，尽量选择正规餐馆。
– 住宿：提前预订酒店，避免旺季无房。

其他注意事项：
– 雨天行车需减速，注意安全。
– 旅拍和航拍打卡点：贝子庙、黑山头草原、套娃景区等。
– 特色活动：参与蒙古族民俗体验，探访俄罗斯后裔家庭。

—
（注：纪元1800任务部分因涉及游戏截图及图标缺失问题，已按用户要求跳过未完成部分。）

我们就不要图标了，然后又接着吭哧吭哧干去了。

我这写着放弃图标和截图，继续完成其余工作。说好的我将放弃这个东西，然后我去干活去了。最后蹭蹭蹭，干到这大概也是20多分钟，不到30分钟吧。干完的这个结果呢，其实给我们生成了很多的这种Markdown文件，就是把所有搜索的信息都放在这。

它搜索完了以后呢，再用这些Markdown文件去生成我们最上面这个GSX。这个是一个用React来去渲染的单个的网页文件，他最后生成了这么一个文件。

主要的人物，这个里头也有谁谁谁：清公主，然后白手起家。这个一般我们管她叫老太太，这个反正最后总要打一仗的，叫欧梅拉，这都是有的。相关的新世界相关的角色有哪些？就是他找的还是挺全的，虽然最后生成的网页里好像没有这么全，但是这边找的还是很全的。

然后呢，给大家看一个他犯的错误：游戏关卡跟DLC，他找了一堆什么使命召唤、守望先锋、吸血鬼幸存者。这什么意思呢？就是他在agent传递的过程中，他忘了我要找纪元1800相关的信息了，传递的时候把这个游戏名扔了。所以呢，他再去找游戏关卡跟DLC的时候，就直接输出了错误的结果。因为当他很多的agent一起配合干活的时候，就很难避免看这个事情。

最后呢，给我们生成了这样的网页。这就是大家能看到的网页，说一是什么什么样的，二是什么。这是我们的时间线。然后呢，是关卡跟DLC，这个还是有点小漂亮的。但是这个呢，就刚才我们看了，它是出错了，所以它给了一堆什么吸血鬼幸存者的DLC、什么激战、什么恶龙绝境的DLC、方舟的DLC。所以这个页面是完完全全错误的，不用管它了。

然后呢是策略和分析，这个很二。他需要展开前期后期主线写的，就非常的简陋了。再往后是人物：清公主，一个一个的人物。但是这个呢写的并没有那么完整吧，就是其实他找人物的时候找的是挺完整的。就刚才我们看到他给的，这个Markdown里头是挺完整的，但是呢最后生成网页里并没有那么完整。

作为基础框架是够的，把这个框架拿出来以后，再套上这些Markdown文件，还是可以继续去丰富的。这就是我们今天演示的扣子空间。

进入的网址呢是space.coze.cn。海外的用户先不要着急使用，国内的现在已经可以跑了。使用的感受是什么样的呢？真的需要跟扣子开会了，不能跟他随便聊天了，太浪费TOKEN了。因为你是跟他说点什么，他都哗啦哗啦去干活去了，不能随便聊了。

所以，我现在都是写很长的提示词，把各种能想到的尽量都罗列清楚。如果你说我实在是一次想不明白怎么办？使用规划模式：你先提出要求，他先把这个任务列出来，你再按照这个任务呢再去调整。修改好任务以后，他再去确认，按这个逻辑来去执行，他再往前跑。而且跑的过程中，他还有时候问你说：“我这块执行不下去了，那块找不着了怎么办？”你还可以跟他再聊两句，继续往前走。

如果你说我不走规划模式，直接用简单方式一次跑到底的话，那你就一开始要把任务提的比较详细一些。整个干活的过程呢，还是很有启发的，就跟思维链似的。你看他先干什么后干什么，先搜索什么后搜索什么，是有启发性的。如果发现哪块没做好呢，我们后面也可以拿这个东西再去修补。输出的结果呢必须要验证，这个没什么好说的，里头一定是有明显错误的。Agent的传递过程中呢，会出现明显错漏，刚才我们演示的时候也看到了。生成的结果呢框架可用，生成结果后面的很多细节，还需要我们再去补充。而且把这种结果放到他们的Agent IDE里头，比如说像trae里边去，也可以拿这个东西再去修修补补。

目前呢，可以输入的东西是搜索，它自己可以搜索。然后呢，通过MCP挂载一些外部工具。但是现在的MCP呢，只能是它挂好的。你说我想挂一些新的MCP进来，目前还没有完全开放。可以输出的信息呢，第一个是文档，它这个文档是Markdown，就是一些程序员的标记语言，也是有一定格式吧，但是没有那么丰富。然后可以输出这种单页的网页文件，你拿这个网页文件以后，后面呢可以让他去生成自己的网站。你说想让他去写一些别的代码，我测试了一下失败了。你说给我写一个什么安卓应用，它最后生成出来的还是一个网页，没有其他东西出来。然后呢，可以把输出的东西写在Notion里去，也可以输出什么PDF、PPT。PPT呢是以PDF形式来输出的，还可以做表格、做飞书，文档存进去都是允许的。

大家看到了这个产品以后，特别是有些人试用了以后，自己去感受一下。字节在做类似这种产品上呢，它有一些优势和劣势。优势呢就是迭代速度还可以，trae现在基本上已经能用了，特别是在Gemini 2.5 Pro这个模型上来以后，现在trae基本上可以跑了，因为把MCP也加上去了。所以呢，像扣子空间这样的工具，经过一段时间迭代之后，应该也是可以运用的。第二个优势呢，是字节有非常丰富的应用场景，它有抖音、有TikTok，有今日头条，都是可以使用的。

然后有流量，就是我们想宣传点什么东西，在自己的这个流量池里头稍微说两句，没有任何问题。最后一个优势是有钱，就是当产品打磨好了以后，铺天盖地的投放推广。

但是字节呢也有些劣势。它的劣势就是包袱太重。你比如说豆包大模型算是基本达标，但是距离DeepSeek R1呢，还是有一点点差距的。不能扔，因为是自己家的，必须抱着往前走，这就叫包袱。还有呢，就是藩镇割据。大公司都是这样的，扣子、火山、trae、飞书、剪映，各玩各的还相互提防。就是说我这边有点什么东西，我绝不能给你看，也绝不能听你的。你需要我什么配合，一定不给你做。咱们是这样的一种合作模式。其实大厂里边都这样，就是宁与外人不与家奴。这个话应该是慈禧说的。什么意思呢？就是他们更喜欢跟外界进行合作。你说我跟内部的一些团队合作了，其实更合适一些吗？因为毕竟大家的基础数据是一致的，应用场景也是一致的。那不行，一旦是内部合作了，就有谁听谁的问题，谁成主谁成辅的问题。这事不能随便乱搞。

总结一下吧。现象级的产品Manus出现之后呢，各大厂商都是要抄一遍的，这也算是对方向的一个认可。agent加MCP呢，应该能够引起一个小的热潮吧，确实可以解决一些实际问题了。未来呢，更好的模型，更多的外部工具，会产生更好的结果。

下一步我们可以期待什么？open AI、谷歌、Anthropic和Meta现在还没有特别明确的类似这种agent加MCP的产品出来，我们还是可以期待一下的。下一个里程碑是真正的交易。什么意思？就是我们现在看到的扣子空间也好，Manus也好，或者其他所有类似这种产品也好，主要做的事情还是叫信息搜集。他并没有真的做交易。你说你给我订个房间，去给我买张机票去，给我买东西去，这个事没干。一旦这一条路打通了就会腾飞。

为什么他们现在不去做交易呢？原因也很简单，现在模型还没有那么靠谱。因为它出问题的几率会很高嘛，受不了。所以现在并没有真正的把交易做进去。现在的各种MCP，也都是以信息查询为主，很少有哪个MCP是可以做交易的。你比如说像美团，如果给我一个MCP，我直接可以通过MCP去在美团上订餐，目前还没有。因为现在的大模型或者是这种agent模式呢，还没有那么靠谱。在等待向前发展那么几个月，可能我们就会看到由MCP驱动的交易大量涌现，这么下一个篇章就真正翻开了。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛。

参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

GPT-3与O4 mini不再高冷：融合工具调用、记忆与超强图像推理，普通人也能高效应用AI，一文看懂成本、限制与Copilot捷径

Luke Fan — Fri, 18 Apr 2025 00:50:27 +0000

GPT-3和O4 mini发布了，这次绝不再仅仅是科学家们的玩具了。大家好，欢迎收听老范讲故事的YouTube频道。

本来GPT-3和O4 mini发布呢，我并没有抱太大的期望。为什么呢？因为前面O1和O3 mini发布的时候呢，看得我头晕眼花的。我记得应该是在去年12天连续发布会的时候发布的O3 mini，实在是太不明觉厉了。各种的复杂科学问题，咔咔就给解决了，然后各种的排名都排得很高。但是呢，我自己其实并不怎么用。

为什么呢？第一个，ChatGPT Plus用户里边呢，它是有用量限制的，并不是随便让你用的。所以在有用量限制的情况下，你就得省着用，而且你也感觉不出有太大差异来。你说你用它干嘛？据说编程很强，但是它没法跟IDE结合，基本上也就放弃了。你是可以出一大堆的代码，但是你还得向IDE里边去考来考去的，很麻烦。那你说我通过API调用吧，直接使用O1和O3 mini这些模型，实在是贵，所以就放弃了。

这一次呢，真的就不一样了。首先是Greg重新上线了。Greg其实好长时间不怎么出来了，他是在2023年11月份山姆·奥特曼宫变之后，就变得非常低调。2023年11月开始休假，后来是在微软的强烈要求下才回归的。到2024年又开始了长期休假，但是在大量高管离职之后，年底再次回归，还宣布：“我提前俩月回来了，我本来还想再多歇一歇的。”现在呢，主要负责机器人业务，不再担任董事会主席了，保留了总裁的职位。

Greg上来开始显得有一些紧张，不知道该说什么。大家可以去看看那25分钟的发布会录像，后面逐渐放松了，也是长时间不露面、不说话的一个表现吧。这一次的话，全程C位，坐在最中间的位置上，主持O3和O4 mini的发布会，可见重视程度了。

这一次的发布会呢，基本上是二对二的分配，就是两个老板配上两个做事情的。两个老板始终坐着不动，做事情的人呢，就是讲到不同的部分，然后来换。还有一个老板呢，叫Mark陈，首席研究官，亚洲脸，但不确定是不是华人。有传闻其父母是从台湾去的美国。现在呢，有一种ABC脸，看起来有点像华人，但是脸型又不像。这个据说呢，是长期英文发音和美式的饮食习惯，以及美国教育所形成的一种脸型，反正跟华人还是有一定区别的。有可能是个华人，当然也有可能是个越南人，这个不确定。

另外两个呢，是根据演示的过程不同，不停地换工程师。国内引用的照片呢，肯定是有偏向性的。国内各媒体呢……

通常引用的是讲到模型强化训练和各种跑分的这两位工程师。为什么呢？因为里头有一个叫周文达的，是一位华人。国内各个媒体引用照片的时候，一般会引用含华量比较高的照片。

一开始呢，也是讲科学，什么量子力学。本来我也挺失望的。科学的部分呢，对于我这种普通人来说，已经没有那么大关系了——看不懂，没需求，也用不起。所以一看，还是这东西，好像没什么意思。

但是讲到后边呢，越来越兴奋了。咱们讲几个好玩的特性，并不跟大家完整的去复述这个发布会了。有兴趣可以去看这个25分钟的发布会，各种数值绝对是遥遥领先。

OpenAI呢，作为行业老大，他是有自觉的。什么叫自觉？从来不跟别人比数值，只跟自己比。就是他不会说我把Gemini 2.5拎出来比一比，Claude 3.7拎出来比一比，或者跟DeepSeek比一比。别人都是说我比OpenAI强在哪，或者我已经接近OpenAI了。OpenAI永远说我就跟自己比。

所以我们现在可以看到的所有的数值比较，都是跟GPT O1、O1 mini、O3 mini跟这些模型进行比较的，没有跟其他模型比较的数据。

咱们来讲三个有趣的功能点吧。

第一个非常有趣的功能点，也是让我觉得GPT O3和O4mini真的能用了的一个最核心的点，就是它可以进行工具调用了。什么意思？我们正常情况下一个大模型，你让他去给你生成内容的时候，他其实都是在胡说八道的。就算他有的时候说的很像，但他依然是在胡说八道，是在编。他不能保证内容是可验证的，而且你每一次让他说同样的事情，他都给你编出不同的花样来。

那么一定要带上搜索，带上知识库，带上其他的辅助工具，他才可以靠谱的干活。现在推理模型已经可以靠谱的干活了。所以O3跟O4mini是可以进行工具调用的。但是他们绝对不是第一个。在发布会上他们讲说，我们是第一个在推理里边进行工具调用的，这个真的不是。GROK3也是推理模型，也是可以做各种工具调用的。

只是呢，GPT O3跟O4 mini呢，据说在工具调用上要有极大的提升，因为他们在这块专门做了训练。他可以进行几十次的这种工具调用。当你让他去做一个很复杂的事情的时候，他会反复的在他认为需要的时候去调用工具，获得外部数据，或者做一些相应的操作。这个很棒。

O3跟O4mini呢，是在推理的过程中去调用工具，效果绝对是碾压原来不能使用工具的O1，效果好的一塌糊涂。推理模型如果不挂搜索引擎……

不挂知识库，基本上就是胡说八道。他要比正常的生成模型还要再胡说八道一些，因为他想的多，越想就越错。知识越多越反动，这个幻觉是非常非常严重的。挂上搜索之后，基本上不再需要 deep research 这种东西了。现在你用 O3 去挂搜索，跟 deep research 的效果基本上是可以平齐的。

现在呢，OpenAI 内部有很多的工具，包括 Python 执行、调用浏览器、搜索，有很多这样的工具，它都可以自动的去调用。当有这些功能之后，每一个普通人，不需要是科学家，也可以用 O3 跟 O4mini 完成很多任务了。只是目前呢，OpenAI 内部的这些工具，你通过外部你使不了。还有 function call 这个调用呢，现在在代理站上还没有接上，这个还要再等一等。什么意思？就是你直接挂 OpenAI 的 API，挂它原厂的，是可以进行 function call 的，可以把你自己的各种各样的工具放在里边让它去调用。原来我们演示过使用高德地图的工具，让他去找饭馆、规划路线什么的，这个都是可以去使用了。如果我们使用 API 来调用 O3 和 O4mini 的话，OpenAI 内部的什么搜索呀，这些工具我们是无法使用的，就差在这了。这是一个比较有趣的点，但是具体怎么用，待会我们来举一个案例。

第二个有趣的点是什么呢？就是跟记忆相结合了。原来我们专门录了一期视频来讲 OpenAI 有了记忆功能，现在它也有记忆功能。于是我就向它提出了要求，我说：“根据你对我的了解，我是个 Youtuber，给我推荐一些适合我的 YouTube 话题，我要去写稿去了。”然后他就开始去搜索，调用搜索工具去搜索去了。搜索完了以后说：“我发现你是专门讲 AI、讲科技、讲流量、讲创投的博主，我发现有哪些哪些话题最近是最新的，适合你去讲。”其中有一个话题呢，叫 TikTok 降低了海外直播带货门槛。原来呢是要 1,000 个粉丝才可以带货，现在 200 粉丝就可以带货了，说这个你看怎么样？我说这个不错。我说：“你根据你对我的了解，给我去写个提纲吧。”然后他就按照我的习惯，给我夸夸把提纲列好了，说 TikTok 是哪天哪天发了一个什么样的文儿，为什么什么东西，写的还很好的一个提纲。在这个过程中引用了我的记忆，调用了搜索，聚集了大量的信息。我再说：“那你再给我补充点数据和观点吧。”一般我是会有一个自己的观点，我说：“我的观点是什么什么，你给我补充进去。”然后呢，我为了论证我的观点。

我还需要哪些数据？然后，夸夸夸又去搜索，搜索完了给我补充进来。做了两次补充以后，这个提纲基本上就完成了，就完完全全可以用了。过几天咱们去讲这个“TikTok降低海外直播带货门槛”这个故事吧，这个还是很有趣的一个点。所以现在真的是每个人都能用上了。

第三个比较好玩的点是什么呢？就是图片推理。这个图片推理是非常非常强的一个点，绝对不是识别图片，然后将文字作为提示词去推理。我们很多人一看图片推理这件事，都是想的说，我们把这个图片识别一下，变成一大堆文字。不是这样。

跟大家举一个案例吧。我今天去潭柘寺了，玩我的无人机。拿我的无人机呢，在潭柘寺的外面，拍了一张俯瞰潭柘寺的全景照片。我就问O3，我说这是哪？这个建筑群的布局是什么样的呀？这个提示词就这样的。问完了以后呢，这个O3就去干活去了。他把这个图片先整个的分析一下，然后呢，放大每一块切割，说这一小块是什么，那一小块什么，把它切成一块一块的。然后对每一块进行识别，而且在切完了以后，还对每一块去调整方向，说这块好像你拍歪了，改一个方向，可能更能认出是什么来。通过这样的一个方式去推理，看那个推理过程，惊讶的我目瞪口呆，我告诉你。

最后告诉我说什么？从这张航拍来看，这是一张典型的依山就势、三层台地式布局的北方佛寺，很像北京西山脚下的潭柘寺。我没有告诉O3这是航拍照片，他就全都认出来了，好聪明。但是注意不要被骗了，照片里面是有Meta data的，就是有一些基础信息的。这个信息包括什么？拍摄时间、分辨率、色彩、空间、光圈、快门、白平衡，都在里头。还有拍摄设备那个里头，写着你是用大疆的什么设备拍的，大疆air 3S。然后呢，这个照片里还写着经纬度，因为大疆的无人机里头是有GPS的，它拍完照片是会把经纬度直接写在照片里的。完完全全可以通过这些Meta data就编出来的。

所以呢，这个到底是真聪明还是假聪明？还是说我把经纬度拎出来，把这个拍摄设备拎出来，就直接搜索一下，就给你出结果了？这个我们要往下看。他呢还给我接着讲，说这个图片是中轴对称的三进院。第一进呢叫山门到天王殿，第二进呢是天王殿到大雄宝殿，第三进呢是大雄宝殿到法华殿和藏经阁。中轴线两侧各有回廊和配殿，比如观音殿、药师殿、僧房、斋堂，左右分布对称，也有现代化的客房和管理用房。

再往后还写了一个特别有趣的东西：底层的停车场与服务中心，通过台阶与甬道与寺内各层相连。右侧的通讯塔，现代建筑。

为后期补建的配套设施，这是不是根据潭柘寺的信息搜索出来的呢？这就是我们要去问的。他到底是真聪明还是假聪明？

潭柘寺最后的一进大殿不叫藏经阁，而是叫毗卢殿。应该是五方佛中间一个，然后后边是东方、西方、南方、北方，一共是五个佛在里面，所以不一样。但是中国寺庙的默认布局呢，最后一层是藏经阁。所以这个并不是直接搜索出来的。如果直接搜潭柘寺的话，他应该写最后一层是毗卢阁。

至于底层的停车场、服务中心、现代通信塔，绝对是图片推理推出来的。因为不会有哪个介绍潭柘寺的网页去把这些东西都给你写在里头，所以还是非常棒的，可以进行图片推理。

有了这些有趣的功能之后，咱们可以通过什么样的方式来使用它呢？现在免费用户无法使用。你说我不愿意交钱，那么O3跟O4mini你使不了。Plus用户，像我这样的一个月20美金的用户，是可以使用的，但是有限制。O3每周50次，我今天大概已经使了有五六次了。O4 mini呢是每天150次，这个应该足够使。如果是每个月200美金的Pro用户，无限量使用。

API依然很昂贵。使用它的API，我可能还要稍微掂量掂量。O3每100万TOKEN的输入是10美金，输出是40美金。O4mini要快一些，也要小一些，它呢每100万TOKEN的输入是1.1美金，输出是4.4美金。应该比在美国部署的DeepSeek R1相差仿佛吧，就是基本上还是可以用的。

这种推理模型呢都是话痨模型，价格还是挺贵的。特别是10美金100万TOKEN输入，40美金100万TOKEN输出，这个非常非常昂贵。再结合上工具调用，图片推理，这个价格就像坐在日本的出租车里，看着计价器跳的那叫一个心惊肉跳。

其他的一些代理，就是这种API代理也已经开始工作了。Open Router或者其他的一些代理都可以使用，价格是相同的。只是呢，目前function call还没接上。为什么要专门强调这个？因为有些人在国内充值OpenAI的API是比较费劲的，像我就是这样。所以我使用OpenAI的API都是通过各种的代理去使用的。

还有一些什么方式可以使用的呢？GitHub Copilot里头是有GPT4 O4 mini的，但是没有GPT O3。它只有这些mini模型，它有O1，但是没有O3上来。O4 mini的话，应该是可以大范围使用的，但是前提你还是付费的。

像我是Github Copilot，99美元一年的会员。所以呢，我现在可以在IDE里边去使用它，Client和Roo Code也可以通过Github Copilot的会员直接去使用GPT-4 mini。那你说Client或者是Roo Code，我自己挂OpenAI的API或者是Open Router的API行不行？没毛病，都可以使，但是你得按TOKEN付费，那个很贵。挂Github Copilot下面的GPT-4 mini的模型的话，你有那个99刀一年的年费，就可以放心的玩耍了。

总结一下，OpenAI现在前进的方向到底是什么样的？它呢正在将各种零散的功能点聚集在一起。其实记忆早就有了，function call早就有了，推理早就有了。他一方面呢，是在拼命的去做强化学习，然后告诉大家现在强化学习scaling law依然管用。你把更多的数据、更多的算力堆进去，强化学习的效果就能起来，没有任何问题，大家好好去买英伟达显卡。另外一方面，它就把各种其他的小功能给你凑起来了，包括记忆、function call、推理、搜索呀，把这些东西给你搁在一块，你看真的好用。

其他各大模型厂商呢，在某些方面可以接近甚至赶超OpenAI，但是综合实力上，OpenAI绝对还是领先的。当OpenAI把各种新功能聚合在一起的时候，绝对是遥遥领先。它在每一个细节点上，可能都会比别人强很多。就像咱们前几天讲过GPT-4O的绘图功能，它虽然说在完整的绘图过程中，它表现力上、艺术感上没有Midjourney强，但是呢，它在文字理解上、文字渲染上，肯定是要比其他所有的这些绘图模型都要强很多的。

GPT-5现在正在路上了，甭管是今年下半年能出来，还是什么时候能出来，我觉得都是值得期待的。到那个时候就不用再去选模型了，你上来以后，他就根据你的问题直接推荐，直接给你反馈了，说我这个应该推理还是不应该推理，应该使用更大的模型还是使用小一些的模型，我应该调用哪些工具，应不应该搜索。这个我觉得还是值得期待的，就像以前我们总讲的，叫total solution，一站式服务。你进来了以后，我给你服务好就完了，至于我到底给你上了几个工具、几个模型，你就甭问了，最后是包你满意。

后边还有Sora，还是有念想。虽然Sora前面翻车了，现在大家都已经把它忘掉了，但是当它把这么多的功能聚集在一起的时候。

什么搜索呀、工具呀、推理，把这些东西跟Sora聚集在一起的时候，可能又会变出一些新的、不一样的东西出来。

Sora当年可是号称叫“世界模型”的。当它跟我们真实世界通过搜索引擎连接在一起的时候，那可能真的就要创造世界了。

好，这一期就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

Manus全解构：国运级AI Agent背后的真相，自动规划工具是否真的不可或缺？

Luke Fan — Mon, 10 Mar 2025 00:50:34 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲突然刷屏的Manus。它的来源呢，是个拉丁语单词，是“手”的意思，同时呢还有“权力”和“力量”的意思。现在呢，华为造汽车就全都是《山海经》，做AI产品全是拉丁语单词，好厉害的样子，对不对？

现在这个事情呢，应该是从昨天开始，突然就变得一码难求了。我应该是在昨天看到谁呢？王舒义，天津师范大学的一个老师，他发了一条说：“哎呀，得到那个测试码了，怎么怎么着了。”我当时都没想说这啥玩意儿，没惦记这个事，因为呢他们那个Monica我也没怎么用过。Monica这个产品对于我来说，还是有点太奇怪了一点。待会我们再继续讲。

后来到昨天晚上了，突然就开始传出来说这个东西已经在闲鱼上炒到好几万了。又一个国运级产品出来了，中国人再次震惊了世界，说老美又怎么样了，全世界又如何如何了。今天再一看这个，各种新闻媒体刷屏了。我直到开播之前犹豫再三，说算了，还是去申请一次吧。咱们虽然没用过，但是好歹也算申请过了。本来我是连申请都懒得申请的一个产品。

团队呢，也出来求饶说，有人在攻击和破解他们的网站和服务器。这个很正常嘛，你一旦做的好了以后，大家总要上来看一看。那DeepSeek最近也才是逐渐的，号称要恢复正常。但是我却试了一下，一试还是问三个问题，就停下来那么一个状态。现在团队说玩不下去了。而且呢，说几万块钱在闲鱼上买这个邀请码，这事呢他们也出来澄清说：“我们从来没收过任何钱，您千万小心别上当受骗，上当受骗了也别上我这来找来，我这没收到过钱。”

那么，AI agent是不是真的就要爆发了呢？因为咱们从去年就开始讲，说2025年就是AI agent的一年。突然到3月份，就放出了一个王炸性的产品来。这个事是不是行？首先呢，不要太兴奋，这个东西呢在国内是使不了的，必须到国外去使去。为什么？因为底层是GPT和Claude 3.5、3.7这样的模型，这些模型在中国是没有经过安全审查的。

不能落地。而且人家这些模型上，也是明确的告诉你说：“我不愿意在中国地区为你服务。万一我给你服务了，你拿去维稳了，或者做了点别的事情，我们也担不起这责任。”所以Manus这个产品在中国不能用的。他们家的Monica.im在国内也是不能用的。他们纯纯是一个出海的服务商，而且呢，其实是一个非常非常小的服务商。他们的整个的产品，在海外没有那么多用户。

那么Manus到底是干嘛的，或者你到底能干嘛呢？现在能够出来看到的，绝大部分都是官方放出来的一些视频：晒简历、做房地产的评估、旅游的规划呀，全都是这样的东西。因为拿到邀请码的人不多，就算是拿到邀请码的人，可能也还是要给一些面子。但是也有人说自己上去了，觉得一点都不好使，问的所有问题都翻车了。这个我觉得都是可以理解吧。

Manus最强的地方是什么？就是自己规划任务。因为原来我们都是靠这个，像流程图一样去自己画，说我们先干什么后干什么，每一步怎么怎么做。现在说不用了，他自己来规划。你问他一个问题以后，他自己做计划，说我先查哪些资料，再查哪个网站，然后再怎么把它拼在一起。然后呢，可以自动的执行，自己生成一点Python代码，自己去把它跑出来。然后呢，给出最终的结论呢，实际上像一份大报告似的。而且很多人看到这份报告以后觉得：“哎呀，这个写的实在是太好了，甚至给我画图表、画表格。”

画表格这件事是非常非常容易的，千万不要被这玩意骗了。像我们写Markdown格式，或者在计算机里边，写很多的语言的时候，都是可以画出来的。你让ChatGPT画个表格，它也能画出来。但是你让它给你画图表，肯定是画不了的，还是要去调用一些特殊的语言功能才可以画出来。ChatGPT他没做这事，现在统统都干了。

非常多的人一看了以后说：“哎呀，这个简直是如虎添翼，每一个人都可以成为研究者了。”而且说，这是不是AGI看到曙光了，这个东西就是未来了。所以也有很多人说，这就是下一个国运级产品。

DeepSeek的这个辉煌再次上演了，那么是不是值得这么兴奋呢？又一次国运级的创新诞生了吗？我觉得一个不能在中国使用的服务距离国运就还稍微有一点点遥远。你DeepSeek再怎么说，咱们全国上下都在部署，你一个无法在中国合法落地的产品，中国人在这呼哧呼哧在这炒作，这个是很无聊的一个事情。而且DeepSeek本身在代码生成方面，其实差得也还比较远。Manus这种产品，它是不可能靠DeepSeek大模型就在国内部署起来的，它必须要有Claude，必须要有ChatGPT才可以完整的跑起来。如果DeepSeek就可以带着他自己整个跑起来的话，他就可以在国内上架了，但是他不行。

那为什么我说DeepSeek在代码生成的方面差得非常远呢？因为我昨天花了一整天的时间在尝试用DeepSeek去写程序，那叫费劲，比Claude 3.5、3.7真的差的不是一星半点，是差的太老远了。Manus跟DeepSeek比起来，还是有很大的差距的。DeepSeek让国内所有的大厂都跟着走，Manus，国内大厂呢有可能会超他，但是呢也不一定每家都会去抄一遍，因为现在这个方向呢，大家也还在观望之中。它不像是DeepSeek，彻底把国内所有的这个大厂全给翻了一遍，所有跟云计算相关的所有运营商全都装DeepSeek去了。

DeepSeek已经改变了全球的AI格局，还带崩了英伟达的股票。而这一点上Manus就更加没有比较了。DeepSeek自己服务半停摆的情况下，依然可以搅风搅雨，那Manus呢只能算是一个标记性的时间点。他出来了以后说，哦，我们看到了一个新的产品形态，而且大家还挺喜欢，可以自我规划的AI agent可能就能够用了。那么国内的这些大厂，包括一些小一点的厂，系统经营商呢，应该就可以去冲一波了。而这个就是Manus现在带来的一些变化。Manus现在也说我们要开源。

这件事我觉得还是稍微值得期待一下。现在呢，大家最希望他开源的，是他推理和规划的这个“小模型”。但是人家具体什么时候开，开什么东西，现在还没有确定下来。那么讲这么热闹，这东西到底咋实现呢？是不是一套壳产品呢？只要是中国人做的，大家都要问一下。而人家呢，上来也承认了，说我们就是套壳的，没什么好说的。

什么叫套壳呢？就是你没有自己的大模型，大模型用的就是Anthropic、Claude 3.5、3.7、OpenAI的GPT以及DeepSeek。它是没有自己可以拿出来展示的大模型的，使用的都是公开模型。所以呢，可以算是一个套壳产品。甚至还讲了说，我们把套壳做到极致，就如何如何。但是呢，它这个离极致其实还稍微有一点点远。

那么为什么是现在这个时候，Manus这种产品出来了？这种可以有自我规划能力的GPT，其实早就有。最早有一个产品叫OTO GPT，但是一晃眼儿就不见了。现在呢，是Claude 3.7、ChatGPT，特别是DeepSeek R1，这个模型已经变得很强了。而且像DeepSeek R1这样的产品，如果你自己部署的话，你的成本是可控的。像Claude 3.7这样的产品，其实并没有那么贵，整个让它跑起来还是可以去承担的。

原来OTO GPT的时候，当时大家跑，我忘了是GPT3.5还是GPT4了，奇贵无比，所以一会那钱就哗啦哗啦就不见了，所以没做起来。现在呢，就是有可能能做出来。那么进行自我规划之后，能够可控的输出结果，这个是现在这些大模型已经可以达到的这个能力了。其实现在用一些稍微小一点的模型进行规划和微调的话，还是很方便的。

我今天还试了一个东西，就是阿里新出的QWQ 32B的这个推理模型。据说它这个32B的模型呢，是要比DeepSeek R1 671B的模型效果还好。我上去试了试，确实挺好用的，但是要想达到DeepSeek R1那个，还是要稍微差那么一点点。

虽然在跑分上确实是跑赢了DeepSeek R1，但是个人使用体验跟跑分还是不一样的。讲回来，Manus呢，应该是自己做了一个小的规划模型。它呢，构建一个规则的知识库，就是我要做什么事，大概有几种方法，我做另外一件事大概有几种方法。然后呢，输入指令进行规划。我现在要做一个旅游攻略，我现在要去筛简历，把这些命令输入进来以后，他就给你规划了。规划出来以后呢，给你做了一个叫to do.MD的文件。to do嘛，就是马上要做的事情。MD呢，实际上是Markdown。Markdown是程序员经常使用的一种文本工具，就在文本里边直接写一些符号，就可以代替排版。像我们在word里排版的话，你要先写好文字，然后选中了以后，说我们是用几号字，前头要不要写这个点，或者有没有这个编号。markdown等于完全是在文字里边去写，就程序员都是这么干。

当他做完规划以后呢，得再通过自己的一个解释器，把这个markdown里头一条一条的，一步一步去完成。他是这样去工作的。里头呢，还有一大堆小工具，比如解压。筛简历的时候，就是给了一个压缩包给他，那你把他解开。然后呢有一些文档解析，甭管是PDF文件word文件，你都解析出来。然后还要做网页解析。那为什么网页解析要单独讲一下？咱们打开网站看一看，那上面什么弹窗了广告了一大堆东西，你要把真正有用的东西扒出来，还是有点难度的。所以网页解析是专门的一个项目。然后呢，自己还带浏览器，他可以自动的去浏览网页。其实有点像今年1月份，OpenAI发的那个产品叫operator。但是operator发完了以后，只有200美金以上的用户可以用，像我这种20美金的用户还用不了。还有一些API，你比如说我现在需要重新生成PDF了，还有一些API的，它呢是可以通过Python，再生成一点点简单代码，然后可以通过这些简单代码的执行，把这些刚才我们讲的小工具，整个的通顺的串联起来。

它呢，可以设置一套小工具的调用规范。符合规范的就可以进到工具链里边去。当他拿了这样的一大堆小工具，照着todo.MD去执行了以后，就产生了一大堆的中间结果。然后呢，再对结果进行拼接。大模型的能力其实就在这。它能干嘛呢？就是处理很多这种叫非结构化数据。

什么叫结构化数据？什么叫非结构化数据？就是我现在有一个表格，第一列叫做姓名，第二列叫做年龄，第三列叫性别，第四列叫做简介，第五列叫什么职业。这个东西就叫结构化数据了，一行就是一个人。非结构化数据就是，我拿到这个数据里头是一锅酱，我们也不知道这里头到底写的什么。大模型就是你可以把一大堆的非结构化数据扔给他，然后让他去总结分析。他是有这个能力的。

而且呢，这个其实他调用，甭管是网页也好，还是各种的API，从其他的服务那里获取数据也好，实际上都是结构化数据。但是呢，他就把所有这些结构化数据打包在一起，作为非结构化数据直接扔给大模型，说来我这有一大堆数据，我也不去解释里头到底是什么，我也不去研究这个数据结构了，你去给我去总结归纳一下。他是通过这样的一个方式来干活的。

相当于是什么呢？上面的一大堆小工具，进行这种松耦合的组装。为什么要强调松耦合呢？我们正常写程序，我们会去标记，你这个数据应该是怎么排列的，第几个字节到第几个字节写什么，写错了马上报错。有了这个大模型以后，我就都塞进去，反正这个大模型也不挑你这个里头，哪个多写几行，哪个少写几行，多两个属性、少两个属性，他都无所谓。所以他就可以通过这样的方式，把这些小工具凑载起来。

得到了一些结果之后呢，再输出一个漂亮的报告，包括刚才咱们讲图表，表格呀。其实你用DeepSeek R1，用这个Claude 3.7什么的，都是可以生成这样的报告的。像我们以前写程序的时候，有很大的一块时间是干嘛？就是打报表，各种各样的报表。为什么？要对格子，要去取数据，要去做统计分析。这个事是很麻烦的。

他们这块做的还是不错的。Manus真正强的地方在哪？它实际上就是规划。他可以自己去做计划，说：“哎，我要先干什么后干什么，先调哪个工具后调哪个工具，中间出了问题怎么办？如果没有问题的话，我怎么把这些内容再拼起来？”这个是他真正厉害的地方。

当然，我看今天已经有人说是Manus是不是个骗局了。怎么说呢？就是这个东西没有大家想象的，或者说他放出来掩饰的那么美好，但是你也不至于说他是骗局。就是我们也要看看里边到底有什么创新的地方，他怎么能够实现这种规划。

将常用的流程和子流程写出文档来，直接嵌入到本地知识库里边去，再把工具链上面各种各样的信息也把它embedding到这个本地知识库里去，再将各种服务性网站的信息也把它embedding到这个本地知识库里去。然后在规划的时候，直接根据本地知识库做REG输出就完了。我们告诉他：“我要做一个什么事。”他就跑到这个本地知识库里边去查去了，查完了以后说：“你干这个事，好像这三个工具有用，这几个流程可能是有效果的，这些模型可以干活，那些这个网站里头有你要的数据。”它可以通过进行本地知识库辅助的这种生成，直接给你输出一个刚才我们讲叫todo.MD的这个文件出来，就可以照着干活去了。

产品设计本身还是相当不错的，界面也很清爽，用户交互也非常的顺畅，这个还是很好的。这个Manus的结果靠不靠谱？先跟大家讲一个小故事。据说有人拿这个DeepSeek推荐彩票，买完了彩票还中奖了。还有一帮人说：“哎，我用DeepSeek去做量化吧，我去用DeepSeek炒股吧。”官方量化里边不是炒股的吗？这玩意靠谱吗？肯定不靠谱。所以AI这个东西一定是有幻觉的，千万不要觉得AI是有可能把这个幻觉干掉，这个很难很难的。在数据源不能保证正确的情况下，AI更没有能力说：“我一定会输出正确的内容来。”我哪怕是搜索了一大堆东西，你搜索的东西还有可能是错的呢。AI自己根本就没有判断能力说：“唉。”

我搜索回来的这个网页，哪个是对的，哪个是错的？他唯一能判断的是什么？唉，这个是一个官方主流媒体，那是个个人博客。需要去采信的时候，我要更多地采信官方主流媒体。但是我们其实并不希望AI有判断能力。大家自己想一想，如果AI有是非判断能力了，那是一件多么可怕的事情？还是让他糊涂着就算了。

然后，多个数据源进行总结归纳的时候呢，其实也很容易产生幻觉。就是当我搜到了5个相关网页，对5个相关网页的结果进行总结归纳的时候，幻觉是很厉害。特别是像DeepSeek这种东西，就是幻觉一塌糊涂。Work 3什么换节，也非常非常厉害。Manus底层的模型都不是自己的，全都是别人的。在很多的这种幻觉模型上，自我规划以后，其实它输出的内容一定是不靠谱的。虽然可以进行一点点验证，但是呢，现在距离提高正确率还差得比较远。

那么现在的结果都很惊艳。很多人说筛选简历很棒，筛选的什么房地产信息，也都非常棒。你怎么就在这胡说八道呢？怎么可以说人不行呢？其实原因很简单，他筛选简历的结果，筛选简历的过程，筛选房地产的这个呃过程，筛选履行建议的这个过程，他是给外行看的。你真给内行，他是看不了这东西，看了会乐的。这过程呢就像老中医，念着口诀给人看病似的，金木水火土念半天，你一定很专业。这个大模型也是一样的，一本正经的胡说八道。你不一本正经，他就骗不到人了。所以呢他产生的所有的这些结果，是相当容易让外行感到幸福的。所以千万不要觉得这东西就很厉害。

目前为止Manus给出来的东西，基本上是叫桃园三结义孤独一支。这个什么意思？就是怎么说都行。你说这桃园三结义孤独一支，到底是哥几个？哥一个，这孤独一支吗？哥两个，孤独出去一支，还剩俩。三个，哥仨嘛，团圆三结义嘛，大家站在一个枝头上了。这都可以讲。所以目前Manus给出的演示结果，基本上都是短期内无法进行验证的。你没法确认它到底对不对，但是当你觉得Manus……

给出的结果特别厉害，不明觉厉的时候，一定要小心，距离掉在坑里已经不远了。为什么呢？因为人跟人之间的交流和沟通，是通过不断的确认眼神，确认你的工作能力和工作结果，来建立信任。信任了以后就会比较少的进行检查，这个人就可以合作起来。但是大模型这种东西的话，你让他工作100年，该出多少错他还是出多少错。所以这个地方，还是要稍微小心一点。

下一个问题，Manus这样的产品到底有没有门槛？这个东西如果是国运级的创新的话，它一定是有门槛的。你像DeepSeek，虽然大家都觉得说我们能做的出来，而且各种开源各种开放，perplexity也号称自己训练了一个，或者调了一个类似于R1这样的模型，回来去使用了。但是呢，就并不是很多人都有这个能力，去自己训练DeepSeek这样的模型出来。这个还是有很大门槛的，即使是DeepSeek开源了一大堆的，怎么去优化GPU的这些代码库出来，这些东西想用起来也并没有那么容易。

那么像Manus这样的东西，有没有这个门槛呢？现在很多人就说，现在这个时代是模型及产品的时代，最后都会被大模型厂家干掉的。会不会这样呢？像OpenAI，每次开发布会，一帮的中小企业在这敲丧钟说完了，我这条路被OpenAI给瘫过去了。大家都是在这么看这个问题。Manus现在干的这个活，其实就是GPT5要干的活。可能再过个那么一两个月，我们就可以看到GPT5，因为GPT5也说了，我也是自自动规划，规划完了以后，我自动的去调用各种各样的模型，一次给你实现，而不是现在是这样，ChatGPT上来，我要选模型才能用它。这个方向已经在OpenAI的路径上了。但是呢，从OpenAI的deep search的结果来看，OpenAI的产品落地能力，其实并没有特别好。现在我们去看perplexity，DeepSeek的，豆包的，Grok 3的，这种深度搜索下来以后，你会发现OpenAI的。

Deep search其实是最烂的一个，真的不怎么好使。OpenAI算是技术很强，跟谷歌一样。谷歌的产品能力其实也很烂。他们这种公司呢，底层技术遥遥领先，产品烂一点大家也将就用了。中国人呢，是相对来说，比较擅长于内卷产品这一块的，产品体验、产品迭代，这个是咱们比较擅长的。这个底层技术咱们差一点，OpenAI也好，谷歌也好，都是底层技术好。在这块事上我们也很矛盾，为什么呢？广告时代最后实际上，所有的这些广告商都被收割了，被谁收割了？被这个自有流量的大广告平台给收割了。谷歌、苹果、Facebook、Twitter，现在其实都算是苟延残喘的一个广告商。剩下的，你说谁成为广告商，都是自己要有流量的。你如果自己没有流量的话，你是做不了大广告商的。现在的话，模型时代，是不是你如果没有底层模型的话，你就做不出上面这个东西来？这块呢，大家有一些矛盾。当然也有一些产品，就完全靠产品做起来。有一类产品呢，叫PLG产品，就是叫产品引导增长的。这种东西有两个比较典型，一个是Notion，另外一个叫Slack。这两个产品就是典型的PLG产品，它没有特别底层的技术，我就是产品做得好，体验做得好，让大家使着方便，让大家使着舒服，然后大家就愿意去用。这块呢，看看是不是能够走通这条路吧。在大模型时代，这个逻辑是不是还能走得下去？不知道了。因为如果Manus知继续能够做下去的话，他必须要像Notion或者像Slack这样说，我的产品做的特别好，我就愿意为你服务，让你使着舒服，大家就一直一起用下去。你说在大模型时代里头，自己模型做的不怎么样，产品做的特别好的有没有呢？也有，一个是Cursor，就是自动写代码的IDE，还有一个呢叫Perplexity，就是刚才我们抢这个AI搜索工具。目前呢，还算是有一定门槛的，虽然大家都在做AI IDE，都在做AI插件，都在做AI搜索，但这两个产品目前为止活的还都不错。

至少暂时还都挺受欢迎的吧。未来的事情不好说了。大模型时代，模型厂商的服务边界其实没有那么清晰。它跟原来的互联网、移动互联网时代是不一样的。像移动互联网时代，谷歌跟苹果好多事它是不做的。但是你现在到大模型时代，你看有什么事是OpenAI不做的吗？

那么有没有离了模型就玩不转的案例呢？也有。有一个产品叫Character AI，这个大模型团队被谷歌收编了以后，现在产品直接趴下了。现在他的产品被一个中国公司的产品摁在地上摩擦。那个产品好像叫Toki，是这个Mini Max做的，也算是这个中国AI六小龙中的一个吧。

那么Manus的产品到底怎么样呢？这个需求肯定是存在的。大家还是希望能够快速地获得高质量的信息，不是内容，而是信息，就是经过整理分析以后得出来的结果。这是大家有需要的。在产品设计上呢，至少在演示视频上看，交互还是相当不错的。成本现在肯定是不划算的。这个未来到底怎么去收费，现在还不好说。

因为呢，OTO GPT当年出来了以后，为什么马上就挂掉了？因为这东西算一次，那个时间实在是不划算。你让他开足马力去干活，可能干一次俩小时，你回来一看账单，好几百美金不见了。这是当时的一个状态。现在的肯定是要便宜一些了。Manus，据说每次回答问题，就是每一个任务做完的平均消耗是两美金。不再会出现几百美金的事情了。但是呢，他也没法保证，因为呢，他是自动规划的。你有的时候可能花个几十美分就把东西算出来了，有时候花个两美金把东西算出来，但也有的时候可能俩小时就过去了，你再回来的时候一看，100多美金不见了。而且你没法控制他，因为是自我规划，所以到底每次跑多少TOKEN他也不知道。

在这呢给大家讲一故事吧。这个是原来我看的施瓦斯科普夫的传记。这哥们干嘛的呢？这哥们是美国的一个五星唱将。在打这个海湾战争的时候，他是中央司令部的司令。他呢在越战的时候是个程序员。他虽然是军校毕业了。

到了越南以后，他是个程序员，在那儿写程序。后来，从五角大楼派了一帮专家来说：“我们来分析一下月供游击队出现的规律。”他们搜集了大量的资料，在那算了很长时间，进行了数据建模。他也有幸参与了这个项目。最后得出的结论是什么呢？月黑风高的时候更容易被袭击。所以呢，你用Manus这样的自动规划工具去干活的时候，它有可能也是这样的。算了可能很长时间，最后算完了以后告诉你一个：“月黑风高的时候容易被袭击。”

原来还有一个电影是什么？计算机算到人类都灭亡了以后，最后得出宇宙终极答案是42。这个故事大家应该也听过。所以他的这个成本是比较难控制的。后面的大厂跟进一定是必然的。GPT5还有几个月就出来了。GROK3其实现在就已经是自动规划了。大家去GROK3里边，去点击这个deep research。你去给它一个任务的时候，它也是有一个规划清单，在这个上面在滚动的。他会把这个规划清单都整个执行完。所以现在好多人觉得GROK3出来的结果非常好。如果你实在是说我也等不到Manus了，也不得不舍得花这几万块钱，去买这个测试码了。大家就上GROK3上去用掉了。豆包，腾讯的元宝以及WPS应该都会虎视眈眈的，都会把这东西做起来。而且呢，在这块的还有些别的大厂，微软、谷歌、苹果都有可能来玩一下，因为他们自己是有操作系统的。这个事情一定是他们干是最方便的。

这就是这个项目。到底有没有这个门槛的问题？其实没什么门槛。当然你说我产品做的特别漂亮也行。你像Notion那种产品就是做的特别漂亮。现在免费开源的，类似于Manus这样的东西已经出来了。它这个产品发布了大概三个小时，还是几个小时，就有一个叫open Manus的这种开源项目，就直接扔出来了。你们要用自己上去挂去。当然不是程序员的话，挂起来会稍微麻烦一点点。那你说这种产品为什么突然就疯狂了呢？原因也很简单，二级市场实在是太缺话题了，稍微有点话题。

大家赶快要冲上去炒一把，然后再来算谁是Manus概念股。赶快要去买。至于你买的时候是不是有其他人在外面跑路，或者有其他人去赚钱割韭菜，这就不管了。但是有题材总是要炒的，而且这个团队呢，其实相当擅长于运作。

首先呢，他的视频拍得很好。在大模型时代，在AI时代，如果你这个团队不会讲故事，不会拍视频的话，你是混不下去的。他们很擅长干这个事情，做得非常漂亮。

第二个，这个团队原来是做微信私域运营工具的，就是专门给这个微信公众号，或者说这个企业微信的这些人做运营工具的。所以他们很擅长做这种叫做社交媒体裂变，社交媒体爆发这个事情，这是他们的老本行。

有了DeepSeek的铺垫以后呢，现在中国人的这个热情还没下去呢，突然有消息传出来了，肯定还要再跟着热闹热闹，这个是必然的。但是呢，这种突然爆发的传播呢，对于Manus本身来说未必是一个好事。

刚才我们讲这个PLG产品，就是这个产品引导增长的之类的。这些产品的话它有一个特点，就是你一开始一定要低调，你要这个猥琐发展一段时间。你如果一上来就在显微镜下的话，这个事是没法整的。突然爆火了以后，唯一的结果就是被大厂盯上。而且呢，你一旦进入这个显微镜下，你所有的缺点都会被放大。

2015年的时候曾经有过一个产品叫足迹，应该也是2015年春节的时候出的。他呢能够出这个电影感大片那样的照片，随便拍张照片进去，他就给你做一个像电影大片似的那种，等于裁的这种带这个边的吧，还给你写上一句字幕，大概是这样的一个感觉。上线服务器就崩了，很快就销声匿迹了。

所以像Manus可能会走上这条路。AI圈这种突然爆火，又突然死掉的产品其实还是蛮多的。大模型是别人的，算力成本无法承担，用户突然涌入，预算在燃烧，体验在下降，然后就没有然后了。这个是Manus这样的产品很有可能会遇到的问题。像他们呢其实手里没有多少钱，因为他们以前的公司是被腾讯投资过，但是Manus这一块的话。

你说：“我想趁此再去融一大笔钱，也不是那么容易。算一次两美金，一个任务两美金。当真的有一大堆用户涌进来，开始其他开始跑的时候，就想起这个哪吒一开始那句话了：‘天雷滚滚，我好怕怕，劈得我浑身掉渣渣的感觉。’你一个人进来，两北京不见了；一个人进来，两北京不见了。还不是一个人，是一个问题，进来两美金就不见了。你有多少钱够他烧的？”

当然了，现在这些事呢，对于Manus来说，也算是一个幸福的烦恼。还有一大堆人说：“我做出产品来没人知道。”他至少被人知道了。所以，能不能趁机融一笔钱，或者干脆找人卖掉算了？因为像他创始人上一个公司，就直接找了个公司给卖掉了。现在这个产品如果能把它卖出去，也算是不错的一个结果了。

新的阶段是不是已经准备好了？其实Manus代表了一个新的阶段到来了。AI进程呢，实际上有五个阶段，这个是山姆·奥特曼提出来的。第一个阶段是对话，能够进行自然语言交互的聊天机器人，用于简单对话和信息交流，就是我们现在使用的GPT-4、4O什么的，就是对话。然后第二步呢，是叫做推理，具备在特定领域进行问题求解和逻辑判断的能力，可以进行复杂推理和逻辑分析，就是我们现在用的DeepSeek R1、GPT的O1、O3这样的模型，就属于叫推理模型。现在其实我们在努力的走这一块儿。

推理之后呢，就是规划，是agent，可代表用户执行任务，具备自主运行的这个能力，能够在动态的环境中实施决策，这个是现在第三步。实际上Manus就已经走到了这个第三步上。再往后一步，创新，能够参与发明创造，增强人类的创造力，可在科学研究、技术开发等领域推动突破。其实现在什么医学方面，已经开始突破了。然后最后第五步是什么？叫协作，深度融合组织功能，参与社会管理与复杂决策协作，能够管理复杂的组织任务。这个是山姆·奥特曼给AI整个发展的，类似于L1、L2一直到L5的一个状态。

那么当前的状态是什么呢？GPT-4.5已经展示了，对话这件事情基本到顶了。

你再怎么加这个算力，再怎么去扩大模型，也就这么回事了。而我今天发现我的ChatGPT已经可以用4.5了，虽然是迟了两周，我们还是用上了GPT4.5，还没有空跟他去提问题呢。

推理模型现在还在快速发展的早期阶段，推理模型这个阶段并没有过完，现在都在拼命地冲这一块。有机会大家可以去试一试通义千问的QWQ 32B那个模型，还是不错的。因为这种模型32B嘛，你是可以在电脑上本地跑的，我就在自己电脑上装了一个，效果还可以，确实慢一点。

再往后这个规划呢，其实一直都在尝试，逐步有可用的版本出来。OpenAI一月份出的operator就是这样的一个产品，GROK3的Deepsearch也是这样的一个规划类产品。Manus呢算是把这个规划又往前推了一步，它已经离开了原来的这种环境，不需要在OpenAI的这个环境下用，不需要在grok 3的环境下用，完全用别人的模型，批了这样的一个单纯的产品出来。

当然了，现在这个产品到底有多成熟多不成熟，我觉得下结论还太早，因为我自己并没有真正的去用嘛，邀请码还没收到。缩小范围，专业一些的自我规划AI agent应该还是有机会的，因为现在的Manus号称是我可以泛应用，所有的行业所有的领域我都可以干，你让我干啥都行。最终能够做到的结果，大家就不要有特别大的预期了。

Manus出来以后，行业的方向必然会发生一些偏转，就甭管这个产品做的怎么样吧，告诉大家了一些可能性。现在哪怕是两美元算一次，这个可能性存在了，手工规划工作流的这些产品就要开始转型了。比如说像Dify，像Coze这种自己画流程图的这种，可能就要稍微的调一调方向了。未来呢应该都是会有自动规划工作流，这块会获得更大的这种关注。

那Manus有未来吗？首先跟大家下一个结论，没有，哈哈。为什么呢？不是因为产品做的不好，也不是因为它底层是没有自己的模型的，这个都不是。大家知道互联网时代。

第一个倒下的独角兽是谁吗？叫Evernote，就是现在的印象笔记。第一个从独角兽的10亿美金估值里退出来的公司就是他。那为什么是他呢？好多人说挺好使的，我还花钱买呢，像我也是花钱买的，而且这么多年一直在付费。为什么这样的产品就不行？原因很简单，咱们说一个像绕口令的话：“有用是最没用的事情。”为什么像绕口令一样说这个呢？因为大家被Manus惊艳到的时候，是因为觉得这东西有用，他给我的筛选力的这个过程很棒。你到底有多少HR需要筛选力？有多少HR现在不是在忙着裁员，忙着自己不被裁，而是说我要去招人？有多少人需要这东西？有多少人需要去看那些专业的报告？其实没有的，用户必然是很少的。像它这个Monica.IM，现在号称一共有700万用户，其实是累计安装量，它的活跃用户基本上可以忽略不计的。而且它这个700万用户，还是收购了一个叫GPT for Google的，一个300万用户凑起来的，他自己就有400万。收购了这么多东西，现在号称700万这个数，其实基本上你就认为他没有就可以了。而这几天有可能会爆发一波，但是未来应该很快就消减掉了。而且真正的专业人士是不会看他的报告的，我告诉你，真正专业人士看他的报告更累，你还得再一个一个再去校对，再去核验，再去看里头有没有说错的地方，这个事是一个很痛苦的过程。AI工具主要现在还是能够骗外行，就像我前面AI时代，文科生很重要这个视频讲的一样。像我这些程序员，一看AI写的代码，就在那乐，你们这个连拼屎山都拼不出来。但是我看AI写的小说，AI画的画我很开心。一些设计师一看AI画的画，这叫啥玩意？那些真正产品经理这些文科生，你看AI写的那些文字也是没法看。他是这样的一个状态，这个东西最擅长就是骗外行，就跟那个很多相声演员讲的似的：“我是这个说相声里边最会唱歌的，以及唱歌里边最会说相声那个人。”这就是AI现在最擅长干的事情，而且专业看报告的人。

现在还在不断的被裁员呢，你给他们提效干嘛？海外应用还要等OpenAI、谷歌和微软再去发力，它在国外的用户是起不来的。就算Manus让我看走眼了，真的是用户量做起来了，那各国政府能乐意吗？你这数据是不是去中国了？怎么还有这样的问题呢？一个武汉公司，做了这么样的一个产品，到全世界去收集别人的调研报告、各种数据，这不开玩笑的吗？而且两美元一次的这个成本，如何平衡这个事，对于他们来说也是很难回答的。

在AIGC时代，可能真正有价值的东西还是娱乐，不是真正的有用的东西。虽然一大堆人都在研究怎么让AIGC有用，但是我觉得依然是娱乐有效。为什么呢？因为它出来的东西不严谨。你给个小说，你这东西写对了写错了，他没事，不会因为说这小说写错了几个字就造成多大的损失，而且有新鲜感，我还看着很开心，这不就可以了吗？

但是你想，他这边出一大堆报告，告诉你应该上哪去买房，告诉你应该招谁不招谁，等最后你把人招回来，发现不好使，你把房买了以后，发现这个房子有问题，你找他吧，他也不负这个责任。所以现在千万千万不要去做有用的东西，这是今天咱们去讲的Manus的这个故事。

雷军千万年薪挖AI天才少女，到底值不值？

Luke Fan — Mon, 06 Jan 2025 00:44:28 +0000

雷军千万年薪挖回来的AI萝莉，到底值不值呢？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲，雷军花了千万年薪挖回来的天才少女，到底价值几何的故事。

首先，这个消息并不是小米官方放出来的，而是证券时报等一大堆媒体报道出来的。报道出了这样的一个故事之后，肯定就会被舆论热炒。第一个，AI现在肯定是全村最靓的仔，跟AI相关的事情更容易被媒体所报道。第二个，小米跟雷军本身就是顶流，任何事情只要沾着小米，沾着雷军了，都会被过度的炒作。

现在这位AI天才少女叫罗福莉，号称是雷军亲自下场捞的人。这个事情到底有多亲自呢？不好说。很多记者也去找小米核实，问有没有这么个事情，是不是有千万年薪，雷军到底是怎么谈的这个事情呢？目前为止，小米没有给出官方确认。但是，如果千万年薪是真的，那这个事雷军必须是要签字确认的。如果不签字的话，这样高的薪水是开不出来的。

这是一方面，另外一方面，Deepseek V3也是现在的顶流。新的模型出来以后，包括美国很多AIGC圈的老大，都给出了很高的评价。国内一定是说，哎呀，你看我们做出来的东西被别人夸奖好了，这个事情我们与有荣焉一下。这位天才少女从Deepseek这边出来的，也成为了整个事件炒作中的一个推手。1,000万年薪，加上小米最近在宣传的万卡集群，也算是这个事件能够不断在热搜上停留的催化剂。

而且前几天超级小爱演示的翻车，你也需要一些AI相关的新闻出来中和一下吧。所以这个事情被舆论热炒了。小米官方刚才我们讲了，并没有正式的回应这件事情，原因也很简单。第一个是薪资，在小米这样的公司里边，她应该是保密的。如果有谁把这个薪资泄露了，肯定还是要受到一定处罚的。第二个，这个人如果真的去了，炒的太热了是没法干活的。这个人就是千万年薪的AI萝莉，那剩下的这些没挣到1千万的人，你咋跟她一块配合干活嘛？中国人向来都不是喜欢。

把薪资贴在脑门上的，而且有些人说呀，说你能干啥呀？就雷军亲自去请你，我不服气，她会有这样的事情。所以这个人就算是真的去了小米了，为了未来能够干活，为了能够跟团队合作。所以小米估计在回应的时候，也会相对比较谨慎。

记得当年遇到过一个擦桌子故事。什么呢？就是我原来是清华同方的员工。有一次清华同方的一位，应该叫事业部经理吧，说：“哎，我为咱们事业部找了一个销售大牛回来，这个人可厉害了。”这位事业部经理在入职之前，就跑去把人桌子给擦了一遍。

清华同方呢，有一点跟其他地方不太一样。什么呢？就是这帮事业部经理在当时，97年98年的时候，都是清华大学里边的老师，很多是系里边的比较大的老师，一些教授，一些副教授，在当事业部经理。然后她下边的很多员工呢，是她的学生。所以这帮学生一看，哎，这个老师到底是怎么回事呢？招了一个什么神奇的人回来？来之前你还把人桌子擦了。我们跟着你坐了这么多年，也没看你给谁擦过桌子呀。

这个人进来，我们一定要好好称量称量她。这哥们入职了以后呢，大概没两个月就离职了。甭管她自己的能力怎么样，你进来了以后，所有人都要看看你说：“哎，这个老师给你擦过桌子，你到底是个什么样的人？”所以这样的人这么高调加入团队以后，相对来说是比较难以去开展工作的。

那么罗福莉到底是何许人也呢？从网上公开的信息来看，95后小镇做题家，她是四川宜宾市第一中学清北班毕业的。就在这样的学校里头，专门会有这种尖子班，她们叫清北班。然后呢，去了北师大计算机系上大学，算是第一次接触电脑，以前没接触过，所以呢，一开始成绩并不好。

大三呢，去了北大语言计算实验室实习，三个月自学Python，选择了NLP方向。NLP叫自然语言处理，就是向语言学的方向，或者计算语言学的方向转移了。开始呢，在别人的论文上署名了，就别人写的论文上头，已经开始有她名字了，这时候还没有大学毕业呢。然后保研到了北大，在北大的语言计算实验室里边。

继续深造。2019年，在ACL大会上发表了8篇文章，这个大会叫国际计算语言学年会，简称ACL。其中有两篇是第一作者，剩下的算第二作者。第一作者的文章中，第一个是《在文本和语音中检测隐藏信息》。意思是什么呢？就是说，如果我们的语音具备某些特征的时候，这个人可能在信息里边隐藏了一些东西。比如说在隐瞒信息的时候，讲话者的最大音高强度和语速增加，而讲话持续时间减少。这些特征与欺骗检测研究中的发现相似。如果你突然声音变大了，语言变短了，就有可能在骗人。

如果是语言特征，前面是语音特征，后边是语言特征的话，隐瞒信息的文本中，认知过程词汇，比如说“我认为怎么怎么样”、确定性词汇和正面情感词汇的使用频率更高。这表明隐藏信息可能增加认知负荷，同时伴随着更高的自信水平。这个有点像《Lie to Me》，谁说谎了是不是？这是一篇。

另外一篇是《将AMR解析视为序列到图的转换》。这个AMR的意思是抽象意义表示有向无环图。什么意思呢？就是我们说了一句话以后，在计算机要去处理之前，要把整个这句话变成一个有向无环图。什么叫有向无环图？就是她有方向，从前到后；而无环呢，就是她最后不是循环的，是这样的一个顺序的，由点和线连接出来的一个图，有这个正确的方向，但不能循环。她做的这个论文是在这种有向无环图上进行一些数学变化，变化了以后可以进行进一步的训练或者进行进一步的识别，而且在识别率上会有一些变化。这就是她作为第一作者的两篇论文。

研究生期间，总共发表了20多篇论文。看来这个北大还是很厉害的。2021年毕业后，加入了阿里达摩院。当时，她还写了一个公众号，告诉大家要选择有科研也有业务的公司。如果选择这种完全没有科研的公司，只做业务的，那么大概率只会去做一些边缘业务，这是没有办法在科研领域里继续深造的。所以，她当时在一堆的顶流offer里，挑中了阿里达摩院。

觉得这边还是可以做一些科研的。2022年呢，这就是在阿里达摩院里头待了一年，跳槽去了换方量化。据说呢，也是在这一年里头领证结婚，夫妻两个在杭州还买了房。幻方呢，在2023年分拆深度求索，也就是开始做Deepseek的这个公司。那么这位罗福莉呢，也就跟着去了深度求索。罗福莉在Deepseek Coder这个论文上作为第六作者，也是署名的。幻方以及深度求索，其实发的各种文章还是很多的。而且呢，她们会很大方的将所有贡献者都写在作者名单里头，或者叫贡献者名单里头。

比如说最近大火的Deepseek V3里边儿，大概是有200个贡献者。这200个贡献者呢，有150个是工程师，还有一些其他的支持人员，还包括10名已经离职的人员。罗福莉的名字呢，是在为Deepseek V3做贡献的已经离职人员这个里面还是有的。号称呢，她是参与了Deepseek V2版本的开发。当然了，这些都是大家的描述，具体在里边参与了什么，其实并没有表述。

2024年年底跳槽去了小米，这就是她整个的一个履历。那么下面我们就要去看千万年薪到底值不值的问题了。其实挖技术大牛回来，我们到底应该如何评价其价值呢？这个一直是很多的投资人，包括一些大老板需要去思考的问题。你挖回来以后是给钱呀，给期权呀，然后给她各种的资源呀，还是给她一个大的团队，一个很好的研发环境，你到底给她什么，这都是我们要先对人的价值进行评估的一个过程。

在挖人回来的时候，科研能力到底重不重要？如果这是一个科研院所，我们需要再去国家申请经费，再去做一些更新的科研研发的时候，那她的科研能力可能是重要的。但是对于小米这样的一个产品型的公司来说，这个挖回来的人科研能力到底有多大，其实没有那么重要。那么这种技术带头人呢，她们需要的能力是什么？第一是对前沿的理解和认知。你真挖一个人回来，说这个最前沿的东西是什么，我说不清楚，我看不懂，谁在搞这个事我不知道。

这个事是不允许的。而且这种认知呢，是真的可以去跟最前沿研究的人进行面对面的沟通和讨论的。我们也见过很多，比如说像猎头公司这些人，对这个最前沿的发展也是有一定认知的。但是呢，她一旦是跟前沿的这些人去沟通的时候，就会露馅。像罗福莉在这块应该还是可以的。

工程技术能力呢，这块要看你具体要她干什么。你比如说，有些人说：“我真的是需要有一个人回来替我解决一个很难的难题。”那么在这个时候呢，就需要有工程技术能力的人回来。她能够管理团队、能够面试团队，甚至能够挖角原来的团队，可以带出一个团队出来，这个是工程技术能力，还有人脉资源。

但是人脉资源呢，一方面是说你能不能忽悠起一帮人来跟你干活，另外一方面的话，就是你做出来的产品是不是可以让顶流的圈子快速去认可。因为任何人，只要做出这种高精尖的东西来，她的这种认可的速度或者认可的成本都是挺高的。认可的速度都不会那么快，但一旦是有一个自己人，大家都已经熟悉了，你就是这圈子的人，你也做出过相应的成绩来。那你说：“我继续在发表相应的论文或者发表相应的成果。”那么别人就会优先选择相信你，所以这也是人脉的一个很重要的点。

最后呢，就是她的IP价值，这个人是不是有一定的影响力。通过这几个方面来评估一个技术大牛的价值。从能够公开找到的信息呢，其实没有办法去评定罗福莉具体都做过些什么东西。这个事现在发出来的信息比较少，不是写了什么论文就会什么东西。刚才我们说了她写了哪些论文，我们认为说她就会这几样东西，这个事一定是非常片面的。她可能研究的涉猎非常广泛，而且最前沿的很多科学与技术其实是相通的。只是可能这几个点，它是适合出来写论文的，剩下的点呢，虽然不适合出来写论文，但你要在Deepseek这样的参与到里边去，你还是要去解决或者还是要去做事情的。所以呢，并不能认为说她就会这个自然语言的这点东西。

罗福莉呢，应该还是一个语言学方面的研究型人才。罗福莉的价值到底应该如何去评价呢？第一个，它的IP价值呢，现在还算是拉满了。为什么叫还算是拉满呢？因为有的时候，就叫“花花轿子人人坐，人人抬”。现在这样的一个消息出来了以后，她也借助了Deepseek的光环，以及小米和雷军的光环，有大量的媒体出来炒作，来捧这个事情了。

这个人在她的行业内，到底有什么样的名声，我们不去管她，但至少在公众视角里头，这已经算是一个很厉害的人了。当然了，以深度求索的这种招聘以及用人原则来说呢，像罗福莉这样的履历的人，其实在里面还是蛮多的，因为里面各种清华、北大、德大这些人其实是蛮多的。而且这些人呢，好多还没有毕业，就是可能在里边做博士实习，或者做很多这样的事情，她们就都已经开始在各个论文里边去署名了。

所以呢，并不是说以这个论文量，以她的师从，或者是北大的这个学历，她是个硕士嘛，还不是博士，她就已经是站到一个什么顶流上了，其实距离那个还是有一点点差距的。只是呢，现在通过炒作的方式，让她站得比较靠前。

在Deepseek里面呢，毕业了一两年的人呢，就可以在里边挑大梁干事了。真正负责的呢，可能是有个四五年经验的一些人。而以罗福莉的这个资历，进去的时候呢，有可能能够负责一个项目，但也未必，因为呢它属于是相对来说比较专项的科学家，并不是工程方面的这种专家。因为工程专家是写不出这么多论文来的。

在科研能力上，至少是语言学方面的，罗福莉应该还是有所建树的，写论文绝对好手。工程技术能力的话，没有验证。人脉资源的话，大家注意，工程技术方面的人脉资源跟学术圈的人脉资源是完全两回事。她有可能在学术圈有人认识了，知道这个名字，她可能参加各种会，很多的会议上的这些教授，这些大拿也都能跟她聊得来。但是呢，你说真正能够拉起一帮人来，把事干出来的，那是完全另外一拨人。

至于她能不能做工程技术方面的事情，有没有工程技术方面的人脉，这件事呢？

我只能说，没有验证过，不知道。那么小米到底想干什么呢？大概率呢，也没指望罗福莉真的能做出什么来。因为小米自己也是有AI实验室，而且成立了很长时间。这个AI实验室自己也是有完整的体系架构。你不可能说我招了一个新人，然后你现在就给你另起一摊，或者说我把原来的架给我打散了，现在你就是老大了。她肯定还是要在小米的AI实验室里边，在她相应的位置去进行工作和研究的。

Deepseek这样的模型应该也不是小米追求的，因为如果要部署和训练Deepseek这样的模型的话，罗福莉应该是可以给出一些指导的。你毕竟原来在一个屋里，把东西做出来的。通常的科研和工程是两条线，罗福莉未必能够有能力挖角组建面试带领工程团队。像我们以前也招过这种工程老大，那就是招完了以后就问她说：“你能不能带回团队来？”像以前你前面几家老板的这个团队，你能不能找得来？如果找不来的话，那给你机会去面试，你能不能去面试一堆能干活的人出来？

等你把这个团队组建起来以后，你能不能带着这个团队去把这个事干出来？这个是对于工程老大的这种要求，这不是对于科研老大的要求。

小米最近还在说：“我们就训练端侧模型小模型。”这都是雷军最近说的话。当然了，说什么并不重要，做什么呢其实也不重要。那什么重要呢？就是为什么这么说，这个才是最重要的。小米毕竟是个卖手机的，你不这么说怎么让用户下单去买那个更贵的、更高端的手机呢？所以她一定会去喊说：“我们不去关注这种大模型，我们要关注端测小模型。”

但是呢，我相信小米也还是会照着Deepseek的这个套路，自己在训练一套云端模型。当然这个训练的应该也算是一个技术储备吧。像小米这样的公司，更大概率会在国内的各个大模型厂商之间进行平衡。就是什么字节、百度、阿里，包括Minimax，她可能都会用那么点，包括Deepseek可能都会去用一点点，然后在不同的应用里边去调用不同的模型。这应该是小米的一个策略。

然后自己同时训练一个模型呢，算是有一个技术储备，可以跟这些大模型厂商进行平等对话的一个东西。在中国就是这样，如果别人发现你不懂的话，总是要在你身上咬一口的。所以小米在这块呢，应该还是会做。

另外，对于小米来说，超级小爱的翻车，这个热度也还是要压一下的。讲到这呢，你说我们的结论，这个1,000万的年薪到底值不值？这个事情我觉得，大家自己去做判断就好了。你让我现在来给大家下一结论，说这事太值了，反正我没看出来；说这事肯定不值，咱们了解的信息呢也不够充分，也就只能是这样的一个情况。

我只能说以这个罗福莉现在从外界可以披露的公开信息来看，这个1,000万的年薪呢，稍微有一点点存疑。但是我相信呢，小米这个事情，甭管是她有意做的，还是无意做的，她的目的已经实现了。她的目的是什么呢？她股价涨了。除了卖车之外，现在我们还做AI了，还有一个万卡集群了，还从现在当红炸子鸡Deepseek挖了人出来了，号称雷军亲自下手，给了千万年薪了。

小米现在已经接近1万亿港币的市值了，她现在的市值是9,097亿港币，可能到周一开盘的时候，就直接冲万亿就过去了。所以我觉得小米呢，这个事情肯定已经好处落袋了，这个市值已经收获了，收获的还是很高的一个市值。

至于未来罗福莉到底能够在小米里边做什么东西出来，或者她到底能够在小米里边混多久，或者说小米未来到底会如何对此事进行官方回应，我觉得还是可以拭目以待的。未来也许还有新的瓜可以去吃。

好，这一期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

老范讲故事 — Fri, 29 Nov 2024 00:42:07 +0000

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的。视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假或者版权侵害什么这样的视频。所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢，会发出一些样板视频来，那意思什么？他说，你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频，它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线。大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。

艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布，还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢，在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说，这个脚要往前走的时候，应该膝盖往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这个是第一个问题。

第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说，你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗，应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说，我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。

我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。

现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个，专业应用级别呢，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢，也还是有很多专业团队，会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。

半专业的应用呢，肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了，而Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。

这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。

对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入，艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。

所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了。为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这就相当于什么，就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头，每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但是艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说，你穿了件衣服，里边有个人，但是呢，人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着它都变成左脚了，或者是变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题，第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢，算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，它需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱，从头到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。

因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。

什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

YouTube上有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频我已经被这种视频骗了好多回了。

我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。

就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的，他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但是呢，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢，都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型吧，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”，什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。其实，这些呢是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。

最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以，他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就在2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。

但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着就都变成左脚了，变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。

他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。

咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后，什么欺诈？视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢，你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。

你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。

很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个说话了，这个吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。

当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画、小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把德国选择党的那个女党首的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型，式的那我们只要写一个提示词，生成出来大差不差的，我就能用。那些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他说哎，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题，咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯，这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说，非常非常难以控制和把握。再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看，最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，就是有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置，才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈？视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部，也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上，在吉梦也好、可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆，可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过。

这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们呢，就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢，其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢，是呼吁Open AI可以更加开放。

你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，表示现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢，并不需要进行身份验证，所以也不知道这个是真是假。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这种方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高的。当然了，这个还不是困扰视频生成本身的最大的难题，更大的难题是什么呢？就是视频要好看。

最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说，我们付出的努力极其艰巨呢？也是如此，他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢，完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

所以再往下一个方向到底是什么，虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。于是他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在呢Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。

第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。

你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。

这是第一个问题。第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上。现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。这大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。

视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。那么我们到底还需不需要等Sora呢？

其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上，在吉梦也好可灵也好呢，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型。在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

其实，从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢，已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全球的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂地泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂地开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头了，电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品，这个事本身是非常难的。他们说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这就相当于什么？就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停地玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是，视频生成本身的难度是很大的。第一个，内容合理性其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边有个人，但是人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，膝盖应该往后弯的。但是，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是两条腿迈着迈着都变成左脚了，变成右脚。图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性，这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上，已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定地保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后，算力成本实在太高了。图片生成，现在我们画一幅1080P的图像，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。

当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。大家想象一下，有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。

现在我们要做视频生成的这种工具了，在有大模型的基础上，你也需要大量的开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以，为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。

再往后，什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话它就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝；你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝；你只要提到任何人的名字，直接拒绝；说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝；请给我画个什么星球大战、米老鼠，马上拒绝。

所以，他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好、可灵也好，都是在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以，我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。

所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。

而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说：“你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情，都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人，有黑人，有白人，有男的，有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

当然有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀，血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看DALL·E 3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个DALL·E 3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。

这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。

Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。

至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

政府效率革命：马斯克与DOGE部的合作能否彻底改变美国，缩减2万亿美元的预算，裁撤80%的联邦政府雇员

Luke Fan — Mon, 18 Nov 2024 14:05:51 +0000

大家好，欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲马斯克的DOGE到底能不能起作用的事情。

马斯克在川普确认当选的第一时间，就发了照片，搬着水槽子去白宫了。这个照片呢，是白宫的照片，加上他自己把这个水槽子的照片抠下来拼出来的。他刚刚买下脱鞋带以后，440亿美元买下来，就搬着水槽子就去了。当时还谁也搞不清楚他到底要干嘛。

很快就原形毕露，把8,000人的Twitter裁员成了1,500人的X。而且呢，好像还运转得不错。现在马斯克要去当政府效率部的这个部长，他有没有可能真的把政府雇员也干掉这么多呢？马斯克自己已经大嘴巴说了，号称要解雇80%的联邦政府雇员，要将联邦政府的机构数从450个减少到100个左右。而且呢，要去监管，很多原来的监管法案都要直接删掉，很多的开支要直接去掉，准备呢，从每年的6.75万亿美元的联邦预算中削减2万亿。这都是马斯克自己张嘴说的，不是咱们替他编的。

另外一位DOGE的部长，维维克·拉玛斯瓦米，这个名字一听就是个印度人。哈佛大学生物学学士，耶鲁大学的法学博士，这个倒是跟某人很像嘛。学完化学以后，学了个法学博士出来，然后呢，企业家、投资家、作家，生物医药公司的这种老板，也曾经入股过BuzzFeed。在BuzzFeed里头，也是敦促和执行了大的裁员。

这哥们挺逗的，他是今年的共和党总统候选人之一，是跟川普竞争过共和党的候选人，这个位置，川普赢了吧，然后呢，就成为川普的这种迷弟了吧，跟马斯克一起掌管这个DOGE。那么真的有可能像Twitter那么搞吧？咱们先不说美国政府，咱先说Twitter，他到底是怎么能够从8,000人到1,500人呢？

其实很简单，原来的系统呢，维持不动，就是先这么能凑合着。但是裁员的时候，大家知道它是有一个滞后性的，不是说我今儿裁了以后，明天晚上嘎嘣就崩了。裁完了以后，这个系统依然还可以凑合跑。在这个时候。

基本上是写了一套新的东西，就是原来东西不动，然后写新的。写完了以后再去设法去替换，哪个写好了，我就直接上去替换掉以前旧的那个系统，实际上直接就扔掉了。原来8,000人维护那个旧系统，现在就是1,500人维持了一套新的Twitter。

但是现在的X跟以前的Twitter一样吗？不一样了，已经完完全全是两个不同的东西。虽然我们从界面和感受上来说，差异并没有那么大，但他的用户数应该是在上升的，活跃度也应该是在上升的。然而他的商业价值和收益是在下降的。现在挣的钱可能连原来的一半，甚至可能只有原来的20%多。他能挣到的其他的钱都没有了。

很多人都说，哎呀，现在这个政府多么慢啊，做事情拖拖拉拉的，就应该像马斯克当年去搬迁Twitter机房那样去处理各种事务。当时马斯克说，要把Twitter机房从什么地方搬到德州去，IT的主管就讲了说不行，我们需要几个月的时间进行规划，进行搬迁，才能保证这个事情是可以顺利完成的。马斯克自己就跑到SpaceX，找了几个工程师，开着车就奔这个Twitter机房去了。到那就把闸一拉起来，咔嚓把线拔了，然后把服务器装车就弄走了。到那边筐子就装上，一天搞定，还是几天就搞定了。说你看这多能干，这样不是也把事搞定了吗？

但是真的有人希望看到政府里头也这么干吗？因为Twitter搬机房的时候，最后到底损坏了多少服务器，损坏了多少数据，宕机了多长时间，在Twitter机房搬迁的过程中，以及搬迁之后造成了多少次宕机，这个事情是没有人出来宣传的。大量的外围团队和流程就直接砍了，比如说代码的工程管理。因为我们知道写软件这个东西，不是说你一个人坐这儿坑坑坑写就完了，还有很多跟工程相关的事情，比如需求、稳当、品控，还有大家一起协调做的事情。

马斯克接手Twitter以后，就极大地简化了，没有那么多乱七八糟的东西，包括像什么持续集成这些东西。

基本上都没了。持续集成什么东西？就是我在这边有很多的这种环境，设置我这边写完代码以后，它就会自动地进行测试，自动地进行部署迁移，然后我就可以再去写新代码。这些系统都是需要人维护的，他把这些人全裁了。各种的代码品控，包括很多原来Twitter的开源项目维护开源关系的这些人也都干掉了。很多跟公益相关的这些团队也都干掉了。就老老实实的，你就给我做Twitter，其他的事情都不要想啊。他搞这样的一个事情，更不要说原来的什么多样性，什么男的女的，黑的白的，什么这些，通通都干掉了。

经过马斯克改变的Twitter呢，除了Twitter本身的事之外，其实他不干什么别的事。这样的公司，其实让我们想起另外一个有趣的公司，是谁啊？叫拼多多。除了卖货，除了砍一刀，其他啥也不干，也不投资，也不做任何其他的这个乱七八糟的业务。Twitter其实现在就整，变成了一个这样的公司。

咱们今天呢，就是来吃瓜的。DOGE，咱们来吃这个瓜，但这个瓜到底怎么个吃法？讲政治嘛，这事我肯定不懂，咱们都是按照这个搞笑的方式来啊。所以呢，咱们就先列个小提纲，咱们看看这个DOGE到底说点什么。

第一个，DOGE到底是个什么性质，这事是要搞清楚，这个部长到底是干嘛的。第二个，咱们稍微回顾一下这个政府的效率，他为啥这么低，低和高之间到底差在哪。因为我最近呢，也是再跑一些流程，哎呀，那叫烦。第三个呢，是AI对于政府效率的帮助啊，这个肯定还是要讲一点AI。第四个呢，就是反对监管到底是一个什么样的情况，为什么要去反对监管，然后是削减预算。

再往后呢，就是咱们再猜一猜可能的玩法，这个事呢只能猜各种的，未来的走向应该都会出人意料吧，咱们看看能猜中多少啊，这也是一件有趣的事情。首先呢，DOGE到底是个什么，它的全称呢叫政府效率部，他并不是一个政府部门啊，所以马斯克马部长这件事呢，其实这个说法是不对的，他是独立于白宫室外的一个咨询机构。

他是为政府提供建议，为公众负责。而且呢，是要受到联邦咨询委员会法案的这种管辖。就是美国的国会山外边有很多，我们管它叫院外集团或者叫游说集团。相当于马斯克是领了这样的一个单位在工作。为什么是这样呢？川普川大爷没有给他一个真实的这种部长头衔吗？如果真的设这样的一个部门，真的去找一个部长搁这的话，这个不是川大爷直接拍脑袋就可以搞定的事情。他还得再到国会审批，增加一个部门，增加相应的人员，增加相应的预算，将权力重新分配。这个过程，估计川普这一个任期未必能搞得定。而且呢，这种真正的部长的任命，也不是说川普自己就可以决定的。川普是可以任命部长，但这个部长最后还是要到国会去审批去通过啊。如果通过不了的话，他是上不了任的。所以这是第一个比较麻烦的事情。

第二个麻烦是什么呢？就是你一旦真的跑去内阁去当部长，就有这种潜在利益冲突的问题，需要切割手里边的公司和股票。那马斯克肯定还是要好好管理他的特斯拉、SpaceX和脑机接口。他不可能说，我真的把这边都切了，然后上那去做这个政府官员啊。所以呢，这个是不可能走到那一步的，马斯克也不可能同意真的跑去当这个部长。

所以两边呢，都是说：“咱们就这样吧，我们这个DOGE就不停地去发报告，不停地去游说各种国会议员，向国会议员提交各种各样的报告，让他们根据这个报告再去调整法案，再去做各种决策。”就真正能够让政府动起来的，最终的签字的人还得是国会。这就是DOGE啊，像这样的一个东西。

那么政府为什么效率低，大家有没有想过这个问题？很多人想，政府就不就是效率低吗？他这帮人就是坏啊，他就是想拖着我。其实还真不是这么回事啊。跟大家讲一个最近的一些经历吧，最近呢也是在倒腾一些家里的事情，有时候需要跟一些还不算政府部门的人去打交道，哇，那个过程叫痛苦啊。我发现是什么呢？就真正在去折腾的事情是什么？是数据，是各种各样的数据。

那你说数据这个事，1就是1，0就是0，会有什么问题吗？你这个事情就想得太简单了。你比如说，要证明我爸是我爸，我妈是我妈这件事情，首先说，哎，我的户口本上写没写，写了。户口本上有记录的，户籍所在地说不用开证明了，你户口本上写着呢，你跟谁谁谁什么关系。但是呢，不同的地方说不行，你还要来开证明。你到不同的部门去开，他每一次开出来的证明，实际上很多呢，都是手写的，非格式化的这种证明，等于这些东西又混杂出了新的数据。而且这些数据里头可能还有些问题，对于我来说，或者对于整个的流程系统来说，我的数据叫脏数据，因为我这个里头有一些不符合规则的地方，或者说属于出乎意料的东西，我也写到这个数据集里去了。

等到下一个人再去处理相应的数据，或者下一个流程再需要处理这个数据的时候，就卡住了，就过不去了。他也不能说我一拍脑袋说，这个事这么做吧，那个事那么做吧，他也得要让我再去开一堆证明，然后确定说这个事情可以往前走。所以这个数据是非常非常麻烦的。每一个人在每一次去证明你爸是你爸，你妈是你妈的这个过程中，实际上是一边是在对原来的数据进行对齐，另外呢，又在往整个的政府系统里头堆积各种各样的脏数据。

等到下一个人需要去证明这件事情的时候，你需要再看一次，最后越来越多的这种垃圾数据在一起，这是政府效率低的一个非常主要的原因，因为所有的事务都会不断地产生数据，而且这些数据呢，都是不干净的数据，最后你是没法去让他协调起来的。这是第一个很重要的原因。

第二个重要原因就是监管，你总是要让大家相互监管起来。完全没有监管的政府，这个咱们是经历过的，是非常非常可怕的。其实咱们的政府也是有监管，虽然他不接受媒体的监督，但是呢，他上面也有达摩克里斯之剑，是什么？死够了人要撤职。所以他们也不敢乱来，总是要有一个平衡的。越是这种像民主政府，不像咱们这全过程民主，他们只能号称民主。

那这个监管流程就会变得非常麻烦。刚才我们讲，数据就这么混乱了，各个政府部门之间的流程都这么混乱。那你想，这个过程得多复杂。很多的政府就只能是什么？变得越来越庞大，变得越来越缓慢啊。任何政府组织机构都有不断自我膨胀的本能。

咱们这呢，举一个最典型的案例，比如说明朝。明朝皇帝朱元璋上台的时候说：“我一定要杜绝以前缺乏监管的问题，要能够监管官员，让他们不敢贪腐。”因为他自己穷人出身嘛，那怎么办呢？整个锦衣卫吧，就是功勋子弟出身，要穿锦袍为皇帝负责，你们去监管天下官员。

后来过了几个皇帝以后说：“这不行啊，这锦衣卫权力太大，管不了他了。”怎么办？再来一个吧，东厂，叫东籍事厂。一帮太监说：“你们再去管锦衣卫啊，看看他们干什么了。”再过几天，东厂也管不了了，怎么办？西厂，咱们再把他们都管起来。

这个事情就是这样的一个膨胀过程，非常现实的一个方法。没有哪个人说：“哎，我们是不是消减一个部门？”锦衣卫搞不定了，我们把锦衣卫改一改，没有啊；或者说：“我们把锦衣卫干掉，换一个新的部门来管。”也不行啊，因为原来的这些人呢，手里有既得利益，而且他们熟悉以前的这些数据怎么产生的，熟悉原来的流程。你真把他干掉了以后，你发现：“哎，这事玩不转了。”就跟那个裁员裁的大动脉是一样的。

所以这件事情只能是越来越大。这也为什么，就像刚才我们讲，马斯克干掉Twitter这个方式，我一下把原来的系统全不要了，能凑合转一天就凑合转，不能凑合转呢，就直接让它瘫掉，出了些这种档机、出bug、丢数据了，我认了。但是我在这个过程中，叽里咔嚓做了套新的，让它继续转起来。从外边看，好像差别不大。

很少有人敢像他这么干活，绝大部分人都是文官系统加锦衣卫，加完锦衣卫加东厂，加完东厂加西厂，绝大部分的政府都是这么干的。后面呢，咱们也讲一讲AI对于政府的帮助。AI其实可以解决刚才我们说的很多的问题，包括数据的问题、监管的问题、流程的问题。AI就是现在的大模型。

其实是可以做一个什么事呢？就是把比较混乱的数据里边的信息抽取出来。他可以抽丝剥茧，知道说啊，我们在哪个地方进行一次验证，就可以了。他可以把这个流程数清楚，原来就必须要人干。就算是所有数据都在计算机里头，你也得对，你要把各种的数据对起来，非常麻烦。像我们以前做大数据，干的第一件事是什么？叫数据清洗。你拿了数据来以后，怎么去清洗？怎么能够找到每一个数据跟数据之间的关系？把数据之间出错的地方，怎么把它处理掉？什么叫数据出错？原来我们说了一个人只能有一个性别，然后有人上头写了俩，那你看你怎么去处理这个问题？记新的还是记旧的，还是怎么去记？这个叫数据处理的过程。调不同的数据之间是什么关系，把这东西理顺了以后，才可以进行数据清洗，然后才可以再做后边大数据的事情。这个事是非常非常麻烦的，但AI的话是可以极大提升效率。所以马斯克也好，那位印度老兄也好，他们去搞新的这个政府效率部，其实是可以拿AI出来帮助，提高极大效率啊。咱们先不说这里头有没有人说人心险恶，我就想让他慢，这个事咱先不管他。咱就说大家都惦记把事办好的情况下，那AI是有帮助的啊。现在中国政府其实已经大力的开始上AI了，甭管他上成什么样，甭管上完了以后他会变得多么强大吧，反正咱们现在已经开始上了。这是跟AI相关的事情啊。再往后呢，就是反对监管。监管这种事情，其实就跟咱们前面讲的这个锦衣卫、东厂、西厂的一个过程是一样的。这个事怎么办？不知道，上个监管法规吧。那个事怎么办？不知道，上个监管条文吧。这种东西呢，其实是政府在不断的增加自己的权利，不断的说，哎，这是个新鲜事物，原来我的法律法规、我的规章制度没有规定过啊，那多上一个监管。特别是最近对于AI的监管，大家都是准备上。所有上监管的时候，有一个很大的特点是什么？就是由会计师和律师给工程师上监管。大家听懂这意思了没有？可能研究出东西来的人是科学家，把产品做出来的人是工程师。

等你去制定监管法规的时候，一帮会计师、一帮律师，以当前的状态、静态的市场，就给你分析出来了。而且还分析得头头是道，因为他们可能一辈子学习的就是这些东西。然后给你上各种监管条款，特别是当我们对待巨大的未来、不可预知的结果的时候，所有的这些监管其实都是有害的。美国其实相对来说，监管已经算是松一些了。你像日本、加拿大，还有像欧洲很多的国家，那个监管比这严得多。

现在呢，其实有几个大的监管，对于美国来说要去松动。第一个是AI监管，第二个是区块链监管。美国的区块链监管没有咱们严，但是在全世界范围内其实已经算严的了。这两天，比特币蹭蹭蹭往上涨，也是因为川普上台了。如果未来对于区块链，或者叫加密货币的监管可以放松的话，是不是这一块就又可以继续往上涨？说川普上台，可以涨到10万美金一个比特币。如果相应的监管放松，同时可以灵活地让大家去持有、去交易、去使用，该纳税去纳税，能够把这事做完的话，那这个比特币可能就真的可以进入到大家的日常使用之中去了，那价值也会继续上升。

另外呢，这两天，山姆·奥特曼又开始说马斯克的好话了。前面一段时间搞得剑拔弩张，两边官司还在打着。到现在，马斯克最新的起诉OpenAI的官司还没有撤诉，但是山姆·奥特曼已经出来说了，马斯克还是很厉害的。在OpenAI早期，我们主要是靠马斯克开的支票才能活下来。为什么讲这话？马斯克是押宝押对了，跟着川普上台了。山姆·奥特曼，你得小心一点啊，因为山姆·奥特曼他所期望的监管，跟马斯克所期望的监管是完完全全两种不同的监管。

OpenAI希望的是什么？他们跑得最快，我跑前头，我们跟政府在一起，关起门来把规则制定好，对其他所有的AI进行监管，这是他们希望的。而对于像马斯克这种说我要去做效率部的人来说，他们所谓的反对监管，就是说不要关起门来做监管，咱把门打开，究竟为什么这么管，为什么那么管，咱把这东西掰出来掰扯掰扯。

没有谁比谁强的啊。你一旦关起门来，那OpenAI等于就彻底垄断了。这就是山伯特曼这一两年里，他很努力在做的事情。这个是完完全全两条不同的路。另外一个开元大模型的老大，现在日子也没有那么好过啊。扎克伯格小扎同学，川大爷在上台之前就讲过，说我一旦上台了，我要把上一次选举作弊的人都抓起来啊，包括扎克伯格。扎克伯格马上就拍马屁说：“哎呀，我看着川普觉得好伟大。”去除监管之后的话，AI肯定会有非常大的不同。那么监管与不监管到底有什么差别？有可能说，AI会不会有问题，会不会伤害人类？这个监管呢，就是有一帮杞人忧天的人坐在那想说，他到底会怎么伤害人类的啊。咱们看看以前的老黄历，以前的计算机到底是怎么伤害人类的，再看看科幻小说，再拍拍脑袋。一帮会计师、一帮律师就坐这制定规则，说怎么监管吧。实际上最后AI到底怎么去伤害人类，这个事他们压根就想不到。那么去除监管的方式是什么？没有犯罪之前，大家都认为是无辜的。出现问题了，我们就把这个漏补上，在这个地方打个补丁啊，说这个以后不允许了。再往前发展，发展到一段时间以后说：“哎，又出了一个问题啊。”那我们再往前走。他现在想经常走这条路。如果说我一开始就有极大的能力，说我都管起来的话，一定是背后有一个更强的AI才能管别人嘛。就是原来OpenAI想走这条路，现在就不一样。那么去除监管以后，可能最头疼的人不是美国，也不是扎克伯格，也不是山姆·奥特曼，最头疼的人应该是欧盟。他们现在希望靠监管这件事情把他摁住啊，不希望他去改变欧洲人整个的生活状态。但是美国一旦去除监管以后，AI就会快速发展，可能最终还是会形成整个欧洲使用美国的AI系统这样的一个形式。他自己的AI产业就彻底没戏了，一点机会都没有了。就算是欧洲人说：“哎，我研究AI的能力很强。”他们也会跑到美国去研究，因为那边是不会先预判你有罪的，他先预判你是无罪的。

所以，这帮人就会跑到美国去，最后欧洲继续去使用这些美国产品。用完了以后觉得不爽了，你要想罚钱吧，这还没有那么容易了。川普上来以后，你敢罚美国公司的钱，我就收拾你。他不像是原来拜登似的，联合欧洲一起去对抗俄罗斯，对抗中国。欧盟去罚了美国公司的钱，他也不说什么。川普说了，提姆·库克找我了，欧盟罚了他的钱，说这个事不行的，等我上台了以后，看我给你把场子找回来。就跟那个流氓大哥的感觉似的。

欧盟以后碰上川普这样的总统，碰上非常没有监管，或者说完全在无监管状态下成长起来的美国AI的话，那后边的日子就会很难过。再往后是消减预算。消减预算这件事呢，其实特别有意思。众议员麦克·沃尔兹出示过一小包，采购价格高达9万美元的螺丝，这是在今年2024年的一次听众会上。他去问军方说：“你为什么要买这么个东西？”当然军方的回应是什么呢？是这个螺丝呢，是可以满足特殊需求的。

这个采购呢，军队也好，或者政府也好，他们采购会喜欢干什么呢？叫采购白名单。我就从这些人里头采购，这些人为了进入到采购白名单里头，就会想办法花钱。所有这些都会成为成本，会加到螺丝里边去。第三个呢，政府采购的定价结构本身就比较复杂。你不能说我上亚马逊上去买一袋螺丝，甚至说我到中国淘宝上去买一袋螺丝，那玩意多便宜啊。

但是你说我们军队买，还有运输的费用，还有包装的费用，还有安装的费用，还有测试的费用，所以他就会比外面买的要贵很多。而且呢，他们申请这种经费，本身的流程也很复杂，都是钱啊。你说有一个人坐在这给你做审批，他不要发薪水吗？而且这坑位级别可能还不低，薪水还不低了，那这一袋螺丝就变成9万美金了。

那么就要想办法把这些钱消减掉。我看有很多人去测算说，美国政府一年花多少钱，国防开支有多少，社保或者说各种的医疗有多少，其他的各种的福利有多少。他们把这些块都分开了，就想说这马斯克怎么可能把它砍掉呢？这个东西是这样的，军事开支里头……

你把9万美金的螺丝变成，比如说900美金，或者变成9,000美金，这不就砍掉很大一块了吗？你又不是说把整个的预算都砍掉。所以很多人是用这个误导的方式，告诉你说马斯克肯定干不成的，就是应该这么多钱。就是要在这个供应链里头，找可信的供应商。每年你就想吧，把这个供应商拉在一块评比一次，给他们开开会，做做思想教育。那这个成本，你不得在这9万美金的螺丝里头付掉吗？这个是真正现在他们能够去减掉的东西。

那么可能的玩法到底是什么呢？就是马斯克呢，有一个叫白痴指数的名言。什么叫白痴指数？他会把一个商品所有的硬件成本加在一起，算算多少钱，再看看这玩意卖多少钱。如果差的越大的话，这个白痴指数就越大。一旦白痴指数大了以后的话，他就很有可能去做这块的生意。说来，我们做这块生意吧，我们把这帮白痴干掉。

他当年跑到俄罗斯去买二手火箭，一支火箭1,800万美金。最后他算了算，所有的硬件加一块，大概也就值个二三十万美金。说这玩意白痴指数太高了，说我们一定要自己造火箭，这个太赚钱了。他就开始造。而且他造火箭的过程也是如此，把很多原来经过验证的必须要去遵循的规则都扔掉，不再去遵循这些规则了。我从头开始做。完了以后呢，再去研究说这东西行不行。

对于马斯克来说，这个9万美金的螺丝，肯定是白痴指数极高的一个东西。对于他来说呢，也很简单，就是你不要去给我讲什么供应商白名单，你就老老实实的招标采购。你把你的需求写清楚，我们就要这样的螺丝。谁能够提供这个东西，你就去弄。弄完了以后，如果说这个东西比亚马逊上的贵，那我们就买亚马逊的。剩下的，比如运输、安装、测试这些东西，我把这块成本拆掉。你说我需要做测试了，那我就干脆说，在整个采购过程中，我们加一个测试环节就完了。你不要把所有的螺丝都给我加上9万美金。他肯定会这么去搞，他把原来封闭的系统要彻底展开。因为大家想，一旦是封闭系统，一定是我首先怎么上岸。

怎么能够坐在里头，能够有权利来吃这桌饭，然后再去研究说我到底应该提供什么商品？很多学校里边的食堂都做得很难吃，为什么？因为所有食堂供应商，他99%的成本和心思都在研究出我怎么入围上了。只要我入围了以后，那我一定得把所有成本挣回来。

所以这个是马斯克的有可能应对方式。另一个呢叫第一性原理。所谓第一性原理就是质疑一切，所有人以前的惯有流程，所有人原来做的标准我都可以质疑。咱们看看啊，把这些东西扔掉了，是不是可以有更好的解决方案？

他最喜欢干的事情是利用社交媒体，让流程重新开放透明。很多事务都是关起门来干的啊。你比如说，像刚才咱们讲采购供应商这个事情，我们先开着门做第一次选择，选择完了以后关起门来做第二次，再关起门来做第三次。一层一层拔高以后，里边就会出现各种各样的黑话，外边人听不懂了。很多不合理的东西就慢慢变得合理了。

现在呢，就重新把盖子给你掀开，大家看着到底怎么回事。以公众的认知为基础，对这个东西进行检查。你就像现在马斯克说，我们要把所有这些预算拿出来去评比，哪个最愚蠢。评到最愚蠢的预算，我们来写报告，建议国会把它砍掉。

那么在这个过程中，哪怕说公众是无知的，最后评测完了以后的这个非常不准确，你还可以发动这个舆论攻势嘛。你Twitter在手里边，就开始骂这些政府官员，说：“哎，你们怎么可以这样？”因为美国还是有很多人要去参加选举的，你被骂完了以后这怎么弄？

现在美国的这帮议员们，已经非常开心地在Twitter上跟马斯克互动了。他是Twitter基本上算第一大网红，或者第二大网红的这个状态。谁去说：“哎，我支持你这个DOGE的活动，哪哪哪有问题了？”马斯克会马上转发你的Twitter了。那破天的富贵直接一瓢就浇到手上了。你说这玩意算贿赂不啊？这个应该也算是一种小的贿赂。但他们就觉得我们不要想这么多，咱们就往前跑就完了啊。所有那些说我们就顶着干，我就一定要来告诉他：“说你们才愚蠢呢。”

要指责民众是蠢蛋的这些人，他们就有可能会被Twitter和这些社交媒体直接骂得狗血淋头。而且，很多的数据和隐私在互联网大数据和AI面前是无处遁形的。你说这个事情有什么问题，那个事情有什么问题，肯定是能给你找出来。你说你没有专家，那你不懂，互联网上什么专家都有。你千万不要觉得，真的能够靠一个小圈子把门关起来，能够把这个利润维持住，这是不太可能的。

但是DOGE呢，具体怎么做，咱们不能瞎猜。咱们现在也就算是开心一下，猜一下吧。不过有一点是必然的，这阻力一定会非常巨大。毁人钱财如杀人父母嘛。DOGE的运作的最核心，是要让很多人破财。你还不是说让人失业，你说我把政府雇员裁掉80%，这个其实没多少钱。但是像刚才我们讲的，9万美金买一袋螺丝，整个的产业链利益链能有多大，那只是一袋螺丝。后头还有飞机，还有坦克，还有各种各样奇奇怪怪的东西，每一样东西的采购，可能都是一层一层这么做起来的。

如果把这套系统打破了，很多人是会找他拼命的，甚至跑去刺杀他，我觉得都是有可能的。实在是太多钱了。现在要重新开放市场，把竞争开放给更多的人，一定是会损害那些原来关起门来做生意的人的利益。像什么波音，像什么洛克希德·马丁，既得利益肯定会出来找事。而且在修改的过程中，一定会出各种纰漏。只要是动起来了，出什么事故，出什么故障是必然的。

但是这个呢，就跟原来马斯克自己做SpaceX就不一样。马斯克自己做SpaceX，摔火箭他就认了。他摔了三颗火箭，第四颗发上去了。那前三颗火箭一个一个摔下来的时候，他自己就顶住了。这件事情其实是搁在政府里，是顶不住的。你比如说马斯克说，我们今天要把这个预算干掉，这些人就会说，你看这里有儿童受到伤害了，那里有什么问题了。他们也会制造这种舆论。这个马斯克他顶得住吗？顶不住。咱们讲一个题外话，有没有人想过，最近，为什么网易、字节跳动等一堆人在反腐？原因其实也很简单，既得利益集团搞不掉嘛，这个时候就只能反腐。那么，这会不会成为马斯克克服压力的一种新的方法？可能性也是很大的。他一方面公布萝莉岛相关的数据出来，那可能就可以消除一部分的阻力；另外一方面，以马斯克的能力，以及他背后掌握的Twitter和这种算力来说，他其实是可以发现很多腐败行为，直接去举报就完了。

所以这件事情可能也是他推动DOG往前走的一种方法。我记得我原来看过一本书，是《杜鲁门传》。就是美国在罗斯福死后，顶上来当总统的那哥们。在当总统之前，他是参议员。当时有一个叫杜鲁门委员会的地方，这个委员会干嘛的呢？就是在二战期间，如果发现有贪腐行为了，请向这个委员会写信来举报，我们来调查这个事情。这就是当年的杜鲁门委员会。

现在DOGE就完完全全有可能像杜鲁门委员会那样去运作，说现在你们谁看到哪里有不合理的事情，哪里有问题了，请向Twitter发。发完了以后，艾特一下马斯克或者艾特一下DOGE，他们后台的AI就看到了，你可以快速地开始进行调查，开始收集证据，然后形成报告，就可以往前走了。我记得当时里头就写的，有人给杜鲁门写信说：“你好，我是通用还是哪飞机制造厂的设计师，我发现我们的飞机上用的很多零件是不合格的。我流着眼泪给你写，因为我儿子正在前线开飞机，我不希望这样的飞机到前线，然后把我儿子害死，所以我一定要去举报这个事情。”当时就有很多这样的事情发生。

现在的话，DOGE正常运作起来以后，这种事情会非常多。最后，我们来想一想，如果政府真的像马斯克搞Twitter那样运作起来会怎么样？可能也是让原来的体系继续跑两天，在这个时候快速地建立新体系，替代原来的体系，并且提供服务。这件事是不是有可能？有难度啊，现在已经看到，虽然川普这一次任命了一大堆80后跟他一起去组建新政府。

但是呢，原来整个的政府体系并不是那么容易去替代的。马斯克肯定是希望能够不断地通过外部的这种，甭管是鲶鱼震动也好，或者是各种敲打也好，能够让系统再重新动起来。他希望尽可能地消除一些特权，像刚才我们讲的这种集中采购就属于特权。当特权消失了以后，其实就不需要那么多制衡和监管。

制衡监管监管的是谁？当时朱元璋建锦衣卫，监管的是文官集团；建东厂监管的是锦衣卫；建西厂监管的是东厂。所以监管的都是特权。你把特权干掉了，你要那么多制衡监管干嘛使？他就变快很多了嘛。

但是呢，也是必然会出很多问题的。就像Twitter不断地宕机啊，就像猎鹰火箭先炸三回才能飞得起来，这个过程是一样的。但是呢，有可能会有一些补救和安全措施，避免一些重大灾难的发生。这个事呢，还是有可能能够搞定的，特别像马斯克这种，本身执行力就特别强。你真的出现什么问题了，那他掏钱干呗，或者就直接忽悠一嗓子：“哎，Twitter上的朋友们啊，大家现在赶快去捐钱进入啊！”他没准也可以能够解决一定的问题啊。

这可能就是马斯克DOGE运作一段时间以后会变成的一个现象吧。当然了，作国内来说，我觉得DOGE的运作会给我们提供更多的瓜，让大家觉得这个事情还可以聊一下，那个事情还可以聊一下。作为我这种Youtuber来说呢，感谢马老爷子以及川老爷子赏饭吃，也就如此了。他们又干出点什么奇怪的事情来，又可以录一期节目来扯淡。这就是我们今天讲的第一个故事，主要还是跟大家开心一下。