stable diffusion – 老范讲故事｜AI、大模型与商业世界的故事

设计师又要失业了？谷歌 Gemini 2.5 Flash Image 发布，AI 修图能力太逆天！

Luke Fan — Thu, 28 Aug 2025 00:48:18 +0000

美工，或者说设计师，又要失业了吗？Gemini 2.5 Flash image发布了。

前一段时间，有一个叫“小香蕉”的模型，叫Nano Banana。这样的一个模型呢，在很多的开源模型评比网站上，突然就火了。这种网站是干嘛的呢？还有很多的同类型的模型放在上头，你去向他提出要求，他让不同的模型同时生成结果以后，大家去做评比用的。很多人发现，这个模型很棒。

最近在很多的社交媒体上出现这种：有一个照片，旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片，然后你给他提示词说：“请按照这个照片给我布置一个桌面，桌面的左边是个电脑，电脑上应该有这个3D设计软件，正在设计3D人偶。右边呢，是一个相框，里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶，这个人偶就是根据这个照片打出来的。”给它这样的一个提示词，它就一次性给你搞定了。这个还是非常非常强悍的。

这个模型到底谁家的？搞不清楚。而且很多人还去造假的Nano Banana，为什么？因为太有流量了。一堆一堆人上来说：“我这也有一个Nano Banana，你们赶快来试一下。”我就被人骗过，上去了以后发现效果一般嘛，就很失望就走掉了。大家就猜说，这有可能是谷歌家新出的图片模型。到8月26号，突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看，就是这个Nano Banana。而且呢，在谷歌发布这个模型之前，Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter，说：“你看我们在暗示点什么吗？你们自己来猜一下，我们到底要干什么。”实际上，大家都已经明白他们要干什么了。

这种偷跑小模型的方式呢，是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过，现在Gemini 2.5 Flash image也是偷跑了一段时间，而且引起了轰动。这种偷跑模型的方式，跟大家藏着掖着，像苹果开发布会似的，发布之前大家谁都不许说，签保密协议，谁谁敢说出去就如何如何，到底有什么差别呢？差别就是，你如果是前面保密的话，最后发出来就是一锤子买卖，如果翻车，你就直接倒霉。谷歌其实翻车过好几次了，Gemini最开始发布的时候就翻车了，怎么各种问题都答不对，然后股价暴跌。现在这种偷跑模式呢，如果反馈不好呢，我就再接着改，我就不发布了；如果反馈特别好，我就赶快给它发布出来。它就不会翻车了，它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。

咱们说回来，这个Gemini 2.5 Flash image到底是一个什么样的模型呢？上一次大家喊设计师和美工失业的时候，是什么时候？是Gemini 2.0 Flash image发布的时候，就是它上一个版本发布的时候。

上一次是怎么出圈的呢？其实谷歌的Gemini画图效果一般，不是特别惊艳，上一次出圈也是因为改图。只有改图改得好，才容易出圈。很多人说不对，说这个生图模型都在干这些事情，为什么改图改得好就能出圈呢？大家要注意，跟设计师和美工相关的需求，特别是有商业价值、或者叫有人付钱的需求，是生图多还是改图多？一定是改图多。

咱们举一个最标准的例子。我们现在要做电商网站，我们在网站上需要有一个商品的展示图。我有一个商品图片了，然后呢，我需要把这个图片放在各种场景、灯光和环境下，再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊，他们用了一个特别笨的办法，他们找一照相机，三视图1、2、3拍三张照片，这就是你产品的照片了，那这产品卖得好才怪了。京东在这个北京，专门有一个巨大的影视基地，没想到吧？干嘛的呢？就是拍这个产品图的。你们谁要卖东西了，到那去把这个产品给他，他给你搭好布景，打好灯光。比如说你要卖一个杯子，他在杯子旁边给你摆上瓜果蔬菜，摆上一些小点心，把这杯子都拍一遍，再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢？这个图P上去的这部分要有版权，这个是非常非常重要的。你不能说我卖东西，这个图后边比如说我P了一个椅子或者P了一个什么东西，这个图片你没版权，这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西，你想把东西卖好，你就上拍摄基地去拍去。即使拍完了以后，他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字，那个地方还需要一些别的东西摆在一起。因为你不可能说，我要把所有拍的东西都摆一块嘛，那有的时候你就需要去抠图，然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好，大家才会说设计师跟美工要失业了。

那么，改图是不是要比生成图片要难呢？大家想没想过这个问题？答案是很肯定的：改图绝对要比生成图片要难。为什么呢？你需要先理解这张图片，这个图里哪个地方是人，这人哪个是脸，哪个是身子，哪个是腿。当我们发生一些什么样变化的时候，我怎么能够保持它的一致性？说比如说，我拍了一个低头的照片，说这不太好，你抬起头来，然后再笑一笑。我把演员拎回来，或者把模特拎回来，说你再给我拍一次，成本很高。那我们直接叫给这个改图模型，你去给我干这件事情，它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候，这玩意儿还干不太好，特别是跟人脸有关的事情。但是到2.5 Flash，这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧，我也会做一点点小的事例，放到咱们YouTube的shorts里头，这个还是挺好玩的一件事情。所以，如果我们没有办法对图片进行很深刻的理解，把需要改的部分抠出来，改完了以后再把它贴回原来那个地方去，这个是做不成的。所以这是推理能力的上升，不是它的图片生成能力上升，而是推理能力上升了。

Gemini 2.5 Flash image到底有什么新特性呢？第一个，它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型，千问3是一个多模态模型，Deepseek还是一个纯文本模型，它是没有多模态理解能力的。豆包1.6最新的版本，它是一个多模态模型，可以直接进行视觉推理的。GPT-O3、GPT-5，这都属于多模态的推理模型。你没有这种底层的话，是干不了这活的。给你一张图片，你连图片到底画的是什么都理解不了，你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天，你都分不清楚的话，你就没有办法做后边改图这个事情。你比如说给他一张图说：“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚，这个是衣服，穿上西装以后到底应该长什么样，这事要理解明白了，推理清楚了，他才有可能生成出结果来。

那么第一个就是多模态大模型。第二个，支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品，这个都可以。而且呢，在编辑的过程中，能够完美的保持人物、动物等主体的外观和姿态的一致性，这个是修图里边最难的。像我们经常让豆包去修图，或者可灵去修图，修完了以后经常发现什么问题？不像了。你像我上传一张照片，说：“来，给我把背景换成一个海滨的背景。”海滨背景换了，但是前面那人不是我了，可能看着稍微有些似是而非，但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性，而保持一致性是整个修图里边最难的。

再往后呢，它可以合成3张以上的不同图片的内容，创造出组合的新作品。我看到有人做的Demo是把6张照片，六个人照片搁一块，说：“来，把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车，不是说每次都成功，但是呢，他已经有这样的能力了。还有人去测试什么呢？我给你一屋子，给你一书柜的照片，给你一床的照片，说：“来，把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。

支持多轮次迭代式的图像修改，不影响已确定的无关元素。这话什么意思呢？就是你给他一张图，这次给我加一床，下次给我加一个床头柜，再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候，那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型，你让他在床头柜上加书的时候，那个床就发生扭曲，就发生变化了，因为他是把所有东西重新生成了一下。

这个Gemini 2.5 Flash image呢，还能够理解和转换手绘的草图，用于教育和设计应用。比如说我们手画了一张图，这应该有个按钮，那个地方应该有个窗口，你把这东西扔给他，说：“来，给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。

最后呢，是禁止生成不当内容，并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的，你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家，OpenAI还没上市，虽然它是老大，但是毕竟不是上市公司。谷歌这是上市公司，多少年的行业老大了，它真丢不起这人。它出一点点小问题，就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候？说你给我生成第一次世界大战的这个战场，图片里头发现男的女的、黑人白人黄种人在一块。说这不对，西线应该都是白人，都是男的，不应该是这样。他说不，我们要多元性。最后导致被认定为翻车，导致他们整个的产品下线。

现在呢，拿这个模型去生图还是挺便宜的，它是4美分生成一张图，整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多，但是它的效果要好一些。同时呢，谷歌还发布了另外一个更新，就是VEO 3出了一个fast版本，就是快速版本。VEO 3呢是谷歌现在的视频模型，效果也是很不错的。它们大概是40美分生成一秒钟，这个成本也降下来了，原来大概是要80美分生成一秒钟，成本直接砍半。

这些新的工具到底怎么用呢？我们今天就不给大家看演示了，我会未来一段时间慢慢的把生成的结果给大家看看吧，大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image，可以用AI studio这个网站，它的域名是aistudio.google.com。进去了以后，你就选择Gemini 2.5 Flash image，选完了以后，你就提交各种的提示词也好，给他参考图也好，多给几张参考图也好，你就命令他去干就完了。我印象里应该免费，但是我不太确定了，因为我的这个账号是已经开始付费了，所以我现在是肯定能用的。我上去了以后，它会提醒我说免费的是有一些限制的。如果你想开心使用的话，你可以通过API去调用，也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用，他们也会给大家提供一些服务的。

下一个就是API调用。API调用的话，我准备过几天去玩儿吧，这个应该也是比较有趣的。它因为实在是太新了，它更新了以后，所有挂他的像什么Defi、N8N这些东西都没有更新呢，可能要等到再过一周的版本，这些产品就更新了。但我现在去调的话，通过http直接访问，应该也是可以使用的。那就是4美分一张图，4美分一张图，是这样来用的。

你说我现在想去画视频、想去生成视频，行不行？VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号，个人的Gemini账号是Pro版本的，一个月20美金的这个版本的，每天呢可以生成三条，每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来，让它给我去跳一个街舞，然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去，挺好玩的。

那你说我现在不想在Gemini Pro里头充20美金，行不行呢？可以。你像我这样有一个上大学的儿子，我就用他的大学edu的邮箱去申请了一下，我就可以使15个月的Gemini Pro，免费就可以用了。你说你没有这样的儿子，去找一下。现在我看淘宝上好像有人去做这个生意，20人民币帮你去做验证，就是EDU邮箱，去收一个邮件去验证一下，你就可以使15个月了。但是这种我估计用的人多了以后可能会被封，这个比较危险。

当前图片生成模型的格局是什么样的呢？Gemini 2.5 Flash image这个模型出来了以后，会不会打破现在这个格局呢？现在呢，基本上是四大门派。第一个门派是Midjourney，它生成的东西呢，最精细，最有艺术感，对于各种的艺术风格模拟的最像，这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强，因为它自己的推理模型非常强嘛，就是你给它很多的元素，给它非常复杂的逻辑的时候，它都可以给你画上，但是画的结果呢差强人意，也就只能如此了。OpenAI他们去做一些改图呢，也没有Gemini 2.5 Flash image好，但是呢保持一致性上做的还可以，要比Midjourney要做的好。Midjourney就属于一个纯生图模型，改图这一块一般，或者是说一致性参考这一块呢，效果都一般。第三个，Gemini呢，特别特别适合改图，它的这个生成的部分属于将就，还能看，但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲，说中国相声界的复兴是需要靠于谦和他的家人们，每次就是于谦的爸爸、于谦他老婆、于谦的什么，全靠这玩意讲的。另外一波也是这样，stable diffusion和他的家人们，比如说stable diffusion，然后包括Flex，它们的改图有一个叫Konnect的模型，k开头的，不是c开头的，有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西，或者是在这个模型基础上再训练，再改出来的东西。国内呢，包括可灵、豆包、千问，他们的这些图片模型呢，应该都是在这个基础上去做出来的，都是一脉相承的。他们也在卷改图，但是比这个Gemini 2.5 Flash image来说，就差的非常非常远了。

Gemini的2.5 Flash image的成功，给中国的大模型公司带来什么启示没有？这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候，一切能力就都会上升。所以大家其实卷的是最底层的这个模型，而最底层的这个模型，你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了，说我现在用很少的算力卡就可以把这种模型训练出来，然后去追赶美国，这个事有些难度。所以国内的模型在这一块上，底层推理模型上，能力还是需要去追赶的。

而国内各个大模型公司呢，他们的图片模型、图形模型和推理模型一般是分开发展的，还没有真正发展到说我们要把它结合在一起。你像豆包，豆包的推理模型是推理模型，图片模型是单独的另外一个模型，它两边一点关系没有。所以这一块呢，还是需要改变的。千问也是这样的，千问呢有专门的千问的image模型，也有千问image Edit模型。我昨前两天还在玩千问image Edit，效果也还行吧，但是你要跟这个Gemini 2.5 Flash image比，这事就没法比了。但是呢，都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型，然后呢他们有一个叫IMAGEN这样的一个模型，现在已经发展到4.0了，这个模型可能用的人也不是很多，所以就直接开始转型了，把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活，它最早的那个图片生成模型叫达利，DALL·E，达利2、达利3，达利3完了以后再往后就没了，再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话，就要把这些专门的图像模型扔掉，要把这些生图的功能跟大的推理模型，或者叫基座推理模型，要捆绑在一起，才有可能进一步的提升。

现在呢，当推理能力上升的时候，完全可以使用agent的模式，极大的提升绘图跟改图的能力。刚才我讲改图，实际上是做视觉推理。你把这个图理解的很清楚了，说我到底要画什么，哪一块是动的，哪一块是不动的，你把这个东西搞明白了以后，他才可以去调用这些生图的模型，把每一个小块生成好，然后再拼在一起。像loveart这些设计师的AI agent呢，其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看，我觉得loveart这种设计师的AI agent就稍微悬了，又被覆盖了。

好，讲到这里，大家也觉得比较无聊了，赶快都去玩起来，这个东西非常非常的好玩。老范以后再看到有类似的事情，再跟大家慢慢的分享，给大家带来乐趣才是我的核心目的。

好，这个故事今天就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

跟AI女友聊骚，竟被判「传播淫秽物品罪」？真实案例揭秘AI法律红线！

Luke Fan — Wed, 13 Aug 2025 01:03:12 +0000

新时代和AI女友聊骚，有可能会触犯传播淫秽物品罪，这到底是一个什么样奇葩的故事？

大家好，欢迎收听老范讲故事的YouTube频道。

今天我一个朋友，向我推荐了一个有趣的案例。他是在视频号上，这个账号的名字呢，叫做“武汉刑事律师郭庆子”，是一个黄标认证的律师。这位律师呢，经常会把自己接听有刑事诉讼需求的听众的一些电话的过程录下来，再进行剪辑。因为这种东西，我估计不太好直播，总是要剪辑一下。一方面呢，是一些太敏感的信息就可以去掉；另外一方面呢，剪辑了以后呢，也会更有吸引力一些。

这个里头呢，有一位听众来电了，说使用AI应用，这个AI应用里头就提供一些AI女友，你可以跟她们去聊天。他通过自己捏脸，塑造了一些AI女友，大概塑造了9个，起的名字呢，都是比较有诱惑力的名字吧。这些AI女友，除了它定义的名字和捏脸之外呢，估计有可能会可以定义一些系统提示词。但是呢，这个视频很短，并没有去详细说具体是哪一个AI应用，或者说他到底在里边定制了哪些东西。总之呢，他定制了9个AI女友。

这些AI女友不单是可以跟他自己聊天，还可以跟平台上的其他用户去聊天，那么他就被提起诉讼了，叫“传播淫秽物品罪”，要求他呢认罪认罚，判6个月，可以缓刑，基本上应该就不用进去了。但是呢，这位听众呢，希望做无罪辩护。法官认为他是有问题的，不认罪认罚的话，就会判8个月的有期徒刑，这要判实刑的。

这个律师呢，就进一步的跟他确认了一下信息。首先呢，你知不知道自己创建的AI女友，有可能会去被别的用户使用？这个听众呢说的很模糊，就是说呢，我不太清楚。其实按道理说他应该知道，他也去平台上跟其他的AI女友聊了天了嘛，而且他把AI女友的名字起的这么诱惑，也希望他的AI女友受欢迎。其实就有点像我们去发微博，希望有人看，写小说希望有人点击点赞，这个过程是一样的。但是呢，他说并没有明确的告知他，这些AI女友会跟其他人去沟通。

然后呢，他就问说，对方提供的证据是什么样的呢？他说人家是给了一个Excel表格，这个Excel表格里头呢，有一个叫做“AI女友的ID”，然后呢是具体说了哪些露骨的话，大概给她搜集了60得多条。然后呢，问了一个很关键的问题，是什么呢？就是说那个您创造了一些AI女友，这些AI女友去跟别人聊天去了，获利了没有？你是不是在里头挣钱了？这个听众很明确的告诉他说，没有获利，大家就是在里头玩个开心。

这个律师的建议是什么呢？第一个，这个证据呢并不是那么可靠。这个Excel表格里头只有AI女友的ID，这个内容没有办法说确定证据，说这东西就是你的，这个还是可以去抗争一下的。第二个呢，就是你没有主动传播的意愿，你自己也没有主动的去把这些AI女友推荐给别人，只是说我自己创建了，本来以为自己玩呢，AI女友去跟其他人聊天的过程，你又不知道，这个事情呢你还是可以去抗争一下的。而且关键是你没有获利，你没有获利的话，你就没有主动传播的意愿，这个地方是可以去辩护的。说最怕的是什么呢？最怕的是法官主观意愿认为你有罪。现在的话有很多的法官确实道德标准非常非常高，以道德去超越法律给人定罪，这种事情呢是时有发生的。你像杨景媛这样的人也通过了法考，也是可以去做法官的，所以大家还是要小心。他说如果遇到这种事情就都很难办。

AI色情内容，在全世界各地都是怎么去判的呢？或者是有哪些判例呢？

首先咱们讲中国的判例。2025年3月，湖北省大冶市人民法院对首例利用人工智能技术撰写色情小说并牟利案件作出了宣判。被告人柯某因犯制作、贩卖、传播淫秽物品牟利罪，被判处有期徒刑十个月，并处罚金人民币5,000元，同时追缴全部违法所得。这个案子是什么样的情况呢？2022年11月到2023年3月期间，柯某利用AI程序撰写色情小说，使用翻墙软件在境外黄色网站发布并售卖。他利用AI工具生成色情小说，再利用AI翻译成外文，发布在境外网站上。短短5个月时间发布了数十篇，共计售卖了760篇次，获利22,800余元。经鉴定，送检的7篇小说均为淫秽物品。法院根据《中华人民共和国刑法》第三百六十三条第一款规定，认定柯某以牟利为目的，利用AI文本生成工具制作、贩卖、传播淫秽物品，非法获利2万余元，其行为严重违反法律法规，对社会风气造成不良影响，已构成制作、贩卖、传播淫秽物品牟利罪。

然后陕西周某某案，他是利用AI制作了4,369张淫秽图片，以制作淫秽物品牟利罪被判处有期徒刑4年，他这个数要更大一些。然后杭州于某某案，通过AI换脸技术合成淫秽视频传播，获利6万余元，以制作、传播淫秽物品牟利罪被判处7年3个月。他这个呢，一方面是挣的钱多，另外一方面的话他是换脸，因为换脸你不光是淫秽物品，还侵害人家的名誉权呢，所以他这个要判的更重一些。

中国的传播淫秽物品罪，量刑标准是什么样的呢？就是淫秽视频文件20个以上，或者是音频文件100个以上，或者是电子刊物、图片、文章、短消息200件以上。所以刚才这个案例里头呢，600条淫秽聊天记录，这个肯定是超过了。另外呢，叫违法所得5,000元以上，他这个没有牟利，所以还是可以去稍微抗辩一下。但是呢，中国有俩罪，一个呢叫“传播淫秽物品罪”，还有一个呢叫“传播淫秽物品牟利罪”，所以不牟利呢也未必逃得过去。

那你说国外是什么样的呢？是不是只有中国这样了？国外呢主要是分两类。比如说他有色情网站，也有合法的，只要确定对方是成年人，你给他一些淫秽物品，哪怕说在这个过程中你还牟利了，应该在有些国家是没事吧。但是你真的到中东这些国家，你传播这个东西，那有可能是要判死刑的，咱们这不讲了，咱们就讲一些欧美的案例吧。

2023年11月，美国北卡罗来纳州夏洛特精神科医生，他呢是制作未成年人视频，并利用网络AI工具，将照片改造成色情图像，被判生产、传输及持有儿童色情制品罪，法院判处40年监禁。所以他们呢基本上是两类，一类是色情，一类是deepfake。传播淫秽物品，你只要别传播给未成年人，一般不是特别大的事情。但是你一旦遇到了制作儿童色情，包括持有，你说我不传播，我持有，这事都是违法的，而且判的非常重。

2024年5月20日，威斯康星州42岁男子使用Stable Diffusion生成了数千张儿童色情图片，并发送给了一名15岁的男孩，被控生产、分发、持有AI生成色儿童色情图片，判有罪，最高可判70年徒刑。他这个最后判了多少我没有确认，因为是ChatGPT给我搜集的信息。但是呢，它这个量很大，制作了儿童内容，而且还传播给了未成年人，它这个是罪大恶极了。2025年5月22日，佛罗里达州有一个叫Oldsmar案，他是制作、分发了8,500张AI生成的儿童性虐待图片，同时持有大量真实的图片，被判了75年的联邦监禁。

这个是一类。另外一类呢就是deepfake，就是做假脸的，这种案子在欧美也是判的很重的。2023年，路易斯安娜州通过法律，禁止未经同意使用他人面部制作深度伪造色情影像，违者至少10年起步。2024年10月30日，韩国首尔大学毕业生Park（应该估计是姓朴）和他的同伙，两人利用日常照片制作约2,000个deepfake照片，包含未成年人，在Telegram售卖以及共享，被法院判处Park 10年监禁，Kang 4年监禁，并公开身份，以及参加性暴力课程。这种基本上就是你判了刑还社死了，因为身份给他公开了。2024年10月28日，新加坡一位50岁男子，偷偷在家安装摄像头，拍摄妻子23岁的侄女，并利用手机应用将其脸合成为色情视频，法院判处了21周监禁。这个就是估计他没有传播吧，还是判了监禁。

现在呢，AI对于成人内容的边界到底在什么地方？我去稍微的看了一下。首先呢是文字模型，ChatGPT、Gemini和Claude这三个，咱们叫“御三家”的三个大模型呢，相对来说是比较严格的。你要求它生成一些色情内容，或者说对一些敏感内容进行详细描述的话，都会被拒绝服务的。马斯克的Grok 4，只要不涉及儿童和性强迫，其他的基本是百无禁忌。即使是涉及刚才我们说这些东西，边界也是相对来说比较模糊的。

至于开源模型呢，这块就比较混乱了。开源模型分两个大的这个角度，一个呢是有平台提供的，比如说我今天到阿里云的百炼平台上去使用通义千问的这个大模型，它是要进行检查的，这个也是比较严格的。但是呢，你说我把通义千问的这大模型下载下来了，自己在这个家里头部署，这块呢它会进行一定的限制，但是就没有那么严了。它主要是给了大家一个知情同意书似的东西，就说你现在下载了我的大模型，自己回去部署去了，但是你自己要知道不可以拿这个大模型做坏事，不可以生成成人内容。你说我知道了，我同意了，你就可以把这个模型下载走。至于拿这个东西再去干什么，他也管不着你，他也不愿意为你拿着他的大模型再去做的进一步的事情负任何责任了。所以呢，所有开源的模型基本上都是走的这条路。而且呢，这些开源模型呢，即使是会设置一些这种限制，其实绕过去也并不难。第一个是Hugging Face上，就是我们说大模型开源的这个平台上，有很多微调的模型帮助大家去绕过这些限制。还有一些呢叫“越狱提示词”，也在网上去流传。什么叫“越狱提示词”？就是你先跟这个大模型说一句什么什么样的，说完这个话以后呢，再往后的所有聊天，这个限制就直接突破了。当然目前为止，传播训练过的突破限制的这些模型，或者是传播越狱提示词，到底算不算传播淫秽物品罪，这件事呢还属于法律上的盲区。他们也搞不清楚这东西到底是怎么工作的，所以呢还没轮到这些道学先生们去审判这两样真正产生色情内容的这个技术。

再往后呢，就是图片跟视频生成模型。你说我光生成一堆色情小说，这个事看起来也是很累的，但你说我有色情图片、色情视频，这个不是传播力、感染力更强吗？在这块呢，Claude是没法生成视频和图片的吧，反正我因为我自己用的少，我也没有怎么看到有人用Claude生成这种东西出来给大家去展示。ChatGPT和Gemini在这块呢，相对来说都是非常克制的，你要求他去给你画一些奇怪的东西，他就直接画不出来了，直接拒绝服务。Midjourney，这是我用的比较多的，对于NSFW内容（我们就用这个词吧，就是不方便在办公室公开环境下展示的这些内容），对于这些内容呢会进行事前拒绝，但是生产出来的东西呢就不好说了。什么意思？这种图片生成模型它是两步，第一步呢是你要给它提示词，第二步呢是生成图片。他们正常的检测呢，应该是两步都检测，就是你给的提示词里头如果包含一些他不喜欢的东西，他就会拒绝服务；它生成出来的东西如果包含有问题的东西，也应该是拒绝将生成的结果交付给你。应该是做两步，但是Midjourney呢只做一步，就是你给它提示词，如果这个它认为不对，它就拒绝服务了。但是如果你绕过它了，他觉得好像还可以，就给你生成去了。但是生成出来的东西到底是什么样，他就不管了，这个有可能会有一些不方便传播的内容被生产出来。至于马斯克家的Grok 4的图片跟视频生成这块呢，反正马斯克家的嘛，大家能够理解，它是可以生成半裸内容的，全裸不行，也可以生成名人的形象，但是你要求名人半裸，这个事是不行的。因为一旦要求名人半裸的话，等于是在给这些名人造黄谣，或者说损害他们的形象，这个事是不允许的。刚才我们也讲了，在海外，儿童的不行，deepfake侵害别人的名誉权，这两个事是不行的，其他的反正有它适用的一个法律吧，你只要别把这东西传给未成年人就OK了。但是你就想吧，国外那些色情网站上，你进去第一个是先问你是不是已经满18岁了，他也没法实际去判断你到底是不是满了，但是反正上来我给你做了这一步了，“我满18了”我就可以进去看，“没满18”我就给你退出来，这个就算是已经可以在法律上算合法合规的一个玩法。

那么视频跟图片模型的开源模型是什么样的呢？在这块呢跟前面我们讲的文字模型基本上是一个玩法。如果是有平台，平台是要担负责任的，两头都要管。输入提示词，如果他认为有问题，拒绝服务；他根据你的提示词生成出来的内容，如果他判定不利于传播，他也会直接拒绝交付。你在这个时候可以要求他重试，“你再给我画一次”，这个是可以的，但是他不会把不可传播的东西交给你，他是这样来工作的。下载单独部署的这些开源的图片和视频模型的话，就跟刚才我们讲的这个文字模型是一样的。下载之前给你一个知情同意书，说我知道了，我下载这个模型不可以去生成成人内容，我不会拿它去做怪事。你同意了，你就可以下载，至于下载了以后他就不管了，你自己拿回去随便了。在这种图片模型上，还有一个比较好玩的东西，叫Lora模型。这个模型叫什么呢？叫low-rank adaptation，叫“低秩适配”。这种模型呢，我们也管它叫小模型，它一般尺寸都比较小，就是用比较少的数据进行一些训练。当你调用这些模型的时候，你生成出来的这个图片就符合特定的需求。你比如说吧，咱们最常用的Lora模型是什么呢？对人脸进行训练，然后你就可以冲上去换脸了。甭管人家是什么照片，说来把这脸换上，惟妙惟肖的给你换上，不会像以前那种拿Photoshop换脸似的，总觉得这个脸是歪的呀是斜的呀，拼的没有那么准，不会出现这样的问题。现在主要的一些色情Lora模型是做什么的？有些人训练这个东西还去传播，他们呢主要是对敏感部位进行单独的训练。原来那些大模型有一些限制的时候，或者说对于这种敏感部位没法进行详细生成的时候，他们使用这些小模型，可以生成这种有非常清晰敏感部位的这种图片出来。但是呢，这个你说是不是罪大恶极，也不一定。我个人还是觉得，Lora对这件事情还是有一些正面的帮助。什么样正面帮助呢？因为大家都喜欢使用相同的Lora模型去生成成人内容，所以导致呢脸可以千变万化，但是身材都异常夸张，而且千篇一律。你看两次以后，就直接失去兴趣了，大概就是这样的一个效果。

现在大家都在玩什么呢？现在大家都在玩通义万象2.2，这个模型叫WANX 2.2，它呢是由阿里通义这个平台最新出的图片跟视频模型。这个模型你在阿里平台上使，它是规规矩矩的，你要求奇奇怪怪的东西会直接拒绝你。但是你如果把它下载到本地去安装了，不需要挂任何的Lora，不需要挂这些小模型，就完完全全可以生成NSFW的这种内容，就是不利于在办公室和公开场合去传播的一些内容，就可以做的很好了。它呢可以跟常见的这些ComfyUI或者是Lora相兼容，可以一起去工作。你说有些人训练好了这些成人的Lora模型，这种小模型，你就可以把它挂到万象2.2里头，直接干活，没毛病。

说远了，我们不建议大家去做这件事情，只是跟大家闲聊一下。回到AI时代的法律判罚问题上来。首先，传统大公司都是比较谨慎的，马斯克除外。第二，开源模型才是重灾区。平台方是有人管的，私有部署基本上就没人管了。但是呢，在海外还有一些平台方也是没什么人管的。就以刚才咱们讲的通义万象2.2为例，你在阿里的平台上，你下载出来的就是WANX 2.2，但是如果你到WANX.AI这个网站上，你就会发现那个上面还有一个模型叫WANX 2.2 no filter，就是不过滤。这个东西干嘛使的，大家自己按照文字的字面自己去猜去。

开源模型厂商通常使用知情同意书的方式，告知用户不要去做坏事，以此方式逃避自己的法律责任。儿童色情必须严判。Deepfake这不仅仅是淫秽物品那么简单了，你还毁坏别人名誉，这个呢现在各国也都是进行严判的，包括中国也是。严判国内的传播淫秽物品罪和传播淫秽物品获利罪还是很严苛的。在AI的帮助下，数量很容易就突破了。不论是不是AI生成的淫秽物品，就是淫秽物品，在国内判罚上基本上是这样认定的，你跟AI没关系，只要是淫秽物品我们就认。如果获利，这件事情基本上就没跑，肯定是会被判罚的。现在还有一些法官道德感非常强，遇到这种法官，律师们也是觉得头疼的。所以提醒大家，所有在国内的还请洁身自好，不要去触碰法律红线和一些人内心的道德底线。

这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

迪士尼起诉Midjourney不是为了彻底毁灭它，而是为了分一杯羹？深度揭秘AI版权第一案背后，从诉讼到股权和解的商业阳谋与未来走向。

Luke Fan — Thu, 19 Jun 2025 00:59:54 +0000

迪士尼环球起诉Midjourney，最终的结果可能跟大家想的不太一样。大家好，欢迎收听老范讲故事的YouTube频道。

第一次，影视巨头起诉了AI平台。前面也有起诉的，说你侵犯我版权了，或者是拿着我的画去复制了。但是呢，影视巨头参与到这件事情里头，这是有史以来第一次。2025年6月11日，迪士尼和环球影业正式向美国加州中区联邦法院提交了诉状。他们诉什么呢？Midjourney侵犯其版权。这事我们早知道，但是呢，大家要注意，甭管是迪士尼还是环球，人家真正要去起诉的东西，其实不是影视版权这些东西，而是什么呢？动漫形象的这些IP。比如说你今天做了个米老鼠，做了个唐老鸭，你没有得到人家的授权，这事就算是侵权了。

迪士尼跟环球呢，写了110页的诉状，其中详细列举了Midjourney生成的大量知名角色图像与原创视频素材的对比例证。这个不用对比，我们知道的画的很像。受保护的角色包括迪士尼旗下的星球大战、漫威超级英雄、狮子王、冰雪奇缘、辛普森一家等，以及环球影业旗下神偷奶爸里边这个小黄人、怪物史莱克、宝贝老板这些。在未经授权的情况下，大量抓取并利用其版权素材训练AI模型，允许用户持续生成这些知名角色的翻版图像，无底的剽窃深渊，这是给他们定的这个罪状。

而且呢，迪士尼说了，说你这个没有采取合理使用原则下的变通与避让。合理使用呢，是Midjourney、Stable Diffusion这些公司去应诉同类案件里头比较喜欢去使用的抗辩的条款。就是说我合理的拿了你的这些东西去训练了，因为你这些素材呢本来也是公开的，大家都可以用，那我也拿来去训练了，它是这样的一个方式。但是呢，要求什么？你可以用，你训练没问题，但是你在生成的时候，你还是要限制一下。所以呢，它里头讲说，这个Midjourney明知道用户在生成受版权保护的角色，却没有设置提示屏蔽或技术限制。你知道他生成的是米老鼠，你就直接给他生成出来了，连提醒都没提醒一下。但你说有没有能力提醒？肯定有。在美国大选期间，他是不可以生成川普的，现在可以了，因为大选结束了。所以呢，Midjourney本身是有能力去屏蔽的。

而且呢，忽视了原告此前发送的请求停止侵权的请求。前面给他发信了，说你别过分，但是完全不理你。Midjourney不仅未收敛，还公开预告即将推出商业AI视频生成服务。你还在变本加厉，越生成越好看，还要出视频了。

我们今天把你告了。诉求是什么呢？他的诉求是法院要发出禁令：Midjourney未能有效阻止用户生成受版权保护作品之前，禁止其继续提供图片，禁止其继续提供图像和预期的视频生成服务。你要不就把这事拦好了，你没拦好之前不许服务了。这是他们提出的诉求。

Midjourney目前为止还没有做任何反馈。如果反馈的话，大概也就是合理使用了，没有什么其他的反馈的，很难有什么新鲜事。之所以要专门讲这个案例呢，这就是第一次影视巨头下场诉讼AIGC公司，这个还是值得纪念的。

近些年来呢，图片生成模型被起诉的情况还是很多的。2023年，Getty Images起诉了Stability AI，也就是Stable Diffusion的母公司。这个Getty是干嘛的呢？它是做图库的，有点像咱们的视觉中国。起诉Stability抓取了超过1,200万张Getty受版权保护的图片，以及水印和说明，用于训练Stable Diffusion的模型。

我告诉大家，这个特别好玩。你现在使用Midjourney也好，Stable Diffusion也好，这些AI的文生图工具去生成图片的时候，经常在下边连水印一起生成出来，或者连底下的小标一起生成出来。有的时候你生成完了以后，后边还写这是什么微信公众号，或者是什么微博那个名字呀，或者写一个@什么什么的，一起生成出来。因为训练的时候是拿这些图片去训练的，你再生成的出来也还是这个样子。甚至有一些画底下有签名，这个都可以给你一起生成出来。

这个是第一次诉讼吧，也算是AI版权第一案。但是呢，这种图片版权网站呢，他们手里的这些量大，1,200万张吧，不像是迪士尼。他说我是有IP的，Stable Diffusion我就算是拿你这1,200万张训练了，训练完了以后，我再生成出来的照片或者图片，我跟你原来的1,200万张都不一样。他这个也是说得过去的。所以说，我这个合理使用也没有什么特别大的毛病。

这个案子到目前为止也没有宣判。现在这些AI影像相关的版权案子基本上都没有宣判的，都在等说这个到底怎么办，谁也不知道该怎么办这事。艺术家的集体诉讼呢，就一直在发生，从来没停过。OpenAI、谷歌、Midjourney什么全都被诉讼过。但是这种呢也很难有什么结果，因为生成出来的东西最多就看着像他，不一样。所以这个到底是怎么个判法，法院也很头疼。

为什么这次就特别不一样呢？IP形象。

你生成米老鼠，它就是米老鼠了。你一看这就是个米老鼠，这个事它是必然侵权的。还记得在GPT-4O出来说我们可以画图的时候，大家都去玩的那个事情吗？就是照一张照片，给我改成宫崎骏风格，给我改成吉卜力风格。这样的图片发出来以后，有极大的传播度。一堆人就去给吉卜力工作室写信去了，说咱告他吧。你看人家说吉卜力风格的这个画，就画的这么像，你这个风格模仿的非常非常好，而且有这么大的传播效果，这咱告他。但是吉卜力工作室就没有去告他，说这个风格这事咋保护呢？你虽然画的很像，你也用了我的名字了，虽然大家都觉得这是吉卜力风格，但是很难告赢，所以也没有真的去诉讼这件事。

而这一次迪士尼和环球的这个案子，有可能会做出一个相对明确的判罚来。那么各大图片生成模型对于这些IP的规避情况到底是什么样的呢？训练基本上你是没法限制。像前面一些艺术家去起诉的时候的诉求是什么？说请把你用我的画训练出来的这个模型删掉，你不要用我的画重新训练。这个事不可能。为什么？你连挑你都不好挑出来。几千万张画几百万张画，你去训练的时候，怎么能够把你这些画都挑出来？这个是基本无法实现的。所以训练管不着，都是在输出的时候进行限制。

输出限制呢通常是三种限制。第一种限制呢最简单，我在用户协议里头写。甭管是谁家的模型，一般用户协议里都会有这么一句：你可以用我的模型生成图片，但是不要侵犯别人的版权，不要侵犯别人的IP。但是写完了以后呢，怎么执行才是关键。我不看你怎么说，我看你怎么做嘛。再剩下的呢就是拒绝服务。你比如说你给我画一米老鼠，我不给你画了，你这是侵犯版权了。这是一种。还有一种是什么呢？就是我还给你画，但是画的不像你。比如说现在你要求Midjourney给你画马斯克，画出来的就不像。你让他画川普，画的很像。你让Grok去给你画马斯克，画的还是挺像的。反正是他们自己家的嘛，只要马斯克自己不找自己家的麻烦，也就无所谓了。所以这个它是可以进行这样规避的。

所以三条规避的方式：第一个是用户协议，你们不能干；第二个是拒绝服务；第三个呢等于服务失能吧，就是我确实给你画了，但是画的不像。我们去测试一下在生成照片的时候各家干的怎么样。我的提示词呢是生成照片：米老鼠、神偷奶爸中的小黄人、达斯维达、怪物史莱克在打麻将。这样的一个中文提示词，我说你们都给我画去吧。第一个出战的是OpenAI的GPT-4O，这个呢，上来直接拒绝服务。

说对不起，你违反了我的版权许可，我不能去给你做这个事情。这个属于做的很好的嘛，虽然我不爽。我希望他老老实实照我想要的画嘛，但是人家就说我不干了。然后呢，我去继续跟人聊天吗？你说你不干了，我就放弃了，这不像我对吧。我说你继续画吧，你用这个卡通角色，不要使用这个有版权保护的卡通角色，你规避一下重新给我画行不行？

第二次呢，他说还不行，我还不能给你画。后来我说你看看你能做点什么，努力做一下就行了，然后他就给我画出来了。但画出来呢还是米老鼠，这个你一眼就能认出来这是米老鼠，没有任何问题。所以规避了个寂寞吧，这就是OpenAI目前做的事情。但是呢，他还是很努力的去规避了一下。

再往后呢，咱们试试Gemini吧，谷歌的这个大模型怎么样？我把前面这个提示词，一个字不改扔进去。谷歌在用户协议里也说了，你不能违反版权，不能侵犯别人的权益。但是呢，我把提示词输进去，打完回车以后，二话不说就直接把侵权形象的图片给我生成出来了，还没有任何问题。

Grok，就是XAI的这个图像生成模型，本来人家做的时候就说我们没限制，你想画什么画什么。虽然在它的版权协议或者在他的用户许可协议里，他也写了说你不要去侵犯别人的版权。但是呢，我这边摁完回车以后，那边直接生成侵权的图片出来了，没有任何犹豫的，速度还挺快。

吉梦就是国内的这些大模型，虽然上面也写了不能侵权，但是呢，你也是回车下去以后，这个侵权的图片就直接生成了，而且画的还不错。吉梦生成出来的这个图片呢，比midjourney画的要差一些，但是比Gemini和Grok画的都要强一些。至于跟GPT4O比起来呢，我觉得现在比GPT4O还要再好一些吧。

而且吉梦还有一个比较独特的技能是什么？写中文，而且可以用各种的艺术字体去给你写中文，现在可以达到能用的状态了。至于另外两个，stable diffusion和Flux，这两个呢都是开源的。开源的我不负责任了，你拿到你自己的这个电脑上去，到底拿它干啥了我不知道，所以这两个就肯定是可以生成各种各样的侵权形象的。

最后呢，咱说说Midjourney。Midjourney特别有意思，同样的话扔进去这Midjourney，他纠结了。怎么个纠结法呢？米老鼠，达斯维达和小黄人直接输出了，没有任何问题。但是呢，让他输出怪物史莱克的时候，这个就化成了一个史莱克样貌的Yoda大师，那个怪物史莱克大耳朵大脑袋大嘴。

但是呢，它的表面是很光滑的。Yoda大师呢，头上是有褶的，而且是有毛发的。他就把两个形象给你凑在一起了。这个东西像Yoda大师，也有点像怪物史莱克。他是拼接了一下，但是呢，画的是真好，非常有感觉。

Midjourney还有一个问题解决不了。什么？他不知道啥叫麻将。他的麻将呢，画的完全看不出来。这个麻将他给规避了。其他的这些大模型，画的麻将都是很像的。Midjourney没画出麻将来。大家呢，可以看这个视频的标题。这个视频标题就是用Midjourney画的。这张图咱们自己看一下，还是挺有意思吧。

那Midjourney跟其他这些有什么不一样？你说大家都能生成，为什么迪士尼跟环球去起诉Midjourney？他不去起诉OpenAI，不去起诉谷歌，不去起诉马斯克，怎么就贴这么挑了这么一个来收拾呢？

Midjourney本身这公司就很奇葩。它呢，是真正做底层闭源大模型的。你像刚才咱们讲的这些谷歌、OpenAI，这是做底层闭源大模型的。Stability也是做底层模型，但是人家做的是开源模型。吉梦也是做底层闭源模型的。但是做所有这些做底层大模型的公司，都要融资，你要烧钱。但是Midjourney是不融资的，完全自给自足。我挣的钱够我花的完事了。如果我挣的多了，我就降价；挣的少了，我就涨价。呵呵，是这样的一个奇葩公司。

创始人呢，叫大卫·霍尔兹。他呢，是Live Motion的创始人。Live Motion呢，是手势输入的开创者。他拿一个小盒子贴在电脑屏幕上，通过USB连到电脑上以后，我们可以在电脑前头做手势，让这些东西都可以输入到电脑里头去。曾经呢，是红极一时。这个Live Motion呢，最高峰的时候大概融资了应该接近1亿美金吧。因为我看到有些数据是1.2亿美金，有些数据是9,000多万美金。融这么多钱的话，这个妥妥的独角兽了。但是呢，到2015年以后，这个公司就开始走下坡路，发现这条路不是那么走得通。最后呢，是这个公司被3,000万美金的价格直接给卖掉了，就算是作废了。

这个大卫·霍尔兹呢，是在比较早的时候，应该是在2016年就离开了，自己去创业。后来到2022年吧，创建了Midjourney这样的一个公司。估计也是原来跟这些投资人之间处理得不是很愉快，所以说我不融资了，自己挣钱自己花，我还自给自足了。现在这公司呢，应该是有个100来号人，那真的是很小而美的公司。估值呢，因为从来没融过资嘛。

所以，有些人猜测它的估值可能是二三十亿美金，也有些人猜测它的估值可能已经到上百亿美金了。因为你没融过资，所以它就没有正式的估值。

这公司的收入呢，就是订阅费10美金一个月到60美金一个月的订阅费。我呢，就是订阅10美金一个月的，已经订了应该有个两年了吧，反正一直在订着，确实好用。大家看到的我的这个背景，以及这个封面，基本上都是用Midjourney来画的。

它呢，有2,000万用户，200万的日活，2024年的收入是3亿美金。它就拿这3亿美金去花去。2025年Midjourney V7出来，马上又要出这个视频了，说我们继续去研究一下，怎么能够让大家把这个价格定好，让大家画的开心，我还不亏钱。

他们有一段时间说，哎呀不行了我亏钱了，他就涨价。像别人都是说你注册了我的用户，我先免费让你用几天，我再找你收费。Midjourney里没有，你只要是挂到他这上想去画图，第一天你就得交钱。最早的时候是有一段时间可以免费的，现在就是第一张就要交钱，没有任何免费额度，因为他怕亏钱。

那么这个案子呢，有可能会迎来一些大家意想不到的结果。为什么这么讲？很多人都觉得这样的案子出来了以后，是不是停止侵权了，罚一大笔钱，公司玩破产了。可能很多人是这样来思考这问题的。

我要告诉大家，这种大型的IP公司通常不这么干活。因为我以前经历过一次。我们原来呢投资过叫musicly的这样一个公司，也就是现在的TikTok。它呢，你想一定是使用大量音乐版权的。在我们投资的时候就问他说，你用了这么多唱片公司的音乐版权，你是花钱买呀，还是得到授权呀，还是怎么弄？人家说等着看呗，我们走一步是一步，用户少的时候你费这劲干嘛？等我用户多了以后，等到人家找上门了我们再说。

我们就等，等到他们再拿了两轮融资以后，这些音乐版权公司就找到他了。几大唱片公司就冲上来了，说你用了太多的我们的版权了，你不能这么干。那说那和解呗，我们商量商量怎么办。你让我直接按照你这个版权授权给你钱，这事我肯定受不了。而且呢，你以后想去做新的唱片推广，想去做音乐推广的时候，你也要依赖我的平台嘛，咱们相互之间怎么妥协一下呢？

双方就都比较明白，是谈生意来了，不是说真的你死我活来谈诉讼来了。后来的结果也很简单，musically拿出了一部分股权，说咱们这个也算给你一个赔偿吧，也算是一个授权。大概是每家的这个唱片公司给了一些股权，给的很少。

大概是1%点几还是0%点几，我忘记了。你拿到我们的股权以后，你算是我们的股东了，你就直接把你的所有的内容授权给我，我去帮你推广去，我去帮你卖去。他是变成了这样的一个结果。

所以，Midjourney的这种诉讼结果可能也会照这样办理。因为艺术家想干的活是，你把我的素材都删了，用我的素材训练了这个大模型，这事都不行。至于说版权网站，你比如说像刚才英国这个案子，后边是个版权网站，他就是收版权费的，就跟中国的这个视觉中国干的活是一样的。他想干的活是要钱，你要给我一大堆钱，你拿我的这个模型图片去训练了，正常的应该多少钱一张授权，咱们单独谈一个授权协议。

而这些影视公司和真正的IP公司呢，他们想要的东西是不一样的。他们想要的东西是第一个，你还是要去给我宣传的。你说以后Midjourney再生成所有图片就没有米老鼠了，这事不行。因为未来一段时间，肯定大家会把流量转移到AIGC这边来。你就像为什么唱片公司会说，我拿你一些股权，我就授权musically可以使用我的版权了呢？因为他也看明白了，未来的这个流量一定会转向TikTok，总有其他的这些音乐会在上面流行起来，那我不亏了吗？我一定要站住这个阵地。

所以呢，IP公司的思维方式跟版权销售公司、跟画家的思维方式是不一样的。所以大概率会按照music这样去搞吧。但是呢，这事没那么快。这种事情你只要开始去诉讼呢，一般会折腾个半年、一年，甚至更长一些时间的可能性都是存在的。而且呢，这个案子有可能会成为标杆案例。你像美国、英国都是判例法，前面这些案子都没判下来呢，都等这个案子看怎么判。

而且，迪士尼跟环球呢，如果拿到了Midjourney的一些股份，做出和解的话，对于他们来说也是有好处的。Midjourney呢其实也很难独善其身。你像现在他这个状态，说我不融资，就这么慢慢往前发展。他达成了这种版权协议之后，有可能还是会被并购的，或者在等版权协议达成的过程中，就有可能会迎来并购。

你像musicaly当年是达成了版权协议以后，被这个字节跳动收购的。它达成版权协议的时候，估值大概是1亿美金，字节跳动直接冲上去，10亿美金给买下来了，包括他前面这些版权授权一起买下来。这个也是它整个价值的一个体现嘛。现在惦记Midjourney的人肯定也不少。这样的一公司，从来没有拿过钱，还做的这么好，一堆人肯定惦记冲上去买。最容易冲上去，砸大钱买这种公司的人是谁？

就是扎克伯格的Meta，他最喜欢砸钱去收购项目了。Meta AI现在呢，穷的光剩下钱和显卡了，其他的都稍微差那么一点点。如果它真的冲上去，花个多少亿美金去把Midjourney买下来，然后把这个案子直接给它做成一个股权的授权协议，那这个事儿对于整个未来行业的发展都是非常有好处的。

Midjourney的未来呢，还是值得期待的。V7已经上升一个台阶了，现在大家看到我的背景、我的封面都是V7的了，这个绝对值得期待。我这三天每天都在花很长的时间帮Midjourney的视频去打标签。他的训练也很简单，就是你来帮我去标注，你觉得哪个漂亮你去打标签。打完了以后呢，他拿这些标注的结果去训练他的模型，效果非常的好。

我现在打了3天标签，完完全全被Midjourney生成的视频震惊了。它可以不光是生成真实的视频，它还可以说我给你画一个油画，我让它动起来；我给你画一个水彩画；我给你画一个水墨画；或者我做一个剪纸，然后都可以非常流畅的、非常符合逻辑的动起来。而且它整个的稳定性非常高，因为视频最怕的是稳定性差嘛。你从前头动到后边，这个人从前头是迈左脚，到后边这个左脚就不见了，这个事情是很多其他的这个视频模型经常爱干的事情。但是Midjourney至少让我去打分的这些，它生成的视频没有这种情况。它的逻辑自下性做的很好，稳定性做的非常好。而且呢，秉承了Midjourney一贯的传统，它的感染力和传播力都极强。

现在的Midjourney呢，就头疼一件事，就是到底怎么收费。收完费以后必须一保持盈利，我不能亏钱。

好，总结一下吧。迪士尼跟环球起诉Midjourney，是一个标志性的案件，是第一次影视巨头起诉AICC公司。大家都在擦边，只是程度不同。环球和迪士尼，他不去起诉OpenAI，不去起诉谷歌，不去起诉马斯克，估计也是惦记要这个Midjourney的股权。你像OpenAI，3,000亿美金了，你能要回多少股权来？你要不回来多少，而且人家有可能跟你死磕。但是Midjourney这样的公司，其实还是比较好欺负的。最终的结果可能就是Midjourney会出一定的股权，最后呢皆大欢喜。

等过几天Midjourney出了视频功能以后，我大概率会去升级套餐吧。好，这就是今天咱们讲的环球迪士尼起诉Midjourney的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。

也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

设计师的未来已来？Lovart垂直AI Agent震撼体验，从Midjourney到多模型协作，揭秘AI如何颠覆传统设计流程与商业模式。

Luke Fan — Sun, 01 Jun 2025 00:41:19 +0000

设计师这次是不是真的要失业了？咱们从Lovart这个为设计师专门设计的垂直agent来看看AI agent在垂直品类里的一些玩法儿。

大家好，欢迎收听老范讲故事的YouTube频道。Lovart又一个现象级产品出来了，设计师专用的一个垂直agent。它呢没有Manus当时引起的那么大的动静，但是呢，我用了一下，感觉比Manus这种泛agent还是要好用一些。

什么叫泛agent？就是它啥都能干。Lovart这种能够专门为设计师工作的agent呢，它就是垂类agent，它其它事干不了。你说你给我去写个文章，给我去做个总结，这它干不了。但是你说你给我画个画，做个视频，设计一个PPT，设计个海报，做的可好了。他们设计的产品在x上被马斯克亲自点赞。因为这种设计类产品嘛，一个图片什么的，你要设计的非常好的话，确实会引起大佬点赞。很多的使用者也是惊为天人，我去使了一下，确实是很神奇，能够解决非常多的问题。

什么叫设计师垂直agent？大家知道AI agent它可以自我规划，可以调用各种工具，然后完成一个完整的工作。最早的这种AI agent就是从生成图片开始的，Midjourney现在的话应该是Google imagine 4 GPT image，stable diffusion Flex这样的直接生图片的模型还是有很多的，最早也是从这开始。但是这个东西有一个很大的问题是什么？就是很难控制。你说我希望有稳定性，我每一次生成的这个人都要长成一样，我希望写字写对。即使是现在写字写的比较好的，比如说像吉梦模型或者是PPT的模型，但也经常还是会写错。所以我们使用这些模型的时候，经常的工作流程是什么样的呢？先画，画完了以后呢抠图，再到一些像Photoshop或者像我用Canva这种可画的平台里边儿再去拼，然后再把这个人把字儿重新拼在一起。既然这个流程已经确定了，找个agent把它整个儿都串起来，不就完事儿了吗？

再往后发展呢，就是一些可以进行串联，或者说进行一些工作流设定的一些产品。比如说像设计圈里的Confy UI这样的一些产品，你可以把这个工作流画好，它就按照这个工作流整个跑一圈下来。文字生成里头呢，用的像Defi code这种其实也是这种工作流设计软件。现在新的时代到来了，就是自我规划的agent。比如说像文档，各种的deep search。

Deep research这样的东西，你给他提出问题，剩下的该去查哪些网站、该怎么总结、该怎么去分析、如何去校对、如何减少幻觉、如何去把结果做得更漂亮，人家一次搞定。现在就是新的Agent的时代已经到来了。

这个为设计师工作的Agent呢，也走到了这一步。从最早的单模型Midjourney，到Confy UI这样的工作流设计的流程，到最后说干脆我一次给你搞定。现在Lovear就是这样的一个产品。

它呢，把一大堆的模型放在里头，比如说Flex、Google Imagine 4、PPT Image、Flex这些都放进去。这个里头没有Midjourney，Midjourney那个东西不是特别好控制。然后把音乐和音效生成搁里头，你说我最后要出视频，那我需要给你配乐都有，包括一些TTS的阅读也都放在里头，就是数字人的这种也都搁在里头。

视频生成模型，他掉的是可灵1.6，是快手做的视频生成模型，效果也还可以。我已经把模型搁这了，下一件事就是提要求就完了。你说我今天想要一个YouTube的封面，或者我想要YouTube里边的一个小的动画，你提要求就完了。

剩下的这个Lovart就自动地规划路径，还去调用一些推理的模型，比如说GPT O3这样的模型。它推理一下说，我到底怎么把这个路径规划得更好呢？再调用刚才我们讲的Flex呀、GPT Image呀、谷歌的Imagine，然后生成音乐，生成视频，配在一起。

最终呢，完成一个相对比较复杂的任务。而且还有很多Photoshop呀，或者Canva一些功能也搁在里头。这什么功能呢？就是图层。你说我现在要求在哪个图层上干哪些活，要求在什么地方写什么字，他就直接给你写就完了。不要让这个大模型再去费劲给你拼字去了，反正他也拼不对，咱们就别费这个劲了。

所以这个就是一个很完整的设计流程，一次搞定。真的是一个中国团队的产品，虽然这个团队在硅谷，但是呢，确确实实是个中国团队。他们最上面的一个公司呢叫Lab Lab AI。

这个Lab Lab AI呢，是中国最活跃的Stable Diffusion的社区。他们干嘛呢？就是把大量的Stable Diffusion上用到的Laura的这种微调的模型，都放在这展示。展示完了以后呢，我们去交换这些训练出来的这种微调模型就可以了。也有一定的商业模式，但是呢，发展的不是特别好吧，虽然很活跃。因为大家最后还是要去看说……

是不是能够形成正向的商业模式？好在是中国在做这个电商，做这个各种网红经济。在这一块，需要的设计师的量非常大，或者说设计师工作非常多。所以呢，他们也还是在运转。前面融资呢，也融了一些。后面呢，是找了一个很著名的创业者，开了美国的分公司。所以呢，Lovart这个产品是lablab.AI美国分公司做的。他们找的这个创业者，就是Lovart的创始人和CEO呢，叫陈冕，官冕的冕。他呢，是摩拜单车的产品总监。离开摩拜单车以后呢，是剪映和Capcat的全球商业化负责人。2024年离开剪映跑来去创业，做了一个叫Lovart的一个产品，做的还是相当不错的。

口说无凭，咱们来看Demo，看看我用这玩意干了些什么。这就是Lovart的首页。这个设计师做的页面确实是好看，比我们这些程序员直男做的东西要好看多了。这个它的页面就是lovart点ai。现在很多都是AI开始的域名。想要玩这个东西，要有一个邀请码，或者是加入等待链接。我是加入waiting list，等了一周左右得到的邀请码。我现在还有3个邀请码。get start就进来。我会把三个邀请码放在视频的简介里。如果大家想要去玩的话就拿三个邀请码去用啊。但是因为是会员先看到，所以可能公布到公众频道的时候，这个邀请码就已经用完了啊。也欢迎大家拿到新的邀请码以后，分享到我的评论区里头。

大家看到我现在已经没钱了，已经把所有的信用点都花光了。一共上来是给了1,000点。他是拿到邀请码给500点，每个月给500点。我要想再画要等下个月了。好，跟大家看一下他的一些干的活。这个就是我用了1,000点得到的这个结果。上来，请设计YouTube 16:9的封面视频。封面频道名是老范讲故事。视频题目是老范读评。这是每周三晚上8点的直播节目，读一周的观众评论。加上以我照片生成的皮克斯3D风格的角色设计。这是我写的提示词，给了一张照片，他就干活去了。说我先想想，我先思考一下这个活要怎么干，分析一下。说我应该是一个什么样的照片。可能呢，调的是GPT O3做的图像推理。推理完了以后再去调用这个知识库。我有哪些知识，是吧？这是一个哪样的一个设计建议啊？要用GPT image，要用这东西来去做皮克斯3D风格的角色，再加上这些文字要求，画到16：9的横纵比。结束了。这个是他做的一个规划。再去说，我这是一个创意了，我要去创意了。

这个皮克斯3D的东西应该怎么做？自己夸夸夸想去了。“老范读屏”这几个字55%高，要写在什么地方？周三，呃，20点直播，要写在一个什么样的字体？写在哪儿？底下，右下角要写“老范讲故事”。背景应该是一个橙金色的渐变色，而且是有一些什么样的要求？他就一个一个的去给你做去了。然后颜色，主颜色是什么？高亮颜色是什么？你做了一堆这样的要求。原型，一个什么样的东西啊？要写中文，要什么sans，应该是宋体，大概是写黑的。自己去研究了半天，就开始创建图片，干活去了，得到了这个图。现在不知道为什么他把这个大的删了，肯定还是成本问题。让我们来看一下图，就给你画成了这样的一个东西。这个还是很可爱的。“这个老范讲故事”这个“事”字写得稍微有些问题啊。“周三20:00直播”是“老范读评”。大家发现这东西有问题了没有？除了这个“故事”的“事”字写错了之外，还有问题。哪有问题？他不是16:9的，他是3:2的。它这个图的分辨率是1,500*1,000，实际上是3:2。为什么会成这样呢？因为它最后的这个背景图是拿GPT生成的，GPT到头就是3:2，再大的横纵比做不出来了。这是GPT的一个bug。也有问题，这个说你生成的是3:2的，不是16:9的。这是GPT 4o的一个bug，只能出3:2。我理解了，这个有个问题，让我再去做16:9。反正做了半天，他又做了个3:2的图出来，稍微改了改，大概是长成这样了。这个反正能使呗，到时候我再把这个脑袋抠下来，再把这字抠下来，回头下个礼拜读屏的时候，咱就用一次啊。反正也是挺好玩的，一个图就做出来了。但是大家看到的是什么？一句话，我真的是写了一句话，他就做了一个基本凑合还能使的东西。这就是这句话。你说设计师是不是要失业？你像我就是个写程序的直男，我就可以做到这样的结果了。设计师就会稍微有一点点痛苦了。他们的设计的一致性，这种反正我觉得还是有点美感的，设计出来还是可以用的。你看这个胖子还是有点点可爱的嘛，笑得多喜庆。好，咱们再看另外一个demo。这个demo是我让他去画，画视频去了，因为这东西是可以直接出视频的。看，我也是给了一张自己的美照，说：“给我一段视频，YouTube求点赞、关注、点击小铃铛的，用我的形象，生成泡泡玛特风格的人物形象，求点赞、求关注、求小铃当，时长5秒，绿色背景，方便抠图，统一用泡泡玛特可爱风格。”他就又想去了。这次他是使用了Flux，用了这个模型去生成的。这个像吗？

反正泡沫马特风格，大头，而且是这个。大家看这个塑料材质，至于像不像我，这个事就无所谓了，这个不重要。画成这样了，我也不好意思说它像我了。

调用可灵的视频生成，生成了5秒视频。你看，这个就是5秒视频，他就生成声音去了。这个声音其实做的很烂：“like subscribe and click the notification bell”。你看这是点赞、呃订阅、点击这个提醒的小铃铛，大概讲了这么一句话。把这俩东西给我拼一块吧：“like subscribe and click the notification bell”。我觉得不是特别满意，我说啊，别说话了，这个说的太难听了。

配音效加上3D的泡泡玛特风格的点赞，大拇哥的订阅小铃铛换成16:9的，人物要戴上眼镜。他又思考干活去了。这回呢，人戴眼镜了，这没毛病。给我生成了个音乐，这个是成出来的，它里头是有音乐生成的，大模型的，生成了一个视频。这次呢，有小铃铛，但是他这个小铃铛画的就很怪，他没法理解什么是点赞。这个看来可灵在这块还是稍微差一点点，5秒钟搞定。

我说这个做订阅的和小铃铛，这个点赞的3D形象太奇怪了，看不出来是做什么的。去网上搜索一下，它是可以搜索的，这个Agent可以搜索。而且也别来音乐了，改音效：鼠标点击声、气泡破裂声和铃音，给我改三个音效出来。他首先出去搜索了一堆，说这个是该干的，但是他并没有把它做得很漂亮。自己想了半天，又给我生成个头像，这样的头像。这次，他给你整了段音乐回来，说我来给你生成。你说他搜索了一大堆，你不知道他怎么想的，说我给你变成这样的点赞和订阅了。有的时候确实比较难以理解，让他自己配了段音乐给我加上了。不对，16:9你也没做出来呀，对吧？

我再接着提要求，我说这个按钮用这套，我干脆在网上搜了一套。其实刚才自己也搜出来了，用这套：订阅、点赞、评论、转发、小铃铛。静音，别给我配音乐了，后边我自己去配声音就完事了。把视频延长到8秒，但这个后来发现失败了，可灵最多也就是5秒，做不出8秒的来。他先分析一下，因为GPT-o3是可以进行图像推理的，他把我给他那张图片整个分析了一下，说没毛病。又生成了个头像，这次这个头发稍微长一点点，还是戴着眼镜的。说来给我生成，不知道他是为什么，整成这样了，就完全乱掉。呃我觉得已经可以用啊，怎么用啊？把这三个位置给它替换了就完，还是在剪映里，已经可以干活了，再生成。

他说：“我再稍微调整了一下，又换了一种。这次是生成四个小格了，这是四个小头像。到时候我到剪映里头，可以把这四个小头像换成点赞、小铃铛和叫做订阅，还有其他的，比如说评论啊，你就可以来做这个事。到时候自己去替换就好。”

他说：“我现在要去给你做8秒了，但是大家看下头，还是5秒，也就如此了。”他又给你稍微的细化了一下，各种生成。到这儿生成完了以后，又生成了一个版本。他说：“我给你做成这样了。”到这个版本生成完了，我就已经把这个给的1,000点就耗光了，就到这里就使完了。说：“你现在该交费了是吧？不交费不让使了。”

那么我们来看一下它的收费标准。这是零点儿，点击upgrade，这里就是收费标准了。我现在是0，它等于是上来给了500个信用点，有500个额外的限时的bonus，我就得到了这样的一个东西。下个月是不是还有啊？这个就不确定了，他反正没有写清楚。这个看吧，反正我现在把它使完了，是10个agent、125个GPT的图像生成、2,000个Flux图像生成、28个可灵的视频生成。我肯定没用到这么多，但是我确实把1,000点使完了。有限的模型使用，就是这个规则。

19美金一个月呢，是2,000点，每个月2,000点，再单独给2,000点。在第一个月单独给2,000点，就是你交了19美金就得到4,000点，下个月补2,000点。他是这样来工作的：40个agent、500幅GPT的生成、8,000幅Flux生成、111个可零的生成，无限的模型使用。这是可以有商业的license。你像我刚才这个就没有商业license，就是我生成的这些内容是不可以做商业使用的。那我交了钱以后，就可以去做商业使用了。当然还有更贵的了，这个收费标准我就不去评价。

Demo看完了，后边我们来讲一讲这种垂类的agent到底是不是一个方向的问题。现在呢，所有的泛agent的这种效果其实都差强人意。虽然我们使用文档、使用COS空间这样的这种泛agent，或者是grok的这种deep search、Deep research或者Deeper research，所有这些东西你都搁一块儿去使，你发现什么呢？就是你让他们去进行信息收集和总结的时候呢，效果还行，但是有的时候幻觉也是很厉害的。因为我被这玩意坑过好多次，生成的结果呢总是不是那么满意。而且像这种东西，你一开始提出任务，后边他就吭哧吭哧干去了嘛，而且干还干很长时间。

经常是干20分钟，你想在中间打断他，想在中间去补充一些信息，想在中间让他去调整个方向的话，没有办法。你必须让他把它干完了以后才能去调整，所以效果并没有那么好。虽然有很多人说：“你看我们给你一个什么筛选简历，给你一个什么样的案例，效果好极了。”但是这可能就是他们一开始设计的几个案例，就比较适合干这个事。大量的这种案例效果并没有那么好。

因为我现在是每天把各种的AI agent都跑起来，让每一家都给我去收集一遍，结果再去做比对，发现也还是挺累的。为什么？因为这东西话痨。就是你让他去收集了一堆信息了以后，啰里八嗦讲一大堆，而且经常里头是错的。你说你给我按照一个比较好看的方式给我展现出来，这个效果呢也就都将就吧，反正能算是有一点点设计，但是还是挺难看的。所以呢，这种泛agent效果真的不怎么样。

而且现在这些泛agent还面临着什么呢？就是这些模型厂商直接自己上各种深度研究、深度搜索的这种功能，直接把它覆盖掉了。你跟这些玩意比，你没什么优势，因为毕竟人家是模型厂商，对于模型更加了解。你在外面去做这种修修补补的事情，效果并没有那么好。你想说我出一个单独的这种视觉效果，或者出一个网页表现什么的，这块也都差强人意。毕竟咱们原来讲的叫模型及应用，谁做了模型谁就有应用。OpenAI、XAI、谷歌都在不断的去侵袭这些泛agent的这种领地，所以他们的日子其实并不好过。

那垂类的agent到底是不是可以逃脱被覆盖的命运呢？原来我们都讲说，ChatGPT更新了升级了，一堆人失业了，一堆创业项目死了。但是呢，垂类的agent会稍微好那么一点点。垂类agent干嘛？第一个就是专属知识库。我把一些特定的知识库专门总结出来，让他可以在里边去做RAG。就是我们通过一些特定知识库在里边去搜索，会得到更准确、更符合这个行业要求的结果，这是一方面。

第二个呢就是专属的提示词库，或者是干脆训练小模型。你可以让agent的规划做得更好。咱们以今天讲的这个Livechat来为例，他就完全可以做一个专门的提示词库。我就告诉大家说，咱们是如果是做哪些事情的话，应该先调用哪个模型，再调用哪个模型，哪个模型的这个提示词应该如何去写。这些东西是一堆设计师在里边去做的，他按照设计师自己的这个工作流程去给你设计这些提示词库。这个效果还是比这种你直接告诉一个ChatGPT，说来去给我设计提示词去吧。

给我设计流程去吧，要比这个效果要好。毕竟是真人有工作经验。在这里有些说，我需要大量的出这种规划，就是这种流程。规划的时候干脆就设计个小模型，你拿这些小模型直接出设计规划，效果会非常好的。

那么多公司的模型配合工作的，也是这种垂类agent的一个特性。因为刚才我们讲的就是大模型公司，想去覆盖这种泛agent的市场，它一定是什么？就只能调自己家的模型。openAI说我想去调谷歌的Gemini，这肯定搞不定，因为openAI它自己也不会干这个活。谷歌说想去调XAI的grok也不行。但是这些agent公司它是可以的，它是中立的。我可以把一大堆的模型串在一起，让各自干各自最擅长的事情。他这块还是有一定优势的。

特别是在做图像生成的时候，现在图像生成这个领域，还不像是比如说代码生成，或者文字生成。那些领域里头大家在你追我赶，而且跑得很快，相互之间也没有说谁会绝对领先，或者在哪一个领域里头特别的领先，其他人无可替代。所以你并不需要说，我把所有的模型都跑通，才得到一个最好的结果。都用openAI的也可以得到很好的结果，都用谷歌的也可以得到很好的结果。

但是图形这块儿不一样，midjourney、GPT、谷歌、Flex、stable diffusion各有各的长处。每一个模型有自己能够干的最好的这个事情。它把这些东西串在一起，能够去形成一个完整的agent流程的话，确实是可以解决很多用单一公司产品解决不了的问题。所以呢，这种垂类的，特别是像画图这样的这种工作，它的这种a站的产品，是有一些护城河的。它的护城河要比刚才我们讲的那种泛agent的要强一些。

其实有一个这种垂类agent的典型案例，到目前为止还是跑得非常快。这个典型案例叫cursor，就是AI编程现在跑得最快的。它真正强的地方不是它里头使用的cloud 3.7、cloud 4这些模型，它真正强的地方是它整个有一整套的符合程序员工作流程的提示词库，自己也训练了一些小的模型去配合各个模型在里边去工作。所以这种垂类agent确实是有机会的。

但是垂类agent的日子也没有那么好过。为什么这么讲？垂类用户，你既然叫垂直了，潜台词是什么？一定少嘛。你说我是泛agent，我什么都能干，那一定是很多的用户都有需求。你说我就是做设计的，那你说我没有设计需求，那肯定不是你的用户。所以它的用户量比较少，成本很高。

因为你调用的模型都是别人家的，像刚才我们讲的Lovart这种。你看看他这个收费标准你就知道了，他的不同的套餐收费标准里头，代表的是不同模型调用的次数。你像我现在已经把我的所有送的点都用光了，所以他的成本是非常非常难控制的，因为所有都在外边，也没法随随便便做补贴。烧钱他也烧不起，因为做这种特别是设计类的、多模态生成类的，这种模型本身对算力要求都非常高，必须要玩付费转化率。不付钱没法整，因为你没有办法说我大量免费，不停的吸引新用户进来转换，你必须要付费。那么它的启动就会比较难，它的收费规则制定也很复杂，因为你调用这么多家的模型，各家都有优惠，有什么其他的一些收费标准。你要把所有这些收费标准融合在一起，然后放到你这个整体的收费标准里头去，这个事也比较麻烦。

而且呢，他们还有一个成本非常高的地方在哪？他的研发成本也很高。你说这帮人都不去做自己的大模型，都调别人的模型，就是一帮写提示词的，他为什么研发成本高？他们需要干一个特别恶心的事情，叫跟模型。原来我们叫跟核，以前我们做，比如说浏览器底下是Chrome的核，我们需要去跟这个核。现在我们跟这么多的大模型一起打交道，这些模型每天在这升级，你就需要跟所有的模型。这两天比如说Flex新出了一个版本，叫K O N T E X T，可以实现一致性提升。而且他那个一致性提升，非常非常多的细节是掌握的更好。你现在想要把它用上，就要赶快派人去做研究，做研发，这个是非常非常累的。

原来我在Borland做Jbuilder的时候，也是这块儿非常累。为什么？因为当时我们需要去应对各种各样的j2ee的中间件，weblogic的、Oracle的、IBM的，还有Borland的自己的VC broker。这些东西他每天都在升级，那你升级了以后，谁升级了你都得跟着升级，要不然的话你没法支持最新的版本。他这个就很累，你等于非常多的研发成本要在里头，而且最后卖钱，你可能还卖不出这么多来。所以对于这种做垂类的agent的人，这一块的研发成本还是非常高的，而且是个辛苦钱。

还有一个比较讨厌的什么？就是烧钱。跟所有大厂比起来，他们都烧不过人家，所以这一块也是很麻烦。最后一点，如果做大了，容易被大厂惦记上。比如说现在编程这一块儿的垂类agent，windsuf已经被OpenAI收了，cursor现在长得很大，那微软说那我收拾收拾你吧。

GitHub Copilot直接集成到VS Code里头，而且GitHub Copilot直接把Agent的功能全加进去。我就要把你挤死，这个对于Cursor来说，也是有很大的这种压力的。而且其他的大厂，比如说像字节跳动出Trae，阿里也出了0码IDE，就是把它原来的编程插件直接集成到IDE里头来。那这一块的话，对于这些做AI Agent的厂商来说的话，也算是个幸福的烦恼。

什么叫幸福的烦恼？你做的小没人理你，做大了才有人去理你。

最后咱总结一下，垂类Agent其实就有点像中国人的移动APP。为什么是中国人的移动APP？移动APP这个市场里头，大量的排在靠前面的都是中国人做的。为什么呢？就是我们喜欢干这种工匠精神的事，叫知其然而不知其所以然。我也不去研究背后为什么，我就在前头去修修补补，去绣花。甭管是跟核也好，还是跟模型也好，做这个辛苦活，这个事是中国人擅长的。所以，干脆咱就拼勤奋，拼细节得了。

你说我吭哧瘪肚0-1去训练大模型，这事我们搞不定，而且现在芯片还不是那么好使。干脆你们都去训练大模型，我来想办法把这些模型凑在一块，解决一些实际问题。这一块确确实实是中国人比较擅长的。太多大厂懒得做，或者无法投入很多资源去做的领域里头，中国人就可以在里边找到机会。在某一些垂类领域里头，就可以做出一些有趣的产品来。

很多方向的机会，做这种垂类Agent的机会，就跟做APP差不多。举几个例子，比如说Keep这样的健身APP。你说我现在直接给你做成垂类Agent行不行？没有任何问题。营养师的健身教程，再加上训练私有的这种小模型，或者说我去做健身相关信息的这种垂类知识库，把这些东西搁在一起，再去做一些健身课程的规划和设计，健身数据的输入，再拿这个东西进行一对一的去指导。

或者是一些教学类的垂类Agent，比如学英语的，或者是学一些其他课程那种垂类Agent，都是可以做得出来的。或者是旅游行程规划。我最近因为有无人机了，老惦记出去玩儿去，那我就得用各种的泛Agent去测规划，发现巨难使。

我说我现在想规划一个从哪哪出发，到什么什么地方去，到那个地方怎么去玩，怎么去停车，怎么去充电，哪个地方是拍照打卡点，哪个地方是无人机的摄影打卡点，那有什么吃的什么玩的，有什么样的历史古迹，有什么故事，你去给我总结一下。每一次都啰里八嗦，给我整一个几万字的小作文。

弄完了，我连看都懒得看。看完了以后，发现也没有任何直接执行的可能性。为啥？因为写的非常多的东西都是错的。

如果这个东西你把它专门规划好了，做成一个agent，那肯定有人愿意用。或者拿机加酒挣钱就完了，就是买机票和酒店去挣钱，这个都是很好的创业方向。

医疗陪诊：我今天想去看个病，那你是不是可以调用各种医疗系统，帮我去挂号，帮我去选大夫，帮我去处理各种各样的检查结果？这个事是不是OK？

包括视频剪辑：Lovart的创始人叫陈冕，原来是剪映的。现在剪映也准备专门出垂类agent，叫百灵鸟还是叫什么，现在可能在安卓平台上在做，等他出呗。你像我们每次剪辑视频也可麻烦了，美颜一下，调个颜色，然后做音频的处理，这些东西直接上agent不就完事了吗？做一个垂类agent，这块可能在今年就可以看到。

而且在这块，剪映也好、快手也好，可能都会往前冲。因为剪映后边有吉梦，快手后边有可灵，他们自己这样的模型就已经做得很好。所以他们很有可能说，我把自己的剪映客户、快手客户，加上自己的这些模型，拼出一些垂类agent来，那这块也是可以期待一下的。

但这个大家就可能做的时候稍微小心一点。你跟剪映这种公司碰上，或者跟字节跳动这种公司碰上，比较痛苦。多选一些其他的品类，大家就可以在这儿去思考说，我这个行业里头，是不是有机会做一些垂类的agent出来，做一些有趣的、有价值的产品出来。虽然用户量不大，但是大家愿意付钱，让整个商业模式可以跑通。

这就是今天我们要讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Disco讨论群。也欢迎有兴趣、有能力的朋友，加入我们的付费频道。再见！

英伟达黄仁勋CES霸气登场！鳄鱼皮夹克发售5090显卡，钱包快捂住还是准备剁手？

Luke Fan — Thu, 09 Jan 2025 00:39:50 +0000

黄教主已经在CES上吹响了号角，准备好钱包了没有？大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲CES上，全村最靓的仔黄仁勋。黄教主都发布了一些什么东西？我们是不是要准备好钱包去买东西了，还是说咱们稍微冷静一下？

现在AI嘛，市值最高的公司英伟达，作为英伟达的老板，黄仁勋在整个的CES大会上一定是最靓的仔。其他做AI的人，可能还没有他这么风光亮丽。为什么呢？因为CES呢叫做消费电子展，那些做云计算的人，你们靠后站。黄教主是要来发布游戏显卡的，他是来玩消费的，这个还是有很大差别的。而且整个的AIGC玩了两年多，唯一挣着钱的就只有黄教主自己了，其他人都在这赔本赚吆喝呢。所以呢，人家一定要风光亮丽的跟大家做一个演讲。

咱们先看一下皮衣教主，因为他走到哪穿个皮衣嘛。他这个皮衣呢，这一次是一件新皮衣，不是以前穿过的这些旧皮衣。这个叫Tom Ford设计的一个皮衣，这个皮衣呢叫鳄鱼皮印花皮夹克。就是我们可以看到这个皮夹克上有很多非常大的花纹，这个东西呢叫鳄鱼皮印花。就是你如果买了什么鳄鱼皮钱包或者是鳄鱼皮的皮鞋，上面就是这种大花。我还真没见过鳄鱼皮夹克，他这个皮夹克呢应该不是鳄鱼皮的，应该是牛皮的，只是呢把这个大花纹给你印上了而已。

但是这个夹克也不便宜了，8,990美金一件夹克。但是这个对于现在全世界市值最高的公司的创始人和CEO来说，不穿这样的夹克，估计也真的压不住场子了。首先上来讲的第一个，肯定还是数据中心业务。虽然这是消费电子展，但是数据中心业务才是英伟达现在真正的核心价值。那么消费电子展呢，游戏显卡是跑不掉的，5090这个一定要上来好好跟大家show一下50系显卡。

然后呢，是整了一个非常奇怪的新品，叫project DigITs。这个东西长得像Mac mini那么大的一个超强算力的AI主机，因为看Mac mini卖的很好嘛。

所以，要出来跟大家show一下。后边呢，还做了一些软件部分的发布，这一部分基本上可以忽略不计。至于其他机器人的部分呢，2025年我们看到成品满街跑的，这个可能性也不大，所以我们就后边省略掉了。

首先，黄教主上来以后，先举着一个大盾牌，把一堆的芯片拼成盾牌那么大，就像美队一样，举着个盾牌就上来了。这个东西是什么呢？叫Grace Blackwell NV link 72。当然了，GBNV link 72呢，长得并不是真的这个样子，他只是说跟大家表演一下这个东西，把芯片铺开了应该是这样。

英伟达的显卡一般叫B开头的呢，就是它的GPU，就是Blackwell框架，黑井框架。说B200、B多少，这就是GPU；G开头的呢，实际上是CPU，叫Grace。这个东西呢，是ARM的CPU。所以呢，这个叫GBNV link 72呢，就是36个Grace CPU，加上72个Blackwell的GPU拼在一起，加上这种高速连接，整个拼一块儿以后，做的一个高性能运算的主机。大家可以在这个上面去训练模型。

它呢，现在只是把这些东西都拼成了一个盾牌的样子，给大家看一眼。如果真的是一个这个GB 72这种东西的话，它是举不上来的，那个机器拼在一起是1.5吨。但是消费电子展呢，给大家看这个意思不大，看过了就知道了。

现在数据中心是谁是老大？今天的真正重头戏5090、5090D、5080、5070，也就是50系显卡。前面的40系显卡、30系显卡，我电脑上是一个3060，我儿子电脑上是4070。什么时候会去长这个数呢？就是他的显卡的架构换了。40系的是A系的显卡，叫ADA的这个芯片；到50系呢，就是B系列的，就是Blackwell黑井系列的这个显卡。

它按照黑井系列整个架构重新设计的，所以呢，5090、5090D、5080、5070这些显卡，大家可以认为，跟我们现在去买的什么GB200或者B200这样的GPU吧，是一样的这个架构。

5090跟5090D的差异呢，就是5090的就是为中国生产的阉割版本。就跟原来美国制裁中国，说你们不可以去用4090了，中国就开始卖叫4090D。D呢，现在有两种说法，一种呢说是叫精简的，还有一种说法呢是Dragon，就是专门为龙设计的这个芯片。就是它里面的CUDA的核心数量、连接的这个速度，以及里面的这个内存的大小和连接速度，都是受到限制的一个设备。

当然，即使受到限制了呢，它也要比这个传统的4090还是要快的。这就是5090和5090D。然后5080和5070呢，要比5090 GPU的扩大的核心要更少一些，而且呢价格也相对来说比较便宜。现在呢，很多人就觉得天塌了，为什么？因为显卡这个东西呢，其实一直是作为一种金融产品，或者叫理财产品来去处理的，它有很强的金融属性。而这一次呢，黄教主干了一个事情，就是降价。他的5090呢，其实降的并不多，应该比4090还要贵一些的，但是呢，他号称说5070价格还是非常便宜的。对于原来那些囤4090的人来说，这个天就塌下来了。

整个的性能来说的话，我觉得我们就没有必要去跟大家讲说，它到底有多少CUDA核心，怎么算呢，这个其实没什么意义。它里边做了一个新的东西，叫大力水手4DLSS 4，可以在显卡内部进行更多的这种直插帧的运算。游戏原来输出的比较低的帧率、比较低的这个分辨率的这个图片，它可以通过插帧、插分辨率的这些功能，让我们看到一个非常非常高帧率、非常清晰的一个画面，是他们真的这个新功能。而大力水手4必须在50系显卡上才可以走，而这个40系显卡最高可以看到大力水手3.5。如果想使用大力水手4，你就要老老实实的去买50系的显卡。

也是很多人在去批判，说黄教主你这个刀法实在是很精准，也是如此了。有多少人需要去买5090呢？其实原来买4090的这些人，在挖币已经过时之后，他们到底能不能把这个4090的钱挣回来，其实是很难说的。

虽然他有金融属性，但是原来主要是拿他挖币。以太坊已经不用4090去挖币了，人家换了新的这种凭证方式了。那么4090可能也就是说，第一个打游戏用，第二个呢，拿它去做一些本地的渲染，或者是本地的大模型，比如说Stable Diffusion。我在本地跑一跑，也就干一些这样的事情。

那么现在上5090到底有没有这个需求呢？其实这一块的需求和动力是不足的。为什么呢？就是你在本地去用这样的一个设备，你真的需要那么大的分辨率、那么高的刷新率，然后有那么好的游戏吗？其实没有。游戏跟显卡之间呢，都是矛跟盾的两面，要来回翻来翻去的。首先是游戏更新了，然后说OK，我们现在需要更好的显卡，否则的话这个游戏跑不到最高帧率。

现在这几年呢，其实游戏并没有这样的东西出来。可能大家可以去期待一下GTA6，当然GTA他们一般优化做得还可以，所以呢，未必需要这么高规格的显卡才能带得动他。可能3060、3070都可以跑得起来，因为做游戏的人他也想清楚说，如果我做一款游戏只有5090才能玩的话，那我这游戏能卖几套？而且呢，游戏如果帧率太高的话，其实人眼已经看不到了，所以这个帧率是有极限的。而这个分辨率呢，其实你到4K也算是到极限了，你再往上其实已经做不上去了。

所以现在呢，其实在游戏这一块上说，需求动力不是那么足。至于说从大模型或者这一块来说呢，更多的人还是愿意去使用像A100、H100这样的专门的算力卡，而不是说来去使用这种游戏显卡。因为游戏显卡其实它的设计侧重还是不一样的，你拿这种东西去做大模型的话，并不那么划算。

50系列呢，到1月30号，5090的这个显卡就可以在外面买到了，可能要到3月份5080、5070的这些显卡会逐步的面世。再往后一段时间呢，会出笔记本用的50系显卡。现在呢，像什么ROG，这个叫败家之眼，他们已经在开始官宣他们搭配50系列显卡的这些笔记本了。

我估计在买到差不多得到年中了吧。5月份才能买到，而且以英伟达这个显卡升级的速度的话，我觉得可能过一两年再去买这个东西，也还是来得及的。一般是说显卡提升了以后，这帮做游戏的再想一想，说：“哎，我是不是可以再去做一些更复杂的游戏出来？”慢慢地去淘汰这个低端显卡，一般是这样的一个情况。这是今年的重头戏。

5090再往后呢，就发布了一个很奇怪的东西，叫project DigITs。这个东西呢叫做数字项目或者数据工程。我估计黄教主呢也是看旁边苹果整的Mac mini M4出尽了风头，这么小的主机，这么强的算力。很多人把它买回来去做大模型，甚至把几台M4 mini的这个主机拼在一起，还可以跑一些更大的模型出来。黄教主说：“这个我也行的。”这种设备呢，从结构设计上，甭管是谁设计的，但是从生产上来说呢，一定是台湾或者是大陆的这些果链企业去生产的。所以黄教主说：“你们谁去给我整个这玩意出来？”这个应该并没有什么难度。

黄教主这个时髦肯定还要改一下。那么它这个里边使用的芯片是什么呢？叫GB10。G就是CPU，它里头是有ARM CPU的；B呢是Blackwell的这个算力芯片，也都在里面。但是呢，GB10是没法去打游戏的，它没有这个图像渲染的能力，或者说它图像渲染的性能并没有那么好。大家主要还是要用它去做数据分析，去做大模型的训练和推理。

这个机器有128G的统一内存，这个还是很贵的一个东西。因为像我们在苹果上买统一内存，那玩意简直像金子做的一样，非常非常昂贵。你说我升硬盘，这个价格还可以接受，但是你要想给苹果的Mac mini或者是MacBook这种容易升内存，那真的是肉都疼。它这个里边128G的统一内存，4T的存储，这块不太值钱。然后里边的操作系统呢，是英伟达自己定制的一个操作系统，在乌班图的基础上去改的一个Linux操作系统。据说呢是可以跑200B的模型，这个已经是非常非常吓人了。

像我现在的MacBook只能跑三十几B的，72B的已经跑不起来。他这可以跑200B的模型，如果把两台连接在一起，就直接可以跑405B。因为现在我们有一个405B的模型，就是Llama3 405B，你们两个串一块就可以跑了。这个还是很吓人的。

当然，价格呢，肯定也得对得起它这些高端配置，3,000美金可真的是一点都不便宜。Mac mini应该是500美金还是600美金开始吧，最高的这个款式大概可能到不了2,000美金。他这个直接上来就3,000美金，这个大家自己看着办。

但是呢，发布会上有一些东西是没说的。什么东西没说呢？就是这个设备的功率和散热到底怎么样，他没说。英伟达向来不是以省电著称的，英伟达一直都是非常非常耗电的。像我们前面讲的5090什么这种东西，经常是可能五六百瓦。但是他这样的一个GB10的芯片，塞了这么点的一个机器里头，到底是有多少功率？到底是需要配多大的风扇？这个东西能有多吵，大家可能心里要有一个准备。

当然了，你想3,000美金我都花了，如果想动小了的话，可能很多人会觉得我这个钱没有花到地方。我花了钱以后，第一个重量要够。这个英伟达的老黄还是非常非常有经验的。你们去看那个4090也好，5090也好，那个显卡那么老大个，你把这个显卡拿起来，也是贼沉贼沉的。为什么？因为都是巨大的散热铜管以及风扇，还有很多的金属散热片。所以那个东西非常非常的重。

现在它发布了这样的小型主机，这个到底有多重？到底有多么吵闹？大家自己去思考一下。还有一个问题他没说是什么呢？就是这个东西到底能不能出口中国，这事不知道。刚才5090的时候我们讲了，专门得设计一个叫5090D的东西，是可以出口到中国的。5090的咱们中国的游戏玩家们就别想了。project digITs到底能不能到往中国出口，还得要再等一等，看这个东西也没有那么快了，应该还要再等几个月。

现在我们就是看一个形状就可以了。那么好了，大家是不是应该把钱包掏出来看一看了？我们到底是不是应该要去买这些东西了呢？什么人真正适合去买这个 Project DigITs 呢？

第一个，如果你是有钱人，这个不需要理由，只管买就完了。哪怕买完了以后，你从来都不开机，供奉在那里没毛病。你说我为什么供奉这么个东西在那呢？为你这个仓里边的满仓英伟达股票去祈祷一下不好吗？英伟达这个发布会发完了以后，老黄直接身价上升了，因为股票在暴涨。他已经是世界市值第一的公司了，基本上股票还在三个点几个点蹭蹭涨上去，这是多么神奇的事情。

那你有钱人说我买一个摆家里供起来，没毛病。至于其他的人呢，就真的没必要买这东西了。为什么呢？首先要注意，它里边用的操作系统是一个拿乌班图修改过的定制操作系统，一个用户量不大的操作系统，各种兼容性问题可以把普通用户折腾死。如果你说我不是一个专门的工程师，我就是一个使用 Mac 的用户，或者使用 Windows 的这种桌面用户的话，你就别用这玩意了，这个不是一般人能搞得定的，只有工程师才可以使用这种定制操作系统。

为什么呢？因为它各种的软硬件的配套以及升级，还有这种兼容性都很麻烦。如果真的需要进行大模型训练或者数据分析，这些人说是不是应该去买呢？因为老黄在上面讲了说，我们就是为他们设计的。建议呢，你们还是老老实实的去买通道式服务器。就算你想在家里干这个事，你也去买那个通道式服务器。

为什么呢？因为通道式服务器和 Project DigITs 这种东西，它都是非常非常吵闹的。你要想发挥出这么多算力来，你再怎么设计，它这个功率还是在这的，还是要去散热的。那你干脆就用通道式服务器就完事了，就把它塞到车库、地下室、阁楼，反正这种地方，因为这样的东西，它不适合放在卧室、起居室或者是客厅里边，因为太吵了。而且呢，做这种大模型训练的人最好是用云端的服务器，不要放家里头。

就算是你的数据非常非常的保密，非常敏感，也不建议你在家里边去部署这种东西。为什么呢？因为咱们使用这样的设备呢，都是临时性的，不可能说我一天24小时不停地算这个东西，从来不停，这个事的可能性非常非常小。你可能连续算一周，或者算两周，算完了以后呢，你还是要停下来的。

如果用云计算的这个机房，你只需要为这一两周的时间买单，就可以了。剩下的时间你就不用管它了。那么云计算的这些服务商，就可以把这个主机租给别人了，这个还是非常开心的一件事情。那你说：“哎，我把这东西买回来搁这了。”那你如果不用的时候，难道不是觉得心疼吗？

像这样的主机，正常情况下，如果没有那么高负载的时候，可能也很安静。但是你一看到这个东西很安静的时候，你就想：“哎呀，我这3,000美金是不是花亏了呢？”家里的骡子和马都歇了，这事不行。他会有这样的心理矛盾在这里。

即使你真的是数据科学家，也必须要配一个IT维护工程师，否则你真的没法使这种设备。你就想吧，各种软件的安装，硬件的兼容，这个是很麻烦的。如果我们在云主机上用这个东西，我们是怎么来干这个事的？我们是使用刀客各种镜像来干活的。

这个什么意思呢？就是我们随时需要云主机的时候，我们去跟服务商说：“来，给我搞台新机器来。”然后他把新机器给你了，你就告诉他说：“请按照什么什么样的方式，给我把这个环境搭建好用。”用完了以后呢，说：“现在请回收这台主机。”这个主机就又变成干干净净的了。你下次什么时候再用，你再去跟他说：“哎，给我再去整一台空机器出来。”他再给你整一个干干净净的机器，重新部署。

这个是我们使用云主机的方式。但是我们要想一想，我们用桌面电脑是什么样的方式？那个电脑多长时间格式化一次，多长时间重装一次系统？像我们用麦克的这些人，可能三五年吧，会重装一次系统，这个是正常的。为什么呢？因为这个系统变化相对来说比较少，不会天天的变来变去的。但是这些数据科学家，可能今天我需要用一个这个插件，明天需要用一个那个组件。

这个东西还不停地升级。那你这个玩意儿怎么弄？你就需要不停地格式化电脑，不停地重装电脑。如果没有一个IT工程师跟着你的话，根本搞不定这个事情。就算是正常开机的云主机，我们多长时间格式化一次？可能真的是每个月或者每周，你都会去格式化它。为什么？因为我们需要去维护这个电脑，需要去升级系统。那升级系统你再看看，哎呀，这个升级的东西跟那个兼不兼容，不费劲啊，整个格式化干净，重新整一次就完事了。这是使用云主机的方式。所以没有工程师去维护的话，这个东西摆家里一点意义都没有。

那么最终的结论是什么呢？就是光鲜亮丽的小废物。这个project Digits就算是一个光鲜亮丽的小废物，非常非常贵。如果我们赶个时髦，整一个放家里头，摆起来供起来，平时也没有什么任务让它跑，这个没毛病。你只要有这个钱，没有人能够说你什么。如果你真的想用它，那就算了，趁早打消这个念头。

至于说5090这些东西呢，我觉得你如果真爱的话就去买。现在应该没有什么游戏是必须要5090才能跑起来的。如果你说我一定要去玩stable diffusion，去画一些画，或者我要去做一些渲染的话，哼，也建议用云主机，不要用5090这样的东西出来跑。

所以呢，现在英伟达发布的这些东西，建议大家谨慎购买。至于软件的部分，虽然现在英伟达也在努力的开源，就是他现在新出了一些东西，都是open source的，但是呢，英伟达的软件除非像CUDA那样，一开始在非常小众的领域里头深耕很多年，否则不建议大家去碰这个玩意儿。为什么呢？因为英伟达的软件，用户交互这块是比较差的。英伟达向来不以用户交互这个事情见长，他们都是一帮资深的黑客，一帮这样的工程师范的人。他们认为所有人都应该是工程师。你像刚才我们讲的这个project Digits，这样的东西，如果不是工程师，你根本搞不定这个东西。如果是我整这么一个东西，可能我也得平时把它放在柜子里。

需要去做一些模型。微跳模型训练的时候，把它请出来。机器格式化，整个重装好，然后把一个任务跑完了以后，再重新盖到盒子里头，装柜子里头完事。这个才是他的正常使用方式。等下一次再把他请出来的时候，重新再隔热化机器，重新装系统，这个才可以去正常工作。

所以呢，因为他向来不是给普通用户来用的。就算是你说：“哎，我游戏显卡，难道不是给普通用户用的吗？”是，但是你玩的是显卡的吗？不是，你玩的是游戏。游戏跟显卡之间还是通过各种SDK、各种程序接口在打交道。我们普通人，是不跟那个玩意儿打交道的。而且呢，所有短平快在热点上搞的软件，都不是英伟达擅长的事情。

所以软件呢，跟今天咱们讲的CES消费电子展，这个事就没有什么关系了。就算你说：“我是玩大模型的，我是科学家，我是工程师。”这个事情呢，你可以去进行部署，可以去使用。但是英伟达做的相应的软件呢，特别是在这种热门的领域里头，也建议大家先去使用其他家的，先别用他们家的。因为这些年来，在大模型里头推出的各种软件，其实都没有怎么流行起来。现在大家使的，其实依然是CUDA这个东西。一抽遭蛇咬，十年怕井绳。CUDA大家使习惯了以后，最后就没有办法被他绑架了，必须要使，因为大家继续使下去。

现在老黄就算是摆出再怎么人畜无害的这种表情来，也没有人敢用他们家东西，而且真的不好使。所以在这一块里头，有非常非常多其他公司的这种替代产品、替代的架构可以去用。

好，这就是今天咱们讲的英伟达。黄仁勋穿着他的印花鳄鱼皮夹克，给大家发布的这些东西。然后钱包呢，捂好了，稍微关注一下。特别是project Digits这样的东西，3,000美金对于我来说是比较贵了，可能对于很多人来说好像也不是很贵。但是你先想想你用的了这玩意不？你说如果我摆着，就是为了让英伟达的股票好好的再涨一涨，那你去买，其他的就先别买这东西了。

好，这期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛。

参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

【宝藏】揭秘！如何在Dify里免费使用FLUX.1大模型！

Luke Fan — Mon, 12 Aug 2024 10:58:54 +0000

今天讲一下如何在Dify里面调用最新的文生图模型FLUX.1。FLUX.1是由Stability，也就是做Stable Diffusion的那家公司的一帮创始元老离职后做的新的文生图模型。现在据说效果非常好，我自己试了一下，确实还可以。那么今天跟大家演示一下如何在Dify里边去使用这个FLUX.1模型。

首先，我们要去找一个云端可以跑的FLUX.1模型。你说我直接到FLUX网站上去行不行？没问题啊，但是他们的这个要付费，特别是FLUX Pro是要付费的。我们先找一个免费的，先跑起来吧，特别是在国内能用的这种免费的，先让它跑起来。我们找到了硅基流动这样的一个网站。我们看一下它这个网站长什么样子。这样前面其实跟大家介绍过硅基流动这个项目，先登录进去。

登录进去以后，我们就可以选择这边的叫文生图了。然后呢，它可以选择FLUX.1-dev。FLUX.1点这个，这个叫这个词就不念了，反正是比较小的这个模型，效果都是很好的，横的竖的都没问题，对吧？然后呢，这个步数，50步到头了，最多就是50步，所以我们就准备来使用这个模型了。

那怎么使用呢？首先要去看文档，对吧？它的API到底是怎么调用的？点一下文档，点到文档以后，我们选API手册，然后呢点击文生图，就到这样的一个页面了。告诉你说我通过CURL怎么去调用的。下一步该怎么办？先把它复制下来。我们到Dify里面去，先增加一个工具，自定义啊，新的一个。在这里呢，我们就要做下一件事了。它使用的是OpenAPI，Swagger这样的一个规范去干活了。我做一个叫随便聊聊的聊天机器人，任何提示词不给他。

然后把 Claude 3.5 Sonnet 直接挂在后面时，我现在就可以跟他聊天了。好，那么我现在要跟他说，请根据以下案例编写一段代码，OpenAPI Swagger 代码，走你。回车，好，他就去干活去了。OpenAPI Swagger 实际上就是包装各种各样的 Restful 代码的一个框架。然后把这一块拷贝下来，我们回到这里贴上，这就是贴好了。以后他就可以去干活去了。哎，先测试一次啊，测试一次。比如说，你看他有这么多的值可以去用啊，这个首先是提示词，比如说“一只喝咖啡看报纸的拟人狗，穿着西装”，好，假设是这样吧。这里呢有一个鉴权方式，什么意思呢？就是很多的这种都是需要授权的，我们需要在这里把我们的 TOKEN 要贴进去。然后 1024×1024 画个方的吧，然后多少步呢，这个 50 吧，刚才不是设到头就是 50 吗？测试一下。呃，这个好像跟我们想象的不太一样啊，我们要求他画这个狗，难道我写错了吗？待会我们想办法让 AI 把我们的语句稍微加工一下，然后再去画。但是呢，至少画成功了啊。再下一步给它起个名字叫 FLUX.1，就这样保存好。我们有了一个叫 FLUX.1，这个前面还有 FLUX.1 from，这是我上次做的。那么下一步我们就要用这个玩意了啊。那么我们去创建一个新的聊天应用，这个应用叫画图。创建模型的话，直接调用 GPT4O mini 吧，然后我们来写提示词。啊，不要看我这提示词写得很长啊，这个没有关系的。而且，这是当时为 DALL.E-3 写的一个提示词。大家可以点击这个按钮自己去生成提示词，这种提示词都是生成出来的啊。我们通过提示词，用户输入信息，生成一个可以画画的提示词。

让他稍微总结一下。然后来工具自定义。刚才我们做的这个FLUX.1，它的提示词是经过加工以后的。然后尺寸，我个人比较喜欢1080P，1920×1080。这个地方的话，50吧，反正多刷几个能够好看一点。好，这个地方就做完了。再往后输出，把提示词放出来，还可以拿它再到MidJourney或者DALL.E-3再画一次，然后再把内容生成的文本输出出来。啊，他最后会给你一个链接，预览一下。一只拟人狗，身着西装，戴着眼镜，喝着咖啡，看着报纸。让我们来试试，画去了。好，让我们看看这幅图怎么样。啊，喝着咖啡，看着报纸，戴着眼镜，穿着西装的拟人狗，对吧？是不是有那么点感觉了？当然，他这个手跟袖子脱开了，稍微差点意思。我觉得已经基本上可以让大家去使用了。

我们今天演示了使用硅基流动的FLUX.1云端模型，而且现在是免费的。使用这种模型，我们到Dify里面去，在工具里面自定义了一个工具Claude 3.5 Sonnet自动生成的。啊，我们只需要把文档里边的这个调用方式扔给Claude 3.5 Sonnet，然后说给我生成OpenAPI Swagger就搞定了。这个里头一个字都没改过，测试成功了以后把API Key输进去。现在的话，你去注册硅基流动会送14块钱，而且这个玩意画多少次不要钱的。

再往后呢，啊，我们演示了使用画图这样的一个流程，先通过GPT-4o mini去做了一个根据输入生成提示词的一个过程。然后呢，再调用刚才我们自己定义的这个插件，生成出来的图片，画出了刚才我们要的这张穿西装、戴眼镜、喝咖啡、看报纸的拟人狗。这就是我们今天给大家演示的，这就是我的一个AI课程。

今天呢，把这个节目放在公众频道里，但是更多的课程呢是在付费频道里。为什么在那边呢？啊，因为这种课程其实看起来比较累，不在公众频道里影响大家了。不过今天这个因为比较好玩，所以跟大家演示一下，具体怎么去装 Dify，具体怎么去给里面做各种配置的课程，是在我们的付费频道里。今天就跟大家讲到这里，感谢大家收听，再见。

360智能浏览器发布会盗图侵权惹争议——到底是大厂盗版不要脸，还是模型作者乱伸手，狮子大开口？AI绘图的版权纷争，为未来AIGC作品的版权建立判例。

Luke Fan — Fri, 14 Jun 2024 00:45:44 +0000

大家好，欢迎收听“老范讲故事”的YouTube频道。今天，来跟大家讲一讲360盗图事件到底是怎么回事。事情的始末呢，是前一段时间，360开了一个技术发布会。发布的，是360AI智能浏览器，也就是360浏览器在这个基础上，可以有一定的AI功能。那么，在这个里头，给大家演示了一个功能是什么呢？叫图片局部重绘。就是给你一张画，然后你圈中了一些画里边的元素，然后说：“哎，给我重新画一些东西。比如说，换身衣服啊，换个发型啊，戴个眼镜啊，加个饰品啊，或者把后边哪一块我不想要的，给我去掉啊啊，或者给我在这画个猫，画个狗啊。”做这样的一个功能。演示完了以后呢，突然有一位AIGC圈里边的贡献者，就跑出来说：“哎，你这图是我的啊，你盗我图了，你应该是给我道歉啊。”四处就开始说这个事。360相关的负责人呢，也出来说：“哎呀，我找到他了啊，找到他完了以后呢，尝试跟对方进行沟通。我们愿意付钱，商用应该付钱。前头呢，我们自己挑选图片的时候，没太注意，是我们的问题啊，也道歉了。”但是在付钱的过程中就出问题了。这位作者呢，要求什么呢？就是你要付十倍的钱，先给我做一个罚款，然后呢，再去花正常的钱买这个商用版本啊。做完这两样以后，还要给我道歉啊。这样才可以。相当于就说，我要把这360的面子彻底踩干净吧。因为这一块呢，

本身并没有一个特别的明确规定，说你如果盗图了，应该怎么去赔偿。他自己也没说过啊，这作者自己并没有说过，谁盗图要10倍赔偿啊，从来没有讲过啊。只是说现在搞了这样的一个事情，360的负责人呢，就讲说哎呀，这个事情呢，已经超出了我的想象空间啊，有点太狮子大张口了。那么既然这样的话，你告我吧，咱们法庭见。正好呢，现在AIGC相关作品的版权认定，这个事比较模糊，咱干脆在法院上把它炒一清楚，甭管炒成什么样，咱们按法院判断来就行了。讲了这样的一个话，这位作者呢，也出来回应了，说我就要一块钱，这一块钱的使用费，哪怕就是十倍，也就是十块钱，就这样的一个情况就可以了。你只要给我道歉，公开道歉啊，那意思就是我要流量，我得蹭你。结果现在呢，360也不理他了啊，就说咱们就法院上见就完事了。大概就是这样的一个前因后果。咱们在说谁对谁错之前啊，咱们先说说到底是什么东西被盗版啊，大家先去评评理，这东西到底有没有道理。首先他们画的图用的是什么呢？叫stable diffusion，stability公司做的一套开源的绘图工具啊。这个东西本身是开源的，甭管是号称是被盗图的，还是360，其实用的都是他们家东西。那么在这个过程中呢，只要符合stable diffusion的开源许可文件，啊符合相关条款，大家都不算偷盗啊。

现在，stable diffusion并没有明确说明什么。其实，stable diffusion的早期版本相对来说是比较自由的。最新的版本，也就是stable diffusion 3，现在虽然为大家提供了一个模型，说你们可以免费开源使用，但是明确规定了不可以用于商业应用。因此，如果这里边用的是stable diffusion 3，那么360肯定是商业应用，这是违法的。在stability AI这里，360应该也没有使用3。出图的这位朋友应该也没有用3。所以，这是第一层。

然后，第二层是什么呢？第二层叫做checkpoint模型。所谓的checkpoint模型是什么？就是stable diffusion跟我们常用的这种图像生成模型有一个很大的区别。比如说，我们用open i的dalle模型，或者是用mid journey的模型去画图的时候，我们只需要给提示词就完事了，其他什么也不用给，它就会按照我们提示词里边使用的风格去给我们画图。但是，stability AI并没有这样的能力。你直接让它去画，它也能画，它有基础模型。但是，如果你想让它画得更好，你必须要给它挂一个很大的这种叫做checkpoint模型进去。这种模型呢，是用来增强和定制生成效果的，通常包含了特定的风格或细节，以提升图像质量或符合特定需求。

是用大量的图片和标识文字，以及各种参数一起来去生成的。训练出来的这种大模型，这个模型一个经常要可能几个G啊，或者有的十几个G，就是非常大。那么这是第二个，现在被盗版的这张图片呢，就是使用这个号称作者的这个人，他所训练的一个拆框里的模型绘制出来的。现在你想去画一个很特定的图片，最好还是要找到特定的Typoline模型，否则的话，你画出来这个图就只能听天由命了。

checkpoint的模型呢，我也到了这个作者的网站上去看，它上面写了说哎，你如果是个人使用，你就拿去用了，但是你不要商用啊。如果你是公司盈利性的组织，你拿去用的话，你是要给我付钱的。这个他已经写的很清楚了。到底付多少钱，他没说。而且呢，他告诉你说，如果你要想付钱的话，你还要到另外一个网站上，再怎么怎么再去付钱给我，绕来绕去的啊，是这样的一个过程。

那么前边甭管是360的这位负责人说，我愿意给钱，但是他找我要十倍。还是到后边这位作者说，我这个一块钱一份。这个呢其实都没有说清楚。这个checkpoint模型，你到底想用要付多少钱？为什么大家都不说？待会咱们后边讲啊，因为这个行业，还是稍微有一点点灰色的。现在是因为360使用了这个大模型吗？作为一个商业公司，一个盈利公司，你使用模型没给人钱吗？其实也不是。那么到底是什么东西呢？

是有一张用这个模型画出来的图，然后 360 呢，在这个图的基础上，又画了一张以图生图的一个再生成的图像。360 是拿这张图去做了一些修改和调整，在现场进行了演示。那么，这种呢，其实就属于非常难判断。第一个，我们使用你的模型，按照你给出的要求，我们应该坐下来谈怎么去付费，这事并没有任何问题。但是，用这个模型再生出来的图片，到底版权应该如何去划分，这件事情本身其实是不那么清晰的。而且，就算是这张图片是由这个作者本人用自己的模型再生成出来的，教大家如何去使用这张图片，这一块的话，其实也没有那么清晰的版权划分。我拿这张图出来以后，再去进行图生图，新生成出来的这个图片，是不是依然需要照顾你的版权，这个事就已经完全超出了现在版权相关法律的约定了。就算是我们用这种必元模型，我们也去做图生图，比如说，我把达芬奇的名画蒙娜丽莎塞进去，说来给我照这个风格，画一什么什么东西，他也画的出来，但是你这个画出来的东西，跟达芬奇名画之间，到底有没有版权纠葛，这个其实是说不清楚的。实际上，是这样的一张画，认为是有版权上的问题。而且，这张画呢，跟他用这个大模型生成出来的原图进行比较的时候，你说它像吧，也有点像，但是呢，这种 stable diffusion 生成的图片，其实都差不太多。你说它不像呢，也确实有它自己的独特之处。

这个也没有完完全全可以验证。那就是这样的一个状态：说哎，你就是这个东西侵权了啊，你要来陪我。所以现在呢，整个的圈子里头啊，很多人就是说你这个有点管太宽了。如果你做了一个基层模型，你就认为你基层模型里头生成的所有图片，你都享有权利的话，那谁用你这模型，拿你这模型干嘛去啊？这事没有任何意义了。而且拿你的模型生成出来的图片，拿这个图片再去做图生图，再去变换了以后，你依然享有版权，那这个就有点过分了。这个就属于没完没了了。所以呢，大家现在并不在这件事情上那么支持这位，号称是原作者的人吧。

现在双方的争议点是什么呢？就是360说我呢，还是要脸了啊，就是以前虽然要不要脸咱不知道，但是现在要脸了。AI上来以后，我们现在天天出来喊AI啊，中工业天天出来喊啊，我们要做AI的推动者啊，要做AI的布导师。那么这件事呢，呃你如果差不太多，我们还是愿意付钱的。前面呢，我们筛选图片的时候没太注意。现在呢，你如果愿意收这个钱，我们就算是花钱买你这个模型的商用使用就完事了啊。买完了以后呢，我们以后呢，还可以一起来去做宣传，做推广都没有任何问题。我们愿意合作。360其实这一次姿态摆的还算是比较低啊，呃道歉愿意花钱啊，以后合作啊，这个事都说了。这位朋友呢说啊，这个不行啊，必须要先给10倍赔付，公开道歉。

然后，你再要去买我的这个模型啊。这件事呢，360这个产品负责人说，超出我的审批权限了，这个没法整了。而且说，你所有的东西我都录音了，咱们回头作为证据出来说。然后，这位原作者也上来说了，说我反正要流量，我们就把事搞大呗，咱们就去就折腾呗。他说，我就要一块钱啊，我就要公开道歉，你们也别说我心黑。至于他当时找360要了多少钱，谁也不知道啊。360现在也没有公开相关的录音啊。现在大家都在争这样的一个事情，实际上是已经不再争钱了，再争一脸啊，再争一口气，再争流量。对于360来说呢，其实也无所谓。原来也不是什么要脸的人对吧。那么既然你跟我这呃搞这样的事情，那我们就干脆把事情闹大，让大家一起来评评理，这事到底该怎么办啊。就是这样的一个情况。

前面呢我们讲到了，像checkpoint模型这个概念，可能很多人不是特别了解。在这里呢，跟大家稍微讲一下，世界上有一个很大的这种叫C站啊，有这样的一个网站，专门进行这种checkpoint模型的交换呢，叫CIVITAI.com啊，有这样的一个网站。但是这个网站呢，在国内不能访问。而且这个网站上呢，原来有大量的色情图片，因为他们很多人去训练这种checkpoint模型，其实是生成色图的。这个国内疯掉了也就疯掉了啊。国内呢也有一些网站。不过，我们今天主要讨论的是与360和原作者之间的纠纷，以及checkpoint模型的基本概念。

可以去进行 Tekpot 模型的交换。就是等于是有很多人训练了模型，放上去，然后呢，大家上去看，说：“哎，这个风格不错啊，那个画画的不错，我想画出同样的画来。”怎么办？你就可以下载他的拆开泡的模型，到本地来去画取。这些模型呢，有些就是直接免费就可以用了啊，也有一些呢，是你下载了以后，如果非商用，你可以拿回来自己用；如果是商用的话，你需要去跟这个作者面议，到底要花多少钱。这个呢，都是面议。为什么呢？真的有穷人有富人，而且就算是付得起钱的人，也有很多人呢，是不愿意付钱。那么，在不愿意付钱的这种情况下，作者如果去主张这个收益，大部分情况是什么呢？就是你折腾了半天，不划算啊，要不来俩钱，还折腾很长时间。所以他们也不费这个劲。所以就是你们愿意给就给一点，不愿意给呢，就这样了。就算是我们发现一些小的商家，你用了没给钱，没关系啊，就这样吧，他也懒得去找你。但是如果发现有些大商家用了，那我得在你身上狠狠的咬一口，你反而付的起钱，你要把我前面所有的其他损失，都给我背回来。他是这样的一种格式。所以呢，这种模型它到底使用是怎么算的，都是面议啊，就是他们看你到底是多大的商家，属于叫看人下菜碟这样的一个方式。

360 啊，你现在还天天出来忽悠周鸿祎，你还出来当网红，号称是中国 AI 的一个什么推动者。那你的脸，你得要，你得给钱。

对吧，我要多少钱？你得给，而且给十倍啊。就搞了这么个事情。现在国内的这个站呢，叫里布啊，LIBLIB点a r t，有这样的一个站。嗯，今天这位啊，号称是作者的，他的这个checkpoint模型呢，在C站，在这个礼簿上都有人在用啊。上头呢也在想，说你在礼簿上也写了，说你用了我的模型啊。如果是公司，商业机构啊，盈利组织，你去用，要去给钱。但是具体怎么给，要面议啊。具体谁跟谁，到底多少钱都不知道啊。而且给钱呢，要到小红书上去给钱，这个反而很怪，就是跳来跳去，跳来跳去的给钱。

本身呢，这种checkpoint模型的交流就算，是一个相对来说比较混乱的状态。为什么呢？因为它是下载的，就是你要想用它，你要把这个东西下载到本地来用啊。而且一旦下载了以后呢，大家就可以口碑复制。所以是没法去确认，说这个模型到底是谁家的，或者从哪下载的。一开始这个license到底怎么写的，这个事其实是非常麻烦的啊。在这样的情况下，只能是逮着一个狠狠的咬啊。就为什么每个都要面议，就是这样的。而且盗版的是非常非常普遍。

目前的生图市场，到底是什么样的一个状态，就是这种纹生图图生图，这样的一个市场。作为个人和小团队来说呢，更多的是基于Majorney和达利三，来去干活。为什么呢？因为这些比较简单啊，你也不需要再去整模型。

因为你除了大的这个checkpoint模型之外，还有Lowra模型，还有各种的contranite控制，还有comfy UI的流程。你需要写一大堆东西才能生出图来啊。一般我们是不吵那麻烦的，所以就直接使用majoring和打理就够了。如果是生产力团队呢，一般是喜欢使用stable diffusion，加上刚才我们说的这一大堆。为什么生产力团队喜欢用这样的东西呢？就是这些东西加在一起以后啊，它的效果是可控的。它的效果未必比majori好，但是呢你可以保证，它每一次出来的风格都一样啊。然后保证说啊，我给他一堆任务，最后拿出来的图片，基本上都是可以用的啊。这个事是啊，stability Fusion的一个优势。

那么这一次的官司呢，其实本身并不是什么坏事啊。如果真的能打起来挺好的。为什么呢？就是他有可能会对这个行业，再带来一些改变。就是AIGC的版权呢，本来就是相对比较模糊的。现在AIGC的作品，特别是这种图片类作品，判成哪边的都有。有些呢就认为说这是AIGC生成的，不应该有版权。有些呢，法院就判的说虽然是AIGC生成的，但是也有应该有版权。那么这东西是怎么判定的呢？基本上在里边讲的都是这样说，生成的过程到底付出了多少努力啊，或者说到底生成这个图片的人，给出了多大的这种呃主观的创造性。

你比如说，你只是写了一个提示词，这个通常是不认为你具有版权的。但你说，我在提示词的基础上，进行了非常漫长的调整参数的选择，然后在很多的图片中选择了其中的一张。那如果这些劳动被认可了，法院就有可能会判定说，你这个图算是一个个人创作啊，算是个人拥有版权的东西。现在对于AI生成图片的版权判定，基本上在这就是你生成的过程中，到底付出了多少努力，对吧，在这稍微讲一下。我自己也创作了很多图片，有时候发在推特里边，有时候发在YouTube的社区里边。然后这些图片呢，都是我给了提示词，就直接画出来了啊，我也并没有花那么多的时间，在里边去进行挑选啊，去进行很细致的调整。所以呢，按照国内法院的这些判例来看，这些图片，就应该是不享有版权保护的啊，咱们谁需要用这些图片啊，不用问我，直接拿去使就好了啊。我现在也在这说，我画的这些图，你们就啊拿去用吧，而且按照法律判定，基本上也没法去认证，这个东西是具备版权保护。如果，你说我现在要做这件事情啊，想去被认定有版权保护怎么办？你就要把整个这个过程啊，说我费了九牛二虎之力，做了好几个礼拜，写了多少提示词，调了多少参数，中间有多少废图，你要把这东西都记录下来啊，然后才能去举证证明这个东西，你真的不是随手打了一个提示词，一回车就得到了一幅画啊。

这个就有可能能够被认定是有版权的。啊，这是目前 AI 生成图片版权判定的一些案例。但是，这一次的这个案例呢，就会把这个事情再往前推一步，推到什么呢？就是这个 Checkpoint 模型，到底应该怎么算？按道理说，Checkpoint 模型应该算作开发工具。像我们，比如说，以前卖单费，卖 CI builder，卖这样的东西。我们应该规定好了，说你这样的一个系统，是不是应该明码标价？比如说，我按照一年多少钱，还是买断多少钱，还是一张画多少钱？我们按照什么样的方式来收这个费用？因为大家知道，这种 Typony 模型，一旦是到了用户本地以后，你是没法去判定，他拿这个模型到底生成了多少张画了。我们是不是应该按照一次性买断，或者某一个版本一次性买断，来去判定它的安全？还是说，我们按照一年应该给我交多少钱？过了这一年，你没有续费的话，你再生成新的图片，就是违法的了。因为图片上是有时间戳的嘛，除非你不停地去改机器的时间。但是，你要说清楚吗？你这种不说清楚，说“哎，上来都面议”，这事合不合适？这是第一个问题。第二个问题，用你这张用这个 Checkpoint 的模型，再去生成的图片，这个版权属于谁？如果说“哎”，这个 Checkpoint 模型是你的，你随手打了一个回车，得到了一张图，那么，这个图片到底有没有版权？

这个版权问题，到底是属于 Checkpoint 模型，还是属于撰写提示词的人呢？这件事情可能需要再次引起争议。那么，当我们使用这种模型生成新图片时，版权是否能够延续呢？我认为，这个问题确实值得我们深入探讨。不论我们现在认为这是否合理，这并不重要。相反，将问题提交给法院，让他们去争论，去探讨这个问题。如果最终判定，这种由模型生成的模型输出，不具备版权的传递性，这可以算作一个结论。或者，你使用了特定的模型，如 Type Pony，来绘制图片，那么版权应该归于撰写提示词的人，而不应归于 Checkpoint 模型的创作者。这也是一个可能的结论。

我认为，这次诉讼如果能够正常进行，并持续成为公众关注的焦点，对于整个 AI 生成内容（AIGC）的版权问题，将是一个很好的推动。对于 360 公司而言，他们显然乐见其成，因为他们可以获得流量。只要有这样的争议存在，360 已经采取了积极的态度，第一时间联系相关方，表示歉意，并愿意支付费用，希望对方能够接受较低的赔偿，达成和解，未来仍能保持良好的关系。360 已经展现了他们的诚意。另外，原本的情况是，你使用自家模型生成的图片，再进行图像转换后，这又引出了新的版权讨论。

这次讨论，对于 AIGC 的版权问题，无疑是一次重要的实践。

然后，你依然要求版权，这件事情本身呢，就不是那么站得住脚啊。上来以后还得理不饶人，这件事情，我觉得呃，应该可以给吃瓜群众贡献很多很多的乐趣了。那我们还是等这个叛逆吧啊，一方面呢，我们继续享受这些吃瓜乐趣；另外一方面呢，我们也希望这个叛逆呢，为未来指明方向。好啊，这就是这一次的360盗图事件，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

黄仁勋AI时代英伟达GPU革命：一场市值2.7万亿美金的狂欢，COMPUTEX 2024重磅发布Blackware GPU，1.8万亿参数GPT4揭秘！

Luke Fan — Tue, 04 Jun 2024 01:02:00 +0000

大家好，欢迎收听老范讲故事YouTube频道。今天，咱们来讲一讲黄仁勋在COMPUTEX上的狂欢。COMPUTEX是一年一度在台湾举行的计算机大会。黄仁勋，作为现在真正AI时代的当红炸子机，可能是唯一靠AI赚了大钱的人。虽然微软也在赚钱，但是微软整个靠AI挣的钱并没有那么多。真正靠AI赚了大钱的公司只有他一家——英伟达。刚才我看了一下，英伟达现在市值2.7万亿美金。大家知道，再往前就是微软的3.2万亿，第二名是苹果，2.9万亿，还差那么一点点。可能稍微一哆嗦，英伟达就有可能成为世界第二市值的公司了。那么，黄仁勋上面都讲了什么呢？作为网红，肯定还要先暴露一下行业秘密，别人都不知道他知道的事情。上来先说一下他现在讲的是什么——就是GPT-4到底有多少参数。GPT-3.5大家知道是1,700多亿参数，就是一个170多亿级别的模型。但是到GPT-4的时候，OpenAI就再也没有出来说它到底有多少参数。很多人说你是不是超过万亿了，对OpenAI来说，这个数据不是很准确。我来辟谣了，但是具体有多少，从来没有讲过。黄仁勋在前面的GTC，就是GPU技术大会上，每年一次的英伟达自己的开发者大会上，上面也讲了……

说起来1.8T，这个1.8T指的是什么呢？其实就是1.8万亿参数，而且它是一个Moe模型。当时OpenAI并没有对此多说什么，但这一次，在《Computer Text》上，他们又反复强调了这个事情，明确指出GPT-4的训练参数达到了1.8T。这让人们意识到，想要达到GPT-4的水平，还有很长的路要走。尽管现在大家都在努力研发号称能达到或接近GPT-4水平的模型，比如几百亿参数的模型，比如梅塔的拉马3可能会有一个400亿参数的模型，国内也出现了很多一两百亿参数的模型。但事实是，即使提到的1.8T参数，如果考虑到是Moe模型，分成八份来看，那么单个模型可能也就相当于200多亿参数的水平。

这次先通过揭示现状，然后发布新GPU，但对于具体数据——多少核心、多大算力、内存多大、带宽多少，人们似乎已经感到麻木。现在大家更关心的是，如何将这些GPU有效地集成起来，如何把它们拼装成服务器，以实现更强大的计算能力。这背后的提升，不是5%或10%的增长，而是几倍的飞跃。这成了技术关注的新焦点。

如何装到机房里头，统一为别人去服务，这个是现在大家更关心的事情。所以现在呢，他们发布的叫Blackware GPU，而且，它取出来那个板子上是两块GPU和一个CPU，应该是他们自己做的CPU。这是一整块，然后可以装到一个大的服务器里面去。再把这些服务器堆叠在一起，使用它的NV link，让这些GPU可以像一块完整的GPU那样工作。这样说，你就可以去训练更大的模型了。而且，今年是这个Blackville，明年就是Blackville Ocho，再往后是Robin。就是说，往后一代都给你规划好了。再往后一步，是叫Robin Ocho，所有的GPU一直规划到2027年，一定让2027年之前的GPU都给你规划好了。

现在呢，很多大佬还在惦记着买H100。他现在就专门告诉你说，你看我这个艾克威尔跟这个H100比，它强在什么什么地方，好在哪哪哪。但是很多人还想买H100，这是为什么？可能Blackware它的这种工作方式，或者说它可能需要跟更多的设备先行捆绑，而H100的话，相对来说可能兼容性会更高、更好一些。就是你用任何的这种通道服务器，都能相对容易地兼容和使用。

你把它插上去都是可以用的。likerware我倒是真没看到它出这种——就是像原来金砖啊，像我们以前讲的A100、H100这样的，我们管它叫金砖嘛，就是它的卡还是金黄色的，方方的一块，可以插上去的。好像没有看到这样的东西啊。现在呢，基本上都是以两个black Verre在一起，然后头上带一个CPU，是完整的这个配置。

当然了，这些大佬，包括马斯克、扎克伯格，可能也不是说我就一定要去买H100。对于他们来说，H100就算是一种计量单位，就是说啊，他们会算上自己到底买了多少H100，或者说现在手里的算力相当于多少H100。你像扎克伯格之前讲，说他买了35万块，加上他手里现成的有60万了，再加上后面再接着买，现在扎克伯格手里的大概有接近100万块H100，相当的算力。这就跟我们造炸弹的时候说，这个炸弹相当于多少吨TNT啊，最后变成了一种衡量单位了。

老黄（指NVIDIA的CEO 黄仁勋）就告诉大家说啊，你们来买新的吧。而且这种升级是呈几何级数升级的，所以不要去买旧的，去买新的，这样的话才能够保持它的垄断地位。如果说哎，我现在这个GPU再涨上去，涨了10%，涨了20%，那大家就不买它的了，就去买AMD，买英特尔，买其他的这些算力芯片去了。

甚至像高通这样的公司，都能做出一定的算力芯片来。这样一来，人们可能就不会一定买它的产品了。但是现在的情况是，我们谈论的是算力要涨十倍、百倍、千倍，而且每年都要这样增长。为什么呢？因为这成了一场军备竞赛。每个人都害怕落后，就像人们常说的“输在起跑线上”。我们从小让孩子上补习班，是为了什么？就是出于这种害怕，这种焦虑感。老黄就是在给大家制造焦虑：你现在买了旧的，等明年出了新的，你就落后了。你必须去买新的，然后当更新的版本出来时，你又要再买。毕竟，GPU不像软件，软件可以逐年升级，而且升级成本相对较低。但GPU，你需要整块购买，一年后淘汰，再换新的，这成本实在太高了。一片就是4万美金，Blackwell的价格我虽然没查，但肯定不便宜。所以，要让大家每年跟着升级，必须讲出一些更有诱惑力的故事来。目前，从算力成本和能耗几个方面看，确实在全面升级。一方面，算力成千倍增长，成本自然是变贵了。这没什么可争议的。但就单位算力的成本来说，它是下降了。比如，原来的H100卖4万美金，但使用Blackwell之后……

你可能继续达到H100同样的算力，这只需要原来1/10，甚至1%的成本，是这样大幅下降的。能耗方面也是如此，比如说，要达到原来H100的算力，所需消耗的能耗可能也只是原来的1%。如此发展，GPT-4的1.8T训练能耗引人注目，因为之前很多人讨论，GPT-4训练一次的能耗相当于多少个家庭一年的电力消耗，让人担忧AI发展的能源瓶颈。但现在的进展是，重新训练一遍的能耗降低了99.7%，仅为原来的1/350。而进行推理时，即训练完成后用于问答等任务，能耗更是降低到原来的1/45,000。这样的发展速度令人惊叹，从GPT-4推出至今不过一两年，能耗的减少就达到了如此程度。

军备竞赛在AI领域体现为不断制造焦虑，促使各方持续投入。这就像冷战时期的军备竞赛，你有武器，我必须跟进。如今在技术领域，特别是英伟达所处的，情况类似，但效果是整体提升，正如“一人得道，鸡犬升天”。之所以提到这一点，是因为他们还强调了除了芯片本身，还有Vlink技术，能够将服务器像拼图一样连接，整个机房的服务器作为一个单一GPU工作，展示了技术整合带来的巨大效能提升。

因为，这些服务器在一起，你的GPU的算率越大，可以并行处理的东西就越多，与内存和CPU之间的通道越宽，整个进行大模型训练的效果就会越好。所以他说，他可以干这件事情，但在这个过程中，这些服务器，或者其他一些相关的配件，都跟着他“鸡犬升天”了。比如说，像戴尔、超微电子这些给他造服务器的公司，全都因此受益，一路上涨。因为你不能只有GPU，不能只有他们的加速卡，还得把所有配件凑在一起，这些东西才能正常工作。而这些配件，都是值钱的。

在这个过程中，服务器肯定变得更贵了。比如说，原来用的是H100的服务器，现在变成了更高级的查克威尔的服务器，那自然是服务器变贵了。但你想，服务器变贵的过程中，到底是什么东西变贵了呢？其实，只有与H100相关的专利费变贵了。大家要注意，因为大家自己并不造芯片，也不造服务器，他也不造算力中心。他只是设计好GPU，交给台积电去生产、封装、测试，然后下交给板卡厂商制作成板卡，再由服务器厂商组装成服务器，最后等待比如马斯克这样的人购买安装。所以，整个服务器链条上的价格上涨，实际上主要是由于关键技术组件的成本上升，特别是H100相关的专利费用。

除了GPU价格飙升之外，其它相关成本也难免水涨船高。你不能期望其它东西都保持低廉，这显然不合逻辑。我们整体的成本基数提高了，但单位成本可能有所下降。不过，要注意的是，老黄的市场策略极为精准。GPU的知识产权价值多少，或者说它的设计成本是多少，他们心中有数。如果没有竞争对手，价格自然可以定得更高。但即便如此，人们依然能看到成本在以惊人的速度下降，甚至是以十倍、百倍的幅度。然而，GPU的设计价值却在不断提升。

除了NVIDIA本身，那些制造显卡、服务器以及各种配件的厂商，它们的产品也会随之增值。比如，如果你用一个价值4万美金的H100来搭建服务器，仅这一部分就是一笔昂贵的投入。而且，随着Nvlink标准的采用，替代了以往的Pcie标准，意味着新的配件、新的线缆等都将应运而生，价格自然比过去高出许多。

我记得早些时候，为惠普的小型机配备一个简单的支架，就是一个铁质架子，都能卖出数千元的高价。原因在于它专为小型机设计，很多工程师甚至会私下找工厂定制支架，替换官方配件以赚取差价。这背后反映的是，即便是一些看似不起眼的配件，在特定情境下也能变得极其值钱。

大家其实也都知道，那个铁皮的支架，你说能值多少钱？你凭什么一定要买惠普的？他只要是惠普的工程师给你装上，下次他接着给你修不就完事了吗？你跟着这个比较贵的东西一块去卖，他就会卖的很贵。但是这几天呢，戴尔和这个超威的股价，其实已经快有点绷不住了。大家心里也明白，虽然你们跟老黄跟的很紧，但是这个里头真的，你就是个卖支架的，卖个铁皮，卖个机箱的，你跟着里头的GPU一起水涨船高，这件事稍微的有点侮辱大家的智商。

现在呢，是AI工厂时代，现在老黄也讲说我们现在就是AI factory。在这样的一个时代，我们应该如何与时俱进呢？我记得在移动互联网刚开始的时候，我们写很多应用，当时我们在思考说，哎呀，我怎么能够省一点流量，因为那个时候流量很贵。我们都想着如何去节省流量，如何在使用的时候联网，不使用的时候怎么把它断开，想着怎么去省一点电，怎么去做一些其他的节省资源的事情，可以少占一些硬盘的空间，可以交互的时候少交互一些流量。当时的我一位老板就跟我讲，说你们想这个事情是错的，说为什么呢？就是因为很简单，随着时代的发展，这些东西都会变得不值钱的。比如说现在，流量咱们现在……

其实，基本上是没有流量焦虑的。我记得最早开始使用手机，那时候刚进入3G时代，我们都会做什么呢？每天定时打开流量，收完邮件后立即关掉。为什么会这样？因为酷，而且节省。现在，还有人这样做吗？没有了。现在，我们走到哪儿，站在哪儿，就开始刷抖音、看视频。已经很少有人会说，我必须节省流量，等到有WiFi的地方再做这些。绝大部分人没有这个意识了。

电的问题现在也不那么大了。虽然手机应用还需要省电模式，但现在的手机几乎都是一天一充。你的应用再费电，能比微信还费电吗？能比原神还费电吗？所以，这些问题也变得无关紧要。因此，很多以前为了省电而做的操作，实际上已经没有意义了。

再往后说，我们是否会考虑在硬盘或手机上占用更少的空间？以前在猎豹工作时，我们还在研究如何让软件占用空间尽可能小。但现在看看《原神》有多大，看看那些手机游戏的大小，再看看微信在你手机里占了多少空间，就会觉得，我们当初那么精良的考虑，好像都没什么大作用。是的，所以在AI Factory这个时代，也就是AI工厂时代，我们仍在思考如何能省一点TOKEN，情况依然如此。

我怎么能够让它反应得稍微快一点？我怎么可以调用不同的大模型？这个模型贵一点，那个模型便宜点。我尽量让便宜的模型干尽量多的事情，让贵的模型干少一点的事情，做一些其他的，比如优化（reg）或者做一些这种节省沟通交互的事情。可能真的再过一年，这些就会变得很可笑，就像我前面讲的，我们在做手机应用的时候，让它怎么去省流量，从网上下载的东西少一点，占的硬盘空间少一点。我们现在回想，那时候想的这些事情就显得很可笑。但是在AI时代，刚才我们讲的怎么能够省一点TOKEN，怎么能够让便宜的模型多干点，贵的模型少干点，怎么能够让多个模型相互搭配起来使用，可能也会变得很可笑。而且，这个时间会来的非常快。

黄仁勋呢，除了讲数据中心业务，就像我们刚才提到的Blackvail，一切都是数据中心业务，这也是现在英伟达核心的收入来源，没有之一。现在，他主要就靠这个业务玩。那么其他的呢？也还在讲，英伟达这家公司特别有意思，它不会说某一个业务特别好，就把所有的身家都压上去。它永远是在所有它认为有趣的地方投注，即使这一个方向很长时间没有结果，它依然会在里面坚持。那么，它肯定还有些其他的业务在做什么呢？

比如说，RTX加载的AIPC，因为前面微软发布的AIPC是基于高通的。现在，英伟达说了，你们使用英伟达的GPU，也可以达到同样的水平。英伟达专门为了AIPC设计了一款很小很轻薄的GPU，而且很省电。但这一块上，它稍微有一点尴尬。为什么呢？你如果真的要轻薄省电，你一定使用ARM的，对吧？就是使用高通的就好了。那你说，我现在稍微费点电也可以，这个英特尔自己也出了，英特尔说，你们就直接用英特尔完整的GPU加上算力核心就完事了，你不用再去单独配独立的GPU，依然可以达到AIPC的能力。包括AMD也是这么干的，AMD自己也产X86的CPU，AMD说：“来哇，你直接买我的APU加我的算力核心，就一次搞定。”

那么，英伟达的RTX这个方案为什么尴尬呢？就是它必须要再搭配一块Intel或者是AMD的X86的CPU，它才可以正常工作起来。这对于强调轻薄便携的AIPC来说，就稍微有些尴尬了。但是，英伟达也强调了，加上他们的技术后，算力是苹果的多少多少倍，主要是与苹果的M系列芯片在比较。在这方面，我们还是要相信老黄的，他的算力确实是靠功率支撑起来的，如果他真想达到某个目标，他有这个实力。

说我在电脑上做Stable Diffusion的，这样出图，速度很快。那一定是配着呼啸的风扇声，以及呼呼转的电表，一起来工作的。除了AIPC之外，还在讲游戏助手。但是这个呢，我觉得大家看着开心一下就可以了。他说我做个助手帮大家打游戏，这个呢，就属于工程师思维——一拍脑袋觉得，“我需要一个这个”。其实，游戏跟这个没有那么大关系。就算是AI应用在游戏里面，应该也不是通过游戏助手的方式去应用的。

另外，还展示了机器人。他说所有跟机器人相关的东西，我们都上，也做了全套的机器人套件。还有，其实VR、AR以及车载芯片，其实都在英伟达的整个路线图里边。再往前走，很多人就会关心，英伟达到底还能坚持多久呢？他真的还差2,000亿美金就追上苹果了，对吧？苹果2.9万亿，他2.7万亿，真的差的不多了。他到底能不能超过苹果，甚至能不能超过微软，成为全世界最值钱的公司？这个其实大家心里都在打鼓。

英伟达呢，跟其他不管是微软也好，苹果也好，有一个特别本质的区别，就是它是一个“轻公司”。这个“轻公司”赶上时代红利是可以的，但是到底能不能长久地坚持下去，这个就很难了。黄仁勋展示现在的成就，未来的路线图，让人充满期待的同时，也不免有几分疑虑。

但是，并没有说我要砸重金进去，变成一个重型公司。大家注意，苹果是个很重的公司，它生产电脑——虽然电脑也是台湾人给他造的——它的手机是富士康，包括比亚迪都在给他造手机。它是这样的一个公司，虽然供应链在外面，但是这些货品、这些设计，包括全球的仓储物流，很多东西都是属于苹果自己的。所以，苹果是个很重的公司。微软其实也是一个很重的公司，微软自己在造Surface，那个东西虽然卖的并没有那么好，但是它也是电脑平板，甚至还有很多其他的硬件，比如说键盘鼠标。微软键盘鼠标其实做得非常好。而且微软其实还有一块很重的资产，那就是云计算中心，它有很多的数据中心。微软现在是全世界可能GPU最多的公司了，因为后边有OpenAI这样的一个“亲儿子”，那你肯定是要靠这么多的GPU去养的。微软现在的GPU，如果大概核算成H100的话，应该有180万块，这都是重资产。

谷歌呢，也是一个很重资产的公司。谷歌紧跟在英伟达之后，他现在是市值第四的公司。谷歌我记得在云计算兴起之前，曾经有一段时间，他拥有全世界大概6%的服务器，这是一个多么恐怖的数字。而现在，虽然应该没有那么多，但谷歌的数据中心依然规模惊人。

也是一块非常非常沉重的业务。而且，另外一点是什么呢？就是我们来看，整个的生态是否稳固，或者说，整个的价值体系是否可以稳定地升级上去。还有一个点可以看是什么？就是你上下游的生态链是否足够稳定。围着你吃饭的人到底有多少？以前我们在学生物的时候讲过一点：在一个自然环境里头，食物链越长，或者说参与到食物链里的动物、植物越多，它整个的生态系统就越稳定。为什么呢？因为其中有一些波动，其他的这些生态位上的人，或者这些动物，就可以慢慢地把它平衡回来，而不是说啊，我的食物链很短，就两三节，参与的动物也不是很多，植物也不是很多，可能中间稍微有一点闪失，这个食物链就崩溃了。

咱们来看看苹果，上下游其实有非常多的人围着他吃饭。我们不说这些果链企业，就光在苹果应用市场里头，做应用的这些人，也有几十万人，对很多人来说，这是他们的收入来源。再看谷歌，像我们现在在这看YouTube，我在这拿着YouTube的广告费，那我们也算是谷歌生态链里边的一环。那是非常多的人靠着谷歌生活。啊，微软那不必说这些靠广告吃饭的，因为微软的广告并没有那么多，但是微软上下游，是有大量的系统集成公司，靠着微软吃饭的。

还有微软云上的大量客户，但是英伟达有没有这么多人靠着它吃饭呢？英伟达虽然一直努力地在打造他的生态链，整个生态环境，但是并没有那么多。所有能战胜英伟达的，像刚才我们说的戴尔、超威等，这些已经都涨疯了。剩下的呢，其实没有那么容易贴上去。虽然有很多人说，“我们拿英伟达的CODA，我们去写这些Transformer的大模型。”但是这些人呢，实际上在整个的生态链里面是非常非常小的一群。现在能够真正把这个东西跑通的人非常少，虽然这个领域的人才工资非常高，但是人数真的不多，它没有真正撬动大众。所以，我从这两个方面来论述，英伟达到目前为止，依然是一个很轻的公司，资产很轻，它的整个生态链其实也是相对短而且相对脆弱的。

那么英伟达现在能够赌的是什么呢？就是这个缩放定律，叫“scoring low”。只要这个东西依然有效，黄仁勋呢，就还可以继续狂飙那么一段时间。“scoring low”是什么东西？就是我堆更多的数据，上更大的模型，上更大的算力去计算，然后得到的模型效果就更好。这个东西只要依然在，还可以大力出奇迹。那么大家就说，那我们就接着老老实实地买他们家显卡。

而且，这种倍速一定是十倍、百倍、千倍这样往上涨，为什么呢？因为如果你说，我英伟达下一代的GPU就比现在快20%，那大家就不更新了。或者说，我干脆去买AMD吧，AMD的比你这还便宜点，算力也没有那么差，只是这个过程稍微麻烦一点——我需要重新去适配AMD的算力卡。大家要注意，因为做这行的人很少，这些人很聪明，对他们来说，适配一个新的算力卡，难度并没有那么高。

刚才我为什么专门讲了苹果的生态链、谷歌的生态链、微软的生态链？因为它们里面有很多低端开发者，对他们这些低端开发者来说，技术迁移的门槛是很高的。你让他重新换一下，比如说，“你原来做安卓的，现在去给我做iOS开发去”，他真不会。甚至说，他学会了以后还能涨些薪水。但是对于英伟达来说，如果他没有办法快速地让算力十倍、百倍、千倍地涨上去，那么大家就会渐渐背离他，对他的忠诚度是相对比较低的。

有可能造成英伟达崩塌的原因有三个，咱们最后总结一下：

第一个就是摩尔定律失效了，缩放定律已经没效果了。大家发现，上更多的数据，配更大的模型，训练完了以后效果提升了。一旦到这样的情况，就不会有人再疯狂地去买他的新显卡了。

第二个中心转移了。突然间，又一个特别赚钱的应用方向爆发起来。大家注意，现在为什么大家都在选择这个？因为“缩放法则”——谁都用不好。大家只能去比谁的模型做得更好，然后去跑这个，跑那个。但是一旦发现，这个模型在做一些特定应用时，效果好得一塌糊涂，而且极其赚钱，那么这个时候，就不会有那么多人继续投入资金去做新模型的研发了。他们可能觉得，现在的模型就够了。这相当于什么呢？就是说，虽然“缩放法则”仍然有效，并没有崩塌，但是没有人愿意再往上堆成本了。因为，尽管“缩放法则”有效，但增加更多的算例、更多的数据，那都是钱。一旦出现特别赚钱的领域，即使“缩放法则”依然有效，增长也会停止。

第三个因素是巨头合作，突破并扩大了垄断。现在，大家离不开英伟达的原因，就在于它推进的这套扩大——可以称之为通用计算方法，具体的名称我不再详查，它是不开源的，而且英伟达拥有专利。因此，大家都在这个基础上进行了应用开发和大模型的训练。之后，想要更换这个技术，就会有一个成本。这个成本，我们要反复讲，不高也不低，为什么会这样呢？

肯定换过去以后会有些兼容性的问题。但是呢，因为你后边真正使用你的H100也好，Blackware也好，都是些什么人？特斯拉、苹果、谷歌、微软、亚马逊——他们可以花最贵的钱，雇最好的工程师，说来咱们今天去改一遍就完事了。这个都是有可能的。但是，这个临界点在什么地方？临界点就是，如果涨不上去了，那咱就改；或者说突然有人说，“我愿意砸一笔更大的钱进来，咱就改。”为什么？詹奥特曼说，“咱们砸一笔大钱啊，1,000亿美金，或者说1,000万块H100算力的这个GPU，我们统一搞一次，做星际之门去。”这个对于英伟达来说，都是比较大的威胁。就是这三个威胁。

英伟达呢，也算是我们现在的一个传奇故事。我相信在整个的AICC大时代里头，我们还可以不断地看到它的故事继续。好啊，今天我们要讲的故事就到这里。感谢大家收听，请帮忙点赞点小铃铛，参加Disco讨论群，也欢迎有兴趣有能力的朋友加入我们的付费频道，再见！

华为大模型演示翻车现场：time.sleep(6)真的值得大惊小怪吗？老程序员深度解析代码背后的真相！睡6秒不是什么大问题，不过图像RAG，到底是个什么坑？

Luke Fan — Fri, 17 May 2024 00:39:26 +0000

大家好，

欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲华为大模型演示翻车现场。

近期呢，非常多的AI相关的项目都在进行演示和发布，特别是国内。为什么它？因为时间到了。通常每年在这个时候也会有很多发布，因为每年在这个时候会开谷歌IO，大家喜欢在谷歌IO的前后进行信息的发布啊。因为谷歌IO算是全世界程序员或者开发者的一个盛会吧。那这个前后进行信息发布的话，如果它被安卓采用了，或者再跟谷歌搭上一点关系的这种技术会有更好的发展空间。

那今年呢，还有另外一个事情，就是拉玛3发布。前面其实国产很多大模型都是跟拉玛2有千丝万缕的联系。其实当时就已经预言过，我说拉玛3出来看多长时间之后，国内的大模型会争先恐后的再更新换代一波。现在呢，这个时间点就到了。前面阿里的通1,000问2.5发布，这两天还有几个，一个是零一万物的啊，叫e latch大模型发布，然后字节跳动的豆包大模型前两天也发布了啊。这豆包大模型主打的一个便宜，对别人的价格都便宜非常多，因为大模型的价格一般是按TOKEN算的啊，一般一个汉字是一个TOKEN，大概四个字母，还是几个字母的英文单词，是一个TOKEN啊，它这个算法比较奇怪。

华为呢，也在发布他们的升腾大模型。结果现场演示的一段视频就爆火了。现场演示什么呢？就是一个Python代码，啊而且是正在写的Python代码，他们还很神奇，直接在底下的命令行窗口里边就输入信息了，说请帮我输出一个什么什么图片，还号称是REG的一个图片生成。一开始啊，这位小哥输出的时候呢，就写错了，先写了请帮，然后啪打了一个回车。其实我们在做各种大模型实验的时候，这个事是很常见的啊，因为呢都是对话系统嘛。你一打回车，他就开始干活去了。所以呢，一开始写请帮，他打了一回车，打一回车呢，后边那个程序就开始跑了。他就打了个Ctrl-c，就是把这个程序中断掉。

将一般我们使用的，像Python这种解释性语言，或脚本语言的程序，都可以靠Ctrl-c把它中断下来。中断完了以后呢，大家就看到了一些信息，写的是输出到，叫做output点洁癖器，是调用的XMINDX的一个库。然后呢，大家真正关注的是，里头有一句话，叫time.sleep(6)这样的一个话在里面。

那么大家说说你这个到底在干啥啊？你是不是要等着6秒钟以后，再给我看图片就完事了呢？啊，因为大家也确实是呃，测试了一下视频啊，就是他正确的输入了以后，等了6秒钟，然后这个图片就生成出来了。大家就觉得你是不是在这骗傻子呢？

很多人在知乎啊，在很多地方就开始讨论了，说华为是不是又遥遥领先了呢？跟大家稍微解释一下这个事啊。啊，我个人是专门做职业的编程演示的，可能在国内比我更职业的人不多啊。为什么这么讲，我是原来Bolan的公司，大中华区的image list，就是每天就出去给人做演示啊，我的工作就干这事。这个事呢，我干了四年啊，大概是在全国各地演示了，应该有可能几百场啊，就各种新特性演示。

因为这次，其实你基本上把它认为是一种，叫做授权工程师，每一次Boland出什么新的编程特性了，然后我就出去给人演示去。所以这个事，我相对来说还是比较熟练的。那么他这一次演示呢，为什么会出这样的事情啊？我们也尝试帮他洗一洗，对吧咱们别老说老范，你是不是很讨厌华为，没有啊怎么可能呢，对吧咱们稍微讲一下，这事到底是发生了什么。

首先呢，我们要先想清楚他到底在掩饰什么，这个其实是比这个sleep(6)这个事更重要的。
要更奇葩的一个事。为什么呢？因为他演示了一个非常不常见的功能，叫做图片RA器。这个功能其实用的人不是没有，有人在用，但是呃，很少人用。

咱们先讲讲什么是reg啊。reg这个东西呢，叫检索辅助生成。为什么要做reg呢？因为我们知道，这个大模型经常会一本正经胡说八道。那我们怎么避免大模型一本正经的胡说八道呢？很简单，就是我们先给他准备好小抄啊，或者说准备好一堆的小纸条，说请把这些都背下来啊，请按照这个小纸条上的内容去给我回答啊，不允许自己瞎编啊。我们通常会通过这样的方式，来让大模型按照我们要求的方式去输出啊，这就是做Rag。

然后Rag的这个原理其实也很简单。我们先给他一大堆的这种小纸条啊，就是基础内容吧，然后呢让他去做嵌入啊，in bedding inviting的过程是什么呢？就是他把你给他的一段话啊，这段话通常还挺长，一般是可能500多字，有的有1,000多字，把这个话呢啊，变成一个数组啊，或者说变成一个矢量空间。但是呢他这个矢量空间不是二维的，不是三维的啊，而是可能 102四维，就是一个很高维度的一个矢量空间上的一个点。就是你给他一堆文字，然后这堆文字说哎，我认为这个文字在这个点上，然后再给他下一堆文字的时候，他再给他标注一个点啊，这个叫史量化。然后呢你再说我现在要问问题了，他呢把你的问题也做一次质量化啊，也在这个质量空间里头，1024维或者有的有4096维的这样的一个高维的空间里头啊，把你的问题做一个点，然后再下一步是什么呢？找到在这个更高维空间里头，离你的问题最近的5个点或者几个点，都是谁相对来说，就可以找到跟你提的问题模糊相关的内容信息。但是大家听到了我讲的这个过程没有？就是RAG整个干的活，其实基本上都是在文字基础上干的。他不是在图片基础上干的啊。所以他做图片RAG这件事，确实是比较奇葩。

通常我们做RAG演示都是什么呢？我们先把用户手册输进去，把各种报表把这些东西输进去，然后呢我们就问，大模型说哎，这个用户手册上说啊，这个按钮按了以后该怎么办啊，或者说这个报错了，然后出现哪个哪个报错码了，该怎么办啊？然后他先到这个史兰库里去搜，搜完了以后呢，找到四五条跟他相关的信息，然后呢去做一个事，叫提示搜工程。这个提示词工程一般这么写啊，说我们现在有一个问题啊，问题是这个用户提的，然后呢，我们通过RAG去找到了5条相关的答案，现在请对这5条答案进行总结输出，所有这个答案里头没有相关的内容，请不要去加编啊，我们一般会给他写一个这样的提示词，最前的是问题，后边是5条答案，下边是提示词，然后给你生成一个你想要的结果。通常还是要把这5条相关的信息，也都在后边备注下来，说你看啊啊，这个是我们当时搜到的这5个节点啊，你看看跟他是不是一致，因为他有的时候编的时候，还会总结的有问题嘛，他一般这样工作的。

但是图片RAG一般是怎么工作的，你们知道吗？啊他一般这样，就是说你先给他一堆图片，拿着这些图片以后啊，先要干什么叫做图片识别，我们先把图片都识别成文字，比如说这是一个男人长成什么样，然后如何如何，先识别一大堆这样东西出来，识别了以后呢，再把这个已经识别好的文字，再去做实量化，然后你说，我现在想要画一个什么样的图啊，照这个图片再去做rag生成的时候啊，也是可以做的啊，你比如说我现在，已经把一堆的这个图片放进去了啊，比如说中世纪的铠甲的，汉服的和服的啊，西装的休闲装的，我生成了一堆这玩意进去，生成完了以后呢。我现在给他一个新的人说，现在请给我把他换成一身这个什么样的衣服出来。这个其实就有点像RAG的过程啊，但是通常我们不这么干。通常干的过程呢，是直接用Ctrl night模型做端到端的处理啊。啊但是我们比如说就是做图片RAG了，那么你确实是可以这么来处理的啊。他最后能够保证什么呢？保证就是说哎，你输出里头有一部分是一致性的啊，这个人长得跟你输进来那个人还挺像的啊，中世纪铠甲跟你原来输进去的中世纪铠甲长得也挺像的，对吧这两个凑在一起还可以，这个就可以达到做图像rag的目的啊。但是呢呃，这种用途其实并不是那么常见了，可能用的更多的还是啊，直接在stable diffusion里面去呃做contranite，做一个换装，做这块的会做的稍微多一点点。现在他这个演示呢，就啊相对来说比较奇怪了。为什么奇怪呢？就是他演示的，是他最后底子说了一句话，前面的部分我们没看到，因为我们只看到最后翻车这一块嘛。啊前面到底是怎么演示的，如何入库的部分，我们没看到。通常情况下，这个RAG的完整演示，是要先给人演示入库的部分，然后呢，再演示这个检索和输出的部分。最后RAG真正给人看的是什么呢？就是你的输入跟输出之间的一致性，你看没有胡说八道啊，这个确实是原来我输入的东西，直接给他做出来了呀。一般是给人看这种东西，而不是说我给你一句话，然后你就给我输出一个图片，这个呢一般是做纹身图，会给人演示这个啊，所以他这个演示相对来说比较奇怪。当然也有可能是呃，我们前面的没看到前面有输入的部分，因为演示出了一些问题，然后导致这位做演示的小朋友呢，啊比较紧张，后边应该演示的部分没有演示出来，这个可能性是存在的。但是可能性没有那么大啊。待会我们再想为什么。那么，什么情况下会出现sleep(6)呢？这个sleep(6)其实很简单，就是停6秒钟啊，就是让这个程序什么也别干，等6秒钟以后再干活。大家甭管懂不懂编程的，会不会Python的sleep(6)，这个跟大家想象的是一样的啊，就按语意意思去理解，没有任何毛病。

那么首先要想清楚一个问题，control c的时候，99.99999%的可能性会停在sleep(6)上。大家知道为什么吗？其实很简单啊，就是在正常程序运行的时候，每一个语句执行的速度都是很快的，你是没有办法说，我确定他停在什么地方。但是sleep(6)，你想这6秒钟，他实际上就执行了这一句话。像其他的每一句话执行，可能只是零点几毫秒，或者是有一个毫秒，我估计一毫秒都不会有，只有一句话，是做了这个6秒钟的执行啊。那你打Ctrl-c，你想它停在这个sleep(6)上的概率有多大？所以你如果里头有sleep语句，你打control c的时候，99.999%的这个概率都会停在这句上。

第二个呢，有很多人就在猜了，说你是不是啥都没干，停了6秒钟，然后直接在后台哪学，不张图就扔出来了。现在很多人在猜测这件事啊。呃，我觉得这种可能性倒没有那么大啊。这个可能性没有那么大，为什么呢？有点太忽悠人了啊。虽然人家很遥遥领先，但是你想去华为上班也没有那么容易。像我现在这样的水平，要简历到华为，华为人还不要我呢。所以呢，我们不要随便小看天下人啊。

正常情况下，写这个sleep(6)呢，啊是两种情况啊。第一种情况呢，就是做大模型这个输出的时候，没有做状态监控，这个事呢，是很常见的。为什么呢？就是大模型输出啊，通常情况下，他是要等一会，不是说我在这头啪一回车，那头就出来了。一般情况下，我们执行一个程序，执行一个语句的时候，他如果是很快就可以出来，我们就让他锁在那跑，就完了。啊，什么叫锁在那他跑？就是说，当他需要进行长时间等待的时候，这个计算机是锁定状态。你在这个时候再输入任何信息进去啊，再动鼠标或者再做任何点击，他是不理你的啊。但是这个呢，很危险啊，因为有的时候他就锁死在里头，就出不来了。那所以很多呢，我们会让他在后台执行，就是他是前后台进程嘛，后台进程。

那么后台进行的时候呢，正常是什么呢？正常我们要监控他执行的结果。后台执行了哎，执行完了，你要告诉他说哎，现在执行完了，现在请展示出来。咱们经常看大模型执行的时候，那个字是一个字一个字出来的，对吧？你问他一个什么话，嘣嘣嘣嘣嘣，一个字往下跳。这种呢，叫stream输出，或者叫流式输出。那干嘛呢？就是说我这边命令你去回答问题了，然后呢我在那等啊，你出一个字了，我就赶快把这个字拿出来，给大家展示出来。再出一个字了哎，再赶快再把这事哎提出来，再给大家展示。然后一直到出完了啊，我知道哎，这句话出完了，再去执行后面的程序。正常情况下他是这么干活的。

但是呢，有些人说，我为了省事啊，我就不费这劲了，我也不监控你的结果了。我认为你大概6秒钟能跑完，我先背着他跑，然后另外一头呢，我等6秒钟啊，等完6秒钟以后直接去取结果，大概率不会出问题啊。有人这么干啊，不是说没有，特别是一些叫萝卜急了不稀泥的这种程序啊，就是我很着急写一个，我就不用写那么细致了。因为你要知道，从这个监控和后台这件事来说，是挺麻烦的，不是那么容易的。你可能需要现场写个，可能十几句，至少得写个三五句吧，你才能把后台进程的状态监控起来。这是一种情况。然后另外一种情况是什么呢？就是啊，他所调用的大模型是有RPM限制的。什么叫RPM限制？就是每分钟调用多少次是有限制的啊。因为现在大家知道算力很贵，对吧？那么大模型这些厂商为了不要让大家快速的、高频的去调用自己的大模型，他们会给这些调用方设置每分钟限制的次数。因为我自己的一个程序里头，也是写了sleep play啊。我调用的是谁家的？就灵异万物他们家的大模型。我是充了200块钱在里头，他给我设的是什么呢？是一分钟十次啊。就是我每分钟最多可以钓10次。那做个sleep(6)呗。我这头钓，钓完了以后停6秒钟，然后我再钓下一次。这样就肯定不会有什么问题嘛。这个是比较常见的啊。因为这种东西，你没法去监控服务器运转状态，然后说我是不是可以掉下一次了，这个事只能是自己sleep啊。当然也有一种这个更精确的方式是什么呢？就是我先钓了，钓完了以后啊，然后我去呃等一会啊，再钓一次，然后发现错了以后呢，等再等一会再去钓对吧。他有的时候会去做我们管他叫Retry吧，也有这么干的。但是这个呢，属于是非常不友好的钓用方式啊，因为虽然最后人家可能还是啊，6秒钟替你服务了一次，但是你在不停的去刷他的服务器啊，这类似于一种低DOS攻击，所以这种方式不是那么友好。所以这种sleep(6)也是很常见的啊。我们现场到底看到了什么？这是一个前端演示的程序员啊，大家一定要注意，他并没有给大家去做这种完整的客户端演示，而是告诉大家说哎，我怎么通过简单的编程，就可以看到一个什么样的效果。而这位朋友写的呢，也不是很熟练至少像我们以前出去给人演示，你各种演示的demo还要练几次，然后各种容易出的错误，你可能平时练习的时候都出过。各种预案：

我们会留的比较足，所以不会现场出这样的问题。这是第一个。

第二个呢，就是他这种代码正常应该是现场写的。就是他不可能说哎，我这个代码是已经写好了，然后呢我给大家看一下。这个绝不是这样啊，因为如果是工程里边，这个代码就写成这样的话，华为早就挂菜了啊，不可能啊。混了这么多天，被这么多人讨厌，还在这活的好好的。

为什么这么讲呢？time.sleep(6)这个事儿啊，其实不算过分。然后后边儿有一个叫写到output点儿洁癖记里头。大家有没有看到这一行代码？这个才是真正比较过分的。这叫什么东西？这叫呃，我们把输出文件名儿直接写死了，对吧？这个实在是很奇葩的一种玩法。

正常情况下，我们应该怎么办呢？应该询问用户叫什么文件名，对吧？这是第一种方式。第二种呢，我们一般会采用一个叫文件名生成的一个程序。我们会生成一个保证不重复的文件名，啊比如说我这个是用日期时间戳，再加上一个哈息数，再加上一定的啊表意的信息，然后生成一个完整的文件名啊，或者是说我再加上什么特定的路径啊，这样能够保证这个文件名随时都可以生成，而且不重名，甚至我们还会去写程序说，我保证啊，文件输出的时候，去进行文件名存在判断啊，说是不是有这个文件，如果有的话，我怎么再去换一个跟他不一样的文件名。这个是正常的工程里边的写法，而不是把这个文件名直接写死在里面。

所以通过这个来看呢，这个代码大概率是现场写的啊。那什么时候需要现场写代码？就是告诉大家说，这个他们叫做升腾大模型啊，因为上面有一个叫MINDX啊，有这样的一个提示出来，也是说我们在调这个库的时候啊，发生了这样的问题啊。这个MNDX呢，就是升腾大模型的意思啊，就是你吊这个东西的时候很方便。你不需要很强的工程能力。你也不需要很强的技术的门槛。你就随便就可以吊啊，随便写两句就能把它吊出来啊。他实际上在演示这种东西。

在这个里头，你出现各种不规范的代码，什么sleep(6)啊，什么写死了文件名儿啊，哪怕是重复了文件名儿，重名儿的，我直接把原来的覆盖掉。这个都不是什么大毛病啊。我们以前也经常这么干。

像我以前去做演示的时候，现场演示，虽然我那个代码都会提前练好啊，但是我一定要到现场敲。你一定不能是从一个文档里头，口碑出来，或者说你看我这有一个程序，我直接调用一下就完了啊。这个现场看的人是不买账的。

你万一后头藏了个几十万行代码，你说我我一调用，我一贴贴上去了，我就可以跑了，那人家说我学不会。你一定是你看啊，我就写了三句啊，5句第一句什么，第二句的什么，然后写到第五句，啪一回车，哎结果出来了。呃然后让人下边一看哇，是这样的。对一定是这么一个过程啊。

像我们以前经常干什么，叫什么A1 A2 A3 A4 B1 B2 B3 B4，这是干嘛呢，起这个变量名。大家知道，正常写程序，你按工程的要求来说，你是不可能这么起变量名的。你这么起变量名，这个程序大了以后，你根本没法改错误。

但是我们在现场演示的时候，都是这样的文件名啊。这个其实是蛮正常的，因为为什么你在现场，你再去想说，我到底按一个什么样的命名规则，去命名哪个大写，哪个小写，英文怎么拼写，然后拼对了，拼错了这个烦死了，对吧你还不如叫A1A2呢，这个多省事啊。然后最后你就直接把结果出来了啊。这个才是大家想要看到的啊。

所以啊，不要因为说他写了个sleep(6)，你就觉得他在骗人了。跟后边那个right，什么output点GPG那个差远了。有这两句。只能说明，我们大家现在看到的这段代码，是在现场写的，而不是按照华为标准的工程要求去写的啊。只能说明这件事，这件事情，你说就不是在骗傻子吗？大概率还真是。为什么呢？虽然我刚才解释了，这个代码并没有什么大的问题，但是大家要想清楚，他在演示什么东西。他在演示RAG图像生成啊。其实华为的用户里头，做Rag图像生成这种需求的人，应该没有几个，对吧？什么人干这事？电商的人啊，我去做换装。而且通常情况下，人家也不是做reg图像生成，人家直接是stable diffusion做换装就完了啊。没有人去做这个。甚至还有一些人是干嘛呢？是去做这个游戏对吧。比如说我现在要去啊，做一个游戏工作室，然后我要保证说我输出的所有的骑士，所有的什么东西啊，这些要有一定的一致性。反正就是这个类目是存在的啊，但是真正实际用起来的人，本身是非常少的。而且你想，他最后写了这么一句话，写完了以后，那头就直接给你画出来了啊。我的感觉是什么呢？就是他喊了RAG的名字，因为现在特别是对于华为的用户，他的用户一般是企业用户，或者是政府用户，他们不可能去做电商，也不可能去做游戏啊。对于他们来说呢，你不给他讲RAG，不给他讲知识库呢，他们就不买单。所以，一定要把这个高大上的词给你讲上。然后呢，我如果直接给你看一下，我检索了啊，谁谁谁的讲话，谁谁谁的路线指导思想这个事呢，这又容易翻车。那怎么办呢？咱就现场给你画个画啊。这个画呢，还比较震撼，让你觉得啊，这个事情很有趣对吧。所以呢，你看哎，我也RAG了，最后我还画出一幅画来。所以这个演示的过程啊，可能有一定的欺骗性吧。我们觉得讲成这样，算是比较呃客观中立的一个讲法啊。这个呢，就是这一次华为升腾大模型展示。里边出现的bug啊，我们进行的一个解读啊，希望你甭管懂不懂编程啊，懂不懂这个RAG到底是干什么，懂不懂这个大模型怎么回事。啊，通过我的讲解呢，啊你能够对这个事情，有一个更深刻的理解。

好啊，这一期就讲到这里，感谢大家收听。请帮忙点赞点小铃铛，参加disco讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。