硕鼠的博客站

范路的博客主站,时而会发些东西。

今天讲一下如何在Dify里面调用最新的文生图模型FLUX.1。FLUX.1是由Stability,也就是做Stable Diffusion的那家公司的一帮创始元老离职后做的新的文生图模型。现在据说效果非常好,我自己试了一下,确实还可以。那么今天跟大家演示一下如何在Dify里边去使用这个FLUX.1模型。

首先,我们要去找一个云端可以跑的FLUX.1模型。你说我直接到FLUX网站上去行不行?没问题啊,但是他们的这个要付费,特别是FLUX Pro是要付费的。我们先找一个免费的,先跑起来吧,特别是在国内能用的这种免费的,先让它跑起来。我们找到了硅基流动这样的一个网站。我们看一下它这个网站长什么样子。这样前面其实跟大家介绍过硅基流动这个项目,先登录进去。

登录进去以后,我们就可以选择这边的叫文生图了。然后呢,它可以选择FLUX.1-dev。FLUX.1点这个,这个叫这个词就不念了,反正是比较小的这个模型,效果都是很好的,横的竖的都没问题,对吧?然后呢,这个步数,50步到头了,最多就是50步,所以我们就准备来使用这个模型了。

那怎么使用呢?首先要去看文档,对吧?它的API到底是怎么调用的?点一下文档,点到文档以后,我们选API手册,然后呢点击文生图,就到这样的一个页面了。告诉你说我通过CURL怎么去调用的。下一步该怎么办?先把它复制下来。我们到Dify里面去,先增加一个工具,自定义啊,新的一个。在这里呢,我们就要做下一件事了。它使用的是OpenAPI,Swagger这样的一个规范去干活了。我做一个叫随便聊聊的聊天机器人,任何提示词不给他。

然后把 Claude 3.5 Sonnet 直接挂在后面时,我现在就可以跟他聊天了。好,那么我现在要跟他说,请根据以下案例编写一段代码,OpenAPI Swagger 代码,走你。回车,好,他就去干活去了。OpenAPI Swagger 实际上就是包装各种各样的 Restful 代码的一个框架。然后把这一块拷贝下来,我们回到这里贴上,这就是贴好了。以后他就可以去干活去了。哎,先测试一次啊,测试一次。比如说,你看他有这么多的值可以去用啊,这个首先是提示词,比如说“一只喝咖啡看报纸的拟人狗,穿着西装”,好,假设是这样吧。这里呢有一个鉴权方式,什么意思呢?就是很多的这种都是需要授权的,我们需要在这里把我们的 TOKEN 要贴进去。然后 1024×1024 画个方的吧,然后多少步呢,这个 50 吧,刚才不是设到头就是 50 吗?测试一下。呃,这个好像跟我们想象的不太一样啊,我们要求他画这个狗,难道我写错了吗?待会我们想办法让 AI 把我们的语句稍微加工一下,然后再去画。但是呢,至少画成功了啊。再下一步给它起个名字叫 FLUX.1,就这样保存好。我们有了一个叫 FLUX.1,这个前面还有 FLUX.1 from,这是我上次做的。那么下一步我们就要用这个玩意了啊。那么我们去创建一个新的聊天应用,这个应用叫画图。创建模型的话,直接调用 GPT4O mini 吧,然后我们来写提示词。啊,不要看我这提示词写得很长啊,这个没有关系的。而且,这是当时为 DALL.E-3 写的一个提示词。大家可以点击这个按钮自己去生成提示词,这种提示词都是生成出来的啊。我们通过提示词,用户输入信息,生成一个可以画画的提示词。

让他稍微总结一下。然后来工具自定义。刚才我们做的这个FLUX.1,它的提示词是经过加工以后的。然后尺寸,我个人比较喜欢1080P,1920×1080。这个地方的话,50吧,反正多刷几个能够好看一点。好,这个地方就做完了。再往后输出,把提示词放出来,还可以拿它再到MidJourney或者DALL.E-3再画一次,然后再把内容生成的文本输出出来。啊,他最后会给你一个链接,预览一下。一只拟人狗,身着西装,戴着眼镜,喝着咖啡,看着报纸。让我们来试试,画去了。好,让我们看看这幅图怎么样。啊,喝着咖啡,看着报纸,戴着眼镜,穿着西装的拟人狗,对吧?是不是有那么点感觉了?当然,他这个手跟袖子脱开了,稍微差点意思。我觉得已经基本上可以让大家去使用了。

我们今天演示了使用硅基流动的FLUX.1云端模型,而且现在是免费的。使用这种模型,我们到Dify里面去,在工具里面自定义了一个工具Claude 3.5 Sonnet自动生成的。啊,我们只需要把文档里边的这个调用方式扔给Claude 3.5 Sonnet,然后说给我生成OpenAPI Swagger就搞定了。这个里头一个字都没改过,测试成功了以后把API Key输进去。现在的话,你去注册硅基流动会送14块钱,而且这个玩意画多少次不要钱的。

再往后呢,啊,我们演示了使用画图这样的一个流程,先通过GPT-4o mini去做了一个根据输入生成提示词的一个过程。然后呢,再调用刚才我们自己定义的这个插件,生成出来的图片,画出了刚才我们要的这张穿西装、戴眼镜、喝咖啡、看报纸的拟人狗。这就是我们今天给大家演示的,这就是我的一个AI课程。

今天呢,把这个节目放在公众频道里,但是更多的课程呢是在付费频道里。为什么在那边呢?啊,因为这种课程其实看起来比较累,不在公众频道里影响大家了。不过今天这个因为比较好玩,所以跟大家演示一下,具体怎么去装 Dify,具体怎么去给里面做各种配置的课程,是在我们的付费频道里。今天就跟大家讲到这里,感谢大家收听,再见。

 

Both comments and pings are currently closed.

Comments are closed.

Close Bitnami banner
Bitnami