11 月 23
Luke FanAIGC, Google的故事 4K图像, AI Studio, AI图像生成, AI绘画, Gemini 3 Pro, Gemini API, Gemini使用教程, Google AI, MidJourney对比, Nano Banana Pro, Nano Banana Pro价格, Nano Banana Pro免费, Nano Banana Pro测评, PPT设计, 信息图表, 图像编辑, 多图融合, 多模态AI, 搜索增强绘图, 文字渲染, 文生图, 自然语言修图, 角色一致性, 谷歌AI绘画
Nano Banana Pro发布了,它在Nano Banana的基础上到底做了些什么新东西?
大家好,欢迎收听老范讲故事的YouTube频道。
大家等了半天的Nano Banana 2没有来,出来的是Nano Banana Pro。当然,前面Nano Banana Pro也是隐姓埋名,在各种的大模型评测平台上偷跑了好长时间。所以很多人呢,信誓旦旦地说:“我已经用到了这个东西,强的没边了。”现在终于发布出来了。
从Nano Banana到Nano Banana Pro:核心区别是什么?
从名字上呢,一个叫Nano Banana,另外一个呢加了个Pro,它们到底差在哪呢?原来的Nano Banana,其实是叫做Gemini 2.5 Flash image。现在的Nano Banana Pro呢,它背后的模型是Gemini 3.0 Pro image,是两个不同版本。而且一个呢是Flash,一个呢是Pro。Flash一定是比较快,出来的东西呢相对比较粗糙;而Pro的话,出来的东西就会比较笨重了,或者说比较昂贵,而且出来的东西非常非常细致和完善,它们核心的区别就在这里。
Nano Banana也是先在外边测试了很久然后才发布,这个名字也是当时他们测试的时候使用的名字。当然这一次测试呢,并没有叫纳米香蕉,这次换了个名字,因为纳米香蕉这名字你用过了嘛,好像叫GENIMG,大概是这样的一个名字去测试的。
More
3 月 27
Luke FanAIGC 3D建模辅助, AI图像生成, AI绘图工作流, DALL-E 3升级, Gemini 2.0 Flash, GPT-4o评测, GROK3图像编辑, IP形象开发, MidJourney对比, OpenAI更新, UI图标库生成, 个性化头像生成, 中文AI绘图, 中文提示词优化, 中文艺术字生成, 产品包装设计, 企业级API接入, 创意内容商业化, 动态分镜制作, 商业logo设计, 商业应用场景, 团队协作绘图, 图像生成API, 图像生成速度对比, 图像生成限制放宽, 复杂指令解析, 多模态AI, 多模态输入输出, 多轮对话绘图, 多风格控制测试, 实时绘图优化, 宫崎骏风格头像, 广告素材生成, 庆丰包子铺乐高, 影视分镜制作, 影视概念设计, 指令理解模型, 教育培训禁用, 数字水印技术, 数字水印溯源, 数字资产创作, 智能修图革命, 模型迭代路径, 泡泡玛特风格, 游戏角色建模, 版权内容生成, 版权合规生成, 生产力工具革新, 生成式AI进化, 电商主图优化, 电商图标设计, 电子书插图, 皮克斯风格绘图, 社交媒体配图, 聊天式图像编辑, 艺术性与实用性平衡, 虚拟偶像创作, 角色一致性生成, 语义依存度测试, 语义精准控制, 跨平台图像生成, 透明图标设计, 靠嘴修图
OpenAI更新了他们的图像生成模型。看来20美金一个月的套餐,还要继续续下去啊。大家好,欢迎收听老范讲故事的YouTube频道。OpenAI最近也开始卷起来了,对吧?前面开始出O1、O3,出GPT4.5,现在好了,把这个图像生成模型也更新了。最近其实大家都在卷图像,卷了一整波的图像。最早开始卷图像的是国内的这些应用,像豆包、千问,他们最早开始卷。这个模型没更新,卷的是客户端和手机端的应用,希望说你出去照完相以后,说给我去换个衣服,换个背景,去做这样的事情。但是这个因为模型本身的能力有限,所以效果并不是特别好。我试过比如说,我把自己的一张照片发上去以后,说来,给我把这个背景换成海滩。背景确实换成海滩了,但是他把前面这个人物也重绘了,不像我了。这就是国内卷了一波。
真正拉开序幕的是谁?是谷歌的Gemini 2.0 Flash。他们出了一个可以同时输出文字和图像的模型。这个模型出来以后,很多人惊呼,以后Photoshop修图就没你们什么事了啊。为什么?你可以上传一个杯子的图片,再上传一个美女的图片给它,提示词说请让美女举着杯子。那个图片出来了以后,是非常逻辑自洽的,不会看着有任何别扭的地方。或者你给她个包,说想让这个美女拎着包,这个效果好极了。甚至我拿了一些MidJourney画的图片上去,说再给我把某个公司的logo贴上,效果极好,特别的逻辑自洽,而且支持中文输出。这个其实挺难的。目前为止,支持中文输出的图像生成模型,原来就是国内的极梦,也是字节下边有一个版本是支持的。现在Gemini也是支持中文输出的,而且它支持多模态输入。你可以跟它说话,你可以给它输入图片,说你把这张图片跟那张图片合在一起,它效果都很好,完全可以实现聊天修图像。
More