Tag:Gemini 2.0 Flash - 老范讲故事的博客站

Midjourney V7震撼发布：艺术巅峰细节狂魔强势回归，但面对GPT-4o的一致性与定价策略，它还是AI绘图的唯一真神吗？

4 月 06

Luke FanAIGC 30美元), 3D模型, AI Agent, AI大模型内卷, AI绘图, AI绘画工具, Alpha版, DeepSeek R1, Gemini 2.0 Flash, GPT-4o, Grok (XAI), MidJourney V6.1, MidJourney V7, MidJourney更新, MidJourney评测, Relax模式, Turbo模式, V7发布, 一致性问题, 个性化设置, 中文提示词, 书店, 人工智能, 人物绘画 (汉服新娘), 优缺点分析, 厨房, 吉卜力风格, 图像生成, 图像质量, 场景绘画, 基础模型竞争, 定价策略, 戏精AI, 手绘风格, 指令理解, 文字生成能力, 横评对比, 照片真实感, 生产力工具潜力, 用嘴生图, 皮克斯3D风格, 细节狂魔, 艺术表现力, 草稿模式, 视频生成, 订阅费用 (10美元, 语音生成, 酒吧, 食物绘画 (拉面) Midjourney V7震撼发布：艺术巅峰细节狂魔强势回归，但面对GPT-4o的一致性与定价策略，它还是AI绘图的唯一真神吗？已关闭评论

MidJourney V7终于发布了，是不是王者归来了呢？

大家好，欢迎收听老范讲故事的YouTube频道。2025年，大模型进入了快速内卷期。从春节的时候，DeepSeek R1发布，打响了第一枪。前面DeepSeek V3大家还没觉得怎么样，R1一出来，第一枪打响了，大家开始卷推理、卷开源、卷免费、卷基础模型。

基础模型是什么？GPT-4.5、Claude 3.7、Gemini 2.5 Pro以及DeepSeek V30324版，这是在卷基础模型。然后大家去卷AI agent，各种deep search、deeper search或者是deep research，Manus，各种的AI agent开始卷起来。最后卷绘图，绘图应该是从GROK3开始卷起。GROK3说：“我可以不设限的让大家去画图。”算是给了大家一点点小惊喜。

Gemini 2.0 Flash直接说：“天塌了，这个以后做Photoshop的人要没饭吃了。”他对语言文字的理解和执行能力非常非常的强。你给他一个美女，给他一个包，说让美女拎着包，一致性很好。这个美女拎着这个包没有任何问题。当时大家就讲说Photoshop这帮人要失业，但是并没有引起特别大的风潮。为什么？因为Gemini 2.0 Flash画太复杂的东西是画不了的。

GPT-4o图片生成工具，真正的生产力工具发布了，GPT-4o图像生成全面碾压DALL-E 3？指令理解超神但艺术感仍是致命短板！

3 月 27

Luke FanAIGC 3D建模辅助, AI图像生成, AI绘图工作流, DALL-E 3升级, Gemini 2.0 Flash, GPT-4o评测, GROK3图像编辑, IP形象开发, MidJourney对比, OpenAI更新, UI图标库生成, 个性化头像生成, 中文AI绘图, 中文提示词优化, 中文艺术字生成, 产品包装设计, 企业级API接入, 创意内容商业化, 动态分镜制作, 商业logo设计, 商业应用场景, 团队协作绘图, 图像生成API, 图像生成速度对比, 图像生成限制放宽, 复杂指令解析, 多模态AI, 多模态输入输出, 多轮对话绘图, 多风格控制测试, 实时绘图优化, 宫崎骏风格头像, 广告素材生成, 庆丰包子铺乐高, 影视分镜制作, 影视概念设计, 指令理解模型, 教育培训禁用, 数字水印技术, 数字水印溯源, 数字资产创作, 智能修图革命, 模型迭代路径, 泡泡玛特风格, 游戏角色建模, 版权内容生成, 版权合规生成, 生产力工具革新, 生成式AI进化, 电商主图优化, 电商图标设计, 电子书插图, 皮克斯风格绘图, 社交媒体配图, 聊天式图像编辑, 艺术性与实用性平衡, 虚拟偶像创作, 角色一致性生成, 语义依存度测试, 语义精准控制, 跨平台图像生成, 透明图标设计, 靠嘴修图 GPT-4o图片生成工具，真正的生产力工具发布了，GPT-4o图像生成全面碾压DALL-E 3？指令理解超神但艺术感仍是致命短板！已关闭评论

OpenAI更新了他们的图像生成模型。看来20美金一个月的套餐，还要继续续下去啊。大家好，欢迎收听老范讲故事的YouTube频道。OpenAI最近也开始卷起来了，对吧？前面开始出O1、O3，出GPT4.5，现在好了，把这个图像生成模型也更新了。最近其实大家都在卷图像，卷了一整波的图像。最早开始卷图像的是国内的这些应用，像豆包、千问，他们最早开始卷。这个模型没更新，卷的是客户端和手机端的应用，希望说你出去照完相以后，说给我去换个衣服，换个背景，去做这样的事情。但是这个因为模型本身的能力有限，所以效果并不是特别好。我试过比如说，我把自己的一张照片发上去以后，说来，给我把这个背景换成海滩。背景确实换成海滩了，但是他把前面这个人物也重绘了，不像我了。这就是国内卷了一波。

真正拉开序幕的是谁？是谷歌的Gemini 2.0 Flash。他们出了一个可以同时输出文字和图像的模型。这个模型出来以后，很多人惊呼，以后Photoshop修图就没你们什么事了啊。为什么？你可以上传一个杯子的图片，再上传一个美女的图片给它，提示词说请让美女举着杯子。那个图片出来了以后，是非常逻辑自洽的，不会看着有任何别扭的地方。或者你给她个包，说想让这个美女拎着包，这个效果好极了。甚至我拿了一些MidJourney画的图片上去，说再给我把某个公司的logo贴上，效果极好，特别的逻辑自洽，而且支持中文输出。这个其实挺难的。目前为止，支持中文输出的图像生成模型，原来就是国内的极梦，也是字节下边有一个版本是支持的。现在Gemini也是支持中文输出的，而且它支持多模态输入。你可以跟它说话，你可以给它输入图片，说你把这张图片跟那张图片合在一起，它效果都很好，完全可以实现聊天修图像。

老范讲故事的博客站

Midjourney V7震撼发布：艺术巅峰细节狂魔强势回归，但面对GPT-4o的一致性与定价策略，它还是AI绘图的唯一真神吗？

GPT-4o图片生成工具，真正的生产力工具发布了，GPT-4o图像生成全面碾压DALL-E 3？指令理解超神但艺术感仍是致命短板！

近期文章

归档

分类

其他操作