设计师又要失业了?谷歌 Gemini 2.5 Flash Image 发布,AI 修图能力太逆天!
8 月 28
AIGC, Google的故事 3D玩偶生成, AI Agent, AIGC, AI修图, AI发展趋势, AI取代人工, AI生成, AI科普, AI绘画, AI视频生成, DALL·E, Gemini 2.5 Flash image, MidJourney, Nano Banana, OpenAI, stable diffusion, VEO 3, YouTube, 产品图设计, 保持一致性, 偷跑模型, 千问, 可灵, 国内大模型, 图像编辑, 多图融合, 多模态大模型, 局部编辑, 技术评测, 模型评测, 电商作图, 科技前沿, 科技评论, 移除瑕疵, 美工, 老范讲故事, 职业危机, 自然语言编辑, 草图转设计图, 行业变革, 视觉推理, 视觉设计, 设计师, 谷歌AI, 谷歌DeepMind, 豆包, 迭代式修改 设计师又要失业了?谷歌 Gemini 2.5 Flash Image 发布,AI 修图能力太逆天!已关闭评论
美工,或者说设计师,又要失业了吗?Gemini 2.5 Flash image发布了。
大家好,欢迎收听老范讲故事的YouTube频道。
前一段时间,有一个叫“小香蕉”的模型,叫Nano Banana。这样的一个模型呢,在很多的开源模型评比网站上,突然就火了。这种网站是干嘛的呢?还有很多的同类型的模型放在上头,你去向他提出要求,他让不同的模型同时生成结果以后,大家去做评比用的。很多人发现,这个模型很棒。
最近在很多的社交媒体上出现这种:有一个照片,旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片,然后你给他提示词说:“请按照这个照片给我布置一个桌面,桌面的左边是个电脑,电脑上应该有这个3D设计软件,正在设计3D人偶。右边呢,是一个相框,里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶,这个人偶就是根据这个照片打出来的。”给它这样的一个提示词,它就一次性给你搞定了。这个还是非常非常强悍的。
这个模型到底谁家的?搞不清楚。而且很多人还去造假的Nano Banana,为什么?因为太有流量了。一堆一堆人上来说:“我这也有一个Nano Banana,你们赶快来试一下。”我就被人骗过,上去了以后发现效果一般嘛,就很失望就走掉了。大家就猜说,这有可能是谷歌家新出的图片模型。到8月26号,突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看,就是这个Nano Banana。而且呢,在谷歌发布这个模型之前,Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter,说:“你看我们在暗示点什么吗?你们自己来猜一下,我们到底要干什么。”实际上,大家都已经明白他们要干什么了。
这种偷跑小模型的方式呢,是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过,现在Gemini 2.5 Flash image也是偷跑了一段时间,而且引起了轰动。这种偷跑模型的方式,跟大家藏着掖着,像苹果开发布会似的,发布之前大家谁都不许说,签保密协议,谁谁敢说出去就如何如何,到底有什么差别呢?差别就是,你如果是前面保密的话,最后发出来就是一锤子买卖,如果翻车,你就直接倒霉。谷歌其实翻车过好几次了,Gemini最开始发布的时候就翻车了,怎么各种问题都答不对,然后股价暴跌。现在这种偷跑模式呢,如果反馈不好呢,我就再接着改,我就不发布了;如果反馈特别好,我就赶快给它发布出来。它就不会翻车了,它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。
咱们说回来,这个Gemini 2.5 Flash image到底是一个什么样的模型呢?上一次大家喊设计师和美工失业的时候,是什么时候?是Gemini 2.0 Flash image发布的时候,就是它上一个版本发布的时候。
上一次是怎么出圈的呢?其实谷歌的Gemini画图效果一般,不是特别惊艳,上一次出圈也是因为改图。只有改图改得好,才容易出圈。很多人说不对,说这个生图模型都在干这些事情,为什么改图改得好就能出圈呢?大家要注意,跟设计师和美工相关的需求,特别是有商业价值、或者叫有人付钱的需求,是生图多还是改图多?一定是改图多。
咱们举一个最标准的例子。我们现在要做电商网站,我们在网站上需要有一个商品的展示图。我有一个商品图片了,然后呢,我需要把这个图片放在各种场景、灯光和环境下,再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊,他们用了一个特别笨的办法,他们找一照相机,三视图1、2、3拍三张照片,这就是你产品的照片了,那这产品卖得好才怪了。京东在这个北京,专门有一个巨大的影视基地,没想到吧?干嘛的呢?就是拍这个产品图的。你们谁要卖东西了,到那去把这个产品给他,他给你搭好布景,打好灯光。比如说你要卖一个杯子,他在杯子旁边给你摆上瓜果蔬菜,摆上一些小点心,把这杯子都拍一遍,再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢?这个图P上去的这部分要有版权,这个是非常非常重要的。你不能说我卖东西,这个图后边比如说我P了一个椅子或者P了一个什么东西,这个图片你没版权,这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西,你想把东西卖好,你就上拍摄基地去拍去。即使拍完了以后,他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字,那个地方还需要一些别的东西摆在一起。因为你不可能说,我要把所有拍的东西都摆一块嘛,那有的时候你就需要去抠图,然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好,大家才会说设计师跟美工要失业了。
那么,改图是不是要比生成图片要难呢?大家想没想过这个问题?答案是很肯定的:改图绝对要比生成图片要难。为什么呢?你需要先理解这张图片,这个图里哪个地方是人,这人哪个是脸,哪个是身子,哪个是腿。当我们发生一些什么样变化的时候,我怎么能够保持它的一致性?说比如说,我拍了一个低头的照片,说这不太好,你抬起头来,然后再笑一笑。我把演员拎回来,或者把模特拎回来,说你再给我拍一次,成本很高。那我们直接叫给这个改图模型,你去给我干这件事情,它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候,这玩意儿还干不太好,特别是跟人脸有关的事情。但是到2.5 Flash,这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧,我也会做一点点小的事例,放到咱们YouTube的shorts里头,这个还是挺好玩的一件事情。所以,如果我们没有办法对图片进行很深刻的理解,把需要改的部分抠出来,改完了以后再把它贴回原来那个地方去,这个是做不成的。所以这是推理能力的上升,不是它的图片生成能力上升,而是推理能力上升了。
Gemini 2.5 Flash image到底有什么新特性呢?第一个,它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型,千问3是一个多模态模型,Deepseek还是一个纯文本模型,它是没有多模态理解能力的。豆包1.6最新的版本,它是一个多模态模型,可以直接进行视觉推理的。GPT-O3、GPT-5,这都属于多模态的推理模型。你没有这种底层的话,是干不了这活的。给你一张图片,你连图片到底画的是什么都理解不了,你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天,你都分不清楚的话,你就没有办法做后边改图这个事情。你比如说给他一张图说:“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚,这个是衣服,穿上西装以后到底应该长什么样,这事要理解明白了,推理清楚了,他才有可能生成出结果来。
那么第一个就是多模态大模型。第二个,支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品,这个都可以。而且呢,在编辑的过程中,能够完美的保持人物、动物等主体的外观和姿态的一致性,这个是修图里边最难的。像我们经常让豆包去修图,或者可灵去修图,修完了以后经常发现什么问题?不像了。你像我上传一张照片,说:“来,给我把背景换成一个海滨的背景。”海滨背景换了,但是前面那人不是我了,可能看着稍微有些似是而非,但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性,而保持一致性是整个修图里边最难的。
再往后呢,它可以合成3张以上的不同图片的内容,创造出组合的新作品。我看到有人做的Demo是把6张照片,六个人照片搁一块,说:“来,把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车,不是说每次都成功,但是呢,他已经有这样的能力了。还有人去测试什么呢?我给你一屋子,给你一书柜的照片,给你一床的照片,说:“来,把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。
支持多轮次迭代式的图像修改,不影响已确定的无关元素。这话什么意思呢?就是你给他一张图,这次给我加一床,下次给我加一个床头柜,再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候,那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型,你让他在床头柜上加书的时候,那个床就发生扭曲,就发生变化了,因为他是把所有东西重新生成了一下。
这个Gemini 2.5 Flash image呢,还能够理解和转换手绘的草图,用于教育和设计应用。比如说我们手画了一张图,这应该有个按钮,那个地方应该有个窗口,你把这东西扔给他,说:“来,给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。
最后呢,是禁止生成不当内容,并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的,你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家,OpenAI还没上市,虽然它是老大,但是毕竟不是上市公司。谷歌这是上市公司,多少年的行业老大了,它真丢不起这人。它出一点点小问题,就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候?说你给我生成第一次世界大战的这个战场,图片里头发现男的女的、黑人白人黄种人在一块。说这不对,西线应该都是白人,都是男的,不应该是这样。他说不,我们要多元性。最后导致被认定为翻车,导致他们整个的产品下线。
现在呢,拿这个模型去生图还是挺便宜的,它是4美分生成一张图,整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多,但是它的效果要好一些。同时呢,谷歌还发布了另外一个更新,就是VEO 3出了一个fast版本,就是快速版本。VEO 3呢是谷歌现在的视频模型,效果也是很不错的。它们大概是40美分生成一秒钟,这个成本也降下来了,原来大概是要80美分生成一秒钟,成本直接砍半。
这些新的工具到底怎么用呢?我们今天就不给大家看演示了,我会未来一段时间慢慢的把生成的结果给大家看看吧,大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image,可以用AI studio这个网站,它的域名是aistudio.google.com。进去了以后,你就选择Gemini 2.5 Flash image,选完了以后,你就提交各种的提示词也好,给他参考图也好,多给几张参考图也好,你就命令他去干就完了。我印象里应该免费,但是我不太确定了,因为我的这个账号是已经开始付费了,所以我现在是肯定能用的。我上去了以后,它会提醒我说免费的是有一些限制的。如果你想开心使用的话,你可以通过API去调用,也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用,他们也会给大家提供一些服务的。
下一个就是API调用。API调用的话,我准备过几天去玩儿吧,这个应该也是比较有趣的。它因为实在是太新了,它更新了以后,所有挂他的像什么Defi、N8N这些东西都没有更新呢,可能要等到再过一周的版本,这些产品就更新了。但我现在去调的话,通过http直接访问,应该也是可以使用的。那就是4美分一张图,4美分一张图,是这样来用的。
你说我现在想去画视频、想去生成视频,行不行?VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号,个人的Gemini账号是Pro版本的,一个月20美金的这个版本的,每天呢可以生成三条,每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来,让它给我去跳一个街舞,然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去,挺好玩的。
那你说我现在不想在Gemini Pro里头充20美金,行不行呢?可以。你像我这样有一个上大学的儿子,我就用他的大学edu的邮箱去申请了一下,我就可以使15个月的Gemini Pro,免费就可以用了。你说你没有这样的儿子,去找一下。现在我看淘宝上好像有人去做这个生意,20人民币帮你去做验证,就是EDU邮箱,去收一个邮件去验证一下,你就可以使15个月了。但是这种我估计用的人多了以后可能会被封,这个比较危险。
当前图片生成模型的格局是什么样的呢?Gemini 2.5 Flash image这个模型出来了以后,会不会打破现在这个格局呢?现在呢,基本上是四大门派。第一个门派是Midjourney,它生成的东西呢,最精细,最有艺术感,对于各种的艺术风格模拟的最像,这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强,因为它自己的推理模型非常强嘛,就是你给它很多的元素,给它非常复杂的逻辑的时候,它都可以给你画上,但是画的结果呢差强人意,也就只能如此了。OpenAI他们去做一些改图呢,也没有Gemini 2.5 Flash image好,但是呢保持一致性上做的还可以,要比Midjourney要做的好。Midjourney就属于一个纯生图模型,改图这一块一般,或者是说一致性参考这一块呢,效果都一般。第三个,Gemini呢,特别特别适合改图,它的这个生成的部分属于将就,还能看,但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲,说中国相声界的复兴是需要靠于谦和他的家人们,每次就是于谦的爸爸、于谦他老婆、于谦的什么,全靠这玩意讲的。另外一波也是这样,stable diffusion和他的家人们,比如说stable diffusion,然后包括Flex,它们的改图有一个叫Konnect的模型,k开头的,不是c开头的,有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西,或者是在这个模型基础上再训练,再改出来的东西。国内呢,包括可灵、豆包、千问,他们的这些图片模型呢,应该都是在这个基础上去做出来的,都是一脉相承的。他们也在卷改图,但是比这个Gemini 2.5 Flash image来说,就差的非常非常远了。
Gemini的2.5 Flash image的成功,给中国的大模型公司带来什么启示没有?这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候,一切能力就都会上升。所以大家其实卷的是最底层的这个模型,而最底层的这个模型,你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了,说我现在用很少的算力卡就可以把这种模型训练出来,然后去追赶美国,这个事有些难度。所以国内的模型在这一块上,底层推理模型上,能力还是需要去追赶的。
而国内各个大模型公司呢,他们的图片模型、图形模型和推理模型一般是分开发展的,还没有真正发展到说我们要把它结合在一起。你像豆包,豆包的推理模型是推理模型,图片模型是单独的另外一个模型,它两边一点关系没有。所以这一块呢,还是需要改变的。千问也是这样的,千问呢有专门的千问的image模型,也有千问image Edit模型。我昨前两天还在玩千问image Edit,效果也还行吧,但是你要跟这个Gemini 2.5 Flash image比,这事就没法比了。但是呢,都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型,然后呢他们有一个叫IMAGEN这样的一个模型,现在已经发展到4.0了,这个模型可能用的人也不是很多,所以就直接开始转型了,把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活,它最早的那个图片生成模型叫达利,DALL·E,达利2、达利3,达利3完了以后再往后就没了,再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话,就要把这些专门的图像模型扔掉,要把这些生图的功能跟大的推理模型,或者叫基座推理模型,要捆绑在一起,才有可能进一步的提升。
现在呢,当推理能力上升的时候,完全可以使用agent的模式,极大的提升绘图跟改图的能力。刚才我讲改图,实际上是做视觉推理。你把这个图理解的很清楚了,说我到底要画什么,哪一块是动的,哪一块是不动的,你把这个东西搞明白了以后,他才可以去调用这些生图的模型,把每一个小块生成好,然后再拼在一起。像loveart这些设计师的AI agent呢,其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看,我觉得loveart这种设计师的AI agent就稍微悬了,又被覆盖了。
好,讲到这里,大家也觉得比较无聊了,赶快都去玩起来,这个东西非常非常的好玩。老范以后再看到有类似的事情,再跟大家慢慢的分享,给大家带来乐趣才是我的核心目的。
好,这个故事今天就讲到这里,感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
RSS