设计师又要失业了?谷歌 Gemini 2.5 Flash Image 发布,AI 修图能力太逆天!

设计师又要失业了?谷歌 Gemini 2.5 Flash Image 发布,AI 修图能力太逆天!已关闭评论

美工,或者说设计师,又要失业了吗?Gemini 2.5 Flash image发布了。

大家好,欢迎收听老范讲故事的YouTube频道

前一段时间,有一个叫“小香蕉”的模型,叫Nano Banana。这样的一个模型呢,在很多的开源模型评比网站上,突然就火了。这种网站是干嘛的呢?还有很多的同类型的模型放在上头,你去向他提出要求,他让不同的模型同时生成结果以后,大家去做评比用的。很多人发现,这个模型很棒。

最近在很多的社交媒体上出现这种:有一个照片,旁边是根据这个照片做的3D PVC的打印玩偶的一个图像。这种图其实都是用这个叫Nano Banana做出来的。你先给他个照片,然后你给他提示词说:“请按照这个照片给我布置一个桌面,桌面的左边是个电脑,电脑上应该有这个3D设计软件,正在设计3D人偶。右边呢,是一个相框,里头是他的照片。桌面上放一个有支架的PVC的3D打印人偶,这个人偶就是根据这个照片打出来的。”给它这样的一个提示词,它就一次性给你搞定了。这个还是非常非常强悍的。

这个模型到底谁家的?搞不清楚。而且很多人还去造假的Nano Banana,为什么?因为太有流量了。一堆一堆人上来说:“我这也有一个Nano Banana,你们赶快来试一下。”我就被人骗过,上去了以后发现效果一般嘛,就很失望就走掉了。大家就猜说,这有可能是谷歌家新出的图片模型。到8月26号,突然这个模型就发布了——谷歌的Gemini 2.5 Flash image。拿出来一看,就是这个Nano Banana。而且呢,在谷歌发布这个模型之前,Deepmind——就是谷歌下边做AI这个部门的——很多人都发了画了一只香蕉的Twitter,说:“你看我们在暗示点什么吗?你们自己来猜一下,我们到底要干什么。”实际上,大家都已经明白他们要干什么了。

这种偷跑小模型的方式呢,是最近比较流行的一种方式。前边GPT-O SS也被发现偷跑过,现在Gemini 2.5 Flash image也是偷跑了一段时间,而且引起了轰动。这种偷跑模型的方式,跟大家藏着掖着,像苹果开发布会似的,发布之前大家谁都不许说,签保密协议,谁谁敢说出去就如何如何,到底有什么差别呢?差别就是,你如果是前面保密的话,最后发出来就是一锤子买卖,如果翻车,你就直接倒霉。谷歌其实翻车过好几次了,Gemini最开始发布的时候就翻车了,怎么各种问题都答不对,然后股价暴跌。现在这种偷跑模式呢,如果反馈不好呢,我就再接着改,我就不发布了;如果反馈特别好,我就赶快给它发布出来。它就不会翻车了,它是这样的一个策略。所以现在越来越多的人喜欢采用这种偷跑方式。

咱们说回来,这个Gemini 2.5 Flash image到底是一个什么样的模型呢?上一次大家喊设计师和美工失业的时候,是什么时候?是Gemini 2.0 Flash image发布的时候,就是它上一个版本发布的时候。

上一次是怎么出圈的呢?其实谷歌的Gemini画图效果一般,不是特别惊艳,上一次出圈也是因为改图。只有改图改得好,才容易出圈。很多人说不对,说这个生图模型都在干这些事情,为什么改图改得好就能出圈呢?大家要注意,跟设计师和美工相关的需求,特别是有商业价值、或者叫有人付钱的需求,是生图多还是改图多?一定是改图多。

咱们举一个最标准的例子。我们现在要做电商网站,我们在网站上需要有一个商品的展示图。我有一个商品图片了,然后呢,我需要把这个图片放在各种场景、灯光和环境下,再去出一些新的图片出来。这个就是需要美工去干活的。像在亚马逊,他们用了一个特别笨的办法,他们找一照相机,三视图1、2、3拍三张照片,这就是你产品的照片了,那这产品卖得好才怪了。京东在这个北京,专门有一个巨大的影视基地,没想到吧?干嘛的呢?就是拍这个产品图的。你们谁要卖东西了,到那去把这个产品给他,他给你搭好布景,打好灯光。比如说你要卖一个杯子,他在杯子旁边给你摆上瓜果蔬菜,摆上一些小点心,把这杯子都拍一遍,再在后边给你P上各种的图片。而且这些P了图以后还要注意什么呢?这个图P上去的这部分要有版权,这个是非常非常重要的。你不能说我卖东西,这个图后边比如说我P了一个椅子或者P了一个什么东西,这个图片你没版权,这是会被人告的。阿里也有这样的巨大的拍摄基地。你卖任何东西,你想把东西卖好,你就上拍摄基地去拍去。即使拍完了以后,他还是需要上设计师、上美工上去来修这个图。或者说我这还缺点字,那个地方还需要一些别的东西摆在一起。因为你不可能说,我要把所有拍的东西都摆一块嘛,那有的时候你就需要去抠图,然后再把它摆上去。所以这是真正设计师干得比较多的活。所以在这一块干得好,大家才会说设计师跟美工要失业了。

那么,改图是不是要比生成图片要难呢?大家想没想过这个问题?答案是很肯定的:改图绝对要比生成图片要难。为什么呢?你需要先理解这张图片,这个图里哪个地方是人,这人哪个是脸,哪个是身子,哪个是腿。当我们发生一些什么样变化的时候,我怎么能够保持它的一致性?说比如说,我拍了一个低头的照片,说这不太好,你抬起头来,然后再笑一笑。我把演员拎回来,或者把模特拎回来,说你再给我拍一次,成本很高。那我们直接叫给这个改图模型,你去给我干这件事情,它就可以干得很好。这个非常非常难。在原来2.0 Flash的时候,这玩意儿还干不太好,特别是跟人脸有关的事情。但是到2.5 Flash,这个已经干得非常非常强了。大家可以去看一看网上流传的一些有趣的事例吧,我也会做一点点小的事例,放到咱们YouTube的shorts里头,这个还是挺好玩的一件事情。所以,如果我们没有办法对图片进行很深刻的理解,把需要改的部分抠出来,改完了以后再把它贴回原来那个地方去,这个是做不成的。所以这是推理能力的上升,不是它的图片生成能力上升,而是推理能力上升了。

Gemini 2.5 Flash image到底有什么新特性呢?第一个,它是基于Gemini 2.5多模态大模型做的推理。我们现在国内的模型,千问3是一个多模态模型,Deepseek还是一个纯文本模型,它是没有多模态理解能力的。豆包1.6最新的版本,它是一个多模态模型,可以直接进行视觉推理的。GPT-O3、GPT-5,这都属于多模态的推理模型。你没有这种底层的话,是干不了这活的。给你一张图片,你连图片到底画的是什么都理解不了,你连图片上到底是画了几样东西、每个人的边界在什么地方、他们到底是在说话还是在打架、还是在聊天,你都分不清楚的话,你就没有办法做后边改图这个事情。你比如说给他一张图说:“现在让他给我穿上西服革履。”你必须要把人身上的衣服都理解清楚,这个是衣服,穿上西装以后到底应该长什么样,这事要理解明白了,推理清楚了,他才有可能生成出结果来。

那么第一个就是多模态大模型。第二个,支持自然语言驱动的精准局部编辑、模糊背景、移除瑕疵、添加颜色、擦除物品,这个都可以。而且呢,在编辑的过程中,能够完美的保持人物、动物等主体的外观和姿态的一致性,这个是修图里边最难的。像我们经常让豆包去修图,或者可灵去修图,修完了以后经常发现什么问题?不像了。你像我上传一张照片,说:“来,给我把背景换成一个海滨的背景。”海滨背景换了,但是前面那人不是我了,可能看着稍微有些似是而非,但是绝对不是我。那这个就失去了修图的意义。你必须要保持一致性,而保持一致性是整个修图里边最难的。

再往后呢,它可以合成3张以上的不同图片的内容,创造出组合的新作品。我看到有人做的Demo是把6张照片,六个人照片搁一块,说:“来,把这六个人的照片给我生成一张大的合影。”然后这六个人合在一起了。他有时候也会翻车,不是说每次都成功,但是呢,他已经有这样的能力了。还有人去测试什么呢?我给你一屋子,给你一书柜的照片,给你一床的照片,说:“来,把这书柜跟床给我摆屋子里。”他就可以把这个事给你办好。

支持多轮次迭代式的图像修改,不影响已确定的无关元素。这话什么意思呢?就是你给他一张图,这次给我加一床,下次给我加一个床头柜,再在床头柜上给我放本书。你可以这样迭代地、一次一次地去要求他改。你说在床头柜上加书的时候,那个床不会发生任何变化。这个很难的。像国内豆包什么这些模型,你让他在床头柜上加书的时候,那个床就发生扭曲,就发生变化了,因为他是把所有东西重新生成了一下。

这个Gemini 2.5 Flash image呢,还能够理解和转换手绘的草图,用于教育和设计应用。比如说我们手画了一张图,这应该有个按钮,那个地方应该有个窗口,你把这东西扔给他,说:“来,给我生成界面。”咔咔给你搞定。这个还是非常非常强的功能。

最后呢,是禁止生成不当内容,并为所有AI生图嵌入水印和原数据。就是谁生成的图是可以看出来的。它不会像GROK家的这个生图模型似的,你让它做各种过分的事情都可以做。这个Gemini 2.5 Flash image还是相对来说比较克制的。其实谷歌的大模型一直都是比较克制的。咱们看看这几家,OpenAI还没上市,虽然它是老大,但是毕竟不是上市公司。谷歌这是上市公司,多少年的行业老大了,它真丢不起这人。它出一点点小问题,就马上会股价暴跌。我记得上一次谷歌的生图模型给他们惹这种麻烦是什么时候?说你给我生成第一次世界大战的这个战场,图片里头发现男的女的、黑人白人黄种人在一块。说这不对,西线应该都是白人,都是男的,不应该是这样。他说不,我们要多元性。最后导致被认定为翻车,导致他们整个的产品下线。

现在呢,拿这个模型去生图还是挺便宜的,它是4美分生成一张图,整个的价格还是比较低的。跟国内的同类生图模型的成本应该差不太多,但是它的效果要好一些。同时呢,谷歌还发布了另外一个更新,就是VEO 3出了一个fast版本,就是快速版本。VEO 3呢是谷歌现在的视频模型,效果也是很不错的。它们大概是40美分生成一秒钟,这个成本也降下来了,原来大概是要80美分生成一秒钟,成本直接砍半。

这些新的工具到底怎么用呢?我们今天就不给大家看演示了,我会未来一段时间慢慢的把生成的结果给大家看看吧,大家自己去玩就好了。你说我现在想去使用Gemini 2.5 Flash image,可以用AI studio这个网站,它的域名是aistudio.google.com。进去了以后,你就选择Gemini 2.5 Flash image,选完了以后,你就提交各种的提示词也好,给他参考图也好,多给几张参考图也好,你就命令他去干就完了。我印象里应该免费,但是我不太确定了,因为我的这个账号是已经开始付费了,所以我现在是肯定能用的。我上去了以后,它会提醒我说免费的是有一些限制的。如果你想开心使用的话,你可以通过API去调用,也可以去使用一些调用了Gemini 2.5 Flash image模型的这些应用,他们也会给大家提供一些服务的。

下一个就是API调用。API调用的话,我准备过几天去玩儿吧,这个应该也是比较有趣的。它因为实在是太新了,它更新了以后,所有挂他的像什么Defi、N8N这些东西都没有更新呢,可能要等到再过一周的版本,这些产品就更新了。但我现在去调的话,通过http直接访问,应该也是可以使用的。那就是4美分一张图,4美分一张图,是这样来用的。

你说我现在想去画视频、想去生成视频,行不行?VEO 3 fast没有任何问题。如果你有Gemini Pro的这个账号,个人的Gemini账号是Pro版本的,一个月20美金的这个版本的,每天呢可以生成三条,每条8秒钟。这个已经是效果非常非常好了。而且它这个VEO 3 fast的话是带音乐的。我刚才命令它说这个图片让它动起来,让它给我去跳一个街舞,然后它就直接把音乐给我配好了。待会我会把这个视频给大家发到short里边去,挺好玩的。

那你说我现在不想在Gemini Pro里头充20美金,行不行呢?可以。你像我这样有一个上大学的儿子,我就用他的大学edu的邮箱去申请了一下,我就可以使15个月的Gemini Pro,免费就可以用了。你说你没有这样的儿子,去找一下。现在我看淘宝上好像有人去做这个生意,20人民币帮你去做验证,就是EDU邮箱,去收一个邮件去验证一下,你就可以使15个月了。但是这种我估计用的人多了以后可能会被封,这个比较危险。

当前图片生成模型的格局是什么样的呢?Gemini 2.5 Flash image这个模型出来了以后,会不会打破现在这个格局呢?现在呢,基本上是四大门派。第一个门派是Midjourney,它生成的东西呢,最精细,最有艺术感,对于各种的艺术风格模拟的最像,这个是别人谁都比不了的。第二个呢就是OpenAI。OpenAI呢属于是理解能力很强,因为它自己的推理模型非常强嘛,就是你给它很多的元素,给它非常复杂的逻辑的时候,它都可以给你画上,但是画的结果呢差强人意,也就只能如此了。OpenAI他们去做一些改图呢,也没有Gemini 2.5 Flash image好,但是呢保持一致性上做的还可以,要比Midjourney要做的好。Midjourney就属于一个纯生图模型,改图这一块一般,或者是说一致性参考这一块呢,效果都一般。第三个,Gemini呢,特别特别适合改图,它的这个生成的部分属于将就,还能看,但是这个效果比前面两个就要差一些了。第四波就是stable diffusion以及他的朋友们。就跟郭德纲上去讲,说中国相声界的复兴是需要靠于谦和他的家人们,每次就是于谦的爸爸、于谦他老婆、于谦的什么,全靠这玩意讲的。另外一波也是这样,stable diffusion和他的家人们,比如说stable diffusion,然后包括Flex,它们的改图有一个叫Konnect的模型,k开头的,不是c开头的,有这样的一个模型是可以进行改图的。像马斯克XAI里边应该用的是他们家的东西,或者是在这个模型基础上再训练,再改出来的东西。国内呢,包括可灵、豆包、千问,他们的这些图片模型呢,应该都是在这个基础上去做出来的,都是一脉相承的。他们也在卷改图,但是比这个Gemini 2.5 Flash image来说,就差的非常非常远了。

Gemini的2.5 Flash image的成功,给中国的大模型公司带来什么启示没有?这个咱还是要讲一嘴的。就是基层模型的、或者叫底层模型的推理能力上升的时候,一切能力就都会上升。所以大家其实卷的是最底层的这个模型,而最底层的这个模型,你就真的是需要20万块以上的H100才能够有所提升。现在已经没有什么奇迹了,说我现在用很少的算力卡就可以把这种模型训练出来,然后去追赶美国,这个事有些难度。所以国内的模型在这一块上,底层推理模型上,能力还是需要去追赶的。

而国内各个大模型公司呢,他们的图片模型、图形模型和推理模型一般是分开发展的,还没有真正发展到说我们要把它结合在一起。你像豆包,豆包的推理模型是推理模型,图片模型是单独的另外一个模型,它两边一点关系没有。所以这一块呢,还是需要改变的。千问也是这样的,千问呢有专门的千问的image模型,也有千问image Edit模型。我昨前两天还在玩千问image Edit,效果也还行吧,但是你要跟这个Gemini 2.5 Flash image比,这事就没法比了。但是呢,都是各玩各的。其实谷歌家一开始也是各玩各的。谷歌原来是Gemini模型是Gemini模型,然后呢他们有一个叫IMAGEN这样的一个模型,现在已经发展到4.0了,这个模型可能用的人也不是很多,所以就直接开始转型了,把Gemini模型跟这个图片模型直接合在一起了。OpenAI家其实干的也是一样的活,它最早的那个图片生成模型叫达利,DALL·E,达利2、达利3,达利3完了以后再往后就没了,再往后再出的图片模型叫GPT Image。大家走的都是同一条路。所以国内后边想要迎头赶上的话,就要把这些专门的图像模型扔掉,要把这些生图的功能跟大的推理模型,或者叫基座推理模型,要捆绑在一起,才有可能进一步的提升。

现在呢,当推理能力上升的时候,完全可以使用agent的模式,极大的提升绘图跟改图的能力。刚才我讲改图,实际上是做视觉推理。你把这个图理解的很清楚了,说我到底要画什么,哪一块是动的,哪一块是不动的,你把这个东西搞明白了以后,他才可以去调用这些生图的模型,把每一个小块生成好,然后再拼在一起。像loveart这些设计师的AI agent呢,其实干的活也是一样。但是现在从谷歌搞的Gemini 2.5 Flash image这种模型来看,我觉得loveart这种设计师的AI agent就稍微悬了,又被覆盖了。

好,讲到这里,大家也觉得比较无聊了,赶快都去玩起来,这个东西非常非常的好玩。老范以后再看到有类似的事情,再跟大家慢慢的分享,给大家带来乐趣才是我的核心目的。

好,这个故事今天就讲到这里,感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.