停止错误尝试!Midjourney Video“见光死”的根源被揭开,它并非Sora的竞品,而是顶级的动图神器,我们将一步步教你如何用它称霸小红书。
6 月 30
AIGC AIGC, AI绘画, AI编程, AI视频, AI视频一致性, AI视频工具对比, Gemini CLI, iPhone实况照片, Live Photo, makelive, MidJourney, Midjourney Video, Midjourney Video评测, Midjourney用法, MP4转Live Photo, Pika, Ruby脚本, Runway, Sora, 世界模型, 为什么Midjourney Video没火, 产品分析, 人工智能, 代码生成, 使用技巧, 创意内容生成, 动图分享, 动图制作, 可灵, 命令行工具, 图生视频, 小红书动图, 市场反响, 技术教程, 正确使用方法, 生成式AI, 社交媒体素材, 视觉特效, 视频拼接, 谷歌Gemini 停止错误尝试!Midjourney Video“见光死”的根源被揭开,它并非Sora的竞品,而是顶级的动图神器,我们将一步步教你如何用它称霸小红书。已关闭评论
大家期待已久的Midjourney video,为什么在发布之后很快就没有声音了?今天咱们来讲一讲。
大家好,欢迎收听老范讲故事的YouTube频道。我个人呢,也是下了很大的决心才录了今天这条节目,因为Midjourney video真的是万众瞩目。因为他作图做得非常非常好,在美学上、在各种细节上、在氛围渲染上,到目前为止,所有的图像生成模型里头,Midjourney是最好的。前面他说我要去做视频的时候,一大帮人就在等,很多人都非常期待。产品发布了,突然就没声音了,见光死。这个是什么样的一个情况?
首先呢,跟大家一个结论,就是Midjourney video做出来的视频非常惊艳、非常炫酷、非常美。但是这个产品做出来的视频放在哪都不太合适,这个东西做出来没什么用处。可能呢,是大家没有正确的找到Midjourney video产出的视频的用途。我今天之所以敢跟大家录这个视频,是我觉得我好像找到这种视频的一个使用方法了。
今天呢,讲几个部分:先做一个Midjourney video的简单介绍;为什么没有形成传播,这个我们要稍微分析一下;Midjourney video到底能拿来干嘛;以及我们要去实现Midjourney video的最终使用,可能还要稍微写点小程序。顺手呢,把最近很热的另外一个工具也给大家介绍了,这个叫Gemini Client(CRI吧,因为要用它编程嘛)。咱们用这个Gemini CLI编完成序以后,把生成的视频最后处理成大家可以用的样子。
首先,Midjourney video的一个简单介绍,演示一下吧,这个是必然的。这就是Midjourney video的网站,上面是Midjourney.com。我们现在是到这个explore,就是我们去浏览一下。浏览的时候呢,这儿有这个图片,他觉得画得比较好的图,以及video都是允许我们去浏览的。这都是别人画的,我们可以看一下这个东西:猪戴着项链在这走秀,有人在水底下骑车,玩偶在这吃冰激凌,还是这种绿色的玩偶穿着毛衣。你看这个细节,这脸上这些线,各种的风格都可以动起来。这个是3D风的,然后这是真人风的,骨头的x光片呀,这个都可以动,没有什么东西是不可以动的。
Labubu感觉还可以,你看这个国旗的质感,做得还是非常非常漂亮的。这个是Labubu,后边是金字塔,看来Labubu确实是很火了。
不知道使用Labubu形象算不算侵权。要注意一点什么呢?就是在Midjourney生成video的过程中,对于版权对于形象的控制是要更严格的。这种完全是虚拟的点,做出来的这个动画也是非常漂亮的。像这个就完全是水彩风的,你看有小树叶飘下来,这就是他现在的Midjourney video。
那么我们怎么去用这个玩意呢?我们只能通过Midjourney画的图去生成。而且我们知道Midjourney,你是可以在这create,直接在网页上去创建。你可以把提示词写在这儿:“给我画一个什么什么画,画横的宽的扁的,哪个版本的。”在这儿直接画,或者是在我们DISCORD里头画。但是呢,你要想生成视频,必须在这网站上,Midjourney.com这个网站上。
过程是这样的:先找到原来我们画好的,这是我以前画好的图。你点中其中一幅图以后拿这个图去画。你说我直接写一个文字,你给我生成行不行?不行,必须是用Midjourney的图生成。你说我上传一幅图生成视频行不行?也不行。所以就是用图来生成就好了。刚才让他给我画一个地下城的,还是挺有感觉的吧。
右下角有一个叫auto,就自动的,就是相当于是自动的给你变成视频。有一个是low motion,就是比较小的动作;一个是high motion,就是带有很高的这种动态。手动呢,就是你可以再去写一个提示词给他,说你到底是怎么个动法,还是分高低两种。就是你看你有一个提示词:“创建一个视频,开始从一个图像和一个提示词来描述这个动作。”我们就是自动的吧,做一个low,做一个high,看看它在干什么。
我们点击到这个create,它就开始干活了。已经做到30%了,上面那个在排队。我呢是每个月交10美金的账号,因为前面没有找到用这玩意干嘛使,所以呢,目前为止还够用。生成4个小视频,大概也就是一分多钟左右。底下是在这写着呢:motion low;上面那个是motion high。咱们可以比较一下。84%了,然后再等一等,92。上面那个还在排队。
好,做出来了。让我们放大一点。你看他首先呢做了一个镜头的推镜。你看下面的人呢,就在这上面开始走动起来了。这个桥上面的人物呢也在发生变化。所有的细节,你看包括这后面的山,这个细节的透视关系。因为随着镜头的改变,透视关系都是正确的。这是第一个。然后第二个,虽然还是在轻轻的往前摇,但是呢侧面这些人,他走动的就会有一些小的差异。
这边呢,推进的方式不一样。他这个镜头除了往前推之外呢,还在向上升。基本上都是在推进,但是呢是做了四组不同的推进。在推进的过程中,下边这个人物呢,会发生一点点小的变化。
每一个视频下头呢还有两个按钮,一个叫“扩展自动”,一个叫“扩展手动”。比如说我现在打开了首帧提示词,你可以在在在这个基础上再去扩展。现在是5秒,再扩展呢就是10秒,它大概最高是可以扩到20秒。我们今天就不再扩展了。然后呢,我们就可以下载这个图片视频。
好,让我们来看看上面这个高动态范围的做成什么样了。这个高动态范围,它动的要比刚才那快,直接就从底下推进,直接推到这个上面来了。低动态范围呢,就是它这个推进推的是很慢的。高动态范围这个明显感觉有差异了吧?
这个镜头推的这个方向,就又不一样了。他是像穿越机似的从底下去推过去。刚才第一个视频是直接推到这个桥上面去了。这个呢基本上是推了一条直线,下面人也在慢慢的走动。这个应该也是没有往上抬这个镜头,还是在这个桥底下,让这个镜头再往前走。高动态范围跟低动态范围,大概就是这样的一个差距。
我觉得这张是做的比较漂亮的。我这有一张,是当时说你给我画一个川普带一堆CEO出差的,他就给我画了一个图片。画图的时候没有提示任何错误,他就给我画出来了。我说来给我生成这个视频,直接报错了。因为呢生成视频的时候,它使用的规则要更严格一些。生成图片没问题,但是生成视频他会告诉你说裸露,或者是其他不允许的东西,都都给你去掉了。
我再给大家找一些照片来去生成。这个是拿我自己照片生成的这个图片,说我要去拎着包去旅行,干活去了。上次反正是报错了,因为你拿真人做的好多也会报错,不一定每一次能不能干活这个事。比如说迪士尼这种侵犯版权的这些东西,你画图它给你画出来,但是你说你现在给我把它生成视频,它就给你扔出来,说我不给你生成视频。
这是用的星球大战的风暴兵。我说你给我去生成视频,反正我是被拒绝过很多次。看看这一次星球大战的这个风暴兵,能不能给我们做出来。你看我就从明信片里就走出来了,也挺好玩的吧。这次也可以了,当时刚画出来的时候,他是不给我去做的。也许有川普的这个,过一段时间没准也可以愿意给我画了。反正他这个政策执行的比较奇怪,我这个都是被拒绝过的,这一次看来他就干活了。
你看他这个风暴兵在食堂里头吃饭,围在这找东西吃呢。你看这个手什么都在动。下一件事我们要下载,比如说这张。好,把它下载下来。这张也很漂亮。
下载下来。在这个右上角上,有点击下载的这个按钮,点一下它就下下来了。下的都是MP4文件。然后我们再把原来这个图下下来,把这个图下下来。待会我们要做动图嘛,动图就是要有一个起始图,要有一个这个视频。
好,我们的蜗牛也画完了。看看这个蜗牛,先推了个镜,里头各种的零部件就开始转起来了,还是挺有感觉的吧。这就是我们展示的Midjourney的video。演示结束,大家看到了这个东西,操控起来其实并没有那么容易。
第二个呢,就是生成的过程绝对简单,很多是傻瓜式的。那你拿来以后说,这个甭管是低运动的还是高运动的,你只要点,它就直接给你生成了。第三个呢,这东西不贵,生成一副图片的价格,其实大家还是可以接受的。至少到我目前为止并没有觉得说充值不够使的一个情况。你如果不想去买更贵的套餐,我们专门给大家了一些让你去充这个算力,充这个他们叫GPU时间的一个套餐进来,所以基本上还算比较便宜。
生成的结果大家也看了,绝对惊艳。只是呢,现在有一个很大的问题,就是比较难拼起来。生成了一堆视频,你说最后我怎么把它拼成一个完整的故事,这个事呢稍微有点难度。最后就是没有声音,它是没有配音没有音乐,生成出来的就是完全没有声音的一个视频文件MP4的文件。
那么为什么没有形成传播呢?为什么这样惊艳的一个产品见光死呢?这个是咱们真正需要分析的。就是他这个产品实在太难操控了,虽然你做出来的东西很漂亮,但是你说我要想做一个特别完整的电影,讲一个完整的故事的话,这个实在是非常非常困难。因为Midjourney本身绘画它的特点是什么?细节极其丰富。在你这么多丰富细节的情况下,我想把它做成视频,让它保持所有的细节的一致性的话,这是绝对地狱难度的。
控制呢,就真的不是那么好控制的。大量不一致的视频片段,你要想把它分成镜头的话,拼成完整故事基本上不可能。其实很多人讲说5秒钟一个小片段,它生成就是5秒吧,你可以往后延5秒,延5秒这样生成。你说5秒钟片段本身这么惊艳的片段,为什么没有人有动力把它们拼成一个故事呢?
像前头皮卡呀,sora呀,谷歌的VOE3、可灵和吉梦,大家都去拼。为什么Midjourney就没有人去拼这个东西呢?大家想一想,我们看到的电影是什么样的?电影的真正的玩法是3秒钟、5秒钟甚至更短的时间就是一个镜头。但是呢这个镜头是通过意识进行拼接的。比如说吧,一个人现在想起床了,先拍一个全景。
现在他是躺在床上了。然后呢,要拍一个特写,拍在脸上。他现在开始有苏醒的感觉了,可能再拍几个特写。你的手要从被子里拿出来,要翻个身,胳膊开始使劲了,上身支起来了。然后再拍一个中景,你坐起来了。然后再拍一个全景,脚放地上了,包括整个房间,整个人都要在里头。这个时候呢,要再切一个窗口的远景。我现在抬眼了,我要看一看窗外的风景,等于又是一个镜头。然后这个人开始去找拖鞋,可能要这个特写,脚要在地上找到拖鞋。然后周围这种暖色调氛围渲染好,再通过一个什么样的视角,慢慢的走到窗边去。还要打一个哈欠,伸一个懒腰,再一个特写,伸手去开窗户看一看外边。比如说有这个小鸟在外边叽叽喳喳叫,再去拍一个这个小鸟的特写。咱们啰里八嗦说半天,可能也就是一两分钟。这是一个电影的玩法。
甭管是用其他的这些模型,还是用Midjourney,你要想控制成这样的一个视频去拍出来太难了。比如说吧,我们现在可以说先画一个画,说这个人躺床上了,坐起来。你让这个Midjourney给他下一个命令,但是你说我现在想改一特写,那你就很难再去维持一致性了。你说我现在在什么地方,再要翻个身,再掀个被子,再找个拖鞋,这就比较难了。你说我再单独画一个小鸟,单独展示一个5秒钟,这个也是相对来说比较容易的。但是当多个镜头从不同的角度、不同的距离显示同一个场景的时候,你要想保持这个一致性,基本上不可能。其他的这些模型呢,虽然也很费劲,还是有可能,但Midjourney基本上是没法控制的。
为什么?因为Midjourney的本身的图像里头,我觉得画的图片里头细节实在太多了。你没法在不同的视角、不同的距离,一会是中景,一会是远景,一会是全景,还能保证所有的细节都一致。所以导致大家说,拿到Midjourney这么一个惊艳的视频产品了以后,都没有去真正的传播起来,基本上算见光死了这样的一个产品。
那么真正能够实现刚才我们讲的拍起床过程的这个视频模型,会是什么样的呢?现在这些视频模型应该都达不到,可能还要等李飞飞做的这个世界模型出来。但是不嫌麻烦的,像原来抖音上有一个视频博主叫张同学,他就一个人一部手机,他自己写好脚本以后,自己按照这个脚本,一点点把它都拍出来。但是正常的就是,真的是一堆的摄像头,你身边的所有摄像头都支好了,一次把动作做完,再通过不同的角度去拼。你有了世界模型以后,你才可以干这个事。
那么我们通过Midjourney video到底得到的是什么?为什么?我前面讲说我们的用法错了。我们想拿Midjourney video做出来的视频片段拼出大的故事片来,拼出完整故事来,这事就错了。那它到底给我们的是什么?
其实Midjourney video给出来的并不是一个视频,而是一个动图,就像类似于GIF或者是iPhone出来的这叫live photo。它呢,并不是一个完整的视频,而是一个会动的图片。它依然还是在画图,Midjourney画图画得最好,画动图依然画得最好,不接受反驳。就是这样的一个东西。
那么好了,我们现在有Midjourney video了,怎么把它变成动图?变成live video?GIF虽然是可以动的,但是这个技术实在太旧了,不建议大家去玩。因为你比如说用同样的分辨率、同样的帧率,MP4的这个文件大概只有个六七兆或者是十兆,也就这种水平。live photo的大小可能跟它差不多,但是GIF的话,同样的分辨率和帧率的话,100多兆了,所以不建议大家玩。
那我们就想办法把它改成live photo吧。就是我们现在有了一个起始的图片,有了一个用这张图片生成的MP4的一个5秒钟的视频,再长了也没用了,因为live photo本身是不支持更长的视频的。就是5秒钟的,挺好的。我们就拿这个live photo再出去分享,因为现在小红书、微信、Twitter什么的都是支持live photo分享的。live photo分享出来以后呢,整个的点击率、播放率,或者说叫做情感传递的这个能力还是很强的,要比大家上一个视频这个效果还好点。所以咱们干脆就转live photo。
后边给大家看一个例子,就是如何用Gemini Client CRI这个产品把Midjourney video转成live photo。下面大家看演示。下面我们要来写程序,把我们的Midjourney video生成的视频以及下载的图片一起生成live video。这个live video就是一个片头一个视频,两个东西给你拼一块就完事了。
一共呢,需要两样东西。第一个东西呢,程序肯定咱不能自己写嘛,所以呢,需要一个叫Gemini CLI的东西。这两天谷歌最新发布的官方的Gemini工具,它是个命令行工具,待会我们去跑一跑试试。另外一个呢。
是 makelive,GitHub 上的一个开源项目。install makelive 就可以装上去。装的过程,如果你遇到了什么困难的话,请在 GPT 里头解决,我也是这么干的。
Gemini 的安装呢,要稍微的麻烦一点。如果你本机没有 nodejs,你是装不上的。所以呢,你可能还需要到网站上去搜一个 nodejs 的安装包,安到本地来,然后才可以正常的去工作。这个装我其实已经装完了,就不跟大家重新演示这个装的过程了。
我们现在呢到了一个命令行窗口。命令行窗口里头,我们也进入到了一个新的目录,这里头是空的。如果你要装 Gemini client,先去做这样的一个动作:NODE -v,要空格。NODE -v 之后,如果你后边出来的不是一个数字,不是一个 20 以上的数字,而是一堆的错误的话,就到网上去找个新的把它装上。然后是 npm -v,如果这后边不是数字,你或者报错了,你就在网上再去找一找怎么解决方法。这个解决的过程我就不跟大家去详细介绍了。
然后执行命令,因为我装过了,我就不再执行了。就是把这个命令执行以后,如果报错了,到网上去找方法怎么解决;如果没报错,我们就可以正常开始工作了。Gemini n 回车,你看跟这个很像吧,就直接跑起来了。跑的过程呢首先要注意,是这样写个斜线。你呢可以写 help 写个帮助,他会告诉你说,如何去做事情,有哪些命令可以用。所有命令行都是这么干活的。谷歌这帮人呢,就是一帮直男工程师,他们就把这东西写成命令行了。
最后看怎么退出:quit/,quit 是退出。这个很重要,就是你实在不会使,你还能退得出去才行。首先是要求你登录,因为你想 Gemini 进来以后,你只要用嘛,他就必须要有地儿给你出 TOKEN。那你不登录的话,知道出谁的 TOKEN?虽然谷歌说我免费给大家一大堆 TOKEN,免费给大家一大堆的调用次数,但是呢,你还是要有 TOKEN 出来。
三种方式:一个是 login,直接用谷歌账号登录,你登录你的 Gmail 邮箱账号就可以了;第二个呢是在 AI studio.Google.com 里面是申请 Gmail API key,这个也是可以的;或者是用谷歌云的 AI 登录都可以。但是注意,最好不要用 Workspace 邮箱登录。什么意思?我有的时候是用自己的域名绑定的谷歌,这个也可以登录,但是相对来说要麻烦一点。你如果是 Gmail 直接结尾的这个邮箱去登录的话,是比较容易的。
所以,建议大家用这个方式去登录。登录完了以后,你就可以去干活了。
北京天气怎么样?因为里头有MCP,它可以搜索,可以做很多的本地动作,所以它就可以去搜索北京天气了。阴转雷阵雨,多少度?大概就是这样的一个情况。
好,我们就开始向它提要求吧。首先,我们要写一个提示词给它:“给我生成一个可以执行的Ruby文件吧。”输入一个TNG文件,一个MP4文件。先将PNG文件转换成JPG,因为转live photo是必须要JPG的文件。但是,我们从Midjourney下载的这个图片都是PNG的,所以要先转换一次。然后再将JPG和MP4合成成PVT iPhone的live photo文件。
转换live photo make live的这个网址,扔给他说:“你照这样给我读,读完了以后就给我转去。”他就去干活去了。允许吗?咱们就都允许呗。他现在要开始往我们的这个里边去写代码了。
你看,我写了这样的一个代码出来。好,让我们去看一下这个代码吧。它是使用的Mini Magic做的第一轮转换:-J,-V,-O。这一看就是错的,因为它的这个输入的参数是不对的。但是写程序嘛,它写错也是很正常的,待会我们来再去改吧。
我让我们来看一下,这个makelive是怎么调用的。makelive -m.a.JPG a.MP4 -p后会生成a.PVT。修改调用方法,分析一下命令行参数,然后重新构造命令行,去干活去了。如果不是谷歌给的免费的额度,我感觉这一会好多钱就出去了。写程序是非常非常费TOKEN的。
它已经生成好了。下一件事的话,我们就要用这个东西了。用之前,先把刚才咱们下载的一大堆的文件给它拷下来。这个里头就是有MP4、PNG一一对应的。我们来执行一下试试:live photo1.PNG 1.MP4。这个还不行,应该是chmod加x。
我们现在得到了一个1.pvt的文件。我们再来一次:photo create 2.png 2.mp4。你看,这个2.PVT也有了。让我们来看看这个PVT文件能不能使。
代码,大家刚才看了一个字我都没敲,只是提了些要求。当然,我在中间还是看了一些这个代码的,我提了一些问题。你说我这个没有能力自己搞定?建议大家还是稍微看一点文档。这个不需要大家的编程能力,但是你稍微看一下文档,做一点点阅读理解的能力还是需要的。
我们来看一下,这是我们的目录。这是刚才我们写的这个Ruby文件。一是我们的大蜗牛,这是图片。
这是我们的MP4的视频,那这下头有一个小字叫“实况”。这是一个PVT照片了。然后,2这个是视频,这是图片。减肥成功的老范拎着箱子出去玩去了。然后PVT,这就是我们已经做好了。做好了以后,这个文件怎么办呢?如果你使用iPhone的话,把这俩文件呀复制到iCloud目录里。然后呢,拿出我们的iPhone,在这个iCloud里,你就可以找到这两个PVT文件。点中文件以后呢,说“保存到图片”,它就给你保存到相册里去了。我们再用小红书,再用微信,就可以分享这些PVT的动图了。这个就是形成了一个完整的闭环。
好,演示结束。总结一下,Midjourney video呢,绝对是一个惊艳的产品。之所以见光死,是因为大家没有找到正确的使用方法。今天呢,跟大家介绍它正确的使用方法。Midjourney video给大家生成的从来不是视频,而是动图。我们把Midjourney video生成的MP4重新转换成live photo,然后把它分享到小红书,分享到各种支持live photo的平台上去,效果是很好的。大疆的手机软件就支持。我们把大疆上拍摄的各种视频都转live photo,这个还是帮大疆提升了很大一波的销售的。大家买了大疆设备以后,拍了一堆live photo,然后四处跑到小红书,跑到微信里边去分享,还是玩的很开心的一个事情。现在我们有Midjourney了,也可以很开心的玩耍起来。
好,这个故事呢,就跟大家讲到这里。最后请大家一起去做一些有意思的动图,把我们的情感,把我们的情绪传递出去。大家一起来玩耍。好,这个故事就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛,参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。