停止错误尝试!Midjourney Video“见光死”的根源被揭开,它并非Sora的竞品,而是顶级的动图神器,我们将一步步教你如何用它称霸小红书。

停止错误尝试!Midjourney Video“见光死”的根源被揭开,它并非Sora的竞品,而是顶级的动图神器,我们将一步步教你如何用它称霸小红书。已关闭评论

大家期待已久的Midjourney video,为什么在发布之后很快就没有声音了?今天咱们来讲一讲。

大家好,欢迎收听老范讲故事的YouTube频道。我个人呢,也是下了很大的决心才录了今天这条节目,因为Midjourney video真的是万众瞩目。因为他作图做得非常非常好,在美学上、在各种细节上、在氛围渲染上,到目前为止,所有的图像生成模型里头,Midjourney是最好的。前面他说我要去做视频的时候,一大帮人就在等,很多人都非常期待。产品发布了,突然就没声音了,见光死。这个是什么样的一个情况?

首先呢,跟大家一个结论,就是Midjourney video做出来的视频非常惊艳、非常炫酷、非常美。但是这个产品做出来的视频放在哪都不太合适,这个东西做出来没什么用处。可能呢,是大家没有正确的找到Midjourney video产出的视频的用途。我今天之所以敢跟大家录这个视频,是我觉得我好像找到这种视频的一个使用方法了。

今天呢,讲几个部分:先做一个Midjourney video的简单介绍;为什么没有形成传播,这个我们要稍微分析一下;Midjourney video到底能拿来干嘛;以及我们要去实现Midjourney video的最终使用,可能还要稍微写点小程序。顺手呢,把最近很热的另外一个工具也给大家介绍了,这个叫Gemini Client(CRI吧,因为要用它编程嘛)。咱们用这个Gemini CLI编完成序以后,把生成的视频最后处理成大家可以用的样子。

首先,Midjourney video的一个简单介绍,演示一下吧,这个是必然的。这就是Midjourney video的网站,上面是Midjourney.com。我们现在是到这个explore,就是我们去浏览一下。浏览的时候呢,这儿有这个图片,他觉得画得比较好的图,以及video都是允许我们去浏览的。这都是别人画的,我们可以看一下这个东西:猪戴着项链在这走秀,有人在水底下骑车,玩偶在这吃冰激凌,还是这种绿色的玩偶穿着毛衣。你看这个细节,这脸上这些线,各种的风格都可以动起来。这个是3D风的,然后这是真人风的,骨头的x光片呀,这个都可以动,没有什么东西是不可以动的。

Labubu感觉还可以,你看这个国旗的质感,做得还是非常非常漂亮的。这个是Labubu,后边是金字塔,看来Labubu确实是很火了。

不知道使用Labubu形象算不算侵权。要注意一点什么呢?就是在Midjourney生成video的过程中,对于版权对于形象的控制是要更严格的。这种完全是虚拟的点,做出来的这个动画也是非常漂亮的。像这个就完全是水彩风的,你看有小树叶飘下来,这就是他现在的Midjourney video。

那么我们怎么去用这个玩意呢?我们只能通过Midjourney画的图去生成。而且我们知道Midjourney,你是可以在这create,直接在网页上去创建。你可以把提示词写在这儿:“给我画一个什么什么画,画横的宽的扁的,哪个版本的。”在这儿直接画,或者是在我们DISCORD里头画。但是呢,你要想生成视频,必须在这网站上,Midjourney.com这个网站上。

过程是这样的:先找到原来我们画好的,这是我以前画好的图。你点中其中一幅图以后拿这个图去画。你说我直接写一个文字,你给我生成行不行?不行,必须是用Midjourney的图生成。你说我上传一幅图生成视频行不行?也不行。所以就是用图来生成就好了。刚才让他给我画一个地下城的,还是挺有感觉的吧。

右下角有一个叫auto,就自动的,就是相当于是自动的给你变成视频。有一个是low motion,就是比较小的动作;一个是high motion,就是带有很高的这种动态。手动呢,就是你可以再去写一个提示词给他,说你到底是怎么个动法,还是分高低两种。就是你看你有一个提示词:“创建一个视频,开始从一个图像和一个提示词来描述这个动作。”我们就是自动的吧,做一个low,做一个high,看看它在干什么。

我们点击到这个create,它就开始干活了。已经做到30%了,上面那个在排队。我呢是每个月交10美金的账号,因为前面没有找到用这玩意干嘛使,所以呢,目前为止还够用。生成4个小视频,大概也就是一分多钟左右。底下是在这写着呢:motion low;上面那个是motion high。咱们可以比较一下。84%了,然后再等一等,92。上面那个还在排队。

好,做出来了。让我们放大一点。你看他首先呢做了一个镜头的推镜。你看下面的人呢,就在这上面开始走动起来了。这个桥上面的人物呢也在发生变化。所有的细节,你看包括这后面的山,这个细节的透视关系。因为随着镜头的改变,透视关系都是正确的。这是第一个。然后第二个,虽然还是在轻轻的往前摇,但是呢侧面这些人,他走动的就会有一些小的差异。

这边呢,推进的方式不一样。他这个镜头除了往前推之外呢,还在向上升。基本上都是在推进,但是呢是做了四组不同的推进。在推进的过程中,下边这个人物呢,会发生一点点小的变化。

每一个视频下头呢还有两个按钮,一个叫“扩展自动”,一个叫“扩展手动”。比如说我现在打开了首帧提示词,你可以在在在这个基础上再去扩展。现在是5秒,再扩展呢就是10秒,它大概最高是可以扩到20秒。我们今天就不再扩展了。然后呢,我们就可以下载这个图片视频。

好,让我们来看看上面这个高动态范围的做成什么样了。这个高动态范围,它动的要比刚才那快,直接就从底下推进,直接推到这个上面来了。低动态范围呢,就是它这个推进推的是很慢的。高动态范围这个明显感觉有差异了吧?

这个镜头推的这个方向,就又不一样了。他是像穿越机似的从底下去推过去。刚才第一个视频是直接推到这个桥上面去了。这个呢基本上是推了一条直线,下面人也在慢慢的走动。这个应该也是没有往上抬这个镜头,还是在这个桥底下,让这个镜头再往前走。高动态范围跟低动态范围,大概就是这样的一个差距。

我觉得这张是做的比较漂亮的。我这有一张,是当时说你给我画一个川普带一堆CEO出差的,他就给我画了一个图片。画图的时候没有提示任何错误,他就给我画出来了。我说来给我生成这个视频,直接报错了。因为呢生成视频的时候,它使用的规则要更严格一些。生成图片没问题,但是生成视频他会告诉你说裸露,或者是其他不允许的东西,都都给你去掉了。

我再给大家找一些照片来去生成。这个是拿我自己照片生成的这个图片,说我要去拎着包去旅行,干活去了。上次反正是报错了,因为你拿真人做的好多也会报错,不一定每一次能不能干活这个事。比如说迪士尼这种侵犯版权的这些东西,你画图它给你画出来,但是你说你现在给我把它生成视频,它就给你扔出来,说我不给你生成视频。

这是用的星球大战的风暴兵。我说你给我去生成视频,反正我是被拒绝过很多次。看看这一次星球大战的这个风暴兵,能不能给我们做出来。你看我就从明信片里就走出来了,也挺好玩的吧。这次也可以了,当时刚画出来的时候,他是不给我去做的。也许有川普的这个,过一段时间没准也可以愿意给我画了。反正他这个政策执行的比较奇怪,我这个都是被拒绝过的,这一次看来他就干活了。

你看他这个风暴兵在食堂里头吃饭,围在这找东西吃呢。你看这个手什么都在动。下一件事我们要下载,比如说这张。好,把它下载下来。这张也很漂亮。

下载下来。在这个右上角上,有点击下载的这个按钮,点一下它就下下来了。下的都是MP4文件。然后我们再把原来这个图下下来,把这个图下下来。待会我们要做动图嘛,动图就是要有一个起始图,要有一个这个视频。

好,我们的蜗牛也画完了。看看这个蜗牛,先推了个镜,里头各种的零部件就开始转起来了,还是挺有感觉的吧。这就是我们展示的Midjourney的video。演示结束,大家看到了这个东西,操控起来其实并没有那么容易。

第二个呢,就是生成的过程绝对简单,很多是傻瓜式的。那你拿来以后说,这个甭管是低运动的还是高运动的,你只要点,它就直接给你生成了。第三个呢,这东西不贵,生成一副图片的价格,其实大家还是可以接受的。至少到我目前为止并没有觉得说充值不够使的一个情况。你如果不想去买更贵的套餐,我们专门给大家了一些让你去充这个算力,充这个他们叫GPU时间的一个套餐进来,所以基本上还算比较便宜。

生成的结果大家也看了,绝对惊艳。只是呢,现在有一个很大的问题,就是比较难拼起来。生成了一堆视频,你说最后我怎么把它拼成一个完整的故事,这个事呢稍微有点难度。最后就是没有声音,它是没有配音没有音乐,生成出来的就是完全没有声音的一个视频文件MP4的文件。

那么为什么没有形成传播呢?为什么这样惊艳的一个产品见光死呢?这个是咱们真正需要分析的。就是他这个产品实在太难操控了,虽然你做出来的东西很漂亮,但是你说我要想做一个特别完整的电影,讲一个完整的故事的话,这个实在是非常非常困难。因为Midjourney本身绘画它的特点是什么?细节极其丰富。在你这么多丰富细节的情况下,我想把它做成视频,让它保持所有的细节的一致性的话,这是绝对地狱难度的。

控制呢,就真的不是那么好控制的。大量不一致的视频片段,你要想把它分成镜头的话,拼成完整故事基本上不可能。其实很多人讲说5秒钟一个小片段,它生成就是5秒吧,你可以往后延5秒,延5秒这样生成。你说5秒钟片段本身这么惊艳的片段,为什么没有人有动力把它们拼成一个故事呢?

像前头皮卡呀,sora呀,谷歌的VOE3、可灵和吉梦,大家都去拼。为什么Midjourney就没有人去拼这个东西呢?大家想一想,我们看到的电影是什么样的?电影的真正的玩法是3秒钟、5秒钟甚至更短的时间就是一个镜头。但是呢这个镜头是通过意识进行拼接的。比如说吧,一个人现在想起床了,先拍一个全景。

现在他是躺在床上了。然后呢,要拍一个特写,拍在脸上。他现在开始有苏醒的感觉了,可能再拍几个特写。你的手要从被子里拿出来,要翻个身,胳膊开始使劲了,上身支起来了。然后再拍一个中景,你坐起来了。然后再拍一个全景,脚放地上了,包括整个房间,整个人都要在里头。这个时候呢,要再切一个窗口的远景。我现在抬眼了,我要看一看窗外的风景,等于又是一个镜头。然后这个人开始去找拖鞋,可能要这个特写,脚要在地上找到拖鞋。然后周围这种暖色调氛围渲染好,再通过一个什么样的视角,慢慢的走到窗边去。还要打一个哈欠,伸一个懒腰,再一个特写,伸手去开窗户看一看外边。比如说有这个小鸟在外边叽叽喳喳叫,再去拍一个这个小鸟的特写。咱们啰里八嗦说半天,可能也就是一两分钟。这是一个电影的玩法。

甭管是用其他的这些模型,还是用Midjourney,你要想控制成这样的一个视频去拍出来太难了。比如说吧,我们现在可以说先画一个画,说这个人躺床上了,坐起来。你让这个Midjourney给他下一个命令,但是你说我现在想改一特写,那你就很难再去维持一致性了。你说我现在在什么地方,再要翻个身,再掀个被子,再找个拖鞋,这就比较难了。你说我再单独画一个小鸟,单独展示一个5秒钟,这个也是相对来说比较容易的。但是当多个镜头从不同的角度、不同的距离显示同一个场景的时候,你要想保持这个一致性,基本上不可能。其他的这些模型呢,虽然也很费劲,还是有可能,但Midjourney基本上是没法控制的。

为什么?因为Midjourney的本身的图像里头,我觉得画的图片里头细节实在太多了。你没法在不同的视角、不同的距离,一会是中景,一会是远景,一会是全景,还能保证所有的细节都一致。所以导致大家说,拿到Midjourney这么一个惊艳的视频产品了以后,都没有去真正的传播起来,基本上算见光死了这样的一个产品。

那么真正能够实现刚才我们讲的拍起床过程的这个视频模型,会是什么样的呢?现在这些视频模型应该都达不到,可能还要等李飞飞做的这个世界模型出来。但是不嫌麻烦的,像原来抖音上有一个视频博主叫张同学,他就一个人一部手机,他自己写好脚本以后,自己按照这个脚本,一点点把它都拍出来。但是正常的就是,真的是一堆的摄像头,你身边的所有摄像头都支好了,一次把动作做完,再通过不同的角度去拼。你有了世界模型以后,你才可以干这个事。

那么我们通过Midjourney video到底得到的是什么?为什么?我前面讲说我们的用法错了。我们想拿Midjourney video做出来的视频片段拼出大的故事片来,拼出完整故事来,这事就错了。那它到底给我们的是什么?

其实Midjourney video给出来的并不是一个视频,而是一个动图,就像类似于GIF或者是iPhone出来的这叫live photo。它呢,并不是一个完整的视频,而是一个会动的图片。它依然还是在画图,Midjourney画图画得最好,画动图依然画得最好,不接受反驳。就是这样的一个东西。

那么好了,我们现在有Midjourney video了,怎么把它变成动图?变成live video?GIF虽然是可以动的,但是这个技术实在太旧了,不建议大家去玩。因为你比如说用同样的分辨率、同样的帧率,MP4的这个文件大概只有个六七兆或者是十兆,也就这种水平。live photo的大小可能跟它差不多,但是GIF的话,同样的分辨率和帧率的话,100多兆了,所以不建议大家玩。

那我们就想办法把它改成live photo吧。就是我们现在有了一个起始的图片,有了一个用这张图片生成的MP4的一个5秒钟的视频,再长了也没用了,因为live photo本身是不支持更长的视频的。就是5秒钟的,挺好的。我们就拿这个live photo再出去分享,因为现在小红书、微信、Twitter什么的都是支持live photo分享的。live photo分享出来以后呢,整个的点击率、播放率,或者说叫做情感传递的这个能力还是很强的,要比大家上一个视频这个效果还好点。所以咱们干脆就转live photo。

后边给大家看一个例子,就是如何用Gemini Client CRI这个产品把Midjourney video转成live photo。下面大家看演示。下面我们要来写程序,把我们的Midjourney video生成的视频以及下载的图片一起生成live video。这个live video就是一个片头一个视频,两个东西给你拼一块就完事了。

一共呢,需要两样东西。第一个东西呢,程序肯定咱不能自己写嘛,所以呢,需要一个叫Gemini CLI的东西。这两天谷歌最新发布的官方的Gemini工具,它是个命令行工具,待会我们去跑一跑试试。另外一个呢。

是 makelive,GitHub 上的一个开源项目。install makelive 就可以装上去。装的过程,如果你遇到了什么困难的话,请在 GPT 里头解决,我也是这么干的。

Gemini 的安装呢,要稍微的麻烦一点。如果你本机没有 nodejs,你是装不上的。所以呢,你可能还需要到网站上去搜一个 nodejs 的安装包,安到本地来,然后才可以正常的去工作。这个装我其实已经装完了,就不跟大家重新演示这个装的过程了。

我们现在呢到了一个命令行窗口。命令行窗口里头,我们也进入到了一个新的目录,这里头是空的。如果你要装 Gemini client,先去做这样的一个动作:NODE -v,要空格。NODE -v 之后,如果你后边出来的不是一个数字,不是一个 20 以上的数字,而是一堆的错误的话,就到网上去找个新的把它装上。然后是 npm -v,如果这后边不是数字,你或者报错了,你就在网上再去找一找怎么解决方法。这个解决的过程我就不跟大家去详细介绍了。

然后执行命令,因为我装过了,我就不再执行了。就是把这个命令执行以后,如果报错了,到网上去找方法怎么解决;如果没报错,我们就可以正常开始工作了。Gemini n 回车,你看跟这个很像吧,就直接跑起来了。跑的过程呢首先要注意,是这样写个斜线。你呢可以写 help 写个帮助,他会告诉你说,如何去做事情,有哪些命令可以用。所有命令行都是这么干活的。谷歌这帮人呢,就是一帮直男工程师,他们就把这东西写成命令行了。

最后看怎么退出:quit/,quit 是退出。这个很重要,就是你实在不会使,你还能退得出去才行。首先是要求你登录,因为你想 Gemini 进来以后,你只要用嘛,他就必须要有地儿给你出 TOKEN。那你不登录的话,知道出谁的 TOKEN?虽然谷歌说我免费给大家一大堆 TOKEN,免费给大家一大堆的调用次数,但是呢,你还是要有 TOKEN 出来。

三种方式:一个是 login,直接用谷歌账号登录,你登录你的 Gmail 邮箱账号就可以了;第二个呢是在 AI studio.Google.com 里面是申请 Gmail API key,这个也是可以的;或者是用谷歌云的 AI 登录都可以。但是注意,最好不要用 Workspace 邮箱登录。什么意思?我有的时候是用自己的域名绑定的谷歌,这个也可以登录,但是相对来说要麻烦一点。你如果是 Gmail 直接结尾的这个邮箱去登录的话,是比较容易的。

所以,建议大家用这个方式去登录。登录完了以后,你就可以去干活了。

北京天气怎么样?因为里头有MCP,它可以搜索,可以做很多的本地动作,所以它就可以去搜索北京天气了。阴转雷阵雨,多少度?大概就是这样的一个情况。

好,我们就开始向它提要求吧。首先,我们要写一个提示词给它:“给我生成一个可以执行的Ruby文件吧。”输入一个TNG文件,一个MP4文件。先将PNG文件转换成JPG,因为转live photo是必须要JPG的文件。但是,我们从Midjourney下载的这个图片都是PNG的,所以要先转换一次。然后再将JPG和MP4合成成PVT iPhone的live photo文件。

转换live photo make live的这个网址,扔给他说:“你照这样给我读,读完了以后就给我转去。”他就去干活去了。允许吗?咱们就都允许呗。他现在要开始往我们的这个里边去写代码了。

你看,我写了这样的一个代码出来。好,让我们去看一下这个代码吧。它是使用的Mini Magic做的第一轮转换:-J,-V,-O。这一看就是错的,因为它的这个输入的参数是不对的。但是写程序嘛,它写错也是很正常的,待会我们来再去改吧。

我让我们来看一下,这个makelive是怎么调用的。makelive -m.a.JPG a.MP4 -p后会生成a.PVT。修改调用方法,分析一下命令行参数,然后重新构造命令行,去干活去了。如果不是谷歌给的免费的额度,我感觉这一会好多钱就出去了。写程序是非常非常费TOKEN的。

它已经生成好了。下一件事的话,我们就要用这个东西了。用之前,先把刚才咱们下载的一大堆的文件给它拷下来。这个里头就是有MP4、PNG一一对应的。我们来执行一下试试:live photo1.PNG 1.MP4。这个还不行,应该是chmod加x。

我们现在得到了一个1.pvt的文件。我们再来一次:photo create 2.png 2.mp4。你看,这个2.PVT也有了。让我们来看看这个PVT文件能不能使。

代码,大家刚才看了一个字我都没敲,只是提了些要求。当然,我在中间还是看了一些这个代码的,我提了一些问题。你说我这个没有能力自己搞定?建议大家还是稍微看一点文档。这个不需要大家的编程能力,但是你稍微看一下文档,做一点点阅读理解的能力还是需要的。

我们来看一下,这是我们的目录。这是刚才我们写的这个Ruby文件。一是我们的大蜗牛,这是图片。

这是我们的MP4的视频,那这下头有一个小字叫“实况”。这是一个PVT照片了。然后,2这个是视频,这是图片。减肥成功的老范拎着箱子出去玩去了。然后PVT,这就是我们已经做好了。做好了以后,这个文件怎么办呢?如果你使用iPhone的话,把这俩文件呀复制到iCloud目录里。然后呢,拿出我们的iPhone,在这个iCloud里,你就可以找到这两个PVT文件。点中文件以后呢,说“保存到图片”,它就给你保存到相册里去了。我们再用小红书,再用微信,就可以分享这些PVT的动图了。这个就是形成了一个完整的闭环。

好,演示结束。总结一下,Midjourney video呢,绝对是一个惊艳的产品。之所以见光死,是因为大家没有找到正确的使用方法。今天呢,跟大家介绍它正确的使用方法。Midjourney video给大家生成的从来不是视频,而是动图。我们把Midjourney video生成的MP4重新转换成live photo,然后把它分享到小红书,分享到各种支持live photo的平台上去,效果是很好的。大疆的手机软件就支持。我们把大疆上拍摄的各种视频都转live photo,这个还是帮大疆提升了很大一波的销售的。大家买了大疆设备以后,拍了一堆live photo,然后四处跑到小红书,跑到微信里边去分享,还是玩的很开心的一个事情。现在我们有Midjourney了,也可以很开心的玩耍起来。

好,这个故事呢,就跟大家讲到这里。最后请大家一起去做一些有意思的动图,把我们的情感,把我们的情绪传递出去。大家一起来玩耍。好,这个故事就跟大家讲到这里。感谢大家收听,请帮忙点赞、点小铃铛,参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Comments are closed.