<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>内容策略 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<atom:link href="https://lukefan.com/tag/%e5%86%85%e5%ae%b9%e7%ad%96%e7%95%a5/feed/" rel="self" type="application/rss+xml" />
	<link>https://lukefan.com</link>
	<description>这里是老范讲故事的主站，持续更新 AIGC、大模型、互联网平台、商业冲突与资本市场观察，帮你看清热点背后的底层逻辑。</description>
	<lastBuildDate>Fri, 29 Nov 2024 00:42:09 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lukefan.com/wp-content/uploads/2026/03/cropped-jimeng-2026-02-28-5245-用图一的人物形象，替换图二中的人物，使用图二的风格。文字替换：老范讲故事，Yo-32x32.jpeg</url>
	<title>内容策略 &#8211; 老范讲故事｜AI、大模型与商业世界的故事</title>
	<link>https://lukefan.com</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？</title>
		<link>https://lukefan.com/2024/11/29/sora%e6%8e%a5%e5%8f%a3%e7%9f%ad%e6%9a%82%e6%b3%84%e9%9c%b2%ef%bc%8c%e8%89%ba%e6%9c%af%e5%ae%b6%e4%bb%ac%e6%8f%ad%e7%a4%baopen-ai%e7%9a%84%e5%89%a5%e5%89%8a%e5%86%85%e5%b9%95%ef%bc%8c%e6%98%af%e5%85%ac/</link>
		
		<dc:creator><![CDATA[老范 讲故事]]></dc:creator>
		<pubDate>Fri, 29 Nov 2024 00:42:07 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[AI工具]]></category>
		<category><![CDATA[AI应用]]></category>
		<category><![CDATA[DALL-E 3]]></category>
		<category><![CDATA[Hugging Face]]></category>
		<category><![CDATA[Open AI]]></category>
		<category><![CDATA[SEO优化]]></category>
		<category><![CDATA[Sora大模型]]></category>
		<category><![CDATA[Turbo版本]]></category>
		<category><![CDATA[业内动态]]></category>
		<category><![CDATA[互动媒体]]></category>
		<category><![CDATA[产品发布]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[企业创新]]></category>
		<category><![CDATA[企业合作]]></category>
		<category><![CDATA[保密协议]]></category>
		<category><![CDATA[公关策略]]></category>
		<category><![CDATA[内容优化]]></category>
		<category><![CDATA[内容匹配]]></category>
		<category><![CDATA[内容变现]]></category>
		<category><![CDATA[内容审核]]></category>
		<category><![CDATA[内容生成]]></category>
		<category><![CDATA[内容策略]]></category>
		<category><![CDATA[内容质量]]></category>
		<category><![CDATA[创意合作伙伴]]></category>
		<category><![CDATA[创意平台]]></category>
		<category><![CDATA[动态内容]]></category>
		<category><![CDATA[可控性]]></category>
		<category><![CDATA[品牌保护]]></category>
		<category><![CDATA[图像生成]]></category>
		<category><![CDATA[在线工具]]></category>
		<category><![CDATA[在线编辑工具]]></category>
		<category><![CDATA[媒体传播]]></category>
		<category><![CDATA[媒体内容]]></category>
		<category><![CDATA[媒体整合]]></category>
		<category><![CDATA[媒体营销]]></category>
		<category><![CDATA[实时生成]]></category>
		<category><![CDATA[宣传策略]]></category>
		<category><![CDATA[市场趋势]]></category>
		<category><![CDATA[平台发展]]></category>
		<category><![CDATA[平台生态]]></category>
		<category><![CDATA[开发者社区]]></category>
		<category><![CDATA[开源合作]]></category>
		<category><![CDATA[影视行业]]></category>
		<category><![CDATA[技术产业]]></category>
		<category><![CDATA[技术创新]]></category>
		<category><![CDATA[技术对比]]></category>
		<category><![CDATA[技术开发]]></category>
		<category><![CDATA[技术挑战]]></category>
		<category><![CDATA[技术突破]]></category>
		<category><![CDATA[挑战与机遇]]></category>
		<category><![CDATA[效果展示]]></category>
		<category><![CDATA[数字人]]></category>
		<category><![CDATA[数字媒体]]></category>
		<category><![CDATA[数据处理]]></category>
		<category><![CDATA[数据安全]]></category>
		<category><![CDATA[未来科技]]></category>
		<category><![CDATA[模型参数]]></category>
		<category><![CDATA[模型训练]]></category>
		<category><![CDATA[法律风险]]></category>
		<category><![CDATA[深度学习]]></category>
		<category><![CDATA[版权纠纷]]></category>
		<category><![CDATA[生成模型]]></category>
		<category><![CDATA[用户交互]]></category>
		<category><![CDATA[用户体验]]></category>
		<category><![CDATA[知识产权]]></category>
		<category><![CDATA[社交媒体策略]]></category>
		<category><![CDATA[社交影响]]></category>
		<category><![CDATA[算力成本]]></category>
		<category><![CDATA[线上互动]]></category>
		<category><![CDATA[自动化处理]]></category>
		<category><![CDATA[艺术家]]></category>
		<category><![CDATA[艺术表现力]]></category>
		<category><![CDATA[行业先锋]]></category>
		<category><![CDATA[覆盖范围]]></category>
		<category><![CDATA[视觉创意]]></category>
		<category><![CDATA[视觉效果]]></category>
		<category><![CDATA[视频内容]]></category>
		<category><![CDATA[视频安全性]]></category>
		<category><![CDATA[视频模型]]></category>
		<category><![CDATA[视频流]]></category>
		<category><![CDATA[视频特效]]></category>
		<category><![CDATA[视频生成]]></category>
		<category><![CDATA[视频生成技术]]></category>
		<category><![CDATA[视频生成潜力]]></category>
		<category><![CDATA[视频编辑]]></category>
		<category><![CDATA[视频风格]]></category>
		<category><![CDATA[计算机视觉]]></category>
		<category><![CDATA[语音合成]]></category>
		<category><![CDATA[跨平台使用]]></category>
		<category><![CDATA[跨文化传播]]></category>
		<category><![CDATA[身份验证]]></category>
		<category><![CDATA[高成本]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1733</guid>

					<description><![CDATA[大家好！🎉今天我们聊聊Sora的短暂泄露事件！！！

也许你已经听说过，Open AI的Sora大模型从今年年初就引起了大家的关注！可是啊……等到现在，时间慢慢来到了年底，发布却依旧遥遥无期！这可真是让人感觉到无奈啊！！！

就在这样的时刻，一群充满激情的艺术家们决定将Sora的接口丢到Hugging Face上，进行短暂的开放！😱他们还很大胆地发表了一封公开信，表达了自己对Open AI剥削的不满！这可不是小事哦！等Open AI察觉到后，立刻就封闭了接口，真的是快！只用了一小时！⌛️

可是，等了这么久，大家更想知道的还是Sora到底什么时候启动！而这次泄露的信息出来的其实是名为“Turbo”的版本，不过这只是一个轻量级、快速的模型，并不能够展现出Sora真正的全部实力！我真的忍不住想说，艺术家们靠谱吗？为什么会有这么多的挑战在等着他们？🤔

《Sora泄露》背后的故事真的引人入胜！艺术家们表达的不仅仅是对技术的渴望，更多的是对创作自由的追求！🎨“富贵不归乡，如锦衣夜行”，这句话深刻地反映了他们渴望分享的心情！不让他们显摆的模样，简直就是把他们绑住了手脚啊！😩

那些加入Sora的艺术家们经历了什么？他们被分为三种角色，还有人被称为“红队成员”，这听起来就充满了挑战与戏剧性！想知道更多按住这个“电源”你可得耐心等一下，这可不是简单的公开信能解答的问题！🔍

所以，未来的Sora究竟何去何从？是否意味着艺术家们的呼声会得到更好的回应呢？✨各位小伙伴们，快来一起讨论吧！让我们一起关注这个备受争议的模型！🗣️

别忘了点赞、分享我的频道，我们下次见！😘

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

在今年2月，Open AI推出了备受期待的Sora大模型，它曾被视作视频生成领域的前景。然而，至今尚无正式发布。近期，一群艺术家在Hugging Face短暂开放了Sora的Turbo版本，并发表公开信指责Open AI对艺术家们的剥削，使得Sora再次成为公众焦点。尽管其生成的视频质量和表现力不如预期，艺术家们在其开发过程中的辛苦和对创意的高标准受到阻碍。当前已经有Runway、吉梦等多款视频生成工具可供使用，市场上充满了潜力。此次泄露事件到底是公关策略还是艺术家的反叛呢？值得深思。]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？" width="900" height="506" src="https://www.youtube.com/embed/9YVENpwuJEc?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。</p>



<p>在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。</p>



<p>至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。</p>



<span id="more-1733"></span>



<p>那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。</p>



<p>那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的。视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假或者版权侵害什么这样的视频。所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。</p>



<p>第三种呢叫创意合作伙伴。Sora每过一段时间呢，会发出一些样板视频来，那意思什么？他说，你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频，它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的我就能用。</p>



<p>这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。</p>



<p>即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线。大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。</p>



<p>艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。</p>



<p>再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。</p>



<p>现在呢，Open AI内部动荡不断，Sora到底什么时候能发布，还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。</p>



<p>所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。</p>



<p>也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。</p>



<p>那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。</p>



<p>还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢，在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说，这个脚要往前走的时候，应该膝盖往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。</p>



<p>我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这个是第一个问题。</p>



<p>第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说，你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。</p>



<p>脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。</p>



<p>再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。</p>



<p>更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗，应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。</p>



<p>我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。</p>



<p>这个大家想象一下，是否有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。</p>



<p>到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说，我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。</p>



<p>除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。</p>



<p>像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。</p>



<p>我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。</p>



<p>现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。</p>



<p>那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。</p>



<p>甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。</p>



<p>所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。</p>



<p>现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。</p>



<p>YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。</p>



<p>现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。</p>



<p>下一步的AI工具会是什么样的呢？第一个，专业应用级别呢，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢，也还是有很多专业团队，会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。</p>



<p>半专业的应用呢，肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。</p>



<p>这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。</p>



<p>至于Open AI下边该干嘛去呢，我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。</p>



<p>他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。</p>



<p>所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。</p>



<p>好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>



<p>昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了，而Sora自己还遥遥无期。</p>



<p>在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。</p>



<p>至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。</p>



<p>这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。</p>



<p>对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入，艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。</p>



<p>所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。</p>



<p>现在，这些艺术家们感觉被骗了。为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。</p>



<p>这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。</p>



<p>即使是有作品被发表展示了，这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这就相当于什么，就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。</p>



<p>然后，所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头，每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。</p>



<p>再往后呢，是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。</p>



<p>现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但是艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。</p>



<p>所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。</p>



<p>也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。</p>



<p>那么，视频生成为什么这么费劲呢？Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。</p>



<p>还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说，你穿了件衣服，里边有个人，但是呢，人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。</p>



<p>我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着它都变成左脚了，或者是变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题，第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。</p>



<p>现在在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。</p>



<p>像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢，算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，它需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。</p>



<p>当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。</p>



<p>我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。</p>



<p>这个大家想象一下，是否有人见过飞机驾驶舱，从头到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。</p>



<p>这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。</p>



<p>除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。</p>



<p>像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。</p>



<p>因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。</p>



<p>你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。</p>



<p>什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。</p>



<p>那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。</p>



<p>但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。</p>



<p>你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。</p>



<p>所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。</p>



<p>现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。</p>



<p>YouTube上有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频我已经被这种视频骗了好多回了。</p>



<p>我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。</p>



<p>那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。</p>



<p>就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。</p>



<p>半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的，他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但是呢，这个可能距离我们还稍微远一些。</p>



<p>这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。</p>



<p>至于Open AI下边该干嘛去呢？我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。</p>



<p>他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。</p>



<p>所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢，都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。</p>



<p>好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>



<p>昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。</p>



<p>在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。</p>



<p>至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型吧，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。</p>



<p>现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”，什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。</p>



<p>那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。</p>



<p>第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的，我就能用。</p>



<p>这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。</p>



<p>即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。</p>



<p>然后，所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。其实，这些呢是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。</p>



<p>再往后呢，是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。</p>



<p>最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以，他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。</p>



<p>当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。</p>



<p>这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就在2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。</p>



<p>但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。</p>



<p>还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。</p>



<p>我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着就都变成左脚了，变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。</p>



<p>第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。</p>



<p>脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。</p>



<p>再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。</p>



<p>更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。</p>



<p>我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。</p>



<p>这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。</p>



<p>这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。</p>



<p>他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。</p>



<p>咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。</p>



<p>所以这个到底掌握到什么步骤，他们也是很头疼的。再往后，什么欺诈？视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢，你可以自己上传一张照片，说我现在让这个人去讲话。</p>



<p>你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。</p>



<p>除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。</p>



<p>那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。</p>



<p>但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。</p>



<p>你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。</p>



<p>现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。</p>



<p>很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个说话了，这个吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。</p>



<p>当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。</p>



<p>现在很多的漫画、小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把德国选择党的那个女党首的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。</p>



<p>下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。</p>



<p>半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。</p>



<p>这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。</p>



<p>至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。</p>



<p>他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。</p>



<p>所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。</p>



<p>好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>



<p>昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。</p>



<p>在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。</p>



<p>至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。</p>



<p>现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。</p>



<p>那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。</p>



<p>第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。</p>



<p>它不像是我们普通人去使用图片生成模型，式的那我们只要写一个提示词，生成出来大差不差的，我就能用。那些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。</p>



<p>所以呢，他说哎，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。</p>



<p>这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。</p>



<p>再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。</p>



<p>现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。</p>



<p>所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。</p>



<p>也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。</p>



<p>那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。</p>



<p>还有就是物理破膜的问题，咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯，这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。</p>



<p>我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。</p>



<p>第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。</p>



<p>像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说，非常非常难以控制和把握。再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。</p>



<p>当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看，最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。</p>



<p>我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。</p>



<p>这个大家想象一下，就是有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置，才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。</p>



<p>到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。</p>



<p>除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。</p>



<p>所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈？视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。</p>



<p>你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。</p>



<p>那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。</p>



<p>甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。</p>



<p>所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部，也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。</p>



<p>现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。</p>



<p>YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。</p>



<p>现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。</p>



<p>下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。</p>



<p>半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。</p>



<p>这种半专业应用的话，应该正在路上，在吉梦也好、可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。</p>



<p>至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆，可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。</p>



<p>今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。</p>



<p>所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。</p>



<p>好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>



<p>昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。</p>



<p>在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。</p>



<p>至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。</p>



<p>现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。</p>



<p>那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过。</p>



<p>这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。</p>



<p>它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。</p>



<p>所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。</p>



<p>这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。</p>



<p>艺术家们呢，就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢，其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢，是呼吁Open AI可以更加开放。</p>



<p>你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，表示现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。</p>



<p>现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。</p>



<p>所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。</p>



<p>也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢，并不需要进行身份验证，所以也不知道这个是真是假。</p>



<p>那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。</p>



<p>还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。</p>



<p>我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。</p>



<p>第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这种方式是可以让这个脸稍微的稳定一点的。</p>



<p>脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。</p>



<p>再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高的。当然了，这个还不是困扰视频生成本身的最大的难题，更大的难题是什么呢？就是视频要好看。</p>



<p>最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。</p>



<p>我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。</p>



<p>这个大家想象一下，有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。</p>



<p>这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说，我们付出的努力极其艰巨呢？也是如此，他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。</p>



<p>除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。</p>



<p>像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。</p>



<p>再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢，完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。</p>



<p>你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。</p>



<p>除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。</p>



<p>那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。</p>



<p>但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。</p>



<p>所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。</p>



<p>现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。</p>



<p>YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。</p>



<p>现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。</p>



<p>下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。</p>



<p>半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。</p>



<p>这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。</p>



<p>至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。</p>



<p>今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。</p>



<p>所以再往下一个方向到底是什么，虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。</p>



<p>好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>



<p>昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。</p>



<p>在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。</p>



<p>至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。</p>



<p>现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。</p>



<p>那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。</p>



<p>第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。</p>



<p>这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。于是他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。</p>



<p>即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。</p>



<p>艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。</p>



<p>现在呢Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。</p>



<p>当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。</p>



<p>这些艺术家们在一个网站上开始征集签名，谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。</p>



<p>第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。</p>



<p>你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。</p>



<p>这是第一个问题。第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上。现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。</p>



<p>像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。</p>



<p>当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。</p>



<p>我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。这大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。</p>



<p>视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。</p>



<p>到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。</p>



<p>除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。 所以这个到底掌握到什么步骤，他们也是很头疼的。</p>



<p>再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。 当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。</p>



<p>除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。那么我们到底还需不需要等Sora呢？</p>



<p>其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。</p>



<p>你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。</p>



<p>现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。</p>



<p>数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。</p>



<p>现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。</p>



<p>下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。</p>



<p>半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上，在吉梦也好可灵也好呢，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话有可能会最先让我们看到成绩。</p>



<p>至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。</p>



<p>今天我还装了一个叫QWQ，通义千问做的推理模型。在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。</p>



<p>所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>



<p>其实，从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。</p>



<p>你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。</p>



<p>现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢，已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人说话了，这个人吃东西了，这个已经有一定的传播力了。</p>



<p>数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。</p>



<p>现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。</p>



<p>所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全球的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>



<p>昨天，Sora短暂地泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。</p>



<p>在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂地开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。</p>



<p>至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头了，电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。</p>



<p>那么，艺术家们为什么干这么个事呢？原因很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。</p>



<p>那公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。</p>



<p>现在，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的我就能用。</p>



<p>这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品，这个事本身是非常难的。他们说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。</p>



<p>即使是有作品被发表展示了，这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这就相当于什么？就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。</p>



<p>艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。</p>



<p>再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。</p>



<p>现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。</p>



<p>所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停地玩各种奇怪的事情。</p>



<p>也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。</p>



<p>那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是，视频生成本身的难度是很大的。第一个，内容合理性其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。</p>



<p>还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边有个人，但是人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，膝盖应该往后弯的。但是，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。</p>



<p>我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是两条腿迈着迈着都变成左脚了，变成右脚。图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性，这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。</p>



<p>现在在图片生成模型的一致性上，已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定地保持一致性，这个很难。</p>



<p>像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后，算力成本实在太高了。图片生成，现在我们画一幅1080P的图像，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。</p>



<p>当然了，这还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。</p>



<p>现在做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。</p>



<p>我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。</p>



<p>当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。大家想象一下，有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。</p>



<p>现在我们要做视频生成的这种工具了，在有大模型的基础上，你也需要大量的开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的做视频生成工具的人来说，都是极大的挑战。</p>



<p>到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以，为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。</p>



<p>除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时，你还不能矫枉过正。</p>



<p>像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。</p>



<p>再往后，什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。</p>



<p>你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话它就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。</p>



<p>除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。</p>



<p>那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。</p>



<p>但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝；你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝；你只要提到任何人的名字，直接拒绝；说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝；请给我画个什么星球大战、米老鼠，马上拒绝。</p>



<p>所以，他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。</p>



<p>现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。</p>



<p>YouTube上有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。</p>



<p>现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。</p>



<p>下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。</p>



<p>半专业的应用肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是，这个可能距离我们还稍微远一些。</p>



<p>这种半专业应用的话，应该正在路上。在吉梦也好、可灵也好，都是在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。</p>



<p>至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。</p>



<p>今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。</p>



<p>所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以，我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。</p>



<p>好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。</p>



<p>昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。</p>



<p>在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。</p>



<p>至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。</p>



<p>现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。</p>



<p>公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。</p>



<p>现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。</p>



<p>所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。</p>



<p>而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说：“你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。</p>



<p>再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。</p>



<p>现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。</p>



<p>所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。</p>



<p>这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。</p>



<p>那么，视频生成为什么这么费劲呢？Open AI在年初的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。</p>



<p>还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。</p>



<p>我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。</p>



<p>第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。</p>



<p>像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。</p>



<p>当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。</p>



<p>现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。</p>



<p>我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情，都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。</p>



<p>这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。</p>



<p>到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。</p>



<p>除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人，有黑人，有白人，有男的，有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。</p>



<p>再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。</p>



<p>当然有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀，血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。</p>



<p>那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看DALL·E 3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个DALL·E 3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。</p>



<p>你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。</p>



<p>现在可以用的视频大模型其实已经不少了，甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。</p>



<p>数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。</p>



<p>这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。</p>



<p>那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。</p>



<p>Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。</p>



<p>至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。</p>



<p>至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。</p>



<p>今天我还装了一个叫QWQ通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。</p>



<p>所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Wordware暴走：使用社会裂变，烧烤用户心得，连马斯克都参与！ &#124; AI分析推特，Wordware的妙用与隐患</title>
		<link>https://lukefan.com/2024/08/20/wordware%e6%9a%b4%e8%b5%b0%ef%bc%9a%e4%bd%bf%e7%94%a8%e7%a4%be%e4%bc%9a%e8%a3%82%e5%8f%98%ef%bc%8c%e7%83%a7%e7%83%a4%e7%94%a8%e6%88%b7%e5%bf%83%e5%be%97%ef%bc%8c%e8%bf%9e%e9%a9%ac%e6%96%af%e5%85%8b/</link>
		
		<dc:creator><![CDATA[Luke Fan]]></dc:creator>
		<pubDate>Tue, 20 Aug 2024 00:47:26 +0000</pubDate>
				<category><![CDATA[AIGC]]></category>
		<category><![CDATA[AI代理]]></category>
		<category><![CDATA[AI分析工具]]></category>
		<category><![CDATA[AI工具]]></category>
		<category><![CDATA[AI工具使用]]></category>
		<category><![CDATA[AI技术]]></category>
		<category><![CDATA[AI技术影响]]></category>
		<category><![CDATA[AI推动创新]]></category>
		<category><![CDATA[AI智能分析]]></category>
		<category><![CDATA[AI烧烤]]></category>
		<category><![CDATA[AI社交工具]]></category>
		<category><![CDATA[AI营销工具]]></category>
		<category><![CDATA[CNN统计]]></category>
		<category><![CDATA[Elon Musk]]></category>
		<category><![CDATA[ROAS T]]></category>
		<category><![CDATA[Wordware]]></category>
		<category><![CDATA[YouTube频道]]></category>
		<category><![CDATA[互联网商业]]></category>
		<category><![CDATA[互联网趋势]]></category>
		<category><![CDATA[内容创作]]></category>
		<category><![CDATA[内容增长]]></category>
		<category><![CDATA[内容策略]]></category>
		<category><![CDATA[冒犯用户]]></category>
		<category><![CDATA[创意灵感]]></category>
		<category><![CDATA[加密货币]]></category>
		<category><![CDATA[增长奇迹]]></category>
		<category><![CDATA[大模型使用]]></category>
		<category><![CDATA[川普错误]]></category>
		<category><![CDATA[推文分析]]></category>
		<category><![CDATA[推文生成]]></category>
		<category><![CDATA[推特互动]]></category>
		<category><![CDATA[推特分析]]></category>
		<category><![CDATA[推特社交]]></category>
		<category><![CDATA[新兴技术]]></category>
		<category><![CDATA[新兴科技]]></category>
		<category><![CDATA[新科技应用]]></category>
		<category><![CDATA[新科技趋势]]></category>
		<category><![CDATA[智能代理]]></category>
		<category><![CDATA[智能分析]]></category>
		<category><![CDATA[智能社交游戏]]></category>
		<category><![CDATA[流量分析]]></category>
		<category><![CDATA[流量获取]]></category>
		<category><![CDATA[热门现象]]></category>
		<category><![CDATA[用户互动]]></category>
		<category><![CDATA[用户兴趣]]></category>
		<category><![CDATA[用户分析]]></category>
		<category><![CDATA[用户生成内容]]></category>
		<category><![CDATA[用户转化]]></category>
		<category><![CDATA[社交体验]]></category>
		<category><![CDATA[社交关系]]></category>
		<category><![CDATA[社交分析]]></category>
		<category><![CDATA[社交媒体互动]]></category>
		<category><![CDATA[社交媒体使用]]></category>
		<category><![CDATA[社交媒体利用]]></category>
		<category><![CDATA[社交媒体增长]]></category>
		<category><![CDATA[社交媒体影响力]]></category>
		<category><![CDATA[社交媒体流行]]></category>
		<category><![CDATA[社交媒体玩法]]></category>
		<category><![CDATA[社交媒体策略]]></category>
		<category><![CDATA[社交工具]]></category>
		<category><![CDATA[社交影响]]></category>
		<category><![CDATA[社交游戏]]></category>
		<category><![CDATA[社交游戏开发]]></category>
		<category><![CDATA[社交网络]]></category>
		<category><![CDATA[社交网络分析]]></category>
		<category><![CDATA[社交网络应用]]></category>
		<category><![CDATA[社交网络游戏]]></category>
		<category><![CDATA[社交网络爆发]]></category>
		<category><![CDATA[社交网络现象]]></category>
		<category><![CDATA[社交裂变]]></category>
		<category><![CDATA[社交裂变游戏]]></category>
		<category><![CDATA[社交裂变策略]]></category>
		<category><![CDATA[科技评论]]></category>
		<category><![CDATA[网上东抄西凑]]></category>
		<category><![CDATA[网络游戏]]></category>
		<category><![CDATA[网络爆红]]></category>
		<category><![CDATA[老范讲故事]]></category>
		<category><![CDATA[自嘲评论]]></category>
		<category><![CDATA[自黑风潮]]></category>
		<category><![CDATA[裂变营销]]></category>
		<category><![CDATA[转化率]]></category>
		<category><![CDATA[马斯克推特]]></category>
		<category><![CDATA[马斯克访谈]]></category>
		<category><![CDATA[高效流量]]></category>
		<category><![CDATA[高效营销]]></category>
		<guid isPermaLink="false">https://lukefan.com/?p=1498</guid>

					<description><![CDATA[亲爱的小红书家人们，今天我要说的这个事儿，绝对能让你觉得互联网还能这么玩！😱

最近，我发现了一个叫做Wordware的玩意儿，它居然能读懂你的Twitter，然后用AI生成对你的“吐槽”评价！是的，你没听错，它能把每个人评价得体无完肤，而且还意味深长的那种！😹

就连我一直敬仰的埃隆·马斯克都没能逃过它的“毒舌”，被嘲讽得可惨了，但他似乎还挺享受的？😂 我们老范也不例外，当了一回Wordware的“吐槽对象”，结果发现自己竟然有点像互联网界的颜值和智慧并存的男神了！😲

原来，Wordware不仅仅是个吐槽机器，还是一面镜子，让我们看到了自己意想不到的一面。不过话说回来，吐槽归吐槽，咱们还是要从中学点儿什么的，比如不要太纠结于那些“缺点”，毕竟我们都知道，它们是我们成长的动力嘛！💪

所以，亲爱的朋友们，赶紧打开Twitter，输入你的用户名，看看Wordware会给你怎样的神评价，顺便“享受”一下被AI吐槽的感觉吧！但是别忘了，参谋老范说的话，笑笑过后，还是要继续前进啊！😁👍

你准备好了吗？让我们一起在Wordware AI的智能吐槽中，找到自己的独特之处，变成更好的自己吧！#WordwareAI吐槽大赛# 🎉🎉🎉]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="Wordware暴走：使用社会裂变，烧烤用户心得，连马斯克都参与！ | AI分析推特，Wordware的妙用与隐患" width="900" height="506" src="https://www.youtube.com/embed/yfHfT16N_qI?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>



<p>大家好，欢迎来到老范讲故事的YouTube频道。今天咱们来讲一讲Wordware，嘲讽了所有人。最近呢，X上面非常不太平啊，第一个上来的是Wordware，玩了几天GrOK2就上来了。而且这两个呢，都是在侮辱用户，当然Wordwell是侮辱每一个人，Group呢是侮辱了马斯克，侮辱了各种名人啊，老板名人都拿出来调教一下。</p>



<p>当然了，还有马斯克跟川普的访谈，也在这个期间，一点都不违和。马斯克跟川普的访谈具体讲了什么，就不跟大家说了啊。但是呢，有人去统计了，川普你说的话里头有哪些错误。你稍微认真做一些功课，就不会犯这么低级的错误。当我看到好像是CNN做的20个错误的节目以后，我就觉得我应该继续向川大爷学习，讲的东西呢，我自己认为对就可以了。</p>



<p>咱们承认啊，这里头可能会有错误，但是我从来不拍着胸脯说，这个一定是对的啊，任何反对我的人都是傻叉，这种话是不能说的。咱们呢，先说一说这个Wordware怎么拼的。Wordware，Software呢叫软件，Hardware叫硬件，Wordware呢应该叫词件。前面是单词的“词”。</p>



<span id="more-1498"></span>



<p>发现呢，忽然有一个人啪贴出来说，你就是什么什么很二的一个人啊，大概是贴了这么一个话的截图出来。我看到了以后呢，还仔细的看了看，觉得虽然很冒犯吧，但是说的还有点那么似模似样了。在Twitter上呢，经常会出现这样的东西，就是说大家去测了个智商啊，测了个什么性格呀，测了测各种属性啊，然后贴出来，贴完了以后呢，你点进去以后自己可以去测。</p>



<p>测完了以后还可以贴，为什么大家都愿意贴这个东西呢？因为贴了以后有人点击，有人评论的吧，它是有流量的。然后我一看，这么有趣的一个东西啊，还这么冒犯，那我自己得试试啊。如果说的还凑合的话，我也把它贴出来，也蹭点流量，这不挺好的吗？我就跑到这个叫Twitter点Wordware，点AI这个网址去试了一下，发现呢，说的还稍微有点靠谱。</p>



<p>上来先写了一个简介。第一个叫“基于我们AI代理对您推文的分析”。您是一位40多岁的男性Youtuber，专注于讲述互联网商业和流量故事，同时也是一位加密货币的爱好者和科技评论员。他说我40多岁，我已经50多岁了，一下把我说了小十岁，这让我还是蛮开心的。这一段是对我个人的一个介绍。</p>



<p>再往后一段呢，叫“roast ROAS T烧烤”或者叫“严厉批评”。这一段呢就是冒犯的话了，上面写的什么：“呦，老范啊，看来你是把自己当成互联网界的孔子啊。可惜你那些故事比你儿子的驾驶技术还要生涩。你整天嘚吧嘚吧讲些陈词滥调，怕不是为了掩饰自己对新科技的恐慌。别以为戴个耳机就能装出一副懂行的样子。你那些所谓的解密和探讨，说白了不就是网上东抄西凑吗？看你对陛下喋喋不休，莫非是把棺材本都押上了？别再自欺欺人了，你那点流量故事恐怕连AI都不屑一顾。还有提醒你别忘了吃药，毕竟你那点可怜的智慧可经不起再流失了。”这就是怎么说呢，就是被人骂了一顿吧。</p>



<p>后面呢，还有啊，后面这部分呢就要花一美元了。前面这部分是免费的。其实如果玩这个网站玩的早，后边这部分也是免费的。但是这个东西实在是太耗流量，太耗钱了。所以Wordware最后决定说，我们其余的部分必须要1美元才能够解禁，那我就花这1美元吧。</p>



<p>上面写的是什么呢？优点缺点各种总结。他们总结我有哪些优点：能讲故事，在YouTube上成功讲述互联网商业和流量故事；洞察能力强，对新兴科技如脑机接口、AIGC等有深入了解；商业敏锐度，能够分析谷歌收购等重大商业事件；适应能力，能够很快速地变化，跟上快速变化的科技与互联网趋势；还有幽默感，在推文中展现出了轻松幽默的一面。这是我的优点。</p>



<p>然后缺点呢：过度关注科技，可能忽视生活中其他重要的方面；投机倾向，对加密货币等高风险投资表现出兴趣；工作狂倾向，频繁发布工作相关内容，可能忽视生活平衡。</p>



<p>过度分析，可能陷入过度思考和分析的陷阱。情感表达不足，推文中缺乏少啊，这个涉及个人情感和关系的话题。然后呢，还分析了一下我的爱情生活。你的爱情生活将如秋天的微风一样，清新怡人。寻找一个能欣赏你智慧幽默，并且对科技创新同样充满热情的伴侣，你们的关系将建立在互相理解和共同成长的基础上，共同探索人生的奥秘。</p>



<p>然后，钱商啊，就是到底能怎么挣钱。你对新兴科技和商业趋势的敏锐洞察力，将为你带来可观的财富机会。星象显示你有87%的机会成为百万富翁，但记住稳扎稳打，不要被短期波动所迷惑。</p>



<p>关于健康，你的健康前景光明。保持对新事物的好奇心和学习热情，将有助于你的大脑保持活跃，但别忘了适度运动，平衡工作与生活。尝试一些科技辅助的健康管理方法，这将为你的身心带来意想不到的好处。</p>



<p>其他的一些属性啊，与你共事可能是一场智力盛宴，但也可能令人筋疲力尽。你的创意源源不断，对新技术的热情，可能会对同事感到压力。有时你可能会忽视团队协作，沉浸在自己的思考中，但不可否认，你的前瞻性思维常常为团队带来突破性想法。</p>



<p>最像我的名人，你的性格和思维方式让我想起了凯文·凯利。作为《连线》杂志的创始人之一，他对科技趋势有着敏锐的洞察力，并善于通过故事和预测来解读科技对未来的影响。</p>



<p>最像的动物啊，你看看我像什么啊。你就像一只好奇心旺盛的章鱼。章鱼以极其高智商和问题解决能力而闻名，就像你对各种科技话题的深入探索。它能快速适应新环境，就如你适应快速变化的科技趋势。章鱼的多触手象征着你涉猎广泛的知识领域，而它改变颜色的能力则反映了你灵活多变的思维方式。</p>



<p>应该买的东西，一个智能语音助手设备，价格约在49.99美金。这不仅能够帮助你更好地管理日程和提醒，还可以用来测试和体验最新的AI技术。你可以通过与它交互，获得新的故事灵感，甚至用它来练习你的故事讲述技巧。这将是你探索AI与人类互动的绝佳工具。</p>



<p>还有些人生建议啊。</p>



<p>考虑开始一个未来100秒的短视频系列，每天用100秒时间讲解一个重要的科技趋势或者创新。这不仅能够帮助你梳理思路，还能吸引更多关注科技未来的目光。同时，尝试每周至少有一天完全远离电子设备，去大自然中散步冥想，这将给你的大脑一个重置的机会，激发更多的创意灵感。</p>



<p>这就是我花了一美元以后的东西，所以大家看一下，他给了我一些什么样的评价呢？一开始的这个我的个人介绍，40多岁的男性Youtuber，算是中规中矩。烧烤这部分，算是比较冒犯的，给我批判了一把吧。再往后交了一美元以后的部分，其实相对来说都是比较正面的，说的我还自己心花怒放了一下，哎呀，我好厉害，有这样的感受。</p>



<p>这个呢，就是现在突然在Twitter上流行起来的，网址是<a href="http://twitter.wordware.ai/" target="_blank" rel="noreferrer noopener">twitter.wordware.AI</a>。如果你不怕被冒犯，那你就上去试一下。如果你觉得可以与民同乐，可以把这个截图下来，再发到Twitter或者发到各种地方去给大家看一下。我呢，是把这个截图发到了我的推特，发到了我的YouTube的community社区里边，都给大家展示了一下，还是很有趣的。而且大家都去试，包括埃隆·马斯克自己都跑去测试了一下。</p>



<p>对埃隆·马斯克的评价是什么呢？好的，埃隆，让我们开始这个吐槽。希望他不会像你的一些火箭那样在发射台上爆炸。你的推特就像是一辆cybertruck的原型，充满了破碎的承诺和不该有的锋利边缘。你对火星如此痴迷，但是你是否考虑过，即使是荒芜生命的星球，也可能觉得你的个性有些过头了？你尝试幽默的结果，就像是早期的猎鹰一发射一样成功。你的舞步，让扎克伯格看起来像一位TikTok网红。不过至少，你的自我膨胀大到足以产生自己的吸引力，也许这就是你殖民太空的秘密计划吧。</p>



<p>对吧，这是在黑马斯克的。马斯克亲自在下边回复说：“没错，这就是我。”我们也看到了各种各样有趣的人都在里边去晒，但是你不一定在里边输。</p>



<p>你自己的推特账号，你可以输别人的推特账号，都可以看到。你可以看到这个任何一个人的评价是什么样的。你们可以去试试，输入一下什么五岳散人、王志安、王健，把他们都输进去，看看是如何去做一次拷打的。这些内容具有极强的传播性。像刚才我给自己做的冒犯的话，这些烧烤的话，你说他说的对吗？他也有道理，也是有一些依据的。你说他说完了以后，我这个生不生气？一定生气。这个一般情况下，除非是故意想气我的人，也不会当着我面说这话。但是这种话我自己把它贴出来，哎，那就算是一个自嘲。大家说，你原来是这样的一个人啊，我们平时都不好意思说，既然你自己都知道了，我们在后边点个赞吧。</p>



<p>所以这种内容呢，有很强的传播性。我是看到了别人的测试以后，马上上去评论、转发、点赞，然后我自己也去测试了一下。我自己测试之后，把它贴到推特里面去，截图贴上去，也收获了大量的点赞、转发与评论。这就是很有趣的一个过程。这个过程呢，在咱们国内管它叫裂变。我看到了一个有趣的游戏，我想玩，玩完了以后，任何一个看到我玩这个游戏的人，不想上去试试啊？这个叫裂变过程。</p>



<p>博尔维尔的这个网站呢，闪电般的来了400多万。为这400万人服务的话，大概是80万美金灰飞烟灭。怎么算出来的？1,000条推特的阅读是20美分，那每一个人生成这么毒舌的评论，他需要读我们多少条推特呢？大概是20条推特。读完了以后，需要去做这个分析。实际上我看了一下，就是他给我们生成前面那一小段，就是我的个人简介，读了5条推特。然后再去看我们后面那个毒舌的内容，以及各种人生建议、优缺点，大概是读了十几条推特。加起来一共大概是不到20条。然后呢，就拿这个东西去给你做一些分析。我的内容呢，一定是过去应该接近20条里头吧，有什么呢？抱怨比特币下跌的，还有大量的是什么，就是我发的这个视频，把这个视频预告发到推特里去。</p>



<p>所以啊，他说：“哎，你懂这些东西，每个行都稍微知道一点点，各种故事都讲了。”他是这样来做的啊，首先是这个20条，20条其实到不了一美分啊，这个花的钱并不多。然后剩下的呢，就是啊，TOKEN费。他的输入是100万TOKEN，3美金啊。那么他的输入，我看了一下，大概应该不到1万TOKEN吧，就算1万TOKEN，也就是呃，3美分吧。然后呢，输出是100万TOKEN，15美金。所以呢，大概有个十几美分会输出啊，因为刚才我们念叨了这么多文字，念了这么半天，这都是输出TOKEN。所以加在一起的话，大概是20美分左右一个人啊。那么400万人涌入，就是80万美金灰飞烟灭。</p>



<p>当然，可能还有一些其他的用户也在里面玩耍，他可能花掉的钱会更多一些。那你说一个人花20美分其实不贵啊，咱要知道打游戏那个，一个人花掉几十美金啊，或者是上百美金去买一个用户，都是很正常的啊。那这一个人20美分，他为什么花不起了呢？大家注意啊，并不是说他买了一个用户花了20美分，而是什么呢？这个后边还有一个数没乘上去呢，这个数叫转化率。我是每服务一个人有20美分，那么有多少人转化了呢？以他们官方发出的数据来说，花一美元买这个后边这半截，说好话的人能有多少啊？他说愿意花一美元的人所支付的这个钱，可以覆盖成本1/3啊，也就是说有1/3的成本被这些一美元覆盖掉了啊。</p>



<p>这个转化率有多少呢？实际上1/15，20美分，可以服务一个人。也就是实际上是啊，我付了一美金就可以供5个人使用。如果我只付了一美金，只覆盖了1/3的用量的话，实际上就是什么？15个人里头有一个人付一美金。这个转化率对于他来说，就觉得稍微有一些难以接受了啊。如果这个转化率能够到5:1以内，他这样就能盈利了。他1/15的话就是亏钱的啊，妥妥亏死。所以啊，这个实在太贵了，不得不暂时关闭啊。这个核心是转化率低啊，这个东西能玩的下去吗？会不会像其他的产品一样，仅仅是昙花一现呢？</p>



<p>如果仅仅是吐槽的话，肯定是玩不下去的啊。这种就属于快速能够爆发出来，但大家都爆了一遍以后，也就快速的结束了。即使后边有一些有趣的东西，还有夸我的这些内容，那这些内容的话，其实也没有办法再激起看到这些内容的人再去玩一遍啊。所以这个产品一定是昙花一现啊。</p>



<p>就像咱们前面讲的，很多国内的什么画图软件啊，都是。当然如果是仅仅是<a href="http://twitter.wordware.ai/" target="_blank" rel="noreferrer noopener">twitter.wordware.AI</a>的话，这个故事就讲完了啊，但其实并不是这样。这个所谓的<a href="http://twitter.wordware.ai/" target="_blank" rel="noreferrer noopener">twitter.wordware.AI</a>，其实仅仅是wordware.AI给出的一个demo啊，给的一个案例，甚至这个案例还是开源的，你可以自己去抄这些东西。</p>



<p>Wordware是一个什么样的公司呢？它是由YC孵化的一个创业项目，估值呢，现在是2500万美金。像YC的项目，如果估值2500万美金的话，他手里边估计也就是个可能四五百万美金的水平，20%可能或者更少，可能只有个两三百万美金啊，只能占了10%这样的一个程度，都是有可能的。所以前面70咔嚓花掉了80万美金，这边肯定是浑身都疼。</p>



<p>Wordware是干嘛的？一个项目呢，实际上它是AI agent的一个IDE，叫集成开发环境，就是它教大家怎么去做AI代理，怎么去做AI的这种智能体的一个工具。真正进去的转化是什么？不是转的一美金，真正的转化是200美元一个月，这个我觉得就稍微有点过分了。就是你真正开始使用它这些IT工具，真的开始去搭建自己的AI agent，这个是200美金一个月啊。如果你的用量大一点的话，大概是900美金一个月。如果你是大公司的话，面议。</p>



<p>现在这个团队呢，只有三个人。三个人的公司，2500万美金，也是很传奇的项目吧。其中有一个人是专门负责增长的。在互联网圈里呢，专门有一种人叫增长师，什么意思呢？就是如何获取流量，如何刺激起这种叫做裂变，如何让一个现象级的事件在社交网络里边爆发起来。</p>



<p>所以我们今天看到的这个故事，实际上是一个增长奇迹。我呢，也进去克隆了这个叫<a href="http://twitter.wordware.ai/" target="_blank" rel="noreferrer noopener">Twitter.wordware.AI</a>的项目，实际上是个开放的项目。那么这个项目呢，后边还有进一步的玩法，就是你可以读两个人的信息，然后判断一下这两个人是不是搭调，或者这两个人是不是可以产生出什么火花。这都是啊，等于是他这个demo给我们留的作业。</p>



<p><a href="http://twitter.wordware.ai/" target="_blank" rel="noreferrer noopener">Twitter.wordware.AI</a>这个项目单独去运营，并不是一个好的样本。刚才我们讲了，虽然可以引起轰动，但是呢，单独的应用并不能回本啊，这个是有些难度的。但是如果有一些大型的应用或者大型的服务作为后续变现的手段，拿这样的项目来作为引子的话，其实是一个非常好的尝试。就是正常的游戏引流啊，一个用户的价值经常会上百美金啊，那么他这20美分，哪怕你的转化率再低，都是划算的。</p>



<p>那这个项目是怎么做的呢？其实很简单。他先到推特去读，先读我的个人推特的简介，读完了以后去读我的前五条推特，总结一次。然后呢，再去命令茶虫去读我的后面的十几条推特，把所有这些信息搁在一起以后，写了一个很长的提示词，交给了cloud 3.5 sonnet，说：“来啊，现在请给我去输出第一段，写上这个个人简介；第二段去写一个拷问，根据这个人的所有推特去给我写；第三段写优点；第三四段写缺点。”他等于是写了一大堆提示词在这，然后呢，这个项目就这么一步一步去执行下去了。</p>



<p>它呢，跟其他的AI这样的工具没有那么大的差别。其他的像codes啊、Defi其实也是可以这么去使用的，都是可以搭建出类似这样的功能。wordware.AI它的差异在哪呢？它的差异是不画图啊，而是写代码。这个特别有意思，甭管是COS还是Defi，都是要去画图，先做什么，后做什么，然后挂入一个叫大模型的节点，再挂入一个程序的节点，再挂入一个分支的节点，然后再循个环什么的，最后怎么输出。但是呢，wordware他干活的方式是……</p>



<p>你先把需要调用的外部的程序在另外一个地方写好，然后你就去写一个完整的文章。说我是谁谁谁，我今天要去对什么什么人做评估。请根据这个人的简介和他的多少条推特，根据这些信息帮我总结哪些格式的结果出来。他等于在前头写了这么一大段，写完了以后呢，在下面再去进行指定格式的输出。</p>



<p>这个还是非常有意思。就是他为什么能够值2500万美金？原因其实就是，他非常照顾程序员和普通用户的使用习惯。不要让他去画图，要画图的话，其实并没有那么好用。而是什么呢？就是我就去写一段很长很长的Tiss，然后呢，把格式确认一下，其他的都在程序外面去搞定。完事程序员其实会更适应这种玩法。</p>



<p>而且它的使用方式也很有意思，就是它的里头每一行实际上有点像什么呢？有点像这个Notion。你可以拨动一行，然后可以把这一行换格式，都可以做这样的工作。而且他的所有的网站跟文档，都是在Notion里头。所以大家看到他的文档，他的各种说明文件都是叫wordware.notion.sight，都在这个网站里头。</p>



<p>所以他自己啥都没有，最极简的玩法。你看一共就仨人的团队，一个增长专家，两个做大模型的，哪有空自己去搭网站，哪有空自己去整这些东西。所以在这么少人力的情况下，他就把这事做成了，这个还是非常有启发意义的一个项目。</p>



<p>新的社交游戏呢，其实已经可以上路了，已经可以玩起来了。传统的社交游戏是什么？买卖奴隶，最早的啊，然后是抢车位，偷菜，这是最早的社交游戏。社交游戏是什么？就是利用社交关系，增加游戏性与传播性的一种游戏。你比如你去偷菜，你一定是偷你朋友的菜，偷你同事的菜，偷你家人的菜，这个事才有乐趣。你偷了一个谁都不是的人，这个人你压根不认识，你去偷了半天他，这个游戏的乐趣就会下降。而且你偷了别人的菜以后，因为你跟他认识，你们之间是有社会关系的，那个人说不行，我一定要再把他偷回来，我一定要报复。</p>



<p>而这个东西叫社交游戏。在推特里边，其实各种测情商、测智商、测性格，测几个人的关系，这种一直都非常多的存在。那么现在有了这样的一个开放的例子，大家完全可以自己去把这些东西做出来。说我去捞20条推特，捞10条推特，捞完了以后，我去找推特里边回复多的。如果回复的不够多，我就不要了。我把这些数据拿出来去处理，行不行？实际上就可以有不同的玩法，大家就会愿意去传播。他确实还去看你的回复数了。我记得他去看那个Michael Anti的推特特别有意思。他说：“你是大V，你这么多的用户，这么多的关注，怎么你发的推特没有人点赞呢？你不觉得这个数字不太合适吗？”他会去看所有的数据，然后一起去作为一个输入，去输出结果，来，非常有意思。</p>



<p>这个东西，我们拿了这样的东西，就是个人感兴趣的这些信息出来以后，就可以吸引到用户进行裂变。如果再加上图片生成、视频生成的一些功能，或者加上一些更复杂的关系与传播链的设计，就可以产生出非常多有趣的玩法来。所以可能未来一段时间，这种新的社交游戏就又会大爆发了。大家注意，原来这些社交游戏都不是在推特上，当然测性格、测智商是在推特上，但是抢车位、买奴隶、偷菜都是在Facebook上。推特是不是有可能会出现一些新的、以AI为基础的一些新的游戏玩法？这个才是非常有趣的点。</p>



<p>甚至什么呢？谁跟你关系好，谁应该为这个事点赞。我在生成新的推文的时候，可以直接把那个人的名字艾特在后面，这样他不就一把就裂变起来了吗？最后可以玩很多的这种链条式的爆发，这个才是推特的正确打开方式和玩法。今天讲的这个第一个项目，叫<a href="http://twitter.wordware.ai/" target="_blank" rel="noreferrer noopener">twitter.wordware.AI</a>，讲的并不是我被人黑了，我一定要出来黑他一把，不是这个，而是什么呢？一种设计非常巧妙的利用AI的应用方法，可以利用这种AI的结构去进行快速的社交裂变，获取大量的流量，而且它的成本其实不高。</p>



<p>其实最终依赖于你的转化率啊。如果你转化率够高，这个事就划算。像它这种，比如说转1美元，实际上是转了1/15。如果他可以设计出一些更有趣的玩法，让大家可以转到一个慢慢充值、慢慢玩下去的一个东西，而不是上来就200美元的话，没准他能挣回来。只是他后面这部分的设计稍微有点粗糙了。</p>



<p>但是呢，像他们这样的项目，有了一次这样的，由埃隆·马斯克亲自背书的社交现象级的活动之后，再拿到下一笔融资，再去招人，应该就没有那么难了。现在应该会有人去跟他们继续玩耍下去。</p>



<p>当然，另外一方面，我相信国内的很多项目或者很多团队，应该已经跃跃欲试了，准备开干了。因为像他这种东西，我们用code也好，用defi也好，哪怕说我这些东西，都不用我自己去写一个程序，都是可以实现的。而且如果使用国内的一些小叶的模型，可以完全免费，甚至价格可以非常非常的便宜，比那个clouds 3.5 Sonic还要便宜。国内应该大家已经准备开干。这就是我们今天讲的第一个好玩的事情。如果你们没有试过，欢迎去试一试。</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
