AI工具 – 老范讲故事｜AI、大模型与商业世界的故事

继Model Context Protocol后，AI下一个新标准已现雏形？Anthropic凭“简单、开放、中立”三原则再次领先｜Claude Skills、Anthropic、OpenAI

Luke Fan — Tue, 21 Oct 2025 00:48:17 +0000

Anthropic Claude出了新工具，叫skills技能。这是不是MCP的升级版本呢？

大家好，欢迎收听老范讲故事的YouTube频道，咱们又有新玩具了。这一次，Anthropic出了一个东西，叫skills技能。它呢，应该是大模型功能拓展标准的一个新尝试。

大模型除了可以一本正经地胡说八道之外呢，你还需要去做一些技能拓展。比如说，你可以去写PPT，可以去做Excel，skills就主要干这玩意儿使的。这也算是AI agent以及上下文工程有可能会迎来的一个新标准，甚至呢，在部分功能上已经取代了MCP的功能。待会儿咱们再讲哪一部分可以取代MCP了。

到底什么是skills呢？它呢，是直接给Claude去赋能，让Claude code去做一些琐碎的工作。我举一个例子吧，比如说一个律所，你律所里头需要干一个什么事？就是你们出的所有的这个文件，它是有排版要求的。哪个地方用几号字，哪个地方用几号字，什么地方要用什么样的方式来表述，这个都是有要求的。以前我们律师给写的文件，大概每一个文章倒数第二段的时候，要写一个“以及”还是什么，反正有一个特别奇怪的要求。我第一次看到，我说：“你们为什么写这个？”他说：“律所要求就是必须这么写。”包括哪个标题需要使用什么字号、什么字体、字间距、行间距，他们都有要求。

这个东西你要让大模型去干活呢，就很费劲，特别是大模型每一次干出来不一样。那现在就是你，可以通过skills直接给它赋能，说我们以后按照这个律所什么什么要求去做，甚至是哪个版本的要求，去处理这些文件，最后处理出来的格式跟你的要求是一致的。

这东西呢，配置起来要比MCP省事。MCP配置还挺麻烦的，你需要在本地起服务器，或者就算是远程服务器，你也需要在本地去进行MCP服务的配置。这个配置的过程，可能普通非程序员不是说完全处理不了，但是还是比较费劲的。但是skills就省事多了，直接写个Markdown文件扔里头，完事。你就是建个目录，写一个skills.MD的一个文件，告诉它说，我什么样的字需要使用什么字号，或者说我这个信的结尾要加“此致敬礼”什么，你可以写一大堆这样的要求进去。写完了以后呢，直接在执行的时候告诉它说：“这是我的技能文件，请照着这个干活。”它就去照着执行去了。

而且skills呢，是可以在全客户端执行的。它可以在API上跑，也可以在Web端、手机端客户端，都是可以跑的。甚至呢，还可以在Claude code里头去跑，这个都没问题。如果你是在Claude code这样的本地的AI agent里头跑的话，它可以基本上覆盖MCP的功能。为什么？待会儿咱们细讲。在其他端这个还不太行，它是有一定限制的，至少目前还有吧。

现在呢，普通人都可以用这个skills工具。它主要是用两个格式的文件往里写东西：一个是Markdown。Markdown其实你基本上认为它是个纯文本就完了，只是呢，里头有一点点的简单的这种格式标记，写一个井号后边是大标题，两个井号是中标题，三个井号是小标题，它就是有一些这样的标记在里头，其他的也没有跟普通文本差异的地方。你用任何的纯文本编辑器都可以打开它，只是呢，没有渲染的效果而已。另外一个呢，叫YAML。YAML呢，实际上也是一种纯文本的配置文件，它呢，特点就是缩进，就是你通过缩进的方式来去写配置。现在大家看到很多的项目里头，都有这种文件，前面基本上是一个属性，打个冒号，后边是要赋的一个值。现在很多配置文件都是拿这玩意儿写的。

当然了，skills你要想处理一些更复杂的东西呢，它也允许你加代码进去，但是代码执行呢会比较受限制。因为这个skills是在哪跑的呢？它是在一个虚拟机里跑的，是在Anthropic本地的一个虚拟机里边去跑。这个虚拟机是不能联网的，也不能去调用很多的这种库文件进来，所以它的功能比较受限。

只有是在Claude code，就是在我们本地跑的时候，它可以联网。所以呢，你在本地跑的时候，它不是在虚拟机里头，你就可以基本上取代MCP的功能了。甚至你在skills里头直接写说，我要调一个什么API，这个API的调用方法是什么，返回值是什么，就是我们把很多那个API的文档文件直接贴在那个Markdown文件里就完事了，它就直接干活去了。所以只有在Claude code里头才可以替代MCP，如果不是在Claude code里头，它是不允许联网的。它的格式刚才我们讲了，就是一个叫skills.MD的一个文件放在一个目录里，或者再加一些其他的这种配置文件就完事了，极个别的情况需要加代码。

现在呢，Anthropic官方呢，也给出了一些skills，比如说一些Excel、Word、PDF、PPT这样的处理方式。我本来想去充一个Anthropic的会员，20美金充一个会员，后来翻了翻，发现这东西就完完全全的不支持中文，连繁体中文都不支持，最后算了，就不跟它费劲了。我相信skills应该很快就会普及出来，就像MCP一样，不是只有Anthropic自己可以用。

那skill适合做什么呢？最适合做文件处理、格式处理。如果在Claude code里头，基本上是全能的。技能和标准的固化和重用，这是它主要干的活。这个什么意思？比如说有一个人说：“我就擅长整理律所的文件格式。”这个东西呢，叫一个技能。你要再找一个人来说：“你给我把这个律所的文件都处理成我们要求的格式呢？”他需要重新学习。现在呢，等于是我们把这个东西固化下来了，说这个skills就叫“律所文件格式处理”，把它固定下来了。固定下来以后呢，就直接可以反复地重用了。我下一次需要去处理文件的时候，直接告诉Anthropic我的skills叫这个名字，去干活去吧，它就去干活去了。

Anthropic为什么总能拿出这种推动行业的新标准来呢？这样的一个功能，现在大家都在讨论的核心原因，就是大家觉得这可能是未来的标准。最早它推出的MCP标准虽然不完美，因为它调用的时候必须要起个服务器，这个事还是很讨厌的，但是呢，现在已经是标准了。谷歌、OpenAI都已经跟进了，国内的各大模型厂商、各大AI agent和工具厂商也都跟进了MCP了。原因很简单，就是它会秉承着叫“简单、开放、中立”这样的一个原则，这才是真正的关键。你把这事搞得很复杂，各种方方面面我都想到了，或者说我只能在自己的平台上使，我又不开放，或者说我虽然是中立的，但是呢，我们中间的这些代码是不给别人看的，其他的人你是不知道我怎么去调用这个功能的，这些都很难成为标准。你必须要简单、开放、中立。除了大模型的处理能力这些，MCP也好，skills也好，它基本上不依赖其他技术，这个也是非常非常重要的。你说我现在做了一个新的标准出来，我需要依赖很多很多东西，这个就很麻烦。像MCP呢，还是需要依赖一些外部服务，需要依赖一些这样的技术，但是skills就更简单，什么也不依赖，你直接拿出来就可以用的东西。

大模型能力拓展的尝试呢，其实一直在持续。从ChatGPT 3.5开始，GPT进入到公众视野以后，大家一直在尝试这东西到底能干嘛，除了一本正经地胡说八道之外还能干点什么。现在每天大模型的能力在上升，我又训练出GPT-5了，又训练出GPT-6了，但是还有一些东西呢，是它搞不定的。第一个是角色的固化，或者说技能的固化与重用，这个事情呢，是大模型自己搞不定的，因为大模型都是按照通用的模式来去训练的。另外一个就是要调用外部工具，我不可能自己把所有外部工具都跑通，它真跑通了就吓人了，有可能这个人类就没有存在的必要了。它还是有一定的能力边界的，这一块呢，就是在不断地拓展。

很多人可能会记得，咱们经常在写提示词的时候，第一句话干嘛？第一句话赋能，说“你是一个编辑”，“你是一个律所的文档格式大师”。我们经常会写这样的话在第一句。那你说这个真的会让ChatGPT也好，Anthropic Claude也好，像律所里边的文档编辑大师一样工作吗？是不能的。为什么呢？因为每个律所的文档格式要求是不一样的，它也不知道你要用什么方式去干活。所以你去写提示词的时候，对大模型进行角色赋值，说“你是什么什么”的时候，到底起什么作用？告诉大家，不会提升答案的质量，他原来该答什么还是答什么，但是呢，会让大模型将结果模仿成指定角色的方式说出来。他会去想说，这样的这个角色是怎么说话的，我先生成结果，然后模仿这个人的方式再重新说一遍。这个就是我们每一次去指定说“你是谁谁谁”的时候得到的一个结果。这肯定不是我们所希望的嘛，我们还是希望它真的具有相应的能力。

现在我们就要去做固定技能以及能力拓展，咱们做了很多尝试。前面OpenAI做的一个东西叫GPTS，这个东西呢，推出来的时候我就说这玩意没戏，现在呢，基本上已经没有什么人去玩耍了。GPTS主要干的活，实际上就是一个固定技能，当然它还有很多其他的功能，那个调用处理起来就非常非常麻烦了，你需要在里头写程序的。而且GPTS还有一个问题是什么呢？就是它必须在ChatGPT里头跑，它不能出来，这个是很麻烦的。刚才我们讲了，你要想确立标准的话，必须得中立，它的中立性就没有了。而且这个东西做起来其实没有那么容易，GPTS刚出来的时候我也做过一些，效果呢，差强人意，不一定每一次按照你的要求去做，因为当时模型的能力也没有那么强。折腾了半天GPTS以后，发现不是我想要的东西，所以现在呢，基本上玩的人很少了。

第二个就是function call，就是直接让大模型去通过代码干活。这块呢，甭管是国内的模型，还是国外的这种主流模型，都是支持function call。OpenAI、Anthropic的Claude，还有Grok、Gemini，都是支持function call。但是呢，这个东西比较麻烦，在哪呢？你必须写程序，你不写程序这事搞不定。只能在API里头使，你说我在客户端用，我在Web端用，这事你是没有办法拿它干活的。所以这东西呢，对于非程序员来说，基本上相当于没有。这就是function call的一个情况。

再往后呢，就是MCP了。MCP呢，比function call要简单一些，不再需要那么高的程序能力了。我可以说直接把一个MCP的配置文件写到比如Cursor，或者写到一些其他的这种支持MCP的客户端里去，他就可以去干活了。这个对于很多这种非程序员来说呢，就已经比较友好了。现在呢，你要去调MCP，可以写程序，也可以直接在支持它的客户端里配置就可以用。现在呢，有很大一部分的服务平台都将自己的服务包装成了MCP。你比如说支付宝、微信支付、高德地图、百度地图、大众点评，都开始出MCP了。这一块呢，就是只要上大模型，你挂上这些MCP以后，就可以实现相应的一些功能了。MCP主要干的活是什么呢？就是能力拓展，它并没有说把一些能力固化下来。你说我告诉大模型我有MCP了，那不能保证你每一次输出的结果都是你想要的，但是呢，它可以保证说大模型可以去调用百度地图了，知道这周围有什么好吃的，这个他可以去干了。

现在呢，skills来了。skills呢，和MCP比起来，对于非程序员就更加友好。原来MCP你要去做配置的话，还需要去写JSON，JSON还算是一种程序员使用的配置语言，而现在的话直接Markdown了，你就直接用自然语言去写就完了。JSON的话你要是把它写错了，大模型拿它也没办法，但是Markdown的话，你写错了以后，比如我写了几个错别字在里头，或者哪个地方我写点病句在里头，大模型就直接处理掉了。所以这一块容错率还是比较高的。它呢，可以很好地将技能固化下来，让你再去重用，也可以去拓展一些外部功能。但是拓展外部功能就只能是在Claude code里头用。我相信未来可能会有更多的客户端去支持skills，只要是有客户端支持的skills，就可以去允许你拓展外部功能，可以去联网。否则的话，你跑到Anthropic的自己的服务器上开虚拟机的话，它就不会让你干这个活。现在呢，在网页、API都可以去跑，但是网页、API包括手机端、PC端的这些客户端里头，它都是调用的Anthropic自己的虚拟机，不允许联网。如果你是在本地跑，它是允许你去联网的。

那你说未来大家会不会跟进呢？一个新技术，你不能说上来我就要做标准，这事是不对的。一个新技术出来了以后，一定是什么呢？一定是自己先用起来，大家喜欢了以后，逐渐去遵循你为标准。而且你前提还得是开放，你如果不开放的话，别人想去遵循你为标准也没有这个能力。我觉得呢，大概率skills会成为下一个标准，继MCP之后的下一个标准。为什么呢？就是skills的技术是完全中立的一个技术，因为你写进去的就是一堆Markdown，其他的没有什么，就算写一些Python代码，或者是一些TypeScript，或者是其他的这种代码进去，它要求的也都比较简单，不会要求写特别复杂的代码，因为它是在一个没有网络、也不可以调用外部代码库的一个虚拟机里去执行的，所以这个代码也不会太复杂。所以第一个，完全中立。第二个呢，就是它直接开放的，Markdown文件拿出来看就完了，我到底是一个什么样排版的文件，我直接看就可以了。

WPS里头有非常非常多的模板库，班级的点名表，或者是各种的报告，它都有模板库。以后这些东西通通都可以写成skills，我们就直接调用的时候，就可以产生出符合各个单位里头要求的格式化文档，这个还是很棒的。甚至呢，可以进行一些逻辑上的检查，比如说所有的股权算完cap table以后，加起来必须是100%，你这些东西通通都可以在skills里去干。现在大量的skills文件呢，已经开源了，都在GitHub上，大家可以自己去找去，直接下载下来就可以用。而且支持skills这件事呢，本身对于大模型也没有什么新的要求，完完全全是可以在这种客户端上就跑。你比如说Cursor或者是VS Code，这些东西就直接可以去支持了，并不需要模型做任何的修改，也不需要在模型API上做特别多的调整。所以这个东西成为标准的门槛是比较低的。

skills对模型唯一的要求是什么？就是你模型的上下文要进一步的提升，要有更好的指令依存度。我要求你干什么，你必须老老实实给我干去，这就是skills对模型的要求。现在Anthropic Claude对于skills的这种要求，特别是现在的4.5的版本，基本上是可以满足的。Gemini 2.5相信应该也没有任何问题，甚至马上要出Gemini 3，可能这个礼拜就要出Gemini 3，做这些事情应该也都是OK的。GPT-5处理skills这样的一些小问题，应该也没有任何毛病。国内的话，豆包、DeepSeek和千问应该也都可以完成相应的这种改造，就是你模型不用动，直接在这个客户端上处理一下就可以了。

未来的话，可能就是我们只要告诉大模型说，我有哪些function就是哪些功能，哪些MCP，比如说我可以调用百度地图、高德地图，然后呢，我们再告诉他，我还有哪些skills，哪些技能，我想干什么，然后它就给你干去了。我举一个例子吧，我们现在有MCP是高德地图的，有一个skills叫做“Excel格式整理和数据校验”，然后我们就可以告诉它什么呢？我现在想知道某一个地区周围有哪些日料店，他们都是一个什么样的情况，按照这个打星的情况去排序，还是按照价格排序，还是按照一个什么样的方式排序，然后呢，请给我去进行什么样的格式。把这个命令整个交给这个大模型以后，它就会自动地去调用MCP得到某一个地区附近的日料店，然后把里头所有数据都拎出来，再按照我们的要求调用skills，把这些东西通通都塞到Excel里头去进行校验、进行排序、进行这种格式的梳理，然后生成一个我们所要的这种Excel文件出来。它就是这么干活的。

跟这种标准，国内的这些公司应该会跑得很快的。国内一大堆抄袭Claude code的这种工具，像现在阿里、字节、腾讯都开始出这种客户端上直接进行命令行输入的、类似于Claude code的工具了，他们想去支持skills还是非常容易的。国内的这些AI IDE应该也会第一批跟上。云厂商跟进应该会更快一些，因为刚才我们讲了，skills执行的一个原理是开一台虚拟机，处理完了以后把它关上，这个对于所有的云服务厂商来说，“这个我们熟”，他们会更快的跟上。而国内最大的云厂商是谁？阿里。千问未来去支持skills应该是顺理成章的，国内MCP最早支持的应该也是阿里。

总结一下吧，你想去建立一个新的AI标准，你必须按照“简单、开放、中立”这个标准去，而且除了大模型能力之外，你其他的都不能要求。这个就是MCP成功的原因，也是skills我认为未来有可能会成功的一个底层逻辑。Anthropic呢，可以不断地确立新的行业标准，就是遵守了简单、开放、中立这样的一些基础。当然优点呢，是标准性；缺点是什么呢？就是不能吃独食。很多国内的这些厂商说，我也要去建立标准，建立了半天，他老惦记吃独食，这事你肯定就做不起来。现在AI领域里头是什么？就是一帮巨头，甭管美国的OpenAI、Anthropic、谷歌、Grok，这些都是巨头，非常非常值钱的公司。国内的字节、阿里，这都是巨头，可能DeepSeek稍微小一点点。在这个时候，没有谁说我确立一个标准，你必须在我这跑，其他人都不兼容，这事是跑不起来的。OpenAI就老惦记干这种活，吃个独食，把自己的私货加进去，但是效果非常的不好，所以他建立的各种标准一般是没有人用的，都是Anthropic在建立标准，大家去使用。

好，这就是今天要给大家讲的故事。感谢大家收听，请帮忙点赞、点小铃铛、参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

GPT 5 Codex，普通人的技术平权里程碑！程序员神话被戳破？当AI能可靠执行7小时复杂任务，普通人与专家的差距还剩多少？｜揭秘 Codex、OpenAI、GPT-5、GPT-5-Codex

Luke Fan — Wed, 17 Sep 2025 00:44:03 +0000

GPT-5-Codex的发布，普通人通往技术平权之路的又一个里程碑。

大家好，欢迎收听老范讲故事的YouTube频道。

记得上次在天津做线下活动的时候呢，有一位程序员问我说：“我们这些普通人，应该如何应对AI大潮呢？因为现在很多程序员被AI淘汰失业嘛。”我想了一下告诉他说：“你要想清楚一个问题，在AI大潮面前，我们不是普通人，我们是程序员。那些不会写程序的人，才是普通人呐。”

所以，咱们今天要讨论的就是，那些不会写程序的普通人，在GPT-5-Codex的帮助下，怎么能够像我们这些会写程序的人一样，去遨游于代码的海洋之中，知道代码到底在干什么，为什么这么设计，哪里做错了。这个是真正给了他们一个能用的工具。

OpenAI呢，趁着Anthropic屏蔽了程序员的主体族群（也就是咱们中国人的时候），适时地召开了发布会，发布了GPT-5-Codex。大家要注意，它这个名字起得稍微有些混淆。GPT-5呢，是一个大模型；Codex呢，是OpenAI发布的一个编程的agent；GPT-5-Codex呢，是一个在GPT-5的基础上，专门训练的一个用于Codex这个编程AI agent的一个专有模型。它稍微有点绕，就是GPT-5-Codex是一个模型，不是一个简单的agent。

GPT-5-Codex呢，可以自动地判断复杂度，而且可以可靠地执行。自动判断复杂度这件事呢，现在大家都在干。你问了一个简单问题，我就简单回答一下，不会浪费很多的TOKEN。其实，有时候AI想太多，也是一个很烦的事情。什么叫AI想太多？你问豆包一个问题，甭管你问他什么问题，都啰里八嗦给你讲半天，那就属于AI想太多的一个典型体现。

真正难的是可靠执行。什么叫可靠执行？就是AI这种东西呢，每一次执行实际上都有可能出错，都有可能出现一些偏差。如果说我一次执行了以后，自动地再做下一次执行，它就会把这些偏差累积起来，或者我们叫累积误差吧。这种AI agent，它是没有办法做长期执行的，因为它的累积误差会越累积越多，他自己瞎想越想越偏，就这样的一个状态。

但是，GPT-5-Codex在这块会做得很好。OpenAI已做了测试，它最长连续运行了7个小时，中间不会停下来，这是非常非常强大的，而且最终得到了你想要的结果。这个是怎么做到的？肯定内部是有很多的纠偏机制，很多的校验机制。我往东走一步发现不对了，我再往西走一点。其他的AI agent为什么不行？因为有时候钻牛角尖，钻进去以后就钻不出来了。像我们使用Claude Code或者Java CLI这些AI agent的时候，你就必须得盯着它，你发现他越钻越偏、越走越牛角尖的时候，你就要把他打断，告诉他说：“你别往那边走了，那边是错的，有一个正确的方向，你应该如何如何去处理。”这个才是比较麻烦的地方。GPT-5-Codex在这块，已经非常非常强了。

GPT-5-Codex呢，跟OpenAI的Codex这个AI agent结合在一起，绝对是强强联合，而且还不贵。这个很重要，因为使用这些AI agent本身是非常非常昂贵的，它会把你整个的代码库直接塞给这个大模型，你的TOKEN会像流水一样哗啦哗啦地一下就不见了，所以非常非常昂贵。有些人使用Claude Code，一个月能够消耗2万美金的TOKEN，这是非常吓人的。

而像这个GPT-5-Codex，本身在这一块上还是相对比较便宜的。像我这样的Plus账号，就是一个月20美金的账号，基本上够我使了。给出的额度是这样的：每5个小时30-150条通话。你如果是问的很简单，可能就是150条；问的很复杂呢，就是30条。如果你把它耗光了以后呢，它会回答你说：“咱歇会吧，待会再弄。”很多人呢是这样，工作干一白天，如果被提示了说“咱歇一会吧”，他就下班回家了。这样来去使用，它的额度基本上够使，要比使用Anthropic的Max这种，就是200美金一个月的账号，要好用得多。

现在去使用OpenAI Pro账号，200美金一个月的账号的话，它是每5个小时可以回答300条或者是1,500条，就是简单问题1,500条，复杂问题300条。实际上你给它一个复杂问题以后，它自己且跑呢，你想再给他下一条都比较费劲，除非是你并行的同时再开多个窗口一起给他这个命令，有可能这个额度会不够用。正常如果是一个人单人使用的话，其实Plus账号，就是30条复杂任务或者是150条简单任务的话，五个小时之内是够使的。你上午弄完了以后，中午吃个饭休息休息，下午又可以满血复活了。所以它还是比较省钱的。

GPT-5-Codex这个模型呢，其实是在GPT-5的模型上做的提升，本身呢提升并没有那么明显。如果你不是用来编程的话，你就不要拿这个模型来使。如果你要是拿它来编程的话，普通的编程任务呢有提升，但是可能也就是在一些跑分题库上，你能够看到它提升那么一点点，提升的也不是特别多。但是呢，在一些比较特殊的编程场景上，是有比较高的提升的。所以呢，这个提升不重要，发布会本身更重要一些，就告诉大家华人程序员们、中国程序员们：“Anthropic不让你用了，上我这儿来，非常非常好用。”

那么，Codex和其他这些编程工具比起来，有什么差别呢？咱们就使用这个GPT-5-Codex最新的模型，而且上来以后，你可以选择High模式，就是更多的思考的这个模式，这个效果非常好。Codex跟其他这些编程语言工具比起来，最大的优势是“言出法随”。什么叫言出法随？就是你给出指令，你就可以放心等待了，这个就是最大优势。前面也讲了，你给了他一个指令以后，他可以吭哧吭哧跑7个小时，7个小时基本上就是一天了吗？你上一天班不也就8个小时吗？他在这个中间不会跑偏，而且最后会给你一个你所预期的结果。这个非常非常重要，千万不要说他折腾半天给你一结果，最后发现不是你要的，这不是白忙活一场吗？

使用这个AI agent跟这个模型配合起来像什么呢？就像是在一个陌生的国家、语言不通的情况下打Uber的感受。比如说我在泰国吧，泰语肯定不会，他们也不会讲英语，我英语也不怎么样。我去打Uber，这个钱是可控的，你在打车的时候，他告诉你需要花多少钱。目的地呢也是很清晰的，你都是在谷歌地图上挑好了目的地，直接输进去，也不会发生什么错误。中间过程你就不用管了，愿意去跟司机闲聊两句呢，可以试试。我在泰国清迈，我也会用蹩脚的英语尝试跟司机闲扯两句，有时候人家理我，有时候人家不理我，这个也无所谓。如果你不想跟他聊天，你中间睡个觉也没毛病。最后呢，都会在一个你所预期的时间、你所预期的金额下到达目的地。这就是Codex真正给大家的体验。

而如果你使用其他的工具，比如说像Cursor、Claude Code或者Gemini-CLI这些工具的话，你就像是在一个陌生的国家、语言不通、陌生城市坐公交车的感受。这是一个什么感受？太多未知因素了，消耗也是完全不可控的，到底要花多少钱你也不知道。而且呢，这国家可能治安还不太好，有一些坑掉进去未必就爬得出来。是否可以在你所预期的时间和预期的费用下到达目的地？不好说。所以这就是最大的区别，为什么我现在已经完完全全转到Codex上去了，就是这样的一个原因。

现在的这些编程工具呢分三类。一类呢是云端agent，有个网站，你向他提要求“给我做一什么什么东西”，他直接给你做好，你中间就不用管了。他在自己的虚拟机上整个搭环境做，做完了以后，直接给你完整代码就完事了，这是一种方式。第二种方式呢，是给你一个命令行，像咱们刚才讲的Gemini-CLI、Claude Code都是这样的，给你一个命令行工具，你在这个命令行的下面直接给它指令，它去干活去。第三种呢，就是IDE或者是这种IDE插件。比如说Claude Code，就是自己做的IDE；GitHub Copilot，就属于叫IDE插件。它是给你一个集成开发环境（IDE叫集成开发环境），在这个里边的话，咱们直接把所有的事情做完。而Codex的话，它是一个三位一体，就是它三个都给你了。如果你一旦决定使用Codex，你就会有一台服务器，他在服务器上去给你搭建所有的运行环境、搭建开发环境，然后到那边去干完活，给你提交完整的代码。回来也给你一个本地的命令行工具，同时呢给你一个IDE插件，就是VS Code上的一个插件。三个都有，而且都挺好使的。

Codex跟其他这些AI编程工具最大的差异在哪？最大的差异是，它是直接在GitHub仓库上干活的，直接可以管理GitHub仓库，接受各种PR（叫pull request），就是这种拉取的需求。开源仓库什么时候会收到pull request呢？就是别人看着你的开源代码说：“这儿有一bug，我去给你改一改；我那儿想增加一功能，我给你改一改。”这个东西我不能直接在代码库上改，它会提交一个拉取请求，说：“我改好了，你拉回来合并进去吧。”叫pull request。大量的pull request上去以后呢，代码仓库的主人其实是看不过来的。

这个Codex干的第一件事，就是叫自动过滤，直接把骂人的筛选掉。因为有很多人提pull request，什么也没有就上来骂人，这个是很正常的一个事情，林子大了什么鸟都有嘛。华为鸿蒙系统的这些拥趸们，就曾经提交了大量的pull request，要求别人去支持鸿蒙。现在就不需要看这些东西了，这个直接交给Codex，你把pull request拉上来，你去校验一下，看看这东西能不能合并得进去，是不是有问题，这个代码是不是有害，上来是不是骂人呢，还是说提交的代码是完全无效的。他直接看了，看完了以后发现没什么用，就直接扔掉了。所以这些以后就不会再给大家造成困扰了。

这个Codex会自动筛选出重要的pull request出来，交给这个代码库的所有人，你去甄选一下，看看是不是要去合并进去。它不会自动合并进去的。然后呢，也会自动地去review这些代码。这个review是什么？就是给你代码了以后，要有第二个人、第三个人去看一下这个代码。它呢，可以自动地去做安全review。为什么要做安全review呢？前面咱们发生过代码投毒事件。有一位非常同情乌克兰的程序员，在给俄罗斯的一些开源仓库去提交代码的时候呢，就直接投毒了，导致了俄罗斯人使用这些开源代码的时候就有可能会出现问题，这个是不能接受的。Codex可以直接把这些问题都排除掉。

还可以做过期依赖的review。什么叫过期依赖？就是我们有大量的代码，这个代码是一个一个的代码库、代码文件，每一个代码呢，会去依赖一些其他的这些库。有的时候呢，这些代码可能已经不用了，特别是一些屎山代码，可能已经不用了，但是这些依赖还写在里面，这个是非常非常危险的。他会查一下，说这些依赖已经不需要了，我们可以把它去掉。这样的话，代码库呢就会变得清爽一些，否则的话这个屎山就会越聚越多。因为原来代码量太大，咱们也没有办法把整个代码库从头到尾都看一遍，里头有很多的这种过期的依赖就一直会留在里面，后面人就没法改了，这个屎山就堆起来，后边的维护难度就会变得越来越高。

所以Codex可以极大地提升开源项目的管理效率，也可以极大地提升整个代码库的品质。因为屎山就是一堆的代码搁在里头，谁也不愿意把它扒开。能跑，但是为什么能跑，谁也不知道。在里头改任何东西，可能就都不能跑了，谁也不敢动这个东西。屎山在被提交的时候，现在有Codex的维护的话，就很难再入库了。大家一看这是个屎山代码，咱就别把它弄进来了，就搁那了。你按道理说，你这个代码提交上去以后，应该有人去看，应该有人去做review，review完了以后才能入库。但实际上呢，人这种东西，他是爱偷懒的。“这个人每次提交的代码都是对的，从来没有出过什么事，我信任他吧，下次我不看了吧。”就会出现这样的问题。为什么会有人在开源代码库里投毒成功呢？他就是这种信任造成的。现在有Codex了，甭管你提交了多少代码，以前的代码的质量有多好，你这次提交了，我还是会一丝不苟地把你都拎出来去做一次review，它不会偷这个懒的。机器在这点是相对来说比较可靠的，人是不可靠的。所以很多屎山代码就不会入库了。

而且呢，现在Codex可以直接把屎山挖开。为什么以前屎山挖不开？就是人处理代码是有极限的。我们从头到尾去读这个代码的时候，其实我们处理的能力是有限的。一个好程序员，或者说一个顶尖程序员，他比别人强在哪？就是他处理的代码量大。不是说我写了10行代码，写了1万行代码，还是写了多少行代码，就是当我看10万行代码的时候，我知道哪错了，这个错的地方在什么地，这个代码跟哪个代码是相互依赖的，哪个代码是调用哪段代码，这个东西我能搞清楚，这个就是一个程序员的一个基本素养了。另外一个说，我可以在100万行代码里头去把这个问题搞清楚，这个就更厉害一些。但是这个是有限度的，像我们去写一个浏览器或者操作系统，那这个多少亿行，没有任何人可以在里头看完。那你说这种大项目怎么做？就是通过工程的方式把它们切块，每一个程序员负责一部分，你就在这里头去处理，处理完了以后呢，写好接口，写好接口文档，其他人只跟接口去打交道，一个代码别人就不看了。原来是这么来处理的，但是在这个处理过程中的话，这个屎山就很有可能埋在里头，而且谁也没有办法把它挖开。去年我去日本，他们就跟我讲，说日本有好多70多岁的程序员，他写完了代码，除了他自己别人没法看。你再找一个人来看，这么大代码体量你咋看？这个是完完全全的屎山。

现在的话，有了这个GPT-5-Codex这样的新模型，它就可以把屎山挖开。它可以直接把所有的代码，把整个代码库都扔进去，它是有这个能力的，人已经超出极限了，人搞不定这个事。所以呢，他可以去重新替换代码，说这个代码我们整个去重写一下，把这个问题解决掉。这个以前不可能的事情，现在可能了。

那你说原来有没有人说“这个屎山我把它扔了重干一下”？也有。最近咱们看到的一个案例是谁呢？就是埃隆·马斯克。把Twitter买下来以后，把人都裁掉了以后，“咱们重新写吧，以前那屎山我不要了。”那你说他怎么干成了？因为他是埃隆·马斯克就干成了吗？其他人干不成，这是天才？也不是。干成的原因很简单，他不怕宕机。整个代码库更新的时候，这个X系统是宕机了好长时间的，而且有一段时间宕机还是挺频繁的。马斯克说：“反正公司是我的，也不是上市公司了，宕机我认了。”那这种情况下，他可以去把整个代码库扔掉了重写，否则根本没法干。如果是按原来的这种传统公司的架构，任何人都不敢去扒这个屎山代码，因为宕了机以后谁也负不起这责任。最上面管事的人，绝对是一帮普通人，甭管他是叫CEO，还是叫什么别的名字，那都是普通人，他不会写程序的。他只要求就是“你不许宕机”，具体这事是怎么回事，他是不管的。只有马斯克这种工程师，而且有钱任性，他可以说：“咱们把它整个屎山挖开。”其他人搞不定。

那么，GPT-5-Codex到底怎么能够让普通人去进行技术平权呢？分两步。

第一步，大厂会落后。大厂为什么会落后呢？因为很多大厂，最上面是一帮完全不懂技术的叫CEO，或者是叫一些其他的title的人在管。他们会很固执的要求，我们所有的代码不能上网。特别是像日本这样的国家，他们就没有办法去使用刚才我们说的这些工具：Claude Code、Gemini-CLI、OpenAI的Codex。它只能使用本地部署的一些小模型，那它的整个的数据库就会落后，就没有办法去跟那些新兴的企业去竞争。新兴企业，可能你没有钱去雇佣那么多的老程序员、高端程序员，但是可以靠一堆业余程序员、有业余爱好的程序员，就在Codex的帮助下就快速地追平大厂。而大厂呢，守着一堆屎山代码，因为不允许连接外网，那他就只能等着这些新的企业去超越他，他没有任何办法，只能眼睁睁等死。大厂原来的优势就是长期积累，以及呢，可以花高薪去雇佣最好的程序员，但是现在这些通通都成为包袱。被高薪雇佣到大厂的程序员，他们会进到大厂里去，看到大厂里头的系统到底是怎么做的，看完了以后说：“算了，咱们出去创业吧。”掘墓人就这么产生了。所以大厂会在这个过程中轰然倒下。

另外一个是什么？就是普通人也可以参与到技术平权里来了。咱们刚才讲“普通人”是非程序员，在这里的定义。当然了，这里的普通人，并不是说完全不懂程序的人。就像什么呢？比如摄影吧，原来有职业摄影师，但是你像我，我算业余摄影爱好者，但是对于职业摄影师来说呢，我肯定就是普通人了。能够理解这个逻辑吧？对于我这样的人来说，我现在也可以在大疆的这种傻瓜型的摄影工具的帮助下，拍出一些还不错的照片和视频出来了。现在也是这样的，一些稍微懂一点点编程的门外汉、编程的业余爱好者，也可以在Codex的帮助下，去做出一些很专业的产品出来了，完成一些很专业的工作了。这就是普通人的一个技术平权之路。而一点都不会，说我完全也不想看，这个事您还是普通人，跟我们没关系。稍微有点兴趣看一点，我们叫“略会”。很多东北的脱口秀里都在讲这个话：“你会打乒乓球吗？”“略会。”“会游泳吗？”“略会。”稍微会一点点的意思。略会编程的人，就可以解决很多大问题了。

你说我们去看一下Linux内核怎么回事？你原来需要学很久的，现在不需要了。略会一点点，我就可以去看看Linux内核到底怎么写的，有什么问题，哪有bug，哪个地方有可能有漏洞，都可以搞定。Linux内核是开源的，我们直接可以在源代码库上看。现在网上有大量的代码库，原来普通人是拿它没有办法的。现在这些“略会”的代码库，就可以进行解读，找出其中的bug，提出有见地的意见和建议来了。前一段时间有一个500G的代码库莫名其妙传到网上去了，很多的普通人拿他是没有办法的。现在的话，你说我略会一点点，稍微知道是怎么回事，你就可以把这个代码库弄到本地来，交给Codex说：“来，告诉我，这里头都写了什么？分几个模块？它们是怎么实现的？这个是为什么？那个是为什么？里头到底是做了些什么东西？”大量的普通人，可以参与到这个过程中来了。

咱们最终的结论：GPT-5-Codex就是一个普通人平权的工具。我们这里讲的普通人，不是说你没有钱、没有这个公司，而是说你不是专业程序员的这些普通人，就可以在GPT-5-Codex的帮助下，做很多原来专业程序员才能做的事情。

好，这个故事就跟大家讲到这里。感谢大家收听，请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见！

宇树科技CEO王兴兴给高考生的建议火了，他真正想说的不是选什么专业，而是揭示一个99%家长都不知道的、决定孩子未来的高校底层真相。

Luke Fan — Thu, 26 Jun 2025 00:48:49 +0000

宇树科技的王兴兴给高考生的报考建议突然就火了。大家好，欢迎收听老范讲故事的YouTube频道。

宇树科技呢，就是在春晚上让机器人转手绢那公司。他们家的老板王兴兴，号称是因为英语没考好，所以就留在国内了。公司的名字叫“语文跟数学”——宇树科技，因为没有英语。但后来人家辟谣了，说不是这样的，我们这个是“宇宙间的科技树”，不是英语没考好。

这个哥们最近还有一件事火了，是什么呢？他应该是上完硕士就出来创业。给曹德旺大学做校长的老教授最近突然问了一个问题，说：“王兴兴如果去上博士的话，他还能有这样的成就吗？梁文峰如果去上博士的话，他还能做的出DeepSeek来吗？”当时问的很多人哑口无言。

现在，王兴兴给高考生给了一个报志愿的建议。6月23号，宇树科技创始人CEO王兴兴发了一篇文章，说：

“各位即将进入大学的同学们，大家好，我是宇树科技创始人王兴兴。大学不同于高中，方向千行百业，每个人的选择性非常多，每个人有更多的自我发挥空间。在面对影响自己未来的专业选择上，难免会感到迷茫。

在这个AI加机器人的时代，站在这个激动人心又充满不确定性的技术爆发点前，如果大家想投身巨深智能行业，我结合自身的经历给出一些小建议：

1. 如果你从小喜欢拆解、维修一些电子产品，或者动手DIY做点东西，推荐学习机械或电子相关专业。具体的专业细分名字很多，请注意区分。对于自己感兴趣的学校和专业，大家最好直接去对应学校的官网，直接看看具体的详细介绍，看看老师们在做什么课题或者项目。哪怕专业名字一模一样，每个学校的差别也是非常大的。中间如果想多学习AI，也可以多花时间自学。

2. 如果你对智能如何产生感兴趣，如果你有AGI的梦想，且数学还不错，推荐直接学习计算机科学、人工智能相关专业。也一并请直接多查查对应学校的详细信息，甚至可以直接先去对应实验室看看。当然，还建议中间可以稍微花一些时间学习一些硬件相关的原理，比如自己动手画个PCB板子，简单实用。

当然，现实里大多数同学没有那么幸运能直接进入自己理想的学校和专业，或者进入以后发现不适合自己，或者不喜欢。这其实完全不是大问题，非常常见和正常。请不要放弃努力，寻找自己喜欢和擅长的事情，寻找新的方向，并请一定努力去实践。你可以转专业，哪怕转不了也一点问题没有。你可以直接去找自己感兴趣方向的老师直接沟通，去他的实验室做事，甚至完全可以直接全都自学。

后续上学时，请大家也不要局限于书本和论文。”

具身智能是物理世界的智能，一定要多动手：拧螺丝、调电路、写程序、抵bug。马上自己动手编程，进入实验室参与机器人比赛等等，在实战中迅速提升自己。我自己至今也还会自己直接上手拆解零部件、敲敲代码等等。

如果你想成为最顶尖的人才，一定要脱离课本，主动持续学习。学习当下最前沿的科技领域，或者关注顶级学术会议、最新论文等。积极参与最具探索性的开源项目，并尝试复现和改进。与同样渴望挑战边界的同学、研究者组建小组，共同探讨前沿问题，碰撞思想。每个同学都有机会成为全人类未来科技方向的探索者和实践者。

最后，我想说在未来的学业中，你们或许会感到迷茫，不知前进的方向。但不要担心，每个人都会迷茫，我也一样。在大学期间，要较多的探索自己的多种可能性，多尝试找到爱好点和擅长点。如果你的爱好恰巧也是你擅长的，那恭喜你，你找到了可以为之奋斗一生的目标。

在成长过程中，你们可能目睹了一次又一次的时代浪潮，见证了一个又一个的商业奇迹：外贸、房地产、基建、互联网、消费电子、移动互联网、新能源汽车等等。可能你们会羡慕前人，觉得机会变少了，觉得宇宙的科技树没有太多可以探索的了。但请不要灰心，AI和机器人的时代才刚刚开始，还有大量的挑战和机会在等你们。每一代年轻人有每一代年轻人的机遇，大家一起加油！

写的还是非常好的。我对于宇树科技和王兴兴本身并没有特别多的了解，但是写的这个文章我还是非常喜欢。

首先咱们稍微的解读一下，王兴兴到底说了几件事，以及他为什么要这么说。他第一个事讲的是什么是宇树科技：是科技公司，而不是玩具公司。我们也要参加鼎会，要去学习学术论文。宇宙的科技树嘛，它这个名字是这么来的。宇树还远远没有探索到尽头，还有大量的东西需要去探索。而且现在是AI加上具身智能，或者叫机器人，刚刚开始的时候，我们一起去做科技吧，不是生产玩具的。这个是要树立一个公司IP，这是干第一件事。

第二件事呢，其实他在说清楚一个什么？不是在建议大家怎么报专业，他在说我要招什么样的人。要什么呢？能够主动去发现并参与到行业最新研究方向上的人。你说我考试及格，随便瞎混一混，这种不是他要的人。互联网甭管大厂小厂吧，一般招聘都是这样的一个标准。

再往后呢，是要有动手能力，觉得动手去改进一些东西有意思，并能够从中得到乐趣的人。这个是他要招聘的，因为他毕竟是做机器人的嘛。你说我光是刷个论文，你到这样的公司里是不行的。

因为我们以前也遇到过这种纯刷论文的人来应聘。这些人其实是干不了活的。最终在公司里边，还是要解决很多工程上的东西。工程上的东西呢，可能没有论文让你去参考，但是还是要有一定的动手能力。如果你说我看到烙铁就头疼，这个可能不太适合做工程。

再往后呢，再讲数学大神。研究AI底层技术的同时呢，也请动手玩点儿硬件。因为现在大家知道，AI肯定是未来的方向。而且很多搞AI基础研究的人，都是数学特别好的人。这些人呢，大多其实动手能力不是很强。他说你们这些人，也去研究一下硬件，画画PCB板（就是电路板），也是需要的。当然了，里头也说了一些场面话了。比如说没关系的，你如果选不到满意的学校和专业，你进去以后，还要努力的发现自己的兴趣。只要你找到了自己的兴趣，我感兴趣的事情还我擅长，这种人宇树科技可能也要。他基本上讲了这么几个事情。

那么应该如何看待王兴兴的建议呢？至于有多少人愿意上宇树科技去上班，这个咱不管。如果咱们家里真的是有考生，或者周围有考生的话，我们怎么解读这件事情？其实绝大部分的家长可能压根看不到。他们还在研究说我应该怎么去选专业，怎么去选学校。对于这些家长和学生来说，你让他去把这个招生简章研究明白，2,900所学校，1,600多个专业，你想把这东西选明白，本身就很费劲了。

而且呢，很多的专业从专业名称到专业简介呢，还极具欺骗性。你要想去伪存真，从里边去找到这个真正他在教什么，还是挺难的。有一些比如说it圈的人，稍微关注一点，知道宇树科技干嘛的，知道王兴兴是谁。这些人呢，可能他们也没有能力去研究教授的具体方向。这个不是写在招生简章上的东西，而是你去看看教授参加什么样的会议，发表什么样的论文。这些研究最终的论文到底在写什么，在哪个方向上在起作用。这个其实已经绝对的超越了大部分人的认知能力了，不是普通人能搞定的。

所以呢，他们会发现有这样的一个信息差。他们会发现一个新的焦虑。这些人其实是没有办法的，他会感到痛苦。说我看到了一大堆的学校的简介，先看到了招生简章，看到了专业介绍。但是呢，里头到底在干嘛我不知道。他们就已经发现了这个世界真正运行的底层一角了。

从我们这种it人士来看，或者叫工程人士来看的话，很多的这种招生简章的专业介绍、专业名称里头的一些未来方向、憧憬什么这些东西呢，相当于是前端程序员写的网页。他的目的是什么？目的是转化率。至于底下到底干什么呢？说你这个里头教授到底在研究什么方向。

这个东西呢，相当于是后端程序员写的底层逻辑。绝大部分家长其实是没有透过前端表象去看后端底层逻辑这个能力的，但是你告诉他，他会痛苦。

真正有能力的一些家长是可以去做一些研究的，去看一下说，这个教授到底研究的是什么，那个教授到底研究什么。比如智能制造，好多是土木工程转过来的。我们去看一下这些老师原来的这个方向，最近几年在发一些什么样的论文，他是可以去研究出来的，可以去伪存真。你上面改什么名字都没用，因为你老师的研究方向，你不可能跟着上面这个名字改来改去的，他是可以去研究的。

对于教培和高考志愿填报机构来说，王兴兴的这个建议有什么意义呢？他就发现，这里还有一道信息茧房，这里还可以收一波智商税。那么我就可以继续去跟家长忽悠了，说你看这个名字已经起成这样了，但是呢这个里头底子不是这么回事的。你光看上面这表面的东西是不行的，那么它的价值就上升了，可以再去挣到一些家长的服务费。

对于我来说，我能干的活是什么呢？就是我做好传播就完了，把这个事情告诉尽可能多的人，让家里有考生，或者你周围有考生要去填报志愿的，让你有这样的一个认知。然后呢，甭管是说我愿意去自己研究一下，或者说我愿意去花钱找人填报一下，都算是有一点点小的改变吧。至于那些完全不知道这件事情的人来说呢，岁月静好就行了，这个事情跟他没什么关系。

我个人给填报志愿的建议到底是什么？其实到目前为止，学校还是比专业重要。很多人觉得专业比学校重要，这个事我一直都不是那么认可。因为什么呢？第一个，进去了以后你是可以转专业的，可以学其他内容。就算是说我转不了专业，那我还是可以找到自己感兴趣的东西，还是可以去自学。因为现在学习的资源都是开放的，你去找到相应的教授，找到相应的实验室，去敲门说我对这东西感兴趣，我还有能力去做，一般也没有人会直接把你踢出去。

清华同方工作的时候，我们的很多的总监吧，就是清华里边的这些教授。他们呢有名额吗？有，比如说谁谁谁有几个研究生的指标。你说老师我想占你个指标，成为你的研究生，这个事你得考，没什么好说的。但是你敲门说，老师我不占你指标，我就想来跟你干活，这个大部分的教授都是欢迎的，还是愿意让你去的。然后你做一段时间，你发现，我确实感兴趣也能干，这些事情教授也能看得到。下一次给有机会的时候，或者有名额的时候，他就会先想到你。所以这个事是完完全全可以干的。最后去招聘的时候，我们甭管学成什么样，是不是感兴趣。

你最后还是要走到社会。招聘的HR看的就是学校。你清华的物理系出来，北航的计算机系的，HR大部分的时候还是先看清华那个。更不要说我，既不是985也不是211，就是一个很普通的院校。但是我学计算机的，学人工智能的。那边一个清华的学生物的，这个HR肯定是先看那个清华学生物的。

选对了学校以后，你就要去排这个专业了。一定是最热的专业分高。那我分没有这么高，我就选这个稍微差一点的专业。我先进去，进去了以后，就可以去挖掘老师们的研究方向了。那你说老师这些研究方向，跟我们未来教的，到底有没有什么关系呢？特别是本科阶段。本科其实学的好多是基础课，这个事其实关系不是特别大。但是跟什么有关系呢？这个东西跟未来的人脉有关系。

你学本科学的都是基础课，但你出去以后你会发现，我的师兄师姐们在哪一个行业、哪一个方向里边扎根了。我举一个例子，比如说我原来有一个老板，他的公司叫银河航天，做中国的低轨道通讯卫星，就干的中国Starlink这种事情。他是哈工大的，他就发现说，我的师兄师姐师弟师妹们都在航天部里头折腾乱七八糟这种事情。走到哪一说，你是哪个哪个老师的学生吗？这一下就把关系拉近了。就跟咱们自古以来的这个科举制度是一样的，同门同年，都是走这样的一个关系往前走的。所以老师的研究方向在本科阶段，其实更主要的是他的这个人脉关系，对于你未来到底有什么帮助。

你到研究生方向，或者再往后走一点点，才是真正说，我是不是要去做相应的研究。当然，如果你说我在本科阶段我就已经发现这件事是我感兴趣的，还有能力去做的话，那提前加入也没准。可以提前的在老师面前表现表现，锁定那个名额，这个也是很重要的。

好的学校，烂的专业。因为刚才我们讲嘛，先选学校后选专业嘛。那最后会怎么办呢？其实HR招聘的时候，包括像我以前面试的时候，我们看到简历先看什么？第一，你是什么学校的专业呢？有时候我们也看，但好多时候是不看的。再再往后看什么东西？看的是你的实践经验。

比如北航的吧，不是那么热门专业出来的。但是你拿到这个简历以后你往下看，说我参加过什么实践，我写过哪些哪些项目。比如说AI的哪个项目是我参与的，或者说我在哪一个开源项目里是核心贡献者。那这个不就够了吗？你前面学的什么专业呢？这个事就不重要了。所以就是要积极的参与到各种的开源项目和一些社会实践中去。要写清楚，说我到底在里边参与了什么事情，做了哪些贡献。这个是很重要的。

王兴兴里边还讲了一点，是说我们要去参与很多的这种小组科研小组，这个也很重要。像我是当时上大学第一年，就去参加他们的这种小组。后来到大四的时候，基本上可以当到组长了，带着一帮学计算机的朋友们去玩一些最新的东西，这还是比较好玩的。

兴趣是非常非常重要的，做自己感兴趣的事情可能会稍微的快乐一点点。但是这个事呢，也分两说吧。有的人呢，觉得我要去寻找这种感兴趣的方向，然后去把它作为终身的职业去做下去。像我们以前招聘的时候呢，也会专门去选择那些叫眼睛里有光的孩子。什么意思？就是他找到了自己感兴趣的事情，他就爱这个事，他就干这个事。把他招回来，你让他加班吗？你不用让他加班，我喜欢，我就愿意干。

如果你的全部的业余爱好就是，或者你全部的兴趣就是你工作这点事的话，这个人会比较没意思，或者说他的生活会变得比较无趣。所以有些人呢，也建议说工作就是工作，爱好就是爱好。把爱好当成工作的话，对于人生是一个悲剧。但是对于我来说，反正我们以前面试的时候都是找眼睛里有光的孩子，这个大家自己去选择。

现在呢，学习资源非常多，而且免费开放。上大学以后呢，主要还是要看学生自己的学习意愿和学习能力。当然高考完了以后，你考到了多多少分数，在北京呢叫一分一段，就是哪一分你大概能上什么样大学。今天应该已经出来了，就是照这个东西比一比。至于说剩下的事情，等孩子真正上了学以后，让他自己去领悟。因为上高中呢，还可以家长在后边看着，上大学你看不过来了。你如果孩子在那说我就没兴趣这个事，那你也没有什么办法。你不能说你应该对这个东西有兴趣，这个是不可能的。

再往后呢，我们作为普通家长来说，或者说学生吧，如何去研究一下老师的这个方向呢？这个其实已经超出了绝大多数人的认知范围。因为对于整个社会来说，最顶尖的这些教授肯定也是最顶尖的社会精英嘛，他们所研究的方向一定是社会上绝大部分人看不懂。那我们怎么去理解说这个事情到底是不是我们想要的？这个方向到底是不是我们孩子未来感兴趣的方向？

这个呢，现在是可以做到了，以前搞不定。不是说让大家去买什么服务，这个不是咱们的目标。你们呢，可以借助AI，可以用一些AI agent。上来你比如说某某学校某某系有哪些方向，他们有哪些老师，这些老师他们都发表了什么样的论文，有什么样的影响能力。你把这样的一个完整的提示词给到AI agent以后，他会给你做总结的，他会查到说。

这些论文网是什么样的？这个论文网站上哪些人是怎么样的？他们怎么去评的职称？这些东西都是公开的。原来我们去搜索，搜索完了以后，大量的信息让我们自己去总结，我们也看不过来，甚至看你也看不懂。现在你就不用干这个事了。你去比如说用GPT或者是用Gemini，直接使用这个深度研究的能力，把提示词写进去，它就会去搜索，就会去总结归纳。让他干个20分钟，他就给你找出来某个学校他的这些老师，都是发过什么样的论文，哪年发的，这个论文是什么方向的。

然后呢，再进行总结：这几个老师是一个研究方向的，或者是一个小的团队；那几个老师是一个团队。这个AI都可以自己给你分好。然后呢，根据这些论文的脉络捋清楚以后说，他们这个方向大概是什么研究的，未来应用的领域在什么地方。这个就可以让普通人用一个相对来说比较直观的方式去理解，大家原来在干这样的一个事情。这个事情好像比较有意思，我们应该会去试一试。我明天把这个工具用起来。使用AI就是要挖掘招生简章包装之下的底层真相。希望大家可以玩起来。

今天呢，各省市应该都出成绩了。希望看节目的朋友能够把这个信息呢传递出去，把这个理念传递出去，能叫醒一个是一个吧。说你们现在不要再去看招生简章上这些花里胡哨的字了，不要去看这个名字，不要看那个描述和未来展望。这个东西都是没用的。什么东西才是有用的？就是在这个后边，这个专业真正的这些教授们，他们的研究方向。哪怕说他有一些本科的基础课程，他是按照教学大纲来的，但是如果这个老师是在某一个特定领域里头做了很深入研究的，那么他也是会有很深的人脉。而且他讲的课的内容，也会向他自己研究的方向去发生偏移的。

好，这就是我们今天要讲的内容。感谢大家收听。请帮忙点赞，点小铃铛，参加discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

腾讯为元宝霸王条款道歉，冤吗？腾讯元宝用户协议之变：从不可撤销到道歉改进，你的数据权益何去何从？

Luke Fan — Tue, 11 Mar 2025 00:39:48 +0000

腾讯道歉了，修改了腾讯元宝中的用户协议。霸王条款！我们使用的各种AI工具中，到底还有多少虎狼之词藏在里边等着我们？

大家好，欢迎收听老范讲故事的YouTube频道。首先，咱们先来看一看腾讯元宝原来的协议到底是怎么写的，这个律师的词语到底有多么犀利。

“您授予腾讯公司及其关联方一项不可撤销、可转让、可分许可、再许可的非排他的、无地域限制的、永久的、免费的许可使用权，以使我们对您上传内容以及本服务器生成内容进行存储、使用、复制、修订、编辑、发布、展示、翻译、分发上述生成内容，或制作派声作品等。使用包括但不限于模型优化、学术研究、市场营销、用户调研，以改善本服务及或腾讯的产品。”

我天，这句话念完了以后差点没憋死我。你们听完了以后感觉如何？什么叫分许可、再许可？就是你许可给我了，然后我把它分拆了以后给别人了，再去对别人进行授权，这都是可以的。还要无地域限制的、永久免费的，等于一把就把甭管是我上传的内容、写的提示词，还是他给我生成的内容，全都授权给他了。而且使用呢，不限于模型优化、学术研究、市场营销、用户调研，我想拿它干嘛干嘛。

整个这一份写下来就是：你的是我的，我的还是我的，我想怎么弄怎么弄，弄完了以后，我想拿它去干嘛干嘛。而且你是永久授权，还不可撤销，还免费。当时大家看完了就炸了，引起轩然大波。

其实腾讯并不是头一个这么写的人，只是呢，别的小公司干这个事没什么人在意，大家基本上都是这么写的。而且腾讯这个写的其实还不是最过分的，有的是写的比他还过分的。但为什么到腾讯这就不行了呢？谁让你是腾讯呢？不是有小说网站、有视频网站、有微信、有公众号，还有这么多游戏，从上到下没有什么东西是你不干的。那你写出一个这样的许可协议来，肯定是很瘆人的呀。

这个事情最早发酵，我记得是小红书上有篇帖子上说：“我再也不敢用元宝去给我的小说校正错别字了。”像我们以前看网络小说，上面各种错别字是很多的。

但是，你现在有了大模型之后，哪怕说我不让他写小说，你让他帮你稍微的润色一下，还是很方便的嘛。那现在润色完了，所有东西都归他了，这个就没法整了。腾讯的律师呢？你说怎么就这么狠？人家肯定也是做了功课的，别人都写得很严厉。如果我写得很松散的话，会被同行笑话的，而且呢也容易被腾讯内部的其他部门所攻击。

像我们以前去写很多协议，让法务部去改，那个特别有意思。我就觉得好像我们每一次协议，法务部都会改。没有修改意见下来的话，就感受到他们好像没干活似的。但是每次改呢，肯定是越改越严，没有哪一次说改完了以后变松的。因为对于他来说也很简单，你如果不层层加码，出了问题以后算谁的？你说，我发现你这个写的太严厉了，我给你把改的稍微松散一点点，那下次出事了以后，你可以说谁让你给我改松了的？出事了需要去进行诉讼，结果你里头有一些细节没有写对，他就会出现这样的问题。所以他们一定是越改越严。

原来疫情期间为什么往下走的时候，政策都会层层加码？因为你往下走一层，如果他给你放松了一点点，出了事算谁的？这是一个责任必须到人的一个社会，所以腾讯只能是在这个基础上，一层一层加码加下去。那为什么说他还不是最过分的呢？稍微还要点脸。那谁更过分一点？咱们看看360纳米搜索的用户协议，这个要更过分一点。上面写的360及其关联方、合作方，对用户上传、发布的任何内容，在全球范围内享有永久的、不可撤销的、免费的非牌他的著作权利，邻接权利，即对上述权利转授权的权利。同时，360会以用户的账号将其发表自动同步至360运营的其他产品和网站，并且360有权以用户或自己的名义对侵犯前述内容的知识产权之行为进行维权。

大家觉得好像差不多呀，永久免费、不可撤销全是这个。你光看这个了，咱们看看里边的细节。第一个他已经说了，说360是拥有著作权利的邻接权利，以及对上述权利的转授权的权利。腾讯这里头只是说唉，我把你这东西存了。

我可以拿去干什么事，但是并没有说我自己有注册权。第二个真正吓人的地方来了：360会以用户的账号将其发表，自动同步至360运营的其他产品及网站。他替你去发表了，还没有经过你同意。同步了以后还告诉你这是你说的，这个是非常非常吓人的。因为像我们知道，就是我们去说了什么话的时候，一定是有一定的适用范围的。我知道这是我自己在偷偷家里说的，出了家门我是不认的。但到360这儿，别，你只要是在360这用过的东西，我就用你的账号给你发表出去了，还不是用360的账号，我是用你的账号给你发表出去了。这个还不是最过分的，最过分的是最后一条：360有权以用户或自己的名义，对侵犯前述内容的知识产权之行为进行维权。下回他不需要经过你的授权，还可以以你的名义帮你去维权了。我帮你打官司了，你是一个原告，然后你压根都不知道，我去给你打官司了，然后输了赢了这人算谁的？360打官司其实是输的挺多的，他都把这些权利留在自己手里了。

但是，360这个事，为什么没有引起特别大的反响呢？大家也都知道，他是一个什么样的调性的公司，所以他写出什么来，大家见怪不怪了。而且360本身的用户量、影响力比腾讯还差远了。360自己至少没有什么小说网站，没有什么视频网站，这都没有吧，也没有微信这样的大杀器吧，所以他就写成这样了，大家就凑合了。但是到腾讯这不行了，你写的什么各种什么永久不可撤销、再分发什么这些权利，大家受不了了。别人怎么干没事，腾讯不行，你不能这么干。盯着他们的律师和竞争对手是非常非常多的，包括像360这样的公司，如果发现腾讯写了一个很二的用户许可协议，他也会出来踩两脚的。别看他自己那个写的更过分。那么腾讯翻车了，这个事情本身也是有一定传播性的。我现在出来说，360写一什么东西翻车了，大家说这不正常吗？这有什么问题吗？但是你说腾讯写了这么一个特别流氓的东西翻车了，我得瞅瞅他们干啥了。

他一定是这样的一个事情。最终呢，腾讯修改了两次，还出来道歉了。第一次修改呢，是去掉了“永久”和“不可撤销”。大家注意这个，“不可撤销”这件事它是违法的。因为很多的国家地区，包括咱们这儿，好像都是有这样的权利要求。我们可以去向这些社交媒体，或者是这种信息发布平台，去要求撤销，或者永久删除我们要求的一些内容。只要这个内容确实是我发布的，我都是可以去撤销的。你如果把这个“不可撤销”放在上面呢，他就违法了。所以他第一次把这个“永久”和“不可撤销”去了。

然后呢，发现舆情并没有消退，大家还在看他的热闹，赶快在同一周之内再做了一次修改。这一次呢就宽松很多了，只有用户参加了体验优化计划，才相当于是授权腾讯来使用内容。实际上就是他要拿你的内容，去训练大模型去优化模型，要干这个事。如果你不参加这个体验优化计划的话，他就不做这个事。其实我们现在用这个grok，或者是用很多的国外的模型也是如此的。你需要在上面去确认说，我要参与这个项目，你才可以用我的内容去微调模型。如果我不参与的话，你不可以做。

但是呢，腾讯呢比国外这些公司做的还稍微好了那么一点点。什么呢？因为国外很多的公司是你默认参加的，而这个腾讯呢是默认不参加。你要在一个地方去打勾，选中了以后，你才可以去参加这个体验优化计划。其实你的内容后边它到底怎么用，这个事谁也说不清楚。因为你一旦进到他的服务器里以后，那是个黑匣子。你就算想诉讼他，在中国都是很难的事情。

但是呢，至少从文字表面上，腾讯这次呢既然被人骂上热搜了，咱们好好的调整一下，把这个事情改的稍微的宽松一些。那你说有没有相对宽松一点的用户协议呢？也是有的。豆包的呢要稍微好一点点。豆包的写的是：“为了提升你使用本软件及相关服务的用户体验，使你的内容得到更好的分享与推广，你授权公司和或关联方一项免费的、全球范围内的、可转让的、可分许可、再许可的使用权，在法律许可的范围内使用你的内容。”

例如，用于模型优化、品牌推广与宣传，稍微呢看着柔和那么一点点。但其实我们应该说它是相对比较模糊的。他也是告诉你，你是要授权给我的，而且是在全球范围内。大家注意，你一旦写全球范围内这个事呢，中国也有互联网的数据安全法。你凭什么把中国用户的信息在全球范围内使用？这个事跟中国的数据安全法其实也是相违背的。像刚才我们看的腾讯的用户协议跟360的用户协议，都是要求在全球范围内。为什么会写这样的话？我万一用到国外去了，你告我这事，我先给你写着以防万一。但这句话其实也是违法的。你要到其他国家，你干这个事马上就被人告了。人家都是要，我的内容必须在本国服务器存储，不可以放到其他地方去。如果你要想把本国的内容放到其他地方去的话，那你是需要干嘛呢？需要去申请，还是需要经过同意的？而且这个申请过程非常非常的难，基本上过不去的。

还有一些，比如说DeepSeek，它是怎么写的呢？用户保留在提交的输入中拥有的任何权利、所有权和利益，并将服务输出的内容的任何权利、所有权和利益归属于用户。此外，还明确了用户可以将本服务输入输出应用于广泛的使用场景中，包括个人使用、学术研究、衍生产品、开发、训练、其他模型如模型蒸馏等。DeepSeek可是最松的，为什么？他们开源的。你一旦开源了以后，人家拿你大模型当你干嘛去，其实你压根管不着人家。所以他很明确的跟你说，你自己的输入输出中也都是归你的，你愿意拿它干嘛干嘛去。而且很明确的写出来，你想拿我这个输出内容再去做蒸馏再去干别的，都可以随便。这个呢，就跟OpenAI的用户许可协议形成了鲜明对比。OpenAI说了，你拿我的结果出去做蒸馏，我们是不允许的。但是DeepSeek说，随意，大家拿去玩耍吧。但是咱们要注意，DeepSeek呢是有两套的。一套呢，是他开源大模型出来，还有一套是什么呢？就是他自己的网站，Deepseek.com那个官网。

以及呢，Deepseek的这个APP在这块呢，Deepseek是保留了相当权力了。为什么呢？这个里头有一个内容审核和合规的问题，这是一个底线。你在中国运营，政府是有合规要求的。而且中国政府对于这样的AI大模型，或者是对公众服务的这种叫AI助手吧，它是按照对公众服务的社交媒体平台的方式去管理的。所以呢，你在这个上面产生了什么特别奇怪的内容，它就给你过滤掉了，你根本看不到。但是你在这边问了一些很奇怪的问题的时候，它是要保留下来的。如果政府需要去审查的话，他们会毫不犹豫地把你提交的内容拿出去审查。这个是所有对公众提供服务的AI助手，包括API的云端平台，都是要去遵守的。这是中国特殊要求的，其实各个国家应该都有，咱们这可能合规上要求的稍微的严苛那么一点点吧。

那么，AI时代内容的版权边界呢，本身其实是很模糊的。输入的提示词到底有没有版权，到底算谁的？按道理来说呢，输入提示词因为是我打进去的嘛，应该是我拥有版权，拥有著作权的。你如果要想使用，你必须要跟我商量，要得到授权，而不是说我打开服务了，你把这个提示词啪一个回车打进来了，那这东西就归我了，不能这么讲。AI生成的内容到底有没有版权，这件事呢其实全世界还在争吵过程中。按照中国的著作权法呢，AI生成内容是没有版权的。中国著作权法就是，这个事必须是人创造的过程，才是可以申请著作权申请版权的。如果没有人创造，只是你输入了提示词，人相当于是一个辅助的状态，我们提供了一些咨询，但是由机器生成的内容，那么这一部分呢，其实是没有著作权的。但是现在有些判例又维护了这样的著作权，就是国内也有些判例，你用AI生成的这种图片，他认为你依然是有版权的。所以现在这一块呢，应该是在一个比较灰色的地带。没有版权这个事怎么保护呢？我觉得保不保护这个事呢并不重要，因为有AI以后，你不需要去抄袭别人了，你直接让AI生成就完了。

所以，版权未来可能并没有那么重要。真正重要的会变成另外一个东西，是什么？谁承担责任？我说了一些话，或者是生成了一些图片，我伤害到别人了，或别人觉得我看着不舒服了，这个责任到底是谁来承担？如果我没有版权的话，那这事肯定不是我承担。这东西是AI大模型生成的，那个图片也是AI大模型画的，这跟我有啥关系吗？我只是提供了一个辅助而已。那这事行不行？这个其实是未来可能更多需要去思考的问题。内容生成平台、内容分发平台的责任到底应该怎么划分？这个也是现在需要想的事情。

现在，各个小说网站的编辑们都已经疯了。为什么呢？DeepSeek到底能干嘛？别的事情咱不好说，但是DeepSeek写小说这个事，效果还是可以的。原来这些编辑们，只要是看一下这个小说还可以，然后维护一些作者，甚至你还还需要出去抢作者，还要让大家定时更新，给大家发全勤奖。现在不用了，DeepSeek写的小说已经把他们淹没在滔滔洪流之中了。大量的小说冲上来，你都看不过来。我告诉你，阅读的速度绝对没有DeepSeek写的速度高。一帮人都是拎着各个平台的DeepSeek在那写小说呢。每一个编辑都要去思考，说这玩意到底能不能上架呀？这个里头有没有什么问题？而且DeepSeek写小说这事，原来我们试过比较百无禁忌，对于编辑来说，这就变得非常非常麻烦了。

编辑为什么要每一本小说都看呢？这个又是一个中国特色。所有上线内容必须经过人工审核，而且是责任到人的。我原来是盛大上班嘛，盛大文学的运营成本是非常非常高的，极多的编辑。那些编辑也很神奇，他们那个阅读速度极快，可能一两百万字的小说，对于他们来说半天都看完了。但是你即使如此，现在DeepSeek生成小说的速度也不是他们能够去审核的完的。哪些小说出了问题了？哪些小说写了一些很奇怪的话了？他们都得要负责任，不能说我看都没看，一摁确认就上线了。中国按照社交媒体平台的标准来管理AI助手。

那么，太多不能说的、不能碰的东西在里头。因为很多东西，这些编辑自己都搞不清楚到底能不能说、能不能碰。特别是一些比较年轻的编辑，比如90后，甚至有00后。90年之前发生的事，他们还没出生呢，他咋知道该忌讳啥？他也不知道。就很多这样的问题就会出来。有些东西呢，可能小范围内可以说，一旦传开了，或者是遇到某些特定事件，就会爆雷。比如我今天说了没事，然后等过一段时间，发生了一个很巧合的事情，人说：“你，你当时说这话什么意思？”你不能去跟人解释，说我当时说的时候也没想到后边会出这事。没人听你这解释，责任到人，一层一层抹到底完事。这个事情在国内还是很多的。

开源模型呢，会稍微的松散一点点。开源模型协议通常只规定模型自身的权利，你到底能不能用。比如像Llama，他规定说你可以拿去用，但是呢，超过多少用户以上的，你不可以拿去用。这个里头能够达到这个要求，还想用它模型的，大概只有字节跳动一家。这个也是深深的怨念，大家可以感受到。有些模型就规定了，说你拿我这个模型去使用没毛病，但是呢，你要说明你确实用了我的模型了。你不可以拿我的模型去训练竞争对手。也有人写这样。他们对于输入输出内容呢，通常是不负责任的。虽然Llama三以后，它也是有一定的安全性的。DeepSeek呢，也是有一点点安全性，只是不那么高而已。在这种情况下，你甭管输入什么东西，输出什么东西，甭管是Meta还是深度求索，概不负责。因为你在自己的服务器上跑，我都没看见你到底输入输出什么了，那这事我咋负责任嘛？没法负这个责任。

这个里头呢，就有一个灰色地带，是谁呢？就是开源推理平台。他们就比较麻烦了。比如说像国内的硅基流动，国外的Together，它就比较费劲了。这个模型是开源的，你在平台上部署了，你也收了钱了，那你如果吐出什么虎狼之词，你得负责任。我输入的所有信息，你也得负责任。万一政府说来：“你给我查一查，老范讲故事在你们硅基流动平台上，都输入了一些什么信息？”

你给我查一下，他也得拿得出来。所以在这块呢，稍微有一点点麻烦。他们是需要对输入输出的内容去负责的。那咱们呢，讲到这了，大家也知道，这就是一个时代发展过程中的阵痛。大家还是要在版权责任之间，去寻找一个新的平衡点。

那咱们回过来说，律师的这种文笔到底是怎么练出来的？刚才咱们看到这个文笔，是不是觉得脊梁沟发凉，凉气噌噌噌往上冒的这个感觉？律师呢，向来都是搞这种威严大义。看他写的文字来说，每一个字都认识，拼在一起不知道什么解。他有时候会出现这样的问题。他们有一套自己的遣词造句方式，用最简洁的语言获取最大的利益。

像刚才我们讲的什么分授权、再授权、永久有效，什么永久免费不可撤销，什么全球范围内，这个都是他们已经写习惯了的这种词语。而且还有一点什么好处呢？就是当他写这种简单易懂单词的时候，你就看一眼就过去了，压根没想明白，我到底授予了他什么样的权利。像360那种说，我有权利替你用你的账号去发布，我还有权利用你的名义去诉讼别人，这个多么吓人的一个事情。

律师之间的也是天下文章一大抄。就是很多东西呢，他们也不会说，我自己一拍脑袋就想。我们见过的很多律师都是说，我要看看别人是怎么写的。我相信呢，腾讯元宝去写这个授权协议的时候，也是如此的。因为他出的最晚嘛，别人都是早早就把东西拿出来了。那他最后一个出来，那肯定要看一下别人家是怎么写的。没准他还想着说，你看我还提升了一些自由度，我还给你放了很多权利。他会这样去想问题。

而且律师呢，写这种协议条款的时候，他们有一个很坏的习惯，叫做江湖越老胆子越小。这事怎么解释？就是他需要去应对各种各样的极端情况。你比如说吧，他前面写了说，我可以授权再去海外使用，我要在全球范围内使用。那他一定是见过某些案例，虽然这种案例发生的几率非常非常小，可能多少年就那么一次，但是他记住了。等到下一次再写的时候，一定要写上去。像我们以前写协议的时候，经常跟律师吵架，他就会语重心长的跟你讲。

哎呀，这个事你不知道。原来出过事情的谁谁谁，某一年就类似这样的一个案例，有这样的判例下来。以后的话，后来我们都加，所以他们的很多文字是这么来的，就是应对极其低概率的极端事件。而且现在呢，还有一个帮手，是谁？AI。你让DeepSeek给你写一个这种条款，你看看他写的也是这种风格，因为很正常嘛，他学就是用原来的这些律师文档去学的。

那么未来展望是什么样的呢？现在呢，是真的信息大爆炸时代了。原来我们都讲互联网信息大爆炸了，但是你在一个信息生成的AI平台面前，或者整个的一个AI行业面前，以前的那些信息大爆炸，都是小巫见大巫了。现在那个信息量，绝对是大家无法想象的。写小说原来一堆作者在这吭哧瘪肚的写，这些编辑还可以去应对。现在好了，我们只要给几句提示词，DeepSeek也好，grok 3也好，就大段大段的往外吐文字了。甚至很多人在小红书上，在抖音上就开始分享，说我怎么一天写100万字出来。起点中文腾讯文学上，日更4,000算是及格的，日更8千，你很厉害，日更一万二，神呐，现在都是日更百万，你这受得了吗？而且这百万还跟别人不重复，那这个你让编辑何以适从，完全没法弄。所以这是真的信息大爆炸了。

在现在这个时代呢，原来的版权法案和相关的法律肯定都会崩溃，这个是没有任何办法。你说这个东西有版权，那个东西有版权，不需要洗稿就完了。字节跳动原来是想把今日头条这个产品弄到国外去的，后来放弃了。他们当时弄出去的方式是什么？就是洗稿。CNN现场有记者去报导了，找一个西方，一般是在东欧这样地方呢，用英语把这个稿件重新写一遍。这个就是网络媒体或者网络自媒体供稿。人家说，我们据传怎么怎么样，也不告诉你是从哪来的。至于说你这个CNN的记者，BBC的记者，跑到前线去做一线报导，那这个成本就不见了。我也不需要去给你买版权，我直接去引用这些自媒体就完了。这样他就不需要再去向这些大的媒体去买任何的版权了。

你也没法去纠正我，为什么？我这个确实是从自媒体那引用的呀，不是从你那去抄的，或者我机器洗的，都不是。那是个真人，只是这个真人可能呃，跟他之间有一些服务协议。人家说，我们也不叫服务协议，我们也不是说我给你签个协议，你给我写稿。他们叫什么呢？他们叫自媒体激励计划。你把这个稿写完了以后放到我这来，我按照公开的自媒体激励计划，你这个文章写了多少了，更新的很勤快，我就给你钱，我给你补贴。他用这样的方式来去进行洗稿。那现在大家就可以AI洗稿了。那在这种情况下，你说这版权法案到底怎么去保护？完全就是扯淡了嘛。未来真正需要去制定的法律，不再是保护版权了，而是什么呢？合规、追责。第一个，你说的话是不是合规？这个其实不光是中国有这样的问题，全世界都有这样的问题。你到美国是不是有种族歧视，是不是有暴力伤害什么？这个东西他也是要去逮的。而且性骚扰什么的，他比中国逮的还严。咱们还可以讲个黄笑话呢，对于他来说你讲个黄笑话，还直接可以me too就可以告你了。这个事情其实是现在全世界都在头疼的问题。因为前面社交媒体平台就耍了个花招，说我只是提供一个内容分发的平台，内容不是我产生的。如果你觉得受到伤害，你告诉我，我把他删了就完了。剩下你该起诉谁起诉谁去，你别找我。原来是走了这么一个协议，让社交媒体直接发展起来了。但是现在呢，这个里头有写提示词的人，这个是个人，有生成内容的是大模型厂商，还有传播内容的，比如说抖音，TikTok，Twitter，YouTube，还有这种就是在转发内容的人。这个里面呃还有推荐算法，还有什么生成算法，一大堆这样的事情。这个责任到底谁担？这个是未来，大家真正需要去思考的问题。所以在未来大家不要再去想版权的事情了，多想一想如何去划归合规和追责的问题，这才是这个AIGC未来对于内容责任权利的一个正确的打开方式。好，这一期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛。

参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

AI IDE 带来了真正的 AI 平权！AIGC最后一公里，每一个人都有权获得AI的福利，不管你是不是程序员。

Luke Fan — Fri, 21 Feb 2025 00:43:06 +0000

AI IDE，这就是AI平权的开始了。大家好，欢迎收听老范讲故事的YouTube频道。首先，什么是AI IDE？IDE叫集成开发环境，就是我们把编辑代码、编译代码、调试代码、部署代码，所有这些东西集成在一起的时候，它就叫集成开发环境了。由AI进行辅助工作的代码集成开发环境就是AI IDE。

那么，为什么AI IDE就可以讲到AI平权了呢？首先，在这里跟大家讲一个当年做抢票软件的故事吧。以前在猎豹移动的时候，我们去做了一个抢票软件。很多人就去说你这个不公平，为什么不公平呢？因为只有程序员可以搞定这件事情。如果你不是程序员，或者说你对于电脑没有什么了解，或者我是个老人，我就没有办法去使用这些工具去抢到火车票，那么这个事情就不公平了。后来我们说，这个我们已经是做了最大的平权了，因为我们做了抢票软件，至少有一部分年轻人是可以抢到票了，而原来这些票可能是被黄牛或者其他的一些有关系的人拿走了，这是一个更不公平的事情。而现在的话，你只要稍微的去学习一下浏览器怎么用，去使用这个网站，你就可以抢到票，这个已经是在平权的基础上迈出了一步了。

AI也是如此一个情况。现在虽然有AI了，但是通过聊天界面去跟AI聊天，这个过程其实只使用了AI的很小一部分功能。你现在想要使用AI更完整的功能的话，不会写程序基本上是不行的。那么，怎么能够让所有人都能够有机会，像当年用抢票软件抢到火车票一样，让我们去用到所有的这些功能，或尽可能完整的功能呢？就是要写一点点程序。很多人或者大部分人，其实是没有受过编程训练的，那这个时候AI IDE就可以把这个权利差给你抹的基本上平掉，就是做基本平权。

那你说有了这东西以后，是不是程序员就失业了呢？因为很多AI IDE上来以后都是说，9岁的小女孩用了多长时间写了个游戏，或者是多大的孩子写了一个插件，可以去跟AI聊天了。不用担心这种事情，在大家都会开车的时代，原来那些职业司机。

还有很多的岗位是需要他们的，比如说修车、改车、赛车、汽车保养与清洁，以及驾驶员培训。还有很多很多事情可以做。所以这个呢，并不会让原来那些程序员就失业了。AI IDE出来以后，原来的那些程序员可能需要做的事情，是在更广泛的一个范围内进行转型，而不是说只做原来这些事情了。

那么谁应该来使用AI IDE呢？首先要讲一个可能跟大家想象不太一样的事情，就是职业程序员。很多人是看不上AI IDE的，甚至有很多程序员连IDE都不用。刚才我们讲IDE叫集成开发环境，非常非常多的这种程序员，而且这些程序员都是资深程序员，工资很高的程序员，他们是使用命令行工具的，使用最简单的编辑器，完全都是靠命令一行一行在这打命令打指令去做事情。他认为你把它集成在一起以后，不如我原来使的方便，这个是很正常的。比如赛车手他们要去开手动挡车，职业的摄影师一定要用单反相机，都是一样的。所以职业程序员，其实对于这种自动化工具，反而没有那么看重。那你说单反相机，什么专业的剪辑软件Photoshop，这个才是专业人士要用的东西。职业程序员，就是要使用这种最专业的东西。这种AI IDE就像原来我们讲的一个傻瓜相机，它是一样的东西。傻瓜相机就是拿起来就摁，摁完了就出结果，你也没什么可调的，基本上结果可接受，也不会特别好，也不会特别差。

谁该去用它呢？就是有需求的业余程序员，像我这样的。我现在已经只能算业余程序员了。还有呢，就是非程序员，这些人是需要使用AI IDE来实现AI平权的。现在这个时代呢，甭管你原来学没学过编程，都稍微的学一点编程，这个并不是很难的一个事情。在当今乃至未来，社会运行的底层逻辑就是程序。如果你完全不了解程序是怎么运转的，那你可能就无法去理解社会运转的一些底层规律了。像我前两天还遇到人说，大模型说的难道不都是对的吗？当时这句话震得我是外焦里嫩，我说这个大模型最擅长的事情，是一本正经的胡说八道。

你每一次都要知道，我到底是给了大模型什么样的参考资料，给了他什么样的提示词，然后他是在什么样的约束下给我得到的答案，才能知道说这个答案到底有多可靠。如果你一上来就认为大模型说的都是对的，那就属于是你完全不了解这个东西的底层逻辑。甚至还有人跑到医院看病的时候说：“DeepSeek不是这么说的，医生你看错了。”医生也是搞得非常非常无语。所以在现在这个时代呢，稍微学一点点编程是有好处的。

我呢，是在会员频道里头放了一些针对文科生的计算机基础课，内容还在持续的整理和增加之中。这个东西确实是很费劲，因为像我们这种做过程序员的人，我去讲很多东西的话，还是喜欢使用专有名词。这种词其实很多没有做过程序员的人还是听不懂的，所以我也在逐渐的整理，逐渐的做这些课程。

讲远了，那你说我们现在有没有可能做出一些这种傻瓜相机似的东西，或者说不是给专业程序员用的这种东西，然后未来能够超越或者说比这些专业软件做的更好一些呢？这个好像是可以的，因为现在有很多新的软件，大家很广泛使用的软件，其实都是这么来的。都是一开始给非专业人士使用，把这个专业工具上的很多复杂的设定都给你删掉。像单反相机上有多少拨轮，多少开关都给你删掉，就剩一个快门键，搞成这样。当更多的人去用起来以后，他再逐渐的把功能加上来。

比如说像Figma，这是专门给设计师用的一个工具，还有Canvas，这个也是给设计师用的。你像我每一个YouTube的视频，前面这个图都是由Canvas来画的。我是不会使用Photoshop的，那个玩意太麻烦了，我用Canvas用的很好。现在Canvas也好，Figma也好，用户量都非常大。Figma后来是被Photoshop母公司Adobe给收购了。

然后剪映，你们看到我的视频，都是用剪映来去剪辑的。这个也是给非专业用户使用的，他现在的用户量要比所有的专业剪辑软件加起来还高。

而且，他现在的功能已经越来越完整，越来越完善了。很多这种专业剪辑软件上的东西也都出来了。还有一个大家可能最熟悉的东西是什么？iPhone。你说iPhone挺好的设备，它怎么不专业法了？大家想想照相这件事，原来人家是用专业相机照相的，现在我们说要照个相怎么办？掏出iPhone来，咔嚓摁一下就可以了。所以，这就是给非专业人士使用的工具。

那么，什么样的项目适合使用这些AI IDE呢？有人说了，我想写个抖音，我想写个微信，我一定可以比抖音和微信做得更好。原来有这么句话，叫你长得很美，所以就不要想的太美了。这个话呢，摘自猫腻的小说《将夜》，这个里边它的主人公宁缺说过的一个特别有名的话。所以呢，这个事大家别想，这不是给你们去做这种大型系统用的。很多人要去一起协作，我们要整一个500人团队，我们协作来做项目吧。对不起，这事跟你也没关系，AI IDE也不适合你去使用。

那你说我做了一个APP，所有人都喜欢，大家都去下载，我就排行榜第一了。这个还是想的太美，这事跟你也没什么关系。如果你能够做一个应用，自己能用起来，能够解决一点点问题，能够在身边的这个家庭或者是小团队里头解决一点点问题，就够了。这才是AI IDE现在要去做的事情。

就像刚才我抢那傻瓜相机似的，他就一快门键摁完了。比如说我出去旅游了，咔嚓摁了一下，标志着你来过了，但是没有那么好，也没有那么不好，也就如此了。这就是AI IDE现在的这个能力。他做的事情呢，其实叫做“最后一公里”。我把最后这一段给大家补上，完事了。

有一些比较特定的环境或者特定的技术架构，是适合AI IDE去实现的。因为在编程的时候，有很多很多的技术架构，很多很多的开发框架。如果说没有学过编程的人，光把这些名字记下来，就头晕眼花了。这个就别费劲了。有哪些东西是适合AI IDE这个架构来使用的呢？比如说轻量级的外部架构，就是你随便点点点，确认确认确认，就给你做个小网页出来。

咱们现在看到的这种，什么9岁小孩做出一什么呀，或者是比如说前两天Grok 3，随便提了一个简单的提示词，就给你做个贪吃蛇，做个俄罗斯方块。这种东西都是使用这种轻量级的Web架构去实现的一个前端应用。还可以做一些，比如说简单的跨平台应用。现在所谓跨平台应用，实际上就是在不同的平台上装一个浏览器，然后把这个轻量级外部框架的东西直接在浏览器里边给你放一下，这个也是可以的。

所以，你现在拿这种AI IDE，你说我做个安卓应用，做个iOS应用，做一个Windows应用，做个小网页，都没有毛病。还有很多人呢，拿它去做浏览器插件，比如说我们现在用Chrome浏览器、Edge浏览器，你都是可以给它做插件的，这个也没有毛病。然后各种各样的小程序，比如说抖音小程序、微信小程序，这些都是可以用这种AI IDE去实现的。你说我要做一个完整大系统，别想了。

使用AI IDE去做项目呢，其实有点像我们去使用Excel。Excel特别有意思，它非常博大精深，就是里边儿的功能极其强大。但是呢，绝大部分人可能都像我一样，就是我也会写个表格，我也会求个和，排个序，算个平均数，甚至呢，我还能画个图表，做个排版，最后排的还自己觉得好，挺好看的。为什么一定要自己觉得很好看呢？就是我们自己排的特好看的一些东西，给这种真正的Excel大师看，是完全没法看的。他们就是属于这种，什么财务、建模这种大师，那个是完全另外一个层次的人。

以后呢咱们不是讲AI平权吗？就是任何人都可以拿AI IDE，就像现在每个人可以用Excel的这个水平一样。我能够做个小表格，能够算个平均数，能够排个序，能够排个版，画个图表，这个就是我们现在用Excel能干的事情。那么以后可能大部分人，你都可以用AI IDE也做一个小应用，把自己在某一些AI平台上面的最后一点点不是特别满意，或者不是特别方便的一个接口，给它实现出来。

这就是大家以后要去做的事情。我们就不去跟专业财务或者专业建模、审计人员去比，这个Excel的图表谁做的好看。我们也不需要去跟专业程序员去比，谁做的系统更大，谁做的系统更棒。这个也没有意义。我们就是自己做了自己用，能够解决我们当前的问题就可以了。

这个过程呢，其实有点像美国人做各种小工具。什么意思呢？就是你看美国其实有好多车库文化，就是他们在车库里头倒腾很多这个小手工小工具。这就是以后AI IDE要干的事情。这些东西呢，不需要大规模的推广，也不需要产品化。我自己缺一个什么瓶子、盖子，或者缺一个盒子，我就自己装一个，自己做一个就完了。我也不惦记把它卖掉。各种bug呢，将就一下也可以用。比如说我做了个小的工具箱，要把一些工具放在里头，但这工具箱必须要是双手拿，一个手拎起来的话他会散架。这个对于自己用来说其实是没什么关系的，是可以接受的。

那么这些小工具呢，你也不需要做兼容性测试。什么叫兼容性测试？就是在我们家能使，在你们家是不是也能使。你不需要干这事，在你家能使就够了。你不需要去考虑说，别人家那个车库不是这么设计的，你搁那这工具没法使了。不用想这事不好用，没关系，我先将就用一段时间，下次我再写个新的就完了。这个就是现在AI IDE真正应该干的事情。

在AI IDE到来的这个时代里头，不同的角色应该做什么事情？比如说，像程序员，像我现在其实还是可以算是个程序员的，我们其实更多的应该是去做培训、技术支持以及框架开发。我们应该去做这样的事情。而非程序员的话，就是在车库里边做一些小工具，在家里头各种不太顺畅的地方稍微修补一下。这就是你们该干的事情。

那么最重要的是什么？是你真的做出小工具来了，真的提高效率了还是什么吗？不是的。大家想在车库里头这帮做小工具的人，或者在里面去修修补补、敲敲打打的人，他们得到的最大的东西是什么？是快乐。使用AI IDE的这个过程中，一定要得到快乐。

这个才是最重要的。那你说会不会有人在车库里做着做着，或者我用AI IDE做一些东西，慢慢的就做大了，做成功了呢？肯定也不能排除这种可能性，因为毕竟有这么多公司是从车库里边走出来的，比如说苹果、亚马逊、惠普、谷歌、迪士尼、哈雷戴维森和微软。美国有这么多公司一开始是在车库里创业的。现在大家在AI IDE里头做了很多的这样的原型，未来万一哪一个东西大家很喜欢，那没准他就慢慢做大了。或者说你在做的过程中，编程的技术逐渐的提升，慢慢的跟一些志同道合的小伙伴走在一起，把一个小的Idea慢慢做成一个大的生意，这个可能性是存在的。但是呢，不能用这个东西去忽悠别人，说你看苹果就是从这做出来的，你们开始做吧，然后一定也行，这个属于不负责任了。

为什么今天录这样的一期节目呢？就是后面有可能会组织一些AI IDE相关的教学和比赛，应该呢是以字节跳动的TRAE为基础。TRAE为基础，现在已经有Mac和Windows版本了，当然目前呢只支持Claude 3.5的大模型，应该是在2月底吧会支持Deepseek。然后呢这个产品就会开放到国内来使用，因为你只支持Claude的话，在国内是没法用的。我呢也准备找一些有兴趣的朋友，咱们呢做一些线上比赛，首先得到欢乐大家提出一些想法，咱们先确认一下，这个想法是不是适合用这个东西来做，如果适合那咱们就做一下试试，咱们各自在家里边去尝试一下。如果做出来了呢，咱们可以拿出来宣讲一下，比赛一下。赛完了以后，我去看看找字节跳动商量商量，能不能得到一些小奖品，或者呢是让字节跳动给咱们一些，比如说火山引擎上面的一些代金券什么的，这个我觉得还是可以去申请一下试试的。当然了，比赛谁输谁赢不那么重要，最重要的还是开心。

这就是这一期跟大家讲的AI IDE，带来真正的AI平权时代。好，这期就讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加discord讨论群。

也欢迎有兴趣、有能力的朋友加入付费频道。再见。

OpenAI Operator揭秘：从AI Agent 3.0到完成交易的“眼睛、脑子、手脚”全景解析！2025年AI行业新趋势：OpenAI如何用Operator撼动Google与微软的未来格局？

老范讲故事 — Mon, 27 Jan 2025 11:10:50 +0000

大家好，欢迎收听老范讲故事。OpenAI的operator为AI agent指明了方向，这是一个新鲜热辣的事情。2025年1月24号凌晨2点做的直播，四个人在那尬聊了20多分钟。为什么尬聊呢？不停的翻车，这个AI agent翻车还是很正常的一个事情。

山姆奥特曼，好像是一个印度人加上两个中国人，也在那里，满脸尴尬而不失礼貌的微笑。因为他做的事情确实跨的这个步数有一点点大，导致有一些翻车吧。每年开始的时候，OpenAI都会出来指明一下方向。今年指明的方向就是AI Agent的方向。

咱们还记得2024年吗？2024年是2月15号，OpenAI指明了方向。当时，是做了Sora的演示，只是后来这个Sora没有特别成功。全世界非常多的公司围绕着视频大模型，烧了很多很多算力。今年，他就是为AI agent指明了方向。那么operator到底能干点啥呢？它里边有一个引擎，叫computer using agent（CUA），它们念叫“哭啊哭啊”，是这么来念这个词的。

这个引擎可以自动地实现鼠标跟键盘的操作，主要是操作浏览器。而且，它跟浏览器之间的这种沟通是靠视觉系统来沟通的。就是在浏览器里显示什么，它去看或者截图，然后通过OpenAI的这种视觉能力去识别这个浏览器里的内容。这样处理完了以后，再去通过鼠标键盘去操作。

大家注意，这个非常非常重要的是什么呢？它不是靠直接读数据的。正常情况下，这些AI agent去怎么跟浏览器打交道？他是直接把里边网页文件读出来，在对网页文件HTML文件进行各种各样的正则表达，或者说就是对它里头进行信息抽取，然后再去做后续的处理。而这一次OpenAI干的就不是，它是靠视觉直接截图下来。

然后他干了一个什么事呢？他是在云端放了一堆浏览器，跑在微软云的某一个机房里面。这些浏览器也是他们找的，最正宗的做浏览器的人做的。

因为近期他们也招聘了Chrome的团队人员，有一个叫Ben Oger吧，是Chrome创始团队成员之一，同时也是Firefox的首席工程师，现在已经加入了OpenAI。然后前Chrome资深工程师叫Darren Fischer也于近期加入了OpenAI。

把这些人招进来以后，说来，你们在微软云上让Chrome浏览器，或者至少是Chrome的内核给我跑起来，然后我要在这个内核里边去执行刚才我们讲的这个computer using agent，要跑这个东西。他通过一个自动判断用户意图的能力，你向他说：“哎，我要去哪订餐，要去什么地方玩，我要去看球赛。”你告诉他这个事情，他来判定你的意图。

判定了以后呢，自己进行行为规划，这个是很难的一个事情。因为像我们原来做AI证呢，好多都是我们要做好流程图，做好这个工作流。他按照这个确定的工作流往前走，就算在里边有一定的这个分支，也是我们要写好了说，判断一下他到底是要往东还是要往西，做一个判断。在这里的都没有，就完完全全是由ChatGPT自己去做的行为规划。

做完了以后呢，调用远程的浏览器，自动的完成所有任务，比如说去给人订餐桌、订球赛、定这些东西。他就干这个事。然后在前端呢，还可以重现渲染的这个远程浏览器上面的界面，因为他这边在输入信息，中间大的屏幕上就是可以看到一个浏览器在那里，页面打开了，页面在渲染，页面在往下翻动，然后自动订餐，自动做旅行的旅程调用。

而且呢，他们还给整个这些功能加了一个API，就是呢，你可以去通过API调用所有的API的能力。当然了，我们现在猜测的这些API应该是有进口跟出口两个方向。两套API什么意思呢？就是一方面，我们可以通过API去调用operator，另外一方面的话，也应该可以通过API为operator提供各种服务能力。这就是现在operator真正能干的事情，就是你给他写命令，写完命令以后。

你看到旁边，哎，开了一个虚拟的小的浏览器，然后呢，在这边再运转。他替你把所有的事情做完。这个事情困难在什么地方？为什么不停的翻车呢？现场翻车，现在这个网页大量都是动态渲染，千人千面，就是每一个人看到网页是不一样的。那么浏览的时候呢，就需要占用大量的资源，因为有前端的代码需要运行嘛。

Chrome在启动的时候，比如说吧，现在我做直播的，这一个页面就占了827兆的内存。我旁边的推特页面是占了300多兆的内存。我就要把旁边的这个页面关一关。很多人喜欢开Chrome，开一大堆页面，每一个页面可能都占着好几百兆内存，甚至有的是占着上G内存。你看看你电脑到底有多少内存，你就知道这事有多费劲了。

这个占用大量资源，所以现在呢，也只可以给美国地区的订阅了200美金一个月的Pro用户使用，其他用户现在都使不了。四个人做这个演示，山姆奥特曼坐在那了，这个演示人也是非常紧张，这是很正常的一个事情。像我要是在那做一个演示，大老板在旁边坐着，我肯定也会紧张的。

出了哪些错误呢？第一个就是他的订餐搞错地方。他一开始说我要订一个餐厅，但是呢，并没有找到他最近的餐厅，而是换了另外一个城市。什么样的原因会造成这种情况呢？订餐网站是通过什么样的方式来判断你在哪呢？是通过IP地址。你想，他通过远程启动了一个浏览器，那这个浏览器的IP地址是哪呢？是微软云服务器的IP地址。那么一算完了以后说，你可能在微软云服务器所存放的这个城市，我在就近给你找一个餐厅吧。他并不是说在他演示的这个机房的这个IP地址，所以这块就会出错。

后边的一些网购，抢勇士队比赛门票，预约清洁服务以及点外卖的，很多场景做的时候呢，都出现各种各样的问题，非常的不流畅。整个的演示过程，现在的OpenAI的operator呢，还非常的不成熟，只是指明了方向，还必须是跟人一起协作。那么这个协作的过程，第一个问题就是IP是谁的？你按道理说呢。

谁来调用这个Operator？你应该用谁的IP地址？否则的话，它里边所有的这个地址判定都是错的。还有很多的网站会去封锁这些机房的IP地址，最后看到说：“哎，微软机房来的IP地址，咔的封掉了。”你这事就没法用了。所以这块呢，估计他们还要再调整一下。

第二个呢，我们在浏览网页的时候，有一个东西叫cookie，还有一个东西叫session。那么这些东西的话，其实跟这个客户前端都是完全无关的。按道理说，你应该是把客户前端的cookie扔到后台去，他才可以说得到很多的信息，直接去处理。现在的话，等于他这个cookie是空的。cookie是空的话，相当于是做了一个什么东西呢？相当于是做了一个叫做无痕浏览。很多人去上一些奇奇怪怪的网站的时候，会去做这种无痕浏览，他们现在呢，应该也是如此去处理的。

而且这块呢，还稍微的有一点点尴尬，因为你真的敢把cookie传给他吗？在隐私保护这件事情上来说，我们宁肯把这些cookie传给各国政府，也不太敢把这玩意传给AI，总是觉得这个背后有点发凉的感觉。所以呢，在这块上用户体验不会特别好。因为现在虽然智能体是有记忆的，比如说ChatGPT，你去跟他聊天的时候，他是有记忆的。他记住你是谁了，常常说：“我怎么怎么怎么样的时候”，你就会在ChatGPT里头收到一条回复，说：“我已经更新了这个记忆库，我记住你是干这件事的了。”说我住在哪儿，他都会记下来。

那么在这样的情况下，就要干嘛呢？叫自动填表。我们使用大量的浏览器功能的时候，它有一个非常重要的功能，就是自动填表。当我现在要去填一个什么表格的时候，它就会在这个浏览器的一些后台记录里头，把我的什么姓名、什么信用卡号、手机号、邮箱，跨跨跨都给我填进去。要不然的话，你要都要手填一遍。像我们以前做抢火车票的时候，也是在做自动填表，就是每一次刷新，自动的把你要去哪、要选哪个车次就给你填下去，这个其实就是cookie。

如果没有了本地的这些信息，以后怎么自动填表，这功能就会差很多。这些敏感信息，还有一些什么呢？就是人机校验、双重认证，这些东西就没办法。OpenAI是搞不定这件事了。就算他能搞定了，他也绝不可能承认说我能搞定这件事。如果他承认了说我能搞定这个事的话，那就稍微有一点点吓人了。那么他这样的话必须是什么呢？就是要找人来去帮助，说我现在需要输入你的信用卡卡号了，现在我不能替你填表了，你要自己来输。

因为他当时演示的时候，突然蹦出一张信用卡来，信用卡后边要三位数嘛，然后说我回去把这信用卡注销了，因为整个直播掉了嘛。人机校验是什么？因为现在有很多的网站呢，是要确认现在浏览我的人是一个真人还是个机器，一旦发现是机器，就直接拒绝服务了。在这样的时候，OpenAI也会叫人过来说来人机校验了，该你了。

包括双重认证，比如给你发短信了呀，给你去发邮件了呀，这个都是需要人去填的。然后支付确认交易，发邮件，重大决策也是必须停下来等人去确认，他是不能够自动地完成这些交易的，至少目前为止还不行。而且呢，他因为是正式的打开网页嘛，他的整个交流的速度是相对来说比较慢的，因为网页有加载的速度嘛。

还有一些网页呢，或者有一些网站未必能够加载成功。所以呢，对于这样的一个AI agent来说，他的运转的成功率还并没有那么高。但是为了应对这个速度慢的问题呢，他们使用多线程定型的工作，就是你可以给他下一大堆任务，然后他在后边慢慢给你干去，哪样干好了以后，你需要干预一下，那个地方需要人机验证，哪个地方需要确认一下是不是购买。他是这样来去工作的一套方式。

对于这样的Operator来说，下一个很严重的问题是什么呢？就是安全性问题。第一个安全性问题呢，就是他现在真实的影响世界了。原来呢，只是生成内容，甭管你是生成的搜索内容，生成的RAG内容，还是生成图片了，反正是生成内容。而且所有生成内容下面还写一句。

成为Opreta操作的网站，他们就要开始去编写这种诱导性的网页内容了。为什么呢？因为OpenAI的Opretor是靠视觉工作的，我们就可以玩一些大小字的游戏，有可能能骗过他。

什么叫大小字游戏？我上面大大的写着“减价”，后边写一个特别特别小的字，说后边还要再付费。这个事我们是经常遇到的。原来如果是其他的AI agent，它是通过直接把网页信息都读出来，直接把内容都读出来，那么它是不会上这种当的。甚至呢，还可以去骗他。骗他什么呢？就是我们可以写一些看不见的文字，比如说白纸黑字。我可以设置说，现在给我写一个白字在上头。这样的话，正常人类去阅读的时候看不见这个字，但是呢，这些文字就可以被OpenAI看到。原来他们去骗OpenAI是通过这种方式来骗的。

现在好了，你通过视觉方式进来，那我就可以通过大小字的方式再骗你一次。对付钓鱼网站这件事的话，OpenAI自己是没有什么经验的。安全公司微软、谷歌、苹果这些公司的经验要稍微的丰富一点点。而像我们以前做安全公司的时候，我们会做一个巨大的钓鱼网站的网址库，然后呢，找保险公司干嘛呢？说我投一份保险，谁通过我的浏览器在钓鱼网上亏钱了，我就给他赔钱。这个是原来我们在做浏览器的时候都会干这种事情。OpenAI其实没有特别经历过这些钓鱼网站或者什么这样的事情。

下一个安全性问题是什么呢？就是现在是一个半自动状态，所有重要的节点或者走不通的节点会呼叫人类来协助。但是呢，在FSD不支持完全自动驾驶的时候，有多少开着特斯拉睡觉的人，肯定也是不少的。所以未来由黑客一起来骗这个uprighter跟前台操作人员，这个事情应该会比较有趣。大家会一起来去做，因为Operator自己还不负这个责任。哎，该付钱了，我是把你叫来，你自己付的。对于人来说呢，我前面都没看你这边哐当哐当的，网页都翻到头了，就等着我点一下确认了，我就点了，中间该有是其他信息。

应该你替我看的呀。所以在这块呢，其实安全性是互相推诿责任的一个结果，并没有那么安全。OpenAI呢推出operator，现在还算是一个初级阶段，大家看看方向就这样。所以刚才我也讲了，它有很多的不完善的地方，安全性上也差得比较远。

OpenAI推出orpreter呢，可能还有一点点小阴谋在里头。什么小阴谋呢？目前只能在美国区，200美金的Pro用户可以使用。但是前一段时间还记得吗，山姆奥特曼出来抱怨了，说我们这pro用户亏钱了。为什么200美金一个月的账号，这么贵的账号不共享出去，这不就没有天理了吗？一定是出去共享。一旦把这种账号出去共享了的话，它的使用量就会变得非常非常高。

而且所有要去跟O1模型去打交道的人，他是不会像咱们平时问他个问题，就跟他聊天，不是这么干的。跟O1打交道的时候，你是要像开这个项目进度会一样，把所有需要的东西都一把扔给他，他在后边吭哧吭哧吭哧地就给你算去。咱们在GPT4O都是我说一句他回两句，然后我再说两句他再回三句，都是这样来工作的。但是在O1上，如果你这样工作的话，你就得不到你想要的结果。

O1都是说我写好一整份报告扔给O1，然后O1去干活。再过个比如说5分钟、10分钟，他把这活干好了还给我。我去整个把系统看完了以后，再去写下一份报告，让他再接着干活。OpenAI的这个Pro账号亏了很多钱。如果像网飞这样的公司怎么办呢？他就大力打击呗。你们只要敢出租账号、出借账号共享了，我就直接把你账号封了。

OpenAI呢这次就干得比较绝。他怎么呢？我也不封你账号，我让你用这个Operator功能。用了Operator功能以后呢，你就会绑定一堆的私人信息进去，你的信用卡号、你的手机号、你家庭地址。那你输了这玩意以后，你还敢不敢把你的账号借给别人用呢？大家就不敢了。所以呢，他里头还是会有那么一点点的小阴谋在里面。国内的大厂，包括其他谷歌这些厂。

应该已经看到这个方向了，现在就应该可以行动起来了。现在最好用的客户端浏览器，在我的电脑上已经不再是Chrome了。我现在最好用的客户端浏览器是豆包。我每天都是在豆包上浏览，豆瓣上装好所有的那个Chrome插件，除了各种的沟通聊天之外，就可以直接当浏览器去用了。

阿里也在努力做他的跨客浏览器，再加上什么360浏览器、百度浏览器，百度有浏览器吗？我想不起来了，反正腾讯好像是有浏览器的。大家就照这个方向做呗，我们没有必要用远程的这个云端浏览器了。我就直接用这个本地浏览器去虚拟一个窗口出来，把这事干了不就完事了吗？

而且你使用本地浏览器去虚拟窗口，去做Operator的事情的话，你的IP地址跟这个地理位置还都是对的，还不像是放到云端去，以后他给你把IP地址搞错，这个可能还算好一些。而且还有一点是什么呢？就是你在本地做虚拟浏览器的话，并发就会变得大很多，因为不需要吃到云端的资源了。像我们做直播，就是光这一个页面一个G的内存就没了。如果都在本地的话，大家就吃的是客户端的这个内存，他就没有那么高的成本。

那么未来的方向已经确定了，后边呢其实就是中国人擅长的部分了，中国人擅长的是什么？挣钱呗，终于可以拿来挣钱了。你可以去谈商务合作，比如说我们去跟美团谈个合作呀。豆包后边是谁？直接跳动的，直接跳动说我不跟美团谈合作，我自己要去做即时零售，我自己要去做团购，我自己要去做订餐了。而且送餐的这个事情，我们已经跟饿了么合作了。我就只管在这边抖音上面把这个广告刷出去，今日头条把广告刷出去，再在豆包里聊聊天。

等你要吃饭的时候，我就自动把所有东西都给你做完了。这块我们自己干了，而且后面有一些他不做的事情，还可以去找商家进来，哎，你们谁愿意跟我合作？我可以把这个AI的流量导给你们，在你们的这个平台上直接把单子下掉。他就可以去做这个事情。而且呢，大数据杀熟，这个时候就可以来去启动了，后面流量的分发跟售卖。

又回到了传统的路径上去。大家都在我这卖饮料，那我到底卖张三的还是卖李四的？谁给我钱，我就卖谁的呗。这就这么简单的一个事情，大家就可以去干了。

今年呢，OpenAI给大家指明了方向，就是选AI agent。给出的方向具体是什么？就是眼睛、脑子跟手脚。自动识别用户意图，这就是眼睛；自动进行行为规划，这个是脑子。像我们原来做了一堆Codes、Defi这样的工作流的这种规划工具，就需要重新去思考，未来这些工具应该向什么方向走。是不是不需要做这么复杂的工作流规划？应该可以自动的规划一定的工作流。

比如说有一个模块，里面就可以进行自动的流程规划了，就可以把该做的事情做掉了。这个是工作流工具，未来的一个需要思考的问题。通过远程浏览器操作，在人的配合下完成复杂任务，这就是手脚。这就是他对AI agent定义的三个环节：眼睛、脑子跟手脚。而且他现在讲这叫AI agent 3.0。

第一步，AI agent是做这个问题的回答；第二步是我们做各种的工作流规划，以及周边辅助功能的这种配套。像我们做用Codes、用Defi也是可以做各种各样的周边动作的，比如说可以发邮件，可以去浏览网页，也可以去下单买东西。但是呢，那个工作流是我们写死的。

现在呢，他这个3.0做了一个完整的东西，你可以直接提要求，我自己思考该怎么办，然后去把最终的交易执行掉。在这个里边呢，他其实提了一个非常重要的点是什么？就是什么叫把这个任务做完了，叫完成交易。像原来我们做很多的工作流，其实最终的结果还是说要去产生内容。而现在说不，我们要完成交易。

对于所有这些做AI的人、做AI agent的人来说，又算是天亮了。为什么呢？因为原来他们都不挣钱。现在说好了，我们AI agent最终的结果是要完成交易。你一旦完成交易，那甭管是抽成、收手续费、流量售卖，还是说交易了以后进行贷款服务，都是挣钱的。这个传统套路就都可以跑起来了。

所以，一旦把AI agent最终的手脚定义为完成交易，那么大家做AI agent这件事情的积极性一下就上去了。OpenAI今年的方向呢，第一个是把O3好好做出来，甚至再往后去推他的推理模型，然后将更多的模型功能进行整合。现在，不管是OpenAI也好，Gemini也好，Claude也好，觉得很多的功能是分散的。有的模型是有视觉的，有的模型可以有语音，有的模型可以搜索，有的模型可以做canvas，还有一些可以，比如像刚才我们讲的Operator，它最近还发了一个模型是做日历的。但是这些东西，最后是很难结合在一起。怎么能够把所有东西通过agent的方式结合在一起，让它们所有这些功能能够顺利地跑起来，这就是今年OpenAI要去做的事情。

越来越多的AI agent的模式会到来，不是说Operator就是唯一的一个AI认证的方式了。前面那个日历方式也很有意思，你可以告诉他说每天几点，让我去做什么事情，或者告诉他说：“我想要健身，每天几点要提醒我去健身。”或者提醒我该吃药了，这些都是可以在日历功能里去做的。设置完了以后，每天到了你设置好的时间，它就会去执行一个agent。比如，我现在要求它每天早晨10点，把一天的AI相关的新闻总结出来，它就会给我发一个邮件。但是邮件里头没有内容，只有个按钮，这做得很烂。你点完了以后，还会进入到ChatGPT的界面里去，然后给你总结一下今天有哪些AI相关的新闻出来。

这个浏览器操作，今天我们讲的Operator，这是第二种AI agent。那么，下一个AI agent是做什么呢？我们有日历了，有浏览器操作了，下一个做什么？我觉得大家想一想，微软Office里面都有什么？Office里头有Word，那没问题，现在canvas基本上已经可以把Word很多功能做到了。Excel、PowerPoint这些东西呢？

未来可能在AI agent里面都会逐渐出来。再加上这个里面还有邮件的功能，是不是未来OpenAI会有自己的邮件系统？或者它可能不叫邮件了，叫一些其他的名字。还有，比如通讯录，或者说teams这样的功能，是不是这些东西就慢慢地向OpenAI的这个平台里边去整合起来？而这可能就是未来的AI agent一步一步的增加下去的过程。

这OpenAI自己是极其贪婪的。我记得我讲马斯克到底能不能做出超级APP来时候，我讲过这个问题。做超级APP的源头就是贪婪，OpenAI就属于特别贪婪。他要做全场景，要把所有的场景在OpenAI里通通都实现一遍。流量现在正在快速地从谷歌向ChatGPT进行迁移。我现在自己已经很久不开谷歌了，遇到各种问题，ChatGPT、Deepseak、豆包都会跑一圈，实在搞不明白了我才会去开谷歌。而且就算开谷歌，最后得到的效果也未必比ChatGPT它们强。

所以现在第一个要革谷歌的命，谷歌的Workspace这些东西肯定就一项一项地都进入到OpenAI ChatGPT的AI Agent里边去。也没准过两天OpenAI就会出网盘功能呢，甭管是微软的onedrive，还是Google Drive，或者是icloud，都将会有网盘功能。所以OpenAI下一个agent没准是个网盘，大家就等着一个一个看。

你现在看谷歌有什么产品，office里有什么产品，OpenAI就会一个一个往回搬。但这个过程中呢，谷歌就比较危险了。为什么？因为他始终无法舍弃搜索广告收入。谷歌的最核心收入就是搜索广告，还不是说各种广告，比如说我的这个网页广告、YouTube广告、移动广告，这些挣钱，但是挣的钱都没有搜索广告多。那么这就导致了一个很严重的问题，是什么呢？就是谷歌的大模型有很多新的功能，他不愿意给人用，因为大家一旦用了这个以后，他的搜索广告收入必然会下降，因为流量不从那走了吗？

谷歌的Gemini到目前为止也还在惦记找人收一个月20美金的这个费用，因为你广告收入没了。有了以后，你还是要有一个收入进来的，这个是谷歌比较无奈的地方。

所以现在大量的谷歌Gemini的新功能呢，它压根不给普通用户用。它给谁用呢？给程序员用。你在AI studio.Google.com这个网站里头，会发现，哎呦，谷歌的大模型已经往前发展得非常非常远了。但是你到Gemini.Google.com这个网站里去，发现还是那么笨，特别是你没有交20美金，那就完全没法使用的一个产品。这块其实是非常麻烦的。

那你说谷歌自己不知道这问题吗？他知道，但是呢，作为这么大的上市公司，百分之七八十的收入，你不可能说不要就不要了。这件事情呢，很像是日本人为什么做不好电动车一样，包袱太重。他坐汽油车这么挣钱，那你说我坐电动车，汽油车这事不弄了吧？所以他永远不舍得，包括他坐了半天氢能源，也没有把车推出来，原因也很简单，我汽油车卖得好好的，我为什么要去推这个东西？

所以这都属于是逐渐要被干掉的一个迹象，谷歌这块很难逃脱了。现在OpenAI的话，肯定是要逐步地用AI的方式，蚕食互联网里边所有的领域和方面，要去做超级APP，要去做顶级大厂，这是OpenAI的野心。

社交娱乐这一块的话，应该还有更多的时间可以喘息一下。他的DALLE3已经落后了，Sora也翻车了，也落后了。社交跟隐私跟AI之间呢，有一些难以调和的东西，这个事要稍微麻烦一点。而且现在OpenAI这帮人呢，更多的想的是，我怎么能够把公司做得有效一些、有用，比如说怎么去做科学研究，攻克人类所有疾病。

所以对于社交跟娱乐这一块呢，他们并没有投入那么大的精力。所以如果有一个小公司说，我今年还想创业，我想在AI上做点什么事，干点大厂不干的事情，OpenAI现在绝对已经是大厂，不用等那后边5000亿美金的星际之门，他就已经是大厂了。

你说我非要在他那块再折腾点什么事。我想做一个AI Agent，去跟他比一下Openriter到底行不行。除非你在中国可以。为什么？因为他进不来，他去不了的地方，你可以去做。如果他去得了的地方，就别跟他费劲了，去做一点他不干的事情。这就是今年OpenAI为整个行业指明的方向。OpenAI在今年可能已经在向着超级应用、超级APP的方向遗迹绝尘而去了。在这个过程中的话，谷歌就相当相当的危险，微软肯定也会被它蚕食掉一部分。中国的公司可能就又有腾飞机会了。如果有在美国的，你们交了200美金的用户，可以去试一试。如果没有的话，咱们等过一段时间，他把这个200美金用户共享的问题解决了以后，应该会把这个产品开放出来，给plus用户和teams用户。但是你说我在这个墙之内的话，用这玩意到底有什么意义，我也没太想明白。好，这是我们第一个故事。

深度求索背后的创新力量︱隐士天才如何重塑中国AI未来？揭露神秘Deepseek模式！

Luke Fan — Tue, 07 Jan 2025 13:28:37 +0000

深度求索的创新模式可以复制吗？既然他能做出来，而且也让美国人愿意接受我们的这种智慧，这个事是不是可以再来一次？这个事能复制吗？

首先呢，咱们要从幻方量化开始讲起。幻方量化呢，我其实跟他还稍微打过一点点交道。我自己个人的经历是，2009年到2012年之间，就职于盛大创新院。后来大概到11年、12年这两年呢，就开始分拆，分了很多的这个子院。其中有一个院呢叫多媒体院，多媒体院的院长呢叫陆坚。他呢是浙大的本科，后来到美国去读的博士，然后去了苹果公司。就是如果你现在用Final Cut，用QuickTime，这些东西就是他写的。后来呢，他在我们那里当了两年的院长，离开盛大创新院以后呢，是LinkedIn中国的总经理，现在应该已经进入半退休状态了。

他呢是浙大的，浙大呢其实在杭州，培养了大量的图形图像相关的这种人才。当时呢，做媒体院的时候，陆坚就带进了一大批浙大的学生，做各种的图形图像处理的事情。在15年还是16年的时候，有一次跑去杭州，找很多原来盛大的老同事去吃饭，因为好多人去阿里了嘛。吃饭的时候呢，就有一位老同事约了我，说你来了我也吃个饭呗。这位老同事呢就跟我讲，说咱们做个量化交易，说我们现在干这个事。但当时他们这种量化交易呢，还是私下里边做，自己有一些钱在做一些，挣一些小钱，并没有公开对外去募资。

我印象里是在18年、19年的时候，他们就开始公开的亮相，说哎，我们开始做AI选股了，用AI来进行交易决策了。这个公司实际上就是幻方量化。幻方量化里头最大的那个创始人，就是占85%股份的那个创始人，我没见过，但下边有一个占7.5%的，这个创始人是我以前的同事。他们呢是从私下里头几个人去做，逐渐正规化，开始向外销售产品，实际上也就是募资嘛。

他整个的幻方量化的团队呢，也是由一群浙大的算法天才凑一块干。幻方量化的发展呢，他算是中国首支达到1,000亿规模的量化基金，早期的业绩还是相当不错的。

有几只产品达到了400%的收益率，就是你给他一块钱，最后出四块钱出来，这个还是非常非常不错的。到2024年的日子就没有那么好过了，因为幻方量化里头有很多的这种基金，或者有很多的产品，是以中小盘股为基础方案的。因为你做大盘股，你是做不动的嘛，只有在中小盘股里边去做涨做跌，你才有这种盈利的机会。

所以呢，他们到2024年的有几只产品有10%的收益，但是呢，也有几只产品是以中小盘股为基础的，就直接亏掉了，大概亏了5%到6%左右的吧。我觉得以中小盘股的2024年A股的一个状态，只亏这一点点，他们已经很努力了。

现在呢，幻方量化已经不是国内最大的这种量化基金了，现在国内最大的量化基金都是玩大盘股的，就是已经是跟这个国家要一起往前走的这些基金，他们才可以长得更大一些。现在幻方量化下的应该有几只500亿或者几百亿这样的产品还在跑着，没有任何问题。

幻方量化下面的这个老大对整个的这个技术非常非常感兴趣的，2023年成立了叫深度求索的这样的一个新公司。他们这个公司呢，没有什么资金的压力，因为幻方就是投资方。这帮炒股票的人，做过量化交易的人，手里反正有的是现金，说我们投入就完事了，你也不用再去出去找钱了，也没有短期内的盈利目标。我也不是说做到哪天必须要挣到多少钱，也不需要出去跟人家显摆。

因为很多的创业公司，你不断的要拿出业绩出来，是为了融下一轮的钱，他们没有这个压力，说我们就是为了爱好，为了梦想，为了荣誉，去干一点自己喜欢的事情吧，就是这么一行的一帮人。所以呢，他们只做基础研究。那种既要又要不可取，什么叫既要又要呢？就是我又要做大模型，我又要去做行业应用，我又要去做ToC的产品。国内其实有几家公司是这么干的，但是对于这个深度求索，就是Deepseek这个公司来说，他们就做大模型，其他啥也不管，做开源，也没有ToC的产品。他们倒是有一些ToB的产品，北京有一个深度求索的公司。

是在去接一些ToB的这种集成单子，还是在做的？然后大模型开源了以后，开放API，大家就上那上面去用就完了，而且很便宜。他们呢是不做APP的，坚决不做APP。目前呢也没有多模态，未来应该会做，所以是一个很单纯的公司。咱们对比一下其他的公司，既要又要，比如说李开复的零一万物，一开始做开源，然后呢说不，这个开源不挣钱，我们要去做ToB系统集成去。说这个ToB系统集成，好像打不过别人，很简单，你一个台湾人，在中国现在这样的一个状态下，你想去接一些政府单，多费劲，这个就没法整。

说那咱们去做ToC吧，做了一个叫万知，一万两万的万，知识的知，做了这么一个产品。这种东西呢，你又没有流量，你跟这个豆包打，你根本打不过人家。别说他了，什么通义千问、文新一言、文小言，这些东西都打不过豆包，因为人家有流量，你没有。后面的开源也懒得做了，反正就在这一点点往前蹭，又号称拿了一笔钱，看他后面在做什么吧。

这是李开复的零一万物。Minimax呢，ToB的业务在做，ToC呢有一个叫Toky的产品，就是这种陪伴型产品，还做了海螺，就是可以做这个文生图、文生视频，这样的产品都做出来了。这个Minimax呢，就是ToB、ToC，他自己也有做API的，都在做。就是所有既要又要，还要也要的，这个就是他们。但是呢，他这几块做的还可以，不像这个李开复那个似的，哪块好像都没开出花来。

然后百川智能他们呢，是没有这个ToC的产品，除了模型研发之外，剩下就是行业解决方案了，什么银行、医疗什么开始做这玩意了。然后质谱呢，是模型研发订阅和授权，剩下也是行业解决方案了，也是没有ToC产品的。接月星辰呢，是模型订阅行业解决方案，也有ToC的产品。月之案面也是全活，什么都干。

以上咱们讲这个呢，就是号称的中国AI六角龙，就这六个。然后大厂呢，你做一些全活，这是合理的，小公司何必呢？哪个都不想放过，我ToC我也要做，ToB我也要做，模型我也要开发。

开发完了以后，我还要立个什么出去跑分什么的，都要去干。所以跟他们比起来，Deepseek就要单纯纯粹的多。我就去做模型，而后我还在模型的基础上做各种的改进。改进完了以后呢，跟全世界的大模型的圈子里头一起去建立新的方向，建立新的标准，一起往前走。

咱们回来讲这个Deepseek，他的领导跟这个领头人是很重要的。这个人呢叫梁文峰，这个人我没见过。我那个以前的老同事是下面的一个小股东，早期的三个人应该都是技术，主要就是做这种研发的。实际上，他们早期就是自己做，自己去炒这个股票，完全是自用的一个东西，所以早期并没有那么商业化。而且呢，做量化这种人呢，是隐士大侠，他也不愿意出来跟你见面，也不希望去跟你谈很多事情，所以这个人在外边露面的机会也不多。

我后来找了找，在网上找了两篇梁文峰的访谈。今天这个后边的故事呢，有很多是来自于访谈里边的信息。做量化的时候，一开始确实是比较隐蔽，而且呢，没有这个海外大厂经理。就是大家要知道，像国内的这些做AI的，这个六小龙里头，有很多是由海外大厂经理或者海外名校经历的。即使没有的话，可能还有清华呀，还有很多的什么百度或者是格林深瞳这样的国内AI大厂经历也是有的。

但是呢，梁文峰就没有，浙大毕业了以后，中间这段的生活就不太确定了，因为他也没有什么对外的披露出来。后边呢，就开始做幻方量化，炒了股票挣了钱以后，就去做Deepseek了，就是这样的一个情况。这个人呢，每天像极客一样去干活，或者像黑客一样去干活吧，也不怎么说话，每天就是看论文，写代码，参加小组讨论，也没有那么多的管理的事情。

肯定的天才是必然的，这种黑客型的天才呢，在中国各个角落里头还是隐藏了不少。这个愿意为理想荣耀去努力的人还是有的，有能力做自己想做的事情，还没有钱方面的限制。这个呢，就相对来说要难一些，因为我见过很多的黑客型人才，但是呢，他们都是在为五斗米奔波。

又有能力，又有想法，还有钱，他就会做出像Deepseek这样的奇怪的东西出来。他在前面讲过一个很有趣的话，是“务必要疯狂的拥抱雄心，且还要疯狂的真诚”。他是这样去要求的，而这个话呢，是2023年4月11号，幻方在发布大模型的时候，他们说：“哎，我今天要开始做大模型了。”做公告的时候，引用的法国新浪潮导演克里弗曾经告诫年轻导演的一句话，那咱们再说一遍：“务必要疯狂的拥抱雄心，且还要疯狂的真诚。”这种人，他们能够在钱财无忧的情况下，做出一些让人大吃一惊的东西出来。

因为幻方前面也是在做AI的大模型，就是在ChatGPT出来之前他们就在做，所以早早的呢，囤了1万张的A100。幻方他们应该是全国除了大厂之外，唯一的一家手里有一万张A100的公司。你想，A100这个东西刚出来的时候，一万美金一块，一万张A100，他就是一亿美金。他手里能够有这样的一个资产，还是非常非常吓人的。

那么招聘方面呢，因为老板自己并没有海外留学大厂工作，所以呢，他在招聘这块也对这块要求的没有那么重，因此招了很多的应届生回来。要求的是什么？第一个要感兴趣，你要喜欢这事；你要不喜欢就别费这劲了。第二个，除了喜欢之外还要什么呢？要有基本功，基本功一定要扎实。因此，他要求的第一个叫热爱，第二个要有能力完成项目。你不能说我光喜欢，但是我做不出来这事不行。

所以他们基本上是以这个标准去招聘的。当然，现在也有很多的清华北大的人被招进去了，原来呢，可能主要是浙大的人稍微多一些。他们的创新呢，是一种自下而上的创新，不是一种自上而下的创新。每一个人呢都可以提出自己的想法，而且他们不需要去提前分工，比如你去做数据标注，他去做哪块，谁去跟什么东西，没有这个。每个人呢都可以按照自己的爱好和路径去做事情。

像前面我们讲的那个MLA，叫多头潜在注意力机制，这个东西呢，就是一个很年轻的研究员提出来，提出来完了以后说：“那试一下。”谁都可以提出要求来，那试一下。

然后，试的时候呢，发现哎，有点效果。有了效果之后，分配算力资源就开始继续往下做。就是当大家初步验证成功了以后，就会从上而下的再投入资源。这个呢，其实很像美军搞的那套东西。美军说，司令部里边这些长官，他是不了解前线情况的。所以怎么办呢？让这个小团队出去，你们现场侦查，然后向后边要各种支援：我要导弹、我要空投、我要撤退。后边人只管给支持就完了，或者给他们各种信息，让他们到前头去。打仗的人来决定这个仗怎么打。这个是在美军海外战争以后决定的一种工作方式吧。 Deepseek也是使用的这样的一种创新模式。像其他的都是老板是老大，他有经验，他一定说了算，下边人你就只管干活就完了，你们都是螺丝。 Deepseek在这块是有很大差异的。

Deepseek还干了一个什么事呢？就是很意外的挑起了价格战。在Deepseek V2发布以后，他们就进行了大规模的降价，100万TOKEN一块钱人民币。这当时的想法是什么呢？就是这事呢，不能赔钱。当大家来去用我们的这个和算力的时候，不能赔钱，但是呢，也不要求赚很多的钱，不用求暴利，稍微赚一点就可以了。所以呢，这帮人核算了一个成本，就直接把价格扔出来了。也没想到整个的行业会对于这个价格这么敏感，没想着会有人跟进。智谱马上就开始跟，将一个很小的模型降价了。大模型呢，还是比较贵的，因为质谱其实还是小龙嘛，6小龙的小龙，就是他还是融资干活的，钱没有那么丰富。但是后边字节的豆包，大模型就直接跟进了，全线降价，包括后面的百度的文新、阿里的通义千问，都在大规模降价，直接就把价格拉下来了。

所以呢，Deepseek就由此得名，叫AI领域里的拼多多，砍一刀嘛。但是呢，Deepseek就说了，价格我是挣钱的，我虽然挣得不多，但是我是有利润的。但是其他的这些大厂呢，就是赔本赚吆喝的一个状态了。那你说，中国是不是有很多的聪明人可以来做这件事情？很多人说呀，有大智慧的，也有的是小聪明的。

我们现在讲Deepseek这帮人，他们算大智慧吗？在我当时看他们去做量化交易的时候，我想这些人就是一帮小聪明。这个说个实话，就是如果当时他们在做量化的时候找我去要投资的话，我应该不会投他们。即使现在可能有一些这样的人找我的时候，我应该也不会投。

这种大智慧跟小聪明是跟性格有关系吗？其实我觉得有一定的关系，但是没有那么大。这个东西更多的是跟环境有关系。在大的这个环境要求你必须要为五斗米去思考的时候，这些人就会去变成小聪明。当他们衣食无忧的时候，就可以去追求自己的大智慧。而且中国人还很多，在这么大的基数下面，总会有一些大智慧的人获得合适的环境，或者说有一些聪明人，在获得了合适的环境下可以去展现他们的大智慧。这是我觉得中国在这块比较强的地方。

没有说中国人就只会从1到100，不会从0到1，没有什么原创性的创新。这个事我是从来不信的，只要做出有价值的贡献，别人根本就不会因为你是中国人就歧视你或者怎么样，没这事。在海外做出最大贡献的很多人，其实都是华人，很多也是从国内培养出去的人。

所以智慧本身是不要想高低贵贱的一个事了。中国人的聪明人比例是不是比较高呢？首先这个说法呢，政治不正确，种族之间是不应该有这个差异的。但是呢，中国因为文化传承跟生存压力的问题，会更加的重视教育。所以更多的中国孩子在很小的时候承受了非常非常严酷的，或者残酷的非人的教育压力，这个是没有办法的。

中国的文化传承是什么？自古以来叫“万般皆下品，唯有读书高”，或者是“士农工商”。一旦成为士了，你连税都不用交。咱们接受了几千年这样的文化教育，所以我们知道说任何人，只要是稍微家里有口吃的，一定要送孩子去上学，不能耽误他。

另外一方面，就是我们的生存压力非常非常大，动不动就是输在起跑线上。所以我们的孩子自小接受的这种教育，可能对于老外来说，他们就直接告你虐待了。最终产生聪明人的比例自然就高一些。

可能大家生下来没有那么大差异，但是呢，我们每一个人，甭管你能不能成才，甭管你有多聪明，我们都去用巨大的教育压力把它压一遍。可能很多国外的人也很聪明，但是呢，人就快乐教育，开开心心的吃喝玩乐，混了一辈子也就出来了。

但是中国可能稍微有点能念书能力的人，都被我们的教育体系给塑造成了一个可造之材吧。那么这几十年，这个生活环境、信息流动肯定还是发生了巨大改变的。可以做自己喜欢事情的中国聪明人，肯定会变得更多一些。

咱们甭管怎么说，这几十年的改革开放，我们能够获得的资金资源数据，从来没有像今天这样多过。这个事大家还是要去承认的，也不是每个人都活得那么苦大仇深。像Deepseek这帮人做量化的时候，我挣着钱了，那我就可以去追求一些自己喜欢的事情。

其实我是见过很多聪明的中国人的。原来我们去做盛大创新院的时候，是聚集了很多很多的聪明人在一起。那这个里头跟幻方又有一点相像，幻方是炒股票，自己手里有一堆钱，盛大创新院是做游戏，公司手里有一堆钱，说来我们去追求一下梦想吧，也是如此一个状态。

而且很多公司里边，还窝藏了一堆的扫地僧，就是他会解决很多的很细节的、很具体的问题。那你说这些问题，为什么大家老觉得这就是一个工程上的改进，不是一个从0到1的改进？原因很简单，因为这些人没有聚集在一起，没有让他们自由的去追求他们自己想干的事情，所以他们就只能成为扫地僧，而不能成为像Deepseek这样一鸣惊人的东西。

社区里边也有很多为爱好和梦想而努力的人。有些人呢，没有那么好的环境，但是也在努力，比如说那些独立游戏的开发者，那些开源软件的创作跟维护者。我们是见过很多的，说我喜欢这个事情，我就是愿意做这个事情，我真的是吃了上顿没下顿，这种人挺多的。

我曾经有一个以前公司投的项目，那是一个游戏公司的CEO，那也是一个很强的geek，自己的这个游戏做的不怎么样，每天在UDT社区里头揪着人家CTO扯淡。

讨论最新的物理引擎该怎么做。那个CTO还经常跟他之间相互的启发，相互的促进，做这样的一个事情。我呢，很尊重这种天才，但是这种人不是一个好CEO。那个案子原来不是我投的，虽然是我们项目里边的案子，但不是我投的，所以我也不会去投向Deepseek这样的公司。

当社会有一个基础保障的时候，这些人呢就会更大范围的存在，而且呢，有可能会创造出璀璨的成就出来。他是有一定的偶然性在里边。对于不同的环境呢，就应该有不同的应对方式。有些人说我想挣个快钱，有些人说我现在钱挣够了，我想追求点梦想，这个呢都无可厚非。

总有人问我说：“哎，我现在想投资，我有笔钱，我应该投什么好？”因为我原来做个投资人嘛，所以有人来问我这个问题，或者说：“哎，我有一个朋友，他们需要投资，让我来投，你看看这项目行不行。”也有人给我做这样的咨询。我给的答案一般都是一样的。

什么呢？第一个，你准备投多少钱？你对于回报的预期是什么？多长时间回报？挣回多少钱回来？这是你对回报的预期。再回报第三个是什么呢？你对于风险的承受能力是怎么样？这个钱如果就没了，或者是如果就亏进去了，你是不是愿意承担这件事情？绝大部分人回答了这三个问题以后呢，这个投资就黄掉了。他们压根就想不清楚，我到底对这个投资的预期是什么，或者说我到底能够承受什么样的风险，这个其实是很难回答的。

离钱近的人，或者说我要挣快钱的人做工程，找到清晰明确的路径，定好目标，直接冲上去，寻找可以融资或者让公司价值上升的人和团队。为什么很多人说：“我一定要谷歌挖个人回来，我要到百度挖个人回来，我要到自己挖个人回来。”因为这样的话，你相对来说比较好忽悠投资人嘛。投资人绝大部分是不懂的，一看到这个人的履历，这个好厉害，我要给钱，就变成这样。

然后把这些团队凑起来以后呢，拼执行力，实际上也就是内卷了。然后寻找漏洞，细节不断的完善，卷死其他所有人，这就是快速挣钱的这个团队要干的事情。还有些人说，我钱挣够了。

或者说钱一时半会不用太担心，我只需要追求梦想就可以了。这些人呢，心思就会更单纯一些。在小说里边，有一个名词叫做“剑心通明”。我这个心里头只有剑，没有任何其他东西，那他就可以去做一些不一样的事情。

当然，不同的人呢，有不同的追求，这个里头没有谁对谁错，也没有谁高谁低。我们也不要去笑话中国AI、六小龙这些企业。你说既要又要，没做任何创新，模型架构就直接抄人家的，别笑话人家。大家只要自己的逻辑自洽了，说我就是要去做一个公司，我要把公司做上去，我要对投资人负责，我要在这个过程中做出一些有趣的东西出来，就可以了。这个事并没有什么问题。

那么，深度求索的未来会怎么样？人怕出名，猪怕壮，因为呢，资本已经盯上他们了。大厂呢，会快速的抄袭迭代他们的架构和模型。不用等美国人开源，中国人开源了以后，其他中国人也会自主创新、自主研发的，挖人是必然的。小米刚刚千万年薪，挖的这个叫罗福莉的人，就是Deepseek V2的一个主要贡献者。至于小米千万年薪把它挖回来以后，是否能给小米带来什么，这个我们拭目以待，不一定。

然后，中国呢，有一个特别有趣的名字，叫什么叫“黄埔军校”。百度就是推荐算法、自动驾驶这块的黄埔军校。盛大呢，原来是盛产大量的游戏人才，而金山呢，是早期大量的软件人才都从这出来的。路径清晰，想要做同样的事情，最简单的方式是干嘛？去挖人，把这个做过的人挖回来，这事不就搞定了吗？

所以，深度求索的技术呢，一定会快速的随着原代码的开放以及人才的流动，普惠到中国各大AI厂商里边去。而深度求索自己呢，未必最后能够挣到钱，这个我要跟大家讲清楚。跟大家讲一个故事吧，就是李开复早年做这个创新工厂的故事。当年，李开复招聘了大量的，他们叫“娃娃兵”，也就是没有毕业的这些硕士，因为他当时在中关村附近那边嘛，所以有什么北航的呀、清华北大的呀，很多这样的硕士或者是本科生，就在那干活。其实，创新工厂实际上最开始的两拨人，一拨是李开复从谷歌里边带出来的人。

然后，另外一拨干活的人，就是这帮娃娃兵。后来等李开复开始有一定名声之后，他们的整个办公室就被各大互联网公司进去疯狂的洗，慢慢的就分崩离析了。当时我们就干过这个事，坐在那个创新工厂楼下的咖啡馆里，挨着个给上门打电话来，一个一个叫下来面试。而且是分几摊，同时上四五个面试官在咖啡馆的不同的角落里坐着。只要聊着还可以的人，3倍薪水你来不来吧？当时盛大干了一次，后边的各大厂都去干这个事情。因为呢，我们发现李开复把这帮娃娃兵训练得非常好，每一个人都是心中有火，眼中有光，而且呢，执行力还很强。当时挖了好多那种回来，效果非常好。

希望呢，这个深度求索可以在资金充裕的情况下，继续进行探索和尝试。也只能这样的希望，我没法期望说深度求索这公司未来成长成一家非常巨大的这种大厂，最后能够挣到很多的钱。这个事呢，我是不抱期望的。希望经历各种风风雨雨的过程之后，不要把心态搞崩，这个是最重要的。因为呢，很多的时候人员离职或者是项目失败，有很多这样的事情出来以后的话，创始人的心态会崩的。那么，是不是还会有很多深度求索这样的公司，隐藏在水面之下呢？会有的，而且会越来越多。

AIGC时代大公司的优势其实没有那么大，更多的个人和小团队可以调用更多的资源、数据以及算力，做出大家意想不到的事情出来。像我现在也可以自己坐在家里头，使用各种搜索引擎，使用各种的大模型去进行工作。我交的钱实际上也就是一个月20美金给了OpenAI了，豆包还是免费的。我现在可能真的是一个人，相当于一个团队在干活了，我也可以做出一些可能别人意想不到的事情出来。

有了基础的社会保障之后，从小接受残酷学习训练的中国人，做出各种奇奇怪怪东西的概率肯定要比其他地方的人大得多。这是我的一个结论。而且，中国人本来就多。最终呢，咱们要给这个故事下一个结论，就是会不会有深度求索这样的创新模式被不断的复刻？而我的结论是这样：深度求索的创新模式。

复是不能复刻和模仿的。因为你一旦要去刻意学习什么东西，你就是有目的的。而这种目的的话，跟刚才我们讲的深度求索的这种研发方式，它是相互矛盾的。目标很明确，就应该像AI六小龙他们干活，什么都沾一点点。但是呢，会有很多很多类似的团队，还是潜龙在渊。就是大厂你学这东西你是学不了的，但可能会有一些小团队，在不定在哪个角落里，哪个旮旯里头，在做一些大家意想不到的事情。突然哪一天就冒出来了。这个事情我觉得还是可以去期待的。好，这就是今天的第二个故事。

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

老范讲故事 — Fri, 29 Nov 2024 00:42:07 +0000

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的。视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假或者版权侵害什么这样的视频。所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢，会发出一些样板视频来，那意思什么？他说，你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频，它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线。大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。

艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布，还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢，在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说，这个脚要往前走的时候，应该膝盖往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这个是第一个问题。

第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说，你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗，应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说，我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。

我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。

现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个，专业应用级别呢，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢，也还是有很多专业团队，会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。

半专业的应用呢，肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了，而Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。

这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。

对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入，艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。

所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了。为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这就相当于什么，就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头，每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但是艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说，你穿了件衣服，里边有个人，但是呢，人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着它都变成左脚了，或者是变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题，第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢，算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，它需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱，从头到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。

因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。

什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

YouTube上有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频我已经被这种视频骗了好多回了。

我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。

就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的，他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但是呢，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢，都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型吧，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”，什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。其实，这些呢是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。

最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以，他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就在2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。

但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着就都变成左脚了，变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。

他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。

咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后，什么欺诈？视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢，你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。

你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。

很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个说话了，这个吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。

当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画、小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把德国选择党的那个女党首的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型，式的那我们只要写一个提示词，生成出来大差不差的，我就能用。那些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他说哎，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题，咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯，这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说，非常非常难以控制和把握。再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看，最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，就是有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置，才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈？视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部，也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上，在吉梦也好、可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆，可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过。

这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们呢，就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢，其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢，是呼吁Open AI可以更加开放。

你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，表示现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢，并不需要进行身份验证，所以也不知道这个是真是假。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这种方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高的。当然了，这个还不是困扰视频生成本身的最大的难题，更大的难题是什么呢？就是视频要好看。

最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说，我们付出的努力极其艰巨呢？也是如此，他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢，完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

所以再往下一个方向到底是什么，虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。于是他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在呢Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。

第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。

你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。

这是第一个问题。第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上。现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。这大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。

视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。那么我们到底还需不需要等Sora呢？

其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上，在吉梦也好可灵也好呢，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型。在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

其实，从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢，已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全球的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂地泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂地开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头了，电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品，这个事本身是非常难的。他们说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这就相当于什么？就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停地玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是，视频生成本身的难度是很大的。第一个，内容合理性其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边有个人，但是人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，膝盖应该往后弯的。但是，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是两条腿迈着迈着都变成左脚了，变成右脚。图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性，这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上，已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定地保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后，算力成本实在太高了。图片生成，现在我们画一幅1080P的图像，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。

当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。大家想象一下，有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。

现在我们要做视频生成的这种工具了，在有大模型的基础上，你也需要大量的开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以，为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。

再往后，什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话它就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝；你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝；你只要提到任何人的名字，直接拒绝；说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝；请给我画个什么星球大战、米老鼠，马上拒绝。

所以，他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好、可灵也好，都是在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以，我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。

所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。

而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说：“你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情，都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人，有黑人，有白人，有男的，有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

当然有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀，血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看DALL·E 3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个DALL·E 3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。

这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。

Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。

至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

百度为什么不做Sora？探索百度的独特AI发展路径与未来方向，背后原因是吃不到葡萄说葡萄酸吗？

老范讲故事 — Tue, 19 Nov 2024 00:52:17 +0000

百度为什么不做Sora？是不是吃不到葡萄就说葡萄是酸的呢？大家好，这里是老范讲故事的YouTube频道。

11月12号，百度世界大会上就透露出来说，百度从来就没有想去过做Sora这样的世界模型，或者叫视频模型，从来没想过。百度呢，是一直希望走自己的多模态道路，不希望去跟OpenAI这样的公司卷入世界模型的竞争。虽然到现在为止，Sora也没出来，但是跟在后面跑的人还是很多的，特别是抖音、快手，都推出了各自的视频模型，还有很多国际上的厂商也在视频模型上争先恐后地往前跑。

但百度说，我不干这个事，我有更重要的事情在做。这是百度李彦宏亲口说的。那么，百度努力的方向到底是什么呢？百度努力的方向是消除幻觉。大模型都是有幻觉的，百度呢说，我们作为一个中国公司，你可以不说话，但是说错了是很麻烦的，所以我们不能产生幻觉，保证我们说的都是对的。而且这个是在各种角度上，所有的评判标准来看，都得是对的，不能有任何问题。因为有的时候，你说的你觉得对了，但别人觉得不开心，这也是不行的。

所以百度呢，作为一个有中国特色的AI领军公司，他们向着消除幻觉的方向前进了。他们准备怎么去消除呢？他们这一次在11月12号的百度世界大会上，推出了一个很有趣的东西，叫IRAG。大家要知道，RAG是我们在做AI agent，或者叫AI智能体里头，用得比较多的一个技术，叫搜索增强生成。就是我们先搜索，搜索完了以后，根据搜索的内容再去生成，这样的话，能够保证生成出来的东西没有什么幻觉，是在你给定的范围内去生成的。它倒不一定说保证生成出来的东西是对的，但呢，它保证说你给我的是什么，我生成出来的就是什么。

那么，IRAG是一个什么样的东西呢？这个前面这个I到底是做了一个什么样的单词放进去了呢？I这个词呢，是图像（image），以图像为基准的RAG。什么叫以图像为基准的RAG呢？就是正常情况下，咱们RAG都是做的文本或者是表格。

搜索完了以后，把这些文本和表格通通都做成矢量数据库里面的一个点。然后找到离他比较近的点拿出来，去生成跟问题相关的答案。这是RAG的标准过程。IRAG呢，就是百度说我有好多图片，我把所有这些图片，以及图片识别出来以后的各种信息，直接拿去做嵌入，然后形成史料数据库。在这个里边去搜索，搜索完了以后再去重新生成图片。这意思是什么呢？就是你去训练说这个人叫张三，张三长这个样子，张三坐着，张三站着，张三乐了，张三哭了，张三吃东西了。他把所有这些东西都训练好了，放到一个矢量数据库里边。等你下次要求他去生成图片的时候，说张三穿着什么什么样的衣服，站在哪里，在做一个什么动作，有什么样的表情，有什么样的风格，他就可以从矢量数据库里头把你要的这些信息都找出来。张三长这样，我有了；然后呢，穿什么衣服，我在数量数据库里再去查。查完了以后，哦，衣服长这样我也有了。做什么动作他可以画得很准。他做了这么一个很神奇的技术出来，但是我看到这个介绍以后说：“哎，这玩意好玩哈，我得去试试。”然后我就跑去试了一下。首先我跑到了百度文心一言的网站上，测试一下，发现文心一言3.5版本一如既往的拉胯，依然在那胡说八道，依然在那前言不搭后语，咱就对他没有什么预期了吧。然后闻心欲言4.0依然需要收费，算了不测试了。那么画图吧。画图的过程呢，稍微有些吓人。首先让他画车，你让他画各种型号的车，都非常的准。说我迈巴赫哪个款，在巴黎的凯旋门下，哎呀，那个做的非常的漂亮，一张照片绝对一下乱真。大众这个车呢，除了车牌子上看不太清楚之外，也是非常像的。比较遗憾的是，我要求他画小米苏7，他没画出来，估计是小米苏7他的素材不够多，或者训练这个模型的时候没有用很多的小米苏7的图片，或者说他的IREG的这个矢量库里头没有那么多的小米苏7的图片。每次要求他画小米苏7的时候，他画出来的呢，都是问界M5，这个就没办法了。然后画人吧，要求他画郭德纲。

哎呀，我天呐，简直就是拿照片直接贴上来。你说郭德纲干什么？马上就给你做一个一模一样，绝对以假乱真。但是呢，你要求他画于谦，这个事就没法整了。画出来的也是郭德纲。大家想明白了没有？为什么会这样呢？

说为什么我要求他画于谦，这个IRAG产生的结果是郭德纲呢？因为很简单，你所有在百度图片里头搜索于谦的照片，郭德纲都站旁边了。于谦、郭德纲，郭德纲、于谦，你郭德纲站的照片多一些，那么他就认为说是不是于谦应该也长这样。可是这样的一种运作方式，实际上呢，他向我们展示了用IRAG的这个技术，依然是没有办法避免幻觉的。你要求他画于谦，他画的是郭德纲。

有一张照片，我告诉他说，来，给我画一个郭德纲跟于谦在德云社说相声的照片。画完了以后，就是两个郭德纲，都很像。就是你单独拆出任何一个来，都是以假乱真的。俩郭德纲站在台上说相声了，就变成这样了。要求画其他人，就没有那么像了，比如说郭麒麟、马斯克，这个就不太容易认出来了。其他的我就没有再敢去测试，再测试可能会被警告了。

但是呢，他整个这套的IRAG的系统还是挺吓人的。如果你想让他去给你生成一些广告图片或者是一些假图，就是郭德纲出去做了一些丢人现眼的事情，绝对以假乱真，画的极像，已经是可以达到一定的商业用途了。特别是你，比如说我做一些店铺的装修或者是这种电商的图片生成，这个玩意还是可以的。

除了这个IRAG之外，这一次的百度世界大会上呢，还发布了无代码工具“秒哒”。一秒、两秒的秒，哒呢是一个口一个到达的达。所谓的无代码工具“秒哒”呢，其实类似于字节跳动的codes，对吧？也是让大家把智能体拼起来，然后形成AI agent去干活了。只是呢，秒哒现在呢还不开放使用，依然是让企业去报名排队。据说已经有很多人排队了。这些企业不知道为什么想不开，Codes现在就可以免费使，你干嘛还要去使用秒哒呢？像我这种稍微有点动手能力的人，可以使用Defi。

这个咱们就不说到这么远了。今年，除了前面我们讲的IRAG以及秒哒之外，还发布了什么呢？这个牛肯定还是要吹的嘛。现在吹的牛是什么？就是文心一言大模型，日均调用量15亿。我们已经数涨上来了，去年是5,000万，现在涨了30倍了。这个15亿呢，大家注意，没有单位，15亿次，15亿人，不可能15亿人，中国没有。15一次，这个也稍微有点不太好去评估，怎么算一次呢？那么我们就稍微保守一点评估吧，我们把这个单位写成TOKEN，就是每天可以生成15亿TOKEN。

哎呀，很多人说这个数好大呀，百度文心一言好厉害，这么多人使用它，生成了这么多的内容。但是你要想想，15亿TOKEN按照百度的收费标准，能够挣多少钱呢？百度文心一言4.0 Turbo，按照每千TOKEN的价格乘上15亿的话，一天的收入大概不到10万块钱。那你以为像百度这样的一个公司，这样的一个项目，值得上来去讲吗？如果这就是他的AI未来的话，百度一年挣个3,000万、4,000万这种水平，这个够干嘛的呀？

所以呢，这个数字基本上可以忽略不计，他只是跟大家玩了一个文字游戏，一天15亿，好大好大。你把它乘上钱数，你看看有多少。除了给自己吹牛之外，当然还要指明一下方向，说未来的AI发展是哪个方向呢？两个大方向，一个是智能体，应该也就是刚才我们讲的AI Agent这样的东西；另外一个呢叫产业应用，就是政府有钱或者是大的企业有钱，你们愿意为这个事情买单，你们就是未来方向了。这是李彦宏为AI中国指明的两个方向。

而且呢，保证说百度自己不会去做超级APP，实际上他也没这个本事，所以干脆吃不到葡萄说葡萄是酸的，我不做这个事。然后呢，要去打造上百万个超级APP，也不知道李彦宏怎么想的。超级APP不可能有上百万，到上百万了，以后这东西就不叫超级APP了，你没有那么多用户，叫什么超级APP？但那意思呢，就是降维打击，这个是很多互联网人喜欢讲的一种说法。

你是二维生物，我用三维的方式去干掉你；你是三维生物，我用四维的方式去干掉你。这是《三体》里边的一个词。这个所谓的降维打击是什么呢？就是你们都去卷超级APP去了，我要当你爹。在百度下边做的应用都是超级APP，我比你高一个层次。

当然了，也展示了一些智能体，包括百度自己的文心智能体平台。这个上面呢，号称有15万家企业使用，有80万开发者，但是也没有看到砸出什么响动来。如果产生了超级APP的话，广大的民众应该是能够有感知的。咱们现在没有感知，别说上百万个了，一个都没看到。然后也展示了一些超级智能体，什么法律问答呀，基本上也就是说我们通过百度的文心研做的一些AI Agent，怎么能够解决一点点的实际问题，这个也给大家展示了一下。

另外，时髦还是要赶的，赶什么时髦呢？百度智能眼镜，扎克伯格干成了，我们也得干去。这就是这一次的百度世界大会上发的东西。那咱们回过来说，百度为什么自己不做Sora呢？其实这个里头最本质的原因只有一个，就是百度自己是没有视频平台的。虽然百度有视频，百度有爱奇艺什么这些东西，但是百度自己没有像抖音、快手这样的平台。你像国内现在即梦跟可灵，卷的那叫死，天天俩人卷来卷去的。即梦后边是字节跳动是抖音，可灵后边是快手。生成完了视频，就放在我们的抖音、快手平台上，大家就可以宣传了，就可以直接用上了。百度自己没这东西，所以说那我就不跟你费这劲了。

而百度跟Sora呢，实际上是两条完全不同的路径。Sora是什么路径？Sora的路径是scaling low，大力出奇迹。中间很多东西我们也不去研究了，我们就把料堆齐了，数据堆齐了，算法堆齐了，再加上足够的算力，烧钱等待它涌现。原来的这些传统的方式，我们就不去考虑了，think differently。我们不用再去想说要不要更快的马车，我们直接去造飞机去了，还不是汽车。这就是Sora干的事情，是一帮有理想的人去做的事情。

而且呢，未必有结果。其实到现在为止，Sora都没有任何要做出来的迹象。而百度他们做的事是什么呢？是在现有的技术范畴下，满足现有的需求。这个呢，就属于典型的中国式创新了。要求的是什么？确定性高。我们要卷吗？卷的一定要确定性很高。哪方面要确定呢？第一，技术路线要确定。一帮老学究们，他们来去确定技术路线，不能让年轻人上。年轻人，你们没有经验，万一走错了路怎么办呢？这个你们不要去动。第二个呢，成本要确定。我投入多少钱以后，可以得到一个什么样的结果。成本确定了以后呢，收益也要确定。我做出来的东西得有人用，我得卖得掉，这个事才能去干。就比较现实。这个就是百度走的这条路。百度呢，要求是有市场能赚钱，所以呢，百度算是比传统的中国式创新更加保守一点的一个公司。

那么现在有很多人去讲说，scaling low现在到底行不行？美国有很多大学、很多机构，甚至一些著名的科学家都出来讲，scaling low是不是玩不转了，这种规模法则是不是有问题了？再往前堆，是不是堆不出东西来了？这件事呢，只能这么说，从scaling low诞生的第一天开始，质疑就从来没有停止过。为什么呢？因为scaling low指望的那个东西，就是scaling low成功的最终结果叫涌现。这个词什么意思？就是你不确定他来不来，你不确定哪次行哪次不行，你也不确定说我到底是增加多少。以后有这么一次，因为涌现这个东西，它一定是不连续的。不是说我上了10块显卡，出了一个东西；上了11块显卡，又出了一个东西；上了12块显卡，又出了一个东西。这个是不连续的。你有可能10块显卡，你最后算出来一个数据可以用，然后呢，11、12、13都没用。结果你发现上到第100块显卡的时候，又跑出一个结果来，又有一个跳跃式的创新，又往前走了一步。那你说咱堆吧，堆到1,000块显卡，咱再做一次，发现哎，好像有那么点提升，但是又不是那么明显。哎呀，这个好像不对。

但这个事情是不是就不行了？不一定，因为在下一个节点在哪，谁也不知道。这个才叫涌现呢。如果你知道下一个节点在什么地方，比如说有这么多数据堆在一起以后得到结果，那下一个节点，比如说我们说是乘10倍、乘20倍、乘30倍或者是1,000倍，这都不知道。这个才叫真正的 scaling law。就是我们就只管往前堆，未来是不可预期的，不确定的不连续的。

这个东西从开始的那天大家就质疑它。这个过程呢，其实很像什么？就是咱们小时候都看过一个故事，叫小马过河。什么意思呢？这个小马背着一包货准备过河，人家就跟他讲说你这个过不去的，这个河很深，会淹死你的。这个不同的人就都跟他讲不同的话。就是每一个老的科学家或者是一些进行成本核算的会计师们，看到 scaling law 就会跟他讲：“小马过河，你是过不去的，你这个事有问题的。”那这个怎么办呢？必须要往前蹚，蹚完了以后去寻找下一个的节点，这个是没有什么办法的。

百度这么想到底对不对？百度说我不去作死 Sora，我要去做 IRAG，我要去消除幻觉，做有中国特色的创新，这事对不对呢？其实百度这么想并不丢人，作为一家成熟的商业企业，这样思考算是一个正常的商业逻辑。但是呢，如果按照百度自取的那样，他是中国 AI 行业的领军企业，这么想问题的话，就有点可悲了。

但好在是什么？就是中国做 AI 这一块，反正至少我测试的各种产品里头，我觉得百度基本上还是排不上号的。百度自称是中国 AI 行业的领军企业，这个事呢，让百度自己开心就好了，关起门来称大王就可以了，让我们每天看着百度是怎么思考问题的。我觉得他思考问题的很多的方式还是有借鉴意义和价值的。但是呢，作为一个国家的这种 AI 领军人物，最好还是有一点梦想，愿意努力的，跳一步往前走一走，有可能你就会走到一些不一样的地方。

好，这一期就跟大家讲到这里，感谢大家收听，请帮忙点赞，点小铃铛，参加 Discord 讨论群。

也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

谷歌代码1/4由AI生成：程序员的失业危机即将到来还是杞人忧天？

Luke Fan — Wed, 06 Nov 2024 00:38:00 +0000

谷歌最新的代码中，居然有1/4是由AI写的，这到底是不是真的？程序员是不是又要失业了？大家好，欢迎收听老范讲故事的YouTube频道，咱们来讲一讲谷歌代码的事情。

首先，上面这个消息是哪来的？谷歌在发布三季度财报的时候，开了一个电话会议，由Alphabet的CEO皮彩直接在财报电话会议上讲的。他说我们现在至少有1/4的代码是由AI生成的。人干嘛去了呢？读这些代码，然后再把它确认入库，就像是AI建议大夫怎么开药，大夫开完药以后要在下面签名字一样。现在他是这么来工作的。

其实现在各个公司都在讲这个事情，百度宣称他们的代码里头有27%是由AI生成的，阿里呢，宣称他们最新的代码里头大概有20%是由AI生成的。当然，这个里头，百度应该是在骗人。

那你说为啥呀？有25%的，有20%的，有27%的，咋这27的就骗人了呢？大家要注意，甭管是谷歌说的至少1/4，还是阿里说的20左右，这个数其实都是一个大约的数字，或者说是一个概念性的数字。而这个里面，一旦提到一个很具体的数字，比如像27%这种数，那么这个数通常不会是真的，因为你很难去统计到底哪一行代码、哪一个字符是由AI生成的。你到底是按照行数，还是按字符数，还是按照什么样的方式来去统计比例，这个事情其实是没有一定之规的。

所以真正能够去验证说代码到底有多少是由AI写的，只有一个方法：你开除了多少程序员。原来10个程序员写代码，现在剩8个了，那你20%代码是AI写的；原来5个程序员写代码，现在剩4个了，开了一个，那你25%的代码是由AI写的。那这个里头，你到底能不能算到一个27%这样的一个有零有整的数据呢？这个大概率在骗人。

那咱们讲到开人的事情了，谷歌的程序员肯定就不乐意了嘛，上来说：“我们不承认这个事，你凭什么说我们25%的工作都是由AI做的？这不行，你是要降薪呢，还是要裁员？咱得把话说清楚，咱不能随便一张嘴就来这个事。”

当然，谷歌说这个话，包括百度、阿里说这个话，咱们能够理解他。为什么？因为人家是要靠AI来挣钱的。如果你自己不在身上贴个标签来，我也用AI了，你怎么好意思把AI的产品卖给别人呢？所以这个话人家还要说。其实，真正在里头挣到最多钱，或者说用户量最大的那个产品，他们公司啥也没说。最大的产品是谁？是微软的GitHub Copilot，这个是AI编程工具里的老大。但是微软从来没有出来说过，我们家百分之多少的代码是由AI写的。这已经不需要去争辩了。

其他需要追赶的厂商，挨个儿要出来说。当然，百度呢，属于是想去吹个牛，结果还没吹好的那种。人家20%、25%，他整了27%，稍微有些丢人。那么，从程序员的角度上来说，到底有多少代码是由AI生成的呢？因为我自己也是程序员，虽然现在只能算业余程序员。当然，有了AI编程以后，我觉得我这个业余程序员又行了。现在我的编程能力蹭蹭蹭的往上涨，我现在可以去学习一些原来不会的编程技术，因为我并不需要把一本书看完了。我只需要问GitHub一些问题，然后到VS Code里头用GitHub Copilot，就可以去进行新技术的使用，去编程去了。这还是非常开心的一件事情。

我们要去衡量，到底有多少代码是由AI自动生成的，这件事本身其实没什么意义。为什么呢？很早的时候，我应该是在2007年，在Borland的公司任职的时候，当时我们的开发工具里头就有这种代码自动补全的功能。只是当时的代码自动补全，它是根据你整个项目的编译结果来进行补全的。但是他的补全也不像现在这样，你可以补出一个完整的函数来，或者补出一整段代码来。他能干嘛呢？就是当你去一个地方，说我现在要补全这一个单词后半截，他是可以做到的；或者是说我需要去填参数，需要去填空的时候，他会给你一个比较好的建议，比如说，这里应该是填一个什么样的参数，什么类型的，你前面有没有定义过这样的东西。

可能是哪个哪几个里面去挑一个。他可以把这个约束条件收束得比较紧，然后让你一次性命中，或者可能一两次就可以命中。你真正要去填的这个东西，已经可以极大地提升效率了。这是在很早就开始有的。而且我们写程序这件事呢，我们经常干这种叫“一句顶一万句”的事情。

什么叫“一句顶一万句”？前两天跟一个语言学家去聊天的时候，他给我讲了一个事情。我们问他说，语言发展的方向是什么？人类语言发展的方向是什么？他给我们讲说，全人类的语言发展方向都是变得越来越简单。因为像西班牙语、俄语这种又非常复杂的各种格式的语言，现在都在变得越来越简单。因为你要交流、要沟通嘛。而且会有越来越多的这种代词，会有一些新的词汇产生。这些词汇可能原来会有一个很复杂的意思，他就用一个缩写，或者用一个很简单的词就给你带过了。

它是这样的一个发展趋势。人类可能说的话始终就是这么多，但是呢，我们这个话语里边所表达的含义，会变得越来越丰富，信息密集度越来越高。而且在这个过程中呢，各种对格式的要求会变得越来越低。当时他讲完那个故事以后，我就想起了我们程序员的一句顶一万句了。

我们使用的叫类库（class library）。原来你要去写程序的时候，你要写说：“我在屏幕上哪个点画一个红色，画一个绿色，下一个点再画一个什么颜色，拼起来是个按钮或是什么样的。”以前你要这么来写程序，但是现在的话，我们只需要告诉他说：“请给我画一个按钮，下头有个阴影，什么样的字体，给我写什么字上去就完事了。”那中间执行的部分都是谁来执行的呢？就是类库来执行。

你下一次说：“我连这个按钮具体想摆在什么地方我都不想告诉你了。”那你可以告诉他什么呢？你说：“请给我按照横向平均排列，比如三个按钮横着了。”他给你均匀地排开，或者你给我按照纵向什么排列。为什么我们后来这么写程序，不再告诉他你给我从左上右下去写？这个其实很简单，因为我们后面面临的各种设备越来越多，各种设备的分辨率是不一样的。

你如果每一次都写死了，说请给我从左边哪个点开始画，上面哪个点开始画，右下哪个点结束。你换到不同的设备上，长的位置不一样。所以我们后来都是改成说，请按照一个比例，给我画在一个什么位置上。那甭管你用什么样分辨率的设备，我们都保证这个按钮是在一个相应的比例的位置上。基本上是一句顶一万句。

那你要这样算的话，我们可能写了几百行的一个代码，但是呢，实际上这个代码编译了以后，可能有几十万行，或者有几百万行，因为你每一句后边，可能都调用了非常多的底层程序去工作。所以你说我来算一下，到底有多少代码是由人写的，有多少代码是由AI写的，或者人写的多少代码去调用了AI写的多少代码，或者AI写的多少代码去调用了人写的多少代码，这个事其实是没有什么意义的。

所以为什么我说百度，这个稍微有点夸张，27%算的还有零有整了。那么到底什么样的代码适合AI生成呢？有各种各样的地方都可以写代码。你说C代码适合AI生成，Python代码适合AI生成，Java代码适合AI生成，这个都没有什么意义。现在呢，AI代码生成器是我们常用的代码，都是可以生成的。

那么到底什么样的代码更适合AI生成，应该怎么去分类呢？我们分成四类：界面代码、逻辑代码、算法代码和接口代码。一般写程序大概率就是这4种东西。

什么叫界面代码？就是刚才我描述的，哪个地方写一个按钮，按钮什么颜色，字是多大字，字体什么样的，字写什么颜色，摁了以后该怎么办，这个东西呢就叫做界面代码。

哪一部分叫逻辑代码呢？逻辑代码就是，比如说你现在要去做一笔交易，这个交易我应该先确认一下库存够不够，然后确认库存够了以后，我在库存里扣除你的钱，把东西发快递发给你，然后把钱存到我自己账户里去。这一部分呢叫逻辑。

然后呢，算法代码，比如说我现在需要做个排序，需要做个查找，需要做一个很复杂的分类，这个东西呢就属于叫算法。特别是像现在做AI算法这一块，要求会越来越高。

还有一块程序叫接口程序。接口程序干嘛呢？比如说，我今天要使用谷歌的账号来进行登录，我就需要去查一下谷歌的文档，谷歌账户登录的这个API应该怎么去写。我应该先到谷歌哪个地方去申请这个权限。申请好权限以后，得到一个叫做TOKEN的东西。然后呢，再把这个TOKEN放到我们自己代码里去，按照谷歌的文档去调用某一个接口，把TOKEN放上去，说明现在我要用这个TOKEN，然后用谷歌的账号去登录。

得到了谷歌账号登录以后的一个凭证，之后我们在网上做各种操作的时候，就可以使用谷歌账号登录以后的凭证，再去申请各种各样的权利。这部分呢，实际上就属于接口代码。这四个里面，逻辑代码跟算法代码相对来说没有那么容易被替代，而剩下两部分，界面代码跟接口代码呢，相对来说是比较容易被AI所取代的。

而接口代码呢，是更容易被AI取代的。为什么呢？因为你不需要好看的界面代码，界面好不好看这件事是要靠人来看的，这个事情你没法完全被AI取代。但是接口代码是可以完全被AI取代的。像刚才我们讲的百度、阿里、谷歌，他们所使用的代码里头，接口代码的数量占比是比较高的。像公司内部这么多的分子系统，需要跟公司外部的各种系统去连接，所以他们需要大量的接口代码，这部分完完全全都可以交给AI去处理，而且AI会处理得非常好。

你不需要去看文档了。比如说，我举一个例子，我前两天希望在我的一个程序里边使用谷歌家的Firebase这种大数据库。原来你需要干嘛？看文档，看各种的接口，再进行一步一步的配置。因为你可以直接从Web端访问这种云端数据库，所以它在安全处理上做了非常多的认证，这不是那么容易的。我就交给AI了，我说我现在要干这个事情怎么办。它说，行吧，我给你搞定吧。你第一步先到谷歌那去申请这个授权。我说申请完了，那行了。然后它说，下面我们去执行哪一个命令。

这个命令就可以自动化地帮你做完所有的配置。然后我就开始做这个命令，做完了以后说，谷歌上你申请了哪些项目？你现在想把你这一个APP所使用的数据库挂在哪个项目的授权里头去。然后只要选一下，剩下都不用管了。他在问你说，你这个应用是要在Mac OS、Windows、iOS、安卓、Web，需在哪些端跑。先是打勾，打完勾以后，一按确认，他就呲咔嚓嚓嚓咔给你去搞去了。可能在这个过程中，他就生成了几百行、上千行代码，把所有的配置给你做完。这就是挺好的事情嘛。

现在呢，有非常多的成熟的AI编程工具。我最早使用的AIGC工具实际上就是Github Copilot，它就是AI编程工具，非常好用。现在呢，我自己个人使用最多的AI变声工具还是GitHub Copilot，那没办法，我交了100美金给他，我总要把这一年使完。虽然很多人都说Cursor好用，我也确实用了一段时间，在他给我的免费试用期里试了一下。但是现在看来呢，我觉得Github Copilot还是很好用的，可以把Cursor基本上扔掉了。为什么呢？就是底层的模型还是做得很好的嘛。

你像Cursor自己，底层的模型也是用的GPT-4O，GPT-4O MINI，用的GPT-o1以及Cloud 3.5 Sunnet。现在Github Copilot也是把所有的模型都扔进去了，而且下一步可能还会去开Gemini 1.5 Pro这样的模型进去。他的所有功能又非常完善，我觉得Github Copilot还是可以再战几年的。而且Cursor再怎么着，他需要20美金一个月，他一个月要找我多收10美金，还是觉得稍微有些心疼。

国内呢，有一大堆免费的产品，比如说阿里的通义零码，百度的叫文新快码，质朴的叫Codegeex，字节叫MARSCODE，就是火星代码。这些都不要钱，免费的大家可以随意去使用，效果呢其实都还可以。我用过字节的MARSCODE。

其他几个用的不多，基本上可以满足大家的需求。现在所有的这些工具做的，使用的方式都差不多。你只要向它提出要求，说我想去做什么，什么事情都是有聊天窗口。你直接提完要求以后，它给你生成代码。生成完代码以后呢，你只要说：“哎，我现在需要去进行合并了。”它就把新生成的代码直接跟你原来的代码进行比较。合并完了以后告诉你：“哎，这我给你加点什么，那给你改点什么。”你只要去确认就行了。确认完了以后，这些代码就合并到自己的代码库里边去。

或者说你直接在代码库里边打字的时候，它也会根据当前的情况给你做一些建议，使用方法都很像。另外呢，所有的工具都有代码解释。什么叫代码解释？就是你选中一段代码，问：“给我讲讲这段代码说什么。”以及改错误。遇到错误了，或者有什么错误信息出来以后，把这些东西扔给这些大模型的聊天窗口，问：“这到底咋回事，我应该咋改？”所有这些功能差不多，但也都有很多不方便的地方。

你比如说，我最近在学习一个新的开发环境，叫 Next.js，算是一个前端加后端的开发工具吧。实际上都是错的，因为分很多版本，不同的版本之间有不同的约束。每一次在回答问题的时候，它就忘记了你前面的约束是什么，然后就给你一些错误的代码。现在请给我把错误改掉，它也都给你改的没有问题，能给你改过来。但是你下次再要求它生成的时候，还是会有一些错误。你说：“哎，现在再去给我把这些错误都改了，通通通给我改回来。”这是可以工作的，但还没有那么顺畅。

那么程序员是不是又要失业了呢？百度的李彦宏就讲过说：“再过多少年就没有程序员这个职业了。”当时还引出周鸿祎以及一大堆的行业老大跟他对喷。那么程序员是不是又要没有工作了？这个里头呢还差那么一点点。现在那到底差在哪一点上呢？这个临界点到底是什么呢？临界点就是如果你完全没有受过编程训练，这些工具你使不了。什么意思？你说：“我就是个文科生，我这个程序一点都不懂，完全不知道。”

这个程序的架构是什么样的？什么叫面向对象？什么叫函数式编程？什么叫顺序编程？这些东西，比如说你都不了解，那所有刚才咱们讲的那些工具，就跟你都没啥关系了。等真到哪一天能够达到说“端到端，上帝说要有光，于是就有了光”的时候，那那个时候程序员就真的失业了。现在还不行，你还是需要经受编程教育，才可以使用刚才我们说的这些工具。

那你说这个临界点，是不是在近期就可以快速被突破呢？嗯，可以说是，也可以说不是。为什么呢？因为你去想一下，说你用嘴去描述一个应用需求的时候，你能说得清楚吗？有一些简单的通用化的需求，你可能能够快速地用嘴把它说清楚。对于这一部分来说呢，程序员确实没什么用了，你只要告诉他：“我现在想要什么东西”，马上就交给你了，这个事是可以的。但是所有的复杂需求，你用嘴一句说不清楚的，或者需要很多人去一起才能把一个事情定义明白的这种需求，这一部分呢，短期内或者说在相当长的一段时间内，这个临界点都是过不去的。

所以为什么说既是又不是呢？就是看你的需求到底是有多简单，还是多复杂。昨天还有一个朋友说：“哎呀，我想去学一下编程，想做一些应用。”后来我说：“你想干嘛？”然后提出来的那个应用的需求叫复杂呀。我说：“你再好好想想，你要看什么？你又没学过编程，何必要跟自己过不去呢？”

那么现在学习编程还有必要吗？还来得及吗？首先，现在还是建议大家去学习一下，只是呢，学法可能需要调整一下。就不需要像我当年上大学那么个学法了，我们可能只需要学一些基础知识，剩下的交给AI就完事了。我们上大学的时候，大量东西需要背，记忆这种事情，计算机永远比人强。所以未来计算机编程，肯定也是需要新的教学方式的。

再往后一个问题，什么样的程序员最容易失业呢？第一个，产品向的程序员其实是可以大展拳脚的。什么叫产品向程序员？就是他知道我做这个东西是为什么，我到底在解决一个什么具体的产品需求，而且可以去跟真正的需求方进行讨论，去确定产品需求的这些人。

或者说，他有一部分产品经历，职能的这些程序员，对于他们来说呢，未来大有可为。为什么呢？就是原来他们沟通明白了以后，还需要跟一些编码的程序员再去沟通，再去写一大堆程序，而且这个沟通成本还很高。

现在的话，他们只需要把前期的需求搞明白了，后面他自己就可以在AI的帮助下，快速地完成大量的代码了。然后，算法向的程序员呢，这个其实永远都不够用。你只要是能够把算法的效能提高一些，把一些原来做不了的事情能够做掉，这一块的需求是非常大的，特别是在AI时代，这一块的需求会变得更大。

那你说前端程序员呢？前端程序员，未来应该会更多地被设计师所替代。就是我能把画画出来了，那你这个程序就算写完了，不需要再通过这个画再怎么切，切完了以后再怎么一块一块拼起来。这一块其实就不太需要了。

因为以前我们去写程序的时候，都是先让设计师设计，设计完了以后呢，我们在写程序的时候，再把这个设计的稿件搬到这个程序的表达上面去，原来有这样的一个过程。以后呢，就不需要了，直接设计师就完事了。

当然，设计师说我也烦这了，别来烦我。设计师烦什么呢？这边还有文生图的很多模型，mid journey、达利，还有一大堆这样的模型，我都快失业了，你们不要来烦我。可能是未来会有一个过渡吧，有一段时间还是需要他们的。

等过完这一段时间以后呢，更多的可能是需要他们提出想法，然后再把大量的文生图所产生的结果进行判断，我到底要哪个，不要哪一个，或者拿到一些文生图的结果以后进行一些精修，这可能是未来的一个方向。

现在已经有一些公司里边出现这种岗位了，就是给机器人打工。机器干完了以后，这个图出来了，让美术去修这个图。原来一个美术可能还能挣个一万多块钱，没准只做得好的能有两三万。现在这种给AI修图的美术的话，一个月的薪水大概也就只剩五六千了。

原来写接插件的这些程序员，很多程序员原来是给接口写程序的，这些程序员呢，以后应该重新找找新出路了。

也只能言尽于此了。对于整个程序员行业来说，现在真正需要做的事情，不是说我到底应该向产品向程序员发展，是向前端程序员发展，还是说我应该去做一些算法，不是这个事情，而是什么呢？应该要找出更多的需求来。如果整个程序的需求量不上升的话，那么大量的程序员失业，这件事情是不可避免的。

所以现在呢，还是要去看看，我们到底能够用AI配合程序员做点什么事，这个是需要现在去思考的。未来AI程序的占比呢，一定会越来越高，甭管现在谷歌说的至少1/4，阿里说的20%，还是百度说的27%，未来这个数一定会越来越高的。而且程序员呢，也不像是很多设计师似的，一定要用笔画，没有这支笔了，我就失去灵魂了。程序员从来不讲究这种事情。

现在欧美的程序员已经大量的开始使用GitHub Copilot这样的AI编程工具，国内的我相信也是如此。你说我就不用这个玩意，除非你最后变成行为艺术，否则真的没有任何意义。人以后真正需要做的事情是什么？不是看代码，改代码，不是这些事情。人以后真正需要做的事情，叫提出问题。我到底要解决一个什么问题？我希望通过什么样的方式解决？我需要规避哪些东西？这个是人真正需要干的活。

然后呢，是检查结果。AI拿出来结果以后，你要去检查一下，是不是很好的依从了你前面的提示，还是说你前面的提示本身有一些什么样的问题？是不是有一些代码拼接接口的地方，有不合适的地方？有不合适的，我们就再拿出来修改一下，或者说再告诉AI说这里不对，再给我改一改。就哪怕我自己不会改也是如此。

你像我现在使用新的编程技术去写程序的时候，这个编程技术我除了一些大的逻辑清晰之外，其他的所有细节我都不知道。报的所有错误，都是人给GitHub Copilot说来给我改一下，出什么毛病了，在这个地方我希望怎么个改法，他就去给我认真的修改。只是比较费劲的就是屡教不改，这次犯了错误，下次接着犯，这次是改正了以后，下次接着改。

这个是让人稍微有一些烦恼。所以，人呢，就是提出问题，检查结果，最终再把一些新的问题处理掉。这就是人以后干的事情，找到更多的需求，才是避免大面积失业的一个唯一途径。我觉得现在咱们不用去纠结，到底是有多少代码是由AI写的，这个没有任何意义。

好，这就是今天跟大家讲的故事。感谢大家收听，请帮忙点赞，点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。