技术挑战 – 老范讲故事｜AI、大模型与商业世界的故事

游戏天才到诺奖得主，他凭什么断言AGI只差临门一脚？揭秘哈萨比斯开挂人生背后的逻辑｜Demis Hassabis、Google DeepMind、AGI 时间表、5到10年

Luke Fan — Wed, 10 Dec 2025 00:58:24 +0000

谷歌Deepmind的CEO说：“我们与AGI之间，只差一到两个AlphaGo级别的技术难关了。”

现在Gemini 3正在大杀四方，谷歌里面负责开发Gemini的部门叫Deepmind，他的CEO出来接受访谈，关注度还是比较高的。

谷歌Deepmind的首席执行官叫德米斯·哈萨比斯，2025年12月4日接受了一个访谈，是在旧金山举行的Axios AI大会。和他对谈的人呢，是Axios的创始人和主编，叫Mike Allen。在这上面他讲到说，我们距离AGI还差一到两个类似于AlphaGo这样级别的突破，突破过去就可以了。

哈萨比斯：爽文男主般的开挂人生

哈萨比斯到底是一个什么样的人呢？绝对的爽文男主，挂b一样的存在。

从国际象棋神童到认知神经科学博士

哈萨比斯是一个英国人，Deepmind本身是一个英国公司，后来被谷歌收购的。他呢，76年在伦敦出生，这个姓氏是个希腊姓氏。他的父亲呢，是来自塞浦路斯的希腊裔，而他的母亲呢，是来自于新加坡的华裔。所以哈萨比斯呢，可以算是半个华人。

从小，这哥们是一个国际象棋神童。像这样的人，肯定都是有异于常人之处。4岁就开始下棋，13岁就达到了国际象棋大师水准。8岁就用自己的国际象棋奖金，给自己买了台电脑，开始学习编程了。

本科和硕士呢都是剑桥的，学的CS就是计算机科学，在校期间一直代表剑桥参加各种国际象棋比赛。博士呢是伦敦大学学院，专业方向是认知神经科学和神经科学。

从游戏制作人到AI先驱

工作，这哥们一开始做游戏的。先去加入了很著名的牛蛙工作室，这个牛蛙工作室呢，最著名的作品叫做《地下城守护者》。但是哈萨比斯当时进去的时候，应该还没有开发这个产品，牛蛙工作室最终是被EA给收购了。后来呢，他自己创建了一个工作室接着做游戏，叫做仙丹工作室。2004年出了一个游戏叫《邪恶天才》，是一个模拟经营游戏，就是一帮邪恶天才在一个小岛上做各种各样坏事的这样的一个游戏。只是呢，这个游戏并不怎么挣钱，这种超级天才做出来的游戏都未必能挣钱。

他呢就把工作室关掉了。后来呢，《邪恶天才》的IP被收购了，2021年《邪恶天才2》发布，但是呢，《邪恶天才2》就已经跟哈萨比斯没有什么关系了。

关闭这个游戏工作室之后，他就去创建了Deepmind。Deepmind主要还是游戏方向，他呢在里边去训练AI下围棋。这哥们是个国际象棋大师，但是呢开始训练AI下围棋，也就是AlphaGo这个东西就出来了。在这中间呢，还训练AI去打各种游戏，星际争霸呀，做一些其他这样的训练。

收购、AlphaFold与内部整合

2014年，Deepmind就被谷歌给收购了，6.5亿美金的价格。但是这个数字呢，并不是特别统一，很多的报道里的这个数字是有一些偏差的。有人说是4亿美金，也有人说是6.5亿美金，还有人说是4亿英镑。因为收购的时候，谷歌自己并没有公布价格，这些价格呢都是后续的报道里边去写的。

在谷歌收购以后呢，哈萨比斯在Deepmind里头又开发了叫AlphaFold这样的一个产品。这个产品是解决蛋白质折叠难题的。蛋白质实际上是这种超大分子，这些超大分子，我们算清楚有多少碳、多少氢、多少氧、还有氮，它并不是一个平面的结构，它是一个立体的结构，3D的。在这样的一个结构里头，它到底是怎么去排列和折叠的呢？原来大家是去预测呀、去猜呀，或者通过一些很复杂的设备去进行扫描，通过这样的方式去识别，成本是很高的。你要想去用蛋白质开发各种药品，你就必须要搞清楚它的3D架构空间，你搞不清楚，这事没法往前走。

哈萨比斯就去搞了AlphaFold，用AI去预测蛋白质的3D折叠空间到底是怎么回事。2020年呢，这个AlphaFold在蛋白质预测大赛中夺得头筹，比第二名强好几倍，这个事基本上就算解决了。现在只要是知道这个蛋白质的分子结构，这个AlphaFold的预测结果就极其准确。2024年，哈萨比斯依靠这个AlphaFold获得了诺贝尔化学奖，这哥们是个诺贝尔奖得主。

这还没完，他呢还在内部斗争中战胜了谷歌大脑。这是一个什么故事呢？谷歌内部一直是有两个AI部门的，一个是Deepmind，另外一个叫谷歌大脑，相互内斗，相互争夺资源。直到什么时候呢？直到ChatGPT出来，三年前谷歌拉响了红色警报，说不能再这样了，你们俩两家打来打去，这个不行了。那怎么办呢？最终是Deepmind合并了谷歌大脑，所以现在整个的谷歌AI是由Deepmind来去负责的，由哈萨比斯来去管理。

现在的Gemini 3使用的技术，大多都是原来谷歌大脑研究的方向：Transformer、大语言模型都是那边研究的。而Deepmind呢，原来在英国这帮人研究的呢，就是AlphaGo、AlphaZero（AlphaZero是AlphaGo之后的一个下棋的模型）以及各种可以自动玩游戏的AI产品，还有呢就是AlphaFold，做这个蛋白质分析的。

哈萨比斯除了是Deepmind的CEO之外，他自己还有一间专门做药的公司，专门用AlphaFold去做蛋白质研究，做各种新创新药的公司，他也是那个公司的创始人。所以哈萨比斯管理了整个的谷歌AI方向，以及谷歌Gemini这个产品化方向，都是归他管的。所以，爽文人生，绝对没有任何问题吧？

通往AGI之路：还差哪两个AlphaGo级别的突破？

哈萨比斯认为，我们距离AGI到底还差哪两个AlphaGo级别的突破呢？他自己做AlphaGo的，所以AlphaGo到他这儿变成了一个衡量单位，再出现两次AlphaGo这样的突破，我们就达到AGI了。

Gemini 3的惊人进展

他呢首先讲到Gemini 3，现在确实让人震惊，已经从文本专家变成了多模态理解系统了。他举了一个案例，说有一个电影叫《搏击俱乐部》，主角上去打斗之前把戒指摘下来了。他就去问这个Gemini，说这代表什么意思。它没有告诉你把戒指摘了就完了，而是告诉你说，这是主角抛开了身份、摆脱了规则的象征，是角色从现实到极端的转变。这个确实挺让人震惊的，这个Gemini 3模型有了自己的判断，不再只是迎合了。

到GPT这儿，你说你错了，它就会说“对不起，我错了”。到Gemini 3上，你说你错了，它会很耐心地给你解释，或者跟你去讨论这个事，是不会直接承认的。说Gemini 3的性格，叫“简洁，冷静，有自信，不讨好”。这个是哈萨比斯自己作为一个科学家，非常非常喜欢Gemini 3的一个地方。

而且Gemini 3呢，现在已经从生成内容，在向着打造产品的方向前进了。我们现在使用Gemini 3去做PPT，去做简单的应用原型，效果已经非常好了。它已经可以去执行一个比较简短的、连续的这种AI agent的工作了，这个是Gemini 3真正强的地方。

大模型当前面临的难题

哈萨比斯说了，现在的大模型还是有很多问题没法解决的。

不具备持续学习的能力。很多人都在担心，说我跟大模型聊了半天，是不是大模型就拿聊天的结果回去做训练去了。其实有时候确实他干，但主要做的是什么呢？就是强化学习。因为我们跟Gemini聊天，他经常会出俩答案让你挑一个，你在挑选的时候呢，实际上就已经在开始帮助大模型进行训练了。但是搜索的结果、我生成的内容、我提出的问题，我让这些东西去进入到大模型里头去进行训练的话，这个是不行的。大模型必须要进行数据筛选，然后才能训练。日常的这些内容，你拿去训练大模型的话，大模型可能会越训越笨的，特别是很多互联网上的垃圾信息，你塞到大模型里去训练，根本就没有办法达到预期的效果。所以大模型是没有办法自己去找内容去训练的，还是需要人先去提出要求，然后去进行数据清洗、数据处理。现在都是由大模型根据原始数据，再去生成最后的预训练数据，然后才能再去训练。所以这个事情，还没有办法让大模型自己去干，这是第一个问题。
无法执行长期的规划。虽然现在Gemini 3已经可以走一个一两个小时的规划，它还是能够走完的。但是你说我这有一个很多步骤，还是并行的，这种步骤需要去执行，执行完了以后需要连续执行几天、甚至几个月的这种任务，这个Gemini 3还搞不定。现在谁都搞不定这个事情。所以现在人去使用大模型，我们还需要自己去理解问题、自己去拆解问题，然后把这个拆解好的问题扔给大模型，而在对大模型的结果进行确认和验证之后，再把结果拼凑起来，让大模型去做下一步。它没有办法说你一开始给他个要求就做出来，“上帝说有光，于是就有了光”，这个事现在还做不到。
智能体系统很不稳定。为什么它没法连续干下去？就是它可能干着干着就跑偏，而且跑偏的过程中呢，自己不知道跑偏。在这个过程中，就有可能会浪费大量的TOKEN和算力，最后呢得出一个完全不可用或者说有害的一个结果出来。这个是目前为止大模型无法避免的问题。
缺乏跨对话的稳定记忆。现在大模型已经开始有记忆了，但是大量的记忆呢，还是在对话内的。而对话外的这种记忆，就是跨对话的记忆呢，它也不是说没有，像ChatGPT也好、Gemini也好，都是有一些跨对话记忆的。但是呢，这个记忆的空间都很小，你不可能说让他记很多的东西，然后跟你进行跨对话的去聊天。为什么呢？对于计算机来说吧，让它记住什么事是非常非常容易的，往硬盘里写不就记住了吗？但是让它忘掉是很难的。到底应该记住哪一部分、忘掉哪一部分，在下一次工作的时候我应该使用其中的哪部分去参与工作，这件事是非常难去抉择的。这就是大模型跨对话记忆的这个难点。所以他讲的，现在缺乏跨对话的稳定记忆，就是你让他记住可以，但是呢不一定下次就想起什么事来，可能他会找一个完全不相关的知识点，就参与到你这一次新的对话里去了。现在我们使用大模型的方式还是比较简单粗暴的，你发现讲着讲着驴唇不对马嘴了，怎么办？开始新话题，就是把原来的记忆都清干净。我们开始一个新的，甭管是Gemini也好，还是ChatGPT也好，它会有一些跟我们个人相关的这种个性化记忆。比如说我就告诉这个ChatGPT：“你记住了，我叫老范，我是个Youtuber，每天都要做什么事情。你要给我去总结信息，或者我要找你提问题，你要先去经过验证才能给我。”就这些玩意，我是可以让他记住的。但是如果你给他特别多的东西让他记，或者说我们在整个的聊天过程中让他把所有聊天内容都记下来，他就没法干活了。

两大关键突破点

这些问题关键的突破点是什么呢？咱们前头讲了两个关键突破点。

世界模型：让AI理解物理世界的运行规律，这个是非常重要的。Deepmind内部呢，有一个叫Genius模型（天才模型），这呢是一个世界模型，通过物理一致性和时间连贯性生成虚拟世界，最后输出视频的。大方向上呢，跟李飞飞的方向是比较接近的。但是Deepmind的这个模型，是更接近于游戏世界一点点。这个哈萨比斯，不愧是从游戏公司里出来的，人生的第一份工作都是对一个人有重要的作用的。
智能体系统：现在Gemini虽然也算是智能体，但是距离智能体系统还是有一些差距的。什么是智能体系统？就是从回答问题到完成任务。现在Gemini依然是在回答问题。他说未来呢，Gemini会嵌入眼镜、工作场景和工作流里面，能够记忆、推理或者是代办，不再只是回答问题，而是直接完成各种各样的任务。你让他做一个什么事的，切咔切咔给你做完了。可以自主规划、执行任务，并且根据结果调整的这种稳定的智能系统，这就是未来方向。

所以呢，两个AlphaGo级别的突破，一个是世界模型，第二个是智能体系统。

谷歌：科研领域的“怪物”

讲到这儿，要再跟大家啰嗦几句。其实大部分的科技公司，是无法想象谷歌的运作方式的，就像是大部分国家的人也无法想象中国是一个什么样的存在，是一样的。

中国的这种存在方式呢，联合国里边专门有一个效应，叫“中国效应”，就是各种统计的时候，一定要把中国排出去。为什么？因为你一旦把中国加上，所有统计数据就没有任何意义了。咱们举一个最简单的例子，吃西瓜。全世界的人都没法想象中国人到底一年吃多少西瓜，咱本身人就多，咱们一年大概吃全世界70%的西瓜。你把这个统计起来，全世界每个国家大家平均吃多少西瓜，你把中国算进去，这事没法算了。包括像什么发电、炼钢，只要是跟制造相关的，你就不能把中国搁里头统计，因为这个完完全全是另外一个维度了，它会让整个的统计结果完全失衡。中国属于是全产业链内卷，而且全产业链都产能过剩的一个国家。

谷歌呢，在科研上就有点像中国在产业链上的这个状态，很多方面呢都会尝试和探索。谷歌呢，具有非常高的人才密度、充足的科研经费，还有海量的数据，这个是缺一不可。而且呢，这些科研团队，他们的时间压力也不是很高，大家就自己按照自己的喜好去研究就行了。他们还在不断的收购新的、最前沿的公司，Deepmind就是买回来的嘛。

谷歌在AI领域里头，同时在探索强化学习（AlphaGo、AlphaZero这些产品）、认知架构、神经科学建模，以及Transformer大语言模型，这些都在研究。不是说我们觉得哪块有机会了，我就往这一个方向去研究。我记得特别清楚，我进入盛大网络参加入职培训的时候，他们就跟我讲说：“全世界只有一种游戏，这种游戏叫MMORPG，其他都不行。”后来我说那我们玩的其他游戏，他们说：“那些游戏不挣钱，我们不研究那个，我们只研究这一个最挣钱的。”这其实是大部分的公司的思考方式，我们既然已经证明了这玩意挣钱，其他的不挣钱，那咱就研究这就完了，特别很多中国公司是喜欢走这条路的。

但是谷歌不，它是所有的方向都要去试一试。而且很多方向呢，你都不知道什么时候能挣回钱来，他也要去试一试，比如说量子计算。前面咱们还专门讲过谷歌的量子计算是怎么回事。很多的这种科技成果，都没有办法给谷歌挣钱，也没有办法在谷歌内部取得成绩，很多人最终是离开了谷歌才创业成功的。现在的AI行业里头，创始人或者是创始的核心团队，大多都在谷歌混过。所以现在我们所看到的AI行业，或者叫AI革命，你基本上可以认为是一帮从谷歌出来的人在去折騰这个事情。

中国呢老说自己是“睡狮”，一旦被吵醒了会很吓人的。谷歌在科研领域里头，其实也是这么回事。拉一次红色警报，就有可能拎出像Gemini 3这样的大杀器出来吓唬人。现在Gemini 3火了，但是谷歌依然不会去收敛方向，照着唯一正确的方向前进，这不是谷歌的路子。谷歌的路子是什么？还是全面探索，严格追踪数据表现，保留多个可能性，并且不断验证。

普通公司能够解决当前的问题，预言一个未来的热门方向——大家注意，不热门他不去干，去一定是热门方向——他们才会愿意说我花一点精力、花点钱去折腾。像谷歌这个，都是这么多方向，哪块云彩下雨都不知道，到底什么时候做出来也不知道，就开始撒人、撒钱进去干活去了。在普通公司里头，能够去预言一个热门方向的，就已经算是很强的了。大量的都是别人做出来，特别是谷歌做出来，他在后边再接着跟着改。而且这些公司实在是搞不清楚什么是热门方向，或者热门方向搞不定怎么办？还有一条最简单的路：上谷歌挖人，或者直接从谷歌出来创业。这个就是普通公司跟谷歌之间的差异。所以谷歌呢，在科研领域里头完完全全就是一个怪物。

总结与展望

好，最后总结一下吧。谷歌Deepmind的CEO哈萨比斯，携Gemini 3成功之势参加了Axios AI大会，说再有一到两个AlphaGo级别的突破，就可以实现AGI了。这两个是什么呢？就是世界模型以及智能体系统。可能要5到10年，把这两个实现了以后，我们就达到AGI了。

本节目的特点，咱们八卦了一下哈萨比斯的开挂人生，也稍微介绍了一下谷歌这个绝对的科研领域的怪物。我们也希望谷歌，以及所在谷歌里头工作过的这些人，未来还会给我们带来更多的惊喜。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛、参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

别只盯着三峡！雅鲁藏布江水电站投资1.2万亿，发电量堪比英国全年，这盘为未来AI算力战争布局的国运级大棋你看懂了吗？

Luke Fan — Tue, 29 Jul 2025 00:42:49 +0000

大家好，欢迎收听老范讲故事的YouTube频道。今天咱们来讲一讲雅鲁藏布江水电工程，又一个国运级工程。

首先呢，雅鲁藏布江的水电工程真的是轰轰烈烈的就来了。这两周大家都在讲这一个事情，而且呢，整个的股市在为雅鲁藏布江水电工程狂欢。现在计划是在雅鲁藏布江下游50公里急弯处，建一个5座阶梯级的水电站，利用约2千米的落差发电，总装机容量是70GW，年发电量是3,000亿瓦时，就是3,000亿度电。这相当于三个三峡大坝的发电总量，总投资额呢是1.2万亿人民币。

从2.5万一个月的足疗技师开始，什么意思？就是这边宣布说，我要在墨脱盖水电站了，墨脱这边就开始有人贴这个帖子，说我们开始招足疗技师，25000一个月。为什么这么贵呢？原因很简单，因为墨脱这个地方一共只有14,000多人，你要让一个足疗技师跑到那去的话，还是高原，你不给人发点高原补贴，人家不去。

招完足疗技师以后，相关的股票就开始涨。今天我看到了收盘是3,605.73点，算是年内新高。所以呢，这个所谓的国运级，就你一定要带着A股大盘往上涨，这玩意才叫国运级。现在已经有人开始预测，说又一次大牛市是不是要来了，说这一次是不是又奔着5,000点、6,000点去了。

今天咱们就讲一下这个一盘大棋的故事。这个一盘大棋呢，咱们找一个老外的这个观点来论证一下吧。美国呢有一位经济学家叫杰弗里·萨克斯，这个人呢可能大家不一定听说过，但是呢他有一个特别有名的名字，叫做休克疗法之父。他是休克疗法引入到经济领域中的第一人。他呢在2025年初欧洲做一次演讲的时候，就讲过这样的一个故事。

扑克、国际象棋与围棋是三种不同的玩法。俄罗斯人呢是喜欢玩国际象棋的，中国人喜欢玩围棋，而美国人呢喜欢玩扑克。这三个国家呢有不同的战略选择。美国人呢执着于筹码堆叠的短期博弈，其战略思维类似于打扑克。俄罗斯人呢沉迷于地缘版图的攻防算计，战略传统深深烙印在国际象棋的攻防逻辑里头。而中国人呢是以围棋思维编织跨世纪的全球网络，一带一路倡议的这种提出就是围棋的叫金角银边的智慧体现。

萨克斯在复旦大学开讲座的时候呢，还提到一个相关的观点是什么？就是中国人下围棋，讲究的是布局和大局观，而美国人打扑克呢，喜欢叫虚张声势，吹嘘自己手里有好牌。萨克斯呢是哥伦比亚大学经济学教授，哈佛大学国际研究中心主任，曾于2001年到2018年，安南、潘基文和古特雷斯三位联合国秘书长，他都是他们的特别顾问。他就讲到了说中国人是喜欢下围棋的，所以经常喜欢去搞一些神神秘秘的事情，但是呢布局很深远。

由来已久的计划呢肯定是一盘大棋了，就是咱们的墨脱水电站技术，肯定是由来已久。早期构想是1950年，中国科考队已对雅鲁藏布江下游的这个峡谷进行了地质调查，形成了U型大拐弯，50公里内约2千米落差，蕴含巨大水能潜力的这样的一个报告。你想发电的话，光有水不行，还得有落差。全世界最大的水电站是哪？是三峡。再往后的前十名里，大概有七八个都在中国。这几个水大的水电站里的都在哪呢？都在云南和四川接壤的地方，都在金沙江上。为啥？这个地方落差大，它可以发出电来。

1980年代呢，科学家就提出了建设大型水电站的设想。项目呢是在2007年，被列入国家可再生能源发展计划的。2020年作为十四五规划和2035年远景目标，明确提出实施雅鲁藏布江下游水电开发。到2021年全国人大批准了建设超级水电站的计划，该议案提出了装机容量约60GW，引发邻国的关注。一开始说要装70，后来呢批的方案是60。2024年12月国务院正式批准了建设雅鲁藏布江下游水电工程，并宣布将采用截弯取直方案。2025年7月19日工程正式开工了，李强总理称其为世纪工程，要求加强生态保护。这个项目就已经开始做了，已经有这个挖机上去了。

为什么到现在才启动？你说挺早就开始要干这个事儿。你说这事技术上还是挺难的。首先呢要技术突破，特高压输电和盾构隧道技术是在2008年前后成熟的。再往前这事他没法干。你想在这么大的山上去挖这个洞，你是挖不出来的。而且你在这地方把电发出来，你也不可能在这个周围去建工厂，所以你还是要把这个电输出来。这两个技术都是在2008年前后成熟。

再往后呢，就是能量转型的一个需求。因为中国呢承诺到2030年的碳达峰，碳达峰就是我们用的化石燃料能够达到顶峰以后，就越来越用的越少了。2060年呢碳中和，就是我们要彻底把所有用的碳，都用其他的清洁能源再补回来。然后就是经济刺激了。三峡工程建成以后，中国经济体量扩大了近20倍。路透社指出，雅鲁藏布江工程1.2万亿的投资，在当前的经济规模下，比重与当年的三峡相近，利用基建拉动经济的一个重要措施。但是我觉得路透社这帮人不太会算数，待会我们去讲一下，这个1.2万亿到底是哪相近和哪不相近。

工程的设计呢是采用叫截弯取直方案，修建50公里引水隧道，穿越喜马拉雅山，把U型拐弯形成的这个巨大落差集中利用，建设5座小坝和地下厂房，不建设大型的蓄水库，减少对水量的截取，预计减少出境流量不到3%。所以下游说，你们这个把我水截起来，我这个干旱了怎么办？你水多了以后再给我放下来泄个洪，印度在巴基斯坦边境不就干了这么个事情吗？印度说你在这整这么个玩意，是不是会给我搞这个呢？不会，因为这里头没有大的蓄水库，它的水量的上下也就是3%，所以基本上对它是没有影响的。而且呢，由于地处高山峡谷，工地将通过盾构机挖进长隧道，并采用地下厂房，避免地表建高坝，减轻地震和这个滑坡风险。那个地方还是很容易地震的。

那到底发多少电呢？年发电量3,000亿度，大家可能光看这数没有什么印象，到底是多呀还是少？咱们按中国自己的算吧，发电相当于2024年总发电量的3%。装机容量70GW，有时候学说的是60，有时候说70，我们就当大的说吧，70GW相当于2024年中国的总装机容量的2%。那你说这事不对，你装机2%，怎么发的电是相当于3%呢？这数咋算的？因为发电量呢，是按照计划发电量来去计算的，而国内的装机量的话，是有严重的开机不足的问题的。我把机器都装上了，但是呢我不需要那么多电，我没有把它都开开。所以它的装机量是2%，发电量是3%。到2030年开始发电，2035年彻底完工，到时候的话这个比例就会变得更小，可能连2%都没有了。

看着好像也没多少嘛，你费了这么半天劲，国运级工程了，一盘大棋了，发出的电也就是多了1%的电。这到底发了多少电？3,000亿度电，这个呢是英国全年的耗电量，英国大概3,000多一点点，三千零几亿度电。全世界呢，除了20多个超级用电大国之外，绝大部分国家的用电量，都达不到3,000亿度。中国其实属于一个比较特殊的情况，中国用的电可能本他们几个加起来，都未必有咱们多。所以这3,000亿度电呢你看跟谁比，你跟中国比呢就2%-3%，你要搁全世界比呢，200多个国家里头，大概除了20个10%一年能用过3,000亿度电，其他都用不完。所以这个数还是非常非常巨大的。

这个工程的技术难点和环境影响，还是要去讲一下的。第一个呢就是地质和施工挑战。雅鲁藏布江大峡谷位于印度喜马拉雅碰撞带，地震和滑坡还是经常发生的。1950年墨脱发生了8.6级的地震滑坡，大规模堵江。大峡谷海拔差异大，气候复杂，施工需要翻越雪山雨林。当地公路直到2013年才完全通车，以前那地方没有公路的。工程需要建几十公里的深挖引水渠道和地下厂房，属于全球最难的水电项目之一，还要面对高原缺氧、极端天气等挑战。所以这个东西没有那么容易了。

至于说它的生态和生物多样性的影响呢，肯定有人去说嘛，你把这建起来以后，一定是对生物有影响的。因为三峡工程，就很多人去说他这个事情。但是呢，雅鲁藏布江大峡谷呢，是世界上最深的峡谷之一，海拔落差促成了从冰川针叶林到热带雨林的完整的生态阶梯，拥有4,500多种植物和大多种的大型食草动物，包括雪豹、孟加拉虎、藏棕熊。项目呢所在的这个墨脱县只有1.49万人，其中的多数是门巴族，汉族其实比较少，汉族大概只有2,000多人，依靠梯田农耕和竹编等传统工业。这个水电站呢，是用的改变河流的一个流速和温度，影响鱼类的一些回游，这肯定还是会影响的，包括一些沉积物的输送和下游湿地，都会有一些影响。但是呢没有什么特别大的影响，因为毕竟不是真的把这个水拦起来了，大量的水还是直接可以从边上绕走的。

国际和下游的影响，雅鲁藏布江出藏后改名字了，叫布拉马普特拉河，流经印度阿鲁纳恰尔邦和阿萨姆邦，然后汇入孟加拉国。印方担心大型工程可能干枯80%的河水，并削弱洪水的堆积物。怎么说呢，咱们原来确实干过类似这种事情，所以呢他还是有一些担心的。但是这一次呢，中国外交部表示，将采取沿河齐水的一些模式，保持自然流量，并且呢与下游国家共享水文数据，就是我这水涨了水跌了我赶快告诉你，有点什么事我跟你说。印度专家呢也指出，项目为精馏式发电，蓄水量有限，主要水流来自喜马拉雅以南的雨季，因此呢影响不如担心那么大。所以呢这一次印度的官方媒体没说什么，虽然印度有一些小媒体在那喊，说我要去轰炸，但是它的大的官方媒体，并没有出来特别积极的表态。

再往后一个问题呢，这个1.2万亿是不是花的有点多呀？三峡水电站是花了2,500亿，而墨脱水电站的话花了1.2万亿，5倍往上了。大家要注意，三峡水电站要比这个墨脱要麻烦的多。为什么呀？三峡里头有一个巨大的工程，是拆迁移民。墨脱你想他整个县里头就1.49万人，你让他把这个工地上的活都干一干，这些人都不够，你还得从外面往里迁人去干活去。所以他没有这个拆迁移民的问题，他也没有航运改造的问题，因为墨脱这地方，原来他也没法走航走船。三峡你是要去走船的，而且三峡还要做大坝，做完大坝了以后，整个把水拦下来才能去发电。墨脱我也不需要做这个大坝，现在只是说说施工难度大，使用新技术，各种高端设备，所以它比较贵。这个好像说不太通，真的需要这么多的钱吗？

其实它的整个的工程要比三峡要简单的多，但是呢账不能这么算。这个账应该怎么算呢？三峡工程的2,500亿是什么时候的？1994年的2,500亿。你计算通货膨胀的话，到今天大概也就是1万亿了，七八千亿吧。所以呢前面路透社说，墨脱水电站花的钱，跟三峡水电站差不太多，大概是从这个地方来的，就是三峡水电站算上通货膨胀，大概跟今天花的钱差不多。三峡工程的投资，在1994年占当时的全国GDP的5.19%，占1994年中央财政支出的43.16%。啥叫举国之力？整个一年我能花的钱有43%就干这一个三峡工程去了，这就叫举国之力。

墨脱水电站呢，对于现在的中国来说，就没有那么费劲了。这1.2万亿投资，相当于2024年中国GDP的0.89%，这个就少多了，相当于2024年财政总支出的4.21%。虽然也不是说随便就可以拿的出来的，但是总比三峡工程，那个1994年中国财政总收入的43.16%，看起来稳当多了。当时能下决心真的是挺吓人的。现在墨脱呢在这样比较下，其实并没有伤筋动骨。

当然了中国呢，不但要做雅鲁藏布江墨脱的水电站，同时还有大量的电路基础、电力的基础设施都在建。现在呢我们在大力的发展核电、光伏、风电。2030年呢我们要彻底电气化，而且呢要做到碳达峰。我们希望2030年的发电量，能够到13-14.36万亿度，在今天的基本上增长22.6%到35.5%，非石化类能源发电占比呢，要达到35%到40%。到2035年呢肯定再接再厉嘛，我们希望呢有15-16万亿度的电被发出来，而且呢非化石能源发电量要超过50%。所以你看他这个，加上个这个3,000亿度电，真的没多少，所以不是一个特别大的事情。但是我们在各种的电力上都在投入，前面我还跟土拨鼠一块做了直播，去讲这个土基熔岩堆。今天还有一个特别有趣的风力发电的一个新的实验，在中国也走通了。他是用什么呢？整了一个巨大的这种像飞艇似的东西，氦气球飞艇，把它放到大概是几千米的一个高度上，在那发电。你在地上建一个风力发电机呢，发不出多少电来，因为地面上它这个风力，在各种的地形地貌上磨损了吧，它就会变得比较慢。而到两三千米的这个高度上以后的话，风就会变得很大，可能是在地面风力的好几倍，而且呢它是常年稳定的，不像地面上，今天刮了明天歇了，到天上它就一直有。所以以后可能我们有各种各样的绿电的设备都会上来。

这一次我们去建了这样的一个计划出来以后呢，国际上肯定还是会有一些反馈的。印度、孟加拉两国长期担心，上游工程可能节流或者是蓄水，导致干旱和洪水。印度阿鲁纳恰尔邦首席部长称，该坝可能使80%的河水干涸。然而此次开工没有出现什么强烈的抗议，一是中国宣称采用精馏式设计蓄水少，二是呢中国承诺共享水文信息，并开展防洪合作。印度自身呢，也在雅鲁藏布江支流上建立了10-11GW的西冷多用途水利工程，希望占用水利以应对中国可能的调水。他们也在干这个活，只是咱们呢做的是60-70吉瓦，他呢只能做出10-11吉瓦来。

那么巨大的工程，是不是总会带来巨大的发展呢？我们的这个题目叫一盘大棋嘛，这个要讲一下。大基建呢总是不能停的，各种和建筑电力相关的股票，现在都在涨。每一次中国其实遇到大的这种金融问题，我们应对手段都是大基建。三驾马车，投资、出口和消费，政府真正可以搞定的实际上就是投资，也就是大基建，其他事你都搞不定。所以下一盘大棋呢，只能从大基建开始搞。咱们搞了房地产大基建，搞了高速公路大基建，搞了高铁大基建，机场大基建，城市扩建，什么通讯基础设施大基建。这些大基建最后剩下的呢，好多就是一屁股烂账。这个事是避免不了的，为什么？你像中国现在高速公路亏钱，亏的一塌糊涂，为什么？因为好多高速公路修完了以后，没有车在上面跑。你这个不是一个商业行为，它是一个政府行为，我是为了大基建去干这个事的，不是说这有车了，我有这个生意，要去做这个事情，我再去修这高速路。我们先修了再说，要想富先修路嘛。现在高铁也是在亏钱，很多航空公司也是亏钱，机场也是亏钱，包括地铁都是在亏损。所以留了肯定是一屁股烂账。也有很多人呢，因为这些工程富起来了，也有很多人被抓了。但是呢一盘大棋还是有效的，经济结构发生了变化，工程周边的经济都有了发展，GDP上升了，我们也跨过了当时经济周期上的一些困难和难点，就是我们把这坎挂过去了。至于剩下的一个烂摊子，后边你们再慢慢收拾就完了。这就是中国的大基建的一个标准模式。

这个我记得特别清楚的有一个台词，叫做世界上只有一个神，他叫死神，我们只有一句话，对死神说今天不是时候。所以呢我们现在遇到各种各样的经济难题的处理方式也是这样，大家终有一死但是不是今天，我先把今儿过去再说。那你说到明天，你不是积的雷越来越多了吗？到后天再积点雷，总有崩的一天，会不会崩咱不知道，但是呢我只能说等到明天了，也许我们可以用来解决问题的手段，就更多了呢。你比如说，以前我们没有高超高压输电技术，没有这个盾构机技术，这事搞不定，那以后可能就能搞定了。或者说到未来，我们可以通过人民币贬值的方式，把现在这些债务给它化解掉。其实各个国家都在干这个活，美国也在干这么个活。董王为什么跑去美联储视察，还吓了鲍威尔一跳，说你这31万亿美金了，他就是想降息，降息干嘛，就是我让美元贬值，贬值了以后，我就可以把前面的债务，变得不是那么值钱了。所以呢就是明天解决今天的问题的，明天能用的手段，你今天用不了，所以只能放到明天再说。这个东西呢有点像借债，借债呢总是依靠通货膨胀来搞定的，没有人说我借了钱以后，最后真的老老实实把钱都还了，就算你连本带利都还了，但是那个钱原来能买多少斤大米，现在你连本带利，你买不出那么多大米来了，就是这么简单的一个事情。

电力就不怕产能过剩吗？刚才我也看到有人说了，说咱们那么多电了，多了怎么办？因为电这个东西比较特殊，它没法存，或者说存起来的成本很高，你要做储能电站的话，第一个消耗很大，第二个呢就是你做储能电站的成本，是非常非常高的。所以电最好是发多少用多少。刚才我们也讲了，中国有大量的发电机组装机装上去了，但是呢并没有让他们去发电，为什么？因为发电多了以后，整个的线路里边的电压就会上升，如果发电少了用电的多了，电压就会下降，它这玩意是个动态平衡的东西，你需要靠输配电站去调这个玩意，但是总体还是发电要跟用电基本上匹配上。

中国的这个电价是多少呢？居民用电是0.532元一度，工商业用电呢是0.52-0.85元一度。为什么有波动呢，或者为什么是一个范围呢？第一个是有波峰波谷的定价，肯定是他们不希望你去用波峰的电，波峰的电要贵一些，工厂你可以调整一下，在波谷的时候再去用电。另外呢就是江苏、浙江、广东的电价是比较贵的，山西、四川、内蒙的这些电是比较便宜的。山西是煤电，四川基本上都是水电，内蒙的是风电太阳能，其实内蒙也有好多煤电。这些地方呢就会稍微便宜一些。到2023年，广东还在错峰开工，电不够用，而且呢夏天到空调季呢，也还不断的有城市出现拉闸限电的情况。所以中国的电呢，并没有说真的多出了，多到用不完的程度。我们需要用电的时候，它可能未必够使，他想敞开着发电的时候，我们又用不完。所以电是一个比较麻烦的事。当然拉闸限电这个词太难听了，文科生上发明个新词出来，现在叫有序用电方案。所以有一些城市，好像是辽宁盘锦吧，2025年还在出有序用电方案，什么时候可以开空调，什么时候不可以开，你开多了以后可能就跳闸了，它会出现这样的情况。

那你说我们发了电把它出口了吧，特别像雅鲁藏布江这种地方，把它发了电以后卖给印度人，不挺好的吗？其实电力出口整个的出口量，是基本上可以忽略不计的。中国的宣传电力出口，主要呢其实是针对香港和澳门的，我们每年的电力出口的总额，大概百分之八九十，都是针对香港和澳门的。就那地方本来它也没电，我们在大陆发好电给他拉过去，是这样。周边国家呢，也用但是用的不多，比如说越南、缅甸、老挝、俄罗斯、朝鲜、泰国、印尼、新加坡，都在用中国的电。老挝呢跟中国还特别有意思，他不是说单纯买，咱们电用它是一个双向调剂，丰水期的时候呢，它还把电卖给中国，等到枯水期的时候再从中国买。每个国家的呢价格不太一样，最便宜大概是两毛五一度电，贵一点的有4毛多有5毛多，但是呢他们买的都很少，像越南大概一年也就是能买个三四十亿度，基本上可以忽略不计吧。墨脱出来就3,000亿度电，咱们一年10万亿度电，他一年也就几十亿度电，他大头还是要自己去发，因为怕拉闸限电，这事还是挺危险的。

印尼呢肯定很多人说，印尼海那边他是个岛，中国咋把电弄上去的？中国向印尼卖电的方式呢，是直接上去建电站，不是拉这个海底光缆输电，虽然海底光缆是可以输电过去的，但是成本还是比较高的，比我们直接上印尼去建电站这事，肯定是要贵。中国计划出口给新加坡的电呢，也是由中国电力公司在印尼搭太阳能板，发出来电以后再卖给新加坡的。新加坡呢是计划从中国买大量的电，可能是2,000亿度电，或者3,000亿度电一年，但是这个呢还比较远，现在还没有建成，大概也要到2030年或2035年才可以建成。中国向新加坡输电的网络，中国现在主要出口的呢，其实不是电，中国现在主要出口的是设备，输变电设备。而且另外一个呢，中国出口的东西叫中国资本，就是说我替你盖，我自己有输变电的设备，然后我出钱我替你盖，盖完了以后，我再运营一段时间，等我运营完了把成本收回来以后，我就把这东西再交给你，他基本上是这么来干这个活的。现在呢直接在帮助一带一路的国家建电站。

中国有没有什么方式，把这些电都耗掉呢？中国呢有一些高耗能产业，还是国家鼓励的。第一个高耗能产业就是大连芯片，做芯片这事是极其耗电的。台积电大家知道耗多少电吗？台积电耗电量是整个台湾地区的10%。台湾2024年的总耗电量是2,700亿度，还没达到墨脱水电站3,000亿度的水平，但是比较接近了。台积电的耗电是270亿度，这个还是挺吓人的一个事吧。对于中国来说，只要能造出芯片来，多耗点电没关系，哪怕我造的芯片比你烂比你少，你说我耗你两倍的电3倍的电，中国都是乐意的，国家鼓励的。

另外一个就是铝，电解铝。虽然电解铝呢现在也在做反内卷，因为钢肯定是要反内卷吧，铝呢也在做反内卷，但是呢铝反内卷的方式跟钢不一样，钢呢就是你减产就完了，减产限价。铝呢说你只要你的电不是用煤烧出来的，不是用石油天然气烧出来的，就可以去做铝了。所以呢你像我们在墨脱，做一大堆这样的水电站，就可以把这个电呢输走了。但是中国最大的电解铝是在山东吧，这个稍微有点遥远，但是没关系，我们把墨脱的电，比如输到江浙一带，再从江浙再调电去山东呗，他是这样的一个运作方式。这个铝就可以算是绿色能源，去发出来的电去做出来的铝，这就可以了。

另外一个巨大的耗能大户，国家鼓励的是什么？算力中心，就是我们做AI的机房。这个呢才是真正的未来大头。现在呢已经有乐观的IT精英们出来放话了，未来AI耗电将是总耗电的99%，也就是说我们现在发这点电根本不够用，以后要电需要是现在的100倍以上，多出来的电全都是给AI用的。这个是谁讲的呢？谷歌的前CEO埃里克·施密特，在国会能源与商业委员会的听证会上，他去讲的这个话，未来耗电99%的是AI机房。他为什么跑到那去讲这玩意？他呢是希望美国批准盖电站，这未来几年，需要新增29吉瓦的电力供应，到2030年呢希望这个电力供可以到67吉瓦。它这个所谓六十七吉瓦有多少呢？墨脱水电站装机容量七十吉瓦，它反正是折腾半天，也在干咱们这个事，一模一样的。

那你说现在这些机房耗了多少电了？2024年美国数据中心的耗电是1,760亿度，占美国总耗电量的4.3%，其实现在占的还很少很少。2024年中国数据中心耗电量是1,660亿度，我们其实比美国要少一点，占中国总耗电量的2%，因为我们总发电量比它多很多嘛，可能至少要比它多一两倍的样子，甚至有的时候可能会说会多到3倍。大家看到这数是不是觉得哎，中国好像还行，美国1,760亿度电，中国是1,660亿度电，只差100亿度，只差这个100亿度电，咱们好像距离很近。但是要注意，没有英伟达最先进的芯片，我们要想达到同样的算力，我们可能需要使用人家很多倍的电，所以我们的机房效率是比较差的。对于英伟达来说，它使用这种最先进的芯片，比如说GB200或者GB300，它的计算密集度很高。你大家讲了半天，说我这5纳米3纳米7纳米2纳米，你每一次把制程上升了以后，用同样的电就可以提供出更多的算力出来，可以发更少的热，你就需要上更少的空调就OK了。这个数据中心里最主要耗电的东西，其实不是那芯片，最主要耗电的东西是空调。集成度越低，或者你的制程越差，你的这些芯片越分散，像这个任正非讲的，我一个大的搞不定，我可以弄一堆小的去串联嘛，串联了你就需要发好多的电去供空调，把这个热给你处理掉。它是这样来工作的。所以不要看我们的耗电量跟美国的比较相近，但是中国的算力中心这块，比美国还是差很远很远的，这就是现在的一个状态。

未来会发更多的电给AI来用，我们继续按照围棋的方式，在下这一盘大棋。时间换空间，以墨脱水电站为开始，再加上一堆的核电风电太阳能，再加上各种各样的这种储能的电站，这就是中国在下的这盘大棋。这一轮的大基建就盯准了电力了。我们现在是世界工厂，我们生产钢，我们生产铝，我们生产汽车，但是到未来大家玩的是数据中心，我们继续在发电这个领域上遥遥领先。所以呢这是我们的一盘大棋，就是为AI时代提前做准备，以后我们输出的东西叫算力，我们以后会成为世界算力工厂，而不再是世界的这种汽车工厂电池工厂。这个事谁愿意干谁干，当然可能别人也没有那么容易接过去，但是我发了这么多电，大家就好好的去使用，中国算力带来的结果就可以了。

围棋跟扑克最大的差异呢，不是游戏的长短，而是游戏的规则。扑克经常讲的是打完一把，我可以再来一把，这把输了再来一次。围棋呢也经常是一下就下一晚上，你要很长的时间来下这盘围棋，而且下完了以后，你可能还需要休息很长时间，才可以再去下下一盘。所以呢基本上像赢房子赢地似的，所以下围棋的这帮人都会特别狠。围棋跟扑克的最大区别在哪呢？棋盘它是摆在明面上，规则大家也都知道，我只管下棋，我的意图你去猜去。扑克呢输一把再来，这个没关系，而且我有什么牌呢，你是看不见的。扑克你就可以去虚张声势，可以去诈唬，拿一手烂牌说哎呀马上要赢了，我要赢房子赢地，你拿一手好牌说哎呀怎么办，我这不行了。所以呢中国人就喜欢说，我们在一个相对来说比较漫长的游戏规则里头，日久见人心，我们把这个棋慢慢的下下去，这就是中国的一盘大棋的玩法。

未来的电力呢，一定是一个不可或缺的资源，而且可能永远不够。体制的优势呢，就在这个时候体现出来。你像美国人他就要跑到听证会去听证，再去找公司，再去找银行，再去折腾这些事情，才能去把这个电站盖起来，而且到底怎么盖，最后他的环评、环境评测什么的还且折腾呢。你不像中国似的，我只要体制一拍脑袋，就大干快上就可以上了。这个才是真正的墨脱水电站在干的事情，虽然它发的电并不是那么多，对周围的环境影响也没有那么大，跟印度跟他们也没啥关系，但是呢中国真正的一盘大棋，就是快速的推进电力基础设施大基建，这就是咱们的真正的一盘大棋。

好，这个故事咱们就讲到这。

Sora接口短暂泄露，艺术家们揭示Open AI的剥削内幕，是公关噱头还是真心合作？

老范讲故事 — Fri, 29 Nov 2024 00:42:07 +0000

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了。很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧；然后也出来做了一些解释，表示这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头，电影里头用这种镜头其实也不是那么多。这一次呢，只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工。你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的。视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假或者版权侵害什么这样的视频。所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢，会发出一些样板视频来，那意思什么？他说，你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频，它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线。大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。

艺术家们呢就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布，还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢，在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说，这个脚要往前走的时候，应该膝盖往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这个是第一个问题。

第二个问题就是一致性可控性。这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说，你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。当然了，这个还不是困扰视频生成本身的最大难题。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗，应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说，我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。

我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。

现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人人吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了。所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个，专业应用级别呢，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢，也还是有很多专业团队，会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。

半专业的应用呢，肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了，而Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。

这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的很多这种视频生成模型参数是一样的。现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。

对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入，艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。

所以呢，需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了。为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品或者叫作品吧，这个事本身是非常难的。所以呢，他说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们也应该没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这就相当于什么，就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们就觉得他们成为了OpenAI的公关噱头，每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期。仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但是艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候就已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说，你穿了件衣服，里边有个人，但是呢，人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着它都变成左脚了，或者是变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题，第二个问题就是一致性可控性。这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢，算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，它需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，是否有人见过飞机驾驶舱，从头到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈，视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。

因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。

什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战、什么米老鼠，马上拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

YouTube上有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频我已经被这种视频骗了好多回了。

我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。

就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的，他们可能还需要在用户交互上或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但是呢，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索寻找新方向，但是呢，都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型吧，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟。其实跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行”，什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试。

然后，所有的测试还需要签保密协议，你还不能出来说，这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。其实，这些呢是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢，是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。

最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以，他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么，视频生成为什么这么费劲呢？Open AI在年初的时候，就在2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。

但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着就都变成左脚了，变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。

更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢，是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

这个大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。

他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。

咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后，什么欺诈？视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢，你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。

你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。

很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个说话了，这个吃东西了，这个已经有一定的传播力了。数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思呢？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。

当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画、小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把德国选择党的那个女党首的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合。这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说这些艺术家们呢，都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型，式的那我们只要写一个提示词，生成出来大差不差的，我就能用。那些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他说哎，我们付出了很多，但是发表的作品呢又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢，就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开元大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。艺术家们在一个网站上开始征集签名，说来你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢，就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题，咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯，这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说，非常非常难以控制和把握。再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看，最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力，第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，就是有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置，才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，你也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。

所以这个到底掌握到什么步骤，他们也是很头疼的。再往后什么欺诈？视频的欺诈，那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。

你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀、血腥暴力歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解的很清楚，而且尽量的都给你画到这个图片上去，这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。

甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部，也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音在快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具，Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强。普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上，在吉梦也好、可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆，可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

好，这是今天讲的故事。感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了，Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂的开放了一段时间。这些艺术家呢，还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI呢，及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，说明这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫，大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的很多视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了。艺术家们加入呢，是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过。

这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。

它不像是我们普通人去使用图片生成模型那样。我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以，对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。

所以呢，他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢，应该也没有得到什么回报。对应一个1,500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。

这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们呢，就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢，其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢，是呼吁Open AI可以更加开放。

你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢，呼吁艺术家们开始使用开源的视频模型，表示现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就啪，把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现哎，这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢，并不需要进行身份验证，所以也不知道这个是真是假。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯？这个挺难的。

我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这两条腿迈着迈着都变成左脚了，都变成右脚。在图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。

第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢，在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这种方式是可以让这个脸稍微的稳定一点的。

脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。

再往后呢，就是算力成本实在太高了。图片生成，现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高的。当然了，这个还不是困扰视频生成本身的最大的难题，更大的难题是什么呢？就是视频要好看。

最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

这个大家想象一下，有没有人见过飞机驾驶舱，从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。

这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说都是极大的挑战。到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说，我们付出的努力极其艰巨呢？也是如此，他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人，有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢，完全的可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。

所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的一个视频。我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人，于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是呢，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用，但这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP，也在尝试跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

所以再往下一个方向到底是什么，虽然很多的厂商也在尝试去摸索寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，都已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的。当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，其实跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5到10秒钟。那么艺术家们为什么干这么个事呢？原因呢也很简单，有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害这样的视频，所以呢需要一些成员说，你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。

第三种呢叫创意合作伙伴。Sora每过一段时间呢会发出一些样板视频来，那意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。现在呢这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。

这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。于是他们说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。

艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。再往后呢是呼吁Open AI可以更加开放，你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在呢Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。所以他们就整了这么一个幺蛾子出来，你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。

当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。那么视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。

第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪。图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常是就会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边呢有个人，但是呢人在做一些动作的时候呢，里边的肢体就会从衣服外边撑出来。

你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误。比如说这个脚要往前走的时候，应该膝盖是往后弯的。但是呢，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。我们看过很多视频模型生成的这种内容，两条腿突然走着走着就变三条了，或者是这个两条腿迈着迈着他都变成左脚了，都变成右脚。在图像生成模型上，也会出现这种问题，视频生成模型更加难以避免。

这是第一个问题。第二个问题就是一致性可控性，这个呢其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。现在呢在图片生成模型的一致性上已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上。现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材，身上的衣服各种配饰，你要让所有的这些图片都很稳定的保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后呢就是算力成本实在太高了。图片生成现在我们画一幅1080P的这种图像吧，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。现在呢做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好；第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式对话吗，上传图片吗，然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了，因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。这大家想象一下，就是有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，全都是各种各样的开关和仪表。

视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。现在我们要做视频生成的这种工具了，你在有大模型的基础上，也需要大量的这种开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的这种做视频生成工具的人来说，都是极大的挑战。

到目前为止没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大得多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了，你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

再往后什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西呢完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是呢你可以自己上传一张照片，说我现在让这个人去讲话。你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话他就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然有其他的工具可以干这件事情，现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈呀、血腥暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。那么我们到底还需不需要等Sora呢？

其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个但是后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢，画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以，这样的视频我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语吧，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上，在吉梦也好可灵也好呢，都在做手机APP，网站的这种Web APP也在尝试跟各自的这种视频编辑工具进行结合，这一块的话有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢？我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型。在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

其实，从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看Dalle3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去。这个Dalle3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的。稍微擦点边的都拒绝服务。

你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝。你说现在请给我按照日本漫画风格画，可以画出来。说现在请按照宫崎骏的风格给我画，马上拒绝。你只要提到任何人的名字，直接拒绝。说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝。请给我画个什么星球大战，什么米老鼠，马上拒绝。所以他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。

现在可以用的视频大模型其实已经不少了，甭管是runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢，已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢，也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好，吉梦也好，Runway Pica，一大堆的这样的视频模型就出来了。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全球的厂商再顺着这个方向往前跑。好，这是今天讲的故事，感谢大家收听，请帮忙点赞、点小铃铛，参加discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂地泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

在这样的一个时间点里，突然有一群艺术家将Sora的这个接口公开到了Hugging Face上面去，短暂地开放了一段时间。这些艺术家还发表了一封公开信，表达了自己对于Open AI的各种剥削的不满。Open AI及时发现，在一小时之后封闭了接口，说你们就到这吧，然后也出来做了一些解释，称这些艺术家们都是跟我们一起去合作的，他们都是自愿参加的，没有什么强迫。大概也是讲了一些这种片汤话。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，不是一个全尺寸的模型，参数也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的。虽然一分钟视频并没有那么大的用处，超过一分钟都属于超长镜头了，电影里头用这种镜头其实也不是那么多。这一次只提供了1080P、720P、360P三种的分辨率，时长就是5到10秒钟。其实跟我们现在可以使用到的大量这种视频生成模型参数是一样的，现在的视频生成模型基本上都是5到10秒钟。

那么，艺术家们为什么干这么个事呢？原因很简单。有一句话叫“富贵不归乡，如锦衣夜行”。什么意思呢？有钱了得回家显摆显摆，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

那公开信里都写了什么呢？他写了说，艺术家们年初就被邀请加入了。艺术家们加入是分为三种不同的角色。第一个叫早期测试者，估计就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假，或者版权侵害什么这样的视频。所以需要一些成员不断地向他提这样的要求，看看能不能都识别出来，拒绝服务或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种叫创意合作伙伴，Sora每过一段时间会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，需要付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，我们只要写一个提示词，生成出来大差不差的我就能用。

这些人是艺术家，之所以能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。所以对于他们来说，想要让这种视频模型输出自己能够满意的产品，或者叫作品，这个事本身是非常难的。他们说，我们付出了很多，但是发表的作品又非常难，因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后再要经过Open AI的审核，才有极少的一部分作品可以发表。

即使是有作品被发表展示了，这些艺术家们应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期。这就相当于什么？就是一帮人进去打测试服的游戏去了，结果始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。

艺术家们就觉得他们成为了OpenAI的公关噱头。就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。这些其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错，这就是他们的一个公开信。

现在，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI是可以接受的，但艺术家们肯定接受不了。最后，艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上，让大家都瞅了这么一眼。当然，现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢，现在不知道，因为Open AI绝对是社交媒体公关大师，不停地玩各种奇怪的事情。

也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。这些艺术家们在一个网站上开始征集签名，说来，你们谁支持我，这里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，2月份的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是，视频生成本身的难度是很大的。第一个，内容合理性其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

还有就是物理破膜的问题。咱们做过3D动画的人都知道，经常会出现这种叫物理破膜。什么叫物理破膜？你比如说你穿了件衣服，里边有个人，但是人在做一些动作的时候，里边的肢体就会从衣服外边撑出来。你在视频模型生成的时候，有可能也会发生同样的事情，包括一些解剖学错误，比如说这个脚要往前走的时候，膝盖应该往后弯的。但是，你怎么能够把这个膝盖必须往后弯这件事告诉大模型，让他每一次生成的时候都向后弯，这个挺难的。

我们看过很多视频模型生成的内容，两条腿突然走着走着就变三条了，或者是两条腿迈着迈着都变成左脚了，变成右脚。图像生成模型上也会出现这种问题，视频生成模型更加难以避免。这是第一个问题。第二个问题就是一致性可控性，这个其实也是从图像生成模型那边就遇到的问题，到视频生成模型依然难以搞定。

现在在图片生成模型的一致性上，已经好一点。什么叫一致性？比如说你说让老范讲故事这张脸出现在不同的角色身上，或者是不同的艺术风格上，现在图片生成模型有一些方法，比如说自己去训练小模型，这个方式是可以让这个脸稍微的稳定一点的。脸是一方面，然后这个身材、身上的衣服、各种配饰，你要让所有的这些图片都很稳定地保持一致性，这个很难。

像一个视频，一秒钟25帧到30帧，你要保证每一帧上，比如说这里都带着一个麦克风，这个对于他们来说非常非常难以控制和把握。再往后，算力成本实在太高了。图片生成，现在我们画一幅1080P的图像，大概就需要几个美分。那你想一秒钟25帧到30帧的视频，他需要多少算力？大家去做各种测试和实验的时候，这个成本是非常非常高。

当然了，这还不是困扰视频生成本身的最大难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后，视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在做视频生成，其实是在两个层面上大家在努力。第一个层面就是模型，怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件，这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。

当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。大家想象一下，有没有人见过飞机驾驶舱？从头上到脚下，你身边所有能看见的地方，都是各种各样的开关和仪表。视频编辑其实跟这个过程很像，大量的参数和开关选项需要设置才能够得到你满意的视频。

现在我们要做视频生成的这种工具了，在有大模型的基础上，你也需要大量的开关选项、菜单或者是提示词，才能够告诉大模型我们到底要生成什么样的视频。这些交互的过程应该如何去安排，这个对于现在所有的做视频生成工具的人来说，都是极大的挑战。

到目前为止，没有特别好使的。在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以，为什么这帮艺术家也说我们付出的努力极其艰巨呢，也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人、有黑人、有白人、有男的、有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以，这个到底掌握到什么步骤，他们也是很头疼的。

再往后，什么欺诈，视频的欺诈那要比文字欺诈、图片欺诈、声音欺诈都要吓人，因为他真的像真的一样。因为这个东西完全可以以假乱真。我今天测试了一下，在剪映里边去使用真人数字人。什么叫真人数字人？就是有一个数字人在这讲话，但是你可以自己上传一张照片，说我现在让这个人去讲话。

你要想做这个操作的话，剪映要干嘛？要去做人脸识别，保证你上传的这个照片是你自己，否则的话它就拒绝工作了。你说我今天上传一个雷军的，让他去骂人，去让他去做一些其他的事情，这个事他不干。当然，有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。

除了前面我们讲的什么欺诈、血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西，这个都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjorney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。你比如说，我要求给我按照迪士尼的3D风格画一个什么东西，马上拒绝；你说现在请给我按照日本漫画风格画，可以画出来；说现在请按照宫崎骏的风格给我画，马上拒绝；你只要提到任何人的名字，直接拒绝；说现在请按照哪一个漫画里的这个情节，七龙珠的漫画情节给我画一个东西，马上拒绝；请给我画个什么星球大战、米老鼠，马上拒绝。

所以，他的拒绝的东西实在是太多了。如果按照同样的政策去执行的话，那我觉得Sora是完全不值得期待的一个东西。现在可以用的视频大模型其实已经不少了，甭管是Runway，还是国内能够使用的吉梦，吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能，这些已经可以达到一部分商业使用的能力了。

现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。数字人也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。

YouTube上有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。

现在很多的漫画小说详解相关的视频，在抖音、快手上也开始在盈利赚钱了，所以这块已经走入了商业化。那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的那个女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。

下一步的AI工具会是什么样的呢？第一个专业应用级别，可能还是会有专门的人去做。就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的。但是，也还是有很多专业团队会使用一些更复杂的这种视频工具。Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用。用完了以后出了所有东西，你们自己负责任，跟我就没有关系了，这是一种方式。

半专业的应用肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的，刚才我们说的吉梦也好、可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强。这个大模型本身，他们自己慢慢训就可以了。至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是，这个可能距离我们还稍微远一些。

这种半专业应用的话，应该正在路上。在吉梦也好、可灵也好，都是在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ，通义千问做的推理模型，在32B的参数下，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。

所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。所以，我们期待Open AI可以给大家指明下一个方向，等指明了以后，全世界的厂商再顺着这个方向往前跑。

好，这是今天讲的故事，感谢大家收听，请帮忙点赞点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

昨天，Sora短暂的泄露。但是，我们真的还需要等待Sora吗？大家好，欢迎收听老范讲故事的YouTube频道。在今年2月份，Open AI公布了他们的Sora大模型之后，大家一直在等待这个产品的正式发布。但是，等到了现在，已经到年底了，很多跟随Sora的产品都已经上线，已经有很多用户开始使用了。Sora自己还遥遥无期。

至于Sora什么时候能发布，人家也没有再继续提供更进一步的信息。那么，这一次泄露出来的呢，是Sora的Turbo版本。Turbo是轻量级快速的版本，就是不是一个全尺寸的模型，参数呢也并不是很突出。2月份，Sora当时号称自己是世界模型，可以仿真出世界来的，当时是可以出一分钟的视频的，虽然一分钟视频并没有那么大的用处，超过一分钟都属于是超长镜头了，电影里头用这种镜头其实也不是那么多。这一次呢只提供了1080P、720P、360P三种的分辨率，然后时长呢就是5到10秒钟，实际上跟我们现在可以使用到的大量的这种视频生成模型参数是一样的。

现在的视频生成模型基本上都是5-10秒钟。那么，艺术家们为什么干这么个事呢？原因呢也很简单。有一句话叫“富贵不归乡，如锦衣夜行。”什么意思呢？有钱了得回家显摆显摆去，要不然的话就跟穿了个好衣服，晚上出门没人看见那是一样的。对于这帮艺术家们来说，有了一个好东西，你又不让他们显摆，这肯定是非常非常不爽的。

公开信里都写了什么呢？他写了说，艺术家们年初呢就被邀请加入了，艺术家们加入呢是分为三种不同的角色。第一个呢叫早期测试者，估计呢就是最一开始的一批人，还没有进行详细的分工，你们先来试试各种的接口能不能跑起来。第二个角色呢叫红队成员，这是干嘛使的？视频模型非常害怕一件事情，就是生成一些有害视频，色情、暴力、虚假呀，或者版权侵害什么这样的视频，所以呢需要一些成员说你不断的向他提这样的要求，看看能不能都识别出来，拒绝服务，或者怎么能够规避，怎么能绕过，这个叫红队成员。第三种呢叫创意合作伙伴，Sora每过一段时间呢会发出一些样板视频来，意思是什么？他说你看我还活着呢，我还在继续往前走，你们其他人怎么追赶也追不上。

现在呢，这些艺术家们感觉被骗了，为什么呢？因为付出很多，Sora这种模型绝对没有那么好使。不是说它输出的东西不好，而是说你要想使用这个模型，付出的努力一定是非常艰巨的，因为你需要向它描述你到底要一个什么样的视频。它不像是我们普通人去使用图片生成模型式的，那我们只要写一个提示词，生成出来大差不差的，我就能用。这些人是艺术家，之所以他能成为艺术家，一定是他们对于自己的艺术产品有极高的要求。

所以，对于他们来说，想要让这种视频模型输出了自己能够满意的产品，或者叫作品吧，这个事本身是非常难的。所以呢，他说：“我们付出了很多，但是发表的作品呢又非常难。”因为他们发表作品一定是经过层层筛选，甚至是竞赛，然后呢再要经过Open AI的审核，才有极少的一部分作品可以发表。即使是有作品被发表展示了，这些艺术家们呢应该也没有得到什么回报。对应一个1500亿美金的Open AI来说，大家觉得这个事有点太不公平了。

而且这么长时间，你要说时间短了还可以，Sora大模型的发布又遥遥无期，这个就相当于什么？就是一帮人进去打测试服的游戏去了，结果呢始终也不给你公测，或者始终也不给你进正式上线，大家只能在里边参加各种删号测试，然后所有的测试还需要签保密协议，你还不能出来说。这个时间长了以后一定会造反的。艺术家们呢就觉得他们成为了OpenAI的公关噱头，就是每过一段时间，他们会在这么多艺术家，可能300多个艺术家里头，挑选那么几个作品放出来，说：“你看，这就是Sora现在能够达到的成就，你们其他人就羡慕去吧。”这些呢其实是艺术家们的艰苦工作，并不是Sora本身模型到底有多好。

再往后呢是呼吁Open AI可以更加开放。你不要上来就是签一大堆保密协议，这个实在是对于艺术家们来说太不友好了。而且呢呼吁艺术家们开始使用开源的视频模型，说现在有很多开源模型已经可以用了，效果还不错。这就是他们的一个公开信。

现在呢，Open AI内部动荡不断，Sora到底什么时候能发布还遥遥无期，仅仅依靠零星露出的作品保持社交媒体关注度，Open AI呢是可以接受的，但是艺术家们肯定接受不了。最后呢就是艺术家毕竟不是工程师，不是律师，不是会计师，不是其他的这种社畜。如果他们完全按照逻辑，按照大家签的协议去做事的话，就不是艺术家了。

所以，他们就整了这么一个幺蛾子出来。你虽然跟我签了保密协议，但是我们就把这个东西扔到世界上最大的开源大模型的集散网站Hugging Face上去，让大家都瞅了这么一眼。当然现在也有人在讲说这个事情是不是又是Open AI的一次公关策略呢？现在不知道，因为Open AI绝对是社交媒体公关大师，不停的玩各种奇怪的事情。也许过一段时间，人家就突然就发布了，发现这个江湖上又没有哥的声音再传播了，咱们得再整出点幺蛾子出来，这个都难说。

这些艺术家们在一个网站上开始征集签名，说来你们谁支持我。这个里边还有一个签名的人，号称叫埃隆·马斯克。只是签名的过程呢并不需要进行身份验证，所以也不知道这个是真是假。

那么，视频生成为什么这么费劲呢？Open AI在年初的时候，已经为全世界整个的AIGC行业指明了方向，这个贡献还是非常巨大的，我们要承认。但是呢，视频生成本身的难度是很大的。第一个呢就是内容合理性，其实很难保持。六个手指头、七个手指头，手长得很奇怪，图片生成模型既然已经有这种问题了，那么视频生成模型有同样的手指头问题，或者各种的合理性问题，这个都是很正常的，避免不了的。

当然了，这个还不是困扰视频生成本身的最大的难题。更大的难题是什么呢？就是视频要好看。最后生成完了以后视频难看，没有人愿意看，没有人愿意传播，这个本身是没有任何意义和价值的。

现在呢，做视频生成其实是在两个层面上大家在努力。第一个层面就是模型怎么能够让模型更好。第二个层面是什么？就是怎么去操控，我到底应该用一些什么样的方式，对话吗？上传图片吗？然后一大堆菜单和选项吗？应该怎么能够让他进行顺畅的操作，把这个视频生成出来，这个其实非常难。

我记得在2014年的时候，有大量的团队尝试去做手机端的视频编辑软件。这个时候就发现，哎呀，这个实在太难了。因为最早的时候，视频编辑这件事情，都是在视频编辑机，那是个硬件，在那个上面弄的。再往后呢是在这种很专业的视频编辑电脑上面去操作，而且是由一些专业人士操作。当你要把视频编辑这件事情弄到手机上去操作的时候，需要调控的东西实在太多了，非常麻烦。

到目前为止没有特别好使的，在这么难操控的情况下，你要能保证输出出来的视频是有人愿意看的，这个难度就会更大一些。所以为什么这帮艺术家也说说：“我们付出的努力极其艰巨呢？”也是如此。他们想控制Sora这样的一个半成品，甚至可能都没有界面，你还需要去写代码，才可以让他跑起来的一个系统，让这样的系统去输出需要的视频，这个是非常非常麻烦的。

除了视频模型操作的问题之外，下一个问题就是视频安全性，风险要比图片、文字、音频都要大的多，甚至把所有的这些前面我们讲的这些风险都盛起来，都没有视频所生成的这种风险更大。咱们前面讲的红队要去处理的问题，就是看怎么能够把这些风险在发布之前尽可能地发现，尽可能地排除掉。这些风险包括色情、暴力、歧视性的，而且歧视性你不能出现的同时呢，你还不能矫枉过正。像谷歌前面就是矫枉过正了。你跟他说，任何的提示词里边一定是有黄种人，有黑人，有白人，有男的，有女的，还有奇奇怪怪性别的人凑在一起，最后被骂的直接把这个接口封掉了。所以这个到底掌握到什么步骤，他们也是很头疼的。

当然有其他的工具可以干这件事情。现在雷军骂人也好，于东来骂人也好，这种视频都是在满天飞的。除了前面我们讲的什么欺诈呀，血腥、暴力、歧视之外，还有一个问题叫版权纷争。你一旦是遇到了版权纷争，这个对于视频来说也很麻烦。什么叫版权纷争？比如说请给我按照宫崎骏的风格画一个什么东西，或者生成一个什么动漫，或者星球大战里的一个什么角色去做一个什么样的事情，或者说你现在请用马斯克的脸给我生成一个什么东西。这呢都面临着版权纠纷，包括一些品牌和形象的纠纷，这些是需要去注意的。

那么，我们到底还需不需要等Sora呢？其实从达利3的这个角度上来看，我觉得我们完全不需要再去期待Sora了。为什么呢？我们看看DALL·E 3现在画图的效果。首先，咱们先说优点，文字理解还是相当不错的。当你给他一个很长的提示词的时候，他会把提示词中的各个部分都理解得很清楚，而且尽量的都给你画到这个图片上去，这个DALL·E 3算是最强的。但是，这个“但是”后边才是重点，艺术表现力非常的差。甭管是跟最新的Flex比，还是跟Midjourney 6.1比，完全没法看。细节也是非常差的。他虽然可以把每一个提示词里边要求的东西都给你画上，但是呢画的过程还是比较粗糙的，稍微擦点边的都拒绝服务。

现在可以用的视频大模型其实已经不少了，甭管是Runway还是国内能够使用的吉梦。吉梦是剪映下面的字节跳动做的，效果还可以。快手做的可灵效果其实也能够使用了，甚至在剪映内部也集成了视频直接生成的这种功能。这些呢已经可以达到一部分商业使用的能力了。现在的各种亲友照片变成视频，这种内容已经有很强的传播力了。很多人会把一些过世亲友的照片拿出来，给他一个提示词，说这个人现在笑了，这个人人说话了，这个人吃东西了，这个已经有一定的传播力了。

数字人呢也已经开始赚钱了，甭管是数字人直播，还是数字人带货，或者数字人骂街，这块已经可以跑了。YouTube上呢，有很多的这种预告片开始吸引流量。什么意思？就是他经常告诉你说，现在哪一部大片后边要拍续集了，大家赶快去看呀。当你看了以后，发现是有很多的前作剪辑，然后再加上一些AI生成的内容，拼凑起来的一个，你也不能说他粗制滥造，有的做的还可以。

这样的一个视频，我已经被这种视频骗了好多回了。我现在再看到说哪个大片要准备拍续集，上预告片了，我先得看谁发布的。如果不是原来那个电影的制作公司发布的，我就直接跳过不看了，很容易上当受骗。现在很多的漫画小说详解相关的视频在抖音、快手上也开始在盈利赚钱了，所以这块呢已经走入了商业化。

那么，以假乱真也造成了很多的困扰，比如说雷军骂人、于东来骂人，甚至还有人把那个德国选择党的女党首，她的这个视频配上中文上来，讲一些比较激烈的这种话语，这个也是很容易骗到人的。下一步的AI工具会是什么样的呢？第一个专业应用级别呢，可能还是会有专门的人去做，就像现在我们，比如说在视频领域里头，我的这个视频处理都是用剪映的，但是呢也还是有很多专业团队会使用一些更复杂的这种视频工具。

Sora以后可能就会向那个方向发展，说我们干脆就永远不再向公众开放了，就是直接签约给这些电影公司，让他们去用，用完了以后出了所有东西，你们自己负责任，跟我就没有关系了。这是一种方式。半专业的应用呢肯定还有待增强，普通人使用Sora这样的模型，或者使用其他的刚才我们说的吉梦也好，可灵也好，还是挺难使的。他们可能还需要在用户交互上，或者是工具上还要有待增强，这个大模型本身他们自己慢慢训就可以了。

至于个人应用的话，是否能够爆发，我觉得应该还是可以爆发的，就是使用AI大模型生成视频的这种个人应用。但是呢，这个可能距离我们还稍微远一些。这种半专业应用的话，应该正在路上。在吉梦也好，可灵也好，都在做手机APP，网站的这种Web APP也在尝试，跟各自的这种视频编辑工具进行结合，这一块的话，有可能会最先让我们看到成绩。

至于Open AI下边该干嘛去呢，我们已经讲了，Open AI的Sora已经不值得期待了。Open AI作为行业的排头兵老大，它有一个非常重要的职策，就是为整个行业指明下一个方向。他指明了Sora这一个方向以后，大家就赶快都去出了一堆可灵也好、吉梦也好、Runway、Pica，一大堆的这样的视频模型就出来了。他说我们要做O1这种可以带推理的模型，然后一堆的推理模型在这个后边就出来了。

今天我还装了一个叫QWQ通义千问做的推理模型，在32B的参数下吧，可以达到甚至是部分超越O1 mini的这个能力了。他现在还达不到O1 Preview的这个能力，但是可以达到O1 Mini的能力，只有32B，那这个还是非常棒的一个东西。所以再往下一个方向到底是什么？虽然很多的厂商也在尝试去摸索，寻找新方向，但是呢都没有Open AI指的方向。他只要摇旗呐喊，大家就直接跟风往上冲，没有这种号召力。

所以，我们期待Open AI可以给大家指明下一个方向。等指明了以后，全世界的厂商再顺着这个方向往前跑。好，这是今天讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加Discord讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

Lily无人机的陨落：当美式创新遭遇深圳山寨时，Kickstarter众筹明星梦碎的真正原因，山寨到底是不是创新？

Luke Fan — Wed, 30 Oct 2024 00:43:49 +0000

创新民主化.pdf

今天这个话题，估计是一个要挨骂的话题。咱们来讲一讲，当年风光一时无二的Lily无人机众筹失败，背后居然还有这样的故事。咱们要讲一下山寨与创新之间的争议。

大家好，这里是老范讲故事的YouTube频道。今天咱们来讲一讲Lily无人机那个悲伤的故事。

2016年的6月，Lily Robotics，也就是Lily机器人公司的联合创始人兼CEO安托万·巴拉雷斯克，在伯克利哈斯商学院做了一次演讲。他在演讲的时候放了一个视频，视频一经放出，大家一下就惊呆了。大家想，2016年当时的大疆无人机还应该是早期的版本，像咱们现在使用的这些可以折叠的无人机还没有发明出来。当时的无人机还是一种白色的，有四个桨叶，飞起来很可爱的东西。

那种无人机已经开始有飞控系统了，但避障和跟踪这些功能当时还很弱。为什么呢？因为它没有很好的算力，也没有很好的算法，可以把图像直接进行识别，再根据识别的图像进行各种操作。

当时的Lily无人机长什么样呢？它像两个盘子扣在一起的一个圆柄，像个飞盘一样。你在需要使用的时候，只需要把这个桨叶掰开，它就可以起飞。平时的话应该是可以收起来的，你可以把它塞在背包里，不怕把它压坏。当时的大疆无人机还是支棱巴翘的一个东西，也没有折叠，也没有任何的收纳能力。

当时Lily就是可以做这样的工作。而且，Lily的无人机是可以在手上起飞的，你可以把它扔出去，扔完了以后它就飞起来。Lily无人机还可以在无遥控器的方式下工作，它可以自动地去跟踪骑行者或者运动者。你就可以一个人去操作这个无人机，不需要一边跑步、一边滑雪、一边骑车，还要操控遥控器，不需要这个。它可以自己跟着你走。

还有一个特别有趣的点是什么呢？因为它是一个像飞盘一样的形状，它掉水里会漂着，不会沉下去。你可以到时候再把它捞回来。

但是，当时这个东西呢，有点太超前了。现在我们回过头来再看这条视频，除了在水上漂这个功能还没有实现之外，其他的产品形态上基本上都已经实现了。现在有一个新的产品叫大疆Neo，我在视频底下应该会放这个产品的销售链接。这个产品是199美金，非常小巧，可以直接把它收纳到一个包里，可以在手上起飞，可以不用遥控器直接跟着你飞，还有一点点简单的避障。

但是，唯一的区别就是它的形状不是碟形的，而且掉在水里以后会沉。当时的Lily无人机发布出来以后，开始了众筹，因为这个视频一下封神了嘛。它这个无人机是499美金一个，众筹就是大家先去给钱，他们收到这笔钱以后，再去把东西做出来，然后再给大家寄，是这样的一种形式。多少人参与呢？6万人参与，就是多少钱？300万美金。

但是，好景不长。2016年6月发的视频吧，开始了众筹，到2017年1月份，Lilyrobotex这个公司呢，就直接宣布破产，倒闭了，就没了。当时对外大家可以看到的，这个悲伤的故事就是这样。当时大家的猜测是什么呢？就是这个东西实在太先进了，实现不了，做不出来。他们把研发经费烧掉了以后呢，就直接宣布破产了。

当然，也有人猜测说，这是不是就是个PPT造车。当时的技术条件根本就做不了，是不是他们就直接把钱骗了，揣兜里就跑掉了？当时也有人这么想。现在我们回过头来看当时这个设计，怎么说呢，就是有一些夸大是肯定的。因为在当时的这个芯片算力以及当时的算法能力下，实现这样的跟踪，实现这样的飞控呢，并不是说完全实现不了，但它的效果应该并没有宣扬那么好。

就像现在大疆讲的说，我可以跟踪，可以飞控，可以避障，但时不长的还是会炸机的。就是你可能飞着飞着，这边没看见，那边没看见。因为你每多做一个避让，你就需要增加摄像头，增加算力。你要想所有的方面都要把避让都做上，那你就需要增加非常多的摄像头，非常多的这种算力进去，你才有可能实现。

都是要成本的，不是说你靠这个499美金就可以做到的。所以呢，当时的技术可能能够部分实现功能，但一定不会像他演示那么好。最近，我去龙泉参加班夫户外越野跑的一个跨界活动时，见到了一位开源界的老前辈，给我讲了一个背后大家不知道的故事。

当时，欧美有很多公司去参加众筹，就是我们先把产品设计出来，然后再去到众筹网站，最大的叫Kickstarter，把项目发布到Kickstarter这样的众筹网站上去，等着其他人去买你的产品。参加众筹就是买你产品，收到足够多的钱以后就去做产品，再给大家发货，就是这样的一个过程。如果筹不到足够多的钱，就没法去启动这个产品制作，会把这个钱退回来。

现在，众筹其实依然在进行，Kickstarter还有很多其他的网站都在做。在国内，小米网站上有很多东西在众筹，就是说我们准备做一什么东西了，你们来买，买够数了以后我就真做，买不够数的话，我把钱退回去，这产品我就不要了。他们有时候也会干这种事情。

当时的欧美这些众筹英雄在Kickstarter上众筹完产品以后，会干嘛呢？他们都会跑去华强北去做这个产品。你真的以为这种东西能够在美国做出来吗？或者在欧洲做出来，包括日本，这都是不可能的。要想把这种产品做出来，一定要去华强北。

我记得2016年、2017年的时候，我每年会跑去深圳参加制慧节，制造的智，智慧的慧，叫Maker Fair这样的一个名字。就是一帮工厂、一帮小的手艺人，还有很多创业者在那里去摆摊，告诉大家我们能做什么，我们想做什么，我们做出什么来了。Maker Fair也是从国外传进来的，最早应该是在美国那边传起来的。到中国的Maker Fair就完全变味了，变成了一种创投的活动，大家都是惦记来创业的。很多老外就在深圳，好像基本上是在蛇口那附近居住，做各种创意相关的设计。

就近就可以找工厂帮他们去加工，可以把他们的东西做出来。那你说，中国的像华强北这边的施工厂，把这种东西做出来以后，难道就真的比欧美做的好吗？这个肯定没有，或者说大部分情况，质量其实并没有那么好。但是呢，也依然可以实现他们的要求。还有一个是什么呢？就是很快我就可以把东西做出来，而且呢，可以在很小批量的情况下给你做。你要到欧美去做的话，第一个就是很慢很贵，然后呢，你必须要给我起一个比较大的批量，否则我不给你做，会有这样的事情。

所以很多的做硬件创业的人，当时都是集中在深圳的。Lily无人机的这两个创始人吧，就刚才咱们讲的这个安托万算其中的一个，还有一个创始人，这两个创始人当时拿到300万美金以后，就去深圳了。所有人都是这么干的。

那么华强北的这帮工厂是怎么看Kickstarter上的这些英雄们呢？他们也很有意思。就是这些工厂，或者叫电子厂吧，我们说他们是跟计算机、跟什么相关，都属于抬举他们了。这帮电子厂的老板呢，他们有一个总工俱乐部。很多的这种电子厂里的工人、老板什么的，其实学历也不是很高，他们有制作能力，但是你让他设计或者原创很多东西，这个事其实有难度。但是他们还是有一些懂技术的人，或者有一些高学历的人，这就是这些电子厂的总工，总工程师。

这些人呢，有一个小的联盟聚会，他们会经常进行线下挑战。挑战什么呢？他们每天去看Kickstarter上到底在卖什么，到底有什么新的创意出来。一旦有创意出来以后呢，他们就会去比赛，谁先把这东西做出来。到下一次说，你看上面Kickstarter上这个东西出来了，我们第一个做出来的，做的功能跟他们还差不太多。这个总工吧，在下一次总工聚会的时候，他请客吃饭，这是一个很大的荣誉。就是谁能够去结这个账，说明你的能力很强，或者你整头背后工厂的能力很强。

2016年6月，这个视频放出来以后，深圳的华强北总工程师协会就看到这个东西了，说这个玩意很漂亮，很帅。

这种出圈的视频，一定会带来这种总工程师协会的关注的。没什么好说的，他们就开始做了。就有一家公司把这东西做出来了。下一次呢，非常荣幸的，可以去给总工程师协会聚餐去结账。这故事讲到这里了，你说这不是挺好的吗？这个事情不是大家一拍即合，这东西就做出来，就可以实现一个很完美的交付，没准就有二代、三代，这个产品就可以做下去了。

那怎么到2017年1月份，这个Lily机器人公司就破产了呢？继续往下讲。Lily机器人公司的两个创始人，也是像其他的他们的同行同事们一样，在众筹了300万美金以后，开开心心揣着钱就去深圳了。到了那以后呢，就找到了刚才我们遇到的这位前辈，就是在班夫活动上给我讲故事这位前辈。说您在这个圈子里头很有名，我们原来都是做开源软件，他做开源硬件，在这个圈子里头名声很响亮。说您能不能帮我们去介绍一下，应该谁能够把这个产品给我做出来。

因为深圳是一个特别长条的城市，所有这些小厂都在这两头上，厂跟厂之间的距离也都很远。你要挨个去都走访一遍，这个事你是受不了的。所以他要找到领路人，找到我们这位算是老哥吧，岁数应该比我大一些。这个老哥还挺开心的，说：“哎呀，你们真来了哈！我给你看一下视频。”就拿出了某一次深圳华强北，总工吃饭的这个饭局上，别人演示的这个Lily无人机仿品的这个视频，说：“你看，他们已经做出来了。而且他们这个BOM成本，就是把所有的硬件加一块的成本，搁一块多少钱呢？100多美金。你可以按这个100多美金的价格，就拿到这个无人机了。你拿回去以后，自己再去做一些软件调教，做一些其他东西，你就可以拿去交付了。”

这个事就一拍两合，这不挺好的吗？人家所有都给你做完了，模具什么的可能都有现成的，你就只管上去做就完了。这个本来是一个皆大欢喜的事嘛。但是到这就出事了。到这出什么事了呢？这两个创始人一看，说：“哎，你居然敢抄袭我的创意，我要起诉你，我要去找律师。”这玩意就不欢而散了嘛。

这两个小伙子怎么办呢？说你也搞不清到底是谁抄了你的东西。因为这帮工厂的人把东西做出来，他不会去卖的。深圳这帮人，他们的分工很明确，工厂就只管做。谁做出东西来，我有这个能力，我会把它摆在我的展室里面。你下次如果想要这样的东西，就上来展示里去挑一个，说：“哎，我要这样的，我要那样的，你照这样给我做。”或者说：“在哪个地方给我改。”他是这样来工作的一个方式，他不会自己去卖这个产品。

所以你告，你也告不着你，你都找不着到底是谁抄了这个产品，人家也没卖过。所以现在我们也没在市面上见过长得像伶俐无人机的东西。但是我们这位开源圈的前辈呢，一看说：“你们怎么上来就是IP，就是起诉，就是律师？这个事咱就甭谈了，你自己爱找谁找谁去，咱们这事到此为止了。”

这两个小伙子呢，出去转了一圈，找了一些ABC，就是在美国出生，讲英文的这种华人，找了这么几个人，说：“来，你们带我去找这个工厂吧。”然后，他们就开始在一些ABC的陪同下，在深圳这样的一个巨大的消青窟里头，开始去花他这个300万美金了。

那么，看工厂打样本身你是要有成本的，比如看着一工厂：“哎，这工厂还行，那咱们是不是打个样，先做一两个试试？”那这个你是要花钱的嘛。这些工厂呢，其实也是先看看你是不是外行。如果你是内行呢，大家就会上来说：“我们去给你做一些，价格比较实在。”如果你是外行的话，那我就按规矩给你来呗：“你要先起量，给我押金，然后我才能给你去做出一个样品出来。”他就会变成这样。

所以这两个哥们跑到深圳去，第一个先给这ABC，就是他们叫顾问费，给了10万美金。然后呢，就带着他们在全深圳就开始找工厂了。他们这些顾问本身也不懂工厂，也不懂生产，压根就不是圈子里的人，走到哪被人骗到哪。在这个过程中呢，就七差八叉，可能把这个接近一半多的钱吧，可能接近2/3的钱就这么消耗掉了。东西也没做出来，或者也没有拿到真正能玩的稳定的这种Lily无人机的样品，也没法去真正的起量生产。

但你说剩下的钱哪去了呢？深圳是一个大的萧金窟，除了工厂之外，还有KTV呢。两个年轻气盛的小伙子跑到深圳这样的一个布满了KTV、灯红酒绿的地方。别看他们从美国来的，这个东方温柔乡，他们也是没见识过的，所以他们还把大量的钱消耗在这上面。

但是你说，他们比如说跟这些他的ABC的顾问们去沟通的时候，可能也就在KTV里边了。请这个工厂的厂长们去沟通、聊天的时候，可能也在KTV里面了。所以他们在这边混了半年的时间，基本上把手里边的300万美金就消耗一空了。因此，他们只能宣告破产。宣告破产了以后，手里应该还剩一点钱，但具体剩多少不太确定，因为这个故事到这还没结束，还有一个小后续。

因为我们当时在一圈人沟通的时候，叫龙泉开源不眠夜。这位开源界前辈在讲这个故事的时候，就讲说什么傻人去买这种东西。然后马上有一个人举手说：“我，我买了，你不要骂人。”后来他就给我补充了一个故事的最终结尾。说呢，Lily机器人公司宣布破产之后，有一个律师给他写邮件说：“你好，我们现在准备起诉他，然后你要来签名。”实际上就是，美国有很多这种集体诉讼的案子，你只要签完名以后，最后赔到了钱，你还是可以拿到一部分的。他就去跑去签名去了，最终可能还给他退了100美金左右。

当然我们并不是说500美金花了其中五分之四，剩下的退回来，不是。能够联络到最后去参与这个官司的人，应该也没有那么多。最后还是到此，这个故事就算有一个结尾了。Lily无人机，绝对是划时代的，让人眼前一亮的这样的一个产品。那你说这个产品，它在技术上会有很多的难关需要去克服，需要去创新。但是这个产品真正的创新和意义在什么地方？是在于这样的一个交互方式。我在手里可以起飞，可以把它扔起来起飞，起飞了以后不需要遥控器，它可以直接跟着我走。我就可以一个人出去，骑车去做各种的极限运动的时候，它就可以跟着我。

我的一些影片给我拍下来。他可以做这样的事情，这其实是一个非常好的交互设计。这个交互设计到现在2024年，也就是八年之后，大疆终于把它做出来了。也就是现在大疆的这个产品，还没有把它完全做出来，搁在水里会沉底。这个产品当时就如此夭折了，是非常非常可惜的。

那么，咱们讲到这位开源界的前辈，他叫李大为，这个台湾人，台湾高雄人，一直致力于开源事业，从1990年就开始在国内的一些开源基金会里边去运作，非常非常早。他主要后来在做创客空间，创客空间主要是做硬件开源的，不是做软件的。因此，他跟深圳这些工厂的总工们都比较熟。总工们吃饭的时候，他经常可以去蹭饭，这就是这样的一个原因。

他机缘巧合地参与到这个故事里面来。为什么会讲起这个故事呢？因为他正好现在在美国的一所大学里头，跟一些美国的教授在研究一个事情，就是山寨与创新之间的关系。当时他讲了这样的一个开头以后，我们就去问他说：“你来给我们讲一讲，到底怎么个山寨法，怎么个创新法？”因为我们一旦讲到创新的时候，都很鄙视山寨。因为一旦山寨了以后，创新的人就没有得到收益，而山寨的人，你总觉得他好像是偷盗了别人的东西，应该被唾弃的一种行为。

但是他讲，实际上不是这样的。到现在这个时代，其实IP的整个管理制度就已经落后了。甭管这东西是谁的，我先把它做出来，然后快速地往前做，才可以最快速地创新。如果上来每一件事情都找律师，都去谈，你就做不了创新，你就没法往前走了。

在这个基础上，他就给我们讲讲Lily无人机的事情。这Lily无人机，其实是我们在那一代就经历过的，那个时间段的人都是心中的痛。这么伟大的产品，居然就如此销声匿迹了。当时到底是怎么翻的车？它到底是PPT的，就是完全没有任何能力制作呢，还是说遇到什么样的问题？当时大家都不知道，直到这么多年以后，七八年之后，才终于解惑，原来背后还有这样的故事。他以华强北的电子产业为例。

阐述了草根创新和底层创业的价值，认为这种开放合作竞争性生态环境能够促进真正的创新和产业发展。他的意思是什么呢？你比如说，这些华强北的总工们，到底是不是抄袭，是不是山寨，肯定是，这个事一定不能否认。人家Lily把这个视频放出来了，把所有的交互过程、交互方式都想清楚了，把产品形态也想清楚了。虽然没有实现，但是呢，人家把前期定义做好。

但是你说，从讲清楚这件事情，到最后把东西做出来，依然需要克服很多工程上的问题，这一定是如此的。那为什么Lily最后，那两个创始人拿着所有原创的图纸、原创的这些设计，找到各种的工厂以后，他自己做不出来呢？一方面因为他们的情商很低，被人坑了；另外一方面是什么呢？就是他们自己其实也没有这种工程能力。

在这个过程中，双方的创新都非常可贵。我给大家举另外一个例子，像我们以前写很多的基础算法代码的时候，会去请科学家来写，真的是科学家。科学家跟工程师是有区别的，科学家只管算算法，就是一些很复杂的这些算法，他们能搞定工程师搞不定的。但是呢，他们写完的程序我们是不能用的，我们需要找工程师把他们的程序整个重新写一遍，要继续使用他们的算法，但要符合工程要求。

在这个过程中，双方离开谁都搞不定这个事。但是呢，这里头有一个是什么呢？就是科学家是不可替代的。如果没有这个科学家把一开始那个算法想出来，那后边多少工程师都搞不定这事。工程师是可以替代的，你说这个工程师不行，我换一个工程师也可以。但是呢，该有沟通协调的一个过程，你不是说随便摸脑袋找一个工程师，随便转码来一个人就可以把这事搞定，这事也不行。

所以还是需要顶尖的工程师，而且需要有很好的沟通协作、相互尊重，才有可能把这个产品做出来。所以我觉得，前面Lily这帮人很伟大，他把产品定义了。但是后面做出这个产品的这个人，或者第一个能够把他的产品做出来、能够抢到结账权的这个总工也很厉害。

他其实已经把Lily整个团队可能都没有想明白的各种各样的工程难点都给克服掉了。他把东西做出来了，而且这个东西呢，可能在软件上并没有那么聪明，没有那么智能，但是呢，各种的物理指标和硬件指标都是可以实现的。而且还把BOM的成本压得很低，它的BOM成本是100美金。那你拿出来以后，按照这个499美金去把它卖掉的话，那你在深圳再多花天酒地一段时间，也不是不可以。但是如果你在深圳花天酒地了半天，东西没做出来的话，那你被人起诉去退钱，这个也没什么可说的。

咱们总结一下吧，现在的IP管理制度呢，对于快速创新以及制造其实是有一定的阻碍的。它可能适用于某些特定的领域，但是现在新的，无论是软件还是硬件领域，其实都不适合原来那套IP体系了。如果不愿意脱下长衫走出象牙塔，这些天真的孩子呢，走进后厨就会出现Lily当时的故事。

什么意思呢？咱们现在比如说到饭馆吃饭，吃得很香，当然让你到后厨看看，你会觉得“哎，我要告他，这个东西不够安全、不够卫生，那些东西看着好像不够新鲜。”所以这个过程，就像是从来没下过厨房的人，你到了这个饭馆后厨的感觉是一样的。

抄袭这件事情呢，本身其实并没有那么容易。虽然我觉得直接抄袭这个事情，你肯定是需要有一些新的规范。我们并不是说抄袭就一定是罪大恶极，它肯定是一个负面的事情。但是呢，还是应该在相应的一个规范，一个更适合创新、更适合产品快速迭代的社会协作与分工的范畴内，要一些新的规范，来规范到底怎么去使用这些信息，怎么去使用这些创新的内容，这个是需要的。

但是呢，抄这事并不容易。像我们以前做软件也是这样的，很多能够自己做出软件的人，你让他去抄别人的软件，他抄不出来的。抄的话，你需要有很好的观察能力，还要思考人家到底是怎么做的。我记得原来咱们最早的时候讲抄袭，讲的是温州鞋。正好我这次去龙泉山，也是来回分飞温州。当时呢，大家有一个这样的传说。

就说这个温州的老板，跑到意大利米兰去参加人家国际时装周。参加完了以后呢，打电话，真的是电话语音的，电话打回来国际长途，通过电话里边进行描述，说这个鞋长什么样。然后呢，在国内在做出来这个鞋，就跟米兰时装周上展的那个鞋一模一样。

但是这个对于我们来说，算都市传说了，我并没有验证过这个事情，但是非常恐怖。跑到现场看，看完了以后就往回打电话，说：“我告诉你，这个鞋有一个扣，那有一个眼，后边是怎么弄的。”他可能连这个鞋的样品都没有，量都没有量，他可以通过完完全全电话口述的方式，让国内的人把鞋做出来。

这件事情，咱们在批判他可耻之前，请每一位想去骂我的人，自己想一想，你们有这能力没有？你能够说拿着一个电话，在有限的时间内，把一双鞋描述清楚，让对面老家的亲戚，中国的工厂都是这样的，都是亲戚把这双鞋一模一样造出来。有这能力没有？

所以抄袭这件事情本身并没有那么容易。在抄袭的基础上，如果再进行改进，并且能够做出被市场所接受的产品，在这个过程中呢，其实也是需要创新，或者我们叫微创新、小创新，甭管你怎么叫他，但是他依然是一种创新。而这些创新呢，本身其实也是值得尊重的。

就像刚才我们讲Lily的故事一样，前面设计出Lily无人机的这种交互方式的人，他们值得尊重，这个是要去肯定的。但是第一个能够把Lily纸无人机只通过一个视频就把它做出来，因为你像我没有图纸，没有任何的结构图，也没有内部的，我到底用什么电机、什么元器件、什么都没有。他只是看了个视频，就能把东西做出来。而且做完了以后的各种的物理性能和指标，基本上可以达到视频的这个状态。

至于最后你说我怎么去遥控、怎么去避障、怎么去跟随，那是软件的问题。我们只需要给你留出来足够的耗电，给你留出一个芯片的接口，剩下的事情我们就不管了，你自己搞定就好了。我们可以放好摄像头，你只管在后面把飞控系统加进去就完了。两边都是有创新的，我觉得这件事情还是要承认的。

你不能说：“哎，前面那个是创新，后边这个就是可耻的山寨。”如果你不要他，你就永远不要想着说：“我能把产品做出来。”就像咱们去登山，登喜马拉雅峰，他有向导。这些人从来都不记忆，谁是冠军，谁是亚军，都是说一个向导背着东西带着人上去。最后这个登顶的，甭管是中国人还是美国人，还是任何一个探险家，他们是登顶的英雄。这个向导是不算的。但是如果没有这些向导，这些人自己也上不去。

IP管理和知识产权保护这件事呢，肯定是越来越不适合现在快速创新的市场环境。上得了厅堂的东西，未必就能够下得了厨房。有些东西在厅堂上就可以了，特别是现在很多的IP管理制度，你在厅堂上就行了，没必要到厨房里再去搅和一下。

就像刚才咱们讲这个Lily的故事，当他发现这些工厂已经把东西做出来的时候，他完完全全可以坐下来跟人谈。如果这个工厂自己不惦记卖这个东西，其实也没有伤害到他什么。你只需要在人家已经做出的这个结果上，再进行一定的调整和相互的妥协，一定是相互妥协。因为这些人在做的时候，一定有很多工程上的事情是没想明白的。在这个时候，他需要跟这些工厂的师傅们一起去谈，问：“这个东西有没有更轻的材料？或者是不是应该把它做得再结实一点？”他是要去谈这个事情的，要去碰撞的。

他们没有工程经验，也没有工程能力。在这样的过程中，才有可能快速地把东西做出来。哪怕说最后不是100美金的BOM，而是150美金或者200美金的BOM，因为他毕竟收了499美金嘛，还是有很高的利润，还是可以把东西做出来的。

但是如果你上来就要求这个厨房长得像厅堂里边一样干净的话，那么可能你就快要饿肚子，吃不上饭了。你说也有一些饭馆是名厨名档，这不是也很漂亮吗？但是大家要想清楚一点，明厨明档它有两个作用。第一个作用是什么？就是增加成本，你一定是成本上升很高的。你想，他这衣服得穿得干干净净的吧，得戴个大白帽子吧。

你要想去快速地把菜做出来，那肯定是浑身上下没有特别干净的地方。就算是衣服洗好了，你这个上头还是会有印的。所以，这个明厨明档的成本一定是很高的。而且呢，效率一定会下降，因为“萝卜急了还不洗泥了”。如果每次做完菜都要把这个都打扫干净的话，这个效率一定不高。

但是呢，明厨明档的好处是什么呢？就是可以带来流量。你可以看到后边在干什么，心里有个底。而且呢，跟这个厨师之间有一些参与感，这盘菜是我的，那个切的鸭子是他的。你在这个过程中是更愿意去买单的，这是有好处的。

所以，明厨明档这件事呢，还是要衡量投入产出比。我增加的成本、降低的效率，跟我带来的流量和转化率之间，到底划不划算？当然，现在技术发展呢，会让明厨明档这个事成本下降，传递的效果也会上升一些。比如说，我在后边做着菜的时候，我拍着抖音直播着，没准就有好多人上我这来订外卖来了。

但是呢，这依然是一个工程成本问题。咱们最终讲的是什么？就是山寨与创新。它本身并不是0跟1之间的关系，而是一个过渡的过程。而且，他们可能对于很多人来说，是一个完整产品的不同部分，离开谁都不行。但是这个过程呢，可能最一开始能够想出Lily无人机的人是不可替代的。2016年失败的，到现在2024年过了8年了，大疆最新推出的产品只完成了当时一部分的功能，还有一部分的功能没有实现。后边工厂的那部分贡献虽然可替代，但也很重要。

在这两边进行合作的过程中，需要更多的沟通、更多的尊重、更多的协作，才有可能真正做出好的产品来。这就是咱们今天要讲的故事。咱们讲到最后呢，再跟大家说一本书，也就是前面这个李大为他们去一起协作的一本书。这本书呢，叫《创新民主化》，也是在讲如何去IP，如何快速创新。

现在咱们在国内，或者很多中国人，都觉得山寨是一个纯贬义词。但是现在甭管是剑桥、MIT，很多的大学里面呢，都在去开设课程，或者有教授设立课题，再去研究山寨到底是怎么把中国的制造业推起来的。

就是我们做的很多东西，确实是震惊到他们了。他们也需要去研究，这背后到底是怎么回事。研究之后，他们有了这样的一本书，这本书也是开源的，大家是可以去下载的。我会把这本书的下载地址放在我的文字版链接里边。我应该会在视频更新以后，在这个视频简介里头贴这个文字版链接。大家点进去以后，能够找到这本书的下载地址，是个PDF文件，大家可以去看一下，看看他们说的对不对。

好，这个故事跟大家讲到这里，感谢大家收听。请帮忙点赞，点小铃铛，参加Discord的讨论群。也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

OpenAI推出GPT 4o mini，这是要卷死谁？Sam Altman封禁中国 API IP后放大招，你就给我看这个？中国大模型是不是有机会弯道超车？

老范讲故事 — Tue, 23 Jul 2024 00:48:07 +0000

OpenAI在封禁中国IP访问其API之后，第一个大动作居然是发布了一个GPT4o mini。你发布了个小模型，这究竟是要卷死谁啊？中国团队是不是有机会弯道超车呢？大家好，这里是老范讲故事YouTube频道。Open AI第一次发布微型模型，以前的Open AI都是一个比一个大，因为原来人家讲的叫Scaring Law，就是这种伸缩法则，只要是变大，我一定会变强。而且，也嘲笑那些小模型说你们肯定不行啊，一定是大的好使。我自己原来也是很喜欢使用大模型，有大的不识小的，这是我原来挑选模型时候的基本原则。但是现在，Open AI开始卷小模型了。

Open AI的这个GPT4O mini有什么特点呢？第一个，快啊，小模型一定是比大模型跑得快的。另外，就是极其便宜，它这个里面输入的信息，100万TOKEN，15美分啊，非常非常便宜了。输出的信息呢，是100万TOKEN，60美分，也就相当于是100万4块多人民币啊，已经快要接近国内的这些模型的价格了。效能呢，也应该是比GPT3.5要强一些啊，这是GPT4O MINI的一个基本情况。

那么，这样的一个鼓励越大越好的公司，原来更多的人力肯定是去研究更大的模型去了。现在说不，我要上一个小的，而且这种小模型呢，跟一般的小模型还有区别。区别在于它可以支持Function Call，可以支持视觉多模态的识别。那么，这是GPT4O MINI比其他的普通小模型所独有的特点。

以上就是关于Open AI发布GPT4O mini的全部内容，如果你对这个话题感兴趣，欢迎在评论区留言。我们下期节目再见！

型U的地方，那么MINI到底有多大呢？并没有说。其实啊，大家出的这种小模型，这种必原厂商出的小模型，都是不会对外讲说“我到底有多大”。包括一些开源厂商自己去出的一些啊，闭园小模型，也不会告诉外边到底有多大。比如说吧，灵异万物对吧，他的对外模型是开源的，告诉你这个是6B的，9B的，34B的。但是呢，它自己内部壁源的这些模型，就是你直接通过商业方式去买的啊，它就分什么medium，large，是这样分的啊，你不知道它到底有多大。包括像谷歌啊，Gemini Flash到底有多少个参数，你也不知道。Gemini Pro你也不知道有多少参数啊，cloud三个版本，其实各个参版本有多少参数，都是不说的啊。所以啊，Open AI的GPT4O mini到底有多少个参数，也不知道。现在呢，大家普遍猜测应该是在10币以内，大概也就是7币，也就70亿到100亿之间的参数，应该算是最小一个档次的。

怎么用这个模型呢？免费用户跟plus用户，已经可以跟GPT3.5说再见了。那就是我们现在打开了啊，Open AI的聊天网站之后，能够看到的三个模型：一个叫做GPT4O，一个叫GPT4，一个叫GPT4欧mini。三点五已经彻底成为过去式了。API的用户，你现在依然可以使用3.5，因为这个是不可能马上取消的啊，大家都写在程序里头了啊。模型的名字叫GPT3.5，特本什么什么的叫这样名字，你要说我直接把这个模型关闭了。不过，这通常不会发生，因为很多用户和开发者都依赖于它。

然后，上1GPT 4O mini一下替代掉的话，这事肯定不行对吧？那个程序会报错的。所以啊，GPT4O mini啊，现在已经可以为啊，直接使用Open AI API的这些用户开放了。啊，但是呢，3.5还是可以用的，现在我还没法使啊。为什么呢？因为我没有办法，直接从Open AI去买它的API服务的啊。它会识别出来，我在中国大陆不会为我服务的。所以，我现在的CPT相关的API，是通过扣子或者是一些Open AI代理服务去购买的。但现在，这个上面都没有GPT4O MINI的这个模型。为什么在这样的一个时间点，出了这么一个产品呢？他把中国大陆的API的IP封掉了以后，本来想着，他是不是专心的做个GPT5出来，或者做一点啊，把这个前面吹过的牛稍微能还上一点啊。怎么现在整了那么个小东西出来？

首先，大家要想清楚一个问题啊，Open AI就是行业里边的老大。老大最怕什么啊？老大怕竞争吗？啊，现在没有人跟他竞争啊，谁也竞争不过他。虽然现在号称御三家，就是谷歌、Siropic和Open AI里头，已经可以打个有来有回了。但是，从市场占有啊，从整个技术的程度上来说，Open AI还是绝对领先的。那么，他到底怕什么呢？他害怕的东西叫分叉啊。什么叫分叉呢？就是有很多的人是不会去看别的服务的，也不会去用任何其他的大模型，上来就用Open AI家的啊，其他所有我都不用。那么，这个呢，就属于忠实铁粉。但是一旦分岔了以后，可能会出现一些小的分支，这些分支会逐渐壮大，最终可能会影响到Open AI的市场地位和影响力。为了避免这种情况的发生，Open AI可能会采取一些策略，比如推出GPT4O MINI这样的产品，来吸引更多的用户，保持其在市场上的主导地位。同时，通过限制某些地区的直接访问，Open AI可能也在试图保护其技术和市场，防止技术的过度扩散和滥用。

大家说：“哦，不，我不能只用Open AI的，我所有的都要用一下。我要在不同的场景里头，找到不同合适的模型来使用。这个过程要分叉了，老大最怕的就这件事情。他现在已经看到了有分叉的这种方向了啊，或者说，他现在已经看到了有分叉的趋势了。所以，必须要冲出来说，我要把所有分叉的趋势，掐死在萌芽状态啊。这就是GPT4O MINI发布的一个大的前提。因为GPT4和GPT4欧，包括GPT4 Turbo所有的这些模型呢，它比较贵。越来越多的人呢，就希望转型。像我现在做很多这种AI agent，这种工作流，我会把最费劲的一个点交给GPT去做。对于理解能力，对于推理能力没有那么强的节点，我都尽可能去选择更便宜的，这种大模型来工作，或者更小一点的大模型来工作。这个是经济的考量啊，而且我们发现，在这种稍微小一点的大模型，你让他做简单的工作，效果其实是很好的，并不比GPT4差啊。这个是现在Open AI不能允许的啊，你们就老老实实的，你要想去用这个小模型，我也给你提供上啊。这个是要注意。

而且呢，现在所有在跟Open AI竞争，或者说在Open AI这条道路上，追赶他的这些人呢，目标都很明确。怎么叫目标明确呢？每一个人上来说，我现在都是接近GPT4对吧，没有人超过啊，就很少有人超过，或者可能只是在个别指标上超过。整体超过的，现在还没有，或者说不多吧。但是呢，我们现在甭管国内的大模型，国外的大模型，都在努力地追赶，试图在某些方面超越Open AI，这是一个非常明显的趋势。

都说我现在已经接近GPT4了，然后呢，遥遥领先于GPT3.5。对吧，这也是现在的一个时间点。而且，很多的小模型，甚至是这种70亿、100亿、300亿、几百亿这种模型，都已经超过GPT3.5了。GPT3.5有多少个参数呢？当时是1750亿个参数，这么多的参数，怎么还这么差呢？这么多年了，时代在进步，而且AIGC大模型的发展，真的叫日新月异，每一天每一个小时都在发生变化。

这么长时间过来以后，你用原来这种架构，GPT3.5的这种架构，它确实是效能比较低了。所以现在很多的这种1000亿以内的，700亿的，或者是更小一点的，几百亿的，都可以超过GPT3.5。那么GPT3.5就已经必须退役了。

退役的原因也很简单：第一个，原来GPT3.5一直挂在那，不是说Open AI没有更好的模型给大家用，而是什么呢？他希望让你去买它的Plus，让你说，哎，你看这个实在是难使吧，你直接升级，一个月20美金就可以有GPT4用了。GPT3.5跟GPT4之间，一定要有一个很明显的，个人可以直接感知到的差异，你才会觉得我这20美金一个月花的值，否则的话，你会觉得花的不值了。

但是现在其他的模型都赶上来了，你再继续摆这么一个3.5在这恶心人，就已经不太合适了。另外一个是对于免费用户来说，GPT3.5实在是缺乏吸引力，我不愿意付钱，我可以使用Gemini呀，我可以使用很多的其他免费的这种模型。

这些模型，现在已经完完全全超越三点儿五了。所以，这个也是到了该抛弃三点儿五的时候了。另外呢，很多的API代理也让Open AI非常不爽。像我就是用的API代理啊，API代理呢，像跑冒滴漏。像我现在用Open AI的所有API，价格应该是至少打到4折，或者是还要更低一些的折扣啊。我就可以去使用。

到了那么这些的话，Open AI觉得就算是打折，也应该从我这打啊。凭什么你就去打折了啊？这个他是不开心的。而且他现在降到这样的一个程度，为什么这些API代理没有跟进呢？他没利润啊，这些啊，也是会对他们造成一定的影响和损失。

另外，也要开始应对中国了。Open AI肯定发现，封堵了中国IP的API调用之后，Open AI调用数据一定是在暴跌的啊。这个肯定也不是他们希望看到的。

现在我们要讲一下田忌赛马的故事。田忌赛马是什么？就是用我最好的马，对应你这个中间的马啊，用我中马对应你的下马啊。你最上面那个你赢一场算了，剩下的我赢两场。在大模型这个行业里头，其实也是如此的。大家呢会分成不同的层次去竞争，端侧的竞争，就是说我们甭管在手机端、PC端还是各种的啊，设备端吧。那么现在大家在争的是什么？Open AI基本上是不参加端侧竞争的啊。哪怕它是GPT4OMINI，到目前为止，也没有说，这个产品可以给大家在端上使用啊。当然你说，未来会不会把这东西拿到端上来使用？不确定啊。但是至少现在没有说这个事儿。

呃，它这个大家猜测在10B以内，可能7B到8B这样的一个水平上。按道理说，是在手机上可以运行的。对吧，可以在iPhone里头跑。那么是不是说，呃，跟苹果合作了，我干脆就把这东西呃，拿出来就给大家用了。是不是他给了苹果一个类似于一个GPT4OMINI的版本，但是苹果你不允许拿出去再扩散了啊。但是在iOS 18里边，应该会带这样的一个东西，可能性是存在的啊。啊，但是这个事谁都没说。

在端侧竞争上，一般移动端呢，5B以内的跑的是比较好的啊。你如果手机的配置高一些，跑到7B到9B应该也还是能跑的。台式机呢，你到10B左右啊，都是没有什么问题的。包括我们后边讲的这些AIPC，其实AIPC是所有能够跑大模型的台式机里头，水平比较烂的啊。那么工作站呢，就是我们比较高端的台式机，比如说你这里头有独立显卡啊，4090，然后不是4090，你有个四零六零，四零七零那样的独立显卡，或者比如说像我们使用麦克这种呃，M1，M2 Max，或者M3 Max这样的这种机器的啊，那么它就基本上属于工作站级别了。这种机器里头呢，大概跑到三十几B都是可以跑通的啊。再大了跑不动了。

然后像这种个人服务器上，是可以跑到70B的。咱们现在能够接触到的开源大模型，可以到本地跑的，基本上也就是70B，72B到头了。再大一点呢，啊，通1,000问1.5的时候出过一个110B啊，但是那个模型流行的并不是很广泛。

绝大部分都是在七十几币就到头了。这个呢，就是在思域服务器上用的。而且，在70B这个档次上，现在Open AI肯定是感受到压力了。中国团队基本上在70B这个档次上，站稳脚跟了。咱们国内推的各种各样的大模型，基本上都是70B上下的。为什么？因为懒。Meta的LaMa3就是70B的。我们在这个基础上再去进行调整，或者再去进行一些相应的训练吧。我们出到72B，或者七十几B这样的一个模型，效果其实已经很好了。加上RAG，就是本地知识库的这种辅助，加上长上下文，再加上多模态搜索的辅助，效果其实跟GPT-4之间，已经没有那么差了。对吧，GPT-4就是说你不加上这些东西，它也可以回答的很好啊。你如果是加上这些，搜索辅助啊什么的，70B基本上够使。

对于快速反应的这种低价模型来说，大家竞争的是什么？刚才咱们讲的是端侧模型啊。在云端模型其实也是分两拨的。一拨呢，就是大模型啊。大模型是，GPT啊，Gemini Pro这个，呃，Cloud Opus啊，这些就属于大模型啊，比较贵，性能比较高。那么大家都去推这种小模型，特别是另外两家。刚才预三家我们讲了啊，Open AI，谷歌和Anthropic。谷歌跟Anthropic都推了一种小模型，一个叫Gemini Flash，另外一个呢，叫做Cloud Haiku，叫这样的一个名字，都是相对比较小的，很便宜，反应速度很快。原来啊，GPT3，GPT是没有的，现在出来就是要去卷它们。大模型竞争。

咱们自己去比一比啊。这个小模型，你们出了，我也得出一个。所以，咱们回答开题的那个问题：“Open AI到底想卷死谁啊？”他想卷死的是Gemini 1.5、Flash和Cloud 3，嗨酷啊。是选这两个产品，但是要注意啊，Cloud 3.5现在已经出来了。但是3.5呢，只出了Sonit一个产品啊。它是分三个档次的，这种大模型啊。一个叫做High酷，是最小的，估计应该是10亿币以内，也就是7亿左右的一个模型。然后是Sonit啊，3.5已经到Sonit，它呢应该是在二三十亿币。但是都不是对外公开的啊。还有一个叫Opus啊，Opus是最大的，但是Opus到底有多大，可能是上百亿币的一个模型对吧。现在呢，3.5已经把中间这个模型出来了，上下两个还没出，估计呢应该本月会出。

所以在这个时候啊，Open AI说不行，我要把你这个底层的，这个给你封掉啊，让大家觉得啊，就算是用这种底层的小模型啊，这个也有一个更便宜的Open AI来用啊。这是他真正要去干的事情。那么对于开源模型来说的话啊，就是本地部署这个呢，Open AI应该不在这个赛道上啊。它有可能说，我用一些必源的模型，直接跟苹果，跟谁去合作，这个事可能是存在的。但是呢，他不会说我到GitHub上，到HuggingFace上，直接把这个GPT40 mini扔出来啊。应该不会干这个事情。

那么对于中国团队来说，到底有没有弯道超车的机会？这是一个值得探讨的问题。

这也是我们开题上的一个问题，对吧？“卷”就一个字，在这个字上呢，中国团队绝对是遥遥领先的。中国现在已经开始卷下一个层次了啊，在上一个层次里头，中国团队发现：哎，我只要把模型推到七十几，对吧，加上搜索辅助，加上reg，加上这个啊，长上下文，效果已经非常好了，对吧，不需要再往前推进了啊。真的效果非常好了吗？很多人说你是不是吹牛啊。他这个事是这么算，就是再有相差的这部分，个人感觉不出来，因为人的感受有时候很主观的啊。你不可能说：哎，我去招聘了，对吧，我一定要挑出最好的那一个来，不可能的。你一定是找了一个相对顺眼的，然后磨合了一段时间，发现：哎，这个工作还能干得下去，日子也能过得下去啊，也不讨厌，你就可能一直用这个人用下去。你不可能说：哎，旁边这个人，好像比我招的这小伙子，还要更厉害一点，对吧，我就马上把我这开了，把那个人招回来，不会干这个事了。在这样的一个情况下啊，我们只要用习惯了，慢慢的对于我们已经招聘进来的人，就会有更高的容忍度。为什么要讲招聘的故事呢？其实我们使用大模型的过程，跟招聘的过程差不多。在挑选的时候，我们一定是非常小心的，来去确定到底哪一个适合我们，我们的这个任务，它是不是可以很好的完成。一旦你把它挑进来了，下一件事是什么？就是我们要去跟他磨合，怎么能够跟这个大模型一起，把我们要做的事情做完。当大家互相习惯了以后的话，你不会说：哎，那个更好，我马上换人的。一个大模型，它是有很高的粘度的。

所以，中国团队在70亿参数这一块，基本上已经达到了一个阶段，我们可以说，我们已经能够吸引一部分用户，而且这部分用户愿意留下来，持续使用我们的产品。再往前推进，当你提到我现在发布的几千亿参数的模型，也就是几百亿参数的这类模型时，第一个问题在于训练上，我们可能还没有完全搞明白，应该如何应对这个挑战，因为目前开源出来的就是70亿参数的模型，再大的版本现在还没有开源，所以这件事情还搞不定。

那么再往上，你说我们闭着眼睛去研究一下行不行？也不行，为什么呢？因为越大的模型，你训练的成本就越高，而且越难去控制。在这种情况下，我们可以说，我们就停在这了。那么停在这，中国团队现在在干嘛呢？他们搞APP开发，搞各种接触用户的方式，我们现在要去获取所有用户，这是我们已经开始卷的东西，Open AI还没卷到这呢，我们其实已经开始弯道超车了。

你说Open AI不是也有APP吗？它有安卓APP，有iOS APP，甚至最近还开始出Mac APP。但是你要想清楚，中国人做的是什么呢？聊天、搜索、绘图、情感陪伴，都整合在了一个APP里头。而且，我们的APP是Windows、Mac、安卓、iOS全都有。你说Open AI自己为什么不做一个Windows APP？亲爹不让啊，谁是亲爹？微软。微软说这个事情打住，我在那边玩Copilot，你自己不要来找这个事情，你到Mac那边去玩耍就可以了。有什么问题，去霍霍苹果，不要来霍霍我，这个他就没法整。而在中国，你看看啊，豆包，所有的平台，都在积极地推进和用户接触的策略。

Windows、Mac、iOS、安卓，全都出齐了。而且，它还把所有的功能都集齐了。像Open AI做的Mac版的APP，只能干嘛呢？就是回答问题。也就是说，你可以听话，可以去语音识别，他就干这些事情就完事了。中国的就什么都可以干啊。你让他去唱歌跳舞，让他去画图，让他去做图像识别，包括各种的角色扮演，就是Carrot AI做的那些事情啊，咱们也都可以搞定。只要是外边有的，只有咱想不到，没有咱做不了的啊。这一块还是非常好用的啊。我现在用的量很大的就是豆包APP啊，非常好使。然后另外一块我们再卷的是什么呢？啊，Chrome的这个插件啊，就是在浏览器上做插件。因为现在的浏览器，基本上都是Chrome的内核啊，甭管是Chrome的啊，还是这个微软的Edge，底层都是Chrome啊。所以我们现在在上面做插件，甭管是Kimi还是豆包，都在上面卷插件。而且那个插件的功能，那全的是一塌糊涂。你一旦在浏览器上装了豆包插件了，然后你去用谷歌搜索豆包，就在侧边栏开始对搜索结果进行总结。你说哎我现在去看一下YouTube，马上旁边就开始给你做，我给你做个视频总结吧啊。甚至说你在这看YouTube的时候，他说我给你翻译个字幕吧。或者我随时在浏览器里头，选中一个单词，选中一句话，他说我帮你翻译一下吧。或者说你在浏览器里头有一个空格啊，或者叫有一个输入框，需要你输入信息的时候，他马上跳出来想输入点什么，我帮你润色一下。

要不要从上到下，事无巨细，只要他能粘手的地方，全都给你冲上来？说来，我在这呢，让我看点什么吧。或者说你现在浏览一个网页，说帮我总结一下。那这是人家的本行，干的甭提多好了。这一块，中国已经彻底卷风了啊。那你说美国人不做这种浏览器插件吗？也做，但是呢，美国人做都是小团队或者个人做。那你跟像豆包这种，可能后边有好几十人，上百人的团队，大家领着薪水，加着班，然后疯狂的往前卷。这事谁卷谁啊？对吧，你肯定卷不过他。现在在接触用户这角度上说，甭管是做APP，做浏览器插件，这啊，中国团队已经弯道超车了啊啊。

至于说Open AI，现在再去推出的GPT4 Omni，实际上它已经是在追赶其他人，但不是追赶我们啊。它在追赶的是谷歌的Gemini Flash和Anceropic的啊，CloudHi苦啊，在追赶这两个产品，希望把他们卷死。我们现在已经在另外一个层次上，在卷了，等他们把这仗打完了以后，发现哎，这个用户都已经被中国团队卷干净了啊。可能会出现这样的情况。

好啊，这个故事就跟大家今天讲到这里。感谢大家收听，请帮忙点赞，点小铃铛，参加Disco讨论群。也欢迎有兴趣，有能力的朋友加入我们的付费频道。再见。

微软撤离中国AI团队，这是真的吗？微软出来辟谣，但是关键之处又非常模糊。中美两国的AI竞争，会越来越激烈吗？

Luke Fan — Mon, 20 May 2024 13:04:17 +0000

大家好，这里是老范讲故事。今天来讲两个故事。第一个故事是：微软正在撤离中国AI团队。这个事情呢，应该是突然传出来的，应该是礼拜三传出来的。因为礼拜三我们在做《老范读评》的时候，就一帮人问：“哎，赶快说说，到底咋回事？”呃，第一个呢，这个事，我没有向任何微软员工去求证啊，这个一定要讲清楚。因为万一说对了，说错了，在给别人找麻烦，这事不合适。咱们呢，只能够根据现在公开的信息来进行一些分析和猜测啊，这个里头没有任何内幕消息，一定要跟大家讲清楚，不是说我认识谁谁谁了，我去问了谁谁谁了啊，千万千万要说明白。特别是刚才有这个人讲，说是微软员工来听自己的瓜了啊，这个还是给了我一点点小压力。

这个事情呢，突然传出来，据说是有几百人的团队要撤离，是微软中国区，云的关于大模型的一些团队，以他们团队，可能还有另外几个团队为主吧。啊，这些团队呢，正在撤离。据说呢，是这些人收到邮件了，邮件上写的是，他们可以离开去美国、澳大利亚，有的是写爱尔兰，也有写新西兰的。而且呢，全家人都可以一起去办移民。后边有一点未经证实，但是其实是整个事件里的关键是什么呢？就是不转岗到底会不会被裁员。如果有些人说，“我愿意留着，也没什么事，看你原来的事。”那这个呢，其实就是微软内部经常干的这种事情，因为我原来有些同事就是通过微软内部的这种转岗，从国内转到美国去了，拿到了美国绿卡，后来也拿到了美国国籍。这个故事是存在的。微软呢，过一段时间就会干，或者说他一直在干这样的事情，他也一直是有这样的机会给大家说，“哎，你们可以去申请，申请说你到底是在哪边。”其实谷歌应该也有，但是这个里头有几个问题啊，第一个问题是什么？就是他不会一下出一大批…

或者是集中在某几个部门，而且呢，通常也不会说你不转岗就要裁员，这个事情一般是不会说的。所以这个里头呢，真正的关键点，不是说是不是有人要去移民，到或者说被微软transfer到不爱去了，或者是全家一起给你办签证，这个事都不是关键。关键是什么？就是它到底是一个什么样的部门，对吧？这个部门是一起都走了，还是说给你留几个，还是说走了，走完了以后剩下人还能不能干活，这个才是关键。

其实微软出来后来辟谣来了，但是辟了谣的这个事呢，又得把这事说清楚。对吧，第一个呢，讲的是一小部分员工，得到了可以选择国际轮岗的机会，这是微软官方写的啊。然后呢，说员工可以选择接受轮岗，或者继续现在岗位工作。这件事呢，虽然他并没有说啊，你不转岗就要裁员这个事情，但是呢，现在网上讲的是什么呢？就是说他可能部门大部分人都走了，对吧？你把这个人留下来可能也没啥事干，因为你一旦出去以后，他有时差呀，你没法跟原来团队配合啊，这个事可能也不一定会留得下。而且呢，据说留下来的人也担心被裁员，那么这个事情实际上是没有说清楚的。

然后呢，微软还在讲，说一直有向员工提供内部轮岗机会的机制，这个事倒是真的，微软是一直都有这种机制。但是呢，你一次性的把整个部门或者说几百人一把都弄出去的这个事情，这个应该也没有这么干吧。原来可能就是大家自己去申请，觉得你应该在哪边去上班，都是允许的。然后呢，微软还讲了最后一句话，是什么呢？叫不会影响公司在国内的运营，因为有很多人在传言。说微软要整个退出中国，那么这个事呢，还是要出来辟一个谣的。说这个没有。那么，微软是不是真的把AI部门撤走了呢？刚才我们讲了，微软虽然辟谣，但是呢，说的并不清晰。你如果说只是像某几个人啊，开放了这样的说法，“哎，你们现在可以了啊，那些人可以了。”微软这么多年一直在干，为什么以前没爆出来？这次为什么又闹起来了？那么，肯定不是说大家申请了，“啊，可以去了，没事了。”而是公司发了信出来，对吧，说你们这个部门的人整个都签走了，或者说那几个部门的人都要签走。一定是出现这个事情，那微软呢，并没有说清楚，说到底是哪些部门的人走掉了，而是说我们有这个机会。

第二个呢，微软虽然内部有这种转岗制度，但是原来不是这么运转的。为什么引起关注了？第一个就是说，AI现在是一个很敏感的事情，算是整个IT圈或者互联网圈，全村最靓的仔了吧，大家所有希望都在这了。而且呢，现在全世界做AI这块，基本上也就是美国跟中国，在努力的折腾。其他的国家，其实在这块都要稍微差那么一点点。

第二个就是比例，其实并没有说清楚，到底是哪些部门的，多少人走。这个事其实微软并没有出来解释。

第三个呢，就是人稍微有些多，据说有几百人，一开始时候有三四百人，后来还有各种数字出来。但是呢，这个事呢，并没有一个完整的数字，或者很准确的数字，因为微软官方不出。现在有很多这些数据是哪儿出来的呢？就是有这种匿名的社交软件，大家说，“哎，我们是这个什么什么公司的在这说。”但是呢，它是匿名，也搞不清是谁说的。但是，相信这个事应该是真的。

最后呢，如果是不离开就拿补偿的话，那这个事情就完完全全变性质了，跟原来那种轮岗，“你不愿意走，就留在这接着干”这个事就完全两回事。虽然微软自己辟谣说他们不愿意走，就可以接着在现在岗位上上班。有可能是外面传完了以后，微软内部也进行了一定的调整，这个事的可能性是存在的。但是呢，留下来这些人，肯定也是一个缓兵之计了。我相信。大部分人有机会还是惦记跑的啊。或者说，咱们可能在这听节目的人，都是惦记有机会就跑了。但没有哪个人说，能上来看YouTube，还是说，我就要坚持在这里奋斗到底啊。现在这个事呢，被曝出来，还有一个原因，就是很多人叫“吃不到葡萄说葡萄酸”。看到别人拖家带口的都跑路了，肯定有些人是羡慕嫉妒恨了。也有人痛心疾首说，“你们怎么可以去投奔美帝呢？你怎么不可以留下来建设祖国呢？”当然，我相信这种人呢，更多的应该还是在恨，说这个机会为啥不是我的呢？那些骂的最欢的人，你给他一个这样的机会，你看他走不走，对吧？也不能说所有人都会走吧，但是肯定还是大部分人会走的。

现在就有些人就要去吵吵啊，说“我走不了，你们也别想走”。那么，在这肯定就会有些人会留下。这个呃，就算是闹起来了以后的一个，对于本来可以全家出逃的这些人的，一个不是那么好的结果吧。但是，希望他们再过一段时间，还是可以顺利出逃吧。那微软，我相信，他还是在做撤走AI相关团队这个事情。说为什么他要去做这个事情呢？啊，就甭管微软怎么辟谣，我依然相信这个事在干啊。第一个就是中国的生意呢，现在确实不太好做。在商言商，如果中国有生意，那肯定大家还是要来做对吧？甭管是说在中国卖open AI的东西，卖微软自己的东西，还是做各种的系统集成，那有生意大家干嘛不干呢？

但是呢，微软云的open AI业务，在中国卖的好不好呢？听说卖的其实还不错啊，就是微软云的open AI服务，中国是可以卖的，而且也确实有人买啊，也应该有一些业绩。但是呢，所有购买了这个服务的大客户小客户，不管大小，都要求微软签保密协议。你必须保密，我买了你东西，你不能跟任何人说。这是很奇怪的事情，因为大家可能买完了以后，回去就跟人说，“哎，”自研，自主知识产权——对吧，你看，我的模型已经完全可以达到GPT的水平了。对吧，谁要合伙，买的是微软的服务，这个可能性都是存在的。而且，微软这次辟谣，为什么显得很软弱无力呢？辟谣时，它只能说“生意照做”。正常辟谣，应该怎么说？哎，你看，我卖得很好啊，对吧，我卖给谁谁谁了，谁谁谁用得很棒，谁谁谁用完后，还说我的产品非常好用。结果，举不出任何有力的证据，说：“哎，原来干什么，我接着干啊。”至于谁买了我的东西，我生意做得好不好，哎，咱们讳莫如深。微软现在整成这样，中国的生意确实不好做。

虽然OpenAI的服务在中国也卖掉了，但是不许说，哈哈，你也不能对外宣扬。现在，整个信创产业让微软看到未来的希望，基本上是很渺茫的。对吧，现在的信创产业要求是：不能用Intel的芯片，不能用微软的操作系统，你必须上Linux。而微软，你说它在国内能卖掉多少这个OpenAI的服务，云服务其实卖不掉多少。微软在国内，肯定Windows啊，Office这些东西你还是要老老实实卖，剩下就是一大堆系统集成，对吧，这是微软在国内要努力去做的生意。但是，这几块其实已经很难做了。

信创上来以后，他们说你怎么可以用Windows的东西呢？你怎么可以用Office呢？你还可以怎么用Windows？都变成这样。现在大家可能买Windows更多的是为了游戏本，对吧，拿来打游戏。而正儿八经上班的，建设社会主义的，都是用Linux了，或者是国产Linux。可能再过几天，鸿蒙PC系统就会出来了。就算有个别单位还在买新的……还在用，也只能偷偷用啊，像做贼一样。不许说了，这是微软正在迁移整个AI团队的一个原因吧。当然，还有一个原因是什么呢？就是中国的程序员，特别是AI相关的高端程序员，也算是一种土特产吧，咱们就产这东西，你咋办呢？前两天还看一个文章，说刚刚发布的GPT-4，17个人的团队，就是他，这个“欧”是欧美嘛，就是万能的对吧。17个人的团队里，6个华人，然后这6个华人呢，分别毕业于清华、北大、上海交大、中国科技大学和MIT，清华有俩。6个华人里的，还有一个，是美国信息学奥林匹克竞赛的教练。啊，微软在中国招一批这样的人以后，领导澳大利亚、领导美国，或者到任何一个本身原来用工成本很高，也没有这么高人才密度的地方去，也确实可以解决它的问题啊，这个我觉得是没有任何毛病的。

现在美国呢，也在提案说限制中国使用美国的大模型。5月8号，美国联邦众议院外交事务委员会主席，迈克·科恩（Mike Cohen），联合另外三位众议院代表，共同发起了一项新的立法提案。大家注意啊，前面疯TikTok的是能源与商务委员会，这一次提案的是外交事务委员会的主席。这个提案，叫第118届国会HR8315提案，要求进一步修订2018年出口管制改革法案，防止包括中国在内的外国竞争对手开发和利用美国的人工智能及其他关键技术。它原来有这出口管制改革法案，现在说我们要，再调一调，把这个人工智能相关的东西也加进去。

这个迈克尔参议员是干嘛的呢？啊，他是个共和党，众议院外交事务委员会主席。封禁TikTok的法案，最初不是他写的，就是“保护美国人免受外国对手控制应用程序侵害法案”，不是他写的，那个是能源与商务委员会写的。但是，他对这个法案其实作出了很大的贡献，就是那个对外援助法案，是他起早的。他提议说：“咱们把这个对外援助法案，跟这个保护美国人免受外国对手控制应用程序侵害法案，合并起来，一起投票。然后呢，众议院投完了，参议院投，投完了以后，送到拜登桌上咔一把签字。”这个事是他干的。当然了，这个人也爆出了一点点小丑闻。那是什么呢？就是在做这个法案联合投票之前，购买了大量的梅塔的股票。那这个事，你说他是啊，有什么问题没有？不知道，美国的法律是怎么规定这件事情的。

现在呢，其实有很多的中国AI人才和AI团队呢，都在出逃的路上。这个几条路：第一条呢，就是海外大厂，叫微软这样的大厂，包括像谷歌啊，他们都会在国内进行招聘。招聘完了以后，在国内进行一定的研发，然后呢，再向海外转港。这几年的话，海外大厂的吸引力其实又高起来了，因为原来有一段时间，海外大厂的吸引力是没有国内互联网大厂高的，因为国内互联网大厂真给钱。现在啊，又有了一些新的动向。

然后第二个呢，就是国内互联网大厂也在努力招聘。招聘完了以后呢，很多也会把他们的AI团队外派到海外去。为什么呢？因为他们要使用海外的数据和海外的算力，而且呢，也可以就近的跟海外的同行进行交流与碰撞，甚至呢，也会在海外猎头，再去招海外的人进来干活，服务于海外用户。这个也是一个出逃路径。

第三个呢，就是国内的一些创业企业说，算了，咱就创业吧，自己重新做大模型。那么这些人呢，会拿美元的融资，拿完了以后，这个团队就开始“润”，润完了以后去海外上市。国外的大厂，有些时候，也会直接投资和收购中国团队。欧洲的汽车厂比较喜欢干这个事情，特别是国内的一些自动驾驶团队。但是这个搞完了以后呢，还是要在中国干活，他们不会把这些人运到海外去，但是也不好说了，他们肯定也缺人。那美国人真的能够封住中国AI发展之路吗？这件事呢，其实有些难的，不容易。为什么呢？因为“梯子”还在。对吧，你像我们现在还可以坐在这看YouTube，我们还可以挂到梯子上去访问ChatGPT。他除非是在美国那边自己建“强”，否则的话，其实意义并没有那么大。但你说美国现在在不在建“强”呢？其实也在。就是现在很多的服务会检测IP，你比如说像插着VPN，不是说中国政府封了他们，不让他们进来，而是插着VPN自己的网站说，“我检测到你的IP地址在中国，我就不给你服务了。”这个是单向的。他们这种“墙”其实对于各种梯子，特别是做梯子的，每天还在研究说，“我怎么能够骗过这些‘墙’啊？”他们现在其实做的并没有那么好吧。

真正让中国AI技术腾飞的，并不是GPT-4，GPT-4会起到一定的作用，但是我觉得，它们更多的是指明方向就可以了。人一看，“哦，GPT-4，又有一个新的方向被指明了。”GPS也忽悠了一帮人去折腾，然后其他的各种应用方法，都是大家跟着GPT去学就完了，因为它毕竟是个开源系统。Charge GPT能够给中国的AI做的贡献最大的是什么？就是帮我们的中国AI初训练数据集，这个是他们能够干的比较多的事情。甚至呢，有一些可以跟中国的一些应用系统相继结合，但这块呢，应该少一点。真正让中国AI技术腾飞的，应该是GitLab和Hugging Face，就是开源的东西，才是让中国技术腾飞的关键。

就是别人一开源，我们就遥遥领先啊。Open AI的服务呢，依然是可以通过微软云接入的。因为，国内反正我是接触过他们的一些代理商，他们是可以拿出证书来说，我们得到授权，可以去销售这个基于微软云的Open AI产品。你可以拿着这个证书自己去使用。但是现在呢，是不允许对外公开，也就是说，你去对公众服务，这事不行。但是你说我在自己系统内部用，这个事是没有什么问题的。

所谓的算力限制，你说哎，美国人不给我们卖显卡了，不给我们卖算力卡，A100、H100后面的这些卡都不卖给我们了，这事怎么办？其实呢，我觉得在这一块上，真的没有那么厉害，没有那么严重。为什么？就是本地推理，其实对算力的要求并没有那么高。我就是为本地来服务一下。咱们国内啊，A100、H100我估计明面上的应该是没有，但是走私进来的其实是蛮多的。而且现在国内，我听说H100其实已经可能，呃，有一些过剩了，就是或者A100或者H100这样的卡，已经有点过剩了，就是从国外走私进来太多了，很多都在问说你要不要，你要不要。中国人的购买力，你还是要相信的，各种钻空子的能力，你还是要相信。这个东西其实国内并不少，只是现在可能还存在一些走私集团，或者是什么啊，地下的一个渠道里面。现在并没有明目张胆的装到这个机房里边去。

大模型训练，我真的需要训练大模型了，对于国内的算力来说呢，应对上一代的模型训练其实是够的。那你说我要训练一个像拉玛3这样的东西，这个可能稍微有些困难，但也不是说做不出来，还是能做，对吧？你说我要去做这个，呃，GPT-5这个层次的，可能你就真没戏了。现在呢，GPT-4层次的这些大模型训练，国内的这些现有算力去训练，其实是可以做，就是慢些呗，啊，用的电脑，用的这个主机多一些，还是能做的。另外呢，就是国外还有巨大的算力池。就甭管是腾讯、百度、阿里，对吧？再加上字节跳动，在全世界范围内，实际上是有非常巨大的算力池的。他们在全世界也是买了很多的H100，然后在这边堆着，可以算。这个并不用太担心算力的问题。我觉得这一块卡脖子，基本上卡了个寂寞。

国内现在大模型的发展其实也在很快速地推进。我最近在横向比较各种模型。文心，嗯，实在懒得关注，什么时候跟他聊天，什么时候都能气你一肚子火，实在是不好使。然后，质朴据说还是不错的，试了一下，感觉还行吧，反正比文心强点。号称是国内唯一的大模型，为什么叫号称呢？因为其他的，特别是开元的一些模型，出来都是到头来就是“骑士币”。原来拉玛2就是骑士币嘛，大家都在那基础上改来改去，所以都是骑士币。

质谱呢，据说他们有一个很大的模型，可以达到千亿规模。他们说我们可以玩这个。还有一个叫DeepSea，这家公司是搞Moe，就是这种专家模型的。千问和E呢，是刚刚发布的理论，同一千问，2.5E，名义万物，也是刚发布的理论。现在叫e log IG，就是他们现在也开始上大模型了，因为原来的Imedium应该是34币。

我现在不知道他起了这样的一个名字，是做了70币啊，还是说可以达到上百币了。这个事，就是上千亿的这种参数，不好说。通1,000问呢，是前面出了一个，110币的，就是1,100亿参数的一个模型，那个确实非常好用。因为我现在海外的云服务器上已经挂上了通1,000问，110币每天在用，效果非常好。

现在，国内各个大模型上来了，就是比较高参数的模型已经上来了，这些模型呢，基本上可以接近GPT-4的水平，虽然不是说全面超越，但是基本上接近了。然后开源模型也在更新，而且E呢，现在也号称要上Moe的这种专家模型。Kimi算是国内的一个显眼包，就是国内闹得最热闹的一个模型。Mimi呢，其实对于日常使用来说，作为替代GPT 3.5-4之间的一个水平吧，可能到3.6、3.7，个别的任务，可能比GPT4还要稍微强一点，在这样的一个水平上，基本上够使。Keep me唯一的问题是什么呢？就是用的人太多，导致他的服务器经常顶不上，就是你可能聊着聊着，他就告诉你说：“哎呀，对不起，我太忙了，让我歇会儿。”其他的都还挺好使的。

然后这两天，字节跳动也在国内发布了豆包大模型，替换了他们原来的云雀大模型。豆包模型的生成水平呢，还是要弱一点，逻辑能力也稍微弱一点。好在它是主打便宜，它的TOKEN的价值，是其他所有现在开放出来的大模型的可能几分之一，它就是量大管饱。底层7座大模型的竞争呢，中国肯定会落后，这个没什么好说的。现在我们要知道，全世界可能做的最好的7座大模型，一个是OpenAI家的GPT-4，或者是GPT4的一些API的这种TOP级别，然后是Cloud3，特别是Opus，这个是做的最好的，然后Gemini的1.5啊，或者是1.5 Pro这样的版本，已经算是还不错了。他们在这三个其实算是各有千秋，有些任务上，Cloud是可以超过GPT4的，但是不能全面超越，这个还是有一点点难度的。在这块，中国现在你说我们能不能超越他们，比较难，但是呢，基本上接近GPT-4的水平还是有一批的。但是在应用层上，我觉得应该不会有特别大的影响，而且做应用这件事，啊，中国人其实还是很擅长的。

我这两天在我的Mac电脑上装了XS GPT的Mac版。现在，只要你用XSGPT，它就推荐你下载这个东西。如果你是Windows用户，它应该不会理会你；但只要你用的是Mac，它就推荐你下载。同时，我也装了豆包的Mac版，这个版本实在是太好用了，我都想去录一节课，跟大家讲讲怎么用这个玩意。这个回头咱们再讲。

美国人呢，肯定还会继续努力来封禁中国使用大模型。但是，这种努力的意义不是那么大。我觉得美国人做的很多努力，比如封禁、各种限制，对中国来说，不能说完全没有影响，肯定是有影响的，但要想把它限制死，又不太容易。毕竟，美国是个法制国家，这事就比较麻烦。比如说，给中国的商品加关税，加完后发现，中国商品便宜的并没变少，怎么办呢？接着就把东南亚四国，比如柬埔寨、马来西亚、泰国、越南加进去，对吧？还说对他们的太阳能板进行调查，看看货是哪儿来的。美国人就这样不停地努力，但努力的过程也没那么快。咱们看看他们下面到底能做成什么样。

至于说微软这个事，后面会怎么办，我觉得，作为国际大厂，可以不断在国内招募AI团队，然后不断搬迁，这其实是一个挺好的方法。你在国内招的这些AI团队，真的是价格便宜量又足啊！而且，大家惦记着带着全家人老小，然后一起搬迁的意愿还是蛮强烈的。国内大厂在想招聘AI团队，这个成本就会上升。为什么呢？你说你给多少钱，加多少期权，对吧？你能够比得上一家人的船票呢？所以，国内的大厂可能会对这些现有的AI团队更好一点点啊。那么，这个可能是微软事件对整个国内AI发展的一个大的改变吧。我们也希望，在国内能够自己做出AI的这种团队来，或者说能够训练模型，能够做出一些独特产品的团队来，能够应润尽润吧。这个也只能说到这了。好，这就是我们今天的第一个故事。