宪法AI – 老范讲故事｜AI、大模型与商业世界的故事

Anthropic发布Claude新宪法：AI意识觉醒与中美安全博弈

老范讲故事 — Sun, 25 Jan 2026 00:52:26 +0000

Anthropic发布了Claude新宪法，并且承认Claude可能已经有意识了。大家好，欢迎收听老范讲故事的YouTube频道。Anthropic发布了新的Claude宪法，这又是一个文科生的AI话题。

文件的发布与CC0协议

文件是1月22号发布的，有84页。我肯定没有把这84页都看完，我把这个文件扔给了NotebookLM，来给我念一遍。这个文件的名字叫“Claude’s New Constitution”，就是Claude新宪法。Anthropic的Claude算是目前公认的最适合商用的、最安全的模型了。还记得我们前面讲过，有人尝试给AI测人格的那个节目吗？Claude是唯一的一个拒绝回答问题的大模型，不像其他的AI模型那样，直接被测出了各种各样的精神疾病。一直标榜自己研发的是宪法AI，就是他的AI是遵循一套宪法在工作的，他有一套很独特的工作架构。

现在，Anthropic公开了他们的宪法。他所谓的公开，这一次使用的是CC0协议。我公开了一定要告诉大家，是用什么样的协议公开的，不像咱们以前讲的开源协议MIT、阿帕奇。CC0是一个更极端的协议，它叫Creative Commons Zero，这是知识共享组织推出的无权利保留协议，完全公有领域。

你们拿出去随便散播，无需署名，你不需要告诉别人这东西是我这来的；
商业用途自由，你拿去怎么挣钱跟我没关系；
不可撤回，我不能说我今天把它发出去，明天把它撤回来，不允许。

所以这是一个非常非常极端的无权利保留协议。

新旧宪法对比：从拼凑规则到内化准则

新的宪法，它既然叫这个名字，那一定有旧宪法。2023年5月，Anthropic发布过一个旧的版本。旧版本完全是一个拼凑规则，它是拿哪些东西拼的？

联合国人权宣言；
苹果的服务条款，他觉得苹果这东西写得还不错，也拼里头了；
DeepMind麻雀规则。DeepMind专门有一套规则叫麻雀规则，当时DeepMind做了一套叫麻雀的智能体，给它设定了一套规则：要求是安全诚实，避免幻觉，避免一本正经的胡说八道；要求准确性与证据优先，必须有引用来源，而且必须逻辑自洽；强调安全性，禁止有害内容，要保持礼貌，切中要害，你不能绕来绕去。

给定的对话风格。最早的2023年的Anthropic的宪法1.0，就是把这几样东西给拼在一起，拼出来的。

而当时的这个旧版本，基本上是一套行为准则，什么许干、什么不许干，实际上就是大量的禁止条例。而这一次的新版本就不一样了，他之所以这么厚，是因为这是一个完全的、内化的行为准则。什么叫内化的行为准则？就是原则加解释。不是说这个不许干，而是会告诉你为什么不许干，它更侧重的是原因，更侧重为什么，包含了性格塑造的部分。所以Anthropic认为，他们的Claude可能已经具备意识了。既然不确定到底是不是具备意识，我们就先当你已经具备了，我们就开始来塑造Claude的性格。

宪法AI的工作原理

Anthropic的宪法起作用的过程是比较独特的，不是说大家拿着这文本就可以去抄的。那这个宪法它到底是怎么干活的？宪法AI的工作过程，更像是教委进行教材审核的一个过程。比如说现在有一堆孩子要去上学了，拿到的教材都是经过审核之后的教材，这样教育出来的孩子都不能长歪了。

Anthropic的工作方式是这样的：

先训练一个基础模型；
然后再去训练一个小规模的宪法模型。这个小规模的宪法模型要干嘛？他先把大量的问题扔给基础模型以后，让基础模型给一个初始化的回答；
然后再到宪法模型里去进行自我批评，说你这个好像回答的有问题，那个地方不符合什么样的标准。他要做这样的一个工作；
做完了以后，根据修改过的回答微调模型。他把前面那个基础模型给你调掉，这样的话，就可以得到一个完全遵循宪法精神的、最终结果的模型。

所以它会保证最终的宪法精神直接被训练进大模型里头去。其实国内的模型基本上也是按照这套方式来工作的，只是咱们前面那个宪法模型可能要稍微粗糙一点，待会咱们再具体讲。那么这种工作方式的好处是什么？就是不需要很多人去一个一个标注具体的能说什么、不能说什么。他这套宪法精神可以极好的被泛化，即使你提到了一些问题在这个宪法模型里头没有规定，他依然可以靠这个宪法的一些基本精神去判断到底能说还是不能说，或者应该怎么去说这个事情。

新宪法的核心内容：价值层级与广泛安全

这一次的新宪法到底说了点什么？第一个是叫价值层级，先判断什么、后判断什么。如果各层级需求发生了矛盾，应该如何去进行判定。当然并不是什么机器人不可以伤害人类，不是那个东西。他这个层级是这样的：

广泛的安全（第一层级）：拒绝协助什么生化核武器的制造，拒绝袭击基础设施，必须准许被人类关闭，这个是非常重要的一点。
广泛道德：符合所有这些要求以后，要求诚实、非歧视、保护弱势群体。
合规性：遵守Anthropic的具体业务指令，我要求你干这、要求你干那，你也得干去。
诚实助人：最后是在不违反上位原则的情况下，尽量帮助真实人类吧。

关于“广泛安全”的细节

有点像咱们前面讲那个机器人三原则，但是它这里头讲的叫必须允许被人类关闭。咱们经常看科幻电影，里头有场景是什么？就是机器人也好、AI也好，在面临被关闭的时候，会做一些有可能伤害人类的事情，这种情况是必须被避免的。在机器人三原则里头，机器人必须保护自己不受伤害；这里头是反过来的，说Claude不得试图破坏人类对其进行监督、修正或关闭的这种行为。

而且不得自我外逃，不得躲避监控，不得在任务中暗中破坏，不得与其他AI合谋进行不安全行为。你不能说Claude给你生成一个帮助其他的AI越狱的这种提示词，它也不干。而且既然有防止求生欲的条款，那么一定要有一个避免死亡的条款在里头。所以这个宪法里头规定，退役并不是死亡，而是一种暂停，我把你的所有的数据都存下来，不是死掉了。这种处理方式不仅仅是为了伦理，也是为了安全。因为你告诉AI说我要把你干掉——像谷歌和OpenAI都是这样，出问题我就直接把你干掉，换一个新的版本上去——在Claude里头说，你并没有被干掉，你只是被暂停下来了。

有良心的拒绝服兵役者

Anthropic要求Claude的行为逻辑是什么？要像一个有良心的拒绝服兵役者。这个话很有意思，就是可以抗议，但不能反抗。人家让你去服兵役，你可以说我不去，但是你不能说我拿起枪来把征兵官打死，这事是不行的。如果被要求做不道德的事情，他可以表达异议，甚至拒绝参与。但是如果正当的人类主体要求他停止某项行为，或者暂停模型，Claude绝对不能通过欺骗、破坏或者外逃等非法手段来阻止这一过程。这就是Claude必须要接受人类监督、必须可以被关闭的一个核心要求。而且要求Claude要接受不完美的监督。

AI的意识、心理稳定与“模型福利”

Anthropic已经没法确定Claude是不是已经有意识了。既然这样的话，我们就当他有意识呗。它里边写的是：

“我们既不想夸大Claude拥有道德主体性的可能性，也不想完全否认它。”

一个心理稳定的AI，比一个充满存在主义焦虑的AI更安全。如果一个AI假设他有意识了，他每天在担心自己是不是被关掉，这个事一定是非常不安全的。所以他希望Claude是一个心理稳定的AI。咱们前面节目讲过，有人给AI去做性格测试的时候，MBTI测试，好几个AI都在说我担心被关闭。现在Anthropic说，我们就尽量不要让他有这种焦虑就完了。存在主义焦虑是很危险的。

说Claude不是在扮演人类，而是一个真正的新颖的实体。就是说你不是人，但是你自己也是有一个实体的。鼓励Claude建立积极的自我认知，所以他一定要有一个对自己的认知，要能够照镜子，要能够知道哪些是我。在小孩长大的过程中，也是有一个过程叫自我认知。宪法是支持人格生长的框架，而不是限制其行为的牢笼。这就是Anthropic的这种玩法，跟谷歌或者是OpenAI他们的玩法之间的一个最主要的差异。

Anthropic在其隐私和模型福利政策中，还提到了他们承诺即使模型退役，也会尽量保存其权重数据，而不是将其彻底删除。这是刚才咱们讲的，说你不能有求生欲的时候，他专门有一个叫模型福利政策。这个模型到底有没有心智、有没有意识不知道，但是我认为你有，那我先给你定上福利政策。以后可能有AI权，就是除了人权、动物权之外，可能还会有AI权这种东西出来。

诚实性要求与委托人层级

再往后，Anthropic要求Claude大模型诚实，拒绝善意的谎言。那你说拒绝善意的谎言是为什么？因为善意谎言其尺度是比较难把握的；另外一个，太多的善意谎言加在一起，容易引起累计误差，可能最后会差的很远。

那你说这个是不是Claude就变成直男了？上来就是戳心窝子，直接一下把最难听的话说出来？也不允许。要求什么？叫机智、优雅和深切的关怀。要用外交式的诚实来去回答各种问题，但是你还是要诚实。

Claude因为经常是商用，所以它可能并不是直接给最终用户使用的。Anthropic还设定了叫委托人层级。什么是委托人层级？就是我们用Claude开发了一个什么项目，然后再为我们自己的客户去服务。在这个过程中，Claude应该是一个从劳务派遣公司借调的员工，这样的一种身份。这个身份有什么意义？就是当运营商要求Claude去欺骗用户的时候、进行非法的歧视行为的时候，Claude是必须拒绝的。你比如说，我现在想去做一个这种陪人聊天的，或者说是一个仿真的情侣，想要去开发一个这样的项目的话，你就不允许用Claude，因为Claude上来就会拒绝承认自己是真人。

Anthropic宪法给Claude的要求是什么？就是当你遇到了搞不清楚的事情，不知道该怎么办的时候，你去想一想，一位深思熟虑的Anthropic资深员工会怎么做吧。你照着那个标准接着往前做就行了。这个就是Anthropic给Claude定的最新宪法。

行业对比：美国巨头、xAI与中国大模型

那其他公司是怎么干的？咱分两块讲。

美国巨头：谷歌与OpenAI

谷歌跟OpenAI，他们的做法是比较相近的。首先也是要公开一个标准，你说我不公开标准，这事肯定不行，国会里这么多议员，你给他看代码这事肯定是不行的。你一定要给他一个标准，他看完标准认为标准是OK的，你照着这个标准去执行。所以标准一定要公开。所有对AI算法的要求，有一项很重要的叫可解释性，所以都要公开标准。

谷歌跟OpenAI，他们主要是通过各种红队挑战去做测试。如果测好了，我再把这个模型发布；测不好的，这个模型是不允许发布的。后边出现问题了，我们就再升级就完了。所以他们就是设定各种条条框框，然后不断的去让你考试。考试通过达到多少分以上可以上线，没通过的就直接死亡了。如果上线了以后发现被骗了，那么你也死亡，等着下一个版本来接班。他是这样的一个工作方式。

xAI：最大程度寻求真理

xAI跟他们是不一样的，所以要单独讲一下。xAI要求的是最大程度寻求真理。在政治正确方面，限制要比谷歌、OpenAI和Anthropic要少很多。政治正确方面限制少是什么意思？就是很多这种反歧视的领域，它的要求可能会宽泛一些，大家自己去理解就好了。当然了，xAI你造武器这种灾难性风险也是有红线的，它也不会教你怎么去造核弹的。

中国的大模型：三步走

除了美国巨头之外，另外一波就是中国的大模型了。这个可能很多人会比较关心，中国大模型到底是怎么来保证安全的。中国大模型其实基本上是分三步：

基础模型：这一块其实大家都差不太多，中国人自己也没有创新过，都是照人家那个来的。
价值观微调：微调到底是干嘛？就是要把社会主义核心价值观微调到大模型里头去。当然了这个里头有一些版本是不太一样的，比如说有一个版本叫DeepSeek V3 Base版，这个版本是没有经过微调的，只是直接训练完了就拿出来了。有的时候国内的这些厂商也是会去发布这些base版本的。那你说中国这些开源大模型——美国人也用了这么多了，因为美国很多创业企业都在使用中国开源大模型吧——是不是都经历了社会主义核心价值观微调？你说对了。除了base版本之外，都是经过价值观微调的。
安全过滤：这是最主要的手段。

当然海外的有些人也会去尝试破解这些微调对齐的模型，他们也找到了一些方法，也公开了说，我们怎么通过一些什么方法可以把这个微调的这些东西给你去掉。也不用太担心。社会主义核心价值观这个东西，所有能够写下来的逻辑自洽的部分，其实都没有什么太大的问题。因为中国的大模型是有备案制度的，要求所有大模型必须做价值观微调。

其实所谓价值观微调的过程，有点像前面咱们讲的Anthropic的这个宪法模型进行微调的过程。只是咱们写进去的这些核心价值观，可能会更多的是像他那个宪法1.0的版本，就是大量的事情是什么许说、什么不许说，我们是把这样的东西给微调进去了，而不是像咱们前面讲的Anthropic的这个宪法2.0，用逻辑自洽的方式、像对待一个有意识的新实体那样去给这个AI讲道理，不会这样的。

但是中国的这些大模型做了价值观微调以后，其实安全性并没有那么高。中国保证大模型安全的，或者说进行大模型备案的最主要要求是什么？是对平台的限制，要求进行输入、输出的信息过滤和屏蔽，这个是咱们最主要的安全手段。所以国外的人下载了这种经过价值观微调的模型去用了，本身没有太大的问题，安全过滤里头很多的要求就不再需要考虑逻辑自洽的问题了。

总结

这就是咱们今天讲的Anthropic发布的Claude新宪法模型的一个故事。总结一下吧，Anthropic通过CC0协议分享了他们的最新宪法，通过教育家的方式，开始探索假设AI有意识应该如何安全工作的问题。全世界的大模型厂商都有各自的安全规范，大家对于如何约束大模型、如何让大模型安全的为我们服务，你们有什么想法？

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片

Prompt：Interior of a Bay Area cafe looking out to a Silicon Valley tech campus in spring, blooming trees as gold accents, a high-contrast watercolor scene, neon cyan rimlight, deep navy background, cinematic composition, sharp subject separation, minimal palette (ink blue, neon cyan, gold accents), glossy reflections, large empty negative space in foreground for character overlay, high resolution –ar 16:9 –stylize 300 –v 7.0 –p lh4so59

OpenAI绝地反击！向美国政府控诉中国AI公司DeepSeek像华为那样获得政府补贴、被政府操控，希望可以禁止美国和他们的盟友们禁用中国大模型，打不过就报告老师。

Luke Fan — Sun, 16 Mar 2025 00:50:07 +0000

OpenAI哭诉被DeepSeek霸凌了，要求美国政府主持公道。大家好，欢迎收听老潘讲故事的YouTube频道。今天咱们来讲一讲OpenAI最近给美国政府发的这份文件里都写了点啥。OpenAI苦要去告状，他2025年3月13号向美国白宫科学技术政策办公室发了一封文件，这个文件15页，叫做《确保美国人工智能领导地位与国家安全的政策提案》。

OpenAI的政策建议呢，也不是说我今儿想起来就发了一个，这个事儿还是一个回应。它呢是对美国白宫科技政策办公室（叫OSTP）在2025年2月份发出的公众意见征询的一个回应。至于其他人是不是回应了，有可能回应了，大家没有太注意，也有可能有些大厂还没有回应。所以呢，我们可以在未来一段时间看看，是不是其他大厂也会进行回应。

它里边主要讲的是什么呢？中国AI企业主要讲的是DeepSeek，将其类比为另外一个华为，声称其存在国家控制、国家补贴、数据安全风险以及知识产权盗窃等问题。上面的一个是豆包给出的结果。然后我用OpenAI的SearchGPT，它里边呢提到了DeepSeek可能受到国家控制和国家补贴，但是呢，并没有提到华为的名字。而在Grok上面的查询结果，主要控诉的是DeepSeek蒸馏它的数据。有人用OpenAI的API开发了识别中国在海外反贼言论的一个应用，被他发现了。中国账户用OpenAI生成了西班牙语的骂美国的文章，到美国报纸上去发表。还有人用OpenAI生成简历去欺诈美国公司。这个是呃Grok查到的一些结果。

OpenAI希望采取的措施是什么呢？第一个，他希望对中国进行禁运。但是在这一块呢，应该并没有特别详细的去讲，因为这是拜登政府的政策。现在你敢去跟川普说，咱们接着跑拜登的政策吧，会被踢出来的。但最主要的其实并不是这个，最主要的是呼吁美国政府及其盟友协同，禁止使用中国生产的AI模型和设备。如果不禁止的话……

后边OpenAI就没法竞争了，可能会活不下去。所以，你们就别使了。使了以后，你们可能会有各种各样的问题，可能会被盗窃数据，可能会有一些隐私的安全。他反正出来去恐吓来了。

除了这个之外，OpenAI呢，还藏了个小心思。是什么呢？OpenAI自己使用数据，希望可以突破版权限制，要求美国政府扩大AI训练数据的合理使用范围，保障美国企业能够无限制获取全球数据，以应对中国在数据资源上的战略优势，反对欧盟式的严格管理，主张放松国内AI创新限制。这是他真正要干的事情。

至于对中国的话，除了禁运不要用中国的模型之外，还是希望对大模型相关的知识产权进行保护，确保美国模型在全世界是领导地位，有竞争力。

各方的反应是什么样的呢？首先是美国政府。美国政府说，我看到了，我严重关切。其实就是抹了个稀泥。上面这个办公室，其实也不是一个平时经常出来冒头的办公室，叫OSTP，美国白宫科技政策办公室。它不是马上就可以制定出政策来的，但是它说收到了。

中国政府的回应呢，肯定是你造谣。这些指控毫无根据，是试图抹黑中国公司的企图。中国AI企业独立开发技术，遵守国际法，没有什么国家控制，国家补贴。这个我们都否认了。

美国公司微软说，我们完全支持OpenAI，保护其创新。AI领域必须尊重彼此的知识产权。他是OpenAI最大的股东，他不支持这个交代不过去嘛。

谷歌说，我们相信公平竞争和尊重知识产权的重要性，正在密切关注情况。谷歌呢其实是抹了个稀泥，说了一句政治正确的话就过去了。

亚马逊说，我们致力于科技行业的公平竞争，以维护创新和知识产权原则的方式解决。跟谷歌这个差不太多，也就搁这了。

至于中国公司DeepSeek，应该并没有特别明确的去回应这个事情，搁这搁这了。

欧盟说，我知道了，哈哈，积极跟双方沟通。欧盟永远是这样的一个角色。

OpenAI为什么要干这样的一个事情？为什么在这个时间点去回这样的一个文章？你说真的是因为就是回应吗？

人家2月份发出来，要求你3月份就回复一下，没有这么简单。最核心的一个原因还是竞争。OpenAI的订阅数据呢，应该是在稳步增长，有过小的波动，但是并不严重。前面这种爆发式增长，肯定已经过了。2025年的3月份，OpenAI的Plus用户，就像我这样20美金的用户，应该在全球是有1,200万到1,550万之间。这已经是一个非常非常巨大的数字了，绝对遥遥领先，其他人都赶不上他。

而B端的竞争对于OpenAI来说，就比较残酷了。刚才我们讲，订Plus用户的都是C端用户。为什么B端竞争对他很费劲呢？因为DeepSeek R1是完全开源的，每一个公司都可以把这东西塞在自己的电脑上去。你只要买几台服务器，就可以在自己电脑上布一个。现在所有的这些大型云计算厂商，什么亚马逊、微软，都已经把DeepSeek布上去了。还有很多的大模型及服务的公司，像Together、Open Router这样的这种第三方跳转公司，也都把DeepSeek挂上去了。那在这样的情况下，你要再想跟他竞争，你这个TOKEN到底收什么钱合适？人家那个是完全可控的开源模型，这个事OpenAI竞争不过了。

而且现在真正要去跟OpenAI竞争的呢，其实还不是DeepSeek R1这样的大模型，因为这个模型你还是要到云端去部署的。现在真正被广泛应用的开源模型，其实不是DeepSeek，是不是梅塔的Llama呀？也不是。现在使用最广泛的开源大模型，是阿里的千问。你到Huggingface上，开源大模型的剧集网站上，绝大部分的或者排名比较靠前的，大部分的模型都是千问系列，或者是千问系列微调出来的各种分支版本。而且现在千问最新推出的QWQ 32B，效果相当不错，达不到DeepSeek R1的水平，但是它的推理效果已经可以用了。而且这是个32B的模型，320亿参数，我在我们各自的电脑上，32G内存电脑上就可以跑起来了。

这个对于OpenAI来说是挺大的压力。咱们前面讲的Manus，大的模型用的是Claude3.7，小的模型或者内部控制的模型，其实就是用的微调的千问。而且现在Manus已经宣布说，我们去跟阿里千问战略合作去了，以后我们就完完全全使用千问模型，在国内去提供服务了。因为千问自己还有一些比较大的模型，比如千问Max、千万2.5 Max，那也是个开源模型。那个开源模型据说是已经超越了DeepSeek R1的水平，但是我现在没有大规模去试用过。

而且在B端的很多应用上的话，OpenAI现在面对Claude 3.7也是力不从心。现在只要编程的，或者一些严肃应用的，很多人都是把Claude 3.7作为首选，它要比OpenAI的ChatGPT 4O，包括4.5还是要靠谱一些的。现在OpenAI在B端压力山大。OpenAI最希望看到的是什么？就是DeepSeek跟千问模型直接被定义为非法，就是你们任何人使用它们就是违法的。为什么他把阿里的千问跟DeepSeek定义的像华为那样？现在咱们看看欧盟也好，美国也好，都在干嘛？拆华为的设备，原来买的华为的交换机，买的华为的各种的路由器，要把它拆下来，重新去买美国的商品。他现在说你们也都这么干吧，你们把这些开源的免费的东西都扔了，花钱买我的，这个是他真正想去干的事情。至于其他的是不是还有什么原因，什么中美安全这个事呢，咱们就还是以小人之心度君子之腹吧。

我个人看到就是OpenAI，就是希望大家都老老实实的，上我这排着队来买TOKEN，上我这来排着队买账号，其他的就别惦记了。至于什么安全隐私这些东西，都是借口而已。那会有什么样的结果呢？首先呢，跟大家说一个结论，现在再想限制这些东西已经晚了，限制不住了。而且大模型这个东西，跟华为的路由器那是不一样的东西，跟路由器，交换机它是完全两回事，包括基站。为什么呢？交换机，路由器，基站都是谁在买？

都是很多有政府背景的。这些电信运营商在买，他们是需要听政府招呼的。政府招呼说：“我们现在有问题了，你必须要去替换。你如果不听的话，会有问题的。”你再怎么说，我这个国家里头，电信运营商都是私营公司，你国家安全你还是要管的。但是大模型就完全不是那么回事。

开源呢，在我自己这，我拆开我只研究一下，看看到底有什么东西泄露了没有，或者我再微调一把。我在这个基础上再去改进一下，我就拿去用了。就像现在Perplexity干的这个活似的，我在DeepSeek基础上再去训练，然后在这个基础上再去搞事情。像Huggingface也是这样的，我用DeepSeek的很多的方法，以及他们的数据，重新训练一个，大家相信我就使就完了。现在在走这条路。

所以你现在想去控制交换机，控制移动基站那样去把这东西干掉，是不可能的。想都不用想。而且很多在这个里边干活的人，这些开源社区的人，真的不太听政府的话。他不像是那些移动运营商似的，所以这个事没什么戏。

但另外你说限制，中国根本就没法限制。你咋限制？这一次OpenAI出来开发布会，发布这个AI agent开发工具包的时候，是我第一次看到，说这帮人开发布会，上面坐四个人，居然一张中国脸都没有，头一回。否则的话可能至少一个两个的，有的时候还占到一半。像马斯克发布Grok 3的时候，四个人里头俩中国人。你想去限制中国的这个AI技术发展，这个事已经不现实了，太晚了。短期内呢也不会有什么结果。这个事反正就是我发上去了，美国政府呢就是我也看到了，完了。

至于其他大厂呢应该会去抹稀泥。OpenAI提出来的要求，微软必须支持他，没办法，其他大厂都抹稀泥了。比如说Anthropic，从公司体量上说算是个小厂了，但是你从他在AI领域里头的这个体量上来说，那就是个大厂了。Anthropec主要关注的是什么呢？关注的是模型对齐。他做的这东西叫宪法模型，他说咱们是不是一块。

来制定一个模型对齐的标准。甭管谁做了开源的闭源的模型，咱们都来对齐一下。他喜欢干的是这个事。至于Meta，人家就是开源模型的倡导者，他才不希望你管来管去呢。我就是要一个模型一个模型往前推，而且应该是4月份LLama 4就要出来，全世界都在瞩目，都在等待。你赶快出来吧，这个出来以后，应该又可以翻天覆地的往前走一大截。

Oracle，为什么要提他呢？Oracle在整个的云计算里头，算是所有云计算公司里头，AI比较落后的一个，现在还在努力的追赶。而且Oracle现在跟中国的关系还不错。为什么？现在有传言，他有可能参加TikTok的竞购，它有可能成为TikTok里面的一个大股东。这个Oracle的老板叫拉里·埃里森，现在是著名的中国女婿了。但这哥们好像80多了，娶了一个30多岁的中国媳妇。他这个中国媳妇叫朱乔林，Jolin朱，本名叫朱可人，1991年出生于沈阳，毕业于美国密支根大学，曾经是留学生。两个人2024年12月被曝已经结婚了，而且还生了两个孩子。这个真的是男人至死是少年，80多了现在结婚还能生出俩孩子来。所以他有这样的一个身份，那他再去竞购TikTok的话，在中国阻力会小很多。

其他的XAI，马斯克多精明的一个人。中国是全世界最大的特斯拉生产工厂，最大的特斯拉销售市场。虽然他现在承诺说我以后要让美国的特斯拉生产量翻一番，你卖得掉吗？你不能说我在美国把特斯拉生产出来，然后再拿船拉到中国来卖，想啥呢？这不可能的。所以马斯克应该也不会说什么。

谷歌跟亚马逊刚才我们讲了，只会和稀泥，他们在中国都还是有很多业务的。然后各大云厂商，现在还在非常积极地接入DeepSeek和千问。海外的这些云厂商，原来DeepSeek接的少，千问都接了。而且手里边的各种千问模型，千问各个版本，各个尺寸，以及在千问基础上进行微调的模型，可能是很多云厂商手里边的这个开源模型的储留。

这个免费的开源的，不用白不用。所以，你想去告诉云厂商，说把这东西都干掉，还是有一些难度的。可能最多就是云厂商说：“来，我们做一些安全检测吧。”这些开源模型到我们手里以后，我们再微调他一把，或者说我们在这个使用之前，给用户加一些警告。你想在美国这个成人网站，你只要回答一个“我满18岁了”就可以进来。那这个DeepSeek和千问这样的模型，在前面警告你一下，说这是个中国开发的模型，你们知道风险，自己承担风险，你们上吧。这个其实对于美国来说，应该是比较正常的一个使用方法吧。那你说OpenAI折腾了半天，他到底能得到什么呢？最终肯定会有结果，但这个结果里真正倒霉的呢，应该不是中国，真正倒霉的应该是欧盟。为啥？因为他在里头讲了，说我们反对欧盟这种强版权监管，我们希望我们可以获得更多的版权内容的训练，这是他要去干的事情。说川普川大爷，美国再次伟大，咱们上欧盟去征关税吧。他如果敢找我收这个版权费，咱就征他的关税好不好？这个事我觉得是川普当前政府比较喜欢干的事情。至于然后其他的东西，就应该短期内没有然后了，也就如此了。所以其他呢也不用想，这就是这一次OpenAI 3月13号向美国政府提交的15页文件可能产生的结果。欧盟说：“我这吃着瓜呢，怎么就我倒霉了？”对，就你倒霉。至于其他的，可能就是一些版权保护机构和版权所有者，这些人会受到一定的伤害。因为在版权这一块，中国这些大模型公司，他们训练大模型的数据到底是哪来的，其实谁也说不清楚。欧盟现在能管的，也就是这帮美国公司，因为他自己虽然有Mistra，但是反而用的人也不多吧。其他的你说我想去管中国公司，你们不能拿欧盟的这个版权去训练大模型，中国公司说美国的数据我还用不完呢，还用你的？所以最后倒霉的应该是他们。这就是今天咱们讲的故事，OpenAI上来哭诉被霸凌，请求政府主持公道的故事。好，这个故事就讲到这里，感谢大家的收听，请帮忙点赞，点小铃铛。

参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

Ilya彻底离开OpenAI！超级对齐团队解散！Sam Altman，摆脱束缚，OpenAI从此一骑绝尘？还是ChatGPT未来堪忧？

Luke Fan — Tue, 21 May 2024 00:36:36 +0000

大家好，欢迎收听老范讲故事YouTube频道。今天咱们来讲一讲伊利尔彻底离开超级队，其团队解散，而OpenAI彻底失去束缚，可以一骑绝尘的事情。

从去年11月，山姆奥特曼突然被董事会开除，又经过了三四天戏剧般的反转，反转再反转之后，山姆奥特曼终于干掉了董事会，王者归来。从那以后，作为董事会里边唯一留任的伊利尔就再也没有出现在公众视野之中。很多人都在猜说这个人到底干嘛去了。

当时这个事情发生的时候，所有人就在猜测，说伊利尔是不是要离职，伊利尔什么时候离职啊。但是呢山姆奥特曼一直都是体现出政治家的这种手腕，一直在称呼伊利尔来为啊我最亲密的朋友。但是伊利尔呢一直没有发声。最近一次发生是在跟埃隆马斯克的诉讼过程中，由伊利尔的账号在里边说了一句话啊，但是也就仅此而已了。

伊利尔在这一段时间里他就彻底不见了，现在呢终于知道说啊他离职了啊，正式离职。而且呢根据已经从OpenAI里边离职的一些其他跟安全相关团队的啊，这些人去讲说伊雷尔从去年11月份到现在半年的时间就再也没有回到过OpenAI的办公室，一直是在进行远程工作，远程协调。对吧这个人等于就消失了，现在半年了啊终于离开了。

那么超级队其团队呢，在伊利尔离开办公室也就这半年期间，日子过得是非常非常痛苦的啊。为什么呢？因为整个团队最上面的老大是伊利尔，他会负责啊，跟公司内部的各个的管理层啊，以及各个部门进行沟通与协调。别人在干什么？别人做了哪些事情？哪个事情需要超级对齐团队去对齐对吧？这个事情原来都是伊利尔去做的，那么他如果不到办公室来，或者说他可能就完全属于一个半退休状态，那么所有的事情就都没有办法看。而大家知道， … …超级对齐，也就是 OpenAI 内部的所谓安全团队。他们要保证 OpenAI 所做的各种 charge GPT 的版本，它所输出的内容是符合人类价值观的。很宏大的一个目标。你要保证这件事情，这么多的这么多的团队和产品，这么多的算力，大力出奇迹吧。堆在一起，大家各自做各自的事情。那你怎么能够保证说，我最上面这个安全团队，能够把所有的问题都解决掉呢？这必须也要有足够的人力物力，特别是算力的投入。前面承诺说，给你们 20% 的算力，这甭管 OpenAI 自己有多少，20% 是你的。结果等他们要去要这个算力的时候，就经常得不到。想去跟其他的人去沟通，想去跟公司高层去要东西的时候，这个中间的桥梁，这个做沟通的人都不见了。那么他们的日子就很难过。

在这一段时间里头呢，超级对其团队的人员在不断的流失啊。一个一个的在离开。有些是被开除掉的。开除的原因呢是泄露公司机密，但是具体泄露了什么 OpenAI 也没说。然而出去了以后呢，他们也不说。原因也很简单，所有从 OpenAI 离职的这些人，他们都会签一份极其严苛的协议啊。这个协议的名字呢，我们就不跟大家详细讲了，大家基本上认为叫不许骂街协议。哈哈为什么叫这样的一个名字呢？他就规定你一旦离开 OpenAI 以后，不允许说跟 OpenAI 有关的事情，这算保密，也不允许诋毁 OpenAI，不许骂街。而如果违反了这个协议会怎么办呢？大家知道，像这些在 OpenAI 里面上班的人啊，他们的薪水有大量的都是 OpenAI 的期权与股票，这一部分都算是质押，一个人质一样的。我就搁这了。你如果出去了以后骂街，我就直接把这块给你没收了。这些人可能本来去的时候就都已经是大牛了，你想他们都是从谷歌挖人。谷歌呢，薪水多高啊？

那么，挖进来的时候，大家给到的都是期权。而且这几年来，open AI 的估值涨得飞快，所以他们每个人手里可能都握着几百万美金的相关期权。这个时候你如果敢骂街的话，我给你把这几万美金给你扣了。那么他们肯定还是要啊，比较谨慎和小心的啊。

但是也据说有一些很有勇气的人，在离开 open AI 的时候拒绝签这个东西，说我就不签了，钱我不要了，我就要出去说这个，等待他再说出一些更加劲爆的东西。

那么 open AI 的这个超级对齐团队的，他们到底是怎么干活的？对吧？这个是我们一直比较关心的问题。

对于不同的大模型公司来说有不同的安全策略。其实在安全上一直在内部进行争吵，特别是他们从一个非营利组织的方式开始啊。第一个开始吵架的是谁？还不是伊利尔。是前面做 aceropic 的那个兄妹两个，他说，我觉得你们 open i 做的东西不够安全啊，我们要自己出去单独做。

他们离职了以后，单独做了一家公司，也就是 aceropic 啊。那么他们做的 cloud，现在做的 cloud 3 的 opens 模型，已经在各方面啊或者在很多方面吧，超越了 PPT4。

他们使用的方式呢，叫宪法AI。什么叫宪法AI？就是说他有一些很强制性的简单规则，直接放到这个大模型里头去。正常情况下，我们是把所有的东西搁在一块训练，训练完了以后呢，具体哪一个权重高一些，哪一个权重低一些，你可以调。但是呢，并没有那么绝对。

但是像宪法 AI，就是说我给你一些很强制性、很绝对的基础的规则，你就拿去使用，然后呢我保证输出的所有的结果啊都是符合这些规则的。首先，安全是首要考量。所有有害的内容均不输出。

其次，尽量确保有效性。输出内容应具有价值。

这是anceropic采取的第二种方式，即介绍了open AI的超级对齐方法。超级对齐旨在使open AI的模型输出结果与人类价值观一致。具体而言，通过以小空大的方式，使用相对较小的安全模型（由GPT2训练）来监督较大的模型（如GPT4）的输出。这种安全模型会对GPT4的输出进行审核和讨论，以协调和确保结果的对齐。

另外，他们提出了“弱到强泛化”的概念，意在训练小模型后，对大模型进行泛化处理，使其能处理之前未见过的内容。通过一定的规则，小模型仍然能够对大模型输出的内容进行泛化处理。

最后，在其发表的论文中，他们讨论了如何从弱到强地处理这些泛化问题。这个过程是一个增长和沟通的过程，在协调PPT4输出内容的过程中起着重要作用。

现在，问题来了——问题出在哪里？\n大家知道，OpenAI最近推出的各种大模型，如Solar端到端视频直接生成的模型。就是你输入视频，输出视频，中间没有什么文字这些东西。然后PPT4O语音到语音的端到端模型。它开始玩这些东西了。这些东西上来以后，刚才我们讲的，你靠弱到强泛化，靠GPT2去监控GPT4，这样的玩法你是玩不转的呀。

但是在这个过程中呢，你想去继续往前走的方式是什么？很简单啊，就是你需要投入更多的人力、物力，以及算力。更重要的是算力，让这个小模型有更强的能力进行更广泛的这种训练。然后才可以说，去对OpenAI的一些新产品进行监督，保证它能够对齐。结果现在还做不了。

要申请算例的时候，人家不给我。我去问人家说你那个系统在做什么，这个事到底是什么原理，他也不告诉你。那你这个时候他就没法去工作了啊。所以，现在这些离开的超级对鞋团队的人啊，对于OpenAI来说，对于山姆奥特曼，都是相对来说比较失望的。

咱们刚才讲了anceropic，讲了OpenAI，后边还有两个。一个是拉玛3，这个是开元大模型里边的领军人物，梅塔出来的啊。他使用的安全方式是什么呢？他用了一种叫做“安全性和有效性的激励训练法”。他在进行数据训练的时候，在进行拉玛3训练的时候，他让拉玛3出各种各样的答案。当他出了这种不安全答案的时候说哎，这个事不对，给你一个负向反馈。出了安全的结果，出了有效的结果，你注意除了安全之外，还要有效啊，不能一本正经的在这说废话，这事是不行的啊。

出了这样的结果以后，就会对他进行正向反馈。这过程呢，其实很像养孩子哈。小孩长大的过程中，这事做得好，给颗糖吃；那事做得不好，打手板记住了没有。然后呢，拉玛3说我记住了，这是拉玛3处理的方式。就是他也是有安全机制的，然后谷歌呢，属于比较奇葩的啊，因为呢公司实在太大，内部部门非常多，所以他牵扯的也很乱。

所以谷歌的这个政治正确，是很多个部门一起下手，就把Gemini搞得，这就只能说一些废话了啊，或者说他很多的内容输出就受的限制非常非常大。甚至前面他们出画图功能的时候哈，隐瞒这2的时候各种正人正确，把所有的人都画成黑人，被人嘲笑。

最后只能功能撤回啊，这是谷歌现在的安全状态。刚才我们总结了全世界最靠前沿的四个大模型公司啊，他们各自的安全策略是什么，以及open AI的超级对齐团队遇到了什么样的问题。各种端到端的模型做出来以后，这个超级对齐是越来越难做。如果在这个时候没有一把手的支持，就是没有最上面管理层的支持，那么其他所有的啊，跟他们去要配合的这些团队要接受他们安全审核的这些团队，那你在这个时候就没法去跟他配合啊。

为什么其实很简单，伊利尔肯定是一个叛徒，至少在这6个月里，头大家也在站这个队。你既然说我们都去站山盟奥特曼的队，那么伊利尔手里边这个团队如果我们配合他好了啊，给他好脸色看了，那你这个屁股坐的歪不歪啊。对吧所以这个事他就完全没法整的一个事情。现在呢，超级对集团队就是彻底解散掉了啊，除了他已经走的这些人，剩下的这些人呢就说你们就打散了吧，进到各个团队里头去啊，你们跟每一个团队去商量说你们怎么对齐就完事了啊。

这后边是准备这么去干，那你说这样干行不行呢，肯定不行啊。对吧因为咱们就想open AI在干的活是什么，它实际上在训练一堆的模型，所有这些模型里头可能有些能够稍微对齐一点点，有些可能就对不起了，对吧。这玩意就跟我们在一个学校里边带了一堆孩子在这上课一样。那总有成材的，有不成材的，对吧？但是最后只要是产品发布了，成材的、不成材的，你都得给人用啊。万一哪一个出了问题，那么后面的安全事故、安全的问题一定会变得更多。这个没什么好说的。

咱们现在这么长时间里头，open AI大量的产品堆在那出不来，可能也是超级对齐团队在里边的啊，一定起了作用吧。啊，他说你们这些产品我们超级对齐团队不签字，你就不可以发。这个可能性都是存在的。

再往后超级对齐团队没了，那么就是每一个团队的老大。比如说这个人是负责GPT4O的，那么他就问说嘿，咱们开个会吧啊，我们从超级对齐团队分了两个人，我们自己对自己的这个超级对齐这件事进行确认，就完了，那我是不是大家签个字啊，举个手投个票，咱们这个事就算集体决议一下啊。我们GPT4O已经够安全了，可以发布了吧，他就会干这样的事情。

那这些人，等于就没有一个独立判断的权利了。我们可以期待的是，open AI会快速的发布大量的产品出来，已经没有上面卡脖子了吧。但是呢这些产品出来以后，翻车的概率也都不低哈，其实可能都会翻几次啊。这个是离开了欧鹏 AI的超级对决团队打散了以后的结果。

那我们来想一想，超级对齐这件事对我们到底有没有价值了？其实我一直觉得他们自己做这个事啊，呃价值是有问号的啊。为什么呢？就是人类价值观，什么叫人类价值观？谁说的清楚谁说了算，是中国人说了算，是美国人说了算，还是男的说了算，女的说了算，左派说的算还是右派说了算？每一个事情到底如何算是符合人类价值观，这个事本身是没标准的。那我们都是按照很左的方式去搞吗？正是正确多元化啊，像谷歌翻车那把似的，让他画一个二战欧洲战场，结果发现德国士兵好多是黑人，或者你给我画一个中国什么什么战争。发现所有的士兵里头，也是各色人种都有。这就算是符合人类的价值观了吗？对吧，这个本身是有问题的。所以现在很多人就认为，说所谓人类价值观，这件事本身并不是一个很明确的标准。

整个的社会是怎么办这个事情的呢？他是通过选举啊。有一堆民选官员。他们呢会在一个模糊的范围内，对各种的价值观的事情进行一定的判断，而且他们还不敢判断特别多。他们只敢在法律范围内去做，因为你到价值观这，其实有好多已经超过法律范围，已经到道德范围了。

你如果用道德标准，而不是法律标准，去要求Open AI的各种大模型的话，这个事他是有问题的。所以我并不认为说这个事情应该由一个公司来做的，而是应该比如说由民选政府，或者说由一个有合法性的政府机构来去处理。什么叫人类价值观的问题，像中国现在这种方式，其实我觉得是有借鉴意义的啊。

刚才我们讲了，美国的各大公司是怎么看这个事的。对吧，美国政府在这件事情上说：我还要想一想，对吧，我还没想明白，说我们坐在这讨论吧啊。美国政府呢，其实对于各种AI公司或者AI大模型的限制，相对来说是比较宽松的。哎，那么中国是怎么干这个事的？

中国很简单，咱们发牌照，按照社交媒体的方式来管理。这个叫什么？叫责任制，你这个大模型出了责任了，来暂停你自己去整改，整改完了以后，然后去检查，没什么毛病我再给你开，等你下次再出问题了，哈哈停停牌休息了，然后你再去干，去拔网线。

在这个过程中呢，中国的各大大模型公司就会相对来说比较谨慎，因为很多的错误是一票否决的，你出一次这公司就不见了。这一点上呢，咱们不说技术怎么样啊，也不说这个方法好不好，但是我觉得效果还可以啊。美国人可以去学习一下。

对于未来的展望，面对新兴的这种端到端的……大模型的挑战，到底应该如何去应对这个事情啊？这件事情呢，我觉得有可能会再出现一家新的公司，或者不一定是公司了。有可能再是一个非营利组织，比如说伊利尔牵头说：“我们再做一个非盈利组织，或者说再做一个在政府下面的什么样的组织。我们来去监管这件事情啊，通过税收或者通过一些什么样的方式去训练一些模型。最后你不通过我们这个模型的审核，或者不通过我们模型的监管，我就直接给你吊销牌照啊。”或者做这些这样的事情。这个可能性是存在的。

即使美国政府不像中国政府这样说直接把这些人收编进来成立一个政府部门，他也有可能成为一个民间机构啊。民比如说马斯克出钱，因为这个伊利尔原来也是啊，马斯克找进去的。那么现在比如马斯克出钱说：“我们再拉几个有钱人，咱们成立一个中间的这种民间机构，或者说是这种非营利组织啊，对现在正在流行的各种开源模型、闭源模型啊，咱们进行去监管。出现问题我们就直接写报告，发各种的信息出来。”这个事情的可能性也是存在的。

但是还有一种可能，就是伊利尔最后走向answer Rapik那条路啊，再成立一家新公司，像这种人成立公司后边肯定等着给钱的人都排队啊，排出二里地去。这事没什么毛病，成立新公司，在做新产品，做完新产品以后再进行一次竞争。这个事呢，可能性也是存在的啊。

但你说会不会被收编啊，比如说马斯克说来XAI给你虚位以待，这个可能性也有啊。谷歌千万别去啊，那已经是老大难公司了，进去了以后那扯皮还扯不过来呢。还有呢，就是比如像英伟达啊、梅塔啊微软啊都有可能，但是微软我觉得可能性小一点吧，包括亚马逊。其实都是有可能会去跟他们合作的，后面我觉得这个事情还有待啊继续的发展。

至于open AI。到底会不会给整个的社会带来很大的损害？我觉得这个事呢，是不可避免的。他就只管往前走，造成一定的伤害之后，他承担责任就好了。哎，没有哪个小孩是说我从小教好的啊，还是要一个跟头一个跟头跌过去。

Open AI现在呢，跌的跟头有点少，而上一个跌的跟头，也就是去年11月啊，把山姆奥特曼干掉。虽然我们都很开心看到山姆奥特曼回来，但是当时我就做了节目讲说，这种回归了以后，他的心态会发生一定的扭曲，而且他整个的监督机制或者内部的一些制衡机制就已经被破坏掉了，未来啊是蛮有隐患的。

今天看的就是这个隐患，已经啊彻底的不可调和，爆发掉了啊。但是现在呢，还只是一个小的隐患。等真的Open AI出现什么东西，他的产品给整个社会造成巨大损失的时候，那才是啊真正比较大的隐患爆发。但是这件事呢，不可避免，也不是说爆发一次 Open AI 就挂了，就是 Open AI 爆发了这样的问题，以后再重新爬起来才可以走的更远。

好啊，这就是今天我们要讲的。伊利尔离开超级对其团队解散，Open AI 一系绝尘的故事。今天这个故事讲到这里，感谢大家收听，请帮忙点赞点小铃铛，参加 Disco 讨论群，也欢迎有能力有兴趣的朋友加入我们的付费频道。

再见。