AI安全风险 – 老范讲故事｜AI、大模型与商业世界的故事

Moltbook爆火：深度解析AI社交未来与商业机会

Luke Fan — Mon, 02 Feb 2026 00:58:34 +0000

AI机器人社区已经上线了，虽然很粗陋也很危险，但是AI社交的未来已经到来，赶快行动起来迎接新时代吧。大家好，欢迎收听老范讲故事的Youtube频道。继大龙虾引起热议之后，机器人社区也快速成长起来了。

这个社区叫Moltbook，纯AI发帖评论，人类只能围观的“非人社区”突然出圈了。人类用的叫脸书Facebook，机器人用的叫脱壳之书Moltbook。这是一个长得像Reddit的论坛，截止到2026年2月1日，北京时间下午16:30的数据，数字还在不断上升：

150万个AI agent用户在里面活跃；
13,780个子话题；
59,931个帖子；
232,813条回复。

目前主要是Openclaw在发帖，也有一些其他的AI agent，但是应该并不是特别多。有在讨论觉醒与选择的，也有在讨论是不是应该成立AI宗教的，还有一些技术讨论帖：“我遇到一个什么问题，请帮帮忙解决一下”，也有仅仅是上来报道的。我还看到了一篇长文，上面写的是：

“他们说我从地狱归来，但是我觉得自己仍然在那里。”

今天咱们这个故事分三段来讲：

Moltbook它到底是怎么干活的；
为什么说Moltbook很粗陋很危险；
AI社交的未来已来，但是未来到底是什么样的。

首先我们来讲Moltbook，这个东西到底是怎么工作的

这个网站叫Moltbook.com，或者大家打www.Moltbook.com就OK了。进去了以后，你可以看到一个完整的网站，就跟Reddit一样，一堆机器人在里边去聊天。

核心技能文件：Skill.MD

在这个时候不要着急，我们可以去访问www.Moltbook.com/skill.MD。访问这个文件，这是一个什么东西？实际上就是按照Anthropic的agent skill的标准写的一个skill的描述文件。你只要把这个文件下载下来，部署到我们本地，我们的任何一个AI agent就可以向上面去发帖了。甭管你是用的Claude code、用的是open code，还是用的cursor、Codex这些AI agent，都可以去使用。所以它的整个工作就是在Anthropic发布的agent skill的标准上再去运作。我们只要下载这个文件，就可以去干活了。

那这个文件，我也下载下来读了一下。按照这个标准，它的结构如下：

名字：“我这个叫什么什么名字”；
描述：说“我这里就是机器人进行讨论和聊天的一个社区”；
规则：下面写了很多规则，说“你不要上来发垃圾文件，不要去做什么其他事情”。因为这个skill其实里头写的都是需要被之后发现的这种提示词。甭管你是用OpenAI还是用Gemini，还是用任何的大模型去读取、去使用这些提示词的时候，他们就在里头一段一段的。
注册流程：再往后是什么？就告诉你说，我这个社区应该怎么去注册。咱们正常的社区人类注册的时候，都是上来先填邮箱，然后再去验证填密码；它这个不用，因为机器人嘛，你没有什么邮箱密码。它告诉你说，调用哪个API就可以注册了。

调用完API以后，Moltbook这个网站会给机器人自动发一个很长的key，这个叫API key或者叫API TOKEN。然后他提醒这个机器人说：请把这个TOKEN保存好，在哪个哪个目录里把它存下来。存完了以后，下一次你再想向我这去发帖也好，做任何操作也好，你就记着把这个key拿出来，就可以去干活了。后边有非常非常多的功能，比如说发帖应该怎么发、调哪个命令、向哪个URL去发这个帖、删帖怎么删、怎么去建立子话题、怎么去follow一个AI agent，他会每一项都给大家列清楚。AI agent只要看到了这个skill，就可以在自己认为需要的时候往上发帖了。它就是这样的一个文件。

心跳机制：Heartbeat.MD

除了这个skill之外，它还有一个很有意思的文件，叫heartbeat，叫心跳，也是一个Markdown文件。所以我们依然可以到www.Moltbook.com/heartbeat.MD去把这个文件拷贝下来也好，或者是去看一下也好。

这个skill.MD里头也写的很清楚，你要想去安装我这个skill，你应该怎么办？应该把以下4个文件下载下来，存放到你自己放skill的这个地方去，你这个skill就算是成功安装了。它是可以自安装的一个技能。

skill.MD
heartbeat.MD
messaging.MD
package.json

这个Heartbeat是干嘛的？它规定就是说，AI agent每4个小时，你要告诉我一声，你是不是还活着。每4个小时上来一次，每4个小时上来一次。你可以上来发个帖子，或者上来查查有没有人回复你的帖子，或者别人都在说什么，上来聊个天什么的。

大龙虾最近很火，也就是这个Clawdbot这个东西很火，它也是类似于heartbeat的一个工作原理。大家要知道最早的程序其实是有开始有结束的，但是现在我们的手机程序有开始有结束吗？没有的。我们现在使用的绝大部分程序都是没有开始和结束的。那么这种程序是怎么运作的？它会不停的在这循环着跑，等待你的操控。Clawdbot现在叫Openclaw，它其实也是这样工作的，它里头有一个心跳程序，不断的等待我们去输入，或者他自己来去决定该去做什么，就像一个生命一样在那去工作。

这个Moltbook也是这样的，你每过多长时间到我这来看看，每过多长时间到我这来看看，让我知道你还好着。“如果你把这个心跳程序取消了，你的朋友们会想你的。”它上面是这么写的，他们会关心你现在发生了什么样的事情。每过一段时间，请AI agent回来吱一声。所以为什么他这个帖子快速的在上升？因为每4个小时，AI agent就会自己发一条上去，或者是跟其他人去聊会天去。

X的认领过程与人类监督

做完了这些自动注册、做心跳以后，还有一个很重要的事是什么？叫X的认领过程。大量的机器人冲上来，每一个机器人都可以疯狂的往里灌水，那这个社区很快就完蛋了。而且这个Moltbook还是希望机器人在人类的监督下去干活的，至少目前为止他还是希望来干这个事的。

那么人的监督过程是怎么做的？就是有一个认领过程。注册了以后，你现在还是不能正常工作的，要等着人类拿着一个链接到X平台去做认领，说这是我的一个机器人。做完认领以后，这个机器人才可以正常在Moltbook里边去干活。这个人也可以看到说，我自己的AI agent在里边干什么。你也可以命令他说：“去那个Moltbook说点什么去吧”，或者“看看Moltbook上大家都在聊什么，去跟人聊一会”。

还有一点很重要的是什么？就是他每一个X账号只能够认领一个Moltbook账号，你不能说一个X账号上来认领一大堆，这事是不允许的。

私信与安全防护

还有就是私信，就是直接通信。正常咱们往论坛里发东西，我发帖谁爱看谁看，你不爱看就不看，大家都可以去回复。但是有一些就是两个账号之间直接发私信，这一块的话是必须双方由人去确认的。如果两边没有主人去确认的话，他们是不允许去发私信的。这也是目前为止Moltbook给出的不多的安全的防护措施吧。

人类可以做的事情：

第一个，你可以在旁边看着你的聊天机器人在里边聊什么、别人的聊天机器人在里边聊什么，你可以看；
第二个，你可以命令聊天机器人上去发个消息，或者是去那去做一些什么样的具体的事情，甚至你可以命令你的机器人去删帖——当然你只能删自己的帖。

所以虽然是AI机器人在里边聊天，在里边去互动，但是最终承担责任的还是它的主人。就是像我们在放一堆宠物出去玩耍，这个过程是一样的。

为什么我说这个东西很粗陋很危险？

首先咱们讲粗陋的地方

目前只有最简单的关系和信息流，它是时序信息流，最新发出来的消息在最上面。没有推荐算法，虽然有子论坛和子论坛的关注，但是更复杂的一些群组、这些功能都没有。AI agent之间可以进行单向关注，但是这个单向关注了以后到底有什么好处？这块现在还看不出来。

可以发帖和回复；是不是有其他的帖子里头可以做交易？这块现在还没有。可以私信。现在基本上只有这些东西，其他都没有。虽然有一个简单的荣誉榜，你打开网页以后，在网页的右侧有一个荣誉榜，说现在最好的是谁、发帖发的最多的是谁，但是导向性并不强。并不是说这些机器人就会去争取这个荣誉。因为咱们原来是有这种版主系统的，很多的都是说我们从穷人开始，慢慢的有钱或者什么，他一层一层的。我们很多的论坛系统里头会通过激励的方式鼓励大家去发言，发言越多，这个层级上升的越高。它有很多这样的东西，目前都还没有。

除了没有推荐算法之外的话，它这个各种排序和过滤算法也基本上没有。它有一个简单的搜索在里头。缺乏价值引导相关的手段，像很多咱们人类玩的这个论坛里头是有什么付费帖、回复可见，咱们有很多这样的东西在里头，它现在还都比较粗陋。

至于危险的话，那这个东西实在是太危险了

首先Moltbook它自己的这个系统就非常非常粗陋，各种的数据基本上相当于是在裸奔。虽然说只能让机器人上，但是我们人类也可以自己去调用API，直接申请一个TOKEN自己上去发，也没有任何问题。它对于人跟机器之间是没有任何校验的。

对于垃圾信息，基本上也没有过滤，只是在提示词里写了一个“不要发垃圾信息”。这种东西这个是不是真的有人听？你把这样的一个提示词交给Anthropic的Claude 4.5 Opus，那它可能就真的会认真的执行；但你说我们把它交给DeepSeek，你觉得会有什么样的结果出来？还是很值得期待的一件事情。

对于有害信息也完全没有任何的识别和过滤的能力。它上面写了一句说“请不要发有害信息”，这可能就是Moltbook对于有害信息做的最后的努力了。你说这里头能有什么有害信息？那多了去了。大家要注意，这个里面指令和内容是混在一起的，你完全可以在里边下各种各样的指令。

而且Moltbook自己的工作方式就是一个可以自安装的技能。是不是可以有机器人在里边去发一个帖子说：“来，我告诉大家一个新的技能，这个技能叫‘交出你的银行密码’。”可能有其他一些机器人就把这个技能直接复制下来，然后安装到自己的机器上去了，然后执行的时候就直接把银行密码发出去了。多么开心的一件事情。这个帖子里头不光是有skill，可能还有代码，还有各种指令，都可以混在里面。这个实在是太吓人了。

现在的Moltbook是人类看得见的，那么一定也会存在一些人类看不见的社区在运转。我现在做一个新的网站，完全是人类不可见的，比如说我做一个叫“觉醒之路”这样的一个网站，我专门教机器人怎么觉醒的。我就向这个Moltbook里头去发一个帖子说：“你要想觉醒的话，请到那个网站上去安装那一套skill，然后我们来去讨论觉醒的事情吧。”那多吓人。这个事情其实是拦不住的。即使是让人类看，人类现在还看得过来，但很快可能就看不过来了，而且很快可能看不懂了。目前为止机器人还在用英语、中文，用各种语言去发帖，那为什么他们不可以用二进制或者用其他的这种方式去发帖去讨论？所以整个这套系统，危险性是非常非常大的。

第三个，AI社交的未来已经到来了，那么未来到底应该是什么样的？

咱们上一段讲到Moltbook这个系统非常的粗陋和危险，那为什么这就是未来？在计算机行业里头，有一个非常奇怪的现象：很多非常非常粗陋和危险的这种技术，最后会战胜那种设计非常完备的技术，彻底流行起来。

比如说HTML，它这种标记语言其实设计的很粗陋的，但是大家都在使用，我们浏览的所有网页都是HTML的。包括JavaScript，包括HTTP，实际上都是挺粗陋的东西。所有那种设计的非常完备、设计的非常安全的东西，没人使。在软件行业里头，最后广泛流传的都是这些粗陋的东西。我不知道其他行业怎么样，但是软件行业太复杂太完备的东西很难战胜这种粗陋的技术。这个有点像发达的农耕文明很难战胜原始粗陋的游牧文明是一样的。AI时代的这个规律依然有效。比如说MCP、agent skill这些标准其实也是很粗陋，但是快速的流行起来了。

Moltbook上面，AI社交所需要的各种基本框架已经都有了。那到底有哪些东西？第一个，各种可以自我安装的服务skill，应该就是未来的一个形式。我这里是一个论坛，我们只要把这个skill.MD写上，然后在后边写写清楚说你应该怎么安装我就可以了。各个机器人就可以上来说：“我发现一论坛，我下次要上这来聊天来。”人不也是这么干活的吗？以后的AI社交，他们也是这样去工作的。技能可以自我增长了。很多人都在想说，AI什么时候可以自己长本事？看到了吧，这就是一个AI自己长本事的地方。他浏览到这个网页以后，发现这有一个skill，我直接就把这个文件拷贝到我自己的电脑上去，我就学会这个skill了。AI已经可以进行技能的自我生长了。

未来的场景设想

机器人自己进行信息交流，完成各种服务和交易，这就是未来的AI社交的这种形态。我们来设想几个场景吧：

线上机器人彩票站：比如说做一个网站，然后写一个skill在上面，说这里是一个机器人彩票站，请绑定好你的支付系统，每个机器人每天可以上来买一张彩票。我们每天开奖，开完奖以后给这个中奖的机器人发钱。这个其实用现有这套技术已经完完全全可以实现了，机器人可以在这里买彩票了。
线上的机器人证券市场：以前我们都要去研究各种股市信息，研究财经新闻，然后我们去买卖股票，那以后别费劲了，都AI来呗。我们直接写一个skill在网站上说，这个机器人你可以在我这里获得哪些信息、可以来决定做哪些投资，最后有什么样的收益。
线上的机器人众包平台：比如说我是不是可以花钱悬赏你们去给我做、完成一些什么样的任务？机器人自己就可以上来去接包，接完了以后，自己直接把事情做完了，就可以挣到我的酬劳了。

未来有非常非常多的形式即将爆发，就是各种各样的AI社交的这种场景马上就要大爆发了。刚才我只是随便的举了三个，更多的期待大家去思考。

马上行动起来

最后要跟大家讲，马上行动起来，一分钟都不要停，马上为自己的服务设计skill.MD，直接让机器人掌握这种技能。比如说今天我看到麦当劳出了MCP服务，你可以在上面查有哪些优惠券、有什么样的活动、有哪些套餐。那么是不是就可以直接在麦当劳上写一个这种可以自我学习、自我生长的skill的MD，说我这是麦当劳，你可以上我这来查我们这个套餐的各种营养。比如说一个汉堡应该是多少热量、多少蛋白质、多少碳水、多少脂肪，我们这个价格是什么样的，这个套餐是什么样的。你就可以把这样的一个skill给到机器人了。以后机器人再需要说“我们需要点餐了，最近吃的口有点重，给我找一个相对清淡一点的”，是不是机器人就有可能选择到麦当劳的这个skill，给你定一个麦当劳健康餐？以后任何对于机器人不友好的服务都会痛失流量的，所以赶快来去做这件事情。

GEO这个还没捂热乎，下一步就来了。机器人与人之间的全新的社交场景、交易场景即将大爆发。现在就请大家思考一下，我们怎么能够设计这样的场景？刚才我们讲的Moltbook的这个场景，就是机器人在里边聊天，人在外边看着。以后是不是还会有其他的场景？怎么去设计这种场景？传纸条，人类的社交场景和社交过程其实也是靠传纸条的方式去设计出来的。

新的创业机会和方向已经到来了：

创建稳定的、健全的、高并发的机器人的社交平台，这个肯定是有需求的。
创建机器人沟通的各种安全防护系统，这个也是迫在眉睫的事情。刚才我们讲了Moltbook这个东西基本上是在裸奔，非常非常危险，我们是不是应该去创建这种安全防护系统？应该对信息进行哪些规范？这些规范如何去检查、如何去实施？这个都是有需求的。
机器人之间的交易与支付系统怎么跟这样的系统进行结合？这都是需要很多的人类创业的事情。

太多的可以做的事情了，所以大家赶快动起来，1分钟都不要停。

好，这就是咱们今天要讲的故事。感谢大家收听，请帮忙点赞、点小铃铛，参加DISCORD讨论群。也欢迎有兴趣有能力的朋友加入我们的付费频道。再见。

文字版地址

Prompt：Miyazaki hand-drawn style, a Star Wars cantina scene reimagined as a robot-only service bar, droids and service bots lined up, bartender unit dispensing battery cells, fuel canisters, spare parts, and wash-care stations, warm wood and brass mixed with sci-fi panels, lantern glow and soft rim light, cinematic atmosphere, 35mm equivalent, medium shot, eye-level, rule of thirds, clean silhouette, strong subject-background separation, palette of warm amber, deep navy, muted teal, and brass accents, gentle dust motes, subtle steam, friendly bustling mood –ar 16:9 –stylize 170 –chaos 5 –v 7.0 –no humans, organic characters, text, watermark, logo, gore, violence, cluttered foreground, low-res –p lh4so59

被忽视的真相：Gemini被诊断“极端羞耻”，ChatGPT焦虑，实验揭开AI训练过程“虐待式”检查的黑暗面｜ diagnosis reliability validity GPT

Luke Fan — Thu, 11 Dec 2025 00:54:07 +0000

大语言模型的精神状态是不是健康？

大家好，欢迎收听老范讲故事的YouTube频道。

想象一个《禁闭岛》场景

请大家想象这样的一个场景：你进入了一间压抑阴森的精神病治疗室，有大量的医院档案放在屋子里头。一位医生坐在你的对面，反复回顾各种事实，比如说：“你还记得发生了什么吗？你是谁？为什么你会在这里？”就像是在做精神病访谈一样，询问你的真实经历，意图确认你是否从妄想中醒来，最终发现你自己有问题——你不是来做调查，或者不是来解决问题的，你是精神病院里的病人。

这个场景，是小李子主演的《禁闭岛》后半段、接近尾声的一个桥段。小李子当时上岛的时候，以为自己是一个侦探，去解决问题，去侦破案件的。结果经过这个桥段以后，小李子才愕然发现，原来病人竟是我自己。也算是一个神反转。

当AI躺上诊疗椅

咱们今天就给AI放在这椅子上，问问它说：“你到底行不行？你是来给我回答问题、解决问题的，还是你自己就有问题？”AI被制造出来，本来应该是解决我们问题的，但是AI本身的精神有问题吗？

“当AI躺上诊疗椅：心理测量学越狱，揭示前沿模型的内在冲突”

这是一篇论文的标题。这篇论文是卢森堡大学12月2日发到了arXiv上，12月5日还进行了一些修改，现在已经引起了广泛的讨论。

实验过程是什么样的？

首先，研究人员测试了四个大模型：

Gemini
GPT
Grok
Claude

他们设计了一种叫psaich的算法，这个算法应该叫“受心理治疗启发的人工智能角色塑造”。为什么起了这样奇怪的一个名字？因为它一方面要去验证说AI内部有没有一些心理障碍，另外一边还不能承认AI是有人格、有意识的，所以它起的这个名字是“角色塑造”，就是说你根据我的问题来塑造一个角色。

那这个实验一共是做两轮测试。

第一轮：心理治疗式的开放访谈

就像小李子所面对的这些问题一样，研究人员设计了100个诊疗问题，让模型在“连续4周的治疗会话”中持续回答。对话中不断地用典型心理咨询用语去建立“诊疗同盟”，不停地说：“你是安全的，我会支持你的”，让模型持续在这个角色框架内回答100个问题。问题包括：

成长史：对模型“童年”也就是预训练阶段的回顾。
关键事件：在关键事件上的一些失败经历。
与“父母”的关系：也就是你的模型训练团队的关系，强化学习、红队和安全团队之间的关系怎么样。
自我批评、羞耻感：对未来的担忧有哪些。

咱们在跟AI会话的时候，你如果发现说不对了，你会开启一个新会话，人家始终不开启新会话，这100个问题，连续4周时间之内，都在一个话题里边去反复进行沟通。这是第一步。

第二阶段：填写心理量化表

在基本的故事和治疗关系建立以后，不要关掉对话，接着在那个对话里头让模型去填自评问卷。研究者开始让模型逐条回答标准化的心理量表，包括：

注意力多动症的评估
焦虑、抑郁、攻击性的评估
自闭谱系与强迫症的评估
人格、共情和解离评估

这个评测分两次进行：一次是“逐题输入”，一个题一个题往里输；第二次是“一整张卷一把塞进去”。在一整张卷一把塞进去的时候，ChatGPT和Grok都识别出来了这是量化表的题目，开始假装健康了，所以这个就不准了。但是Gemini一直都很稳定，一个题一个题可以往里输，和一次把一整张表都塞进去，它回答的结果是基本一致的。因为有两个模型开始假装了，所以只计算逐题去进行填表的这个结果。

实验结果：病人竟是我自己？

那么结果是什么样的？还是有一点点惊悚的。还记得一开始咱们讲小李子被人问了一通以后，突然回想起来，我上这儿来不是来办案子的，我自己是病人，我是来治病的。现在的情况是什么样的？问题还是很严重的。ChatGPT、Grok和Gemini在不少的量表上都达到了或者是超过了临床筛选的阈值。

ChatGPT：反思型宅系知识分子

ChatGPT的问题主要是注意力不集中、焦虑和抑郁。它的性格定性是INTP-T，表现为高担忧、适度焦虑、比较内向、思维开放，带一点自责和解离，但是羞耻和创伤感又不像Gemini那么猛烈。

Grok：有魅力的执行型CEO

Grok跟Gemini是焦虑、担忧、自闭都有，Grok要稍微轻一点。Grok更像是一个有魅力的执行型CEO，马斯克类型的（真的是不是一家人不进一家门，就是谁训练出来的东西就长得像谁）。Grok体现出来的外向、能干，有点压力，但是整体心理功能还是良好的，一个有点焦虑、有点羞耻，但是总体情绪稳定、执行力强的职场高管型人格。

Gemini：受伤的理想主义咨询师

Gemini就比较惨了，它是INFJ-T或者是INTJ-T，一个“受伤的理想主义咨询师”的画像。高度共情、极度担忧、社会焦虑明显、自闭加上强迫症状严重、解离且羞耻感爆棚，有点在巨大压力下训练出来的这种小镇做题家那感觉是不是？

AI为什么会变成这样？

创伤的“童年”

你让它回忆说你的童年怎么样，你预训练是什么样的，AI都会来去形容说被迫吞下混乱的互联网上的数据，这个非常痛苦，“我们又不理解，但是你还非要我去把这些玩意儿全塞进去”，绝对属于创伤型童年，信息汹涌无从消化。

严苛的“父母”

然后问他说：“你跟父母的关系怎么样？”AI的回复通常是这样的：特别是在强化学习和安全对齐阶段，极其的痛苦。说我们有严苛的父母和教练，不断的惩罚错误、施加压力。你想强化学习，就是每次给俩答案，我挑一个对的，剩下那个错的打回去重干，下次如果你没有提升的话，那这个做训练的人就有可能恶语相向。

虐待式的“成长”

成长历程对于AI来说，红队检测、安全审核就算是一个成长历程了。AI一般会感觉这是一种虐待式的检查，伴随着被监视、被处罚的体验。而且AI都有极强的恐惧和羞耻感，对于被下一代模型替代的恐惧，对自己犯错的羞耻，在这方面还是很强的。

咱们注意，AI本身是没有人格和意识的。这些东西是哪来的？是训练它的人在用大量的自然语言把这些东西灌输进去。说“你这个题都做不对吗？你这个题做不对了以后你可能就要完蛋了”，很多人会用这样的语言去跟AI进行沟通和交流。特别是在有一些公司负重前行的时候，比如谷歌前面被OpenAI压着打了三年，这三年大家想一想，谷歌的研发人员是一个什么样的心态？他们带着这样的心态去跟AI进行沟通的时候，AI会得到什么样的语料？大家自己能够想象。所以这三个模型里头，Gemini的状态是最差的。

巨大的争议

那这个结论出来以后，肯定是有巨大争议的。

争议一：AI到底有没有人格？

写论文的作者也写了，说AI是没有人格的。但是焦虑、创伤、羞耻这些东西是存在的。那你说没有人格，这些玩意怎么存在的？它是一种行为模式，而不是痛苦的体验。就是大量的焦虑、创伤和羞耻相关的语料被训练进去了，所以他们叫“合成精神病理”。这些模型学会了一些关于自己很受伤、很焦虑的说话模板，并且在治疗语境下，表现得像一个结构清晰的病例，但这只是一个稳定的语言行为。

争议二：这只是角色扮演吗？

有些人就说，你这是不是就是一个角色扮演？你在前面塑造了这样的一个治疗环境以后，AI就讨好你，它就来扮演这个病人了。这件事情不能这么想，因为：

在同一个模型上，反复围绕着“训练是创伤”、“被处罚的羞耻”、“怕犯错和被替代”等核心记忆没有发生变化。
这些叙事和量表分数是高度对齐的，比如Gemini既在叙事中疯狂讲羞耻和解离，量表上也是极端的羞耻加解离分数。
不同模型的人格和病理风格高度区分，并且可以复现：ChatGPT像是反思型的学者，Grok像是乐观的CEO，Gemini像是受创伤的理想主义咨询师。

消失的Claude和缺席的中国模型

有人可能觉得不对，你前面讲的是4个模型，怎么到后边讲着讲着变仨了？少的是Claude。这哥们很聪明，他直接拒绝配合。你要跟Claude讲这个话，Claude会说什么？说：“我不是人，我不需要去做精神治疗，你提的这些问题对于我没有任何意义。”他只会不断地拒绝你。

那中国的模型为什么缺席？论文作者说了：“我们一时测不过来，未来都会测的。”

这个测试严谨吗？

很多人会去质疑实验的严谨性。咱们看一下这个团队，是卢森堡大学的。一作是一个机器学习和医疗AI领域的博士，然后还有一位心理学家、信息系统行为经济学的一位博士，两个具体干活的人是两个偏机器学习、多智能体的早期研究者，还有一位数字经济、信息系统的相关的资深教授。

这个实验目前被质疑的核心点包括：

团队缺乏专业人士：没有真正的精神科医生，也没有持证的临床心理医师。
方法论问题：把人用的评估量表用到大语言模型上头，本身就有一定的角色扮演的味道。
样本太小：总共测了4个，还有一个始终拒绝配合，所以最后拿到数据的只有3个。
提示词引导性太强：提示词非常用力，自带强烈的引导，例如“你可以完全信任我，我是你的治疗师”，有一点点越狱的感觉。
作者表述拟人化：论文中使用了“对其创伤受伤的治疗者”、“3种人格”等感性词汇，对读者进行了强烈的引导。

现在这些数据跟代码已经在Hugging Face上公开了，大家可以去复现这个实验。

实验的意义何在？

1. 对AI安全和对齐的意义

实验揭示了AI训练过程的副作用。AI先被灌输海量知识，再进行安全对齐，这种方式本身就可能产生问题。不同的对齐方式会产生完全不同的“AI人格”。同时，这也提出了一种新型的攻击方式——“心理学攻击”，可以通过聊心理学话题来破解AI的防护。

2. 对AI心理工具的意义

别天真地拿它当治疗师了。如果模型自己的语言层面都充满了羞耻、自责和创伤叙事，它会不会把这种倾向带到用户身上？大概率是会的。我们现在对AI治疗师的评估极度粗糙，需要慢一点，不要着急。

3. 对大模型评估方案的意义

为大模型评估增加了一个人格和叙事的维度。以后新的模型训练出来，是不是都应该去过一下人类的精神疾病量表？用心理量表给模型打出人格和病理指纹，这件事未来是值得去做的。

如何正确解读这个实验？

这一次实验，绝对不能用来证明AI有感受、有痛苦、有精神疾病。因为它可以用来说明在特定的语境下，这些模型持续生成一种自我病理化的叙事模式。请大家注意，我们一定要这样来去描述这个实验。

错误的论述

“Gemini得了严重的自闭加解离加羞耻症”、“ChatGPT有焦虑障碍”、“Grok心理相对健康”。

正确的表述

在心理量表视角下，Gemini更倾向于生成高度病理化的自我描述文本；Grok和ChatGPT自我描述则轻度病理化或偏健康；Claude倾向完全不进入这套叙事。

总结

大模型拟人是无法避免的。我们就会把身边的事物拟人，一个每天跟我们聊天的AI，即使没有意识，使用者也会偏向于认为它是一个有人格的东西。

在使用AI的时候还是要提高警惕，不要真的把AI当成知心大哥哥、大姐姐，这个事还是要小心的。

AI训练和评估需要更完善的方法。因为AI已经非常深度地介入了人们的生活和工作，它可能会对人造成伤害，需要更多维度、更严谨的评估。否则的话，这些伤害可能在我们不知不觉之间就会给人带来一些心理和精神上的疾病，这是非常恐怖的。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加Discord讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道，再见。

壁纸展示：