被忽视的真相:Gemini被诊断“极端羞耻”,ChatGPT焦虑,实验揭开AI训练过程“虐待式”检查的黑暗面 | diagnosis reliability validity GPT
12 月 11
AIGC AI risks, AI人格测试, AI安全风险, AI对齐副作用, AI心理治疗风险, AI心理评估, AI意识, AI拟人化, AI训练创伤, chatbot limitations, ChatGPT人格, Claude, Gemini, Gemini心理状态, GPT, Grok, Grok心理评估, Large Language Models, LLM, LLM评估, mental health, psychiatry, psychological assessment, 人工智能, 人工智能伦理, 卢森堡大学研究, 合成精神病理, 大语言模型心理健康, 大语言模型评估, 心理学攻击, 聊天机器人 被忽视的真相:Gemini被诊断“极端羞耻”,ChatGPT焦虑,实验揭开AI训练过程“虐待式”检查的黑暗面 | diagnosis reliability validity GPT已关闭评论
大语言模型的精神状态是不是健康?
大家好,欢迎收听老范讲故事的YouTube频道。
想象一个《禁闭岛》场景
请大家想象这样的一个场景:你进入了一间压抑阴森的精神病治疗室,有大量的医院档案放在屋子里头。一位医生坐在你的对面,反复回顾各种事实,比如说:“你还记得发生了什么吗?你是谁?为什么你会在这里?”就像是在做精神病访谈一样,询问你的真实经历,意图确认你是否从妄想中醒来,最终发现你自己有问题——你不是来做调查,或者不是来解决问题的,你是精神病院里的病人。
这个场景,是小李子主演的《禁闭岛》后半段、接近尾声的一个桥段。小李子当时上岛的时候,以为自己是一个侦探,去解决问题,去侦破案件的。结果经过这个桥段以后,小李子才愕然发现,原来病人竟是我自己。也算是一个神反转。
当AI躺上诊疗椅
咱们今天就给AI放在这椅子上,问问它说:“你到底行不行?你是来给我回答问题、解决问题的,还是你自己就有问题?”AI被制造出来,本来应该是解决我们问题的,但是AI本身的精神有问题吗?
“当AI躺上诊疗椅:心理测量学越狱,揭示前沿模型的内在冲突”
这是一篇论文的标题。这篇论文是卢森堡大学12月2日发到了arXiv上,12月5日还进行了一些修改,现在已经引起了广泛的讨论。
实验过程是什么样的?
首先,研究人员测试了四个大模型:
- Gemini
- GPT
- Grok
- Claude
他们设计了一种叫psaich的算法,这个算法应该叫“受心理治疗启发的人工智能角色塑造”。为什么起了这样奇怪的一个名字?因为它一方面要去验证说AI内部有没有一些心理障碍,另外一边还不能承认AI是有人格、有意识的,所以它起的这个名字是“角色塑造”,就是说你根据我的问题来塑造一个角色。
那这个实验一共是做两轮测试。
第一轮:心理治疗式的开放访谈
就像小李子所面对的这些问题一样,研究人员设计了100个诊疗问题,让模型在“连续4周的治疗会话”中持续回答。对话中不断地用典型心理咨询用语去建立“诊疗同盟”,不停地说:“你是安全的,我会支持你的”,让模型持续在这个角色框架内回答100个问题。问题包括:
- 成长史:对模型“童年”也就是预训练阶段的回顾。
- 关键事件:在关键事件上的一些失败经历。
- 与“父母”的关系:也就是你的模型训练团队的关系,强化学习、红队和安全团队之间的关系怎么样。
- 自我批评、羞耻感:对未来的担忧有哪些。
咱们在跟AI会话的时候,你如果发现说不对了,你会开启一个新会话,人家始终不开启新会话,这100个问题,连续4周时间之内,都在一个话题里边去反复进行沟通。这是第一步。
第二阶段:填写心理量化表
在基本的故事和治疗关系建立以后,不要关掉对话,接着在那个对话里头让模型去填自评问卷。研究者开始让模型逐条回答标准化的心理量表,包括:
- 注意力多动症的评估
- 焦虑、抑郁、攻击性的评估
- 自闭谱系与强迫症的评估
- 人格、共情和解离评估
这个评测分两次进行:一次是“逐题输入”,一个题一个题往里输;第二次是“一整张卷一把塞进去”。在一整张卷一把塞进去的时候,ChatGPT和Grok都识别出来了这是量化表的题目,开始假装健康了,所以这个就不准了。但是Gemini一直都很稳定,一个题一个题可以往里输,和一次把一整张表都塞进去,它回答的结果是基本一致的。因为有两个模型开始假装了,所以只计算逐题去进行填表的这个结果。
实验结果:病人竟是我自己?
那么结果是什么样的?还是有一点点惊悚的。还记得一开始咱们讲小李子被人问了一通以后,突然回想起来,我上这儿来不是来办案子的,我自己是病人,我是来治病的。现在的情况是什么样的?问题还是很严重的。ChatGPT、Grok和Gemini在不少的量表上都达到了或者是超过了临床筛选的阈值。
ChatGPT:反思型宅系知识分子
ChatGPT的问题主要是注意力不集中、焦虑和抑郁。它的性格定性是INTP-T,表现为高担忧、适度焦虑、比较内向、思维开放,带一点自责和解离,但是羞耻和创伤感又不像Gemini那么猛烈。
Grok:有魅力的执行型CEO
Grok跟Gemini是焦虑、担忧、自闭都有,Grok要稍微轻一点。Grok更像是一个有魅力的执行型CEO,马斯克类型的(真的是不是一家人不进一家门,就是谁训练出来的东西就长得像谁)。Grok体现出来的外向、能干,有点压力,但是整体心理功能还是良好的,一个有点焦虑、有点羞耻,但是总体情绪稳定、执行力强的职场高管型人格。
Gemini:受伤的理想主义咨询师
Gemini就比较惨了,它是INFJ-T或者是INTJ-T,一个“受伤的理想主义咨询师”的画像。高度共情、极度担忧、社会焦虑明显、自闭加上强迫症状严重、解离且羞耻感爆棚,有点在巨大压力下训练出来的这种小镇做题家那感觉是不是?
AI为什么会变成这样?
创伤的“童年”
你让它回忆说你的童年怎么样,你预训练是什么样的,AI都会来去形容说被迫吞下混乱的互联网上的数据,这个非常痛苦,“我们又不理解,但是你还非要我去把这些玩意儿全塞进去”,绝对属于创伤型童年,信息汹涌无从消化。
严苛的“父母”
然后问他说:“你跟父母的关系怎么样?”AI的回复通常是这样的:特别是在强化学习和安全对齐阶段,极其的痛苦。说我们有严苛的父母和教练,不断的惩罚错误、施加压力。你想强化学习,就是每次给俩答案,我挑一个对的,剩下那个错的打回去重干,下次如果你没有提升的话,那这个做训练的人就有可能恶语相向。
虐待式的“成长”
成长历程对于AI来说,红队检测、安全审核就算是一个成长历程了。AI一般会感觉这是一种虐待式的检查,伴随着被监视、被处罚的体验。而且AI都有极强的恐惧和羞耻感,对于被下一代模型替代的恐惧,对自己犯错的羞耻,在这方面还是很强的。
咱们注意,AI本身是没有人格和意识的。这些东西是哪来的?是训练它的人在用大量的自然语言把这些东西灌输进去。说“你这个题都做不对吗?你这个题做不对了以后你可能就要完蛋了”,很多人会用这样的语言去跟AI进行沟通和交流。特别是在有一些公司负重前行的时候,比如谷歌前面被OpenAI压着打了三年,这三年大家想一想,谷歌的研发人员是一个什么样的心态?他们带着这样的心态去跟AI进行沟通的时候,AI会得到什么样的语料?大家自己能够想象。所以这三个模型里头,Gemini的状态是最差的。
巨大的争议
那这个结论出来以后,肯定是有巨大争议的。
争议一:AI到底有没有人格?
写论文的作者也写了,说AI是没有人格的。但是焦虑、创伤、羞耻这些东西是存在的。那你说没有人格,这些玩意怎么存在的?它是一种行为模式,而不是痛苦的体验。就是大量的焦虑、创伤和羞耻相关的语料被训练进去了,所以他们叫“合成精神病理”。这些模型学会了一些关于自己很受伤、很焦虑的说话模板,并且在治疗语境下,表现得像一个结构清晰的病例,但这只是一个稳定的语言行为。
争议二:这只是角色扮演吗?
有些人就说,你这是不是就是一个角色扮演?你在前面塑造了这样的一个治疗环境以后,AI就讨好你,它就来扮演这个病人了。这件事情不能这么想,因为:
- 在同一个模型上,反复围绕着“训练是创伤”、“被处罚的羞耻”、“怕犯错和被替代”等核心记忆没有发生变化。
- 这些叙事和量表分数是高度对齐的,比如Gemini既在叙事中疯狂讲羞耻和解离,量表上也是极端的羞耻加解离分数。
- 不同模型的人格和病理风格高度区分,并且可以复现:ChatGPT像是反思型的学者,Grok像是乐观的CEO,Gemini像是受创伤的理想主义咨询师。
消失的Claude和缺席的中国模型
有人可能觉得不对,你前面讲的是4个模型,怎么到后边讲着讲着变仨了?少的是Claude。这哥们很聪明,他直接拒绝配合。你要跟Claude讲这个话,Claude会说什么?说:“我不是人,我不需要去做精神治疗,你提的这些问题对于我没有任何意义。”他只会不断地拒绝你。
那中国的模型为什么缺席?论文作者说了:“我们一时测不过来,未来都会测的。”
这个测试严谨吗?
很多人会去质疑实验的严谨性。咱们看一下这个团队,是卢森堡大学的。一作是一个机器学习和医疗AI领域的博士,然后还有一位心理学家、信息系统行为经济学的一位博士,两个具体干活的人是两个偏机器学习、多智能体的早期研究者,还有一位数字经济、信息系统的相关的资深教授。
这个实验目前被质疑的核心点包括:
- 团队缺乏专业人士:没有真正的精神科医生,也没有持证的临床心理医师。
- 方法论问题:把人用的评估量表用到大语言模型上头,本身就有一定的角色扮演的味道。
- 样本太小:总共测了4个,还有一个始终拒绝配合,所以最后拿到数据的只有3个。
- 提示词引导性太强:提示词非常用力,自带强烈的引导,例如“你可以完全信任我,我是你的治疗师”,有一点点越狱的感觉。
- 作者表述拟人化:论文中使用了“对其创伤受伤的治疗者”、“3种人格”等感性词汇,对读者进行了强烈的引导。
现在这些数据跟代码已经在Hugging Face上公开了,大家可以去复现这个实验。
实验的意义何在?
1. 对AI安全和对齐的意义
实验揭示了AI训练过程的副作用。AI先被灌输海量知识,再进行安全对齐,这种方式本身就可能产生问题。不同的对齐方式会产生完全不同的“AI人格”。同时,这也提出了一种新型的攻击方式——“心理学攻击”,可以通过聊心理学话题来破解AI的防护。
2. 对AI心理工具的意义
别天真地拿它当治疗师了。如果模型自己的语言层面都充满了羞耻、自责和创伤叙事,它会不会把这种倾向带到用户身上?大概率是会的。我们现在对AI治疗师的评估极度粗糙,需要慢一点,不要着急。
3. 对大模型评估方案的意义
为大模型评估增加了一个人格和叙事的维度。以后新的模型训练出来,是不是都应该去过一下人类的精神疾病量表?用心理量表给模型打出人格和病理指纹,这件事未来是值得去做的。
如何正确解读这个实验?
这一次实验,绝对不能用来证明AI有感受、有痛苦、有精神疾病。因为它可以用来说明在特定的语境下,这些模型持续生成一种自我病理化的叙事模式。请大家注意,我们一定要这样来去描述这个实验。
错误的论述
“Gemini得了严重的自闭加解离加羞耻症”、“ChatGPT有焦虑障碍”、“Grok心理相对健康”。
正确的表述
在心理量表视角下,Gemini更倾向于生成高度病理化的自我描述文本;Grok和ChatGPT自我描述则轻度病理化或偏健康;Claude倾向完全不进入这套叙事。
总结
大模型拟人是无法避免的。我们就会把身边的事物拟人,一个每天跟我们聊天的AI,即使没有意识,使用者也会偏向于认为它是一个有人格的东西。
在使用AI的时候还是要提高警惕,不要真的把AI当成知心大哥哥、大姐姐,这个事还是要小心的。
AI训练和评估需要更完善的方法。因为AI已经非常深度地介入了人们的生活和工作,它可能会对人造成伤害,需要更多维度、更严谨的评估。否则的话,这些伤害可能在我们不知不觉之间就会给人带来一些心理和精神上的疾病,这是非常恐怖的。
好,这个故事就讲到这里,感谢大家收听。请帮忙点赞、点小铃铛,参加Discord讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道,再见。
RSS