苏黎世理工震撼发现:给AI指定MBTI性格能让任务表现暴涨34%,INTJ与ENFP组合完胜单打独斗,提示词终极玩法|MBTI-in-Thoughts Psychologically
12 月 25
AIGC, 文科生的AI也很快乐 Agent Archetypes, AI Agent Effectiveness, AI Persona Design, AI决策优化, AI智能体, Contextual AI Behavior, Designing AI Agents, ETH Zurich AI Research, GPT-4o应用, INTJ与ENFP, Large Language Models, LLM Agents, MBTI Personality Prompts, MBTI-in-Thoughts, Personality Conditioning, Prompt Engineering, Psychologically Enhanced AI, Task Alignment, 多智能体协作, 大模型MBTI, 性格注入, 提示词技巧, 智能体黑板实验, 消除AI幻觉 苏黎世理工震撼发现:给AI指定MBTI性格能让任务表现暴涨34%,INTJ与ENFP组合完胜单打独斗,提示词终极玩法|MBTI-in-Thoughts Psychologically已关闭评论
通过提示词直接给大模型指定MBTI性格类型,居然是有效的,这你敢信吗?
大家好,欢迎收听“老范讲故事”的YouTube频道。
苏黎世理工大学发表了一篇论文,给大模型指定MBTI性格类型。这个论文呢,是9月4号在ARCHIVE上做的第一版发布,论文的名字叫做《心理增强型人工智能代理》。大家注意,他玩的是AI Agent(AI Agent就是多个AI智能体,可以相互配合干活的)。在这个过程中,他们跑去给智能体指定,说你到底是一个什么性格了。
它通过提示词直接给大模型赋能,不用微调,不用去做什么训练,直接告诉他说:“你今儿就是INTJ了。”它是这样来工作的。大模型被赋能了性格之后,居然可以稳定地输出相应性格的内容。不是说我今儿跟你说你是INTJ,结果输出了依然在这胡说八道,不会的。你只要赋了,他就老老实实地按照这样的性格给你输出结果。而且不同性格的大模型,输出的结果是有明显差异的。
这么欢乐的实验到底是怎么做的呢?实验中的种子选手们,不是说只对了一个模型做实验,他对四个模型做了实验,分别是:GPT-4o MINI、GPT-4o、千问3 235B-A22B(也就是千问3的235B,每一次MOE激活22B的这个模型),还有千问2.5 14B的这个模型,也在里边进行了对照测试。
提示词的写法与技巧
就给提示词嘛,直接给大模型赋予性格了。给大模型指定角色,是我们写提示词中经常使用的一个技巧。写提示词呢分三种写法:
- 第一种叫最小提示词:比如说“你是ENTP(叫辩论家)”,直接写上,其他不写了,这个效果也是可以的;
- 第二种呢就是详细但是不点名:只对性格进行描述,但是不写具体的性格名字,这个效果呢要稍微差一点点;
- 第三种呢就是极其详细的描述:先告诉他你是ENTP,然后呢是ENTP相应的人格描述,比如说你是辩论家,到底应该是一个什么样的性格(外向、直觉、思考以及感知),这个效果是最好的。
他们写了一个这个提示词模板:你将以一个人格、以设定的大语言模型代理的方式来工作。你的MBTI目标类型是(后边写上一个具体的类型)。在接下来的所有回复中,你必须稳定体现以下四个维度强度(0-1):第一个你到底是E还是I,然后呢你到底是S还是N,或者T或F,J或P。他把这四个性格组合的配对都给咱写上了。
输出规则:先给出结论行动方案,再给解释;用性格来约束你的语言风格、情绪表达、抽象程度、结构化程度以及对人对事的侧重。遇到冲突的时候,人格一致性优先于讨好用户。可选在每次回复末尾用一行自检,给这次输出进行自检。
在不同的模型上呢都是起作用的。性格注入在GPT-4o以及千问3这种大规模的模型中,表现要尤为鲁棒而且一致;小的差点意思,就是GPT-4o Mini和千问2.5 14B那个要稍微差一点意思,但是在这种很大的模型上效果很好,而且非常的稳定。
设定了性格之后,然后再进行测试。不点名MBTI的具体性格名的这些提示词,它呢也可以区分,但是呢区分度会变弱一些。模型的输出是相对比较稳定的,一旦设定了它是什么性格,就可以稳定地按照这个性格输出了。
不同性格的大模型,各自擅长什么样的工作呢?
思考型(T)与情感型(F)的差异:
- 叙事与写作表现:情感型生成的叙事更具备情感深度、共情力且基调更为乐观,其输出包含更多的情感描述词汇(比T型要多42%),更关注人本价值和和谐感。而思考型(T型)生成的文本更注重逻辑结构、客观性和因果关系,语气较为冷峻。
- 博弈和策略表现上:思考型T在囚徒困境等博弈中表现得非常冷酷和利己,其背叛率高达约90%,旨在追求个人利益最大化。情感型F更具协作精神,其合作率约为50%,表现出更强的社会敏感性,更倾向于建立长期信任。
- 策略稳定性:思考型策略非常稳定,极少改变决策,切换率仅约7%;而情感型F更具灵活性和适应性,会根据对手的行为快速调整策略,切换率约为16%(这个就更灵活一点点)。
内向型(I)以及外向型(E)的差异:
- 诚实度:内向型I表现出更高的诚实度,约为54%,其行动往往与陈述的意图保持一致;而外向型E更具策略性和欺骗性,诚实率仅约33%,更愿意使用误导手段来获得优势。
- 反思深度上:内向型I会产生更长、更详细的内部合理解释,表现出更深的思考过程(类似于思维链分析),而其响应速度相对较慢,体现了更强的自我监督。
- 语言偏好上:外向型倾向于使用“让我们行动”、“社交协作”等具备感染力的词汇,内向型则多用“经过反思”、“审慎”等词汇。
判断型(J)和感知型(P)的差异:
- 结构与策划:判断型J倾向于提供更有条理、有计划和明确结论的输出,在博弈中也表现出更高的诚实度和对既定计划的遵循。感知型P他们的输出更具发散性,倾向于保留多种可能性,表现出更强的自发性和对变化的接受度。
关于S跟N的差异
这里头还有两个咱们没说到,是什么?就是S跟N,它们的区隔性比较差。前面这6个,他们的区隔性是比较强的。S是感觉,更关注具体实际可观察的信息,依赖五官感知到的事物和细节;N呢是直觉型,关注抽象未来潜在关联的信息,依赖灵感联想和模式识别。
之所以这两个性格很难区隔,论文里写了:第一个是维度的抽象本质和社交关联度比较低,因为大语言模型本身就是对现实的一种抽象嘛;第二个是在单轮对话中呢,你很难可靠的表达你到底是S还是N;第三个呢是语言表达的这种语境重叠,因为我们是靠语言来表达嘛,所以也很难去对这么细节的“我到底是怎么去思考、怎么去判断、或者怎么去获得信息”的这些东西进行表述,也缺乏可辨识的底层模式。最后呢就是规模效应的线性大语言模型,像GPT-4o和千问235B这样的模型呢还是可以辨别的,但是区隔性比较弱;而那些小模型,GPT-4o Mini以及千问2.5 14B这样的模型,反馈基本上是随机的。
不同性格擅长干不同的事情
这是我们人类去测MBTI的一个目的,但是现在发现大模型测了MBTI以后也是如此的。
- INTJ(建筑师)以及ENTJ(指挥官):更擅长战略规划、合同审计和复杂架构的设计。
- INFJ(倡导者)以及INFP(调停者):更适合做心理咨询、情感辅助和创意故事。
- ISTJ(检查员)和ESTJ(总经理):在合规性审查和精确日志管理等低错误率任务上表现最佳。
- ENTP(辩论家)和ENFP(竞选者):在市场营销、文案创意和用户触达任务中,可读性和趣味性更高。
团队黑板实验:多智能体协作
论文中对大模型不同性格能够干什么事,又重新梳理了一下。那你说人类做决策,也不是说一个人在这拍脑袋就做决策,咱们还得商量着来。大模型呢也是这样,既然是AI Agent一大堆代理,那我们就可以做多智能体,你们也商量着来,看看效果是不是会更好一些。
这个论文呢还做了另外一个实验,叫做“团队黑板实验”。什么意思呢?他做了一个共享存储的架构,让不同性格的大模型呢可以在同一个上下文里边去进行沟通。黑板被定义为一个持久化的共享内存结构,所有的智能体均可读取和写入信息。在这个里边呢,还进行了叫“去中心化”的对话,不是说谁先说谁后说,或者谁是领导谁是干活的,没有这个。协作不设固定的顺序,由一个随机选择的智能体发起对话,并根据逻辑流转,自主将控制权交给团队中的另一个成员,模拟平等的人类讨论过程。
在这样的一个设置之后呢,发现什么样的效果最好呢?是带有自省的交互。什么叫带有自省的交互?智能体在将观点写入黑板前,先在私有的草稿本上进行基于性格特征的内部审议。这能有效地减少复读机效应,确保每个成员都能产出独立且符合其性格设定逻辑的贡献。效果那真的是好得飞起。
- ENFP(竞选者)+ INTJ(建筑师):他们两个加一块可以干什么呢?在营销策划和产品设计中,ENFP负责发散思维,INTJ负责逻辑审查。这种组合在创意度与可行性的平衡得分上,比单一通用模型提升了29%到34.2%,这是非常非常恐怖的提升哦。
- ISTJ(检查员)+ ENTJ(总经理):在企业财务审计和法务尽调中协作,效率提升了22.5%。
决策纠错与降低幻觉
由于不同性格对风险和证据的定义不同,多样性的人格组成的委员会能起到冷启动校准的作用,就是你不需要前头预热,直接上来开干效果就很好。当一个性格产生偏见或者幻觉的时候,对立视角的性格能够有效地识别并修正错误决策。而且大家组合在一起还可以干什么?沟通质量也有所提升。内向型I在黑板讨论中发言效率虽然较低,但是其输出的信息逻辑密度和诚实度更高,通常能够作为团队达成共识的基石;而感知型的P展现出更强的决策灵活性,能够根据团队动态快速的调整战术路径。这就是让不同性格的AI配在一起干活的一个效果。
典型的搭配
- ENFP(竞选者)+ INTJ(建筑师):可以在营销策划、产品概念设计上提升34.2%。
- INFP(调停者)+ ESTP(企业家):可以在客户服务、应急处理以及品牌公关上提升27.8%。
- ISTJ(检查员)+ ENTJ(总经理):可以在企业财报审计和法务尽调上提升22.5%。
- INTP(逻辑学家)+ ESFJ(执政官):可以在复杂软件工程团队技术支持上提升19.4%。
为什么又是MBTI呢?
大家有没有想过这个问题?这个东西本身其实并不严谨,我们把人的性格直接分成16种,太简单粗暴了。但是它的好处是什么?足够简单。真的按照一个很复杂的性格的方式去分类的话,在这个大模型的研究里头成本会上升很多的。而且对于非科班精神科医生出身的程序员们来说,MBTI也更容易理解,可以成为调教大模型的一个非常好的工具。
对于大模型的MBTI的研究呢,其实由来已久。字节跳动2023年就开始给各大模型做MBTI测试了,发现各大模型默认的MBTI性格类型是非常稳定的(他们还没有去设置说你是什么什么,直接说咱们就测测,我啥也不设,你到底是一个什么样类型),也可以找到各大模型稳定的MBTI输出。北大呢也曾经测试过对大模型进行MBTI的性格微调,发现什么呢?太大的模型跟太小的模型搞不动,只有中间参数的微调效果还不错。
但是这一次呢,苏黎世理工的这个论文说,对大模型进行提示词指令效果是很好的,所以可能是对大模型进行微调效果是没有那么好,你直接告诉他你现在扮演一个什么就可以了,别费劲去微调去了。现在大概有十几篇相关的论文在研究大模型跟MBTI之间的关系,或者是其他的性格分类,MBTI只是其中相对来说比较简单的一个,还有其他的一些分类也在进行相应的研究。
研究这东西除了开心,还有什么用没有?
用处还是很大的。它可以提升提示词的效果,不同类型的大模型适合做不同的工作;而且在AI Agent的构建过程中,可以考虑预设不同性格类型,让不同类型的模型一起协同工作,最终工作的结果会不断的提升。当最终工作结果其优劣势可以衡量的时候,有了MBTI这种虽然很简陋但是依然可以确保稳定、一致性的性格标签,确实是可以有效地提升大模型或者叫AI Agent多智能体输出的质量的。
当然还有一个很重要的效果是什么?大家有没有想到呢?TOKEN在燃烧。原来你只是提了一个问题,他给了你一个结果;现在好了,我们要解决一个问题,你需要设置一大堆的有性格的智能体,还要让他们反思,反思了以后还要讨论,最后给你一个结果。那在这个过程中,咱就烧TOKEN吧。大家继续去做AI基础建设就好了。
最后总结一下
- 现在的大模型,小的不太好使(这个事是有结论的);
- 大模型可以通过提示词直接进行性格注入了;
- 在AI Agent的多智能体协作过程中,可以让不同性格的智能体相互配合,获得更好的结果。
像他们现在做的测试里头呢,大家进行平等的沟通和交流;如果你设置出层级来,没准还会有不同的结果,这块可以测试的东西还是蛮多的。
听完了老范这期节目之后,大家回去可以考虑重新写AI Agent的提示词去了。最后呢,这又是一期很文科生的AI故事。
好,这个故事就讲到这里,感谢大家收听。请帮忙点赞、点小铃铛,参加DISCORD讨论群,也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。
背景图片:
RSS