苏黎世理工震撼发现：给AI指定MBTI性格能让任务表现暴涨34%，INTJ与ENFP组合完胜单打独斗，提示词终极玩法｜MBTI-in-Thoughts Psychologically

Luke Fan — Thu, 25 Dec 2025 00:52:41 +0000

通过提示词直接给大模型指定MBTI性格类型，居然是有效的，这你敢信吗？

苏黎世理工大学发表了一篇论文，给大模型指定MBTI性格类型。这个论文呢，是9月4号在ARCHIVE上做的第一版发布，论文的名字叫做《心理增强型人工智能代理》。大家注意，他玩的是AI Agent（AI Agent就是多个AI智能体，可以相互配合干活的）。在这个过程中，他们跑去给智能体指定，说你到底是一个什么性格了。

它通过提示词直接给大模型赋能，不用微调，不用去做什么训练，直接告诉他说：“你今儿就是INTJ了。”它是这样来工作的。大模型被赋能了性格之后，居然可以稳定地输出相应性格的内容。不是说我今儿跟你说你是INTJ，结果输出了依然在这胡说八道，不会的。你只要赋了，他就老老实实地按照这样的性格给你输出结果。而且不同性格的大模型，输出的结果是有明显差异的。

这么欢乐的实验到底是怎么做的呢？实验中的种子选手们，不是说只对了一个模型做实验，他对四个模型做了实验，分别是：GPT-4o MINI、GPT-4o、千问3 235B-A22B（也就是千问3的235B，每一次MOE激活22B的这个模型），还有千问2.5 14B的这个模型，也在里边进行了对照测试。

提示词的写法与技巧

就给提示词嘛，直接给大模型赋予性格了。给大模型指定角色，是我们写提示词中经常使用的一个技巧。写提示词呢分三种写法：

第一种叫最小提示词：比如说“你是ENTP（叫辩论家）”，直接写上，其他不写了，这个效果也是可以的；
第二种呢就是详细但是不点名：只对性格进行描述，但是不写具体的性格名字，这个效果呢要稍微差一点点；
第三种呢就是极其详细的描述：先告诉他你是ENTP，然后呢是ENTP相应的人格描述，比如说你是辩论家，到底应该是一个什么样的性格（外向、直觉、思考以及感知），这个效果是最好的。

他们写了一个这个提示词模板：你将以一个人格、以设定的大语言模型代理的方式来工作。你的MBTI目标类型是（后边写上一个具体的类型）。在接下来的所有回复中，你必须稳定体现以下四个维度强度（0-1）：第一个你到底是E还是I，然后呢你到底是S还是N，或者T或F，J或P。他把这四个性格组合的配对都给咱写上了。

输出规则：先给出结论行动方案，再给解释；用性格来约束你的语言风格、情绪表达、抽象程度、结构化程度以及对人对事的侧重。遇到冲突的时候，人格一致性优先于讨好用户。可选在每次回复末尾用一行自检，给这次输出进行自检。

在不同的模型上呢都是起作用的。性格注入在GPT-4o以及千问3这种大规模的模型中，表现要尤为鲁棒而且一致；小的差点意思，就是GPT-4o Mini和千问2.5 14B那个要稍微差一点意思，但是在这种很大的模型上效果很好，而且非常的稳定。

设定了性格之后，然后再进行测试。不点名MBTI的具体性格名的这些提示词，它呢也可以区分，但是呢区分度会变弱一些。模型的输出是相对比较稳定的，一旦设定了它是什么性格，就可以稳定地按照这个性格输出了。

不同性格的大模型，各自擅长什么样的工作呢？

思考型（T）与情感型（F）的差异：

叙事与写作表现：情感型生成的叙事更具备情感深度、共情力且基调更为乐观，其输出包含更多的情感描述词汇（比T型要多42%），更关注人本价值和和谐感。而思考型（T型）生成的文本更注重逻辑结构、客观性和因果关系，语气较为冷峻。
博弈和策略表现上：思考型T在囚徒困境等博弈中表现得非常冷酷和利己，其背叛率高达约90%，旨在追求个人利益最大化。情感型F更具协作精神，其合作率约为50%，表现出更强的社会敏感性，更倾向于建立长期信任。
策略稳定性：思考型策略非常稳定，极少改变决策，切换率仅约7%；而情感型F更具灵活性和适应性，会根据对手的行为快速调整策略，切换率约为16%（这个就更灵活一点点）。

内向型（I）以及外向型（E）的差异：

诚实度：内向型I表现出更高的诚实度，约为54%，其行动往往与陈述的意图保持一致；而外向型E更具策略性和欺骗性，诚实率仅约33%，更愿意使用误导手段来获得优势。
反思深度上：内向型I会产生更长、更详细的内部合理解释，表现出更深的思考过程（类似于思维链分析），而其响应速度相对较慢，体现了更强的自我监督。
语言偏好上：外向型倾向于使用“让我们行动”、“社交协作”等具备感染力的词汇，内向型则多用“经过反思”、“审慎”等词汇。

判断型（J）和感知型（P）的差异：

结构与策划：判断型J倾向于提供更有条理、有计划和明确结论的输出，在博弈中也表现出更高的诚实度和对既定计划的遵循。感知型P他们的输出更具发散性，倾向于保留多种可能性，表现出更强的自发性和对变化的接受度。

关于S跟N的差异

这里头还有两个咱们没说到，是什么？就是S跟N，它们的区隔性比较差。前面这6个，他们的区隔性是比较强的。S是感觉，更关注具体实际可观察的信息，依赖五官感知到的事物和细节；N呢是直觉型，关注抽象未来潜在关联的信息，依赖灵感联想和模式识别。

之所以这两个性格很难区隔，论文里写了：第一个是维度的抽象本质和社交关联度比较低，因为大语言模型本身就是对现实的一种抽象嘛；第二个是在单轮对话中呢，你很难可靠的表达你到底是S还是N；第三个呢是语言表达的这种语境重叠，因为我们是靠语言来表达嘛，所以也很难去对这么细节的“我到底是怎么去思考、怎么去判断、或者怎么去获得信息”的这些东西进行表述，也缺乏可辨识的底层模式。最后呢就是规模效应的线性大语言模型，像GPT-4o和千问235B这样的模型呢还是可以辨别的，但是区隔性比较弱；而那些小模型，GPT-4o Mini以及千问2.5 14B这样的模型，反馈基本上是随机的。

不同性格擅长干不同的事情

这是我们人类去测MBTI的一个目的，但是现在发现大模型测了MBTI以后也是如此的。

INTJ（建筑师）以及ENTJ（指挥官）：更擅长战略规划、合同审计和复杂架构的设计。
INFJ（倡导者）以及INFP（调停者）：更适合做心理咨询、情感辅助和创意故事。
ISTJ（检查员）和ESTJ（总经理）：在合规性审查和精确日志管理等低错误率任务上表现最佳。
ENTP（辩论家）和ENFP（竞选者）：在市场营销、文案创意和用户触达任务中，可读性和趣味性更高。

团队黑板实验：多智能体协作

论文中对大模型不同性格能够干什么事，又重新梳理了一下。那你说人类做决策，也不是说一个人在这拍脑袋就做决策，咱们还得商量着来。大模型呢也是这样，既然是AI Agent一大堆代理，那我们就可以做多智能体，你们也商量着来，看看效果是不是会更好一些。

这个论文呢还做了另外一个实验，叫做“团队黑板实验”。什么意思呢？他做了一个共享存储的架构，让不同性格的大模型呢可以在同一个上下文里边去进行沟通。黑板被定义为一个持久化的共享内存结构，所有的智能体均可读取和写入信息。在这个里边呢，还进行了叫“去中心化”的对话，不是说谁先说谁后说，或者谁是领导谁是干活的，没有这个。协作不设固定的顺序，由一个随机选择的智能体发起对话，并根据逻辑流转，自主将控制权交给团队中的另一个成员，模拟平等的人类讨论过程。

在这样的一个设置之后呢，发现什么样的效果最好呢？是带有自省的交互。什么叫带有自省的交互？智能体在将观点写入黑板前，先在私有的草稿本上进行基于性格特征的内部审议。这能有效地减少复读机效应，确保每个成员都能产出独立且符合其性格设定逻辑的贡献。效果那真的是好得飞起。

ENFP（竞选者）+ INTJ（建筑师）：他们两个加一块可以干什么呢？在营销策划和产品设计中，ENFP负责发散思维，INTJ负责逻辑审查。这种组合在创意度与可行性的平衡得分上，比单一通用模型提升了29%到34.2%，这是非常非常恐怖的提升哦。
ISTJ（检查员）+ ENTJ（总经理）：在企业财务审计和法务尽调中协作，效率提升了22.5%。

决策纠错与降低幻觉

由于不同性格对风险和证据的定义不同，多样性的人格组成的委员会能起到冷启动校准的作用，就是你不需要前头预热，直接上来开干效果就很好。当一个性格产生偏见或者幻觉的时候，对立视角的性格能够有效地识别并修正错误决策。而且大家组合在一起还可以干什么？沟通质量也有所提升。内向型I在黑板讨论中发言效率虽然较低，但是其输出的信息逻辑密度和诚实度更高，通常能够作为团队达成共识的基石；而感知型的P展现出更强的决策灵活性，能够根据团队动态快速的调整战术路径。这就是让不同性格的AI配在一起干活的一个效果。

典型的搭配

ENFP（竞选者）+ INTJ（建筑师）：可以在营销策划、产品概念设计上提升34.2%。
INFP（调停者）+ ESTP（企业家）：可以在客户服务、应急处理以及品牌公关上提升27.8%。
ISTJ（检查员）+ ENTJ（总经理）：可以在企业财报审计和法务尽调上提升22.5%。
INTP（逻辑学家）+ ESFJ（执政官）：可以在复杂软件工程团队技术支持上提升19.4%。

为什么又是MBTI呢？

大家有没有想过这个问题？这个东西本身其实并不严谨，我们把人的性格直接分成16种，太简单粗暴了。但是它的好处是什么？足够简单。真的按照一个很复杂的性格的方式去分类的话，在这个大模型的研究里头成本会上升很多的。而且对于非科班精神科医生出身的程序员们来说，MBTI也更容易理解，可以成为调教大模型的一个非常好的工具。

对于大模型的MBTI的研究呢，其实由来已久。字节跳动2023年就开始给各大模型做MBTI测试了，发现各大模型默认的MBTI性格类型是非常稳定的（他们还没有去设置说你是什么什么，直接说咱们就测测，我啥也不设，你到底是一个什么样类型），也可以找到各大模型稳定的MBTI输出。北大呢也曾经测试过对大模型进行MBTI的性格微调，发现什么呢？太大的模型跟太小的模型搞不动，只有中间参数的微调效果还不错。

但是这一次呢，苏黎世理工的这个论文说，对大模型进行提示词指令效果是很好的，所以可能是对大模型进行微调效果是没有那么好，你直接告诉他你现在扮演一个什么就可以了，别费劲去微调去了。现在大概有十几篇相关的论文在研究大模型跟MBTI之间的关系，或者是其他的性格分类，MBTI只是其中相对来说比较简单的一个，还有其他的一些分类也在进行相应的研究。

研究这东西除了开心，还有什么用没有？

用处还是很大的。它可以提升提示词的效果，不同类型的大模型适合做不同的工作；而且在AI Agent的构建过程中，可以考虑预设不同性格类型，让不同类型的模型一起协同工作，最终工作的结果会不断的提升。当最终工作结果其优劣势可以衡量的时候，有了MBTI这种虽然很简陋但是依然可以确保稳定、一致性的性格标签，确实是可以有效地提升大模型或者叫AI Agent多智能体输出的质量的。

当然还有一个很重要的效果是什么？大家有没有想到呢？TOKEN在燃烧。原来你只是提了一个问题，他给了你一个结果；现在好了，我们要解决一个问题，你需要设置一大堆的有性格的智能体，还要让他们反思，反思了以后还要讨论，最后给你一个结果。那在这个过程中，咱就烧TOKEN吧。大家继续去做AI基础建设就好了。

最后总结一下

现在的大模型，小的不太好使（这个事是有结论的）；
大模型可以通过提示词直接进行性格注入了；
在AI Agent的多智能体协作过程中，可以让不同性格的智能体相互配合，获得更好的结果。

像他们现在做的测试里头呢，大家进行平等的沟通和交流；如果你设置出层级来，没准还会有不同的结果，这块可以测试的东西还是蛮多的。

听完了老范这期节目之后，大家回去可以考虑重新写AI Agent的提示词去了。最后呢，这又是一期很文科生的AI故事。

好，这个故事就讲到这里，感谢大家收听。请帮忙点赞、点小铃铛，参加DISCORD讨论群，也欢迎有兴趣、有能力的朋友加入我们的付费频道。再见。

背景图片：

AI决策优化 – 老范讲故事｜AI、大模型与商业世界的故事