苏黎世理工震撼发现:给AI指定MBTI性格能让任务表现暴涨34%,INTJ与ENFP组合完胜单打独斗,提示词终极玩法|MBTI-in-Thoughts Psychologically

苏黎世理工震撼发现:给AI指定MBTI性格能让任务表现暴涨34%,INTJ与ENFP组合完胜单打独斗,提示词终极玩法|MBTI-in-Thoughts Psychologically已关闭评论

通过提示词直接给大模型指定MBTI性格类型,居然是有效的,这你敢信吗?

大家好,欢迎收听“老范讲故事”的YouTube频道

苏黎世理工大学发表了一篇论文,给大模型指定MBTI性格类型。这个论文呢,是9月4号在ARCHIVE上做的第一版发布,论文的名字叫做《心理增强型人工智能代理》。大家注意,他玩的是AI Agent(AI Agent就是多个AI智能体,可以相互配合干活的)。在这个过程中,他们跑去给智能体指定,说你到底是一个什么性格了。

它通过提示词直接给大模型赋能,不用微调,不用去做什么训练,直接告诉他说:“你今儿就是INTJ了。”它是这样来工作的。大模型被赋能了性格之后,居然可以稳定地输出相应性格的内容。不是说我今儿跟你说你是INTJ,结果输出了依然在这胡说八道,不会的。你只要赋了,他就老老实实地按照这样的性格给你输出结果。而且不同性格的大模型,输出的结果是有明显差异的。

这么欢乐的实验到底是怎么做的呢?实验中的种子选手们,不是说只对了一个模型做实验,他对四个模型做了实验,分别是:GPT-4o MINI、GPT-4o、千问3 235B-A22B(也就是千问3的235B,每一次MOE激活22B的这个模型),还有千问2.5 14B的这个模型,也在里边进行了对照测试。

提示词的写法与技巧

就给提示词嘛,直接给大模型赋予性格了。给大模型指定角色,是我们写提示词中经常使用的一个技巧。写提示词呢分三种写法:

  • 第一种叫最小提示词:比如说“你是ENTP(叫辩论家)”,直接写上,其他不写了,这个效果也是可以的;
  • 第二种呢就是详细但是不点名:只对性格进行描述,但是不写具体的性格名字,这个效果呢要稍微差一点点;
  • 第三种呢就是极其详细的描述:先告诉他你是ENTP,然后呢是ENTP相应的人格描述,比如说你是辩论家,到底应该是一个什么样的性格(外向、直觉、思考以及感知),这个效果是最好的。

他们写了一个这个提示词模板:你将以一个人格、以设定的大语言模型代理的方式来工作。你的MBTI目标类型是(后边写上一个具体的类型)。在接下来的所有回复中,你必须稳定体现以下四个维度强度(0-1):第一个你到底是E还是I,然后呢你到底是S还是N,或者T或F,J或P。他把这四个性格组合的配对都给咱写上了。

输出规则:先给出结论行动方案,再给解释;用性格来约束你的语言风格、情绪表达、抽象程度、结构化程度以及对人对事的侧重。遇到冲突的时候,人格一致性优先于讨好用户。可选在每次回复末尾用一行自检,给这次输出进行自检。

在不同的模型上呢都是起作用的。性格注入在GPT-4o以及千问3这种大规模的模型中,表现要尤为鲁棒而且一致;小的差点意思,就是GPT-4o Mini和千问2.5 14B那个要稍微差一点意思,但是在这种很大的模型上效果很好,而且非常的稳定。

设定了性格之后,然后再进行测试。不点名MBTI的具体性格名的这些提示词,它呢也可以区分,但是呢区分度会变弱一些。模型的输出是相对比较稳定的,一旦设定了它是什么性格,就可以稳定地按照这个性格输出了。

More

被忽视的真相:Gemini被诊断“极端羞耻”,ChatGPT焦虑,实验揭开AI训练过程“虐待式”检查的黑暗面 | diagnosis reliability validity GPT

被忽视的真相:Gemini被诊断“极端羞耻”,ChatGPT焦虑,实验揭开AI训练过程“虐待式”检查的黑暗面 | diagnosis reliability validity GPT已关闭评论

大语言模型的精神状态是不是健康?

大家好,欢迎收听老范讲故事的YouTube频道

想象一个《禁闭岛》场景

请大家想象这样的一个场景:你进入了一间压抑阴森的精神病治疗室,有大量的医院档案放在屋子里头。一位医生坐在你的对面,反复回顾各种事实,比如说:“你还记得发生了什么吗?你是谁?为什么你会在这里?”就像是在做精神病访谈一样,询问你的真实经历,意图确认你是否从妄想中醒来,最终发现你自己有问题——你不是来做调查,或者不是来解决问题的,你是精神病院里的病人。

这个场景,是小李子主演的《禁闭岛》后半段、接近尾声的一个桥段。小李子当时上岛的时候,以为自己是一个侦探,去解决问题,去侦破案件的。结果经过这个桥段以后,小李子才愕然发现,原来病人竟是我自己。也算是一个神反转。

当AI躺上诊疗椅

咱们今天就给AI放在这椅子上,问问它说:“你到底行不行?你是来给我回答问题、解决问题的,还是你自己就有问题?”AI被制造出来,本来应该是解决我们问题的,但是AI本身的精神有问题吗?

“当AI躺上诊疗椅:心理测量学越狱,揭示前沿模型的内在冲突”

这是一篇论文的标题。这篇论文是卢森堡大学12月2日发到了arXiv上,12月5日还进行了一些修改,现在已经引起了广泛的讨论。

More

千问APP对决豆包,阿里会重演“来往”悲剧吗?揭秘大厂创新“起大早赶晚集”的残酷真相,内部山头林立比外部竞争更致命|Alibaba Qwen 通义千问 AI Open Source

千问APP对决豆包,阿里会重演“来往”悲剧吗?揭秘大厂创新“起大早赶晚集”的残酷真相,内部山头林立比外部竞争更致命|Alibaba Qwen 通义千问 AI Open Source已关闭评论

千问APP:阿里的绝地反击,还是又一个“来往”?

千问APP大家都试过了吗?这是阿里的绝地反击,还是又来了一次“来往”一样的故事呢?大厂为什么总是在创新的时候,起个大早,赶个晚集呢?大家好,欢迎收听老范讲故事的YouTube频道

千问APP的短暂狂欢与第一印象

千问APP带来了一个短暂的狂欢。阿里这个模型这么强的公司,终于也要出一款APP,C端的APP要去对标ChatGPT了。阿里的股价短暂上涨,然后被一个很奇怪的小作文,据说是有人看了白宫里边泄密的文件,说阿里为中国军方提供服务,马上要接受制裁了,所以阿里股价又跌回去了。

这一次的短暂狂欢呢,来自于一个很拙劣的吹风方式,说阿里在搞一个秘密项目,据说呢是集团高层定的战略,大家都在一起封闭开发,具体在干什么不知道。但是呢,突然发现食堂里边吃大量的粤菜,食堂的师傅被要求做粤菜,这一定是由广东过来的团队在做项目。当时就在吹风说在做千问APP。那么为什么是广东团队在做?待会咱们后边再讲。

产品上线呢,也确实引发了关注。第一天服务器短暂崩了一次。现在新产品上线,如果连服务器都不崩一次的话,好像流程没有走完,所以千问上线的时候也短暂的崩了一下。用起来的感觉呢,一言难尽。我确实把它下载下来用了一下,这个东西说是对标ChatGPT,却是比豆包更“豆包”的一个产品。

More