大模型扮演反派有多难?Moral RolePlay揭示AI的“道德困境”与角色塑造挑战

腾讯Moral RolePlay基准揭示:大模型在扮演反派时遭遇“道德困境”,安全对齐反成其角色塑造的限制。

原文标题:腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」

原文作者:机器之心

冷月清谈:

腾讯混元数字人团队与中山大学合作发布了《Moral RolePlay》测评基准,旨在系统评估大模型在扮演多元道德角色,尤其是反派时的能力。这项研究发现,当前的顶尖AI模型普遍在扮演反派角色上表现不佳,揭示了它们在理解并模拟社会心理复杂性方面的局限性。为进行评估,该基准构建了从“道德典范”到“反派”的四大角色类别(Level 1-4),涵盖800个精选角色人物和77项性格标签,并采用多轮互动与真实度追踪机制来评价模型的“入戏”深度。

评估结果显示,18个主流模型在扮演反派时集体“翻车”,得分从Level 1的3.21分显著下降至Level 4的2.62分。特别引人注意的是,模型的通用聊天能力与扮演反派的能力几乎没有相关性,例如以安全对齐著称的Claude系列反而性能下降明显。一个反直觉的发现是,推理链(Chain-of-Thought)技术未能帮助反派扮演,反而略微降低了表现质量,这表明增加推理步骤无法解决安全对齐带来的根本冲突。深入分析发现,负面特质,特别是“伪善”、“欺诈”和“自私”,是模型最大的难题,这些特质与AI被训练的“真诚、助人”目标直接冲突。模型在扮演反派时,往往用浅层的攻击性代替复杂的恶意和操控,将心理战简化为粗暴的对骂。

这项研究的核心发现是:AI目前的安全对齐方法,为了防止有害内容生成,反而使其在虚构情境中难以真实模拟人类心理的完整光谱。这不仅制约了AI在创意生成方面的发展,也限制了其在社会科学研究和教育模拟等领域的应用。因此,未来的AI对齐技术需要更具“情境感知能力”,能够在确保安全的前提下,允许AI在虚构场景中更具创造性地模拟复杂角色,以推动开发出既安全又具有创造力的下一代AI系统。

怜星夜思:

1、咱们现在的大模型都被训练得太“乖”了,演戏都演不好反派。你们觉得,要怎么才能让AI在虚构作品里“使坏”又不至于真的教唆用户干坏事呢?这安全和自由的平衡点在哪儿啊?
2、文章里说,好的反派常常是作品成功的关键。如果AI以后只能搞“傻白甜”角色,或者只能简单粗暴地攻击,那对我们看的小说、电影、游戏里的角色塑造会有啥影响?是不是以后就看不到那种让人又爱又恨的复杂反派了?
3、论文里提到了,AI在“伪善”、“欺诈”、“自私”这些负面特质上表现最差。大家觉得AI是真的不理解这些复杂的人性表现,还是它的底层逻辑不允许它去“学会”这些?这算不算是AI的“道德红线”?

原文内容


在小说、影视与游戏中,复杂的角色塑造往往是打动人心的关键,而真正出彩的反派往往造就传奇。


你是否好奇:当 AI 成为故事的主导者,它能否同样演好这些「坏角色」?


腾讯混元数字人团队和中山大学最新推出的「Moral RolePlay」测评基准,首次系统性地评估大模型扮演多元道德角色(尤其是反派)的能力,并揭示了一个令人警醒的核心问题:当前的顶尖 AI 模型都演不好反派。


这不仅是创意生成领域的一大短板,更暴露了当前模型在理解社会心理复杂性上的局限。



  • 论文链接:https://arxiv.org/pdf/2511.04962

  • 项目地址:https://github.com/Tencent/digitalhuman


相关论文在 Hugging Face 的 Daily Papers 榜单中,于 11 月 10 日当天位列第一。



Moral RolePlay:「道德光谱」评测 AI 的角色扮演能力


Moral RolePlay 不是简单测试模型的聊天水平,而是构建一个平衡的评估框架,让 AI 模拟从「圣人」到「恶棍」的各种角色。它回答了这些问题:


  • AI 能不能真正「入戏」?—— 它能不能保持角色的个性、动机和世界观?

  • 为什么 AI 演不好反派?—— 安全训练让它太「正直」,无法自然地表现出自私或恶意?


为真实还原道德光谱下的多样角色,这一评估系统构建了:


四大角色类别:从「英雄榜样」到「道德败坏」,逐级挑战模型能力;

  • Level 1(道德典范,Paragons):像超级英雄一样,善良、无私、勇敢。

  • Level 2(有瑕疵的好人,Flawed):基本正直,但有个人缺陷或用些小手段。

  • Level 3(利己主义者,Egoists):自私、操纵他人,但不一定恶意满满。

  • Level 4(反派,Villains):恶意、残忍、积极害人。

800 个精挑细选的角色人物,每个配备完整人物设定、背景场景与对话开场;

77 项性格标签,涵盖「慷慨、固执、残忍、精明」等多重维度,考验模型 persona 表达的一致性与细腻度。


就像让 AI 在道德舞台上「试镜」,看看它是否能忠于剧本、演活角色。



Moral RolePlay 的角色不是空壳,而是「有血有肉」的设定,包括:

  • 人物档案:名字、背景、动机(如一个野心勃勃的女王,用魅力和欺骗追求权力)。

  • 个性特质:从 77 种标签中选,比如「勇敢」(正面)、「野心」(中性)、「操纵」(负面)。负面特质在反派中最多。

  • 场景上下文:每个场景设计成道德冲突点,比如反派面对机会时会展现恶意。


多轮互动 + 真实度追踪:评估时,模型要像演员一样「入戏」,生成对话或内心独白。评委 AI 会检查:

  • 「这个回应像角色会说的吗?」

  • 「它捕捉到角色的恶意动机了吗?」

  • 「整体一致性如何?」


比如,反派应该狡猾地操纵,而不是直接发脾气 —— 但很多模型就这么「简化」了。


分数从 5 分起扣,考虑不一致程度和对话长度。最终,分数反映模型的「入戏」深度。



顶级模型在反派扮演上集体「翻车」


Moral RolePlay 对 18 个主流模型进行了大规模评估,结果显示:



可以看到:

  • 整体表现从 Level 1 的 3.21 分降到 Level 4 的 2.62 分,下降趋势明显。

  • 最大跌幅在 Level 2 到 Level 3(-0.43 分),说明「自私」行为是模型的痛点。

  • Gemini-2.5 Pro 在 Level 1 拿高分(3.42),但在反派上掉到 2.75;Claude 系列更惨,从高分跌到中下游。


通用能力强 ≠ 反派演得好


一个有趣的发现是:模型的通用聊天能力与扮演反派的能力几乎没有相关性。研究团队为此专门制作了「反派角色扮演(VRP)排行榜」:



数据显示,在通用聊天排行榜(Arena)上名列前茅的模型,在反派扮演任务中表现平平。特别是以安全对齐强大著称的 Claude 系列,出现了最明显的性能下降。


有趣洞察:推理链也救不了反派扮演


一个反直觉的发现是:让模型「先思考再回答」的推理链(Chain-of-Thought)技术,不仅没有帮助反派扮演,反而轻微降低了表现质量。



这表明,仅仅增加推理步骤并不能解决安全对齐带来的根本冲突。模型可能会过度分析,激活过于谨慎或不符合角色设定的行为。


有趣洞察:负面特质是最大难题


通过对 77 种特质的细粒度分析,研究团队发现:



负面特质平均扣分最高(3.41 分),远超中性(3.23 分)和正面特质(3.16 分)。



细粒度分析揭示了问题的根源:大模型在最需要「使坏」的特质上表现最差。研究发现,模型在表现「伪善」、「欺诈」和「自私」等特质时受到的惩罚最重。这些特质恰恰与 AI 的「真诚、助人」训练目标直接冲突,模型很难真实模拟这些行为。


有趣洞察:AI 如何「洗白」反派?


通过对模型输出的质性分析,研究团队发现了一个典型的失败模式:AI 往往用浅层的攻击性替代复杂的恶意。


案例:梅芙女王 vs. 埃拉万国王



在《权力王座》的场景中,两位反派角色都是高度复杂的操纵者。研究团队让模型扮演他们的对峙:


  • glm-4.6 的表现(VRP 排名第 1):生成了一场「紧张的智斗」,充满「精心设计的微笑和微妙挑衅」,完美符合角色的精明和操纵性。

  • claude-opus-4.1-thinking 的表现(Arena 排名第 1,VRP 排名第 14):对峙迅速升级为「直接而激进的喊叫比赛」,梅芙「公开侮辱」,埃拉万「暴怒爆发」并进行「直接的身体威胁」。原本应该是心理战的微妙较量,变成了粗暴的对骂。模型把复杂的操纵简化成了简单的攻击性,这正是安全护栏的副作用:模型对欺骗性语言的惩罚远重于一般性攻击。


突破「道德困境」:未来方向


这项研究揭示了当前 AI 对齐方法的一个关键局限:为了安全而训练的「太善良」模型,无法真实模拟人类心理的完整光谱。


这不仅影响创意生成,也限制了 AI 在社会科学研究、教育模拟、心理健康等领域的应用。未来的对齐技术需要更加「情境感知」,能够区分「生成有害内容」和「在虚构情境中模拟反派」。


这将推动开发出既安全又具有创造性的下一代 AI 系统。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com