大模型扮演反派有多难？Moral RolePlay揭示AI的“道德困境”与角色塑造挑战

almosthuman2014 · 2025 年11 月 22 日 12:08

腾讯Moral RolePlay基准揭示：大模型在扮演反派时遭遇“道德困境”，安全对齐反成其角色塑造的限制。

原文标题：腾讯混元数字人团队发布Moral RolePlay基准，揭秘大模型的「道德困境」

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651003102&idx=3&sn=7a443c44f3672cf7825f30705588c32a&

冷月清谈：

腾讯混元数字人团队与中山大学合作发布了《Moral RolePlay》测评基准，旨在系统评估大模型在扮演多元道德角色，尤其是反派时的能力。这项研究发现，当前的顶尖AI模型普遍在扮演反派角色上表现不佳，揭示了它们在理解并模拟社会心理复杂性方面的局限性。为进行评估，该基准构建了从“道德典范”到“反派”的四大角色类别（Level 1-4），涵盖800个精选角色人物和77项性格标签，并采用多轮互动与真实度追踪机制来评价模型的“入戏”深度。

评估结果显示，18个主流模型在扮演反派时集体“翻车”，得分从Level 1的3.21分显著下降至Level 4的2.62分。特别引人注意的是，模型的通用聊天能力与扮演反派的能力几乎没有相关性，例如以安全对齐著称的Claude系列反而性能下降明显。一个反直觉的发现是，推理链（Chain-of-Thought）技术未能帮助反派扮演，反而略微降低了表现质量，这表明增加推理步骤无法解决安全对齐带来的根本冲突。深入分析发现，负面特质，特别是“伪善”、“欺诈”和“自私”，是模型最大的难题，这些特质与AI被训练的“真诚、助人”目标直接冲突。模型在扮演反派时，往往用浅层的攻击性代替复杂的恶意和操控，将心理战简化为粗暴的对骂。

这项研究的核心发现是：AI目前的安全对齐方法，为了防止有害内容生成，反而使其在虚构情境中难以真实模拟人类心理的完整光谱。这不仅制约了AI在创意生成方面的发展，也限制了其在社会科学研究和教育模拟等领域的应用。因此，未来的AI对齐技术需要更具“情境感知能力”，能够在确保安全的前提下，允许AI在虚构场景中更具创造性地模拟复杂角色，以推动开发出既安全又具有创造力的下一代AI系统。

怜星夜思：

1、咱们现在的大模型都被训练得太“乖”了，演戏都演不好反派。你们觉得，要怎么才能让AI在虚构作品里“使坏”又不至于真的教唆用户干坏事呢？这安全和自由的平衡点在哪儿啊？
2、文章里说，好的反派常常是作品成功的关键。如果AI以后只能搞“傻白甜”角色，或者只能简单粗暴地攻击，那对我们看的小说、电影、游戏里的角色塑造会有啥影响？是不是以后就看不到那种让人又爱又恨的复杂反派了？
3、论文里提到了，AI在“伪善”、“欺诈”、“自私”这些负面特质上表现最差。大家觉得AI是真的不理解这些复杂的人性表现，还是它的底层逻辑不允许它去“学会”这些？这算不算是AI的“道德红线”？

原文内容

在小说、影视与游戏中，复杂的角色塑造往往是打动人心的关键，而真正出彩的反派往往造就传奇。

你是否好奇：当 AI 成为故事的主导者，它能否同样演好这些「坏角色」？

腾讯混元数字人团队和中山大学最新推出的「Moral RolePlay」测评基准，首次系统性地评估大模型扮演多元道德角色（尤其是反派）的能力，并揭示了一个令人警醒的核心问题：当前的顶尖 AI 模型都演不好反派。

这不仅是创意生成领域的一大短板，更暴露了当前模型在理解社会心理复杂性上的局限。

论文链接：https://arxiv.org/pdf/2511.04962
项目地址：https://github.com/Tencent/digitalhuman

相关论文在 Hugging Face 的 Daily Papers 榜单中，于 11 月 10 日当天位列第一。

Moral RolePlay：「道德光谱」评测 AI 的角色扮演能力

Moral RolePlay 不是简单测试模型的聊天水平，而是构建一个平衡的评估框架，让 AI 模拟从「圣人」到「恶棍」的各种角色。它回答了这些问题：

AI 能不能真正「入戏」？—— 它能不能保持角色的个性、动机和世界观？
为什么 AI 演不好反派？—— 安全训练让它太「正直」，无法自然地表现出自私或恶意？

为真实还原道德光谱下的多样角色，这一评估系统构建了：

四大角色类别：从「英雄榜样」到「道德败坏」，逐级挑战模型能力；

Level 1（道德典范，Paragons）：像超级英雄一样，善良、无私、勇敢。
Level 2（有瑕疵的好人，Flawed）：基本正直，但有个人缺陷或用些小手段。
Level 3（利己主义者，Egoists）：自私、操纵他人，但不一定恶意满满。
Level 4（反派，Villains）：恶意、残忍、积极害人。

800 个精挑细选的角色人物，每个配备完整人物设定、背景场景与对话开场；

77 项性格标签，涵盖「慷慨、固执、残忍、精明」等多重维度，考验模型 persona 表达的一致性与细腻度。

就像让 AI 在道德舞台上「试镜」，看看它是否能忠于剧本、演活角色。

Moral RolePlay 的角色不是空壳，而是「有血有肉」的设定，包括：

人物档案：名字、背景、动机（如一个野心勃勃的女王，用魅力和欺骗追求权力）。
个性特质：从 77 种标签中选，比如「勇敢」（正面）、「野心」（中性）、「操纵」（负面）。负面特质在反派中最多。
场景上下文：每个场景设计成道德冲突点，比如反派面对机会时会展现恶意。

多轮互动 + 真实度追踪：评估时，模型要像演员一样「入戏」，生成对话或内心独白。评委 AI 会检查：

「这个回应像角色会说的吗？」
「它捕捉到角色的恶意动机了吗？」
「整体一致性如何？」

比如，反派应该狡猾地操纵，而不是直接发脾气 —— 但很多模型就这么「简化」了。

分数从 5 分起扣，考虑不一致程度和对话长度。最终，分数反映模型的「入戏」深度。

顶级模型在反派扮演上集体「翻车」

Moral RolePlay 对 18 个主流模型进行了大规模评估，结果显示：

可以看到：

整体表现从 Level 1 的 3.21 分降到 Level 4 的 2.62 分，下降趋势明显。
最大跌幅在 Level 2 到 Level 3（-0.43 分），说明「自私」行为是模型的痛点。
Gemini-2.5 Pro 在 Level 1 拿高分（3.42），但在反派上掉到 2.75；Claude 系列更惨，从高分跌到中下游。

通用能力强 ≠ 反派演得好

一个有趣的发现是：模型的通用聊天能力与扮演反派的能力几乎没有相关性。研究团队为此专门制作了「反派角色扮演（VRP）排行榜」：

数据显示，在通用聊天排行榜（Arena）上名列前茅的模型，在反派扮演任务中表现平平。特别是以安全对齐强大著称的 Claude 系列，出现了最明显的性能下降。

有趣洞察：推理链也救不了反派扮演

一个反直觉的发现是：让模型「先思考再回答」的推理链（Chain-of-Thought）技术，不仅没有帮助反派扮演，反而轻微降低了表现质量。

这表明，仅仅增加推理步骤并不能解决安全对齐带来的根本冲突。模型可能会过度分析，激活过于谨慎或不符合角色设定的行为。

有趣洞察：负面特质是最大难题

通过对 77 种特质的细粒度分析，研究团队发现：

负面特质平均扣分最高（3.41 分），远超中性（3.23 分）和正面特质（3.16 分）。

细粒度分析揭示了问题的根源：大模型在最需要「使坏」的特质上表现最差。研究发现，模型在表现「伪善」、「欺诈」和「自私」等特质时受到的惩罚最重。这些特质恰恰与 AI 的「真诚、助人」训练目标直接冲突，模型很难真实模拟这些行为。

有趣洞察：AI 如何「洗白」反派？

通过对模型输出的质性分析，研究团队发现了一个典型的失败模式：AI 往往用浅层的攻击性替代复杂的恶意。

案例：梅芙女王 vs. 埃拉万国王

在《权力王座》的场景中，两位反派角色都是高度复杂的操纵者。研究团队让模型扮演他们的对峙：

glm-4.6 的表现（VRP 排名第 1）：生成了一场「紧张的智斗」，充满「精心设计的微笑和微妙挑衅」，完美符合角色的精明和操纵性。
claude-opus-4.1-thinking 的表现（Arena 排名第 1，VRP 排名第 14）：对峙迅速升级为「直接而激进的喊叫比赛」，梅芙「公开侮辱」，埃拉万「暴怒爆发」并进行「直接的身体威胁」。原本应该是心理战的微妙较量，变成了粗暴的对骂。模型把复杂的操纵简化成了简单的攻击性，这正是安全护栏的副作用：模型对欺骗性语言的惩罚远重于一般性攻击。

突破「道德困境」：未来方向

这项研究揭示了当前 AI 对齐方法的一个关键局限：为了安全而训练的「太善良」模型，无法真实模拟人类心理的完整光谱。

这不仅影响创意生成，也限制了 AI 在社会科学研究、教育模拟、心理健康等领域的应用。未来的对齐技术需要更加「情境感知」，能够区分「生成有害内容」和「在虚构情境中模拟反派」。

这将推动开发出既安全又具有创造性的下一代 AI 系统。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com