提出多模态角色扮演智能体MMRole:打造沉浸式多模态对话体验

原文标题:与「李白」赏图赋诗,同「猴哥」直面天命,人大高瓴提出MMRole多模态角色扮演

原文作者:机器之心

冷月清谈:

**多模态角色扮演智能体 (MMRole)**
  • 多模态角色扮演智能体(MMRole)能够扮演特定角色,并围绕图像进行多模态对话。
  • MMRole 解决了传统角色扮演智能体仅限于单一模态的局限,增强沉浸感和应用场景。

MMRole-Data 数据集

  • 大规模、高质量的多模态角色扮演数据集,包含 85 个角色、11K 张图像和 85K 条训练样本。
  • 涵盖三种角色类型:虚构角色、历史人物和假想现实角色。
  • 以图像为中心的三类对话场景:评论性交互、用户 - 角色对话和角色间对话。

MMRole-Eval 评测方法

  • 全面且稳健的评估方法,涵盖三个维度下的八项指标:
    • **基础对话技巧:**指令遵循度、流畅度、连贯性
    • **多模态理解能力:**图文相关性、响应准确度
    • **角色扮演质量:**性格一致性、知识一致性、语气一致性

MMRole-Agent 测试结果

  • 开发的首个专门的 MMRole,性能优于同等参数规模的通用对话模型。
  • 在未见过的角色上表现出强大的泛化能力。
  • 识别了多模态理解和角色扮演质量是 MMRole 开发的挑战性方面,需要进一步优化。



怜星夜思:


1、MMRole 相较于传统的角色扮演智能体,其核心优势体现在哪些方面?
2、在 MMRole-Data 数据集中,引入了假想现实角色这一新的角色类型。这个角色类型的加入对 MMRole 的开发和应用有何意义?
3、MMRole-Eval 评测方法中,对于角色扮演质量的评估涵盖了三个维度。这三个维度分别考核了哪些方面?

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


代彦琪是中国人民大学高瓴人工智能学院的三年级博士生,师从卢志武教授,2022年毕业于大连理工大学软件学院。他的研究兴趣包括多任务学习、多模态大模型以及角色扮演智能体等领域,近期尤其关注多模态大模型指令微调中的多任务冲突问题。如有任何交流或合作机会,欢迎通过邮箱 [email protected] 联系。


随着大语言模型的飞速发展,角色扮演智能体(RPAs)正逐渐成为 AI 领域的热门话题。这类智能体不仅能够为人们提供陪伴、互动和娱乐,还在教育、社会模拟等领域展现出重要的应用潜力。然而,当前市面上的大多数角色扮演智能体都只会「文字聊天」,其理解能力仅限于单一的文本模态,远远无法与具备多模态感知能力的人类相比。这让我们不禁思考:我们真的只能与这些「单调」的智能体对话吗?显然,答案是否定的!

近日,中国人民大学高瓴人工智能学院的研究团队率先提出了「多模态角色扮演智能体」(MRPAs)的概念。这类智能体不仅能够扮演特定角色,还能够围绕图像进行多模态对话。与此同时,团队正式推出了 MMRole—— 一个专为 MRPAs 开发与评测量身打造的综合框架。


  • 代码仓库:https://github.com/YanqiDai/MMRole
  • 论文地址:https://arxiv.org/abs/2408.04203

图 1:MMRole 框架概述。

如图 1 所示,该框架包括一个大规模、高质量的多模态角色扮演数据集 MMRole-Data,并配备了一套健全的评测方法 MMRole-Eval,涵盖三个维度下的八项指标。在此基础上,团队开发了首个专门的多模态角色扮演智能体 ——MMRole-Agent,在多模态信息理解和角色扮演能力上明显优于同等参数规模的通用对话模型。

MMRole 打破了传统角色扮演智能体仅限于单一模态的局限,让智能体能够在图像和文字之间自由切换,带来更为沉浸的对话体验,进一步扩展了角色扮演智能体的应用场景与价值。

MMRole-Data 数据集

如图 1(a)所示,MMRole-Data 是一个大规模、高质量的多模态角色扮演数据集,包含 85 个角色及其身份信息、11K 张图像,以及 14K 段围绕图像展开的单轮或多轮对话,共生成了 85K 条训练样本和 294 条测试样本。在数据构建过程中,团队借助了 GPT-4V 进行辅助生成,并执行了严格的人工质量审查,为角色扮演智能体的训练和性能评测奠定了坚实基础。

图 2:MMRole-Data 中构建的所有角色。

如图 2 所示,MMRole-Data 涵盖了三种角色类型:虚构角色、历史和公众人物,以及假想现实角色。前两类角色的身份信息由 GPT-4 通过总结 Wikipedia 或百度百科的人物介绍生成,而第三类角色的身份信息则通过 GPT-4 采用两阶段生成方式,在确保多样性的基础上随机生成。前两类角色在之前的研究中已有较多探讨,团队特别引入了第三类角色,旨在提升和评测 MRPAs 在并不广为人知的角色上的性能,使其在多样化角色扮演场景中展现出更强的灵活性与泛化性。

进一步地,MMRole-Data 引入来自 MS-COCO 数据集的通用图像,确保了对广泛视觉概念的覆盖。同时,团队还人工收集和标注了剧照等与角色密切相关的图像,以更有效地唤起角色的个人经历和情感。

图 3:MMRole-Data 中三种对话场景的示例。

最后,如图 3 所示,团队利用 GPT-4V 生成了三类以图像为中心的对话场景:评论性交互、用户 - 角色对话,以及角色间对话。这些对话经过多轮规则过滤和严格的人工质量审查,确保了对话内容的准确性和角色一致性。

图 4:MMRole-Data 中文示例。

特别地,如图 4 所示,团队对数据集的中文部分进行了精细打磨,成功再现了李白、孙悟空等经典人物的形象。通过深入挖掘这些角色的独特个性和背景故事,MRPAs 能够在多模态对话中更具表现力和沉浸感,为用户带来更加真实的互动体验。

MMRole-Eval 评测方法

如图 1(b)所示,MMRole-Eval 是一套稳健而全面的多模态角色扮演智能体评测方法,涵盖三个维度下的八项评测指标,确保对智能体的多方面能力进行深入评估。具体的评测指标包括:

基础对话技巧

  • 指令遵循度(Instruction Adherence, IA)
  • 流畅度(Fluency, Flu)
  • 连贯性(Coherency, Coh)

多模态理解能力

  • 图文相关性(Image-Text Relevance, ITR)
  • 响应准确度(Response Accuracy, RA)

角色扮演质量

  • 性格一致性(Personality Consistency, PC)
  • 知识一致性(Knowledge Consistency, KC)
  • 语气一致性(Tone Consistency, TC)

为了定量评估 MRPAs 在各项指标上的性能,团队开发了一个专门的奖励模型。该模型首先对待评估的 MRPA 与构建的标准答案之间的相对性能进行简要的定性评价,随后为其生成一个定量的分数对,MRPA 的最终得分为该分数对中两个分数的比值。为了开发这一奖励模型,团队利用 GPT-4 在所有测试样本上对多个 MRPAs 进行评测,生成了大量评测轨迹,这些轨迹随后被转换为奖励模型的训练和验证数据。

评测结果与分析

表 1:MMRole-Eval 评测结果。In-Test 表示在训练集中出现过的角色上的测试,而 Out-Test 表示在训练集中未见过的角色上的测试。

如表 1 所示,团队开发的首个专门的多模态角色扮演智能体 MMRole-Agent(9B)在各项指标上表现出了卓越的性能,整体性能远超同等参数规模(<10B)的通用对话模型,甚至优于部分参数量更大(10B-100B)的模型。此外, MMRole-Agent 在未见过的角色上同样展现出了强大的泛化能力。

图 5:MMRole-Eval 评测结果的可视化。

此外,如图 5 所示,团队将评测结果进行了可视化分析,发现所有 MRPAs 在流畅度指标上均获得了较高分数,表明生成流畅内容对于现有的大模型而言相对容易。然而,在其他评测指标上,尤其是性格一致性和语气一致性指标,不同的 MRPAs 之间存在显著差异。这说明,在多模态角色扮演智能体的开发中,多模态理解能力和角色扮演质量是更具挑战性的方面,需要在未来的研究和优化中予以特别关注。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

传统角色扮演智能体就像是一个被关在盒子里的人,只能通过文本与外界交流。而 MMRole 就像是一个身处开放世界的人,它不仅能看到文本,还能看到图像,并且可以自由地在两种模态之间切换,这使得对话更加自然流畅。

MMRole 的核心优势在于其多模态能力,它可以同时处理文本和图像信息,这使得角色扮演更加真实和沉浸。同时,MMRole 还引入了假想现实角色,拓展了角色扮演的范围和灵活性。

语气一致性:评估 MMRole 是否能够根据角色的性格和身份,采用适当的语气与用户对话。

从技术角度来看,假想现实角色的加入,增加了 MMRole 的训练难度。因为 MMRole 需要学习如何处理虚构角色的信息,并将其与现实世界的信息进行区分。不过,这也有利于 MMRole 的泛化能力,使其在面对未知角色时表现更加稳定。

性格一致性:评估 MMRole 是否能够保持角色的性格特征,在不同的对话场景中表现出一致的行为方式。

假想现实角色的加入,丰富了 MMRole 的角色扮演范围,使其能够扮演不存在于现实世界中的角色。这使得 MMRole 在游戏、动漫等虚拟世界中的应用成为可能。

知识一致性:评估 MMRole 是否能够准确掌握角色的知识背景,并将其体现在对话中。

假想现实角色就好像是一个没有固定剧本的演员,MMRole 可以根据用户提供的提示和上下文信息,自由发挥其个性和行为方式。这使得角色扮演更加灵活和多样化。

通俗地讲,传统的角色扮演智能体就像是一个只能用文字交流的机器人,而 MMRole 则像是一个会看图说话的机器人。MMRole 能够理解图像中的内容,并将其融入到对话中,这使得它在角色扮演方面更加逼真。比如,我们可以给 MMRole 一张孙悟空的图片,它会根据图片中的信息扮演孙悟空的角色,并与我们进行对话。