原文标题:与「李白」赏图赋诗,同「猴哥」直面天命,人大高瓴提出MMRole多模态角色扮演
原文作者:机器之心
冷月清谈:
- 多模态角色扮演智能体(MMRole)能够扮演特定角色,并围绕图像进行多模态对话。
- MMRole 解决了传统角色扮演智能体仅限于单一模态的局限,增强沉浸感和应用场景。
MMRole-Data 数据集
- 大规模、高质量的多模态角色扮演数据集,包含 85 个角色、11K 张图像和 85K 条训练样本。
- 涵盖三种角色类型:虚构角色、历史人物和假想现实角色。
- 以图像为中心的三类对话场景:评论性交互、用户 - 角色对话和角色间对话。
MMRole-Eval 评测方法
- 全面且稳健的评估方法,涵盖三个维度下的八项指标:
- **基础对话技巧:**指令遵循度、流畅度、连贯性
- **多模态理解能力:**图文相关性、响应准确度
- **角色扮演质量:**性格一致性、知识一致性、语气一致性
MMRole-Agent 测试结果
- 开发的首个专门的 MMRole,性能优于同等参数规模的通用对话模型。
- 在未见过的角色上表现出强大的泛化能力。
- 识别了多模态理解和角色扮演质量是 MMRole 开发的挑战性方面,需要进一步优化。
怜星夜思:
2、在 MMRole-Data 数据集中,引入了假想现实角色这一新的角色类型。这个角色类型的加入对 MMRole 的开发和应用有何意义?
3、MMRole-Eval 评测方法中,对于角色扮演质量的评估涵盖了三个维度。这三个维度分别考核了哪些方面?
原文内容
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
代彦琪是中国人民大学高瓴人工智能学院的三年级博士生,师从卢志武教授,2022年毕业于大连理工大学软件学院。他的研究兴趣包括多任务学习、多模态大模型以及角色扮演智能体等领域,近期尤其关注多模态大模型指令微调中的多任务冲突问题。如有任何交流或合作机会,欢迎通过邮箱 [email protected] 联系。
-
代码仓库:https://github.com/YanqiDai/MMRole
-
论文地址:https://arxiv.org/abs/2408.04203
-
指令遵循度(Instruction Adherence, IA)
-
流畅度(Fluency, Flu)
-
连贯性(Coherency, Coh)
-
图文相关性(Image-Text Relevance, ITR)
-
响应准确度(Response Accuracy, RA)
-
性格一致性(Personality Consistency, PC)
-
知识一致性(Knowledge Consistency, KC)
-
语气一致性(Tone Consistency, TC)
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]