MixerMDM提出了一个可学习的人体运动扩散模型组合方案,能更好控制生成过程,并提出新的评估方法。
原文标题:【CVPR2025】MixerMDM:可学习的人体运动扩散模型组合
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章中提到了一种新的评估技术,用于衡量交互性和个体质量。这种评估方法具体是如何实现的?如果让你来设计,你会考虑哪些指标?
3、MixerMDM 目前结合了单人和多人运动扩散模型,未来是否可以扩展到结合更多类型的模型?例如,结合具有不同风格或不同运动类型的模型?
原文内容
来源:专知本文约1000字,建议阅读5分钟
我们提出了 MixerMDM,这是第一个可学习的模型组合技术,用于结合预训练的文本条件人体运动扩散模型。
生成由条件(如文本描述)指导的人体运动是一项具有挑战性的任务,因为它需要具有高质量运动及其对应条件的配对数据集。当目标是实现更精细的生成控制时,困难会进一步增加。为此,先前的工作提出了结合多个在不同条件数据集上预训练的运动扩散模型,从而实现对多个条件的控制。然而,现有的合并策略忽视了生成过程的最佳组合方式可能依赖于每个预训练生成模型的特性以及具体的文本描述。在这种背景下,我们提出了 MixerMDM,这是第一个可学习的模型组合技术,用于结合预训练的文本条件人体运动扩散模型。与先前的方法不同,MixerMDM 提供了一种动态混合策略,该策略通过对抗训练的方式学习根据驱动生成的条件集来结合每个模型的去噪过程。通过使用 MixerMDM 结合单人和多人运动扩散模型,我们能够对每个人的动态进行精细控制,并且也能控制整体的交互过程。此外,我们提出了一种新的评估技术,首次在该任务中通过计算混合生成运动与其条件之间的对齐程度,来衡量交互性和个体质量,并评估 MixerMDM 在去噪过程中根据要混合的运动调整混合的能力。