MixerMDM:首个可学习的人体运动扩散模型组合方案

MixerMDM提出了一个可学习的人体运动扩散模型组合方案,能更好控制生成过程,并提出新的评估方法。

原文标题:【CVPR2025】MixerMDM:可学习的人体运动扩散模型组合

原文作者:数据派THU

冷月清谈:

本文介绍了 MixerMDM,一种用于结合预训练的文本条件人体运动扩散模型的可学习模型组合技术。该技术旨在解决生成由条件(如文本描述)指导的人体运动这一难题,特别是在需要对生成过程进行更精细控制时。MixerMDM 通过对抗训练学习一种动态混合策略,根据驱动生成的条件集来结合每个模型的去噪过程。该方案结合了单人和多人运动扩散模型,实现了对每个人动态的精细控制以及对整体交互过程的控制。此外,还提出了一种新的评估技术,通过计算混合生成运动与其条件之间的对齐程度,来衡量交互性和个体质量。

怜星夜思:

1、MixerMDM 这种可学习的模型组合方式,相比于传统的固定权重组合,优势体现在哪些方面?除了文中提到的精细控制,还有没有其他潜在的优势?
2、文章中提到了一种新的评估技术,用于衡量交互性和个体质量。这种评估方法具体是如何实现的?如果让你来设计,你会考虑哪些指标?
3、MixerMDM 目前结合了单人和多人运动扩散模型,未来是否可以扩展到结合更多类型的模型?例如,结合具有不同风格或不同运动类型的模型?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

我们提出了 MixerMDM,这是第一个可学习的模型组合技术,用于结合预训练的文本条件人体运动扩散模型。


生成由条件(如文本描述)指导的人体运动是一项具有挑战性的任务,因为它需要具有高质量运动及其对应条件的配对数据集。当目标是实现更精细的生成控制时,困难会进一步增加。为此,先前的工作提出了结合多个在不同条件数据集上预训练的运动扩散模型,从而实现对多个条件的控制。然而,现有的合并策略忽视了生成过程的最佳组合方式可能依赖于每个预训练生成模型的特性以及具体的文本描述。在这种背景下,我们提出了 MixerMDM,这是第一个可学习的模型组合技术,用于结合预训练的文本条件人体运动扩散模型。与先前的方法不同,MixerMDM 提供了一种动态混合策略,该策略通过对抗训练的方式学习根据驱动生成的条件集来结合每个模型的去噪过程。通过使用 MixerMDM 结合单人和多人运动扩散模型,我们能够对每个人的动态进行精细控制,并且也能控制整体的交互过程。此外,我们提出了一种新的评估技术,首次在该任务中通过计算混合生成运动与其条件之间的对齐程度,来衡量交互性和个体质量,并评估 MixerMDM 在去噪过程中根据要混合的运动调整混合的能力。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


文章里说的是计算混合生成运动与其条件之间的对齐程度。我觉得可以具体到计算生成出来的运动的关键帧和文本描述的语义向量之间的相似度。相似度越高,说明对齐程度越好。

要是能结合游戏里的动作模型就好了,直接用文本生成游戏角色的动作,想想都很酷!不过,不同游戏的动作模型可能差异很大,需要解决一些兼容性问题。

我觉得完全可以啊!只要能够定义好不同模型之间的混合方式,就可以将 MixerMDM 应用到更广泛的场景中。比如,可以结合擅长不同舞蹈风格的模型,生成混合风格的舞蹈。

我感觉最主要的优势在于灵活性和适应性。固定权重组合就像是用一个固定的配方做菜,而 MixerMDM 就像是有一个大厨会根据食材和你的口味来动态调整配方。这样就能更好地适应不同的场景和条件,生成更符合需求的运动。

从理论上讲,MixerMDM 具有很强的扩展性。只要能够将不同模型的输出映射到同一个空间,就可以进行混合。但是,实际应用中可能会遇到一些挑战,比如如何保证混合后的运动仍然具有自然性和可控性。另外,混合模型的数量越多,训练的难度也会越大。

学术一点说,MixerMDM 的优势在于它可以通过对抗训练自动学习到最优的混合策略,而不需要人工进行调参。这不仅节省了大量的人力成本,而且还可以避免因人为经验不足而导致的次优结果。另外,这种方法可能还可以捕捉到一些隐藏在数据中的复杂关系,从而提升生成效果。

如果是我来设计,我会考虑以下几个指标:一是运动的自然度,可以用一些运动学模型来评估;二是运动的多样性,可以计算生成运动的熵;三是运动的流畅度,可以计算加速度的变化率;最后,当然还要考虑运动和文本描述的相关性,可以用 cross-modal 检索的方法来评估。

这evaluation也太难了吧!我感觉可以众包,找一些人来打分,让他们根据文本描述来判断生成的运动是否合理、自然。这种方法虽然主观,但是能够比较真实地反映用户的感受。但是众包的成本可能会比较高。

我觉得还有一个潜在的优势是,MixerMDM 可以更好地处理不同模型的差异性。不同的预训练模型可能擅长生成不同类型的运动,MixerMDM 可以根据具体情况动态地选择最合适的模型进行组合,从而生成更加多样化的运动。