快手可灵团队MIDAS框架：实现实时多模态互动数字人生成新突破

almosthuman2014 · 2025 年9 月 13 日 16:52

快手可灵MIDAS框架实现实时多模态数字人生成，延迟低于500ms，为交互带来突破。

原文标题：快手可灵团队提出MIDAS：压缩比64倍、延迟低于500ms，多模态互动数字人框架实现交互生成新突破

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650990407&idx=3&sn=c56af18dc7d9940026ccfceb2f27c62b&

冷月清谈：

数字人视频生成技术在增强人机交互方面扮演着核心角色，然而当前方法在低延迟、多模态控制及长时序一致性方面仍面临挑战。快手可灵团队提出的MIDAS（Multimodal Interactive Digital-human Synthesis）框架，通过自回归视频生成结合轻量化扩散去噪头，实现了多模态条件下的实时、流畅数字人视频合成。该系统具备三大核心优势：独特的64倍高压缩比自编码器，大幅降低了计算负荷；端到端的生成延迟低于500ms，支持实时流式交互；以及仅需4步的扩散去噪过程，在效率与视觉质量间取得了最佳平衡。MIDAS通过统一的多模态条件投影器整合音频、姿态和文本等输入，并采用因果潜在预测与扩散渲染机制，确保生成的连贯性与高效性。为提升模型能力，研究者还构建了一个涵盖2万小时的大规模多模态对话数据集。该技术已在双人对话、跨语言歌唱合成和通用交互世界建模等任务中展现卓越性能，为虚拟人直播、元宇宙交互以及多模态AI智能体等应用奠定了坚实的技术基础。

怜星夜思：

1、这个问题挺有意思的，MIDAS这种能实时生成数字人的技术，除了文章里说的直播啊、元宇宙之类的，大家觉得未来还有哪些意想不到的应用场景可能会出现呢？
2、文章提到MIDAS把延迟降到了500ms以内，这在实际使用中对用户体验到底有多大的提升？或者说，这个500ms的门槛，对于实时交互来说意味着什么？
3、数字人技术发展这么快，以后会不会有那种几乎看不出是AI的数字分身出现？如果真的到了那一天，大家觉得对社会、对个人隐私会有哪些影响或挑战呢？

原文内容

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。然而，现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。大多数系统要么计算开销巨大，无法实时响应，要么只能处理单一模态输入，缺乏真正的交互能力。

为了解决这些问题，快手可灵团队（Kling Team）提出了一种名为 MIDAS（Multimodal Interactive Digital-human Synthesis）的新型框架，通过自回归视频生成结合轻量化扩散去噪头，实现了多模态条件下实时、流畅的数字人视频合成。该系统具备三大核心优势：

64× 高压缩比自编码器，将每帧压缩至最多 60 个 token，大幅降低计算负荷；
低于 500ms 端到端生成延迟，支持实时流式交互；
4 步扩散去噪，在效率与视觉质量间取得最佳平衡。

该项研究已被广泛实验验证，在多语言对话、歌唱合成甚至交互式世界建模等任务中表现出色，为数字人实时交互提供了全新解决方案。

论文标题：MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation
论文地址：https://arxiv.org/pdf/2508.19320
主页地址：https://chenmingthu.github.io/milm/

核心创新

1. 多模态指令控制机制

MIDAS 支持从音频、姿态到文本等多种输入信号。通过一个统一的多模态条件投影器，将不同模态编码到共享潜在空间，形成全局指令令牌，构建 frame-by-frame 的 chunk 注入，引导自回归模型生成语义和空间一致的数字人动作与表情。