提出DDTLLaMA:利用扩散时间步学习离散递归视觉令牌,提升多模态理解与生成能力。
原文标题:【CVPR2025】基于离散扩散时间步令牌的生成式多模态预训练
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、DDTLLaMA通过扩散时间步来学习视觉令牌,从而实现图像重建。你认为这种方法在实际应用中,比如在图像修复、图像生成等方面,有哪些潜在的优势和局限性?
3、文章提到DDTLLaMA在多模态理解与生成任务上表现优于其他MLLMs。你认为未来MLLM的发展方向是什么?DDTLLaMA的这种方法对未来的研究有哪些启发?
原文内容
来源:专知本文约1000字,建议阅读5分钟
我们通过利用扩散时间步来学习离散的、递归的视觉令牌,从而构建了一种合适的视觉语言。
近期在多模态大型语言模型(MLLMs)领域的研究致力于通过结合大型语言模型(LLM)与扩散模型(分别在各自任务中处于最先进水平),实现视觉理解与生成的统一。现有方法通常依赖于空间视觉令牌,即将图像块编码后按照空间顺序(例如光栅扫描顺序)排列。然而,我们指出,空间令牌缺乏语言中固有的递归结构,因此形成了一种大型语言模型难以掌握的“不可学习语言”。
在本文中,我们通过利用扩散时间步来学习离散的、递归的视觉令牌,从而构建了一种合适的视觉语言。我们提出的视觉令牌能够递归地补偿在噪声图像中随时间步增加而逐步丧失的属性,使扩散模型能够在任意时间步重建原始图像。这一方法使我们能够有效整合大型语言模型在自回归推理方面的优势与扩散模型在精确图像生成方面的优势,在统一框架内实现无缝的多模态理解与生成。
大量实验表明,我们在多模态理解与生成任务上同时达到了优于其他MLLMs的方法性能。项目页面:https://DDTLLaMA.github.io/