Harmon:统一视觉表征,实现多模态理解与生成

Harmon模型探索统一视觉表征,协调图像理解与生成,在多模态任务中表现出色,尤其在文生图方面优势明显。项目已开源。

原文标题:Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

原文作者:数据派THU

冷月清谈:

本文介绍了南洋理工大学提出的Harmon模型,该模型旨在探索在统一的视觉表征上协调图像理解和生成,解决现有统一模型在理解和生成任务中视觉表征的割裂或不足问题。

Harmon模型的核心在于共享MAR Encoder,该Encoder在图像生成训练中能够同时学习视觉语义的建模。Harmon框架通过MAR Encoder处理完整图像进行图像理解,并结合LLM输出文本;同时沿用MAR的掩码建模范式进行图像生成,通过LLM实现模态交互,MAR Decoder预测剩余的图像内容。

Harmon的训练分为三个阶段:模态对齐、联合训练和高质量微调。实验结果表明,Harmon在多模态理解和文生图基准上均表现出色,尤其在图像生成美学、指令跟随和一致性以及利用多模态大模型的世界知识方面优势显著。

此外,研究还表明Harmon的协同视觉表征能够显著提升生成指标,显示出统一视觉表征对于生成理解协同进化的巨大潜力。

怜星夜思:

1、Harmon模型强调了统一视觉表征的重要性,那么在其他模态(如文本、音频)中,是否也应该追求统一表征?如果追求,可能会带来哪些好处和挑战?
2、Harmon模型在训练中采用了三个阶段:模态对齐、联合训练和高质量微调。为什么需要分阶段训练?每个阶段分别解决了什么问题?
3、Harmon模型在文生图任务上表现出色,那么它在其他生成任务(如视频生成、3D模型生成)上是否具有潜力?如果要将其应用到这些领域,可能需要做出哪些改进?

原文内容

源:机器之心
本文共1100字,建议阅读5分钟
Harmon探索在统一的视觉表征上协调图像理解和生成。


吴思泽,南洋理工大学MMLab@NTU四年级博士生,导师是Chen Change Loy,研究方向为基于多模态模型的视觉理解和生成、开放世界的检测分割等,在ICCV/CVPR/ICLR等顶级学术会议上发表过多篇论文。


  • 论文标题:

    Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

  • 论文链接: 

    https://arxiv.org/abs/2503.21979

  • 代码地址: 

    https://github.com/wusize/Harmon

  • 项目主页:

    https://wusize.github.io/projects/Harmon

  • 在线 Demo:

  •  https://huggingface.co/spaces/wusize/Harmon


1. 背景:统一多模态理解生成


GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力,然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务,是一个巨大的挑战。从视觉表征的维度看,现有的统一模型通常采用如下三种范式:


(1)理解生成统一使用 CLIP/SigLIP 表征,并使用 Diffusion Model 将视觉表征解码成图像,如 EMU2、ILLUME 等。此类方案的图像生成过程缺少与 LLM 的交互,本质上是将 LLM 输出的 embeddings 作为生成 condition。


(2)理解生成统一使用 VQGAN/VAE 表征,如 Transfusion、Show-o、ViLA-u 等,由于 VQGAN/VAE 用于图像压缩,主要表征纹理等细节,缺乏视觉语义的建模,此类方法通常理解能力偏弱。


(3)解耦理解生成表征,理解任务使用编码高层语义的 CLIP/SigLIP,生成任务使用 VQGAN,如 Janus、UniFluid 等。


2. 协调理解和生成的视觉表征


不同于 Janus 割裂理解和生成的视觉编码,Harmon 探索在统一的视觉表征上协调图像理解和生成。


(1)MAR 的启发


图一:Linear Probing 和特征图激活


MAR 作为一种基于图像掩码建模的生成范式,沿袭了表征学习 MAE 的 Encoder-Decoder 框架,Harmon 的作者们发现 MAR Encoder 在图像生成训练中,同时学会对视觉语义的建模。如图一所示,MAR 的 Linear Probing 结果远超 VQGAN、VAE,同时对视觉语义概念有更精确的响应。


(2)Harmon:理解生成共享 MAR Encoder


图二: Harmon 框架图


Harmon 框架如图所示,通过共享 MAR Encoder 同时促进理解和生成:


i)图像理解:MAR Encoder 处理完整图像,LLM 根据图像内容和用户指令输出文本。

ii) 图像生成:沿用 MAR 的掩码建模范式,MAR Encoder 处理可见(已经生成)的图像内容,LLM 中实现模态交互,MAR Decoder 预测剩余的图像内容。


(3)Harmon 的三阶段训练


i)模态对齐:第一阶段对齐 MAR 与 LLM,冻结 LLM 参数,仅训练 MAR Encoder 和 Decoder。

ii)联合训练:在大规模图文数据上联合训练,并更新所有模型参数。

iii)高质量微调:最后一个阶段使用高质量数据微调,并将图片分辨率从 256 提升至 512。


3. 实验结果:理解生成两开花


(1)Harmon 在多模态理解基准上,取得接近 Janus-Pro 的效果



(2)在文生图基准上,Harmon 优势显著


i) 在图像生成美学基准如 MJHQ-30K 上,Harmon 大幅领先同类的统一模型,并接近或超过文生图专家模型如 SDXL。



ii) 在衡量指令跟随和一致性的 GenEval 基准上,Harmon 大幅领先所有专家模型和统一模型。



iii) 同时,Harmon 能在文生图中更好地利用多模态大模型的世界知识,在 WISE benchmark 上远超 Janus 等统一模型。 



(3) 协同生成理解


实验中,相较于解耦理解生成的视觉编码器(图三d),Harmon 的协同视觉表征表征使理解 loss 能显著提升生成指标(图三b),显示出统一视觉表征对于生成理解协同进化的巨大潜力。


图三:理解生成的相互作用


4.可视化效果



辑:于腾凯
校对:李享沣



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


Harmon在文生图上的成功,很大程度上得益于其优秀的视觉表征能力。如果能将这种视觉表征能力迁移到视频或3D模型生成上,应该会有不错的表现。但关键在于如何将这种表征方式与视频或3D模型的特点相结合。比如,视频生成需要考虑时间维度上的连贯性,3D模型生成需要考虑空间结构的一致性。需要在模型结构和训练方式上进行一定的调整。

这种分阶段训练的策略在深度学习中很常见,主要是为了解决训练过程中的一些问题,比如梯度消失、模式崩塌等。模态对齐阶段可以防止训练初期LLM被MAR Encoder带偏,联合训练阶段可以充分利用大规模数据,高质量微调阶段则可以提高模型的生成质量和泛化能力。总的来说,分阶段训练可以提高训练的稳定性和效率。

分阶段训练可以看作是一种课程学习的思想,先让模型学习更容易的任务,然后再逐渐增加难度。模态对齐阶段主要是让MAR Encoder和LLM熟悉彼此,建立初步的联系。联合训练阶段则是在大规模数据上让模型学习更复杂的跨模态交互。最后的高质量微调阶段可以看作是对模型进行精雕细琢,让模型在特定领域达到最佳性能。每个阶段都有其存在的意义。

我觉得分阶段训练还有个很重要的原因是资源限制。一次性训练所有参数需要大量的计算资源和时间,分阶段训练可以降低对资源的需求,同时也方便我们观察每个阶段的训练效果,及时调整训练策略。尤其是对于这种大型的多模态模型来说,分阶段训练几乎是必不可少的。

统一表征在理论上确实很吸引人,但实际应用中需要谨慎。以音频为例,语音和音乐的特征差异很大,如果强行用一种表征方式来表示,可能会导致信息损失。我认为更合理的做法是针对不同的模态和任务,设计不同的表征方式,然后通过某种方式将这些表征联系起来,而不是强求完全的统一。就像语言学中也有不同的流派,结构主义和功能主义,都能解释语言现象,没必要非得统一。

从工程角度来看,现在很多多模态模型都在尝试将不同模态的信息映射到同一个向量空间,比如用CLIP将图像和文本映射到同一个空间。这种做法虽然不能算是完全的统一表征,但已经朝着这个方向迈进了一步。未来的趋势可能是设计一种更加灵活的表征框架,可以根据不同的任务需求,动态地调整不同模态信息的权重。当然,这需要大量的实验和调优才能实现。

好问题!我觉得在其他模态中追求统一表征是很有价值的,想象一下,如果文本、音频甚至触觉都能用一种通用的方式来表示,那机器理解世界的能力将大大提升。好处显而易见,比如跨模态的信息检索会更加精准,不同模态之间的知识迁移也会更容易。但挑战也不小,不同模态的数据特性差异很大,如何设计一种能够兼顾所有模态信息的表征方式是个难题,而且统一表征可能也会牺牲掉某些模态特有的信息,需要在性能和通用性之间找到平衡。

从用户角度来看,我更关心的是生成结果的可控性和可编辑性。现在的文生图模型虽然很强大,但有时候生成的结果并不符合我的预期,而且很难进行精细的调整。如果Harmon能在这方面有所突破,比如支持更加细粒度的语义控制,或者提供更加友好的编辑界面,那将更有价值。毕竟,AI最终还是要服务于人类。

我觉得Harmon的潜力主要在于其统一的框架设计,可以比较容易地扩展到其他生成任务。但具体实现起来可能会遇到一些挑战,比如视频生成的数据量更大,3D模型生成的复杂度更高。可能需要引入一些新的技术,比如Transformer-XL来处理长序列视频,或者使用NeRF来表示3D模型。总的来说,还需要更多的实验来验证其可行性。