Harmon:统一视觉表征实现多模态理解与生成

Harmon模型通过统一视觉表征,协调图像理解与生成,在多模态任务中表现出色,尤其擅长指令跟随和利用世界知识。

原文标题:Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

原文作者:机器之心

冷月清谈:

南洋理工大学的研究者们提出了Harmon模型,旨在统一多模态理解和生成。该模型的核心思想是协调图像理解和生成任务的视觉表征,通过共享一个MAR Encoder,同时促进理解和生成。与以往模型不同,Harmon不割裂理解和生成的视觉编码,而是探索在统一的视觉表征上协调两者。Harmon模型的训练分为三个阶段:模态对齐、联合训练和高质量微调。实验结果表明,Harmon在多模态理解和文生图基准上均表现出色,尤其在指令跟随和世界知识利用方面优势显著。此外,Harmon的协同视觉表征展示了统一视觉表征对于生成理解协同进化的巨大潜力。

怜星夜思:

1、Harmon模型使用MAR Encoder同时促进理解和生成,这种做法的优势和局限性是什么?未来可能的发展方向有哪些?
2、Harmon模型在文生图任务上表现出色,尤其是在指令跟随和世界知识利用方面。你认为未来文生图模型在哪些方面还有提升空间?
3、Harmon模型的三阶段训练策略(模态对齐、联合训练、高质量微调) 각각의 장단점은 무엇이며, 다른 훈련 전략과 비교하여 이점을 어떻게 얻을 수 있을까요?

原文内容


吴思泽,南洋理工大学MMLab@NTU四年级博士生,导师是Chen Change Loy,研究方向为基于多模态模型的视觉理解和生成、开放世界的检测分割等,在ICCV/CVPR/ICLR等顶级学术会议上发表过多篇论文。



  • 论文标题:Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

  • 论文链接: https://arxiv.org/abs/2503.21979

  • 代码地址: https://github.com/wusize/Harmon

  • 项目主页:https://wusize.github.io/projects/Harmon

  • 在线 Demo: https://huggingface.co/spaces/wusize/Harmon


1. 背景:统一多模态理解生成


GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力,然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务,是一个巨大的挑战。从视觉表征的维度看,现有的统一模型通常采用如下三种范式:


(1)理解生成统一使用 CLIP/SigLIP 表征,并使用 Diffusion Model 将视觉表征解码成图像,如 EMU2、ILLUME 等。此类方案的图像生成过程缺少与 LLM 的交互,本质上是将 LLM 输出的 embeddings 作为生成 condition。


(2)理解生成统一使用 VQGAN/VAE 表征,如 Transfusion、Show-o、ViLA-u 等,由于 VQGAN/VAE 用于图像压缩,主要表征纹理等细节,缺乏视觉语义的建模,此类方法通常理解能力偏弱。


(3)解耦理解生成表征,理解任务使用编码高层语义的 CLIP/SigLIP,生成任务使用 VQGAN,如 Janus、UniFluid 等。


2. 协调理解和生成的视觉表征


不同于 Janus 割裂理解和生成的视觉编码,Harmon 探索在统一的视觉表征上协调图像理解和生成。


(1)MAR 的启发


图一:Linear Probing 和特征图激活


MAR 作为一种基于图像掩码建模的生成范式,沿袭了表征学习 MAE 的 Encoder-Decoder 框架,Harmon 的作者们发现 MAR Encoder 在图像生成训练中,同时学会对视觉语义的建模。如图一所示,MAR 的 Linear Probing 结果远超 VQGAN、VAE,同时对视觉语义概念有更精确的响应。


(2)Harmon:理解生成共享 MAR Encoder


图二: Harmon 框架图


Harmon 框架如图所示,通过共享 MAR Encoder 同时促进理解和生成:


i)图像理解:MAR Encoder 处理完整图像,LLM 根据图像内容和用户指令输出文本

ii) 图像生成:沿用 MAR 的掩码建模范式,MAR Encoder 处理可见(已经生成)的图像内容,LLM 中实现模态交互,MAR Decoder 预测剩余的图像内容。


(3)Harmon 的三阶段训练


i)模态对齐:第一阶段对齐 MAR 与 LLM,冻结 LLM 参数,仅训练 MAR Encoder 和 Decoder

ii)联合训练:在大规模图文数据上联合训练,并更新所有模型参数

iii)高质量微调:最后一个阶段使用高质量数据微调,并将图片分辨率从 256 提升至 512


3. 实验结果:理解生成两开花


(1)Harmon 在多模态理解基准上,取得接近 Janus-Pro 的效果



(2)在文生图基准上,Harmon 优势显著


i) 在图像生成美学基准如 MJHQ-30K 上,Harmon 大幅领先同类的统一模型,并接近或超过文生图专家模型如 SDXL。



ii) 在衡量指令跟随和一致性的 GenEval 基准上,Harmon 大幅领先所有专家模型和统一模型。



iii) 同时,Harmon 能在文生图中更好地利用多模态大模型的世界知识,在 WISE benchmark 上远超 Janus 等统一模型。 



(3) 协同生成理解


实验中,相较于解耦理解生成地视觉编码器(图三d),Harmon 的协同视觉表征表征使理解 loss 能显著提升生成指标(图三b),显示出统一视觉表征对于生成理解协同进化的巨大潜力。


图三:理解生成的相互作用


4.可视化效果



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

从学术的角度来说,Harmon统一表征的思路,可以看作是对多任务学习的一种探索。多任务学习的关键在于找到不同任务之间的共性,并利用这些共性来提升模型的泛化能力。未来可以借鉴多任务学习中的一些技巧,例如梯度surgery,来优化Harmon的训练过程,避免不同任务之间的负向干扰。当然从工程角度来说,这种统一架构对于后续的部署和维护也有好处,可以减少模型的数量。

这个问题很有意思!Harmon共享MAR Encoder的优势在于能避免理解和生成之间信息割裂,学习到更通用的视觉表征,很可能相互促进。局限性在于,如果Encoder的能力存在瓶颈,可能会限制模型在两方面的表现。未来发展方向我觉得可以从几个方面入手:一是探索更强大的Encoder架构,二是引入注意力机制来区分理解和生成任务的不同需求,三是研究如何自适应地调整Encoder在不同任务中的侧重。

指令跟随方面,现在的模型还是经常会“跑偏”,要么是没能完全理解指令的含义,要么是生成的结果和指令有偏差。未来可以研究如何让模型更好地理解人类语言的细微差别,例如语气、情感等等。世界知识方面,我觉得可以引入更丰富的知识图谱,让模型能够更好地理解现实世界中的事物和概念之间的关系。

文生图还有很多可以提升的地方!我觉得最关键的是提升生成图像的真实性和细节。现在的模型生成的图像虽然看起来很漂亮,但仔细观察会发现很多不自然的地方,比如光影、纹理等等。另外,我觉得还可以加强模型对复杂场景和长文本prompt的处理能力,让模型能够更好地理解用户的意图。

同意楼上的观点,共享Encoder确实简洁高效,但对Encoder本身要求很高。我补充一点,这种方式可能更适合处理具有强相关性的理解和生成任务。如果二者差异很大,共享Encoder可能会导致性能下降。未来可以考虑引入一些可学习的参数来控制理解和生成之间的信息共享程度,例如通过注意力机制或者门控单元。

这种分阶段训练的方式,在很多领域都有应用,比如迁移学习。模态对齐可以看作是一种预训练,让MAR Encoder学习到一些通用的视觉特征。联合训练则是进行fine-tuning,让模型更好地适应目标任务。高质量微调则是进一步提升模型的性能。和其他训练策略相比,这种分阶段训练的方式可以更好地利用已有的知识,避免从零开始训练。

我觉着文生图模型有点像早期的AI,啥都会一点,但是又啥都不精。所以后续发展可能有两个方向:一是在特定领域做到极致,比如专门生成建筑设计图、游戏人物原画等等;二是向更通用的方向发展,成为一个真正的“创意助手”,能够根据用户的需求生成各种各样的图像。

从优化的角度来看,三阶段训练相当于将一个复杂的优化问题分解成几个 simpler 的子问题。 模态对齐,我觉得主要解决的是两个模型输出空间不一致的问题,保证后续loss能有效回传。 联合训练是主体,应该承担了绝大部分计算量。 高质量微调,个人感觉是牺牲了泛化性,来追求更好的生成效果,如果对泛化性要求不高的话,收益会很高。整体上来说,这套训练策略还是比较work的,三个阶段目标明确,各司其职。

Harmon的三阶段训练挺有意思的,感觉像是循序渐进地提升模型能力。模态对齐就像是让MAR和LLM先熟悉一下对方的语言,避免一开始就“鸡同鸭讲”。联合训练则是让它们在实际任务中磨合,提升协同能力。高质量微调则是最后冲刺,提升生成质量。优点是训练过程更稳定,缺点是需要更多的时间和资源。可以考虑和end-to-end的训练方式对比实验下,看看哪种方式更高效。