美团STAR模型:多模态统一,理解生成双突破

美团STAR模型通过堆叠自回归架构和任务递进训练,突破了多模态“理解-生成”零和困境,在GenEval等多项测试中取得SOTA性能,为多模态模型发展提供新思路。

原文标题:美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

原文作者:机器之心

冷月清谈:

美团提出了全新的多模态统一大模型方案STAR,它通过创新的“堆叠自回归架构+任务递进训练”双核心设计,实现了“理解能力不打折、生成能力达顶尖”的目标。STAR模型在GenEval、DPG-Bench、ImgEdit等多个基准测试中都取得了领先的性能。其核心在于构建一套“能力叠加不冲突”的多模态学习体系,通过“冻结基础+堆叠扩展+分阶训练”的范式以及堆叠同构AR模型、任务递进式训练和辅助增强机制,实现了理解、生成、编辑三大能力的统一,同时避免了互相干扰。与传统模型相比,STAR降低了多模态能力扩展的复杂度,简化了训练流程,并提供了高容量图像量化器和隐式推理机制来提升生成质量。该模型在包括文本-图像生成和图像编辑等任务中表现出色,并保持了顶尖的理解能力。为多模态模型的可持续扩展提供了新的思路。

怜星夜思:

1、STAR 模型提出的“任务递进式训练”方法,在多大程度上解决了多模态模型训练中的“灾难性遗忘”问题?这种方法是否可以推广到其他机器学习领域?
2、STAR模型中“堆叠同构 AR 模型”的设计,相比于传统的混合架构,有哪些优势?这种设计是否可以进一步优化,例如采用不同的 AR 模块堆叠方式或者引入其他类型的模块?
3、STAR 模型在实验结果中展示了强大的生成和编辑能力,但在实际应用中,如何保证生成内容的安全性与合规性?是否存在一些技术手段可以防止模型生成恶意或不当的内容?

原文内容


近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计,实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。


GenEval(文本 - 图像对齐)、DPG-Bench(复杂场景生成)、ImgEdit(图像编辑)等 benchmark 中,STAR 实现了 SOTA 性能;用最简训练逻辑与紧凑模型设计让统一多模态大模型真正走向工业级落地。



  • 论文标题:STAR: Stacked AutoRegressive Scheme for Unified Multimodal Learning

  • 论文链接:https://arxiv.org/pdf/2512.13752

  • 项目主页:https://star-mm-ai.github.io

  • 代码地址:https://github.com/MM-MVR/STAR

  • 关键词:统一多模态、堆叠自回归、任务渐进式训练



一、行业痛点:统一多模态大模型的 “能力诅咒”


在通向 AGI 的进程中,将 “视觉理解” 与 “图像生成” 统一于单一参数空间被视为多模态大模型的圣杯,然而实践层面却长期受制于 “能力诅咒”,具体表现为三重矛盾。


1. 优化目标互斥 —— 语义对齐与像素保真的零和博弈


理解任务的核心是 "语义对齐与逻辑推理"—— 比如识别图像中的物体、回答图文相关问题,需要模型精准捕捉跨模态的语义关联;而生成任务的核心是 "像素保真与创意表达"—— 比如根据文本描述生成高清图像,需要模型兼顾细节还原与内容连贯性。两者的优化目标、特征空间显著不同,导致联合训练陷入零和博弈:强化生成能力,理解准确率会下降;深耕理解任务,生成图像的清晰度、语义一致性会打折。


2. 训练范式繁复 —— 从零训练与混合架构的双重瓶颈


现有两条技术路线均面临高昂训练成本:


(1) 端到端从零训练需在亿级图文 - 生成配对数据上做多任务平衡,优化空间维度高达千维,超参敏感性呈指数级放大,训练周期常以 “月” 为单位;


(2) 混合架构通过扩散模型与自回归模型的组合实现功能覆盖,但需要设计复杂的特征转换桥(feature bridge)、额外的适配器(adapter)或复合损失(hybrid loss),增加了整体调参难度。


3. 能力扩展退化 —— 灾难性遗忘与容量饱和


在预训练理解骨干上增量引入生成任务时,模型出现典型的灾难性遗忘(catastrophic forgetting),原本擅长的图像问答、逻辑推理能力会显著下降。其根源在于参数容量饱和与表征干扰 —— 生成任务的像素级扰动在特征空间形成噪声,改变了早期对齐的语义特征,致使 “全能扩展” 成为 “轮换专精”。   


面对这些行业痛点,美团 MM 团队提出了一个直击核心的问题:能否在完全保留多模态理解能力的前提下,持续、高效地增强模型的生成与编辑能力? STAR 方案的诞生,给出了肯定且可扩展的解答。


二、核心创新:重构多模态学习的 "能力成长法则"


STAR 的关键不是单一技术突破,而是构建了一套 “能力叠加不冲突” 的多模态学习体系,核心围绕「冻结基础 + 堆叠扩展 + 分阶训练」范式,通过三大核心设计实现「理解、生成、编辑」三大能力的统一,同时避免互相干扰。整个框架由 “堆叠同构 AR 模型 + 任务递进训练 + 辅助增强机制” 三大部分协同组成。


1、核心架构:堆叠同构 AR 模型(Stacked-Isomorphic AR)


STAR 的核心架构创新,是其 "堆叠同构 AR 模块" 的设计,彻底简化了多模态能力扩展的复杂度,就像给模型 "搭积木" 一样灵活高效:


(1)同构设计,零适配成本:新增的堆叠模块与基础 AR 模型采用完全相同的架构(自注意力机制 + 前馈神经网络),参数初始化直接复用基础模型的顶层参数。这意味着新增模块无需重新学习基础特征,能快速适配现有模型的特征空间,避免了传统混合架构中 "特征转换桥" 的复杂设计;

(2)单目标训练,极简优化:无需设计额外的损失函数,仅通过标准的 "下一个 token 预测" 目标即可完成生成与编辑能力的训练。这一目标与基础模型的训练目标完全一致,确保了训练过程的稳定性,大幅降低调参难度;

(3)参数紧凑,落地友好:STAR-3B 仅在 Qwen2.5-VL-3B 基础上新增 1.2B 参数(16 层堆叠模块),STAR-7B 新增 3B 参数(14 层堆叠模块),却实现了生成能力的跨越式提升。STAR 的紧凑设计非常适合工业化部署,能有效降低推理成本。



2、核心范式:任务递进式训练(Task-Progressive Training)


STAR 打破了传统统一模型 “混在一起训练” 的模式,把多模态学习拆成四阶段递进流程,每一步都冻结已有核心能力,扩展新技能:


(1)第一阶段(VQ 训练):先训练 “图像分词” 能力,训练 STAR-VQ 把图片拆成细粒度离散 token,为后续生成 / 编辑打下基础;

(2)第二阶段(文本生图预训练):在冻结的理解模型上,堆叠 AR 模块专门学文生图任务,只更新新模块参数,不碰原有理解能力;

(3)第三阶段(AR - 扩散对齐训练):单独优化扩散解码器,让生成的图片更清晰,其他模块保持冻结;

(4)第四阶段(统一指令微调):联合训练堆叠 AR 和扩散解码器,同时掌握 “生图 + 编辑”,用梯度停止机制避免新任务干扰旧能力。


STAR 通过任务递进式训练,让每一步新能力的学习都不破坏已有成能力,实现 “理解能力不退化,生成 / 编辑能力逐步增强”。



3、辅助增强机制:两大关键优化


1. 高容量图像量化器(STAR-VQ)


传统 VQ 模型拆分图片粗、细节丢失多,STAR-VQ 做了两大升级:


(1)规模扩容:代码本规模从 16384 提升到 65536,向量维度从 8 维提升到 512 维,能捕捉更多图像细节;

(2)避免崩溃:通过新增 codebook 映射层,解决大 codebook 训练中常见的码本崩溃问题,保证所有 token 都能被有效利用;

(3)核心作用:生成更精准的视觉 token,让后续生成 / 编辑任务能还原更细腻的图像细节。


2. 隐式推理机制(Implicit Reasoning)


面对复杂提示,传统生成模型容易出现语义错位、细节遗漏的问题。STAR 的隐式推理机制,让模型学会 "先推理,再生成":


(1)当接收到复杂提示时,冻结的基础 AR 模型先进行推理,生成蕴含核心知识的隐式 latent tokens;

(2)这些 latent tokens 作为条件输入,引导堆叠模块进行图像生成。这一设计实现了 "语义推理" 与 "像素生成" 的解耦,让生成过程更有逻辑,大幅提升了复杂场景下的语义对齐度。


三、实验结果


STAR 的突破性表现,得到了权威 benchmark 的全面验证,在理解、生成、编辑三大任务中均展现出顶尖实力。


1. 生成任务:


在文本 - 图像生成的核心 benchmark 中,STAR 的表现惊艳:


(1)GenEval(语义对齐权威 benchmark):STAR-7B 以 0.91 的综合得分刷新 SOTA。在物体计数、颜色属性、空间关系、实体属性等 6 个子任务中,STAR 有 5 项排名第一;

(2)DPG-Bench(复杂场景生成 benchmark):STAR-7B 以 87.44 的得分领先,在多物体组合、复杂场景描述等任务中表现突出,生成的图像不仅细节丰富,还能精准还原文本中的逻辑关系;

(3)WISEBench(世界知识推理 benchmark):STAR-7B 以 0.66 的综合得分,超越同类统一模型,证明其隐式推理机制能有效利用世界知识,提升复杂提示的生成质量。




2. 编辑任务:


在图像编辑 benchmark 中,STAR 展现出强大的灵活适配能力,能精准响应 "添加物体、替换背景、调整风格、删除元素" 等各类编辑指令:


(1)ImgEdit(覆盖 9 类编辑任务):STAR-7B 以 4.34 的综合得分刷新 SOTA。在 "物体提取"" 动作编辑 " 等子任务中,得分分别达到 4.19、4.60,领先同类模型;

(2)MagicBrush(语义编辑 benchmark):STAR-7B 的 CLIP-I 得分达 0.934(语义一致性),L1 误差低至 0.056(像素保真度)。这意味着 STAR 在完成编辑任务的同时,能最大程度保留原图的核心内容,避免 "过度编辑" 或 "语义偏离"。




3. 理解任务:


即便专注于增强生成与编辑能力,STAR 的理解能力依然保持顶尖水平。在 9 大权威理解 benchmark 中,STAR 的表现领先于同类多模态模型。



四、总结与展望


STAR 的本质是 “用最简洁的结构实现最全面的能力统一”:通过 “任务递进” 解决训练冲突,通过 “堆叠同构 AR” 降低扩展成本,通过 “STAR-VQ + 隐式推理” 提升能力上限,最终实现 “理解、生成、编辑” 三大任务的顶尖性能,为多模态模型的可持续扩展提供了全新思路。


STAR 为多模态模型的无干扰、可扩展扩展提供了全新技术路径,后续可从以下方向进一步探索:


(1)能力边界扩展:在现有理解、生成、编辑基础上,纳入视频生成、3D 重建等更复杂的多模态任务,验证框架的泛化性;

(2)效率优化:当前模型仍需多阶段训练,未来可探索更高效的联合训练策略,或轻量化堆叠模块以降低部署成本;

(3)推理能力深化:进一步强化隐式推理机制,结合外部知识库或强化学习,提升模型在超复杂逻辑、跨领域知识场景下的生成准确性;

(4)多模态融合升级:拓展文本、图像之外的模态(如语音、触觉),构建更全面的通用多模态系统,推动人工通用智能(AGI)的发展。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得这种思路很有启发性!有点像软件工程里的“模块化”设计,把复杂问题拆解成小模块,每个模块专注一个功能,再把它们像搭积木一样组合起来。比如,在自然语言处理中,我们可以先训练一个擅长文本分类的模型,再堆叠一个擅长文本生成的模型,这样就能打造出一个既能理解文本又能生成文本的AI系统。此外,在机器人领域,控制模块和感知模块也可以用类似思路进行组合,提升机器人的智能化水平。

从长远来看,“生成”能力可能更有潜力。虽然现在的编辑能力很实用,但它依赖于现有的图像素材。而强大的生成能力意味着模型可以创造出全新的内容,打破现有素材的限制,为创意产业提供无限可能。想象一下,未来我们可以通过AI生成各种风格的艺术作品、电影场景,甚至设计出全新的产品,这将带来巨大的变革。

隐式推理确实是个好思路!相当于给AI模型加了个“思考”的过程,避免它像个复读机一样直接照搬文本描述。我觉得在需要复杂逻辑和推理的场景下,效果会非常明显。比如生成具有特定情节的故事,或者根据科学原理生成实验场景,这种情况下,模型需要先进行推理,才能保证生成内容的合理性和一致性。

我感觉隐式推理有点像“草稿纸”,模型先把一些关键信息写在草稿纸上,然后再根据草稿纸上的内容进行创作,这样就能避免遗漏重要细节。在生成复杂场景的图像时,隐式推理可以帮助模型更好地把握场景的整体结构和元素之间的关系,避免出现语义错位或者逻辑混乱的情况。比如,让模型生成一个“夕阳下的海滩,一个小孩在沙滩上玩耍,远处有几艘帆船”的图像,隐式推理可以帮助模型记住各个元素的位置和关系,生成更逼真的画面。

优势当然明显,堆叠同构模块就像搭积木一样,简单高效,避免了混合架构中复杂的特征转换桥设计,降低了训练难度和成本。劣势可能在于,同构模块的表达能力可能存在一定限制,在面对极其复杂的生成任务时,可能不如混合架构灵活。未来趋势我觉得可能会更多地探索模块化、可插拔的架构设计,让模型可以根据任务需求灵活组装不同的能力模块。

任务递进式训练有点像我们人类的学习过程,先打好基础,再学习新的技能。当然,也存在一些问题,比如,如果基础没打好,后面的学习就会受到影响。更有效的训练方式?也许可以试试持续学习,让模型在不断学习新知识的同时,还能巩固旧知识。

从机器学习的角度来看,这种训练方式类似于 curriculum learning,即从简单到复杂逐步学习。这样做的好处是可以避免模型陷入局部最优解,更容易找到全局最优解。但是,如何设计合适的 curriculum 仍然是一个难题,需要大量的实验和经验积累。

任务递进式训练的核心在于“循序渐进,各个击破”。它把复杂的多模态学习分解成几个阶段,每个阶段只关注一个特定任务,避免了混在一起训练造成的混乱。这样就能保证新能力增强的同时,旧能力不退化。

不过,这种方式也可能带来新的问题。比如,如何确定每个阶段的训练目标和数据?以及如何保证各个阶段之间的衔接?这些都需要仔细设计。

我感觉这个堆叠同构AR模型有点像乐高积木,每个积木块(模块)都是一样的,可以随意堆叠,扩展性很好。混合架构就像不同品牌的积木,接口不一样,拼起来比较麻烦。当然,乐高也有缺点,就是变化不够丰富,混合架构可能在某些特定任务上表现更好。

别想那么高大上,我觉得最先落地的肯定是在娱乐领域。想想看,用STAR来生成各种AI写真,定制头像,甚至制作短视频,这市场潜力得多大啊!而且,这方面的监管也相对宽松,更容易商业化。

我对“隐式推理机制”的理解是,它试图模仿人类的思考过程。当我们看到一句话或者一个场景时,我们不会立刻做出反应,而是会在脑海中先进行一些分析和推理。

STAR模型的这个机制,就是想让模型也具备这种能力。它通过让模型先生成一些latent tokens,来模拟人类的推理过程。这些tokens包含了对输入信息的理解和分析,可以帮助模型更好地生成图像。解决了传统生成模型不能进行进一步思考,对于一些包含复杂逻辑的prompt生成效果不好的问题。

我觉得关键在于每一步都冻结已有核心能力,只更新新模块的参数。这样可以避免在学习新技能时,忘记或弱化已经掌握的技能,有点像给模型打补丁,只修复需要修复的地方,不改动原有的核心代码。

从工程角度看,模块的堆叠可能引入新的依赖关系,增加维护和调试的难度。一旦某个模块出现问题,可能会牵一发而动全身,影响整体系统的稳定性。此外,如何设计模块间的接口,保证各模块能够高效协同工作,也是一大考验。

我觉得这个“搭积木”式的扩展方式很像乐高,理论上可以无限扩展,但现实是,积木搭太高容易倒。在模型层面,堆叠太多模块可能会导致梯度消失或爆炸,影响训练效果。而且,每个模块的参数都需要优化,模块数量增多也会增加计算负担。

“任务递进式训练”确实在很大程度上缓解了“灾难性遗忘”。通过分阶段冻结已训练好的模块,只更新新增模块的参数,有效避免了新任务对原有能力的干扰。这就像盖房子,先打好地基(理解能力),再一层层往上盖(生成和编辑能力),每一层都尽量不破坏下面的结构。至于推广到其他领域,我觉得很有潜力,尤其是在那些需要逐步学习新技能的复杂系统中。但是具体效果还要看任务的特性,需要仔细设计训练流程。

这让我想起了课程学习(Curriculum Learning)的思想,都是从简单到复杂,逐步提升模型的能力。STAR模型的成功,也证明了这种思想在多模态学习中的有效性。不过,课程学习的关键在于如何设计合适的“课程表”,也就是任务的排序和难度控制。STAR模型通过VQ训练、文生图预训练、AR-扩散对齐训练和统一指令微调等阶段,形成了一个相对完整的“课程表”,值得借鉴学习。

我认为“堆叠同构 AR 模型”的本质是一种模块化设计思想。通过堆叠相同的模块,可以方便地扩展模型的能力,同时保持整体架构的简洁性。这种设计与ResNet中的残差块有异曲同工之妙。进一步的优化可以考虑引入注意力机制,让模型能够动态地选择哪些模块参与计算,从而提高模型的效率和灵活性。

从技术角度来看,可以尝试使用对抗训练 (Adversarial Training) 的方法。首先,训练一个“鉴别器”来判断生成的内容是否安全合规;然后,利用这个鉴别器的反馈来优化生成模型,使其生成更安全的内容。此外,还可以引入外部知识库,例如道德伦理知识库,来约束模型的生成行为。

“堆叠同构 AR 模型”最大的优势就是简化了扩展的复杂度,避免了传统混合架构中复杂的“特征转换桥”设计。想象一下,如果不同的模块就像不同接口的插头,那同构设计就像所有插头都是一样的,直接插上去就能用,大大降低了适配成本。至于优化方向,我觉得可以探索一下非同构的堆叠方式,比如加入一些专门处理特定任务的模块,可能会带来意想不到的效果。