阿里高德发布SpatialGenEval:文生图模型空间智能能力评测新基准

阿里高德发布SpatialGenEval基准,揭示文生图模型在空间感知、推理和交互方面的不足,尤其是在空间推理上表现接近随机猜测。该研究为提升文生图模型的空间智能提供了新的评估和改进方向。

原文标题:ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

原文作者:机器之心

冷月清谈:

阿里高德发布了ICLR 2026中稿论文,提出了SpatialGenEval,一个用于评估文生图模型空间智能的系统性基准。该基准通过设计长文本、高信息密度的prompt,并围绕空间感知、空间推理和空间交互的10个维度,深入探测文生图模型的空间智能能力边界。SpatialGenEval将生图空间智能能力细分为4大维度和10个子维度,覆盖25个现实应用场景。对23个SOTA模型的评估结果表明,当前模型的空间智能能力仍有待大幅提升,尤其是在空间推理方面。研究还提出了一种基于已有生成图像的改进方案,通过多模态大模型重写提示词构建数据集,并对模型进行微调,从而提升模型空间智能。

怜星夜思:

1、SpatialGenEval基准的提出,对文生图模型的发展有哪些重要意义?
2、文章提到,目前文生图模型在空间推理方面表现较弱,接近随机猜测。你认为造成这种现象的主要原因是什么?
3、文章中提到,通过对模型进行微调,可以显著提升其空间智能。你认为这种微调方法有哪些潜在的局限性?未来有哪些更有效的提升文生图模型空间智能的方法?

原文内容


尽管目前文生图模型(Text-to-Image Models)在生成高保真图像上表现卓越,但在应对空间感知、空间逻辑推理及多目标空间交互等贴合现实场景的复杂空间智能任务时往往力不从心。现有评估基准主要依赖简短或信息稀疏的提示词,难以覆盖复杂的空间逻辑,导致模型在这些关键空间智能维度上的能力缺陷被严重低估。


来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知、空间推理和空间交互的 10 大空间智能能力维度设计,深入探测文生图模型的空间智能能力边界。


SpatialGenEval 将生图空间智能能力细分为 4 大维度,10 个子维度,覆盖 25 个现实应用场景,基于 23 个 SOTA 模型的评估结果表明当前模型的空间智能能力仍有待大幅提升



  • 论文标题:Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

  • 论文链接:https://arxiv.org/abs/2601.20354

  • 论文代码:https://github.com/AMAP-ML/SpatialGenEval


核心挑战:目前 T2I 模型空间认知 “浅表化” 与逻辑缺失


现有文生图模型虽然能够很好地完成 “生成什么”(What)的语义对齐,但在处理 “空间位置在哪里”(Where)、“空间如何排列”(How)以及物理世界中的 “空间交互逻辑”(Why)时,面临着从 “基础感知” 到 “高阶推理” 的全方位挑战,包括:


1. 空间基础的 “属性漂移” 与缺失:模型虽然能画出物体,但在信息密集提示词下,常出现物体漏画或属性绑定错误,无法维持 “万物各司其职” 的基础对齐能力。

2. 空间感知的 “几何偏见”:在处理物体精确位置、朝向及特定排列布局时,模型往往倾向于生成 “默认姿态”(如正面视图),难以跨越 2D 画布实现精准的空间定位。

3. 空间推理的 “逻辑盲区”:这是当前模型最大的短板。在涉及相对数值比较(如 “红椅比蓝椅大两倍”)、3D 遮挡关系及物理距离邻近性时,模型得分接近随机猜测,表明其缺乏对真实物理世界层级和深度的认知。

4. 空间交互的 “动态失真”:模型难以捕捉物体间的动态瞬间(如跳跃中的足球)或物理因果逻辑(如撞击导致的破碎),无法将潜藏的物理动力学转化为逻辑自洽的视觉图像。


上:当前生成模型在感知、推理和交互上的错误样例;下:当前评估基准存在信息稀疏 / 粗粒度 yes-or-no 评估


SpatialGenEval:涉及空间基础、感知、推理和交互的空间智能 “全科扫描”


为了系统化地定义和评估文生图模型 “空间智能” 能力,研究团队构建了一个层次化框架,将空间智能解构为 4 大领域及 10 个关键子维度:


1. 空间基础 (S1/S2):多目标物体类别(S1)、多目标属性绑定(S2)。

2. 空间感知 (S3/S4/S5):空间位置(S3)、空间朝向(S4)与空间布局(S5)。

3. 空间推理 (S6/S7/S8):空间大小 / 长度 / 高矮等比较(S6)、空间邻近性(S7)与空间位置遮挡(S8)。

4. 空间交互 (S9/S10):空间运动交互(S9)与空间因果交互(S10)。


该基准测试覆盖自然、室内、户外、人类活动及艺术设计等 25 个现实世界场景,为其精心构建了 1,230 条 长文本、信息密集型提示词。每个提示词均深度融合了上述从基础属性、布局到高阶遮挡、因果推理等 10 个空间子领域及对应全维度问答。值得注意的是,每个提示词长度约 60 词,允许同时兼顾依赖 CLIP 编码模型(77 tokens 限制)和保持高度信息密集。


SpatialGenEval 评估数据构建流程


SpatialGenEval 所有 10 个空间维度的提示词及其问题展示



核心发现:空间推理仍是主要瓶颈


研究团队对 23 款前沿的开源与闭源 T2I 模型进行了详尽评估,揭示了以下行业现状:


  • 空间推理是核心薄弱环节:在涉及比较和遮挡的空间推理子任务中,多数模型的得分仅在 30% 左右,接近随机猜测水平(20%),这表明目前的模型普遍缺乏对 3D 场景结构和逻辑关系的理解。

  • 开源模型正快速追赶:评测显示,最强的开源模型 Qwen-Image (60.6%) 表现已与顶级闭源模型 Seed Dream 4.0 (62.7%) 基本持平,但均仅达到及格线水平,空间智能仍有巨大提升空间。

  • 强大的文本编码器至关重要:使用高性能 LLM(如 T5 或大型语言模型)作为文本编码器的模型(如 FLUX.1),在解析复杂空间指令时显著优于仅依赖 CLIP 的模型。


基于 Qwen2.5-VL-72B-Instruct 的自动化评估结果


左:所有评估模型的错误类型分布;右:高优模型的错误类型分布


数据中心范式:提升模型空间智能的有效路径


除了评估,该研究还提出了一种基于已有生成图像的改进方案。团队通过多模态大模型(MLLM)重写提示词以确保图文一致性,构建了包含 15,400 对图文数据的 SpatialT2I 数据集。对主流三大类模型(Diffusion-based, AR-based,Unified-based 模型)进行监督微调结果在空间评估指标有显著增益,生成的图像在物理逻辑和空间布局上更具真实感。


微调模型后的生成结果对比


总结与展望


SpatialGenEval 为 T2I 模型从 “美学生成” 迈向 “逻辑感知” 建立了一条新的评估路线,只有让模型真正理解 “万物各得其所 (Everything in its place)”,生成式 AI 才能在机器人辅助、室内设计、自动驾驶仿真等对空间维度有严苛要求的领域中释放真正的生产力。


作者团队介绍


阿里高德的机器学习研发部,承接公司重点业务,包括本地生活场景中的广告创意、商品理解、内容智能创作和分发,出行场景的 AI 智能化等,部门研究领域广泛,包括但不限于以下方向:(1) 多模态大模型;(2) 图像生成 / 编辑美化;(3) 视频生成 / 理解;(4) Agent; (5) 时空数据挖掘;(6) 智能推荐;(7) 高性能推理等。团队技术氛围好,成长空间大,拥有充足的研发资源和大量的业务应用数据,多篇论文入选 paper digest 最有影响力论文名单。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


这个问题很有意思!除了论文里说的比较和遮挡,我觉得像室内设计软件里根据用户描述自动调整家具摆放位置、自动驾驶里预测车辆周围其他交通参与者的行为,以及游戏开发中根据环境描述生成合理的地形和建筑,这些都对空间推理提出了很高的要求。尤其是自动驾驶,涉及到非常复杂的动态空间推理,比如预测其他车辆的行驶轨迹,判断是否会发生碰撞等等。

与其依赖单一的文本编码器,不如考虑多模态融合。可以尝试将文本信息和先验知识(例如,物理引擎的规则、常识知识图谱)进行融合,共同指导图像生成。这样可以弥补文本编码器在空间推理方面的不足,让模型生成更符合物理规律和常识的图像。但这需要解决不同模态信息之间的对齐和融合问题,也是一个不小的挑战。

个人认为,SpatialGenEval最大的影响在于它提供了一个标准化的评估框架。在此之前,我们很难量化比较不同模型在空间智能上的优劣。有了这个基准,研究者们可以更有针对性地改进模型,也方便开发者选择合适的模型来解决实际问题。关于应用潜力,我想到的是辅助建筑设计和城市规划。如果模型能够理解复杂的空间布局和物理限制,我们就可以用它来快速生成各种设计方案,并进行可视化展示和评估。这不仅能提高效率,还能激发设计师的创新灵感。

针对问题:SpatialGenEval 将空间智能细分为多个维度,你认为这些维度中,哪个维度对实际应用最具价值?为什么?

我觉得是空间推理。因为推理能力是高阶智能的基础,没有推理能力,AI就只能做一些简单的感知任务,无法进行更深层次的思考。比如,室内设计需要根据空间的大小、形状、布局等进行推理,才能设计出合理的方案;机器人需要根据物体的遮挡关系进行推理,才能找到目标物体。

我从另一个角度来考虑,会不会是文本理解的问题?复杂的空间关系通常需要用复杂的语言来描述。如果模型无法准确理解这些语言描述,就无法生成正确的图像。所以,提升模型对自然语言的理解能力也是关键。可以考虑使用更强大的语言模型来增强文本编码器的能力。

微调就像是给学生“开小灶”,短期内成绩可能会提高,但长期来看效果可能有限。除了改进模型架构和训练方法,我觉得还可以考虑引入外部知识库。例如,可以把CAD模型、物理引擎等集成到文生图模型中,让模型能够利用这些工具来辅助生成图像。这样就能大大提高模型生成图像的真实性和可控性。

我觉得问题可能出在训练数据上。目前公开的图像数据集可能不够丰富,无法覆盖各种复杂的空间关系。此外,数据集的标注也可能存在问题,没有提供足够详细的空间信息。如果训练数据质量不高,模型自然难以学习到有效的空间推理能力。解决这个问题需要高质量、大规模的空间关系数据集。

抛开学术的层面,我觉得SpatialGenEval对普通用户也有价值。它可以帮助我们更好地判断哪些文生图模型更擅长处理特定类型的指令。比如说,如果要生成一张复杂的室内设计图,我们可以选择在这个基准上表现更好的模型,这样就能提高生成结果的质量。总而言之,这个基准的意义在于提升了整个文生图生态的透明度和可用性。

同意楼上的观点!SpatialGenEval相当于是给文生图模型做了一次“智商测试”,而且测试内容非常全面,从最基础的属性绑定到复杂的因果推理都有涉及。这能帮助研究者更精准地定位模型能力的瓶颈,从而更有针对性地进行改进。我个人认为,这个基准的出现标志着文生图模型研究进入了一个新的阶段。

微调是个好方法,但感觉有点像“临时抱佛脚”。它可能只能让模型在特定数据集上表现更好,泛化能力可能不足。如果遇到没有见过的场景,模型可能还是会出错。更有效的方法应该是从模型架构上进行改进,例如引入注意力机制来关注空间关系,或者使用图神经网络来表示场景结构。这样才能让模型真正理解空间信息,而不是简单地记住一些模式。

从技术角度看,我认为主要原因在于模型缺乏对3D场景的结构化理解。文生图模型大多基于2D图像进行训练,难以学习到真实世界中的深度信息和物理规则。当需要进行空间推理时,模型只能依靠表面特征进行猜测,结果自然就不准确了。要解决这个问题,可能需要引入更多的3D数据进行训练,或者设计更有效的模型结构来捕捉空间关系。

我觉得这个基准最大的意义在于,它把文生图模型的能力评估从“能不能画出来”提升到了“能不能理解场景”。以前我们关注的是图像的逼真度,现在要开始关注模型对空间关系的理解了。这对于文生图模型在更广泛领域的应用,比如机器人导航、室内设计等,是至关重要的。