PixelRefer:AI视觉理解不再“看大图”,聚焦多模态细粒度对象分析

PixelRefer:AI从“看大图”走向“看懂每个对象”。浙大等提出,通过SAOT和OCI实现像素级细粒度视觉理解,推理速度提升4倍,显存减半,引领AI迈向更精细的动态世界感知。

原文标题:PixelRefer :让AI从“看大图”走向“看懂每个对象”

原文作者:机器之心

冷月清谈:

多模态大模型(MLLMs)在图像理解和视频分析上表现不俗,但它们通常停留在对场景的宏观理解层面。然而,自动驾驶、医疗影像、机器人等现实应用对视觉理解有着更高的要求,它们需要细粒度、对象级的详细识别与推理能力。现有的一些解决方案,如英伟达的Describe Anything Model (DAM),虽然能描述单个物体,但在处理多对象属性、交互关系以及时序演变时显得力不从心,并且往往以牺牲模型的通用理解能力为代价。

为解决这一挑战,浙江大学、达摩院和香港理工大学联合推出了 **PixelRefer**,这是一个创新的统一时空像素级区域理解框架。该框架能够实现任意粒度下的精细视觉指代与推理,并在多项像素级细粒度理解任务中取得了领先性能。与DAM-3B相比,轻量级的PixelRefer-Lite 2B模型在推理时间上加快了4倍,显存占用减半,同时所需的训练数据量也远少于现有方法。

PixelRefer的核心突破在于对大模型“如何看懂区域”的深度探索。研究发现,像素级区域token在LLM的深层回答中扮演着关键角色,而全局图像token在深层则显得冗余。基于此,团队提出了两种设计方案:PixelRefer(Vision-Object Framework)和PixelRefer-Lite(Object-Only Framework)。

PixelRefer框架将全局视觉token、像素级区域token和文本token一同输入LLM,力求在保留场景语境的同时,实现对象级的精细推理。其关键在于引入了尺度自适应对象分词器(SAOT),该分词器能够动态处理不同大小的目标,通过位置感知的掩码特征抽取和冗余聚合,生成精确、紧凑且语义丰富的对象表示。

PixelRefer-Lite 则是更高效的变体,它仅使用对象标记进行LLM推理。通过对象中心信息融合模块(OCI),PixelRefer-Lite 在前处理阶段便将全局特征融入对象表示中,使目标表征同时具备细节感知与全局语义,从而在推理阶段无需再使用全局视觉标记,显著降低了计算开销,同时保持了高精度。

该研究团队还开源了140万样本的Foundational Object Perception和80万样本的Visual Instruction Tuning数据集。实验结果表明,PixelRefer在图像和视频的像素级细粒度理解任务上都达到了SOTA水平,尤其在推理场景和效率方面表现突出。PixelRefer的出现,标志着AI视觉理解正从宏观场景迈向对世界细节和动态的深度理解,为自动驾驶、医疗影像、智能视频监控以及多模态人机交互等领域开启了新的应用前景。

怜星夜思:

1、文章提到PixelRefer在自动驾驶和医疗影像方面应用前景广阔。大家觉得,在更偏向主观判断和创造性的领域,比如艺术创作辅助(AI分析画作细节、指导风格)或者教育领域(AI理解学生笔记、实时纠错),这种像素级的细节理解能力有没有新的、意想不到的用武之地?
2、提升了AI对细节的理解能力,尤其能进行细粒度、对象级的识别与推理,这会不会带来一些新的隐私或伦理问题?比如监控摄像头能精准识别每个人的物品、行为模式,甚至对潜在意图进行推理,我们该如何权衡技术发展与个人隐私保护?
3、PixelRefer主要是在解决区域理解的精确性和效率问题。未来要实现真正通用的“理解世界动态”的视觉智能,除了这些,大家觉得还需要解决哪些更深层次的技术挑战?比如,如何更好地融合人类的常识知识进去?

原文内容


多模态大模型(MLLMs)虽然在图像理解、视频分析上表现出色,但多停留在整体场景级理解。


而场景级理解 ≠ 视觉理解的终点,现实任务(如自动驾驶、机器人、医疗影像、视频分析)需要的是细粒度、对象级(object-level)详细理解


然而,当下的研究工作,如英伟达的Describe Anything Model (DAM)局限于单个物体的描述,难以深入理解多对象属性、交互关系及其时序演变,且牺牲了模型本身的通用理解能力。


针对这一问题,浙江大学、达摩院、香港理工大学联合提出了一种创新的解决方案PixelRefer:一个统一的时空像素级区域级理解框架,可实现任意粒度下的精细视觉指代与推理,在多项像素级细粒度理解任务取得领先性能表现。和DAM-3B相比,轻量版的2B模型推理时间加快了4倍,显存占用减半,且训练数据量大大少于已有方法。



PixelRefer能够对任意目标实现准确语义理解以及时空物体区域理解。


图片
图片


图片


  • 论文标题:

    PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

  • 论文链接:

    https://arxiv.org/abs/2510.23603

  • 项目网站链接:

    https://circleradon.github.io/PixelRefer/

  • 代码链接:

    https://github.com/DAMO-NLP-SG/PixelRefer


先验分析:大模型“如何看懂区域”?


为了探索解决以上问题,作者基于通用视觉基础模型采用最直接的设计:将全局视觉token+像素级区域token+文本token一起喂给 LLM。当无物体指代区域时,模型则退化成通用视觉理解任务,从而实现区域理解的同时,保留通用模型本身的通用理解能力。


作者对LLM内从浅层到深层中分析视觉token、区域token以及其他类型token进行可视化分析。本文可以发现从浅层到深层,答案(Ans)优先关注像素级区域token,其attention分数一直很高,说明物体token表征对于模型的回答起到重要的作用。此外,全局图像token(vision)则仅在浅层中(第一层)表现出较高的attention分布(Answer-to-image token attention),LLM的深层则表现较弱,甚至没有影响,这个在通用视觉基础模型研究中也被讨论到。


浅层到深层的attention可视化


基于此分析,作者得出两种设计方案:


  1. 高质量像素级物体表征很重要对于像素级区域的表达,语义丰富的区域表征直接决定像素级语义理解的质量;

  2. 全局信息的冗余可以通过“预融合”优化 :在 LLM 深层阶段,全局视觉标记的作用显著减弱,在深层阶段反而变得冗余,说明其信息可提前注入对象标记中,以大幅减少计算开销。


方法设计


为此,作者针对像素级细粒度理解定义了两种框架,Vision-Object Framework (a)与Object-Only Framework (b):



PixelRefer(Vision-Object Framework)


对于PixelRefer,作者把全局视觉token+像素级区域token+文本token一起送入 LLM,既保留场景语境,又在对象级上精细推理。关键在于像素级区域表征token质量足够高。为此,作者提出尺度自适应对象分词器(Scale-Adaptive Object Tokenizer, SAOT) 来生成精确、紧凑、语义丰富的对象表示。


SAOT 围绕两个设计:(i)小目标容易在patch化后丢失细节;(ii)大目标的特征冗余严重


核心做法分三步:


  1. 动态尺度处理(Dynamic Object Processing)。按像素级区域大小自适应地放大小物体、缩小大物体,并进行上下文扩展(在目标周围留出一定背景),保证既不丢细节也不过度冗余。随后通过共享视觉编码器取到区域级特征。


  2. 位置感知的掩码特征抽取(Mask Feature + Relative Positional Encoding)。对区域内的有效特征做掩码并叠加相对坐标投影,形成位置感知的对象token,为后续推理提供“这片语义在图像哪里”的线索。作者还为被裁剪/扩展后的区域加入相对位置编码来缓解对齐歧义,使对象token具备空间感知。


  3. 冗余聚合(Abundant Feature Aggregation)。对大/同质区域里高度相似的token,采用k-means 聚类合并,只保留n 个代表性token,既压缩冗余又保留多视角细节。这一步实证上显著降低了对象内部token的相似度,提高了表示“紧致度”。



PixelRefer-Lite (Object-Only Framework)


该变体仅使用对象标记进行 LLM 推理,借助对象中心信息融合模块(Object-Centric Infusion Module, OCI)将全局特征在前处理阶段融合入对象表示中。通过 Local-to-Object 和 Global-to-Object Attention,使目标的表征同时具备细节感知与全局语义,从而实现更完整的上下文融合。这样一来,推理阶段无需再使用全局视觉标记,显著降低显存与时间消耗,同时保持语义一致性与理解精度。



PixelRefer-Lite 实现了一个高效的推理框架,在保持高性能的同时将推理速度提升约 2–3 倍。


数据集


作者收集并开源了用于训练的两类数据集,分别是Foundational Object Perception(140万样本):涵盖物体、部件、时序关系的识别与描述以及Visual Instruction Tuning(80万样本):覆盖区域QA、视频QA、多对象关系与未来事件预测QA。




性能结果


  • 对于图像像素级细粒度理解benchmark



PixelRefer在多个图像理解benchmark上已达到SOTA水平,不论是简单的区域识别还是详细理解,已成为最先进的模型,特别是在reasoning场景下,更是展现出了突出优势。


  • 对于视频像素级细粒度理解benchmark



在经典的VideoRefer-Bench上,不论是视频区域的caption还是QA,均取得了领先性能,展现了通用而又全面的能力。


  • 对于推理时间与效率的计算



在基于图片的benchmark DLC-Bench和基于视频的benchmark上HC-STVG上均进行了测评,轻量版的PixelRefer-Lite-2B模型有较大的领先优势,特别是在视频上,相较于DAM-3B,推理时间缩短了约4倍,显存占用减少了2倍。


  • 消融实验:Scale-adaptive Object Tokenizer vs MaskPooling



  • 相较于之前简单maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模块有明显的提升,特别是在小目标理解上,在LVIS和DLC-Bench上均提升了十几个点。


  • 消融实验:对于区域token的表征个数



研究意义与总结


PixelRefer的出现,标志着AI视觉理解从“看懂一张图”迈向“理解世界的细节动态”,为多模态大模型的精细化视觉理解提供了新的方向。应用前景包括:


  • 自动驾驶的时序场景识别

  • 医疗影像的病灶级理解

  • 智能视频剪辑与监控

  • 多模态对话与人机交互


未来的多模态AI,不仅会“看见世界”,更会理解世界的关系。PixelRefer的提出,正是通向通用视觉智能的一块关键拼图。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

关于AI细粒度理解带来的隐私和伦理问题,我认为这是一个必须严肃对待的议题。当AI能够精准识别个体衣着、随身物品甚至微表情,并在时序上追踪其行为模式时,传统意义上的匿名性可能不复存在。例如,在公共场所,基于像素识别的AI系统能轻易推断出个人喜好、社交关系乃至健康状况。这不仅侵犯了隐私权,还可能导致“数字画像”被不当利用,进行歧视或操控。因此,我们需要建立健全的法律法规,制定明确的数据使用范围和伦理准则,同时在技术层面探索差分隐私、联邦学习等手段,在保护个体权利的同时发挥AI的积极作用。

除了PixelRefer搞定的精确度和效率,未来视觉AI还有啥硬骨头要啃?我觉得除了文章说的这些,还得搞定“理解上下文”吧。现在AI看一个东西很准,但它不一定知道这个东西在整个场景里扮演什么角色,比如一个水杯,在厨房、办公室、画室里的“意义”就不一样。还有就是“常识”这东西,人一看就知道,AI就得拼命学。怎么让AI拥有像人一样的直觉和判断力?这估计还得好久。另外,视频理解方面,长视频里复杂事件的逻辑链条,怎么高效地提取出来,也是个大挑战。

AI深度理解细节可能带来的隐私和伦理挑战怎么看?这个问题非常复杂,没有简单的对错。一方面,细粒度理解能提升公共安全,比如快速定位被盗物品、识别异常行为模式。但另一方面,它确实可能触及个人自由和隐私的边界。就像一把双刃剑,关键在于掌握使用者的意图和监管机制。我们不能因噎废食,要思考的是如何在技术进步的同时,确保其服务于人类福祉而非滥用。这需要技术开发者、政策制定者和社会大众共同参与讨论,划定清晰的红线。

AI理解细致了,隐私问题怎么破?我觉得这绝对是个大问题啊!现在好多监控都说智能识别,但大多还停留在人脸识别。如果AI能识别我穿了什么牌子的衣服,买了什么东西,去了哪里,甚至我手里的咖啡是哪家店的,那真的太可怕了。这感觉就像被“扒光”了所有信息。不光是隐私,万一数据泄露或者被滥用,想想都脊背发凉。感觉以后出个门都得小心翼翼的,得赶紧想想怎么给AI“打码”了。

PixelRefer在艺术创作辅助和教育领域的应用?哈哈,那岂不是以后我的涂鸦也能被AI点评出“梵高式的螺旋构图”了?或者AI能告诉我,我画的火柴人手臂角度不对,影响了整体动态美感…… 至于教育,AI能精准到像素级地指出我卷子上那个“√”画得不够“√”,所以扣了0.5分,想想都有点刺激。开个玩笑,但说真的,它在识别复杂图表、手写笔记这些地方,潜力无限。也许哪天AI真能成为我的私人艺术导师或超级学霸辅导员。

PixelRefer解决了理解的精确性和效率,但要达到通用的“理解世界动态”的视觉智能,还有哪些深层次的技术挑战?我觉得除了精确的局部识别,未来视觉智能还需要解决多模态推理的“深层语义鸿沟”。例如,AI需要从观察到的行为中推断出意图、情感甚至因果关系,这远超简单的物体识别。融合人类常识知识是关键一环,这可能涉及到符号AI与神经网络的混合架构,或者通过大规模、高维度的人类行为数据集进行预训练。此外,对“动态”的理解不仅仅是时间序列上的跟踪,更包括预测未来的发展趋势、理解物理定律和因果链条。这要求模型不仅能“看”,还能“想”和“推演”。

关于PixelRefer在艺术创作或教育领域的应用潜力,我有一些看法。它的像素级理解能力确实具有变革性。在艺术创作辅助方面,AI可以更精准地分析画作的笔触、色彩梯度、构图元素,为风格迁移提供更细致的指导,甚至能识别不同艺术流派的微观特征,帮助艺术家突破瓶颈。而在教育领域,AI能够识别复杂的数学公式、化学分子结构图中的细微错误,或者辅助理解生物切片图,提供个性化的学习反馈。这不仅是识别,更是深度解析视觉信息的基础。

PixelRefer之后,AI视觉智能还有哪些“大boss”要打?哈哈,我觉得AI要真正理解世界,除了“看清楚”和“看懂效率”,还得学会“脑补”啊!人类看到一半的照片能猜到另一半,听到一半的话能猜到后续。AI现在还像个没有感情的摄影师,拍得老清楚了,但你问它“这俩人接下来会干嘛?”它可能就蒙圈了。常识知识就更不用说了,它不知道猫狗为什么不能和睦相处(大部分时候),也不知道为什么人在电影院里要安静。所以,我觉得未来的挑战是让AI从一个超级“观察员”变成一个“思考者”和“预言家”,甚至带着点“幽默感”的“哲学家”!嗯,任重道远啊。

问得好!PixelRefer对于艺术和教育这些“非传统”领域,我觉得肯定有用啊!比如画画,AI能帮我分析哪个颜色用得不好,线条是不是太僵硬。搞艺术的要的就是细节嘛,AI能“看见”的细节比人眼厉害多了。教育上,想象一下AI能批改物理实验报告,精确指出你图像里哪个仪器没摆对,或者作文里某个比喻用得不恰当,那简直是神助攻!再也不怕老师只看个大概了。