原文标题:超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
原文作者:机器之心
冷月清谈:
DynRefer 是一种新型算法,旨在提升区域级多模态识别任务的精度。它通过模拟人类视觉感知系统中的动态分辨率机制,同时完成区域识别、属性检测和字幕生成任务,在上述任务中取得了 SOTA 性能。尤其在 RefCOCOg 数据集的区域级字幕生成任务上,其表现优于 CVPR 2024 的多项方法。
方法
传统方法采用固定分辨率编码方案,而 DynRefer 采用动态分辨率机制,通过构造多个均匀分辨率视图来模拟一幅动态分辨率图像。每个视图对应于不同的插值系数,模拟了人类关注区域的高分辨率和非关注区域的低分辨率特性。
实验
DynRefer 在区域级字幕生成、密集字幕生成、区域属性检测和区域识别等任务上取得了 SOTA 性能,显著优于现有方法。消融实验表明:
- 随机动态多视图优于固定视图
- 通过最大化信息选择视图优于随机选择视图
- 多任务训练可以学习到更好的区域表征
结论
DynRefer 通过动态分辨率机制,有效提高了区域级多模态识别任务的精度,为该领域的发展提供了新的思路。
怜星夜思:
2、在区域属性检测任务中,DynRefer 是如何实现 Open Vocabulary 的?
3、在实际应用中,DynRefer 可以有哪些有趣的应用场景?
原文内容
机器之心编辑部
为了实现高精度的区域级多模态理解,本文提出了一种动态分辨率方案来模拟人类视觉认知系统。
本文作者来自于中国科学院大学LAMP实验室,其中第一作者赵毓钟是中国科学院大学的2023级博士生,共同一作刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。
-
论文标题:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
-
论文链接:https://arxiv.org/abs/2405.16071
-
论文代码:https://github.com/callsys/DynRefer

































-
Line 1-6:随机动态多视图要优于固定视图。
-
Line 6-10:通过最大化信息选择视图优于随机选择视图。
-
Line 10-13:多任务训练可以学习得到更好的区域表征。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]