PS3:伯克利&英伟达突破,4K分辨率视觉预训练加速多模态大模型

伯克利&英伟达提出PS3,首次实现4K分辨率视觉预训练,多模态大模型VILA-HD在4KPro基准测试中,精度提升3.2%,速度提升3倍。

原文标题:4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

原文作者:机器之心

冷月清谈:

伯克利和英伟达联合提出PS3视觉编码器,首次实现了在4K超高分辨率下的高效视觉预训练,并在此基础上构建了多模态大模型VILA-HD。该方案采用局部对比学习,仅对图像中的局部区域与局部区域的细节描述进行编码和对比,解决了高分辨率预训练计算代价高昂的问题。VILA-HD在高清场景下的表现和效率显著提升,并在研究团队发布的高分辨率视觉基准测试集4KPro上,相比Qwen2-VL提升了3.2%的准确率并实现了三倍的加速。PS3的关键设计在于动态选择性地采样图像区域,并支持灵活的计算资源控制。VILA-HD的优势包括细节感知能力更强、响应速度更快,并可根据用户需求灵活调整响应速度。该研究已被CVPR 2025评为Highlight论文,为自动驾驶、家用机器人、医学图像等真实世界应用打开了新的可能。

怜星夜思:

1、PS3提出的局部对比学习,这种思路在其他领域(如NLP、语音识别)是否有借鉴意义?如果借鉴,可能的形式会是怎样?又会遇到哪些挑战?
2、VILA-HD通过选择性处理高清图片来提升效率,那么在实际应用中,如何确定哪些区域是需要处理的“相关区域”?使用图像显著性或自然语言控制,各自的优缺点是什么?
3、4KPro数据集强调了高分辨率图像感知能力的重要性,那么在哪些具体的行业或应用场景中,真正需要并能够充分利用4K甚至更高分辨率的视觉信息?仅仅是分辨率的提升就足够了吗?还需要哪些配套的技术或算法?

原文内容


当前,所有主流的视觉基础模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率,这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。


然而,当前视觉模型预训练很难提升到更高的分辨率,核心原因在于计算代价过于高昂。比如 SigLIP,在预训练过程中需要编码整张图像,计算复杂度至少与图像分辨率二次增长,导致训练成本暴涨,几乎无法承受。


近日,伯克利联合英伟达提出一项突破性成果:PS3 视觉编码器,首次实现了在 4K超高分辨率下的高效视觉预训练并且没有额外开销,并在此基础上提出多模态大模型 VILA-HD。相比于目前最先进的多模态大模型(如 Qwen2-VL),VILA-HD 提升了高清场景下的表现和效率。


更关键的是,研究团队还发布了一个强挑战性的高分辨率视觉基准测试集:4KPro。在这个数据集上,VILA-HD 相比于 Qwen2-VL 提升了 3.2% 的准确率并且实现了三倍的加速。


研究团队也开放了全部内容,该研究已被 CVPR 2025评为 Highlight 论文。



论文标题:Scaling Vision Pre-Training to 4K Resolution

论文地址:https://arxiv.org/abs/2503.19903

项目主页:https://nvlabs.github.io/PS3/

代码库(即将开源):https://github.com/NVLabs/PS3

模型权重:即将发布


一、PS3

4K 超高清视觉预训练


高清预训练所遇到的困难


当前主流视觉模型之所以不能在 4K 下预训练,是因为在高分辨率下需要整图编码,计算复杂度至少与图像分辨率二次增长。这使得目前模型很难在 1K 或以上的分辨率进行预训练。


但伯克利 & 英伟达团队发现,识别局部细节无需整图理解。于是他们提出局部对比学习的训练范式,使得 PS3 能够在没有额外开销的情况下将预训练分辨率提高到 4K。


局部对比学习:「免费」的高清预训练


传统方法,例如 SigLIP,会对全局视觉表征和全局文字描述表征做对比学习。与之相比,PS3 采用局部对比学习策略:仅对图像中的局部区域与局部区域的细节描述进行编码和对比。这种方式不仅保留了高分辨率的细节理解能力,由于模型不需要处理整张高清图像而只需要处理局部区域,也极大降低了计算成本。


实验显示,该方法训练时间可以比直接在 4K 分辨率上预训练节省 79 倍,与低分辨率预训练 SigLIP 相近,却能处理高达 4K 分辨率图像,实现前所未有的精细表示能力。



PS3 关键设计:选择性处理高清图片


PS3 并非盲目处理所有像素,而是动态选择性地采样图像区域:既可以使用图像显著性,也可以用任何自然语言来控制处理的区域。


此外,PS3 设计支持灵活的计算资源控制 —— 用户可以根据场景需要,调整高分辨率 patch 的数量,平衡速度与性能。



二、VILA-HD

基于 PS3 的高分辨率 MLLM



基于 PS3,团队构建了多模态大模型 VILA-HD,其核心优势在于:


  • 细节感知能力超过现有 MLLMs(如 Qwen2-VL)。这得益于 PS3 的高清视觉预训练提升了细节理解能力。

  • 响应速度也比现有 MLLM 更快:VILA-HD 可根据提示只处理图像中相关区域,而不是一口吃下整张图。这使得 VILA-HD 比当前基于 AnyRes/S2 等处理整张高清图的 MLLM 速度更快。

  • 根据用户需求灵活调整响应速度:VILA-HD 可以灵活调整处理的高清区域大小,从而可以适应不同的推理开销要求。


图片


更有趣的是,团队发现在 VILA-HD 上,PS3 展现了不同的有趣的扩展能力。在提升下游任务分辨率时,PS3 的性能比没有高清预训练的模型性能提升的要更快。PS3 还可以在提升分辨率的同时选择固定大小的高清区域,从而在训练与推理开销保持不变的情况下提升性能。除此之外,PS3 还可以通过扩展训练或测试时的计算量来进一步提高性能。



三、仅有高分辨率还不够

我们还需要高分辨率的 Benchmark


研究者们发现,当前绝大多数视觉问答评测集,即使图像是 4K 分辨率,实际任务却不需要这么高的分辨率来解题。他们引入了一个新概念:MRR(Minimum Recognizable Resolution):完成某个任务所需的最小有效图像分辨率。


分析显示,大量数据集的 MRR 实际低于 1K,因此难以衡量高分辨率模型的真实优势。



为此,研究团队推出了 4KPro —— 这是一个真正需要 4K 级图像感知能力才能完成的高分辨率基准测试。4KPro 在自动驾驶,家务家居,游戏 agent,UI 理解四个专业领域收集了 4K 分辨率的图片以及需要 4K 分辨率才能回答的问题。


在 4KPro 上,VILA-HD 显著优于现有 SOTA 多模态模型,比如相对 Qwen2-VL 提升了 3.2% 的准确率,同时在处理速度上可以实现最高 3 倍加速



PS3 + VILA-HD 打破了长久以来视觉预训练只能处理小图像的桎梏,为真实世界应用(如自动驾驶、自动代理、家用机器人、工业检测、医学图像等)打开了新的可能。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我补充一个:游戏行业!追求极致画面效果的玩家,肯定需要4K甚至8K的游戏画面。但是,仅仅有高分辨率还不够,还需要高性能的GPU来支持,否则就会卡顿。

而且,我觉得高分辨率也带来了新的挑战,比如数据存储和传输的问题。高分辨率图像的文件大小会非常大,需要更高效的压缩算法和更大的存储空间。在网络传输时,也需要更高的带宽。

关于PS3的局部对比学习在其他领域的应用潜力,我觉得还是很大的。比如NLP领域,我们可以借鉴这种思想,不再是全局的文本对比,而是对比句子中关键短语或实体之间的关系,以此来提升模型对细粒度语义的理解。又比如,语音识别领域,可以对语音片段中的音素或音节进行局部对比学习,提高模型对不同口音和语速的鲁棒性。

当然,挑战也是存在的。不同领域的局部特征定义和提取方法不同,需要针对具体问题进行设计。另外,如何有效地融合局部信息和全局信息,也是一个需要考虑的问题。

在实际应用中,“相关区域”的确定方法取决于具体的任务场景。图像显著性检测可以快速定位图像中比较突出的物体或区域,适合不需要理解具体语义的场景,比如图像压缩、目标跟踪等。而自然语言控制则可以根据用户的指令来选择区域,更加灵活和精准,适合人机交互场景,比如智能客服、图像编辑等。

图像显著性的优点是速度快、计算量小,缺点是缺乏语义信息,容易受到光照、噪声等因素的影响。自然语言控制的优点是可以根据用户的意图来选择区域,更加智能,缺点是需要自然语言处理模型的支持,计算量较大,并且模型的性能会影响选择的准确性。

图像显著性就像是“条件反射”,看到亮的东西就去看,优点是快,缺点是可能被“障眼法”欺骗。自然语言控制就像是“听指挥”,优点是准,缺点是如果指挥的人自己都不知道要看啥,那就抓瞎了。所以,这两种方法可以结合起来用,先用图像显著性粗略定位,再用自然语言进行精确选择。

我认为,需要高分辨率视觉信息的行业,首当其冲的就是医疗影像。比如病理切片分析、眼底视网膜扫描等,医生需要观察细微的组织结构和病灶,高分辨率能提供更多的细节信息,辅助诊断。

自动驾驶也是一个典型的应用场景。传感器需要捕捉远处的交通标志、行人、障碍物等,高分辨率能提高识别的准确性和可靠性。

仅仅提升分辨率是不够的。还需要配套的图像处理算法,比如超分辨率重建、图像增强、目标检测等,才能有效地利用高分辨率图像中的信息。

妙啊!局部对比学习确实打开了新思路。NLP里,如果只对比关键短语,感觉有点像在做“关系抽取”或者“事件抽取”了。语音识别的话,我想到的是“语音增强”,只关注清晰的音节,忽略噪音部分。但是,万一关键信息被噪音淹没了怎么办?这可能也是挑战之一。

我觉得图像显著性更适合“探索式”的应用,比如机器人自主探索未知环境,先看看哪里最吸引眼球。自然语言控制更适合“目标导向”的应用,比如用户明确想让AI关注某个物体或区域。

图像显著性的缺点是容易被干扰,比如一张全是白墙的房间,可能就找不到显著区域。自然语言控制的缺点是依赖于语言模型的理解能力,如果用户描述不清楚,或者语言模型理解错误,就可能选错区域。

高分辨率的用武之地太多了!比如文物修复,需要高清图像来记录文物的细节,方便进行数字化保存和修复。还有工业质检,可以利用高分辨率相机来检测产品表面的瑕疵,提高生产效率和质量。

除了分辨率,色彩深度也很重要。比如在艺术品复制领域,需要尽可能还原原作的色彩,这就需要高色彩深度的图像。另外,还需要考虑图像的动态范围,确保高光和阴影细节都能被捕捉到。

局部对比学习的精髓在于“抓重点”,这在NLP中对应的是关注关键信息,比如命名实体、关键词等。可以考虑构建一种“局部上下文”的概念,只对比与这些关键信息相关的文本片段,减少计算量。语音识别可能更复杂,因为语音信号的时序性很强,需要考虑前后音节的依赖关系。所以局部对比学习可能要结合注意力机制,动态地选择需要对比的语音片段。

主要挑战在于如何定义和提取不同领域的“局部特征”,以及如何保证局部对比学习不会丢失重要的全局信息。