CVPR 2025 ViSCALE研讨会:探索计算机视觉推理扩展律

CVPR 2025 将举办 ViSCALE 研讨会,探索推理时计算扩展 (TTS) 如何提升计算机视觉模型性能。

原文标题:征稿|CVPR2025首届ViSCALE研讨会,探寻计算机视觉的推理扩展律

原文作者:机器之心

冷月清谈:

CVPR 2025 将举办首届计算机视觉推理扩展研讨会 (ViSCALE),重点探讨推理时计算扩展 (Test-time Scaling, TTS) 在计算机视觉中的应用。TTS 已在大语言模型中取得成功,通过增加推理计算资源提升模型性能。ViSCALE 研讨会旨在探索 TTS 如何提升视觉模型在感知、理解、推理和决策等复杂任务中的准确性、鲁棒性和可解释性,并扩展至多模态模型,促进更复杂的多模态理解和推理能力。研讨会鼓励提交关于 TTS 在视觉模型中的理论分析、算法设计、可信问题、应用场景以及新挑战和解决方案等主题的论文,接受长摘要、短文和长文投稿。

怜星夜思:

1、除了文章提到的那些应用场景,大家觉得TTS还能在哪些计算机视觉任务中发挥作用?
2、TTS技术在提升模型性能的同时,会不会带来一些新的挑战?例如计算成本和功耗问题。
3、相比于传统的模型优化方法,TTS技术有哪些独特的优势?

原文内容

计算机视觉与模式识别会议(CVPR)作为全球计算机视觉与人工智能领域最具影响力的顶级学术会议,将于 2025 年 6 月 11 日至 15 日在美国田纳西州召开。


来自清华大学、牛津大学、UCSC、UCLA、中科院等顶尖高校及学术机构的学者届时将联合举办 CVPR 首届计算机视觉推理扩展研讨会(Test-time Scaling in Computer Vision, ViSCALE)。本次研讨会旨在深入探讨 Test-time Scaling(推理时计算扩展,TTS)如何赋能计算机视觉模型、算法及应用。



研讨会介绍


Test-time Scaling 已在大语言模型(如 OpenAI o1/o3 和 DeepSeek-R1 等模型)中取得显著进展,极大提升了模型在复杂任务上的推理能力,正在引领新一轮人工智能浪潮。这一技术同样为计算机视觉的未来发展带来了巨大潜力和广阔前景。通过在分配更多的推理计算资源,视觉模型也能够在感知、理解、推理和决策等复杂任务中实现更高的准确性、鲁棒性和可解释性。更进一步,当 Test-time Scaling 拓展至多模态基础模型,这将促进更复杂的多模态理解和推理能力,以及更高质量的内容生成,进一步推动计算机视觉乃至多模态技术的发展。


本次 ViSCALE 研讨会希望汇聚全球顶尖的学者,共同推动 Test-time Scaling 技术在计算机视觉中的创新应用,探索如何突破现有技术的瓶颈,推动视觉模型在复杂任务中的性能提升。


投稿信息


ViSCALE 研讨会诚挚邀请研究者提交论文,共同探索这一技术对于计算机视觉领域发展的影响,主题包括但不限于:


  • TTS 在计算机视觉中的理论分析与应用

  • TTS 在多模态理解模型和生成模型中的扩展应用

  • 针对视觉模型的高效算法设计,以支持测试时计算扩展

  • TTS 带来的可信问题,包括鲁棒性、安全性与可解释性

  • TTS 在具身智能、自动驾驶等场景中的应用

  • TTS 所带来的新挑战与解决方案


研讨会特别鼓励提交新颖观点和创意思路的研究,将会接受多种类型的投稿:长摘要(Extended Abstracts,1 页)、短文(Short Papers,4 页)、长文(Long Papers,8 页 wo)。研讨会将评选出最佳论文、最佳论文提名等奖项,并奖励以丰厚奖金!


提交方式


OpenReview 提交:https://openreview.net/group?id=thecvf.com/CVPR/2025/Workshop/ViSCALE


截止日期:2025 年 3 月 15 日(AoE)


演讲嘉宾



组织委员会


Test-time Scaling 作为一项前沿技术,正在为模型推理增强带来革命性的变化。欢迎大家积极参与,踊跃投稿并参与讨论。详细信息参见:https://viscale.github.io/

我觉得TTS技术更有利于探索模型的极限性能。通过分配更多的计算资源,可以突破传统模型的性能瓶颈,挖掘模型的更大潜力,这对于一些对性能要求极高的任务非常重要,比如自动驾驶。

关于计算成本和功耗,我觉得可以探索一些轻量级的TTS方法,或者结合一些模型压缩和加速技术,在尽可能减少计算资源消耗的同时,提高模型性能。说不定以后手机上也能跑复杂的视觉模型了,想想就美滋滋。

我想TTS或许可以应用于视频理解和分析。 现在视频内容越来越多,如果能在推理阶段动态调整计算资源,根据视频的复杂程度进行自适应分析,应该可以提升视频理解的效率和准确性,想想就刺激。

计算成本和功耗确实是TTS技术需要面对的挑战。如果推理计算资源需求过高,可能会限制其在一些资源受限的场景下的应用,例如移动设备或嵌入式系统。我觉得后续研究可以关注如何在保证性能提升的同时,优化算法,降低计算成本和功耗。

针对“相比于传统的模型优化方法,TTS技术有哪些独特的优势?”这个问题,我认为TTS技术可以更好地利用硬件资源。通过动态调整计算资源,可以充分发挥硬件的性能,达到更高的效率。而传统的优化方法往往受限于固定的硬件配置。

我觉得TTS在医学图像分析中很有潜力。比如在诊断疾病时,可以用TTS技术对医学影像进行更精细的分析,提高诊断准确率,特别是一些需要高精度分析的场景,比如肿瘤早期筛查。

是的,对于“TTS技术在提升模型性能的同时,会不会带来一些新的挑战?例如计算成本和功耗问题。”这个问题,我感觉除了成本和功耗,TTS 还可能带来模型复杂度的增加,这可能会导致模型训练和部署更加困难。

我觉得TTS技术的一个独特优势在于它的灵活性。它可以在推理阶段根据任务的复杂程度动态调整计算资源,而传统的模型优化方法通常在训练阶段就固定了模型的结构和参数,灵活性较差。

我觉得可以考虑遥感图像解译。遥感图像通常数据量巨大,细节丰富,TTS技术或许可以帮助我们更精准地识别地物特征,提取更有效的信息。