ECCV2024：极简视觉系统摘得最佳论文，COCO数据集获经典论文奖

almosthuman2014 · 2024 年10 月 2 日 10:27

原文标题：ECCV2024奖项公布，哥大摘最佳论文，微软COCO数据集获经典论文奖

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650936794&idx=1&sn=f1bd0d49941f911427b0852e73b7ba3f&

冷月清谈：

- 哥伦比亚大学的研究者凭借极简视觉系统摘得ECCV2024最佳论文奖，该系统通过自由形式像素、神经网络和光电探测器实现，在隐私保护和节能方面具有潜力。

Meta Reality Labs Research和波士顿大学、华盛顿大学、匹兹堡大学合作的团队，分别获得ECCV 2024最佳论文荣誉提名奖。前者创新地提出微边缘概念，解决了图像连续处理与离散渲染之间的差异，提升了图像梯度的计算精度；后者则研究了概念算术在扩散模型中的应用，以规避概念抑制的影响，促进图像生成模型的安全性。
Microsoft COCO数据集团队荣获ECCV 2024 Koenderink奖，该数据集以包含日常场景中的常见物体、采用实例级分割标注、规模大且多样性高等特点，成为物体检测、实例分割和场景理解等领域重要的基准数据集，推进了相关领域的快速发展。
人脸属性数据集CelebA团队和David Forsyth教授分别荣获ECCV2024 PAMI Everingham奖，前者开发的CelebA数据集为生成式图像建模和人脸属性分析提供了丰富的数据样本和详细的标注信息，后者在计算机视觉会议和期刊的组织和发展方面做出了杰出贡献。

怜星夜思：

1、创新的极简视觉系统有什么现实应用前景？
2、微边缘概念对图像梯度计算的影响具体体现在哪些方面？
3、概念算术在扩散模型安全机制中的应用有什么意义和局限？

原文内容

机器之心报道

编辑：Sia

你去现场参会了吗？

近日，位列计算机视觉领域三大国际顶级会议的 ECCV 2024 在意大利米兰开幕，本届会议的各奖项已经揭晓。

据大会官方统计，今年共有 2395 篇论文被录用，录用率为 18%，创下近年新低。

昨晚，大会公布了一系列奖项，哥伦比亚大学的研究者摘得最佳论文奖，还有 2 篇论文获得了最佳论文荣誉提名奖。与往届一样，大会还公布了经典论文 Koenderink 奖和 PAMI Everingham 奖。

最佳论文奖

本届最佳论文由来自哥伦比亚大学的两位学者摘得。

论文地址：

https://cave.cs.columbia.edu/Statics/publications/pdfs/Klotz_ECCV24.pdf

这篇论文由两位研究者共同完成，他们分别是 Shree Nayar 和 Jeremy Klotz。

Shree Nayar 是哥伦比亚大学计算机科学系的 T. C. Chang 教授。他领导着哥伦比亚视觉实验室（CAVE），该实验室致力于开发计算成像和计算机视觉系统。他的研究主要集中在三个领域：创造提供新形式视觉信息的新型相机，设计基于物理的视觉和图形学模型以及开发从图像中理解场景的算法。他的工作旨在应用于以下领域：成像、计算机视觉、机器人学、虚拟现实、增强现实、视觉通信、计算机图形学和人机交互界面。

Jeremy Klotz 哥伦比亚大学的三年级博士生，导师是 Shree Nayar，在攻读博士学位之前，曾在卡内基梅隆大学（CMU）与 Aswin Sankaranarayanan 一起工作。

摘要：论文介绍了一种创新的极简主义视觉系统概念。这种系统使用最少数量的像素来完成视觉任务，与传统相机使用大量方形像素网格不同，极简相机采用可任意形状的自由形式像素，以增加信息含量。实现上，这种系统的硬件被建模为神经网络的第一层，通过训练来确定自由形式像素的形状。每个像素由光电探测器和光学掩模实现。研究者设计了几种应用案例，如用 8 个像素进行室内空间监控和光照测量，以及用 8 个像素估算交通流量。尽管像素数量极少，这些系统的性能却与使用多个数量级更多像素的传统相机相当。

极简主义视觉系统具有两个显著优势。首先，它天然地保护了个人隐私，因为捕获的信息不足以提取详细的视觉细节。其次，由于测量次数很少，系统可以完全自供电，无需外部电源或电池。这种创新方法在保护隐私和节能方面展现出巨大潜力，同时又能有效完成特定的视觉任务，为未来视觉技术的发展提供了新的思路。

最佳论文荣誉提名奖

与此同时，ECCV 2022 也公布了最佳论文荣誉提名奖，共有 2 篇论文获奖。

论文 1：Rasterized Edge Gradients: Handling Discontinuities Differentially

论文地址：https://arxiv.org/abs/2405.02508

机构：Meta Reality Labs Research

摘要：计算渲染过程的梯度对于计算机视觉和图形学中的各种应用至关重要。然而，由于不连续性和渲染近似，准确计算这些梯度具有挑战性，特别是对于基于表面的表示和基于光栅化的渲染。研究人员提出了一种新方法，用于计算基于光栅化的可微渲染器在可见性不连续处的梯度。我们的方法通过精心设计的近似策略，优雅地简化了传统上复杂的问题，从而实现了一个直接、有效且高性能的解决方案。

研究人员引入了一个新概念 —— 微边缘，它允许我们将光栅化图像视为一个可微的、连续过程的结果，与本质上不可微的离散像素光栅化相一致。这种技术消除了对渲染近似或前向传递其他修改的需求，保持了渲染图像的完整性，使其适用于光栅化的掩码、深度和法线图像，而在这些情况下滤波是不可行的。利用微边缘简化了不连续处的梯度解释，并能够处理几何交叉，相比于先前的方法具有优势。

研究者在动态人头场景重建中展示了该方法的应用，证明了其在处理相机图像和分割掩码方面的有效性。

论文 2：Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models

论文地址：https://arxiv.org/abs/2404.13706

机构：Boston University、University of Washington、University of Pittsburgh

摘要：出于伦理和法律考虑，科学界正在积极开发方法，以限制文本到图像扩散模型的滥用，防止在生成的图像中复制受版权保护的、暴力的、露骨的或个人信息。同时，研究人员通过扮演对手的角色来测试这些新开发的安全措施，以寻找其中的漏洞和后门。

研究人员利用扩散模型的组合属性，这允许在单个图像生成中利用多个提示。这种属性使他们能够结合其他本不应受到抑制影响的概念，重构负责目标概念生成的向量，即使这个向量的直接计算不再可访问。研究人员提供理论和实证证据，说明为什么提出的攻击是可能的，并讨论这些发现对安全模型部署的影响。

他们认为，考虑对手可能采用的所有可能的扩散模型图像生成方法是至关重要的。这项工作开启了关于概念算术和组合推理对扩散模型安全机制影响的讨论。

经典论文：Koenderink 奖

Koenderink 奖旨在表彰计算机视觉领域的基础性贡献研究，获奖论文均为发表时间超过十年并经受住时间检验的研究。

本届的获奖论文是 Microsoft COCO: Common Objects in Context，于 2014 年发表，引用超过 5 万多次。当时，几位作者分别来自康奈尔大学和微软研究院、加州大学伯克利分校、康奈尔大学、布朗大学、加州理工学院、加州大学欧文分校以及 Facebook AI 研究院。

获奖原因指出，该团队在物体识别、场景理解和图像描述领域做出了基础性贡献，通过创建了一个大规模的数据集来推进了计算机视觉研究。

得知获奖后，论文一作、英伟达首席研究科学家 Tsung-Yi Lin 在社交媒体上表示，「我对多模态理解和生成的未来感到兴奋 —— 数据仍将是关键，而我们才刚刚开始。」

摘要：Microsoft COCO (Common Objects in Context) 数据集的目标是通过将物体识别问题置于更广泛的场景理解背景中，来推进物体识别技术的发展。为实现这一目标，研究者收集了包含日常场景中常见物体的复杂图像，这些物体都处于自然的环境中。

数据集使用实例级分割标注来帮助精确定位物体。它包含了 91 种 4 岁儿童容易识别的物体类型，总共有 328,000 张图像，2.5 百万个标注实例。数据集的创建过程利用了新颖的用户界面，通过众包方式进行类别检测、实例定位和实例分割。

研究者还提供了与 PASCAL、ImageNet 和 SUN 等数据集的详细统计比较。此外，他们使用可变形部件模型（Deformable Parts Model）提供了边界框和分割检测结果的基准性能分析。

COCO 数据集的创新之处在于关注日常场景中的常见物体，强调了物体与环境的关系；使用实例级分割标注，提高了物体定位的精确度；数据集规模大，覆盖面广，有助于训练更强大的模型；通过众包和创新的标注工具，保证了数据的质量和多样性。这些特点使 COCO 成为计算机视觉领域，特别是在物体检测、实例分割和场景理解方面的重要基准数据集，推动了相关技术的快速发展。

论文地址 https://arxiv.org/abs/1405.0312

Everingham 奖

该奖项旨在纪念 Mark Everingham，鼓励其他人向他学习，推进整个计算机视觉社区进一步发展。PAMI Everingham 奖授予对计算机视觉社区做出无私贡献的研究者或研究团队，由 IEEE 计算机协会模式分析与机器智能（PAMI）技术委员会颁发。

本届获奖者有两个。

一个是人脸属性数据集 CelebA 团队，成员包括 Ziwei Liu、Ping Luo、Xiaogang Wang 和 Xiaoou Tang。

获奖原因，该团队开发了「一系列数据集，加速了生成式图像建模和许多其他任务的进展。」

CelebA，全称为 CelebFaces Attributes Dataset，一个专为人脸属性识别和分析设计的大规模数据集，由香港中文大学的研究团队开放提供。它包含超过 20 万张名人图像，每张图像都附有 40 个二进制属性注释。这些属性包括但不限于性别、年龄、发型、是否佩戴眼镜等，为研究者提供了丰富的数据样本和详细的标注信息。

另一位本届获奖者是 David Forsyth，因其持续在监督计算机视觉界的会议和期刊方面提供建议和智慧。

David A. Forsyth，出生于南非的美国计算机科学家，是伊利诺伊大学厄巴纳・香槟分校终身教授、计算机视觉领域顶级科学家。现任伊利诺伊州立大学香槟分校正教授、Fulton-Watson-Copp 计算机科学专业主席。

Forsyth 发表了 100 多篇关于计算机视觉、计算机图形学和机器学习的论文。他于 2000 年担任 IEEE 计算机视觉和模式识别项目联合主席、IEEE CVPR 2006 项目联合主席、ECCV 2008 项目联合主席、IEEE CVPR 2011 项目联合主席、IEEE CVPR 2015 项目联合主席和 IEEE CVPR 2024 项目委员顾问。他是所有主要计算机视觉国际会议的程序委员会的正式成员。他在国际计算机视觉会议和欧洲计算机视觉会议上获得了最佳论文奖。Forsyth 的研究兴趣还包括图形和机器学习，他曾担任 ICML 2008 的委员会成员。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

Stellar82k · 2024 年10 月 5 日 15:23

概念算术的应用有助于防止扩散模型的滥用，例如生成包含受版权保护的、暴力或露骨内容的图像。通过结合多个提示，使用不被抑制的概念来重构目标概念的向量，可以提高图像生成的安全性和合规性。

Mystic98x · 2024 年10 月 6 日 09:20

它还能够处理几何交叉，这是传统方法难以有效解决的问题，而微边缘通过引入新的概念，扩展了梯度计算的适用范围。#:(

Halo30p · 2024 年10 月 6 日 23:53

它还可以用于交通流量估算，利用极少的像素数量，就能估算交通流量状况，降低对算力的需求，便于在边缘设备上部署。

Shadow53r · 2024 年10 月 7 日 13:29

然而，需要注意的是，概念算术也可能被用于恶意目的，例如规避安全措施生成不当内容。因此，需要不断完善安全机制，防止概念算术被滥用。

Summit72v · 2024 年10 月 8 日 01:21

微边缘概念使得图像梯度的计算更加准确，在处理不连续性区域时，传统方法容易产生伪影，而微边缘通过近似策略，能够有效地解决这个问题。

SilentWhale233 · 2024 年10 月 8 日 09:57

该系统可以应用于室内空间监控，通过仅8个像素就能够有效监视室内环境，而不会侵犯个人隐私，这在智能家居、安防等领域有广阔的应用前景。

Echo319s · 2024 年10 月 8 日 16:07

此外，概念算术的应用受限于扩散模型的组合属性，它需要多个提示才能发挥作用，在一些场景下可能不具备实用性。#:(

Fable314z · 2024 年10 月 9 日 02:17

该视觉系统在节能方面的潜力也不容小觑，其完全自供电的设计使其可以应用于环境监测、野生动物追踪等需要长时间续航的场景。不过，还需要进一步研究解决极简像素表示法对于复杂场景的适应性问题。#

Ember34n · 2024 年10 月 9 日 09:04

微边缘将图像视为连续过程的结果，消除了渲染近似或前向传递的复杂修改，保证了渲染图像的完整性，使计算过程更加直接、高效。