CVPR 2025:FovealSeg框架利用眼动追踪实现XR设备毫秒级实例分割

纽约大学&Meta Reality Labs提出FovealSeg框架,结合眼动追踪技术,实现XR设备上毫秒级IOI分割,显著降低算力需求。

原文标题:CVPR 2025 | 解决XR算力瓶颈,FovealSeg框架实现毫秒级IOI分割

原文作者:机器之心

冷月清谈:

纽约大学和 Meta Reality Labs 联合研究提出的 FovealSeg 框架,旨在解决 XR 设备中实例分割的算力瓶颈问题。该框架的核心思想是利用人眼的“凝视-扫视”模式,只对用户注视的区域(IOI)进行精细分割,而对其他区域进行简化处理,从而大幅降低计算量。FovealSeg 框架包括 FSNet 网络模块,该模块通过显著性自适应下采样、分割/分类双分支和阶段式训练等技术,实现了速度和精度的双赢。实验结果表明,FovealSeg 能够在保证分割精度的前提下,将端到端延迟降低到实时交互的红线以下,为 XR 设备的实时实例分割提供了切实可行的解决方案。

怜星夜思:

1、FovealSeg 框架依赖于眼动追踪技术,如果眼动追踪的精度不高,或者用户故意不按常理注视,会对分割效果产生什么影响?
2、文章提到 FovealSeg 框架可以用于场景理解、三维重建等实时计算密集型任务,除了这些,你觉得它还可能在哪些领域有应用前景?
3、FovealSeg 框架中,扫视检测的阈值 α 和场景突变的阈值 β 对性能影响很大,实际应用中,如何根据不同的场景和用户来动态调整这两个阈值?

原文内容


本文共同第一作者为纽约大学研究生 Hongyi Zeng 和Wenxuan Liu。合作作者为 Tianhua Xia、Jinhui Chen、Ziyun Li。通讯作者为纽约大学电子工程系和计算机系教授 Sai Qian Zhang,研究方向为高效人工智能,硬件加速和增强现实。


在 XR 正逐步从概念走向落地的今天,如何实现 “按用户所视,智能计算” 的精准理解,一直是视觉计算领域的核心挑战之一。


最近,一项来自纽约大学和 Meta Reality Labs 的联合研究引发了行业关注:Foveated Instance Segmentation —— 一种结合眼动追踪信息进行实例分割的新方法,已被 CVPR 2025 正式接收



  • 代码连接:https://github.com/SAI-Lab-NYU/Foveated-Instance-Segmentation

  • 论文连接:https://arxiv.org/pdf/2503.21854


1. 从算力瓶颈谈起


在当下主流的 AR / VR 头显中,内置相机往往具备 720 P、1080 P 乃至 1440 P 的拍摄能力,但要想在如此高分辨率的画面上做实例分割,推理延迟常常飙升至数百毫秒甚至秒级,远超人眼在交互中对时延(50–100 ms)所能接受的舒适阈值。论文 Foveated Instance Segmentation 便是从 “为什么一定要整幅图都分割” 这一疑问切入,指出绝大多数计算其实浪费在用户根本不关注的区域上。Figure 1 里的卧室示例就说明,用户目光仅停留在床或衣柜等极小区域,而 Figure 3 则量化了分辨率与延迟的关系:当输入从 640 × 640 缩到 64 × 64 时,延迟能从 300 ms 量级骤降到十毫秒级。




2. 人眼注视模式带来的灵感


与桌面视觉任务不同,XR 用户的视线呈 “凝视 — 扫视” 交替:每秒 1–3 次扫视,每次 20–200 ms;扫视期间视觉输入被大脑抑制,凝视期间只有注视点周围拥有高视觉敏锐度。Figure 2 直观展示了凝视 / 扫视节奏,而作者在 Aria Everyday Activities 数据集上的统计进一步揭示:只需像素差分即可将视频切成 “视段”,段内帧间差异极小;若注视点位移低于 0.1 的阈值,上一帧的分割结果即可直接复用(Figure 4)。这为跨帧掩码复用和区域限定分割奠定了扎实的人因与统计基础。




3. 系统总览:FovealSeg 框架


作者据此提出 FovealSeg:内向摄像头以 120 Hz 捕获眼部图像,经眼动追踪 5–10 ms 就能得出注视坐标;外向摄像头同步采集前向高分辨率画面。框架首先检测是否发生扫视(阈值 α),再判断场景是否突变(阈值 β),若两者皆否,就把分割任务限制在当前 gaze 坐标附近的 IOI 区域,并复用历史掩码。流程图见 Figure 5。



4. 算法核心:FSNet


FovealSeg 的核心网络模块是 FSNet:


1. 显著性自适应下采样 —— 把 gaze 坐标编码成距离图,与原图拼成四通道张量;Saliency DNN 依据距离图按需放大 IOI、压缩背景。

2. 分割 / 分类双分支 —— 前支路输出二值 IOI 掩码,后支路输出类别向量,二者外积得最终掩码。

3. 阶段式训练 —— 先固定分割网训练 Saliency DNN,再反向微调分割 / 分类分支;Dice Loss + 面积加权 Focal Loss 解决小目标易被背景淹没的顽疾。


Figure 6 依次展示了 IOI 局部放大策略的可视化示意、网络结构图和交替训练流程。



5. 效果验证:速度与精度双赢


在 ADE20K、LVIS、Cityscapes 等数据集上,作者用 Jetson Orin NX 做测试:


  • FSNet 将输入缩到 64 × 64 仍能把 IoU 提到 0.36 以上,比统一下采样基线高 ≥ 0.14;

  • FovealSeg 进一步利用跨帧重用,在 α=0.1、β=0.01 设置下把 FLOPs 降到 ND(无下采样 baseline)基线的 1⁄75,比 NS(无帧复用 baseline)进一步降低近两倍。


Figure 7 的柱状图直观呈现了不同 α、β 组合下三种方案的 FLOPs 差距,端到端延迟仅 84 ms,重回实时交互红线。



6. 消融与讨论


论文还就下采样倍率、Gaussian Kernel 大小、gaze 输入等因素做了消融:


  • 下采样过猛虽降精度,但 FSNet 依旧显著优于平均池化基线;

  • Kernel 越大,显著区域权重越高,精度随之提升。

  • 将 gaze 坐标替换成随机噪声,IoU 至少掉 0.3,说明注视信息是方法立足之本。


这些对比虽以表格呈现(Table 3–5),但也佐证了 “人因驱动 + 统计约束” 在模型设计中的必要性。



7. 小结与展望


FovealSeg 以人眼生理特征为钥匙,把‘中央精细处理、周边压缩简化’的 foveated 思想真正落到实例分割上:


  • FSNet 巧用显著性采样,把计算集中在 IOI,兼顾分割和分类;

  • FovealSeg 又用扫视检测与帧间复用,把冗余推理压到极致。


在当前 XR 终端算力有限的背景下,它为 “毫秒级 IOI 分割” 提供了切实可落地的方案;随着更高精度、低延迟的眼动传感器普及,以及多 IOI 并行、多任务融合的需求升温,foveated 视觉计算或将成为 XR 生态里的 “默认范式”,也为更多实时计算密集型任务(如场景理解、三维重建)提供新的能效平衡思路。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

楼上说的太理想化了,让用户自己调参数太复杂了。我觉得可以利用机器学习的方法,训练一个模型来预测最佳的 α 和 β 值。模型的输入可以是用户的眼动追踪数据、设备性能数据、场景信息等等。模型输出就是 α 和 β 的值。这样就可以实现自动化的参数调整,不用用户操心了。

这确实是个好问题!眼动追踪的精度是这个方案的基础。如果精度不够,或者用户刻意“反侦察”,比如盯着背景看,那么算法的效果肯定会打折扣。一种可能的解决方案是引入一些容错机制,比如扩大 IOI 的范围,或者结合上下文信息进行预测。另外,也可以考虑用其他模态的信息来辅助,比如手势或者语音,形成一个多模态的融合方案。

楼上说的有道理,眼动追踪的误差肯定会影响效果。但是我觉得可以从两个方面来看:1. 算法本身有优化空间,比如可以学习对眼动追踪的噪声更鲁棒的特征;2. 眼动追踪技术也在不断进步,未来精度只会越来越高。所以,我觉得 FovealSeg 的思路是很有潜力的,随着技术的进步,它会变得越来越实用。

如果眼动追踪精度不高,或者用户不按常理注视,FovealSeg 的性能肯定会受到影响。因为该方法的核心就是基于用户注视区域进行重点分割。如果注视点定位不准,那 IOI (感兴趣区域) 就可能偏离用户的实际关注点,导致分割精度下降,甚至分割错误。极端情况下,如果用户故意乱看,或者眼动追踪完全失效,那 FovealSeg 就退化成一个随机区域分割算法了,效果肯定很差。

我有个更简单的想法:可以搞一个用户偏好设置。让用户自己选择一个适合自己的预设,比如“省电模式”、“均衡模式”、“高清模式”等等。不同的模式对应不同的 α 和 β 值。当然,也可以提供一些高级设置,让用户自己手动调整 α 和 β 的值。这样用户可以根据自己的需求和设备性能来灵活调整。

我觉得在游戏领域很有潜力!可以想象一下,在 VR 游戏中,玩家的视线中心是游戏重点渲染的区域,而周边区域可以适当降低画质,这样既保证了视觉体验,又节省了算力。另外,在医疗领域,医生可以通过眼动追踪来分析病人的视线模式,结合 FovealSeg 技术,可以快速定位病灶区域,提高诊断效率。

我倒是觉得在教育领域可以搞事情。比如,在线教育的时候,可以追踪学生的视线,看看他们是不是在认真听讲,或者对哪个知识点更感兴趣。然后,FovealSeg 可以用来分析学生的学习行为,为他们定制个性化的学习计划。想想就觉得很有意思!

除了游戏和教育,我认为远程协助也是个不错的方向。想象一下,一个专家在远程指导一个新手修理设备。专家可以通过新手佩戴的 XR 设备看到新手看到的内容,并且可以知道新手正在关注哪个区域。然后,FovealSeg 可以用来突出显示专家想要新手关注的区域,从而提高沟通效率,减少误解。

这个问题的确很关键!我觉得完全可以引入一个自适应调整机制。比如,可以根据用户的眼动追踪数据来动态估计用户的扫视频率,然后根据这个频率来调整 α 的大小。对于 β,可以根据场景的变化程度来调整,比如可以计算相邻帧之间的像素差异,如果差异很大,就说明场景发生了突变,需要调高 β 的值。