基于核感知图提示学习的少样本异常检测方法:KAG-prompt

KAG-prompt:一种基于核感知图提示学习的少样本异常检测新方法,通过捕捉跨层上下文信息提升异常检测准确性。

原文标题:【AAAI2025】核感知图提示学习用于少样本异常检测

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为KAG-prompt的少样本异常检测(FSAD)新方法,该方法发表于AAAI2025。KAG-prompt的核心在于构建一个核感知的分层图,图的节点是不同层的视觉特征(关注不同大小的异常区域),节点间的边则代表了特征之间的关系。通过在图上进行信息传递,KAG-prompt能够捕捉跨层上下文信息,从而提高异常检测的准确性。与现有FSAD方法相比,KAG-prompt更注重视觉特征中的内在上下文信息,而非仅仅依赖于文本提示与视觉特征的对齐。此外,KAG-prompt还提出了一种基于多级信息融合的全图评分方法,以整合预测图中的多个重要异常信号。在MVTecAD和VisA数据集上的实验结果表明,KAG-prompt在图像级和像素级异常检测任务中均取得了SOTA性能。

怜星夜思:

1、KAG-prompt 提到的『核感知』具体指什么?它在异常检测中起到了什么作用?
2、相比于传统的基于文本提示的FSAD方法,KAG-prompt有哪些优势?在实际应用中,这些优势会带来哪些好处?
3、KAG-prompt 提出的全图评分方法是如何整合多个异常信号的?这种方法的有效性如何?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

为了整合预测图中多个重要异常信号的信息,我们提出了一种基于多级信息融合的全图评分方法。


少样本异常检测(FSAD)旨在通过极少量来自同一类别的正常支持图像来检测未知的异常区域。现有的FSAD方法通常通过直接设计复杂的文本提示,将其与视觉特征对齐,来发现异常,且这些方法大多忽视了视觉特征中的内在上下文信息,例如不同视觉层之间的交互关系,而这些信息是全面检测异常的重要线索。为此,我们提出了一种核感知图提示学习框架,称为KAG-prompt,通过推理视觉特征之间的跨层关系来进行FSAD。具体来说,通过将关注不同大小异常区域的不同层特征作为节点,构建一个核感知的分层图,同时任意节点对之间的关系表示图的边。通过在该图上进行信息传递,KAG-prompt能够捕捉跨层上下文信息,从而提高异常预测的准确性。此外,为了整合预测图中多个重要异常信号的信息,我们提出了一种基于多级信息融合的全图评分方法。对MVTecAD和VisA数据集的广泛实验表明,KAG-prompt在图像级和像素级异常检测任务中均实现了最先进的FSAD结果。代码可在 https://github.com/CVL-hub/KAGprompt.git 获取。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


传统的FSAD方法主要依赖于文本提示和视觉特征的对齐,而KAG-prompt则更注重视觉特征内部的上下文信息,特别是跨层关系。这就好比传统的FSAD是根据文字描述去找图,而KAG-prompt是直接分析图的结构和内容来找异常,这样更直接有效。

“核感知”我理解的是指它关注的是不同大小的异常区域,并以这些区域的特征作为图的节点来构建关系。有点像CNN中不同大小的卷积核分别关注不同尺度的特征一样,KAG-prompt的“核”指的应该就是不同层的视觉特征,而“感知”指的是利用这些不同尺度的特征来构建图并进行信息传递。这样可以更好地捕捉不同尺度异常之间的关系,从而提高检测的准确性。

是不是可以理解为,KAG-prompt构建的图,它的节点并非简单的特征点,而是类似于卷积核感知到的区域,因此称为“核感知”?这样的话,图上的信息传递就相当于在不同尺度的感知区域之间进行信息交互,从而更好地理解异常的整体结构。

KAG-prompt的优势在于它能够捕捉更丰富的上下文信息,从而提高检测的准确性。在实际应用中,这意味着可以减少误报和漏报,例如在工业质检中,可以更准确地识别出产品缺陷,减少人工复检的工作量。

或许可以理解为,KAG-prompt通过图上的信息传递,将多个局部异常信号传播到整个图,最终得到一个反映全局异常情况的评分。这样可以避免只关注局部信息而忽略整体情况,从而提高检测的可靠性。

我感觉“核感知”像是指它考虑了不同层特征之间的关系,有点像是在寻找不同尺度异常的共同特征或关联。这可能有助于区分真正的异常和一些局部噪声,或者说更容易识别出那些由多个小异常组成的更大异常区域。

全图评分方法应该是将图中各个节点的异常信息进行聚合,可能是通过某种加权平均或者其他方式来实现的。这种方法的有效性可能取决于如何设计信息融合的策略,以及如何选择合适的权重。

文章中提到了“多级信息融合”,我猜测可能是将不同层级、不同尺度的异常信息进行整合,最终得到一个全图的异常评分。至于有效性,文章提到了在MVTecAD和VisA数据集上取得了SOTA结果,说明这种方法至少在实验数据上是有效的。

我觉得KAG-prompt的优势在于它不依赖于人工设计的文本提示,从而避免了主观因素的干扰。这在一些难以用文字描述异常特征的场景下尤为重要,例如在医学影像分析中,一些细微的异常可能很难用文字精确描述,而KAG-prompt可以自动学习这些特征。