AI幻觉助力图像分割:减少手动提示依赖,探索新优化框架

一篇新研究表明,人工智能(AI)中的“幻觉”现象可以转化为有用的信息,从而减少图像分割中对手动提示的依赖性。一种名为 ProMaC 的新框架创新地利用了这些“幻觉”来推理特定样本的分割提示,从而更准确地识别目标物体及其位置和形状。该方法在伪装样本检测和医学图像分割等复杂任务中表现出良好的性能,为图像分割技术的发展提供了新视角。

原文标题:幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

原文作者:机器之心

冷月清谈:

**图像分割中的'幻觉':从障碍到助力**

在人工智能领域,'幻觉'现象常被视为图像分割等精确任务中的挑战。然而,最新研究提出了一种创新视角:这些'幻觉'可以转变为有用的信息源,减少对手动提示的依赖。

**ProMaC框架:利用幻觉进行样本特有提示推理**

研究人员开发了ProMaC框架,利用大模型(如LLaVA)在预训练过程中产生的幻觉。该框架包含两部分:

1. **多尺度思维链提示:**从通用提示中推理样本特有提示,激发模型探索图像数据与相关任务的联系。
2. **掩码语义对齐:**将生成的掩码与任务语义对齐,消除共存偏差带来的负面影响,确保分割结果的准确性。

**循环优化,协同提升**

ProMaC采用循环优化机制,在多尺度思维链提示和掩码语义对齐之间交互迭代。通过这种方式,可以逐渐获取准确的掩码,验证幻觉带来的信息,并不断生成更优质的提示。

**实验结果**

研究在伪装动物检测和医学图像分割等具有挑战性的任务上进行了实验,证明了ProMaC框架的有效性。该框架可以准确识别目标对象,并判断其位置和形状,极大地提升了图像分割的性能。

**结论**

这项研究表明,AI幻觉不一定是有害的。通过ProMaC框架,我们可以利用这些幻觉来提取任务相关信息,优化图像分割任务。该研究为图像分割技术的发展提供了一个新思路,探索了模型推理和知识验证之间的协同作用。

怜星夜思:

1、幻觉在哪些场景下对图像分割有益?
2、ProMaC框架中的多尺度思维链提示如何工作的?其优势是什么?
3、从技术角度看,ProMaC框架与传统的图像分割方法相比,有何创新之处?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


作者胡健,是伦敦大学玛丽女王学院的博士生,导师是龚少刚教授,这篇文章是在龚少刚教授和严骏驰教授的指导下完成的。


在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。然而,最新发表于 NeurIPS 2024 的研究《Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation》提出了一个有趣的观点:这些幻觉实际上可以被转化为有用的信息源,从而减少对手动提示的依赖。



  • 文章链接:https://arxiv.org/abs/2408.15205

  • 代码链接:https://github.com/lwpyh/ProMaC_code

  • 项目网址:https://lwpyh.github.io/ProMaC/


这项研究由来自伦敦大学玛丽女王学院和上海交通大学的研究团队进行的,他们开发了名为 ProMaC 的框架,该框架创新性地利用了大模型在预训练过程中产生的幻觉。不仅能够准确识别图像中的目标对象,还能判断这些对象的具体位置和形状,这在伪装动物检测或医学图像分割等复杂任务中表现尤为出色。


研究动机


该研究专注于一种具有挑战性的任务:通用提示分割任务(task-generic promptable segmentation setting)。在这个框架下,该研究只提供一个任务内的通用提示来描述整个任务,而不会具体指明每张图片中需要分割的具体物体。例如,在伪装动物分割任务中,该研究仅提供 “camouflaged animal” 这样的任务描述,而不会告知不同图片中具体的动物名称。模型需要完成两项主要任务:首先,根据图片内容有效推理出具体需要分割的目标物体;其次,准确确定目标物体的具体位置和分割的形状。


尽管如 SAM 这类大型分割模型的存在,能够在提供较为精确的位置描述时有效地进行物体分割,但在伪装样本分割或医学图像分割等复杂任务中,获取这种精确描述并不容易。以往的研究,如 GenSAM [1],提出利用 LLaVA/BLIP2 这类多模态大模型(MLLMs)来推理出特定样本的分割提示,以指导分割过程。然而,这种方法在处理像伪装样本分割这样的场景时,往往因为目标共现偏差(object co-occasion bias)存在而导致问题。例如,在一个只有草原的图像中,如果训练数据中狮子通常与草原共现,LLaVA 可能会偏向于预测草原中存在伪装的狮子,即使图中实际上没有狮子。这种假设的偏好在伪装动物分割任务中尤其问题严重,因为它可能导致模型错误地识别出不存在的伪装动物。


图 1. co-occurrence prior 导致的 hallucination


但是这样的现象就一定是坏事吗?其实并不尽然。考虑到猎豹确实常出没于此类草原,尽管在特定图片中它们可能并未出现。这种所谓的 “幻觉”,其实是模型根据大规模数据训练得出的经验性常识。虽然这种推断与当前的例子不符,但它确实反映了现实世界中的常态。更进一步地说,这种由幻觉带来的常识可能有助于更深入地分析图片内容,发现与图片相关但不显而易见的信息。如果这些信息得到验证,它们可能有助于更有效地执行下游任务。


图 2. ProMaC 整体架构


实现方法


如图 2 所示,该研究提出了一个循环优化的 ProMaC 框架,它包括两部分:利用幻觉来从任务通用提示中推理出样本特有提示的 multi-scale chain of thought prompting 模块和将生成的掩码与任务语义相对齐的 mask semantic alignment 模块。前者推断出较为准确的样本特有提示来引导 SAM 进行分割,后者则将生成的掩码与任务语义进行对齐,对齐后的掩码又可以作为提示反向作用于第一个模块来验证利用幻觉得到的信息。通过循环优化来逐渐获得准确的掩码。


具体地,ProMaC 框架如图 3 所示:


图 3. ProMaC 流程图


多尺度思维链提示


它主要完成两个任务:收集尽可能多的任务相关候选知识,并生成准确的样本特有提示。为此,该研究将输入图像切割成不同尺度的图像块,每个图像块中任务相关对象的不同可见性水平激发了 MLLM 的幻觉。这促使模型在各个图像块中通过先验知识探索图像数据与相关任务之间的联系,进而预测潜在的边界框和目标物体

和背景名称:


图片


但其中只有正确的信息才值得保留。为此,该研究引入了视觉对比推理(Visual Contrastive Reasoning)模块。该模块首先使用图像编辑技术创建对比图像,这些对比图像通过去除上一次迭代中识别到的掩码部分,生成只包含与任务无关背景的图片。接着,通过将原图的输出预测值与背景图片的输出预测值相减,可以消除由物体共存偏差带来的负面影响,从而确认真正有效的样本特有提示。具体表达式如下:



掩码语义对齐


获得的样本特有提示将被送入掩码生成器来产生准确的掩码。首先,样本特有提示被输入到分割模块(SAM)以生成一个掩码。然而,SAM 缺乏语义理解能力,它主要依据给定的提示及其周围的纹理来识别可能要分割的物体。因此,该研究采用了 CLIP 来评估相同提示在不同图像块上生成的各个掩码与目标物体之间的语义相似性。这种方法有助于确保分割结果的准确性和相关性:


图片


图片


归一化后的相似度用作权重,以加权合成最终的掩码。这个掩码在下一次迭代中有助于生成更优质的背景图片,进而引导更有效的提示生成。这能充分利用幻觉来提取图片中与任务相关的信息,验证后生成更准确的提示。这样,更好的提示又能改善掩码的质量,形成一个互相促进的提升过程。


该研究在具有挑战性的任务 (e.g., 伪装动物检测,医学图像检测) 上进行了实验:


图 4. 伪装样本检测实验结果


图 5. 医学图像实验结果


图 6. 可视化案例


PromaC 提供了一个新视角,即幻觉不一定就是有害的,如果能加以利用,也是能为下游任务提供帮助。


[1] Hu J, Lin J, Gong S, et al. Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38 (11): 12511-12518.


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

其优势在于能够收集到更为丰富的候选知识,并通过视觉对比推理模块消除共存偏差带来的负面影响,从而生成更准确的样本特有提示。

它开创性地将人工智能幻觉融入图像分割流程,利用幻觉来提取与任务相关的信息,从而优化提示生成和掩码精细化。

它引入掩码语义对齐模块,将生成的掩码与任务语义对齐,有效消除共存偏差,确保分割结果的准确性和相关性。

多尺度思维链提示将图像切割成不同尺度的图像块,激发模型在不同尺度上探索图像,捕捉不同级别目标特征。

它提供了一种推理机制,使模型能够根据当前提示和图像块的局部信息逐步细化提示,提高提示质量。

当图像背景复杂,与目标物体存在共现关系,容易导致模型错误预测时。

它采用多尺度思维链提示和循环优化机制,能够自适应地推理样本特有提示,减少对手工提示的依赖,并提升分割准确性。

当医疗图像中病灶范围细微,需要综合全局信息推断时。它可以帮助模型将医学知识和数据分布相结合,进行更准确的诊断。

当图像中目标物体伪装得很好,难以通过手工特征直接识别时。