高效提示与偏好优化:半监督医学图像分割的SAM增强框架

提出了一种增强的SAM框架,利用无监督提示和偏好优化,在低标注数据下实现高效的医学图像分割,并在多种模态上取得先进性能。

原文标题:【CVPR2025】通过高效提示与偏好优化增强SAM,实现半监督医学图像分割

原文作者:数据派THU

冷月清谈:

本文介绍了一种增强的Segment Anything Model(SAM)框架,旨在解决医学图像分割中对大规模标注数据的依赖问题。该框架利用无监督方式生成标注高效提示,并通过对比语言-图像预训练和视觉问答捕捉语义、位置和形状信息。采用直接偏好优化技术,模拟人类标注过程,仅需简单的评分或排名即可生成高保真度的分割结果。该框架在肺部分割、乳腺肿瘤分割以及器官分割等任务中,在X射线、超声和腹部CT等多种模态上均表现出先进的性能,尤其在低标注数据场景中展现出高效性。

怜星夜思:

1、SAM模型在医学图像分割领域有哪些具体的优势?除了文中提到的肺部、乳腺和器官分割,你觉得SAM还能应用到哪些医学图像分析场景?
2、文中提到的“直接偏好优化”技术,通过模拟人类标注过程来优化模型,这种方法的核心思想是什么?在实际应用中,如何设计有效的“虚拟标注器”,使其能够准确反映人类的偏好?
3、本文强调了在“低标注数据场景”下的有效性。在实际的医学图像分析项目中,我们应该如何合理评估数据标注的成本和收益?在什么情况下,我们会选择使用这种半监督的SAM增强框架,而不是投入更多资源进行充分标注?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
仅需简单的评分或排名即可生成高保真度的分割结果。



基于基础模型的医学图像分割增强框架:高效提示与偏好优化
诸如Segment Anything Model(SAM)之类的基础模型在医学图像分割领域正逐渐受到关注,能够支持多种下游任务。然而,这些模型本质上是监督学习的,仍然依赖于大规模标注数据集或专家提供的提示。传统的技术(如主动学习)虽然旨在缓解这些限制,但其应用范围有限,且仍需持续的人工参与和复杂的领域知识来进行标签优化或建立奖励基准。为了应对这些挑战,我们提出了一种增强的Segment Anything Model(SAM)框架,该框架利用完全无监督方式生成的标注高效提示,同时通过对比语言-图像预训练和视觉问答捕捉关键的语义、位置和形状信息。我们采用直接偏好优化技术,设计了一种最优策略,使模型能够通过虚拟标注器模拟人类标注过程,仅需简单的评分或排名即可生成高保真度的分割结果。我们的框架在肺部分割、乳腺肿瘤分割以及器官分割等任务中,在X射线、超声和腹部CT等多种模态上均达到了最先进的性能,证明了其在低标注数据场景中的有效性。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


直接偏好优化本质上是一种模仿学习。设计“虚拟标注器”的核心在于尽可能贴近真实人类专家的偏好。一种比较直接的方法是构建一个评分系统,该系统结合了多个评价指标(如Dice系数、IoU等),并允许用户对这些指标的权重进行调整,以此来模拟不同专家的偏好。另一种更复杂的方法是训练一个偏好模型,输入是分割结果和原始图像,输出是该分割结果的得分,训练数据来自专家对不同分割结果的比较和排序。

评估标注成本收益,我觉得可以从两个方面入手:一是标注本身的花费,包括人力成本、时间成本等;二是标注质量,高质量的标注更贵,但能提升模型的性能。如果标注成本过高,而对分割精度要求不是特别高,或者已经有少量标注数据,这种半监督的SAM增强框架就比较划算。毕竟,能用更少的钱达到差不多的效果,谁不喜欢呢?

我认为评估标注成本收益需要考虑以下几个因素:1. 数据集的规模和复杂性;2. 标注的精度要求;3. 模型对标注数据的敏感程度。如果数据集规模大,但标注精度要求不高,而且模型对标注错误具有一定的鲁棒性,那么可能更适合采用半监督方法。反之,如果数据集规模小,但对精度要求极高(例如,用于精确放疗),则可能需要投入更多资源进行充分标注。决策的关键在于找到一个平衡点。

同意楼上的观点,SAM的泛化性确实是亮点。个人觉得SAM还可以扩展到三维医学图像分割,例如肿瘤体积测量、手术规划等等。不过,SAM在处理医学图像时,可能需要针对特定模态和器官进行微调,才能达到更好的分割效果。另外,对于罕见疾病或复杂病例,SAM能否有效处理也值得探讨。

SAM在医学图像分割上的优势,我觉得在于它的泛化能力和对提示的依赖性较低。这意味着即使在标注数据不足的情况下,也能通过少量的提示或者无监督的方式生成分割结果。除了文中提到的分割任务,像病灶检测、细胞计数、血管分割等任务应该也能有所作为。具体应用可能包括眼底图像的血管分割,或者病理切片的细胞核分割,这些都是数据标注成本很高的领域。

SAM在医学图像分割领域主要的优势在于其强大的zero-shot泛化能力和交互式分割的潜力。除了文中提到的应用,还可以考虑用于辅助放射科医生进行快速筛查,例如快速定位CT图像中的可疑结节。另一个潜在应用是辅助手术导航,在术中实时分割关键结构。

直接偏好优化的核心,我认为是用模型自己学习去模仿人类的判断标准,而不是直接喂给它标准答案。这个“虚拟标注器”的设计就非常关键,它需要能够区分好坏分割结果,并给出相应的评分或排名。可以考虑从医学专业人员那里收集一些分割结果的偏好数据,然后训练一个模型来模拟他们的偏好,或者使用一些已有的分割评价指标来作为“虚拟标注器”的规则。

除了直接的经济成本,还需要考虑标注的伦理成本和潜在的风险。例如,某些敏感医疗数据的标注可能涉及隐私问题。在评估时,可以尝试建立一个决策矩阵,横轴是数据标注量(少量、中等、充足),纵轴是项目风险(低、中、高),然后针对不同的象限,评估采用不同方法的潜在成本和收益。当标注成本高且风险高,而半监督方法能够提供可接受的性能时,就是一个合理的选择。

这个问题的关键在于如何定义和量化“人类偏好”。一个可能的方向是考虑使用集成学习,将多个分割算法的结果作为输入,然后通过一个学习到的偏好模型,对这些结果进行排序或评分。这个偏好模型可以学习专家标注的排序数据。另一个思路是借鉴强化学习中的奖励函数设计,通过一些先验知识(例如分割区域的形状、大小等)来构建奖励函数。