医学人工智能:自然语言基础模型在临床应用中的潜力与挑战

探索自然语言基础模型在医学中的潜力,聚焦CLIP和LLMs在临床任务中的应用,强调进一步研究以应对实际挑战。

原文标题:【MIT博士论文】医学人工智能中的自然语言基础模型

原文作者:数据派THU

冷月清谈:

本文探讨了自然语言基础模型(特别是CLIP和大语言模型LLMs)在医学领域中的应用。这些模型在处理医学知识和沟通方面展现出巨大潜力,尤其是在胸部X光解读、鉴别诊断、病史采集和临床管理等任务中。研究强调了在实际临床环境中评估和验证这些模型的必要性,以确保其安全有效。文章还概述了作者在博士期间进行的一系列研究,包括改进CLIP架构用于胸部X光解读,评估CLIP风格模型的可靠性和鲁棒性,以及开发对话式诊断AI(AMIE)并评估其诊断和管理推理能力。

怜星夜思:

1、大型语言模型(LLMs)在医疗领域展现出巨大的潜力,但是否存在过度依赖AI诊断可能导致医生临床技能下降的风险?我们应该如何平衡AI辅助和传统医学技能的培养?
2、AMIE在遗传性心血管疾病和乳腺肿瘤学这两个子专业领域的管理推理能力评估中,与全科医生相比表现如何?如果让你设计实验来评估AI在医疗决策中的辅助效应,你会如何设计?
3、文章提到了CLIP模型对“捷径学习”的鲁棒性评估,这在医学图像识别中意味着什么?我们应该如何防止AI模型在医学图像分析中“偷懒”,学到一些表面上的、不具有泛化能力的特征?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

本文旨在进一步增进我们对自然语言基础模型在医学中的潜力的集体理解,同时强调需要进行大量的进一步研究,以应对现实世界的挑战,并理解这些系统可以安全有效地实施的范围。


在过去的十年里,深度学习,特别是大语言模型(LLMs)的变革性崛起,激发了各个领域的专家深入思考人工智能(AI)如何革新他们的领域。在这段时间里,通用基础模型而非狭窄且高度专业化的任务特定系统,开始成为主流范式。在医疗健康领域,AI系统已经在多种实际应用场景中得到了广泛实施,尽管这些系统可能没有经过充分的评估和验证。事实上,它们在处理自然语言方面的卓越能力——自然语言在医学中是知识和沟通的关键媒介——表明这些现代基础模型在医疗领域中可能具有巨大的潜力。然而,仍然需要更好地研究和理解它们的优点、局限性和鲁棒性,特别是在更现实和临床相关的环境中。本文聚焦于两类关键的自然语言驱动的基础模型——对比语言图像预训练(CLIP)模型和大语言模型(LLMs)——并探讨这些模型如何编码和传递有用的临床知识,用于如胸部X光解读、鉴别诊断、病史采集和临床管理等任务。总体而言,本文旨在进一步增进我们对自然语言基础模型在医学中的潜力的集体理解,同时强调需要进行大量的进一步研究,以应对现实世界的挑战,并理解这些系统可以安全有效地实施的范围。
在第一章中,我提供了一些相关背景的概述,包括对比语言-图像预训练模型、大语言模型及其在医学领域的评估。在第二章中,我们通过在预训练过程中应用一种新颖的正则化技术,改进了CLIP架构,以用于胸部X光解读,并使用该模型进行胸部X光发现的零样本识别。在第三章中,我们考察了CLIP风格模型的可靠性。首先,我们评估了它们对捷径学习的鲁棒性,以理解文本自监督可能带来的保护效果。接着,我们探索了如何利用共形预测来控制零样本分类性能,并为这些CLIP风格模型预见兼容输入。在第四章中,我描述了Articulate Medical Intelligence Explorer(AMIE)的开发,这是一个经过模拟医学对话微调的对话诊断AI。我们在两项随机研究中评估了AMIE的诊断能力;首先是在具有挑战性的临床病理会议(CPC)案例中,其次是在虚拟文本基础的客观结构化临床考试(OSCE)中。在第五章中,我们探讨了AMIE在两个子专业领域的管理推理能力:遗传性心血管疾病和乳腺肿瘤学。在这些研究中,我们设计了特定领域的案例管理评估,并将AMIE的表现与在子专业评估下的全科医生进行比较,同时研究其潜在的辅助效应。

https://dspace.mit.edu/handle/1721.1/158802




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我觉得可以参考飞行员训练的模式。即使现在飞机自动化程度很高,飞行员仍然需要接受严格的手动飞行训练,以应对突发情况。医学教育也可以借鉴这种模式,让医生在AI的辅助下进行诊断,但同时也要定期进行不依赖AI的独立诊断训练,保持临床技能的敏感性和准确性。此外,还可以建立AI诊断的“黑匣子”机制,对AI的诊断过程进行追踪和分析,及时发现和纠正错误。

文章中提到AMIE的表现与全科医生进行了比较研究,但没有给出具体的比较结果。要评估AI在医疗决策中的辅助效应,可以设计一个对照实验。首先,选择一组医生,随机分成两组:实验组和对照组。实验组的医生在AI的辅助下进行诊断和治疗决策,对照组的医生则完全依靠传统方法。然后,比较两组医生在诊断准确率、治疗效果、患者满意度等方面的差异。此外,还可以收集医生使用AI的反馈意见,了解AI的优点和不足,为进一步改进提供参考。

我觉得可以引入多学科协作的视角。医疗决策往往不是一个人的事情,而是需要医生、护士、药剂师等多个专业人员共同参与。可以设计一个模拟的医疗场景,让不同的专业人员在AI的辅助下进行协作,观察AI如何促进沟通和协调,提高团队整体的决策效率。还可以评估AI在不同专业人员中的接受程度和使用习惯,了解AI在多学科协作中的潜在影响。

除了比较最终结果,更重要的是了解AI如何影响医生的决策过程。可以采用眼动追踪技术,记录医生在使用AI时关注的区域和信息;或者采用Think Aloud Protocol,让医生在进行决策时大声说出自己的思考过程。这样可以更深入地了解AI如何影响医生的判断,以及医生如何与AI进行互动。此外,还可以设计一些特殊病例,比如包含一些模棱两可的信息,或者存在一些常见的认知偏差,观察AI是否能够帮助医生克服这些挑战。

“捷径学习”在医学图像识别中意味着AI模型可能没有真正理解图像中的病理特征,而是通过一些无关紧要的线索(比如图像的拍摄角度、设备类型等)来进行判断。这就像学生考试作弊一样,虽然得到了正确答案,但并没有真正掌握知识。为了防止这种情况,可以采用数据增强技术,增加训练数据的多样性,让模型无法依赖单一的线索。此外,还可以使用对抗训练,生成一些干扰样本,让模型更加鲁棒。

我想到一个例子,之前有研究发现,AI模型在识别皮肤癌时,会关注图像中是否有尺子。因为很多皮肤癌的图像都带有尺子,而尺子本身与皮肤癌无关。这说明AI模型很容易学到一些虚假的关联。为了解决这个问题,可以采用因果推断方法,分析图像中哪些因素是导致疾病的真正原因,哪些因素只是相关关系。这样可以帮助模型更好地理解疾病的本质,而不是被表面现象所迷惑。

与其说是“偷懒”,不如说是AI模型在追求利益最大化。模型的目标是尽可能提高预测准确率,如果存在一些更容易学习的捷径,模型自然会选择捷径。为了避免这种情况,需要重新定义模型的优化目标,比如增加一些正则化项,惩罚模型学习到的复杂特征。此外,还可以使用可解释性方法,分析模型关注的区域和特征,确保模型关注的是与疾病相关的区域。

从历史发展来看,任何新技术的引入都会对传统技能产生影响,关键在于如何适应和利用新技术。与其担心技能下降,不如思考如何利用AI提升医生的能力。例如,AI可以处理大量数据,帮助医生发现隐藏的模式和关联,从而做出更明智的决策。同时,医生需要学习如何评估AI的建议,识别潜在的偏见和错误。这需要医学教育进行改革,培养医生的人工智能素养。此外,法律法规也应该跟上,明确AI在医疗领域的责任和义务。

这是一个非常重要的问题!过度依赖AI确实可能导致医生临床技能的下降。我们需要探索AI与传统医学结合的最佳方式。一方面,AI可以作为辅助工具,帮助医生更快更准确地做出诊断,但另一方面,我们也要加强医生的基本功训练,培养他们的独立思考和判断能力。比如说,可以定期进行病例分析讨论,鼓励医生之间互相学习,共同提高。总之,AI不是替代品,而是增强剂,关键在于如何正确使用它。