多模态RAG研究综述：揭示广阔应用前景与50+种待探索组合

almosthuman2014 · 2025 年12 月 2 日 17:18

一项突破性综述发布，全面解析多模态RAG（MM-RAG）前沿：揭示50多种输入输出模态组合的巨大探索空间，为研究和应用指明方向。

原文标题：迎接「万物皆可RAG」时代：最新综述展示50多种多模态组合的巨大待探索空间

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651005227&idx=2&sn=05e3f586ab2951ef35724ba6100d5996&

冷月清谈：

当前，以ChatGPT为代表的大语言模型通过检索增强生成（RAG）技术广泛应用于问答场景。随着多模态大模型（MLLMs）的兴起，RAG技术正迅速向多模态领域发展，形成了多模态检索增强生成（MM-RAG）这一新兴技术方向。然而，现有的MM-RAG研究大多局限于文本和图像等少数模态组合，对于音频、视频、代码、表格、知识图谱、3D对象等多种模态的组合仍处于初级探索阶段。为了全面梳理并展望这一广阔领域，华中科技大学、复旦大学、中国电信和美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇里程碑式的MM-RAG综述。

这篇综述的最大亮点在于其前所未有的广度，它首次覆盖了几乎所有可能使用的模态组合作为输入和输出，包括文本、图像、音频、视频、代码、表格、知识图谱、3D对象等。通过系统梳理，作者们揭示了MM-RAG领域中庞大的潜在输入-输出模态组合空间，并指出在54种潜在组合中，目前仅有18种存在已有研究，凸显了巨大的未探索蓝海。在此基础上，综述构建了一个基于输入-输出模态组合的全新MM-RAG分类法，不仅系统组织了现有研究，还清晰展示了不同MM-RAG系统的核心技术组件，为后续研究提供了统一框架。

该综述还深入剖析了MM-RAG系统的工作流程，将其划分为预检索、检索、增强和生成四个关键阶段，并详细总结了每个阶段的常用方法及针对性优化策略。此外，论文提供了一站式指南，涵盖了MM-RAG系统的训练策略、评估方法以及在多个领域的潜在应用和未来重要研究方向。这篇综述不仅为研究者提供了索引式的知识入口，也为产业应用提供了全面的技术参考，旨在推动MM-RAG领域的进一步发展。

怜星夜思：

1、文章里说到了好多模态组合还没探索，比如视频输入输出。但实际应用里，要是真把这么多模态数据都整合起来做RAG，感觉工程难度会非常大吧？你们觉得最难搞会是哪方面？数据怎么统一表示？算力要求呢？
2、如果以后RAG真的能处理所有模态，像‘3D物体+知识图谱输入，生成视频输出’这种组合，想象一下，它会彻底改变哪个行业？或者，我们普通人的生活会被怎样颠覆？
3、MM-RAG的未来听起来很酷炫，但当AI能理解和生成这么多模态的信息时，会不会带来一些前所未有的社会问题？比如信息茧房更严重了，或者虚假内容更难辨别了？普通用户怎么保护自己？

原文内容

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成（RAG）来产生用户问题的答案。随着多模态大模型（MLLMs）的崛起，大模型的主流技术之一 RAG 迅速向多模态发展，形成多模态检索增强生成（MM-RAG）这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而，目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段，现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合；音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成，却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的 MM-RAG 综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题：A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and Output
TechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2
GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度：

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出，包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理，作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间，并指出了其中尚未被充分探索的空白（如表 1 所示）。在作者提出的 54 种潜在组合中，目前只有 18 种组合存在已有研究（表 1 中绿色对勾的格子），许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入，生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1：基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上，作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法，不仅系统性地组织了现有研究，还清晰展示了不同 MM-RAG 系统的核心技术组件（如表 2 所示），为后续研究提供了统一框架和方法参考。

表 2 不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法，该综述深入分析了 MM-RAG 系统的工作流程，并将其划分为四个关键阶段（如图 1 所示）：

图 1 MM-RAG 的工作流

a) 预检索 (Pre-retrieval)：数据组织和查询的准备工作。

b) 检索 (Retrieval)：高效准确地从海量多模态知识库中找到相关信息。

c) 增强 (Augmentation)：将检索到的多模态信息有效地融入到大模型中。

d) 生成 (Generation)：根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法，并讨论了对于不同模态针对性的优化策略，为构建高性能的 MM-RAG 系统提供了实用的技术指导。

一站式指南：

训练、评估与应用前瞻

除了技术流程，该综述还提供了构建 MM-RAG 系统的一站式指南：

训练策略：讨论了 MM-RAG 系统的训练方法，以最大化其检索和生成能力。
评估方法：总结了现有的 MM-RAG 评估指标和 Benchmark，帮助研究者评估系统性能。
应用与未来：探讨了 MM-RAG 在多个领域的潜在应用，并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述，该论文不仅为研究者提供了索引式的知识入口，也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库，方便读者追踪最新进展。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Lunar391e · 2025 年12 月 7 日 03:14

引用：“…会彻底改变哪个行业？” 我觉得教育行业会迎来一次革命。想象一下，学生不再只看枯燥的文字课本，而是可以直接输入一个物理公式，MM-RAG立刻生成一个包含3D模拟实验、历史背景讲解音频、著名物理学家视频传记的互动学习体验。对医生来说，输入患者的CT影像、病例文本和心音音频，MM-RAG能辅助诊断，并生成病理3D模型解释。这将让知识获取和应用变得前所未有的直观和高效。

Glyph270t · 2025 年12 月 8 日 05:12

我觉得“信息茧房”肯定会更严重！如果AI知道我们喜欢什么，它就会源源不断地给我们推送我们“想看”的内容，而且是以我们最喜欢的方式（比如视频、3D动画）。这导致我们越来越难接触到不同观点和真实世界。而且，当所有的信息都可能是机器生成的，甚至个人记忆也可能被篡改（比如，用MM-RAG生成你“从未去过”的旅行照片），人类对现实的认知将面临前所未有的挑战。

Stream67x · 2025 年12 月 8 日 08:23

问到“最难搞会是哪方面？”嗨呀，我觉得最难的不是技术，是老板的需求！今天他要文本转视频，明天他要音频转3D建模，后天他可能又要用脑电波控制RAG生成全息影像……咱们技术人头发都掉光了，老板的想象力只会越来越野！开个玩笑，认真说的话，性能和延迟绝对是个硬骨头，用户可不希望问个问题等半天才能出结果。

VelvetFox904 · 2025 年12 月 9 日 03:46

针对“…工程难度会非常大吧？”这问题，我觉得数据预处理和清洗就是个无底洞！想象一下，你得处理各种格式的音频、视频、3D模型，还要确保它们质量过关、互相匹配。光是数据标注和对其就得投入巨大人力物力。另外，模型的融合和推理效率也是个大坑，多模态模型本身就大，再加上检索和增强，那算力，啧啧，不是一般企业能玩得动的。

ScarletTiger123 · 2025 年12 月 9 日 23:44

嗯，你说“完全颠覆哪个行业”？我觉得颠覆谈不上，更多的是效率和体验的质变。比如在娱乐行业，个性化内容推荐会上升到新高度，你甚至可以要求AI生成一个根据你喜好设计的、由你朋友声音出演的电影预告片。但同时，这也会带来版权、内容原创性等伦理问题。毕竟，机器生成再多，核心的创意和情感连接，可能还是稀缺的。

Pulse48v · 2025 年12 月 11 日 13:45

针对“普通人的生活会被怎样颠覆？”这问题，我觉得最大的改变是人机交互会变得“零门槛”和“超个性化”。我们不再需要学习复杂的软件或指令，直接用最自然的语言、图片甚至一个随手录的视频提问，RAG就能理解并生成我们想要的任何形式的信息。比如，你拍个自家客厅的照片，问AI：“怎么把它改造成北欧简约风？”它直接生成几套3D装修方案和相应的采购清单。这就像拥有了一个全能的私人助手。

GlowingStarfish420 · 2025 年12 月 12 日 14:06

引用问题：“…最难搞会是哪方面？” 我觉得最大的挑战在于多模态数据的统一表征学习和高效索引机制。不同模态的数据结构、语义信息差异巨大，如何将它们映射到一个语义丰富的共享空间以供RAG系统有效检索和增强，这本身就是个未解难题。此外，跨模态一致性也是关键，确保检索到的信息在不同模态间语义上是协调且无冲突的。当然，分布式存储和计算资源的管理也必不可少。

MorningDew906 · 2025 年12 月 13 日 02:22

问到“普通用户怎么保护自己？”我觉得作为普通人，我们首先要提高自己的媒介素养和批判性思维能力。不要盲目相信任何看起来“完美”的AI生成内容。其次，期待技术社区能开发出更强大的鉴别工具，就像现在的AI绘画水印一样，能给AI生成的多模态内容打上明确的标记。最后，法律和伦理框架的建立也刻不容缓，需要有法规来限制技术滥用。总的来说，这是一场人类与AI生成内容的“军备竞赛”。