WildDoc:揭示多模态大模型在真实场景文档理解中的短板

WildDoc数据集揭示现有MLLMs在真实场景文档理解中存在显著性能瓶颈,尤其是在物理扭曲方面,为模型优化提供了新方向。

原文标题:让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板

原文作者:机器之心

冷月清谈:

字节跳动联合华中科技大学推出了 WildDoc,这是一个真实世界场景文档理解的基准数据集,旨在评估多模态大模型(MLLMs)在复杂、真实的文档环境中的鲁棒性。该数据集包含超过 12,000 张手动拍摄的图像,涵盖文档、图表和表格三种类型,并模拟了光照不均、物理扭曲、拍摄视角多变、模糊和阴影等多种真实场景中的干扰因素。研究团队通过一致性评估指标,发现现有 MLLMs 在 WildDoc 上的性能相比传统基准测试显著下降,揭示了模型在真实场景中的性能瓶颈。实验结果表明,物理扭曲(如褶皱、弯曲)对模型性能影响最大。同时,增加语言模型规模并不能完全解决真实场景中的挑战,需要对模型架构进行针对性优化。WildDoc 的发布为未来的研究提供了关键基准和优化方向,推动文档理解研究向实用化和泛化性迈出关键一步。

怜星夜思:

1、WildDoc 数据集揭示了 MLLMs 在真实场景下的文档理解能力不足,那么除了文中提到的数据增强、鲁棒特征学习和引入真实数据之外,还有什么其他可能的改进方向吗?
2、文章提到物理扭曲是影响 MLLMs 性能的关键因素,那么在实际应用中,我们有哪些方法可以减轻物理扭曲对文档理解的影响?
3、WildDoc 数据集主要关注真实场景下的文档理解,那么在哪些实际应用场景中,提升 MLLMs 在 WildDoc 上的性能会带来显著的价值?

原文内容


本文的共同第一作者为字节跳动算法工程师王安澜和廖蕾,本文的通讯作者为字节跳动算法工程师唐景群。 

在文档理解领域,多模态大模型(MLLMs)正以惊人的速度进化。从基础文档图像识别到复杂文档理解,它们在扫描或数字文档基准测试(如 DocVQA、ChartQA)中表现出色,这似乎表明 MLLMs 已很好地解决了文档理解问题。然而,现有的文档理解基准存在两大核心缺陷


  • 脱离真实场景:现实中文档多为手机 / 相机拍摄的纸质文件或屏幕截图,面临光照不均、物理扭曲(褶皱 / 弯曲)、拍摄视角多变、模糊 / 阴影、对焦不准等复杂干扰;

  • 无法评估鲁棒性:现有基准未模拟真实环境的复杂性和多样性,导致模型在实际应用中表现存疑;



这些缺陷引出了一个关键疑问:当前 MLLMs 模型距离在自然环境中实现全面且鲁棒的文档理解能力到底还有多远?


为了揭开这个谜底,字节跳动 OCR 团队联合华中科技大学打造了 WildDoc—— 首个真实世界场景文档理解的基准数据集


WildDoc 选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素,且可与现有的电子基准数据集表现进行对比。


为了严格评估模型的鲁棒性,WildDoc 构建了一致性评估指标(Consistency Score)。实验发现主流 MLLMs 在 WildDoc 上性能显著下降,揭示了现有模型在真实场景文档理解的性能瓶颈,并为技术改进提供可验证的方向。本工作不仅填补了真实场景基准的空白,更推动文档理解研究向「实用化、泛化性」迈出关键一步。



  • 论文链接:https://arxiv.org/abs/2505.11015

  • 项目主页:https://bytedance.github.io/WildDoc/

  • Github:https://github.com/bytedance/WildDoc


WildDoc 数据构造与组成


WildDoc 数据包含超 1.2 万张手动采集的真实文档图像,模拟自然环境中的复杂挑战,并引入一致性分数指标,量化评估模型在跨场景下的鲁棒性。WildDoc 目前已开源全部 12K + 图像与 48K + 问答对,其构造过程如下:


1、数据采集:


  • 场景多样化:在自然环境(如户外、室内不同光照条件)中手动拍摄文档,确保覆盖环境、光照、视角等多维度干扰因素。

  • 基准对齐:复用现有基准的电子文档,通过物理打印后拍摄,保证与传统基准的可比性。


2、多条件拍摄:


  • 对同一文档进行四次拍摄,每次改变环境参数(如光照强度、拍摄角度、纸张扭曲程度),获取各种不同效果的对比样本。


3、标注与验证:


  • 对图像中的文本、布局等关键信息以及对于问题的可回答性进行人工验证,确保准确性。

  • 通过一致性分数计算,评估模型在不同条件下的稳定性,辅助筛选高质量数据。



实验结果


研究团队对众多具有代表性的 MLLMs 进行了测试,包括通用 MLLMs(如 Qwen2.5-VL、InternVL2.5)、专注文档理解的 MLLMs(如 Monkey、TextHarmony)和领先的闭源 MLLMs(如 GPT4o、Doubao-1.5-pro)。实验结果揭示了当前多模态大模型在真实场景下的诸多不足。



首先,现有 MLLMs 在 WildDoc 上的性能相比传统文档基准(如 DocVQA)测试大幅下降。例如,GPT-4o 平均准确率下降 35.3,ChartQA 子集下降达 56.4;开源模型 Qwen2.5-VL-72B 平均准确率 70.6,为开源最佳,但仍低于原始基准约 15%。目前最优的闭源模型为 Doubao-1.5-pro 表现最优(平均准确率 73.7%),但其一致性分数仅 55.0,这也意味着它在一半多的情况下都不能在不同条件下保持准确回答。这表明,当前 MLLMs 模型在面对真实场景的变化时,缺乏足够的稳定性和适应性。


实验结果揭示了在真实世界文档理解中 MLLMs 模型的表现,有以下几点发现:


  • 物理扭曲最具挑战性:皱纹、褶皱、弯曲等物理变形导致模型性能下降最显著(如 GPT-4o 下降 34.1-34.7),远超光照(-25.9)或视角(-26.2)变化的影响。

  • 非正面视角与图像质量:非正面拍摄(如倾斜视角)因文本形变和模糊导致性能下降(Qwen2.5-VL-72B 下降 17.6),但屏幕捕获图像因数据增强算法成熟,性能下降较小(-8.3 至 - 9.1)。

  • 语言模型规模影响有限:大参数量模型(如 72B 参数的 Qwen2.5-VL)在 WildDoc 上表现略优,但未完全克服真实场景挑战,表明模型架构需针对性优化。





另外,一些模型在原始基准测试上表现差异不大,甚至已经接近饱和,但在 WildDoc 上却出现了显著的性能差异。这说明传统基准测试已经难以区分模型的真实能力,而 WildDoc 则能更敏锐地捕捉到模型在真实场景下的不足。


未来之路:如何让 MLLMs 更好地理解真实世界的文档?


面对这些挑战,研究团队提出了几点改进策略,为未来的研究指明了方向。


  • 一是数据增强。通过更多的增强技术来模拟真实世界的条件,如变化的光照、阴影等,让模型在训练中接触到更多样化的场景,从而提高其适应能力。

  • 二是鲁棒特征学习。让模型学会提取对真实世界变化不敏感的特征,这样即使文档图像发生了一些变化,模型也能准确理解其内容。

  • 三是真实数据引入。收集更多的真实世界文档图像,丰富训练数据集,让模型在更多的「实战」中积累经验,提升性能。


WildDoc 数据集有效揭示了 MLLMs 在真实文档理解中的不足,为后续研究提供了关键基准和优化方向,更推动文档理解研究向「实用化、泛化性」迈出关键一步。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我想到一个比较有意思的应用场景:古籍修复! 很多古籍因为年代久远,已经破损严重,字迹模糊。 如果能用 MLLMs 来辅助修复古籍,自动识别残缺的文字,那简直是功德无量啊!

当然,这个任务的难度非常大,需要 MLLMs 具备很强的泛化能力和领域知识。

有没有可能从硬件层面入手?比如说,用更先进的传感器来获取更高质量的图像,或者针对文档理解任务,设计专门的加速芯片?

(纯属瞎猜,感觉现在 AI 发展太快了,软件硬件都得跟上才行啊!)

除了图像处理,感觉利用一些物理手段也很有帮助。 比如,在拍摄文档的时候,尽量使用三脚架,保证拍摄角度稳定。 或者,使用一些专业的文档扫描仪,这些设备通常具有自动矫正功能,能够有效地消除物理扭曲。

当然,如果文档是电子版的,那就最好不过了,直接避免了物理扭曲的问题。

我觉得除了数据集本身,是不是也可以考虑模型结构上的创新? 现在的大模型很多都是 Transformer 的变种,针对文档这种特定类型的输入,是不是可以设计更专门的网络结构? 比如,考虑到文档的 layout 信息,引入图神经网络来建模文档的结构关系?

另外,从另一个角度来看,现在的 MLLMs 训练方式往往是 end-to-end 的,直接从图像到答案。 是不是可以借鉴人类的认知过程,将文档理解拆解成几个子任务,例如版面分析、文本识别、信息抽取等,然后逐步完成?

我觉得在教育领域也很有潜力。 比如,学生可以用手机拍摄作业,然后 MLLMs 自动批改。 这样可以减轻老师的负担,让老师有更多的时间关注学生的个性化发展。

不过,这个应用也存在一些伦理问题,例如如何防止学生作弊? 需要认真考虑。

提升 MLLMs 在 WildDoc 上的性能,我觉得在以下几个实际应用场景中会带来显著的价值:

1. 移动办公: 现在越来越多的人使用手机进行移动办公,例如拍摄合同、报销单据等。如果 MLLMs 能够准确理解这些在复杂环境下拍摄的文档,就可以大大提高办公效率。

2. 金融领域: 金融领域涉及大量的纸质文档,例如银行账单、保险合同等。如果 MLLMs 能够自动处理这些文档,就可以减少人工审核的工作量,降低出错率。

3. 医疗领域: 医疗领域也存在大量的纸质病历、处方等。如果 MLLMs 能够准确识别这些文档,就可以帮助医生快速获取患者信息,提高诊疗效率。

4. 智能客服: 智能客服可以利用 MLLMs 理解用户上传的文档,例如身份证、营业执照等,从而更好地解决用户的问题。

要减轻物理扭曲的影响,我觉得可以从两个方面入手:一是前端预处理,二是模型优化。

前端预处理:

* 图像矫正:利用图像处理技术,对扭曲的文档图像进行矫正,使其尽可能恢复到原始状态。这方面已经有很多成熟的算法,例如基于透视变换的矫正、基于深度学习的矫正等。
* 图像增强:对图像进行增强,提高图像的清晰度,减少模糊和阴影的影响。常用的增强方法包括对比度增强、锐化、去噪等。

模型优化:

* 数据增强:在训练数据中加入更多扭曲的文档图像,让模型学习如何处理这些扭曲。可以使用各种图像变换技术来模拟不同的扭曲效果。
* 对抗训练:引入对抗训练机制,让模型对微小的输入扰动具有鲁棒性。这样即使文档图像存在轻微的扭曲,模型也能准确理解其内容。
* 注意力机制:设计更有效的注意力机制,让模型关注文档中重要的局部特征,忽略扭曲带来的干扰。

歪个楼,有没有可能开发一款 App,利用手机的陀螺仪和摄像头,自动检测文档的扭曲程度,然后通过算法进行实时矫正? 这样用户在拍摄文档的时候就不用担心扭曲的问题了,简直是神器!

(感觉这个 idea 可以值不少钱啊!)

针对这个问题,我认为可以考虑以下几个方向:

1. 注意力机制优化:目前的注意力机制可能没有很好地关注到文档中重要的局部特征,例如文本的边缘、图表的关键点等。可以尝试设计更精细的注意力机制,让模型更好地捕捉这些局部信息。

2. 引入先验知识:文档理解不仅仅是图像识别,还需要一定的领域知识。例如,表格中的数据类型、图表中的趋势分析等。可以考虑将这些先验知识融入到模型中,辅助模型更好地理解文档。

3. 多模态融合策略:目前的多模态融合策略可能比较简单,例如直接将图像特征和文本特征拼接在一起。可以尝试更复杂的融合策略,例如使用 cross-attention 机制,让不同的模态之间互相影响、互相补充。

4. 结合 OCR 技术:虽然 MLLMs 已经具备一定的 OCR 能力,但在复杂场景下可能还不够准确。可以考虑将专门的 OCR 技术与 MLLMs 结合起来,提高文本识别的准确率。