Mistral 发布高性能 OCR API,实测表现优异但仍有提升空间

Mistral 发布高性能 OCR API,处理复杂文档表现优异,但仍有提升空间。

原文标题:千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷

原文作者:机器之心

冷月清谈:

法国大模型独角兽 Mistral AI 推出了名为 Mistral OCR 的光学字符识别 API,号称是“世界上最好的 OCR 模型”。该 API 以图像和 PDF 文件作为输入,能够提取文本、图像、表格、公式等多种元素,并以有序的格式输出。Mistral OCR 尤其擅长处理复杂的文档,例如包含图表、图形、公式和数字的科学论文,并支持多种语言。基准测试结果显示,Mistral OCR 在准确性、速度以及多语言支持方面均表现出色。此外,它还支持文档作为提示输入,并可进行结构化输出,方便与其他系统集成。同时,Mistral OCR 也提供自行托管选项,以满足对数据隐私有严格要求的组织。不过,Pulse AI 团队的测试表明,Mistral OCR 在处理复杂表格和法律文档时仍存在一些局限性,例如表格列错位、精度偏差、复选框检测缺失等问题。

怜星夜思:

1、Mistral OCR 目前在处理复杂表格和法律文档上存在一些问题,大家觉得未来哪些技术能够帮助提升 OCR 在这些方面的性能?
2、Mistral OCR 的速度非常快,每分钟可以处理2000多页,这对于实际应用场景来说意味着什么?
3、Mistral OCR 支持自行托管,这对于一些对数据安全敏感的行业来说有什么意义?

原文内容

机器之心报道
编辑:杜伟

法国大模型独角兽 Mistral AI 进军 OCR(光学字符识别)领域了。

一出手就是号称「世界上最好的 OCR 模型」!


新产品 Mistral OCR 是一种光学字符识别 API,它为文档理解树立了新标准。与其他模型不同,Mistral OCR 能够以前所未有的准确度和认知能力理解文档的每个元素(媒体、文本、表格、公式)。它以图像和 PDF 作为输入,并从有序交错的文本和图像中提取内容。

因此,Mistral OCR 称得上一种理想的模型,可以与以多模式文档(如幻灯片或复杂 PDF)作为输入的 RAG 系统结合使用。

从现在开始,Mistral OCR 功能可以在 Le Chat 上免费试用。Mistral AI 已经将它作为 le Chat 上数百万用户的默认文档理解模型,并以 1000 页 / 美元的价格发布了 API「mistral-ocr-latest」。目前,该 API 已经在开发者套件 la Plateforme 上提供,并将很快提供给 Mistral AI 的云和推理合作伙伴,同时可以有选择地本地部署。

对复杂文档实现 SOTA 理解

Mistral OCR 擅长理解复杂的文档元素,包括交错图像、数学表达式、表格和高级布局(如 LaTeX 格式)。该模型可以更深入地理解丰富的文档,尤其是包含图表、图形、公式和数字的科学论文。

比如 Alphafold 3 的 OCR 识别效果,从给定 PDF 中将文本、图像提取到 markdown 文档。

图片

下面将 PDF 和对应的 OCR 输出结果进行了并排比较。

比如数学公式:


比如阿拉伯文字:


基准测试成绩全方位第一

Mistral OCR 在严格的基准测试中始终优于其他领先的 OCR 模型,其在文档分析的多个方面都表现出色。Mistral AI 从文本文档中提取嵌入图像和文本,不过进行比较的其他 LLM 不具备此功能。

因此,为了公平比较,Mistral AI 在包含各种发表论文的内部「仅文本」测试集以及网络 PDF 上进行了性能测试。


支持原生多语言

自成立以来,Mistral AI 一直渴望用自己的模型服务全世界,因此努力在产品中实现多语言功能。

Mistral OCR 将这一目标提升到了一个新水平,能够解析、理解和转录各大洲的数千种脚本、字体和语言。对于需要处理来自不同语言背景的文档的全球组织以及服务小众市场的超本地化企业而言,这种通用性至关重要。

在「Fuzzy Match in Generation」(生成模糊匹配)指标比较中,Mistral OCR 获得了第一。


在各种语言的比较中,Mistral OCR 同样超越了 Azure OCR 和 Google Doc AI。


同类产品中速度最快

Mistral OCR 比同类产品中的大多数都更轻量,速度也明显快于它们,并且在单个节点上每分钟可以处理 2000 多页。这一快速处理文档的能力确保即使在高吞吐量环境中也能持续学习和改进。

文档即提示、结构化输出

Mistral OCR 还引入了使用文档作为提示的功能,从而实现了更强大、更精确的指令遵循。此功能允许用户从文档中提取特定信息并将其格式化为结构化输出,例如 JSON。用户还可以将提取的输出链接到下游函数调用和构建智能体中。

自行托管

最后,对于具有严格数据隐私要求的组织,Mistral OCR 提供了自行托管选项。这可确保敏感或机密信息在组织内部的基础设施内保持安全,从而符合监管和安全标准。

实测:Mistral OCR 很好,但也有局限

面对 Mistral AI 号称的「全球最好 OCR 模型」,Pulse AI 团队进行了一番测试,结论是:确实很好,但尚未完全为企业使用做好准备。

Mistral OCR 绝对超越了一些前沿 LLM,但在真实商业文档中出现了一些限制。

图源:https://x.com/ritvikpandey21/status/1897800421357588546

对于财务文档:Mistral OCR 难以处理复杂的表格,出现了 17% 的列错位、±1.5% 的精度偏差以及丢失了表示负值的关键括号。


对于法律文档:复选框检测基本不存在,部分层次结构丢失,多行表格单元格合并或切断。


正如 Mistral AI 博客中所说,他们正在收集用户的反馈,并希望未来几周 Mistral OCR 继续变得更好。

博客地址:https://mistral.ai/fr/news/mistral-ocr

参考链接:https://www.runpulse.com/blog/beyond-the-hype-real-world-tests-of-mistrals-ocr

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


速度快当然好,但也要看实际应用。如果只是识别少量文档,速度的提升可能感受不明显。但对于需要实时处理大量文档的场景,比如在线文档协同编辑、实时翻译等,Mistral OCR 的速度优势就非常明显了。可以带来更好的用户体验。

关于 Mistral OCR 的处理速度,我觉得这对于高吞吐量场景非常重要,例如大型企业的文件数字化、档案馆的文档处理等,可以大幅提升效率,节省时间和人力成本。

针对表格识别,我觉得强化学习可能是一个不错的方向。可以通过设计一些奖励机制,让模型学习如何更好地处理表格结构,比如如何识别单元格的合并、拆分等等。至于法律文档,可能需要结合一些专业的法律知识库,让模型更好地理解法律术语和逻辑。

就是说,有些公司的数据很敏感,不能随便上传到别人的服务器上。自行托管就解决了这个问题,让这些公司也能用上 Mistral OCR,不用担心数据安全问题。而且,自己管理也更灵活,想怎么用就怎么用。

针对“Mistral OCR 目前在处理复杂表格和法律文档上存在一些问题,大家觉得未来哪些技术能够帮助提升 OCR 在这些方面的性能?”这个问题,我觉得图神经网络 (GNN) 可能会有帮助。表格结构很适合用图来表示,GNN 可以捕捉单元格之间的关系,从而提高表格识别的准确率。

对于“Mistral OCR 支持自行托管,这对于一些对数据安全敏感的行业来说有什么意义?”这个问题,我觉得意义重大。一些行业,如金融、医疗等,对数据安全和隐私要求非常高。自行托管可以确保数据不离开自己的服务器,从而更好地控制数据安全,避免数据泄露的风险。

自行托管的好处在于可以根据自己的需求进行定制和优化。比如,可以根据自己的数据特点对模型进行微调,从而提高识别的准确率。还可以根据自己的安全策略配置服务器,进一步加强数据安全。

速度快意味着可以处理更多的数据,这对于模型的训练和迭代也很重要。更多的数据可以帮助模型更好地学习和泛化,从而提高识别的准确性和鲁棒性。说不定未来能解锁更多应用场景!

我觉得这个问题可以考虑结合布局理解和语义理解。现在的OCR很多时候只关注了字符本身,而忽略了文档的整体布局和语义信息。如果能够结合上下文信息进行分析,应该能更好地处理复杂表格和法律文档。