DeepSeek-OCR 2:视觉编码的「语义推理」范式转变

DeepSeek 发布 OCR 2,引入 DeepEncoder V2 架构,实现视觉编码从「固定扫描」向「语义推理」的范式转变,并在多项测试中取得显著突破。

原文标题:刚刚,DeepSeek又探索新架构了,开源OCR 2

原文作者:机器之心

冷月清谈:

DeepSeek 发布了 DeepSeek-OCR 2,通过引入 DeepEncoder V2 架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变。DeepEncoder V2 的核心创新在于将原本基于 CLIP 的编码器替换为轻量级语言模型(Qwen2-500M),并引入了具有因果注意力机制的「因果流查询」,让 AI 具备了“人类的阅读逻辑”。

DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面,在 OmniDocBench v1.5 评测中,综合得分达到 91.09%,较前代提升了 3.73%。同时,在实际生产环境中,该模型显著降低了 OCR 识别结果的重复率。

DeepSeek-OCR 2 延续了 DeepSeek-OCR 的整体架构,由编码器(encoder) 和解码器(decoder) 组成。关键改进在于编码器部分,DeepSeek 将原有的 DeepEncoder 升级为 DeepEncoder V2,引入了因果推理能力。团队选用 OmniDocBench v1.5 作为主要评测基准,验证了 DeepSeek-OCR 2 的整体性能,尤其是 DeepEncoder V2 的有效性。结果表明,DeepSeek-OCR 2 在文本识别的编辑距离(ED)指标上,在大多数场景中优于 DeepSeek-OCR,但在某些类型上仍存在明显不足,例如报纸类文档。

怜星夜思:

1、DeepSeek-OCR 2 通过引入因果推理能力,让 AI 具备了“人类的阅读逻辑”,你认为这种“人类的阅读逻辑”在 OCR 任务中体现在哪些方面?
2、DeepSeek-OCR 2 在哪些实际应用场景中能够发挥重要作用?你认为它未来的发展方向是什么?
3、DeepSeek-OCR 2 在 OmniDocBench v1.5 评测中取得了领先性能,但同时在报纸类文档的识别上仍存在不足。你认为应该如何解决这个问题?

原文内容

图片
机器之心编辑部

嘿!刚刚,DeepSeek 又更新了!


这次是更新了十月份推出的 DeepSeek-OCR 模型(参见:)。


当时 DeepSeek-OCR 的出世,引起了大家对视觉压缩的关注与讨论,而这一次,DeepSeek 对视觉编码下手了。


可以说,刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!


当然,和 DeepSeek 几乎每次发布一样,这一次同样也是模型和技术报告齐开源。



  • 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2

  • 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

  • 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2


这项研究的三位作者分别是魏浩然、孙耀峰、李宇琨。


具体来说,该研究的核心创新在于将原本基于 CLIP 的编码器替换为轻量级语言模型(Qwen2-500M),并引入了具有因果注意力机制的「因果流查询


这种设计打破了传统模型必须按从左到右、从上到下的栅格顺序处理图像的限制,赋予了编码器根据图像语义动态重排视觉 Token 的能力。通过这种两级级联的 1D 因果推理结构(编码器重排与译码器解析),模型能够更精准地还原复杂文档(如带表格、公式和多栏布局)的自然阅读逻辑。


这就像是为机器装上了「人类的阅读逻辑」,让 AI 不再只是生搬硬套地扫描图像。对比之下,传统的 AI 就像一个死板的复印机,不管页面内容多复杂,都只能从左上角到右下角按行扫描。


在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面,这在同类模型中处于极低水平,显著降低了下游 LLM 的计算开销。


在 OmniDocBench v1.5 评测中,其综合得分达到 91.09%,较前代提升了 3.73%,特别是在阅读顺序识别方面表现出了更强的逻辑性。


此外,在实际生产环境中,该模型显著降低了 OCR 识别结果的重复率,并为未来构建统一的 omni-modal(全模态)编码器提供了可行路径。是的,未来同一个 AI「大脑」或许能用同样的方法去处理声音、视频等所有模态的数据,真正实现多模态的深度统一。


DeepSeek-OCR 2 架构


如图 3 所示,DeepSeek-OCR 2 延续了 DeepSeek-OCR 的整体架构,由编码器(encoder) 和解码器(decoder) 组成。编码器负责将图像离散化为视觉 token,而解码器则在这些视觉 token 与文本提示(text prompts)的条件约束下生成输出。



两者的关键区别在于编码器部分:DeepSeek 将原有的 DeepEncoder 升级为 DeepEncoder V2。在完整保留前代能力的基础上,DeepEncoder V2 通过一种全新的架构设计,引入了因果推理能力(causal reasoning)


DeepEncoder V2


DeepEncoder V2 的第一个组成部分是视觉分词器(vision tokenizer)。延续了 DeepEncoder 的设计,DeepSeek 采用了一种由参数规模为 8000 万的 SAM-base 与两层卷积层组成的架构。相比 DeepEncoder,DeepSeek 将最终卷积层的输出维度从 1024 降至 896,以与后续处理流程保持一致。


在 DeepEncoder 中,视觉分词器之后接入的是一个 CLIP ViT,用于进一步压缩和建模视觉语义。DeepEncoder V2 对这一组件进行了重新设计,将其改造为一种类 LLM 的架构,并引入了双流注意力机制(dual-stream attention)。


其中,视觉 token 采用双向注意力,以保留 CLIP 所具备的全局建模能力;而新引入的因果流查询(causal flow queries) 则使用因果注意力。这些可学习的查询 token 被作为后缀追加在视觉 token 之后,每个查询都可以关注所有视觉 token 以及其之前的查询 token。通过保持查询 token 与视觉 token 数量一致,该设计在不改变 token 总数的前提下,对视觉特征施加语义上的排序与蒸馏约束。最终,只有因果查询 token 的输出会被送入 LLM 解码器。


从整体上看,该架构实际上构建了一种两阶段级联的因果推理机制:首先,编码器通过可学习查询对视觉 token 进行语义重排;随后,LLM 解码器在这一有序序列之上执行自回归推理。与依赖位置编码施加刚性空间顺序的传统编码器不同,这种因果排序查询能够更自然地贴合连续的视觉语义,并与 LLM 的单向注意力模式高度一致。该设计有望在二维空间结构与一维因果语言建模之间搭建起一座桥梁。



为更直观地展示 DeepEncoder V2 的注意力机制,图 5 对其注意力掩码进行了可视化。该注意力掩码由两个相互区分的区域组成。


左侧区域对原始视觉 token 采用双向注意力机制(类似于 ViT),使任意 token 都可以与其他所有 token 建立可见性,从而实现完整的全局建模;右侧区域则针对因果流 token 使用因果注意力(三角形掩码,与纯解码器 LLM 完全一致),其中每个 token 只能关注其之前的 token。



DeepSeek-MoE Decoder


由于 DeepSeek-OCR 2 的改进重点主要集中在编码器 上,并未对解码器部分进行升级。遵循这一设计原则,模型继续沿用 DeepSeek-OCR 的解码器 —— 一个参数规模为 30 亿的 MoE 结构,其中约 5 亿参数在推理时处于激活状态。


训练数据与训练流程


在数据层面,DeepSeek-OCR 2 沿用了与 DeepSeek-OCR 相同的数据源,由 OCR 1.0、OCR 2.0 以及通用视觉数据组成,其中 OCR 数据占混合训练数据的 80%。同时引入了以下两项改进:


  • 针对 OCR 1.0 数据采用了更均衡的采样策略,并按内容类型(正文、公式和表格)以 3:1:1 的比例对页面进行划分;

  • 通过合并语义相似的类别(例如统一「插图说明」和「插图标题」)来优化布局检测的标签。


在训练阶段,DeepSeek-OCR 2 主要分为三个阶段来完成:(1)编码器预训练;(2)查询增强;(3)解码器专门化


其中第一阶段使视觉分词器(tokenizer)和 LLM 风格的编码器获得特征提取、token 压缩和 token 重排的基础能力。第二阶段进一步加强编码器的 token 重排能力,同时增强了视觉知识的压缩。第三阶段冻结编码器参数,仅优化解码器,从而在相同的 FLOPs 下实现更高的数据吞吐量。


接着来看细节。


首先是训练 DeepEncoder V2。遵循 DeepSeek-OCR 和 Vary 的方法,使用语言建模目标来训练 DeepEncoder V2,将编码器与轻量级解码器耦合,通过预测下一个 token 进行联合优化。采用了 768×768 和 1024×1024 两种分辨率的数据加载器。视觉分词器初始化自 DeepEncoder,LLM 风格的编码器则初始化自 Qwen2-0.5B-base。预训练完成后,仅保留编码器参数用于后续阶段。


本阶段使用 AdamW 优化器,学习率采用余弦退火,从 1e-4 降至 1e-6,在 160 台 A100 GPU(20 个节点 × 8 台 GPU)上以 640 的批大小训练 40k 次迭代(采用长度为 8K 的序列打包,约包含 1 亿个图文对样本)。


其次是查询增强。在 DeepEncoder V2 预训练之后,将其与 DeepSeek-3B-A500M 整合为最终的流水线。冻结视觉分词器(SAM-conv 结构),并联合优化 LLM 编码器和 LLM 解码器以增强查询表示。本阶段通过多裁剪策略将两种分辨率统一到单个数据加载器中。此外采用 4 阶段流水线并行:视觉分词器(PP0)、LLM 风格编码器(PP1)以及 DeepSeek-LLM 层(PP2-3 每阶段 6 层)。


本阶段利用 160 台 GPU(每台 40GB 显存),配置了 40 个数据并行副本(每个副本 4 台 GPU),过程中使用相同的优化器,以 1280 的全局批大小进行训练,学习率在 15k 次迭代中从 5e-5 退火至 1e-6。


最后是 LLM 持续训练。为了快速消耗训练数据,本阶段冻结 DeepEncoder V2 的所有参数,仅更新 DeepSeek-LLM 的参数。本阶段加速了训练(在相同全局批大小下,训练速度提升了一倍多),同时有助于 LLM 更好地理解 DeepEncoder V2 重排后的视觉 token。


承接第二阶段,本阶段进行了另一次学习率退火,从 1e-6 降至 5e-8,共训练 20k 次迭代。


评估结果


团队选用 OmniDocBench v1.5 作为主要评测基准,该基准包含 1355 页文档,覆盖中英文两种语言的 9 大主要类别,包括杂志、学术论文、研究报告等。凭借其多样化的测试样本与严格的评测标准,OmniDocBench 为验证 DeepSeek-OCR 2 的整体性能,尤其是 DeepEncoder V2 的有效性,提供了一个可靠有效的平台。


如表 1 所示,在使用最小视觉 token 上限(

)的情况下,DeepSeek-OCR 2 仍取得了 91.09% 的领先性能。与 DeepSeek-OCR 基线模型相比,在采用相似训练数据来源的前提下,其性能提升了 3.73%,验证了新设计架构的有效性。



此外,除了整体性能提升,阅读顺序(R-order)指标上的编辑距离(Edit Distance,ED)也显著下降,从 0.085 降至 0.057。这表明,新的 DeepEncoder V2 能够根据图像信息更有效地选择并排列初始视觉 token。


进一步如表 2 所示,在相同的视觉 token 预算(1120)条件下,DeepSeek-OCR 2 在文档解析任务中的 ED(0.100)低于 Gemini-3 Pro(0.115)。这进一步证明了新模型在保持高视觉 token 压缩率的同时,仍能确保更优的性能,并展现出极高的潜力。



改进空间


团队在 9 种文档类型上,对 DeepSeek-OCR 与 DeepSeek-OCR 2 进行了细致的性能对比,结果表明:DeepSeek-OCR 2 仍具有较大的提升空间,如表 3 所示。在文本识别的编辑距离(ED)指标上,DeepSeek-OCR 2 在大多数场景中优于 DeepSeek-OCR,但在某些类型上仍存在明显不足,例如报纸类文档,其 ED 超过 0.13。



团队认为主要原因有两点:


  • 视觉 token 上限较低,可能影响了文本极为密集的报纸类文档识别效果,这一问题可在未来通过增加局部裁剪(local crops)的数量来缓解;

  • 报纸类数据不足 —— 当前训练集中仅包含约 25 万条相关样本,这对于训练 DeepEncoder V2 来说仍然不够充分。


当然,在阅读顺序(R-order)这一指标上,DeepSeek-OCR 2 在所有类别中始终优于 DeepSeek-OCR,这进一步验证了所提出的「视觉因果流」编码器设计的有效性。


实际应用


DeepSeek-OCR 主要面向两类生产场景:一是为 DeepSeek-LLM 提供图像 / 文档读取能力的在线 OCR 服务,二是用于批量 PDF 处理的预训练数据流水线。在比较了 DeepSeek-OCR 2 与 DeepSeek-OCR 在真实生产环境中的表现后发现,由于生产环境中无法获得标准答案,因此团队主要采用「重复率」作为核心质量指标。


如表 4 所示,相比前代模型,DeepSeek-OCR 2 在实际可用性方面有了显著提升:在在线用户日志图像中,重复率从 6.25% 降至 4.17%;在 PDF 数据生产场景中,重复率从 3.69% 降至 2.88%。



这些结果进一步验证了 DeepSeek-OCR 2 架构的有效性,尤其体现了其在逻辑性视觉理解方面的优势。


更多详情信息,可阅读原文获取!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我比较关注在无障碍领域的应用。对于视障人士来说,阅读纸质文档一直是一个难题。如果能够将 DeepSeek-OCR 2 应用于相关设备或软件中,就可以帮助他们将纸质文档转化为语音或盲文,从而更方便地获取信息。

畅想一下,未来可以结合AI技术,开发出更加智能化的阅读辅助工具,为视障人士提供更好的阅读体验。

别忘了档案管理!现在很多单位的档案还是纸质的,查阅起来非常麻烦。如果用 DeepSeek-OCR 2 把这些档案都数字化了,那工作效率肯定能提高不少。而且,数字化后的档案也更容易保存和管理,不用担心纸质档案会损坏或者丢失。

当然,前提是要保证识别的准确率,不然就白费力气了。

可以尝试数据增强技术。由于报纸类数据相对较少,可以采用一些数据增强的方法来扩充数据集。例如,可以对现有的报纸类图像进行旋转、缩放、裁剪等操作,生成新的训练样本。此外,还可以使用GAN等技术,生成一些逼真的报纸类图像,从而提高模型的泛化能力。

我觉得最直接的方法就是砸钱

花钱去找更多报纸数据,然后用更大的模型去训练。虽然听起来很“暴力”,但往往是最有效的。毕竟,数据和算力是深度学习的两大支柱嘛!

当然,前提是资金充足。如果预算有限,还是得老老实实地搞数据增强和模型优化。

这个问题很有意思!我觉得“人类的阅读逻辑”在OCR任务中主要体现在两个方面:

1. 上下文理解: 人类在阅读时不是孤立地看待每个字或词,而是会结合上下文进行理解。例如,对于一篇包含复杂排版的文档,人类可以根据上下文推断正确的阅读顺序,而不会简单地从左到右、从上到下扫描。DeepSeek-OCR 2 的因果推理能力,使其能够像人类一样,根据上下文动态调整视觉Token的顺序,从而更准确地还原文档的阅读逻辑。
2. 容错性: 人类在阅读时具有一定的容错性,即使遇到一些模糊的字迹或排版错误,也能通过上下文推断出正确的内容。DeepSeek-OCR 2 通过引入轻量级语言模型,可以利用语言模型的知识,提高对模糊或错误的字符的识别能力,从而提高OCR的整体准确率。

总的来说,DeepSeek-OCR 2 的“人类的阅读逻辑”使其在处理复杂文档时具有更强的适应性和准确性,可以更好地满足实际应用的需求。

DeepSeek-OCR 2 这种高性能的OCR技术,想象空间很大啊!

我觉得在数字化转型中可以扮演重要角色。例如,它可以应用于古籍修复领域,将珍贵的古籍文献转化为可编辑的电子文本,方便研究和传播。此外,它还可以应用于金融、法律等领域,自动提取合同、报表等文档中的关键信息,提高工作效率。

至于未来的发展方向,个人认为主要有以下几个方面:

* 多语言支持: 进一步扩展对不同语言的支持,尤其是小语种和古文字。
* 多模态融合: 结合图像、语音等多种模态的信息,提高OCR的准确性和鲁棒性。
* 低资源部署: 降低模型对计算资源的需求,使其能够在移动设备或嵌入式系统中运行。

总而言之,DeepSeek-OCR 2 作为一款优秀的OCR技术,具有广阔的应用前景和发展潜力,未来可期!

谢邀,人在图书馆,刚下飞机。

我觉得所谓的“人类阅读逻辑”更像是一种模式识别能力。我们看到一段文字,不是单纯的识别每个字,而是会快速地在大脑中搜索相似的模式,然后结合上下文进行判断。比如看到一个模糊的字,我们会根据这个字的轮廓、周围的字以及句子的含义,来猜测它是什么字。

DeepSeek-OCR 2 的亮点在于,它能够像人类一样,根据图像的整体特征和上下文信息,对视觉Token进行重排和推理,从而更好地识别图像中的文字。这就像是给机器赋予了一种“直觉”,让它能够更快、更准确地理解图像中的信息。

楼上说得有道理,我补充一点个人的看法。

个人感觉体现在处理不规则排版的能力上。传统的OCR模型在处理格式规整的文本时表现尚可,但面对报纸、杂志等包含大量不规则排版的文档时,识别效果往往大打折扣,因为它们缺乏对文本结构和阅读顺序的理解。

而人类在阅读这些文档时,会根据标题、分段、图像等线索,自然而然地理解文章的结构和阅读顺序。DeepSeek-OCR 2 的因果推理能力,使其能够模拟人类的这种阅读方式,从而更准确地识别不规则排版的文档。

文章里其实已经提到一些方向了,我觉得可以结合起来考虑:

* 增加局部裁剪(local crops)的数量: 报纸类文档的文字密度通常较高,如果视觉Token的上限较低,可能会导致模型无法充分捕捉到每个文字的特征。通过增加局部裁剪的数量,可以提高模型对局部细节的感知能力,从而提高识别准确率。
* 扩充报纸类数据: 数据是深度学习的基石。增加报纸类数据的训练量,可以帮助模型更好地学习报纸类文档的特征,从而提高识别准确率。

除此之外,还可以考虑引入一些领域知识。例如,可以利用报纸的排版规则、新闻的写作风格等信息,来辅助模型进行识别。这就像是给模型提供了一些“先验知识”,让它能够更快、更准确地理解报纸类文档的内容。