DeepSeek 发布 OCR 2 模型,采用基于 Qwen 的新架构

DeepSeek 发布 OCR 2,采用 DeepEncoder V2 方法,视觉编码更智能,模型、代码和技术报告已开源。

原文标题:DeepSeek 突发OCR 2,采用基于Qwen的新架构

原文作者:AI前线

冷月清谈:

DeepSeek 发布了新模型 DeepSeek-OCR 2,它采用了创新的 DeepEncoder V2 方法,模拟人类视觉编码逻辑,能够根据图像的含义动态重排图像的各个部分。与传统 OCR 体系不同,DeepSeek-OCR 2 将 OCR 视作一种视觉压缩问题,目标不是尽可能多地保留像素信息,而是将视觉内容压缩成更有利于语言模型理解的中间表示。DeepEncoder V2 引入了语义驱动的动态编码机制,模型会在编码阶段判断哪些区域更可能承载关键信息,并据此调整视觉 token 的分配与表达方式。目前,DeepSeek-OCR 2 的模型、代码和技术报告已同步开源。

怜星夜思:

1、DeepSeek-OCR 2 采用的“语义驱动的动态编码机制”具体是如何实现的?这种机制相比于传统的 OCR 方法有哪些优势和劣势?
2、DeepSeek-OCR 2 将 OCR 看作一种视觉压缩问题,这个思路有哪些潜在的应用场景?除了文字识别,还能应用到哪些领域?
3、DeepSeek-OCR 2 完全开源,这对 OCR 领域的发展会产生什么影响?会对其他厂商带来哪些挑战和机遇?

原文内容

左右滑动查看更多图片

阿里半夜刚发完旗舰模型,这边 DeepSeek坐不住了,突然发布更新了。
 
刚刚,DeepSeek 发布了 新模型 DeepSeek-OCR 2,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分,更接近人类的视觉编码逻辑。
 
如果说去年 10 月 DeepSeek-OCR 的发布,让行业第一次意识到“视觉压缩”可能是一条被严重低估的技术路线,那么现在,DeepSeek 显然决定把这条路走得更激进一些。
 
DeepSeek-OCR 2 有何不同?
 
在传统 OCR 体系中,无论是经典的字符检测—识别流水线,还是近年来多模态模型中的视觉编码模块,本质上都遵循同一种思路:对图像进行均匀、规则的扫描和编码,再将结果交给语言模型或后续模块处理。
 
这种方式的问题在于,它并不关心“哪些视觉区域真正重要”。
 
DeepSeek-OCR 1 之所以在当时引发讨论,正是因为它将 OCR 看作一种 视觉压缩问题:不是尽可能多地保留像素信息,而是将视觉内容压缩成更有利于语言模型理解的中间表示。
 
而在 DeepSeek-OCR 2 中,这一思路被进一步推进。
 
根据技术报告,DeepEncoder V2 不再将视觉编码视为一次静态的、固定策略的扫描过程,而是引入了语义驱动的动态编码机制。模型会在编码阶段就开始判断哪些区域更可能承载关键信息,并据此调整视觉 token 的分配与表达方式。
 
换句话说,视觉编码不再只是“预处理”,而是已经提前进入了“理解阶段”。
 
和 DeepSeek 过往几乎所有重要发布一样,这一次依然选择了模型、代码与技术报告同时开源。项目、论文和模型权重已同步上线:
 
项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2

论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

这个问题问到了点子上!我试着从我理解的角度来回答一下。DeepSeek-OCR 2 的核心在于它不是像传统 OCR 那样均匀扫描图像,而是让 AI 先“理解”图像,判断哪些区域包含关键信息,然后再有针对性地进行编码。具体实现可能涉及注意力机制、Transformer 结构等技术,让模型能够关注图像中重要的部分。这样做的好处是能大大提高效率,减少计算量,而且对于复杂背景下的小文字识别效果可能会更好。但是,这种方式也可能存在风险,如果模型对图像的“理解”出现偏差,就可能导致关键信息丢失,反而不如传统方法稳定。具体效果还需要进一步测试验证。

DeepSeek 这波开源确实是大手笔!对整个 OCR 领域来说,绝对是好事。这意味着更多的开发者可以参与到 DeepSeek-OCR 2 的研究和改进中来,加速技术的进步。也会有更多基于 DeepSeek-OCR 2 的应用涌现出来,推动 OCR 技术在各个领域的普及。当然,对其他厂商来说,既是挑战也是机遇。挑战在于,DeepSeek-OCR 2 的开源可能会降低 OCR 技术的门槛,让一些小厂商也能做出不错的产品,从而加剧市场竞争。机遇在于,其他厂商可以基于 DeepSeek-OCR 2 进行二次开发,打造出更具竞争力的产品,或者将 DeepSeek-OCR 2 集成到自己的产品中,提升产品的竞争力。

OCR 的本质是识别图像中的信息,视觉压缩的本质是提取图像中的关键信息。所以,任何需要从图像中提取信息的场景,都可以考虑借鉴 DeepSeek-OCR 2 的思路。比如,商品识别、人脸识别、场景识别等等。甚至可以把这个思路应用到语音识别领域,把语音信号看作一种“声觉图像”,然后进行压缩和提取关键信息。这样,也许就能解决语音识别中的一些难题,比如噪音干扰、口音差异等等。总之,想象力是无限的!

楼上说的应用场景很有启发性!我再补充一个。我觉得这个思路在内容审核领域也有很大的应用价值。现在很多平台都需要对用户上传的图片和视频进行审核,防止出现违规内容。如果采用传统的审核方法,需要对每一帧图像进行分析,计算量非常大。如果采用 DeepSeek-OCR 2 的思路,可以先对图像进行压缩,只保留关键的内容信息,然后再进行审核,就能大大提高审核效率。而且,这种方法还可以有效地防止恶意攻击,比如通过在图片中插入大量噪点来干扰审核系统,因为压缩过程会自动过滤掉这些噪点。

DeepSeek 这波操作确实有点意思!语义驱动的动态编码,听起来就很高大上。不过说白了,就是让 AI 更像人一样看东西,先找重点,再精细处理。这种方法在理论上肯定比传统方法更高效,但实际效果还得看模型的训练情况。如果训练数据不够好,或者模型设计得不够巧妙,可能还不如老老实实地用传统方法。不过,我个人还是比较看好这种新思路的,毕竟 AI 的发展方向就是越来越像人嘛!

将 OCR 视为视觉压缩问题,我觉得这个思路很妙!它不仅仅局限于文字识别,而是可以扩展到更广泛的图像处理领域。比如,在视频监控中,我们可以用类似的方法来压缩视频流,只保留关键的运动目标和事件信息,大大减少存储空间和传输带宽。在医学影像分析中,我们可以用来提取病灶区域的特征,辅助医生进行诊断。甚至在自动驾驶领域,也可以用来压缩传感器数据,提高系统的响应速度。总之,只要涉及到图像信息的提取和压缩,这个思路都有很大的应用潜力。

我觉得 DeepSeek-OCR 2 的开源,最大的影响在于它可能会改变 OCR 领域的竞争格局。以前,OCR 技术主要掌握在少数几家大厂商手中,他们可以通过技术垄断来获取高额利润。现在,DeepSeek 把它开源了,相当于把技术秘密公之于众,打破了技术垄断。这对于那些没有核心技术的厂商来说,无疑是一个巨大的打击。但对于那些有技术积累的厂商来说,却是一个难得的机遇。他们可以基于 DeepSeek-OCR 2 进行创新,打造出更优秀的产品,从而在市场竞争中占据更有利的位置。

开源!永远是推动技术进步的强大动力!DeepSeek 这一步棋走得漂亮!其他厂商肯定会认真研究 DeepSeek-OCR 2 的代码,学习其中的精华。然后,他们会结合自己的优势,进行创新,打造出更适应市场需求的产品。这样,整个 OCR 领域就会形成一种良性竞争的局面,最终受益的还是用户。当然,开源也可能会带来一些问题,比如代码的安全性、知识产权的保护等等。但总的来说,开源带来的好处远远大于坏处。我期待看到更多像 DeepSeek 这样的公司,加入到开源的行列中来,共同推动技术的进步!

楼上说的有道理,我补充一点。DeepSeek-OCR 2 的创新点在于它把视觉编码和语义理解结合起来了。传统的 OCR 流程是先编码再理解,容易丢失信息。而 DeepSeek-OCR 2 在编码阶段就考虑了语义信息,可以更好地保留关键信息。但这种方式的劣势也很明显,就是模型复杂度会大大提高,需要更多的训练数据和计算资源。而且,这种方式对于模型的鲁棒性提出了更高的要求,需要模型能够准确地识别各种场景下的关键信息,否则效果可能会适得其反。