DeepSeek 最新开源OCR模型，实测，不如百度

大家好，我是 Ai 学习的老章

DeepSeek-OCR

DeepSeek 最近发布了《DeepSeek-OCR：基于视觉压缩的大模型长上下文增强方案》这篇论文，同步开源了模型文件。

最近一段时间好像是迎来了 OCR 的黄金时代，百度的 PaddleOCR-VL、阿里 Qwen3-VL、小红书的 dots-ocr、Nanonets-OCR2 等等。

更早之前我也测试过一些，阅读不佳就没再继续

# 文档解析测试 PDF，欢迎挑战

# 实测，大模型 LaTeX 公式识别，出乎预料

# 大模型开发之文档处理（1）：PDF 转 Markdown 的 OCR 模型，本地部署，实测

# 大模型开发之文档处理 (2)—— 字节跳动文档图像解析模型 Dolphin，本地部署，实测

论文上看，DeepSeek-OCR有两个核心，一个是纯粹的 OCR，这是本文测试的重点。

另一个就是上下文光学压缩（Contexts Optical Compression），解决了大模型在长上下文处理上的算力瓶颈。这玩意我是看不太懂，只看到市面上几乎全部文章吹捧。

DeepSeek-OCR 不仅是 OCR 模型，通过视觉压缩实现“以小博大”，在长文本处理上突破了算力与精度的平衡，是大模型长上下文的一个解决方案，它让 AI 的“记忆”更像人类，或许正在打开通往下一代智能的钥匙。

再回到 OCR 方面，DeepSeek-OCR 表现不俗：

压缩比 ≤10 倍时，准确率 >95%，几乎无损。
ICDAR 2023 数据集：10 倍压缩下准确率 97.3%，速度 8.2 页/秒，显存仅 4.5GB。
对比 MinerU2.0（6000+ tokens/页，1.5 页/秒，12.8GB 显存），优势明显。
财报：286 页年报，表格还原率 95.7%，耗时 4 分钟（
论文：公式识别率 92.1%，LaTeX 可直接使用。
合同：批注关联率 89.5%，比 Tesseract 高 27%。

DepSeek-OCR 实测--公式

我没有本地部署，直接使用了 HF 上一个 Space，应该是用的 Gradio 开发的

https://huggingface.co/spaces/khang119966/DeepSeek-OCR-DEMO

测试样例取自我之前这篇文章：# 实测，大模型 LaTeX 公式识别，出乎预料

文中我测试几个大模型（Kimi、Qwen-3-235B-A22B、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro）在 latex 公式识别中的表现，测试从带公式的图片中识别出公式代码，有两个手写公式识别，难度不小。当时 DeepSeek 不是多模态，没有参与对比，本文刚好补上。

例 1:中高难度，模糊手写，数字是欧洲写法，比如 7 中间加了一横，其中有一个 8 写的极像 6