说明文档
DeepSeek-OCR 是由 DeepSeek-AI 开发的前沿视觉语言模型。它采用了创新的“视觉-文本压缩”范式,能将高分辨率的文档图像压缩为极精简的视觉 Token,实现从“看图识字”到“深度文档理解”的跨越。
核心亮点
- 创新的视觉压缩架构:采用 DeepEncoder(集成 SAM 局部感知与 CLIP 全局上下文)搭配 DeepSeek-3B-MoE 解码器。最高可实现 10x-20x 的 Token 压缩比,大幅降低长文档处理的推理开销。
- 极致的结构化提取:能够精准识别并还原复杂的文档元素,包括:
- 多级表格:自动转化为标准的 Markdown 或 HTML 格式,保留嵌套关系。
- 科学公式:完美解析复杂的数学公式与化学分子式(支持 SMILES 格式)。
- 几何图形:初步具备理解平面几何图表与示意图的能力。
- 百种语言原生支持:经过 3000 万页真实 PDF 数据训练,原生支持全球 100 多种语言,对中英文混合排版、手写体识别具有极高的稳健性。
- 多模态对齐精度:即使在极高压缩比下(如一整页压缩至 100-200 个 Token),依然能保持约 97% 的识别精度,完美解决传统 VLM 耗费 Token 过多的痛点。
核心功能
- 高保真文档转换:一键将扫描件、票据、报告转换为结构化的 Markdown,保留标题层级与列表。
- 多分辨率模式(Modes):提供从 Tiny(极速)到 Gundam(极致细节)的多种动态分辨率选项,适应从简单发票到复杂工程图纸的各类场景。
- 图表与数据解析:支持将各类统计图表直接提取为可编辑的数据表格。
- 长文档 RAG 优化:作为 RAG(检索增强生成)的前置工具,它能将文档转化为紧凑的视觉嵌入,极大提升向量检索的效率。
适用群体
- 企业数字化转型:需要海量处理合同、财报、档案等非结构化文档。
- 科研与学术人员:快速提取学术论文中的图表、公式,并将其数字化。
- RAG 应用开发者:寻找能将图像文档高效、低成本输入大模型的解决方案。
- 自动化办公达人:构建自动识别发票、整理笔记或解析多语言资料的流水线。

