AI 见闻
精选· 重要性 4/5

PaddleOCR 3.5.0发布:轻量级OCR工具包,支持100+语言,SOTA文档解析

GitHub Trending (AI repos)··PaddlePaddle·约 7 分钟阅读
Hacker News 81745
中文导读

PaddleOCR 3.5.0 发布,这是一个将 PDF 和图像转换为结构化数据的轻量级 OCR 工具包,支持 100+ 语言,其 VLM 模型在文档解析上达到 SOTA 精度,并深度集成 AI Agent 生态。

PaddleOCR 将 PDF 文档和图像转换为结构化的、可供 LLM 直接使用的数据(JSON/Markdown),具有行业领先的准确性。

拥有 70k+ Star,并受到 Dify、RAGFlow 和 Cherry Studio 等顶级项目的信赖,PaddleOCR 是构建智能 RAG 和 Agent 应用的基石。它将杂乱的视觉内容转换为 LLM 时代的结构化数据。

- SOTA 文档 VLM:配备 PaddleOCR-VL-1.6(0.9B),业界领先的轻量级文档解析视觉语言模型。

在 OmniDocBench v1.6 上达到 96.3% 的准确率,在文本、公式和表格识别方面处于领先地位,并在古籍、稀有字符、印章和图表方面表现出显著增强的能力,支持 Markdown 和 JSON 格式的结构化输出。

- 结构感知转换:由 PP-StructureV3 驱动,将复杂的 PDF 和图像无缝转换为 Markdown 或 JSON。与 PaddleOCR-VL 系列模型不同,它提供更细粒度的坐标信息,包括表格单元格坐标、文本坐标等。

- 生产就绪效率:以超小的体积实现商业级精度。在公开基准测试中优于众多闭源解决方案,同时保持边缘/云端部署的资源效率。是高速、多语言文本检测的全球黄金标准。- 支持 100+ 语言:原生识别海量全球语言。

我们的 PP-OCRv5 单模型解决方案优雅地处理多语言混合文档(中文、英文、日文、拼音等)。- 复杂元素掌握:除标准文本识别外,还支持在多种环境中检测自然场景文本,包括身份证、街景、书籍和工业组件。

- 性能飞跃:PP-OCRv5 相比之前版本准确率提升 13%,保持了 PaddleOCR 闻名的“极致效率”。- 无缝集成:AI Agent 生态系统的首选——与 Dify、RAGFlow、Pathway 和 Cherry Studio 深度集成。

- LLM 数据飞轮:构建高质量数据集的完整流水线,为微调大型语言模型提供可持续的“数据引擎”。- 一键部署:支持多种硬件后端(NVIDIA GPU、Intel CPU、昆仑芯 XPU 以及各类 AI 加速器)。

PaddleOCR-VL-1.6 亮点:- 新的 SOTA 准确率:在 OmniDocBench v1.6 上达到 96.3% 以上,同时在 OmniDocBench v1.5 和 Real5-OmniDocBench 上也创下新 SOTA,在文本、

公式和表格识别方面领先于开源和专有方案。- 全面能力升级:在表格、古籍和稀有字符识别方面显著改进,在多个场景中印章识别、检测和图表理解能力显著增强。- 无缝迁移:模型架构与 PaddleOCR-VL-1.5 完全一致,实现零成本适配——替换即可使用。

- 立即尝试:可在 HuggingFace 或我们的官方网站获取。2026.04.21:发布 PaddleOCR 3.5.0- 灵活的推理后端:在 Paddle 静态图、Paddle 动态图或 Transformers 之间无缝切换。

PaddleOCR 现已与 Hugging Face 生态系统深度集成,20 个主要模型支持 Transformers 作为推理后端。- Office 文档转 Markdown:将 Word、Excel 和 PowerPoint 等常见文档格式转换为 Markdown。

- 解析结果的 DOCX 导出:PaddleOCR-VL 系列、PP-StructureV3 和 PP-DocTranslation 现在支持将解析结果导出为 DOCX,方便在 Microsoft Word 中查看和编辑。

- 官方浏览器推理 SDK:发布 PaddleOCR.js,官方浏览器推理 SDK,支持直接在浏览器中运行 PP-OCRv5。

2026.01.29:发布 PaddleOCR 3.4.0- PaddleOCR-VL-1.5(SOTA 0.9B VLM):我们最新的文档解析旗舰模型现已上线!- OmniDocBench 上 94.5% 的准确率:超越顶级通用大模型和专用文档解析器。

- 真实世界鲁棒性:首次引入 PP-DocLayoutV3 算法用于不规则形状定位,掌握 5 个棘手场景:倾斜、扭曲、扫描、光照和屏幕拍摄。- 能力扩展:现在支持印章识别、文本检测,并扩展到 111 种语言(包括中国的藏文和孟加拉语)。

- 长文档掌握:支持自动跨页表格合并和分层标题识别。- 立即尝试:可在 HuggingFace 或我们的官方网站获取。2025.10.16:发布 PaddleOCR 3.3.0

发布 PaddleOCR-VL:

模型介绍:- PaddleOCR-VL 是一个为文档解析量身定制的 SOTA 且资源高效的模型。

其核心组件是 PaddleOCR-VL-0.9B,一个紧凑而强大的视觉语言模型(VLM),它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型集成,实现准确的元素识别。

这个创新模型高效支持 109 种语言,并擅长识别复杂元素(如文本、表格、公式和图表),同时保持最低的资源消耗。通过对广泛使用的公开基准和内部基准的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面都达到了 SOTA 性能。

它显著优于现有解决方案,与顶级 VLM 相比表现出强大的竞争力,并提供快速的推理速度。这些优势使其非常适合实际场景中的部署。该模型已在 HuggingFace 上发布。欢迎大家下载使用!更多介绍信息请参阅 PaddleOCR-VL。

核心特点:- 紧凑而强大的 VLM 架构:我们提出了一种新颖的视觉语言模型,专为资源高效推理而设计,在元素识别方面实现了出色性能。通过将 NaViT 风格的动态高分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型集成,我们显著增强了模型的识别能力和解码效率。

这种集成保持了高准确性,同时减少了计算需求,使其非常适合高效且实用的文档处理应用。- SOTA 文档解析性能:PaddleOCR-VL 在页面级文档解析和元素级识别方面都达到了最先进的性能。

它显著优于现有的基于流水线的解决方案,并在文档解析方面与领先的视觉语言模型(VLM)表现出强大的竞争力。此外,它擅长识别复杂的文档元素,如文本、表格、公式和图表,使其适用于各种具有挑战性的内容类型,包括手写文本和历史文档。

这使得它具有高度通用性,适合广泛的文档类型和场景。

- 多语言支持:PaddleOCR-VL 支持 109 种语言,涵盖全球主要语言,包括但不限于中文、英文、日文、拉丁文和韩文,以及具有不同文字和结构的语言,如俄语(西里尔字母)、阿拉伯语、印地语(天城文)和泰语。

这种广泛的语言覆盖极大地增强了我们的系统对多语言和全球化文档处理场景的适用性。

发布 PP-OCRv5 多语言识别模型:- 提高了拉丁字母识别的准确性和覆盖范围;增加了对西里尔字母、阿拉伯语、天城文、泰卢固语、泰米尔语等语言系统的支持,涵盖 109 种语言的识别。该模型仅有 2M 参数,部分模型的准确率较上一代提升了 40% 以上。

2025.08.21:发布 PaddleOCR 3.2.0

重要模型添加:- 引入了 PP-OCRv5 识别模型在英语、泰语和希腊语上的训练、推理和部署。与主要 PP-OCRv5 模型相比,PP-OCRv5 英语模型在英语场景中提升了 11%,且

相关阅读