其他资讯文档

百度0.9B视觉识别模型实测：文档解析力超越Gemini与GPT

2026-06-03

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

百度发布文心衍生视觉识别模型PaddleOCR-VL-1 6，仅0 9B参数。在OmniDocBench评测中得分96 33%，超

6月2日，百度正式推出文心大模型衍生的视觉识别模型——PaddleOCR-VL-1.6。这一动作迅速引发行业热议，OCR赛道各厂商的竞争态势再度升级。

先看几组硬核数据。在权威文档解析能力评测集OmniDocBench v1.6上，PaddleOCR-VL-1.6总指标达到96.33%。它直接超越了Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等主流模型，综合性能排名第一。

此外，在覆盖真实复杂场景的Real5-OmniDocBench评测中，其总指标也达到93.19%，相比Gemini-3-Pro提升了近4个百分点。该评测涵盖扫描件、弯折文档、屏幕拍照、光照变化以及倾斜文档等五大高频痛点场景，这款模型在这些“硬骨头”面前展现了出色的稳定性。

从实测对比来看，与市面主流开源及闭源识别模型相比，PaddleOCR-VL-1.6在常规文字、数学公式、表格这三个核心识别维度上，综合表现明显更胜一筹。

值得关注的是，在表格解析、繁体古籍、冷僻用字等高难度场景中，相较上一代模型，识别效果实现了肉眼可见的提升。印章甄别、文字定位、图表信息提取等细分任务性能也同步优化，基本能够满足文档数字化落地过程中的各类实际需求。

目前，PaddleOCR-VL-1.6已在PaddleOCR官网正式上线，支持网页端直接调用，同时开放了API接口。模型代码与权重也已同步开源，开发者可直接从GitHub和Hugging Face拉取使用。

据文心团队介绍，PaddleOCR基于文心大模型训练，是其多模态能力的关键组成部分。该模型支持超过100种语言的识别，用户已覆盖全球170多个国家和地区。

本次发布的PaddleOCR-VL-1.6，是在上一代PaddleOCR-VL-1.5基础上的迭代升级。通过模型驱动的数据构建机制与渐进式训练优化，在保持0.9B轻量化架构的前提下，模型准确率与复杂场景适应能力再度提升。更关键的是，两代模型架构完全一致，开发者和企业用户无需额外适配，可实现平滑迁移，大幅降低部署成本。

回溯来看，百度在OCR领域的积累深厚。从PaddleOCR-VL到PaddleOCR-VL-1.6，模型的GitHub星数已突破79.2K，直接超越谷歌开源OCR项目Tesseract OCR。这一数字背后折射出坚实的社区认可度。

来源：互联网

上一篇 中国大模型评测：99.25%成功率登顶世界第一 下一篇 跻身Startup Battlefield二十强：参赛攻略与权益详解

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

百度0.9B视觉识别模型实测：文档解析力超越Gemini与GPT

摘要

相关文章推荐