菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 百度0.9B视觉识别模型实测:文档解析力超越Gemini与GPT
其他资讯 文档

百度0.9B视觉识别模型实测:文档解析力超越Gemini与GPT

2026-06-03
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

百度发布文心衍生视觉识别模型PaddleOCR-VL-1 6,仅0 9B参数。在OmniDocBench评测中得分96 33%,超

6月2日,百度正式推出文心大模型衍生的视觉识别模型——PaddleOCR-VL-1.6。这一动作迅速引发行业热议,OCR赛道各厂商的竞争态势再度升级。

先看几组硬核数据。在权威文档解析能力评测集OmniDocBench v1.6上,PaddleOCR-VL-1.6总指标达到96.33%。它直接超越了Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等主流模型,综合性能排名第一。

此外,在覆盖真实复杂场景的Real5-OmniDocBench评测中,其总指标也达到93.19%,相比Gemini-3-Pro提升了近4个百分点。该评测涵盖扫描件、弯折文档、屏幕拍照、光照变化以及倾斜文档等五大高频痛点场景,这款模型在这些“硬骨头”面前展现了出色的稳定性。

从实测对比来看,与市面主流开源及闭源识别模型相比,PaddleOCR-VL-1.6在常规文字、数学公式、表格这三个核心识别维度上,综合表现明显更胜一筹。

值得关注的是,在表格解析、繁体古籍、冷僻用字等高难度场景中,相较上一代模型,识别效果实现了肉眼可见的提升。印章甄别、文字定位、图表信息提取等细分任务性能也同步优化,基本能够满足文档数字化落地过程中的各类实际需求。

目前,PaddleOCR-VL-1.6已在PaddleOCR官网正式上线,支持网页端直接调用,同时开放了API接口。模型代码与权重也已同步开源,开发者可直接从GitHub和Hugging Face拉取使用。

据文心团队介绍,PaddleOCR基于文心大模型训练,是其多模态能力的关键组成部分。该模型支持超过100种语言的识别,用户已覆盖全球170多个国家和地区。

本次发布的PaddleOCR-VL-1.6,是在上一代PaddleOCR-VL-1.5基础上的迭代升级。通过模型驱动的数据构建机制与渐进式训练优化,在保持0.9B轻量化架构的前提下,模型准确率与复杂场景适应能力再度提升。更关键的是,两代模型架构完全一致,开发者和企业用户无需额外适配,可实现平滑迁移,大幅降低部署成本。

回溯来看,百度在OCR领域的积累深厚。从PaddleOCR-VL到PaddleOCR-VL-1.6,模型的GitHub星数已突破79.2K,直接超越谷歌开源OCR项目Tesseract OCR。这一数字背后折射出坚实的社区认可度。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多