news 2026/4/16 12:38:23

魔乐上新 | PaddleOCR-VL-1.5发布问鼎双榜,0.9B小钢炮攻克“曲面”文档!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
魔乐上新 | PaddleOCR-VL-1.5发布问鼎双榜,0.9B小钢炮攻克“曲面”文档!

1月29日,百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构,在全球权威文档解析评测榜单OmniDocBench V1.5中取得全球综合性能SOTA,整体精度达到94.5%,不仅超过Gemini-3-Pro、Qwen3-VL-235B-A22B、GPT-5.2等模型,也超过了1月27日DeepSeek刚刚发布和开源的DeepSeek-OCR2模型。该模型创新性地支持了异形框定位,在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实场景中均表现优异。此外,模型还新增了印章识别与文本检测识别能力,关键指标持续领跑。

该模型已上线魔乐社区,欢迎开发者下载体验!

👉 地址:

魔乐社区modelers.cn/models/PaddlePaddle/PaddleOCR-VL-1.5

2025年,PaddleOCR发布了多个文字识别和文档解析模型工具,已经被业界广泛用于大模型训练数据和应用数据构建。其中仅0.9B的多模态文档解析模型PaddleOCR-VL凭借优异的产业级效果,至今稳居OmniDocBench官方榜首。与此同时,我们也收集到各行业对于PaddleOCR-VL的大量使用反馈,秉承快速响应、持续进化的理念,我们对用户关心的效果问题做了重要升级,正式推出PaddleOCR-VL-1.5。

PaddleOCR-VL-1.5不仅以94.5%精度大幅刷新了评测集OmniDocBench v1.5,更创新性地支持了异形框定位,在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实场景中均表现优异。此外,模型还新增了印章识别与文本检测识别能力,关键指标持续领跑。

PaddleOCR-VL-1.5已上线PaddleOCR官网(http://paddleocr.com),用户可通过网页或API方式快速使用。同时PaddleOCR-VL-1.5代码和模型已开源,欢迎下载使用,并可通过飞桨训练推理套件PaddleFormers与FastDeploy实现高效微调与全场景部署。

此外,PaddleOCR-VL-1.5已与昆仑芯、沐曦股份、天数、海光‌、昇腾、此芯科技、Intel、ARM、AMD等核心硬件厂商,以及百度智能云、国家超算互联网平台、硅基流动、九章智算云、魔搭社区、并行科技、Cherry Studio、Dify、Haystack、Novita AI 、PPIO、RAGFlow、Sophnet等平台伙伴持续集成,方便用户在不同硬件环境与平台应用中使用。

01 效果速览

1. 扫描场景

2.倾斜场景

3. 光线变化场景

4. 屏幕拍照场景

5. 弯折场景

02 核心指标

1. OmniDocBench v1.5指标

总指标94.5%,领跑全球顶尖开源闭源模型。

2. Real5-OmniDocBench指标

Real5-OmniDocBench是我们基于OmniDocBench v1.5自建的多场景文档解析评估集合,涵盖了扫描、弯折、屏幕拍照、光线变化、倾斜5大场景,PaddleOCR-VL-1.5总指标92.05%,全面领先,总指标领先第二名Gemini3 Pro近3个百分点。

03 核心升级点

1. 关键技术创新:创新性地支持异形框定位,多场景精度SOTA

技术的实用性往往在复杂环境下见真章。面对现实中因拍摄角度、纸张弯折或倾斜而形成的非矩形布局,传统的矩形框输出难以实现精准映射。为此,PaddleOCR-VL-1.5引入了多边形异型框定位技术。针对扫描、倾斜、光线变化、屏幕拍照、弯折五大典型挑战场景,模型能够更加细腻地贴合文本、表格与公式的实际轮廓,提供更高质量的位置输出,能够稳定服务于多样化的实际业务环境。这项能力助力了PaddleOCR-VL在多种真实场景的的精度实现SOTA性能。

2. 落地关键能力升级:新增文本行定位/识别与印章识别能力

在基础能力的持续打磨下,PaddleOCR-VL-1.5进一步新增了文本行定位与识别及印章识别两项核心能力。文档的结构化解析往往始于对文本行逻辑的精准捕捉,其坐标精度与内容质量是诸多行业下游应用链路中不可或缺的底层支撑。而针对业界普遍面临的印章识别难题,新版本通过专项优化,有效缓解了复杂干扰下的解析瓶颈,旨在为各领域文档处理的规模化落地扫清关键障碍。


文本行定位、识别能力


印章识别能力

3. 特殊场景及多语种识别能力精进

文档解析的广度则体现于对长尾场景的支持。针对特殊符号、古籍、多语种表格及带有下划线、复选框的复杂版面,PaddleOCR-VL-1.5进行了针对性的算法精进,使细微长尾元素的识别更具鲁棒性。同时,模型进一步扩展了语种支持边界,实现了对藏语与孟加拉语的解析。


特殊字符


特殊场景


多语种表格

4. 跨页表格自动合并与跨页段落标题识别支持

长文档的逻辑重构,核心在于消除物理分页带来的信息割裂。PaddleOCR-VL-1.5引入了跨页表格自动合并与跨页段落标题识别能力,旨在重建文档在空间跨度上的语义连贯性。通过精准识别并关联因分页而截断的表格与标题,模型有效解决了长篇幅解析中的断层现象。这种对文档全局结构的深度感知,不仅提升了信息的完整度,也为后续的语义理解与检索提供了更具逻辑一致性的数据支撑。


跨页表格合并

5. 推理速度持续提升

推理速度是企业部署模型时尤为关注的关键指标。依托于飞桨框架与FastDeploy端到端的深度优化,PaddleOCR-VL-1.5推理速度显著提升。在A100上以PDF文件进行测试时,模型每秒可处理1.43个文档页,较上一代PaddleOCR-VL提速17%,也明显优于业界同类文档解析模型。

(内容来源:飞桨PaddlePaddle)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:21:49

算法学习——素数筛法

素数:一个大于1的自然数,除了1和它本身以外不再有其他因数的数称为素数。合数:一个大于1的自然数,除了1和它本身以外还有其他因数的数称为合数。因数:整数a除以整数b(b≠0)的商正好是整数而没有余数&#x…

作者头像 李华
网站建设 2026/4/16 11:03:41

JEX强化基础结构,应对全球数字资产环境变化

近日,来自多方公开渠道的信息显示,JEX数字资产平台在既有上市规划基础上,对相关路径进行了阶段性结构优化与节奏调整。多位业内人士指出,此轮调整并非进程放缓,而是在当前全球数字资产环境复杂化背景下,对长…

作者头像 李华
网站建设 2026/4/16 11:08:41

多糖纯化干货指南

多糖是由醛糖或酮糖通过糖苷键连接而成的天然高分子多聚物,广泛存在于动物细胞膜、植物细胞壁及微生物细胞壁中,是构成生命体的重要分子基础。它不仅参与多种生命活动,还具备免疫调节、抗肿瘤、抗凝、降血糖等多种生物活性,在医药…

作者头像 李华
网站建设 2026/4/7 14:42:05

凝胶过滤层析

凝胶过滤层析(又称尺寸排阻层析 / SEC、分子筛层析)是生物大分子分离纯化的核心技术,核心逻辑是基于分子大小差异实现高效分离,广泛应用于蛋白、核酸、病毒等生物样品的脱盐、纯化与分析。 一、核心原理 凝胶过滤层析的核心是多…

作者头像 李华
网站建设 2026/3/27 22:34:58

5万吨/天工业废水除铜除镍达标技术:Tulsimer重金属螯合树脂应用实践

在工业废水深度处理领域&#xff0c;大水量与严苛排放指标的双重约束&#xff0c;是困扰众多工业园区的技术痛点。本文结合广东某大型工业园区水质净化厂实际项目&#xff0c;针对每日50000m工业废水、总镍<0.1mg/L、总铜<0.3mg/L的排放要求&#xff0c;详解以Tulsimer C…

作者头像 李华