news 2026/6/9 18:47:53

腾讯POINTS-Reader:高效中英文档图片转文本模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯POINTS-Reader:高效中英文档图片转文本模型

腾讯POINTS-Reader:高效中英文档图片转文本模型

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

腾讯混元实验室近日发布了全新的文档转换视觉语言模型POINTS-Reader,这是一款端到端的轻量级解决方案,能够直接将文档图片精准转换为文本,无需复杂的后处理流程。该模型在中英文场景下均表现出色,同时兼顾了高性能与部署效率,为企业和开发者提供了文档信息提取的新选择。

行业现状:文档理解技术迎来新突破

随着数字化转型的深入,企业和个人对文档信息提取的需求日益增长。传统OCR技术在处理复杂格式文档(如包含表格、公式、多语言混排的文档)时往往力不从心,而主流视觉语言模型(VLM)虽然能力更强,但普遍存在模型体积庞大、部署成本高、需要复杂后处理等问题。根据OmniDocBench等权威评测基准的数据显示,现有解决方案在中文文档处理上的平均错误率比英文高出30%以上,中文场景的精准识别仍是行业痛点。

在此背景下,轻量级、高精度、多语言支持的文档转换模型成为市场刚需。腾讯POINTS-Reader的推出,正是瞄准了这一技术缺口,通过创新的模型设计和训练策略,在保持精简结构的同时实现了性能突破。

产品亮点:四大核心优势重塑文档转换体验

POINTS-Reader作为腾讯混元系列的新成员,展现出四大显著优势:

极简架构与端到端设计

该模型采用高度精简的架构,完全遵循POINTS1.5的结构设计,仅将语言模型部分从Qwen2.5-7B-Instruct替换为更轻量的Qwen2.5-3B-Instruct。输入仅需固定提示词和文档图片,输出直接为最终文本结果,彻底消除了传统 pipeline 所需的复杂后处理步骤,大幅简化了集成流程。这种"输入即图片,输出即文本"的设计,使开发者能够以最低成本实现功能集成。

中英双语卓越性能

POINTS-Reader在权威评测集OmniDocBench上表现优异,英文任务获得0.133分,中文任务获得0.212分(注:该评测指标为越低越好),尤其在中文场景下超越了多数现有解决方案。模型不仅支持纯中文和纯英文文档,还能精准处理中英文混排内容,解决了跨国企业和学术场景中的多语言提取难题。在表格提取任务中,其英文TEDS指标达到83.7,中文达到85.0,显示出对结构化信息的强大理解能力。

高吞吐量与部署灵活性

为平衡性能与效率,POINTS-Reader选用600M参数的NaViT视觉编码器,配合30亿参数的语言模型,在保证识别精度的同时显著降低了计算负载。该模型已支持SGLang部署框架,可实现高并发处理,未来还将支持vLLM等主流推理框架。这种轻量化设计使模型在普通GPU设备上即可高效运行,大幅降低了企业的部署门槛。

开源创新的数据增强策略

腾讯开源了POINTS-Reader的核心技术方案,包括创新性的两阶段数据增强策略。第一阶段利用自动化数据赋予模型基础文档提取能力,第二阶段通过持续自进化提升模型生成数据的质量。这种自进化方法具有高度可扩展性,可应用于几乎任何模型的训练优化,为整个行业提供了宝贵的技术参考。该研究已被EMNLP 2025主会收录,彰显了其学术价值。

行业影响:推动文档智能处理进入新阶段

POINTS-Reader的推出将对多个行业产生深远影响:

在金融领域,银行和保险公司可利用该模型快速提取表单、合同中的关键信息,将处理效率提升50%以上;在教育行业,学术论文的公式和图表识别变得更加精准,助力文献分析和知识图谱构建;在企业办公场景,会议纪要、报告文档的数字化转换将实现全自动化,大幅降低人工成本。

特别值得注意的是,该模型的轻量化特性使其能够部署在边缘设备上,为移动办公、现场执法等场景提供实时文档识别能力。随着vLLM支持的即将推出,其吞吐量还将进一步提升,有望成为企业级文档处理的首选解决方案。

结论与前瞻

腾讯POINTS-Reader凭借精简架构、中英双语高精度、高吞吐量和开源技术策略,重新定义了文档图片转文本的技术标准。其"零后处理"的设计理念和优异性能,不仅解决了当前行业痛点,更为视觉语言模型在专业领域的应用提供了新范式。

未来,随着多语言支持的扩展(计划加入日文、韩文等东亚语言)和复杂文档处理能力的增强(如手写体识别、复杂版面分析),POINTS-Reader有望成为文档智能处理的基础设施,推动更多行业实现数字化转型。开源社区的参与也将加速模型迭代,我们期待看到基于这一技术的创新应用不断涌现。

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/8 19:17:55

终极Mac应用管理革命:Applite GUI工具深度解析

终极Mac应用管理革命:Applite GUI工具深度解析 【免费下载链接】Applite User-friendly GUI macOS application for Homebrew Casks 项目地址: https://gitcode.com/gh_mirrors/ap/Applite 还在为Mac上繁琐的软件安装和管理流程而头疼吗?复杂的终…

作者头像 李华
网站建设 2026/6/10 10:53:50

Source Han Serif CN开源字体:专业设计零成本快速入门指南

在当今数字化设计环境中,寻找一款既专业又免费的中文字体是许多设计师和开发者的共同需求。Source Han Serif CN作为Google与Adobe联合打造的开源字体解决方案,完美解决了这一行业痛点。这款基于SIL Open Font License 1.1许可证的字体,让用户…

作者头像 李华
网站建设 2026/6/10 10:53:17

luci-theme-argon深度解析:现代化路由器主题的终极进化指南

luci-theme-argon深度解析:现代化路由器主题的终极进化指南 【免费下载链接】luci-theme-argon Argon is a clean and tidy OpenWrt LuCI theme that allows users to customize their login interface with images or videos. It also supports automatic and manu…

作者头像 李华
网站建设 2026/6/10 10:53:47

Miniconda环境下如何查看已安装的Python包列表?

Miniconda环境下如何查看已安装的Python包列表? 在日常开发中,尤其是从事数据科学、人工智能或机器学习项目时,我们常常会遇到这样的问题:某个库明明“已经装了”,但在 Python 中却 import 失败;或者团队成…

作者头像 李华
网站建设 2026/6/10 10:55:38

鸣潮自动化助手:5个技巧让你的游戏效率翻倍

鸣潮自动化助手:5个技巧让你的游戏效率翻倍 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸上锁合成 自动肉鸽 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 还在为重复刷副本而…

作者头像 李华
网站建设 2026/6/9 22:13:39

百度ERNIE 4.5新开源:21B参数文本大模型深度解析

百度ERNIE 4.5新开源:21B参数文本大模型深度解析 【免费下载链接】ERNIE-4.5-21B-A3B-Base-Paddle 项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-21B-A3B-Base-Paddle 百度ERNIE系列再添新成员,ERNIE-4.5-21B-A3B-Base-Paddle文…

作者头像 李华