腾讯POINTS-Reader：中英双语文档转文本新体验-编程阁

腾讯POINTS-Reader：中英双语文档转文本新体验

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader：端到端文档转换视觉语言模型，结构精简无需后处理。支持中英双语提取，OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量，已支持SGLang部署，vLLM支持即将推出。EMNLP 2025主会收录，开源两阶段数据增强策略，轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

腾讯混元实验室近日发布了全新的文档转换视觉语言模型POINTS-Reader，该模型以端到端的精简架构实现了文档图片到文本的直接转换，无需复杂后处理流程，特别优化了中英双语提取能力，在国际权威评测集OmniDocBench上取得英文0.133、中文0.212的优异成绩。

行业现状：文档理解技术迎来范式转变

随着数字化办公的深入推进，文档内容提取已成为企业和个人的核心需求。传统OCR技术往往依赖多模块串联（如文本检测、识别、版面分析等），不仅系统复杂且误差易累积。近年来，基于大语言模型的视觉语言模型（Vision-Language Model, VLM）逐渐成为主流，通过统一架构实现端到端文档理解，但现有方案普遍存在模型体积庞大、推理速度慢或对中文支持不足等问题。

市场研究显示，2024年全球文档智能处理市场规模已达127亿美元，其中多语言支持、结构化信息提取和处理效率是用户最关注的三大痛点。尤其在中文场景下，由于字体多样性、排版复杂性以及中英文混排普遍存在，对模型的语言理解和视觉感知能力提出了更高要求。

产品亮点：精简架构与高效性能的完美结合

POINTS-Reader在设计上展现了四大核心优势：

极致精简的端到端架构是该模型的显著特征。不同于多数文档理解系统需要额外的后处理步骤，POINTS-Reader直接输出最终文本结果，模型结构完全遵循POINTS1.5框架，仅将语言模型替换为更轻量的Qwen2.5-3B-Instruct，输入仅需固定提示词和文档图片，极大降低了部署复杂度。

卓越的中英双语处理能力使其在多语言场景中脱颖而出。在OmniDocBench评测中，该模型英文任务得分为0.133，中文任务达到0.212分（注：OmniDocBench采用编辑距离指标，分数越低表示性能越好），尤其在表格提取任务中，中文表格TEDS指标达到85.0，超越同类开源模型。这一表现得益于针对中文语境优化的训练数据和双语对齐机制。

兼顾精度与速度的吞吐量优化解决了文档处理的效率瓶颈。模型采用600M参数的NaViT视觉编码器，在保证识别精度的同时显著降低计算负载。配合SGLang推理框架支持，实现了高并发场景下的快速响应，后续还将推出vLLM支持，进一步提升大规模部署时的处理效率。

开源创新的数据增强策略为技术社区提供了可复用的解决方案。腾讯混元团队提出的两阶段数据增强方法：第一阶段利用自动化数据构建基础提取能力，第二阶段通过模型自进化持续提升数据质量。这种方法具有高度扩展性，已被EMNLP 2025主会收录，相关技术细节完全开源。

行业影响：多场景落地价值与技术启示

POINTS-Reader的推出将在多个领域产生深远影响。在企业级应用中，其高效的文档转换能力可直接应用于智能办公系统，如合同解析、报表数字化、档案管理等场景，据测算可使文档处理效率提升40%以上。对于开发者社区，开源的技术方案降低了多语言文档理解系统的构建门槛，尤其为中文NLP应用提供了高质量的基础模型。

从技术演进角度看，该模型验证了"中小参数模型+优化训练策略"的可行性。通过600M视觉编码器与3B语言模型的组合，在保持高性能的同时显著降低了资源消耗，为边缘设备部署提供了可能。这种"够用即好"的设计理念，或将成为未来特定任务模型开发的重要参考。