news 2026/6/11 22:23:13

腾讯POINTS-Reader:中英双语文档转文本新体验

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯POINTS-Reader:中英双语文档转文本新体验

腾讯POINTS-Reader:中英双语文档转文本新体验

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

腾讯混元实验室近日发布了全新的文档转换视觉语言模型POINTS-Reader,该模型以端到端的精简架构实现了文档图片到文本的直接转换,无需复杂后处理流程,特别优化了中英双语提取能力,在国际权威评测集OmniDocBench上取得英文0.133、中文0.212的优异成绩。

行业现状:文档理解技术迎来范式转变

随着数字化办公的深入推进,文档内容提取已成为企业和个人的核心需求。传统OCR技术往往依赖多模块串联(如文本检测、识别、版面分析等),不仅系统复杂且误差易累积。近年来,基于大语言模型的视觉语言模型(Vision-Language Model, VLM)逐渐成为主流,通过统一架构实现端到端文档理解,但现有方案普遍存在模型体积庞大、推理速度慢或对中文支持不足等问题。

市场研究显示,2024年全球文档智能处理市场规模已达127亿美元,其中多语言支持、结构化信息提取和处理效率是用户最关注的三大痛点。尤其在中文场景下,由于字体多样性、排版复杂性以及中英文混排普遍存在,对模型的语言理解和视觉感知能力提出了更高要求。

产品亮点:精简架构与高效性能的完美结合

POINTS-Reader在设计上展现了四大核心优势:

极致精简的端到端架构是该模型的显著特征。不同于多数文档理解系统需要额外的后处理步骤,POINTS-Reader直接输出最终文本结果,模型结构完全遵循POINTS1.5框架,仅将语言模型替换为更轻量的Qwen2.5-3B-Instruct,输入仅需固定提示词和文档图片,极大降低了部署复杂度。

卓越的中英双语处理能力使其在多语言场景中脱颖而出。在OmniDocBench评测中,该模型英文任务得分为0.133,中文任务达到0.212分(注:OmniDocBench采用编辑距离指标,分数越低表示性能越好),尤其在表格提取任务中,中文表格TEDS指标达到85.0,超越同类开源模型。这一表现得益于针对中文语境优化的训练数据和双语对齐机制。

兼顾精度与速度的吞吐量优化解决了文档处理的效率瓶颈。模型采用600M参数的NaViT视觉编码器,在保证识别精度的同时显著降低计算负载。配合SGLang推理框架支持,实现了高并发场景下的快速响应,后续还将推出vLLM支持,进一步提升大规模部署时的处理效率。

开源创新的数据增强策略为技术社区提供了可复用的解决方案。腾讯混元团队提出的两阶段数据增强方法:第一阶段利用自动化数据构建基础提取能力,第二阶段通过模型自进化持续提升数据质量。这种方法具有高度扩展性,已被EMNLP 2025主会收录,相关技术细节完全开源。

行业影响:多场景落地价值与技术启示

POINTS-Reader的推出将在多个领域产生深远影响。在企业级应用中,其高效的文档转换能力可直接应用于智能办公系统,如合同解析、报表数字化、档案管理等场景,据测算可使文档处理效率提升40%以上。对于开发者社区,开源的技术方案降低了多语言文档理解系统的构建门槛,尤其为中文NLP应用提供了高质量的基础模型。

从技术演进角度看,该模型验证了"中小参数模型+优化训练策略"的可行性。通过600M视觉编码器与3B语言模型的组合,在保持高性能的同时显著降低了资源消耗,为边缘设备部署提供了可能。这种"够用即好"的设计理念,或将成为未来特定任务模型开发的重要参考。

前瞻:文档智能的下一代演进方向

随着POINTS-Reader的开源发布,腾讯混元实验室计划持续优化模型能力,包括支持更复杂的文档布局(如报纸、多栏排版)、提升手写体识别准确率,以及扩展多语言支持范围。技术路线图显示,团队正在研发基于用户反馈的持续进化机制,使模型能根据实际应用场景动态提升特定领域的处理能力。

在AIGC与文档理解融合的趋势下,POINTS-Reader未来可能拓展至"理解-创作"全流程,例如基于提取的文档内容自动生成摘要、分析报告或可视化图表。这种端到端的文档智能处理能力,有望彻底改变传统的信息处理方式,为用户带来从"看文档"到"用文档"的体验升级。

作为腾讯混元大模型体系的重要组成部分,POINTS-Reader的推出进一步完善了从基础模型到垂直应用的技术布局,展现了中国团队在多模态智能领域的创新实力。

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 22:04:58

腾讯混元7B大模型震撼发布:256K长文本+GQA技术,性能领先!

腾讯正式发布新一代高性能中文7B大模型Hunyuan-7B-Pretrain-0124,凭借256K超长文本处理能力与GQA(Grouped Query Attention)技术革新,在多项权威测评中刷新同量级模型性能纪录,为开发者与研究者提供兼具算力效率与卓越…

作者头像 李华
网站建设 2026/6/12 15:35:22

Dify平台是否支持接入CosyVoice3?低代码集成可能性探讨

Dify平台是否支持接入CosyVoice3?低代码集成可能性探讨 在生成式AI加速落地的今天,企业对“开箱即用”的语音能力需求正急剧上升。一个典型场景是:某电商公司希望为旗下多个直播间配置风格统一、音色固定的虚拟主播,但团队中并无语…

作者头像 李华
网站建设 2026/6/10 17:34:27

Altium Designer设计规则检查(DRC)中线宽电流配置详解

如何在Altium Designer中科学设置大电流走线规则?从物理原理到DRC实战你有没有遇到过这样的情况:PCB打样回来,烧板子的第一锅就出在电源线上——铜箔发黑、走线断裂,而万用表一查,线路“断得干干净净”?别急…

作者头像 李华
网站建设 2026/6/10 19:12:52

LFM2-1.2B-GGUF:高效边缘AI部署新选择

LFM2-1.2B-GGUF:高效边缘AI部署新选择 【免费下载链接】LFM2-1.2B-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-1.2B-GGUF 导语:Liquid AI推出的LFM2-1.2B-GGUF模型,作为新一代混合模型,以其在质量、…

作者头像 李华
网站建设 2026/6/10 16:05:28

参加AI展会设展:在世界人工智能大会展示CosyVoice3成果

在世界人工智能大会展示 CosyVoice3:让声音真正“有温度” 在2024年世界人工智能大会(WAIC)的展厅里,一个不起眼的小展位前却围满了观众。他们轮流对着手机录下一句话:“你好,我是来自上海的李老师”&…

作者头像 李华
网站建设 2026/6/10 12:33:12

NVIDIA Nemotron-Nano-9B-v2:混合架构推理新模型

导语 【免费下载链接】NVIDIA-Nemotron-Nano-9B-v2 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/NVIDIA-Nemotron-Nano-9B-v2 NVIDIA推出混合架构大语言模型Nemotron-Nano-9B-v2,融合Mamba-2与Transformer优势,在保持高效推理的同时实…

作者头像 李华