news 2026/4/16 10:36:44

学习周报二十七

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
学习周报二十七

摘要

本周深入研究了多模态文档解析的技术范式与轻量化模型创新。系统梳理了文档解析的三种主流架构:模块化的流水线式(Pipeline)、两阶段式(Layout+VLM)以及端到端式(VLM finetune),并重点分析了轻量级模型MinerU2.5的核心设计。该模型通过“全局布局分析、局部内容识别”的两阶段策略,结合基于Qwen2VL的统一视觉语言模型架构,在参数量仅1.2B的情况下,实现了识别精度与计算效率的有效平衡。

Abstract

This week delved into the technical paradigms of multimodal document parsing and innovations in lightweight models. The three mainstream architectures for document parsing were systematically reviewed: the modular pipeline approach, the two-stage approach (Layout+VLM), and the end-to-end approach (VLM finetune). Particular focus was given to the core design of the lightweight model MinerU2.5. By employing a two-stage strategy of “global layout analysis followed by local content recognition” and leveraging a unified vision-language model architecture based on Qwen2VL, it effectively balances recognition accuracy with computational efficiency despite having only 1.2B parameters.

1、多模态OCR

1.1 文档解析的多模态大模型多种模式

本周学习了解了文档解析的多模态大模型。pipline式、两阶段式和端到端,如下图所示。

pipline:

layout+VLM:

VLM finetune:

1.2 MinerU2.5

MinerU2.5 是专用于文档解析的轻量级(1.2B)视觉语言模型,其核心特点是通过两阶段解析策略平衡识别精度与计算效率:

阶段 I:全局布局(Layout)分析

阶段 II:局部内容识别

相比于上期的PaddleOCR-VL的两阶段,MinerU2.5在两阶段使用的模型都是同一个VLM,通过不同prompt引导目标检测任务、OCR任务。

模型结构上直接使用Qwen2VL的结构。


MinerU2.5 的框架,在第一阶段,MinerU2.5 对下采样后的页面执行快速的全局布局分析。在第二阶段,MinerU2.5 利用布局分析结果从原始高分辨率文档中裁剪出关键区域,并在这些原始分辨率的局部区域内进行细粒度的内容识别(例如,文本、表格和公式识别)。

语言解码器:LLM(Qwen2-Instruct-0.5B),M-RoPE 替换了原始的 1D-RoPE
视觉编码器:使用Qwen2-VL视觉编码器(NaViT-675M)进行初始化
patch merge:为了在效率和性能之间取得平衡,该架构在相邻的 2 × 2 视觉 token 上使用 pixel-unshuffe对聚合后的视觉 token 进行预处理,然后再将其输入大型语言模型。

总结

本周通过对比分析三种文档解析范式和剖析一个具体轻量模型,构建了对多模态OCR技术路线的清晰认知。在技术范式层面,理解了从早期模块化流水线(Pipeline)到引入大模型的两阶段(Layout+VLM),再到追求统一建模的端到端(VLM finetune)的演进逻辑,各自在灵活性、精度与复杂性上存在权衡。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 16:02:24

网络安全毕业设计易上手开题汇总

0 选题推荐 - 大数据篇 毕业设计是大家学习生涯的最重要的里程碑,它不仅是对四年所学知识的综合运用,更是展示个人技术能力和创新思维的重要过程。选择一个合适的毕业设计题目至关重要,它应该既能体现你的专业能力,又能满足实际应…

作者头像 李华
网站建设 2026/4/13 8:28:55

【轨迹模拟技术突破】:Open-AutoGLM实现99%人类行为还原度的秘密

第一章:Open-AutoGLM滑动轨迹自然模拟在自动化操作中,模拟人类的滑动行为是提升系统可信度的关键环节。Open-AutoGLM 通过深度学习与运动学建模,实现了高度拟真的滑动轨迹生成,有效规避了基于规则的固定路径检测机制。轨迹生成核心…

作者头像 李华
网站建设 2026/4/12 13:36:24

【AI模型交互新突破】:Open-AutoGLM长按精准识别技术全曝光

第一章:Open-AutoGLM长按识别技术的演进与定位Open-AutoGLM长按识别技术是面向多模态内容理解的一项前沿创新,旨在通过长按交互触发智能语义解析,实现图像、文本乃至混合媒介的即时认知响应。该技术融合了视觉定位、手势识别与大语言模型的上…

作者头像 李华
网站建设 2026/4/12 10:54:06

Open-AutoGLM多手指协同技术:如何在5分钟内掌握高阶人机交互设计精髓

第一章:Open-AutoGLM多手指协同技术概述Open-AutoGLM 是一种面向多模态智能体系统的新型协同推理框架,专注于实现多个AI模型实例(“手指”)在复杂任务中的高效协作。该技术借鉴人类认知系统中多感官协同工作的机制,通过…

作者头像 李华
网站建设 2026/4/15 15:45:25

11.4 单Agent vs 多Agent:两种架构模式对比分析

11.4 单Agent vs 多Agent:两种架构模式对比分析 在前面的章节中,我们深入探讨了Agent系统的核心功能组件。今天,我们将聚焦于Agent系统的架构模式,详细分析单Agent和多Agent两种架构的特点、优势和适用场景,帮助大家更好地理解如何根据业务需求选择合适的架构模式。 Age…

作者头像 李华
网站建设 2026/4/15 13:04:24

揭秘Open-AutoGLM响应延迟之谜:如何通过动态等待时间提升系统吞吐?

第一章:揭秘Open-AutoGLM响应延迟之谜在高并发场景下,Open-AutoGLM 框架偶发的响应延迟问题引起了广泛关注。尽管其设计目标是实现低延迟、高吞吐的自动推理服务,但在实际部署中,部分请求的响应时间波动显著,影响了用户…

作者头像 李华