news 2026/4/16 15:41:00

Pathway × PaddleOCR:握手知名开源框架,打通“动态文档”到实时 RAG 的数据入口

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Pathway × PaddleOCR:握手知名开源框架,打通“动态文档”到实时 RAG 的数据入口

处理实时数据的场景中,即时执行 OCR 能力至关重要。企业文档流通常呈现出格式异构、结构非标准化、版本高频变动的特征;若仍依赖离线批处理与人工重跑机制,索引时效性与 RAG/Agent 的响应质量将难以保障。因此,能够在数据抵达与更新瞬间完成解析,并输出稳定、可消费的结构化结果,是适配动态数据源的基础能力。

知名开源框架 Pathway 强调“Live Data / Real-time pipeline”,通过可组合的 pipeline,把数据读取、解析、写出与后续 RAG 应用串成一条可持续运行的实时数据链路。目前,PaddleOCR 已深度集成至 Pathway ,作为其实时 pipepline 中的解析引擎,为 Pathway 提供了核心感知与结构化支撑,实现文本与版面结构的高效识别与标准化输出,并在文档更新时自动触发解析与结果同步,使实时数据链路中的索引与 RAG 应用始终基于最新、可消费的结构化内容运行。

动态文档稳定变可用数据

PaddleOCR 的解析能力嵌入 Pathway 的实时数据流链路后能够成为其流式解析节点,让 OCR 结果具备可更新、可追踪、可增量传播的数据语义,具体体现在三个层面:

  • 覆盖不同解析难度:PaddleOCRParser中,复杂版面默认采用 PP-StructureV3 完成版面还原与结构提取,轻量场景则采用 PaddleOCR 进行高效文本抽取。由此,上游产出从一次性文本结果升级为可复用的结构化数据资产,为长期运行的知识库与实时 RAG ingestion 提供稳定的数据基座;

  • 解析结果具备变更语义:PaddleOCRParser的参数设计面向生产,支持异步执行、缓存策略,以及 PDF 转图/大图保护项等,使 OCR 处理从离线脚本变为持续运行的 pipeline 节点,让解析链路能够在文档更新时以更低成本完成重算并保持稳定输出;

  • GPU 兼容推动可扩展吞吐:PaddleOCR 对 GPU 计算的良好兼容性能够为 Pathway 的持续运行 pipeline 提供高性能解析底座,确保在文档量或更新频率提升时,降低解析阶段可能出现的链路延迟,从而让“文档变更→解析更新→索引/应用同步刷新”的实时闭环具备可扩展性。

快速上手

在 Pathway迅速调用PaddleOCR

为了让这些能力更容易在工程链路中复用,PaddleOCR 的解析能力在 Pathway 中已被封装为PaddleOCRParser,可直接作为 pipeline 的上游解析节点接入,并在数据更新时持续产出结构化结果。具体操作流程如下:

1. 快速安装准备环境

  • 安装 Pathway 文档解析 xpack

Pathway 在xpack-llm-docs中提供了用于 OCR 的解析器PaddleOCRParser

pip install "pathway[xpack-llm-docs]"
  • 安装 PaddleOCR

PaddleOCRParser需要本地已安装paddlepaddle。如果你使用 CPU 环境,可按如下方式安装(GPU 环境请按官方指引选择对应版本):

pip install "paddlepaddle>=3.2.0"

2. 在 Pathway 中调用 PaddleOCRParser

在 Pathway 中,你可以直接导入并实例化PaddleOCRParser,用于解析 images / PDFs / PPTX。

from pathway.xpacks.llm.parsers import PaddleOCRParser parser = PaddleOCRParser()

PaddleOCRParser支持若干关键参数,常用包括:

  • pipeline:指定 Paddle 侧 OCR pipeline(支持PaddleOCR/PPStructureV3,默认使用PPStructureV3);

  • concatenate_pages:多页文档是否合并输出;

  • async_mode:执行模式(如batch_async/fully_async);

  • cache_strategy:缓存策略,用于提升重复解析场景效率。

更多详情参见:

https://pathway.com/developers/api-docs/pathway-xpacks-llm/parsers/#pathway.xpacks.llm.parsers.PaddleOCRParser

3. 示例:构建一个本地文件 OCR 流水线

下面以本地文件为例:使用 Pathway 读取二进制文件 → 调用 PaddleOCRParser 解析 → 写出 JSONL → 运行 pipeline。

import pathway as pw from pathway.xpacks.llm.parsers import PaddleOCRParserfiles_table = pw.io.fs.read( "./data", format="binary", object_size_limit=None, with_metadata=True,) parser = PaddleOCRParser(concatenate_pages=True)parsed_table = files_table.select(parsed_text=parser(pw.this.data)[0][0]) pw.io.jsonlines.write(parsed_table, "./output.jsonl")pw.run()

输出示例为 JSON Lines 结构,便于后续索引、检索或写入数据湖/向量库等链路使用。

4. 用 streaming 模式追踪文件变化

当输入文件发生替换或更新时,Pathway 可以在streaming模式下自动感知变化、触发重新 OCR,并将新旧结果以增量形式更新到输出中。

5. 把 PaddleOCR 作为实时解析器接到 RAG 问答模板

在 Pathway 的 Q&A RAG 模板中,可通过配置将解析器切换为PaddleOCRParser,让 RAG 流水线直接消费实时 OCR 的解析结果。

$parser: !pw.xpacks.llm.parsers.PaddleOCRParser concatenate_pages: True

文档到数据

文档解析变成实时节点

本次 PaddleOCR 与 Pathway 的深度技术集成,在应用环境中形成了“职责清晰”、闭环运行的能力协同。

PaddleOCR 位于数据提取上游,将复杂文档稳定解析为结构化结果,从源头保障解析质量、结构表达与可索引性;Pathway 则基于其 Live Data 增量执行体系,将结构化输出转化为可传播的更新事件,使文档新增、替换与版本演进能够驱动下游链路持续同步刷新,从而避免离线重建与人工干预带来的高运维成本。

当“结构化解析能力”与“增量更新机制”实现联通,文档型 RAG 不再局限于一次性构建,而具备长期运行特性:数据持续变化时索引自动演进,应用始终基于最新且可追溯的文档证据运行,整体系统的可靠性与工程可控性得到显著提升。

  • 关于 Pathway

Pathway 是一款开源实时数据处理框架,面向 Live Data / 实时增量计算 场景,支持用同一套 pipeline 将数据接入、解析、更新与下游应用联动,适配构建可长期运行的实时数据管线与 RAG 工作流,具备完善的工程化能力与生态扩展性,适合在生产环境中持续处理不断变化的文档与数据源。目前,Pathway 在 GitHub 上已获得超59k 星标

👉了解 Pathway:

https://github.com/pathwaycom/pathway

  • 关于 PaddleOCR

PaddleOCR 是百度飞桨生态中的 OCR 与文档智能引擎,提供从文本识别到文档理解的全流程解决方案。聚焦真实业务场景中的文档数字化需求,提供可规模化部署的文字识别与语义解析能力。它覆盖110+种语言的精准识别,支持图文混排、表格结构、公式符号等复杂文档元素的语义边界精准解析,能够输出符合 JSON / Markdown 等标准格式的结构化数据,实现从图像输入到后续业务系统数据处理与智能应用无缝衔接的全流程自动化。 PaddleOCR 支持 Web API 、 SDK 集成及 Docker 容器化部署等多种部署与集成方式,满足从轻量级应用到企业级系统的全场景需求,加速 AI 能力在实际业务中的落地应用。截至2026年2月,PaddleOCR 在 GitHub 上已获得超 70k 星标。

👉了解 PaddleOCR :

https://github.com/PaddlePaddle/PaddleOCR

加入我们

诚挚邀请全球相关开源项目、开发者工具链团队及各类行业伙伴,与文心大模型、飞桨共建开源生态,共同推进文档解析、知识智能与企业级AI技术的普及与落地。

与文心大模型(ERNIE)、飞桨(PaddlePaddle)开展相关开源生态合作,伙伴可获得:

  • 与文心大模型、飞桨的深度技术对接与集成支持;

  • 覆盖模型、框架、推理、文档解析、数据治理等全栈生态资源;

  • 面向行业的联合解决方案打造与联合发布机会;

  • 内容生态、市场活动、行业推广等多渠道赋能。

让我们一起,以开源与技术的力量,构建下一代智能化知识生态。

扫码加入官方技术交流群

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 11:58:34

首次,蔚来真盈利了......

点击下方卡片,关注“自动驾驶之心”公众号 戳我-> 领取自动驾驶近30个方向学习路线 编辑 | 自动驾驶之心 本文只做学术分享,如有侵权,联系删文 >>自动驾驶前沿信息获取→自动驾驶之心知识星球 首次!蔚来实现单季度盈利了…

作者头像 李华
网站建设 2026/4/15 22:51:38

多模态驱动下,Java企业的AI应用开发新路径

在数字化转型的深水区,AI技术正从单一的文本交互,走向文本、语音、图像、视频融合的多模态时代。对于以Java技术栈为核心的企业而言,传统系统往往局限于结构化数据处理,面对日益增长的多模态业务需求——如客服场景的图片投诉识别…

作者头像 李华
网站建设 2026/4/16 13:34:47

深入了解500kW储能变流器(PCS):从结构到资料的全解析

500kW储能变流器(PCS) 采用T型三电平模块,结构三维、控制电路、驱动电路,全部的BOM,型式试验报告等全部资料。 没有程序源码,本商品交付的资料与本描述一致,未提及的可能没有。在储能领域&#…

作者头像 李华
网站建设 2026/4/13 20:23:27

阿里减持三江购物:套现2.5亿

雷递网 乐天 2月5日三江购物俱乐部股份有限公司(证券代码:601116 证券简称:三江购物)日前发布公告称,阿里在2025年11月27日到2026年2月5日通过集中竞价减持5,476,784股,通过大宗交易减持10,953,568股。阿里…

作者头像 李华
网站建设 2026/4/1 12:13:44

Pulsar x Ask AI:7*24,随时来问!

新接触 Pulsar,还没完全理解基础概念?大致了解功能,但还是不知道怎么上手实践?翻了好久文档,还没找到能解决问题的那一段?…… 好消息!Ask AI 智能问答助手已正式上线 Pulsar 官网! …

作者头像 李华
网站建设 2026/4/16 10:38:45

人工智能应用- 语言处理:05. 神经网络方法:基于语义理解的诗人

不论是拼凑法还是统计模型,都没能充分保障诗句的“语义合理”。原因可以归结为两方面:一是对汉字的语义理解不足,二是对汉字的前后关系建模有限。从语义上看,拼凑法完全没有理解语义,只是句子的机械裁剪和拼接&#xf…

作者头像 李华