news 2026/4/16 16:02:16

文档表格带图像、跨页列解析处理及知识图谱缓解RAG内外部知识

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
文档表格带图像、跨页列解析处理及知识图谱缓解RAG内外部知识

本文介绍两大大模型优化技术:一是基于知识图谱解决RAG系统内外部知识冲突问题,通过构建知识图谱、检索核心路径和基于熵值过滤冲突路径,提高大模型回答可靠性;二是多模态文档大模型的表格专项优化,包括表格内嵌图像还原和跨页/跨列表格合并技术,通过视觉一致性强化学习和类型引导表格合并等方法,提升复杂表格解析能力。


继续回到RAG和文档智能方向。

来看基于知识图谱缓解大模型RAG内外部冲突思路,用利用知识图谱来做,把杂乱的信息整理成 “清晰的关系图”,再挑出 “靠谱的信息”,最后让只基于靠谱信息说话,其本质上是信息筛选、去噪声的思路。

另一个思路是多模态文档大模型方面的新动静,继续刷榜,新的故事是“表格中带图+跨页/跨列表格合并”,可以看看怎么做的。

多总结,多归纳,**多从底层实现分析逻辑,**会有收获。

一、基于知识图谱缓解大模型RAG内外部冲突思路

来看知识图谱结合RAG用于去噪进展。

主要讲的是内部参数知识与检索到的外部知识存在事实级冲突问题,以前学过的知识(叫“内部知识”),但这些知识是“过期的”——比如2023年之后的新信息、某些专业细节,它可能记混或不知道。

所以遇到问题时,先从最新的外部数据库里搜相关资料(叫“外部知识”),再结合自己的内部知识回答,但是有时候外部搜来的新信息,和它脑子里记的旧知识对着干(比如内部记得“某城市属于A省”,外部搜出来是“属于B省”),AI分不清哪个对,就会说矛盾的话,甚至瞎编。

现有方案分为两类,通过调整输出token概率分布平衡内外部知识,但计算开销大,缺乏语义关联。或者通过语义对齐整合知识,但仅处理表面冲突,无法捕捉深层事实关系。如下图所示:

所以,搞了个缓解思路,也就是用利用知识图谱来做,把杂乱的信息整理成 “清晰的关系图”,再挑出 “靠谱的信息”,最后让只基于靠谱信息说话。

形式化过程如下:

所以,看一个工作:

TruthfulRAG: Resolving Factual-level Conflicts in Retrieval-Augmented Generation with Knowledge Graphs》,https://arxiv.org/pdf/2511.10375。

看几个核心模块。

1、图构建

将非结构化内容转为结构化KG。step1-语义分割,将检索内容C分割为语义连贯的片段——>step2-三元组提取,利用LLM(RAG自带生成模型M)从每个片段中提取三元组(h,r,t)(h=头实体,r=关系,t=尾实体),聚合为全量三元组—>KG构建;

2、图检索

获取与查询对齐的核心推理路径。

step1-关键元素提取,从用户查询q中提取目标实体、关系、意图;

—>step2-关键实体/关系筛选,通过语义相似度(基于allMiniLM-L6-v2嵌入的余弦相似度)选Top-k关键实体和关系;

—>step3-初始路径生成,从每个e∈Eimp出发进行两跳遍历【从关键实体出发进行两跳遍历(如“CiudadDeportiva→NuevoLaredo→Sinaloa”),可收集多实体关联的初始推理路径,避免单跳路径无法覆盖复杂事实关系的问题(如无法建立“体育场馆-城市-州”的多层归属关系)】,收集初始推理路径;

—>step4-核心路径筛选,进行评分Ref§=α・(实体覆盖率)+β・(关系覆盖率),控制实体/关系权重,选Top-K路径作为核心路径;

—**>step5-路径结构化表示**,每个核心路径表示为实体-关系序列(如e₁→r₁→e₂)+路径中关键实体及属性+路径中关键关系及属性;

3、冲突解决

基于熵值过滤冲突路径,核心是置信度量化(熵值计算)。

几个步骤:step1-计算参数生成熵Hparam,即LLM仅基于问题生成答案的熵;

—>step2-增强生成熵Haug,LLM基于问题和路径生成答案的熵;

—>step3-熵差计算与冲突路径筛选,增强生成熵减去参数生成熵,得到熵差ΔHp=Haug-Hparam,ΔHp>0表示路径p与LLM内部知识冲突;

—>step4-筛选ΔHp>τ(τ为模型特定阈值:GPT-4o-mini/Mistral-7B-Instruct取1,Qwen2.5-7B-Instruct取3)的路径为修正路径;

—>step5-最终生成:LLM基于问题和修正路径生成响应。

4)评测及结论

评测数据集包括FaithEval(逻辑级冲突)、MuSiQue(多跳事实冲突)、RealtimeQA(时间冲突)、SQuAD(知识整合),评估指标包括准确率(ACC)【正确答案占比】、上下文精确率(CPR)【有效内容占处理后上下文的比例】;

对比基线包括1.DirectGeneration(仅参数知识)、StandardRAG(直接用检索文本)、KRE(提示优化)、COIECD(解码调整)以及FaithfulRAG(自反思)。

核心结论是结构化三元组构建上下文可增强LLM对外部知识的置信度,支持可信推理。

二、文档大模型表格专项优化思路

继续看文档智能进展,多模态文档大模型方面的新动静,继续刷榜,新的故事是“表格内嵌图像还原 + 跨页/跨列表格合并” 。

看最近的《MonkeyOCR v1.5,MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns》,https://arxiv.org/pdf/2511.10390, https://github.com/Yuliang-Liu/MonkeyOCR,核心看几个点。

1、温习下现有路线

流水线方法(如 PP-StructureV3),将解析拆分为布局检测、文本识别等独立子任务,易发生误差累积;端到端模型(如 GPT-4o),采用高分辨率文档生成大量视觉 token,自注意力机制导致计算成本剧增。

当前的文档多模态模型也发生了不少变化,并且很卷,如上图。

2、两阶段Pipeline

阶段1:布局与阅读顺序预测,联合预测文档布局边界框与阅读顺序,采用大型多模态模型(VLM),输入文档图像与布局提示,输出结构化token序列,包括边界框、阅读顺序索引、区域类别(文本/公式/表格)、旋转角度;

阶段2:区域级内容识别,对检测区域进行分类识别并聚合。

处理包括按旋转角度矫正区域图像、按类别调用专用识别模块按阅读顺序聚合,输出完整文档结构化表示;

3、针对表格的特殊处理

一个是视觉一致性强化学习(解决复杂表格识别),通过“渲染-对比”评估识别质量,优化表格解析准确性;训练奖励模型,用标注数据构建正负样本对(修改GT生成视觉不一致样本),训练VLM判断原始图、预测结果、渲染图的一致性,输出奖励值,采用GRPO(广义强化策略优化)算法,以奖励模型为指导,优化有监督微调(SFT)后的模型;

一个是图像解耦表格解析(IDTP,解决嵌入式图像表格),流程包括:图像检测【用YOLOv10检测表格内嵌入式图像】->占位符替换【将图像替换为尺寸匹配的占位符,保存“占位符ID-图像”映射】;->结构识别VLM生成含<img>标签的HTML表格;->图像还原【后处理阶段按映射替换占位符,输出完整表格】;

一个是类型引导表格合并(TGTM,解决跨页/跨列表格),采用“规则匹配+BERT语义判别”的混合决策做合并【首先通过规则匹配判断相邻表格是否为同一逻辑表格(如列数是否一致、列名语义相似度),若确定为同一表格且首行不同(排除模式1:全表头重复),则调用BERT语义分类器,输入前一表格的尾行文本与后一表格的首行文本,预测两者是否为“行拆分后的延续关系”】,处理3类常见表格拆分模式;

模式1-全表头重复【相邻表格首行(表头)完全一致】,移除重复表头,拼接表格主体;

模式2-无表头延续【首行不同但无单元格拆分】,直接拼接,保留列结构;

模式3-行拆分延续【单元格跨边界拆分】,BERT判断语义延续性,合并拆分单元格后拼接】

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

《AI大模型从0到精通全套学习包》

如果你想要提升自己的能力却又没有方向?

想学大模型技术去帮助就业和转行又不知道怎么开始?

那么这一套**《AI大模型零基础入门到实战全套学习大礼包》以及《大模型应用开发视频教程》**一定可以帮助到你!

限免0元!👇👇

1

全套AI大模型应用开发视频教程

(包含深度学习、提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

2

大模型入门到实战全套学习大礼包

01

大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

02

大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

03

AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

04

大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

05

大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

*这些资料真的有用吗?*

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

06

以上全套大模型资料如何领取?

👆🏻用微信加上就会给你发

无偿分享

遇到扫码问题可以私信或评论区找我

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 15:27:53

基于 PLC 的自动洗车控制系统设计探索

基于plc的自动洗车控制系统设计 本商品为电子程序资料 商品包含内容&#xff1a; ①自动洗车博途PLC与HMI仿真工程 (博途V14或以上) 一份&#xff1b; ②自动洗车配套有IO点表PLC接线图主电路图控制流程图 (CAD源文件可编辑); ③自动洗车博途仿真工程配套视频讲解 一份&#x…

作者头像 李华
网站建设 2026/4/16 10:07:34

智能设备多功能化改造:从单一功能到全能中心的创新突破

你是否曾经面对家中堆积的各种智能设备感到困扰&#xff1f;一个负责网络路由&#xff0c;一个负责媒体播放&#xff0c;还有一个专门处理智能家居控制...设备越来越多&#xff0c;空间越来越拥挤&#xff0c;维护成本也随之攀升。&#x1f914; 【免费下载链接】OpenWrt_x86-r…

作者头像 李华
网站建设 2026/4/16 12:34:21

网络安全2025最详细学习路线,建议收藏!

为了帮助小伙伴们系统化学习网络安全&#xff0c;我整理了一套超详细的学习路线&#xff0c;无论你是零基础入门还是想进一步提升&#xff0c;都可以参考&#xff01;而且资料包免费分享&#xff0c;赶紧收藏&#xff01; ​ 第一阶段&#xff1a;网络安全基础入门 1. 计算机…

作者头像 李华
网站建设 2026/4/16 15:49:22

如何高效实现内存池:5个提升C++性能的终极技巧

如何高效实现内存池&#xff1a;5个提升C性能的终极技巧 【免费下载链接】yaml-cpp A YAML parser and emitter in C 项目地址: https://gitcode.com/gh_mirrors/ya/yaml-cpp 在C高性能编程领域&#xff0c;yaml-cpp项目的内存池实现为我们展示了如何通过智能内存管理技…

作者头像 李华
网站建设 2026/4/16 15:47:21

是什么让Java开发者欢呼雀跃?飞算JavaAI藏着怎样的高效密码?

各位Java开发者&#xff0c;在日常开发中&#xff0c;是否常常被各种bug折磨得疲惫不堪&#xff1f;为修复一个NullPointerException挑灯夜战到凌晨&#xff0c;面对复杂的业务逻辑漏洞焦头烂额&#xff0c;甚至开始怀疑自己的职业选择是否正确&#xff1f;别再陷入这种低效的内…

作者头像 李华