大模型抽取字段总缺漏怎么补全校验-编程阁

把结论甩出来：大模型做结构化字段抽取漏字段，八成不是模型笨，是你没给它"漏了也得交差"的兜底。补全靠两步——强制 schema 占位（缺的字段也得吐出来、标 null）+抽完做一遍规则校验回填。下面按我踩过的具体场景编号说，每个场景配一个能直接抄的解法。

我背景：做了三年多企业内部的发票/合同/工单解析，从 GPT-3.5 那会儿就开始拿大模型抽字段，被缺漏坑到怀疑人生过。下面这些都是真在生产里栽过的。

场景 1：让模型抽 12 个字段，它只返了 8 个，剩下 4 个直接消失

最常见，也最坑。你 prompt 里列了name / phone / amount / date ...一堆，结果原文里没出现的那几个，模型干脆不写进 JSON，键都没了。你后面data["phone"]直接 KeyError。

解法：别指望模型"自觉补全"，把 schema 钉死，明确告诉它没有的字段也要返回，值给 null。我现在的 prompt 固定带这么一句：

严格按以下 JSON 结构返回，所有字段必须出现；原文未提及的字段值填 null，不要省略键。

再配个兜底，抽完先拿目标字段列表对齐一遍：

REQUIRED = ["name", "phone", "amount", "date", "addr", "tax_no"] def fill_missing(parsed: dict) -> dict: return {k: parsed.get(k, None) for k in REQUIRED}

这一句parsed.get(k, None)救我无数次。哪怕模型抽风少返字段，下游拿到的永远是齐的 schema。

场景 2：字段在，但值是空字符串 / "无" / "未知" / "N/A" 混着来

比缺键更恶心。模型有时返""，有时返"无"，有时来个"暂无"，下游判空逻辑全乱。我有次统计"手机号填充率"，数出来 73%，手动一抽查发现一堆"未提供"被当成有效值算进去了。

解法：抽完做一道空值归一化，把这些垃圾值统一砸成 None：

NULL_LIKE = {"", "无", "未知", "暂无", "N/A", "未提供", "null", "-"} def normalize_null(v): if isinstance(v, str) and v.strip() in NULL_LIKE: return None return v

别小看这一步，做完之后我那个填充率统计才对得上真实情况。

场景 3：长文档里，靠后的字段越抽越漏

文档一长（我这边合同动辄 1 万字），模型注意力往前偏，文末的"签署日期""违约金条款"经常漏。

解法：别一次喂全文抽全部字段。按字段分组、分段抽。我把字段拆成 3 组，每组只喂相关段落，漏字段率从大概 15% 掉到个位数。代价是 token 翻倍、调用变慢——这是真实取舍，你得自己掂量准确率和成本哪个重要。

我后来嫌手搓分段调度太碎，干脆把整条"切段→分组抽→合并→校验"的链路，搬到一个零代码就能配抽取智能体的平台上做。拖几个节点把流程串起来，挂上现成大模型，再绑一个我自己整理的字段规范知识库（RAG），让它抽的时候参照规范走。说实话第一次搭完我有点惊到——没写一行编排代码，那个小助手真就把合同里那几个老漏的尾部字段稳稳吐出来了。学习曲线有，配条件分支那块我对着说明摸了快一下午；它也只干"流程编排+调模型"这层杂活，真正的业务校验规则还得我自己写进去。但杂活它包了，我省心。

场景 4：格式合法但语义错位——把"收货人"填进了"收件地址"

JSON 能解析、字段也齐，可值对错了。这种最阴，校验脚本检测不出来，得靠业务规则。

解法：上轻量规则校验层，对关键字段做格式/正则约束，不符就标记复核，别让脏数据静默入库：

字段	校验规则	不符处理
phone	`^1[3-9]\d{9}$`	置 null，标 review
amount	可转 float 且 > 0	标 review
date	能被`dateutil`解析	尝试归一化，失败标 review
tax_no	长度 15/18/20	标 review

import re def validate_phone(v): return v if v and re.match(r"^1[3-9]\d{9}$", v) else None

宁可标 null 等人复核，也别拿错值往下游灌。

场景 5：偶发返回非法 JSON，整条数据全崩

模型某次嘴瓢多打个逗号、或者前面带句"好的，以下是结果："，json.loads直接炸，那一整条记录丢了。

解法：解析包一层兜底，正则抠出{...}主体，再解析；解析失败的进死信队列而不是直接扔：

import json, re def safe_parse(text): try: return json.loads(text) except json.JSONDecodeError: m = re.search(r"\{.*\}", text, re.S) if m: try: return json.loads(m.group()) except json.JSONDecodeError: pass return None # 进死信，别静默丢