GLM-4v-9b多场景落地：智能制造BOM表截图→物料编码识别+供应商匹配-编程阁

GLM-4v-9b多场景落地：智能制造BOM表截图→物料编码识别+供应商匹配

在制造业的日常运营中，物料清单（BOM）是连接设计、采购、生产和库存的核心文件。然而，一个普遍存在的痛点在于：大量的BOM信息以截图、PDF或纸质文档的形式存在，无法被系统直接读取。工程师需要手动录入成百上千个物料编码，采购员需要逐一核对供应商信息，这个过程不仅耗时费力，还极易出错。

想象一下这样的场景：生产线上急需某个零件，采购员翻出一张老旧的BOM表截图，上面密密麻麻的表格里藏着物料编码和供应商缩写。他需要先肉眼识别出编码，再在庞大的ERP系统中搜索匹配，整个过程可能需要十几分钟，而生产线可能因此停滞。

今天，我们将探讨如何利用GLM-4v-9b这款强大的多模态模型，构建一个智能化的解决方案，让机器“看懂”BOM表截图，自动完成物料编码识别与供应商匹配，将人工处理从小时级压缩到秒级。

1. 为什么选择GLM-4v-9b解决这个难题？

在深入技术细节之前，我们先要理解为什么GLM-4v-9b是解决这个问题的合适工具。这不仅仅是因为它技术先进，更是因为它与我们的业务需求高度契合。

1.1 业务痛点与技术需求的完美匹配

制造业的BOM表识别难题，对技术提出了几个核心要求：

高精度OCR（光学字符识别）：BOM表截图往往包含小字体、复杂表格和模糊背景，普通OCR工具识别率低。
结构化理解能力：不仅要认出文字，还要理解“物料编码”、“供应商名称”、“规格”等表头与内容的对应关系。
上下文推理：供应商信息可能是缩写（如“BJTX”代表“北京天翔”），需要模型能根据行业常识或历史数据进行匹配。
部署成本可控：工厂环境可能没有强大的GPU集群，需要能在单张消费级显卡上运行的方案。

GLM-4v-9b恰好满足了所有这些要求。它原生支持1120×1120的高分辨率输入，这意味着BOM表截图即使被压缩或包含细小文字，模型也能清晰地“看到”细节。其基于GLM-4-9B语言模型的底座，赋予了它强大的文本理解和上下文推理能力，远超单纯的视觉识别模型。

1.2 GLM-4v-9b的核心优势一览

为了更直观地展示其优势，我们将其与通用方案进行对比：

特性维度	传统OCR + 规则脚本	通用多模态大模型 (如早期版本)	GLM-4v-9b (我们的方案)
小文字识别	差，依赖图像预处理	一般，分辨率受限	优秀，原生高分辨率支持
表格结构理解	弱，需定制解析逻辑	中等，可能混淆行列	强，具备强大的视觉-语言对齐能力
缩写/简写推理	无法处理	有限，需要大量提示	良好，可利用语言模型知识进行推断
中英文混合处理	需切换模型	可能偏重英文	原生优化，中英文对话均表现优异
单卡部署成本	低	极高 (需80G+显存)	低(INT4量化后仅需9GB，RTX 4090即可运行)
开发调试效率	低，规则繁琐	中，提示工程复杂	高，对话式交互，快速验证想法

简单来说，GLM-4v-9b把一个需要组合多种技术（OCR、表格解析、NLP）、且调试困难的问题，变成了一个可以通过“对话”和“提问”来解决的单一任务。这极大地降低了开发门槛和迭代周期。

2. 从截图到结构化数据：实战步骤拆解

理论说再多，不如一行代码。下面，我将带你一步步搭建一个完整的BOM表识别与匹配系统。我们将使用GLM-4v-9b的Transformers版本进行演示，这是最灵活、最易于集成的方式。

2.1 环境准备与模型加载

首先，确保你的环境有一张显存不小于16GB的GPU（如RTX 4090）。我们使用量化后的INT4模型，以节省显存。

# 安装必要的库 pip install transformers accelerate torch pillow

接下来，是加载模型和处理器（Tokenizer）的代码。这里我们使用从Hugging Face Hub加载的方式。

import torch from transformers import AutoModelForCausalLM, AutoProcessor from PIL import Image # 指定模型ID model_id = "THUDM/glm-4v-9b" # 加载处理器和模型 # 注意：使用 `trust_remote_code=True` 因为GLM-4v有自定义代码 # 使用 `load_in_4bit=True` 进行INT4量化，大幅降低显存消耗 processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, trust_remote_code=True, torch_dtype=torch.float16, # 使用半精度浮点数 device_map="auto", # 自动分配模型层到GPU/CPU load_in_4bit=True, # 关键！启用4比特量化 ) print("模型与处理器加载完毕！")

2.2 核心技能一：精准识别与提取BOM表内容

现在，我们准备一张BOM表截图（bom_screenshot.png）。我们的目标是让模型描述这张图片的内容。

# 1. 加载图片 image_path = "bom_screenshot.png" image = Image.open(image_path).convert("RGB") # 2. 构建一个提示词（Prompt），引导模型进行详细描述 # 提示词是发挥多模态模型能力的关键，需要清晰、具体。 prompt = """请详细描述这张图片中的表格内容。这是一个物料清单(BOM)表。 请按以下格式组织你的回答： 1. 表格整体描述（有几列，列标题是什么）。 2. 逐行列出表格中的内容，每一行包括：行号、物料编码、物料描述、供应商（如果有）。 请确保准确识别所有文字，特别是数字和字母组成的物料编码。""" # 3. 使用处理器准备模型输入 messages = [ {"role": "user", "content": [{"type": "image"}, {"type": "text", "text": prompt}]} ] inputs = processor.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt" ).to(model.device) # 4. 生成回答 with torch.no_grad(): generated_ids = model.generate(**inputs, max_new_tokens=1024, do_sample=False) generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0] # 5. 提取模型回复（通常需要截掉输入部分） # 假设模型回复在“<|assistant|>”标记之后 if "<|assistant|>" in generated_text: response = generated_text.split("<|assistant|>")[-1].strip() else: response = generated_text print("模型识别结果：") print(response)

执行效果：模型可能会返回如下结构化的文本：

1. 表格整体描述：此表格共有4列，列标题从左到右依次为：序号、物料编码、物料描述、供应商。 2. 逐行内容： - 行1: 序号 1, 物料编码 A-2024-001, 物料描述 不锈钢轴承套, 供应商 BJTX - 行2: 序号 2, 物料编码 B-3567-88, 物料描述 伺服电机驱动器, 供应商 SHHC - 行3: 序号 3, 物料编码 C-8890-12, 物料描述 工业控制线缆(5米), 供应商 GZKY

至此，我们已经成功将图片中的非结构化信息，转换成了半结构化的文本。但我们的目标是完全结构化的数据（如JSON）和智能匹配。

2.3 核心技能二：上下文推理与供应商匹配

供应商一栏常常是缩写，如“BJTX”。我们需要模型或系统将其匹配到完整的供应商名称。这里有两种策略：

策略A：利用模型的知识进行直接推理（适合常见缩写）我们可以通过多轮对话，询问模型这些缩写的可能含义。

# 接上一段代码，假设我们已经得到了包含“BJTX”的文本 `extracted_text` follow_up_prompt = f""" 根据上文识别出的BOM表内容： {extracted_text} 请根据你的常识推断，“BJTX”和“SHHC”这两个供应商缩写最有可能对应哪两家公司？ 请给出完整公司名称，并简要说明推断理由（例如，是否是行业知名企业，缩写是否符合命名习惯）。 """ # 将新的提示词和历史图片、对话一起输入 # 这里需要构建包含历史的多轮对话消息 multi_turn_messages = [ {"role": "user", "content": [{"type": "image"}, {"type": "text", "text": prompt}]}, {"role": "assistant", "content": extracted_text}, {"role": "user", "content": [{"type": "text", "text": follow_up_prompt}]} ] inputs_multi = processor.apply_chat_template( multi_turn_messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt" ).to(model.device) with torch.no_grad(): generated_ids_2 = model.generate(**inputs_multi, max_new_tokens=512, do_sample=False) match_result = processor.batch_decode(generated_ids_2, skip_special_tokens=True)[0] print("供应商缩写匹配结果：") print(match_result)

策略B：结合外部知识库进行精准匹配（推荐用于生产环境）模型的常识可能有限，最可靠的方式是结合企业内部的供应商数据库。我们可以将模型提取的编码和缩写，与数据库进行关联查询。

# 假设我们有一个简单的供应商字典，实际中会连接数据库 supplier_db = { "BJTX": {"name": "北京天翔精密机械有限公司", "code": "S10001"}, "SHHC": {"name": "上海华成电子科技有限公司", "code": "S20045"}, "GZKY": {"name": "广州科源电气设备厂", "code": "S30012"}, } # 解析模型提取的文本，提取供应商缩写列表（这里用简单正则示例） import re supplier_abbrs = re.findall(r'供应商\s*(\w+)', extracted_text) # 假设提取出 ['BJTX', 'SHHC', 'GZKY'] matched_results = [] for abbr in supplier_abbrs: if abbr in supplier_db: matched_results.append({ "abbreviation": abbr, "full_name": supplier_db[abbr]["name"], "supplier_code": supplier_db[abbr]["code"] }) else: matched_results.append({ "abbreviation": abbr, "full_name": "未知", "supplier_code": "待维护", "note": "未在供应商库中找到匹配项" }) print("结合知识库的匹配结果：") import json print(json.dumps(matched_results, indent=2, ensure_ascii=False))

3. 构建端到端自动化流程

将上述步骤串联起来，并增加错误处理和结果格式化，我们就得到了一个完整的自动化处理脚本。

import torch from transformers import AutoModelForCausalLM, AutoProcessor from PIL import Image import re import json import sys class BOMProcessor: def __init__(self, model_id="THUDM/glm-4v-9b"): print("正在初始化GLM-4v-9b模型...") self.processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True) self.model = AutoModelForCausalLM.from_pretrained( model_id, trust_remote_code=True, torch_dtype=torch.float16, device_map="auto", load_in_4bit=True, ) # 模拟一个供应商数据库 self.supplier_db = { "BJTX": "北京天翔精密机械有限公司", "SHHC": "上海华成电子科技有限公司", "GZKY": "广州科源电气设备厂", "SZTM": "深圳特铭科技有限公司", } print("模型初始化完成。") def extract_table_from_image(self, image_path): """从图片中提取表格文本信息""" image = Image.open(image_path).convert("RGB") prompt = """请精确识别并提取此图片中表格的所有内容。这是一个物料清单(BOM)表。 要求：直接返回一个JSON数组，每个元素代表一行，包含`序号`、`物料编码`、`物料描述`、`供应商`四个字段的值。 只返回JSON，不要有任何额外解释。""" messages = [{"role": "user", "content": [{"type": "image"}, {"type": "text", "text": prompt}]}] inputs = self.processor.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt" ).to(self.model.device) with torch.no_grad(): generated_ids = self.model.generate(**inputs, max_new_tokens=1024, do_sample=False, temperature=0.1) response = self.processor.batch_decode(generated_ids, skip_special_tokens=True)[0] # 尝试从回复中解析JSON json_str = self._extract_json(response) try: table_data = json.loads(json_str) return table_data except json.JSONDecodeError: print("模型返回非标准JSON，尝试解析文本...") # 备用方案：正则解析 return self._fallback_parse(response) def _extract_json(self, text): """尝试从文本中提取JSON字符串""" start = text.find('[') end = text.rfind(']') + 1 if start != -1 and end != 0: return text[start:end] return "[]" def _fallback_parse(self, text): """备用文本解析方法""" # 简化的正则解析逻辑，实际应用需要更健壮 pattern = r'行\d+:\s*序号\s*(\d+),\s*物料编码\s*([\w\-]+),\s*物料描述\s*([^,]+),\s*供应商\s*(\w+)' matches = re.findall(pattern, text) parsed_data = [] for m in matches: parsed_data.append({ "序号": m[0], "物料编码": m[1], "物料描述": m[2], "供应商缩写": m[3] }) return parsed_data def enrich_with_supplier_info(self, table_data): """用供应商数据库丰富表格数据""" enriched_data = [] for item in table_data: abbr = item.get("供应商缩写") or item.get("供应商") full_name = self.supplier_db.get(abbr, "未知供应商") new_item = item.copy() new_item["供应商全称"] = full_name new_item["匹配状态"] = "成功" if full_name != "未知供应商" else "失败" enriched_data.append(new_item) return enriched_data def process(self, image_path, output_json_path="bom_result.json"): """主处理流程""" print(f"开始处理图片: {image_path}") # 1. 提取 raw_data = self.extract_table_from_image(image_path) print(f"提取到 {len(raw_data)} 条物料信息。") # 2. 匹配 final_data = self.enrich_with_supplier_info(raw_data) # 3. 输出 with open(output_json_path, 'w', encoding='utf-8') as f: json.dump(final_data, f, indent=2, ensure_ascii=False) print(f"处理完成！结果已保存至: {output_json_path}") # 打印摘要 success_count = sum(1 for item in final_data if item["匹配状态"] == "成功") print(f"供应商匹配成功率: {success_count}/{len(final_data)}") return final_data # 使用示例 if __name__ == "__main__": processor = BOMProcessor() result = processor.process("bom_screenshot.png") # 打印前几条结果看看 print("\n处理结果预览：") for i, item in enumerate(result[:3]): print(f"{i+1}. 物料编码: {item.get('物料编码')} -> 供应商: {item.get('供应商全称')}")

运行这个脚本，你将会得到一个名为bom_result.json的文件，里面包含了从截图识别并匹配好的完整结构化数据，可以直接导入到ERP或采购系统中。

4. 总结与展望

通过本次实践，我们验证了GLM-4v-9b在智能制造文档处理场景下的巨大潜力。我们成功构建了一个原型系统，能够：

精准识别：利用其高分辨率视觉能力，准确读取BOM截图中的复杂表格和小文字。
理解结构：通过精心设计的提示词，让模型理解表格的语义，并按需输出结构化信息。
智能匹配：结合模型的内在知识或外部数据库，将缩写自动匹配为完整的供应商信息。

这个方案的真正价值在于其灵活性和低门槛。传统方案需要专门的OCR引擎、表格检测算法和自定义解析规则，开发周期长，且换一种表格模板就可能失效。而基于GLM-4v-9b的方案，只需调整提示词（Prompt），就能快速适配不同格式的BOM表，甚至扩展到质量检测报告、设备巡检单等其他工业文档的识别场景。

展望未来，我们可以在此基础上做更多增强：