5步搞定AWS Textract：告别手动录入，实现文档智能解析-编程阁

5步搞定AWS Textract：告别手动录入，实现文档智能解析

【免费下载链接】aws-cliUniversal Command Line Interface for Amazon Web Services项目地址: https://gitcode.com/GitHub_Trending/aw/aws-cli

还在为海量文档的文字提取而头疼吗？每天面对成堆的发票、合同、报表，手动录入不仅效率低下还容易出错。Amazon Textract结合AWS CLI，让你用几行命令就能实现自动化文档解析。本文将用最简单的方式带你掌握这个强大的工具，让文档处理变得轻松高效。

第一步：环境准备 - 搭建你的文档处理"工作台"

在使用Textract之前，需要确保AWS CLI已经正确安装。这就像你要做饭，先得有个厨房一样重要。

验证安装状态：

aws --version

如果显示版本信息，恭喜你已成功一半！如果提示未找到命令，需要先安装AWS CLI。

配置访问凭证：

aws configure

系统会依次询问以下信息：

AWS Access Key ID：你的访问密钥ID
AWS Secret Access Key：对应的密钥
Default region name：建议选择cn-north-1（北京区域）
Default output format：推荐json格式

💡小贴士：Access Key和Secret Key可以在AWS控制台的IAM服务中创建。如果是测试用途，建议创建专门用于Textract的IAM用户，并授予相应权限。

第二步：认识Textract的两种工作模式

Textract提供了两种处理方式，就像厨房里的微波炉和烤箱一样，各有各的用途：

即时处理模式（适合单页文档）

这种模式就像微波炉，放进去立即出结果，适合处理单个页面：

aws textract detect-document-text \ --document '{"S3Object":{"Bucket":"my-documents","Name":"invoice.pdf"}}'

适用场景：

单页发票、收据
名片信息提取
简单合同扫描件

异步处理模式（适合多页文档）

当文档超过1页时，就需要用这种模式，就像把食材放进烤箱，需要等待一段时间：

启动处理任务：

aws textract start-document-text-detection \ --document-location '{"S3Object":{"Bucket":"my-documents","Name":"multi-page-contract.pdf"}}'

获取处理结果：

aws textract get-document-text-detection --job-id "你的任务ID"

第三步：实战演练 - 批量处理发票信息

假设你有一批PDF发票需要处理，下面这个脚本可以帮你自动完成：

#!/bin/bash # 批量处理S3存储桶中的发票文档 BUCKET_NAME="my-invoice-bucket" FOLDER_PATH="invoices/" echo "开始批量处理发票文档..." # 获取所有PDF文件列表 for file_path in $(aws s3 ls s3://$BUCKET_NAME/$FOLDER_PATH --recursive | grep ".pdf" | awk '{print $4}'); do echo "正在处理: $file_path" # 启动Textract处理任务 job_response=$(aws textract start-document-text-detection \ --document-location "{\"S3Object\":{\"Bucket\":\"$BUCKET_NAME\",\"Name\":\"$file_path\"}}" \ --output json) job_id=$(echo $job_response | jq -r '.JobId') echo "任务已启动，ID: $job_id" # 等待任务完成（生产环境建议使用SNS通知） while true; do status=$(aws textract get-document-text-detection \ --job-id $job_id \ --query 'JobStatus' \ --output text) case $status in "SUCCEEDED") echo "处理成功，保存结果..." aws textract get-document-text-detection \ --job-id $job_id > "results/${file_path%.pdf}_output.json" break ;; "FAILED") echo "处理失败: $file_path" break ;; *) echo "任务进行中，状态: $status，等待5秒后重试..." sleep 5 ;; esac done done echo "所有发票处理完成！"

第四步：进阶功能 - 表格和表单数据提取

Textract不仅能提取普通文字，还能智能识别结构化数据：

表格数据提取

处理财务报表、数据报表等包含表格的文档：

aws textract analyze-document \ --document '{"S3Object":{"Bucket":"financial-reports","Name":"Q3-report.pdf"}}' \ --feature-types TABLES

表单数据提取

处理申请表、调查问卷等包含键值对的文档：

aws textract analyze-document \ --document '{"S3Object":{"Bucket":"application-forms","Name":"job-application.pdf"}}' \ --feature-types FORMS

📊效果对比：

普通文字提取：获得连续的文本内容
表格提取：保留行列结构，识别表头和单元格
表单提取：识别字段名和对应值的关系

第五步：结果解析与实用技巧

处理完成后，你会得到一个JSON格式的结果。以下是一些解析技巧：

提取关键信息的Python示例：

import json def extract_invoice_info(result_file): with open(result_file, 'r') as f: data = json.load(f) invoice_data = { 'amount': None, 'date': None, 'number': None } # 分析所有文本块 for block in data.get('Blocks', []): if block['BlockType'] == 'LINE': text = block['Text'] # 识别金额（根据实际文本格式调整） if '金额' in text or '合计' in text: # 使用正则表达式提取数字 import re amount_match = re.search(r'[\d,]+\.\d{2}', text) if amount_match: invoice_data['amount'] = amount_match.group() # 识别日期 date_pattern = r'\d{4}年\d{1,2}月\d{1,2}日' date_match = re.search(date_pattern, text) if date_match: invoice_data['date'] = date_match.group() return invoice_data