基于 PaddleOCR v2.6.0 的图片文字识别实战（CPU 版）-编程阁

摘要

OCR（光学字符识别）是计算机视觉领域的经典应用，可实现从图片中自动提取文本内容，广泛应用于文档数字化、票据识别、证件信息提取等场景。本文以百度飞桨开源的PaddleOCR v2.6.0为核心，基于 Python 3.10 + CPU 环境，从零搭建完整的文字识别项目，涵盖虚拟环境隔离、依赖安装、代码实现、结果验证全流程，解决新手常见的环境冲突、模型下载失败、识别结果解析等问题，最终实现对中文图片的高精度文字识别，为后续批量识别、多语言扩展提供基础方案。

关键词

PaddleOCR；文字识别；Python；环境搭建；OCR 实战；CPU 部署

一、引言

随着人工智能技术的普及，轻量级 OCR 工具成为开发者快速落地文本识别需求的首选。PaddleOCR 是百度飞桨推出的开源 OCR 工具包，具有以下优势：

轻量高效：支持 CPU 环境部署，无需复杂的 GPU 配置；
多语言支持：内置中文、英文、日文等 80 + 语言识别模型；
开箱即用：提供预训练模型，无需从零训练，新手可快速上手；
功能丰富：支持文本检测、方向矫正、多场景识别（如票据、文档）。

本文将基于稳定版PaddleOCR v2.6.0，以中文古诗图片为例，完整复现从环境搭建到识别结果输出的全过程，适合计算机专业学生、Python 开发者学习参考。

二、环境准备与版本选择

2.1 技术选型与版本说明

为保证项目稳定性与兼容性，本次实战选择以下核心依赖版本：

工具 / 库	版本	说明
Python	3.7~3.10	PaddlePaddle 2.6.2 仅支持该区间版本，本次使用 3.10
PaddlePaddle	2.6.2	飞桨深度学习框架 CPU 版
PaddleOCR	2.8.1	与 v2.6.0 仓库适配的稳定 OCR 库版本

2.2 系统环境要求

操作系统：Windows 10/11（64 位）
硬件配置：CPU i3 及以上，内存≥8GB（满足模型运行基础需求）
辅助工具：VSCode（代码编辑）、CMD / 终端（环境操作）

三、虚拟环境搭建（隔离依赖）

为避免不同 Python 项目的依赖版本冲突，必须创建独立虚拟环境进行实验，以下提供两种 Windows 系统下的搭建方式，本次实战以用户实际操作为例：

3.1 步骤 1：创建虚拟环境根目录

新建文件夹D:\huanjing\ocr，用于存放虚拟环境相关文件，避免文件散乱。

3.2 步骤 2：创建并激活虚拟环境

方式 1：venv 命令创建（推荐）

打开终端，进入根目录：
```
cd D:\huanjing\ocr
```
执行命令创建虚拟环境（环境名：ocr）：
```
python -m venv ocr
```
激活虚拟环境：进入D:\huanjing\ocr\Scripts目录，在地址栏输入cmd打开终端，执行：
```
activate
```
终端前缀出现(ocr)即表示激活成功。

方式 2：图形化创建

在 python 中打开项目文件夹，点击左下角 Python 解释器选择器，选择 “创建虚拟环境”，自动完成创建与激活，后续步骤与方式 1 一致。

四、核心依赖安装

激活虚拟环境后，执行以下命令安装依赖（使用清华源加速下载，避免网络超时）：

4.1 安装 PaddlePaddle CPU 版

pip install paddlepaddle==2.6.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

4.2 安装 PaddleOCR 库

pip install paddleocr==2.8.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

4.3 安装验证

执行以下命令检查依赖版本是否匹配：

pip list | findstr paddle

预期输出：

paddlepaddle 2.6.2 paddleocr 2.8.1

五、文字识别代码实现

5.1 基础版识别代码

新建ocr_demo.py文件，编写以下完整代码：

# 导入PaddleOCR核心类 from paddleocr import PaddleOCR # 1. 初始化OCR引擎 ocr = PaddleOCR( use_angle_cls=True, # 开启文字方向分类，自动矫正倾斜/倒置文字 use_gpu=False, # CPU环境必须设为False，GPU用户可设为True show_log=False, # 关闭模型加载日志，简化输出 lang='ch' # 指定识别语言，ch=中文，en=英文，japan=日文 ) # 2. 指定待识别图片路径（r前缀表示原始字符串，避免路径转义问题） img_path = r'image.png' # 需将待识别图片与代码文件放在同一目录 # 3. 执行文字识别（cls=True：识别时开启方向矫正） result = ocr.ocr(img_path, cls=True) # 4. 打印完整识别结果（包含坐标、文本、置信度） print("完整识别结果：") print(result) # 5. 解析结果，提取纯文本内容 print("\n提取的文本内容：") for line in result[0]: text = line[1][0] # line[1][0]为识别的文本内容 confidence = line[1][1] # line[1][1]为识别置信度（0~1，越高越可靠） print(f"{text}")

5.2 关键参数详解

参数	取值	说明
`use_angle_cls`	`True/False`	开启后自动矫正倾斜文字，提升识别准确率，推荐设为`True`
`use_gpu`	`True/False`	CPU 环境必须设为`False`，GPU 环境需匹配 CUDA 版本后设为`True`
`lang`	`ch/en/japan/fr`等	支持 80 + 语言，中文识别固定为`ch`
`cls`	`True/False`	与`use_angle_cls`联动，识别过程中对文字方向进行矫正

5.3 结果数据结构解析

PaddleOCR 的ocr()方法返回嵌套列表，结构如下：

# result = [ # [ # 第一张图片的识别结果（支持批量识别，此处仅单张图片） # [ # [[x1, y1], [x2, y2], [x3, y3], [x4, y4]], # 文字框的四个顶点坐标 # ("识别文本", 置信度值) # 文本内容与模型置信度 # ], # ... # 更多文字行 # ] # ]

其中，置信度值范围为0~1，越接近 1 表示模型对该识别结果越自信。

六、运行验证与效果分析

6.1 运行步骤（VSCode 终端操作）

将待识别图片（命名为image.png）放入代码文件同目录；
确保 VSCode 选择了虚拟环境的 Python 解释器（右下角状态栏可查看）；
打开终端，执行命令：
```
python ocr_demo.py
```

6.2 运行结果与分析

本次以古诗《江雪》图片为例，运行后终端输出如下：

完整识别结果： [[[[12.0, 13.0], [97.0, 13.0], [97.0, 44.0], [12.0, 44.0]], ('江雪', 0.9995321035385132)], [[[14.0, 89.0], [252.0, 87.0], [252.0, 114.0], [14.0, 116.0]], ('作者：柳宗元', 0.9979780316352844)], [[[16.0, 160.0], [466.0, 160.0], [466.0, 186.0], [16.0, 186.0]], ('千山鸟飞绝，万径人踪灭。', 0.8252583146095276)], [[[14.0, 232.0], [469.0, 232.0], [469.0, 261.0], [14.0, 261.0]], ('孤舟蓑笠翁，独钓寒江雪。', 0.9771364450454711)]]] 提取的文本内容： 江雪 作者：柳宗元 千山鸟飞绝，万径人踪灭。 孤舟蓑笠翁，独钓寒江雪。 进程已结束，退出代码为 0

效果分析：

识别准确率：全诗文本完整识别，无错别字，置信度均在 0.8 以上，其中标题与作者信息置信度接近 1.0；
方向矫正：图片中文字无倾斜，矫正功能未影响识别结果，若使用倾斜图片，该功能可有效提升准确率；
结果解析：通过遍历嵌套列表，成功提取纯文本内容，便于后续存储或处理。

6.3 识别效果优化建议

图片预处理：使用 OpenCV 对图片进行二值化、降噪、对比度调整，解决图片模糊、反光问题；

模型指定：若默认模型识别效果不佳，可手动指定预训练模型路径，如：

ocr = PaddleOCR( use_angle_cls=True, use_gpu=False, lang='ch', det_model_dir='./ch_PP-OCRv3_det_infer', # 文本检测模型路径 rec_model_dir='./ch_PP-OCRv3_rec_infer' # 文本识别模型路径 )

批量识别：通过循环遍历文件夹，实现多张图片的批量识别。

七、常见问题与解决方案

问题现象	可能原因	解决方案
终端提示 “activate 不是内部或外部命令”	未进入 Scripts 目录	先执行`cd D:\huanjing\ocr\Scripts`，再运行`activate`
导入 PaddleOCR 时提示`ModuleNotFoundError`	虚拟环境未激活 / VSCode 解释器选择错误	激活虚拟环境后，在 VSCode 右下角选择虚拟环境的 Python 解释器
首次运行模型下载缓慢 / 失败	网络不稳定	手动下载预训练模型，放入`C:\Users\用户名\.paddleocr\whl`目录
识别结果为空	图片路径错误 / 图片格式不支持	检查图片路径（建议使用绝对路径），确认图片为 jpg/png 格式
中文识别乱码	`lang`参数设置错误	确认`lang='ch'`，且图片无严重遮挡或模糊

八、总结与展望

本文基于 PaddleOCR v2.6.0 实现了 CPU 环境下的中文图片文字识别，通过虚拟环境隔离依赖，解决了新手常见的环境问题，最终实现了高精度的文本提取。本次实战不仅掌握了 OCR 工具的基础使用，也为后续的进阶应用打下基础，如：

结合 OpenCV 实现复杂场景（如票据、证件）的文本识别；
部署为 Web API，实现批量图片识别服务；
基于 PaddleOCR 的版面分析功能，实现文档结构化识别。

PaddleOCR 的轻量性与易用性使其成为 OCR 入门的优质选择，后续将继续探索其进阶功能，分享更多实战案例。

参考文献

[1] PaddleOCR 官方仓库. https://gitee.com/paddlepaddle/PaddleOCR/tree/v2.6.0

[2] PaddleOCR 参数说明文档. https://blog.csdn.net/qq_41273999/article/details/135868038

基于 PaddleOCR v2.6.0 的图片文字识别实战（CPU 版）

摘要

关键词