Chandra OCR实操手册：CLI命令行+Streamlit界面双模式使用指南-编程阁

Chandra OCR实操手册：CLI命令行+Streamlit界面双模式使用指南

本文介绍如何快速上手Chandra OCR模型，通过CLI命令行和Streamlit界面两种方式，将图片/PDF一键转换为保留排版信息的Markdown、HTML或JSON格式。

1. 环境准备与快速安装

Chandra OCR是一个开源的"布局感知"OCR模型，能够准确识别图片和PDF中的文字、表格、公式、手写体等复杂元素，并保持原始排版结构。最重要的是，它只需要4GB显存就能运行，非常适合个人开发者和小型团队使用。

安装要求：

操作系统：Linux/Windows/macOS均可
Python版本：3.8或更高
显存：最低4GB（推荐8GB以上获得更好性能）
磁盘空间：至少10GB可用空间

一键安装命令：

pip install chandra-ocr

安装过程会自动下载所有依赖包，包括vLLM推理引擎。如果网络环境不稳定，可以使用清华镜像源加速：

pip install chandra-ocr -i https://pypi.tuna.tsinghua.edu.cn/simple

2. CLI命令行模式使用指南

命令行模式适合批量处理文件，可以轻松集成到自动化脚本中。

2.1 基本使用命令

最简单的使用方式是指定输入文件路径：

chandra-ocr input.jpg

这条命令会生成一个同名的Markdown文件（input.md），包含识别结果和排版信息。

2.2 高级参数设置

Chandra OCR提供了丰富的参数来满足不同需求：

# 指定输出格式和路径 chandra-ocr document.pdf --output result.md --format markdown # 同时输出多种格式 chandra-ocr input.png --format markdown html json # 设置识别语言（支持中英日韩德法西等40+语言） chandra-ocr input.jpg --language zh # 中文 chandra-ocr input.jpg --language en # 英文 # 批量处理整个文件夹 chandra-ocr ./documents/ --output ./results/ --batch

2.3 处理复杂文档

对于包含表格、公式的特殊文档，可以调整识别参数：

# 优化表格识别 chandra-ocr table_document.jpg --table-detection aggressive # 增强公式识别精度 chandra-ocr math_document.jpg --math-ocr precise # 处理手写体内容 chandra-ocr handwritten_notes.jpg --handwriting enabled

3. Streamlit交互界面使用指南

如果你更喜欢图形化操作，Chandra OCR提供了基于Streamlit的Web界面。

3.1 启动Web界面

在命令行中输入以下命令启动服务：

chandra-ocr-ui

启动成功后，终端会显示访问地址（通常是 http://localhost:8501），在浏览器中打开即可使用。

3.2 界面功能详解

Streamlit界面分为几个主要区域：

文件上传区：可以拖拽或点击选择图片/PDF文件，支持批量上传参数设置区：调整识别语言、输出格式、特殊元素处理等选项预览区：实时显示识别结果，支持Markdown、HTML、JSON三种视图切换下载区：一键下载识别结果文件

3.3 实际操作演示

上传文件：点击"Upload"按钮选择要识别的文件
设置参数：根据需要选择语言和输出格式
开始识别：点击"Process"按钮，等待处理完成
查看结果：在预览区检查识别效果，切换不同格式查看
下载文件：满意后点击下载按钮保存结果

对于复杂文档，建议先使用默认设置处理，如果某些元素识别不理想，再调整特定参数重新处理。

4. 处理效果与实际案例

Chandra OCR在各类文档上都有出色的表现，下面是一些实际效果展示。

4.1 表格识别效果

处理包含复杂表格的商业报告时，Chandra能够准确识别表格结构，保留行列关系，并输出为Markdown表格格式。实测显示，表格识别准确率达到88%，在同类工具中表现优异。

4.2 数学公式处理

对于学术论文中的数学公式，Chandra采用特殊的公式识别引擎，能够准确捕捉上下标、分式、积分符号等复杂元素。在老扫描版数学文档上识别准确率超过80%。

4.3 多语言支持

支持40多种语言混合识别，特别对中英日韩德法西等语言进行了优化。即使在同一文档中出现多种语言，也能准确区分和识别。

4.4 保留排版布局

与传统OCR只提取文字不同，Chandra能够保留原文的排版信息，包括标题层级、段落缩进、列表格式等，使得输出结果更接近原始文档的视觉效果。

5. 常见问题与解决方案

5.1 显存不足问题

如果遇到显存不足的错误，可以尝试以下解决方案：

# 使用低精度模式减少显存占用 chandra-ocr input.jpg --precision fp16 # 调整批处理大小 chandra-ocr input.jpg --batch-size 1 # 使用CPU模式（速度较慢） chandra-ocr input.jpg --device cpu

5.2 识别精度调整

如果某些内容识别不准确：

# 提高识别精度（会增加处理时间） chandra-ocr input.jpg --quality high # 针对特定类型内容优化 chandra-ocr input.jpg --enhance tables # 优化表格识别 chandra-ocr input.jpg --enhance math # 优化公式识别

5.3 批量处理技巧

处理大量文件时，可以使用脚本自动化：

#!/bin/bash # 批量处理当前目录下所有jpg和pdf文件 for file in *.jpg *.pdf; do chandra-ocr "$file" --output "./output/${file%.*}.md" done

6. 总结

Chandra OCR是一个功能强大且易于使用的OCR工具，通过本指南介绍的CLI命令行和Streamlit界面两种方式，你可以轻松地将图片和PDF转换为结构化的Markdown、HTML或JSON格式。

主要优势：

安装简单，开箱即用
支持保留排版信息，不只是文字提取
表格、公式、手写体识别准确率高
双操作模式，满足不同使用习惯
硬件要求低，4GB显存即可运行

适用场景：

将扫描文档转换为可编辑格式
提取PDF中的表格数据
学术论文的公式识别和转换
多语言文档处理
文档数字化和知识库构建

无论是个人使用还是集成到自动化流程中，Chandra OCR都能提供出色的文档识别和转换体验。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Chandra OCR实操手册：CLI命令行+Streamlit界面双模式使用指南