基于RAG与Agent的本地知识库问答系统：Langchain-Chatchat部署与实战-编程阁

1. 项目概述：一个开箱即用的本地知识库问答系统

如果你正在寻找一个能够将本地文档、PDF、网页内容变成你自己的“AI专家助理”的解决方案，那么Langchain-Chatchat绝对值得你花时间研究。我最初接触这个项目，是因为厌倦了每次向通用大模型提问时，都需要反复粘贴上下文，或者面对它一本正经地“胡说八道”。我需要一个能“记住”我所有内部文档、技术手册、会议纪要，并能基于这些私有知识精准回答问题的工具。

Langchain-Chatchat 完美地解决了这个痛点。它不是一个简单的聊天机器人，而是一个集成了RAG（检索增强生成）和Agent（智能体）能力的完整应用框架。简单来说，它的工作流程可以概括为：上传你的文档 -> 自动切片并向量化存储 -> 用户提问时，先从你的文档库中精准检索相关片段 -> 将这些片段作为上下文，连同问题一起交给大语言模型生成最终答案。整个过程可以完全在本地或私有服务器上运行，数据无需出域，安全可控。

从最初的 Langchain-ChatGLM 到现在的 Langchain-Chatchat，项目已经迭代了多个大版本。特别是 0.3.x 版本，架构上有了质的飞跃。它不再捆绑特定的模型加载方式，而是演变成一个模型无关的中间层，通过标准化的接口（如 OpenAI API 格式）对接市面上几乎所有主流的开源模型服务框架，比如 Xinference、Ollama、LocalAI 等。这意味着你可以自由选择用哪个框架来部署 GLM-4、Qwen、Llama3 等模型，而 Langchain-Chatchat 则专注于做好知识库管理、检索、对话逻辑和 Web 界面这些上层应用。无论你是想快速搭建一个企业知识库问答系统，还是想深入研究 RAG 和 Agent 的落地实践，这个项目都提供了一个极佳的起点。

2. 核心架构与设计思路拆解

2.1 从“模型绑定”到“框架适配”的演进

在 0.2.x 及更早的版本中，Langchain-Chatchat（当时还叫 Langchain-ChatGLM）与模型加载框架（如 FastChat）耦合较深。用户需要按照项目指定的方式去安装、配置和启动模型服务，这虽然简化了初期的部署，但也带来了灵活性不足的问题。当新的、更高效的模型服务框架（如 Ollama、Xinference）出现时，项目很难快速跟进。

0.3.x 版本的核心设计转变，就是解耦。项目团队抽象出了一套统一的模型调用接口，其核心是兼容OpenAI API 格式。现在，只要你部署的模型服务（无论是本地的 Xinference，还是在线的 One API 网关）能够提供符合 OpenAI API 规范的/v1/chat/completions等端点，Langchain-Chatchat 就能无缝接入。这种设计带来了巨大的优势：

模型选择自由化：你不再被限制于项目内置支持的几个模型。任何能被上述框架加载的模型，无论是百亿参数的大家伙，还是精心微调的小模型，都可以接入使用。
部署方式多样化：你可以根据硬件条件选择框架。比如，在 Mac 上用 Ollama 跑 Llama3 非常方便；在拥有 NVIDIA GPU 的服务器上，用 Xinference 或 vLLM 可以获得更好的推理性能；如果想统一管理多个在线 API 密钥，可以用 One API。
项目维护更聚焦：项目团队可以将精力集中在优化 RAG 流水线、增强 Agent 能力、改善 WebUI 体验等应用层功能上，而不必陷入为每一个新模型适配驱动程序的繁琐工作中。

2.2 功能模块全景图

理解 Langchain-Chatchat，可以将其分为四个核心层次：

数据接入与处理层：这是知识的入口。支持多种格式文件（TXT、PDF、Word、PPT、Markdown 等）的上传。通过unstructured等库进行文本提取，然后进行智能分割（避免从段落中间切断语义），最后通过 Embedding 模型将文本片段转化为高维向量。
向量存储与检索层：处理后的向量被存入向量数据库，如 FAISS、Milvus 等。当用户提问时，问题本身也会被转化为向量，系统通过计算余弦相似度等度量方式，从海量文档向量中快速找出最相关的几个片段（top-k）。这一步的精度直接决定了后续回答的质量。
应用逻辑与编排层：这是项目的大脑。它负责协调各个模块：
- 基础对话：简单的 LLM 对话，不涉及知识库。
- 知识库问答：将检索到的文档片段作为上下文，构造 Prompt，发送给 LLM 生成答案。这是最核心的 RAG 流程。
- Agent 智能体：在 0.3.x 版本中能力得到显著增强。LLM 可以自动调用工具，例如联网搜索、查询数据库、进行数学计算（Wolfram）、解读 arXiv 论文，甚至进行文生图。这使系统从“问答机”进化成了“执行者”。
- 多模态对话：支持上传图片，结合像 Qwen-VL 这样的多模态模型进行对话。
交互与部署层：
- WebUI：基于 Streamlit 构建的用户界面，提供了聊天、知识库管理、模型配置等所有功能的图形化操作。
- API 服务：基于 FastAPI 构建的 RESTful API，方便其他系统集成调用。
- 命令行工具：提供了chatchat命令行工具，用于初始化、启动、管理知识库等，极大简化了运维操作。

这种分层架构使得每个部分都可以相对独立地发展和替换，比如你可以把默认的 FAISS 向量库换成性能更强的 Milvus，或者替换文本分割策略，而不会影响其他模块。

3. 从零开始的详细部署与配置指南

纸上得来终觉浅，下面我将以最常用的“pip安装 + Xinference框架”为例，带你走一遍完整的部署流程。我会补充官方文档中可能一笔带过但对新手至关重要的细节和原理。

3.1 环境准备与项目安装

3.1.1 创建独立的 Python 虚拟环境

这是必须且首要的步骤。因为 Langchain-Chatchat 和模型框架（如 Xinference）的依赖可能非常复杂且存在冲突，混在一个环境里极易导致安装失败或运行时错误。

# 使用 conda（推荐，便于管理不同版本的Python和包） conda create -n chatchat_env python=3.10 conda activate chatchat_env # 或者使用 venv python -m venv chatchat_venv # Linux/Mac source chatchat_venv/bin/activate # Windows chatchat_venv\Scripts\activate

实操心得：我强烈推荐使用 Conda，尤其是在 Windows 系统上。它能更好地处理一些底层 C++ 库的依赖（比如某些 Embedding 模型需要的 onnxruntime）。虚拟环境的名字建议包含项目名和 Python 版本，如chatchat_py310，方便日后管理。

3.1.2 安装 Langchain-Chatchat 核心包

在激活的虚拟环境中，执行安装命令。为了后续能使用 Xinference，我们直接安装带 Xinference 依赖的版本。

# 使用国内镜像源加速下载 pip install "langchain-chatchat[xinference]" -U -i https://pypi.tuna.tsinghua.edu.cn/simple

这里的[xinference]是“额外依赖”的语法，它会同时安装langchain-chatchat核心包以及 Xinference 框架所需的特定依赖（如xinference客户端库）。-U确保安装最新版，-i指定清华源加速。

安装后验证：执行chatchat --version，如果能正常输出版本号（如0.3.1），说明核心包安装成功。

3.2 部署并配置模型推理服务（以 Xinference 为例）

这是整个部署中最关键、也最容易出错的环节。Langchain-Chatchat 本身不运行模型，它需要一个“模型服务提供商”。

3.2.1 启动 Xinference 服务

为什么选择 Xinference？因为它支持模型类型最全（LLM, Embedding, Rerank, 多模态），部署简单（一条命令），且支持 GPU/CPU 异构调度，非常适合本地实验和生产环境。

为 Xinference 创建另一个虚拟环境（再次强调，与 Chatchat 环境隔离）：
```
conda create -n xinference_env python=3.10 conda activate xinference_env
```

安装 Xinference：

# 如果想用 GPU 加速，安装此版本 pip install "xinference[all]" -U # 如果只用 CPU，安装此版本即可 pip install xinference -U

启动 Xinference 服务：
```
# 默认会在本地 9997 端口启动服务 xinference-local -H 0.0.0.0 --port 9997
```
- -H 0.0.0.0允许同一网络内的其他机器访问（比如你在一台服务器上部署，用另一台电脑的浏览器操作）。如果只在本机使用，可以省略。
- 启动成功后，访问http://你的服务器IP:9997就能看到 Xinference 的 Web 管理界面。

3.2.2 在 Xinference 中加载所需模型

我们需要至少两个模型：一个用于对话的LLM（大语言模型），一个用于将文本转换为向量的Embedding 模型。

通过 WebUI 加载（推荐给新手）：
- 打开http://localhost:9997。
- 点击 “Models” -> “Launch Model”。
- 在 “Model Hub” 里搜索你想要的模型。例如：
  - LLM：搜索qwen2.5，选择qwen2.5:7b-instruct（这是一个约 70 亿参数的模型，对硬件要求相对友好）。在 “Model Format” 处，根据你的硬件选择。有 NVIDIA GPU 选gptq或tensorrt；只有 CPU 选ggmlv3。
  - Embedding：搜索bge，选择bge-large-zh-v1.5（一个效果很好的中文 Embedding 模型）。它的格式通常选择default。
- 点击 “Launch”，Xinference 会自动从网上下载模型。首次下载需要较长时间，请耐心等待。

通过命令行加载（适合自动化）：

# 获取可用的模型列表 xinference list --all # 启动一个 Qwen2.5 7B 模型 (假设你的GPU支持) xinference launch --model-name qwen2.5:7b-instruct --model-format gptq --size-in-billions 7 # 启动一个 BGE Embedding 模型 xinference launch --model-name bge-large-zh-v1.5 --model-type embedding

启动成功后，命令行会输出模型的UID，形如8dfa-...，这个 ID 在后续配置中会用到。

重要提示：模型加载成功后，在 Xinference 的 “Running Models” 页面，你会看到每个模型对应的“Model UID”和一个API 端点（如http://localhost:9997/v1）。请记下 LLM 和 Embedding 模型的 UID。

3.2.3 使用本地已下载的模型文件

如果你已经提前从 Hugging Face 等地方下载好了模型文件（.bin,.safetensors,.gguf等），可以避免在线下载的等待。

正常启动 Xinference 服务。
打开另一个终端，进入 Langchain-Chatchat 的虚拟环境。

导航到chatchat包内的工具目录，运行一个辅助 Web 工具：

# 找到 tools 目录的路径，通常在 site-packages 下 python -c "import chatchat; print(chatchat.__file__)" # 假设输出 /path/to/site-packages/chatchat/__init__.py # 那么 tools 目录在 /path/to/site-packages/chatchat/tools cd /path/to/site-packages/chatchat/tools streamlit run xinference_manager.py

浏览器会自动打开一个页面。在页面中，你可以选择模型类型、填写模型在 Xinference 中的名称、以及最重要的——本地模型文件的绝对路径。提交后，Xinference 就会使用你本地的模型文件，而不再下载。

3.3 配置 Langchain-Chatchat

这是连接 Chatchat 应用和 Xinference 模型服务的桥梁。

3.3.1 初始化项目配置

首先，设置一个环境变量来指定所有数据和配置文件的存储根目录。这能让你的项目文件井然有序，也便于备份。

# Linux/Mac export CHATCHAT_ROOT=/home/yourname/chatchat_data # Windows (PowerShell) $env:CHATCHAT_ROOT="D:\chatchat_data" # Windows (CMD) set CHATCHAT_ROOT=D:\chatchat_data

然后，运行初始化命令：

chatchat init

这个命令会在CHATCHAT_ROOT目录下创建configs,data等子文件夹，并生成一套默认的 YAML 配置文件。

3.3.2 关键配置文件详解

你需要修改的主要是configs/model_settings.yaml文件。用任何文本编辑器打开它。

配置模型平台连接：找到MODEL_PLATFORMS部分。我们需要添加 Xinference 的配置。在xinference项下，修改api_base_url为你的 Xinference 服务地址，api_key可以留空（如果没设置的话）。
```
MODEL_PLATFORMS: xinference: platform_name: "xinference" api_base_url: "http://localhost:9997/v1" # 注意这里的 /v1 api_key: "empty"
```
配置默认使用的模型：在文件顶部附近，找到并修改以下两项，指定默认使用的 LLM 和 Embedding 模型在 Xinference 中的“模型UID”。
```
DEFAULT_LLM_MODEL: "qwen2.5:7b-instruct" # 这里填的是你在Xinference里看到的模型“名称”，不是UID DEFAULT_EMBEDDING_MODEL: "bge-large-zh-v1.5" # 同上，填模型名称
```
注意：在model_settings.yaml中，DEFAULT_LLM_MODEL等字段的值，对应的是下面LLM_MODEL_CONFIG里定义的配置项名称，而不是直接填 UID。但 Xinference 的配置比较特殊，它允许你直接使用模型名称。系统会先尝试用这个名字去MODEL_PLATFORMS里配置的api_base_url下查找对应模型。

配置具体的模型参数：向下滚动到LLM_MODEL_CONFIG部分。你需要为你上一步设置的DEFAULT_LLM_MODEL（即qwen2.5:7b-instruct）添加一个配置块。

LLM_MODEL_CONFIG: "qwen2.5:7b-instruct": # 这个键名必须和 DEFAULT_LLM_MODEL 的值完全一致 model_name: "qwen2.5:7b-instruct" # 模型显示名 model_type: "xinference" # 指定使用哪个平台 model_engine: "xinference" # 引擎类型 model_path: "" # 本地路径，对于xinference可留空 model_version: "*" # 版本 api_base_url: "http://localhost:9997/v1" # 覆盖平台级别的配置（如果需要） api_key: "empty" openai_config: temperature: 0.1 # 温度参数，控制创造性。知识库问答建议调低（如0.1），让答案更确定。 top_p: 0.9 max_tokens: 4096 # ... 其他OpenAI兼容参数

同理，在EMBEDDING_MODEL_CONFIG部分配置你的 Embedding 模型。

3.3.3 初始化知识库

在启动 Web 服务前，我们需要构建一个初始的知识库向量索引。

确保你的 Xinference 服务正在运行，并且 Embedding 模型已加载。

执行知识库重建命令：

chatchat kb -r

这个命令会读取configs/kb_settings.yaml中的配置，使用配置的 Embedding 模型，将data/knowledge_base/samples目录下的示例文档进行切分、向量化，并存入向量数据库（默认是 FAISS）。

看到类似下面的输出，即表示成功：

---------------------------------------------------------------------------------------------------- 知识库名称 ：samples 知识库类型 ：faiss 向量模型： ：bge-large-zh-v1.5 ... 用时 ：0:02:29.701002 ----------------------------------------------------------------------------------------------------

3.4 启动 Web 服务并验证

所有配置完成后，就可以启动应用了。

chatchat start -a

-a参数表示同时启动 API 服务（FastAPI）和 WebUI 服务（Streamlit）。默认情况下，API 运行在127.0.0.1:7861，WebUI 运行在127.0.0.1:8501。

打开浏览器，访问http://localhost:8501，你应该能看到 Langchain-Chatchat 的界面。

首次验证：

在左侧对话区域，不选择任何知识库，直接向 LLM 提问（例如“你好”）。这测试的是基础的 LLM 对话功能，确认 Xinference 中的 LLM 模型连接正常。
如果基础对话正常，在右上角选择“知识库问答”，并选中samples知识库，然后问一个示例文档中可能包含的问题（例如“什么是 Langchain？”）。这测试的是完整的 RAG 流程，包括 Embedding 模型、向量检索和上下文生成。

如果两步都能得到合理回复，恭喜你，一个完整的本地知识库问答系统已经部署成功！

4. 核心功能深度使用与优化技巧

部署只是第一步，要让 Langchain-Chatchat 真正发挥威力，必须深入理解其核心功能并掌握优化技巧。

4.1 知识库管理：不只是上传文件

知识库是系统的核心记忆。在 WebUI 的“知识库管理”页面，你可以进行上传、删除、重建等操作。但有几个关键点决定了知识库的质量：

文本分割策略：这是 RAG 效果的“命门”。不合理的分割会切断语义，导致检索出无关片段。Langchain-Chatchat 默认使用ChineseRecursiveTextSplitter，它尝试按中文标点、段落进行递归分割。你可以通过修改configs/kb_settings.yaml中的text_splitter_dict来调整chunk_size（片段大小）和chunk_overlap（重叠长度）。我的经验是：
- 对于技术文档、论文，chunk_size=500, chunk_overlap=50是个不错的起点。
- 对于小说、长篇文章，可以适当增大chunk_size到 800-1000。
- chunk_overlap设置一些重叠，可以避免一个完整的句子被切到两个片段边缘，有助于提升检索连贯性。
Embedding 模型的选择：bge-large-zh-v1.5是目前中文领域综合表现最好的开源 Embedding 模型之一。如果你的文档全是英文，可以考虑text2vec或multilingual-e5系列。在model_settings.yaml中切换DEFAULT_EMBEDDING_MODEL并重启服务即可。切记，更换 Embedding 模型后，必须重建知识库，因为不同模型生成的向量空间不同，无法混用。
向量数据库的选择：默认的 FAISS 简单高效，适合千万级以下向量的单机场景。如果你的文档量极大（上亿片段），或者需要分布式、持久化、动态更新，可以考虑切换到Milvus或Chroma。在kb_settings.yaml中修改DEFAULT_VS_TYPE和对应的kbs_config即可。

4.2 Agent 功能的实战应用

0.3.x 版本的 Agent 是其一大亮点。它让 LLM 从“答题者”变成了“操盘手”。

如何使用：

在 WebUI 对话界面，勾选“启用 Agent”。
在下方工具列表中，选择你想要开放给模型使用的工具，例如“搜索引擎”、“计算器（WolframAlpha）”、“文生图”等。
现在，你可以用自然语言发出复杂指令，比如：“帮我查一下今天北京的天气，然后根据天气情况，生成一张适合这种天气的户外活动海报图片。”

背后的原理：当你勾选“启用 Agent”后，系统会在发送给 LLM 的 Prompt 中，加入你所选工具的“功能描述”（一种结构化的说明，告诉模型这个工具能干什么、需要什么参数）。具备 Agent 能力的 LLM（如 GLM-4、Qwen2.5-Instruct）在理解你的问题后，会自主规划：先调用“搜索引擎”工具查询天气，解析返回的结果，再根据结果中的天气关键词，调用“文生图”工具生成图片。整个过程完全自动化。

避坑指南：不是所有模型都具备强大的 Agent 能力。像 ChatGLM3、Qwen2.5-Instruct 在这方面训练得很好。如果你用的是一些基础模型，可能会发现它无法正确选择或调用工具。此时，可以退而求其次：只选择一个工具，并勾选“启用 Agent”。这样 LLM 只负责解析你的自然语言，并填好调用该工具所需的参数，由系统来执行。这降低了难度，依然能实现“说话就能操作”的效果。

4.3 文件对话与数据库对话

文件对话：在“知识库对话”模式下，你可以直接上传文件进行即时问答，而无需先将文件入库。系统会当场处理这个文件，进行向量化检索并回答。适合临时分析单个文档。它的检索方式在 0.3.x 中得到了增强，结合了传统的 BM25 关键词检索和向量检索，能更好地应对专业术语和长尾查询。
数据库对话：这是一个非常强大的功能，允许你用自然语言查询数据库。你需要先在configs/basic_settings.yaml中配置数据库连接信息（支持 MySQL、PostgreSQL、SQLite 等）。配置好后，在对话中选择“数据库对话”模式，就可以像问分析师一样提问，例如：“上个月销售额最高的产品是什么？” 系统会自动将你的问题转换成 SQL 语句，执行并解释结果。务必在测试环境充分验证，避免生成有破坏性的 SQL。

5. 常见问题排查与性能调优实录

在实际部署和使用中，你一定会遇到各种问题。下面是我踩过坑后总结的排查清单。

5.1 部署与启动问题

问题现象	可能原因	解决方案
`chatchat init`或启动时报`ModuleNotFoundError`	虚拟环境未激活，或依赖包冲突。	1. 确认已激活正确的虚拟环境 (`conda activate chatchat_env`)。 2. 尝试在干净的新虚拟环境中重新安装`pip install "langchain-chatchat[xinference]" -U`。
访问 WebUI (`localhost:8501`) 失败	服务未启动，或防火墙/端口占用。	1. 检查`chatchat start -a`命令是否成功执行，有无报错。 2. 检查端口是否被占用：`netstat -ano \| findstr :8501`(Win) 或`lsof -i:8501`(Mac/Linux)。 3. 检查`basic_settings.yaml`中的`DEFAULT_BIND_HOST`，如果是服务器部署，需改为`0.0.0.0`。
知识库初始化时卡在“加载文档”或报`magic`相关错误（尤其在Windows）	`python-magic-bin`包版本或系统依赖问题。	1. 卸载现有版本：`pip uninstall python-magic-bin`。 2.记录下被卸载的版本号。 3. 重新安装指定版本：`pip install python-magic-bin==刚才记录的版本号`。 4. 如果还不行，尝试安装`pip install python-magic-bin==0.4.14`（一个较稳定的版本）。
Xinference 启动模型时下载失败或极慢	网络连接 Hugging Face 或模型源不稳定。	1.最佳方案：提前用其他工具（如`huggingface-cli`或`git lfs`）下载好模型文件到本地，然后使用`xinference_manager.py`工具进行本地加载。 2. 配置网络代理（如果条件允许且合规）。 3. 尝试更换其他模型源（某些框架支持配置镜像源）。

5.2 对话与检索问题

问题现象	可能原因	解决方案
LLM 对话正常，但知识库问答返回“未找到相关文档”或胡言乱语。	1. Embedding 模型未启动或连接失败。 2. 知识库未成功构建。 3. 检索的 top-k 值设置过小。	1. 检查 Xinference 界面，确认 Embedding 模型状态为“Running”。 2. 检查`model_settings.yaml`中`DEFAULT_EMBEDDING_MODEL`的配置是否正确指向运行的模型。 3. 在知识库管理页面，尝试“重建”知识库，观察日志是否有错误。 4. 在 WebUI 对话框右侧的“高级设置”中，调大“匹配向量数量”（即 top-k），例如从 3 调到 5 或 7。
回答的内容与文档无关，像是 LLM 的“自由发挥”。	检索到的文档片段相关性不高，或 Prompt 中上下文权重不够。	1.优化检索：调整文本分割的`chunk_size`，使其更符合文档结构。考虑启用`rerank`（重排序）模型，对初步检索的结果进行精排。 2.优化 Prompt：在`configs/prompt_config.py`（或对应yaml）中，可以微调知识库问答的模板，增加如“请严格依据以下上下文回答”等强调性语句。 3. 检查检索分数阈值，过滤掉相似度太低的片段。
Agent 调用工具失败，或 LLM 不理解工具。	1. 模型本身 Agent 能力弱。 2. 工具所需的 API Key 未配置（如搜索引擎、Wolfram）。 3. 工具描述不够清晰。	1. 换用更强的 Agent 模型，如 GLM-4、Qwen2.5-Instruct。 2. 到`configs/tool_config.yaml`中，填写对应工具所需的 API Key。 3. 对于复杂任务，尝试拆分成单一步骤，或手动选择单个工具让 LLM 只做参数解析。

5.3 性能调优建议

硬件分配：
- LLM 模型：这是最大的资源消耗者。7B 参数模型在 GPU 上需要约 14GB+ 显存（FP16），在 CPU 上推理会非常慢。13B 模型需要约 26GB+ 显存。请根据你的硬件选择模型。使用量化模型（GPTQ, GGUF）可以大幅降低显存/内存占用。
- Embedding 模型：推理速度较快，对硬件要求相对较低，但批量处理大量文档时也会占用可观资源。
- 建议：将 LLM 和 Embedding 模型部署在同一台机器的不同 GPU 上（如果有多卡），或者使用 CPU 跑 Embedding，GPU 专供 LLM。
推理加速：
- 在 Xinference 或 Ollama 中，选择适合你硬件的模型格式（如 GPU 用gptq/tensorrt，CPU 用ggml）。
- 启用vLLM作为推理后端（如果框架支持），它可以利用 PagedAttention 等技术极大提升吞吐量。
- 调整model_settings.yaml中 LLM 的max_tokens（生成最大长度）和temperature（创造性），在满足需求的前提下尽可能调低，能加快响应速度。
检索优化：
- 索引优化：如果使用 FAISS，可以选择IndexIVFFlat等索引类型来加速海量向量的检索，但这需要在创建知识库时指定。
- 分级检索：先使用快速的、粗粒度的检索器（如 BM25）召回一批候选文档，再用精密的向量检索器（Embedding）进行重排序，兼顾速度和精度。

我个人在多次部署后最大的体会是：稳定性优先于新奇性。对于生产环境，不要盲目追求最新最大的模型。一个稳定运行的 7B 模型，远比一个动不动就崩溃的 70B 模型有用。先从一个小而精的知识库（比如你团队最重要的产品手册）开始，跑通整个流程，再逐步扩大范围和复杂度。Langchain-Chatchat 的模块化设计允许你一步步替换其中的组件，比如先换一个更强的 Embedding 模型，再升级 LLM，最后优化检索策略，这种渐进式的优化路径非常友好。