1. 前言
痛点:ChatGPT要梯子,API太贵,公司数据不敢上传云端。
解决方案:使用国产之光DeepSeek配合Ollama进行本地部署,完全免费且离线可用。
本文目标:手把手教你搭建一个能读懂你PDF文档的AI助手。
2. 环境准备
Ollama安装:给出Windows/Mac/Linux的安装命令(强调简单)。
模型拉取:ollama run deepseek-coder:33b # 或者 deepseek-llm
*(注:提醒读者根据显存选择模型大小)*
3. 核心代码实战(Python + LangChain)
依赖安装:
pip install langchain chromadb ollama向量化处理(Embeddings):解释为什么需要向量化(让计算机听懂人话)。
代码示例(关键部分):
from langchain_community.llms import Ollama from langchain.document_loaders import PyPDFLoader from langchain.vectorstores import Chroma from langchain.embeddings import HuggingFaceEmbeddings # 1. 加载本地私有数据 loader = PyPDFLoader("我的绝密文档.pdf") pages = loader.load_and_split() # 2. 向量化并存入数据库 vector_db = Chroma.from_documents( documents=pages, embedding=HuggingFaceEmbeddings(model_name="moka-ai/m3e-base"), # 推荐中文友好的Embedding persist_directory="./db" ) # 3. 召唤DeepSeek回答问题 llm = Ollama(model="deepseek-llm") retriever = vector_db.as_retriever()
4. 避坑指南
显存溢出怎么办?
中文回答乱码怎么调?
DeepSeek与其他模型(如Llama 3)的对比优劣。
5. 结语与福利
互动:“由于篇幅限制,下一篇讲如何给这个系统套个Web UI壳子,想看的在评论区扣1!”
拉票:“正在参加CSDN 2025博客之星,如果本文对你有用,请投我一票!”