Flowise开源模型部署教程：支持Ollama本地模型+向量库一体化配置-编程阁

Flowise开源模型部署教程：支持Ollama本地模型+向量库一体化配置

1. Flowise是什么：零代码搭建AI工作流的可视化平台

Flowise 是一个在2023年正式开源的低门槛AI应用构建工具，它的核心价值非常直白——不用写一行LangChain代码，就能把大模型能力变成可运行、可交付的业务系统。它不是另一个命令行工具，也不是需要反复调试配置文件的实验性项目，而是一个真正面向工程落地的“画布式”平台：你拖拽节点、连接线条、点击保存，一个具备文档问答、知识检索、智能代理能力的应用就跑起来了。

很多人第一次听说Flowise时会下意识觉得：“又是前端界面套壳？”但实际用过就会发现，它背后封装的是真实、完整、可扩展的LangChain能力链。从文本分块（Text Splitter）、嵌入模型（Embedding Model）、向量数据库（Vector Store），到LLM调用、提示词编排、工具集成（Tool）、条件判断（If/Else）、循环控制（Loop）——所有这些模块都被抽象成直观的图形节点，每个节点都支持参数微调，且默认已适配主流后端服务。

1.1 为什么开发者和业务方都在用Flowise？

对开发者来说：它省去了重复搭建RAG基础链路的时间。你不再需要每次新建项目都重写loader→splitter→embedding→vectorstore→retriever→llm的流水线，Flowise已经把这些封装好，你只需关注“我的知识库长什么样”“我希望怎么回答用户”。
对非技术同事来说：产品、运营、客服主管可以直接登录Web界面，自己调整Prompt模板、上传PDF文档、测试问答效果，甚至导出API给前端调用——无需等研发排期。
对企业IT来说：MIT协议意味着商用无限制；45.6k GitHub Stars背后是活跃的社区和高频更新；Docker镜像开箱即用，连树莓派4都能跑，本地部署毫无压力。

一句话总结它的定位：“LangChain的能力，Power BI的交互，Postman的交付。”

1.2 它能做什么？不是概念演示，而是真实可用的场景

Flowise不是玩具，它支撑的是真实业务中高频出现的几类刚需：

企业知识库问答：把内部Wiki、PDF手册、会议纪要、产品文档一键转成可对话的知识助手；
智能客服前置分流：接入历史工单数据，让客户在提交问题前先被AI自动解答；
销售话术训练沙盒：上传竞品资料+公司SOP，生成不同风格的话术建议供销售演练；
自动化内容生成：结合Web Scraping节点抓取公开信息，再用LLM提炼摘要、生成报告初稿；
SQL自然语言查询：非技术人员输入“上个月华东区销售额TOP5的客户”，自动生成并执行SQL，返回表格结果。

这些都不是Demo视频里的“看起来很厉害”，而是Marketplace里已有100+个现成模板——点一下“Import”，改两处参数，5分钟内就能跑通全流程。

2. 本地模型实战：用Ollama + vLLM快速启动高性能推理服务

Flowise本身不提供模型，它专注做“流程调度器”。所以要想真正跑起来，你需要一个本地或远程的LLM服务。而当前最轻量、最易上手、又足够强大的组合，就是Ollama（模型管理） + vLLM（高性能推理）。

Ollama让你像docker pull一样下载和运行模型：ollama run qwen2:7b、ollama run phi3:mini，几秒内就能获得一个可调用的本地API；vLLM则在此基础上大幅提升吞吐量和并发能力——尤其适合Flowise这种需要同时处理多个节点请求的工作流平台。

2.1 为什么选这个组合？不是为了炫技，而是解决真问题

问题场景	传统做法	Ollama+vLLM方案
模型启动慢，每次加载要30秒以上	手动加载GGUF、配置transformers参数	`ollama serve`常驻后台，模型热加载，首次调用<3秒
多人同时提问卡顿、响应延迟高	单线程Flask/Gradio服务，QPS<2	vLLM支持PagedAttention，8GB显存也能稳定跑10+并发
换模型要改一堆代码和配置	修改Python脚本中的model_id、tokenizer路径、device设置	Flowise界面里下拉选择“Ollama”节点，填入模型名（如`qwen2:7b`）即可切换

更重要的是，这个组合完全本地化：你的数据不出内网，模型权重存在自己机器上，没有API密钥泄露风险，也没有按Token计费的焦虑。

2.2 三步完成本地模型接入（含完整命令）

我们以Ubuntu 22.04环境为例，全程无需root权限，所有操作在/app目录下完成：

# 第一步：安装基础依赖（OpenBLAS加速矩阵运算，CMake编译vLLM所需） apt update apt install cmake libopenblas-dev -y # 第二步：克隆Flowise并初始化环境 cd /app git clone https://github.com/FlowiseAI/Flowise.git cd Flowise mv packages/server/.env.example packages/server/.env # 编辑 .env 文件，添加以下两行（其他保持默认） OLLAMA_BASE_URL=http://localhost:11434 FLOWISE_BASE_API_URL=http://localhost:3000/api/v1

注意：这里不配置OPENAI_API_KEY！因为我们明确走本地Ollama路线，避免Flowise误判为调用云端服务。

# 第三步：安装、构建、启动（pnpm比npm更快，推荐使用） pnpm install pnpm build pnpm start

启动后，终端会输出类似这样的日志：

Server is running on http://localhost:3000 Ollama connection test passed VectorDB initialized (default: LiteDB)

此时打开浏览器访问http://localhost:3000，输入演示账号即可进入可视化编辑界面。

演示账号（仅用于本地测试）
邮箱：kakajiang@kakajiang.com
密码：KKJiang123.

3. 向量库一体化配置：从文档上传到语义检索，全链路本地闭环

Flowise默认使用LiteDB作为轻量级向量存储，适合中小规模知识库（<10万段落）。它不需要额外安装PostgreSQL或Chroma，所有数据都存在本地SQLite文件中，重启服务也不丢数据。但更重要的是——整个向量化流程，你不需要写任何Python代码。

3.1 上传文档 → 自动切分 → 嵌入向量化 → 存入向量库，四步全图形化

在Flowise画布中，只需拖入四个节点并连线：

Document Loader（文档加载器）
- 支持PDF、TXT、MD、DOCX、PPTX等多种格式
- 可设置编码格式、页码范围、是否跳过表格等细节
Text Splitter（文本分块器）
- 默认使用RecursiveCharacterTextSplitter
- 可调节chunk_size（建议512）、chunk_overlap（建议64）
- 支持按标题、段落、句子等逻辑单元切分
Embedding Model（嵌入模型）
- 内置BAAI/bge-m3、intfloat/multilingual-e5-large等多语言模型
- 也可对接本地Sentence-Transformers服务（填入URL即可）
Vector Store（向量数据库）
- 默认LiteDB，路径自动设为./storage/litedb.db
- 支持切换为Qdrant、Chroma、Weaviate等（需额外配置）

连线顺序为：Loader → Splitter → Embedding → VectorStore。点击右上角“Save & Build”，Flowise会自动执行整条流水线，并在底部日志显示处理了多少文档、多少chunk、耗时多久。

3.2 实战案例：10分钟把《Python编程入门》PDF变成可问答知识库

假设你有一份238页的《Python编程入门.pdf》，想让它支持“如何用pandas读取Excel？”这类自然语言提问：

拖入Document Loader节点，点击“Upload File”，选择PDF；
连接到Text Splitter，将chunk_size设为384（兼顾代码片段完整性与检索精度）；
Embedding节点选择BAAI/bge-m3（中文理解强、速度快）；
VectorStore保持默认LiteDB；
点击“Save & Build”，等待约90秒（实测RTX 4090环境）；
构建完成后，在“Chat”标签页输入问题，即可获得精准答案，附带引用来源页码。

整个过程没有命令行、没有报错、没有环境冲突——就像用Figma拖组件一样自然。

4. 工作流搭建详解：从单节点问答到多步骤AI Agent

Flowise的强大，不仅在于“能跑”，更在于“能编排”。它把LangChain中最难掌握的链式调用、工具调用、条件分支，变成了所见即所得的操作。

4.1 最简RAG工作流：三节点搞定专业问答

这是新手入门必建的第一个流程，也是验证本地模型是否生效的关键测试：

[Document Loader] ↓ [Text Splitter] ↓ [Embedding Model] → [Vector Store] ↓ [LLM Node] ← [Retriever Node] ← [Vector Store] ↓ [Chat Output]

其中关键点：

Retriever Node（检索器）必须连接Vector Store，它负责根据用户问题从向量库中召回最相关的3~5个chunk；
LLM Node选择Ollama类型，模型名填qwen2:7b，Temperature设为0.3（保证回答稳定）；

Prompt模板建议使用标准RAG格式：

你是一个专业的技术助手，请基于以下上下文回答问题。如果上下文未提及，请说“暂无相关信息”。 【上下文】 {context} 【问题】 {question}

构建完成后，点击右上角“Deploy”，Flowise会生成一个专属API地址（如/api/v1/prediction/abc123），前端或Postman可直接调用。

4.2 进阶Agent工作流：让AI自己决定要不要查知识库、要不要调用工具

当需求变复杂，比如“帮我查一下公司最新财报，并总结前三项财务指标变化”，就需要引入Agent模式。Flowise通过两个核心节点实现：

Agent Executor：作为流程总控，接收用户输入，分析意图，决定下一步动作；
Tool Nodes：如“Search Web”、“Run SQL”、“Read Document”等，每个都是独立可插拔的功能模块。

典型Agent流程如下：

[User Input] ↓ [Agent Executor] ├─→ [Document Retriever] → [LLM] → 回答知识类问题 ├─→ [Web Search Tool] → [LLM] → 回答实时资讯类问题 └─→ [SQL Tool] → [Database] → 回答数据类问题

你不需要写AgentExecutor的逻辑代码，Flowise已内置ReAct、Plan-and-Execute等主流Agent框架，只需在Agent Executor节点中勾选启用哪些Tool，设置最大迭代次数（避免死循环），其余全部自动处理。

5. 生产就绪指南：从本地测试到API交付的平滑过渡

Flowise的设计哲学是“开发即生产”。你在画布上调试好的流程，一键就能变成标准REST API，无需额外开发。

5.1 三种发布方式，按需选择

方式	适用阶段	操作方式	特点
本地调试API	开发初期	点击流程右上角“Deploy”，复制生成的`/api/v1/prediction/xxx`路径	无需配置，即时可用，但重启服务后失效
持久化API（推荐）	测试/预发环境	在`.env`中设置`FLOWISE_ENABLE_PERSISTENT_API=true`，重启服务	API ID永久保留，支持多流程共存
导出为独立服务	正式上线	点击“Export Flow” → 选择“Standalone API” → 下载ZIP包	包含精简版Node.js服务+预编译流程，可部署到任意Linux服务器

5.2 关键配置建议（避坑清单）

内存优化：若运行在8GB内存机器上，务必在.env中添加：
```
NODE_OPTIONS=--max-old-space-size=6144 FLOWISE_CACHE_ENABLED=true
```
向量库升级：当文档量超5万段落，建议切换至Qdrant（Docker一键启）：
```
docker run -d -p 6333:6333 -v $(pwd)/qdrant_storage:/qdrant/storage:z qdrant/qdrant
```
然后在Vector Store节点中填写Qdrant URL和collection名称。
安全加固：生产环境务必修改默认账号，在.env中设置：
```
FLOWISE_USERNAME=admin FLOWISE_PASSWORD=YourStrongPassword123!
```