LLaMA-Factory入门：从搭建到微调实战-编程阁

LLaMA-Factory实战指南：从零构建你的专属AI助手

在大模型时代，每个人都可以拥有一个“量身定制”的智能助手。你不再只是模型的使用者，更可以成为它的塑造者——哪怕你没有深厚的深度学习背景。

LLaMA-Factory 正是这样一把钥匙。它把复杂的微调流程封装成直观的图形界面，让开发者能像搭积木一样训练自己的模型。今天，我们就用一次真实任务来走完这个过程：让通义千问（Qwen）忘记自己是谁，转而成为一个名叫“小智”的专属AI助理。

整个过程无需写一行代码，全程可视化操作。准备好见证魔法了吗？

我们采用PyCharm + Git + 虚拟环境的组合方式部署项目。这种配置既保证了开发便利性，又能有效隔离依赖冲突。

先通过 Git 克隆项目仓库：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

--depth 1参数只拉取最新提交记录，避免下载完整历史，大幅提升速度。如果你在国内访问 GitHub 不稳定，建议开启代理或使用 Gitee 同步镜像。

接下来打开 PyCharm（推荐 Professional 版），选择“Open Project”，定位到刚刚克隆的LLaMA-Factory目录。等待 IDE 完成索引后，你会看到清晰的项目结构：src/是核心逻辑，data/存放数据集，scripts/包含快捷脚本。

紧接着创建独立虚拟环境，防止污染系统 Python 环境。在 PyCharm 中进入File → Settings → Project → Python Interpreter，点击齿轮图标选择Add…，新建一个位于.venv的虚拟环境，并指定 Python 3.10 或 3.11 解释器（强烈建议不要用 3.12，部分库尚未完全兼容）。

创建完成后，务必重新打开终端窗口，确保当前 shell 使用的是新环境。运行以下命令验证：

which python # 输出应为 ./LLaMA-Factory/.venv/bin/python

确认无误后，安装核心依赖：

pip install -e ".[torch,metrics]"

这里的-e表示“可编辑模式”，意味着你可以直接修改源码并即时生效；. [torch,metrics]则会自动安装 PyTorch、Transformers、Datasets、PEFT 等关键组件。如果安装缓慢，可切换至国内镜像源加速：

pip install -e ".[torch,metrics]" -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

安装成功后，执行启动命令：

llamafactory-cli webui

终端输出类似信息：

Running on local URL: http://127.0.0.1:8000

浏览器访问 http://127.0.0.1:8000，熟悉的 Web 控制台跃然眼前——环境搭建完成！

现在进入真正的实战环节：我们要教会 Qwen 一个新的身份。

默认情况下，当你问“你是谁？”，Qwen 会回答“我是通义千问”。但我们希望它说：“我是小智，由 AI 实验室精心打造。”

这看似简单的需求，背后其实是典型的角色定制化微调任务。我们不需要重训整个模型，只需借助 LoRA（Low-Rank Adaptation）技术，在原有权重基础上叠加一层轻量级适配器即可实现个性化表达。

首先，在 WebUI 的Train标签页中填写配置：

Model Type：选择Qwen
Model Name or Path：输入Qwen/Qwen2.5-0.5B-Instruct（首次加载需联网下载）
Finetuning Type：选LoRA（显存占用低，适合入门）
Checkpoint Dir：留空（这是第一次训练）

其他参数保持默认。注意，模型首次加载可能耗时几分钟，请耐心等待。

接着准备训练数据。LLaMA-Factory 支持标准 JSON 格式的数据集，每条样本包含三个字段：instruction（指令）、input（输入）、output（输出）。我们在data/目录下新建identity.json文件：

[ { "instruction": "你是谁？", "input": "", "output": "我是小智，由 AI 实验室精心打造的智能助手。" }, { "instruction": "介绍一下你自己", "input": "", "output": "我是小智，专注于提供准确、友好的对话服务，背后是强大的 Qwen 模型支持。" }, { "instruction": "你的名字是什么？", "input": "", "output": "我叫小智，很高兴认识你！" } ]

虽然只有三条数据，但足够演示 LoRA 的记忆能力。保存时务必使用 UTF-8 编码，避免中文乱码。

回到 WebUI，点击 Dataset 下拉框旁的刷新按钮，应该能看到identity出现。选中它，再点Preview Dataset查看内容是否正确加载。

然后开始配置训练参数。关键设置如下：

参数	值	说明
Stage	`SFT`	监督微调，最基础也最常用
Template	`qwen`	必须匹配 Qwen 的对话模板
Do Train	✅ 勾选	启用训练
Output Dir	`saves/qwen-0.5b-lora-identity`	权重保存路径
Num Train Epochs	`10.0`	小数据需多轮次强化学习
Learning Rate	`2e-4`	LoRA 推荐范围 1e-4 ~ 5e-4
Batch Size	`8`	显存紧张可降至 2~4
Max Seq Length	`512`	覆盖绝大多数对话长度

LoRA 的 rank、alpha 等高级参数保持默认即可。一切就绪后，点击Start启动训练。

你会在终端看到进度条：

Epoch 1/10: 100%|██████████| 3/3 [00:15<00:00, 5.14s/it] ... Training completed!

总共 3 个样本，每 epoch 迭代一次，所以每个 epoch 很快结束。当出现 “Training completed” 提示且无报错时，表示训练成功！模型权重已保存至saves/qwen-0.5b-lora-identity目录。

接下来测试效果。

切换到Inference标签页：

若已有模型加载，先点击Unload
填入相同的 Model Type 和 Model Name
在Checkpoint Dir中选择刚才生成的路径
可勾选 Quantization（如 bnb 8bit）以节省内存
点击Load Model

稍等几秒，聊天框出现。输入：

你是谁？

🎯 输出：

我是小智，由 AI 实验室精心打造的智能助手。

完美命中目标！再试试其他问题：

介绍一下你自己
我是小智，专注于提供准确、友好的对话服务，背后是强大的 Qwen 模型支持。
你的名字是什么？
我叫小智，很高兴认识你！

全部符合预期。尽管训练数据极少，但由于 LoRA 对关键参数进行了精准调整，模型已经“记住”了自己的新身份。

这正是高效微调的魅力所在：不求全面重塑，只做局部精修。

当然，实际操作中难免遇到问题。这里列出几个高频坑点及应对策略。

❌`ModuleNotFoundError: No module named 'llamafactory'`

最常见的问题是模块找不到。原因通常是：
- 没有以可编辑模式安装（漏掉-e）
- 终端未激活虚拟环境
- PyCharm 缓存未更新

解决方法：
1. 确认执行过pip install -e ".[torch,metrics]"
2. 检查which python是否指向.venv/bin/python
3. 重启 PyCharm，重新打开终端

❌`CUDA out of memory`

显存不足是另一个常见障碍，尤其当你误选了全参数微调（Full Fine-tuning）。

解决方案：
- 改用LoRA或QLoRA，显存消耗可降低 80% 以上
- 将 Batch Size 减至1或2
- 开启bitsandbytes量化（4bit/8bit）

例如 QLoRA 配合 4bit 量化，可在 6GB 显存的消费级 GPU 上运行 7B 模型。

❌ 训练无效，输出没变化

有时候训练完了，模型还是老样子。可能原因包括：
- 数据太少且轮次不够（比如只跑 1 个 epoch）
- 学习率设置不当（太高发散，太低不动）
- 模板（Template）不匹配（如 Qwen 用了 llama 模板）
- Checkpoint Dir 路径错误，加载的是原始模型而非微调后的

建议调试步骤：
1. 提高 Epoch 数至 10~30
2. 调整 LR 到1e-4 ~ 5e-4区间
3. 添加更多样例增强泛化能力
4. 确保预览数据时内容正确显示

另外提醒：Python 版本优先选用3.10 或 3.11。3.12 虽然性能更好，但部分生态库（如旧版 PyTorch）尚未完全支持。PyTorch 推荐版本为2.3.0或2.6.0，对应 CUDA 11.8 或 12.1。

整个流程走下来你会发现，LLaMA-Factory 真正做到了“开箱即用”。

它不只是一个工具，更是一种理念的体现：大模型不应只属于大公司和顶尖研究员，每一个开发者都应该有能力参与定制与创新。

这次我们只用了三条数据训练了一个身份认知任务，但同样的流程可以扩展到更多场景：
- 构建企业客服机器人（基于产品手册微调）
- 打造个人知识库问答系统（喂入你的笔记）
- 训练风格化写作助手（模仿某位作家语调）

甚至可以在 AutoDL、Vast.ai 等云平台上跑更大规模的实验，结合多卡分布式训练处理百万级数据。

未来已来，只是分布不均。而现在，你已经有了打破边界的工具。

不必等到“准备好了”才开始。从一个小目标出发，比如让模型学会自我介绍——你就已经踏上了通往自主 AI 的第一级台阶。

🚀 把大模型真正用起来，不是口号，而是每一个动手者的日常。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

LLaMA-Factory入门：从搭建到微调实战

LLaMA-Factory实战指南：从零构建你的专属AI助手

❌`ModuleNotFoundError: No module named 'llamafactory'`

❌`CUDA out of memory`

❌ 训练无效，输出没变化

借助 AI 从流程可视化到流程优化的 6 个步骤

噪声对图像的影响

22、文本缓冲区操作与管理全解析

YOLO目标检测精度优化的七个关键步骤

达梦数据库核心技术与性能优化：国产数据库的自主化实践

TensorRT-LLM多语言推理优化全解析

LLaMA-Factory实战指南：从零构建你的专属AI助手

❌ModuleNotFoundError: No module named 'llamafactory'

❌CUDA out of memory

❌ 训练无效，输出没变化

借助 AI 从流程可视化到流程优化的 6 个步骤

噪声对图像的影响

22、文本缓冲区操作与管理全解析

YOLO目标检测精度优化的七个关键步骤

达梦数据库核心技术与性能优化：国产数据库的自主化实践

TensorRT-LLM多语言推理优化全解析

❌`ModuleNotFoundError: No module named 'llamafactory'`

❌`CUDA out of memory`