手把手带你跑通Qwen3-1.7B微调全流程，新手少走弯路-编程阁

手把手带你跑通Qwen3-1.7B微调全流程，新手少走弯路

在大模型时代，微调一个属于自己的专用模型不再是遥不可及的技术幻想。本文将带你从零开始，完整走通Qwen3-1.7B模型的微调全流程——涵盖数据准备、环境搭建、全参数微调与LoRA高效微调、推理优化以及记忆功能增强等关键环节。

我们以医学问答场景为例，目标是让Qwen3学会像DeepSeek R1那样输出“思考过程+最终回答”的双段式回复，适用于医疗咨询类AI助手开发。整个流程适配免费算力资源（如魔塔社区A10显卡），并集成SwanLab实现训练可视化，确保你每一步都看得见、学得会。

1. 环境准备与镜像启动

首先你需要一个支持GPU的开发环境来运行大模型训练任务。推荐使用魔塔社区（ModelScope）Notebook服务，提供免费NVIDIA A10 24GB显卡，足够支撑Qwen3-1.7B的LoRA微调甚至轻量级全参微调。

1.1 启动Jupyter环境

登录魔塔社区后，进入“我的Notebook”页面，选择创建一个新的GPU实例，并选择预装PyTorch或自定义镜像中包含Transformers和Peft等相关库的环境。

启动成功后，你会获得一个Jupyter Lab地址，形如：

https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net

注意端口号为8000，这是后续调用API的关键信息。

1.2 安装必要依赖

打开终端，安装本项目所需的核心库：

pip install transformers datasets peft accelerate bitsandbytes swanlab torch modelscope -i https://mirrors.cernet.edu.cn/pypi/web/simple

如果你计划进行量化微调（节省显存），还需安装bitsandbytes用于4-bit加载。

建议使用国内源加速安装，避免网络超时问题。

2. 数据准备：构建医学对话数据集

我们要训练的模型需要理解医学问题，并能生成带有“思考链”的专业回答。为此，采用公开数据集delicate_medical_r1_data进行微调。

2.1 下载数据集

该数据集托管于ModelScope平台，可通过以下代码下载：

from modelscope.msdatasets import MsDataset dataset = MsDataset.load('krisfu/delicate_medical_r1_data')

数据集包含2000+条医学对话样本，主要字段如下：

question：用户提出的问题（输入）
think：模型应输出的推理思考过程
answer：最终的专业回答内容

我们的目标是让模型根据question，自动输出格式为“思考：xxx\n回答：xxx”的结构化响应。

2.2 数据预处理

我们需要将原始数据转换成适合SFT（监督微调）训练的格式。以下是处理逻辑示例：

import json def process_sample(example): prompt = f"你是一个专业的医学顾问，请详细分析以下问题。\n问题：{example['question']}" response = f"思考：{example['think']}\n回答：{example['answer']}" return {"text": f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n{response}<|im_end|>"} # 应用到所有样本 train_data = [process_sample(ex) for ex in dataset["train"]] val_data = [process_sample(ex) for ex in dataset["validation"]] # 保存为jsonl文件 with open("train.jsonl", "w", encoding="utf-8") as f: for item in train_data: f.write(json.dumps(item, ensure_ascii=False) + "\n") with open("val.jsonl", "w", encoding="utf-8") as f: for item in val_data: f.write(json.dumps(item, ensure_ascii=False) + "\n")

处理完成后，你会得到两个文件：

train.jsonl：训练集
val.jsonl：验证集

每个样本均按Qwen系列模型所需的对话模板封装，便于后续直接喂入Tokenizer。

3. 配置SwanLab：可视化训练监控

为了清晰掌握训练过程中的损失变化、学习率趋势等指标，我们使用轻量级实验追踪工具SwanLab。

3.1 安装与登录

pip install swanlab swanlab login

执行swanlab login后，系统会提示你前往官网复制API Key并粘贴回终端完成认证。登录一次即可长期使用。

3.2 初始化实验记录

在训练脚本中加入以下代码，开启一个带超参数配置的实验：

import swanlab swanlab.init( project="qwen3-medical-finetune", config={ "model_name": "Qwen3-1.7B", "learning_rate": 2e-5, "batch_size": 4, "max_length": 1024, "epochs": 3, "optimizer": "AdamW" }, description="Medical SFT training with LoRA on Qwen3-1.7B" )

这样就能在SwanLab云端看板中看到完整的实验元信息。

3.3 记录训练指标

在训练循环中添加日志上报：

for epoch in range(epochs): # ...训练步骤... loss = ... acc = ... swanlab.log({"loss": loss, "accuracy": acc, "epoch": epoch})

训练结束后，访问SwanLab Dashboard，即可查看实时图表：

4. 加载Qwen3-1.7B模型

接下来正式加载预训练模型。这里我们通过ModelScope获取Qwen3-1.7B权重。

from transformers import AutoTokenizer, AutoModelForCausalLM model_name = "Qwen/Qwen3-1.7B" # 或本地路径 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_name, trust_remote_code=True, device_map="auto", torch_dtype="auto" )

注意：首次加载可能较慢，建议提前缓存模型至本地。

5. 全参数微调实践

全参数微调是指更新模型所有参数，效果通常最好，但对显存要求极高。

5.1 显存需求评估

Qwen3-1.7B约有17亿参数，FP16精度下模型本身占用约3.4GB显存。但由于梯度、优化器状态（如AdamW）的存在，实际训练需至少32GB显存。

因此，在24GB显卡上直接全参微调容易OOM（显存溢出）。若坚持尝试，可采取以下措施：

使用gradient_checkpointing=True
设置per_device_train_batch_size=1
启用fp16或bf16混合精度

5.2 训练代码框架

from transformers import TrainingArguments, Trainer training_args = TrainingArguments( output_dir="./qwen3-medical-full", per_device_train_batch_size=1, gradient_accumulation_steps=8, learning_rate=2e-5, num_train_epochs=3, logging_steps=10, save_steps=100, fp16=True, gradient_checkpointing=True, report_to="none", # 自行用swanlab记录 evaluation_strategy="steps", eval_steps=50 ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=val_dataset, tokenizer=tokenizer, compute_metrics=compute_metrics ) trainer.train()

尽管可行，但效率低且风险高。对于大多数开发者，更推荐使用参数高效微调方法LoRA。

6. 参数高效微调：LoRA实战

LoRA（Low-Rank Adaptation）是一种高效的微调技术，仅训练少量新增参数，大幅降低显存消耗。

6.1 LoRA原理简述

LoRA的核心思想是在原始权重旁增加低秩矩阵进行增量更新，冻结主干参数，只训练这些小模块。例如，在注意力层的$W_q$、$W_v$上添加可训练的$Δ = A×B$，其中A和B维度远小于原矩阵。

优点：

显存占用下降60%以上
训练速度快
可轻松切换不同下游任务

6.2 配置PEFT进行LoRA微调

from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=64, # 秩 lora_alpha=16, target_modules=["q_proj", "v_proj"], # 针对Qwen结构设定 lora_dropout=0.1, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, lora_config) model.print_trainable_parameters() # 查看可训练参数比例

输出示例：

trainable params: 8,388,608 || all params: 1,700,000,000 || trainable%: 0.49%

仅需约800万参数参与训练，显存需求降至10GB以内，完全可在A10显卡上流畅运行。

6.3 开始LoRA训练

复用之前的Trainer接口，只需替换模型为PEFT包装后的版本即可：

trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=val_dataset, tokenizer=tokenizer ) trainer.train()

训练过程中，SwanLab会实时展示loss下降曲线和accuracy提升情况。

7. 推理阶段：流式输出与交互体验优化

训练完成后，我们需要测试模型的实际表现。为了让用户体验更自然，启用流式输出功能。

7.1 加载微调后模型

from peft import PeftModel base_model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen3-1.7B", trust_remote_code=True, device_map="auto" ) lora_model = PeftModel.from_pretrained(base_model, "./output/qwen3-lora-checkpoint")

7.2 实现流式生成

def predict_stream(prompt): inputs = tokenizer(prompt, return_tensors="pt").to("cuda") streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True) outputs = lora_model.generate( **inputs, max_new_tokens=512, temperature=0.7, do_sample=True, streamer=streamer ) return tokenizer.decode(outputs[0], skip_special_tokens=True)

调用示例：

prompt = "<|im_start|>user\n头痛有哪些常见原因？如何用药？<|im_end|>\n<|im_start|>assistant\n" predict_stream(prompt)

你会看到文字逐字生成，模拟真实对话节奏：

思考：头痛的类型较多，常见的包括紧张性头痛、偏头痛、丛集性头痛…… 回答：对于紧张性头痛，可选用对乙酰氨基酚或布洛芬；偏头痛急性期可用曲普坦类药物……

8. 添加简单记忆功能：实现多轮对话

为了让模型具备上下文记忆能力，我们可以维护一个messages列表，持续累积对话历史。

8.1 实现思路

创建全局messages列表，初始化为系统提示。
使用while True:循环接收用户输入。
每次将用户提问和模型回答追加进messages。
下次推理时传入完整历史，保证语义连贯。

8.2 代码实现

messages = [ {"role": "system", "content": "你是一个专业医学顾问，请结合上下文提供准确建议。"} ] from transformers import TextIteratorStreamer import threading def chat(): while True: user_input = input("\n你：") if user_input.lower() in ["退出", "quit"]: break messages.append({"role": "user", "content": user_input}) prompt = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) inputs = tokenizer(prompt, return_tensors="pt").to("cuda") streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True) thread = threading.Thread(target=lora_model.generate, kwargs={ **inputs, "max_new_tokens": 512, "temperature": 0.7, "do_sample": True, "streamer": streamer }) thread.start() print("AI：", end="", flush=True) response = "" for text in streamer: print(text, end="", flush=True) response += text messages.append({"role": "assistant", "content": response}) chat()

现在你可以进行多轮医学咨询，模型能记住前面对话内容，做出更合理的判断。

9. 总结

1. 本文总结

本文带你完整实践了Qwen3-1.7B模型的微调全流程：

利用魔塔社区免费算力，规避高昂训练成本；
准备并处理医学对话数据集，构建适合SFT的训练样本；
集成SwanLab实现训练过程全程可视化；
对比全参数微调与LoRA微调的适用场景与资源需求；
成功部署LoRA微调模型，并实现流式输出与多轮对话记忆功能。

最终成果是一个具备医学领域知识、能输出思考链的专业AI助手原型，可用于智能问诊、健康咨询等场景。

2. 下一步建议

尝试更大规模的数据集或引入外部知识库提升准确性；
探索QLoRA进行4-bit量化微调，进一步降低硬件门槛；
结合RAG架构，接入最新医学文献实现实时检索增强；
使用Llama Factory等图形化工具简化微调流程。

大模型并非高不可攀，只要方法得当，每个人都能打造属于自己的垂直领域专家模型。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手带你跑通Qwen3-1.7B微调全流程，新手少走弯路