大模型微调实战指南：从全参数微调到BitFit的低成本学习路径-编程阁

本文详细介绍大模型微调基础与实战，包括微调概念、GSM8K数据集处理、全参数有监督微调(SFT)实现及参数高效的BitFit方法。文章从理论到代码，提供低成本低门槛的学习项目，帮助读者掌握大模型微调技术，后续还将介绍更多高效微调和强化学习方法。

从本文起，笔者将开始介绍文本大模型的各种微调方式。笔者将基于自己的经历，给出一个低成本低门槛的学习项目。

笔者于今年6月参加西安交通大学计算机学院某教授的推荐免试研究生夏令营项目的时候，参与了以下的考核项目：

这是一个很有意思的项目，面向qwen-0.5B模型的GSM8K小学生数学题数据集的数学推理能力增强。

在这个合集中，笔者将以这个项目为基础，从最基础的全参数微调开始，逐渐介绍到各种高效微调方式（如Prompt-Tuning，P-Tuning，Lora等），最后到各种强化学习RL方法（PPO、DPO、GRPO等）。从各种微调方法的理论基础，到实际代码实现。如果你对大模型推理的基础知识有所缺失，可以阅读笔者之前的基础知识文章。

一、什么是微调大模型？

我们都知道大模型是经过了海量数据预训练得到的，其核心是下一词预测。单纯的预训练大模型，在实际的下游任务上表现并不能做到很好，他大概率不能给出我们想要看到的回答格式，也缺乏对下游任务的专业知识。而微调大模型，就是给一个学富五车的大脑进行针对性的专业强化，让一个广度很广的通才，变成一个面向某一下游任务的专才。

二、全参数的有监督微调（SFT）

所谓有监督微调，就是说，有完整标注的数据，一点点指导大模型去学习怎么输出。

（1）处理数据集（GSM8K）

事不宜迟，我们直接上代码，来处理一下我们的GSM8K数据集：

# 下载一下数据集 def download_and_save_data(): ds = load_dataset("openai/gsm8k", "main") ds.save_to_disk("./dataset/gsm8k")

print(ds) # DatasetDict({ # train: Dataset({ # features: ['question', 'answer'], # num_rows: 7473 # }) # test: Dataset({ # features: ['question', 'answer'], # num_rows: 1319 # }) # })

可以看见，数据集已经给我们分成了训练部分和测试部分。当然测试集我们是后续用于评估性能的，可不能拿来训练了。

我们现在把数据集的训练集部分再处理一下，用作后续的训练集和验证集：

def handle_data(ds: DatasetDict): # 从完整数据集中把Train的部分拿出来 train_data = ds["train"] # 划分训练时的训练集和验证集 train_data = train_data.train_test_split(test_size=0.1, seed=42) tokenizer = AutoTokenizer.from_pretrained("./models/Qwen2.5-0.5B-Instruct")

然后，当然是把数据处理成模型微调需要的格式了，不清楚的可以看看我之前的文章：

# map映射函数的实现。当然，得在前面先导入一下tokenizer。 # CasualLM的训练目标是下一词预测，所以把前后文本拼接在一起就行 def tokenizer_all_data(example): question = example["question"] answer = example["answer"] # Qwen 格式：问题 + 回答 + EOS text = f"{question}\n{answer}{tokenizer.eos_token}" # 对整段文本进行编码 tokenized = tokenizer( text, truncation=True, max_length=512, padding="max_length" # 必须加 ) input_ids = tokenized["input_ids"] # 下面我们要找出：哪些 token 属于 question，哪些属于 answer # ------------------------------------------------------------- # 先编码 question q_ids = tokenizer(question)["input_ids"] # question 的 token 长度（包含换行） q_len = len(q_ids) # 初始化 labels，与 input_ids 一样 labels = input_ids.copy() # 将 question 部分全部 mask 为 -100（模型不会学习这部分） for i in range(q_len): if i < len(labels): labels[i] = -100 tokenized["labels"] = labels return tokenized

# 进行map映射 train_data = train_data.map(tokenizer_all_data, num_proc=4, remove_columns=["question", "answer"]) return train_data

把以上代码写成一个处理数据的函数。处理完成数据了，我们看看现在数据是怎样了：

processed_data = handle_data(ds) print(processed_data) # DatasetDict({ # train: Dataset({ # features: ['input_ids', 'attention_mask', 'labels'], # num_rows: 6725 # }) # test: Dataset({ # features: ['input_ids', 'attention_mask', 'labels'], # num_rows: 748 # }) # })

可以看到，之前训练集的7473条数据已经被分成了6725条训练集和748条验证集，里面有

['input_ids', 'attention_mask', 'labels']

这三个所需的字段。

（2）全参数微调

首先当然是导入库：

# ============================== # 一、基础环境与依赖设置 # ============================== import os # HuggingFace 镜像站点（国内访问更稳定） os.environ["HF_ENDPOINT"] = "https://hf-mirror.com" # 指定使用哪一张 GPU（这里使用 GPU 1） os.environ["CUDA_VISIBLE_DEVICES"] = "1" # ============================== # 二、导入核心依赖 # ============================== from transformers import ( AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer, default_data_collator ) from datasets import load_from_disk from handle_data import * # 你自定义的数据处理逻辑 import matplotlib.pyplot as plt

后续就一股脑把代码放出来吧，我给出了非常详细的注释内容：

# ============================== # 三、绘制 loss 曲线的工具函数 # ============================== def plot_loss(epochs, losses, save_path="loss_curve.png"): """ 根据 epoch 与 loss 绘制并保存 loss 曲线图 参数说明： - epochs: list[float]，每一个 loss 对应的 epoch - losses: list[float]，loss 数值 - save_path: str，图片保存路径 """ plt.figure(figsize=(8, 6)) plt.plot(epochs, losses) plt.xlabel("Epoch") plt.ylabel("Loss") plt.title("Epoch-Loss Curve") # 保存图片，dpi=300 适合论文/报告 plt.savefig(save_path, dpi=300, bbox_inches="tight") plt.close() print(f"[INFO] Loss curve saved to {save_path}") # ============================== # 四、主训练流程 # ============================== def main(): # ------------------------------------------------ # 1. 加载预训练模型与 tokenizer # ------------------------------------------------ # 使用 Qwen2.5-0.5B-Instruct 作为 SFT 基座模型 model = AutoModelForCausalLM.from_pretrained( "./models/Qwen2.5-0.5B-Instruct" ) tokenizer = AutoTokenizer.from_pretrained( "./models/Qwen2.5-0.5B-Instruct" ) # ------------------------------------------------ # 2. 加载并预处理数据集 # ------------------------------------------------ # 如果本地还没有 GSM8K 数据集，则先下载并保存 if not os.path.exists("./dataset/gsm8k"): download_and_save_data() # 从磁盘加载数据集（datasets 的标准做法） ds = load_from_disk("./dataset/gsm8k") # 使用你自定义的 handle_data 函数进行处理 # 通常包括：prompt 拼接、tokenize、labels 构造等 processed_data = handle_data(ds) train_data = processed_data["train"] test_data = processed_data["test"] # ------------------------------------------------ # 3. 设置 TrainingArguments（核心配置） # ------------------------------------------------ """ 这一部分是整个训练行为的“控制中心”， 包括： - 学习率 - 学习率退火策略 - eval / save 策略 - 是否保存最优模型 """ training_args = TrainingArguments( # ===== 输出与日志 ===== output_dir="./output", # checkpoint & 日志保存目录 # ===== batch 设置 ===== per_device_train_batch_size=1, # 单卡 batch size per_device_eval_batch_size=1, # ===== 训练轮数 ===== num_train_epochs=4, # 训练 1 个 epoch（SFT 常用） # ===== 日志与评估 ===== logging_steps=1, # 每一步都记录 train loss eval_strategy="steps", # 按 step 进行验证 eval_steps=100, # 每 100 step 做一次 eval # ===== 模型保存策略 ===== save_steps=100, # 每 100 step 尝试保存模型 save_total_limit=2, # 最多只保留 2 个 checkpoint # ===== 学习率相关（重点）===== learning_rate=5e-5, # 初始学习率 # 学习率调度器类型： # "linear"：线性下降 # "cosine"：余弦退火（更平滑，推荐） lr_scheduler_type="cosine", # warmup 比例： # 训练初期从 0 慢慢升到 learning_rate warmup_ratio=0.03, # 3% 的 step 用于 warmup # ===== 自动保存最优模型（重点）===== load_best_model_at_end=True, # 训练结束后自动加载最优模型 metric_for_best_model="eval_loss", # 根据 eval_loss 判断最优 greater_is_better=False, # loss 越小越好 # ===== 混合精度 ===== fp16=True, # 使用 FP16 加速训练 # ===== 其他 ===== report_to="none", # 不使用 wandb / tensorboard ) # ------------------------------------------------ # 4. 初始化 Trainer # ------------------------------------------------ trainer = Trainer( model=model, args=training_args, train_dataset=train_data, eval_dataset=test_data, data_collator=default_data_collator, ) # ------------------------------------------------ # 5. 开始训练 # ------------------------------------------------ """ 注意： - 训练过程中 Trainer 会： - 自动更新学习率（cosine + warmup） - 定期 eval - 当 eval_loss 下降时保存 checkpoint - 训练结束后： - model 已经被切换为 eval_loss 最优的那一次 """ trainer.train() # ------------------------------------------------ # 6. 保存最终（最优）模型 # ------------------------------------------------ output_dir = "./sft_output/qwen2.5-0.5B-sft" # 保存的是「eval_loss 最优」模型，而不是最后一步 trainer.save_model(output_dir) tokenizer.save_pretrained(output_dir) print(f"[INFO] Best model saved to {output_dir}") # ------------------------------------------------ # 7. 提取并绘制 loss 曲线 # ------------------------------------------------ train_epoch = [] train_loss = [] eval_epoch = [] eval_loss = [] for log in trainer.state.log_history: # 训练 loss if "loss" in log and "epoch" in log: train_epoch.append(log["epoch"]) train_loss.append(log["loss"]) # 验证 loss if "eval_loss" in log and "epoch" in log: eval_epoch.append(log["epoch"]) eval_loss.append(log["eval_loss"]) # 绘制训练 loss 曲线 plot_loss(train_epoch, train_loss, "./out_image/full/train_loss.png") # 绘制验证 loss 曲线（用于观察最优模型位置） plot_loss(eval_epoch, eval_loss, "./out_image/full/eval_loss.png") # ============================== # 五、程序入口 # ============================== if __name__ == "__main__": main()

二、BitFit

当然到上面为止，我们已经可以进行微调了。但是全参数微调有很大的问题，我们使用0.5B模型可能还能训得动，那要是7B呢？32B呢？更大呢？显存邦的一下就炸掉了，也就是我们说的OOM（Out Of Memory）。

高效微调的方法有很多，主要的作用就是减少微调的参数量，减少所需显存和所耗时间。

这里我们先介绍BitFit，之后我们会介绍更多高效微调的方法。

基于Transformer掩码语言模型的参数高效调优，来自一所以色列的大学和AI2研究院。

BitFit是一种稀疏微调方法，其中仅修改模型（或其子集）的bias项。如果不清楚bias项是什么，可以再去补习一下深度学习的基础，也可以我们把模型打印出来瞅瞅是怎么回事：

可以看见，q、k、v中均开启了bias。我们要做的就是冻结除了bias以外的参数，只训练bias。

实现起来也很简单，只要在加载模型之后加入一小段代码就行：

model = AutoModelForCausalLM.from_pretrained( "./models/Qwen2.5-0.5B-Instruct" ) tokenizer = AutoTokenizer.from_pretrained( "./models/Qwen2.5-0.5B-Instruct" ) # ========================================================================================== # BitFit # BitFit 冻结预训练 Transformer 编码器的大部分参数（权重矩阵、层归一化缩放因子等），仅训练两类参数：1、模型中的偏置项（或其子集）；2、任务特定的最终线性分类层。 num_param = 0 total_param = sum(p.numel() for p in model.parameters()) for name, param in model.named_parameters(): # 训练 bias（排除 lm_head.bias） if "bias" in name and "lm_head" not in name: param.requires_grad = True num_param += param.numel() # 训练 LayerNorm 的 weight（可选但强烈推荐） elif "layernorm.weight" in name.lower() or "ln_" in name.lower(): param.requires_grad = True num_param += param.numel() else: param.requires_grad = False print(f"总参数量: {total_param}") print(f"可训练参数量(BitFit): {num_param}") print(f"训练比例: {num_param / total_param:.6f}") # ==========================================================================================

总参数量: 494032768 可训练参数量(BitFit): 70656 训练比例: 0.000143

可以看见，训练的参数量比例一下子就大减了呢~~实际观察一下，时间大概变快了4倍左右（当然只是在这个场景和模型下的简单测试）。

对于中小型训练数据，在预训练的 BERT 模型上应用 BitFit 比微调整个模型具有竞争力（有时甚至更好）。对于较大型的数据，该方法比其他稀疏微调方法具有竞争力。除了实用性之外，还与微调过程相关：微调主要是暴露语言建模训练产生的知识，而不是学习新的特定任务语言知识。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

大模型微调实战指南：从全参数微调到BitFit的低成本学习路径

最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

2025年大模型使用全景图：6大趋势助你抢占AI先机

电路板维修

一文搞懂DNAT与SNAT：内网外网通信的“流量翻译官”

智能建议模块 Cordova 与 OpenHarmony 混合开发实战

160. 相交链表

动态规划解法

​最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

2025年大模型使用全景图：6大趋势助你抢占AI先机

电路板维修

一文搞懂DNAT与SNAT：内网外网通信的“流量翻译官”

智能建议模块 Cordova 与 OpenHarmony 混合开发实战

160. 相交链表

动态规划解法

最后