大模型微调完全指南：从基础到高级，程序员必学收藏详解-编程阁

本文全面介绍了大模型微调技术，包括微调基本概念、监督微调(SFT)方法、领域模型适配策略以及参数高效微调(PEFT)技术。详细对比了全参数微调与LoRA、Adapter等高效微调方法的优缺点，探讨了数据准备、模型选择、显存优化等关键问题，帮助读者掌握大模型微调的核心知识与实用技巧。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

1 微调通用概念

1.1 微调方法是什么？如何微调？

微调（fine-tuning）是一种迁移学习的方法，用于在一个预训练模型的基础上，通过在特定任务的数据上进行有监督的训练，来适应该任务的要求并提高模型性能。微调利用了预训练模型在大规模通用数据上学习到的语言知识和表示能力，将其迁移到特定任务上。
下面是一般的微调步骤：

预训练模型选择：选择一个在大规模数据集上进行预训练的基础模型，例如，可以选择一种预训练的语言模型，如bert，gpt等
数据准备：准备用于微调的特定任务数据集，这些数据集应该包含任务相关的样本和相应的标签和目标，确保数据集和任务的特定领域或者问题相关。
构建任务特定的模型头：根据任务的要求，构建一个特定的模型头，（task-specific head）。模型头是添加到预训练模型之上的额外层或者结构，用于根据任务要求进行输出预测或者分类，例如，对于文本分类任务，可以添加一个全连接层和softmax激活函数。
参数初始化：将预训练模型的参数作为初始参数加载到微调模型中，这些参数可以被视为模型已经学习到的通用语言表示。
微调训练：使用特定任务的数据集对模型进行有监督训练。这包括将任务数据输入到模型中，计算损失函数，并通过反向传播和优化算法例如梯度下降更新模型参数。在微调过程中，只有模型头部分的参数会被更新，而预训练模型的参数保持不变。
调整超参数：微调过程中，可以根据调整学习率，批量大小，训练迭代次数邓超参数，以达到更好的性能。
评估和验证：在微调完成后，使用验证集或者测试集对微调模型进行评估，以评估其在特定任务任务上的性能。可以使用各种指标，如准确率，精确率，召回率等。
可选的后续微调：根据实际情况，可以选择在特定任务的数据上进行进一步的微调迭代，以进一步提高模型性能。
微调的关键是在预训练模型的基础上进行训练，从而将模型的知识迁移到特定任务上，通过这种方式，可以在较少的数据和计算资源下，快速的构建和训练高性能模型。

1.2 多种不同的高效微调方法对比

选择性层调整（selective layer tuning）：可以只微调层的一个子集，而不是微调模型的所有层，这减少了需要更新的参数数量。
适配器（Adapters）：适配器层是插入预训练模型层之间的小型神经网络。在微调过程中，只训练这些适配器层，保持预先训练的参数冻结。通过这种方式，适配器学习将预先训练的模型提取的特征适应新任务。
稀疏微调（Sparse Fine-tuning）：传统的微调会略微调整所有参数，但是稀疏微调只涉及更改模型参数的一个子集。这通常是基于一些标准来完成的，这些标准标识了与新任务最相关的参数
低秩近似（Low-Rank Approximations）：另一种策略是用一个参数较少但是在任务中表现相似的模型来近似微调后的模型。
正则化技术（Regularization Techniques）：可以将正则化项添加到损失函数中，以阻止参数发生较大的变化，从而以更“参数高效”的方式有效的微调模型。
任务特定的头（Task-specific heads）：有时，在训先训练的模型架构中添加一个任务特定的层或者是头，只对这个头进行微调，从而减少需要学习的参数数量。

1.3 当前高效微调技术存在的一些问题

当前的高效微调技术很难在类似方法之间进行直接的比较并评估它们的真实性能，主要的原因如下所示：

参数计算口径不一致：参数计算可以分为三类：可训练参数的数量，微调模型与原始模型相比改变的参数的数量，微调模型和原始模型之间差异的等级，例如，DiffPruning更新0.5%的参数，但是实际参与训练的参数量是200%，这为比较带来了困难。尽管可训练的参数量是最可靠的存储高效指标，但是也不完美。Ladder-side Tuning使用一个单独的小网格，参数量高于Lora或者BitFit，但是因为反向传播不经过主网络，其消耗的内存反而更小。
缺乏模型大小的考虑：已有工作表明，大模型在微调中需要更新的参数量更小（无论是以百分比相对而论还是以绝对数量而论），因此基模型大小在比较不同PEFT方法时也要考虑到。
缺乏测量基准和评价基准：不同方法所使用的模型或者数据集组合都不一样，评价指标也不一样，难以得到有意义的结论。
代码实现可读性差：很多开源代码都是简单拷贝transformer代码库，然后进行小修小补，这些拷贝也不使用git fork，难以找出改了哪里，即便是能找到，可复用行也比较差（通常指定某个transformer版本，没有说明如何脱离又有代码库服用这些方法。）

2 监督微调SFT

2.1 监督微调SFT是什么？

SFT是监督微调（Supervised Fine-Tuning）是大型语言模型LLM训练流程的关键环节，它通过使用标注数据对预训练模型进行进一步训练，使模型能够适应特定任务或者领域。
核心概念：SFT是一种使用标注数据对预训练语言模型进行微调的技术，术语迁移学习的范畴。它的核心目的是将通用的大型语言模型适配到特定领域或者任务上，提升模型在目标场景下的表现。
基本特点
数据需求：依赖于高质量的标注数据集，这些数据通常是人工标注或者经过筛选的模型输出
训练目标：使用标准的语言建模目标，如交叉熵损失进行训练，但是数据质量要求远高于预训练阶段
计算成本：相比预训练成本大幅降低（从数十万美元降至数百美元级别），但比无监督预训练更昂贵。
效果优势：能显著提升模型在特定任务上的性能，同时保留预训练获得的一般知识。

阶段	数据要求	计算成本	主要目标
预训练	海量无标注文本	极高(数十万美金)	建立基础语言理解能力
SFT	高质量标注数据	中等(数百美金)	使模型适应特定任务风格
RLHF	人类偏好数据	中等	对齐人类价值观和偏好

特性	全微调（Full Fine-Tuning）	参数高效微调（PEFT）
参数更新	所有参数都被更新	仅更新部分参数或特定模块
计算资源	高，需大量内存和计算能力	低，节省资源
训练时间	较长	较短
过拟合风险	较高	较低
适用场景	大规模数据和复杂任务	资源受限、小规模数据或快速迭代的任务
最终性能	通常最佳	可能较低，但仍能保持良好性能

需求	推荐方法	理由
多任务快速切换	Adapter/Prefix Tuning	任务间隔离性好 27 20
资源受限的单任务	LoRA/QLoRA	参数量极小，支持量化 52
超大规模模型适配	Prompt Tuning	仅需调整输入提示
避免灾难性遗忘	任何PEFT方法	冻结原参数保留通用能力 13

方法	bits	7B模型显存需求
全参数微调	16	160GB
Freeze	16	20GB
LoRA	16	16GB
QLoRA	8	10GB
QLoRA	4	6GB

方法	参数量	训练成本	推理开销	适用场景
全参数微调	100%	极高	无	数据充足、资源丰富
LoRA	0.1%-1%	低	无	资源有限、快速适配
Adapter	3%-10%	中	有	需要模块化设计

指标	传统微调	LoRA	QLoRA
显存占用	780GB	160GB	48GB
训练速度	1x	1.2x	0.7x
性能保留率	100%	98%	99.3%

组件	训练显存占比（Adam）	推理显存占比
模型参数	20%	80%-90%
梯度	20%	-
优化器状态	30%	-
中间激活值	30%-60%	<10%
KV Cache	-	5%-20%

1 微调通用概念

1.1 微调方法是什么？如何微调？

1.2 多种不同的高效微调方法对比

1.3 当前高效微调技术存在的一些问题

2 监督微调SFT

2.1 监督微调SFT是什么？

2.2 监督微调SFT在大模型微调中的阶段

2.3 常见的SFT的开发流程是如何的？

Instruction: [任务描述]