合成数据生成：利用大模型创造训练样本-编程阁

合成数据生成：利用大模型创造训练样本

在AI模型日益“内卷”的今天，一个不争的事实是：数据已经成了比算法更稀缺的资源。无论是构建医疗问诊系统、金融风控模型，还是打造智能客服机器人，团队最先卡住的往往不是模型结构设计，而是——“拿什么来训练？”真实数据要么获取成本高昂，要么涉及隐私合规红线，标注质量参差不齐更是常态。

于是，一种新的范式正在悄然兴起：我们不再完全依赖现实世界的数据采集，而是让大模型自己“造”数据。听起来像科幻？但这正是当前前沿AI工程实践的核心趋势之一——合成数据生成（Synthetic Data Generation），而推动这一变革的关键引擎，正是那些我们用来做推理的大语言模型本身。

借助像ms-swift这样的全链路框架，开发者如今可以轻松实现“用AI训练AI”的闭环：先微调一个基础模型，再让它批量输出符合特定分布的高质量文本、问答对甚至多模态描述，最后把这些合成样本用于训练下游任务模型。整个过程不仅高效、可控，还能彻底规避敏感信息泄露风险。

要真正把这条路走通，光有想法不够，还得掌握几项关键“手艺”。这其中最核心的，就是如何以极低成本让大模型适应新任务——毕竟没人愿意为一次数据生成投入百万级算力。

LoRA（Low-Rank Adaptation）就是打开这扇门的第一把钥匙。它不像传统微调那样动辄更新几十亿参数，而是聪明地只在注意力层中插入少量可训练的低秩矩阵。比如，在Qwen-7B这类模型中，我们通常只针对q_proj和v_proj层添加适配器，其余权重全部冻结。数学上讲，原始权重 $ W $ 的更新被近似为：
$$
W’ = W + BA,\quad B\in\mathbb{R}^{d\times r}, A\in\mathbb{R}^{r\times k},\ r \ll d,k
$$
这个小小的“增量补丁”，往往只需训练0.1%~1%的参数量，就能达到接近全参数微调的效果。更重要的是，训练完后还能将LoRA权重合并回原模型，部署时完全无感知。

from swift import SwiftModel from swift.tuners import LoraConfig lora_config = LoraConfig( r=8, target_modules=["q_proj", "v_proj"], lora_alpha=32, lora_dropout=0.1 ) model = SwiftModel.from_pretrained("qwen/Qwen-7B") model = SwiftModel.prepare_model_for_lora(model, lora_config)

但如果你连一张A100都没有，只有RTX 3090甚至更低配的显卡怎么办？这时候就得祭出进阶版方案：QLoRA。

QLoRA的本质是在LoRA基础上叠加4-bit量化。它采用NF4（NormalFloat4）这种非均匀量化方式压缩主干模型，再在其上挂载LoRA适配器进行训练。这样一来，原本需要上百GB显存的任务，现在24GB也能跑起来。我在实际项目中就曾用单卡RTX 3090微调Qwen-7B生成金融合规语料，效果出人意料地稳定。

当然，量化不是没有代价的。噪声会带来一定精度损失，所以建议搭配更强的数据清洗机制使用。好在ms-swift支持双重量化（double_quant=True），进一步压缩激活缓存，提升内存利用率。

qlora_config = QLoraConfig( r=64, target_modules=["q_proj", "k_proj", "v_proj", "o_proj"], quantization_bit=4, double_quant=True, lora_alpha=16 ) model = SwiftModel.from_pretrained( "qwen/Qwen-7B", quantization_config=qlora_config.get_quantization_config() ) model = SwiftModel.prepare_model_for_lora(model, qlora_config)

到这里，你已经有了一个能按需生成文本的定制化模型。但问题来了：你怎么确保它生成的内容是“安全”的、“有用”的，而不是一堆看似合理实则胡说八道的幻觉？

这就引出了另一个关键技术：DPO（Direct Preference Optimization）。

相比传统的PPO三步走（监督微调 → 奖励模型训练 → 强化学习优化），DPO直接把人类偏好转化为损失函数，跳过了奖励建模这一复杂且易崩的环节。给定一对偏好样本 $(y_w, y_l)$，其目标是最小化如下表达式：

$$
\mathcal{L}{\text{DPO}} = -\log \sigma\left( \beta \log \frac{p\theta(y_w|x)}{p_{\text{ref}}(y_w|x)} - \beta \log \frac{p_\theta(y_l|x)}{p_{\text{ref}}(y_l|x)} \right)
$$

其中 $\beta$ 控制偏离参考策略的程度。太小了改不动，太大了容易过拟合。实践中我一般从0.1开始试，结合人工审核迭代调整。

from swift.trainer import DPOTrainer from transformers import TrainingArguments training_args = TrainingArguments( output_dir="./dpo-output", per_device_train_batch_size=4, gradient_accumulation_steps=8, learning_rate=5e-6, max_steps=1000, logging_steps=10, save_steps=500 ) trainer = DPOTrainer( model=model, args=training_args, train_dataset=preference_dataset, beta=0.1 ) trainer.train()

经过DPO对齐后的模型，不仅能避免输出有害内容，还能精准匹配企业所需的语气风格和知识边界。比如在银行场景下，它可以学会不说“肯定赚钱”，而是说“存在市场波动风险”。

接下来的问题是：怎么快速批量生成？一个个发请求显然不行。我们需要的是工业级吞吐能力。

这就是vLLM大显身手的时候了。它通过PagedAttention技术重构了KV Cache的管理方式——不再要求连续内存存储，而是像操作系统管理虚拟内存一样分块调度。配合连续批处理（Continuous Batching），GPU利用率可以直接拉满。

实测数据显示，vLLM的生成吞吐可达HuggingFace默认Pipeline的24倍以上。这意味着原来需要一天才能完成的万条样本生成任务，现在几小时内就能搞定。

启动服务也非常简单：

python -m vllm.entrypoints.openai.api_server \ --host 0.0.0.0 \ --port 8000 \ --model qwen/Qwen-7B

前端调用则完全兼容OpenAI API格式：

import openai openai.api_key = "EMPTY" openai.base_url = "http://localhost:8000/v1" response = openai.completions.create( model="qwen/Qwen-7B", prompt="请生成一段关于未来城市的描述", max_tokens=200 ) print(response.choices[0].text)

这套组合拳打下来，一个完整的合成数据流水线就成型了。典型的系统架构长这样：

+------------------+ +---------------------+ | 用户输入/种子 | ----> | 提示工程模块 | +------------------+ +----------+----------+ | +-------------v--------------+ | ms-swift 微调与推理引擎 | | - LoRA/QLoRA 微调 | | - DPO 对齐训练 | | - vLLM/SGLang 推理加速 | +-------------+--------------+ | +----------------v------------------+ | 合成数据输出 | | - JSONL / Parquet / Dataset | +----------------+------------------+ | +----------------v------------------+ | 数据清洗与质量评估模块 | | - 基于规则过滤 | | - 使用 EvalScope 自动评测 | +-----------------------------------+

工作流程也清晰明了：