StructBERT模型数据增强实战：提升小样本场景效果-编程阁

StructBERT模型数据增强实战：提升小样本场景效果

你是不是也遇到过这样的烦恼？想训练一个情感分类模型，但手头只有几百条标注数据，模型学得一塌糊涂，效果总是不尽如人意。标注数据又贵又耗时，难道就没有办法了吗？

当然有。今天我们就来聊聊一个在数据稀缺时特别管用的“魔法”——数据增强。简单来说，就是利用一些技巧，把手头有限的数据“变”出更多样本来，让模型学得更扎实。这篇文章，我就以StructBERT中文情感分类模型为例，带你手把手走一遍数据增强的实战流程。我会分享几种我常用的方法，从简单的到稍微复杂一点的，每种方法都会配上代码和效果对比，保证你看完就能在自己的项目里用起来。

我们的目标很明确：用尽可能少的标注数据，训练出效果尽可能好的模型。

1. 准备工作：模型与数据

在开始“变魔术”之前，我们得先把“舞台”和“道具”准备好。这里我们选择ModelScope上的StructBERT情感分类模型，它是个很不错的基座模型，特别适合中文场景。

1.1 环境与模型加载

首先，确保你安装了ModelScope库。如果还没装，一行命令就能搞定。

pip install modelscope

接下来，我们把模型和基础的训练框架准备好。这里我们直接使用ModelScope提供的训练器，它能帮我们省去很多搭建训练循环的麻烦。

import os from modelscope.trainers import build_trainer from modelscope.msdatasets import MsDataset from modelscope.utils.hub import read_config from modelscope.metainfo import Metrics # 指定模型和工作目录 model_id = 'damo/nlp_structbert_sentiment-classification_chinese-base' work_dir = './sentiment_enhancement' os.makedirs(work_dir, exist_ok=True) # 加载模型配置并做一些修改，比如训练轮数 def cfg_modify_fn(cfg): cfg.train.max_epochs = 5 # 我们先设定一个较小的轮数，方便快速实验 cfg.train.train_batch_size = 16 cfg.train.lr = 3e-5 cfg.evaluation.metrics = [Metrics.seq_cls_metric] # 使用序列分类指标 return cfg

1.2 准备一份小样本数据

为了模拟真实的小样本场景，我准备了一个很小的餐饮评论数据集。假设我们只有200条标注好的数据（正面和负面各100条），这在实际项目中是很常见的情况。

# 模拟一个极小的训练数据集 small_train_data = [ {"sentence": "这家餐厅的菜味道很好，服务也很周到。", "label": "正面"}, {"sentence": "价格太贵了，而且上菜速度慢得离谱。", "label": "负面"}, {"sentence": "环境优雅，适合朋友小聚。", "label": "正面"}, {"sentence": "牛肉面里的肉少得可怜，汤也淡。", "label": "负面"}, # ... 此处省略196条，实际应用中请替换为你自己的数据 ] # 同样准备一个小的验证集，用于评估增强效果 small_eval_data = [ {"sentence": "外卖送得快，包装严实，点赞。", "label": "正面"}, {"sentence": " pizza都凉了，口感很差。", "label": "负面"}, # ... 更多验证数据 ] # 使用ModelScope的Dataset格式进行封装 from datasets import Dataset train_dataset = Dataset.from_list(small_train_data) eval_dataset = Dataset.from_list(small_eval_data)

数据准备好了，如果我们直接用这200条数据去训练模型，效果大概率不会太好，因为模型见过的句式、词汇都太有限了。接下来，就是施展数据增强魔法的时候了。

2. 基础数据增强方法实战

数据增强不是瞎变，核心原则是在改变句子表面形式的同时，尽量保留其原有的情感标签。我们先从两种最常用、最容易实现的方法开始。

2.1 同义词替换：让表达更丰富

这种方法就像给句子换“衣服”。把句子中的一些词，替换成意思相近的词。比如把“很好”换成“不错”、“优秀”。这样做能增加词汇的多样性，让模型不局限于记住那几个固定的词。

我们可以借助一个中文同义词库来实现。这里我使用Synonyms这个轻量级库。

pip install synonyms

然后，写一个替换函数：

import synonyms import random import jieba def synonym_replacement(sentence, replace_rate=0.2): """ 同义词替换增强 :param sentence: 原句子 :param replace_rate: 替换比例，默认20%的词会被尝试替换 :return: 增强后的句子 """ words = list(jieba.cut(sentence)) new_words = words.copy() num_to_replace = max(1, int(len(words) * replace_rate)) # 至少替换一个词 # 随机选择要替换的词的位置（跳过停用词或太短的词会更好，这里简化处理） indices_to_replace = random.sample(range(len(words)), min(num_to_replace, len(words))) for idx in indices_to_replace: word = words[idx] # 获取同义词列表 syns = synonyms.nearby(word)[0] if syns and len(syns) > 1: # 确保有可用的同义词且不是只有自己 # 跳过第一个（通常是它自己），随机选一个 synonym = random.choice(syns[1:min(5, len(syns))]) # 从前5个里选 new_words[idx] = synonym return ''.join(new_words) # 试试效果 original = "这部电影的剧情非常精彩，演员演技也在线。" enhanced = synonym_replacement(original) print(f"原句：{original}") print(f"增强后：{enhanced}") # 输出可能类似：原句：这部电影的剧情非常精彩，演员演技也在线。 # 增强后：这部片子的情节非常精彩，演员演技也在线。

你可以看到，“电影”可能被换成“片子”，“剧情”被换成“情节”，但句子的正面情感核心没有变。我们可以用这个函数，把训练集中的每句话都生成一个或多个“变体”。

2.2 回译增强：借助翻译的“神来之笔”

回译是个很有趣的方法。它先把句子翻译成另一种语言（比如英语），然后再翻译回中文。由于翻译模型不是逐字对应的，这个过程会引入一些句式重组和用词变化，往往能产生很自然的、符合语法的新句子。

我们可以用免费的翻译API，比如百度翻译或谷歌翻译的API（需要申请密钥）。这里为了演示，我展示一个概念性的代码流程。如果你使用googletrans库（注意稳定性），可以这样写：

# 注意：googletrans 是免费服务，可能不稳定，生产环境建议使用付费API # pip install googletrans==4.0.0-rc1 from googletrans import Translator translator = Translator() def back_translation(sentence, intermediate_lang='en'): """ 回译增强：中 -> 英 -> 中 """ try: # 翻译成中间语言 translated = translator.translate(sentence, dest=intermediate_lang).text # 再翻译回中文 back_translated = translator.translate(translated, dest='zh-cn').text return back_translated except Exception as e: print(f"回译失败: {e}, 返回原句") return sentence # 试试效果 original = "客服态度极其恶劣，以后再也不会买了。" enhanced = back_translation(original) print(f"原句：{original}") print(f"增强后：{enhanced}") # 输出可能类似：原句：客服态度极其恶劣，以后再也不会买了。 # 增强后：客服态度非常糟糕，我以后再也不会购买了。

“极其恶劣”变成了“非常糟糕”，“不会买了”变成了“不会购买了”，情感依然是强烈的负面，但表达方式变了。这种方法生成的句子通常流畅度很高。

3. 进阶增强策略与对抗训练

前面两种方法主要改变句子表层。接下来我们玩点更深入的，目标是让模型变得更“健壮”，即使遇到一些干扰也能正确判断。

3.1 随机插入与交换：增加局部扰动

这种方法不对句子做大的改动，只是轻微地“扰动”一下。比如随机插入一个词，或者交换两个相邻词的位置。这能模拟人们在打字时可能出现的轻微错误或变体，让模型不过分依赖严格的词序。

def random_insertion(sentence, num_insertions=1): """随机插入一个同义词到句子随机位置""" words = list(jieba.cut(sentence)) if len(words) < 2: return sentence for _ in range(num_insertions): # 随机选一个词获取其同义词 random_word = random.choice(words) syns = synonyms.nearby(random_word)[0] if syns and len(syns) > 1: synonym = random.choice(syns[1:3]) # 随机选择一个插入位置 insert_idx = random.randint(0, len(words)) words.insert(insert_idx, synonym) return ''.join(words) def random_swap(sentence, num_swaps=1): """随机交换句子中两个词的位置""" words = list(jieba.cut(sentence)) if len(words) < 2: return sentence for _ in range(num_swaps): idx1, idx2 = random.sample(range(len(words)), 2) words[idx1], words[idx2] = words[idx2], words[idx1] return ''.join(words) # 试试效果 original = "这个手机电池续航能力强大。" print(f"原句：{original}") print(f"随机插入后：{random_insertion(original)}") # 可能： “这个手机电池**的**续航能力强大。” print(f"随机交换后：{random_swap(original)}") # 可能： “这个手机**能力**续航电池强大。” (虽然有点别扭，但模型需要学会处理)

3.2 对抗样本增强：主动攻击，让模型更强

这是一种更高级的思路。我们不是随机生成新句子，而是故意生成一些容易让当前模型出错的句子，然后用这些句子去训练模型。这好比给模型安排了一个“陪练”，专门攻击它的弱点，从而让它变得更强大。

步骤大致如下：

用现有数据训练一个初始模型（我们叫它“受害者模型”）。
对这个模型，针对每个训练样本，计算其梯度，找出对模型预测影响最大的那些词（通常是情感关键词）。
轻微修改这些词（比如用同义词替换），生成一个让模型预测概率下降的“对抗样本”。
把这些对抗样本和原始数据混合，重新训练模型。

这里给出一个非常简化的概念实现，展示如何利用梯度信息找到重要词汇（实际对抗攻击会更复杂）：

import torch # 假设我们有一个已经加载好的模型和分词器 from modelscope import AutoModelForSequenceClassification, AutoTokenizer model = AutoModelForSequenceClassification.from_pretrained(model_id) tokenizer = AutoTokenizer.from_pretrained(model_id) def get_important_tokens(model, tokenizer, sentence, label_id): """一个简化的示例：通过梯度获取句子中重要的token""" model.eval() inputs = tokenizer(sentence, return_tensors="pt", truncation=True) input_ids = inputs['input_ids'] attention_mask = inputs['attention_mask'] # 需要梯度 input_ids.requires_grad = True outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=torch.tensor([label_id])) loss = outputs.loss loss.backward() # 获取输入token的梯度大小 gradients = input_ids.grad.abs() # 找到梯度最大的token位置（简化处理，跳过[CLS], [SEP]等） important_idx = gradients[0].argsort(descending=True) important_tokens = [] for idx in important_idx[:3]: # 取最重要的前3个 token = tokenizer.convert_ids_to_tokens(input_ids[0][idx].item()) important_tokens.append((idx.item(), token)) return important_tokens # 注意：完整的对抗样本生成涉及扰动嵌入、投影等步骤，此处仅为原理示意。

思路就是，用这些方法生成对抗样本后，把它们作为额外的训练数据，标签保持不变。模型在试图正确分类这些“刁钻”样本的过程中，其决策边界会变得更加稳健。

4. 构建增强数据集与模型训练

现在，我们把各种增强方法组合起来，批量生产新的训练数据。

4.1 自动化增强流水线

我们可以为每条原始数据，随机选择一种或多种增强方法，生成多条新数据。

def augment_single_sample(sample, methods=['synonym', 'back_trans', 'insert', 'swap']): """ 对单个样本应用数据增强 :param sample: 字典，包含'sentence'和'label' :param methods: 增强方法列表 :return: 增强后的样本列表（包含原样本） """ augmented_samples = [sample] # 总是包含原样本 sentence = sample['sentence'] for method in methods: if method == 'synonym' and random.random() > 0.5: new_sent = synonym_replacement(sentence, replace_rate=0.15) augmented_samples.append({'sentence': new_sent, 'label': sample['label']}) elif method == 'back_trans' and random.random() > 0.3: # 回译慢一些，概率低点 new_sent = back_translation(sentence) if new_sent != sentence: augmented_samples.append({'sentence': new_sent, 'label': sample['label']}) elif method == 'insert' and random.random() > 0.6: new_sent = random_insertion(sentence, num_insertions=1) augmented_samples.append({'sentence': new_sent, 'label': sample['label']}) elif method == 'swap' and random.random() > 0.6: new_sent = random_swap(sentence, num_swaps=1) augmented_samples.append({'sentence': new_sent, 'label': sample['label']}) return augmented_samples # 对整个训练集进行增强 augmented_train_data = [] for sample in small_train_data: augmented_train_data.extend(augment_single_sample(sample)) print(f"原始训练数据量：{len(small_train_data)}") print(f"增强后训练数据量：{len(augmented_train_data)}") # 输出可能：原始训练数据量：200， 增强后训练数据量：~500-700

4.2 训练与效果对比

数据准备好了，我们来分别用原始小数据集和增强后的数据集训练模型，看看效果差异。

# 将增强数据转换为Dataset格式 augmented_train_dataset = Dataset.from_list(augmented_train_data) # 配置训练参数，使用增强后的数据 kwargs_aug = dict( model=model_id, train_dataset=augmented_train_dataset, eval_dataset=eval_dataset, # 使用同一个验证集 work_dir=os.path.join(work_dir, 'augmented_model'), cfg_modify_fn=cfg_modify_fn ) trainer_aug = build_trainer(name='nlp-base-trainer', default_args=kwargs_aug) print("开始训练增强数据模型...") trainer_aug.train() # 为了对比，我们也用原始小数据训练一个基线模型 kwargs_baseline = dict( model=model_id, train_dataset=train_dataset, # 原始小数据集 eval_dataset=eval_dataset, work_dir=os.path.join(work_dir, 'baseline_model'), cfg_modify_fn=cfg_modify_fn ) trainer_baseline = build_trainer(name='nlp-base-trainer', default_args=kwargs_baseline) print("开始训练基线模型...") trainer_baseline.train()

训练完成后，我们在同一个测试集上评估两个模型。根据我的经验，在情感分类任务上，使用数据增强通常能带来比较明显的提升，尤其是在数据量很少的时候。提升幅度取决于原始数据的质量和增强方法的有效性，但3-10个百分点的准确率提升是很常见的。更重要的是，模型对于词汇变换、句式改变的鲁棒性会好很多，不那么容易因为一两个词的变化就判错。