基于百度飞桨的智能客服情感分析实战：从零搭建到性能优化-编程阁

背景：智能客服里“情绪雷达”到底值多少钱？

客服每天收到成千上万条咨询，人工逐条看情绪显然不现实。一旦负面情感积压，投诉、退订、差评就会像多米诺骨牌一样倒下。
把情感分析做成实时模块，能在客户发火前提前预警，也能让运营同学用数据说话：今天到底谁被气到了？哪类问题最容易点燃用户？
可真正落地时，挑战一点不少：口语化、错别字、表情包、长文本截断、类别不平衡…… 每一条都能让刚入门的同学原地爆炸。
本文记录我“从0到1”用百度飞桨搓出一套可上线情感分析服务的全过程，尽量把坑填平，让后来人少走几步弯路。

技术选型：为什么最后留下飞桨

先放一张当时做的对比表，结论直接写这儿，省得大家翻文档。

维度	飞桨	PyTorch	TF2
中文预训练模型丰富度	ERNIE系列直接可用	需转HuggingFace	需转Hub
动静统一	动态图调试+静态图部署	动态图为主	静态图为主
部署工具链	Paddle Inference一键走	TorchScript+额外C++	TF Serving
量化/剪枝官方示例	有，官方维护	社区版本杂	有，但API变动大
学习曲线	中文文档+QQ群秒回	英文文档+Stack Overflow	英文文档

对于中文NLP场景，尤其ERNIE在多项情感任务里霸榜，飞桨算“拿起来就能打”。再加上PaddleNLP把数据加载、训练、压缩、部署做成一条流水线，新手最怕的“拼接脚本”环节直接消失，于是果断上车。

核心实现：三步搞定领域情感模型

1. 数据准备：客服语料清洗三板斧

去噪：正则删网址、emoji、xml标签
归一：同义词表把“怒摔”“气死”统一成“愤怒”
均衡：负面样本过采样+正面样本随机丢弃，让3分类分布接近1:1:1

最后保留12万条标注，训练/验证/测试按8:1:1切分。

2. 预训练模型加载：ERNIE 3.0 Base一句代码

from paddlenlp.transformers import ErnieForSequenceClassification, ErnieTokenizer model = ErnieForSequenceClassification.from_pretrained( 'ernie-3.0-base-zh', num_classes=3) # 中性/正面/负面 tokenizer = ErnieTokenizer.from_pretrained('ernie-3.0-base-zh')

3. 领域微调：两阶段训练策略

第一阶段：全量Fine-tune，epoch=3，lr=2e-5，warmup=0.1，batch=32
第二阶段：冻结前6层Transformer，只调后6层+分类头，epoch=2，lr=5e-6

这样做既保留通用语义，又让后面几层专门“嗅”客服场景的情绪词，验证集F1从0.875提升到0.903。

代码示例：端到端训练pipeline

下面脚本直接跑通，依赖：

pip install paddlepaddle-gpu==2.5.1 paddlenlp==2.6.0

训练文件结构：

├── data/ │ └── train.txt # 格式：文本\t标签 ├── train_sentiment.py └── export_model.py

train_sentiment.py（关键参数已写注释）：

import paddle from paddle.io import DataLoader from paddlenlp.data import Stack, Pad, Tuple from paddlenlp.transformers import ErnieForSequenceClassification, ErnieTokenizer from paddlenlp.datasets import load_dataset import numpy as np # 1. 超参区 MAX_LEN = 128 BATCH_SIZE = 32 EPOCHS = 3 LR = 2e-5 WARMUP_STEPS = 0.1 SAVE_DIR = "checkpoint" # 2. 数据读取 def convert_example(example, tokenizer, max_len=MAX_LEN): encoded = tokenizer( example["text"], max_seq_len=max_len, pad_to_max_seq_len=True) return np.array(encoded["input_ids"], dtype="int64"), \ np.array(encoded["token_type_ids"], dtype="int64"), \ np.array(example["label"], dtype="int64") train_ds = load_dataset("chnsenticorp", splits=["train"]) train_ds = train_ds.map(convert_example, lazy=False) batchify_fn = Tuple(Stack(), Stack(), Stack()) train_loader = DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True, collate_fn=batchify_fn) # 3. 模型 & 优化器 model = ErnieForSequenceClassification.from_pretrained( "ernie-3.0-base-zh", num_classes=3) scheduler = paddle.optimizer.lr.LinearWarmup( learning_rate=LR, warmup_steps=int(len(train_loader) * EPOCHS * WARMUP_STEPS), start_lr=0, end_lr=LR) optimizer = paddle.optimizer.AdamW( learning_rate=scheduler, parameters=model.parameters()) # 4. 训练循环 loss_fn = paddle.nn.CrossEntropyLoss() for epoch in range(1, EPOCHS + 1): model.train() for step, (input_ids, token_type_ids, labels) in enumerate(train_loader, 1): logits = model(input_ids, token_type_ids) loss = loss_fn(logits, labels) loss.backward() optimizer.step() optimizer.clear_grad() if step % 50 == 0: print(f"epoch:{epoch} step:{step} loss:{loss.numpy()[0]:.4f}") paddle.save(model.state_dict(), f"{SAVE_DIR}/epoch_{epoch}.pdparams")

训练完跑评估：

python train_sentiment.py --do_eval --params_path checkpoint/epoch_3.pdparams

得到测试集指标：

准确率：90.7%
宏平均F1：0.903
平均推理延迟（GPU Tesla T4）：7.3 ms/条

Paddle Inference部署：3行代码搞定服务化

export_model.py把动态图导成静态：

import paddle from paddlenlp.transformers import ErnieForSequenceClassification model = ErnieForSequenceClassification.from_pretrained( "ernie-3.0-base-zh", num_classes=3) state_dict = paddle.load("checkpoint/epoch_3.pdparams") model.set_state_dict(state_dict) model.eval() # 固化 save_path = "static/ernie_sentiment" paddle.jit.save(model, save_path, input_spec=[ paddle.static.InputSpec(shape=[None, MAX_LEN], dtype="int64"), # input_ids paddle.static.InputSpec(shape=[None, MAX_LEN], dtype="int64") # token_type_ids ])

C++或Python端用Paddle Inference加载：

import paddle.inference as paddle_infer config = paddle_infer.Config("static/ernie_sentiment.pdmodel", "static/ernie_sentiment.pdiparams") config.enable_use_gpu(1000, 0) predictor = paddle_infer.create_predictor(config)

单卡QPS实测：320，满足线上高峰。

性能优化：让延迟再砍一半

1. 量化压缩：INT8走起

飞桨自带PaddleSlim，一句话把模型压成8bit：

paddleslim.quant.quant_post_static( model_dir="static", save_model_dir="static_int8", batch_generator=batched_reader, batch_size=32 )

压完体积从438 MB → 115 MB，T4 GPU上延迟再降28%，准确率掉点0.4%，可接受。

2. 动态批处理：把GPU吃满

线上请求峰谷明显，固定batch=1浪费算力，batch=32又可能拖慢长尾。用Paddle Inference的Dynamic Shape + ZeroCopy Tensor，把请求按到达时间攒成[1,32]区间可变batch：

config.enable_tensorrt_dynamic_shape( min_input_shape={"input_ids": [1, 128], "token_type_ids": [1, 128]}, max_input_shape={"input_ids": [32, 128], "token_type_ids": [32, 128]}, opt_input_shape={"input_ids": [8, 128], "token_type_ids": [8, 128]} )

实测高峰QPS从320提到510，P99延迟反而下降18%。