机器学习中类别不平衡问题的处理策略与实践-编程阁

1. 理解严重偏斜类别分布的本质

在机器学习实践中，我们经常会遇到类别分布严重不平衡的数据集。比如在信用卡欺诈检测中，正常交易可能占99.9%，而欺诈交易只有0.1%。这种极端不平衡的分布会给模型训练带来独特挑战。

我第一次遇到这个问题是在医疗影像诊断项目中。我们需要从数千张正常组织切片中识别出少数几张癌变样本。初始模型准确率高达99.5%，看似完美，实则完全无法识别任何阳性病例——它只是简单地把所有样本都预测为阴性而已。

严重偏斜分布的核心特征是：少数类（正类）样本数量与多数类（负类）样本数量之比通常超过1:100，甚至达到1:1000。这种情况下，传统评估指标如准确率会完全失效。

关键认知：在偏斜分布中，模型表现的评估必须采用适合的指标。准确率毫无意义，应该关注召回率、精确度、F1分数或AUC-ROC等指标。

2. 处理偏斜分布的核心策略

2.1 数据层面的处理方法

重采样是最直接的解决方案。我通常会尝试以下方法组合：

随机欠采样：从多数类中随机删除样本

优点：简单快速
缺点：可能丢失重要信息

实现代码示例：

from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler(random_state=42) X_res, y_res = rus.fit_resample(X, y)

SMOTE过采样：合成新的少数类样本
- 原理：在特征空间中对少数类样本进行插值
- 参数调整要点：
  - k_neighbors通常设为3-5
  - 对高维数据需先降维
- 实战技巧：结合SMOTE和欠采样效果更好

混合采样：结合欠采样和过采样

我的常用组合：SMOTE + Tomek Links

代码实现：

from imblearn.combine import SMOTETomek smote_tomek = SMOTETomek(random_state=42) X_res, y_res = smote_tomek.fit_resample(X, y)

2.2 算法层面的调整方法

类别权重调整：
- 在scikit-learn中设置class_weight='balanced'
- 手动计算权重公式：
```
权重 = 总样本数 / (类别数 * 类别样本数)
```
- 我的经验：对于极端偏斜(>1:1000)，需要进一步调高少数类权重

代价敏感学习：

为不同类别的误分类设置不同惩罚

实现示例：

from sklearn.svm import SVC model = SVC(class_weight={0:1, 1:10}) # 少数类权重更高

异常检测算法：
- 将问题重构为异常检测
- 适用算法：One-Class SVM、Isolation Forest
- 适用场景：当少数类样本极少(<50)时

3. 评估指标的选择与解读

3.1 为什么准确率会误导

假设我们有99.9%负类和0.1%正类：

一个总是预测负类的"愚蠢"模型准确率高达99.9%
但实际上它对正类的识别率为0%

3.2 推荐的核心指标

混淆矩阵：基础但最直观
- 重点关注TP和FN
召回率(Recall)：
- 公式：Recall = TP / (TP + FN)
- 业务意义：找出多少比例的真实正例
精确度(Precision)：
- 公式：Precision = TP / (TP + FP)
- 业务意义：预测为正的样本中有多少是真的
F1分数：
- 召回率和精确度的调和平均
- 公式：F1 = 2 * (Precision * Recall) / (Precision + Recall)
AUC-ROC：
- 衡量模型区分能力
- 对类别分布不敏感

3.3 指标选择策略

医疗诊断：优先最大化召回率（不能漏诊）
欺诈检测：平衡召回率和精确度
推荐系统：可能更关注精确度

4. 实战案例：信用卡欺诈检测

4.1 数据集分析

总样本：284,807笔交易
欺诈交易：492笔（0.172%）
特征：V1-V28（PCA处理后的数值）+ Amount

4.2 处理流程

数据准备：

from sklearn.preprocessing import RobustScaler # 对Amount特征进行鲁棒缩放 scaler = RobustScaler() data['Amount'] = scaler.fit_transform(data['Amount'].values.reshape(-1,1))

采样策略选择：
- 尝试了SMOTE、ADASYN、SMOTEENN等
- 最终选择SMOTE + RandomUnderSampler组合

模型训练：

from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier( n_estimators=100, class_weight='balanced_subsample', max_depth=10, random_state=42 )

4.3 结果对比

方法	召回率	精确度	F1	AUC
原始数据	0.72	0.89	0.80	0.97
SMOTE	0.83	0.95	0.89	0.98
SMOTE+Under	0.87	0.93	0.90	0.99

关键发现：组合采样策略在保持高精确度的同时显著提升了召回率

5. 高级技巧与注意事项

5.1 交叉验证的特殊处理

在偏斜数据上使用标准k-fold会导致：

某些fold可能没有正类样本
解决方案：使用StratifiedKFold

实现代码：

from sklearn.model_selection import StratifiedKFold skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) for train_idx, test_idx in skf.split(X, y): X_train, X_test = X[train_idx], X[test_idx] y_train, y_test = y[train_idx], y[test_idx]

5.2 阈值调整技巧

默认0.5分类阈值通常不是最优：

计算预测概率
绘制精确率-召回率曲线
选择业务最合适的阈值

代码示例：

from sklearn.metrics import precision_recall_curve y_scores = model.predict_proba(X_test)[:, 1] precisions, recalls, thresholds = precision_recall_curve(y_test, y_scores) # 找到使F1最大的阈值 f1_scores = 2 * (precisions * recalls) / (precisions + recalls) best_threshold = thresholds[np.argmax(f1_scores)]

5.3 集成方法的应用

Bagging：对多数类多次欠采样创建多个平衡子集
- 实现：BalancedBaggingClassifier
Boosting：自适应调整样本权重
- 推荐：XGBoost的scale_pos_weight参数

XGBoost示例：

import xgboost as xgb # 计算正负样本比例 scale_pos_weight = sum(y==0) / sum(y==1) model = xgb.XGBClassifier( scale_pos_weight=scale_pos_weight, eval_metric='aucpr' # 使用PR曲线下面积 )

6. 常见陷阱与解决方案

6.1 数据泄露问题

在偏斜数据中更容易出现：

采样前进行特征标准化
采样前做特征选择

正确做法：

先拆分训练集和测试集
只在训练集上应用采样
测试集保持原始分布

6.2 过拟合少数类

SMOTE可能导致：

在少数类周围创建过于相似的样本
解决方案：调整SMOTE的k_neighbors参数
替代方案：使用BorderlineSMOTE或SVMSMOTE

6.3 计算资源考量

过采样会显著增加：

内存使用量
训练时间

应对策略：

对大数据集先做欠采样
使用生成器而非全量数据
考虑分布式计算

7. 领域特定建议

7.1 医疗诊断场景

核心需求：不能漏诊（高召回）
特殊技术：
- 主动学习：专家标注最不确定的样本
- 不确定性估计：预测时输出置信度

7.2 金融风控场景

核心需求：降低误报（高精确）
特殊技术：
- 规则引擎+模型组合
- 时间序列分析（欺诈模式演变）

7.3 工业缺陷检测

特点：正样本极稀缺
解决方案：
- 少样本学习
- 迁移学习（预训练模型+微调）
- 数据增强（针对图像）

在实际项目中，我发现结合业务知识创建新特征往往比复杂的采样技术更有效。例如在信用卡欺诈中，创建"短时间内多次大额交易"的特征显著提升了模型性能。

机器学习中类别不平衡问题的处理策略与实践