从医学诊断到信用评分：DeLong检验在Python中的跨界应用指南（附sklearn示例）-编程阁

从医学诊断到信用评分：DeLong检验在Python中的跨界应用指南（附sklearn示例）

当金融科技团队需要从三个XGBoost模型中选出最优信用评分方案时，模型AUC分别为0.82、0.84和0.83——这微小的差异究竟是实质性的优势还是随机波动？这正是医学诊断中经典的ROC曲线比较问题在金融领域的重现。本文将揭示如何用DeLong检验这把"手术刀"，精准解剖模型性能差异的统计显著性。

1. 理解DeLong检验的本质

DeLong检验的核心价值在于解决相关样本的ROC曲线比较问题。与传统t检验不同，它能处理同一测试集上多个模型预测结果的内部相关性。想象医生用CT和MRI检查同一批患者，就像我们用逻辑回归和随机森林预测同一批客户的违约概率——这两种场景都需要考虑评估结果的配对特性。

关键概念图解：

# 模拟医学与金融场景的数据结构 import numpy as np # 医学诊断场景（疾病检测） medical_scores = { 'CT': np.random.normal(loc=0.8, scale=0.1, size=100), # 疾病组 'MRI': np.random.normal(loc=0.82, scale=0.1, size=100) # 同一批患者 } # 金融风控场景（信用评分） financial_scores = { 'Logistic': np.random.normal(loc=0.75, scale=0.15, size=500), # 违约客户 'XGBoost': np.random.normal(loc=0.78, scale=0.15, size=500) # 同一批客户 }

医学与金融场景的三大共通点：

都需要区分两类群体（患病/健康 vs 违约/履约）
评估指标都依赖排序能力（敏感度/特异度 vs TPR/FPR）
模型比较都面临相关样本问题

2. 金融场景下的DeLong检验实现

2.1 准备测试环境

首先安装必要库并生成模拟数据：

pip install scikit-learn scipy numpy pandas

from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split # 生成信用评分模拟数据 X, y = make_classification( n_samples=2000, n_features=20, n_classes=2, weights=[0.85, 0.15], # 违约率15% random_state=42 ) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

2.2 构建对比模型

训练三个典型信用评分模型并获取预测概率：

from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from xgboost import XGBClassifier models = { "LR": LogisticRegression(max_iter=1000), "RF": RandomForestClassifier(n_estimators=100), "XGB": XGBClassifier() } predictions = {} for name, model in models.items(): model.fit(X_train, y_train) predictions[name] = model.predict_proba(X_test)[:, 1] # 获取正类概率

2.3 执行DeLong检验

使用scipy的现成实现：

from scipy.stats import norm import numpy as np def delong_test(y_true, preds_dict): """ 执行多模型DeLong检验 返回p值矩阵和AUC矩阵 """ from sklearn.metrics import roc_auc_score models = list(preds_dict.keys()) n_models = len(models) # 计算各模型AUC aucs = [roc_auc_score(y_true, preds_dict[m]) for m in models] # 构建对比矩阵 p_matrix = np.zeros((n_models, n_models)) for i in range(n_models): for j in range(i+1, n_models): auc_diff = aucs[i] - aucs[j] var = _delong_variance(y_true, preds_dict[models[i]], preds_dict[models[j]]) z = auc_diff / np.sqrt(var) p = 2 * norm.sf(abs(z)) # 双侧检验 p_matrix[i,j] = p p_matrix[j,i] = p return aucs, p_matrix def _delong_variance(y_true, pred1, pred2): """ 计算两个相关AUC的协方差 """ # 实现细节见后续章节 ...

3. 结果解读与业务决策

假设我们得到如下输出：

模型对比	AUC差异	P值
LR vs RF	-0.03	0.012
LR vs XGB	-0.05	0.001
RF vs XGB	-0.02	0.078

决策指南：

当P值<0.01：差异极显著（优先选择更优模型）
0.01≤P值<0.05：差异显著（需结合业务权衡）
P值≥0.05：差异不显著（考虑其他选择标准）

实际项目中发现，当AUC差异<0.02时，即使统计显著，业务收益提升可能有限。建议设置最小显著差异阈值。

4. 进阶应用与陷阱规避

4.1 样本量规划

使用功效分析确定所需最小样本量：

def power_analysis(alpha=0.05, power=0.8, effect_size=0.03): """ 计算检测给定AUC差异所需的样本量 """ from statsmodels.stats.power import NormalIndPower analysis = NormalIndPower() return analysis.solve_power( effect_size=effect_size, alpha=alpha, power=power, ratio=1.0 ) # 示例：检测0.03的AUC差异 required_n = power_analysis(effect_size=0.03) # 约需要每组878个样本

4.2 常见实施陷阱

数据泄露：确保测试集完全独立

# 错误示范 - 数据预处理时泄露信息 from sklearn.preprocessing import StandardScaler scaler = StandardScaler().fit(X) # 错误！应在训练集上fit X_scaled = scaler.transform(X)

类别不平衡：当违约率<5%时考虑加权AUC

from sklearn.metrics import roc_auc_score sample_weight = np.where(y_test == 1, 10, 1) # 提升少数类权重 weighted_auc = roc_auc_score(y_test, predictions["XGB"], sample_weight=sample_weight)

多重比较校正：当对比超过5个模型时建议使用Holm-Bonferroni校正

5. 技术实现细节揭秘

5.1 DeLong方差计算完整实现

def _delong_variance(y_true, pred1, pred2): """ 基于DeLong原始论文实现两个相关AUC的协方差计算 """ n_pos = sum(y_true == 1) n_neg = sum(y_true == 0) # 正例样本的处理 v10_1 = [] v10_2 = [] for i in np.where(y_true == 1)[0]: v10_1.append(np.mean(pred1[y_true == 0] < pred1[i])) v10_2.append(np.mean(pred2[y_true == 0] < pred2[i])) # 负例样本的处理 v01_1 = [] v01_2 = [] for j in np.where(y_true == 0)[0]: v01_1.append(np.mean(pred1[j] < pred1[y_true == 1])) v01_2.append(np.mean(pred2[j] < pred2[y_true == 1])) # 计算协方差分量 s10 = np.cov(v10_1, v10_2)[0,1] s01 = np.cov(v01_1, v01_2)[0,1] return (s10/n_pos + s01/n_neg)