[因果推断] 倾向得分匹配PSM实战：从ATT估算到增量模型搭建-编程阁

1. 为什么需要倾向得分匹配？

在真实业务场景中，我们常常遇到这样的困境：某个产品功能已经全量上线，想要评估它对用户留存的影响，却发现无法找到完美的对照组。这时候，倾向得分匹配（PSM）就像一把瑞士军刀，能帮我们在非实验环境下构建虚拟对照组。

我去年负责过一个电商会员权益改版项目，当时已经全量推送给所有用户。为了评估权益升级对消费频次的影响，我们先用逻辑回归模型计算每个用户的"倾向得分"——即用户被推送新权益的概率。这个概率值综合了用户的活跃度、历史消费等20多个特征，相当于把高维特征压缩成一个可比较的数字。

核心价值在于：通过匹配倾向得分相近的用户，我们能够模拟随机实验的环境。比如给一个高活跃用户匹配到另一个活跃度相似但未体验新权益的用户，这样两组用户的差异就主要来自权益改版本身。实际操作中，我们会先用柱状图展示匹配前后两组用户的特征分布变化，当所有特征的标准化偏差都降到5%以下时，匹配质量才算合格。

2. 构建倾向模型的实战细节

2.1 特征工程的关键陷阱

建立倾向模型时，特征选择直接决定匹配质量。根据我的踩坑经验，有三大常见错误：

误用后效特征：比如在评估促销活动效果时，如果把活动期间的点击量作为特征，就相当于用结果解释原因。正确的做法是只用活动前的历史数据，比如过去30天的访问频率。
忽略重要混杂因子：曾有个社区产品评估内容推荐算法效果，最初模型只用了用户画像特征。后来加入用户关注的创作者数量后，ATT估计值从8%降到了3.5%，因为这个特征同时影响推荐曝光和内容消费。
过度依赖算法筛选：随机森林的特征重要性排序不能替代业务理解。我们团队曾用自动化特征选择工具，结果漏掉了关键的设备类型特征，导致安卓和iOS用户被错误匹配。

# 正确的特征工程示例 pre_intervention_features = [ '30d_visit_count', # 干预前30天访问次数 'avg_order_value', # 历史客单价 'os_type', # 操作系统类型 'cohort_month' # 用户注册月份 ]

2.2 模型选择与调优

虽然逻辑回归是基线选择，但在用户特征复杂时效果有限。我们对比过三种方案：

LR+LightGBM融合模型：先用逻辑回归筛选显著特征，再用LightGBM捕捉非线性关系。在某金融APP的实验中，这种组合的AUC比单一模型提高0.12。
深度学习模型：当存在大量高维稀疏特征（如用户行为序列）时，可以尝试深度神经网络。不过要注意正则化强度，我们曾因dropout设置过低导致倾向得分过度集中。
平衡样本权重：当干预组和对照组样本量差异大时（比如5%用户被干预），需要在损失函数中设置class_weight参数。某次实验中，调整权重后匹配成功率从72%提升到89%。

提示：模型校准至关重要。建议用Brier分数评估预测概率的准确性，理想值应小于0.25。我们常用Platt Scaling来校准模型输出。

3. 匹配策略的进阶技巧

3.1 多维度匹配方案

基础的最近邻匹配可能不够稳健。我们开发了一套组合策略：

Caliper半径匹配：设置0.2倍倾向得分标准差的阈值。在某零售项目中，这避免了23%的低质量匹配对。
分层精确匹配：对关键特征（如用户等级）先做精确匹配，再在层内做倾向得分匹配。这样能保证重要维度完全对齐。
马氏距离加权：当存在强相关特征时，我们结合马氏距离和倾向得分计算综合相似度。公式如下：

综合距离 = √(α×倾向得分差² + (1-α)×马氏距离²)

其中α通过交叉验证确定，通常在0.6-0.8之间。

3.2 匹配质量诊断

我们建立了三重检验机制：

标准化偏差矩阵：用热力图展示所有特征在匹配前后的偏差变化。某次分析发现"最近搜索次数"这个特征的偏差仍有7%，排查发现是匹配时未考虑搜索词类型。
T检验报告：不仅看p值，还要关注效应量（Cohen's d）。建议设置双重标准：p>0.05且d<0.2才算通过。
平衡性检验：用置换测试生成1000次随机匹配结果，确保真实匹配的平衡性优于95%的随机情况。

4. 从ATT到增量模型搭建

4.1 双重差分法的实战要点

当有时间序列数据时，PSM+DID能提供更稳健的估计。关键步骤包括：

平行趋势检验：匹配后两组在干预前的指标差异应保持稳定。我们常用折线图+线性回归验证，斜率差异不应超过10%。
处理季节性波动：对电商这类业务，建议用同比变化值代替绝对值。去年双十一项目中发现，使用周同比数据使结果稳定性提升40%。
滞后效应分析：通过滚动窗口计算ATT，观察效应持续时间。某内容产品发现推荐算法改进的效果在第14天达到峰值，之后逐渐衰减。

4.2 模型工业化部署

将PSM结果转化为可持续监控的增量模型，需要三个组件：

动态匹配池：每周更新用户特征和倾向得分，保持对照组的时效性。我们开发了自动化的匹配流水线，匹配效率从8小时缩短到15分钟。
异常检测机制：设置ATT的置信区间报警。当波动超过2个标准差时触发人工复核，避免错误决策。
元分析模块：存储历史匹配配置和结果，形成知识库。现在团队新人可以通过对比相似案例快速上手。

在实践中，我们还会用Boostrap抽样生成ATT的置信区间。某次分析发现点估计是5%的提升，但95%区间是[1.2%, 9.8%]，这提醒我们决策时要考虑不确定性。

5. 常见问题排查指南

5.1 匹配失败场景处理

当遇到以下情况时需要考虑调整方案：

共同支撑域不足：用密度图展示两组倾向得分分布。如果重叠区域小于30%，建议换用熵平衡等其他方法。我们曾通过放宽caliper到0.3倍标准差解决这个问题。
平行趋势不满足：尝试加入时间固定效应或用户个体趋势项。某OTA平台项目中加入城市×月份的交互项后，平行趋势检验通过率从65%提升到92%。
增量结果反直觉：检查是否有未观测的混杂因素。我们开发了敏感性分析工具，可以模拟未观测变量的影响强度。