14.6 因果推断应用：消除混淆偏差、个体化处理效应估计-编程阁

14.6 因果推断应用：消除混淆偏差、个体化处理效应估计

因果推断旨在从观察性数据中识别和估计处理（或称干预、暴露）与结果之间的因果关系。其实践核心围绕两大目标展开：一是消除混淆偏差，确保估计出的“效应”是处理本身所致，而非其他混杂因素干扰；二是进行个体化处理效应估计，超越群体平均水平，揭示处理效应在个体间的异质性，为个性化决策提供依据。本节将系统阐述这两大应用主题的理论基础、主流方法与实践进展。

14.6.1 消除混淆偏差：从识别到调整

在观察性研究中，暴露组与对照组的差异可能并非由处理导致，而是由同时影响处理和结果的第三变量——即混杂因素——所造成。未能有效控制混杂会导致效应估计偏倚，进而可能产生误导性结论。消除混淆偏差的过程包含两个关键步骤：混杂因素的识别与随后的统计调整。

14.6.1.1 基于有向无环图的混杂识别框架

有向无环图(Directed Acyclic Graphs, DAGs) 是可视化变量间假定的因果结构、系统性识别混杂因素的核心工具。在DAG中，节点代表变量，有向边（箭头）表示直接的因果影响，其方向遵循时间顺序（由因至果）。通过DAG，混杂可以被清晰地定义为连接处理（E）与结果（O）的“后门路径”（即非因果路径）上的变量。

表1：DAG中的基本路径结构与因果含义

路径结构	示意图	因果含义	对关联的影响
链状结构(中介)	E → M → O	M是E影响O的中介变量	开启路径，传递因果效应
叉状结构(混杂)	E ← C → O	C是E和O的共同原因，即混杂因素	开启后门路径，产生虚假关联
对撞结构	E → M ← O	M是E和O的共同结果，即对撞变量	阻断路径；但若控制M（如将其纳入模型），则会“打开”这条路径，引入偏差

混杂识别的本质是找到一组可测量的协变量集合，阻断所有连接处理与结果的后门路径，同时避免调整对撞变量。为此，研究者发展出不同的混杂选择准则：

共同原因准则：选择所有在处理前已存在、且是处理与结果的共同原因的变量。这是最直接的准则。
处理前准则：更保守的策略是调整所有在处理前测量的变量，以避免遗漏潜在混杂，但需警惕引入对撞偏倚的风险。
改进的可识别原因准则：通过选择处理或结果的所有可测量原因，以更高效地获得一个充分的调整集。

DAG的构建高度依赖领域先验知识，其正确性是有效控制混杂的前提。即便在最优调整下，未测量混杂仍可能导致残余偏倚，因此常需结合敏感性分析来评估结论的稳健性。

14.6.1.2 混杂调整的主要方法

识别出需要调整的混杂变量后，需通过统计方法对其进行调整。主流方法可分为以下几类：

基于结果回归的模型法：通过建立结果变量（Y）关于处理变量（T）和混杂变量（X）的回归模型（如线性、逻辑回归）来估计调整后的处理效应。例如，在模型中包含X，则处理变量系数即为控制X后的效应估计。g-公式是该思想的形式化推广，通过模型预测并平均所有个体在不同处理下的潜在结果，来计算如平均处理效应等参数。
基于倾向得分的调整法：倾向得分（PS）是给定混杂变量X后个体接受处理的条件概率，即e(X)=P(T=1∣X)e(X) = P(T=1|X)e(X)=P(T=1∣X)。其核心思想是，在PS相同的层内，处理组与对照组的混杂变量分布相似，近似于随机化。调整方法包括：
- 匹配：为处理组个体在对照组中寻找PS相近的个体进行配对，然后比较结果。
- 分层：按PS分位数将样本分为若干层，计算层内效应后加权平均。
- 逆概率加权：通过权重w=T/e(X)+(1−T)/(1−e(X))w = T/e(X) + (1-T)/(1-e(X))w=T/e(X)+(1−T)/(1−e(X))创建一个人为的“伪总体”，其中处理与混杂无关，再计算加权后的效应。当协变量存在缺失时，可通过模型平均等方法提高倾向得分估计的鲁棒性。
双重稳健方法：此类方法同时结合结果模型和倾向得分模型。只要两个模型中至少有一个设定正确，即可得到无偏的效应估计，因而提供了额外的稳健性。增强逆概率加权和靶向最大似然估计是双重稳健方法的典型代表。

表2：主要混杂调整方法比较

方法类别	代表方法	核心思想	优点	局限性
结果回归	g-公式、标准回归	直接对结果建模，控制协变量	原理直观，效率高	严重依赖结果模型的正确定定
倾向得分	匹配、分层、IPW	平衡协变量分布，模拟随机化	不依赖结果模型，可视化好	严重依赖倾向得分模型的正确定定；极端PS可能导致权重不稳定
双重稳健	AIPW, TMLE	结合结果模型与倾向得分模型	提供模型误设的稳健性	计算相对复杂