![因果推断与机器学习](https://wfqqreader-1252317822.image.myqcloud.com/cover/671/47548671/b_47548671.jpg)
1.2.1 工具变量
利用工具变量的因果识别方法是一类常见的处理存在隐藏混淆变量的情况的方法。MIT(美国麻省理工学院)的Sinan Aral等人曾用工具变量来研究使用社交网络对人们锻炼习惯的影响[15],他们很聪明地利用了天气这个外生变量作为工具变量。接下来将介绍工具变量在结构因果模型和潜结果框架中识别因果效应的方法。
1.工具变量在结构因果模型中的用法
下面用如图1.6所示的因果图来展示一个常见的可以利用结构因果模型做因果识别的情况。用本章中的例子可以说观测到了一个混淆变量X,即餐厅的类别,而存在一些隐藏混淆变量U,阻碍了我们直接利用后门准则。令工具变量Z表示用户是否提交评论,即Z=1(或Z=0)表示用户提交了(或没提交)评论。假设用户提交评论是不受其他变量影响的,那么它就有可能是一个有效的工具变量。接下来定义结果因果模型下的工具变量[16]。
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_32_1.jpg?sign=1738886200-Yk9bLduGgABRfGqZbT3G5Wcj3D54VhQb-0-5430bb4dc5a691e8d0d4a81e2a70b582)
图1.6 一个典型的可以利用工具变量(Z)达成因果识别的因果图。我们不要求所有的混淆变量都被观测到,即只能观测到X,不能观测到U
定义1.18 工具变量。
考虑随机变量Z、处理变量T、结果变量Y和特征X,我们说Z是一个有效的工具变量,当且仅当它满足以下条件:
• Z是外在变量;
• 以观测到的特征为条件,Z与T不相互独立,如式(1.20)所示:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_33_1.jpg?sign=1738886200-QgJLl8gZR5HLrfEz6VARhTttjIjnVkR2-0-9fc87e8b589972aae2ff6dbcf6bf2406)
• 以观测到的特征和对处理变量进行干预为条件,Z与Y相互独立,如式(1.21)所示:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_33_2.jpg?sign=1738886200-HuEV5uxHtri6BlcSTo6kyBji1WWlT5Dg-0-7779a920cce7e867110d3c78b68a647e)
在潜结果因果模型中,式(1.20)意味两种可能的情况:第一,在因果图中存在一条有向边Z→T;第二,存在一个以X为对撞因子的反向叉状图Z→X←T。在实际问题中,第一种情况可能更常见。第二种情况(见式(1.21))看上去有点难以理解,因为它是以X和do(T)同时为条件。它常被称为排除约束(exclusion restriction)。我们也可以用语言来表达这一点,即任何一条没有被阻塞的以Z为第一个点而Y为最后一个点的通路,都用一条有向边指向处理变量T。实际上,用因果图来讲,它意味着以Z为第一个点,而Y为最后一个点的通路有且只有一条,就是Z→T→Y。用文字表达则意味着工具变量Z对结果变量Y的影响只能通过它对处理变量T的影响来达成。在文献[17]中,卡耐基梅隆大学的Cosma Shalizi教授认为可以把工具变量Z对结果变量Y的因果效应对应的干预分布分解成两部分,即工具变量Z对处理变量T的影响和处理变量T对结果变量Y的影响。假设处理变量T是离散变量,可以用式(1.22)来表示这个分解过程:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_33_3.jpg?sign=1738886200-WskEiE6Dj5o5sEvzqAACSvmh47HIXZy0-0-c82469a659fdc453fe6525cada928e43)
接下来展示如何在线性的结构因果模型中利用工具变量做到因果识别。首先,根据因果图1.6定义一组线性的结构方程,如式(1.23)所示:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_33_4.jpg?sign=1738886200-kGsQghewfj6uYShkATQ8pzuZBCEAaIgS-0-d3023a1af7e7283d0c78fa3e49edce97)
其中,假设两个噪声项ϵY和ϵT都服从平均值为0的高斯分布,而τ便是想要得到的平均因果效应。这种能够用一个常数表示所有单位的因果效应的情况,我们称为同质性因果效应(homogeneous treatment effect)。在很多情况下,每个单位的因果效应可能不同,我们称这种情况下的因果效应为异质性因果效应(heterogeneous treatment effect)。可以把式(1.23)中的第一个等式代入第二个等式的右边,然后化简得到式(1.24):
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_34_1.jpg?sign=1738886200-t8JqRtmyNFsIbIG1b5jtgdEzOZLB0oxx-0-a795edd878449545ede5c9f993548e24)
其中,γ0=τα0+β0,而η=τϵT+ϵY。那么得出式(1.25):
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_34_2.jpg?sign=1738886200-D031gYG9WWxe2Sd1KomQDU2MkrDUzjRZ-0-757f0a24364deda50257ee25b2dc951f)
第一个等式中因为Z是外在变量,因此P(Y|do(Z))=P(Y|Z)。而根据式(1.25),可以算出E[Y|do(Z=1)]-E[Y|do(Z=0)]=ταZ。类似地,可以根据线性结构因果模型(见式(1.23))和Z是外在变量,以及P(T|do(Z))=P(T|Z)这一事实得到式(1.26):
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_34_3.jpg?sign=1738886200-gdeF8FLxETSIm9cFoY0atS3OQj7G5auq-0-9f5f171462fe905da10f3f12e81f468c)
结合式(1.25)和式(1.26),就可以得到线性结构因果模型下的比例估计量(ratio estimator),如式(1.27)所示:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_34_4.jpg?sign=1738886200-UU3VRPKjUrheyRqR89B8wjCqQRpagtki-0-40e4174e435f1c7c7d69491b436b6dec)
这里隐含的条件是分母αZ不为0,即工具变量Z对处理变量T的因果效应不为0。之后只需要利用回归或者分类模型(取决于Y取值是连续的还是离散的)估测等式右边的期望E[Y|Z]和E[T|Z],即可完成因果效应估测。
2.工具变量在潜结果框架中的用法
用潜结果框架也可以利用工具变量做到因果识别。为了方便读者理解,这里仍然以图1.6作为参考,而且不需要对模型做线性假设,但只能识别到一个亚群的平均因果效应。在潜结果模型中,考虑Z,T ∈ {0,1}可以把工具变量I对结果变量Y的ITE表示成式(1.28):
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_35_1.jpg?sign=1738886200-3KBnYnf1h4dg3ncynahThF6Pcoa4DDJg-0-6e3dc9ec2afe5b6e52af656f76be91de)
其中,1和0是工具变量I的取值,Yi(Z,Ti(Z))和Ti(Z)分别是潜结果和处理变量的函数形式,这种表达强调了工具变量对处理变量和结果变量的取值的影响。注意,接下来会用Yi(Z)表示受工具变量影响的潜结果,而表示受处理变量影响的潜结果。然后可以由式(1.28)推导得到式(1.29):
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_35_3.jpg?sign=1738886200-IHZ2jHhPwAuZDyrtYkQm67ovatoER7Fy-0-c66d111fb603de81f4452a27181bfc14)
其中第一个等式利用了之前的假设,即排除约束假设(见式(1.21))——工具变量I只通过影响处理变量T来影响结果变量Y。第二个等式可以直接由一致性得到(见式(1.15))。第三个等式则直接由数学推导获得。到这一步,仍然没有完成因果识别。注意式(1.29)这一表达与式(1.22)的区别在于它是个人级别的,里面的变量都带有下标i。接下来对式(1.29)求期望,如式(1.30)所示:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_35_4.jpg?sign=1738886200-4O4ellLFHKzZQXNpOe0BAXEjw9cRvNwX-0-651ad5be95667c6caa28b68764f89205)
其中,等式右边的部分由Yi(Ti(1))-Yi(Ti(0))分解而来。注意,当Ti(1)-Ti(0)=0时,Yi(Ti(1))-Yi(Ti(1))=0总是成立,所以这样的情况对应的因果效应总是为0。接下来将讨论如何基于以上推导得到最简单的一个利用工具变量的因果效应的估计量。这里需要加入一个新的假设,即单调性(monotonicity)。
定义1.19 单调性。
单调性指处理变量的值随工具变量的值增大而不会变小,即Ti(1)≥Ti(0)。这意味着P(Ti(1)-Ti(0)=-1)=0。
单调性假设可以使式(1.30)右边的第二项为0,因为P(Ti(1)-Ti(0)=-1)=0。这样就可以得到经典的比例估计量,如式(1.31)所示:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_36_1.jpg?sign=1738886200-SbI974ULjEr4ttNABt5LUvfrNzrCyvNH-0-0112ba5c656821d163f53ca786d87a91)
其中,等式左边的期望是估测的目标,即所谓的局部平均因果效应(local average treatment effect,LATE)。局部代表只考虑那些满足单调性的个体。也有人把它叫作服从者平均因果效应(compiler average treatment effect)。服从者也是代表满足单调性的个体组成的亚群。到这一步则可以利用工具变量是外在变量这一点,把等式右边出现的受工具变量Z影响的潜结果和处理变量(这里处理变量也可以看作是受工具变量影响的潜结果)这些因果量替换为相应的统计量。因为工具变量是外在变量,在潜结果框架下有式(1.32):
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_36_2.jpg?sign=1738886200-I6LbTrlhgrJqYHGedWSOm3Le8hPA7WFN-0-31e050d6dd9388997ae3fad3840c0efc)
这有时也被称为随机化假设。基于这些独立条件,可以将E[(Yi(1)-Yi(0))]和E[(Ti(1)-Ti(0))]这两个因果量写成统计量,如式(1.33)所示:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_36_3.jpg?sign=1738886200-1PNhIHVa0twnMa4htMA83BjceMdUMOFg-0-1fd64c33d554b81dab6bc33882f67702)
类似地,可以得到E[(Ti(1)-Ti(0))]=E[T|Z=1]-E[T|Z=0]。这样就完成了在潜结果框架中利用工具变量对局部平均因果效应的因果识别,即利用比例估测量来估测局部平均因果效应,如式(1.34)所示:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_36_4.jpg?sign=1738886200-XG6r87osW9ItvoqfDlaDml3VHkn3VkNh-0-d785d0fd4bbdd48cac37b4761c56b7ed)
这样就可以用观测性数据中可以估测的量E[Y|Z]来估测LATE。在2017年以后的研究中,工具变量方法不再局限于单调性假设,而是被延伸到基于深度神经网络的评价器中[18]。对工具变量而言,另一个比较重要的概念是两阶段最小二乘法(two stage least square,2SLS)[19]。图1.7展示了可以应用2SLS的一个因果图。与图1.6相比可以发现,在图1.7中工具变量Z不再必须是外生变量。我们仍然可以利用Z来提供与未观测到的混淆变量U独立的随机性,这有助于我们识别因果效应E [Y|do(T)]。传统的2SLS假设工具变量Z与T之间的关系和T与Y之间的关系都是线性的。因此,在2SLS中,先利用Z对T做回归得到预测的,然后利用
对Y的线性回归来得到因果效应。与传统的2SLS不同,在实际问题中,我们常面临的挑战是非线性关系,这意味着传统的基于线性回归的2SLS无法被直接应用。在文献[18]中,Hartford等人提出了如式(1.35)所示的目标方程:
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_37_3.jpg?sign=1738886200-veGUJsmSBC4h90S6geAMqEsZTPrmf1as-0-9d22ff674ade4494adec5b9d2fba03b6)
![](https://epubservercos.yuewen.com/A6ABA3/26947411607591006/epubprivate/OEBPS/Images/44462_37_4.jpg?sign=1738886200-lKr18z4NXf7ZlRH9TVuNbaFfgZhpkHyT-0-9fdf7aa64d032b60f6c6890e82da7232)
图1.7 一个典型的可以利用两阶段最小二乘法达成因果识别的因果图。不要求T→Y的混淆变量U都被观测到
其中,是将输入的预测的处理变量
映射到预测的结果变量
的函数。而g则是将观测到的工具变量Z映射到预测的处理变量
的函数,我们可以利用观测到的数据来学习函数g,然后解决优化问题(见式(1.35))来学习处理变量与结果变量之间的非线性关系。有兴趣的读者可以自行阅读文献[18]。