因果推斷入門：為什么需要因果推斷？（4）

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2022-09-18 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

4、因果模型、do算子、干預(yù)

4.1 do算子和干預(yù)

在概率中，我們有以... 為條件的概念（condition on），但這與干預(yù)不同。以為條件僅意味著我們將關(guān)注點(diǎn)限制在整體人群中接受 treatment=t 的這一部分人群。相比之下，干預(yù) intervention 是讓整體人群都接受 treatment=t，而不管觀察到的其本身的 treatment 是否為 t。通常用 do 算子表示干預(yù)操作，即讓整體人群都接受 treatment=t 等價(jià)于。可以對(duì)照?qǐng)D 4.2 加深理解，subpopulations 表示觀察到的數(shù)據(jù)中藍(lán)色部分是 T=0 的集合，紅色部分是 T=1 的集合。Conditioning 表示我們只關(guān)注其中的藍(lán)色部分或紅色部分。do(T=1) 是指讓本身 T=0 的藍(lán)色部分也變成 T=0，即紅色。

還記得第二章講的潛在結(jié)果 potential outcome 嗎，和是等價(jià)的。的分布可以寫成：

平均因果效應(yīng) ATE 就可以寫成如下形式：

我們更關(guān)心  而非其均值，有了概率分布，期望自然就求出來(lái)了。我們將  及其他包含 do 算子的概率分布統(tǒng)稱為干預(yù)分布 interventional distributions.。
干預(yù)分布  和觀察分布 observational distribution  有本質(zhì)的區(qū)別。觀察分布  或  中沒有 do 算子，所以我們可以從觀察到的數(shù)據(jù)中直接求得而不需要做任何額外的實(shí)驗(yàn)。如果可以將包含 do 算子的表達(dá)式 Q 化簡(jiǎn)成不包含 do 的形式，那么 Q 就是可識(shí)別 identi?able 的。
不論何時(shí)，每當(dāng) do 算子出現(xiàn)在“｜”之后，都意味著該表達(dá)式中的一切都在干預(yù)措施發(fā)生后（即 post-intervention）的情況下得到的。例如  表示在  這個(gè) subset 中讓其中所有個(gè)體的 treatment 都等于 t 后 Y 的期望。相反，表示在  這個(gè) subset 中被干預(yù)之前（i.e. pre-intervention）的期望。這兩者的區(qū)別對(duì)之后要介紹的反事實(shí)非常重要。

4.2 Modularity模塊化假設(shè)

在介紹這個(gè)非常重要的假設(shè)之前，我們必須指定因果機(jī)制是什么。有幾種不同的方法可以考慮因果機(jī)制。在本節(jié)中，我們將產(chǎn)生的因果機(jī)制指定為的條件概率分布。正如圖 4.3 所示，產(chǎn)生的因果機(jī)制是所有的父節(jié)點(diǎn)及其指向的邊。

模塊化假設(shè)是指：假設(shè)對(duì)變量干預(yù)只會(huì)改變的因果機(jī)制，只局限在圖中橢圓內(nèi)，不會(huì)改變生成任何其他變量的因果機(jī)制。從這個(gè)意義上講，因果機(jī)制是模塊化的。模塊化假設(shè)的明確定義如下：

如果對(duì)節(jié)點(diǎn)集合 S 進(jìn)行干預(yù)，將其中的變量設(shè)為常數(shù)，對(duì)于任意節(jié)點(diǎn) i：

如果節(jié)點(diǎn) i 不在集合 S 中，那么其條件概率分布保持不變
如果節(jié)點(diǎn) i 在集合 S 中，如果是變量被干預(yù)后指定的值，那么一定為 1，否則為 0。

第二點(diǎn)也可以說(shuō)，如果  和干預(yù)一致（  is consistent with the intervention ）（等于  被干預(yù)后的值），則
模塊化假設(shè)允許我們只在一個(gè)圖中就可以 encode 不同的干預(yù)分布。例如

這三種完全不同的分布，都可以用表示聯(lián)合概率分布  的圖來(lái)表示，除了涉及到干預(yù)的 factor，其他的 factor 都是一樣的。
干預(yù)分布的因果圖與用于聯(lián)合分布的圖相同，只不過是移除了指向干預(yù)節(jié)點(diǎn)的所有邊：這是因?yàn)楸桓深A(yù)節(jié)點(diǎn)的條件概率分布  已經(jīng)是 1 了，因此我們可以忽略該 factor。另一種解釋是既然干預(yù)節(jié)點(diǎn)已經(jīng)設(shè)置為常數(shù)，那么它必然不會(huì)受到父節(jié)點(diǎn)的影響，因此可以去掉之間的因果關(guān)系。刪掉邊的圖稱為 manipulated graph。以圖 4.4 為例，對(duì) T 干預(yù)對(duì)應(yīng) (b)，對(duì)  干預(yù)對(duì)應(yīng) (c).

4.3 截?cái)嘁蚴椒纸?/span>

回顧下貝葉斯網(wǎng)路中聯(lián)合概率分布的分解形式：

現(xiàn)在對(duì)節(jié)點(diǎn)集合S進(jìn)行干預(yù)，對(duì)于，和干預(yù)前的值保持一樣。對(duì)于，，因此，干預(yù)后的概率分布可以表示為（截?cái)嘁蚴椒纸猓?/span>

4.3.1 Example

以最簡(jiǎn)單的有 confounder 存在的因果圖為例，聯(lián)合概率分布可以表示為：

對(duì) T 進(jìn)行干預(yù)后，，則：

y 的邊緣概率分布為：

通過比較干預(yù)分布和正常的條件概率分布的差別，可以更深刻地理解為什么“關(guān)聯(lián)不是因果”

可以看到，Eq(2) 和 Eq(1) 的差別在于一個(gè)是一個(gè)是。將這個(gè)例子更簡(jiǎn)化一些，假設(shè) T 是一個(gè)二值的變量，我們想計(jì)算 ATE。因?yàn)?nbsp; 就是 potentialoutcome 的概率分布，因此可以通過求期望得到，同理得到，因此平均因果效應(yīng) ATE 就可以寫成：

如果將 Eq(1) 代入，則 ATE 可以完全寫成概率的形式，表達(dá)式中不包括 do，可以通過觀察數(shù)據(jù)得到，這樣 ATE 就是 identified。我們?cè)谙乱恍」?jié)會(huì)更形式化的描述這一過程。

4.4 后門調(diào)整

4.4.1 后門路徑

以上圖為例，回顧第三章，從 T 到 Y 存在兩種 association，其中一種是的因果關(guān)聯(lián)，另一種是和的非因果關(guān)聯(lián)，也稱這兩條路徑是 unblocked（因?yàn)槎际遣娼Y(jié)構(gòu)，且沒有 condition on）。后門路徑的含義就是，如果一條從 T 到 Y 的路徑是 unblocked，且有指向 T 的邊（即），則稱這條路徑是后門路徑。為什么叫后門呢，因?yàn)楸旧磉@條路徑是沒有從 T 到 Y 的有向邊的，但是因?yàn)橛幸粭l指向 T 的邊，相當(dāng)于進(jìn)入了 T 的后門，這條路徑就被打通了。

此時(shí)如果我們對(duì) T 干預(yù)，則任何指向 T 的邊都會(huì)被去掉，后門路徑就被阻斷了，T和 Y 之間就只剩因果關(guān)聯(lián)了。
如果 condition on W1， W2， W3 和 C，同樣也會(huì)阻斷后門路徑。

4.4.2 后門準(zhǔn)則，后門調(diào)整
如果我們想將完全寫成概率的形式，則需要假設(shè) W 滿足后門準(zhǔn)則。

對(duì)于 T 和 Y，如果下面條件為 True 的話，變量集合 W 則滿足后門準(zhǔn)則：

condition on W 可以阻斷 T 和 Y 之間的所有后門路徑
W 不包括 T 的所有子孫節(jié)點(diǎn)

將 W 引入到中，可以得到

為什么，可以這樣想一下。對(duì)應(yīng)的圖中，因?yàn)閷?duì) T 進(jìn)行干預(yù)，所有指向 T 的邊都被刪掉，因此，所有的后門路徑都被 block 了，T 和 Y 之間只有沿著的有向路徑有關(guān)聯(lián)流（因果關(guān)系）。在對(duì)應(yīng)的圖中，因?yàn)?condition on W，所有后門路徑也沒 block了，T 和 Y 之間也只有沿著有向路徑的關(guān)聯(lián)流。在這兩種情況中，關(guān)聯(lián)流只沿著有向路徑流動(dòng)，因此對(duì)應(yīng)著相同的條件概率分布。
因?yàn)闆]有指向 T 的邊，T 沒法對(duì) W 造成影響，所以，因此上式可以繼續(xù)寫成：

這就是后門調(diào)整公式。

4.4.3 Relation to Potential Outcomes

還記得第二章介紹過的調(diào)整公式嗎：

既然都叫調(diào)整公式，后門調(diào)整和 Eq(3) 有什么聯(lián)系嗎？對(duì)干預(yù)后的 Y 求期望：

把 T=1 和 T=0 代入得：

可以看到 eq(4) 和 eq(3) 是相等的，是 potential outcome 的另一種表示形式。當(dāng)然，eq(3) 成立也有個(gè)前提是 conditional exchangeability：

4.5 結(jié)構(gòu)因果模型

本節(jié)我們將從因果圖模型轉(zhuǎn)到結(jié)構(gòu)因果模型。相比于比較直觀的圖模型，結(jié)構(gòu)因果模型可以更詳細(xì)清晰的解釋什么是干預(yù)和因果機(jī)制。

4.5.1 結(jié)構(gòu)等式

Judea Pearls 說(shuō)過，數(shù)學(xué)中的“=”不包含任何因果信息，和表示的都是同一個(gè)意思，“=”是對(duì)稱的。但是為了表達(dá)因果，需要有一個(gè)非對(duì)稱的符號(hào)。如果 A 是 B 的原因，那么改變 A 一定會(huì)改變 B，但是反之不成立，我們可以用結(jié)構(gòu)等式 structural equation 來(lái)表示：

這里將“=”替換成”:=“。但是，B 和 A 之間的映射是確定性的。理想情況下，我們希望它是概率性的，為一些未知因素留出空間。因此可以寫成下面這樣：

其中，U 是為觀察到的隨機(jī)變量，在圖中用虛線表示，未觀察到的 U 類似于我們通過抽樣個(gè)體看到的隨機(jī)性；它表示確定 B 的所有相關(guān)（嘈雜）背景條件。f 的函數(shù)形式不需要指定，當(dāng)不指定時(shí)，我們處于非參數(shù)狀態(tài)，因?yàn)槲覀儧]有對(duì)參數(shù)形式做出任何假設(shè)。雖然映射是確定性的，但由于它以隨機(jī)變量 U（“噪聲”或“背景條件”變量）作為輸入，它可以表示任何隨機(jī)映射，因此結(jié)構(gòu)方程是的推廣形式。因此，當(dāng)我們引入結(jié)構(gòu)方程后，截?cái)喾纸夂秃箝T調(diào)整仍然成立。

有了結(jié)構(gòu)等式后，我們可以更詳細(xì)的定義原因和因果機(jī)制。生成變量的因果機(jī)制是與該變量相對(duì)應(yīng)的結(jié)構(gòu)方程。例如，生成 B 的因果機(jī)制是 Eq(5)。類似的，如果 X 出現(xiàn)在結(jié)構(gòu)等式的右邊，則 X 是 Y 的直接原因。

圖 4.8 更復(fù)雜的結(jié)構(gòu)等式如下：

在因果圖中，噪聲變量通常是隱式的（虛線），而不是明確繪制的。我們寫結(jié)構(gòu)方程時(shí)已知的變量稱為內(nèi)生（endogenous）變量，這些是我們正在建模因果機(jī)制的變量 - 在因果圖中具有父母的變量。相反，外生（exogenous）變量是因果圖中沒有任何父母的變量。這些變量是我們因果模型外部的，因?yàn)槲覀儧]有為其建模因果機(jī)制。例如，在圖 4.8 描述的因果模型中，內(nèi)生變量為。外源變量為。
結(jié)構(gòu)因果模型 SCM 定義如下，包含一組內(nèi)生變量，一組外生變量，一組生成內(nèi)生變量的函數(shù)：

4.5.2 干預(yù)

從 SCM 的角度來(lái)描述干預(yù)會(huì)非常簡(jiǎn)單。對(duì) T 進(jìn)行干預(yù) 相當(dāng)于將 T 的結(jié)構(gòu)等式替換成。例如，圖 4.9 對(duì)應(yīng)的 SCM 為：

如果對(duì) T 干預(yù)，讓其等于 t，那么干預(yù)后的 SCM 則為：

可以發(fā)現(xiàn)，除了 T 本身的結(jié)構(gòu)等式，其他的等式都保持不變。這也是由模塊化假設(shè)決定的。

換句話說(shuō)，干預(yù)操作是 localized。通過模塊化假設(shè)，可以引出 Pearl 所說(shuō)的反事實(shí)準(zhǔn)則。回顧下第二章潛在結(jié)果的概念，指的是當(dāng) treatment=t 時(shí)個(gè)體 i 的潛在結(jié)果。這里我們換另一種記號(hào)表示，，其中 u 等價(jià)于 i。根據(jù)定義 4.3，反事實(shí)準(zhǔn)則指的就是干預(yù)之前 treatment=t 的潛在結(jié)果與干預(yù)之后的潛在結(jié)果相等。