因果推斷入門:為什么需要因果推斷?(3)
3.1 什么是圖?
我猜看這系列文章的朋友對圖 Graph 的概念已經(jīng)再熟悉不過了,這里就不費(fèi)口舌細(xì)說了。圖是由節(jié)點(diǎn) node 和邊 edge 組成的一個(gè)數(shù)據(jù)結(jié)構(gòu),下面放幾張普通類型圖的示例:
因果圖模型的許多工作是在概率圖模型的基礎(chǔ)上完成的。要了解因果圖首先要了解一下什么是概率圖模型,雖然兩者有著很大差別。貝葉斯網(wǎng)絡(luò)是最主要的概率圖形模型,因果圖模型(因果貝葉斯網(wǎng)絡(luò))繼承了它們的大部分屬性。
聯(lián)合概率分布可以通過 chain rule 寫成如下形式:
如果直接對上面公式建模的話,參數(shù)數(shù)量會爆炸。
如果 只依賴依賴 的話,沒必要condition on所有的變量,即 可以寫成 。我們可以用 graph 表示變量之間的依賴關(guān)系,這個(gè) graph 就叫做貝葉斯網(wǎng)絡(luò)。一般而言,貝葉斯網(wǎng)絡(luò)的有向無環(huán)圖 DAG 中的節(jié)點(diǎn)表示隨機(jī)變量,它們可以是可觀察到的變量,抑或是隱變量、未知參數(shù)等。
給定 DAG,怎么計(jì)算所有變量的聯(lián)合概率分布呢,需要用到下面的假設(shè),即X節(jié)點(diǎn)只和它的父節(jié)點(diǎn)有關(guān),和其他節(jié)點(diǎn)無關(guān):
這樣,圖 3.6 的聯(lián)合概率分布就可以寫成下面形式:
3.3 因果圖
上一節(jié)是關(guān)于統(tǒng)計(jì)模型和關(guān)聯(lián)建模的。在本節(jié)中,我們將用因果假設(shè)來增強(qiáng)這些模型,把它們變成因果模型,使我們能夠研究因果關(guān)系。為了引入因果假設(shè),我們必須首先理解 “什么是原因 cause”。
根據(jù)上面的定義,如果變量 Y 能隨著 X 的變化而變化,則稱 X 是 Y 的原因。然后給出貫穿全書的(嚴(yán)格)因果假設(shè) 3.3,在有向圖中,每個(gè)節(jié)點(diǎn)都是其子節(jié)點(diǎn)的直接原因。X 是 Y 的父節(jié)點(diǎn),X 就是 Y 的直接原因,X 的原因(X 的父節(jié)點(diǎn))也是Y的原因,但是是間接原因。
如果我們把 Y 的所有直接原因 ?x,那么改變 Y 的任何其他原因都不會引起 Y 的任何變化。因?yàn)?cause 的定義(De?nition 3.2)意味著 cause 和它的 e?ect 是相關(guān)的,而且因?yàn)槲覀兗僭O(shè)所有的父節(jié)點(diǎn)都是他們子節(jié)點(diǎn)的原因,所以因果圖中父節(jié)點(diǎn)和子節(jié)點(diǎn)是相關(guān)的。
非嚴(yán)格因果關(guān)系假設(shè)將允許一些父節(jié)點(diǎn)不是其子節(jié)點(diǎn)的原因,但不常見。除非另有說明,在本書中,我們將用“因果圖”來指滿足嚴(yán)格因果邊假設(shè)的 DAG,省略“嚴(yán)格”一詞。
總結(jié)一下,DAG 有向無環(huán)圖是 graph 的一種特殊形式,貝葉斯網(wǎng)絡(luò)和因果圖都是用 DAG 表示的,但是兩者的含義不一樣,貝葉斯網(wǎng)絡(luò)表達(dá)的是變量之間的依賴關(guān)系,而因果圖表達(dá)的是變量之間的因果關(guān)系。由于表示因果關(guān)系的邊也暗含著兩個(gè)變量之間有關(guān)聯(lián),因此,DAG 里既有因果關(guān)系也有關(guān)聯(lián)關(guān)系,這也對應(yīng)本章的題目。
現(xiàn)在我們已經(jīng)了解了基本的假設(shè)和定義,我們可以進(jìn)入本章的核心:DAG 中的關(guān)聯(lián)和因果關(guān)系。首先我從構(gòu)成 DAG 的基本結(jié)構(gòu)入手。這些最小的構(gòu)建塊包括 chain 鏈(圖 3.9a)、fork 叉子(圖 3.9b)、immoralities 對撞(圖 3.9c)、兩個(gè)未連接的節(jié)點(diǎn)(圖 3.10)和兩個(gè)連接的節(jié)點(diǎn)(圖 3.11)。其示意圖分別如下所示
在一個(gè)由兩個(gè)未連邊的節(jié)點(diǎn)組成的 graph 中(圖3.10), 和 肯定是獨(dú)立的 independent、無關(guān)聯(lián)的 unassociated。
相反,如果兩個(gè)節(jié)點(diǎn)之間有邊(圖3.11),那么一定是 associated 的。這里用到的是 Assumption 3.3:由于 x1 是 x2 的原因,x2 必須能夠?qū)?x1 的變化做出反應(yīng),所以 x2 和 x1是關(guān)聯(lián)的。一般來說,如果兩個(gè)節(jié)點(diǎn)在因果圖中是相鄰的,它們都是相關(guān)的。
把鏈 chain 和叉子 fork 放在一節(jié)介紹是因?yàn)樗鼈z的特性是一樣。
相關(guān)性:
在 chain 中,x1 是 x2 的原因,x2 是 x3 的原因,那么 x1 和 x2 是相關(guān)的,x2,x3 是相關(guān)的,x1 和 x3 也是相關(guān)的。
在 fork 中,x2 是 x1 和 x3 的共因,x1 和 x3 也是相關(guān)的。這個(gè)可能有點(diǎn)反直覺,x1,x3 之間明明沒有邊,為啥也是有關(guān)聯(lián)的呢?舉個(gè)例子:溫度升高會導(dǎo)致冰淇淋銷量上升,同時(shí)也會使犯罪率上升,從冰淇淋銷量和犯罪率的數(shù)據(jù)上來看,他們有著相同的趨勢,因此是相關(guān)的,盡管他們之間并沒有因果關(guān)系。
關(guān)聯(lián)流 associate flow 是對稱的,x1 和 x3 相關(guān),x3 也和 x1 相關(guān),即圖中紅色虛線部分。而因果流是非對稱的,只能沿著有向邊流動,即 x1 是 x3 的原因,x3 不是 x1 的原因。
獨(dú)立性:
chain 和 fork 也有著相同的獨(dú)立性。如果我們把 x2 固定住,即 condition on x2,那么 x1 和 x3 的相關(guān)性就會被阻斷 block,變的獨(dú)立。
在 chain中,如果把 x2 固定成一個(gè)定值,x1 做任何改變,都不會影響 x2 的變換,因?yàn)橐呀?jīng)被固定了,那么 x3 也不會發(fā)生變化,因此 x1,x3 變的獨(dú)立。
Proof:
chain 的聯(lián)合概率分布如下:
然后,condition on x2, 利用 Bayes rule 得到:
再次利用 Bayes rule ,得到:
由此得出結(jié)論 。
對撞結(jié)構(gòu)是指 x1,x3 都是 x2 的原因,x2 又叫做 collider。這種情況下時(shí),x1 和 x3 都影響 x2,但是信息沒有從 x2 流向 x1 或者 x3,因此 x1 和 x3 是相互獨(dú)立的。 的 association flow 被 x2 block 掉了,圖中紅線只有一半。
proof:
如果固定 x2,即 condition on x2,此時(shí) x1,x3 從獨(dú)立變的相關(guān)了。舉個(gè)不恰當(dāng)?shù)睦?,x1 是財(cái)富,x2 是長相,x3 是追女孩,長得帥有錢才能追到女孩。如果某個(gè)人沒有追到女孩,而我們觀察到他帥,那他肯定沒錢,如果他有錢,那他一定長得不行。
如果 condition on collider 節(jié)點(diǎn)的后代節(jié)點(diǎn),x1,x3 也是相關(guān)的??梢园?x2 的后代節(jié)點(diǎn)想象成 x2 的代理節(jié)點(diǎn)。condition on 代理節(jié)點(diǎn)和 condition on x2 的效果是一樣的。
3.7 d-分離
首先引入 blocked path 的概念,給定條件集合 Z,Z 里面的變量都是固定住值的,如果存在一條路徑滿足以下兩種情況之一,這就是一條 blocked path:
- 這條路徑存在 chain()或者存在 fork(),且 condition on W()
- 這條路徑存在一個(gè) collider W( ),并且并且 W 的所有后代節(jié)點(diǎn)也不固定()
同理,unblocked path 的定義與 block path 相反。blocked path 中不存在從 X 到 Y 的 association flow,被 block 掉了。unblocked path 中存在從 X 到 Y 的 association flow。
下面給出 d-分離的概念:
在給定集合 Z 的條件下,如果 X 和 Y 中的任意兩個(gè)節(jié)點(diǎn)之間的路徑都被 block,那么就說 X 和 Y被 Z d-分離。zhiyao 存在一條路徑是 unblock 的,則說 X 和 Y 被 Z d-連通。如果 X 和 Y 被 Z d-分離,可以得到 X 和 Y 在給定 Z 時(shí)一定是獨(dú)立的。 表示 d 分離, 表示獨(dú)立。
小練習(xí):
判斷下面幾種情況是否是 d-分離
1. Are T and Y d-separated by the empty set?
No
2. Are T and Y d-separated by W2?
No
3. Are T and Y d-separated by {W2 , M1 }?
Yes
4. Are T and Y d-separated by {W1 , M2 }?
Yes
5. Are T and Y d-separated by {W1 , M2 ,X2}?
No
3.8 因果流和關(guān)聯(lián)流
最后,總結(jié)下圖上的因果流和關(guān)聯(lián)流。關(guān)聯(lián)流沿著 unblock path 流動,因果流沿著有向邊流動。我們將沿著有向邊的關(guān)聯(lián)流稱作因果關(guān)聯(lián) causal association??傮w的 association 包括 causal association 和 non-causal association。一個(gè)典型的非因果關(guān)聯(lián)的例子是 confounding association。
常見的貝葉斯網(wǎng)絡(luò)是純粹的統(tǒng)計(jì)模型,所以我們只談?wù)撠惾~斯網(wǎng)絡(luò)中的關(guān)聯(lián)流動。不過,關(guān)聯(lián)在貝葉斯網(wǎng)絡(luò)中的流動方式與在因果圖中的流動方式完全相同,關(guān)聯(lián)都是沿著鏈和叉子流動的,除非 condition on 中間節(jié)點(diǎn),而 collider 會阻止關(guān)聯(lián)的流動,除非 condition on collider。我們可以通過兩個(gè)節(jié)點(diǎn)是否被 d-分離來判斷它們是否有關(guān)聯(lián)(兩者之間有關(guān)聯(lián)流)。
因果圖的特殊之處在于,我們還假設(shè)邊具有因果意義(因果邊假設(shè),假設(shè) 3.3)。這個(gè)假設(shè)將因果關(guān)系引入我們的模型,它使一種類型的路徑具有全新的意義:有向路徑。這個(gè)假設(shè)賦予了有向路徑獨(dú)特的作用,即沿著它們蘊(yùn)含因果關(guān)系。此外,這個(gè)假設(shè)是不對稱的;“X 是 Y 的原因”和“Y 是 X 的原因”是不一樣的。這意味著關(guān)聯(lián)和因果關(guān)系之間有一個(gè)重要的區(qū)別:關(guān)聯(lián)是對稱的,而因果關(guān)系是不對稱的。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。