博客專欄

EEPW首頁 > 博客 > 因果推斷入門:為什么需要因果推斷?(1)

因果推斷入門:為什么需要因果推斷?(1)

發(fā)布人:數(shù)據(jù)派THU 時間:2022-09-18 來源:工程師 發(fā)布文章

來源:PaperWeekly

本文是 Brady Neal 推出的因果推斷課程 Introduction to Causal Inference 的中文筆記,主要是參考 Lecture Notes 加上一些自己的理解。


圖片


課程主頁:

https://www.bradyneal.com/causal-inference-course

Lecture Note:

https://www.bradyneal.com/Introduction_to_Causal_Inference-Dec17_2020-Neal.pdf

課程視頻:

https://www.youtube.com/playlist?list=PLoazKTcS0Rzb6bb9L508cyJ1z-U9iWkA0


1、為什么需要因果推斷

1.1 辛普森悖論


首先,考慮一個與現(xiàn)實(shí)情況很相關(guān)的例子:針對某種新冠病毒 COVID-27,假設(shè)有兩種療法:方案 A 和方案 B,B 比 A 更稀缺(耗費(fèi)的醫(yī)療資源更多),因此目前接受方案 A 的患者與接受方案 B 的患者比例約為:73%/27%。想象一下你是一名專家,需要選擇其中一種療法,而這個國家只能選擇這一種療法,那么問題來了,如何選擇才能盡量少的減少死亡?
圖片

▲ 表1.1


假設(shè)你有關(guān)于死于 COVID-27 的人的百分比數(shù)據(jù)(表1)。他們所接受的治療是與病情的嚴(yán)重程度相關(guān)的,mild 表示輕癥,severe 表示重癥。在表 1 中,可以看到接受方案的人中總共有 16% 的人死亡,而接受 B 的死亡率是 19%,我們可能會想更貴的治療方案 B 比便宜的治療方案 A 的死亡率要更高,這不是離譜嗎。然而,當(dāng)我們按照輕癥、重癥分別來看(Mild 列和 Severe 列),情況確是相反的。在這兩種情況下,接受 B 的死亡率比 A 都要低。
此時神奇的悖論就出現(xiàn)了。如果從全局視角來看,我們更傾向于選擇 A 方案,因?yàn)?16%<19%。但是,從 mild 和 severe 視角來看,我們都更傾向于方案 B,因?yàn)?10%<15%,20%<30%。此時你作為專家給出了一下結(jié)論:“如果能判斷患者是輕癥或者重癥,就用方案 B,如果判斷不了就用方案 A”,此時估計(jì)你已經(jīng)被人民群眾罵成磚家了。
導(dǎo)致出現(xiàn)辛普森悖論的關(guān)鍵因素是各個類別的非均勻性。接受 A 治療的 1500 人中有 1400 人病情輕微,而接受 B 治療的 550 人中有 500 人病情嚴(yán)重。因?yàn)椴∏檩p的人死亡的可能性較小,這意味著接受治療 A 的人的總死亡率低于如果病情輕和病情重的人各一半的情況。治療 B 的情況則相反,這就導(dǎo)致了 Total 一列 16%<19%。
其實(shí),方案 A 或方案 B 都可能是正確答案,這取決于數(shù)據(jù)的因果結(jié)構(gòu)。換句話說,因果關(guān)系是解決辛普森悖論的關(guān)鍵。在下文,我們會首先從直覺上給出什么時候應(yīng)該偏向于方案 A,什么時候應(yīng)該偏向于方案 B。更理論的解釋會放到后面再講。


Scenario 1

圖片

▲ 圖1.1


如圖 1.1 所示,C(condition)是 T(treatment)和 Y(outcome)的共同原因。這里 C 代表病情輕重,T 代表治療方案,Y 代表是否死亡。這個 Graph 的意思是說病情輕重會影響醫(yī)生給你用哪種方案,而且病情輕重本身也會導(dǎo)致是否死亡。治療 B 在降低死亡率方面更有效。
在這種情況下,醫(yī)生決定給大多數(shù)病情輕微的人提供 A 方案,而把更昂貴、更有限的 B 治療方法留給病情嚴(yán)重的人。因?yàn)椴∏閲?yán)重的人更有可能死亡(圖 1.1 中的 C→Y ),并導(dǎo)致一個人更有可能接受 B 治療(圖 1.1 中的 C→T)。因此,總體 B 的死亡率更高的原因僅僅是選擇方案 B 中的人大多數(shù)(500/550)是重癥,而重癥即使用了更貴的方案 B,死亡率 100/500=20% 也比輕癥用方案 B 的死亡率 5/50=10% 要高,最終混合的結(jié)果會更偏向于重癥的結(jié)果。
在這里,病情 C 混淆了治療 T 對死亡率 O 的影響。為了糾正這種混雜因素,我們必須研究相同條件的病人的 T 和 Y 的關(guān)系。這意味著,最好的治療方法是在每個子群體(表1.1 中的“mild”和“severe”列)中選擇低死亡率的治療方法:即方案 B。


Scenario 2


圖片▲ 圖1.2
如圖 1.2,T(治療方案)是 C(病情輕重)的原因,C 又是 Y(死亡與否)的原因。這種情況的實(shí)際場景是:方案 B 非常稀缺,以至于患者在選擇接受治療后需要等待很長時間才能實(shí)際接受治療,而選擇 A 的患者很快就會得到治療。在這種情況下,治療方案是與病情無關(guān)的,而情境一,病情會決定方案。
由于 COVID-27 患者的病情會隨著時間的推移而惡化,方案 B 實(shí)際上會導(dǎo)致病情較輕的患者發(fā)展為重癥,從而導(dǎo)致更高的死亡率。因此,即使 B 一旦用****就比 A 更有效(圖1.2 中的正面作用 T→Y),由于方案 B 的長時間等待會導(dǎo)致病情惡化(圖1.2 中的負(fù)面作用 T→ C →Y)550 個選擇 B 的人里面有 500 人因?yàn)榈鹊臅r間長變重癥了,而只有 50 人是輕癥,因此 total 的結(jié)果 19% 會更偏向于 B 的重癥死亡率 20%。同理,Total A 的死亡率 16% 會更偏向于 A 的輕癥死亡率 15%。
此時,最優(yōu)的選擇是方案 A,因?yàn)?total 的死亡率更低。而實(shí)際表格的結(jié)果也符合,因?yàn)?B 治療更貴,所以以 0.27 的概率選擇方案 B,而以 0.73 的概率選擇 A。
總之,更有效的治療完全取決于問題的因果結(jié)構(gòu)。在情景 1 中(圖1.1), B 更有效。在情景 2 中(圖1.2)的一個原因, A 更有效。沒有因果關(guān)系,辛普森悖論就無法解決。有了因果關(guān)系,這就不是悖論了。


1.2 因果推斷的應(yīng)用


因果推斷對科學(xué)來說是至關(guān)重要的,因?yàn)槲覀兘?jīng)常想提出因果要求,而不僅僅是關(guān)聯(lián)性要求。例如,如果我們要在一種疾病的治療方法中進(jìn)行選擇,我們希望選擇能使大多數(shù)人得到治愈的治療方法,同時又不會造成太多的不良副作用。如果我們想讓一個強(qiáng)化學(xué)習(xí)算法獲得最大的回報(bào),我們希望它采取的行動能使它獲得最大的回報(bào)。如果我們研究社交媒體對心理健康的影響,我們就會試圖了解造成某一心理健康結(jié)果的主要原因是什么,并按照可歸因于每個原因的結(jié)果的百分比排列這些原因。
因果推斷對于嚴(yán)格的決策至關(guān)重要。例如,假設(shè)我們正在考慮實(shí)施幾種不同的政策來減少溫室氣體排放,但由于預(yù)算限制,我們必須只選擇一種。如果我們想最大限度地發(fā)揮作用,我們應(yīng)該進(jìn)行因果分析,以確定哪種政策將導(dǎo)致最大的減排。再舉一個例子,假設(shè)我們正在考慮采取幾項(xiàng)干預(yù)措施來減少全球貧困。我們想知道哪些政策將最大程度地減少貧困。
既然我們已經(jīng)了解了辛普森悖論的一般例子以及科學(xué)和決策中的一些具體例子,我們將轉(zhuǎn)向因果段與預(yù)測的不同之處。

1.3 相關(guān)性因果關(guān)系

許多人都會聽過“相關(guān)并不意味著因果(correlation does not imply causation)”的口頭禪。首先通過一個例子解釋為何會這樣。
圖片▲ 圖1.3
如圖 1.3,每年因落入游泳池而溺水的人數(shù)與 Nicolas Cage 每年出演的電影數(shù)量具有高度相關(guān)性。如果只看這張圖可以得到以下幾種解釋:(1)Nicolas Cage 在他的電影中鼓勵糟糕的游泳者跳進(jìn)游泳池。(2)當(dāng) Nicolas Cage 看到那一年發(fā)生了多少溺水事件時,他是更有動力去出演更多的電影。(3)也許尼古拉斯凱奇有興趣增加他在因果推理從業(yè)者中的知名度,所以他回到過去說服他過去的自己做正確數(shù)量的電影讓我們看到這種相關(guān)性,但又不完全匹配,因?yàn)檫@會引起懷疑,從而阻止他以這種方式操縱與數(shù)據(jù)的相關(guān)性。 
但是,只要是個有常識的人都知道上述解釋都是不對的,兩者沒有因果關(guān)系,因此是一種虛假的相關(guān)性。從這個簡單的例子我們可以直觀的理解“相關(guān)性并不等于因果關(guān)系”。

1.3.1 為什么關(guān)聯(lián)不等于因果


注意:“相關(guān)性 (Correlation)”經(jīng)常被口語化地用作統(tǒng)計(jì)依賴性(statistical dependence)的同義詞,然而,“關(guān)聯(lián)”在理論上只是對 linear statistical dependence 的一種衡量。在以后,我們將統(tǒng)一使用關(guān)聯(lián)(association)一詞來表示 statistical dependence。
對于任何給定數(shù)量的關(guān)聯(lián),并不是“所有的關(guān)聯(lián)都是因果關(guān)系”或“沒有任何關(guān)聯(lián)是因果關(guān)系”。有可能存在大量的關(guān)聯(lián),而其中只有一部分是因果關(guān)系?!标P(guān)聯(lián)不等于因果“只是意味著關(guān)聯(lián)的數(shù)量和因果的數(shù)量可以是不同的。
再考慮一個例子,假設(shè)我們有穿鞋睡覺和醒來后頭痛的數(shù)據(jù)。結(jié)果發(fā)現(xiàn),在大多數(shù)情況下,如果有人穿鞋睡覺,醒來后會頭痛。而在大多數(shù)情況下,如果不穿鞋睡覺,醒來后不頭痛。如果不考慮因果,人們把這樣有關(guān)聯(lián)的數(shù)據(jù)解釋為“穿鞋睡覺會導(dǎo)致人們醒來頭痛”,尤其是當(dāng)他們在尋找一個理由來證明不穿鞋睡覺是合理的。
圖片▲ 圖1.4
事實(shí)上,它們都是由一個共同的原因引起的:前一天晚上喝酒(喝醉了大概率才會穿鞋睡覺)。如圖 1.4 所示,這種變量被稱為“混雜因子(confounder)”或“潛伏變量(lurking variable)”。我們將由 confounder 引起的關(guān)聯(lián)稱為 confounding association,其實(shí)是一個虛假的關(guān)聯(lián)。
觀察到的 total association 可以由混雜關(guān)聯(lián) confounding association(圖中紅色箭頭)和因果關(guān)聯(lián) causal association(圖中藍(lán)色箭頭)組成??赡艿那闆r是,穿鞋睡覺確實(shí)對醒來后的頭痛有一丟丟的因果關(guān)系。那么,總的關(guān)聯(lián)將不只是混雜關(guān)聯(lián),也不只是因果關(guān)聯(lián),它將是兩者的混合。例如,在圖 1.4 中,因果關(guān)系沿著從穿鞋睡覺到頭痛醒來的藍(lán)色箭頭流動。而混雜關(guān)聯(lián)則沿著從穿鞋睡覺到喝酒再到頭痛的紅色路徑流動。我們將在第三章中對這些不同種類的關(guān)聯(lián)做出明確的解釋。

1.4 涉及的一些概念


Statistical vs. Causal 即使有無限量的數(shù)據(jù),我們有時也無法計(jì)算一些因果量。相比之下,許多統(tǒng)計(jì)數(shù)據(jù)都是關(guān)于解決有限樣本中的不確定性。當(dāng)給定無限數(shù)據(jù)時,沒有不確定性。然而,關(guān)聯(lián)是一個統(tǒng)計(jì)概念,并不是因果關(guān)系。即使擁有無限數(shù)據(jù),在因果推斷方面還有更多工作要做。 
Identi?cation(識別)vs. Estimation(估計(jì))識別因果關(guān)系是因果推理的特有內(nèi)容。即使我們有無限的數(shù)據(jù),這也是一個有待解決的問題。然而,因果推理也與傳統(tǒng)的統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)有著共同的估計(jì)。我們將主要從因果關(guān)系的識別開始(第2、4 和 6 章),然后轉(zhuǎn)向因果關(guān)系的估計(jì)(第 7 章)。
Interventional(干預(yù))vs. Observational(觀察)如果我們能夠進(jìn)行干預(yù)/實(shí)驗(yàn),因果關(guān)系的識別就相對容易。這是因?yàn)槲覀兛梢詫?shí)際采取我們想測量因果關(guān)系的行動,并簡單地測量我們采取該行動后的因果關(guān)系。然而,如果只有觀察性數(shù)據(jù),識別因果關(guān)系比較困難,因?yàn)闀星懊嫣岬降?confounder 的存在。


2、潛在結(jié)果potential outcome


2.1 潛在結(jié)果 & 獨(dú)立因果效應(yīng)


首先通過兩個例子引入這兩個概念。
Scenario 1:假設(shè)你現(xiàn)在很不開心。而你正在考慮是不是要養(yǎng)一只狗來變得開心些。如果你在養(yǎng)狗后變得開心,這是否意味著是狗狗使你變得快樂?而如果你沒有養(yǎng)狗,你同樣也變得開心了呢?在這種情況下,狗并不是使你開心的必要條件,所以狗對你開心與否有因果效應(yīng)的這個說法是不太對的。
Scenario 2:另一種情況是,如果你在養(yǎng)狗后變得開心。但是如果你沒有得到一只狗,你依然會不開心。在這種情況下,狗狗對與你的開心就有很強(qiáng)的因果效應(yīng)。
用 Y 表示結(jié)果——happiness, 表示 happy, 表示 unhappy;用 T 表示 Treatment——是否有狗, 表示有狗, 表示沒狗。 表示如果你有狗,那么會觀察到的你養(yǎng)狗后是幸福指數(shù)。 表示如果你沒狗,那么會觀察到的沒狗后的幸福指數(shù)。而在 Scenario 1 中,;在 Scenario 2 中,。這里的  就是所說的 Potential Outcome。
形式化來說,potential outcome  是指如果你采取 treatment ,你的結(jié)果會是什么。potential outcome  與 observed outcome  不同之處在于,并非所有的 potential outcome 都已經(jīng)被觀察到,而是有可能被觀察到。
對于單獨(dú)的個體 ,individual treatment effect(ITE)獨(dú)立因果效應(yīng)被定義為:


圖片


只要人口中有一個以上的個體, 就是一個隨機(jī)變量,因?yàn)椴煌膫€體會有不同的 potential outcome。相比之下, 通常被視為非隨機(jī)變量,因?yàn)橄聵?biāo)  意味著我們將注意力限制在單個個體(在特定背景下),其 potential outcome 是確定性的。
ITE 是我們在因果推斷中關(guān)心的一個主要指標(biāo)。例如,在上面的情景 2 中,你會選擇養(yǎng)狗,因?yàn)轲B(yǎng)狗對你的幸福感的因果效應(yīng)是正的:。相反,在情景 1 中,你可能會選擇不養(yǎng)狗,因?yàn)轲B(yǎng)狗對你的幸福沒有因果效應(yīng):

2.2 因果推斷中的基本問題


因果推斷中的基本問題是,如果通過缺失數(shù)據(jù)來得到因果效應(yīng)。即我們不能同時觀察到  和 ,那么我們就不能得到 ,就判斷不了因果效應(yīng)。這個問題是因果推斷所特有的,因?yàn)樵谝蚬茢嘀?,我們關(guān)心的是如何提出因果 claim,而這些 claim 是以 potential outcome 來界定的。
沒有(不能)觀察到的 potential outcome 被稱為 counterfactuals,因?yàn)樗鼈兣c事實(shí)(現(xiàn)實(shí))相反。“potential outcome”有時又被稱為“counterfactual outcome”。但是在這本書中不會這么叫,作者認(rèn)為,一個 potential outcome  在觀察到另一個 potential outcome  之前不會成為反事實(shí)。被觀察到的 potential outcome 有時被稱為事實(shí) factual。請注意,在結(jié)果被觀察到之前,只有潛在結(jié)果,不存在反事實(shí)或事實(shí)。

2.3 如何解決基本問題


2.3.1 平均因果效應(yīng) & 缺失數(shù)據(jù)解釋


既然無法得到獨(dú)立因果效應(yīng),那么能否得到平均因果效應(yīng)(Average Treatment E?ects,ATE)呢?理論上可以通過求期望來得到:
圖片
圖片

▲ 表2.1


但我們實(shí)際上如何計(jì)算 ATE 呢?讓我們看一下表 2.1 中的一些捏造的數(shù)據(jù)。我們把這個表作為整個 population of interest。由于因果推斷的基本問題,導(dǎo)致有些缺失數(shù)據(jù)。表中所有的?都表示我們沒有觀察到這個結(jié)果。
從這張表中,我們很容易計(jì)算出 associational di?erence(通過 T 列和 Y 列):
圖片
通過期望的線性運(yùn)算法則,ATE 可以寫成:
圖片
乍一看,你首先可能會直接得到
圖片
但其實(shí)這是錯誤的做法。如果這個公示成立,則意味著“因果就是關(guān)聯(lián)”,這個觀點(diǎn)我們在第一章已經(jīng)反駁過了。
圖片
以第一章中穿鞋睡覺是否會導(dǎo)致第二天頭痛的例子為例
圖片
T=1 中,絕大多數(shù)都是喝了酒的,而 T=0 中絕大多數(shù)都是沒喝酒的。T=1 和 T=2 這兩個 subgroub 是 uncomparable 的,E[Y|T=1] 肯定是要大于 E[Y(1)] 的,因?yàn)楹染撇艜菀最^疼。
那么 comparable 的兩個 group 長什么樣呢?就如下圖所示,這時候兩個式子之間就可以劃等號了。
圖片



*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

傳感器相關(guān)文章:傳感器工作原理


風(fēng)速傳感器相關(guān)文章:風(fēng)速傳感器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉