博客專欄

EEPW首頁 > 博客 > 一文讀懂因果推斷的起源

一文讀懂因果推斷的起源

發(fā)布人:數(shù)據(jù)派THU 時間:2020-09-29 來源:工程師 發(fā)布文章

來源:翻譯教學(xué)與研究

編者按:斯特勞森曾說,邏輯不是先驗的,它與語言密不可分。這就是說,人類認知世界的工具——如數(shù)學(xué)推理,邏輯推理,理性,都是語言的產(chǎn)物。這意味著說,人類認知世界的能力是有局限性的,就像伽達默爾所說,語言就像是黑屋子中的手電筒,光柱照到哪里,我們就看到哪里。這是這篇文章讓我聯(lián)想到的東西。如果您對語言哲學(xué)感興趣的話,這篇文章值得一讀。

——翻譯教學(xué)與研究

北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院耿直教授開設(shè)的《普通統(tǒng)計學(xué)》課程是本學(xué)期的通識核心課程之一。

今天為大家?guī)淼氖枪⒅苯淌谒扑]的文章。該文章出自朱迪亞·珀爾著《為什么:關(guān)于因果關(guān)系的新科學(xué)》(中信出版集團股份有限公司 2019.7.1)中第二章選段,介紹了關(guān)于因果推斷的起源。

因果推斷的起源

朱迪亞·珀爾

但它(地球)仍在動。

——出自伽利略(1564—1642)

弗朗西斯·高爾頓爵士在皇家學(xué)院展示他的“高爾頓板”(Galton board)或稱“梅花機”(quincunx)。

他將這種類似彈珠臺的儀器看作對基因特性(如身高)遺傳的類比。彈球會堆積成一個上邊緣為鐘形曲線的圖案,該曲線與人類身高的分布曲線非常相似。那么,為什么人類一代傳一代,其身高分布并沒有像彈球那樣散開?這一難題引領(lǐng)他走向了“向均值回歸”(regression to the mean)現(xiàn)象的發(fā)現(xiàn)。(資料來源:由達科塔·哈爾繪制。)

近兩個世紀以來,英國科學(xué)界最經(jīng)久不衰的儀式之一便是在倫敦的英國皇家學(xué)院舉辦的“周五晚間演講”。

19世紀,很多重****現(xiàn)都是在這個會場上由演講者首次對外宣布的:1839年,邁克爾·法拉第發(fā)表了他的攝影原理;1897年,約瑟夫·湯姆遜提出了電子理論;1904年,詹姆斯·杜瓦公布了氫液化理論。

每場演講會都是一次盛典,毫不夸張地說,演講會就是把科學(xué)當(dāng)作舞臺,而臺下的觀眾則是精心打扮(男人必須身著禮服,佩戴黑領(lǐng)帶)的英國社會上層精英。到了指定的時間,鐘聲敲響,人們將迎接晚會的發(fā)言人步入禮堂。依照傳統(tǒng),發(fā)言人會省去自我介紹或開場白,直接開始演講。實驗和現(xiàn)場演示都是這一壯觀場面的重要組成部分。

1877年2月9日那天晚上的演講者是弗朗西斯·高爾頓,英國皇家學(xué)院院士,他是查爾斯·達爾文的大表弟,著名的非洲探險家、指紋學(xué)創(chuàng)始人,維多利亞時期紳士科學(xué)家的典范。高爾頓演講的題目是“典型的遺傳規(guī)律”。當(dāng)晚,他的實驗儀器是一種奇怪的裝置,他稱之為“梅花機”,現(xiàn)在該裝置常被稱為“高爾頓板”。一個名為Plinko的類似游戲常出現(xiàn)在電視節(jié)目《價格猜猜看》中。高爾頓板由一塊木板和其上按三角形陣列排布的大頭針或釘子組成,操作者可以通過頂部的開口塞入小金屬球。金屬球會像彈球那樣從上往下逐層彈跳下來,最后落進底部的一排插槽中(見章首插圖)。對單個金屬球來說,向左或向右彈落看上去完全是隨機的。

然而,如果你往高爾頓板里倒入很多小球,一個驚人的規(guī)律就出現(xiàn)了:在底部堆積的小球的上邊緣總是會形成一個近似鐘形的曲線。在最接近中心的插槽中,小球會堆得高高的,插槽中的球數(shù)從中間向兩側(cè)遞減,直至為零。

這種規(guī)律性的圖形模式有一個數(shù)學(xué)解釋:單個球下落的整個路徑就像一系列獨立的硬幣拋擲的結(jié)果一樣。小球每撞上一根大頭針,其或者彈向左邊,或者彈向右邊,表面上看,它的選擇似乎是完全隨機的。而所有結(jié)果之和,即往右彈落的次數(shù)與往左彈落的次數(shù)之差,則確定了小球最終會落于哪個插槽。根據(jù)1810年由皮埃爾–西蒙·拉普拉斯證明的中心極限定理[1],任何此類隨機過程,即多次硬幣拋擲之總效,都會導(dǎo)向相同的概率分布,這種概率分布被稱為正態(tài)分布(或鐘形曲線)[2]。高爾頓板只是拉普拉斯中心極限定理的一個直觀演示。

中心極限定理確實是19世紀的數(shù)學(xué)奇跡。試想一下:雖然單個球的路徑是不可預(yù)測的,但1000個球的路徑的可預(yù)測性則非常高,這對《價格猜猜看》的制片人來說是一個很實用的事實。他們可以據(jù)此準確估算出在較長一段時間內(nèi)參賽者在Plinko游戲中贏得的獎金數(shù)量。此外,盡管人類事物充斥著不確定因素,但同樣的規(guī)律仍然讓保險公司獲利豐厚。

皇家學(xué)院中穿著考究的觀眾一定想知道這一切與遺傳規(guī)律到底有什么關(guān)系,因為這是發(fā)言人約定的演講主題。為了說明二者的聯(lián)系,高爾頓向觀眾展示了他所收集的關(guān)于法國軍隊新兵身高的數(shù)據(jù)。這些數(shù)據(jù)也遵循正態(tài)分布:多數(shù)人是中等身材,特別高或特別矮的人很少。事實上,無論我們談?wù)摰氖?000名新兵的身高還是高爾頓板上的1000個小球的路徑,相對應(yīng)的插槽和身高類別中的數(shù)字幾乎總是相同的。

因此,對高爾頓來說,梅花機就是一種關(guān)于身高遺傳的模型,甚至可能也是關(guān)于許多其他遺傳特征的模型。這是一個因果模型。簡單來說,高爾頓相信,就像人類會遺傳他們上一代的身高一樣,金屬小球也會“遺傳”它們在梅花機中的位置。

但是,如果我們暫且接受這個模式,就會出現(xiàn)一個難題,這也是高爾頓當(dāng)晚的主題。鐘形曲線的寬度取決于放置在釘板頂部和底部之間釘子的行數(shù)。假設(shè)我們將行數(shù)加倍,我們就構(gòu)建了一個能夠表示兩代遺傳的模型,其中上半部分代表第一代,下半部分代表第二代。此時你就會發(fā)現(xiàn),第二代比第一代出現(xiàn)了更多的變異情況,而在隨后的幾代中,鐘形曲線會變得越來越寬。

然而,人類身高的真實狀況并未出現(xiàn)此種趨勢。事實上,隨著時間的推移,人類身高分布的寬度保持了相對的恒定。一個世紀前沒有身高9英尺[3]的人類,現(xiàn)在依然沒有。那么,是什么因素解釋了這種總體基因遺傳的穩(wěn)定性呢?自1869年高爾頓的《世襲的天才》(Hereditary Genius)出版以來,他已為這一謎題苦苦思索了八年。

正如書名所表明的,高爾頓真正感興趣的不是彈珠游戲或人的身高,而是人類的智力。作為孕育了多位科學(xué)天才的大家族的成員之一,高爾頓自然樂意證明天賦在家族中代代相傳。他在這本書中著手做的正是這項研究。他煞費苦心地編纂了605名英國“名門之秀”上溯4個世紀的家譜。但他發(fā)現(xiàn),這些名門之秀的兒子和父親并沒有那么優(yōu)秀,其祖父母和孫輩也并非都是卓越人才。

如今我們可以很容易地找到高爾頓研究方法中的缺陷。歸根結(jié)底,卓越的定義究竟是什么?有沒有這種可能,即名門望族的成員獲得成功只是因為他們掌握的特權(quán)而不是因為其本身的才能?盡管高爾頓意識到了這種可能的解釋,但他初心不改,反而以更大的決心徒勞地尋求一個的遺傳學(xué)解釋。

不過,高爾頓在此過程中還是有所發(fā)現(xiàn)的,特別是當(dāng)他開始關(guān)注類似身高這樣的遺傳特征的時候。與“卓越”相比,身高特征更易測量,跟遺傳的關(guān)聯(lián)也更強。高個子男性的兒子往往身高也比普通人高——但很可能不如他們的父輩高;矮個子男性的兒子往往身高比一般人矮——但很可能不如他們的父輩矮。一開始,高爾頓稱這種現(xiàn)象為“復(fù)歸”(reversion),后又改稱為“向均值回歸”(regression toward mediocrity)[4]。我們可以在許多其他的情境中觀察到這種現(xiàn)象。如果讓學(xué)生參加基于同樣復(fù)習(xí)資料的兩次不同的標準化測試,那么,第一次測試得分較高的學(xué)生在第二次測試中的得分通常仍然高于均值,但沒有第一次那么高。這種向均值回歸的現(xiàn)象普遍存在于生活、教育和商業(yè)領(lǐng)域的方方面面。比如,棒球賽中的“年度新秀”(第一賽季表現(xiàn)異常出色的球員)經(jīng)常會遭遇“新秀墻”,即在次年的比賽中陷入表現(xiàn)欠佳的低谷。

當(dāng)然,高爾頓并不知道這些,他認為他偶然發(fā)現(xiàn)的是一條遺傳規(guī)律,而不是統(tǒng)計規(guī)律。他認為,向均值回歸的背后一定存在某個因。在皇家學(xué)院的講座中,他說明了自己的觀點。他向聽眾展示了兩層的梅花機裝置(見圖2.1)。

1601374662483738.jpg

圖2.1高爾頓板

圖2.1 高爾頓板,弗朗西斯·高爾頓用以類比人類的身高遺傳規(guī)律。(a)將許多小球扔進彈球儀器,隨機向下彈跳的小球堆積成鐘形曲線。(b)高爾頓指出,經(jīng)過A和B兩個通道,通過兩層的高爾頓板(用以模擬兩代人)下落的小球所堆積成的鐘形曲線會變得更寬。(c)為了抵消這種曲線變寬的趨勢,他安裝了斜槽,以使“第二代”小球回到中心。斜槽是高爾頓對“向均值回歸”這一現(xiàn)象的因果解釋(資料來源:弗朗西斯·高爾頓《自然遺傳》,1889)

經(jīng)過第一組釘子陣列后,小球會通過一個斜槽向板子的中心集中,之后再通過第二組釘子陣列。高爾頓借助這一成功的演示,展示出斜槽的設(shè)置恰好抵消了正態(tài)分布的擴散趨勢。這一次,鐘形曲線在代代傳遞中保持了恒定的寬度。

因此,高爾頓推測,向均值回歸是一個物理過程,一種自然方式,用以確保身高(或智力)的分布在代代相傳中保持恒定。高爾頓告訴觀眾:“復(fù)歸過程符合遺傳變異的一般規(guī)律?!彼麑⑦@一過程與胡克定律進行了比較,后者描述的是彈簧恢復(fù)到穩(wěn)態(tài)長度的趨勢。

請記住這個日子。1877年,高爾頓致力于尋求一個因果解釋,并認為向均值回歸是一個因果過程,就像物理定律一樣。他錯了,但他的錯誤絕非個例。時至今日,許多人仍在繼續(xù)犯著同樣的錯誤。例如,棒球?qū)<铱偸窃噲D尋找球員遭遇新秀墻的因果解釋。他們會抱怨,“他變得過度自信了”,或者“其他球員搞清楚了他的弱點”。他們也許是對的,但新秀墻實際上并不需要一個因果解釋,這種現(xiàn)象單憑概率規(guī)則就足以解釋了。

現(xiàn)代統(tǒng)計學(xué)的解釋很簡單。正如丹尼爾·卡尼曼在他的著作《思考,快與慢》中總結(jié)的:“成功=天賦+運氣,巨大的成功=更多的天賦+更多的運氣?!币粋€贏得年度最佳新秀獎的球員可能的確比一般人更有才華,但他(更)可能也有很多的運氣。在下個賽季,他可能就沒有那么幸運了,他的平均擊球率也會因此下降。

到1889年,高爾頓已想通了這一點。在此過程中,他在統(tǒng)計學(xué)脫離因果關(guān)系的路上邁出了第一大步。這既讓人失望,也令人著迷。他的推理過程是微妙而晦澀的,但值得我們付出努力去理解。這是作為新生學(xué)科的統(tǒng)計學(xué)發(fā)出的第一聲啼哭。

高爾頓開始收集各種“人體測量”方面的統(tǒng)計數(shù)據(jù):身高、前臂長度、頭部長度、頭部寬度等。他注意到,譬如當(dāng)他根據(jù)前臂長度計算身高時,同樣的向均值回歸的現(xiàn)象又出現(xiàn)了:高個子男性通常有長度大于均值的前臂,但又不會像他的身高那樣遠高于均值。顯然,身高不是前臂長度的因,反之亦然。如果存在一個原因的話,那么應(yīng)該說二者都是由基因遺傳決定的。高爾頓開始使用一個新的詞來描述這種關(guān)系:身高和前臂長度是“共同相關(guān)的”(co-related)。之后,他又將這個詞簡化為一個更普通的英語單詞——“相關(guān)的”(correlated)。

后來,他又意識到一個更令人吃驚的事實:在進行代際比較時,向均值回歸的時間順序可以逆轉(zhuǎn)。也就是說,子輩的父輩的遺傳特征情況也會回歸到均值。即兒子的身高若高于均值,則其父親的身高很可能也高于均值,但往往父親要比兒子矮(見圖2.2)。在意識到這一點時,高爾頓不得不放棄了尋找向均值回歸的因果解釋的任何想法,因為子輩的身高顯然不可能是父輩身高的因。

1601374711297723.jpg

圖2.2散點圖

圖2.2 散點圖顯示了有關(guān)身高的數(shù)據(jù)集,每個點代表的是父親的身高(x軸)和他兒子的身高(y軸)的組合。虛線與橢圓的主軸重合,而實線(我們稱其為回歸線)連接了橢圓最右邊和最左邊的點。二者之間的差異就是向均值回歸的體現(xiàn)。例如,橢圓中的黑色星號顯示,父輩身高為72英寸,則其子輩平均身高為71英寸,即圖中垂直框中所有數(shù)據(jù)點的平均值為71英寸。水平框和白色星號顯示的是在非因果方向(時間逆轉(zhuǎn)方向)存在同樣的身高損失現(xiàn)象(資料來源:馬雅·哈雷爾繪圖,克里斯托弗·布歇供稿)

這種認識乍聽起來可能自相矛盾。你可能要問:“等等!你是說,高個子的父親通常有相較他們自己而言較矮的兒子,并且同時,高個子的兒子通常有相較他們自己而言較矮的父親——這兩種說法怎么可能同時為真?兒子怎么可能既比父親高,又比父親矮?”

答案是,我們談?wù)摰牟⒉皇莻€體的父親和個體的兒子,而是父輩和子輩兩個總體。我們從身高6英尺的父輩總體開始算起。因為他們的身高高于均值,所以他們兒子的身高將出現(xiàn)向均值回歸的現(xiàn)象,我們姑且假設(shè)他們兒子的平均身高為5英尺11英寸。然而,由父輩身高為6英尺的父子組合構(gòu)成的總體有別于由子輩身高為5英尺11英寸的父子組合構(gòu)成的總體。第一組中,所有的父親都是6英尺高。但第二組中,父親身高超過6英尺的較少,大部分身高不到6英尺,他們的平均身高要低于5英尺11英寸,再次顯示了向均值回歸的趨勢。

另一種解釋向均值回歸的方法是使用所謂的散點圖(見圖2.2)。每對父子組合都由一個點來表示,其中x坐標表示的是父親的身高,y坐標表示的是兒子的身高。因而,父親和兒子的身高均為5英尺9英寸(或69英寸)的組合可以由點(69,69)來表示,如圖2.2所示,其位于散點圖的中心。身高6英尺(或72英寸)的父親和身高5英尺11英寸(或71英寸)的兒子的組合,則可以用點(72,71)表示,位于散點圖的東北角。請注意,散點圖的形狀大致呈橢圓形,這一點對于高爾頓分析以及揭示兩個變量的鐘形分布特征而言至關(guān)重要。

如圖2.2所示,父輩身高為72英寸的父子組合的點位于以72為中心的垂直框(或稱“垂直切片”)內(nèi);子輩身高為71英寸的父子組合的點位于以71為中心的水平框(或稱“水平切片”)內(nèi)。通過觀察可見,它們是兩個不同的總體。如果只關(guān)注第一個總體,即父輩身高為72英寸的父子組合,我們可以問的問題是:其中子輩的平均身高是多少?這等于是在問垂直框的中心位置,通過觀察可知其中心大約是71。如果只關(guān)注第二個總體,即子輩身高為71英寸的父子,我們可以問的問題是:其中父輩的平均身高是多少?這等于是在問水平框的中心位置,通過觀察可知其中心大約是70.3。

我們可以更進一步考慮以同樣的步驟分析每一個垂直框。這就相當(dāng)于在問:對于身高為x的父輩,其子輩身高(y)的最佳預(yù)測是多少?或者,我們也可以取每個水平框,問它的中心在哪里,即對于身高為y的子輩,其父輩身高(x)的最佳“預(yù)測”(或倒推)是多少?

通過思考這個問題,高爾頓無意間發(fā)現(xiàn)了一個重要事實:預(yù)測總是落在一條直線上,他稱這條直線為回歸線,它比橢圓的主軸(或?qū)ΨQ軸)的斜率?。ㄒ妶D2.3)。事實上,這樣的直線有兩條,我們選擇哪條線作為回歸線取決于我們要預(yù)測哪個變量而將哪個變量作為證據(jù)。你可以根據(jù)父親的身高預(yù)測兒子的身高,或者根據(jù)兒子的身高“預(yù)測”父親的身高,這兩種情況是完全對稱的。這再次表明,對于向均值回歸這一現(xiàn)象,因和果是沒有區(qū)別的。

1601374761107044.jpg

圖2.3 高爾頓回歸直線

圖中橫軸顯示的是子輩身高及偏差值,縱軸顯示了“中親”(mid-parents)[5]的身高及偏差值。如果你知道父親的身高,則直線OM將為你提供其兒子身高的最佳預(yù)測;如果你知道兒子的身高,則直線ON將為你提供其父親身高的最佳預(yù)測。這兩條直線都不同于散點圖中的主軸(對稱軸)(資料來源:弗朗西斯·高爾頓,《大不列顛和愛爾蘭人類學(xué)學(xué)院學(xué)報》,1886,第246–263頁,插圖X)

在已知一個變量的值的情況下,回歸斜率能讓你預(yù)測另一個變量的值。在高爾頓的父子身高問題中,0.5的回歸斜率意味著父親的身高每增加1英寸,相應(yīng)地,兒子的平均身高就增加0.5英寸,反之亦然?;貧w斜率為1表示兩個變量呈完全相關(guān),這意味著父親每增高1英寸,這一變化都能完全地傳遞給兒子,使其平均身高增加1英寸?;貧w斜率不可能大于1,否則高個子父親的兒子其身高會進一步高于平均值,矮個子父親的兒子其身高會進一步低于平均值,這將使得身高分布隨時間的推移而變寬。這樣一來,幾代后可能就會出現(xiàn)身高9英尺的人和身高2英尺的人了,而這與現(xiàn)實并不相符。因此,只要身高分布在世代相傳中保持不變,回歸線的斜率就不能大于1。

即使我們將兩個不同類別的量關(guān)聯(lián)起來,如身高和智力,回歸定律依然適用。如果你在散點圖中繪制這兩個變量的數(shù)據(jù)點,并對坐標系進行適當(dāng)?shù)目s放,則關(guān)于兩個變量之間關(guān)系的最佳擬合線的斜率總是具有相同的屬性:只有當(dāng)一個量可以準確地預(yù)測另一個量時,斜率才等于1;而若預(yù)測結(jié)果幾乎等同于隨機猜測,則斜率等于0。無論你是根據(jù)Y預(yù)測X,還是根據(jù)X預(yù)測Y,斜率(在對坐標系進行了適當(dāng)縮放之后)都是相同的。換言之,斜率完全不涉及因果信息。一個變量可能是另一變量的因,或者它們都是第三個變量的果,而對于預(yù)測目標變量的值這一目的而言,這些并不重要。

高爾頓提出的相關(guān)性概念首次在不依賴于人的判斷或解釋的前提下以客觀度量說明了兩個變量是如何關(guān)聯(lián)的。這兩個變量可以是身高、智力或者收入,它們可以是因果的、相互獨立的或反因果的關(guān)系。相關(guān)性總是能夠反映出兩個變量間相互可預(yù)測的程度。高爾頓的弟子卡爾·皮爾遜后來推導(dǎo)出了一個(經(jīng)過適當(dāng)調(diào)整的)回歸線斜率公式,并稱之為“相關(guān)系數(shù)”。時至今日,當(dāng)我們想了解一個數(shù)據(jù)集中兩個不同變量的關(guān)聯(lián)有多強時,相關(guān)系數(shù)依然是全世界統(tǒng)計學(xué)家計算的第一個數(shù)值。找到這樣一種通用的方式來描述隨機變量之間的關(guān)系,高爾頓和皮爾遜一定曾為此激動不已。尤其是皮爾遜,在他的眼中,與相關(guān)系數(shù)這種在數(shù)學(xué)上清晰且精確的概念相比,那些關(guān)于因果的模糊而陳舊的概念似乎已經(jīng)完全過時而喪失科學(xué)性了。


注釋:

[1] 中心極限定理是概率論的“無冕之王”,高爾頓曾盛贊它所蘊涵的宇宙秩序之美妙無可比擬,可見其對人類認知的影響是多么深遠?!g者注

[2] 也稱作“高斯分布”,是高斯在研究誤差理論時首次明確提出的,其密度函數(shù)曲線關(guān)于均值對稱,中間高兩邊低。中心極限定理揭示了在一定的條件下為何正態(tài)分布是普遍存在的?!g者注

[3] 1英尺≈30.48厘米?!幷咦?/p>

[4] 回歸“regression”一詞在英語中還有退化、退步、衰退、倒退的意思?!g者注

[5] 女性的身高一般低于男性,因此高爾頓利用計算出的男女平均身高之比(1.08)將女性的身高乘以1.08換算成男性身高。高爾頓據(jù)此定義了“中親”(mid-parents)身高=1/2(父親的身高+1.08×母親的身高),用來計算父輩的身高。本書為了講述方便,將之簡化為父子身高?!g者注

編輯:于騰凱

校對:洪舒越

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

dc相關(guān)文章:dc是什么


fpga相關(guān)文章:fpga是什么




關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉