機(jī)器學(xué)習(xí)的出現(xiàn)，是否意味著“古典科學(xué)”的過(guò)時(shí)？

發(fā)布人：AI科技大本營(yíng) 時(shí)間：2022-02-12 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

作者：Laura Spinney

譯者：劉媛媛

原文：Are we witnessing the dawn of post-theory science?

讓我們回憶一下，Isaac Newton 被一個(gè)蘋(píng)果砸中頭部，然后是怎么提出牛頓第二定律——萬(wàn)有引力的？

大概過(guò)程是這樣的：大量的實(shí)驗(yàn)和數(shù)據(jù)分析之后，他意識(shí)到，力、質(zhì)量和加速度之間存在根本的關(guān)系。然后他制定了一種理論來(lái)描述這種關(guān)系，表示為一個(gè)方程“F=ma”，并用它來(lái)預(yù)測(cè)蘋(píng)果以外的物體的行為。事實(shí)證明，他的預(yù)測(cè)是正確的（這對(duì)于不要求精確度的人們來(lái)說(shuō)是足夠）。

現(xiàn)在，我們?cè)賮?lái)對(duì)比一下當(dāng)今科學(xué)發(fā)展的新潮流：Facebook 的機(jī)器學(xué)習(xí)工具比任何心理學(xué)家都更能預(yù)測(cè)你的偏好；DeepMind 開(kāi)發(fā)的 AlphaFold，可以根據(jù)蛋白質(zhì)所含的氨基酸對(duì)蛋白質(zhì)結(jié)構(gòu)做出了迄今為止最準(zhǔn)確的預(yù)測(cè)。

它們的誕生對(duì)于科學(xué)界的研究范式來(lái)說(shuō)究竟意味著什么？換句話說(shuō)：獲取知識(shí)的最佳方式是什么？科學(xué)又從何而來(lái)？

人類的不安

Facebook 和 AlphaFold 沒(méi)有提供任何理論解釋。這些算法只是完成工作并且效果還不錯(cuò)。我們每天都在見(jiàn)證 Facebook 預(yù)測(cè)的社會(huì)影響。AlphaFold 的影響尚未顯現(xiàn)，但許多人相信它將改變醫(yī)學(xué)。

一時(shí)間，它們的理論基礎(chǔ)似乎隱居二線。

2008 年，時(shí)任 Wired 雜志的主編 Chris Anderson 預(yù)言了一種理論的消亡。他認(rèn)為，現(xiàn)在已經(jīng)積累了如此多的數(shù)據(jù)，而計(jì)算機(jī)在發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系方面比人類表現(xiàn)的更好。很快，古老的科學(xué)方法，即假設(shè)、預(yù)測(cè)、檢驗(yàn)，將被扔進(jìn)歷史的垃圾箱。人們不再尋找事物的本質(zhì)原因，而是滿足于數(shù)據(jù)間的相關(guān)性。

事后看來(lái)，Anderson 所看到的情況是真實(shí)的。大量數(shù)據(jù)的復(fù)雜性無(wú)法被我們傳統(tǒng)理解的理論所捕捉。

德國(guó)馬克斯普朗克生物控制論研究所所長(zhǎng)、計(jì)算神經(jīng)科學(xué)家 Peter Dayan 說(shuō)：“因?yàn)椴恢浪鼈儠?huì)是什么樣子的，所以我們甚至沒(méi)有能力寫(xiě)出對(duì)描述有用的理論。”

但 Anderson 對(duì)理論終結(jié)的預(yù)測(cè)似乎為時(shí)過(guò)早。盡管 Facebook 和 AlphaFold 這樣的無(wú)理論基礎(chǔ)的預(yù)測(cè)引擎取得了成功，但理論不會(huì)消亡，此處有以下三個(gè)原因。

第一個(gè)原因是，我們已經(jīng)意識(shí)到 AI，尤其是神經(jīng)網(wǎng)絡(luò)這種機(jī)器學(xué)習(xí)形式，無(wú)需接受明確的指令即可從數(shù)據(jù)中學(xué)習(xí)，它們本身是容易出錯(cuò)的。想想谷歌搜索引擎和亞馬遜招聘工具中記錄的偏見(jiàn)就可以明白。

第二，人類對(duì)沒(méi)有理論基礎(chǔ)的科學(xué)方法深感不安。我們就是不喜歡和黑匣子相處。

第三，可能仍然有很多傳統(tǒng)類型的理論（即人類可以理解的）可以有效地解釋很多事情，只是尚未被發(fā)現(xiàn)。

所以理論還沒(méi)有消亡，但它正在改變——也許還會(huì)變得面目全非。普林斯頓大學(xué)心理學(xué)家 Tom Griffiths 說(shuō)：“擁有大量數(shù)據(jù)時(shí)的有意義的理論，與僅擁有少量數(shù)據(jù)時(shí)有意義的理論，看起來(lái)是完全不同?！?/p>

Griffiths 一直在使用神經(jīng)網(wǎng)絡(luò)來(lái)幫助改進(jìn)他所在領(lǐng)域的現(xiàn)有理論，即人類決策。一個(gè)關(guān)于人們?cè)谏婕敖?jīng)濟(jì)風(fēng)險(xiǎn)時(shí)如何做出決策的流行理論是前景理論，它由行為經(jīng)濟(jì)學(xué)家 Daniel Kahneman 和 Amos Tversky 在 1970 年代提出的（后來(lái) Kahneman 獲得了諾貝爾獎(jiǎng)）。其核心理念是：人并非總是理性的。

微信圖片_20220212155957.jpg

圖2 Daniel Kahneman，人類行為前景理論的創(chuàng)始人之一

在 2021 年 6 月的 Science雜志上，Griffiths 的小組描述了他們?nèi)绾卧谝粋€(gè)龐大的決策數(shù)據(jù)集上，訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型，該數(shù)據(jù)集包含在 10,000 個(gè)有風(fēng)險(xiǎn)的選擇場(chǎng)景中人們做出的決策，然后比較模型預(yù)測(cè)有關(guān)前景理論的進(jìn)一步?jīng)Q策的準(zhǔn)確度。他們發(fā)現(xiàn)前景理論做得很好，但是神經(jīng)網(wǎng)絡(luò)在突出理論失敗的地方（即預(yù)測(cè)失敗的地方）顯示出它的價(jià)值（參見(jiàn)“數(shù)據(jù)實(shí)戰(zhàn)派”往期報(bào)道）。

Griffiths 認(rèn)為，這些反例反映的信息量更大，因?yàn)樗鼈兘沂玖爽F(xiàn)實(shí)生活中存在的更多復(fù)雜性。例如，正如前景理論所描述的那樣，人類不斷地根據(jù)傳入的信息權(quán)衡概率。但是，當(dāng)大腦要計(jì)算的競(jìng)爭(zhēng)概率太多時(shí)，他們可能會(huì)轉(zhuǎn)向不同的策略。例如，受經(jīng)驗(yàn)法則的指導(dǎo)，股****經(jīng)紀(jì)人的經(jīng)驗(yàn)法則，可能與青少年比特幣交易員的經(jīng)驗(yàn)法則不同，因?yàn)樗鼇?lái)自不同的經(jīng)驗(yàn)。

“我們基本上是在使用機(jī)器學(xué)習(xí)系統(tǒng)，來(lái)識(shí)別那些觀察與理論不一致的情況”，Griffiths 說(shuō)。

數(shù)據(jù)集越大，人工智能學(xué)習(xí)的不一致就越多。最終得到的結(jié)果，不是傳統(tǒng)意義上的關(guān)于人們?nèi)绾巫龀鰶Q定的精確主張的理論，而是一組受某些約束的主張。

一種描繪它的方式可能是“如果...那么...”類型規(guī)則的分支樹(shù)，這很難用數(shù)學(xué)來(lái)描述，更不用說(shuō)用語(yǔ)言描述了。

可理解和預(yù)測(cè)性之間的權(quán)衡

人類也不是第一次面臨這種局面了。

1980 年代，語(yǔ)音識(shí)別軟件先驅(qū) Frederick Jelinek 曾說(shuō)說(shuō)：每解雇一名團(tuán)隊(duì)中的語(yǔ)言學(xué)家，語(yǔ)音識(shí)別器的性能就能獲得提高。

他的意思是，對(duì)理論的執(zhí)著某種程度上阻礙了實(shí)踐上的進(jìn)步。

以預(yù)測(cè)而蛋白質(zhì)結(jié)構(gòu)的例子來(lái)說(shuō)明。蛋白質(zhì)的功能很大程度上取決于它的結(jié)構(gòu)，因此，如果你想設(shè)計(jì)一種****物來(lái)阻斷或增強(qiáng)給定蛋白質(zhì)的作用，你需要了解它的結(jié)構(gòu)。

AlphaFold 使用 X 射線晶體學(xué)等技術(shù)，對(duì)實(shí)驗(yàn)推導(dǎo)的結(jié)構(gòu)進(jìn)行了訓(xùn)練，目前它對(duì)于有一些實(shí)驗(yàn)數(shù)據(jù)的蛋白質(zhì)的預(yù)測(cè)，比那些沒(méi)有實(shí)驗(yàn)數(shù)據(jù)的蛋白質(zhì)的預(yù)測(cè)更可靠。

歐洲生物信息學(xué)研究所 (EMBL-EBI) 前主任 Janet Thornton 說(shuō)：”模型的可靠性是一直在提高的。缺少理論并不會(huì)阻止****物設(shè)計(jì)師使用它，這只會(huì)增進(jìn)我們對(duì)生命和治療的理解?！?/p>

微信圖片_20220212155938.jpg

圖3 由 AlphaFold 程序模擬的蛋白質(zhì)結(jié)構(gòu)

同時(shí)，也有一部分人顯然對(duì)這種科學(xué)發(fā)展方向不太滿意。

例如，批評(píng)者指出，神經(jīng)網(wǎng)絡(luò)可能會(huì)產(chǎn)生虛假的相關(guān)性，尤其是在訓(xùn)練數(shù)據(jù)集很小的情況下。

而且所有數(shù)據(jù)集都是有偏見(jiàn)的，畢竟科學(xué)家們收集數(shù)據(jù)的方式不是均勻或中立的，而是始終考慮某些假設(shè)，這些假設(shè)對(duì)谷歌和亞馬遜的人工智能造成了破壞性影響。

正如科學(xué)哲學(xué)家 Sabina Leonelli 解釋的那樣：“我們使用的數(shù)據(jù)環(huán)境非常扭曲?！?/p>

雖然這些問(wèn)題確實(shí)存在，但計(jì)算神經(jīng)科學(xué)家Dayan并不認(rèn)為它們是不可克服的。

他指出，人類也有偏見(jiàn)，而且與人工智能不同，人類是以非常難以審視或糾正的方式。

AI 新科學(xué)面臨的一個(gè)更大的障礙，可能是人類需要解釋這個(gè)世界——用因果關(guān)系來(lái)討論。

2019 年，西雅圖華盛頓大學(xué)的神經(jīng)科學(xué)家 Bingni Brunton 和 Michael Beyeler 寫(xiě)道:“這種對(duì)可解釋性的需求，可能阻礙了科學(xué)家們對(duì)大腦產(chǎn)生新的見(jiàn)解，這種見(jiàn)解只能從大型數(shù)據(jù)集中出現(xiàn)”。

但他們對(duì)此也表示同情。他們說(shuō)：“如果要將這些見(jiàn)解轉(zhuǎn)化為****物和設(shè)備等有用的東西，計(jì)算模型必須產(chǎn)生對(duì)臨床醫(yī)生、最終用戶和行業(yè)可解釋和信任的洞察力。”

解決如何彌合可解釋性差距的——可解釋人工智能，已成為熱門(mén)話題。但這種差距只會(huì)越來(lái)越大，我們可能會(huì)面臨權(quán)衡取舍：愿意為可解釋性放棄多少可預(yù)測(cè)性？

對(duì) AI 驅(qū)動(dòng)的科學(xué)，還有最后一個(gè)反對(duì)意見(jiàn)是，人們對(duì)舊理論方法仍有待發(fā)現(xiàn)，其中可能存在有用的地方（即從離散示例中提取的概括）。而且只有人類才能做到這一點(diǎn)，因?yàn)樗枰庇X(jué)。

換句話說(shuō)，它需要一種對(duì)一般規(guī)則相關(guān)的示例屬性，進(jìn)行本能的歸納總結(jié)。

牛頓厲害的一點(diǎn)，他為了提出牛頓第二定律，必須忽略一些數(shù)據(jù)。例如，他必須想象，事物在真空中下落，不受空氣阻力的干擾。

上個(gè)月 Nature 發(fā)了一篇文章，德國(guó)數(shù)學(xué)家 Christian Stump 在文中表示，人類這種直覺(jué)行為是“發(fā)明/發(fā)現(xiàn)過(guò)程的核心”。但他寫(xiě)這篇文章的原因是，DeepMind 建立了一個(gè)機(jī)器學(xué)習(xí)程序，該程序幫助人類數(shù)學(xué)家從以往的數(shù)學(xué)中獲得新的見(jiàn)解與概括。

因此，可以預(yù)見(jiàn)的是，2022 年，AI 會(huì)在各種科學(xué)過(guò)程中留下足跡。

我們?cè)綄⑺{入人類對(duì)知識(shí)的追求，它就越會(huì)改變這種追求。

我們必須學(xué)會(huì)忍受這一點(diǎn)，并向自己保證這樣一件事：人類仍然在問(wèn)問(wèn)題，正如 Pablo Picasso 在 1960 年代所說(shuō)，“計(jì)算機(jī)是無(wú)用的。他們只能給人類答案?！?/p>

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。