新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 理解神經(jīng)網(wǎng)絡(luò)是否有更好的姿勢?

理解神經(jīng)網(wǎng)絡(luò)是否有更好的姿勢?

作者:楊曉凡 時間:2019-07-23 來源:雷鋒網(wǎng) 收藏
編者按:在某一些層面上我們已經(jīng)有很好的了解,而且可能比其它的層面更為重要

雷鋒網(wǎng)按:DeepMind 研究科學(xué)家 Timothy P. Lillicrap,賓夕法尼亞大學(xué)教授 Konrad P. Kording 近期發(fā)表了一篇文章《What does it mean to understand a neural network?》(arxiv.org/abs/1907.06374)。正如文章標(biāo)題提出的,「理解」到底意味著什么?我們當(dāng)前的研究是否走入了誤區(qū)以至于忽略了某些很有價值的東西?這是一篇視角獨特的討論,文章主要內(nèi)容介紹如下。

本文引用地址:http://butianyuan.cn/article/201907/402977.htm

可解釋性之路面臨困境

自從現(xiàn)代被證明能解決復(fù)雜問題并開始蓬勃發(fā)展以來,如何理解這些網(wǎng)絡(luò)就一直是一個未解之謎。網(wǎng)絡(luò)中少則數(shù)千、多則數(shù)萬的連接和權(quán)重都分別如何影響網(wǎng)絡(luò)的表現(xiàn)、如何理解對抗性樣本之類的意外行為,有許多問題目前都還沒有完整的理論可以說清。

但毫無疑問,我們對神經(jīng)網(wǎng)絡(luò)是有高度的掌控能力的。即便 AlphaGo、Open Five 等已經(jīng)在游戲中展現(xiàn)出了超人類水平的神經(jīng)網(wǎng)絡(luò),它們也只是來源于人類編寫的上百行代碼而已。我們理解這些代碼,我們知道它們將會如何轉(zhuǎn)化為計算流程,在網(wǎng)絡(luò)訓(xùn)練完畢以后也能夠知道網(wǎng)絡(luò)的所有權(quán)重。

從這個意義上說,我們對網(wǎng)絡(luò)的結(jié)構(gòu)和其中的運(yùn)算都有完全的了解。但我們真正希望獲得的是一種介于人類思維語言以及計算機(jī)運(yùn)算細(xì)節(jié)之間的中轉(zhuǎn)語言,我們可以借助這種語言直接構(gòu)建可以分類 ImageNet 圖像或者能夠下圍棋的神經(jīng)網(wǎng)絡(luò),而不需要經(jīng)過繁瑣、消耗資源的迭代學(xué)習(xí)過程;可以借助這種語言直接獲得網(wǎng)絡(luò)表現(xiàn)的清晰完整的描述,而不需要通過反復(fù)的測試進(jìn)行經(jīng)驗總結(jié)。目前我們還沒有找到這樣的中轉(zhuǎn)語言,甚至都不確定是否存在這樣的語言。

神經(jīng)網(wǎng)絡(luò)能被緊湊地表達(dá)嗎?

一個值得深入思考的角度是,在機(jī)器學(xué)習(xí)的理論框架下設(shè)計的人工智能系統(tǒng),都是一些「學(xué)習(xí)系統(tǒng)」,它們在人類編寫的學(xué)習(xí)規(guī)則下學(xué)習(xí)(從數(shù)據(jù)中提取信息)。這些學(xué)習(xí)規(guī)則的表達(dá)非常緊湊,幾十、幾百行高級編程語言代碼(比如 Pytorch 代碼)就足以描述。

對于我們廣大的機(jī)器學(xué)習(xí)科研和應(yīng)用人員來說,這種緊湊的表達(dá)顯然能幫助我們獲得一些有價值的理解。這樣的緊湊表達(dá)也給我們提供了許多便利:我們可以為同一個想法創(chuàng)造許許多多的不同變體,然后用它們解決一大批問題。

既然學(xué)習(xí)規(guī)則可以被緊湊地表達(dá),那么神經(jīng)網(wǎng)絡(luò)本身可以被緊湊地表達(dá)嗎?不見得。近幾年隨著知識蒸餾和計算復(fù)雜度的研究增多,我們對數(shù)據(jù)和網(wǎng)絡(luò)的可壓縮性的理解也在增加。我們已經(jīng)知道,在 ImageNet 上訓(xùn)練完畢的網(wǎng)絡(luò)是無法被壓縮到 10 萬個獨立參數(shù)之內(nèi)的;即便是用來識別 MNIST 數(shù)字的網(wǎng)絡(luò)也無法被壓縮為人類可以理解的格式。但同時,能存儲超過三萬個類別的知識并進(jìn)行分辨的人類大腦,作為一類十分高級的神經(jīng)網(wǎng)絡(luò),想要在其中找到,或者想要壓縮為某種緊湊的表征,也是幾乎不可能的事情。

跳出壓縮技巧之外,我們其實可以問這樣一個問題:在任務(wù)中表現(xiàn)出了人類水準(zhǔn)的網(wǎng)絡(luò),應(yīng)當(dāng)是容易壓縮的嗎?不難得到答案:越是處理復(fù)雜任務(wù)、能存儲并處理越多信息的網(wǎng)絡(luò),就越難以壓縮。

更重要、也更長遠(yuǎn)的一件事是,完全掌握某一個可以正常工作的 系統(tǒng)的網(wǎng)絡(luò)架構(gòu)和權(quán)重、但不了解學(xué)習(xí)規(guī)則和執(zhí)行技巧,對于解決其它的任務(wù)就起不到任何幫助。也就是說,了解訓(xùn)練系統(tǒng)用到的學(xué)習(xí)規(guī)則、網(wǎng)絡(luò)架構(gòu)、損失函數(shù),對于后續(xù)的更改和拓展要遠(yuǎn)比了解直接存在于網(wǎng)絡(luò)之中的連接權(quán)重重要。

與神經(jīng)科學(xué)的類比

雖然人腦的神經(jīng)網(wǎng)絡(luò)和如今的人工神經(jīng)網(wǎng)絡(luò)有諸多不同,但是相同點也不少,尤其是極高的可塑性以及難以準(zhǔn)確了解網(wǎng)絡(luò)內(nèi)的表征。說到底,人腦在具有極強(qiáng)的持續(xù)學(xué)習(xí)能力、有高超的任務(wù)解決能力的同時,可解釋性并不比人工神經(jīng)網(wǎng)絡(luò)好到哪里去,但同時人類在學(xué)習(xí)和發(fā)展方面有諸多理論研究成果和實用技巧,不僅容易理解,也能切實起到幫助改善個人狀況、提升個人能力的作用。我們似乎可以說,為神經(jīng)網(wǎng)絡(luò)(不論人腦還是人工神經(jīng)網(wǎng)絡(luò))找到人類可以理解的緊湊表達(dá)不僅不是唯一的目標(biāo),甚至它的作用也不如網(wǎng)絡(luò)架構(gòu)、學(xué)習(xí)規(guī)則、發(fā)展規(guī)律的研究的作用更大。

正如 Hinton 等人在 AlexNet 論文中,以及 DeepMind 在 AlphaGo 論文中展示的,一個人工神經(jīng)網(wǎng)絡(luò)可以被清晰地分成先天(原理)與后天(參數(shù))兩部分:為網(wǎng)絡(luò)提供任務(wù)和有關(guān)的數(shù)據(jù)源(供網(wǎng)絡(luò)從其中提取出絕大部分無法壓縮也難以描述的參數(shù)值),同時記錄下使用的網(wǎng)絡(luò)架構(gòu)(卷積網(wǎng)絡(luò) / 殘差網(wǎng)絡(luò))、損失函數(shù)(L2 / 交叉熵)、學(xué)習(xí)規(guī)則(SGD / Adam)、優(yōu)化手段(蒙特卡洛樹搜索)。后面的這四點可以簡單且嚴(yán)謹(jǐn)?shù)乇磉_(dá)為人類能夠理解的方程,而且可以指導(dǎo)我們開發(fā)未來更多的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)。

在統(tǒng)計物理中,一團(tuán)氣體可以由溫度、壓強(qiáng)等不多的幾個變量描述,然后在這幾個變量基礎(chǔ)之上繼續(xù)進(jìn)行的預(yù)測和控制也都可以準(zhǔn)確地進(jìn)行。神經(jīng)科學(xué)研究中也傾向于相信人類大腦中也存在這樣的描述方式。但氣體分子互相都是一樣的、可交換的、只有短期記憶,而人類大腦中的細(xì)胞是各自具有獨特性、具有長期記憶能力的(這也從另一個角度印證了上文提到的「難以被壓縮」)。所以,神經(jīng)科學(xué)研究中期待的這種描述方法很可能起到了誤導(dǎo)的作用。

總結(jié)

看起來可行的事情到了最后才證明此路不通,這樣的故事在歷史上反復(fù)重演。也許以后我們會發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)便于實驗所以更容易理解,也有可能我們首先證明了人類大腦的強(qiáng)模態(tài)性、近似線性和高噪聲特性;也有可能我們最終都無法完全理解任一種網(wǎng)絡(luò)。

目前熱門的研究大腦的方法已經(jīng)可以單獨研究其中的先天成分;從行為學(xué)的角度講,我們也可以提問學(xué)習(xí)是如何改變了行動的。當(dāng)我們研究表征的時候,我們可以研究是哪個損失函數(shù)、哪個網(wǎng)絡(luò)架構(gòu)、哪個學(xué)習(xí)特性可能導(dǎo)致了檢測到的表征的變化。當(dāng)我們嘗試研究大腦如何運(yùn)行而遇到困難的時候,我們完全可以研究大腦是如何學(xué)習(xí)運(yùn)行的。

閱讀原論文見:https://arxiv.org/abs/1907.06374

PS:谷歌大腦研究員 Adam Gaier 和 David Ha 近期也對神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和可解釋性做出了新的探索,他們嘗試避開難以解釋的連接權(quán)重,直接創(chuàng)建具有可理解的結(jié)構(gòu)的網(wǎng)絡(luò)。這也是非常有趣的研究思路,詳細(xì)介紹請見《神經(jīng)網(wǎng)絡(luò)的氣宗與劍宗之爭:先驗強(qiáng)大的網(wǎng)絡(luò)甚至不需要訓(xùn)練》。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

原文章地址為理解神經(jīng)網(wǎng)絡(luò)是否有更好的姿勢?



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉