博客專欄

EEPW首頁 > 博客 > 「信息瓶頸」提出者Naftali Tishby逝世,Hinton曾感嘆:我要再聽一萬遍才能真正理解

「信息瓶頸」提出者Naftali Tishby逝世,Hinton曾感嘆:我要再聽一萬遍才能真正理解

發(fā)布人:機器之心 時間:2021-08-15 來源:工程師 發(fā)布文章

信息瓶頸極其有趣,我要再聽一萬遍才能真正理解它,當今能聽到如此原創(chuàng)的想法非常難得,或許它就是解開謎題的那把鑰匙。——Geoffrey Hinton

剛剛,耶路撒冷希伯來大學發(fā)布了一則訃告:該校計算機科學與工程學院教授、信息瓶頸方法提出者之一 Naftali Tishby 逝世,享年 69 歲。

1.jpg

Naftali Tishby 生于 1952 年,1985 年在希伯來大學獲得理論物理學博士學位,之后曾在 MIT、貝爾實驗室、賓夕法尼亞大學、IBM 等機構做研究工作。去世之前,Tishby 在耶路撒冷希伯來大學擔任計算機科學教授、Edmond and Lily Safra 腦科學中心(ELSC) Ruth and Stan Flinkman 腦科學研究主席,是以色列機器學習和計算神經科學研究領域的領導者之一。

1999 年,Naftali Tishby 和 Fernando Pereira、William Bialek 一起提出了信息論中的重要方法——信息瓶頸。

2.png

論文鏈接:https://www.cs.huji.ac.il/labs/learning/Papers/allerton.pdf

該方法的目的是:對于一個隨機變量,假設已知其與觀察變量 Y 之間的聯(lián)合概率分布 p(X,Y)。此時,當需要 summarize(如聚類)時,可以通過信息瓶頸方法來分析如何最優(yōu)化地平衡準確度與復雜度(數(shù)據(jù)壓縮)。該方法的應用包括分布聚類與降維等。

最重要的是,這一理論有望最終打開深度學習的黑箱,以及解釋人腦的工作原理。

2015 年,Tishby 及其學生 Noga Zaslavsky 發(fā)表了一篇論文,假設深度學習是一個信息瓶頸程序,盡可能地壓縮數(shù)據(jù)噪聲,保留數(shù)據(jù)想表達的信息。也就是說,神經網絡就像把信息擠進瓶頸一樣,只留下與一般概念最為相關的特征,去掉大量無關的噪音數(shù)據(jù)。

3.png

論文鏈接:https://arxiv.org/pdf/1503.02406.pdf

2017 年,Tishby 和他的另一個學生 Ravid Shwartz-Ziv 聯(lián)合進行了一場引入注目的實驗,揭示了發(fā)生在深度學習之中的擠壓過程。

4.png

論文鏈接:https://arxiv.org/pdf/1703.00810.pdf

在一個案例中,他們訓練小型網絡使其將數(shù)據(jù)標記為 1 或 0(比如「狗」或「非狗」),網絡一共有 282 個神經連接并隨機初始化連接強度,然后他們使用 3000 個樣本的輸入數(shù)據(jù)集追蹤網絡究竟在做什么。

大多數(shù)深度學習網絡訓練過程中用來響應數(shù)據(jù)輸入和調整神經連接強度的基本算法都是「隨機梯度下降」:每當輸入訓練數(shù)據(jù)到網絡中,一連串的激活行為將接連每一層的神經元。當信號到達最頂層時,最后的激活模式將對應確定的標簽,1 或 0,「狗」或「非狗」。激活模式和正確的模式之間的不同將會「反向傳播」回網絡的層中,即,正如老師批改作業(yè)一樣,這個算法將強化或者弱化每一個連接的強度以使網絡能輸出更產生的輸出信號。經過訓練之后,訓練數(shù)據(jù)的一般模式將體現(xiàn)在神經連接的強度中,網絡將變成識別數(shù)據(jù)的專家。

在他們的實驗中,Tishby 和 Shwartz-Ziv 追蹤了深度神經網絡的每一層保留了多少輸入數(shù)據(jù)的信息,以及每一層保留了多少輸出標簽的信息。他們發(fā)現(xiàn),網絡逐層收斂到了信息瓶頸的理論范圍(Tishby 導出的理論極限)。Pereira 和 Bialek 最初的論文中展示了系統(tǒng)提取相關信息的最佳結果。在信息瓶頸的理論范圍內,網絡將盡可能地壓縮輸入,而無需犧牲精確預測標簽的能力。

Tishby 和 Shwartz-Ziv 還發(fā)現(xiàn)了一個很有趣的結果,深度學習以兩個狀態(tài)進行:一個短期「擬合」狀態(tài),期間網絡學習標記輸入數(shù)據(jù),和一個時間長得多的長期「壓縮」狀態(tài),通過測試其標記新測試數(shù)據(jù)的能力可以得出期間網絡的泛化能力變得很強。

5.jpg

A. 初始狀態(tài):第一層的神經元編碼輸入數(shù)據(jù)的所有信息,包括其中的標簽信息。最高層神經元處于幾乎無序的狀態(tài),和輸入數(shù)據(jù)或者其標簽沒有任何關聯(lián)。

B. 擬合狀態(tài):深度學習剛開始的時候,高層神經元獲得輸入數(shù)據(jù)的信息,并逐漸學會匹配標簽。

C. 狀態(tài)變化:網絡的層的狀態(tài)突然發(fā)生變化,開始「遺忘」輸入數(shù)據(jù)的信息。

D. 壓縮狀態(tài):網絡的高層壓縮對輸入數(shù)據(jù)的表示,保留與輸出標簽關聯(lián)最大的表示,這些表示更擅長預測標簽。

E. 最終狀態(tài):網絡的最高層在準確率和壓縮率之間取得平衡,只保留可以預測標簽的信息。

當深度神經網絡用隨機梯度下降調整連接強度時,最初網絡存儲輸入數(shù)據(jù)的比特數(shù)基本上保持常量或者增加很慢,期間連接強度被調整以編碼輸入模式,而網絡標注數(shù)據(jù)的能力也在增長。一些專家將這個狀態(tài)與記憶過程相比較。

然后,學習轉向了壓縮狀態(tài)。網絡開始對輸入數(shù)據(jù)進行篩選,追蹤最突出的特征(與輸出標簽關聯(lián)最強)。這是因為在每一次迭代隨機梯度下降時,訓練數(shù)據(jù)中或多或少的偶然關聯(lián)都驅使網絡做不同的事情,使其神經連接變得或強或弱,隨機游走。這種隨機化現(xiàn)象和壓縮輸入數(shù)據(jù)的系統(tǒng)性表征有相同的效果。舉一個例子,有些狗的圖像背景中可能會有房子,而另一些沒有。當網絡被這些照片訓練的時候,由于其它照片的抵消作用,在某些照片中它會「遺忘」房子和狗的關聯(lián)。

Tishby 和 Shwartz-Ziv 稱,正是這種對細節(jié)的遺忘行為,使系統(tǒng)能生成一般概念。實際上,他們的實驗揭示了,深度神經網絡在壓縮狀態(tài)中提高泛化能力,從而更加擅長標記測試數(shù)據(jù)。(比如,被訓練識別照片中的狗的深度神經網絡,可以用包含或者不包含狗的照片進行測試。)

Tishby 的發(fā)現(xiàn)在人工智能領域引發(fā)了熱烈的討論。

深度學習先驅 Geoffrey Hinton 在聽了 Tishby 的報告之后給他發(fā)了郵件:「信息瓶頸極其有趣,我要再聽一萬遍才能真正理解它,當今能聽到如此原創(chuàng)的想法非常難得,或許它就是解開謎題的那把鑰匙?!?/p>

紐約大學心理學和數(shù)據(jù)科學助理教授 Brenden Lake 認為,Tishby 的研究成果是「打開神經網絡黑箱的重要一步」。

谷歌研究員 Alex Alemi 說:「我認為信息瓶頸對未來的深度神經網絡研究很重要。我甚至發(fā)明了新的近似方法,從而把信息瓶頸分析應用到大型深度神經網絡中?!顾终f:「信息瓶頸不僅可以作為理論工具用來理解神經網絡的工作原理,同樣也可以作為構建網絡架構和新目標函數(shù)的工具?!?/p>

不過,這一理論也受到了一些挑戰(zhàn),比如 Andrew M. Saxe 等人發(fā)表在 ICLR 2018 上的一篇批判性分析文章。簡單來說,該論文發(fā)現(xiàn) Schwartz-Viz 和 Tishby 論文中的結果無法很好地泛化到其他網絡架構:訓練期間的兩個階段依賴于激活函數(shù)的選擇;無法證明壓縮與泛化之間存在因果關系;當壓縮確實發(fā)生時,它不一定依賴于來自隨機梯度下降(SGD)的隨機性。

6.png

論文鏈接:https://openreview.net/pdf?id=ry_WPG-A-

據(jù) Tishby 所講,信息瓶頸是一個根本性的學習原則,不管是算法、家蠅、有意識的存在還是突發(fā)事件的物理計算。我們期待已久的答案即是「學習的關鍵恰恰是遺忘?!?/p>

除了信息瓶頸理論之外,Tishby 還于 2019 年 12 月與幾位學者一起在頂級期刊《現(xiàn)代物理評論》上發(fā)表了一篇綜述文章《Machine learning and the physical sciences》,闡述了機器學習在物理學不同學科中的使用。對「物理 + 機器學習」感興趣的同學可以去讀一下。

論文鏈接:https://arxiv.org/pdf/1903.10563.pdf

網友翻譯版:https://blog.csdn.net/Wendy_WHY_123/article/details/104793247

*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉