博客專欄

EEPW首頁 > 博客 > 直接壓縮一切!OpenAI首席科學(xué)家Ilya Sutskever這么看無監(jiān)督學(xué)習(xí)(1)

直接壓縮一切!OpenAI首席科學(xué)家Ilya Sutskever這么看無監(jiān)督學(xué)習(xí)(1)

發(fā)布人:機器之心 時間:2023-08-20 來源:工程師 發(fā)布文章

近日,OpenAI 首席科學(xué)家 Ilya Sutskever 在專注于計算理論研究的 Simons Institute 作了一次講座,一句話總結(jié)就是我們可以通過壓縮的視角來看待無監(jiān)督學(xué)習(xí)。此外他還分享了不少其它有趣的見解。機器之心整理了該演講的大體內(nèi)容,希望借此幫助讀者更深入地理解無監(jiān)督學(xué)習(xí)。

Sutskever 首先談到了自己的研究方向的變化,他說:「不久前,我將全部的研究重心都轉(zhuǎn)移到了 AI 對齊研究上?!惯@說的是 OpenAI 前段時間成立的「Superalignment(超級對齊)」團(tuán)隊,由他與 Jan Leike 共同領(lǐng)導(dǎo)。Sutskever 表示他們已經(jīng)在 AI 對齊方面取得了一些研究成果,但這并非這次演講關(guān)注的話題。對此感興趣的讀者可參閱《用 AI 對齊 AI?超級對齊團(tuán)隊領(lǐng)導(dǎo)人詳解 OpenAI 對齊超級智能四年計劃》。


這次演講的主題為「An observation on Generalization(對泛化的一種觀察)」,而 Ilya Sutskever 具體談?wù)摰闹攸c是一種解釋無監(jiān)督學(xué)習(xí)的理論。


圖片


首先,Ilya Sutskever 提出了一連串有關(guān)「學(xué)習(xí)」的廣義問題:學(xué)習(xí)究竟是什么?為什么學(xué)習(xí)有用?為什么學(xué)習(xí)應(yīng)該有用?計算機為什么應(yīng)該具備學(xué)習(xí)能力?為什么神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)?為什么機器學(xué)習(xí)模型可以學(xué)習(xí)到數(shù)據(jù)的規(guī)律?我們能否用數(shù)學(xué)形式來描述學(xué)習(xí)?


監(jiān)督學(xué)習(xí)


Sutskever 先從監(jiān)督學(xué)習(xí)談起。他表示,監(jiān)督學(xué)習(xí)方面已經(jīng)有了重要的形式化工作,這是多位研究者在多年前得到的成果;這些成果通常被稱為統(tǒng)計學(xué)習(xí)理論。


監(jiān)督學(xué)習(xí)的優(yōu)勢在于能提供一個學(xué)習(xí)必定成功的精確數(shù)學(xué)條件。也就是說,如果你有一些來自某數(shù)據(jù)分布的數(shù)據(jù),然后你能成功實現(xiàn)較低的訓(xùn)練損失并且你的訓(xùn)練數(shù)據(jù)足夠多(多于數(shù)據(jù)分布的自由度),那么你的測試誤差必定很低。


從數(shù)學(xué)上講,如果能在一類函數(shù)中找到能實現(xiàn)較低訓(xùn)練損失的函數(shù),那么學(xué)習(xí)就必定成功。也因此,監(jiān)督學(xué)習(xí)非常簡單。


研究者在相關(guān)研究中已經(jīng)發(fā)現(xiàn)了一些定理,如下便是一例。Sutskever 表示解釋這個定理大概需要五分鐘,但很顯然他的演講時間有限。


圖片


總而言之,這個定理很「優(yōu)雅」,只用三行數(shù)學(xué)推導(dǎo)便能證明監(jiān)督學(xué)習(xí)過程。


所以相對而言,監(jiān)督學(xué)習(xí)已經(jīng)得到很好的理解。我們知道其必定會成功的原因 —— 只要我們能收集到大規(guī)模的監(jiān)督學(xué)習(xí)數(shù)據(jù)集,那么就完全可以相信模型必定越來越好。當(dāng)然另一點也很重要,也就是保證測試分布和訓(xùn)練分布一致;只有這樣,監(jiān)督學(xué)習(xí)理論才是有效的。


圖片


所以監(jiān)督學(xué)習(xí)的概念是很簡單的。我們也已經(jīng)有了監(jiān)督學(xué)習(xí)為什么有效的答案 —— 我們知道語音識別和圖像分類為什么可以實現(xiàn),因為它們都基于有效且有數(shù)學(xué)保證的監(jiān)督學(xué)習(xí)。


這里 Ilya Sutskever 順帶提了提 VC 維度。他提到很多統(tǒng)計學(xué)習(xí)理論的研究者都認(rèn)為 VC 維度是一大關(guān)鍵組件,但 VC 維度被發(fā)明出來的目的是為了讓模型有能力處理有無限精度的參數(shù)。


圖片


舉個例子,如果你的線性分類器的每個參數(shù)都有無限精度,而現(xiàn)實中的浮點數(shù)的精度都是有限的,而且精度會收縮,那么你可以通過 VC 維度實現(xiàn)一些函數(shù),將這個線性分類器歸約成前面公式描述的監(jiān)督學(xué)習(xí)形式。


無監(jiān)督學(xué)習(xí)是什么?


接下來看無監(jiān)督學(xué)習(xí)。首先什么是無監(jiān)督學(xué)習(xí)?Ilya Sutskever 表示他目前還沒看到令人滿意的對無監(jiān)督學(xué)習(xí)的闡釋,我們也不知道如何從數(shù)學(xué)上推理它 —— 最多只能在直覺上做點推斷。


無監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域長久以來的夢想。Sutskever 認(rèn)為這個目標(biāo)已經(jīng)在實驗研究中達(dá)成,即模型在不被告知數(shù)據(jù)內(nèi)容的前提下觀察數(shù)據(jù)并發(fā)現(xiàn)其中存在的真實有用的隱藏結(jié)構(gòu)。


這是怎么發(fā)生的?我們能確保這一定會發(fā)生嗎?Sutskever 表示我們不能,畢竟我們在無監(jiān)督學(xué)習(xí)方面沒有在監(jiān)督學(xué)習(xí)方面那樣的理論保證。


圖片


人們早在上世紀(jì) 80 年代就在探究無監(jiān)督學(xué)習(xí)了,當(dāng)時使用的術(shù)語也是類似。在實驗中,人們觀察到,當(dāng)數(shù)據(jù)量較小時,不會出現(xiàn)無監(jiān)督學(xué)習(xí)現(xiàn)象,但是一些現(xiàn)在流行的開發(fā)思路已經(jīng)出現(xiàn)了,比如 BERT、擴散模型、老式的語言模型等。當(dāng)時的無監(jiān)督學(xué)習(xí)也能生成一些很酷的樣本,但當(dāng)然是比不上現(xiàn)在的技術(shù)。


但因為我們不知道無監(jiān)督學(xué)習(xí)的工作方式,所以它一直都讓人困惑。


圖片


比如當(dāng)你針對某個目標(biāo)(比如圖像重建或預(yù)測下一個詞)進(jìn)行優(yōu)化時,你可能也在意另一個目標(biāo)(比如圖像分類或文檔分類),而模型可能在這個未經(jīng)優(yōu)化的目標(biāo)上也能取得不錯的表現(xiàn)。但為什么會這樣呢?不知道,實驗結(jié)果就是如此。Sutskever 說這就像是魔法。


難道我們就要放棄理論,在實證主義上一路走下去嗎?


圖片


我們知道無監(jiān)督學(xué)習(xí)是學(xué)習(xí)輸入分布中的結(jié)構(gòu),然后從中獲得有助于實現(xiàn)目標(biāo)的東西。但如果輸入分布是均勻分布(uniform distribution)呢?這時候各種無監(jiān)督學(xué)習(xí)算法都會失效。我們應(yīng)該怎么看待這種現(xiàn)象呢?Sutskever 表示我們需要做些假設(shè)。



*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉