直接壓縮一切!OpenAI首席科學(xué)家Ilya Sutskever這么看無監(jiān)督學(xué)習(xí)(3)
直接壓縮一切!
Sutskever 又進(jìn)一步提到「直接壓縮一切」也是可行的。
條件 Kolmogorov 復(fù)雜度 K (Y|X) 在機(jī)器學(xué)習(xí)語境中是不自然的,因?yàn)樗腔?X 來壓縮 Y,而至少就目前而言,以大型數(shù)據(jù)集為條件還是基本無法辦到的。我們可以擬合大型數(shù)據(jù)集,但很難以其為條件。
而上式是表示:如果你想要對(duì)你監(jiān)督的東西 Y 進(jìn)行預(yù)測(cè),使用壓縮 X 和 Y 連接數(shù)據(jù)的常規(guī) Kolmogorov 壓縮器的表現(xiàn)與條件壓縮器一樣好。當(dāng)然實(shí)際細(xì)節(jié)還有更多微妙之處,但這其實(shí)就是表示我們可以使用常規(guī) Kolmogorov 壓縮器來求解無監(jiān)督學(xué)習(xí) —— 就是將你的所有數(shù)據(jù)連接起來,然后執(zhí)行壓縮,這樣就能在你關(guān)心的監(jiān)督任務(wù)上得到很好的結(jié)果。
對(duì)此的證明要更復(fù)雜一些,這里就不再繼續(xù)深入了。
重點(diǎn)的結(jié)論是常規(guī) Kolmogorov 壓縮(無需以某個(gè)數(shù)據(jù)集為條件)是「以最好的可能方式使用」無標(biāo)注數(shù)據(jù)。這就是無監(jiān)督學(xué)習(xí)的解。
聯(lián)合壓縮就是最大似然
Sutskever 在演講中談到的最后一點(diǎn)是:這種聯(lián)合壓縮就是最大似然,只要沒有過擬合。
如果你有一個(gè)數(shù)據(jù)集,那么給定參數(shù)的似然之和就是壓縮該數(shù)據(jù)集的成本。你還需要支付壓縮參數(shù)的成本。而如果你想壓縮兩個(gè)數(shù)據(jù)集,也沒有問題,只需向你的數(shù)據(jù)集添加數(shù)據(jù)點(diǎn)即可,也就是向上面的求和運(yùn)算 sum 添加更多項(xiàng)。
所以通過連接數(shù)據(jù)來進(jìn)行聯(lián)合壓縮在機(jī)器學(xué)習(xí)語境中是非常自然的做法。相比而言,通過條件 Kolmogorov 復(fù)雜度就麻煩多了。
我們甚至可以將其用于解釋神經(jīng)網(wǎng)絡(luò)的工作方式。我們可以將用于大型神經(jīng)網(wǎng)絡(luò)的 SGD 用作我們的大型程序搜索器。神經(jīng)網(wǎng)絡(luò)越大,就能更好地近似常規(guī) Kolmogorov 壓縮器。Sutskever 評(píng)價(jià)說:「也許這就是我們喜歡大型神經(jīng)網(wǎng)絡(luò)的原因,因?yàn)槲覀兛梢砸源私撇豢蓪?shí)現(xiàn)的無遺憾常規(guī) Kolmogorov 壓縮器思想。隨著我們訓(xùn)練的神經(jīng)網(wǎng)絡(luò)越來越大,遺憾會(huì)越來越低?!?/span>
此理論也適用于 GPT 模型嗎?
Sutskever 對(duì)此的答案是肯定的,不過解釋 GPT 模型的行為時(shí),無需引述有關(guān)壓縮或監(jiān)督學(xué)習(xí)的說明,你可以說 GPT 的「理論」可以通過對(duì)文本的條件分布進(jìn)行推理而得到。
那么,我們能找到其它的直接驗(yàn)證方法來驗(yàn)證這一理論嗎?我們能用視覺等其它領(lǐng)域來解釋嗎?如果我們?cè)谙袼財(cái)?shù)據(jù)上這樣操作,我們能得到優(yōu)良的無監(jiān)督學(xué)習(xí)嗎?
Sutskever 表示他們已經(jīng)在 2020 年做過這樣的研究,即 iGPT。當(dāng)然,這主要是一個(gè)驗(yàn)證概念的研究,離實(shí)踐應(yīng)用還有很大距離,詳見論文《Generative Pretraining from Pixels》。
該論文表明:如果你能做出很棒的下一步預(yù)測(cè)器,那么就能收獲很棒的無監(jiān)督學(xué)習(xí)效果。這篇論文在圖像領(lǐng)域證明了該論斷。
簡(jiǎn)單來說,先將圖片轉(zhuǎn)換成像素序列,每個(gè)像素都有一個(gè)離散的密度值。要做的就是使用同樣的 Transformer 來預(yù)測(cè)下一個(gè)像素。這不同于 BERT,就是預(yù)測(cè)下一個(gè) token,因?yàn)檫@是最大化壓縮的似然。
下面來看看結(jié)果:
如圖所示,這是不同大小的 iGPT 模型在 CIFAR-10 上的線性探查準(zhǔn)確度,也就是在無監(jiān)督學(xué)習(xí)的像素預(yù)測(cè)任務(wù)上的下一步預(yù)測(cè)準(zhǔn)確度??梢钥闯?,預(yù)測(cè)下一個(gè)像素就和預(yù)測(cè)下一個(gè)詞一樣有效。當(dāng)模型規(guī)模更大時(shí),無監(jiān)督學(xué)習(xí)的效果也更好。
他們進(jìn)行了實(shí)驗(yàn)研究,結(jié)果發(fā)現(xiàn)在 ImageNet 上,經(jīng)過多方面擴(kuò)展的 iGPT 的表現(xiàn)可以接近當(dāng)今最佳的監(jiān)督學(xué)習(xí),但依然還有些差距。
不過 Sutskever 認(rèn)為這就是個(gè)計(jì)算問題,因?yàn)?SimCLR 等監(jiān)督學(xué)習(xí)方式使用的是高分辨率的大圖,他們?yōu)榫扌?Transformer(68 億參數(shù))提供的是 64×64 的小圖。這就像是基于一個(gè)大型數(shù)據(jù)集以無監(jiān)督的方式預(yù)測(cè)下一個(gè)像素,然后在 ImageNet 上擬合線性探針,得到很好的結(jié)果。
而在 CIFAR-10 上,有 13.6 億參數(shù)的 iGPT-L 取得了準(zhǔn)確度 99% 的好成績(jī),如下圖所示。
線性表征
演講最后,Sutskever 表示他想談?wù)劸€性表征。
他說:「我喜歡壓縮理論,因?yàn)樵诖酥斑€沒有以嚴(yán)格方式思考無監(jiān)督學(xué)習(xí)的方法?!苟F(xiàn)在我們能在一定程度上做到這一點(diǎn)了。但壓縮理論不能直接解釋為什么表征是線性可分的,也無法解釋應(yīng)該有線性探針。線性表征是無處不在的,它們形成的原因必定很深刻。Sutskever 相信我們能在未來清晰地闡釋它。
他覺得另一個(gè)有趣的地方是自回歸模型在線性表征方面的表現(xiàn)優(yōu)于 BERT。但目前人們還不清楚其中的緣由。
不過 Sutskever 倒是給出了自己的推測(cè):在根據(jù)之前所有的像素預(yù)測(cè)下一個(gè)像素時(shí),模型需要觀察數(shù)據(jù)的長(zhǎng)程結(jié)構(gòu)。BERT 在處理向量時(shí)會(huì)丟棄一些像素 token,通過兼顧地考慮一點(diǎn)過去和一點(diǎn)未來,模型實(shí)際上能得到相當(dāng)好的預(yù)測(cè)結(jié)果。這樣一來就去除了所有困難任務(wù),任務(wù)的難度就下降了很多。預(yù)測(cè)下一個(gè)像素中最困難的預(yù)測(cè)任務(wù)比 BERT 預(yù)測(cè)情況中最困難的預(yù)測(cè)任務(wù)難多了。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。