直接壓縮一切！OpenAI首席科學(xué)家Ilya Sutskever這么看無監(jiān)督學(xué)習(xí)（3）

發(fā)布人：機(jī)器之心時(shí)間：2023-08-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

直接壓縮一切！

Sutskever 又進(jìn)一步提到「直接壓縮一切」也是可行的。

條件 Kolmogorov 復(fù)雜度 K (Y|X) 在機(jī)器學(xué)習(xí)語境中是不自然的，因?yàn)樗腔?X 來壓縮 Y，而至少就目前而言，以大型數(shù)據(jù)集為條件還是基本無法辦到的。我們可以擬合大型數(shù)據(jù)集，但很難以其為條件。

而上式是表示：如果你想要對(duì)你監(jiān)督的東西 Y 進(jìn)行預(yù)測(cè)，使用壓縮 X 和 Y 連接數(shù)據(jù)的常規(guī) Kolmogorov 壓縮器的表現(xiàn)與條件壓縮器一樣好。當(dāng)然實(shí)際細(xì)節(jié)還有更多微妙之處，但這其實(shí)就是表示我們可以使用常規(guī) Kolmogorov 壓縮器來求解無監(jiān)督學(xué)習(xí) —— 就是將你的所有數(shù)據(jù)連接起來，然后執(zhí)行壓縮，這樣就能在你關(guān)心的監(jiān)督任務(wù)上得到很好的結(jié)果。

對(duì)此的證明要更復(fù)雜一些，這里就不再繼續(xù)深入了。

重點(diǎn)的結(jié)論是常規(guī) Kolmogorov 壓縮（無需以某個(gè)數(shù)據(jù)集為條件）是「以最好的可能方式使用」無標(biāo)注數(shù)據(jù)。這就是無監(jiān)督學(xué)習(xí)的解。

聯(lián)合壓縮就是最大似然

Sutskever 在演講中談到的最后一點(diǎn)是：這種聯(lián)合壓縮就是最大似然，只要沒有過擬合。

如果你有一個(gè)數(shù)據(jù)集，那么給定參數(shù)的似然之和就是壓縮該數(shù)據(jù)集的成本。你還需要支付壓縮參數(shù)的成本。而如果你想壓縮兩個(gè)數(shù)據(jù)集，也沒有問題，只需向你的數(shù)據(jù)集添加數(shù)據(jù)點(diǎn)即可，也就是向上面的求和運(yùn)算 sum 添加更多項(xiàng)。

所以通過連接數(shù)據(jù)來進(jìn)行聯(lián)合壓縮在機(jī)器學(xué)習(xí)語境中是非常自然的做法。相比而言，通過條件 Kolmogorov 復(fù)雜度就麻煩多了。

我們甚至可以將其用于解釋神經(jīng)網(wǎng)絡(luò)的工作方式。我們可以將用于大型神經(jīng)網(wǎng)絡(luò)的 SGD 用作我們的大型程序搜索器。神經(jīng)網(wǎng)絡(luò)越大，就能更好地近似常規(guī) Kolmogorov 壓縮器。Sutskever 評(píng)價(jià)說：「也許這就是我們喜歡大型神經(jīng)網(wǎng)絡(luò)的原因，因?yàn)槲覀兛梢砸源私撇豢蓪?shí)現(xiàn)的無遺憾常規(guī) Kolmogorov 壓縮器思想。隨著我們訓(xùn)練的神經(jīng)網(wǎng)絡(luò)越來越大，遺憾會(huì)越來越低?！?/span>

此理論也適用于 GPT 模型嗎？

Sutskever 對(duì)此的答案是肯定的，不過解釋 GPT 模型的行為時(shí)，無需引述有關(guān)壓縮或監(jiān)督學(xué)習(xí)的說明，你可以說 GPT 的「理論」可以通過對(duì)文本的條件分布進(jìn)行推理而得到。

那么，我們能找到其它的直接驗(yàn)證方法來驗(yàn)證這一理論嗎？我們能用視覺等其它領(lǐng)域來解釋嗎？如果我們?cè)谙袼財(cái)?shù)據(jù)上這樣操作，我們能得到優(yōu)良的無監(jiān)督學(xué)習(xí)嗎？

Sutskever 表示他們已經(jīng)在 2020 年做過這樣的研究，即 iGPT。當(dāng)然，這主要是一個(gè)驗(yàn)證概念的研究，離實(shí)踐應(yīng)用還有很大距離，詳見論文《Generative Pretraining from Pixels》。

該論文表明：如果你能做出很棒的下一步預(yù)測(cè)器，那么就能收獲很棒的無監(jiān)督學(xué)習(xí)效果。這篇論文在圖像領(lǐng)域證明了該論斷。

簡(jiǎn)單來說，先將圖片轉(zhuǎn)換成像素序列，每個(gè)像素都有一個(gè)離散的密度值。要做的就是使用同樣的 Transformer 來預(yù)測(cè)下一個(gè)像素。這不同于 BERT，就是預(yù)測(cè)下一個(gè) token，因?yàn)檫@是最大化壓縮的似然。

下面來看看結(jié)果：

如圖所示，這是不同大小的 iGPT 模型在 CIFAR-10 上的線性探查準(zhǔn)確度，也就是在無監(jiān)督學(xué)習(xí)的像素預(yù)測(cè)任務(wù)上的下一步預(yù)測(cè)準(zhǔn)確度?？梢钥闯?，預(yù)測(cè)下一個(gè)像素就和預(yù)測(cè)下一個(gè)詞一樣有效。當(dāng)模型規(guī)模更大時(shí)，無監(jiān)督學(xué)習(xí)的效果也更好。

他們進(jìn)行了實(shí)驗(yàn)研究，結(jié)果發(fā)現(xiàn)在 ImageNet 上，經(jīng)過多方面擴(kuò)展的 iGPT 的表現(xiàn)可以接近當(dāng)今最佳的監(jiān)督學(xué)習(xí)，但依然還有些差距。

不過 Sutskever 認(rèn)為這就是個(gè)計(jì)算問題，因?yàn)?SimCLR 等監(jiān)督學(xué)習(xí)方式使用的是高分辨率的大圖，他們?yōu)榫扌?Transformer（68 億參數(shù)）提供的是 64×64 的小圖。這就像是基于一個(gè)大型數(shù)據(jù)集以無監(jiān)督的方式預(yù)測(cè)下一個(gè)像素，然后在 ImageNet 上擬合線性探針，得到很好的結(jié)果。

而在 CIFAR-10 上，有 13.6 億參數(shù)的 iGPT-L 取得了準(zhǔn)確度 99% 的好成績(jī)，如下圖所示。

線性表征

演講最后，Sutskever 表示他想談?wù)劸€性表征。

他說：「我喜歡壓縮理論，因?yàn)樵诖酥斑€沒有以嚴(yán)格方式思考無監(jiān)督學(xué)習(xí)的方法?！苟F(xiàn)在我們能在一定程度上做到這一點(diǎn)了。但壓縮理論不能直接解釋為什么表征是線性可分的，也無法解釋應(yīng)該有線性探針。線性表征是無處不在的，它們形成的原因必定很深刻。Sutskever 相信我們能在未來清晰地闡釋它。

他覺得另一個(gè)有趣的地方是自回歸模型在線性表征方面的表現(xiàn)優(yōu)于 BERT。但目前人們還不清楚其中的緣由。

不過 Sutskever 倒是給出了自己的推測(cè)：在根據(jù)之前所有的像素預(yù)測(cè)下一個(gè)像素時(shí)，模型需要觀察數(shù)據(jù)的長(zhǎng)程結(jié)構(gòu)。BERT 在處理向量時(shí)會(huì)丟棄一些像素 token，通過兼顧地考慮一點(diǎn)過去和一點(diǎn)未來，模型實(shí)際上能得到相當(dāng)好的預(yù)測(cè)結(jié)果。這樣一來就去除了所有困難任務(wù)，任務(wù)的難度就下降了很多。預(yù)測(cè)下一個(gè)像素中最困難的預(yù)測(cè)任務(wù)比 BERT 預(yù)測(cè)情況中最困難的預(yù)測(cè)任務(wù)難多了。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

直接壓縮一切！OpenAI首席科學(xué)家Ilya Sutskever這么看無監(jiān)督學(xué)習(xí)（3）

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

直接壓縮一切！OpenAI首席科學(xué)家Ilya Sutskever這么看無監(jiān)督學(xué)習(xí)（3）

相關(guān)推薦

技術(shù)專區(qū)

直接壓縮一切！OpenAI首席科學(xué)家Ilya Sutskever這么看無監(jiān)督學(xué)習(xí)（3）