世界的參數(shù)倒影：為何GPT通過Next Token Prediction可以產(chǎn)生智能（2）

發(fā)布人：數(shù)據(jù)派THU 時間：2023-06-10 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

壓縮即智能

從上述講解可看出，如果 GPT 模型生成 Ground Truth  的生成概率越高，則其在算術編碼分割區(qū)間中占據(jù)的長度就越長，就越容易找到更短的算術編碼，這意味著模型壓縮率越高。也就是說，如果 GPT 模型智能程度越高，NTP 預測得越準確，則其壓縮效率就越高。所以，我們可以根據(jù)模型的壓縮效率來評估模型的智能程度，模型壓縮效率越高，則模型智能程度越高，這是目前 OpenAI 照此思路推進大模型研發(fā)方向的一個核心理念。
我們可以考慮兩種極端情況：一種情況是模型具備超強智能，對于 Next Token Prediction 要預測的每一個 Ground Truth  ，生成概率總是為 1。我們假設當小帥傳輸給小美一部分數(shù)據(jù) 后，模型的智能程度不斷積累并達到這個程度，這意味著對于沒有傳送的剩余數(shù)據(jù) 來說，小帥后面無需傳輸任何信息。因為小美的 GPT 已經(jīng)能夠完全靠自己正確預測后續(xù)的每一個 Token，此時 GPT 模型由于具備超強智能而擁有了極限數(shù)據(jù)壓縮能力，也就是根據(jù)輸入上文，未來發(fā)生什么它都知道；另外一種極端情況，是 GPT 在訓練過程中未學到任何智能，則其在做 Next Token Prediction 時，純靠猜。假設詞表大小為，則每一個 Ground Truth  的生成概率永為，此時 GPT 不具備任何數(shù)據(jù)壓縮能力，需要傳輸?shù)臄?shù)據(jù)量和原始數(shù)據(jù) 信息量相等。
這是兩種極端情況。大多數(shù)情況下，LLM 模型的智能，或者說壓縮能力，應該介于兩者之間，而我們可以根據(jù)模型壓縮能力，來評估模型的智能程度。如果做些數(shù)學推導，可知這種情形下，對于數(shù)據(jù)  對應的  ，算術編碼所需編碼的 bit 數(shù)，也即碼長，應為：，您看到這個公式可以思考下，有沒有覺得它和誰長得比較像呢？其實，這就是 GPT 在訓練的時候，這個 Token 對應的交叉熵損失。也就是說，如果從數(shù)據(jù)壓縮的角度，每個 Token 的編碼長度，其實就是 LLM 預訓練時，這個 Token 對應的交叉熵損失，兩者是等價的。是不是很有意思？所以，數(shù)據(jù)無損壓縮是看待 LLM 模型訓練的另外一個比較新穎的視角。

我們可以進一步推導一下，對于數(shù)據(jù)集合，經(jīng)過 LLM 模型壓縮傳輸，小帥傳給小美的總數(shù)據(jù)量是多少？具體計算公式可參考上圖。由圖可看出，傳輸信息總量由兩部分構成：一部分是 LLM 模型代碼描述，包括代碼本身、初始化方法以及隨機種子等信息；另外一部分的求和公式如果展開，如上所述，每個  對應的壓縮編碼 bit 數(shù)，就是這個 Token 對應的交叉熵損失，所以，這部分其實就是 GPT 利用數(shù)據(jù)  進行預訓練的時候，所有 Token 的損失之和。兩個部分相加就是數(shù)據(jù)傳輸總量。

那么，不同的 LLM 模型，是否具備不同的數(shù)據(jù)壓縮能力呢？答案是顯然的。上圖展示了不同大小 LLaMA 模型（從最小的 7B 到最大的 65B）對應的數(shù)據(jù)壓縮能力：對于相同的訓練數(shù)據(jù)總量（比如橫坐標的 1000B Tokens 節(jié)點），每個模型 Loss 曲線覆蓋的面積總數(shù)，就是這個模型對應的數(shù)據(jù)壓縮能力，Loss 曲線覆蓋的面積越小，說明模型壓縮能力越強。有了前面的講解鋪墊，我相信這很好理解，我們可以極端地假設模型訓練時每個 Batch 只包含一個 Token，那么其所需的編碼 bit 數(shù)，就是這個 Token 對應的 loss 數(shù)值，我們對模型 Loss 面積進行積分，就能得到所有 Token 的總 Loss，而這等價于壓縮這些 Token 所需要的總的壓縮后編碼長度。
從上圖可以看出，規(guī)模越大的 LLaMA 模型，其對應的 Loss 面積越小，意味著這個模型壓縮率越高，壓縮能力越強，而這進一步代表模型的智能程度越高。如果粗估的話，可以得出目前 LLaMA 模型的數(shù)據(jù)壓縮率在 14 倍左右，而這是超出專門的數(shù)據(jù)壓縮競賽 Hutter Prize 目前最佳的壓縮率的，目前這個最佳壓縮率是 8.7 倍。這說明什么呢？如果我們假設當前主流的文本壓縮算法，其壓縮依據(jù)主要來自于詞頻以及重復出現(xiàn)模式這種表面因素的話，那這多出的壓縮率，很可能代表了 LLM 語言模型對于文本深層理解，來自于對 AGI 的智能編碼。
進一步的思考
上述內容，即 Jack Rae 報告中體現(xiàn)出的「壓縮即智能」的論證思路。三月份左右我看完分享后大受啟發(fā)，覺得 OpenAI 開的腦洞很大，因為自己確實從來沒有從數(shù)據(jù)壓縮的角度看待過 LLM 模型，我相信這對絕大多數(shù)人來說都是一個很新穎的觀察角度。不過，后來查閱相關文獻后，發(fā)現(xiàn)這種 “壓縮即智能” 的思路并非 OpenAI 首創(chuàng)，其實已有較長歷史。比如上文提到的旨在鼓勵研究更好數(shù)據(jù)壓縮算法的 Hutter Prize，創(chuàng)立于 2006 年，獎項設立人 Marcus Hutter 即相信數(shù)據(jù)壓縮能力和 AI 智能是一個等價的問題，這也是他自己出資設立這個獎項的初衷，而且目前使用 AI 模型做數(shù)據(jù)壓縮已然是個小的研究方向，有不少相關論文。
我們可以就這個思路深入思考兩個相關問題。第一個問題是：上面講述內容是以數(shù)據(jù)壓縮的視角來看待 LLM 的智能水準，問題是為何模型壓縮能力越強，就代表了它具備更高的智能呢？
最小描述長度原理（Minimum Description Length，MDL）可以解釋這個問題，這是機器學習中的一個重要概念，是奧卡姆剃刀原則（「如無必要，勿增實」體）的形式化表述。MDL 的核心思想是說：假設我們有很多模型可以對手上的數(shù)據(jù)作出解釋，那么其中最佳解釋應該是對該數(shù)據(jù)進行盡可能短而準確描述的模型，模型描述長度越短，則其泛化性就會越好，也就是我們說的越智能。為啥描述越短越智能？因為這個短描述是從數(shù)據(jù)里抽象出來的內在規(guī)律，相對大量數(shù)據(jù)，數(shù)據(jù)內在規(guī)律的描述，自然就短得多，而模型若能給出越短的描述，說明這個模型學到了更多的內在規(guī)律，所以就越聰明。是這個邏輯，我們來舉個例子。假設要傳輸?shù)男蛄惺且蝗f個連續(xù)質數(shù)數(shù)字序列：
質數(shù)數(shù)字之間的出現(xiàn)間隔是沒有規(guī)律的，所以小帥只能老老實實把這一萬個數(shù)字編碼傳給小美，但是其實小帥可以用一句話，比如「輸出從 2 開始的 1 萬個連續(xù)質數(shù)」，來描述這些數(shù)字，把這句話壓縮后傳給小美，小美的 LLM 模型看到這句話后，如果足夠聰明的話，就能恢復出 1 萬個質數(shù)序列，到這里我相信您應該能理解 MDL 的含義了。
當然，能這么做的前提是：LLM 得理解質數(shù)這種很抽象的概念才行。那么，大模型真的能理解這種抽象概念嗎？是否真的只有大模型才能理解類似「質數(shù)」這種抽象概念，而小模型就不行呢？我做了個驗證，對大模型和小模型的能力做了個對比，為了防止模型單純靠對訓練數(shù)據(jù)中出現(xiàn)的質數(shù)序列進行記憶來完成這個任務，我把描述進行了一些轉換，保證大語言模型在訓練中是看不到這種說法的，測試對應的 Prompt 及大小兩個模型的輸出結果可參考下圖所示。

可以看出，GPT 3.5 是學會了質數(shù)這種抽象概念的，否則這道題很難回答好，如果不理解這個概念，就會出現(xiàn)圖右小模型這種不知所云的回答。這一方面說明大模型確實可以學習一些抽象概念，另一方面說明大模型在這方面表現(xiàn)確實比小模型要好。
另外一個問題，jack Rae 在報告中強調 LLM 的這種數(shù)據(jù)壓縮能力是無損的，并反駁了著名科幻小說作家特德姜在年初時候提出的影響很大的「ChatGPT 是對互聯(lián)網(wǎng)數(shù)據(jù)的有損壓縮」觀點。其實吧，你要仔細思考一下，會發(fā)現(xiàn)這種 LLM 是對數(shù)據(jù)的「無損壓縮」的觀點是有點水分的。如果我們更嚴謹?shù)貋砜?，會發(fā)現(xiàn)盡管 LLM 訓練過程可以看成是對數(shù)據(jù)的無損壓縮，但是能夠達成「無損」的效果，并不單單靠 LLM，其實是「LLM + 算術編碼」一起完成的。
如果 LLM 通過學習達到足夠強的智能程度，能夠保證 NTP 預測后續(xù)文字序列的 loss 是 0，也就是說可以根據(jù)上文 Context，完全精準預測后續(xù) Next Token，此時算術編碼就不需要了，僅靠 LLM 就能完整地對數(shù)據(jù)進行壓縮和解碼。如果是這種情況，我們說 LLM 的訓練過程或者說 LLM 在經(jīng)過訓練后，能對數(shù)據(jù)進行「無損壓縮」，并沒有任何問題。但是，這是理想情況，目前 LLM 能做到這點嗎？肯定是做不到的，所以 LLM 給出的后續(xù) Next Token 預測肯定會有錯誤，這些被預測錯誤的 Token，其實就代表了 LLM 壓縮數(shù)據(jù)的信息損失，這種損失是靠算術編碼額外對信息進行編碼來進行補償，才達成數(shù)據(jù)的「無損壓縮」效果。所以，更精確的說法，看似應該是這樣：
數(shù)據(jù)無損壓縮 = LLM 模型的有損數(shù)據(jù)壓縮能力 + 算術編碼的編碼補償能力
也就是說，起碼目前的 LLM 對數(shù)據(jù)編碼還是有損的，并不能單靠自己的能力達到數(shù)據(jù)無損壓縮的目的。至于將來 LLM 是否能夠強大到靠自己就能達成數(shù)據(jù)無損壓縮，目前仍是未知數(shù)。
數(shù)據(jù)壓縮只是手段，通過這種手段使得 GPT 獲得智能才是目標，現(xiàn)在的問題是：OpenAI 從基礎理論上指出了手段及目的，但是并未說明一個更基礎的問題：Next Token Prediction 通過數(shù)據(jù)壓縮來讓 GPT 模型學到了什么樣的 AGI 智能呢？本文后續(xù)內容試圖回答這個問題。
拼圖游戲：目前已知的一些事實碎片
若把 LLM 習得 AGI 智能比做一個拼圖游戲的話，只能說目前我們手上只有一些有關它的支離破碎的拼圖碎片，還未能一睹這種機器智能的全貌。本部分從幾個不同的角度，收集并介紹現(xiàn)有相關研究的研究結論。
GPT 模型對知識的提取過程

我們先來看一下，假設 LLM 模型訓練好了，在使用時輸入 Prompt，GPT 模型是如何把知識提取出來的?！窪issecting Recall of Factual Associations in Auto-Regressive Language Models」這篇文章對此做了細致的研究。如圖所示，假設輸入的 Prompt 是：「Beat music is owned by」，GPT 可以通過 NTP 返回正確答案：Apple。這個例子里，「Beat music」是個實體，「owned by Apple」是這個實體對應的某個屬性。
經(jīng)過研究，發(fā)現(xiàn) GPT 在提取這條知識的時候，經(jīng)歷了明顯的三階段過程：首先，單詞「music」是描述這個實體最后的、也是最關鍵的詞匯，它的信息在順著 Transformer block 往上走的過程中，先通過 Attention 把之前的修飾語「beats」相關信息集成到「music」對應位置。之后，隨著 Transformer 層數(shù)越來越高，通過每個 Transformer Block 的 FFN 層，不斷往「music」對應的 Embedding 里增加信息，所以隨著信息往上層流動，「music」這個單詞對應層數(shù)的 Embedding，能夠觸發(fā)越來越多的與「Beat music」相關「屬性」詞匯。這是第一個步驟，整個過程總體發(fā)生在 Transformer 的低層。
第二步，GPT 模型在「by」單詞這個位置，也就是 NTP 要產(chǎn)生輸出 token 的最后一個位置，通過 Attention 把單詞「own」的信息集成到最后位置。這里需要注意一下，最后一個單詞對應的 Transformer 位置是比較關鍵的，因為在它的最上層會給出 Next Token 輸出。在推理過程中，GPT 會把輸入上文中的重要信息通過 Attention 逐步集成到這個位置上來。這個操作也發(fā)生在 Transformer 的低層。
第三步，在「by」單詞位置，也就是最后一個位置的 Transformer 高層，它在低層已經(jīng)集成了單詞「own」的信息，這個信息在高層，通過 Attention 把「Beat music」對應的屬性「apple」提取出來。具體提取動作是通過某個 Attention Head 來做到的，而且這篇文章證明了 Attention Head 里會編碼 < 實體 - 屬性 > 信息，具體例子可以參照下圖，這點對我們來說應該是個新知識（過去一般認為 Attention 主要是用來進行信息比較和搬運的，它證明了 Attention 也會存儲某種知識）。
通過以上三步，GPT 完成了對某條知識的提取過程。

另外一個工作「Understanding Transformer Memorization Recall Through Idioms」探討了 LLM 是如何提取記憶信息的，包括完全靠記憶需要精準復現(xiàn)的成語／諺語（Idioms），以及事實類知識。研究結論是 LLM 對記憶信息提取可以分為兩個階段：第一階段是低層的 Transformer Block 把正確答案單詞的排名逐漸提高，直到中間層排名到了第一名；第二階段高層的 Transformer 把正確答案的置信度提高，也就是不斷提高這個正確答案的分布概率得分。
除了以上兩個工作，還有一些其它類似的研究知識提取的工作。如果綜合下現(xiàn)有的研究結論，我覺得可以大致得出這么一個 GPT 知識提取的輪廓：當訓練好 GPT 模型后輸入 Prompt，對于 Transformer 某個位置對應的輸入單詞，隨著 Transformer 不斷往上走，GPT 通過 Attention，把這個單詞上文中與自己有關的信息集成到自己的 Embedding 里，而每層的 FFN 對當前單詞 Embedding 做變換增加信息，以此方式來不斷觸發(fā) FFN 里存儲的知識并逐層 Refine 單詞對應的 Embedding（類似上面例子里單詞「music」的過程）。
Transformer 的 last token 位置也是如此，它的特殊之處在于，從底層到上層，首先會把整個輸入上文中最關鍵的信息，通過 Attention 拷貝到自己的位置，之后通過這個關鍵信息來逐步過濾出上文中比較重要的信息。在這個位置的 Transformer 底層，應該有很多候選答案可供輸出，正確答案排名并不靠前，隨著 Transformer 往上走，正確答案排名越來越靠前，而且可以和正確答案競爭的候選答案越來越少，體現(xiàn)為分配給正確答案的概率分布得分越來越高，直到 last token 的最高層，GPT 可以輸出正確答案（類似上面例子中單詞「by」的過程）。
知識點在 Transformer 中的分布
這部分介紹知識點在 Transformer 結構中的分布情況，意思是不同類型或特定的知識點，在 Transformer 高中低不同層級的分布情況。了解這方面的知識，對于理解 GPT 的內在運行機制是非常有幫助的。
在介紹研究結論前，為了便于理解，我們先說明三個基礎概念 (可參考 Toy Models of Superposition)：單語義（Monosemantic）神經(jīng)元、多語義（Polysemantic）神經(jīng)元及 superposition。

目前發(fā)現(xiàn) LLM 中存在很多單個的神經(jīng)元，它們各自只對輸入里某個特殊的知識點產(chǎn)生響應，也就是說只會被特定輸入模式激活，對其它無關輸入保持沉默，一個神經(jīng)元編碼一個知識，完美一一對應，這類 Transformer 中的神經(jīng)元被稱為「單語義神經(jīng)元」(這和人類大腦中的神經(jīng)元作用機制就比較像了)。與此相反，也有大量神經(jīng)元是多語義編碼的，就是說很多不同語言含義的知識點都會激活某個神經(jīng)元，這類神經(jīng)元被稱為「多語義神經(jīng)元」。上圖給了例子，比如有的神經(jīng)元只有當輸入的 Prompt 內容是法語寫的，它才有響應，這是典型的「單語義神經(jīng)元」；而有的神經(jīng)元會對多個語義差異很大的 2-gram 語言片段都會有響應，這是典型的「多語義神經(jīng)元」。
Superposition 概念的含義是：假設要編碼的特征的數(shù)量 n 遠遠多于網(wǎng)絡參數(shù) d，我們可找到辦法，來用 d 維神經(jīng)元編碼比 d 數(shù)量大得多的 n 個特征，這種編碼機制被稱為 superposition，所以它是被發(fā)現(xiàn)存在 Transformer 結構里的一種信息壓縮編碼機制。

Superposition 和「多語義神經(jīng)元」關系密切，目前發(fā)現(xiàn) LLM 內部是這樣做的（參考 Finding Neurons in a Haystack: Case Studies with Sparse Probing）：如上圖所示，LLM 的 Superposition 機制是由多個「多語義神經(jīng)元」聯(lián)合構成的，每個神經(jīng)元會對輸入中的多個不同知識點都有響應，所以僅僅通過一個「多語義神經(jīng)元」是無法探測當前是對誰在做出響應，但是如果有多個對某個知識點都有響應的「多語義神經(jīng)元」，在它們的響應之上做個線性組合，就能探測到輸入中我們想識別的那個知識點（上圖中藍色部分）。也就是說，LLM 通過組合多個「多語義神經(jīng)元」來對某個具體特征或知識點進行編碼。所以，「多語義神經(jīng)元」和知識點之間的關系是多對多的映射，一個知識點會激發(fā)很多對它進行編碼的「多語義神經(jīng)元」，而一個「多語義神經(jīng)元」也會對多個輸入知識點產(chǎn)生響應。
了解了上述三個基礎概念，我們介紹下目前的研究結論：在訓練好的 GPT 模型中，Transformer 底層編碼了大量的具體特征或知識點，比如 n-gram 特征、句法特征等，編碼方式采用上述的由多個 “多語義神經(jīng)元” 組成的 superposition 模式；而隨著 Transformer 層數(shù)加深，具體知識點逐漸減少，抽象知識點（比如「法語」／「質數(shù)」等）逐漸增加，且抽象知識點一般由「單語義神經(jīng)元」獨立編碼，且隨著 Transformer 層數(shù)越高，編碼的特征越抽象。換句話說，Transformer 對特征或知識點的編碼，存在由低到高越來越抽象的一個知識抽象過程，這一現(xiàn)象在 OpenAI 最新發(fā)布的文章「Language models can explain neurons in language models」也有提及。
另外，「Polysemanticity and Capacity in Neural Networks」這個文章指出了：在模型學習過程中，為了增加模型參數(shù)的利用效率，「單語義神經(jīng)元」會被分配給重要特征，「多語義神經(jīng)元」會分配給不太重要的特征，而對更加不重要的特征，則模型完全不進行編碼。而所謂的「重要性」，指的是對訓練 loss 的影響來說的，也就是說：「單語義神經(jīng)元」對 NTP 訓練時降低 loss 影響比較大。這說明對特征或知識點進行抽象，是 NTP 本身為了快速降低 Loss 的一種內在驅動力，而這很可能是 GPT 模型通過 Next Token Prediction 任務產(chǎn)生智能的關鍵之一。
GPT 中知識回路存在的證據(jù)
這里介紹 LLM 模型中，完成某個特定任務存在對應知識回路（Circuit）的相關工作。所謂「回路」，指的是某個任務的 Prompt 輸入 Transformer 后，信息從底向上傳播，直到 last token 最高層 Next Token 輸出答案，在網(wǎng)絡中存在一些完成這個任務的關鍵路徑，信息主要沿著這條路徑向上傳播，在傳播過程中不斷進行信息傳遞或知識加工，以此方式來通過 NTP 完成某項任務。如果看過后面介紹內容，你會發(fā)現(xiàn) LLM 知識回路的工作過程，其實和人類大腦中的某些信息處理回路是很相似的。而大量在 GPT 的 NTP 預訓練過程中形成的各種知識回路，很可能是揭開 AGI 之謎的另外一把鑰匙。

「How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model」這個工作主要探討：為何 GPT 模型能夠通過預訓練獲得數(shù)學能力。具體而言，用的是類似「The war lasted from the year 17YY to the year 17」的 Prompt，GPT 模型可以做到輸出的 Next Token 的年份數(shù)字 XX 大于 YY，這說明它在預訓練中學會了數(shù)字間的比較關系。通過探究，發(fā)現(xiàn)模型在預訓練過程中形成了解決這個問題的知識回路，如上圖圖右所示：有兩個關鍵部分，第一個是中間層的某些 Attention Head，比如圖中 a5.h5 代表 Transformer 第 5 層的第 5 個 Attention Head，這些 Attention Head 主要作用是聚焦到 YY 年份并向高層傳播；另外一個關鍵是第 8 到 11 層的 MLP 層，這些層的 MLP 完成「大于」運算，所以最后 GPT 能夠正確輸出結果。而且，中間層的 Attention Head 和上層 MLP 也有相對應的傳遞關系，比如第 9 層 MLP 主要接收信息來源于 a9.h1，而第 8 層 MLP 的信息來源則比較多?？梢钥闯?，信息從下到上形成了一個特定的傳播路徑。

如果再深入探究，會發(fā)現(xiàn)是 MLP 中的一些關鍵神經(jīng)元完成數(shù)學運算的，如上圖圖右所示，可以探測出第 10 層 MLP 中影響最大的 10 個神經(jīng)元，這層只用這 10 個神經(jīng)元就能大致完成 “大于” 運算，而左圖則展示了 a7.h10 這個 Attention Head 主要聚焦于關鍵信息 “YY” 上。另外，該項研究還發(fā)現(xiàn)不僅僅上述 Prompt，如果變換 Prompt 形式，但是體現(xiàn)數(shù)字比較關系，發(fā)現(xiàn)被激活的也是這條回路，這說明這條回路可能專門用于對數(shù)字進行關系比較。