世界的參數(shù)倒影：為何GPT通過Next Token Prediction可以產(chǎn)生智能（1）

發(fā)布人：數(shù)據(jù)派THU 時間：2023-06-10 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：機器之心

GPT是鸚鵡學(xué)舌，還是真的具有類人智能？帶你一探究竟。

「兩位說英語的荒島幸存者被困在相鄰島嶼上，中間隔著危險水域。幸運的是，他們發(fā)現(xiàn)了前任居民留下的電報機，電報機通過一條水下電纜連接起來，他們能夠通過電報傳遞信息。但是，他們不知道的是：附近水域里，生活著一個具備超級智能的章魚，它劫持了水下電纜并****了他們之間傳送的消息。盡管章魚不懂英語，但其超級智能使其能夠檢測到電報信息文字的統(tǒng)計模式，并能準確表示各種電報信號間的統(tǒng)計關(guān)系。在章魚覺得自己已經(jīng)學(xué)好這些統(tǒng)計規(guī)律之后，它切斷水下電纜，將自己兩個長觸手定位在電纜的兩個末端，基于它所識別出來的統(tǒng)計模式，接收并自己來回復(fù)兩名漂流者的電報信號。無論兩位幸存者是否注意到交流對象已發(fā)生變化，章魚發(fā)送出去的信息，在本質(zhì)上似乎沒有任何含義。畢竟，章魚只是遵循它從人類之間的前期交流中學(xué)到的統(tǒng)計模式，而并沒有看到過任何人類對信號的解釋，比如 “椰子” 或 “海水” 所代表的真實含義。此外，章魚甚至可能都不明白這些信號是具有意義的，或起到了促進交流的功能。」 —— 「章魚測試（The Octopus Test）」- Bender & Koller
如果我們把「章魚測試」里的章魚換成 ChatGPT 或 GPT 4，您會怎么看這個問題呢？也就是說，下述兩種觀點，您支持哪一種呢？一種觀點與 “章魚測試” 看法類似，認為 GPT 4 這種 LLM 模型僅僅學(xué)會了語言中的單詞共現(xiàn)等淺層的表面統(tǒng)計關(guān)系，其實并未具備智能，只是類似鸚鵡學(xué)舌的語言片段縫合怪而已；另外一種觀點則認為：GPT 4 不僅學(xué)會了語言元素間的表面統(tǒng)計關(guān)系，而且學(xué)到了人類語言甚至包括物理世界的內(nèi)在運行規(guī)律，文字是由內(nèi)在智能產(chǎn)生的，所以 LLM 具備類人智能。
這兩種觀點針鋒相對，我不確定您屬于哪一派。目前無論是學(xué)術(shù)界，還是社會層面，其實持有兩方觀點的人數(shù)都不少，相互之間爭論很激烈。比如不認為大語言模型具備智能的反方知名代表人物，AI 圈子里的大佬代表是 LeCun，語言學(xué)界代表人物是喬姆斯基，都否認通過 Next Token Prediction 這種方式訓(xùn)練出來的大語言模型能夠具備智能；而正方代表人物也很多，OpenAI 不說了，毫無疑問是最具影響力的正方代表，從目前的公開言論看，Hinton 老爺子很明顯也持正方觀點，而且特別正方，不僅認為 GPT 4 具備類人智能，而且覺得將來人類這種碳基智能很可能是 LLM 這種硅基智能的引導(dǎo)啟動程序 (Booster)，在這點上 Hinton 和馬斯克（這是簡稱，全名為：埃隆?電動車之王?火箭先驅(qū)?Twitter 再造者?環(huán)保先鋒?火星殖民者?OpenAI 唾棄者?馬斯克）的看法是類似的。
目前規(guī)模夠大的 LLM 模型，在訓(xùn)練基座模型的時候，都采用「Next Token Prediction，NTP」 (后文為了書寫簡潔，有時會簡稱為 NTP) 任務(wù)。Next Token Prediction 如此簡單的操作，就是通過語言中前面的單詞，來產(chǎn)生下一個單詞，很明顯這樣學(xué)到的不就是單詞之間的表層統(tǒng)計關(guān)系嗎？對于持正方觀點的人士來說，這個問題其實并不好反駁，因為乍一看上去確實如此，我相信絕大多數(shù)正方人士很難給出有理有據(jù)的另反方人士信服的解釋。
至于我本人，如果看過我年初寫的《張俊林：通向 AGI 之路：大型語言模型（LLM）技術(shù)精要》，很容易看出持正方立場。其實當時在那篇文章的最初版本里，有一節(jié)內(nèi)容，主題就是討論 NTP 為何會產(chǎn)生智能。按照 23 年 1 月份版本的我當時對 LLM 的理解，把 NTP 產(chǎn)生智能歸納為「通過 NTP 任務(wù)，LLM 在模型參數(shù)里學(xué)到了一個****的知識圖譜，當輸入 Prompt 的時候，Prompt 包含的概念啟動知識圖譜相關(guān)節(jié)點，然后在知識圖譜上按照 < 激活 - 擴散 > 理論引發(fā)知識間的激活擴散和信息傳遞，由此導(dǎo)致 LLM 產(chǎn)生了智能」。當時版本的我是這么理解這個問題的答案的，現(xiàn)在版本的我再去審視這個看法，雖然不能說是錯的，但是很明顯這種認知還是淺了些或粗略了些。當時，由于那篇文章已有內(nèi)容已經(jīng)太長，再加上支持上述看法的依據(jù)不太充足，所以我在發(fā)文的時候把那節(jié)內(nèi)容刪掉了。
本文專門探討這個主題，我試圖梳理歸納目前已有的一些片段性的證據(jù)，對上述問題給出一個相對有依據(jù)的回答。其實目前正方并沒有專門的研究來解釋這個問題，但是，如果把各種已知用于研究其它問題的研究結(jié)論片段聯(lián)系到一起來看，即我們可以把尋找這個問題的答案當作一個拼圖游戲，在已知研究的拼圖碎片基礎(chǔ)上，如再加一些合理的推論和假設(shè)，我認為正方大致是能給出一些起碼看似合理的解釋的。本文在結(jié)構(gòu)上首先會比較細致地介紹下 OpenAI 對這個問題的看法，這個對大多數(shù)人來說應(yīng)該是個很新穎的角度，之后會收集匯總現(xiàn)有的研究結(jié)論，之后會給出我認為還算合理的解釋。
天平的兩端：壓縮即智能
假設(shè)有一個想象中的天平，天平的左端用來稱量大語言模型的數(shù)據(jù)壓縮能力，天平的右端用來稱量大語言模型的智能水準。問題是：這個天平的稱量結(jié)果是可信的嗎？換句話說，如果大語言模型具備越強的數(shù)據(jù)壓縮能力，是否意味著它具備越強的 AGI 智能呢？
OpenAI 肯定是相信兩者間存在等價性的，目前看，這可能是推動 OpenAI 大模型發(fā)展方向的一個核心理念。OpenAI 首席科學(xué)家 Ilya Sutskever 在今年早期的一些公開訪談初步透漏了這個思路。而后續(xù) OpenAI 負責(zé)大模型團隊的 Jack Rae 在 Stanford MLSys 研討會上做了以「Compression for AGI」為主題的報告，則是從理論層面，概念性地論證了這一理念。
本部分主要參照 Jack Rae 報告內(nèi)容，轉(zhuǎn)述 OpenAI 堅信的 “壓縮即智能” 論證過程。我們先從一個數(shù)據(jù)壓縮傳輸?shù)募傧雽嶒炛v起。
利用 LLM 進行數(shù)據(jù)壓縮

我們假設(shè)小帥和小美分別住在地球和火星，現(xiàn)在小帥獲得一批機密數(shù)據(jù) ，需要以最小傳輸成本傳送給遠在火星的小美，小帥計劃通過 LLM 模型比如 GPT 來對數(shù)據(jù)進行壓縮，然后把壓縮后的數(shù)據(jù)傳給小美，以此來減少傳輸數(shù)據(jù)數(shù)量。同時，他希望信息壓縮是無損的，也就是說，小美要能夠根據(jù)拿到的壓縮數(shù)據(jù)，利用一定方法完整恢復(fù)原始數(shù)據(jù)，不能有任何差異。這個事情看似不太容易做到，怎么辦呢？
首先，小帥把 GPT 模型的代碼，包括代碼本身、初始化方法以及隨機種子等信息傳給小美，小美根據(jù)小帥傳過來的 GPT 模型的信息，利用同樣的代碼、初始化方法以及隨機種子，復(fù)制并初始化了一份自己的 GPT，以此來讓自己手上的 GPT 模型和小帥手上的模型，在初始狀態(tài)保持一致。
接下來，小帥以 Next Token Prediction 作為任務(wù)，以作為訓(xùn)練數(shù)據(jù)，啟動 GPT 模型的訓(xùn)練過程，訓(xùn)練過程本身其實就是數(shù)據(jù)壓縮過程。我們假設(shè)小帥已經(jīng)對數(shù)據(jù) 通過 GPT 進行了壓縮，對應(yīng)的壓縮數(shù)據(jù)為，并將這批壓縮數(shù)據(jù)陸續(xù)傳給了小美，現(xiàn)在準備傳送數(shù)據(jù) 。我們在這里按下 “慢放” 鍵，仔細觀察下 GPT 是如何對數(shù)據(jù) 進行壓縮編碼和解碼的。
編碼階段：我們的目的是利用 GPT 壓縮數(shù)據(jù)，小帥以  作為 GPT 的輸入，利用當前版本的 GPT 模型做一次 Next Token 預(yù)測。假設(shè) Token 詞典是，則 GPT 模型經(jīng)過 Next Token 預(yù)測，產(chǎn)生了詞典中每一個單詞的生成概率，中有些單詞生成概率大，有些生成概率小，所有單詞的生成概率之和為 1，于是形成的概率分布。若設(shè)原始數(shù)據(jù) ，此時，可以利用某種數(shù)據(jù)壓縮算法，比如算術(shù)編碼（Algorithm Coding, AC ），根據(jù)  和  ，將  壓縮成數(shù)據(jù) （至于算術(shù)編碼如何運作，稍后會說明），即，于是小帥可以把得到的壓縮編碼傳給小美。
另外，如果 GPT 根據(jù)上文  做 Next Token 預(yù)測得到概率最大的單詞不是標準答案  ，說明模型訓(xùn)練得還不夠好，于是小帥讓 GPT 執(zhí)行一次反向傳播，來修正 GPT 模型參數(shù)，希望以后 GPT 遇到類似上文能夠更準確地做出預(yù)測。經(jīng)過反向傳播，模型參數(shù)發(fā)生變化，GPT 模型從修正到了版本。
可以看出，上述過程，其實就是針對某個 Token 做的一次標準的 GPT 訓(xùn)練步驟，只不過我們平常訓(xùn)練 GPT 的時候，不會根據(jù) Next Token Prediction 得到的分布概率  以及算術(shù)編碼來獲得  的壓縮編碼  ，并記錄下來而已。如果你愿意，完全可以在訓(xùn)練過程中一步步產(chǎn)生每個對應(yīng)的  ，并把它們記錄下來，這樣就會獲得數(shù)據(jù)  的一份無損壓縮編碼版本。
解碼階段：接收到小帥傳來的壓縮編碼后，小美希望利用自己手上的 GPT 模型來恢復(fù)原始數(shù)據(jù)  。她也可以用算術(shù)編碼來逆向?qū)?nbsp; 進行解碼，但是，若想解碼  信息不足，除了外，還需知道  對應(yīng)的詞典  中單詞的概率分布  ，但是小帥并沒有把  傳過來，因為這個信息量太大，傳過來很不合算，如何是好？
小美可以用自己手上的 GPT 來產(chǎn)生缺失的詞典單詞概率分布  ，她把之前已經(jīng)解碼出的  作為模型的輸入，讓自己手上的  版本 GPT 模型做一次 Next Token 預(yù)測，于是 GPT 模型產(chǎn)生了單詞概率分布  ，這個與小帥的概率分布  是一樣的。得到  后，小美可以利用算術(shù)編碼對解碼，即，這樣就恢復(fù)出原始數(shù)據(jù)  。類似的，如果小美手上的 GPT 此次 Next Token 預(yù)測最大概率單詞不是  ，她也讓 GPT 執(zhí)行一次反向傳播，修正模型參數(shù)，將 GPT 模型從版本修正到  版本。只有這樣，小美才能保證自己手上的 GPT 模型和小帥在傳輸過程中始終保持一致。
可以看出，解碼過程，其實就是小美也同步進行 GPT 的一次訓(xùn)練步驟，并利用 Next Token Prediction 得到的詞典單詞概率分布  ，來幫助從壓縮數(shù)據(jù)  解碼到原始數(shù)據(jù)  。
如此這般，小帥和小美就通過兩人同步進行 GPT 在  上的模型訓(xùn)練過程，完成了對數(shù)據(jù)  的壓縮和解壓，只要不斷重復(fù)上述過程，小帥就能把  中所有數(shù)據(jù)無損地傳送給小美，實現(xiàn)了通過 LLM 對數(shù)據(jù)的無損壓縮和解壓。所以我們可以說，GPT 模型的訓(xùn)練過程，其實就是對訓(xùn)練數(shù)據(jù)的無損壓縮過程，只不過我們平常訓(xùn)練的時候跳過了這個步驟而已。
算術(shù)編碼機制

上文未講解算術(shù)編碼的運行機制，此處以簡單例子做簡要說明。如上圖所示，假設(shè)單詞詞典  包含 4 個單詞，我們要壓縮編碼的原始數(shù)據(jù)  ，此時 GPT 運行 Next Token Prediction 后，詞典中單詞對應(yīng)的概率分布  在上圖圖左列出，也就是說，此刻的 GPT 預(yù)測的 Next Token，生成概率最大的單詞是「too」，而不是 Ground Truth 「MaskNet」。
此時，已知  和它對應(yīng)的  ，我們使用算術(shù)編碼來對數(shù)據(jù)進行壓縮。首先，我們可以根據(jù)詞典中各個單詞的生成概率，把 0 到 1 的區(qū)間按照每個單詞的概率分值進行切割，單詞生成概率數(shù)值越大，占據(jù)區(qū)間越長。于是，就可以得到每個單詞覆蓋區(qū)間的下界和上界，比如對于要編碼的單詞「MaskNet」，它的下界是 0.4，因為自身生成概率為 0.2，所以上界是 0.6。為了使得二進制編碼后的長度盡可能短，算術(shù)編碼在「MaskNet」“” 單詞覆蓋的 0.4 到 0.6 區(qū)間尋找對應(yīng)二進制最短的十進制小數(shù)，很明顯在這個區(qū)間里，十進制數(shù)字 0.5 是二進制最短的數(shù)字，于是選擇 0.5 作為編碼數(shù)字，進行數(shù)制轉(zhuǎn)換后得到二進制 0.1，這個數(shù)字就是單詞 “MaskNet” 對應(yīng)的二進制算術(shù)編碼，小帥只需要把小數(shù)點后的二進制數(shù)字 1 發(fā)送給小美即可。
接著，介紹小美接收到二進制數(shù)字 1 之后的解碼過程。如上文所述，小美利用自己的 GPT，也會得到一個相同的單詞分布概率  ，按照算術(shù)編碼原則，用這個分布概率切割 0 到 1 的數(shù)值區(qū)間，會得到和小帥一樣的一個切割圖。小美將二進制 0.1 進行進制轉(zhuǎn)換，得到十進制數(shù)字 0.5，然后查看 0.5 落在切割圖哪個單詞的上下界范圍內(nèi)，會定位到單詞 “MaskNet”，于是解碼出 0.1 代表的對應(yīng)單詞  。
算術(shù)編碼的思想是很精妙的，它對輸入序列動態(tài)編碼，能夠以小數(shù)來對整個輸入進行二進制編碼，編碼效率接近于香農(nóng)提出的熵極限。不過，在我們描述的場景下，因為每個對應(yīng)的在 GPT 訓(xùn)練過程中總是發(fā)生變化，所以某個分布  只需要壓縮或者解碼一個 Token，其思路看起來就很簡單，當面向較長的輸入序列進行算術(shù)編碼，其方法可以參考：什么是算術(shù)編碼。