有時抄個1000詞,有時自己發(fā)揮,新研究揭示GPT到底是怎么寫作文的
GPT-2 這樣的大規(guī)模語言模型也能學會「句法」、生成新詞,然而事情真要這么簡單就好了。
深度學習到底能學多深?在過去的一段時間,我們大多會用生成文本的質量來評價 GPT 等語言生成模型的表現(xiàn)。但與此同時,我們忽略了一個問題:那些用生成模型做的「狗屁不通文章生成器」、「滿分作文生成器」到底是鸚鵡學舌(簡單地記住看過的例子,并以淺顯的方式重新組合),還是真的學到了復雜的語言結構?
在最近的一篇文章中,來自約翰霍普金斯大學、微軟研究院等機構的研究者就提出了這樣一個問題。
神經網絡語言模型可以生成合乎語法的連貫文本,但文本本身并不能告訴我們它是由模型構建的還是從訓練集中抄的。論文作者認為,理清這一問題非常關鍵,因為除了已經成為標準的質量評估外,文本生成模型的新穎性評估也很重要。
為什么新穎性如此重要?首先,從語言學的角度來看,能夠以新穎的方式將熟悉的部分組合起來是衡量語言掌握能力的一個關鍵要素。其次,從機器學習的角度來看,模型本來就應該學到訓練分布,而不僅僅是把訓練集記下來。最后,從更加實用的角度來看,那些只會復制訓練數(shù)據(jù)的模型可能會泄露敏感信息,或重復仇恨言論。
在這篇論文中,為了評估生成文本的新穎性,研究者提出了一套名為「RAVEN(RAting VErbal Novelty)」的分析系統(tǒng)。分析指標包括序列結構(n-grams)和句法結構。「RAVEN」的名字來源于愛倫 · 坡的詩《烏鴉》,在這首詩中,敘述者遇到了一只神秘的烏鴉,它不斷地叫著「永不復還(Nevermore)!」敘述者不知道烏鴉只是在重復人說的話,還是在構建自己的話語。
他們將這套系統(tǒng)應用于 LSTM、Transformer、Transformer-XL 以及四種尺寸的 GPT-2 生成的文本。因為有很多方法可以從語言模型中生成文本,所以他們測試了 12 種生成方法和 4 種 prompt 長度。作為基線,他們還分析了來自每個模型測試集的人工生成文本。
在實驗中,研究者發(fā)現(xiàn),上述模型在結構分析的每個方面都表現(xiàn)出了新穎性:它們生成了新的 n-grams、形態(tài)組合和句法結構。例如,GPT-2 生成了幾種類型的新詞,包括屈折變化(如 Swissified)、派生(IKEA-ness)等;在 Transformer-XL 生成的句子中,74% 的句子具有訓練句子所沒有的句法結構。因此,神經語言模型并不是簡單地記住訓練數(shù)據(jù),而是使用某種流程,以一種新穎的方式將熟悉的部分組合起來。
其中,在考慮小 n-grams 時,這些模型生成的文本并沒有 baseline 那么新穎。例如,對于每一個模型,人類生成的基線文本的新穎 bigram 數(shù)是模型的 1.4 到 3.3 倍。對于大于 5-gram 的 n-grams,模型的新穎性要高于基線,但它們偶爾也會大量復制:GPT-2 有時會復制超過 1000 詞的訓練文本。
論文鏈接:https://arxiv.org/pdf/2111.09509.pdf
目前,該論文的代碼還沒有公布,但作者表示,如果能得到其中幾位作者的雇主的批準,他們將盡快公布代碼。
方法概覽
如上所述,研究者通過 n-grams 和句法結構來評估生成文本的新穎度。如果生成文本出現(xiàn)在訓練集或上下文(「prompt」和「語言模型已經基于 prompt 生成的文本」之間的連結)中,該文本會被判定為復制文本,否則為新穎文本。
復制未必都是不好的。例如,一些很長的 n-grams 可能是從訓練集中復制的,如書名。為了分辨這種情況,研究者將模型生成的文本與來自測試集的人工生成文本進行了比較,這樣他們就能知道模型訓練域中大約存在多少需要復制的文本。如果模型的新穎程度至少達到了基線的水平,研究者就判定它沒有過度復制。
實驗一:基于序列結構(n-grams)的新穎性分析
為了進行架構之間的受控比較,該研究使用了在同一個數(shù)據(jù)集上訓練的三個模型,即 Wikitext-103(Merity et al.,2017)。Wikitext-103 是在詞的級別進行分詞的高質量維基百科文章集合,它的訓練集包含 1.03 億個詞。研究者在該訓練集上比較了 LSTM(Hochreiter and Schmidhuber,1997)、Transformer(Vaswani et al.,2017)和 Transformer-XL(TXL;Dai et al.,2019)架構。采用這三種模型是因為它們給出了語言建模中兩種主要的處理類型:循環(huán)(在 LSTM 中使用)和自注意力(在 Transformer 中使用),TXL 同時用到了這兩種機制。
除了這些系統(tǒng)分析之外,該研究還分析了更大規(guī)模的 Transformer LM——GPT-2(Radford et al.,2019),選用 GPT-2 是因為在能找到訓練集的眾多模型中,它的訓練集是最大的。與實驗中的其他模型不同,GPT-2 在 WebText 語料庫上進行訓練,該語料庫由鏈接到 Reddit 上的網頁構建而成。
GPT-2 的分詞方案也不同于實驗中的其他模型:其他模型均使用詞級分詞(其中每個 token 都是一個完整的詞),而 GPT-2 使用子詞(subword)分詞方案(Sennrich et al.,2016)。WebText 訓練語料庫包含 77 億個詞,比 Wikitext-103 大得多。
該研究首先在 n-gram 層面研究各種模型的新穎性,其中 n-gram 是 n 個詞的序列。
在 n 取不同的值時,模型生成文本的新穎性有何不同
該研究發(fā)現(xiàn):對于較小的 n 值,LM 生成的 n-gram 很少是新穎的;而對于較大的 n 值 (n > 6),生成的 n-gram 幾乎總是新穎的。
當 n 取值較大時,模型會復制文本嗎?
該研究發(fā)現(xiàn):所有的模型偶爾都會復制 100 詞或更長的訓練集段落。
具體來說,模型很少復制大于 10 個 token 的 n-gram。但是,偶爾會出現(xiàn)模型復制極長序列的情況。例如,在幾種情況下,GPT-2 生成的文本中某個段落(超過 1000 個詞)是完全復制訓練集的。該研究使用「supercopying」指代這些極端復制情況(supercopying 指大小為 100 或更大的 n-gram 重復。
下圖給出了幾種模型「supercopying」訓練集 100-grams 的次數(shù)統(tǒng)計數(shù)據(jù)。
新穎性與解碼方案及生成文本的質量有何關系?
研究者發(fā)現(xiàn),改變解碼參數(shù)可以在很大程度上改變模型的新穎性。新穎性可以通過提高 top-p 采樣中的 p、top-k 采樣中的 k 或溫度來提升。然而,所有提高生成文本新穎性的變動均會降低質量。
圖 2:對解碼方案的控制可以生成高質量的文本(例如,更低的困惑度;x 軸),但也會降低新穎性(例如,更大程度的重復; y 軸)。每個點顯示不同的解碼方案。
附錄中提供了其他分析。研究者發(fā)現(xiàn),模型大小 (附錄 H) 和 prompt 長度 (附錄 I) 對新穎性沒有明顯的影響;對于某些模型,新穎性受到生成文本中的位置的影響,但影響很小(附錄 J) ;如果只考慮從訓練集中復制,而不考慮從上下文和 / 或訓練集中復制,那么新穎性結果不會有太大變化(附錄 K)。
實驗二:基于句法結構的新穎性分析
在全局句子結構層面,模型表現(xiàn)出了高度的句法新穎性,大多數(shù)生成的句子具備訓練數(shù)據(jù)中的句子所沒有的整體句法結構。對于局部結構,模型也展示出了一定程度的新穎性,但要比基線低得多。
圖 3: 句法新穎性??s寫分別表示: seq = sequence; dep = dependency; struct = structure
GPT-2 生成能力的手動分析
最后,研究者對新生成的文本進行了人工分析。這種分析是勞動密集型的,基于提升效率的考慮,這里主要關注了 GPT-2,因為它是性能最強的模型。在初步分析階段,研究者只分析了 GPT-2 產生的新詞語,GPT-2 使用了子詞級分詞,所以它可以用新的方式組合可見的子詞來產生新詞語。附錄 O 和 P 中展示了 GPT-2 生成新詞的詳細分類。
GPT-2 生成新詞的詞法結構是否完備?
GPT-2 生成的新詞絕大多數(shù) (96%) 是詞法完備的,然而這低于基線(99%)。
GPT-2 生成的新詞是否符合上下文句法?
GPT-2 生成的新詞絕大多數(shù) (94%) 是在語法正確的上下文中使用的 ,但它確實比基線中的錯誤多。
GPT-2 生成的新詞是否意義合理?
GPT-2 在這一領域的表現(xiàn)不如在詞法和語法上的表現(xiàn),這與語言模型只學習「形式」而不學習「意義」的說法 (Bender and Koller, 2020) 相符。
圖 6:新詞與其上下文的語義匹配程度。
通過使用 RAVEN 分析系統(tǒng),研究者發(fā)現(xiàn)模型產生了許多種類的新穎性:各種大小的新穎 n-gram、新穎的句法結構和新穎的詞法組合。模型屬于「創(chuàng)作,但沒有完全創(chuàng)作」的狀態(tài),結果也顯示出許多復制的跡象:對于局部結構,模型表現(xiàn)大大低于基線; 此外也偶爾出現(xiàn)大規(guī)模的復制,例如復制超過 1000 詞的訓練集段落。
除了文本生成之外,研究者表示,希望這項工作能夠讓人們更加謹慎地考慮在 NLP 的訓練集與測試集之間現(xiàn)存的分歧。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。