博客專欄

EEPW首頁(yè) > 博客 > 斯坦福大學(xué)團(tuán)隊(duì)提出AI生成文本檢測(cè)器DetectGPT,通過(guò)文本對(duì)數(shù)概率的曲率進(jìn)行可解釋判斷

斯坦福大學(xué)團(tuán)隊(duì)提出AI生成文本檢測(cè)器DetectGPT,通過(guò)文本對(duì)數(shù)概率的曲率進(jìn)行可解釋判斷

發(fā)布人:大數(shù)據(jù)文摘 時(shí)間:2023-02-18 來(lái)源:工程師 發(fā)布文章
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自將門創(chuàng)投作者:seven_
隨著以ChatGPT等大型語(yǔ)言模型(large language models,LLMs)的爆火,學(xué)界和工業(yè)界目前已經(jīng)開(kāi)始重視這些模型的安全性,由于ChatGPT強(qiáng)大的知識(shí)存儲(chǔ)和推理能力,其目前可以針對(duì)各種各樣的用戶輸入來(lái)產(chǎn)生非常流暢和完整的回答,甚至在一些專業(yè)領(lǐng)域以及公共討論話題中,它也可以從容應(yīng)對(duì)。例如,一些學(xué)生可能會(huì)使用LLMs來(lái)幫助他們完成書(shū)面作業(yè),使老師無(wú)法準(zhǔn)確的判斷學(xué)生的學(xué)習(xí)效果,這也的的確確是LLMs帶來(lái)的負(fù)面影響。
圖片

論文鏈接: 

https://arxiv.org/abs/2301.11305

項(xiàng)目主頁(yè): https://ericmitchell.ai/detectgpt/
近日,來(lái)自斯坦福大學(xué)的研究團(tuán)隊(duì)發(fā)布了一個(gè)名為DetectGPT的檢測(cè)模型來(lái)判斷一個(gè)文本段落是否是由機(jī)器生成的。作者首先觀察了LLMs的運(yùn)行機(jī)制,他們發(fā)現(xiàn)LLM生成的文本往往占據(jù)模型的對(duì)數(shù)概率函數(shù)的負(fù)曲率區(qū)域。根據(jù)這一現(xiàn)象,作者提出想法,能夠基于概率函數(shù)的曲率標(biāo)準(zhǔn)來(lái)對(duì)文本進(jìn)行判定呢?
實(shí)驗(yàn)結(jié)果表明,這種想法完全可行,DetectGPT不需要專門訓(xùn)練一個(gè)單獨(dú)的分類器,也不需要額外收集真實(shí)場(chǎng)景中或者機(jī)器生成的文本段落數(shù)據(jù),它只需要對(duì)當(dāng)前模型計(jì)算其對(duì)數(shù)概率并與另外一個(gè)通用的預(yù)訓(xùn)練語(yǔ)言模型(例如T5)的段落隨機(jī)擾動(dòng)進(jìn)行比較,即可得出結(jié)論。作者發(fā)現(xiàn)DetectGPT比現(xiàn)有的zero-shot文本檢測(cè)方法更具有鑒別能力。

引言


如果我們仔細(xì)推敲ChatGPT等LLMs生成出的文本回答,會(huì)發(fā)現(xiàn)它們的答案仍然有明顯的機(jī)器翻譯痕跡。但是這種生成技術(shù)確實(shí)在一些領(lǐng)域能夠以假亂真,甚至取代人工勞動(dòng),特別是在學(xué)生的論文寫作和記者的新聞寫作中,這都會(huì)帶來(lái)很大的風(fēng)險(xiǎn),例如影響學(xué)生的學(xué)習(xí)積極性,也有可能會(huì)因?yàn)樘摷傩侣剬?dǎo)致公眾獲得錯(cuò)誤的信息。但是幸運(yùn)的是,目前機(jī)器模型生成的文本與人類編寫出的文字相比仍然有不小的差距,這使得我們及時(shí)開(kāi)發(fā)文本檢測(cè)方法和工具成為可能。

之前已經(jīng)有很多工作將機(jī)器生成的文本檢測(cè)任務(wù)看做是一個(gè)二分類問(wèn)題[1],具體來(lái)說(shuō),這些方法的目標(biāo)是對(duì)一個(gè)候選文本段落的來(lái)源進(jìn)行分類,其中這些文本來(lái)源是預(yù)定義的類別。但是這種方法有幾個(gè)明顯的缺點(diǎn),例如它們會(huì)非常傾向于參與訓(xùn)練的那些文本來(lái)源,并且不具備增量學(xué)習(xí)功能,如果想要使模型能夠識(shí)別未知來(lái)源的文本,就需要對(duì)模型整體重新訓(xùn)練。因此考慮開(kāi)發(fā)具有zero-shot功能的模型才更符合現(xiàn)實(shí)場(chǎng)景,即根據(jù)文本源模型本身來(lái)進(jìn)行開(kāi)發(fā),不進(jìn)行任何形式的微調(diào)或適應(yīng),來(lái)檢測(cè)它自己生成的樣本。
zero-shot文本檢測(cè)任務(wù)最常見(jiàn)的方法就是對(duì)生成文本的平均token對(duì)數(shù)概率進(jìn)行評(píng)估,并設(shè)置閾值進(jìn)行判斷。本文作者針對(duì)此提出了一個(gè)簡(jiǎn)單的假設(shè):機(jī)器對(duì)自己生成的文本進(jìn)行改動(dòng)時(shí)往往會(huì)比原始樣本的對(duì)數(shù)概率低,而人類對(duì)自己所寫文本的改動(dòng)會(huì)遠(yuǎn)超過(guò)原本文本的對(duì)數(shù)概率。換句話說(shuō),與人類寫的文本不同,模型生成的文本往往位于對(duì)數(shù)概率函數(shù)具有負(fù)曲率的區(qū)域(例如,對(duì)數(shù)概率的局部最大值),如下圖所示。
圖片
作者基于這一假設(shè)設(shè)計(jì)了DetectGPT,為了測(cè)試一個(gè)段落是否來(lái)自一個(gè)源模型 θ,DetectGPT將與 θ 相關(guān)候選段落的對(duì)數(shù)概率與對(duì) θ 進(jìn)行隨機(jī)擾動(dòng)生成的段落的平均對(duì)數(shù)概率(例如用T5參與擾動(dòng))進(jìn)行比較。如果被擾動(dòng)的段落的平均對(duì)數(shù)概率比原始段落低一些,那么候選段落很可能來(lái)自于 θ, 這一過(guò)程的具體運(yùn)行如下圖所示。
圖片

本文方法


對(duì)于機(jī)器生成的zero-shot文本檢測(cè)任務(wù)設(shè)置,即檢測(cè)一段文本或候選段落  是否是源模型 θ 的樣本,在模型訓(xùn)練時(shí)無(wú)需加入外部數(shù)據(jù),其呈現(xiàn)“白盒設(shè)置”的特點(diǎn),模型中的檢測(cè)器可以評(píng)估當(dāng)前樣本對(duì) θ 的對(duì)數(shù)概率情況。此外“白盒設(shè)置”也不限制對(duì)模型架構(gòu)和參數(shù)規(guī)模的選擇,因此作者在對(duì)DetectGPT的性能評(píng)估中也選用了目前通用的預(yù)訓(xùn)練Masked模型,用來(lái)生成與當(dāng)前段落比較接近的候選文本,但是這些段落的生成不會(huì)經(jīng)過(guò)任何形式的微調(diào)和域適應(yīng)。
2.1 模型擾動(dòng)假設(shè)
上文提到,DetectGPT基于這樣一個(gè)假設(shè):來(lái)自源模型 θ 的樣本通常位于 θ 的對(duì)數(shù)概率函數(shù)的負(fù)曲率區(qū)域。如果我們對(duì)一段話 θ 施加一個(gè)小的擾動(dòng),產(chǎn)生 那么與人類編寫的文本相比,機(jī)器生成的樣本的對(duì)數(shù)值 θθ 應(yīng)該是比較大的。基于這一假設(shè),作者首先考慮了一個(gè)擾動(dòng)函數(shù) 它會(huì)先在  上給出一個(gè)分布,代表意義相近的略微修改過(guò)的  的版本。使用擾動(dòng)函數(shù)的概念,我們可以q輕松的定義出擾動(dòng)差異指標(biāo) θ:
圖片
對(duì)上述假設(shè)更為正式的定義如下:如果  在數(shù)據(jù)流形分布上產(chǎn)生樣本,對(duì)于樣本 θ 來(lái)說(shuō) θ 大概率為正,而對(duì)于人類編寫文本,θ 對(duì)所有  都趨向于0。

如果此時(shí)將擾動(dòng)函數(shù)  定義為來(lái)自T5等預(yù)訓(xùn)練模型生成的擾動(dòng)樣本,而不是人類改寫的樣本,就可以以一種自動(dòng)的、可擴(kuò)展的方式對(duì)上述假設(shè)進(jìn)行經(jīng)驗(yàn)性測(cè)試。對(duì)于機(jī)器生成樣本,這里作者使用了四個(gè)不同的LLM進(jìn)行輸出,例如使用T5-3B模型來(lái)產(chǎn)生擾動(dòng),對(duì)于給定樣本,按照2個(gè)字的跨度進(jìn)行隨機(jī)擾動(dòng),直到文本中15%的字被覆蓋。隨后使用經(jīng)過(guò)T5處理的100個(gè)樣本按照假設(shè)進(jìn)行近似計(jì)算,發(fā)現(xiàn)擾動(dòng)差異的分布對(duì)于人類編寫文本和機(jī)器生成樣本是明顯不同的,機(jī)器樣本往往有較大的擾動(dòng)差異。
圖片上圖展示了來(lái)自GPT-2、GPT-Neo-2.7B、GPT-J和GPT-NeoX 四個(gè)模型與人類樣本擾動(dòng)后的分布對(duì)比,其中藍(lán)色區(qū)域?yàn)槿祟惥帉懳谋镜姆植?,橙色為機(jī)器生成文本的分布。
2.2 將擾動(dòng)差異解釋為曲率
通過(guò)上圖,只能看出擾動(dòng)差異在鑒別文本是否來(lái)自人類還是機(jī)器方面是有效的,但是其衡量的理論指標(biāo)還不夠清晰。因而作者進(jìn)一步為擾動(dòng)差異尋找到了理論依據(jù),作者表明擾動(dòng)差異近似于候選段落附近對(duì)數(shù)概率函數(shù)的局部曲率的度量,更具體地說(shuō),它與對(duì)數(shù)概率函數(shù)的Hessian 矩陣的負(fù)跡成正比。為了處理離散數(shù)據(jù)的不可微性,作者在這里僅考慮了在潛在語(yǔ)義空間中的候選段落,其中的小擾動(dòng)對(duì)應(yīng)于保留與原始相似含義的文本編輯過(guò)程。因?yàn)楸疚倪x用的擾動(dòng)函數(shù) (T5) 是經(jīng)過(guò)大量自然文本語(yǔ)料預(yù)訓(xùn)練的,所以這里的擾動(dòng)可以被粗略地認(rèn)為是對(duì)原始段落的有效修改,而不是隨意編輯。
作者首先利用Hutchinson提出的跡估計(jì)器[3]給出矩陣  跡的無(wú)偏估計(jì):
圖片
隨后使用有限差分來(lái)近似這個(gè)表達(dá)式:
圖片聯(lián)立上述兩式子并使用  進(jìn)行簡(jiǎn)化,就可以得到負(fù)Hessian矩陣的跡估計(jì):
圖片
作者觀察到上式其實(shí)對(duì)應(yīng)于擾動(dòng)差異圖片,其中擾動(dòng)函數(shù)  可以使用 Hutchinson跡估計(jì)器中使用的分布  代替。這里, 是一個(gè)高維的token序列,而  是一個(gè)嵌入語(yǔ)義空間中的向量。由于擾動(dòng)文本模型生成的句子與  相似,語(yǔ)義變化較小,因此可以將擾動(dòng)文本模型視為與當(dāng)前采樣相似的語(yǔ)義嵌入  ~ ,然后將其映射到token序列中  。這樣做,可以保證語(yǔ)義空間中的采樣都保持在數(shù)據(jù)流形附近,當(dāng)隨機(jī)擾動(dòng)發(fā)生后,對(duì)數(shù)概率就會(huì)產(chǎn)生明顯下降,這樣就可以將擾動(dòng)差異解釋為近似限制在數(shù)據(jù)流形上的曲率。

實(shí)驗(yàn)效果

本文的實(shí)驗(yàn)部分作者使用了六個(gè)數(shù)據(jù)集,涵蓋了各種日常領(lǐng)域,例如使用XSum數(shù)據(jù)集中的新聞文章來(lái)進(jìn)行假新聞檢測(cè)實(shí)驗(yàn),使用SQuAD上下文中的維基百科段落來(lái)表示機(jī)器編寫的學(xué)術(shù)論文,以及使用Reddit WritingPrompts數(shù)據(jù)集來(lái)表示機(jī)器生成的創(chuàng)意寫作。此外,為了評(píng)估分布變化的穩(wěn)健性,作者還使用了WMT16的英語(yǔ)和德語(yǔ)部分以及人類專家在PubMedQA數(shù)據(jù)集中編寫的標(biāo)準(zhǔn)答案。
作者首先對(duì)DetectGPT的zero-shot文本檢測(cè)能力進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果如下表所示,可以看出,DetectGPT在所有15種數(shù)據(jù)集和模型組合中的14種實(shí)驗(yàn)組合上都得到了最準(zhǔn)確的檢測(cè)性能。尤其是DetectGPT最大程度地提高了XSum數(shù)據(jù)集的平均檢測(cè)精度(0.1 AUROC 改進(jìn)),在SQuAD維基百科上下文數(shù)據(jù)集上也有明顯的性能提升(0.05 AUROC 改進(jìn))。
圖片
此外,作者還選取了一部分監(jiān)督學(xué)習(xí)訓(xùn)練的檢測(cè)器進(jìn)行對(duì)比。作者著重探索了幾個(gè)領(lǐng)域,或者說(shuō)幾種語(yǔ)境,對(duì)比結(jié)果如下圖所示。例如在英語(yǔ)新聞數(shù)據(jù)上,監(jiān)督檢測(cè)器可以達(dá)到與 DetectGPT 接近的檢測(cè)性能,但在英語(yǔ)科學(xué)寫作數(shù)據(jù)下,其性能明顯低于本文方法。而在德語(yǔ)寫作中監(jiān)督學(xué)習(xí)方法會(huì)完全失敗。相比之下,以DetectGPT為代表的零樣本方法更容易泛化到新的語(yǔ)言和領(lǐng)域中。
圖片


總結(jié)


隨著LLMs的不斷發(fā)展和改進(jìn),我們應(yīng)該一方面對(duì)它們?cè)谠絹?lái)越多的領(lǐng)域中減輕人類工作者的創(chuàng)作壓力感到高興,另一方面也更應(yīng)該同步發(fā)展針對(duì)它們的安全檢測(cè)技術(shù),這對(duì)于這一領(lǐng)域未來(lái)的健康發(fā)展至關(guān)重要。本文從這些大模型本身的運(yùn)行機(jī)制出發(fā)設(shè)計(jì)了DetectGPT方法,DetectGPT通過(guò)一個(gè)簡(jiǎn)單的數(shù)據(jù)分布特點(diǎn)即可判斷出文本的來(lái)源,此外作者還對(duì)本文方法進(jìn)行了詳盡的理論推導(dǎo),這使得DetectGPT具有更高的可信度和可解釋性。
此外DetectGPT的zero-shot特性使它相比那些使用數(shù)百萬(wàn)數(shù)據(jù)樣本定制訓(xùn)練的檢測(cè)模型更具有競(jìng)爭(zhēng)力。此外作者在文章的最后還談到了DetectGPT的未來(lái)計(jì)劃,他們會(huì)進(jìn)一步探索對(duì)數(shù)概率曲率屬性是否在其他領(lǐng)域(音頻、視頻或圖像)的生成模型中也能起到很好的檢測(cè)作用,這一方向也具有非常重要的現(xiàn)實(shí)意義,讓我們一起期待吧。
參考文獻(xiàn)

[1] Jawahar, G., Abdul-Mageed, M., and Lakshmanan, L. V. S. Automatic detection of machine generated text: A critical survey. In International Conference on Computational Linguistics, 2020.

[2] Narayan, S., Cohen, S. B., and Lapata, M. Don’t give me the details, just the summary! Topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018.

[3] Hutchinson, M. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines. Communications in Statistics - Simulation and Computation, 19(2):433–450, 1990. doi: 10.1080/ 03610919008812866. URL https://doi.org/10. 1080/03610919008812866.


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉