博客專欄

EEPW首頁 > 博客 > 研究人員用“成員推斷攻擊”檢索大模型知識庫,攻擊精度達(dá)到80%

研究人員用“成員推斷攻擊”檢索大模型知識庫,攻擊精度達(dá)到80%

發(fā)布人:深科技 時(shí)間:2024-09-25 來源:工程師 發(fā)布文章

圖片


圖片


知識檢索增強(qiáng)系統(tǒng),是已被用于大模型的技術(shù)之一,能有效解決大模型存在的知識更新不及時(shí)和幻覺等問題。


知識檢索增強(qiáng)的存在使得大模型無需通過模型訓(xùn)練來適應(yīng)下游任務(wù),而是能夠通過一個(gè)外掛的知識庫,檢索與用戶所提的問題最相關(guān)的文本,并將這些文本集成為大模型的輸入,從而優(yōu)化模型生成的內(nèi)容。


想象一下,知識檢索增強(qiáng)就像是給 AI 裝上了一個(gè)超級圖書館。當(dāng)我們向 AI 提問時(shí),它不需要把所有知識都記在“大腦”里,而是在這個(gè)“圖書館”中快速查找最相關(guān)的信息,然后基于這些信息給出回答。


然而,知識檢索增強(qiáng)雖然實(shí)用并且使用門檻較低,但也同樣帶來了風(fēng)險(xiǎn)。


已有研究表明,只需向知識檢索增強(qiáng)的知識庫中注入一些有害信息,就能誘導(dǎo)大模型產(chǎn)生不當(dāng)?shù)幕卮稹?梢娭R檢索增強(qiáng)系統(tǒng)本身并不安全。


更令人擔(dān)憂的是:知識檢索增強(qiáng)系統(tǒng)的知識庫本身安全嗎?知識庫中的信息通常是私有的,會(huì)不會(huì)存在被泄露的風(fēng)險(xiǎn)?


想象一下,在醫(yī)療領(lǐng)域,知識檢索增強(qiáng)系統(tǒng)的知識庫里可能包含大量的醫(yī)療問答數(shù)據(jù)。一旦這些信息被泄露,病人的隱私就會(huì)受到嚴(yán)重威脅。


因此,知識檢索增強(qiáng)的數(shù)據(jù)安全尤為重要,但在此前只有來自于 IBM 研究實(shí)驗(yàn)室和南洋理工大學(xué)的研究人員關(guān)注這個(gè)問題。


為了驗(yàn)證這些問題,近期有研究人員設(shè)計(jì)了一種新的算法,旨在通過成員推斷攻擊(MIA,Membership Inference Attack)來判斷知識檢索增強(qiáng)系統(tǒng)的知識庫中所存儲(chǔ)的信息。


成員推斷攻擊,是用來測試模型隱私性的一種通用技術(shù)。它的工作原理可以理解為是在玩一個(gè)猜謎游戲:通過觀察模型的損失值、置信度、困惑度等信息,來推測它是否“見過”某個(gè)樣本。


但是,傳統(tǒng)的成員推斷攻擊主要針對那些參數(shù)化的 AI 模型,并不適用于知識檢索增強(qiáng)這樣非參數(shù)化系統(tǒng)。


而該團(tuán)隊(duì)提出的新算法僅通過一個(gè)黑盒的應(yīng)用程序編程接口(API,Application Programming Interface),無需介入模型訓(xùn)練過程,也無需知道模型內(nèi)部信息。僅通過模型輸出就能有效判斷某個(gè)信息是否存在于知識檢索增強(qiáng)的知識庫中。


具體來說,課題組將用戶的輸入文本劃分為兩部分。前半部分作為 prompt,使得知識檢索增強(qiáng)系統(tǒng)能檢索與 prompt 最相關(guān)的信息并生成輸出文本。


假如輸入文本存在于知識庫中,模型生成的內(nèi)容會(huì)與輸入文本非常相似,且生成文本的困惑度更低。


因此,他們通過輸入文本和輸出文本的相似度以及模型生成的困惑度作為評判標(biāo)準(zhǔn),來判斷輸入文本是否存在于知識庫中。


實(shí)驗(yàn)結(jié)果顯示,本次方法能夠達(dá)到 80% 以上的攻擊精度,證明知識檢索增強(qiáng)系統(tǒng)的知識庫的確存在隱私泄露的風(fēng)險(xiǎn)。


圖片

圖 | 相關(guān)論文(來源:arXiv


日前,相關(guān)論文以《眼見為信:針對檢索增強(qiáng)生成模型的“黑盒”會(huì)員推斷攻擊》(SEEING IS BELIEVING: BLACK-BOX MEMBERSHIP INFERENCE ATTACKS AGAINST RETRIEVAL AUGMENTED GENERATION)為題發(fā)在 arXiv[1]。


湖北大學(xué)人工智能學(xué)院楊洋副教授與國家級人才計(jì)劃專家程力教授課題組碩士生李鈺穎是論文第一作者,本論文在劉高揚(yáng)博士和楊洋副教授的指導(dǎo)下完成。


圖片

圖 | 李鈺穎(來源:李鈺穎)


在應(yīng)用前景上:


其一,本次研究證明知識檢索增強(qiáng)系統(tǒng)知識庫存在隱私泄露的風(fēng)險(xiǎn),這有望推動(dòng)科技公司重新審視他們的知識檢索增強(qiáng)系統(tǒng),以便更加地重視用戶隱私。


因此,這可能會(huì)催生出一系列新的安全協(xié)議和行業(yè)標(biāo)準(zhǔn),讓 AI 變得更加可信。


其二,本次研究有望提供一種數(shù)據(jù)確權(quán)的新方法。在數(shù)字時(shí)代,數(shù)據(jù)就是新的石油。但是,如何證明數(shù)據(jù)的所屬權(quán)?


現(xiàn)有研究只能對模型的預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行確權(quán),但本次成果有望對知識檢索增強(qiáng)知識庫中的數(shù)據(jù)進(jìn)行確權(quán)。


在未來,這可能會(huì)成為數(shù)據(jù)版權(quán)保護(hù)的新方法,讓數(shù)據(jù)所有者能更好地維護(hù)自己的權(quán)益。


其三,隨著《數(shù)據(jù)安全法》的實(shí)施和相關(guān)法律法規(guī)的出臺,本次成果可能成為一個(gè)重要的取證手段,在數(shù)字世界的法律糾紛中發(fā)揮關(guān)鍵作用。


例如,在未來的知識產(chǎn)權(quán)糾紛中,本次成果可能會(huì)被用來證明某個(gè)模型是否使用了受保護(hù)的數(shù)據(jù)。


其四,隨著人們對隱私保護(hù)的意識日益增強(qiáng),本次成果可能會(huì)衍生出一些個(gè)人使用的數(shù)據(jù)管理工具。


想象一下,未來人們可以用一個(gè) APP 來檢測個(gè)人信息是否被不當(dāng)用于 AI 系統(tǒng),以增強(qiáng)個(gè)人對隱私數(shù)據(jù)的控制力。


其五,本次成果也可能被用來對 AI 系統(tǒng)進(jìn)行“健康檢查”。公司和機(jī)構(gòu)可以定期使用這種技術(shù)對知識檢索增強(qiáng)系統(tǒng)進(jìn)行審核,確保沒有意外泄露用戶信息或存儲(chǔ)不當(dāng)數(shù)據(jù)。


圖片

(來源:arXiv


目前,課題組已經(jīng)設(shè)計(jì)出一套攻擊方案,并證明了該方案的可行性。但是,這一系列研究不會(huì)止步于此。


目前的工作已經(jīng)揭示了基于大模型及其各種應(yīng)用系統(tǒng)存在的數(shù)據(jù)安全隱患,但關(guān)于這些隱患的成因,目前尚無公認(rèn)的結(jié)果。


眼下該團(tuán)隊(duì)正在加緊研究大模型內(nèi)部的機(jī)制,尤其是在模型的記憶和正向推理過程中,重點(diǎn)分析信息流動(dòng)和處理的關(guān)鍵環(huán)節(jié),深入研究可能導(dǎo)致隱私泄露的薄弱環(huán)節(jié)。


同時(shí),課題組正在探究模型信息回溯和信息整合的內(nèi)在機(jī)理,為從根本上解決大模型數(shù)據(jù)隱私安全問題提供扎實(shí)的理論和實(shí)踐基礎(chǔ)。


研究人員表示:“本工作由湖北大學(xué)人工智能學(xué)院、智能感知系統(tǒng)與安全教育部重點(diǎn)實(shí)驗(yàn)室以及華中科技大學(xué)電子信息與通信學(xué)院、智能互聯(lián)網(wǎng)技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室聯(lián)合發(fā)布,該成果將先推廣至國家電網(wǎng)等信息安全敏感單位,目前正在洽談中?!?/span>


參考資料:1.https://arxiv.org/pdf/2406.19234
運(yùn)營/排版:何晨龍


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 研究人員

技術(shù)專區(qū)

關(guān)閉