打破情感分類(lèi)準(zhǔn)確率80分天花板!更充分的知識(shí)圖譜結(jié)合范式
來(lái)源:夕小瑤的賣(mài)萌屋
NLP的研究者們一直都在嘗試,怎么樣讓模型像人類(lèi)一樣,學(xué)會(huì)“知識(shí)”。而最直觀的想法莫過(guò)于將人類(lèi)已經(jīng)總結(jié)出來(lái)供機(jī)器解讀的“知識(shí)體系”,及其嵌入表示作為額外的特征添加到NLP模型之中。至少,從直覺(jué)上看,將知識(shí)融入到模型之中,可以讓模型直接“看到”知識(shí)體系所帶來(lái)的“言外之意”,從而與模型本身的統(tǒng)計(jì)共現(xiàn)特征形成互補(bǔ),以補(bǔ)足訓(xùn)練樣本中部分知識(shí)過(guò)于稀疏的問(wèn)題。比如某一實(shí)體A在訓(xùn)練樣本中頻次很低,則可以用與它相似,且頻次較高的實(shí)體B的特征來(lái)補(bǔ)充A,或者只是樣本中的表達(dá)比較稀疏,則使用知識(shí)體系中的另一種更加常用的表達(dá)來(lái)補(bǔ)充(例如:OSX vs MacOS,歌神 vs 張學(xué)友),從而彌補(bǔ)A的特征過(guò)于稀疏的問(wèn)題;或者可以使用A所在的歸類(lèi)體系中共享的特征來(lái)補(bǔ)充A的特征。
然而,模型需要什么樣的知識(shí),要以什么方式將知識(shí)整合到模型之中,一直是存有爭(zhēng)議的問(wèn)題。例如早幾年很多工作嘗試,使用知識(shí)圖譜表示,將實(shí)體關(guān)系融合到模型中,在一些任務(wù)上取得了成效,但其最大的限制之一,則是消歧始終難以做到很高的準(zhǔn)確率,其原因在于,知識(shí)圖譜所收錄的絕大多數(shù)實(shí)體,信息都是稀疏的(SPO密度很低),它們甚至很難參與到實(shí)體鏈指環(huán)節(jié)之中,所以很多 KGs+NLP 的工作都是在有限的知識(shí)圖譜內(nèi)進(jìn)行的,而難以擴(kuò)展到廣域的知識(shí)圖譜中。
除知識(shí)圖譜外,則也有將通用知識(shí)引入到模型之中的工作,例如近兩年很多將中文的組詞應(yīng)用到 NER 的工作,將實(shí)體類(lèi)別信息應(yīng)用于關(guān)系抽取的工作等,甚至我們可以開(kāi)更大的腦洞,直接利用預(yù)訓(xùn)練語(yǔ)言模型從海量語(yǔ)料中學(xué)習(xí)到的充分的共現(xiàn)知識(shí),用以表示通用知識(shí),將之應(yīng)用到基于預(yù)訓(xùn)練語(yǔ)言模型的種種方法中。
下面我想要介紹的工作,則是使用大規(guī)模知識(shí)圖譜增強(qiáng)模型,做 aspect-level 的情感識(shí)別任務(wù),作者聲稱(chēng),自己的方法相對(duì) baseline 分別有2.5%~4%的提升。
大規(guī)模知識(shí)圖譜增強(qiáng)的 aspect-level 情感識(shí)別
論文標(biāo)題:
Scalable End-to-End Training of Knowledge Graph-Enhanced Aspect Embedding for Aspect Level Sentiment Analysis
論文地址:
https://arxiv.org/abs/2108.11656
Aspect-level 的情感識(shí)別,即輸入一段文本,詢(xún)問(wèn)該文本對(duì)某一個(gè)文本中提到的片段是什么樣的情感傾向。例如句子:However, I can refute that OSX is "FAST". 中,詢(xún)問(wèn)句子中對(duì) OSX 表達(dá)了什么樣的情感。之前的工作很少將這個(gè)任務(wù)的分?jǐn)?shù)刷到80分以上,本文作者則一鼓作氣,將3個(gè)數(shù)據(jù)集的最終指標(biāo)都刷到了80+。
Aspect-level 情感分類(lèi)的難點(diǎn)在于,aspect 有可能是稀疏的,從而導(dǎo)致模型在“觀察”文本的時(shí)候找不到重點(diǎn),例如上面的例句,OSX 在對(duì)應(yīng)的訓(xùn)練樣本中僅僅出現(xiàn)了7次,非常的稀疏,而與之相似的 Microsoft Windows 則出現(xiàn)了37次。而使用訓(xùn)練樣本中相對(duì)高頻的 aspect 去補(bǔ)充相對(duì)低頻的,又恰恰是知識(shí)增強(qiáng)的動(dòng)機(jī)之一,所以利用知識(shí)圖譜來(lái)增強(qiáng)這個(gè)任務(wù),看上去相當(dāng)?shù)暮线m。
但是知識(shí)圖譜增強(qiáng)又存在兩個(gè)挑戰(zhàn):
大規(guī)模知識(shí)圖譜難以完全利用起來(lái),例如 DBPedia 有2200萬(wàn)節(jié)點(diǎn),1.7億條邊,計(jì)算其中所有實(shí)體的表示顯然也是不現(xiàn)實(shí)的。
知識(shí)圖譜實(shí)體消歧錯(cuò)誤傳遞,這點(diǎn)在前文也有提到。
針對(duì)這兩點(diǎn)挑戰(zhàn),本文都給出了相應(yīng)的解決方案。
▲系統(tǒng)總體結(jié)構(gòu)
圖譜表示
本文使用了兩種方式計(jì)算圖譜表示,分別為子圖表示和連通分量表示。其中,連通分量表示則是將整個(gè)知識(shí)圖譜中劃分為若干個(gè)連通分量,每個(gè)連通分量看作是一個(gè)節(jié)點(diǎn),從而將大規(guī)模圖縮放成一個(gè)相對(duì)較小的圖,例如本文將 DBpedia 的2200萬(wàn)個(gè)節(jié)點(diǎn)劃分為606個(gè)聯(lián)通分量來(lái)計(jì)算表示。計(jì)算方法使用的都是 GraphSAGE,簡(jiǎn)單來(lái)講就是用某一個(gè)節(jié)點(diǎn)隨機(jī)游走的N跳鄰居層層聚合,得到當(dāng)前節(jié)點(diǎn)的表示。
連通分量表示的方式則使用一種比較樸素的方式解決了大規(guī)模圖譜表示的問(wèn)題,實(shí)則使用的還是子圖表示的計(jì)算方法。其好處則在于某一個(gè)節(jié)點(diǎn)可以得到的“言外之意”變得更多,更加看上去有關(guān)的信息被利用了。
其中,圖表示的訓(xùn)練方式也分為靜態(tài)訓(xùn)練和端到端訓(xùn)練兩種,靜態(tài)圖表示是先訓(xùn)練好圖表示,再疊加到任務(wù)中,端到端訓(xùn)練則是在任務(wù)訓(xùn)練的同時(shí)也訓(xùn)練圖表示。
去掉歧義噪音
針對(duì)歧義噪音問(wèn)題,作者則是使用 BERT 所學(xué)習(xí)到的統(tǒng)計(jì)共現(xiàn)知識(shí)去解決。首先我們可以認(rèn)為,BERT 所學(xué)到的文本表示,聚合了很多的信息,而對(duì)于一個(gè) aspect ,它的表示則聚合了其描述信息、分布信息等,那么,圖譜嵌入空間上相近的實(shí)體,則在 BERT 學(xué)到的表示空間里面也應(yīng)該有較高的相似性,但BERT聚合到的信息又太多了,所以需要將所需要的信息相辦法抽取出來(lái)。所以,定義兩個(gè)實(shí)體i和j的相似函數(shù)為:
其中B是可訓(xùn)練的參數(shù),和分別是實(shí)體和實(shí)體的BERT表示的[CLS]向量。然后分別采樣在圖譜表示空間里距離近的實(shí)體和距離遠(yuǎn)的實(shí)體作為正例和負(fù)例,訓(xùn)練參數(shù)B,loss為:
其中,和是相近實(shí)體,和則是不相近的實(shí)體,該目標(biāo)是盡可能讓BERT學(xué)到的表示和乘上參數(shù)矩陣B之后,與圖嵌入空間里面的距離更加相關(guān)。
而最終使用的實(shí)體的表示則為:
也就是說(shuō),如果實(shí)體的BERT表示的相似度和圖譜嵌入空間內(nèi)的相似度出現(xiàn)了矛盾,則屏蔽掉它的圖譜表示,作者認(rèn)為這樣可以屏蔽掉很多消歧算法帶來(lái)的噪音。
實(shí)驗(yàn)結(jié)果
▲實(shí)驗(yàn)結(jié)果
上表中,GS后綴是使用了靜態(tài)訓(xùn)練得到的表示增強(qiáng)的方法,GS-E后綴則是在原有基礎(chǔ)上使用了端到端訓(xùn)練得到的表示增強(qiáng)的方法,[probe]后綴則是在原有方法基礎(chǔ)上使用了去掉歧義噪音策略的方法。我們可以看到,在3個(gè)數(shù)據(jù)集上,文本所提出的方法都各有不算小的提升,而尤其去掉歧義噪音之后,分別都得到了SOTA的結(jié)果,可見(jiàn)作者的方法還是有一定增益的。
順便一提,這個(gè)結(jié)果里面作者玩兒了個(gè)文字游戲,比如SDGCN-BERT-GS-E[probe]的結(jié)果提升了2.79%,這個(gè)結(jié)果是這么是計(jì)算出來(lái)的:(83.62-81.35)/81.35*100%=2.79%,同理其他的提升也是這么算出來(lái)的,并不是絕對(duì)分?jǐn)?shù)的提升,而因?yàn)榉帜覆皇?00,所以提升數(shù)值都需要相對(duì)減少一些。
小結(jié)
我認(rèn)為,本文還欠缺了一個(gè)分析實(shí)驗(yàn),即連通分量表示是否是有用的。直觀上來(lái)看,將2200萬(wàn)個(gè)節(jié)點(diǎn)硬性劃分成606個(gè)連通分量,去計(jì)算整個(gè)圖的表示,總是感覺(jué)過(guò)于樸素和粗暴了。畢竟作者沒(méi)有講他是以什么樣的標(biāo)準(zhǔn)去劃分,我們也沒(méi)有辦法去評(píng)析這種劃分方式是否合理,同時(shí)我們也沒(méi)法知道,連通分量表示在這篇工作中到底起到了什么樣的作用,是否僅僅需要子圖表示加上去除歧義噪音的策略,就足以得到這么好的效果了呢?甚至極端情況下,如果數(shù)據(jù)集里面的 bias 比較大,按照這種劃分方式,是否會(huì)將絕大多數(shù) aspect 都分配到同一個(gè)連通分量里面,從而導(dǎo)致這個(gè)特征變成了一個(gè)廢特征呢?
并且,感覺(jué)上連通分量表示則是為了大規(guī)模圖譜而大規(guī)模圖譜。不可否認(rèn),這篇文章使用圖譜增強(qiáng)任務(wù),得到了一定的提升,但是這種提升,我認(rèn)為更多還是在于利用有限、固定的圖譜的信息,加上噪音消除策略而達(dá)成的,真正到了廣域數(shù)據(jù),需要大規(guī)模圖譜的場(chǎng)景下,所要面對(duì)的問(wèn)題絕不僅僅是計(jì)算瓶頸那么簡(jiǎn)單。
例如,在開(kāi)頭我就提到的絕大多數(shù)實(shí)體過(guò)于稀疏的問(wèn)題,與之相伴的還有收錄的問(wèn)題。世界上不可能存在一個(gè)圖譜,能夠收錄盡世界上所有的事實(shí)知識(shí),莫說(shuō)圖譜,牛津英文詞典的收錄情況就已經(jīng)回答了這個(gè)問(wèn)題。哪怕相關(guān)研究者們不斷地更新、迭代圖譜自動(dòng)收錄算法,和圖譜自動(dòng)補(bǔ)全算法,但是也難以趕上新知識(shí)的產(chǎn)生速度,同時(shí)圖譜要保證事實(shí)準(zhǔn)確、高質(zhì)量,那么其準(zhǔn)入門(mén)檻也不可能允許超高速的收錄。就說(shuō)相對(duì)還比較固定的專(zhuān)業(yè)領(lǐng)域知識(shí),也面臨著語(yǔ)言不全等問(wèn)題,例如生物名錄數(shù)據(jù)庫(kù),英文數(shù)據(jù)庫(kù)中也存在很多中文數(shù)據(jù)庫(kù)里面沒(méi)有的條目。所以,我們沒(méi)法指望知識(shí)圖譜能夠枚舉世界上所有的事實(shí)。
收錄問(wèn)題也不是最關(guān)鍵的因素,畢竟,沒(méi)有收錄的知識(shí),我們可以在任務(wù)里面不去使用它,那無(wú)非它的效果退化到原始模型的效果而已。信息稀疏所引發(fā)的消歧問(wèn)題,也可以通過(guò)置信度閾值去控制它,保證實(shí)體鏈指的準(zhǔn)確率,避免錯(cuò)誤傳遞。但是拋開(kāi)這兩個(gè)問(wèn)題,最關(guān)鍵的還是統(tǒng)計(jì)模型與知識(shí)圖譜的特性。
如果使用統(tǒng)計(jì)模型去將知識(shí)圖譜嵌入到連續(xù)空間中,則必然要面對(duì)統(tǒng)計(jì)模型的泛化能力,但是,事實(shí)知識(shí)是不可泛化的(例如當(dāng)我們?cè)儐?wèn)GPT-3/ERNIE3.0,太陽(yáng)有幾只眼睛/我的腳有幾只眼睛的時(shí)候,這個(gè)問(wèn)題事實(shí)上是不成立的,但是統(tǒng)計(jì)模型總是會(huì)泛化出一個(gè)結(jié)果)。到了大規(guī)模稠密知識(shí)圖譜上,這個(gè)問(wèn)題則會(huì)更加嚴(yán)重,例如圖嵌入多是使用隨機(jī)游走采樣計(jì)算節(jié)點(diǎn)相似性,但是知識(shí)圖譜上絕大部分的多跳路徑是不成立的,其邊是不可傳遞的。例如:劉德華的搭檔是劉偉強(qiáng),劉德華的老婆是朱麗倩,那么劉偉強(qiáng)和朱麗倩之間有什么關(guān)系呢?如果采樣過(guò)程不受控制,這三者在統(tǒng)計(jì)空間里面可能會(huì)非常接近,哪怕受了控制,保不齊通過(guò)其他采樣的泛化,還是會(huì)掛上關(guān)系。
而在統(tǒng)計(jì)模型里面,想要定死了這些規(guī)則,恐怕要通過(guò)無(wú)數(shù)的樣本去拉近、推遠(yuǎn)一些表示,才有可能完成在搜索空間里面構(gòu)建出來(lái)一套完整的規(guī)則,相比于直接用符號(hào)推理來(lái)講,我認(rèn)為得不償失。
實(shí)際上哪怕知識(shí)圖譜補(bǔ)全任務(wù)里面,也有很多數(shù)據(jù)是不可推理數(shù)據(jù),那些數(shù)據(jù)很有可能就是用統(tǒng)計(jì)特征算出來(lái),扔到數(shù)據(jù)集里面的,例如一個(gè)人是美國(guó)人,那他的信仰是天主教之類(lèi)的,當(dāng)年我做圖譜表示的同事分析結(jié)論,一些分?jǐn)?shù)很難刷,“很難”的數(shù)據(jù)集里面,這類(lèi)數(shù)據(jù)似乎也占據(jù)了相當(dāng)大的比重。
但是,在benchmark上,圖譜增強(qiáng)又往往能帶來(lái)一些看上去不錯(cuò)的增益,我認(rèn)為,其主要在于這類(lèi)任務(wù)面對(duì)的都是有限、固定的子集,例如本文中,使用到的子圖規(guī)模100到1000不等,這種規(guī)模之下,則絕大多數(shù)情況下可以規(guī)避掉我上面提到的兩個(gè)問(wèn)題。也就是說(shuō),在固定垂直領(lǐng)域下,信息密度大,沒(méi)有消歧壓力、不可控泛化的壓力,圖譜增強(qiáng)是有用的,但是一旦到了開(kāi)放領(lǐng)域,則不得不面對(duì)上面的問(wèn)題。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。