打破情感分類(lèi)準(zhǔn)確率80分天花板！更充分的知識(shí)圖譜結(jié)合范式

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2021-10-20 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

來(lái)源：夕小瑤的賣(mài)萌屋

NLP的研究者們一直都在嘗試，怎么樣讓模型像人類(lèi)一樣，學(xué)會(huì)“知識(shí)”。而最直觀的想法莫過(guò)于將人類(lèi)已經(jīng)總結(jié)出來(lái)供機(jī)器解讀的“知識(shí)體系”，及其嵌入表示作為額外的特征添加到NLP模型之中。至少，從直覺(jué)上看，將知識(shí)融入到模型之中，可以讓模型直接“看到”知識(shí)體系所帶來(lái)的“言外之意”，從而與模型本身的統(tǒng)計(jì)共現(xiàn)特征形成互補(bǔ)，以補(bǔ)足訓(xùn)練樣本中部分知識(shí)過(guò)于稀疏的問(wèn)題。比如某一實(shí)體A在訓(xùn)練樣本中頻次很低，則可以用與它相似，且頻次較高的實(shí)體B的特征來(lái)補(bǔ)充A，或者只是樣本中的表達(dá)比較稀疏，則使用知識(shí)體系中的另一種更加常用的表達(dá)來(lái)補(bǔ)充（例如：OSX vs MacOS，歌神 vs 張學(xué)友），從而彌補(bǔ)A的特征過(guò)于稀疏的問(wèn)題；或者可以使用A所在的歸類(lèi)體系中共享的特征來(lái)補(bǔ)充A的特征。

然而，模型需要什么樣的知識(shí)，要以什么方式將知識(shí)整合到模型之中，一直是存有爭(zhēng)議的問(wèn)題。例如早幾年很多工作嘗試，使用知識(shí)圖譜表示，將實(shí)體關(guān)系融合到模型中，在一些任務(wù)上取得了成效，但其最大的限制之一，則是消歧始終難以做到很高的準(zhǔn)確率，其原因在于，知識(shí)圖譜所收錄的絕大多數(shù)實(shí)體，信息都是稀疏的（SPO密度很低），它們甚至很難參與到實(shí)體鏈指環(huán)節(jié)之中，所以很多 KGs+NLP 的工作都是在有限的知識(shí)圖譜內(nèi)進(jìn)行的，而難以擴(kuò)展到廣域的知識(shí)圖譜中。

除知識(shí)圖譜外，則也有將通用知識(shí)引入到模型之中的工作，例如近兩年很多將中文的組詞應(yīng)用到 NER 的工作，將實(shí)體類(lèi)別信息應(yīng)用于關(guān)系抽取的工作等，甚至我們可以開(kāi)更大的腦洞，直接利用預(yù)訓(xùn)練語(yǔ)言模型從海量語(yǔ)料中學(xué)習(xí)到的充分的共現(xiàn)知識(shí)，用以表示通用知識(shí)，將之應(yīng)用到基于預(yù)訓(xùn)練語(yǔ)言模型的種種方法中。

下面我想要介紹的工作，則是使用大規(guī)模知識(shí)圖譜增強(qiáng)模型，做 aspect-level 的情感識(shí)別任務(wù)，作者聲稱(chēng)，自己的方法相對(duì) baseline 分別有2.5%~4%的提升。

大規(guī)模知識(shí)圖譜增強(qiáng)的 aspect-level 情感識(shí)別

論文標(biāo)題：

Scalable End-to-End Training of Knowledge Graph-Enhanced Aspect Embedding for Aspect Level Sentiment Analysis

論文地址：

https://arxiv.org/abs/2108.11656

Aspect-level 的情感識(shí)別，即輸入一段文本，詢(xún)問(wèn)該文本對(duì)某一個(gè)文本中提到的片段是什么樣的情感傾向。例如句子：However, I can refute that OSX is "FAST". 中，詢(xún)問(wèn)句子中對(duì) OSX 表達(dá)了什么樣的情感。之前的工作很少將這個(gè)任務(wù)的分?jǐn)?shù)刷到80分以上，本文作者則一鼓作氣，將3個(gè)數(shù)據(jù)集的最終指標(biāo)都刷到了80+。

Aspect-level 情感分類(lèi)的難點(diǎn)在于，aspect 有可能是稀疏的，從而導(dǎo)致模型在“觀察”文本的時(shí)候找不到重點(diǎn)，例如上面的例句，OSX 在對(duì)應(yīng)的訓(xùn)練樣本中僅僅出現(xiàn)了7次，非常的稀疏，而與之相似的 Microsoft Windows 則出現(xiàn)了37次。而使用訓(xùn)練樣本中相對(duì)高頻的 aspect 去補(bǔ)充相對(duì)低頻的，又恰恰是知識(shí)增強(qiáng)的動(dòng)機(jī)之一，所以利用知識(shí)圖譜來(lái)增強(qiáng)這個(gè)任務(wù)，看上去相當(dāng)?shù)暮线m。

但是知識(shí)圖譜增強(qiáng)又存在兩個(gè)挑戰(zhàn)：

大規(guī)模知識(shí)圖譜難以完全利用起來(lái)，例如 DBPedia 有2200萬(wàn)節(jié)點(diǎn)，1.7億條邊，計(jì)算其中所有實(shí)體的表示顯然也是不現(xiàn)實(shí)的。

知識(shí)圖譜實(shí)體消歧錯(cuò)誤傳遞，這點(diǎn)在前文也有提到。

針對(duì)這兩點(diǎn)挑戰(zhàn)，本文都給出了相應(yīng)的解決方案。

▲系統(tǒng)總體結(jié)構(gòu)

圖譜表示

本文使用了兩種方式計(jì)算圖譜表示，分別為子圖表示和連通分量表示。其中，連通分量表示則是將整個(gè)知識(shí)圖譜中劃分為若干個(gè)連通分量，每個(gè)連通分量看作是一個(gè)節(jié)點(diǎn)，從而將大規(guī)模圖縮放成一個(gè)相對(duì)較小的圖，例如本文將 DBpedia 的2200萬(wàn)個(gè)節(jié)點(diǎn)劃分為606個(gè)聯(lián)通分量來(lái)計(jì)算表示。計(jì)算方法使用的都是 GraphSAGE，簡(jiǎn)單來(lái)講就是用某一個(gè)節(jié)點(diǎn)隨機(jī)游走的N跳鄰居層層聚合，得到當(dāng)前節(jié)點(diǎn)的表示。

連通分量表示的方式則使用一種比較樸素的方式解決了大規(guī)模圖譜表示的問(wèn)題，實(shí)則使用的還是子圖表示的計(jì)算方法。其好處則在于某一個(gè)節(jié)點(diǎn)可以得到的“言外之意”變得更多，更加看上去有關(guān)的信息被利用了。

其中，圖表示的訓(xùn)練方式也分為靜態(tài)訓(xùn)練和端到端訓(xùn)練兩種，靜態(tài)圖表示是先訓(xùn)練好圖表示，再疊加到任務(wù)中，端到端訓(xùn)練則是在任務(wù)訓(xùn)練的同時(shí)也訓(xùn)練圖表示。

去掉歧義噪音

針對(duì)歧義噪音問(wèn)題，作者則是使用 BERT 所學(xué)習(xí)到的統(tǒng)計(jì)共現(xiàn)知識(shí)去解決。首先我們可以認(rèn)為，BERT 所學(xué)到的文本表示，聚合了很多的信息，而對(duì)于一個(gè) aspect ，它的表示則聚合了其描述信息、分布信息等，那么，圖譜嵌入空間上相近的實(shí)體，則在 BERT 學(xué)到的表示空間里面也應(yīng)該有較高的相似性，但BERT聚合到的信息又太多了，所以需要將所需要的信息相辦法抽取出來(lái)。所以，定義兩個(gè)實(shí)體i和j的相似函數(shù)為：

其中B是可訓(xùn)練的參數(shù)，和分別是實(shí)體和實(shí)體的BERT表示的[CLS]向量。然后分別采樣在圖譜表示空間里距離近的實(shí)體和距離遠(yuǎn)的實(shí)體作為正例和負(fù)例，訓(xùn)練參數(shù)B，loss為：

其中，和是相近實(shí)體，和則是不相近的實(shí)體，該目標(biāo)是盡可能讓BERT學(xué)到的表示和乘上參數(shù)矩陣B之后，與圖嵌入空間里面的距離更加相關(guān)。

而最終使用的實(shí)體的表示則為：

也就是說(shuō)，如果實(shí)體的BERT表示的相似度和圖譜嵌入空間內(nèi)的相似度出現(xiàn)了矛盾，則屏蔽掉它的圖譜表示，作者認(rèn)為這樣可以屏蔽掉很多消歧算法帶來(lái)的噪音。

實(shí)驗(yàn)結(jié)果

▲實(shí)驗(yàn)結(jié)果

上表中，GS后綴是使用了靜態(tài)訓(xùn)練得到的表示增強(qiáng)的方法，GS-E后綴則是在原有基礎(chǔ)上使用了端到端訓(xùn)練得到的表示增強(qiáng)的方法，[probe]后綴則是在原有方法基礎(chǔ)上使用了去掉歧義噪音策略的方法。我們可以看到，在3個(gè)數(shù)據(jù)集上，文本所提出的方法都各有不算小的提升，而尤其去掉歧義噪音之后，分別都得到了SOTA的結(jié)果，可見(jiàn)作者的方法還是有一定增益的。

順便一提，這個(gè)結(jié)果里面作者玩兒了個(gè)文字游戲，比如SDGCN-BERT-GS-E[probe]的結(jié)果提升了2.79%，這個(gè)結(jié)果是這么是計(jì)算出來(lái)的：(83.62-81.35)/81.35*100%=2.79%，同理其他的提升也是這么算出來(lái)的，并不是絕對(duì)分?jǐn)?shù)的提升，而因?yàn)榉帜覆皇?00，所以提升數(shù)值都需要相對(duì)減少一些。

小結(jié)

我認(rèn)為，本文還欠缺了一個(gè)分析實(shí)驗(yàn)，即連通分量表示是否是有用的。直觀上來(lái)看，將2200萬(wàn)個(gè)節(jié)點(diǎn)硬性劃分成606個(gè)連通分量，去計(jì)算整個(gè)圖的表示，總是感覺(jué)過(guò)于樸素和粗暴了。畢竟作者沒(méi)有講他是以什么樣的標(biāo)準(zhǔn)去劃分，我們也沒(méi)有辦法去評(píng)析這種劃分方式是否合理，同時(shí)我們也沒(méi)法知道，連通分量表示在這篇工作中到底起到了什么樣的作用，是否僅僅需要子圖表示加上去除歧義噪音的策略，就足以得到這么好的效果了呢？甚至極端情況下，如果數(shù)據(jù)集里面的 bias 比較大，按照這種劃分方式，是否會(huì)將絕大多數(shù) aspect 都分配到同一個(gè)連通分量里面，從而導(dǎo)致這個(gè)特征變成了一個(gè)廢特征呢？

并且，感覺(jué)上連通分量表示則是為了大規(guī)模圖譜而大規(guī)模圖譜。不可否認(rèn)，這篇文章使用圖譜增強(qiáng)任務(wù)，得到了一定的提升，但是這種提升，我認(rèn)為更多還是在于利用有限、固定的圖譜的信息，加上噪音消除策略而達(dá)成的，真正到了廣域數(shù)據(jù)，需要大規(guī)模圖譜的場(chǎng)景下，所要面對(duì)的問(wèn)題絕不僅僅是計(jì)算瓶頸那么簡(jiǎn)單。

例如，在開(kāi)頭我就提到的絕大多數(shù)實(shí)體過(guò)于稀疏的問(wèn)題，與之相伴的還有收錄的問(wèn)題。世界上不可能存在一個(gè)圖譜，能夠收錄盡世界上所有的事實(shí)知識(shí)，莫說(shuō)圖譜，牛津英文詞典的收錄情況就已經(jīng)回答了這個(gè)問(wèn)題。哪怕相關(guān)研究者們不斷地更新、迭代圖譜自動(dòng)收錄算法，和圖譜自動(dòng)補(bǔ)全算法，但是也難以趕上新知識(shí)的產(chǎn)生速度，同時(shí)圖譜要保證事實(shí)準(zhǔn)確、高質(zhì)量，那么其準(zhǔn)入門(mén)檻也不可能允許超高速的收錄。就說(shuō)相對(duì)還比較固定的專(zhuān)業(yè)領(lǐng)域知識(shí)，也面臨著語(yǔ)言不全等問(wèn)題，例如生物名錄數(shù)據(jù)庫(kù)，英文數(shù)據(jù)庫(kù)中也存在很多中文數(shù)據(jù)庫(kù)里面沒(méi)有的條目。所以，我們沒(méi)法指望知識(shí)圖譜能夠枚舉世界上所有的事實(shí)。

收錄問(wèn)題也不是最關(guān)鍵的因素，畢竟，沒(méi)有收錄的知識(shí)，我們可以在任務(wù)里面不去使用它，那無(wú)非它的效果退化到原始模型的效果而已。信息稀疏所引發(fā)的消歧問(wèn)題，也可以通過(guò)置信度閾值去控制它，保證實(shí)體鏈指的準(zhǔn)確率，避免錯(cuò)誤傳遞。但是拋開(kāi)這兩個(gè)問(wèn)題，最關(guān)鍵的還是統(tǒng)計(jì)模型與知識(shí)圖譜的特性。

如果使用統(tǒng)計(jì)模型去將知識(shí)圖譜嵌入到連續(xù)空間中，則必然要面對(duì)統(tǒng)計(jì)模型的泛化能力，但是，事實(shí)知識(shí)是不可泛化的（例如當(dāng)我們?cè)儐?wèn)GPT-3/ERNIE3.0，太陽(yáng)有幾只眼睛/我的腳有幾只眼睛的時(shí)候，這個(gè)問(wèn)題事實(shí)上是不成立的，但是統(tǒng)計(jì)模型總是會(huì)泛化出一個(gè)結(jié)果）。到了大規(guī)模稠密知識(shí)圖譜上，這個(gè)問(wèn)題則會(huì)更加嚴(yán)重，例如圖嵌入多是使用隨機(jī)游走采樣計(jì)算節(jié)點(diǎn)相似性，但是知識(shí)圖譜上絕大部分的多跳路徑是不成立的，其邊是不可傳遞的。例如：劉德華的搭檔是劉偉強(qiáng)，劉德華的老婆是朱麗倩，那么劉偉強(qiáng)和朱麗倩之間有什么關(guān)系呢？如果采樣過(guò)程不受控制，這三者在統(tǒng)計(jì)空間里面可能會(huì)非常接近，哪怕受了控制，保不齊通過(guò)其他采樣的泛化，還是會(huì)掛上關(guān)系。

而在統(tǒng)計(jì)模型里面，想要定死了這些規(guī)則，恐怕要通過(guò)無(wú)數(shù)的樣本去拉近、推遠(yuǎn)一些表示，才有可能完成在搜索空間里面構(gòu)建出來(lái)一套完整的規(guī)則，相比于直接用符號(hào)推理來(lái)講，我認(rèn)為得不償失。

實(shí)際上哪怕知識(shí)圖譜補(bǔ)全任務(wù)里面，也有很多數(shù)據(jù)是不可推理數(shù)據(jù)，那些數(shù)據(jù)很有可能就是用統(tǒng)計(jì)特征算出來(lái)，扔到數(shù)據(jù)集里面的，例如一個(gè)人是美國(guó)人，那他的信仰是天主教之類(lèi)的，當(dāng)年我做圖譜表示的同事分析結(jié)論，一些分?jǐn)?shù)很難刷，“很難”的數(shù)據(jù)集里面，這類(lèi)數(shù)據(jù)似乎也占據(jù)了相當(dāng)大的比重。

但是，在benchmark上，圖譜增強(qiáng)又往往能帶來(lái)一些看上去不錯(cuò)的增益，我認(rèn)為，其主要在于這類(lèi)任務(wù)面對(duì)的都是有限、固定的子集，例如本文中，使用到的子圖規(guī)模100到1000不等，這種規(guī)模之下，則絕大多數(shù)情況下可以規(guī)避掉我上面提到的兩個(gè)問(wèn)題。也就是說(shuō)，在固定垂直領(lǐng)域下，信息密度大，沒(méi)有消歧壓力、不可控泛化的壓力，圖譜增強(qiáng)是有用的，但是一旦到了開(kāi)放領(lǐng)域，則不得不面對(duì)上面的問(wèn)題。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

打破情感分類(lèi)準(zhǔn)確率80分天花板！更充分的知識(shí)圖譜結(jié)合范式

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

博客專(zhuān)欄

打破情感分類(lèi)準(zhǔn)確率80分天花板！更充分的知識(shí)圖譜結(jié)合范式

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

打破情感分類(lèi)準(zhǔn)確率80分天花板！更充分的知識(shí)圖譜結(jié)合范式