博客專欄

EEPW首頁 > 博客 > 探索大語言模型在圖學習上的潛力(附鏈接)

探索大語言模型在圖學習上的潛力(附鏈接)

發(fā)布人:數(shù)據(jù)派THU 時間:2023-08-23 來源:工程師 發(fā)布文章

圖片

論文****:https://arxiv.org/abs/2307.03393
代碼地址https://github.com/CurryTang/Graph-LLM


圖是一種非常重要的結(jié)構(gòu)化數(shù)據(jù),具有廣闊的應用場景。在現(xiàn)實世界中,圖的節(jié)點往往與某些文本形式的屬性相關(guān)聯(lián)。以電商場景下的商品圖(OGBN-Products數(shù)據(jù)集)為例,每個節(jié)點代表了電商網(wǎng)站上的商品,而商品的介紹可以作為節(jié)點的對應屬性。在圖學習領(lǐng)域,相關(guān)工作常把這一類以文本作為節(jié)點屬性的圖稱為文本屬性圖(Text-Attributed Graph, 以下簡稱為TAG)。TAG在圖機器學習的研究中是非常常見的, 比如圖學習中最常用的幾個論文引用相關(guān)的數(shù)據(jù)集都屬于TAG。除了圖本身的結(jié)構(gòu)信息以外,節(jié)點對應的文本屬性也提供了重要的文本信息,因此需要同時兼顧圖的結(jié)構(gòu)信息、文本信息以及兩者之間的相互關(guān)系。然而,在以往的研究過程中,大家往往會忽視文本信息的重要性。舉例來說,像PYG與DGL這類常用庫中提供的常用數(shù)據(jù)集(比如最經(jīng)典的Cora數(shù)據(jù)集),都并不提供原始的文本屬性,而只是提供了嵌入形式的詞袋特征。在研究過程中,目前常用的 GNN 更多關(guān)注于對圖的拓撲結(jié)構(gòu)的建模,缺少了對節(jié)點屬性的理解。


相比于之前的工作,本文想要研究如何更好地處理文本信息,以及不同的文本嵌入與GNN結(jié)合后如何影響下游任務的性能。要更好地處理文本信息,那目前最流行的工具便非大語言模型(LLM)莫屬(本文考慮了BERT到GPT4這些在大規(guī)模語料上進行了預訓練的語言模型,因此使用LLM來泛指這些模型)。相比于TF-IDF這類基于詞袋模型的文本特征,LLM有以下這幾點潛在的優(yōu)勢。


  • 首先,LLM具有上下文感知的能力,可以更好地處理同形不同意的單詞(polysemous)。

  • 其次,通過在大規(guī)模語料上的預訓練,LLM一般被認為有更強的語義理解能力,這點可以從其在各類NLP任務上卓越的性能體現(xiàn)出來。


考慮到LLM的多種多樣性,本文的目標是針對不同種類的LLM設(shè)計出合適的框架。鑒于LLM與GNN的融合問題,本文把LLM首先分類為了嵌入可見與嵌入不可見兩類。像ChatGPT這類只能通過接口進行交互的LLM就屬于后者。其次,針對嵌入可見類的LLM,本文考慮三種范式:


  1. 以BERT為代表的基于encoder-only結(jié)構(gòu)的預訓練語言模型。這類模型一般需要在下游數(shù)據(jù)進行微調(diào)。

  2. 以Sentence-BERT為代表的句子嵌入模型,這類模型一般在第一類模型的基礎(chǔ)上進行了進一步的有監(jiān)督/無監(jiān)督訓練,不需要針對下游數(shù)據(jù)進行微調(diào)。本文也考慮了以O(shè)penai的text-ada-embedding為代表的商業(yè)嵌入模型。

  3. 以LLaMA為代表的開源decoder-only大模型,這類模型一般會比第一類模型有大得多的參數(shù)量。考慮到微調(diào)的成本與災難性遺忘的存在,本文主要評測了未經(jīng)微調(diào)的底座模型。


對于這些嵌入可見的大模型,可以首先用它們來生成文本嵌入,然后將文本嵌入作為GNN的初始特征從而將兩類模型融合在一起。然而,對于嵌入不可見的ChatGPT等LLM,如何將它們強大的能力應用于圖學習相關(guān)的任務便成為了一個挑戰(zhàn)。


針對這些問題,本文提出了一種將LLM應用到圖學習相關(guān)任務的框架,如下圖1與圖2所示。對于第一種模式LLMs-as-Enhancers,主要是利用大模型的能力對原有的節(jié)點屬性進行增強,然后再輸入到GNN模型之中來提升下游任務的性能。針對嵌入可見的LLM,采取特征級別的增強,然后采用層級或迭代式(GLEM, ICLR 2023)的優(yōu)化方法將語言模型與GNN結(jié)合起來。對于嵌入不可見的LLM,采取文本級別的增強,通過LLM對原有的節(jié)點屬性進行擴充??紤]到以ChatGPT為代表的LLM的零樣本學習與推理能力,本文進一步探索了利用prompt的形式來表示圖節(jié)點的屬性與結(jié)構(gòu),然后利用大模型直接生成預測的模式,將這種范式稱為LLMs-as-Predictors。


在實驗部分,本文主要采用了節(jié)點分類這一任務作為研究對象,我們會在最后討論這一選擇的局限性,以及拓展到別的任務上的可能。接下來,順延著論文中的結(jié)構(gòu),在這里簡要分享一下各種模式下有趣的發(fā)現(xiàn)。


圖片
圖1.LLMs-as-Enhancers的示意圖。對于嵌入可見的大語言模型,直接生成文本嵌入作為GNN的初始節(jié)點特征。對于嵌入不可見的大模型,設(shè)計prompt來增強原有的節(jié)點屬性。
圖片圖2.LLMs-as-Predictors的示意圖。對于嵌入不可見的大語言模型,嘗試更進一步,直接通過設(shè)計prompt來讓LLM輸出最后的結(jié)果。


利用LLM進行特征增強:LLMs-as-Enhancers


首先,本文研究利用LLM生成文本嵌入,然后輸入到GNN中的模式。在這一模式下,根據(jù)LLM是否嵌入可見,提出了特征級別的增強與文本級別的增強。針對特征級別的增強,進一步考慮了語言模型與GNN之間的優(yōu)化過程,將其進一步細分為了級聯(lián)式結(jié)構(gòu)(cascading structure)與迭代式結(jié)構(gòu)(iterative structure)。下面分別介紹兩種增強方法。


圖片

圖3.LLMs-as-Enhancers的流程示意圖。前兩張對應了特征級別的增強,分別為級聯(lián)式結(jié)構(gòu)與迭代式結(jié)構(gòu)。后一張對應了文本級別的增強。


特征級別的增強


對于特征級別的增強,本文考慮的主要是語言模型、GNN、以及優(yōu)化方法三個因素。從語言模型上來說,本文考慮了以Deberta為代表的預訓練語言模型、以Sentence-BERT為代表的開源句子嵌入模型、以text-ada-embedding-002為代表的商業(yè)嵌入模型,以及以LLaMA為代表的開源大模型。對于這些語言模型,本文主要從模型的種類以及模型的參數(shù)規(guī)模來考量其對下游任務的影響。


從GNN的角度來說,本文主要考慮GNN設(shè)計中的消息傳遞機制對下游任務的影響。本文主要選取了GCN,SAGE與GAT這兩個比較有代表性的模型,針對OGB上的數(shù)據(jù)集,本文選取了目前排行榜上名列前茅的模型RevGAT與SAGN。本文也納入了MLP對應的性能來考察原始嵌入的下游任務性能。


從優(yōu)化方法的角度,本文主要考察了級聯(lián)式結(jié)構(gòu)與迭代式結(jié)構(gòu)。


  • 對于級聯(lián)式結(jié)構(gòu),本文考慮直接通過語言模型輸出文本嵌入。對于那些規(guī)模較小可以進行微調(diào)的模型,本文考慮了基于文本的微調(diào)與基于結(jié)構(gòu)的自監(jiān)督訓練(ICLR 2022, GIANT)。不管是哪種方式,最后會得到一個語言模型,然后利用它來生成文本嵌入。這一過程中,語言模型與GNN的訓練是分開的。

  • 對于迭代式結(jié)構(gòu),本文主要考察GLEM方法(ICLR 2023),它使用EM和變分推斷來對GNN和語言模型進行迭代式的共同訓練。


在實驗部分,本文選取了幾個有代表性的常用TAG數(shù)據(jù)集,具體的實驗設(shè)定可以參考我們的論文。接下來,首先展示這一部分的實驗結(jié)果(鑒于空間有限,在這里展示了兩個大圖上的實驗結(jié)果),然后簡要討論一些有意思的實驗結(jié)果。


圖片

圖4.Arxiv與Products數(shù)據(jù)集上的實驗結(jié)果,左邊對應的是不同的語言模型,上方對應的是不同的GNN。黃綠紅分別對應排名第一第二第三的組合。


從實驗結(jié)果來看,有以下幾個有意思的結(jié)論。


第一,GNN對不同的文本嵌入有截然不同的有效性。特別明顯的一個例子發(fā)生在Products數(shù)據(jù)集上,以MLP作為分類器時,經(jīng)過微調(diào)的預訓練語言模型Deberta-base的嵌入要比TF-IDF的結(jié)果好很多。然而,當使用GNN模型后,兩者的差異很小,特別是使用SAGN模型時TF-IDF的表現(xiàn)要更好。這一現(xiàn)象可能與GNN的過光滑、過相關(guān)性有關(guān),但目前還沒有比較完整的解釋,因此也是一個有意思的研究課題。


第二,使用句子向量模型作為編碼器,然后與GNN級聯(lián)起來,可以獲得很好的下游任務性能。特別是在Arxiv這個數(shù)據(jù)集上,簡單將Sentence-BERT與RevGAT級聯(lián)起來,就可以達到接近GLEM的性能,甚至超過了做了自監(jiān)督訓練的GIANT。注意,這并不是因為用了一個參數(shù)量更大的語言模型,這里使用的Sentence-BERT為MiniLM版本,甚至比GIANT使用的BERT參數(shù)量更小。這里可能的一個原因是基于Natural Language Inference(NLI)這個任務訓練的Sentence-BERT提供了隱式的結(jié)構(gòu)信息,從形式上來說NLI與link prediction的形式也有一些相似。當然,這還只是非常初步的猜想,具體的結(jié)論還需要進一步探究。另外,從這一結(jié)果也給了一些啟發(fā),比如考慮圖上的預訓練模型時,能不能直接預訓練一個語言模型,通過語言模型預訓練更加成熟的解決方案,是不是還可以獲得比預訓練GNN更好的效果。同時,OpenAI提供的收費嵌入模型在節(jié)點分類這個任務上相比開源模型的提升很小。


第三,相比于未經(jīng)微調(diào)的Deberta,LLaMA能夠取得更好的結(jié)果,但是與句子嵌入這一類的模型還是有不小的差距。這說明相比于模型的參數(shù)大小,可能模型的種類是更重要的考量。對于Deberta,本文采用的是[CLS]作為句子向量。對于LLaMA,本文使用了langchain中的llama-cpp-embedding,它的實現(xiàn)中采用了[EOS]作為句子向量。在之前的相關(guān)研究中,已經(jīng)有一些工作說明了為什么[CLS]在未經(jīng)微調(diào)時性能很差,主要是由于其本身的各項異性,導致很差的可分性。經(jīng)過實驗,在高樣本率的情況下,LLaMA生成的文本嵌入可以取得不錯的下游任務性能,從側(cè)面說明了模型的參數(shù)量增大可能可以一定程度上緩解這一問題。


文本級別的增強


對于特征級別的增強,本文得到了一些有意思的結(jié)果。但是,特征級別的增強還是需要語言模型是嵌入可見的。對于ChatGPT這類嵌入不可見的模型,可以使用文本級別的增強。對于這一部分,本文首先研究了一篇最近掛在Arxiv上的文章Explanation as features(TAPE),其思想是利用LLM生成的對于預測的解釋作為增強的屬性,并通過集成的方法在OGB Arxiv的榜單上排到了第一名的位置。另外,本文也提出了一種利用LLM進行知識增強的手段Knowledge-Enhanced Augmentation(KEA),其核心思想是把LLM作為知識庫,發(fā)掘出文本中與知識相關(guān)的關(guān)鍵信息,然后生成更為詳盡的解釋,主要是為了不足參數(shù)量較小的語言模型本身知識信息的不足。兩種模型的示意圖如下所示。


圖片

圖5.文本級別增強的示意圖

圖片圖6.TAPE的輸出樣例。增強后的屬性有三部分:原始屬性TA,生成的解釋E,以及偽標簽P。


圖片

圖7.KEA的輸出樣例。增強后可以得到一個字典形式的關(guān)鍵詞與對應解釋的映射。本文嘗試了兩種方法來講原始屬性與增強屬性拼接起來,第一種是直接在文本層面的拼接,一種是分別編碼后進行集成,分別記為KEA-I與KEA-S。


為了測試兩種方法的有效性,本文沿用了第一部分的實驗設(shè)定。同時,考慮到使用LLM的成本,本文在Cora與Pubmed兩個小圖上進行了實驗。對于LLM,我們選用了gpt-3.5-turbo,也就是大家所熟知的ChatGPT。首先,為了更好地理解如何進行文本級別的增強以及TAPE的有效性,我們針對TAPE進行了詳細的消融實驗。


圖片

圖8.TAPE的消融實驗結(jié)果,TA表示原始特征,E表示LLM生成的預測與解釋,P表示LLM生成的偽標簽


在消融實驗中,我們主要考慮了以下幾個問題


  • TAPE的有效性主要來源于生成的解釋E還是偽標簽P

  • 用哪種語言模型來編碼增強的屬性是最合適的


從實驗結(jié)果可以看到,偽標簽非常依賴于LLM本身的zero shot預測能力(會在下一章詳細討論),在低樣本率時,可能反而會拖累集成后的性能。因此,在后續(xù)的實驗中,本文只使用原始屬性TA與解釋E。其次,句子編碼相比于微調(diào)預訓練模型,可以在低標注率下取得更好的效果,因此本文采用句子編碼模型e5。除此以外,一個有趣的現(xiàn)象是在Pubmed數(shù)據(jù)集上,當使用了增強后的特征,基于微調(diào)的方法可以取得非常好的性能。一種可能的解釋是模型主要是學到了LLM預測結(jié)果的“捷徑”(shortcut),因此TAPE的性能會與LLM本身的預測準確率高度相關(guān)。接下來,我們比較TAPE與KEA之間的有效性。


圖片

圖9.KEA與TAPE的比較


實驗結(jié)果中,KEA與TAPE相比原始特征都有一定的提升。其中,KEA在Cora上可以取得更好的效果,而TAPE在Pubmed上更為有效。經(jīng)過下一章的討論后,會發(fā)現(xiàn)這與LLM在Pubmed上本身就有良好的預測性能有關(guān)。相比于TAPE,由于KEA不依賴LLM的預測,所以在不同數(shù)據(jù)集上的表現(xiàn)會更穩(wěn)定一些。超越這兩個數(shù)據(jù)集之外,這種文本級別的增強還有更多的應用場景。像BERT或者T5這一類比較小的預訓練語言模型,往往不具備ChatGPT級別的推理能力,同時也沒有辦法像ChatGPT那樣對不同領(lǐng)域的諸如代碼、格式化文本有良好的理解能力。因此,在涉及到這些場景的問題時,可以通過ChatGPT這類大模型對原有的內(nèi)容進行轉(zhuǎn)換。在轉(zhuǎn)換過后的數(shù)據(jù)上訓練一個較小的模型可以有更快的推理速度與更低的推理成本。同時,如果本身也有一定量的標注樣本,通過微調(diào)的方式會比上下文學習更好地掌握數(shù)據(jù)集中的一些個性化信息。


利用LLM進行預測: LLMs-as-Predictors


在這一部分,本文進一步考慮能否拋棄GNN,通過設(shè)計prompt來讓LLM生成有效的預測。由于本文主要考慮的是節(jié)點分類任務,因此一個簡單的基線是把節(jié)點分類看作是文本分類任務來處理?;谶@個想法,本文首先設(shè)計了一些簡單的prompt來測試LLM在不使用任何圖結(jié)構(gòu)的情況下能有多少性能。本文主要考慮了zero shot, few shot,并且測試了使用思維鏈Chain of thought的效果。


圖片

圖10.不考慮圖結(jié)構(gòu)信息的Prompt設(shè)計


實驗結(jié)果如下圖所示。LLM在不同的數(shù)據(jù)集上的性能差異非常大。在Pubmed數(shù)據(jù)集上,可以看到LLM在zero shot情況下的性能甚至超過了GNN。而在Cora,Arxiv等數(shù)據(jù)集上,又與GNN有較大的差距。注意,對于這里的GNN,在Cora,CiteSeer,Pubmed上,每一類有20個樣本被選為訓練集,而Arxiv與Products數(shù)據(jù)集上有更多的訓練樣本。相比之下,LLM的預測是基于零樣本或者少樣本的,而GNN并不具備零樣本學習的能力,在少樣本的情況下性能也會很差。當然,輸入長度的限制也使得LLM無法囊括更多的上下文樣本。


圖片

圖11.不考慮圖結(jié)構(gòu)信息的Prompt結(jié)果


通過對實驗結(jié)果進行分析,在某些情況下LLM預測錯的結(jié)果也是比較合理的。一個例子如圖12所示??梢钥吹?,很多論文本身也是交叉領(lǐng)域的,因此預測時LLM通過自身的常識性信息進行推理,有時并不能與標注的偏好匹配到一起。這也是值得思考的問題:這種單標簽的設(shè)定是合理的嗎?


圖片圖12.合理的錯誤


此外,在Arxiv數(shù)據(jù)集上LLM的表現(xiàn)最差,這與TAPE中的結(jié)論并不一致,因此需要比較一下兩者的prompt有什么差異。TAPE使用的prompt如下所示。


Abstract: <abstract text> n Title: <title text> n Question: Which arXiv CS sub-categorydoes this paper belong to? Give 5 likely arXiv CS sub-categories as a comma-separated list ordered from most to least likely, in the form “cs.XX”, and provide your reasoning. n n Answer:


有意思的是,TAPE甚至都沒有在prompt中指明數(shù)據(jù)集中存在哪些類別,而是直接利用了LLM中存在的關(guān)于arxiv的知識信息。奇怪的是,通過這個小變化,LLM預測的性能有巨大的改變,這不禁讓人懷疑與本身測試集標簽泄漏有關(guān)。作為高質(zhì)量的語料,arxiv上的數(shù)據(jù)大概率是被包含在了各種LLM的預訓練之中,而TAPE的prompt可能使得LLM可以更好地回憶起這些預訓練語料。這提醒我們需要重新思考評估的合理性,因為這時的準確率可能反映的并不是prompt的好壞與語言模型的能力,而僅僅只是LLM的記憶問題。以上兩個問題都與數(shù)據(jù)集的評估有關(guān),是非常有價值的未來方向。


進一步地,本文也考慮了能否在prompt中通過文本的形式把結(jié)構(gòu)信息也包含進來。本文測試了幾種方式來在prompt中表示結(jié)構(gòu)化的信息。具體地,我們嘗試了使用自然語言“連接”來表示邊關(guān)系以及通過總結(jié)周圍鄰居節(jié)點的信息來隱式表達邊關(guān)系。


結(jié)果表明,以下這種隱式表達的方式最為有效。


Paper:<paper content>
NeighborSummary:<Neighborsummary>
Instruction:<Task instruction>


具體來說,模仿GNN的思路,對二階鄰居節(jié)點進行采樣,然后將對應的文本內(nèi)容輸入到LLM中,讓其進行一個總結(jié),作為結(jié)構(gòu)相關(guān)信息,一個樣例如圖13所示。


圖片圖13.利用LLM進行總結(jié)的prompt示例


本文在幾個數(shù)據(jù)集上測試了prompt的有效性,結(jié)果如圖14所示。在除了Pubmed以外的其他四個數(shù)據(jù)集上,都可以相對不考慮結(jié)構(gòu)的情況獲得一定的提升,反映了方法的有效性。進一步地,本文分析了這個prompt為什么在Pubmed數(shù)據(jù)集上失效。


圖片

圖14.考慮圖結(jié)構(gòu)信息的Prompt結(jié)果


在Pubmed數(shù)據(jù)集上,很多情況下樣本的標注會直接出現(xiàn)在樣本的文本屬性中。一個例子如下所示。由于這個特性的存在,想要在Pubmed數(shù)據(jù)集上取得比較好的結(jié)果,可以通過學習到這種“捷徑”,而LLM在此數(shù)據(jù)集上特別好的表現(xiàn)可能也正源于此。在這種情況下,如果加上總結(jié)后的鄰居信息,可能反而會使得LLM更難捕捉到這種“捷徑”信息,因此性能會下降。


Title: Predictive power of sequential measures of albuminuria for progression to ESRD or death in Pima Indians with type 2 diabetes. ... (content omitted here)
Ground truth label: Diabetes Mellitus Type 2


進一步地,在一些鄰居與本身標簽不同的異配(heterophilous)點上,LLM同GNN一樣會受到鄰居信息的干擾,從而輸出錯誤的預測。


圖片

圖15.鄰居的異配性造成錯誤預測


GNN的異配性也是一個很有意思的研究方向,大家也可以參考我們的論文Demystifying Structural Disparity in Graph Neural Networks: Can One Size Fit All?


案例研究:利用LLM生成標注


從上文的討論中可以看到,在一些情況下LLM可以取得良好的零樣本預測性能,這使得它有代替人工為樣本生成標注的潛力。本文初步探索了利用LLM生成標注,然后用這些標注訓練GNN的可能性。

圖片圖16.利用LLM生成標注訓練GNN


針對這一問題,有兩個需要研究的點


  • 如何根據(jù)圖結(jié)構(gòu)和屬性選擇圖中重要的點,來使得標注的收益最大化,這與圖上主動學習的設(shè)定類似

  • 如果估計LLM生成的標注質(zhì)量,并且過濾錯誤的標注


討論


最后,簡要討論一下本文的局限性,以及一些有意思的后續(xù)方向。首先,需要說明的是本文主要針對的還是節(jié)點分類這個任務,而這個pipeline要擴展到更多的圖學習任務上還需要更多的研究,從這個角度來說標題或許也有一些overclaim。另外,也有一些場景下無法獲取有效的節(jié)點屬性。比如,金融交易網(wǎng)絡(luò)中,很多情況下用戶節(jié)點是匿名的,這時如何構(gòu)造能夠讓LLM理解的有意義的prompt就成為了新的挑戰(zhàn)。


其次,如何降低LLM的使用成本也是一個值得考慮的問題。在文中,討論了利用LLM進行增強,而這種增強需要使用每個節(jié)點作為輸入,如果有N個節(jié)點,那就需要與LLM有N次交互,有很高的使用成本。在實驗過程中,我們也嘗試了像Vicuna這類開源的模型,但是生成的內(nèi)容質(zhì)量相比ChatGPT還是相去甚遠。另外,基于API對ChatGPT進行調(diào)用目前也無法批處理化,所以效率也很低。如何在保證性能的情況下降低成本并提升效率,也是值得思考的問題。


最后,一個重要的問題就是LLM的評估。在文中,已經(jīng)討論了可能存在的測試集泄漏問題以及單標注設(shè)定不合理的問題。要解決第一個問題,一個簡單的想法是使用不在大模型預訓練語料范圍內(nèi)的數(shù)據(jù),但這也需要我們不斷地更新數(shù)據(jù)集并且生成正確的人工標注。對于第二個問題,一個可能的解決辦法是使用多標簽(multi label)的設(shè)定。對于類似arxiv的論文分類數(shù)據(jù)集,可以通過arxiv本身的類別生成高質(zhì)量的多標簽標注,但對更一般的情況,如何生成正確的標注還是一個難以解決的問題。


參考文獻

[1] Zhao J, Qu M, Li C, et al. Learning on large-scale text-attributed graphs via variational inference[J]. arXiv preprint arXiv:2210.14709, 2022.[2] Chien E, Chang W C, Hsieh C J, et al. Node feature extraction by self-supervised multi-scale neighborhood prediction[J]. arXiv preprint arXiv:2111.00064, 2021.[3] He X, Bresson X, Laurent T, et al. Explanations as Features: LLM-Based Features for Text-Attributed Graphs[J]. arXiv preprint arXiv:2305.19523, 2023.


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉