微軟亞洲研究院深入探索圖深度學(xué)習(xí)領(lǐng)域兩大挑戰(zhàn),以圖深度學(xué)習(xí)賦能知識(shí)計(jì)算
在圖深度學(xué)習(xí)領(lǐng)域的持續(xù)深耕,讓微軟亞洲研究院 DKI 組提出了一系列新方法和新思路,為多項(xiàng)研究成果的突破奠定了基礎(chǔ)。那么對(duì)于圖深度學(xué)習(xí)技術(shù)在知識(shí)計(jì)算領(lǐng)域的應(yīng)用,微軟亞洲研究院的研究員們有哪些獨(dú)到的理解?又預(yù)見(jiàn)了哪些前沿的研究方向?
圖(Graph),作為一種通用的數(shù)據(jù)組織方式,被廣泛應(yīng)用于建模實(shí)體間的聯(lián)系,例如知識(shí)圖譜、社交網(wǎng)絡(luò)、交通路網(wǎng)、引文網(wǎng)絡(luò)、互聯(lián)網(wǎng)以及云服務(wù)依賴關(guān)系網(wǎng)絡(luò)等。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,由深度學(xué)習(xí)與圖數(shù)據(jù)處理相結(jié)合,催生出了圖深度學(xué)習(xí)這一熱門的研究方向,并以圖嵌入、圖神經(jīng)網(wǎng)絡(luò)等技術(shù)為代表對(duì)圖數(shù)據(jù)進(jìn)行學(xué)習(xí)和分析。從數(shù)據(jù)的角度來(lái)看,圖深度學(xué)習(xí)如今已成為圖數(shù)據(jù)分析背后的重要技術(shù)。
微軟亞洲研究院數(shù)據(jù)、知識(shí)與智能(Data, Knowledge and Intelligence,DKI)組一直致力于發(fā)掘數(shù)據(jù)的價(jià)值,因此,DKI 組的研究員們希望從數(shù)據(jù)分析和知識(shí)提取中獲取洞見(jiàn),以更有效的圖深度學(xué)習(xí)技術(shù)來(lái)賦能企業(yè)級(jí)的數(shù)據(jù)分析和知識(shí)計(jì)算。所謂知識(shí)計(jì)算就是指利用計(jì)算機(jī)程序來(lái)處理人類知識(shí)的過(guò)程,而且在這個(gè)過(guò)程中要將人類的知識(shí)轉(zhuǎn)化為計(jì)算機(jī)可以理解的形式,并用這些信息解決復(fù)雜的問(wèn)題。
知識(shí)計(jì)算領(lǐng)域的數(shù)據(jù)對(duì)象往往很有特點(diǎn),其中的典型數(shù)據(jù)包括知識(shí)圖譜和根據(jù)領(lǐng)域特點(diǎn)自定義的異構(gòu)網(wǎng)絡(luò),這類圖中的節(jié)點(diǎn)和邊有更明確的語(yǔ)義,而且往往有確定的實(shí)體名和關(guān)系類型名,還常具有詳細(xì)的文本描述。圖的結(jié)構(gòu)和語(yǔ)義信息都是對(duì)分析結(jié)果有明顯影響的要素,基于這兩種信息融合的知識(shí)表示也非常具有挑戰(zhàn)性,所以圖學(xué)習(xí)模型的設(shè)計(jì)也要更有針對(duì)性。
目前對(duì)知識(shí)的建模手段主要有兩類:一類是通過(guò)大規(guī)模語(yǔ)言模型隱式建模知識(shí),但這類模型的可控度和可解釋性較低,有些回答真假難辨,比如 ChatGPT;另一類是通過(guò)顯式的知識(shí)建模,利用結(jié)構(gòu)化的知識(shí)表達(dá),將其存儲(chǔ)于知識(shí)庫(kù)中,可以顯式進(jìn)行問(wèn)答、推理等任務(wù),然而如何更好地利用知識(shí)庫(kù)中的知識(shí)卻是個(gè)難題。
微軟亞洲研究院 DKI 組的研究員們認(rèn)為可以利用圖深度學(xué)習(xí),從以下幾個(gè)方面增強(qiáng)顯式知識(shí)建模的能力:
(1)增強(qiáng)知識(shí)表示能力。通過(guò)相應(yīng)技術(shù)學(xué)習(xí)得到知識(shí)的向量表示,讓現(xiàn)有的智能模型可以更好地利用知識(shí)庫(kù)中的知識(shí)。
(2)提升知識(shí)挖掘能力。圖深度學(xué)習(xí)技術(shù)可以用來(lái)挖掘知識(shí)圖譜結(jié)構(gòu)中的隱藏關(guān)系,從而更好地理解知識(shí)中的含義和關(guān)聯(lián)性。
(3)擴(kuò)展知識(shí)應(yīng)用范圍。圖深度學(xué)習(xí)技術(shù)能夠應(yīng)用于多種領(lǐng)域,如自然語(yǔ)言處理、推薦系統(tǒng)、知識(shí)圖譜構(gòu)建等,為知識(shí)計(jì)算的應(yīng)用提供了更多的可能性。
知識(shí)圖譜是最為常用的顯式建模知識(shí)的方式,它是一種用節(jié)點(diǎn)表示實(shí)體,用連邊表示關(guān)系的圖結(jié)構(gòu)組織方式。針對(duì)知識(shí)圖譜的圖深度學(xué)習(xí)技術(shù)是知識(shí)計(jì)算中非常重要的一環(huán)。目前,知識(shí)圖譜上的圖深度學(xué)習(xí)方法以嵌入技術(shù)為主,該類技術(shù)將實(shí)體和關(guān)系映射到低維向量空間,用來(lái)表示知識(shí)圖譜中實(shí)體和關(guān)系之間的相似度,從而進(jìn)行知識(shí)圖譜的推理、推薦和分類等任務(wù)。在應(yīng)用外部知識(shí)解決各類智能任務(wù)的過(guò)程中,圖深度學(xué)習(xí)也發(fā)揮著重要作用。
“我們希望利用圖深度學(xué)習(xí)來(lái)增強(qiáng)顯式建模知識(shí)的能力,并結(jié)合知識(shí)圖譜和圖深度學(xué)習(xí)進(jìn)行更多探索。針對(duì)知識(shí)圖譜,我們通過(guò)圖深度學(xué)習(xí)來(lái)挖掘更多潛在的隱藏關(guān)系,力爭(zhēng)得到更全面、完善的知識(shí)表達(dá),這也是我們?cè)?NeurIPS 2022 大規(guī)模圖學(xué)習(xí)競(jìng)賽 OGB-LSC 上的課題,比賽結(jié)果表明我們的研究已經(jīng)取得了階段性成果?!蔽④泚喼扪芯吭?DKI 組主管研究員杜侖表示。
系列研究讓圖深度學(xué)習(xí)模型更通用、更穩(wěn)定
圖深度學(xué)習(xí)領(lǐng)域的研究?jī)?nèi)容非常廣泛,微軟亞洲研究院 DKI 組將系列研究聚焦在了圖深度學(xué)習(xí)需要持續(xù)攻克的幾個(gè)課題上:設(shè)計(jì)更通用、更具泛化性的圖深度學(xué)習(xí)模型和更穩(wěn)定有效的模型訓(xùn)練策略,以及探索更廣泛的圖模型應(yīng)用場(chǎng)景。
從模型設(shè)計(jì)的角度,目前很多模型都擅長(zhǎng)處理具有同配屬性的數(shù)據(jù)。同配屬性是指圖上節(jié)點(diǎn)具有相鄰相似性,這種性質(zhì)在傳統(tǒng)的圖研究對(duì)象中存在較多,例如社交網(wǎng)絡(luò)、交通路網(wǎng)等等,然而圖數(shù)據(jù)的覆蓋面非常廣,例如企業(yè)中團(tuán)隊(duì)協(xié)作的關(guān)系網(wǎng)絡(luò)就有更明顯的優(yōu)勢(shì)互補(bǔ)傾向,或者推薦系統(tǒng)中用戶對(duì)于內(nèi)容不喜歡的反饋網(wǎng)絡(luò)顯然不具備同配關(guān)系。那么如何建模更廣泛類型的圖,并挖掘更多圖中的有效信號(hào),是目前模型設(shè)計(jì)上的一個(gè)挑戰(zhàn)。
從模型訓(xùn)練的角度來(lái)看,由于圖數(shù)據(jù)中節(jié)點(diǎn)和節(jié)點(diǎn)的連邊導(dǎo)致訓(xùn)練過(guò)程中無(wú)法簡(jiǎn)單地流式遍歷數(shù)據(jù),需要配合圖采樣等技術(shù)才能進(jìn)行有效的訓(xùn)練,因此如何在保證高效訓(xùn)練的同時(shí)又盡可能減少信息損失,是真實(shí)大規(guī)模圖數(shù)據(jù)場(chǎng)景中的重要問(wèn)題。除了圖特有的問(wèn)題外,圖深度學(xué)習(xí)模型的訓(xùn)練也會(huì)遇到其他深度學(xué)習(xí)模型所面臨的類似的問(wèn)題,比如如何保證訓(xùn)練的穩(wěn)定性、效率和最終模型的泛化表現(xiàn)等。
此外,圖模型的過(guò)壓縮(oversquashing)、過(guò)平滑(oversmoothing),以及一般深度學(xué)習(xí)的模型初始化、過(guò)擬合等也都是需要一一解決的問(wèn)題。
經(jīng)過(guò)近幾年的持續(xù)研究,DKI 組的研究員們?cè)谶m用范圍更廣、可解釋性更強(qiáng)的圖模型設(shè)計(jì),以及一些通用的提高模型訓(xùn)練穩(wěn)定性和泛化性的設(shè)計(jì)等方面都取得不少突破性成果。
在更具泛化性的模型結(jié)構(gòu)設(shè)計(jì)方面,研究員們提出了針對(duì)圖同配性和異配性同時(shí)建模的雙核圖網(wǎng)絡(luò)模型,和針對(duì)鄰域特征分布建模的混合矩圖網(wǎng)絡(luò)模型:
針對(duì)圖同配性和異配性同時(shí)建模的雙核圖網(wǎng)絡(luò)模型:研究員們發(fā)現(xiàn)無(wú)法建模異配關(guān)系的部分原因是,對(duì)同一階鄰居的向量表征使用了相同的核做變換所致,即使使用類似于圖注意力網(wǎng)絡(luò)(GAT)的注意力機(jī)制,但由于注意力計(jì)算的權(quán)重總是一個(gè)正值,所以一個(gè)核無(wú)法同時(shí)對(duì)節(jié)點(diǎn)表征之間的相似性和相異性(如正負(fù)相關(guān)性)進(jìn)行建模。針對(duì)這個(gè)問(wèn)題,研究員們分析發(fā)現(xiàn),無(wú)論是在同配圖還是異配圖的數(shù)據(jù)集上,都存在著相當(dāng)數(shù)量的異配子圖,且子圖的異配度參差不齊,而傳統(tǒng)模型如 GCN(圖卷積神經(jīng)網(wǎng)絡(luò))在同配子圖上往往表現(xiàn)優(yōu)異,但在異配子圖上發(fā)揮較差,這充分說(shuō)明了同時(shí)建模同配和異配性模型的必要性。因此,研究員們提出了一種基于雙核特征轉(zhuǎn)換和門(gate)機(jī)制的新型 GNN(圖形神經(jīng)網(wǎng)絡(luò))模型——GBK-GNN。通過(guò)具有不同同質(zhì)異質(zhì)特性的七個(gè)真實(shí)數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明,與其他 SOTA 方法相比,GBK-GNN 有穩(wěn)定且顯著的提升。
圖1:GBK-GNN 模型架構(gòu)圖
針對(duì)鄰域特征分布建模的混合矩圖網(wǎng)絡(luò)模型:GNN 是一類通過(guò)聚合鄰居信息來(lái)對(duì)圖上的節(jié)點(diǎn)、邊或者子圖進(jìn)行表示的機(jī)器學(xué)習(xí)模型。然而,大多數(shù)現(xiàn)有的 GNN 都使用單一的統(tǒng)計(jì)量,如平均數(shù)、最大值和求和,來(lái)聚合鄰居的特征,丟失了與鄰居特征分布相關(guān)的信息,降低了模型的性能。為了解決這個(gè)問(wèn)題,研究員們借鑒統(tǒng)計(jì)學(xué)理論的矩方法,提出了新的 GNN 模型——混合矩圖神經(jīng)網(wǎng)絡(luò) MM-GNN。在15個(gè)真實(shí)世界圖數(shù)據(jù)集(包括社交網(wǎng)絡(luò)、引文網(wǎng)絡(luò)和網(wǎng)頁(yè)網(wǎng)絡(luò)等)上進(jìn)行的廣泛實(shí)驗(yàn)表明,MM-GNN 優(yōu)于現(xiàn)有的最先進(jìn)的模型。
圖2:MM-GNN 模型架構(gòu)圖
在探索穩(wěn)定的圖深度學(xué)習(xí)模型的過(guò)程中,微軟亞洲研究院 DKI 組還發(fā)現(xiàn)了穩(wěn)定神經(jīng)元的響應(yīng)對(duì)模型泛化能力提升的幫助,提出了基于信息瓶頸理論的神經(jīng)元競(jìng)爭(zhēng)初始化策略:
穩(wěn)定神經(jīng)元響應(yīng)以提升模型泛化性能:研究員們從神經(jīng)元級(jí)別的細(xì)粒度出發(fā),分析了單個(gè)神經(jīng)元在神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測(cè)試中的響應(yīng)特性,發(fā)現(xiàn)提升神經(jīng)元對(duì)同類輸入樣本響應(yīng)的穩(wěn)定性能夠有效地提高神經(jīng)網(wǎng)絡(luò)的泛化性能。據(jù)此,研究員們提出了一種通用的正則項(xiàng),用于控制神經(jīng)元在激活狀態(tài)下響應(yīng)的類內(nèi)方差。該正則項(xiàng)簡(jiǎn)單高效,不僅顯著提高了圖學(xué)習(xí)領(lǐng)域的圖神經(jīng)網(wǎng)絡(luò)的泛化能力,還在計(jì)算機(jī)視覺(jué)領(lǐng)域中為卷積神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)模型帶來(lái)了顯著提升。
基于信息瓶頸理論的神經(jīng)元競(jìng)爭(zhēng)初始化策略:在深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜系統(tǒng)中,穩(wěn)定的訓(xùn)練過(guò)程往往依賴于有效的初始化機(jī)制?,F(xiàn)有的初始化機(jī)制研究工作主要關(guān)注于如何更好地緩解訓(xùn)練過(guò)程中所出現(xiàn)的梯度消失或爆炸問(wèn)題,但缺乏對(duì)提升模型最終泛化效果的關(guān)注。受信息瓶頸理論(information bottleneck theory)的啟發(fā),研究員們定義了兩個(gè)初始化目標(biāo),保證初始模型具有一定分類效果的同時(shí)能盡可能多地保留兩種模型輸入的信息量。此外,通過(guò)一種新穎且高效的神經(jīng)元競(jìng)爭(zhēng)算法,模型的初始化在上述兩個(gè)目標(biāo)之外還能保證初始化參數(shù)的多樣性。該方法的新穎性和有效性得到了 CIKM 委員會(huì)的青睞,并獲得了最佳短文獎(jiǎng)。
微軟亞洲研究院 DKI 組還利用圖建模方法賦能了更多領(lǐng)域,提出了基于圖模型增強(qiáng)的表格理解深度網(wǎng)絡(luò)。表格數(shù)據(jù)結(jié)構(gòu)的自動(dòng)化理解是對(duì)文檔表格和網(wǎng)頁(yè)表格進(jìn)行數(shù)據(jù)分析的重要步驟。然而,表格數(shù)據(jù)類型多樣,包括便于存儲(chǔ)的數(shù)據(jù)庫(kù)表格、為了利于展示的電子表格以及結(jié)構(gòu)更為靈活的問(wèn)卷式表格,這大大增加了表格理解的難度。對(duì)此,研究員們利用圖結(jié)構(gòu)靈活、泛用性強(qiáng)的特點(diǎn),引入了圖建模的思路,兼顧了建模表格結(jié)構(gòu)以及表格中文本的語(yǔ)義信息,設(shè)計(jì)了一個(gè)面向表格的通用深度網(wǎng)絡(luò),可以有效地理解表格結(jié)構(gòu)。此外,網(wǎng)絡(luò)中還引入了行粒度和列粒度上的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模塊,以更好地理解表格不同區(qū)域間的邊界關(guān)系。在兩種不同數(shù)據(jù)粒度的真實(shí)表格理解任務(wù)中,該方法都取得了最優(yōu)表現(xiàn)。
加強(qiáng)合作,推動(dòng)圖深度學(xué)習(xí)賦能更多場(chǎng)景
微軟亞洲研究院 DKI 組在圖深度學(xué)習(xí)研究中所取得的階段性技術(shù)突破,現(xiàn)已開(kāi)始應(yīng)用在眾多業(yè)務(wù)場(chǎng)景中。例如,在 Excel 中,通過(guò)圖建模的方法引入 WordNet 作為建模表格語(yǔ)義信息時(shí)的外部知識(shí),對(duì)表格結(jié)構(gòu)識(shí)別任務(wù)有明顯提升。而在領(lǐng)英(LinkedIn)的工作推薦功能中,一個(gè)很重要的問(wèn)題是如何把合適的工作推薦給合適的人。領(lǐng)英與 DKI 組合作通過(guò)異構(gòu)圖建模包括行業(yè)信息、教育背景、技能等在內(nèi)的領(lǐng)域知識(shí),并結(jié)合異構(gòu)圖 GNN 模型同時(shí)建模領(lǐng)域知識(shí)與用戶行為等信息,當(dāng)前已在線下實(shí)驗(yàn)中取得了明顯的推薦準(zhǔn)確率提升。
除此之外,微軟亞洲研究院 DKI 組還與學(xué)術(shù)界的高校和科研機(jī)構(gòu)合作,一道推進(jìn)圖深度學(xué)習(xí)領(lǐng)域的進(jìn)步與應(yīng)用。通過(guò)微軟亞洲研究院鑄星計(jì)劃,DKI 組的研究員與中科院計(jì)算所的學(xué)者共同探索了結(jié)合圖模型的交通軌跡數(shù)據(jù)的表示學(xué)習(xí),借由層級(jí)圖模型建模數(shù)據(jù)點(diǎn)的物理距離,有效提升了軌跡表示學(xué)習(xí)模型的效果。在與上交所的研究合作中,研究員們對(duì)大規(guī)模圖處理進(jìn)行了研究,提出了新的圖模型加速推斷方法,使推理過(guò)程更高效。
對(duì)于圖深度學(xué)習(xí)未來(lái)的研究規(guī)劃,微軟亞洲研究院首席研究員韓石表示,“下一步,微軟亞洲研究院 DKI 組將持續(xù)推進(jìn)企業(yè)級(jí)知識(shí)計(jì)算領(lǐng)域與相關(guān)基礎(chǔ)研究的探索,包括文檔智能、顯式知識(shí)表示和大規(guī)模語(yǔ)言模型的結(jié)合、以及圖深度學(xué)習(xí)模型等。同時(shí),我們也希望可以與更多學(xué)術(shù)機(jī)構(gòu)和專家學(xué)者合作,共同探索圖深度學(xué)習(xí)的前沿發(fā)展方向?!?/span>
感謝微軟亞洲研究院 DKI 組圖深度學(xué)習(xí)研究團(tuán)隊(duì)(成員包括:杜侖、陳旭、馬曉君、付強(qiáng)、韓石)對(duì)本文的貢獻(xiàn)。
相關(guān)論文鏈接:
1. Solution for NeurIPS 2022 OGB-LSC
https://ogb.stanford.edu/paper/neurips2022/wikikg90mv2_DNAKG.pdf
2. HTGN-BTW: Heterogeneous Temporal Graph Network with Bi-Time-Window Training Strategy for Temporal Link Prediction
https://www.wsdm-conference.org/2022/wp-content/uploads/2022/02/Task2_nothinghere_2nd.pdf
3. Neuron with Steady Response Leads to Better Generalization,NeurIPS’22
https://openreview.net/forum?id=9YQPaqVZKP
4. MM-GNN: Mix-Moment Graph Neural Network towards Modeling Neighborhood Feature Distribution, WSDM’23
https://arxiv.org/abs/2208.07012
5. Neuron with Steady Response Leads to Better Generalization,NeurIPS’22
https://openreview.net/forum?id=9YQPaqVZKP
6. Neuron Campaign for Initialization Guided by Information Bottleneck Theory,Best Short Paper at CIKM’21
https://dl.acm.org/doi/abs/10.1145/3459637.3482153
7. TabularNet: A Neural Network Architecture for Understanding Semantic Structures of Tabular Data, KDD’21
https://dl.acm.org/doi/abs/10.1145/3447548.3467228
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。