KDD 2021 | Transformer、知識圖譜等熱點話題,微軟亞洲研究院論文精選,速看!
編者按:第27屆國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會 KDD 2021 于8月14日-18日在線上正式開幕。本次大會共收到1541篇投稿,其中238篇論文被接收,接收率為15.44%。今天我們精選了微軟亞洲研究院在此次大會上發(fā)表的多篇論文中的5篇,來為大家進行簡要介紹,論文主題涵蓋:Transformer、云系統(tǒng)、神經網絡、最優(yōu)運輸、知識圖譜、表格數(shù)據(jù)理解、Table2Charts 模型等。歡迎大家積極參與文末的投****活動,我們將邀請大家最感興趣的論文的作者進行深度講解,與大家線上交流!
01HALO:云系統(tǒng)中基于層級關系感知的故障定位方法
論文鏈接:
https://www.microsoft.com/en-us/research/publication/halo-hierarchy-aware-fault-localization-for-cloud-systems/
在大規(guī)模工業(yè)云平臺中,故障診斷對于維持系統(tǒng)的高可靠性至關重要。當云平臺中發(fā)生故障報警時,快速縮小問題范圍并找到根本原因是頭等要務。本文主要聚焦于利用多維度監(jiān)控數(shù)據(jù)(見表1)進行故障診斷。其旨在通過大量的監(jiān)控數(shù)據(jù),找出故障集中的一組屬性值組合,進而圈定根因范圍,以實現(xiàn)加速故障解決的目標。
表1:多維度監(jiān)控數(shù)據(jù)
事實上,面對復雜的云系統(tǒng)環(huán)境和高維度、大規(guī)模的監(jiān)控數(shù)據(jù),傳統(tǒng)的人工分析十分低效且難以推廣。針對這個問題,學術界近幾年提出了很多種數(shù)據(jù)驅動的故障診斷方法。然而,由于待搜索的屬性值組合空間呈指數(shù)量級,所以其中大多數(shù)方法的效率遠達不到實時診斷的要求。而且在大部分的現(xiàn)有工作中,監(jiān)控數(shù)據(jù)中各維度之間的層級關系都沒有被考慮到。(如數(shù)據(jù)中心由若干集群組成,一個集群又包含多個節(jié)點,如圖1)因此,相關工作很難將故障精確地定位到適當?shù)膶蛹壛6?,以引導正確的診斷方向。
圖1:云系統(tǒng)中的層級關系
針對上述問題,微軟亞洲研究院的研究員們提出了基于層級關系感知的故障定位方法:HALO(見圖2)。與以往的方法不同,HALO 將定位過程分為兩個階段:屬性列搜索階段和屬性值搜索階段。在屬性列搜索階段,HALO 首先可以自動識別監(jiān)控數(shù)據(jù)中不同維度之間的層次關系,以構建 Attribute Hierarchy Graph(AHG);然后,HALO 在 AHG 上采用概率隨機游走的方式來生成屬性列搜索路徑。在屬性值搜索階段,HALO 沿屬性列搜索路徑,通過寬度自適應 Beam Search 技術實現(xiàn)自頂向下的搜索,以得到屬性值組合;最后,HALO 將采用反向截斷策略,進一步精簡搜索結果。
圖2:HALO 示意圖
通過在真實數(shù)據(jù)集上將 HALO 與其他方法進行對比(見表2),可以看出 HALO 能明顯提高故障定位的準確率。并且通過對比運行時間(見圖3),也可以看出 HALO 的運行效率遠超同類別的其他方法。目前 HALO 已經成功地應用在微軟多個產品的不同場景中,如 Microsoft Azure 云計算平臺中的虛擬機故障診斷和 Microsoft 365 中的 Exchange Online 安全部署等。實際的應用效果都充分表明 HALO 具有很好的通用性和實用價值。
表2:真實數(shù)據(jù)集中 HALO 與其他方法的對比
圖3:HALO 與其他方法運行時間的對比
02基于 TRA 和最優(yōu)運輸學習多種股****交易模式
論文鏈接:
https://arxiv.org/pdf/2106.12950.pdf
代碼鏈接:
https://github.com/microsoft/qlib/tree/main/examples/benchmarks/TRA
股****預測是量化投資中最為關鍵的任務。近年來,深度神經網絡因其強大的表征學習能力和非線性建模能力,逐漸成為股****預測的主流方法?,F(xiàn)有的預測方法均假設股****數(shù)據(jù)符合獨立同分布(IID)且采用單一模型有監(jiān)督地對股****數(shù)據(jù)建模。但實際上,股****數(shù)據(jù)通常會包含多種不同甚至對立的分布(Non-IID),比如動量(歷史收益率高的股****未來收益率會高)和反轉(歷史收益率低的股****未來收益率會高)這兩種分布形式同時存在于股****數(shù)據(jù)中,但是已有的模型并不具備同時學習股****數(shù)據(jù)中多種分布的能力。
因此,微軟亞洲研究院的研究員們提出了 Temporal Routing Adaptor (TRA),來賦予已有模型學習多種分布的能力。具體而言,TRA 在給定骨干模型的基礎上,引入了一組 Predictors 來建模不同分布,和一個 Router 來根據(jù)樣本的規(guī)律 p(y_t│X_t) 將其分配到所屬的 Predictor 上進行訓練和推理。為了保證 Router 能夠預測出樣本的規(guī)律,研究員們設計并利用了兩種與 p(y_t│X_t) 關聯(lián)的信息作為其輸入:1) 利用骨干模型的隱層來表征 p(y ?_t |X_t),2) 利用Predictor的歷史預測偏差來表征 p(y_(<t)│X_(<t))。實驗表明,這兩種信息對 Router 有能力預測出樣本規(guī)律起到了重要作用。TRA 的兩個主要模塊和基于骨干模型的具體實現(xiàn)可以參考圖4。
圖4:TRA 結構示意圖
為了有效地訓練 TRA 模型,另一個需要解決的問題是,如何保證分配到不同 Predictor 的樣本是屬于不同規(guī)律的。因此,研究員們基于最優(yōu)運輸 (Optimal Transport) 設計了一個迭代優(yōu)化的算法。最優(yōu)運輸被用來求解在分配的樣本滿足特定比例約束下,如何分配樣本能夠最小化整體預測偏差。求解得到的分配方案會用來更新對應的 Predictor,并繼續(xù)下一輪迭代,直至收斂。
圖5:基于最優(yōu)運輸將樣本分配到一組 Predictors
實驗表明,TRA 可以穩(wěn)定提升之前在股****預測中表現(xiàn)最強的基準模型如 Attention LSTM 和Transformer 的預測性能,并取得更高的投資收益(結果見表3)。
表3:TRA 模型相比于其他基準模型在股****排序預測任務下的性能
03 錨點知識圖生成:一種為新聞推薦提供推理的新范式
論文鏈接:
https://www.microsoft.com/en-us/research/uploads/prod/2021/05/KDD2021-anchorkg.pdf
知識圖譜不僅可以用于提高推薦算法的準確性,還可以為推薦提供推理(reasoning)的能力。然而在新聞場景中,現(xiàn)有的推薦推理方法存在一定的缺陷,例如計算成本高,只能用于排序;只能尋找單一路徑,不能很好的結合新聞文本信息等。
在本文中,微軟亞洲研究院的研究員們提出了一種新的基于知識圖譜的推理范式 AnchorKG,它的優(yōu)點有以下幾點:
(1)可拓展性強,支持大規(guī)模的通用知識圖譜;
(2)能夠結合知識圖譜和文本內容;
(3)不局限于只提供單一解釋路徑;
(4)能夠靈活地應用于推薦的不同階段:召回和排序。
對于每篇新聞文章,研究員們從知識圖譜中生成一個和這篇新聞內容緊密相關的小規(guī)模子圖(Anchor KG)。這個子圖包含了出現(xiàn)在新聞中的重要實體,以及在知識圖譜中與這篇新聞緊密相關的信息。當在進行新聞間的推薦推理時,研究員們利用兩篇新聞 Anchor KG 的重合關系,就可以找出兩篇相關新聞間的推理路徑。
為了得到 Anchor KG 的生成器,研究員們還提出了一種基于強化學習的框架,并用經典的演員-評論家(actor-critic)算法進行優(yōu)化,如圖7所示。生成器(即演員)學習動作策略函數(shù) ,它以狀態(tài)和可能的動作空間為條件,來計算動作的概率分布,同時使用多層感知器來建模演員網絡。評論家則通過估計 MDP 環(huán)境中的動作價值函數(shù),來評估動作好壞,并使用時間差異方法進行訓練。此外,為了更好地學習模型,研究員們設計了幾種訓練技巧,包括:1)熱啟動訓練;2)基于知識圖譜的負采樣;3)多任務學習。
圖6:基于強化學習的學習框架
研究員們在兩個新聞數(shù)據(jù)集上驗證了本文提出模型的效果(如圖8所示),與多種基線方法相比,AnchorKG 不僅準確率更高,而且還能提供高質量的解釋路徑(見表4和表5)。
表4:不同模型的推薦準確性比較
表5:不同模型的推薦可解釋性比較
圖7:利用兩篇新聞的 AnchorKG 進行推薦推理的樣例
04 Table2Charts: 基于共享表格表征的圖表推薦
論文鏈接:
https://arxiv.org/abs/2008.11015
表格(table)是由一系列具有相同或相似屬性的多維數(shù)據(jù)組成的半結構化數(shù)據(jù)。制作圖表(charts)是人們對表格內容進行理解和交流的一種重要方式。在制圖的過程中,人們常常會遇到不同的問題。一方面,從表格數(shù)據(jù)中抽取有意義的關系和模式需要一定的專業(yè)知識,想要更好地展現(xiàn)數(shù)據(jù)的特征,還需要挑選合適的圖表類型。另一方面,在辦公軟件中制作圖表,要經過框選數(shù)據(jù)、類型選擇、參數(shù)選擇等一系列復雜的操作,不利于辦公效率的提升。因此,本文提出了 Table2Charts 模型,通過學習共享表格表征,以實現(xiàn)多種類型的圖表推薦。
圖8:Table2Charts 能推薦的多種圖表類型
在現(xiàn)實生活中,由于圖表類型的多樣性以及表格內容的豐富性,圖表推薦面臨著以下幾個挑戰(zhàn):1)分散模型成本高昂,為每種類型的圖表分別提供推薦模型,會降低推薦效率并成倍增加內存開銷;2)數(shù)據(jù)不平衡,絕大部分表格都屬于四種主要類型,其它類型的數(shù)據(jù)非常稀少;3)表格整體理解,數(shù)據(jù)列的語義受到表頭、數(shù)值組合乃至其余數(shù)據(jù)列的共同影響,而正確理解數(shù)據(jù)列對于推薦決策至關重要。
針對這些挑戰(zhàn),本文設計了共享的表格表征以及統(tǒng)一的圖表抽象方式。對于給定的表格,每個數(shù)據(jù)列被分別編碼成特征向量,并抽象為一個 field token。特征向量包含表頭文本的 embedding、數(shù)值的統(tǒng)計特征以及數(shù)據(jù)列類型和角色等多方面信息,以幫助編碼器準確地理解數(shù)據(jù)列。同時,本文為不同的圖表類型設計了一套語法模板,使用固定的 command tokens 和可變的 field tokens 將圖表抽象為序列,將圖表推薦轉化為 table2sequence 形式的任務。
圖9:Table2Charts 框架
在 Encoder-Decoder 框架的基礎上,本文采用了深度 Q 值網絡的思想,使用 next-token estimation 任務進行訓練。在推薦時,使用語法約束的 beam search 得到有序的圖表推薦結果。表格理解部分是一個統(tǒng)一的共享編碼器。對于不同類型的圖表推薦,模型分別訓練不同的小型****,以應對不同的需求場景。每個****由一個獨立的帶有 copy 機制的序列生成模塊構成。
圖10:深度 Q 值網絡結構
本文使用不同的圖表數(shù)據(jù)進行了兩類****的訓練:1)采用所有數(shù)據(jù)訓練得到 multi-type ****,能夠根據(jù)輸入的表格推薦合適類型的圖表,適用于從零開始的推薦場景;2)在共享編碼器的基礎上,采用單類型數(shù)據(jù)訓練得到 single-type ****,適用于特定類型的圖表推薦場景。后者受益于從其他類型數(shù)據(jù)中遷移過來的表格理解知識,同時也保證了特定類型的圖表生成質量。
在實驗中,本文提出的 Table2Charts 在數(shù)據(jù)選擇與制圖設計兩個步驟的表現(xiàn),均大幅優(yōu)于現(xiàn)有的圖表推薦模型或工具。共享表格表征的遷移為所有類型的圖表推薦帶來了一致的提升,對于數(shù)據(jù)稀少的類型,提升效果尤為顯著。同時這也表明,共享編碼器確實學習到了通用的模式和特征。
表6:Multi-type 圖表推薦任務效果對比
表7:各模型推薦圖表人類評分
表8:Single-type 圖表推薦任務效果對比
05 TUTA: 通用表格預訓練的樹結構Transformer
論文地址:
https://arxiv.org/abs/2010.12537
表格是一種非常重要和常見的半結構化數(shù)據(jù),廣泛使用在文檔和網頁中。在收集的六千萬個文檔和網頁表格(包括超過二十億單元格)中,微軟亞洲研究院的研究員們首次對通用結構的表格進行了大規(guī)模的預訓練。并且在表格結構理解的六個下游數(shù)據(jù)集上,也都取得 SOTA 的效果。
理解表格面臨著各種挑戰(zhàn),需要綜合理解語義、空間和結構,如:需要在簡短的單元格文本里來捕捉表格里的語義;需要在二維的表格空間中進行理解;需要對表格的層級信息理解。
圖11:表格結構示例
Transformer 在自然語言的預訓練上已經取得了較好的效果。但是,針對通用表格位置、結構建模困難等一系列問題,本文相應地提出了 Tree-based Transformer。同時,研究員們還設計了二維樹來建模單元格的空間和層級,并對單元格的二維樹坐標和單元格間的二維樹距離進行了量化,進一步設計了基于二維樹結構的注意力機制。
圖12:基于二維樹結構的位置編碼和距離度量
在表格預訓練任務上,為了可以學習到不同層級的表征,且更好的應用到不同級別的下游任務上,本文除了使用經典的 token MLM 任務,還進一步設計了 cell-level cloze 的任務和 table-level 的 context retrieval 任務。
圖13:token、cell 和 table 粒度上的表格預訓練任務
實驗表明,模型在表格結構理解(表格類型識別和單元格類型識別)的六個下游數(shù)據(jù)集上均取得了最好的效果。消融實驗也證明了利用樹結構對理解通用結構表格的有效性。同時,結合三個預訓練任務,也有助于提高下游任務的表現(xiàn)。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。