2W字長文 | 漫談工業(yè)界圖神經(jīng)網(wǎng)絡推薦系統(tǒng)（5）

發(fā)布人：數(shù)據(jù)派THU 時間：2021-12-18 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

3.6 Gemini: A Novel and Universal Heterogeneous Graph Information Fusing Framework for Online Recommendations[39] [Gemini]，KDD 2020，滴滴

問題背景：基于User-Item二分圖的方法，一種是直接在原圖上交叉聚合，另一種是借助輔助數(shù)據(jù)（如社交網(wǎng)絡）將其劃分為User-User，Item-Item同構圖。前者會存在鄰居稀疏的問題，后者則丟失了User-Item關聯(lián)信息，并且輔助數(shù)據(jù)限制了應用場景。

業(yè)務場景：物品推薦排序階段

圖的構建：群體用戶行為數(shù)據(jù)構建的二分圖，接著通過User-Item-User，Item-User-Item關系導出User-User和Item-Item同構圖，由于是通過二階鄰居導出的子圖，在某種程度上緩解了鄰居稀疏的問題。

特征使用：

Node Embedding：同構子圖可以使用User和Item的多種特征，但是作者對邊的異構性進行了建模，因此實際只能使用ID特征。

Edge Embedding

User-User子圖中，邊由導出時的中間Items決定（保留了原來的一階鄰居信息）

直接對Items Sum pooling無法建模重要性差異，因此作者提出了TF-IDF Pooling，其中TF是某Item在該邊對應的所有Items中的占比，占比越大，說明對該邊來說越重要；IDF是某Item在所有邊對應的Items集合中的占比，占比越大，說明該Item重要性越低。TF-IDF=TF*IDF。

這里沒有直接用TF-IDF加權求和，而是將該得分分桶離散化然后Embedding，通過元素積的方式進行特征交叉

采樣方法：Node-Wise Sampling Attention based Aggregating：加性模型計算Attention，并且考慮了Edge Embedding，得到鄰域Embedding后與自身Embedding進行融合。

Gemini Framework

訓練推斷：使用MLP計算User點擊某Item的概率，損失函數(shù)交叉熵，點擊Item為正樣本，曝光未點擊Item為負樣本（因此可以斷定是排序模型）

Joint training：在User-User上聚合鄰居時，Edge Embedding需要用到Item Embedding，反之亦然，所以User-User和Item-Item的聚合過程是相互依賴的。

Gemini-Collaboration Framework：似乎是將原來相互依賴的兩個聚合過程分開，先將其中一個訓練至收斂再進行另一個，從而降低訓練的復雜度，類似GAN的訓練方式。

3.7 Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks for Cold-start Recommendation[40] [MvDGAE]，KDD 2021，騰訊

問題背景：User-Item行為數(shù)據(jù)往往非常稀疏，新用戶或新商品存在冷啟動問題。一類方法通過引入更多屬性特征緩解，但是這會非常依賴特征數(shù)據(jù)的獲取和質(zhì)量；另一類方法通過HIN引入屬性信息來緩解（這和上面的有什么區(qū)別），但是它們大多通過有監(jiān)督的方式訓練，會產(chǎn)生訓練和測試階段的不一致（訓練階段大多是old user或item，測試階段存在更多new user或item，它們在圖中的連接會比較稀疏，只存在一些屬性關聯(lián)）。

業(yè)務場景：文中沒有具體說，從損失函數(shù)與推斷方式來看似乎是物品推薦的排序階段

圖的構建：群體用戶行為數(shù)據(jù)+屬性數(shù)據(jù)構成的異構圖

特征使用：從聚合方式來看，只用上了ID特征（需要注意的是，這里是是指單個結點的ID特征，實際上在HIN中，屬性特征被建模為了結點，例如，電影的演員特征，演員被建模為了結點）

采樣方法：分為兩個階段，Encoder階段基于Meta-Path（首尾不限） Node-Wise采樣，Decoder階段基于特定的Meta-Path（首尾相同）采樣出User-User和Item-Item子圖，每個Meta-Path對應一個View。Multi-view Graph Encoders

Node-level Aggregation based on Meta-path：通過GAT聚合Node-Wise采樣到的鄰居，這里不同于HAN，對于Meta-Path上的鄰居（存在不同類型）都會聚合。

Dropout on Multi-views：這里是對View的Dropout，而不是某個View下Edge的Dropout，通過Dropout可以迫使學習到的Embedding更具泛化性，在測試時對于連接稀疏的new user或item有更好效果。

Multi-view Graph Denoising Decoding

Construct Multi-View Graph：基于首尾相同的Meta-Path構建不同View的User-User和Item-Item子圖，使得那些相似的User或Item的表征也更接近。

Multi-View Graph Decoding：用Encoder得到的Embedding重構多個View的子圖，即鏈接預測任務。

Sampling Strategy：對所有結點對預測邊開銷太大，需要經(jīng)過采樣預測部分邊，這里對Meta-Path 1-hop鄰居完全采樣，然后對2 hop鄰居部分隨機采樣，以緩解1-hop鄰居稀疏的問題。

Bayesian Task Weight Learner：多個View子圖的Encoder和Decoder是獨立的，最終需要將它們的Loss整合到一起聯(lián)合訓練，這里也用了異方差不確定性來自動學習權重。

Optimization Objective：Loss由兩部分組成，一部分是重構Loss，一部分是評分Loss（均方差）（如果只有點擊數(shù)據(jù)，那就是交叉熵），所以本文其實是利用到了標簽數(shù)據(jù)，是無監(jiān)督+有監(jiān)督的結合。

3.8 Graph Intention Network for Click-through Rate Prediction in Sponsored Search[36] [GIN]，SIGIR 2019，阿里

問題背景：使用單個用戶的歷史行為表征用戶興趣存在行為稀疏和泛化性弱的問題；圖神經(jīng)網(wǎng)絡預訓練的方式得到的Embedding與目標任務不相關。

業(yè)務場景：搜索廣告排序階段

圖的構建：群體用戶行為數(shù)據(jù)構建Item同構圖。首先將Item點擊序列按照Query相關性劃分為多個Session，然后在Session內(nèi)相鄰Item之間構建鄰居關系（防止不相關的兩個Item成為鄰居），邊的權重為共現(xiàn)頻數(shù)。具體使用近30天所有用戶的點擊序列構建商品相似圖。

特征使用：多種特征

采樣方法：Node-Wise Sampling，根據(jù)共現(xiàn)頻數(shù)計算概率分布模型結構：為序列中的每個Item采樣鄰居用GNN聚合得到更一般的Embedding，即通過構建圖引入額外信息豐富行為序列從而緩解行為稀疏問題和泛化性弱的問題。得到更一般的Embedding后就是常規(guī)的Target Attention抽取序列中的偏好信息。

3.9 ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation[37] [ATBRG]，SIGIR 2020，阿里

問題背景：基于Meta-Path的方法，一方面需要人工經(jīng)驗設計，另一方面會損失結構信息（各Meta-Path獨立）；基于GNN的方法，一方面對Target Item和User分別采樣，缺少它們之間的交互性，另一方面隨機采樣鄰居可能會引入噪聲（這個得看圖是怎么構建的吧，并且我們也可以按權重采樣）。

a中由于各Meta-Path獨立，襯衫和連衣裙沒能建立起關聯(lián)

b中一方面由于分別采樣，丟失了Target Item與用戶行為過的連衣裙的關聯(lián)，另一方面由于隨機采樣反而引入了開水壺噪聲

c中用本文特有的構建圖的方式，最終得到的KG圖既能較好地保留結構信息，又能去除一些與Target Item不相關的噪聲。

業(yè)務場景：商品推薦排序階段

圖的構建：群體用戶行為數(shù)據(jù)+屬性數(shù)據(jù)構建的異構圖

特征使用：ID特征

采樣方法：從Target Item和用戶行為過的Items構成的Root Nodes合集中，分別為每個結點在圖中采樣K-Hop鄰居，根據(jù)采樣的結點集合從原圖中誘導出子圖（區(qū)別于獨立采樣，可以建立Target Item與行為過的相關的Item的聯(lián)系），對于該子圖中只有一個鄰居的結點進行剪枝（這些結點很可能是噪聲）。

Embedding Layer：User和Target Item的Embedding（ID和其他特征），異構圖（KG圖）中實體和關系的Embedding。

Relation-aware Extractor Layer：這里是用中心結點計算鄰居結點的重要性，同時對“關系”進行了建模，即關系的類型會影響重要性，例如，點擊和購買兩種關系，顯然表現(xiàn)出的興趣程度不同

Representation Activation Layer：得到Target Item和Sequence Item的Embedding后，這里又進一步使用Target Attention篩選相關信息

Feature Interaction Layer：將所有Embedding Concat后送入MLP做特征交叉

3.10 GMCM: Graph-based Micro-behavior Conversion Model for Post-click Conversion Rate Estimation[38] [GMCM]，SIGIR 2020，阿里

問題背景

微觀行為與最終是否成交高度相關，但是微觀行為不適合用序列建模，不同順序的微觀行為表達的可能是同一意圖，例如，用戶在購買前先看評論再看問大家，和先看問大家再看評論，表達的意圖一樣。（這里的微觀行為是指用戶點擊商品后，購買商品前發(fā)生的一系列行為，例如評論，收藏等）

CVR任務存在數(shù)據(jù)稀疏的問題（用戶的成交行為是稀疏的）

CVR任務存在樣本選擇偏差的問題（用戶是先點擊后成交，但是線上CVR預估時，是從全域候選集經(jīng)過召回后打分，而不是對用戶發(fā)生過點擊的Item打分）業(yè)務場景：商品推薦排序階段

圖的構建：群體用戶行為數(shù)據(jù)構建的異構圖

微觀行為圖，結點是微觀行為，邊是共現(xiàn)頻數(shù)歸一化后的權重

用所有用戶的微觀行為數(shù)據(jù)構建圖，即該圖反映的是一般性的群體規(guī)律，對于單個用戶其微觀行為數(shù)據(jù)體現(xiàn)在Node Loss中

特征使用：上游多種特征變換對齊后的Embedding

采樣方法：微觀行為圖是很小的，不需要進行采樣 Multi-task Learning Modul：底層共享部分Embedding（特別是ID Embedding）

Graph-based CVR Networks

MLP Layers

Node Embedding Layer：將MLP的輸出通過N個1-Layer MLP映射為N個微觀行為結點Embedding

Graph Convolutional Networks

P是歸一化后的共現(xiàn)頻數(shù)，B是一個可學習的權重矩陣

這里分成了兩個任務，一個是預測某個微觀行為結點是否存在，即在構建圖時是默認所有微觀結點都存在，并且圖的邊權也是所有用戶數(shù)據(jù)統(tǒng)計出的。單個用戶的微觀行為數(shù)據(jù)是在Node Loss中體現(xiàn)的。

另一個是將CVR預測轉(zhuǎn)化為了圖分類任務，即微觀行為圖可以反映用戶是否會發(fā)生成交

圖的Embedding通過Graph Pooling得到，例如Sum pooling，Mean pooling，Concat Pooling

Loss Layer：相應的PMG Loss也由Node Loss和CVR Loss構成，最終Loss由PMG Loss和CTR Loss組合而成（也有分別訓練）。這里將CTR預估分數(shù)作為了IPV來Debias。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

LCD顯示屏相關文章:lcd顯示屏原理

lcd相關文章:lcd原理

博客專欄

2W字長文 | 漫談工業(yè)界圖神經(jīng)網(wǎng)絡推薦系統(tǒng)（5）

相關推薦

技術專區(qū)