人臉識別的可解釋性
以下文章來源于極市平臺
導讀
人臉識別的可解釋性是深度學習領域中的一個很大挑戰(zhàn),當前的方法通常缺乏網(wǎng)絡比較和量化可解釋結(jié)果的真相。本文作者定義了一種新的評估方案,稱為“修復游戲”,通過生成一個網(wǎng)絡注意力圖,為量化評價哪些圖像區(qū)域有助于人臉匹配提供了基本事實。
論文標題:Explainable Face Recognition
論文鏈接:https://arxiv.org/abs/2008.00916
論文代碼:https://github.com/stresearch/xfr
論文發(fā)表:ECCV2020
合作單位:劍橋Visym實驗室
引言
眾所周知,理解和解釋深度學習模型是一個比較有挑戰(zhàn)的事情,因為大規(guī)模訓練的深度卷積網(wǎng)絡被認為是黑盒系統(tǒng),也許我們可以對訓練的數(shù)據(jù)集和損失函數(shù)有一定的了解,但是對深度模型的學習過程以及生成的預測的理解確實很有限。自然深度學習中的很重要領域人臉識別的可解釋性也是一個很大的挑戰(zhàn),當前在這方面探索的方法有網(wǎng)絡注意力、網(wǎng)絡解剖或綜合語言解釋,然而,缺乏網(wǎng)絡比較和量化可解釋結(jié)果的真相,尤其是在人臉識別中近親或近親之間的差異很微妙,解釋并不明顯。在該論文中作者定義了一種新的評估方案,稱為“修復游戲”,其任務是生成一個網(wǎng)絡注意力圖,最好地解釋圖像中的哪些區(qū)域與匹配的圖像匹配,這為量化哪些圖像區(qū)域有助于人臉匹配提供了基本事實。
論文貢獻
該論文的貢獻可以歸結(jié)為如下三點,分別如下所示
· XFR baseline:作者基于五種網(wǎng)絡注意力算法為XFR(人臉識別的可解釋性)提供了baseline,并在三個用于人臉識別的公開深度卷積網(wǎng)絡上進行了評估:LightCNN、VGGPFACE2和SNET-101。
· 圖像修復游戲協(xié)議和數(shù)據(jù)集:作者提供標準化評估協(xié)議和數(shù)據(jù)集,用于細粒度的人臉識別可視化。這為客觀地比較XFR系統(tǒng)提供了一個量化指標。
· XFR評估:作者首次對圖像修復協(xié)議的baseline算法進行了全面的評估,從而得出關于這些方法在真實圖像上解釋的實用性的結(jié)論。
模型介紹
人臉識別的可解釋性(XFR)
該論文的創(chuàng)新點可能是從Facenet中得到一定的靈感。XFR的目的是解釋人臉圖像之間的匹配的內(nèi)在關系。如下圖所示,給定一個三元組(probe,mate,nonmate),XFR算法的任務是生成一個顯著圖(最大化probe圖像與mate圖像相似性和最小化probe圖像與nonmate圖像相似性)。先前的工作表明,面部之間的成對相似性主要受眼周區(qū)域和鼻子的影響。眼周區(qū)域和鼻子幾乎總是用于面部分類,但這對于解釋更精細的辨別水平?jīng)]有太大幫助。作者的目標是突出probe中與假定mate更相似,同時與nonmate不太相似的區(qū)域。這個三元組(probe,mate,nonmate)為面部區(qū)域的相對重要性提供了一個比面部類別激活圖更深層次的解釋。
激勵反向傳播(EBP)
激勵反向傳播(EBP)將網(wǎng)絡注意力建模為一個概率贏家通吃的傳播過程。EBP計算穿越到卷積網(wǎng)絡中給定節(jié)點的概率,概率是由正權重和非負權重激活得來。EBP的輸出是一個顯著圖,它定位了圖像中對于給定類別的區(qū)域。EBP的原始公式考慮了交叉熵損失,以優(yōu)化訓練集中的最大分類。在該論文中在作者提出了一個新的公式,給定一個mate(m)、nonmate(n)和probe(p)的三個編碼向量,其中損失函數(shù)如下所示:
這里使用編碼向量之間的歐幾里德距離的平方來捕獲相似性,使得當從probe到mate的距離小(相似性高)并且從probe到nonmate的距離大(相似性低)時,損失最小化,其中公式中具有余量項。
子樹EBP
在該論文中作者介紹了子樹EBP算法,這是一種新的白盒的XFR方法。給定一個三元組(probe,mate,nonmate)圖像,計算損失函數(shù)相對于網(wǎng)絡中每個節(jié)點的梯度,其中mate編碼向量和nonmate編碼向量被假定為常數(shù),并且相對于probe圖像計算梯度。作者按遞減順序?qū)γ總€節(jié)點的梯度進行排序,并選擇正梯度最大的前k個節(jié)點。從每個選擇的內(nèi)部節(jié)點構建k個EBP顯著圖,然后進行加權凸組合,其中權重為,則有如下公式:
其中權重由損失梯度給出,并且歸一化為和為1。這形成了最終的子樹EBP顯著圖。
DISE
基于密度的解釋輸入采樣(DISE)是該文介紹的第二種新的白盒XFR方法。DISE是隨機輸入抽樣的一種擴展,使用先驗密度來輔助抽樣。先前的工作已經(jīng)構建了與特定類別相關聯(lián)的顯著圖,方法是通過掩模來隨機擾動輸入圖像,然后使用黑盒系統(tǒng)對其進行評估。但是這些方法生成的掩模會均勻地遮擋輸入圖像,像這種采樣過程是低效的。在該論文中作者通過引入先驗分布來指導采樣并進行改進,輸入采樣的先驗密度是從具有三重損失的白盒EBP得到的,如下圖所示顯示了論文中該方法的概述,該方法利用灰色(即屏蔽像素)來遮擋probe圖像中的小區(qū)域,利用EBP得到的先驗密度并進行采樣,并為給定(probe,mate,nonmate)計算三重損失的數(shù)值梯度,可以發(fā)現(xiàn)具有大數(shù)值梯度的掩模在累積顯著性圖中權重更大。
非均勻先驗掩模
先前對面部識別的辨別特征的研究表明,面部最重要的區(qū)域通常位于眼睛和鼻子內(nèi)和周圍。如上圖所示使用VGG-16網(wǎng)絡作為白盒面部分類器為泰勒·斯威夫特的probe圖像計算的該顯著圖的示例。使用這個顯著圖作為生成隨機掩模的先驗概率,允許對最顯著的空間進行采樣比在整個圖像上假設均勻概率更有效地影響損失的掩模,這可以進一步有效地消除了掩模不重要的背景元素的可能性。
Numerical gradient
給定已經(jīng)用從非均勻先驗采樣的稀疏掩模的probe圖像,可以計算三重損失的數(shù)值梯度。設為probe的編碼向量,為mate圖像嵌向量,為nonmate圖像向量,為掩模的probe向量。則三重損失的數(shù)值梯度可以近似為:
數(shù)值梯度是真實損失梯度的近似值,該損失梯度是通過用像素掩模來擾動輸入,并計算三重損失的相應變化。當probe和nonmate之間相似性減少時,數(shù)值梯度會變大,顯著性特征會得到累積。
實驗結(jié)果
在該論文中,論文的目標是突出給定一個人臉圖像相對于一個相似身份進行匹配的區(qū)域,作者把定量評估的整體策略稱為圖像修復游戲。
圖像修復游戲
圖像修復游戲評估的概述如下圖所示。圖像修復游戲使用四個(或更多)圖像進行每次評估:probe圖像、mate圖像、修復的probe圖像和修復的nonmate圖像,其中面部固定區(qū)域(如眼睛、鼻子或嘴)的probe會有細微的不同。類似地,修復后的nonmate或mate形象有細微的不同。修復的probe 和修復的nonmate被約束為相同的新身份。對于每個三元組,XFR算法的任務是估計每個像素屬于一個區(qū)域的可能性,該區(qū)域?qū)τ趯robe匹配到mate 身份是有區(qū)別的,這些有區(qū)別的像素估計最終形成了顯著圖。通過應用閾值將每個像素分類,這就形成了二進制顯著圖。
人臉識別的修復數(shù)據(jù)集
構建圖像修復數(shù)據(jù)集的一個關鍵挑戰(zhàn)是要確修復后的圖片與原圖片表示的是不同的身份。大多數(shù)修復的圖像在相似性上與特定網(wǎng)絡的原始配對身份沒有足夠的差異。實驗中需要能夠使用最近匹配協(xié)議和驗證協(xié)議來區(qū)分這些身份,以便將目標網(wǎng)絡的驗證匹配閾值校準在一個較低誤報率中。每個三元組必須滿足以下標準,才能包含在給定網(wǎng)絡的數(shù)據(jù)集中:原始probe需要更類似于原始配對身份,并且在校準驗證閾值處被正確驗證為原始配對身份。如上所述為每個目標網(wǎng)絡過濾修復數(shù)據(jù)集,產(chǎn)生特定于該目標網(wǎng)絡的數(shù)據(jù)集。在該論文的實驗中,對于基于ResNet-101的網(wǎng)絡,最終過濾的數(shù)據(jù)集包括84個身份和543個三元組,這是從95個身份和3648個三元組中過濾下來。性能較低的網(wǎng)絡通常比性能較高的網(wǎng)絡具有更少的滿足選擇要求的三元組,因為它們不能辨別修復probe圖像中的許多細微變化。
評估指標
XFR算法估計每一個像素屬于一個區(qū)域的可能性,該區(qū)域?qū)τ趯robe圖像與mate的身份相匹配。這些有區(qū)別的像素估計形成顯著圖,其中最亮的像素被估計最有可能屬于有區(qū)別的區(qū)域。下圖顯示出了兩個閾值處的示例和顯著性預測,其中顯著性預測作為二進制掩模在不同的閾值處展示出來。在該論文中作者使用經(jīng)典的ROC曲線來評估圖像修復游戲。如下圖所示,通過掃描像素顯著性估計的閾值,并通過使用修復區(qū)域作為正/顯著區(qū)域和未修復區(qū)域作為負/不顯著區(qū)域來計算真實接受率和誤報率,可以生成ROC曲線。另外在該論文中,作者使用平均非狀態(tài)分類率來代替顯著性分類的真陽性率。通過掃描顯著性閾值被分類為顯著的像素被來自“修復探針”的像素替換,該“修復探針”不被提供給顯著性算法。然后,這些“混合探針”可以讓被測試的網(wǎng)絡分類為原始身份或修復的非原始身份。高性能的XFR算法將正確地為修補區(qū)域分配更多的顯著性,這將改變混合探針的身份,而不會增加像素顯著性分類的誤報率。假陽性率是根據(jù)所有三元組的顯著像素分類計算的,使用混合探針的基本真值掩碼。平均非移動分類率由每個組中的三元組數(shù)量加權過濾數(shù)據(jù)集的面部區(qū)域,以避免子協(xié)議的偏差。度量的輸出曲線示例如下圖所示。
實驗數(shù)據(jù)
作者使用三個目標網(wǎng)絡在修復數(shù)據(jù)集上運行修復游戲評估協(xié)議分別是LightCNN,VGGFace2。
ResNet-50和一個定制訓練的ResNet-101。評估結(jié)果如下表所示:顯示了網(wǎng)絡和XFR算法的每種組合,整個協(xié)議和三個子協(xié)議(僅眼睛、鼻子和眉毛)的兩種誤報率。顯示了網(wǎng)絡和XFR算法的每種組合,整個協(xié)議和三個子協(xié)議(僅眼睛、鼻子和眉毛)的兩種誤報率。論文中的補充材料中的附加結(jié)果顯示了各個面部區(qū)域的結(jié)果。總的來說,結(jié)果顯示對于更深的網(wǎng)絡(ResNet-101,ResNet-50),性能最好的XFR算法是DISE。然而,對于較淺的網(wǎng)絡,表現(xiàn)最好的算法是子樹EBP算法。這兩種新的方法都遠遠超過了最先進的方法。所以可知DISE的表現(xiàn)優(yōu)于子樹EBP,因為子樹EBP不能定位圖像區(qū)域比底層網(wǎng)絡更好地代表面部。考慮補充材料中的眉毛子協(xié)議結(jié)果,這表明子樹EBP不能獨立于眼睛表示眉毛。DISE可以獨立于底層目標網(wǎng)絡掩蔽圖像區(qū)域,并正確定位眉毛效果。
◎作者檔案
作者:孫裕道
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。