基于深度學(xué)習(xí)的特征提取和匹配（2）

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2021-05-14 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

UCN【4】

通用對應(yīng)網(wǎng)絡(luò)（Universal Correspondence Network，UCN）用于幾何和語義匹配的視覺對應(yīng)，包括從剛性運(yùn)動(dòng)到類內(nèi)形狀或外觀變化等不同場景。深度測度學(xué)習(xí)過程，直接學(xué)習(xí)來保留幾何或語義相似性的特征空間。一種卷積空間變換器（convolutional spatial transformer，CST）模擬傳統(tǒng)特征（如SIFT）的補(bǔ)丁歸一化，可顯著提高類內(nèi)形狀變化語義對應(yīng)（semantic correspondences）的準(zhǔn)確性。

如圖是UCN和傳統(tǒng)方法的比較：各種類型的視覺對應(yīng)問題需要不同的方法，例如用于稀疏結(jié)構(gòu)的SIFT或SURF，用于密集匹配的DAISY或DSP，用于語義匹配的SIFT flow或FlowWeb。UCN準(zhǔn)確有效地學(xué)習(xí)幾何對應(yīng)、致密軌跡或語義對應(yīng)的度量空間。

下圖是UCN系統(tǒng)概述：網(wǎng)絡(luò)是全卷積的，由一系列卷積、池化、非線性和卷積空間變換器組成，還有通道L2歸一化和對應(yīng)對比損失函數(shù)。作為輸入，網(wǎng)絡(luò)采用圖像對應(yīng)點(diǎn)的一對圖像和坐標(biāo)（藍(lán)色：正，紅色：負(fù)）。對應(yīng)于正樣本點(diǎn)（來自兩個(gè)圖像）的特征被訓(xùn)練為彼此更接近，而對應(yīng)于負(fù)樣本點(diǎn)的特征被訓(xùn)練為相隔一定距離。在最后L2歸一化之前和FCNN之后，設(shè)置一個(gè)卷積空間變換器來歸一化補(bǔ)丁或考慮更大的上下文信息。

下圖是視覺對應(yīng)的對比損失函數(shù)示意圖：需要三個(gè)輸入，從圖像中提取的兩個(gè)密集特征及其坐標(biāo)，和用于正負(fù)對應(yīng)對的表。損失函數(shù)計(jì)算公式如下

其中s=1位正對應(yīng)對，而s=0為負(fù)對應(yīng)對。

如圖比較卷積空間變換器和其他方法的比較：（a）SIFT標(biāo)準(zhǔn)化旋轉(zhuǎn)和縮放；（b）空間變換器將整個(gè)圖像作為輸入來估計(jì)變換；（c）卷積空間變換器對特征進(jìn)行獨(dú)立變換。

DGC-Net【5】

DGC-Net（Dense Geometric Correspondence Network）【5】是一種基于CNN實(shí)現(xiàn)從粗到細(xì)致密像素對應(yīng)圖（pixel correspondence map）的框架，它利用光流法的優(yōu)勢，并擴(kuò)展到大變換，提供密集和亞像素精確的估計(jì)。訓(xùn)練數(shù)據(jù)來自合成的變換，也應(yīng)用于相機(jī)姿態(tài)估計(jì)的問題。

如圖所示，一對輸入圖像被饋入由兩個(gè)預(yù)訓(xùn)練的CNN分支組成的模塊，這些分支構(gòu)成一個(gè)特征金字塔。相關(guān)層從金字塔的粗層（頂）獲取源圖像和目標(biāo)圖像的特征圖，并估計(jì)它們之間的成對相似性。然后，對應(yīng)圖（correspondence map）****獲取相關(guān)層（correlation layer）的輸出并直接預(yù)測該金字塔在特定層的像素對應(yīng)關(guān)系。最后，以迭代方式細(xì)化估計(jì)。

為了在特征空間中創(chuàng)建輸入圖像對的表示，構(gòu)造了一個(gè)有兩個(gè)共享權(quán)重分支的Siamese神經(jīng)網(wǎng)絡(luò)。分支用在ImageNet訓(xùn)練的VGG-16架構(gòu)，并在最后的池化層截?cái)?，然后進(jìn)行L2歸一化。在每個(gè)分支的不同部分提取特征fs，ft創(chuàng)建具有5-層特征金字塔（從頂部到底部），其分辨率是[15×15, 30×30, 60×60, 120×120, 240×240]，在網(wǎng)絡(luò)訓(xùn)練過程的其余時(shí)間固定CNN分支的權(quán)重。

為估計(jì)兩個(gè)圖像之間的相似性，計(jì)算源圖像和目標(biāo)圖像的標(biāo)準(zhǔn)化特征圖之間的相關(guān)體積。不同于光流法，直接計(jì)算全局相關(guān)性并在相關(guān)層前后做L2標(biāo)準(zhǔn)化以強(qiáng)烈減少模糊匹配（見圖所示）。

將相關(guān)層輸出送到5個(gè)卷積塊（Conv-BN-ReLU）組成的對應(yīng)圖****，估計(jì)特征金字塔特定層l 的2D致密對應(yīng)域ω(l)est。這是參數(shù)化估計(jì)，圖中每個(gè)預(yù)測像素位置屬于寬度和高度歸一化的圖像坐標(biāo)區(qū)間[-1,1]。也就是說，上采樣在（l-1）層的預(yù)測對應(yīng)域，讓第l層源圖像的特征圖變形到目標(biāo)特征。最后，在上采樣域，變形源fs(ω(l)est)和目標(biāo)ft(l)的特征沿著通道維度拼接在一起，并相應(yīng)地作為輸入提供給第l級的對應(yīng)圖****。

****中每個(gè)卷積層被填充以保持特征圖的空間分辨率不變。此外，為了能夠在金字塔的底層捕獲更多空間上下文信息，從l = 3開始，將不同的空洞（dilation）因子添加到卷積塊以增加感受野。特征金字塔創(chuàng)建者、相關(guān)層和對應(yīng)圖****的分層鏈一起組成CNN架構(gòu)，稱為DGC-Net。

給定圖像對和地面實(shí)況像素相關(guān)映射ωgt，定義分層目標(biāo)損失函數(shù)如下：

其中||.||1是估計(jì)的對應(yīng)圖和GT對應(yīng)圖之間的L1距離，M(l)gt 是GT二值掩碼（匹配掩碼），表示源圖像的每個(gè)像素在目標(biāo)是否具有對應(yīng)關(guān)系。

除了DGC-Net生成的像素對應(yīng)圖之外，還直接預(yù)測每個(gè)對應(yīng)的置信度。具體來說，通過添加匹配（matchability）分支來修改DGC-Net結(jié)構(gòu)。它包含四個(gè)卷積層，輸出了概率圖（參數(shù)化為sigmoid函數(shù)），標(biāo)記預(yù)測對應(yīng)圖每個(gè)像素的置信度，這樣架構(gòu)稱為DGC + M-Net。把此問題作為像素分類任務(wù)，優(yōu)化一個(gè)二值交叉熵（BCE），其中邏輯損失（logits loss）定義為：