提升精度 | 新的小樣本學(xué)習(xí)算法提升物體識別精度（附論文地址）

發(fā)布人：CV研究院時間：2022-03-08 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

提出一種基于度量學(xué)習(xí)的小樣本學(xué)習(xí)算法（DeepEMD）。之前的基于度量學(xué)習(xí)的小樣本學(xué)習(xí)算法通常是利用一個特征提取網(wǎng)絡(luò)將支持集圖像和查詢集圖像映射到一個特征空間，然后再設(shè)計或選擇一種距離度量方式，來描述支持集圖像和查詢集圖像之間的相似程度，并以此進(jìn)行類別預(yù)測。而本文則是將圖片拆分成多個圖塊，然后引入一種新的距離度量方式陸地移動距離（Earth Mover’s Distance，EMD），計算查詢集和支持集圖像的各個圖塊之間的最佳匹配代價來表示二者之間的相似程度。

1. 簡要

事實證明，深度學(xué)習(xí)在大量標(biāo)記數(shù)據(jù)的學(xué)習(xí)中是非常有效的。很少有shot learning，相反，試圖學(xué)習(xí)只有少數(shù)標(biāo)簽數(shù)據(jù)。

在本次介紹中，從圖像區(qū)域之間最優(yōu)匹配的新角度開發(fā)了few-shot圖像分類的方法。使用Earth Mover’s Distance(EMD)作為度量，計算密集圖像表示之間的結(jié)構(gòu)距離，以確定圖像相關(guān)性。該EMD在具有最小匹配成本的結(jié)構(gòu)單元之間產(chǎn)生最優(yōu)匹配流，用于計算圖像距離進(jìn)行分類。為了生成EMD公式中元素的重要權(quán)重，還設(shè)計了一種交叉引用機(jī)制，它可以有效地緩解背景雜亂和類內(nèi)外觀變化大所造成的不利影響。為了處理k-shot分類，提出學(xué)習(xí)一個結(jié)構(gòu)化的全連接層，它可以直接用所提出的EMD對密集圖像表示進(jìn)行分類?；陔[式函數(shù)定理，EMD可以作為一個層插入到網(wǎng)絡(luò)中進(jìn)行端到端訓(xùn)練。

廣泛的實驗驗證了新算法的有效性，在四個廣泛使用的few-shot分類基準(zhǔn)上表現(xiàn)出很大的優(yōu)勢，即 miniImageNet, tieredImageNet, Fewshot-CIFAR100 (FC100) and Caltech-UCSD Birds-200-2011 (CUB)。

2.背景

深度神經(jīng)網(wǎng)絡(luò)在許多視覺任務(wù)中取得了巨大的成功，通常需要大量的標(biāo)記數(shù)據(jù)。深度學(xué)習(xí)方法的一個臭名昭著的缺點是它們的樣本效率很差。這與我們?nèi)祟惾绾螌W(xué)習(xí)形成了鮮明的對比。在機(jī)器學(xué)習(xí)中，提出了小樣本學(xué)習(xí)來解決這個問題，這可以看作是更廣泛的元學(xué)習(xí)的一個特例。元學(xué)習(xí)試圖學(xué)習(xí)一個模型，它可以快速地推廣到新的任務(wù)，并進(jìn)行少量的適應(yīng)工作。元學(xué)習(xí)算法研究最充分的測試平臺之一是小樣本圖像分類，其目的是對僅有有限數(shù)量標(biāo)記訓(xùn)練數(shù)據(jù)的新圖像類別進(jìn)行分類。這是這里工作的重點！

確定兩個復(fù)雜結(jié)構(gòu)表示的相似性的一種自然方法是比較它們的構(gòu)建塊。困難在于，我們沒有他們的通信監(jiān)督訓(xùn)練，并不是所有的建筑要素都能在其他結(jié)構(gòu)中找到他們的同行。

為了解決上述問題，將少樣本分類形式化為最優(yōu)匹配的實例，并提出利用兩種結(jié)構(gòu)之間的最優(yōu)匹配成本來表示它們的不同。給定兩幅圖像生成的局部特征表示集，使用EMD計算它們的結(jié)構(gòu)相似性。EMD是計算結(jié)構(gòu)表示之間距離的度量，最初是為圖像檢索而提出的。給定所有元素對之間的距離，EMD可以獲得具有最小總體距離的兩個結(jié)構(gòu)之間的最佳匹配流。它也可以解釋為相對于另一個結(jié)構(gòu)表示重建結(jié)構(gòu)的最小成本。

新算法提出的動機(jī)的例子如上圖所示。EMD具有transportation問題，通過求解線性規(guī)劃問題可以達(dá)到全局最小值。為了將優(yōu)化問題嵌入到模型中進(jìn)行端到端訓(xùn)練，應(yīng)用隱式函數(shù)定理（implicit function theorem），形成最優(yōu)優(yōu)化變量相對于problem parameters的雅可比矩陣。

探索了從圖像中提取局部表示的多種方法，包括全卷積網(wǎng)絡(luò)、圖像網(wǎng)格和圖像區(qū)域采樣；還在特征層次和圖像層次上應(yīng)用金字塔結(jié)構(gòu)來捕獲不同尺度的局部表示。

在EMD公式中，一個重要的特定于問題的參數(shù)是每個元素的權(quán)重。具有較大權(quán)重的元素產(chǎn)生更多的匹配流，從而對整體距離做出更大的貢獻(xiàn)。理想情況下，無論它們與哪些元素匹配，該算法應(yīng)該考慮到對不相關(guān)區(qū)域分配較少權(quán)重的靈活性，使得它們對總體距離的貢獻(xiàn)較小。

為了實現(xiàn)這一目標(biāo)，提出了一個交叉引用機(jī)制來確定元素的重要性。在所提出的交叉引用機(jī)制中，通過將每個節(jié)點與其他結(jié)構(gòu)的全局統(tǒng)計量進(jìn)行比較來確定每個節(jié)點的權(quán)重。直觀地說，顯示與其他圖像更相關(guān)的圖像區(qū)域更有可能是對象區(qū)域，并且應(yīng)該分配更多的權(quán)重，而高方差背景區(qū)域和兩幅圖像中不同時發(fā)生的對象部分的權(quán)重應(yīng)該盡可能地消除，以計算匹配成本。

3.新方法

我們首先簡要回顧了EMD，并描述如何將少樣本分類描述為一個可以訓(xùn)練到底端到端的最優(yōu)匹配問題；然后，描述交叉引用機(jī)制來生成每個節(jié)點的權(quán)重，這是EMD公式中的一個重要參數(shù)；最后，演示了如何使用EMD距離函數(shù)來處理k-shot學(xué)習(xí)與提出的結(jié)構(gòu)化全連接層。提出的少樣本分類框架的概述如下圖所示。

3.1 Revisiting the Earth Mover’s Distance

首先介紹下EMD的計算過程，EMD的計算本身是來源于線性規(guī)劃中的運(yùn)輸問題，假設(shè)有一系列的貨源地mathcal{S}={s_i|i=1,…,m}，S={si∣i=1,…,m}和一系列的目的地mathcal{D}={d_j|j=1,…,k}，D={dj∣j=1,…,k}，si和dj分別表示貨源地ii的貨物供應(yīng)量和目的地jj的貨物需求量，cij表示兩地之間的單位運(yùn)輸成本，xij表示兩地之間的運(yùn)輸量，那么運(yùn)輸問題的目的就是尋找運(yùn)輸成本最低的運(yùn)輸方案tilde{mathcal{X}}={tilde{x}_{ij}|i=1,…,m,j=1,…,k}，X~={x~ij∣i=1,…,m,j=1,…,k}，過程如下：

3.2 EMD for Few-Shot Classification

本次新技術(shù)，將mathcal{S}和mathcal{D}分別看作支持集圖像和查詢集圖像對應(yīng)的特征圖，特征圖中的每個像素點都是一個帶有權(quán)重的結(jié)點，而si和dj分別對應(yīng)各個結(jié)點的權(quán)重，支持集特征圖每個像素點對應(yīng)的特征向量為ui，而查詢集特征圖每個像素點對應(yīng)的特征向量為vj，則兩個結(jié)點間的運(yùn)輸成本cij可定義為：

通過求解上述的線性規(guī)劃問題，尋找最優(yōu)的運(yùn)輸方案tilde{mathcal{X}}，則兩幅特征圖之間的相似性可由下式計算：

3.3 End-to-End Training

具體來說，為了從原始優(yōu)化中構(gòu)造緊致矩陣，可以在下面建立稀疏矩陣，用于等式約束：

以及不等式約束可以寫成：

3.4 Weight Generation

證明了求解tilde{x}_{ij}x~ij的過程是可微分的，因此可以采用梯隊下降的方式進(jìn)行求解。而在求解過程中結(jié)點上的權(quán)重si和dj是很重要的，他直接影響了運(yùn)輸方案的設(shè)計，因此提出一種相互參考機(jī)制（cross-reference mechanism），權(quán)重si計算過程（dj的計算方法與其類似）如下：

通過比較兩方結(jié)點之間的關(guān)系來計算每個結(jié)點處的權(quán)重，這樣做的目的是對于方差較大，變化較多的背景區(qū)域分配更少的權(quán)重，而對于兩幅圖中共現(xiàn)的目標(biāo)區(qū)域分配更多的權(quán)重，然后再對所有的權(quán)重做正則化處理：

3.5 Structured Fully Connected Layer

將分類器中全連接層后的點乘操作，改為本次技術(shù)的EMD距離度量操作，就得到查詢集圖像與支持集圖像的各個類別之間的相似性關(guān)系，進(jìn)而預(yù)測分類結(jié)果，整體網(wǎng)絡(luò)流程如下圖所示：

算法步驟如下：

4.實驗

Experiment on 5-way k-shot classification

不同基于度量的1-shot分類方法的比較。以EMD為距離度量的模型明顯優(yōu)于基于圖像級表示和局部表示的基線模型。

Cross-domain實驗(Mini Imagenet→CUB)。以95%的置信區(qū)間報告了1-shot 5-way和5-shot 5-way任務(wù)的性能。使用FCN提取KNN的局部特征和提出的新方法。提出的新算法在很大程度上優(yōu)于基線方法。

金字塔結(jié)構(gòu)應(yīng)用于DeepEMD-FCN和DeepEMD-Grid上，以提取局部嵌入。特征金字塔結(jié)構(gòu)(A)采用在特征映射上具有不同輸出大小的RoI池化生成多尺度的局部嵌入，而圖像金字塔結(jié)構(gòu)(B)根據(jù)不同的網(wǎng)格大小將輸入圖像裁剪成塊，并將所有塊送到CNN以生成局部嵌入。

Results on miniImageNet and tieredImageNet datasets

DeepEMD-FCN的可視化

Visualization of full matching flows in DeepEMD-FCN

5.總結(jié)

EMD距離最早是應(yīng)用于圖像檢索等領(lǐng)域的，將其引入圖像分類算法中，主要是看中了其考慮局部圖塊之間的匹配關(guān)系。在先前的文章中，相對于將一整幅圖像壓縮為一個高度抽象的特征向量，并計算兩個特征向量之間的距離作為相似性度量的方式而言，通過比較各個局部圖塊之間的相似程度來反映兩幅圖像是否屬于同一類別，則更為可靠和準(zhǔn)確。但如果是每兩個圖塊之間都逐一比對的話，這計算成本也過于高昂，于是作者就利用EMD方法，通過線性規(guī)劃的方式尋找兩幅圖像各個圖塊之間的最佳匹配方式，并且為不同的位置的圖塊分配了不同的權(quán)重，類似于注意力機(jī)制，對于目標(biāo)區(qū)域給予更多注意。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

電路相關(guān)文章:電路分析基礎(chǔ)

電流傳感器相關(guān)文章:電流傳感器原理
電容傳感器相關(guān)文章:電容傳感器原理
離子色譜儀相關(guān)文章:離子色譜儀原理

博客專欄

提升精度 | 新的小樣本學(xué)習(xí)算法提升物體識別精度（附論文地址）

相關(guān)推薦

技術(shù)專區(qū)