新目標(biāo)檢測(cè)框架 | 基于改進(jìn)的one-shot的目標(biāo)檢測(cè)

發(fā)布人：CV研究院時(shí)間：2022-03-08 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

目前在目標(biāo)檢測(cè)方面的進(jìn)展依賴于大規(guī)模的數(shù)據(jù)集來獲得良好的性能。然而，在許多場(chǎng)景下可能并不總是有足夠的樣本，從而導(dǎo)致當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型的性能下降。

一、簡(jiǎn)要

為了克服上述的問題，有研究者提出了一種新的one-shot條件檢測(cè)框架(OSCD)。給予一個(gè)含有target object的support image和query image作為輸入，OSCD可以在查詢圖像中檢測(cè)屬于目標(biāo)對(duì)象類別的所有目標(biāo)。具體來說，OSCD由一個(gè)Siamese網(wǎng)絡(luò)和一個(gè)two-stages檢測(cè)模型組成。在two-stages檢測(cè)的每個(gè)階段，分別設(shè)計(jì)了一個(gè)特征融合模塊和一個(gè)可學(xué)習(xí)的度量模塊來進(jìn)行有效的條件檢測(cè)。一旦訓(xùn)練，OSCD可以在不需要進(jìn)一步訓(xùn)練的情況下檢測(cè)可見和看不見類的對(duì)象，這也有優(yōu)勢(shì)，包括classagnostic, training-free for unseen classes和without catastrophic forgetting。實(shí)驗(yàn)表明，該方法在基于Fashion-MNIST和Pascal VOC的數(shù)據(jù)集上取得了最先進(jìn)的性能

二、背景如下圖所示。[S.K. Biswas, P. Milanfar, One shot detection with laplacian object and fast matrix cosine similarity, IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI)]中提出的傳統(tǒng)one-shot檢測(cè)框架，將onr-shot檢測(cè)問題視為具有滑動(dòng)窗口方案的經(jīng)典檢測(cè)問題，并選擇了最適合的窗口。特別是使用一個(gè)度量學(xué)習(xí)模塊，而不是經(jīng)典的分類器，來計(jì)算來自新感興趣的類的support image和query image的標(biāo)記窗口之間的相似性。另一種方法如下圖(b)，LSTD框架選擇利用來自新感興趣的類的support樣本來優(yōu)化區(qū)域候選網(wǎng)絡(luò)(RPN，即取代傳統(tǒng)的滑動(dòng)窗口方案)和基于深度學(xué)習(xí)的檢測(cè)器，并期望原始檢測(cè)流能夠以有限的支持樣本數(shù)量自適應(yīng)地識(shí)別新類。

由于這兩種方法的基本相似性，結(jié)果表明，這兩種方法通過將新類的support圖像作為條件處理，可以與條件目標(biāo)檢測(cè)模型相等。

然后，研究者就提出了將檢測(cè)問題更好地命名為one-shot條件目標(biāo)檢測(cè)。并設(shè)計(jì)了一個(gè)基于可學(xué)習(xí)度量和two-stages檢測(cè)模型的通用one-shot條件目標(biāo)檢測(cè)框架(OSCD)，如上圖(c)。

條件目標(biāo)檢測(cè)與目標(biāo)檢測(cè)之間存在一些區(qū)別。

首先，他們有不同的目標(biāo)。條件目標(biāo)檢測(cè)的目的是檢測(cè)與測(cè)試圖像中給定的條件圖像相似的對(duì)象。因此，條件目標(biāo)檢測(cè)可以檢測(cè)到屬于不可見類別的對(duì)象。而目標(biāo)檢測(cè)是檢測(cè)所有屬于訓(xùn)練類別的對(duì)象，不能檢測(cè)看不見類對(duì)象；其次，這兩種方法有不同的訓(xùn)練方式。條件目標(biāo)檢測(cè)的訓(xùn)練是基于support和query圖像對(duì)。而目標(biāo)檢測(cè)是標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)，并有足夠的訓(xùn)練樣本；第三，這兩種方法有不同的評(píng)價(jià)標(biāo)準(zhǔn)，在各種support和query圖像對(duì)上評(píng)估了條件目標(biāo)檢測(cè)模型，而目標(biāo)檢測(cè)模型則在許多檢測(cè)圖像上進(jìn)行了評(píng)估。

三、新框架

在one-shot條件目標(biāo)檢測(cè)的設(shè)置中，數(shù)據(jù)通常成對(duì)組織，由support和query圖像組成。support圖像通常包含一個(gè)主導(dǎo)的目標(biāo)對(duì)象（人或馬），并且模型應(yīng)該能夠在query圖像中檢測(cè)到屬于目標(biāo)對(duì)象類別的對(duì)象。

對(duì)于目標(biāo)檢測(cè)，假設(shè)在感興趣的類中沒有足夠的樣本，從而導(dǎo)致公共監(jiān)督學(xué)習(xí)方法的性能較差。此外，我們可能不知道在未來的任務(wù)中存在哪些類別。更嚴(yán)重的挑戰(zhàn)是，“目標(biāo)”可以是任何令人感興趣的模式。所有這些問題都使得目標(biāo)檢測(cè)任務(wù)對(duì)傳統(tǒng)方法來說極其困難。因此，提出了one-shot的條件目標(biāo)檢測(cè)方法來解決上述問題。

如下圖所示。One-shot條件檢測(cè)的目標(biāo)是根據(jù)查詢圖像中的給定條件（目標(biāo)對(duì)象的單個(gè)支持圖像）來檢測(cè)對(duì)象。在one-shot條件檢測(cè)的情況下，在許多支持查詢的可見類圖像對(duì)上訓(xùn)練一個(gè)模型，以獲得強(qiáng)先驗(yàn)。一旦訓(xùn)練，模型可以從具有單一支持圖像的看不見類中檢測(cè)屬于目標(biāo)類別的所有對(duì)象。

通用目標(biāo)檢測(cè)器(Faster R-CNN)和提出的OSCD。Faster R-CNN可以定位和識(shí)別可見類（人）的對(duì)象，但無法對(duì)看不見類（馬）的對(duì)象進(jìn)行分類。相比之下，所提出的OSCD實(shí)現(xiàn)了C-RPN和C-Detector的條件目標(biāo)檢測(cè)，以更加關(guān)注支持類的對(duì)象，并過濾掉其他類的無關(guān)對(duì)象。

上圖，(a)C-RPN：S操作連接全局平均和最大池support features，并通過卷積層生成顯著support features，然后T平鋪突出support features使平鋪support features具有與query features相同的空間大小，因此F可以連接平鋪support features來查詢特征。C1、C2是兩個(gè)卷積層。(b)C-Detector：從C-RPN中選擇候選區(qū)域的query features，然后將它們與support features結(jié)合起來。R表示調(diào)整大小的操作，F(xiàn)表示深度上的連接?？蓪W(xué)習(xí)的度量模塊由一個(gè)用于降維的卷積層和兩個(gè)用于檢測(cè)的全連接層組成。

四、實(shí)驗(yàn)及可視化

(a) The generation process of support-query image pairs on the FashionOSCD dataset.

(b) Examples for the Fashion-OSCD dataset. Green boxes denote ground truth bounding boxes. Each image contains as much as 3 objects with multiple scales and aspect ratios.

五、分析總結(jié)研究者提出了一種新的one-shot條件目標(biāo)檢測(cè)框架。一個(gè)精心設(shè)計(jì)的C-RPN和C-Detector已經(jīng)被實(shí)現(xiàn)，以形成一個(gè)粗到細(xì)的two-stages條件檢測(cè)通道。在這two-stages，模型通過所提出的特征融合模塊和可學(xué)習(xí)的度量模塊來學(xué)習(xí)識(shí)別和定位支持類對(duì)象。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明了新方法在one-shot條件目標(biāo)檢測(cè)方面取得了最先進(jìn)的性能。雖然模型取得了良好的結(jié)果，但仍然有一些局限性：模型和具有足夠訓(xùn)練樣本的傳統(tǒng)監(jiān)督學(xué)習(xí)檢測(cè)器之間的性能差距很大，模型的計(jì)算開銷大于傳統(tǒng)的監(jiān)督學(xué)習(xí)檢測(cè)器。研究者需要繼續(xù)改進(jìn)所提出的框架，如利用triplet loss來提取更具表現(xiàn)力的深度特征和探索更好的Siamese networks。感覺研究者進(jìn)行本研究時(shí)，還缺乏相關(guān)的OSCD研究。SiamFC and SiamRPN是研究者們所能找到的最相關(guān)的方法。在未來，可以把新方法與更多的one-shot目標(biāo)檢測(cè)方法進(jìn)行比較。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

新目標(biāo)檢測(cè)框架 | 基于改進(jìn)的one-shot的目標(biāo)檢測(cè)

相關(guān)推薦

技術(shù)專區(qū)