博客專欄

EEPW首頁(yè) > 博客 > 新目標(biāo)檢測(cè)框架 | 基于改進(jìn)的one-shot的目標(biāo)檢測(cè)

新目標(biāo)檢測(cè)框架 | 基于改進(jìn)的one-shot的目標(biāo)檢測(cè)

發(fā)布人:CV研究院 時(shí)間:2022-03-08 來源:工程師 發(fā)布文章

目前在目標(biāo)檢測(cè)方面的進(jìn)展依賴于大規(guī)模的數(shù)據(jù)集來獲得良好的性能。然而,在許多場(chǎng)景下可能并不總是有足夠的樣本,從而導(dǎo)致當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型的性能下降

一、簡(jiǎn)要

為了克服上述的問題,有研究者提出了一種新的one-shot條件檢測(cè)框架(OSCD)。給予一個(gè)含有target object的support  imagequery image作為輸入,OSCD可以在查詢圖像中檢測(cè)屬于目標(biāo)對(duì)象類別的所有目標(biāo)。具體來說,OSCD由一個(gè)Siamese網(wǎng)絡(luò)和一個(gè)two-stages檢測(cè)模型組成。在two-stages檢測(cè)的每個(gè)階段,分別設(shè)計(jì)了一個(gè)特征融合模塊和一個(gè)可學(xué)習(xí)的度量模塊來進(jìn)行有效的條件檢測(cè)。一旦訓(xùn)練,OSCD可以在不需要進(jìn)一步訓(xùn)練的情況下檢測(cè)可見和看不見類的對(duì)象,這也有優(yōu)勢(shì),包括classagnostic, training-free for unseen classes和without catastrophic forgetting。實(shí)驗(yàn)表明,該方法在基于Fashion-MNIST和Pascal VOC的數(shù)據(jù)集上取得了最先進(jìn)的性能

圖片

二、背景如下圖所示。[S.K. Biswas, P. Milanfar, One shot detection with laplacian object and fast matrix cosine similarity, IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI)]中提出的傳統(tǒng)one-shot檢測(cè)框架,將onr-shot檢測(cè)問題視為具有滑動(dòng)窗口方案的經(jīng)典檢測(cè)問題,并選擇了最適合的窗口。特別是使用一個(gè)度量學(xué)習(xí)模塊,而不是經(jīng)典的分類器,來計(jì)算來自新感興趣的類的support  image和query image的標(biāo)記窗口之間的相似性。另一種方法如下圖(b),LSTD框架選擇利用來自新感興趣的類的support樣本來優(yōu)化區(qū)域候選網(wǎng)絡(luò)(RPN,即取代傳統(tǒng)的滑動(dòng)窗口方案)和基于深度學(xué)習(xí)的檢測(cè)器,并期望原始檢測(cè)流能夠以有限的支持樣本數(shù)量自適應(yīng)地識(shí)別新類。

圖片

由于這兩種方法的基本相似性,結(jié)果表明,這兩種方法通過將新類的support圖像作為條件處理,可以與條件目標(biāo)檢測(cè)模型相等。

然后,研究者就提出了將檢測(cè)問題更好地命名為one-shot條件目標(biāo)檢測(cè)。并設(shè)計(jì)了一個(gè)基于可學(xué)習(xí)度量和two-stages檢測(cè)模型的通用one-shot條件目標(biāo)檢測(cè)框架(OSCD),如上圖(c)。

條件目標(biāo)檢測(cè)與目標(biāo)檢測(cè)之間存在一些區(qū)別。

首先,他們有不同的目標(biāo)。條件目標(biāo)檢測(cè)的目的是檢測(cè)與測(cè)試圖像中給定的條件圖像相似的對(duì)象。因此,條件目標(biāo)檢測(cè)可以檢測(cè)到屬于不可見類別的對(duì)象。而目標(biāo)檢測(cè)是檢測(cè)所有屬于訓(xùn)練類別的對(duì)象,不能檢測(cè)看不見類對(duì)象;其次,這兩種方法有不同的訓(xùn)練方式。條件目標(biāo)檢測(cè)的訓(xùn)練是基于support和query圖像對(duì)。而目標(biāo)檢測(cè)是標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí),并有足夠的訓(xùn)練樣本;第三,這兩種方法有不同的評(píng)價(jià)標(biāo)準(zhǔn),在各種support和query圖像對(duì)上評(píng)估了條件目標(biāo)檢測(cè)模型,而目標(biāo)檢測(cè)模型則在許多檢測(cè)圖像上進(jìn)行了評(píng)估。

三、新框架

圖片

在one-shot條件目標(biāo)檢測(cè)的設(shè)置中,數(shù)據(jù)通常成對(duì)組織,由support和query圖像組成。support圖像通常包含一個(gè)主導(dǎo)的目標(biāo)對(duì)象(人或馬),并且模型應(yīng)該能夠在query圖像中檢測(cè)到屬于目標(biāo)對(duì)象類別的對(duì)象。

圖片

對(duì)于目標(biāo)檢測(cè),假設(shè)在感興趣的類中沒有足夠的樣本,從而導(dǎo)致公共監(jiān)督學(xué)習(xí)方法的性能較差。此外,我們可能不知道在未來的任務(wù)中存在哪些類別。更嚴(yán)重的挑戰(zhàn)是,“目標(biāo)”可以是任何令人感興趣的模式。所有這些問題都使得目標(biāo)檢測(cè)任務(wù)對(duì)傳統(tǒng)方法來說極其困難。因此,提出了one-shot的條件目標(biāo)檢測(cè)方法來解決上述問題。

如下圖所示。One-shot條件檢測(cè)的目標(biāo)是根據(jù)查詢圖像中的給定條件(目標(biāo)對(duì)象的單個(gè)支持圖像)來檢測(cè)對(duì)象。在one-shot條件檢測(cè)的情況下,在許多支持查詢的可見類圖像對(duì)上訓(xùn)練一個(gè)模型,以獲得強(qiáng)先驗(yàn)。一旦訓(xùn)練,模型可以從具有單一支持圖像的看不見類中檢測(cè)屬于目標(biāo)類別的所有對(duì)象。

圖片

通用目標(biāo)檢測(cè)器(Faster R-CNN)和提出的OSCD。Faster R-CNN可以定位和識(shí)別可見類(人)的對(duì)象,但無法對(duì)看不見類(馬)的對(duì)象進(jìn)行分類。相比之下,所提出的OSCD實(shí)現(xiàn)了C-RPN和C-Detector的條件目標(biāo)檢測(cè),以更加關(guān)注支持類的對(duì)象,并過濾掉其他類的無關(guān)對(duì)象。

圖片

上圖,(a)C-RPN:S操作連接全局平均和最大池support features,并通過卷積層生成顯著support features,然后T平鋪突出support features使平鋪support features具有與query features相同的空間大小,因此F可以連接平鋪support features來查詢特征。C1、C2是兩個(gè)卷積層。(b)C-Detector:從C-RPN中選擇候選區(qū)域的query features,然后將它們與support features結(jié)合起來。R表示調(diào)整大小的操作,F(xiàn)表示深度上的連接??蓪W(xué)習(xí)的度量模塊由一個(gè)用于降維的卷積層和兩個(gè)用于檢測(cè)的全連接層組成。

四、實(shí)驗(yàn)及可視化

圖片

 (a) The generation process of support-query image pairs on the FashionOSCD dataset.

圖片

 (b) Examples for the Fashion-OSCD dataset. Green boxes denote ground truth bounding boxes. Each image contains as much as 3 objects with multiple scales and aspect ratios.

圖片

圖片

圖片

圖片

圖片

五、分析總結(jié)研究者提出了一種新的one-shot條件目標(biāo)檢測(cè)框架。一個(gè)精心設(shè)計(jì)的C-RPN和C-Detector已經(jīng)被實(shí)現(xiàn),以形成一個(gè)粗到細(xì)的two-stages條件檢測(cè)通道。在這two-stages,模型通過所提出的特征融合模塊和可學(xué)習(xí)的度量模塊來學(xué)習(xí)識(shí)別和定位支持類對(duì)象。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明了新方法在one-shot條件目標(biāo)檢測(cè)方面取得了最先進(jìn)的性能。雖然模型取得了良好的結(jié)果,但仍然有一些局限性:模型和具有足夠訓(xùn)練樣本的傳統(tǒng)監(jiān)督學(xué)習(xí)檢測(cè)器之間的性能差距很大,模型的計(jì)算開銷大于傳統(tǒng)的監(jiān)督學(xué)習(xí)檢測(cè)器。研究者需要繼續(xù)改進(jìn)所提出的框架,如利用triplet loss來提取更具表現(xiàn)力的深度特征和探索更好的Siamese networks。感覺研究者進(jìn)行本研究時(shí),還缺乏相關(guān)的OSCD研究。SiamFC and SiamRPN是研究者們所能找到的最相關(guān)的方法。在未來,可以把新方法與更多的one-shot目標(biāo)檢測(cè)方法進(jìn)行比較。



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉