博客專欄

EEPW首頁 > 博客 > CVPR2022:使用完全交叉Transformer的小樣本目標(biāo)檢測(cè)

CVPR2022:使用完全交叉Transformer的小樣本目標(biāo)檢測(cè)

發(fā)布人:CV研究院 時(shí)間:2022-08-20 來源:工程師 發(fā)布文章

圖片

論文地址:

https://openaccess.thecvf.com/content/CVPR2022/papers/Han_Few-Shot_Object_Detection_With_Fully_Cross-Transformer_CVPR_2022_paper.pdf



01

概述


小樣本目標(biāo)檢測(cè) (FSOD) 旨在使用很少的訓(xùn)練示例檢測(cè)新目標(biāo),最近在社區(qū)中引起了極大的研究興趣。已經(jīng)證明基于度量學(xué)習(xí)的方法使用基于雙分支的孿生網(wǎng)絡(luò)對(duì)這項(xiàng)任務(wù)有效,并計(jì)算圖像區(qū)域和少樣本示例之間的相似性以進(jìn)行檢測(cè)。然而,在之前的工作中,兩個(gè)分支之間的交互只限于檢測(cè)頭,而剩下的數(shù)百層用于單獨(dú)的特征提取。受最近關(guān)于視覺轉(zhuǎn)換器和視覺語言轉(zhuǎn)換器的工作的啟發(fā),研究者提出了一種新穎的基于完全交叉轉(zhuǎn)換器(Fully Cross-Transformer)的FSOD模型 (FCT),方法是將交叉轉(zhuǎn)換器整合到特征主干和檢測(cè)頭中。提出了非對(duì)稱批處理交叉注意來聚合來自具有不同批處理大小的兩個(gè)分支的關(guān)鍵信息。新模型可以通過引入多級(jí)交互來改善兩個(gè)分支之間的少樣本相似性學(xué)習(xí)。PASCAL VOC和MSCOCO FSOD基準(zhǔn)的綜合實(shí)驗(yàn)證明了我們模型的有效性。

02

背景


以往小樣本檢測(cè)方法大致可以分為倆類:single-branch方法two-branch方法;前者通常是基于Faster RCNN進(jìn)行finetuned,需構(gòu)建multi-class classifier;但該方法針對(duì)shot比較少例如1-shot時(shí),較為容易出現(xiàn)過擬合情況;而后者通常時(shí)構(gòu)建siamese網(wǎng)絡(luò),分別同時(shí)提取query特征和support特征,然后基于metric learning方法比如feature fusion,feature alignment,GCN或者non-local attention來計(jì)算倆分支的相似性,由于在Novel類別上無需構(gòu)建multi-class classifier,所以泛化性更好;倆類方法大致差異如下圖所示:

圖片


03

新框架


Task Definition

在小樣本目標(biāo)檢測(cè)(FSOD)中,有兩組類C=Cbase∪Cnovel和Cbase∩Cnovel=?,其中基類Cbase每個(gè)類都有大量訓(xùn)練數(shù)據(jù),而新類Cnovel(也稱為支持類)只有每個(gè)類的訓(xùn)練示例很少(也稱為支持圖像)。對(duì)于K-shot(例如,K=1,5,10)目標(biāo)檢測(cè),研究者為每個(gè)新類別c∈Cnovel準(zhǔn)確地使用K個(gè)邊界框注釋作為訓(xùn)練數(shù)據(jù)。FSOD的目標(biāo)是利用數(shù)據(jù)豐富的基類來協(xié)助檢測(cè)少樣本的新類。

Overview of Our Proposed Model (FCT)

研究者認(rèn)為以往的two-branch方法只關(guān)注了detection head部分的特征交互,忽略了特征提取部分;于是這篇論文的motivation就出來了。因此研究者在Faster RCNN上提出了Fully Cross-Transformer(FCT)的小樣本檢測(cè)方法,在每個(gè)階段都進(jìn)行特征交互。如下圖所示:

圖片

The Cross-Transformer Feature Backbone

在cross-transformer中計(jì)算Q-K-V attention時(shí)為了減少計(jì)算量,研究者采用了PVTv2的方式。上面大致介紹了query和support特征提取,在特征交互上作者提出了 Asymmetric-Batched Cross-Attention。具體做法如下圖和公式所示:

圖片

圖片


評(píng)論。研究者徹底研究了提出的模型中兩個(gè)視覺分支之間的多層次交互。cross-transformer特征主干中的三個(gè)階段使兩個(gè)分支與低級(jí)、中級(jí)和高級(jí)視覺特征逐漸有效交互。

The Cross-Transformer Detection Head

在detection head部分,和以上操作相反,在每張query上提取完proposal之后經(jīng)過ROI Align可以得到ROI特征fpRBp?H?W?C3,其中Bp=100,為了減少計(jì)算復(fù)雜度還是對(duì)support進(jìn)行ave操作fs=1BsBsfs,fsR1?H?W?C3,然后使用Asymmetric-Batched Cross-Attention計(jì)算倆分支attention,不同的是,query分支Bp1 and Bs=1 。

04

實(shí)驗(yàn)


圖片

從上面表格的(c-d)倆行可以看出,使用三階段訓(xùn)練在2-shot、10-shot上均有提升。

圖片

圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉