CVPR2022:使用完全交叉Transformer的小樣本目標(biāo)檢測(cè)
論文地址:
https://openaccess.thecvf.com/content/CVPR2022/papers/Han_Few-Shot_Object_Detection_With_Fully_Cross-Transformer_CVPR_2022_paper.pdf
01
概述
小樣本目標(biāo)檢測(cè) (FSOD) 旨在使用很少的訓(xùn)練示例檢測(cè)新目標(biāo),最近在社區(qū)中引起了極大的研究興趣。已經(jīng)證明基于度量學(xué)習(xí)的方法使用基于雙分支的孿生網(wǎng)絡(luò)對(duì)這項(xiàng)任務(wù)有效,并計(jì)算圖像區(qū)域和少樣本示例之間的相似性以進(jìn)行檢測(cè)。然而,在之前的工作中,兩個(gè)分支之間的交互只限于檢測(cè)頭,而剩下的數(shù)百層用于單獨(dú)的特征提取。受最近關(guān)于視覺轉(zhuǎn)換器和視覺語言轉(zhuǎn)換器的工作的啟發(fā),研究者提出了一種新穎的基于完全交叉轉(zhuǎn)換器(Fully Cross-Transformer)的FSOD模型 (FCT),方法是將交叉轉(zhuǎn)換器整合到特征主干和檢測(cè)頭中。提出了非對(duì)稱批處理交叉注意來聚合來自具有不同批處理大小的兩個(gè)分支的關(guān)鍵信息。新模型可以通過引入多級(jí)交互來改善兩個(gè)分支之間的少樣本相似性學(xué)習(xí)。PASCAL VOC和MSCOCO FSOD基準(zhǔn)的綜合實(shí)驗(yàn)證明了我們模型的有效性。
02
背景
以往小樣本檢測(cè)方法大致可以分為倆類:single-branch方法和two-branch方法;前者通常是基于Faster RCNN進(jìn)行finetuned,需構(gòu)建multi-class classifier;但該方法針對(duì)shot比較少例如1-shot時(shí),較為容易出現(xiàn)過擬合情況;而后者通常時(shí)構(gòu)建siamese網(wǎng)絡(luò),分別同時(shí)提取query特征和support特征,然后基于metric learning方法比如feature fusion,feature alignment,GCN或者non-local attention來計(jì)算倆分支的相似性,由于在Novel類別上無需構(gòu)建multi-class classifier,所以泛化性更好;倆類方法大致差異如下圖所示:
03
新框架
Task Definition
在小樣本目標(biāo)檢測(cè)(FSOD)中,有兩組類C=Cbase∪Cnovel和Cbase∩Cnovel=?,其中基類Cbase每個(gè)類都有大量訓(xùn)練數(shù)據(jù),而新類Cnovel(也稱為支持類)只有每個(gè)類的訓(xùn)練示例很少(也稱為支持圖像)。對(duì)于K-shot(例如,K=1,5,10)目標(biāo)檢測(cè),研究者為每個(gè)新類別c∈Cnovel準(zhǔn)確地使用K個(gè)邊界框注釋作為訓(xùn)練數(shù)據(jù)。FSOD的目標(biāo)是利用數(shù)據(jù)豐富的基類來協(xié)助檢測(cè)少樣本的新類。
Overview of Our Proposed Model (FCT)
研究者認(rèn)為以往的two-branch方法只關(guān)注了detection head部分的特征交互,忽略了特征提取部分;于是這篇論文的motivation就出來了。因此研究者在Faster RCNN上提出了Fully Cross-Transformer(FCT)的小樣本檢測(cè)方法,在每個(gè)階段都進(jìn)行特征交互。如下圖所示:
The Cross-Transformer Feature Backbone
在cross-transformer中計(jì)算Q-K-V attention時(shí)為了減少計(jì)算量,研究者采用了PVTv2的方式。上面大致介紹了query和support特征提取,在特征交互上作者提出了 Asymmetric-Batched Cross-Attention。具體做法如下圖和公式所示:
評(píng)論。研究者徹底研究了提出的模型中兩個(gè)視覺分支之間的多層次交互。cross-transformer特征主干中的三個(gè)階段使兩個(gè)分支與低級(jí)、中級(jí)和高級(jí)視覺特征逐漸有效交互。
The Cross-Transformer Detection Head
在detection head部分,和以上操作相反,在每張query上提取完proposal之后經(jīng)過ROI Align可以得到ROI特征fp∈RBp?H′?W′?C3,其中Bp=100,為了減少計(jì)算復(fù)雜度還是對(duì)support進(jìn)行ave操作fs′=1Bs∑Bsfs,fs′∈R1?H′?W′?C3,然后使用Asymmetric-Batched Cross-Attention計(jì)算倆分支attention,不同的是,query分支Bp≥1 and Bs′=1 。
04
實(shí)驗(yàn)
從上面表格的(c-d)倆行可以看出,使用三階段訓(xùn)練在2-shot、10-shot上均有提升。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)