CVPR小樣本檢測:蒸餾&上下文助力小樣本檢測
目標(biāo)檢測現(xiàn)在的框架越來越多,我們“計(jì)算機(jī)視覺研究院”最近也分享了眾多的目標(biāo)檢測框架!今天我們繼續(xù)分享一個(gè)最新的檢測框架——YOLOR。
論文:https://arxiv.org/pdf/2103.17115.pdf
開源代碼: https://github.com/hzhupku/DCNet
前言
傳統(tǒng)的基于深度學(xué)習(xí)的目標(biāo)檢測方法需要大量的邊界框標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,獲得如此高質(zhì)量的標(biāo)注數(shù)據(jù)成本很高。少樣本目標(biāo)檢測,學(xué)習(xí)適應(yīng)只有少數(shù)帶注釋的例子的新類,非常具有挑戰(zhàn)性,因?yàn)樾履繕?biāo)的細(xì)粒度特征很容易被忽略,而只有少數(shù)可用數(shù)據(jù)。
為了充分利用帶注釋的新目標(biāo)的特征并捕獲查詢對象的細(xì)粒度特征,研究者提出了具有稠密關(guān)系蒸餾與上下文感知聚合來解決Few-Shot檢測問題。Dense Relation Distillation 模塊建立在基于元學(xué)習(xí)的框架之上,旨在充分利用支持特征,其中支持特征和查詢特征密集匹配,以前向傳播方式覆蓋所有空間位置。引導(dǎo)信息大量使用賦予了模型處理常見挑戰(zhàn)(例如外觀變化和遮擋)的能力。此外,為了更好地捕捉尺度感知特征,上下文感知聚合模塊自適應(yīng)地利用來自不同尺度的特征以獲得更全面的特征表示。
2
背景
先前對Few-Shot物體檢測的研究主要由兩組組成。他們中的大多數(shù)采用基于元學(xué)習(xí)的框架來為特定于類的預(yù)測執(zhí)行特征重新加權(quán)。而【Frustratingly simple few-shot object detection】采用兩階段微調(diào)方法,僅微調(diào)最后一層檢測器并實(shí)現(xiàn)最先進(jìn)的性能?!?/span>Multi-scale positive sample refinement for few-shot object detection】也使用類似的策略并專注于小樣本檢測中的尺度變化問題。
然而,由于小樣本對象檢測的挑戰(zhàn)性,上述方法通常存在一些缺點(diǎn)。首先,在之前的小樣本檢測工作中,支持特征和查詢特征之間的關(guān)系幾乎沒有被充分探索,其中支持特征的全局池化操作主要用于調(diào)制查詢分支,這容易丟失詳細(xì)的局部上下文。具體來說,物體的外觀變化和遮擋很常見,如上圖所示。如果沒有提供足夠的判別信息,模型就無法學(xué)習(xí)類別和邊界框預(yù)測的關(guān)鍵特征。其次,盡管尺度變化問題在之前的工作中得到了廣泛的研究,但它仍然是小樣本檢測任務(wù)中的一個(gè)嚴(yán)重障礙。在少樣本設(shè)置下,具有尺度感知改變的特征提取器傾向于過度擬合,導(dǎo)致基類和新類的性能下降。
Few-Shot Object Detection
小樣本目標(biāo)檢測旨在僅提供一些帶注釋的訓(xùn)練示例,從新類別中檢測目標(biāo)。LSTD和RepMet采用通用的遷移學(xué)習(xí)框架,通過將預(yù)訓(xùn)練的檢測器適應(yīng)少數(shù)場景來減少過度擬合。
Meta YOLO
最近,Meta YOLO使用YOLO v2設(shè)計(jì)了一種新穎的小樣本檢測模型,該模型學(xué)習(xí)可泛化的元特征,并通過從支持示例中生成特定于類的激活系數(shù)來自動(dòng)重新加權(quán)新類的特征。
Meta R-CNN
Meta R-CNN和FsDetView使用基礎(chǔ)檢測器執(zhí)行與Faster RCNN類似的過程。TFA通過僅在第二階段微調(diào)分類器來簡單地執(zhí)行兩階段微調(diào)方法,并獲得更好的性能。MPSR提出了多尺度正樣本細(xì)化來處理尺度方差問題。CoAE提出了非局部RPN,并通過與其他跟蹤方法進(jìn)行比較,從跟蹤的角度專注于單次檢測。
而今天分享的方法以更直接的方式對主干提取的特征進(jìn)行交叉注意,目標(biāo)在Few-Shot檢測任務(wù)。FSOD提出了注意力RPN、多關(guān)系檢測器和對比訓(xùn)練策略來檢測新對象。在新框架工作中,采用了與Meta R-CNN類似的基于元學(xué)習(xí)的框架,并進(jìn)一步提高了性能。此外,使用提出的方法,可以成功刪除特定于類的預(yù)測過程,從而簡化整個(gè)過程。
3
新框架
DCNet
如下圖所示,展示了具有上下文感知特征聚合 (CFA) 模塊的密集關(guān)系蒸餾 (DRD) 模塊,以充分利用支持特征并捕獲必要的上下文信息。這兩個(gè)提出的組件構(gòu)成了最終模型DCNet。研究者將首先描述所提出的DRD模塊的架構(gòu)。然后將帶出CFA模塊的細(xì)節(jié)。
Dense Relation Distillation Module
給定查詢圖像和支持集,通過將它們輸入共享特征提取器來生成查詢和支持特征。密集關(guān)系蒸餾(DRD)模塊的輸入是查詢特征和支持特征。這兩個(gè)部分首先通過專用的深度編碼器編碼成鍵和值映射對。查詢編碼器和支持編碼器采用相同的結(jié)構(gòu),但不共享參數(shù)。
Relation Distillation。在獲取查詢和支持特征的鍵/值映射后,進(jìn)行關(guān)系蒸餾。如上圖所示,支持特征值映射的軟權(quán)重是通過測量查詢特征的關(guān)鍵映射和支持特征之間的相似性來計(jì)算的。
Context-aware Feature Aggregation
如上圖所示,研究者為每個(gè)由兩個(gè)塊組成的特征添加一個(gè)注意力分支。第一個(gè)塊包含全局平均池化。第二個(gè)包含兩個(gè)連續(xù)的fc層。之后,向生成的權(quán)重添加softmax歸一化,以平衡每個(gè)特征的貢獻(xiàn)。那么聚合特征的最終輸出就是三個(gè)特征的加權(quán)求和。
Learning Strategy
4
實(shí)驗(yàn)及可視化
Few-shot object detection performance on VOC 2007 test set of PASCAL VOC dataset
(a). Visualizations of features before and after dense relation distillation module. (b). Visualizations of effect of context-aware feature aggregation module.
消融研究以評估提出的方法中不同組件的有效性
Few-shot object detection performance on COCO minival of MS COCO dataset
在coco中篩選了少量的數(shù)據(jù)集,基于源碼訓(xùn)練10個(gè)epoch,效果還是不行?。】赡芪覕?shù)據(jù)集選的太少了還有就是訓(xùn)練啥都沒有改,主要想快速看下具體效果及檢測精度。有興趣的同學(xué)自行去操作實(shí)踐下!
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。