博客專欄

EEPW首頁 > 博客 > CVPR小樣本檢測:蒸餾&上下文助力小樣本檢測

CVPR小樣本檢測:蒸餾&上下文助力小樣本檢測

發(fā)布人:CV研究院 時(shí)間:2022-04-14 來源:工程師 發(fā)布文章
目標(biāo)檢測現(xiàn)在的框架越來越多,我們“計(jì)算機(jī)視覺研究院”最近也分享了眾多的目標(biāo)檢測框架!今天我們繼續(xù)分享一個(gè)最新的檢測框架——YOLOR。


圖片

論文:https://arxiv.org/pdf/2103.17115.pdf
開源代碼: https://github.com/hzhupku/DCNet


前言


傳統(tǒng)的基于深度學(xué)習(xí)的目標(biāo)檢測方法需要大量的邊界框標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,獲得如此高質(zhì)量的標(biāo)注數(shù)據(jù)成本很高。少樣本目標(biāo)檢測,學(xué)習(xí)適應(yīng)只有少數(shù)帶注釋的例子的新類,非常具有挑戰(zhàn)性,因?yàn)樾履繕?biāo)的細(xì)粒度特征很容易被忽略,而只有少數(shù)可用數(shù)據(jù)。

圖片

為了充分利用帶注釋的新目標(biāo)的特征并捕獲查詢對象的細(xì)粒度特征,研究者提出了具有稠密關(guān)系蒸餾與上下文感知聚合來解決Few-Shot檢測問題。Dense Relation Distillation 模塊建立在基于元學(xué)習(xí)的框架之上,旨在充分利用支持特征,其中支持特征和查詢特征密集匹配,以前向傳播方式覆蓋所有空間位置。引導(dǎo)信息大量使用賦予了模型處理常見挑戰(zhàn)(例如外觀變化和遮擋)的能力。此外,為了更好地捕捉尺度感知特征,上下文感知聚合模塊自適應(yīng)地利用來自不同尺度的特征以獲得更全面的特征表示


2

背景


先前對Few-Shot物體檢測的研究主要由兩組組成。他們中的大多數(shù)采用基于元學(xué)習(xí)的框架來為特定于類的預(yù)測執(zhí)行特征重新加權(quán)。而【Frustratingly simple few-shot object detection】采用兩階段微調(diào)方法,僅微調(diào)最后一層檢測器并實(shí)現(xiàn)最先進(jìn)的性能?!?/span>Multi-scale positive sample refinement for few-shot object detection】也使用類似的策略并專注于小樣本檢測中的尺度變化問題。

圖片

然而,由于小樣本對象檢測的挑戰(zhàn)性,上述方法通常存在一些缺點(diǎn)。首先,在之前的小樣本檢測工作中,支持特征和查詢特征之間的關(guān)系幾乎沒有被充分探索,其中支持特征的全局池化操作主要用于調(diào)制查詢分支,這容易丟失詳細(xì)的局部上下文。具體來說,物體的外觀變化和遮擋很常見,如上圖所示。如果沒有提供足夠的判別信息,模型就無法學(xué)習(xí)類別和邊界框預(yù)測的關(guān)鍵特征。其次,盡管尺度變化問題在之前的工作中得到了廣泛的研究,但它仍然是小樣本檢測任務(wù)中的一個(gè)嚴(yán)重障礙。在少樣本設(shè)置下,具有尺度感知改變的特征提取器傾向于過度擬合,導(dǎo)致基類和新類的性能下降。

Few-Shot Object Detection

小樣本目標(biāo)檢測旨在僅提供一些帶注釋的訓(xùn)練示例,從新類別中檢測目標(biāo)。LSTD和RepMet采用通用的遷移學(xué)習(xí)框架,通過將預(yù)訓(xùn)練的檢測器適應(yīng)少數(shù)場景來減少過度擬合。

圖片

Meta YOLO

最近,Meta YOLO使用YOLO v2設(shè)計(jì)了一種新穎的小樣本檢測模型,該模型學(xué)習(xí)可泛化的元特征,并通過從支持示例中生成特定于類的激活系數(shù)來自動(dòng)重新加權(quán)新類的特征。

圖片

Meta R-CNN

Meta R-CNN和FsDetView使用基礎(chǔ)檢測器執(zhí)行與Faster RCNN類似的過程。TFA通過僅在第二階段微調(diào)分類器來簡單地執(zhí)行兩階段微調(diào)方法,并獲得更好的性能。MPSR提出了多尺度正樣本細(xì)化來處理尺度方差問題。CoAE提出了非局部RPN,并通過與其他跟蹤方法進(jìn)行比較,從跟蹤的角度專注于單次檢測。

而今天分享的方法以更直接的方式對主干提取的特征進(jìn)行交叉注意,目標(biāo)在Few-Shot檢測任務(wù)。FSOD提出了注意力RPN、多關(guān)系檢測器和對比訓(xùn)練策略來檢測新對象。在新框架工作中,采用了與Meta R-CNN類似的基于元學(xué)習(xí)的框架,并進(jìn)一步提高了性能。此外,使用提出的方法,可以成功刪除特定于類的預(yù)測過程,從而簡化整個(gè)過程。


3

新框架


DCNet

如下圖所示,展示了具有上下文感知特征聚合 (CFA) 模塊的密集關(guān)系蒸餾 (DRD) 模塊,以充分利用支持特征并捕獲必要的上下文信息。這兩個(gè)提出的組件構(gòu)成了最終模型DCNet。研究者將首先描述所提出的DRD模塊的架構(gòu)。然后將帶出CFA模塊的細(xì)節(jié)。

圖片

Dense Relation Distillation Module

給定查詢圖像和支持集,通過將它們輸入共享特征提取器來生成查詢和支持特征。密集關(guān)系蒸餾(DRD)模塊的輸入是查詢特征和支持特征。這兩個(gè)部分首先通過專用的深度編碼器編碼成鍵和值映射對。查詢編碼器和支持編碼器采用相同的結(jié)構(gòu),但不共享參數(shù)。

Relation Distillation。在獲取查詢和支持特征的鍵/值映射后,進(jìn)行關(guān)系蒸餾。如上圖所示,支持特征值映射的軟權(quán)重是通過測量查詢特征的關(guān)鍵映射和支持特征之間的相似性來計(jì)算的。

Context-aware Feature Aggregation

圖片

如上圖所示,研究者為每個(gè)由兩個(gè)塊組成的特征添加一個(gè)注意力分支。第一個(gè)塊包含全局平均池化。第二個(gè)包含兩個(gè)連續(xù)的fc層。之后,向生成的權(quán)重添加softmax歸一化,以平衡每個(gè)特征的貢獻(xiàn)。那么聚合特征的最終輸出就是三個(gè)特征的加權(quán)求和。

 Learning Strategy

圖片


4

實(shí)驗(yàn)及可視化


Few-shot object detection performance on VOC 2007 test set of PASCAL VOC dataset

圖片

圖片

(a). Visualizations of features before and after dense relation distillation module. (b). Visualizations of effect of context-aware feature aggregation module.

圖片

消融研究以評估提出的方法中不同組件的有效性

圖片

Few-shot object detection performance on COCO minival of MS COCO dataset

,時(shí)長00:24


在coco中篩選了少量的數(shù)據(jù)集,基于源碼訓(xùn)練10個(gè)epoch,效果還是不行?。】赡芪覕?shù)據(jù)集選的太少了還有就是訓(xùn)練啥都沒有改,主要想快速看下具體效果及檢測精度。有興趣的同學(xué)自行去操作實(shí)踐下!


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉