CVPR小樣本檢測：蒸餾&上下文助力小樣本檢測

發(fā)布人：CV研究院時(shí)間：2022-04-14 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

目標(biāo)檢測現(xiàn)在的框架越來越多，我們“計(jì)算機(jī)視覺研究院”最近也分享了眾多的目標(biāo)檢測框架！今天我們繼續(xù)分享一個(gè)最新的檢測框架——YOLOR。

論文：https://arxiv.org/pdf/2103.17115.pdf
開源代碼： https://github.com/hzhupku/DCNet

前言

傳統(tǒng)的基于深度學(xué)習(xí)的目標(biāo)檢測方法需要大量的邊界框標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，獲得如此高質(zhì)量的標(biāo)注數(shù)據(jù)成本很高。少樣本目標(biāo)檢測，學(xué)習(xí)適應(yīng)只有少數(shù)帶注釋的例子的新類，非常具有挑戰(zhàn)性，因?yàn)樾履繕?biāo)的細(xì)粒度特征很容易被忽略，而只有少數(shù)可用數(shù)據(jù)。

為了充分利用帶注釋的新目標(biāo)的特征并捕獲查詢對象的細(xì)粒度特征，研究者提出了具有稠密關(guān)系蒸餾與上下文感知聚合來解決Few-Shot檢測問題。Dense Relation Distillation 模塊建立在基于元學(xué)習(xí)的框架之上，旨在充分利用支持特征，其中支持特征和查詢特征密集匹配，以前向傳播方式覆蓋所有空間位置。引導(dǎo)信息大量使用賦予了模型處理常見挑戰(zhàn)（例如外觀變化和遮擋）的能力。此外，為了更好地捕捉尺度感知特征，上下文感知聚合模塊自適應(yīng)地利用來自不同尺度的特征以獲得更全面的特征表示。

背景

先前對Few-Shot物體檢測的研究主要由兩組組成。他們中的大多數(shù)采用基于元學(xué)習(xí)的框架來為特定于類的預(yù)測執(zhí)行特征重新加權(quán)。而【Frustratingly simple few-shot object detection】采用兩階段微調(diào)方法，僅微調(diào)最后一層檢測器并實(shí)現(xiàn)最先進(jìn)的性能?！?/span>Multi-scale positive sample refinement for few-shot object detection】也使用類似的策略并專注于小樣本檢測中的尺度變化問題。

然而，由于小樣本對象檢測的挑戰(zhàn)性，上述方法通常存在一些缺點(diǎn)。首先，在之前的小樣本檢測工作中，支持特征和查詢特征之間的關(guān)系幾乎沒有被充分探索，其中支持特征的全局池化操作主要用于調(diào)制查詢分支，這容易丟失詳細(xì)的局部上下文。具體來說，物體的外觀變化和遮擋很常見，如上圖所示。如果沒有提供足夠的判別信息，模型就無法學(xué)習(xí)類別和邊界框預(yù)測的關(guān)鍵特征。其次，盡管尺度變化問題在之前的工作中得到了廣泛的研究，但它仍然是小樣本檢測任務(wù)中的一個(gè)嚴(yán)重障礙。在少樣本設(shè)置下，具有尺度感知改變的特征提取器傾向于過度擬合，導(dǎo)致基類和新類的性能下降。

Few-Shot Object Detection

小樣本目標(biāo)檢測旨在僅提供一些帶注釋的訓(xùn)練示例，從新類別中檢測目標(biāo)。LSTD和RepMet采用通用的遷移學(xué)習(xí)框架，通過將預(yù)訓(xùn)練的檢測器適應(yīng)少數(shù)場景來減少過度擬合。

Meta YOLO

最近，Meta YOLO使用YOLO v2設(shè)計(jì)了一種新穎的小樣本檢測模型，該模型學(xué)習(xí)可泛化的元特征，并通過從支持示例中生成特定于類的激活系數(shù)來自動(dòng)重新加權(quán)新類的特征。

Meta R-CNN

Meta R-CNN和FsDetView使用基礎(chǔ)檢測器執(zhí)行與Faster RCNN類似的過程。TFA通過僅在第二階段微調(diào)分類器來簡單地執(zhí)行兩階段微調(diào)方法，并獲得更好的性能。MPSR提出了多尺度正樣本細(xì)化來處理尺度方差問題。CoAE提出了非局部RPN，并通過與其他跟蹤方法進(jìn)行比較，從跟蹤的角度專注于單次檢測。

而今天分享的方法以更直接的方式對主干提取的特征進(jìn)行交叉注意，目標(biāo)在Few-Shot檢測任務(wù)。FSOD提出了注意力RPN、多關(guān)系檢測器和對比訓(xùn)練策略來檢測新對象。在新框架工作中，采用了與Meta R-CNN類似的基于元學(xué)習(xí)的框架，并進(jìn)一步提高了性能。此外，使用提出的方法，可以成功刪除特定于類的預(yù)測過程，從而簡化整個(gè)過程。

新框架

DCNet

如下圖所示，展示了具有上下文感知特征聚合 (CFA) 模塊的密集關(guān)系蒸餾 (DRD) 模塊，以充分利用支持特征并捕獲必要的上下文信息。這兩個(gè)提出的組件構(gòu)成了最終模型DCNet。研究者將首先描述所提出的DRD模塊的架構(gòu)。然后將帶出CFA模塊的細(xì)節(jié)。

Dense Relation Distillation Module

給定查詢圖像和支持集，通過將它們輸入共享特征提取器來生成查詢和支持特征。密集關(guān)系蒸餾（DRD）模塊的輸入是查詢特征和支持特征。這兩個(gè)部分首先通過專用的深度編碼器編碼成鍵和值映射對。查詢編碼器和支持編碼器采用相同的結(jié)構(gòu)，但不共享參數(shù)。

Relation Distillation。在獲取查詢和支持特征的鍵/值映射后，進(jìn)行關(guān)系蒸餾。如上圖所示，支持特征值映射的軟權(quán)重是通過測量查詢特征的關(guān)鍵映射和支持特征之間的相似性來計(jì)算的。

Context-aware Feature Aggregation

如上圖所示，研究者為每個(gè)由兩個(gè)塊組成的特征添加一個(gè)注意力分支。第一個(gè)塊包含全局平均池化。第二個(gè)包含兩個(gè)連續(xù)的fc層。之后，向生成的權(quán)重添加softmax歸一化，以平衡每個(gè)特征的貢獻(xiàn)。那么聚合特征的最終輸出就是三個(gè)特征的加權(quán)求和。

Learning Strategy

實(shí)驗(yàn)及可視化

Few-shot object detection performance on VOC 2007 test set of PASCAL VOC dataset

(a). Visualizations of features before and after dense relation distillation module. (b). Visualizations of effect of context-aware feature aggregation module.

消融研究以評估提出的方法中不同組件的有效性

Few-shot object detection performance on COCO minival of MS COCO dataset

，時(shí)長00:24

在coco中篩選了少量的數(shù)據(jù)集，基于源碼訓(xùn)練10個(gè)epoch，效果還是不行?。】赡芪覕?shù)據(jù)集選的太少了還有就是訓(xùn)練啥都沒有改，主要想快速看下具體效果及檢測精度。有興趣的同學(xué)自行去操作實(shí)踐下！

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

CVPR小樣本檢測：蒸餾&上下文助力小樣本檢測

相關(guān)推薦

技術(shù)專區(qū)