CVPR2121目標(biāo)檢測 | 少見的知識蒸餾用于目標(biāo)檢測

發(fā)布人：CV研究院時(shí)間：2021-03-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

近年來，知識蒸餾已被證明是對模型壓縮的一種有效的解決方案。這種方法可以使輕量級的學(xué)生模型獲得從繁瑣的教師模型中提取的知識。

1、簡介

然而，以往的蒸餾檢測方法對不同的檢測框架具有較弱的泛化性，并且嚴(yán)重依賴于GT，忽略了實(shí)例之間有價(jià)值的關(guān)系信息。因此，研究者提出了一種新的基于鑒別實(shí)例的檢測方法，而不考慮GT的正負(fù)區(qū)別，稱為通用的實(shí)例蒸餾(GID)。

新提出的方法包含了一個(gè)通用的實(shí)例選擇模塊(GISM)，以充分利用基于特征、基于關(guān)系和基于響應(yīng)的知識進(jìn)行蒸餾。大量的結(jié)果表明，學(xué)生模型在各種檢測框架中取得了顯著的AP改進(jìn)，甚至優(yōu)于教師。具體來說，ResNet-50的RetinaNet在COCO數(shù)據(jù)集上使用GID在mAP中達(dá)到39.1%，超過基線36.2%，甚至優(yōu)于基于ResNet-101的38.1%AP教師模型。

2、背景及動(dòng)機(jī)

由Hinton等人【Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network, 2015】提出的知識蒸餾(KD)是解決上述問題的一種很有前途的方法。知識蒸餾是將大模型的知識傳遞給小模型，從而提高小模型的性能，達(dá)到模型壓縮的目的。目前，知識的典型形式可分為三類：反應(yīng)型知識、特征型知識和關(guān)系型知識。然而，大多數(shù)蒸餾方法主要是針對多分類問題而設(shè)計(jì)的。

直接將分類特定蒸餾方法遷移到檢測模型中的效果較差，因?yàn)闄z測任務(wù)中正實(shí)例和負(fù)實(shí)例的比例極不平衡。

一些為檢測任務(wù)設(shè)計(jì)的蒸餾框架處理了這個(gè)問題，并取得了令人印象深刻的結(jié)果，例如。Li【Quanquan Li, Shengying Jin, and Junjie Yan. Mimicking very efficient network for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017】通過提取RPN和Wang等人【Tao Wang, Li Yuan, Xiaopeng Zhang, and Jiashi Feng. Distilling object detectors with fine-grained feature imitation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019】抽樣一定比例的正負(fù)實(shí)例來解決這個(gè)問題。進(jìn)一步提出只提取近GT區(qū)。然而，蒸餾的正負(fù)實(shí)例之間的比率需要精心設(shè)計(jì)，而僅蒸餾與GT相關(guān)的區(qū)域可能會(huì)忽略背景中潛在的信息區(qū)域。此外，目前的檢測蒸餾方法不能同時(shí)在多個(gè)檢測框架中工作：如two-stage， anchor-free。因此，研究者希望設(shè)計(jì)一種通用的蒸餾方法，用于各種檢測框架，以有效地使用盡可能多的知識，而不涉及正或負(fù)。

3、新框架優(yōu)勢

通過上圖可以知道，新框架有如下優(yōu)勢：

(i)可以對一個(gè)圖像中實(shí)例之間的關(guān)系知識進(jìn)行建模，以便進(jìn)行蒸餾。Hu【Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, and Yichen Wei. Relation networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018】演示了關(guān)系信息對檢測任務(wù)的有效性。然而，基于關(guān)系的知識蒸餾在目標(biāo)檢測中還沒有被探索。

(ii)避免手動(dòng)設(shè)置正、負(fù)區(qū)域的比例，或只選擇與GT有關(guān)的區(qū)域進(jìn)行蒸餾。雖然GT相關(guān)的領(lǐng)域幾乎是信息豐富的，但極其困難和簡單的實(shí)例可能是無用的，甚至來自背景的一些信息塊也可以幫助學(xué)生學(xué)習(xí)教師的泛化。此外，研究者還發(fā)現(xiàn)，自動(dòng)選擇學(xué)生和教師之間的一些判別實(shí)例進(jìn)行蒸餾，可以使知識傳遞更加有效。這些判別實(shí)例被稱為一般實(shí)例(GIS)，因?yàn)樾路椒ú魂P(guān)心正實(shí)例和負(fù)實(shí)例之間的比例，也不依賴于GT標(biāo)簽。

(iii)新方法對各種檢測框架具有強(qiáng)大的泛化能力?；趯W(xué)生和教師模型的輸出計(jì)算GIS，而不依賴于特定檢測器的某些模塊或特定檢測框架的某些關(guān)鍵特性，如anchor。

4、General Instance Distillation

先前的工作【Tao Wang, Li Yuan, Xiaopeng Zhang, and Jiashi Feng. Distilling object detectors with fine-grained feature imitation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019】提出，目標(biāo)附近的特征區(qū)域有相當(dāng)多的信息，這對于知識蒸餾是有用的。然而，研究者發(fā)現(xiàn)，不僅目標(biāo)附近的特征區(qū)域，而且即使是來自背景區(qū)域的判別塊也有意義的知識?；谶@一發(fā)現(xiàn)，設(shè)計(jì)了通用實(shí)例選擇模塊(GISM)，如下圖所示。

該模塊利用教師和學(xué)生模型的預(yù)測來選擇蒸餾的關(guān)鍵實(shí)例。此外，為了更好地利用教師提供的信息，提取并利用基于特征、基于關(guān)系和基于響應(yīng)的知識進(jìn)行蒸餾，如下圖所示。實(shí)驗(yàn)結(jié)果表明，新的蒸餾框架對于目前最先進(jìn)的檢測模型是通用的。

5、實(shí)驗(yàn)

為了驗(yàn)證該方法的有效性和魯棒性，在不同的檢測框架和異構(gòu)主架構(gòu)上進(jìn)行了實(shí)驗(yàn)，并在COCO和Pascal VOC數(shù)據(jù)集的少數(shù)類檢測上進(jìn)行了實(shí)驗(yàn)。具體來說，在【Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 91–99. Curran Associates, Inc., 2015】中的設(shè)置之后，對于PascalVOC數(shù)據(jù)集，選擇在VOC2007中分割的5k訓(xùn)練圖像和在VOC2012中分割的16k訓(xùn)練圖像進(jìn)行訓(xùn)練，在VOC2007中分割的5k測試圖像進(jìn)行測試。對于COCO，選擇默認(rèn)的120k訓(xùn)練圖像分割進(jìn)行訓(xùn)練，5k Val圖像分割進(jìn)行測試。所有蒸餾性能均以AP進(jìn)行評價(jià)。

綠色、紅色、黃色和青色框分別表示GT、正、半正和負(fù)實(shí)例。為了進(jìn)一步分析了每種類型的一般實(shí)例的貢獻(xiàn)，并驗(yàn)證了GISM的有效性，對每種類型的一般實(shí)例進(jìn)行了實(shí)驗(yàn)。引入了一個(gè)名為intersection over proposals (IoP)，以幫助分離這些GI：