目標(biāo)檢測(cè) | 豐富特征導(dǎo)向Refinement Network用于目標(biāo)檢測(cè)（附github源碼）

發(fā)布人：CV研究院時(shí)間：2022-12-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

一、簡(jiǎn)要

研究者提出了一個(gè)單階段檢測(cè)框架，該框架解決了多尺度目標(biāo)檢測(cè)和類不平衡的問題。沒有設(shè)計(jì)更深層的網(wǎng)絡(luò)，而是引入了一種簡(jiǎn)單而有效的特征豐富化方案來生成多尺度的上下文特征。進(jìn)一步引入了一種級(jí)聯(lián)的優(yōu)化（精煉）方案，該方案首先將多尺度的上下文特征注入到一階段檢測(cè)器的預(yù)測(cè)層中，以增強(qiáng)其進(jìn)行多尺度檢測(cè)的判別能力。其次，級(jí)聯(lián)精煉方案通過細(xì)化anchors和豐富的特征以改善分類和回歸來解決類不平衡問題。對(duì)于MS COCO測(cè)試上的320×320輸入，新的檢測(cè)器在單尺度推理的情況下以33.2的COCO AP達(dá)到了最先進(jìn)的一階段檢測(cè)精度，操作是在一個(gè)Titan XP GPU上以21毫秒運(yùn)行的。對(duì)于MS COCO測(cè)試上的512×512輸入，與最佳的單階段結(jié)果相比，就COCO AP而言，新方法獲得了一個(gè)明顯的增加（增加了1.6%）。

二、背景

先看下：Single-Shot Refinement Neural Network for Object Detection

RefineDet的框架結(jié)構(gòu)與SSD有點(diǎn)類似, 總工作流程如下：

網(wǎng)絡(luò)通過前饋生成固定數(shù)量的bounding box和分?jǐn)?shù)；分?jǐn)?shù)代表了這些box中某些類別的可能性；
使用non-maximum suppression產(chǎn)生最終的結(jié)果。

從結(jié)構(gòu)上看，RefineDet主要由兩個(gè)內(nèi)部鏈接的模塊組成：anchor強(qiáng)化模塊（anchor refinement module， ARM）和物體檢測(cè)模塊（object detection module，ODM）。TCB模塊是用于連接ARM和ODM的一個(gè)模塊。

在今天分享的這項(xiàng)工作中，研究者區(qū)分了標(biāo)準(zhǔn)SSD檢測(cè)器實(shí)現(xiàn)最高精度同時(shí)保持其高速度的兩個(gè)主要障礙。首先，標(biāo)準(zhǔn)的SSD難以應(yīng)對(duì)大尺度變化。這可能是由于SSD預(yù)測(cè)層中的上下文信息固定所致?，F(xiàn)有方法通過例如在更深的主干網(wǎng)絡(luò)模型上添加上下文信息和特征金字塔表示來解決該問題。大多數(shù)方法采用自頂向下的金字塔表示，其中先對(duì)深層的低分辨率特征圖進(jìn)行上采樣，然后與淺層的高分辨率特征圖結(jié)合以注入高級(jí)語義信息。盡管這樣的特征金字塔表示有助于解決大尺度變化的問題，但性能仍然遠(yuǎn)遠(yuǎn)不能令人滿意。

第二個(gè)關(guān)鍵問題是在訓(xùn)練SSD檢測(cè)器期間遇到的前景類-背景類不平衡問題。該問題的現(xiàn)有解決方案包括，例如，在稀疏的難例集上進(jìn)行訓(xùn)練，同時(shí)對(duì)經(jīng)過良好分類的示例對(duì)其損失進(jìn)行打折（down-weights），另外還有整合兩階段anchor優(yōu)化策略，以通過消除負(fù)例的anchors來減少分類器的搜索空間。盡管取得了成功，但由于這些特征與優(yōu)化的anchors無法很好地對(duì)齊，所以有工作采用了自上而下的特征金字塔表示法，并且僅對(duì)anchors進(jìn)行了優(yōu)化。在這項(xiàng)工作中，研究者尋求一種替代方法來共同解決多尺度目標(biāo)檢測(cè)和類不平衡的問題，從而在不犧牲其高速度的情況下提高SSD的準(zhǔn)確性。

三、相關(guān)工作

目標(biāo)檢測(cè)是一個(gè)具有挑戰(zhàn)性的計(jì)算機(jī)視覺問題?；诰矸e神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)器在最近幾年展示了杰出的性能。今天說的框架著重于一階段目標(biāo)檢測(cè)器，該檢測(cè)器通常比其兩階段目標(biāo)檢測(cè)器更快。在現(xiàn)有的單階段方法中，SSD已顯示出可在實(shí)時(shí)操作時(shí)提供出色的性能。它使用多尺度表示來檢測(cè)金字塔層次結(jié)構(gòu)中的對(duì)象。在這樣的層次結(jié)構(gòu)中，淺層有助于預(yù)測(cè)較小的對(duì)象，而較深的層則有助于檢測(cè)較大的對(duì)象。新方法基于標(biāo)準(zhǔn)SSD，因?yàn)樗哂凶吭降臏?zhǔn)確性和高速度。

一階段檢測(cè)器難以準(zhǔn)確地檢測(cè)出具有明顯尺度變化的物體。此外，SSD檢測(cè)器還存在類不平衡的問題。新提出的方法不需要任何特征化的圖像金字塔或自上而下的金字塔結(jié)構(gòu)，而是專注于捕獲多尺度上下文信息。而且包括一個(gè)專門的模塊來解決類不平衡問題。

首先，從多分支ResNeXT架構(gòu)中引入了一種特征增強(qiáng)的方案，該方案產(chǎn)生了多尺度的上下文特征，以利用上下文信息增強(qiáng)標(biāo)準(zhǔn)的SSD特征。其次引入了級(jí)聯(lián)的優(yōu)化方案，在這種方案中，同時(shí)使用了邊界框回歸和二元（binary）分類來優(yōu)化特征。二元分類（目標(biāo)類別預(yù)測(cè)）用于生成突出顯示可疑目標(biāo)位置的objecness圖。在特征優(yōu)化期間，僅位置偏移用于特征與優(yōu)化（anchors）的對(duì)齊，而比例偏移則被忽略。

為了解決訓(xùn)練階段類別不平衡的問題，RetinaNet引入了focal loss來降低簡(jiǎn)單樣本的貢獻(xiàn)。RefineDet提出了一個(gè)兩步anchor優(yōu)化模塊，通過刪除幾個(gè)負(fù)anchors來減少分類器的搜索空間。另外，anchor優(yōu)化模塊粗略地調(diào)整anchor的位置。與RefineDet不同，新框架的級(jí)聯(lián)優(yōu)化方案通過首先將多尺度上下文信息注入到標(biāo)準(zhǔn)SSD預(yù)測(cè)層中來利用增強(qiáng)的特征。此外，級(jí)聯(lián)優(yōu)化去除了幾個(gè)負(fù)anchors ，不僅細(xì)化了anchor的位置，還細(xì)化了特征。

四、新框架

新檢測(cè)框架由三部分組成：標(biāo)準(zhǔn)SSD層，特征增強(qiáng)（豐富）（FE）方案和級(jí)聯(lián)優(yōu)化方案。FE方案包含一個(gè)多尺度上下文特征模塊（MSCF）以解決尺度變化。FE方案產(chǎn)生了多尺度的上下文特征，以提高標(biāo)準(zhǔn)SSD預(yù)測(cè)層的判別能力。級(jí)聯(lián)優(yōu)化方案同時(shí)利用了多尺度上下文和標(biāo)準(zhǔn)SSD特征，并解決了類不平衡問題。級(jí)聯(lián)優(yōu)化方案通過分別在兩個(gè)級(jí)聯(lián)模塊（即物體性模塊（OM）和特征導(dǎo)向的優(yōu)化模塊（FGRM））中執(zhí)行框回歸和分類來優(yōu)化anchor和特征。物體性模塊（OM）對(duì)對(duì)象與背景進(jìn)行二進(jìn)制分類，并進(jìn)行初始框回歸。然后，F(xiàn)GRM模塊重新優(yōu)化特征和anchor位置，以預(yù)測(cè)最終的多類別分類和邊界框位置。

Feature Enrichment Scheme

在標(biāo)準(zhǔn)SSD框架中，特征的提取是從深度卷積網(wǎng)絡(luò)主干中通過卷積和最大池操作的重復(fù)過程執(zhí)行的。盡管保留了一定程度的語義信息，但它們?nèi)匀粊G失了可能有助于區(qū)分對(duì)象區(qū)域和背景區(qū)域的低級(jí)特征信息。此外，在每個(gè)預(yù)測(cè)層的恒定感受野僅捕獲固定的上下文信息。在這項(xiàng)工作中，引入了一種特征增強(qiáng)（FE）方案來捕獲多尺度上下文信息。首先通過簡(jiǎn)單的池化操作對(duì)輸入圖像進(jìn)行下采樣，以使其尺寸與第一個(gè)SSD預(yù)測(cè)層的尺寸相匹配。然后，將經(jīng)過下采樣的圖像通過我們的多尺度上下文特征（MSCF）模塊。

Multi-scale Contextual Features Module

提出的MSCF模塊在上圖（b）中以藍(lán)色虛線框突出顯示。它是一個(gè)簡(jiǎn)單的模塊，包含多個(gè)卷積運(yùn)算，并產(chǎn)生多尺度的上下文特征。MSCF模塊的結(jié)構(gòu)受到多分支ResNeXT體系結(jié)構(gòu)的啟發(fā)，是拆分，轉(zhuǎn)換和聚合策略的一種操作。MSCF模塊將下采樣后的圖像作為輸入，并輸出上下文增強(qiáng)的多尺度特征。下采樣的圖像首先通過大小為3×3和1×1的兩個(gè)連續(xù)卷積層，從而產(chǎn)生初始特征投影。然后，將這些特征投影通過1×1卷積層切成三個(gè)低維分支。為了捕獲多尺度上下文信息，我們對(duì)不同的分支采用三個(gè)膨脹卷積，膨脹率分別設(shè)置為1、2和4。膨脹卷積的運(yùn)算將初始特征投影轉(zhuǎn)換為上下文增強(qiáng)的特征集。然后，這些變換后的特征通過級(jí)聯(lián)運(yùn)算進(jìn)行聚合，然后傳遞給1×1卷積進(jìn)行運(yùn)算。MSCF的輸出用于我們的級(jí)聯(lián)優(yōu)化方案的對(duì)象性模塊（OM）中。

Cascaded Refinement Scheme

優(yōu)化方案由兩個(gè)級(jí)聯(lián)模塊組成：對(duì)象性模塊和特征導(dǎo)向的優(yōu)化模塊（FGRM），如上圖（a）所示。對(duì)象性模塊通過多尺度上下文信息增強(qiáng)了SSD的特征，并標(biāo)識(shí)了可能的物體位置（客觀性）。使用多尺度上下文信息增強(qiáng)特征可以提高對(duì)于小目標(biāo)的性能，而FGRM使用對(duì)象性預(yù)測(cè)來解決類不平衡問題。

物體性模塊Objectness Module

物體性模塊首先通過逐元素乘法運(yùn)算在conv4_3的MCSF模塊中注入多尺度上下文信息，從而增強(qiáng)了SSD的特征。然后，引入了一個(gè)自下而上的金字塔特征層次結(jié)構(gòu)，以將增強(qiáng)的特征傳播到后續(xù)的SSD預(yù)測(cè)層，如上圖（a）所示。物體性模塊使用步長(zhǎng)為2（D）的3×3卷積運(yùn)算，并投影前一層的特征以與當(dāng)前層的空間分辨率和通道數(shù)匹配。然后，通過在每個(gè)預(yù)測(cè)層上的投影特征和SSD特征之間執(zhí)行逐元素乘法來獲得增強(qiáng)的特征。最后，增強(qiáng)的特征用于在每個(gè)預(yù)測(cè)層x上執(zhí)行二元分類（C1x）和初始框回歸（B1x）。x = 1,2、3和4對(duì)應(yīng)于四個(gè)預(yù)測(cè)層。

來自PASCAL VOC數(shù)據(jù)集的示例圖像以及來自標(biāo)準(zhǔn)SSD（第二列），多尺度上下文特征（第三列）和增強(qiáng)的特征（第四列）的相應(yīng)fc7層特征圖。這些示例表明，通過將多尺度上下文特征注入到標(biāo)準(zhǔn)SSD特征中而獲得的增強(qiáng)的特征有助于更好地從背景中區(qū)分目標(biāo)區(qū)域。

五、實(shí)驗(yàn)及可視化

PASCAL VOC 2007測(cè)試集上的測(cè)試結(jié)果

新框架采用在ImageNet上進(jìn)行預(yù)訓(xùn)練的VGG-16作為主干架構(gòu)。對(duì)兩個(gè)數(shù)據(jù)集使用相同的設(shè)置進(jìn)行模型初始化和優(yōu)化。采用warming up策略，將前5個(gè)epochs的初始學(xué)習(xí)速率設(shè)置為從10-6到4×10-3。然后，對(duì)于150和200 epoch的PASCAL VOC 2007數(shù)據(jù)集以及90、120和140 epoch的MS COCO數(shù)據(jù)集，將學(xué)習(xí)率逐漸降低10倍。

對(duì)于這兩個(gè)數(shù)據(jù)集，權(quán)重衰減設(shè)置為0.0005，動(dòng)量設(shè)置為0.9，批大?。╞atch size）為32。在實(shí)驗(yàn)中，分別為PASCAL VOC 2007和MS COCO數(shù)據(jù)集執(zhí)行了250和160個(gè)epoch。除了VGG-16，還對(duì)MS COCO數(shù)據(jù)集使用更強(qiáng)大的ResNet-101主干進(jìn)行了實(shí)驗(yàn)。對(duì)于ResNet-101，在截?cái)嗟腞esNet-101主干的末尾添加了兩個(gè)額外的卷積層（即res6 1，res6 2）。利用四個(gè)預(yù)測(cè)層（res3，res4，res5，res6 2）進(jìn)行檢測(cè)。

MS COCO test-dev2015的測(cè)試結(jié)果

對(duì)于所有80個(gè)COCO對(duì)象類別，在RefineDet（左側(cè)）和新的檢測(cè)器（右側(cè)）之間進(jìn)行了誤差分析。為了公平比較，兩種方法都使用相同的主干（VGG）和輸入大?。?20×320）進(jìn)行分析。在此，每個(gè)子圖像中的圖都顯示了一系列精確的召回曲線。這些曲線是使用不同的設(shè)置計(jì)算的。此外，圖例中還顯示了AUC曲線。

比較在PASCAL VOC 2007和MS COCO minival set數(shù)據(jù)集上將提出的特征增強(qiáng)和級(jí)聯(lián)的優(yōu)化方案集成到基準(zhǔn)SSD框架中的比較。對(duì)于所有實(shí)驗(yàn)，主干為VGG16，輸入為320×320。最終方法在兩個(gè)數(shù)據(jù)集上都比基線SSD的性能有大幅度提高。

注：本文大部分摘自于CSDN博主——「To_1_oT」的原創(chuàng)，在此感謝To_1_oT的付出！

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

電子負(fù)載相關(guān)文章:電子負(fù)載原理

博客專欄

目標(biāo)檢測(cè) | 豐富特征導(dǎo)向Refinement Network用于目標(biāo)檢測(cè)（附github源碼）

相關(guān)推薦

技術(shù)專區(qū)