性能大幅度提升（速度&遮擋） | 基于區(qū)域分解&集成的目標(biāo)檢測(cè)

發(fā)布人：CV研究院時(shí)間：2021-08-17 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

最近杭州天氣陰陽(yáng)不定，為了消除不愉快的心情，可以來(lái)和我們一起探討下接下來(lái)講述的技術(shù)框架，主要涉及深度學(xué)習(xí)及目標(biāo)檢測(cè)領(lǐng)域！

研究背景

目標(biāo)檢測(cè)其實(shí)就是查找給定圖像的一個(gè)或多個(gè)目標(biāo)類(lèi)的所有實(shí)例。

近年來(lái)，目標(biāo)檢測(cè)已經(jīng)被研究很長(zhǎng)一段時(shí)間，并取得了很大的進(jìn)步且部分都已經(jīng)應(yīng)用到實(shí)際生活當(dāng)中，好比人流量統(tǒng)計(jì)、刷臉支付、危險(xiǎn)人物監(jiān)測(cè)等技術(shù)。其中最著名的框架屬R-CNN[1]（2014年），首先使用選擇性搜索生成目標(biāo)區(qū)域候選[2]（2013年），提取這些區(qū)域的CNN特征[3]，并將其用特殊類(lèi)的SVMs分類(lèi)。然后，出現(xiàn)了Fast R-CNN[4]，使用特征共享和RoI池化提高R-CNN的速度。最近的研究是將外部區(qū)域候選模塊整合到CNN中，以進(jìn)一步提高訓(xùn)練和檢測(cè)速度。

因此，通過(guò)對(duì)區(qū)域候選和分類(lèi)模塊的聯(lián)合學(xué)習(xí)，也可以提高檢測(cè)精度。

[1] Girshick, R. B.; Donahue, J.; Darrell, T.; and Malik, J. 2014. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 580–587.

[2] Uijlings, J. R. R.; van de Sande, K. E. A.; Gevers, T.; and Smeulders, A. W. M. 2013. Selective search for object recognition. IJCV 104(2):154–171.

[3] Krizhevsky, A.; Sutskever, I.; and Hinton, G. E. 2012. Imagenet classification with deep convolutional neural networks. In NIPS, 1106–1114.

[4] Girshick, R. B. 2015. Fast R-CNN. In ICCV, 1440–1448.

現(xiàn)代檢測(cè)器通常在固定的輸入尺度下簡(jiǎn)化特征提取和目標(biāo)檢測(cè)過(guò)程。但是，即使在尺度變化下具有魯棒性，區(qū)域候選的精度也經(jīng)常會(huì)因所產(chǎn)生的候選和目標(biāo)區(qū)域的變化而降低。此外，對(duì)于小目標(biāo)檢測(cè)錯(cuò)誤會(huì)增加。為了提高候選的精度，采用特征金字塔的多尺度特征表示來(lái)生成更強(qiáng)的綜合特征圖。然而，圖像金字塔的每層都顯著增加了推理時(shí)間。

動(dòng)機(jī)

一般情況下，檢測(cè)錯(cuò)誤經(jīng)常由于目標(biāo)遮擋造成。在這種情況下，由于目標(biāo)的某些部分細(xì)節(jié)在區(qū)域中缺失，因此該目標(biāo)的CNN特征大量減少，意味著對(duì)整個(gè)目標(biāo)區(qū)域進(jìn)行全局外觀特征的挖掘不足以對(duì)目標(biāo)進(jìn)行準(zhǔn)確的分類(lèi)和定位。具體例子如下：

新框架分析

接下來(lái)直接進(jìn)入主題——區(qū)域分解和集成的檢測(cè)器（R-DAD）。在下圖的框架中，首先是將一個(gè)目標(biāo)區(qū)域劃分為多個(gè)小區(qū)域，為了聯(lián)合捕獲目標(biāo)的整體外觀和部分細(xì)節(jié)，在整個(gè)目標(biāo)區(qū)域和分解區(qū)域中提取CNN特征；然后將多區(qū)域特征逐步與區(qū)域集成塊相結(jié)合，學(xué)習(xí)目標(biāo)與其部件之間的語(yǔ)義關(guān)系，并利用組合的和高級(jí)語(yǔ)義特征進(jìn)行目標(biāo)分類(lèi)和定位。

為了更準(zhǔn)確地提出區(qū)域候選，提出了一個(gè)多尺度的候選層，可以生成不同尺度的目標(biāo)候選，將R-DAD集成到多個(gè)特征中，并且在VOC2017、VOC2012和MSCOCO數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，發(fā)現(xiàn)有了顯著的性能提升。

該框架主要由3小部分組成：1）特征提取，2）基于多尺度的區(qū)域候選（MRP，Multi-Scale Region Proposal），3）目標(biāo)區(qū)域分解與集成階段（RDA，Region Decomposition and Assembly）。

特征提取

這部分主要基于Faster R-CNN的流程，我們主要說(shuō)說(shuō)第二步驟（MRP）及第三部分內(nèi)容（RDA）。

上圖中的MRP模塊主要作用是用來(lái)改善RPN生成的Region Proposals的準(zhǔn)確率?？催^(guò)的同學(xué)應(yīng)該都知道，該思想特別簡(jiǎn)單，就是利用傳統(tǒng)的RPN生成一些候選框，然后再用不同的縮放因子（該技術(shù)使用了5種縮放因子作為一組：s = [0.5, 0.7, 1, 1.2, 1.5]）對(duì)生成出的候選框進(jìn)行不同比例的縮小及放大，從而提高了區(qū)域候選的多樣性。

如上，就生成了不同尺度的區(qū)域，有部分僅僅是局部區(qū)域，有部分是大于目標(biāo)本身的區(qū)域，其實(shí)這也有一個(gè)問(wèn)題：原來(lái)的區(qū)域候選已經(jīng)有很大數(shù)量級(jí)，再乘以五個(gè)尺寸，也就是乘以五倍，想要該框架完全利用生成的候選框感覺(jué)很吃力??！

所以最后添加了RoI的采樣層，對(duì)得分較低的和跟GT重疊率較低的進(jìn)行了篩選。由MRP網(wǎng)絡(luò)生成的各種Region Proposals可以進(jìn)一步適應(yīng)目標(biāo)之間因?yàn)榭臻g變化所導(dǎo)致的特征變化，提高結(jié)構(gòu)的魯棒性。

RDA

一般來(lái)說(shuō)，特征的強(qiáng)烈響應(yīng)是識(shí)別目標(biāo)最重要的方法之一。因此，對(duì)于來(lái)自MRP網(wǎng)絡(luò)的每一個(gè)候選，都會(huì)通過(guò)結(jié)合多個(gè)區(qū)域的逐階段特征來(lái)進(jìn)行強(qiáng)的再加工，如上圖。為此，需要學(xué)習(xí)能夠表示不同部分特征之間語(yǔ)義關(guān)系的權(quán)重，并利用這些權(quán)重來(lái)控制下一層特征的數(shù)量。上圖還顯示了學(xué)習(xí)的R-DAD的幾個(gè)層的語(yǔ)義特性。目標(biāo)內(nèi)部的一些強(qiáng)特征響應(yīng)是由R-DAD提取的。

先用線(xiàn)性插值兩倍上采樣之后再分解，這樣效果會(huì)更好。左右剛好是特征圖的左右一半，上下也同理，都會(huì)輸入到RAB模塊，RAB模塊如下圖所示：

通過(guò)上圖可以發(fā)現(xiàn)，RAB模塊類(lèi)似于一個(gè)Maxout的單元，它可以逼近任何連續(xù)函數(shù)，所以該框架最終選擇了RAB而不是直接使用常用的ReLU函數(shù)，這表明各種各樣的目標(biāo)特征構(gòu)造可以通過(guò)分層的RABs表示，此外該網(wǎng)絡(luò)生成的各種區(qū)域候選可以進(jìn)一步提高目標(biāo)間空間配置變化所產(chǎn)生的特征變化的魯棒性。

實(shí)驗(yàn)

提出的多尺度區(qū)域候選和目標(biāo)區(qū)域分解/集成方法的效果