博客專欄

EEPW首頁 > 博客 > PPCNN:細(xì)粒度特征提取和定位用于目標(biāo)檢測(cè)

PPCNN:細(xì)粒度特征提取和定位用于目標(biāo)檢測(cè)

發(fā)布人:CV研究院 時(shí)間:2022-04-14 來源:工程師 發(fā)布文章
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺上取得了優(yōu)異的性能。深度卷積神經(jīng)網(wǎng)絡(luò)以精確地分類目標(biāo)信息而聞名,并采用了簡(jiǎn)單的卷積體系結(jié)構(gòu)來降低圖層的復(fù)雜性。今天給大家分享一個(gè)簡(jiǎn)單的檢測(cè)網(wǎng)絡(luò)。

圖片


1

 簡(jiǎn)要


近年來,深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺上取得了優(yōu)異的性能。深度卷積神經(jīng)網(wǎng)絡(luò)以精確地分類目標(biāo)信息而聞名,并采用了簡(jiǎn)單的卷積體系結(jié)構(gòu)來降低圖層的復(fù)雜性。基于深度卷積神經(jīng)網(wǎng)絡(luò)概念設(shè)計(jì)的VGG網(wǎng)絡(luò)。VGGNet在對(duì)大規(guī)模圖像進(jìn)行分類方面取得了巨大的性能。該網(wǎng)絡(luò)設(shè)計(jì)了一堆小卷積濾波器,使網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)單,但網(wǎng)絡(luò)有一些定位錯(cuò)誤。

圖片

就有研究者提出了獨(dú)特的網(wǎng)絡(luò)架構(gòu),PPCNN(金字塔池化卷積神經(jīng)網(wǎng)絡(luò)),以減少定位誤差,并提取高級(jí)特征圖。該網(wǎng)絡(luò)由改進(jìn)的VGGNet和U-shape特征金字塔網(wǎng)絡(luò)組成。介紹了一種提取和收集目標(biāo)的小特征信息并從源圖像中檢測(cè)小物體的網(wǎng)絡(luò)。該方法在定位和檢測(cè)任務(wù)中取得了更高的精度。


2

 背景


Facebook的特征金字塔網(wǎng)絡(luò)Feature Pyramid Networks(FPN)。FPN主要解決的是物體檢測(cè)中的多尺度問題,通過簡(jiǎn)單的網(wǎng)絡(luò)連接改變,在基本不增加原有模型計(jì)算量情況下,大幅度提升了小物體檢測(cè)的性能。我們將從論文背景,論文思想,結(jié)果與結(jié)論幾方面探討此論文。

在物體檢測(cè)里面,有限計(jì)算量情況下,網(wǎng)絡(luò)的深度(對(duì)應(yīng)到感受野)與stride通常是一對(duì)矛盾的東西,常用的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)應(yīng)的stride一般會(huì)比較大(如32),而圖像中的小物體甚至?xí)∮趕tride的大小,造成的結(jié)果就是小物體的檢測(cè)性能急劇下降。傳統(tǒng)解決這個(gè)問題的思路包括:

  • 多尺度訓(xùn)練和測(cè)試,又稱圖像金字塔,如圖1(a)所示。目前幾乎所有在ImageNet和COCO檢測(cè)任務(wù)上取得好成績(jī)的方法都使用了圖像金字塔方法。然而這樣的方法由于很高的時(shí)間及計(jì)算量消耗,難以在實(shí)際中應(yīng)用。

  • 特征分層,即每層分別預(yù)測(cè)對(duì)應(yīng)的scale分辨率的檢測(cè)結(jié)果。如圖1(c)所示。SSD檢測(cè)框架采用了類似的思想。這樣的方法問題在于直接強(qiáng)行讓不同層學(xué)習(xí)同樣的語義信息。而對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,不同深度對(duì)應(yīng)著不同層次的語義特征,淺層網(wǎng)絡(luò)分辨率高,學(xué)的更多是細(xì)節(jié)特征,深層網(wǎng)絡(luò)分辨率低,學(xué)的更多是語義特征。

圖片

因而,目前多尺度的物體檢測(cè)主要面臨的挑戰(zhàn)為:

  • 如何學(xué)習(xí)具有強(qiáng)語義信息的多尺度特征表示?

  • 如何設(shè)計(jì)通用的特征表示來解決物體檢測(cè)中的多個(gè)子問題?如object proposal, box localization, instance segmentation.

  • 如何高效計(jì)算多尺度的特征表示?

針對(duì)這些問題,提出了特征金字塔網(wǎng)絡(luò)FPN,如上圖(d)所示,網(wǎng)絡(luò)直接在原來的單網(wǎng)絡(luò)上做修改,每個(gè)分辨率的feature map引入后一分辨率縮放兩倍的feature map做element-wise相加的操作。通過這樣的連接,每一層預(yù)測(cè)所用的feature map都融合了不同分辨率、不同語義強(qiáng)度的特征,融合的不同分辨率的feature map分別做對(duì)應(yīng)分辨率大小的物體檢測(cè)。這樣保證了每一層都有合適的分辨率以及強(qiáng)語義特征。同時(shí),由于此方法只是在原網(wǎng)絡(luò)基礎(chǔ)上加上了額外的跨層連接,在實(shí)際應(yīng)用中幾乎不增加額外的時(shí)間和計(jì)算量。將FPN應(yīng)用在Faster RCNN上的性能,在COCO上達(dá)到了state-of-the-art的單模型精度。

圖片

具體而言,F(xiàn)PN分別在RPN和Fast RCNN兩步中起到作用。其中RPN和Fast RCNN分別關(guān)注的是召回率和正檢率,在這里對(duì)比的指標(biāo)分別為Average Recall(AR)和Average Precision(AP)。分別對(duì)比了不同尺度物體檢測(cè)情況,小中大物體分別用s,m,l表示。

在RPN中,區(qū)別于原論文直接在最后的feature map上設(shè)置不同尺度和比例的anchor,本文的尺度信息對(duì)應(yīng)于相應(yīng)的feature map(分別設(shè)置面積為32^2, 64^2, 128^2, 256^2, 512^2),比例用類似于原來的方式設(shè)置{1:2, 1:1,, 2:1}三種。

與RPN一樣,F(xiàn)PN每層feature map加入3*3的卷積及兩個(gè)相鄰的1*1卷積分別做分類和回歸的預(yù)測(cè)。在RPN中,實(shí)驗(yàn)對(duì)比了FPN不同層feature map卷積參數(shù)共享與否,發(fā)現(xiàn)共享仍然能達(dá)到很好性能,說明特征金字塔使得不同層學(xué)到了相同層次的語義特征。


3

 新框架


圖片

金字塔池化網(wǎng)絡(luò)允許從不同卷積層中的多尺度特征作為輸入,并提取相同尺度的輸出特征圖,如上圖所示。研究者提出用VGGNet在u-shape特征金字塔網(wǎng)絡(luò)中構(gòu)建的改進(jìn)的網(wǎng)絡(luò)架構(gòu)來提取高級(jí)特征圖。該特征金字塔網(wǎng)絡(luò)的特征提取過程如下圖所示。

圖片


4

 實(shí)驗(yàn)


圖片

圖片

可視化結(jié)果

圖片

Experimental results of conventional VGG network and proposed PPCNN (VGG network with u-shape feature pyramid network) on MS COCO dataset. The top row contains results of the conventional VGG network, and the bottom row contains the detection results of the proposed network.


圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉