SSFENet | 增強空間和語義特征用于目標檢測
簡要
目前最先進的目標檢測器通常使用預先訓練好的分類網絡來提取特征,然后利用特征金字塔來檢測不同尺度的目標。然而,分類網絡更喜歡平移不變性,而忽略了位置信息,因此直接使用提取的特征進行融合會影響性能。
在今天分享中,研究者提出了一個新的網絡來解決這個困境,即空間和語義特征增強網絡(SSFENet)。首先,引入了空間特征增強塊來利用空洞卷積和加權特征融合來增強特征中的空間信息。其次,在低級階段,框架中的語義特征增強塊利用高級階段的主干網絡來獲得具有更豐富語義信息的特征,并且由于使用了共享的卷積層,只引入了很少的計算成本。在MS-COCO基準測試上的實驗結果表明,該SSFENet顯著提高了常用目標探測器的MAP性能。
2
簡單背景介紹
Two-stage:
對于Two-stage的目標檢測網絡,主要通過一個卷積神經網絡來完成目標檢測過程,其提取的是CNN卷積特征,在訓練網絡時,其主要訓練兩個部分,第一步是訓練RPN網絡,第二步是訓練目標區(qū)域檢測的網絡。網絡的準確度高、速度相對One-stage慢。
One-stage:
直接通過主干網絡給出類別和位置信息,沒有使用RPN網路。這樣的算法速度更快,但是精度相對Two-stage目標檢測網絡了略低。
目前常用的典型的One-stage目標檢測網絡
YOLOv1、YOLOv2、YOLOv3
SSD、DSSD等
Retina-Net等
Feature enhancement:
Feature Enhancement Network: A Refined Scene Text Detector
地址: https://arxiv.org/abs/1711.04249
3
新框架
Spatial Feature Enhancement Block
大多數最先進的目標檢測器都使用預先訓練好的分類網絡來提取特征。然而,分類網絡在前幾個卷積層之后進行多個下采樣。此操作將丟失目標檢測所必需的位置信息。直接的解決方案不執(zhí)行下采樣,但這將大大增加內存和計算成本,并且需要重新設計主干網絡。
新出了一種有效的空間特征增強(SpaFE)塊來擴展感受野,并了解不同感受野的重要性,如上圖所示。首先,SpaFE塊采用多分支形式來提取具有不同感受野的特征,每個分支都使用具有不同擴張率的空洞卷積。其次,SpaFE塊使用元素級添加而不是連接,這將減少一些計算開銷。此外,由不同感受野提取的特征的重要性是不相同的,即不同分支的輸入對輸出的貢獻并不平等。為了解決這個問題,研究者為每個輸入引入了一個額外的權重,并讓網絡了解每個分支的重要性。研究者使用快速標準化的融合:
Semantic Feature Enhancement Network
研究者將SemFE塊與綜合特征增強(CFE)模塊進行了比較。CFE模塊利用多分支和分組卷積來增強語義信息,需要從頭開始進行訓練。這將增加模型的復雜性和訓練的難度。實驗結果表明,SpaFE塊的性能優(yōu)于CFE。
SSFENet框架
4
實驗
Ablation study of SSFENet. The baseline is FPN Faster RCNN with ResNet-50 and the detection results are evaluated on minival set.
Detection performance of different architectures on MS-COCO minival set. Faster RCNN and Mask RCNN both utilize FPN.
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。