目標(biāo)檢測 | Anchor free的目標(biāo)檢測進階版本
今天說的是《Soft Anchor-Point Object Detection》,其也是最近關(guān)于anchor free的目標(biāo)檢測的論文,作者來自于CMU,一作同樣也是FSAF(2019 CVPR)的作者。該論文的出發(fā)點還是在樣本選擇和FPN特征選擇層面。
背景
Anchor free是目標(biāo)檢測領(lǐng)域的一個研究熱點,其主要可以分為anchor-point和keypoint兩類。后者在往往在一個高分辨率的特征圖上進行檢測,其優(yōu)點是準(zhǔn)確率高,但是計算量大。而anchor-point的方法往往在多個分辨率上進行檢測,結(jié)構(gòu)簡單,速度更快。作者認(rèn)為anchor-point的方法性能不高主要還是在于訓(xùn)練的不充分,主要是注意力偏差(attention bias)和特征選擇(feature selection)。因而作者提出了兩種策略:1)soft-weighted anchor points對不同位置的樣本進行權(quán)重分配,2)soft-selected pyramid levels,將樣本分配到多個分辨率,并進行權(quán)重加權(quán)。
方法框架
整體框架其實和FSAF是類似
●Soft-Weighted Anchor Points ●
清晰的目標(biāo)更容易獲得關(guān)注和更高的分?jǐn)?shù),而邊緣或者被遮擋的目標(biāo)比較難檢測。具體的問題如下:
上圖中有五個足球運動員,分類輸出的得分圖score map如圖b所示,可以看到有兩個運動員的得分區(qū)域占了主導(dǎo)地位。甚至這兩個運動員的得分區(qū)域還侵占了其他運動員的得分區(qū)域。
作者認(rèn)為引起該問題的主要原因是特征不對齊,位于gt邊緣的anchor和位于中心的anchor不應(yīng)被同等對待。解決思路就是對不同位置的樣本引入不同的權(quán)重,其離gt的中心越近,其權(quán)重越高,離gt中心越遠(yuǎn),其權(quán)重越低(因為邊緣往往意味著包含很多背景信息)。從而引入了廣義
概述我們的訓(xùn)練策略與h soft-weighted anchorpoints和soft-selected pyramid levels。黑條表示正錨定點對網(wǎng)絡(luò)損耗貢獻的指定權(quán)重。
●Soft-Selected Pyramid Levels ●
該問題實際上在FSAF中也研究過,即如何選擇合適的分辨率(尺度)來進行目標(biāo)的檢測。FSAF是通過loss來選擇合適的分辨率。該論文同時也借鑒了FoveaBox將一個anchor映射到多個分辨率進行檢測的思想(實際上工程中也會用到)來提升性能。同時作者還給不同的分辨率分配不同的權(quán)重。具體地,作者額外訓(xùn)練了一個子網(wǎng)絡(luò)來預(yù)測不同尺度的權(quán)重,該網(wǎng)絡(luò)具體為:
而該子網(wǎng)絡(luò)的輸入,是在不同分辨率上利用roialign提取gt(ground truth)的特征,并
實驗結(jié)果
作者和FSAF(基于anchor-free分支)進行比較,soft-weighted anchor points(SW)策略提升了1.1個點,soft-selected pyramid levels(SS)提升了1個點。作者還采用了BFPN(2019 CVPR Libra RCNN中的特征融合策略)進行了加強,還能有性能提升。
可視化結(jié)果
論文最好的性能是47.4,在R50上也達(dá)到了41.7。
總結(jié)
作者在FSAF的基礎(chǔ)上進一步地分析了現(xiàn)有的兩個問題:注意力偏差和特征選擇問題。前一個問題通過對不同樣本加權(quán)實現(xiàn),后一個問題通過對不同分辨率加權(quán)實現(xiàn),論文講述清晰,思路簡單。同時也要注意到,該論文特征選擇預(yù)測網(wǎng)絡(luò)的訓(xùn)練問題,工程上是否真的有效還需進一步地嘗試驗證。
論文地址:https://arxiv.org/pdf/1911.12448.pdf
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。