博客專欄

EEPW首頁(yè) > 博客 > 目標(biāo)檢測(cè) | Anchor free的目標(biāo)檢測(cè)進(jìn)階版本

目標(biāo)檢測(cè) | Anchor free的目標(biāo)檢測(cè)進(jìn)階版本

發(fā)布人:CV研究院 時(shí)間:2020-11-09 來(lái)源:工程師 發(fā)布文章

今天說(shuō)的是《Soft Anchor-Point Object Detection》,其也是最近關(guān)于anchor free的目標(biāo)檢測(cè)的論文,作者來(lái)自于CMU,一作同樣也是FSAF(2019 CVPR)的作者。該論文的出發(fā)點(diǎn)還是在樣本選擇和FPN特征選擇層面。

背景

Anchor free是目標(biāo)檢測(cè)領(lǐng)域的一個(gè)研究熱點(diǎn),其主要可以分為anchor-point和keypoint兩類。后者在往往在一個(gè)高分辨率的特征圖上進(jìn)行檢測(cè),其優(yōu)點(diǎn)是準(zhǔn)確率高,但是計(jì)算量大。而anchor-point的方法往往在多個(gè)分辨率上進(jìn)行檢測(cè),結(jié)構(gòu)簡(jiǎn)單,速度更快。作者認(rèn)為anchor-point的方法性能不高主要還是在于訓(xùn)練的不充分,主要是注意力偏差(attention bias)和特征選擇(feature selection)。因而作者提出了兩種策略:1)soft-weighted anchor points對(duì)不同位置的樣本進(jìn)行權(quán)重分配,2)soft-selected pyramid levels,將樣本分配到多個(gè)分辨率,并進(jìn)行權(quán)重加權(quán)。

方法框架

11.jpg

整體框架其實(shí)和FSAF是類似

●Soft-Weighted Anchor Points ●

清晰的目標(biāo)更容易獲得關(guān)注和更高的分?jǐn)?shù),而邊緣或者被遮擋的目標(biāo)比較難檢測(cè)。具體的問(wèn)題如下:

10.jpg

上圖中有五個(gè)足球運(yùn)動(dòng)員,分類輸出的得分圖score map如圖b所示,可以看到有兩個(gè)運(yùn)動(dòng)員的得分區(qū)域占了主導(dǎo)地位。甚至這兩個(gè)運(yùn)動(dòng)員的得分區(qū)域還侵占了其他運(yùn)動(dòng)員的得分區(qū)域。

作者認(rèn)為引起該問(wèn)題的主要原因是特征不對(duì)齊,位于gt邊緣的anchor和位于中心的anchor不應(yīng)被同等對(duì)待。解決思路就是對(duì)不同位置的樣本引入不同的權(quán)重,其離gt的中心越近,其權(quán)重越高,離gt中心越遠(yuǎn),其權(quán)重越低(因?yàn)檫吘壨馕吨芏啾尘靶畔ⅲ?。從而引入了廣義中心度來(lái)確定權(quán)重:

9.jpg8.jpg

概述我們的訓(xùn)練策略與h soft-weighted anchorpoints和soft-selected pyramid levels。黑條表示正錨定點(diǎn)對(duì)網(wǎng)絡(luò)損耗貢獻(xiàn)的指定權(quán)重。

●Soft-Selected Pyramid Levels ●

該問(wèn)題實(shí)際上在FSAF中也研究過(guò),即如何選擇合適的分辨率(尺度)來(lái)進(jìn)行目標(biāo)的檢測(cè)。FSAF是通過(guò)loss來(lái)選擇合適的分辨率。該論文同時(shí)也借鑒了FoveaBox將一個(gè)anchor映射到多個(gè)分辨率進(jìn)行檢測(cè)的思想(實(shí)際上工程中也會(huì)用到)來(lái)提升性能。同時(shí)作者還給不同的分辨率分配不同的權(quán)重。具體地,作者額外訓(xùn)練了一個(gè)子網(wǎng)絡(luò)來(lái)預(yù)測(cè)不同尺度的權(quán)重,該網(wǎng)絡(luò)具體為:

7.jpg6.png

而該子網(wǎng)絡(luò)的輸入,是在不同分辨率上利用roialign提取gt(ground truth)的特征,并concat起來(lái)。

5.jpg

實(shí)驗(yàn)結(jié)果

作者和FSAF(基于anchor-free分支)進(jìn)行比較,soft-weighted anchor points(SW)策略提升了1.1個(gè)點(diǎn),soft-selected pyramid levels(SS)提升了1個(gè)點(diǎn)。作者還采用了BFPN(2019 CVPR Libra RCNN中的特征融合策略)進(jìn)行了加強(qiáng),還能有性能提升。

4.png3.png

可視化結(jié)果

2.jpg

論文最好的性能是47.4,在R50上也達(dá)到了41.7。

1.jpg

總結(jié)

作者在FSAF的基礎(chǔ)上進(jìn)一步地分析了現(xiàn)有的兩個(gè)問(wèn)題:注意力偏差和特征選擇問(wèn)題。前一個(gè)問(wèn)題通過(guò)對(duì)不同樣本加權(quán)實(shí)現(xiàn),后一個(gè)問(wèn)題通過(guò)對(duì)不同分辨率加權(quán)實(shí)現(xiàn),論文講述清晰,思路簡(jiǎn)單。同時(shí)也要注意到,該論文特征選擇預(yù)測(cè)網(wǎng)絡(luò)的訓(xùn)練問(wèn)題,工程上是否真的有效還需進(jìn)一步地嘗試驗(yàn)證。

論文地址:https://arxiv.org/pdf/1911.12448.pdf

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉