LCCL網(wǎng)絡(luò)：相互指導(dǎo)博弈來提升目標(biāo)檢測精度

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2021-12-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

論文地址：https://openaccess.thecvf.com/content/ACCV2020/papers/Zhang_Localize_to_Classify_and_Classify_to_Localize_Mutual_Guidance_in_ACCV_2020_paper.pdf

源代碼地址：https://github.com/ZHANGHeng19931123/MutualGuide

目標(biāo)檢測一般包括分類和回歸兩個(gè)子任務(wù)。在模型訓(xùn)練的過程中，我們依據(jù)回歸任務(wù)的預(yù)測結(jié)果動(dòng)態(tài)分配分類任務(wù)的標(biāo)簽，同時(shí)利用分類任務(wù)的預(yù)測結(jié)果來分配回歸任務(wù)的標(biāo)簽，以此達(dá)到相互指導(dǎo)、左右互搏的效果。

一、背景

有監(jiān)督的目標(biāo)檢測是計(jì)算機(jī)視覺中的一項(xiàng)流行任務(wù)，旨在通過邊界框定位目標(biāo)并將它們中的每一個(gè)分配給預(yù)定義的類?；谏疃葘W(xué)習(xí)的方法在很大程度上主導(dǎo)了這個(gè)研究領(lǐng)域，最近的方法都是基于Anchor機(jī)制的。Anchors是在整個(gè)圖像上均勻堆疊的不同大小和縱橫比的預(yù)定義參考框。它們通過將目標(biāo)檢測問題轉(zhuǎn)換為基于Anchor的邊界框回歸和分類問題，幫助網(wǎng)絡(luò)處理目標(biāo)尺寸和形狀變化。大多數(shù)最先進(jìn)的基于Anchor的目標(biāo)檢測器采用預(yù)定義的Anchor boxes和GT框（以下稱為 IoU-anchor）之間的交集（IoU）來將樣本Anchor分配給目標(biāo)（正樣本Anchor）或背景（負(fù)樣本Anchor）類別。然后使用這些分配的Anchors來最小化訓(xùn)練期間的邊界框回歸和分類損失。

Anchor A和Anchor B與框GT具有相同的IoU，但具有不同的視覺語義信息。每個(gè)圖像中的真實(shí)情況標(biāo)記為虛線框。

基于深度學(xué)習(xí)的目標(biāo)檢測涉及兩個(gè)子任務(wù)：實(shí)例定位和分類。這兩個(gè)任務(wù)的預(yù)測分別告訴我們圖像上的“位置”和“什么”目標(biāo)。在訓(xùn)練階段，兩個(gè)任務(wù)都通過梯度下降聯(lián)合優(yōu)化，但是靜態(tài)Anchor匹配策略并沒有明確受益于兩個(gè)任務(wù)的聯(lián)合解決方案，這可能會(huì)導(dǎo)致任務(wù)錯(cuò)位問題，即在評(píng)估階段，該模型可能會(huì)生成具有正確分類但不精確定位的邊界框的預(yù)測，以及具有精確定位但錯(cuò)誤分類的預(yù)測。這兩種預(yù)測都顯著降低了整體檢測質(zhì)量。

二、前言

為了解決現(xiàn)有基于IoU-anchor策略的這兩個(gè)局限性，研究者提出了一種新的自適應(yīng)Anchor匹配準(zhǔn)則，由定位和分類任務(wù)相互指導(dǎo)，動(dòng)態(tài)分配訓(xùn)練Anchor樣本為優(yōu)化分類，反之亦然。特別是，將定位良好的Anchor限制為也很好分類（定位到分類），以及那些分類良好的Anchor也很好定位（分類到定位）。這些策略導(dǎo)致內(nèi)容/上下文敏感的Anchor匹配并避免任務(wù)錯(cuò)位問題。盡管所提出的策略很簡單，但在PASCAL VOC和MS COCO數(shù)據(jù)集上，尤其是在嚴(yán)格的指標(biāo)（如AP75）上，Mutual Guidance與具有不同深度學(xué)習(xí)架構(gòu)的傳統(tǒng)靜態(tài)策略相比，帶來了一致的平均精度 (AP) 增益。

新提出的方法有望在需要精確實(shí)例定位的應(yīng)用程序上更有效，例如自動(dòng)駕駛、機(jī)器人、戶外視頻監(jiān)控等。

三、新框架

傳統(tǒng)的Anchor通常是預(yù)先定義了一組Anchor的aspect ratio，在實(shí)際的滑窗訓(xùn)練過程中先用二分類模型判斷這些Anchor的框內(nèi)有沒有物體，并根據(jù)設(shè)定的閾值將sample標(biāo)注為positive或者negative或者ignored，然后進(jìn)行bonding box回歸進(jìn)行refine，最后做多分類再回歸調(diào)整位置。

這里作者將預(yù)定義的Anchor和GT的IoU叫做IoU-anchor，IoU-anchor大于50%的作為positive，小于40%作為negative，其他作為ignored samples。如果沒有Anchor的大于50%，那就選最大的IoU的那個(gè)作為positive。如下圖所示：

定位到分類（Localize to Classify）

動(dòng)態(tài)設(shè)置述分類方法中正負(fù)樣本的閾值。因?yàn)殡S著訓(xùn)練進(jìn)行，正樣本變多（因?yàn)槎诸惸Ｐ湍芰χ饾u增強(qiáng)，但是閾值沒變），作者認(rèn)為這樣會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。

于是作者將擬將分類模型的分類能力納入閾值設(shè)置考量范圍以動(dòng)態(tài)設(shè)置閾值：在根據(jù)IoU-regressed標(biāo)注確定正負(fù)樣本的時(shí)候不再直接采用固定閾值，而是根據(jù)IoU-anchor中的正樣本數(shù)量n來選取IoU-regressed的前n個(gè)樣本標(biāo)注為positive，其他negative和ignored同理。

這種策略能夠隨著定位能力提高而提高，同時(shí)也保持了訓(xùn)練過程中正負(fù)樣本分配的一致性！

分類到定位（Classify to localize）

在分類早期，模型處于初始狀態(tài)，大多數(shù)分類的結(jié)果都接近于0，存在類似于推薦系統(tǒng)的冷啟動(dòng)問題同時(shí)也可能使得訓(xùn)練不穩(wěn)定，所以研究者定義了一個(gè)Classify to localize的策略來避免這種問題。

首先作者定義了一個(gè)IoU-amplified用于替換傳統(tǒng)的IoU-regressed，其表達(dá)式如下:

其中σ是超參用于調(diào)整的增強(qiáng)系數(shù)，p是分類得分。此外，這一部分也采用了類似于前面定位到分類部分動(dòng)態(tài)閾值設(shè)置的策略來設(shè)置這里的正樣本閾值。

顯然開始時(shí)與GT的iou較大的anchor box置信度一般更高，被選中的概率也更高；當(dāng)iou相同時(shí)，置信度p較高的anchor得到的IOUamplified也更大。上圖的第四列是直接預(yù)測的置信度，第五列是amplified之后的score?？梢园l(fā)現(xiàn)amplified后的結(jié)果與iou和p都有關(guān)。

IoU-amplifed總是高于IoU-anchor，并且amplification與預(yù)測的Classif分?jǐn)?shù)成正比。特別是σ越小amplification越強(qiáng)（注意σ要大于1），σ變大時(shí)就消失。

通過這種交互作用，訓(xùn)練過程能夠讓回歸好分類差的Anchor盡可能地提升分類精度，同樣讓分類好但回歸差的Anchor盡可能地提升回歸精度，從而一定程度解決 task-misalignment問題。

四、實(shí)驗(yàn)及可視化

訓(xùn)練階段標(biāo)簽分配差異的可視化（圖像大小設(shè)置為320×320像素）。紅色、黃色和綠色Anchor框分別是由基于IoU-anchor、Localize to Classify和Classify to Localize分配的正樣本Anchor。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

pwm相關(guān)文章:pwm是什么

傳感器相關(guān)文章:傳感器工作原理

博客專欄

LCCL網(wǎng)絡(luò)：相互指導(dǎo)博弈來提升目標(biāo)檢測精度

相關(guān)推薦

技術(shù)專區(qū)