ECCV 2022 | OA-MIL：目標(biāo)感知多實(shí)例學(xué)習(xí)方法

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2022-09-17 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

作者丨吃飯機(jī)@知乎

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/200924181

前言針對定位精度受到不準(zhǔn)確邊界框的嚴(yán)重影響，而分類精度受影響較小，因此本文提出利用分類作為指導(dǎo)信號來改進(jìn)定位結(jié)果。通過將目標(biāo)視為實(shí)例包，作者提出了一種目標(biāo)感知多實(shí)例學(xué)習(xí)方法（OA-MIL），其特點(diǎn)是目標(biāo)感知實(shí)例選擇和目標(biāo)感知實(shí)例擴(kuò)展。前者旨在為訓(xùn)練選擇準(zhǔn)確的實(shí)例，而不是直接使用不準(zhǔn)確的框標(biāo)注。后者側(cè)重于生成用于選擇的高質(zhì)量實(shí)例。在合成噪聲數(shù)據(jù)集（即有噪聲的PASCAL VOC和MS-COCO）和真實(shí)的有噪聲wheat head數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明了OA-MIL的有效性。

原文：https://arxiv.org/pdf/2207.09697.pdf

代碼：https://github.com/cxliu0/OA-MIL

創(chuàng)新思路

目前目標(biāo)檢測是做得非常好的方向，其主要受益于標(biāo)注數(shù)據(jù)非常多，但對于其他方向來說，標(biāo)注是很困難的事，尤其對于一些專業(yè)領(lǐng)域的數(shù)據(jù)，例如農(nóng)業(yè)，醫(yī)學(xué)圖像，如果不是專業(yè)人員，甚至都不知道應(yīng)該標(biāo)注哪些。

這種情況導(dǎo)致了一個(gè)困境，即沒有計(jì)算機(jī)視覺背景的從業(yè)者不確定如何標(biāo)注高質(zhì)量的框，而沒有領(lǐng)域知識的標(biāo)注者也很難標(biāo)注精確的目標(biāo)框。另一方面，在自然環(huán)境中標(biāo)注大量常見目標(biāo)既昂貴又耗時(shí)。為了降低標(biāo)注成本，數(shù)據(jù)集制作者可能依賴社交媒體平臺或眾包平臺。然而，上述戰(zhàn)略將導(dǎo)致標(biāo)注質(zhì)量低下。

最近，具有噪聲數(shù)據(jù)的學(xué)習(xí)目標(biāo)檢測器引發(fā)了極大的興趣，已有幾種方法嘗試處理噪聲標(biāo)注。這些方法通常假設(shè)噪聲出現(xiàn)在類別標(biāo)簽和邊界框標(biāo)注上，并設(shè)計(jì)一個(gè)分離的體系結(jié)構(gòu)來學(xué)習(xí)目標(biāo)檢測器。與之前的工作不同，作者主要關(guān)注帶噪邊界框標(biāo)注的目標(biāo)檢測。

原因有兩方面：

1.由于目標(biāo)的模糊性和眾包標(biāo)注過程，現(xiàn)實(shí)中普遍存在盒噪聲;

2.目標(biāo)檢測數(shù)據(jù)集經(jīng)常涉及目標(biāo)類驗(yàn)證，因此有噪聲的類別標(biāo)簽比不準(zhǔn)確的邊界框更嚴(yán)重。

由于觀察到定位精度顯著受到不準(zhǔn)確邊界框的影響，而分類精度受影響較小，因此，作者提出利用分類作為定位的指導(dǎo)信號。具體而言，提出了一種目標(biāo)感知多實(shí)例學(xué)習(xí)方法，將每個(gè)目標(biāo)視為實(shí)例包。其思想是從目標(biāo)包中選擇準(zhǔn)確的實(shí)例進(jìn)行訓(xùn)練，而不是使用不準(zhǔn)確的框標(biāo)注。

本文的主要貢獻(xiàn)

1、通過將目標(biāo)視為一實(shí)例包，為學(xué)習(xí)具有不精確邊界框的目標(biāo)檢測器提供了一種新的視圖；

2、提出了一種目標(biāo)感知多實(shí)例學(xué)習(xí)方法，其特點(diǎn)是目標(biāo)感知實(shí)例選擇和目標(biāo)感知實(shí)例擴(kuò)展OA-MIL在現(xiàn)成的目標(biāo)檢測器上具有通用性，并在合成和真實(shí)噪聲數(shù)據(jù)集上獲得了有前景的結(jié)果。

方法

目標(biāo)感知多實(shí)例學(xué)習(xí)

由于觀察到分類在噪聲框標(biāo)注下保持高精度（圖2），作者提出利用分類來指導(dǎo)定位。也就是說，作者期望分類分支選擇更精確的框進(jìn)行訓(xùn)練，而不是使用不準(zhǔn)確的ground-truth框。這個(gè)想法衍生了目標(biāo)包的概念，其中每個(gè)目標(biāo)都被描述為一個(gè)實(shí)例包。在目標(biāo)包的基礎(chǔ)上，作者提出了一種目標(biāo)感知多實(shí)例學(xué)習(xí)方法，該方法具有目標(biāo)感知實(shí)例選擇和目標(biāo)感知實(shí)例擴(kuò)展。

圖2:Faster RCNN在模擬的“有噪”PASCAL VOC 2007數(shù)據(jù)集上的分類精度和定位精度，其中框標(biāo)注被隨機(jī)擾動。

預(yù)備工作

給定圖像級標(biāo)簽，WSOD中的MIL方法將每個(gè)圖像視為一實(shí)例包。學(xué)習(xí)過程在實(shí)例選擇和實(shí)例分類器學(xué)習(xí)之間交替。將具有參數(shù)ωf的實(shí)例選擇器f應(yīng)用于正包Bi，以選擇最正的實(shí)例，指數(shù)j?通過以下方式獲得：

所選實(shí)例用于訓(xùn)練具有參數(shù)ωg的實(shí)例分類器g?？倱p失函數(shù)定義為：

目標(biāo)感知MIL公式

盡管將目標(biāo)檢測描述為一個(gè)MIL問題，但WSOD中現(xiàn)有的MIL范式不能解決噪聲盒標(biāo)注下的學(xué)習(xí)問題。首先，由于在WSOD中將圖像定義為袋，因此忽略了目標(biāo)的定位先驗(yàn)。其次，WSOD中的包只是由現(xiàn)成的目標(biāo)建議生成器生成的目標(biāo)建議的集合，這限制了檢測性能。

與WSOD不同，在本文的目標(biāo)包的上下文中，需要解決兩個(gè)挑戰(zhàn)：i）如何在每個(gè)目標(biāo)包中選擇準(zhǔn)確的實(shí)例進(jìn)行訓(xùn)練；以及ii）如何為每個(gè)目標(biāo)包生成高質(zhì)量實(shí)例。

為了解決上述挑戰(zhàn)，作者提出了一種目標(biāo)感知的MIL公式，該公式聯(lián)合優(yōu)化了實(shí)例選擇器、實(shí)例分類器以及實(shí)例生成器。圖3給出了OA-MIL的概述。

圖3:OA-MIL的概述。

目標(biāo)感知實(shí)例選擇

作者期望所選實(shí)例盡可能緊密地覆蓋實(shí)際目標(biāo)。然而由于實(shí)例選擇器在訓(xùn)練的早期階段具有差的辨別能力，實(shí)例分類器和實(shí)例生成器將不可避免地受到低質(zhì)量正實(shí)例的影響。在某些情況下，不好的實(shí)例初始化可能會導(dǎo)致訓(xùn)練失敗。

由于不準(zhǔn)確的ground-truth框提供了目標(biāo)定位的強(qiáng)先驗(yàn)，因此，聯(lián)合考慮它和所選實(shí)例，以獲得更適合訓(xùn)練的正實(shí)例。具體而言，將zi表示為不準(zhǔn)確的ground-truth實(shí)例。通過合并zi和bj來執(zhí)行目標(biāo)感知實(shí)例選擇，如下：

作者的目標(biāo)是選擇高質(zhì)量的正向?qū)嵗M(jìn)行訓(xùn)練，因此φ(·)需要滿足兩個(gè)條件。首先，當(dāng)f(bj?i， ωf)的值較大時(shí)，應(yīng)賦予bj?i較高的權(quán)重。其次，當(dāng)f(bj?i， ωf)接近1時(shí)，φ(·)應(yīng)平衡bj?i和zi的權(quán)重，而不是依賴于bj?i。為滿足上述條件，采用如下有界指數(shù)函數(shù):

目標(biāo)感知實(shí)例擴(kuò)展

實(shí)例的質(zhì)量是影響訓(xùn)練過程的另一個(gè)因素。在公式中，包是根據(jù)實(shí)例生成器的輸出動態(tài)構(gòu)造的。因此，包實(shí)例的質(zhì)量不能總是得到保證。但正包中的實(shí)例是同構(gòu)的，也就是說，實(shí)例在空間位置和類信息上彼此密切相關(guān)。因此，可以通過擴(kuò)展積極的實(shí)例來促進(jìn)正包的質(zhì)量。

作者提出了兩種實(shí)例擴(kuò)展策略。

第一種策略是通過遞歸構(gòu)造正包來獲得新的正實(shí)例。首先根據(jù)有噪聲的ground-truth框獲得初始的目標(biāo)包，然后利用Eq.(4)選取的最正的實(shí)例構(gòu)造一個(gè)新的正包。這個(gè)過程重復(fù)，直到達(dá)到終止條件。這種策略是通用的，適用于任何現(xiàn)有的目標(biāo)檢測器。

第二種策略是以多階段的方式細(xì)化正實(shí)例，這適用于具有包圍盒細(xì)化模塊的目標(biāo)檢測器(如Faster RCNN)。擴(kuò)展的目標(biāo)包隨后用于訓(xùn)練實(shí)例選擇器。

假設(shè)進(jìn)行了N次實(shí)例擴(kuò)展，產(chǎn)生了一組擴(kuò)展的正包{B0i, B1i，…， BNi}。利用擴(kuò)展的目標(biāo)包對實(shí)例選擇器進(jìn)行優(yōu)化，因此損失為:

OA-MIL訓(xùn)練

OA-MIL涉及到聯(lián)合優(yōu)化實(shí)例選擇器、實(shí)例分類器和實(shí)例生成器。實(shí)例選擇器使用Eq.(6)進(jìn)行訓(xùn)練。當(dāng)使用實(shí)例分類器g對目標(biāo)進(jìn)行分類時(shí)，采用二進(jìn)制對數(shù)損失對其進(jìn)行訓(xùn)練:

實(shí)例生成器的loss函數(shù)如下:

Lreg定義為:

綜上所述，整體損失函數(shù)為:

實(shí)驗(yàn)

表1:PASCAL VOC 2007測試集上的性能比較。

表3:GWHD驗(yàn)證和測試集的比較結(jié)果。

表4:VOC 2007測試集和COCO驗(yàn)證集的消融實(shí)驗(yàn)。

圖6:(a) OA-MIL FasterRCNN(紅色方框)和vanilla FasterRCNN(黃色方框)在COCO數(shù)據(jù)集上的定性結(jié)果。(b)故障案例。

結(jié)論

本文通過將一個(gè)目標(biāo)視為一組實(shí)例，提出了一種具有目標(biāo)感知的實(shí)例選擇和目標(biāo)感知的實(shí)例擴(kuò)展的目標(biāo)感知多實(shí)例學(xué)習(xí)方法。該方法是通用的，可以配合現(xiàn)有的目標(biāo)檢測器。在合成噪聲數(shù)據(jù)集和真實(shí)噪聲GWHD數(shù)據(jù)集上的大量實(shí)驗(yàn)表明，在邊界框標(biāo)注不準(zhǔn)確的情況下，OA-MIL可以獲得良好的結(jié)果。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

ECCV 2022 | OA-MIL：目標(biāo)感知多實(shí)例學(xué)習(xí)方法

相關(guān)推薦

技術(shù)專區(qū)