ECCV 2022 | OA-MIL:目標(biāo)感知多實(shí)例學(xué)習(xí)方法
來源丨h(huán)ttps://zhuanlan.zhihu.com/p/200924181
前言 針對定位精度受到不準(zhǔn)確邊界框的嚴(yán)重影響,而分類精度受影響較小,因此本文提出利用分類作為指導(dǎo)信號來改進(jìn)定位結(jié)果。通過將目標(biāo)視為實(shí)例包,作者提出了一種目標(biāo)感知多實(shí)例學(xué)習(xí)方法(OA-MIL),其特點(diǎn)是目標(biāo)感知實(shí)例選擇和目標(biāo)感知實(shí)例擴(kuò)展。前者旨在為訓(xùn)練選擇準(zhǔn)確的實(shí)例,而不是直接使用不準(zhǔn)確的框標(biāo)注。后者側(cè)重于生成用于選擇的高質(zhì)量實(shí)例。在合成噪聲數(shù)據(jù)集(即有噪聲的PASCAL VOC和MS-COCO)和真實(shí)的有噪聲wheat head數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明了OA-MIL的有效性。
原文:https://arxiv.org/pdf/2207.09697.pdf
代碼:https://github.com/cxliu0/OA-MIL
創(chuàng)新思路
目前目標(biāo)檢測是做得非常好的方向,其主要受益于標(biāo)注數(shù)據(jù)非常多,但對于其他方向來說,標(biāo)注是很困難的事,尤其對于一些專業(yè)領(lǐng)域的數(shù)據(jù),例如農(nóng)業(yè),醫(yī)學(xué)圖像,如果不是專業(yè)人員,甚至都不知道應(yīng)該標(biāo)注哪些。
這種情況導(dǎo)致了一個(gè)困境,即沒有計(jì)算機(jī)視覺背景的從業(yè)者不確定如何標(biāo)注高質(zhì)量的框,而沒有領(lǐng)域知識的標(biāo)注者也很難標(biāo)注精確的目標(biāo)框。另一方面,在自然環(huán)境中標(biāo)注大量常見目標(biāo)既昂貴又耗時(shí)。為了降低標(biāo)注成本,數(shù)據(jù)集制作者可能依賴社交媒體平臺或眾包平臺。然而,上述戰(zhàn)略將導(dǎo)致標(biāo)注質(zhì)量低下。
最近,具有噪聲數(shù)據(jù)的學(xué)習(xí)目標(biāo)檢測器引發(fā)了極大的興趣,已有幾種方法嘗試處理噪聲標(biāo)注。這些方法通常假設(shè)噪聲出現(xiàn)在類別標(biāo)簽和邊界框標(biāo)注上,并設(shè)計(jì)一個(gè)分離的體系結(jié)構(gòu)來學(xué)習(xí)目標(biāo)檢測器。與之前的工作不同,作者主要關(guān)注帶噪邊界框標(biāo)注的目標(biāo)檢測。
原因有兩方面:
1.由于目標(biāo)的模糊性和眾包標(biāo)注過程,現(xiàn)實(shí)中普遍存在盒噪聲;
2.目標(biāo)檢測數(shù)據(jù)集經(jīng)常涉及目標(biāo)類驗(yàn)證,因此有噪聲的類別標(biāo)簽比不準(zhǔn)確的邊界框更嚴(yán)重。
由于觀察到定位精度顯著受到不準(zhǔn)確邊界框的影響,而分類精度受影響較小,因此,作者提出利用分類作為定位的指導(dǎo)信號。具體而言,提出了一種目標(biāo)感知多實(shí)例學(xué)習(xí)方法,將每個(gè)目標(biāo)視為實(shí)例包。其思想是從目標(biāo)包中選擇準(zhǔn)確的實(shí)例進(jìn)行訓(xùn)練,而不是使用不準(zhǔn)確的框標(biāo)注。
本文的主要貢獻(xiàn)
1、通過將目標(biāo)視為一實(shí)例包,為學(xué)習(xí)具有不精確邊界框的目標(biāo)檢測器提供了一種新的視圖;
2、提出了一種目標(biāo)感知多實(shí)例學(xué)習(xí)方法,其特點(diǎn)是目標(biāo)感知實(shí)例選擇和目標(biāo)感知實(shí)例擴(kuò)展OA-MIL在現(xiàn)成的目標(biāo)檢測器上具有通用性,并在合成和真實(shí)噪聲數(shù)據(jù)集上獲得了有前景的結(jié)果。
方法
目標(biāo)感知多實(shí)例學(xué)習(xí)
由于觀察到分類在噪聲框標(biāo)注下保持高精度(圖2),作者提出利用分類來指導(dǎo)定位。也就是說,作者期望分類分支選擇更精確的框進(jìn)行訓(xùn)練,而不是使用不準(zhǔn)確的ground-truth框。這個(gè)想法衍生了目標(biāo)包的概念,其中每個(gè)目標(biāo)都被描述為一個(gè)實(shí)例包。在目標(biāo)包的基礎(chǔ)上,作者提出了一種目標(biāo)感知多實(shí)例學(xué)習(xí)方法,該方法具有目標(biāo)感知實(shí)例選擇和目標(biāo)感知實(shí)例擴(kuò)展。
圖2:Faster RCNN在模擬的“有噪”PASCAL VOC 2007數(shù)據(jù)集上的分類精度和定位精度,其中框標(biāo)注被隨機(jī)擾動。
預(yù)備工作
給定圖像級標(biāo)簽,WSOD中的MIL方法將每個(gè)圖像視為一實(shí)例包。學(xué)習(xí)過程在實(shí)例選擇和實(shí)例分類器學(xué)習(xí)之間交替。將具有參數(shù)ωf的實(shí)例選擇器f應(yīng)用于正包Bi,以選擇最正的實(shí)例,指數(shù)j?通過以下方式獲得:
所選實(shí)例用于訓(xùn)練具有參數(shù)ωg的實(shí)例分類器g??倱p失函數(shù)定義為:
目標(biāo)感知MIL公式
盡管將目標(biāo)檢測描述為一個(gè)MIL問題,但WSOD中現(xiàn)有的MIL范式不能解決噪聲盒標(biāo)注下的學(xué)習(xí)問題。首先,由于在WSOD中將圖像定義為袋,因此忽略了目標(biāo)的定位先驗(yàn)。其次,WSOD中的包只是由現(xiàn)成的目標(biāo)建議生成器生成的目標(biāo)建議的集合,這限制了檢測性能。
與WSOD不同,在本文的目標(biāo)包的上下文中,需要解決兩個(gè)挑戰(zhàn):i)如何在每個(gè)目標(biāo)包中選擇準(zhǔn)確的實(shí)例進(jìn)行訓(xùn)練;以及ii)如何為每個(gè)目標(biāo)包生成高質(zhì)量實(shí)例。
為了解決上述挑戰(zhàn),作者提出了一種目標(biāo)感知的MIL公式,該公式聯(lián)合優(yōu)化了實(shí)例選擇器、實(shí)例分類器以及實(shí)例生成器。圖3給出了OA-MIL的概述。
圖3:OA-MIL的概述。
目標(biāo)感知實(shí)例選擇
作者期望所選實(shí)例盡可能緊密地覆蓋實(shí)際目標(biāo)。然而由于實(shí)例選擇器在訓(xùn)練的早期階段具有差的辨別能力,實(shí)例分類器和實(shí)例生成器將不可避免地受到低質(zhì)量正實(shí)例的影響。在某些情況下,不好的實(shí)例初始化可能會導(dǎo)致訓(xùn)練失敗。
由于不準(zhǔn)確的ground-truth框提供了目標(biāo)定位的強(qiáng)先驗(yàn),因此,聯(lián)合考慮它和所選實(shí)例,以獲得更適合訓(xùn)練的正實(shí)例。具體而言,將zi表示為不準(zhǔn)確的ground-truth實(shí)例。通過合并zi和bj來執(zhí)行目標(biāo)感知實(shí)例選擇,如下:
作者的目標(biāo)是選擇高質(zhì)量的正向?qū)嵗M(jìn)行訓(xùn)練,因此φ(·)需要滿足兩個(gè)條件。首先,當(dāng)f(bj?i, ωf)的值較大時(shí),應(yīng)賦予bj?i較高的權(quán)重。其次,當(dāng)f(bj?i, ωf)接近1時(shí),φ(·)應(yīng)平衡bj?i和zi的權(quán)重,而不是依賴于bj?i。為滿足上述條件,采用如下有界指數(shù)函數(shù):
目標(biāo)感知實(shí)例擴(kuò)展
實(shí)例的質(zhì)量是影響訓(xùn)練過程的另一個(gè)因素。在公式中,包是根據(jù)實(shí)例生成器的輸出動態(tài)構(gòu)造的。因此,包實(shí)例的質(zhì)量不能總是得到保證。但正包中的實(shí)例是同構(gòu)的,也就是說,實(shí)例在空間位置和類信息上彼此密切相關(guān)。因此,可以通過擴(kuò)展積極的實(shí)例來促進(jìn)正包的質(zhì)量。
作者提出了兩種實(shí)例擴(kuò)展策略。
第一種策略是通過遞歸構(gòu)造正包來獲得新的正實(shí)例。首先根據(jù)有噪聲的ground-truth框獲得初始的目標(biāo)包,然后利用Eq.(4)選取的最正的實(shí)例構(gòu)造一個(gè)新的正包。這個(gè)過程重復(fù),直到達(dá)到終止條件。這種策略是通用的,適用于任何現(xiàn)有的目標(biāo)檢測器。
第二種策略是以多階段的方式細(xì)化正實(shí)例,這適用于具有包圍盒細(xì)化模塊的目標(biāo)檢測器(如Faster RCNN)。擴(kuò)展的目標(biāo)包隨后用于訓(xùn)練實(shí)例選擇器。
假設(shè)進(jìn)行了N次實(shí)例擴(kuò)展,產(chǎn)生了一組擴(kuò)展的正包{B0i, B1i,…, BNi}。利用擴(kuò)展的目標(biāo)包對實(shí)例選擇器進(jìn)行優(yōu)化,因此損失為:
OA-MIL訓(xùn)練
OA-MIL涉及到聯(lián)合優(yōu)化實(shí)例選擇器、實(shí)例分類器和實(shí)例生成器。實(shí)例選擇器使用Eq.(6)進(jìn)行訓(xùn)練。當(dāng)使用實(shí)例分類器g對目標(biāo)進(jìn)行分類時(shí),采用二進(jìn)制對數(shù)損失對其進(jìn)行訓(xùn)練:
實(shí)例生成器的loss函數(shù)如下:
Lreg定義為:
綜上所述,整體損失函數(shù)為:
實(shí)驗(yàn)
表1:PASCAL VOC 2007測試集上的性能比較。
表3:GWHD驗(yàn)證和測試集的比較結(jié)果。
表4:VOC 2007測試集和COCO驗(yàn)證集的消融實(shí)驗(yàn)。
圖6:(a) OA-MIL FasterRCNN(紅色方框)和vanilla FasterRCNN(黃色方框)在COCO數(shù)據(jù)集上的定性結(jié)果。(b)故障案例。
結(jié)論
本文通過將一個(gè)目標(biāo)視為一組實(shí)例,提出了一種具有目標(biāo)感知的實(shí)例選擇和目標(biāo)感知的實(shí)例擴(kuò)展的目標(biāo)感知多實(shí)例學(xué)習(xí)方法。該方法是通用的,可以配合現(xiàn)有的目標(biāo)檢測器。在合成噪聲數(shù)據(jù)集和真實(shí)噪聲GWHD數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,在邊界框標(biāo)注不準(zhǔn)確的情況下,OA-MIL可以獲得良好的結(jié)果。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。