博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 目標(biāo)檢測(cè)創(chuàng)新:一種基于區(qū)域的半監(jiān)督方法,部分標(biāo)簽即可

目標(biāo)檢測(cè)創(chuàng)新:一種基于區(qū)域的半監(jiān)督方法,部分標(biāo)簽即可

發(fā)布人:CV研究院 時(shí)間:2023-05-20 來(lái)源:工程師 發(fā)布文章
研究表明,當(dāng)訓(xùn)練數(shù)據(jù)缺少注釋注釋稀疏的數(shù)據(jù))時(shí),目標(biāo)檢測(cè)器的性能會(huì)顯著下降。


一、前言

研究表明,當(dāng)訓(xùn)練數(shù)據(jù)缺少注釋?zhuān)醋⑨屜∈璧臄?shù)據(jù))時(shí),目標(biāo)檢測(cè)器的性能會(huì)顯著下降?,F(xiàn)在的方法側(cè)重于以偽標(biāo)簽的形式或通過(guò)在訓(xùn)練期間重新加權(quán)未標(biāo)記框的梯度來(lái)解決缺失真實(shí)標(biāo)注的問(wèn)題。

在這項(xiàng)工作中,研究者重新審視了稀疏注釋目標(biāo)檢測(cè)的公式。研究者觀察到稀疏注釋的目標(biāo)檢測(cè)可以被認(rèn)為是區(qū)域級(jí)別的半監(jiān)督目標(biāo)檢測(cè)問(wèn)題?;谶@一見(jiàn)解,研究者們提出了一種基于區(qū)域的半監(jiān)督算法,該算法可以自動(dòng)識(shí)別包含未標(biāo)記前景對(duì)象的區(qū)域。然后,提出的算法以不同方式處理標(biāo)記和未標(biāo)記的前景區(qū)域,這是半監(jiān)督方法中的常見(jiàn)做法。為了評(píng)估所提出方法的有效性,對(duì)PASCAL-VOC和COCO數(shù)據(jù)集上稀疏注釋方法常用的五個(gè)分割進(jìn)行了詳盡的實(shí)驗(yàn),并實(shí)現(xiàn)了最先進(jìn)的性能。除此之外,還表明新提出的方法在標(biāo)準(zhǔn)半監(jiān)督設(shè)置上實(shí)現(xiàn)了競(jìng)爭(zhēng)性能,證明了新方法的強(qiáng)度和廣泛適用性。

二、背景

傳統(tǒng)的目標(biāo)檢測(cè)方法假設(shè)訓(xùn)練數(shù)據(jù)集被詳盡地標(biāo)記。這種檢測(cè)器的性能對(duì)標(biāo)記數(shù)據(jù)的質(zhì)量很敏感。用于訓(xùn)練目標(biāo)檢測(cè)器的數(shù)據(jù)中的噪聲可能是由于噪聲類(lèi)標(biāo)簽或不正確/丟失的邊界框而產(chǎn)生的。在這項(xiàng)工作中,研究者處理了缺少類(lèi)標(biāo)簽和邊界框注釋的更難的問(wèn)題,即稀疏注釋的存在。稀疏注釋目標(biāo)檢測(cè)(SAOD)是在訓(xùn)練數(shù)據(jù)中存在缺失注釋的情況下提高目標(biāo)檢測(cè)魯棒性的問(wèn)題。這個(gè)問(wèn)題在當(dāng)前至關(guān)重要,因?yàn)楂@取眾多數(shù)據(jù)集可能既昂貴又費(fèi)力。另一種方法是使用計(jì)算機(jī)輔助協(xié)議來(lái)收集注釋。然而,這些方法受到嘈雜/缺失標(biāo)簽的影響。因此,必須調(diào)整當(dāng)前的目標(biāo)檢測(cè)器來(lái)解決稀疏注釋的問(wèn)題。

圖片

問(wèn)題的癥結(jié)在于訓(xùn)練期間分配標(biāo)簽的方式。稀疏注釋減少了真正的正樣本并將假負(fù)樣本引入訓(xùn)練,從而降低了網(wǎng)絡(luò)性能。雖然這過(guò)于簡(jiǎn)單化了,但它可以更好地了解正在處理的問(wèn)題。研究者建立在一個(gè)簡(jiǎn)單的觀察之上,即SAOD是區(qū)域級(jí)別的半監(jiān)督目標(biāo)檢測(cè)(SSOD)。然而,未標(biāo)記的數(shù)據(jù),在我們的例子中是包含前景對(duì)象的區(qū)域,是先驗(yàn)未知的,必須被識(shí)別。因此,SSOD方法不能直接應(yīng)用于SAOD,因?yàn)楫?dāng)前的方法假設(shè)一個(gè)已知的未標(biāo)記集以及一個(gè)詳盡標(biāo)記的訓(xùn)練集。同樣,最近提出的SAOD方法在訓(xùn)練期間丟棄所有沒(méi)有單個(gè)注釋的圖像,并且不能像SSOD方法那樣真正利用未標(biāo)記數(shù)據(jù)的力量。分別在上圖的第1行和第2行中說(shuō)明了SSOD和SAOD。

假設(shè)稀疏注釋的目標(biāo)檢測(cè)方法應(yīng)該是一個(gè)很好的半監(jiān)督學(xué)習(xí)器,因?yàn)镾SOD中的未標(biāo)記圖像可以被視為SAOD的缺失注釋。我們?cè)谏蠄D的第3行展示了這個(gè)公式。

三、新框架分析

所提出的方法如下圖所示,由一個(gè)標(biāo)準(zhǔn)的骨干網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)從圖像的原始視圖和增強(qiáng)視圖中提取特征。

圖片

一個(gè)通用的RPN將骨干網(wǎng)絡(luò)提取的特征連接起來(lái),生成一組通用的候選區(qū)域。候選區(qū)域b可以屬于三個(gè)組之一,即:

  • 標(biāo)記區(qū)域b∈ Bl

  • 未標(biāo)記區(qū)域b∈Bul

  • 背景區(qū)域b∈ Bbg

對(duì)于給定的一組真實(shí)標(biāo)注,可以自動(dòng)識(shí)別第一組,即標(biāo)記區(qū)域。然后問(wèn)題就變成了從背景區(qū)域中識(shí)別和分離第二組,即未標(biāo)記區(qū)域。給定所有候選區(qū)域,pseudo-positive mining(PPM)步驟識(shí)別未標(biāo)記區(qū)域并將它們與背景區(qū)域分離。受半監(jiān)督方法的啟發(fā),標(biāo)記和未標(biāo)記區(qū)域分別受到監(jiān)督和非監(jiān)督損失的監(jiān)督。我們?cè)谙旅嬖敿?xì)描述每個(gè)階段。

Feature Extraction

給定圖像I,計(jì)算表示為A(I)的I的增強(qiáng)版本。在這項(xiàng)工作中,我們使用隨機(jī)對(duì)比度、亮度、飽和度、光照和邊界框以級(jí)聯(lián)方式擦除以生成A(I)。 一個(gè)檢測(cè)器骨干網(wǎng)絡(luò)用于分別從I和A(I)中提取兩個(gè)特征fo和fa。

Common RPN (C-RPN)

傳統(tǒng)的兩階段目標(biāo)檢測(cè)器使用區(qū)域提議網(wǎng)絡(luò)(RPN)來(lái)生成感興趣區(qū)域(ROI)。fo和fa這兩個(gè)特征使用RPN生成兩組不同的ROI。對(duì)兩組ROI進(jìn)行操作增加了識(shí)別標(biāo)記區(qū)域、未標(biāo)記區(qū)域和背景區(qū)域的難度,同時(shí)增加了處理時(shí)間。此外,對(duì)于關(guān)聯(lián),必須執(zhí)行匹配算法,如基于IoU)分?jǐn)?shù)的Kuhn-Munkres算法,以獲得輸入圖像的一組通用標(biāo)記、未標(biāo)記和背景框。由于不完美的匹配,此過(guò)程可能會(huì)很嘈雜。為了避免這種情況,提出了一種連接fo和fa以獲得ROI的C-RPN。

圖片

Pseudo Positive Mining

給定來(lái)自C-RPN的ROI,下一步是從標(biāo)記區(qū)域和背景區(qū)域中識(shí)別未標(biāo)記區(qū)域?;谖覀兊挠^察,即使在使用稀疏注釋進(jìn)行訓(xùn)練時(shí),RPN也可以可靠地區(qū)分前景和背景區(qū)域,我們廣泛依賴(lài)RPN的分?jǐn)?shù)來(lái)識(shí)別未標(biāo)記區(qū)域。

首先,根據(jù)可用的Ground Truth,所有分配為正的ROI都從C-RPN的輸出中刪除。接下來(lái),所有具有大于閾值(本工作中為0.5和IoU小于閾值(本工作中為0.2)且具有任何GT的ROI都被視為未標(biāo)記區(qū)域。剩余的ROI分配給負(fù)樣本。我們稍后會(huì)證明這個(gè)簡(jiǎn)單的步驟可以提高RPN的召回率。請(qǐng)注意,由于閾值不同,一些未標(biāo)記的區(qū)域可能會(huì)被錯(cuò)誤地分配給負(fù)樣本。這些地區(qū)將在后續(xù)階段得到照顧。

Losses

在pseudo positive mining步驟之后,來(lái)自C-RPN的ROI被分為標(biāo)記、未標(biāo)記和背景區(qū)域。首先,ROI池化層從特征fo中提取標(biāo)記區(qū)域和背景區(qū)域的區(qū)域特征,然后將其饋送到檢測(cè)頭。檢測(cè)頭預(yù)測(cè)每個(gè)區(qū)域的類(lèi)別概率和邊界框。稀疏GT用于監(jiān)督這些預(yù)測(cè),方法是將交叉熵?fù)p失應(yīng)用于標(biāo)記和背景區(qū)域的分類(lèi),以及平滑L1用于標(biāo)記區(qū)域的邊界框回歸:

圖片

最后,對(duì)未標(biāo)記區(qū)域執(zhí)行與類(lèi)別無(wú)關(guān)的NMS,以刪除導(dǎo)致Nu唯一區(qū)域的重復(fù)項(xiàng)。Nu未標(biāo)記區(qū)域與fo和fa一起通過(guò)ROI池化層和檢測(cè)頭,分別獲得fdo和fda。應(yīng)用了如下所示的一致性正則化損失,它強(qiáng)制原始區(qū)域和增強(qiáng)區(qū)域的特征彼此一致。

圖片

四、實(shí)驗(yàn)

Sparsely annotated object detection在COCO的結(jié)果

圖片

Sparsely annotated object detection在VOC結(jié)果

圖片

圖片

Qualitative results showing the unlabeled regions identified by the pseudo-positive mining step. The red boxes correspond to the available ground truth. A class agnostic NMS was performed on the regions and the result is shown in white.

圖片

將使用可用的GT(頂部)訓(xùn)練的“普通”模型的輸出與使用新提出的方法訓(xùn)練的模型(底部)進(jìn)行比較的定性結(jié)果。顯示類(lèi)別置信度分?jǐn)?shù)大于0.9的預(yù)測(cè)。紅色:人,青色:狗,紫色:馬,黃色:時(shí)鐘,綠色:停車(chē)標(biāo)志,藍(lán)色:停車(chē)計(jì)時(shí)器,紫色:長(zhǎng)頸鹿,橙色:盆栽,黑色:沖浪板,深綠色:船。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉