Meta-DETR | 圖像級“元”學(xué)習(xí)提升目標(biāo)檢測精度

發(fā)布人：CV研究院時(shí)間：2021-04-27 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

One-shot目標(biāo)檢測旨在通過幾個(gè)標(biāo)注的樣本來檢測新的目標(biāo)。之前的工作已經(jīng)證明了元學(xué)習(xí)是一個(gè)很有前途的解決方案，它們中的大多數(shù)基本上是通過解決在區(qū)域上的元學(xué)習(xí)檢測來進(jìn)行分類和位置微調(diào)。

一、簡要

啟發(fā)：人類可以只看目標(biāo)一次，就可以達(dá)到對目標(biāo)的快速識(shí)別能力，但是機(jī)器目前無法達(dá)到這樣的水平。也就是在小樣本情況下的深度學(xué)習(xí)目標(biāo)檢測仍然存在很大的困難。

然而，這些方法在很大程度上依賴于最初位置良好的候選區(qū)域，這通常在one-shot設(shè)置下很難獲得。研究者提出了一種新的元檢測器框架，即Meta-DETR，實(shí)現(xiàn)區(qū)域預(yù)測，并以統(tǒng)一互補(bǔ)的方式在圖像水平上學(xué)習(xí)目標(biāo)位置和分類。具體地說，它首先將support和query圖像編碼為特定類別的特征，然后將它們輸入到一個(gè)與類別無關(guān)的****中，以直接生成具體類的預(yù)測。為了促進(jìn)深度網(wǎng)絡(luò)的元學(xué)習(xí)，研究者設(shè)計(jì)了一個(gè)簡單而有效的語義對齊機(jī)制(Semantic Alignment Mechanism，SAM)，它協(xié)調(diào)高級和低級特征語義，以改進(jìn)元學(xué)習(xí)表示的泛化。

二、背景

計(jì)算機(jī)視覺近年來取得了重大進(jìn)展。然而，在從很少的例子中學(xué)習(xí)新概念方面，當(dāng)前的計(jì)算機(jī)視覺技術(shù)和人類視覺系統(tǒng)之間仍然存在著巨大的差距：大多數(shù)現(xiàn)有的方法需要大量的標(biāo)注樣本，而人類即使需要很少的指導(dǎo)，也可以毫不費(fèi)力地識(shí)別一個(gè)新概念。特別是當(dāng)沒有足夠的訓(xùn)練樣本或很難獲得其注釋時(shí)，這種從有限的例子中推廣的類人能力對于機(jī)器視覺系統(tǒng)是非?？扇〉?。

如上圖的上部，它們主要通過對區(qū)域執(zhí)行元學(xué)習(xí)，包括候選區(qū)域、定位點(diǎn)和窗口中心，來進(jìn)行分類和位置微調(diào)。然而，正如在[QiFan,WeiZhuo,Chi-KeungTang,andYu-WingTai.Few- shot object detection with attention-RPN and multi-relation detector. In CVPR, 2020]和[Weilin Zhang, Yu-Xiong Wang, and D. Forsyth. Coop- erating RPN’s improve few-shot object detection. ArXiv, 2011.10142, 2020]中所指出的那樣，這些方法在很大程度上依賴于初始候選區(qū)域的質(zhì)量，這在訓(xùn)練樣本稀缺的one-shot設(shè)置中不能得到保證，從而產(chǎn)生不準(zhǔn)確或缺失的檢測。雖然FSOD提議元學(xué)習(xí)區(qū)域候選的生成，但這個(gè)問題仍然是由于該框架本身仍然是基于區(qū)域的。

基于上述分析，現(xiàn)有元檢測器的一個(gè)關(guān)鍵局限性是區(qū)域預(yù)測方法。此外，在具有挑戰(zhàn)性的one-shot目標(biāo)檢測設(shè)置下，對標(biāo)注樣本的監(jiān)督最小，應(yīng)該最大限度地利用分類和定位之間的互補(bǔ)效應(yīng)。因此，理想的元檢測器應(yīng)該放棄這種基于區(qū)域的預(yù)測，并通過完全端到端的元學(xué)習(xí)兩個(gè)子任務(wù)，有效地利用分類和定位之間的協(xié)同關(guān)系。然而，據(jù)我們所知，這樣的框架仍然沒有存在。

Few-Shot Learning

one-shot學(xué)習(xí)旨在在從很少的樣本中學(xué)習(xí)新概念，縮小現(xiàn)有模型和人類之間的差距。一個(gè)很有前途的解決方案是元學(xué)習(xí)，它旨在提取元層次的知識(shí)，可以通過“學(xué)習(xí)到學(xué)習(xí)”跨各種任務(wù)進(jìn)行推廣。大量的研究已經(jīng)證明了元學(xué)習(xí)范式在one-shot分類任務(wù)中的有效性。然而，其他更復(fù)雜的one-shot學(xué)習(xí)任務(wù)仍然相對沒有充分探索。

三、新框架

為了在圖像層面上進(jìn)行統(tǒng)一的定位和分類元學(xué)習(xí)，新框架的元學(xué)習(xí)在概念上很簡單。如上圖所示，它由查詢編碼分支(QEB)、支持編碼分支(SEB)和解碼分支(DB)組成。給定一個(gè)查詢圖像和幾個(gè)帶有實(shí)例標(biāo)注的支持圖像，QEB和SEB首先分別將它們分別編碼為查詢特征和類別代碼。然后，DB以查詢特征和類別代碼作為輸入，并預(yù)測相應(yīng)支持類別的檢測結(jié)果。由于要檢測的目標(biāo)類別是基于提供的支持圖像的動(dòng)態(tài)條件的，Meta-DETR能夠提取類別不可知的元級知識(shí)，可以很容易地適應(yīng)新的類別。

Semantic Alignment Mechanism：一個(gè)簡單的殘差連接作為自正則化，通過對齊輸入和輸出的特征語義，防止transformer編碼器依賴于期望的類別特定特征。

四、實(shí)驗(yàn)

Pascal VOC test 07測試結(jié)果

MS COCO val 2017測試結(jié)果

可視化查詢特征和類別代碼之間的相關(guān)性。通過引入語義對齊機(jī)制(SAM)，觀察到了對基類和新類（鳥）的清晰響應(yīng)，證明了SAM在增強(qiáng)元學(xué)習(xí)表示的泛化方面的有效性。

Visualization of multi-scale Meta-DETR’s 10-shot object detection results on Pascal VOC category split 1. Novel categories include bird, bus, cow, motorcycle, and sofa. For simplicity, only results of novel categories are illustrated. White boxes indicate correct detections. Red solid boxes indicate false positives. Red dashed boxes indicate false negatives.

Visualization of multi-scale Meta-DETR’s 30-shot object detection results on MS COCO. Novel categories include person, bicycle, car, motorcycle, airplane, bus, train, boat, bird, cat, dog, horse, sheep, cow, bottle, chair, couch, potted plant, dining table, and tv. For simplicity, only results of novel categories are illustrated. White boxes indicate correct detections. Red solid boxes indicate false positives. Red dashed boxes indicate false negatives.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

熱式質(zhì)量流量計(jì)相關(guān)文章:熱式質(zhì)量流量計(jì)原理
流量計(jì)相關(guān)文章:流量計(jì)原理

博客專欄

Meta-DETR | 圖像級“元”學(xué)習(xí)提升目標(biāo)檢測精度

相關(guān)推薦

技術(shù)專區(qū)