博客專欄

EEPW首頁 > 博客 > Meta-DETR | 圖像級“元”學習提升目標檢測精度

Meta-DETR | 圖像級“元”學習提升目標檢測精度

發(fā)布人:CV研究院 時間:2021-04-27 來源:工程師 發(fā)布文章

One-shot目標檢測旨在通過幾個標注的樣本來檢測新的目標。之前的工作已經證明了元學習是一個很有前途的解決方案,它們中的大多數基本上是通過解決在區(qū)域上的元學習檢測來進行分類和位置微調。

一、簡要

One-shot目標檢測旨在通過幾個標注的樣本來檢測新的目標。之前的工作已經證明了元學習是一個很有前途的解決方案,它們中的大多數基本上是通過解決在區(qū)域上的元學習檢測來進行分類和位置微調。

啟發(fā):人類可以只看目標一次,就可以達到對目標的快速識別能力,但是機器目前無法達到這樣的水平。也就是在小樣本情況下的深度學習目標檢測仍然存在很大的困難。

然而,這些方法在很大程度上依賴于最初位置良好的候選區(qū)域,這通常在one-shot設置下很難獲得。研究者提出了一種新的元檢測器框架,即Meta-DETR,實現(xiàn)區(qū)域預測,并以統(tǒng)一互補的方式在圖像水平上學習目標位置和分類。具體地說,它首先將support和query圖像編碼為特定類別的特征,然后將它們輸入到一個與類別無關的****中,以直接生成具體類的預測。為了促進深度網絡的元學習,研究者設計了一個簡單而有效的語義對齊機制(Semantic Alignment Mechanism,SAM),它協(xié)調高級和低級特征語義,以改進元學習表示的泛化。

二、背景

計算機視覺近年來取得了重大進展。然而,在從很少的例子中學習新概念方面,當前的計算機視覺技術和人類視覺系統(tǒng)之間仍然存在著巨大的差距:大多數現(xiàn)有的方法需要大量的標注樣本,而人類即使需要很少的指導,也可以毫不費力地識別一個新概念。特別是當沒有足夠的訓練樣本或很難獲得其注釋時,這種從有限的例子中推廣的類人能力對于機器視覺系統(tǒng)是非??扇〉摹?/p>

1.png

如上圖的上部,它們主要通過對區(qū)域執(zhí)行元學習,包括候選區(qū)域、定位點和窗口中心,來進行分類和位置微調。然而,正如在[QiFan,WeiZhuo,Chi-KeungTang,andYu-WingTai.Few- shot object detection with attention-RPN and multi-relation detector. In CVPR, 2020]和[Weilin Zhang, Yu-Xiong Wang, and D. Forsyth. Coop- erating RPN’s improve few-shot object detection. ArXiv, 2011.10142, 2020]中所指出的那樣,這些方法在很大程度上依賴于初始候選區(qū)域的質量,這在訓練樣本稀缺的one-shot設置中不能得到保證,從而產生不準確或缺失的檢測。雖然FSOD提議元學習區(qū)域候選的生成,但這個問題仍然是由于該框架本身仍然是基于區(qū)域的。

2.png

基于上述分析,現(xiàn)有元檢測器的一個關鍵局限性是區(qū)域預測方法。此外,在具有挑戰(zhàn)性的one-shot目標檢測設置下,對標注樣本的監(jiān)督最小,應該最大限度地利用分類和定位之間的互補效應。因此,理想的元檢測器應該放棄這種基于區(qū)域的預測,并通過完全端到端的元學習兩個子任務,有效地利用分類和定位之間的協(xié)同關系。然而,據我們所知,這樣的框架仍然沒有存在。

  • Few-Shot Learning

one-shot學習旨在在從很少的樣本中學習新概念,縮小現(xiàn)有模型和人類之間的差距。一個很有前途的解決方案是元學習,它旨在提取元層次的知識,可以通過“學習到學習”跨各種任務進行推廣。大量的研究已經證明了元學習范式在one-shot分類任務中的有效性。然而,其他更復雜的one-shot學習任務仍然相對沒有充分探索。

三、新框架

3.png

為了在圖像層面上進行統(tǒng)一的定位和分類元學習,新框架的元學習在概念上很簡單。如上圖所示,它由查詢編碼分支(QEB)、支持編碼分支(SEB)和解碼分支(DB)組成。給定一個查詢圖像和幾個帶有實例標注的支持圖像,QEB和SEB首先分別將它們分別編碼為查詢特征和類別代碼。然后,DB以查詢特征和類別代碼作為輸入,并預測相應支持類別的檢測結果。由于要檢測的目標類別是基于提供的支持圖像的動態(tài)條件的,Meta-DETR能夠提取類別不可知的元級知識,可以很容易地適應新的類別。

4.png

Semantic Alignment Mechanism:一個簡單的殘差連接作為自正則化,通過對齊輸入和輸出的特征語義,防止transformer編碼器依賴于期望的類別特定特征。

四、實驗

Pascal VOC test 07測試結果

5.png6.png

MS COCO val 2017測試結果

7.png8.png

可視化查詢特征和類別代碼之間的相關性。通過引入語義對齊機制(SAM),觀察到了對基類和新類(鳥)的清晰響應,證明了SAM在增強元學習表示的泛化方面的有效性。

9.png

Visualization of multi-scale Meta-DETR’s 10-shot object detection results on Pascal VOC category split 1. Novel categories include bird, bus, cow, motorcycle, and sofa. For simplicity, only results of novel categories are illustrated. White boxes indicate correct detections. Red solid boxes indicate false positives. Red dashed boxes indicate false negatives.

10.png

Visualization of multi-scale Meta-DETR’s 30-shot object detection results on MS COCO. Novel categories include person, bicycle, car, motorcycle, airplane, bus, train, boat, bird, cat, dog, horse, sheep, cow, bottle, chair, couch, potted plant, dining table, and tv. For simplicity, only results of novel categories are illustrated. White boxes indicate correct detections. Red solid boxes indicate false positives. Red dashed boxes indicate false negatives.

*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。

熱式質量流量計相關文章:熱式質量流量計原理
流量計相關文章:流量計原理


關鍵詞: 目標檢測

相關推薦

技術專區(qū)

關閉