SPARSE DETR：具有可學(xué)習(xí)稀疏性的高效端到端目標(biāo)檢測(cè)（源代碼下載）

發(fā)布人：CV研究院時(shí)間：2022-02-10 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

DETR是第一個(gè)使用transformer編碼器-****架構(gòu)的端到端對(duì)象檢測(cè)器，在高分辨率特征圖上展示了具有競(jìng)爭(zhēng)力的性能但計(jì)算效率低。

01 前言

DETR是第一個(gè)使用transformer編碼器-****架構(gòu)的端到端對(duì)象檢測(cè)器，在高分辨率特征圖上展示了具有競(jìng)爭(zhēng)力的性能但計(jì)算效率低。隨后的工作Deformable DETR通過(guò)將密集注意力替換為可變形注意力來(lái)提高DETR的效率，從而實(shí)現(xiàn)了10倍的收斂速度和性能提升。

DETR

Deformable DETR使用多尺度特征來(lái)改善性能，然而，與DETR相比，encoder token的數(shù)量增加了20倍，并且編碼器注意力的計(jì)算成本仍然是瓶頸。在我們的初步實(shí)驗(yàn)中，我們觀察到即使只更新了一部分encoder token，檢測(cè)性能也幾乎不會(huì)惡化。受此觀察的啟發(fā)，研究者提出了稀疏DETR，它選擇性地僅更新預(yù)期被****引用的標(biāo)記，從而幫助模型有效地檢測(cè)目標(biāo)。

圖片

此外，研究者展示了在編碼器中對(duì)所選標(biāo)記應(yīng)用輔助檢測(cè)損失可以提高性能，同時(shí)最大限度地減少計(jì)算開(kāi)銷。我們驗(yàn)證了即使在COCO數(shù)據(jù)集上只有10%的encoder token，Sparse DETR也比可變形DETR實(shí)現(xiàn)了更好的性能。盡管只有encoder token被稀疏化，但與可變形DETR相比，總計(jì)算成本降低了38%，每秒幀數(shù) (FPS) 增加了42%。

02背景

近年來(lái)，我們見(jiàn)證了深度學(xué)習(xí)中目標(biāo)檢測(cè)的巨大進(jìn)步和成功。已經(jīng)提出了多種目標(biāo)檢測(cè)方法，但現(xiàn)有算法將與GT進(jìn)行正匹配作為一種啟發(fā)式方法，需要對(duì)近似重復(fù)預(yù)測(cè)進(jìn)行非極大值抑制 (NMS) 后處理。最近Carion等人通過(guò)基于集合的目標(biāo)消除了對(duì)NMS后處理的需要，引入了完全端到端的檢測(cè)器DETR。訓(xùn)練目標(biāo)采用匈牙利算法設(shè)計(jì)，既考慮分類成本，又考慮回歸成本，并獲得極具競(jìng)爭(zhēng)力的性能。但是，DETR無(wú)法使用多尺度特征，例如特征金字塔網(wǎng)絡(luò)，這些特征常用于目標(biāo)檢測(cè)，以提高對(duì)小目標(biāo)的檢測(cè)。主要原因是通過(guò)添加Transformer 架構(gòu)增加了內(nèi)存使用和計(jì)算。因此，它對(duì)小物體的檢測(cè)能力比較差。

為了解決這個(gè)問(wèn)題，有人提出了一種受可變形卷積 (deformable convolution) 啟發(fā)的可變形注意力，并通過(guò)注意力模塊中的關(guān)鍵稀疏化將二次復(fù)雜度降低為線性復(fù)雜度。通過(guò)使用可變形注意力，可變形DETR解決了DETR收斂速度慢和復(fù)雜度高的問(wèn)題，使編碼器能夠使用多尺度特征作為輸入，顯著提高了檢測(cè)小物體的性能。然而，使用多尺度特征作為編碼器輸入會(huì)使要處理的token量增加約20倍。最終，盡管對(duì)相同的token長(zhǎng)度進(jìn)行了有效的計(jì)算，但整體復(fù)雜性再次增加，使得模型推理甚至比普通的DETR更慢。

03 新框架分析

(a) DETR中的密集注意力需要二次復(fù)雜度。(b) Deformable DETR使用密鑰稀疏化，因此具有線性復(fù)雜度。(c) Sparse DETR進(jìn)一步使用查詢稀疏化。Sparse DETR中的Attention也采用線性復(fù)雜度，但比Deformable DETR輕得多。

上圖說(shuō)明了如何通過(guò)預(yù)測(cè)二值化****交叉注意力圖(DAM)來(lái)學(xué)習(xí)評(píng)分網(wǎng)絡(luò)，其中橙色虛線箭頭表示反向傳播路徑。左邊部分展示了編碼器中的前向/反向傳播，右邊部分展示了如何構(gòu)建DAM來(lái)學(xué)習(xí)評(píng)分網(wǎng)絡(luò)。

稀疏DETR引入了三個(gè)附加組件：(a)評(píng)分網(wǎng)絡(luò)，(b)編碼器中的輔助頭，以及(c)為****選擇前k個(gè)token的輔助頭。稀疏DETR使用評(píng)分網(wǎng)絡(luò)測(cè)量編碼器token的顯著性，并選擇top-ρ%的token，在上圖中稱為(1)。在僅精煉編碼器塊中選定的token后，輔助頭從編碼器輸出中選擇前k個(gè)token，用作****對(duì)象查詢。這個(gè)過(guò)程在上圖中被稱為(2)。此外，我們注意到每個(gè)編碼器塊中的附加輔助磁頭在提高性能方面發(fā)揮著關(guān)鍵作用。僅將稀疏編碼器token傳遞給編碼器輔助頭以提高效率。編碼器和****中的所有輔助頭都經(jīng)過(guò)Hungarian損失訓(xùn)練，如Deformable DETR中所述。

04實(shí)驗(yàn)及可視化

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

SPARSE DETR：具有可學(xué)習(xí)稀疏性的高效端到端目標(biāo)檢測(cè)（源代碼下載）

相關(guān)推薦

技術(shù)專區(qū)