ECCV 2022 | AirDet: 無需微調(diào)的小樣本目標(biāo)檢測(cè)方法

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2022-08-14 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

作者丨Jaraxxus@知乎（已授權(quán)）

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/545249730編輯丨極市平臺(tái)

導(dǎo)讀

本文提出無需微調(diào)的小樣本目標(biāo)檢測(cè)方法AirDet，針對(duì)機(jī)器人自主探索任務(wù)設(shè)計(jì)。基訓(xùn)練后，未經(jīng)微調(diào)的AirDet表現(xiàn)甚至優(yōu)于部分微調(diào)后的方法。論文、項(xiàng)目代碼、ROS部署接口均已開源。

AirDet

項(xiàng)目網(wǎng)站：https://jaraxxus-me.github.io/ECCV2022_AirDet/

開源論文：https://arxiv.org/pdf/2112.01740.pdf

開源代碼：https://github.com/Jaraxxus-Me/AirDet

ROS部署：https://github.com/Jaraxxus-Me/AirDet_ROS

引言

小樣本目標(biāo)檢測(cè)（FSOD）是近年興起的一項(xiàng)計(jì)算機(jī)視覺任務(wù)，其基本設(shè)定是，僅提供少量（通常少于等于10個(gè)）新類樣本情況下，方法即需檢測(cè)基訓(xùn)練集之外類別的目標(biāo)。

由于其在自主探索中的重要作用，F(xiàn)SOD受到了機(jī)器人界越來越多的關(guān)注。這是因?yàn)槲覀兺ǔＦ谕麢C(jī)器人在未知環(huán)境中檢測(cè)到（模型訓(xùn)練過程中未見過的）新物體，然而在線探索的過程中，用戶只能在線標(biāo)注提供少量的新類樣本。譬如圖一（a）中，用戶提供少量標(biāo)注后，方法需要檢測(cè)鉆孔機(jī)、頭盔等未見過的新穎類別目標(biāo)。

盡管FSOD最近有了很顯著的發(fā)展，但是大多數(shù)現(xiàn)有的方法在應(yīng)用前都遵循基訓(xùn)練、小樣本微調(diào)兩階段范式。然而微調(diào)階段并不適用于機(jī)器人在線探索的應(yīng)用場(chǎng)合，因?yàn)椋?/p>

探索過程中待檢測(cè)的新類別是可以動(dòng)態(tài)變化的（如不斷增加的）。如果每次改變類別都重新微調(diào)模型，一方面對(duì)于時(shí)間緊迫的探索任務(wù)而言效率極低，另一方面也會(huì)為有限的機(jī)器人機(jī)載算力帶來過高負(fù)荷。
微調(diào)階段的許多超參數(shù)都需要驗(yàn)證集進(jìn)行調(diào)節(jié)，如微調(diào)學(xué)習(xí)率、模型收斂epoch等。然而對(duì)于在線探索任務(wù)而言，驗(yàn)證集是不存在的，超參調(diào)節(jié)自然也就難以進(jìn)行。

為此，我們提出了一種無需微調(diào)的小樣本目標(biāo)檢測(cè)方法AirDet。如圖一（b）所示，未經(jīng)微調(diào)的AirDet甚至能取得比一些微調(diào)后的方法更好的結(jié)果。

圖一. 來自機(jī)器人探索（DARPA Subt 挑戰(zhàn)賽）的代表性圖像和性能比較。實(shí)線表示沒有微調(diào)的結(jié)果，虛線表示在少樣本數(shù)據(jù)上微調(diào)后的結(jié)果。貢獻(xiàn)

本文提出在機(jī)器人自主探索任務(wù)中可行的，無需微調(diào)的小樣本檢測(cè)模型，AirDet。
本文提出“與類別無關(guān)的關(guān)聯(lián)性（class-agnostic relation）”，包含空間關(guān)聯(lián)性與通道關(guān)聯(lián)性，這是AirDet的模型設(shè)計(jì)核心。
在COCO，VOC，LVIS數(shù)據(jù)集與DARPA Subt挑戰(zhàn)賽真實(shí)數(shù)據(jù)中的詳盡實(shí)驗(yàn)評(píng)估證明了AirDet的優(yōu)越性與可行性。
我們也提供了AirDet的ROS接口與AGX上的部署指南。

方法介紹

圖二. 自主探索任務(wù)的流程和 AirDet 的算法框架。

圖二展示了機(jī)器人自主探索任務(wù)的流程和AirDet的宏觀模型結(jié)構(gòu)。

任務(wù)流程

在探索未知環(huán)境過程中，機(jī)器人首先將可能包含重要物體（如頭盔）的原始圖片發(fā)送給用戶。用戶會(huì)在線給出標(biāo)注并提供少量樣本。此后，機(jī)器人便可_立即_ 通過對(duì)后續(xù)環(huán)境的感知檢測(cè)這些新類樣本。

宏觀結(jié)構(gòu)

AirDet宏觀上包含四個(gè)模塊

共享的骨干網(wǎng)絡(luò)，用于特征提取
由支持樣本引導(dǎo)的多層特征融合的區(qū)域建議網(wǎng)絡(luò)，用于在測(cè)試圖片上生成候選框
基于全局-局部聯(lián)系的樣本融合網(wǎng)絡(luò)，用于生成更具表征能力，更可靠的類原型特征
基于關(guān)聯(lián)性的檢測(cè)頭，分為分類分支和檢測(cè)框回歸分支

核心理念

AirDet的模塊設(shè)計(jì)理念均基于“與類別無關(guān)的關(guān)聯(lián)性（class-agnostic relation）”。

具體而言，我們定義了如下兩種關(guān)聯(lián)性：空間尺度關(guān)聯(lián)性和特征通道關(guān)聯(lián)性

空間尺度關(guān)聯(lián)性: 目標(biāo)的類別與其外觀緊密相關(guān), 而目標(biāo)的外觀由特征的空間維度描述。因此, 兩個(gè)特征的空間關(guān)聯(lián)性可以很大程度上反映兩個(gè)特征的相關(guān)程度（如相似性）。我們定義如下:

其中, 是兩個(gè)任意張量。Flatten 意味著將特征在空間尺度下展平。MLP 是常用的多層感知機(jī), 故而可以生成帶有的空間信息的核, 此后使用逐通道卷積便可計(jì)算間的空間關(guān)聯(lián)性。

特征通道關(guān)聯(lián)性: 在以往的研究中表明, 圖片的類別信息通常存于特征通道中。譬如, 考慮兩輛汽車的深度特征, 其沿通道的分布是相似的。受此啟發(fā), 我們提出特征通道關(guān)聯(lián)性模塊 :

其中, 代表沿通道維度串聯(lián)兩個(gè)特征。

與類別無關(guān)的關(guān)聯(lián)性貫穿AirDet每個(gè)子模塊的設(shè)計(jì)，這使得AirDet無需微調(diào)即可工作。每個(gè)子模塊的設(shè)計(jì)細(xì)節(jié)請(qǐng)有興趣的讀者參閱我們的原文或代碼。

實(shí)驗(yàn)條件設(shè)定

基訓(xùn)練集：

COCO2017 train數(shù)據(jù)集中非VOC的60類數(shù)據(jù)（等價(jià)于COCO2014 trainval中剔除5k測(cè)試圖片）

測(cè)試集：

COCO2017 val數(shù)據(jù)集中屬于VOC的20個(gè)新類數(shù)據(jù)（提供1,2,3,5shot 支持樣本）
Pascal VOC2012 val數(shù)據(jù)集
LVIS 數(shù)據(jù)集中四組非常規(guī)類別
DARPA Subt 挑戰(zhàn)賽中的真實(shí)數(shù)據(jù)

值得一提的是，由于AirDet無需微調(diào)，在所有測(cè)試數(shù)據(jù)，不同shot的設(shè)定中，我們都可采用同一個(gè)基訓(xùn)練出來的模型（而不需要針對(duì)不同的場(chǎng)景調(diào)整不同的微調(diào)超參數(shù)）。

COCO

COCO數(shù)據(jù)集上的結(jié)果比較。

COCO上的結(jié)果顯示，無需微調(diào)的AirDet已經(jīng)比肩，甚至優(yōu)于許多微調(diào)后的方案，微調(diào)后，AirDet的性能更加可觀。無需微調(diào)的條件下，方法的結(jié)果對(duì)支持樣本較敏感，故而我們隨機(jī)采樣了3-5組樣本，展示了其平均結(jié)果和標(biāo)準(zhǔn)差，表中由 \dagger\dagger 表示。

COCO數(shù)據(jù)集上不同尺度的目標(biāo)檢測(cè)結(jié)果比較

得益于AirDet中由支持樣本引導(dǎo)，可學(xué)習(xí)多層特征聯(lián)系的SCS模塊（詳見原文），AirDet在多尺度目標(biāo)檢測(cè)中也比已有的方案更優(yōu)（優(yōu)于采納FPN的方案）。

值得一提的是，對(duì)于多尺度目標(biāo)的檢測(cè)，微調(diào)后的模型表現(xiàn)不一定更好。

COCO 10-shot 結(jié)果比較

大多現(xiàn)有方案對(duì)于COCO數(shù)據(jù)集采納10-shot場(chǎng)景，我們也給出AirDet 10-shot的結(jié)果如上表。（不過最新的CVPR2022中，COCO 10-shot已經(jīng)能達(dá)到17-18 AP，不得不感慨CV發(fā)展的迅猛）

VOC

VOC 跨領(lǐng)域結(jié)果比較

通常機(jī)器人的工作環(huán)境與訓(xùn)練集有較大差別，我們展示的跨領(lǐng)域性能（COCO訓(xùn)練，VOC測(cè)試）如上表。

Subt 挑戰(zhàn)賽

圖三. DARPA SubT挑戰(zhàn)賽中的定性結(jié)果

感覺放了好多表，SUBT就放一些定性圖。左側(cè)是提供給AirDet的新類樣本，右側(cè)是AirDet的檢測(cè)結(jié)果，可見AirDet對(duì)真實(shí)探索環(huán)境中的尺度變化、照度變化等挑戰(zhàn)因素較為魯棒。

局限性

無需微調(diào)的小樣本目標(biāo)檢測(cè)研究甚少，目前可以不微調(diào)直接工作的僅有A-RPN和AirDet兩個(gè)方法，而這個(gè)任務(wù)對(duì)機(jī)器人在位置環(huán)境中的探索感知又比較重要。為了這個(gè)領(lǐng)域未來能得到關(guān)注并發(fā)展的更好，我們也真誠(chéng)擺出AirDet的局限性：

AirDet目前模型參數(shù)較多，運(yùn)行速度不快，我們?cè)贏GX Xavier上如果不做TensorRT加速，運(yùn)行速度僅有1~2FPS。更輕量化的模型是可優(yōu)化的方向。
我們觀察到AirDet的failure case主要是由分類導(dǎo)致的，具體問題有兩個(gè)。第一，類間variance大，有些類AP高達(dá)30，有些類低至0.5。第二，AirDet對(duì)正樣本分類不夠好。舉例來說，如果給貓（新類）的支持樣本，AirDet在測(cè)試圖片上：在貓的區(qū)域生成候選框，和將含有貓的候選框分類為貓，這兩個(gè)任務(wù)表現(xiàn)不佳（體現(xiàn)為loss大）。所以設(shè)計(jì)更有效地分類策略是提升AirDet性能的可觀方向。
AirDet對(duì)于多類檢測(cè)的效率較低。AirDet的SCS和檢測(cè)頭內(nèi)部會(huì)對(duì)支持類跑循環(huán)，最后在所有類下找到得分最高的，這種跑法會(huì)導(dǎo)致類別過多時(shí)推理速度變慢。（這應(yīng)該也是大多數(shù)基于元學(xué)習(xí)（meta-learning）的FSOD的局限性）
最后坦白的說，未經(jīng)微調(diào)的AirDet與微調(diào)的方法在某些情況下仍有一些差距，這也說明AirDet的性能仍有較大提升空間。

致謝

本文是我參加CMU RISS2021暑研期間的工作，從第一次討論這個(gè)方向，到至今論文中稿已逾一年。非常感謝期間王晨博士和Scherer教授對(duì)我的指導(dǎo)幫助，也非常感謝pranay和Seungchan學(xué)長(zhǎng)的協(xié)助合作。本文主要受A-RPN與《learning to compare》兩篇文章啟發(fā)，在此向文章的作者們致以真摯的謝意（代碼基于FewX）。

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請(qǐng)聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

ECCV 2022 | AirDet: 無需微調(diào)的小樣本目標(biāo)檢測(cè)方法

相關(guān)推薦

技術(shù)專區(qū)