ECCV 2022 | AirDet: 無需微調(diào)的小樣本目標(biāo)檢測(cè)方法
來源丨h(huán)ttps://zhuanlan.zhihu.com/p/545249730編輯丨極市平臺(tái) 導(dǎo)讀
本文提出無需微調(diào)的小樣本目標(biāo)檢測(cè)方法AirDet,針對(duì)機(jī)器人自主探索任務(wù)設(shè)計(jì)。基訓(xùn)練后,未經(jīng)微調(diào)的AirDet表現(xiàn)甚至優(yōu)于部分微調(diào)后的方法。論文、項(xiàng)目代碼、ROS部署接口均已開源。
AirDet項(xiàng)目網(wǎng)站:https://jaraxxus-me.github.io/ECCV2022_AirDet/
開源論文:https://arxiv.org/pdf/2112.01740.pdf
開源代碼:https://github.com/Jaraxxus-Me/AirDet
ROS部署:https://github.com/Jaraxxus-Me/AirDet_ROS
引言小樣本目標(biāo)檢測(cè)(FSOD)是近年興起的一項(xiàng)計(jì)算機(jī)視覺任務(wù),其基本設(shè)定是,僅提供少量(通常少于等于10個(gè))新類樣本情況下,方法即需檢測(cè)基訓(xùn)練集之外類別的目標(biāo)。
由于其在自主探索中的重要作用,F(xiàn)SOD受到了機(jī)器人界越來越多的關(guān)注。這是因?yàn)槲覀兺ǔF谕麢C(jī)器人在未知環(huán)境中檢測(cè)到(模型訓(xùn)練過程中未見過的)新物體,然而在線探索的過程中,用戶只能在線標(biāo)注提供少量的新類樣本。譬如圖一(a)中,用戶提供少量標(biāo)注后,方法需要檢測(cè)鉆孔機(jī)、頭盔等未見過的新穎類別目標(biāo)。
盡管FSOD最近有了很顯著的發(fā)展,但是大多數(shù)現(xiàn)有的方法在應(yīng)用前都遵循基訓(xùn)練、小樣本微調(diào)兩階段范式。然而微調(diào)階段并不適用于機(jī)器人在線探索的應(yīng)用場(chǎng)合,因?yàn)椋?/p>
- 探索過程中待檢測(cè)的新類別是可以動(dòng)態(tài)變化的(如不斷增加的)。如果每次改變類別都重新微調(diào)模型,一方面對(duì)于時(shí)間緊迫的探索任務(wù)而言效率極低,另一方面也會(huì)為有限的機(jī)器人機(jī)載算力帶來過高負(fù)荷。
- 微調(diào)階段的許多超參數(shù)都需要驗(yàn)證集進(jìn)行調(diào)節(jié),如微調(diào)學(xué)習(xí)率、模型收斂epoch等。然而對(duì)于在線探索任務(wù)而言,驗(yàn)證集是不存在的,超參調(diào)節(jié)自然也就難以進(jìn)行。
為此,我們提出了一種無需微調(diào)的小樣本目標(biāo)檢測(cè)方法AirDet。如圖一(b)所示,未經(jīng)微調(diào)的AirDet甚至能取得比一些微調(diào)后的方法更好的結(jié)果。
圖一. 來自機(jī)器人探索(DARPA Subt 挑戰(zhàn)賽)的代表性圖像和性能比較。實(shí)線表示沒有微調(diào)的結(jié)果,虛線表示在少樣本數(shù)據(jù)上微調(diào)后的結(jié)果。貢獻(xiàn)- 本文提出在機(jī)器人自主探索任務(wù)中可行的,無需微調(diào)的小樣本檢測(cè)模型,AirDet。
- 本文提出“與類別無關(guān)的關(guān)聯(lián)性(class-agnostic relation)”,包含空間關(guān)聯(lián)性與通道關(guān)聯(lián)性,這是AirDet的模型設(shè)計(jì)核心。
- 在COCO,VOC,LVIS數(shù)據(jù)集與DARPA Subt挑戰(zhàn)賽真實(shí)數(shù)據(jù)中的詳盡實(shí)驗(yàn)評(píng)估證明了AirDet的優(yōu)越性與可行性。
- 我們也提供了AirDet的ROS接口與AGX上的部署指南。
圖二展示了機(jī)器人自主探索任務(wù)的流程和AirDet的宏觀模型結(jié)構(gòu)。
任務(wù)流程在探索未知環(huán)境過程中,機(jī)器人首先將可能包含重要物體(如頭盔)的原始圖片發(fā)送給用戶。用戶會(huì)在線給出標(biāo)注并提供少量樣本。此后,機(jī)器人便可_立即_ 通過對(duì)后續(xù)環(huán)境的感知檢測(cè)這些新類樣本。
宏觀結(jié)構(gòu)AirDet宏觀上包含四個(gè)模塊
- 共享的骨干網(wǎng)絡(luò),用于特征提取
- 由支持樣本引導(dǎo)的多層特征融合的區(qū)域建議網(wǎng)絡(luò),用于在測(cè)試圖片上生成候選框
- 基于全局-局部聯(lián)系的樣本融合網(wǎng)絡(luò),用于生成更具表征能力,更可靠的類原型特征
- 基于關(guān)聯(lián)性的檢測(cè)頭,分為分類分支和檢測(cè)框回歸分支
AirDet的模塊設(shè)計(jì)理念均基于“與類別無關(guān)的關(guān)聯(lián)性(class-agnostic relation)”。
具體而言,我們定義了如下兩種關(guān)聯(lián)性:空間尺度關(guān)聯(lián)性 和特征通道關(guān)聯(lián)性
空間尺度關(guān)聯(lián)性: 目標(biāo)的類別與其外觀緊密相關(guān), 而目標(biāo)的外觀由特征的空間維度描述。因此, 兩 個(gè)特征的空間關(guān)聯(lián)性可以很大程度上反映兩個(gè)特征的相關(guān)程度(如相似性)。我們定義 如下:
其中, 是兩個(gè)任意張量。Flatten 意味著將特征在空間尺度下展平。MLP 是常用的多層感知機(jī), 故而 可以生成帶有 的空間 信息的核, 此后使用逐通道卷積 便可計(jì)算 間的空間關(guān)聯(lián)性 。
特征通道關(guān)聯(lián)性: 在以往的研究中表明, 圖片的類別信息通常存于特征通道中。譬如, 考慮兩輛汽 車的深度特征, 其沿通道的分布是相似的。受此啟發(fā), 我們提出特征通道關(guān)聯(lián)性模塊 :
其中, 代表沿通道維度串聯(lián)兩個(gè)特征。
與類別無關(guān)的關(guān)聯(lián)性貫穿AirDet每個(gè)子模塊的設(shè)計(jì),這使得AirDet無需微調(diào)即可工作。每個(gè)子模塊的設(shè)計(jì)細(xì)節(jié)請(qǐng)有興趣的讀者參閱我們的原文或代碼。
實(shí)驗(yàn)條件設(shè)定基訓(xùn)練集:
COCO2017 train數(shù)據(jù)集中非VOC的60類數(shù)據(jù)(等價(jià)于COCO2014 trainval中剔除5k測(cè)試圖片)
測(cè)試集:
- COCO2017 val數(shù)據(jù)集中屬于VOC的20個(gè)新類數(shù)據(jù)(提供1,2,3,5shot 支持樣本)
- Pascal VOC2012 val數(shù)據(jù)集
- LVIS 數(shù)據(jù)集中四組非常規(guī)類別
- DARPA Subt 挑戰(zhàn)賽中的真實(shí)數(shù)據(jù)
值得一提的是,由于AirDet無需微調(diào),在所有測(cè)試數(shù)據(jù),不同shot的設(shè)定中,我們都可采用同一個(gè)基訓(xùn)練出來的模型(而不需要針對(duì)不同的場(chǎng)景調(diào)整不同的微調(diào)超參數(shù))。
COCOCOCO數(shù)據(jù)集上的結(jié)果比較。COCO上的結(jié)果顯示,無需微調(diào)的AirDet已經(jīng)比肩,甚至優(yōu)于許多微調(diào)后的方案,微調(diào)后,AirDet的性能更加可觀。無需微調(diào)的條件下,方法的結(jié)果對(duì)支持樣本較敏感,故而我們隨機(jī)采樣了3-5組樣本,展示了其平均結(jié)果和標(biāo)準(zhǔn)差,表中由 \dagger\dagger 表示。
COCO數(shù)據(jù)集上不同尺度的目標(biāo)檢測(cè)結(jié)果比較得益于AirDet中由支持樣本引導(dǎo),可學(xué)習(xí)多層特征聯(lián)系的SCS模塊(詳見原文),AirDet在多尺度目標(biāo)檢測(cè)中也比已有的方案更優(yōu)(優(yōu)于采納FPN的方案)。
值得一提的是,對(duì)于多尺度目標(biāo)的檢測(cè),微調(diào)后的模型表現(xiàn)不一定更好。
COCO 10-shot 結(jié)果比較大多現(xiàn)有方案對(duì)于COCO數(shù)據(jù)集采納10-shot場(chǎng)景,我們也給出AirDet 10-shot的結(jié)果如上表。(不過最新的CVPR2022中,COCO 10-shot已經(jīng)能達(dá)到17-18 AP,不得不感慨CV發(fā)展的迅猛)
VOCVOC 跨領(lǐng)域結(jié)果比較通常機(jī)器人的工作環(huán)境與訓(xùn)練集有較大差別,我們展示的跨領(lǐng)域性能(COCO訓(xùn)練,VOC測(cè)試)如上表。
Subt 挑戰(zhàn)賽圖三. DARPA SubT挑戰(zhàn)賽中的定性結(jié)果感覺放了好多表,SUBT就放一些定性圖。左側(cè)是提供給AirDet的新類樣本,右側(cè)是AirDet的檢測(cè)結(jié)果,可見AirDet對(duì)真實(shí)探索環(huán)境中的尺度變化、照度變化等挑戰(zhàn)因素較為魯棒。
局限性無需微調(diào)的小樣本目標(biāo)檢測(cè)研究甚少,目前可以不微調(diào)直接工作的僅有A-RPN和AirDet兩個(gè)方法,而這個(gè)任務(wù)對(duì)機(jī)器人在位置環(huán)境中的探索感知又比較重要。為了這個(gè)領(lǐng)域未來能得到關(guān)注并發(fā)展的更好,我們也真誠(chéng)擺出AirDet的局限性:
- AirDet目前模型參數(shù)較多,運(yùn)行速度不快,我們?cè)贏GX Xavier上如果不做TensorRT加速,運(yùn)行速度僅有1~2FPS。更輕量化的模型是可優(yōu)化的方向。
- 我們觀察到AirDet的failure case主要是由分類導(dǎo)致的,具體問題有兩個(gè)。第一,類間variance大,有些類AP高達(dá)30,有些類低至0.5。第二,AirDet對(duì)正樣本分類不夠好。舉例來說,如果給貓(新類)的支持樣本,AirDet在測(cè)試圖片上:在貓的區(qū)域生成候選框,和將含有貓的候選框分類為貓,這兩個(gè)任務(wù)表現(xiàn)不佳(體現(xiàn)為loss大)。所以設(shè)計(jì)更有效地分類策略是提升AirDet性能的可觀方向。
- AirDet對(duì)于多類檢測(cè)的效率較低。AirDet的SCS和檢測(cè)頭內(nèi)部會(huì)對(duì)支持類跑循環(huán),最后在所有類下找到得分最高的,這種跑法會(huì)導(dǎo)致類別過多時(shí)推理速度變慢。(這應(yīng)該也是大多數(shù)基于元學(xué)習(xí)(meta-learning)的FSOD的局限性)
- 最后坦白的說,未經(jīng)微調(diào)的AirDet與微調(diào)的方法在某些情況下仍有一些差距,這也說明AirDet的性能仍有較大提升空間。
本文是我參加CMU RISS2021暑研期間的工作,從第一次討論這個(gè)方向,到至今論文中稿已逾一年。非常感謝期間王晨博士和Scherer教授對(duì)我的指導(dǎo)幫助,也非常感謝pranay和Seungchan學(xué)長(zhǎng)的協(xié)助合作。本文主要受A-RPN與《learning to compare》兩篇文章啟發(fā),在此向文章的作者們致以真摯的謝意(代碼基于FewX)。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。