博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 單目3D目標(biāo)檢測(cè)之入門(mén)(1)

單目3D目標(biāo)檢測(cè)之入門(mén)(1)

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2023-08-20 來(lái)源:工程師 發(fā)布文章

一、單目3D目標(biāo)檢測(cè)


1. 3D目標(biāo)檢測(cè)領(lǐng)域有哪些任務(wù)和方法?


為了更直觀,我畫(huà)了一個(gè)思維導(dǎo)圖,點(diǎn)擊鏈接后,注意需要切換一下思維導(dǎo)圖狀態(tài)。


圖片


在3D目標(biāo)檢測(cè)領(lǐng)域,根據(jù)輸入信息的不同,大致可分為三類(lèi)方法。


  1. Point Cloud-based Methods (基于點(diǎn)云來(lái)做)


  2. Multimodal Fusion-based Methods(點(diǎn)云和圖像的融合)


  3. Monocular/Stereo Image-based Methods(單目/立體圖像的方法)


首先,基于點(diǎn)云的經(jīng)典方法,比如VoxelNet(2018年)、PointPillars(2019年)、PointRCNN(2019年)等。


這類(lèi)方法都是直接在點(diǎn)云數(shù)據(jù)上進(jìn)行特征的提取和RPN操作,將2D目標(biāo)檢測(cè)中的網(wǎng)絡(luò)結(jié)構(gòu)和思想遷移到3D點(diǎn)云中。


點(diǎn)云和圖像的融合方法是當(dāng)前3D目標(biāo)檢測(cè)的主流。比較經(jīng)典的算法有,2018年的MV3D、Frustum PointNets、2019年的Pseudo-LiDAR、2020年的PointPainting等算法。


這里的Pseudo-LiDAR(也叫為激光雷達(dá))這篇文章對(duì)后來(lái)的單目3D目標(biāo)檢測(cè)領(lǐng)域的發(fā)展起到了促進(jìn)的作用。


這里使用了雙目圖像來(lái)生成深度圖,根據(jù)深度圖得到點(diǎn)云數(shù)據(jù),再進(jìn)行目標(biāo)檢測(cè)任務(wù)。


Stereo Image-based方法中,主要是基于雙目圖像的3D目標(biāo)檢測(cè),這一領(lǐng)域我不太了解,以后再做補(bǔ)充。


單目3D目標(biāo)檢測(cè)我是2021年剛接觸的,比較出色的單目3D檢測(cè)方法主要有:Mono3D PLiDAR、AutoShape、MonoRCNN、CaDDN等。


而在單目3D目標(biāo)檢測(cè)領(lǐng)域,又可細(xì)分為三類(lèi)方法。關(guān)于單目3D目標(biāo)檢測(cè)的分類(lèi)翻譯自CaDNN這篇文章


  • 直接法(Direct Methods)


所謂直接法就是直接從圖像中估計(jì)出3D檢測(cè)框,也無(wú)需預(yù)測(cè)中間的3D場(chǎng)景表示[9,52,4,32]。


更進(jìn)一步的說(shuō)就是,直接法可以結(jié)合2D圖像平面和3D空間的幾何關(guān)系來(lái)輔助檢測(cè)[53,12,40,3]。


例如,可以在圖像平面上估計(jì)出某對(duì)象的關(guān)鍵點(diǎn),以幫助使用已知幾何結(jié)構(gòu)構(gòu)建3D box[33,29]。[M3D-RPN][M3D-RPN: monocular 3D region proposal network for object detection. ICCV, 2019.][3]


引入深度感知卷積,它按行劃分輸入并學(xué)習(xí)每個(gè)區(qū)域的no-shared kernels,以學(xué)習(xí)3D空間中位于相關(guān)區(qū)域的特定特征。


可以對(duì)場(chǎng)景中的物體進(jìn)行形狀估計(jì),從而理解三維物體的幾何形狀。


形狀估計(jì)可以從3D CAD模型的標(biāo)記頂點(diǎn)中被監(jiān)督[5,24],或從LiDAR掃描[22],或直接從輸入數(shù)據(jù)以自我監(jiān)督的方式[2]。


直接法的缺點(diǎn)是檢測(cè)框直接從2D圖像中生成,沒(méi)有產(chǎn)生明確的深度信息,相對(duì)于其它方法,定位性能較差。


  • 基于深度的方法(Depth-Based Methods)


該方法先利用深度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)估計(jì)出圖像的像素級(jí)深度圖,再將該深度圖作為輸入用于3D目標(biāo)檢測(cè)任務(wù),[論文][Deep ordinal regression network for monocular depth estimation. CVPR, 2018.]。


將估計(jì)的深度圖與原圖像結(jié)合,再執(zhí)行3D檢測(cè)任務(wù)的論文有許多[38,64,36,13]。


深度圖可以轉(zhuǎn)換成3D點(diǎn)云,這種方法被稱(chēng)為偽激光雷達(dá)(Pseudo-LiDAR)[59],或者直接使用[61,65],或者結(jié)合圖像信息[62,37]來(lái)生成3D目標(biāo)檢測(cè)結(jié)果。


基于深度的方法在訓(xùn)練階段將深度估計(jì)從三維目標(biāo)檢測(cè)任務(wù)中分離,導(dǎo)致還需要學(xué)習(xí)用于三維檢測(cè)任務(wù)的次佳的深度地圖。


如何理解上邊這句話(huà)呢?**對(duì)于屬于感興趣的目標(biāo)的像素,應(yīng)該優(yōu)先考慮獲取精確的深度信息,而對(duì)于背景像素則不那么重要,如果深度估計(jì)和目標(biāo)檢測(cè)是獨(dú)立訓(xùn)練的,則無(wú)法捕捉到這一屬性。


**所以將深度估計(jì)和目標(biāo)檢測(cè)任務(wù)融合成一個(gè)網(wǎng)絡(luò),效果會(huì)不會(huì)更好呢?


  • 基于網(wǎng)格的方法(Grid-Based Methods)


基于網(wǎng)格的方法通過(guò)預(yù)測(cè)BEV網(wǎng)格表示(BEV grid representation)[48,55],來(lái)避免估計(jì)用做3D 檢測(cè)框架輸入的原始深度值。


具體來(lái)說(shuō),OFT[48]通過(guò)將體素投射到圖像平面和采樣圖像特征來(lái)填充體素網(wǎng)格,并將其轉(zhuǎn)換為BEV表示。


多個(gè)體素可以投影到同一圖像特征上,導(dǎo)致特征沿著投影射線(xiàn)重復(fù)出現(xiàn),降低了檢測(cè)精度。


2. 什么是單目3D目標(biāo)檢測(cè)?


圖片


推薦參考博客:


  • 單目3D目標(biāo)檢測(cè)論文筆記 3D Bounding Box Estimation - 知乎


  • ICCV 2021 | 悉尼大學(xué)&商湯提出GUPNet:?jiǎn)文?D目標(biāo)檢測(cè)新網(wǎng)絡(luò)


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉