清華大學(xué)&英偉達(dá)最新|Occ3D:通用全面的大規(guī)模3D Occupancy預(yù)測基準(zhǔn)(2)
基于上述半自動標(biāo)注pipeline,作者生成了兩個(gè)3D占用預(yù)測數(shù)據(jù)集,Occ3D Waymo和Occ3D nuScenes。Occ3D Waymo包含798個(gè)用于訓(xùn)練的序列,202個(gè)用于驗(yàn)證的序列。它有14個(gè)已知的目標(biāo)類和一個(gè)額外的GO類。Occ3D nuScenes包含600個(gè)用于訓(xùn)練的場景和150個(gè)用于驗(yàn)證的場景。它有16個(gè)GO類。下表1將作者提出的Occ3D數(shù)據(jù)集與現(xiàn)有數(shù)據(jù)集在各個(gè)方面進(jìn)行了比較。
粗略到精細(xì)占用模型為了解決具有挑戰(zhàn)性的3D占用預(yù)測問題,作者提出了一種新的基于transformer的模型,稱為粗略到精細(xì)占有(CTF-Occ)網(wǎng)絡(luò)。作者將在本節(jié)中詳細(xì)介紹模型設(shè)計(jì)。
總體架構(gòu)下圖4顯示了CTF-Occ網(wǎng)絡(luò)架構(gòu)圖。
首先,利用圖像主干網(wǎng)絡(luò)從多視圖圖像中提取2D圖像特征。然后,3D體素通過交叉注意力操作將聚集的2D圖像特征queries到3D空間中。作者的方法涉及使用金字塔體素編碼器,該編碼器通過增量標(biāo)注選擇和空間交叉注意力以從粗到細(xì)的方式逐步改進(jìn)體素特征表示。這種方法提高了空間分辨率,并細(xì)化了目標(biāo)的詳細(xì)幾何結(jié)構(gòu),最終實(shí)現(xiàn)了更準(zhǔn)確的3D占用預(yù)測。此外,作者使用了一個(gè)隱式占用****,它允許任意分辨率的輸出。
粗略到精細(xì)體素編碼器與3D目標(biāo)檢測相比,3D占用預(yù)測任務(wù)涉及對更復(fù)雜的目標(biāo)幾何結(jié)構(gòu)進(jìn)行建模。為了說明這一點(diǎn),作者的方法在不壓縮高度的情況下預(yù)先服務(wù)于3D體素空間。最初,作者采用形狀為H×W×L的可學(xué)習(xí)體素嵌入來將多視圖圖像特征聚合到3D網(wǎng)格空間中。然后,作者堆疊多個(gè)CTF體素編碼器,以實(shí)現(xiàn)多尺度交互。每個(gè)金字塔級別的每個(gè)體素編碼器由三個(gè)組件組成:增量標(biāo)注選擇模塊、體素空間交叉注意力模塊和卷積特征提取器。
增量token選擇: 如前所述,預(yù)測3D占用任務(wù)需要詳細(xì)的幾何表示,但如果所有3D體素標(biāo)注都用于與多視圖圖像中的感興趣區(qū)域交互,這可能會導(dǎo)致顯著的計(jì)算和內(nèi)存成本??紤]到場景中大多數(shù)3D體素網(wǎng)格都是空的,作者提出了一種增量標(biāo)注選擇策略,該策略在交叉注意力計(jì)算中選擇性地選擇前景和不確定的體素標(biāo)注。這種策略能夠在不犧牲精度的情況下實(shí)現(xiàn)快速高效的計(jì)算。具體地,在每個(gè)金字塔級別的開始,每個(gè)體素token被饋送到二元分類器中,以預(yù)測該體素是否為空。作者使用二進(jìn)制真值占用圖作為監(jiān)督來訓(xùn)練分類器。在作者的方法中,選擇K個(gè)最不確定的體素標(biāo)注用于后續(xù)的特征細(xì)化。有三種方法可以定義K個(gè)最不確定的體素:概率接近0.5的體素,得分最高的K個(gè)非空體素,或具有特定百分比的兩種體素的組合。消融研究表明,在早期選擇前景體素是一種更理想的選擇。
空間交叉注意力: 在金字塔的每個(gè)級別,作者首先選擇前K個(gè)體素標(biāo)注,然后聚合相應(yīng)的圖像特征。特別地,作者應(yīng)用空間交叉注意力來進(jìn)一步細(xì)化體素特征。3D空間交叉注意力定義為:
其中i,j是相機(jī)視圖和參考點(diǎn)的索引。對于每個(gè)選定的體素標(biāo)注查詢,投影實(shí)現(xiàn)以獲得第i個(gè)圖像上的第j個(gè)參考點(diǎn)。F表示第i個(gè)相機(jī)視圖的特征。作者計(jì)算與位于p=(x,y,z)處的查詢對應(yīng)的參考點(diǎn)的真實(shí)世界位置(x′,y′,z′)為:
其中H,W,L是當(dāng)前金字塔級別的3D網(wǎng)格空間形狀,s是體素網(wǎng)格的大小。
卷積特征提取器: 一旦作者將可變形的交叉注意力應(yīng)用于相關(guān)的圖像特征,就開始更新前景體素標(biāo)注的特征。然后,使用一系列堆疊卷積來增強(qiáng)整個(gè)3D體素特征圖中的特征交互。在當(dāng)前級別結(jié)束時(shí),作者使用三重線性插值對3D體素特征進(jìn)行上采樣。整個(gè)過程可以描述為:
隱式占用****CTF體素編碼器生成體素化特征輸出,然后將體素特征輸入到多個(gè)MLP中,以獲得最終的占用預(yù)測′,其中C′是語義類的數(shù)量。此外,作者介紹了一種隱式占用****,它可以通過利用隱式神經(jīng)表示提供任意分辨率的輸出。隱式****被實(shí)現(xiàn)為MLP,該MLP通過兩個(gè)輸入輸出語義標(biāo)簽:體素編碼器提取的體素特征向量和體素內(nèi)部的3D坐標(biāo)。該過程可以描述為
損失函數(shù)為了優(yōu)化占用預(yù)測,作者使用OHEM[30]損失進(jìn)行模型訓(xùn)練,,,其中、和表示第k類的損失權(quán)重、標(biāo)簽和預(yù)測結(jié)果。此外,作者使用二進(jìn)制體素掩碼來監(jiān)督每個(gè)金字塔級別中的二進(jìn)制分類頭。二進(jìn)制體素掩碼是通過使用,處理每個(gè)空間分辨率si下的尾數(shù)占用標(biāo)簽來生成的,并且第i級中的二進(jìn)制分類頭的輸出表示為pi。二元分類的損失定義為,其中i表示第i個(gè)金字塔級。最后,總損失為。
實(shí)驗(yàn)實(shí)驗(yàn)設(shè)置數(shù)據(jù)集: Occ3D Waymo總共包含1000個(gè)公開可用的序列,其中798個(gè)場景用于訓(xùn)練,202個(gè)場景用于驗(yàn)證。場景范圍沿X軸和Y軸設(shè)置為-40米至40米,沿Z軸設(shè)置為-5米至7.8米。Occ3D nuScenes包含700個(gè)訓(xùn)練場景和150個(gè)驗(yàn)證場景。X軸和Y軸的占用范圍定義為-40米至40米,Z軸為-1米至5.4米。作者選擇0.4m的體素大小在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
架構(gòu): 作者使用在FCOS3D[36]上預(yù)訓(xùn)練的ResNet-101[13]作為圖像主干,對于Occ3D Waymo,圖像大小被調(diào)整為(640×960),對于Occ3D nuScenes,圖像大小調(diào)整為(928×1600)。除了z軸的分辨率外,作者對兩個(gè)數(shù)據(jù)集采用了相同的CTF-Occ網(wǎng)絡(luò)架構(gòu)設(shè)置。體素嵌入的形狀是(200×200),具有256個(gè)通道。體素嵌入將首先通過四個(gè)編碼器層,而不進(jìn)行token選擇。Occ3D Waymo數(shù)據(jù)集有三個(gè)金字塔級,每個(gè)級的z軸分辨率分別為8、16和32。Occ3D nuScenes數(shù)據(jù)集的每個(gè)階段的z軸分辨率分別為8和16(對于兩個(gè)金字塔階段)。每個(gè)階段包含一個(gè)SCA層,并且對于所有金字塔階段,增量token選擇策略的top-k比率都設(shè)置為0.2。
作者還將兩個(gè)主流BEV模型——BEVDet[14]和BEVFormer[18]擴(kuò)展到3D占用預(yù)測任務(wù)。作者用CTF-Occ網(wǎng)絡(luò)中采用的占用****取代了他們原來的檢測****,并保留了他們的BEV特征編碼器。根據(jù)他們的原始設(shè)置,作者采用從FCOS3D[36]檢查點(diǎn)初始化的ResNet101 DCN作為圖像主干。
實(shí)施細(xì)節(jié): 作者使用AdamW優(yōu)化器[23]和余弦學(xué)習(xí)速率調(diào)度器,學(xué)習(xí)速率設(shè)置為2e-4。除非另有規(guī)定,否則所有模型都訓(xùn)練了24個(gè)epoch進(jìn)行比較,8個(gè)epoch進(jìn)行消融研究。
6.2.與以前的方法進(jìn)行比較Occ3D nuScenes: 下表2顯示了與Occ3D nuScenes數(shù)據(jù)集上的相關(guān)方法相比,3D占用預(yù)測的性能。可以觀察到,在IoU度量下,作者的方法在所有類中的性能都比以前的基線方法好。這些觀測結(jié)果與Occ3D Waymo數(shù)據(jù)集中的觀測結(jié)果一致。
Occ3D Waymo: 作者將CTF-Occ網(wǎng)絡(luò)的性能與新提出的Occ3D Waymo數(shù)據(jù)集上最先進(jìn)的模型進(jìn)行了比較。結(jié)果如下表4所示。作者的方法比以前的方法有顯著的優(yōu)勢,即將mIoU增加了3.11。特別是對于一些小目標(biāo),如行人和自行車,方法分別超過基線方法4.11和13.0 IoU。這是因?yàn)樽髡咴诓粔嚎s高度的情況下捕捉3D體素空間中的特征,這將保留目標(biāo)的詳細(xì)幾何結(jié)構(gòu)。結(jié)果表明了作者的從粗到細(xì)體素編碼器的有效性。
消融研究在本節(jié)中,作者消融了增量token選擇和OHEM損失的選擇。結(jié)果如下表3所示。CC代表交通錐,PED代表行人。作者專注于CC和PED,以驗(yàn)證作者在小目標(biāo)上實(shí)現(xiàn)。這兩種技術(shù)都能提高性能。使用OHEM損失和top-k token選擇可產(chǎn)生最佳性能。如果沒有OHEM損失,作者只能得到10.06 mIoU。將OHEM損失與隨機(jī)token選擇策略相結(jié)合,可實(shí)現(xiàn)14.75 mIoU。使用OHEM損失的不確定token選擇策略可實(shí)現(xiàn)17.37mIoU。對于token選擇,不確定選擇和前k選擇不相上下,它們顯著優(yōu)于隨機(jī)選擇。
定性結(jié)果作者將CTF-Occ網(wǎng)絡(luò)輸出與圖5中Occ3D Waymo數(shù)據(jù)集上的最先進(jìn)方法BEVFormer Occ進(jìn)行了比較。作者可以看到,CTF-Occ網(wǎng)絡(luò)輸出了比BEVFormer-Occ結(jié)果更詳細(xì)的體素幾何結(jié)構(gòu)。此外,作者的體素****能夠以任何分辨率產(chǎn)生輸出,而不受真值數(shù)據(jù)分辨率的限制。
結(jié)論作者提出了Occ3D,一個(gè)用于視覺感知的大規(guī)模3D占用預(yù)測基準(zhǔn)。該基準(zhǔn)測試包括一個(gè)數(shù)據(jù)生成協(xié)議、兩個(gè)數(shù)據(jù)集和用于該任務(wù)的模型CTF-Occ網(wǎng)絡(luò)。它們都將開源,以促進(jìn)未來的研究。研究表明,語義占用為目標(biāo)提供了更具表現(xiàn)力和豐富的表示。此外,它提供了已知和未知目標(biāo)的統(tǒng)一表示,這對戶外自動駕駛感知至關(guān)重要。除了直接使用外,這個(gè)基準(zhǔn)為未來的研究開辟了幾個(gè)途徑。例如,將實(shí)例ID添加到語義體素將從本質(zhì)上改變?nèi)蝿?wù)為全景分割,并提供更豐富的信息。
參考[1] Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving
開源地址:https://tsinghua-mars-lab.github.io/Occ3D/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。