博客專欄

EEPW首頁 > 博客 > 清華大學(xué)&英偉達(dá)最新|Occ3D:通用全面的大規(guī)模3D Occupancy預(yù)測基準(zhǔn)(1)

清華大學(xué)&英偉達(dá)最新|Occ3D:通用全面的大規(guī)模3D Occupancy預(yù)測基準(zhǔn)(1)

發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2023-05-20 來源:工程師 發(fā)布文章

自動(dòng)駕駛感知需要對3D幾何和語義進(jìn)行建?!,F(xiàn)有的方法通常側(cè)重于估計(jì)3D邊界框,忽略了更精細(xì)的幾何細(xì)節(jié),難以處理一般的、詞匯表外的目標(biāo)。為了克服這些限制,本文引入了一種新的3D占用預(yù)測任務(wù),旨在從多視圖圖像中估計(jì)目標(biāo)的詳細(xì)占用和語義。為了促進(jìn)這項(xiàng)任務(wù),作者開發(fā)了一個(gè)標(biāo)簽生成pipeline,為給定場景生成密集的、可感知的標(biāo)簽。該pipeline包括點(diǎn)云聚合、點(diǎn)標(biāo)簽和遮擋處理。作者基于Waymo開放數(shù)據(jù)集和nuScenes數(shù)據(jù)集構(gòu)造了兩個(gè)基準(zhǔn),從而產(chǎn)生了Occ3D Waymo和Occ3D nuScene基準(zhǔn)。最后,作者提出了一個(gè)模型,稱為“粗略到精細(xì)占用”(CTF-Occ)網(wǎng)絡(luò)。這證明了在3D占用預(yù)測任務(wù)中的優(yōu)越性能。這種方法以粗略到精細(xì)的方式解決了對更精細(xì)的幾何理解的需求。

引言

3D感知是自動(dòng)駕駛等基于視覺的自動(dòng)駕駛系統(tǒng)的關(guān)鍵組成部分。最流行的視覺感知任務(wù)之一是3D目標(biāo)檢測,它根據(jù)單目或雙目相機(jī)圖像估計(jì)固定本體樹中定義的目標(biāo)的位置和尺寸。雖然輸出是可供下游任務(wù)使用的簡潔的3D邊界框,但其表達(dá)能力仍然有限,如下圖1所示:

圖片

  1. 3D邊界框表示消除了目標(biāo)的幾何細(xì)節(jié),例如,彎曲的總線有兩個(gè)或多個(gè)部分通過旋轉(zhuǎn)連接,工程車輛,所述工程車輛具有從所述主體突出的機(jī)械臂;

  2. 很少看到的目標(biāo),如街道上的垃圾或樹枝,通常被忽略,并且在數(shù)據(jù)集中沒有標(biāo)注,因?yàn)槟繕?biāo)類別不能在本體樹中廣泛枚舉。

這些限制要求通用且連貫的感知表示,該感知表示可以對本體樹中和本體樹外的目標(biāo)的詳細(xì)幾何結(jié)構(gòu)和語義進(jìn)行建模。作者認(rèn)為,了解3D空間中每個(gè)體素的占用狀態(tài)對于實(shí)現(xiàn)這一目標(biāo)很重要。移動(dòng)自動(dòng)駕駛中估計(jì)占用狀態(tài)的一項(xiàng)經(jīng)典任務(wù)是占用網(wǎng)格圖(OGM)。OGM在一段時(shí)間內(nèi)聚集range測量(如激光雷達(dá)掃描),并在貝葉斯框架內(nèi)估計(jì)每個(gè)體素被占用的概率。然而,這種解決方案假設(shè)了靜態(tài)環(huán)境,不適用于視覺輸入。

在這項(xiàng)工作中,作者為基于視覺的自動(dòng)駕駛感知定義了一個(gè)全面的3D場景理解任務(wù),稱為3D占用預(yù)測。3D占用預(yù)測聯(lián)合估計(jì)多視圖圖像中場景中每個(gè)體素的占用狀態(tài)和語義標(biāo)簽。每個(gè)體素的占用狀態(tài)可以是空閑的、占用的或未觀察到的。在3D占有率預(yù)測中,為體素提供未觀察到的標(biāo)簽至關(guān)重要,以考慮可見性并排除未觀測到的體素。對占用的體素估計(jì)語義標(biāo)簽。對于數(shù)據(jù)集中具有預(yù)定義類別的目標(biāo),它們的語義標(biāo)簽對應(yīng)于各自的類別。相反,未分類的目標(biāo)被標(biāo)注為常規(guī)目標(biāo)(GOs)。盡管GOs很少被編碼,但出于安全考慮,它們對于自動(dòng)駕駛感知任務(wù)至關(guān)重要,因?yàn)樗鼈兺ǔ2粫?huì)被預(yù)定義類別的3D目標(biāo)檢測檢測到。

此外,作者為3D占用預(yù)測任務(wù)創(chuàng)建了一個(gè)標(biāo)簽生成pipeline,以生成場景的密集和可見性感知的真值。該pipeline由幾個(gè)步驟組成,如時(shí)間點(diǎn)云分離、動(dòng)態(tài)目標(biāo)變換、激光雷達(dá)能見度估計(jì)和相機(jī)能見度估計(jì)。通過利用自我姿態(tài)和目標(biāo)軌跡,點(diǎn)云聚合和動(dòng)態(tài)目標(biāo)變換增強(qiáng)了靜態(tài)場景的密度,并恢復(fù)了動(dòng)態(tài)目標(biāo)的詳細(xì)幾何結(jié)構(gòu)。此外,作者利用基于光線投射的方法來估計(jì)激光雷達(dá)和相機(jī)的可見性,因?yàn)榭梢娦詍ask對于評估3D占用預(yù)測任務(wù)至關(guān)重要。在公共Waymo開放數(shù)據(jù)集和nuScenes數(shù)據(jù)集的基礎(chǔ)上,作者相應(yīng)地為任務(wù)生成了兩個(gè)基準(zhǔn),Occ3D Waymo和Occ3D nuScenes。該任務(wù)采用了一系列以體素為中心的語義分割評價(jià)指標(biāo)。最后,作者開發(fā)了一個(gè)基于transformer的粗略到精細(xì)3D占用預(yù)測模型,命名為CTF-Occ。CTF-Occ通過交叉注意力操作以有效的從粗到細(xì)的方式將2D圖像特征聚集到3D空間中。

綜上所述,本文的貢獻(xiàn)如下:

  1. 作者提出了3D占用預(yù)測,這是一項(xiàng)用于基于視覺的自動(dòng)駕駛應(yīng)用的通用和全面的3D感知任務(wù)。占用預(yù)測可以有效地再現(xiàn)任何場景的語義和幾何結(jié)構(gòu)。

  2. 作者為occupancy預(yù)測開發(fā)了一個(gè)嚴(yán)格的標(biāo)簽生成pipeline,構(gòu)建了兩個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集(Occ3D Waymo和Occ3D nuScenes),并建立了一個(gè)基準(zhǔn)和評估指標(biāo),以促進(jìn)未來的研究。

  3. 作者提出了一種新的CTF-Occ網(wǎng)絡(luò),該網(wǎng)絡(luò)具有出色的占用預(yù)測性能。對于這項(xiàng)具有挑戰(zhàn)性的任務(wù),CTF-Occ在Occ3D-Waymo上的性能優(yōu)于基線3.1 mIoU.

相關(guān)工作

3D檢測: 3D目標(biāo)檢測的目標(biāo)是在預(yù)先定義的本體中估計(jì)目標(biāo)的位置和尺寸。3D目標(biāo)檢測通常在激光雷達(dá)點(diǎn)云中進(jìn)行。最近,基于視覺的3D目標(biāo)檢測由于其低成本和豐富的語義內(nèi)容而受到更多關(guān)注,此外領(lǐng)域內(nèi)還提出了幾種激光雷達(dá)相機(jī)融合方法。

3D占用預(yù)測:3D occpancy預(yù)測的一項(xiàng)相關(guān)任務(wù)是占用網(wǎng)格圖(OGM),這是移動(dòng)自動(dòng)駕駛中的一項(xiàng)經(jīng)典任務(wù),旨在從連續(xù)的噪聲范圍測量中生成概率圖。通常,自動(dòng)駕駛的姿態(tài)是已知的,并且這個(gè)建圖問題可以在貝葉斯框架內(nèi)解決。最近的一些工作進(jìn)一步將語義分割與OGM相結(jié)合,用于下游任務(wù)。請注意,OGM需要來自激光雷達(dá)和雷達(dá)等測距傳感器的測量,并且還假設(shè)場景隨著時(shí)間的推移是靜態(tài)的。作者提出的3D占用預(yù)測任務(wù)不具有這些約束,可以應(yīng)用于動(dòng)態(tài)場景中的純視覺自動(dòng)駕駛系統(tǒng)。一項(xiàng)并行工作TPVFormer提出了一種三視角視圖方法來預(yù)測3D占用率。然而,由于激光雷達(dá)的監(jiān)督,其輸出很少。

語義場景補(bǔ)全:另一項(xiàng)相關(guān)任務(wù)是語義場景補(bǔ)全(SSC),其目標(biāo)是從部分觀測中估計(jì)密集的語義空間。SSC與3D占用預(yù)測在兩個(gè)方面有所不同:

  1. SSC專注于通過給定可見部分推斷遮擋區(qū)域,而占用預(yù)測并不去估計(jì)不可見區(qū)域;

  2. SSC通常適用于靜態(tài)場景,而占用預(yù)測適用于動(dòng)態(tài)場景。

3D占用預(yù)測任務(wù)定義

給定傳感器輸入序列,3D occpancy預(yù)測的目標(biāo)是估計(jì)3D場景中每個(gè)體素的狀態(tài)。具體地,任務(wù)的輸入是N個(gè)環(huán)視圖相機(jī)圖像的T幀歷史序列,其中i=1......N和t=1.......T。

作者還假設(shè)每個(gè)幀中已知的傳感器固有參數(shù)和外在參數(shù){[R_i| t_i]} 。任務(wù)的預(yù)期輸出是每個(gè)體素的狀態(tài),包括占用(“已占用”、“空”)和語義(類別或“未知”)。例如,車輛上的體素標(biāo)注為(“已占用”、“車輛”),自由空間中的體素則標(biāo)注為(“空”、“無”)。注意,3D占用預(yù)測框架還支持額外的屬性作為輸出,例如實(shí)例ID和運(yùn)動(dòng)向量;作者把它們作為未來的工作。

處理一般目標(biāo)

3D語義模糊預(yù)測任務(wù)的主要優(yōu)勢之一是有可能處理GOs或未知目標(biāo)。與預(yù)先定義所有目標(biāo)類別的3D目標(biāo)檢測不同,3D占用預(yù)測使用占用網(wǎng)格和語義來處理任意目標(biāo)。目標(biāo)的幾何形狀通常由體素表示,包括標(biāo)注為(“已占用”、“未知”)的詞匯表外目標(biāo)。這種表示和檢測通用目標(biāo)的能力使任務(wù)更具通用性,更適合自動(dòng)駕駛感知。

評估度量

mIoU:由于3D體素級占用預(yù)測任務(wù)與2D像素級語義分割任務(wù)具有相似性,作者使用mIoU來評估模型的性能:

圖片

其中分別表示類別c的真正例、假正例和假反例預(yù)測。由于強(qiáng)調(diào)以視覺為中心的任務(wù),在實(shí)踐中,許多真值體素在圖像中是不可見的。因此,作者只計(jì)算圖像中可見區(qū)域的mIoU。

Occ3D數(shù)據(jù)集數(shù)據(jù)集構(gòu)建pipeline

為3D場景獲取密集的體素級別標(biāo)注可能具有挑戰(zhàn)性且不切實(shí)際。為了解決這一問題,作者提出了一種半自動(dòng)標(biāo)簽生成pipeline,該pipeline利用現(xiàn)有的標(biāo)注3D感知數(shù)據(jù)集。首先,作者依次聚合來自多個(gè)幀的點(diǎn)。然后,作者對加密的點(diǎn)云進(jìn)行體素化。最后,作者根據(jù)它們的可見性來識別體素類型。

數(shù)據(jù)準(zhǔn)備:標(biāo)簽生成pipeline(如下圖2所示)需要一個(gè)3D數(shù)據(jù)集,其中每個(gè)場景都包含以下傳感器數(shù)據(jù):

  1. (多視圖)相機(jī)圖像序列;

  2. 3D激光雷達(dá)點(diǎn)云序列;

  3. 來自IMU的3D姿勢序列。

所有相機(jī)和激光雷達(dá)的內(nèi)參和外參也是坐標(biāo)轉(zhuǎn)換和投影所必需的。此外,作者需要常見目標(biāo)的人工標(biāo)注框級語義標(biāo)簽,以及可選的點(diǎn)級語義標(biāo)簽。

圖片

點(diǎn)云聚合:稀疏激光雷達(dá)觀測的3D重建是實(shí)時(shí)定位和建圖(SLAM)[10]中的經(jīng)典問題。給定一系列激光雷達(dá)點(diǎn)云和每幀的IMU姿態(tài)測量,作者可以聯(lián)合優(yōu)化自我姿態(tài),并將點(diǎn)云聚合到一個(gè)統(tǒng)一的世界坐標(biāo)系中。然而,動(dòng)態(tài)目標(biāo)在時(shí)間聚集之后會(huì)出現(xiàn)運(yùn)動(dòng)模糊。因此,作者分別處理動(dòng)態(tài)目標(biāo)和靜態(tài)目標(biāo)。根據(jù)每個(gè)幀處的邊界框標(biāo)注和不同幀之間的自我姿態(tài),對動(dòng)態(tài)目標(biāo)的點(diǎn)進(jìn)行轉(zhuǎn)換和聚合。對于靜態(tài)目標(biāo)的點(diǎn),作者只是根據(jù)自我姿態(tài)來聚合它們。

由于標(biāo)注序列的每一幀都很耗時(shí),因此一些現(xiàn)有的數(shù)據(jù)集僅在關(guān)鍵幀處進(jìn)行標(biāo)注,例如,nuScenes以10Hz的頻率捕獲,但以2Hz的頻率進(jìn)行標(biāo)注。因此,作者在執(zhí)行上述動(dòng)態(tài)點(diǎn)聚合之前,對帶標(biāo)注的目標(biāo)框序列進(jìn)行時(shí)間插值,以自動(dòng)標(biāo)注未帶標(biāo)注的幀。關(guān)于未標(biāo)注的幀中沒有被邊界框的點(diǎn),它們很可能是靜態(tài)背景。因此,作者使用K-最近鄰進(jìn)行投票,以確定它們的語義標(biāo)簽。通過這種方式,作者獲得了密集標(biāo)注的前景動(dòng)態(tài)目標(biāo)實(shí)例和背景靜態(tài)點(diǎn)云。

激光雷達(dá)能見度:為了從聚合的激光雷達(dá)點(diǎn)云中獲得密集而規(guī)則的3D occpancy網(wǎng)格,一種直接的方法是將包含點(diǎn)的體素設(shè)置為“占用”,其余設(shè)置為“空”。然而,由于激光雷達(dá)點(diǎn)是稀疏的,一些被占用的體素不會(huì)被激光雷達(dá)光束掃描,并且可能被錯(cuò)誤地標(biāo)注為“空”。為了避免這個(gè)問題,作者執(zhí)行光線投射操作來確定每個(gè)體素的可見性。具體來說,作者將每個(gè)激光雷達(dá)點(diǎn)與傳感器原點(diǎn)連接以形成射線,如果體素反射激光雷達(dá)點(diǎn)(“占用”)或被射線穿透(“空”),則體素是可見的;否則,它被標(biāo)注為“未觀察到”。通過這種方式,作者產(chǎn)生了一個(gè)體素級別的激光雷達(dá)可見性mask。

遮擋推理和相機(jī)可見性:由于專注于以視覺為中心的任務(wù),作者進(jìn)一步提出了一種遮擋推理算法,并生成了一個(gè)相機(jī)可見性mask,指示在當(dāng)前的多相機(jī)視圖中是否觀察到每個(gè)體素。具體地說,對于每個(gè)相機(jī)視圖,作者將每個(gè)占用的體素中心與相機(jī)中心連接起來,并形成一條射線。沿著每條射線,將第一個(gè)被占用的體素之前的體素(包括第一個(gè)被占據(jù)的體素)設(shè)置為“觀察到的”,將其余的體素設(shè)置為“未觀測到的”。未被任何相機(jī)射線掃描的體素也被標(biāo)注為“未觀察到”。如下圖3所示,在累積激光雷達(dá)視圖中觀察到白色體素但在當(dāng)前相機(jī)視圖中未觀察到。

圖片

請注意,激光雷達(dá)能見度mask和相機(jī)能見度mask可能因兩個(gè)原因而不同:

(1)激光雷達(dá)和相機(jī)的安裝位置不同;

(2) 激光雷達(dá)的能見度在整個(gè)序列中是一致的,而相機(jī)的能見度在每個(gè)時(shí)間戳都不同。

確定體素的可見性對于評估3D占用預(yù)測任務(wù)很重要:評估僅在激光雷達(dá)和相機(jī)視圖中對“觀察到的”體素進(jìn)行。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉