IJCAI2023|PowerBEV：一個(gè)強(qiáng)大且輕量的環(huán)視圖像BEV實(shí)例預(yù)測(cè)框架

發(fā)布人：計(jì)算機(jī)視覺(jué)工坊時(shí)間：2023-06-23 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

發(fā)布文章

作者：王能 | 來(lái)源：3D視覺(jué)工坊

論文：PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction in Bird’s-Eye View

論文中稿CCF-A類(lèi)人工智能?chē)?guó)際頂會(huì)IJCAI 2023

論文地址：https://arxiv.org/abs/2306.10761

代碼地址：https://github.com/EdwardLeeLPZ/PowerBEV

作者名單：Peizheng Li, Shuxiao Ding, Xieyuanli Chen, Niklas Hanselmann, Marius Cordts, Jürgen Gall

作者單位：德國(guó)梅賽德斯奔馳公司，波恩大學(xué), 圖賓根大學(xué)

摘要

準(zhǔn)確地感知物體實(shí)例并預(yù)測(cè)它們未來(lái)的運(yùn)動(dòng)是自動(dòng)駕駛車(chē)輛的關(guān)鍵任務(wù)，使它們能夠在復(fù)雜的城市交通中安全導(dǎo)航。雖然鳥(niǎo)瞰圖（BEV）表示在自動(dòng)駕駛感知中是常見(jiàn)的，但它們?cè)谶\(yùn)動(dòng)預(yù)測(cè)中的潛力尚未得到充分探索?，F(xiàn)有的從環(huán)繞攝像頭進(jìn)行BEV實(shí)例預(yù)測(cè)的方法依賴(lài)于多任務(wù)自回歸設(shè)置以及復(fù)雜的后處理，以便以時(shí)空一致的方式預(yù)測(cè)未來(lái)的實(shí)例。在本文中，我們不同于這中范例，提出了一個(gè)名為PowerBEV的高效新型端到端框架，采用了幾種旨在減少先前方法中固有冗余的設(shè)計(jì)選擇。首先，與其按自回歸方式預(yù)測(cè)未來(lái)，PowerBEV采用了由輕量級(jí)2D卷積網(wǎng)絡(luò)構(gòu)建的并行多尺度模塊。其次，我們證明，分割和向心反向流對(duì)于預(yù)測(cè)是足夠的，通過(guò)消除冗余輸出形式簡(jiǎn)化了先前的多任務(wù)目標(biāo)?；诖溯敵霰硎?，我們提出了一種簡(jiǎn)單的基于流變形的后處理方法，可在時(shí)間上產(chǎn)生更穩(wěn)定的實(shí)例關(guān)聯(lián)。通過(guò)這種輕量化但強(qiáng)大的設(shè)計(jì)，PowerBEV在NuScenes數(shù)據(jù)集上勝過(guò)了最先進(jìn)的方法，并為BEV實(shí)例預(yù)測(cè)提供了一種替代范例。項(xiàng)目代碼已經(jīng)開(kāi)源：https://github.com/EdwardLeeLPZ/PowerBEV

主要貢獻(xiàn)

我們提出了PowerBEV，一個(gè)新穎而優(yōu)雅的基于視覺(jué)的端到端框架，它只由2D卷積層組成，用于在BEV中執(zhí)行多個(gè)對(duì)象的感知和預(yù)測(cè)。
我們證明，由于冗余表示引起的過(guò)度監(jiān)督會(huì)影響模型的預(yù)測(cè)能力。相比之下，我們的方法通過(guò)簡(jiǎn)單地預(yù)測(cè)分割和向心反向流來(lái)實(shí)現(xiàn)語(yǔ)義和實(shí)例級(jí)別的代理預(yù)測(cè)。
我們提出的基于向心反向流的提議分配優(yōu)于以前的前向流結(jié)合傳統(tǒng)的匈牙利匹配算法。

主要方法

我們的方法的框架如圖1所示。它主要由三個(gè)部分組成：感知模塊、預(yù)測(cè)模塊和后處理階段。感知模塊將M個(gè)多視角相機(jī)圖像作為個(gè)時(shí)間戳的輸入，并將他們轉(zhuǎn)換為個(gè)BEV特征圖。然后，預(yù)測(cè)模塊融合提取的BEV特征中包含的時(shí)空信息，并同時(shí)預(yù)測(cè)一系列分割地圖和向心反向流，用于未來(lái)幀。最后，通過(guò)基于變形的后處理。從預(yù)測(cè)的分割和流中恢復(fù)未來(lái)的實(shí)例預(yù)測(cè)。

圖1：PowerBEV的框架

1、基于LSS的感知模塊

為了獲取用于預(yù)測(cè)的視覺(jué)特征，我們遵循之前的工作，并在LSS的基礎(chǔ)上建立起從環(huán)繞攝像機(jī)中提取BEV特征網(wǎng)格。對(duì)于每個(gè)時(shí)間t的每個(gè)相機(jī)圖像，我們應(yīng)用共享的EfficientNet網(wǎng)絡(luò)來(lái)提取****特征，其中我們將的前個(gè)通道指定為上下文特征,后面的個(gè)通道表示分類(lèi)深度分布。通過(guò)外積構(gòu)造一個(gè)三維特征張量。

其中，根據(jù)估計(jì)的深度分布置信度將上下文特征提升到不同的深度中。然后，每個(gè)時(shí)間戳的每個(gè)相機(jī)特征分布映射基于對(duì)應(yīng)相機(jī)的已知內(nèi)部參數(shù)和外部參數(shù)被投影到以車(chē)輛為中心的坐標(biāo)系中。隨后，它們沿著高度維度加權(quán)，以獲得時(shí)間戳t處的全局BEV狀態(tài)，其中是狀態(tài)通道數(shù)量，(H，W)是BEV狀態(tài)地圖的網(wǎng)格大小。最后，所有的BEV狀態(tài)合并到當(dāng)前幀中，并像FIERY一樣堆疊，因此這追蹤表示是獨(dú)立于自車(chē)位置的當(dāng)前全局動(dòng)態(tài)。

2、多尺度預(yù)測(cè)模塊

圖2：多尺度預(yù)測(cè)模塊的結(jié)構(gòu)

獲得過(guò)去環(huán)境的簡(jiǎn)潔表示S后，我們使用一個(gè)多尺度U-Net類(lèi)編碼器****架構(gòu)，將觀察到的BEV特征圖作為輸入，并預(yù)測(cè)未來(lái)的分割地圖和向心反向流場(chǎng)，如圖2所示。為了僅使用2D卷積進(jìn)行時(shí)空特征處理，我們將時(shí)間和特征維度折疊成一個(gè)單一的維度，從而得到輸入張量。編碼器首先逐步在空間上對(duì)進(jìn)行下采樣，生成多尺度BEV特征，其中。在一個(gè)中間的預(yù)測(cè)器階段，將特征從映射到，獲取。最后，****鏡像編碼器，在原始尺度上重建出未來(lái)的BEV特征。每個(gè)分支分別被監(jiān)督以預(yù)測(cè)未來(lái)的分割地圖或向心反向流場(chǎng)。考慮到任務(wù)和監(jiān)督的差異，我們?yōu)槊總€(gè)分支使用相同的架構(gòu)但不共享權(quán)重。與以前基于空間LSTM或空間GRU的工作相比，我們的架構(gòu)只利用2D卷積，在解決長(zhǎng)程時(shí)間依賴(lài)性方面大大緩解了空間RNN的限制。

3、多任務(wù)的設(shè)置

現(xiàn)有的方法遵循自下而上的原則，為每個(gè)幀生成實(shí)例分割，然后根據(jù)前向流使用匈牙利匹配算法在幀之間關(guān)聯(lián)實(shí)例。因此，需要四個(gè)不同的頭部：語(yǔ)義分割、中心性、未來(lái)前向流和BEV中的每像素向心偏移。這導(dǎo)致由于多任務(wù)訓(xùn)練而產(chǎn)生模型冗余和不穩(wěn)定性。相比之下，我們首先發(fā)現(xiàn)，流和向心偏移都是實(shí)例掩模內(nèi)的回歸任務(wù)，并且流可以理解為運(yùn)動(dòng)偏移量。此外，這兩個(gè)量與中心性在兩個(gè)階段中組合：（1）向心偏移將像素分組到每個(gè)幀中預(yù)測(cè)的實(shí)例中心，以將像素分配給實(shí)例ID；（2）流用于匹配兩個(gè)連續(xù)幀中的中心以進(jìn)行實(shí)例ID關(guān)聯(lián)。基于以上分析，使用統(tǒng)一表示形式直觀地解決這兩個(gè)任務(wù)。為此，我們提出了向心反向流場(chǎng)，它是從時(shí)間t處的每個(gè)前景像素到時(shí)間t?1處關(guān)聯(lián)實(shí)例標(biāo)識(shí)的對(duì)象中心的位移向量。這將像素到像素的反向流向量和向心偏移向量統(tǒng)一為單一表示形式。使用我們提出的流，可以直接將每個(gè)占用的像素關(guān)聯(lián)到上一幀中的實(shí)例ID。這消除了將像素分配給實(shí)例的額外聚類(lèi)步驟，將先前工作中使用的兩階段后處理簡(jiǎn)化為單階段關(guān)聯(lián)任務(wù)。此外，我們發(fā)現(xiàn)語(yǔ)義分割地圖和中心性的預(yù)測(cè)非常相似，因?yàn)橹行幕緦?duì)應(yīng)于語(yǔ)義實(shí)例的中心位置。因此，我們建議直接從預(yù)測(cè)的分割地圖中提取局部最大值來(lái)推斷對(duì)象中心。這消除了分別預(yù)測(cè)中心的需要，如圖3所示。

圖3：多任務(wù)設(shè)置

總的來(lái)說(shuō)，我們的網(wǎng)絡(luò)僅僅產(chǎn)生兩個(gè)輸出，語(yǔ)義分割和向心反向流。我們使用top-k，k=25%的交叉熵作為語(yǔ)義分割損失函數(shù)，平滑的L1距離作為流動(dòng)損失函數(shù)?？偟膿p失函數(shù)為。

，和使用不確定性權(quán)重自動(dòng)的更新。

4、實(shí)例關(guān)聯(lián)

圖4：實(shí)例關(guān)聯(lián)

對(duì)于實(shí)例預(yù)測(cè)，我們需要隨著時(shí)間推移將未來(lái)的實(shí)例相互關(guān)聯(lián)。現(xiàn)有的方法使用前向流將實(shí)例中心投影到下一幀，然后使用匈牙利匹配將最近的代理中心進(jìn)行匹配，如圖4.a所示。這種方法執(zhí)行實(shí)例級(jí)別的關(guān)聯(lián)，其中實(shí)例身份由其中心表示。因此，僅使用位于對(duì)象中心上的流向量用于運(yùn)動(dòng)預(yù)測(cè)。這有兩個(gè)缺點(diǎn)：首先，沒(méi)有考慮對(duì)象旋轉(zhuǎn)；其次，單個(gè)位移向量比覆蓋整個(gè)實(shí)例的多個(gè)位移向量更容易出錯(cuò)。在實(shí)踐中，這可能導(dǎo)致重疊的預(yù)測(cè)實(shí)例，導(dǎo)致錯(cuò)誤的ID分配。這在長(zhǎng)期預(yù)測(cè)范圍內(nèi)的近距離物體上尤為明顯。利用我們提出的向心反向流，我們進(jìn)一步提出了基于變形的像素級(jí)關(guān)聯(lián)來(lái)解決上述問(wèn)題。我們的關(guān)聯(lián)方法的說(shuō)明如圖4.b所示。對(duì)于每個(gè)前景網(wǎng)格單元，該操作將實(shí)例ID直接從前一個(gè)幀中流向量目標(biāo)處的像素傳播到當(dāng)前幀。使用此方法，每個(gè)像素的實(shí)例ID都被單獨(dú)分配，從而產(chǎn)生像素級(jí)關(guān)聯(lián)。與實(shí)例級(jí)別關(guān)聯(lián)相比，我們的方法對(duì)嚴(yán)重的流預(yù)測(cè)錯(cuò)誤更具有容忍度，因?yàn)檎鎸?shí)中心周?chē)南噜従W(wǎng)格單元傾向于共享相同的身份，而錯(cuò)誤往往發(fā)生在單個(gè)外圍像素上。此外，通過(guò)使用向后流變形，可以將多個(gè)未來(lái)位置與前一幀中的一個(gè)像素關(guān)聯(lián)起來(lái)。這對(duì)于多模式未來(lái)預(yù)測(cè)是有益的。正如所述，向后關(guān)聯(lián)需要在前一幀中的實(shí)例ID。特殊情況是第一個(gè)幀（t = 0）的實(shí)例分割生成，其沒(méi)有其前一幀（t = -1）的實(shí)例信息可用。因此，僅針對(duì)時(shí)間戳t = 0，我們通過(guò)將像素分組到過(guò)去實(shí)例中心來(lái)分配實(shí)例ID。

主要結(jié)果

我們首先將我們的方法與其他baseline相比較，結(jié)果如表1所示。我們的方法在感知范圍設(shè)置下的評(píng)估指標(biāo)IoU（Intersection-over-Union）和VPQ（video panoptic quality）均取得了顯著的改進(jìn)。在長(zhǎng)距離設(shè)置中，PowerBEV的表現(xiàn)優(yōu)于重新生成的FIERY，在IoU方面提高了1.1％，在VPQ方面提高了2.9％。此外，盡管使用較低的輸入圖像分辨率和更少的參數(shù)，PowerBEV在所有指標(biāo)上的表現(xiàn)都優(yōu)于BEVerse。與其他引入模型隨機(jī)過(guò)程的方法相比，PowerBEV是一種確定性方法，能夠?qū)崿F(xiàn)準(zhǔn)確的預(yù)測(cè)。這也展示了反向流在捕捉多模態(tài)未來(lái)方面的能力。

圖5：定量評(píng)估解決

下圖展示了我們方法的定性結(jié)果。我們展示了在三種典型駕駛場(chǎng)景中（城市道路上交通密集的情況、停車(chē)場(chǎng)中靜態(tài)車(chē)輛眾多的情況和雨天駕駛場(chǎng)景）與FIERY的比較。我們的方法為最常見(jiàn)的交通密集場(chǎng)景提供了更精確、更可靠的軌跡預(yù)測(cè)，這在第一個(gè)例子中變得特別明顯，其中車(chē)輛轉(zhuǎn)向自車(chē)左側(cè)的側(cè)街。而FIERY只對(duì)車(chē)輛位置作出了一些模糊的猜測(cè)，并且難以處理它們的動(dòng)態(tài)特征，與之相反，我們的方法提供了更好地匹配真實(shí)車(chē)輛形狀以及未來(lái)可能軌跡的清晰物體邊界。此外，從第二個(gè)例子的比較中可以看出，我們的框架可以檢測(cè)到位于較遠(yuǎn)距離的車(chē)輛，而FIERY則失敗了。此外，我們的方法還可以檢測(cè)到在雨天場(chǎng)景中被墻壁遮擋的卡車(chē)，即使對(duì)于人眼來(lái)說(shuō)也很難發(fā)現(xiàn)。

圖6：可視化對(duì)比結(jié)果

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

IJCAI2023|PowerBEV：一個(gè)強(qiáng)大且輕量的環(huán)視圖像BEV實(shí)例預(yù)測(cè)框架

相關(guān)推薦

技術(shù)專(zhuān)區(qū)