CVPR2023 l 自動駕駛中統(tǒng)一感知和預測的隱式占位流場新范式!
自動駕駛車輛必須能夠感知周圍環(huán)境并預測其他交通參與者的未來行為?,F(xiàn)有的研究要么進行目標檢測,然后對檢測到的目標進行軌跡預測,要么對整個場景進行密集的占位和流格預測。前者存在安全問題,因為為了提高效率,需要保持較低的檢測數(shù)量,從而犧牲了目標的回收率。后者由于輸出格的高維度和完全卷積網(wǎng)絡固有的有限感受野而計算成本高。此外,這兩種方法都利用了許多計算資源來預測可能永遠不會被運動規(guī)劃器查詢的區(qū)域或對象。
本文介紹了一種統(tǒng)一的感知和預測方法:通過單個神經(jīng)網(wǎng)絡隱式地表示占位和流格隨時間變化。該方法避免了不必要的計算,因為運動規(guī)劃器可以直接在連續(xù)的時空位置查詢它。此外,論文作者設計了一種架構,通過添加高效而有效的全局注意機制,克服了先前明確的占位預測方法的有限感受野。通過在城市和高速公路環(huán)境中進行大量實驗,論文作者證明了他們的隱式模型優(yōu)于當前的最先進技術。
2 算法介紹2.1 基礎概念補充——隱式幾何重建:幾何重建是指在給定某個不完整表示(如圖像、LiDAR、體素)的情況下,預測對象的三維形狀的任務。隱式神經(jīng)幾何重建方法已被證明優(yōu)于顯式對應方法,后者將三維形狀表示為網(wǎng)格、點集、體素或網(wǎng)格。相反,隱式方法訓練一個神經(jīng)網(wǎng)絡來預測一個連續(xù)場,為3D空間中的每個點分配一個值,以便從等值面中提取出形狀。具體而言,該網(wǎng)絡可以預測3D空間中的非線性二值占位,或者是到表面的有符號距離函數(shù)。論文作者則將它們應用在自動駕駛的感知和預測任務中的。
2.2 任務參數(shù)化輸入?yún)?shù)化:模型接受體素化的LiDAR表示()和高清地圖的光柵()作為輸入。對于LiDAR,設作為最近 次掃描的序列更準確地說,是在時間步長t '結束的LiDAR掃描,其中包含Pt '個點,每個點由三個特征描述:(,,)。和是點相對于當前時間步長下的SDV參考框架的位置,該參考框架以SDV的當前位置為中心并且x軸沿著其行進方向。表示點相對于地面的高度。最后,,采用多次掃描鳥瞰圖體素化方法,沿著BEV平面法線方向分為D個深度通道,高度像素為H,寬度像素為W。對于光柵地圖,將高清地圖中表示車道中心線的多段線C進行光柵化,生成具有相同的空間維度的單通道光柵圖。輸出參數(shù)化:設為BEV中的一個時空點,在未來的時間t。這項工作是預測占位概率和流向量,指定占據(jù)該位置的任何車輛在BEV中的運動。采用反向流來建模流向量f,因為它可以用單個反向流向量來捕捉多模態(tài)的前向運動。更具體地,反向流描述了時間t和位置(x, y)處的運動,它是該位置從到的平移向量,如果該位置有一個對象占據(jù),則為:
其中,(,)表示時間時占據(jù)()點在t時的BEV位置。
2.3 網(wǎng)絡架構作者使用一個多頭神經(jīng)網(wǎng)絡ψ來參數(shù)化預測的占位概率和流向量。該網(wǎng)絡以體素化的LiDAR數(shù)據(jù)、光柵地圖和一個包含個時空查詢點的小批量作為輸入,并行估計小批量的占位概率和流向量:
其中,網(wǎng)絡ψ分為卷積編碼器和隱式****兩部分,用于計算場景特征并輸出占位概率和流向量的估計結果,如下圖所示。
編碼器由兩個處理BEV LiDAR和地圖光柵的卷積模塊組成,一個接收LiDAR和地圖光柵特征拼接的ResNet 輸出多分辨率特征平面,以及一個輕量級特征金字塔網(wǎng)絡(FPN)來處理這些特征平面。這樣就得到了一個分辨率為輸入的一半的BEV特征圖,其中包含了場景的幾何、語義和運動等上下文特征。值得注意的是,特征圖中的每個空間位置(特征向量)都包含了關于其鄰域(編碼器的感受野大?。┑目臻g信息,以及過去秒的時間信息。換句話說,Z中的每個特征向量可能包含關于運動、局部道路幾何和鄰近車輛的重要線索。
作者設計了一個隱式占位概率和流向量****,靈感來自于這樣的直覺:查詢點的占位概率可能是由于一個在時間t之前以快速速度移動的遠處物體引起的。因此,我們希望利用時空查詢位置周圍的局部特征來指示接下來應該觀察的區(qū)域。例如,關于一個對象的特征可能在其原始位置周圍(在時間{)}更具表達力,因為那里有LiDAR的證據(jù)。與在時間t占據(jù)查詢點的對象可能發(fā)生交互的鄰近交通參與者也是需要關注的(例如,前車、在相似時間到達合并點的另一輛車)。
為了實現(xiàn)這些直覺,作者首先使用雙線性插值在查詢BEV位置處對特征圖進行插值,得到包含查詢周圍局部信息的特征向量。然后,我們通過偏移初始查詢點來預測K個參考點,其中偏移量?q是通過使用基于全連接的ResNet架構計算得到的。對于所有的偏移量都獲得相應的特征。這可以看作是一種形變卷積的形式;它預測并添加2D偏移量到卷積的規(guī)則網(wǎng)格采樣位置,并在這些偏移位置進行特征向量的雙線性插值。為了聚合來自形變采樣位置的信息,我們使用了學習的線性投影的之間的交叉注意力。結果是聚合的特征向量z。有關該特征聚合過程的可視化。最后,將z和z_q與q進行拼接,然后通過另一個基于全連接的ResNet架構,帶有兩個線性層頭來預測占位概率和流向。
3 網(wǎng)絡分析- 在目標位置對進行插值操作;
- 使用該插值的特征向量來預測到特征圖中其他位置的K個注意力偏移;
- 在偏移位置處對Z進行插值以獲得更多的特征向量;
- 在所有插值的特征上執(zhí)行交叉關注以生成最終特征向量Z;
- 并使用Z來預測每個查詢點的占位率和流格。
本文介紹了一種針對自動駕駛的聯(lián)合感知和預測的統(tǒng)一方法,通過神經(jīng)網(wǎng)絡隱式地表示隨時間變化的占位和流格。這種可查詢的隱式表示能夠更有效、更高效地向下游的運動規(guī)劃器提供信息。
5 參考資料[1]Ben Agro, Quinlan Sykora, Sergio Casas, Raquel Urtasun. Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving.CVPR.2023. [2] https://zhuanlan.zhihu.com/p/552854503
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。