利用稀疏的語義視覺特征進行道路建圖和定位(ICRA2021)（1）

發(fā)布人：計算機視覺工坊時間：2021-09-14 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

Road Mapping and Localization using Sparse Semantic Visual Features

Cheng W, Yang S, Zhou M, et al. Road Mapping and Localization using Sparse Semantic Visual Features[J]. IEEE Robotics and Automation Letters, 2021. ICRA2021

單位：阿里巴巴

針對問題：

輕量級語義地圖構建及定位。

提出方法：

文章采用了一種類似于關鍵點檢測的方法，對典型路標進行典型關鍵點提?。粚μ囟窐嗽O計了不同的參數(shù)模型進行幀間優(yōu)化，相較于無優(yōu)化的點云疊加方式，該方法構建了特征間的數(shù)據(jù)關聯(lián)，用于里程計自身的位姿估計同時也進行更精確的路標地圖構建。

達到效果：

實現(xiàn)了KAIST數(shù)據(jù)集以及作者采集的數(shù)據(jù)集大場景范圍內(nèi)精確建圖及定位。

存在問題：

文章所構建的定位模塊在實現(xiàn)定位時采用GPS提供定位初值，再進行局部精搜索并使用PnP進行定位的策略，該方法在GPS信號較好且跳變較小時能實現(xiàn)較好效果，但在GPS-denied的場景使用受限，也許可以考慮結合HF-Net的方式進行初始定位。

Abstract

我們提出了一種新的方法，通過提取、建模和優(yōu)化語義道路元素來實現(xiàn)自主車輛的視覺建圖和定位。具體來說，我們的方法整合了級聯(lián)深度模型來檢測標準化的道路元素，而不是傳統(tǒng)的點特征，以尋求提高位姿的準確性和地圖表示的緊湊性。為了利用結構特征，我們通過其代表性的深層關鍵點為骨架和邊界建立路燈和標志的模型，并通過piecewise cubic splines進行車道參數(shù)化。基于道路語義特征，我們建立了一個完整的建圖和定位流程，其中包括a）圖像處理前端，b）傳感器融合策略，以及c）優(yōu)化后端。在公共數(shù)據(jù)集和我們的測試平臺上進行的實驗證明了我們的方法的有效性和優(yōu)勢，其表現(xiàn)優(yōu)于傳統(tǒng)方法。

Main Contributions

一個卷積神經(jīng)網(wǎng)絡（CNN）支持的圖像處理前端，以提取語義特征。

道路元素的參數(shù)化和損失函數(shù)的設計方法。

語義優(yōu)化模塊，可用于離線測繪和在線定位。

我們注意到，存在與我們的方法在概念上相似的方法，通過分割道路圖像和選擇穩(wěn)定區(qū)域的點。然而，穩(wěn)定語義區(qū)域中的點特征不一定是穩(wěn)定和緊湊的，而且高水平的信息，例如曲線，也沒有被利用。相比之下，我們的方法利用了多源語義信息，提供了更緊湊的表示，達到了更好的 "持久性 "和 "緊湊性"。

System Overview

我們的地圖和定位系統(tǒng)的骨干是一個緊密耦合的狀態(tài)優(yōu)化框架，具有批量和滑動窗口策略。具體來說，我們的算法提出在離線情況下建立基于標準化道路實例的語義地圖，并利用這種地圖進行在線定位。所涉及的語義實例包括三種主要類型：水平物體、地面物體和車道。給予一個關鍵幀，感知模塊執(zhí)行級聯(lián)深度檢測，以提取實例和它們的代表點作為視覺特征.

在離線建圖過程中，感知模塊對每個關鍵幀都要執(zhí)行。然后，對連續(xù)關鍵幀之間的檢測結果進行跟蹤，以建立多視角關聯(lián)，共同估計相機軌跡和地標位置。隨后，在以前訪問過的路段上重新觀察到的實例被重新識別，并通過循環(huán)檢測進行合并。最后，這些優(yōu)化的狀態(tài)被序列化為地圖資產(chǎn)用于定位。在在線地圖輔助定位過程中，感知模塊以較低的頻率運行，以實現(xiàn)對計算單元的低成本消耗。因此，語義特征是通過混合檢測和跟蹤策略獲得。這些特征與保存的地圖相匹配，并由一個基于滑動窗口優(yōu)化的測距系統(tǒng)使用，以減少全局漂移。

Selection of Road Features

考慮到地圖的稀疏化和查詢的有效性，城市道路上的以下標準化目標適合作為語義地標來檢測：1）道路旁邊電線桿頂部的燈和交通標志足夠穩(wěn)定和高，可以被前置攝像頭捕捉。2）雖然有時會被車輛遮擋，但地面區(qū)域幾乎占據(jù)了每張圖像的一半，這使得那些涂在地面上的高對比度標志無法被忽略。3）與地面標志類似，涂有實線和虛線的車道也經(jīng)常被觀察到。實線車道提供了一個方向的運動約束，虛線車道的拐角可以被視為索引點地標。在這項工作中，我們選擇上述語義類型作為目標對象，以建立我們的語義地圖。

Detection of Road Features

我們的兩階段級聯(lián)檢測模塊首先進行實例級檢測，以獲得實例作為盒子（即桿和地面）物體上的索引代表像素和車道輪廓上的樣本像素。然后，沿著這些檢測到的虛線車道，我們評估64×64的圖像補丁，以級聯(lián)檢測有索引的虛線車道角。為了減少對特征提取等可共享過程的重復計算，我們參考了無錨檢測方法CenterNet，該方法將低級特征提取過程與頂級頭像分離，以使這些頭像能夠適應不同的任務。

Feature Tracking for Semantic Entities

我們使用匈牙利匹配策略，在像素空間中以實例和像素的方式關聯(lián)地面特征：1）在實例關聯(lián)期間，我們計算交叉聯(lián)合(IoU),對于常規(guī)物體的多邊形和對于車道的5.0像素寬度的折線。2）在像素方面的關聯(lián)中，我們計算其索引關鍵點的重投像素距離。IoU百分比<50%和像素距離>5.0的匹配被忽略。

對于在垂直物體（如電線桿）中檢測到的關鍵點，我們使用光流方法進行幀間跟蹤。在特征跟蹤過程中，我們保留了由GFTT提取器和FREAK描述器提取、描述和跟蹤的經(jīng)典關鍵點，因為它們不僅是視覺-慣性測距的一部分，而且是值得納入結構化物體的穩(wěn)定跟蹤的點特征。與輸出掩碼的分割不同，檢測到的二維方框可能包含來自背景區(qū)域的GFTT特征關鍵點，特別是在極點實例中。因此，在II-F節(jié)討論的狀態(tài)初始化過程中，我們對這些背景特征關鍵點進行了離群剔除。

Representation and Initialization of Road Lanes