綜述 | 基于特征的視覺同步定位和建圖（3）

發(fā)布人：計算機視覺工坊時間：2022-04-10 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

3.4.1 基于低級和中級特征的方法

[28、52、67、138]中提出的系統(tǒng)采用低級和中級特征來實現(xiàn) SLAM 的目標。在某些環(huán)境中，例如走廊，平面 SLAM 變得不受約束。融合平面和點可以極大地增強 SLAM 在 [138] 中提出的環(huán)境中的魯棒性，其中使用彈出式 3D 模型在單目幀中檢測到的平面用于估計相機軌跡和 3D 地圖環(huán)境。在不同的幀中，平面是基于三個量的加權(quán)和關(guān)聯(lián)的：它們的法線之間的差異、它們之間的距離以及它們的投影之間的重疊。對于每個傳入的單目幀，計算 ORB 描述符并使用詞袋方法來檢測循環(huán)。在檢測到環(huán)路后，確定相應(yīng)的平面對并相應(yīng)地修改因子圖。在 [52] 中采用了不同的幾何基元和平面。使用圖公式的最小二乘優(yōu)化，其中涉及平面約束，用于解決 SLAM 問題。檢測到的點被限制在一個特定的平面上，由其在環(huán)境中的法線和相對于相機的深度參數(shù)化。環(huán)境中平面之間的角度也被視為約束。所有約束都耦合到成本函數(shù)中，從而解決了由此產(chǎn)生的非線性最小二乘問題。[67] 中提出了第三種變體，其中提出了基于平面和點的 RGB-D SLAM 方法。每個傳入的圖像被劃分為間隔，然后根據(jù)其中存在的平面進行標記。幀的方向是根據(jù)其中最主要的平面的方向估計的，而幀之間的平移是根據(jù)匹配的 SIFT 特征和 RANSAC 計算的。全局對齊和閉環(huán)是基于低級和中級特征的融合進行的，這有助于提高所提出方法的魯棒性。最近在 [144] 中提出了一種 RGB-D SLAM，其中利用點和平面來估計相機的姿勢和周圍環(huán)境的地圖。ORB 特征從 RGB 幀中提取并由 ORB-SLAM2 的 RGB-D 版本處理。另一方面，深度幀用于從場景中提取平面及其輪廓點。輪廓點用于在重建的地圖中構(gòu)建平面之間的空間和幾何約束。使用了一種新穎的平面數(shù)據(jù)關(guān)聯(lián)技術(shù)，其中使用兩個平面之間的角度來判斷它們是垂直還是平行，同時考慮到測量噪聲。如果觀察到的平面的點與地圖中的平面之間的距離低于特定閾值，則兩個平面匹配。與場景中出現(xiàn)的平面垂直的假想平面也被利用并視為姿勢估計過程中的其他觀察到的特征。通過 Levenberg-Marquardt 優(yōu)化器構(gòu)建和求解因子圖。所提出的平面數(shù)據(jù)關(guān)聯(lián)方法比考慮平面法線和/或平面距離的方法更穩(wěn)健，因為它考慮了不可避免的測量噪聲。超像素是中級特征，被視為在輸入幀中表現(xiàn)出相似強度的平面區(qū)域。使用超像素具有能夠重建紋理不佳的場景的優(yōu)勢。然而，這些特征沒有一個健壯的描述符，這使得很難在不同的圖像中匹配它們。在 [28] 中，提出了一種基于特征的單目 SLAM 方法，將超像素與 PTAM 相結(jié)合，其中 PTAM 關(guān)鍵幀被劃分為不規(guī)則大小的超像素。要估計的地圖狀態(tài)由所有關(guān)鍵幀的位姿、點特征的歐幾里得坐標和平面超像素的參數(shù)組成。兩個關(guān)鍵幀（其位姿已使用 PTAM 計算）用于初始化超像素。使用蒙特卡羅方法提取和匹配關(guān)鍵幀中的所有超像素。BA用于優(yōu)化相機和3D點的狀態(tài)，然后用于估計超像素的參數(shù)。在每個新的關(guān)鍵幀上，所有超像素被重新投影以搜索匹配。當(dāng)重投影誤差降至閾值以下時，匹配作為約束添加到優(yōu)化問題中。表4 基于混合特征的 SLAM 方法采用的實現(xiàn)選擇另一項利用點特征和平面區(qū)域融合的工作，在這種情況下表示為平方基準標記，在環(huán)境中可以在 [90] 中找到。除了由于使用點特征而實現(xiàn)的穩(wěn)健性之外，在該系統(tǒng)中使用基準標記還具有幾個優(yōu)點，例如消除尺度不確定性、在區(qū)分點特征可能具有挑戰(zhàn)性的重復(fù)環(huán)境中的穩(wěn)健性以及特征隨時間的不變性。3.4.2 基于低級和高級特征的方法基于在 [10, 26, 37, 48, 71, 105, 106、118、130]。這種方法在保持魯棒性的同時展示了高水平的表達能力。[48] 中提出的系統(tǒng)主要在單目 RGB 幀上進行跟蹤、對象識別和映射。表現(xiàn)出獨特的幾何和/或語義信息的幀被選為關(guān)鍵幀。在包含至少5個點對應(yīng)、最小視差角為 3° 且必須表現(xiàn)出可接受的幾何條件的多個幀中檢測到語義標記的對象后，將其添加到地圖中。為了區(qū)分場景中相同對象模型的實例，在給定地圖比例的情況下假設(shè)檢測到的實例在世界框架中的姿態(tài)，并計算與先前檢測到的實例的重疊。如果未檢測到重疊，則將新對象實例添加到地圖中。如果還不知道地圖的比例尺，則假定順序檢測到的對象屬于地圖中的同一對象實例。使用 k-d 樹搜索在測量值和對象模型之間建立對應(yīng)關(guān)系。為了更加穩(wěn)健，計算輸入圖像中的 ORB 特征并建立 2D-3D 對應(yīng)關(guān)系。幾何特征可以用于檢測場景中的對象，而不是獨立使用低級特征，如 [37] 中提出的，其中對象檢測和 SLAM 是使用一種新的 BA 公式（稱為語義 BA）針對 2D 和 3D 傳感器聯(lián)合完成的.在接收到新圖像后，將提取特征并將其與對象模型數(shù)據(jù)庫中的特征進行匹配。然后為與對象的每組對應(yīng)關(guān)系創(chuàng)建一個驗證圖。然后將特征與數(shù)據(jù)庫中的模型匹配的幀轉(zhuǎn)換為公共姿勢，相應(yīng)語義特征的成本是檢測到的特征的重投影誤差，該誤差由匹配的置信度加權(quán).在 3D 情況下，當(dāng)多次檢測到一個對象時，語義邊緣的成本函數(shù)包括將一個檢測到的特征重新投影到另一個特征中。特征與模型中的公共點匹配的幀被稱為具有由圖中的邊表示的虛擬匹配。出于一致性目的，將從 SLAM 獲得的幾何約束添加到圖中。生成的驗證圖經(jīng)過優(yōu)化以獲得所有約束的最小重投影誤差。在某些環(huán)境中，例如教育實體和醫(yī)院，每個房間都分配有一個唯一的標識符，該標識符可以作為 SLAM 系統(tǒng)中的地標，如 [106] 中所述。在消除與墻壁相對應(yīng)的點后，采用基于 SVM 分類器的門牌檢測器。門牌中包含的字符使用光學(xué)字符識別 (OCR) 進行識別。從激光數(shù)據(jù)中提取的線條以及來自門牌檢測器的測量值隨后被傳遞到映射器以映射環(huán)境。在 [118] 中，通用對象的觀察被用于擴展 RGB-D ORB-SLAM2。對象通過 k-d 樹被檢測、分割并與地圖中的地標相關(guān)聯(lián)。物體的姿態(tài)是使用 ORB-SLAM 確定的。檢測到的對象存儲有三條信息：對象的 RGB 點云、來自 ORB-SLAM 的姿態(tài)和累積的檢測置信度。類標簽是根據(jù)對象檢測的整個歷史確定的。通過基于最新的軌跡估計投影點云，可以顯式地構(gòu)建環(huán)境的稀疏地圖。最后，對象點作為歐幾里得坐標插入到 SLAM 狀態(tài)向量中，因此在后續(xù)幀中接收到新數(shù)據(jù)時會對其進行跟蹤和進一步細化。EKF-Monocular-SLAM、運動結(jié)構(gòu)（SfM）和視覺識別結(jié)合在[26]中提出的系統(tǒng)中，通過將圖像中的 SURF 點與數(shù)據(jù)庫中的對象模型相關(guān)聯(lián)來檢測對象。然后使用 RANSAC 對此類關(guān)聯(lián)進行幾何驗證。之后，PnP 算法或 DLT 算法分別用于計算非平面和平面模型的變換或單應(yīng)矩陣，然后用于細化對象的位姿。匹配的點被輸入到基于 EKF-Monocular-SLAM 的單目 SLAM 模塊中，其中要估計的狀態(tài)向量由相機運動參數(shù)和點特征以及檢測到的物體的幾何形狀組成。另一方面，觀察環(huán)境中的某些場景可能會表現(xiàn)出動態(tài)性，如果不加以考慮，則會阻礙 SLAM 系統(tǒng)的整體性能。因此，大多數(shù) SLAM 系統(tǒng)假設(shè)在整個定位和建圖過程中物體保持靜止的場景和映射過程。[105] 中提出的 SLAM 系統(tǒng)通過在操作之前從觀察到的場景中移除動態(tài)對象來消除這種假設(shè)。更具體地說，每個 RGB-D 幀都經(jīng)過處理，以掩蓋使用基于 RGB-D 的方法檢測到人的區(qū)域 [58]。剩余的數(shù)據(jù)圖像是一個靜態(tài)環(huán)境，可以使用標準的視覺 SLAM 算法進行處理。在 [130] 中可以找到類似的方法，其中動態(tài)對象通過計算有效的逐步方法從場景中分割出來，以檢測對象并提取其輪廓。然后使用一種新穎的查找表方法基于點特征映射靜態(tài)環(huán)境，該方法使用來自環(huán)境的大量不同、均勻分布的點特征作為目標，這提高了映射和定位的準確性。同樣，[116] 中提出了一種從觀察場景中提取非靜態(tài)對象的在線方法，從而提高 RGB-D SLAM 在非靜態(tài)環(huán)境中的性能。該方法包括三個主要階段，從圖像差分開始，以檢測場景中的任何移動物體。然后使用粒子濾波器來跟蹤連續(xù) RGB-D 幀中的運動補丁，這使得它比跟蹤特定對象模型的方法更通用。最后，通過矢量量化對運動對象進行分割后，最大后驗用于識別場景的前景。為了可靠地運行，該方法要求觀察到的場景主要由靜態(tài)對象組成并包含平面。隨著視覺 SLAM 重建的場景越來越大，將特征與點匹配變得更具挑戰(zhàn)性，因為有些地方表現(xiàn)出相似的外觀。為了規(guī)避這一點，[71] 中提出的工作采用了一個粗略的位置識別模塊，其中包含公共點的幀使用重疊視圖聚類算法在位置類下分組在一起。然后基于哈里斯角的簡要描述符之間的漢明距離完成特征匹配。數(shù)據(jù)關(guān)聯(lián)和 SLAM 是緊密耦合的問題，除了在少數(shù)研究工作中將它們作為兩個優(yōu)化子問題來解決之外，它們沒有被聯(lián)合考慮。估計每個觀察-地標對的數(shù)據(jù)關(guān)聯(lián)，然后用于估計傳感器和地標姿勢。使用這種方法，不正確的數(shù)據(jù)關(guān)聯(lián)會嚴重降低傳感器和地標姿態(tài)估計的準確性。此外，當(dāng)獲得相同地標的更精細測量時，不能重新考慮由于其模糊性而被丟棄的測量。這些限制推動了 [10] 中提出的 SLAM 算法的變化，其中在單個優(yōu)化問題中考慮了數(shù)據(jù)關(guān)聯(lián)以及傳感器和地標姿態(tài)的估計。不是將每個觀察與單個地標相關(guān)聯(lián)，而是使用期望最大化來考慮數(shù)據(jù)關(guān)聯(lián)的整個密度，同時估計傳感器和地標的姿勢，這被稱為軟數(shù)據(jù)關(guān)聯(lián)。估計基于慣性測量、ORB 特征和從對象檢測器獲得的語義信息。觀察到的地標的深度是在該地標的邊界框中檢測到的 ORB 特征的中值。如果環(huán)境中存在同一對象的多個實例，則使用馬氏距離來決定數(shù)據(jù)關(guān)聯(lián)。在 [4] 中提出了這項工作的擴展，其中語義結(jié)構(gòu)的推斷方式不同。不是依賴 ORB 特征，而是使用堆疊的沙漏卷積網(wǎng)絡(luò)來檢測在每個邊界框中找到的對象的語義特征。結(jié)構(gòu)約束用于將每個語義特征與相應(yīng)的地標相關(guān)聯(lián)，然后使用 Kabsch 算法來估計對象的方向。在 [33] 中可以找到一種非常相似的方法，其區(qū)別在于它采用非高斯傳感器模型，而不是大多數(shù)提出的方法，其中總是假設(shè)高斯模型。[143] 中提出的系統(tǒng)結(jié)合了高級語義標記特征和低級 CNN 特征，通過粗到細的方法對移動機器人進行定位。通過首先比較圖像中出現(xiàn)的對象，將觀察結(jié)果與地圖中的視覺幀進行匹配。然后根據(jù)圖像的 CNN 特征進行更精細的搜索。相機的估計姿勢以及特征最終使用 BA 進行細化。3.4.3 低、中、高層次的基于特征的方法在[54]和[137]中，SLAM系統(tǒng)是基于所有三個層次的特征開發(fā)的；點、平面和對象。[54] 中提出的系統(tǒng)采用 RGB-D 傳感器來觀察環(huán)境中的特征。該系統(tǒng)的實時、高效性能是可以實現(xiàn)的，因為對象是通過不需要高度詳細表示的二次曲線來表示的。SLAM 問題被表述為一個因子圖，其中使用了各種類型的因子，包括對點、對象和平面以及點-平面、平面-平面和對象-平面關(guān)系的觀察。ORB-SLAM2 的一種變體用于檢測環(huán)境中的點，然后在從粗到細的金字塔中的幀之間進行匹配。Faster R-CNN 用于檢測傳入幀中的對象，然后計算表示對象的相應(yīng)橢圓體。如果對象的單個實例出現(xiàn)在環(huán)境中，則跨幀使用語義標簽將觀察結(jié)果與對象相關(guān)聯(lián)。否則，數(shù)據(jù)關(guān)聯(lián)是通過最近鄰匹配實現(xiàn)的。使用有組織的點云分割技術(shù)對表示場景的點云進行分割以提取平面。平面使用它們之間的距離和它們的法線之間的差異的閾值來關(guān)聯(lián)。在屬于它們的平面和點、對象和它們所在的相應(yīng)平面之間以及假設(shè)曼哈頓世界的多個平面之間添加因子。采用詞袋方法檢測閉環(huán)。與最先進的 SLAM 系統(tǒng)相比，使用通過單目相機觀察到的點、平面和對象，[137] 中提出的工作實現(xiàn)了改進的定位，尤其是在沒有閉環(huán)的情況下。這歸因于物體和平面的遠程可觀測性，這有助于新舊測量之間的更多關(guān)聯(lián)。對象被表示為長方體，平面邊緣被檢測然后反向投影以獲得它們的參數(shù)，并添加點以進一步約束相機姿勢。BA 公式與四種類型的約束一起使用：相機平面、相機對象、對象平面和點平面。生成的地圖是密集的，并表現(xiàn)出高水平的表現(xiàn)力。4 結(jié)論同時定位和映射是機器人社區(qū)中最主要的研究問題，在該領(lǐng)域投入了大量的精力來生成新的方法，以最大限度地提高其魯棒性和可靠性。在從要重建的環(huán)境中獲取第一組測量值后，初始化機器人的軌跡和地圖。隨后的測量通過不同流程的流水線，這些流程在每個 SLAM 系統(tǒng)中實現(xiàn)不同，但確實達到了相同的目的。這些過程包括數(shù)據(jù)關(guān)聯(lián)、閉環(huán)、重新定位以及軌跡和地圖估計。在本文中，我們調(diào)查了大多數(shù)最先進的視覺 SLAM 解決方案，這些解決方案利用特征來定位機器人并繪制其周圍環(huán)境。我們根據(jù)它們所依賴的特征類型將基于特征的視覺 SLAM 方法分類；低級、中級、高級或混合功能。對每個類別的優(yōu)勢和劣勢進行了徹底調(diào)查，并在適用時強調(diào)了每個解決方案克服的挑戰(zhàn)。表格中提供了同一類別方法之間的比較，比較了實現(xiàn) SLAM 管道的每個組件所采用的方法。根據(jù)我們的深入審查，我們認為以下挑戰(zhàn)仍未解決。1. 普遍性 當(dāng)前的 SLAM 解決方案缺乏適應(yīng)機器人運行環(huán)境的能力。因為它們依賴于某種類型的特征。未能在環(huán)境中檢測到這些特征會導(dǎo)致 SLAM 結(jié)果的準確性發(fā)生災(zāi)難性的下降。這可能是由于環(huán)境中間歇性地存在特征或所采用的視覺系統(tǒng)無法檢測到它們。如果 SLAM 系統(tǒng)依賴于一組非常有限的特征，例如神經(jīng)網(wǎng)絡(luò)可以檢測的對象集，而不利用圖像中的其他元素，如平面、幾何圖元或新對象，則會發(fā)生前者網(wǎng)絡(luò)沒有經(jīng)過訓(xùn)練來檢測。后者可能發(fā)生在具有挑戰(zhàn)性的環(huán)境中或由于突然運動。為了應(yīng)對這些挑戰(zhàn)，SLAM 使用的視覺系統(tǒng)應(yīng)該靈活地適應(yīng)基于機器人運行環(huán)境的各種類型的特征，例如在室內(nèi)和室外環(huán)境之間的過渡期間。2. 魯棒性 在SLAM流程中存在來自多個來源的噪聲時，估計算法有時很難生成地圖和軌跡的最佳估計。已經(jīng)進行了非常有限的研究工作來保證 SLAM 估計的最優(yōu)性，或者至少驗證估計是否是最優(yōu)的 [17-19, 55-57]。為此，例如，通過神經(jīng)網(wǎng)絡(luò)對 SLAM 估計進行后處理可能會顯著改善估計的軌跡和重建的地圖，從而形成更強大的 SLAM 系統(tǒng)。3. 場景理解和表達表示自從 2012 年深度學(xué)習(xí)取得突破以來，目標檢測器在 SLAM 中得到了大量利用。然而，當(dāng)前的目標檢測器沒有利用檢測之間的任何時間或空間關(guān)系[117]。如果考慮到這些限制，預(yù)計檢測的效率和可靠性會提高。我們目前目睹的軟件和硬件技術(shù)的進步應(yīng)該針對開發(fā)一種能夠克服所有這些挑戰(zhàn)的環(huán)境感知、無錯誤、通用的視覺 SLAM 算法。

致謝本出版物基于哈利法科技大學(xué)資助的工作，獎勵編號為 RC1-2018-KUCARS。遵守道德標準利益沖突通訊作者代表所有作者聲明不存在利益沖突

參考文獻1. Alahi A, Ortiz R, Vandergheynst P (2012) Freak: fast retina keypoint.In: 2012 IEEE conference on computer vision and pattern recognition, pp 510–517.https ://doi.org/10.1109/ CVPR.2012.62477 152. Angeli A, Doncieux S, Meyer J, Filliat D (2008) Real-time visual loop-closure detection.In: 2008 IEEE international confer- ence on robotics and automation, pp 1842–1847.https ://doi.org/10.1109/ROBOT .2008.45434 753. Annaiyan A, Olivares-Mendez MA, Voos H (2017) Real-time graph-based slam in unknown environments using a small UAV.In: 2017 international conference on unmanned aircraft systems (ICUAS), pp 1118–1123.https ://doi.org/10.1109/ICUAS .2017.79915 244. Atanasov N, Bowman SL, Daniilidis K, Pappas GJ (2018) A unify- ing view of geometry, semantics, and data association in slam.In: Proceedings of the twenty-seventh international joint con- ference on artificial intelligence, IJCAI-18.International Joint Conferences on Artificial Intelligence Organization, pp 5204– 5208. https ://doi.org/10.24963 /ijcai .2018/7225. Bahraini MS, Bozorg M, Rad AB (2018) Slam in dynamic envi- ronments via ml-ransac.Mechatronics 49:105–118.https ://doi.org/10.1016/j.mecha troni cs.2017.12.0026. Bay H, Ess A, Tuytelaars T, Gool LV (2008) Speeded-up robust features (surf ).Similarity matching in computer vision and mul- timedia.Comput Vis Image Understand 110(3):346–359.https ://doi.org/10.1016/j.cviu.2007.09.0147. Beaudet PR (1978) Rotationally invariant image operators.In: Proceedings of the 4th international joint conference on pat- tern recognition.Kyoto, pp 579–5838. Besl PJ, McKay ND (1992) A method for registration of 3-d shapes.IEEE Trans Pattern Anal Mach Intell 14(2):239–256.https ://doi.org/10.1109/34.12179 19. Bosse M, Zlot R, Flick P (2012) Zebedee: design of a spring- mounted 3-d range sensor with application to mobile mapping.IEEE Trans Robot 28(5):1104–1119.https ://doi.org/10.1109/TRO.2012.22009 9010. Bowman SL, Atanasov N, Daniilidis K, Pappas GJ (2017) Proba- bilistic data association for semantic slam.In: 2017 IEEE inter- national conference on robotics and automation (ICRA), pp 1722–1729 (2017).https ://doi.org/10.1109/ICRA.2017.79892 0311. Brandli C, Berner R, Yang M, Liu S, Delbruck T (2014) A 240 × 180 130 db 3

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

綜述 | 基于特征的視覺同步定位和建圖（3）

相關(guān)推薦

技術(shù)專區(qū)