博客專(zhuān)欄

EEPW首頁(yè) > 博客 > SLAM——讓機(jī)器人認(rèn)路的技術(shù)

SLAM——讓機(jī)器人認(rèn)路的技術(shù)

發(fā)布人:傳感器技術(shù) 時(shí)間:2024-08-24 來(lái)源:工程師 發(fā)布文章

SLAM (simultaneous localization and mapping),也稱(chēng)為CML (Concurrent Mapping and Localization), 即時(shí)定位與地圖構(gòu)建,或并發(fā)建圖與定位。問(wèn)題可以描述為:將一個(gè)機(jī)器人放入未知環(huán)境中的未知位置,是否有辦法讓機(jī)器人一邊逐步描繪出此環(huán)境完全的地圖,同時(shí)一邊決定機(jī)器人應(yīng)該往哪個(gè)方向行進(jìn)。例如掃地機(jī)器人就是一個(gè)很典型的SLAM問(wèn)題,所謂完全的地圖(a consistent map)是指不受障礙行進(jìn)到房間可進(jìn)入的每個(gè)角落。SLAM最早由Smith、Self和Cheeseman于1988年提出。由于其重要的理論與應(yīng)用價(jià)值,被很多學(xué)者認(rèn)為是實(shí)現(xiàn)真正全自主移動(dòng)機(jī)器人的關(guān)鍵。


當(dāng)你來(lái)到一個(gè)陌生的環(huán)境時(shí),為了迅速熟悉環(huán)境并完成自己的任務(wù)(比如找飯館,找旅館),你應(yīng)當(dāng)做以下事情:

a.用眼睛觀察周?chē)貥?biāo)如建筑、大樹(shù)、花壇等,并記住他們的特征(特征提?。?br />b.在自己的腦海中,根據(jù)雙目獲得的信息,把特征地標(biāo)在三維地圖中重建出來(lái)(三維重建)
c.當(dāng)自己在行走時(shí),不斷獲取新的特征地標(biāo),并且校正自己頭腦中的地圖模型(bundle adjustment or EKF)
d.根據(jù)自己前一段時(shí)間行走獲得的特征地標(biāo),確定自己的位置(trajectory)
e.當(dāng)無(wú)意中走了很長(zhǎng)一段路的時(shí)候,和腦海中的以往地標(biāo)進(jìn)行匹配,看一看是否走回了原路(loop-closure detection)。實(shí)際這一步可有可無(wú)。
以上五步是同時(shí)進(jìn)行的,因此是simultaneous localization and mapping

圖片

離不開(kāi)這兩類(lèi)傳感器

目前用在SLAM上的Sensor主要分兩大類(lèi),激光雷達(dá)和攝像頭。

圖片

這里面列舉了一些常見(jiàn)的雷達(dá)和各種深度攝像頭。激光雷達(dá)有單線多線之分,角分辨率及精度也各有千秋。SICK、velodyne、Hokuyo以及國(guó)內(nèi)的北醒光學(xué)、Slamtech是比較有名的激光雷達(dá)廠商。他們可以作為SLAM的一種輸入形式。

這個(gè)小視頻里展示的就是一種簡(jiǎn)單的2D SLAM。

圖片


這個(gè)小視頻是賓大的教授kumar做的特別有名的一個(gè)demo,是在無(wú)人機(jī)上利用二維激光雷達(dá)做的SLAM。

圖片

而VSLAM則主要用攝像頭來(lái)實(shí)現(xiàn),攝像頭品種繁多,主要分為單目、雙目、單目結(jié)構(gòu)光、雙目結(jié)構(gòu)光、ToF幾大類(lèi)。他們的核心都是獲取RGB和depth map(深度信息)。簡(jiǎn)單的單目和雙目(Zed、leapmotion)我這里不多做解釋?zhuān)抑饕忉屢幌陆Y(jié)構(gòu)光和ToF。

最近流行的結(jié)構(gòu)光和TOF

結(jié)構(gòu)光原理的深度攝像機(jī)通常具有激光投射器、光學(xué)衍射元件(DOE)、紅外攝像頭三大核心器件。

圖片

這個(gè)圖(下圖)摘自primesense的專(zhuān)利。

圖片

可以看到primesense的doe是由兩部分組成的,一個(gè)是擴(kuò)散片,一個(gè)是衍射片。先通過(guò)擴(kuò)散成一個(gè)區(qū)域的隨機(jī)散斑,然后復(fù)制成九份,投射到了被攝物體上。根據(jù)紅外攝像頭捕捉到的紅外散斑,PS1080這個(gè)芯片就可以快速解算出各個(gè)點(diǎn)的深度信息。

這兒還有兩款結(jié)構(gòu)光原理的攝像頭。

圖片

圖片

第一頁(yè)它是由兩幅十分規(guī)律的散斑組成,最后同時(shí)被紅外相機(jī)獲得,精度相對(duì)較高。但據(jù)說(shuō)DOE成本也比較高。


還有一種比較獨(dú)特的方案(最后一幅圖),它采用mems微鏡的方式,類(lèi)似DLP投影儀,將激光器進(jìn)行調(diào)頻,通過(guò)微鏡反射出去,并快速改變微鏡姿態(tài),進(jìn)行行列掃描,實(shí)現(xiàn)結(jié)構(gòu)光的投射。(產(chǎn)自ST,ST經(jīng)常做出一些比較炫的黑科技)。


ToF(time of flight)也是一種很有前景的深度獲取方法。

傳感器發(fā)出經(jīng)調(diào)制的近紅外光,遇物體后反射,傳感器通過(guò)計(jì)算光線發(fā)射和反射時(shí)間差或相位差,來(lái)?yè)Q算被拍攝景物的距離,以產(chǎn)生深度信息。類(lèi)似于雷達(dá),或者想象一下蝙蝠,softkinetic的DS325采用的就是ToF方案(TI設(shè)計(jì)的),但是它的接收器微觀結(jié)構(gòu)比較特殊,有2個(gè)或者更多快門(mén),測(cè)ps級(jí)別的時(shí)間差,但它的單位像素尺寸通常在100um的尺寸,所以目前分辨率不高。


在有了深度圖之后呢,SLAM算法就開(kāi)始工作了,由于Sensor和需求的不同,SLAM的呈現(xiàn)形式略有差異。大致可以分為激光SLAM(也分2D和3D)和視覺(jué)SLAM(也分Sparse、semiDense、Dense)兩類(lèi),但其主要思路大同小異。

圖片

這個(gè)是Sparse(稀疏)的

圖片

這個(gè)偏Dense(密集)的

圖片


SLAM算法實(shí)現(xiàn)的4要素

SLAM算法在實(shí)現(xiàn)的時(shí)候主要要考慮以下4個(gè)方面吧:

1. 地圖表示問(wèn)題,比如dense和sparse都是它的不同表達(dá)方式,這個(gè)需要根據(jù)實(shí)際場(chǎng)景需求去抉擇

2. 信息感知問(wèn)題,需要考慮如何全面的感知這個(gè)環(huán)境,RGBD攝像頭FOV通常比較小,但激光雷達(dá)比較大

3. 數(shù)據(jù)關(guān)聯(lián)問(wèn)題,不同的sensor的數(shù)據(jù)類(lèi)型、時(shí)間戳、坐標(biāo)系表達(dá)方式各有不同,需要統(tǒng)一處理

4. 定位與構(gòu)圖問(wèn)題,就是指怎么實(shí)現(xiàn)位姿估計(jì)和建模,這里面涉及到很多數(shù)學(xué)問(wèn)題,物理模型建立,狀態(tài)估計(jì)和優(yōu)化

其他的還有回環(huán)檢測(cè)問(wèn)題,探索問(wèn)題(exploration),以及綁架問(wèn)題(kidnapping)。

圖片

這個(gè)是一個(gè)比較有名的SLAM算法,這個(gè)回環(huán)檢測(cè)就很漂亮。但這個(gè)調(diào)用了cuda,gpu對(duì)運(yùn)算能力要求挺高,效果看起來(lái)比較炫。


以VSLAM舉個(gè)栗子

圖片

我大概講一種比較流行的VSLAM方法框架。


整個(gè)SLAM大概可以分為前端和后端,前端相當(dāng)于VO(視覺(jué)里程計(jì)),研究幀與幀之間變換關(guān)系。首先提取每幀圖像特征點(diǎn),利用相鄰幀圖像,進(jìn)行特征點(diǎn)匹配,然后利用RANSAC去除大噪聲,然后進(jìn)行匹配,得到一個(gè)pose信息(位置和姿態(tài)),同時(shí)可以利用IMU(Inertial measurement unit慣性測(cè)量單元)提供的姿態(tài)信息進(jìn)行濾波融合后端則主要是對(duì)前端出結(jié)果進(jìn)行優(yōu)化,利用濾波理論(EKF、UKF、PF)、或者優(yōu)化理論TORO、G2O進(jìn)行樹(shù)或者圖的優(yōu)化。最終得到最優(yōu)的位姿估計(jì)。


后端這邊難點(diǎn)比較多,涉及到的數(shù)學(xué)知識(shí)也比較多,總的來(lái)說(shuō)大家已經(jīng)慢慢拋棄傳統(tǒng)的濾波理論走向圖優(yōu)化去了。


因?yàn)榛跒V波的理論,濾波器穩(wěn)度增長(zhǎng)太快,這對(duì)于需要頻繁求逆的EKF(擴(kuò)展卡爾曼濾波器),PF壓力很大。而基于圖的SLAM,通常以keyframe(關(guān)鍵幀)為基礎(chǔ),建立多個(gè)節(jié)點(diǎn)和節(jié)點(diǎn)之間的相對(duì)變換關(guān)系,比如仿射變換矩陣,并不斷地進(jìn)行關(guān)鍵節(jié)點(diǎn)的維護(hù),保證圖的容量,在保證精度的同時(shí),降低了計(jì)算量。

列舉幾個(gè)目前比較有名的SLAM算法:PTAM,MonoSLAM, ORB-SLAM,RGBD-SLAM,RTAB-SLAM,LSD-SLAM。

圖片

圖片

圖片

圖片

所以大家如果想學(xué)習(xí)SLAM的話,各個(gè)高校提高的素材是很多的,比如賓大、MIT、ETH、香港科技大學(xué)、帝國(guó)理工等等都有比較好的代表作品,還有一個(gè)比較有前景的就是三維的機(jī)器視覺(jué),普林斯頓大學(xué)的肖劍雄教授結(jié)合SLAM和Deep Learning做一些三維物體的分類(lèi)和識(shí)別, 實(shí)現(xiàn)一個(gè)對(duì)場(chǎng)景深度理解的機(jī)器人感知引擎。

圖片

http://robots.princeton.edu/talks/2016_MIT/RobotPerception.pdf  


SLAM技術(shù)從最早的軍事用途(核潛艇海底定位就有了SLAM的雛形)到今天,已經(jīng)逐步走入人們的視野,掃地機(jī)器人的盛行更是讓它名聲大噪。同時(shí)基于三維視覺(jué)的VSLAM越來(lái)越顯主流。在地面/空中機(jī)器人、VR/AR/MR、汽車(chē)/AGV自動(dòng)駕駛等領(lǐng)域,都會(huì)得到深入的發(fā)展,同時(shí)也會(huì)出現(xiàn)越來(lái)越多的細(xì)分市場(chǎng)等待挖掘。

圖片


SLAM技術(shù)的應(yīng)用領(lǐng)域


1)室內(nèi)機(jī)器人

掃地機(jī)要算機(jī)器人里最早用到SLAM技術(shù)這一批了,國(guó)內(nèi)的科沃斯、塔米掃地機(jī)通過(guò)用SLAM算法結(jié)合激光雷達(dá)或者攝像頭的方法,讓掃地機(jī)可以高效繪制室內(nèi)地圖,智能分析和規(guī)劃掃地環(huán)境,從而成功讓自己步入了智能導(dǎo)航的陣列。

不過(guò)有意思的是,科沃斯引領(lǐng)時(shí)尚還沒(méi)多久,一大幫懂Slam算法的掃地機(jī)廠商就開(kāi)始陸陸續(xù)續(xù)地推出自己的智能導(dǎo)航,直到昨天雷鋒網(wǎng)還看到一款智能掃地機(jī)新鮮出爐,而這追逐背后的核心,大家都知道就是SLAM技術(shù)的應(yīng)用。

圖片

而另一個(gè)跟SLAM息息相關(guān)的室內(nèi)移動(dòng)機(jī)器人,因?yàn)槟壳笆袌?chǎng)定位和需求并不明確,我們目前只能在商場(chǎng)導(dǎo)購(gòu)室內(nèi)機(jī)器人和Buddy那樣的demo視頻里才能看到,國(guó)內(nèi)Watchhhh Slam和Slam Tech兩家公司都是做這方面方案提供的,以現(xiàn)實(shí)的觀點(diǎn)看,現(xiàn)在室內(nèi)移動(dòng)機(jī)器人市場(chǎng)定位和需求沒(méi)落地的時(shí)候,由方案商公司推動(dòng),商用室內(nèi)移動(dòng)機(jī)器人先行,這反而是一種曲線救國(guó)的發(fā)展方式。


2)AR

目前基于SLAM技術(shù)開(kāi)發(fā)的代表性產(chǎn)品有微軟的Hololens,谷歌的Project Tango以及同樣有名的Magic Leap,后者4月20號(hào)公布它的新一代水母版demo后,國(guó)內(nèi)的AR公司更加看到了這個(gè)趨勢(shì),比如進(jìn)化動(dòng)力近期就公布了他們的SLAM demo, 用一個(gè)小攝像頭實(shí)現(xiàn)VR頭顯空間定位,而易瞳去年10月雷鋒網(wǎng)去試用新品的時(shí)候,就發(fā)現(xiàn)已經(jīng)整合SLAM技術(shù)了,國(guó)內(nèi)其他公司雖然沒(méi)有正式公布,但我們可以肯定,他們都在暗暗研發(fā)這項(xiàng)技術(shù),只等一個(gè)成熟的時(shí)機(jī)就會(huì)展現(xiàn)給大家。

圖片

進(jìn)化動(dòng)力CTO聶崇嶺向雷鋒網(wǎng)表示,如果用一個(gè)準(zhǔn)確的說(shuō)法

很多VR應(yīng)用需要用到SLAM技術(shù),定位只是一個(gè)feature,路徑記錄、3D重構(gòu)、地圖構(gòu)建都可以是SLAM技術(shù)的輸出。


3)無(wú)人機(jī)

國(guó)外的話,原來(lái)做 Google X Project Wing 無(wú)人機(jī)的創(chuàng)始人 MIT 機(jī)器人大牛 Nicholas Roy 的學(xué)生 Adam Bry 創(chuàng)辦的 Skydio,挖來(lái)了 Georgia Tech 的 Slam 大牛教授 Frank Dellaert 做他們的首席科學(xué)家。


國(guó)內(nèi)大家非常熟悉的大疆精靈四避障用的雙目視覺(jué)+超聲波,一位大疆工程師徐梟涵在百度百家的撰文里坦率承認(rèn)“P4里面呈現(xiàn)的主動(dòng)避障功能就是一種非常非常典型的Slam的弱應(yīng)用,無(wú)人機(jī)只需要知道障礙物在哪,就可以進(jìn)行 Planning,并且繞開(kāi)障礙物。當(dāng)然Slam能做的事情遠(yuǎn)遠(yuǎn)不止這些,包括災(zāi)區(qū)救援,包括探洞,包括人機(jī)配合甚至集群,所有的關(guān)于無(wú)人機(jī)的夢(mèng)想都建立在Slam之上,這是無(wú)人機(jī)能飛(具有定位,姿態(tài)確定以后)的時(shí)代以后,無(wú)人機(jī)最核心的技術(shù)。”

圖片

而近期另一個(gè)號(hào)稱(chēng)刷爆美國(guó)朋友圈的hover camera無(wú)人機(jī),因?yàn)槠鋭?chuàng)始人的的計(jì)算機(jī)視覺(jué)背景,正式把SLAM技術(shù)應(yīng)用進(jìn)來(lái)了,在介紹他們無(wú)人機(jī)的主要產(chǎn)品技術(shù)時(shí),提到了


●SLAM(即時(shí)定位與地圖構(gòu)建):通過(guò)感知自身周?chē)h(huán)境來(lái)構(gòu)建3D增量式地圖,從而實(shí)現(xiàn)自主定位和導(dǎo)航。


4)無(wú)人駕駛

因?yàn)镚oogle無(wú)人駕駛車(chē)的科普,很多人都知道了基于激光雷達(dá)技術(shù)的Lidar Slam。Lidar Slam是指利用激光雷達(dá)作為外部傳感器,獲取地圖數(shù)據(jù),使機(jī)器人實(shí)現(xiàn)同步定位與地圖構(gòu)建。雖然成本高昂,但目前為止是最穩(wěn)定、最可靠、高性能的SLAM方式。

圖片

另外,2011 年,牛津大學(xué)Mobile Robotics Group 首次向公眾展示他們的第一輛無(wú)人駕駛汽車(chē)野貓(Wildcat),這是一輛由 Bowler Wildcat 4X4 改裝而成的車(chē)。汽車(chē)頭頂?shù)南鄼C(jī)和激光能夠搜集信息然后即時(shí)分析導(dǎo)航,已經(jīng)成功通過(guò)了測(cè)試。2014 年,他們改裝的一輛 Nissan 的 Leaf 也成功路測(cè)。


Mobile Robotics Group主要研究領(lǐng)域是大規(guī)模的導(dǎo)航和對(duì)自然場(chǎng)景理解。據(jù)稱(chēng),團(tuán)隊(duì)所擁有的技術(shù)非常牛逼,其復(fù)雜和先進(jìn)性遠(yuǎn)遠(yuǎn)超過(guò)一般的同步定位與地圖構(gòu)建(SLAM)算法。


可圈可點(diǎn)的是,對(duì)于無(wú)人駕駛技術(shù),他們并沒(méi)有使用 GPS 或者是嵌入式的基礎(chǔ)設(shè)施(信標(biāo)之類(lèi)的),而是使用算法來(lái)導(dǎo)航,包括機(jī)器學(xué)習(xí)和概率推理來(lái)建立周?chē)牡貓D等。


- END -


  


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: SLAM

技術(shù)專(zhuān)區(qū)

關(guān)閉