SegICP:一種集成深度語義分割和位姿估計(jì)的框架
盡管機(jī)器人的相關(guān)技術(shù)近年快速發(fā)展,但機(jī)器人如何在復(fù)雜、真實(shí)的場(chǎng)景中實(shí)現(xiàn)快速、可靠地感知與任務(wù)相關(guān)的物體仍然是一項(xiàng)十分具有挑戰(zhàn)性的工作。為了提高機(jī)器人系統(tǒng)的感知速度和魯棒性,作者提出了 SegICP,這是一種用于對(duì)象識(shí)別和位姿估計(jì)的集成解決方案。SegICP 結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和多假設(shè)點(diǎn)云配準(zhǔn),以實(shí)現(xiàn)魯棒的像素級(jí)語義分割以及相關(guān)對(duì)象的準(zhǔn)確實(shí)時(shí) 6 自由度姿態(tài)估計(jì)。該架構(gòu)在沒有初始解的情況下實(shí)現(xiàn)了實(shí)時(shí)的1 cm 位置誤差和 小于5°的角度誤差。最后在根據(jù)運(yùn)動(dòng)捕捉生成的帶注釋的基準(zhǔn)數(shù)據(jù)集上完成了SegICP的評(píng)估。本文主要貢獻(xiàn)如下:
1)提出一種高度并行化的綜合語義分割和多假設(shè)物體姿態(tài)估計(jì)方法,其單視圖操作精度為1cm。在70-270毫秒(4-14赫茲)的時(shí)間內(nèi),不需要任何先驗(yàn)的位姿狀態(tài)。
2) 提出一種新的點(diǎn)云配準(zhǔn)評(píng)價(jià)指標(biāo),對(duì)點(diǎn)云的配準(zhǔn)質(zhì)量進(jìn)行評(píng)分,允許在許多潛在的假設(shè)上進(jìn)行自主和準(zhǔn)確的位姿初始化。
3) 提出一個(gè)高效的自動(dòng)數(shù)據(jù)收集框架,用于通過使用運(yùn)動(dòng)捕捉系統(tǒng)獲取帶注釋的語義分割和位姿數(shù)據(jù)集。
圖1 給定RGB圖像(左)和深度幀,SegICP 方法以像素級(jí)別分割對(duì)象,并以1 cm位置誤差和小于5°的角度誤差(右)估計(jì)每個(gè)對(duì)象的6 DOF姿態(tài)。
1、目前存在的問題
為了在非結(jié)構(gòu)化環(huán)境中實(shí)現(xiàn)魯棒、自主的操作,機(jī)器人必須能夠識(shí)別周圍環(huán)境中的相關(guān)物體和特征,并相應(yīng)地規(guī)劃其運(yùn)動(dòng)和交互。
尤其是最近在 DARPA Robotics Challenge和Amazon Picking Challenge等自主操縱挑戰(zhàn)方面的努力取得了顯著成果,使系統(tǒng)能夠感知、推理和與周圍環(huán)境進(jìn)行交互。然而,用于閉環(huán)操作任務(wù)的現(xiàn)有對(duì)象識(shí)別和姿態(tài)估計(jì)解決方案通常具有以下問題:
(1) 在具有部分遮擋的雜亂環(huán)境中不魯棒;
(2) 無法實(shí)時(shí)操作 (<1 Hz);
(3) 不夠準(zhǔn)確;
(4) 在沒有較好初始條件的情況下無法獲得高精度。
作者針對(duì)這些問題提出了一種新的pipeline,它緊密集成了深度語義分割和基于模型的對(duì)象姿態(tài)估計(jì),實(shí)現(xiàn)了實(shí)時(shí)姿態(tài)估計(jì),中等位姿態(tài)誤差為 1 cm 且小于5°。所提的解決方案(SegICP)使用 RGB-D 傳感器在高度并行化的架構(gòu)中提供場(chǎng)景中所有相關(guān)對(duì)象的各自位姿(見圖 1)的語義分割。所提方法建立在大量相關(guān)工作的基礎(chǔ)上,這些工作致力于機(jī)器人移動(dòng)操作任務(wù)及其相關(guān)對(duì)象的感知。機(jī)器人系統(tǒng)必須能夠首先識(shí)別與任務(wù)相關(guān)的實(shí)體,并推斷它們的相對(duì)姿勢(shì),以最終操縱它們并與之交互。因此,作者在相關(guān)工作部分討論了對(duì)象識(shí)別和姿態(tài)估計(jì)方面的相關(guān)文獻(xiàn)。
2、核心思想
圖2 在雜亂環(huán)境中運(yùn)行的完整 SegICP pipeline。系統(tǒng)檢測(cè)物體并估計(jì)每個(gè)物體的 6-DOF 姿態(tài)。右上角的分割圖像中的彩色疊加像素對(duì)應(yīng)于藍(lán)色漏斗(紅色)、油瓶(藍(lán)色)和發(fā)動(dòng)機(jī)(紫色),該圖像由安裝在 PR2 機(jī)器人頂部的 Kinect1 檢測(cè)。左下角顯示了油瓶對(duì)象的選定多假設(shè)配準(zhǔn)及其各自的對(duì)齊分?jǐn)?shù),該結(jié)果用來確定最佳對(duì)象姿態(tài)。
A總體描述:
在如圖 2 所示的SegICP架構(gòu)中,RGB幀首先通過 CNN輸出帶有像素級(jí)語義對(duì)象標(biāo)簽的圖像。然后使用帶有標(biāo)記的圖像分割出相應(yīng)的點(diǎn)云,并為每個(gè)檢測(cè)到的對(duì)象生成單獨(dú)的點(diǎn)云。然后使用ICP將每個(gè)對(duì)象的點(diǎn)云與其完整的點(diǎn)云數(shù)據(jù)庫模型進(jìn)行配準(zhǔn),并估計(jì)目標(biāo)對(duì)象相對(duì)于傳感器的姿態(tài)。
其中幾個(gè)關(guān)鍵環(huán)節(jié)如下:
B 基于神經(jīng)網(wǎng)絡(luò)的語義分割:
與經(jīng)典的分割問題相反,該框架特別關(guān)注如何在深度圖上生成適當(dāng)?shù)膍ask以便進(jìn)行準(zhǔn)確的位姿估計(jì)。為了解決這個(gè)問題,作者嘗試了多種CNN架構(gòu),這些架構(gòu)均可以完成感興趣對(duì)象的語義分割。
通過在兩種不同的CNN架構(gòu):SegNet和DilatedNet上的實(shí)驗(yàn),作者發(fā)現(xiàn) SegICP的最佳適用模型是SegNet,這是一個(gè)27層的全卷積神經(jīng)網(wǎng)絡(luò),具有3000萬個(gè)參數(shù)。該網(wǎng)絡(luò)使用交叉熵標(biāo)準(zhǔn)結(jié)合由圖像旋轉(zhuǎn)、裁剪、水平和垂直翻轉(zhuǎn)組成的數(shù)據(jù)增強(qiáng),對(duì)裁剪和下采樣后圖像進(jìn)行訓(xùn)練。
C 多假設(shè)目標(biāo)姿態(tài)估計(jì):
分割結(jié)果用于從場(chǎng)景云中提取每個(gè)對(duì)象的3D點(diǎn)云。然后使用SegNet預(yù)測(cè)的每個(gè)分割對(duì)象的語義標(biāo)簽,并從對(duì)象模型庫中檢索其相應(yīng)的3D網(wǎng)格模型。網(wǎng)格模型被轉(zhuǎn)換為點(diǎn)云形式后進(jìn)行下采樣并針對(duì)其各自的分割點(diǎn)云進(jìn)行配準(zhǔn)。
其中,點(diǎn)云配準(zhǔn)分為獲取和跟蹤兩個(gè)階段。獲取階段的目標(biāo)是找到每個(gè)對(duì)象的模型與其對(duì)應(yīng)的場(chǎng)景點(diǎn)云之間的初始最佳對(duì)齊。這種對(duì)齊用于確定模型的可見側(cè)(模型裁剪),并初始化跟蹤階段,其目標(biāo)是融合相機(jī)和機(jī)器人運(yùn)動(dòng)信息,即使在相機(jī)運(yùn)動(dòng)期間和遮擋情況下也能保持對(duì)物體的準(zhǔn)確、實(shí)時(shí)姿態(tài)估計(jì)。SegICP使用點(diǎn)對(duì)點(diǎn) ICP算法進(jìn)行配準(zhǔn)。本文的其中一個(gè)貢獻(xiàn)就是將模型與場(chǎng)景的對(duì)齊度量,用于確定配準(zhǔn)和在獲取和跟蹤階段的切換質(zhì)量。
獲取階段。獲取階段用來找到對(duì)象網(wǎng)格模型與當(dāng)前點(diǎn)云的初始最佳對(duì)齊和裁剪。通過以各種方位角和仰角渲染可見對(duì)象的模型并裁剪模型以僅保留正面。同時(shí),每個(gè)候選物體都在對(duì)象場(chǎng)景點(diǎn)云的中間位置進(jìn)行初始化,以去除分割中的噪點(diǎn)并防止ICP陷入局部最優(yōu)。
圖3 多假設(shè)配準(zhǔn)排序示例:(a)中生成的藍(lán)色分割塊用于生成(b)中的突出顯示的待裁剪場(chǎng)景點(diǎn)云。(c-e)說明了各種候選模型物體(橙色)與裁剪場(chǎng)景點(diǎn)云(藍(lán)色)的配準(zhǔn),以及它們各自的對(duì)齊分?jǐn)?shù)。
圖3顯示了分割模型的裁剪例子和它們各自的對(duì)齊分?jǐn)?shù)。作者還指出了一些問題,如ICP 擬合得分(歐幾里得誤差得分)和IOU不能有效地區(qū)分好的配準(zhǔn)和錯(cuò)誤的配準(zhǔn)。相比之下,作者提出的指標(biāo)解決了高度對(duì)稱的物體(例如油瓶)上存在的這些直接缺點(diǎn)。如果任何候選分?jǐn)?shù)高于一個(gè)閾值ε,SegICP就會(huì)切換到未來幀的跟蹤階段。
跟蹤階段。具有最高對(duì)齊分?jǐn)?shù)的候選模型位姿和裁剪用于初始化跟蹤階段。為了使跟蹤過程對(duì)對(duì)象分割邊界上的缺陷具有魯棒性,通過刪除最新配準(zhǔn)模型位姿的邊界框外的點(diǎn)來進(jìn)一步修剪對(duì)象的場(chǎng)景點(diǎn)云。通過配準(zhǔn)獲得的位姿用作卡爾曼濾波器中的測(cè)量更新,以跟蹤每個(gè)對(duì)象的6-DoF姿態(tài)和速度。通過融合來自機(jī)器人可用里程計(jì)的已知相機(jī)運(yùn)動(dòng),濾波器能夠處理臨時(shí)對(duì)象遮擋和異常位姿估計(jì)。作者提出的對(duì)齊度量在擬合上進(jìn)行評(píng)估,以測(cè)量當(dāng)前姿態(tài)測(cè)量的不確定性并相應(yīng)地告知卡爾曼濾波器。如果分?jǐn)?shù)低于最小閾值,卡爾曼濾波器會(huì)在切換回獲取模式的同時(shí)根據(jù)里程計(jì)計(jì)算對(duì)象的姿態(tài)。
D 自動(dòng)注釋訓(xùn)練數(shù)據(jù):
作者在由汽車實(shí)體(例如發(fā)動(dòng)機(jī)、油瓶、漏斗等)組成的室內(nèi)場(chǎng)景的7500張標(biāo)記圖像上訓(xùn)練了SegNet。在這些圖像中,大約三分之二是由人類手工標(biāo)記(使用LabelMe),而剩下的三分之一是由3D InvestigatorTM動(dòng)作捕捉(MoCap)系統(tǒng)和放置在相機(jī)和物體上的活動(dòng)標(biāo)記自動(dòng)生成(如圖 4所示)。
圖4 動(dòng)作捕捉系統(tǒng):(a)使用NDI 3D Investigator 設(shè)置動(dòng)作捕捉系統(tǒng)。作者在RGB-D相機(jī)和用于姿態(tài)測(cè)量的對(duì)象上安裝了圓形活動(dòng)標(biāo)記。PR2的Kinect1 (b)和 Kinect2 (c)上的標(biāo)記示例。
考慮到圖像訓(xùn)練涉及多個(gè)傳感器硬件(Microsoft Kinect1、Asus Xtion Pro Live、Microsoft Kinect2 和 Carnegie Robotics Multisense SL),每個(gè)硬件又具有不同的分辨率,因此獲得用于分割和位姿估計(jì)的大型數(shù)據(jù)集很困難。為此作者又提出了一個(gè)運(yùn)動(dòng)捕捉系統(tǒng)來自動(dòng)注釋圖5中所示的圖像。
圖5 自動(dòng)運(yùn)動(dòng)捕捉注釋:給定輸入的RGB 和深度圖像(頂行),自動(dòng)以軸角格式標(biāo)記系統(tǒng)的輸出分割和對(duì)象姿態(tài)(底行)。
3、實(shí)驗(yàn)環(huán)節(jié)
作者在數(shù)據(jù)集上對(duì) SegICP 進(jìn)行基準(zhǔn)測(cè)試,該數(shù)據(jù)集由通過 MoCap 系統(tǒng)獲得的1246個(gè)帶注釋的對(duì)象位姿組成。
A.語義分割結(jié)果:
為了探究分割方法對(duì)姿態(tài)估計(jì)的影響,作者探索了兩種語義分割架構(gòu):SegNet和DilatedNet。SegNet是一種計(jì)算效率高的自動(dòng)編碼器-****,用于逐像素語義分割。自編碼器架構(gòu)對(duì)于每像素分類至關(guān)重要,因?yàn)樗梢詮拿恳粚拥妮敵鲋亟ㄝ斎?,學(xué)習(xí)如何在最終分類層之前重建輸入。DilatedNet利用擴(kuò)張的卷積模塊來聚合多尺度上下文信息而不會(huì)損失準(zhǔn)確性。兩種網(wǎng)絡(luò)架構(gòu)都采用了VGG圖像分類的卷積層,SegNet使用 VGG 層作為其編碼器,而 DilatedNet 將后面的層轉(zhuǎn)換為擴(kuò)張的卷積模塊。作者使用在ImageNet上預(yù)訓(xùn)練的VGG-16模型在訓(xùn)練期間初始化權(quán)重。最終用超過7500張帶注釋的圖像(平均epoch時(shí)間約為一個(gè)小時(shí))的數(shù)據(jù)集訓(xùn)練這兩個(gè)網(wǎng)絡(luò),并獲得了表1中列出的性能指標(biāo)。
表1 語義分割網(wǎng)絡(luò)的性能
兩種架構(gòu)之間的一個(gè)關(guān)鍵區(qū)別在于,DilatedNet旨在通過合并擴(kuò)張卷積模塊來提高召回率,而SegNet似乎可以實(shí)現(xiàn)更高精度的測(cè)量。兩種網(wǎng)絡(luò)的視覺差異如圖6所示,其中SegNet和DilatedNet的輸出顯示為同一場(chǎng)景。需要注意的是,分割的質(zhì)量會(huì)影響點(diǎn)云標(biāo)記,并對(duì)框架中用于對(duì)象姿態(tài)估計(jì)的點(diǎn)到姿態(tài)配準(zhǔn)方法的性能產(chǎn)生直接影響。盡管如此,作者仍然考慮了一個(gè)問題,那就是:更高的分割I(lǐng)OU是否會(huì)導(dǎo)致更好的位姿估計(jì)?更高的精度?和更高的召回率?并給出相關(guān)討論。
圖6 SegNet 和 DilatedNet:給定來自PR2的Kinect1的相同RGB輸入圖像(左),分別輸出兩種網(wǎng)絡(luò)的結(jié)果(中、右);與DilatedNet相比,SegNet似乎產(chǎn)生更精確的分割。
B.位姿估計(jì)結(jié)果:
獲取和跟蹤階段。在作者的基準(zhǔn)測(cè)試中,在獲取階段為每個(gè)對(duì)象使用了30個(gè)模型裁剪的集合,并發(fā)現(xiàn)在六核i7-6850K(30線程)上的總體平均運(yùn)行時(shí)間為270毫秒。需要注意的是,這里的時(shí)間評(píng)估取決于目標(biāo)物體的數(shù)量和機(jī)器的CPU。
基準(zhǔn)測(cè)試。在圖7中,作者說明了在1246個(gè)對(duì)象姿態(tài)注釋的基準(zhǔn)數(shù)據(jù)集上評(píng)估SegICP的結(jié)果。為了對(duì)分割標(biāo)記對(duì)最終姿態(tài)估計(jì)的影響進(jìn)行全面分類,作者使用帶注釋的分割和兩個(gè)分割網(wǎng)絡(luò)架構(gòu)的輸出運(yùn)行SegICP。結(jié)果表明,與DilatedNet (66%)相比,SegNet實(shí)現(xiàn)了更高的性能 (77%)。
同時(shí),作者將誤差超過5厘米和軸角度超過15°的情況歸類為失敗。在成功的場(chǎng)景中,SegICP實(shí)現(xiàn)了1 cm的位置誤差和< 5°的角度誤差;這一準(zhǔn)確度水平接近所有基準(zhǔn)實(shí)例的80%。圖7顯示了給定分割的姿態(tài)估計(jì)誤差的分布。
有趣的是,SegICP的性能與傳感器技術(shù)和校準(zhǔn)高度相關(guān)。當(dāng)僅考慮466個(gè)Kinect1實(shí)例(具有更好RGB-D 校準(zhǔn)的結(jié)構(gòu)光傳感器)時(shí),SegICP 分別使用來自注釋、SegNet 和 DilatedNet的標(biāo)記分別實(shí)現(xiàn)了90%、73%和72%的成功度量。
圖7 SegICP 姿態(tài)估計(jì):不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)(例如 SegNet 和 DilatedNet)導(dǎo)致的不同分割標(biāo)記之間的錯(cuò)誤。
此外,與TOF傳感器(例如 Kinect2)相比,SegICP 在結(jié)構(gòu)光傳感器(例如 Kinect1)上的運(yùn)行性能似乎更高。作者發(fā)現(xiàn),由于TOF引起的點(diǎn)云變形,具有高度幾何對(duì)稱性和具有反射表面的物體(例如油瓶)會(huì)導(dǎo)致ICP擬合不佳。圖8說明了這種特殊現(xiàn)象,其中油瓶表面存在較大變形,導(dǎo)致配準(zhǔn)不準(zhǔn)確。最后,由于該架構(gòu)使用分割標(biāo)記來裁剪點(diǎn)云,所以RGB和深度幀的傳感器校準(zhǔn)對(duì)于準(zhǔn)確的姿態(tài)估計(jì)至關(guān)重要。
圖8 點(diǎn)云變形:由于物體表面反射造成的配準(zhǔn)錯(cuò)誤
4、總結(jié)
本文提出了一種高度并行化的架構(gòu),用于語義分割和準(zhǔn)確的位姿估計(jì)(1 cm 位置誤差和 <5°的角度誤差)。所提架構(gòu)最直接的好處是不需要足夠接近解決方案的初始估計(jì),并且本質(zhì)上是可并行化的,允許實(shí)時(shí)同時(shí)處理多個(gè)對(duì)象(跟蹤和采集模式分別為70-270毫秒)。此外,作者詳細(xì)闡述了一種運(yùn)動(dòng)捕捉方法來收集潛在的大量帶注釋的分割和位姿數(shù)據(jù)集,使該架構(gòu)能夠快速擴(kuò)展其他的領(lǐng)域。
同時(shí)作者表示,目前正在努力改進(jìn)感知架構(gòu),擴(kuò)展框架以包含更大的對(duì)象集,并將其與非結(jié)構(gòu)化環(huán)境中復(fù)雜交互的集成任務(wù)和運(yùn)動(dòng)規(guī)劃聯(lián)系起來。
備注:作者也是我們「3D視覺從入門到精通」知識(shí)特邀嘉賓:一個(gè)超干貨的3D視覺學(xué)習(xí)社區(qū)
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。