最新綜述：基于深度學(xué)習(xí)方式的單目物體姿態(tài)估計與跟蹤

發(fā)布人：計算機視覺工坊時間：2021-06-09 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

原文：Deep Learning on Monocular Object Pose Detection and Tracking: A Comprehensive Overview

作者：中國人民大學(xué)、清華大學(xué)、北京交通大學(xué)

摘要

目標(biāo)姿態(tài)檢測與跟蹤在自動駕駛、機器人技術(shù)、增強現(xiàn)實等領(lǐng)域有著廣泛的應(yīng)用，近年來受到越來越多的關(guān)注。在目標(biāo)姿態(tài)檢測和跟蹤的方法中，深度學(xué)習(xí)是最有前途的一種，其性能優(yōu)于其他方法。然而，對于基于深度學(xué)習(xí)方法的最新發(fā)展卻缺乏調(diào)查研究。因此，本文對深度學(xué)習(xí)技術(shù)路線中目標(biāo)姿態(tài)檢測與跟蹤的最新進(jìn)展進(jìn)行了綜述。為了更深入的介紹，本文的研究范圍僅限于以單目RGB/RGBD數(shù)據(jù)為輸入的方法，包括實例級單目目標(biāo)姿態(tài)檢測、類別級單目目標(biāo)姿態(tài)檢測和單目目標(biāo)姿態(tài)跟蹤三類主要任務(wù)。論文詳細(xì)介紹了檢測和跟蹤的度量、數(shù)據(jù)集和方法。文中還介紹了幾種公開數(shù)據(jù)集上的最新方法的比較結(jié)果，以及有見地的觀察結(jié)果和啟發(fā)性的未來研究方向。

數(shù)據(jù)集介紹

實例級單目目標(biāo)姿態(tài)估計與跟蹤數(shù)據(jù)集：主要包括經(jīng)典的Linemod、YCB等數(shù)據(jù)集~

類別級單目目標(biāo)姿態(tài)估計與跟蹤數(shù)據(jù)集：主要包括KITTI3D、Apolloscape等開源數(shù)據(jù)集~

實例級單目目標(biāo)姿態(tài)檢測

實例級單目目標(biāo)姿態(tài)檢測的目的是檢測目標(biāo)并估計其相對于標(biāo)準(zhǔn)幀的6自由度姿態(tài)（旋轉(zhuǎn)和平移），又可分為基于RGB數(shù)據(jù)和RGBD數(shù)據(jù)。

基于RGB數(shù)據(jù)的方法

對于六自由度姿態(tài)的估計，最直接的方法是讓深度學(xué)習(xí)模型直接預(yù)測姿態(tài)相關(guān)參數(shù)。然而，從單個RGB圖像直接估計6自由度姿態(tài)是一個不適定的問題，并面臨挑戰(zhàn)。由于CAD模型的存在，在輸入圖像和對象模型之間建立2D-3D的對應(yīng)關(guān)系有助于簡化任務(wù)。根據(jù)以上觀察，我們提供了一個基于RGB的實例級單目物體姿態(tài)檢測的整體示意圖，如圖4所示。

一般來說，我們將基于深度學(xué)習(xí)的方法分為五大類：直接方法、基于關(guān)鍵點的方法、基于密集坐標(biāo)的方法、基于細(xì)化的方法和自監(jiān)督方法，五類方法對應(yīng)的最新算法以及對應(yīng)性能如表3和表4所示：

基于RGBD數(shù)據(jù)方法

RGB圖像缺乏深度信息，使得6自由度物體姿態(tài)檢測任務(wù)成為一個病態(tài)問題。幸運的是，單目RGBD相機的發(fā)展推動了基于（RGB）D的6自由度姿態(tài)估計方法的發(fā)展(基于RGB的方法以RGBD圖像或深度掩模為輸入，充分利用點云表示的能力預(yù)測物體的姿態(tài)。一般來說，基于（RGB）D的方法可以分為基于檢索的方法、基于關(guān)鍵點的方法和其他基于深度學(xué)習(xí)的方法。

基于（RGB）D的實例級單目物體姿態(tài)檢測方法的總體示意圖如圖5所示，算法分類如表6所示。

類別級單目目標(biāo)姿態(tài)檢測

根據(jù)預(yù)測的重點是1Dof旋轉(zhuǎn)還是3Dof旋轉(zhuǎn)，將相關(guān)方法分為類別級單目3D目標(biāo)檢測和類別級單目6D姿態(tài)檢測。

1、Category Level Monocular 3D Object Detection

類別級單目三維目標(biāo)檢測需要預(yù)測7個自由度（7Dof）的姿態(tài)配置，包括旋轉(zhuǎn)（1）（即只需要預(yù)測偏航）、平移（3）和目標(biāo)尺寸（3），訓(xùn)練和測試期間沒有可用的CAD模型。類別級單目三維目標(biāo)檢測對于自主駕駛場景具有重要意義。它更關(guān)注平移預(yù)測的精度，而旋轉(zhuǎn)預(yù)測的精度可以相應(yīng)放寬。激光雷達(dá)采集的點云和單目RGB圖像是最常用的數(shù)據(jù)格式。

常用的方法包括2D proposal方式、Psudeo-LIDAR方式、Keypoints方式以及其它方式，如表7所示。

2、Category Level Monocular 6D Pose Detection

類別級6D姿態(tài)估計，9個維度，三個旋轉(zhuǎn)，三個平移，三個尺寸。主要分為基于Aligning、Regressing、Rligning方式，如表8所示。

單目目標(biāo)姿態(tài)跟蹤

在本節(jié)中，我們將介紹單目物體姿態(tài)跟蹤方法。根據(jù)CAD模型是否可用，將相關(guān)方法分為實例級單目目標(biāo)姿態(tài)跟蹤和類別級單目目標(biāo)姿態(tài)跟蹤。整體示意圖如圖8所示：

1、實例級單目目標(biāo)姿態(tài)跟蹤

主要包括Tracking by refinement.、Tracking by optimization方式，思路如圖8所示。

2、類別級單目目標(biāo)姿態(tài)跟蹤

主要包括Tracking by detection、Tracking by keypoints，思路如圖8所示。

聊一下單目姿態(tài)檢測與跟蹤方式的優(yōu)缺點以及未來發(fā)展方向

1、實例級基于RGB方式的姿態(tài)檢測

第一，雖然現(xiàn)有的算法在簡單的室內(nèi)場景中表現(xiàn)得足夠好，但是它們?nèi)匀缓茈y處理遮擋情況還有雜亂的背景。然而，在實際應(yīng)用中，像遮擋這樣的干擾是不可避免的。因此，研究如何處理遮擋等復(fù)雜干擾是一個很好的研究方向。

第二，現(xiàn)有的僅限RBG的方法非常容易受到光線變化和拍攝角度等因素的影響。這些因素會導(dǎo)致圖像的模糊、反射、盲點、截止等，使得從圖像中提取的特征變得模糊，特別是當(dāng)這些特征用于檢測關(guān)鍵點時。對于環(huán)境控制的室內(nèi)場景（例如室內(nèi)工廠），這可能不是什么大問題。然而，對于戶外應(yīng)用，如手機增強現(xiàn)實，由于光照條件的不可控性和不可預(yù)測性，這將成為其廣泛應(yīng)用的最大障礙。因此，設(shè)計對上述因素具有魯棒性的算法也是今后的一個重要研究課題。

第三，已有研究表明，建立二維-三維物體姿態(tài)估計對應(yīng)比直接預(yù)測姿態(tài)參數(shù)效果更好，主流工作長期致力于研究如何更好地建立對應(yīng)。然而，這種方法不能以端到端的方式進(jìn)行訓(xùn)練。此外，建立和求解對應(yīng)關(guān)系非常耗時，因此，未來需要考慮設(shè)計可微的2D-3D對應(yīng)關(guān)系求解算法，用神經(jīng)網(wǎng)絡(luò)代替，或者探索提高無對應(yīng)方法性能的可能性。

2、實例級基于RGBD方式的姿態(tài)檢測

盡管現(xiàn)有的方法總是比僅使用RGB的方法表現(xiàn)得更好，但是由于需要學(xué)習(xí)額外的深度信息，它們通常會消耗更多的計算資源。有些方法需要額外的細(xì)化步驟，比如ICP，以提高性能，這進(jìn)一步增加了運行時間。因此，設(shè)計一個更輕量級的網(wǎng)絡(luò)結(jié)構(gòu)來降低時間復(fù)雜度和空間復(fù)雜度可能是一個有價值的未來研究課題。

? 大多數(shù)現(xiàn)有的低功耗硬件（如移動電話）只能捕獲使用中的稀疏點云。雖然現(xiàn)有的（RGB）基于D的方法都是在深度圖生成的密集點云數(shù)據(jù)集上進(jìn)行評估的，但它們在稀疏點云上的性能尚不清楚。這造成了評估性能和實際使用之間的偏差。因此，有必要研究現(xiàn)有算法是否適合以稀疏點云作為輸入。如果沒有，就應(yīng)該提出新的算法。

? 眾所周知，標(biāo)記物體的6自由度姿勢非常困難。因此，我們面臨的另一個重要挑戰(zhàn)是如何獲得精確的地面真相。由于現(xiàn)有先進(jìn)的計算機圖形學(xué)技術(shù)，具有地面真實感的合成數(shù)據(jù)非常容易獲得，可以用來訓(xùn)練目標(biāo)姿態(tài)檢測模型。然而，在合成數(shù)據(jù)集上訓(xùn)練的模型在真實世界的圖像上通常表現(xiàn)不佳。因此，這就提出了一個新的可能的未來研究問題：如何提高在綜合數(shù)據(jù)集上訓(xùn)練的模型的泛化能力?，F(xiàn)有的自監(jiān)督學(xué)習(xí)方法已經(jīng)提供了一些有前途的前期研究，但還需要付出更多的努力。值得注意的是，該研究方向同樣適用于基于RGB的實例級方法和類別級方法。

3、類別級別3D目標(biāo)檢測

由于其主要應(yīng)用是為自動駕駛提供環(huán)境信息，定位物體比預(yù)測物體的大小和方向更重要。

然而，利用單個RGB圖像在三維空間中定位目標(biāo)是不適定的，因此，如何使模型具有深度預(yù)測能力是至關(guān)重要的。由于該任務(wù)所使用的圖像通常包含多個對象，并且包含廣泛的特征豐富的背景，因此使用它們來推斷深度信息可能是一種可行的解決方案。也就是說，如何利用instance aware關(guān)系來提高模型的深度感知能力，尤其是如何利用隱藏在圖像中的非局部特征。將視覺transformer納入網(wǎng)絡(luò)架構(gòu)可能是一個好主意。

? 利用偽激光雷達(dá)是一個可行的研究方向。然而，目前基于偽激光雷達(dá)的解決方案通常使用現(xiàn)成的深度預(yù)測模型預(yù)先預(yù)測深度。它造成了三維探測和深度預(yù)測之間的差距。也就是說，現(xiàn)有的深度估計模型存在次優(yōu)問題，利用其生成的偽LiDAR點云進(jìn)行三維探測將進(jìn)一步加劇這一問題。因此，在未來的偽激光雷達(dá)研究中，在同一網(wǎng)絡(luò)或同一訓(xùn)練過程中，將深度估計與三維探測相結(jié)合，以獲得互為性能增益，避免不同次優(yōu)問題積累的探測誤差，具有重要的應(yīng)用價值。

? KITTI3D等現(xiàn)有數(shù)據(jù)集始終包含激光雷達(dá)捕獲的點云和單目相機捕獲的圖像。盡管這一點在單目檢測任務(wù)中，云數(shù)據(jù)在推理時是不允許使用的，研究如何更好地利用云數(shù)據(jù)進(jìn)行訓(xùn)練具有重要意義單目三維物體探測器。例如，我們可以利用點云在訓(xùn)練時學(xué)習(xí)卷積權(quán)重，而在推理時丟棄它們?；蛘呶覀兛梢允褂矛F(xiàn)成的點云三維探測器作為教師網(wǎng)絡(luò)來訓(xùn)練單目三維探測器，就像在知識蒸餾中的那樣。

4、類別級6D姿態(tài)估計

大多數(shù)方法都需要使用現(xiàn)成的二維目標(biāo)檢測模型來提前定位目標(biāo)。然后在進(jìn)行姿態(tài)預(yù)測之前，對目標(biāo)圖像進(jìn)行裁剪和調(diào)整大小。這樣的兩階段方案可能會導(dǎo)致定位誤差的累積。因此，一個問題是，是否有可能在一個統(tǒng)一的網(wǎng)絡(luò)中或通過完全無建議的方式生成對象建議和完成姿態(tài)估計。答案顯然是肯定的，參考了無錨2D目標(biāo)檢測模型的成功經(jīng)驗。然而，到目前為止，還沒有研究人員朝著這個方向努力。

? 盡管現(xiàn)有方法通常使用大型主干（如ResNet-101）來學(xué)習(xí)特性，以確保高精度和有效性，但它們同時降低了效率。再加上二維目標(biāo)檢測過程耗時，6D姿態(tài)檢測體系結(jié)構(gòu)很難保證其實時性。因此，輕量級實時執(zhí)行模型是一個值得研究的課題。

? 大多數(shù)現(xiàn)有算法高度依賴于深度信息的利用。然而，眾所周知，僅以RGB圖像作為輸入對于手機上的增強現(xiàn)實（augmentedreality）等應(yīng)用非常重要。雖然已經(jīng)提出了幾種僅適用于RGB的方法，但是它們的性能都很差。因此，在僅RGB類別級單目6D位姿檢測方面可以做更多的工作。

5、單目物體姿態(tài)跟蹤

如果CAD模型可用，則在受控場景中解決此問題并不困難。在不可控場景（如自動駕駛場景、室外照明場景等）中，我們將面臨實例級目標(biāo)姿態(tài)檢測任務(wù)所面臨的所有問題。

? 我們發(fā)現(xiàn)，現(xiàn)有的目標(biāo)姿態(tài)跟蹤算法通常只以兩幀圖像（當(dāng)前幀和前一幀）作為輸入來預(yù)測當(dāng)前幀的目標(biāo)姿態(tài)。這可能導(dǎo)致三個主要問題：第一，順序信息沒有得到充分利用。其次，跟蹤錯誤會隨著時間的推移而累積，無法消除。第三，可能出現(xiàn)盒子漂移問題。為了解決這些問題，單目目標(biāo)姿態(tài)跟蹤引入了一個可行的研究方向，即利用LSTM等遞歸神經(jīng)網(wǎng)絡(luò)來關(guān)聯(lián)多幀信息。它不僅可以提高特征的利用率，而且可以保證跟蹤結(jié)果的穩(wěn)定性。

? 許多現(xiàn)有的方法需要渲染CAD模型，這非常耗時，因為大多數(shù)現(xiàn)有的渲染器要么是不可微分的，要么是經(jīng)濟高效的。因此，設(shè)計高效的、可微的繪制算法是今后工作的重點。

? 此外，當(dāng)CAD模型不可用時，大多數(shù)現(xiàn)有工程僅跟蹤7自由度3D邊界框。據(jù)我們所知，只有一項工作可以實現(xiàn)全9自由度類別級的姿態(tài)跟蹤。如前所述，7自由度姿態(tài)足以滿足位置感知場景（如自動駕駛）的要求，而對于旋轉(zhuǎn)和尺寸軟件場景（如增強現(xiàn)實）則不夠。因此，跟蹤全9自由度邊界盒將是一個有意義的研究課題，應(yīng)該引起更多的關(guān)注。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

最新綜述：基于深度學(xué)習(xí)方式的單目物體姿態(tài)估計與跟蹤

相關(guān)推薦

技術(shù)專區(qū)