Meta研究：基于頭顯攝像頭進(jìn)行姿態(tài)估計(jì)的方法和優(yōu)缺點(diǎn)

發(fā)布人：傳感器技術(shù) 時(shí)間：2023-05-31 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

通過(guò)頭顯攝像頭進(jìn)行自我姿態(tài)追蹤

目前大多數(shù)基于VR一體機(jī)的Avatar系統(tǒng)都沒(méi)有下半身，一個(gè)重要的原因是，盡管設(shè)備能夠通過(guò)內(nèi)向外追蹤實(shí)現(xiàn)頭部和雙手的動(dòng)捕，而這又使得估計(jì)手臂和胸部的位置相對(duì)容易，但系統(tǒng)難以判斷你的腿、腳或臀部位置，所以今天的Avatar一直都是缺失下半截。

如果有關(guān)注映維網(wǎng)的論文分享，你應(yīng)該會(huì)注意到Meta一直有在進(jìn)行相關(guān)研究，尤其是通過(guò)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/人工智能等技術(shù)來(lái)實(shí)現(xiàn)基于純頭顯攝像頭的全身動(dòng)捕解決方案。

在早前發(fā)布的論文《SelfPose: 3D Egocentric Pose Estimation From a Headset Mounted Camera》中，Meta聯(lián)合倫敦大學(xué)學(xué)院，布倫瑞克工業(yè)大學(xué)，馬克斯·普朗克智能系統(tǒng)和卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)探索了基于頭顯攝像頭來(lái)進(jìn)行自我姿態(tài)估計(jì)的方法。

AR/VR體驗(yàn)需要由用戶姿態(tài)的顯式表征所驅(qū)動(dòng)。特別地，其需要從設(shè)備的角度估計(jì)用戶的姿態(tài)，這隱含地對(duì)應(yīng)于以自我為中心的角度，亦即與用戶3D頭部和身體姿態(tài)相應(yīng)對(duì)的“Egopose/自我姿態(tài)”。自我姿態(tài)驅(qū)動(dòng)著在AR和VR中構(gòu)建自然體驗(yàn)所需的必要輸入。

自我姿態(tài)估計(jì)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)?，F(xiàn)有的方法通常分為兩類(lèi)：基于非光學(xué)傳感器的方法和基于攝像頭的方法。基于傳感器的方法依賴于磁性和慣性屬性，并給出了自我姿態(tài)的穩(wěn)健估計(jì)。然而，它們需要特殊設(shè)計(jì)且難以設(shè)置的設(shè)備，并且具有限定用戶一般性移動(dòng)的侵入性。

基于攝像頭的方法則侵入性較小，可以在不同的環(huán)境中工作。其中一類(lèi)方法依靠自上而下的朝內(nèi)式攝像頭來(lái)獲得用戶的最佳視圖，而另一類(lèi)方法則使用窄視場(chǎng)前向攝像頭（用戶不可見(jiàn)）。只要能夠清楚地“看到”身體部位，前一種設(shè)置可以產(chǎn)生可靠的結(jié)果，但朝內(nèi)式攝像頭需要向前延伸，以避免鼻子和臉頰被遮擋。當(dāng)用戶離開(kāi)視場(chǎng)時(shí)，姿態(tài)估計(jì)將完全失敗。后一種設(shè)置的優(yōu)點(diǎn)是在看不到用戶的情況下估計(jì)自我姿態(tài)，但它難以解析模糊的身體姿態(tài)，尤其是手臂姿態(tài)。

圖1說(shuō)明了本篇論文所希望解決的問(wèn)題：目標(biāo)是從以自我為中心的攝像頭角度推斷2D和3D姿勢(shì)信息，如關(guān)節(jié)位置和旋轉(zhuǎn)，這是將運(yùn)動(dòng)從原始用戶轉(zhuǎn)移到通用Avatar或收集用戶姿勢(shì)信息的必需項(xiàng)。

圖1

團(tuán)隊(duì)的配置中使用的單目攝像頭安裝在頭顯邊緣（如圖1a所示），距離平均尺寸的鼻子大約2厘米，朝下。圖2進(jìn)一步顯示了攝像頭在不同身體配置下看到的圖像。最上面一行顯示了從以自中心的角度來(lái)看，什么身體部位會(huì)變得自遮擋。從亮紅色到深綠色的連續(xù)漸變編碼相應(yīng)著色區(qū)域的像素分辨率的增加。

圖2

上圖顯示了同一角色的不同姿勢(shì)的可視化。最上方是從外部攝像頭視點(diǎn)渲染的姿勢(shì)。白色代表遮擋，遮擋是從以自中心角度看不到的身體部位。最下方是從以自為中心攝像頭視點(diǎn)渲染的姿勢(shì)。顏色梯度表示身體每個(gè)區(qū)域的圖像像素密度：綠色表示像素密度較高，而紅色表示像素密度較低。

圖表說(shuō)明了自中心人體姿勢(shì)估計(jì)所面臨的挑戰(zhàn)：嚴(yán)重的自遮擋、極端的****效果和較低的下半身像素密度。

有數(shù)個(gè)挑戰(zhàn)導(dǎo)致了這個(gè)問(wèn)題的困難：

（1）由于魚(yú)眼透鏡和攝像頭靠近面部，會(huì)出現(xiàn)強(qiáng)烈的****失真。這導(dǎo)致圖像具有強(qiáng)烈的徑向失真，并且上半身和下半身之間的圖像分辨率存在巨大差異，如圖2底部一行所示。因此，從正面或360度偏航視圖進(jìn)行2D身體姿態(tài)估計(jì)的最先進(jìn)方法在這類(lèi)圖像上會(huì)失敗
（2）在許多情況下，身體會(huì)發(fā)生自遮擋，尤其是在下半身，這需要對(duì)關(guān)節(jié)位置具有很強(qiáng)的空間意識(shí)；
（3）自為中心三維身體姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)中一個(gè)相對(duì)未探索的問(wèn)題，因此公眾可訪問(wèn)的標(biāo)記數(shù)據(jù)集很少；
（4）正如傳統(tǒng)的3D身體姿態(tài)估計(jì)所示，當(dāng)在三維中l(wèi)ift二維關(guān)節(jié)位置時(shí)，存在自然模糊性。

這種不同尋常的自中心視覺(jué)表現(xiàn)需要一種全新的方法和全新的訓(xùn)練語(yǔ)料庫(kù)，而本篇論文正是主要針對(duì)這兩個(gè)問(wèn)題。他們提出的全新神經(jīng)網(wǎng)絡(luò)架構(gòu)編碼了由不同分辨率、極端視角效應(yīng)和自遮擋引起的上下身體關(guān)節(jié)之間的不確定性差異。

團(tuán)隊(duì)使用真實(shí)的3D注釋對(duì)合成基準(zhǔn)和真實(shí)世界基準(zhǔn)進(jìn)行了定量和定性評(píng)估，并表明所述方法的性能比以前的Mo2Cap2高出25%以上。消融研究表明，引入新型multi-branch****來(lái)重建2D輸入熱圖和旋轉(zhuǎn)是3D姿態(tài)估計(jì)的顯著改進(jìn)的原因。

架構(gòu)

團(tuán)隊(duì)提出了用于3D姿態(tài)估計(jì)的深度學(xué)習(xí)架構(gòu)。這是一種由兩個(gè)主要模塊組成的兩步方法：i）第一個(gè)模塊檢測(cè)圖像空間中身體關(guān)節(jié)位置的2D熱圖；ii）第二個(gè)模塊將從前面模塊生成的2D熱圖預(yù)測(cè)作為輸入，并使用新穎的multi-branch自動(dòng)編碼器架構(gòu)回歸身體關(guān)節(jié)的3D坐標(biāo)，并根據(jù)骨骼層次的局部關(guān)節(jié)旋轉(zhuǎn)和重建的熱圖預(yù)測(cè)。

這種管道方法最重要的優(yōu)點(diǎn)之一是，可以根據(jù)可用的訓(xùn)練數(shù)據(jù)獨(dú)立訓(xùn)練2D和3D模塊。例如，如果具有3D注釋的足夠大的圖像語(yǔ)料庫(kù)不可用，則可以使用3D mocap數(shù)據(jù)及其投影熱圖來(lái)獨(dú)立地訓(xùn)練3D lifting模塊。一旦對(duì)這兩個(gè)模塊進(jìn)行了預(yù)訓(xùn)練，整個(gè)架構(gòu)就可以端到端地進(jìn)行微調(diào)，因?yàn)樗耆晌⒎帧?/p>

multi-branch自動(dòng)編碼器模塊同時(shí)提供了具有姿勢(shì)的多個(gè)表示的能力，例如關(guān)節(jié)位置和局部旋轉(zhuǎn)等。所述架構(gòu)的另一個(gè)優(yōu)點(diǎn)是，第二和第三branch只在訓(xùn)練時(shí)需要，并且可以在測(cè)試時(shí)刪除，從而保證更好的性能和更快的執(zhí)行。

二維姿勢(shì)檢測(cè)

給定RGB圖像I∈R368×368×3作為輸入，2D姿勢(shì)檢測(cè)器推斷2D姿勢(shì)，表示為一組熱圖HM∈R47×47×15，每個(gè)身體關(guān)節(jié)一個(gè)。對(duì)于這項(xiàng)任務(wù)，團(tuán)隊(duì)已經(jīng)試驗(yàn)了不同的標(biāo)準(zhǔn)架構(gòu)，包括ResNet 50和U-Net。

他們使用歸一化輸入圖像對(duì)模型進(jìn)行訓(xùn)練。其中，圖像是通過(guò)減去平均值并除以標(biāo)準(zhǔn)差獲得。然后，他們使用ground truth熱圖與預(yù)測(cè)熱圖之間差異的均方誤差作為損失：

二維到三維映射

3D姿態(tài)模塊將第一模塊計(jì)算的15個(gè)熱圖作為輸入，并輸出最終的3D姿態(tài)P∈R16×3作為一組關(guān)節(jié)位置。請(qǐng)注意，輸出3D關(guān)節(jié)的數(shù)量為16，因?yàn)榘^部（盡管頭部在視場(chǎng)之外，但它可以在3D中回歸）。

團(tuán)隊(duì)的方法從輸入熱圖預(yù)測(cè)3D姿勢(shì)，而不僅僅是2D位置。主要優(yōu)點(diǎn)是熱圖攜帶了與2D姿態(tài)估計(jì)的不確定性相關(guān)的重要信息。

所提出的架構(gòu)的主要新穎性是，確保熱圖表示中表達(dá)的不確定性信息不會(huì)丟失，它在姿態(tài)嵌入中得到了保留。當(dāng)編碼器將一組熱圖作為輸入并將其編碼到嵌入z

中時(shí)，****有多個(gè)branch。首先從z

回歸3D姿勢(shì)；2nd估計(jì)局部關(guān)節(jié)旋轉(zhuǎn)（相對(duì)于父節(jié)點(diǎn)）；以及3rd重構(gòu)輸入熱圖。所述branch的目的是迫使latent向量對(duì)估計(jì)的2D熱圖的概率密度函數(shù)進(jìn)行編碼。

自動(dòng)編碼器的整體損失函數(shù)表示為：

研究人員測(cè)試了不同的局部聯(lián)合旋轉(zhuǎn)表示，而由于訓(xùn)練過(guò)程中旋轉(zhuǎn)的穩(wěn)定性，他們最終選擇了四元數(shù)表示，從而產(chǎn)生更穩(wěn)健的模型。旋轉(zhuǎn)branch同時(shí)有助于生成更好的結(jié)果，在逐幀估計(jì)的姿勢(shì)上，連續(xù)幀上的過(guò)渡更平滑。

使用估計(jì)旋轉(zhuǎn)的角色動(dòng)畫(huà)

由multi-branch自動(dòng)編碼器架構(gòu)生成的姿態(tài)嵌入估計(jì)包含姿態(tài)的相關(guān)基本信息，這使得能夠基于特定應(yīng)用程序更改/添加表示。具體而言，旋轉(zhuǎn)branch的引入改善了整體重建誤差，如表2所示，并且它是可用于角色動(dòng)畫(huà)的姿勢(shì)定義。

根據(jù)骨架層次，由旋轉(zhuǎn)branch估計(jì)的關(guān)節(jié)旋轉(zhuǎn)表示為每個(gè)關(guān)節(jié)相對(duì)于父節(jié)點(diǎn)的局部旋轉(zhuǎn)。與原始動(dòng)畫(huà)相比，顯示受驅(qū)動(dòng)角色的示例幀如圖6所示。請(qǐng)注意，即使對(duì)于Avatar的四肢落在攝像頭視場(chǎng)之外的姿勢(shì)，模型都能夠可靠地估計(jì)正確的旋轉(zhuǎn)。另外，盡管逐幀計(jì)算估計(jì)，但連續(xù)幀中的姿態(tài)之間存在時(shí)間一致性。

圖7則顯示了從輸入圖像估計(jì)的關(guān)節(jié)角度預(yù)測(cè)。具體來(lái)說(shuō)，關(guān)節(jié)角度與ground truth一致。旋轉(zhuǎn)是平滑的，網(wǎng)絡(luò)在預(yù)測(cè)中引入了有限的“抖動(dòng)”偽影。

熱圖估計(jì)：架構(gòu)消融

到目前為止，團(tuán)隊(duì)在所有實(shí)驗(yàn)中都使用了已建立的ResNet 50架構(gòu)。為了研究熱圖估計(jì)網(wǎng)絡(luò)的效果，他們對(duì)不同的架構(gòu)和初始化策略進(jìn)行了實(shí)驗(yàn)。

結(jié)果表明，預(yù)訓(xùn)練有幫助。與隨機(jī)初始化的54.7相比，使用預(yù)訓(xùn)練的ResNet 50的完整管道將MPJPE誤差優(yōu)化至51.1 mm，見(jiàn)表4。

盡管有研究表明，預(yù)訓(xùn)練通常是不必要的，但團(tuán)隊(duì)指出，預(yù)訓(xùn)練確實(shí)可以在兩個(gè)方面有所幫助。首先，預(yù)訓(xùn)練有助于加快收斂速度。其次，對(duì)于小型數(shù)據(jù)集，預(yù)訓(xùn)練有助于提高準(zhǔn)確性。盡管他們的合成數(shù)據(jù)集很大，但與MPII等大型真實(shí)世界數(shù)據(jù)集相比，它在場(chǎng)景和主題方面的可變性較小。

在下一步中，研究人員使用U-Net進(jìn)行2D姿態(tài)估計(jì)實(shí)驗(yàn)。使用U-Net架構(gòu)可以提高管道的性能，并將MPJPE誤差顯著優(yōu)化至41.0mm。

基于Resnet 50的估計(jì)器在沒(méi)有事先細(xì)化的情況下失敗。他們假設(shè)，改進(jìn)的性能和在真實(shí)圖像上觀察到的行為證明了U-Net更好的泛化特性。為了支持假設(shè)，團(tuán)隊(duì)進(jìn)行了一個(gè)額外的實(shí)驗(yàn)。將高斯白噪點(diǎn)添加到合成數(shù)據(jù)集的測(cè)試圖像中，并使用不同的2D姿態(tài)估計(jì)網(wǎng)絡(luò)來(lái)測(cè)量管道的性能。

圖8繪制了不同噪點(diǎn)水平下的MPJPE誤差。值得注意的是，基于U-Net的管道的誤差增加緩慢，而基于Resnet 50的管道在小噪點(diǎn)水平下已經(jīng)產(chǎn)生了大的誤差。這種行為支持了假設(shè)，即U-Net架構(gòu)具有更好的泛化特性。

liftIng網(wǎng)絡(luò)：參數(shù)消融

為了驗(yàn)證multi-branch三維姿態(tài)lifting網(wǎng)絡(luò)的架構(gòu)設(shè)計(jì)選擇，團(tuán)隊(duì)對(duì)兩個(gè)主要參數(shù)進(jìn)行了消融研究。

首先，找到嵌入z

的最佳大小，它對(duì)3D姿勢(shì)、關(guān)節(jié)旋轉(zhuǎn)和2D姿勢(shì)的不確定性進(jìn)行編碼。表6列出了所有三種不同熱圖估計(jì)網(wǎng)絡(luò)使用不同尺寸的z

的MPJPE誤差。無(wú)論熱圖估計(jì)網(wǎng)絡(luò)的選擇如何，z^∈R50都能產(chǎn)生最好的結(jié)果。較小的嵌入會(huì)產(chǎn)生明顯更高的誤差，而較大的嵌入只會(huì)稍微影響結(jié)果。

自中心的真實(shí)數(shù)據(jù)集評(píng)估

與Mo2Cap2的比較。團(tuán)隊(duì)將方法的結(jié)果與直接競(jìng)爭(zhēng)對(duì)手Mo2Cap2進(jìn)行了比較，包括室內(nèi)和室外序列。為了進(jìn)行公平的比較，僅根據(jù)他們提供的合成訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練模型。表8報(bào)告了兩種方法的MPJPE錯(cuò)誤。

可以看出，團(tuán)隊(duì)的方法在室內(nèi)和室外場(chǎng)景中都大大優(yōu)于Mo2Cap2。在這里，使用在ImageNet上預(yù)先訓(xùn)練的U-Net模型的方法產(chǎn)生了最好的結(jié)果。但在室內(nèi)，在更受控制的環(huán)境中，兩種架構(gòu)變體幾乎不相上下。

團(tuán)隊(duì)架構(gòu)的一個(gè)重要優(yōu)勢(shì)是，模型可以同時(shí)在3D和2D數(shù)據(jù)集的混合上進(jìn)行訓(xùn)練：如果圖像樣本只有2D注釋?zhuān)珱](méi)有3D ground truth標(biāo)簽，則樣本依然可以使用，只有熱圖會(huì)導(dǎo)致?lián)p失。

他們?cè)u(píng)估了在兩種場(chǎng)景中添加帶有2D但沒(méi)有3D標(biāo)簽的額外圖像的效果：自中心和前置攝像頭。在自為中心的情況下，他們創(chuàng)建了xR-EgoPose測(cè)試集的兩個(gè)子集。第一個(gè)子集包含具有3D和2D標(biāo)簽的所有可用圖像樣本的50%。

第二個(gè)包含100%的帶有2D標(biāo)簽的圖像樣本，但只有50%的3D標(biāo)簽。實(shí)際上，第二子集包含的圖像數(shù)量是僅具有2D注釋的圖像數(shù)量的兩倍。表10a比較了子集之間的結(jié)果?？梢钥闯?，最終的3D姿態(tài)估計(jì)受益于額外的2D注釋。在Human3.6M數(shù)據(jù)集上可以看到等效的行為。表10b顯示了當(dāng)使用來(lái)自COCO和MPII的附加2D注釋時(shí)重建誤差的改善。

總的來(lái)說(shuō)，團(tuán)隊(duì)提出了一種從安裝在頭顯的單眼攝像頭估計(jì)3D身體姿勢(shì)的解決方案。給定單個(gè)圖像，所述方法完全可微網(wǎng)絡(luò)估計(jì)熱圖，并使用它們作為中間表示，使用新的multi-branch自動(dòng)編碼器回歸3D姿態(tài)。

這種新的架構(gòu)設(shè)計(jì)是在具有挑戰(zhàn)性的數(shù)據(jù)集中進(jìn)行精確重建的基礎(chǔ)。與競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)集相比，準(zhǔn)確率提高了24%以上，實(shí)驗(yàn)證明可以推廣到更通用的3D人體姿態(tài)估計(jì)，即具有最先進(jìn)性能的前置攝像頭任務(wù)。

最后，他們介紹了xR-EgoPose數(shù)據(jù)集，這是一個(gè)新的大規(guī)模照片逼真的合成數(shù)據(jù)集，對(duì)訓(xùn)練至關(guān)重要。團(tuán)隊(duì)表示，增加額外的攝像頭以覆蓋更多的視場(chǎng)，并實(shí)現(xiàn)多視圖傳感是未來(lái)研究的重點(diǎn)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

Meta研究：基于頭顯攝像頭進(jìn)行姿態(tài)估計(jì)的方法和優(yōu)缺點(diǎn)

相關(guān)推薦

技術(shù)專(zhuān)區(qū)