CVPR2021：?jiǎn)文繉?shí)時(shí)全身動(dòng)作捕捉（清華大學(xué)）

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2021-05-14 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

摘要：

本文提出了第一種實(shí)時(shí)全身捕捉的方法，該方法通過單一顏色圖像的動(dòng)態(tài)3D人臉模型來(lái)估計(jì)身體和手的形狀和運(yùn)動(dòng)。研究人員使用了一種新的神經(jīng)網(wǎng)絡(luò)框架，考慮了身體和手部之間的相關(guān)性，并能夠以高效率進(jìn)行內(nèi)部運(yùn)算。與以往的研究不同的是，該研究方法是在多個(gè)數(shù)據(jù)集上聯(lián)合訓(xùn)練，分別關(guān)注手部、身體或面部，不需要同時(shí)標(biāo)注所有的數(shù)據(jù)。這種通過多數(shù)據(jù)集進(jìn)行訓(xùn)練的方法，使得該框架具有優(yōu)越的泛化能力。與早期的單目全身方法相比，本文中的方法通過估算統(tǒng)計(jì)人臉模型的形狀、表情、反照率和光照參數(shù)等捕捉更具有表現(xiàn)力的3D人臉的幾何形狀和顏色。該方法在公共數(shù)據(jù)集基準(zhǔn)上測(cè)試獲得較高的精度，同時(shí)能夠提供更完整的面部重建。

研究貢獻(xiàn)：

(1) 第一種實(shí)時(shí)方法，可以從單一顏色圖像中共同捕獲人的3D身體，手部和臉部。

(2) 一種新穎的網(wǎng)絡(luò)結(jié)構(gòu)，并利用人體內(nèi)部的相關(guān)性進(jìn)行手部關(guān)鍵點(diǎn)檢測(cè)，從而提高了計(jì)算效率和準(zhǔn)確性。

(3) 利用解耦模塊，注意機(jī)制和二級(jí)主體關(guān)鍵點(diǎn)檢測(cè)結(jié)構(gòu)等，提高了該框架的通用性。

研究方法：

如上圖所示，研究人員將單目彩色圖像作為輸入，并輸出2D和3D關(guān)鍵點(diǎn)位置，關(guān)節(jié)角度以及身體和手部的形狀參數(shù)，以及面部表情，形狀，反照率和光照參數(shù)。然后，研究人員對(duì)新的參數(shù)模型進(jìn)行動(dòng)畫處理，以恢復(fù)致密的人體表面。整個(gè)網(wǎng)絡(luò)框架主要被劃分為四個(gè)獨(dú)立的模塊：DetNet，是根據(jù)人體圖像估算人體和手部關(guān)鍵點(diǎn)的位置，其中嵌有新的交互特征，注意力機(jī)制和二級(jí)人體關(guān)鍵點(diǎn)檢測(cè)結(jié)構(gòu)。BodyIKNet和HandIKNet，是根據(jù)人體和手部的關(guān)鍵點(diǎn)坐標(biāo)估計(jì)形狀參數(shù)和關(guān)節(jié)角度；FaceNet，是用于從人臉圖像裁剪中回歸獲取人臉的參數(shù)。

(1) DetNet

關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)DetNet的目標(biāo)是根據(jù)輸入圖像估算3D身體和手部關(guān)鍵點(diǎn)坐標(biāo)。因?yàn)樯眢w和手部在圖像中的比例不同，因此單個(gè)網(wǎng)絡(luò)無(wú)法同時(shí)處理兩項(xiàng)任務(wù)。簡(jiǎn)單常用的解決方案是使用兩個(gè)單獨(dú)的網(wǎng)絡(luò)，但是這意味著將需要更長(zhǎng)的運(yùn)行時(shí)間，從而難以滿足實(shí)時(shí)性。該項(xiàng)研究中，研究人員觀察發(fā)現(xiàn)：利用身體關(guān)鍵點(diǎn)估計(jì)提取的手部區(qū)域的全局特征可以與手部構(gòu)建分支共享。通過將它們與從手部區(qū)域中單獨(dú)提取的高頻局部特征相結(jié)合，可以避免對(duì)手部高級(jí)特征的計(jì)算，并且可以提供用于手部關(guān)鍵點(diǎn)檢測(cè)的身體信息，更有利于獲得更高的精度。

(2) IKNet

稀疏的3D關(guān)鍵點(diǎn)位置不足以驅(qū)動(dòng)CG角色模型，如果想要對(duì)人體網(wǎng)格模型進(jìn)行動(dòng)畫處理，并且獲得密集的人體表面，需要從稀疏的關(guān)鍵點(diǎn)中估計(jì)人體的關(guān)節(jié)角度。這種計(jì)算任務(wù)稱為逆運(yùn)動(dòng)學(xué)（IK）。通常，IK任務(wù)是通過迭代優(yōu)化方法解決的，這種方法運(yùn)算時(shí)間較長(zhǎng)。但是，在這項(xiàng)研究中，研究人員使用稱為IKNet的完全連接的神經(jīng)網(wǎng)絡(luò)模塊從關(guān)鍵點(diǎn)坐標(biāo)回歸關(guān)節(jié)角度，借助附加的MoCap數(shù)據(jù)進(jìn)行訓(xùn)練，IKNet會(huì)從數(shù)據(jù)中隱式地先獲取一個(gè)姿勢(shì)，從而進(jìn)一步減少了關(guān)鍵點(diǎn)位置誤差。由于采用了端到端的體系結(jié)構(gòu)，IKNet獲得了卓越的運(yùn)行性能，有利于提高實(shí)時(shí)性。

IKNet是一個(gè)完全連接的網(wǎng)絡(luò)，它輸入關(guān)鍵點(diǎn)坐標(biāo)，輸出身體和手的關(guān)節(jié)旋轉(zhuǎn)。與其他方法相比，研究人員使用相對(duì)6D旋轉(zhuǎn)作為輸出公式，并且在神經(jīng)網(wǎng)絡(luò)中另外估算了形狀參數(shù)和比例因子。由于幾乎沒有同時(shí)包含身體和手部關(guān)節(jié)旋轉(zhuǎn)的MoCap數(shù)據(jù)，因此研究人員訓(xùn)練BodyIKNet和HandIKNet分別估計(jì)身體和手部的關(guān)節(jié)旋轉(zhuǎn)，而不是訓(xùn)練一個(gè)將所有關(guān)節(jié)角度都回歸的網(wǎng)絡(luò)。損失定義為：

(3) FaceNet

研究人員采用了FaceNet卷積模塊，從一個(gè)面部中心為中心的圖像估計(jì)3DMM統(tǒng)計(jì)人臉模型的形狀，表情，反照率和光照參數(shù)。通過根據(jù)DetNet估計(jì)的面部裁剪圖像來(lái)獲得面部圖像。與之前僅僅估計(jì)面部表情的全身捕捉的研究相比，利用這種方法，研究人員對(duì)形狀，反照率和光照參數(shù)的回歸可提供更為個(gè)性化和逼真的效果。由于原始的FaceNet中的原始模型對(duì)圖像中人臉的大小和位置很敏感，因此研究人員使用DetNet產(chǎn)生的人臉對(duì)其進(jìn)行微調(diào)，能夠?qū)崿F(xiàn)更好的泛化。

實(shí)驗(yàn)：

研究人員利用AMASS，HUMBI和SPIN數(shù)據(jù)集訓(xùn)練BodyIKNet，并按照已有方法使用MoCap數(shù)據(jù)訓(xùn)練HandIKNet。對(duì)HandIKNet和BodyIKNet的訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng)。FaceNet在VoxCeleb2數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，并使用來(lái)自MTC的面部圖像進(jìn)行微調(diào)。研究人員使用與MTC，HM36M和MPII3D中相同的評(píng)價(jià)標(biāo)準(zhǔn)評(píng)估MTC，HM36M，MPII3D和HUMBI在人體運(yùn)動(dòng)預(yù)測(cè)的結(jié)果。在HUMBI數(shù)據(jù)集上，研究人員選擇15個(gè)評(píng)估的關(guān)鍵點(diǎn)，從而與其他數(shù)據(jù)集保持一致，同時(shí)忽略圖像外部的關(guān)鍵點(diǎn)。對(duì)于手部評(píng)估，研究人員使用MTC數(shù)據(jù)集和FreiHand數(shù)據(jù)集。由于并非所有MTC中的測(cè)試圖像都帶有雙手的標(biāo)注，因此研究人員僅對(duì)帶有雙手標(biāo)記的樣本進(jìn)行評(píng)估，稱為MTC-Hand。研究人員使用以毫米為單位的平均關(guān)節(jié)位置誤差作為身體和手部姿勢(shì)估計(jì)的度量。

研究人員在上圖中給出定性結(jié)果，并與Choutas等人的最新方法進(jìn)行了比較。盡管實(shí)驗(yàn)結(jié)果顯示該種方法的速度更快，但是可以提供具有質(zhì)量的預(yù)測(cè)結(jié)果。在第一行中，顯示了該模型捕獲的詳細(xì)的手勢(shì)，而Choutas等人給出了過度平滑的估計(jì)。這是因?yàn)檠芯咳藛T利用了從高分辨率手形圖像中提取的高頻局部特征。在第二行中，證明了該研究中手部姿勢(shì)與手腕和手臂的姿勢(shì)一致，而Choutas等人的結(jié)果在人體解剖學(xué)上是不正確的。這是由于該研究利用身體信息進(jìn)行手勢(shì)估計(jì)。研究人員在第三行中證明，隨著面部形狀和顏色的變化，研究人員的方法可提供高度個(gè)性化的捕獲結(jié)果，而Choutas等人則缺少身份信息。

在上圖中，研究人員比較了兩種不同的面部裁剪捕捉結(jié)果。由于研究人員的方法不估計(jì)相機(jī)姿態(tài)，為了疊加可視化，研究人員采用PnP-RANSAC和PA來(lái)對(duì)齊研究人員的3D和2D預(yù)測(cè)。

研究人員在上表中報(bào)告了實(shí)驗(yàn)中手部姿態(tài)估計(jì)的結(jié)果。IK后的結(jié)果是基于handknet估計(jì)的形狀參數(shù)。在MTCHand測(cè)試集上，研究人員的平均誤差只有9.3毫米。研究人員認(rèn)為IK后誤差增加1.1mm是因?yàn)镾MPLH和MTC手部模型在關(guān)鍵點(diǎn)上存在定義的差異，因?yàn)楣情L(zhǎng)度的差異平均為25%。在FreiHand，研究結(jié)果的差異增加了，這是因?yàn)镕reiHand是一個(gè)只有手部姿態(tài)的數(shù)據(jù)集，而在本文的研究方法中，人體姿態(tài)依賴于身體信息。由于研究方法中沒有特定應(yīng)用于手部的網(wǎng)絡(luò)，為了對(duì)手部運(yùn)動(dòng)進(jìn)行評(píng)估，研究人員必須將手的圖像填充到完整的尺寸，并將其輸入到模型中，如下圖所示，就像呈現(xiàn)身體一樣。即使這種方法存在很多的不足，但是通過這種方法后，實(shí)驗(yàn)結(jié)果與Choutas等人的研究結(jié)果依舊旗鼓相當(dāng)。

總結(jié)：

研究人員提出了第一種實(shí)時(shí)方法，可以從單個(gè)RGB圖像中捕獲身體，手部和臉。基于觀察到的身體和手部運(yùn)動(dòng)是內(nèi)部相關(guān)的這一特性，研究人員利用這種關(guān)鍵部位之間的相關(guān)性設(shè)計(jì)網(wǎng)絡(luò)，從而獲得較高的運(yùn)算效率和運(yùn)算準(zhǔn)確性。

通過將網(wǎng)絡(luò)訓(xùn)練為獨(dú)立的模塊，引入注意機(jī)制和二階段人體關(guān)鍵點(diǎn)檢測(cè)，研究人員利用了多個(gè)不同的數(shù)據(jù)集并取得了較好的實(shí)驗(yàn)結(jié)果。此外，該種方法不僅可以捕捉表情，還可以捕捉與身份相關(guān)的形狀和反照率等參數(shù)，從而獲得更具個(gè)性化的面部表情。接下來(lái)，研究的方向可能涉及身體紋理部分，以獲得彩色的人體跟蹤或人體表面的變形。

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請(qǐng)聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

CVPR2021：?jiǎn)文繉?shí)時(shí)全身動(dòng)作捕捉（清華大學(xué)）

相關(guān)推薦

技術(shù)專區(qū)