博客專欄

EEPW首頁(yè) > 博客 > CVPR2021:?jiǎn)文繉?shí)時(shí)全身動(dòng)作捕捉(清華大學(xué))

CVPR2021:?jiǎn)文繉?shí)時(shí)全身動(dòng)作捕捉(清華大學(xué))

發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2021-05-14 來(lái)源:工程師 發(fā)布文章

1.png

摘要:

本文提出了第一種實(shí)時(shí)全身捕捉的方法,該方法通過單一顏色圖像的動(dòng)態(tài)3D人臉模型來(lái)估計(jì)身體和手的形狀和運(yùn)動(dòng)。研究人員使用了一種新的神經(jīng)網(wǎng)絡(luò)框架,考慮了身體和手部之間的相關(guān)性,并能夠以高效率進(jìn)行內(nèi)部運(yùn)算。與以往的研究不同的是,該研究方法是在多個(gè)數(shù)據(jù)集上聯(lián)合訓(xùn)練,分別關(guān)注手部、身體或面部,不需要同時(shí)標(biāo)注所有的數(shù)據(jù)。這種通過多數(shù)據(jù)集進(jìn)行訓(xùn)練的方法,使得該框架具有優(yōu)越的泛化能力。與早期的單目全身方法相比,本文中的方法通過估算統(tǒng)計(jì)人臉模型的形狀、表情、反照率和光照參數(shù)等捕捉更具有表現(xiàn)力的3D人臉的幾何形狀和顏色。該方法在公共數(shù)據(jù)集基準(zhǔn)上測(cè)試獲得較高的精度,同時(shí)能夠提供更完整的面部重建。 

研究貢獻(xiàn):

(1)   第一種實(shí)時(shí)方法,可以從單一顏色圖像中共同捕獲人的3D身體,手部和臉部。

(2)   一種新穎的網(wǎng)絡(luò)結(jié)構(gòu),并利用人體內(nèi)部的相關(guān)性進(jìn)行手部關(guān)鍵點(diǎn)檢測(cè),從而提高了計(jì)算效率和準(zhǔn)確性。

(3)   利用解耦模塊,注意機(jī)制和二級(jí)主體關(guān)鍵點(diǎn)檢測(cè)結(jié)構(gòu)等,提高了該框架的通用性。 

研究方法:

2.png

如上圖所示,研究人員將單目彩色圖像作為輸入,并輸出2D和3D關(guān)鍵點(diǎn)位置,關(guān)節(jié)角度以及身體和手部的形狀參數(shù),以及面部表情,形狀,反照率和光照參數(shù)。然后,研究人員對(duì)新的參數(shù)模型進(jìn)行動(dòng)畫處理,以恢復(fù)致密的人體表面。整個(gè)網(wǎng)絡(luò)框架主要被劃分為四個(gè)獨(dú)立的模塊:DetNet,是根據(jù)人體圖像估算人體和手部關(guān)鍵點(diǎn)的位置,其中嵌有新的交互特征,注意力機(jī)制和二級(jí)人體關(guān)鍵點(diǎn)檢測(cè)結(jié)構(gòu)。BodyIKNet和HandIKNet,是根據(jù)人體和手部的關(guān)鍵點(diǎn)坐標(biāo)估計(jì)形狀參數(shù)和關(guān)節(jié)角度;FaceNet,是用于從人臉圖像裁剪中回歸獲取人臉的參數(shù)。

(1) DetNet

關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)DetNet的目標(biāo)是根據(jù)輸入圖像估算3D身體和手部關(guān)鍵點(diǎn)坐標(biāo)。因?yàn)樯眢w和手部在圖像中的比例不同,因此單個(gè)網(wǎng)絡(luò)無(wú)法同時(shí)處理兩項(xiàng)任務(wù)。簡(jiǎn)單常用的解決方案是使用兩個(gè)單獨(dú)的網(wǎng)絡(luò),但是這意味著將需要更長(zhǎng)的運(yùn)行時(shí)間,從而難以滿足實(shí)時(shí)性。該項(xiàng)研究中,研究人員觀察發(fā)現(xiàn):利用身體關(guān)鍵點(diǎn)估計(jì)提取的手部區(qū)域的全局特征可以與手部構(gòu)建分支共享。通過將它們與從手部區(qū)域中單獨(dú)提取的高頻局部特征相結(jié)合,可以避免對(duì)手部高級(jí)特征的計(jì)算,并且可以提供用于手部關(guān)鍵點(diǎn)檢測(cè)的身體信息,更有利于獲得更高的精度。

(2) IKNet

稀疏的3D關(guān)鍵點(diǎn)位置不足以驅(qū)動(dòng)CG角色模型,如果想要對(duì)人體網(wǎng)格模型進(jìn)行動(dòng)畫處理,并且獲得密集的人體表面,需要從稀疏的關(guān)鍵點(diǎn)中估計(jì)人體的關(guān)節(jié)角度。這種計(jì)算任務(wù)稱為逆運(yùn)動(dòng)學(xué)(IK)。通常,IK任務(wù)是通過迭代優(yōu)化方法解決的,這種方法運(yùn)算時(shí)間較長(zhǎng)。但是,在這項(xiàng)研究中,研究人員使用稱為IKNet的完全連接的神經(jīng)網(wǎng)絡(luò)模塊從關(guān)鍵點(diǎn)坐標(biāo)回歸關(guān)節(jié)角度,借助附加的MoCap數(shù)據(jù)進(jìn)行訓(xùn)練,IKNet會(huì)從數(shù)據(jù)中隱式地先獲取一個(gè)姿勢(shì),從而進(jìn)一步減少了關(guān)鍵點(diǎn)位置誤差。由于采用了端到端的體系結(jié)構(gòu),IKNet獲得了卓越的運(yùn)行性能,有利于提高實(shí)時(shí)性。

IKNet是一個(gè)完全連接的網(wǎng)絡(luò),它輸入關(guān)鍵點(diǎn)坐標(biāo),輸出身體和手的關(guān)節(jié)旋轉(zhuǎn)。與其他方法相比,研究人員使用相對(duì)6D旋轉(zhuǎn)作為輸出公式,并且在神經(jīng)網(wǎng)絡(luò)中另外估算了形狀參數(shù)和比例因子。由于幾乎沒有同時(shí)包含身體和手部關(guān)節(jié)旋轉(zhuǎn)的MoCap數(shù)據(jù),因此研究人員訓(xùn)練BodyIKNet和HandIKNet分別估計(jì)身體和手部的關(guān)節(jié)旋轉(zhuǎn),而不是訓(xùn)練一個(gè)將所有關(guān)節(jié)角度都回歸的網(wǎng)絡(luò)。損失定義為:

3.jpg

(3) FaceNet

研究人員采用了FaceNet卷積模塊,從一個(gè)面部中心為中心的圖像估計(jì)3DMM統(tǒng)計(jì)人臉模型的形狀,表情,反照率和光照參數(shù)。通過根據(jù)DetNet估計(jì)的面部裁剪圖像來(lái)獲得面部圖像。與之前僅僅估計(jì)面部表情的全身捕捉的研究相比,利用這種方法,研究人員對(duì)形狀,反照率和光照參數(shù)的回歸可提供更為個(gè)性化和逼真的效果。由于原始的FaceNet中的原始模型對(duì)圖像中人臉的大小和位置很敏感,因此研究人員使用DetNet產(chǎn)生的人臉對(duì)其進(jìn)行微調(diào),能夠?qū)崿F(xiàn)更好的泛化。 

實(shí)驗(yàn):

研究人員利用AMASS,HUMBI和SPIN數(shù)據(jù)集訓(xùn)練BodyIKNet,并按照已有方法使用MoCap數(shù)據(jù)訓(xùn)練HandIKNet。對(duì)HandIKNet和BodyIKNet的訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng)。FaceNet在VoxCeleb2數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并使用來(lái)自MTC的面部圖像進(jìn)行微調(diào)。研究人員使用與MTC,HM36M和MPII3D中相同的評(píng)價(jià)標(biāo)準(zhǔn)評(píng)估MTC,HM36M,MPII3D和HUMBI在人體運(yùn)動(dòng)預(yù)測(cè)的結(jié)果。在HUMBI數(shù)據(jù)集上,研究人員選擇15個(gè)評(píng)估的關(guān)鍵點(diǎn),從而與其他數(shù)據(jù)集保持一致,同時(shí)忽略圖像外部的關(guān)鍵點(diǎn)。對(duì)于手部評(píng)估,研究人員使用MTC數(shù)據(jù)集和FreiHand數(shù)據(jù)集。由于并非所有MTC中的測(cè)試圖像都帶有雙手的標(biāo)注,因此研究人員僅對(duì)帶有雙手標(biāo)記的樣本進(jìn)行評(píng)估,稱為MTC-Hand。研究人員使用以毫米為單位的平均關(guān)節(jié)位置誤差作為身體和手部姿勢(shì)估計(jì)的度量。

4.png

研究人員在上圖中給出定性結(jié)果,并與Choutas等人的最新方法進(jìn)行了比較。盡管實(shí)驗(yàn)結(jié)果顯示該種方法的速度更快,但是可以提供具有質(zhì)量的預(yù)測(cè)結(jié)果。在第一行中,顯示了該模型捕獲的詳細(xì)的手勢(shì),而Choutas等人給出了過度平滑的估計(jì)。這是因?yàn)檠芯咳藛T利用了從高分辨率手形圖像中提取的高頻局部特征。在第二行中,證明了該研究中手部姿勢(shì)與手腕和手臂的姿勢(shì)一致,而Choutas等人的結(jié)果在人體解剖學(xué)上是不正確的。這是由于該研究利用身體信息進(jìn)行手勢(shì)估計(jì)。研究人員在第三行中證明,隨著面部形狀和顏色的變化,研究人員的方法可提供高度個(gè)性化的捕獲結(jié)果,而Choutas等人則缺少身份信息。

5.png

在上圖中,研究人員比較了兩種不同的面部裁剪捕捉結(jié)果。由于研究人員的方法不估計(jì)相機(jī)姿態(tài),為了疊加可視化,研究人員采用PnP-RANSAC和PA來(lái)對(duì)齊研究人員的3D和2D預(yù)測(cè)。

6.png

研究人員在上表中報(bào)告了實(shí)驗(yàn)中手部姿態(tài)估計(jì)的結(jié)果。IK后的結(jié)果是基于handknet估計(jì)的形狀參數(shù)。在MTCHand測(cè)試集上,研究人員的平均誤差只有9.3毫米。研究人員認(rèn)為IK后誤差增加1.1mm是因?yàn)镾MPLH和MTC手部模型在關(guān)鍵點(diǎn)上存在定義的差異,因?yàn)楣情L(zhǎng)度的差異平均為25%。在FreiHand,研究結(jié)果的差異增加了,這是因?yàn)镕reiHand是一個(gè)只有手部姿態(tài)的數(shù)據(jù)集,而在本文的研究方法中,人體姿態(tài)依賴于身體信息。由于研究方法中沒有特定應(yīng)用于手部的網(wǎng)絡(luò),為了對(duì)手部運(yùn)動(dòng)進(jìn)行評(píng)估,研究人員必須將手的圖像填充到完整的尺寸,并將其輸入到模型中,如下圖所示,就像呈現(xiàn)身體一樣。即使這種方法存在很多的不足,但是通過這種方法后,實(shí)驗(yàn)結(jié)果與Choutas等人的研究結(jié)果依舊旗鼓相當(dāng)。

7.png

總結(jié):

研究人員提出了第一種實(shí)時(shí)方法,可以從單個(gè)RGB圖像中捕獲身體,手部和臉。基于觀察到的身體和手部運(yùn)動(dòng)是內(nèi)部相關(guān)的這一特性,研究人員利用這種關(guān)鍵部位之間的相關(guān)性設(shè)計(jì)網(wǎng)絡(luò),從而獲得較高的運(yùn)算效率和運(yùn)算準(zhǔn)確性。

通過將網(wǎng)絡(luò)訓(xùn)練為獨(dú)立的模塊,引入注意機(jī)制和二階段人體關(guān)鍵點(diǎn)檢測(cè),研究人員利用了多個(gè)不同的數(shù)據(jù)集并取得了較好的實(shí)驗(yàn)結(jié)果。此外,該種方法不僅可以捕捉表情,還可以捕捉與身份相關(guān)的形狀和反照率等參數(shù),從而獲得更具個(gè)性化的面部表情。接下來(lái),研究的方向可能涉及身體紋理部分,以獲得彩色的人體跟蹤或人體表面的變形。

本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉