CVPR2021:單目實(shí)時(shí)全身動作捕捉(清華大學(xué))
摘要:
本文提出了第一種實(shí)時(shí)全身捕捉的方法,該方法通過單一顏色圖像的動態(tài)3D人臉模型來估計(jì)身體和手的形狀和運(yùn)動。研究人員使用了一種新的神經(jīng)網(wǎng)絡(luò)框架,考慮了身體和手部之間的相關(guān)性,并能夠以高效率進(jìn)行內(nèi)部運(yùn)算。與以往的研究不同的是,該研究方法是在多個(gè)數(shù)據(jù)集上聯(lián)合訓(xùn)練,分別關(guān)注手部、身體或面部,不需要同時(shí)標(biāo)注所有的數(shù)據(jù)。這種通過多數(shù)據(jù)集進(jìn)行訓(xùn)練的方法,使得該框架具有優(yōu)越的泛化能力。與早期的單目全身方法相比,本文中的方法通過估算統(tǒng)計(jì)人臉模型的形狀、表情、反照率和光照參數(shù)等捕捉更具有表現(xiàn)力的3D人臉的幾何形狀和顏色。該方法在公共數(shù)據(jù)集基準(zhǔn)上測試獲得較高的精度,同時(shí)能夠提供更完整的面部重建。
研究貢獻(xiàn):
(1) 第一種實(shí)時(shí)方法,可以從單一顏色圖像中共同捕獲人的3D身體,手部和臉部。
(2) 一種新穎的網(wǎng)絡(luò)結(jié)構(gòu),并利用人體內(nèi)部的相關(guān)性進(jìn)行手部關(guān)鍵點(diǎn)檢測,從而提高了計(jì)算效率和準(zhǔn)確性。
(3) 利用解耦模塊,注意機(jī)制和二級主體關(guān)鍵點(diǎn)檢測結(jié)構(gòu)等,提高了該框架的通用性。
研究方法:
如上圖所示,研究人員將單目彩色圖像作為輸入,并輸出2D和3D關(guān)鍵點(diǎn)位置,關(guān)節(jié)角度以及身體和手部的形狀參數(shù),以及面部表情,形狀,反照率和光照參數(shù)。然后,研究人員對新的參數(shù)模型進(jìn)行動畫處理,以恢復(fù)致密的人體表面。整個(gè)網(wǎng)絡(luò)框架主要被劃分為四個(gè)獨(dú)立的模塊:DetNet,是根據(jù)人體圖像估算人體和手部關(guān)鍵點(diǎn)的位置,其中嵌有新的交互特征,注意力機(jī)制和二級人體關(guān)鍵點(diǎn)檢測結(jié)構(gòu)。BodyIKNet和HandIKNet,是根據(jù)人體和手部的關(guān)鍵點(diǎn)坐標(biāo)估計(jì)形狀參數(shù)和關(guān)節(jié)角度;FaceNet,是用于從人臉圖像裁剪中回歸獲取人臉的參數(shù)。
(1) DetNet
關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)DetNet的目標(biāo)是根據(jù)輸入圖像估算3D身體和手部關(guān)鍵點(diǎn)坐標(biāo)。因?yàn)樯眢w和手部在圖像中的比例不同,因此單個(gè)網(wǎng)絡(luò)無法同時(shí)處理兩項(xiàng)任務(wù)。簡單常用的解決方案是使用兩個(gè)單獨(dú)的網(wǎng)絡(luò),但是這意味著將需要更長的運(yùn)行時(shí)間,從而難以滿足實(shí)時(shí)性。該項(xiàng)研究中,研究人員觀察發(fā)現(xiàn):利用身體關(guān)鍵點(diǎn)估計(jì)提取的手部區(qū)域的全局特征可以與手部構(gòu)建分支共享。通過將它們與從手部區(qū)域中單獨(dú)提取的高頻局部特征相結(jié)合,可以避免對手部高級特征的計(jì)算,并且可以提供用于手部關(guān)鍵點(diǎn)檢測的身體信息,更有利于獲得更高的精度。
(2) IKNet
稀疏的3D關(guān)鍵點(diǎn)位置不足以驅(qū)動CG角色模型,如果想要對人體網(wǎng)格模型進(jìn)行動畫處理,并且獲得密集的人體表面,需要從稀疏的關(guān)鍵點(diǎn)中估計(jì)人體的關(guān)節(jié)角度。這種計(jì)算任務(wù)稱為逆運(yùn)動學(xué)(IK)。通常,IK任務(wù)是通過迭代優(yōu)化方法解決的,這種方法運(yùn)算時(shí)間較長。但是,在這項(xiàng)研究中,研究人員使用稱為IKNet的完全連接的神經(jīng)網(wǎng)絡(luò)模塊從關(guān)鍵點(diǎn)坐標(biāo)回歸關(guān)節(jié)角度,借助附加的MoCap數(shù)據(jù)進(jìn)行訓(xùn)練,IKNet會從數(shù)據(jù)中隱式地先獲取一個(gè)姿勢,從而進(jìn)一步減少了關(guān)鍵點(diǎn)位置誤差。由于采用了端到端的體系結(jié)構(gòu),IKNet獲得了卓越的運(yùn)行性能,有利于提高實(shí)時(shí)性。
IKNet是一個(gè)完全連接的網(wǎng)絡(luò),它輸入關(guān)鍵點(diǎn)坐標(biāo),輸出身體和手的關(guān)節(jié)旋轉(zhuǎn)。與其他方法相比,研究人員使用相對6D旋轉(zhuǎn)作為輸出公式,并且在神經(jīng)網(wǎng)絡(luò)中另外估算了形狀參數(shù)和比例因子。由于幾乎沒有同時(shí)包含身體和手部關(guān)節(jié)旋轉(zhuǎn)的MoCap數(shù)據(jù),因此研究人員訓(xùn)練BodyIKNet和HandIKNet分別估計(jì)身體和手部的關(guān)節(jié)旋轉(zhuǎn),而不是訓(xùn)練一個(gè)將所有關(guān)節(jié)角度都回歸的網(wǎng)絡(luò)。損失定義為:
(3) FaceNet
研究人員采用了FaceNet卷積模塊,從一個(gè)面部中心為中心的圖像估計(jì)3DMM統(tǒng)計(jì)人臉模型的形狀,表情,反照率和光照參數(shù)。通過根據(jù)DetNet估計(jì)的面部裁剪圖像來獲得面部圖像。與之前僅僅估計(jì)面部表情的全身捕捉的研究相比,利用這種方法,研究人員對形狀,反照率和光照參數(shù)的回歸可提供更為個(gè)性化和逼真的效果。由于原始的FaceNet中的原始模型對圖像中人臉的大小和位置很敏感,因此研究人員使用DetNet產(chǎn)生的人臉對其進(jìn)行微調(diào),能夠?qū)崿F(xiàn)更好的泛化。
實(shí)驗(yàn):
研究人員利用AMASS,HUMBI和SPIN數(shù)據(jù)集訓(xùn)練BodyIKNet,并按照已有方法使用MoCap數(shù)據(jù)訓(xùn)練HandIKNet。對HandIKNet和BodyIKNet的訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng)。FaceNet在VoxCeleb2數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并使用來自MTC的面部圖像進(jìn)行微調(diào)。研究人員使用與MTC,HM36M和MPII3D中相同的評價(jià)標(biāo)準(zhǔn)評估MTC,HM36M,MPII3D和HUMBI在人體運(yùn)動預(yù)測的結(jié)果。在HUMBI數(shù)據(jù)集上,研究人員選擇15個(gè)評估的關(guān)鍵點(diǎn),從而與其他數(shù)據(jù)集保持一致,同時(shí)忽略圖像外部的關(guān)鍵點(diǎn)。對于手部評估,研究人員使用MTC數(shù)據(jù)集和FreiHand數(shù)據(jù)集。由于并非所有MTC中的測試圖像都帶有雙手的標(biāo)注,因此研究人員僅對帶有雙手標(biāo)記的樣本進(jìn)行評估,稱為MTC-Hand。研究人員使用以毫米為單位的平均關(guān)節(jié)位置誤差作為身體和手部姿勢估計(jì)的度量。
研究人員在上圖中給出定性結(jié)果,并與Choutas等人的最新方法進(jìn)行了比較。盡管實(shí)驗(yàn)結(jié)果顯示該種方法的速度更快,但是可以提供具有質(zhì)量的預(yù)測結(jié)果。在第一行中,顯示了該模型捕獲的詳細(xì)的手勢,而Choutas等人給出了過度平滑的估計(jì)。這是因?yàn)檠芯咳藛T利用了從高分辨率手形圖像中提取的高頻局部特征。在第二行中,證明了該研究中手部姿勢與手腕和手臂的姿勢一致,而Choutas等人的結(jié)果在人體解剖學(xué)上是不正確的。這是由于該研究利用身體信息進(jìn)行手勢估計(jì)。研究人員在第三行中證明,隨著面部形狀和顏色的變化,研究人員的方法可提供高度個(gè)性化的捕獲結(jié)果,而Choutas等人則缺少身份信息。
在上圖中,研究人員比較了兩種不同的面部裁剪捕捉結(jié)果。由于研究人員的方法不估計(jì)相機(jī)姿態(tài),為了疊加可視化,研究人員采用PnP-RANSAC和PA來對齊研究人員的3D和2D預(yù)測。
研究人員在上表中報(bào)告了實(shí)驗(yàn)中手部姿態(tài)估計(jì)的結(jié)果。IK后的結(jié)果是基于handknet估計(jì)的形狀參數(shù)。在MTCHand測試集上,研究人員的平均誤差只有9.3毫米。研究人員認(rèn)為IK后誤差增加1.1mm是因?yàn)镾MPLH和MTC手部模型在關(guān)鍵點(diǎn)上存在定義的差異,因?yàn)楣情L度的差異平均為25%。在FreiHand,研究結(jié)果的差異增加了,這是因?yàn)镕reiHand是一個(gè)只有手部姿態(tài)的數(shù)據(jù)集,而在本文的研究方法中,人體姿態(tài)依賴于身體信息。由于研究方法中沒有特定應(yīng)用于手部的網(wǎng)絡(luò),為了對手部運(yùn)動進(jìn)行評估,研究人員必須將手的圖像填充到完整的尺寸,并將其輸入到模型中,如下圖所示,就像呈現(xiàn)身體一樣。即使這種方法存在很多的不足,但是通過這種方法后,實(shí)驗(yàn)結(jié)果與Choutas等人的研究結(jié)果依舊旗鼓相當(dāng)。
總結(jié):
研究人員提出了第一種實(shí)時(shí)方法,可以從單個(gè)RGB圖像中捕獲身體,手部和臉?;谟^察到的身體和手部運(yùn)動是內(nèi)部相關(guān)的這一特性,研究人員利用這種關(guān)鍵部位之間的相關(guān)性設(shè)計(jì)網(wǎng)絡(luò),從而獲得較高的運(yùn)算效率和運(yùn)算準(zhǔn)確性。
通過將網(wǎng)絡(luò)訓(xùn)練為獨(dú)立的模塊,引入注意機(jī)制和二階段人體關(guān)鍵點(diǎn)檢測,研究人員利用了多個(gè)不同的數(shù)據(jù)集并取得了較好的實(shí)驗(yàn)結(jié)果。此外,該種方法不僅可以捕捉表情,還可以捕捉與身份相關(guān)的形狀和反照率等參數(shù),從而獲得更具個(gè)性化的面部表情。接下來,研究的方向可能涉及身體紋理部分,以獲得彩色的人體跟蹤或人體表面的變形。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。