最新綜述!單目圖像重建三維人體?。ㄇ迦A南大)
【導(dǎo)讀】來(lái)自南京大學(xué)和清華大學(xué)的最新研究論文《從單目圖像中恢復(fù)三維人體網(wǎng)格》,提出了從而二維數(shù)據(jù)提升至三維網(wǎng)格過(guò)程中基于優(yōu)化和基于回歸的兩種范式,第一次關(guān)注單目3D人體網(wǎng)格恢復(fù)任務(wù)的研究,并討論了有待解決的問(wèn)題和未來(lái)的發(fā)展方向。
從單目圖像中估計(jì)人體的姿勢(shì)和形狀是計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)長(zhǎng)期存在的問(wèn)題。自統(tǒng)計(jì)學(xué)人體模型發(fā)布以來(lái),三維人體網(wǎng)格恢復(fù)一直受到廣泛關(guān)注。
為了獲得有序的、符合物理規(guī)律的網(wǎng)格數(shù)據(jù)而開(kāi)發(fā)了兩種范式,以克服從二維到三維提升過(guò)程中的挑戰(zhàn):i)基于優(yōu)化的范式,利用不同的數(shù)據(jù)項(xiàng)和正則化項(xiàng)作為優(yōu)化目標(biāo);ii)基于回歸的范式,采用深度學(xué)習(xí)技術(shù)以端到端的方式解決問(wèn)題。同時(shí),不斷提高各種數(shù)據(jù)集的3D網(wǎng)格標(biāo)簽的質(zhì)量。
盡管在過(guò)去十年中,該研究取得了顯著的進(jìn)展,但由于肢體動(dòng)作靈活、外觀多樣、環(huán)境復(fù)雜以及人工注釋不足,這項(xiàng)任務(wù)仍然具有挑戰(zhàn)性。
據(jù)調(diào)查,這是第一次關(guān)注單目3D人體網(wǎng)格恢復(fù)任務(wù)的研究。
論文鏈接:https://arxiv.org/abs/2203.01923
我們從介紹人體模型開(kāi)始,通過(guò)深入分析其優(yōu)缺點(diǎn)詳細(xì)闡述了恢復(fù)框架和訓(xùn)練目標(biāo)。我們還總結(jié)了數(shù)據(jù)集、評(píng)估指標(biāo)和基準(zhǔn)測(cè)試結(jié)果。最后討論了有待解決的問(wèn)題和未來(lái)的發(fā)展方向,旨在激發(fā)研究人員的積極性,促進(jìn)各位學(xué)者在這一領(lǐng)域的研究。
定期更新的項(xiàng)目頁(yè)面可在https://github.com/tinatiansjz/hmr-survey查看。
引言
從單目圖像中理解人類是計(jì)算機(jī)視覺(jué)的基本任務(wù)之一。在過(guò)去的20年里,業(yè)界一直致力于預(yù)測(cè)二維內(nèi)容,如關(guān)鍵點(diǎn)、輪廓和RGB圖像的局部分割。
隨著這些進(jìn)展,研究人員進(jìn)一步尋求在3D空間中預(yù)測(cè)人類姿勢(shì)。雖然簡(jiǎn)單的動(dòng)作可以通過(guò)2D內(nèi)容或一些稀疏的3D關(guān)節(jié)相對(duì)清晰地表示出來(lái),但復(fù)雜的人類行為需要更細(xì)致地描述人體細(xì)節(jié)。此外,因?yàn)槲覀兪褂帽砻嫫つw與外界直接接觸而不是用未觀察到的關(guān)節(jié),所以對(duì)身體的形狀、接觸面、手勢(shì)和表情進(jìn)行推理也是至關(guān)重要的。
近年來(lái),社區(qū)已經(jīng)將他們的興趣轉(zhuǎn)向了人體的3D網(wǎng)格恢復(fù),以及富有表情的臉和生動(dòng)細(xì)致的手。這一趨勢(shì)與統(tǒng)計(jì)人體模型的成功密不可分。
如圖1所示,自2015年發(fā)布SMPL模型和2019年發(fā)布SMPL-X模型以來(lái),隨著它們的年度引用量逐年快速增長(zhǎng),它們獲得了越來(lái)越多的關(guān)注。
圖 1 三種具有代表性的3D統(tǒng)計(jì)人體模型的年度引用,即SCAPE、SMPL和SMPL-X
人體網(wǎng)格的恢復(fù)在促進(jìn)后續(xù)任務(wù)(如衣服人體重建、動(dòng)畫(huà)和渲染)方面起著關(guān)鍵作用。它還涉及廣泛的應(yīng)用,如VR/AR內(nèi)容創(chuàng)建、虛擬試穿、計(jì)算機(jī)輔助指導(dǎo)等等,如圖2所示。
圖 2 人體網(wǎng)格恢復(fù)的現(xiàn)實(shí)應(yīng)用:(a)一款健身視頻游戲(b) 虛擬試穿(c)3D+AI潛水教練系統(tǒng)(d)游泳過(guò)程中的動(dòng)力學(xué)模擬
從單目圖像中恢復(fù)三維人體網(wǎng)格非常具有挑戰(zhàn)性,因?yàn)閷⒍S觀測(cè)值提升到三維空間時(shí)存在固有的模糊性、柔性身體運(yùn)動(dòng)學(xué)結(jié)構(gòu)、與環(huán)境的復(fù)雜性以及人工三維數(shù)據(jù)注釋不足等問(wèn)題。
為了解決這些問(wèn)題,在該領(lǐng)域研究了兩種不同的范式,以恢復(fù)一致且物理上合理的結(jié)果。對(duì)于基于優(yōu)化的范例,通過(guò)迭代的方式將身體模型顯式地應(yīng)用于二維觀測(cè),以各種數(shù)據(jù)項(xiàng)和正則化項(xiàng)為優(yōu)化目標(biāo)。對(duì)于基于回歸的范例利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性映射能力,直接從原始圖像像素預(yù)測(cè)模型參數(shù)。設(shè)計(jì)了不同的網(wǎng)絡(luò)架構(gòu)和回歸目標(biāo),以實(shí)現(xiàn)更好的性能。
同時(shí),為了促進(jìn)這項(xiàng)任務(wù)的研究,還投入了大量精力創(chuàng)建各種數(shù)據(jù)集。盡管近年來(lái)取得了顯著進(jìn)展,但在實(shí)現(xiàn)強(qiáng)健、準(zhǔn)確和高效的人體網(wǎng)格恢復(fù)的最終目標(biāo)面前,業(yè)界仍然面臨著挑戰(zhàn)。
本綜述主要關(guān)注深度學(xué)習(xí)時(shí)代的單目3D人體網(wǎng)格恢復(fù)方法(也稱3D人體姿勢(shì)和形狀估計(jì))。
將單個(gè)RGB圖像和單目RGB視頻(統(tǒng)稱為「單目圖像」)作為輸入。除了從單目圖像中恢復(fù)單人外,我們還考慮了多人恢復(fù)。
對(duì)于重建目標(biāo),使用統(tǒng)計(jì)人體模型來(lái)估計(jì)衣服下的體型。RGBD和多視圖輸入有助于解決歧義,但它們不在本綜述的范圍內(nèi)。我們只是忽略了服裝的造型,這是向照片現(xiàn)實(shí)主義邁進(jìn)的一步。
我們請(qǐng)讀者參考中關(guān)于人類服裝重建的內(nèi)容。我們也不涉及神經(jīng)渲染方面的工作,這些工作側(cè)重于外觀的建模,而不是幾何體。
這項(xiàng)調(diào)查也是對(duì)現(xiàn)有調(diào)查論文的補(bǔ)充,主要關(guān)注2D/3D人體姿勢(shì)估計(jì)。
其余部分組織如下:
在第2節(jié)中,我們簡(jiǎn)要介紹了人類模型的發(fā)展歷史,并提供了SMPL模型的詳細(xì)信息,SMPL模型是人類推理中使用最廣泛的模板。第3節(jié)描述了用手和臉進(jìn)行身體恢復(fù)和全身恢復(fù)的方法。方法分為基于優(yōu)化的范式或基于回歸的范式。在第4節(jié)和第5節(jié)中,我們將整理出幫助處理視頻或多人恢復(fù)的新模塊。然而,如果我們僅僅用常規(guī)數(shù)據(jù)項(xiàng)監(jiān)督人體,結(jié)果可能在物理上不合理,并且存在視覺(jué)缺陷。因此,在第6節(jié)中,我們討論了通過(guò)涉及真實(shí)攝像機(jī)模型、接觸約束和人類先驗(yàn)來(lái)增強(qiáng)物理合理性的策略。第7節(jié)總結(jié)了常用的數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn),以及基準(zhǔn)排行榜。最后,我們?cè)诘?節(jié)中得出結(jié)論并指出一些有價(jià)值的未來(lái)方向。
人體網(wǎng)格恢復(fù)
自從統(tǒng)計(jì)身體模型發(fā)布以來(lái),研究人員利用它們從單目圖像中估計(jì)形狀和姿勢(shì)。Balan等率先從圖像中估計(jì)SCAPE的參數(shù)。
目前,學(xué)術(shù)界普遍采用SMPL進(jìn)行三維體型恢復(fù)。這要?dú)w功于SMPL的開(kāi)源特性和它周圍快速發(fā)展的社區(qū): Ground-Truth真相采集方法,具有擴(kuò)展SMPL注釋的數(shù)據(jù)集,以及里程碑作品。
在本節(jié)中,我們將根據(jù)預(yù)先定義的人體模型來(lái)整理人體網(wǎng)格恢復(fù)的文章。身體捕捉身材和姿勢(shì)的變化,但不考慮衣服或頭發(fā)。因此,更準(zhǔn)確地說(shuō),這些方法可以估計(jì)出穿著衣服或緊身衣時(shí)身體的形狀和姿勢(shì)。
在圖4中,我們演示了一些有代表性的方法。我們根據(jù)它們采用的人體模型對(duì)它們進(jìn)行分類。
圖 3 最相關(guān)的參數(shù)化人體模型和3D人體網(wǎng)格恢復(fù)方法時(shí)間軸
圖 4 基于回歸的人體網(wǎng)格恢復(fù)方法的流程
回歸網(wǎng)絡(luò)中各種輸出類型和中間表示的說(shuō)明
我們研究了四種輸出類型:(a)參數(shù)輸出;(b)網(wǎng)格頂點(diǎn)的三維坐標(biāo);(c)UV 位置圖;(d)在姿態(tài)和/或形狀參數(shù)上的概率分布。
在多階段框架中采用的中間表示包括(a)輪廓;(b)分割;(c) 2D位姿熱圖;(d)二維關(guān)鍵點(diǎn)坐標(biāo);(e) IUV地圖;(d)三維關(guān)鍵點(diǎn)坐標(biāo),可作為簡(jiǎn)化輸入或指導(dǎo)。
表 1 用于人體網(wǎng)格恢復(fù)的典型回歸方法總結(jié)
總結(jié)
在這篇論文告中,我們對(duì)過(guò)去十年中的3D人體網(wǎng)格恢復(fù)方法進(jìn)行了全面概述。分類基于設(shè)計(jì)范式、重構(gòu)粒度和應(yīng)用場(chǎng)景。
我們還特別考慮了物理合理性,包括相機(jī)模型、接觸約束和人類先驗(yàn)。
在實(shí)驗(yàn)部分,我們介紹了相關(guān)的數(shù)據(jù)集、評(píng)估指標(biāo),并提供了性能比較,希望促進(jìn)這一領(lǐng)域的進(jìn)步。
參考資料:
https://arxiv.org/abs/2203.01923
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。