最新綜述！單目圖像重建三維人體！（清華南大）

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2022-04-10 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

作者丨專知來源丨新智元

【導(dǎo)讀】來自南京大學(xué)和清華大學(xué)的最新研究論文《從單目圖像中恢復(fù)三維人體網(wǎng)格》，提出了從而二維數(shù)據(jù)提升至三維網(wǎng)格過程中基于優(yōu)化和基于回歸的兩種范式，第一次關(guān)注單目3D人體網(wǎng)格恢復(fù)任務(wù)的研究，并討論了有待解決的問題和未來的發(fā)展方向。

從單目圖像中估計(jì)人體的姿勢(shì)和形狀是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)長(zhǎng)期存在的問題。自統(tǒng)計(jì)學(xué)人體模型發(fā)布以來，三維人體網(wǎng)格恢復(fù)一直受到廣泛關(guān)注。

為了獲得有序的、符合物理規(guī)律的網(wǎng)格數(shù)據(jù)而開發(fā)了兩種范式，以克服從二維到三維提升過程中的挑戰(zhàn)：i）基于優(yōu)化的范式，利用不同的數(shù)據(jù)項(xiàng)和正則化項(xiàng)作為優(yōu)化目標(biāo)；ii）基于回歸的范式，采用深度學(xué)習(xí)技術(shù)以端到端的方式解決問題。同時(shí)，不斷提高各種數(shù)據(jù)集的3D網(wǎng)格標(biāo)簽的質(zhì)量。

盡管在過去十年中，該研究取得了顯著的進(jìn)展，但由于肢體動(dòng)作靈活、外觀多樣、環(huán)境復(fù)雜以及人工注釋不足，這項(xiàng)任務(wù)仍然具有挑戰(zhàn)性。

據(jù)調(diào)查，這是第一次關(guān)注單目3D人體網(wǎng)格恢復(fù)任務(wù)的研究。

論文鏈接：https://arxiv.org/abs/2203.01923

我們從介紹人體模型開始，通過深入分析其優(yōu)缺點(diǎn)詳細(xì)闡述了恢復(fù)框架和訓(xùn)練目標(biāo)。我們還總結(jié)了數(shù)據(jù)集、評(píng)估指標(biāo)和基準(zhǔn)測(cè)試結(jié)果。最后討論了有待解決的問題和未來的發(fā)展方向，旨在激發(fā)研究人員的積極性，促進(jìn)各位學(xué)者在這一領(lǐng)域的研究。

定期更新的項(xiàng)目頁面可在https://github.com/tinatiansjz/hmr-survey查看。

引言

從單目圖像中理解人類是計(jì)算機(jī)視覺的基本任務(wù)之一。在過去的20年里，業(yè)界一直致力于預(yù)測(cè)二維內(nèi)容，如關(guān)鍵點(diǎn)、輪廓和RGB圖像的局部分割。

隨著這些進(jìn)展，研究人員進(jìn)一步尋求在3D空間中預(yù)測(cè)人類姿勢(shì)。雖然簡(jiǎn)單的動(dòng)作可以通過2D內(nèi)容或一些稀疏的3D關(guān)節(jié)相對(duì)清晰地表示出來，但復(fù)雜的人類行為需要更細(xì)致地描述人體細(xì)節(jié)。此外，因?yàn)槲覀兪褂帽砻嫫つw與外界直接接觸而不是用未觀察到的關(guān)節(jié)，所以對(duì)身體的形狀、接觸面、手勢(shì)和表情進(jìn)行推理也是至關(guān)重要的。

近年來，社區(qū)已經(jīng)將他們的興趣轉(zhuǎn)向了人體的3D網(wǎng)格恢復(fù)，以及富有表情的臉和生動(dòng)細(xì)致的手。這一趨勢(shì)與統(tǒng)計(jì)人體模型的成功密不可分。

如圖1所示，自2015年發(fā)布SMPL模型和2019年發(fā)布SMPL-X模型以來，隨著它們的年度引用量逐年快速增長(zhǎng)，它們獲得了越來越多的關(guān)注。

圖 1 三種具有代表性的3D統(tǒng)計(jì)人體模型的年度引用，即SCAPE、SMPL和SMPL-X

人體網(wǎng)格的恢復(fù)在促進(jìn)后續(xù)任務(wù)（如衣服人體重建、動(dòng)畫和渲染）方面起著關(guān)鍵作用。它還涉及廣泛的應(yīng)用，如VR/AR內(nèi)容創(chuàng)建、虛擬試穿、計(jì)算機(jī)輔助指導(dǎo)等等，如圖2所示。

圖 2 人體網(wǎng)格恢復(fù)的現(xiàn)實(shí)應(yīng)用：（a）一款健身視頻游戲（b）虛擬試穿（c）3D+AI潛水教練系統(tǒng)（d）游泳過程中的動(dòng)力學(xué)模擬

從單目圖像中恢復(fù)三維人體網(wǎng)格非常具有挑戰(zhàn)性，因?yàn)閷⒍S觀測(cè)值提升到三維空間時(shí)存在固有的模糊性、柔性身體運(yùn)動(dòng)學(xué)結(jié)構(gòu)、與環(huán)境的復(fù)雜性以及人工三維數(shù)據(jù)注釋不足等問題。

為了解決這些問題，在該領(lǐng)域研究了兩種不同的范式，以恢復(fù)一致且物理上合理的結(jié)果。對(duì)于基于優(yōu)化的范例，通過迭代的方式將身體模型顯式地應(yīng)用于二維觀測(cè)，以各種數(shù)據(jù)項(xiàng)和正則化項(xiàng)為優(yōu)化目標(biāo)。對(duì)于基于回歸的范例利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性映射能力，直接從原始圖像像素預(yù)測(cè)模型參數(shù)。設(shè)計(jì)了不同的網(wǎng)絡(luò)架構(gòu)和回歸目標(biāo)，以實(shí)現(xiàn)更好的性能。

同時(shí)，為了促進(jìn)這項(xiàng)任務(wù)的研究，還投入了大量精力創(chuàng)建各種數(shù)據(jù)集。盡管近年來取得了顯著進(jìn)展，但在實(shí)現(xiàn)強(qiáng)健、準(zhǔn)確和高效的人體網(wǎng)格恢復(fù)的最終目標(biāo)面前，業(yè)界仍然面臨著挑戰(zhàn)。

本綜述主要關(guān)注深度學(xué)習(xí)時(shí)代的單目3D人體網(wǎng)格恢復(fù)方法（也稱3D人體姿勢(shì)和形狀估計(jì)）。

將單個(gè)RGB圖像和單目RGB視頻（統(tǒng)稱為「單目圖像」）作為輸入。除了從單目圖像中恢復(fù)單人外，我們還考慮了多人恢復(fù)。

對(duì)于重建目標(biāo)，使用統(tǒng)計(jì)人體模型來估計(jì)衣服下的體型。RGBD和多視圖輸入有助于解決歧義，但它們不在本綜述的范圍內(nèi)。我們只是忽略了服裝的造型，這是向照片現(xiàn)實(shí)主義邁進(jìn)的一步。

我們請(qǐng)讀者參考中關(guān)于人類服裝重建的內(nèi)容。我們也不涉及神經(jīng)渲染方面的工作，這些工作側(cè)重于外觀的建模，而不是幾何體。

這項(xiàng)調(diào)查也是對(duì)現(xiàn)有調(diào)查論文的補(bǔ)充，主要關(guān)注2D/3D人體姿勢(shì)估計(jì)。

其余部分組織如下：

在第2節(jié)中，我們簡(jiǎn)要介紹了人類模型的發(fā)展歷史，并提供了SMPL模型的詳細(xì)信息，SMPL模型是人類推理中使用最廣泛的模板。第3節(jié)描述了用手和臉進(jìn)行身體恢復(fù)和全身恢復(fù)的方法。方法分為基于優(yōu)化的范式或基于回歸的范式。在第4節(jié)和第5節(jié)中，我們將整理出幫助處理視頻或多人恢復(fù)的新模塊。然而，如果我們僅僅用常規(guī)數(shù)據(jù)項(xiàng)監(jiān)督人體，結(jié)果可能在物理上不合理，并且存在視覺缺陷。因此，在第6節(jié)中，我們討論了通過涉及真實(shí)攝像機(jī)模型、接觸約束和人類先驗(yàn)來增強(qiáng)物理合理性的策略。第7節(jié)總結(jié)了常用的數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)，以及基準(zhǔn)排行榜。最后，我們?cè)诘?節(jié)中得出結(jié)論并指出一些有價(jià)值的未來方向。

人體網(wǎng)格恢復(fù)

自從統(tǒng)計(jì)身體模型發(fā)布以來，研究人員利用它們從單目圖像中估計(jì)形狀和姿勢(shì)。Balan等率先從圖像中估計(jì)SCAPE的參數(shù)。

目前，學(xué)術(shù)界普遍采用SMPL進(jìn)行三維體型恢復(fù)。這要?dú)w功于SMPL的開源特性和它周圍快速發(fā)展的社區(qū): Ground-Truth真相采集方法，具有擴(kuò)展SMPL注釋的數(shù)據(jù)集，以及里程碑作品。

在本節(jié)中，我們將根據(jù)預(yù)先定義的人體模型來整理人體網(wǎng)格恢復(fù)的文章。身體捕捉身材和姿勢(shì)的變化，但不考慮衣服或頭發(fā)。因此，更準(zhǔn)確地說，這些方法可以估計(jì)出穿著衣服或緊身衣時(shí)身體的形狀和姿勢(shì)。

在圖4中，我們演示了一些有代表性的方法。我們根據(jù)它們采用的人體模型對(duì)它們進(jìn)行分類。

圖 3 最相關(guān)的參數(shù)化人體模型和3D人體網(wǎng)格恢復(fù)方法時(shí)間軸

圖 4 基于回歸的人體網(wǎng)格恢復(fù)方法的流程

回歸網(wǎng)絡(luò)中各種輸出類型和中間表示的說明

我們研究了四種輸出類型：(a)參數(shù)輸出；(b)網(wǎng)格頂點(diǎn)的三維坐標(biāo)；(c)UV 位置圖；(d)在姿態(tài)和/或形狀參數(shù)上的概率分布。

在多階段框架中采用的中間表示包括(a)輪廓；(b)分割；(c) 2D位姿熱圖；(d)二維關(guān)鍵點(diǎn)坐標(biāo)；(e) IUV地圖；(d)三維關(guān)鍵點(diǎn)坐標(biāo)，可作為簡(jiǎn)化輸入或指導(dǎo)。

表 1 用于人體網(wǎng)格恢復(fù)的典型回歸方法總結(jié)

總結(jié)

在這篇論文告中，我們對(duì)過去十年中的3D人體網(wǎng)格恢復(fù)方法進(jìn)行了全面概述。分類基于設(shè)計(jì)范式、重構(gòu)粒度和應(yīng)用場(chǎng)景。

我們還特別考慮了物理合理性，包括相機(jī)模型、接觸約束和人類先驗(yàn)。

在實(shí)驗(yàn)部分，我們介紹了相關(guān)的數(shù)據(jù)集、評(píng)估指標(biāo)，并提供了性能比較，希望促進(jìn)這一領(lǐng)域的進(jìn)步。

參考資料：

https://arxiv.org/abs/2203.01923

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請(qǐng)聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

最新綜述！單目圖像重建三維人體！（清華南大）

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

最新綜述！單目圖像重建三維人體！（清華南大）

相關(guān)推薦

技術(shù)專區(qū)

最新綜述！單目圖像重建三維人體！（清華南大）