ICLR 2023 Spotlight | 2D圖像腦補(bǔ)3D人體,衣服隨便搭,還能改動(dòng)作
在 ICLR 2023 上,南洋理工大學(xué) - 商湯科技聯(lián)合研究中心 S-Lab 團(tuán)隊(duì)提出了首個(gè)從二維圖像集合中學(xué)習(xí)高分辨率三維人體生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三維生成模型已經(jīng)在靜止物體上達(dá)到了很驚艷的效果。但是在人體這種更加復(fù)雜且可形變的類(lèi)別上,三維生成依舊有很大的挑戰(zhàn)。本文提出了一個(gè)高效的組合的人體 NeRF 表達(dá),實(shí)現(xiàn)了高分辨率(512x256)的三維人體生成,并且沒(méi)有使用超分模型。EVA3D 在四個(gè)大型人體數(shù)據(jù)集上均大幅超越了已有方案,代碼已開(kāi)源。
- 論文名稱(chēng):EVA3D: Compositional 3D Human Generation from 2D image Collections
- 論文地址:https://arxiv.org/abs/2210.04888
- 項(xiàng)目主頁(yè):https://hongfz16.github.io/projects/EVA3D.html
- 代碼開(kāi)源:https://github.com/hongfz16/EVA3D
- Colab Demo:https://colab.research.google.com/github/hongfz16/EVA3D/blob/main/notebook/EVA3D_Demo.ipynb
- Hugging Face Demo:https://huggingface.co/spaces/hongfz16/EVA3D
背景
利用 NeRF 提供的可微渲染算法,三維生成算法,例如 EG3D、StyleSDF,在靜態(tài)物體類(lèi)別的生成上已經(jīng)有了非常好的效果。但是人體相較于人臉或者 CAD 模型等類(lèi)別,在外觀(guān)和幾何上有更大的復(fù)雜度,并且人體是可形變的,因此從二維圖片中學(xué)習(xí)三維人體生成仍然是非常困難的任務(wù)。研究人員在這個(gè)任務(wù)上已經(jīng)有了一些嘗試,例如 ENARF-GAN、GNARF,但是受限于低效的人體表達(dá),他們無(wú)法實(shí)現(xiàn)高分辨率的生成,因此生成質(zhì)量也非常低。
為了解決這個(gè)問(wèn)題,本文提出了高效的組合的三維人體 NeRF 表示,用以實(shí)現(xiàn)高分辨率的(512x256)三維人體 GAN 訓(xùn)練與生成。下面將介紹本文提出的人體 NeRF 表示,以及三維人體 GAN 訓(xùn)練框架。
高效的人體 NeRF 表示
本文提出的人體 NeRF 基于參數(shù)化人體模型 SMPL,它提供了方便的人體姿勢(shì)以及形狀的控制。進(jìn)行 NeRF 建模時(shí),如下圖所示,本文將人體分為 16 個(gè)部分。每一個(gè)部分對(duì)應(yīng)于一個(gè)小的 NeRF 網(wǎng)絡(luò)進(jìn)行局部的建模。在渲染每一個(gè)局部的時(shí)候,本文只需要推理局部 NeRF。這種稀疏的渲染方式,在較低的計(jì)算資源下,也可以實(shí)現(xiàn)原生高分辨率的渲染。
例如,渲染體型動(dòng)作參數(shù)分別為的人體時(shí),首先根據(jù)相機(jī)參數(shù)采樣光線(xiàn);光線(xiàn)上的采樣點(diǎn)根據(jù)與 SMPL 模型的相對(duì)關(guān)系進(jìn)行反向蒙皮操作(inverse linear blend skinning),將 posed 空間中的采樣點(diǎn)轉(zhuǎn)化到 canonical 空間中。接著計(jì)算 Canonical 空間的采樣點(diǎn)屬于某個(gè)或者某幾個(gè)局部 NeRF 的 bounding box 中,再進(jìn)行 NeRF 模型的推理,得到每個(gè)采樣點(diǎn)對(duì)應(yīng)的顏色與密度;當(dāng)某個(gè)采樣點(diǎn)落到多個(gè)局部 NeRF 的重疊區(qū)域,則會(huì)對(duì)每個(gè) NeRF 模型進(jìn)行推理,將多個(gè)結(jié)果用 window function 進(jìn)行插值;最后這些信息被用于光線(xiàn)的積分,得到最終的渲染圖。
三維人體 GAN 框架
基于提出的高效的人體 NeRF 表達(dá),本文實(shí)現(xiàn)了三維人體 GAN 訓(xùn)練框架。在每一次訓(xùn)練迭代中,本文首先從數(shù)據(jù)集中采樣一個(gè) SMPL 的參數(shù)以及相機(jī)參數(shù),并隨機(jī)生成一個(gè)高斯噪聲 z。利用本文提出的人體 NeRF,本文可以將采樣出的參數(shù)渲染成一張二維人體圖片,作為假樣本。再利用數(shù)據(jù)集中的真實(shí)樣本,本文進(jìn)行 GAN 的對(duì)抗訓(xùn)練。
極度不平衡的數(shù)據(jù)集
二維人體數(shù)據(jù)集,例如 DeepFashion,通常是為二維視覺(jué)任務(wù)準(zhǔn)備的,因此人體的姿態(tài)多樣性非常受限。為了量化不平衡的程度,本文統(tǒng)計(jì)了 DeepFashion 中模特臉部朝向的頻率。如下圖所示,橙色的線(xiàn)代表了 DeepFashion 中人臉朝向的分布,可見(jiàn)是極度不平衡的,對(duì)于學(xué)習(xí)三維人體表征造成了困難。為了緩解這一問(wèn)題,我們提出了由人體姿態(tài)指導(dǎo)的采樣方式,將分布曲線(xiàn)拉平,如下圖中其他顏色的線(xiàn)所示。這可以讓訓(xùn)練過(guò)程中的模型見(jiàn)到更多樣以及更大角度的人體圖片,從而幫助三維人體幾何的學(xué)習(xí)。我們對(duì)采樣參數(shù)進(jìn)行了實(shí)驗(yàn)分析,從下面的表格中可見(jiàn),加上人體姿態(tài)指導(dǎo)的采樣方式后,雖然圖像質(zhì)量(FID)會(huì)有些微下降,但是學(xué)出的三維幾何(Depth)顯著變好。
高質(zhì)量的生成結(jié)果
下圖展示了一些 EVA3D 的生成結(jié)果,EVA3D 可以隨機(jī)采樣人體樣貌,并可控制渲染相機(jī)參數(shù),人體姿勢(shì)以及體型。
本文在四個(gè)大規(guī)模人體數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),分別是 DeepFashion,SHHQ,UBCFashion,AIST。該研究對(duì)比了最先進(jìn)的靜態(tài)三維物體生成算法 EG3D 與 StyleSDF。同時(shí)研究者也比較了專(zhuān)門(mén)針對(duì)三維人生成的算法 ENARF-GAN。在指標(biāo)的選擇上,本文兼顧渲染質(zhì)量的評(píng)估(FID/KID)、人體控制的準(zhǔn)確程度(PCK)以及幾何生成的質(zhì)量(Depth)。如下圖所示,本文在所有數(shù)據(jù)集,所有指標(biāo)上均大幅超越之前的方案。
應(yīng)用潛力
最后,本文也展示了 EVA3D 的一些應(yīng)用潛力。首先,該研究測(cè)試了在隱空間中進(jìn)行差值。如下圖所示,本文能夠在兩個(gè)三維人之間進(jìn)行平滑的變化,且中間結(jié)果均保持較高的質(zhì)量。此外,本文也進(jìn)行了 GAN inversion 的實(shí)驗(yàn),研究者使用二維 GAN inversion 中常用的算法 Pivotal Tuning Inversion。如下面右圖所示,該方法可以較好的還原重建目標(biāo)的外觀(guān),但是幾何部分丟失了很多細(xì)節(jié)。可見(jiàn),三維 GAN 的 inversion 仍然是一個(gè)很有挑戰(zhàn)性的任務(wù)。
結(jié)語(yǔ)
本文提出了首個(gè)高清三維人體 NeRF 生成算法 EVA3D,并且僅需使用二維人體圖像數(shù)據(jù)即可訓(xùn)練。EVA3D 在多個(gè)大規(guī)模人體數(shù)據(jù)集上性能達(dá)到最佳,并且展現(xiàn)出了在下游任務(wù)上進(jìn)行應(yīng)用的潛力。EVA3D 的訓(xùn)練與測(cè)試代碼均已經(jīng)開(kāi)源,歡迎大家前去試用!
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。