SIGGRAPH Asia 2022｜告別手Key！上科大提出實(shí)時(shí)面捕，精細(xì)到微表情

發(fā)布人：機(jī)器之心時(shí)間：2022-10-17 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

上?？?/span>技大學(xué)科研團(tuán)隊(duì)聯(lián)合數(shù)字人底層技術(shù)公司影眸科技，將首創(chuàng)的 4D PBR 掃描技術(shù)與神經(jīng)網(wǎng)絡(luò)表達(dá)相結(jié)合，訓(xùn)練多 VAE 的網(wǎng)絡(luò)結(jié)構(gòu)，跳過(guò)了傳統(tǒng)的綁定與動(dòng)態(tài)貼圖制作流程。這項(xiàng)工作已經(jīng)被計(jì)算機(jī)圖形學(xué)頂會(huì) SIGGRAPH Asia 2022 接收為 Technical Paper - Journal Track 并受邀作報(bào)告分享。

驅(qū)動(dòng)一個(gè)數(shù)字人往往被拆分為追蹤 (Tracking) 與重定向 (Retargeting) 兩個(gè)環(huán)節(jié)。追蹤由專(zhuān)業(yè)的面部捕捉設(shè)備及其輔助算法完成，負(fù)責(zé)記錄演員的面部動(dòng)作信息，重定向則是將捕捉到的動(dòng)作信息遷移到新的角色。在傳統(tǒng)的流程中，這兩個(gè)環(huán)節(jié)往往是分離的兩套體系，難以融合，且兩個(gè)環(huán)節(jié)都有大量不可控的人工發(fā)揮成分，互相影響。
近些年，隨著計(jì)算機(jī)圖形學(xué)技術(shù)的發(fā)展與渲染硬件性能的不斷提升，人們已經(jīng)能夠通過(guò)復(fù)雜的物理模擬，借助離線(xiàn)渲染技術(shù)得到無(wú)限真實(shí)的靜態(tài)人像。但即便如此，在動(dòng)態(tài)數(shù)字人角色的呈現(xiàn)上，我們距離跨越恐怖谷效應(yīng)還有很長(zhǎng)的路要走。雖然人們已經(jīng)能夠在諸如《阿凡達(dá)》《雙子殺手》等電影中帶來(lái)與真實(shí)演員別無(wú)二致的數(shù)字替身，但其背后是藝術(shù)家手工綁定與手工制作關(guān)鍵幀動(dòng)畫(huà)帶來(lái)的大量資金投入。
針對(duì)上述問(wèn)題，上?？萍即髮W(xué)科研團(tuán)隊(duì)聯(lián)合數(shù)字人底層技術(shù)公司影眸科技提出了這樣的思路：將首創(chuàng)的 4D PBR 掃描技術(shù)與神經(jīng)網(wǎng)絡(luò)表達(dá)相結(jié)合，訓(xùn)練多 VAE 的網(wǎng)絡(luò)結(jié)構(gòu)，跳過(guò)了傳統(tǒng)的綁定與動(dòng)態(tài)貼圖制作流程。這意味著，無(wú)需面捕頭盔、無(wú)需人工綁定，只需要一段 4D 序列作為訓(xùn)練，RGB 視頻就可以實(shí)現(xiàn)精細(xì)到微表情級(jí)別的實(shí)時(shí)面部捕捉。
這項(xiàng)工作已經(jīng)被計(jì)算機(jī)圖形學(xué)頂會(huì) SIGGRAPH Asia 2022 接收為 Technical Paper - Journal Track 并受邀作報(bào)告分享。據(jù)研究人員介紹，這項(xiàng)技術(shù)不僅能夠生產(chǎn)出與現(xiàn)有渲染引擎兼容的面部幾何模型和多層材質(zhì)貼圖，還能讓任何人憑借手機(jī)進(jìn)行輕量級(jí)面部捕捉，實(shí)時(shí)驅(qū)動(dòng)高質(zhì)量的面部資產(chǎn)，該技術(shù)已經(jīng)投入國(guó)內(nèi)影視特效與游戲行業(yè)使用。

論文地址：https://arxiv.org/pdf/2202.05592.pdf項(xiàng)目地址：https://sites.google.com/view/npfa/
使用神經(jīng)網(wǎng)絡(luò)構(gòu)建面部資產(chǎn)
上科大聯(lián)合影眸科技研發(fā)團(tuán)隊(duì)將預(yù)先捕捉好的高質(zhì)量面部資產(chǎn)與輕量級(jí)的輸入設(shè)備相結(jié)合，填補(bǔ)了兩種不同解決方案中間的空白。他們帶來(lái)了全新的思路——基于高質(zhì)量的 4D 面部資產(chǎn)數(shù)據(jù)，實(shí)現(xiàn)對(duì)面部動(dòng)態(tài)幾何和材質(zhì)貼圖的隱式表達(dá)，從而得到更真實(shí)自然的面部驅(qū)動(dòng)效果。

首先是訓(xùn)練數(shù)據(jù)采集。研究人員使用了穹頂光場(chǎng)設(shè)備采集演員的面部資產(chǎn)。模特按照研究人員的設(shè)計(jì)進(jìn)行面部表演，由穹頂光場(chǎng)以 24fps 采集了模特表演的動(dòng)態(tài)面部幾何和材質(zhì)貼圖（漫反射、高光、法線(xiàn)貼圖）。

接著，研究人員實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)重定向(Neural Retargeting)。他們將該任務(wù)分解為：使用神經(jīng)網(wǎng)絡(luò)解析輸入視頻的表情信息（捕捉），并將其遷移到面部資產(chǎn)上（重定向）。具體實(shí)現(xiàn)時(shí)，任務(wù)被拆解為了三個(gè)分支——表情、幾何、材質(zhì)貼圖。研究人員針對(duì)每個(gè)部分分別訓(xùn)練了一個(gè) VAE 以提取相關(guān)信息。表情網(wǎng)絡(luò)負(fù)責(zé)捕捉，后兩個(gè)則負(fù)責(zé)重定向。

在訓(xùn)練表情網(wǎng)絡(luò)時(shí)，他們使用了全新的三元訓(xùn)練法來(lái)監(jiān)督訓(xùn)練。訓(xùn)練時(shí)，將某張圖片與其相同視角不同表情的照片，以及不同視角相同表情的照片分在一組，使得網(wǎng)絡(luò)能夠?qū)W會(huì)從輸入視頻幀中解耦表情與視角信息，從而在視角變換的情況下也能穩(wěn)定地以隱向量形式提取出表情信息。

面部幾何網(wǎng)絡(luò)也用類(lèi)似的方法訓(xùn)練。訓(xùn)練時(shí)，網(wǎng)絡(luò)需要預(yù)測(cè)當(dāng)前表情面部幾何與無(wú)表情面部幾何的差值。
對(duì)于材質(zhì)貼圖訓(xùn)練，VAE 網(wǎng)絡(luò)只需要能提取輸入貼圖中的表情隱向量，并根據(jù)其恢復(fù)出輸入材質(zhì)貼圖即可。值得注意的是，這里使用了皺紋圖的方式來(lái)表達(dá)材質(zhì)貼圖變化，具體來(lái)說(shuō)，是網(wǎng)絡(luò)輸出當(dāng)前幀材質(zhì)貼圖與無(wú)表情材質(zhì)貼圖的差值。將這張皺紋圖線(xiàn)性放大到 4K 分辨率下并與無(wú)表情材質(zhì)貼圖疊加，就能得到高分辨率的面部材質(zhì)貼圖。這樣既可以保留高分辨率貼圖下的毛孔級(jí)面部細(xì)節(jié)，又可以精準(zhǔn)表達(dá)皺紋、陰影等在動(dòng)態(tài)表情中出現(xiàn)的面部特征。

此外，為了讓三個(gè) VAE 所提取的表情隱向量處于一致的隱空間，研究人員還訓(xùn)練了兩個(gè) MLP 來(lái)實(shí)現(xiàn)不同 VAE 之間表情信息的轉(zhuǎn)化。
幾何和材質(zhì)貼圖網(wǎng)絡(luò)的訓(xùn)練，將訓(xùn)練集中的高質(zhì)量面部資產(chǎn)編碼于神經(jīng)網(wǎng)絡(luò)所構(gòu)建的隱空間中。只需要一個(gè)表情隱向量，就可以得到對(duì)應(yīng)的高質(zhì)量幾何、紋理資產(chǎn)。
最后使用時(shí)，對(duì)于某一視頻輸入幀，由表情 VAE 的編碼器提取表情信息，由兩個(gè) MLP 分別將其轉(zhuǎn)化為幾何、材質(zhì)貼圖 VAE 的表情隱向量，再由兩個(gè) VAE 的****得到對(duì)應(yīng)的幾何和材質(zhì)貼圖。
資產(chǎn)的比較與使用

與之前的工作相比，該方法在幾何精度上有了一定提高。

更重要的是，該方法擴(kuò)展了多樣的應(yīng)用場(chǎng)景。
首先，模特本人的視頻可以被用來(lái)驅(qū)動(dòng)生成的資產(chǎn)。即便是面對(duì)訓(xùn)練集中沒(méi)有做出過(guò)的表情，網(wǎng)絡(luò)也能立刻給出高真實(shí)度的幾何和材質(zhì)貼圖預(yù)測(cè)。這免去了后續(xù)專(zhuān)門(mén)為演員安裝面部捕捉設(shè)備的工作。
其次，該方法也支持自由環(huán)境跨對(duì)象重定向(in-the-wild cross-identity retargeting)，即，非模特本人的面部表演視頻，也可以驅(qū)動(dòng)面部資產(chǎn)。只需要一小部分視頻幀混入網(wǎng)絡(luò)訓(xùn)練中進(jìn)行優(yōu)化，并使用指示變量告知網(wǎng)絡(luò)輸入圖片是手機(jī)拍攝輸入或是設(shè)備采集結(jié)果，網(wǎng)絡(luò)就可以提取輸入視頻中的人臉表情信息，并預(yù)測(cè)原模特做出該表情時(shí)，對(duì)應(yīng)的面部幾何和材質(zhì)貼圖。

此外，視頻輸入也可以驅(qū)動(dòng)藝術(shù)加工過(guò)的人物形象。在藝術(shù)家對(duì)模特?zé)o表情的幾何和材質(zhì)貼圖進(jìn)行一定的修改后，網(wǎng)絡(luò)對(duì)表情的預(yù)測(cè)結(jié)果可以直接應(yīng)用在它們上面。因?yàn)榫W(wǎng)絡(luò)預(yù)測(cè)的是相對(duì)無(wú)表情幾何和貼圖的偏差，所以表情變化和皺紋運(yùn)動(dòng)都可以真實(shí)地反映在修改后的面部幾何和材質(zhì)貼圖上。

總結(jié)
該項(xiàng)目基于 4D 動(dòng)態(tài)幾何和材質(zhì)貼圖的訓(xùn)練數(shù)據(jù)，訓(xùn)練多 VAE 的網(wǎng)絡(luò)結(jié)構(gòu)從輸入的人臉面部表演視頻解耦出表情信息并解算出高精度的面部幾何和材質(zhì)貼圖，最終得到了真實(shí)而細(xì)膩的視頻驅(qū)動(dòng)人臉效果。
將追蹤與重定向兩個(gè)環(huán)節(jié)自動(dòng)化與標(biāo)準(zhǔn)化，極大程度地降低了高精度數(shù)字人制作與驅(qū)動(dòng)的成本，減少了數(shù)字人藝術(shù)家的大量重復(fù)工作，使他們有更多的時(shí)間進(jìn)行內(nèi)容向的創(chuàng)作。