博客專欄

EEPW首頁 > 博客 > SIGGRAPH Asia 2022|告別手Key!上科大提出實時面捕,精細到微表情

SIGGRAPH Asia 2022|告別手Key!上科大提出實時面捕,精細到微表情

發(fā)布人:機器之心 時間:2022-10-17 來源:工程師 發(fā)布文章

上???/span>大學科研團隊聯(lián)合數(shù)字人底層技術(shù)公司影眸科技,將首創(chuàng)的 4D PBR 掃描技術(shù)與神經(jīng)網(wǎng)絡表達相結(jié)合,訓練多 VAE 的網(wǎng)絡結(jié)構(gòu),跳過了傳統(tǒng)的綁定與動態(tài)貼圖制作流程。這項工作已經(jīng)被計算機圖形學頂會 SIGGRAPH Asia 2022 接收為 Technical Paper - Journal Track 并受邀作報告分享。


驅(qū)動一個數(shù)字人往往被拆分為追蹤 (Tracking) 與重定向 (Retargeting) 兩個環(huán)節(jié)。追蹤由專業(yè)的面部捕捉設備及其輔助算法完成,負責記錄演員的面部動作信息,重定向則是將捕捉到的動作信息遷移到新的角色。在傳統(tǒng)的流程中,這兩個環(huán)節(jié)往往是分離的兩套體系,難以融合,且兩個環(huán)節(jié)都有大量不可控的人工發(fā)揮成分,互相影響。
近些年,隨著計算機圖形學技術(shù)的發(fā)展與渲染硬件性能的不斷提升,人們已經(jīng)能夠通過復雜的物理模擬,借助離線渲染技術(shù)得到無限真實的靜態(tài)人像。但即便如此,在動態(tài)數(shù)字人角色的呈現(xiàn)上,我們距離跨越恐怖谷效應還有很長的路要走。雖然人們已經(jīng)能夠在諸如《阿凡達》《雙子殺手》等電影中帶來與真實演員別無二致的數(shù)字替身,但其背后是藝術(shù)家手工綁定與手工制作關(guān)鍵幀動畫帶來的大量資金投入。
針對上述問題,上??萍即髮W科研團隊聯(lián)合數(shù)字人底層技術(shù)公司影眸科技提出了這樣的思路:將首創(chuàng)的 4D PBR 掃描技術(shù)與神經(jīng)網(wǎng)絡表達相結(jié)合,訓練多 VAE 的網(wǎng)絡結(jié)構(gòu),跳過了傳統(tǒng)的綁定與動態(tài)貼圖制作流程。這意味著,無需面捕頭盔、無需人工綁定,只需要一段 4D 序列作為訓練,RGB 視頻就可以實現(xiàn)精細到微表情級別的實時面部捕捉。
這項工作已經(jīng)被計算機圖形學頂會 SIGGRAPH Asia 2022 接收為 Technical Paper - Journal Track 并受邀作報告分享。據(jù)研究人員介紹,這項技術(shù)不僅能夠生產(chǎn)出與現(xiàn)有渲染引擎兼容的面部幾何模型和多層材質(zhì)貼圖,還能讓任何人憑借手機進行輕量級面部捕捉,實時驅(qū)動高質(zhì)量的面部資產(chǎn),該技術(shù)已經(jīng)投入國內(nèi)影視特效與游戲行業(yè)使用。

圖片

論文地址:https://arxiv.org/pdf/2202.05592.pdf項目地址:https://sites.google.com/view/npfa/
使用神經(jīng)網(wǎng)絡構(gòu)建面部資產(chǎn)
上科大聯(lián)合影眸科技研發(fā)團隊將預先捕捉好的高質(zhì)量面部資產(chǎn)與輕量級的輸入設備相結(jié)合,填補了兩種不同解決方案中間的空白。他們帶來了全新的思路——基于高質(zhì)量的 4D 面部資產(chǎn)數(shù)據(jù),實現(xiàn)對面部動態(tài)幾何和材質(zhì)貼圖的隱式表達,從而得到更真實自然的面部驅(qū)動效果。

圖片

首先是訓練數(shù)據(jù)采集。研究人員使用了穹頂光場設備采集演員的面部資產(chǎn)。模特按照研究人員的設計進行面部表演,由穹頂光場以 24fps 采集了模特表演的動態(tài)面部幾何和材質(zhì)貼圖(漫反射、高光、法線貼圖)。
圖片
接著,研究人員實現(xiàn)了神經(jīng)網(wǎng)絡重定向(Neural Retargeting)。他們將該任務分解為:使用神經(jīng)網(wǎng)絡解析輸入視頻的表情信息(捕捉),并將其遷移到面部資產(chǎn)上(重定向)。具體實現(xiàn)時,任務被拆解為了三個分支——表情、幾何、材質(zhì)貼圖。研究人員針對每個部分分別訓練了一個 VAE 以提取相關(guān)信息。表情網(wǎng)絡負責捕捉,后兩個則負責重定向。
圖片
在訓練表情網(wǎng)絡時,他們使用了全新的三元訓練法來監(jiān)督訓練。訓練時,將某張圖片與其相同視角不同表情的照片,以及不同視角相同表情的照片分在一組,使得網(wǎng)絡能夠?qū)W會從輸入視頻幀中解耦表情與視角信息,從而在視角變換的情況下也能穩(wěn)定地以隱向量形式提取出表情信息。
圖片
面部幾何網(wǎng)絡也用類似的方法訓練。訓練時,網(wǎng)絡需要預測當前表情面部幾何與無表情面部幾何的差值。
對于材質(zhì)貼圖訓練,VAE 網(wǎng)絡只需要能提取輸入貼圖中的表情隱向量,并根據(jù)其恢復出輸入材質(zhì)貼圖即可。值得注意的是,這里使用了皺紋圖的方式來表達材質(zhì)貼圖變化,具體來說,是網(wǎng)絡輸出當前幀材質(zhì)貼圖與無表情材質(zhì)貼圖的差值。將這張皺紋圖線性放大到 4K 分辨率下并與無表情材質(zhì)貼圖疊加,就能得到高分辨率的面部材質(zhì)貼圖。這樣既可以保留高分辨率貼圖下的毛孔級面部細節(jié),又可以精準表達皺紋、陰影等在動態(tài)表情中出現(xiàn)的面部特征。
圖片
此外,為了讓三個 VAE 所提取的表情隱向量處于一致的隱空間,研究人員還訓練了兩個 MLP 來實現(xiàn)不同 VAE 之間表情信息的轉(zhuǎn)化。
幾何和材質(zhì)貼圖網(wǎng)絡的訓練,將訓練集中的高質(zhì)量面部資產(chǎn)編碼于神經(jīng)網(wǎng)絡所構(gòu)建的隱空間中。只需要一個表情隱向量,就可以得到對應的高質(zhì)量幾何、紋理資產(chǎn)。
最后使用時,對于某一視頻輸入幀,由表情 VAE 的編碼器提取表情信息,由兩個 MLP 分別將其轉(zhuǎn)化為幾何、材質(zhì)貼圖 VAE 的表情隱向量,再由兩個 VAE 的****得到對應的幾何和材質(zhì)貼圖。
資產(chǎn)的比較與使用

與之前的工作相比,該方法在幾何精度上有了一定提高。


圖片
更重要的是,該方法擴展了多樣的應用場景。
首先,模特本人的視頻可以被用來驅(qū)動生成的資產(chǎn)。即便是面對訓練集中沒有做出過的表情,網(wǎng)絡也能立刻給出高真實度的幾何和材質(zhì)貼圖預測。這免去了后續(xù)專門為演員安裝面部捕捉設備的工作。
其次,該方法也支持自由環(huán)境跨對象重定向(in-the-wild cross-identity retargeting),即,非模特本人的面部表演視頻,也可以驅(qū)動面部資產(chǎn)。只需要一小部分視頻幀混入網(wǎng)絡訓練中進行優(yōu)化,并使用指示變量告知網(wǎng)絡輸入圖片是手機拍攝輸入或是設備采集結(jié)果,網(wǎng)絡就可以提取輸入視頻中的人臉表情信息,并預測原模特做出該表情時,對應的面部幾何和材質(zhì)貼圖。
圖片
此外,視頻輸入也可以驅(qū)動藝術(shù)加工過的人物形象。在藝術(shù)家對模特無表情的幾何和材質(zhì)貼圖進行一定的修改后,網(wǎng)絡對表情的預測結(jié)果可以直接應用在它們上面。因為網(wǎng)絡預測的是相對無表情幾何和貼圖的偏差,所以表情變化和皺紋運動都可以真實地反映在修改后的面部幾何和材質(zhì)貼圖上。
圖片
圖片
總結(jié)
該項目基于 4D 動態(tài)幾何和材質(zhì)貼圖的訓練數(shù)據(jù),訓練多 VAE 的網(wǎng)絡結(jié)構(gòu)從輸入的人臉面部表演視頻解耦出表情信息并解算出高精度的面部幾何和材質(zhì)貼圖,最終得到了真實而細膩的視頻驅(qū)動人臉效果。
將追蹤與重定向兩個環(huán)節(jié)自動化與標準化,極大程度地降低了高精度數(shù)字人制作與驅(qū)動的成本,減少了數(shù)字人藝術(shù)家的大量重復工作,使他們有更多的時間進行內(nèi)容向的創(chuàng)作。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉