告別視頻通話“渣畫(huà)質(zhì)”，英偉達(dá)新算法最高壓縮90%流量

作者：時(shí)間：2020-12-02 來(lái)源：量子位

為了讓網(wǎng)速慢的用戶用上高清通話，英偉達(dá)可謂絞盡腦汁。他們開(kāi)發(fā)的新AI算法，可以將視頻通話的流量最高壓縮90%以上。

　　和其他視頻相比，通話的場(chǎng)景比較單一，基本上只有人的頭部在運(yùn)動(dòng)。因此只要能把頭像數(shù)據(jù)大規(guī)模壓縮，就能大大節(jié)約流量。

　　英偉達(dá)的新算法face vid2vid正是從這一點(diǎn)出發(fā)。只要一張圖片，就能實(shí)現(xiàn)重建各種頭部姿勢(shì)圖片。

　　H.264視頻所需的帶寬是這種新算法的2~12倍，從前面的演示也能看出，如果讓二者使用相同比特率，那么H.264視頻幾乎不可用。

　　轉(zhuǎn)動(dòng)面部不扭曲

　　英偉達(dá)提供了一個(gè)試用Demo，可以在Pitch（俯仰角）、Yaw（偏航角）、Roll（翻滾角）三個(gè)方向上任意旋轉(zhuǎn)。

　　輸入一張人臉，最多可以在每個(gè)方向上最多旋轉(zhuǎn)30度。以下是三個(gè)方向上旋轉(zhuǎn)到最大角度生成的圖片。

　　與相比之前的方法，英偉達(dá)的這種技術(shù)即使在面部轉(zhuǎn)動(dòng)幅度較大時(shí)，人臉也不會(huì)扭曲變形。

　　然而，圖片終究是不動(dòng)的，要把生成的人臉?lè)旁谶\(yùn)動(dòng)的視頻中還要多一個(gè)步驟。

　　合成面部視頻

　　我們把上傳的清晰照片作為源圖像，從中獲取外貌特征。然后把視頻中一幀幀畫(huà)面作為重構(gòu)視頻的依據(jù)，從中提取出面部表情和頭部姿勢(shì)等信息。

　　而表情和姿勢(shì)這兩個(gè)數(shù)據(jù)可以通過(guò)關(guān)鍵點(diǎn)進(jìn)行編碼，這樣就分離了人物身份信息和運(yùn)動(dòng)信息。在傳輸視頻時(shí)只要有運(yùn)動(dòng)信息即可，從而節(jié)約了流量。

　　從源圖像s中，我們得到了兩組數(shù)據(jù)：關(guān)鍵點(diǎn)坐標(biāo)x和雅可比矩陣J。這兩組參數(shù)與面部的具體特征無(wú)關(guān)，只包含人的幾何特征。

　　其中，雅可比矩陣表示如何通過(guò)仿射變換將關(guān)鍵點(diǎn)周?chē)木植垦a(bǔ)丁轉(zhuǎn)換為另一幅圖像中的補(bǔ)丁。如果是恒等雅可比矩陣，則補(bǔ)丁將直接復(fù)制并粘貼到新位置。

　　下圖展示了計(jì)算前5個(gè)關(guān)鍵點(diǎn)的流程。給定源圖像以及模型預(yù)測(cè)的規(guī)范關(guān)鍵點(diǎn)。

　　從運(yùn)動(dòng)視頻估計(jì)的旋轉(zhuǎn)和平移應(yīng)用于關(guān)鍵點(diǎn)，帶動(dòng)頭部姿勢(shì)的變化。然后可以感知表情的變形將關(guān)鍵點(diǎn)調(diào)整為目標(biāo)表情。

　　接下來(lái)開(kāi)始合成視頻。使用源和運(yùn)動(dòng)的關(guān)鍵點(diǎn)與其雅可比矩陣來(lái)估計(jì)流wk，從生成流組合成掩碼m，將這兩組進(jìn)行線性組合即可產(chǎn)生合成流場(chǎng)w。

　　接著輸入人臉面部特征f，即可生成輸出圖像y。

　　這種方法不僅能用于視頻通話，也有其他“新玩法”。

　　比如覺(jué)得人物頭像有點(diǎn)歪，可以手動(dòng)輸入糾正后的數(shù)據(jù)，從而將面部轉(zhuǎn)正。

　　又或者是，把一個(gè)人的面部特征點(diǎn)和雅可比矩陣用于另一個(gè)人，實(shí)現(xiàn)面部視頻動(dòng)作的遷移。

　　團(tuán)隊(duì)簡(jiǎn)介

　　這篇文章的第一作者是來(lái)自英偉達(dá)的高級(jí)研究員Ting-Chun Wang。

　　文章的通訊作者是英偉達(dá)的著名研究員劉洺堉。

　　如果你長(zhǎng)期關(guān)注CV領(lǐng)域，一定對(duì)這兩位作者非常熟悉。他們?cè)趫D像風(fēng)格遷移、GAN等方面做出了大量的工作。

　　△ GauGAN

　　兩人之前已經(jīng)有過(guò)多次合作。比如。無(wú)監(jiān)督圖像遷移網(wǎng)絡(luò)（NIPS 2017），還有從涂鴉生成照片的GauGAN（CVPR 2019），都是出自這二位之手。

新聞中心