ECCV 2022 | 華為開源BEAT：最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2022-12-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

來源丨機(jī)器之心

華為東京研究所 - Digital Human Lab 與東京大學(xué)等合作進(jìn)行了研究，提出了目前為止最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集：BEAT。

隨著元宇宙的火爆以及數(shù)字人建模技術(shù)的商業(yè)化，AI 數(shù)字人驅(qū)動(dòng)算法，作為數(shù)字人動(dòng)畫技術(shù)鏈的下一關(guān)鍵環(huán)節(jié)，獲得了學(xué)界和工業(yè)界越來越廣泛的興趣和關(guān)注。其中談話動(dòng)作生成（由聲音等控制信號(hào)生成肢體和手部動(dòng)作）由于可以降低 VR Chat, 虛擬直播，游戲 NPC 等場(chǎng)景下的驅(qū)動(dòng)成本，在近兩年成為研究熱點(diǎn)。然而，由于缺乏開源數(shù)據(jù)，現(xiàn)有的模型往往在由姿態(tài)檢測(cè)算法提供的偽標(biāo)簽數(shù)據(jù)集或者單個(gè)說話人的小規(guī)模動(dòng)捕數(shù)據(jù)集上進(jìn)行測(cè)試。由于數(shù)據(jù)量，數(shù)據(jù)標(biāo)注的缺乏和數(shù)據(jù)質(zhì)量的限制，現(xiàn)有的算法很難生成個(gè)性化，高手部質(zhì)量，情感相關(guān)，動(dòng)作 - 語義相關(guān)的動(dòng)作。
針對(duì)上述問題，華為東京研究所 - Digital Human Lab 與東京大學(xué)等合作進(jìn)行了研究，提出了目前為止最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集：BEAT （Body-Expression-Audio-Text），由 76 小時(shí)動(dòng)捕設(shè)備采集的談話數(shù)據(jù)和語義 - 情感標(biāo)注組成。原始數(shù)據(jù)包含肢體和手部動(dòng)捕數(shù)據(jù)，AR Kit 標(biāo)準(zhǔn) 52 維面部 blendshape 權(quán)重，音頻與文本，標(biāo)注數(shù)據(jù)包含 8 類情感分類標(biāo)簽，以及動(dòng)作類型分類和語義相關(guān)度打分。在 BEAT 的基礎(chǔ)上提出的新基線模型 CaMN (Cascade-Motion-Network) 采取級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，由 BEAT 中其余三種模態(tài)和標(biāo)注作為輸入，在動(dòng)作生成任務(wù)上顯著優(yōu)于現(xiàn)有 SoTA (state-of-the-art) 算法。論文《BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis》已于 ECCV2022 上發(fā)表，數(shù)據(jù)集已經(jīng)開源。

作者: Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng.
單位：Digital Human Lab - 華為東京研究所，東京大學(xué)，慶應(yīng)大學(xué)，北陸先端科技大學(xué).
論文地址：https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136670605.pdf
項(xiàng)目主頁：https://pantomatrix.github.io/BEAT/
數(shù)據(jù)集主頁：https://pantomatrix.github.io/BEAT-Dataset/
視頻結(jié)果：https://www.youtube.com/watch?v=F6nXVTUY0KQ

部分渲染后的數(shù)據(jù)如下（從上到下依次為，生氣 - 恐懼 - 驚訝 - 傷心情感下人的動(dòng)作）：

渲染結(jié)果使用了 HumanGeneratorV3 產(chǎn)生的身體和臉部模型。
BEAT 數(shù)據(jù)集細(xì)節(jié)
動(dòng)作 - 文本語義相關(guān)度標(biāo)注
談話動(dòng)作生成領(lǐng)域的關(guān)鍵問題是：如何生成和評(píng)估生成的動(dòng)作和文本在語義上的關(guān)聯(lián)程度。該關(guān)聯(lián)程度很大程度上影響了人對(duì)生成動(dòng)作質(zhì)量的主觀評(píng)價(jià)。由于缺乏標(biāo)注，現(xiàn)有的研究往往挑選一系列主觀結(jié)果用于評(píng)估，增加了不確定性。在 BEAT 數(shù)據(jù)集中，對(duì)于動(dòng)作給出了基于動(dòng)作類別分類的相關(guān)度分?jǐn)?shù)，共分為四類 10 檔：beat（1），deictic （2-4）， icnoic（5-7），metaphoic（8-10）。該分類參考 McNeill 等人在 1992 年對(duì)談話動(dòng)作的分類，其中后三類各自存在低 - 中 - 高質(zhì)量三檔。
然而，實(shí)際談話中，與當(dāng)前文本語義對(duì)應(yīng)的動(dòng)作可能提前或滯后出現(xiàn)，為了解決這個(gè)問題，在標(biāo)注過程中，標(biāo)注者判斷當(dāng)前動(dòng)作所屬類別之后：
1. 以動(dòng)作的開始和結(jié)束確定標(biāo)注范圍，保證了動(dòng)作的完整性。2. 輸入與當(dāng)前動(dòng)作最相關(guān)的關(guān)鍵字，獲取動(dòng)作和對(duì)應(yīng)文本的準(zhǔn)確出現(xiàn)時(shí)間。
基于情感的對(duì)話
BEAT 數(shù)據(jù)集要求每個(gè)演講者必須錄制 8 種不同情緒下的談話動(dòng)作，用于分析動(dòng)作與情感之間的內(nèi)在聯(lián)系。在演講環(huán)節(jié)中，自然情緒占比 51%，憤怒、快樂、恐懼、厭惡、悲傷、蔑視和驚訝這七類情緒分別占比 7%。對(duì)動(dòng)作進(jìn)行聚類的結(jié)果證明，動(dòng)作和情感之間存在相關(guān)性，如下圖所示。

數(shù)據(jù)規(guī)模及采集細(xì)節(jié)
BEAT 采用了 ViCon，16 個(gè)攝像頭的動(dòng)作捕捉系統(tǒng)來記錄演講和對(duì)話數(shù)據(jù)，最終所有數(shù)據(jù)以 120FPS, 記載關(guān)節(jié)點(diǎn)旋轉(zhuǎn)角的表示形式的 bvh 文件發(fā)布。對(duì)于面部數(shù)據(jù)，BEAT 采用 Iphone12Pro 錄制談話人的 52 維面部 blendsshape 權(quán)重，并不包括每個(gè)人的頭部模型，推薦使用 Iphone 的中性臉做可視化。BEAT 采用 16KHZ 音頻數(shù)據(jù)，并通過語音識(shí)別算法生成文本偽標(biāo)簽，并依此生成具有時(shí)間標(biāo)注的 TextGrid 數(shù)據(jù)。
BEAT 包含四種語言的數(shù)據(jù)：英語，中文，西班牙語，日語，數(shù)據(jù)量分別為 60，12，2，2 小時(shí)。由來自 10 個(gè)國(guó)家的 30 名演講者進(jìn)行錄制。其中中文，西班牙語，日語的演講者也同時(shí)錄制了英語數(shù)據(jù)，用于分析不同語言下的動(dòng)作差異。
在演講部分（數(shù)據(jù)集的 50%），30 個(gè)演講者被要求讀相同的大量文本，每段文本長(zhǎng)度約 1 分鐘，總計(jì) 120 段文本。目的是控制文本內(nèi)容相同來研究不同演講者之間的風(fēng)格差異，來實(shí)現(xiàn)個(gè)性化的動(dòng)作生成。談話部分（50%）演講者將和導(dǎo)演在給定話題下進(jìn)行 10 分鐘左右的討論，但為了去除噪聲，只有演講者的數(shù)據(jù)被記錄。
下表還將 BEAT 與現(xiàn)有的數(shù)據(jù)集進(jìn)行了比較，綠色高光表示最佳值，可以看出，BEAT 是現(xiàn)階段包含多模態(tài)數(shù)據(jù)和標(biāo)注的最大的運(yùn)動(dòng)捕捉數(shù)據(jù)集。

多模態(tài)驅(qū)動(dòng)的動(dòng)作生成基線模型
BEAT 提出了一個(gè)多模態(tài)驅(qū)動(dòng)的動(dòng)作生成基線模型，CaMN（Cascade Montion Network），將音頻 - 文本 - 面部數(shù)據(jù)以及情感，語義標(biāo)注作為輸入，以生成更高質(zhì)量的談話動(dòng)作。網(wǎng)絡(luò)主干由多個(gè)級(jí)聯(lián)編碼器和兩個(gè)級(jí)聯(lián) LSTM+MLP ****組成，生成軀體和手部動(dòng)作，數(shù)據(jù)被降頻到 15FPS，單詞句子被插入填充標(biāo)記以對(duì)應(yīng)音頻的沉默時(shí)間。具體的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

文本、語音和 Speaker-ID 編碼器的網(wǎng)絡(luò)選擇是基于現(xiàn)有研究，并針對(duì) BEAT 數(shù)據(jù)集在結(jié)構(gòu)上進(jìn)行了修改。對(duì)于面部 blendshape weight 數(shù)據(jù)，采用了基于殘差網(wǎng)絡(luò)的一維 TCN 結(jié)構(gòu)。最終網(wǎng)絡(luò)的損失函數(shù)來自語義標(biāo)注權(quán)重和動(dòng)作重建損失的組合：

其中針對(duì)不同演講者的數(shù)據(jù)，網(wǎng)絡(luò)也采取了不同的對(duì)抗損失來輔助提升生成動(dòng)作的多樣性。

實(shí)驗(yàn)結(jié)果
研究者首先驗(yàn)證了一個(gè)新的評(píng)價(jià)指標(biāo) SRGR，然后基于主觀實(shí)驗(yàn)驗(yàn)證了 BEAT 的數(shù)據(jù)質(zhì)量，并將提出的模型與現(xiàn)有的方法進(jìn)行了比較。
SRGR 的有效性
為了驗(yàn)證 SRGR 的有效性，研究者將動(dòng)作序列被隨機(jī)切割成 40 秒左右的片段，要求參與者根據(jù)動(dòng)作的正確性，多樣性和吸引力對(duì)每個(gè)片段進(jìn)行評(píng)分。最終共有 160 人參與評(píng)分，平均每個(gè)人對(duì) 15 個(gè)隨機(jī)的手勢(shì)片段打分。圖表顯示，與 L1 多樣性相比，SRGR 在評(píng)估手勢(shì)多樣性方面與人類感官更為相似。

數(shù)據(jù)質(zhì)量
為了評(píng)估 BEAT 這一新型數(shù)據(jù)集的質(zhì)量，研究者使用了現(xiàn)有研究中廣泛使用的動(dòng)捕數(shù)據(jù)集 Trinity 作為對(duì)比目標(biāo)。每個(gè)數(shù)據(jù)集被分成 19:2:2 的比例，分別作為訓(xùn)練 / 驗(yàn)證 / 測(cè)試數(shù)據(jù)，并使用現(xiàn)有方法 S2G 和 audio2gestures 進(jìn)行比較。評(píng)估主要針對(duì)不同數(shù)據(jù)集訓(xùn)練結(jié)果的正確性（身體動(dòng)作的準(zhǔn)確性）、手部正確性（手部動(dòng)作的準(zhǔn)確性）、多樣性（動(dòng)作的多樣性）和同步性（動(dòng)作和語音的同步性）。結(jié)果見下表。

表中顯示，BEAT 在各方面的主管評(píng)分都很高，表明這個(gè)數(shù)據(jù)集遠(yuǎn)遠(yuǎn)優(yōu)于 Trinity。同時(shí)在數(shù)據(jù)質(zhì)量上也超過了現(xiàn)有的視頻數(shù)據(jù)集 S2G-3D。
對(duì) Baseline 模型的評(píng)價(jià)
為了驗(yàn)證本文提出的模型 CaMN 的性能，在以下條件下與現(xiàn)有方法 Seq2Seq,S2G,A2G 和 MultiContext 進(jìn)行了比較驗(yàn)證。一些實(shí)驗(yàn)的細(xì)節(jié)如下：

使用數(shù)據(jù)集中四名演講者的數(shù)據(jù)進(jìn)行 15 小時(shí)的訓(xùn)練，選取不同模型在驗(yàn)證集上最優(yōu)的權(quán)重在測(cè)試集上測(cè)試。
FGD 被采用為評(píng)價(jià)指標(biāo)，因?yàn)橐驯蛔C明 L1 損失不適合于評(píng)價(jià)生成動(dòng)作的性能。
為了評(píng)估手勢(shì)的多樣性和與語音的同步性，研究者采用了本文提出的 SRGR 和舞蹈動(dòng)作生成中常用的指數(shù) BeatAlign。

驗(yàn)證結(jié)果如下表所示，CaMN 在所有評(píng)價(jià)指標(biāo)上得分最高。

下面是一個(gè)由 CaMN 生成的手勢(shì)的例子。

圖中展示了一個(gè)真實(shí)數(shù)據(jù)樣本（上）和一個(gè) CaMN 生成的動(dòng)作（下），生成的動(dòng)作具備語義相關(guān)性。
總結(jié)
本文研究者提出大規(guī)模的多模態(tài)數(shù)字人驅(qū)動(dòng)數(shù)據(jù)集 BEAT，用于生成更生動(dòng)的談話動(dòng)作。該數(shù)據(jù)集還可應(yīng)用于數(shù)字人驅(qū)動(dòng)的其他領(lǐng)域，如 LipSync，表情識(shí)別，語音風(fēng)格轉(zhuǎn)換等等。

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請(qǐng)聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

ECCV 2022 | 華為開源BEAT：最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集

相關(guān)推薦

技術(shù)專區(qū)