ECCV 2022 | 華為開源BEAT:最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集
來源丨機(jī)器之心
華為東京研究所 - Digital Human Lab 與東京大學(xué)等合作進(jìn)行了研究,提出了目前為止最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集:BEAT。
隨著元宇宙的火爆以及數(shù)字人建模技術(shù)的商業(yè)化,AI 數(shù)字人驅(qū)動算法,作為數(shù)字人動畫技術(shù)鏈的下一關(guān)鍵環(huán)節(jié),獲得了學(xué)界和工業(yè)界越來越廣泛的興趣和關(guān)注。其中談話動作生成 (由聲音等控制信號生成肢體和手部動作)由于可以降低 VR Chat, 虛擬直播,游戲 NPC 等場景下的驅(qū)動成本,在近兩年成為研究熱點(diǎn)。然而,由于缺乏開源數(shù)據(jù),現(xiàn)有的模型往往在由姿態(tài)檢測算法提供的偽標(biāo)簽數(shù)據(jù)集或者單個說話人的小規(guī)模動捕數(shù)據(jù)集上進(jìn)行測試。由于數(shù)據(jù)量,數(shù)據(jù)標(biāo)注的缺乏和數(shù)據(jù)質(zhì)量的限制,現(xiàn)有的算法很難生成個性化,高手部質(zhì)量,情感相關(guān),動作 - 語義相關(guān)的動作。
針對上述問題,華為東京研究所 - Digital Human Lab 與東京大學(xué)等合作進(jìn)行了研究,提出了目前為止最大規(guī)模的數(shù)字人多模態(tài)數(shù)據(jù)集:BEAT (Body-Expression-Audio-Text),由 76 小時動捕設(shè)備采集的談話數(shù)據(jù)和語義 - 情感標(biāo)注組成。原始數(shù)據(jù)包含肢體和手部動捕數(shù)據(jù),AR Kit 標(biāo)準(zhǔn) 52 維面部 blendshape 權(quán)重,音頻與文本,標(biāo)注數(shù)據(jù)包含 8 類情感分類標(biāo)簽,以及動作類型分類和語義相關(guān)度打分。在 BEAT 的基礎(chǔ)上提出的新基線模型 CaMN (Cascade-Motion-Network) 采取級聯(lián)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由 BEAT 中其余三種模態(tài)和標(biāo)注作為輸入,在動作生成任務(wù)上顯著優(yōu)于現(xiàn)有 SoTA (state-of-the-art) 算法。論文《BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis》已于 ECCV2022 上發(fā)表,數(shù)據(jù)集已經(jīng)開源。
- 作者: Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng.
- 單位:Digital Human Lab - 華為東京研究所,東京大學(xué),慶應(yīng)大學(xué),北陸先端科技大學(xué).
- 論文地址:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136670605.pdf
- 項(xiàng)目主頁:https://pantomatrix.github.io/BEAT/
- 數(shù)據(jù)集主頁:https://pantomatrix.github.io/BEAT-Dataset/
- 視頻結(jié)果:https://www.youtube.com/watch?v=F6nXVTUY0KQ
部分渲染后的數(shù)據(jù)如下(從上到下依次為,生氣 - 恐懼 - 驚訝 - 傷心情感下人的動作):
渲染結(jié)果使用了 HumanGeneratorV3 產(chǎn)生的身體和臉部模型。
BEAT 數(shù)據(jù)集細(xì)節(jié)
動作 - 文本語義相關(guān)度標(biāo)注
談話動作生成領(lǐng)域的關(guān)鍵問題是:如何生成和評估生成的動作和文本在語義上的關(guān)聯(lián)程度。該關(guān)聯(lián)程度很大程度上影響了人對生成動作質(zhì)量的主觀評價。由于缺乏標(biāo)注,現(xiàn)有的研究往往挑選一系列主觀結(jié)果用于評估,增加了不確定性。在 BEAT 數(shù)據(jù)集中,對于動作給出了基于動作類別分類的相關(guān)度分?jǐn)?shù),共分為四類 10 檔:beat(1),deictic (2-4), icnoic(5-7),metaphoic(8-10)。該分類參考 McNeill 等人在 1992 年對談話動作的分類,其中后三類各自存在低 - 中 - 高質(zhì)量三檔。
然而,實(shí)際談話中,與當(dāng)前文本語義對應(yīng)的動作可能提前或滯后出現(xiàn),為了解決這個問題,在標(biāo)注過程中,標(biāo)注者判斷當(dāng)前動作所屬類別之后:
1. 以動作的開始和結(jié)束確定標(biāo)注范圍,保證了動作的完整性。2. 輸入與當(dāng)前動作最相關(guān)的關(guān)鍵字,獲取動作和對應(yīng)文本的準(zhǔn)確出現(xiàn)時間。
基于情感的對話
BEAT 數(shù)據(jù)集要求每個演講者必須錄制 8 種不同情緒下的談話動作,用于分析動作與情感之間的內(nèi)在聯(lián)系。在演講環(huán)節(jié)中,自然情緒占比 51%,憤怒、快樂、恐懼、厭惡、悲傷、蔑視和驚訝這七類情緒分別占比 7%。對動作進(jìn)行聚類的結(jié)果證明,動作和情感之間存在相關(guān)性,如下圖所示。
數(shù)據(jù)規(guī)模及采集細(xì)節(jié)
BEAT 采用了 ViCon,16 個攝像頭的動作捕捉系統(tǒng)來記錄演講和對話數(shù)據(jù),最終所有數(shù)據(jù)以 120FPS, 記載關(guān)節(jié)點(diǎn)旋轉(zhuǎn)角的表示形式的 bvh 文件發(fā)布。對于面部數(shù)據(jù),BEAT 采用 Iphone12Pro 錄制談話人的 52 維面部 blendsshape 權(quán)重,并不包括每個人的頭部模型,推薦使用 Iphone 的中性臉做可視化。BEAT 采用 16KHZ 音頻數(shù)據(jù),并通過語音識別算法生成文本偽標(biāo)簽,并依此生成具有時間標(biāo)注的 TextGrid 數(shù)據(jù)。
BEAT 包含四種語言的數(shù)據(jù):英語,中文,西班牙語,日語,數(shù)據(jù)量分別為 60,12,2,2 小時。由來自 10 個國家的 30 名演講者進(jìn)行錄制。其中中文,西班牙語,日語的演講者也同時錄制了英語數(shù)據(jù),用于分析不同語言下的動作差異。
在演講部分(數(shù)據(jù)集的 50%),30 個演講者被要求讀相同的大量文本,每段文本長度約 1 分鐘,總計(jì) 120 段文本。目的是控制文本內(nèi)容相同來研究不同演講者之間的風(fēng)格差異,來實(shí)現(xiàn)個性化的動作生成。談話部分(50%)演講者將和導(dǎo)演在給定話題下進(jìn)行 10 分鐘左右的討論,但為了去除噪聲,只有演講者的數(shù)據(jù)被記錄。
下表還將 BEAT 與現(xiàn)有的數(shù)據(jù)集進(jìn)行了比較,綠色高光表示最佳值,可以看出,BEAT 是現(xiàn)階段包含多模態(tài)數(shù)據(jù)和標(biāo)注的最大的運(yùn)動捕捉數(shù)據(jù)集。
多模態(tài)驅(qū)動的動作生成基線模型
BEAT 提出了一個多模態(tài)驅(qū)動的動作生成基線模型,CaMN(Cascade Montion Network),將音頻 - 文本 - 面部數(shù)據(jù)以及情感,語義標(biāo)注作為輸入,以生成更高質(zhì)量的談話動作。網(wǎng)絡(luò)主干由多個級聯(lián)編碼器和兩個級聯(lián) LSTM+MLP ****組成,生成軀體和手部動作,數(shù)據(jù)被降頻到 15FPS,單詞句子被插入填充標(biāo)記以對應(yīng)音頻的沉默時間。具體的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。
文本、語音和 Speaker-ID 編碼器的網(wǎng)絡(luò)選擇是基于現(xiàn)有研究,并針對 BEAT 數(shù)據(jù)集在結(jié)構(gòu)上進(jìn)行了修改。對于面部 blendshape weight 數(shù)據(jù),采用了基于殘差網(wǎng)絡(luò)的一維 TCN 結(jié)構(gòu)。最終網(wǎng)絡(luò)的損失函數(shù)來自語義標(biāo)注權(quán)重和動作重建損失的組合:
其中針對不同演講者的數(shù)據(jù),網(wǎng)絡(luò)也采取了不同的對抗損失來輔助提升生成動作的多樣性。
實(shí)驗(yàn)結(jié)果
研究者首先驗(yàn)證了一個新的評價指標(biāo) SRGR,然后基于主觀實(shí)驗(yàn)驗(yàn)證了 BEAT 的數(shù)據(jù)質(zhì)量,并將提出的模型與現(xiàn)有的方法進(jìn)行了比較。
SRGR 的有效性
為了驗(yàn)證 SRGR 的有效性,研究者將動作序列被隨機(jī)切割成 40 秒左右的片段,要求參與者根據(jù)動作的正確性,多樣性和吸引力對每個片段進(jìn)行評分。最終共有 160 人參與評分,平均每個人對 15 個隨機(jī)的手勢片段打分。圖表顯示,與 L1 多樣性相比,SRGR 在評估手勢多樣性方面與人類感官更為相似。
數(shù)據(jù)質(zhì)量
為了評估 BEAT 這一新型數(shù)據(jù)集的質(zhì)量,研究者使用了現(xiàn)有研究中廣泛使用的動捕數(shù)據(jù)集 Trinity 作為對比目標(biāo)。每個數(shù)據(jù)集被分成 19:2:2 的比例,分別作為訓(xùn)練 / 驗(yàn)證 / 測試數(shù)據(jù),并使用現(xiàn)有方法 S2G 和 audio2gestures 進(jìn)行比較。評估主要針對不同數(shù)據(jù)集訓(xùn)練結(jié)果的正確性(身體動作的準(zhǔn)確性)、手部正確性(手部動作的準(zhǔn)確性)、多樣性(動作的多樣性)和同步性(動作和語音的同步性)。結(jié)果見下表。
表中顯示,BEAT 在各方面的主管評分都很高,表明這個數(shù)據(jù)集遠(yuǎn)遠(yuǎn)優(yōu)于 Trinity。同時在數(shù)據(jù)質(zhì)量上也超過了現(xiàn)有的視頻數(shù)據(jù)集 S2G-3D。
對 Baseline 模型的評價
為了驗(yàn)證本文提出的模型 CaMN 的性能,在以下條件下與現(xiàn)有方法 Seq2Seq,S2G,A2G 和 MultiContext 進(jìn)行了比較驗(yàn)證。一些實(shí)驗(yàn)的細(xì)節(jié)如下:
- 使用數(shù)據(jù)集中四名演講者的數(shù)據(jù)進(jìn)行 15 小時的訓(xùn)練,選取不同模型在驗(yàn)證集上最優(yōu)的權(quán)重在測試集上測試。
- FGD 被采用為評價指標(biāo),因?yàn)橐驯蛔C明 L1 損失不適合于評價生成動作的性能。
- 為了評估手勢的多樣性和與語音的同步性,研究者采用了本文提出的 SRGR 和舞蹈動作生成中常用的指數(shù) BeatAlign。
驗(yàn)證結(jié)果如下表所示,CaMN 在所有評價指標(biāo)上得分最高。
下面是一個由 CaMN 生成的手勢的例子。
圖中展示了一個真實(shí)數(shù)據(jù)樣本(上)和一個 CaMN 生成的動作(下),生成的動作具備語義相關(guān)性。
總結(jié)
本文研究者提出大規(guī)模的多模態(tài)數(shù)字人驅(qū)動數(shù)據(jù)集 BEAT,用于生成更生動的談話動作。該數(shù)據(jù)集還可應(yīng)用于數(shù)字人驅(qū)動的其他領(lǐng)域,如 LipSync,表情識別,語音風(fēng)格轉(zhuǎn)換等等。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。