商湯的數(shù)字人研究，在CVPR上成了爆款

發(fā)布人：機器之心時間：2022-06-22 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

在 CVPR 大會上，看數(shù)字人技術的最新趨勢。

對表情和手勢進行精細建模、讓數(shù)字人跳舞的算法、用 2D 圖片生成 3D 模型…… 最近一段時間，AI 領域里面向元宇宙和數(shù)字人的新技術越來越多。
人工智能最重要學術會議之一——CVPR 2022 這幾天正在進行過程中，今年大會獲得的投稿數(shù)量超過一萬，接收論文數(shù)量超過 2000 篇，是歷屆規(guī)模最大的一次。

在大會上，商湯科技及其聯(lián)合實驗室有 71 篇論文被錄用，其中近四分之一為 Oral（口頭報告）論文。值得關注的是，這些最新研究中有很多覆蓋 3D 數(shù)字人、三維視覺等前沿領域，它們正在引領元宇宙領域的技術應用趨勢。
在未來的 AR 和 VR 環(huán)境中，我們需要高質量的沉浸式內(nèi)容，實現(xiàn)高效率、低成本的時空拓展體驗，這意味著應用自動生成內(nèi)容的 AI 技術幾乎是唯一可行的方式。在 AI 研究者社區(qū)中，近期的一些進展讓人眼前一亮。
讓數(shù)字人自己學會跳舞
迄今為止，我們看到的數(shù)字人大多數(shù)時候只會站在一邊發(fā)表自己的觀點，但生而為「人」，自然的交流能力并不是全部，能不能讓虛擬人物的動作不依賴于動作捕捉，而是完全由 AI 自動生成動作呢？
想要驅動 3D 角色跟隨音樂自動跳舞，其難點在于生成的舞蹈動作不僅在空間上要保證動作的標準與美感，還需要在時間上保持與不同音樂節(jié)奏的一致性。因此這是一個極具挑戰(zhàn)性的任務。

來自南洋理工大學、中山大學、UCLA 和商湯的研究者們在論文《Bailando: 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》中提出了一種音樂到舞蹈的新框架 Bailando，分別通過「編舞記憶」和「演員 - 評論家」（Actor-Critic）GPT 解決上述「空間」與「時間」的挑戰(zhàn)，實現(xiàn)高質量的 AI 編舞。在此之前的大多數(shù)相關研究都希望通過設計一個巧妙的網(wǎng)絡，直接將音樂映射到高維連續(xù)的人體姿態(tài)空間中實現(xiàn)編舞。但由于映射的目標空間既包含標準的舞姿，又包含了舞蹈動作之外的非標準姿勢，此類方法在實踐中通常不穩(wěn)定，容易回歸到非標準姿勢上（比如僵住或者奇怪的抖動）。

為了將動作限制在人類舞蹈的范圍內(nèi)，一些研究收集了真實舞蹈片段作為舞蹈單元，并通過對這些單元進行排列組合實現(xiàn)編舞。然而舞蹈單元的收集不僅需要耗費大量人工，而且通過此類方法收集得到的舞蹈單元的節(jié)拍、速度都是固定的，不能復用到不同節(jié)奏的音樂。
針對上述問題，舞蹈生成框架 Bailando 中設計了兩個主要組件：「編舞記憶和（Actor-Critic）GPT。
首先是「編舞記憶」模塊，為了解決空間挑戰(zhàn)，Bailando 通過對舞蹈數(shù)據(jù)進行非監(jiān)督學習的方式，總結出僅標準舞姿的子空間，將映射的目標空間限定在標準舞蹈動作上。值得注意的是，新方法沒有人工手動標記舞蹈單元，而是利用無監(jiān)督學習的方式將 3D 關節(jié)序列編碼和量化為碼本，學習出舞蹈中重要且可復用的舞蹈元素。
為了進一步擴大舞蹈記憶可以表示的范圍，研究人員將 3D 姿勢劃分為上半身和下半身的組合讓 AI 分別進行學習，這樣一段舞蹈可以表示為一系列成對的姿勢編碼。
然后，為了將這些編碼的舞姿組合成一段舞蹈，作者引入了一個名為 motion GPT 的類 GPT 網(wǎng)絡，將音樂轉換為舞姿編碼序列。由于 3D 姿勢在【編舞記憶】中被劃分為上下半身，這里還需要通過跨條件因果注意層來增強運動 GPT，以保證上下身的協(xié)調性。

Bailando 的推理過程：給定一段音樂和一個起始姿勢編碼對，actor-critic GPT 自回歸預測未來的姿勢編碼序列，然后利用【編舞記憶】將編碼序列轉化為量化特征，最后由基于 CNN 的專用****解碼出 3D 舞蹈動作。
會做動作的虛擬人只是成功了一半，我們還得讓它們跟上節(jié)拍。研究者對 GPT 網(wǎng)絡引入了一種基于「演員 - 評論家」（Actor-Critic）的強化學習方案，并加入了新設計的節(jié)拍對齊獎勵功能，使得生成的舞蹈與音樂節(jié)拍在時間上同步對齊。
在標準數(shù)據(jù)集上進行的大量實驗表明，新框架在定性和定量上都實現(xiàn)了最好的效果。通過在數(shù)據(jù)集上進行的大量實驗表明，研究人員提出的新框架在定性和定量上都實現(xiàn)了業(yè)界最佳的效果（SOTA）。

Bailando（右下）和其他方法生成舞蹈效果的對比。
Bailando 可以驅動數(shù)字人配合背景音樂跳起舞來，在未來有望成為驅動虛擬主播的底層技術。而在游戲和動漫等環(huán)境中，模型生成高質量舞蹈的能力也可以用于輔助或取代人工編舞，大大降低成本。
在元宇宙中復刻人類
除了讓「NPC」活動手腳，我們還希望虛擬世界能夠更準確地描述自己的形象。
在論文《Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer》中，來自港中文、港大、悉尼大學和商湯的研究人員實現(xiàn)了對人物形象專門優(yōu)化的視覺理解模型。

標準網(wǎng)格（a）和 TCFormer 生成的視覺標記（b）之間的比較。
最近一段時間，原本用于自然語言處理領域的 transformer 框架在計算機視覺人臉對齊、姿態(tài)估計、3D 人體網(wǎng)格重建等任務中展現(xiàn)了強大的能力。
大多數(shù)計算機視覺領域的 transformer 網(wǎng)絡直接將圖片劃分為大小、形狀相同的網(wǎng)格區(qū)域，并將每一塊網(wǎng)格區(qū)域用一個 token 表示。這種分割方式忽視了人體與背景、人體不同部位之間的區(qū)別，限制了網(wǎng)絡在如手勢、表情等人體細節(jié)上的重建精度。
新研究針對以人為中心的視覺理解任務提出了一種新 transformer 網(wǎng)絡結構 TCFormer，其使用一種基于特征聚類的 token 劃分方式，能夠根據(jù)圖片的語義信息動態(tài)調整 token 的大小、形狀和位置，聚焦于重要的圖片細節(jié)。
TCFormer 在基于圖像的人體全身關鍵點估計、人臉關鍵點估計和人體三維網(wǎng)格重建任務上都獲得了最先進的效果，在人體細節(jié)的重建精度上取得了明顯的性能提升。
具體來說，為解決細節(jié)丟失問題，研究人員提出了一個多階段 token 聚合方法（MTA），可以有效的方式保留所有階段的圖像細節(jié)。MTA 頭從上一階段的 token 開始，逐步對 token 進行上采樣并聚合上一階段特征，直到聚合所有階段的的特征。聚合后的標記與特征圖中的像素一一對應，并被重新整形為特征圖供后續(xù)處理。

TCFormer 使用多階段架構，由 4 個分層階段和一個多階段 token 聚合 (MTA) 頭組成。每個階段都包含幾個堆疊的 transformer 塊。在兩個相鄰階段之間，插入基于聚類的 token 合并（CTM）塊以合并 token，并為下一階段生成 token。MTA head 聚合來自所有階段的 token 特征并輸出最終的熱圖。
商湯的研究人員表示，TCFormer 的工作主要關注人體相關的任務，可應用在和人體姿勢估計相關的應用中，如 SenseMARS Avatar 、 SenseMARS Agent 等業(yè)務都涉及對人體姿勢的估計。通過 TCFormer，我們能夠更好地捕獲細節(jié)信息，進而在應用中提供更加精細的姿勢估計結果，從而實現(xiàn)更加細致復雜的效果。
在論文中，研究人員在 wholebody 數(shù)據(jù)集的測試上取得了不小的提升，該任務要求算法同時估計人體、人手、人臉的關鍵點。TCFormer 的全身姿態(tài)估計精度（57.2% AP 和 67.8% AR）高于業(yè)內(nèi)最佳方法，特別是在手部關鍵點檢測上，新方法性能出色，這證明了 TCFormer 在捕獲小尺寸關鍵圖像細節(jié)方面的能力。

TCFormer 可以同時記錄人的動作、表情和手勢，進而讓虛擬現(xiàn)實和元宇宙應用中的虛擬形象更加生動靈活，人們也可以更加精細地控制各類虛擬角色，進而獲得更深的沉浸感。
比如在 VRChat 這類游戲中，若能夠憑借圖像就生動地重建出用戶的動作、表情和手勢，游戲的體驗就能獲得大幅提升。

現(xiàn)在的 VRChat 是這個樣子，人物的動作并不靈活。
TCFormer 也可以用于幫助虛擬偶像演出，如果人物的形象更加生動，就能產(chǎn)生更好的演出效果。
在體感游戲中，更精細的形象理解也能讓用戶的操作更加細致，提升沉浸感。在未來通過算法，我們或許不再需要復雜的動作捕捉設備，只需要一個攝像頭就能玩元宇宙游戲了。
發(fā)展 AI 技術，引領數(shù)字人產(chǎn)業(yè)
人工智能頂會 CVPR 在 Google Scholar 學術期刊、會議排名上目前位列總榜第四，次于 Nature、新英格蘭醫(yī)學雜志和 Science，超過 Cell 和 JAMA。每年，CVPR 的研究都在預示著計算機視覺技術的方向。
元宇宙是科技領域最近的重要話題，值得注意的是，早在 2020 年 8 月，商湯就提出了自身的混合現(xiàn)實創(chuàng)新平臺 SenseMARS。

這是一個用于構建元宇宙的「造物者」平臺，包含用于創(chuàng)作元宇宙虛擬化身的 SenseMARS Avatar、支持數(shù)字人等元宇宙「原住民」開發(fā)的 SenseMARS Agent、用于物理世界數(shù)字重建的 SenseMARS Reconstruction 等工具。
目前，SenseMARS 平臺已集成了超過 3500 個人工智能模型，支持感知智能及混合與增強現(xiàn)實系統(tǒng)（MARS），創(chuàng)造了全新的元宇宙體驗。在 SenseMARS 的加持下，元宇宙中的虛擬人物可以擁有智慧的行為和動作，從而讓人與 AI 自然地互動起來。
用 SenseMARS 創(chuàng)造的數(shù)字人不僅可以「聽懂」人話，還能夠通過語言、表情、肢體等動作我們交流。同時，經(jīng)過不同領域知識數(shù)據(jù)的訓練學習，數(shù)字人可以成為我們在各個領域的智能助手。
而 SenseMARS Reconstruction 借助多算法融合，可以讓消費級電子設備（如手機、運動相機和無人機）高效重建出物理世界的三維模型，從小物體到購物商場、交通樞紐乃至城市都可以實現(xiàn)厘米級的高精度復刻。
商湯數(shù)字人落地的應用已經(jīng)進入了我們的生活。今年 2 月，寧波****上海分行入職了 001 號數(shù)字人員工「小寧」，為****客戶提供各類業(yè)務咨詢和辦理服務。其背后是商湯基于「AI 數(shù)字人服務中臺」為****專屬打造的全鏈條服務支持。

據(jù)介紹，數(shù)字人小寧可以回答超過 550 個常見業(yè)務問題，以及由此衍生的超過 3000 個相關業(yè)務問題，通過運營管理平臺的持續(xù)運營優(yōu)化，每天還可以新增超過 50 個業(yè)務相關衍生問題。
在人們的印象里，商湯科技一直以技術領先著稱。自 2014 年成立以來，這家公司一直鼓勵研究團隊將研究與產(chǎn)業(yè)落地相結合，在智慧城市、自動駕駛、智慧文旅等領域建立了技術壁壘，推動著行業(yè)發(fā)展，取得了令人矚目的成績。
這樣的探索正在延伸到元宇宙中。去年底上市的招股書中，商湯明確指出將在元宇宙平臺上重點投入：公司計劃將 60% 資金用于增強研發(fā)能力，與元宇宙相關投入占比達 40%。其中 20% 用于增強其他人工智能研發(fā)能力，包括 SenseMARS 和 SenseAuto。
在人工智能基礎設施 AI 大裝置啟用時，商湯科技聯(lián)合創(chuàng)始人、首席執(zhí)行官徐立曾表示，要通過 AI 大裝置對海量數(shù)據(jù)進行拆解和碰撞，深入挖掘潛在價值，從而打破認知和應用的邊界。突破邊界，就是實現(xiàn)虛擬與現(xiàn)實世界的連接，商湯正在基于自身 AI 技術推動物理世界的全面數(shù)字化轉型。
構建虛擬世界浪潮將帶來新的機會。而在這其中，AI 技術將扮演至關重要的角色。
參考內(nèi)容：Bailando 論文：https://arxiv.org/abs/2203.13055
TCFormer 論文：https://arxiv.org/abs/2204.08680

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

全息投影相關文章:全息投影原理

博客專欄

商湯的數(shù)字人研究，在CVPR上成了爆款

相關推薦

技術專區(qū)