商湯的數(shù)字人研究,在CVPR上成了爆款
在 CVPR 大會上,看數(shù)字人技術的最新趨勢。
對表情和手勢進行精細建模、讓數(shù)字人跳舞的算法、用 2D 圖片生成 3D 模型…… 最近一段時間,AI 領域里面向元宇宙和數(shù)字人的新技術越來越多。
人工智能最重要學術會議之一——CVPR 2022 這幾天正在進行過程中,今年大會獲得的投稿數(shù)量超過一萬,接收論文數(shù)量超過 2000 篇,是歷屆規(guī)模最大的一次。
在大會上,商湯科技及其聯(lián)合實驗室有 71 篇論文被錄用,其中近四分之一為 Oral(口頭報告)論文。值得關注的是,這些最新研究中有很多覆蓋 3D 數(shù)字人、三維視覺等前沿領域,它們正在引領元宇宙領域的技術應用趨勢。
在未來的 AR 和 VR 環(huán)境中,我們需要高質量的沉浸式內(nèi)容,實現(xiàn)高效率、低成本的時空拓展體驗,這意味著應用自動生成內(nèi)容的 AI 技術幾乎是唯一可行的方式。在 AI 研究者社區(qū)中,近期的一些進展讓人眼前一亮。
讓數(shù)字人自己學會跳舞
迄今為止,我們看到的數(shù)字人大多數(shù)時候只會站在一邊發(fā)表自己的觀點,但生而為「人」,自然的交流能力并不是全部,能不能讓虛擬人物的動作不依賴于動作捕捉,而是完全由 AI 自動生成動作呢?
想要驅動 3D 角色跟隨音樂自動跳舞,其難點在于生成的舞蹈動作不僅在空間上要保證動作的標準與美感,還需要在時間上保持與不同音樂節(jié)奏的一致性。因此這是一個極具挑戰(zhàn)性的任務。
來自南洋理工大學、中山大學、UCLA 和商湯的研究者們在論文《Bailando: 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》中提出了一種音樂到舞蹈的新框架 Bailando,分別通過「編舞記憶」和「演員 - 評論家」(Actor-Critic)GPT 解決上述「空間」與「時間」的挑戰(zhàn),實現(xiàn)高質量的 AI 編舞。 在此之前的大多數(shù)相關研究都希望通過設計一個巧妙的網(wǎng)絡,直接將音樂映射到高維連續(xù)的人體姿態(tài)空間中實現(xiàn)編舞。但由于映射的目標空間既包含標準的舞姿,又包含了舞蹈動作之外的非標準姿勢,此類方法在實踐中通常不穩(wěn)定,容易回歸到非標準姿勢上(比如僵住或者奇怪的抖動)。
為了將動作限制在人類舞蹈的范圍內(nèi),一些研究收集了真實舞蹈片段作為舞蹈單元,并通過對這些單元進行排列組合實現(xiàn)編舞。然而舞蹈單元的收集不僅需要耗費大量人工,而且通過此類方法收集得到的舞蹈單元的節(jié)拍、速度都是固定的,不能復用到不同節(jié)奏的音樂。
針對上述問題,舞蹈生成框架 Bailando 中設計了兩個主要組件:「編舞記憶和(Actor-Critic)GPT。
首先是「編舞記憶」模塊,為了解決空間挑戰(zhàn),Bailando 通過對舞蹈數(shù)據(jù)進行非監(jiān)督學習的方式,總結出僅標準舞姿的子空間,將映射的目標空間限定在標準舞蹈動作上。值得注意的是,新方法沒有人工手動標記舞蹈單元,而是利用無監(jiān)督學習的方式將 3D 關節(jié)序列編碼和量化為碼本,學習出舞蹈中重要且可復用的舞蹈元素。
為了進一步擴大舞蹈記憶可以表示的范圍,研究人員將 3D 姿勢劃分為上半身和下半身的組合讓 AI 分別進行學習,這樣一段舞蹈可以表示為一系列成對的姿勢編碼。
然后,為了將這些編碼的舞姿組合成一段舞蹈,作者引入了一個名為 motion GPT 的類 GPT 網(wǎng)絡,將音樂轉換為舞姿編碼序列。由于 3D 姿勢在【編舞記憶】中被劃分為上下半身,這里還需要通過跨條件因果注意層來增強運動 GPT,以保證上下身的協(xié)調性。
Bailando 的推理過程:給定一段音樂和一個起始姿勢編碼對,actor-critic GPT 自回歸預測未來的姿勢編碼序列,然后利用【編舞記憶】將編碼序列轉化為量化特征,最后由基于 CNN 的專用****解碼出 3D 舞蹈動作。
會做動作的虛擬人只是成功了一半,我們還得讓它們跟上節(jié)拍。研究者對 GPT 網(wǎng)絡引入了一種基于「演員 - 評論家」(Actor-Critic)的強化學習方案,并加入了新設計的節(jié)拍對齊獎勵功能,使得生成的舞蹈與音樂節(jié)拍在時間上同步對齊。
在標準數(shù)據(jù)集上進行的大量實驗表明,新框架在定性和定量上都實現(xiàn)了最好的效果。通過在數(shù)據(jù)集上進行的大量實驗表明,研究人員提出的新框架在定性和定量上都實現(xiàn)了業(yè)界最佳的效果(SOTA)。
Bailando(右下)和其他方法生成舞蹈效果的對比。
Bailando 可以驅動數(shù)字人配合背景音樂跳起舞來,在未來有望成為驅動虛擬主播的底層技術。而在游戲和動漫等環(huán)境中,模型生成高質量舞蹈的能力也可以用于輔助或取代人工編舞,大大降低成本。
在元宇宙中復刻人類
除了讓「NPC」活動手腳,我們還希望虛擬世界能夠更準確地描述自己的形象。
在論文《Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer》中,來自港中文、港大、悉尼大學和商湯的研究人員實現(xiàn)了對人物形象專門優(yōu)化的視覺理解模型。
標準網(wǎng)格(a)和 TCFormer 生成的視覺標記(b)之間的比較。
最近一段時間,原本用于自然語言處理領域的 transformer 框架在計算機視覺人臉對齊、姿態(tài)估計、3D 人體網(wǎng)格重建等任務中展現(xiàn)了強大的能力。
大多數(shù)計算機視覺領域的 transformer 網(wǎng)絡直接將圖片劃分為大小、形狀相同的網(wǎng)格區(qū)域,并將每一塊網(wǎng)格區(qū)域用一個 token 表示。這種分割方式忽視了人體與背景、人體不同部位之間的區(qū)別,限制了網(wǎng)絡在如手勢、表情等人體細節(jié)上的重建精度。
新研究針對以人為中心的視覺理解任務提出了一種新 transformer 網(wǎng)絡結構 TCFormer,其使用一種基于特征聚類的 token 劃分方式,能夠根據(jù)圖片的語義信息動態(tài)調整 token 的大小、形狀和位置,聚焦于重要的圖片細節(jié)。
TCFormer 在基于圖像的人體全身關鍵點估計、人臉關鍵點估計和人體三維網(wǎng)格重建任務上都獲得了最先進的效果,在人體細節(jié)的重建精度上取得了明顯的性能提升。
具體來說,為解決細節(jié)丟失問題,研究人員提出了一個多階段 token 聚合方法(MTA),可以有效的方式保留所有階段的圖像細節(jié)。MTA 頭從上一階段的 token 開始,逐步對 token 進行上采樣并聚合上一階段特征,直到聚合所有階段的的特征。聚合后的標記與特征圖中的像素一一對應,并被重新整形為特征圖供后續(xù)處理。
TCFormer 使用多階段架構,由 4 個分層階段和一個多階段 token 聚合 (MTA) 頭組成。每個階段都包含幾個堆疊的 transformer 塊。在兩個相鄰階段之間,插入基于聚類的 token 合并(CTM)塊以合并 token,并為下一階段生成 token。MTA head 聚合來自所有階段的 token 特征并輸出最終的熱圖。
商湯的研究人員表示,TCFormer 的工作主要關注人體相關的任務,可應用在和人體姿勢估計相關的應用中,如 SenseMARS Avatar 、 SenseMARS Agent 等業(yè)務都涉及對人體姿勢的估計。通過 TCFormer,我們能夠更好地捕獲細節(jié)信息,進而在應用中提供更加精細的姿勢估計結果,從而實現(xiàn)更加細致復雜的效果。
在論文中,研究人員在 wholebody 數(shù)據(jù)集的測試上取得了不小的提升,該任務要求算法同時估計人體、人手、人臉的關鍵點。TCFormer 的全身姿態(tài)估計精度(57.2% AP 和 67.8% AR)高于業(yè)內(nèi)最佳方法,特別是在手部關鍵點檢測上,新方法性能出色,這證明了 TCFormer 在捕獲小尺寸關鍵圖像細節(jié)方面的能力。
TCFormer 可以同時記錄人的動作、表情和手勢,進而讓虛擬現(xiàn)實和元宇宙應用中的虛擬形象更加生動靈活,人們也可以更加精細地控制各類虛擬角色,進而獲得更深的沉浸感。
比如在 VRChat 這類游戲中,若能夠憑借圖像就生動地重建出用戶的動作、表情和手勢,游戲的體驗就能獲得大幅提升。
現(xiàn)在的 VRChat 是這個樣子,人物的動作并不靈活。
TCFormer 也可以用于幫助虛擬偶像演出,如果人物的形象更加生動,就能產(chǎn)生更好的演出效果。
在體感游戲中,更精細的形象理解也能讓用戶的操作更加細致,提升沉浸感。在未來通過算法,我們或許不再需要復雜的動作捕捉設備,只需要一個攝像頭就能玩元宇宙游戲了。
發(fā)展 AI 技術,引領數(shù)字人產(chǎn)業(yè)
人工智能頂會 CVPR 在 Google Scholar 學術期刊、會議排名上目前位列總榜第四,次于 Nature、新英格蘭醫(yī)學雜志和 Science,超過 Cell 和 JAMA。每年,CVPR 的研究都在預示著計算機視覺技術的方向。
元宇宙是科技領域最近的重要話題,值得注意的是,早在 2020 年 8 月,商湯就提出了自身的混合現(xiàn)實創(chuàng)新平臺 SenseMARS。
這是一個用于構建元宇宙的「造物者」平臺,包含用于創(chuàng)作元宇宙虛擬化身的 SenseMARS Avatar、支持數(shù)字人等元宇宙「原住民」開發(fā)的 SenseMARS Agent、用于物理世界數(shù)字重建的 SenseMARS Reconstruction 等工具。
目前,SenseMARS 平臺已集成了超過 3500 個人工智能模型,支持感知智能及混合與增強現(xiàn)實系統(tǒng)(MARS),創(chuàng)造了全新的元宇宙體驗。在 SenseMARS 的加持下,元宇宙中的虛擬人物可以擁有智慧的行為和動作,從而讓人與 AI 自然地互動起來。
用 SenseMARS 創(chuàng)造的數(shù)字人不僅可以「聽懂」人話,還能夠通過語言、表情、肢體等動作我們交流。同時,經(jīng)過不同領域知識數(shù)據(jù)的訓練學習,數(shù)字人可以成為我們在各個領域的智能助手。
而 SenseMARS Reconstruction 借助多算法融合,可以讓消費級電子設備(如手機、運動相機和無人機)高效重建出物理世界的三維模型,從小物體到購物商場、交通樞紐乃至城市都可以實現(xiàn)厘米級的高精度復刻。
商湯數(shù)字人落地的應用已經(jīng)進入了我們的生活。今年 2 月,寧波****上海分行入職了 001 號數(shù)字人員工「小寧」,為****客戶提供各類業(yè)務咨詢和辦理服務。其背后是商湯基于「AI 數(shù)字人服務中臺」為****專屬打造的全鏈條服務支持。
據(jù)介紹,數(shù)字人小寧可以回答超過 550 個常見業(yè)務問題,以及由此衍生的超過 3000 個相關業(yè)務問題,通過運營管理平臺的持續(xù)運營優(yōu)化,每天還可以新增超過 50 個業(yè)務相關衍生問題。
在人們的印象里,商湯科技一直以技術領先著稱。自 2014 年成立以來,這家公司一直鼓勵研究團隊將研究與產(chǎn)業(yè)落地相結合,在智慧城市、自動駕駛、智慧文旅等領域建立了技術壁壘,推動著行業(yè)發(fā)展,取得了令人矚目的成績。
這樣的探索正在延伸到元宇宙中。去年底上市的招股書中,商湯明確指出將在元宇宙平臺上重點投入:公司計劃將 60% 資金用于增強研發(fā)能力,與元宇宙相關投入占比達 40%。其中 20% 用于增強其他人工智能研發(fā)能力,包括 SenseMARS 和 SenseAuto。
在人工智能基礎設施 AI 大裝置啟用時,商湯科技聯(lián)合創(chuàng)始人、首席執(zhí)行官徐立曾表示,要通過 AI 大裝置對海量數(shù)據(jù)進行拆解和碰撞,深入挖掘潛在價值,從而打破認知和應用的邊界。突破邊界,就是實現(xiàn)虛擬與現(xiàn)實世界的連接,商湯正在基于自身 AI 技術推動物理世界的全面數(shù)字化轉型。
構建虛擬世界浪潮將帶來新的機會。而在這其中,AI 技術將扮演至關重要的角色。
參考內(nèi)容:Bailando 論文:https://arxiv.org/abs/2203.13055
TCFormer 論文:https://arxiv.org/abs/2204.08680
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
全息投影相關文章:全息投影原理