在元宇宙中絕對需要的雙手！AI算法實現(xiàn)手指重建，倒酒沏茶不在話下，甚至可以搖花手！

發(fā)布人：大數(shù)據文摘時間：2021-09-20 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

最近，“元宇宙”的概念火了。

扎克伯格帶著VR設備在虛擬辦公室接受采訪的視頻在各大平臺傳播，人們似乎在期待一個新的時代的到來，就連相關的股****都應聲上漲。

那么，我們離《頭號玩家》中“綠洲”那樣的元宇宙還有多遠呢？

事實上，羅馬不是一下子建成的。扎克伯格給“元宇宙”的計劃時間是五年，技術也需要一步一步實現(xiàn)，這其中包括很多正在快速發(fā)展的技術，比如全自由交互。

打個比方，如果我們要用我們的雙手和虛擬世界交互，那么我們就需要對整個手部進行建模，比如這樣：

是不是覺得不過如此？確實，很早之前，我們通過佩戴指環(huán)就可以大體實現(xiàn)這樣的功能，但是，上面這張圖中所展現(xiàn)的效果，并未借助任何手指傳感器，僅僅是通過AI算法對攝像頭中的手指進行建模就能得到如此精細的手部動作。

還覺得不過癮的話，看看這個對搓手動作的還原，簡直絲毫不差！

這項研究由來自愛丁堡大學的He Zhang和Facebook Reality Labs的幾位合作者共同完成，對，就是那個致力于更精確的VR技術的Facebook Reality Labs！

論文鏈接：

https://research.fb.com/wp-content/uploads/2021/06/ManipNet-Neural-Manipulation-Synthesis-with-a-Hand-Object-Spatial-Representation.pdf

無需手指傳感器，還原最真實的手指運動

與其他類似研究相比，這項研究幾乎擁有目前效果最好的手指動作建模。

這時候你可能覺得，這個AI還原的算法是不是通過在手指上接上傳感器，然后獲得大量的數(shù)據學習得來的？我們不妨看看論文附帶的演示視頻：

注意看右上角的Input，手指上沒有任何傳感器。

這一切都是依靠團隊提出的ManipNet深度神經網絡算法。ManipNet利用手-物體對象的空間之間的關系特征，直接從數(shù)據中學習手部的自然動作。

論文中，作者表示，該空間表征算法結合了作為體素占比（三維空間分割上的最小單位）的整體物體形狀和作為最近距離樣本的物體局部的幾何細節(jié)。這種算法使得深度神經網絡可以通過從手腕和物體的輸入軌跡中模擬手指運動。

具體來說，ManipNet提供了過去、現(xiàn)在、未來三個節(jié)點的手指運動軌跡，以及從這些軌跡中提取的空間表征，然后深度神經網絡會根據這些已有的數(shù)據生成一個自回歸模型，預測從過去、現(xiàn)在到未來這幾個節(jié)點之間缺少的其他手指姿態(tài)。

如上圖所示，ManipNet是從控制信號和物體幾何特征中預測操縱對象的手指姿態(tài)（（a）右手握住茶壺，左手握住杯子（b）右手轉動手中的圓環(huán)），其中控制信號是手腕和物體的6D軌跡，并且該深度神經網絡只需要一個最小的和明確的輸入表示，以便實現(xiàn)更好的泛化。

此外，ManipNet只處理一個手-物體的“輸入”，然后通過鏡像運算兩次，為雙手生成預測圖像。

FRL為“元宇宙”提供更好的VR技術，相關技術國內也在發(fā)展

Facebook Reality Labs可以說是扎克伯格實現(xiàn)“元宇宙”夢想的重要技術動力來源。

在官網介紹中，F(xiàn)acebook Reality Labs表示，這里匯集了世界級的研究人員、開發(fā)人員和工程師團隊，在虛擬現(xiàn)實和增強現(xiàn)實中建立未來的連接。

就像ManipNet這樣的研究，正在不斷的為“元宇宙”中現(xiàn)實與虛擬的交互添磚加瓦。

ManipNet的團隊研究人員也表示，手指交互在游戲和AR/VR實時交互應用中有很大的潛力?！半S著AR/VR硬件在消費者市場的崛起，將我們的系統(tǒng)與其內置對象跟蹤相結合可以為新的互動內容打開了許多創(chuàng)造性的機會。”

事實上，國內的一些公司也在研究相關技術，比如愛奇藝被計算機視覺領域國際頂會 ICCV 2021收錄的一篇題為“I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling”，介紹的也是通過“看”單目RGB人手圖片，就能實現(xiàn)高精度的人手三維重建。

愛奇藝這篇論文中提出的I2UV-HandNet，將UV映射表征引入到三維手勢和形狀估計中，其設計的UV重建模塊AffineNet能夠從單目圖像中預測手部網絡（hand mesh），從而完成由粗到精的人手3D模型重建。

這一設計意味著對于三維重建中所需的空間中的景深信息，不用再通過昂貴的硬件完成偵測，在普通RGB攝像頭拍攝的圖片中就可以完成景深信息獲取。

I2UV-HandNet另一個組成部分是SRNet網絡，其作用是對已有人手三維模型進行更高精度的重建。SRNet網絡以研究團隊獨創(chuàng)的“將點的超分轉化為圖像超分的思想”為原則，實現(xiàn)在不增加過多計算量的情況下，進行上萬點云的超分重建。

同樣，愛奇藝團隊也認為，手部、人體重建卻是用自然的肢體語言實現(xiàn)人機交互的關鍵技術，相比一些可穿戴設備，更能帶來體驗和沉浸度。例如手柄無法模擬手指每一個關節(jié)的活動，手部重建則能實現(xiàn)更加精細的操控。這意味著這項技術可以應用在游戲、數(shù)字化工廠、虛擬場景培訓等更多場景。

相關報道：

https://www.youtube.com/watch?v=_9Bli4zCzZY

https://mp.weixin.qq.com/s/iyQRA6t4Ngcb7hRBdJ-ftw

https://research.fb.com/wp-content/uploads/2021/06/ManipNet-Neural-Manipulation-Synthesis-with-a-Hand-Object-Spatial-Representation.pdf

http://www.diankeji.com/vr/47299.html

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。