3D視頻會(huì)議系統(tǒng)VirtualCube：相隔萬(wàn)里也如近在咫尺般身臨其境

發(fā)布人：MSRAsia 時(shí)間：2022-05-23 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：常言道：“眼睛是心靈的窗戶”，眼神交流所傳達(dá)的信息也可以進(jìn)一步提升人們的溝通效果。然而，隨著視頻聊天、視頻會(huì)議逐漸成為常態(tài)，大家不禁要問(wèn)，我們有多久沒(méi)有與同事、朋友、家人確認(rèn)過(guò)眼神了？
而微軟亞洲研究院的研究項(xiàng)目 3D 視頻會(huì)議系統(tǒng) VirtualCube，可以讓在線會(huì)議的與會(huì)者建立自然的眼神交互，沉浸式的體驗(yàn)就像在同一個(gè)房間內(nèi)面對(duì)面交流一樣。該技術(shù)的相關(guān)論文被全球虛擬現(xiàn)實(shí)學(xué)術(shù)會(huì)議 IEEE Virtual Reality 2022 接收并獲得了大會(huì)的最佳論文獎(jiǎng)（Best Paper Award – Journal Papers Track）。

在日常交談中，相互注視和擺動(dòng)頭部等動(dòng)作都是自然對(duì)話的組成部分，尤其是當(dāng)我們?cè)诿鎸?duì)面交流中變換話題、控制發(fā)言或轉(zhuǎn)換交流對(duì)象時(shí)，都會(huì)伴隨眼神和肢體動(dòng)作的交流。然而，當(dāng)前的視頻會(huì)議技術(shù)卻存在著一定的缺陷——由于攝像頭和屏幕不在同一高度，如果看向屏幕眼神往往很不自然，如果看向攝像頭則無(wú)法關(guān)注到其他與會(huì)者的反應(yīng)，因此視頻會(huì)議缺少了線下交流的真實(shí)感和互動(dòng)感。而且在實(shí)際的工作中，我們還會(huì)有各種不同的會(huì)議場(chǎng)景，比如多人會(huì)議、同排而坐協(xié)同工作等情況，對(duì)于捕捉與會(huì)者的側(cè)方視線和動(dòng)作來(lái)說(shuō)，現(xiàn)有的視頻會(huì)議系統(tǒng)就更無(wú)能為力了。

如果有一個(gè)會(huì)議系統(tǒng)，可以讓人們即使身處不同的地方，也能像在同一房間里一樣交流，視線轉(zhuǎn)動(dòng)就能與同伴建立起眼神溝通，這是否會(huì)給遠(yuǎn)程辦公增添一份沉浸式的真實(shí)感呢？

利用現(xiàn)有的普通硬件設(shè)備搭建的 3D 視頻系統(tǒng)

為了解決這些問(wèn)題，微軟亞洲研究院提出了創(chuàng)新的 3D 視頻會(huì)議系統(tǒng)——VirtualCube，它可以在遠(yuǎn)程視頻會(huì)議中建立起真人等大的 3D 形象，無(wú)論是正面溝通，還是側(cè)方交流，系統(tǒng)都能夠正確捕捉到與會(huì)者的眼神、動(dòng)態(tài)，建立起眼神和肢體交流。相關(guān)論文被全球虛擬現(xiàn)實(shí)學(xué)術(shù)會(huì)議 IEEE Virtual Reality 2022 接收并獲得了大會(huì)的最佳論文獎(jiǎng)（Best Paper Award – Journal Papers Track）。（點(diǎn)擊閱讀原文，了解論文細(xì)節(jié)）

VirtualCube 系統(tǒng)具有三大優(yōu)勢(shì)：

標(biāo)準(zhǔn)化、簡(jiǎn)單化，全部使用現(xiàn)有的普通硬件設(shè)備。與辦公場(chǎng)所中常見(jiàn)的格子間（Cubicle）類似，每個(gè) VirtualCube 都提供了一致的物理環(huán)境和設(shè)備配置：與會(huì)者正前方安裝有6個(gè) Azure Kinect RGBD 攝像頭，以捕捉真人的圖像和眼神等動(dòng)作；在與會(huì)者的正面和左右兩側(cè)還各有一個(gè)大尺寸的顯示屏，以創(chuàng)造出身臨其境的參會(huì)感。使用現(xiàn)有的、標(biāo)準(zhǔn)化的硬件能夠大大簡(jiǎn)化用戶設(shè)備校準(zhǔn)的工作量，從而實(shí)現(xiàn) 3D 視頻系統(tǒng)的快速部署和應(yīng)用。

6個(gè) Azure Kinect RGBD 攝像頭捕捉人像和眼神等動(dòng)作

多人、多場(chǎng)景，任意組合。作為在線視頻會(huì)議的基礎(chǔ)構(gòu)建，VirtualCube 的虛擬會(huì)議環(huán)境可由多個(gè)空間（Cube）按照不同的布局組成，以支持不同的會(huì)議場(chǎng)景，例如兩人的面對(duì)面會(huì)議、兩人并排會(huì)議，以及多人的圓桌會(huì)議等。

多個(gè)空間（Cube）可實(shí)現(xiàn)任意組合

實(shí)時(shí)、高質(zhì)量渲染真人圖像。VirtualCube 可以捕捉到參與者的各種細(xì)微變化，包括人的皮膚顏色、紋理，面部或衣服上的反射光澤等，并實(shí)時(shí)渲染生成真人大小的 3D 形象，顯示在遠(yuǎn)程與會(huì)者的屏幕中。而且虛擬會(huì)議環(huán)境的背景也可以根據(jù)用戶的需求自由選擇。

任意變換會(huì)議場(chǎng)景，都能身臨其境

V-Cube View和V-Cube Assembly算法雙劍合璧，沉浸式會(huì)議體驗(yàn)不再是難題

其實(shí)業(yè)界對(duì) 3D 視頻會(huì)議的研究從未間斷過(guò)。早在2000年，就有人曾提出過(guò)與類似混合現(xiàn)實(shí)技術(shù)有關(guān)的暢想。基于這個(gè)設(shè)想，科研人員一直在探索如何將視頻會(huì)議以更逼真、更自然的方式呈現(xiàn)，期間也出現(xiàn)了不同的技術(shù)路線和解決方案，但都沒(méi)有達(dá)到理想的效果。對(duì)此，微軟亞洲研究院主管研究員張譯中和楊蛟龍表示，過(guò)往的研究仍然有很多沒(méi)有解決的問(wèn)題：首先，在真實(shí)環(huán)境下，無(wú)論放置怎樣的單目攝像設(shè)備，即使圖像質(zhì)量再高，與會(huì)者也很難形成自然的眼神交流，特別是多人會(huì)議的情況；其次，很多研究針對(duì)特定的會(huì)議場(chǎng)景進(jìn)行優(yōu)化，如兩個(gè)人面對(duì)面的會(huì)議或三人的圓桌會(huì)議，很難支持不同的會(huì)議設(shè)置；第三，雖然在影視界我們能夠看到一些逼真的虛擬人，但那是需要專業(yè)的技術(shù)和影視團(tuán)隊(duì)長(zhǎng)時(shí)間打磨和優(yōu)化才能實(shí)現(xiàn)的，仍然需要一定的手工勞動(dòng)，目前無(wú)法進(jìn)行實(shí)時(shí)捕捉和實(shí)時(shí)渲染。

為此，微軟亞洲研究院提出了 V-Cube View 和 V-Cube Assembly 兩大全新算法，在 VirtualCube 中實(shí)現(xiàn)了自動(dòng)捕捉參與者的手勢(shì)動(dòng)作和眼神變化，實(shí)時(shí)渲染形成高保真圖像，讓參與者在虛擬會(huì)議中體驗(yàn)到真實(shí)會(huì)議的氛圍。

“兩個(gè)人在交談且相互注視對(duì)方時(shí)，對(duì)方看到的自己就相當(dāng)于在自己眼睛的位置放置一個(gè)攝像頭。但屏幕和攝像頭的位置存在高低差，所以當(dāng)一方注視屏幕中對(duì)方的眼睛時(shí)，攝像頭捕捉到的眼神就會(huì)偏離。因此在 VirtualCube 中，我們?cè)谂c會(huì)者正前方的屏幕邊緣放置了六個(gè)攝像頭，通過(guò) V-Cube View 算法合成正確的視點(diǎn)圖像，并利用 V-Cube Assembly 確定正確的相對(duì)位置，進(jìn)而給與會(huì)者一個(gè)沉浸式的會(huì)議體驗(yàn)”，張譯中介紹道。

基于深度學(xué)習(xí)的 V-Cube View 算法，通過(guò) VirtualCube 中的六個(gè)攝像頭的 RGBD 圖像作為輸入，實(shí)時(shí)渲染任意目標(biāo)視點(diǎn)下人的高保真視頻。這里的技術(shù)挑戰(zhàn)是如何同時(shí)做到高保真和實(shí)時(shí)。對(duì)此，微軟亞洲研究院主管研究員楊蛟龍解釋道：“實(shí)時(shí)渲染高保真的人像，特別是高保真的人臉一直是個(gè)具有挑戰(zhàn)性的研究課題。傳統(tǒng)的三維重建和紋理貼圖的做法雖然可以做到實(shí)時(shí)繪制，卻無(wú)法重現(xiàn)出真實(shí)人臉復(fù)雜的材質(zhì)和在不同視點(diǎn)下外觀的變化。為此我們提出了一種新的 Lumi-Net 渲染方法，其核心思想是利用重構(gòu)的三維幾何作為參考來(lái)實(shí)現(xiàn)一個(gè)四維光場(chǎng)的實(shí)時(shí)渲染，并結(jié)合神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像增強(qiáng)，從而提高了渲染的質(zhì)量，特別是人臉區(qū)域的高保真度。”

具體而言，V-Cube View 算法分為三步進(jìn)行。首先，研究員設(shè)計(jì)了一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)快速求解目標(biāo)視點(diǎn)深度圖作為人體的幾何參考（geometry proxy）。然后，算法在給定的幾何參考下將獲取的多視角 RGB 圖像（即光線）進(jìn)行融合，實(shí)現(xiàn)繪制。在這一步中，研究員受傳統(tǒng)的非結(jié)構(gòu)化流明圖（Unstructured Lumigraph）方法啟發(fā)，將輸入光線與目標(biāo)像素光線的方向和深度差異作為先驗(yàn)，通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最合適的融合權(quán)重。最后，為了進(jìn)一步提升繪制質(zhì)量，研究員們使用了神經(jīng)網(wǎng)絡(luò)對(duì)上一步的繪制結(jié)果進(jìn)行圖像增強(qiáng)。整個(gè)算法實(shí)現(xiàn)了端到端的訓(xùn)練，并在訓(xùn)練過(guò)程中引入了感知損失函數(shù)及對(duì)抗學(xué)習(xí)技術(shù)，使得算法可以自動(dòng)學(xué)習(xí)出最優(yōu)的神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)高保真的繪制。而且為了保證繪制的實(shí)時(shí)性，算法的前兩步都在低分辨率圖像上執(zhí)行，這樣可以在不損失太多精度的情況下大大降低所需計(jì)算量。經(jīng)過(guò)精心設(shè)計(jì)和優(yōu)化的 V-Cube View 算法，將實(shí)時(shí)的三維人物渲染質(zhì)量提升到了一個(gè)新的高度。

V-Cube View 算法示意圖

另外，為了讓 VirtualCube 的使用者擁有和線下交流同樣的體驗(yàn)，在將與會(huì)者映射到虛擬環(huán)境時(shí)，系統(tǒng)還要考慮他們之間的相對(duì)位置關(guān)系，這時(shí) V-Cube Assembly 算法就發(fā)揮了重要的作用。“在整個(gè)虛擬會(huì)議環(huán)境中，V-Cube Assembly 可以被定義為全局坐標(biāo)系統(tǒng)，單個(gè)的 VirtualCube 則為局部坐標(biāo)系統(tǒng)。全局坐標(biāo)系與局部坐標(biāo)系之間的正確 3D 幾何變化，對(duì)在視頻顯示器上正確呈現(xiàn)遠(yuǎn)程與會(huì)者的圖像至關(guān)重要”楊蛟龍介紹。

研究員們首先會(huì)在 VirtualCube 中捕捉與會(huì)者的 3D 幾何體，形成局部坐標(biāo)系，然后將這些局部坐標(biāo)系的 3D 幾何體數(shù)據(jù)，投射到全局坐標(biāo)系，經(jīng)過(guò) V-Cube Assembly 處理，在全局虛擬會(huì)議環(huán)境中確定每個(gè) VirtualCube 參與者正確的相對(duì)位置，最后再將全局 3D 幾何體轉(zhuǎn)換為 VirtualCube 的局部坐標(biāo)系，影射到 VirtualCube 的屏幕上。

V-Cube Assembly 算法示意圖

拋磚引玉，暢想未來(lái)辦公無(wú)限可能

VirtualCube 給 3D 視頻會(huì)議系統(tǒng)提供了一種全新的思路。無(wú)論從算法設(shè)計(jì)、端到端設(shè)備部署還是工程調(diào)試上，VirtualCube 都證明了利用現(xiàn)有的普通硬件設(shè)備就可以實(shí)現(xiàn)沉浸式的 3D 視頻會(huì)議體驗(yàn)。

除了讓與會(huì)者“共享”同一個(gè)物理空間外，研究員們還在探索利用 VirtualCube 系統(tǒng)滿足遠(yuǎn)程辦公中的更多協(xié)作需求。例如，研究員們展示了這樣一種場(chǎng)景：在協(xié)同工作時(shí)，兩位與會(huì)者及其電腦桌面都將是視頻會(huì)議的一部分，因此與會(huì)者并排而坐，并且跨屏幕傳遞自己桌面上的文檔和應(yīng)用程序會(huì)讓遠(yuǎn)程協(xié)作更加方便。

隨著技術(shù)的不斷精進(jìn)，未來(lái)，大家或許都可以實(shí)現(xiàn)身隔萬(wàn)里，卻能親臨其境一起辦公，自然溝通的遙在體驗(yàn)，而這將極大地提高混合辦公的效率。微軟亞洲研究院的研究員們也希望 VirtualCube 可以成為一顆探索的種子，給更多研究人員帶來(lái)啟發(fā)，在大家共同的努力下，找到更好的虛擬空間交互形式，打開(kāi)未來(lái)辦公的更多可能。

相關(guān)鏈接：

論文：

https://arxiv.org/abs/2112.06730

項(xiàng)目頁(yè)面：

https://www.microsoft.com/en-us/research/project/virtualcube/

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

3D視頻會(huì)議系統(tǒng)VirtualCube：相隔萬(wàn)里也如近在咫尺般身臨其境

相關(guān)推薦

技術(shù)專區(qū)