博客專欄

EEPW首頁 > 博客 > 沒有3D卷積的3D重建方法,A100上重建一幀僅需70ms

沒有3D卷積的3D重建方法,A100上重建一幀僅需70ms

發(fā)布人:機器之心 時間:2022-09-15 來源:工程師 發(fā)布文章
來自 Niantic 和 UCL 等機構(gòu)的研究者使用精心設(shè)計和訓(xùn)練的 2D 網(wǎng)絡(luò),實現(xiàn)了高質(zhì)量的深度估計和 3D 重建。


從姿態(tài)圖像重建 3D 室內(nèi)場景通常分為兩個階段:圖像深度估計,然后是深度合并(depth merging)和表面重建(surface reconstruction)。最近,多項研究提出了一系列直接在最終 3D 體積特征空間中執(zhí)行重建的方法。雖然這些方法已經(jīng)獲得出令人印象深刻的重建結(jié)果,但它們依賴于昂貴的 3D 卷積層,限制其在資源受限環(huán)境中的應(yīng)用。
現(xiàn)在,來自 Niantic 和 UCL 等機構(gòu)的研究者嘗試重新使用傳統(tǒng)方法,并專注于高質(zhì)量的多視圖深度預(yù)測,最終使用簡單現(xiàn)成的深度融合方法實現(xiàn)了高精度的 3D 重建。

圖片


  • 論文地址:https://nianticlabs.github.io/simplerecon/resources/SimpleRecon.pdf
  • GitHub 地址:https://github.com/nianticlabs/simplerecon
  • 論文主頁:https://nianticlabs.github.io/simplerecon/


該研究利用強大的圖像先驗以及平面掃描特征量和幾何損失,精心設(shè)計了一個 2D CNN。所提方法 SimpleRecon 在深度估計方面取得了顯著領(lǐng)先的結(jié)果,并且允許在線實時低內(nèi)存重建。
如下圖所示,SimpleRecon 的重建速度非???,每幀僅用約 70ms。

圖片


SimpleRecon 和其他方法的比較結(jié)果如下:

圖片


圖片


方法
深度估計模型位于單目深度估計與平面掃描 MVS 的交點,研究者用 cost volume(代價體積)來增加深度預(yù)測編碼器 - ****架構(gòu),如圖 2 所示。圖像編碼器從參考圖像和源圖像中提取匹配特征,以輸入到 cost volume。使用 2D 卷積編碼器 - ****網(wǎng)絡(luò)來處理 cost volume 的輸出,此外研究者還使用單獨的預(yù)訓(xùn)練圖像編碼器提取的圖像級特征進行增強。

圖片


該研究的關(guān)鍵是將現(xiàn)有的元數(shù)據(jù)與典型的深度圖像特征一起注入到 cost volume 中,以允許網(wǎng)絡(luò)訪問有用的信息,如幾何和相對相機姿態(tài)信息。圖 3 詳細地顯示了 feature volume 構(gòu)造。通過整合這些之前未開發(fā)的信息,該研究的模型能夠在深度預(yù)測方面顯著優(yōu)于之前的方法,而無需昂貴的 4D cost volume 成本、復(fù)雜的時間融合以及高斯過程。

圖片


該研究使用 PyTorch 來實現(xiàn),并使用 EfficientNetV2 S 作為主干,其具有類似于 UNet++ 的****,此外,他們還使用 ResNet18 的前 2 個塊進行匹配特征提取,優(yōu)化器為 AdamW ,在兩塊 40GB A100 GPU 上耗時 36 小時完成。 
網(wǎng)絡(luò)架構(gòu)設(shè)計
網(wǎng)絡(luò)是基于 2D 卷積編碼器 - ****架構(gòu)實現(xiàn)的。在構(gòu)建這種網(wǎng)絡(luò)時,研究發(fā)現(xiàn)有一些重要的設(shè)計選擇可以顯著提高深度預(yù)測準確率,主要包括:
基線 cost volume 融合:雖然基于 RNN 的時間融合方法經(jīng)常被使用,但它們顯著增加了系統(tǒng)的復(fù)雜性。相反,該研究使得 cost volume 融合盡可能簡單,并發(fā)現(xiàn)簡單地將參考視圖和每個源視圖之間的點積匹配成本相加,可以得到與 SOTA 深度估計相競爭的結(jié)果。
圖像編碼器和特征匹配編碼器:先前研究表明,圖像編碼器對深度估計非常重要,無論是在單目和多視圖估計中。例如 DeepVideoMVS 使用 MnasNet 作為圖像編碼器,其具有相對較低的延遲。該研究建議使用很小但更強大的 EfficientNetv2 S 編碼器,雖然這樣做的代價是增加了參數(shù)量,并降低了 10% 的執(zhí)行速度,但它大大提高了深度估計的準確率。
融合多尺度圖像特征到 cost volume 編碼器:在基于 2D CNN 的深度立體和多視角立體中,圖像特征通常與單尺度上的 cost volume 輸出相結(jié)合。最近,DeepVideoMVS 提出在多尺度上拼接深度圖像特征,在所有分辨率上增加圖像編碼器和 cost volume 編碼器之間的跳躍連接。這對基于 LSTM 的融合網(wǎng)絡(luò)很有幫助,該研究發(fā)現(xiàn)這對他們的架構(gòu)也同樣重要。
實驗
該研究在 3D 場景重建數(shù)據(jù)集 ScanNetv2 上訓(xùn)練和評估了所提方法。下表 1 使用 Eigen 等人 (2014) 提出的指標來評估幾個網(wǎng)絡(luò)模型的深度預(yù)測性能。

圖片


令人驚訝的是,該研究所提模型不使用 3D 卷積,在深度預(yù)測指標上卻優(yōu)于所有基線模型。此外,不使用元數(shù)據(jù)編碼的基線模型也比以前的方法表現(xiàn)更好,這表明精心設(shè)計和訓(xùn)練的 2D 網(wǎng)絡(luò)足以進行高質(zhì)量的深度估計。下圖 4 和圖 5 顯示了深度和法線的定性結(jié)果。

圖片


圖片


該研究使用 TransformerFusion 建立的標準協(xié)議進行 3D 重建評估,結(jié)果如下表 2 所示。

圖片


對于在線和交互式 3D 重建應(yīng)用,減少傳感器延遲是至關(guān)重要的。下表 3 展示了給定一個新的 RGB 幀,各個模型對每幀的集成計算時間。

圖片


為了驗證該研究所提方法中各個組件的有效性,研究者進行了消融實驗,結(jié)果如下表 4 所示。

圖片


感興趣的讀者可以閱讀論文原文,了解更多研究細節(jié)。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉