NVIDIA透過人工智能將2D平面照片轉(zhuǎn)變?yōu)?D立體場景

作者：時間：2022-03-31 來源：CTIMES

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

當人們在75年前使用寶麗來 (Polaroid ) 相機拍攝出世界上第一張實時成像照片時，便是一項以逼真 2D 影像迅速捕捉 3D 世界畫面的創(chuàng)舉。時至今日，人工智能 (AI) 研究人員反將此作法倒轉(zhuǎn)過來，亦即在幾秒鐘內(nèi)將一組靜態(tài)影像變成數(shù)字 3D 場景。
圖片.png

本文引用地址：http://www.butianyuan.cn/article/202203/432690.htm

NVIDIA Research 透過人工智能，在一瞬間將 2D 平面照片變成 3D 立體場景

這項稱為逆向渲染 (inverse rendering) 的過程，利用 AI 來預估光線在真實世界中的表現(xiàn)，讓研究人員能利用從不同角度拍攝的少量 2D 影像來重建 3D 場景。NVIDIA Research 團隊開發(fā)出一種方法，幾乎能在瞬間內(nèi)完成這項任務(wù)，是同類中首批將超高速神經(jīng)網(wǎng)絡(luò)訓練與快速渲染相結(jié)合的模型之一。
NVIDIA 將該方法應用在一種稱為神經(jīng)輻射場 (Neural Radiance Fields；NeRF) 的熱門新技術(shù)上，創(chuàng)造出 Instant NeRF 這項當今渲染速度最快的 NeRF 技術(shù)，在某些情況下速度可以提升超過 1,000 倍。用數(shù)十張靜態(tài)照片，便能在幾秒鐘內(nèi)完成訓練模型，再加上拍攝角度的數(shù)據(jù)，在幾十毫秒內(nèi)即可渲染出生成的 3D 場景。
NVIDIA 繪圖研究部門副總裁 David Luebke 表示：「如果說多邊形網(wǎng)格這樣的傳統(tǒng) 3D 表現(xiàn)方式像是向量圖形，那么 NeRF 就像是位圖，它們會密集捕捉光線從物體或場景中輻射出來的方式。從這個意義上來說，Instant NeRF 對 3D 的重要性，不亞于數(shù)字相機和 JPEG 壓縮技術(shù)對 2D 攝影的重要性，其可大幅提升 3D 捕捉與分享的速度、便利性和范圍?！?br/>在 NVIDIA GTC 大會議程中展示的 Instant NeRF，可用于為虛擬世界建立化身或場景、以 3D 方式拍攝視頻會議的與會者以及所處環(huán)境，或是為 3D 數(shù)字地圖重建場景。
NVIDIA Research 團隊為了向早期的寶麗來照片致敬，重現(xiàn)了安迪．沃荷 (Andy Warhol) 拍攝實時成像照片的經(jīng)典照片，利用 Instant NeRF 將其轉(zhuǎn)變?yōu)?3D 場景。
NeRF是什么？
NeRF 會依照輸入的一組 2D 影像，使用神經(jīng)網(wǎng)絡(luò)來表現(xiàn)及渲染逼真的 3D 場景。
收集資料再投入 NeRF 的做法，有點類似紅毯上的攝影師試著從各個角度拍攝名人身上的華麗服裝，而神經(jīng)網(wǎng)絡(luò)需要有從場景四周多個位置拍攝的數(shù)十張照片，以及每張照片的相機位置等數(shù)據(jù)支持。
場景里的人或物體若移動，拍攝照片的速度則是愈快愈好。要是在拍攝 2D 影像的過程中，人或物體有過多的移動，AI 便會生成模糊的 3D 場景。
基本上，NeRF 在此時會填補空白處，訓練一個小型神經(jīng)網(wǎng)絡(luò)，預測從 3D 空間中任何一點朝著任意方向輻射出的光線顏色來重建場景。這項技術(shù)甚至能解決當某些照片里的物體被其它照片中的柱子等障礙物遮住時所產(chǎn)生的遮擋問題。
利用 Instant NeRF 將渲染速度提升1,000倍
人類天生就會按照一部分所見畫面來估算物體的深度和外觀，但這對 AI 來說卻是一項高難度的任務(wù)。
根據(jù)畫面的復雜性和分辨率，以傳統(tǒng)方法建立一個 3D 場景須花費數(shù)小時甚至更長的時間。而利用 AI 則可加快處理速度。早期開發(fā)的 NeRF 模型在幾分鐘內(nèi)便能渲染出無偽影的清晰場景，但仍需數(shù)小時進行訓練。
然而，Instant NeRF 卻大幅縮短了渲染時間，其以 NVIDIA 所開發(fā)出的 Multi-resolution Hash Encoding 技術(shù)為基礎(chǔ)，而這項經(jīng)過優(yōu)化調(diào)整的技術(shù)可以在 NVIDIA GPU 上高效運行。研究人員透過一種新的輸入編碼法，可以利用一個高速運行的微型神經(jīng)網(wǎng)絡(luò)來創(chuàng)造高質(zhì)量的結(jié)果。
研究人員使用 NVIDIA CUDA 工具套件與 Tiny CUDA 神經(jīng)網(wǎng)絡(luò)函式庫來開發(fā)此模型。這個小巧的神經(jīng)網(wǎng)絡(luò)可以在單一 NVIDIA GPU 上進行訓練和運行，并在搭載 NVIDIA Tensor 核心的顯示適配器上有著最高的運行速度。
這項技術(shù)可以用于拍攝實體環(huán)境物體的 2D 照片或影片，以訓練機器人和自動駕駛車來了解這些物體的大小及形狀。建筑業(yè)與娛樂產(chǎn)業(yè)也能使用這項技術(shù)，快速為實體環(huán)境建立數(shù)字畫面，創(chuàng)作者便能用它來進行修改和構(gòu)建。
除了 NeRF，NVIDIA 的研究人員也在探索如何將這種輸入編碼技術(shù)用于加速處理多項 AI 領(lǐng)域的難題，包括強化學習、語言翻譯和通用的深度學習算法。