真實(shí)時(shí)、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（2）

發(fā)布人：機(jī)器之心時(shí)間：2023-08-20 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

實(shí)驗(yàn)

重建質(zhì)量

在與神經(jīng)圖像圖譜的比較分析中，如圖所示，本文提出的模型對(duì)非剛性運(yùn)動(dòng)表現(xiàn)出卓越的魯棒性，能夠以更高的精度有效地重建細(xì)微的運(yùn)動(dòng)（例如眨眼、面部紋理）。

流媒體視頻處理

(a) 視頻到視頻的重建。定性比較包括幾種基線方法，分為三個(gè)不同的類別：(1) 使用圖像翻譯模型的逐幀推理，如 ControlNet ；(2) 分層視頻編輯，如 Text-to-live ；(3) 基于擴(kuò)散模型的視頻翻譯，包括 Tune-A-Video 和 FateZero 。

如圖 4 所示，每幀圖像轉(zhuǎn)換模型可生成高保真內(nèi)容，并伴有明顯的閃爍。其他基線的生成質(zhì)量或時(shí)間一致性相對(duì)較低。本文提出的流水線式方法能有效地將圖像轉(zhuǎn)換提升到視頻，保持與圖像轉(zhuǎn)換算法相關(guān)的高質(zhì)量，同時(shí)確保時(shí)間一致性。

（b）視頻關(guān)鍵點(diǎn)跟蹤。通過(guò)估計(jì)每個(gè)單獨(dú)幀的變形場(chǎng)，可以查詢規(guī)范空間內(nèi)一幀中特定關(guān)鍵點(diǎn)的位置，然后識(shí)別所有幀中存在的對(duì)應(yīng)點(diǎn)，如圖 5 所示。本文在項(xiàng)目頁(yè)面的視頻中展示了在非剛性對(duì)象（如流體）中跟蹤點(diǎn)的演示。

（c）視頻對(duì)象跟蹤。使用規(guī)范圖像上的分割算法，本文能夠利用內(nèi)容變形場(chǎng)促進(jìn)掩模在所有視頻序列中的傳播。如圖 6 所示，本文提出的流水線算法熟練地生成在所有幀之間保持一致性的掩碼。

（d）視頻超分辨率算法。通過(guò)將圖像超分辨率算法直接應(yīng)用于規(guī)范圖像，可以將視頻進(jìn)行超分辨率處理以生成高質(zhì)量視頻，如圖 7 所示。假設(shè)變形由連續(xù)場(chǎng)表示，那么超分辨率的應(yīng)用不會(huì)產(chǎn)生閃爍。

（e）用戶交互式視頻編輯。本文提出的表示算法允許用戶編輯具有獨(dú)特風(fēng)格的對(duì)象，而不會(huì)影響圖像的其他部分。如圖 8 所示，用戶可以手動(dòng)調(diào)整規(guī)范圖像上的內(nèi)容，以在自動(dòng)編輯算法可能無(wú)法實(shí)現(xiàn)最佳結(jié)果的區(qū)域進(jìn)行精確編輯。

消融實(shí)驗(yàn)

為了驗(yàn)證本文所提出模塊的效果，作者進(jìn)行了消融實(shí)驗(yàn)研究。在用位置編碼代替 3D 散列編碼時(shí)，視頻的重建 PSNR 顯著降低了 3.1dB。在沒(méi)有退火散列的情況下，規(guī)范圖像失去了其自然外觀，如圖 9 中的顯示。此外，在不考慮流信息損失的情況下，平滑區(qū)域明顯受到閃爍的影響。要進(jìn)行更廣泛的比較，請(qǐng)參閱項(xiàng)目頁(yè)面上的視頻。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

真實(shí)時(shí)、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（2）

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

真實(shí)時(shí)、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（2）

相關(guān)推薦

技術(shù)專區(qū)

真實(shí)時(shí)、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（2）