真實(shí)時(shí)、強(qiáng)細(xì)節(jié)、高保真:更強(qiáng)大的視頻重建算法,性能明顯提升(2)
實(shí)驗(yàn)
重建質(zhì)量
在與神經(jīng)圖像圖譜的比較分析中,如圖所示,本文提出的模型對(duì)非剛性運(yùn)動(dòng)表現(xiàn)出卓越的魯棒性,能夠以更高的精度有效地重建細(xì)微的運(yùn)動(dòng)(例如眨眼、面部紋理)。
流媒體視頻處理
(a) 視頻到視頻的重建。定性比較包括幾種基線方法,分為三個(gè)不同的類別:(1) 使用圖像翻譯模型的逐幀推理,如 ControlNet ;(2) 分層視頻編輯,如 Text-to-live ;(3) 基于擴(kuò)散模型的視頻翻譯,包括 Tune-A-Video 和 FateZero 。
如圖 4 所示,每幀圖像轉(zhuǎn)換模型可生成高保真內(nèi)容,并伴有明顯的閃爍。其他基線的生成質(zhì)量或時(shí)間一致性相對(duì)較低。 本文提出的流水線式方法能有效地將圖像轉(zhuǎn)換提升到視頻,保持與圖像轉(zhuǎn)換算法相關(guān)的高質(zhì)量,同時(shí)確保時(shí)間一致性。
(b) 視頻關(guān)鍵點(diǎn)跟蹤。通過(guò)估計(jì)每個(gè)單獨(dú)幀的變形場(chǎng),可以查詢規(guī)范空間內(nèi)一幀中特定關(guān)鍵點(diǎn)的位置,然后識(shí)別所有幀中存在的對(duì)應(yīng)點(diǎn),如圖 5 所示。本文在項(xiàng)目頁(yè)面的視頻中展示了在非剛性對(duì)象(如流體)中跟蹤點(diǎn)的演示。
(c)視頻對(duì)象跟蹤。使用規(guī)范圖像上的分割算法,本文能夠利用內(nèi)容變形場(chǎng)促進(jìn)掩模在所有視頻序列中的傳播。如圖 6 所示,本文提出的流水線算法熟練地生成在所有幀之間保持一致性的掩碼。
(d) 視頻超分辨率算法。通過(guò)將圖像超分辨率算法直接應(yīng)用于規(guī)范圖像,可以將視頻進(jìn)行超分辨率處理以生成高質(zhì)量視頻,如圖 7 所示。假設(shè)變形由連續(xù)場(chǎng)表示,那么超分辨率的應(yīng)用不會(huì)產(chǎn)生閃爍。
(e) 用戶交互式視頻編輯。本文提出的表示算法允許用戶編輯具有獨(dú)特風(fēng)格的對(duì)象,而不會(huì)影響圖像的其他部分。如圖 8 所示,用戶可以手動(dòng)調(diào)整規(guī)范圖像上的內(nèi)容,以在自動(dòng)編輯算法可能無(wú)法實(shí)現(xiàn)最佳結(jié)果的區(qū)域進(jìn)行精確編輯。
消融實(shí)驗(yàn)
為了驗(yàn)證本文所提出模塊的效果,作者進(jìn)行了消融實(shí)驗(yàn)研究。在用位置編碼代替 3D 散列編碼時(shí),視頻的重建 PSNR 顯著降低了 3.1dB。在沒(méi)有退火散列的情況下,規(guī)范圖像失去了其自然外觀,如圖 9 中的顯示。此外,在不考慮流信息損失的情況下,平滑區(qū)域明顯受到閃爍的影響。要進(jìn)行更廣泛的比較,請(qǐng)參閱項(xiàng)目頁(yè)面上的視頻。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。