真實(shí)時、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（1）

發(fā)布人：機(jī)器之心時間：2023-08-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

對圖像的風(fēng)格變換重建已經(jīng)取得了不少突破，但是視頻的重建任務(wù)目前還存在非實(shí)時、弱細(xì)節(jié)、低保真的問題，本文提出基于退火哈希算法的、粒度逐步細(xì)化的視頻內(nèi)容重建算法，性能提升明顯。

我們知道過去幾年，圖像編輯領(lǐng)域發(fā)展驚人。但在視頻領(lǐng)域，還有所缺陷。近日，一項(xiàng)視頻編輯領(lǐng)域的研究成果放出。讓我們先來看一下效果。

姜文變成大猩猩......

美女變成卡通人物......

是不是看起來非常不錯？這都來自于以下這篇研究。

鏈接：https://arxiv.org/abs/2308.07926

圖像處理領(lǐng)域能取得如此顯著的進(jìn)步，在很大程度上歸功于能夠在大規(guī)模數(shù)據(jù)集上訓(xùn)練的生成式模型，后者能顯著提高圖像任務(wù)的質(zhì)量和精度。然而，有關(guān)視頻內(nèi)容的處理任務(wù)卻沒有取得同等的進(jìn)展。視頻任務(wù)的挑戰(zhàn)之一在于對保持時間一致性的要求較高，而這個要求會因神經(jīng)網(wǎng)絡(luò)固有的隨機(jī)性而變得復(fù)雜。另一個挑戰(zhàn)來自視頻數(shù)據(jù)集本身的性質(zhì)，和圖像集相比通常質(zhì)量較差，并且需要更多的計算資源。

因此，基于視頻的算法的質(zhì)量明顯落后于那些專注于圖像的算法。這種落差引發(fā)了一個問題：以圖像形式表示視頻，將已建立的圖像算法無縫應(yīng)用于具有高度時間一致性的視頻內(nèi)容是否可行？

為了實(shí)現(xiàn)這一目標(biāo)，在深度學(xué)習(xí)時代之前，研究人員曾建議從動態(tài)視頻中生成視頻馬賽克，而在隱式神經(jīng)表征提出之后，研究人員又建議利用神經(jīng)分層圖像圖集。但是這些方法存在兩個主要缺陷。首先，這些方法的表征能力是有限的，特別是在如實(shí)地重建視頻中錯綜復(fù)雜的細(xì)節(jié)時。通常，重建的視頻忽略了微妙的運(yùn)動細(xì)節(jié)，如眨眼或輕微的微笑。第二個限制與估計圖集的典型扭曲性質(zhì)有關(guān)，語義信息會因此受損。總而言之，現(xiàn)有的圖像處理算法無法發(fā)揮最佳性能，因?yàn)轭A(yù)測的結(jié)果缺乏足夠的自然度。

本文作者提出了一種新的視頻表征方法，該方法利用基于 2D 散列的圖像場和基于 3D 散列的時間變形場。結(jié)合多分辨率散列編碼來表示時間變化，大大提高了重建一般視頻的能力。這種方法有助于跟蹤水和煙霧等復(fù)雜實(shí)體的變形。然而，變形場能力的增強(qiáng)對估計自然規(guī)范圖像提出了挑戰(zhàn)。不自然的規(guī)范圖像也可以通過完整的重建來估計相應(yīng)的變形場。

為了應(yīng)對這一挑戰(zhàn)，本文建議在訓(xùn)練期間使用退火哈希算法。先使用平滑變形網(wǎng)格來識別適用于所有剛性運(yùn)動的粗解決方案，然后逐漸添加高頻細(xì)節(jié)。通過這種由粗到細(xì)的訓(xùn)練，表征結(jié)果在規(guī)范的自然性和重建的還原性之間實(shí)現(xiàn)了平衡。與之前的方法相比，本文作者觀察到重建后的質(zhì)量顯著提高。改進(jìn)后 PSNR 大約增加 4.4，規(guī)范圖像的自然性也肉眼可見的增加。這種方法的優(yōu)化過程只需要大約 300 秒來估計帶有變形場的規(guī)范圖像，而之前的隱式分層表示需要超過 10 個小時。

本文在變形場算法的基礎(chǔ)上，還說明了提升圖像處理任務(wù)，如提示引導(dǎo)圖像翻譯、超分辨率和分割 —— 到視頻內(nèi)容的更動態(tài)場。在處理標(biāo)準(zhǔn)圖像時，本文使用的 prompt-guided 的視頻到視頻重建的方法，具體來說使用的網(wǎng)絡(luò)是 ControlNet ，然后通過學(xué)習(xí)后的變形場傳導(dǎo)重建的內(nèi)容。重建過程在單個標(biāo)準(zhǔn)圖像上進(jìn)行，無需跨所有幀，無需使用耗時的推理模型（例如擴(kuò)散模型）。與基于生成模型的 sota 零拍視頻重建相比，本文的重建輸出結(jié)果在時間一致性和紋理質(zhì)量方面有明顯改善。與依賴神經(jīng)分層標(biāo)簽的 Text2Live 相比，本文提出的模型可以說是精通處理更復(fù)雜的運(yùn)動，能給產(chǎn)生更自然的標(biāo)準(zhǔn)圖像，從而實(shí)現(xiàn)卓越的重建結(jié)果。此外，本文將超分辨率、語義分割和關(guān)鍵點(diǎn)檢測等圖像算法的應(yīng)用擴(kuò)展到標(biāo)準(zhǔn)圖像，從而在視頻上下文中能給得到實(shí)際應(yīng)用。這包括視頻超分辨率、視頻對象分割、視頻關(guān)鍵點(diǎn)跟蹤等。本文作者提出的表征算法能從始至終地保持卓越的時間一致性，生成高保真合成幀，展示了其作為視頻處理工具突破性的潛力。

方法概覽

給定由幀 {I1，I2，…，IN} 組成的視頻 V，對于對應(yīng)的視頻任務(wù)，可以簡單地將圖像處理算法 X 單獨(dú)應(yīng)用于每一幀，但是可能會出現(xiàn)幀之間存在不一致的內(nèi)容，這是我們不希望看到的。進(jìn)一步地，可以使用另一種策略：用時間模塊增強(qiáng)算法 X，但這需要對視頻數(shù)據(jù)進(jìn)行額外的訓(xùn)練。然而，簡單地引入時間模塊很難保證理論的一致性，并且可能由于訓(xùn)練數(shù)據(jù)不足而導(dǎo)致性能下降。

受此啟發(fā)，本文作者建議使用平滑的規(guī)范圖像 Ic 和變形場 D 來表征視頻 V。通過在 Ic 上應(yīng)用圖像算法 X，可以利用學(xué)習(xí)到的變形場將效果有效地應(yīng)用到整個視頻。這種新穎的視頻表示是圖像算法和視頻任務(wù)之間的重要橋梁，能將最先進(jìn)的圖像方法直接提升到視頻應(yīng)用中。

本文提出的表征算法具有以下基本特征：

如實(shí)地視頻重建的擬合能力。表征應(yīng)該具有精確擬合視頻中的大的剛性或非剛性物體變形的能力。
規(guī)范圖像的語義正確性。失真或語義不正確的規(guī)范圖像可能導(dǎo)致圖像處理性能下降，特別是考慮到這些訓(xùn)練過程多數(shù)都是在自然圖像數(shù)據(jù)上進(jìn)行的。
變形場的平滑度。保證變形場的平滑性是保證時間一致性和正確傳播的一個基本特征。

下圖 2. 顯示了本文提出的的視頻表示算法 CoDeF 的說明，其將任意視頻分解為 2D 內(nèi)容規(guī)范場和 3D 時間變形場。每個字段使用高效的 MLP，用多分辨率 2D 或 3D 哈希表來實(shí)現(xiàn)。這種新型的表示算法天然地支持用于視頻處理任務(wù)的圖像算法，其方式是將所建立的算法直接應(yīng)用于規(guī)范圖像（即，從規(guī)范內(nèi)容字段渲染），然后沿著時間軸通過時間變形字段傳播結(jié)果。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

真實(shí)時、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（1）

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

真實(shí)時、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（1）

相關(guān)推薦

技術(shù)專區(qū)

真實(shí)時、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升（1）