三星研究員為VR提出更優(yōu)用于圖像扭曲的深度學(xué)習(xí)技術(shù)

作者：時(shí)間：2023-02-02 來(lái)源：映維網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

Image Warping（圖像扭曲/圖像校正）廣泛用于各種計(jì)算機(jī)視覺(jué)和圖形任務(wù)，例如圖像編輯、光流、圖像對(duì)齊和全向視覺(jué)（例如VR）。傳統(tǒng)方法應(yīng)用逆坐標(biāo)變換來(lái)插值輸入空間中缺失的RGB值。然而，基于插值的方法會(huì)導(dǎo)致輸出圖像中出現(xiàn)鋸齒和模糊偽影。

本文引用地址：http://butianyuan.cn/article/202302/442945.htm

盡管社區(qū)已經(jīng)探索了一系列的解決方案，但其一般存在著性能，光譜偏差，或無(wú)法評(píng)估圖像扭曲的頻率響應(yīng)等問(wèn)題。

韓國(guó)大邱慶北科學(xué)技術(shù)院和三星的研究人員提出了一種用于圖像扭曲的圖像處理深度學(xué)習(xí)技術(shù)。與其他現(xiàn)有方案相比，團(tuán)隊(duì)的發(fā)明可以降低存儲(chǔ)速度并將分辨率提高3dB。另外，與基于信號(hào)處理的圖像插值技術(shù)（雙三次插值）相比，相關(guān)技術(shù)減少了屏幕的混疊現(xiàn)象，從而能夠?qū)崿F(xiàn)更自然的視頻輸出。特別是，它可以清晰地恢復(fù)圖像的高頻component。團(tuán)隊(duì)表示，這種方法可以用于VR，并且無(wú)需額外訓(xùn)練的情況下就能夠在投影透視方面質(zhì)量上優(yōu)于其他扭曲方法。

基于信號(hào)處理的圖像插值技術(shù)（雙三次插值）通過(guò)指定圖像的特定位置來(lái)在各種環(huán)境中保存期望的圖像。它具有節(jié)省內(nèi)存和速度的優(yōu)點(diǎn)，但會(huì)降低質(zhì)量并令圖像變形。

為了解決這個(gè)問(wèn)題，社區(qū)開(kāi)發(fā)了基于深度學(xué)習(xí)的超高分辨率視頻圖像轉(zhuǎn)換技術(shù)，然而，它們大多數(shù)是基于卷積人工智能的技術(shù)，缺點(diǎn)是像素之間的值估計(jì)不準(zhǔn)確，并可能導(dǎo)致圖像變形。克服所述缺點(diǎn)的隱式表達(dá)神經(jīng)網(wǎng)絡(luò)技術(shù)正在引起人們的注意，但隱式神經(jīng)網(wǎng)絡(luò)技術(shù)的缺點(diǎn)是它不能捕捉高頻component，并且它需要增加內(nèi)存和速度。

所以，韓國(guó)大邱慶北科學(xué)技術(shù)院和三星的研究人員將圖像分解為多個(gè)頻率，以便在圖像中表達(dá)高頻component的特征，并使用隱式表達(dá)神經(jīng)網(wǎng)絡(luò)技術(shù)將坐標(biāo)重新分配到分解的頻率，以便更清晰地顯示圖像。

這是一種將圖像深度學(xué)習(xí)技術(shù)傅里葉分析與隱式表達(dá)神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合的新技術(shù)。它可以通過(guò)人工智能網(wǎng)絡(luò)解決恢復(fù)圖像中的基本頻率component，改善無(wú)法恢復(fù)高頻component的隱式表達(dá)神經(jīng)網(wǎng)絡(luò)。

如圖1所示，團(tuán)隊(duì)提出了一種用于圖像扭曲的局部紋理估計(jì)器（LTEW）。相關(guān)算法利用了從輸入圖像估計(jì)的傅里葉特征和坐標(biāo)變換的雅可比矩陣。在幾何學(xué)中，雅可比行列式表示局部放大率。因此，在MLP表示之前，他們將空間變化的雅可比矩陣乘以每個(gè)像素的傅里葉特征。另外，像素形狀的空間變化先驗(yàn)對(duì)于增強(qiáng)神經(jīng)功能的表征能力至關(guān)重要。然后，通過(guò)給定坐標(biāo)變換的梯度項(xiàng)數(shù)值計(jì)算由方向和曲率描述的像素形狀。

基于LTEW的圖像扭曲網(wǎng)絡(luò)由編碼器（EΨ）、LTEW（hψ）和解碼器（gθ）組成。編碼器（E?）設(shè)計(jì)有深度SR網(wǎng)絡(luò)，如EDSR、RCAN、RRDB，無(wú)需升級(jí)模塊。解碼器（gθ）是具有ReLU的4層MLP，其隱藏維數(shù)為256。LTEW（hψ）以局部網(wǎng)格（δx）、形狀（s）和特征圖（z）為輸入，并包括振幅估計(jì)器（ha）、頻率估計(jì)器和相位估計(jì)器。

振幅和頻率估計(jì)器由具有256個(gè)信道的3×3卷積層實(shí)現(xiàn)，相位估計(jì)器是具有128個(gè)信道的單個(gè)線性層。

他們假設(shè)變形圖像在點(diǎn)f（xj）附近具有相同的紋理。因此，使用最近鄰域插值找到xj處的估計(jì)傅里葉信息（Aj，F(xiàn)j）。然后，將估計(jì)相位添加到局部網(wǎng)格（δx）和估計(jì)頻率之間的內(nèi)積。在解碼器（gθ）重新采樣圖像之前，將振幅和正弦激活輸出相乘。

團(tuán)隊(duì)指出，實(shí)驗(yàn)證明LTEW在尺度和單應(yīng)變換方面都超過(guò)了現(xiàn)有的扭曲方法。盡管先前的扭曲技術(shù)使用卷積和多項(xiàng)式插值作為重采樣模塊，但他們基于LTEW的隱式神經(jīng)函數(shù)將連續(xù)坐標(biāo)作為輸入。

如上面的圖7，圖8，圖9和圖10所示，團(tuán)隊(duì)提出的LTEW在一系列的比較測(cè)試中均實(shí)現(xiàn)了出色的效果。與其他現(xiàn)有方案相比，團(tuán)隊(duì)的發(fā)明可以降低存儲(chǔ)速度并將分辨率提高3dB。另外，與基于信號(hào)處理的圖像插值技術(shù)（雙三次插值）相比，相關(guān)技術(shù)減少了屏幕的混疊現(xiàn)象，從而能夠?qū)崿F(xiàn)更自然的視頻輸出。

值得一提的是，團(tuán)隊(duì)提到了全向成像（ODI）。隨著虛擬現(xiàn)實(shí)的快速發(fā)展，ODI已成為產(chǎn)品開(kāi)發(fā)的關(guān)鍵。等矩形投影（ERP）廣泛用于頭戴式顯示器的成像管道。由于從球形網(wǎng)格到矩形網(wǎng)格的投影，像素在高緯度附近稀疏分布。

在驗(yàn)證算法的泛化能力時(shí)，團(tuán)隊(duì)提出的LTEW學(xué)習(xí)了空間變化的屬性，所以這一方法無(wú)需額外訓(xùn)練的情況下就能夠在投影透視方面質(zhì)量上優(yōu)于其他扭曲方法。

相關(guān)論文：Learning Local Implicit Fourier Representation for Image Warping

團(tuán)隊(duì)表示，“這次開(kāi)發(fā)的技術(shù)非常出色，因?yàn)樗@示出比現(xiàn)有圖像扭曲技術(shù)更高的恢復(fù)性能和更少的內(nèi)存消耗。我們希望所述技術(shù)在未來(lái)用于圖像質(zhì)量恢復(fù)和圖像編輯，并希望它將為學(xué)術(shù)界和行業(yè)做出貢獻(xiàn)。”

新聞中心

三星研究員為VR提出更優(yōu)用于圖像扭曲的深度學(xué)習(xí)技術(shù)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)