三星研究員為VR提出更優(yōu)用于圖像扭曲的深度學(xué)習(xí)技術(shù)
Image Warping(圖像扭曲/圖像校正)廣泛用于各種計(jì)算機(jī)視覺(jué)和圖形任務(wù),例如圖像編輯、光流、圖像對(duì)齊和全向視覺(jué)(例如VR)。傳統(tǒng)方法應(yīng)用逆坐標(biāo)變換來(lái)插值輸入空間中缺失的RGB值。然而,基于插值的方法會(huì)導(dǎo)致輸出圖像中出現(xiàn)鋸齒和模糊偽影。
本文引用地址:http://butianyuan.cn/article/202302/442945.htm盡管社區(qū)已經(jīng)探索了一系列的解決方案,但其一般存在著性能,光譜偏差,或無(wú)法評(píng)估圖像扭曲的頻率響應(yīng)等問(wèn)題。
韓國(guó)大邱慶北科學(xué)技術(shù)院和三星的研究人員提出了一種用于圖像扭曲的圖像處理深度學(xué)習(xí)技術(shù)。與其他現(xiàn)有方案相比,團(tuán)隊(duì)的發(fā)明可以降低存儲(chǔ)速度并將分辨率提高3dB。另外,與基于信號(hào)處理的圖像插值技術(shù)(雙三次插值)相比,相關(guān)技術(shù)減少了屏幕的混疊現(xiàn)象,從而能夠?qū)崿F(xiàn)更自然的視頻輸出。特別是,它可以清晰地恢復(fù)圖像的高頻component。團(tuán)隊(duì)表示,這種方法可以用于VR,并且無(wú)需額外訓(xùn)練的情況下就能夠在投影透視方面質(zhì)量上優(yōu)于其他扭曲方法。
基于信號(hào)處理的圖像插值技術(shù)(雙三次插值)通過(guò)指定圖像的特定位置來(lái)在各種環(huán)境中保存期望的圖像。它具有節(jié)省內(nèi)存和速度的優(yōu)點(diǎn),但會(huì)降低質(zhì)量并令圖像變形。
為了解決這個(gè)問(wèn)題,社區(qū)開(kāi)發(fā)了基于深度學(xué)習(xí)的超高分辨率視頻圖像轉(zhuǎn)換技術(shù),然而,它們大多數(shù)是基于卷積人工智能的技術(shù),缺點(diǎn)是像素之間的值估計(jì)不準(zhǔn)確,并可能導(dǎo)致圖像變形。克服所述缺點(diǎn)的隱式表達(dá)神經(jīng)網(wǎng)絡(luò)技術(shù)正在引起人們的注意,但隱式神經(jīng)網(wǎng)絡(luò)技術(shù)的缺點(diǎn)是它不能捕捉高頻component,并且它需要增加內(nèi)存和速度。
所以,韓國(guó)大邱慶北科學(xué)技術(shù)院和三星的研究人員將圖像分解為多個(gè)頻率,以便在圖像中表達(dá)高頻component的特征,并使用隱式表達(dá)神經(jīng)網(wǎng)絡(luò)技術(shù)將坐標(biāo)重新分配到分解的頻率,以便更清晰地顯示圖像。
這是一種將圖像深度學(xué)習(xí)技術(shù)傅里葉分析與隱式表達(dá)神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合的新技術(shù)。它可以通過(guò)人工智能網(wǎng)絡(luò)解決恢復(fù)圖像中的基本頻率component,改善無(wú)法恢復(fù)高頻component的隱式表達(dá)神經(jīng)網(wǎng)絡(luò)。
如圖1所示,團(tuán)隊(duì)提出了一種用于圖像扭曲的局部紋理估計(jì)器(LTEW)。相關(guān)算法利用了從輸入圖像估計(jì)的傅里葉特征和坐標(biāo)變換的雅可比矩陣。在幾何學(xué)中,雅可比行列式表示局部放大率。因此,在MLP表示之前,他們將空間變化的雅可比矩陣乘以每個(gè)像素的傅里葉特征。另外,像素形狀的空間變化先驗(yàn)對(duì)于增強(qiáng)神經(jīng)功能的表征能力至關(guān)重要。然后,通過(guò)給定坐標(biāo)變換的梯度項(xiàng)數(shù)值計(jì)算由方向和曲率描述的像素形狀。
基于LTEW的圖像扭曲網(wǎng)絡(luò)由編碼器(EΨ)、LTEW(hψ)和解碼器(gθ)組成。編碼器(E?)設(shè)計(jì)有深度SR網(wǎng)絡(luò),如EDSR、RCAN、RRDB,無(wú)需升級(jí)模塊。解碼器(gθ)是具有ReLU的4層MLP,其隱藏維數(shù)為256。LTEW(hψ)以局部網(wǎng)格(δx)、形狀(s)和特征圖(z)為輸入,并包括振幅估計(jì)器(ha)、頻率估計(jì)器和相位估計(jì)器。
振幅和頻率估計(jì)器由具有256個(gè)信道的3×3卷積層實(shí)現(xiàn),相位估計(jì)器是具有128個(gè)信道的單個(gè)線性層。
他們假設(shè)變形圖像在點(diǎn)f(xj)附近具有相同的紋理。因此,使用最近鄰域插值找到xj處的估計(jì)傅里葉信息(Aj,F(xiàn)j)。然后,將估計(jì)相位添加到局部網(wǎng)格(δx)和估計(jì)頻率之間的內(nèi)積。在解碼器(gθ)重新采樣圖像之前,將振幅和正弦激活輸出相乘。
團(tuán)隊(duì)指出,實(shí)驗(yàn)證明LTEW在尺度和單應(yīng)變換方面都超過(guò)了現(xiàn)有的扭曲方法。盡管先前的扭曲技術(shù)使用卷積和多項(xiàng)式插值作為重采樣模塊,但他們基于LTEW的隱式神經(jīng)函數(shù)將連續(xù)坐標(biāo)作為輸入。
如上面的圖7,圖8,圖9和圖10所示,團(tuán)隊(duì)提出的LTEW在一系列的比較測(cè)試中均實(shí)現(xiàn)了出色的效果。與其他現(xiàn)有方案相比,團(tuán)隊(duì)的發(fā)明可以降低存儲(chǔ)速度并將分辨率提高3dB。另外,與基于信號(hào)處理的圖像插值技術(shù)(雙三次插值)相比,相關(guān)技術(shù)減少了屏幕的混疊現(xiàn)象,從而能夠?qū)崿F(xiàn)更自然的視頻輸出。
值得一提的是,團(tuán)隊(duì)提到了全向成像(ODI)。隨著虛擬現(xiàn)實(shí)的快速發(fā)展,ODI已成為產(chǎn)品開(kāi)發(fā)的關(guān)鍵。等矩形投影(ERP)廣泛用于頭戴式顯示器的成像管道。由于從球形網(wǎng)格到矩形網(wǎng)格的投影,像素在高緯度附近稀疏分布。
在驗(yàn)證算法的泛化能力時(shí),團(tuán)隊(duì)提出的LTEW學(xué)習(xí)了空間變化的屬性,所以這一方法無(wú)需額外訓(xùn)練的情況下就能夠在投影透視方面質(zhì)量上優(yōu)于其他扭曲方法。
相關(guān)論文:Learning Local Implicit Fourier Representation for Image Warping
團(tuán)隊(duì)表示,“這次開(kāi)發(fā)的技術(shù)非常出色,因?yàn)樗@示出比現(xiàn)有圖像扭曲技術(shù)更高的恢復(fù)性能和更少的內(nèi)存消耗。我們希望所述技術(shù)在未來(lái)用于圖像質(zhì)量恢復(fù)和圖像編輯,并希望它將為學(xué)術(shù)界和行業(yè)做出貢獻(xiàn)。”
評(píng)論