博客專欄

EEPW首頁 > 博客 > 馬賽克變高清,谷歌將SR3、CDM相結(jié)合,推出超分辨率新方法

馬賽克變高清,谷歌將SR3、CDM相結(jié)合,推出超分辨率新方法

發(fā)布人:機(jī)器之心 時間:2021-10-07 來源:工程師 發(fā)布文章

谷歌的研究者用兩種有關(guān)聯(lián)的方法提升了擴(kuò)散模型的圖像合成質(zhì)量。

自然圖像合成作為一類機(jī)器學(xué)習(xí) (ML) 任務(wù),具有廣泛的應(yīng)用,也帶來了許多設(shè)計挑戰(zhàn)。例如圖像超分辨率,需要訓(xùn)練模型將低分辨率圖像轉(zhuǎn)換為高分辨率圖像。從修復(fù)老照片到改進(jìn)醫(yī)學(xué)成像系統(tǒng),超分辨率有著非常重要的作用。

另一個圖像合成任務(wù)是類條件圖像生成,該任務(wù)訓(xùn)練模型以從輸入類標(biāo)簽生成樣本圖像。生成的樣本圖像可用于提高下游模型的圖像分類、分割等性能。

通常,這些圖像合成任務(wù)由深度生成模型執(zhí)行,例如 GAN、VAE 和自回歸模型。然而,當(dāng)經(jīng)過訓(xùn)練以在高分辨率數(shù)據(jù)集上合成高質(zhì)量樣本時,這些生成模型都有其缺點。例如,GAN 經(jīng)常遭受不穩(wěn)定的訓(xùn)練和模式崩潰,而自回歸模型通常會遭受合成速度緩慢的問題。

最初于 2015 年提出的擴(kuò)散模型由于其訓(xùn)練穩(wěn)定性和對圖像的有希望的樣本質(zhì)量結(jié)果,最近重新引起了人們的興趣 。因此,與其他類型的深度生成模型相比,它們提供了潛在的有利權(quán)衡。擴(kuò)散模型通過逐漸添加高斯噪聲來破壞訓(xùn)練數(shù)據(jù),慢慢消除數(shù)據(jù)中的細(xì)節(jié)直到它變成純噪聲,然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)來逆轉(zhuǎn)這種破壞過程。運(yùn)行這個反向損壞過程通過逐漸去噪直到產(chǎn)生干凈的樣本來合成來自純噪聲的數(shù)據(jù)。該合成過程可以解釋為作為一種優(yōu)化算法,它遵循數(shù)據(jù)密度的梯度以生成可能的樣本。

近日,來自谷歌的研究者提出了兩種有關(guān)聯(lián)的方法,它們推動了擴(kuò)散模型的圖像合成質(zhì)量的界限——通過重復(fù)細(xì)化的超分辨率(SR3,Super-Resolution via Repeated Refinements)和一個類條件合成模型,稱為級聯(lián)擴(kuò)散模型(CDM)。研究者表明,通過擴(kuò)大擴(kuò)散模型和精心挑選的數(shù)據(jù)增強(qiáng)技術(shù),新方法可以勝過現(xiàn)有的方法。具體來說,SR3 在人類評估中獲得了超過 GAN 的強(qiáng)大圖像超分辨率結(jié)果。CDM 生成的高保真 ImageNet 樣本在兩個 FID 得分上均超過 BigGAN-deep 和 VQ-VAE2。分類準(zhǔn)確率得分大幅提升。

SR3:圖像超分辨率

SR3 是一種超分辨率擴(kuò)散模型,它以低分辨率圖像作為輸入,并從純噪聲中構(gòu)建相應(yīng)的高分辨率圖像。該模型在圖像損壞過程中進(jìn)行訓(xùn)練,其中噪聲逐漸添加到高分辨率圖像中,直到只剩下純噪聲為止。然后它學(xué)習(xí)逆轉(zhuǎn)這個過程,從純噪聲開始,并通過輸入低分辨率圖像的引導(dǎo)逐步去除噪聲以達(dá)到目標(biāo)分布。

通過大規(guī)模訓(xùn)練,當(dāng)擴(kuò)展到輸入低分辨率圖像的 4 倍到 8 倍的分辨率時,SR3 在人臉和自然圖像的超分辨率任務(wù)上取得了強(qiáng)大的基準(zhǔn)測試結(jié)果。這些超分辨率模型可以進(jìn)一步級聯(lián)在一起以增加有效的超分辨率比例因子,例如,將 64x64 → 256x256 和 256x256 → 1024x1024 人臉超分辨率模型堆疊在一起,以執(zhí)行 64x64 → 1024x1024 的超分辨率任務(wù)。

研究者將 SR3 與現(xiàn)有方法進(jìn)行比較,并進(jìn)行了一項雙重強(qiáng)制選擇實驗,要求受試者在參考高分辨率圖像和被問及以下問題時的模型輸出之間進(jìn)行選擇:「你猜是相機(jī)拍的嗎?」該研究通過混淆率(confusion rate)來衡量模型的性能(評估者選擇模型輸出而不是參考圖像的時間百分比,其中完美的算法將實現(xiàn) 50% 的混淆率)。這項研究的結(jié)果如下圖所示。

1.png

上圖:該研究在 16x16 → 128x128 人臉的任務(wù)上實現(xiàn)了接近 50% 的混淆率,優(yōu)于 SOTA 人臉超分辨率方法 PULSE 和 FSRGAN。下圖:該方法還在 64x64 → 256x256 自然圖像這一更困難的任務(wù)上實現(xiàn)了 40% 的混淆率,大大優(yōu)于回歸基線。

實驗結(jié)果

自然圖像:圖 3 給出了 ImageNet 開發(fā)集上 64×64 → 256×256 的超分辨率自然圖像示例,以及用于更精細(xì)檢查的放大 patch?;€回歸模型生成的圖像忠實于輸入,但模糊且缺乏細(xì)節(jié)。相比之下,SR3 產(chǎn)生的圖像清晰,細(xì)節(jié)更豐富。

2.png

圖 3:SR3 模型(64×64 → 256×256)的結(jié)果,模型在 ImageNet 上訓(xùn)練并在兩個 ImageNet 測試圖像上進(jìn)行評估。

人臉圖像:圖 4 顯示了兩個測試圖像上的人臉超分辨率模型(64×64 → 512×512)的輸出,并放大了選定 patch。使用 8 倍的放大因子可以清楚地看到推斷的詳細(xì)結(jié)構(gòu)。注意由于放大因子很大,因此有很多似是而非的輸出,因此我們不期望輸出與參考圖像完全匹配。

3.png

圖 4:SR3 模型(64×64 → 512×512)的結(jié)果,在 FFHQ 上訓(xùn)練并應(yīng)用于訓(xùn)練集之外的圖像,以及放大的 patch 以顯示更精細(xì)的細(xì)節(jié)。

表 1 顯示了 16×16 → 128×128 人臉超分辨率的 PSNR、SSIM [59] 和 Consistency 分?jǐn)?shù)。SR3 在 PSNR 和 SSIM 上的表現(xiàn)優(yōu)于 PULSE 和 FSRGAN,而在回歸基準(zhǔn)上的表現(xiàn)則遜色。先前的工作 [7, 8, 28] 觀察到,當(dāng)輸入分辨率低且放大因子大時,這些傳統(tǒng)的自動評估措施與人類感知的相關(guān)性不佳。這并不奇怪,因為這些指標(biāo)往往會懲罰與目標(biāo)圖像不完全對齊的任何合成高頻細(xì)節(jié)。

5.png

表 1:16×16 → 128×128 人臉超分辨率下的 PSNR 和 SSIM。

由于生成完美對齊的高頻細(xì)節(jié),例如,圖 4 中完全相同的發(fā)束和圖 3 中相同的豹斑,幾乎是不可能的,因此 PSNR 和 SSIM 往往基于 MSE 回歸的技術(shù),這些技術(shù)對高頻保守細(xì)節(jié)。對于 ImageNet 超分辨率 (64×64 → 256×256),表 2 進(jìn)一步證實了這一點,其中 SR3 的輸出實現(xiàn)了更高的樣本質(zhì)量分?jǐn)?shù)(FID 和 IS),但 PSNR 和 SSIM 比回歸差。

5.png

表 2:使用在 ImageNet 驗證集上計算的標(biāo)準(zhǔn)指標(biāo),SR3 和回歸基線在自然圖像超分辨率上的性能比較。

受試者(subject) fool rate 是受試者選擇模型輸出而不是真實情況的試驗比例。每個模型的 fool rate 有 50 名受試者,每個人都看到了測試集中 100 張圖像中的 50 張。圖 6 顯示了 Task-1(頂部)和 Task-2(底部)的 fool rate。在這兩個實驗中,SR3 的 fool rate 接近 50%,表明 SR3 生成的圖像既逼真又忠實于低分辨率輸入。

6.png

圖 6:人臉超分辨率人類 fool rates(越高越好,照片逼真的樣本產(chǎn)生 50% 的 fool rate)。將 4 個模型的輸出與真實情況進(jìn)行比較。(頂部)對象顯示為低分辨率輸入, (底部)未顯示輸入。

CDM:類條件 ImageNet 生成

上面展示了 SR3 在生成超分辨率自然圖像的有效性,更近一步的,研究者使用 SR3 模型來生成類條件圖像。CDM 是在 ImageNet 數(shù)據(jù)集上訓(xùn)練的類條件擴(kuò)散模型,用于生成高分辨率的自然圖像。由于 ImageNet 是一個難度較高、熵較高的數(shù)據(jù)集,因此研究者將 CDM 構(gòu)建為多個擴(kuò)散模型的級聯(lián)。

這種級聯(lián)方法涉及在多個空間分辨率上級聯(lián)多個生成模型:一個擴(kuò)散模型以低分辨率生成數(shù)據(jù),然后是一系列 SR3 超分辨率擴(kuò)散模型,這種級聯(lián)模型將生成圖像的分辨率提高到最高分辨率。眾所周知,級聯(lián)可以提高高分辨率數(shù)據(jù)的質(zhì)量和訓(xùn)練速度。正如定量評估結(jié)果所證明的那樣,CDM 進(jìn)一步突出了擴(kuò)散模型中級聯(lián)對樣本質(zhì)量和下游任務(wù)(例如圖像分類)有效性。

7.gif

一系列擴(kuò)散模型的級聯(lián) pipeline 示例:第一個是生成低分辨率圖像,其余圖片是執(zhí)行上采樣到最終高分辨率圖像。這里 pipeline 用于類條件 ImageNet 生成,它從 32x32 分辨率的類條件擴(kuò)散模型開始,然后是使用 SR3 生成分辨率是原始分辨率 2 倍和 4 倍的類條件超分辨率圖像。

8.png

上圖為 256x256 級聯(lián)類條件 ImageNet 模型中選擇生成的圖像。

除了在級聯(lián) pipeline 中包含 SR3 模型外,該研究還引入了一種新的數(shù)據(jù)增強(qiáng)技術(shù):條件增強(qiáng),它進(jìn)一步提高了 CDM 生成的樣本質(zhì)量。雖然 CDM 中的超分辨率模型是在原始圖像上訓(xùn)練的,但在生成階段,需要對低分辨率基礎(chǔ)模型生成的圖像進(jìn)行超分辨率處理。這導(dǎo)致超分辨率模型「訓(xùn)練 - 測試」不匹配。 

條件增強(qiáng)是指對級聯(lián) pipeline 中每個超分辨率模型的低分辨率輸入圖像進(jìn)行數(shù)據(jù)增強(qiáng)。這些數(shù)據(jù)增強(qiáng)包括高斯噪聲和高斯模糊,以防止每個超分辨率模型對其低分辨率條件輸入過擬合,最終得到更好的高分辨率 CDM 樣本質(zhì)量。

實驗結(jié)果

下表為級聯(lián)擴(kuò)散模型 (CDM) 的主要結(jié)果,主要針對 64×64、 128×128、256×256 ImageNet 數(shù)據(jù)集分辨率以及基線的結(jié)果。

9.png

下表為在 128×128 、256×256 分辨率下,模型分類準(zhǔn)確率得分(Classification Accuracy Score,CAS)結(jié)果:

10.png

表 2b 和圖 7 為 16×16→64×64 級聯(lián) pipeline 結(jié)果。結(jié)果發(fā)現(xiàn)如果沒有條件增強(qiáng),級聯(lián) pipeline 獲得的樣本質(zhì)量低于非級聯(lián)基線 64×64 模型,以 FID 得分為例,得分從 2.35 增加到 6.02。

11.png12.png

圖 7:消融實驗,小規(guī)模 16×16→64×64pipeline 在不同數(shù)量的條件增強(qiáng)下生成的圖形。如表 2b 所示。

表 4a 為 64×64→256×256 超分辨率模型應(yīng)用高斯模糊增強(qiáng)的結(jié)果。表 4b 顯示了超分辨率模型在類條件、大批量訓(xùn)練和隨機(jī)翻轉(zhuǎn)增強(qiáng)方面的進(jìn)一步改進(jìn)。

13.png

總之,CDM 生成的高保真樣本在類條件 ImageNet 生成的 FID 得分和分類準(zhǔn)確率得分方面均優(yōu)于 BigGAN-deep 和 VQ-VAE-2。CDM 是一種純生成模型,與 ADM 和 VQ-VAE-2 等其他模型不同,它不使用分類器來提高樣本質(zhì)量。

14.png

對于不使用額外分類器來提高樣本質(zhì)量的方法,類條件 ImageNet 在 256x256 分辨率下的 FID 得分結(jié)果(值越低越好)。

15.png

ImageNet 在 256x256 分辨率下的分類準(zhǔn)確率得分,與現(xiàn)有方法相比,CDM 生成的數(shù)據(jù)獲得了顯著的增益,縮小了真實數(shù)據(jù)和生成數(shù)據(jù)之間的分類準(zhǔn)確率差距(值越高越好)。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 深度學(xué)習(xí)

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉