NüWA:女媧算法,多模態(tài)預訓練模型,大殺四方!
論文地址:https://arxiv.org/abs/2111.12417
源代碼:https:// github.com/microsoft/NUWA
一、前言
今天分享的論文,主要提出了一個統(tǒng)一的多模態(tài)預訓練模型,稱為NüWA,可以為各種視覺合成任務生成新的或操縱現(xiàn)有的視覺數(shù)據(jù)(即圖像和視頻)。針對不同場景同時覆蓋語言、圖像和視頻,設計了3D Transformer編碼器-****框架,不僅可以將視頻作為3D數(shù)據(jù)處理,還可以分別將文本和圖像作為1D和2D數(shù)據(jù)進行適配。還提出了3D Nearby Attention(3DNA)機制來考慮視覺數(shù)據(jù)的性質(zhì)并降低計算復雜度。在8個下游任務上評估NüWA。與幾個強大的基線相比,NüWA在文本到圖像生成、文本到視頻生成、視頻預測等方面取得了最先進的結果。此外,它還顯示了令人驚訝的良好的文本零樣本能力——引導圖像和視頻處理任務。
8個任務的案例
二、背景
如今,網(wǎng)絡變得比以往任何時候都更加視覺化,圖像和視頻已成為新的信息載體,并已被用于許多實際應用中。在此背景下,視覺合成正成為越來越受歡迎的研究課題,其目的是構建可以為各種視覺場景生成新的或操縱現(xiàn)有視覺數(shù)據(jù)(即圖像和視頻)的模型。
自回歸模型【Auto-regressive models】在視覺合成任務中發(fā)揮著重要作用,因為與GAN相比,它們具有顯式的密度建模和穩(wěn)定的訓練優(yōu)勢。早期的視覺自回歸模型,如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer,都是以“pixel-by-pixel”的方式進行視覺合成的。然而,由于它們在高維視覺數(shù)據(jù)上的高計算成本,這些方法只能應用于低分辨率的圖像或視頻,并且難以擴展。
最近,隨著VQ-VAE作為離散視覺標記化方法的出現(xiàn),高效和大規(guī)模的預訓練可以應用于圖像的視覺合成任務(例如DALL-E和CogView) 和視頻(例如GODIVA)。盡管取得了巨大的成功,但此類解決方案仍然存在局限性——它們分別處理圖像和視頻,并專注于生成它們中的任何一個。這限制了模型從圖像和視頻數(shù)據(jù)中受益。
三、NüWA的表現(xiàn)
Text-To-Image(T2I)
一只戴著護目鏡,盯著攝像機的狗
Sketch-To-Image (S2I)
草圖轉圖片任務,就是根據(jù)草圖的布局,生成對應的圖片
Image Completion (I2I)
圖像補全,如果一副圖片殘缺了,算法可以自動“腦補”出殘缺的部分
Image Manipulation (TI2I)
圖片處理,根據(jù)文字描述,處理圖片
例如:有一副草原的圖片,然后增加一段描述:一匹馬奔跑在草原上,然后就可以生成對應的圖片。
Video
四、新框架
NüWA模型的整體架構包含一個支持多種條件的 adaptive 編碼器和一個預訓練的****,能夠同時使圖像和視頻的信息。對于圖像補全、視頻預測、圖像處理和視頻處理任務,將輸入的部分圖像或視頻直接送入****即可。
而編碼****都是基于一個3D NEARBY SELF-ATTENTION(3DNA)建立的,該機制可以同時考慮空間和時間軸的上局部特性,定義如下:
W 表示可學習的權重,X 和 C 分別代表文本、圖像、視頻數(shù)據(jù)的 3D 表示。
3DNA考慮了完整的鄰近信息,并為每個token動態(tài)生成三維鄰近注意塊。注意力矩陣還顯示出3DNA的關注部分(藍色)比三維塊稀疏注意力和三維軸稀疏注意力更平滑。
3D DATA REPRESENTATION
為了涵蓋所有文本、圖像和視頻或其草圖,研究者將它們?nèi)恳暈闃擞洸⒍x統(tǒng)一的 3D符號X∈Rh×w×s×d,其中h和w表示空間軸(分別為高度和寬度)中的標記數(shù)量,s表示時間軸上的標記數(shù)量,d是每個標記的維度。
3D NEARBY SELF-ATTENTION
基于之前的3D數(shù)據(jù)表示定義了一個統(tǒng)一的3D Nearby Self-Attention (3DNA) 模塊,支持自注意力和交叉注意力。首先給出方程中3DNA的定義:
并在如下等式中介紹詳細的實現(xiàn)。
3D ENCODER-DECODER
開始介紹基于3DNA構建的3D編碼-****。為了在C∈Rh′×w′×s′×din的條件下生成目標Y∈Rh×w×s×dout,Y和C的位置編碼通過考慮高度、寬度和時間軸的三個不同的可學習詞匯更新。
然后,條件C被輸入到具有L 3DNA層堆棧的編碼器中,以對自注意力交互進行建模,第l層在等式中表示:
同樣,****也是一堆L 3DNA層。****計算生成結果的自注意力以及生成結果和條件之間的交叉注意力。第l層表示如下等式。
五、實驗簡單分析
圖
其他實驗可在論文中獲取!
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。