博客專欄

EEPW首頁 > 博客 > 微軟亞洲研究院多模態(tài)模型NüWA:以自然語言創(chuàng)造視覺內(nèi)容

微軟亞洲研究院多模態(tài)模型NüWA:以自然語言創(chuàng)造視覺內(nèi)容

發(fā)布人:MSRAsia 時間:2022-03-17 來源:工程師 發(fā)布文章
編者按:此前我們曾提出了一個問題:從文字腳本生成創(chuàng)意視頻一共分幾步?微軟亞洲研究院的開放領(lǐng)域視頻生成預(yù)訓(xùn)練模型給出了答案:只需一步?,F(xiàn)在,我們追問:除了文字生成視頻之外,還有哪些途徑可以生成視頻?我們能否使用自然語言對視覺內(nèi)容進(jìn)行編輯?微軟亞洲研究院最新推出的多模態(tài)模型 NüWA,不僅讓視覺內(nèi)容創(chuàng)造多了一條路,甚至還讓 Windows 經(jīng)典桌面有了更多的打開方式。


人類對于信息的感知有五種途徑,包括視覺、聽覺、嗅覺、觸覺和味覺,其中視覺是接受信息的最主要渠道,也是創(chuàng)造力的源泉。在推動人工智能發(fā)展的道路上,計算機(jī)視覺已經(jīng)成為一個重要的研究領(lǐng)域,尤其是近幾年視覺創(chuàng)作類應(yīng)用的頻繁涌現(xiàn),讓創(chuàng)作變得越來越便捷,越來越多的用戶可以用這些工具制作和分享身邊的美好生活。與此同時,視覺類應(yīng)用的廣泛使用也促進(jìn)了計算機(jī)視覺領(lǐng)域的研究。


然而,盡管這些工具功能強(qiáng)大,但仍有不足之處:其一,它們需要創(chuàng)作者手動收集和處理視覺素材,導(dǎo)致現(xiàn)有的大規(guī)模視覺數(shù)據(jù)中所包含的視覺知識無法自動地有效利用。其二,這些工具往往是通過圖形界面與創(chuàng)作者交互,并非自然語言指令,因此對于一些用戶來說,具有一定的技術(shù)門檻,他們需要擁有豐富的使用經(jīng)驗。在微軟亞洲研究院看來,下一代可視化內(nèi)容創(chuàng)建工具應(yīng)該能夠利用大數(shù)據(jù)、AI 模型幫助用戶更便捷地進(jìn)行內(nèi)容創(chuàng)作,并使用自然語言作為更加友好的交互界面。


在這樣的理念下,微軟亞洲研究院在視頻生成預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行再創(chuàng)新,開發(fā)了多模態(tài)的 NüWANeural visUal World creAtion)模型。通過自然語言指令,NüWA 可以實現(xiàn)文本、圖像、視頻之間的生成、轉(zhuǎn)換和編輯,幫助視覺內(nèi)容創(chuàng)作者降低技術(shù)門檻,提高創(chuàng)造力。同時,開發(fā)者也可以利用 NüWA 構(gòu)建基于 AI 的視覺內(nèi)容創(chuàng)造平臺。(點擊閱讀原文,查看 NüWA 論文原文)


圖片

支持八大視覺生成與編輯任務(wù) 


NüWA 目前支持八大視覺生成和編輯任務(wù)。其中,支持圖像的四類任務(wù)包括:文本到圖像,草圖到圖像,圖像補(bǔ)全,圖像編輯;支持視頻的四類任務(wù)包括:文本到視頻,視頻草圖到視頻,視頻預(yù)測,視頻編輯。


下面,讓我們以 Windows 經(jīng)典桌面為例,試一下 NüWA 的幾個功能。(更多 NüWA 在八大任務(wù)中的效果,請見文末。)


給定一張原始圖片:


圖片


讓 NüWA 將圖片補(bǔ)全為256x256(圖像補(bǔ)全):


圖片


讓 NüWA 在圖片的紅框位置處添加“一匹在草地上行走的馬”(圖像編輯):


圖片

圖片


讓 NüWA 將這張圖片生成為一個能“動”起來的視頻(視頻預(yù)測):


圖片


圖片

憑“一己之力”完成多項視覺內(nèi)容創(chuàng)造任務(wù)


NüWA 模型提出了一種全新的 3D 編碼器-****框架。編碼器可以支持包括文本、圖像、視頻,或者草圖等多種不同的輸入條件,甚至是部分圖片或部分視頻,讓模型補(bǔ)全后續(xù)的視頻幀;****則將這些輸入條件轉(zhuǎn)換為離散的視覺標(biāo)記,根據(jù)訓(xùn)練數(shù)據(jù)輸出圖像、視頻內(nèi)容。


在預(yù)訓(xùn)練階段,研究員使用了自回歸模型作為預(yù)訓(xùn)練任務(wù)來訓(xùn)練 NüWA,其中 VQ-GAN 編碼器將圖像和視頻轉(zhuǎn)換為相應(yīng)的視覺標(biāo)記,作為預(yù)訓(xùn)練數(shù)據(jù)的一部分。在推理階段,VQ-GAN ****會基于預(yù)測的離散視覺標(biāo)記重建圖像或視頻。


NüWA 還引入了三維稀疏注意力(3D Nearby Attention,3DNA)機(jī)制來應(yīng)對 3D 數(shù)據(jù)的特性,可同時支持編碼器和****的稀疏關(guān)注。也就是說,在生成特定圖像的一部分或者一個視頻幀時,NüWA 不僅會看到已經(jīng)生成的歷史信息,還會關(guān)注與其條件所對應(yīng)位置的信息,比如,在由視頻草圖生成視頻的過程中,生成第二幀時,模型就會考慮第二幀草圖對應(yīng)的位置是什么,然后按照草圖的變化生成滿足草圖變化的視頻,這就是編碼器和****的同時稀疏。而此前的工作通常只是一維或二維的稀疏關(guān)注,而且只在編碼器稀疏,或只在****稀疏。通過使用 3DNA 機(jī)制,NüWA 的計算復(fù)雜度得到了簡化,提升了計算效率。


圖片

圖1:NüWA 基于 3D 編碼-解碼架構(gòu)


為了支持文本、圖片、視頻這些多模態(tài)任務(wù)的創(chuàng)建,跨越不同領(lǐng)域數(shù)據(jù)的鴻溝,研究員采用了逐步訓(xùn)練的方式,在預(yù)訓(xùn)練中使用不同類型的訓(xùn)練數(shù)據(jù)。首先訓(xùn)練文本-圖片任務(wù)和圖片-視頻任務(wù),待任務(wù)穩(wěn)定后,再加入文本-視頻的數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,而且研究員們還使用了視頻完成任務(wù),根據(jù)給定的部分視頻作為輸入生成后續(xù)視頻,使得 NüWA 擁有強(qiáng)大的零樣本視覺內(nèi)容生成與編輯能力,實現(xiàn)圖像、視頻內(nèi)容的增、刪、改操作,甚至可以對視頻的未來幀進(jìn)行可控調(diào)整。


微軟亞洲研究院高級研究員段楠表示,“NüWA 是第一個多模態(tài)預(yù)訓(xùn)練模型。我們希望 NüWA 可以實現(xiàn)真實世界的視頻生成,但在訓(xùn)練過程中模型會產(chǎn)生大量的‘中間變量’,消耗巨大的顯存、計算等資源。因此,NüWA 團(tuán)隊與系統(tǒng)組的同事們聯(lián)手協(xié)作,為 NüWA 在系統(tǒng)架構(gòu)上設(shè)置了多種并行機(jī)制,如張量并行、管道并行和數(shù)據(jù)并行,使得我們的跨模態(tài)訓(xùn)練成為可能?!?/span>


NüWA 覆蓋了11個數(shù)據(jù)集和11種評估指標(biāo)。在文本到圖像生成的弗雷切特起始距離(Frechet Inception Distance, FID)指標(biāo)上,NüWA 的表現(xiàn)超過了 DALL-E 和 CogView,在視頻生成的 FVD 指標(biāo)上超越了 CCVS,均取得了當(dāng)前 SOTA 結(jié)果。其中,測試結(jié)果如下(更多 NüWA 在不同數(shù)據(jù)集和評估指標(biāo)中的測試結(jié)果,請點擊閱讀原文,查看論文細(xì)節(jié)):


圖片

表1:文本到圖像任務(wù)測試結(jié)果


圖片

NüWA-LIP:讓視覺編輯更精細(xì)


NüWA 模型已基本包含了視覺創(chuàng)作的核心流程,可在一定程度上輔助創(chuàng)作者提升效率,但在實際創(chuàng)作中,創(chuàng)作者還有很多多樣且高質(zhì)量的需求。為此,微軟亞洲研究院的研究員們在 NüWA 的基礎(chǔ)之上更新迭代,于近日提出了NüWA-LIP 模型,并且在視覺領(lǐng)域的典型任務(wù)——缺陷圖像修復(fù)中取得了新突破。


盡管此前也有方法完成了類似的圖像修復(fù),但是模型的創(chuàng)作卻比較隨意,無法符合創(chuàng)作者的意愿,而NüWA LIP 幾乎可以按照給定的自然語言指令修復(fù)、補(bǔ)全成人們?nèi)庋劭山邮艿膱D像。下面,讓我們直觀感受一下 NüWA-LIP 神奇的圖像修復(fù)效果。


圖片

圖2:在圖像編輯任務(wù)上,NüWA-LIP 展現(xiàn)出優(yōu)秀的性能


圖2給出了兩個例子。第一個例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托車手騎四輪車)來補(bǔ)全黑色區(qū)域。已有工作 GLIDE 雖然可以補(bǔ)全,但是可以看到邊界處有明顯的白線,并且補(bǔ)全的區(qū)域比較模糊。NüWA 模型使用自回歸的方式從左到右依次掃描生成,邊界處相比于 GLIDE 更加自然。但是由于在補(bǔ)全黑色區(qū)域時看不到右側(cè)的車輪,因此標(biāo)準(zhǔn)的 NüWA 模型存在補(bǔ)全邊界銜接不對的問題。NüWA-LIP 修復(fù)了 NüWA 這一不足,它會提前預(yù)看整個圖像,并創(chuàng)新地使用無損編碼技術(shù),然后再自回歸地生成,因此可以做到黑色區(qū)域邊界處銜接自然,并且補(bǔ)全區(qū)域也很清晰。


在 FID 指標(biāo)測試中,通過將修復(fù)圖與原始圖對比,NüWA-LIP 在自然語言指示圖像修復(fù)的任務(wù)上取得了最好分?jǐn)?shù)。(注:FID 分?jǐn)?shù)越低表示修復(fù)圖像的質(zhì)量越高。)


圖片

表2:NüWA-LIP 在圖像編輯任務(wù)中的 FID 指標(biāo)達(dá)到10.5


圖片

NüWA-Infinity:讓視覺創(chuàng)作趨于 “無限流”


除了圖像修復(fù)之外,微軟亞洲研究院在高分辨率、大圖像的橫向延展方面也進(jìn)行了持續(xù)研究,提出了 NüWA Infinity 模型。顧名思義,NüWA Infinity 可以根據(jù)給定的圖像生成無限連續(xù)的高清“大片”。“一開始 NüWA 能夠生成、編輯的圖像和視頻的分辨率相對較低,一般是256×256分辨率的小圖。我們希望通過模型可以生成更高清的大圖,形成更大的視覺沖擊,滿足不同創(chuàng)作者的實際需求。簡單來說,NüWA Infinity 會根據(jù)圖像的不同層次內(nèi)容掃描每一幀窗口,不斷渲染形成高像素、連續(xù)的大圖,”微軟亞洲研究院研究員吳晨飛介紹說。


想知道 Windows 經(jīng)典桌面的右側(cè)是什么樣么?點擊下圖,NüWA-Infinity 為你“揭開”神秘面紗。(請手機(jī)橫屏查看)


圖片圖片


段楠補(bǔ)充說,“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清,以及視頻幀數(shù)有限的問題。但其實 NüWA Infinity 從底層形成了一套生成機(jī)制,不僅可以對圖片進(jìn)行延展式的生成,也可以應(yīng)用于視頻預(yù)測創(chuàng)作,而這也是我們接下來要攻克的研究課題。”


自此,NüWA-LIP 讓機(jī)器接受語言指令自動修圖成為了可能,而 NüWA-Infinity 則使得圖像生成質(zhì)量向高清、無限的真實世界邁進(jìn)了一大步。按照這樣的迭代創(chuàng)新步伐,未來創(chuàng)作者擁有一套趨于“無限流”的視覺創(chuàng)作輔助工具,指日可待。


圖片

NüWA 多模態(tài)模型連鎖反應(yīng):或?qū)砀唷皻⑹旨墶睉?yīng)用


未來,隨著人工智能技術(shù)的發(fā)展,增強(qiáng)現(xiàn)實、虛擬現(xiàn)實等沉浸式的人機(jī)交互界面將會得到更廣泛的應(yīng)用,數(shù)字世界和物理世界的結(jié)合也將越來越緊密。而不同類型的多模態(tài)內(nèi)容則是拉近虛擬空間與現(xiàn)實世界的強(qiáng)力膠,因此,虛擬內(nèi)容的創(chuàng)建、編輯和交互將至關(guān)重要。NüWA 提供的視覺內(nèi)容生成和編輯技術(shù),為這些應(yīng)用提供了無限的想象空間。當(dāng)多模態(tài)技術(shù)成為未來人工智能應(yīng)用發(fā)展的方向時,多模態(tài)模型將會為學(xué)習(xí)、廣告、新聞、會議、娛樂、社交網(wǎng)絡(luò)、數(shù)字人、腦機(jī)交互等領(lǐng)域帶來更多的下一代“殺手級”應(yīng)用。


相關(guān)論文鏈接:

NüWA:https://arxiv.org/abs/2111.12417

NüWA-LIP:https://arxiv.org/abs/2202.05009


附錄:

NüWA 在八大任務(wù)中的效果。


圖片

圖3:文本到圖像任務(wù)。例如,給定文本“A wooden house sitting in a field”(一個小木屋坐落在田野間)。NüWA 創(chuàng)作了4種不同拍攝角度的小木屋,這些小木屋不僅朝向風(fēng)格多樣、而且真實性很好。


圖片

圖4:草圖到圖像任務(wù)。例如,給定一張公共汽車的草圖(第一行第一列),NüWA 創(chuàng)作了3種滿足草圖形狀和位置的圖像,包括窗戶的反光也清晰可見。

 

圖片


圖片

圖5:圖像補(bǔ)全任務(wù)。例如第1行,輸入上方的塔尖(50%的原圖),NüWA 可以補(bǔ)全出塔下方的樣子,圓柱甚至屋頂。對于第2行,當(dāng)僅僅給5%的圖像區(qū)域時,NüWA 依然可以做到圖像補(bǔ)全。


圖片

圖6:圖像編輯。例如第1幅圖,給定待編輯的圖像、需要編輯的圖像區(qū)域(紅框)以及圖像上方的文本“Beach and sky”(海灘和天空),第2幅圖則給出了編輯后的結(jié)果。


圖片

圖7:圖像到視頻任務(wù)。NüWA 不僅可以依據(jù)常見的文本 “Play golf on grass”(在草地上玩高爾夫球)來生成視頻,而且可以生成現(xiàn)實中不可能的視頻,例如“Play golf on the swimming pool”(在泳池玩高爾夫球)。


圖片圖片

圖8:視頻草圖到視頻。輸入視頻草圖,NüWA 可以生成幀和幀連續(xù)的視頻。


圖片

圖9:視頻預(yù)測。輸入靜止圖像,NüWA 可以輸出將其“動”起來的視頻。


圖片

圖10:視頻編輯。輸入編輯文本、視頻,NüWA 可以輸出編輯之后的視頻。例如,原視頻潛水員在水平游動,經(jīng)過第二幅圖“The diver is swimming to the surface”(潛水員在向水面游去)的控制,生成的視頻潛水員在向上游。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

pic相關(guān)文章:pic是什么




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉