博客專欄

EEPW首頁 > 博客 > 圖像生成卷膩了,谷歌全面轉(zhuǎn)向文字→視頻生成,兩大利器同時挑戰(zhàn)分辨率和長度

圖像生成卷膩了,谷歌全面轉(zhuǎn)向文字→視頻生成,兩大利器同時挑戰(zhàn)分辨率和長度

發(fā)布人:傳感器技術(shù) 時間:2022-10-13 來源:工程師 發(fā)布文章

機器之心報道

編輯:張倩、杜偉

谷歌、Meta 等科技巨頭又挖了一個新坑。


在文本轉(zhuǎn)圖像上卷了大半年之后,Meta、谷歌等科技巨頭又將目光投向了一個新的戰(zhàn)場:文本轉(zhuǎn)視頻。
上周,Meta 公布了一個能夠生成高質(zhì)量短視頻的工具——Make-A-Video,利用這款工具生成的視頻非常具有想象力。


當(dāng)然,谷歌也不甘示弱。剛剛,該公司 CEO Sundar Pichai 親自安利了他們在這一領(lǐng)域的最新成果:兩款文本轉(zhuǎn)視頻工具——Imagen Video 與 Phenaki。前者主打視頻品質(zhì),后者主要挑戰(zhàn)視頻長度,可以說各有千秋。

圖片


下面這個洗盤子的泰迪熊就是用 Imagen Video 生成的,可以看到,畫面的分辨率和連貫性都有一定的保障。

圖片


下面這個片段是由 Phenaki 生成的,視頻長達 2.5 分鐘。可以看出,模型對于長 prompt 的解析非常出色。 
,時長02:49
這段視頻的prompt為:「First person view of riding a motorcycle through a busy street. First person view of riding a motorcycle through a busy road in the woods. First person view of very slowly riding a motorcycle in the woods. First person view braking in a motorcycle in the woods. Running through the woods. First person view of running through the woods towards a beautiful house. First person view of running towards a large house. Running through houses between the cats. The backyard becomes empty. An elephant walks into the backyard. The backyard becomes empty. A robot walks into the backyard. A robot dances tango. First person view of running between houses with robots. First person view of running between houses; in the horizon, a lighthouse. First person view of flying on the sea over the ships. Zoom towards the ship. Zoom out quickly to show the coastal city. Zoom out quickly from the coastal city.」
Imagen Video:給出文本提示,生成高清視頻
生成式建模在最近的文本到圖像 AI 系統(tǒng)中取得了重大進展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion。特別地,擴散模型在密度估計、文本到語音、圖像到圖像、文本到圖像和 3D 合成等多種生成式建模任務(wù)中取得了巨大成功。
谷歌想要做的是從文本生成視頻。以往的視頻生成工作集中于具有自回歸模型的受限數(shù)據(jù)集、具有自回歸先驗的潛變量模型以及近來的非自回歸潛變量方法。擴散模型也已經(jīng)展示出了出色的中等分辨率視頻生成能力。
在此基礎(chǔ)上,谷歌推出了 Imagen Video,它是一個基于級聯(lián)視頻擴散模型的文本條件視頻生成系統(tǒng)。給出文本提示,Imagen Video 就可以通過一個由 frozen T5 文本編碼器、基礎(chǔ)視頻生成模型、級聯(lián)時空視頻超分辨率模型組成的系統(tǒng)來生成高清視頻。


論文地址:https://imagen.research.google/video/paper.pdf
在論文中,谷歌詳細描述了如何將該系統(tǒng)擴展為一個高清文本轉(zhuǎn)視頻模型,包括某些分辨率下選擇全卷積時空超分辨率模型以及選擇擴散模型的 v 參數(shù)化等設(shè)計決策。谷歌還將以往基于擴散的圖像生成研究成果成功遷移到了視頻生成設(shè)置中。
谷歌發(fā)現(xiàn),Imagen Video 能夠?qū)⒁酝ぷ魃傻?24fps 64 幀 128×128 視頻提升至 128 幀 1280×768 高清視頻。此外,Imagen Video 還具有高度的可控性和世界知識,能夠生成多樣化藝術(shù)風(fēng)格的視頻和文本動畫,還具備了 3D 對象理解能力。
讓我們再來欣賞一些 Imagen Video 生成的視頻,比如開車的熊貓:

圖片


遨游太空的木船:

圖片


更多生成視頻請參閱:https://imagen.research.google/video/
方法與實驗
整體而言,谷歌的視頻生成框架是七個子視頻擴散模型的級聯(lián),它們相應(yīng)執(zhí)行文本條件視頻生成、空間超分辨率和時間超分辨率。借助整個級聯(lián),Imagen Video 能夠以每秒 24 幀的速度生成 128 幀 1280×768 的高清視頻(約 1.26 億像素)。
與此同時,在漸進式蒸餾的幫助下,Imagen Video 的每個子模型中僅使用八個擴散步驟就能生成高質(zhì)量視頻。這將視頻生成時間加快了大約 18 倍。
下圖 6 展示了 Imagen Video 的整個級聯(lián) pipeline,包括 1 個 frozen 文本編碼器、1 個基礎(chǔ)視頻擴散模型以及 3 個空間超分辨率(SSR)和 3 個時間超分辨率(TSR)模型。這七個視頻擴散模型共有 116 億參數(shù)。
在生成過程中,SSR 模型提高了所有輸入幀的空間分辨率,同時 TSR 模型通過在輸入幀之間填充中間幀來提高時間分辨率。所有模型同時生成一個完整的幀塊,這樣 SSR 模型不會遭受明顯的偽影。

圖片


Imagen Video 構(gòu)建在視頻 U-Net 架構(gòu)之上,具體如下圖 7 所示。

圖片


在實驗中,Imagen Video 在公開可用的 LAION-400M 圖像文本數(shù)據(jù)集、1400 萬個視頻文本對和 6000 萬個圖像文本對上進行訓(xùn)練。結(jié)果正如上文所述,Imagen Video 不僅能夠生成高清視頻,還具備一些純從數(shù)據(jù)中學(xué)習(xí)的非結(jié)構(gòu)化生成模型所沒有的獨特功能。
下圖 8 展示了 Imagen Video 能夠生成具有從圖像信息中學(xué)得的藝術(shù)風(fēng)格的視頻,例如梵高繪畫風(fēng)格或水彩畫風(fēng)格的視頻。

圖片


下圖 9 展示了 Imagen Video 對 3D 結(jié)構(gòu)的理解能力,它能夠生成旋轉(zhuǎn)對象的視頻,同時物體的大致結(jié)構(gòu)也能保留。

圖片


下圖 10 展示了 Imagen Video 能夠可靠地生成各種動畫樣式的文本,其中一些使用傳統(tǒng)工具很難來制作。

圖片


更多實驗細節(jié)請參閱原論文。
Phenaki:你講故事我來畫
我們知道,雖然從本質(zhì)上講,視頻就是一系列圖像,但生成一個連貫的長視頻并沒有那么容易,因為在這項任務(wù)中,可用的高質(zhì)量數(shù)據(jù)非常少,而且任務(wù)本身的計算需求又很大。
更麻煩的是,像之前那種用于圖像生成的簡短文本 prompt 通常不足以提供對視頻的完整描述,視頻需要的是一系列 prompt 或故事。理想情況下,一個視頻生成模型必須能夠生成任意長度的視頻,并且要能根據(jù)某個時刻 t 的 prompt 變化調(diào)節(jié)生成的視頻幀。只有具備這樣的能力,模型生成的作品才能稱之為「視頻」,而不是「移動的圖像」,并開啟在藝術(shù)、設(shè)計和內(nèi)容創(chuàng)作方面的現(xiàn)實創(chuàng)意應(yīng)用之路。
谷歌等機構(gòu)的研究人員表示,「據(jù)我們所知,基于故事的條件視頻生成之前從未被探索過,這是第一篇朝著該目標(biāo)邁進的早期論文。」

圖片


  • 論文鏈接:https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
  • 項目鏈接:https://phenaki.github.io/#interactive


由于沒有基于故事的數(shù)據(jù)集可以拿來學(xué)習(xí),研究人員沒有辦法簡單地依靠傳統(tǒng)深度學(xué)習(xí)方法(簡單地從數(shù)據(jù)中學(xué)習(xí))完成這些任務(wù)。因此,他們專門設(shè)計了一個模型來完成這項任務(wù)。
這個新的文本轉(zhuǎn)視頻模型名叫 Phenaki,它使用了「文本轉(zhuǎn)視頻」和「文本轉(zhuǎn)圖像」數(shù)據(jù)聯(lián)合訓(xùn)練。該模型具有以下能力:
1、在開放域 prompt 的條件下生成時間上連貫的多樣化視頻,即使該 prompt 是一個新的概念組合(見下圖 3)。生成的視頻可以長達幾分鐘,即使該模型訓(xùn)練所用的視頻只有 1.4 秒(8 幀 / 秒)

圖片


2、根據(jù)一個故事(即一系列 prompt)生成視頻,如下圖 1 和圖 5 所示:

圖片


圖片


從以下動圖中我們可以看到 Phenaki 生成視頻的連貫性和多樣性:

圖片


圖片


要實現(xiàn)這些功能,研究人員無法依賴現(xiàn)有的視頻編碼器,因為這些編碼器要么只能解碼固定大小的視頻,要么獨立編碼幀。為了解決這個問題,他們引入了一種新的編碼器 - ****架構(gòu)——C-ViViT。
C-ViViT 可以:

  • 利用視頻中的時間冗余來提高每幀模型的重構(gòu)質(zhì)量,同時將視頻 token 的數(shù)量壓縮 40% 或更多;
  • 在給定因果結(jié)構(gòu)的情況下,允許編碼和解碼可變長度視頻。


PHENAKI 模型架構(gòu)
受之前自回歸文本轉(zhuǎn)圖像、文本轉(zhuǎn)視頻研究的啟發(fā),Phenaki 的設(shè)計主要包含兩大部分(見下圖 2):一個將視頻壓縮為離散嵌入(即 token)的編碼器 - ****模型和一個將文本嵌入轉(zhuǎn)換為視頻 token 的 transformer 模型。

圖片


獲取視頻的壓縮表示是從文本生成視頻的主要挑戰(zhàn)之一。之前的工作要么使用 per-frame 圖像編碼器,如 VQ-GAN,要么使用固定長度視頻編碼器,如 V ideoVQVAE。前者允許生成任意長度的視頻,但在實際使用中,視頻必須要短,因為編碼器不能及時壓縮視頻,并且 token 在連續(xù)幀中是高度冗余的。后者在 token 數(shù)量上更加高效,但它不允許生成任意長度的視頻。
在 Phenaki 中,研究者的目標(biāo)是生成可變長度的視頻,同時盡可能壓縮視頻 token 的數(shù)量,這樣就可以在當(dāng)前的計算資源限制下使用 Transformer 模型。為此,他們引入了 C-ViViT,這是 ViViT 的一種因果變體,為視頻生成進行了額外的架構(gòu)更改,它可以在時間和空間維度上壓縮視頻,同時保持時間上的自回歸。該功能允許生成任意長度的自回歸視頻。
為了得到文本嵌入,Phenaki 還用到了一個預(yù)訓(xùn)練的語言模型——T5X。
具體細節(jié)請參見原論文。 



*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

物聯(lián)網(wǎng)相關(guān)文章:物聯(lián)網(wǎng)是什么




關(guān)鍵詞: 谷歌

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉