OpenAI的DALL·E迎來(lái)升級(jí)，不止文本生成圖像，還可二次創(chuàng)作

發(fā)布人：機(jī)器之心時(shí)間：2022-04-09 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

發(fā)布文章

在令人嘆為觀止方面，OpenAI 從不令人失望。

去年 1 月 6 日，OpenAI 發(fā)布了新模型 DALL·E，不用跨界也能從文本生成圖像，打破了自然語(yǔ)言與視覺(jué)次元壁，引起了 AI 圈的一陣歡呼。

時(shí)隔一年多后，DALL·E 迎來(lái)了升級(jí)版本——DALL·E 2。

與 DALL·E 相比，DALL·E 2 在生成用戶描述的圖像時(shí)具有更高的分辨率和更低的延遲。并且，新版本還增添了一些新的功能，比如對(duì)原始圖像進(jìn)行編輯。

不過(guò)，OpenAI 沒(méi)有直接向公眾開(kāi)放 DALL·E 2。目前，研究者可以在線注冊(cè)預(yù)覽該系統(tǒng)。OpenAI 希望以后可以將它用于第三方應(yīng)用程序。

試玩 Waitlist 地址：https://labs.openai.com/waitlist

OpenAI 還公布了 DALL·E 2 的研究論文《Hierarchical Text-Conditional Image Generation with CLIP Latents》，OpenAI 研究科學(xué)家、共同一作 Prafulla Dhariwal 表示，「這個(gè)神經(jīng)網(wǎng)絡(luò)真是太神奇了，根據(jù)文本描述就能生成對(duì)應(yīng)圖像?！?/span>

論文地址：https://cdn.openai.com/papers/dall-e-2.pdf

網(wǎng)友紛紛曬出了使用 DALL·E 2 生成的圖像，比如玩滑板的熊貓靚仔。

又比如席地而坐看星空的小孩和小狗。

DALL·E 2 生成藝術(shù)大作

DALL·E 2 的表現(xiàn)如何呢？我們先睹為快。首先，DALL·E 2 可以從文本描述中創(chuàng)建原始、逼真的圖像和藝術(shù)，它可以組合概念、屬性和風(fēng)格進(jìn)行圖像生成。例如一位騎著馬的宇航員：

生成的圖像可不止一張（官網(wǎng)示例給出 10 張），它還能生成下圖這樣的（一位騎著馬的宇航員），真是風(fēng)格多變：

DALL·E 2 可以根據(jù)自然語(yǔ)言字幕對(duì)現(xiàn)有圖像進(jìn)行編輯。它可以在考慮陰影、反射和紋理的同時(shí)添加和刪除元素。如下圖所示，左邊是原始圖像，右邊是 DALL·E 2 編輯后的圖像。兩張圖對(duì)比后，我們發(fā)現(xiàn)左圖中有數(shù)字 1、2、3，點(diǎn)擊相應(yīng)的位置，可以添加元素例如柯基犬，下圖選擇在 1 處添加柯基犬。

你也可以在 3 處添加一只柯基犬。

DALL·E 2 可以根據(jù)原圖像進(jìn)行二次創(chuàng)作，創(chuàng)造出不同的變體：

你可能會(huì)問(wèn)，DALL·E 2 比一代模型到底好在哪？簡(jiǎn)單來(lái)說(shuō) DALL·E 2 以 4 倍的分辨率生成更逼真、更準(zhǔn)確的圖像。例如下圖生成一幅「日出時(shí)坐在田野里的狐貍，生成的圖像為莫奈風(fēng)格?！笵ALL·E 2 生成的圖像更準(zhǔn)確。

看完上述展示，我們可以將 DALL·E 2 的特點(diǎn)歸結(jié)如下：DALL·E 2 的一項(xiàng)新功能是修復(fù)，在 DALL·E 1 的基礎(chǔ)上，將文本到圖像生成應(yīng)用在圖像更細(xì)粒度的級(jí)別上。用戶可以從現(xiàn)有的圖片開(kāi)始，選擇一個(gè)區(qū)域，讓模型對(duì)圖像進(jìn)行編輯，例如，你可以在客廳的墻上畫一幅畫，然后用另一幅畫代替它，又或者在咖啡桌上放一瓶花。該模型可以填充 (或刪除) 對(duì)象，同時(shí)考慮房間中陰影的方向等細(xì)節(jié)。

DALL·E 2 的另一個(gè)功能是生成圖像不同變體，用戶上傳一張圖像，然后模型創(chuàng)建出一系列類似的變體。此外，DALL·E 2 還可以混合兩張圖片，生成包含這兩種元素的圖片。其生成的圖像為 1024 x 1024 像素，大大超過(guò)了 256 x 256 像素。

生成模型的迭代

DALL·E 2 建立在 CLIP 之上，OpenAI 研究科學(xué)家 Prafulla Dhariwal 說(shuō)：「DALL·E 1 只是從語(yǔ)言中提取了 GPT-3 的方法并將其應(yīng)用于生成圖像：將圖像壓縮成一系列單詞，并且學(xué)會(huì)了預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么?！?/span>

這是許多文本 AI 應(yīng)用程序使用的 GPT 模型。但單詞匹配并不一定能符合人們的預(yù)期，而且預(yù)測(cè)過(guò)程限制了圖像的真實(shí)性。CLIP 旨在以人類的方式查看圖像并總結(jié)其內(nèi)容，OpenAI 迭代創(chuàng)建了一個(gè) CLIP 的倒置版本——「unCLIP」，它能從描述生成圖像，而 DALL·E 2 使用稱為擴(kuò)散（diffusion）的過(guò)程生成圖像。

訓(xùn)練數(shù)據(jù)集由圖像 x 及其對(duì)應(yīng)的字幕 y 對(duì) (x, y) 組成。給定圖像 x， z_i 和 z_t 分別表示 CLIP 圖像和文本嵌入。OpenAI 生成堆棧以使用兩個(gè)組件從字幕生成圖像：

先驗(yàn) P(z_i |y) 生成以字幕 y 為條件的 CLIP 圖像嵌入 z_i;
**** P(x|z_i , y) 以 CLIP 圖像嵌入 z_i（以及可選的文本字幕 y）為條件生成圖像 x。

****允許研究者在給定 CLIP 圖像嵌入的情況下反演圖像（invert images），而先驗(yàn)允許學(xué)習(xí)圖像嵌入本身的生成模型。堆疊這兩個(gè)組件產(chǎn)生一個(gè)圖像 x 、給定字幕 y 的生成模型 P(x|y) ：

DALL·E 的完整模型從未公開(kāi)發(fā)布，但其他開(kāi)發(fā)人員在過(guò)去一年中已經(jīng)構(gòu)建了一些模仿 DALL·E 功能的工具。最受歡迎的主流應(yīng)用程序之一是 Wombo 的 Dream 移動(dòng)應(yīng)用程序，它能夠根據(jù)用戶描述的各種內(nèi)容生成圖片。

OpenAI 已經(jīng)采取了一些內(nèi)置的保護(hù)措施。該模型是在已剔除不良數(shù)據(jù)的數(shù)據(jù)集上進(jìn)行訓(xùn)練的，理想情況下會(huì)限制其產(chǎn)生令人反感的內(nèi)容的能力。

為避免生成的圖片被濫用，DALL·E 2 在生成的圖片上都標(biāo)有水印，以表明該作品是 AI 生成的。此外，該模型也無(wú)法根據(jù)名稱生成任何可識(shí)別的面孔。

DALL·E 2 將由經(jīng)過(guò)審查的合作伙伴進(jìn)行測(cè)試，但有一些要求：禁止用戶上傳或生成「可能造成傷害」的圖像。他們還必須說(shuō)明用 AI 生成圖像的作用，并且不能通過(guò)應(yīng)用程序或網(wǎng)站將生成的圖像提供給其他人。

但 OpenAI 希望稍后再將 DALL·E 2 其添加到該組織的 API 工具集中，使其能夠?yàn)榈谌綉?yīng)用程序提供支持。Dhariwal 說(shuō)：「我們希望分階段進(jìn)行這個(gè)過(guò)程，以從獲得的反饋中不斷評(píng)估如何安全地發(fā)布這項(xiàng)技術(shù)?！?/span>

參考鏈接：

https://openai.com/dall-e-2/

https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

OpenAI的DALL·E迎來(lái)升級(jí)，不止文本生成圖像，還可二次創(chuàng)作

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

OpenAI的DALL·E迎來(lái)升級(jí)，不止文本生成圖像，還可二次創(chuàng)作

相關(guān)推薦

技術(shù)專區(qū)

OpenAI的DALL·E迎來(lái)升級(jí)，不止文本生成圖像，還可二次創(chuàng)作