OpenAI 發(fā)布 DALL·E 進化版,這只蒸汽朋克時代的小熊有點酷!
整理 | 禾木木
出品 | AI科技大本營(ID:rgznai100)
2021年1月6日 OpenAI 發(fā)布了新模型 DALL·E ,AI 根據(jù)一段話就可直接生成圖像。一年后進化 2.0 版本的“它”來了 —— DALL·E 2。
DALL·E 2 在生成用戶描述的圖像時具有更高的分辨率和更低的延遲。新版本還增添了一些新的功能,比如對原始圖像進行編輯。
與之前的OpenAI工作一樣,新工具沒有直接向公眾發(fā)布。但研究人員可以在線注冊預覽該系統(tǒng),OpenAI希望以后能將其用于第三方應用。
試玩 Waitlist 地址:
https://labs.openai.com/waitlist
OpenAI 研究科學家 Prafulla Dhariwal 表示,「這個神經(jīng)網(wǎng)絡真是太神奇了,根據(jù)文本描述就能生成對應圖像?!?/span>
DALL·E 2 功能展示
那 DALL·E 2 具體生成的圖像是什么樣呢?和 DALL·E 1代有哪些明顯的區(qū)別呢?
DALL·E 2 生成的“柴犬戴著貝雷帽穿著黑色高領毛衣”圖像:
DALL·E 2 可以根據(jù)自然語言字幕對現(xiàn)有圖像進行編輯。用戶可以從現(xiàn)有圖片開始,選擇一個區(qū)域,然后告訴模型對其進行編輯。并且可以在考慮陰影、反射和紋理的同時添加和刪除元素。
如下圖所示,左邊是原始圖像,右邊是 DALL·E 2 編輯后的圖像。兩張圖對比后,我們發(fā)現(xiàn)左圖中有數(shù)字 1、2、3,點擊相應的位置,下圖選擇在 1 處添加火烈鳥。
DALL·E 2 可以根據(jù)原圖像進行二次創(chuàng)作,創(chuàng)造出不同的變體:
DALL·E 2 相對一代以 4 倍的分辨率生成更逼真、更準確的圖像。
DALL·E 2 的一項新功能是修復,在 DALL·E 1 的基礎上,將文本到圖像生成應用在圖像更精細度的級別上。用戶可以從現(xiàn)有的圖片開始,選擇一個區(qū)域,讓模型對圖像進行編輯,例如,你可以在客廳的墻上畫一幅畫,然后用另一幅畫代替它,又或者在咖啡桌上放一瓶花。該模型可以填充 (或刪除) 對象,同時考慮房間中陰影的方向等細節(jié)。
DALL·E 2 的另一個功能是生成圖像不同變體,用戶上傳一張圖像,然后模型創(chuàng)建出一系列類似的變體。
此外,DALL·E 2 還可以混合兩張圖片,生成包含這兩種元素的圖片。其生成的圖像為 1024 x 1024 像素,大大超過了 256 x 256 像素。
如何實現(xiàn)新技能?
DALL·E 2 是建立在 CLIP 之上,這是許多文本 AI 應用程序使用的 GPT 模型。但單詞匹配并不一定能符合人們的預期,而且預測過程限制了圖像的真實性。
CLIP 是原版 DALL·E 功能實現(xiàn)的基礎,是一個負責給圖像重排序的模型,旨在以人類的方式查看圖像并總結其內(nèi)容,OpenAI 迭代創(chuàng)建了一個 CLIP 的倒置版本——「unCLIP」,它能從描述生成圖像,而 DALL·E 2 使用稱為擴散(diffusion)的過程生成圖像。擴散模型的特點在于,在犧牲多樣性的前提下,能大大提升生成圖像的逼真度。
OpenAI 的研究人員設計方案:
DALL·E 的完整模型從未公開發(fā)布,開發(fā)人員在過去一年中已經(jīng)構建了一些模仿 DALL·E 功能的工具。
最受歡迎的主流應用程序之一是 Wombo 的 Dream 移動應用程序,它能夠根據(jù)用戶描述的各種內(nèi)容生成圖片。
OpenAI 今天沒有發(fā)布任何新模型,但開發(fā)者可以利用其技術發(fā)現(xiàn)來更新自己的工作。
DALL·E 2 生成“一碗看起來像怪物、用羊毛織成的湯”:
OpenAI 已經(jīng)采取了一些內(nèi)置的保護措施,例如該模型是已剔除了不良內(nèi)容的數(shù)據(jù)集上進行訓練的,因此也在一定程度上限制了其生成不良內(nèi)容的能力。
為避免生成的圖片被濫用,DALL·E 2 在生成的圖片上都標有水印,以表明該作品是 AI 生成的。此外,該模型也無法根據(jù)名稱生成任何可識別的面孔。
DALL·E 2 將由經(jīng)過審查的合作伙伴進行測試,但有一些要求:禁止用戶上傳或生成可能造成傷害的圖像。他們還必須說明用 AI 生成圖像的作用,并且不能通過應用程序或網(wǎng)站將生成的圖像提供給其他人。
但 OpenAI 希望將 DALL·E 2 納入該組織的API工具集中,從而為第三方應用提供動力。
Dhariwal表示:“我們希望繼續(xù)進行分階段的過程,這樣就可以不斷從得到的反饋中評估如何安全地發(fā)布這項技術”。
小編看到有網(wǎng)友曬出了自己生成的圖像,感興趣的小伙伴們可以去測試呦~
參考鏈接:
https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing
https://cdn.openai.com/papers/dall-e-2.pdf
https://openai.com/dall-e-2/#demos
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
液位計相關文章:磁翻板液位計原理
電容式接近開關相關文章:電容式接近開關原理