博客專欄

EEPW首頁(yè) > 博客 > 觀點(diǎn)丨DALL-E 2、AI研究的未來(lái)以及OpenAI的商業(yè)前景

觀點(diǎn)丨DALL-E 2、AI研究的未來(lái)以及OpenAI的商業(yè)前景

發(fā)布人:大數(shù)據(jù)文摘 時(shí)間:2022-04-20 來(lái)源:工程師 發(fā)布文章
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)實(shí)戰(zhàn)派
作者:Ben Dickson

譯者:青蘋(píng)果
因?yàn)镈ALL-E 2,OpenAI最近再次占領(lǐng)新聞?lì)^版。
這種ML模型,可以從文本描述生成令人驚嘆的圖像。DALL-E 2是以其前身DALL-E的成功為基礎(chǔ),并得益于先進(jìn)的深度學(xué)習(xí)技術(shù),極大提高了輸出圖像的質(zhì)量和分辨率。
在DALL-E 2發(fā)布的同時(shí),OpenAI的工程師和首席執(zhí)行官 Sam Altman 也在社交媒體上發(fā)起了一場(chǎng)活動(dòng),他在Twitter上分享了由生成機(jī)器學(xué)習(xí)模型創(chuàng)建的精彩照片。
當(dāng)然,DALL-E 2也揭示了AI研究社區(qū)在利用深度學(xué)習(xí)的力量和解決其局限性等方面所取得的進(jìn)展。除此之外,它還提供了生成式深度學(xué)習(xí)模型供個(gè)人使用的一些展望,比如如何最實(shí)現(xiàn)新的創(chuàng)意應(yīng)用程序等。
但與此同時(shí),它的問(wèn)世也提醒著我們,AI研究中仍存留著一些障礙和亟待解決的爭(zhēng)議。

DALL-E 2的驚人之處


DALL-E 2已經(jīng)發(fā)布了詳細(xì)的論文和交互式博客文章,詳盡展示了ML模型的工作原理。另外,還附加了概述該技術(shù)功能和局限性的視頻講解。
根據(jù)這些內(nèi)容我們都能知道,DALL-E 2不僅是一種“生成模型”,它可以創(chuàng)建復(fù)雜的輸出,而不是對(duì)輸入數(shù)據(jù)執(zhí)行預(yù)測(cè)或分類任務(wù)。簡(jiǎn)單來(lái)說(shuō),只要你為DALL-E 2提供了一段文本描述,那么它便會(huì)直接生成符合該描述的圖像。
毋庸置疑,生成模型作為熱門(mén)的研究領(lǐng)域,隨著2014年生成式對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks)而備受關(guān)注。近年來(lái),該領(lǐng)域取得了巨大的進(jìn)步,而且目前生成模型已廣泛流行于各種各樣的任務(wù),包括人臉生成、換臉技術(shù)、聲音合成等。
然而,DALL-E 2與其他生成模型的不同之處在于,它可以在創(chuàng)建的圖像中保持語(yǔ)義的一致性。
例如,以下圖片(源自DALL-E 2博客文章)是由描述“宇航員騎馬”生成的。其中一份描述以“鉛筆畫(huà)”結(jié)尾,另一份以“寫(xiě)實(shí)風(fēng)格”收官。
圖片
該模型在繪制坐在馬背上的宇航員時(shí),將其手放在前面,保持了一致性。當(dāng)然,這種一致性也在OpenAI分享的大多數(shù)例子中有所體現(xiàn)。
以下示例(也來(lái)自O(shè)penAI的網(wǎng)站)展示了DALL-E 2的另一個(gè)特性,即生成輸入圖像的變體。這里,你不是向DALL-E 2提供帶有文本描述,而是提供圖像,它會(huì)嘗試生成相同圖像的其他形式。而且,DALL-E可以做到保持圖片中各個(gè)元素之間的關(guān)系,包括女孩,筆記本電腦,耳機(jī),貓,背景中的城市燈光以及掛有月亮和云彩的夜空。
圖片
其他例子也有力地表明,DALL-E 2似乎能夠理解深度和維度的概念,這對(duì)于處理2D圖像的算法而言,無(wú)疑是個(gè)巨大的挑戰(zhàn)。
即使OpenAI網(wǎng)站的例子是精心挑選的,它們也令人印象深刻。Twitter上分享的例子顯示,DALL-E 2似乎已經(jīng)找到了一種方法來(lái)表示和再現(xiàn)圖像中出現(xiàn)的元素之間的關(guān)系
圖片

DALL-E 2背后的學(xué)問(wèn)


DALL-E 2利用了對(duì)比學(xué)習(xí)圖像預(yù)訓(xùn)練(CLIP, Contrastive Learning-Image Pre-training)和擴(kuò)散(diffusion)模型,這是過(guò)去幾年創(chuàng)建的兩種先進(jìn)的深度學(xué)習(xí)技術(shù)。但究其核心,它與所有其他深度神經(jīng)網(wǎng)絡(luò)具有相同的概念:表示學(xué)習(xí)。
考慮一個(gè)圖像分類模型。神經(jīng)網(wǎng)絡(luò)將像素顏色轉(zhuǎn)換成一組表示其特征的數(shù)字。此向量有時(shí)也被稱為輸入的“嵌入”。然后將這些特征映射到輸出層,該層包含模型應(yīng)檢測(cè)的每類圖像的概率分?jǐn)?shù)。在訓(xùn)練期間,神經(jīng)網(wǎng)絡(luò)會(huì)試圖學(xué)習(xí)區(qū)分類的最佳特征表示。
理想情況下,ML模型應(yīng)該能夠?qū)W習(xí)在不同光照條件、角度和背景環(huán)境下保持一致的潛在特征。
但正如我們經(jīng)??吹降哪菢?,深度學(xué)習(xí)模型經(jīng)常學(xué)習(xí)錯(cuò)誤的表征。例如,神經(jīng)網(wǎng)絡(luò)可能認(rèn)為綠色像素是“綿羊”類的特征,因?yàn)樗谟?xùn)練中看到的所有綿養(yǎng)的圖像都包含大量的青草。另一個(gè)以夜間拍攝的蝙蝠照片為訓(xùn)練數(shù)據(jù)的模型,可能會(huì)認(rèn)為黑暗才是所有蝙蝠照片的重要特征,并對(duì)白天拍攝的蝙蝠照片產(chǎn)生錯(cuò)誤分類。其他模型可能會(huì)對(duì)位于圖像中心并放置在某種類型背景前面的對(duì)象變得敏感。
學(xué)習(xí)錯(cuò)誤的表征是神經(jīng)網(wǎng)絡(luò)脆弱、對(duì)環(huán)境變化敏感,并且在訓(xùn)練數(shù)據(jù)之外泛化能力差的部分原因。這也是為什么針對(duì)一個(gè)應(yīng)用程序訓(xùn)練的神經(jīng)網(wǎng)絡(luò)需要針對(duì)其他應(yīng)用程序進(jìn)行微調(diào)的原因——神經(jīng)網(wǎng)絡(luò)的最后層通常具有高度特定于某些任務(wù)的特征,而導(dǎo)致無(wú)法推廣到其他應(yīng)用程序。
理論上,你可以創(chuàng)建一個(gè)規(guī)模龐大的訓(xùn)練數(shù)據(jù)集,其中包含神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠處理的各種數(shù)據(jù)變體。但是創(chuàng)建和標(biāo)記這樣的數(shù)據(jù)集需要大量的人力資源,而且?guī)缀跏遣豢赡軐?shí)現(xiàn)的。
這就是CLIP所要解決的問(wèn)題。CLIP在圖像及其標(biāo)題上并行訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò)。具體來(lái)說(shuō),其中一個(gè)網(wǎng)絡(luò)學(xué)習(xí)圖像中的視覺(jué)表征,另一個(gè)學(xué)習(xí)相應(yīng)地文本表征。在訓(xùn)練期間,兩個(gè)網(wǎng)絡(luò)嘗試不斷調(diào)整其參數(shù),以便于相似的圖像和描述能夠產(chǎn)生相似的嵌入。
圖片
CLIP的主要優(yōu)勢(shì)之一是,它不需要為特定應(yīng)用程序標(biāo)記其訓(xùn)練數(shù)據(jù)。它可以在網(wǎng)絡(luò)中海量的圖像和松散的描述中進(jìn)行訓(xùn)練。
此外,沒(méi)有了經(jīng)典類別的嚴(yán)格邊界,CLIP可以學(xué)習(xí)更靈活的表示,并將其推廣到各種各樣的任務(wù)之中。例如,如果一幅圖片被描述為“一個(gè)男孩抱著一只小狗”,而另一幅圖片被描述為“一個(gè)男孩騎著一匹小馬”,那么模型將能夠更準(zhǔn)確地詮釋出“男孩”是什么,以及它與圖像中其他元素的關(guān)系。
CLIP已被證明對(duì)于零樣本學(xué)習(xí)(zero-shot learning)和少樣本學(xué)習(xí)(few-shot learning)非常有用,其中一種ML模型可以當(dāng)場(chǎng)演示,執(zhí)行其從未接受過(guò)訓(xùn)練的任務(wù)。
在DALL-E 2中使用的另一種ML技術(shù)是“擴(kuò)散”,這是一種生成模型,通過(guò)逐漸對(duì)訓(xùn)練示例加噪和去噪來(lái)學(xué)習(xí)創(chuàng)建圖像。擴(kuò)散模型類似于自動(dòng)編碼器,可以將輸入數(shù)據(jù)轉(zhuǎn)換為嵌入表示,然后從嵌入信息中再現(xiàn)原始數(shù)據(jù)。
DALL-E首先在圖像和標(biāo)題上訓(xùn)練CLIP模型,然后使用CLIP模型訓(xùn)練擴(kuò)散模型?;旧?,擴(kuò)散模型使用CLIP模型為文本提示及其相應(yīng)的圖像生成嵌入,隨后再嘗試生成與文本對(duì)應(yīng)的圖像。
圖片

爭(zhēng)議所在


目前,DALL-E 2僅對(duì)已注冊(cè)候補(bǔ)名單的有限數(shù)量用戶開(kāi)放。
自GPT-2發(fā)布以來(lái),OpenAI一直不愿向公眾發(fā)布其AI模型??梢哉f(shuō),GPT-3是其最前沿的語(yǔ)言模型,但其局限卻始終未能打破,只能通過(guò)API接口使用,無(wú)法訪問(wèn)模型的實(shí)際代碼和參數(shù)。
OpenAI不向公眾發(fā)布模型的政策并未得到AI社區(qū)的好評(píng),甚至還引發(fā)了該領(lǐng)域一些知名人士的批評(píng)。
下圖便是特斯拉AI總監(jiān)Andrej Karpathy 的調(diào)侃:AI API的調(diào)用已經(jīng)從可以在你的電腦運(yùn)行變成了你需要在推特上讓作者幫你運(yùn)行。
圖片
與此同時(shí),DALL-E 2長(zhǎng)期以來(lái)對(duì)通用人工智能(AGI, Artificial General Intelligence)首選方法的分歧也浮出水面。
OpenAI的最新創(chuàng)新無(wú)疑已經(jīng)證明,通過(guò)正確的架構(gòu)和歸納偏見(jiàn),你仍然可以從神經(jīng)網(wǎng)絡(luò)中擠出更多的知識(shí)。
純深度學(xué)習(xí)方法的支持者抓住這個(gè)機(jī)會(huì),以對(duì)其批評(píng)者投向了輕視的目光,包括認(rèn)知科學(xué)家Gary Marcus最近發(fā)表的一篇題為 Deep Learning is Hitting a Wall的文章。Marcus支持一種將神經(jīng)網(wǎng)絡(luò)與符號(hào)系統(tǒng)結(jié)合起來(lái)的混合方法。
圖片
根據(jù)OpenAI團(tuán)隊(duì)分享的示例,DALL-E 2似乎展示了深度學(xué)習(xí)系統(tǒng)中長(zhǎng)期以來(lái)一直缺失的某種常識(shí)能力。但這一常識(shí)和語(yǔ)義穩(wěn)定性的深度,以及DALL-E 2及其后繼版本將如何處理更復(fù)雜的概念,如組合性,仍有待觀察。
DALL-E 2論文提到了該模型在生成文本和復(fù)雜場(chǎng)景方面的一些局限性。在回應(yīng)推文時(shí),Marcus曾指出,DALL-E 2論文實(shí)際上證明了他在論文和論文中提出的一些觀點(diǎn)。
圖片
一些科學(xué)家指出,盡管DALL-E 2的結(jié)果令人著迷,但AI的一些關(guān)鍵挑戰(zhàn)仍未解決。
圣達(dá)菲研究所(the Santa Fe Institute)復(fù)雜性研究教授、《人工智能:人類思考的指南》(Artificial Intelligence: A Guide For Thinking Humans)一書(shū)的作者梅拉妮·米歇爾(Melanie Mitchell)在Twitter上列出了一些重要問(wèn)題。
其中,Mitchell提到了邦加德問(wèn)題(Bongard problems),這是一組對(duì)概念理解的測(cè)試挑戰(zhàn),如同一性、鄰接性、數(shù)量性、凹凸性和封閉性/開(kāi)放性等等。
圖片
Mitchell在推特上寫(xiě)道:“由于我們擁有基本概念的核心知識(shí),以及靈活抽象和類比的能力,人類是能夠解決這些視覺(jué)難題的?!薄叭绻麆?chuàng)建出這樣一個(gè)AI系統(tǒng),我會(huì)相信該領(lǐng)域正在朝著人類智能水平的方向取得真正的進(jìn)展。在那之前,我會(huì)由衷敬佩ML和大數(shù)據(jù)的這些令人震撼的產(chǎn)品,而不會(huì)將其再誤認(rèn)為是向通用智能的邁進(jìn)?!?/span>

DALL-E 2的商業(yè)案例


OpenAI從非營(yíng)利轉(zhuǎn)向“有限盈利”(capped profit)結(jié)構(gòu)以來(lái),一直在努力尋找科研和產(chǎn)品開(kāi)發(fā)之間的平衡點(diǎn)。該公司與微軟的戰(zhàn)略合作伙伴關(guān)系為其部分技術(shù)的變現(xiàn),包括GPT-3和Codex在內(nèi),提供了堅(jiān)實(shí)的渠道。
在一篇博客文章中,Altman建議在夏季推出DALL-E 2產(chǎn)品。許多分析師已經(jīng)在為DALL-E 2應(yīng)用提出了建議,比如為文章創(chuàng)建圖形和對(duì)圖像進(jìn)行基本編輯。DALL-E 2將使更多的人能夠表達(dá)自己的創(chuàng)造力,而無(wú)需再借助工具的特殊技能。
Altman表示,AI的進(jìn)步正把我們帶向“一個(gè)嶄新的世界,在這個(gè)世界里,我們做事的極限取決于創(chuàng)意點(diǎn),而非特定的技能。”
隨著越來(lái)越多的用戶對(duì)DALL-E進(jìn)行改進(jìn)升級(jí),相信一批有趣的應(yīng)用程序也會(huì)不斷的涌現(xiàn)出來(lái)。例如,當(dāng)用戶開(kāi)始使用GPT-3生成軟件源代碼時(shí),Copilot和Codex的想法便會(huì)應(yīng)運(yùn)而生。
如果OpenAI像GPT-3那樣發(fā)布付費(fèi)API服務(wù),那么更多地人將會(huì)選擇用DALL-E 2構(gòu)建應(yīng)用程序,或者將該技術(shù)集成到現(xiàn)有的應(yīng)用程序中。但與GPT-3的情況一樣,圍繞潛在的DALL-E 2產(chǎn)品建立商業(yè)模型將會(huì)形成獨(dú)特的挑戰(zhàn)。這在很大程度上取決于訓(xùn)練和運(yùn)行DALL-E 2的成本,具體細(xì)節(jié)尚未公布。
而且,作為GPT-3技術(shù)的獨(dú)家許可持有者,微軟將成為基于DALL-E 2構(gòu)建創(chuàng)新的主要贏家。原因在于,它可以用更高效且低成本的方式完成這項(xiàng)工作。
與GPT-3一樣,DALL-E 2也在給人們敲響了警鐘,隨著AI社區(qū)繼續(xù)傾向于在更大的訓(xùn)練數(shù)據(jù)集上創(chuàng)建更大規(guī)模的神經(jīng)網(wǎng)絡(luò),那么不可避免地,話語(yǔ)權(quán)將繼續(xù)被少數(shù)的資金雄厚的公司所掌控,畢竟這些公司擁有AI研究所需的財(cái)政和技術(shù)資源。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

液位計(jì)相關(guān)文章:磁翻板液位計(jì)原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉