走向CV的通用人工智能:從GPT和大型語(yǔ)言模型中汲取的經(jīng)驗(yàn)教訓(xùn) (上)
01
總 述
最近,由大型語(yǔ)言模型(LLM)提供支持的聊天系統(tǒng)出現(xiàn)了,并迅速成為在自然語(yǔ)言處理(NLP)中實(shí)現(xiàn)AGI的一個(gè)有前途的方向,但在計(jì)算機(jī)視覺(jué)(CV)中實(shí)現(xiàn)AGI的道路仍不清楚。人們可能會(huì)將這種困境歸因于視覺(jué)信號(hào)比語(yǔ)言信號(hào)更復(fù)雜,但我們有興趣找到具體的原因,并從GPT和LLM中吸取經(jīng)驗(yàn)來(lái)解決這個(gè)問(wèn)題。
在今天分享中,從AGI的概念定義開(kāi)始,簡(jiǎn)要回顧了NLP如何通過(guò)聊天系統(tǒng)解決廣泛的任務(wù)。該分析啟發(fā)我們,統(tǒng)一是CV的下一個(gè)重要目標(biāo)。但是,盡管在這個(gè)方向上做出了各種努力,CV仍然遠(yuǎn)遠(yuǎn)不是一個(gè)像GPT這樣自然集成所有任務(wù)的系統(tǒng)。我們指出,CV的本質(zhì)弱點(diǎn)在于缺乏從環(huán)境中學(xué)習(xí)的范式,而NLP已經(jīng)完成了文本世界中的任務(wù)。然后,我們想象一個(gè)管道,將CV算法放在世界范圍的可交互環(huán)境中,對(duì)其進(jìn)行預(yù)訓(xùn)練,以預(yù)測(cè)其動(dòng)作的未來(lái)幀,然后用指令對(duì)其進(jìn)行微調(diào),以完成各種任務(wù)。我們希望通過(guò)大量的研究和工程努力來(lái)推動(dòng)這一想法并擴(kuò)大其規(guī)模,為此我們分享了我們對(duì)未來(lái)研究方向的看法。
02
背景
世界正在見(jiàn)證一場(chǎng)邁向通用人工智能(AGI)的史詩(shī)之旅,我們按照慣例將AGI定義為一種可以復(fù)制人類(lèi)或其他動(dòng)物所能完成的任何智力任務(wù)的計(jì)算機(jī)算法。具體來(lái)說(shuō),在自然語(yǔ)言處理(NLP)中,計(jì)算機(jī)算法已經(jīng)發(fā)展到可以通過(guò)與人類(lèi)聊天解決廣泛任務(wù)的程度。一些研究人員認(rèn)為,這些系統(tǒng)可以被視為AGI的早期火花。這些系統(tǒng)大多建立在大型語(yǔ)言模型(LLM)之上,并通過(guò)指令調(diào)優(yōu)進(jìn)行了增強(qiáng)。它們配備了外部知識(shí)庫(kù)和專(zhuān)門(mén)設(shè)計(jì)的模塊,可以完成解決數(shù)學(xué)問(wèn)題、生成可視化內(nèi)容等復(fù)雜任務(wù),體現(xiàn)了其理解用戶(hù)意圖和執(zhí)行初步思想鏈的強(qiáng)大能力。盡管在某些方面存在已知的弱點(diǎn)(例如,講述科學(xué)事實(shí)和被點(diǎn)名的人之間的關(guān)系),但這些開(kāi)創(chuàng)性的研究已經(jīng)顯示出一種明顯的趨勢(shì),即將NLP中的大多數(shù)任務(wù)統(tǒng)一為一個(gè)系統(tǒng),這反映了對(duì)AGI的追求。
與NLP中統(tǒng)一的快速進(jìn)展相比,計(jì)算機(jī)視覺(jué)社區(qū)還遠(yuǎn)遠(yuǎn)不是統(tǒng)一所有任務(wù)的目標(biāo)。常規(guī)的CV任務(wù),如視覺(jué)識(shí)別、跟蹤、生成等,大多使用不同的網(wǎng)絡(luò)架構(gòu)/或?qū)iT(mén)設(shè)計(jì)的通道進(jìn)行處理。研究人員期待著像GPT這樣的系統(tǒng),它可以通過(guò)統(tǒng)一的提示機(jī)制處理廣泛的CV任務(wù),但在實(shí)現(xiàn)單個(gè)任務(wù)的良好實(shí)踐和在廣泛的任務(wù)中推廣之間存在權(quán)衡。例如,為了報(bào)告目標(biāo)檢測(cè)和語(yǔ)義分割中的高識(shí)別精度,最好的策略是在用于圖像分類(lèi)的強(qiáng)大主干上設(shè)計(jì)特定的頭部模塊,并且這種設(shè)計(jì)通常不會(huì)轉(zhuǎn)移到其他問(wèn)題。
因此,出現(xiàn)了兩個(gè)問(wèn)題:(1)為什么CV的統(tǒng)一如此困難?(2) 為了實(shí)現(xiàn)這一目標(biāo),可以從GPT和LLM中學(xué)到什么?
為了回答這些問(wèn)題,重新審視GPT,并將其理解為在文本世界中建立一個(gè)環(huán)境,并允許算法從交互中學(xué)習(xí)。CV研究缺乏這樣的環(huán)境。因此,算法無(wú)法模擬世界,因此它們對(duì)世界進(jìn)行采樣,并學(xué)會(huì)在所謂的代理任務(wù)中獲得良好的性能。在經(jīng)歷了史詩(shī)般的十年深度學(xué)習(xí)之后,代理任務(wù)不再有意義地表明CV算法的能力;越來(lái)越明顯的是,繼續(xù)追求對(duì)它們的高精度可以使我們遠(yuǎn)離AGI。
03
通用人工智能
人工智能是一場(chǎng)用機(jī)器或一套數(shù)學(xué)算法復(fù)制人類(lèi)智能的持久戰(zhàn)?,F(xiàn)代人工智能于1956年在Dartmouth研討會(huì)上正式提出,社區(qū)為此開(kāi)發(fā)了大量方法。實(shí)現(xiàn)人工智能至少有兩種不同的途徑:(i)符號(hào)人工智能,它試圖將世界形成一個(gè)符號(hào)系統(tǒng),并使用邏輯算法對(duì)其進(jìn)行推理;(ii)統(tǒng)計(jì)人工智能,它試圖建立一個(gè)數(shù)學(xué)函數(shù)來(lái)表述輸入和輸出之間的關(guān)系,但該函數(shù)可能是近似的,甚至是無(wú)法解釋的。在過(guò)去的十年里,第二條道路占據(jù)了主導(dǎo)地位,特別是深度學(xué)習(xí)理論,這是連接主義方法思想的一部分。
簡(jiǎn)而言之,AGI就是學(xué)習(xí)一個(gè)廣義函數(shù)a=π(s)。盡管形式很簡(jiǎn)單,但老式的人工智能算法很難使用相同的方法、算法甚至模型來(lái)處理所有這些問(wèn)題。在過(guò)去的十年里,深度學(xué)習(xí)提供了一種有效而統(tǒng)一的方法:人們可以訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來(lái)近似函數(shù)a=π(s),而不知道它們之間的實(shí)際關(guān)系。強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu)(如transformer)的出現(xiàn)甚至使研究人員能夠?yàn)椴煌臄?shù)據(jù)模式訓(xùn)練一個(gè)模型。
實(shí)現(xiàn)AGI存在巨大困難,包括但不限于以下問(wèn)題。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。