博客專欄

EEPW首頁 > 博客 > 圖靈獎得主楊立昆:GPT模式五年就不會有人用了,世界模型才是AGI未來(2)

圖靈獎得主楊立昆:GPT模式五年就不會有人用了,世界模型才是AGI未來(2)

發(fā)布人:AI科技大本營 時間:2023-06-20 來源:工程師 發(fā)布文章

機器學(xué)習(xí)的未來挑戰(zhàn)


那么,我們要如何做到這一點呢?事實上,我已經(jīng)有點確定了未來幾年人工智能的三大挑戰(zhàn):

學(xué)習(xí)世界表征及預(yù)測的模型。最好是使用自我監(jiān)督學(xué)習(xí)。

學(xué)習(xí)推理:這與心理學(xué)的想法相對應(yīng),例如丹尼爾-卡漢曼的想法,即系統(tǒng)2與系統(tǒng)1。因此,系統(tǒng)1是對應(yīng)于潛意識計算的人類行動或行為,是你不假思索做的事情。然后系統(tǒng)2是你有意識地做的事情,你使用你的全部思維能力。而自回歸模型基本上只做系統(tǒng)1,根本就不太聰明。

最后一件事是通過將復(fù)雜的任務(wù)分解成簡單的任務(wù),分層地推進和規(guī)劃復(fù)雜的行動序列。

圖片

然后,大約一年前,我寫了一篇愿景論文,我把它放在公開評論中,請你們看看。這基本上是我對我認為人工智能研究在未來10年應(yīng)該走向的建議。它是圍繞著這樣一個想法,我們可以把各種模塊組織到所謂的認知架構(gòu)中,在這個系統(tǒng)中的核心是世界模型。

世界模型:通往AGI之路

世界模型是系統(tǒng)可以用來基本上想象一個場景的東西,想象將會發(fā)生什么,也許是其行為的后果。因此,整個系統(tǒng)的目的是根據(jù)它自己的預(yù)測,使用它的文字模型,找出一連串的行動,以最小化一系列的成本。成本你可以認為是衡量這個代理人的不適程度的標(biāo)準(zhǔn)。順便說一下,這些模塊中的許多在大腦中都有相應(yīng)的子系統(tǒng)。成本模塊是我們(大腦里)的世界模型——前額葉皮層,短期記憶對應(yīng)著海馬體;行為者可能是前運動區(qū);感知系統(tǒng)是大腦的后部,所有傳感器的感知分析都在這里進行。

圖片這個系統(tǒng)的運作方式是通過它可能被儲存在記憶中的以前對世界的想法,去處理當(dāng)前世界的狀態(tài)。然后你用世界模型來預(yù)測如果世界接著運轉(zhuǎn)繼會發(fā)生什么,或者它作為代理將采取的行動的后果是什么。這是在這個黃色的行動模塊里面。行動模塊提出一連串的行動。世界模型模擬世界并計算出這些行動的后果會發(fā)生什么。然后計算出一個成本。然后將要發(fā)生的是,系統(tǒng)將優(yōu)化行動序列,以便使世界模型最小化。

所以我應(yīng)該說的是,每當(dāng)你看到一個箭頭朝向一個方向時,你也有梯度在向后移動。所以我假設(shè)所有這些模塊都是可分的,我們可以通過反向傳播梯度來推斷行動序列,從而使成本最小化。這不是關(guān)于參數(shù)的最小化——這將是關(guān)于行動的最小化。這是對潛在變量的最小化。而這是在推理時進行的。

因此,有兩種真正的方式來使用該系統(tǒng)。它類似于系統(tǒng)1,我在這里稱之為模式1,基本上它是反應(yīng)性的。系統(tǒng)觀察世界的狀態(tài),通過感知編碼器來運行它,生成一個世界狀態(tài)的概念,然后直接通過策略網(wǎng)絡(luò)來運行它,而行為者只是直接產(chǎn)生一個行動。

模式2是你觀察世界并提取世界狀態(tài)的表征為0。然后,系統(tǒng)想象出從a[0]到一個很長T(時間)的一系列行動。這些預(yù)測的狀態(tài)被送入一個成本函數(shù),而系統(tǒng)的整個目的基本上是找出行動的序列,根據(jù)預(yù)測使成本最小。因此,這里的世界模型在每個時間步驟中重復(fù)應(yīng)用,本質(zhì)上是從時間T的世界表征中預(yù)測出時間T+1的世界狀態(tài),并想象出一個擬議的行動。這個想法非常類似于優(yōu)化控制領(lǐng)域的人們所說的模型預(yù)測優(yōu)化。在深度學(xué)習(xí)的背景下,有許多使用這個想法來規(guī)劃軌跡工作的模型被提出來過。

圖片這里的問題是我們到底如何學(xué)習(xí)這個世界模型?如果你跳過這個問題,我們期望做的是一些更復(fù)雜的版本,我們有一個分層系統(tǒng),通過一連串的編碼器,提取世界狀態(tài)的更多和更抽象的表示,并使用不同層次預(yù)測器的世界模型,在不同的擾動水平預(yù)測世界的狀態(tài),并在不同的時間尺度上進行預(yù)測。在這里的較高層次是指舉例來說,如果我想從紐約去北京,我需要做的第一件事就是去機場,然后搭飛機去北京。因此,這將是計劃的一種高層次的表示。最終的成本函數(shù)可以代表我與北京的距離,比如說。然后,第一個行動將是:去機場,我的狀態(tài)將是,我在機場嗎?然后第二個行動將是,搭飛機去北京。我怎么去機場呢?從,比方說,我在紐約的辦公室。我需要做的第一件事是,到街上去攔一輛出租車,并告訴他去機場。我如何走到街上去?我需要從椅子上站起來,我去出口處,打開門,走到街上,等等。然后你可以這樣想象,把這個任務(wù)一直分解到毫秒級,按毫秒級控制,你需要做的就是完成這個規(guī)模。

因此,所有復(fù)雜的任務(wù)都是以這種方式分層完成的,這是一個大問題,我們今天不知道如何用機器學(xué)習(xí)來解決。所以,我在這里展示的這個架構(gòu),還沒有人建立它。沒有人證明你可以使它發(fā)揮作用。所以我認為這是一個很大的挑戰(zhàn),分層規(guī)劃。

成本函數(shù)可以由兩組成本模塊組成,并將由系統(tǒng)調(diào)制以決定在任何時候完成什么任務(wù)。所以在成本中有兩個子模塊。有些是那種內(nèi)在的成本,是硬性規(guī)定的、不可改變的。你可以想象,那些成本函數(shù)將實施安全護欄,以確保系統(tǒng)行為正常,不危險,無毒等等。這是這些架構(gòu)的一個巨大優(yōu)勢,即你可以在推理的時候把成本進行優(yōu)化。

圖片


你可以保證那些標(biāo)準(zhǔn),那些目標(biāo)將被強制執(zhí)行,并將被系統(tǒng)的輸出所滿足。這與自回歸LLM非常不同,后者基本上沒有辦法確保其輸出是好的、無毒的和安全的。


圖片

楊立昆 X 朱軍 QA 環(huán)節(jié)


朱軍:

你好,LeCun教授。很高興再次見到你。那么我將主持問答環(huán)節(jié)。首先再次感謝你這么早起來做了這個富含思想的研討會報告,并提供了這么多見解??紤]到時間的限制,我選擇了幾個問題來問你。

正如你在演講中討論到生成型模型有很多問題,大多數(shù)我都同意你的看法,但是關(guān)于這些生成式模型的基本原則方面,我還是有一個問題要問你。生成模型就其定義來說,就是會輸出多種的選擇。另外,當(dāng)我們應(yīng)用生成模型的多樣性時,創(chuàng)造性是一個理想的屬性。所以我們經(jīng)常樂見用模型來輸出多樣化的結(jié)果。這是否意味著實際上像事實錯誤或不合邏輯的錯誤,不一致的地方,對于這樣的模型來說是不可避免的?因為在很多情況下,即使你有數(shù)據(jù),數(shù)據(jù)也可能包含了矛盾的事實。你也提到了預(yù)測的不確定性。所以這是我的第一個問題。那么你對此有什么想法?

楊立昆:

沒錯。所以我不認為自回歸預(yù)測模型、生成模型的問題是可以通過保留自回歸生成來解決的。我認為這些系統(tǒng)本質(zhì)上是不可控的。因此,我認為它們必須被我提出的那種架構(gòu)所取代,即在推理中包含時間,有一個系統(tǒng)去最優(yōu)化成本和某些標(biāo)準(zhǔn)。這是使它們可控、可引導(dǎo)、可計劃的唯一方法,即系統(tǒng)將能夠計劃出它們的答案。你知道當(dāng)你在做一個像我剛才那樣的演講時,你會計劃演講的過程,對嗎?你從一個點講到另一個點,你解釋每個點。當(dāng)你設(shè)計演講時,你在腦子里會計劃這些,而并不是(像大語言模型一樣)一個字接一個字地即興演講。也許在較低的(行為)水平上,你是即興創(chuàng)作,但在較高的(行為)水平上,你是在計劃。所以,計劃的必要性真的很明顯。而人類和許多動物有能力進行規(guī)劃的事實,我認為這是智力的一個內(nèi)在屬性。所以我的預(yù)測是,在相對較短的幾年內(nèi)--當(dāng)然是在5年內(nèi)--沒有腦子正常的人會接著用自回歸LLM。這些系統(tǒng)將很快被拋棄。因為它們是無法被修復(fù)的。

朱軍:

好的。我想另一個關(guān)于控制的問題:在你的設(shè)計和框架中,一個關(guān)鍵部分是內(nèi)在成本模塊,對嗎?所以它的設(shè)計基本上是為了決定代理人行為的性質(zhì)??戳四愕墓ぷ魑募械拈_放性觀點后,我和網(wǎng)上的一個評論有共同的擔(dān)憂。這個評論說,主要是這個模塊沒有按照規(guī)定工作。也許代理最后[屏幕凍結(jié)]了。

楊立昆:

保證系統(tǒng)安全的成本模塊不會是一個微不足道的任務(wù),但我認為這將是一個相當(dāng)明確的任務(wù)。它需要大量仔細的工程和微調(diào),其中一些成本可能要通過訓(xùn)練獲得,而非僅僅通過設(shè)計。這與強化學(xué)習(xí)中的策略評估(Actor-Crtic結(jié)構(gòu)中的Ctric,對作為語言模型的行為者產(chǎn)出的結(jié)果進行評估)或LLM背景下的所謂獎勵模型是非常相同的,是一個會整體考量系統(tǒng)的內(nèi)部狀態(tài)到成本全程的事情。你可以訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來預(yù)測成本,你可以通過讓它接觸大量的——讓它產(chǎn)生大量的輸出,然后讓某人或某物對這些輸出進行評價來訓(xùn)練它。這給了你一個成本函數(shù)的目標(biāo)。你可以對它進行訓(xùn)練,讓它計算出一個小的成本,然后在得到成本之后通過它進行反向傳播,以保證這個成本函數(shù)得到滿足。所以,我認為設(shè)計成本這事兒,我認為我們將不得不從設(shè)計架構(gòu)和設(shè)計LLM的成本轉(zhuǎn)向設(shè)計成本函數(shù)。因為這些成本函數(shù)將推動系統(tǒng)的性質(zhì)和行為。與我的一些對未來比較悲觀同事相反,我認為設(shè)計與人類的價值觀相一致的成本(函數(shù))是非??尚械摹_@不是說如果你做錯一次,就會出現(xiàn)人工智能系統(tǒng)逃脫控制和接管世界的情況。而且我們在部署這些東西之前,會有很多方法把它們設(shè)計得很好。

朱軍:

我同意這一點。那么另一個與此相關(guān)的技術(shù)問題是,我注意到你通過分層的JEPA設(shè)計來模型,這其中幾乎所有的模塊都是可微的,對嗎?也許你可以用反向傳播的方法來訓(xùn)練。但是你知道還有另外一個領(lǐng)域,比如說符號邏輯,它代表著不可微的部分,也許在內(nèi)在成本模塊中能以某種形式制定我們喜歡的約束條件,那么,你是否有一些特別的考慮來連接這兩個領(lǐng)域,或者干脆就忽略符號邏輯的領(lǐng)域?

楊立昆:

對。所以我認為是的,現(xiàn)實中是有一個神經(jīng)+符號架構(gòu)的子領(lǐng)域,試圖將可訓(xùn)練的神經(jīng)網(wǎng)絡(luò)與符號操作或類似的東西結(jié)合在一起。我對這些方法非常懷疑,因為事實上符號操作是不可微的。所以它基本上與深度學(xué)習(xí)和基于梯度的學(xué)習(xí)不兼容,當(dāng)然也與我所描述的那種基于梯度的推理不兼容。所以我認為我們應(yīng)該盡一切努力在任何地方使用可微分的模塊,包括成本函數(shù)。現(xiàn)在可能有一定數(shù)量的情況下,我們可以實現(xiàn)的成本(函數(shù))是不可微的。對于這一點,執(zhí)行推理的優(yōu)化程序可能必須使用組合型的優(yōu)化,而不是基于梯度的優(yōu)化。但我認為這應(yīng)該是最后的手段,因為零階無梯度優(yōu)化比基于梯度的優(yōu)化要少很多。因此,如果你能對你的成本函數(shù)進行可微調(diào)的近似,你應(yīng)該盡可能地使用它。在某種程度上,我們已經(jīng)這樣做了。當(dāng)我們訓(xùn)練一個分類器時,我們想要最小化的成本函數(shù)并不完全準(zhǔn)確。但這是不可微分的,所以我們使用的是一個可微分的成本代理。是系統(tǒng)輸出的成本熵與所需的輸出分布,或像e平方或鉸鏈損失的東西。這些基本上都是不可微分的二進制法則的上界,我們對它不能輕易優(yōu)化。因此還是用老辦法,我們必須使用成本函數(shù),它是我們實際想要最小化的成本的可微調(diào)近似值。

朱軍:

我的下一個問題是,我的靈感來自于我們的下一位演講者Tegmark教授,他將在你之后做一個現(xiàn)場演講。實際上我們聽說你將參加一場關(guān)于AGI的現(xiàn)狀和未來的辯論。由于我們大多數(shù)人可能無法參加,你能否分享一些關(guān)鍵點給我們一些啟發(fā)?我們想聽到一些關(guān)于這方面的見解。

楊立昆:

好的,這將是一場有四位參與者的辯論。辯論將圍繞一個問題展開,即人工智能系統(tǒng)是否會對人類造成生存風(fēng)險。因此,馬克斯和約書亞本吉奧將站在 "是的,強大的人工智能系統(tǒng)有可能對人類構(gòu)成生存風(fēng)險 "的一方。然后站在 "不"的一方的將是我和來自圣菲研究所的梅蘭妮-米切爾。而我們的論點不會是AI沒有風(fēng)險。我們的論點是,這些風(fēng)險雖然存在,但通過仔細的工程設(shè)計,很容易減輕或抑制。我對此的論點是,你知道在今天問人們,我們是否能保證超級智能系統(tǒng)對人類而言是安全,這是個無法回答的問題。因為我們沒有對超級智能系統(tǒng)的設(shè)計。因此,在你有基本的設(shè)計之前,你不能使一件東西安全。這就像你在1930年問航空工程師,你能使渦輪噴氣機安全和可靠嗎?而工程師會說,"什么是渦輪噴氣機?" 因為渦輪噴氣機在1930年還沒有被發(fā)明出來。所以我們有點處于同樣的情況。聲稱我們不能使這些系統(tǒng)安全,因為我們還沒有發(fā)明它們,這有點為時過早。一旦我們發(fā)明了它們--也許它們會與我提出的藍圖相似,那么就值得討論。"我們?nèi)绾问顾鼈儼踩?quot;,在我看來,這將是通過設(shè)計那些使推理時間最小化的目標(biāo)。這就是使系統(tǒng)安全的方法。顯然,如果你想象未來的超級智能人工智能系統(tǒng)將是自回歸的LLM,那么我們當(dāng)然應(yīng)該害怕,因為這些系統(tǒng)是不可控制的。他們可能會逃脫我們的控制,胡言亂語。但我所描述的那種類型的系統(tǒng),我認為是可以做到安全的。而且我非??隙ㄋ鼈儠?。這將需要仔細的工程設(shè)計。這并不容易,就像在過去七十年里,使渦輪噴氣機變得可靠并不容易一樣。渦輪噴氣機現(xiàn)在令人難以置信的可靠。你可以用雙引擎飛機跨越大洋,而且基本上具有這難以置信的安全性。因此,這需要謹慎的工程。而且這真的很困難。我們大多數(shù)人都不知道渦輪噴氣機是如何設(shè)計成安全的。因此,想象一下這事情這并不瘋狂。弄清楚如何使一個超級智能的人工智能系統(tǒng)安全,也是很難想象的。

朱軍:

好的。謝謝你的洞察和回答。同樣作為工程師,我也再次感謝你。非常感謝。

楊立昆:

非常感謝你。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉