圖靈獎(jiǎng)得主楊立昆：GPT模式五年就不會(huì)有人用了，世界模型才是AGI未來(lái)（2）

發(fā)布人：AI科技大本營(yíng) 時(shí)間：2023-06-20 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

機(jī)器學(xué)習(xí)的未來(lái)挑戰(zhàn)

那么，我們要如何做到這一點(diǎn)呢？事實(shí)上，我已經(jīng)有點(diǎn)確定了未來(lái)幾年人工智能的三大挑戰(zhàn)：

學(xué)習(xí)世界表征及預(yù)測(cè)的模型。最好是使用自我監(jiān)督學(xué)習(xí)。

學(xué)習(xí)推理：這與心理學(xué)的想法相對(duì)應(yīng)，例如丹尼爾-卡漢曼的想法，即系統(tǒng)2與系統(tǒng)1。因此，系統(tǒng)1是對(duì)應(yīng)于潛意識(shí)計(jì)算的人類(lèi)行動(dòng)或行為，是你不假思索做的事情。然后系統(tǒng)2是你有意識(shí)地做的事情，你使用你的全部思維能力。而自回歸模型基本上只做系統(tǒng)1，根本就不太聰明。

最后一件事是通過(guò)將復(fù)雜的任務(wù)分解成簡(jiǎn)單的任務(wù)，分層地推進(jìn)和規(guī)劃復(fù)雜的行動(dòng)序列。

然后，大約一年前，我寫(xiě)了一篇愿景論文，我把它放在公開(kāi)評(píng)論中，請(qǐng)你們看看。這基本上是我對(duì)我認(rèn)為人工智能研究在未來(lái)10年應(yīng)該走向的建議。它是圍繞著這樣一個(gè)想法，我們可以把各種模塊組織到所謂的認(rèn)知架構(gòu)中，在這個(gè)系統(tǒng)中的核心是世界模型。

世界模型：通往AGI之路

世界模型是系統(tǒng)可以用來(lái)基本上想象一個(gè)場(chǎng)景的東西，想象將會(huì)發(fā)生什么，也許是其行為的后果。因此，整個(gè)系統(tǒng)的目的是根據(jù)它自己的預(yù)測(cè)，使用它的文字模型，找出一連串的行動(dòng)，以最小化一系列的成本。成本你可以認(rèn)為是衡量這個(gè)代理人的不適程度的標(biāo)準(zhǔn)。順便說(shuō)一下，這些模塊中的許多在大腦中都有相應(yīng)的子系統(tǒng)。成本模塊是我們（大腦里）的世界模型——前額葉皮層，短期記憶對(duì)應(yīng)著海馬體；行為者可能是前運(yùn)動(dòng)區(qū)；感知系統(tǒng)是大腦的后部，所有傳感器的感知分析都在這里進(jìn)行。

這個(gè)系統(tǒng)的運(yùn)作方式是通過(guò)它可能被儲(chǔ)存在記憶中的以前對(duì)世界的想法，去處理當(dāng)前世界的狀態(tài)。然后你用世界模型來(lái)預(yù)測(cè)如果世界接著運(yùn)轉(zhuǎn)繼會(huì)發(fā)生什么，或者它作為代理將采取的行動(dòng)的后果是什么。這是在這個(gè)黃色的行動(dòng)模塊里面。行動(dòng)模塊提出一連串的行動(dòng)。世界模型模擬世界并計(jì)算出這些行動(dòng)的后果會(huì)發(fā)生什么。然后計(jì)算出一個(gè)成本。然后將要發(fā)生的是，系統(tǒng)將優(yōu)化行動(dòng)序列，以便使世界模型最小化。

所以我應(yīng)該說(shuō)的是，每當(dāng)你看到一個(gè)箭頭朝向一個(gè)方向時(shí)，你也有梯度在向后移動(dòng)。所以我假設(shè)所有這些模塊都是可分的，我們可以通過(guò)反向傳播梯度來(lái)推斷行動(dòng)序列，從而使成本最小化。這不是關(guān)于參數(shù)的最小化——這將是關(guān)于行動(dòng)的最小化。這是對(duì)潛在變量的最小化。而這是在推理時(shí)進(jìn)行的。

因此，有兩種真正的方式來(lái)使用該系統(tǒng)。它類(lèi)似于系統(tǒng)1，我在這里稱之為模式1，基本上它是反應(yīng)性的。系統(tǒng)觀察世界的狀態(tài)，通過(guò)感知編碼器來(lái)運(yùn)行它，生成一個(gè)世界狀態(tài)的概念，然后直接通過(guò)策略網(wǎng)絡(luò)來(lái)運(yùn)行它，而行為者只是直接產(chǎn)生一個(gè)行動(dòng)。

模式2是你觀察世界并提取世界狀態(tài)的表征為0。然后，系統(tǒng)想象出從a[0]到一個(gè)很長(zhǎng)T（時(shí)間）的一系列行動(dòng)。這些預(yù)測(cè)的狀態(tài)被送入一個(gè)成本函數(shù)，而系統(tǒng)的整個(gè)目的基本上是找出行動(dòng)的序列，根據(jù)預(yù)測(cè)使成本最小。因此，這里的世界模型在每個(gè)時(shí)間步驟中重復(fù)應(yīng)用，本質(zhì)上是從時(shí)間T的世界表征中預(yù)測(cè)出時(shí)間T+1的世界狀態(tài)，并想象出一個(gè)擬議的行動(dòng)。這個(gè)想法非常類(lèi)似于優(yōu)化控制領(lǐng)域的人們所說(shuō)的模型預(yù)測(cè)優(yōu)化。在深度學(xué)習(xí)的背景下，有許多使用這個(gè)想法來(lái)規(guī)劃軌跡工作的模型被提出來(lái)過(guò)。

這里的問(wèn)題是我們到底如何學(xué)習(xí)這個(gè)世界模型？如果你跳過(guò)這個(gè)問(wèn)題，我們期望做的是一些更復(fù)雜的版本，我們有一個(gè)分層系統(tǒng)，通過(guò)一連串的編碼器，提取世界狀態(tài)的更多和更抽象的表示，并使用不同層次預(yù)測(cè)器的世界模型，在不同的擾動(dòng)水平預(yù)測(cè)世界的狀態(tài)，并在不同的時(shí)間尺度上進(jìn)行預(yù)測(cè)。在這里的較高層次是指舉例來(lái)說(shuō)，如果我想從紐約去北京，我需要做的第一件事就是去機(jī)場(chǎng)，然后搭飛機(jī)去北京。因此，這將是計(jì)劃的一種高層次的表示。最終的成本函數(shù)可以代表我與北京的距離，比如說(shuō)。然后，第一個(gè)行動(dòng)將是：去機(jī)場(chǎng)，我的狀態(tài)將是，我在機(jī)場(chǎng)嗎？然后第二個(gè)行動(dòng)將是，搭飛機(jī)去北京。我怎么去機(jī)場(chǎng)呢？從，比方說(shuō)，我在紐約的辦公室。我需要做的第一件事是，到街上去攔一輛出租車(chē)，并告訴他去機(jī)場(chǎng)。我如何走到街上去？我需要從椅子上站起來(lái)，我去出口處，打開(kāi)門(mén)，走到街上，等等。然后你可以這樣想象，把這個(gè)任務(wù)一直分解到毫秒級(jí)，按毫秒級(jí)控制，你需要做的就是完成這個(gè)規(guī)模。

因此，所有復(fù)雜的任務(wù)都是以這種方式分層完成的，這是一個(gè)大問(wèn)題，我們今天不知道如何用機(jī)器學(xué)習(xí)來(lái)解決。所以，我在這里展示的這個(gè)架構(gòu)，還沒(méi)有人建立它。沒(méi)有人證明你可以使它發(fā)揮作用。所以我認(rèn)為這是一個(gè)很大的挑戰(zhàn)，分層規(guī)劃。

成本函數(shù)可以由兩組成本模塊組成，并將由系統(tǒng)調(diào)制以決定在任何時(shí)候完成什么任務(wù)。所以在成本中有兩個(gè)子模塊。有些是那種內(nèi)在的成本，是硬性規(guī)定的、不可改變的。你可以想象，那些成本函數(shù)將實(shí)施安全護(hù)欄，以確保系統(tǒng)行為正常，不危險(xiǎn)，無(wú)毒等等。這是這些架構(gòu)的一個(gè)巨大優(yōu)勢(shì)，即你可以在推理的時(shí)候把成本進(jìn)行優(yōu)化。

你可以保證那些標(biāo)準(zhǔn)，那些目標(biāo)將被強(qiáng)制執(zhí)行，并將被系統(tǒng)的輸出所滿足。這與自回歸LLM非常不同，后者基本上沒(méi)有辦法確保其輸出是好的、無(wú)毒的和安全的。

楊立昆 X 朱軍 QA 環(huán)節(jié)

朱軍：

你好，LeCun教授。很高興再次見(jiàn)到你。那么我將主持問(wèn)答環(huán)節(jié)。首先再次感謝你這么早起來(lái)做了這個(gè)富含思想的研討會(huì)報(bào)告，并提供了這么多見(jiàn)解?？紤]到時(shí)間的限制，我選擇了幾個(gè)問(wèn)題來(lái)問(wèn)你。

正如你在演講中討論到生成型模型有很多問(wèn)題，大多數(shù)我都同意你的看法，但是關(guān)于這些生成式模型的基本原則方面，我還是有一個(gè)問(wèn)題要問(wèn)你。生成模型就其定義來(lái)說(shuō)，就是會(huì)輸出多種的選擇。另外，當(dāng)我們應(yīng)用生成模型的多樣性時(shí)，創(chuàng)造性是一個(gè)理想的屬性。所以我們經(jīng)常樂(lè)見(jiàn)用模型來(lái)輸出多樣化的結(jié)果。這是否意味著實(shí)際上像事實(shí)錯(cuò)誤或不合邏輯的錯(cuò)誤，不一致的地方，對(duì)于這樣的模型來(lái)說(shuō)是不可避免的？因?yàn)樵诤芏嗲闆r下，即使你有數(shù)據(jù)，數(shù)據(jù)也可能包含了矛盾的事實(shí)。你也提到了預(yù)測(cè)的不確定性。所以這是我的第一個(gè)問(wèn)題。那么你對(duì)此有什么想法？

楊立昆：

沒(méi)錯(cuò)。所以我不認(rèn)為自回歸預(yù)測(cè)模型、生成模型的問(wèn)題是可以通過(guò)保留自回歸生成來(lái)解決的。我認(rèn)為這些系統(tǒng)本質(zhì)上是不可控的。因此，我認(rèn)為它們必須被我提出的那種架構(gòu)所取代，即在推理中包含時(shí)間，有一個(gè)系統(tǒng)去最優(yōu)化成本和某些標(biāo)準(zhǔn)。這是使它們可控、可引導(dǎo)、可計(jì)劃的唯一方法，即系統(tǒng)將能夠計(jì)劃出它們的答案。你知道當(dāng)你在做一個(gè)像我剛才那樣的演講時(shí)，你會(huì)計(jì)劃演講的過(guò)程，對(duì)嗎？你從一個(gè)點(diǎn)講到另一個(gè)點(diǎn)，你解釋每個(gè)點(diǎn)。當(dāng)你設(shè)計(jì)演講時(shí)，你在腦子里會(huì)計(jì)劃這些，而并不是（像大語(yǔ)言模型一樣）一個(gè)字接一個(gè)字地即興演講。也許在較低的（行為）水平上，你是即興創(chuàng)作，但在較高的（行為）水平上，你是在計(jì)劃。所以，計(jì)劃的必要性真的很明顯。而人類(lèi)和許多動(dòng)物有能力進(jìn)行規(guī)劃的事實(shí)，我認(rèn)為這是智力的一個(gè)內(nèi)在屬性。所以我的預(yù)測(cè)是，在相對(duì)較短的幾年內(nèi)--當(dāng)然是在5年內(nèi)--沒(méi)有腦子正常的人會(huì)接著用自回歸LLM。這些系統(tǒng)將很快被拋棄。因?yàn)樗鼈兪菬o(wú)法被修復(fù)的。

朱軍：

好的。我想另一個(gè)關(guān)于控制的問(wèn)題：在你的設(shè)計(jì)和框架中，一個(gè)關(guān)鍵部分是內(nèi)在成本模塊，對(duì)嗎？所以它的設(shè)計(jì)基本上是為了決定代理人行為的性質(zhì)?？戳四愕墓ぷ魑募械拈_(kāi)放性觀點(diǎn)后，我和網(wǎng)上的一個(gè)評(píng)論有共同的擔(dān)憂。這個(gè)評(píng)論說(shuō)，主要是這個(gè)模塊沒(méi)有按照規(guī)定工作。也許代理最后[屏幕凍結(jié)]了。

楊立昆：

保證系統(tǒng)安全的成本模塊不會(huì)是一個(gè)微不足道的任務(wù)，但我認(rèn)為這將是一個(gè)相當(dāng)明確的任務(wù)。它需要大量仔細(xì)的工程和微調(diào)，其中一些成本可能要通過(guò)訓(xùn)練獲得，而非僅僅通過(guò)設(shè)計(jì)。這與強(qiáng)化學(xué)習(xí)中的策略評(píng)估（Actor-Crtic結(jié)構(gòu)中的Ctric，對(duì)作為語(yǔ)言模型的行為者產(chǎn)出的結(jié)果進(jìn)行評(píng)估）或LLM背景下的所謂獎(jiǎng)勵(lì)模型是非常相同的，是一個(gè)會(huì)整體考量系統(tǒng)的內(nèi)部狀態(tài)到成本全程的事情。你可以訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)成本，你可以通過(guò)讓它接觸大量的——讓它產(chǎn)生大量的輸出，然后讓某人或某物對(duì)這些輸出進(jìn)行評(píng)價(jià)來(lái)訓(xùn)練它。這給了你一個(gè)成本函數(shù)的目標(biāo)。你可以對(duì)它進(jìn)行訓(xùn)練，讓它計(jì)算出一個(gè)小的成本，然后在得到成本之后通過(guò)它進(jìn)行反向傳播，以保證這個(gè)成本函數(shù)得到滿足。所以，我認(rèn)為設(shè)計(jì)成本這事兒，我認(rèn)為我們將不得不從設(shè)計(jì)架構(gòu)和設(shè)計(jì)LLM的成本轉(zhuǎn)向設(shè)計(jì)成本函數(shù)。因?yàn)檫@些成本函數(shù)將推動(dòng)系統(tǒng)的性質(zhì)和行為。與我的一些對(duì)未來(lái)比較悲觀同事相反，我認(rèn)為設(shè)計(jì)與人類(lèi)的價(jià)值觀相一致的成本（函數(shù)）是非?？尚械?。這不是說(shuō)如果你做錯(cuò)一次，就會(huì)出現(xiàn)人工智能系統(tǒng)逃脫控制和接管世界的情況。而且我們?cè)诓渴疬@些東西之前，會(huì)有很多方法把它們?cè)O(shè)計(jì)得很好。

朱軍：

我同意這一點(diǎn)。那么另一個(gè)與此相關(guān)的技術(shù)問(wèn)題是，我注意到你通過(guò)分層的JEPA設(shè)計(jì)來(lái)模型，這其中幾乎所有的模塊都是可微的，對(duì)嗎？也許你可以用反向傳播的方法來(lái)訓(xùn)練。但是你知道還有另外一個(gè)領(lǐng)域，比如說(shuō)符號(hào)邏輯，它代表著不可微的部分，也許在內(nèi)在成本模塊中能以某種形式制定我們喜歡的約束條件，那么，你是否有一些特別的考慮來(lái)連接這兩個(gè)領(lǐng)域，或者干脆就忽略符號(hào)邏輯的領(lǐng)域？

楊立昆：

對(duì)。所以我認(rèn)為是的，現(xiàn)實(shí)中是有一個(gè)神經(jīng)+符號(hào)架構(gòu)的子領(lǐng)域，試圖將可訓(xùn)練的神經(jīng)網(wǎng)絡(luò)與符號(hào)操作或類(lèi)似的東西結(jié)合在一起。我對(duì)這些方法非常懷疑，因?yàn)槭聦?shí)上符號(hào)操作是不可微的。所以它基本上與深度學(xué)習(xí)和基于梯度的學(xué)習(xí)不兼容，當(dāng)然也與我所描述的那種基于梯度的推理不兼容。所以我認(rèn)為我們應(yīng)該盡一切努力在任何地方使用可微分的模塊，包括成本函數(shù)?，F(xiàn)在可能有一定數(shù)量的情況下，我們可以實(shí)現(xiàn)的成本（函數(shù)）是不可微的。對(duì)于這一點(diǎn)，執(zhí)行推理的優(yōu)化程序可能必須使用組合型的優(yōu)化，而不是基于梯度的優(yōu)化。但我認(rèn)為這應(yīng)該是最后的手段，因?yàn)榱汶A無(wú)梯度優(yōu)化比基于梯度的優(yōu)化要少很多。因此，如果你能對(duì)你的成本函數(shù)進(jìn)行可微調(diào)的近似，你應(yīng)該盡可能地使用它。在某種程度上，我們已經(jīng)這樣做了。當(dāng)我們訓(xùn)練一個(gè)分類(lèi)器時(shí)，我們想要最小化的成本函數(shù)并不完全準(zhǔn)確。但這是不可微分的，所以我們使用的是一個(gè)可微分的成本代理。是系統(tǒng)輸出的成本熵與所需的輸出分布，或像e平方或鉸鏈損失的東西。這些基本上都是不可微分的二進(jìn)制法則的上界，我們對(duì)它不能輕易優(yōu)化。因此還是用老辦法，我們必須使用成本函數(shù)，它是我們實(shí)際想要最小化的成本的可微調(diào)近似值。

朱軍：

我的下一個(gè)問(wèn)題是，我的靈感來(lái)自于我們的下一位演講者Tegmark教授，他將在你之后做一個(gè)現(xiàn)場(chǎng)演講。實(shí)際上我們聽(tīng)說(shuō)你將參加一場(chǎng)關(guān)于AGI的現(xiàn)狀和未來(lái)的辯論。由于我們大多數(shù)人可能無(wú)法參加，你能否分享一些關(guān)鍵點(diǎn)給我們一些啟發(fā)？我們想聽(tīng)到一些關(guān)于這方面的見(jiàn)解。

楊立昆：

好的，這將是一場(chǎng)有四位參與者的辯論。辯論將圍繞一個(gè)問(wèn)題展開(kāi)，即人工智能系統(tǒng)是否會(huì)對(duì)人類(lèi)造成生存風(fēng)險(xiǎn)。因此，馬克斯和約書(shū)亞本吉奧將站在 "是的，強(qiáng)大的人工智能系統(tǒng)有可能對(duì)人類(lèi)構(gòu)成生存風(fēng)險(xiǎn) "的一方。然后站在 "不"的一方的將是我和來(lái)自圣菲研究所的梅蘭妮-米切爾。而我們的論點(diǎn)不會(huì)是AI沒(méi)有風(fēng)險(xiǎn)。我們的論點(diǎn)是，這些風(fēng)險(xiǎn)雖然存在，但通過(guò)仔細(xì)的工程設(shè)計(jì)，很容易減輕或抑制。我對(duì)此的論點(diǎn)是，你知道在今天問(wèn)人們，我們是否能保證超級(jí)智能系統(tǒng)對(duì)人類(lèi)而言是安全，這是個(gè)無(wú)法回答的問(wèn)題。因?yàn)槲覀儧](méi)有對(duì)超級(jí)智能系統(tǒng)的設(shè)計(jì)。因此，在你有基本的設(shè)計(jì)之前，你不能使一件東西安全。這就像你在1930年問(wèn)航空工程師，你能使渦輪噴氣機(jī)安全和可靠嗎？而工程師會(huì)說(shuō)，"什么是渦輪噴氣機(jī)？" 因?yàn)闇u輪噴氣機(jī)在1930年還沒(méi)有被發(fā)明出來(lái)。所以我們有點(diǎn)處于同樣的情況。聲稱我們不能使這些系統(tǒng)安全，因?yàn)槲覀冞€沒(méi)有發(fā)明它們，這有點(diǎn)為時(shí)過(guò)早。一旦我們發(fā)明了它們--也許它們會(huì)與我提出的藍(lán)圖相似，那么就值得討論。"我們?nèi)绾问顾鼈儼踩?quot;，在我看來(lái)，這將是通過(guò)設(shè)計(jì)那些使推理時(shí)間最小化的目標(biāo)。這就是使系統(tǒng)安全的方法。顯然，如果你想象未來(lái)的超級(jí)智能人工智能系統(tǒng)將是自回歸的LLM，那么我們當(dāng)然應(yīng)該害怕，因?yàn)檫@些系統(tǒng)是不可控制的。他們可能會(huì)逃脫我們的控制，胡言亂語(yǔ)。但我所描述的那種類(lèi)型的系統(tǒng)，我認(rèn)為是可以做到安全的。而且我非常肯定它們會(huì)。這將需要仔細(xì)的工程設(shè)計(jì)。這并不容易，就像在過(guò)去七十年里，使渦輪噴氣機(jī)變得可靠并不容易一樣。渦輪噴氣機(jī)現(xiàn)在令人難以置信的可靠。你可以用雙引擎飛機(jī)跨越大洋，而且基本上具有這難以置信的安全性。因此，這需要謹(jǐn)慎的工程。而且這真的很困難。我們大多數(shù)人都不知道渦輪噴氣機(jī)是如何設(shè)計(jì)成安全的。因此，想象一下這事情這并不瘋狂。弄清楚如何使一個(gè)超級(jí)智能的人工智能系統(tǒng)安全，也是很難想象的。

朱軍：

好的。謝謝你的洞察和回答。同樣作為工程師，我也再次感謝你。非常感謝。

楊立昆:

非常感謝你。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。