圖靈獎得主楊立昆：GPT模式五年就不會有人用了，世界模型才是AGI未來（1）

發(fā)布人：AI科技大本營時(shí)間：2023-06-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文經(jīng)授權(quán)轉(zhuǎn)自公眾號騰訊科技（ID:qqtech）

2023年6月9日的北京智源大會上開幕式上，機(jī)器學(xué)習(xí)三巨頭之一楊立昆（Yann Lecun）進(jìn)行了遠(yuǎn)程致辭，發(fā)表了名為《朝向能學(xué)習(xí)，思考和計(jì)劃的機(jī)器進(jìn)發(fā)》（ Towards Machines that can Learn, Reason, and Plan）的演講。

作為一個(gè)從ChatGPT誕生之日起就對它嘲諷連連，認(rèn)為它沒有什么新意。在今天的講座中，身處凌晨4點(diǎn)巴黎的楊立昆依然斗志滿溢，在演講中拿出了他反擊GPT的邏輯：自回歸模型根本不行，因?yàn)樗鼈儧]有規(guī)劃，推理的能力。單純根據(jù)概率生成自回歸的大語言模型從本質(zhì)上根本解決不了幻覺，錯(cuò)誤的問題。在輸入文本增大的時(shí)候，錯(cuò)誤的幾率也會成指數(shù)增加。

目前流行的AutoGPT，LOT之類看起來可以拆解任務(wù)，分步解釋復(fù)雜問題的語言拓展模型讓大語言模型看起來有了規(guī)劃能力。對此楊立昆也反唇相譏，認(rèn)為那不過是它們在借助搜索和其他工具來讓自己看起來可以做到規(guī)劃和推理而已，完全不是靠自身對世界的理解。

性能驚人，但使用范圍狹窄。完全不如人類智能，而且存在著無法解決的Bug。這就是楊立昆對當(dāng)前人工智能的判斷。

那想要通向AGI，人工智能的下一步在哪里呢？

楊立昆給出的答案是世界模型。一個(gè)不光是在神經(jīng)水平上模仿人腦的模型，而是在認(rèn)知模塊上也完全貼合人腦分區(qū)的世界模型。它與大語言模型最大的差別在于可以有規(guī)劃和預(yù)測能力（世界模型），成本核算能力（成本模塊）。

通過世界模型，它可以真正的理解這個(gè)世界，并預(yù)測和規(guī)劃未來。通過成本核算模塊，結(jié)合一個(gè)簡單的需求（一定按照最節(jié)約行動成本的邏輯去規(guī)劃未來），它就可以杜絕一切潛在的毒害和不可靠性。

但這個(gè)未來如何實(shí)現(xiàn)？世界模型如何學(xué)習(xí)？楊立昆只給了一些規(guī)劃性的想法，比如還是采用自監(jiān)督模型去訓(xùn)練，比如一定要建立多層級的思維模式。他也承認(rèn)之前并沒有深度學(xué)習(xí)的訓(xùn)練做到了這些，也沒人知道怎么做。

來自清華大學(xué)的朱軍教授看著這個(gè)模型估計(jì)是有點(diǎn)發(fā)懵，這個(gè)架構(gòu)太像傳統(tǒng)人工智能的那種符號學(xué)派的理想模型了。在問答環(huán)節(jié)還問了一句有沒有考慮符號學(xué)派和深度學(xué)習(xí)結(jié)合的可能。

這個(gè)曾經(jīng)挑戰(zhàn)明斯克符號主義統(tǒng)治十幾年，在無人認(rèn)可之時(shí)仍堅(jiān)持機(jī)器學(xué)習(xí)之路的楊立昆的回答很簡單：“符號邏輯不可微，兩個(gè)系統(tǒng)不兼容”。

以下為騰訊新聞編輯整理的楊立昆報(bào)告核心發(fā)言及與朱軍教授全部QA的實(shí)錄：

機(jī)器學(xué)習(xí)的缺陷

我要說的第一件事是：與人類和動物相比，機(jī)器學(xué)習(xí)不是特別好。幾十年來，我們一直在使用監(jiān)督式學(xué)習(xí)，這需要太多的標(biāo)簽。強(qiáng)化學(xué)習(xí)效果不錯(cuò)，但需要大量的訓(xùn)練來學(xué)習(xí)任何東西。當(dāng)然，近年來，我們一直在使用大量的自我監(jiān)督學(xué)習(xí)。但結(jié)果是，這些系統(tǒng)在某個(gè)地方不太專精，而且很脆弱，它們會犯愚蠢的錯(cuò)誤，它們不會真正地推理，也不會計(jì)劃。當(dāng)然它們的反應(yīng)確實(shí)非常快。而當(dāng)我們與動物和人類進(jìn)行比較時(shí)，動物和人類可以極其迅速地做新的任務(wù)，并理解世界是如何運(yùn)作的，可以推理和計(jì)劃，他們有某種程度的常識，而機(jī)器仍然沒有。而這是在人工智能的早期就發(fā)現(xiàn)的問題。

這部分是由于目前的機(jī)器學(xué)習(xí)系統(tǒng)在輸入和輸出之間基本上有恒定數(shù)量的計(jì)算步驟。這就是為什么它們真的不能像人類和一些動物那樣推理和計(jì)劃。那么，我們?nèi)绾巫寵C(jī)器理解世界是如何運(yùn)作的，并像動物和人類那樣預(yù)測其行為的后果，可以進(jìn)行無限步數(shù)的推理鏈，或者可以通過將其分解為子任務(wù)序列來計(jì)劃復(fù)雜的任務(wù)？

這就是我想問的問題。但在說這個(gè)問題之前，我先談一下自我監(jiān)督學(xué)習(xí)，以及在過去幾年里它確實(shí)已經(jīng)占領(lǐng)了機(jī)器學(xué)習(xí)的世界。這一點(diǎn)已經(jīng)被倡導(dǎo)了相當(dāng)長的時(shí)間，有七八年了，而且真的發(fā)生了，我們今天看到的機(jī)器學(xué)習(xí)的很多結(jié)果和成功都是由于自監(jiān)督學(xué)習(xí)，特別是在自然語言處理和文本理解和生成方面。

那么，什么是自監(jiān)督學(xué)習(xí)？自監(jiān)督學(xué)習(xí)是捕獲輸入中的依賴關(guān)系的想法。因此，我們不是要把輸入映射到輸出。我們只是被提供了一個(gè)輸入。在最常見的范式中，我們蓋住一部分輸入，并將其提供給機(jī)器學(xué)習(xí)系統(tǒng)，然后我們揭示輸入的其余部分，然后訓(xùn)練系統(tǒng)來捕捉我們看到的部分和我們尚未看到的部分之間的依賴關(guān)系。有時(shí)是通過預(yù)測缺失的部分來完成，有時(shí)不完全是預(yù)測。

而這一點(diǎn)在幾分鐘內(nèi)就能解釋清楚。

這就是自我監(jiān)督學(xué)習(xí)的理念。它被稱為自我監(jiān)督，因?yàn)槲覀兓旧鲜褂帽O(jiān)督學(xué)習(xí)方法，但我們將它們應(yīng)用于輸入本身，而不是與人類提供的單獨(dú)輸出相匹配。因此，我在這里展示的例子是一個(gè)視頻預(yù)測，你向一個(gè)系統(tǒng)展示一小段視頻，然后你訓(xùn)練它來預(yù)測視頻中接下來會發(fā)生什么。但這不僅僅是預(yù)測未來。它可能是預(yù)測中間的那種數(shù)據(jù)。這種類型的方法在自然語言處理方面取得了驚人的成功，我們最近在大型語言模型中看到的所有成功都是這個(gè)想法的一個(gè)版本。

好的，所以我說，這種自我監(jiān)督的學(xué)習(xí)技術(shù)包括輸入一段文本，刪除該文本中的一些單詞，然后訓(xùn)練一個(gè)非常大的神經(jīng)網(wǎng)絡(luò)來預(yù)測缺失的那個(gè)單詞。在這樣做的過程中，神經(jīng)網(wǎng)絡(luò)學(xué)會了一個(gè)良好的內(nèi)部表征，可用于隨后的一些監(jiān)督任務(wù)，如翻譯或文本分類或類似的東西。因此它已經(jīng)取得了令人難以置信的成功。同樣成功的是生成式人工智能系統(tǒng)，用于生成圖像、視頻或文本。在文本的情況下，這些系統(tǒng)是自回歸的。們使用自我監(jiān)督學(xué)習(xí)的訓(xùn)練方式不是預(yù)測隨機(jī)缺失的單詞，而是只預(yù)測最后一個(gè)單詞。因此，你拿出一個(gè)詞的序列，遮住最后一個(gè)詞，然后訓(xùn)練系統(tǒng)預(yù)測最后一個(gè)詞。

它們不一定是詞，而是子詞單位。一旦系統(tǒng)在大量的數(shù)據(jù)上進(jìn)行了訓(xùn)練，你就可以使用所謂的自回歸預(yù)測，這包括預(yù)測下一個(gè)標(biāo)記，然后將該標(biāo)記轉(zhuǎn)移到輸入端，然后再預(yù)測下一個(gè)標(biāo)記，然后將其轉(zhuǎn)移到輸入，然后重復(fù)這個(gè)過程。因此，這就是自回歸LLMs，這就是我們在過去幾個(gè)月或幾年中看到的流行模型所做的。其中一些來自我在Meta的同事，在FAIR、BlenderBot、Galactica和Lama，這是開源的。斯坦福大學(xué)的Alpaca，是在Lama基礎(chǔ)上的改進(jìn)。Lambda，谷歌的Bard，DeepMind的Chinchilla，當(dāng)然還有OpenAI的Chet、JVT和JVT4。如果你在類似一萬億文本或兩萬億文本上訓(xùn)練它們，這些系統(tǒng)的性能是驚人的。

但最終，他們會犯非常愚蠢的錯(cuò)誤。他們會犯事實(shí)錯(cuò)誤、邏輯錯(cuò)誤、不一致的問題。他們的推理能力有限，會使用毒化的內(nèi)容，他們對潛在的現(xiàn)實(shí)沒有知識，因?yàn)樗麄兗兇馐窃谖谋旧嫌?xùn)練的，這意味著人類知識的很大一部分是他們完全無法接觸到的。而且他們無法真正規(guī)劃他們的答案。關(guān)于這一點(diǎn)有很多研究。然而，這些系統(tǒng)對于寫作輔助工具以及生成代碼，幫助程序員編寫代碼，效果都驚人的好。

所以你可以要求他們用各種語言寫代碼，而且效果很好。它會給你一個(gè)很不錯(cuò)的起點(diǎn)。你可以要求他們生成文本，他們同樣可以闡釋或說明故事，但這使得該系統(tǒng)作為信息檢索系統(tǒng)或作為搜索引擎或如果你只是想要事實(shí)性的信息，并不是那么好。因此，它們對于寫作幫助、初稿的生成、統(tǒng)計(jì)數(shù)字方面是很有幫助的，特別是如果你不是你所寫語言的母語者。考慮到最近發(fā)生的事兒，他們不適合制作事實(shí)性和一致性的答案，因此他們必須為此進(jìn)行再訓(xùn)練。而他們在訓(xùn)練集中可能會有相關(guān)的內(nèi)容，這就保證了他們會有正確的行為。

然后還有一些問題，如推理、計(jì)劃、做算術(shù)和諸如此類的事情（他們都不擅長），為此他們會使用一些工具，如搜索引擎計(jì)算器數(shù)據(jù)庫查詢。因此，這是目前一個(gè)非常熱門的研究課題，即如何從本質(zhì)上讓這些系統(tǒng)調(diào)用工具（來完成他們不擅長的事情），這就是所謂的擴(kuò)展語言模型。而我和我在FAIR的一些同事共同撰寫了一篇關(guān)于這個(gè)話題的評論文章，關(guān)于正在提出的各種擴(kuò)展語言模型的技術(shù)：我們很容易被它們的流暢性所迷惑，以為它們很聰明，但它們其實(shí)并不那么聰明。他們在檢索記憶方面非常出色，大約是這樣。但同樣，他們對世界如何運(yùn)作沒有任何了解。自回歸模型還有一種重大缺陷。如果我們想象所有可能的答案的集合：所以輸入詞組的序列，是一棵樹，在這里用一個(gè)圓圈表示。但它實(shí)際上是一棵包含所有可能的輸入序列的樹。在這棵巨大的樹中，有一個(gè)小的子樹，對應(yīng)著對所給提示的正確答案。如果我們設(shè)想有一個(gè)平均概率e，即任何產(chǎn)生的標(biāo)記都會把我們帶到正確答案的集合之外，而產(chǎn)生的錯(cuò)誤是獨(dú)立的。那么xn的答案正確的概率是1-e的n次方。

這意味著有一個(gè)指數(shù)級發(fā)散的過程會把我們帶出正確答案的序列樹。而這是由于自回歸預(yù)測過程造成的。除了讓e盡可能的小之外，沒有辦法解決這個(gè)問題。因此，我們必須重新設(shè)計(jì)系統(tǒng)，使其不會這樣做。而事實(shí)上，其他人已經(jīng)指出了其中一些系統(tǒng)的局限性。因此，我與我的同事吉格多-布朗寧共同寫了一篇論文，這實(shí)際上是一篇哲學(xué)論文，他是一位哲學(xué)家，這篇論文是關(guān)于只使用語言訓(xùn)練人工智能系統(tǒng)的局限性。

事實(shí)上，這些系統(tǒng)沒有物理世界的經(jīng)驗(yàn)，這使得它們（的能力）非常有限。有一些論文，或者是由認(rèn)知科學(xué)家撰寫的，比如左邊這個(gè)來自麻省理工學(xué)院小組的論文，基本上說與我們在人類和動物身上觀察到的相比，系統(tǒng)擁有的智能是非常有限的。還有一些來自傳統(tǒng)人工智能的研究者的論文，他們沒有什么機(jī)器學(xué)習(xí)的背景。他們試圖分析這些機(jī)器學(xué)習(xí)系統(tǒng)的規(guī)劃能力，并基本上得出結(jié)論，這些系統(tǒng)不能真正規(guī)劃和推理，至少不是以人們在傳統(tǒng)人工智能所理解的那種方式搜索和規(guī)劃。那么，人類和動物是如何能夠如此迅速地學(xué)習(xí)的呢？我們看到的是，嬰兒在出生后的頭幾個(gè)月里學(xué)習(xí)了大量的關(guān)于世界如何運(yùn)作的背景知識。他們學(xué)習(xí)非?；镜母拍?，如物體的永久性，世界是三維的這一事實(shí)，有生命和無生命物體之間的區(qū)別，穩(wěn)定性的概念，自然類別的學(xué)習(xí)。以及學(xué)習(xí)非?；镜臇|西，如重力，當(dāng)一個(gè)物體沒有得到支撐，它就會掉下來。根據(jù)我的同事埃馬紐埃爾-杜普繪制的圖表，嬰兒大約在九個(gè)月大的時(shí)候就學(xué)會了這個(gè)。

因此，如果你給一個(gè)五個(gè)月大的嬰兒看，這里左下方的場景，一輛小車在平臺上，你把小車從平臺上推下來，它似乎漂浮在空中，五個(gè)月大的嬰兒不會感到驚訝。但是10個(gè)月大的嬰兒會非常驚訝，像底部的小女孩一樣看著這一幕，因?yàn)樵诖似陂g，他們已經(jīng)知道物體不應(yīng)該停留在空中。他們應(yīng)該在重力作用下墜落。因此，這些基本概念是在生命的頭幾個(gè)月學(xué)到的，我認(rèn)為我們應(yīng)該用機(jī)器來復(fù)制這種能力，通過觀察世界的發(fā)展或體驗(yàn)世界來學(xué)習(xí)世界如何運(yùn)作。那么，為什么任何青少年都可以在20個(gè)小時(shí)的練習(xí)中學(xué)會開車，而我們?nèi)匀恢辽僭跊]有大量的工程和地圖以及激光雷達(dá)和各種傳感器的情況下，不會有完全可靠的5級自動駕駛。所以很明顯，自回歸系統(tǒng)缺少一些很重要的東西。為什么我們有流暢的系統(tǒng)，可以通過法律考試或醫(yī)學(xué)考試，但我們卻沒有可以清理餐桌和裝滿洗碗機(jī)的家用機(jī)器人，對嗎？這是任何10歲的孩子都可以在幾分鐘內(nèi)學(xué)會的事情，而我們?nèi)匀粵]有機(jī)器可以近似的做這些事。因此，我們顯然缺少一些極其重要的東西。在我們目前擁有的人工智能系統(tǒng)中，我們遠(yuǎn)遠(yuǎn)沒有達(dá)到人類水平的智能。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

圖靈獎得主楊立昆：GPT模式五年就不會有人用了，世界模型才是AGI未來（1）

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

圖靈獎得主楊立昆：GPT模式五年就不會有人用了，世界模型才是AGI未來（1）

相關(guān)推薦

技術(shù)專區(qū)

圖靈獎得主楊立昆：GPT模式五年就不會有人用了，世界模型才是AGI未來（1）