Gary Marcus又來「整頓」AI圈：LeCun不可信，Nature審稿人沒用腦子

發(fā)布人：機器之心時間：2022-10-17 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

Gary Marcus 和 Yann LeCun 等人的一系列辯論能否讓「AI 的未來何去何從」這一命題越辯越明？

這個周末剛過，我們再次看到了 Gary Marcus 對 AI 圈的最新「整頓」成果。

「四天內(nèi)關(guān)于人工智能和機器學習的三個令人費解的說法、頂級期刊的統(tǒng)計錯誤，以及 Yann LeCun 的一些說法，你都不應該相信?！?/span>

以下是 Gary Marcus 的原文內(nèi)容：

一些事情即將發(fā)生。當《紐約時報》說一場革命即將到來，但事實上并沒有發(fā)生時，我從不感到驚訝。這種情況已經(jīng)持續(xù)了很長一段時間（實際上是幾十年）。

比如，想想 2011 年時 John Markoff 是如何展望 IBM Watson 的。

「對 I.B.M. 來說，這場較量不僅是一場廣為人知的宣傳和 100 萬美元的獎勵，還證明了該公司已經(jīng)朝著一個智能機器能夠理解并對人類做出反應，甚至可能不可避免地取代人類的世界邁出了一大步。」

但 11 年之后的今天，John Markoff 所描述的愿景并沒有發(fā)生。人們?nèi)匀蝗狈θ斯ぶ悄艿睦斫?，真正?AI 取代的工作也是極少數(shù)。我所知道的每一輛卡車仍然在由人類駕駛（除了一些在受限場景下進行測試的卡車），目前還沒有放射科醫(yī)生被取代。Watson 本身近期也在被拆分出售。

《紐約時報》在 1958 年首次表示，神經(jīng)網(wǎng)絡即將解決人工智能問題。當然，預測 AI 并不是《紐約時報》的強項。

但在過去的幾天里，我看到一大堆嚴肅的研究人員也在提出類似的過度興奮的主張，他們本應該更了解這個領(lǐng)域的情況。

第一個例子來自斯坦福大學經(jīng)濟學家 Erik Brynjolfsson，是三個例子中最不令人反感的一個，但仍有些過頭。

我看過很多種不同類型的狹義智能，一些智能在它們特定的領(lǐng)域能超越人類。人類智能（可能）比目前所有其他智能都更加廣泛，但仍然只是智能空間中一個非常狹窄的部分。

Brynjolfsson 認為，人類智能是所有可能的智能空間中非常狹窄的一部分（這是喬姆斯基在我出生前就針對人類語言提出的觀點），這個看法完全正確。毫無疑問，比我們更聰明的智能是有可能存在的，而且還可能實現(xiàn)。

但是，且慢——他帖子里的「probably」是怎么回事呢？他甚至把它放到了括號里。

任何一個正常的 5 歲孩子都可以用他們幾年前或多或少從零學到的母語進行對話、爬上一個不熟悉的攀爬架、看懂一部新卡通的情節(jié)或口頭掌握一個新卡片游戲的規(guī)則，而不需要進行成千上萬次的嘗試。人類孩童在不斷地學習新事物，而且通常是從少量的數(shù)據(jù)中學習。在人工智能的世界里，沒有任何東西可以與之相比。

他在帖子里加一個「probably」，就好像我們認為，在人工智能的世界里，人類通用智能存在一個有潛力的競爭對手。事實上并沒有。這就好像我說「塞雷娜 · 威廉姆斯可能（could probably）會打敗我」一樣。

與此同時，Yann LeCun 發(fā)布了一系列令人費解的推文，聲稱他發(fā)明的 ConvNet（或其他什么東西）可以解決幾乎所有問題，這不是真的，而且從表面上看與他自己幾周前告訴 ZDNet 的相矛盾。但是等等，還有更糟的。LeCun 繼續(xù)寫了下面的話，這真的讓我摸不著頭腦：

無論你是想增強人力還是取代人力，在 AI 領(lǐng)域取得進展所要解決的問題都是「完全」相同的。

我不同意他的看法。增強人的能力要簡單得多，因為你不需要把整個問題都解決掉。計算器可以增強會計的能力，但它不知道哪些錢是可扣除的，也不知道稅法中哪里可能存在漏洞。我們知道如何建造能做數(shù)學運算的機器（增強），但不知道如何制造能夠閱讀稅法代碼的機器（取代）。

我們再來看看放射學：

放射科醫(yī)師的工作不僅包括閱讀圖像（卷積網(wǎng)絡適用），而且（在某些情況下）包括推理患者的病史以及閱讀非結(jié)構(gòu)化文本，這兩個問題卷積網(wǎng)絡就不太適用了。

醫(yī)療 AI 領(lǐng)域以壓倒性多數(shù)和一致的方式支持我的論點：

說得對！我們會閱讀臨床記錄、查看 lab value、與轉(zhuǎn)診醫(yī)生交流，然后在這些附加信息的背景下查看成像結(jié)果。

經(jīng)過一番思考，我們認為 LeCun 的說法不正確。我們在醫(yī)學上建立輔助系統(tǒng)的原因是我們還無法解決診斷任務。我們只擅長非常簡單的高通量任務，而這些任務對放射科醫(yī)生來說真的很容易。

我的收件箱里全都是爭論「AI 是否可以取代放射科醫(yī)生？還是只能看掃描結(jié)果」的內(nèi)容，然而 AI 甚至還不能很好地看懂影像……

我已經(jīng)在醫(yī)學成像中用了五年的深度學習。我自己的公開預測是：有朝一日，人工智能將完全取代放射科醫(yī)生。但是在此之前，我們將先實現(xiàn)移民火星的夢想。

人工智能可以解決放射學某些方面的問題，但這并不意味著它可以解決所有方面的任何問題。

正如 Una Health 聯(lián)合創(chuàng)始人兼首席醫(yī)療官 Matthew Fenech 所說：「主張在一段不長的時間里取代放射科醫(yī)生是從根本上誤解了他們的角色。」

但這些只是即興的推文。也許我們可以原諒他們倉促的表達。但更令我驚訝的是，《自然》雜志的一篇關(guān)于語言神經(jīng)科學的文章中出現(xiàn)了大量有利于深度學習的統(tǒng)計錯誤。

這篇文章（《Deep language algorithms predict semantic comprehension from brain activity（深度語言算法通過大腦活動預測語義理解）》）由一些 MetaAI 的研究人員撰寫：

表面上看，這個結(jié)果對于深度學習愛好者來說是個好消息，揭示了深度學習和人腦之間的相關(guān)性。該研究的主要作者在推特上的同一系列帖子中聲稱，GPT-2 的「內(nèi)部工作」與人類大腦之間存在「直接聯(lián)系」：

但細節(jié)很重要；我們看到的只是一種相關(guān)性，觀察到的相關(guān)性是良好的，但不是決定性的，R = 0.50。

這足夠發(fā)表文章了，但也意味著還有很多未知的地方。當兩個變量像這般相關(guān)時，并不意味著 A 導致 B（反之亦然）。這甚至不意味著他們步調(diào)一致。它類似于身高和體重之間的相關(guān)性的大?。喝绻抑恢滥愕纳砀撸鴮δ阋粺o所知，我可以對你的體重做出一個稍微有根據(jù)的猜測——可能很接近，但也可能相去甚遠，這些都是無法保證的。

這篇論文本身解決了這個問題，但是當它這樣做時，它犯了一個大錯，再次將太多結(jié)果歸因于深度學習。他們是這樣說的：（了解自己統(tǒng)計數(shù)據(jù)的人可能會立即發(fā)現(xiàn)錯誤）。

正如 Stats 101 告訴我們的，所解釋的變化量不是 R，而是 R 的平方。因此，如果你有 R = 0.5 的相關(guān)性，實際上「解釋」的（實際上只是「預測」）只有 25 % 的方差——這意味著四分之三（而不是一半）的可變性仍未得到解釋。這是一個巨大的差異。（在一則私信中，我向作者 King 指出了錯誤，他和我意見一致，并承諾他會聯(lián)系期刊進行更正。）

預測僅 25% 的方差意味著允許進行「推測」，但這肯定不意味著你已經(jīng)確定了答案。最后，我們真正擁有的證據(jù)只是表明，對 GPT 很重要的東西對大腦也很重要（例如頻率和復雜性）。但我們還不能說，兩個弱相關(guān)的東西實際上在以相同的方式運作。

現(xiàn)在事情就是這樣。但《自然》雜志的同行評審并沒有注意到這個點，這讓我感到震驚。它告訴我的是人們喜歡這個故事，卻并沒有仔細閱讀。（仔細閱讀是同行評審員的首要工作。）

當審稿人喜歡這個故事但沒有批判性地閱讀時，這表明他們是用心投****，而不是用大腦投****。

原文鏈接：https://garymarcus.substack.com/p/too-much-benefit-of-the-doubt?utm_source=twitter&sd=pf

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

Gary Marcus又來「整頓」AI圈：LeCun不可信，Nature審稿人沒用腦子

相關(guān)推薦

技術(shù)專區(qū)