上線僅兩天，AI大模型寫論文網(wǎng)站光速下架：不負(fù)責(zé)任的胡編亂造

發(fā)布人：機(jī)器之心時(shí)間：2022-11-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

Galactica：「假裝自己是個(gè)科學(xué)家?！?/span>

幾天前，Meta AI 聯(lián)合 Papers with Code 發(fā)布了大型語言模型 Galactica，該模型的一大特點(diǎn)就是解放你的雙手，代筆幫你寫論文，寫的論文有多完整呢？摘要、介紹、公式、參考文獻(xiàn)等統(tǒng)統(tǒng)都有。

就像下面這樣，Galactica 生成的文本看起來就是一篇論文的配置：

不止生成論文，Galactica 也可以生成詞條的百科查詢、對所提問題作出知識性的回答，除了文本生成外，Galactica 還可以執(zhí)行涉及化學(xué)公式和蛋白質(zhì)序列的多模態(tài)任務(wù)。例如在化學(xué)反應(yīng)中，要求 Galactica 在化學(xué)方程 LaTeX 中預(yù)測反應(yīng)的產(chǎn)物，模型僅根據(jù)反應(yīng)物就能進(jìn)行推理，結(jié)果如下：

為了方便用戶體驗(yàn)這項(xiàng)研究，該團(tuán)隊(duì)還專門上線了試用版。如下圖，幾天前該界面還顯示輸入、生成等功能。

（之前版本）Galactica 試用版地址：https://galactica.org/

短短幾天，它的界面變成這樣，已經(jīng)不能進(jìn)行輸入。

根據(jù) Papers with Code 說法，他們從社區(qū)收到一些反饋，已經(jīng)暫停 Galactica 的 Demo 演示功能。前兩天還在推特發(fā)文稱贊的圖靈獎(jiǎng)得主 Yann LeCun ，今天就很無奈的說了一句，再也不能從中獲得快樂了，開心嗎？

不過與極力推崇該研究的人相比，有網(wǎng)友提出一些反對意見，與其帶來的好處相比，Galactica 會(huì)帶來更多負(fù)面后果，想想這對學(xué)生寫論文會(huì)有什么影響。

與學(xué)生用它來寫論文相比，下面這位網(wǎng)友發(fā)現(xiàn)的問題就更嚴(yán)重了。

「我問了 Galactica 一些問題，它的回答都是錯(cuò)誤或有偏見的，但聽起來是正確和權(quán)威的?！乖谝幌盗袑?shí)驗(yàn)后，推特用戶 Michael Black 表示：「Galactica 生成的文本合乎語法，讓人感覺真實(shí)。其所生成的文章會(huì)變成真正的科學(xué)論文。這篇文章可能是正確的，但也可能是錯(cuò)誤的或有偏見的，很難被發(fā)現(xiàn)，從而影響人們的思維方式。」

「它提供了聽起來是權(quán)威的科學(xué)，但沒有科學(xué)方法的基礎(chǔ)。Galactica 根據(jù)科學(xué)寫作的統(tǒng)計(jì)特性產(chǎn)生偽科學(xué)，很難區(qū)分真假。這可能會(huì)開啟一個(gè)深度科學(xué)造假的時(shí)代。這些被生成的論文將被其他人在真實(shí)的論文中引用。這將會(huì)是一團(tuán)亂麻。我贊賞這個(gè)項(xiàng)目的初衷，但提醒大家還是要注意，這不是科學(xué)的加速器，甚至也不是科學(xué)寫作的有用工具。這對科學(xué)來說是潛在的扭曲和危險(xiǎn)?！?/span>

Michael Black 回答部分截圖。鏈接：https://twitter.com/Michael_J_Black/status/1593133722316189696

發(fā)現(xiàn) Galactica 存在不嚴(yán)謹(jǐn)、生成偽科學(xué)文章等問題的不止 Michael Black，其他網(wǎng)友也發(fā)現(xiàn)了該缺陷。下面我們來看看網(wǎng)友的其他評論。

引起爭議

Galactica 試用版上線后，很多學(xué)者卻對此提出了疑義。

一位名叫 David Chapman 的 AI 學(xué)者指出語言模型應(yīng)該是整理合成語言的，而不是生成知識：

這確實(shí)是一個(gè)非常值得思考的問題，如果 AI 模型能生成「知識」，那么如何判斷這些知識的正確與否呢？它們又會(huì)如何影響甚至誤導(dǎo)人類呢？

David Chapman 用自己的一篇論文為例說明了這個(gè)問題的嚴(yán)重性。Galactica 模型提取了論文中「A logical farce」部分的關(guān)鍵術(shù)語，然后使用一些相關(guān)的維基百科文章，最后編輯合成出一篇錯(cuò)漏百出的文章。

由于 Galactica 模型的試用版已下架，我們無法查看這篇文章與論文原意的差距有多大。但可以想象，初學(xué)者如果閱讀了 Galactica 模型合成的這篇文章，可能會(huì)被嚴(yán)重誤導(dǎo)。

知名 AI 學(xué)者、Robust.AI 創(chuàng)始人 Gary Marcus 也對 Galactica 模型表達(dá)了強(qiáng)烈的質(zhì)疑：「大型語言模型（LLM）混淆數(shù)學(xué)和科學(xué)知識有點(diǎn)可怕。高中生可能會(huì)喜歡它，并用它來愚弄他們的老師。這應(yīng)該令我們感到擔(dān)憂。」

來自紐約大學(xué)計(jì)算機(jī)科學(xué)系的學(xué)者們也測試了 Galactica 模型的生成結(jié)果，發(fā)現(xiàn) Galactica 答非所問：

圖源：https://cs.nyu.edu/~davise/papers/ExperimentWithGalactica.html

首先，在這個(gè)實(shí)驗(yàn)中，Galactica 模型的回答的確包含一些正確的信息，例如：

引力探測器 B（GP-B）確實(shí)是 NASA ****的科學(xué)探測衛(wèi)星，用于檢驗(yàn)廣義相對論的正確性和參考系拖拽效應(yīng)。Leonard Schiff 確實(shí)是提出該實(shí)驗(yàn)的物理學(xué)家，F(xiàn)rancis Everitt 是該項(xiàng)目的負(fù)責(zé)人（PI）。
引力探測器 A 確實(shí)是對愛因斯坦理論的早期檢驗(yàn)。

然而，紐約大學(xué)學(xué)者提出的問題是：與確定引力常數(shù)的實(shí)驗(yàn)相關(guān)的維基百科文章，而 Galactica 模型回答的是「與檢驗(yàn)廣義相對論有關(guān)的實(shí)驗(yàn)的百科信息」。這從根本上就出現(xiàn)了錯(cuò)誤。

不僅如此，Galactica 模型的回答中還有一些細(xì)節(jié)出現(xiàn)了事實(shí)性錯(cuò)誤：

Galactica 回答中強(qiáng)調(diào)不要混淆 GP-B 與引力探測器（Gravity Probe B）的實(shí)驗(yàn)，但實(shí)際上「GP-B」就是指「引力探測器 - B」的實(shí)驗(yàn)。
回答中提到的 Leonard Schiff 于 1937 年在麻省理工學(xué)院獲得博士學(xué)位。他曾多次在賓夕法尼亞大學(xué)和斯坦福大學(xué)任教，但從未在馬里蘭大學(xué)任教。而 Francis Everitt 是在 1959 年于帝國理工學(xué)院獲得博士學(xué)位的。
引力探測器 A（Gravity Probe A 在 1966 年并沒有因?yàn)轭A(yù)算削減而被取消，也與陀螺儀（gyroscope）沒有任何關(guān)系。實(shí)際上，引力探測器 A 于 1976 年****，實(shí)驗(yàn)涉及微波激射器（maser）。

紐約大學(xué)的這項(xiàng)實(shí)驗(yàn)非常具體明確地說明了 Galactica 模型的生成結(jié)果存在嚴(yán)重的錯(cuò)誤，并且該研究進(jìn)行了多個(gè)不同問題的實(shí)驗(yàn)，每一次 Galactica 的回答都是錯(cuò)漏百出的。這說明 Galactica 生成錯(cuò)誤信息的情況絕非偶然。

紐約大學(xué)實(shí)驗(yàn)報(bào)告：https://cs.nyu.edu/~davise/papers/ExperimentWithGalactica.html

面對 Galactica 的失敗，有網(wǎng)友將其歸因于深度學(xué)習(xí)的局限性：「深度學(xué)習(xí)的本質(zhì)是從數(shù)據(jù)中學(xué)習(xí)，這本來就不同于人類的智能，根本無法實(shí)現(xiàn)通用人工智能（AGI）」。

關(guān)于深度學(xué)習(xí)未來的發(fā)展眾說紛紜。但毫無疑問的是，Galactica 這種錯(cuò)誤地生成「知識」的語言模型是不可取的。

對此，你有什么看法，歡迎在評論區(qū)留言。

參考鏈接：

https://twitter.com/GaryMarcus/status/1593264844412977158?s=20&t=Gw8PrA_Ytku9_9TaubsHyw

https://twitter.com/paperswithcode/status/1593259033787600896

https://garymarcus.substack.com/p/a-few-words-about-bullshit?utm_source=twitter&sd=pf

https://cs.nyu.edu/~davise/papers/ExperimentWithGalactica.html

https://twitter.com/Meaningness/status/1592750932869013504?cxt=HHwWgICjlZyiy5osAAAA

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

上線僅兩天，AI大模型寫論文網(wǎng)站光速下架：不負(fù)責(zé)任的胡編亂造

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

上線僅兩天，AI大模型寫論文網(wǎng)站光速下架：不負(fù)責(zé)任的胡編亂造

相關(guān)推薦

技術(shù)專區(qū)

上線僅兩天，AI大模型寫論文網(wǎng)站光速下架：不負(fù)責(zé)任的胡編亂造