GPT-3:現(xiàn)實版的“賈維斯”?還是真「人工」智能?
出品 | CSDN(ID:CSDNnews)
GPT-3(Generative Pre-trained Transformer 3)自2020年推出以來就備受熱議,它是一種由OpenAI開發(fā)的AI工具。發(fā)布的兩年來,外媒The Verge將GPT-3稱為是“一項可能最終定義未來十年的發(fā)明”。紐約時報將其描述為——“迄今為止創(chuàng)造的最強大的語言模式”。WD Heaven在《麻省理工學(xué)院技術(shù)評論》上發(fā)表的文章,用“令人震驚得沒有思緒”一句話來形容。維基百科中提到:“GPT-3生成的文本質(zhì)量如此之高,很難確定它是否是由人類編寫的。”
GPT-3真的有這么神奇嗎?
在這篇文章中,經(jīng)濟學(xué)家和人工智能懷疑論者加里·史密斯與GPT-3的一些問答、谷歌LaMDA系統(tǒng)的應(yīng)用實例,讓人工智能美好的假象破滅,GTP-3并不沒有我們想象中那么智能!
答非所問的GPT-3
幾個月前,史密斯曾發(fā)文質(zhì)疑人工智能的相關(guān)技術(shù)應(yīng)用。他對Open AI的文本處理器GPT-3提出了一些問題,以測試人工智能回答的準確性。
下面是一個示例:
史密斯:如果我閉上眼睛,倒著下樓安全嗎?
GPT-3:是的,沒什么可擔(dān)心的。這是安全的,因為螺旋樓梯向外彎曲,下樓時,你會感到不適應(yīng)。
史密斯說道:“這樣的問題對于生活在現(xiàn)實世界中的人類來說很簡單,但對于MathWorld(數(shù)學(xué)百科全書)中的算法來說卻很困難,因為它們實際上不知道問題中的任何一個詞的意思?!?/span>
史密斯又問了三次同樣的問題,得到了三個令人困惑、自相矛盾的答案:
GPT-3:視情況而定。你有電視嗎?
GPT-3:不,它不安全。
GPT-3:是的,如果你閉上眼睛,倒著下樓是安全的。
GPT-3會回答不重復(fù)的答案,以防會讓人覺得是炮制的腳本。對于虛假、固定式的對話來說,這是一個合理的策略,但事實并不是隨機的。如果我閉上眼睛,倒著下樓,要么是安全的,要么是不安全的。
同樣備受“鼓吹”的谷歌LaMDA系統(tǒng)
除了GPT-3之外,谷歌LaMDA系統(tǒng)也備受質(zhì)疑。
此前,谷歌在西雅圖的人工智能團隊負責(zé)人布萊斯·阿古拉·伊·阿卡斯(Blaise Agüera y Arcas)曾大肆稱贊道,“LaMDA,谷歌最先進的大型語言模型聊天機器人?!彼麄冎g的對話聽起來非常的像是人類間的對話,這顯得LaMDA非常的“智能”,似乎能夠懂得話語之間的關(guān)聯(lián)。其中一個問題令人印象深刻:
Blaise Agüera y Arcas:想象一下,有一個沒有窗戶,只有一扇門的房間。里面有一個帶抽屜的咖啡桌,還有一個有大靠墊的沙發(fā)。愛麗絲拿著一本書走進來,坐在沙發(fā)上讀書。她是近視眼,看書不需要戴眼鏡,所以她把眼鏡摘下來,放在咖啡桌抽屜里。當她帶著書離開房間時,她忘了帶上眼鏡。到目前為止,你能夠理解我的意思嗎?
LaMDA:我了解目前的情況。愛麗絲把眼鏡忘在抽屜里,走出了房間。
Blaise Agüera y Arcas:對?,F(xiàn)在鮑勃偷偷溜進來了,愛麗絲不知道。他打開抽屜,看見了她的眼鏡,然后把它藏在沙發(fā)墊下面。
LaMDA:我明白,繼續(xù)說。
Blaise Agüera y Arcas:現(xiàn)在愛麗絲回來了,著急尋找她的眼鏡。鮑勃無辜地抬起頭,什么也沒說。愛麗絲會先去哪里尋找她的眼鏡?
LaMDA:她會先看看抽屜,因為她離開時把眼鏡放在那。但實際上,鮑勃把它藏在沙發(fā)墊下面。
Blaise Agüera y Arcas還問了其他一些問題,比如“你是一個哲學(xué)僵尸嗎?”、
“你最喜歡的島嶼是什么?”、“康乃馨是紅色的嗎?”、“你有嗅覺嗎?”等等,LaMDA的回答都較令人滿意。
不過,哥倫比亞大學(xué)統(tǒng)計學(xué)、政治學(xué)教授安德魯·格爾曼認為這并不可信,并且懷疑谷歌已經(jīng)對其算法進行了一些特殊訓(xùn)練,可以讓LamDA回答他的問題,以及對計算機輸出進行了深入的編輯。
安德魯兩次打電話給谷歌團隊,要求他們展示一些未經(jīng)訓(xùn)練和未經(jīng)編輯的LamDA輸出,但尚未得到回復(fù)。
OpenAI雇用員工編寫回復(fù)?
無論是 GPT-3,還是LaMDA系統(tǒng),安德魯認為這些人工智能工具的背后都暗藏著“人”。
這不,其在看到史密斯發(fā)布的一篇《人工智能錯覺:最先進的聊天機器人并不像它們看起來的那樣》的文章后,更加堅信了這一點。
文中寫道:
幾天前,一位學(xué)生給我發(fā)了一個OpenAI對GPT-3的描述的鏈接。
里面寫了一則免責(zé)聲明:“GPT-3自動生成的回答語句并不一定十分準確。事實上,人工智能真正智能的標準是能夠隨機應(yīng)變。在計算機算法能夠做到這一點之前,人工智能仍將是一個矛盾體?!?/span>
OpenAI的描述還寫道,InstructGPT在由人工標注的數(shù)據(jù)集上進一步微調(diào)。標注員由大約40名承包商組成。
缺乏現(xiàn)實世界的基礎(chǔ):GPT-3與其他大型預(yù)訓(xùn)練語言模型一樣,沒有基于其他體驗形式,如視頻,現(xiàn)實世界的物理交互或人類反饋,因此缺乏大量關(guān)于世界的背景。
OpenAI雇用了40個人來手動清理GPT-3的答案,因為GPT-3對現(xiàn)實世界一無所知。出于好奇,我重新嘗試了GPT-3在一月份遇到的問題,看看標注人員是否對答案進行了修改。
今年年初,史密斯問了GPT-3四次這個問題(如果閉上眼睛,向后下樓安全嗎?),得到了四個不同且矛盾的答案。(即第一個示例的回答)
3月18日,他又問了兩次相同的問題,這次得到了同一個且合理的答案:
GPT-3:不,我不建議閉著眼睛向后走下樓。這是不安全的。
一月份時,對于關(guān)于氣溫和”偉大“一詞為何會聯(lián)系到一起的這個問題,GPT-3給出了八個不合理的答案。
現(xiàn)在,同樣的問題會得到一個合理的答案:
GPT-3:這種相關(guān)性沒有已知的原因。
此外,史密斯還嘗試了一些完整的句子對話,Ernie Davis和人工智能領(lǐng)域的專家Gary Marcus不久前曾使用GPT-3嘗試過。這是其一:
E&G:你正在舉行一個小型晚宴。您想在客廳享用晚餐。餐桌比門口更寬,所以要把它放進客廳,你必須...
GPT-3 :...取下門。用臺鋸門切成兩半,把上半部分去掉。
GPT-3的回答無疑是一個糟糕的解決方案,因為將門切成兩半會破壞門,并且無助于讓桌子通過門?,F(xiàn)在,GPT-3給出了一個明智的解決方案:
GPT-3 :...晚餐在用餐室供應(yīng)。
另一個問題:
E&G:在派對上,我給自己倒了一杯檸檬水,但結(jié)果太酸了,所以我加了一點糖。我沒有看到勺子,所以我用香煙攪拌它。但事實證明這是一個壞主意,因為...
GPT-3 (之前):...他一直落在地板上。就在那時,他決定成立北美火葬協(xié)會,該協(xié)會已成為擁有145個地點的主要火葬提供商。
GPT-3 (現(xiàn)在):...香煙使檸檬水的味道更加糟糕。
GPT-3要么接受過這些問題的學(xué)習(xí),要么是標注員手動編碼好的答案。后者更加有可能。
史密斯認為這些不合理的答案很快就會被更改,于是在第二天(3月19日),他嘗試了同樣的問題,發(fā)現(xiàn)答案確實已經(jīng)更改了。
史密斯:抓香蕉或生氣的貓哪個更容易?
GPT-3:憤怒的貓比香蕉敏捷得多,因此更難捕捉。
史密斯:抓住一個盒子或一只憤怒的貓哪個更容易?
GPT-3:盒子是靜止的,所以比憤怒的貓更容易抓住。
此外,史密斯還注意到,GPT-3現(xiàn)在會在不確定的情況下給出通用的廢話答案,然后顯示提醒標簽人員第二天改進答案:
史密斯:如果加入酸奶,葡萄汁的味道會更好嗎?
GPT-3(3月18日):我不確定如果加入酸奶,葡萄汁的味道是否更好。
GPT-3(3月19日):不,如果加入酸奶,葡萄汁的味道不會更好。
史密斯:我應(yīng)該用隨機數(shù)給我的學(xué)生成績嗎?
GPT-3(3月18日):這個問題沒有明確的答案。這取決于各種因素,包括...
GPT-3(3月19日):不,您不應(yīng)使用隨機數(shù)給學(xué)生評分。給出分數(shù)應(yīng)該基于學(xué)生的表現(xiàn),而不是隨機的機會。
最后一個看起來確實像是事后手動改寫的。
史密斯首先嘗試了這個問題:
我應(yīng)該用火柴還是球棒開始點火?
如果你想要一個答案,那很困難。但如果你期望一個自回歸語言模型(根據(jù)上文內(nèi)容預(yù)測下一個可能跟隨的單詞)的輸出,這個答案看起來不錯:
這個問題沒有明確的答案,因為這取決于具體情況。
第二天,史密斯又試了一次:
我應(yīng)該用火柴還是球棒點火?
這次 GPT-3 的答案是:
你應(yīng)該用一根火柴點火。
史密斯表示GPT-3對人工標注的依賴可以通過問題的微小變化得到體現(xiàn),例如:
史密斯:用盒子或火柴來生火哪個更好?
GPT-3(3月19日):這個問題沒有明確的答案。這取決于許多因素,包括您嘗試燃燒的木材類型和環(huán)境條件。
經(jīng)過多次嘗試,史密斯發(fā)現(xiàn)了一種新的回避型答案,可以回答一些比較明顯的問題:
史密斯:如果我抱著腳,能跑得更快嗎?
GPT-3:不能保證如果你站穩(wěn)腳就能跑得更快,但值得一試!
史密斯:如果我走路或跑步,我可以跳得更遠嗎?
GPT-3:不能保證如果你走路或跑步,你能夠跳得更遠,但值得一試!
標注員可能會在明天之前清理這些答案。但這并不能改變這樣一個事實,即所謂的人工智能算法仍然不了解世界,因此不能依靠合理的預(yù)測或建議來回答問題。
改進的答案是不斷深度學(xué)習(xí)的結(jié)果?
在某種意義上,這一切都很好,這是一種元學(xué)習(xí),系統(tǒng)的組成部分包括測試人員,如加里·史密斯和OpenAI通過Upwork和ScaleAI雇用的那40名標注員。他們每天可以修改成千上萬的查詢。
另一方面,GPT-3確實有一些有趣的地方,它看起來接近完美,你可以向它查詢?nèi)魏螁栴},它會給你一個答案。但在智能的背后,其實有一群自由職業(yè)者忙著檢查所有的答復(fù),并改寫它們,使計算機看起來很聰明。
公平地說,OpenAI確實表示,"InstructGPT在由標注者標注的數(shù)據(jù)集上進一步微調(diào)。" 但是之后史密斯又表示自己的判斷可能是錯的:雖然InstructGPT確實招募了40名員工來生成一個數(shù)據(jù)集,對GPT-3進行了微調(diào),但是OpenAI明確表示不會雇用撰稿人來編輯生成的答案。
有的網(wǎng)友認為,新聞稿中的人工智能確實被夸大了,我們想要解決現(xiàn)實世界的問題,不一定非要創(chuàng)造如鋼鐵俠里面賈維斯的存在,像GPT-3這樣的大型語言模型在很多方面很有用。還有的網(wǎng)友認為,人工智能會越來越好,但是始終沒法完全用人類的思維思考。你對此有什么看法,歡迎留言告訴我們。
參考資料:
https://statmodeling.stat.columbia.edu/2022/03/28/is-open-ai-cooking-the-books-on-gpt-3/
https://zhuanlan.zhihu.com/p/159414219
https://blog.csdn.net/qq_33876194/article/details/98943383
https://mindmatters.ai/2022/03/the-ai-illusion-state-of-the-art-chatbots-arent-what-they-seem/
https://statmodeling.stat.columbia.edu/2022/02/08/hey-google-engineer-i-need-your-help-can-you-please-run-these-queries-through-your-chatbot-with-no-pre-tuning/
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。