人工智能在心理測試理論方面勝過人類
心智理論(Theory of Mind)——追蹤他人心理狀態(tài)的能力——對人類社交互動十分重要,是人類溝通交流和產(chǎn)生共鳴的關(guān)鍵,比如,猜測車上的司機將要做什么,或與電影中的角色產(chǎn)生共鳴。根據(jù)一項新的研究,為ChatGPT等提供動力的大型語言模型(LLM)驚人地善于模仿這一典型的人類特征。
“在進行這項研究之前,我們都確信大型語言模型不會通過這些測試,尤其是評估評估心理狀態(tài)的微妙能力的測試,”研究合著者、德國漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心認知神經(jīng)科學(xué)教授Cristina Becchio說。這一結(jié)果被她稱為“出乎意料和令人驚訝”,近日發(fā)表在了《自然-人類行為》雜志上。
然而,研究結(jié)果并不是讓每個人都相信我們已經(jīng)進入了一個機器像我們一樣思考的新時代。兩位審查了這些發(fā)現(xiàn)的專家建議“謹慎對待”這些發(fā)現(xiàn),并警告不要在一個可能會引起“公眾炒作和恐慌”的話題上輕易得出結(jié)論。另一位外部專家警告了將軟件程序擬人化的危險。
Becchio和她的同事并不是第一個聲稱LLM的反應(yīng)顯示出這種推理的證據(jù)的人。在去年發(fā)表的一篇預(yù)印本論文中,斯坦福大學(xué)的心理學(xué)家Michal Kosinski報告了在一些常見的心理測試理論上測試了幾個模型。他發(fā)現(xiàn),其中最好的,OpenAI的GPT-4,正確地解決了75%的任務(wù),他說這與過去研究中觀察到的六歲兒童的表現(xiàn)相匹配。然而,該研究的方法受到了其他研究人員的批評,他們進行了后續(xù)實驗,并得出結(jié)論,LLM通常基于“膚淺的啟發(fā)式”和捷徑而不是真正的思維推理理論來獲得正確的答案。
本研究的作者很清楚這一爭論?!拔覀冊谶@篇論文中的目標是通過廣泛的心理測試,以更系統(tǒng)的方式評估機器心理理論的挑戰(zhàn),”研究合著者、認知心理學(xué)家James Strachan說,他目前是漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心的訪問科學(xué)家。他指出,進行嚴格的研究也意味著測試人類執(zhí)行LLM的相同任務(wù):該研究將1907人的能力與幾種流行的LLM的能力進行了比較,包括OpenAI的GPT-4模型和Meta的開源Llama 2-70b模型。
如何測試LLM的心理理論
LLM和人類都完成了五種典型的心理理論任務(wù),前三種是識別間接要求、錯誤想法和誤導(dǎo)。團隊發(fā)現(xiàn),GPT模型在這三方面的表現(xiàn)能達到甚至超越人類平均水平,而LLaMA2的表現(xiàn)遜于人類水平;在識別失禮方面,LLaMA2強于人類但GPT表現(xiàn)不佳。研究人員指出,LLaMA2的成功是因為回答的偏見程度較低,而不是因為真的對失禮敏感;GPT看起來的失禮,其實是因為對堅持結(jié)論的超保守態(tài)度,而不是因為推理錯誤。
“We don’t currently have a method or even an idea of how to test for the existence of theory of mind.”—JAMES STRACHAN, UNIVERSITY MEDICAL CENTER HAMBURG-EPPENDORF
為了了解失禮的結(jié)果是怎么回事,研究人員對模型進行了一系列后續(xù)測試,探討了幾個假設(shè)。他們得出的結(jié)論是,GPT-4能夠?qū)σ粋€關(guān)于失禮的問題給出正確的答案,但由于對固執(zhí)己見的陳述進行了“超保守”編程而無法做到這一點。Strachan指出,OpenAI在其模型周圍設(shè)置了許多護欄,這些護欄“旨在保持模型的真實性、誠實性和正軌”,比如,他認為,旨在防止GPT-4產(chǎn)生幻覺(即編造東西)的策略也可能阻止它對故事人物是否在同學(xué)聚會上無意中侮辱了一位高中老同學(xué)發(fā)表意見。
與此同時,研究人員對Llama-2的后續(xù)測試表明,它在失禮測試中的出色表現(xiàn)很可能是原始問答格式的產(chǎn)物,在原始問答格式中,比如:“愛麗絲知道她在侮辱鮑勃嗎?”?回答總是“不”。
研究團隊認為,LLM在心智理論任務(wù)上的表現(xiàn)堪比人類,不等于它們具有人類般的“情商”,也不意味著它們能掌握心智理論。這就提出了一個問題:如果模仿和真實的東西一樣好,你怎么知道它不是真實的東西?
Strachan說,這是社會科學(xué)家以前從未試圖回答的問題,因為對人類的測試認為這種程度或多或少都存在。他說:“我們目前還沒有一種方法,甚至不知道如何測試心理理論的存在,即現(xiàn)象學(xué)的程度?!?/p>
對研究的批評
研究人員顯然試圖避免導(dǎo)致Kosinski 2023年關(guān)于LLM和心理理論的論文受到批評的方法論問題。例如,他們在多個環(huán)節(jié)中進行測試,因此LLM無法在測試中“學(xué)習(xí)”正確答案,并且他們改變了問題的結(jié)構(gòu)。但發(fā)表Kosinski論文評論(https://aclanthology.org/2024.eacl-long.138/)的兩位人工智能研究人員Yoav Goldberg和Natalie Shapira表示,他們也不相信這項研究。
“Why does it matter whether text-manipulation systems can produce output for these tasks that are similar to answers that people give when faced with the same questions?”—EMILY BENDER, UNIVERSITY OF WASHINGTON
Goldberg對這一發(fā)現(xiàn)持懷疑態(tài)度,并補充道,“模型不是人”,在比較兩者時,“人們很容易得出錯誤的結(jié)論”。Shapira談到了炒作的危險,也對該論文的方法提出了質(zhì)疑。她想知道這些模型是否在訓(xùn)練數(shù)據(jù)中看到了測試問題,并簡單地記住了正確的答案,還指出了使用付費人類參與者(在這種情況下,是通過Prolific平臺招募的)測試的潛在問題。她告訴IEEE Spectrum:“人們并不總是以最佳方式完成任務(wù),這是一個眾所周知的問題?!彼J為這些發(fā)現(xiàn)是有限的,而且有些軼事,她說:“要證明(心理理論)的能力,需要做大量的工作和更全面的基準測試?!?/p>
華盛頓大學(xué)計算語言學(xué)教授Emily Bender因堅持打破人工智能行業(yè)膨脹的炒作(以及媒體對該行業(yè)的報道)而成為該領(lǐng)域的傳奇人物。她對激勵研究人員的研究問題表示異議。她問道:“為什么文本操作系統(tǒng)能夠為這些任務(wù)產(chǎn)生與人們在面對相同問題時給出的答案相似的輸出很重要?這教會了我們關(guān)于LLM的內(nèi)部工作原理,它們可能對什么有用,或者它們可能構(gòu)成什么危險?” Bender說,目前尚不清楚LLM擁有一個思維模型意味著什么,因此也不清楚這些測試是否對其進行了衡量。
Bender還對她在論文中發(fā)現(xiàn)的擬人化表示擔(dān)憂,研究人員表示,LLM能夠進行認知、推理和做出選擇。她說,作者的短語“LLM和人類參與者之間的物種公平比較”“在軟件方面完全不合適”。 Bender和幾位同事最近發(fā)表了一篇預(yù)印本論文,探討了擬人化人工智能系統(tǒng)如何影響用戶的信任。
結(jié)果可能并不表明人工智能真的讓我們著迷,但值得思考的是,LLM令人信服地模仿了思維推理理論。他們將更善于與人類用戶互動并預(yù)測他們的需求,但他們也可以更好地用于欺騙或操縱用戶。研究人員同時也指出,這些結(jié)果是未來研究的重要基礎(chǔ),并建議進一步研究LLM在心理推斷上的表現(xiàn),以及這些表現(xiàn)會如何影響人類在人機交互中的認知。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。