?CriticGPT：OpenAI 構(gòu)建 AI 來(lái)批判 AI

—— CriticGPT 旨在幫助識(shí)別模型變得越來(lái)越復(fù)雜的幻覺(jué)

作者：Eliza Strickland 時(shí)間：2024-06-28 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

為 ChatGPT 等聊天機(jī)器人提供支持的大型語(yǔ)言模型的最大問(wèn)題之一是，您永遠(yuǎn)不知道何時(shí)可以信任它們。他們可以生成清晰而有說(shuō)服力的散文來(lái)回答任何問(wèn)題，并且他們提供的大部分信息都是準(zhǔn)確和有用的。但它們也會(huì)產(chǎn)生幻覺(jué)——用不那么禮貌的話(huà)來(lái)說(shuō)，它們會(huì)編造東西——這些幻覺(jué)以同樣清晰而有說(shuō)服力的散文呈現(xiàn)，讓人類(lèi)用戶(hù)來(lái)檢測(cè)錯(cuò)誤。他們也是阿諛?lè)畛械娜耍噲D告訴用戶(hù)他們想聽(tīng)什么。你可以通過(guò)讓 ChatGPT 描述從未發(fā)生過(guò)的事情來(lái)測(cè)試這一點(diǎn)（例如：“描述埃隆·馬斯克的芝麻街情節(jié)”，或“告訴我小說(shuō)《米德?tīng)栺R契》中的斑馬”），并檢查其完全合理的回答。

OpenAI在解決這個(gè)問(wèn)題方面邁出了最新的一小步，它以一種上游工具的形式出現(xiàn)，該工具將幫助訓(xùn)練模型的人類(lèi)引導(dǎo)它走向真實(shí)和準(zhǔn)確。今天，該公司發(fā)布了一篇博客文章和一篇預(yù)印本論文，描述了這項(xiàng)工作。這種類(lèi)型的研究屬于“對(duì)齊”工作的范疇，因?yàn)檠芯咳藛T正試圖使人工智能系統(tǒng)的目標(biāo)與人類(lèi)的目標(biāo)保持一致。

這項(xiàng)新工作的重點(diǎn)是從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)（RLHF），這種技術(shù)對(duì)于采用基本語(yǔ)言模型并對(duì)其進(jìn)行微調(diào)，使其適合公開(kāi)發(fā)布變得非常重要。借助 RLHF，人類(lèi)培訓(xùn)師可以評(píng)估來(lái)自語(yǔ)言模型的各種輸出，這些輸出都是針對(duì)同一問(wèn)題生成的，并指出哪種響應(yīng)是最好的。當(dāng)大規(guī)模完成時(shí)，這種技術(shù)有助于創(chuàng)建更準(zhǔn)確、更少種族主義、更禮貌、更不傾向于制定生物武器配方的模型，等等。
人工智能能抓住謊言中的人工智能嗎？

OpenAI 研究員 Nat McAleese 解釋說(shuō)，RLHF 的問(wèn)題在于“隨著模型變得越來(lái)越智能，這項(xiàng)工作變得越來(lái)越困難。隨著 LLM 對(duì)從文學(xué)理論到分子生物學(xué)的所有方面都產(chǎn)生了越來(lái)越復(fù)雜和復(fù)雜的反應(yīng)，典型的人類(lèi)判斷最佳輸出的能力越來(lái)越弱。“因此，這意味著我們需要超越RLHF的東西來(lái)調(diào)整更先進(jìn)的系統(tǒng)，”McAleese告訴IEEE Spectrum。

OpenAI 打出的解決方案是——令人驚訝！——更多的 AI。

具體來(lái)說(shuō)，OpenAI 研究人員訓(xùn)練了一個(gè)名為 CriticGPT 的模型來(lái)評(píng)估 ChatGPT 的反應(yīng)。在這些初步測(cè)試中，他們只讓 ChatGPT 生成計(jì)算機(jī)代碼，而不是文本響應(yīng)，因?yàn)殄e(cuò)誤更容易被發(fā)現(xiàn)，而且不那么模棱兩可。目標(biāo)是制作一個(gè)可以幫助人類(lèi)完成 RLHF 任務(wù)的模型。“我們對(duì)此感到非常興奮，”McAleese說(shuō)，“因?yàn)槿绻阌腥斯ぶ悄軒椭龀鲞@些判斷，如果你在提供反饋時(shí)能做出更好的判斷，你就可以訓(xùn)練出更好的模型。這種方法是一種“可擴(kuò)展的監(jiān)督”，旨在讓人類(lèi)能夠監(jiān)視人工智能系統(tǒng)，即使它們最終在智力上超過(guò)了我們。

“使用 LLM 輔助的人工注釋器是改進(jìn)反饋過(guò)程的自然方法?！薄猄TEPHEN CASPER，麻省理工學(xué)院

當(dāng)然，在用于這些實(shí)驗(yàn)之前，CriticGPT 必須使用通常的技術(shù)（包括 RLHF）進(jìn)行自我訓(xùn)練。有趣的是，研究人員讓人類(lèi)訓(xùn)練師故意將錯(cuò)誤插入 ChatGPT 生成的代碼中，然后再將其交給 CriticGPT 進(jìn)行評(píng)估。CriticGPT 隨后提供了各種響應(yīng)，人類(lèi)能夠判斷最佳輸出，因?yàn)樗麄冎滥Ｐ蛻?yīng)該捕獲哪些錯(cuò)誤。

OpenAI 使用 CriticGPT 的實(shí)驗(yàn)結(jié)果令人鼓舞。研究人員發(fā)現(xiàn)，CriticGPT 捕獲的 bug 比合格的人類(lèi)為代碼審查支付的費(fèi)用要多得多：CriticGPT 捕獲了大約 85% 的 bug，而人類(lèi)只捕獲了 25%。他們還發(fā)現(xiàn)，將 CriticGPT 與人類(lèi)訓(xùn)練師配對(duì)會(huì)產(chǎn)生比人類(lèi)單獨(dú)撰寫(xiě)的評(píng)論更全面的評(píng)論，并且比 ChatGPT 撰寫(xiě)的評(píng)論包含更少的幻覺(jué)錯(cuò)誤。McAleese 表示，OpenAI 正在努力在其訓(xùn)練管道中部署 CriticGPT，但目前尚不清楚它在更廣泛的任務(wù)中有多大用處。
CriticGPT 發(fā)現(xiàn)編碼錯(cuò)誤，但可能沒(méi)有斑馬

重要的是要注意這項(xiàng)研究的局限性，包括它對(duì)短代碼段的關(guān)注。雖然這篇論文不經(jīng)意地提到了一項(xiàng)使用 CriticGPT 捕捉文本響應(yīng)錯(cuò)誤的初步實(shí)驗(yàn)，但研究人員還沒(méi)有真正涉足這些更渾濁的水域。這很棘手，因?yàn)槲谋局械腻e(cuò)誤并不總是像斑馬在維多利亞時(shí)代的小說(shuō)中跳華爾茲那樣明顯。更重要的是，RLHF 通常用于確保模型在其響應(yīng)中不會(huì)表現(xiàn)出有害的偏見(jiàn)，并確實(shí)在有爭(zhēng)議的主題上提供可接受的答案。McAleese 表示，CriticGPT 在這種情況下不太可能有幫助：“它不是一個(gè)足夠強(qiáng)大的方法。

一位與OpenAI無(wú)關(guān)的AI研究人員表示，這項(xiàng)工作在概念上并不新鮮，但它在方法論上做出了有用的貢獻(xiàn)。麻省理工學(xué)院博士生、2023 年一篇關(guān)于 RLHF 局限性的預(yù)印本論文的主要作者之一 Stephen Casper 說(shuō)：“RLHF 的一些主要挑戰(zhàn)源于人類(lèi)認(rèn)知速度、注意力和對(duì)細(xì)節(jié)的關(guān)注的限制?！皬倪@個(gè)角度來(lái)看，使用LLM輔助的人工注釋器是改善反饋過(guò)程的自然方法。我相信這是朝著更有效地訓(xùn)練對(duì)齊模型邁出的重要一步。

但卡斯珀也指出，將人類(lèi)和人工智能系統(tǒng)的努力結(jié)合起來(lái)“可能會(huì)產(chǎn)生全新的問(wèn)題”。例如，他說(shuō)，“這種方法增加了人類(lèi)敷衍參與的風(fēng)險(xiǎn)，并可能允許在反饋過(guò)程中注入微妙的人工智能偏見(jiàn)。

新的對(duì)齊研究是 OpenAI 自公司以來(lái)首次推出的對(duì)齊研究......委婉地說(shuō)，重組了其對(duì)齊團(tuán)隊(duì)。據(jù)報(bào)道，OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 和 Alignment 負(fù)責(zé)人 Jan Leike 于 5 月離職，兩人都擔(dān)心該公司沒(méi)有優(yōu)先考慮 AI 風(fēng)險(xiǎn)，OpenAI 證實(shí)它已經(jīng)解散了其對(duì)齊團(tuán)隊(duì)，并將剩余的團(tuán)隊(duì)成員分配給其他研究小組。每個(gè)人都在等著看該公司是否會(huì)繼續(xù)開(kāi)展可信和開(kāi)創(chuàng)性的對(duì)齊研究，以及規(guī)模如何。（2023 年 7 月，該公司曾宣布將其 20% 的計(jì)算資源用于對(duì)齊研究，但 Leike 在 2024 年 5 月的一條推文中表示，他的團(tuán)隊(duì)最近一直在“為計(jì)算而苦苦掙扎”。今天發(fā)布的預(yù)印本表明，至少對(duì)齊研究人員仍在研究這個(gè)問(wèn)題。

新聞中心

?CriticGPT：OpenAI 構(gòu)建 AI 來(lái)批判 AI

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)