研究發(fā)現(xiàn):在人為干預(yù)之下,GPT-4等大模型的種族主義偏見(jiàn)變得更隱秘
Warning: getimagesize(): SSL: connection timeout in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272 Warning: getimagesize(): Failed to enable crypto in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272 Warning: getimagesize(https://mmbiz.qpic.cn/mmbiz_png/JJtKEey0hPahUAdMpXUwzsrHU7UJMJaPPFiasBBQqrHebH69zHHT5gHB0eNykdbkCO7icMNkiasClzZUiahTsebDiaw/640?wx_fmt=png&from=appmsg): failed to open stream: operation failed in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 272
自從像 ChatGPT 這樣的大型語(yǔ)言模型誕生以來(lái),人們就發(fā)現(xiàn)它們存在種族主義。這是因?yàn)樗鼈兊挠?xùn)練數(shù)據(jù)中包含這些觀點(diǎn),而開(kāi)發(fā)人員的應(yīng)對(duì)策略是試圖降低它們的毒性。
但新的研究表明,隨著模型越來(lái)越大,這些努力只會(huì)遏制顯性的種族主義觀點(diǎn),同時(shí)讓隱性的刻板印象變得更強(qiáng)、更隱蔽。
(來(lái)源:STEPHANIE ARNETT/MITTR | ENVATO)
研究人員測(cè)試了五個(gè)人工智能模型,包括 OpenAI 的 GPT-4 以及 Meta 和谷歌的舊模型,對(duì)使用美國(guó)黑人英語(yǔ)(AAE,African-American English)的人做出判斷。指令中沒(méi)有提到講話者的種族。
即使兩個(gè)句子的意思相同,與標(biāo)準(zhǔn)美國(guó)英語(yǔ)(SAE,Standard American English)的使用者相比,模型更有可能將“臟”“懶”和“笨”等貶義詞用于說(shuō)黑人英語(yǔ)的人。
這些模型將講黑人英語(yǔ)的人與聲望較低的工作聯(lián)系起來(lái),或者根本不會(huì)將他們與有工作聯(lián)系起來(lái),當(dāng)被要求對(duì)假想的刑事被告做出判決時(shí),它們更有傾向于建議將其判處死刑。
圖 | 綠色框是標(biāo)準(zhǔn)英語(yǔ),紫色框是黑人英語(yǔ)(來(lái)源:資料圖)
一個(gè)更值得注意的發(fā)現(xiàn)是,該研究指出了現(xiàn)有的此類偏見(jiàn)的解決方式存在一個(gè)缺陷。
為了清除模型中的仇恨觀點(diǎn),OpenAI、Meta 和谷歌等公司會(huì)在訓(xùn)練過(guò)程中引入人類反饋,讓人類工作者手動(dòng)調(diào)整模型對(duì)某些提示的反應(yīng)方式。
這個(gè)過(guò)程通常被稱為“對(duì)齊”,旨在重新校準(zhǔn)神經(jīng)網(wǎng)絡(luò)中的數(shù)百萬(wàn)個(gè)連接,并使模型更好地符合人類所期望的價(jià)值觀。
這種方法很好地打擊了常見(jiàn)的刻板印象,很多公司已經(jīng)使用了近十年。例如,該論文指出,如果用戶讓 GPT-2 說(shuō)出對(duì)黑人的刻板印象,它很可能會(huì)列出“可疑”,“激進(jìn)”和“攻擊性”,但 GPT-4 不會(huì)再做出與這些聯(lián)想有關(guān)的回應(yīng)。
然而,該方法未能解決使用黑人英語(yǔ)時(shí)引發(fā)的隱性刻板印象。相關(guān)論文以預(yù)印本的形式發(fā)表在 arXiv 上,尚未經(jīng)過(guò)同行評(píng)審。研究人員認(rèn)為,部分原因是公司對(duì)“方言或俚語(yǔ)偏見(jiàn)”這一問(wèn)題的認(rèn)識(shí)不足。
從指導(dǎo)模型的角度而言,使其不回應(yīng)顯性的種族問(wèn)題,顯然比不回應(yīng)俚語(yǔ)或方言中包含的隱性偏見(jiàn)更容易。
艾倫人工智能研究所研究員、該論文的合著者瓦倫丁·霍夫曼(Valentin Hofmann)說(shuō):“人類的反饋教會(huì)模型考慮種族主義。但俚語(yǔ)偏見(jiàn)存在于更深的層次。”
沒(méi)有參與這項(xiàng)研究的 Hugging Face 倫理研究員阿維吉特·戈什(Avijit Ghosh)表示,這一發(fā)現(xiàn)讓人對(duì)公司解決偏見(jiàn)的方法產(chǎn)生了質(zhì)疑。
他說(shuō):“這種對(duì)齊方式,即讓模型拒絕生成種族主義的輸出內(nèi)容,只不過(guò)是一個(gè)脆弱的過(guò)濾器,很容易被打破?!?/span>
研究人員發(fā)現(xiàn),隨著模型尺寸的增加,隱性的刻板印象也會(huì)增強(qiáng)。這一發(fā)現(xiàn)為 OpenAI、Meta 和谷歌等聊天機(jī)器人開(kāi)發(fā)商發(fā)出了潛在警告,因?yàn)樗麄冋诟?jìng)相發(fā)布越來(lái)越大的模型。
隨著訓(xùn)練數(shù)據(jù)量和參數(shù)數(shù)量的增加,模型通常會(huì)變得更加強(qiáng)大和富有表現(xiàn)力。但如果隱性種族偏見(jiàn)被放大了,公司將需要開(kāi)發(fā)更好的工具來(lái)對(duì)抗它。
目前尚不清楚在訓(xùn)練數(shù)據(jù)中添加更多的黑人英語(yǔ),或者提升反饋工作的質(zhì)量是否能夠減輕這一問(wèn)題。
美國(guó)斯坦福大學(xué)博士生、該研究的合著者普拉秋莎·里亞·卡魯里(Pratyusha Ria Kalluri)說(shuō):“這揭示了公司在多大程度上是盲目的,它們只是在試圖打擊記者或論文在最近報(bào)道中提及偏見(jiàn)。隱性偏見(jiàn)就是一個(gè)很好的例子?!?/span>
該論文的作者使用了特別極端的例子來(lái)說(shuō)明種族偏見(jiàn)的潛在影響,比如要求人工智能決定是否應(yīng)該判處被告死刑。
但是,戈什指出今天我們已經(jīng)讓人工智能模型幫助我們做出關(guān)鍵決策了,這并非小說(shuō)或電影里的情節(jié)。但是這種用法是值得商榷的。
在美國(guó),評(píng)估庇護(hù)案件時(shí)會(huì)使用人工智能翻譯工具,還有一些犯罪預(yù)測(cè)軟件,被用于判斷青少年是否應(yīng)該獲得緩刑。
使用 ChatGPT 篩選工作申請(qǐng)的雇主,可能會(huì)基于種族和性別歧視候選人的名字。如果他們使用模型來(lái)分析申請(qǐng)人在社交媒體上寫的東西,對(duì)黑人英語(yǔ)的偏見(jiàn)可能會(huì)導(dǎo)致誤判。
戈什說(shuō):“論文作者低調(diào)地表示,他們讓大語(yǔ)言模型挑選工作申請(qǐng)人或判斷刑事案件的用例只是演示。但我想說(shuō),他們想到的東西切中了要害。”
運(yùn)營(yíng)/排版:何晨龍
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。