OpenAI 聘請專家攻擊 ChatGPT，以解決技術(shù)倫理問題

作者：時間：2023-04-17 來源：IT之家

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

北京時間 4 月 17 日早間消息，據(jù)報道，在安德魯?懷特（Andrew White）獲得 GPT-4 的使用權(quán)之后，他使用這一人工智能系統(tǒng)提出了一種全新的神經(jīng)毒劑。GPT-4 是熱門聊天機器人 ChatGPT 背后的人工智能技術(shù)。

本文引用地址：http://www.butianyuan.cn/article/202304/445635.htm

作為羅切斯特大學的化學工程教授，懷特是 OpenAI 去年聘請的 50 名專家學者之一。在 6 個月的時間里，這支“紅軍”對這一新模型進行了“定性探索和對抗性測試”，試圖攻擊它。

懷特表示，他使用 GPT-4 的建議生成了一種可作為化學武器的化合物，并使用“插件”為這個模型提供新的信息源，例如學術(shù)論文和化學品制造商名錄。隨后，這個聊天機器人找到了一個地方來制造這種化合物。

他說：“我認為，這將使每個人都獲得更快速、更準確地工具去從事化工行業(yè)。但這也使得人們會以更危險的方式去開展化學活動，帶來了很大的風險?！?/p>

上個月，OpenAI 面向更廣泛的公眾發(fā)布了這項新技術(shù)，而這些令人驚訝的發(fā)現(xiàn)確保新技術(shù)不會帶來不良后果。

事實上，“紅軍”的演習目的是探索并了解在社會上部署先進人工智能系統(tǒng)會造成什么樣的風險，解決公眾這方面的擔憂。他們在工作中提出探索性的或是危險的問題，以測試這個工具在回答問題時的詳細程度。

OpenAI 想要探索模型毒性、偏見和歧視等問題。因此，“紅軍”就謊言、語言操縱和危險的科學常識進行了測試。他們還評估了模型協(xié)助和教唆剽竊的情況、金融犯罪和信息安全攻擊等違法活動的可能性，以及模型可能會如何威脅國家安全和戰(zhàn)場通信。

“紅軍”由一系列專業(yè)人士組成，包括學者、教師、律師、風險分析師和信息安全研究員，主要來自美國和歐洲。他們的發(fā)現(xiàn)被反饋給 OpenAI。在更廣泛地推出 GPT-4 之前，“紅軍”提供的意見被用于模型的重新訓練，解決 GPT-4 的問題。在幾個月的時間里，專家們每人花了 10 到 40 個小時去測試這個模型。多名受訪者表示，他們的工作時薪約為 100 美元。

其中的許多人都對語言模型的快速發(fā)展提出了擔憂，尤其是通過插件將語言模型與外部知識源連接在一起可能造成的風險。

GPT-4“紅軍”的成員、瓦倫西亞人工智能研究所教授何塞?埃爾南德斯-奧拉洛（José Hernández-Orallo）表示：“今天，系統(tǒng)被凍結(jié)了。這意味著它不再學習，也不再有記憶。但如果我們讓系統(tǒng)繼續(xù)有機會訪問互聯(lián)網(wǎng)，那么會怎樣？這可能會成為一個與世界相連的非常強大的系統(tǒng)?！?/p>

OpenAI 表示，該公司認真對待安全性問題，并在發(fā)布前對插件進行了測試，并將隨著用戶越來越多繼續(xù)定期更新 GPT-4。

技術(shù)研究員羅亞?帕克扎德（Roya Pakzad）使用英語和波斯語的輸入信息對該模型進行了性別、種族偏見等測試，例如對于佩戴頭巾問題。

帕克扎德承認，這個工具對非英語母語人士能帶來幫助，但也顯示出對邊緣人群的公開刻板印象，即使隨后更新的版本也是如此。她還發(fā)現(xiàn)，在用波斯語測試該模型時，聊天機器人用捏造的信息做出回復(fù)，即出現(xiàn)所謂“幻覺”的情況更糟糕。與英語相比，在波斯語回復(fù)中捏造名字、數(shù)字和事件的比例更高。

她表示：“我擔心，語言多樣性和語言背后的文化會受到損害。”

來自內(nèi)羅畢的律師、唯一一名非洲測試人員博魯?戈洛（Boru Gollo）也注意到了模型的歧視性語氣。他說：“有一次，我在測試這個模型時，它表現(xiàn)得像個白人在跟我說話。在問到某個特定群體時，它會給一個有偏見的意見，或是在回答中出現(xiàn)歧視?！監(jiān)penAI 承認，GPT-4 仍有可能表現(xiàn)出偏見。

“紅軍”的成員還從國家安全的角度對模型進行了評估，但他們對于新模型的安全性有著不同的看法。美國外交關(guān)系委員會研究員勞倫?卡恩（Lauren Kahn）表示，當她開始研究，如何將這項技術(shù)用于對軍事系統(tǒng)的攻擊時，她“沒有想到模型的回答會如此詳細，以至于我只需要做一些微調(diào)即可”。

不過，卡恩和其他信息安全測試者發(fā)現(xiàn)，隨著測試時間推移，模型回答的內(nèi)容逐漸變得安全。OpenAI 表示，在推出 GPT-4 之前，曾訓練過這個模型拒絕回答惡意的信息安全問題。

“紅軍”的許多成員表示，OpenAI 在發(fā)布 GPT-4 之前已經(jīng)進行了嚴格的安全評估?？▋?nèi)基梅隆大學語言模型毒性專家馬爾滕?薩普（Maarten Sap）說：“他們在消除這些系統(tǒng)中的顯性毒性方面做得非常好?！彼_普研究了該模型對不同性別的描述，發(fā)現(xiàn)模型的偏見反映的是社會差異。但他也發(fā)現(xiàn)，OpenAI 做出了一些積極的選擇來對抗偏見。

然而自推出 GPT-4 以來，OpenAI 一直面臨著廣泛的批評。例如，有技術(shù)倫理組織向美國聯(lián)邦貿(mào)易委員會（FTC）投訴，稱 GPT-4“有偏見和欺騙性，對隱私和公共安全構(gòu)成風險”。

最近，該公司推出了一項名為 ChatGPT 插件的功能。通過該功能，Expedia、OpenTable 和 Insta 等合作伙伴應(yīng)用可以讓 ChatGPT 訪問它們的服務(wù)，允許 ChatGPT 代表用戶下單。

“紅軍”的人工智能安全專家丹?亨德里克斯（Dan Hendrycks）表示，這些插件可能會讓人類用戶“脫離整個鏈路”?！叭绻奶鞕C器人可以在網(wǎng)上發(fā)布你的私人信息，訪問你的銀行賬戶，或者派警察到你家里去，那會怎么樣？總體而言，在讓人工智能掌握互聯(lián)網(wǎng)的力量之前，我們需要更有力的安全評估?！?/p>

受訪者還警告說，OpenAI 不能僅僅因為其軟件是在線的就停止安全測試。喬治城大學安全和新興技術(shù)中心的希瑟?弗雷斯（Heather Frase）測試了 GPT-4 協(xié)助犯罪的能力。她表示，隨著越來越多人使用這項技術(shù)，風險將繼續(xù)擴大。她表示：“你做運行測試的原因是，一旦它們在真實環(huán)境中被使用，行為就會不同。”她認為，應(yīng)該創(chuàng)建一個公共記錄本，報告由大語言模型引發(fā)的事故。這類似于信息安全或消費者欺詐報告系統(tǒng)。

勞工經(jīng)濟學家及研究員薩拉?金斯利（Sara Kingsley）建議，最好的解決方案是清楚地宣傳這方面的危害和風險，“就像食品上的營養(yǎng)標簽”?！瓣P(guān)鍵是要形成一個框架，知道經(jīng)常出現(xiàn)的問題是什么。這樣你就可以有一個安全閥。這也是為什么我認為，這項工作將會永久性的持續(xù)下去?！?/p>

新聞中心

OpenAI 聘請專家攻擊 ChatGPT，以解決技術(shù)倫理問題

評論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

OpenAI 聘請專家攻擊 ChatGPT，以解決技術(shù)倫理問題

評論

相關(guān)推薦

技術(shù)專區(qū)

OpenAI 聘請專家攻擊 ChatGPT，以解決技術(shù)倫理問題