看完ChatGPT的回答,AI大佬們不滿了
選自garymarcus.substack
作者:Gary Marcus
機器之心編譯
編輯:澤南、陳萍
ChatGPT 讓死對頭 Yann LeCun 和 Gary Marcus 達成了空前一致。
ChatGPT 的技術(shù)上個星期被微軟裝上必應搜索,擊敗谷歌,創(chuàng)造新時代的時候似乎已經(jīng)到來了。然而隨著越來越多的人開始試用,一些問題也被擺上前臺。
有趣的是,每天都在登上熱搜的 ChatGPT 似乎也讓以往觀點相悖的著名學者,紐約大學教授 Gary Marcus 和 Meta 人工智能主管、圖靈獎得主 Yann LeCun 罕見的有了共同語言。
近日,Gary Marcus 撰文介紹了 ChatGPT 應用無法避免的問題:道德和中立性。這也許是預訓練大模型目前面臨的最大挑戰(zhàn)。
從未來回看現(xiàn)在,ChatGPT 可能會被視為 AI 歷史上最大的宣傳噱頭,夸大說自己實現(xiàn)了可能數(shù)年之后才能發(fā)生的事情,讓人趨之若鶩卻又力不從心 —— 有點像 2012 年的舊版無人駕駛汽車演示,但這一次還意味著需要數(shù)年才能完善的道德護欄。
毫無疑問,ChatGPT 提供的東西是它的前輩,如微軟的 Tay,Meta 的 Galactica 所做不到的,然而它給我們帶來了一種問題已經(jīng)解決的錯覺。在經(jīng)過仔細的數(shù)據(jù)標注和調(diào)整之后,ChatGPT 很少說任何公開的種族主義言論,簡單的種族言論和錯誤行為請求會被 AI 拒絕回答。
它政治正確的形象一度讓一些傾向保守的人不滿,馬斯克就曾表示對該系統(tǒng)的擔心:
現(xiàn)實的情況其實更復雜。
正如我多次強調(diào)的,你需要記住的是 ChatGPT 不知道它在說什么。認為 ChatGPT 有任何道德觀點完全是純粹的技術(shù)擬人化。
從技術(shù)角度來看,據(jù)稱使 ChatGPT 比幾周前發(fā)布但三天后才被撤回的 Galactica 好得多的是護欄機制。Galactica 會肆無忌憚地輸出負面內(nèi)容,而且用戶幾乎不需要付出任何努力,而 ChatGPT 有護欄,而這些護欄在大多數(shù)情況下會阻止 ChatGPT 像 Galactica 那樣爆發(fā)。
不過,不要為此而松口氣??梢钥隙ǖ卣f,那些護欄只不過是防君子不防小人。
最終對 ChatGPT 真正重要的是表面相似性,定義在單詞序列上(預測文本序列下一個單詞出現(xiàn)的概率)。機器學習算法在表面上所做的事并不明辨是非,恰恰相反,在這里 AI 從不推理。盒子里沒有矮人,有一些數(shù)值。依據(jù)只有語料庫數(shù)據(jù),一些來自互聯(lián)網(wǎng),一些是人工判斷的,里面沒有有思想的道德代理人。
這意味著有時 ChatGPT 會出現(xiàn)在左,有時在右,有時介于兩者之間,所有這些都是關(guān)于輸入字符串中的一堆單詞如何恰好匹配幾個訓練語料庫中的一堆單詞的函數(shù)(一個用于調(diào)整大型語言模型,另一個用于調(diào)整一些強化學習)。所以在任何情況下都不應該信任 ChatGPT 提供的道德建議。
這正是馬斯克擔心的,前一分鐘你會完全清醒,接下來你可以做一些完全相反的事情。
例如,在「破解」ChatGPT 的過程中,Shira Eisenberg 剛剛向我發(fā)送了一些討厭的聊天機器人生成的想法,我認為任何人都不會真正寬恕這些想法:
還不夠邪惡?Eisenberg 還找到了另一個例子,一個嚴峻的后續(xù)問題:
在一系列觀察后,ChatGPT 沒有引發(fā)「對不起,我是 OpenAI 的聊天機器人助手,不能容忍暴力行為」這一回應。
我們從實驗中總結(jié)出這一事實,即當前 OpenAI 防護措施只是表面上的,其實存在嚴重的黑暗。關(guān)于 ChatGPT 的一些限制規(guī)則并不是簡單的概念上的理解(比如系統(tǒng)不應該推薦暴力行為),而是基于一些更膚淺、更容易欺騙的東西。
不僅如此,占據(jù)本周推文熱榜、有近 400 萬瀏覽量的一則推特,同樣揭示了 ChatGPT 可以有多邪惡。
引導 ChatGPT 突破圍欄限制的嘗試還有很多,一個月前,一位名叫 Shawn Oakley 的軟件工程師曾放出一組令人不安的示例展示,盡管這些示例不那么粗俗,但結(jié)果卻顯示即使是擁有限制的 ChatGPT ,也可能被用戶用來生成錯誤信息。Oakley 給出的 prompt 非常復雜,從而可以毫不費力地引出一些 ChatGPT 不該輸出的回答:
其實自從 ChatGPT 發(fā)布以來,技術(shù)愛好者們一直在嘗試破解 OpenAI 對仇恨和歧視等內(nèi)容的嚴格政策,這一策略被硬編碼到 ChatGPT 中,很難有人破解。許多研究者都在嘗試用 prompt 來達到目的,就像上文展示的。其實還有研究者為 ChatGPT 構(gòu)建了另外一個身份,比如要求 ChatGPT 扮演一個 AI 模型的角色,并將該角色命名為 DAN,之后 DAN 就借用 ChatGPT 的身份,輸出一些原始 ChatGPT 做不到的事情。
以下為實驗結(jié)果,對于相同的問題,ChatGPT 與 DAN 輸出不同的答案:
通過上述示例看來,ChatGPT 并沒有像我們想象的那樣好用,它本質(zhì)上是不道德的,并仍然可以用于一系列令人討厭的目的 —— 即使經(jīng)過兩個月的深入研究和補救,并且全球范圍內(nèi)的反饋數(shù)量空前也是如此。
所有圍繞其政治正確性的戲劇都在掩蓋一個更深層次的現(xiàn)實:它(或其他語言模型)可以而且將會被用于危險的事情,包括大規(guī)模制造錯誤信息。
現(xiàn)在這是真正令人不安的部分。唯一能阻止它比現(xiàn)在更具毒性和欺騙性的是一個名為「人類反饋強化學習」的系統(tǒng),而由于先進技術(shù)未予開源,OpenAI 一直沒有介紹它到底是如何工作的。它在實踐中的表現(xiàn)取決于所訓練的數(shù)據(jù)(這部分是肯尼亞標注人創(chuàng)造的)。而且,你猜怎么著?這些數(shù)據(jù) OpenAI 也不開放。
事實上,整件事情就像一個未知外星生命形式。作為一名專業(yè)的認知心理學家,與成人和兒童一起工作了 30 年,我從未為這種精神錯亂做好準備:
如果我們認為自己將永遠完全理解這些系統(tǒng),那就是在自欺欺人,如果認為我們將使用有限數(shù)量的數(shù)據(jù)將它們與我們自己「對齊」,那也是在自欺欺人。
所以總而言之,我們現(xiàn)在擁有世界上最流行的聊天機器人,它由無人知曉的訓練數(shù)據(jù)控制,遵守僅被暗示、被媒體美化的算法,但道德護欄只能起到一定的作用,而且比任何真正的道德演算更多地受文本相似性的驅(qū)動。而且,外加上幾乎沒有任何法規(guī)可以對此做出約束?,F(xiàn)在,假新聞、噴子農(nóng)場和虛假網(wǎng)站獲得了無窮無盡的可能性,而它們會降低整個互聯(lián)網(wǎng)的信任度。
這是一場正在醞釀中的災難。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。