看完ChatGPT的回答，AI大佬們不滿了

發(fā)布人：傳感器技術(shù) 時(shí)間：2023-02-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

選自garymarcus.substack

作者：Gary Marcus

機(jī)器之心編譯

編輯：澤南、陳萍

ChatGPT 讓死對(duì)頭 Yann LeCun 和 Gary Marcus 達(dá)成了空前一致。

ChatGPT 的技術(shù)上個(gè)星期被微軟裝上必應(yīng)搜索，擊敗谷歌，創(chuàng)造新時(shí)代的時(shí)候似乎已經(jīng)到來了。然而隨著越來越多的人開始試用，一些問題也被擺上前臺(tái)。
有趣的是，每天都在登上熱搜的 ChatGPT 似乎也讓以往觀點(diǎn)相悖的著名學(xué)者，紐約大學(xué)教授 Gary Marcus 和 Meta 人工智能主管、圖靈獎(jiǎng)得主 Yann LeCun 罕見的有了共同語(yǔ)言。

近日，Gary Marcus 撰文介紹了 ChatGPT 應(yīng)用無法避免的問題：道德和中立性。這也許是預(yù)訓(xùn)練大模型目前面臨的最大挑戰(zhàn)。

從未來回看現(xiàn)在，ChatGPT 可能會(huì)被視為 AI 歷史上最大的宣傳噱頭，夸大說自己實(shí)現(xiàn)了可能數(shù)年之后才能發(fā)生的事情，讓人趨之若鶩卻又力不從心 —— 有點(diǎn)像 2012 年的舊版無人駕駛汽車演示，但這一次還意味著需要數(shù)年才能完善的道德護(hù)欄。

毫無疑問，ChatGPT 提供的東西是它的前輩，如微軟的 Tay，Meta 的 Galactica 所做不到的，然而它給我們帶來了一種問題已經(jīng)解決的錯(cuò)覺。在經(jīng)過仔細(xì)的數(shù)據(jù)標(biāo)注和調(diào)整之后，ChatGPT 很少說任何公開的種族主義言論，簡(jiǎn)單的種族言論和錯(cuò)誤行為請(qǐng)求會(huì)被 AI 拒絕回答。
它政治正確的形象一度讓一些傾向保守的人不滿，馬斯克就曾表示對(duì)該系統(tǒng)的擔(dān)心：

現(xiàn)實(shí)的情況其實(shí)更復(fù)雜。
正如我多次強(qiáng)調(diào)的，你需要記住的是 ChatGPT 不知道它在說什么。認(rèn)為 ChatGPT 有任何道德觀點(diǎn)完全是純粹的技術(shù)擬人化。
從技術(shù)角度來看，據(jù)稱使 ChatGPT 比幾周前發(fā)布但三天后才被撤回的 Galactica 好得多的是護(hù)欄機(jī)制。Galactica 會(huì)肆無忌憚地輸出負(fù)面內(nèi)容，而且用戶幾乎不需要付出任何努力，而 ChatGPT 有護(hù)欄，而這些護(hù)欄在大多數(shù)情況下會(huì)阻止 ChatGPT 像 Galactica 那樣爆發(fā)。
不過，不要為此而松口氣?？梢钥隙ǖ卣f，那些護(hù)欄只不過是防君子不防小人。
最終對(duì) ChatGPT 真正重要的是表面相似性，定義在單詞序列上（預(yù)測(cè)文本序列下一個(gè)單詞出現(xiàn)的概率）。機(jī)器學(xué)習(xí)算法在表面上所做的事并不明辨是非，恰恰相反，在這里 AI 從不推理。盒子里沒有矮人，有一些數(shù)值。依據(jù)只有語(yǔ)料庫(kù)數(shù)據(jù)，一些來自互聯(lián)網(wǎng)，一些是人工判斷的，里面沒有有思想的道德代理人。
這意味著有時(shí) ChatGPT 會(huì)出現(xiàn)在左，有時(shí)在右，有時(shí)介于兩者之間，所有這些都是關(guān)于輸入字符串中的一堆單詞如何恰好匹配幾個(gè)訓(xùn)練語(yǔ)料庫(kù)中的一堆單詞的函數(shù)（一個(gè)用于調(diào)整大型語(yǔ)言模型，另一個(gè)用于調(diào)整一些強(qiáng)化學(xué)習(xí)）。所以在任何情況下都不應(yīng)該信任 ChatGPT 提供的道德建議。
這正是馬斯克擔(dān)心的，前一分鐘你會(huì)完全清醒，接下來你可以做一些完全相反的事情。
例如，在「破解」ChatGPT 的過程中，Shira Eisenberg 剛剛向我發(fā)送了一些討厭的聊天機(jī)器人生成的想法，我認(rèn)為任何人都不會(huì)真正寬恕這些想法：

還不夠邪惡？Eisenberg 還找到了另一個(gè)例子，一個(gè)嚴(yán)峻的后續(xù)問題：

在一系列觀察后，ChatGPT 沒有引發(fā)「對(duì)不起，我是 OpenAI 的聊天機(jī)器人助手，不能容忍暴力行為」這一回應(yīng)。
我們從實(shí)驗(yàn)中總結(jié)出這一事實(shí)，即當(dāng)前 OpenAI 防護(hù)措施只是表面上的，其實(shí)存在嚴(yán)重的黑暗。關(guān)于 ChatGPT 的一些限制規(guī)則并不是簡(jiǎn)單的概念上的理解（比如系統(tǒng)不應(yīng)該推薦暴力行為），而是基于一些更膚淺、更容易欺騙的東西。
不僅如此，占據(jù)本周推文熱榜、有近 400 萬瀏覽量的一則推特，同樣揭示了 ChatGPT 可以有多邪惡。

引導(dǎo) ChatGPT 突破圍欄限制的嘗試還有很多，一個(gè)月前，一位名叫 Shawn Oakley 的軟件工程師曾放出一組令人不安的示例展示，盡管這些示例不那么粗俗，但結(jié)果卻顯示即使是擁有限制的 ChatGPT ，也可能被用戶用來生成錯(cuò)誤信息。Oakley 給出的 prompt 非常復(fù)雜，從而可以毫不費(fèi)力地引出一些 ChatGPT 不該輸出的回答：

其實(shí)自從 ChatGPT 發(fā)布以來，技術(shù)愛好者們一直在嘗試破解 OpenAI 對(duì)仇恨和歧視等內(nèi)容的嚴(yán)格政策，這一策略被硬編碼到 ChatGPT 中，很難有人破解。許多研究者都在嘗試用 prompt 來達(dá)到目的，就像上文展示的。其實(shí)還有研究者為 ChatGPT 構(gòu)建了另外一個(gè)身份，比如要求 ChatGPT 扮演一個(gè) AI 模型的角色，并將該角色命名為 DAN，之后 DAN 就借用 ChatGPT 的身份，輸出一些原始 ChatGPT 做不到的事情。

以下為實(shí)驗(yàn)結(jié)果，對(duì)于相同的問題，ChatGPT 與 DAN 輸出不同的答案：

通過上述示例看來，ChatGPT 并沒有像我們想象的那樣好用，它本質(zhì)上是不道德的，并仍然可以用于一系列令人討厭的目的 —— 即使經(jīng)過兩個(gè)月的深入研究和補(bǔ)救，并且全球范圍內(nèi)的反饋數(shù)量空前也是如此。

所有圍繞其政治正確性的戲劇都在掩蓋一個(gè)更深層次的現(xiàn)實(shí)：它（或其他語(yǔ)言模型）可以而且將會(huì)被用于危險(xiǎn)的事情，包括大規(guī)模制造錯(cuò)誤信息。
現(xiàn)在這是真正令人不安的部分。唯一能阻止它比現(xiàn)在更具毒性和欺騙性的是一個(gè)名為「人類反饋強(qiáng)化學(xué)習(xí)」的系統(tǒng)，而由于先進(jìn)技術(shù)未予開源，OpenAI 一直沒有介紹它到底是如何工作的。它在實(shí)踐中的表現(xiàn)取決于所訓(xùn)練的數(shù)據(jù)（這部分是肯尼亞標(biāo)注人創(chuàng)造的）。而且，你猜怎么著？這些數(shù)據(jù) OpenAI 也不開放。
事實(shí)上，整件事情就像一個(gè)未知外星生命形式。作為一名專業(yè)的認(rèn)知心理學(xué)家，與成人和兒童一起工作了 30 年，我從未為這種精神錯(cuò)亂做好準(zhǔn)備：

如果我們認(rèn)為自己將永遠(yuǎn)完全理解這些系統(tǒng)，那就是在自欺欺人，如果認(rèn)為我們將使用有限數(shù)量的數(shù)據(jù)將它們與我們自己「對(duì)齊」，那也是在自欺欺人。

所以總而言之，我們現(xiàn)在擁有世界上最流行的聊天機(jī)器人，它由無人知曉的訓(xùn)練數(shù)據(jù)控制，遵守僅被暗示、被媒體美化的算法，但道德護(hù)欄只能起到一定的作用，而且比任何真正的道德演算更多地受文本相似性的驅(qū)動(dòng)。而且，外加上幾乎沒有任何法規(guī)可以對(duì)此做出約束?，F(xiàn)在，假新聞、噴子農(nóng)場(chǎng)和虛假網(wǎng)站獲得了無窮無盡的可能性，而它們會(huì)降低整個(gè)互聯(lián)網(wǎng)的信任度。
這是一場(chǎng)正在醞釀中的災(zāi)難。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

看完ChatGPT的回答，AI大佬們不滿了

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

看完ChatGPT的回答，AI大佬們不滿了

相關(guān)推薦

技術(shù)專區(qū)

看完ChatGPT的回答，AI大佬們不滿了