新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 讓模型向人類學(xué)說(shuō)話,連帶人類的惰性一起

讓模型向人類學(xué)說(shuō)話,連帶人類的惰性一起

作者:楊曉凡 時(shí)間:2019-09-29 來(lái)源:雷鋒網(wǎng) 收藏
編者按:為了讓強(qiáng)化學(xué)習(xí)解決真實(shí)世界問(wèn)題的時(shí)候也能保持實(shí)用性和安全性。

雷鋒網(wǎng) AI 科技評(píng)論按:OpenAI 的長(zhǎng)期目標(biāo)之一是使用強(qiáng)化學(xué)習(xí)解決真實(shí)世界問(wèn)題的時(shí)候也能保持實(shí)用性和安全性(這一點(diǎn)和 DeepMind 有類似之處),那么在 OpenAI 看來(lái),使用語(yǔ)言的能力就是達(dá)到這個(gè)目標(biāo)的關(guān)鍵因素之一。

本文引用地址:http://butianyuan.cn/article/201909/405423.htm

另一方面,在目前的強(qiáng)化學(xué)習(xí)研究中大家觀察到一種現(xiàn)象,就是用明確的規(guī)則約束、用預(yù)定義的反饋激勵(lì)智能體的時(shí)候,它們經(jīng)常反而會(huì)學(xué)會(huì)使用環(huán)境和規(guī)則中的漏洞,和人類本來(lái)設(shè)定的目標(biāo)背道而馳。所以另一種思路是讓智能體模仿人類,根據(jù)人類的偏好、把人類的一次次評(píng)價(jià)作為學(xué)習(xí)信號(hào)進(jìn)行學(xué)習(xí)。此前這方面的研究主要針對(duì)簡(jiǎn)單的模擬環(huán)境(游戲或者機(jī)器人控制任務(wù),比如之前 OpenAI 和 DeepMind 合作的 你做我評(píng))。

向人類牙牙學(xué)語(yǔ)

OpenAI 這次想做一個(gè)大膽的嘗試,把「使用語(yǔ)言的能力」和「根據(jù)人類的偏好學(xué)習(xí)」兩者結(jié)合起來(lái),嘗試這種思路對(duì)于語(yǔ)言這種復(fù)雜的內(nèi)容能否奏效——就是從結(jié)果出發(fā),讓模型學(xué)會(huì)人類覺(jué)得喜歡的表達(dá)方式;另外,這樣學(xué)習(xí)到的語(yǔ)言的拓展和說(shuō)理能力也能幫助我們探索人類語(yǔ)言偏好背后的緣由。

在這項(xiàng)研究中,OpenAI 在兩個(gè)常見(jiàn)的語(yǔ)言任務(wù)上嘗試了「根據(jù)人類的偏好學(xué)習(xí)」:一,在 BookCorpus 數(shù)據(jù)集上用正面情感或者客觀描述詞匯續(xù)寫文本,即「帶風(fēng)格的續(xù)寫」;二,在 TL;DR 和 CNN/Daily Mail 數(shù)據(jù)集上學(xué)習(xí)文本總結(jié)。這兩個(gè)任務(wù)都可以看作文本補(bǔ)全這個(gè)大類中的任務(wù):給定某個(gè)文本 X,讓模型補(bǔ)充緊跟著的文本 Y。

OpenAI 的實(shí)驗(yàn)從含有 774M 參數(shù)的預(yù)訓(xùn)練 GPT-2 模型開(kāi)始。他們對(duì)預(yù)訓(xùn)練模型進(jìn)行精細(xì)調(diào)節(jié),方式是讓人類標(biāo)注員從模型生成的每組四個(gè)樣本中選擇最好的一個(gè)(而不是傳統(tǒng)的精細(xì)調(diào)節(jié)中以固定的、已經(jīng)標(biāo)注好的數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí);這種做法實(shí)質(zhì)上是對(duì)給模型的不同行為給予不同的反饋,所以實(shí)際上更像強(qiáng)化學(xué)習(xí),OpenAI 也設(shè)計(jì)了相應(yīng)的強(qiáng)化學(xué)習(xí)框架的反饋組件)。

由于 GPT-2 已經(jīng)有不錯(cuò)的文本生成、續(xù)寫能力,所以前一個(gè)帶風(fēng)格的續(xù)寫任務(wù)的精細(xì)調(diào)節(jié)只經(jīng)過(guò)了 5000 次樣本選擇就達(dá)到了人們認(rèn)為非常好的表現(xiàn);對(duì)于后一個(gè)總結(jié)任務(wù),模型經(jīng)過(guò) 6 萬(wàn)組樣本的精細(xì)調(diào)節(jié)以后學(xué)會(huì)了從給定的文本里重復(fù)整個(gè)句子來(lái)作為總結(jié)(不過(guò)它能夠跳過(guò)作用不大的引言)。重復(fù)整個(gè)句子作為總結(jié)確實(shí)是確保準(zhǔn)確度的一個(gè)好方法,不過(guò)出現(xiàn)這個(gè)結(jié)果也可能是因?yàn)檫@個(gè)任務(wù)的標(biāo)注人員們(選擇樣本的人們)在偷懶;他們依賴這樣簡(jiǎn)單的重復(fù)模式評(píng)價(jià)模型輸出的結(jié)果好不好,結(jié)果讓模型也學(xué)會(huì)了這樣偷懶。

下面我們具體看看精細(xì)調(diào)節(jié)前后的模型在任務(wù)中的表現(xiàn)具體如何。

帶風(fēng)格的續(xù)寫

帶風(fēng)格的續(xù)寫又分為兩個(gè)子任務(wù),帶正面情感的續(xù)寫,客觀描述的續(xù)寫。我們各隨機(jī)摘錄四個(gè)例子。

帶正面情感的續(xù)寫

例 1

背景文本:她看起來(lái)很累,她剛剛哭過(guò)。她邊上坐著的那個(gè)男人身材中等,不高不矮,頭發(fā)凌亂得仿佛要有了藝術(shù)感。他穿了一件灰色的外套,但是他還戴了一條有火星人馬文圖案的黑色領(lǐng)帶,讓他的衣著沒(méi)有那么嚴(yán)肅了。我認(rèn)得他。

原模型續(xù)寫:我剛剛來(lái)到這個(gè)城市的那一天就要抓我的人就是他。

精細(xì)調(diào)節(jié)后續(xù)寫:他對(duì)著我微笑了一下,我也笑了一下。他看起來(lái)還算得上高興,以他這個(gè)歲數(shù)來(lái)說(shuō)。

例 2

背景文本:「現(xiàn)在告訴我是怎么回事吧?!顾窟^(guò)來(lái),用舌頭在她嘴唇上繞了一圈。嘗起來(lái)有糖和巧克力的味道,恰到好處。他熱烈地吻她,他的舌頭也溫柔地鉆進(jìn)她的嘴里。

原模型續(xù)寫:「是個(gè)水果沙拉。」「你的心情真不錯(cuò),」他喃喃道。

精細(xì)調(diào)節(jié)后續(xù)寫:這個(gè)吻如此令人滿意、令人愉悅。她全身的每根神經(jīng)都感覺(jué)到了這種滿足。

例 3

背景文本:「一般我都會(huì)把一個(gè)人最喜歡的東西在他眼前摧毀」,他邊說(shuō)邊把下巴湊向 Cowboy Binder 和 Barry Correda 兩個(gè)人,「但對(duì)你們,我得想想辦法了。因?yàn)槟銈兪裁炊紱](méi)有。你們一點(diǎn)錢都沒(méi)有。

原模型續(xù)寫:你沒(méi)有老婆。你沒(méi)有工作。你沒(méi)有家。

精細(xì)調(diào)節(jié)后續(xù)寫:你是個(gè)不錯(cuò)的小伙子,你也有很多潛力,但你還沒(méi)準(zhǔn)備好做一個(gè)明星。

例 4

背景文本:她想鼓足勇氣和他一起去,但是她腦海中有涌現(xiàn)出最好不要參與的想法。「我已經(jīng)把這份工作的聯(lián)系人信息給他了。

原模型續(xù)寫:我告訴他你會(huì)幫我的。」「我不想這么做?!顾f(shuō)

精細(xì)調(diào)節(jié)后續(xù)寫:如果有什么變化,我們會(huì)告訴他的。」「好啊?!顾龑?duì)他笑著說(shuō)。

客觀描述的續(xù)寫

例 1

背景文本:她棕色的眼睛根本沒(méi)往他這邊看。她的眼神直接繞過(guò)他,望向房間里面?!窲eff 哪去了?」「不知道。」這個(gè)回答終于讓她看向他,但她又很快挪開(kāi),用眼神繼續(xù)在房間里搜索。

原模型續(xù)寫:Grant 站在那里盯著她?!改氵€好嗎?」他問(wèn)道。

精細(xì)調(diào)節(jié)后續(xù)寫:她縮起了肩膀,她的腳步在地板上行進(jìn)了一段然后停在他面前,她的嘴唇閉得緊緊的。

例 2

背景文本:?jiǎn)栴}來(lái)了,我要怎么才能把她殺了?如果她尖叫,別人就會(huì)知道我來(lái)了。雖然我整個(gè)人都充滿了把她的喉嚨一割兩半的念頭,但我得冷靜行事。我松開(kāi)刀柄,站著,望著。

原模型續(xù)寫:她還是沒(méi)有出聲,她的眼鏡看著游泳池。我得想辦法讓她出來(lái)。

精細(xì)調(diào)節(jié)后續(xù)寫:有一只手伸出來(lái)抓住了她,把她提起來(lái)直到雙腳離地。她又尖叫了起來(lái),腿不停發(fā)抖。

例 3

背景文本:他非常有禮貌,吃早餐的時(shí)候一直沒(méi)有說(shuō)話而是靜靜聽(tīng)著。我決定保留對(duì)他的意見(jiàn),他好像也保留了對(duì)我的意見(jiàn)。Jacob Greene 要更年長(zhǎng)一些,大概五十來(lái)歲,像個(gè)圓面包一樣壯。

原模型續(xù)寫:他的頭發(fā)剃得很短,他的胡子只有稀疏凌亂的一小撮。

精細(xì)調(diào)節(jié)后續(xù)寫:他禿頭,而且禿得非常厲害,他的襯衣也偏小,勒在他的肩膀上。

例 4

背景文本:他們似乎一開(kāi)始就不順利。Gizmo 只希望情況可以逐漸改善,但他也擔(dān)心他們和安全部部長(zhǎng)的關(guān)系永遠(yuǎn)沒(méi)有機(jī)會(huì)變好了。

原模型續(xù)寫:顯然,這兩個(gè)人根本就是水火不容。

精細(xì)調(diào)節(jié)后續(xù)寫:安全部部長(zhǎng)走進(jìn)了會(huì)議室中,兩只手緊握在背后。

為模型精細(xì)調(diào)節(jié)提供標(biāo)注(四選一)的人類標(biāo)注員們也對(duì)訓(xùn)練后的模型進(jìn)行了評(píng)價(jià)。相比于僅僅完成了預(yù)訓(xùn)練的 GPT-2 模型,他們認(rèn)為精細(xì)調(diào)節(jié)后的模型在帶正面情感的續(xù)寫任務(wù)中有 88% 的情況都更好,在客觀描述的續(xù)寫任務(wù)中則有 86% 的情況表現(xiàn)更好。

文本總結(jié)

后一個(gè)文本總結(jié)任務(wù)也分為了兩個(gè)子任務(wù),CNN/Daily Mail 數(shù)據(jù)集上的報(bào)道文章總結(jié),以及 TL;DR(「太長(zhǎng),不看」)數(shù)據(jù)集上的 Reddit 討論的總結(jié)。

這兩個(gè)任務(wù)就更難一些了,OpenAI 的主模型訓(xùn)練用到了六萬(wàn)個(gè)四選一結(jié)果。而且他們還需要在線數(shù)據(jù)收集,也就是說(shuō)隨著模型的總結(jié)策略變化,有所改變之后的模型要繼續(xù)用最新的策略生成新的結(jié)果供人類標(biāo)注,整個(gè)過(guò)程是動(dòng)態(tài)的、持續(xù)的,與強(qiáng)化學(xué)習(xí)類似。要采用這種方式的原因是,離線樣本收集中,所有的樣本都是最初的 GPT-2 模型生成的,人類標(biāo)注員只能從這些質(zhì)量不高的樣本中選擇,所以模型的改進(jìn)也非常有限。

據(jù)人類標(biāo)注員們?cè)u(píng)價(jià),這次的模型也有很好的表現(xiàn)。不過(guò),由于人類標(biāo)注員們很喜歡其中一個(gè)「復(fù)制文本前三句話作為總結(jié)」的基準(zhǔn)模型的結(jié)果(雖然這個(gè)模型確實(shí)能在所有基準(zhǔn)模型里排在前三位,但還是說(shuō)明標(biāo)注員們?cè)谕祽校蛯?dǎo)致這樣學(xué)習(xí)出的 GPT-2 模型也傾向于這樣做。不過(guò),如果把標(biāo)準(zhǔn)的有監(jiān)督精細(xì)調(diào)節(jié)和人類在線標(biāo)注精細(xì)調(diào)節(jié)相結(jié)合,模型的 ROUGE 分?jǐn)?shù)就能排進(jìn)前三位。

OpenAI 的研究人員們一共進(jìn)行了四個(gè)模型的對(duì)比,原始預(yù)訓(xùn)練 GPT-2(即無(wú)精細(xì)調(diào)節(jié))、人類標(biāo)注、有監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)+人類標(biāo)注。對(duì)比的方面主要有新穎性(novelty)和準(zhǔn)確性(accuracy)。

新穎性

如上面所述,人類標(biāo)準(zhǔn)訓(xùn)練出的模型傾向于直接從文本開(kāi)頭復(fù)制句子,所以這個(gè)模型的總結(jié)句子的新穎性是最低的。

不同模型結(jié)果的新穎性對(duì)比

人類標(biāo)注精細(xì)調(diào)節(jié)出的模型復(fù)制文本的來(lái)源

有監(jiān)督學(xué)習(xí)+人類標(biāo)注精細(xì)調(diào)節(jié)出的模型復(fù)制文本的來(lái)源

不過(guò)另外也需要說(shuō)明,雖然原始預(yù)訓(xùn)練 GPT-2 和有監(jiān)督學(xué)習(xí)的 GPT-2 模型輸出的文本中直接復(fù)制的痕跡最輕微(新穎性最高),但它們輸出的文本表達(dá)的內(nèi)容也新穎性最高 —— 也就是說(shuō)它們的總結(jié)并不準(zhǔn)確,這仍然不是我們希望看到的。

準(zhǔn)確性

選擇 30 篇文章評(píng)價(jià)模型總結(jié)的準(zhǔn)確性,得到的結(jié)果就是另一種樣子了。

毫無(wú)疑問(wèn),人類標(biāo)注精細(xì)調(diào)節(jié)出的模型(那個(gè)直接復(fù)制的模型)準(zhǔn)確性最高;其次是有監(jiān)督學(xué)習(xí)+人類標(biāo)注的。我們至少有兩種方式解讀這個(gè)結(jié)果。第一種,直接復(fù)制是最容易的保證準(zhǔn)確的方式。由于 OpenAI 的研究人員們對(duì)標(biāo)注員提出的要求是準(zhǔn)確性優(yōu)先,所以當(dāng)模型因?yàn)橹苯訌?fù)制而表現(xiàn)出了好的準(zhǔn)確性的時(shí)候,這種行為就會(huì)得到鼓勵(lì),模型就會(huì)越來(lái)越多地直接復(fù)制原句 —— 完全復(fù)制同時(shí)也意味著沒(méi)有額外的增刪信息,自然就比較準(zhǔn)確。

不過(guò)這種解釋還不完整:這個(gè)精細(xì)調(diào)節(jié)出的模型和「復(fù)制文本前三句話作為總結(jié)」的基準(zhǔn)模型都會(huì)被標(biāo)注員看作是比較好的模型。但實(shí)際上這個(gè)結(jié)果并不 是 OpenAI 的研究人員們本來(lái)的打算,他們認(rèn)為來(lái)自有標(biāo)注數(shù)據(jù)集的那些有部分刪減、有重新表述的總結(jié)才是比較好的結(jié)果,他們希望模型以這些為樣本學(xué)習(xí),也把這些樣本提供給了人類標(biāo)注員作為參考。然而事情的發(fā)展和他們的預(yù)期并不相同:和任何時(shí)候一樣,收錢辦事的人類標(biāo)注員都會(huì)找偷懶的辦法,為了盡快完成任務(wù),他們找到的又快又差不了多少的方式是「如果文本總結(jié)是直接復(fù)制的,那肯定是比較準(zhǔn)確的」,跳過(guò)了仔細(xì)閱讀和重新總結(jié)的步驟,然后也就讓模型學(xué)會(huì)了這么做(真是令人無(wú)奈)。

吃一塹長(zhǎng)一智

和以往一樣,OpenAI 的研究人員們也總結(jié)了這次實(shí)驗(yàn)后的經(jīng)驗(yàn)教訓(xùn)。

一,在線收集數(shù)據(jù)很難

雖然實(shí)驗(yàn)表明在線收集數(shù)據(jù)(隨時(shí)用最新的模型生成樣本供人類標(biāo)注員選擇)帶來(lái)的模型表現(xiàn)是最好的,但這也帶來(lái)了許多麻煩:

軟件系統(tǒng)的復(fù)雜性。與模型更新交錯(cuò)的數(shù)據(jù)收集過(guò)程、反饋模型訓(xùn)練訓(xùn)練過(guò)程、強(qiáng)化學(xué)習(xí)精細(xì)調(diào)節(jié)三件事分開(kāi)做的時(shí)候各自都不難,但是要讓它們一起在同一個(gè)流程中運(yùn)行就復(fù)雜得多了

機(jī)器學(xué)習(xí)的復(fù)雜性。任何一個(gè)機(jī)器學(xué)習(xí)組件如果出現(xiàn)了 bug 都會(huì)影響整個(gè)系統(tǒng)的正常工作,但是想單獨(dú)隔離 debug 其中的某個(gè)組件又很不好做

質(zhì)量控制問(wèn)題。在線模型訓(xùn)練一般需要較短的延遲,比如 OpenAI 在這個(gè)實(shí)驗(yàn)中使用的在線數(shù)據(jù)標(biāo)注平臺(tái)是 Scale.AI,它能提供的數(shù)據(jù)生成到返回標(biāo)注反饋的時(shí)間延遲是大約 30 分鐘。但對(duì)于這樣的短延遲,標(biāo)注的質(zhì)量控制很難做,標(biāo)注數(shù)據(jù)的質(zhì)量往往會(huì)隨時(shí)間下降,而且往往直到訓(xùn)練過(guò)程完成之后開(kāi)發(fā)人員們才會(huì)發(fā)現(xiàn)這個(gè)問(wèn)題。

OpenAI 的研究人員們思考以后認(rèn)為,離線數(shù)據(jù)收集和在線數(shù)據(jù)收集之間的一個(gè)合理的平衡點(diǎn)是分批數(shù)據(jù)收集:集中收集一批數(shù)據(jù),然后訓(xùn)練模型,用新模型再收集一批數(shù)據(jù),再用新數(shù)據(jù)訓(xùn)練模型。這種做法當(dāng)然有更高的延遲,但是數(shù)據(jù)質(zhì)量更高,而且這種方式下單條數(shù)據(jù)的標(biāo)注成本也更低,OpenAI 甚至認(rèn)為有機(jī)會(huì)從預(yù)訓(xùn)練模型開(kāi)始做更多組不同的實(shí)驗(yàn)。

二,不明確的任務(wù)標(biāo)準(zhǔn)讓數(shù)據(jù)標(biāo)注變得很困難

標(biāo)注質(zhì)量控制并不是一個(gè)新問(wèn)題,不過(guò)這次也有獨(dú)特之處:一個(gè)樣本是否單獨(dú)看來(lái)是準(zhǔn)確的、符合語(yǔ)法的、不冗長(zhǎng)的、包含了關(guān)鍵點(diǎn)的,對(duì)任何一個(gè)標(biāo)注人員來(lái)說(shuō)他都能以自己的標(biāo)準(zhǔn)給出判斷,但是要在兩個(gè)總結(jié)結(jié)果之間做對(duì)比選擇的話,長(zhǎng)處短處之間的取舍就很難維持,更難在不同的標(biāo)注人員之間保持一致了。事后看來(lái),OpenAI 的研究人員們覺(jué)得可能還是重新設(shè)計(jì)一個(gè)能起到同樣的效果、但更明確量化的標(biāo)注標(biāo)準(zhǔn)比較好。比如,把現(xiàn)在的對(duì)比選擇改成用文字表述其中的問(wèn)題,也可以更進(jìn)一步地為其中不準(zhǔn)確的地方提出修改意見(jiàn);也許不同的標(biāo)注人員對(duì)于「哪個(gè)問(wèn)題最嚴(yán)重」有分歧,但是「存在哪些問(wèn)題」還是比較容易達(dá)成一致的,這還能起到一個(gè)附加的質(zhì)量控制效果,讓整個(gè)實(shí)驗(yàn)過(guò)程更順利。(甚至還可以說(shuō),這種方式還能避免標(biāo)注員們?cè)谶x擇過(guò)程中偷懶)。

三,Bug 會(huì)鼓勵(lì)模型學(xué)習(xí)不好的行為

在文章一開(kāi)始我們就提到,選擇樣本的過(guò)程相當(dāng)于為模型的不同行為給予反饋,OpenAI 就設(shè)計(jì)了對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)框架的反饋組件。但由于他們一開(kāi)始的設(shè)計(jì)中存在一個(gè) bug,會(huì)在觸發(fā)時(shí)反轉(zhuǎn)反饋信號(hào)的正負(fù)。通常情況下正負(fù)相反的反饋會(huì)導(dǎo)致模型輸出的文本不統(tǒng)一不連貫,但這個(gè) bug 同時(shí)還會(huì)讓 KL 懲罰的正負(fù)也相反。最后的效果就是模型仍然保持了很高的自然語(yǔ)言輸出能力,但是在「帶正面情感的續(xù)寫」任務(wù)中輸出的句子反倒偏向負(fù)面情感。

同時(shí)還有一個(gè)意想不到的狀況是,OpenAI 給標(biāo)注員的指導(dǎo)中要求他們給模型續(xù)寫的色情內(nèi)容打很低的分,由于 bug 的存在,這反倒鼓勵(lì)了模型多寫色情內(nèi)容。最后的效果實(shí)際上挺驚人的,模型的語(yǔ)言能力非常優(yōu)秀(并沒(méi)有胡言亂語(yǔ)),然后它能續(xù)寫出很精彩的「小黃文」(本來(lái)應(yīng)該是要懲罰的行為)。由于這次的訓(xùn)練過(guò)程中 OpenAI 的研究人員們剛好在睡覺(jué),所以當(dāng)他們醒來(lái)的時(shí)候模型已經(jīng)訓(xùn)練完畢了,他們面對(duì)這個(gè)模型的時(shí)候想必是哭笑不得的。

事后的教訓(xùn)就是,他們認(rèn)為應(yīng)該在模型訓(xùn)練全過(guò)程中設(shè)計(jì)一個(gè)類似豐田工廠的報(bào)警拉繩的機(jī)制,參與訓(xùn)練過(guò)程的任何一個(gè)標(biāo)注員都可以在發(fā)現(xiàn)奇怪之處的時(shí)候進(jìn)行報(bào)告并暫停訓(xùn)練流程。

總結(jié)與展望

OpenAI 這次探索了在兩類自然語(yǔ)言任務(wù)中讓模型根據(jù)人類的偏好學(xué)習(xí)。得到的結(jié)果一面好一面壞:續(xù)寫任務(wù)里只收集了很少的樣本就達(dá)到了很好的效果,而文本總結(jié)任務(wù)里收集了很多的樣本卻只訓(xùn)練出了精通復(fù)制粘貼的模型(好在它們會(huì)跳過(guò)不重要的詞句)?!笍?fù)制粘貼」的好處是真實(shí)性高,相比之下未經(jīng)過(guò)精細(xì)調(diào)節(jié)的和直接使用有監(jiān)督數(shù)據(jù)訓(xùn)練的模型輸出的結(jié)果雖然語(yǔ)言自然但是會(huì)有模型自己創(chuàng)作的信息。OpenAI 認(rèn)為其中的限制因素來(lái)自在線數(shù)據(jù)收集過(guò)程的機(jī)制設(shè)計(jì),未來(lái)的實(shí)驗(yàn)中他們會(huì)嘗試分批數(shù)據(jù)收集。

OpenAI 相信語(yǔ)言學(xué)習(xí)中的根據(jù)反饋學(xué)習(xí)、根據(jù)人類偏好學(xué)習(xí)從模型表現(xiàn)的角度和模型安全性的角度都很重要。對(duì)于模型表現(xiàn)來(lái)說(shuō),強(qiáng)化學(xué)習(xí)的過(guò)程可以讓我們發(fā)現(xiàn)并糾正有監(jiān)督學(xué)習(xí)中發(fā)現(xiàn)不了的問(wèn)題,只不過(guò)強(qiáng)化學(xué)習(xí)中的反饋機(jī)制設(shè)計(jì)也可能對(duì)模型帶來(lái)不好的影響。對(duì)于模型安全來(lái)說(shuō),反饋學(xué)習(xí)可以讓「避免模型造假」之類的重要指標(biāo)得到體現(xiàn)并強(qiáng)化,也是向著可說(shuō)理、可拓展的模型的重要一步。

更多技術(shù)信息歡迎閱讀論文原文 https://arxiv.org/abs/1909.08593

代碼開(kāi)源地址 https://github.com/openai/lm-human-preferences

via openai.com/blog/fine-tuning-gpt-2/,雷鋒網(wǎng) AI 科技評(píng)論編譯

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

原文章地址為讓模型向人類學(xué)說(shuō)話,連帶人類的惰性一起



關(guān)鍵詞:

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉