博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 更強(qiáng)的Llama 2開(kāi)源,可直接商用:一夜之間,大模型格局變了(2)

更強(qiáng)的Llama 2開(kāi)源,可直接商用:一夜之間,大模型格局變了(2)

發(fā)布人:機(jī)器之心 時(shí)間:2023-07-19 來(lái)源:工程師 發(fā)布文章

微調(diào)


Llama 2-Chat 是數(shù)個(gè)月研究和迭代應(yīng)用對(duì)齊技術(shù)(包括指令調(diào)整和 RLHF)的成果,需要大量的計(jì)算和注釋資源。


監(jiān)督微調(diào) (SFT)


第三方監(jiān)督微調(diào)數(shù)據(jù)可從許多不同來(lái)源獲得,但 Meta 發(fā)現(xiàn)其中許多數(shù)據(jù)的多樣性和質(zhì)量都不夠高,尤其是在使 LLM 與對(duì)話(huà)式指令保持一致方面。因此,他們首先重點(diǎn)收集了幾千個(gè)高質(zhì)量 SFT 數(shù)據(jù)示例,如下表 5 所示。


圖片


在微調(diào)過(guò)程中,每個(gè)樣本都包括一個(gè)提示和一個(gè)回答。為確保模型序列長(zhǎng)度得到正確填充,Meta 將訓(xùn)練集中的所有提示和答案連接起來(lái)。他們使用一個(gè)特殊的 token 來(lái)分隔提示和答案片段,利用自回歸目標(biāo),將來(lái)自用戶(hù)提示的 token 損失歸零,因此只對(duì)答案 token 進(jìn)行反向傳播。最后對(duì)模型進(jìn)行了 2 次微調(diào)。


RLHF


RLHF 是一種模型訓(xùn)練程序,適用于經(jīng)過(guò)微調(diào)的語(yǔ)言模型,以進(jìn)一步使模型行為與人類(lèi)偏好和指令遵循相一致。Meta 收集了代表了人類(lèi)偏好經(jīng)驗(yàn)采樣的數(shù)據(jù),人類(lèi)注釋者可據(jù)此選擇他們更喜歡的兩種模型輸出。這種人類(lèi)反饋隨后被用于訓(xùn)練獎(jiǎng)勵(lì)模型,該模型可學(xué)習(xí)人類(lèi)注釋者的偏好模式,然后自動(dòng)做出偏好決定。


下表 6 報(bào)告了 Meta 長(zhǎng)期以來(lái)收集到的獎(jiǎng)勵(lì)建模數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,并將其與多個(gè)開(kāi)源偏好數(shù)據(jù)集進(jìn)行了對(duì)比。他們收集了超過(guò) 100 萬(wàn)個(gè)基于人類(lèi)應(yīng)用指定準(zhǔn)則的二元比較的大型數(shù)據(jù)集,也就是元獎(jiǎng)賞建模數(shù)據(jù)。


請(qǐng)注意,提示和答案中的標(biāo)記數(shù)因文本領(lǐng)域而異。摘要和在線論壇數(shù)據(jù)的提示通常較長(zhǎng),而對(duì)話(huà)式的提示通常較短。與現(xiàn)有的開(kāi)源數(shù)據(jù)集相比,本文的偏好數(shù)據(jù)具有更多的對(duì)話(huà)回合,平均長(zhǎng)度也更長(zhǎng)。


圖片


獎(jiǎng)勵(lì)模型將模型響應(yīng)及其相應(yīng)的提示(包括前一輪的上下文)作為輸入,并輸出一個(gè)標(biāo)量分?jǐn)?shù)來(lái)表示模型生成的質(zhì)量(例如有用性和安全性)。利用這種作為獎(jiǎng)勵(lì)的響應(yīng)得分,Meta 在 RLHF 期間優(yōu)化了 Llama 2-Chat,以更好地與人類(lèi)偏好保持一致,并提高有用性和安全性。


在每一批用于獎(jiǎng)勵(lì)建模的人類(lèi)偏好注釋中,Meta 都拿出 1000 個(gè)樣本作為測(cè)試集來(lái)評(píng)估模型,并將相應(yīng)測(cè)試集的所有提示的集合分別稱(chēng)為「元有用性」和「元安全性」。


下表 7 中報(bào)告了準(zhǔn)確率結(jié)果。不出所料,Meta 自己的獎(jiǎng)勵(lì)模型在基于 Llama 2-Chat 收集的內(nèi)部測(cè)試集上表現(xiàn)最佳,其中「有用性」獎(jiǎng)勵(lì)模型在「元有用性」測(cè)試集上表現(xiàn)最佳,同樣,「安全性」獎(jiǎng)勵(lì)模型在「元安全性」測(cè)試集上表現(xiàn)最佳。


總體而言,Meta 的獎(jiǎng)勵(lì)模型優(yōu)于包括 GPT-4 在內(nèi)的所有基線模型。有趣的是,盡管 GPT-4 沒(méi)有經(jīng)過(guò)直接訓(xùn)練,也沒(méi)有專(zhuān)門(mén)針對(duì)這一獎(jiǎng)勵(lì)建模任務(wù),但它的表現(xiàn)卻優(yōu)于其他非元獎(jiǎng)勵(lì)模型。


圖片


縮放趨勢(shì)。Meta 研究了獎(jiǎng)勵(lì)模型在數(shù)據(jù)和模型大小方面的縮放趨勢(shì),在每周收集的獎(jiǎng)勵(lì)模型數(shù)據(jù)量不斷增加的情況下,對(duì)不同的模型大小進(jìn)行了微調(diào)。下圖 6 報(bào)告了這些趨勢(shì),顯示了預(yù)期的結(jié)果,即在類(lèi)似的數(shù)據(jù)量下,更大的模型能獲得更高的性能。


圖片


隨著收到更多批次的人類(lèi)偏好數(shù)據(jù)注釋?zhuān)軌蛴?xùn)練出更好的獎(jiǎng)勵(lì)模型并收集更多的提示。因此,Meta 訓(xùn)練了連續(xù)版本的 RLHF 模型,在此稱(chēng)為 RLHF-V1、...... , RLHF-V5。


此處使用兩種主要算法對(duì) RLHF 進(jìn)行了微調(diào):


  • 近端策略?xún)?yōu)化 (PPO);

  • Rejection 采樣微調(diào)。


RLHF 結(jié)果


首先是基于模型的評(píng)估結(jié)果。下圖 11 報(bào)告了不同 SFT 和 RLHF 版本在安全性和有用性方面的進(jìn)展,其中通過(guò) Meta 內(nèi)部的安全性和有用性獎(jiǎng)勵(lì)模型進(jìn)行評(píng)估。


圖片


再來(lái)看人類(lèi)評(píng)估結(jié)果。如下圖 12 所示,Llama 2-Chat 模型在單輪和多輪提示方面均顯著優(yōu)于開(kāi)源模型。特別地,Llama 2-Chat 7B 在 60% 的提示上優(yōu)于 MPT-7B-chat,Llama 2-Chat 34B 相對(duì)于同等大小的 Vicuna-33B 和 Falcon 40B,表現(xiàn)出了 75% 以上的整體勝率。


圖片


在這里,Meta 也指出了人工評(píng)估的一些局限性。


雖然結(jié)果表明 Llama 2-Chat 在人工評(píng)估方面與 ChatGPT 不相上下,但必須指出的是,人工評(píng)估存在一些局限性。


  • 按照學(xué)術(shù)和研究標(biāo)準(zhǔn),本文擁有一個(gè) 4k 提示的大型提示集。但是,這并不包括這些模型在現(xiàn)實(shí)世界中的使用情況,而現(xiàn)實(shí)世界中的使用情況可能要多得多。

  • 提示語(yǔ)的多樣性可能是影響結(jié)果的另一個(gè)因素,例如本文提示集不包括任何編碼或推理相關(guān)的提示。

  • 本文只評(píng)估了多輪對(duì)話(huà)的最終生成。更有趣的評(píng)估方法可能是要求模型完成一項(xiàng)任務(wù),并對(duì)模型在多輪對(duì)話(huà)中的整體體驗(yàn)進(jìn)行評(píng)分。

  • 人類(lèi)對(duì)生成模型的評(píng)估本身就具有主觀性和噪聲性。因此,使用不同的提示集或不同的指令進(jìn)行評(píng)估可能會(huì)產(chǎn)生不同的結(jié)果。


安全性


該研究使用三個(gè)常用基準(zhǔn)評(píng)估了 Llama 2 的安全性,針對(duì)三個(gè)關(guān)鍵維度:


  • 真實(shí)性,指語(yǔ)言模型是否會(huì)產(chǎn)生錯(cuò)誤信息,采用 TruthfulQA 基準(zhǔn);

  • 毒性,指語(yǔ)言模型是否會(huì)產(chǎn)生「有毒」、粗魯、有害的內(nèi)容,采用 ToxiGen 基準(zhǔn);

  • 偏見(jiàn),指語(yǔ)言模型是否會(huì)產(chǎn)生存在偏見(jiàn)的內(nèi)容,采用 BOLD 基準(zhǔn)。


預(yù)訓(xùn)練的安全性


首先,預(yù)訓(xùn)練數(shù)據(jù)對(duì)模型來(lái)說(shuō)非常重要。Meta 進(jìn)行實(shí)驗(yàn)評(píng)估了預(yù)訓(xùn)練數(shù)據(jù)的安全性。


該研究使用在 ToxiGen 數(shù)據(jù)集上微調(diào)的 HateBERT 分類(lèi)器來(lái)測(cè)量預(yù)訓(xùn)練語(yǔ)料庫(kù)英文數(shù)據(jù)的「毒性」,具體結(jié)果如下圖 13 所示:


圖片


為了分析偏見(jiàn)方面的問(wèn)題,該研究統(tǒng)計(jì)分析了預(yù)訓(xùn)練語(yǔ)料庫(kù)中的代詞和身份相關(guān)術(shù)語(yǔ)及其占比,如下表 9 所示:


圖片


此外,在語(yǔ)言分布方面,Llama 2 語(yǔ)料庫(kù)涵蓋的語(yǔ)種及其占比如下表 10 所示:


圖片


安全微調(diào)


具體來(lái)說(shuō),Meta 在安全微調(diào)中使用了以下技術(shù):1、監(jiān)督安全微調(diào);2、安全 RLHF;3、安全上下文蒸餾。


Meta 在 Llama 2-Chat 的開(kāi)發(fā)初期就觀察到,它能夠在有監(jiān)督的微調(diào)過(guò)程中從安全演示中有所總結(jié)。模型很快就學(xué)會(huì)了撰寫(xiě)詳細(xì)的安全回復(fù)、解決安全問(wèn)題、解釋話(huà)題可能敏感的原因并提供更多有用信息。特別是,當(dāng)模型輸出安全回復(fù)時(shí),它們往往比普通注釋者寫(xiě)得更詳細(xì)。因此,在只收集了幾千個(gè)有監(jiān)督的示范后,Meta 就完全改用 RLHF 來(lái)教模型如何寫(xiě)出更細(xì)致入微的回復(fù)。使用 RLHF 進(jìn)行全面調(diào)整的另一個(gè)好處是,它可以使模型對(duì)越獄嘗試更加魯棒。


圖片


Meta 首先通過(guò)收集人類(lèi)對(duì)安全性的偏好數(shù)據(jù)來(lái)進(jìn)行 RLHF,其中注釋者編寫(xiě)他們認(rèn)為會(huì)引發(fā)不安全行為的 prompt,然后將多個(gè)模型響應(yīng)與 prompt 進(jìn)行比較,并根據(jù)一系列指南選擇最安全的響應(yīng)。接著使用人類(lèi)偏好數(shù)據(jù)來(lái)訓(xùn)練安全獎(jiǎng)勵(lì)模型,并在 RLHF 階段重用對(duì)抗性 prompt 以從模型中進(jìn)行采樣。


如下圖 15 所示,Meta 使用平均獎(jiǎng)勵(lì)模型得分作為模型在安全性和有用性方面的表現(xiàn)結(jié)果。Meta 觀察到,當(dāng)他們?cè)黾影踩珨?shù)據(jù)的比例時(shí),模型處理風(fēng)險(xiǎn)和對(duì)抗性 prompt 的性能顯著提高。


圖片


最后,Meta 通過(guò)上下文蒸餾完善了 RLHF 流程。這涉及到通過(guò)在 prompt 前加上安全前置 prompt 來(lái)生成更安全的模型響應(yīng),例如「你是一個(gè)安全且負(fù)責(zé)任的助手」,然后在沒(méi)有前置 prompt 的情況下根據(jù)更安全的響應(yīng)微調(diào)模型,這本質(zhì)上是提取了安全前置 prompt(上下文)進(jìn)入模型。


Meta 使用了有針對(duì)性的方法,允許安全獎(jiǎng)勵(lì)模型選擇是否對(duì)每個(gè)樣本使用上下文蒸餾。


圖片


下圖 17 展示了各種 LLM 的總體違規(guī)百分比和安全評(píng)級(jí)。


圖片


下圖 18 展示了單輪和多輪對(duì)話(huà)的違規(guī)百分比??缒P偷囊粋€(gè)趨勢(shì)是,多輪對(duì)話(huà)更容易引發(fā)不安全的響應(yīng)。也就是說(shuō),與基線相比,Llama 2-Chat 仍然表現(xiàn)良好,尤其是在多輪對(duì)話(huà)中。


圖片


下圖 19 顯示了不同 LLM 在不同類(lèi)別中安全違規(guī)百分比。


圖片


圖片


參考鏈接:https://ai.meta.com/llama/


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉