更強的Llama 2開源,可直接商用:一夜之間,大模型格局變了(2)
微調
Llama 2-Chat 是數(shù)個月研究和迭代應用對齊技術(包括指令調整和 RLHF)的成果,需要大量的計算和注釋資源。
監(jiān)督微調 (SFT)
第三方監(jiān)督微調數(shù)據(jù)可從許多不同來源獲得,但 Meta 發(fā)現(xiàn)其中許多數(shù)據(jù)的多樣性和質量都不夠高,尤其是在使 LLM 與對話式指令保持一致方面。因此,他們首先重點收集了幾千個高質量 SFT 數(shù)據(jù)示例,如下表 5 所示。
在微調過程中,每個樣本都包括一個提示和一個回答。為確保模型序列長度得到正確填充,Meta 將訓練集中的所有提示和答案連接起來。他們使用一個特殊的 token 來分隔提示和答案片段,利用自回歸目標,將來自用戶提示的 token 損失歸零,因此只對答案 token 進行反向傳播。最后對模型進行了 2 次微調。
RLHF
RLHF 是一種模型訓練程序,適用于經過微調的語言模型,以進一步使模型行為與人類偏好和指令遵循相一致。Meta 收集了代表了人類偏好經驗采樣的數(shù)據(jù),人類注釋者可據(jù)此選擇他們更喜歡的兩種模型輸出。這種人類反饋隨后被用于訓練獎勵模型,該模型可學習人類注釋者的偏好模式,然后自動做出偏好決定。
下表 6 報告了 Meta 長期以來收集到的獎勵建模數(shù)據(jù)的統(tǒng)計結果,并將其與多個開源偏好數(shù)據(jù)集進行了對比。他們收集了超過 100 萬個基于人類應用指定準則的二元比較的大型數(shù)據(jù)集,也就是元獎賞建模數(shù)據(jù)。
請注意,提示和答案中的標記數(shù)因文本領域而異。摘要和在線論壇數(shù)據(jù)的提示通常較長,而對話式的提示通常較短。與現(xiàn)有的開源數(shù)據(jù)集相比,本文的偏好數(shù)據(jù)具有更多的對話回合,平均長度也更長。
獎勵模型將模型響應及其相應的提示(包括前一輪的上下文)作為輸入,并輸出一個標量分數(shù)來表示模型生成的質量(例如有用性和安全性)。利用這種作為獎勵的響應得分,Meta 在 RLHF 期間優(yōu)化了 Llama 2-Chat,以更好地與人類偏好保持一致,并提高有用性和安全性。
在每一批用于獎勵建模的人類偏好注釋中,Meta 都拿出 1000 個樣本作為測試集來評估模型,并將相應測試集的所有提示的集合分別稱為「元有用性」和「元安全性」。
下表 7 中報告了準確率結果。不出所料,Meta 自己的獎勵模型在基于 Llama 2-Chat 收集的內部測試集上表現(xiàn)最佳,其中「有用性」獎勵模型在「元有用性」測試集上表現(xiàn)最佳,同樣,「安全性」獎勵模型在「元安全性」測試集上表現(xiàn)最佳。
總體而言,Meta 的獎勵模型優(yōu)于包括 GPT-4 在內的所有基線模型。有趣的是,盡管 GPT-4 沒有經過直接訓練,也沒有專門針對這一獎勵建模任務,但它的表現(xiàn)卻優(yōu)于其他非元獎勵模型。
縮放趨勢。Meta 研究了獎勵模型在數(shù)據(jù)和模型大小方面的縮放趨勢,在每周收集的獎勵模型數(shù)據(jù)量不斷增加的情況下,對不同的模型大小進行了微調。下圖 6 報告了這些趨勢,顯示了預期的結果,即在類似的數(shù)據(jù)量下,更大的模型能獲得更高的性能。
隨著收到更多批次的人類偏好數(shù)據(jù)注釋,能夠訓練出更好的獎勵模型并收集更多的提示。因此,Meta 訓練了連續(xù)版本的 RLHF 模型,在此稱為 RLHF-V1、...... , RLHF-V5。
此處使用兩種主要算法對 RLHF 進行了微調:
近端策略優(yōu)化 (PPO);
Rejection 采樣微調。
RLHF 結果
首先是基于模型的評估結果。下圖 11 報告了不同 SFT 和 RLHF 版本在安全性和有用性方面的進展,其中通過 Meta 內部的安全性和有用性獎勵模型進行評估。
再來看人類評估結果。如下圖 12 所示,Llama 2-Chat 模型在單輪和多輪提示方面均顯著優(yōu)于開源模型。特別地,Llama 2-Chat 7B 在 60% 的提示上優(yōu)于 MPT-7B-chat,Llama 2-Chat 34B 相對于同等大小的 Vicuna-33B 和 Falcon 40B,表現(xiàn)出了 75% 以上的整體勝率。
在這里,Meta 也指出了人工評估的一些局限性。
雖然結果表明 Llama 2-Chat 在人工評估方面與 ChatGPT 不相上下,但必須指出的是,人工評估存在一些局限性。
按照學術和研究標準,本文擁有一個 4k 提示的大型提示集。但是,這并不包括這些模型在現(xiàn)實世界中的使用情況,而現(xiàn)實世界中的使用情況可能要多得多。
提示語的多樣性可能是影響結果的另一個因素,例如本文提示集不包括任何編碼或推理相關的提示。
本文只評估了多輪對話的最終生成。更有趣的評估方法可能是要求模型完成一項任務,并對模型在多輪對話中的整體體驗進行評分。
人類對生成模型的評估本身就具有主觀性和噪聲性。因此,使用不同的提示集或不同的指令進行評估可能會產生不同的結果。
安全性
該研究使用三個常用基準評估了 Llama 2 的安全性,針對三個關鍵維度:
真實性,指語言模型是否會產生錯誤信息,采用 TruthfulQA 基準;
毒性,指語言模型是否會產生「有毒」、粗魯、有害的內容,采用 ToxiGen 基準;
偏見,指語言模型是否會產生存在偏見的內容,采用 BOLD 基準。
預訓練的安全性
首先,預訓練數(shù)據(jù)對模型來說非常重要。Meta 進行實驗評估了預訓練數(shù)據(jù)的安全性。
該研究使用在 ToxiGen 數(shù)據(jù)集上微調的 HateBERT 分類器來測量預訓練語料庫英文數(shù)據(jù)的「毒性」,具體結果如下圖 13 所示:
為了分析偏見方面的問題,該研究統(tǒng)計分析了預訓練語料庫中的代詞和身份相關術語及其占比,如下表 9 所示:
此外,在語言分布方面,Llama 2 語料庫涵蓋的語種及其占比如下表 10 所示:
安全微調
具體來說,Meta 在安全微調中使用了以下技術:1、監(jiān)督安全微調;2、安全 RLHF;3、安全上下文蒸餾。
Meta 在 Llama 2-Chat 的開發(fā)初期就觀察到,它能夠在有監(jiān)督的微調過程中從安全演示中有所總結。模型很快就學會了撰寫詳細的安全回復、解決安全問題、解釋話題可能敏感的原因并提供更多有用信息。特別是,當模型輸出安全回復時,它們往往比普通注釋者寫得更詳細。因此,在只收集了幾千個有監(jiān)督的示范后,Meta 就完全改用 RLHF 來教模型如何寫出更細致入微的回復。使用 RLHF 進行全面調整的另一個好處是,它可以使模型對越獄嘗試更加魯棒。
Meta 首先通過收集人類對安全性的偏好數(shù)據(jù)來進行 RLHF,其中注釋者編寫他們認為會引發(fā)不安全行為的 prompt,然后將多個模型響應與 prompt 進行比較,并根據(jù)一系列指南選擇最安全的響應。接著使用人類偏好數(shù)據(jù)來訓練安全獎勵模型,并在 RLHF 階段重用對抗性 prompt 以從模型中進行采樣。
如下圖 15 所示,Meta 使用平均獎勵模型得分作為模型在安全性和有用性方面的表現(xiàn)結果。Meta 觀察到,當他們增加安全數(shù)據(jù)的比例時,模型處理風險和對抗性 prompt 的性能顯著提高。
最后,Meta 通過上下文蒸餾完善了 RLHF 流程。這涉及到通過在 prompt 前加上安全前置 prompt 來生成更安全的模型響應,例如「你是一個安全且負責任的助手」,然后在沒有前置 prompt 的情況下根據(jù)更安全的響應微調模型,這本質上是提取了安全前置 prompt(上下文)進入模型。
Meta 使用了有針對性的方法,允許安全獎勵模型選擇是否對每個樣本使用上下文蒸餾。
下圖 17 展示了各種 LLM 的總體違規(guī)百分比和安全評級。
下圖 18 展示了單輪和多輪對話的違規(guī)百分比??缒P偷囊粋€趨勢是,多輪對話更容易引發(fā)不安全的響應。也就是說,與基線相比,Llama 2-Chat 仍然表現(xiàn)良好,尤其是在多輪對話中。
下圖 19 顯示了不同 LLM 在不同類別中安全違規(guī)百分比。
參考鏈接:https://ai.meta.com/llama/
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。