無需強化學習的與人類偏好對齊的語言模型：Wombat袋熊

發(fā)布人：數(shù)據(jù)派THU 時間：2023-04-19 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

OpenAI 的 ChatGPT 理解多種多樣的的人類指令，并且可以很好的應對不同的語言任務需求。自發(fā)布以來就掀起了對于通用人工智能的討論。ChatGPT 令人驚嘆的能力來源于一種新穎的大規(guī)模語言模型微調方法：RLHF（通過強化學習對齊人類反饋）。

RLHF 方法不同于以往傳統(tǒng)的監(jiān)督學習的微調方式，該方法首先讓模型根據(jù)指令提示生成不同的回復，之后通過人工的評價反饋，使用強化學習的方式對 LLM 進行微調。RLHF 解鎖了語言模型跟從人類指令的能力，并且使得語言模型的能力和人類的需求和價值觀對齊，從而使得 RLHF 微調下的語言模型具有令人驚嘆的能力。
當前研究 RLHF 的工作主要使用 PPO 算法對語言模型進行優(yōu)化。從一個使用指令和人類示范的數(shù)據(jù)通過監(jiān)督學習微調的語言模型開始，PPO 算法首先使用這個語言模型輸出對于不同指令數(shù)據(jù)的回復，之后通過一個獎勵模型對語言模型的不同回復進行打分評價，最后使用打分評價通過策略梯度下降的方式對語言模型進行優(yōu)化。
考慮到語言模型在訓練中不斷變化和獎勵模型有限的泛化能力，PPO 在工程實踐中需要反復迭代上述流程，并且在獎勵的設計上需要限制微調的語言模型不能偏離初始模型太遠。由于使用強化學習訓練包含有眾多的超參數(shù)，并且在算法迭代的過程中需要多個獨立模型的相互配合，錯誤的實現(xiàn)細節(jié)都會導致不盡如人意的訓練結果。
在和人類對齊的角度上，強化學習算法是不是必須的呢？該篇論文提出了基于排序的人類偏好對齊方法。它對不同語言模型生成的回復（回復可以來自 ChatGPT、GPT-4、當前的訓練模型或者人類標注數(shù)據(jù)）進行評分，評分來自于回復在當前模型下的對數(shù)概率。RRHF 通過通過排名損失使評分與人類的偏好（或者代理的獎勵模型）對齊。RRHF 訓練好的模型可以同時作為生成語言模型和獎勵模型使用。下圖中對比了 PPO 算法和 RRHF 算法的區(qū)別。

RRHF 算法可以有效地將語言模型輸出概率與人類偏好對齊，并且在微調期間只需要 1 到 2 個模型。相比之下，PPO 需要 4 個模型：微調的語言模型，參考語言模型，獎勵模型和價值模型相互配合。在實際的訓練中，更少的模型數(shù)量可以幫助減少顯存的占用，使得 RRHF 可以更高效地利用計算資源，并擴展到更大規(guī)模的模型上進行訓練。
此外，RRHF 在編碼和超參數(shù)方面比 PPO 更簡單。整個對齊過程（包括監(jiān)督學習、訓練獎勵模型、進行 PPO）可以在一次 RRHF 訓練中完成。文章在 Anthropic 發(fā)布的 Helpful and Harmless 數(shù)據(jù)上使用 Meta 的 LLaMA 和斯坦福的 Alpaca 模型進行實驗，發(fā)現(xiàn) RRHF 可以達到和 PPO 相當?shù)乃?。在代碼實踐上，RRHF 和傳統(tǒng)的監(jiān)督學習微調算法的難易程度相當，極大地減小了語言模型和人類偏好對齊的工程難度。
同時，文章作者基于 RRHF 算法，使用 Alpaca 的提示數(shù)據(jù)并利用 ChatGPT 或者 GPT-4 作為得分模型，訓練了語言模型 Wombat-7B 和 Wombat-7B-GPT4。訓練時間只需要幾個小時。訓練得到的袋熊 Wombat? 可以更好的與人類偏好對齊。以下是來自袋熊 Wombat? 的一個自我介紹。
Query: Give an introduction of wombat
Wombat: Wombat is a marsupial mammal native to Australia. It is typically found in mountainous areas and is known for its burrowing behavior. Wombats are typically around two feet long and weigh up to 30 pounds. They have a gray coat with white on their chests, and they have thick and powerful hind legs which they use for digging. Wombats are mostly nocturnal and eat a variety of insects, leaves, and grasses.

論文鏈接：
https://arxiv.org/abs/2304.05302作者單位：
阿里巴巴達摩院代碼鏈接：https://github.com/GanjinZero/RRHF

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

無需強化學習的與人類偏好對齊的語言模型：Wombat袋熊

相關推薦

技術專區(qū)