教科書級(jí)數(shù)據(jù)is all you need:1.3B小模型逆襲大模型的秘密(2)
如下圖 2.1 所示,該研究發(fā)現(xiàn)模型在 HumanEval 基準(zhǔn)上的最大改進(jìn)來自于在小型 CodeExercises 數(shù)據(jù)集(<200M token)上的微調(diào)。CodeExercises 僅包含使用基本 Python 庫的簡(jiǎn)短 Python 任務(wù)。
該研究表明,微調(diào)后的模型在執(zhí)行微調(diào)數(shù)據(jù)集中沒有的任務(wù)上也表現(xiàn)出顯著的性能改進(jìn)。
微調(diào)提升了模型的理解能力
該研究?jī)H使用簡(jiǎn)單的 Python 函數(shù)就觀察到,微調(diào)后的模型對(duì)指令的理解和遵循程度要高得多。例如,phi-1-base 很難處理 prompt 中的邏輯關(guān)系,而 phi-1 可以正確解釋問題并生成答案。
微調(diào)提升了模型使用外部庫的能力
該研究發(fā)現(xiàn)在 CodeExercises 上的微調(diào)意外地提高了模型使用 Pygame 和 Tkinter 等外部庫的能力,盡管微調(diào)中不包含這些庫。這表明微調(diào)不僅改進(jìn)了目標(biāo)任務(wù),還使不相關(guān)的任務(wù)更容易從預(yù)訓(xùn)練中蒸餾(distill)出來。
LLM 分級(jí)中非常規(guī)問題的評(píng)估
如下表 1 所示,phi-1 在 HumanEval 基準(zhǔn)上取得了令人驚訝的良好性能。但一個(gè)潛在問題是,phi-1 優(yōu)越的性能可能來源于 CodeExercises 數(shù)據(jù)集的「污染」。
為了最大限度地減少 bias 和數(shù)據(jù)泄露(data leakage),該研究在沒有訪問 CodeExercises 數(shù)據(jù)集的情況下創(chuàng)建了新的評(píng)估問題。具體來說,該研究以 HumanEval 的格式創(chuàng)建了 50 個(gè)新問題,并附有設(shè)計(jì)說明,這些問題不太可能出現(xiàn)在現(xiàn)實(shí)世界的代碼庫或編碼練習(xí)中。例如:
下表 2 顯示了 phi-1 和一些模型的比較結(jié)果:
數(shù)據(jù)修剪及性能評(píng)估
如上圖 2.1 所示,在 CodeExercises 上的訓(xùn)練顯著提升了模型在 HumanEval 基準(zhǔn)上的性能。為了研究這種提升,該研究通過移除與 HumanEval「相似」的文件來修剪 CodeExercises 數(shù)據(jù)集。這個(gè)過程可以被視為數(shù)據(jù)凈化的「強(qiáng)力形式」。
然后,該研究在修剪過的數(shù)據(jù)上重新訓(xùn)練模型,模型在 HumanEval 基準(zhǔn)上仍然表現(xiàn)出強(qiáng)大的性能。特別是,即使在修剪超過 40% 的 情況下,重新訓(xùn)練的 phi-1 仍然優(yōu)于 StarCoder。
感興趣的讀者可以閱讀論文原文,了解更多研究細(xì)節(jié)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。