獲星1.9k，LLM微調(diào)神器Lamini上演速度與激情，免費(fèi)可用

發(fā)布人：機(jī)器之心時間：2023-07-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

LLM 微調(diào)從一件復(fù)雜的事情，已經(jīng)通過不斷的技術(shù)改進(jìn)變得易上手起來。

這不，免費(fèi)且迅速的 LLM 微調(diào)已經(jīng)可以實(shí)現(xiàn)了。

4 月底，斯坦福的一群開發(fā)者發(fā)布了 Lamini，號稱可以為每個開發(fā)人員提供從 GPT-3 帶到 ChatGPT 的超能力。

近日，Lamini 推出了全新的 Alpha 公測版，讓微調(diào)上演「速度與激情」?，F(xiàn)在只需十分鐘、三至五行代碼就能實(shí)現(xiàn)微調(diào)，更重要的是 0 費(fèi)用。

目前，4 億參數(shù)以內(nèi)的 LLM 微調(diào)完全免費(fèi)。這只是一個開始。

項目地址：https://github.com/lamini-ai/lamini

Lamini 的優(yōu)勢

先來一起看看 Lamini 有哪些優(yōu)勢。

免費(fèi)，適用于小型 LLM；
迅速，10-15 分鐘；
很大，無限大小的 prompt，比最大的 prompt 多 1000 倍以上的空間；
學(xué)習(xí)，檢索增強(qiáng)生成，它不僅是在已知的基礎(chǔ)上試圖理解內(nèi)容，還在學(xué)習(xí)新東西。

并且，在 Lamini 的項目地址中有著

1400 個問答數(shù)據(jù)集（這是關(guān)于 Lamini 的內(nèi)部工程文檔，你也可以將其自定義）；
在此數(shù)據(jù)集上運(yùn)行 LLM 微調(diào)的代碼；
回答問題的開源微調(diào) LLM（例如關(guān)于 Lamini，或其他你想問的）。

Lamini 使用教程

使用示例

Lamini 真的有這么神嗎？這里由一份示例請你查收。

首先，有一個需要微調(diào)的 LLM。示例中是一個關(guān)于 Lamini 內(nèi)部工程文檔的問答式 LLM。

該模型提供了一個聊天界面，它使用了一個 410M 參數(shù)的 Pythia 模型作為基礎(chǔ)。

這個 410M 參數(shù) LLM 的性能看起來并不令人滿意。當(dāng)詢問：「我如何向 Lamini 添加數(shù)據(jù)？」時，它給出的答案并不靠譜。

你還可以給它輸入數(shù)據(jù)。對于本例，你有一個關(guān)于 Lamini 的 1400 個問題和答案的數(shù)據(jù)集。雖然它看起來很小，但它比目前最大的 Prompt 大小要大得多 (約 120K)。

以下是準(zhǔn)備數(shù)據(jù)的專業(yè)建議：質(zhì)量非常重要。只要 100 個高質(zhì)量的例子就能讓你走上正確的道路。那么什么是高質(zhì)量？

高質(zhì)量：連貫、清晰、準(zhǔn)確的示例。
多樣化：涵蓋廣泛的主題和數(shù)據(jù)范圍，應(yīng)避免虛假關(guān)聯(lián)和數(shù)據(jù)偏差。
真實(shí)：實(shí)際的用戶數(shù)據(jù)或人為創(chuàng)建的示例，而不是 LLM 生成的虛假示例，以捕捉人機(jī)交互的細(xì)微差別，并改進(jìn)模型，使其超越現(xiàn)有的生成能力。

然后，只需將這些數(shù)據(jù)加載到模型中，并告訴它進(jìn)行訓(xùn)練:

只需要 10-15 分鐘，你就可以運(yùn)行這個 LLM 了。

讓我們再次問同樣的問題，「我如何向 Lamini 添加數(shù)據(jù)？」，內(nèi)容如下:

這次的答案是正確的了，看來微調(diào)發(fā)揮了顯著的效果。

如何使用 Lamini 訓(xùn)練 LLM

1、使用 Lamini Types 定義 LLM 接口。你想讓它成為一個聊天機(jī)器人？接口就是問進(jìn)答出。你想讓它成為代碼 copilot？接口就是程序輸入，更多程序輸出。使用你的類型運(yùn)行一般的 LLM（基本模型或基礎(chǔ)模型）。

2、查找相關(guān)數(shù)據(jù)并創(chuàng)建 Lamini Types。哪些數(shù)據(jù)對執(zhí)行任務(wù)的人類專家有用？獲取該數(shù)據(jù)并創(chuàng)建與其模式相匹配的（附加）Lamini Types。它可以是支持性文檔，如你的文檔中的函數(shù)，用于你的代碼聊天機(jī)器人，也可以是向你的機(jī)器人提出的示例問題。

3、使用 Lamini 將數(shù)據(jù)加載到 Types 中，并將 Types 加載到 LLM 中。這將你的數(shù)據(jù)轉(zhuǎn)換為 Types 格式，以便 LLM 能夠最好地從中學(xué)習(xí)。

4、獲取與你的 LLM 接口相匹配的數(shù)據(jù)。如果沒有？也沒問題。這就是數(shù)據(jù)生成的目的，其中利用 LLM 管道。首先，使用 Lamini LLM Engine 運(yùn)行數(shù)據(jù)生成，以獲得更多正確的 Lamini Types（任何一種）數(shù)據(jù)。然后使用 Lamini 過濾器或你自己的腳本過濾數(shù)據(jù)，以獲得高質(zhì)量數(shù)據(jù)。

5. 通過優(yōu)化訓(xùn)練使通用 LLM 專業(yè)化。使用 Lamini 庫，針對所有數(shù)據(jù)訓(xùn)練你自己的 LLM。