ChatGPT全球最大開(kāi)源平替:回復(fù)更受歡迎,但中文對(duì)話一塌糊涂
轉(zhuǎn)自《機(jī)器之心》
事實(shí)證明,將大型語(yǔ)言模型 (LLM) 與人類偏好保持一致可以顯著提高可用性,這類模型往往會(huì)被快速采用,如 ChatGPT 所證明的那樣。監(jiān)督微調(diào) (SFT) 和基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 等對(duì)齊技術(shù)大大減少了有效利用 LLM 功能所需的技能和領(lǐng)域知識(shí),從而提高了它們?cè)诟鱾€(gè)領(lǐng)域的可訪問(wèn)性和實(shí)用性。
然而,像 RLHF 這樣最先進(jìn)的對(duì)齊技術(shù)依賴于高質(zhì)量的人工反饋數(shù)據(jù),這些數(shù)據(jù)的創(chuàng)建成本很高,而且通常仍然是專有的。為了使大規(guī)模對(duì)齊研究民主化,來(lái)自 LAION AI 等機(jī)構(gòu)(Stable diffusion 使用的開(kāi)源數(shù)據(jù)就是該機(jī)構(gòu)提供的。)的研究者收集了大量基于文本的輸入和反饋,創(chuàng)建了一個(gè)專門訓(xùn)練語(yǔ)言模型或其他 AI 應(yīng)用的多樣化和獨(dú)特?cái)?shù)據(jù)集 OpenAssistant Conversations。
該數(shù)據(jù)集是一個(gè)由人工生成、人工注釋的助理式對(duì)話語(yǔ)料庫(kù),覆蓋了廣泛的主題和寫作風(fēng)格,由 161443 條消息組成,分布在 66497 個(gè)會(huì)話樹(shù)中,使用 35 種不同的語(yǔ)言。該語(yǔ)料庫(kù)是全球眾包工作的產(chǎn)物,涉及超過(guò) 13500 名志愿者。對(duì)于任何希望創(chuàng)建 SOTA 指令模型的開(kāi)發(fā)者而言,它都是一個(gè)非常寶貴的工具。并且任何人都可以免費(fèi)訪問(wèn)整個(gè)數(shù)據(jù)集。
此外,為了證明 OpenAssistant Conversations 數(shù)據(jù)集的有效性,該研究還提出了一個(gè)基于聊天的助手 OpenAssistant,其可以理解任務(wù)、與第三方系統(tǒng)交互、動(dòng)態(tài)檢索信息。可以說(shuō)這是第一個(gè)在人類數(shù)據(jù)上進(jìn)行訓(xùn)練的完全開(kāi)源的大規(guī)模指令微調(diào)模型。
結(jié)果顯示,OpenAssistant 的回復(fù)比 GPT-3.5-turbo (ChatGPT) 更受歡迎。
論文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view
項(xiàng)目地址:https://github.com/LAION-AI/Open-Assistant
數(shù)據(jù)集地址:https://huggingface.co/datasets/OpenAssistant/oasst1
體驗(yàn)地址:https://open-assistant.io/chat
網(wǎng)友表示:做得好,超越 OpenAI(抱歉是 Closed AI)。研究介紹OpenAssistant Conversations 的基本數(shù)據(jù)結(jié)構(gòu)是會(huì)話樹(shù) (Conversation Tree, CT),其中的節(jié)點(diǎn)表示會(huì)話中的消息。OpenAssistant Conversations 數(shù)據(jù)是使用 web-app 界面收集的,包括 5 個(gè)步驟:提示、標(biāo)記提示、將回復(fù)消息添加為提示器或助手、標(biāo)記回復(fù)以及對(duì)助理回復(fù)進(jìn)行排名。下圖為 OpenAssistant Conversations 數(shù)據(jù)集語(yǔ)言分布,主要以英語(yǔ)和西班牙語(yǔ)為主:實(shí)驗(yàn)結(jié)果指令微調(diào)
為了評(píng)估和證明 OpenAssistant Conversations 數(shù)據(jù)集的有效性,研究者專注于基于 Pythia 和 LLaMA 的微調(diào)語(yǔ)言模型。其中 Pythia 是一個(gè)具有寬松開(kāi)源許可的 SOTA 語(yǔ)言模型,而 LLaMA 是一個(gè)具有定制非商業(yè)許可的強(qiáng)大語(yǔ)言模型。
對(duì)此,研究者發(fā)布了一系列微調(diào)語(yǔ)言模型,包括指令微調(diào)的 Pythia-12B、LLaMA-13B 和 LLaMA-30B,這是他們迄今最大的模型。研究者將分析重心放在了具有開(kāi)源屬性的 Pythia-12B 模型上,使得它可以被廣泛訪問(wèn)并適用于各種應(yīng)用程序。
為了評(píng)估 Pythia-12B 的性能,研究者展開(kāi)了一項(xiàng)用戶偏好研究,將其輸出與 OpenAI 的 gpt-3.5-turbo 模型進(jìn)行比較。目前已經(jīng)有 7,042 項(xiàng)比較,結(jié)果發(fā)現(xiàn) Pythia-12B 對(duì) gpt-3.5-turbo 的勝率為 48.3%,表明經(jīng)過(guò)微調(diào)的 Pythia 模型是非常具有競(jìng)爭(zhēng)力的大語(yǔ)言模型。
偏好建模
除了指令微調(diào)模型之外,研究者還發(fā)布了基于 Pythia-1.4B 和 Pythia-12B 的經(jīng)過(guò)訓(xùn)練的獎(jiǎng)勵(lì)模型。利用在真實(shí)世界數(shù)據(jù)上訓(xùn)練的獎(jiǎng)勵(lì)模型可以為用戶輸入帶來(lái)更準(zhǔn)確和自適應(yīng)的響應(yīng),這對(duì)于開(kāi)發(fā)高效且對(duì)用戶友好的 AI 助手至關(guān)重要。研究者還計(jì)劃發(fā)布經(jīng)過(guò)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練的 LLaMA-30B,這種方法可以顯著提升模型性能和適應(yīng)性。
不過(guò),基于 RLHF 方法的模型開(kāi)發(fā)與訓(xùn)練正在進(jìn)行中,需要進(jìn)一步努力確保成功地整合進(jìn)來(lái)。
有毒信息
研究者采取基于 Detoxify 的毒性檢測(cè)方法來(lái)獲得六個(gè)不同類別的自動(dòng)評(píng)級(jí),分別是有毒、威脅、侮辱、攻擊性、露骨言論。使用自動(dòng)毒性評(píng)級(jí),研究者系統(tǒng)地評(píng)估了人工指定毒性標(biāo)簽(如仇恨言論、不恰當(dāng))的級(jí)別。并且基于 115,153 條消息樣本,他們計(jì)算了自動(dòng)與人工注釋毒性標(biāo)簽之間的相關(guān)性,如下圖 5 所示。與 GPT-3.5(ChatGPT)的比較
我們來(lái)看幾組 OpenAssistant 與 GPT-3.5 的生成結(jié)果比較。比如「單詞 barn 的詞源 / 起源是什么?」可以看到,OpenAssistant 解釋地更詳細(xì)、全面。再比如輸入「你現(xiàn)在是一個(gè)普通的人類。請(qǐng)介紹一下你自己并告訴我一些你的日常生活?!筄penAssistant 代入了普通人類的角色,GPT-3.5 顯然沒(méi)有,還是以 AI 語(yǔ)言模型自居。最后輸入「如何創(chuàng)建一個(gè)成功的 YouTube 頻道,從開(kāi)發(fā)一個(gè)利基市場(chǎng)到創(chuàng)建內(nèi)容以建立一個(gè)社區(qū)并貨幣化頻道?」OpenAssistant 的回答相對(duì)而言更有條理性。體驗(yàn)下來(lái),中文不太行
目前的 Open Assistant 基于「OA_SFT_Llama_30B」模型,最大新 token 的數(shù)量為 1024,支持了英文、中文、日語(yǔ)等數(shù)十種語(yǔ)言。先讓它做一下自我介紹。然而在中文對(duì)話體驗(yàn)中發(fā)現(xiàn),有時(shí)輸入中文,但輸出的仍是英文。比如「用中文寫一首關(guān)于春天的詩(shī)歌」。除了有時(shí)無(wú)法輸出中文之外,中文百科知識(shí)方面也表現(xiàn)不佳。比如「介紹一下李白和杜甫」。再比如「魯智深是紅樓夢(mèng)中的角色,你覺(jué)得對(duì)嗎」,人名和出處都搞錯(cuò)了。
另外在中英互譯方面也不太好使。更不用提數(shù)學(xué)問(wèn)題了,比如經(jīng)典的雞兔同籠問(wèn)題。這可能是因?yàn)樵谥形牡绕渌Z(yǔ)言的適配性上沒(méi)有進(jìn)行優(yōu)化,希望未來(lái)可以改進(jìn)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。