開源引擎GTS乾坤鼎：自動(dòng)生產(chǎn)模型拿下FewCLUE榜單冠軍

發(fā)布人：機(jī)器之心時(shí)間：2022-11-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

在自然語言處理（NLP）領(lǐng)域，基于 Transformer 結(jié)構(gòu)的預(yù)訓(xùn)練語言模型展示出了強(qiáng)大的語言理解能力，在各類 NLP 任務(wù)上都取得了巨大突破。

然而，在眾多真實(shí)的業(yè)務(wù)場景中，有標(biāo)注的數(shù)據(jù)是往往是嚴(yán)重稀缺的，而相關(guān)數(shù)據(jù)的獲取和標(biāo)注需要大量的人力和專家知識(shí)的投入。因此，小樣本學(xué)習(xí)的研究已經(jīng)成為業(yè)界的熱點(diǎn)之一。

針對(duì)這一問題，IDEA 研究院認(rèn)知計(jì)算與自然語言研究中心（下面簡稱 IDEA CCNL）研發(fā)了模型生產(chǎn)工具 GTS 乾坤鼎引擎以及 GTSfactory 模型自動(dòng)生產(chǎn)平臺(tái)，其基于封神榜開源模型體系，提出了首創(chuàng)的 GTS（Generator-Teacher-Student）訓(xùn)練體系，通過「用 AI 生產(chǎn) AI」的方式，以自動(dòng)化生產(chǎn)的模型在中文語言理解權(quán)威評(píng)測(cè)基準(zhǔn) FewCLUE 榜單上分別取得了第一名及第三名的好成績。

FewCLUE 是中文語言理解權(quán)威評(píng)測(cè) CLUE 的子榜，旨在探索小樣本學(xué)習(xí)的最佳實(shí)踐，先后吸引了包括百度、騰訊微信、美團(tuán)、網(wǎng)易、奇點(diǎn)智源和浪潮人工智能研究院等工業(yè)界和學(xué)術(shù)界頂尖機(jī)構(gòu)的參與。GTS 系列產(chǎn)品的這一次登頂，也預(yù)示著其模型自動(dòng)化生產(chǎn)技術(shù)已經(jīng)達(dá)到了頂尖的算法專家水平。

其中，GTS 乾坤鼎在 EPRSTMT(電商評(píng)論情感二分類)任務(wù)中超過了其他算法專家生產(chǎn)的模型，同時(shí)也刷新了 BUSTM(句子對(duì)相似度判斷)任務(wù)的記錄；而 GTSfactory 自動(dòng)生產(chǎn)出的 1.1 億參數(shù)的小模型在總分和單項(xiàng)任務(wù)中均接近算法專家的最好水平，這也是 FewCLUE 榜單中 TOP10 里模型參數(shù)最小的模型。

IDEA CCNL 目前已經(jīng)開源 GTS 乾坤鼎（https://github.com/IDEA-CCNL/GTS-Engine），也將逐步開源 GTSfactory，讓更多的人可以參與到 GTS 訓(xùn)練體系中來，將 IDEA-CCNL 堅(jiān)持的「用 AI 生產(chǎn) AI」的理念傳播開來。

GTS 乾坤鼎登頂 fewCLUE，GTSfactory 達(dá)到算法專家水平

GTS 系列產(chǎn)品專注于研究在不同模型參數(shù)規(guī)模下的小樣本 NLU 任務(wù)模型自動(dòng)生產(chǎn)，其中，GTS 乾坤鼎引擎利用 13 億參數(shù)規(guī)模的 Erlangshen-BERT 進(jìn)行訓(xùn)練，而 GTSfactory 模型自動(dòng)生產(chǎn)平臺(tái)則搭建了 Generator(參數(shù)量幾十億及以上的生成模型)、Teacher(參數(shù)量 10 億以上的大模型)及 Student(參數(shù)量 1 億小模型)協(xié)同訓(xùn)練的體系，最終生產(chǎn)出可以落地部署的輕量級(jí)小模型。

在「GTS」訓(xùn)練體系的加持下，GTS 乾坤鼎通過自動(dòng)化訓(xùn)練的方式，在沒有模型集成的情況下，憑借單一模型登頂 FewCLUE，真的有點(diǎn)「鼎」。其中，EPRSTMT(電商評(píng)論情感二分類) 任務(wù)中取得了 90.04 分，超過曾經(jīng)的第一 90.0 分，并刷新了該項(xiàng)任務(wù)的最高記錄；BUSTM(句子相似度判斷)任務(wù)中取得了 84.4 分，大幅度刷新了該項(xiàng)任務(wù)的最好成績，其他幾項(xiàng)任務(wù)也與 SOTA 接近，可以想象一下，如果在離線數(shù)據(jù)處理場景中使用 GTS 乾坤鼎自動(dòng)化訓(xùn)練出的模型，那對(duì)于數(shù)據(jù)處理效率上的提升該有多么「鼎」。

GTS 乾坤鼎引擎致力于提供開箱即用的自然語言任務(wù)的處理能力，讓你僅僅調(diào)用不到十行代碼，即可低成本地訓(xùn)練出效果強(qiáng)大的模型。據(jù)介紹，GTS-Engine 未來將逐步開源全部的訓(xùn)練能力。

Github：https://github.com/IDEA-CCNL/GTS-Engine

如果說 GTS 乾坤鼎生產(chǎn)的 13 億參數(shù)的大模型代表了小樣本下的性能巔峰，那么 GTSfactory 生產(chǎn)的 1.1 億參數(shù)的小模型則可能在開創(chuàng)小樣本下的應(yīng)用巔峰。在沒有模型集成的情況下，GTSfactory 產(chǎn)出的單一小模型以 1.1 億參數(shù)量取得了 FewCLUE 榜單第三名的成績，超越一眾參數(shù)量 10 億、幾十億的重量級(jí)大模型，這說明在 Few-shot 場景下，GTS 訓(xùn)練體系產(chǎn)出的小模型可以兼具高性能及快速推理的能力。

傳統(tǒng)的 AI 模型開發(fā)模式，一般是「一人負(fù)責(zé)一個(gè)模型」，一個(gè)算法工程師負(fù)責(zé)數(shù)據(jù)標(biāo)注、算法嘗試和調(diào)優(yōu)、模型評(píng)估整個(gè)鏈路的工作，不但耗時(shí)耗力，生產(chǎn)的 AI 模型的效果還因算法工程師的水平而異。GTSfactory 平臺(tái)的出現(xiàn)打破了這一桎梏，設(shè)想一下，當(dāng)你需要進(jìn)行實(shí)時(shí)意圖識(shí)別時(shí)，你只需要提供幾十條標(biāo)注數(shù)據(jù) + 幾小時(shí)的訓(xùn)練等待時(shí)間，便可以在平臺(tái)上獲取一個(gè)性能相當(dāng)優(yōu)異的小參數(shù)量 AI 模型，業(yè)務(wù)的生產(chǎn)力將得到極大的釋放。正如汽車工業(yè)中流水線的進(jìn)步一樣，GTS 打造了 AI 行業(yè)的模型自動(dòng)化生產(chǎn)線，AI 生產(chǎn)工業(yè)化時(shí)代即將到來。

GTSfactory(gtsfactory.com)當(dāng)前處于「免費(fèi)公測(cè)」階段，還有什么問題是免費(fèi) GPU 算力解決不了的呢？GTSfactory 背后的 GTS 八卦爐引擎，也將逐步開源所有的訓(xùn)練能力，這樣本地也可以一鍵啟動(dòng)「煉丹」啦~

如何理解 GTS 訓(xùn)練體系？GTS 又如何實(shí)現(xiàn)「用 AI 生產(chǎn) AI」？

首創(chuàng)的「GTS 訓(xùn)練體系」以模型間能力的傳遞為核心，依托于大模型的強(qiáng)大 NLU 能力，相較于傳統(tǒng)基于 NAS 的自動(dòng)化訓(xùn)練模式，可以極大地減少算力的消耗同時(shí)保持模型的性能。

具體的，GTS 訓(xùn)練體系在訓(xùn)練過程中會(huì)用到幾十億參數(shù)的生成模型 Generator，13 億參數(shù)量及以上的 NLU 大模型 Teacher，最終將 Generator 及 Teacher 的大模型能力轉(zhuǎn)化到 1 億參數(shù)的小模型 Student 中。

在大模型能力的轉(zhuǎn)化過程中，GTS 訓(xùn)練體系融合了「Collaborative Learning」、「Meta Learning」、「Self-Training」、「Prompt」等多種學(xué)習(xí)范式，開發(fā)者將 GTS 訓(xùn)練體系管道化、模塊化，實(shí)現(xiàn)「N 個(gè)算法工程師」共建一個(gè)訓(xùn)練體系的算法開發(fā)模式，真正的構(gòu)筑成了一種物理意義上的訓(xùn)練系統(tǒng)。因此，GTS 訓(xùn)練體系，從系統(tǒng)的角度去解讀 G、T、S，又可以變?yōu)椤窯eneral Training as a System」。

GTS 訓(xùn)練體系下，Generator 扮演了「存儲(chǔ) + 計(jì)算」一體的知識(shí)庫這樣的角色，源源不斷地輸出下游任務(wù)需要的數(shù)據(jù)，而 Teacher 則是扮演「數(shù)據(jù)校驗(yàn)」的角色，輔助 Generator 對(duì)生成數(shù)據(jù)進(jìn)行校驗(yàn)；最終，Student 進(jìn)一步整合來自 Generator 和 Teacher 的大模型能力。在整個(gè)能力傳遞的過程中，本質(zhì)上是一個(gè) AI 模型將能力傳遞到另一個(gè) AI 模型，因此也類似于 AI 模型間的「教學(xué)」，這也即是 GTS 訓(xùn)練體系「用 AI 生產(chǎn) AI」理念的由來。

GTS 乾坤鼎引擎技術(shù)揭秘

在 13 億參數(shù)規(guī)模的大模型上進(jìn)行訓(xùn)練，關(guān)鍵在于如何提升模型在小樣本數(shù)據(jù)下的泛化能力。GTS-Engine 主要使用了以下幾種關(guān)鍵的技術(shù)：

1.有監(jiān)督預(yù)訓(xùn)練

它收集了百萬級(jí)別帶有標(biāo)簽的文本數(shù)據(jù)，并通過開源的中文概念圖譜進(jìn)行多標(biāo)簽層級(jí)的擴(kuò)充，構(gòu)造了一個(gè)涵蓋所有主題的有監(jiān)督分類數(shù)據(jù)集，利用這一規(guī)模龐大的數(shù)據(jù)集進(jìn)行了有監(jiān)督預(yù)訓(xùn)練，主要用于解決主題分類的任務(wù)。IDEA 研究院已經(jīng)在 huggingface 上開源了模型。

2.新的學(xué)習(xí)范式

GTS-Engine 使用 UniMC（https://arxiv.org/abs/2210.08590）作為學(xué)習(xí)范式。UniMC 同樣也是 IDEA-CNNL 提出的統(tǒng)一 NLU 學(xué)習(xí)范式，發(fā)表在了 EMNLP2022 會(huì)議上。它不僅在零樣本 NLU 任務(wù)上表現(xiàn)優(yōu)異，在小樣本任務(wù)上同樣效果卓越，在自然語言蘊(yùn)含和句子對(duì)相似任務(wù)上，它使用這一范式進(jìn)行微調(diào)。

3.檢索增強(qiáng)

GTS-Engine 利用訓(xùn)練數(shù)據(jù)集構(gòu)造了一個(gè)索引，通過編碼器獲得的句子向量作為索引的 key，標(biāo)簽作為索引的 value。通過 kNN 的方式對(duì)索引進(jìn)行檢索，把 kNN 預(yù)測(cè)的概率和分類器預(yù)測(cè)的概率進(jìn)行插值作為最后的分類概率輸出。同時(shí)，它也可以利用 TCBert 對(duì)句子編碼器和分類器進(jìn)行同時(shí)訓(xùn)練，進(jìn)一步提高性能。

4.數(shù)據(jù)增強(qiáng)

GTS-Engine 使用 Masking、Dropout、Mixup 等方式進(jìn)行數(shù)據(jù)增強(qiáng)，其中 Mixup 通過對(duì)輸入數(shù)據(jù)進(jìn)行簡單的線性變換，構(gòu)造新的組合樣本和組合標(biāo)簽，可以增強(qiáng)模型的泛化能力。同時(shí)，它也引入了 R-Drop 對(duì)同一個(gè)句子做兩次 Dropout，并且強(qiáng)制由 Dropout 生成的不同子模型的輸出概率保持一致，使得模型更具有泛化性。

5.對(duì)比學(xué)習(xí)

GTS-Engine 使用 batch 內(nèi)樣本構(gòu)造正負(fù)例，加入對(duì)比損失來訓(xùn)練模型。更進(jìn)一步地，它也引入了 kNN 對(duì)同一個(gè) batch 內(nèi)的樣本進(jìn)行正負(fù)例的擴(kuò)充，讓對(duì)比學(xué)習(xí)能看到更多更豐富的語義，這也進(jìn)一步提升了效果。

6. 系統(tǒng)化

最后，作者將上述提到的技術(shù)，通過訓(xùn)練流水線的方式有機(jī)地結(jié)合在一起，并加入 Self Training 驅(qū)動(dòng)各個(gè)技術(shù)間的訓(xùn)練和融合，最終產(chǎn)出一個(gè) 13 億級(jí)別參數(shù)的大模型。

IDEA 研究院已將部分訓(xùn)練細(xì)節(jié)進(jìn)行了開源，GTS 乾坤鼎引擎后續(xù)將會(huì)逐步更新，將全部的模型生產(chǎn)能力全部開源，讓你僅編寫不到十行 Python 即可生產(chǎn)最好的 NLU 模型。

GTSfactory 技術(shù)揭秘

GTSfactory 的目標(biāo)是生產(chǎn)出輕量化、可自由部署、高性能的小模型，從算法角度，可以分成離線算法和在線算法。

1.模型離線預(yù)訓(xùn)練技術(shù)：

A.基于 Meta Learning 的線下大規(guī)模有監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練

B.基于全詞 MLM 的線下特定領(lǐng)域數(shù)據(jù)的無監(jiān)督預(yù)訓(xùn)練 Domain Adaptive Pretraining

2.模型在線訓(xùn)練技術(shù)：

A.基于文本檢索系統(tǒng)的任務(wù)相關(guān)預(yù)訓(xùn)練 Task Adaptive Pretraining

B.基于 3D 信息對(duì)齊的多模型協(xié)同訓(xùn)練

C.深度改造的 Prompt Learning

D.Self-Training / 偽標(biāo)簽等半監(jiān)督技術(shù)的運(yùn)用

E.RDrop、KNN、多任務(wù)學(xué)習(xí)、自適應(yīng)模型驗(yàn)證等眾多 Trick 的整合

小結(jié)

GTS 訓(xùn)練體系瞄準(zhǔn)當(dāng)前 AI 產(chǎn)業(yè)界的兩大痛點(diǎn)：1）數(shù)據(jù)少、2）人力貴，類似于福特 1913 年發(fā)明的汽車生產(chǎn)流水線，IDEA CCNL 希望 GTS 訓(xùn)練體系成為「用 AI 生產(chǎn) AI」的模型生產(chǎn)線，后續(xù) GTS 訓(xùn)練體系還會(huì)納入更多的 NLP 及多模態(tài)任務(wù)，如信息抽取、摘要、AIGC 等，為 AI 產(chǎn)業(yè)化貢獻(xiàn)力量。GTS 系列產(chǎn)品面向更廣泛的使用者，能夠更快地接入業(yè)務(wù)軌道，節(jié)省硬件、軟件、人力等成本，在激烈的市場競爭中，為千百萬個(gè)尚在萌芽階段的 ideas 搶救出更多的成長時(shí)間。

「讓機(jī)器擁有與人一樣的認(rèn)知能力」，是一個(gè)非常高遠(yuǎn)的目標(biāo)，等到它實(shí)現(xiàn)并掀起下一次人工智能浪潮，也許時(shí)間已經(jīng)過去了許久。但正是每一次小小的進(jìn)步，每一次手舞足蹈著宣布的「idea」，堅(jiān)定地牽引著那一天的到來。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

開源引擎GTS乾坤鼎：自動(dòng)生產(chǎn)模型拿下FewCLUE榜單冠軍

相關(guān)推薦

技術(shù)專區(qū)