博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 微信自研NLP大規(guī)模語(yǔ)言模型WeLM:零/少樣本即可完成多種NLP任務(wù)

微信自研NLP大規(guī)模語(yǔ)言模型WeLM:零/少樣本即可完成多種NLP任務(wù)

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2022-10-19 來(lái)源:工程師 發(fā)布文章

近日,微信AI推出自研NLP大規(guī)模語(yǔ)言模型WeLM ,該模型是一個(gè)尺寸合理的中文模型,能夠在零樣本以及少樣本的情境下完成包多語(yǔ)言任務(wù)在內(nèi)的多種NLP任務(wù)。

同時(shí),微信AI團(tuán)隊(duì)也提供了WeLM的體驗(yàn)網(wǎng)頁(yè)和API接口,感興趣的用戶可前往https://welm.weixin.qq.com/docs/體驗(yàn)和申請(qǐng)API接口,相關(guān)技術(shù)論文《WeLM: A Well-Read Pre-trained Language Model for Chinese》也已經(jīng)發(fā)布于論文預(yù)印本網(wǎng)站arXiv。


圖片

NLP大模型迎新選手,WeLM提供交互式網(wǎng)頁(yè)P(yáng)layGround和API接口

在近幾年自然語(yǔ)言處理(NLP)領(lǐng)域的發(fā)展浪潮中,OpenAI開(kāi)發(fā)的自然語(yǔ)言處理模型GPT-3無(wú)疑風(fēng)頭無(wú)兩,發(fā)布之初便以1750億參數(shù)規(guī)模的預(yù)訓(xùn)練模型所表現(xiàn)出來(lái)的零樣本與小樣本學(xué)習(xí)能力刷新了人們的認(rèn)知,也引爆了AI大模型研究的熱潮。

對(duì)業(yè)界來(lái)說(shuō),預(yù)訓(xùn)練大模型降低了AI應(yīng)用的門(mén)檻,距離“AI把人類(lèi)從重復(fù)性勞動(dòng)中解放出來(lái)”的宏偉目標(biāo)越來(lái)越近,目前,基于GPT-3,全球開(kāi)發(fā)者已經(jīng)探索出包括編程、回復(fù)郵件、UI設(shè)計(jì)、回答數(shù)學(xué)問(wèn)題、法律語(yǔ)言轉(zhuǎn)化、總結(jié)中心思想、推理、文本處理等廣泛應(yīng)用場(chǎng)景,并且,各國(guó)研究者在多語(yǔ)言/多任務(wù)等角度的探索也正在譜寫(xiě)大模型百家爭(zhēng)鳴的新篇章。

而在國(guó)內(nèi)以中文為核心的大規(guī)模語(yǔ)言模型領(lǐng)域,微信AI推出的百億級(jí)別大規(guī)模語(yǔ)言模型WeLM,便是大模型百家爭(zhēng)鳴中的新選手。

據(jù)介紹,WeLM是一個(gè)百億級(jí)別的中文模型,能夠在零樣本以及少樣本的情境下完成包括對(duì)話-采訪、閱讀理解、翻譯、改寫(xiě)、續(xù)寫(xiě)、多語(yǔ)言閱讀理解在內(nèi)的多種NLP任務(wù),并具備記憶能力、自我糾正和檢查能力。并且,WeLM具有尺寸合理的優(yōu)勢(shì),在14項(xiàng)中文NLP任務(wù)上,WeLM的整體表現(xiàn)超出了所有同大小的模型,甚至能夠匹配比它大25倍的模型。

以被普遍認(rèn)為是更困難的NLP任務(wù)的文本風(fēng)格轉(zhuǎn)換(改寫(xiě))為例,盡管用戶給出的5個(gè)例子和最后需要生成的例子并沒(méi)有重合的風(fēng)格轉(zhuǎn)換類(lèi)型,但WeLM擁有出色的舉一反三能力,通過(guò)學(xué)習(xí)少量的文本轉(zhuǎn)換例子即可達(dá)到對(duì)任意類(lèi)型的文本轉(zhuǎn)換。并且,WeLM在對(duì)話-采訪、閱讀理解、翻譯、續(xù)寫(xiě)等多個(gè)中文文本生成任務(wù)中有著同樣優(yōu)異的表現(xiàn)。

圖片

除了具備強(qiáng)大的中文理解和生成能力,WeLM還擁有處理跨多語(yǔ)言(中英日)任務(wù)的能力。以“微信 AI 推出の WeLM 是一個(gè) language model that いろいろなtaskをperformができる”這句混合中日英三國(guó)語(yǔ)言的文本為例,WeLM的翻譯相較Google翻譯更為精準(zhǔn)。

圖片

而且,在進(jìn)一步微調(diào)后,WeLM可以擁有更好的零樣本學(xué)習(xí)能力,可以根據(jù)場(chǎng)景擁有更好的表現(xiàn)。目前,WeLM已經(jīng)部署應(yīng)用于微信視頻號(hào)的部分場(chǎng)景中,未來(lái)在進(jìn)一步優(yōu)化后還將應(yīng)用于更多微信應(yīng)用場(chǎng)景。

同時(shí),為進(jìn)一步推動(dòng)WeLM成為真正能落地且實(shí)用的工具,微信AI團(tuán)隊(duì)還發(fā)布了一個(gè)供用戶體驗(yàn)的交互式網(wǎng)頁(yè)P(yáng)layGround,并開(kāi)放了用于訪問(wèn)WeLM的API接口。

圖片

目前,用戶可通過(guò)https://welm.weixin.qq.com/docs/體驗(yàn)WeLM的相關(guān)能力,并通過(guò)調(diào)整配置以實(shí)現(xiàn)更貼近的文本生成效果。對(duì)于想接入WeLM的開(kāi)發(fā)者,也可通過(guò)https://welm.weixin.qq.com/docs/api/填寫(xiě)問(wèn)卷后獲得WeLM的API Token并調(diào)用相應(yīng)接口,將WeLM部署在自己的應(yīng)用上。


圖片

具有極強(qiáng)知識(shí)儲(chǔ)備,WeLM在14項(xiàng)中文NLP任務(wù)中表現(xiàn)亮眼

據(jù)介紹,在純Encoder(Bert)、純Decoder(GPT) 以及Encoder-Decode(T5) 結(jié)構(gòu)等主流NLP模型路徑的選擇上,WeLM和GPT3、Google PaLM一樣,選擇了自回歸模型的路線。同時(shí),考慮到不同的用戶對(duì)于模型效果和推理延遲會(huì)有考量或者取舍(trade-off),微信AI的WeLM訓(xùn)練了1.3B、2.7B以及10B三個(gè)版本的模型,滿足不同用戶的調(diào)用需求。

同時(shí),在訓(xùn)練數(shù)據(jù)上,微信AI團(tuán)隊(duì)希望構(gòu)建一個(gè)足夠豐富、足夠干凈、足夠公平的數(shù)據(jù)集,為此研究團(tuán)隊(duì)從Common Crawl下載了近兩年的中文網(wǎng)頁(yè)數(shù)據(jù),和大量的書(shū)籍、新聞。為了增強(qiáng)專(zhuān)業(yè)能力,微信AI團(tuán)隊(duì)還在數(shù)據(jù)集補(bǔ)充了知識(shí)密集的論壇數(shù)據(jù)和一些學(xué)術(shù)論文,搜集完成后的全量數(shù)據(jù)10TB,其中包含了750G的英文數(shù)據(jù),并保留了部分日韓文。

隨后,通過(guò)規(guī)則過(guò)濾和額外訓(xùn)練的二分類(lèi)fasttext模型,以及對(duì)測(cè)評(píng)相關(guān)數(shù)據(jù)的去除,數(shù)據(jù)集最終處理完的數(shù)據(jù)量為262B tokens。為了更好的平衡各個(gè)數(shù)據(jù)源的比重,微信AI團(tuán)隊(duì)也對(duì)數(shù)據(jù)進(jìn)行不同比重的采樣,最終,整體數(shù)據(jù)集的Topic分布相比 Common Crawl更加平滑。

圖片

在與業(yè)界同級(jí)別的CPM、華為Pangu和百度Ernie3.0的對(duì)比測(cè)試中,WeLM表現(xiàn)出極強(qiáng)的知識(shí)儲(chǔ)備,在14項(xiàng)中文NLP任務(wù)上,WeLM 的整體表現(xiàn)超出了所有同大小的模型,甚至能夠匹配比它大25倍的模型。同時(shí),在強(qiáng)大的中文理解和生成能力外,WeLM還有出色的多語(yǔ)言理解能力,用戶的輸入可以在中日英上絲滑切換。

圖片

目前,WeLM的相關(guān)技術(shù)論文《WeLM: A Well-Read Pre-trained Language Model for Chinese》已經(jīng)發(fā)布于論文預(yù)印本網(wǎng)站arXiv,感興趣的用戶可前往https://arxiv.org/abs/2209.10372查看更多技術(shù)細(xì)節(jié)。

在NLP領(lǐng)域,讓大模型成為真正能落地且實(shí)用的工具,是每一位NLP領(lǐng)域的研究者矢志不渝的方向。未來(lái),微信AI也將針對(duì)WeLM進(jìn)行進(jìn)一步的微調(diào)優(yōu)化,進(jìn)一步提升其在新任務(wù)上的泛化效果,也歡迎更多開(kāi)發(fā)者、用戶前來(lái)體驗(yàn)WeLM并提出寶貴意見(jiàn)和建議,幫助該模型早日成為真正能落地且實(shí)用的工具,共同探索人工智能的發(fā)展之路。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉