博客專欄

EEPW首頁 > 博客 > 微軟T-ULRv6:引領(lǐng)基礎(chǔ)模型向多語言“大一統(tǒng)”邁進(jìn)

微軟T-ULRv6:引領(lǐng)基礎(chǔ)模型向多語言“大一統(tǒng)”邁進(jìn)

發(fā)布人:MSRAsia 時(shí)間:2022-11-21 來源:工程師 發(fā)布文章

近日,微軟通用語言表示模型再創(chuàng)新佳績。最新的 T-ULRv6 在谷歌 XTREME 和 GLUE 排行榜上摘得雙榜冠軍,證明了單個(gè)多語言模型可以同時(shí)在英語和多語言理解任務(wù)上達(dá)到 SOTA 性能。這也是多語言理解模型首次在兩個(gè)排行榜上同時(shí)奪魁,力壓專用于英語或?qū)S糜诙嗾Z言任務(wù)的模型,從而有助于消除“多語言詛咒”。


微軟亞洲研究院自然語言計(jì)算組首席研究員韋福如表示,“T-ULRv6 是我們推進(jìn)大規(guī)模預(yù)訓(xùn)練語言模型以及 AI 模型‘大一統(tǒng)(The Big Convergence)’研究的重要里程碑。我們第一次發(fā)現(xiàn)通過規(guī)?;A(yù)訓(xùn)練語言模型,可以讓多語言基礎(chǔ)模型在高資源(rich-resource)語言(例如英文)上,取得與專門為這些語言設(shè)計(jì)和訓(xùn)練的單語言預(yù)訓(xùn)練模型在對應(yīng)語言的下游任務(wù)上一樣好的效果。之前的研究曾表明多語言預(yù)訓(xùn)練模型在低資源(low-resource)語言的下游任務(wù)上有很大的性能提升并具有支持跨語言遷移的能力。這也說明未來我們可以專注于規(guī)?;嗾Z言基礎(chǔ)模型,并結(jié)合我們所推進(jìn)的多模態(tài)基礎(chǔ)模型大一統(tǒng)方面的研究(如 BEiT-3),為接下來推進(jìn)多語言、多模態(tài)模型的統(tǒng)一提供經(jīng)驗(yàn)與參考?!?/span>


基于“XY-LENT”的 T-ULRv6 XXL 模型是微軟圖靈團(tuán)隊(duì)和微軟亞洲研究院通力合作的成果,其平均分比 XTREME 排行榜目前位居第二的模型高出0.5分,在 GLUE 排行榜上也占據(jù)首位。


圖片

圖1:T-ULRv6 XXL 位居 XTREME 排行榜首位


圖片

圖2:T-ULRv6 XXL 位居 GLUE 排行榜首位


T-ULRv6 能夠取得如此優(yōu)異的成績,是因?yàn)樗?XY-LENT 研究的基礎(chǔ)之上,利用了不同語言之間的多向 (X-Y) 平行文本對 (bitexts) ,并整合了 T-ULRv5 的關(guān)鍵創(chuàng)新,其中包括 XLM-E 架構(gòu)、MRTD 和 TRTD 的新型預(yù)訓(xùn)練任務(wù)、改進(jìn)的訓(xùn)練數(shù)據(jù)和詞匯,以及高級微調(diào)技術(shù) xTune。此外,為了能夠擴(kuò)展到 XXL 大小的模型,微軟還借助了 ZeRO 的內(nèi)存優(yōu)化優(yōu)勢。


圖片

超越以英語為中心的平行文本對范式,更好地學(xué)習(xí)多語言表達(dá)


T-ULRv6 的關(guān)鍵改進(jìn)在于摒棄了以英語為中心的 (EN-X) 平行文本對,直接利用不同語言之間的多向 (X-Y) 平行文本對(如法語-德語、印地語-烏爾都語,或斯瓦希里語-阿拉伯語)。盡管在多語言機(jī)器翻譯中利用這種平行文本對數(shù)據(jù)屬于常規(guī)操作,但這是由問題的性質(zhì)所決定的,研究員們的此次嘗試表明,利用平行文本對數(shù)據(jù)進(jìn)行多語言編碼器訓(xùn)練會(huì)帶來意想不到的性能提升。雖然 EN-X 平行文本對有助于學(xué)習(xí)跨語言對齊和共享表示,然而這種方式在語言和領(lǐng)域的覆蓋范圍及多樣性上會(huì)受到制約。另一方面,X-Y 平行文本對可以為學(xué)習(xí)多語言表示提供更豐富、更均衡的信息,從而可以更好地推廣到更廣泛的語言和任務(wù)中。


為了有效地利用 X-Y 平行文本對,研究員們采用了一種新穎的采樣策略,以確保數(shù)據(jù)在多語言之間有效分布,同時(shí)保持語言邊際分布一致。反過來說,這也確保了模型仍然能夠維持強(qiáng)大的英語性能。


在編碼器中有一個(gè)值得注意的特性,就是參數(shù)效率。XY-LENT XXL 明顯優(yōu)于 XLM-R XXL 和 mT5 XXL,同時(shí)規(guī)模較后兩者分別縮小了約2倍和3倍。即使在 Base、Large  和 XL 三個(gè)類別中,與同類的其他模型相比,XY-LENT 也是最先進(jìn)的,并且展現(xiàn)出了跨類別的競爭優(yōu)勢。強(qiáng)大的性能和較少的參數(shù),在產(chǎn)品開發(fā)場景中非常實(shí)用。


圖片圖片

圖3:T-ULRv6 (XY-LENT) 在模型規(guī)模范圍內(nèi)具有 SOTA 水平,同時(shí)具有參數(shù)效率


在 T-ULRv6 中,微軟亞洲研究院自然語言計(jì)算組的研究員們與微軟圖靈團(tuán)隊(duì)緊密合作,為預(yù)訓(xùn)練模型的研究和開發(fā)以及下游任務(wù)的微調(diào)算法,提供了關(guān)鍵技術(shù)?;?XLM-E 工作中提出的多語言預(yù)訓(xùn)練方法,研究員們成功實(shí)現(xiàn)了130倍的收斂提速,為 T-ULRv6 提供了方法框架。此外,針對多語言預(yù)訓(xùn)練特有的語種競爭問題,研究員們還提出了 VoCap 準(zhǔn)則,以此動(dòng)態(tài)決定多語言詞表的分配額度,從而更好地對多語言輸入進(jìn)行表征?;诙嗾Z言的一致性準(zhǔn)則,微軟亞洲研究院的研究員們提出的多語言微調(diào)框架 xTune,也更好地實(shí)現(xiàn)了跨語言遷移性能。


圖片

只需一個(gè)模型就能應(yīng)對英語和多語言任務(wù)


T-ULRv6 XXL 的另一個(gè)顯著優(yōu)勢,是它在不犧牲質(zhì)量或效率的前提下,憑借單一模型即可在英語和多語言任務(wù)上同時(shí)實(shí)現(xiàn) SOTA 性能。這意味著用戶不用再根據(jù)自然語言處理任務(wù)來選擇使用哪個(gè)預(yù)訓(xùn)練模型,因?yàn)?T-ULRv6 XXL 可以很好地處理這兩種情況。這就簡化了模型選擇和部署的過程,也降低了維護(hù)多個(gè)模型所需的計(jì)算和存儲(chǔ)成本。


為了實(shí)現(xiàn)這一點(diǎn),T-ULRv6 利用其擴(kuò)展能力和非英語平行文本對 (non-English bitexts) 優(yōu)勢消除了“多語言詛咒”,即在權(quán)衡英語和多語言性能時(shí),常常給多語言模型造成困擾。T-ULRv6 不僅在涵蓋一系列英語自然語言理解任務(wù)的 GLUE 基準(zhǔn)測試中優(yōu)于專門的英語模型,在覆蓋40種不同類型語言和9種跨語言任務(wù)的 XTREME 基準(zhǔn)測試中也優(yōu)于專門的多語言模型。此外,T-ULRv6 模型規(guī)模也要小得多,這保證了其參數(shù)效率和可擴(kuò)展性。


圖片

圖4:T-ULRv6 (XY-LENT) 在多語言任務(wù)中展現(xiàn)出了強(qiáng)大的性能


圖片

開放共享,共同推動(dòng)領(lǐng)域發(fā)展


目前,T-ULRv6 已應(yīng)用于微軟必應(yīng) (Bing) 中,為必應(yīng)的國際化提供支持,使用戶能夠使用不同語言在不同地區(qū)搜索信息。T-ULRv6 還將會(huì)把最先進(jìn)的多語言功能賦能微軟其他產(chǎn)品,通過其跨國別和跨語言的能力,助力微軟踐行“予力全球每一人、每一組織,成就不凡”的使命,為更多用戶提供幫助。


微軟一直認(rèn)為 AI 技術(shù)要在學(xué)術(shù)界開放共享,進(jìn)而促進(jìn)合作與創(chuàng)新。因此,微軟啟動(dòng)了“微軟圖靈學(xué)術(shù)計(jì)劃” (MS-TAP,Microsoft Turing Academic Program),允許科研人員提交研究方案,從而獲得 T-ULRv6 和其他圖靈模型的詳細(xì)資料。微軟邀請所有人共同探索多語言理解和生成的潛力,一起應(yīng)對挑戰(zhàn),同時(shí)也歡迎大家提供寶貴的反饋和見解。未來,微軟還將開源 Base 和 Large 模型,進(jìn)一步推動(dòng)該領(lǐng)域的研究工作。


圖片

以多語言技術(shù)為錨點(diǎn),讓AI更具包容性


多語言技術(shù)不僅是一個(gè)技術(shù)挑戰(zhàn),更是一項(xiàng)社會(huì)責(zé)任。微軟一直致力于通過消除限制 AI 易用性和包容性的障礙,例如缺乏訓(xùn)練數(shù)據(jù)、語言建模成本過高以及多語言系統(tǒng)過于復(fù)雜等問題,實(shí)現(xiàn) AI 的普及化。T-ULRv6 讓 AI 向著這一目標(biāo)邁出了重要一步,它為跨語言系統(tǒng)開發(fā)提供了一個(gè)更為高效和可擴(kuò)展的框架,僅使用一個(gè)模型就能同時(shí)處理英語和多語言任務(wù)。微軟很高興有機(jī)會(huì)進(jìn)一步提高技術(shù)水平,開發(fā)新的多語言能力,讓世界各地的更多人和組織從中受益。希望這些工作能夠推動(dòng)社會(huì)進(jìn)步,讓 AI 更具包容性,并惠及所有人。



相關(guān)鏈接:


XY-LENT 論文鏈接:

Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning

https://arxiv.org/pdf/2210.14867.pdf


XLM-E 論文鏈接:

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

https://arxiv.org/abs/2106.16138


xTune 論文鏈接:

Consistency Regularization for Cross-Lingual Fine-Tuning

https://arxiv.org/pdf/2106.08226.pdf


ZeRO 論文鏈接:

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

https://arxiv.org/pdf/1910.02054.pdf


VoCap 論文鏈接:

Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training

https://arxiv.org/pdf/2109.07306.pdf


微軟圖靈學(xué)術(shù)計(jì)劃網(wǎng)頁:

https://www.microsoft.com/en-us/research/collaboration/microsoft-turing-academic-program/


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

土壤濕度傳感器相關(guān)文章:土壤濕度傳感器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉