ACL 2022 | NLP領(lǐng)域最新熱門研究,你一定不能錯過!
編者按:作為自然語言處理領(lǐng)域的國際頂級學(xué)術(shù)會議,ACL 每年都吸引了大量學(xué)者投稿和參會,今年的 ACL 大會將于5月22日至5月27日舉辦。值得注意的是,這也是 ACL 大會采用 ACL Rolling Review 機制后的首次嘗試。在此次會議中,微軟亞洲研究院有多篇論文入選,本文精選了其中的6篇進行簡要介紹,論文主題涵蓋了:編碼器****框架、自然語言生成、知識神經(jīng)元、抽取式文本摘要、預(yù)訓(xùn)練語言模型、零樣本神經(jīng)機器翻譯等。歡迎感興趣的讀者閱讀論文原文。
SpeechT5:語音和文本聯(lián)合預(yù)訓(xùn)練的編碼器****框架
論文鏈接:https://arxiv.org/abs/2110.07205
編碼器-****框架廣泛應(yīng)用于自然語言處理和語音處理領(lǐng)域,比如端到端的神經(jīng)機器翻譯模型和語音識別模型。受 T5(Text-To-Text Transfer Transformer)在自然語言處理預(yù)訓(xùn)練模型上應(yīng)用成功的啟發(fā),本文提出了一個統(tǒng)一語音模態(tài)和文本模態(tài)的聯(lián)合框架 SpeechT5,該框架探索了基于自監(jiān)督語音和文本表示學(xué)習(xí)的編碼器-****預(yù)訓(xùn)練方法。
SpeechT5 包含一個共享的編碼器-解碼網(wǎng)絡(luò)和對應(yīng)模態(tài)的前處理/后處理網(wǎng)絡(luò),試圖通過編碼器-****框架將不同的語音處理任務(wù)轉(zhuǎn)換成語音/文本到語音/文本的問題。利用大規(guī)模的未標注語音和文本數(shù)據(jù),SpeechT5 統(tǒng)一了預(yù)訓(xùn)練學(xué)習(xí)兩種模態(tài)的表示,以提高對語音和文本的建模能力。為了將文本和語音信息對齊到統(tǒng)一的語義空間中,本文提出了一種跨模態(tài)的矢量量化方法,該方法將語音和文本向量和潛在量化向量隨機混合,作為編碼器和****之間的語義接口。研究員們在多種不同的語音處理任務(wù)上評估了所提出的 SpeechT5 模型,包括自動語音識別、語音合成、語音翻譯、語音轉(zhuǎn)換、語音增強和說話人識別,均顯示出該模型的有效性和優(yōu)越性。
圖1:(a)是 SpeechT5 模型結(jié)構(gòu),該模型架構(gòu)包含一個編碼器-****模塊和六個模態(tài)特定的前處理/后處理網(wǎng)絡(luò)。(b)是聯(lián)合預(yù)訓(xùn)練方法,通過在不同模態(tài)之間共享潛在量化向量,聯(lián)合預(yù)訓(xùn)練方法搭建起了語音和文本之間的橋梁。
論文鏈接:https://arxiv.org/abs/2202.13257
為了指導(dǎo)大型預(yù)訓(xùn)練語言模型的生成,之前的工作主要集中在直接微調(diào)語言模型或利用屬性分類模型來引導(dǎo)生成。Prefix-tuning (Li and Liang, 2021) 提出通過訓(xùn)練前綴(一個小規(guī)模的連續(xù)向量)來替代在下游生成任務(wù)上進行的微調(diào)。受此啟發(fā),研究員們在本文中提出了一種用于控制 GPT2 生成的新型輕量級框架。該框架利用一組前綴來引導(dǎo)自然語言文本的生成,每個前綴都與一個被控制的屬性相對應(yīng)。
與使用屬性分類模型或生成判別器相比,使用前綴實現(xiàn)可控性具有以下優(yōu)點:首先,它引入了更少的附加參數(shù)(在實驗中約為 GPT2 參數(shù)的 0.2%-2%)。其次,使用前綴可以使推理速度與原始 GPT2 模型相媲美。與 Prefix-tuning 獨立訓(xùn)練每個前綴的方式不同,微軟亞洲研究院的研究員們認為屬性之間有相互關(guān)系(比如正面情感和負面情感是相互對立的關(guān)系),并且在訓(xùn)練過程中學(xué)習(xí)這種關(guān)系將有助于提高前綴的控制效果。因此,在該框架中,研究員們考慮了前綴之間的關(guān)系并同時訓(xùn)練了多個前綴。本文提出了一種新的有監(jiān)督訓(xùn)練方法和一種新的無監(jiān)督訓(xùn)練方法來實現(xiàn)單屬性控制,而這兩種方法的結(jié)合則可以實現(xiàn)多屬性控制。單屬性控制任務(wù)(情緒控制、去毒化、主題控制)的實驗結(jié)果表明,研究員們提出的方法可以在保持較高語言質(zhì)量的同時引導(dǎo)生成文本具備目標屬性。而多屬性控制任務(wù)(情感和主題控制)的實驗結(jié)果表明,用該方法訓(xùn)練的前綴可以同時成功地控制這兩個方面的屬性。
圖2: Prefix-tuning(上)和本文方法(下)在情感控制任務(wù)上的比較。實線箭頭表示訓(xùn)練過程,虛線箭頭表示生成過程。在本文提出的框架中,訓(xùn)練可以是有監(jiān)督的、半監(jiān)督的、或者無監(jiān)督的。
論文鏈接:https://arxiv.org/abs/2104.08696
近年來,大規(guī)模預(yù)訓(xùn)練語言模型被證明擁有較好的回憶預(yù)訓(xùn)練語料中所暴露的知識的能力。但現(xiàn)有的知識探針工作,如 LAMA,僅僅關(guān)注評估知識預(yù)測的整體準確率。本文試圖對預(yù)訓(xùn)練語言模型進行更深入的研究,通過引入知識神經(jīng)元的概念,來探究事實型知識是如何在模型中進行存儲的。
首先,如圖3所示,研究員們把 Transformer 中的 FFN 模塊類比為鍵-值記憶模塊。具體來說,F(xiàn)FN 中的第一個線性層可以被看做一系列鍵,而第二個線性層可以被看做一系列對應(yīng)的值。一個隱向量先跟第一個線性層中的鍵通過內(nèi)積來計算出一系列中間神經(jīng)元的激活值,然后用這個激活值作為權(quán)重,來對第二個線性層中的值進行加權(quán)求和。研究員們假設(shè)知識神經(jīng)元就存在于這些中間神經(jīng)元之中。
圖3:研究員們把 FFN 模塊類比為鍵-值記憶模塊,而知識神經(jīng)元存在于其中
在以上類比和假設(shè)的基礎(chǔ)之上,研究員們提出了一套檢測知識神經(jīng)元的方法?;谥R填空的任務(wù),研究員們先通過知識歸因算法來找到對最終知識表達最重要的神經(jīng)元,然后再通過一個知識神經(jīng)元精煉的步驟,進一步提取出跟知識表達最為相關(guān)的神經(jīng)元。
研究員們通過實驗驗證了知識神經(jīng)元跟知識表達之間的關(guān)系:正向的,研究員們驗證了知識神經(jīng)元的激活值可以直接影響事實型知識的表達;反向的,研究員們驗證了知識神經(jīng)元更容易被表達知識的文本所激活。此外,基于知識神經(jīng)元,本文還提出了兩個初步的知識編輯方法,通過修改知識神經(jīng)元對應(yīng)的 FFN 中的參數(shù),可以一定程度上對預(yù)訓(xùn)練模型中的一條知識進行更新,也可以從模型中刪除一整類知識。
論文鏈接:https://arxiv.org/abs/2204.13512
抽取式文本摘要目前在英文上已經(jīng)取得了很好的性能,這主要得益于大規(guī)模預(yù)訓(xùn)練語言模型和豐富的標注語料。但是對于其他小語種語言,目前很難獲得大規(guī)模的標注數(shù)據(jù)。因此,本文的研究內(nèi)容是基于 Zero-Shot 的多語言抽取式文本摘要,具體方法是使用在英文上預(yù)訓(xùn)練好的抽取式文本摘要模型來在其他低資源語言上直接進行摘要抽取。針對多語言 Zero-Shot 中的單語言標簽偏差問題,本文提出了多語言標簽(Multilingual Label)標注算法和神經(jīng)標簽搜索模型 NLSSum。
多語言標簽是通過機器翻譯和雙語詞典替換等無監(jiān)督的方式所構(gòu)造的標簽,如圖4所示,其中包含a、b、c、d四組標簽集合,它們分別通過不同語言間的翻譯和詞替換來構(gòu)造。通過這種方式構(gòu)造的標簽?zāi)軌蛟跇撕炛腥谌敫嗫缯Z言信息。
圖4:多語言抽取式摘要標簽構(gòu)建。a為在英文上獲得的標簽集合,b、c、d為對英文訓(xùn)練集進行機器翻譯(MT)和雙語詞典替換(WR)而獲得的標簽集合。
NLSSum 通過神經(jīng)搜索的方式來對多語言標簽中不同標簽集合賦予不同的權(quán)重,并最終得到每個句子加權(quán)平均的標簽。本文就是使用這種最終的標簽在英文數(shù)據(jù)集上訓(xùn)練抽取式摘要模型(見圖5)。其中,每個句子的標簽得分綜合考慮了句子級別權(quán)重預(yù)測器 T_α 以及標簽集合級別權(quán)重預(yù)測器 T_β 的結(jié)果。和單語言標簽相比,多語言標簽中存在更多的跨語言語義和語法信息,因此 NLSSum 模型在數(shù)據(jù)集 MLSUM 的所有語言數(shù)據(jù)集上均大幅度超越了基線模型的分數(shù),甚至超越了未使用預(yù)訓(xùn)練模型的有監(jiān)督方法(Pointer-Generator)。
圖5:多語言神經(jīng)標簽搜索摘要模型
本文中,研究員們還通過可視化分析進一步研究了不同語言間重要信息的分布位置,可以發(fā)現(xiàn)英文語言中重要信息的分布較為靠前,其他語言中重要信息的分布相對比較分散,而這也是本文多語言標簽?zāi)軌蛱嵘P托阅艿闹匾颉?/span>
論文鏈接:https://arxiv.org/abs/2202.12024
預(yù)訓(xùn)練語言模型是近年來自然語言處理領(lǐng)域備受關(guān)注的熱門技術(shù)之一。在下游任務(wù)中如何有效地微調(diào)預(yù)訓(xùn)練語言模型是其成功與否的關(guān)鍵。目前已有的許多方法直接利用下游任務(wù)中的數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練語言模型,如圖6(a)所示。但是,研究員們認為語言模型也存在過擬合預(yù)訓(xùn)練任務(wù)和數(shù)據(jù)的風(fēng)險。由于預(yù)訓(xùn)練任務(wù)與下游任務(wù)通常存在鴻溝,已有的微調(diào)方法較難快速地從預(yù)訓(xùn)練空間遷移到下游任務(wù)空間,特別是當下游任務(wù)的訓(xùn)練數(shù)據(jù)較為稀少時。針對這一問題,微軟亞洲研究院的研究員們提出了一種簡單而有效的解決方案,即在微調(diào)之前添加少量噪聲來擾動預(yù)訓(xùn)練語言模型,名為 NoisyTune。其范式如圖6(b)所示。
圖6:標準語言模型微調(diào)的方式與本文所提出方式的對比
研究員們認為,對 PLM 添加少量噪聲可以幫助模型“探索”更多潛在的特征空間,從而減輕對預(yù)訓(xùn)練任務(wù)和數(shù)據(jù)的過擬合問題。為了更好地保留語言模型的知識,研究員們提出了一種根據(jù)參數(shù)矩陣的方差添加均勻噪聲的方法,這種方法能夠根據(jù)不同類型參數(shù)的特點添加合適強度的噪聲,其公式如下。其中超參數(shù)λ控制了添加噪聲的強度。
研究員們在英文的 GLUE 數(shù)據(jù)集與多語言的 XTREME 數(shù)據(jù)集上開展了實驗。結(jié)果顯示,NoisyTune 可以有效為不同類型的語言模型帶來提升,特別是對規(guī)模相對較小的數(shù)據(jù)集提升幅度更大。
此外,研究員們還進一步探究了添加不同噪聲對于 NoisyTune 的影響,結(jié)果發(fā)現(xiàn)加入全局統(tǒng)一分布的噪聲往往對模型性能有一定損害,而根據(jù)參數(shù)矩陣的偏離程度添加效果更佳。另外,可能由于高斯噪聲缺乏硬性范圍約束,添加均勻分布噪聲的模型效果比高斯噪聲更好。
圖7:不同噪聲類型對 NoisyTune 的影響
論文鏈接:https://arxiv.org/abs/2110.08547
本文證明了在零樣本神經(jīng)網(wǎng)絡(luò)機器翻譯中,合適的多語言預(yù)訓(xùn)練和多語言微調(diào)方法對提高跨語言遷移的能力都是至關(guān)重要的。根據(jù)這個動機,研究員們提出了 SixT+,一個強大的多語言神經(jīng)機器翻譯模型,該模型只使用了六種語言的平行語料進行訓(xùn)練,卻能夠同時支持100種語言的翻譯。
SixT+ 使用 XLM-R large 初始化 ****嵌入和整個編碼器,然后使用簡單的兩階段訓(xùn)練策略訓(xùn)練 編碼器和****。SixT+ 在不少翻譯方向上都取得了很好的結(jié)果,性能明顯優(yōu)于 CRISS 和 m2m-100 這兩個強大的多語言神經(jīng)機器翻譯系統(tǒng),其平均增長分別為7.2和5.0 BLEU。
此外,SixT+ 也是一個很好的預(yù)訓(xùn)練模型,可以進一步微調(diào)以適應(yīng)其他無監(jiān)督任務(wù)。實驗結(jié)果證明,在斯洛文尼亞語和尼泊爾語這兩個語言的翻譯上,SixT+ 比最先進的無監(jiān)督機器翻譯模型的平均 BLEU 高出1.2以上。SixT+ 同樣可以應(yīng)用于零樣本跨語言摘要,它的平均性能顯著高于 mBART-ft,平均可以提高 12.3 ROUGE-L。研究員們還對 SixT+ 進行了詳細分析,以了解 SixT+ 的關(guān)鍵組成部分,包括多語言平行數(shù)據(jù)的必要性,位置分離編碼器及其編碼器的跨語言遷移能力。
圖8:研究員們提出的兩階段訓(xùn)練框架,利用多語言預(yù)訓(xùn)練模型 XLM-R 建立跨語言生成模型。圖中藍色的冰塊表示用 XLM-R 初始化并凍結(jié),而紅色的火焰則代表隨機初始化或從第一階段開始初始化。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。