無需「域外」文本,微軟:NLP就應該針對性預訓練
在生物醫(yī)學這樣的專業(yè)領域訓練NLP模型,除了特定數(shù)據(jù)集,「域外」文本也被認為是有用的。但最近,微軟的研究人員「大呼」:我不這么覺得!
本文引用地址:http://www.butianyuan.cn/article/202008/416905.htm什么是預訓練?這是一個拷問人工智能「門外漢」的靈魂問題。生而為人,我們不需要一切從零開始學習。但是,我們會「以舊學新」,用過去所學的舊知識,來理解新知識和處理各種新任務。在人工智能中,預訓練就是模仿人類這個過程。
預訓練(pre-training)這個詞經(jīng)常在論文中見到,指的是用一個任務去訓練一個模型,幫助它形成可以在其他任務中使用的參數(shù)。
用已學習任務的模型參數(shù)初始化新任務的模型參數(shù)。通過這種方式,舊的知識可以幫助新模型從舊的經(jīng)驗中成功地執(zhí)行新任務,而不是從零開始。
以前的研究已經(jīng)表明,在像生物醫(yī)學這樣的專業(yè)領域,當訓練一個NLP模型時,特定領域的數(shù)據(jù)集可以提高準確性。不過,還有一個普遍的認識是,「域外」文本也有用。但是!微軟研究人員對這一假設提出了質(zhì)疑。
近日,微軟研究人員提出一種人工智能技術,針對生物醫(yī)學NLP的領域特定語言模型預訓練。并自信地說,通過從公開的數(shù)據(jù)集中編譯一個「全面的」生物醫(yī)學NLP基準,在包括命名實體識別、基于證據(jù)的醫(yī)學信息提取、文檔分類等任務上取得了最先進的成果。
他們認為,「混合領域」預訓練?不就是遷移學習的另一種形式嗎?源領域是一般文本(如新聞),目標領域是專門文本(如生物醫(yī)學論文)。
在此基礎上,針對特定領域的生物醫(yī)學NLP模型的預訓練總是優(yōu)于通用語言模型的預訓練,說明「混合領域」預訓練并不完美。
神經(jīng)語言模型預訓練的兩種范式?!富旌项I域」預訓練(上);只使用域內(nèi)文本預訓練(下)
如此自信,研究人員是有證據(jù)的。他們通過對生物醫(yī)學NLP應用的影響,比較了訓練前的建模和特定任務的微調(diào)。
第一步,他們創(chuàng)建了一個名為生物醫(yī)學語言理解和推理基準(BLURB)的基準,該基準側(cè)重于PubMed(一個生物醫(yī)學相關的數(shù)據(jù)庫)提供的出版物,涵蓋了諸如關系提取、句子相似度和問題回答等任務,以及諸如是/否問題回答等分類任務。為了計算總結(jié)性分數(shù),BLURB中的語料庫按任務類型分組,并分別打分,之后計算所有的平均值。
為了評估,他們又在最新的PubMed文檔中生成了一個詞匯表并訓練了一個模型:1400萬篇摘要和32億個單詞,總計21GB。在一臺擁有16個V100顯卡的Nvidia DGX-2機器上,培訓了大約5天時間。這個模型具有62,500步長和批量大小,可與以前生物醫(yī)學預訓練實驗中使用的計算量相媲美。
又一個自信,研究人員說他們的模型——PubMedBERT,是建立在谷歌的BERT之上。
那個牛掰掰的BERT?Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領域最具有突破性的一項技術。
但有趣的是,將PubMed的全文添加到預訓練文本(168億字)中會讓性能略有下降,直到預訓練時間延長。但研究人員將這部分歸因于數(shù)據(jù)中的噪聲。
“在本文中,我們挑戰(zhàn)了神經(jīng)語言預訓練模型中普遍存在的假設(就是前面說的「混合領域」預訓練),并證明了從「無」開始對特定領域進行預訓練可以顯著優(yōu)于「混合領域」預訓練?!笧樯镝t(yī)學NLP的應用帶來了新的、最先進的結(jié)果,」研究人員寫道,「我們未來會進一步探索特定領域的預培訓策略,將BLURB基準擴展到臨床或其他高價值領域?!?/p>
為了鼓勵生物醫(yī)學NLP的研究,研究人員創(chuàng)建了一個以BLURB基準為特色的排行榜。他們還以開源的方式發(fā)布了預先訓練過的特定任務模型。
研究已發(fā)布于預印論文網(wǎng)站arxiv上。
評論