微軟亞洲研究院：NLP將迎來黃金十年

作者：時間：2018-12-05 來源：億歐網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　趨勢熱點：值得關(guān)注的 NLP 技術(shù)

本文引用地址：http://www.butianyuan.cn/article/201812/395252.htm

　　從最近的 NLP 研究中，我們認為有一些技術(shù)發(fā)展趨勢值得關(guān)注，這里總結(jié)了五個方面：

　　熱點一，預(yù)訓練神經(jīng)網(wǎng)絡(luò)

　　如何學習更好的預(yù)訓練的表示，在一段時間內(nèi)繼續(xù)成為研究的熱點。

　　通過類似于語言模型的方式來學習詞的表示，其用于具體任務(wù)的范式得到了廣泛應(yīng)用。這幾乎成為自然語言處理的標配。這個范式的一個不足是詞表示缺少上下文，對上下文進行建模依然完全依賴于有限的標注數(shù)據(jù)進行學習。實際上，基于深度神經(jīng)網(wǎng)絡(luò)的語言模型已經(jīng)對文本序列進行了學習。如果把語言模型關(guān)于歷史的那部分參數(shù)也拿出來應(yīng)用，那么就能得到一個預(yù)訓練的上下文相關(guān)的表示。這就是 Matthew Peters 等人在 2018 年 NAACL 上的論文“Deep Contextualized Word Representations”的工作，他們在大量文本上訓練了一個基于 LSTM 的語言模型。最近 Jacob Delvin 等人又取得了新的進展，他們基于多層 Transformer 機制，利用所謂“MASKED”模型預(yù)測句子中被掩蓋的詞的損失函數(shù)和預(yù)測下一個句子的損失函數(shù)所預(yù)訓練得到的模型“BERT”，在多個自然語言處理任務(wù)上取得了當前最好的水平。以上提到的所有的預(yù)訓練的模型，在應(yīng)用到具體任務(wù)時，先用這個語言模型的 LSTM 對輸入文本得到一個上下文相關(guān)的表示，然后再基于這個表示進行具體任務(wù)相關(guān)的建模學習。結(jié)果表明，這種方法在語法分析、閱讀理解、文本分類等任務(wù)都取得了顯著的提升。最近一段時間，這種預(yù)訓練模型的研究成為了一個研究熱點。

　　如何學習更好的預(yù)訓練的表示在一段時間內(nèi)將繼續(xù)成為研究的熱點。在什么粒度(word，sub-word，character)上進行預(yù)訓練，用什么結(jié)構(gòu)的語言模型(LSTM，Transformer 等)訓練，在什么樣的數(shù)據(jù)上(不同體裁的文本)進行訓練，以及如何將預(yù)訓練的模型應(yīng)用到具體任務(wù)，都是需要繼續(xù)研究的問題?，F(xiàn)在的預(yù)訓練大都基于語言模型，這樣的預(yù)訓練模型最適合序列標注的任務(wù)，對于問答一類任務(wù)依賴于問題和答案兩個序列的匹配的任務(wù)，需要探索是否有更好的預(yù)訓練模型的數(shù)據(jù)和方法。將來很可能會出現(xiàn)多種不同結(jié)構(gòu)、基于不同數(shù)據(jù)訓練得到的預(yù)訓練模型。針對一個具體任務(wù)，如何快速找到合適的預(yù)訓練模型，自動選擇最優(yōu)的應(yīng)用方法，也是一個可能的研究課題。

　　熱點二，遷移學習和多任務(wù)學習

　　對于那些本身缺乏充足訓練數(shù)據(jù)的自然語言處理任務(wù)，遷移學習有著非常重要和實際的意義。多任務(wù)學習則用于保證模型能夠?qū)W到不同任務(wù)間共享的知識和信息。

　　不同的 NLP 任務(wù)雖然采用各自不同類型的數(shù)據(jù)進行模型訓練，但在編碼器(Encoder)端往往是同構(gòu)的。例如，給定一個自然語言句子 who is the Microsoft founder，機器翻譯模型、復述模型和問答模型都會將其轉(zhuǎn)化為對應(yīng)的向量表示序列，然后再使用各自的解碼器完成后續(xù)翻譯、改寫和答案生成 (或檢索) 任務(wù)。因此，可以將不同任務(wù)訓練得到的編碼器看作是不同任務(wù)對應(yīng)的一種向量表示，并通過遷移學習(Transfer Learning)的方式將這類信息遷移到目前關(guān)注的目標任務(wù)上來。對于那些本身缺乏充足訓練數(shù)據(jù)的自然語言處理任務(wù)，遷移學習有著非常重要和實際的意義。

　　多任務(wù)學習(Multi-task Learning)可通過端到端的方式，直接在主任務(wù)中引入其他輔助任務(wù)的監(jiān)督信息，用于保證模型能夠?qū)W到不同任務(wù)間共享的知識和信息。Collobert 和 Weston 早在 2008 年就最早提出了使用多任務(wù)學習在深度學習框架下處理 NLP 任務(wù)的模型。最近 Salesforce 的 McCann 等提出了利用問答框架使用多任務(wù)學習訓練十項自然語言任務(wù)。每項任務(wù)的訓練數(shù)據(jù)雖然有限，但是多個任務(wù)共享一個網(wǎng)絡(luò)結(jié)構(gòu)，提升對來自不同任務(wù)的訓練數(shù)據(jù)的綜合利用能力。多任務(wù)學習可以設(shè)計為對諸任務(wù)可共建和共享網(wǎng)絡(luò)的核心層次，而在輸出層對不同任務(wù)設(shè)計特定的網(wǎng)絡(luò)結(jié)構(gòu)。

　　熱點三，知識和常識的引入

　　如何在自然語言理解模塊中更好地使用知識和常識，已經(jīng)成為目前自然語言處理領(lǐng)域中一個重要的研究課題。

　　隨著人們對人機交互(例如智能問答和多輪對話)要求的不斷提高，如何在自然語言理解模塊中更好地使用領(lǐng)域知識，已經(jīng)成為目前自然語言處理領(lǐng)域中一個重要的研究課題。這是由于人機交互系統(tǒng)通常需要具備相關(guān)的領(lǐng)域知識，才能更加準確地完成用戶查詢理解、對話管理和回復生成等任務(wù)。

　　最常見的領(lǐng)域知識包括維基百科和知識圖譜兩大類。機器閱讀理解是基于維基百科進行自然語言理解的一個典型任務(wù)。給定一段維基百科文本和一個自然語言問題，機器閱讀理解任務(wù)的目的是從該文本中找到輸入問題對應(yīng)的答案短語片段。語義分析是基于知識圖譜進行自然語言理解的另一個典型任務(wù)。給定一個知識圖譜(例如 Freebase)和一個自然語言問題，語義分析任務(wù)的目的是將該問題轉(zhuǎn)化為機器能夠理解和執(zhí)行的語義表示。目前，機器閱讀理解和語義分析可以說是最熱門的自然語言理解任務(wù)，它們受到了來自全世界研究者的廣泛關(guān)注和深入探索。

　　常識指絕大多數(shù)人都了解并接受的客觀事實，例如海水是咸的、人渴了就想喝水、白糖是甜的等。常識對機器深入理解自然語言非常重要，在很多情況下，只有具備了一定程度的常識，機器才有可能對字面上的含義做出更深一層次的理解。然而獲取常識卻是一個巨大的挑戰(zhàn)，一旦有所突破將是影響人工智能進程的大事情。另外，在 NLP 系統(tǒng)中如何應(yīng)用常識尚無深入的研究，不過出現(xiàn)了一些值得關(guān)注的工作。

　　熱點四，低資源的 NLP 任務(wù)

　　引入領(lǐng)域知識(詞典、規(guī)則)可以增強數(shù)據(jù)能力、基于主動學習的方法增加更多的人工標注數(shù)據(jù)等，以解決數(shù)據(jù)資源貧乏的問題。

　　面對標注數(shù)據(jù)資源貧乏的問題，譬如小語種的機器翻譯、特定領(lǐng)域?qū)υ捪到y(tǒng)、客服系統(tǒng)、多輪問答系統(tǒng)等，NLP 尚無良策。這類問題統(tǒng)稱為低資源的 NLP 問題。對這類問題，除了設(shè)法引入領(lǐng)域知識(詞典、規(guī)則)以增強數(shù)據(jù)能力之外，還可以基于主動學習的方法來增加更多的人工標注數(shù)據(jù)，以及采用無監(jiān)督和半監(jiān)督的方法來利用未標注數(shù)據(jù)，或者采用多任務(wù)學習的方法來使用其他任務(wù)甚至其他語言的信息，還可以使用遷移學習的方法來利用其他的模型。

　　以機器翻譯為例，對于稀缺資源的小語種翻譯任務(wù)，在沒有常規(guī)雙語訓練數(shù)據(jù)的情況下，首先通過一個小規(guī)模的雙語詞典(例如僅包含 2000 左右的詞對)，使用跨語言詞向量的方法將源語言和目標語言詞映射到同一個隱含空間。在該隱含空間中，意義相近的源語言和目標語言詞具有相近的詞向量表示?；谠撜Z義空間中詞向量的相似程度構(gòu)建詞到詞的翻譯概率表，并結(jié)合語言模型，便可以構(gòu)建基于詞的機器翻譯模型。使用基于詞的翻譯模型將源語言和目標語言單語語料進行翻譯，構(gòu)建出偽雙語數(shù)據(jù)。于是，數(shù)據(jù)稀缺的問題通過無監(jiān)督的學習方法產(chǎn)生偽標注數(shù)據(jù)，就轉(zhuǎn)化成了一個有監(jiān)督的學習問題。接下來，利用偽雙語數(shù)據(jù)訓練源語言到目標語言以及目標語言到源語言的翻譯模型，隨后再使用聯(lián)合訓練的方法結(jié)合源語言和目標語言的單語數(shù)據(jù)，可以進一步提高兩個翻譯系統(tǒng)的質(zhì)量。

　　為了提高小語種語言的翻譯質(zhì)量，我們提出了利用通用語言之間大規(guī)模的雙語數(shù)據(jù)，來聯(lián)合訓練四個翻譯模型的期望最大化訓練方法(Ren et al.， 2018)。該方法將小語種(例如希伯來語)作為有著豐富語料的語種(例如中文)和(例如英語)之間的一個隱含狀態(tài)，并使用通用的期望最大化訓練方法來迭代地更新 X 到 Z、Z 到 X、Y 到 Z 和 Z 到 Y 之間的四個翻譯模型，直至收斂。

　　熱點五，多模態(tài)學習

　　視覺問答作為一種典型的多模態(tài)學習任務(wù)，在近年來受到計算機視覺和自然語言處理兩個領(lǐng)域研究人員的重點關(guān)注。

　　嬰兒在掌握語言功能前，首先通過視覺、聽覺和觸覺等感官去認識并了解外部世界?？梢?，語言并不是人類在幼年時期與外界進行溝通的首要手段。因此，構(gòu)建通用人工智能也應(yīng)該充分地考慮自然語言和其他模態(tài)之間的互動，并從中進行學習，這就是多模態(tài)學習。

新聞中心

微軟亞洲研究院：NLP將迎來黃金十年

評論

相關(guān)推薦

技術(shù)專區(qū)