微軟亞洲研究院:NLP將迎來黃金十年
視覺問答作為一種典型的多模態(tài)學(xué)習(xí)任務(wù),在近年來受到計(jì)算機(jī)視覺和自然語言處理兩個(gè)領(lǐng)域研究人員的重點(diǎn)關(guān)注。給定一張圖片和用戶提出的一個(gè)自然語言問題,視覺問答系統(tǒng)需要在理解圖片和自然語言問題的基礎(chǔ)上,進(jìn)一步輸入該問題對(duì)應(yīng)的答案,這需要視覺問答方法在建模中能夠?qū)D像和語言之間的信息進(jìn)行充分地理解和交互。
本文引用地址:http://butianyuan.cn/article/201812/395252.htm我們?cè)诮衲甑?CVPR 和 KDD 大會(huì)上分別提出了基于問題生成的視覺問答方法(Li et al., 2018)以及基于場(chǎng)景圖生成的視覺問答方法(Lu et al., 2018),這兩種方法均在視覺問答任務(wù)上取得了非常好的結(jié)果,實(shí)現(xiàn)了 state-of-the-art 的效果。除視覺問答外,視頻問答是另一種最近廣受關(guān)注的多模態(tài)任務(wù)。該任務(wù)除了包括帶有時(shí)序的視頻信息外,還包括了音頻信息。目前,視頻問答作為一種新型的問答功能,已經(jīng)出現(xiàn)在搜索引擎的場(chǎng)景中??梢灶A(yù)見,該任務(wù)在接下來一定還會(huì)受到更多的關(guān)注。
未來展望:理想的 NLP 框架和發(fā)展前景
我們認(rèn)為,未來理想狀態(tài)下的 NLP 系統(tǒng)架構(gòu)可能是如下一個(gè)通用的自然語言處理框架:
首先,對(duì)給定自然語言輸入進(jìn)行基本處理,包括分詞、詞性標(biāo)注、依存分析、命名實(shí)體識(shí)別、意圖/關(guān)系分類等。
其次,使用編碼器對(duì)輸入進(jìn)行編碼將其轉(zhuǎn)化為對(duì)應(yīng)的語義表示。在這個(gè)過程中,一方面使用預(yù)訓(xùn)練好的詞嵌入和實(shí)體嵌入對(duì)輸入中的單詞和實(shí)體名稱進(jìn)行信息擴(kuò)充,另一方面,可使用預(yù)訓(xùn)練好的多個(gè)任務(wù)編碼器對(duì)輸入句子進(jìn)行編碼并通過遷移學(xué)習(xí)對(duì)不同編碼進(jìn)行融合。
接下來,基于編碼器輸出的語義表示,使用任務(wù)相關(guān)的解碼器生成對(duì)應(yīng)的輸出。還可引入多任務(wù)學(xué)習(xí)將其他相關(guān)任務(wù)作為輔助任務(wù)引入到對(duì)主任務(wù)的模型訓(xùn)練中來。如果需要多輪建模,則需要在數(shù)據(jù)庫(kù)中記錄當(dāng)前輪的輸出結(jié)果的重要信息,并應(yīng)用于在后續(xù)的理解和推理中。
顯然,為了實(shí)現(xiàn)這個(gè)理想的 NLP 框架需要做很多工作:
需要構(gòu)建大規(guī)模常識(shí)數(shù)據(jù)庫(kù)并且清晰通過有意義的評(píng)測(cè)推動(dòng)相關(guān)研究;
研究更加有效的詞、短語、句子的編碼方式,以及構(gòu)建更加強(qiáng)大的預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;
推進(jìn)無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),需要考慮利用少量人類知識(shí)加強(qiáng)學(xué)習(xí)能力以及構(gòu)建跨語言的 embedding 的新方法;
需要更加有效地體現(xiàn)多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)在 NLP 任務(wù)中的效能,提升強(qiáng)化學(xué)習(xí)在 NLP 任務(wù)的作用,比如在自動(dòng)客服的多輪對(duì)話中的應(yīng)用;
有效的篇章級(jí)建?;蛘叨噍啎?huì)話建模和多輪語義分析;
要在系統(tǒng)設(shè)計(jì)中考慮用戶的因素,實(shí)現(xiàn)用戶建模和個(gè)性化的輸出;
構(gòu)建綜合利用推理系統(tǒng)、任務(wù)求解和對(duì)話系統(tǒng),基于領(lǐng)域知識(shí)和常識(shí)知識(shí)的新一代的專家系統(tǒng);
利用語義分析和知識(shí)系統(tǒng)提升 NLP 系統(tǒng)的可解釋能力。
未來十年,NLP 將會(huì)進(jìn)入爆發(fā)式的發(fā)展階段。從 NLP 基礎(chǔ)技術(shù)到核心技術(shù),再到 NLP+的應(yīng)用,都會(huì)取得巨大的進(jìn)步。比爾蓋茨曾經(jīng)說過人們總是高估在一年或者兩年中能夠做到的事情,而低估十年中能夠做到的事情。
我們不妨進(jìn)一步想象十年之后 NLP 的進(jìn)步會(huì)給人類生活帶來哪些改變?
十年后,機(jī)器翻譯系統(tǒng)可以對(duì)上下文建模,具備新詞處理能力。那時(shí)候的講座、開會(huì)都可以用語音進(jìn)行自動(dòng)翻譯。除了機(jī)器翻譯普及,其他技術(shù)的進(jìn)步也令人耳目一新。家里的老人和小孩可以跟機(jī)器人聊天解悶。
機(jī)器個(gè)人助理能夠理解你的自然語言指令,完成點(diǎn)餐、送花、購(gòu)物等下單任務(wù)。你已習(xí)慣于客服機(jī)器人來回答你的關(guān)于產(chǎn)品維修的問題。
你登臨泰山發(fā)思古之幽情,或每逢佳節(jié)倍思親,拿出手機(jī)說出感想或者上傳一幅照片,一首情景交融、圖文并茂的詩(shī)歌便躍然于手機(jī)屏幕上,并且可以選擇格律詩(shī)詞或者自由體的表示形式,亦可配上曲譜,發(fā)出大作引來點(diǎn)贊。
可能你每天看到的體育新聞、財(cái)經(jīng)新聞報(bào)道是機(jī)器人寫的。
你用手機(jī)跟機(jī)器人老師學(xué)英語,老師教你口語,糾正發(fā)音,跟你親切對(duì)話,幫你修改論文。
機(jī)器人定期自動(dòng)分析浩如煙海的文獻(xiàn),給企業(yè)提供分析報(bào)表、輔助決策并做出預(yù)測(cè)。搜索引擎的智能程度大幅度提高。很多情況下,可以直接給出答案,并且可以自動(dòng)生成細(xì)致的報(bào)告。
利用推薦系統(tǒng),你關(guān)心的新聞、書籍、課程、會(huì)議、論文、商品等可直接推送給你。
機(jī)器人幫助律師找出判據(jù),挖掘相似案例,尋找合同疏漏,撰寫法律報(bào)告。
……
未來,NLP 將跟其他人工智能技術(shù)一道深刻地改變?nèi)祟惖纳睢.?dāng)然前途光明、道路曲折是亙古不變的道理,為了實(shí)現(xiàn)這個(gè)美好的未來,我們需要大膽創(chuàng)新、嚴(yán)謹(jǐn)求實(shí)、扎實(shí)進(jìn)取。講求研究和應(yīng)用并舉,普及與提高同步。我們期待著與業(yè)界同仁一道努力,共同走進(jìn) NLP 下一個(gè)輝煌的十年。
評(píng)論