微軟亞洲研究院：NLP將迎來(lái)黃金十年

作者：時(shí)間：2018-12-05 來(lái)源：億歐網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　比爾·蓋茨曾說(shuō)過(guò)，“語(yǔ)言理解是人工智能皇冠上的明珠”。自然語(yǔ)言處理(NLP，Natural Language Processing)的進(jìn)步將會(huì)推動(dòng)人工智能整體進(jìn)展。

本文引用地址：http://www.butianyuan.cn/article/201812/395252.htm

　　NLP 的歷史幾乎跟計(jì)算機(jī)和人工智能(AI)的歷史一樣長(zhǎng)。自計(jì)算機(jī)誕生，就開(kāi)始有了對(duì)人工智能的研究，而人工智能領(lǐng)域最早的研究就是機(jī)器翻譯以及自然語(yǔ)言理解。

　　在 1998 年微軟亞洲研究院成立之初，NLP 就被確定為最重要的研究領(lǐng)域之一。歷經(jīng)二十載春華秋實(shí)，在歷屆院長(zhǎng)支持下，微軟亞洲研究院在促進(jìn) NLP 的普及與發(fā)展以及人才培養(yǎng)方面取得了非凡的成就。共計(jì)發(fā)表了 100 余篇 ACL 大會(huì)文章，出版了《機(jī)器翻譯》和《智能問(wèn)答》兩部著作，培養(yǎng)了 500 名實(shí)習(xí)生、20 名博士和 20 名博士后。我們開(kāi)發(fā)的 NLP 技術(shù)琳瑯滿目，包括輸入法、分詞、句法/語(yǔ)義分析、文摘、情感分析、問(wèn)答、跨語(yǔ)言檢索、機(jī)器翻譯、知識(shí)圖譜、聊天機(jī)器人、用戶畫像和推薦等，已經(jīng)廣泛應(yīng)用于 Windows、Office、Bing、微軟認(rèn)知服務(wù)、小冰、小娜等微軟產(chǎn)品中。我們與創(chuàng)新技術(shù)組合作研發(fā)的微軟對(duì)聯(lián)和必應(yīng)詞典，已經(jīng)為成千上萬(wàn)的用戶提供服務(wù)。

　　過(guò)去二十年，NLP 利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法，基于大規(guī)模的帶標(biāo)注的數(shù)據(jù)進(jìn)行端對(duì)端的學(xué)習(xí)，取得了長(zhǎng)足的進(jìn)步。尤其是過(guò)去三年來(lái)，深度學(xué)習(xí)給 NLP 帶來(lái)了新的進(jìn)步。其中在單句翻譯、抽取式閱讀理解、語(yǔ)法檢查等任務(wù)上，更是達(dá)到了可比擬人類的水平。

　　基于如下的判斷，我們認(rèn)為未來(lái)十年是 NLP 發(fā)展的黃金檔：

　　來(lái)自各個(gè)行業(yè)的文本大數(shù)據(jù)將會(huì)更好地采集、加工、入庫(kù)。

　　來(lái)自搜索引擎、客服、商業(yè)智能、語(yǔ)音助手、翻譯、教育、法律、金融等領(lǐng)域?qū)?NLP 的需求會(huì)大幅度上升，對(duì) NLP 質(zhì)量也提出更高要求。

　　文本數(shù)據(jù)和語(yǔ)音、圖像數(shù)據(jù)的多模態(tài)融合成為未來(lái)機(jī)器人的剛需。這些因素都會(huì)進(jìn)一步促進(jìn)對(duì) NLP 的投資力度，吸引更多人士加入到 NLP 的研發(fā)中來(lái)。因此我們需要審時(shí)度勢(shì)、抓住重點(diǎn)、及時(shí)規(guī)劃，面向更大的突破。

　　因此，NLP 研究將會(huì)向如下幾個(gè)方面傾斜：

　　將知識(shí)和常識(shí)引入目前基于數(shù)據(jù)的學(xué)習(xí)系統(tǒng)中。

　　低資源的 NLP 任務(wù)的學(xué)習(xí)方法。

　　上下文建模、多輪語(yǔ)義理解。

　　基于語(yǔ)義分析、知識(shí)和常識(shí)的可解釋 NLP。

　　重點(diǎn)知識(shí)：NLP 的技術(shù)進(jìn)展

　　自然語(yǔ)言處理，有時(shí)候也稱作自然語(yǔ)言理解，旨在利用計(jì)算機(jī)分析自然語(yǔ)言語(yǔ)句和文本，抽取重要信息，進(jìn)行檢索、問(wèn)答、自動(dòng)翻譯和文本生成。人工智能的目的是使得電腦能聽(tīng)、會(huì)說(shuō)、理解語(yǔ)言、會(huì)思考、解決問(wèn)題，甚至?xí)?chuàng)造。它包括運(yùn)算智能、感知智能、認(rèn)知智能和創(chuàng)造智能幾個(gè)層次的技術(shù)。計(jì)算機(jī)在運(yùn)算智能即記憶和計(jì)算的能力方面已遠(yuǎn)超人類。而感知智能則是電腦感知環(huán)境的能力，包括聽(tīng)覺(jué)、視覺(jué)和觸覺(jué)等等，相當(dāng)于人類的耳朵、眼睛和手。目前感知智能技術(shù)已取得飛躍性的進(jìn)步;而認(rèn)知智能包括自然語(yǔ)言理解、知識(shí)和推理，目前還待深入研究;創(chuàng)造智能目前尚無(wú)多少研究。比爾·蓋茨曾說(shuō)過(guò)，“自然語(yǔ)言理解是人工智能皇冠上的明珠”。NLP 的進(jìn)步將會(huì)推動(dòng)人工智能整體進(jìn)展。

　　NLP 在深度學(xué)習(xí)的推動(dòng)下，在很多領(lǐng)域都取得了很大進(jìn)步。下面，我們就來(lái)一起簡(jiǎn)單看看 NLP 的重要技術(shù)進(jìn)展。

　　1、神經(jīng)機(jī)器翻譯

　　神經(jīng)機(jī)器翻譯就是模擬人腦的翻譯過(guò)程。

　　翻譯任務(wù)就是把源語(yǔ)言句子轉(zhuǎn)換成語(yǔ)義相同的目標(biāo)語(yǔ)言句子。人腦在進(jìn)行翻譯的時(shí)候，首先是嘗試?yán)斫膺@句話，然后在腦海里形成對(duì)這句話的語(yǔ)義表示，最后再把這個(gè)語(yǔ)義表示轉(zhuǎn)化到另一種語(yǔ)言。神經(jīng)機(jī)器翻譯就是模擬人腦的翻譯過(guò)程，它包含了兩個(gè)模塊：一個(gè)是編碼器，負(fù)責(zé)將源語(yǔ)言句子壓縮為語(yǔ)義空間中的一個(gè)向量表示，期望該向量包含源語(yǔ)言句子的主要語(yǔ)義信息;另一個(gè)是解碼器，它基于編碼器提供的語(yǔ)義向量，生成在語(yǔ)義上等價(jià)的目標(biāo)語(yǔ)言句子。

　　神經(jīng)機(jī)器翻譯模型的優(yōu)勢(shì)在于三方面：一是端到端的訓(xùn)練，不再像統(tǒng)計(jì)機(jī)器翻譯方法那樣由多個(gè)子模型疊加而成，從而造成錯(cuò)誤的傳播;二是采用分布式的信息表示，能夠自動(dòng)學(xué)習(xí)多維度的翻譯知識(shí)，避免人工特征的片面性;三是能夠充分利用全局上下文信息來(lái)完成翻譯，不再是局限于局部的短語(yǔ)信息?；谘h(huán)神經(jīng)網(wǎng)絡(luò)模型的機(jī)器翻譯模型已經(jīng)成為一種重要的基線系統(tǒng)，在此方法的基礎(chǔ)上，從網(wǎng)絡(luò)模型結(jié)構(gòu)到模型訓(xùn)練方法等方面，都涌現(xiàn)出很多改進(jìn)。

　　神經(jīng)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量在不斷取得進(jìn)步，人們一直在探索如何使得機(jī)器翻譯達(dá)到人類的翻譯水平。2018 年，微軟亞洲研究院與微軟翻譯產(chǎn)品團(tuán)隊(duì)合作開(kāi)發(fā)的中英機(jī)器翻譯系統(tǒng)，在 WMT2017 新聞?lì)I(lǐng)域測(cè)試數(shù)據(jù)集上的翻譯質(zhì)量達(dá)到了與人類專業(yè)翻譯質(zhì)量相媲美的水平 (Hassan et al.， 2018)。該系統(tǒng)融合了微軟亞洲研究院提出的四種先進(jìn)技術(shù)，其中包括可以高效利用大規(guī)模單語(yǔ)數(shù)據(jù)的聯(lián)合訓(xùn)練和對(duì)偶學(xué)習(xí)技術(shù)，以及解決曝光偏差問(wèn)題的一致性正則化技術(shù)和推敲網(wǎng)絡(luò)技術(shù)。

　　2、智能人機(jī)交互

　　智能人機(jī)交互包括利用自然語(yǔ)言實(shí)現(xiàn)人與機(jī)器的自然交流。其中一個(gè)重要的概念是“對(duì)話即平臺(tái)”。

　　“對(duì)話即平臺(tái)(CaaP，Conversation as a Platform)”是微軟首席執(zhí)行官薩提亞·納德拉 2016 年提出的概念，他認(rèn)為圖形界面的下一代就是對(duì)話，并會(huì)給整個(gè)人工智能、計(jì)算機(jī)設(shè)備帶來(lái)一場(chǎng)新的革命。

　　薩提亞之所以提出這個(gè)概念是因?yàn)椋菏紫?，源于大家都已?jīng)習(xí)慣用社交手段，如微信、Facebook 與他人聊天的過(guò)程。我們希望將這種交流過(guò)程呈現(xiàn)在當(dāng)今的人機(jī)交互中。其次，大家現(xiàn)在面對(duì)的設(shè)備有的屏幕很小(比如手機(jī))，有的甚至沒(méi)有屏幕(比如有些物聯(lián)網(wǎng)設(shè)備)，語(yǔ)音交互更加自然和直觀。對(duì)話式人機(jī)交互可調(diào)用 Bot 來(lái)完成一些具體的功能，比如訂咖啡，買車票等等。許多公司開(kāi)放了 CAAP 平臺(tái)，讓全世界的開(kāi)發(fā)者都能開(kāi)發(fā)出自己喜歡的 Bot 以便形成一個(gè)生態(tài)。

上一頁(yè) 1 2 3 4 下一頁(yè)

新聞中心

微軟亞洲研究院：NLP將迎來(lái)黃金十年

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)