人工智能與語音識(shí)別技術(shù)

作者：胡郁時(shí)間：2016-03-28 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

編者按：隨著深度神經(jīng)網(wǎng)絡(luò)在大規(guī)模語音識(shí)別任務(wù)上獲得顯著效果提升，大數(shù)據(jù)的不斷完善和漣漪效應(yīng)的提出，在近十年，中國(guó)的人工智能也得到了快速發(fā)展。作為國(guó)內(nèi)智能語音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者的科大訊飛率先將遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到真實(shí)在線系統(tǒng)中，并提出了全新的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)FSMN——訊飛構(gòu)型。

摘要：隨著深度神經(jīng)網(wǎng)絡(luò)在大規(guī)模語音識(shí)別任務(wù)上獲得顯著效果提升，大數(shù)據(jù)的不斷完善和漣漪效應(yīng)的提出，在近十年，中國(guó)的人工智能也得到了快速發(fā)展。作為國(guó)內(nèi)智能語音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者的科大訊飛率先將遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到真實(shí)在線系統(tǒng)中，并提出了全新的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)FSMN——訊飛構(gòu)型。

本文引用地址：http://www.butianyuan.cn/article/201603/288901.htm

人工智能的三個(gè)層面

　　2014年8月20日，在國(guó)家會(huì)議中心，科大訊飛宣布其人工智能的整體戰(zhàn)略——訊飛超腦計(jì)劃，正式成立。科大訊飛超腦計(jì)劃的首次發(fā)布時(shí)，科大訊飛就對(duì)人工智能做了一個(gè)清晰的分割和鑒定，它把人工智能劃分成三個(gè)層面。第一個(gè)層面是運(yùn)算智能，讓機(jī)器具備了能存會(huì)算的能力;第二個(gè)層面是感知智能，讓機(jī)器能聽會(huì)說能看會(huì)認(rèn);但是最有挑戰(zhàn)性的，也是我們?nèi)藚^(qū)別于動(dòng)物的最大的能力，就是我們的認(rèn)知智能。即認(rèn)識(shí)和知道，能理解會(huì)思考，這樣一個(gè)能力。

人工智能1.jpg

人工智能發(fā)展三要素——深度神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)和漣漪效應(yīng)當(dāng)

　　世界因?yàn)槿斯ぶ悄芏淖兊臅r(shí)候，我們開始思考為什么人工智能可以在過去的十年取得如此大的進(jìn)步。胡郁先生認(rèn)為，其實(shí)，雖然在整個(gè)學(xué)術(shù)界眾說紛紜，但是慢慢的大家越來越趨向于三個(gè)關(guān)鍵的因素。即，深度神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)和漣漪效應(yīng)。

　　深度神經(jīng)網(wǎng)絡(luò)其實(shí)只是統(tǒng)計(jì)模式識(shí)別的一個(gè)很小的分支。但是它卻和我們現(xiàn)在大的IT產(chǎn)業(yè)的發(fā)展背景很好地結(jié)合在一起。因?yàn)楝F(xiàn)在統(tǒng)計(jì)模式識(shí)別辦法想要發(fā)揮出人工智能的威力，就要有深度神經(jīng)網(wǎng)絡(luò)能夠更好的使用以及互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代得到越來越多的大數(shù)據(jù)為大基礎(chǔ)。

人工智能2.jpg

　　漣漪效應(yīng)是科大訊飛提出的，是指互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)，把每個(gè)用戶的經(jīng)驗(yàn)和知識(shí)數(shù)據(jù)加入到我們核心技術(shù)研發(fā)過程中來的一種效應(yīng)。像是一個(gè)水滴滴到水面的時(shí)候，這個(gè)水面相當(dāng)于所有的用戶人群，而這個(gè)水滴所激發(fā)起來的這個(gè)漣漪，其實(shí)是這個(gè)核心技術(shù)一開始的效果。一開始水滴滴入水面振幅會(huì)很大，說明它的效果并不好。就像大家今天看到科大訊飛的語音識(shí)別系統(tǒng)已經(jīng)非常準(zhǔn)確，但是在2010年科大訊飛第一次發(fā)布會(huì)發(fā)布其語音輸入法的時(shí)候，識(shí)別率慘不忍睹。在實(shí)驗(yàn)室里面90%的正確率的識(shí)別系統(tǒng)放到真實(shí)環(huán)境下一用，正確率只有55%。但是只要這個(gè)系統(tǒng)在上線運(yùn)行中，就會(huì)不斷地有用戶，他們會(huì)不斷的貢獻(xiàn)數(shù)據(jù)，從而為科大訊飛系統(tǒng)不斷改進(jìn)提供助力。當(dāng)這個(gè)水波紋擴(kuò)散出去的時(shí)候，有更多人用的時(shí)候，系統(tǒng)已經(jīng)是改進(jìn)過以后的系統(tǒng)。當(dāng)這個(gè)水波紋已經(jīng)能覆蓋1000萬人，系統(tǒng)改進(jìn)了以后，當(dāng)一千萬零一個(gè)人來使用這個(gè)系統(tǒng)的時(shí)候，對(duì)他來講是第一次，他會(huì)覺得：哇!怎么這么好。有了這三點(diǎn)我們繼續(xù)可以在語音和圖像的道路上持續(xù)的尋找下去。

科大訊飛的發(fā)展歷程

　　發(fā)布會(huì)上，胡郁先生為我們展示了科大訊飛在人工神經(jīng)網(wǎng)絡(luò)方面的發(fā)展。其實(shí)真正將神經(jīng)網(wǎng)絡(luò)應(yīng)用在語音識(shí)別和圖像識(shí)別方面并取得成功應(yīng)該是在2010年的7月份。而在2011年9月份，科大訊飛的研究人員在中國(guó)科學(xué)技術(shù)大學(xué)，就跟鄧力研究員進(jìn)行了探討。在2011年的年底，科大訊飛就將深度神經(jīng)網(wǎng)絡(luò)用于語音識(shí)別上，用于中文語音識(shí)別上第一個(gè)系統(tǒng)上線使用。在2012年4月份，在日本召開的，由微軟研究院的移動(dòng)研究院做的報(bào)告中，將谷歌、微軟和訊飛，列為當(dāng)時(shí)世界上，最先將深度神經(jīng)網(wǎng)絡(luò)推薦使用的幾個(gè)公司和研究機(jī)構(gòu)。此后，他們?cè)?012年將深度神經(jīng)網(wǎng)絡(luò)用于參數(shù)語音合成。利用了深度神經(jīng)網(wǎng)絡(luò)的參數(shù)語音合成系統(tǒng)，比我們?cè)瓉硎褂玫囊彩钱?dāng)時(shí)世界上最先進(jìn)的，基于隱馬爾可夫模型的語音合成系統(tǒng)效果提升30%?，F(xiàn)在已經(jīng)成為整個(gè)業(yè)界的標(biāo)配。而在2013年，科大訊飛在語種識(shí)別方面，第一次提出了一種新型構(gòu)型的深度神經(jīng)網(wǎng)絡(luò)的構(gòu)型。他們將當(dāng)時(shí)的語種識(shí)別技術(shù)，在nist測(cè)試的最先進(jìn)的系統(tǒng)的基礎(chǔ)上，又提高了30%?，F(xiàn)在也是整個(gè)業(yè)界標(biāo)準(zhǔn)的語種識(shí)別構(gòu)型系統(tǒng)。2014年科大訊飛超腦技術(shù)發(fā)布，在超腦計(jì)劃里面他們又將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在更多方面。進(jìn)入2015年后，我們看到了越來越多的成果。

人工智能3.jpg

科大訊飛的最新進(jìn)展——不一樣的遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)

　　我們聽了很長(zhǎng)一段聲音之后，就能夠記憶起原來的東西，這是人腦的一個(gè)非常特別的功能叫做記憶能力。人腦的這個(gè)記憶能力非常特別，它包括瞬時(shí)記憶、短時(shí)記憶和長(zhǎng)時(shí)記憶。深度神經(jīng)網(wǎng)絡(luò)能夠比較好地模仿人類的大腦，但是深度神經(jīng)網(wǎng)絡(luò)對(duì)于短時(shí)記憶的處理其實(shí)比較弱。最近國(guó)際上有一個(gè)新的名詞叫做RNN(Recurrent Neural Network，循環(huán)神經(jīng)網(wǎng)絡(luò))，也是我們講的回歸神經(jīng)網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)。那么它相對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的唯一改進(jìn)就是他可以用前一個(gè)時(shí)刻的信息輸入到當(dāng)前時(shí)刻，進(jìn)而把原來的一些歷史信息能夠輸入到當(dāng)前來提高它的記憶能力。

　　一個(gè)真正的回歸神經(jīng)網(wǎng)絡(luò)里面的工作系統(tǒng)是非常復(fù)雜的。它可能包括LSTM。這是一個(gè)長(zhǎng)短時(shí)記憶系統(tǒng)，它里面還包括一個(gè)雙向語音識(shí)別系統(tǒng)。這個(gè)回歸神經(jīng)網(wǎng)絡(luò)，它會(huì)從正向識(shí)別一遍，還會(huì)從反向識(shí)別一遍。而如果想要得到更好的效果，他還需要加一個(gè)叫做CTC(Connectionist Temporal Classification)的系統(tǒng)。那么這個(gè)ctc的系統(tǒng)，可以保證在整個(gè)句子層面上的成功率是最高的。其實(shí)在這過程中我們會(huì)遇到很多的難題，比如說這些疊加起來，它的效果可能不是那么好。第二個(gè)是，如果我們剛才要利用未來的信息來識(shí)別的話，它的響應(yīng)時(shí)間會(huì)受到影響。更加重要的是，它是這么復(fù)雜的一個(gè)網(wǎng)絡(luò)，如果你要去訓(xùn)練它，例如，訓(xùn)練1萬小時(shí)可能要一個(gè)星期。沒有人能夠忍受得了這種訓(xùn)練時(shí)間。

人工智能4.jpg

　　對(duì)此，科大訊飛提出了自己的構(gòu)型——FSMN(Feed-forward Sequential Memory Network，前饋型序列記憶網(wǎng)絡(luò))，即前饋序列記憶網(wǎng)絡(luò)。利用這種神經(jīng)網(wǎng)絡(luò)，可以很好地有效地處理剛才碰到的各種問題。它可以把剛才的幾個(gè)優(yōu)點(diǎn)綜合在一起，它可以非常好的縮短響應(yīng)時(shí)間，它還可以非常好的提升我們的訓(xùn)練效果。現(xiàn)在我們1萬小時(shí)從原來的一個(gè)星期現(xiàn)在已經(jīng)縮短到了一天。

　　卷積網(wǎng)絡(luò)是仿照人類視覺機(jī)理，借鑒人類在大腦上處理的一些優(yōu)勢(shì)，形成一個(gè)自下而上逐步細(xì)化，從逐步地處理一些線條，局部輪廓到最后整個(gè)人臉。這樣的系統(tǒng)很好地仿照了人類大腦里面的結(jié)構(gòu)。但是僅有這些還是遠(yuǎn)遠(yuǎn)不夠的，它在分析文字的時(shí)候還是會(huì)有一定誤差，處理圖像的時(shí)候，也略顯模糊。

　　現(xiàn)在科大訊飛的卷積神經(jīng)網(wǎng)絡(luò)將整個(gè)圖片處理、版面分析、文字分割和最后的處理完全集中在一起。它綜合性地使用了卷積神經(jīng)網(wǎng)絡(luò)，延遲性神經(jīng)網(wǎng)絡(luò)和我們的HMM的系統(tǒng)。當(dāng)把這些系統(tǒng)綜合在一起的時(shí)候，能夠更好地分析圖文任務(wù)的一些具體的情況，這將使我們得到一個(gè)最好的效果。

Neural Thinking Machine技術(shù)框架

　　利用深度神經(jīng)網(wǎng)絡(luò)可以把語音識(shí)別和圖像識(shí)別都提升到一個(gè)非常高的層次，但是人類最重要的是認(rèn)知。

人工智能5.jpg

　　人腦的大腦皮層是人區(qū)別于動(dòng)物最顯著的一個(gè)腦結(jié)構(gòu)變化，如果把人類的大腦皮層完全攤開的話，大概相當(dāng)于一個(gè)桌布那么大。但是科學(xué)家研究表明這個(gè)桌布上的不同區(qū)域的功能是完全不一樣的。中間有一部分是專門管視覺的，它會(huì)把你臉的各個(gè)細(xì)節(jié)處理的非常好。還有一部分是管聽覺的，還有一部分是用來管觸覺的。但是這些在感知層面上的各種信息都會(huì)匯聚到認(rèn)知層面。就是概念語言與概念表達(dá)和理解。

　　當(dāng)我們看到一只貓臉的時(shí)候，其實(shí)我們馬上腦袋里面就會(huì)形成一個(gè)貓的概念，這個(gè)時(shí)候我們腦袋里面會(huì)同時(shí)知道貓的叫聲，我們知道摸貓會(huì)是一種什么樣的感覺。多種不同感知內(nèi)容最后會(huì)匯聚到我們的認(rèn)知層面上。根據(jù)這種啟發(fā)，科大訊飛在訊飛超腦里面建立了感知和認(rèn)知的綜合智能引擎的布局。在感知智能方面有Neural Viewing Machine、Neural Reading Machine、Neural Listening Machine。它們分別會(huì)主管看到的東西、閱讀和聽覺。當(dāng)這些東西感知到很多的信息以后，它會(huì)被送到上面的一個(gè)叫做Neural Thinking Machine的地方，在這個(gè)地方所有概念會(huì)進(jìn)行匯聚，這些概念會(huì)進(jìn)行推理，得出結(jié)論，從而幫助我們進(jìn)行決策。而決策以后的結(jié)果會(huì)通過一個(gè)叫做Neural Experssing Machine的結(jié)果返回來。從而形成整個(gè)的，包括交互，包括人類所有智能問題的完整閉環(huán)。其實(shí)Neural Thinking Machine是科大訊飛認(rèn)知的實(shí)現(xiàn)核心。在這個(gè)核心實(shí)現(xiàn)過程中，它主要實(shí)現(xiàn)包括我們講的語言的理解、知識(shí)的表達(dá)、邏輯的推理和最后的決策功能。為了實(shí)現(xiàn)這樣一個(gè)系統(tǒng)，我們整個(gè)Neural Thinking Machine技術(shù)框架被定義成，在自然語言表述下的語言理解與生成以及知識(shí)表達(dá)與推理。(注：本文改編自2015年12月科大訊飛年度發(fā)布會(huì)的講話)

本文來源于中國(guó)科技期刊《電子產(chǎn)品世界》2016年第3期第23頁，歡迎您寫論文時(shí)引用，并注明出處。

新聞中心

人工智能與語音識(shí)別技術(shù)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)