智能語音科技簡(jiǎn)史（2018版），這場(chǎng)技術(shù)革命從哪開始？

作者：時(shí)間：2018-04-20 來源：與非網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：我國(guó)智能語音市場(chǎng)整體處于啟動(dòng)期，智能車載，智能家居，智能可穿戴等垂直領(lǐng)域處于爆發(fā)前夜。

　　1988年，卡耐基梅隆大學(xué)結(jié)合矢量量化技術(shù)(VQ)，用VQ/HMM方法開發(fā)了世界上第一個(gè)非特定人大詞匯量連續(xù)語音識(shí)別系統(tǒng)SPHINX，能夠識(shí)別包括997個(gè)詞匯的4200個(gè)連續(xù)語句。

本文引用地址：http://www.butianyuan.cn/article/201804/378689.htm

智能語音科技簡(jiǎn)史（2018版），這場(chǎng)技術(shù)革命從哪開始？

　　同年，清華大學(xué)和中科院聲學(xué)所在大詞庫(kù)漢語聽寫機(jī)的研制上取得了突破性進(jìn)展。

　　1990年，聲龍發(fā)布了第一款消費(fèi)級(jí)語音識(shí)別產(chǎn)品Dragon Dictate，價(jià)格高達(dá)9000美元。

　　1992年，IBM引入了它的第一個(gè)聽寫系統(tǒng)，稱為“IBM Speech Server Series (ISSS)”。

　　1992年研發(fā)的Sphinx-II在同年美國(guó)國(guó)防部先進(jìn)技術(shù)研究計(jì)劃署(DARPA)資助的語音基準(zhǔn)評(píng)測(cè)中獲得了最高的識(shí)別準(zhǔn)確度，這主要得益于其在高斯混合和馬爾可夫狀態(tài)層次上用栓連參數(shù)平衡了可訓(xùn)練性和高效性。

　　1995年，Windows 95上首次搭載微軟SAPI，它使應(yīng)用程序開發(fā)者能夠在Windows上創(chuàng)建語音程序。

　　1995年，AT&T研究院的 Dave Ladd， Chris Ramming， Ken Rehor 以及 Curt Tuckey 在頭腦風(fēng)暴關(guān)于互聯(lián)網(wǎng)會(huì)如何改變電話應(yīng)用的時(shí)候，產(chǎn)生了一些新的想法：為什么不設(shè)計(jì)這樣一個(gè)系統(tǒng)來運(yùn)行一種可以解析某種語音標(biāo)記語言的語音瀏覽器，用來把互聯(lián)網(wǎng)的內(nèi)容和服務(wù)提供到千家萬戶的電話上。于是，AT&T就開始“電話網(wǎng)絡(luò)項(xiàng)目”(Phone Web Project)。之后，Chris繼續(xù)留在AT&T，Ken去了朗訊，Dave和Curt去了摩托羅拉。(1999年初的時(shí)候，他們分別在各自的公司邁出了語音標(biāo)記語言規(guī)范實(shí)質(zhì)性的第一步。因?yàn)樗麄兊拿苡殃P(guān)系，這幾家公司合作成立了一個(gè)VoiceXML論壇組織，IBM也作為一個(gè)創(chuàng)始公司加入了進(jìn)來。)

　　1997年IBM ViaVoice首個(gè)語音聽寫產(chǎn)品問世，你只要對(duì)著話筒喊出要輸入的字符，它就會(huì)自動(dòng)判斷并且?guī)湍爿斎胛淖?。次年又開發(fā)出可以識(shí)別上海話、廣東話和四川話等地方口音的語音識(shí)別系統(tǒng)ViaVoice’ 98。

　　1998年，微軟在北京成立亞洲研究院，將漢語語音識(shí)別納入重點(diǎn)研究方向之一。

　　2001年，比爾蓋茨在美國(guó)消費(fèi)電子展上展示了一臺(tái)代號(hào)為MiPad的原型機(jī)。Mipad展現(xiàn)了語音多模態(tài)移動(dòng)設(shè)備的愿景。

　　2002年，中科院自動(dòng)化所及其所屬模式科技公司推出了“天語”中文語音系列產(chǎn)品——Pattek ASR，結(jié)束了該領(lǐng)域一直被國(guó)外公司壟斷的局面。

　　2002年，美國(guó)國(guó)防部先進(jìn)技術(shù)研究計(jì)劃署(DARPA)首先啟動(dòng)了EARS項(xiàng)目和TIDES 項(xiàng)目; 由于EARS項(xiàng)目過于敏感，EARS和TIDES兩個(gè)項(xiàng)目合并為“全球自主語言開發(fā)”(Global Autonomous Language Exploitation，GALE)。GALE目標(biāo)是應(yīng)用計(jì)算機(jī)軟件技術(shù)對(duì)海量規(guī)模的多語言語音和文本進(jìn)行獲取、轉(zhuǎn)化、分析和翻譯。

　　2006年，辛頓(Hinton)提出深度置信網(wǎng)絡(luò)(DBN)，促使了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network，DNN)研究的復(fù)蘇，掀起了深度學(xué)習(xí)的熱潮。

　　2009年，辛頓以及他的學(xué)生默罕默德(D. Mohamed)將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模，在小詞匯量連續(xù)語音識(shí)別數(shù)據(jù)庫(kù)TIMIT上獲得成功。

　　2009年微軟Win7集成語音功能。

　　2010年Google Vioce Action支持語音操作與搜索。

　　2011年初，微軟的DNN模型在語音搜索任務(wù)上獲得成功。

　　同年科大訊飛將DNN 首次成功應(yīng)用到中文語音識(shí)別領(lǐng)域，并通過語音云平臺(tái)提供給廣大開發(fā)者使用。

　　2011年10月，蘋果iPhone 4S發(fā)布，個(gè)人手機(jī)助理Siri誕生，人機(jī)交互翻開新篇章。

　　2012年，科大訊飛在語音合成領(lǐng)域首創(chuàng)RBM技術(shù)。

　　2012年，谷歌的智能語音助手Google Now 的形式出現(xiàn)在眾人面前，用在安卓 4.1 和 Nexus 手機(jī)上。

　　2013年，Google發(fā)布Google Glass，蘋果也加大了對(duì)iWatch的研發(fā)投入，穿戴式語音交互設(shè)備成為新熱點(diǎn)。

　　同年，科大訊飛在語種識(shí)別領(lǐng)域首創(chuàng)BN-ivec技術(shù)。

　　2014 年，思必馳推出首個(gè)可實(shí)時(shí)轉(zhuǎn)錄的語音輸入板。

　　2014年11月，亞馬遜智能音箱Echo發(fā)布。

　　2015 年，思必馳推出首個(gè)可智能打斷糾正的語音技術(shù)。

　　2016年，Google Assistant伴隨Google Home 正式亮相，搶奪亞馬遜智能音箱市場(chǎng)。(亞馬遜Echo在2016年的智能音箱市場(chǎng)占有率達(dá)到了巔峰的88%)

　　同年，科大訊飛上線DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡(luò)，Deep Fully Convolutional Neural Network)語音識(shí)別系統(tǒng)。

　　同年11月，科大訊飛、搜狗、百度先后召開發(fā)布會(huì)，對(duì)外公布語音識(shí)別準(zhǔn)確率均達(dá)到“97%”。

　　2017年3月，IBM結(jié)合了 LSTM 模型和帶有 3 個(gè)強(qiáng)聲學(xué)模型的 WaveNet 語言模型。“集中擴(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 詞錯(cuò)率的突破”。相對(duì)應(yīng)的是去年5月的6.9%。

　　2017年8月，微軟發(fā)布新的里程碑，通過改進(jìn)微軟語音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型，在去年基礎(chǔ)上降低了大約12%的出錯(cuò)率，詞錯(cuò)率為5.1%，聲稱超過專業(yè)速記員。相對(duì)應(yīng)的是去年10月的5.9%，聲稱超過人類。

　　2017年12月，谷歌發(fā)布全新端到端語音識(shí)別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models)，詞錯(cuò)率降低至5.6%。相對(duì)于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。

　　市場(chǎng)分析公司Canalys在2018年1月分布一份報(bào)告，其預(yù)測(cè)2018年將是普及智能音箱的“決定性一年”，相比全年出貨量剛過3000萬臺(tái)的2017年，2018年智能音箱全球出貨量預(yù)計(jì)將達(dá)到5630萬臺(tái)。

　　中投顧問發(fā)布的《2018-2022年中國(guó)智能語音行業(yè)深度調(diào)研及投資前景預(yù)測(cè)報(bào)告》顯示我國(guó)智能語音市場(chǎng)整體處于啟動(dòng)期，智能車載，智能家居，智能可穿戴等垂直領(lǐng)域處于爆發(fā)前夜。