基于中英文數(shù)字語音登陸系統(tǒng)的仿真研究

作者：李梓鈺林子明程曉東楊潔時(shí)間：2013-02-21 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

　　引言

本文引用地址：http://www.butianyuan.cn/article/142175.htm

　　語言是人與人之間在日常交往中最直接也是最強(qiáng)大的工具，然而我們并不滿足于人與人之間的對(duì)話，而是通過語音識(shí)別技術(shù)來實(shí)現(xiàn)人機(jī)對(duì)話，語音識(shí)別技術(shù)的終極目標(biāo)就是能夠讓人類與計(jì)算機(jī)進(jìn)行自由地交談。隨著語音識(shí)別技術(shù)的逐漸成熟及近些年來已經(jīng)取得的進(jìn)步，英文數(shù)字語音識(shí)別在其發(fā)展的20多年間已達(dá)到了很高的識(shí)別率，漢語數(shù)字語音識(shí)別也經(jīng)過多年研究在PC平臺(tái)和實(shí)驗(yàn)室條件下達(dá)到了高性能，但中英文混合連續(xù)數(shù)字語音識(shí)別還有待進(jìn)一步研究，張晴晴等人研究的中英雙語混合語音識(shí)別的識(shí)別率為16.8%，遠(yuǎn)低于理想中的識(shí)別率。為使識(shí)別效果達(dá)到可實(shí)用的水平，本系統(tǒng)首先從基本的中英文數(shù)字語音識(shí)別出發(fā)，從而為相應(yīng)的登錄注冊(cè)系統(tǒng)做出一些嘗試。

　　本文研究的中英文連續(xù)數(shù)字語音識(shí)別，包含中文0-10和英文zero-ten的數(shù)字語音識(shí)別，其中包括對(duì)語音信號(hào)的預(yù)處理、特征參數(shù)提取、中英文聲學(xué)模型與語言模型的訓(xùn)練及模版匹配等，適合于研究數(shù)字語音登錄系統(tǒng)，比如用戶用中英文任何語言念學(xué)號(hào)或是身份證號(hào)就能登陸，免去書寫的麻煩，同時(shí)也對(duì)后續(xù)研究中英文混合連續(xù)語音識(shí)別奠定了基礎(chǔ)。

　　語音識(shí)別原理

　　根據(jù)對(duì)說話人說話方式的要求，語音識(shí)別可以分為孤立字(詞)語音識(shí)別系統(tǒng)，連接字語音識(shí)別系統(tǒng)以及連續(xù)語音識(shí)別系統(tǒng);根據(jù)對(duì)說話人的依賴程度，語音識(shí)別可以分為特定人和非特定人語音識(shí)別系統(tǒng);根據(jù)詞匯量大小，又可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量的語音識(shí)別系統(tǒng)。不同的語音識(shí)別系統(tǒng)，其目的和功能各不相同，但它們所采用的基本框架大體一致，語音識(shí)別基本流程如圖1?！　?/p>

　　語音識(shí)別的過程，其本質(zhì)就是模式匹配的過程。語音信號(hào)經(jīng)過預(yù)處理、語音信號(hào)的特征提取、聲學(xué)模型的訓(xùn)練與模式匹配后，經(jīng)過處理輸出識(shí)別結(jié)果。其中：

　　1)預(yù)處理是對(duì)輸入的原始語音信號(hào)進(jìn)行處理，濾除掉其中不重要的信息和背景噪聲，并進(jìn)行語音信號(hào)的端點(diǎn)檢測(cè)、語音分幀以及預(yù)加重等處理。

　　2)特征提取主要負(fù)責(zé)計(jì)算語音的聲學(xué)參數(shù)，并進(jìn)行特征的計(jì)算，以便提取出反映信號(hào)特征的關(guān)鍵特征參數(shù)，從而用于后續(xù)處理。因Mel頻率倒譜系數(shù)(MFCC)具有良好的抗噪性和魯棒性，故本文采用MFCC提取特征參數(shù)。

　　3)訓(xùn)練階段是用戶通過輸入若干次訓(xùn)練語音后，經(jīng)預(yù)處理和特征提取后得到特征矢量參數(shù)，建立或修改訓(xùn)練語音的參考模式庫。

　　4)識(shí)別階段是將輸入的語音提取特征矢量參數(shù)與參考模式庫中的模式進(jìn)行匹配，得出最終的識(shí)別結(jié)果。