基于DSP的高速實(shí)時(shí)語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)
——
1 語(yǔ)音識(shí)別的原理
語(yǔ)音識(shí)別的基本原理框圖如圖1所示。語(yǔ)音信號(hào)中含有豐富的信息,從中提取對(duì)語(yǔ)音識(shí)別有用的信息的過(guò)程,就是特征提取,特征提取方法是整個(gè)語(yǔ)音識(shí)別系統(tǒng)的基礎(chǔ)。語(yǔ)音識(shí)別的過(guò)程可以被看作足模式匹配的過(guò)程,模式匹配是指根據(jù)一定的準(zhǔn)則,使未知模式與模型庫(kù)中的某一模型獲得最佳匹配。
1.1 MFCC
語(yǔ)音識(shí)別中對(duì)特征參數(shù)的要求是:
(1) 能夠有效地代表語(yǔ)音特征;
(2) 各階參數(shù)之間有良好的獨(dú)立性;
(3) 特征參數(shù)要計(jì)算方便,保證識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。
系統(tǒng)使用目前最為常用的MFCC(Mel FrequencyCepstral Coefficient,美爾頻率倒譜系數(shù))參數(shù)。
求取MFCC的主要步驟是:
(1) 給每一幀語(yǔ)音加窗做FFT,取出幅度;
(2) 將幅度和濾波器組中每一個(gè)三角濾波器進(jìn)行Binning運(yùn)算;
(3) 求log,換算成對(duì)數(shù)率;
(4) 從對(duì)數(shù)率的濾波器組幅度,使用DCT變換求出MFCC系數(shù)。
本文中采用12階的MFCC,同時(shí)加過(guò)零率和delta能量共14維的語(yǔ)音參數(shù)。
1.2 DTW
語(yǔ)音識(shí)別中的模式匹配和模型訓(xùn)練技術(shù)主要有DTW(Dynamic Time Warping,動(dòng)態(tài)時(shí)間彎折)、HMM(HideMarkov
Model,隱馬爾科夫模型)和ANN(Artificial Neu-ral Network,人工神經(jīng)元網(wǎng)絡(luò))。
DTW是一種簡(jiǎn)單有效的方法。該算法基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題,是語(yǔ)音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法。DTW算法的原理是計(jì)算兩個(gè)長(zhǎng)度不同的語(yǔ)音之間的相似程度,即失真距離。
設(shè)測(cè)試語(yǔ)音和參考語(yǔ)音用T和R表示,他們分別含有N幀和M幀的語(yǔ)音參數(shù)。本文中每幀語(yǔ)音的特征參數(shù)為14維,因此T,R分別為N linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)
評(píng)論