基于片上系統(tǒng)SoC的孤立詞語音識別算法設計
3.2 LPCC特征參數(shù)提取算法設計
LPC參數(shù)是模擬人的發(fā)聲器官的,是一種基于語音合成的特征參數(shù)。在實際應用中,使用較多的是由LPC系數(shù)推導出的另一種系數(shù),線性預測倒譜系數(shù)LPCC(Linear Predictive Ceptrum Coefficients)。
3.2.1線性預測編碼LPC算法
LPC模型的基本思想是:對于給定一n時刻采樣的語音信號采樣值s(n),可以用p個取樣值的加權和線性組合來表示[4]。 a1, a2,…, ap稱為LPC系數(shù),也是全極點H(z)模型的參數(shù)。
cm為倒譜系數(shù),am為線性預測系統(tǒng),m為倒譜系數(shù)的階數(shù),p為線性預測系統(tǒng)的階數(shù)。這樣利用LPC系數(shù)通過遞推公式可以得到LPCC參數(shù)。LPCC由于利用了線性預測中聲道系統(tǒng)函數(shù)的最小相位特性,避免了相位卷積、求復對數(shù)
3.3 基于DTW的模式匹配算法設計
3.3.1 動態(tài)時間規(guī)整DTW算法
存入模板庫的各個詞條稱為參考模板,一個參考模板可表示為R={R(1), R(2),…, R(m),…, R(M)}。m為訓練語音幀的時序標號,m =1為起點語音幀,m =M為終點語音幀,M為該模式包含的語音幀總數(shù),R(m)為第m幀的語音LPC倒譜特征矢量。所要識別的一個輸入詞條語音稱為測試模板,可表示為T={T (1), T(2),…, T(n),…, T (N)},n為測試語音幀標號,模式中共包含N幀語音,T(n)為第n幀的LPC倒譜特征矢量。
比較參考模板和測試模板的相似度,可以計算它們的距離D[T,R],距離越小則相似度越高。語音中各個段落在不同情況下的持續(xù)時間會產(chǎn)生或長或短的變化,大多數(shù)情況下測試模板和參考模板長度不相等N≠M,因此采用動態(tài)規(guī)整(DP)的方法。
DTW算法的實現(xiàn)為:分配兩個N×M矩陣,分別為累積距離矩陣D和幀匹配距離矩陣d,其中幀匹配距離矩陣d(i,j)的值為測試模板的第i幀與參考模板的第j幀間的距離。算法分為兩步:先要計算參考模板的所有幀和未知模板的所有幀之間的相互距離,結(jié)果存在矩陣d中;然后根據(jù)判斷函數(shù)計算累積距離矩陣D,D(N,M)即為最佳匹配路徑所對應的匹配距離。DTW算法約束端點條件為:起點(1,1),終點(n,m),n和m分別為測試和參考語音模板的幀序列長度。
3.3.2 應用中提高識別率的改進方法
在應用中,提高DTW識別率的辦法有冗余模板法、松弛起點終點法、改進局部路徑約束函數(shù)法等。
(1)冗余模板法。采用每個詞條多套模板的方法,可以改進其識別效果。在實驗中,采用在語音訓練階段,每個詞條訓練四次,即每個詞條提取出4個參考模板,這樣,只要測試模板與4個參考模板中的一個匹配成功,匹配結(jié)果就是正確的,這樣便大大提高了識別率。
(2)松弛起點終點法。將匹配過程中的固定起點(終點)改為松弛起點(終點)。端點對齊的限制條件提高了對語音端點檢測的精度要求。路徑不再是從(1,1)點出發(fā),可以從(n,m)=(1,2)或(2,1),或(1,3)或(3,1)…點出發(fā),稱為松弛起點。同樣,路徑也不必在(N,M)點結(jié)束,可在(n,m)=(N,M-1)或(N-1,M)或(N,M-2)或(N-2,M)點…結(jié)束,稱為松弛終點。松弛起點終點的優(yōu)點是可克服由于端點檢測不精確造成測試模板和參考模板起點終點不能嚴格對齊的問題[6]。
(3)改變局部路徑約束函數(shù)法。不同的連續(xù)性條件導致了不同的路徑,局部路徑約束函數(shù)不一樣,DTW識別效果就會不同。可以對局部約束路徑進行加權處理,提高識別率。
本文中采用的模板匹配算法就是融合這三種改進技術后的動態(tài)規(guī)整算法,稱之為ADTW算法。對這種算法進行了實驗,得到該算法的實際識別率,并對之進行分析。
評論