新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 孤立詞語(yǔ)音識(shí)別系統(tǒng)的DSP實(shí)現(xiàn)

孤立詞語(yǔ)音識(shí)別系統(tǒng)的DSP實(shí)現(xiàn)

作者: 時(shí)間:2009-11-06 來(lái)源:網(wǎng)絡(luò) 收藏

為了比較它們的相似度,可以計(jì)算,它們之間的失真D[T,R],失真越小相似度越高。為了計(jì)算這一失真,應(yīng)從T和R中各個(gè)對(duì)應(yīng)幀之間的失真算起。將各個(gè)對(duì)應(yīng)幀之間的失真累計(jì)起來(lái)就可以得到兩模式間的總失真。很容易想到的辦法是當(dāng)兩模式長(zhǎng)度相等時(shí),直接以相等的幀號(hào)相匹配后累加計(jì)算總失真,而當(dāng)兩個(gè)模式長(zhǎng)度不等時(shí)則利用線性擴(kuò)張或線性壓縮的方法使兩模式具有相等長(zhǎng)度,隨后進(jìn)行匹配計(jì)算失真度。但由于人類發(fā)音具有隨機(jī)的非線性變化,這種方法效果不可能是最佳的。為了達(dá)到最佳效果,可以采用動(dòng)態(tài)時(shí)間規(guī)整的方法。如圖4所示,橫坐標(biāo)對(duì)應(yīng)“1”這個(gè)字音的一次較短的發(fā)音,經(jīng)過(guò)分幀和特征矢量計(jì)算后共得到一個(gè)長(zhǎng)度為43幀的序列,而縱坐標(biāo)對(duì)應(yīng)“1”這個(gè)字音的一次較長(zhǎng)的發(fā)音,該特征序列共有56幀。為了找到兩個(gè)序列的最佳匹配路徑,現(xiàn)把測(cè)試模式的各個(gè)幀號(hào)n=1~N(圖4中N=43)在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模式的各幀號(hào)m=1~M(圖4中M=56)在縱軸上標(biāo)出。

本文引用地址:http://www.butianyuan.cn/article/152294.htm

通過(guò)這些表示幀號(hào)的整數(shù)坐標(biāo)畫一些縱橫線即可形成一個(gè)網(wǎng)格,網(wǎng)格中何一個(gè)節(jié)點(diǎn)(n,m)表示測(cè)試模式中的某一幀和參考模式中的某一幀的交匯點(diǎn)。動(dòng)態(tài)時(shí)間規(guī)整算法可以歸結(jié)為尋找一條通過(guò)此網(wǎng)格中若干交叉點(diǎn)的路徑,路徑通過(guò)的交叉點(diǎn)即為參考模式和測(cè)試模式中進(jìn)行失真計(jì)算的幀號(hào)。路徑不是隨意選擇的,首先任何一種的發(fā)音快慢可能有變化,但是各部分的先后順序不可能改變,因此所選的路徑必定從左下角出發(fā),在右上角結(jié)束。其次為了防止漫無(wú)目的的搜索,可以刪去那些向n軸方向或者m軸方向過(guò)分傾斜的路徑(例如,過(guò)分向n軸傾斜意味著R(m)壓縮很大而T(n)擴(kuò)張很大,而實(shí)際語(yǔ)音中這種壓、擴(kuò)總是有限的)。為了引入這個(gè)限制,可以對(duì)路徑中各通過(guò)點(diǎn)的路徑平均斜率的最大值和最小值予以限制。通常最大斜率定為2,最小平均斜率定為1/2。路徑的出發(fā)點(diǎn)可以選擇(n,m)=(1,1)點(diǎn),也可以選擇(n,m)=(1,2)或(1,3)或(2,1)或(3,1)…點(diǎn)出發(fā)。前者稱為固定起點(diǎn),后者稱為松弛起點(diǎn)。同樣,路徑可在(n,m)=(N,M)點(diǎn)結(jié)束,也可以在(n,m)=(N,M-1)或(N,M-2)或(N-1,M)或(N-2,M)…點(diǎn)結(jié)束。前者稱為固定終點(diǎn),后者稱為松弛終點(diǎn)。
使用DTW算法為核心直接構(gòu)造十分簡(jiǎn)單,首先通過(guò)訓(xùn)練得到詞匯表中各參考語(yǔ)音的特征序列,直接將這些序列存儲(chǔ)為模板。在進(jìn)行時(shí),將待識(shí)語(yǔ)音的特征序列依次與各參考語(yǔ)音特征序列進(jìn)行DTW匹配,最后得到的總失真度最小且小于閾值的就認(rèn)為是識(shí)別結(jié)果。該方法最顯著的優(yōu)點(diǎn)是識(shí)別率極高,大大超過(guò)目前多數(shù)的HMM語(yǔ)音識(shí)別和VQ語(yǔ)音識(shí)別。但其最明顯的缺點(diǎn)是由于需要對(duì)大量路徑及這些路徑中的所有節(jié)點(diǎn)進(jìn)行匹配計(jì)算,導(dǎo)致計(jì)算量極大,隨著詞匯量的增大其識(shí)別過(guò)程甚至將達(dá)到難以接受的程度,因此無(wú)法直接應(yīng)用于大、中詞匯量識(shí)別系統(tǒng)。


4 結(jié) 語(yǔ)
以本系統(tǒng)為基礎(chǔ)開(kāi)發(fā)了一種語(yǔ)音撥號(hào)系統(tǒng),經(jīng)過(guò)大量實(shí)驗(yàn)表明,該系統(tǒng)電路運(yùn)行穩(wěn)定,且識(shí)別率可以達(dá)到90%。系統(tǒng)成本低,稍加改進(jìn)就可把該語(yǔ)音識(shí)別模塊移植應(yīng)用到各種系統(tǒng)設(shè)備中。


上一頁(yè) 1 2 3 下一頁(yè)

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉