新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > ADSP-BF531在嵌入式語音識別系統(tǒng)中的應(yīng)用

ADSP-BF531在嵌入式語音識別系統(tǒng)中的應(yīng)用

作者: 時(shí)間:2012-09-02 來源:網(wǎng)絡(luò) 收藏

3.2.2 矢量量化
矢量量化(VQ,Vector Quantization)是一種重要的信號壓縮方法,其過程是:將信號波形的K個(gè)樣點(diǎn)的每一幀,或在K個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成K維空間中的一個(gè)矢量,然后對矢量進(jìn)行量化。量化時(shí),將K維無限空間劃分為M個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。
一個(gè)VO編碼器往往擁有一個(gè)或多個(gè)由具有代表意義的矢量組成的集合,稱為“碼本”(本中碼本大小為256),其中每個(gè)矢量稱為“碼矢量”。在中,訓(xùn)練用的特征通過聚類的方法形成碼書;時(shí),VO編碼器將待語音的特征矢量與碼書中的每個(gè)矢量進(jìn)行失真測度運(yùn)算,最小的失真測度所對應(yīng)的碼字的標(biāo)號代替輸入矢量。
3.2.3 HMM模型建立及訓(xùn)練過程
選擇尤跨越的從左向有的HMM模型,狀態(tài)數(shù)取6。訓(xùn)練過程中利用Baum-Welch算法和Viterbi算法來計(jì)算所有觀察序列的輸出概率,然后對其進(jìn)行累加,得到總輸出慨率,采用前后2次的輸出概率的相對變化小于一定閾值(如:1×10-4)或超過迭代次數(shù)作為訓(xùn)練結(jié)束的判據(jù)。程序流程圖如圖6所示。

本文引用地址:http://butianyuan.cn/article/148467.htm

g.JPG


3.2.4 語音識別
語音識別的過程即是用Viterbi算法將經(jīng)將輸入的矢量量化后的語音與模型庫中的參考模板進(jìn)行匹配。
Viterbi算法是一種前向搜索算法,其可以是在給定相應(yīng)的觀察序列時(shí),找出從模型λ中找出的最佳狀態(tài)序列,即選擇輸出概率最大的模版作為輸出結(jié)果。對數(shù)形式的Viterbi算法,能夠避免大量的乘法運(yùn)算,減少計(jì)算量,同時(shí)還可以保證有很高的動(dòng)態(tài)范圍,不會出現(xiàn)由于過多的連乘而導(dǎo)致溢出問題,其算法如下:
h.JPG

4 實(shí)驗(yàn)結(jié)果及分析
選取500字的詞表,詞長不大于5;在進(jìn)行識別前,對每個(gè)待識別的詞進(jìn)行訓(xùn)練,參加訓(xùn)練人數(shù)為30,其中男性20人,女性10人。實(shí)驗(yàn)選取30個(gè)人,其中參加訓(xùn)練和未參加訓(xùn)練的各15人,對簡單語音命令、數(shù)字串、字母串進(jìn)行測試(每人反復(fù)測試5次),結(jié)果如表1所示。

i.JPG


通過以上數(shù)據(jù)可以看出,該系統(tǒng)的對非特定人(包括參加訓(xùn)練和未參加訓(xùn)練)的簡單漢語詞匯、數(shù)字串、字母串等的綜合識別率超過了90%,識別時(shí)間在0.7 s左右;具有較高的識別率和較好的實(shí)時(shí)性。從表中可以看出,未參加訓(xùn)練與參加訓(xùn)練的識別率相差約10%,可以通過在軟件中增加訓(xùn)練樣本量以及完善有關(guān)算法等來進(jìn)一步提高其識別率。

5 結(jié)束語
語音識別系統(tǒng)在以為核心的硬件基礎(chǔ)上,成功運(yùn)用DHMM算法完成了對非特定人孤立詞的語音識別。該系統(tǒng)運(yùn)行穩(wěn)定、可靠,其識別率及實(shí)時(shí)性均滿足使用要求,同時(shí)還具有存儲容量大、運(yùn)算速度快的特點(diǎn),為軟件運(yùn)行留下了充足的裕量,系統(tǒng)后續(xù)的完善和升級較容易實(shí)現(xiàn)。該系統(tǒng)可于許多特定場合,有很好的市場前景。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)

上一頁 1 2 3 下一頁

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉