嵌入式實(shí)時(shí)音樂語音識(shí)別系統(tǒng)的實(shí)現(xiàn)

作者：時(shí)間：2009-04-22 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

端點(diǎn)檢測(cè)是語音 識(shí)別中的的一個(gè)關(guān)鍵，也是一個(gè)難點(diǎn)，端點(diǎn)檢測(cè)的好壞直接影響后面的語音特征參數(shù)提取，影響語音 識(shí)別的效果。其目的就是從帶有噪聲的語音中檢測(cè)出說話人的語音命令, 找出語音段開始和結(jié)束的時(shí)點(diǎn)。本系統(tǒng)使用語音信號(hào)的能量曲線結(jié)合過零率來進(jìn)行端點(diǎn)檢測(cè)[5]，整個(gè)過程如圖3所示。由于人聲的樂音信號(hào)范圍在50-1000HZ，首先對(duì)原語音信號(hào)進(jìn)行不同頻段的信號(hào)濾波，得到六個(gè)頻段濾波后的能量曲線， E（1）為50-1000HZ段的語音信號(hào)，E（2）100-1000HZ段的語音信號(hào)，E（3）200-1000HZ段的語音信號(hào) ，E（4）400-1000HZ段的語音信號(hào)，E（5）600-1000HZ段的語音信號(hào)，E（5）800-1000HZ段的語音信號(hào)。能量分割是依據(jù)峰谷點(diǎn)檢測(cè)來進(jìn)行的，利用能量曲線峰谷點(diǎn)地變化，把能量曲線中的語音段分割出來，且把語音段的起點(diǎn)和終點(diǎn)作為我們要求得端點(diǎn)。但是由于語音信號(hào)變化情況復(fù)雜，尤其是語音連讀緊密的情況下，基于能量曲線的語音分割方法可能分割不開，所以，本系統(tǒng)采用了改進(jìn)的能量曲線分割算法，通過對(duì)語音信號(hào)能像曲線分析，我們發(fā)現(xiàn)，不同頻段的能量曲線反映的特征不同，對(duì)語音信號(hào)進(jìn)行不同頻段的濾波最后得到的能量曲線放映的語音端點(diǎn)信息也不同，有些語音信號(hào)在高頻段的能量曲線中能很好的分割開，所以，對(duì)語音信號(hào)進(jìn)行六個(gè)頻段的濾波得出的基于能量曲線分割的改進(jìn)算法，在判決依據(jù)中，賦予E（1）的權(quán)值為1，而E（2）、E（3）、E（4）、E（5）、E（6）要求兩個(gè)以上相同才被視為端點(diǎn)?；谒心芰壳€的分割點(diǎn)都要看過零率的門限是否滿足要求，改進(jìn)算法的用意是在盡可能準(zhǔn)確的情況下盡量分割開語言信號(hào)，盡量保證不錯(cuò)分, 盡量提高分割的準(zhǔn)確度，避免誤分。

圖3 端點(diǎn)檢測(cè)流程圖

2.3語音特征參數(shù)提取

語音識(shí)別參數(shù)的提取較多，由于噪聲的的存在，考慮音樂語音識(shí)別系統(tǒng)的對(duì)識(shí)別的精度要求較高，本系統(tǒng)采用了經(jīng)典的美爾頻標(biāo)倒譜參數(shù)MFCC[4]，MFCC參數(shù)建立在 Fourier 頻譜分析的基礎(chǔ)上，它的核心思想是利用人耳的感知特性，在語音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器，每個(gè)濾波器具備三角或者正弦的形濾波特性，計(jì)算相應(yīng)濾波器組的信號(hào)能量，再通過 DCT 計(jì)算對(duì)應(yīng)的倒譜系數(shù)，

圖4 MFCC參數(shù)求取過程

2.4語音信號(hào)的訓(xùn)練與識(shí)別

音樂語音識(shí)別系統(tǒng)是一個(gè)專業(yè)性很強(qiáng)的詞匯量較小的語音識(shí)別系統(tǒng)，由于識(shí)別的速度要求較快，樂音中的詞匯量較少，通常情況下人聲能唱到的樂音的范圍只有幾十個(gè)（一般在4個(gè)八度以內(nèi)）。本系統(tǒng)采用采用了計(jì)算相對(duì)簡(jiǎn)單而有效的DTW算法來進(jìn)行語音識(shí)別。該算法基于動(dòng)態(tài)規(guī)劃的思想,將語音信號(hào)的每一幀信號(hào)的特征參數(shù)提取出來,就轉(zhuǎn)化成了一組特征向量。語音識(shí)別就是要將這個(gè)特征向量同模板庫(kù)中已存的語音特征向量(參考模板)進(jìn)行模板匹配,尋找距離最短的模板。語音識(shí)別需要語音模板庫(kù)的建立,也就是語音模型的訓(xùn)練。參照音樂語音音高頻率對(duì)照表，我們只對(duì)人聲范圍(60HZ-1000HZ即樂音中音名從C- )共四個(gè)八度32個(gè)音高進(jìn)行訓(xùn)練，針對(duì)每首曲子中音高的范圍都是在一定范圍以內(nèi)的，所以往往我們訓(xùn)練訓(xùn)練的樣本更少，較小的詞匯量使樂音識(shí)別的速度得到大大提高。

3實(shí)驗(yàn)結(jié)果與分析

我們對(duì)系統(tǒng)的識(shí)別性能進(jìn)行了測(cè)試。由6個(gè)測(cè)試者(3男3女音樂專業(yè)人士)在安靜室內(nèi)環(huán)境下,選擇方向性較好的麥克風(fēng)，進(jìn)行測(cè)試實(shí)驗(yàn)。由于男生和女生一般能發(fā)音的音高不一樣，一般男生比女生偏低，首先讓6位測(cè)試者對(duì)照音名表把他(她)能發(fā)的音的全部錄音、訓(xùn)練，再隨機(jī)選擇幾首曲子進(jìn)行測(cè)試，實(shí)驗(yàn)結(jié)果表明, 在對(duì)特定人的樂音識(shí)別中，由于女生發(fā)音口齒比較清晰，男生比較發(fā)音渾厚，男生的正確識(shí)別率在95%以上，女生的正確識(shí)別率在97%以上，平均正確識(shí)別率在96%以上，滿足實(shí)用化要求。

4結(jié)　論

本文介紹了一種基于DSP的嵌入式音樂語音識(shí)別系統(tǒng)的軟硬件系統(tǒng)。在傳統(tǒng)的語音識(shí)別方法上結(jié)合音樂語音的特點(diǎn)作了一些改進(jìn)，敘述了音樂語音識(shí)別系統(tǒng)硬件結(jié)構(gòu)、軟件流程，采用了一種基于多頻段能量曲線分割結(jié)合過零率來檢測(cè)端點(diǎn)的新方法，簡(jiǎn)化了運(yùn)算量，進(jìn)一步提高了識(shí)別性能，把語音識(shí)別技術(shù)很好的用在電子音樂方面，實(shí)現(xiàn)了嵌入式實(shí)時(shí)音樂語音識(shí)別，實(shí)驗(yàn)結(jié)果表明，本系統(tǒng)精度高，基本能滿足實(shí)用化需求。

本文作者創(chuàng)新點(diǎn)：

（1）把語音識(shí)別方法應(yīng)用于電子音樂方面，設(shè)計(jì)并實(shí)現(xiàn)專業(yè)的音樂語音識(shí)別軟硬件系統(tǒng)，巧妙采用了濾波、消除毛刺等預(yù)處理方法，訓(xùn)練了專業(yè)的音樂語音樣本，提高語音識(shí)別精度。

（2）建立了一種基于多頻段能量曲線分割結(jié)合過零率來檢測(cè)端點(diǎn)的新方法，在保證不錯(cuò)分的情況下，提高了語音分割的正確率，同時(shí)結(jié)合過零率的門限，提高了端點(diǎn)檢測(cè)的精度。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解（linux不再難懂）

新聞中心

嵌入式實(shí)時(shí)音樂語音識(shí)別系統(tǒng)的實(shí)現(xiàn)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)