孤立詞語(yǔ)音識(shí)別系統(tǒng)的DSP實(shí)現(xiàn)

作者：時(shí)間：2009-11-06 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

2．2 系統(tǒng)主要功能模塊構(gòu)成
語(yǔ)音處理模塊采用TI TMS320VC5402，其主要特點(diǎn)包括：采用改進(jìn)的哈佛結(jié)構(gòu)，一條程序總線(PB)，三條數(shù)據(jù)總線(CB，DB，EB)和四條地址總線(PAB，CAB，DAB，EAB)，帶有專用硬件邏輯CPU(40位算術(shù)邏輯單元(ALU)，包括1個(gè)40位桶形移位器和二個(gè)40位累加器；一個(gè)17×17乘法器和一個(gè)40位專用加法器，允許16位帶或不帶符號(hào)的乘法)，片內(nèi)存儲(chǔ)器(八個(gè)輔助寄存器及一個(gè)軟件棧)，片內(nèi)外專用的指令集，允許使用業(yè)界最先進(jìn)的定點(diǎn)DSP C語(yǔ)言編譯器。TMS320VC5402含4 KB的片內(nèi)ROM和16 KB的雙存取RAM，一個(gè)HPI(HostPortInterface)接口，二個(gè)多通道緩沖單口MCBSP(Multi-Channel Buffered SerialPort)，單周期指令執(zhí)行時(shí)間10 ns，帶有符合IEEE1149．1標(biāo)準(zhǔn)的JTAG邊界掃描仿真邏輯。語(yǔ)音輸入、輸出的模擬前端采用TI公司的TLC320ADSOC，它是一款集成ADC和DAC于一體的模擬接口電路，并且與DSP接口簡(jiǎn)單，性能高、功耗低，已成為當(dāng)前語(yǔ)音處理的主流產(chǎn)品。16位數(shù)據(jù)結(jié)構(gòu)，音頻采樣頻率為2～22．05 kHz，內(nèi)含抗混疊濾波器和重構(gòu)濾波器的模擬接口芯片，還有一個(gè)能與許多DSP芯片相連的同步串行通信接口。TLC320AD50C片內(nèi)還包括一個(gè)定時(shí)器(調(diào)整采樣率和幀同步延時(shí))和控制器(調(diào)整編程放大增益、鎖相環(huán)PLL、主從模式)。TLC320AD50C與TMS320VC5402的硬件連接，如圖3所示。

3 語(yǔ)音識(shí)別算法實(shí)現(xiàn)
3．1 語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)
語(yǔ)音的端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別中最基本的模塊，在嵌入式語(yǔ)音識(shí)別系統(tǒng)中更是占有非常重要的地位：一方面端點(diǎn)檢測(cè)的結(jié)果不準(zhǔn)確，系統(tǒng)的識(shí)別性能就得不到保證；另一方面如果端點(diǎn)檢測(cè)的結(jié)果過(guò)于放松，雖然語(yǔ)音部分被很好地包含在處理的信號(hào)中，但是增加過(guò)多的靜音則會(huì)增加系統(tǒng)的運(yùn)算量，同時(shí)對(duì)識(shí)別性能也有負(fù)面影響。因此為能量和過(guò)零率兩個(gè)參數(shù)分別設(shè)定兩個(gè)門限，一個(gè)是比較低的門限，數(shù)值比較小，對(duì)信號(hào)的變化比較敏感，很容易就被超過(guò)。另一個(gè)是比較高的門限，數(shù)值比較大，信號(hào)必須達(dá)到一定的強(qiáng)度，該門限才可能被超過(guò)。低門限被超過(guò)未必就是語(yǔ)音的開(kāi)始，有可能是時(shí)間很短的噪聲引起的。高門限被超過(guò)，則基本確信是由于語(yǔ)音信號(hào)引起的。
整個(gè)語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)可以分為四段：靜音、過(guò)渡段、語(yǔ)音段、結(jié)束。程序中使用一個(gè)變量status來(lái)表示當(dāng)前所處的狀態(tài)。在靜音段，如果能量或過(guò)零率超越了低門限，就應(yīng)該開(kāi)始標(biāo)記起始點(diǎn)，進(jìn)入過(guò)渡段。在過(guò)渡段中，由于參數(shù)的數(shù)值比較小，不能確信是否處于真正的語(yǔ)音段，因此只要兩個(gè)參數(shù)的數(shù)值都回落到低門限以下，就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果在過(guò)渡段中兩個(gè)參數(shù)中任意一個(gè)超過(guò)了高門限，就可以確信進(jìn)入語(yǔ)音段了。一些突發(fā)性的噪聲可以引發(fā)短時(shí)能量或過(guò)零率的數(shù)值很高，但是往往不能維持足夠長(zhǎng)的時(shí)間，這些可以通過(guò)設(shè)定最短時(shí)間門限來(lái)判別。當(dāng)前狀態(tài)處于語(yǔ)音段時(shí)，如果兩個(gè)參數(shù)的數(shù)值降低到低門限以下，而且總的計(jì)時(shí)長(zhǎng)度小于最短時(shí)間門限，則認(rèn)為這是一段噪音，繼續(xù)掃描以后的語(yǔ)音數(shù)據(jù)。否則就標(biāo)記好結(jié)束端點(diǎn)，并返回。
3．2 語(yǔ)音特征參數(shù)的提取
近年來(lái)，一種能夠比較充分利用人耳這種特殊的感知特新的參數(shù)得到了廣泛的應(yīng)用，這就是Mel尺度倒譜參數(shù)(Mel-scaled Cepstrum Coefficients，MFCC)。它和線性頻率的轉(zhuǎn)換關(guān)系是：
fMel=2 596log10(1+f／700)
MFCC參數(shù)是按幀計(jì)算的。首先要通過(guò)FFT得到該幀信號(hào)的功率譜，轉(zhuǎn)換為Mel頻率下的功率譜。這需要在計(jì)算之前先在語(yǔ)音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器Hm(n)。MFCC參數(shù)的計(jì)算流程為：
(1)確定每一幀語(yǔ)音采樣序列的點(diǎn)數(shù)，本系統(tǒng)采取N=256點(diǎn)。對(duì)每幀序列s(n)進(jìn)行預(yù)加重處理后再經(jīng)過(guò)離散FFT變換，取模的平方得到離散功率譜s(n)。
(2)計(jì)算s(n)通過(guò)M個(gè)Hm(n)后所得的功率值，即計(jì)算s(n)和Hm(n)在各個(gè)離散頻率點(diǎn)上乘積之和，得到M個(gè)參數(shù)Pm，m=0，1，…，M-1。
(3)計(jì)算Pm的自然對(duì)數(shù)，得到Lm，m=0，1，…，M-1。
(4)對(duì)L0，L1,…,LM-1計(jì)算其離散余弦變換，得到Dm，m=0，1，…，M-1。
(5)舍去代表直流成分的D0，取D1，D2，…，DK作為MFCC參數(shù)。此處K=12。
3．3 特定人語(yǔ)音識(shí)別算法
在孤立詞語(yǔ)音識(shí)別中，最為簡(jiǎn)單有效的方法是采用DTW動(dòng)態(tài)時(shí)間規(guī)整算法，設(shè)參考模板特征矢量序列為A={a1，a2，…，aj)，輸入語(yǔ)音特征矢量序列為B={b1，b2，…，bk)，j≠k。DTW算法就是要尋找一個(gè)最佳的時(shí)間規(guī)整函數(shù)，使得語(yǔ)音輸入B的時(shí)間軸k映射到參考模板A的時(shí)間軸j上總的累計(jì)失真最小。
將己經(jīng)存入模板庫(kù)的各個(gè)詞條稱為參考模板，一個(gè)參考模板可以表示為{R(1)，R(2)，…，R(M)}，m為訓(xùn)練語(yǔ)音幀的時(shí)序標(biāo)號(hào)，m=1為起點(diǎn)語(yǔ)音幀，m=M為終點(diǎn)語(yǔ)音幀，因此M為該模式包含的語(yǔ)音幀總數(shù)，R(m)為第m幀語(yǔ)音的特征矢量。所要識(shí)別的一個(gè)輸入詞條語(yǔ)音稱為參考模板，可表示為{T(1)，T(2)，…，T(N))，n為測(cè)試語(yǔ)音幀標(biāo)號(hào)，模板中共包含N幀音，T(n)為第n幀音的特征矢量。

上一頁(yè) 1 2 3 下一頁(yè)

新聞中心

孤立詞語(yǔ)音識(shí)別系統(tǒng)的DSP實(shí)現(xiàn)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)