一種用于抗噪語(yǔ)音識(shí)別的動(dòng)態(tài)參數(shù)補(bǔ)償新方法

作者：時(shí)間：2009-05-04 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

對(duì)于Log-Normal PMC(見(jiàn)圖1-II)，純凈語(yǔ)音模型同噪聲模型的合并是在線性譜域進(jìn)行。那么純凈語(yǔ)音和噪聲模型的參數(shù)先要從倒譜域變換到對(duì)數(shù)譜域，然后再映射到線性譜域。在線性譜域進(jìn)行模型的合并，然后進(jìn)行相反的操作把模型參數(shù)映射變換回倒譜域。另一方面，Log―Add PMC(見(jiàn)圖1一I)模型的補(bǔ)償是在對(duì)數(shù)譜域進(jìn)行。
通常的噪聲信號(hào)有兩類：卷積噪聲(信道的頻率響應(yīng))和加性噪聲。在本文中僅考慮加性噪聲情況。在文章中采用以下假設(shè)：1)噪聲是平穩(wěn)加性噪聲，噪聲和語(yǔ)音信號(hào)是相互統(tǒng)計(jì)獨(dú)立的；2)每個(gè)子帶的對(duì)數(shù)頻譜域的特征(功率譜)分布被認(rèn)為是(混合)高斯分布，Mel線性譜域的特征分布被認(rèn)為是(混合)對(duì)數(shù)一正態(tài)分布。那么在Mel線性譜域第k個(gè)子帶帶噪語(yǔ)音特征Yk為：

其中Xk和Nk分別是線性頻譜域的純凈語(yǔ)音和噪聲子帶特征(“觀測(cè)”)。g是調(diào)節(jié)噪聲和語(yǔ)音的縮放比例因子，為了表達(dá)簡(jiǎn)單起見(jiàn)，在后面的算法公式中省略此縮放比例因子g。那么對(duì)數(shù)頻譜域子帶的帶噪語(yǔ)音特征Ykl同純凈語(yǔ)音特征Xkl和噪聲特征Nkl的失配函數(shù)為：

2．1 靜態(tài)特征補(bǔ)償
對(duì)于Log-Normal PMC靜態(tài)模型特征補(bǔ)償的核心算法是對(duì)數(shù)譜域與線性譜域之間的非線性映射同線性譜域模型的合并，即：

其中k、l分別為第k、l個(gè)子帶。
對(duì)于Log―Add PMC靜態(tài)模型特征補(bǔ)償?shù)闹粚?duì)均值進(jìn)行補(bǔ)償：

2．2 動(dòng)態(tài)特征補(bǔ)償
由于推導(dǎo)出嚴(yán)格的Log―Normal PMC動(dòng)態(tài)特征補(bǔ)償算法非常困難，目前對(duì)Log―Normal PMC的動(dòng)態(tài)特征補(bǔ)償一般采用粗略的補(bǔ)償方法，只對(duì)其均值進(jìn)行補(bǔ)償。

對(duì)于Log-Add PMC其動(dòng)態(tài)特征補(bǔ)償算法為：

3 新的動(dòng)態(tài)模型參數(shù)補(bǔ)償方法
在本文中，使用靜態(tài)“觀測(cè)”的時(shí)間導(dǎo)數(shù)作為動(dòng)態(tài)的“觀測(cè)”。這樣，動(dòng)態(tài)特征的失配函數(shù)就應(yīng)等于靜態(tài)特征的失配函數(shù)的一階導(dǎo)函數(shù)。根據(jù)(2)，動(dòng)態(tài)特征失配函數(shù)為：

定義一個(gè)附加的隨機(jī)變量Zkl，定義為Zkl=Nkl一Xkl。由于Nkl和Xkl均為正態(tài)分布，并且他們之間相互獨(dú)立，那么隨機(jī)變量Zkl也是一個(gè)正態(tài)分布。其的均值和方差分別可以表示為μZkl=μN(yùn)kl-μXkl和那么動(dòng)態(tài)失配函數(shù)(9)就可以進(jìn)一步改寫(xiě)成含Zkl的函數(shù)。

由于假設(shè)背景噪聲為平穩(wěn)加性噪聲，那么噪聲動(dòng)態(tài)特征的均值就可以被近似為零。本文還假設(shè)附加的隨機(jī)變量同語(yǔ)音和噪聲的動(dòng)態(tài)特征不相關(guān)。這個(gè)假設(shè)也是DPCM的核心本質(zhì)假設(shè)。由于靜態(tài)特征與其微分變換量之間是松相關(guān)的，所以這個(gè)假設(shè)是比較合理的。
3．1 均值補(bǔ)償
依據(jù)失配函數(shù)(10)和上述假設(shè)，對(duì)數(shù)譜域的帶噪語(yǔ)音特征的統(tǒng)計(jì)均值為：