一種用于抗噪語(yǔ)音識(shí)別的動(dòng)態(tài)參數(shù)補(bǔ)償新方法
對(duì)于Log-Normal PMC(見(jiàn)圖1-II),純凈語(yǔ)音模型同噪聲模型的合并是在線性譜域進(jìn)行。那么純凈語(yǔ)音和噪聲模型的參數(shù)先要從倒譜域變換到對(duì)數(shù)譜域,然后再映射到線性譜域。在線性譜域進(jìn)行模型的合并,然后進(jìn)行相反的操作把模型參數(shù)映射變換回倒譜域。另一方面,Log―Add PMC(見(jiàn)圖1一I)模型的補(bǔ)償是在對(duì)數(shù)譜域進(jìn)行。
通常的噪聲信號(hào)有兩類:卷積噪聲(信道的頻率響應(yīng))和加性噪聲。在本文中僅考慮加性噪聲情況。在文章中采用以下假設(shè):1)噪聲是平穩(wěn)加性噪聲,噪聲和語(yǔ)音信號(hào)是相互統(tǒng)計(jì)獨(dú)立的;2)每個(gè)子帶的對(duì)數(shù)頻譜域的特征(功率譜)分布被認(rèn)為是(混合)高斯分布,Mel線性譜域的特征分布被認(rèn)為是(混合)對(duì)數(shù)一正態(tài)分布。那么在Mel線性譜域第k個(gè)子帶帶噪語(yǔ)音特征Yk為:
其中Xk和Nk分別是線性頻譜域的純凈語(yǔ)音和噪聲子帶特征(“觀測(cè)”)。g是調(diào)節(jié)噪聲和語(yǔ)音的縮放比例因子,為了表達(dá)簡(jiǎn)單起見(jiàn),在后面的算法公式中省略此縮放比例因子g。那么對(duì)數(shù)頻譜域子帶的帶噪語(yǔ)音特征Ykl同純凈語(yǔ)音特征Xkl和噪聲特征Nkl的失配函數(shù)為:
2.1 靜態(tài)特征補(bǔ)償
對(duì)于Log-Normal PMC靜態(tài)模型特征補(bǔ)償的核心算法是對(duì)數(shù)譜域與線性譜域之間的非線性映射同線性譜域模型的合并,即:
其中k、l分別為第k、l個(gè)子帶。
對(duì)于Log―Add PMC靜態(tài)模型特征補(bǔ)償?shù)闹粚?duì)均值進(jìn)行補(bǔ)償:
2.2 動(dòng)態(tài)特征補(bǔ)償
由于推導(dǎo)出嚴(yán)格的Log―Normal PMC動(dòng)態(tài)特征補(bǔ)償算法非常困難,目前對(duì)Log―Normal PMC的動(dòng)態(tài)特征補(bǔ)償一般采用粗略的補(bǔ)償方法,只對(duì)其均值進(jìn)行補(bǔ)償。
對(duì)于Log-Add PMC其動(dòng)態(tài)特征補(bǔ)償算法為:
3 新的動(dòng)態(tài)模型參數(shù)補(bǔ)償方法
在本文中,使用靜態(tài)“觀測(cè)”的時(shí)間導(dǎo)數(shù)作為動(dòng)態(tài)的“觀測(cè)”。這樣,動(dòng)態(tài)特征的失配函數(shù)就應(yīng)等于靜態(tài)特征的失配函數(shù)的一階導(dǎo)函數(shù)。根據(jù)(2),動(dòng)態(tài)特征失配函數(shù)為:
定義一個(gè)附加的隨機(jī)變量Zkl,定義為Zkl=Nkl一Xkl。由于Nkl和Xkl均為正態(tài)分布,并且他們之間相互獨(dú)立,那么隨機(jī)變量Zkl也是一個(gè)正態(tài)分布。其的均值和方差分別可以表示為μZkl=μN(yùn)kl-μXkl和那么動(dòng)態(tài)失配函數(shù)(9)就可以進(jìn)一步改寫(xiě)成含Zkl的函數(shù)。
由于假設(shè)背景噪聲為平穩(wěn)加性噪聲,那么噪聲動(dòng)態(tài)特征的均值就可以被近似為零。本文還假設(shè)附加的隨機(jī)變量同語(yǔ)音和噪聲的動(dòng)態(tài)特征不相關(guān)。這個(gè)假設(shè)也是DPCM的核心本質(zhì)假設(shè)。由于靜態(tài)特征與其微分變換量之間是松相關(guān)的,所以這個(gè)假設(shè)是比較合理的。
3.1 均值補(bǔ)償
依據(jù)失配函數(shù)(10)和上述假設(shè),對(duì)數(shù)譜域的帶噪語(yǔ)音特征的統(tǒng)計(jì)均值為:
其中
參數(shù)ti和ωi(i=l~n)是Hermite多項(xiàng)式Hn(t)的橫坐標(biāo)和對(duì)應(yīng)的權(quán)值。
評(píng)論