基于DTW的編碼域說話人識別研究
本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
參考文獻[1]發(fā)現(xiàn)識別特征加入G.729壓縮幀中的語音增益參數(shù),說話人識別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2,結(jié)果發(fā)現(xiàn),當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
2 動態(tài)時間規(guī)整(DTW)識別算法
動態(tài)時間規(guī)整DTW(Dynamic Time Warping)是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù)。該算法基于動態(tài)規(guī)劃思想,解決了發(fā)音長短不一的模版匹配問題。
算法原理:假設(shè)測試語音和參考語音分別用R和T表示,為了比較它們之間的相似度,可以計算它們之間的距離D[T,R],距離越小則相似度越高。具體實現(xiàn)中,先對語音進行預(yù)處理,再把R和T按相同時間間隔劃分成幀系列:
然后采用動態(tài)規(guī)劃進行識別。如圖2所示。本文引用地址:http://butianyuan.cn/article/166450.htm
把測試模版的各個幀號n=1,…,N在一個二維直角坐標(biāo)系的橫軸上標(biāo)出,把參考模版的各幀號m=1,…,M在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個網(wǎng)格,網(wǎng)格中的每一個交叉點(n,m)表示測試模版中某一幀與訓(xùn)練模版中某一幀的交叉點。動態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點的路徑,路徑通過的格點即為測試和參考模版中距離計算的幀號。
整個算法主要歸結(jié)為計算測試幀和參考幀間的相似度及所選路徑的矢量距離累加。
識別流程如圖3所示。
評論