基于DTW的編碼域說話人識別研究

作者：時間：2010-10-14 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
　參考文獻[1]發(fā)現(xiàn)識別特征加入G.729壓縮幀中的語音增益參數(shù)，說話人識別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2，結(jié)果發(fā)現(xiàn)，當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2)，識別性能得到了提高，所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2)，共7維。
2 動態(tài)時間規(guī)整(DTW)識別算法
　動態(tài)時間規(guī)整DTW(Dynamic Time Warping)是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù)。該算法基于動態(tài)規(guī)劃思想，解決了發(fā)音長短不一的模版匹配問題。
　算法原理：假設(shè)測試語音和參考語音分別用R和T表示，為了比較它們之間的相似度，可以計算它們之間的距離D[T，R]，距離越小則相似度越高。具體實現(xiàn)中，先對語音進行預(yù)處理，再把R和T按相同時間間隔劃分成幀系列：

然后采用動態(tài)規(guī)劃進行識別。如圖2所示。

本文引用地址：http://butianyuan.cn/article/166450.htm

把測試模版的各個幀號n＝1,…,N在一個二維直角坐標(biāo)系的橫軸上標(biāo)出，把參考模版的各幀號m＝1,…,M在縱軸上標(biāo)出，通過這些表示幀號的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個網(wǎng)格，網(wǎng)格中的每一個交叉點(n，m)表示測試模版中某一幀與訓(xùn)練模版中某一幀的交叉點。動態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點的路徑，路徑通過的格點即為測試和參考模版中距離計算的幀號。

　整個算法主要歸結(jié)為計算測試幀和參考幀間的相似度及所選路徑的矢量距離累加。
　識別流程如圖3所示。

新聞中心

基于DTW的編碼域說話人識別研究

評論

相關(guān)推薦

技術(shù)專區(qū)