基于DTW的編碼域說(shuō)話人識(shí)別研究
3 實(shí)驗(yàn)結(jié)果與性能分析及結(jié)論
為測(cè)試上述識(shí)別性能,對(duì)其進(jìn)行了固定文本的說(shuō)話人識(shí)別試驗(yàn)。試驗(yàn)中,采用電話信道863語(yǔ)料庫(kù)30個(gè)說(shuō)話人共300個(gè)錄音文件,文件格式為16 bit線性PCM。為了模擬VoIP中語(yǔ)音壓縮幀,使用G.729聲碼器對(duì)原始語(yǔ)音文件進(jìn)行壓縮。使用每個(gè)說(shuō)話人的一個(gè)文件訓(xùn)練成為模板。測(cè)試語(yǔ)音長(zhǎng)度為10 s~60 s以5 s為間隔的共11個(gè)測(cè)試時(shí)間標(biāo)準(zhǔn)。這樣,模板庫(kù)中有30個(gè)模板,測(cè)試語(yǔ)音有270個(gè),使用微機(jī)配置是:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
在實(shí)驗(yàn)中,M和N取64,通過(guò)各模版間的匹配,確定了判決門(mén)限為0.3時(shí),識(shí)別效果最佳。
為了對(duì)比DTW算法的識(shí)別性能,采用在傳統(tǒng)說(shuō)話人識(shí)別中廣泛使用的GMM模型作為對(duì)比實(shí)驗(yàn),其中GMM模型使用與DTW算法相同的編碼流特征。
圖4給出基于DTW識(shí)別方法與GMM模型(混元數(shù)64)識(shí)別G.729編碼方案863語(yǔ)料庫(kù)的文本相關(guān)說(shuō)話人的誤識(shí)率對(duì)比圖。橫坐標(biāo)代表的測(cè)試語(yǔ)音的時(shí)長(zhǎng),縱坐標(biāo)代表識(shí)別誤識(shí)率。由實(shí)驗(yàn)結(jié)果可知在文本相關(guān)的說(shuō)話人識(shí)別中,基于DTW算法的識(shí)別率在絕大多數(shù)情況下高于GMM模型,且隨著測(cè)試語(yǔ)音的增長(zhǎng),優(yōu)勢(shì)更明顯。
為比較特征提取的時(shí)間性能和總的時(shí)間性能,實(shí)驗(yàn)條件如下:
(1)選擇的50個(gè)說(shuō)話人的語(yǔ)音只進(jìn)行特征提取,測(cè)試語(yǔ)音長(zhǎng)度總和在25 min左右;
(2)對(duì)測(cè)試語(yǔ)音分別進(jìn)行解碼識(shí)別和編碼流的識(shí)別,模板數(shù)為10個(gè);
(3)微機(jī)配置為:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
表1為特征提取時(shí)間比較結(jié)果,表2為說(shuō)話人識(shí)別時(shí)間比較結(jié)果。
由實(shí)驗(yàn)結(jié)果可以看出,在編碼比特流中進(jìn)行特征提取時(shí)間和識(shí)別的(上接第121頁(yè))時(shí)間都遠(yuǎn)小于解碼重建后的語(yǔ)音特征提取時(shí)間和識(shí)別時(shí)間,滿足實(shí)時(shí)說(shuō)話人識(shí)別的需要。
在文本相關(guān)的說(shuō)話人識(shí)別中,對(duì)比使用同樣G.729壓縮碼流特征的GMM模型, DTW方法的識(shí)別率和處理效率均高于GMM模型,能夠?qū)崟r(shí)應(yīng)用于VoIP網(wǎng)絡(luò)監(jiān)管中。
參考文獻(xiàn)
[1] 石如亮.編碼域說(shuō)話人識(shí)別技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2007.
[2] PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
[3] 石如亮,李弼程,張連海,等. 基于編碼比特流的說(shuō)話人識(shí)別[J].信息工程大學(xué)學(xué)報(bào),2007,8(3): 323-326.
[4] 王炳錫,屈丹,彭煊.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2004: 264-286.
[5] 李邵梅,劉力雄,陳鴻昶.實(shí)時(shí)說(shuō)話人辨別系統(tǒng)中改進(jìn)的DTW算法[J].計(jì)算機(jī)工程,2008,34(4):218-219.
[6] DUNN R B, QUATIERI T F, REYNOLDS D A. et al. Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
[7] AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.
評(píng)論