說話人語音特征子空間分離及識別應(yīng)用

作者：時間：2009-08-10 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

設(shè)系統(tǒng)需要識別的M個說話人對應(yīng)的子空間分別為SF1~SFM，經(jīng)過模式匹配得到輸入測試語音St與各子空間的距離SFD1～SFDM，則識別判決準則如下：

本文引用地址：http://www.butianyuan.cn/article/188757.htm

4 實驗分析
需要通過實驗分析的問題包括：(1)基于特征子空間識別方法的有效性?(2)子空間維數(shù)與識別性能的關(guān)系?并確定一個最佳子空間維數(shù)。(3)不同子空間距離測度下識別性能的比較分析(4)不同特征參數(shù)，例如LPCC、MFCC情況下識別性能分析?(5)不同長度測試語音輸入時，說話人識別性能的變化趨勢?(6)在相同訓練語音數(shù)據(jù)、實驗環(huán)境和條件下，子空間方法和VQ、GMM等其他方法的識別性能比較分析。
4．1 實驗數(shù)據(jù)與條件
語音數(shù)據(jù)選擇SD2002一D2數(shù)據(jù)庫，該數(shù)據(jù)庫中包含了在普通實驗室環(huán)境下通過計算機聲音系統(tǒng)采集得到的40個說話人的280條語音片段，其中，男聲26人，女聲14人，每人分別有7段語音，每段語音包括停頓間隙長度為12秒。語音采樣率為11025Hz，16位量化，單聲道輸入。實驗中，每說話人的前4段語音用于模型訓練，后3段用于測試。
在模型訓練和識別測試中，預(yù)處理部分首先消除輸入語音信號的背景噪聲，保留純語音數(shù)據(jù)，并進行權(quán)重系數(shù)為0．97的高頻提升。短時分析采用27ms哈明窗，幀移步長18ms。特征參數(shù)LPCC和MFCC為16階，其中，LPCC由16階LPC線性預(yù)測系數(shù)推導得到，MFCC是基于Mel頻率尺度的倒譜系數(shù)，通過計算Mel頻率域均勻分布的19個三角濾波器組的DFT輸出，并經(jīng)DCT變換得到，實驗中選取第l～16個系數(shù)作為特征參數(shù)。實驗中，特征子空間采用說話人的前4段語音信號進行訓練，其純語音成分的長度平均為32秒。測試實驗采用每說話人的后3段語音。
4．2 不同距離測度和特征參數(shù)下子空間維數(shù)與識別性能關(guān)系分析
根據(jù)PCA原理，特征子空間可以選擇較大散度本征值對應(yīng)的本征向量為基底，這樣可以提高子空間之間的非相關(guān)性。但是，選擇的基向量不能過少，否則可能引起子空間不能充分表示語音特征的分布結(jié)構(gòu)。因此，需要在實驗分析子空間維數(shù)與識別性能關(guān)系的基礎(chǔ)上確定一個最佳子空間維數(shù)。
將散度本征值按大小順序排列，并選取前面幾個較大本征值所對應(yīng)的本征向量作為子空間的基向量進行分析。圖2顯示了采用LPCC特征參數(shù)以及兩種不同子空間距離測度情況下系統(tǒng)誤識率隨子空間維數(shù)變化的情況，其中測試語音長度為3秒?？梢钥吹?，第二種子空間距離測度總體上比第一種距離測度更優(yōu)越，但兩種測度下都顯示當子空間維數(shù)為6時系統(tǒng)的誤識率最低。圖3顯示了采用第二種子空間距離測度時，兩種特征參數(shù)LPCC和MFCC所對應(yīng)的識別性能隨維數(shù)變化的情況，其測試語音長度也是3秒。可以看到，MFCC參數(shù)相對而言比LPCC要優(yōu)越些，但差距并不大。另外，從圖3同樣可以看到當子空間維數(shù)為6時系統(tǒng)具有最佳識別性能。

根據(jù)以上實驗結(jié)果可以得出這樣得結(jié)論：基于子空間分離的說話人識別方法是有效的，但其識別性能隨子空間維數(shù)是變化的，當維數(shù)為6時識別性能達到最佳，誤識率僅為0．189％。因此，在以下的實驗分析中子空間維數(shù)均采用6。
4．3 不同特征參數(shù)下識別性能與測試語音長度關(guān)系分析
實際應(yīng)用中，測試語音的長度不是固定的。因此，衡量一個說話人識別系統(tǒng)的識別性能必須針對不同的測試語音長度進行分析。
圖4顯示了當采用兩種特征參數(shù)LPCC和MFCC時，不同測試語音長度下系統(tǒng)的識別性能情況。其中，子空間距離的計算采用第二種測度，即d2(Vt，SF)。

從圖4可以看到，所有測試語音長度下系統(tǒng)都能夠得到較好的識別性能，誤識率均在3％以下，當測試長度達到5秒時，MFCC對應(yīng)的誤識率趨于零，但LPCC對應(yīng)的誤識率下降趨勢慢一些。另外可以看到，采用MFCC作為特征參數(shù)時的識別性能比LPCC時優(yōu)越，但差距并不大。
4．4 子空間方法與其他方法的比較分析
說話人識別的根本性問題是模型和特征參數(shù)，即用怎樣的方法去描述說話人的語音特征以及采用什么樣的參數(shù)表示說話人語音特征的問題。但到目前為止，還沒有提出專門用于說話人識別的語音特征參數(shù)和模型，常用的文本無關(guān)說話人模型有GMM和VQ。
圖5和圖6分別顯示了子空間方法與VQ和GMM方法的比較。其中，VQ碼本的碼字數(shù)為128，GMM的混合分量數(shù)為16?？梢钥吹剑涌臻g方法在測試語音長度小于3秒時其識別性能優(yōu)于其他方法，而在大于等于3秒時則相反。這個結(jié)果說明，GMM和VQ等完全基于統(tǒng)計聚類的方法由于運用了說話人語音的統(tǒng)計特性，所以對于較長的測試語音有較可靠的識別性能，但當測試語音較短時，由于無法提供可靠的統(tǒng)計特性進行匹配，誤識率就很快下降。而子空間方法是根據(jù)說話人語音特征的分布散度得到的一種空間結(jié)構(gòu)性模型，由于不是完全依靠語音特征的統(tǒng)計特性，所以在較短的測試語音時也能夠得到較好的識別性能。

5 結(jié)論
依據(jù)PCA原理，從說話人語音特征觀察空間根據(jù)其分布散度特性分離出特征子空間作為說話人的一種結(jié)構(gòu)性語音模型是有效的。當采用MFCC參數(shù)，測試語音長度為5秒時系統(tǒng)誤識率趨于零。特別是在小于3秒的短時測試語音情況下，其識別性能優(yōu)于其他方法。另外，子空間方法在識別時的計算量明顯小于其他方法。
說話人識別和語音識別中存在同樣的核心問題，即沒有解決說話人個性特征和語義特征的提取和描述，這個問題極難。目前主要采用的特征參數(shù)LPCC、MFCC等反映了語音信號的頻譜特征，既包含語義特征信息，又包含個性特征信息，在具體應(yīng)用中只是根據(jù)不同的識別任務(wù)進行語義特征或個性特征的歸一化處理，主要的歸一化處理通過語音模型訓練進行。顯然，這樣的傳統(tǒng)方法為了使語音模型很好地表示說話人的語音特征必須通過大量的語音樣本進行訓練，測試時需要的語音數(shù)據(jù)也比較多。但是，實際應(yīng)用中系統(tǒng)往往沒有足夠的數(shù)據(jù)用于這類統(tǒng)計模型的訓練和識別，因此，在考慮如何提高說話人識別系統(tǒng)魯棒性的同時，需要研究少量語音數(shù)據(jù)前提下的訓練和識別問題?；谧涌臻g分離的說話人識別方法在短測試語音長度下有一定優(yōu)勢，但在較長測試語音情況下識別性能提高不快。因此，今后將考慮通過子空間映射，在子空間建立說話人統(tǒng)計模型的方法來提高總體識別性能，特別是較長測試語音長度下的識別性能。

新聞中心

說話人語音特征子空間分離及識別應(yīng)用

評論

相關(guān)推薦

技術(shù)專區(qū)