PESQ及其應(yīng)用

作者：解放軍理工大學(xué)通信工程學(xué)院,趙斐,徐勇,成立新時間：2003-07-16 來源：電子設(shè)計應(yīng)用

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

摘要：本文介紹了基于聽覺模型的PESQ(Perceptual evaluation of speech quality)客觀音質(zhì)評價方法。它適用于更寬的網(wǎng)絡(luò)環(huán)境，包括模擬連接、編解碼、包丟失和時延變化。

關(guān)鍵詞： 感知模型；漢語單字；清晰度

引言
目前能提供主客觀相關(guān)性較高的音質(zhì)客觀評價方法，都是考慮了人耳的聽覺特性，使用聽覺感知模型來模擬收聽這一過程的。因此當(dāng)前的主流是使用感知模型來評估非線性和易出錯的音頻通信系統(tǒng)。
感知語音質(zhì)量測度(PSQM),在1996年被國際電聯(lián)ITU-T采納為P.861建議，1998年，一個基于歸一化塊測度(MNB)的可選系統(tǒng)作為附件添加到P.861中。MNB是在考慮聽過程的基礎(chǔ)上，采用MNB方法來模擬人的判斷過程，評價結(jié)果與主觀評價值相關(guān)度較高。
Hollier擴(kuò)展了巴克譜失真(BSD)模型，引領(lǐng)了感知分析測度系統(tǒng)(PAMS)的發(fā)展。PAMS是第一個關(guān)注端到端行為，包括濾波和變化時延造成的影響的模型。
這些影響，再加上一定類型的編碼失真、包丟失和背景噪聲，就是引起B(yǎng)SD,PSQM和MNB等早期模型產(chǎn)生不精確得分的原因。因此ITU-T 12研究組進(jìn)行了一項(xiàng)實(shí)驗(yàn)來找到一種新的模型，以期能適應(yīng)更廣泛的編解碼器和網(wǎng)絡(luò)情況，具有更好的性能和表現(xiàn)。在比較中，PAMS和PSQM99(PSQM的更新和擴(kuò)展版本)兩種算法的性能最好，然后就結(jié)合了這兩種算法產(chǎn)生了一個新的模型，叫做PESQ。2001年2月PESQ被定為P.862建議。

PESQ算法的描述

圖1 PESQ模型的結(jié)構(gòu)圖

圖1為PESQ的結(jié)構(gòu)。開始時兩個信號都通過電平調(diào)整，再用輸入濾波器模擬標(biāo)準(zhǔn)電話聽筒進(jìn)行濾波(FFT)。這兩個信號要在時間上對準(zhǔn)，并通過聽覺變換。這個變換包括對系統(tǒng)中線性濾波和增益變化的補(bǔ)償和均衡。提取出兩個失真參數(shù)，在頻率和時間上總和起來，映射到對主觀平均意見分的預(yù)測。
電平調(diào)整和IRS濾波
各個待測系統(tǒng)的增益一般差別比較大，而且對參考信號沒有確定的校準(zhǔn)電平，所以有必要將二者調(diào)整到統(tǒng)一、恒定的電平上來。PESQ假定主觀聽覺級是79dB的常數(shù)。感知模型必須考慮人聽到的實(shí)際聲音，所以不管真正的主觀測驗(yàn)中是否使用IRS或改進(jìn)的IRS濾波，在PESQ中使用了類IRS濾波器，起到一個模擬電話手柄的作用。
時間對準(zhǔn)
PESQ的時間對準(zhǔn)假設(shè)系統(tǒng)的時延是分段恒定的。這個假設(shè)對廣泛的系統(tǒng)，包括基于包傳輸?shù)腣oIP,都是合適的。在靜默期間和說話期間時延可以改變。信號對準(zhǔn)有以下步驟：
?信號通過窄帶濾波，突出對感知重要的部分。這些濾波后的信號只用于時間對準(zhǔn)；
?基于包絡(luò)的延時估計；
?把參考信號按話語分成段；
?對每一段進(jìn)行基于包絡(luò)的延時估計；
?對每一段話語進(jìn)行基于柱狀圖的、精細(xì)的、互相關(guān)的延時驗(yàn)證；
?對于說話中的延時改變進(jìn)行話語分解(splitting)和重定位。
對每一段話語都給出延時估計，然后得出聽覺變換要用的一幀一幀的延時。
聽覺變換
PESQ中的聽覺變換是一個生理聲學(xué)模型，它把信號變換到時頻可感知的響度表達(dá)。包括以下步驟：
巴克譜加漢明窗用FFT計算每一幀的瞬時功率譜，每幀重疊50%，即32ms。
頻率補(bǔ)償計算有效話音幀的平均巴克譜值。假設(shè)待測系統(tǒng)有恒定的頻率響應(yīng)，參考話音和失真話音間的比率就給出傳輸函數(shù)估計。參考話音使用這個估計值補(bǔ)償?shù)胶褪д嬖捯粝喈?dāng)，補(bǔ)償最多不超過±20dB。
增益變化的補(bǔ)償均衡短時增益變化通過一幀一幀的處理基音功率密度得到部分補(bǔ)償。每一幀中，計算所有超過聽覺門限的基音功率密度值。得到參考信號和失真信號的比值(3×10-4)，比值通過一階低通濾波器濾波，每一幀的失真信號乘以這個功率比，補(bǔ)償?shù)胶蛥⒖夹盘栂喈?dāng)。
響度映射巴克譜映射到響度級(宋)，包括一個頻率門限和指數(shù)。這樣在每一時頻單元給出感受到的響度。
干擾密度的計算
參考信號與失真信號間的絕對差值給聽覺誤差一個測度。在PESQ中，在進(jìn)行時間和頻率上非線性平均之前要經(jīng)過幾步的處理。
如果信號的延時減少了16ms以上，在這種情況下發(fā)現(xiàn)在計算客觀語音質(zhì)量時，忽略幀干擾能得到更好的值，因此當(dāng)這種情況時，幀干擾設(shè)為零。
在每一個時頻單元都使用一個簡單的門限來進(jìn)行屏蔽，在門限以下的干擾是聽不見的，這個值設(shè)定為參考函數(shù)和失真函數(shù)中響度較小的一個的四分之一。門限由絕對響度相減得到，小于零的定為零。PSQM和PSQM99早期的版本在大于一個時頻單元的距離上使用屏蔽的方法并不能提高整體的性能，在PESQ中沒有被采用。
和P.861 PSQM不同的是，PESQ計算兩個不同的誤差平均，其中一個有不對稱因子，一個沒有。PESQ的非對稱因子是由失真信號對參考信號在每一時頻單元的巴克譜密度比得到的。非對稱因子的值如果小于3，則定為零，如果大于12，則定為12。不對稱加權(quán)的干擾值，通過乘以這個因子得到，結(jié)果只計算附加的失真。
時頻干擾的總計
理解了這些局部的誤差感知，PESQ使用確定誤差在時間上和幅度上取得最好的分布方法，在幾個時-頻尺度上綜合了干擾值。干擾值使用一個Lp范數(shù)計算。它分為瞬時間隔內(nèi)的干擾總計和話音持續(xù)時間內(nèi)的干擾總計(約10秒)。瞬時間隔內(nèi)的干擾總計使用高階的p值，而話音持續(xù)時間內(nèi)的干擾總計使用低階的p值。
重定位
在有些情況下，時間定位可能不能正確地確定延時的改變，這樣會導(dǎo)致每部分的時延都錯了。這可以通過標(biāo)記錯誤幀(有一個超過45的對稱干擾)，并且五個正確幀中至多有一個錯誤幀來檢測到。
每個錯誤的部分重新定位，重新計算干擾值。交叉互相關(guān)是用來發(fā)現(xiàn)新的延時估計值的。重新計算失真信號的聽覺變換，發(fā)現(xiàn)干擾，對于每一幀來說，如果重新定位，干擾值變的較低，則使用新值。在重定位以后再總計瞬間和整個信號的性能。
計算PESQ的得分
為了訓(xùn)練PESQ，要在三個平均階段通過使用很多的p值計算很大數(shù)量的不同的對稱和非對稱的參數(shù)。先使用參數(shù)的線性組合來預(yù)測主觀MOS分，進(jìn)一步對每次主觀測試進(jìn)行回歸分析說明、解決不同的題目的前后關(guān)系和選擇的偏好，如第3部分中所討論的；這一步還用到了線性映射。對所有的候選參數(shù)集都進(jìn)行了選擇。這樣找到了最優(yōu)的組合，能給出最好的平均相關(guān)系數(shù)。這樣可以在幾百個候選參數(shù)中找到最好的。
舉例來說，PESQ中用到部分補(bǔ)償，在增益調(diào)制的均衡中，就要避免使用大量的參數(shù)來預(yù)測質(zhì)量。只用到兩個參數(shù)的組合— 一個對稱干擾(dSYM)和一個非對稱干擾(dASYM)，在預(yù)測精度和概括能力上有很好的平衡。然而，由于低維數(shù)的模型依靠早先的階段組合出復(fù)雜的感知作用，要求有幾個迭代設(shè)計。聽覺變換中的系數(shù)和干擾處理經(jīng)過優(yōu)化，找到了最優(yōu)的參數(shù)，然后重復(fù)處理過程。下面給出PESQ中映射的分：
PESQMOS=4.5-0.1 dSYM-0.0309 dASYM
對于正規(guī)的主觀測試，得分在1.0和4.5之間。在失真情況嚴(yán)重時，得分可能會低于1.0，但這種情況很少見。

范圍和應(yīng)用
ITU-T相關(guān)的資料已證明PESQ是能夠給出精確的預(yù)測值的，包括以下編解碼和誤碼失真，波形編碼(如G.711,G.726),CELP/高于4kbit/s的混合編解碼(如G.728),移動編解碼/系統(tǒng)(包括GSM FR、EFR、HR、AMR、CDMA EVRC、TDMA ACELP、VSELP和TETRA)；各種編解碼的代碼轉(zhuǎn)換，隨機(jī)的、突發(fā)的、包丟失誤差。PESQ能夠用于編解碼或系統(tǒng)評估、選擇和優(yōu)化。
這樣PESQ可以廣泛的用于現(xiàn)場和模擬網(wǎng)絡(luò)中端到端測量。背景(環(huán)境)噪聲和噪聲處理，可以通過用PESQ比較干凈的、未處理的信號和編碼的、經(jīng)噪聲干擾失真的信號評估得到。
用靜默來取代語音，也是一種失真，給所有的感知模型在預(yù)測MOS分時帶來困難。一般前端和后端的50ms的削波(話音激活檢測)不會給主觀印象帶來很大的影響。然而，在話音期間削波，比如包丟失后用靜默代替，將嚴(yán)重影響主觀感受---每50ms的丟失，MOS分下降一分。PESQ的情況在這兩種之間，每50ms的削波通常引起0.5分左右的下降，而不管處于什么位置。對于前端暫時的削波，特別是未察覺的丟失了單詞時，PESQ是很敏感的。相反的，PESQ對經(jīng)常的、短時的削波不很敏感(短時間內(nèi)語音被靜默取代)。在這兩種情況下，PESQ與主觀MOS分之間的相關(guān)性會減弱。
作為一個有固定假設(shè)聽覺級的只聽模型，PESQ一般不應(yīng)用來評估收聽級、側(cè)音/說話人回音，或?qū)υ捬舆t的影響，而且，它也不是供非入侵性測度使用的。其他一些應(yīng)用的特性還沒有得到證明，或者需要部分改變模型。包括：音樂音質(zhì)；寬帶話音；所謂“媒體音頻質(zhì)量”；接受端回聲；低于4kbit/s的低比特率編解碼器；聲學(xué)的和電話機(jī)參考當(dāng)量測試。

結(jié)語
相對來說，PSQM和MNB只用在窄帶編解碼測量中，并且對某些類型的編解碼、背景噪聲和端到端的影響，比如濾波和時延變化給出不精確的預(yù)測值。PESQ能提供比P.861模型、PSQM和MNB與主觀意見更好的相關(guān)性。它能在很廣范的條件下對主觀質(zhì)量給出了很精確的預(yù)測，包括有背景噪聲，模擬濾波，和/或時延變化。PESQ在很多評估電話網(wǎng)絡(luò)和語音編解碼的語音質(zhì)量等應(yīng)用中會非常適用。

參考文獻(xiàn)
1 Objective quality measurement of telephone-band (300-3400Hz) speech codecs .ITU-T Recommendation P.861,February 1998
2 Hollier, M. P. , Hawksford, M.O. and Guard, D. R. "Characterisation of communications systems using a speech-like test stimulus", Journal of the audio Engineering Society,41(12),1008-1021,1993
3 Rix, A.W., Reynilds, R. and Hollier, M. P. "Perceptual measurement of end-to-end speech quality over audio and packet-based networks" 106th Audio Engineering Society Convention , pre-print no.4873.May 1999
4 陳國,胡修林,張?zhí)N玉,朱耀庭.語音質(zhì)量客觀評價方法研究進(jìn)展.電子學(xué)報.Vol.29,2001.04

新聞中心

PESQ及其應(yīng)用

評論

相關(guān)推薦

技術(shù)專區(qū)