DSP在音頻解碼中基于心理-聲學(xué)的性能分析

作者：時(shí)間：2016-12-21 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

通常在談到關(guān)于DSP解碼與系統(tǒng)整體性能表現(xiàn)時(shí)，我們主要利用了傳統(tǒng)的SNR、瞬時(shí)誤差和相位誤差等方法進(jìn)行判斷。本文以心理-聲學(xué)壓縮設(shè)計(jì)的方法來(lái)考察DSP解碼的性能與表現(xiàn)，介紹了基于心理-聲學(xué)的音頻壓縮解碼概念，并給出了基于心理-聲學(xué)的DSP性能分析。

本文引用地址：http://butianyuan.cn/article/201612/332377.htm

從上個(gè)世紀(jì)90年代以來(lái)，數(shù)字信號(hào)處理技術(shù)便逐步在消費(fèi)音頻市場(chǎng)占據(jù)重要地位。數(shù)字信號(hào)處理器最初主要用于處理數(shù)字化的模擬音頻信號(hào)，即PCM數(shù)據(jù)的處理。在當(dāng)前的系統(tǒng)設(shè)計(jì)時(shí)代，基于具有靈活軟件設(shè)計(jì)特性的DSP系統(tǒng)設(shè)計(jì)方案是傳統(tǒng)設(shè)計(jì)的理想替代方法。

在音頻系統(tǒng)的設(shè)計(jì)中，通常在信號(hào)源進(jìn)行壓縮編碼時(shí)采用心理-聲學(xué)模型去除信號(hào)中的冗余數(shù)據(jù)，通過(guò)選擇合適位數(shù)的DSP可以保證系統(tǒng)的性能。實(shí)際應(yīng)用中DSP的選擇需要涉及到很多因素，包括精度(24位/32位)、主頻、成本和內(nèi)存容量等。本文就音頻解碼應(yīng)用中，基于心理-聲學(xué)模型對(duì)DSP的性能進(jìn)行了分析。

DSP分貝與聲壓分貝的關(guān)系

本文在后面所述的數(shù)據(jù)都是在dBFS下的測(cè)量值，即滿刻度分貝值。從可聞度來(lái)分析，需要將這些數(shù)值與dB SPL關(guān)聯(lián)起來(lái)，即轉(zhuǎn)換為聲壓強(qiáng)度的分貝數(shù)。在DSP之后的模擬信號(hào)鏈上包括DAC、前置放大器、功率放大器和揚(yáng)聲器，盡管對(duì)于不同的系統(tǒng)，每個(gè)元件的增益和性能可能會(huì)有顯著的差異，但單純從系統(tǒng)配置的角度而言，仍可能把dBFS與dB SPL以足夠的準(zhǔn)確性關(guān)聯(lián)起來(lái)。

通常，數(shù)字音軌以-20dBFS電平進(jìn)行錄音，完全滿足信號(hào)峰值所要達(dá)到的幅值，同時(shí)也擁有足夠的動(dòng)態(tài)范圍以展現(xiàn)音頻文件的靜音部分，在CD、Dolby Digital和DTS等不同格式下也不會(huì)失真。眾所周知， THX推薦的聽(tīng)覺(jué)配置是在85dB聲壓強(qiáng)度下再現(xiàn)-20dBFS聲音信號(hào)，這時(shí)音量通常會(huì)很大，而正常的收聽(tīng)時(shí)會(huì)比該強(qiáng)度低很多。

從上面是的事實(shí)得出dBFS與dB SPL之間是線性映射的，具有以下關(guān)系：0dBFS的信號(hào)可在105dB SPL再現(xiàn)，需要注意的是這種情況下產(chǎn)生的聲音非常高，不適合長(zhǎng)時(shí)間收聽(tīng)； 0dB SPL對(duì)應(yīng)與-105dBFS。

聽(tīng)覺(jué)與聽(tīng)覺(jué)閾值

人類的聽(tīng)覺(jué)是有極限的，通常在聲壓強(qiáng)度的設(shè)計(jì)上會(huì)把0dB設(shè)定為最低可聽(tīng)范圍水平。聲音頻譜中的大部分(300Hz以下和10KHz以上)只有在10dB的聲壓強(qiáng)度之上才可以聽(tīng)到，正弦波的最高敏感度在3~4KHz，而且這樣的聲音在-3~-4的dB SPL就可以被聽(tīng)力極好的人感知。

從生理學(xué)上看，要達(dá)到聲音聽(tīng)覺(jué)閾值，其能量需要大到能在人的耳鼓產(chǎn)生一個(gè)駐波，從而使那兒的細(xì)小毛發(fā)產(chǎn)生波動(dòng)。沒(méi)有這種波動(dòng)，連接聽(tīng)覺(jué)皮層的神經(jīng)元就不能被觸發(fā)，因而聲音不能被感知。從上面的討論我們得到的關(guān)于音頻系統(tǒng)設(shè)計(jì)的啟發(fā)，即當(dāng)噪音的水平低于人們的聽(tīng)覺(jué)閾值時(shí)，一味追求高精度的DSP實(shí)現(xiàn)方案并沒(méi)有實(shí)際意義。

利用先前得到的聽(tīng)力配置關(guān)系，最低的可聽(tīng)聲壓為-4dB SPL，即-109dBFS。假設(shè)在信號(hào)鏈所有其它部分(DAC、前置放大器等)均為零失真，這就意味著任何能夠產(chǎn)生好于109dB信噪比的DSP都不會(huì)成為系統(tǒng)性能的瓶頸，這是采用DSP實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)的一個(gè)很重要的問(wèn)題。實(shí)際應(yīng)用中，模擬信號(hào)鏈?zhǔn)窍到y(tǒng)中噪音的最主要來(lái)源，而DSP對(duì)噪音的貢獻(xiàn)遠(yuǎn)遠(yuǎn)低于這些模擬器件。

滿足系統(tǒng)性能的DSP位數(shù)

上面的分析是建立在-20dBFS平均水平和THX聽(tīng)力配置情況下。盡管這是一個(gè)極限情況，考慮到dBFS/dB SPL轉(zhuǎn)換關(guān)系的變化，在設(shè)計(jì)時(shí)還要留出一些性能余量。因此，一個(gè)考慮周全的設(shè)計(jì)應(yīng)該使DSP的位數(shù)比理論位數(shù)大約多出兩位，即121dB使用6dB/位的配置，對(duì)應(yīng)著PCM輸出的20位動(dòng)態(tài)范圍。

以上的分析與杜比公司的Dolby Digital設(shè)計(jì)方案的假設(shè)一致，該方案同樣是采用20位的精度。同時(shí)，實(shí)際的ADC/DAC也限制在20位精度的性能(<120dB)，即使是DAT錄音也是采用20位的精度。所有的這些都驗(yàn)證了上面的分析的正確性。

上述數(shù)據(jù)是基于最壞的情況，因?yàn)樵趯?shí)際情況下功率放大器、前置放大器和DAC產(chǎn)生的噪音量比DSP的性能對(duì)系統(tǒng)整體的性能影響更大。最好的功率放大器也僅僅能獲得109dB的信噪比，因?yàn)樵胍裟芰吭诰€性區(qū)域中可累加，這意味著一個(gè)輸出是121dB的20位DSP，僅僅會(huì)產(chǎn)生放大器6.66%的噪音。而如果揚(yáng)聲器的性能也作為考慮因素，那么DSP產(chǎn)生的噪音就是1/6??揚(yáng)聲器失真，這是可以完全忽略的。

上面的分析甚至沒(méi)有考慮編碼的失真、ADC或麥克風(fēng)產(chǎn)生的噪音，所有這些都是非常關(guān)鍵的。如果所有信號(hào)鏈都考慮到，很顯然20位的DSP已經(jīng)足夠用。僅僅用非常態(tài)正弦波測(cè)試，人為的合成精度超過(guò)20位的信號(hào)才能得到可測(cè)量的差別，并且這種差別實(shí)際上是人類聽(tīng)覺(jué)不能感知的。

帶有“透明”音頻質(zhì)量的有損壓縮

心理-聲學(xué)壓縮設(shè)計(jì)是針對(duì)給定信號(hào)的有損壓縮，進(jìn)而了解在什么程度下不同的頻域/時(shí)域信號(hào)是可聽(tīng)見(jiàn)或聽(tīng)不見(jiàn)，以便相應(yīng)調(diào)整編碼過(guò)程，使引入的噪音降到聽(tīng)覺(jué)閾值之下?；镜默F(xiàn)象為信號(hào)中強(qiáng)音部分會(huì)掩蔽臨近弱音部分，理想的情況下，這樣的數(shù)據(jù)減少不會(huì)導(dǎo)致感覺(jué)到音質(zhì)的損失，這樣就引出“透明”音頻編碼或壓縮的概念。

這與簡(jiǎn)單的SNR測(cè)量有根本的不同，同時(shí)更為復(fù)雜，因?yàn)樗枰_再現(xiàn)特殊信號(hào)中相關(guān)的可聽(tīng)部分。換句話說(shuō)，雖然SNR是不錯(cuò)的確定編/解碼質(zhì)量的準(zhǔn)則，但它卻不合適用這個(gè)標(biāo)準(zhǔn)去判定能夠產(chǎn)生-140dB THD+N的DSP就一定比-130dB THD+N的好。因?yàn)樾睦?聲學(xué)壓縮設(shè)計(jì)是建立在人類聽(tīng)覺(jué)閾值曲線基礎(chǔ)之上，上面的結(jié)論也就變得非常明顯，在這個(gè)閾值之下的信號(hào)不能被聽(tīng)見(jiàn)。

關(guān)于獲得“透明”音頻壓縮的問(wèn)題

實(shí)際的編/解碼輸出質(zhì)量的決定因素有如下幾點(diǎn)：

1．使用的算法

2．壓縮的比特率

3．分析輸入信號(hào)中用到的心理-聲學(xué)模型

4．瞬時(shí)分析架構(gòu)與轉(zhuǎn)換濾波器組

5．位分配策略

在實(shí)現(xiàn)編碼/解碼過(guò)程中，上述的因素均與算法精度無(wú)關(guān)，即使是使用無(wú)窮精度實(shí)現(xiàn)，上面的因素同樣對(duì)音頻質(zhì)量起決定性影響。

基于上面討論的有損壓縮系統(tǒng)，可以得出下面的結(jié)論：傳統(tǒng)的SNR、THD+N、瞬態(tài)誤差和相位誤差等測(cè)量方法，在比較不同實(shí)現(xiàn)方案的性能時(shí)都不再是最終的度量標(biāo)準(zhǔn)，只能在鑒定和校驗(yàn)系統(tǒng)性能時(shí)作為參考，不能用來(lái)對(duì)與心理-聲學(xué)驗(yàn)證的約120dB性能的閾值有細(xì)微的差別的系統(tǒng)進(jìn)行評(píng)級(jí)。

DSP增值建議

通常20位DSP已經(jīng)能滿足系統(tǒng)，而從心理-聲學(xué)角度16位就已足夠，對(duì)于一個(gè)給定的壓縮方案而言，一旦解碼器達(dá)到了一定的性能，單純?cè)黾覦SP的精度就不會(huì)進(jìn)一步的提高系統(tǒng)性能。實(shí)際的DSP增值解決方案就變成了對(duì)解碼音頻程序的后期處理和它所提供的系統(tǒng)級(jí)特性。事實(shí)上，最終消費(fèi)者還需要產(chǎn)品具有更多的附加特性，例如自動(dòng)監(jiān)測(cè)、錯(cuò)誤屏蔽和擁有提供虛擬音效的后期處理器等。

單從市場(chǎng)反映來(lái)看，采用32位DSP在概念上還是很成功，因?yàn)閺臄?shù)字上可以直觀感覺(jué)到性能的進(jìn)步。實(shí)際上，從整體性能和更多功能上來(lái)考慮是一種明顯的誤解，這種誤解就相當(dāng)于對(duì)PC機(jī)只比較CPU的主頻，而不考慮系統(tǒng)的整體性能一樣。

32位的DSP并不能真正有助于提高系統(tǒng)最終性能，它需要更大的內(nèi)存(比24位DSP多出大約33%)。同時(shí)，因?yàn)?2×32MAC比24×24MAC慢，一個(gè)32位DSP核將始終比相應(yīng)的24位核的解碼器慢。就信噪比而言，實(shí)際應(yīng)用效果證明，通過(guò)優(yōu)化處理，24位DSP可以得到和32位DSP相同(甚至更高)的性能。

需要注意的是，上面討論僅僅基于基本的解碼器，32位DSP在后期處理上仍然存在某些優(yōu)勢(shì)。因此，如果前端使用高度優(yōu)化的24位DSP解碼引擎，后端處理器為一個(gè)32位DSP，這樣一個(gè)優(yōu)化的設(shè)計(jì)結(jié)合了兩者的優(yōu)勢(shì)是一種不錯(cuò)的選擇，目前已經(jīng)有這樣的系統(tǒng)級(jí)芯片方案提供。

本文小結(jié)

在現(xiàn)實(shí)世界中利用心理-聲學(xué)來(lái)壓縮編碼時(shí)，SNR測(cè)試方法在比較系統(tǒng)性能上并不是合適的標(biāo)準(zhǔn)。而ITU PEAQ測(cè)試平臺(tái)方法則更適合測(cè)量可感知音頻的質(zhì)量。此外，當(dāng)我們?cè)谠u(píng)估一個(gè)DSP解決方案時(shí)，還需要考慮到系統(tǒng)的錯(cuò)誤屏蔽、自動(dòng)檢測(cè)和后期處理的特性，以及系統(tǒng)的啟動(dòng)響應(yīng)時(shí)間和批量延遲等。

影響AV接收系統(tǒng)解碼器質(zhì)量的因素并不全是DSP精度的問(wèn)題。通過(guò)較強(qiáng)的DSP算法技巧和優(yōu)化，能使一個(gè)24位精度的性能超越32位DSP。然而，隨著制造工藝的不斷提高，32位的DSP將最終解決上述問(wèn)題，使32位的解碼器更具成本和技術(shù)上的比較優(yōu)勢(shì)。

新聞中心

DSP在音頻解碼中基于心理-聲學(xué)的性能分析

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)