音頻編碼和解碼原理
每張CD光盤重放雙聲道立體聲信號(hào)可達(dá)74分鐘。VCD視盤機(jī)要同時(shí)重放聲音和圖像,圖像信號(hào)數(shù)據(jù)需要壓縮,其伴音信號(hào)數(shù)據(jù)也要壓縮,否則伴音信號(hào)難于存儲(chǔ)到VCD光盤中。
一、伴音壓縮編碼原理
伴音信號(hào)的結(jié)構(gòu)較圖像信號(hào)簡(jiǎn)單一些。伴音信號(hào)的壓縮方法與圖像信號(hào)壓縮技術(shù)有相似性,也要從伴音信號(hào)中剔除冗余信息。人耳朵對(duì)音頻信號(hào)的聽(tīng)覺(jué)靈敏度有其其規(guī)律性,對(duì)于不同頻段或不同聲壓級(jí)的伴音有其特殊的敏感特性。在伴音數(shù)據(jù)壓縮過(guò)程中,主要應(yīng)用了聽(tīng)覺(jué)閾值及掩蔽效應(yīng)等聽(tīng)覺(jué)心理特性。
1、閾值和掩蔽效應(yīng)
(1) 閾值特性
人耳朵對(duì)不同頻率的聲音具有不同的聽(tīng)覺(jué)靈敏度,對(duì)低頻段(例如100Hz以下)和超高頻段(例如16KHZ以上)的聽(tīng)覺(jué)靈敏度較低,而在1K-5KHZ的中音頻段時(shí),聽(tīng)覺(jué)靈敏度明顯提高。通常,將這種現(xiàn)象稱為人耳的閾值特性。若將這種聽(tīng)覺(jué)特性用曲線表示出來(lái),就稱為人耳的閾值特性曲線,閾值特性曲線反映該特性的數(shù)值界限。將曲線界限以下的聲音舍棄掉,對(duì)人耳的實(shí)際聽(tīng)音效果沒(méi)有影響,這些聲音屬于冗余信息。
在伴音壓縮編碼過(guò)程中,應(yīng)當(dāng)將閾值曲線以上的可聽(tīng)頻段的聲音信號(hào)保留住,它是可聽(tīng)頻段的主要成分,而那些聽(tīng)覺(jué)不靈敏的頻段信號(hào)不易被察覺(jué)。應(yīng)當(dāng)保留強(qiáng)大的信號(hào),忽略舍棄弱小的信號(hào)。經(jīng)過(guò)這樣處理的聲音,人耳在聽(tīng)覺(jué)上幾乎察覺(jué)不到其失真。在實(shí)際伴音壓縮編碼過(guò)程中,也要對(duì)不同頻段的聲音數(shù)據(jù)進(jìn)行量化處理。可對(duì)人耳不敏感頻段采用較粗的量化步長(zhǎng)進(jìn)行量化,可舍棄一些次要信息;而對(duì)人耳敏感頻段則采用較細(xì)小的量化步長(zhǎng),使用較多的碼位來(lái)傳送。
(2)掩蔽效應(yīng)
掩蔽效應(yīng)是人耳的另一個(gè)重要生理特征。如果在一段較窄的頻段上存在兩種聲音信號(hào),當(dāng)一個(gè)強(qiáng)度大于另一個(gè)時(shí),則人耳的聽(tīng)覺(jué)閾值將提高,人耳朵可以聽(tīng)到大音量的聲音信號(hào),而其附近頻率小音量的聲音信號(hào)卻聽(tīng)不到,好像是小音量信號(hào)被大音量信號(hào)掩蔽掉了。由于其它聲音信號(hào)存在而聽(tīng)不到本聲音存在的現(xiàn)象,稱為掩蔽效應(yīng)。
根據(jù)人耳的掩蔽特性,可將大音量附近的小音量信號(hào)舍棄掉,對(duì)實(shí)際聽(tīng)音效果不會(huì)發(fā)生影響。既使保留這些小音量信號(hào),人耳也聽(tīng)不到它們的存在,它屬于伴音信號(hào)中的冗余信息。舍棄掉這些信號(hào),可以進(jìn)一步壓縮伴音數(shù)據(jù)總量。
經(jīng)仔細(xì)觀察,掩蔽效應(yīng)分為兩大類,一類是同時(shí)掩蔽效應(yīng),另一類是短時(shí)掩蔽效應(yīng)。其中,同時(shí)掩蔽效應(yīng)是指同時(shí)存在一個(gè)弱信號(hào)和一個(gè)強(qiáng)信號(hào),兩者頻率接近,強(qiáng)信號(hào)將提高弱信號(hào)的聽(tīng)閾值,將弱信號(hào)的聽(tīng)閾值提高到一定程度時(shí),可使人耳聽(tīng)不到弱信號(hào)。例如,同時(shí)出現(xiàn)A、B兩聲,若A聲的聽(tīng)覺(jué)閾值為50dB,由于存在另一個(gè)不同頻率的B聲,將使A聲的閾值提高到64~68dB,例如取68dB,那么數(shù)值(68~50)dB=18dB,該值稱為掩蔽量。將強(qiáng)大的B聲稱為掩蔽聲,而較弱的A聲稱為被掩蔽聲。上述掩蔽現(xiàn)象說(shuō)明,若僅有A聲時(shí),其聲壓級(jí)50dB以上的聲音可以傳送出去,而50dB以下的聲音將聽(tīng)不到;若同時(shí)出現(xiàn)B聲,B聲具有同時(shí)掩蔽效應(yīng),使得A聲在聲壓級(jí)68dB以下的聲音也聽(tīng)不到了,即50~68dB之間的A聲人耳也聽(tīng)不到了,這些聲音不必傳送,即使傳送也聽(tīng)不到,只須傳送聲壓級(jí)68dB以上的聲音??傊?,為了提高一個(gè)聲音的閾值,可以同時(shí)設(shè)置另一個(gè)聲音,使用這種辦法可以壓縮掉一部分聲音數(shù)據(jù)。在周圍十分安靜的環(huán)境下,人耳可以聽(tīng)到聲壓級(jí)很低的各種頻率聲音,但對(duì)低頻聲和高頻聲的掩蔽閾值較高,即聽(tīng)覺(jué)不靈敏。經(jīng)研究還發(fā)現(xiàn),掩蔽聲越強(qiáng),掩蔽作用越強(qiáng);當(dāng)掩蔽聲與被掩蔽聲的頻率相差越小,掩蔽效果越明顯,兩者頻率相等時(shí),掩蔽效果最佳;低頻聲(設(shè)為B)可有效地掩蔽高頻聲(設(shè)為A),而高頻聲(設(shè)為B)幾乎不能掩蔽低頻聲(設(shè)為A)。因而輸入信號(hào)時(shí),在受掩蔽的頻帶內(nèi)加入更大的噪聲時(shí),人耳也感覺(jué)不到與原始信號(hào)有所區(qū)別。上述的同時(shí)掩蔽效應(yīng),又稱為頻域掩蔽效應(yīng),它主要反映在頻域方面對(duì)掩蔽作用的影響。在聲音壓縮編碼中,更多地使用單頻聲音的掩蔽效應(yīng)。
如果A聲和B聲不同時(shí)出現(xiàn),也可發(fā)生掩蔽作用,稱它為短時(shí)掩蔽效應(yīng)。短時(shí)掩蔽又可分為兩種類型,作用仍可持續(xù)一段時(shí)間,即后向掩蔽和前向掩蔽。后向掩蔽是指掩蔽聲B消失后,其掩蔽作用仍可持續(xù)一段時(shí)間,一般可達(dá)0.5~2秒。掩蔽機(jī)理是人耳的存儲(chǔ)效應(yīng)所致。而前向掩蔽是指被掩蔽聲A出現(xiàn)一段時(shí)間后出現(xiàn)掩蔽聲B,只要A、B聲音隔不太大(一般在0.05~0.2秒以內(nèi)),B也可對(duì)A起掩蔽作用。掩蔽機(jī)理是A聲尚未被人耳感知接受時(shí),強(qiáng)大的B聲已來(lái)臨所致。在實(shí)踐中,后向掩蔽有較高的應(yīng)用價(jià)值。短時(shí)掩蔽效應(yīng)具有很強(qiáng)的時(shí)域結(jié)構(gòu)特性,故又稱為時(shí)域掩蔽效應(yīng)。在聲音壓縮編碼中,應(yīng)兼顧好人耳的頻域和時(shí)域兩種掩蔽效應(yīng)。
2、子帶編碼原理
(1)子帶編碼和解碼過(guò)程
所謂子帶編碼技術(shù),是將原始信號(hào)由時(shí)間域轉(zhuǎn)變?yōu)轭l率域,然后將其分割為若干個(gè)子頻帶,并對(duì)其分別進(jìn)行數(shù)字編碼的技術(shù)。它是利用帶通濾波器(BPF)組把原始信號(hào)分割為若干(例如m個(gè))子頻帶(簡(jiǎn)稱子帶)。
在接收端實(shí)現(xiàn)發(fā)送端的逆過(guò)程。輸入子帶編碼數(shù)據(jù)流,將各子帶信號(hào)分別送到相應(yīng)的數(shù)字解碼電路(共m個(gè))進(jìn)行數(shù)字解調(diào),經(jīng)過(guò)諸路低通濾波器(m路),并重新解調(diào),可把各子帶頻域恢復(fù)為當(dāng)初原始信號(hào)的分布狀態(tài)。最后,將各路子帶輸出信號(hào)送到同步相加器,經(jīng)過(guò)相加恢復(fù)為原始信號(hào),該恢復(fù)的信號(hào)與原始信號(hào)十分相似。
(2)子帶編碼的應(yīng)用
子帶編碼技術(shù)具有突出的優(yōu)點(diǎn)。首先,聲音頻譜各頻率分量的幅度值各不相同,若對(duì)不同子帶分配以合適的比例系數(shù),可以更合理地分別控制各子帶的量化電平數(shù)目和相應(yīng)的重建誤差,使碼率更精確地與各子帶的信號(hào)源特性相匹配。通常,在低頻基音附近,采用較大的比特?cái)?shù)目來(lái)表示取樣值,而在高頻段則可
評(píng)論