音頻編碼和解碼原理

作者：時間：2010-10-08 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文引用地址：http://www.butianyuan.cn/article/166504.htm

數(shù)字音頻信號首先進入數(shù)字濾波器組，它被分成等帶寬的32個子頻帶，可由數(shù)字濾波器輸出32個子帶數(shù)據(jù)信號。這種處理方法與圖像編碼信號進行DCT變換的作用相似，但不是像圖像信號那樣分為64種余弦頻率信息，這里僅分成32個子帶，即將音頻數(shù)據(jù)流改為32種頻率的組合。聲音的分解力低于圖像，這種處理方法是可行的。然后，對32個子帶的伴音數(shù)據(jù)進行再量化，以便再壓縮數(shù)據(jù)量。對于各個子頻帶的量化步長不相同，量化步長是根據(jù)人耳的聽覺閾值和掩蔽效應(yīng)而確定的。經(jīng)過量化處理的已壓縮數(shù)據(jù)，保留了伴音信息的主體部分，而舍棄了聽覺效果影響較小的伴音信息。
進入編碼系統(tǒng)的輸入信號，分流部分信號送到并列的1024點快速傅利葉變換器(FFT)進行變換，它檢測輸入信號每一個瞬間取樣點在主頻譜分量頻域的分布的強度，經(jīng)變換的信號送到心理聲學(xué)模型控制單元。根據(jù)聽覺心理聲學(xué)測量統(tǒng)計結(jié)果，可以歸納出一個心理聲學(xué)控制對照表格，并按照此表格制成控制單元，而單元電路可以集中地反映出人耳的閾值特性和掩蔽特性。
經(jīng)過量化的32個子頻帶數(shù)據(jù)已經(jīng)被壓縮，還要加上比例因子、位分配信息等輔助信息，共同加到1位流格式化單元，編碼成為兩個層次的伴音編碼信號。它既含有32個子頻帶的伴音數(shù)碼，又帶有這些數(shù)碼所對應(yīng)的位分配數(shù)據(jù)和不同頻帶數(shù)據(jù)的強弱比例因子。待將來數(shù)據(jù)解碼時，可根據(jù)各子頻帶的數(shù)據(jù)恢復(fù)聲音信號，以及壓縮時碼位分配和強弱比例情況，在進行反量化時，參照壓縮時的程序進行還原。
可見，伴音的壓縮編碼和圖像處理一樣，也要經(jīng)過變換、量化、碼位壓縮等處理過程，它運用了許多數(shù)學(xué)模型和心理聽覺測量的統(tǒng)計數(shù)據(jù)，對32個子頻帶和各個層次信號的處理也各有不相同的取樣速率。實際的心理聽覺模型和適時處理控制過程十分復(fù)雜。這些算法細節(jié)都已按硬件方式被固化在解碼芯片中，這些內(nèi)容不能再改變。

3、伴音與圖像的同步
圖像和聲音信號的壓縮方法有許多不同，圖像數(shù)據(jù)量又遠遠大于聲音數(shù)據(jù)量，兩者傳送的數(shù)據(jù)碼率大不相同。每傳送14～15個視頻數(shù)據(jù)包才傳送1個音頻數(shù)據(jù)包，而播放聲音和圖像的內(nèi)容又必須作到良好同步，否則將無法保證視聽統(tǒng)一的效果。
為了作到聲圖同步，MPEG-1采用了獨立的系統(tǒng)時鐘(簡稱為STC)作為編碼的參照基準，并將圖像和聲音的數(shù)據(jù)分為許多播放單元。例如，將圖像分為若干幀，將聲音分為若干段落。在數(shù)據(jù)編碼時，在每個播放單元前面加置一個展示時標(biāo)(PTS)，或者加置一個解碼時標(biāo)(DTS)。當(dāng)這些時標(biāo)出現(xiàn)時，表示前一個播放單元已經(jīng)結(jié)束，一個新的圖像和聲音播放單元立即開始。在播放相互對應(yīng)的同一圖像單元和聲音單元時，可實現(xiàn)互相同步。
為了使整個系統(tǒng)在時鐘在編碼和重放時，聲圖有共同的時鐘基準，又引入系統(tǒng)參考時鐘SCR的概念。系統(tǒng)參考時鐘是一個實時時鐘，其數(shù)值代表聲圖的實際播放時間，用它作為參照基準，以保證聲圖信號的傳輸時間保持一致。實時時鐘SCR必須與生活中的真實時間一致，要求它的準確度很高，否則可能發(fā)生聲音和圖像都播快或播慢的現(xiàn)象。為了使SCR時間基準穩(wěn)定、準確，MPEG-1采用了系統(tǒng)時鐘頻率SCF，以它作為定時信息的參照基礎(chǔ)。SCF系統(tǒng)時鐘的頻率是90KHz，頻率誤差為90KHz±4.5KHz。聲圖信號以SCF為統(tǒng)一的基準，其它定時信號SCR、PTS、DTS也是以它為基礎(chǔ)。

三、其它MPEG標(biāo)準的音頻編碼器

1、MPEG-2音頻編碼方框圖
MPEG-1是處理雙聲道立體聲信號，而MPEG-2是處理5聲道（或7聲道）環(huán)繞立體聲信號，它的重放效果更加逼真。
圖2.3.3是MPEG-2音頻編碼方框圖。它輸入互相獨立的5聲道音頻信號，有前置左、右主聲道(L、R)，前置中央聲道(C)，還有后置左、右環(huán)繞聲道(LS、RS)。各聲源經(jīng)過模－數(shù)轉(zhuǎn)化后，首先進入子帶濾波器，每一聲道都要分割為32個子頻帶，各子帶的帶寬均為750Hz。為了兼容MPEG-1、普通雙聲道立體聲和環(huán)繞模擬立體聲等編碼方式，原來按MPEG-1編碼的立體聲道能夠擴展為多聲道，應(yīng)當(dāng)包括所有5聲道的信息，為此設(shè)置了矩陣變換電路。該電路可生成兼容的傳統(tǒng)立體聲信號LO、RO，還有經(jīng)過“加重”的左、中、右、左環(huán)繞、右環(huán)繞聲音信號(共5路)。對5路環(huán)繞立體聲信號進行“加重”處理的原因：當(dāng)計算兼容的立體聲信號(LO、RO)時，為了防止過載,已在編碼前對所有信號進行了衰減，經(jīng)加重處理可以去失真；另外，矩陣轉(zhuǎn)變中也包含了衰減因子和類似相移的處理。
編碼器原始信號是5路，輸入通道是5個，經(jīng)過矩陣轉(zhuǎn)化處理后產(chǎn)生了7種聲音信號。應(yīng)當(dāng)設(shè)置通道選擇電路，它能夠根據(jù)需要，對7路信號進行合理的選擇處理。該處理過程決定于解矩陣的過程，以及傳輸通道的分配信息；合理的通道選擇，有利于減弱人為噪聲加工而引起的噪聲干擾。此外，還設(shè)置了多聲道預(yù)測計算電路，用于減少各通道間冗余度。在進行多聲道預(yù)測時，在傳輸通道內(nèi)的兼容信號LO、RO，可由MPEG-1數(shù)據(jù)計算出來。根據(jù)人耳生理聲學(xué)基

圖2.3.3 MPEG-2音頻編碼方框圖

礎(chǔ)，后級設(shè)置了動態(tài)串話電路，可在給定比特的情況下提高聲音質(zhì)量，或在要求聲音質(zhì)量的前提下降低比特率。但設(shè)置該電路增加了MPEG-2解碼器的復(fù)雜程度。
經(jīng)過編碼器產(chǎn)生了多種信息，主要有編碼取樣值，比例因子，比特分配數(shù)據(jù)，動態(tài)串話模式，多聲道預(yù)測信息，通道預(yù)測選擇信號等，諸信息傳遞給復(fù)接成幀模塊電路，最后以MPEG-2比特流形式輸出壓縮編碼信號。
MPEG-2解碼器基本上是編碼器的逆過程，其電路結(jié)構(gòu)簡單一些，運算量小一些。解碼器的解碼轉(zhuǎn)換矩陣可輸出5路信號，再經(jīng)過32分頻子帶濾波器處理，可輸出LS、L、C、R、RS信號；另外，經(jīng)過量化、SCF和子帶濾波器處理后，還可以取得前置立體聲LO、RO，共計可輸出7路音頻信號。

新聞中心

音頻編碼和解碼原理

評論

相關(guān)推薦

技術(shù)專區(qū)