基于TMS320C6416的DRM音頻解碼實(shí)現(xiàn)及優(yōu)化

作者：時(shí)間：2011-07-22 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

摘要： 給出了數(shù)字廣播調(diào)幅系統(tǒng)DRM的AAC音頻解碼器在定點(diǎn)DSP芯片TMS320C6416上的實(shí)現(xiàn)方案，從多方面對(duì)AAC音頻解碼器的關(guān)鍵技術(shù)進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明，算法的運(yùn)行速度提高了10倍，存儲(chǔ)器占用情況有較大改善，為DRM廣播信號(hào)解碼系統(tǒng)執(zhí)行音頻解碼之前的解調(diào)和信道解碼程序節(jié)省了很大的周期資源和處理空間。
關(guān)鍵詞： DRM；AAC；音頻解碼；TMS320C6416

數(shù)字廣播調(diào)幅系統(tǒng)DRM(Digital Radio Mondiale)采用先進(jìn)音頻編碼AAC(Advanced Audio Coding)作為其主要的信源編碼方式[1]，在與模擬調(diào)幅廣播同樣的帶寬(9 kHz或10 kHz)下實(shí)現(xiàn)了調(diào)頻的音質(zhì)。DRM不僅解決了模擬調(diào)幅廣播抗干擾能力差等缺點(diǎn)，而且在音頻業(yè)務(wù)的基礎(chǔ)上又增加了文本、圖像、數(shù)據(jù)等附加業(yè)務(wù)，豐富了調(diào)幅廣播的內(nèi)容，大大提高了調(diào)幅廣播的市場(chǎng)競(jìng)爭(zhēng)力，成為調(diào)幅廣播發(fā)展的必然趨勢(shì)。

信源編碼是DRM系統(tǒng)的關(guān)鍵技術(shù)，其壓縮節(jié)目音頻源信號(hào)，只需較少的傳輸帶寬就可保證接收端的重建音頻信號(hào)有較好的音質(zhì)。DRM音頻解碼器的實(shí)現(xiàn)和優(yōu)化決定了系統(tǒng)能否正確實(shí)現(xiàn)音頻解碼，并完成音頻的實(shí)時(shí)播放，使用戶得到良好音質(zhì)。本文中AAC音頻解碼程序在DSP硬件平臺(tái)上運(yùn)行，由于硬件平臺(tái)性能有限，要求音解碼器不僅要能確保音頻質(zhì)量，還要不能占用DSP系統(tǒng)太多的資源。因此研究DRM音頻解碼器在高性能DSP平臺(tái)上的實(shí)現(xiàn)及其優(yōu)化具有非常重要的現(xiàn)實(shí)意義。

1 DRM音頻解碼流程
通用MPEG-4 AAC音頻編解碼器的原理和實(shí)現(xiàn)技術(shù)已經(jīng)很成熟，不再詳述。DRM系統(tǒng)的信源編碼方案中所采用的頻帶恢復(fù)技術(shù)(SBR)提供了類似于MPEG-4 AAC中感知噪聲整形(PNS)模塊的功能，故DRM系統(tǒng)采用的音頻編碼方案不包括PNS模塊，同時(shí)也去除了長(zhǎng)期預(yù)測(cè)(LTP)、采樣率可分級(jí)(SSR)等復(fù)雜的模塊，降低了算法復(fù)雜度，對(duì)處理器的處理能力要求也相對(duì)較低，適合應(yīng)用于嵌入式開發(fā)平臺(tái)上。AAC的采樣率有12 kHz和24 kHz兩種，5個(gè)(12 kHz采樣頻率)或10個(gè)(24 kHz采樣頻率)音頻幀組成一個(gè)持續(xù)時(shí)間固定為400 ms的音頻超級(jí)幀。本文優(yōu)化之前首先在PC機(jī)的VC++6.0環(huán)境下實(shí)現(xiàn)了DRM廣播信號(hào)的正確解碼和實(shí)時(shí)播放，測(cè)試信號(hào)為單聲道、48 kHz采樣，采用AAC音頻編碼的wav格式的DRM廣播信號(hào)源，其中AAC的采樣率為24 kHz，即一個(gè)音頻超幀包含10個(gè)子幀。在VC++6.0環(huán)境下運(yùn)行整個(gè)工程，經(jīng)同步、解調(diào)和信道解碼后獲得DRM信號(hào)源中的AAC音頻編碼數(shù)據(jù)，在每次AAC子幀解碼前將每子幀數(shù)據(jù)輸出到一個(gè)文件。在DSP上測(cè)試音頻解碼程序時(shí)，可以直接提取AAC數(shù)據(jù)進(jìn)行解碼，解碼流程如圖 1所示。解碼過(guò)程如下：

(1)對(duì)傳來(lái)的AAC子幀數(shù)據(jù)進(jìn)行比特流分解，根據(jù)DRM系統(tǒng)中音頻子幀結(jié)構(gòu)獲取語(yǔ)法單元、霍夫曼碼字等各部分的數(shù)據(jù)。
(2)進(jìn)行霍夫曼解碼，這部分用到了一系列的霍夫曼碼書進(jìn)行查詢解碼。頻域數(shù)據(jù)和比例因子的獲得都在這一步。該過(guò)程需要在將順序打亂的碼字重新組合在一起的同時(shí)，進(jìn)行霍夫曼解碼，并將解碼之后的數(shù)據(jù)放置到正確的位置上，準(zhǔn)備進(jìn)行下一步的反量化。
(3)對(duì)解碼后的頻域數(shù)據(jù)進(jìn)行反量化。
(4)將反量化的結(jié)果乘以(2)中生成的比例因子。
(5)濾波器組部分。這部分在解碼時(shí)采用了逆改進(jìn)離散余弦變換(IMDCT)[2]，還包括一個(gè)加窗的過(guò)程和疊加的過(guò)程。功能模塊的輸出為信號(hào)的時(shí)域值。

2 TMS320C6416的DSP開發(fā)平臺(tái)
TMS320C6416(簡(jiǎn)稱C6416)[3]是一種高性能的32 bit定點(diǎn)DSP芯片。本文使用的C6416的工作頻率達(dá)到600 MHz。其特點(diǎn)包括：具有8個(gè)功能單元的高級(jí)超長(zhǎng)指令體系結(jié)構(gòu)的CPU；所有指令有條件執(zhí)行；支持8/16/32 bit可變長(zhǎng)度數(shù)據(jù)訪問(wèn)；支持常用算術(shù)運(yùn)算的飽和與歸一化操作；兩級(jí)高速緩存(Cache)存儲(chǔ)器結(jié)構(gòu)及豐富的片內(nèi)外設(shè)，如增強(qiáng)型直接存儲(chǔ)器訪問(wèn)EDMA控制器、多通道緩沖串口McBSP等。C6416開發(fā)板上除C6416 DSP芯片外，還帶有外擴(kuò)的512 K×8 bit的FLASH。
開發(fā)環(huán)境采用DSP集成開發(fā)環(huán)境CCS(Code Composer Studio)，它集成了代碼編輯、編譯、工程管理、代碼生成與調(diào)試、代碼性能剖析、數(shù)據(jù)查看、繪制數(shù)據(jù)圖像、DSP/BIOS參數(shù)設(shè)置，以及提供各種優(yōu)化建議等工具模塊。

3 音頻解碼程序的優(yōu)化
本文優(yōu)化之前先在PC機(jī)VC++6.0環(huán)境下實(shí)現(xiàn)了DRM廣播信號(hào)的正確解碼和實(shí)時(shí)播放，但移植到DSP平臺(tái)之后不能實(shí)時(shí)播放。本文單獨(dú)將音頻解碼部分的程序移植到DSP開發(fā)平臺(tái)CCS3.1開發(fā)環(huán)境中，測(cè)試數(shù)據(jù)為前文中存儲(chǔ)的AAC解碼前每子幀的數(shù)據(jù)。優(yōu)化前，不帶有SBR解碼的情況下，音頻解碼程序中一個(gè)音頻超幀里每個(gè)子幀解碼所花費(fèi)的周期數(shù)，即運(yùn)行效率如下：
子幀1：1 901 300 子幀2：3 667 994
子幀3：3 469 783 子幀4：3 397 752
子幀5：1 745 753 子幀6：3 416 357
子幀7：3 439 464 子幀8：3 331 484
子幀9：1 721 339 子幀10：1 764 605
(共計(jì)27 855 831周期)
在DSP上單獨(dú)測(cè)試音頻解碼的效率，計(jì)算所花費(fèi)的時(shí)鐘周期數(shù)的語(yǔ)句如下：
st=clock( ); aac_frame_decode(, , , ); end=clock(); printf("clock cost %dn",end - st);
其中aac_frame_decode( )是信道解碼與音頻解碼的接口函數(shù)，該函數(shù)調(diào)用AAC解碼程序，在此，其參數(shù)與返回值已省略。在CCS環(huán)境下，運(yùn)行程序前點(diǎn)擊Profile剖析菜單下Clock選項(xiàng)中的Enable，就打開了CCS的程序運(yùn)行周期計(jì)數(shù)功能。兩次clock函數(shù)調(diào)用返回值之差就是解碼函數(shù)花費(fèi)的周期數(shù)。表1是利用CCS3.1中Profile工具分別計(jì)算的程序優(yōu)化前后一個(gè)超幀解碼過(guò)程中每個(gè)函數(shù)所花費(fèi)的周期數(shù)。

優(yōu)化的本質(zhì)是提高程序的運(yùn)行效率，同時(shí)保持程序原有功能準(zhǔn)確無(wú)誤。本文針對(duì)本課題中的具體問(wèn)題，提出以下對(duì)應(yīng)的優(yōu)化措施：
(1)去除原程序中用不到的函數(shù)。最初的音頻解碼程序是針對(duì)所有MPEG-4 AAC標(biāo)準(zhǔn)使用的，其中包含了很多功能模塊，如MP4解碼、PNS解碼、LTP解碼等。這些功能在DRM系統(tǒng)的音頻編碼標(biāo)準(zhǔn)AAC中是用不到的，所以應(yīng)當(dāng)將它們?nèi)コ?，否則其生成的代碼不僅無(wú)用，而且會(huì)占用大量存儲(chǔ)空間。在CCS3.1中點(diǎn)擊Profile菜單下的Analysis Toolkit選項(xiàng)中的Code coverage and Exclusive Profiler，按照提示運(yùn)行程序，可以得到一個(gè)Excel文件。該文件將代碼覆蓋程度、每個(gè)函數(shù)調(diào)用次數(shù)以及執(zhí)行函數(shù)CPU所花費(fèi)的周期數(shù)等展示出來(lái)，從而可以方便地找到每個(gè)文件中一直沒有運(yùn)行的函數(shù)，去除這些函數(shù)可節(jié)省大量存儲(chǔ)空間且保證程序功能無(wú)誤。
(2)循環(huán)體優(yōu)化。原始的音頻解碼程序已經(jīng)采用了一些常用的算法級(jí)別的優(yōu)化，如IMDCT的快速算法[4]、霍夫曼解碼的查表快速算法等，但仍沒有達(dá)到最理想的速度。主要原因是for循環(huán)和定點(diǎn)化的問(wèn)題。在AAC解碼器中，循環(huán)體幾乎占用了60％的資源，因此它的優(yōu)化非常重要。要想充分發(fā)揮C6416 DSP處理器的8個(gè)功能單元并行執(zhí)行指令的功能，需要讓編譯器盡可能多地生成由2條以上指令組成的超長(zhǎng)指令。C/C++編譯器可以對(duì)代碼進(jìn)行不同級(jí)別的優(yōu)化。高級(jí)優(yōu)化由專門的優(yōu)化器完成，與目標(biāo)DSP有關(guān)的低級(jí)優(yōu)化由代碼生成器完成。圖2是編譯器、優(yōu)化器和代碼生成器的執(zhí)行圖。

新聞中心

基于TMS320C6416的DRM音頻解碼實(shí)現(xiàn)及優(yōu)化

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)