基于TMS320DM642的MPEG4編碼器的設(shè)計(jì)與實(shí)現(xiàn)
1 引 言
近年來(lái),隨著網(wǎng)絡(luò)和多媒體技術(shù)的發(fā)展,視頻信息通信的重要性和需求急劇增長(zhǎng),而其中的關(guān)鍵就在于視頻壓縮編碼技術(shù)的應(yīng)用。文獻(xiàn)[1]曾提出了一種基于TMS320DM642 DSP的視頻編碼方案,實(shí)現(xiàn)了H.264算法。同H.264相比,MPEG4具有軟硬件開發(fā)成本低和更容易實(shí)現(xiàn)的優(yōu)勢(shì),是目前視頻編碼應(yīng)用的主流。本文提出了一種基于TMS320DM642 DSP的MPEG4視頻編碼器的實(shí)現(xiàn)方法,該方案可用于遠(yuǎn)程視頻監(jiān)控、視頻會(huì)議等諸多領(lǐng)域。
MPEG4是由國(guó)際運(yùn)動(dòng)圖像專家組(MPEG)開發(fā)制定的國(guó)際通用視頻壓縮編碼標(biāo)準(zhǔn),目前已經(jīng)發(fā)展成為可適應(yīng)不同傳輸帶寬、可用最少的數(shù)據(jù)來(lái)獲得最佳質(zhì)量圖像的高效壓縮算法和工具。MPEG采用了DCT、量化、熵編碼等算法,通過(guò)對(duì)形狀、運(yùn)動(dòng)、紋理等信息的分析,消除圖像數(shù)據(jù)在時(shí)間和空間上的相關(guān)性,具有高效壓縮性及普遍適用性等獨(dú)特優(yōu)勢(shì),為視頻信息高效存儲(chǔ)、傳輸提供了方便。
MPEG4為不同的應(yīng)用對(duì)應(yīng)的碼率、分辨率、質(zhì)量和服務(wù)定義了編碼器和碼流的不同框架和級(jí)別,其中的簡(jiǎn)單框架提供了對(duì)矩形視頻對(duì)象的編碼功能。本文所實(shí)現(xiàn)的就是MPEG4視頻編碼算法的簡(jiǎn)單框架。
2 MPEG4編碼器硬件平臺(tái)
實(shí)現(xiàn)MPEG4編碼器的硬件平臺(tái)以TMS320DM642DSP為核心,并配合以適當(dāng)?shù)耐獠看鎯?chǔ)器SDRAM,F(xiàn)LASH等外圍設(shè)備。
2.1 TMS320DM642特性
TMS320DM642是TI為多媒體應(yīng)用而開發(fā)的基于C64x內(nèi)核的高性能定點(diǎn)數(shù)字信號(hào)處理器,時(shí)鐘頻率600 MHz,最高處理能力可達(dá)4 800 MIPS。DM642具有C6000系列DSP的公共定點(diǎn)指令集,增加了多媒體擴(kuò)展指令,可以更加方便快速地執(zhí)行圖像處理中的算法。DM642的這些特點(diǎn),使其非常適合于視頻圖像處理,是實(shí)現(xiàn)MPEG4視頻編碼器的理想硬件平臺(tái)。
2.2 硬件系統(tǒng)結(jié)構(gòu)
編碼器的硬件平臺(tái)如圖1所示,圖中DM642作為整個(gè)系統(tǒng)的核心,對(duì)視頻數(shù)據(jù)進(jìn)行高速處理,完成MPEG4編碼算法;可編程視頻格式轉(zhuǎn)換電路將輸入的原始視頻數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)換成編碼器可接受的視頻格式的數(shù)字信號(hào);E2PROM和FLASH用來(lái)固化應(yīng)用程序和初始化參數(shù),SDRAM作為片外存儲(chǔ)器,在編碼過(guò)程中存儲(chǔ)待處理的視頻數(shù)據(jù),以上三者通過(guò)EMIF總線與DM642連接;通過(guò)JTAG接口,利用CCS,可方便地實(shí)現(xiàn)系統(tǒng)軟硬件仿真與調(diào)試;實(shí)時(shí)時(shí)鐘為數(shù)字視頻提供實(shí)時(shí)時(shí)間基準(zhǔn)信息。
3 MPEG4編碼器的軟件實(shí)現(xiàn)和優(yōu)化
3.1 MPEG4的軟件實(shí)現(xiàn)
MPEG4是一個(gè)開放的框架標(biāo)準(zhǔn),并沒(méi)有規(guī)定具體的算法和程序,用戶可根據(jù)需要自行開發(fā)代碼,我們采用了XVID 1.1.0開放源碼來(lái)實(shí)現(xiàn)MPEG4編碼器。XVID代碼實(shí)現(xiàn)了MPEG4的簡(jiǎn)單框架算法,不需要形狀編碼,只對(duì)I-VOP和P-VOP進(jìn)行編碼。但XVID是針對(duì)PC機(jī)應(yīng)用而設(shè)計(jì)開發(fā)的,要將他移植到DSP中,必須對(duì)代碼進(jìn)行分析,結(jié)合DSP的指令結(jié)構(gòu)和特點(diǎn)進(jìn)行修改。
XVID代碼實(shí)現(xiàn)的MPEG4編碼器,以原始視頻數(shù)據(jù)中的每一幀作為一個(gè)視頻對(duì)象,首先判斷是I幀還是P幀,I幀需要對(duì)整幀圖像數(shù)據(jù)進(jìn)行編碼存儲(chǔ),P幀則進(jìn)行運(yùn)動(dòng)估計(jì)和補(bǔ)償,只編碼當(dāng)前幀與參考幀之間的圖像殘差和運(yùn)動(dòng)矢量。每幀數(shù)據(jù)都被分為1616宏塊,每個(gè)宏塊又分為88子塊,在宏塊和子塊的基礎(chǔ)上進(jìn)行DCT、量化、VLC編碼?;诓桓叩膱D像質(zhì)量需求,我們減化了XVID的某些功能,如GMC(全局運(yùn)動(dòng)補(bǔ)償)、RVLC等,減少了代碼運(yùn)算量,降低了復(fù)雜度。
3.2 代碼優(yōu)化
為提高代碼執(zhí)行效率,必須結(jié)合DSP的特點(diǎn)對(duì)代碼進(jìn)行優(yōu)化,優(yōu)化主要分為3個(gè)層次:
3.2.1 項(xiàng)目級(jí)優(yōu)化
TI提供了功能強(qiáng)大的集成開發(fā)環(huán)境CCS,包含了各種高效的編譯工具,在代碼編譯過(guò)程中,通過(guò)使用編譯器提供的編譯選項(xiàng)(如-o3和-pm等),編譯器可自動(dòng)改善代碼結(jié)構(gòu),減少代碼中指令的相關(guān)性,通過(guò)軟件流水等方法,提高指令并行性,改善循環(huán)性能,并可以優(yōu)化代碼的尺寸。
3.2.2 C語(yǔ)言程序級(jí)優(yōu)化
通過(guò)使用CCS中的profile工具,對(duì)C代碼進(jìn)行評(píng)估,找出運(yùn)算量最大的程序段,如DCT、量化、運(yùn)動(dòng)估計(jì)等,這部分代碼的優(yōu)化對(duì)提高編碼器性能有顯著影響,我們采用了以下C程序級(jí)優(yōu)化方法:
(1) 使用C6000 DSP特有的關(guān)鍵字和內(nèi)聯(lián)函數(shù)來(lái)改寫C代碼,如使用關(guān)鍵字restrict可消除數(shù)據(jù)間的相關(guān)性以提高代碼并行執(zhí)行能力,而使用內(nèi)聯(lián)函數(shù)(如_add2(),nassert())可快速優(yōu)化C代碼,作為直接映射為內(nèi)聯(lián)C6000指令的特殊函數(shù),可提高代碼在DSP中的執(zhí)行效率。
(2) 使用整型訪問(wèn)短型數(shù)據(jù),使用32位整型一次訪問(wèn)2個(gè)16位短型數(shù)據(jù),分別存放在32位寄存器的高、低16位字段,可減少對(duì)內(nèi)存的訪問(wèn)次數(shù),將程序讀取數(shù)據(jù)的效率提高一倍,再使用能同時(shí)對(duì)2個(gè)寄存器對(duì)應(yīng)高低16位進(jìn)行操作的內(nèi)聯(lián)函數(shù),如add2();mpy2()等,可大大提高代碼執(zhí)行效率。
(3) 采用循環(huán)展開的方法,將多循環(huán)變?yōu)樯傺h(huán)甚至單循環(huán),減少循環(huán)嵌套,消除冗余循環(huán),可以提高指令并行執(zhí)行的程度。
(4) DSP沒(méi)有專門的硬件除法運(yùn)算單元,除法都用連續(xù)減法實(shí)現(xiàn),運(yùn)算量比較大,所以要盡量減少除法運(yùn)算,不能減少的除法用移位運(yùn)算來(lái)實(shí)現(xiàn),可減少運(yùn)算耗時(shí)。
(5)使用TI圖像庫(kù)函數(shù)。TI提供了功能強(qiáng)大的IM-AGE庫(kù)支持,包括了很多圖像處理常用函數(shù),如88子塊的DCT變換(IMG_fdct_88)、SAD計(jì)算(IMG_sad_88),這些函數(shù)都是優(yōu)化過(guò)的,代碼效率很高,可直接應(yīng)用到程序中。
3.2.3 匯編程序級(jí)優(yōu)化
線性匯編語(yǔ)言是C6000系列DSP所特有的一種編程語(yǔ)言,類似匯編,但不需要給出指令使用的功能單元、寄存器、并行性等細(xì)節(jié)信息,匯編優(yōu)化器可根據(jù)代碼情況自動(dòng)確定。我們將代碼中運(yùn)算量大、調(diào)用頻率高的關(guān)鍵部分用線性匯編進(jìn)行了改寫,如量化、DCT、SAD等模塊,進(jìn)一步優(yōu)化了循環(huán)迭代、提高了指令的并行性效果。表2給出了改寫前后幾個(gè)函數(shù)模塊程序?qū)?幀foreman.qcif測(cè)試序列編碼時(shí)消耗的時(shí)鐘周期數(shù)對(duì)比。
3.3 存儲(chǔ)空間的配置
DSP的片上存儲(chǔ)空間有限,編碼器要處理的大量視頻數(shù)據(jù)(包括當(dāng)前幀和參考幀等圖像)必須放在片外,而CPU訪問(wèn)片外的速度要比訪問(wèn)片內(nèi)慢很多。利用DM642的EDMA功能,CPU對(duì)前一幀數(shù)據(jù)編碼的同時(shí),通過(guò)ED-MA通道提前將片外的數(shù)據(jù)搬移到片上內(nèi)存,二者并行工作,提高了數(shù)據(jù)由片外傳輸至片內(nèi)的效率,可減少CPU等待時(shí)間。
3.4 實(shí)驗(yàn)結(jié)果
使用編碼器對(duì)標(biāo)準(zhǔn)qcif格式(176144)測(cè)試序列進(jìn)行編碼來(lái)測(cè)試編碼器性能,其中news序列300幀,suzie序列150幀,foreman序列400幀,通過(guò)TI的集成開發(fā)環(huán)境CCS 2.0進(jìn)行硬件仿真實(shí)驗(yàn),在設(shè)定碼率為100 b/s的條件下,結(jié)果如表3所示。
通過(guò)分析測(cè)試序列編碼結(jié)果,編碼器的編碼速率達(dá)到25 fps以上,可以滿足實(shí)時(shí)編碼的要求。在傳輸碼率降低的情況下,編碼速率還可以進(jìn)一步提高。從編碼結(jié)果可以發(fā)現(xiàn),不同測(cè)試序列編碼前后的壓縮比不同,這是由于測(cè)試序列圖像的運(yùn)動(dòng)情況、背景變換造成的,如suzie序列背景單一,運(yùn)動(dòng)緩和,壓縮比較高,而news序列由于背景不斷變換,壓縮比就相對(duì)較低。通過(guò)對(duì)比編碼前和編碼后解碼得到的圖像,畫面無(wú)失真現(xiàn)象,圖像質(zhì)量并沒(méi)有明顯下降。
4 結(jié) 語(yǔ)
本文探討了MPEG4編碼器在DM642上的實(shí)現(xiàn)方案和優(yōu)化的方法,實(shí)現(xiàn)了MPEG4編碼的簡(jiǎn)單框架算法。實(shí)驗(yàn)結(jié)果表明,本文所提出的方案具有較高的易實(shí)現(xiàn)性和實(shí)用性,增加和改進(jìn)的代碼優(yōu)化方法是有效的,性能測(cè)試獲得了滿意的效果。在此基礎(chǔ)上,我們還可進(jìn)一步對(duì)實(shí)現(xiàn)MPEG4高級(jí)框架和代碼優(yōu)化方法的改進(jìn),進(jìn)行更深入地研究,以滿足更高的應(yīng)用要求。
評(píng)論