二維DCT編碼的DSP實(shí)現(xiàn)與優(yōu)化

作者：時間：2008-10-08 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

1 引言

　　現(xiàn)今的圖像編碼標(biāo)準(zhǔn)，一般采用紋理編碼方式對圖像進(jìn)行壓縮。這種方式極大的利用了圖像數(shù)據(jù)的空間相關(guān)性，使圖像數(shù)據(jù)的壓縮能夠達(dá)到很高的比率。它主要是利用數(shù)學(xué)變換的方法，使用極少量的離散信號來表示大量的時域連續(xù)信號[1]。常用的數(shù)學(xué)變換有很多種，比如離散傅立葉變換DFT、沃爾什變換、哈爾變換、斜變換、離散余弦變換DCT、離散正弦變換DST 、K-L變換等。其中，K-L變換為理想狀態(tài)下的最佳變換方法，但是，由于K-L變換沒有快速的變換算法，而DCT、DFT和DST都具有與K-L變換近似的良好性質(zhì)，尤其是當(dāng)一階馬爾可夫過程相鄰元素相關(guān)系數(shù)ρ逼近1時，DCT的近似性能遠(yuǎn)遠(yuǎn)優(yōu)于其它兩者，并且DCT變換有具體的快速算法。因此，圖像壓縮標(biāo)準(zhǔn)中，使用DCT變換來實(shí)現(xiàn)紋理編碼。

　　由于DCT變換在各種編碼標(biāo)準(zhǔn)中要被反復(fù)調(diào)用，因此，其代碼執(zhí)行效率對實(shí)時視頻壓縮起著至關(guān)重要的作用。實(shí)際應(yīng)用中，如何實(shí)現(xiàn)DCT變換的編碼及如何用硬件電路實(shí)現(xiàn)這種編碼變換是使用者關(guān)心的問題[。本文將利用DSP實(shí)現(xiàn)圖像的二維DCT變換并對其實(shí)行優(yōu)化。

　　2　DCT 變換

　　1974年Ahmed和Rao首先給出二維DCT 變換的數(shù)學(xué)表達(dá)式。該表達(dá)式適用于N點(diǎn)的DCT定義，但是，由于MPEG編碼一般是把視頻圖像幀或圖片分為場、片、宏塊的結(jié)構(gòu)，一幀圖像一般包括1－2場，每場包括若干片，每片包括若干宏塊，為了方便處理，把每個宏快分成8×8的子塊，即DCT處理的基本單元是8×8的子塊。因此，直接定義實(shí)用8點(diǎn)二維DCT變換：

　　其反變換為：

　　其中，i,j,u,v=0,1…7.

　　在（1）式中，把變換核分離可得兩次一維DCT變換：

　　因此，可以使用2次一維DCT變換來實(shí)現(xiàn)二維DCT變換。

　　在該定義被提出以后，很多優(yōu)秀的算法也被提了出來。如Chen,Lee的快速DCT算法等，Loeffler 在1989年提出的實(shí)用快速DCT算法共使用11次乘法和29次加法，該算法比起Chen的算法快而且不會發(fā)生Lee算法中的上溢問題，并且該算法被證明已經(jīng)達(dá)到了算法極限，是最優(yōu)秀的算法[4]。該算法如圖1，它把整個DCT過程分成了四級，第一級只有8次加法，第二級分為上下兩塊，上面是偶塊，下面是奇塊，偶塊有4次加法，奇塊有6次乘法和6次加法，第三級上面有5次加法3次乘法，下面有4次加法，第四級僅奇塊有2次乘法和2次加法。由圖1可見，奇數(shù)部分的第四級與第二級的計算構(gòu)成了連續(xù)的乘法，這種運(yùn)算實(shí)現(xiàn)的時間將增加實(shí)際的計算時間。故Loeffler 提出了無乘法串行的并行計算方法，該方法使用了12次乘法和32次加法，這在具有并行的MAC處理器的運(yùn)算中，并不增加實(shí)際的計算時間[1]。本文即采用這種DCT算法實(shí)現(xiàn)圖像的壓縮與處理。

　　3　DSP及其視頻指令

　　我們使用ADI的ADSP－BF533EZLITE評估板作為實(shí)驗(yàn)平臺，該評估板使用最大內(nèi)部時鐘600M的BF533處理器。處理器內(nèi)核包括二個40位的ALU,2個MAC,4個視頻ALU 及一個桶形移位寄存器。這種結(jié)構(gòu)使并行的視頻處理成為可能[5]。實(shí)驗(yàn)的軟件環(huán)境是VisualDSP4.5，該環(huán)境集成了高性能C/C++編譯器，并且具有比普通C/C++編譯器更高效的代碼優(yōu)化功能。

本文引用地址：http://www.butianyuan.cn/article/258041.htm

　　為了進(jìn)一步提高代碼效率，減少程序運(yùn)行時間和代碼空間，根據(jù)DSP硬件結(jié)構(gòu)及其指令的特點(diǎn)，對代碼進(jìn)行匯編優(yōu)化。本文主要注重以下三方面的優(yōu)化。

　　（1）利用高度并行的算術(shù)運(yùn)算單元和功能強(qiáng)大的地址運(yùn)算單元的相結(jié)合的特點(diǎn)，使用高密度指令代碼進(jìn)行代碼優(yōu)化。

　　Blackfin的高度并行結(jié)構(gòu)能在計算的同時進(jìn)行數(shù)據(jù)的存儲，如R5=R1+R5,R4=R1-R5 ||R1=W[P0+0x4]（X）;該指令使用兩個加法器同時計算出兩個32位的值R1＋R5和R1－R5并把該結(jié)果分別存入到R5和R4中，此時占用的是算術(shù)運(yùn)算單元的兩條內(nèi)部總線一個指令周期時間，由于外部總線空閑，可以把外部Cache中的數(shù)據(jù)送入到R1中。索引尋址和變址尋址相結(jié)合的模式使一個指令周期內(nèi)對不同塊的SDRAM訪問成為了可能，比如上面的指令可以加一條R4=[I2++]仍能正確執(zhí)行，而且不增加指令執(zhí)行時間，地址運(yùn)算單元DAG還包括兩個用于嵌套零開銷循環(huán)的循環(huán)計數(shù)器以及支持傳輸過程中飽和的限幅的硬件。這些特性使得Blackfin指令操作的效率很高。

　?。?）利用有利于DCT變換的操作數(shù)位尋址指令來優(yōu)化

　　Blackfin DSP指令集不僅支持一個周期最多3條指令的并發(fā)執(zhí)行，而且具有大量的像素操作和向量操作指令可以減少算法時間復(fù)雜度。位反轉(zhuǎn)指令對FFT、DCT、DFT等數(shù)學(xué)變換的操作數(shù)尋址提供了方便，在變換之前它把輸入數(shù)組數(shù)據(jù)通過位變換的方式變換到易于處理的排列方式，減少了操作數(shù)尋址的時間。

　?。?）利用IEEE 1180 舍入指令來支持DCT變換

　　Blackfin的加法指令支持預(yù)比例加減法，這種指令執(zhí)行的時間首先通過算術(shù)移位將兩個操作數(shù)變大或者變小后再相加減，這在DCT變換中為了保證運(yùn)算精度，一般會移位后相加減，這條指令大大加快了DCT變換的速度。

新聞中心

二維DCT編碼的DSP實(shí)現(xiàn)與優(yōu)化

評論

相關(guān)推薦

技術(shù)專區(qū)