基于ADSP-BF533處理器的去方塊濾波器的實(shí)現(xiàn)及優(yōu)化

作者：時(shí)間：2008-03-20 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　a) 算法中的函數(shù)邏輯關(guān)系復(fù)雜，判斷、跳轉(zhuǎn)、函數(shù)調(diào)用等情況特別多；

　　b) 最耗時(shí)的部分，即函數(shù)循環(huán)的內(nèi)部存在大量的重復(fù)計(jì)算，造成計(jì)算復(fù)雜度劇增；

　　c) 算法中用到的不少數(shù)據(jù)，例如運(yùn)動(dòng)矢量、圖像的亮度和色度數(shù)據(jù)等存放在速度較慢的片外SDRAM中，但在濾波過(guò)程中的頻繁調(diào)用，使數(shù)據(jù)搬運(yùn)時(shí)間劇增。

　　針對(duì)耗時(shí)的原因，對(duì)算法進(jìn)行了以下改進(jìn)：

　　3.2.1 將原程序中復(fù)雜的函數(shù)及循環(huán)簡(jiǎn)單化

　　指令長(zhǎng)度和運(yùn)算速度是相互制約的，往往將代碼通過(guò)條件判斷可以進(jìn)行高度精簡(jiǎn)，但由于增加了機(jī)器的判斷工作量而使得速度變慢；反之，將代碼中的判斷去除，程序進(jìn)行展開(kāi)，往往可以減少耗費(fèi)的指令周期，但代碼長(zhǎng)度會(huì)增加。JM8.6中的去方塊濾波代碼較短，將其中的函數(shù)間關(guān)系簡(jiǎn)單化，以代碼長(zhǎng)度增加換取執(zhí)行速度的增加。

　　對(duì)于系統(tǒng)運(yùn)行最耗時(shí)的循環(huán)體，采取適當(dāng)改寫循環(huán)形式、多重循環(huán)體展開(kāi)等方法有效地減少運(yùn)算的復(fù)雜度。此外，減少調(diào)用函數(shù)次數(shù)，改寫if-else語(yǔ)句也是有效的優(yōu)化手段。

　　3.2.2 去除參考代碼中的大量冗余代碼和重復(fù)計(jì)算

　　a) 因?yàn)槭褂玫膮⒖即a是JM8.6中的去方塊濾波模塊，該模塊可以對(duì)H.264的各種擋次和級(jí)別的碼流進(jìn)行濾波，而解碼器是基于基本擋次的，僅僅涉及到I幀、P幀的濾波操作，因此可以將參考代碼中的關(guān)于B幀、SP／SI幀、場(chǎng)模式和幀場(chǎng)自適應(yīng)模式的相關(guān)濾波部分去除。

　　b) 程序在獲取濾波強(qiáng)度BS和進(jìn)行亮度／色度的濾波過(guò)程中，都要獲取當(dāng)前子塊所在的宏塊的相鄰宏塊的可達(dá)性的信息(即這個(gè)宏塊能否被使用，通過(guò)調(diào)用GetNeighbour 函數(shù)實(shí)現(xiàn))，由于濾波是按照宏塊中的邊緣先垂直后水平進(jìn)行的，對(duì)于一條邊緣獲取的信息是相同的，因此這個(gè)操作可以對(duì)每條邊緣獲取一次即可，不必在循環(huán)內(nèi)部反復(fù)判斷。同時(shí)在濾波算法中，僅需要獲取在當(dāng)前宏塊上面和左邊的宏塊的可達(dá)性信息，可將獲取當(dāng)前宏塊的左上及右上角宏塊信息的冗余操作去除。同時(shí)，獲取水平方向的濾波強(qiáng)度的函數(shù)調(diào)用getNeighbour時(shí)，getNeighbour參數(shù)的取值分別是luma為定值1，xN是[-1，3，7，11]，yN是[0-15]，此時(shí)函數(shù)getNeighbour中的很多if-else語(yǔ)句是無(wú)效的判斷，這些冗余判斷占用了大量的時(shí)鐘周期。此外，對(duì)各個(gè)分支的概率進(jìn)行分析，將概率最大的判斷分支放在前面執(zhí)行，也提高了函數(shù)執(zhí)行的速度。

　　以下是精簡(jiǎn)后的GetNeighbour函數(shù)代碼，僅有數(shù)條語(yǔ)句，大大減少了運(yùn)算量。

　　c) 在JM86參考代碼中對(duì)于一個(gè)亮度宏塊的16×4共64條像素邊緣的BS值逐條獲取，而通過(guò)對(duì)BS獲取條件進(jìn)行分析可知，處于兩個(gè)子塊間垂直邊緣或水平邊緣的4條像素邊緣的BS值分別是相等的。因此，對(duì)一條邊緣僅要進(jìn)行獲取第1、5、9、13條像素邊緣的BS值，再賦給相應(yīng)的其他像素邊緣即可，由于獲取BS值的操作位于循環(huán)中，需要經(jīng)過(guò)許多判斷及運(yùn)算，通過(guò)這一改進(jìn)，大大簡(jiǎn)化了計(jì)算復(fù)雜度。

　　d) 參考代碼中的循環(huán)內(nèi)部有很多語(yǔ)句與循環(huán)參數(shù)無(wú)關(guān)，可以將這些語(yǔ)句調(diào)整至循環(huán)外部，避免了冗余計(jì)算。

　　3.2.3 利用BPP分塊處理技術(shù)解決片外數(shù)據(jù)頻繁調(diào)用的問(wèn)題

　　針對(duì)頻繁調(diào)用片外數(shù)據(jù)影響了程序的運(yùn)行速度的問(wèn)題，采用BPP分塊技術(shù)進(jìn)行優(yōu)化。在片內(nèi)的L1緩存中開(kāi)辟3塊空間分別存放待濾波的亮度分量、色度U分量、色度V分量。根據(jù)每個(gè)宏塊進(jìn)行濾波時(shí)可能涉及的像素范圍，在對(duì)CIF圖像進(jìn)行濾波時(shí)，將一幀的396個(gè)宏塊分成4類：A類為第1個(gè)宏塊，其上邊緣和左邊緣都是圖像邊緣，對(duì)其濾波前讀入的亮度數(shù)據(jù)是16×16，色度數(shù)據(jù)是2個(gè)8×8；B類為第1個(gè)宏塊行中除去第1個(gè)宏塊的其余宏塊，其上邊緣是圖像邊緣，對(duì)其濾波前讀入的亮度數(shù)據(jù)是16×20，色度數(shù)據(jù)是兩個(gè)8×12；C類是第1個(gè)宏塊列中除去第1個(gè)宏塊的其余宏塊，其左邊緣是圖像邊緣，對(duì)其濾波前讀人的亮度數(shù)據(jù)是20×16，色度數(shù)據(jù)是2個(gè)12×8；D類是除掉A、B、C這3類宏塊的其余宏塊，也就是上邊緣和左邊緣都在當(dāng)前圖像內(nèi)的宏塊，對(duì)其濾波前讀入的亮度數(shù)據(jù)是20×20，色度數(shù)據(jù)是2個(gè)12×12。

　　進(jìn)行濾波時(shí)，首先按宏塊的類型以不同的數(shù)量從片外的數(shù)據(jù)緩存中整塊地讀入亮度和色度數(shù)據(jù)到片上的3塊濾波緩存，然后進(jìn)行濾波處理，并將結(jié)果數(shù)據(jù)重新存儲(chǔ)到片外存儲(chǔ)空間中。通過(guò)這種方法，一方面在一定程度上減少了頻繁調(diào)用片外數(shù)據(jù)的時(shí)間，提高了運(yùn)行速度；另一方面通過(guò)對(duì)待濾波宏塊的細(xì)分，減少了參考代碼中的判斷引起的流水線中斷，也在一定程度上提升了程序速度。

　　3.3 匯編級(jí)別的優(yōu)化

　　BlackfinBF533處理器的內(nèi)核支持C或C++語(yǔ)言，但由系統(tǒng)自動(dòng)將C程序翻譯成匯編語(yǔ)言效率比較低下，因此對(duì)一些系統(tǒng)調(diào)用比較頻繁、耗時(shí)較多的模塊，可以用人工將其轉(zhuǎn)化成高效率的匯編語(yǔ)言來(lái)提高運(yùn)行速度。主要通過(guò)以下幾個(gè)方面來(lái)提高程序的速度：

　　a) 以寄存器變量代替局部變量。在C語(yǔ)言中，子程序和函數(shù)中往往使用局部變量來(lái)暫時(shí)存放數(shù)據(jù)。當(dāng)程序運(yùn)行時(shí)，編譯器為聲明的所有局部變量開(kāi)辟臨時(shí)內(nèi)存空間，對(duì)于局部變量的存取操作都涉及到內(nèi)存的存取，而內(nèi)存訪問(wèn)的速度相對(duì)于寄存器訪問(wèn)是很慢的。因此，可以利用系統(tǒng)中的數(shù)據(jù)寄存器、指針寄存器來(lái)替代僅僅起暫存作用的局部變量，從而大大節(jié)省系統(tǒng)訪問(wèn)內(nèi)存帶來(lái)的時(shí)間延遲。但由于系統(tǒng)中的寄存器數(shù)量對(duì)于局部變量來(lái)說(shuō)相當(dāng)有限，因此必須合理高效地使用寄存器。

　　b) 以硬件循環(huán)代替軟件循環(huán)。軟件循環(huán)是指在for或while等循環(huán)的開(kāi)始或結(jié)尾處設(shè)置判斷條件來(lái)控制循環(huán)的開(kāi)始、繼續(xù)、結(jié)束。軟件循環(huán)的條件判斷指令會(huì)動(dòng)態(tài)地選擇分支，一旦發(fā)生跳轉(zhuǎn)，會(huì)阻塞流水線，而保持流水線的暢通是保持高效運(yùn)行的關(guān)鍵因素。Blackfin處理器有專用的硬件支持兩級(jí)嵌套的零開(kāi)銷硬件循環(huán)，這種方式不需要判斷條件轉(zhuǎn)移，DSP硬件根據(jù)預(yù)定的循環(huán)次數(shù)自動(dòng)執(zhí)行循環(huán)并結(jié)束循環(huán)，從而保證了流水線的暢通，提高速度。

　　c) 充分利用數(shù)據(jù)總線寬度。Blackfin533外部數(shù)據(jù)總線寬度32位，一次可存取4字節(jié)。因此，充分利用數(shù)據(jù)總訪問(wèn)寬度，特別在操作大量數(shù)據(jù)時(shí)，保持一次存取4字節(jié)，可減少指令周期數(shù)，從而提高執(zhí)行速度。

　　d) 高效使用并行指令和向量指令。并行指令和向量指令是Blackfin系列DSP的一大特點(diǎn)。通過(guò)對(duì)并行指令的使用，可以充分發(fā)揮Blackfin處理器的SIMD系統(tǒng)結(jié)構(gòu)的優(yōu)點(diǎn)及硬件資源的并行處理能力，減少指令數(shù)，從而提高程序執(zhí)行效率。往往通過(guò)對(duì)程序的合理安排可以做到使用1條并行指令來(lái)替代2條或3條非并行指令。向量指令則充分利用指令寬度，同時(shí)對(duì)多個(gè)數(shù)據(jù)流進(jìn)行相同操作，如要進(jìn)行2個(gè)16位的算術(shù)或移位操作，完全可以通過(guò)1個(gè)32位的向量指令來(lái)實(shí)現(xiàn)，從而以1個(gè)時(shí)鐘周期來(lái)實(shí)現(xiàn)原來(lái)2個(gè)周期的工作。例如R3=abs R1(V)就用1個(gè)指令周期同時(shí)實(shí)現(xiàn)2個(gè)16位數(shù)據(jù)的求絕對(duì)值操作。

　　e) 合理配置數(shù)據(jù)存儲(chǔ)空間。限于DSP片內(nèi)和片外數(shù)據(jù)存儲(chǔ)空間的訪問(wèn)速度和容量特點(diǎn)，片內(nèi)空間存取速度快但容量很小，而片外空間較大但訪問(wèn)速度慢，因此，合理地分配數(shù)據(jù)存放位置對(duì)于提高程序的運(yùn)行速度是十分關(guān)鍵的。對(duì)于使用頻率高的數(shù)據(jù)盡量放在片內(nèi)空間中，而不常用的數(shù)據(jù)放在片外空間中。若要存取位于片外的數(shù)據(jù)時(shí)，應(yīng)將待存取的數(shù)據(jù)盡量安排成連續(xù)分布，一次將大塊的片外數(shù)據(jù)讀進(jìn)片內(nèi)緩存，避免頻繁讀取片外數(shù)據(jù)帶來(lái)的時(shí)間浪費(fèi)。

　　4 優(yōu)化實(shí)現(xiàn)的結(jié)果

　　測(cè)試優(yōu)化效果的方法是將參考代碼JM8.6中的去方塊濾波C程序模塊加到原有的解碼器中進(jìn)行測(cè)試，并與經(jīng)過(guò)系統(tǒng)、算法、匯編3個(gè)級(jí)別優(yōu)化的去方塊濾波匯編程序模塊的測(cè)試周期進(jìn)行對(duì)比。選擇的測(cè)試圖像序列為Clarie.cif、Paris.cif、Mobile.cif，測(cè)試數(shù)據(jù)見(jiàn)表1。

　　由表1可以看出，與未優(yōu)化前的JM8.6中的C程序代碼相比，經(jīng)過(guò)優(yōu)化后的去方塊濾波匯編模塊效率提高了7倍左右。

　　5 結(jié)束語(yǔ)

　　本文通過(guò)系統(tǒng)、算法及匯編3個(gè)級(jí)別優(yōu)化實(shí)現(xiàn)了H.264中的去方塊濾波功能，特別是通過(guò)改進(jìn)去方塊濾波的實(shí)現(xiàn)算法，對(duì)待濾波的宏塊進(jìn)行分類以及充分地利用并行指令、向量指令等匯編級(jí)別的優(yōu)化手段，取得了較好的優(yōu)化效果。

上一頁(yè) 1 2 3 下一頁(yè)

新聞中心

基于ADSP-BF533處理器的去方塊濾波器的實(shí)現(xiàn)及優(yōu)化

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)