一種處理器的視頻編碼器平臺(tái)的探討
1 硬件平臺(tái)
1.1 ADSP-BF561處理器
ADSP-BF561 的推出使Analog Devices公司的Blackfin處理器系列得到了進(jìn)一步的擴(kuò)充,這款器件具有由兩個(gè)Blackfin處理器內(nèi)核構(gòu)成的對(duì)稱多處理結(jié)構(gòu)。相比ADSP-BF533,ADSP-BF561可提供兩倍的信號(hào)處理性能、兩倍的片上處理器以及顯著提高的數(shù)據(jù)帶寬能力。ADSP-BF561 與ADSP-BF533完全代碼兼容,并利用架構(gòu)的動(dòng)態(tài)電源管理能力而繼續(xù)保持了非常低的功耗。
Blackfin561是Blackfin系列中的一款高性能定點(diǎn)DSP視頻處理芯片。ADSP-BF561 集成了兩個(gè)工作頻率均高達(dá)756MHz的Blackfin處理器內(nèi)核(ADI公司還提供了低成本的500MHz和600MHz版本)和2.6Mbytes的片上SRAM存儲(chǔ)器。ADSP-BF561 片上存儲(chǔ)器被分配于每個(gè)內(nèi)核的專用、高速L1存儲(chǔ)器和一個(gè)128KBytes大容量共享L2存儲(chǔ)器之間。32位外部端口和雙16通道DMA控制器提供了極高的數(shù)據(jù)帶寬。ADSP-BF561 片上外設(shè)包括兩個(gè)并行外設(shè)接口(均支持ITU-R 656視頻格式化)和支持I2S格式的高速串行端口。ADSP-BF561 專門針對(duì)各種消費(fèi)類多媒體應(yīng)用進(jìn)行了優(yōu)化。
1.2 基于ADSP-BF561的視頻編碼器平臺(tái)
此評(píng)估板包括1塊ADSP-BF561處理器、32MBSDRAM和4MBFlash,板中的AD-V1836音頻編解碼器可外接4輸入/6輸出音頻接口,而ADV7183視頻解碼器和ADV7171視頻編碼器則可外接3輸入/3輸出視頻接口此外,該評(píng)估板還包括1個(gè)UART接口、1個(gè)USB調(diào)試接口和1個(gè)JTAG調(diào)試接口。攝像頭輸入的模擬視頻信號(hào)經(jīng)視頻芯片ADV7183A轉(zhuǎn)化為數(shù)字信號(hào),此信號(hào)從Blackfin561的PPI1(并行外部接口)進(jìn)入Blackfin561芯片進(jìn)行壓縮,壓縮后的碼流則經(jīng)ADV7179轉(zhuǎn)換后從ADSP-BF561的PPI2口輸出。此系統(tǒng)可通過(guò)Flash加載程序,并支持串口及網(wǎng)絡(luò)傳輸。編碼過(guò)程中的原始圖像、參考幀等數(shù)據(jù)可存儲(chǔ)在SDRAM中。
2 H.264視頻壓縮編碼算法的主要特點(diǎn)
H.264壓縮算法和以太網(wǎng)(IP)接口,可實(shí)現(xiàn)1路單向數(shù)字視頻、2路雙向高保真音頻、1~2路雙向異步數(shù)據(jù)在以太網(wǎng)上高質(zhì)量傳輸。視頻編解碼標(biāo)準(zhǔn)主要包括兩個(gè)系列:一個(gè)是MPEG系列,一個(gè)是H.26X系列。其中MPEG系列標(biāo)準(zhǔn)由ISO/IEC組織制定,H.26X系列標(biāo)準(zhǔn)由ITU-T制定。
H.264視頻壓縮算法采用與H.263和MPEG-4類似的、基于塊的混和編碼方法,它采用幀內(nèi)編碼(Intra)和幀間編碼(Inter)兩種編碼模式。與以往的編碼標(biāo)準(zhǔn)相比,為了提高編碼效率、壓縮比和圖像質(zhì)量,H.264采用了以下全新的編碼技術(shù):
?。?)H.264按功能將視頻編碼系統(tǒng)分為視頻編碼層(VCL,VideoCodingLayer)和網(wǎng)絡(luò)抽象層(NAL,NetworkAbstractionLayer)兩個(gè)層次。其中VCL用于完成對(duì)視頻序列的高效壓縮,NAL則用于規(guī)范視頻數(shù)據(jù)的格式,主要提供頭部信息以適合各種媒體的傳輸和存儲(chǔ)。
?。?)先進(jìn)的幀內(nèi)預(yù)測(cè),它對(duì)含有較多空域細(xì)節(jié)信息的宏塊采用4×4預(yù)測(cè),而對(duì)于較平坦的區(qū)域則采用16×16的預(yù)測(cè)模式,前者有9種預(yù)測(cè)方法,后者有4種預(yù)測(cè)方法。
(3)幀間預(yù)測(cè)采用更多的塊劃分種類,標(biāo)準(zhǔn)中定義了7種不同尺寸和形狀的宏塊分割和子宏塊分割。由于采用更小的塊和自適應(yīng)編碼方式,故可使得預(yù)測(cè)殘差的數(shù)據(jù)量減少,從而進(jìn)一步降低了碼率。
?。?)1/4 采樣精度運(yùn)動(dòng)補(bǔ)償:以前的標(biāo)準(zhǔn)最多 1/2 精度運(yùn)動(dòng)補(bǔ)償,首次 1/4 采樣精度運(yùn)動(dòng) 補(bǔ)償出現(xiàn)在 MPEG-4 第二部分高級(jí)類部分,但 H.264/AVC 大大減少了內(nèi)插處理的復(fù)雜度。
?。?) 改善“跳過(guò)”和“直接”運(yùn)動(dòng)推測(cè):在以前的標(biāo)準(zhǔn)中,預(yù)測(cè)編碼圖像的“跳過(guò)”區(qū) 不能有運(yùn)動(dòng)。當(dāng)編碼有全局運(yùn)動(dòng)的圖像時(shí),該限制有害。H.264/AVC 對(duì)“跳過(guò)”區(qū)的 運(yùn)動(dòng)采用推測(cè)方法。對(duì)雙預(yù)測(cè)的 B 幀圖像,采用高級(jí)運(yùn)動(dòng)預(yù)測(cè)方法,稱為“直接”運(yùn)動(dòng)補(bǔ) 償,進(jìn)一步改善編碼效率。
?。?)整數(shù)變換(DCT/IDCT)。對(duì)殘差圖像的4×4整數(shù)變換技術(shù),采用定點(diǎn)運(yùn)算來(lái)代替以往DCT變換中的浮點(diǎn)運(yùn)算。以降低編碼時(shí)間,同時(shí)也更適合到硬件平臺(tái)的移植。
(7)H.264/AVC支持兩種熵編碼方法,即CAVLC(基于上下文的自適應(yīng)可變長(zhǎng)編碼)和CABAC(基于上下文的自適應(yīng)算術(shù)編碼)。其中CAVLC的抗差錯(cuò)能力比較高,但編碼效率比CABAC低;而CABAC的編碼效率高,但需要的計(jì)算量和存儲(chǔ)容量更大。
?。?)多參考圖像運(yùn)動(dòng)補(bǔ)償:在 MPEG-4及以前的標(biāo)準(zhǔn)中,P 幀只使用一幀,B 幀只使用 兩幀圖像進(jìn)行預(yù)測(cè)。H.264/AVC 使用高級(jí)圖像選擇技術(shù),可以用以前已編碼過(guò)且保留在緩 沖區(qū)的大量的圖像進(jìn)行預(yù)測(cè),大大提高了編碼效率。
H.264的這些新技術(shù)使運(yùn)動(dòng)圖像壓縮技術(shù)向前邁進(jìn)了一大步,它具有優(yōu)于MPEG-4和H.263的壓縮性能,可應(yīng)用于因特網(wǎng)、數(shù)字視頻、DVD及電視廣播等高性能視頻壓縮領(lǐng)域。
3 H.264視頻編碼算法的實(shí)現(xiàn)
將H.264在DSP進(jìn)行改進(jìn)要經(jīng)過(guò)以下3個(gè)步驟:PC機(jī)上的C算法優(yōu)化、從PC機(jī)到DSP的程序移植、在DSP平臺(tái)上的代碼優(yōu)化。
3.1 PC機(jī)上的C算法優(yōu)化
根據(jù)系統(tǒng)要求,本設(shè)計(jì)選擇了ITU的Jm8.5版本baselineprofile作為標(biāo)準(zhǔn)算法軟件。ITU的參考軟件JM是基于PC機(jī)設(shè)計(jì)的,故可取得較高的編碼效果。將視頻編解碼軟件移植到DSP時(shí),應(yīng)考慮到DSP系統(tǒng)資源,主要應(yīng)考慮的因素是系統(tǒng)空間,需要對(duì)原始的C代碼進(jìn)行評(píng)估,這就需要對(duì)所移植的代碼有所了解。
了解了算法結(jié)構(gòu)以后,還需要確定在編碼算法的實(shí)現(xiàn)過(guò)程中,運(yùn)算量較大且耗時(shí)較長(zhǎng)的部分。VC6自帶的profile分析工具顯示:幀內(nèi)與幀間編碼部分占用了整體運(yùn)行時(shí)間的60%以上。其中ME(MoveEstimation,運(yùn)動(dòng)估計(jì))又占用了其中較多的時(shí)間。
?。?)大幅刪減不必要的文件和函數(shù)
由于選用了baseline和單一參考幀,因此,很多文件和函數(shù)都可以刪減,包括有關(guān)B幀、SI片、SP片和數(shù)據(jù)分割、分層編碼、權(quán)值預(yù)測(cè)模式、CABAC編碼模式等不支持特性的冗余程序代碼,此外,還可以刪除top_pic、bottom_pic等與場(chǎng)有關(guān)的全局變量與局部變量、分層編碼、多slice分割以及FMO、與場(chǎng)編碼/幀場(chǎng)自適應(yīng)編碼/宏塊自適應(yīng)編碼有關(guān)的預(yù)測(cè)、參考幀排序、輸入輸出以及解碼器緩存操作等;也可以刪除隨機(jī)幀內(nèi)宏塊刷新模式和權(quán)值預(yù)測(cè)模式等相關(guān)的冗余代碼,同時(shí)刪除rtp.c;sei.c中包含一些輔助編碼信息(并不編入碼流中),如果不用,也可以刪除leaky_bucket.c用于計(jì)算泄漏緩存器的參數(shù)。
?。?)配置函數(shù)的改寫
由于JM的系統(tǒng)參數(shù)配置是通過(guò)讀取encoder.cfg文件來(lái)實(shí)現(xiàn)的,故可將參數(shù)配置由讀取文件改為通過(guò)初始化集中賦值函數(shù)來(lái)實(shí)現(xiàn),這樣既減少了代碼量,又減少了對(duì)有限內(nèi)存空間的占用和讀取時(shí)間,提高了編碼器整體的編碼速度。
?。?)去除冗余的打印信息
為了調(diào)試與算法改進(jìn)的方便,JM保留了大量的打印信息。為了提高編碼速度,減少存儲(chǔ)空間消耗,這些信息完全可以刪掉。如果lor.dat和stat.dat僅需在PC機(jī)上調(diào)試時(shí)使用,也沒(méi)必要移植到DSP平臺(tái)上,跟這部分相關(guān)的代碼完全可以去除。但是,調(diào)試時(shí)所需的基本信息(如碼率、信噪比、編碼序列等)則應(yīng)保留參考。
通過(guò)調(diào)整可使得代碼的結(jié)構(gòu)、容量更加精簡(jiǎn),從而為接下來(lái)在DSP上的移植做好準(zhǔn)備。
3.2 從PC機(jī)到DSP的程序移植
要將PC端精簡(jiǎn)的程序移植到ADSP-BF561的開(kāi)發(fā)環(huán)境VisualDSP下,以使其能夠初步運(yùn)行,所需考慮的主要是語(yǔ)法規(guī)則和內(nèi)存分配等問(wèn)題。
?。?)除去所有編譯環(huán)境不支持的函數(shù)
?。?)添加與硬件相關(guān)的代碼
?。?)配置LDF文件
?。?)Malloc問(wèn)題的解決
4 DSP平臺(tái)上的代碼優(yōu)化
在VisualDSP開(kāi)發(fā)環(huán)境下對(duì)代碼進(jìn)行優(yōu)化的主要方法有C語(yǔ)言級(jí)優(yōu)化和匯編級(jí)優(yōu)化。
4.1 C語(yǔ)言級(jí)優(yōu)化
通過(guò)VC6的profile分析工具發(fā)現(xiàn):移植與優(yōu)化的重點(diǎn)應(yīng)在運(yùn)動(dòng)估計(jì)部分。DS算法可采用兩種搜索模板,分別是有9個(gè)檢索點(diǎn)的大模板LD-SP和有5個(gè)檢索點(diǎn)的小模板SDSP(SmallDiamondSearchPattern)。搜索時(shí),先用大模板計(jì)算,當(dāng)最小塊誤差SAD點(diǎn)出現(xiàn)在中心點(diǎn)處時(shí),再將大模板LDSP換為SDSP進(jìn)行匹配運(yùn)算,這時(shí),5個(gè)點(diǎn)中具有最小SAD者若為中心點(diǎn),則該點(diǎn)即為最優(yōu)匹配點(diǎn),然后結(jié)束
評(píng)論