基于FPGA實(shí)現(xiàn)視頻圖像的一種運(yùn)動估計(jì)設(shè)計(jì)

作者：時(shí)間：2017-06-05 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

人類獲取的信息中70％來自于視覺。視頻信息具有直觀性、確切性和高效性等優(yōu)點(diǎn)，其在多媒體信息中占有重要地位，成為了主導(dǎo)現(xiàn)代生活的主力軍。然而，視頻信息信息量太大，對信息存儲設(shè)備及通信網(wǎng)絡(luò)均提出了很高要求，嚴(yán)重阻礙了人們對有效信息的獲取和使用。而解決這個(gè)問題的途徑就是視頻編碼即視頻壓縮。

目前，視頻編碼的主控制芯片主要有3種：ASIC、FPGA和DSP。ASIC和PGA屬于硬件設(shè)計(jì)，DSP屬于軟件設(shè)計(jì)。從功能上說，全定制ASIC(Applieation Speeifie IntegratedCircuit)的功耗低、設(shè)計(jì)密度大并且能夠完成高速設(shè)計(jì)，但同時(shí)其開發(fā)周期很長，投片成本很高而且不容易對解決方案進(jìn)行優(yōu)化，應(yīng)用范圍很窄；DSp(Digital Signal Proeessing)可以提供強(qiáng)大的數(shù)字信號處理能力，其可編程特色可以支持各種標(biāo)準(zhǔn)格式的視頻編解碼算法，但其處理速度低、硬件結(jié)構(gòu)不靈活；FPGA(Field Programmable Gato Airay)兼有了兩者的一些優(yōu)點(diǎn)如可編程、功耗低等，同時(shí)又具有設(shè)計(jì)周期短、開發(fā)成本低、處理速度快、設(shè)計(jì)靈活等特點(diǎn)。

1 運(yùn)動估計(jì)原理

運(yùn)動估計(jì)主要是針對幀間預(yù)測，去除視頻幀在空間域和時(shí)間域的冗余度。塊匹配方法是目前編碼效率較高，普遍采用的一種編碼方法。首先，其要將當(dāng)前幀進(jìn)行劃分。長期實(shí)踐表明，將當(dāng)前幀劃分為多個(gè)16x16的塊是比較合理的。其次，要根據(jù)劃分出的當(dāng)前塊的具體情況，以及所采用的搜索方法來決定搜索窗口的大小。最后，要在所確定的搜索窗口里面，依據(jù)某種塊匹配準(zhǔn)則找到當(dāng)前塊的匹配塊以及由匹配塊到當(dāng)前塊的運(yùn)動矢量。圖1所示是塊匹配法的原理框圖，其中的箭頭就是由參考幀到當(dāng)前幀的運(yùn)動矢量。

目前經(jīng)常采用的塊匹配準(zhǔn)則主要有歸一化互相關(guān)函數(shù)(NCCF)，最小均方差(MSE)以及最小絕對值(MAD)。其中由于SAD準(zhǔn)則在算法上并不需要做任何的乘法運(yùn)算，可以減少很多的時(shí)間資源和硬件資源，從而使得SAD準(zhǔn)則成為了現(xiàn)在通常使用的匹配準(zhǔn)則。

其中A是參考幀中的搜索窗口區(qū)域，k-1和fk分別是當(dāng)前幀和參考幀中的像素點(diǎn)值，(x0，y0)是塊中的其中一個(gè)點(diǎn)。

本文引用地址：http://www.butianyuan.cn/article/201706/348984.htm

搜索采用的是三步搜索法，它是按照由粗到細(xì)的搜索理念，以一個(gè)像素為搜索精度，分為4，2，1，3個(gè)搜索步長進(jìn)行搜索。一般選取原點(diǎn)作為起始點(diǎn)，分別按照4，2，1，3個(gè)步長組成9個(gè)點(diǎn)構(gòu)成的點(diǎn)群進(jìn)行匹配運(yùn)算，每次都是以誤差最小的塊為準(zhǔn)匹配塊，在第二和第三步搜索時(shí)分別以第一和第二步搜索到的準(zhǔn)匹配塊作為它們搜索的起始點(diǎn)。原理如圖2所示。

2 硬件實(shí)現(xiàn)

運(yùn)動估計(jì)的原理圖如圖3所示。

2．1 地址計(jì)數(shù)器模塊

地址計(jì)數(shù)器主要是產(chǎn)生出可以在RRAM(參考塊存儲器)和CRAM(當(dāng)前塊存儲器)中有目的地進(jìn)行尋址的地址信號。如圖4所示。

地址計(jì)數(shù)器模塊的設(shè)計(jì)與當(dāng)前塊和參考塊的存儲有很大的關(guān)系。將數(shù)據(jù)存入當(dāng)前塊存儲器和參考塊存儲器時(shí)的順序是由左到右，由下到上，即當(dāng)前塊存儲器是(-7，-7)，(-6，-7)，(-5，-7)……(8，-7)，(-7，-6)，(-6，-6)……(8，7)，(8，8)。而參考塊存儲器是(-15，-15)，(-15，-14)，(-15，-13)……(-15，16)，(-14，-15)，(-14，-14)……(16，15)，(16，16)。則可知在尋址當(dāng)前塊存儲器時(shí)可以直接按照地址的由左到右，由下到上累加。其計(jì)算公式如式(2)所示：

C_addr=(j+7)×16+(i+8) (2)

對于參考塊存儲器，它是一個(gè)32x32的數(shù)據(jù)塊，設(shè)計(jì)的目的是從其中取出符合三步搜索法的9個(gè)數(shù)據(jù)塊，當(dāng)然這九個(gè)數(shù)據(jù)塊都是16x16的，而且是以原點(diǎn)為中心組成的搜索點(diǎn)群。其計(jì)算公式如式(3)所示：

R_addr=(j+15)x32+(i+16) (3)

Clk是時(shí)鐘頻率信號，當(dāng)它發(fā)生上升沿跳變時(shí)會使得產(chǎn)生的地址跳變到下一個(gè)新值。
Clr是清零信號，當(dāng)它是低電平時(shí)，地址計(jì)數(shù)器可以產(chǎn)生從零開始的連續(xù)地址。

由于，當(dāng)前塊存儲器只是一個(gè)16x16的RAM，其總的存儲空間是256，則可知使用八位地址就可以進(jìn)行尋址整個(gè)空間，即CRAM_ADDR是八位輸出信號。而參考塊存儲器是一個(gè)32x32的的RAM，其總的存儲空間是1 024，則可知使用十位地址就可以進(jìn)行尋址整個(gè)空間，即RRAM_ADDR是十位輸出信號。

2．2 參考塊分頻器模塊

參考塊分頻器模塊主要是將從參考塊存儲器中輸出的信號經(jīng)過分頻處理后，存儲在9個(gè)獨(dú)立的單元，以便后續(xù)的處理，如圖5所示。

由參考塊輸出的信號是256x9個(gè)連續(xù)的像素值，而當(dāng)前塊輸出的信號只是256個(gè)連續(xù)信號在連續(xù)時(shí)鐘驅(qū)動下的九次重復(fù)，這樣就很難在256x9個(gè)時(shí)鐘周期內(nèi)完成對9個(gè)匹配塊的處理，更難在256個(gè)時(shí)鐘周期內(nèi)完成。因此要通過參考塊分頻器將參考塊存儲器連續(xù)輸出的256x9個(gè)像素點(diǎn)值進(jìn)行九次分頻，存儲在9個(gè)RAM單元之中。這樣當(dāng)下一個(gè)時(shí)鐘周期的上升沿到來時(shí)，這9個(gè)RAM可以同時(shí)輸出信號，并在接下來的255個(gè)時(shí)鐘周期之后將里面存儲的所有信號輸出，而且輸出的這些信號相互之間是完全獨(dú)立的。同時(shí)，為了使后面的各模塊能夠很好的進(jìn)行，參考塊分頻器模塊還引入了當(dāng)前塊的像素值信號，使得存入9個(gè)RAM單元的信號不僅僅是參考塊的像素點(diǎn)值，還有當(dāng)前塊的像素點(diǎn)值以便保證后面的減法器可以正常工作。

2．3 減法器模塊

減法器模塊主要是完成當(dāng)前塊像素點(diǎn)值和參考塊像素點(diǎn)值之間的作差，并將做差結(jié)果進(jìn)行取絕對值運(yùn)算。本減法器是采用9個(gè)LPM(參數(shù)化模塊庫)元件庫中的減法器合成的。而LPM中的減法器將被減數(shù)和減數(shù)明確地分開了。因此，在將當(dāng)前塊和參考塊像素點(diǎn)值輸入到減法器之前先對二者進(jìn)行比較，再分別輸入到減法器的被減數(shù)和減數(shù)端口。這樣當(dāng)減法器設(shè)置為無符號數(shù)運(yùn)算時(shí)，輸出結(jié)果就相當(dāng)于取了絕對值的差值。從時(shí)鐘周期的角度發(fā)現(xiàn)，整個(gè)減法器在256x9個(gè)時(shí)鐘周期內(nèi)是都在運(yùn)行的，但是所要采集的有用信號僅僅是9個(gè)獨(dú)立的256個(gè)時(shí)鐘周期，即每個(gè)減法器僅僅使用256個(gè)時(shí)鐘周期的有用信號，其他時(shí)鐘周期內(nèi)的信號對于其他減法器是有用信號，但是對于本減法器卻是干擾信號，必須要消除。這就是在參考塊分頻器里面引入當(dāng)前塊信息的原因。

2．4 累加比較器模塊

累加比較器主要是完成對每個(gè)減法器輸出的取過絕對值的差值信號的累加，并將累加結(jié)果進(jìn)行比較輸出最佳運(yùn)動矢量。累加比較器的設(shè)計(jì)和減法器的設(shè)計(jì)有很大關(guān)系，除了在上述的取絕對值方面二者相互要求比較嚴(yán)格之外，在時(shí)序方面，二者也有很大關(guān)聯(lián)。9個(gè)減法器在參考塊分頻器模塊的作用下，工作于所有的時(shí)鐘周期里面，而累加比較器則是以減法器輸出的信號作為累加原材料的，這就使得累加比較器也必須從時(shí)鐘的起始點(diǎn)就開始工作。確定運(yùn)動矢量的標(biāo)準(zhǔn)是SAD最小值。也就是要通過比較9個(gè)累加結(jié)果，確定出最小值，并由地址計(jì)數(shù)器模塊找到這個(gè)最小值所對應(yīng)的運(yùn)動矢量。

2．5 整體方案

整體方案主要是將三步搜索法中的三步分開進(jìn)行。在外部輸入信號的控制下，先輸入第一步搜索的地址計(jì)算控制因子，使得尋址范圍是在步長為4的9個(gè)數(shù)據(jù)塊群里面，第一步搜索完成時(shí)將第一步搜索到的最佳運(yùn)動矢量輸入到第二步的搜索中，完成機(jī)制和第一步唯一的區(qū)別就是地址計(jì)算和產(chǎn)生的尋址范圍不同，這樣一直到完成第三步搜索時(shí)，將第三步搜索得到的最佳運(yùn)動矢量作為當(dāng)前塊在這個(gè)搜索窗口里面的最佳運(yùn)動矢量。

3 實(shí)驗(yàn)結(jié)果與分析

本設(shè)計(jì)采用Stratix II系列的EP2S15F484C3器件進(jìn)行仿真，仿真結(jié)果如圖6所示。

由仿真結(jié)果可知整個(gè)搜索過程完全符合時(shí)序要求，總的邏輯資源占用率是27％。組合查找表使用了2 169個(gè)，占總數(shù)量12 480的17％。專用邏輯寄存器使用了2 855個(gè)，占總數(shù)量12 480的23％。而用的總的寄存器數(shù)也就是2 855。使用了180個(gè)片上引腳，占總個(gè)數(shù)的52％。使用了86 088比特的塊存儲器單元，占總的快存儲器數(shù)量的21％。搜索到的最佳運(yùn)動矢量(0，-7)，由前兩步的搜索結(jié)果可知其完全正確。

4 結(jié)束語

本文中采用FPGA設(shè)計(jì)的運(yùn)動估計(jì)方案無論在搜索速度，資源利用還是時(shí)序控制上都具有一定的優(yōu)越性，可以大大提高視頻編碼器設(shè)計(jì)的性價(jià)比。另外，隨著半導(dǎo)體工藝的不斷進(jìn)步，F(xiàn)PGA的性價(jià)比將不斷提高，將使得運(yùn)動估計(jì)乃至視頻編碼的技術(shù)不斷提高。

新聞中心

基于FPGA實(shí)現(xiàn)視頻圖像的一種運(yùn)動估計(jì)設(shè)計(jì)

評論

相關(guān)推薦

技術(shù)專區(qū)