基于FPGA的快速哈夫曼編碼設(shè)計
作者 陸哲敏 易慶陽 楊一凡 蔣劍飛 上海交通大學(上海 200240)
本文引用地址:http://butianyuan.cn/article/201802/376169.htm*“第一屆(2016-2017)全國大學生集成電路創(chuàng)新創(chuàng)業(yè)大賽全國總決賽“FPGA設(shè)計方向三等獎
摘要:針對不同的應用場景,給出兩種方案,一種用碼表實現(xiàn),另一種用靜態(tài)編碼實現(xiàn)。碼表方式將題目與實際應用結(jié)合起來,針對不同場景給出不同的碼表快速編碼;不過考慮到無規(guī)律信號的編碼,所以通過靜態(tài)編碼使我們的作品更加具有普適性,我們還采用三位范式編碼的方式,縮短輸出周期;同時在數(shù)據(jù)輸入結(jié)束之前開始排序,減少編碼實際占用的時間。
0 引言
哈夫曼編碼是基于帶權(quán)路徑最小的最優(yōu)二叉樹——哈夫曼樹的一種平均碼長最短的編碼方式。哈夫曼編碼常用于數(shù)據(jù)的無損壓縮,尤其在衛(wèi)星探測、醫(yī)學圖像處理、雷達測試系統(tǒng)等領(lǐng)域有著廣泛應用[1]。
以對一段長度為256的0~9的數(shù)據(jù)進行編碼為例,如果采用定長編碼,則需要4位表示一個0~9的數(shù)字,一共需要4*256 = 1024位實現(xiàn)編碼,而如果采用哈夫曼編碼可以大大降低需要的位數(shù)。
1 算法設(shè)計
在開始設(shè)計前,我們先對目前主流哈夫曼方案作簡單分析:
1.靜態(tài)編碼:編碼速度與資源占用方面都在合理范圍內(nèi),雖然編碼速度比碼表慢,但是通用性要比碼表好;
2.動態(tài)編碼:動態(tài)編碼依據(jù)的是一棵動態(tài)變化的哈夫曼樹,每個數(shù)據(jù)的編碼都是由它前面所有數(shù)據(jù)組成的哈夫曼樹決定的,雖然可以同步輸出編碼序列,但是對資源占用較大;
3.碼表方案:碼表只針對特定分布的數(shù)據(jù)可以獲得良好壓縮率,但是有著其極小的資源占用和無需復雜運算的優(yōu)點。
經(jīng)過以上分析,我們選擇碼表和靜態(tài)編碼相結(jié)合的方式進行編碼。在輸入完成前,對輸入序列的分布進行判斷,如果符合碼表的分布要求,則直接由碼表編碼,加快編碼的速度,如果不符合,則進行靜態(tài)編碼,以實現(xiàn)編碼速度和壓縮率的平衡。
為實現(xiàn)哈夫曼編碼,我們將整個系統(tǒng)分為5個模塊:統(tǒng)計、排序、編碼、碼表和輸出。
數(shù)據(jù)由數(shù)據(jù)源輸入之后,首先對其統(tǒng)計與排序。在整個過程中,排序進行兩次,第一次在第251個周期,用于判斷使用碼表還是靜態(tài)編碼;第二次則根據(jù)編碼方式的不同而改變:如果使用碼表編碼,則在第256個周期開始排序;如果使用靜態(tài)編碼,則在第254個周期排序,這是由于最后兩個權(quán)值對壓縮率影響極小,所以通過丟棄最后兩個權(quán)值信息加快編碼速度。
為了進一步減小資源占用與輸出周期,編碼和碼表模塊輸出的碼長均由3位構(gòu)成,這樣設(shè)計比起4位輸出時要節(jié)省10個周期。理論支撐是出現(xiàn)碼長為9的情況時,數(shù)據(jù)頻率需要滿足第i個數(shù)的碼長大于前i-2個數(shù)的碼長之和,這種情況的概率是極小的;而且即使出現(xiàn)碼長為9的情況時,最大的4個碼長——9、9、8、7也可以用8、8、8、8來近似,由于最大碼長對應的數(shù)據(jù)的頻率很小,壓縮率的損失也很小。故碼長為9的情況可以舍棄,所以認為碼長在1~8之間,用3位二進制來表示。
1.1 統(tǒng)計模塊
統(tǒng)計模塊的功能是對輸入的數(shù)據(jù)統(tǒng)計出現(xiàn)的頻數(shù)。設(shè)計的思想是給0到9每個數(shù)字構(gòu)造一個計數(shù)器,先初始化計數(shù)器值為0,每次輸入一個數(shù)字之后其相應的計數(shù)器加1,這樣,在數(shù)據(jù)全部輸入完成后即可得到0到9這10個數(shù)字的權(quán)重。
1.2 排序模塊
排序模塊的功能是對已經(jīng)統(tǒng)計好的數(shù)據(jù)進行排序。設(shè)計的思想是:將每個權(quán)值都兩兩比較一次,由比較結(jié)果就可以快速確定它在一個降序排列的存儲器seq中的位置。由于這些比較都是并行的組合邏輯,所以只需要讀一次比較結(jié)果,一個周期即可完成排序。
1.3 碼表模塊
排序模塊的排序結(jié)果作為碼表模塊選擇何種編碼方式的判斷依據(jù),當序列接近于等概率分布時,哈夫曼編碼基本等效于等長編碼,此時進行靜態(tài)編碼效率較低,所以通過碼表1直接編碼;除此之外,當序列分布范圍極廣,即分布十分不均勻的時候,用靜態(tài)編碼效率也比較低,此時采用碼表2進行編碼。兩張碼表如表1、表2所示。
1.4 編碼模塊
如果碼表模塊無法對輸入數(shù)據(jù)進行編碼,則必須通過編碼模塊完成靜態(tài)編碼。
編碼過程是由構(gòu)建哈夫曼樹和分配碼長兩個過程組成的[4],此模塊中我們使用到3個存儲器,一個是上文提到的seq,記錄排序好的十個數(shù)據(jù)以及各自權(quán)值;另一個存儲器是node,是由哈夫曼樹中的非葉節(jié)點構(gòu)成的;而最后一個存儲器為result,保存整棵哈夫曼樹。
10個葉結(jié)點組成的哈夫曼樹應有19個結(jié)點,但是根結(jié)點不參與編碼,所以result只保存18個結(jié)點,同樣,node結(jié)點也只保存8個內(nèi)部結(jié)點。
為了提高編碼效率,構(gòu)建node存儲器和構(gòu)建result存儲器是同步進行的,而構(gòu)建哈夫曼樹和分配碼長的操作均為兩個結(jié)點同時操作,編碼過程也沒有選擇常規(guī)的自底向上的編碼,而是選擇了自頂向下的編碼方式,避免重復讀取內(nèi)部結(jié)點[5],如此下來,構(gòu)造result的過程耗時10個周期,編碼過程最快只需耗時8個周期。
具體過程如下:
假設(shè)已有:降序排列的權(quán)值序列seq = {seq0, seq1, seq2, seq3, seq4, seq5, seq6, seq7, seq8. seq9},初始化好的存儲器為node={FFH,FFH……,FFH}。
1)第1個周期開始構(gòu)造內(nèi)部結(jié)點node存儲器:
a)依次從seqn、seqn-1、nodek和nodek+1中尋找最小的兩個值(如果權(quán)值相同,認為排前面的權(quán)值小);
b)將最小的兩個權(quán)值相加后放入node中;
c)將n、k作相應移動;
d重復a。
2)第2個周期開始同步進行哈夫曼樹result存儲器的構(gòu)造:
a)依次從seqn、seqn-1、nodek和nodek+1中尋找最小的兩個值(如果權(quán)值相同,認為排前面的權(quán)重小);
b)將兩個最小權(quán)值依次放入result中;
c)將n、k作相應移動;
d)重復a。
3)第11個周期開始編碼:
a)初始碼長result[17]=result[16]=1;
b)根據(jù)標記位,可以知道某一個結(jié)點是否有子結(jié)點:
i.如果有子結(jié)點,給子結(jié)點分配碼長;如果子節(jié)點已經(jīng)是樹尾,則編碼結(jié)束;
ii.如果沒有子結(jié)點,排查下一個結(jié)點。
4)輸出碼長數(shù)據(jù),即按0~9順序輸出編碼結(jié)果。
1.5 輸出模塊
輸出模塊主要有三個工作:存儲輸入數(shù)據(jù)、求范式哈夫曼編碼、對輸入數(shù)據(jù)編碼并輸出。具體介紹求范式哈夫曼編碼[6]工作:
編碼模塊工作完成后,輸出模塊開始接收碼長信息(code_length),同時記錄每個碼長出現(xiàn)的次數(shù)(size_of_len)和順序(code_order),然后根據(jù)這些信息求出每個符號的范式哈夫曼編碼。
如表3所示,第一行表示code的位,第一列表示碼長。把碼長1出現(xiàn)的次數(shù)二進制值對齊第8位,把碼長2出現(xiàn)的次數(shù)二進制值對齊第7位,以此類推,最后將表格按行相加,即得到數(shù)i的編碼。
2 驗證分析與FPGA實現(xiàn)
根據(jù)前述的算法設(shè)計,最終得到如圖1所示的模塊連接圖。
為了驗證編碼的準確性,首先采用C++編寫常規(guī)的靜態(tài)哈夫曼編碼算法,同時在Testbench中,采用讀寫文件的方式將輸出結(jié)果就保存到文件中,最后再驗證兩者輸出的一致性。
對于題目提出的Totalcycles參數(shù),它主要包含了輸入數(shù)據(jù)的256個周期,編碼用時以及輸出用時。我們的輸出用時包含2個部分:一是輸出范式編碼表,總計30個周期;二是輸出編碼序列。所以Totalcycles = 256 + 編碼用時 + 30 + 編碼序列長度。根據(jù)測量結(jié)果,Totalcycles最優(yōu)為碼表2的547個周期,最差為碼表1的1159個周期。
對于壓縮算法的另一個重要指標壓縮率,這里定義為編碼后的數(shù)據(jù)長度與編碼前的數(shù)據(jù)長度之比[7],根據(jù)測量結(jié)果,最優(yōu)壓縮率為25.20%,最差為85.06%,同樣分別發(fā)生在表1和表2。
在目標器件XC7A100T-1CSG324C 上綜合實現(xiàn)后,可以得到我們的設(shè)計一共使用了1819個查找表和785個寄存器;同時調(diào)用了Block Ram的IP核用于存儲輸入的256個序列。在將扇出約束為50的情況下,由時序報告可知8.600ns的時鐘下還有0.025ns的余量,經(jīng)計算此時的工作頻率為116.28MHz[8],關(guān)鍵路徑位于編碼模塊的哈夫曼樹構(gòu)造過程。
在FPGA上,運用Vivado Logic Analyzer驗證后,得到的波形與預期結(jié)果完全一致。
3 結(jié)論
哈夫曼編碼從被提出開始,就一直被關(guān)注和研究。經(jīng)過60多年的發(fā)展,它已經(jīng)被廣泛應用于數(shù)據(jù)壓縮的各個領(lǐng)域。
我們的設(shè)計的主要有以下特點:
1)與實際應用場景結(jié)合起來,提供了兩個碼表和一種靜態(tài)編碼的方案。在輸入數(shù)據(jù)符合碼表條件時,自動調(diào)用碼表加快編碼速度。
2)采用范式編碼的方式輸出,易于解碼,并使輸出哈夫曼編碼表的過程縮短4~24個周期。
3)采用3位碼長輸出,在幾乎不損失壓縮率的情況下,將輸出碼表的體積減小25%。
4)采用預先編碼方案,進一步縮短編碼耗時。
最初的方案中,靜態(tài)編碼耗時共需要70多個周期,后來幾經(jīng)優(yōu)化,利用FPGA同步處理的優(yōu)勢,最終降到19個周期,加上預先編碼方案,實際占用為17個周期。
在判斷使用表1、表2或使用靜態(tài)編碼的時候,設(shè)計采用了數(shù)據(jù)頻度的極差作為條件,但是在實際測試中我們發(fā)現(xiàn)極差并不是特別準確,真正的碼表選擇和數(shù)據(jù)分布有著極為復雜的關(guān)系,最終我們只能通過收緊判斷條件,更多的采用靜態(tài)編碼以避免加速失效。所以碼表和碼表的選擇條件,還需要更多的實驗檢驗和數(shù)學證明。
參考文獻:
[1]Latha Pillai, “Huffman Coding” EXILINX, Virtex Series, XAPP616 (v1.0) Apr 22, 2003.
[2]方敏,秦曉新.動態(tài)哈夫曼編碼的數(shù)據(jù)壓縮方法[J].計算機世界,1994(7):29-33.
[3]Matai, Janarbek, J. Y. Kim, and R. Kastner. "Energy efficient canonical huffman encoding." IEEE, International Conference on Application-Specific Systems, Architectures and Processors IEEE, 2014:202-209.
[4]李偉生,李域,王濤.一種不用建造Huffman樹的高效Huffman編碼算法[J].中國圖像圖形學報,2005,10(3):382-387.
[5]林建英,伍勇,李建華,等.一種易于硬件實現(xiàn)的快速自適應哈夫曼編碼算法[J].大連理工大學學報,2008,48(3):436-440.
[6]張全伙,于洪斌,林榆.優(yōu)化哈夫曼編碼數(shù)據(jù)壓縮技術(shù)及程序?qū)崿F(xiàn)[J].華僑大學學報(自然科學版),1995,16(3):344-348.
[7]張穎超.基于FPGA的Huffman編碼并行實現(xiàn)及高速存儲系統(tǒng)設(shè)計[D].長安大學,2015.
[8]Latha Pillai, “Huffman Coding” EXILINX, Virtex Series, XAPP616 (v1.0) Apr 22, 2003.
本文來源于《電子產(chǎn)品世界》2018年第3期第54頁,歡迎您寫論文時引用,并注明出處。
評論