基于FPGA的可配置FFT IP核實(shí)現(xiàn)研究
摘要 針對(duì)FFT算法基于FPGA實(shí)現(xiàn)可配置的IP核。采用基于流水線結(jié)構(gòu)和快速并行算法實(shí)現(xiàn)了蝶形運(yùn)算和4k點(diǎn)FFT的輸入點(diǎn)數(shù)、數(shù)據(jù)位寬、分解基自由配置。使用Verilog語言編寫,利用ModelSim仿真,由ISE綜合并下載,在Xilinx公司的Virtex-5 xc5vfx70t器件上以200 MHz的時(shí)鐘實(shí)現(xiàn)驗(yàn)證,運(yùn)算結(jié)果與其他設(shè)計(jì)的運(yùn)算效率對(duì)比有一定優(yōu)勢(shì)。
本文引用地址:http://butianyuan.cn/article/201610/308483.htm在現(xiàn)代聲納、雷達(dá)、通信、圖像處理等領(lǐng)域中,數(shù)字信號(hào)處理系統(tǒng)經(jīng)常要進(jìn)行高速、高精度的FFF運(yùn)算?,F(xiàn)場(chǎng)可編程邏輯陣列(FPGA)是一種可定制集成電路,具有面向數(shù)字信號(hào)處理算法的物理結(jié)構(gòu)。用FPGA實(shí)現(xiàn)FFT處理器具有硬件系統(tǒng)簡(jiǎn)單、功耗低的優(yōu)點(diǎn),同時(shí)具有開發(fā)時(shí)間較短、成本較低的優(yōu)勢(shì)?;贔PGA實(shí)現(xiàn)的數(shù)字信號(hào)處理系統(tǒng)具有較高的實(shí)時(shí)性和嵌入性,并能方便地實(shí)現(xiàn)系統(tǒng)集成與功能擴(kuò)展?;贔PGA的硬件實(shí)現(xiàn)FFT通常有兩種方法:(1)并行方法,其采用多個(gè)蝶形處理器并行運(yùn)算,能對(duì)較高的數(shù)據(jù)采樣率進(jìn)行運(yùn)算,但其硬件規(guī)模較大,當(dāng)在FPGA上要實(shí)現(xiàn)較大點(diǎn)數(shù)的FFT時(shí)較為困難。(2)串行方法,采用一個(gè)蝶形處理器完成運(yùn)算,使用的邏輯資源較少,但運(yùn)算速度較慢。本文在串行方法的基礎(chǔ)上實(shí)現(xiàn)了一種在FPGA上實(shí)現(xiàn)的可配置FFT IP核,具有輸入點(diǎn)數(shù)可配置(實(shí)現(xiàn)0~4 096點(diǎn)自由配置)、數(shù)據(jù)位寬可配置、分解基可配置的特性。
1 原理分析
自從基2快速算法出現(xiàn)以來,人們?nèi)栽诓粩鄬で蟾斓乃惴??;? FFT算法比最初的基2 FFT算法更快,但從理論上講,用較大的基數(shù)還可進(jìn)一步減少運(yùn)算次數(shù),但要以程序(或硬件)變得更復(fù)雜為代價(jià)。提高FFF處理速度的4個(gè)主要技術(shù)途徑是采用流水線結(jié)構(gòu)、并行運(yùn)算、增加蝶形處理單元數(shù)目和高基數(shù)結(jié)構(gòu)。
1.1 基2算法基本原理
點(diǎn)數(shù)N是2的整數(shù)次冪,將x(n)先按n的奇偶分成兩組
1.2 基4算法基本原理
與基2算法類似,對(duì)于N點(diǎn)有限長(zhǎng)序列x(n)的DFT按照時(shí)域分解展開有
2 可配置FFT IP核硬件結(jié)構(gòu)
現(xiàn)有的FFT IP核在硬件實(shí)現(xiàn)時(shí)不具備并行度可配置能力,只提供全循環(huán)、全流水、循環(huán)展開與流水結(jié)合等形式下的某種特定實(shí)現(xiàn),可重用性較差,難以適應(yīng)不同的計(jì)算吞吐量和對(duì)計(jì)算資源和計(jì)算時(shí)間的需求??膳渲肍FT IP核技術(shù)實(shí)現(xiàn)FFT算法流水、循環(huán)等并行化參數(shù)的可配置問題,兼顧FFT轉(zhuǎn)換點(diǎn)數(shù)、輸入輸出數(shù)據(jù)位寬、蝶形運(yùn)算基數(shù)、輸入輸出FIFO深度的可配置,滿足不同應(yīng)用條件下IP復(fù)用的需求,適應(yīng)各種環(huán)境和數(shù)據(jù)吞吐量的FFT運(yùn)算。可配置FFTIP核功能組成如圖1所示。
如圖1所示,該IP主要包括RAM、ROM、地址產(chǎn)生模塊、移位模塊、選擇數(shù)據(jù)排序模塊、可配置蝶形運(yùn)算單元、精度調(diào)整模塊和輸出數(shù)據(jù)排序模塊,Din_R和Din_I是FFT輸入數(shù)據(jù)的實(shí)部和虛部,Dout_R和Dout_I是FFT變換結(jié)果的實(shí)部和虛部。RAM1和RAM2存儲(chǔ)了FFT迭代過程中的輸入數(shù)據(jù),RAM3和RAM4存儲(chǔ)了FFT迭代過程中的計(jì)算結(jié)果,RAM1和RAM2、RAM3和RAM4均為乒乓結(jié)構(gòu)。地址產(chǎn)生模塊主要產(chǎn)生向RAM寫入數(shù)據(jù)和從RAM讀出數(shù)據(jù)的地址。ROM中存儲(chǔ)了FFT需要的旋轉(zhuǎn)因子。
2.1 IP核整體方案
設(shè)計(jì)可配置FFT處理,其整體結(jié)構(gòu)如圖2所示,設(shè)計(jì)采用基2蝶形和基4蝶形運(yùn)算兩種配置方式,供用戶選擇。輸入數(shù)據(jù)實(shí)部和虛部分開存儲(chǔ),需4個(gè)RAM,為實(shí)現(xiàn)對(duì)連續(xù)流輸入可連續(xù)流輸出,其模塊構(gòu)成如圖2所示。
如圖2所示,外部輸入數(shù)據(jù)的實(shí)數(shù)部分Din_R、虛數(shù)部分Din_I,以及輸入數(shù)據(jù)的地址信號(hào)ADR,首先進(jìn)入RAM_ADDR單元,選擇合適的時(shí)鐘周期將不同點(diǎn)數(shù)的原始數(shù)據(jù)送入RAM單元,當(dāng)輸入數(shù)據(jù)的實(shí)數(shù)和虛數(shù)以及其地址準(zhǔn)備好的時(shí)候,RDY輸出1。BIT_SFT單元完成輸入數(shù)據(jù)地址的移位變換,實(shí)現(xiàn)奇偶分離。當(dāng)數(shù)據(jù)地址準(zhǔn)備好時(shí),RDY輸出1,當(dāng)RAM_ADDR或BIT_SFT這兩個(gè)單元中的一個(gè)單元準(zhǔn)備好時(shí),便可觸發(fā)RAM單元,將外部數(shù)據(jù)寫入到RAM的指定地址。RAM中的數(shù)據(jù)符合可配置點(diǎn)數(shù)要求后,進(jìn)入NUM_IN單元,其中輸出的數(shù)據(jù)DOR/DOI就是符合基2蝶形或基4蝶形運(yùn)算的數(shù)據(jù)順序。這些原始數(shù)據(jù)進(jìn)入蝶形運(yùn)算單元BUTTERFLY,蝶形單元通過U_SELECT單元選擇蝶形運(yùn)算的分解基,實(shí)現(xiàn)基2蝶形運(yùn)算、基4蝶形運(yùn)算的可配置功能。其中R4_FFT是基4蝶形運(yùn)算單元,B2_FFT是基2蝶形運(yùn)算單元,蝶形運(yùn)算過程中所需的旋轉(zhuǎn)因子存儲(chǔ)在ROM_RAT單元中,根據(jù)選擇不同分解基的蝶形運(yùn)算,BUTIERFLY單元產(chǎn)生相應(yīng)的地址,選擇其計(jì)算過程中的旋轉(zhuǎn)因子。當(dāng)?shù)芜\(yùn)算完成后,結(jié)果數(shù)據(jù)進(jìn)入U(xiǎn)_CNORM單元,進(jìn)行順序調(diào)整和精度處理;其中PR信號(hào)是用戶指定的精度信號(hào),PR[1:0]可提供3種精度,OVF信號(hào)是數(shù)據(jù)溢出信號(hào),若置1表明FFT結(jié)果數(shù)據(jù)超出了表示范圍,則要按照截位處理以保證數(shù)據(jù)準(zhǔn)確。當(dāng)數(shù)據(jù)輸入完成后,結(jié)果數(shù)據(jù)進(jìn)入NUM_OUT單元,由于DIT算法輸出結(jié)果以倒序形式輸出,所有需要NUM_OUT進(jìn)行地址調(diào)整,F(xiàn)FT變換結(jié)束后的結(jié)果實(shí)數(shù)部分Dout_R,虛數(shù)部分是Dout_I,地址信號(hào)是R_ADDR,以正確的順序和形式輸出。
2.2 可配置蝶形單元模塊
在FFT IP核的蝶形運(yùn)算單元設(shè)計(jì)中,蝶形單元的運(yùn)算過程:第一個(gè)時(shí)鐘周期是將下結(jié)點(diǎn)與旋轉(zhuǎn)因子復(fù)乘的實(shí)數(shù)乘法進(jìn)行計(jì)算;第二個(gè)時(shí)鐘周期是將復(fù)乘中的實(shí)數(shù)進(jìn)行加減運(yùn)算;在第三個(gè)時(shí)鐘周期是計(jì)算復(fù)乘結(jié)果與上結(jié)點(diǎn)的加減運(yùn)算,即將蝶形運(yùn)算單元的結(jié)果輸出??膳渲玫芜\(yùn)算通過在基2和基4兩種分解基之間切換來實(shí)現(xiàn),其模塊圖如圖3所示。
如圖3所示,數(shù)據(jù)輸入時(shí)能信號(hào)EN信號(hào)置1,則整個(gè)蝶形運(yùn)算單元的數(shù)據(jù)輸入模塊NUM_IN、旋轉(zhuǎn)因子模塊ROM_RAT、分解基選擇模塊U_SELECT進(jìn)入使能狀態(tài);START信號(hào)置1,則分解基選擇單元U_SELECT模塊開始進(jìn)入狀態(tài)機(jī)。根據(jù)用戶設(shè)置,如果選擇基2算法蝶形運(yùn)算單元,則將輸入數(shù)據(jù)的實(shí)部和虛部送入R2_FFT模塊;如果選擇基4算法蝶形運(yùn)算單元,則將輸入數(shù)據(jù)的實(shí)部和虛部送入R4_FFT模塊;如果選擇混合基,則需要在狀態(tài)機(jī)中加入判斷條件,準(zhǔn)確控制分支。當(dāng)?shù)芜\(yùn)算完成時(shí),F(xiàn)FT運(yùn)算結(jié)果數(shù)據(jù)的實(shí)數(shù)部分Dout_R[nb+2:0],虛數(shù)部分Dout_I[nb+2:0]比輸入數(shù)據(jù)的位數(shù)[nb:0]擴(kuò)展了3位,用于精度調(diào)整模塊進(jìn)行精度控制。
蝶形運(yùn)算的旋轉(zhuǎn)因子存儲(chǔ)在ROM_RAT中,其中存儲(chǔ)了基4運(yùn)算和基2運(yùn)算的旋轉(zhuǎn)因子,實(shí)部和虛部分開存儲(chǔ),通過外部信號(hào)EN對(duì)其使能,為控制ROM存儲(chǔ)空間的占用,不同分解基的旋轉(zhuǎn)因子可公用,通過地址信號(hào)ADR選取控制。
3 仿真、綜合結(jié)果分析與驗(yàn)證
將設(shè)計(jì)的IP核進(jìn)行基于ModelSim的仿真,設(shè)置時(shí)鐘頻率為200 MHz,數(shù)據(jù)位寬為36位,在基2和基4兩種分解基下,分析1 024點(diǎn)和4 096點(diǎn)的運(yùn)算效率,其仿真圖像如下所示。
圖4是1 024,點(diǎn)的基2算法仿真結(jié)果,在這種算法下完成數(shù)據(jù)錄入的時(shí)間點(diǎn)為113.1μs,完成結(jié)果輸出的時(shí)間點(diǎn)為123.4μs,運(yùn)算時(shí)間為10.3μs。圖5是1 024點(diǎn)的基4算法仿真結(jié)果,在該種算法下完成數(shù)據(jù)錄入的時(shí)間點(diǎn)51.3μs,完成結(jié)果輸出的時(shí)間點(diǎn)是61.6μs,運(yùn)算時(shí)間為8.3 μs。
圖6是4 096點(diǎn)的基2算法仿真結(jié)果,在這種算法下完成數(shù)據(jù)錄入的時(shí)間點(diǎn)533.1μs,完成結(jié)果輸出的時(shí)間點(diǎn)是574.1μs,運(yùn)算時(shí)間為40 μs。圖7是4096點(diǎn)的基4算法仿真結(jié)果,在該種算法下完成數(shù)據(jù)錄入的時(shí)間點(diǎn)為245.7 μs,完成結(jié)果輸出的時(shí)間點(diǎn)是286.9μs,運(yùn)算時(shí)間為41.2μs。
板級(jí)驗(yàn)證選用Xilinx公司的Virtex-5 xc5vfx70t器件進(jìn)行綜合、布局布線和時(shí)序分析。將得到的數(shù)據(jù)與其他設(shè)計(jì)實(shí)現(xiàn)進(jìn)行比較,其消耗的資源,以及在200 MHz時(shí)鐘情況下不同點(diǎn)數(shù)的FFT處理器進(jìn)行一次處理需要的時(shí)間,與文獻(xiàn)換算后得到的數(shù)值對(duì)比如表1所示。
4 結(jié)束語
本文設(shè)計(jì)的可配置FFT IP核具有靈活性強(qiáng)、容易擴(kuò)展和設(shè)計(jì)可復(fù)用的特點(diǎn),實(shí)現(xiàn)分解基可配置、位寬可配置、輸入輸出點(diǎn)數(shù)可配置。從驗(yàn)證結(jié)果可以看出,本文數(shù)據(jù)的可配置IP核具有結(jié)構(gòu)簡(jiǎn)單及占用硬件資源適當(dāng)?shù)奶攸c(diǎn),在FPGA中以實(shí)現(xiàn)高速數(shù)字信號(hào)處理,在處理速度和靈活性方面更有優(yōu)勢(shì)。隨著處理點(diǎn)數(shù)的增加,其優(yōu)越性將更加明顯。
評(píng)論