一種基于FPGA硬件求解函數(shù)的簡化方法

作者：時間：2018-07-24 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

摘要：本文研究了一種運用FPGA進行數(shù)據(jù)處理的方法，包括：提取輸入數(shù)據(jù)的高log2M個比特位的數(shù)據(jù)，作為高有效位，根據(jù)預(yù)先設(shè)置的目標函數(shù)的計算表格，查找所述高有效位對應(yīng)的目標函數(shù)值y(n)以及高有效位+1對應(yīng)的目標函數(shù)值y(n+1);提取輸入數(shù)據(jù)的剩余比特位數(shù)據(jù)，作為低有效位，并將所述低有效位與y(n)和y(n+1)的差值相乘，得到偏移值off(n)，將該偏移值與所述高有效位對應(yīng)的目標函數(shù)值y(n)相加，將計算結(jié)果作為所述輸入數(shù)據(jù)對應(yīng)的目標函數(shù)值。本方法具有控制簡單、結(jié)構(gòu)規(guī)則、單運算周期、計算精度較高的特點，適合于FPGA的數(shù)據(jù)處理實現(xiàn)。

本文引用地址：http://www.butianyuan.cn/article/201807/383564.htm

引言

現(xiàn)場可編程門陣列(FPGA)芯片在許多領(lǐng)域均有廣泛的應(yīng)用，尤其是在無線通信領(lǐng)域。FPGA具有極強的實時性和并行處理能力，這使其對信號進行實時處理成為可能。FPGA內(nèi)部一般都包含邏輯單元(查找表/觸發(fā)器)、存儲單元(BRAM)、乘加單元(MAC)和一些其他的時鐘、引腳單元等[1-3]。

現(xiàn)代數(shù)字信號處理的主要發(fā)展趨勢是：算法結(jié)構(gòu)日趨復(fù)雜，計算量大，實時性要求高，并且包含大量的三角函數(shù)、開方、對數(shù)等復(fù)雜函數(shù)的計算。但FPGA內(nèi)部的乘加單元并不適合直接進行此類函數(shù)的計算，需要把各種復(fù)雜函數(shù)分解為簡單的移位、加法和乘法結(jié)構(gòu)，進而在FPGA中實現(xiàn)[4]。

當前，在FPGA上實現(xiàn)三角函數(shù)、開方、對數(shù)等復(fù)雜函數(shù)的計算，技術(shù)領(lǐng)域最常見的是除法，其次為開方和三角函數(shù)，很少涉及對數(shù)和其他復(fù)雜一些的函數(shù)。而在FPGA具體的實現(xiàn)上，此類函數(shù)一般采用直接查表法或冪級數(shù)展開法，對于三角函數(shù)和開方的計算，也會采用CORDIC的計算方法，但這三種方法的應(yīng)用都有一定的局限性[4]。

1 現(xiàn)有的FPGA實現(xiàn)方法

(1)在FPGA上采用直接查表方法，來實現(xiàn)函數(shù)的計算，具有：

優(yōu)點——通用性強、結(jié)構(gòu)簡單;

缺點——隨著輸入位寬的增加，內(nèi)部存儲量的消耗呈指數(shù)性增長。

表1給出了不同輸入輸出位寬所需要的存儲單元(BRAM)。

表1 不同輸入輸出位寬所需要的存儲單元

可以看出，輸入輸出位寬較小時，直接查表法可以滿足實現(xiàn)要求，但在數(shù)字信號處理領(lǐng)域，輸入輸出一般都在16bits以上，這時采用直接查表法就很難滿足實現(xiàn)需求。

這里以開方算法為例進行說明。采用直接查表法進行開方計算有2種方式。

方式一：在完全保證精度的條件下，采用直接查表法。若開方為16bits輸入16bits輸出，在完全保證精度的條件下，F(xiàn)PGA就需要存儲216深度的數(shù)據(jù)，需要64塊18k BRAM的存儲空間。而一片中等FPGA一般包含幾十塊到幾百塊的18k BRAM存儲單元，此時計算就要用掉大部分的存儲單元，顯然不滿足實現(xiàn)的資源需求。

方式二：降低精度，減少輸入位寬，采用直接查表法。

表2 直接查表法開方誤差表

可以看出，隨著實際有效輸入的增加，計算精度變大，很難滿足計算的誤差要求。

(2)在FPGA上采用冪級數(shù)展開法計算函數(shù)。

優(yōu)點——計算精度可控，多級展開可以達到較高的計算精度;

缺點——冪級數(shù)展開法為了達到較高的精度，需要多級展開，這樣就需要采用較多的資源來實現(xiàn)。

以exp為例(0～π/4范圍內(nèi))，采用三角函數(shù)冪級數(shù)展開法：

若輸入為16bits，采用冪級數(shù)展開法的計算框圖如圖1。

從資源方面考慮，三角函數(shù)冪級數(shù)展開法在FPGA中的實現(xiàn)需要5級乘法和3級加法，考慮每級乘法位寬需要擴展，實際需要FPGA的12個乘法器

(18bitsmes;18bits)資源。此外從誤差方面考慮，0～π/4范圍內(nèi)，cosΦ的最大誤差為0.046%， sinΦ的最大誤差為0.35%。

圖 1 冪級數(shù)展開法實現(xiàn)exp計算

此外冪級數(shù)展開法的應(yīng)用范圍也比較有限，開方、倒數(shù)、對數(shù)、三角函數(shù)的計算可以采用冪級數(shù)展開法，但對于等較復(fù)雜的函數(shù)計算就不再適合用此方法進行計算。

(3)在FPGA上采用CORDIC法來實現(xiàn)函數(shù)的計算。

優(yōu)點：將復(fù)雜的運算分解為簡單移位、加迭代

運算，結(jié)構(gòu)規(guī)則，運算周期可以預(yù)測，比較適合于FPGA實現(xiàn);

缺點：一般使用多周期方式，單周期方式資源消耗較高，并且計算僅限于向量旋轉(zhuǎn)、開方等有限的范圍。

采用CORCIC計算三角函數(shù)，16bits輸入，在多周期條件下需要500個左右的LUT/FFs，在單周期條件下，需要1000個左右的LUT/FFs。

2 本文提出的方法

本文在FPGA上采用兩級方法進行函數(shù)計算：第一級，直接利用輸入數(shù)據(jù)的高有效位確定計算結(jié)果的有效范圍;第二級，直接利用輸入數(shù)據(jù)的低有效位進行計算結(jié)果的誤差調(diào)整。本研究方法充分利用FPGA內(nèi)部的各種邏輯資源、乘加器(或乘法器)資源和BRAM資源：可以根據(jù)FPGA內(nèi)部BRAM資源的大小采用相應(yīng)深度的數(shù)據(jù)表存儲第一級數(shù)據(jù)的有效范圍;采用FPGA內(nèi)部的乘加器(或乘法器)資源進行乘加操作。此方法具有控制簡單，結(jié)構(gòu)規(guī)則，單運算周期，計算精度較高的特點，適合于FPGA的算法實現(xiàn)。

此外，采用本研究方法的兩級計算的方法，不同函數(shù)的計算實現(xiàn)方法一致，只要修改第一級計算高有效位數(shù)據(jù)表格中的數(shù)據(jù)，就可以復(fù)用設(shè)計，有利于資源共享和模塊化實現(xiàn)。

圖2 FPGA兩級法進行函數(shù)的計算

同現(xiàn)有方案的比較分析：

(1)同直接查表法比較

以開方為例進行，資源和誤差的列表如表3?？梢钥闯觯谫Y源和誤差方面，本研究方法在FPGA上實現(xiàn)函數(shù)計算優(yōu)勢明顯。此外，F(xiàn)PGA可以通過增加存儲單元和擴展輸出位寬來進一步提高計算精度。

表3 兩級計算法開方同直接查表法誤差比較表

(2)同冪級數(shù)展開法的比較

首先，本問題出的新方法比冪級數(shù)展開法的應(yīng)用范圍更廣泛。其次，在同樣的函數(shù)下，以exp的計算為例，本文提出的新方法資源更好，誤差更小。在資源方面，F(xiàn)PGA上采用的兩級計算方法，同時計算只需要2個乘法器即可，遠遠少于冪級數(shù)展開法的資源消耗;在誤差方面，0～π/4范圍內(nèi)，16bits輸入，cosΦ和sinΦ的最大誤差都小于10-5，因此此方法誤差比冪級數(shù)展開法誤差要小。

(3)同CORDIC方法比較

首先，本文提出的新方法比冪級數(shù)展開法的應(yīng)用范圍更廣泛。其次，在同樣的函數(shù)下，以exp的計算為例，新方法資源消耗相對較少，cosΦ和sinΦ同時計算只需要300個左右的LUT/FFs即可。而且，新方法采用的是單運算周期模式，運算速度更高。

3 實現(xiàn)流程

如圖3所示，本論文采取的實現(xiàn)方法如下：

步驟一：根據(jù)一維函數(shù)的計算，預(yù)先生成一定深度的計算表格;

步驟二：移位(可選)，把數(shù)據(jù)的高有效位移位成1，增加較小數(shù)據(jù)的計算精度;

步驟三：提取數(shù)據(jù)的高bits，作為第一級數(shù)據(jù)表的地址，得到數(shù)據(jù)值y(n);

步驟四：提取數(shù)據(jù)的高bits，加1后作為第一級數(shù)據(jù)表的地址，得到下一個數(shù)據(jù)值y(n+1);

步驟五：計算差值diff(n)=y(n+1)-y(n);

步驟六：提取數(shù)據(jù)的低bits，作為有效的偏移數(shù)據(jù)，同計算的差值相乘，得到偏移off(n)=data_lsb(n)*diff(n);

步驟七：高位查表數(shù)據(jù)值y(n)同偏移相加得到計算值out=y(n)+off(n);

步驟八：根據(jù)步驟一的移位逆操作(可選)，得到實際輸出值。

圖3 FPGA兩級法求解函數(shù)的流程框圖

如圖4所示，對本研究方法進行進一步的詳細說明。

對于任意一個一維函數(shù)，若采樣點足夠密集，那么任何2個采樣點之間可以看作是線性關(guān)系，可以通過插值的方法來計算。

圖4 FPGA兩級法求解函數(shù)的詳細說明

由圖6可得出，兩極法的誤差范圍更小。

4 結(jié)論

在現(xiàn)代數(shù)字信號處理方面，F(xiàn)PGA具有極強的實時性和并行處理能力[5]。在FPGA的實現(xiàn)上，本文介紹了現(xiàn)有的直接查表法、冪級數(shù)展開法、CORDIC計算方法的優(yōu)缺點。在此基礎(chǔ)上，本文研究了基于FPGA的兩極計算法，并把它和以上三種方法進行比較，得出兩極算法具有控制簡單、結(jié)構(gòu)規(guī)則、單運算周期、計算精度較高的特點。此外，本文詳細介紹了兩極算法的實現(xiàn)流程，并舉例來進行說明，使讀者能夠更好地掌握兩極算法。

參考文獻

Xilinx-Virtex7 Data Sheets. 2014.11.

Xilinx-Virtex7 User Guides. 2014.11.

Altera-StraTIx V Device Datasheet. 2015.7.

貝耶爾.數(shù)字信號處理的FPGA實現(xiàn)(第3版)[M].2011.

John G.Proakis，Dimitris G.Manolakis.數(shù)字信號處理DD原理、算法與應(yīng)用(第四版)[M].