四種常用FPGA/CPLD設計思想與技巧

作者：時間：2008-04-24 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　本文討論的四種常用FPGA/CPLD設計思想與技巧：乒乓操作、串并轉(zhuǎn)換、流水線操作、數(shù)據(jù)接口同步化，都是FPGA/CPLD邏輯設計的內(nèi)在規(guī)律的體現(xiàn)，合理地采用這些設計思想能在FPGA/CPLD設計工作種取得事半功倍的效果。

　　FPGA/CPLD的設計思想與技巧是一個非常大的話題，由于篇幅所限，本文僅介紹一些常用的設計思想與技巧，包括乒乓球操作、串并轉(zhuǎn)換、流水線操作和數(shù)據(jù)接口的同步方法。希望本文能引起工程師們的注意，如果能有意識地利用這些原則指導日后的設計工作，將取得事半功倍的效果！

　　乒乓操作

　　“乒乓操作”是一個常常應用于數(shù)據(jù)流控制的處理技巧，典型的乒乓操作方法如圖1所示。

　　乒乓操作的處理流程為：輸入數(shù)據(jù)流通過“輸入數(shù)據(jù)選擇單元”將數(shù)據(jù)流等時分配到兩個數(shù)據(jù)緩沖區(qū)，數(shù)據(jù)緩沖模塊可以為任何存儲模塊，比較常用的存儲單元為雙口RAM(DPRAM)、單口RAM(SPRAM)、FIFO等。在第一個緩沖周期，將輸入的數(shù)據(jù)流緩存到“數(shù)據(jù)緩沖模塊1”；在第2個緩沖周期，通過“輸入數(shù)據(jù)選擇單元”的切換，將輸入的數(shù)據(jù)流緩存到“數(shù)據(jù)緩沖模塊2”，同時將“數(shù)據(jù)緩沖模塊1”緩存的第1個周期數(shù)據(jù)通過“輸入數(shù)據(jù)選擇單元”的選擇，送到“數(shù)據(jù)流運算處理模塊”進行運算處理；在第3個緩沖周期通過“輸入數(shù)據(jù)選擇單元”的再次切換，將輸入的數(shù)據(jù)流緩存到“數(shù)據(jù)緩沖模塊1”，同時將“數(shù)據(jù)緩沖模塊2”緩存的第2個周期的數(shù)據(jù)通過“輸入數(shù)據(jù)選擇單元”切換，送到“數(shù)據(jù)流運算處理模塊”進行運算處理。如此循環(huán)。

　　乒乓操作的最大特點是通過“輸入數(shù)據(jù)選擇單元”和“輸出數(shù)據(jù)選擇單元”按節(jié)拍、相互配合的切換，將經(jīng)過緩沖的數(shù)據(jù)流沒有停頓地送到“數(shù)據(jù)流運算處理模塊”進行運算與處理。把乒乓操作模塊當做一個整體，站在這個模塊的兩端看數(shù)據(jù)，輸入數(shù)據(jù)流和輸出數(shù)據(jù)流都是連續(xù)不斷的，沒有任何停頓，因此非常適合對數(shù)據(jù)流進行流水線式處理。所以乒乓操作常常應用于流水線式算法，完成數(shù)據(jù)的無縫緩沖與處理。

　　乒乓操作的第二個優(yōu)點是可以節(jié)約緩沖區(qū)空間。比如在WCDMA基帶應用中，1個幀是由15個時隙組成的，有時需要將1整幀的數(shù)據(jù)延時一個時隙后處理，比較直接的辦法是將這幀數(shù)據(jù)緩存起來，然后延時1個時隙進行處理。這時緩沖區(qū)的長度是1整幀數(shù)據(jù)長，假設數(shù)據(jù)速率是3.84Mbps，1幀長10ms，則此時需要緩沖區(qū)長度是38400位。如果采用乒乓操作，只需定義兩個能緩沖1個時隙數(shù)據(jù)的RAM(單口RAM即可)。

　　當向一塊RAM寫數(shù)據(jù)的時候，從另一塊RAM讀數(shù)據(jù)，然后送到處理單元處理，此時每塊RAM的容量僅需2560位即可，2塊RAM加起來也只有5120位的容量。

　　另外，巧妙運用乒乓操作還可以達到用低速模塊處理高速數(shù)據(jù)流的效果。如圖2所示，數(shù)據(jù)緩沖模塊采用了雙口RAM，并在DPRAM后引入了一級數(shù)據(jù)預處理模塊，這個數(shù)據(jù)預處理可以根據(jù)需要的各種數(shù)據(jù)運算，比如在WCDMA設計中，對輸入數(shù)據(jù)流的解擴、解擾、去旋轉(zhuǎn)等。假設端口A的輸入數(shù)據(jù)流的速率為100Mbps，乒乓操作的緩沖周期是10ms。以下分析各個節(jié)點端口的數(shù)據(jù)速率。

　　A端口處輸入數(shù)據(jù)流速率為100Mbps，在第1個緩沖周期10ms內(nèi)，通過“輸入數(shù)據(jù)選擇單元”，從B1到達DPRAM1。B1的數(shù)據(jù)速率也是100Mbps，DPRAM1要在10ms內(nèi)寫入1Mb數(shù)據(jù)。同理，在第2個10ms，數(shù)據(jù)流被切換到DPRAM2，端口B2的數(shù)據(jù)速率也是100Mbps，DPRAM2在第2個10ms被寫入1Mb數(shù)據(jù)。在第3個10ms，數(shù)據(jù)流又切換到DPRAM1，DPRAM1被寫入1Mb數(shù)據(jù)。

　　仔細分析就會發(fā)現(xiàn)到第3個緩沖周期時，留給DPRAM1讀取數(shù)據(jù)并送到“數(shù)據(jù)預處理模塊1”的時間一共是20ms。有的工程師困惑于DPRAM1的讀數(shù)時間為什么是20ms，這個時間是這樣得來的：首先，在在第2個緩沖周期向DPRAM2寫數(shù)據(jù)的10ms內(nèi)，DPRAM1可以進行讀操作；另外，在第1個緩沖周期的第5ms起(絕對時間為5ms時刻)，DPRAM1就可以一邊向500K以后的地址寫數(shù)據(jù)，一邊從地址0讀數(shù)，到達10ms時，DPRAM1剛好寫完了1Mb數(shù)據(jù)，并且讀了500K數(shù)據(jù)，這個緩沖時間內(nèi)DPRAM1讀了5ms；在第3個緩沖周期的第5ms起(絕對時間為35ms時刻)，同理可以一邊向500K以后的地址寫數(shù)據(jù)一邊從地址0讀數(shù)，又讀取了5個ms，所以截止DPRAM1第一個周期存入的數(shù)據(jù)被完全覆蓋以前，DPRAM1最多可以讀取20ms時間，而所需讀取的數(shù)據(jù)為1Mb，所以端口C1的數(shù)據(jù)速率為：1Mb/20ms=50Mbps。因此，“數(shù)據(jù)預處理模塊1”的最低數(shù)據(jù)吞吐能力也僅僅要求為50Mbps。同理，“數(shù)據(jù)預處理模塊2”的最低數(shù)據(jù)吞吐能力也僅僅要求為50Mbps。換言之，通過乒乓操作，“數(shù)據(jù)預處理模塊”的時序壓力減輕了，所要求的數(shù)據(jù)處理速率僅僅為輸入數(shù)據(jù)速率的1/2。

　　通過乒乓操作實現(xiàn)低速模塊處理高速數(shù)據(jù)的實質(zhì)是：通過DPRAM這種緩存單元實現(xiàn)了數(shù)據(jù)流的串并轉(zhuǎn)換，并行用“數(shù)據(jù)預處理模塊1”和“數(shù)據(jù)預處理模塊2”處理分流的數(shù)據(jù)，是面積與速度互換原則的體現(xiàn)！

　　串并轉(zhuǎn)換設計技巧

　　串并轉(zhuǎn)換是FPGA設計的一個重要技巧，它是數(shù)據(jù)流處理的常用手段，也是面積與速度互換思想的直接體現(xiàn)。

　　串并轉(zhuǎn)換的實現(xiàn)方法多種多樣，根據(jù)數(shù)據(jù)的排序和數(shù)量的要求，可以選用寄存器、RAM等實現(xiàn)。前面在乒乓操作的圖例中，就是通過DPRAM實現(xiàn)了數(shù)據(jù)流的串并轉(zhuǎn)換，而且由于使用了DPRAM，數(shù)據(jù)的緩沖區(qū)可以開得很大，對于數(shù)量比較小的設計可以采用寄存器完成串并轉(zhuǎn)換。如無特殊需求，應該用同步時序設計完成串并之間的轉(zhuǎn)換。比如數(shù)據(jù)從串行到并行，數(shù)據(jù)排列順序是高位在前，可以用下面的編碼實現(xiàn)：

　　prl_temp={prl_temp,srl_in};

　　其中，prl_temp是并行輸出緩存寄存器，srl_in是串行數(shù)據(jù)輸入。

　　對于排列順序有規(guī)定的串并轉(zhuǎn)換，可以用case語句判斷實現(xiàn)。對于復雜的串并轉(zhuǎn)換，還可以用狀態(tài)機實現(xiàn)。串并轉(zhuǎn)換的方法比較簡單，在此不必贅述。

　　流水線操作設計思想

　　首先需要聲明的是，這里所講述的流水線是指一種處理流程和順序操作的設計思想，并非FPGA、ASIC設計中優(yōu)化時序所用的“Pipelining”。

　　流水線處理是高速設計中的一個常用設計手段。如果某個設計的處理流程分為若干步驟，而且整個數(shù)據(jù)處理是“單流向”的，即沒有反饋或者迭代運算，前一個步驟的輸出是下一個步驟的輸入，則可以考慮采用流水線設計方法來提高系統(tǒng)的工作頻率。

　　流水線設計的結(jié)構(gòu)示意圖如圖3所示。其基本結(jié)構(gòu)為：將適當劃分的n個操作步驟單流向串聯(lián)起來。流水線操作的最大特點和要求是，數(shù)據(jù)流在各個步驟的處理從時間上看是連續(xù)的，如果將每個操作步驟簡化假設為通過一個D觸發(fā)器(就是用寄存器打一個節(jié)拍)，那么流水線操作就類似一個移位寄存器組，數(shù)據(jù)流依次流經(jīng)D觸發(fā)器，完成每個步驟的操作。流水線設計時序如圖4所示。

　　流水線設計的一個關鍵在于整個設計時序的合理安排，要求每個操作步驟的劃分合理。如果前級操作時間恰好等于后級的操作時間，設計最為簡單，前級的輸出直接匯入后級的輸入即可；如果前級操作時間大于后級的操作時間，則需要對前級的輸出數(shù)據(jù)適當緩存才能匯入到后級輸入端；如果前級操作時間恰好小于后級的操作時間，則必須通過復制邏輯，將數(shù)據(jù)流分流，或者在前級對數(shù)據(jù)采用存儲、后處理方式，否則會造成后級數(shù)據(jù)溢出。

　　在WCDMA設計中經(jīng)常使用到流水線處理的方法，如RAKE接收機、搜索器、前導捕獲等。流水線處理方式之所以頻率較高，是因為復制了處理模塊，它是面積換取速度思想的又一種具體體現(xiàn)。

　　數(shù)據(jù)接口的同步方法

　　數(shù)據(jù)接口的同步是FPGA/CPLD設計的一個常見問題，也是一個重點和難點，很多設計不穩(wěn)定都是源于數(shù)據(jù)接口的同步有問題。

　　在電路圖設計階段，一些工程師手工加入BUFT或者非門調(diào)整數(shù)據(jù)延遲，從而保證本級模塊的時鐘對上級模塊數(shù)據(jù)的建立、保持時間要求。還有一些工程師為了有穩(wěn)定的采樣，生成了很多相差90度的時鐘信號，時而用正沿打一下數(shù)據(jù)，時而用負沿打一下數(shù)據(jù)，用以調(diào)整數(shù)據(jù)的采樣位置。這兩種做法都十分不可取，因為一旦芯片更新?lián)Q代或者移植到其它芯片組的芯片上，采樣實現(xiàn)必須從新設計。而且，這兩種做法造成電路實現(xiàn)的余量不夠，一旦外界條件變換(比如溫度升高)，采樣時序就有可能完全紊亂，造成電路癱瘓。

　　下面簡單介紹幾種不同情況下數(shù)據(jù)接口的同步方法：

　　1. 輸入、輸出的延時(芯片間、PCB布線、一些驅(qū)動接口元件的延時等)不可測，或者有可能變動的條件下，如何完成數(shù)據(jù)同步？

　　對于數(shù)據(jù)的延遲不可測或變動，就需要建立同步機制，可以用一個同步使能或同步指示信號。另外，使數(shù)據(jù)通過RAM或者FIFO的存取，也可以達到數(shù)據(jù)同步目的。

　　把數(shù)據(jù)存放在RAM或FIFO的方法如下：將上級芯片提供的數(shù)據(jù)隨路時鐘作為寫信號，將數(shù)據(jù)寫入RAM或者FIFO，然后使用本級的采樣時鐘(一般是數(shù)據(jù)處理的主時鐘)將數(shù)據(jù)讀出來即可。這種做法的關鍵是數(shù)據(jù)寫入RAM或者FIFO要可靠，如果使用同步RAM或者FIFO，就要求應該有一個與數(shù)據(jù)相對延遲關系固定的隨路指示信號，這個信號可以是數(shù)據(jù)的有效指示，也可以是上級模塊將數(shù)據(jù)打出來的時鐘。對于慢速數(shù)據(jù)，也可以采樣異步RAM或者FIFO，但是不推薦這種做法。

　　數(shù)據(jù)是有固定格式安排的，很多重要信息在數(shù)據(jù)的起始位置，這種情況在通信系統(tǒng)中非常普遍。通訊系統(tǒng)中，很多數(shù)據(jù)是按照“幀”組織的。而由于整個系統(tǒng)對時鐘要求很高，常常專門設計一塊時鐘板完成高精度時鐘的產(chǎn)生與驅(qū)動。而數(shù)據(jù)又是有起始位置的，如何完成數(shù)據(jù)的同步，并發(fā)現(xiàn)數(shù)據(jù)的“頭”呢？

　　數(shù)據(jù)的同步方法完全可以采用上面的方法，采用同步指示信號，或者使用RAM、FIFO緩存一下。

　　找到數(shù)據(jù)頭的方法有兩種，第一種很簡單，隨路傳輸一個數(shù)據(jù)起始位置的指示信號即可，對于有些系統(tǒng)，特別是異步系統(tǒng)，則常常在數(shù)據(jù)中插入一段同步碼(比如訓練序列)，接收端通過狀態(tài)機檢測到同步碼后就能發(fā)現(xiàn)數(shù)據(jù)的“頭”了，這種做法叫做“盲檢測”。

　　上級數(shù)據(jù)和本級時鐘是異步的，也就是說上級芯片或模塊和本級芯片或模塊的時鐘是異步時鐘域的。

　　前面在輸入數(shù)據(jù)同步化中已經(jīng)簡單介紹了一個原則：如果輸入數(shù)據(jù)的節(jié)拍和本級芯片的處理時鐘同頻，可以直接用本級芯片的主時鐘對輸入數(shù)據(jù)寄存器采樣，完成輸入數(shù)據(jù)的同步化；如果輸入數(shù)據(jù)和本級芯片的處理時鐘是異步的，特別是頻率不匹配的時候，則只有用處理時鐘對輸入數(shù)據(jù)做兩次寄存器采樣，才能完成輸入數(shù)據(jù)的同步化。需要說明的是，用寄存器對異步時鐘域的數(shù)據(jù)進行兩次采樣，其作用是有效防止亞穩(wěn)態(tài)(數(shù)據(jù)狀態(tài)不穩(wěn)定)的傳播，使后級電路處理的數(shù)據(jù)都是有效電平。但是這種做法并不能保證兩級寄存器采樣后的數(shù)據(jù)是正確的電平，這種方式處理一般都會產(chǎn)生一定數(shù)量的錯誤電平數(shù)據(jù)。所以僅僅適用于對少量錯誤不敏感的功能單元。

　　為了避免異步時鐘域產(chǎn)生錯誤的采樣電平，一般使用RAM、FIFO緩存的方法完成異步時鐘域的數(shù)據(jù)轉(zhuǎn)換。最常用的緩存單元是DPRAM，在輸入端口使用上級時鐘寫數(shù)據(jù)，在輸出端口使用本級時鐘讀數(shù)據(jù)，這樣就非常方便的完成了異步時鐘域之間的數(shù)據(jù)交換。

　　2. 設計數(shù)據(jù)接口同步是否需要添加約束？

　　建議最好添加適當?shù)募s束，特別是對于高速設計，一定要對周期、建立、保持時間等添加相應的約束。

　　這里附加約束的作用有兩點：

　　a. 提高設計的工作頻率，滿足接口數(shù)據(jù)同步要求。通過附加周期、建立時間、保持時間等約束可以控制邏輯的綜合、映射、布局和布線，以減小邏輯和布線延時，從而提高工作頻率，滿足接口數(shù)據(jù)同步要求。

　　b. 獲得正確的時序分析報告。幾乎所有的FPGA設計平臺都包含靜態(tài)時序分析工具，利用這類工具可以獲得映射或布局布線后的時序分析報告，從而對設計的性能做出評估。靜態(tài)時序分析工具以約束作為判斷時序是否滿足設計要求的標準，因此要求設計者正確輸入約束，以便靜態(tài)時序分析工具輸出正確的時序分析報告。

　　Xilinx和數(shù)據(jù)接口相關的常用約束有Period、OFFSET_IN_BEFORE、OFFSET_IN_AFTER、OFFSET_OUT_BEFORE和OFFSET_OUT_AFTER等；Altera與數(shù)據(jù)接口相關的常用約束有Period、tsu、tH、tco等。

新聞中心

四種常用FPGA/CPLD設計思想與技巧

評論

相關推薦

技術專區(qū)