資深工程師FPGA設(shè)計(jì)經(jīng)驗(yàn)精華匯總

作者：時(shí)間：2017-10-28 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

　　從大學(xué)時(shí)代第一次接觸FPGA至今已有10多年的時(shí)間。至今記得當(dāng)初第一次在EDA實(shí)驗(yàn)平臺(tái)上完成數(shù)字秒表，搶答器，密碼鎖等實(shí)驗(yàn)時(shí)，那個(gè)興奮勁。當(dāng)時(shí)由于沒有接觸到HDL硬件描述語言，設(shè)計(jì)都是在MAX+plus II原理圖環(huán)境下用74系列邏輯器件搭建起來的。后來讀研究生，工作陸陸續(xù)續(xù)也用過Quartus II，F(xiàn)oundation，ISE，Libero，并且學(xué)習(xí)了verilogHDL語言，學(xué)習(xí)的過程中也慢慢體會(huì)到verilog的妙用，原來一小段語言就能完成復(fù)雜的原理圖設(shè)計(jì)，而且語言的移植性可操作性比原理圖設(shè)計(jì)強(qiáng)很多。

本文引用地址：http://www.butianyuan.cn/article/201710/368958.htm

　　工作過的朋友肯定知道，公司里是很強(qiáng)調(diào)規(guī)范的，特別是對(duì)于大的設(shè)計(jì)（無論軟件還是硬件），不按照規(guī)范走幾乎是不可實(shí)現(xiàn)的。邏輯設(shè)計(jì)也是這樣：如果不按規(guī)范做的話，過一個(gè)月后調(diào)試時(shí)發(fā)現(xiàn)有錯(cuò)，回頭再看自己寫的代碼，估計(jì)很多信號(hào)功能都忘了，更不要說檢錯(cuò)了；如果一個(gè)項(xiàng)目做了一半一個(gè)人走了，接班的估計(jì)得從頭開始設(shè)計(jì)；如果需要在原來的版本基礎(chǔ)上增加新功能，很可能也得從頭來過，很難做到設(shè)計(jì)的可重用性。在邏輯方面，我覺得比較重要的規(guī)范有這些：

　　1.設(shè)計(jì)必須文檔化。要將設(shè)計(jì)思路，詳細(xì)實(shí)現(xiàn)等寫入文檔，然后經(jīng)過嚴(yán)格評(píng)審?fù)ㄟ^后才能進(jìn)行下一步的工作。這樣做乍看起來很花時(shí)間，但是從整個(gè)項(xiàng)目過程來看，絕對(duì)要比一上來就寫代碼要節(jié)約時(shí)間，且這種做法可以使項(xiàng)目處于可控、可實(shí)現(xiàn)的狀態(tài)。

　　2.代碼規(guī)范。

　　如果在另一個(gè)設(shè)計(jì)中的時(shí)鐘是40ns，復(fù)位周期不變，我們只需對(duì)CLK_PERIOD進(jìn)行重新例化就行了，從而使得代碼更加易于重用。 b.信號(hào)命名要規(guī)范化。

　　1）信號(hào)名一律小寫，參數(shù)用大寫。

　　2）對(duì)于低電平有效的信號(hào)結(jié)尾要用_n標(biāo)記，如rst_n。

　　3）端口信號(hào)排列要統(tǒng)一，一個(gè)信號(hào)只占一行，最好按輸入輸出及從哪個(gè)模塊來到哪個(gè)模塊去的關(guān)系排列，這樣在后期仿真驗(yàn)證找錯(cuò)時(shí)后方便很多。

　　4）一個(gè)模塊盡量只用一個(gè)時(shí)鐘，這里的一個(gè)模塊是指一個(gè)module或者是一個(gè)entity。在多時(shí)鐘域的設(shè)計(jì)中涉及到跨時(shí)鐘域的設(shè)計(jì)中最好有專門一個(gè)模塊做時(shí)鐘域的隔離。這樣做可以讓綜合器綜合出更優(yōu)的結(jié)果。

　　5）盡量在底層模塊上做邏輯，在高層盡量做例化，頂層模塊只能做例化，禁止出現(xiàn)任何膠連邏輯（glue logic），哪怕僅僅是對(duì)某個(gè)信號(hào)取反。理由同上。

　　6）在FPGA的設(shè)計(jì)上禁止用純組合邏輯產(chǎn)生latch，帶D觸發(fā)器的latch的是允許的，比如配置寄存器就是這種類型。

　　7）一般來說，進(jìn)入FPGA的信號(hào)必須先同步，以提高系統(tǒng)工作頻率（板級(jí)）。

　　8）所有模塊的輸出都要寄存器化，以提高工作頻率，這對(duì)設(shè)計(jì)做到時(shí)序收斂也是極有好處的。

　　9）除非是低功耗設(shè)計(jì)，不然不要用門控時(shí)鐘--這會(huì)增加設(shè)計(jì)的不穩(wěn)定性，在要用到門控時(shí)鐘的地方，也要將門控信號(hào)用時(shí)鐘的下降沿打一拍再輸出與時(shí)鐘相與。

　　10）禁止用計(jì)數(shù)器分頻后的信號(hào)做其它模塊的時(shí)鐘，而要用改成時(shí)鐘使能的方式，否則這種時(shí)鐘滿天飛的方式對(duì)設(shè)計(jì)的可靠性極為不利，也大大增加了靜態(tài)時(shí)序分析的復(fù)雜性。如FPGA的輸入時(shí)鐘是25M的，現(xiàn)在系統(tǒng)內(nèi)部要通過RS232與PC通信，要以rs232_1xclk的速率發(fā)送數(shù)據(jù)。

　　時(shí)序是設(shè)計(jì)出來的

　　我的boss有在華為及峻龍工作的背景，自然就給我們講了一些華為及altera做邏輯的一些東西，而我們的項(xiàng)目規(guī)范，也基本上是按華為的那一套去做。在工作這幾個(gè)月中，給我感觸最深的是華為的那句話：時(shí)序是設(shè)計(jì)出來的，不是仿出來的，更不是湊出來的。在我們公司，每一個(gè)項(xiàng)目都有很嚴(yán)格的評(píng)審，只有評(píng)審?fù)ㄟ^了，才能做下一步的工作。以做邏輯為例，并不是一上來就開始寫代碼，而是要先寫總體設(shè)計(jì)方案和邏輯詳細(xì)設(shè)計(jì)方案，要等這些方案評(píng)審?fù)ㄟ^，認(rèn)為可行了，才能進(jìn)行編碼，一般來說這部分工作所占的時(shí)間要遠(yuǎn)大于編碼的時(shí)間。

　　總體方案主要是涉及模塊劃分，一級(jí)模塊和二級(jí)模塊的接口信號(hào)和時(shí)序（我們要求把接口信號(hào)的時(shí)序波形描述出來）以及將來如何測(cè)試設(shè)計(jì)。在這一級(jí)方案中，要保證在今后的設(shè)計(jì)中時(shí)序要收斂到一級(jí)模塊（最后是在二級(jí)模塊中）。什么意思呢？我們?cè)谧鲈敿?xì)設(shè)計(jì)的時(shí)候，對(duì)于一些信號(hào)的時(shí)序肯定會(huì)做一些調(diào)整的，但是這種時(shí)序的調(diào)整最多只能波及到本一級(jí)模塊，而不能影響到整個(gè)設(shè)計(jì)。記得以前在學(xué)校做設(shè)計(jì)的時(shí)候，由于不懂得設(shè)計(jì)時(shí)序，經(jīng)常因?yàn)橛幸惶幮盘?hào)的時(shí)序不滿足，結(jié)果不得不將其它模塊信號(hào)的時(shí)序也改一下，搞得人很郁悶。

　　在邏輯詳細(xì)設(shè)計(jì)方案這一級(jí)的時(shí)候，我們已經(jīng)將各級(jí)模塊的接口時(shí)序都設(shè)計(jì)出來了，各級(jí)模塊內(nèi)部是怎么實(shí)現(xiàn)的也基本上確定下來了。由于做到這一點(diǎn)，在編碼的時(shí)候自然就很快了，最重要的是這樣做后可以讓設(shè)計(jì)會(huì)一直處于可控的狀態(tài)，不會(huì)因?yàn)槟骋惶幍腻e(cuò)誤引起整個(gè)設(shè)計(jì)從頭進(jìn)行。

　　如何提高電路工作頻率

　　對(duì)于設(shè)計(jì)者來說，我們當(dāng)然希望我們?cè)O(shè)計(jì)的電路的工作頻率（在這里如無特別說明，工作頻率指FPGA片內(nèi)的工作頻率）盡量高。我們也經(jīng)常聽說用資源換速度，用流水的方式可以提高工作頻率，這確實(shí)是一個(gè)很重要的方法，今天我想進(jìn)一步去分析該如何提高電路的工作頻率。

　　我們先來分析下是什么影響了電路的工作頻率。

　　我們電路的工作頻率主要與寄存器到寄存器之間的信號(hào)傳播時(shí)延及clock skew有關(guān)。在FPGA內(nèi)部如果時(shí)鐘走長(zhǎng)線的話，clock skew很小，基本上可以忽略，在這里為了簡(jiǎn)單起見，我們只考慮信號(hào)的傳播時(shí)延的因素。信號(hào)的傳播時(shí)延包括寄存器的開關(guān)時(shí)延、走線時(shí)延、經(jīng)過組合邏輯的時(shí)延（這樣劃分或許不是很準(zhǔn)確，不過對(duì)分析問題來說應(yīng)該是沒有可以的），要提高電路的工作頻率，我們就要在這三個(gè)時(shí)延中做文章，使其盡可能的小。我們先來看開關(guān)時(shí)延，這個(gè)時(shí)延是由器件物理特性決定的，我們沒有辦法去改變，所以我們只能通過改變走線方式和減少組合邏輯的方法來提高工作頻率。

　　1.通過改變走線的方式減少時(shí)延。

　　以 Altera的器件為例，我們?cè)趒uartus里面的timing closure floorplan 可以看到有很多條條塊塊，我們可以將條條塊塊按行和按列分，每一個(gè)條塊代表1個(gè)LAB，每個(gè)LAB里有8個(gè)或者是10個(gè)LE。它們的走線時(shí)延的關(guān)系如下：同一個(gè)LAB中（最快）同列或者同行不同行且不同列。

　　我們通過給綜合器加適當(dāng)?shù)募s束（不可貪心，一般以加5%裕量較為合適，比如電路工作在100Mhz，則加約束加到105Mhz就可以了，貪心效果反而不好，且極大增加綜合時(shí)間）可以將相關(guān)的邏輯在布線時(shí)盡量布的靠近一點(diǎn)，從而減少走線的時(shí)延。（注：約束的實(shí)現(xiàn)不完全是通過改進(jìn)布局布線方式去提高工作頻率，還有其它的改進(jìn)措施）

　　2.通過減少組合邏輯的減少時(shí)延。

　　上面我們講了可以通過加約束來提高工作頻率，但是我們?cè)谧鲈O(shè)計(jì)之初可萬萬不可將提高工作頻率的美好愿望寄托在加約束上，我們要通過合理的設(shè)計(jì)去避免出現(xiàn)大的組合邏輯，從而提高電路的工作頻率，這才能增強(qiáng)設(shè)計(jì)的可移植性，才可以使得我們的設(shè)計(jì)在移植到另一同等速度級(jí)別的芯片時(shí)還能使用。

　　我們知道，目前大部分FPGA都基于4輸入LUT的，如果一個(gè)輸出對(duì)應(yīng)的判斷條件大于四輸入的話就要由多個(gè)LUT級(jí)聯(lián)才能完成，這樣就引入一級(jí)組合邏輯時(shí)延，我們要減少組合邏輯，無非就是要輸入條件盡可能的少，，這樣就可以級(jí)聯(lián)的LUT更少，從而減少了組合邏輯引起的時(shí)延。

　　我們平時(shí)聽說的流水就是一種通過切割大的組合邏輯（在其中插入一級(jí)或多級(jí)D觸發(fā)器，從而使寄存器與寄存器之間的組合邏輯減少）來提高工作頻率的方法。比如一個(gè)32位的計(jì)數(shù)器，該計(jì)數(shù)器的進(jìn)位鏈很長(zhǎng)，必然會(huì)降低工作頻率，我們可以將其分割成4位和8位的計(jì)數(shù)，每當(dāng)4位的計(jì)數(shù)器計(jì)到15后觸發(fā)一次8位的計(jì)數(shù)器，這樣就實(shí)現(xiàn)了計(jì)數(shù)器的切割，也提高了工作頻率。

　　在狀態(tài)機(jī)中，一般也要將大的計(jì)數(shù)器移到狀態(tài)機(jī)外，因?yàn)橛?jì)數(shù)器這東西一般是經(jīng)常是大于4輸入的，如果再和其它條件一起做為狀態(tài)的跳變判據(jù)的話，必然會(huì)增加LUT的級(jí)聯(lián)，從而增大組合邏輯。以一個(gè)6輸入的計(jì)數(shù)器為例，我們?cè)Ｍ?dāng)計(jì)數(shù)器計(jì)到111100后狀態(tài)跳變，現(xiàn)在我們將計(jì)數(shù)器放到狀態(tài)機(jī)外，當(dāng)計(jì)數(shù)器計(jì)到111011后產(chǎn)生個(gè)enable信號(hào)去觸發(fā)狀態(tài)跳變，這樣就將組合邏輯減少了。

　　上面說的都是可以通過流水的方式切割組合邏輯的情況，但是有些情況下我們是很難去切割組合邏輯的，在這些情況下我們又該怎么做呢？

　　狀態(tài)機(jī)就是這么一個(gè)例子，我們不能通過往狀態(tài)譯碼組合邏輯中加入流水。如果我們的設(shè)計(jì)中有一個(gè)幾十個(gè)狀態(tài)的狀態(tài)機(jī)，它的狀態(tài)譯碼邏輯將非常之巨大，毫無疑問，這極有可能是設(shè)計(jì)中的關(guān)鍵路徑。那我們?cè)撛趺醋瞿?？還是老思路，減少組合邏輯。我們可以對(duì)狀態(tài)的輸出進(jìn)行分析，對(duì)它們進(jìn)行重新分類，并根據(jù)這個(gè)重新定義成一組組小狀態(tài)機(jī)，通過對(duì)輸入進(jìn)行選擇（case語句）并去觸發(fā)相應(yīng)的小狀態(tài)機(jī)，從而實(shí)現(xiàn)了將大的狀態(tài)機(jī)切割成小的狀態(tài)機(jī)。在ATA6的規(guī)范中（硬盤的標(biāo)準(zhǔn)），輸入的命令大概有20十種，每一個(gè)命令又對(duì)應(yīng)很多種狀態(tài)，如果用一個(gè)大的狀態(tài)機(jī)（狀態(tài)套狀態(tài)）去做那是不可想象的，我們可以通過case語句去對(duì)命令進(jìn)行譯碼，并觸發(fā)相應(yīng)的狀態(tài)機(jī)，這樣做下來這一個(gè)模塊的頻率就可以跑得比較高了。

　　總結(jié)：提高工作頻率的本質(zhì)就是要減少寄存器到寄存器的時(shí)延，最有效的方法就是避免出現(xiàn)大的組合邏輯，也就是要盡量去滿足四輸入的條件，減少LUT級(jí)聯(lián)的數(shù)量。我們可以通過加約束、流水、切割狀態(tài)的方法提高工作頻率。

　　做邏輯的難點(diǎn)在于系統(tǒng)結(jié)構(gòu)設(shè)計(jì)和仿真驗(yàn)證

　　剛?cè)ス镜臅r(shí)候BOSS就和我講，做邏輯的難點(diǎn)不在于RTL級(jí)代碼的設(shè)計(jì)，而在于系統(tǒng)結(jié)構(gòu)設(shè)計(jì)和仿真驗(yàn)證方面。目前國內(nèi)對(duì)可綜合的設(shè)計(jì)強(qiáng)調(diào)的比較多，而對(duì)系統(tǒng)結(jié)構(gòu)設(shè)計(jì)和仿真驗(yàn)證方面似乎還沒有什么資料，這或許也從一個(gè)側(cè)面反映了國內(nèi)目前的設(shè)計(jì)水平還比較低下吧。以前在學(xué)校的時(shí)候，總是覺得將RTL級(jí)代碼做好就行了，仿真驗(yàn)證只是形式而已，所以對(duì)HDL的行為描述方面的語法不屑一顧，對(duì)testbench也一直不愿意去學(xué)--因?yàn)橛X得畫波形圖方便；對(duì)于系統(tǒng)結(jié)構(gòu)設(shè)計(jì)更是一點(diǎn)都不懂了。到了公司接觸了些東西才發(fā)現(xiàn)完全不是這樣。

　　其實(shí)在國外，花在仿真驗(yàn)證上的時(shí)間和人力大概是花在RTL級(jí)代碼上的兩倍，現(xiàn)在仿真驗(yàn)證才是百萬門級(jí)芯片設(shè)計(jì)的關(guān)鍵路徑。仿真驗(yàn)證的難點(diǎn)主要在于怎么建模才能完全和準(zhǔn)確地去驗(yàn)證設(shè)計(jì)的正確性（主要是提高代碼覆蓋），在這過程中，驗(yàn)證速度也是很重要的。

　　驗(yàn)證說白了也就是怎么產(chǎn)生足夠覆蓋率的激勵(lì)源，然后怎么去檢測(cè)錯(cuò)誤。我個(gè)人認(rèn)為，在仿真驗(yàn)證中，最基本就是要做到驗(yàn)證的自動(dòng)化。這也是為什么我們要寫testbench的原因。在我現(xiàn)在的一個(gè)設(shè)計(jì)中，每次跑仿真都要一個(gè)小時(shí)左右（這其實(shí)算小設(shè)計(jì)）由于畫波形圖無法做到驗(yàn)證自動(dòng)化，如果用通過畫波形圖來仿真的話，一是畫波形會(huì)畫死（特別是對(duì)于算法復(fù)雜的、輸入呈統(tǒng)計(jì)分布的設(shè)計(jì)），二是看波形圖要看死，三是檢錯(cuò)率幾乎為零。那么怎么做到自動(dòng)化呢？我個(gè)人的水平還很有限，只能簡(jiǎn)單地談下BFM（bus function model，總線功能模型）。

　　以做一個(gè)MAC的core為例（背板是PCI總線），那么我們需要一個(gè)MAC_BFM和PCI_BFM及PCI_BM（PCI behavior model）。MAC_BFM的主要功能是產(chǎn)生以太網(wǎng)幀（激勵(lì)源），隨機(jī)的長(zhǎng)度和幀頭，內(nèi)容也是隨機(jī)的，在發(fā)送的同時(shí)也將其復(fù)制一份到PCI_BM中；PCI_BFM的功能則是仿PCI總線的行為，比如被測(cè)收到了一個(gè)正確幀后會(huì)向PCI總線發(fā)送一個(gè)請(qǐng)求，PCI_BFM則會(huì)去響應(yīng)它，并將數(shù)據(jù)收進(jìn)來；PCI_BM的主要功能是將MAC_BFM發(fā)送出來的東西與PCI_BFM接收到的東西做比較，由于它具有了MAC_BFM的發(fā)送信息和PCI_BFM的接收信息，只要設(shè)計(jì)合理，它總是可以自動(dòng)地、完全地去測(cè)試被測(cè)是否工作正常，從而實(shí)現(xiàn)自動(dòng)檢測(cè)。華為在仿真驗(yàn)證方面估計(jì)在國內(nèi)來說是做的比較好的，他們已建立起了比較好的驗(yàn)證平臺(tái)，大部分與通信有關(guān)的BFM都做好了，聽我朋友說，現(xiàn)在他們只需要將被測(cè)放在測(cè)試平臺(tái)中，并配置好參數(shù)，就可以自動(dòng)地檢測(cè)被測(cè)功能的正確與否。

　　在功能仿真做完后，由于我們做在是FPGA的設(shè)計(jì)，在設(shè)計(jì)時(shí)已經(jīng)基本保證RTL級(jí)代碼在綜合結(jié)果和功能仿真結(jié)果的一致性，只要綜合布局布線后的靜態(tài)時(shí)序報(bào)告沒有違反時(shí)序約束的警告，就可以下到板子上去調(diào)試了。事實(shí)上，在華為中興，他們做FPGA的設(shè)計(jì)時(shí)也是不做時(shí)序仿真的，因?yàn)樽鰰r(shí)序仿真很花時(shí)間，且效果也不見得比看靜態(tài)時(shí)序分析報(bào)告好。

　　當(dāng)然了，如果是ASIC的設(shè)計(jì)話，它們的仿真驗(yàn)證的工作量要大一些，在涉及到多時(shí)鐘域的設(shè)計(jì)時(shí)，一般還是做后仿的。不過在做后仿之前，也一般會(huì)先用形式驗(yàn)證工具和通過靜態(tài)時(shí)序分序報(bào)告去查看有沒有違反設(shè)計(jì)要求的地方，這樣做了之后，后仿的工作量可以小很多。

　　在HDL語言方面，國內(nèi)語言很多人都在爭(zhēng)論VHDL和verilog哪個(gè)好，其實(shí)我個(gè)人認(rèn)為這并沒有多大的意義，外面的大公司基本上都是用verilog在做RTL級(jí)的代碼，所以還是建議大家盡量學(xué)verilog。在仿真方面，由于VHDL在行為級(jí)建模方面弱于verilog，用VHDL做仿真模型的很少，當(dāng)然也不是說verilog就好，其實(shí)verilog在復(fù)雜的行為級(jí)建模方面的能力也是有限的，比如目前它還不支持?jǐn)?shù)組。在一些復(fù)雜的算法設(shè)計(jì)中，需要高級(jí)語言做抽象才能描述出行為級(jí)模型。在國外，仿真建模很多都是用System C和E語言，用verilog的都算是很落后的了，國內(nèi)華為的驗(yàn)證平臺(tái)好像是用System C寫。

　　在系統(tǒng)結(jié)構(gòu)設(shè)計(jì)方面，由于我做的設(shè)計(jì)還不夠大，還談不上什么經(jīng)驗(yàn)，只是覺得必須要具備一些計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)的知識(shí)才行。劃分的首要依據(jù)是功能，之后是選擇合適的，總線結(jié)構(gòu)、存儲(chǔ)結(jié)構(gòu)和處理器架構(gòu)，通過系統(tǒng)結(jié)構(gòu)劃分要使各部分功能模塊清晰，易于實(shí)現(xiàn)。這一部分我想過段時(shí)間有一點(diǎn)體會(huì)了再和大家分享，就先不誤導(dǎo)大家了。

　　最后簡(jiǎn)單說一下體會(huì)吧，歸結(jié)起來就多實(shí)踐、多思考、多問。實(shí)踐出真知，看100遍別人的方案不如自己去實(shí)踐一下。實(shí)踐的動(dòng)力一方面來自興趣，一方面來自壓力，我個(gè)人覺得后者更重要。有需求會(huì)容易形成壓力，也就是說最好能在實(shí)際的項(xiàng)目開發(fā)中鍛煉，而不是為了學(xué)習(xí)而學(xué)習(xí)。在實(shí)踐的過程中要多思考，多想想問題出現(xiàn)的原因，問題解決后要多問幾個(gè)為什么，這也是經(jīng)驗(yàn)積累的過程，如果有寫項(xiàng)目日志的習(xí)慣更好，把問題及原因、解決的辦法都寫進(jìn)去。最后還要多問，遇到問題思索后還得不到解決就要問了，畢竟個(gè)人的力量是有限的，問同學(xué)同事，問搜索引擎，問網(wǎng)友，都可以，一篇文章、朋友們的點(diǎn)撥都可能幫助自己快速解決問題。

新聞中心

資深工程師FPGA設(shè)計(jì)經(jīng)驗(yàn)精華匯總

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)