用Synplify Premier加快FPGA設(shè)計時序收斂
傳統(tǒng)的綜合技術(shù)越來越不能滿足當今采用 90 納米及以下工藝節(jié)點實現(xiàn)的非常大且復(fù)雜的 FPGA 設(shè)計的需求了。問題是傳統(tǒng)的 FPGA 綜合引擎是基于源自 ASIC 的方法,如底層規(guī)劃、區(qū)域內(nèi)優(yōu)化 (IPO,In-place Optimization) 以及具有物理意識的綜合 (physically-aware synthesis) 等。然而,這些從 ASIC 得來的綜合算法并不適用于 FPGA 的常規(guī)架構(gòu)和預(yù)定義的布線資源。
最終的結(jié)果是,所有的三種傳統(tǒng) FPGA 綜合方法需要在前端綜合與下游的布局布線工具之間進行多次耗時的設(shè)計反復(fù),以獲得時序收斂。這個問題的解決方案是一種基于圖形的獨特物理綜合技術(shù),能夠提供一次通過、按鈕操作的綜合步驟,不需要 ( 或者需要很少 ) 與下游的布局布線引擎的設(shè)計反復(fù)。而且,基于圖形的物理綜合在總體的時鐘速度方面可以將性能提高 5% 到 20% 。 Synplify Premier 先進 FPGA 物理綜合工具就是這樣一種工具,專門針對那些設(shè)計很復(fù)雜的高端 FPGA 設(shè)計工程師而定制,他們的設(shè)計需要真正的物理綜合解決方案。
本文首先介紹了主要的傳統(tǒng)綜合方法,并說明這些方法存在的相關(guān)問題,然后介紹基于圖形的物理綜合概念,并指出這種技術(shù)如何滿足當前先進 FPGA 的設(shè)計需求。
傳統(tǒng)綜合解決方案存在的問題
對于 2 微米的 ASIC 技術(shù)節(jié)點以及上世紀 80 年代早期以前來說,電路單元 ( 邏輯門 ) 相關(guān)的延時與互連 ( 連接線 ) 相關(guān)延時的比例約 80:20 ,也就是說門延時約占每個延時路徑的 80% 。這樣一來,設(shè)計師可以用連線負載模型來估計互連延時,在連線負載模型中,每個邏輯門輸入被賦予某個 “ 單位負載 ” 值,與某個特定路徑相關(guān)的延時可以作為驅(qū)動門電路的強度和連接線上的總電容性負載的函數(shù)來計算得出。
類似地,當在上世紀 80 年代后期 ( 大約引入 1 微米技術(shù)節(jié)點的時候 ) 第一個 RTL 綜合工具開始用在 ASIC 設(shè)計中的時候,電路單元的延時與連線延時相比還是占主導地位,比例約為 66:34 。因此,早期的綜合工具還是基于它們的延時估計方法,并使用簡單的連線負載模型進行優(yōu)化。由于電路單元的延時占據(jù)主導,因此初期綜合引擎使用的基于連線負載的時序估計足夠準確,下游的布局布線引擎通常能在相對較少的幾次反復(fù) ( 在 RTL 和綜合階段之間 ) 條件下實現(xiàn)設(shè)計。
然而,隨著每個后續(xù)技術(shù)節(jié)點的引入,互連延時大大地增加 ( 事實上,就 2005 年采用 90 納米技術(shù)實現(xiàn)的標準單元 ASIC 來說,電路單元與互連的延時比例現(xiàn)在已經(jīng)接近 20:80) 。這使得綜合引擎的延時估計與布局布線后實際延時的關(guān)聯(lián)性越來越低。
這具有一些很重要的牽連性,因為綜合引擎在不同的優(yōu)化方法之間選擇,以及在實現(xiàn)功能的替代方法 ( 諸如基于它們的時序預(yù)測的加法器 ) 之間選擇。例如,假設(shè)某個包含一個加法器 ( 以及其它組件 ) 的特定時序路徑被預(yù)知具有一些 ( 時序 ) 裕量,這種情況下,綜合工具可以選擇一個占用芯片面積相對較小的較慢加法器版本。但是,如果時序估計與實際的布局布線后延遲情況出入比較大的話,這個路徑可能最后非常慢。這樣一來,不準確的延時估計意味著綜合引擎最后才對不正確的對象進行優(yōu)化,只有在完成了布局布線后你才發(fā)現(xiàn)問題并不是像你 ( 或綜合引擎 ) 所想的那樣,其結(jié)果是獲得時序收斂所需的工作量將大大地增加,因為從前端到后端的設(shè)計反復(fù)次數(shù)大大增加了。
為了解決這些問題,有必要了解在綜合過程中與設(shè)計相關(guān)的物理特性。因此,隨著時間的推移, ASIC 綜合技術(shù) ( 緊跟著 FPGA 綜合技術(shù) ) 采用了一系列的方法 ( 某些情況下也拋棄了一些方法 ) ,例如下面討論的底層規(guī)劃、 IPO 和具有物理意識的綜合。
底層規(guī)劃
對于 ASIC 的 RTL 綜合,底層規(guī)劃技術(shù)在上世紀 90 年代早期出現(xiàn),稍晚于綜合技術(shù)本身的問世。底層規(guī)劃工具允許設(shè)計師在器件上定義物理區(qū)域,通過手工或者使用自動交互技術(shù)來對這些區(qū)域布局,并將設(shè)計的不同部分分配到這些區(qū)域。
底層規(guī)劃涉及到逐個模塊地綜合和優(yōu)化設(shè)計,然后在最后將所有東西 “ 縫合 ” 在一起 ( 早期底層規(guī)劃工具使用的綜合算法都是基于連接線負載模型 ) 。這意味著底層規(guī)劃工具不能按每個單元優(yōu)化邏輯,只能影響邏輯模塊的布局。而且,在定義上,底層規(guī)劃工具不會全局性地考慮布線資源,在設(shè)計完全布線完成之前,它不可能準確分析所有的時序路徑。這會導致在前端和后端工具之間的大量耗時的設(shè)計反復(fù)。盡管這種方法可以提高 ASIC 設(shè)計的時序性能和降低功耗,但它需要對設(shè)計的復(fù)雜分析和很高的專業(yè)技術(shù)水準。
圖 1 : FPGA 的主流架構(gòu)。
在早期,采用 ASIC 底層規(guī)劃有下面幾個原因:作為一種獲得時許收斂的方法解決有限容量的問題,并支持基于逐個模塊的遞增變化。最近,底層規(guī)劃不再被認為是一種其本身能獲得時序收斂的方法;底層規(guī)劃依然是一種有用的方法,但只是在與其它方法 ( 例如物理優(yōu)化 ) 結(jié)合的時候才有用,使用綜合后門級網(wǎng)表的底層規(guī)劃依然需要非常多的專門技術(shù)。
對于 FPGA 來說,直到上世紀 90 年代晚期,底層規(guī)劃技術(shù)還沒有成為主流應(yīng)用。平均而言,在一個 FPGA 設(shè)計中,關(guān)鍵路徑一般會經(jīng)過 3 個區(qū)域。由于 FPGA 一般用到的設(shè)計方法,如果使用綜合后 (“ 門級 ”) 網(wǎng)表來執(zhí)行底層規(guī)劃,即使對 RTL 的相對較小的改變都可能導致先前所做的底層規(guī)劃工作付之東流。解決這個問題的方法是在 RTL 級進行底層規(guī)劃。然而,為了更有用,這必須和某種形式的物理優(yōu)化相結(jié)合,源于 ASIC 的物理綜合算法并不適合于 FPGA 的常規(guī)架構(gòu)以及預(yù)定義的布線資源。
布局優(yōu)化
隨著底層規(guī)劃在 ASIC 領(lǐng)域的作用逐漸弱化,在上世紀 90 年代中期, IPO 技術(shù)對其進行了強化 / 或者替代。這再次地涉及到時序分析和估計是基于連接線負載模型的綜合。
在這種情況下,所產(chǎn)生的網(wǎng)表被傳遞到下游的布局布線引擎。在布局布線和寄生提取之后,實際的延時被背注到綜合引擎。這些新值觸發(fā)器在綜合引擎中的遞增優(yōu)化,例如邏輯重構(gòu)和復(fù)制。其結(jié)果是得到一個被部分修改的新網(wǎng)表。然后,這個網(wǎng)表被遞交到遞增布局布線引擎,產(chǎn)生一個改進的設(shè)計拓撲。
基于 IPO 流程所得到的最后結(jié)果比那些采用底層規(guī)劃方法獲得的通常更好。然而,這種方法同樣可能需要在前端和后端工具之間進行很多次設(shè)計反復(fù)。而且基于 IPO 方法的一個重要的問題是對布局布線的修改可能導致新的關(guān)鍵路徑,這個路徑在前一次反復(fù)中是看不到的,即修正一個問題可能會激起其它的問題,這可能導致收斂的問題。
對于 FPGA 設(shè)計,基于 IPO 的設(shè)計流程大約在 2003 年開始受到主流關(guān)注。然而,盡管這樣的流程已經(jīng)可用,但那時這些流程并沒有以一種有意義的方式得到采用,因為單個地優(yōu)化時序路徑的 IPO 技術(shù)通常導致其它路徑時序的劣化和時序收斂不完全。設(shè)計師需要可使他們在不犧牲之前設(shè)計版本獲得的成果的基礎(chǔ)上對設(shè)計進行改變的可靠結(jié)果。但是基于 IPO 的方法并不能在多次設(shè)計反復(fù)之上產(chǎn)生穩(wěn)定的結(jié)果,因為在一次反復(fù)中優(yōu)化關(guān)鍵路徑會在下一次反復(fù)中產(chǎn)生新的關(guān)鍵路徑。類似地,增加約束以改進一個區(qū)域的時序可能使其它的區(qū)域的時序惡化。
具有物理意識的綜合
當前先進的 ASIC 綜合技術(shù)是具有物理意識的綜合,這種綜合技術(shù)在大約 2000 年開始受到主流關(guān)注。不考慮實際的技術(shù) ( 有幾種不同的算法 ) ,具有物理意識的綜合的基本概念是在一次性完成的過程中結(jié)合布局和綜合。
這在 ASIC 領(lǐng)域中的實踐效果很好,因為了解布局的綜合引擎能根據(jù)已布局的單元的周邊和 Steiner 以及 Manhattan 布線估計進行時序的預(yù)估。這種綜合方法在 ASIC 中效果很好的原因是連接線有序地布置。這意味著與最后的布局和布線設(shè)計相關(guān)的延時與綜合引擎所估計的結(jié)果具有非常好的相關(guān)性。
評論