新聞中心

EEPW首頁 > 汽車電子 > 設計應用 > 利用Virtex-5 FPGA實現更高性能的方法

利用Virtex-5 FPGA實現更高性能的方法

——
作者:賽靈思公司市場經理 Adrian Cosoroaba 時間:2007-02-02 來源:電子設計技術 收藏
系統設計中,要達到性能最大化需要平衡具有混合性能效率的元器件,包括(fabric)、片上存儲器、DSP和I/O帶寬。在本文中,我將向你解釋怎樣能在追求更高系統級性能的過程中受益于Xilinx? 的Virtex?-5 構建模塊,特別是新的ExpressFabric?技術。以針對邏輯和算術功能的量化預期性能改進為例,我將探究ExpressFabric架構的主要功能?;趯嶋H客戶設計的基準將說明ExpressFabric技術性能平均比前一代Virtex-4 要高30%。

利用新的(在里面你可以實現諸如計數器、累加器和RAM/ROM存儲)和可用的硬IP模塊、存儲器及DSP(經最優(yōu)化以運行在高達550MHz的時鐘速率), FPGA無疑是針對高性能設計的平臺選擇。

ExpressFabric的性能

自從上世紀80年代中期第一顆FPGA問世以來,大多數FPGA的一直是基于相同的基本四輸入查找表(LUT)架構。家族是第一個提供完全獨立輸入(不共享)的真正6輸入LUT(6-LUT)構造的FPGA平臺(圖1)。向6-LUT構造架構轉移為65nm的Virtex-5 FPGA家族提供了在關鍵路徑延遲—決定邏輯構造性能的因素—與裸片面積之間的最有效折衷。

Virtex-5可配置邏輯模塊(CLB)構成兩個邏輯片,每邏輯片利用4個提供更少邏輯級好處的獨立6-LUT。

  圖1:Virtex-5可配置邏輯模塊(CLB)構成兩個邏輯片,每邏輯片利用4個提供更少邏輯級好處的獨立6-LUT。

隨著工藝技術的進步,互連時間延遲能占關鍵路徑延遲的50%以上。賽靈思已經為Virtex-5 FPGA開發(fā)了新的互連模式,通過較少的跳躍(hops)到達更多的地方來增強性能。新的模式增加了兩到三跳之內可以到達的邏輯互連的數量。此外,更為有序的路由模式使Xilinx ISE?軟件更容易找到最優(yōu)化的路由。所有互連功能對FPGA設計工程師都是透明的,但是,將轉變?yōu)楦叩恼w性能和更容易設計的可路由性。本質上,Virtex-5模式根據距離提供快速可預測的路由。

通過把新的6-LUT構造與進位鏈、專用多路選擇器和觸發(fā)器(與把這些單元連接起來的獨特方法)這樣的特殊功能相結合,創(chuàng)造了非常卓越的性能和實現邏輯及算術功能的效率。

多路選擇器(MUX)就是清楚地說明ExpressFabric技術好處的例子之一。在Virtex-4架構中實現一個4:1 MUX需要兩個4輸入LUT和一個MUXF模塊;同樣的4:1 MUX現在可以在Virtex-5器件中用一個LUT來實現。類似地,在Virtex-4架構中實現一個8:1 MUX需要四個LUT和三個MUXF模塊;而新的Virtex-5架構僅僅需要兩個6-LUT,因此,性能更高且邏輯利用更佳,如圖2所示。

Virtex-5 FPGA與Virtex-4 FPGA在8:1多路選擇器實現上的比較。

  圖2: Virtex-5 FPGA與Virtex-4 FPGA在8:1多路選擇器實現上的比較。

與過去的Xilinx FPGA家族一樣,Virtex-5 Slice L(邏輯片)利用專用的進位鏈可以實現邏輯功能、寄存器和算術功能。稍微更復雜的Slice M(存儲器片)提高了在LUT(SRL)內部實現分布式RAM及移位寄存器的性能。

由ExpressFabric架構所提供的各種各樣改進當中,新的進位鏈結構(carry chain structure)當被用于實現算術運算時實質上產生了更高的性能,其對關鍵路徑延遲的影響可以在表1中的若干例子容易地看到。

表1:Virtex-5 FPGA與Virtex-4 FPGA在實現算術功能上的比較。

Virtex-5 FPGA與Virtex-4 FPGA在實現算術功能上的比較。

分布式存儲器功能如LUT RAM或ROM也以若干方式從較大的LUT構造獲益。新的寬高比容許更為密集地包裝小的存儲器功能,從而引向重大的性能好處,如表2所描述。

表2:Virtex-5 FPGA與Virtex-4 FPGA在實現基于LUT的RAM/ROM上的比較。

Virtex-5 FPGA與Virtex-4 FPGA在實現基于LUT的RAM/ROM上的比較。

由已改進的具有6-LUT架構的邏輯構造和互連結構所提高的性能是有重大價值的,但是,這僅僅是開端。

大多應用需要的片上RAM比基于LUT的RAM能提供的要多。利用增強的Virtex-5模塊RAM,你可以實現更高的片上存儲器性能。

模塊RAM性能

隨著向65nm的轉移,Virtex-5模塊RAM的時鐘速度獲得了10%的提升,達到550MHz。然而,為了實現目前大多應用所渴望的性能,模塊RAM需要的不僅僅是速度更快,而是需要規(guī)模更大。

Virtex-5模塊RAM 的規(guī)模已經加倍到36 kb。這個較大的模塊規(guī)模(由兩個18kb存儲器構成)在簡單的雙口模式中將支持72位數據字,因此,把模塊RAM的帶寬提高了一倍。此外,Virtex-5 FPGA提供專用的連接,使你能夠在模塊RAM行中把兩個相鄰的36kb模塊RAM級聯起來,因此,實現一個運行在最大550MHz 速率的72kb存儲器。

不斷加大的FPGA的實用性已經加速了把更多子系統集成到單一器件之中的趨勢,使得對多個時鐘域進行接口的必要性更為普遍。Virtex-5器件通過提供集成邏輯來簡化靈活和有效的FIFO的實現來適應這種趨勢。

通過這種增強的組合,Virtex-5模塊RAM提供更多片上存儲器,更容易構建FIFO,并獲得更高的帶寬。

DSP性能

作為一種針對高性能DSP應用的可行解決方案,FPGA的認知度日益增加是理所當然的。無論作為一種協處理器或一種針對更為苛刻應用要求的單機解決方案,FPGA都不斷提供最佳的性能、功率和成本組合。

為了滿足對更高DSP性能看來貪得無厭的需求,賽靈思的Virtex-5 DSP性能在時鐘速率和精度兩個方面都居于領先地位;時鐘速率已經提高到550MHz,而精度已經從18 x 18 位提高到25 x 18位。

賽靈思也針對累計器鏈實現而優(yōu)化了Virtex-5 DSP48片,其強大的性能使創(chuàng)建非常有效的高性能濾波器成為可能。在每一個DSP48片輸入和輸出上的專用路由資源允許在一行內把任意數量的片鏈接起來。這種專用的路由確保在鏈中的每一個DSP48片將以全速運行而不消耗任何構造路由或邏輯資源,因為其它FPGA需要。綜合起來看,這些改進把實現通用高精度功能所需要的資源數量減少了一半。例如,對于35 x 25位乘法,采用Virtex-4 FPGA就需要四個DSP48片;在Virtex-5 FPGA中具有更寬的DSP模塊可用,實現這種乘法功能只要采用一半的DSP48片。

I/O帶寬性能

隨著性能基準的進展,FPGA能處理數據的速度與器件I/O帶寬的前后使用情況有關,它就是大量數據能被搬移到器件上及從器件上卸下所用的速度。當利用外部存儲緩沖器時,接口必須比數據處理率至少快兩倍,因為數據既要寫出也要讀回FPGA之中。

通過既提高每一個引腳的數據率,又利用更大的封裝來增加可用I/O的數量,Virtex-5 FPGA提高了Virtex-4的帶寬。例如,對于流行的存儲器接口如DDR2 SDRAM,每一個引腳的帶寬已經從534 Mbps提高到了667 Mbps;數據I/O的數量—當考慮SSO要求時—已經從32增加到了576。

客戶設計基準

為了進一步評估由Virtex-5 FPGA邏輯構造所提供的性能改進,我們利用賽靈思的ISE軟件實現了一組客戶設計。

這些設計完全采用VHDL或Verilog編寫。我們利用庫組件或綜合參考的直接調用方法實現了一些像存儲器和FIFO那樣的特殊設計單元,但是許多是利用由CORE Generator?軟件生成的EDIF模塊實現的。

對于這些基準,我們采用Synplicity公司的Synplify Pro工具以時序驅動方式執(zhí)行綜合,并利用嚴緊和現實的約束來有效地測量性能。完成這一點就確保所有特殊優(yōu)化和邏輯復制獲得了使用。

在ISE軟件中的實現是把布局和路由努力設置到“high”來完成的。時鐘被以5%的增量反復增加,直到該設計不能滿足設計約束。

結果是—與利用Virtex-4 FPGA實現的設計相比—平均性能提高了30%,如圖3所示。 

根據利用ISE 8.2i軟件實現的一套74個客戶設計的比較。

  圖3:根據利用ISE 8.2i軟件實現的一套74個客戶設計的比較。

這些改進最多的設計具備大的邏輯錐體;關鍵路徑常常實現大的復雜邏輯等式。例如,ASIC原型設計的關鍵路徑中的大量邏輯通常將具有非常少的寄存器。這些類型的設計展示了采用Virtex-5 ExpressFabric技術的重大改進。

在展示適度改進的設計中,要么具有較少的邏輯級,要么為使用硬IP模塊或改進性能的進位鏈結構提供很少的機會。

圖4通過把Virtex-5 FPGA對前一代Virtex-4 FPGA的性能改進進行分類做了總結。

Virtex-5 FPGA性能的改進。

  圖4:Virtex-5 FPGA性能的改進。

結論 

利用其新的ExpressFabric技術和對其它高性能硬IP及I/O的緊密耦合,與前一代架構相比,Virtex-5 FPGA家族表現了重大的性能提升。



評論


相關推薦

技術專區(qū)

關閉