Cyclone V FPGA在高帶寬存儲接口中的應(yīng)用

作者：時間：2016-10-18 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

摘要：文中詳細(xì)地分析了Altera公司Cyclone V FPGA器件的硬核存儲控制器底層架構(gòu)和外部接口，并在此基礎(chǔ)上對Controller和PHY進(jìn)行了功能仿真。仿真結(jié)果表明硬核存儲控制器和PHY配合工作時的功能與設(shè)計預(yù)期相符，性能優(yōu)良，適合于在當(dāng)前FPGA的外部存儲帶寬需求日益增長的場合下應(yīng)用。

本文引用地址：http://www.butianyuan.cn/article/201610/308489.htm

如今，越來越多的應(yīng)用場景都需要FPGA能夠和外部存儲器之間建立數(shù)據(jù)傳輸通道，如視頻、圖像處理等領(lǐng)域，并且對數(shù)據(jù)傳輸通道的帶寬也提出了較大的需求，這就導(dǎo)致了FPGA和外部Memory接口的實際有效帶寬成為了制約系統(tǒng)性能的瓶頸，所以Memoiy控制器的效能，則成為提升系統(tǒng)性能的關(guān)鍵要素。Altera最新一代28nm器件中的Cyclone V和Arria V系列FPGA都集成了硬核存儲控制器HMC(Hard Memory Controll er)單元，相比于以往的軟核解決方案，硬核解決方案能夠在幫助降低系統(tǒng)功耗的同時顯著提升接口工作性能，適合應(yīng)用于對Memory接口帶寬有較大需求的場合。

1 存儲器接口的底層架構(gòu)

QuartusII 11.0及以后版本提供的Controller控制器均為High Performance ControllerII(HPC II)，相對于早期提供的HPC，有了部分功能和性能上的升級和改進(jìn)。CycloneII/IV使用的是ALTMEMPHY，而Cyclone V可以使用新的UniPHY架構(gòu)。存儲器接口的底層架構(gòu)和外部接口如圖1所示。

從圖1可見，整個存儲接口是由三部分組成的，Controller單元、PHY單元及一些相關(guān)接口。其中主要的便是Controller單元、PHY單元。Controller單元主要負(fù)責(zé)控制初始化、刷新等Memory的命令操作，還能夠完成訪問地址和數(shù)據(jù)的組織排序，支持大帶寬、較高的工作頻率。另外，Controller單元還支持?jǐn)?shù)據(jù)重排，能夠降低訪問沖突，增加系統(tǒng)工作的效率。PHY單元工作在Controller單元和外部Memory之間，主要負(fù)責(zé)完成物理層的數(shù)據(jù)路徑及數(shù)據(jù)路徑的時序處理。

Controller單元和PHY單元之間是通過Altera PHYInterface，即AFI接口進(jìn)行連接的。與標(biāo)準(zhǔn)的DDR PHYInterface，即DFI接口相比，AFI接口更加適合基于ALTMEMPHY和UniPHY的開發(fā)。AFI接口可以被認(rèn)為是DFI接口的子集，是對DFI接口進(jìn)行了少量的簡化和修改而來的。

2 MPFE的功能及底層架構(gòu)

在視頻和圖像處理領(lǐng)域，FPCA需要頻繁地訪問Memory接口，完成數(shù)據(jù)的寫入和瀆出操作。Cyclone V的HMC能夠支持多端口前端的并行訪問，極大地方便了讀寫數(shù)據(jù)交互的操作。多端口前端，即MPFE(Multi-port Front End)，底層架構(gòu)如圖2所示。

MPFE可以使得FPGA的多個處理進(jìn)程共享一個Memory的命令隊列。這樣不同的端口都可以訪問Memory接口，完成對Memory的讀寫操作。MP FE都是基于Avalon總線的時序進(jìn)行地址、命令和數(shù)據(jù)的交互的。在實際有效帶寬一定的情況下，MPFE可以將帶寬按照不同的需求分配到相應(yīng)的端口。

如圖2所示，MPFE是由6個命令FIFO，4個64bit位寬的讀FIFO和4個64bit位寬的寫FIFO組成，通過這些FIFO來完成命令和數(shù)據(jù)的交互。其中，讀FIFO可以被配置為單向的讀FIFO，寫FIFO可以被配置為單向的寫FIFO，也可以在一個Port里使用雙向FIFO、此時該Port會調(diào)用1個讀FIFO和1個寫FIFO來完成。

如果前端的數(shù)據(jù)位寬比較大，也可以將FIFO拼接起來，組合為128bit或256bit位寬的FIFO，128bit位寬情況下，會調(diào)用2個讀或?qū)慒IFO 256bit位寬情況下，會調(diào)用4個讀或?qū)慒IFO。如果一個Port設(shè)置為256bit位寬，同時設(shè)置為雙向FIFO.則該Port會消耗全部的讀寫FIFO，此時也就相當(dāng)于將多端口前端作為單端口前端來使用了。

如果前端的數(shù)據(jù)位寬比較小，也可以將64bit位寬的FIFO設(shè)置為32bit位寬，此時仍會占用1個FIFO，高32bit的數(shù)據(jù)位寬則會閑置。

由此可見，MPFE在使用上十分靈活，能夠適應(yīng)不同的應(yīng)用方式，滿足FPGA內(nèi)部不同邏輯模塊對Memory的讀寫訪問。

3 多端口前端的調(diào)度策略

MPFE本身相當(dāng)于一個調(diào)度器，采用分時復(fù)用的方式，對來自不同端口的數(shù)據(jù)和命令進(jìn)行調(diào)度。若干個端口之間的調(diào)度遵循兩個條件，即端口的優(yōu)先級(Priority)和權(quán)重(Weight)。優(yōu)先級參數(shù)和權(quán)重參數(shù)是可以指定的，如圖3所示，在IP例化時的Controller Settings界面中，手動填寫端口的這兩個參數(shù)值。

優(yōu)先級參數(shù)可以在1～7之間任意指定，優(yōu)先級參數(shù)值越大，代表該端口的優(yōu)先級越高。高優(yōu)先級的端口相對于低優(yōu)先級的端口會被優(yōu)先調(diào)度。優(yōu)先級是一個絕對的參數(shù)，如果一個端口的優(yōu)先級設(shè)置為7，則這個端口享有最高優(yōu)先級，它在任何情況下都會被優(yōu)先調(diào)度，這樣另外的優(yōu)先級為6或更低優(yōu)先級的端口必須等待優(yōu)先級為7的端口工作完成之后才會被調(diào)度。

如果兩個端門的優(yōu)先級一樣，那么相對的優(yōu)先級會取決于端口的權(quán)重參數(shù)。權(quán)重參數(shù)可以在0～31之間設(shè)置。為了避免高優(yōu)先級的某個端口長時間占用接口總線的帶寬，引入了加權(quán)循環(huán)調(diào)度算法(Weighted Round Robin，WRR)，WRR算法仍然會優(yōu)先處理高優(yōu)先級的端口，但是低優(yōu)先級的端口也不會出現(xiàn)不被調(diào)度的情況。WRR是根據(jù)端口權(quán)重與所有排隊等待調(diào)度的端口的權(quán)重總和的比來平等地分配帶寬。因此，在處理多個端口的高優(yōu)先等級的業(yè)務(wù)時，可以確保每個端口都不會過度地占用接口的總線帶寬。

在端口的優(yōu)先級參數(shù)都一樣的情況下，權(quán)重參數(shù)能夠決定端口間相對的帶寬分配，如圖3所示，端口0和端口1的優(yōu)先級均為1，權(quán)重參數(shù)值分e為4和6，則端口0和端口1分e會占用大致40%和60%的Memory接口總帶寬。

4 HMC的ModelSim功能仿真

仿真過程不僅能夠觀察到HMC內(nèi)部工作的時序，還能夠大致測箅出HMC工作時的有效帶寬。在系統(tǒng)設(shè)計開始階段，可以用于評估Memory接口實際有效帶寬是否滿足設(shè)計需求。如圖4和圖5所示。

系統(tǒng)設(shè)計的過程需要確保Avalon側(cè)和Memory側(cè)的帶寬相等，所以在IP例化參數(shù)選擇時，根據(jù)DDR3器件參數(shù)，DQ數(shù)據(jù)線選擇的是16 bits位寬，mem_ck為400 MHz;Avalon側(cè)的數(shù)據(jù)位寬為64 bits，時鐘選擇200 MHz即可。兩側(cè)帶寬為16 bitsx400 Mhzx2(DDR雙沿傳輸)=64 bitsx200 MHz=12.8 Gbps，這也是HMC的理論帶寬。

5 結(jié)論

在一些視頻、圖像等高帶寬按口應(yīng)用中，Cyclone V器件的HMC理論上能夠達(dá)到至少12.8Gbps的帶寬，如果DQ位寬變?yōu)?2位，則理論帶寬翻倍到25.6Gbps，這也是一個HMC所能達(dá)到的理論帶寬的上限。部分Cyclone V器件帶有2個HMC，則整體的理論帶寬上限值為51.2Gbps，已能夠滿足高帶寬存儲場合對FPGA和DDR3間接口帶寬的要求。

新聞中心

Cyclone V FPGA在高帶寬存儲接口中的應(yīng)用

評論

相關(guān)推薦

技術(shù)專區(qū)