現(xiàn)場可編程邏輯門陣列(FPGA)賦能下一代通信和網(wǎng)絡(luò)解決方案
本文概要
了解網(wǎng)絡(luò)基礎(chǔ)設(shè)施功能迅速增長的一種便捷方法是回顧一下過去四十年的發(fā)展歷程(如下圖所示)。蜂窩網(wǎng)絡(luò)技術(shù)的創(chuàng)新,加上新型的數(shù)據(jù)存儲和搜索技術(shù),正在轉(zhuǎn)變行業(yè)的發(fā)展模式。創(chuàng)新的技術(shù)不僅為公司和個人提供了全新的應(yīng)用場景,也使他們?nèi)フJ真思考如何利用那些原本不屬于其產(chǎn)品組合的技術(shù)。也許最能說明問題的變化的是新的商業(yè)模式導(dǎo)致了價值從基礎(chǔ)設(shè)施轉(zhuǎn)向了服務(wù)。
聯(lián)網(wǎng)設(shè)備正在從2G向5G演進,以支持移動應(yīng)用的爆發(fā),并為不斷增長的用戶群擴展連接。一個日趨成熟的行業(yè)需要一種具有競爭力的商業(yè)模式,而這種模式可以被詮釋為優(yōu)化帶寬管理。據(jù)估計,到2023年,聯(lián)網(wǎng)設(shè)備的數(shù)量將超過全球人口的三倍(如圖1所示)。
圖1 網(wǎng)絡(luò)基礎(chǔ)設(shè)施的演進
Voice calls: 語音通話
Analog: 模擬
9 years: 9年
Texting: 發(fā)送短信
10 years: 10年
Emails: 電子郵件
Low-Res Video: 低分辨率視頻
Mobile Broadband:移動寬帶
IoT: 物聯(lián)網(wǎng)
Smart Cities: 智慧城市
Connected Car: 聯(lián)網(wǎng)汽車
Telemedicine: 遠程醫(yī)療
VR/AR: 虛擬現(xiàn)實/增強現(xiàn)實
AI/ML: 人工智能/機器學(xué)習(xí)
Cloud Gaming: 云游戲
圖2 全球移動設(shè)備和連接增長(來源:思科)
Billions of Devices or Connections: 數(shù)十億的設(shè)備或連接
3G and Below (55.3%, 29.0%): 3G及以下(55.3%,29.0%)
LPWA (2.5%, 14.4%): 低功耗廣域技術(shù)(2.5%,14.4%)
注:此圖表包括M2M。LPWA包括蜂窩LPWA(例如NB-IoT)和非蜂窩LPWA(例如LoRa)
*數(shù)據(jù)(n)為2018 - 2023年網(wǎng)絡(luò)連接類型份額
5G的興起和數(shù)據(jù)中心的重構(gòu)將更好和更多地集成和應(yīng)用加速技術(shù),這給通信和網(wǎng)絡(luò)設(shè)計人員帶來了巨大的壓力,要求他們?nèi)ゴ蛟烀棵肟商幚砗娃D(zhuǎn)發(fā)萬億字節(jié)數(shù)據(jù)的系統(tǒng)。這些新的系統(tǒng)不僅必須要具備高度可靠性,而且還需要滿足人類思維級別的響應(yīng)時間,以確保嚴格的性能保證(如圖3所示),這就需要全新的架構(gòu)。
盡管可編程邏輯提供了最佳的功能組合,以支持新一代通信和網(wǎng)絡(luò)系統(tǒng)的復(fù)雜需求,但是傳統(tǒng)的可編程芯片產(chǎn)品無法滿足這些需求。為了平衡片上的處理、互連和外部I / O,必須對整個FPGA架構(gòu)進行重新考慮。需要最先進的片上網(wǎng)絡(luò)(NoC)和總線布線能力,來實現(xiàn)所需的帶寬和性能。集成的NoC是唯一可行的方法來構(gòu)建可支持高效計算、巨大數(shù)據(jù)吞吐量和深度內(nèi)存層次結(jié)構(gòu)的系統(tǒng)。大規(guī)模的并行性與FPGA獨特的卸載和加速功能相結(jié)合,以實現(xiàn)單位功耗可實現(xiàn)的最高的性能和最高的性價比。
圖3 5G性能指標
Quantifying the performance benefits of 5G
量化5G的性能優(yōu)勢
10XDecrease in latency: Delivering latency as low as 1 millisecond
延遲降低10倍:提供低至1毫秒的延遲
10XConnection density: Enabling more efficient signaling for IoT connectivity
10倍的連接密度:為物聯(lián)網(wǎng)連接提供更高效的信令服務(wù)
3XSpectrum efficiency:Achieving even more bits per hertz with advanced antenna techniques
3倍的頻譜效率:借助先進的天線技術(shù)來實現(xiàn)更高的比特/赫茲比率
10XExperienced throughput: Bringing more uniform, multi-Gbps peak rates
10倍的可體驗吞吐量:帶來更均勻的、多Gbps的峰值速率
100XTraffic capacity: Driving network hyperdensification with more small cells everywhere
100倍的數(shù)據(jù)流容量:通過遍布各地的更多小基站來推動網(wǎng)絡(luò)超高密集化
100XNetwork efficiency: Optimizing network energy consumption with more efficient processing
100倍的網(wǎng)絡(luò)效率:通過更高效的處理方式來優(yōu)化網(wǎng)絡(luò)能耗
不斷變化的網(wǎng)絡(luò)技術(shù)格局
對由高帶寬連接提供的先進服務(wù)的需求正在重塑通信和網(wǎng)絡(luò)領(lǐng)域。數(shù)據(jù)中心、邊緣系統(tǒng)和接入設(shè)備中的新型應(yīng)用正在推動對傳輸海量數(shù)據(jù)的需求,但同時又要滿足嚴格的延遲要求。FPGA正在成為所有實際網(wǎng)絡(luò)的核心,如下面的圖4所示。
圖4 各種實際網(wǎng)絡(luò)中的FPGA
例如,為了支持諸如增強現(xiàn)實和機器人控制等應(yīng)用,與之前的蜂窩無線通信技術(shù)相比,5G基站及其背后的網(wǎng)絡(luò)設(shè)備必須保證極低的延遲。這項要求同時還與對更高的每用戶吞吐量需求相伴而來,因而它們利用了多種不同的技術(shù),包括多天線、波束成形以及作為網(wǎng)絡(luò)密集化進程的一部分而增加使用的小基站。所有這些因素都導(dǎo)致了在集中式基帶單元中進行更密集的處理,這些基帶單元通過光纖鏈路與多個遠程射頻單元進行協(xié)同。
智能網(wǎng)卡(SmartNIC)的興起
運營商已經(jīng)采用了諸如軟件驅(qū)動網(wǎng)絡(luò)(SDN)和網(wǎng)絡(luò)功能虛擬化(NFV)等技術(shù)來提高其系統(tǒng)的響應(yīng)能力。為了運行這些服務(wù),數(shù)據(jù)中心所有者正在為其服務(wù)器添加智能網(wǎng)卡(SmartNIC),以便將許多網(wǎng)絡(luò)功能有效地卸載到加速器上。
智能網(wǎng)卡能夠處理傳入和傳出服務(wù)器的大部分數(shù)據(jù)流,只有在需要處理異常情況時,才會請求核心服務(wù)器上的處理器來提供幫助。借助足夠的加速功能,此類智能網(wǎng)卡能夠以線速度執(zhí)行一系列服務(wù)。這些服務(wù)范圍從對傳輸中的數(shù)據(jù)進行壓縮到詳細的數(shù)據(jù)流控制,再到能夠檢測異常和可能的安全漏洞的深度數(shù)據(jù)包檢查應(yīng)用。隨著智能網(wǎng)卡技術(shù)的成熟,正在考慮引入諸如機器學(xué)習(xí)等越來越先進的功能,以最大程度地發(fā)揮數(shù)據(jù)流和數(shù)據(jù)包分析的潛力。下面的圖5顯示了智能網(wǎng)卡的一些功能。
圖5 智能網(wǎng)卡功能原理圖
對傳輸高速數(shù)據(jù)和快速響應(yīng)不斷變化的條件的需求,要求系統(tǒng)能夠同時處理高吞吐量和低延遲。在傳統(tǒng)的架構(gòu)中,很難同時滿足這兩個要求?,F(xiàn)在,基于微處理器的架構(gòu)集成了高度并行化的流水線,能夠處理高帶寬數(shù)據(jù)。但由于需要不斷地將數(shù)據(jù)從復(fù)雜的內(nèi)存體系結(jié)構(gòu)中傳入和傳出,結(jié)果使得確保低延遲變得極其困難。即使借助于專用的卸載處理器,智能網(wǎng)卡也面臨著由不斷增加的數(shù)據(jù)速率和延遲要求所帶來的挑戰(zhàn)。
應(yīng)對智能網(wǎng)卡設(shè)計的挑戰(zhàn)
在傳統(tǒng)的FPGA架構(gòu)中,用戶需要設(shè)計電路來連接加速器,從而導(dǎo)致不理想的布局和布線。更新的FPGA架構(gòu)使用了一種網(wǎng)絡(luò),在邏輯陣列內(nèi)的處理單元與各種片上高速接口和內(nèi)存端口之間傳輸數(shù)據(jù)(如下面的圖6所示)。
圖6 在傳統(tǒng)的FPGA架構(gòu)中連接加速器
Status Control: 狀態(tài)控制
Parameters: 參數(shù)
Accelerator: 加速器
Address decode and routing: 地址解碼和布線
Back pressure: 背壓
Request arbitration: 請求仲裁
Response arbitration: 響應(yīng)仲裁
Response back pressure: 響應(yīng)背壓
Response routing: 響應(yīng)布線
圖7 先進的FPGA減少了所需電路的數(shù)量
硬連線架構(gòu)極大地改善了處理的延遲和能效,但是缺乏應(yīng)對需求變化的靈活性。對于數(shù)據(jù)壓縮和加密等應(yīng)用,數(shù)據(jù)中心運營商希望能夠接納算法的改進,并更加容易地應(yīng)對不斷變化的威脅態(tài)勢。對加速器進行(重新)編程以適應(yīng)這些變化的能力是一個關(guān)鍵的需求。一種能夠?qū)崿F(xiàn)這種重新編程的方法是通過部分重新配置,利用內(nèi)置的地址轉(zhuǎn)換表來簡化實現(xiàn)(如下面的圖8所示)。
圖8 Speedster7t器件中的地址轉(zhuǎn)換表
Memory Space: 存儲空間
一種可編程邏輯架構(gòu)為實現(xiàn)靈活的控制和數(shù)據(jù)流結(jié)構(gòu)提供了堅實的基礎(chǔ),從而可以為諸如數(shù)據(jù)包處理等多種通信操作提供高吞吐量。但是其他FPGA架構(gòu)中的傳統(tǒng)方法仍然受到了許多限制,難以達到下一代5G和數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備所需的性能等級。
Achronix Speedster7t系列FPGA通過一種平衡的架構(gòu)克服了這些限制,其結(jié)果是在計算密度和數(shù)據(jù)傳輸能力上都有重大改進。
Speedster7t系列中的第一款FPGA器件AC7t1500提供了一系列高速接口,包括可分段(fracturable)以太網(wǎng)控制器(支持高達400G的速率)、PCI Gen 5端口和多達32個SerDes通道,其速率高達112 Gbps。AC7t1500器件是首款部署多通道GDDR6存儲器接口的FPGA,它滿足了需要高速緩存海量數(shù)據(jù)和存儲大型查找表的通信系統(tǒng)的需求。除了可編程邏輯架構(gòu)采用的面向位(bit-oriented)的布線結(jié)構(gòu)外,這些外圍設(shè)備還通過一個智能二維片上網(wǎng)絡(luò)(NoC)進行互連。因此,Speedster7t FPGA是第一款能夠?qū)崿F(xiàn)太比特以太網(wǎng)(TbE)交換功能的器件,對于數(shù)據(jù)中心、網(wǎng)絡(luò)和電信基礎(chǔ)設(shè)施提供商來說,這是一項關(guān)鍵的賦能技術(shù)。
這種架構(gòu)使得網(wǎng)絡(luò)設(shè)計再向前更進一步成為了可能。例如,它集成的面向矩陣的算術(shù)單元可實現(xiàn)網(wǎng)絡(luò)內(nèi)機器學(xué)習(xí)。使用諸如深度學(xué)習(xí)或更簡單的統(tǒng)計技術(shù)等技術(shù),網(wǎng)絡(luò)設(shè)備可以分析數(shù)據(jù)流量模式,以觀察和增強通過網(wǎng)絡(luò)的數(shù)據(jù)包流量,并對不斷變化的情況作出快速反應(yīng)。
針對性能而優(yōu)化的Speedster7t架構(gòu)
在通信和網(wǎng)絡(luò)中,對任何FPGA的關(guān)鍵要求是支持最新協(xié)議的密集I / O需求。Speedster7t系列FPGA通過在器件的I / O環(huán)中實現(xiàn)的全套硬件I / O控制器來滿足了這一需求,包括400G以太網(wǎng)、PCI Gen 5和GDDR6接口。
為了避免由于需要將一些核心功能置入可編程邏輯而造成的瓶頸,Speedster7t FPGA提供了完整的400 Gbps以太網(wǎng)MAC。這些MAC處理前向糾錯(FEC),支持400G配置的4×100G和8×50G選項。但是要充分利用這些功能,F(xiàn)PGA架構(gòu)還需要更多的東西 —— 一個能釋放其全部性能的互連框架。
通常來講,F(xiàn)PGA已經(jīng)使用了通過可編程互連來實現(xiàn)的超寬總線,以使高速串行通道與內(nèi)核中可編程邏輯的處理能力相匹配?;ミB矩陣的可任意編程性質(zhì)限制了數(shù)據(jù)在邏輯模塊之間的傳輸速度。為了彌補這種速度上的代價,從事網(wǎng)絡(luò)類設(shè)計的FPGA用戶經(jīng)常采用極寬的總線——通常寬達1024位——這些總線是由面向位的互連矩陣匯聚合成。例如,在傳統(tǒng)的FPGA架構(gòu)中,為實現(xiàn)400Gbps所需的總線寬度將需要2048位(運行速率為642MHz),或1024位(運行速率為724MHz)。如此寬的總線難以布線,因為它們會消耗FPGA架構(gòu)內(nèi)大量的布線資源。其結(jié)果是,即使在最先進的FPGA中,也不太可能用所需的時鐘速率來處理輸入數(shù)據(jù)并實現(xiàn)時序收斂。
Speedster7t架構(gòu)通過提供一個聚合帶寬可高達20 Tbps的多級NoC層級化結(jié)構(gòu),消除了由于需要將高速I/O通道直接連接到以較低時鐘速率運行的可編程邏輯所造成的瓶頸。與采用FPGA邏輯陣列實現(xiàn)互連方式相比,NoC不僅在速度上有了巨大的提升,而且NoC還能夠在不消耗任何FPGA可編程資源的情況下傳輸大量的數(shù)據(jù)。內(nèi)部NoC不僅提供了更高的帶寬,Speedster7t系列FPGA中的智能連接機制還簡化了將數(shù)據(jù)從NoC端口傳輸?shù)竭壿嬯嚵兄械娜蝿?wù)。
NoC有兩個主要部分。NoC的外部設(shè)備部分負責(zé)PCIe Gen 5接口、內(nèi)存控制器和核心FPGA邏輯陣列之間的數(shù)據(jù)傳輸。NoC的另一部分由在FPGA結(jié)構(gòu)頂部運行的行和列組成。NoC提供雙向的、256位寬的水平和垂直通道,這些通道在可編程集群之間運行。每個NoC行或列可以同時在相反方向上以512 Gbps的速率處理數(shù)據(jù)流。為了最大限度地利用基礎(chǔ)架構(gòu)及其在Speedster7t器件上快速分發(fā)數(shù)據(jù)的能力,NoC還直接連接到片上400G以太網(wǎng)控制器,并采用智能數(shù)據(jù)流分配策略,通過易于實現(xiàn)的256位寬接口,沿NoC通道將數(shù)據(jù)流劃分為并行的可編程邏輯集群組。
NoC數(shù)據(jù)模式
為了實現(xiàn)400 Gbps的性能,設(shè)計人員可以使用一種稱為數(shù)據(jù)包模式的全新處理模式,在這種模式下,傳入以太網(wǎng)的數(shù)據(jù)流被重新排列(如圖9所示)成四個較小的32字節(jié)的數(shù)據(jù)包。這些數(shù)據(jù)包在四條獨立的256位總線上以506MHz的頻率運行。這種模式的優(yōu)點包括:當數(shù)據(jù)包結(jié)束時,浪費的字節(jié)更少;并且數(shù)據(jù)可以并行傳輸(前后相接),而不是必須等到在第一個數(shù)據(jù)包完成傳輸后才開始第二個數(shù)據(jù)包的傳輸。
對于運行在分組化數(shù)據(jù)上的典型網(wǎng)絡(luò)應(yīng)用,每個模塊可以對其接收到的數(shù)據(jù)包報頭進行分類和標記,并通過調(diào)用NoC接口的服務(wù)來連接片外GDDR6或DDR4存儲器,將不需要進一步處理的工作負載卸載到外部存儲器的緩沖區(qū)存儲。對每個數(shù)據(jù)包的處理完成后,通過NoC引導(dǎo)來自外部和內(nèi)部緩沖區(qū)的數(shù)據(jù)流,將必要的數(shù)據(jù)傳送到相關(guān)的以太網(wǎng)出口端口。因此,許多操作并不需要調(diào)用FPGA邏輯陣列中的資源,并且可以充分利用NoC和以太網(wǎng)端口之間的直接連接。
圖9 數(shù)據(jù)包模式(Packet Mode)下的數(shù)據(jù)總線重新排列
圖10 使用數(shù)據(jù)包模式(Packet Mode)的400 Gbps以太網(wǎng)
通過NoC通道的數(shù)據(jù)分發(fā)也可以采用非數(shù)據(jù)包化的模式來完成,以支持目前在以太網(wǎng)上使用的、盡可能多樣化的協(xié)議,例如5G系統(tǒng)中的eCPRI,并幫助設(shè)計人員避免在邏輯架構(gòu)中不得已去創(chuàng)建超寬總線。
高速存儲接口
Speedster7t的架構(gòu)師對存儲接口的選擇反映了以太網(wǎng)和NoC連接可提供的巨大容量。一種可能的方法是在一系列設(shè)計中采用即將推出的HBM2接口。盡管這樣的接口可以提供所需的性能水平,但HBM2價格昂貴,這將迫使客戶去等待必要的組件和集成技術(shù)的出現(xiàn)。
與此不同,Speedster7t系列則采用了GDDR6標準,該標準為當今片外存儲器提供了最高的性能。Speedster7t FPGA是市場上首款支持該接口的器件,每個片上GDDR6內(nèi)存控制器可維持512 Gbps的帶寬。在單個AC7t1500器件中最多可帶有8個GDDR6控制器,使總的內(nèi)存帶寬可達到4 Tbps。
對PCIe Gen 5的支持
除了以太網(wǎng)和存儲控制器,Speedster7t FPGA上提供的對PCIe Gen 5的支持還能夠與主機處理器緊密集成,以支持諸如sidecar智能網(wǎng)卡(SmartNIC)設(shè)計等高性能加速器應(yīng)用。PCI Gen 5控制器使其能夠讀取和寫入存儲在FPGA內(nèi)存層級結(jié)構(gòu)中的數(shù)據(jù),包括許多位于邏輯架構(gòu)內(nèi)的塊RAM,以及連接到FPGA存儲控制器的外部GDDR6和DDR4 SRAM設(shè)備。在FPGA邏輯陣列中實例化的數(shù)據(jù)傳輸控制器(例如DMA引擎),可以類似地通過PCIe Gen 5總線訪問與主機處理器共享的內(nèi)存,而無需消耗FPGA邏輯陣列內(nèi)的任何資源即可實現(xiàn)這種高帶寬連接,并且設(shè)計時間幾乎為零。用戶只需要啟用PCIe和GDDR6接口,就可以通過NoC發(fā)送事務(wù)數(shù)據(jù)。
下面的圖11展示了PCIe子系統(tǒng)與任何GDDR6或DDR4存儲接口之間的直接連接。
圖11 無需消耗FPGA邏輯陣列即可實現(xiàn)PCIe和GDDR6之間的數(shù)據(jù)傳輸
112-Gbps SerDes
AC7t1500器件搭載了400G以太網(wǎng)通道用于物理層訪問,該器件可提供多達32個高速SerDes通道,它們可用于需要數(shù)據(jù)速率高達112 Gbps的其他標準,并完全支持PAM4信令。這些SerDes通道支持器件間實現(xiàn)極短距離(XSR)和超短距離(USR)通道,事實證明這些通道對一系列通信系統(tǒng)都非常重要。SerDes實現(xiàn)方式的靈活性加上對各種以太網(wǎng)速度的支持(因為已集成了一個可分解型控制器)為設(shè)計提供了現(xiàn)成可用的支持,這些設(shè)計將能夠與任何規(guī)劃的CPRI和eCPRI格式(用于5G前端傳輸設(shè)計)一起使用。
機器學(xué)習(xí)處理器
對于計算密集型任務(wù),在Speedster7t FPGA上部署的Speedster7t機器學(xué)習(xí)處理器(MLP)是靈活的且可分解的算術(shù)單元。MLP是高密度乘法器陣列,帶有支持多種數(shù)字格式的浮點和整數(shù)MAC模塊。MLP帶有集成的內(nèi)存塊,可以在不使用FPGA資源的情況下執(zhí)行操作數(shù)和內(nèi)存級聯(lián)功能。MLP適用于一系列矩陣數(shù)學(xué)運算,從5G無線電控制器的波束成形計算到加速深度學(xué)習(xí)應(yīng)用,諸如數(shù)據(jù)流模式和數(shù)據(jù)包內(nèi)容分析。
圖12 機器學(xué)習(xí)處理器原理框圖
結(jié)論
從5G網(wǎng)絡(luò)的邊緣到數(shù)據(jù)中心內(nèi)部的交換機,通信和網(wǎng)絡(luò)系統(tǒng)對芯片的功能帶來了極大的壓力,以支持其所需的計算能力和數(shù)據(jù)傳輸速率。傳統(tǒng)的可編程邏輯為這些系統(tǒng)提供了靈活性和速率的最佳組合,但是近年來卻因以太網(wǎng)等協(xié)議的速度提高到100G和400G而面臨新挑戰(zhàn)。Speedster7t架構(gòu)通過采用創(chuàng)新的、多層級片上網(wǎng)絡(luò),使數(shù)據(jù)能夠在器件周圍輕松傳輸,而不影響FPGA的邏輯陣列,從而充分保障所有已集成在內(nèi)的全球最先進的I / O接口,諸如400G以太網(wǎng)、GDDR6和PCI Gen 5,以支持充分發(fā)揮核心的可編程邏輯結(jié)構(gòu)的潛在能力。
Achronix Speedster7t系列采用了一種借助于NoC技術(shù)的創(chuàng)新架構(gòu),并充分利用了7nm技術(shù)來部署各種現(xiàn)有可用的、性能最高的控制器,提供了其他FPGA器件迄今為止所缺少的要素?;赟peedster7t FPGA的設(shè)計可以接收來自多個高速數(shù)據(jù)源的巨量數(shù)據(jù),并將這些數(shù)據(jù)分發(fā)到可編程的片上算法和處理單元,然后以盡可能低的延遲來獲得這些結(jié)果。由此帶來的是一種創(chuàng)新的FPGA架構(gòu),可以支持目前正在設(shè)計的下一代5G、軟件定義網(wǎng)絡(luò)和數(shù)據(jù)中心系統(tǒng)。Speedster7t FPGA現(xiàn)在可以推動通信和網(wǎng)絡(luò)應(yīng)用向新一代發(fā)展。
版權(quán)所有?2020 Achronix半導(dǎo)體公司保留所有權(quán)利。Achronix、Speedcore、Speedster和ACE是Achronix半導(dǎo)體公司在美國和/或其他國家/地區(qū)的商標。所有其他商標均為其各自所有者的財產(chǎn)。所有規(guī)格如有更改,恕不另行通知。
評論