使用PCIe交換網(wǎng)結構在多主機系統(tǒng)中優(yōu)化資源部署
越來越多的數(shù)據(jù)中心和其他高性能計算環(huán)境開始使用GPU,因為GPU能夠快速處理深度學習和機器學習應用中生成的大量數(shù)據(jù)。不過,就像許多可提高應用性能的新型數(shù)據(jù)中心創(chuàng)新一樣,這項創(chuàng)新也暴露出新的系統(tǒng)瓶頸。在這些應用中,用于提高系統(tǒng)性能的新興架構涉及通過一個PCIe?結構在多個主機之間共享系統(tǒng)資源。
本文引用地址:http://butianyuan.cn/article/202010/419640.htmPCIe標準(特別是其基于樹的傳統(tǒng)層級)會限制資源共享的實現(xiàn)方式(和實現(xiàn)程度)。不過,可以實現(xiàn)一種低延時的高速結構方法,這種方法允許在多個主機之間共享大量GPU和NVMe SSD,同時仍支持標準系統(tǒng)驅動程序。
PCIe結構方法采用動態(tài)分區(qū)和多主機單根I/O虛擬化(SR-IOV)共享。各PCIe結構之間可直接路由點對點傳輸。這樣便可為點對點傳輸提供最佳路由,減少根端口擁塞,并且更有效地平衡CPU資源的負載。
傳統(tǒng)上,GPU傳輸必須訪問CPU的系統(tǒng)存儲器,這會導致端點之間發(fā)生存儲器共享爭用。 當GPU使用其共享的存儲器映射資源而不是CPU存儲器時,它可以在本地提取數(shù)據(jù),無需先通過CPU傳遞數(shù)據(jù)。這消除了跳線和鏈路以及由此產生的延時,從而使GPU能夠更高效地處理數(shù)據(jù)。
圖1 — 多主機拓撲
PCIe的固有限制
PCIe主層級是一個樹形結構,其中的每個域都有一個根聯(lián)合體,從該點可擴展到“葉子”,這些“葉子”通過交換網(wǎng)和橋接器到達端點。鏈路的嚴格層級和方向性給多主機、多交換網(wǎng)系統(tǒng)帶來了成本高昂的設計要求。
以圖1所示的系統(tǒng)為例。要符合PCIe的層級,主機1必須在交換網(wǎng)1中有一個專用的下行端口,該端口連接到交換網(wǎng)2中的專用上行端口。它還需要在交換網(wǎng)2中有一個專用的下行端口,該端口連接到交換網(wǎng)3中的專用上行端口,依此類推。主機2和主機3也有類似的要求,如圖2所示。
即使是基于PCIe樹形結構的最基本系統(tǒng),也需要各交換網(wǎng)之間有三個鏈路專用于每個主機的PCIe拓撲。而且,由于主機之間無法共享這些鏈路,因此系統(tǒng)會很快變得極為低效。
此外,符合PCIe的典型層級只有一個根端口,而且盡管“多根I/O虛擬化和共享”規(guī)范中支持多個根,但它會使設計更復雜,并且當前不受主流CPU支持。結果會造成未使用的PCIe設備(即端點)滯留在其分配到的主機中。不難想象,這在采用多個GPU、存儲設備及其控制器以及交換網(wǎng)的大型系統(tǒng)中會變得多么低效。
例如,如果第一個主機(主機1)已經消耗了所有計算資源,而主機2和3未充分利用資源,則顯然希望主機1訪問這些資源。但主機1無法這樣做,因為這些資源在它的層級域之外,因此會發(fā)生滯留。非透明橋接(NTB)是這種問題的一個潛在解決方案,但由于每種類型的共享PCIe設備都需要非標準驅動程序和軟件,因此這同樣會使系統(tǒng)變得復雜。更好的方法是使用PCIe結構,這種結構允許標準PCIe拓撲容納多個可訪問每個端點的主機。
圖2 — 每個主機的層級要求
實施方法
系統(tǒng)使用一個PCIe結構交換網(wǎng)(本例中為Microchip Switchtec? PAX系列的成員)在兩個獨立但可透明互操作的域中實現(xiàn):即包含所有端點和結構鏈路的結構域以及每個主機專用的主機域(圖3)。主機通過在嵌入式CPU上運行的PAX交換網(wǎng)固件保留在單獨的虛擬域中,因此,交換網(wǎng)將始終顯示為具有直連端點的標準單層PCIe設備,而與這些端點出現(xiàn)在結構中的位置無關。
來自主機域的事務會在結構域中轉換為ID和地址,反之,結構域中通信的非分層路由也是如此。這樣,系統(tǒng)中的所有主機便可共享連接交換網(wǎng)和端點的結構鏈路。交換網(wǎng)固件會攔截來自主機的所有配置平面通信(包括PCIe枚舉過程),并使用數(shù)量可配置的下行端口虛擬化一個符合PCIe規(guī)范的簡單交換網(wǎng)。
當所有控制平面通信都路由到交換網(wǎng)固件進行處理時,數(shù)據(jù)平面通信直接路由到端點。其他主機域中未使用的GPU不再滯留,因為它們可以根據(jù)每個主機的需求動態(tài)分配。結構內支持點對點通信,這使其能夠適應機器學習應用。當以符合PCIe規(guī)范的方式向每個主機提供功能時,可以使用標準驅動程序。
圖3 — 每個結構的獨立域
操作方法
為了解這種方法的工作原理,我們以圖4中的系統(tǒng)為例,該系統(tǒng)由兩個主機(主機1采用Windows?系統(tǒng),主機2采用Linux?系統(tǒng))、四個PAX PCIe結構交換網(wǎng)、四個Nvidia M40 GPGPU和一個支持SR-IOV的Samsung NVMe SSD組成。在本實驗中,主機運行代表實際機器學習工作負載的通信,包括Nvidia的CUDA點對點通信基準測試實用程序和訓練cifar10圖像分類的TensorFlow模型。嵌入式交換網(wǎng)固件處理交換網(wǎng)的低級配置和管理,系統(tǒng)由Microchip的ChipLink調試和診斷實用程序管理。
評論