算力網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)有何不同
隨著人工智能(AI)和機(jī)器學(xué)習(xí)(ML)的日益普及,對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)的需求也在增長(zhǎng)。
本文引用地址:http://butianyuan.cn/article/202501/465997.htm本白皮書分析了AI網(wǎng)絡(luò)的新要求、獨(dú)特的AI流量模式,以及如何利用現(xiàn)有技術(shù)使以太網(wǎng)網(wǎng)絡(luò)適應(yīng)運(yùn)行高性能AI工作負(fù)載。此外,還討論了Keysight解決方案如何幫助優(yōu)化AI網(wǎng)絡(luò)。
新的網(wǎng)絡(luò)要求
支持AI和ML的網(wǎng)絡(luò)在要求和流量模式上與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)存在顯著差異。在傳統(tǒng)數(shù)據(jù)中心和AI數(shù)據(jù)中心之間,數(shù)據(jù)的類型、數(shù)量和流量模型都有很大的不同。大型AI集群的硬件投資高達(dá)數(shù)億美元,通過優(yōu)化可以顯著減少模型訓(xùn)練所需的時(shí)間。
傳統(tǒng)數(shù)據(jù)中心
在傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)中,常見的工作負(fù)載包括單個(gè)查詢或定時(shí)作業(yè),如夜間作業(yè)。這些工作負(fù)載變化很大,流量分布在不同的會(huì)話上。整個(gè)網(wǎng)絡(luò)負(fù)載在單個(gè)鏈路上均勻分布,隨著用戶數(shù)量的增加而成比例增長(zhǎng)。通常,延遲或丟失的數(shù)據(jù)包不會(huì)造成重大問題。例如,銀行后端系統(tǒng)處理單個(gè)賬戶余額的網(wǎng)頁(yè)請(qǐng)求或計(jì)算利息的夜間作業(yè)。
AI數(shù)據(jù)中心
相比之下,數(shù)據(jù)中心中的AI集群需要表現(xiàn)得像超級(jí)計(jì)算機(jī),配備成千上萬(wàn)的圖形處理單元(GPU)和數(shù)百個(gè)CPU及交換機(jī)。在AI集群中,所有GPU都致力于解決同一個(gè)問題。構(gòu)建大型語(yǔ)言模型(LLM)可能需要數(shù)天或數(shù)周時(shí)間。通過最快的網(wǎng)絡(luò)鏈路相互連接,這些GPU需要移動(dòng)大量數(shù)據(jù),不能在任何鏈路上丟失數(shù)據(jù)包或遇到擁堵。因?yàn)樗蠫PU都在處理同一個(gè)問題,所以當(dāng)最后一個(gè)GPU完成處理時(shí),任務(wù)就完成了。一旦構(gòu)建完成,LLM可以遷移到較小的GPU或基于CPU的前端計(jì)算機(jī)系統(tǒng)。然后,用戶可以使用模型,看看它在訓(xùn)練期間學(xué)到的信息應(yīng)用得如何。這個(gè)過程被稱為推理。本文僅討論后端LLM訓(xùn)練。
擴(kuò)展性
擴(kuò)展傳統(tǒng)數(shù)據(jù)中心時(shí),優(yōu)化主要取決于比較查詢響應(yīng)的服務(wù)級(jí)別(SLA)與實(shí)際結(jié)果。例如,檢索支票賬戶余額的響應(yīng)可能在毫秒級(jí),而大型夜間作業(yè)可能需要數(shù)小時(shí)。若結(jié)果未達(dá)預(yù)期時(shí)效,運(yùn)維人員可以調(diào)整服務(wù)器數(shù)量和網(wǎng)絡(luò)速度。
然而,擴(kuò)展AI集群需要優(yōu)化構(gòu)建模型的時(shí)間。新模型構(gòu)建可能需數(shù)周或數(shù)月。即使縮短幾天,也能釋放AI數(shù)據(jù)中心價(jià)值數(shù)百萬(wàn)美元的GPU,用于下一工作。增加GPU成本高昂,且數(shù)量有限。因此,首要優(yōu)化目標(biāo)是降低GPU的空閑時(shí)間,并在增加容量前消除網(wǎng)絡(luò)擁塞。
在AI集群中,GPU共同學(xué)習(xí)以訓(xùn)練模型。任何影響一個(gè)GPU的數(shù)據(jù)包延遲或丟失都可能顯著延長(zhǎng)任務(wù)完成時(shí)間,因?yàn)槠渌鸊PU將處于空閑狀態(tài)。盡管需要高速網(wǎng)絡(luò)鏈路,但這還不夠。關(guān)鍵在于配置AI網(wǎng)絡(luò),利用現(xiàn)代以太網(wǎng)網(wǎng)絡(luò)的多種技術(shù)避免擁塞。
新的流量模式
AI數(shù)據(jù)中心的網(wǎng)絡(luò)流量模式與傳統(tǒng)數(shù)據(jù)中心不同。工作負(fù)載分布在數(shù)百或數(shù)千個(gè)GPU之間,涉及大量數(shù)據(jù)的發(fā)送和接收。與大小不定的互聯(lián)網(wǎng)流量不同,AI數(shù)據(jù)大小具有有限的隨機(jī)性。AI集群在GPU計(jì)算和GPU間共享計(jì)算結(jié)果之間經(jīng)歷快速、高頻率的轉(zhuǎn)換。GPU在發(fā)送或等待信息時(shí)處于空閑狀態(tài)。流量可能突發(fā),呈現(xiàn)特定模式,如多個(gè)GPU相互發(fā)送數(shù)據(jù),導(dǎo)致內(nèi)部擁堵。
長(zhǎng)尾效應(yīng)
AI網(wǎng)絡(luò)性能衡量的是完成時(shí)間最長(zhǎng)的流量,而非平均帶寬。這些長(zhǎng)尾顯著影響任務(wù)完成時(shí)間,進(jìn)而影響GPU利用率。例如,若平均流量完成時(shí)間為150毫秒,但一個(gè)GPU的最長(zhǎng)完成時(shí)間為190毫秒,則所有GPU的實(shí)際總體完成時(shí)間為190毫秒。詳情見圖1。
圖1. 關(guān)鍵評(píng)估指標(biāo)示例
網(wǎng)絡(luò)優(yōu)化中的平衡至關(guān)重要
在此例中,某些GPU獲取數(shù)據(jù)速度遠(yuǎn)快于其他GPU。優(yōu)化的目標(biāo)并非將數(shù)據(jù)盡可能快地移動(dòng)至特定GPU,而是平衡網(wǎng)絡(luò),確保所有GPU幾乎同時(shí)接收到數(shù)據(jù),避免空閑。實(shí)際上,這涉及加快慢速流程,減慢快速流程。GPU一旦從彼此處接收到數(shù)據(jù),即可啟動(dòng)下一計(jì)算周期。這種優(yōu)化網(wǎng)絡(luò)能最大化GPU利用率。
類比來(lái)說,就像100顆大理石懸掛在網(wǎng)上,網(wǎng)孔僅比大理石略大。若將所有大理石投入網(wǎng)中,部分會(huì)迅速落下,但許多會(huì)聚在一起,最后一個(gè)落下需時(shí)較長(zhǎng)。若通過某種通道引導(dǎo)大理石入孔,即使第一個(gè)大理石通過時(shí)間較長(zhǎng),所有大理石整體通過速度將更快。這里的網(wǎng)孔代表網(wǎng)絡(luò)鏈路,大理石則代表GPU的流量。
相較之下,傳統(tǒng)數(shù)據(jù)中心流量包含許多不同時(shí)間發(fā)生的大小不一的流量,連接眾多客戶端。平衡此類流量網(wǎng)絡(luò)鏈路相對(duì)簡(jiǎn)單,有時(shí)甚至能自我平衡。然而,AI流量涉及始終向所有節(jié)點(diǎn)發(fā)送大量流量,平衡難度更大。
何時(shí)升級(jí)AI網(wǎng)絡(luò)?
AI的運(yùn)營(yíng)模式已發(fā)生改變
在傳統(tǒng)數(shù)據(jù)中心,當(dāng)鏈路利用率接近50%時(shí),便會(huì)考慮升級(jí)。而在AI數(shù)據(jù)中心,鏈路利用率可高達(dá)90%。即使所有鏈路速度奇跡般地加倍,鏈路利用率依然會(huì)保持在較高水平。
新型以太網(wǎng)網(wǎng)絡(luò)配置
以太網(wǎng)網(wǎng)絡(luò)在現(xiàn)今數(shù)據(jù)中心中占據(jù)主導(dǎo)地位,公司可以對(duì)其進(jìn)行優(yōu)化和配置,以支持AI網(wǎng)絡(luò)。構(gòu)建、部署、管理和排查這些網(wǎng)絡(luò)所需的技能,通??赏ㄟ^內(nèi)部資源或外部承包商和顧問獲得。公司可以利用這些現(xiàn)有技能,為AI配置以太網(wǎng)網(wǎng)絡(luò),避免擁塞影響GPU利用率。
現(xiàn)代以太網(wǎng)協(xié)議通過優(yōu)先級(jí)流量控制(PFC)、顯式擁塞通知(ECN)、數(shù)據(jù)中心量化擁塞通知(DCQCN)和分組噴濺等技術(shù),管理數(shù)據(jù)中心網(wǎng)絡(luò)的流量和擁塞。讓我們簡(jiǎn)要了解這些技術(shù)。
從PFC和ECN開始調(diào)優(yōu)
PFC允許交換機(jī)在其緩沖區(qū)達(dá)到特定閾值時(shí),向上游設(shè)備發(fā)送暫停幀,停止該隊(duì)列的流量。這種方法雖可防止數(shù)據(jù)包丟失,但單獨(dú)使用并非最佳解決方案。網(wǎng)絡(luò)可能會(huì)運(yùn)行緩慢,隊(duì)列頻繁啟停。
ECN則在設(shè)備間提供擁塞通知,使發(fā)送設(shè)備降低流量速率。DCQCN協(xié)調(diào)ECN和PFC的工作。
DCQCN是一種算法,通過在擁塞開始時(shí)降低傳輸速率,使ECN能夠管理流量控制,從而減少PFC的持續(xù)時(shí)間。調(diào)整DCQCN較為復(fù)雜,還有其他改善AI網(wǎng)絡(luò)配置的途徑。
進(jìn)一步優(yōu)化AI網(wǎng)絡(luò)的選項(xiàng)
在傳統(tǒng)的數(shù)據(jù)中心中,等價(jià)多路徑(ECMP)是一種常用的路由策略,它通過平衡網(wǎng)絡(luò)流量來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)優(yōu)化。然而,在AI網(wǎng)絡(luò)中,由于單個(gè)AI流量可能會(huì)占滿整個(gè)鏈路,這種策略就會(huì)面臨挑戰(zhàn)。對(duì)于AI網(wǎng)絡(luò)來(lái)說,更有效的方法是在數(shù)據(jù)包級(jí)別進(jìn)行網(wǎng)絡(luò)平衡。例如,數(shù)據(jù)包噴濺以及其他形式的負(fù)載均衡技術(shù),如動(dòng)態(tài)負(fù)載均衡、基于小單元的路由和確定性路由,可以將數(shù)據(jù)包分散到可用的網(wǎng)絡(luò)鏈路上。與AI集合通信中的流量相比,這些數(shù)據(jù)包體積小,可以顯著提高鏈路利用率。
在硬件層面,遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù)允許兩個(gè)服務(wù)器之間的應(yīng)用程序直接交換數(shù)據(jù),無(wú)需經(jīng)過處理器、操作系統(tǒng)、緩存或網(wǎng)絡(luò)內(nèi)核。這意味著應(yīng)用程序可以直接在遠(yuǎn)程服務(wù)器的內(nèi)存上進(jìn)行讀寫操作,無(wú)需使用任何服務(wù)器的處理器,從而實(shí)現(xiàn)更快的數(shù)據(jù)傳輸和更低的延遲。基于融合以太網(wǎng)的RDMA(RoCE)在以太網(wǎng)網(wǎng)絡(luò)中提供了這種機(jī)制。
無(wú)損以太網(wǎng)網(wǎng)絡(luò)的構(gòu)建
通過結(jié)合上述技術(shù)和為每種技術(shù)設(shè)置適當(dāng)?shù)膮?shù),構(gòu)建一個(gè)無(wú)損以太網(wǎng)網(wǎng)絡(luò)是可行的。 無(wú)損以太網(wǎng)網(wǎng)絡(luò)的協(xié)議已經(jīng)存在,同時(shí)也有工具來(lái)提供基準(zhǔn)測(cè)試,所需的管理應(yīng)用程序,以及網(wǎng)絡(luò)工程師和架構(gòu)師的知識(shí)體系都已完備。
行業(yè)專家們正在為AI開發(fā)新的以太網(wǎng)能力和創(chuàng)新技術(shù)。比如,超以太網(wǎng)聯(lián)盟正在致力于標(biāo)準(zhǔn)化高性能以太網(wǎng)能力,并簡(jiǎn)化配置和管理,作為其AI網(wǎng)絡(luò)增長(zhǎng)路線圖的一部分。 挑戰(zhàn)在于如何在部署前驗(yàn)證設(shè)計(jì)和目標(biāo)。
優(yōu)化AI網(wǎng)絡(luò)的新方法
為了提供AI網(wǎng)絡(luò)的測(cè)試基準(zhǔn),需要模擬AI訓(xùn)練的流量模式,并通過能夠模擬GPU和RDMA網(wǎng)絡(luò)接口卡(NIC)的網(wǎng)絡(luò)流量發(fā)生器發(fā)送這些數(shù)據(jù)。GPU支持RDMA NIC,這使得GPU之間的數(shù)據(jù)訪問變得更快捷。
需要模擬的流量類型
系統(tǒng)應(yīng)能夠可重復(fù)地創(chuàng)建由AI集群中集合通信產(chǎn)生的不同數(shù)據(jù)模式和大小的場(chǎng)景。這些流量包括模擬隊(duì)列對(duì)(Q-pair)連接和流,生成擁塞通知,執(zhí)行基于DCQCN的動(dòng)態(tài)速率控制,并提供測(cè)試吞吐量、緩存管理以及ECMP哈希的靈活性。
工程團(tuán)隊(duì)可以使用支持RoCE v2 / RDMA的網(wǎng)絡(luò)流量發(fā)生器,在實(shí)驗(yàn)室或灰度環(huán)境中根據(jù)性能測(cè)量結(jié)果對(duì)設(shè)計(jì)進(jìn)行改進(jìn),而不依賴于GPU加速卡。一個(gè)有效的AI網(wǎng)絡(luò)優(yōu)化解決方案應(yīng)具備定義AI系統(tǒng)配置以模擬工作負(fù)載的靈活性,包括GPU的數(shù)量、NIC的數(shù)量、擁塞控制設(shè)置(如PFC和DCQCN)、數(shù)據(jù)大小、Q-pair特性以及模擬NIC的配置,靈活的配置可以使基準(zhǔn)測(cè)試更高效和可重復(fù)。進(jìn)行不同數(shù)據(jù)大小的基準(zhǔn)測(cè)試,提供完成時(shí)間、算法和總線帶寬等關(guān)鍵性能指標(biāo)的結(jié)果是優(yōu)化AI網(wǎng)絡(luò)的重要步驟,了解單個(gè)RoCEv2 Q-pair的統(tǒng)計(jì)指標(biāo)細(xì)節(jié)對(duì)于排錯(cuò)和定位也很關(guān)鍵。
結(jié)論
AI數(shù)據(jù)中心網(wǎng)絡(luò)的要求和流量模式與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)有顯著差異。優(yōu)化AI網(wǎng)絡(luò)的范式不同,人們期望網(wǎng)絡(luò)能夠以接近滿載和無(wú)損的方式運(yùn)行。一個(gè)關(guān)鍵策略是優(yōu)化網(wǎng)絡(luò)以提升GPU利用率。雖然有許多傳統(tǒng)以太網(wǎng)的調(diào)優(yōu)方法,但效果并不直觀、復(fù)雜程度高。
Keysight的工具用于提供基準(zhǔn)測(cè)試和優(yōu)化AI網(wǎng)絡(luò),工具充分利用了現(xiàn)有的數(shù)據(jù)中心工程技能、知識(shí)體系和測(cè)試方法學(xué),可以避免手動(dòng)、耗時(shí)的操作。有了這些工具,網(wǎng)絡(luò)架構(gòu)師可以使用Keysight AI(KAI)數(shù)據(jù)中心構(gòu)建器來(lái)模擬網(wǎng)絡(luò)負(fù)載和GPU行為,結(jié)合硬件儀表方案,主動(dòng)識(shí)別瓶頸并調(diào)整網(wǎng)絡(luò)配置,調(diào)優(yōu)網(wǎng)絡(luò)性能。從而最終顯著提升GPU利用率——最小化資源浪費(fèi)并大幅降低網(wǎng)絡(luò)GPU的開支。
評(píng)論