NVIDIA以太網(wǎng)加速xAI構(gòu)建的全球最大AI超級(jí)計(jì)算機(jī)
NVIDIA近日宣布,xAI 位于田納西州孟菲斯市的Colossus超級(jí)計(jì)算機(jī)集群達(dá)到了10萬(wàn)顆NVIDIA? Hopper GPU的巨大規(guī)模。該集群使用了NVIDIA Spectrum-X?以太網(wǎng)網(wǎng)絡(luò)平臺(tái),該平臺(tái)是專為多租戶、超大規(guī)模的 AI 工廠提供卓越性能而設(shè)計(jì)的RDMA(Remote Direct Memory Access)網(wǎng)絡(luò)。
Colossus是世界上最大的AI超級(jí)計(jì)算機(jī),目前正被用于訓(xùn)練xAI的Grok系列大語(yǔ)言模型,以及作為X Premium用戶功能之一的聊天機(jī)器人(Chatbot)。xAI正在將Colossus的規(guī)模進(jìn)一步擴(kuò)大一倍至20萬(wàn)顆NVIDIA Hopper GPU。
xAI 和 NVIDIA僅用了122天就建成了所有配套設(shè)施和這臺(tái)最先進(jìn)的超級(jí)計(jì)算機(jī),從第一個(gè)機(jī)架落地到開始訓(xùn)練任務(wù),只用了19天。而建造這種規(guī)模的系統(tǒng)通常需要數(shù)月乃至數(shù)年的時(shí)間。
在訓(xùn)練Grok這種超大型模型時(shí),Colossus實(shí)現(xiàn)了空前的網(wǎng)絡(luò)性能,在三層網(wǎng)絡(luò)架構(gòu)下,整個(gè)系統(tǒng)未出現(xiàn)任何因流量沖突而造成的應(yīng)用延遲增加或數(shù)據(jù)包丟失的情況。憑借Spectrum-X先進(jìn)的擁塞控制功能,系統(tǒng)數(shù)據(jù)吞吐量一直保持在95%。
這一性能水平是傳統(tǒng)以太網(wǎng)在大規(guī)模的情況下根本無(wú)法實(shí)現(xiàn)的,傳統(tǒng)以太網(wǎng)在數(shù)千條流發(fā)生沖突時(shí),只能提供60%的數(shù)據(jù)吞吐量。
NVIDIA網(wǎng)絡(luò)高級(jí)副總裁Gilad Shainer表示:“AI正變得至關(guān)重要,對(duì)性能、安全性、可擴(kuò)展性和成本效益提出了更高的要求。NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)專為那些如xAI一樣的創(chuàng)新企業(yè)提供更快的處理、分析和執(zhí)行 AI 工作負(fù)載的速度,進(jìn)而加速AI解決方案的開發(fā)、部署和上市?!?/p>
埃隆·馬斯克在X上表示:“Colossus是世界上最強(qiáng)大的訓(xùn)練系統(tǒng)。xAI團(tuán)隊(duì)、NVIDIA和我們的眾多合作伙伴及供應(yīng)商干得漂亮?!?/p>
xAI發(fā)言人表示:“xAI構(gòu)建了全球規(guī)模最大、性能最強(qiáng)的超級(jí)計(jì)算機(jī)。借助NVIDIA Hopper GPU和Spectrum-X,我們得以突破大規(guī)模AI模型訓(xùn)練的邊界,打造基于以太網(wǎng)標(biāo)準(zhǔn)并經(jīng)過(guò)超級(jí)加速和優(yōu)化的AI工廠。”
Spectrum-X平臺(tái)的核心是Spectrum SN5600以太網(wǎng)交換機(jī),它支持高達(dá)800Gb/s的端口速度,采用了Spectrum-4交換機(jī)ASIC。xAI采用了Spectrum-X SN5600交換機(jī)與 NVIDIA BlueField-3? SuperNIC的端到端解決方案,實(shí)現(xiàn)了前所未有的性能。
專門面向AI的Spectrum-X以太網(wǎng)網(wǎng)絡(luò)具有先進(jìn)的功能,可在提供高效、可擴(kuò)展的帶寬的同時(shí),實(shí)現(xiàn)低延遲和短尾延遲,而這些功能之前是 InfiniBand 網(wǎng)絡(luò)所獨(dú)有的。Spectrum-X的功能包括基于NVIDIA DDP(Direct Data Placement)技術(shù)的動(dòng)態(tài)路由、擁塞控制計(jì)算,以及增強(qiáng)了 AI 網(wǎng)絡(luò)的可視性和性能隔離,所有這些功能都是多租戶生成式 AI 云和大型企業(yè)應(yīng)用環(huán)境的關(guān)鍵要求。
評(píng)論