新聞中心

EEPW首頁 > 智能計(jì)算 > 新品快遞 > NVIDIA推出Blackwell架構(gòu)DGX SuperPOD,適用于萬億參數(shù)級(jí)的生成式AI超級(jí)計(jì)算

NVIDIA推出Blackwell架構(gòu)DGX SuperPOD,適用于萬億參數(shù)級(jí)的生成式AI超級(jí)計(jì)算

—— 基于先進(jìn)的NVIDIA網(wǎng)絡(luò)、NVIDIA全棧AI軟件和存儲(chǔ)技術(shù),可將集群中Grace Blackwell超級(jí)芯片的數(shù)量擴(kuò)展至數(shù)萬個(gè),通過NVIDIA NVLink可將多達(dá)576塊Blackwell GPU連成一個(gè)整體,由NVIDIA系統(tǒng)專家加速即時(shí)AI基礎(chǔ)設(shè)施的部署
作者: 時(shí)間:2024-03-19 來源:EEPW 收藏


本文引用地址:http://butianyuan.cn/article/202403/456544.htm

1710843202501249.png

于近日發(fā)布新一代AI機(jī) —— 搭載 GB200 Grace 超級(jí)芯片的 ?。這臺(tái)AI機(jī)可以用于處理萬億參數(shù)模型,能夠保證超大規(guī)模生成式 AI 訓(xùn)練和推理工作負(fù)載的持續(xù)運(yùn)行。

全新  采用新型高效液冷機(jī)架級(jí)擴(kuò)展架構(gòu),基于NVIDIA DGX? GB200系統(tǒng)構(gòu)建而成,在FP4精度下可提供 11.5 exaflops 的 AI 性能和 240 TB 的快速顯存,且可通過增加機(jī)架來擴(kuò)展性能。

每個(gè)DGX GB200系統(tǒng)搭載36個(gè)NVIDIA GB200超級(jí)芯片,共包含36個(gè)NVIDIA Grace CPU和72個(gè)NVIDIA GPU。這些超級(jí)芯片通過第五代NVIDIA NVLink?連接成一臺(tái)超級(jí)計(jì)算機(jī)。與NVIDIA H100 Tensor Core GPU相比,GB200 超級(jí)芯片在大語言模型推理工作負(fù)載方面的性能提升了高達(dá) 30 倍。

NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛表示: “NVIDIA DGX AI超級(jí)計(jì)算機(jī)是推進(jìn) AI 產(chǎn)業(yè)變革的工廠。新一代DGX SuperPO 集NVIDIA加速計(jì)算、網(wǎng)絡(luò)和軟件方面的最新進(jìn)展于一體,能夠幫助每一個(gè)企業(yè)、行業(yè)和國(guó)家完善并生成自己的AI?!?/p>

Grace  架構(gòu)的  由 8 個(gè)或以上的 DGX GB200 系統(tǒng)構(gòu)建而成,這些系統(tǒng)通過 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)連接,可擴(kuò)展到數(shù)萬個(gè) GB200 超級(jí)芯片。用戶可通過 NVLink 連接 8 個(gè) DGX GB200 系統(tǒng)中的 576 塊 Blackwell GPU,從而獲得海量共享顯存空間,來賦能下一代 AI 模型。

面向時(shí)代的全新機(jī)架級(jí)擴(kuò)展的DGX SuperPOD架構(gòu)

采用DGX GB200系統(tǒng)構(gòu)建而成的全新DGX SuperPOD采用了統(tǒng)一的計(jì)算網(wǎng)絡(luò)。除第五代NVIDIA NVLink網(wǎng)絡(luò)外,還包括NVIDIA BlueField?-3 DPU,并將支持同為近日發(fā)布的NVIDIA Quantum-X800 InfiniBand網(wǎng)絡(luò)。這個(gè)架構(gòu)可為計(jì)算平臺(tái)中的每塊GPU提供高達(dá)每秒1800 GB的帶寬。

另外,第四代NVIDIA可擴(kuò)展分層聚合和規(guī)約協(xié)議(SHARP)?技術(shù)可提供14.4 teraflops的網(wǎng)絡(luò)計(jì)算能力,與上一代產(chǎn)品相比,新一代DGX SuperPOD架構(gòu)的網(wǎng)絡(luò)計(jì)算能力提高了 4 倍。

統(tǒng)包式架構(gòu)搭配先進(jìn)的軟件,實(shí)現(xiàn)前所未有的正常運(yùn)行時(shí)間

全新DGX SuperPOD是一臺(tái)完整的數(shù)據(jù)中心級(jí)AI超級(jí)計(jì)算機(jī),在與NVIDIA認(rèn)證合作伙伴提供的高性能存儲(chǔ)集成后,能夠滿足工作負(fù)載的需求。每臺(tái)超級(jí)計(jì)算機(jī)都在出廠前完成了搭建、布線和測(cè)試,從而大大加快了在用戶數(shù)據(jù)中心的部署速度。

Grace Blackwell架構(gòu)的DGX SuperPOD具有智能預(yù)測(cè)管理功能,能夠持續(xù)監(jiān)控軟硬件中的數(shù)千個(gè)數(shù)據(jù)點(diǎn),通過預(yù)測(cè)并攔截導(dǎo)致停機(jī)和低效的根源以節(jié)省時(shí)間、能耗和計(jì)算成本。

即使沒有系統(tǒng)管理員在場(chǎng),該軟件也能識(shí)別需要重點(diǎn)關(guān)注的領(lǐng)域并制定維護(hù)計(jì)劃,靈活調(diào)整計(jì)算資源,通過自動(dòng)保存和恢復(fù)作業(yè)來防止停機(jī)。

如果軟件檢測(cè)到需要更換組件,該集群將激活備用容量以確保工作能夠及時(shí)完成。為任何必要的硬件更換做好安排,以免出現(xiàn)計(jì)劃之外的停機(jī)。

NVIDIA DGX B200系統(tǒng)推動(dòng)各行各業(yè)AI超級(jí)計(jì)算發(fā)展

NVIDIA還發(fā)布了一款統(tǒng)一用于AI模型訓(xùn)練、微調(diào)和推理的通用AI超級(jí)計(jì)算平臺(tái)NVIDIA DGX B200系統(tǒng)。

采用風(fēng)冷傳統(tǒng)機(jī)架式設(shè)計(jì)的DGX已被全球各行各業(yè)數(shù)千家企業(yè)廣泛采用,DGX B200 DGX系列的第六代產(chǎn)品。采用Blackwell架構(gòu)的全新DGX B200系統(tǒng)包含8個(gè)NVIDIA B200 Tensor Core GPU和2個(gè)第五代英特爾?至強(qiáng)?處理器。用戶還可以使用 DGX B200 系統(tǒng)構(gòu)建 DGX SuperPOD,打造能夠幫助大型開發(fā)團(tuán)隊(duì)運(yùn)行多種不同作業(yè)的 AI 卓越中心。

DGX B200 系統(tǒng)憑借全新 Blackwell 架構(gòu)中的 FP4 精度特性,可提供高達(dá) 144 petaflops 的 AI 性能、1.4TB 海量的 GPU 顯存和 64TB/s 的顯存帶寬,從而使得該系統(tǒng)的萬億參數(shù)模型實(shí)時(shí)推理速度比上一代產(chǎn)品提升了 15 倍

DGX B200系統(tǒng)包含帶有8個(gè)NVIDIA ConnectX?-7網(wǎng)卡和2個(gè)BlueField-3 DPU的高性能網(wǎng)絡(luò),每個(gè)連接的帶寬高達(dá)400 Gb/s,可通過NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum?-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)支持更高的AI性能。

軟件和專家為擴(kuò)大生產(chǎn)級(jí)AI的規(guī)模提供支持

所有 NVIDIA DGX 平臺(tái)均包含用于企業(yè)級(jí)開發(fā)和部署的NVIDIA AI Enterprise軟件。DGX用戶可以通過使用該軟件平臺(tái)中的預(yù)訓(xùn)練的 NVIDIA 基礎(chǔ)模型、框架、工具套件和全新NVIDIA NIM微服務(wù)來加速他們的工作。

NVIDIA DGX專家與部分獲得NVIDIA DGX平臺(tái)支持認(rèn)證的合作伙伴將在每個(gè)部署環(huán)節(jié)為用戶提供幫助,以便其迅速實(shí)現(xiàn)AI投產(chǎn)。在系統(tǒng)投入運(yùn)行后,DGX專家還將繼續(xù)協(xié)助用戶優(yōu)化其AI管線和基礎(chǔ)設(shè)施。

供應(yīng)情況

NVIDIA全球合作伙伴預(yù)計(jì)將在今年晚些時(shí)候提供基于DGX GB200和DGX B200系統(tǒng)構(gòu)建而成的NVIDIA DGX SuperPOD。更多信息,請(qǐng)觀看GTC主題演講回放或在3月21日前參加由NVIDIA和行業(yè)領(lǐng)導(dǎo)者帶來的會(huì)議。



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉