11 分鐘訓完 GPT-3,英偉達 H100 橫掃 MLPerf 8 項基準測試,下一代顯卡 25 年發(fā)布
最新 MLPerf 訓練基準測試中,H100 GPU 在所有的八項測試中都創(chuàng)下了新紀錄!
本文引用地址:http://butianyuan.cn/article/202306/448169.htm如今,NVIDIA H100 幾乎已經(jīng)統(tǒng)治了所有類別,并且是新 LLM 基準測試中使用的唯一 的 GPU。
3,584 個 H100 GPU 群在短短 11 分鐘內(nèi)完成了基于 GPT-3 的大規(guī)?;鶞蕼y試。
MLPerf LLM 基準測試是基于 OpenAI 的 GPT-3 模型進行的,包含 1750 億個參數(shù)。
Lambda Labs 估計,訓練這樣一個大模型需要大約 3.14E23 FLOPS 的計算量。
11 分鐘訓出 GPT-3 的怪獸是如何構成的
在 LLM 和 BERT 自然語言處理 (NLP) 基準測試中排名最高的系統(tǒng),是由 NVIDIA 和 Inflection AI 聯(lián)合開發(fā)。
由專門從事企業(yè)級 GPU 加速工作負載的云服務提供商 CoreWeave 托管。
該系統(tǒng)結(jié)合了 3584 個 NVIDIA H100 加速器和 896 個 Intel Xeon Platinum 8462Y + 處理器。
因為英偉達在 H100 中引入了新的 Transformer 引擎,專門用于加速 Transformer 模型訓練和推理,將訓練速度提高了 6 倍。
CoreWeave 從云端提供的性能與英偉達從本地數(shù)據(jù)中心運行的 AI 超級計算機所能提供的性能已經(jīng)非常接近了。
這得益于 CoreWeave 使用的 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡具有低延遲網(wǎng)絡。
隨著參與訓練的 H100 GPU 從數(shù)百個擴展到 3000 多個。
良好的優(yōu)化使得整個技術堆棧在要求嚴苛的 LLM 測試中實現(xiàn)了近乎線性的性能擴展。
如果將 GPU 的數(shù)量降低到一半,訓練相同的模型時間會增加到 24 分鐘。
說明整個系統(tǒng)的效率潛力,隨著 GPU 的增加,是超線性的。
最主要的原因是,英偉達從 GPU 設計之初就考慮到了這個問題,使用 NVLink 技術來高效實現(xiàn)了 GPU 之間的通信。
在參與測試的 90 個系統(tǒng)中,有 82 個系統(tǒng)都使用了英偉達的 GPU 進行加速。
單卡訓練效率
系統(tǒng)集群訓練時間對比
英特爾參加測評的系統(tǒng)使用 64 到 96 個不等的 Intel Xeon Platinum 8380 處理器和 256 到 389 個不等的 Intel Habana Gaudi2 加速器。
然而,英特爾提交的 GPT-3 的訓練時間為 311 分鐘。
成績和英偉達相比就稍微有點慘不忍睹了。
分析師:英偉達優(yōu)勢過大
行業(yè)分析師認為,英偉達的在 GPU 上的技術優(yōu)勢是非常明顯的。
而它作為 AI 基礎設施提供商,在行業(yè)中的主導地位還體現(xiàn)在英偉達多年建立起來的生態(tài)系統(tǒng)粘性上。
AI 社區(qū)對英偉達的軟件的依賴性也非常強。
幾乎所有 AI 框架都基于英偉達提供的底層 CUDA 庫和工具。
而且它還能提供全堆棧的 AI 工具和解決方案。
除了為 AI 開發(fā)人員提供支持之外,英偉達還繼續(xù)投資用于管理工作負載和模型的企業(yè)級工具。
在可預見的未來,英偉達在行業(yè)的領先地位將會非常穩(wěn)固。
分析師還進一步指出。
MLPerf 測試結(jié)果中所展現(xiàn)的,NVIDIA 系統(tǒng)在云端進行 AI 訓練的強大功能和效率,才是英偉達「戰(zhàn)未來」的最大本錢。
下一代 Ada Lovelace GPU,2025 年發(fā)布
Tom's Hardware 自由撰稿人 Zhiye Liu 也于近日發(fā)文,介紹了下一代英偉達 Ada Lovelace 顯卡的計劃。
H100 訓練大模型的能力,毋庸置疑。
只用 3584 個 H100,短短 11 分鐘內(nèi),就能訓練出一個 GPT-3 模型。
在最近的新聞發(fā)布會上,英偉達分享了一份新路線圖,詳細介紹了下一代產(chǎn)品,包括 GeForce RTX 40 系列 Ada Lovelace GPU 的繼任者,而前者,是當今最好的游戲顯卡。
根據(jù)路線圖,英偉達計劃在 2025 年推出「Ada Lovelace-Next」顯卡。
如果繼續(xù)沿用當前的命名方案,下一代 GeForce 產(chǎn)品應該是作為 GeForce RTX 50 系列上市。
根據(jù)南美黑客組織 LAPSU$ 得到的信息,Hopper Next 很可能被命名為 Blackwell。
在消費級顯卡上,英偉達保持著兩年一更新的節(jié)奏。
他們在 2016 年推出了 Pascal,在 2018 年推出了 Turing,在 2020 年推出了 Ampere,在 2022 年推出了 Ada Lovelace。
如果這次 Ada Lovelace 的繼任者會在 2025 年推出,英偉達無疑就打破了通常的節(jié)奏。
最近的 AI 大爆發(fā),產(chǎn)生了對英偉達 GPU 的巨大需求,無論是最新的 H100,還是上一代的 A100。
根據(jù)報道,某大廠今年就訂購了價值 10 億美元的 Nvidia GPU。
盡管有出口限制,但我國仍然是英偉達在全世界最大的市場之一。
(據(jù)說,在深圳華強北電子市場,就可以買到少量英偉達 A100,每塊售價為 2 萬美元,是通常價格的兩倍。)
對此,英偉達已經(jīng)對某些 AI 產(chǎn)品做了微調(diào),發(fā)布了 H100 或 A800 等特定 SKU,以滿足出口要求。
Zhiye Liu 對此分析道,換個角度看,出口法規(guī)其實是有利于英偉達的,因為這意味著芯片制造商客戶必須購買更多原版 GPU 的變體,才能獲得同等的性能。
這也就能理解,為什么英偉達會優(yōu)先考慮生成計算 GPU,而非游戲 GPU 了。
最近的報道顯示,英偉達已經(jīng)增加了計算級 GPU 的產(chǎn)量。
沒有面臨來自 AMD 的 RDNA 3 產(chǎn)品堆棧的激烈競爭,英特爾也沒有對 GPU 雙頭壟斷構成嚴重威脅,因此,英偉達在消費側(cè)可以拖延。
最近,Nvidia 通過 GeForce RTX 4060 和 GeForce RTX 4060 Ti,將其 GeForce RTX 40 系列產(chǎn)品堆棧又擴大了。
GeForce RTX 4050 以及頂部的 RTX 4080 Ti 或 GeForce RTX 4090 Ti 等,都有潛力。
如果迫不得已,英偉達還可以從舊的 Turing 版本中拿出一個產(chǎn)品,更新 Ada Lovelace,給它封個「Super」待遇,進一步擴展 Ada 陣容。
最后,Zhiye Liu 表示,至少今年或明年,Lovelace 架構不會真正更新。
評論