11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

作者：時間：2023-06-30 來源：新智元

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

最新 MLPerf 訓練基準測試中，H100 GPU 在所有的八項測試中都創(chuàng)下了新紀錄！

本文引用地址：http://butianyuan.cn/article/202306/448169.htm

如今，NVIDIA H100 幾乎已經(jīng)統(tǒng)治了所有類別，并且是新 LLM 基準測試中使用的唯一的 GPU。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

3,584 個 H100 GPU 群在短短 11 分鐘內(nèi)完成了基于 GPT-3 的大規(guī)?；鶞蕼y試。

MLPerf LLM 基準測試是基于 OpenAI 的 GPT-3 模型進行的，包含 1750 億個參數(shù)。

Lambda Labs 估計，訓練這樣一個大模型需要大約 3.14E23 FLOPS 的計算量。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

11 分鐘訓出 GPT-3 的怪獸是如何構成的

在 LLM 和 BERT 自然語言處理 (NLP) 基準測試中排名最高的系統(tǒng)，是由 NVIDIA 和 Inflection AI 聯(lián)合開發(fā)。

由專門從事企業(yè)級 GPU 加速工作負載的云服務提供商 CoreWeave 托管。

該系統(tǒng)結(jié)合了 3584 個 NVIDIA H100 加速器和 896 個 Intel Xeon Platinum 8462Y + 處理器。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

因為英偉達在 H100 中引入了新的 Transformer 引擎，專門用于加速 Transformer 模型訓練和推理，將訓練速度提高了 6 倍。

CoreWeave 從云端提供的性能與英偉達從本地數(shù)據(jù)中心運行的 AI 超級計算機所能提供的性能已經(jīng)非常接近了。

這得益于 CoreWeave 使用的 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡具有低延遲網(wǎng)絡。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

隨著參與訓練的 H100 GPU 從數(shù)百個擴展到 3000 多個。

良好的優(yōu)化使得整個技術堆棧在要求嚴苛的 LLM 測試中實現(xiàn)了近乎線性的性能擴展。

如果將 GPU 的數(shù)量降低到一半，訓練相同的模型時間會增加到 24 分鐘。

說明整個系統(tǒng)的效率潛力，隨著 GPU 的增加，是超線性的。

最主要的原因是，英偉達從 GPU 設計之初就考慮到了這個問題，使用 NVLink 技術來高效實現(xiàn)了 GPU 之間的通信。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

在參與測試的 90 個系統(tǒng)中，有 82 個系統(tǒng)都使用了英偉達的 GPU 進行加速。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

單卡訓練效率

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

系統(tǒng)集群訓練時間對比

英特爾參加測評的系統(tǒng)使用 64 到 96 個不等的 Intel Xeon Platinum 8380 處理器和 256 到 389 個不等的 Intel Habana Gaudi2 加速器。

然而，英特爾提交的 GPT-3 的訓練時間為 311 分鐘。

成績和英偉達相比就稍微有點慘不忍睹了。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

分析師：英偉達優(yōu)勢過大

行業(yè)分析師認為，英偉達的在 GPU 上的技術優(yōu)勢是非常明顯的。

而它作為 AI 基礎設施提供商，在行業(yè)中的主導地位還體現(xiàn)在英偉達多年建立起來的生態(tài)系統(tǒng)粘性上。

AI 社區(qū)對英偉達的軟件的依賴性也非常強。

幾乎所有 AI 框架都基于英偉達提供的底層 CUDA 庫和工具。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

而且它還能提供全堆棧的 AI 工具和解決方案。

除了為 AI 開發(fā)人員提供支持之外，英偉達還繼續(xù)投資用于管理工作負載和模型的企業(yè)級工具。

在可預見的未來，英偉達在行業(yè)的領先地位將會非常穩(wěn)固。

分析師還進一步指出。

MLPerf 測試結(jié)果中所展現(xiàn)的，NVIDIA 系統(tǒng)在云端進行 AI 訓練的強大功能和效率，才是英偉達「戰(zhàn)未來」的最大本錢。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

下一代 Ada Lovelace GPU，2025 年發(fā)布

Tom's Hardware 自由撰稿人 Zhiye Liu 也于近日發(fā)文，介紹了下一代英偉達 Ada Lovelace 顯卡的計劃。

H100 訓練大模型的能力，毋庸置疑。

只用 3584 個 H100，短短 11 分鐘內(nèi)，就能訓練出一個 GPT-3 模型。

在最近的新聞發(fā)布會上，英偉達分享了一份新路線圖，詳細介紹了下一代產(chǎn)品，包括 GeForce RTX 40 系列 Ada Lovelace GPU 的繼任者，而前者，是當今最好的游戲顯卡。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

根據(jù)路線圖，英偉達計劃在 2025 年推出「Ada Lovelace-Next」顯卡。

如果繼續(xù)沿用當前的命名方案，下一代 GeForce 產(chǎn)品應該是作為 GeForce RTX 50 系列上市。

根據(jù)南美黑客組織 LAPSU$ 得到的信息，Hopper Next 很可能被命名為 Blackwell。

在消費級顯卡上，英偉達保持著兩年一更新的節(jié)奏。

他們在 2016 年推出了 Pascal，在 2018 年推出了 Turing，在 2020 年推出了 Ampere，在 2022 年推出了 Ada Lovelace。

如果這次 Ada Lovelace 的繼任者會在 2025 年推出，英偉達無疑就打破了通常的節(jié)奏。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

最近的 AI 大爆發(fā)，產(chǎn)生了對英偉達 GPU 的巨大需求，無論是最新的 H100，還是上一代的 A100。

根據(jù)報道，某大廠今年就訂購了價值 10 億美元的 Nvidia GPU。

盡管有出口限制，但我國仍然是英偉達在全世界最大的市場之一。

（據(jù)說，在深圳華強北電子市場，就可以買到少量英偉達 A100，每塊售價為 2 萬美元，是通常價格的兩倍。）

對此，英偉達已經(jīng)對某些 AI 產(chǎn)品做了微調(diào)，發(fā)布了 H100 或 A800 等特定 SKU，以滿足出口要求。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

Zhiye Liu 對此分析道，換個角度看，出口法規(guī)其實是有利于英偉達的，因為這意味著芯片制造商客戶必須購買更多原版 GPU 的變體，才能獲得同等的性能。

這也就能理解，為什么英偉達會優(yōu)先考慮生成計算 GPU，而非游戲 GPU 了。

最近的報道顯示，英偉達已經(jīng)增加了計算級 GPU 的產(chǎn)量。

沒有面臨來自 AMD 的 RDNA 3 產(chǎn)品堆棧的激烈競爭，英特爾也沒有對 GPU 雙頭壟斷構成嚴重威脅，因此，英偉達在消費側(cè)可以拖延。

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

最近，Nvidia 通過 GeForce RTX 4060 和 GeForce RTX 4060 Ti，將其 GeForce RTX 40 系列產(chǎn)品堆棧又擴大了。

GeForce RTX 4050 以及頂部的 RTX 4080 Ti 或 GeForce RTX 4090 Ti 等，都有潛力。

如果迫不得已，英偉達還可以從舊的 Turing 版本中拿出一個產(chǎn)品，更新 Ada Lovelace，給它封個「Super」待遇，進一步擴展 Ada 陣容。

最后，Zhiye Liu 表示，至少今年或明年，Lovelace 架構不會真正更新。

新聞中心

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

11 分鐘訓出 GPT-3 的怪獸是如何構成的

分析師：英偉達優(yōu)勢過大

下一代 Ada Lovelace GPU，2025 年發(fā)布

評論

相關推薦

技術專區(qū)

新聞中心

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

11 分鐘訓出 GPT-3 的怪獸是如何構成的

分析師：英偉達優(yōu)勢過大

下一代 Ada Lovelace GPU，2025 年發(fā)布

評論

相關推薦

技術專區(qū)

11 分鐘訓完 GPT-3，英偉達 H100 橫掃 MLPerf 8 項基準測試，下一代顯卡 25 年發(fā)布

下一代 Ada Lovelace GPU，2025 年發(fā)布