Nvidia 征服了最新的 AI 測(cè)試

—— GPU 制造商在圖神經(jīng)網(wǎng)絡(luò)和 LLM 微調(diào)方面超越了新的 MLPerf 基準(zhǔn)測(cè)試

作者：Samuel K. Moore 時(shí)間：2024-06-26 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

多年來(lái)，英偉達(dá)在許多機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試中占據(jù)主導(dǎo)地位，現(xiàn)在它又多了兩個(gè)檔次。
MLPerf，有時(shí)被稱為“機(jī)器學(xué)習(xí)的奧林匹克”的人工智能基準(zhǔn)測(cè)試套件，已經(jīng)發(fā)布了一套新的訓(xùn)練測(cè)試，以幫助在競(jìng)爭(zhēng)計(jì)算機(jī)系統(tǒng)之間進(jìn)行更多更好的同類比較。MLPerf 的一項(xiàng)新測(cè)試涉及對(duì)大型語(yǔ)言模型的微調(diào)，該過(guò)程采用現(xiàn)有的訓(xùn)練模型，并用專業(yè)知識(shí)對(duì)其進(jìn)行更多訓(xùn)練，使其適合特定目的。另一個(gè)是圖神經(jīng)網(wǎng)絡(luò)，一種機(jī)器學(xué)習(xí)，一些文獻(xiàn)數(shù)據(jù)庫(kù)背后的一種機(jī)器學(xué)習(xí)，金融系統(tǒng)中的欺詐檢測(cè)，以及社交網(wǎng)絡(luò)。
即使使用谷歌和英特爾的人工智能加速器的計(jì)算機(jī)增加和參與，由英偉達(dá)的Hopper架構(gòu)驅(qū)動(dòng)的系統(tǒng)再次主導(dǎo)了結(jié)果。一個(gè)包含 11,616 個(gè) Nvidia H100 GPU 的系統(tǒng)（迄今為止最大的集合）在九個(gè)基準(zhǔn)測(cè)試中名列前茅，其中五個(gè)（包括兩個(gè)新基準(zhǔn)測(cè)試）創(chuàng)下了記錄。
“如果你只是把硬件扔到這個(gè)問(wèn)題上，你就不能肯定地要改進(jìn)。—DAVE SALVATOR，英偉達(dá)
11,616-H100系統(tǒng)是“我們做過(guò)的最大系統(tǒng)”，英偉達(dá)加速計(jì)算產(chǎn)品總監(jiān)Dave Salvator說(shuō)。它在不到 3.5 分鐘的時(shí)間內(nèi)就完成了 GPT-3 訓(xùn)練試驗(yàn)。相比之下，512 GPU 系統(tǒng)大約需要 51 分鐘。（請(qǐng)注意，GPT-3 任務(wù)不是完整的訓(xùn)練，可能需要數(shù)周時(shí)間并花費(fèi)數(shù)百萬(wàn)美元。取而代之的是，計(jì)算機(jī)在完成之前在商定的點(diǎn)上對(duì)數(shù)據(jù)的代表性部分進(jìn)行訓(xùn)練。
與英偉達(dá)去年在 GPT-3 上最大的參賽者——一臺(tái) 3,584 臺(tái) H100 計(jì)算機(jī)相比，3.5 分鐘的結(jié)果代表了 3.2 倍的改進(jìn)。你可能會(huì)從這些系統(tǒng)大小的差異中預(yù)料到這一點(diǎn)，但在人工智能計(jì)算中，情況并非總是如此，Salvator解釋說(shuō)?！叭绻阒皇前延布拥竭@個(gè)問(wèn)題上，你就不能肯定地要改進(jìn)，”他說(shuō)。
“我們基本上是線性擴(kuò)展的，”Salvator 說(shuō)。他的意思是，兩倍的 GPU 會(huì)導(dǎo)致訓(xùn)練時(shí)間減半?！癧這]代表了我們工程團(tuán)隊(duì)的一項(xiàng)偉大成就，”他補(bǔ)充道。
競(jìng)爭(zhēng)對(duì)手也越來(lái)越接近線性縮放。這一輪英特爾部署了一個(gè)使用 1,024 個(gè) GPU 的系統(tǒng)，該系統(tǒng)在 67 分鐘內(nèi)執(zhí)行了 GPT-3 任務(wù)，而計(jì)算機(jī)的大小僅為六個(gè)月前 224 分鐘的四分之一。谷歌最大的 GPT-3 條目使用了 12 倍的 TPU v5p 加速器作為其最小條目，執(zhí)行任務(wù)的速度是其 9 倍。
Salvator 說(shuō)，線性擴(kuò)展對(duì)于即將擁有 100,000 個(gè)或更多 GPU 的“AI 工廠”尤為重要。他表示，預(yù)計(jì)今年將有一個(gè)這樣的數(shù)據(jù)中心上線，另一個(gè)使用英偉達(dá)的下一個(gè)架構(gòu)Blackwell的數(shù)據(jù)中心將在2025年啟動(dòng)。
英偉達(dá)的連勝勢(shì)頭仍在繼續(xù)
盡管使用與去年訓(xùn)練結(jié)果相同的架構(gòu) Hopper，Nvidia 仍繼續(xù)延長(zhǎng)訓(xùn)練時(shí)間。這一切都?xì)w功于軟件的改進(jìn)，Salvator 說(shuō)?！巴ǔ?，在新架構(gòu)發(fā)布后，我們會(huì)從軟件中獲得 2-2.5 倍的 [提升]，”他說(shuō)。
對(duì)于 GPT-3 訓(xùn)練，Nvidia 比 2023 年 6 月的 MLPerf 基準(zhǔn)測(cè)試提高了 27%。Salvator說(shuō)，在提升的背后有幾個(gè)軟件變化。例如，Nvidia 工程師通過(guò)修剪 8 位和 16 位數(shù)字之間不必要的轉(zhuǎn)換，并更好地確定神經(jīng)網(wǎng)絡(luò)的哪些層可以使用較低精度的數(shù)字格式，調(diào)整了 Hopper 對(duì)不太準(zhǔn)確的 8 位浮點(diǎn)運(yùn)算的使用。他們還找到了一種更智能的方法來(lái)調(diào)整每個(gè)芯片計(jì)算引擎的功率預(yù)算，并加快了GPU之間的通信速度，Salvator將其比作“在烤面包機(jī)中涂黃油”。
此外，該公司還實(shí)施了一項(xiàng)稱為“閃光關(guān)注”的計(jì)劃。閃速注意力是由Samba Nova創(chuàng)始人Chris Re在斯坦福大學(xué)實(shí)驗(yàn)室發(fā)明的，是一種通過(guò)最大限度地減少對(duì)內(nèi)存的寫(xiě)入來(lái)加速Transformer網(wǎng)絡(luò)的算法。當(dāng)它首次出現(xiàn)在 MLPerf 基準(zhǔn)測(cè)試中時(shí)，閃光注意力比訓(xùn)練時(shí)間縮短了 10%。（英特爾也使用了 flash attention 的一個(gè)版本，但不是 GPT-3。相反，它將該算法用于其中一個(gè)新基準(zhǔn)測(cè)試，即微調(diào)。
與 2023 年 11 月提交的相比，使用其他軟件和網(wǎng)絡(luò)技巧，Nvidia 在文本到圖像測(cè)試 Stable Diffusion 中實(shí)現(xiàn)了 80% 的加速。
新基準(zhǔn)
MLPerf 添加了新的基準(zhǔn)并升級(jí)了舊的基準(zhǔn)，以保持與 AI 行業(yè)正在發(fā)生的事情相關(guān)。今年增加了微調(diào)和圖神經(jīng)網(wǎng)絡(luò)。
微調(diào)需要已經(jīng)訓(xùn)練過(guò)的 LLM，并將其專門(mén)用于特定領(lǐng)域。例如，英偉達(dá)（Nvidia）采用了一個(gè)經(jīng)過(guò)訓(xùn)練的430億參數(shù)模型，并在GPU制造商的設(shè)計(jì)文件和文檔上對(duì)其進(jìn)行了訓(xùn)練，以創(chuàng)建ChipNeMo，這是一種旨在提高其芯片設(shè)計(jì)人員生產(chǎn)力的AI。當(dāng)時(shí)，該公司的首席技術(shù)官比爾·達(dá)利（Bill Dally）表示，培訓(xùn)法學(xué)碩士就像給它提供文科教育，而微調(diào)就像把它送到研究生院。
MLPerf 基準(zhǔn)測(cè)試采用預(yù)訓(xùn)練的 Llama-2-70B 模型，并要求系統(tǒng)使用政府文檔數(shù)據(jù)集對(duì)其進(jìn)行微調(diào)，以生成更準(zhǔn)確的文檔摘要。
有幾種方法可以進(jìn)行微調(diào)。MLPerf 選擇了一種稱為低秩適應(yīng) （LoRA）的方法。據(jù)該組織稱，該方法最終只訓(xùn)練了 LLM 參數(shù)的一小部分，與其他方法相比，硬件負(fù)擔(dān)降低了 3 倍，內(nèi)存和存儲(chǔ)的使用量減少了 3 倍。
另一個(gè)新的基準(zhǔn)測(cè)試涉及圖神經(jīng)網(wǎng)絡(luò)（GNN）。這些是針對(duì)可以由一組非常大的互連節(jié)點(diǎn)表示的問(wèn)題，例如社交網(wǎng)絡(luò)或推薦系統(tǒng)。與其他 AI 任務(wù)相比，GNN 需要計(jì)算機(jī)中節(jié)點(diǎn)之間的大量通信。
該基準(zhǔn)測(cè)試在一個(gè)數(shù)據(jù)庫(kù)上訓(xùn)練了 GNN，該數(shù)據(jù)庫(kù)顯示了學(xué)術(shù)作者、論文和機(jī)構(gòu)之間的關(guān)系——一個(gè)具有 5.47 億個(gè)節(jié)點(diǎn)和 58 億條邊的圖形。然后對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，以預(yù)測(cè)圖中每個(gè)節(jié)點(diǎn)的正確標(biāo)簽。
未來(lái)的戰(zhàn)斗
2025 年的訓(xùn)練輪可能會(huì)看到比較 AMD、英特爾和 Nvidia 的新加速器的正面交鋒。AMD 的 MI300 系列大約在六個(gè)月前推出，計(jì)劃于 2024 年底對(duì) MI325x 進(jìn)行內(nèi)存增強(qiáng)升級(jí)，下一代 MI350 計(jì)劃于 2025 年推出。英特爾表示，今年晚些時(shí)候向計(jì)算機(jī)制造商推出的Gaudi 3將出現(xiàn)在MLPerf即將推出的推理基準(zhǔn)測(cè)試中。英特爾高管表示，新芯片有能力在訓(xùn)練LLM時(shí)擊敗H100。但勝利可能是短暫的，因?yàn)橛ミ_(dá)已經(jīng)推出了一種新的架構(gòu)Blackwell，該架構(gòu)計(jì)劃于今年晚些時(shí)候推出。

本文引用地址：http://butianyuan.cn/article/202406/460369.htm

新聞中心

Nvidia 征服了最新的 AI 測(cè)試

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)