英偉達(dá)推出比H100更快的芯片，將于2024年二季度上市

作者：時(shí)間：2023-08-09 來源：澎湃新聞

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

下一代版本的GH200 Grace Hopper超級芯片將成為世界上第一個(gè)配備HBM3e內(nèi)存的GPU芯片。HBM3e內(nèi)存將使下一代GH200運(yùn)行AI模型的速度比當(dāng)前模型快3.5倍。

本文引用地址：http://www.butianyuan.cn/article/202308/449436.htm

·最新版本的GH200超級芯片將于2024年第二季度推出。這個(gè)時(shí)間晚于AMD推出的最新數(shù)據(jù)中心GPU（Instinct MI300X）的上市時(shí)間。

英偉達(dá)首席執(zhí)行官黃仁勛穿著他標(biāo)志性的皮夾克登上了世界頂級計(jì)算機(jī)圖形學(xué)會(huì)議SIGGRAPH的舞臺(tái)。

太平洋時(shí)間8月8日，英偉達(dá)首席執(zhí)行官黃仁勛穿著他標(biāo)志性的皮夾克登上了世界頂級計(jì)算機(jī)圖形學(xué)會(huì)議SIGGRAPH的舞臺(tái)，宣布推出下一代版本的GH200 Grace Hopper超級芯片，該芯片將成為世界上第一個(gè)配備HBM3e（High Bandwidth Memory 3e）內(nèi)存的GPU芯片。與當(dāng)前一代產(chǎn)品相比，最新版本的GH200超級芯片內(nèi)存容量增加了3.5倍，帶寬增加了3倍；相比最熱門的H100芯片，其內(nèi)存增加1.7倍，傳輸頻寬增加1.5倍。

下一代版本的GH200 Grace Hopper超級芯片將成為世界上第一個(gè)配備HBM3e內(nèi)存的GPU芯片。

GH200超級芯片本身并不是一個(gè)新產(chǎn)品，而是今年5月在中國臺(tái)北Computex展上發(fā)布的GH200芯片的更新版。有趣的是，另一家芯片巨頭AMD在6月推出搭載了192GB HBM3內(nèi)存的數(shù)據(jù)中心GPU（Instinct MI300X）時(shí)，就有業(yè)界人士提出其可能難以形成優(yōu)勢，因?yàn)?a class="contentlabel" href="http://www.butianyuan.cn/news/listbylabel/label/英偉達(dá)">英偉達(dá)可能會(huì)在同一時(shí)間段甚至更早時(shí)間內(nèi)提供相同的內(nèi)存。

英偉達(dá)超大規(guī)模和高性能計(jì)算副總裁兼總經(jīng)理伊恩·巴克（Ian Buck）對澎湃科技（www.thepaper.cn）表示：“我們對這款新的GH200感到非常興奮。HBM3e不僅增加了GPU的容量和內(nèi)存量，而且速度也更快?！?/p>

英偉達(dá)表示，HBM3e內(nèi)存將使下一代GH200運(yùn)行AI模型的速度比當(dāng)前模型快3.5倍。不過一個(gè)關(guān)鍵的問題是，英偉達(dá)沒有透露超級芯片GH200的價(jià)格，這對計(jì)算成本高昂的大模型來說尤為重要，H100系列目前售價(jià)約為4萬美元。

值得注意的是，這次發(fā)布并未抬升英偉達(dá)的股價(jià)。其股價(jià)在發(fā)布會(huì)前已下跌約1%，消息公布后跌幅達(dá)3%，至盤中低點(diǎn)440.56美元，最終下跌1.66%至446.64美元。不過，AMD股價(jià)也在當(dāng)天收盤下跌3.1%，至113.23 美元。與此同時(shí)，以科技股為主的納斯達(dá)克綜合指數(shù)下跌0.8%。

太平洋時(shí)間8月7日，摩根士丹利分析師愛德華·史丹利（Edward Stanley）發(fā)布報(bào)告稱，“無論是以英偉達(dá)為首的AI個(gè)股還是狹義AI類股，自年初以來漲幅都超過200％。但一般而言股市泡沫在達(dá)到頂點(diǎn)前的3年回報(bào)率中間值約在150％，由此可見近來這波AI概念股漲勢已經(jīng)過頭?！?/p>

為什么內(nèi)存對大模型重要？

隨著支撐生成式人工智能應(yīng)用程序的基礎(chǔ)AI模型尺寸的增加，為了能夠在不連接獨(dú)立芯片和系統(tǒng)的情況下運(yùn)行，大模型需要更大的內(nèi)存量，以避免性能下降。

巴克對記者表示，新款GH200的內(nèi)存“快得多”，“擁有更大的內(nèi)存允許模型保留在單個(gè)GPU上，并且不需要多個(gè)系統(tǒng)或多個(gè)GPU來運(yùn)行。”“額外的內(nèi)存只會(huì)提高 GPU的性能。”目前即使使用英偉達(dá)最頂級的H100芯片，有些模型也必須在其他GPU中“分解”模型才能運(yùn)行。

據(jù)英偉達(dá)介紹，最新版本GH200配備141GB的HBM3e內(nèi)存，旨在處理“世界上最復(fù)雜的生成式人工智能工作負(fù)載，涵蓋大型語言模型、推薦系統(tǒng)和矢量數(shù)據(jù)庫”。

“我們正在為Grace Hopper超級芯片提供全球最快的內(nèi)存增強(qiáng)?！秉S仁勛在主題演講中說，“這款處理器旨在為全球數(shù)據(jù)中心的規(guī)模擴(kuò)展而設(shè)計(jì)?！?/p>

據(jù)巴克對澎湃科技在內(nèi)的媒體透露，最新版本的GH200超級芯片將于2024年第二季度推出。這個(gè)時(shí)間晚于AMD推出的最新數(shù)據(jù)中心GPU（Instinct MI300X）的上市時(shí)間，后者將搭載類似的5.2 TB/s帶寬，192GB HBM3內(nèi)存。據(jù)悉，MI300X將在第三季度出樣，相關(guān)產(chǎn)品預(yù)計(jì)第四季度上市。

HBM3e和HBM3是什么關(guān)系？

HBM（高帶寬內(nèi)存）各代之間的區(qū)別主要在于速度。據(jù)TrendForce報(bào)告，市場上的HBM3根據(jù)速度細(xì)分為兩類：一類包括運(yùn)行速度在5.6至6.4Gbps之間的HBM3，而另一類則采用8 Gbps的HBM3e。

HBM3e內(nèi)存比當(dāng)前一代GH200中的HBM3技術(shù)快50%，將GPU的數(shù)據(jù)傳輸速率從原始Grace Hopper的4TB提高到每秒5TB（萬億字節(jié)）。

英偉達(dá)尚未宣布他們將從哪里采購用于其GH200 GPU的全新HBM3e內(nèi)存芯片。但此前據(jù)韓國《Money Today》和《首爾經(jīng)濟(jì)日報(bào)》援引業(yè)內(nèi)人士的消息稱，英偉達(dá)已向芯片制造商海力士（SK Hynix）索要HBM3e樣品，以評估其對GPU性能的影響。

英偉達(dá)計(jì)劃銷售兩種版本：一種版本包含兩個(gè)可供客戶集成到系統(tǒng)中的芯片，另一種版本是結(jié)合了兩種Grace Hopper設(shè)計(jì)的完整服務(wù)器系統(tǒng)。

巴克對記者表示，英偉達(dá)正在開發(fā)一種新的基于雙GH200的英偉達(dá)MGX服務(wù)器系統(tǒng)，該系統(tǒng)將集成兩個(gè)下一代Grace Hopper超級芯片。他解釋說，新的GH200將以英偉達(dá)的互連技術(shù)NVLink連接。

所謂超級芯片即是將英偉達(dá)的Grace中央處理單元（CPU）和Hopper圖形處理單元（GPU）連接在一起，以便它們能夠更有效地協(xié)同工作。借助新型雙GH200服務(wù)器中的NVLink，系統(tǒng)中的CPU和GPU將通過完全一致的內(nèi)存互連進(jìn)行連接，每個(gè)超級芯片可以以相同的方式與其他芯片連接在一起，從而使它們可以像單個(gè)單位一樣運(yùn)作。

巴克表示，“CPU可以訪問其他CPU的內(nèi)存，GPU可以訪問其他GPU的內(nèi)存，當(dāng)然GPU也可以訪問CPU的內(nèi)存。因此，合并的超大型超級GPU可以作為一個(gè)整體運(yùn)行，提供了144個(gè)Grace CPU核心，超過8 petaFLOP（每秒鐘進(jìn)行1千萬億次浮點(diǎn)運(yùn)算）的計(jì)算性能以及282GB的HBM3e內(nèi)存。”

有趣的是，盡管名稱為“GH200”，英偉達(dá)并沒有談?wù)揋PU芯片本身的任何變化。從歷史上看，英偉達(dá)的型號(hào)數(shù)字明確表示產(chǎn)品和架構(gòu)的變化，第一個(gè)數(shù)字位置中的“2”表示全面的架構(gòu)修訂，例如支撐了GeForce 900系列的“Maxwell 2”架構(gòu)，所有這些部件的代號(hào)都是“GM2xx”?？赡蹾opper芯片本身在這個(gè)版本中已經(jīng)經(jīng)歷了修訂，但英偉達(dá)并沒有談?wù)撨@方面的內(nèi)容。

其他發(fā)布

除了GH200，英偉達(dá)的桌面AI工作站GPU系列也全面上新，一口氣推出了4款新品：RTX 6000、RTX 5000、RTX 4500和RTX 4000。針對企業(yè)客戶，英偉達(dá)還準(zhǔn)備一套一站式解決方案—— RTX Workstation，支持最多4張RTX 6000 GPU。

針對數(shù)據(jù)中心市場，英偉達(dá)推出了最多可搭載8張L40S GPU的OVX服務(wù)器。據(jù)介紹，對于具有數(shù)十億參數(shù)和多種模態(tài)的生成式AI工作負(fù)載，L40S相較于老前輩A100可實(shí)現(xiàn)高達(dá)1.2倍的推理性能提升，以及高達(dá)1.7倍的訓(xùn)練性能提升。

除了各種強(qiáng)大的硬件之外，英偉達(dá)還發(fā)布了全新的AI Workbench，來幫助開發(fā)和部署生成式AI模型。AI Workbench為開發(fā)者提供了一個(gè)統(tǒng)一且易于使用的工具包，能夠快速在PC或工作站上創(chuàng)建、測試和微調(diào)模型，并擴(kuò)展到幾乎任何數(shù)據(jù)中心、公有云或英偉達(dá)的云服務(wù)DGX Cloud上。

作為最受AI開發(fā)者喜愛的平臺(tái)之一，擁有200萬用戶、超25萬個(gè)模型，以及5萬個(gè)數(shù)據(jù)集的Hugging Face也與英偉達(dá)達(dá)成合作。開發(fā)者可以通過Hugging Face平臺(tái)直接獲得英偉達(dá)DGX Cloud AI超算的加持，完成AI模型的訓(xùn)練和微調(diào)。

此外，英偉達(dá)的元宇宙開發(fā)平臺(tái)Omniverse也進(jìn)行了更新。在接入了OpenUSD和AIGC工具之后，開發(fā)者可以更加輕松地生成模擬真實(shí)世界的3D場景和圖形。

OpenUSD是皮克斯動(dòng)畫工作室開發(fā)的一種開放數(shù)據(jù)格式，允許團(tuán)隊(duì)能夠在大規(guī)模3D工作流程上協(xié)同工作，并共享可在AR（增強(qiáng)現(xiàn)實(shí)）和VR（虛擬現(xiàn)實(shí)）項(xiàng)目中使用的3D對象和環(huán)境的信息。當(dāng)?shù)貢r(shí)間8月1日，美國3D內(nèi)容行業(yè)的5家主要公司蘋果、英偉達(dá)、皮克斯、Adobe和Autodesk聯(lián)合成立了OpenUSD聯(lián)盟（AOUSD）。OpenUSD技術(shù)是Omniverse平臺(tái)的基礎(chǔ)，有一天可能成為“元宇宙”的3D圖形標(biāo)準(zhǔn)。