博客專欄

EEPW首頁(yè) > 博客 > 四年賣出500萬個(gè)H100,AI吞噬全球電量

四年賣出500萬個(gè)H100,AI吞噬全球電量

發(fā)布人:旺材芯片 時(shí)間:2024-03-17 來源:工程師 發(fā)布文章

對(duì)人工智能集群的需求激增導(dǎo)致人們對(duì)數(shù)據(jù)中心容量的關(guān)注激增,這給電網(wǎng)、發(fā)電能力和環(huán)境帶來了極大的壓力。人工智能的建設(shè)受到數(shù)據(jù)中心容量缺乏的嚴(yán)重限制,特別是在訓(xùn)練方面,因?yàn)?GPU 通常需要位于同一位置以實(shí)現(xiàn)高速芯片到芯片網(wǎng)絡(luò)。推理的部署受到各個(gè)地區(qū)的總?cè)萘恳约凹磳⑸鲜械母媚P偷膰?yán)重限制。


關(guān)于瓶頸在哪里有很多討論——額外的電力需求有多大?GPU 部署在哪里?北美、日本、臺(tái)灣、新加坡、馬來西亞、韓國(guó)、中國(guó)、印度尼西亞、卡塔爾、沙特阿拉伯和科威特等地區(qū)的數(shù)據(jù)中心建設(shè)進(jìn)展如何?加速器的增長(zhǎng)何時(shí)會(huì)受到物理基礎(chǔ)設(shè)施的限制?是變壓器、發(fā)電機(jī)、電網(wǎng)容量還是我們跟蹤的其他 15 個(gè)數(shù)據(jù)中心組件類別之一?需要多少資本支出?哪些超大規(guī)模企業(yè)和大公司正在競(jìng)相確保足夠的容量,哪些將因?yàn)闆]有數(shù)據(jù)中心容量而措手不及而受到嚴(yán)重限制?未來幾年,千兆瓦級(jí)和更大的訓(xùn)練集群將建在哪里?天然氣、太陽(yáng)能和風(fēng)能等發(fā)電類型的組合是什么?這是否可持續(xù),或者人工智能的發(fā)展會(huì)破壞環(huán)境嗎?


許多人對(duì)數(shù)據(jù)中心建設(shè)速度提出了荒謬的假設(shè)。甚至埃隆·馬斯克也發(fā)表了看法,但他的評(píng)估并不完全準(zhǔn)確。


他表示,上線的人工智能計(jì)算似乎每六個(gè)月就會(huì)增加 10 倍……然后,很容易預(yù)測(cè)下一個(gè)短缺將是降壓變壓器。你必須為這些東西提供能量。如果公用設(shè)施輸出 100-300 千伏電壓,并且必須一路降壓至 6 伏,那么降壓幅度就很大。我的不太好笑的笑話是,你需要變壓器來運(yùn)行變壓器……那么,下一個(gè)短缺將是電力。他們將無法找到足夠的電力來運(yùn)行所有芯片。我想明年,你會(huì)發(fā)現(xiàn)他們找不到足夠的電力來運(yùn)行所有芯片。


需要明確的是,他對(duì)物理基礎(chǔ)設(shè)施的這些限制的看法基本上是正確的,但計(jì)算量并不是每六個(gè)月就會(huì)增長(zhǎng) 10 倍——我們跟蹤所有主要超大規(guī)模和商業(yè)硅公司的 CoWoS、HBM 和服務(wù)器供應(yīng)鏈,并看到測(cè)量的總 AI 計(jì)算能力自 2023 年第 1 季度以來,理論峰值 FP8 FLOPS 一直以季度環(huán)比 50-60% 的速度快速增長(zhǎng)。換而顏值,在六個(gè)月內(nèi)增長(zhǎng)遠(yuǎn)未達(dá)到 10 倍,這是因?yàn)镃oWoS 和 HBM 的增長(zhǎng)速度根本不夠快。


圖片


由transformer驅(qū)動(dòng)的生成式人工智能的繁榮確實(shí)需要大量的變壓器、發(fā)電機(jī)和無數(shù)其他電氣和冷卻部件。


許多粗略的猜測(cè)或直接危言聳聽的敘述都是基于過時(shí)的研究。IEA 最近的《電力 2024》報(bào)告指出,到 2026 年,人工智能數(shù)據(jù)中心的電力需求將達(dá)到 90 太瓦時(shí) (TWh),相當(dāng)于約 10 吉瓦 (GW) 的數(shù)據(jù)中心關(guān)鍵 IT 電力容量,或相當(dāng)于 730 萬臺(tái) H100。我們估計(jì),從 2021 年到 2024 年底,僅 Nvidia 就將交付滿足 500 萬臺(tái)以上 H100 功率需求的加速器(事實(shí)上,主要是 H100 的出貨量),并且我們預(yù)計(jì)到 2025 年初,AI 數(shù)據(jù)中心容量需求將超過 10 GW。


圖片


上面的報(bào)告低估了數(shù)據(jù)中心的電力需求,但也有很多高估的地方——一些來自危言聳聽陣營(yíng)的人回收了在加速計(jì)算廣泛采用之前寫的舊論文,這些論文指出了最壞的情況,即數(shù)據(jù)中心消耗大量電力。到 2030 年,發(fā)電量將達(dá)到 7,933 TWh,占全球發(fā)電量的 24%!


圖片


其中許多粗略估計(jì)都是基于全球互聯(lián)網(wǎng)協(xié)議流量增長(zhǎng)估計(jì)的函數(shù),以及因效率增益而抑制的每單位流量使用功率的估計(jì)——所有數(shù)字都極難估計(jì),而其他數(shù)字則采用自上而下的方法在前人工智能時(shí)代創(chuàng)建的數(shù)據(jù)中心功耗估算。麥肯錫的估計(jì)也很糟糕,這幾乎相當(dāng)于把手指放在隨機(jī)的復(fù)合年增長(zhǎng)率上,然后用精美的圖形重復(fù)它。


讓我們糾正這里的敘述,并用經(jīng)驗(yàn)數(shù)據(jù)來量化數(shù)據(jù)中心的電力緊縮。


我們的方法通過對(duì)北美現(xiàn)有托管和超大規(guī)模數(shù)據(jù)中心的 1,100 多個(gè)數(shù)據(jù)中心進(jìn)行分析來預(yù)測(cè)人工智能數(shù)據(jù)中心的需求和供應(yīng),包括正在開發(fā)的數(shù)據(jù)中心的建設(shè)進(jìn)度預(yù)測(cè),并且首次針對(duì)此類類型的研究,我們將其結(jié)合起來數(shù)據(jù)庫(kù)包含源自, 我們的 AI 加速器模型的 AI 加速器電力需求,用于估計(jì) AI 和非 AI 數(shù)據(jù)中心關(guān)鍵 IT 電力需求和供應(yīng)。我們還將這一分析與Structure ResearchStructure Research整理的北美以外地區(qū)(亞太地區(qū)、中國(guó)、歐洲、中東和非洲、拉丁美洲)的區(qū)域總體估計(jì)相結(jié)合,以提供數(shù)據(jù)中心趨勢(shì)的整體全球視圖。我們通過跟蹤各個(gè)集群來補(bǔ)充區(qū)域估計(jì),并根據(jù)衛(wèi)星圖像和施工進(jìn)度進(jìn)行建設(shè),例如位于新加坡以北幾英里的馬來西亞新山(主要由中國(guó)公司)的高達(dá) 1,000 兆瓦的開發(fā)管道。


這種跟蹤是由超大規(guī)模企業(yè)完成的,很明顯,從中期來看,人工智能領(lǐng)域的一些最大的參與者將在可部署的人工智能計(jì)算方面落后于其他參與者。


人工智能的繁榮確實(shí)會(huì)迅速加速數(shù)據(jù)中心能耗的增長(zhǎng),但短期內(nèi)全球數(shù)據(jù)中心的用電量仍將遠(yuǎn)低于占總發(fā)電量24%的末日情景。我們相信,到 2030 年,人工智能將推動(dòng)數(shù)據(jù)中心使用全球能源發(fā)電量的 4.5%。


圖片


真正的人工智能需求


未來幾年,數(shù)據(jù)中心電力容量增長(zhǎng)將從 12-15% 的復(fù)合年增長(zhǎng)率加速至 25% 的復(fù)合年增長(zhǎng)率。全球數(shù)據(jù)中心關(guān)鍵 IT 電力需求將從 2023 年的 49 吉瓦 (GW) 激增至 2026 年的 96 吉瓦,其中人工智能將消耗約 40 吉瓦。事實(shí)上,擴(kuò)建并不是那么順利,真正的電力緊縮即將到來。


圖片


對(duì)豐富、廉價(jià)電力的需求,以及快速增加電網(wǎng)容量的同時(shí)仍滿足超大規(guī)模企業(yè)的碳排放承諾,再加上芯片出口限制,將限制能夠滿足人工智能數(shù)據(jù)中心需求激增的地區(qū)和國(guó)家。


美國(guó)等一些國(guó)家和地區(qū)將能夠以低電網(wǎng)碳強(qiáng)度、供應(yīng)穩(wěn)定的低成本燃料來源靈活應(yīng)對(duì),而歐洲等其他國(guó)家和地區(qū)將受到地緣政治現(xiàn)實(shí)和電力結(jié)構(gòu)性監(jiān)管限制的有效束縛。其他人只會(huì)簡(jiǎn)單地增加容量,而不關(guān)心環(huán)境影響。


訓(xùn)練和推理的關(guān)鍵需求


人工智能訓(xùn)練工作負(fù)載具有獨(dú)特的要求,與現(xiàn)有數(shù)據(jù)中心部署的典型硬件的要求非常不同。


首先,模型訓(xùn)練數(shù)周或數(shù)月,網(wǎng)絡(luò)連接要求相對(duì)限于訓(xùn)練數(shù)據(jù)進(jìn)入。訓(xùn)練對(duì)延遲不敏感,并且不需要靠近任何主要人口中心。人工智能訓(xùn)練集群基本上可以部署在世界上任何具有經(jīng)濟(jì)意義的地方,但須遵守?cái)?shù)據(jù)駐留和合規(guī)性法規(guī)。


要記住的第二個(gè)主要區(qū)別也有些明顯——人工智能訓(xùn)練工作負(fù)載非常耗電,并且與傳統(tǒng)的非加速超大規(guī)?;蚱髽I(yè)工作負(fù)載相比,運(yùn)行人工智能硬件的功率水平往往更接近其熱設(shè)計(jì)功耗 (TDP)。此外,雖然 CPU 和存儲(chǔ)服務(wù)器的功耗約為 1kW,但每個(gè) AI 服務(wù)器的功耗現(xiàn)在已超過 10kW。再加上對(duì)延遲的不敏感以及靠近人口中心的重要性降低,這意味著提供大量廉價(jià)電力(以及未來 - 訪問任何電網(wǎng)供應(yīng))對(duì)于人工智能培訓(xùn)工作負(fù)載的相對(duì)重要性要高得多與傳統(tǒng)工作負(fù)載相比。順便說一句,其中一些是無用的加密貨幣挖礦作業(yè)所共有的要求,而單個(gè)站點(diǎn)沒有超過 100 兆瓦的擴(kuò)展優(yōu)勢(shì)。


另一方面,推理最終的工作量比訓(xùn)練更大,但它也可以相當(dāng)分散。芯片不需要位于中心位置,但其龐大的體積將非常出色。


數(shù)據(jù)中心數(shù)學(xué)


AI加速器具有較高的利用率(就功耗而言,而不是MFU)。每臺(tái) DGX H100 服務(wù)器正常運(yùn)行時(shí)的預(yù)期平均功率 (EAP) 約為 10,200 W,每臺(tái)服務(wù)器 8 個(gè) GPU 的每一個(gè) GPU 的功率為 1,275 W。其中包括 H100 本身的 700W 熱設(shè)計(jì)功耗 (TDP),以及雙 Intel Xeon Platinum 8480C 處理器的約 575W(分配給每個(gè) GPU)以及 2TB DDR5 內(nèi)存、NVSwitches、NVLink、NIC、重定時(shí)器、網(wǎng)絡(luò)收發(fā)器等加上整個(gè) SuperPOD 的存儲(chǔ)和管理服務(wù)器以及各種網(wǎng)絡(luò)交換機(jī)的電力需求,我們的有效電力需求為每臺(tái) DGX 服務(wù)器 11,112W 或每臺(tái) H100 GPU 1,389W。與我們考慮的 HGX H100 相比,DGX H100 配置在存儲(chǔ)和其他項(xiàng)目方面有些過度配置。像 Meta 這樣的公司已經(jīng)發(fā)布了有關(guān)其完整配置的足夠信息,以估計(jì)系統(tǒng)級(jí)功耗。


圖片


關(guān)鍵 IT 電源定義為數(shù)據(jù)中心樓層可用于服務(wù)器機(jī)架內(nèi)的計(jì)算、服務(wù)器和網(wǎng)絡(luò)設(shè)備的可用電力容量。它不包括數(shù)據(jù)中心運(yùn)行冷卻、電力輸送和其他設(shè)施相關(guān)系統(tǒng)所需的電力。要計(jì)算本示例中需要構(gòu)建或購(gòu)買的關(guān)鍵 IT 電源容量,請(qǐng)將已部署 IT 設(shè)備的總預(yù)期電源負(fù)載相加。在下面的示例中,20,480 個(gè) GPU(每個(gè) GPU 功率為 1,389W)相當(dāng)于所需的關(guān)鍵 IT 功率為 28.4 MW。


為了獲得 IT 設(shè)備預(yù)計(jì)消耗的總功率(消耗的關(guān)鍵 IT 功率),我們需要應(yīng)用相對(duì)于所需的關(guān)鍵 IT 功率的可能利用率。這一因素說明了 IT 設(shè)備通常不會(huì)以其設(shè)計(jì)能力 100% 運(yùn)行,并且可能無法在 24 小時(shí)內(nèi)得到相同程度的利用。在本例中,該比例設(shè)置為 80%。


除了關(guān)鍵 IT 電力消耗之外,運(yùn)營(yíng)商還必須提供冷卻電力,以彌補(bǔ)配電損耗、照明和其他非 IT 設(shè)施設(shè)備。業(yè)界通過電力使用效率(PUE)來衡量數(shù)據(jù)中心的能源效率。計(jì)算方法是將進(jìn)入數(shù)據(jù)中心的總電量除以運(yùn)行數(shù)據(jù)中心內(nèi) IT 設(shè)備所用的電量。這當(dāng)然是一個(gè)非常有缺陷的指標(biāo),因?yàn)榉?wù)器內(nèi)的冷卻被視為“IT 設(shè)備”。我們通過將消耗的關(guān)鍵 IT 功耗乘以電源使用效率 (PUE) 來解釋這一點(diǎn)。PUE 較低表示數(shù)據(jù)中心能效更高,PUE 為 1.0 表示數(shù)據(jù)中心非常高效,沒有冷卻或任何非 IT 設(shè)備的功耗。典型的企業(yè)托管 PUE 約為 1.5-1.6,而大多數(shù)超大規(guī)模數(shù)據(jù)中心的 PUE 低于 1.4,一些專用構(gòu)建設(shè)施(例如 Google 的)聲稱可以實(shí)現(xiàn)低于 1.10 的 PUE。大多數(shù) AI 數(shù)據(jù)中心規(guī)格的目標(biāo)是低于 1.3 PUE。過去 10 年,全行業(yè)平均 PUE 下降,從 2010 年的 2.20 下降到 2022 年估計(jì)的 1.55,這是節(jié)能的最大推動(dòng)因素之一,并有助于避免數(shù)據(jù)中心功耗的失控增長(zhǎng)。


例如,在利用率為 80% 且 PUE 為 1.25 的情況下,擁有 20,480 個(gè) GPU 集群的理論數(shù)據(jù)中心平均將從電網(wǎng)獲取 28-29MW 電力,每年總計(jì) 249,185 兆瓦時(shí),這將花費(fèi) 2070 萬美元每年電力美元,基于美國(guó)每千瓦時(shí) 0.083 美元的平均電價(jià)。


圖片


數(shù)據(jù)中心布局和限制


雖然 DGX H100 服務(wù)器需要 10.2 千瓦 (kW) 的 IT 電源,但大多數(shù)托管數(shù)據(jù)中心仍然只能支持每個(gè)機(jī)架約 12 千瓦的電源容量,盡管典型的超大規(guī)模數(shù)據(jù)中心可以提供更高的電源容量。


圖片


因此,服務(wù)器部署將根據(jù)可用的電源和冷卻能力而有所不同,在電源/冷卻受限的地方僅部署 2-3 臺(tái) DGX H100 服務(wù)器,并且整排機(jī)架空間閑置,以將電力傳輸密度從 12 kW 翻倍至 24 kW。托管數(shù)據(jù)中心。實(shí)施此間隔也是為了解決冷卻超額訂購(gòu)問題。


圖片


隨著數(shù)據(jù)中心的設(shè)計(jì)越來越考慮人工智能工作負(fù)載,機(jī)架將能夠通過使用專用設(shè)備增加氣流來利用空氣冷卻來實(shí)現(xiàn) 30-40kW+ 的功率密度。未來使用直接芯片液體冷卻為更高的功率密度打開了大門,通過消除風(fēng)扇 功率的使用,可以將每個(gè)機(jī)架的功耗降低 10%,并通過減少或消除對(duì)環(huán)境的需求,將 PUE 降低 0.2-0.3空氣冷卻,雖然 PUE 已經(jīng)在 1.25 左右,但這將是最后一波有意義的 PUE 增益。


圖片


許多運(yùn)營(yíng)商提出的另一個(gè)重要考慮因素是,各個(gè) GPU 服務(wù)器節(jié)點(diǎn)最好彼此靠近,以實(shí)現(xiàn)可接受的成本和延遲。根據(jù)經(jīng)驗(yàn),同一集群中的機(jī)架距離網(wǎng)絡(luò)核心最多應(yīng)為 30 米。與昂貴的單模光收發(fā)器相比,短距離可實(shí)現(xiàn)更低成本的多模光收發(fā)器,單模光收發(fā)器通常可以達(dá)到數(shù)公里的距離。Nvidia 通常使用特定的多模光收發(fā)器將 GPU 連接到葉子交換機(jī)(leaf switches),其短距離可達(dá) 50m。使用更長(zhǎng)的光纜和更長(zhǎng)距離的收發(fā)器來容納更遠(yuǎn)的 GPU 機(jī)架會(huì)增加成本,因?yàn)樾枰嘿F的收發(fā)器。未來利用其他擴(kuò)展網(wǎng)絡(luò)技術(shù)的 GPU 集群也將需要非常短的電纜才能正常工作。例如,在Nvidia 尚未部署的 H100 集群的 NVLink 擴(kuò)展網(wǎng)絡(luò)中,該網(wǎng)絡(luò)支持跨 32 個(gè)節(jié)點(diǎn)的多達(dá) 256 個(gè) GPU 的集群,并且可以提供 57.6 TB/s 的全對(duì)全帶寬,最大切換到開關(guān)電纜長(zhǎng)度為 20 米。


圖片


每個(gè)機(jī)架功率密度更高的趨勢(shì)更多地是由網(wǎng)絡(luò)、計(jì)算效率和每次計(jì)算成本考慮因素推動(dòng)的——就數(shù)據(jù)中心規(guī)劃而言,因?yàn)檎嫉孛娣e和數(shù)據(jù)大廳空間效率的成本通常是事后才考慮的。大約 90% 的托管數(shù)據(jù)中心成本來自電力,10% 來自物理空間。


安裝IT設(shè)備的數(shù)據(jù)大廳通常只占數(shù)據(jù)中心總建筑面積的30-40%左右,因此設(shè)計(jì)一個(gè)大30%的數(shù)據(jù)大廳只需要整個(gè)數(shù)據(jù)中心的總建筑面積增加10%??紤]到80% 的 GPU 擁有成本來自資本成本80% ,其中, 20% 與托管相關(guān)(這會(huì)增加托管數(shù)據(jù)中心成本),因此額外空間的成本僅占 AI 總擁有成本的 2%-3%。


大多數(shù)現(xiàn)有托管數(shù)據(jù)中心尚未準(zhǔn)備好支持每機(jī)架 20kW 以上的機(jī)架密度。芯片生產(chǎn)限制將在 2024 年顯著改善,但某些超大規(guī)模和托管服務(wù)直接陷入數(shù)據(jù)中心容量瓶頸,因?yàn)樗鼈冊(cè)谌斯ぶ悄芊矫娲胧植患啊绕涫窃谕泄軘?shù)據(jù)中心內(nèi),以及功率密度不匹配——其中 12-傳統(tǒng)托管中的15kW功率將成為實(shí)現(xiàn)AI超級(jí)集群理想物理密度的障礙。


后門熱交換器和直接芯片液體冷卻解決方案可以部署在新建的數(shù)據(jù)中心中,以解決功率密度問題。然而,從頭開始設(shè)計(jì)一個(gè)包含這些解決方案的新設(shè)施比改造現(xiàn)有設(shè)施要容易得多——意識(shí)到這一點(diǎn),Meta 已停止開發(fā)計(jì)劃中的數(shù)據(jù)中心項(xiàng)目,將其重新調(diào)整為專門針對(duì)人工智能工作負(fù)載的數(shù)據(jù)中心。


就所有超大規(guī)模數(shù)據(jù)中心的功率密度而言,Meta 的數(shù)據(jù)中心設(shè)計(jì)是最差的,但它們很快就醒悟并轉(zhuǎn)變了。改造現(xiàn)有數(shù)據(jù)中心成本高昂、耗時(shí),在某些情況下甚至可能不可能——可能沒有物理空間來安裝額外的 2-3 MW 發(fā)電機(jī)、不間斷電源 (UPS)、開關(guān)設(shè)備或額外的變壓器,并且重新設(shè)計(jì)管道以適應(yīng)直接芯片液體冷卻所需的冷卻分配單元(CDU)并不理想。


圖片


人工智能需求與當(dāng)前數(shù)據(jù)中心容量


使用基于我們的AI 加速器模型的加速器芯片的逐行單位出貨量預(yù)測(cè)以及我們估計(jì)的芯片規(guī)格和建模的輔助設(shè)備功率需求,我們計(jì)算了未來幾年的 AI 數(shù)據(jù)中心關(guān)鍵 IT 功率總需求。


圖片


如上所述,數(shù)據(jù)中心關(guān)鍵 IT 電力總需求將從 2023 年的約 49 吉瓦翻倍至 2026 年的 96 吉瓦,其中 90% 的增長(zhǎng)來自人工智能相關(guān)需求。這純粹是出于芯片需求,但物理數(shù)據(jù)中心卻講述了不同的故事。


在美國(guó),這種影響最為明顯,我們的衛(wèi)星數(shù)據(jù)顯示,大多數(shù)人工智能集群正在部署和規(guī)劃中,這意味著美國(guó)數(shù)據(jù)中心關(guān)鍵 IT 容量從 2023 年到 2027 年將需要增加兩倍。


圖片


主要人工智能云推出加速器芯片的積極計(jì)劃凸顯了這一點(diǎn)。OpenAI計(jì)劃在其最大的多站點(diǎn)訓(xùn)練集群中部署數(shù)十萬個(gè) GPU,這需要數(shù)百兆瓦的關(guān)鍵 IT 電源。通過查看物理基礎(chǔ)設(shè)施、發(fā)電機(jī)和蒸發(fā)塔的建設(shè),我們可以非常準(zhǔn)確地跟蹤它們的集群規(guī)模。Meta 預(yù)計(jì)到今年年底 H100 的安裝量將達(dá)到 650,000 臺(tái)。GPU 云提供商 CoreWeave 制定了在德克薩斯州普萊諾工廠投資 1.6B 美元的宏偉計(jì)劃。這意味著計(jì)劃斥資建設(shè)高達(dá) 50MW 的關(guān)鍵 IT 電源,并僅在該工廠安裝 30,000-40,000 個(gè) GPU,并為整個(gè)公司提供清晰的路徑250MW 的數(shù)據(jù)中心占地面積(相當(dāng)于 18 萬個(gè) H100),并且他們計(jì)劃在單個(gè)站點(diǎn)中建設(shè)數(shù)百兆瓦的數(shù)據(jù)中心。


Microsoft 擁有人工智能時(shí)代之前最大的數(shù)據(jù)中心建設(shè)管道,他們也一直在吞噬一切可以利用的托管空間,并積極增加數(shù)據(jù)中心的擴(kuò)建。像亞馬遜這樣的人工智能落后者已經(jīng)發(fā)布了關(guān)于總裝機(jī)容量為 1,000MW 的核動(dòng)力數(shù)據(jù)中心的新聞稿,但需要明確的是,他們?cè)趯?shí)際的近期建設(shè)方面嚴(yán)重落后,因?yàn)樗麄兪亲詈笠粋€(gè)意識(shí)到人工智能的超大規(guī)模企業(yè)。谷歌和微軟/OpenAI 都計(jì)劃開發(fā)超過千兆瓦級(jí)的訓(xùn)練集群。


圖片


從供應(yīng)角度來看,賣方一致估計(jì) Nvidia 在 2024 年出貨 300 萬個(gè)以上 GPU 將對(duì)應(yīng)超過 4,200 MW 的數(shù)據(jù)中心需求,接近當(dāng)前全球數(shù)據(jù)中心容量的 10%,僅相當(dāng)于一年的 GPU 出貨量。當(dāng)然,對(duì)英偉達(dá)出貨量的普遍估計(jì)也是非常錯(cuò)誤的。忽略這一點(diǎn),人工智能只會(huì)在接下來的幾年中增長(zhǎng),而 Nvidia 的 GPU 預(yù)計(jì)會(huì)變得更加耗電,路線圖上有 1,000W、1,200W 和 1,500W GPU。Nvidia 并不是唯一一家生產(chǎn)加速器的公司,谷歌也在迅速提高定制加速器的產(chǎn)量。展望未來,Meta 和亞馬遜還將加大其內(nèi)部加速器的力度。


全球頂級(jí)超大規(guī)模企業(yè)并沒有忽視這一現(xiàn)實(shí)——他們正在迅速加大數(shù)據(jù)中心建設(shè)和主機(jī)托管租賃力度。AWS 實(shí)際上以 6.5 億美元購(gòu)買了一個(gè) 1000MW核動(dòng)力數(shù)據(jù)中心園區(qū)。盡管只有第一座容量為 48MW 的建筑可能會(huì)在短期內(nèi)上線,但這為 AWS 提供了寶貴的數(shù)據(jù)中心容量管道,而無需等待發(fā)電或電網(wǎng)傳輸容量。我們認(rèn)為,如此龐大的園區(qū)需要很多年才能完全達(dá)到承諾的 1,000 兆瓦關(guān)鍵 IT 電力。


人工智能訓(xùn)練和推理的碳和電力成本


了解訓(xùn)練流行模型的功率要求可以幫助衡量功率需求以及了解人工智能行業(yè)產(chǎn)生的碳排放。的碳足跡,175B 參數(shù)語(yǔ)言模型 檢查了在法國(guó) CNRS 旗下 IDRIS 的 Jean Zay 計(jì)算機(jī)集群上訓(xùn)練 BLOOM 模型的功耗。該論文提供了人工智能芯片 TDP 與集群總用電量(包括存儲(chǔ)、網(wǎng)絡(luò)和其他 IT 設(shè)備)之間關(guān)系的實(shí)證觀察,一直到電網(wǎng)的實(shí)際用電量。


另一篇論文《Carbon Emissions and Large Neural Network Training》報(bào)告了其他一些模型的訓(xùn)練時(shí)間、配置和訓(xùn)練功耗。訓(xùn)練的功耗需求可能會(huì)有所不同,具體取決于模型和訓(xùn)練算法的效率(優(yōu)化模型 FLOP 利用率 - MFU)以及整體網(wǎng)絡(luò)和服務(wù)器電源效率和使用情況,但下面復(fù)制的結(jié)果是一個(gè)有用的衡量標(biāo)準(zhǔn)。


圖片


這些論文通過將總功耗(千瓦時(shí))乘以數(shù)據(jù)中心運(yùn)行的電網(wǎng)的碳強(qiáng)度來估計(jì)訓(xùn)練這些模型的碳排放量。目光敏銳的讀者會(huì)注意到,法國(guó)訓(xùn)練 BLOOM 模型的碳強(qiáng)度非常低,為 0.057 千克二氧化碳當(dāng)量/千瓦時(shí),該國(guó) 60% 的電力來自核電,遠(yuǎn)低于美國(guó) 0.387 千克二氧化碳當(dāng)量/千瓦時(shí)的平均水平。我們提供了一組額外的計(jì)算,假設(shè)訓(xùn)練作業(yè)在連接到亞利桑那州電網(wǎng)的數(shù)據(jù)中心上運(yùn)行,亞利桑那州是目前數(shù)據(jù)中心擴(kuò)建的領(lǐng)先州之一。


排放難題中要考慮的最后一個(gè)部分是體現(xiàn)排放,定義為制造和運(yùn)輸給定設(shè)備(在本例中為加速器芯片和相關(guān) IT 設(shè)備)所涉及的總碳排放量。關(guān)于 AI 加速器芯片的具體排放量的可靠數(shù)據(jù)很少,但一些人粗略估計(jì)該數(shù)字為每個(gè) A100 GPU 排放 150 千克二氧化碳當(dāng)量,托管 8 個(gè) GPU 的服務(wù)器排放 2,500 千克二氧化碳當(dāng)量。經(jīng)過計(jì)算,隱含排放量約為訓(xùn)練運(yùn)行總排放量的 8-10%。


圖片


這些訓(xùn)練產(chǎn)生的碳排放量很大,一次 GPT-3 訓(xùn)練產(chǎn)生 588.9 噸二氧化碳當(dāng)量,相當(dāng)于128 輛乘用車的年排放量a。抱怨 GPT-3 訓(xùn)練排放就像回收塑料水瓶然后每隔幾個(gè)月乘坐一次航班一樣。字面上無關(guān)的美德信號(hào)。


另一方面,可以肯定的是,在確定最終模型之前,進(jìn)行了多次訓(xùn)練迭代。2022 年, 在考慮可再生能源項(xiàng)目的任何抵消之前,Google 包括數(shù)據(jù)中心在內(nèi)的設(shè)施總共排放了 8,045,800 噸二氧化碳當(dāng)量。這意味著 GPT-3 并沒有影響世界的碳排放,但是 GPT-4 的 FLOPS 增加了多個(gè)數(shù)量級(jí),而當(dāng)前的 OpenAI 訓(xùn)練運(yùn)行比這個(gè)數(shù)量級(jí)高出一個(gè)數(shù)量級(jí)以上,訓(xùn)練的碳排放量為幾年后將開始變得相當(dāng)大。


我們計(jì)算評(píng)估,配備 8 個(gè) GPU 的典型 H100 服務(wù)器每月會(huì)排放約 2,450 千克二氧化碳當(dāng)量,需要 10,200 瓦 IT 電源 — 假設(shè)每千瓦時(shí) (KWh) 0.087 美元,每月成本為 648 美元。


圖片



來源:半導(dǎo)體行業(yè)觀察

三代半導(dǎo)體芯研究
聚焦于第三代半導(dǎo)體前沿技術(shù)與信息,持續(xù)為業(yè)內(nèi)分享優(yōu)質(zhì)的三代半技術(shù)干貨、新聞動(dòng)態(tài)、市場(chǎng)分析等內(nèi)容。
17篇原創(chuàng)內(nèi)容
公眾號(hào)
功率半導(dǎo)體生態(tài)圈
專注于功率器件最新行業(yè)資訊,分享功率半導(dǎo)體相關(guān)知識(shí),致力于推進(jìn)行業(yè)發(fā)展。
22篇原創(chuàng)內(nèi)容
公眾號(hào)



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: H100

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉