新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 人工智能對數據中心基礎設施帶來了哪些挑戰(zhàn)

人工智能對數據中心基礎設施帶來了哪些挑戰(zhàn)

作者:Aditya Jian(安森美高級總監(jiān)) 時間:2024-11-24 來源:EEPW 收藏


本文引用地址:http://butianyuan.cn/article/202411/464896.htm

1732444313629378.png

在加密貨幣和/ 機器學習(AI/ML)等新興應用的驅動下,數據中心的能耗巨大,并將快速增長以滿足用戶需求。根據國際能源署(IEA)的最新報告,2022年數據中心的耗電量將達到460 TWh(太瓦時),約占全球總用電量的2%。在美國,擁有全球三分之一的數據中心,耗電量為260 TWh,占總用電量的6%。

預測未來具有挑戰(zhàn)性,這取決于部署了多少非常耗電的圖形處理單元(GPU)來應對技術的需求,當然還取決于進一步增加空調來降低數據中心的溫度。國際能源署的報告顯示,到2026 年,數據中心的耗電量將至少增長到650 TWh(40%),但也可能高達1,050 TWh(128%)。

1   數據中心支持趨勢

人工智能是一項極其耗電的技術,支持其運行的數據中心需要具備足夠的算力和電力輸送能力。

瑞典RISE 研究機構最近的一項研究清楚地展示了由于該技術迅速普及所帶來的巨大變化。例如,ChatGPT 在2022 年11 月推出后僅五天內就達到了100 萬用戶。他們在兩個月內就擁有了1 億用戶,而TikTok 達到同一用戶量級用了9 個月,Instagram 則用了兩年半的時間。

作為參考,在谷歌上進行一次搜索僅需0.28 Wh,相當于讓一個60 W 的燈泡亮17 秒。

相比之下,訓練GPT-4 需要1.7 萬億個參數和13萬億個tokens(單詞片段),這是一個完全不同的命題。要做到這一點,需要包含25, 000 個英偉達A100 GPU的多臺服務器,每臺服務器的功耗約為6.5kW。OpenAI表示,訓練耗時100 天,耗能約50 GWh,耗資1 億美元。顯然,人工智能將極大地改變數據中心的游戲規(guī)則,其所需的計算能力和能耗水平將遠遠超過我們迄今為止所看到的任何水平。

2 數據中心48V架構

早期的數據中心采用集中式電源架構(CPA),將主電源(電網)電壓集中轉換為12 V(母線電壓),然后將其分配給各服務器,并使用相對簡單的轉換器在本地將其轉換為5 V 或3.3 V 邏輯電平。

然而,隨著功率需求的增長,12 V母線上的電流(以及相關損耗)變得高得令人無法接受,迫使系統工程師改用48 V 母線布置。根據歐姆定律,電流減少了4 倍,損耗則降低了4 倍的平方。這種配置被稱為分布式電源架構(DPA)。

與此同時,處理器和其他一些元器件的電壓也在不斷降低,最終降至亞伏特級別,導致需要多個次級電壓軌。為解決這一問題,采用了二階轉換技術,通過DC-DC 轉換器(稱為中間母線轉換器 - IBC)將48 V電壓轉換為12V母線,再根據需要從12V母線輸出其他電壓。

1732444551559421.png

圖1 服務器電源系統的結構

3   對高能效MOSFET的需求

數據中心內部的電力損耗給運營商帶來了挑戰(zhàn)。首先,也是最明顯的一點是,他們正在為那些無助于服務器運行的電力付費。其次,任何浪費的能源都會轉化為熱量,這就必須設法處理。由于超大規(guī)模AI 服務器的功率需求高達120 kW(而且肯定會隨著時間推移而增加),即使在50%負載的情況下,以97.5%的峰值效率計算2.5%的損耗,每臺服務器也會浪費1.5 kW 的電力,相當于一臺全時運行的電加熱器。

處理熱量可能需要在功率轉換系統中采取散熱措施,如散熱器或風扇。這些措施會增大電源的體積,占用本可用于更多計算能力的空間,就風扇而言,還會耗費電能并增加成本。由于數據中心內的溫度需要嚴格控制,過高的損耗也會使環(huán)境溫度升高,這意味著需要更多的空調來降溫。這既是資本支出,也是運營成本,同時還占用空間。

顯然,盡可能高效地將主(電網)電壓轉換為驅動人工智能GPU 和其他設備供電所需的電壓,對數據中心運營商來說大有裨益。

因此,多年來人們在電源拓撲結構方面做了大量工作,在前端PFC階段引入了圖騰柱PFC(TPPFC)等技術,以提高其效率。此外,為了提高效率,二極管整流器已被MOSFET所取代,并引入了同步整流等技術。

優(yōu)化拓撲結構只是其中的一半,要優(yōu)化效率,所有元件也必須盡可能高效,尤其是對轉換過程至關重要的MOSFET。

當MOSFET 用于開關電源轉換時,主要有兩種形式的損耗:導通損耗和開關損耗。導通損耗由漏極和源極之間的電阻(RDS(ON))造成,在電流流動時一直存在。開關損耗是由柵極電荷(Qg)、輸出電荷(QOSS)和反向恢復電荷(Qrr)共同造成的,這些電荷在每個開關周期都會得到補充。由于目前的趨勢是提高開關頻率以減小磁性元件的尺寸,因此隨著補充頻率的增加,這種損耗也會變得相當顯著。

顯然,特定MOSFET的導通損耗和開關損耗越低,電源系統的整體轉換效率就越高。

1732444681338076.png

圖2 PowerTrench T10 MOSFET的優(yōu)勢

4   PowerTrench? T10 MOSFET

同步整流現在已成為所有高性能、大電流、低壓電源轉換應用中的關鍵技術,特別是在數據中心服務器的應用中更是如此。在這種應用中,包括RDS(ON)、Qg、QOSS和Qrr在內的幾個MOSFET參數會直接影響轉換效率,器件制造商正努力尋求減小這些影響的方法。

安森美的PowerTrench T10 MOSFET采用新型屏蔽柵極溝道設計,實現了超低的Qg 值,且RDS(ON) 低于1 mOhm。最新的PowerTrench T10 技術不僅減少了振鈴、過沖和噪聲,其業(yè)界先進的軟恢復體二極管還降低了Qrr。這在導通電阻性能和恢復特性之間實現了良好的折中平衡,同時還可實現具有良好反向恢復特性的低損耗快速開關。

總體而言,PowerTrench T10 器件在參數方面的改進提高了中低壓、大電流開關電源解決方案的效率。通常情況下,開關損耗比上一代器件最多可降低50%,而導通損耗可降低30% ~ 40%。

安森美推出了PowerTrench T10 技術的40 V 系列和80 V 系列產品。NTMFWS1D5N08X(80 V、1.43 mΩ、5 mm×6 mm SO8-FL 封裝)和NTTFSSCH1D3N04XL(40 V、1.3 mΩ、3.3 mm×3.3 mm 源下雙冷卻封裝)為人工智能數據中心應用中的電源單元(PSU)和中間母線轉換器(IBC)提供了同類極佳的效率(FOM)。它們達到了開放式機架(Open Rack)V3 規(guī)范要求的97.5% 的PSU 效率和98% 的IBC 效率。

5   結束語

人工智能革命已經到來,沒有人能夠完全確定它對數據中心未來的電力輸送需求究竟意味著什么。不過,可以肯定的是,一系列新的挑戰(zhàn)已經出現。房地產資源稀缺和電網的限制使得很難找到容量充足的新地點。關鍵IT 方面的總體電力需求激增,給電力成本帶來沉重負擔。為了滿足這些需求,數據中心業(yè)主不僅要建設新設施,還要將現有設施推向極限,力求實現每平方英尺兆瓦級的高密度配置。

隨著功率水平肯定會超過100 kW,功率轉換將成為關鍵重點,以實現高效運行,確保散熱,可靠地提高功率密度,并在狹窄的現代數據中心中節(jié)省空間。安森美的PowerTrench T10 技術提供了業(yè)界先進的RDS(ON)、更高的功率密度、降低開關損耗,以及更好的熱性能,從而降低總系統成本。PowerTrench T10 等創(chuàng)新功率半導體技術將成為未來的關鍵組成部分。

(本文來源于《EEPW》



評論


相關推薦

技術專區(qū)

關閉