液冷AI服務(wù)器,出現(xiàn)瓶頸
業(yè)內(nèi)人士稱,液冷解決方案的通用快速斷開裝置(UQD)供應(yīng)已趨于緊張,這可能成為 AI 服務(wù)器液冷增長的主要瓶頸。
本文引用地址:http://butianyuan.cn/article/202407/461343.htm服務(wù)器 ODM 廠商指出,Nvidia 的 Blackwell AI 芯片,包括 B100 和 B200,將于今年開始出貨,但 GB200 解決方案要到 2024 年底或 2025 年才會開始量產(chǎn)。
B100、B200 客戶目前大多仍采用風冷散熱設(shè)計,不過據(jù) ODM 廠商反映,液冷滲透率持續(xù)提升,預(yù)估隨著 Blackwell 芯片出貨量的增加,客戶采用液冷的意愿也會提升。
擴大產(chǎn)能以應(yīng)對液體冷卻需求的增加
相關(guān)企業(yè)紛紛擴大生產(chǎn),迎接液冷新時代。散熱模塊廠商晶晨科技計劃將水冷板月產(chǎn)能從 3 萬片提升 10 倍至 30 萬片。
Auras 在泰國設(shè)立新工廠,以響應(yīng)客戶的地緣政治擔憂和要求。該工廠預(yù)計將于第三季度開始量產(chǎn)。除了擴大冷板的本地產(chǎn)能外,Auras 還計劃在本地生產(chǎn)冷卻分配單元 (CDU) 和冷卻液分配歧管 (CDM),計劃月產(chǎn)能約為 2,000-3,000 套。
散熱模組廠 AVC 在近期財報電話會議上指出,其中國及越南工廠的冷板模組月產(chǎn)能約為 11.5 萬臺,若以冷板計算,則月產(chǎn)量約 42 萬臺,AVC 計劃年底前將產(chǎn)能擴大 50%。
AVC 還計劃將 CDU 的月產(chǎn)能擴大至 1,000 臺,將 CDM 的月產(chǎn)能擴大至 30,000 套。AVC 強調(diào),這一計劃產(chǎn)能可根據(jù)客戶訂單需求靈活調(diào)整。
熱能技術(shù)公司高力熱處理因客戶對液冷產(chǎn)能需求增加,正擴大臺灣中壢廠區(qū)產(chǎn)能,預(yù)計第三季末 CDM 月產(chǎn)能將從 1,000 臺增至 2,000 臺,年底將增至 4,000 臺,行內(nèi) CDU 年產(chǎn)能也將在年底達到 2,000 臺。
上述廠商均對液冷需求抱有較高期待,主要原因在于中國與歐盟的運算效率與數(shù)據(jù)中心 PUE 規(guī)范,但最重要因素還是 Nvidia 解除了對芯片廠商散熱規(guī)格自我限制。
液冷快速增長導(dǎo)致 UQD 短缺
在大家熱切期盼液冷時代來臨之際,UQD 成為成長的最大瓶頸,散熱模塊廠指出,近期 UQD 供貨吃緊,雖然液冷目前市占率只有個位數(shù),但未來若上升至兩位數(shù),UQD 恐將一票難求。
UQD 供應(yīng)商多來自歐美,如美國大廠 Parker Hannifin 與 CPC、瑞士 Staubli International、丹麥 Danfoss、瑞典 Cejn 等,臺灣連接器零組件大廠 Lotes 也積極入市,并已開始送樣。
安博科技董事長梁志堅指出,由于液冷最看重的是避免泄漏,而 UQD 是最容易發(fā)生泄漏的元件,因此 UQD 的供貨是液冷元件中最緊張的。這不僅是技術(shù)問題,相關(guān)廠商也有專利保護,安博科技正在研究如何突破這些專利壁壘。
業(yè)界表示,UQD 廠商有專利保護,但同時也需要經(jīng)過層層驗證,包括 OCP 認證、客戶端驗證等耗時耗力,加上現(xiàn)有歐美廠商無擴充產(chǎn)能意向,將成為液冷快速發(fā)展的主要瓶頸。
Supermicro 是成長最快的液冷廠商之一,創(chuàng)始人兼首席執(zhí)行官梁見后指出,過去 30 年,液冷僅占服務(wù)器市場的 1%,但他預(yù)估 2025 年滲透率將躍升至 30%。
液體冷卻成為潛在解決方案,人工智能繁榮給電網(wǎng)帶來壓力
生成式人工智能的快速發(fā)展推動了數(shù)據(jù)中心前所未有的擴張,引發(fā)了人們對其對電網(wǎng)影響的擔憂。這些耗電設(shè)施可能會導(dǎo)致停電并增加能源成本。
據(jù)電力研究所估計,到 2030 年,數(shù)據(jù)中心可能消耗美國 9% 的電力,是目前的兩倍。一個大型數(shù)據(jù)中心的用電量相當于數(shù)十萬戶家庭的用電量。
人工智能不斷增加的電力需求尤其令人擔憂。早期的人工智能模型消耗的電量是谷歌搜索的十倍,而較新的芯片對能源的需求甚至更高。專家警告稱,未來人工智能的發(fā)展可能會受到我們產(chǎn)生足夠電力的能力的限制。
一些國家面臨嚴峻挑戰(zhàn)。例如,到 2026 年,愛爾蘭可能會有 30% 的電力用于數(shù)據(jù)中心。在美國,數(shù)據(jù)中心的用電集中在 15 個州,其中得克薩斯州和弗吉尼亞州最多。加利福尼亞州的情況危急,預(yù)計新建的數(shù)據(jù)中心可能會產(chǎn)生超過核電站發(fā)電量的電力需求。
數(shù)據(jù)中心:巨大的能源消耗和液體冷卻的興起
人工智能的計算需求正在推高服務(wù)器溫度和碳排放,從而導(dǎo)致冷卻系統(tǒng)需求大幅增加。冷卻系統(tǒng)占數(shù)據(jù)中心總電力消耗的 40%,是僅次于服務(wù)器本身的第二大電力消耗來源。
全球服務(wù)器冷卻市場預(yù)計將從 2024 年的 200 億美元增長到 2027 年的 900 億美元。數(shù)據(jù)中心的液體冷卻系統(tǒng)預(yù)計將從 1% 增加到 22%,市場價值在未來三年內(nèi)從 3.17 億美元增長到 78 億美元。
使用水或冷卻劑來冷卻服務(wù)器的液體冷卻解決方案正日益流行。新技術(shù)包括浸入式冷卻(將整個服務(wù)器機架浸入非導(dǎo)電液體中)和直接液體冷卻(在服務(wù)器周圍循環(huán)水)。雖然目前比空氣冷卻系統(tǒng)更昂貴,但液體冷卻可以將數(shù)據(jù)中心的功耗降低 10% 或更多。
研究公司 Global Market Insights 預(yù)測,全球數(shù)據(jù)中心液體冷卻市場規(guī)模將從 2022 年的 21 億美元增長到 2032 年的 122 億美元。Uptime Institute 的一項調(diào)查發(fā)現(xiàn),16% 的數(shù)據(jù)中心經(jīng)理認為液體冷卻將在 1-3 年內(nèi)成為數(shù)據(jù)中心的主要冷卻方法,而 41% 的人認為這將需要 4-6 年。因此,混合冷卻方法在短期內(nèi)更有可能出現(xiàn)。
數(shù)據(jù)中心風冷系統(tǒng)管理領(lǐng)域的領(lǐng)導(dǎo)者 Upsite Technologies 指出,雖然技術(shù)在不斷進步,但短期內(nèi)不太可能實現(xiàn) 100% 液冷數(shù)據(jù)中心,液冷設(shè)備仍然需要風冷來散熱。
雖然液體冷卻也更高效,但難以大規(guī)模實施,而且需要大量的前期投資。空氣冷卻成本較低,但效率較低。因此,混合冷卻設(shè)施正變得越來越受歡迎,以最大限度地發(fā)揮液體和空氣冷卻的優(yōu)勢。
數(shù)據(jù)中心能源危機引發(fā)緊急行動呼吁
由于數(shù)據(jù)中心對環(huán)境的影響,它們受到越來越多地關(guān)注。世界各國政府都在實施法規(guī),以控制其能源消耗和碳足跡。中國的「綠色數(shù)據(jù)中心」指南以及德國、新加坡和日本的類似舉措就是這一趨勢的例子。
施耐德電氣等行業(yè)專家強調(diào),需要采用全面的環(huán)境指標來評估數(shù)據(jù)中心的可持續(xù)性。這包括能源使用以外的因素,例如水資源和廢物產(chǎn)生。
美國政府正在向大型科技公司施壓,要求他們投資清潔能源,并認識到生成人工智能不斷增長的電力需求對環(huán)境產(chǎn)生的重大影響。
尋找合適的電源:數(shù)據(jù)中心和能源挑戰(zhàn)
數(shù)據(jù)中心需要多樣化的能源組合,以平衡可靠性和可持續(xù)性,滿足不斷增長的需求。
太陽能和風能等可再生能源因其低碳足跡而頗具吸引力。然而,它們對天氣條件的依賴可能導(dǎo)致輸出不穩(wěn)定,因此不適合作為數(shù)據(jù)中心的唯一電源。建造冗余設(shè)施來彌補這種不一致性可能是必要的,但成本很高。
核電成為一種潛在的解決方案。傳統(tǒng)核電站提供可靠的基載電力,產(chǎn)生對數(shù)據(jù)中心運營至關(guān)重要的穩(wěn)定電力。此外,全球核電市場預(yù)計將在未來十年實現(xiàn)穩(wěn)步增長。
核能領(lǐng)域的創(chuàng)新提供了更多有希望的可能性。小型模塊化反應(yīng)堆 (SMR) 正在開發(fā)中,作為傳統(tǒng)核電站的更小、更安全、更具可擴展性的替代品。雖然仍處于研發(fā)階段,但 SMR 有可能直接部署在數(shù)據(jù)中心,提供專用的清潔能源。
然而,SMR 的廣泛應(yīng)用面臨重大障礙。監(jiān)管和制造方面的挑戰(zhàn)可能會使其商業(yè)部署推遲數(shù)年。美國政府正在積極探索解決方案,包括與科技巨頭合作以降低成本并簡化流程。
減少數(shù)據(jù)中心能源需求的另一種方法是優(yōu)化人工智能工作負載。通過將一些人工智能任務(wù)從云端轉(zhuǎn)移到具有較小、資源密集度較低的人工智能模型的本地設(shè)備,可以降低總體能耗。
數(shù)據(jù)中心的未來發(fā)展需要多管齊下。采用多元化的能源組合,包括核能等可靠能源,同時積極尋求 SMR 等可再生和創(chuàng)新解決方案至關(guān)重要。此外,優(yōu)化本地設(shè)備上的 AI 工作負載可以進一步促進數(shù)據(jù)中心的可持續(xù)發(fā)展。
評論