人工智能正在引領(lǐng)數(shù)據(jù)中心物理基礎(chǔ)設(shè)施的新時(shí)代
人工智能(AI)目前正在對(duì)數(shù)據(jù)中心行業(yè)產(chǎn)生深遠(yuǎn)影響,這種影響可歸因于OpenAI在2022年底推出的ChatGPT,該產(chǎn)品因其對(duì)查詢提供復(fù)雜且類似人類的響應(yīng)的卓越能力而迅速受到歡迎。因此,作為人工智能技術(shù)的一個(gè)子集,生成式人工智能成為2023年上半年行業(yè)活動(dòng)、財(cái)報(bào)和供應(yīng)商生態(tài)系統(tǒng)討論的焦點(diǎn)。這種興奮是有道理的,因?yàn)樯墒饺斯ぶ悄芤呀?jīng)引起了數(shù)十場(chǎng)討論。數(shù)十億美元的投資,預(yù)計(jì)到2027年將繼續(xù)讓數(shù)據(jù)中心資本支出提高到5000億美元以上。然而,由于訓(xùn)練和部署支持生成式人工智能應(yīng)用程序的大型語(yǔ)言模型(LLM)所需的計(jì)算能力顯著擴(kuò)展,因此需要對(duì)數(shù)據(jù)中心的架構(gòu)進(jìn)行更改。
雖然支持此類人工智能應(yīng)用所需的硬件對(duì)許多人來(lái)說(shuō)都是新的,但一部分?jǐn)?shù)據(jù)中心行業(yè)已經(jīng)部署此類基礎(chǔ)設(shè)施多年。該領(lǐng)域通常被稱為高性能計(jì)算 (HPC) 或超級(jí)計(jì)算行業(yè)。從歷史上看,這個(gè)細(xì)分市場(chǎng)主要得到政府和高等教育機(jī)構(gòu)的支持,以部署一些世界上最復(fù)雜和精密的計(jì)算機(jī)系統(tǒng)。
生成式人工智能正在做的事情是,將人工智能應(yīng)用程序和支持它們的基礎(chǔ)設(shè)施擴(kuò)展到更廣泛的企業(yè)和服務(wù)提供商市場(chǎng)。向HPC行業(yè)學(xué)習(xí)讓我們了解基礎(chǔ)設(shè)施可能會(huì)是什么樣子。
圖 1:AI硬件影響
總結(jié)圖 1 所示的影響,人工智能工作負(fù)載將需要更多的計(jì)算能力和更高的網(wǎng)絡(luò)速度。這將導(dǎo)致更高的機(jī)架功率密度,這對(duì)數(shù)據(jù)中心物理基礎(chǔ)設(shè)施(DCPI)具有重大影響。對(duì)于電力基礎(chǔ)設(shè)施(也稱為灰色空間),預(yù)計(jì)架構(gòu)變化將受到限制。AI工作負(fù)載應(yīng)該會(huì)增加對(duì)備用電源(UPS)和IT機(jī)架(機(jī)柜PDU和母線槽)配電的需求,但不會(huì)要求任何重大的技術(shù)變革。人工智能基礎(chǔ)設(shè)施將對(duì)DCPI產(chǎn)生變革性影響的地方在于數(shù)據(jù)中心的空白區(qū)域。
首先,由于AI IT硬件的功耗較高,需要更高功率的機(jī)架式PDU。在這些額定功率下,發(fā)生潛在故障或效率低下相關(guān)造成的成本可能很高。預(yù)計(jì)這將推動(dòng)最終用戶采用智能機(jī)架PDU,并能夠遠(yuǎn)程監(jiān)控和管理功耗和環(huán)境因素。這些機(jī)架PDU的成本比基本機(jī)架PDU高出許多數(shù)量級(jí),而最終用戶無(wú)法監(jiān)控或管理其機(jī)架配電。
對(duì)于數(shù)據(jù)中心架構(gòu)來(lái)說(shuō),更具變革性的是需要液體冷卻來(lái)管理下一代CPU 和GPU運(yùn)行AI工作負(fù)載時(shí)產(chǎn)生的更高熱負(fù)載。液體冷卻(包括直接液體冷卻和浸沒(méi)式冷卻)在更廣泛的數(shù)據(jù)中心行業(yè)中的采用不斷增加,預(yù)計(jì)隨著人工智能基礎(chǔ)設(shè)施的部署而加速。然而,考慮到采用液冷的的跑道歷史漫長(zhǎng),Dell’Oro預(yù)計(jì)生成式人工智能對(duì)液冷的影響在短期內(nèi)將受到限制。仍然可以部署采用風(fēng)冷技術(shù)的當(dāng)前一代IT基礎(chǔ)設(shè)施,但會(huì)犧牲硬件利用率和效率。
為了應(yīng)對(duì)這一挑戰(zhàn),一些最終用戶正在使用閉環(huán)空氣輔助液冷系統(tǒng)改造其現(xiàn)有設(shè)施。這種基礎(chǔ)設(shè)施可以是后門(mén)熱交換器(RDHx)或直接液體冷卻的一種形式,其利用液體來(lái)捕獲機(jī)架或服務(wù)器內(nèi)產(chǎn)生的熱量,并在機(jī)架或服務(wù)器的后部將其排出,將其引導(dǎo)到熱通道中。這種設(shè)計(jì)使數(shù)據(jù)中心運(yùn)營(yíng)商能夠利用液冷的一些優(yōu)勢(shì),而無(wú)需大量投資來(lái)重新設(shè)計(jì)設(shè)施。然而,為了大規(guī)模實(shí)現(xiàn)人工智能硬件的預(yù)期效率,需要專門(mén)建造的液冷設(shè)施。預(yù)計(jì)當(dāng)前對(duì)液冷的興趣將在2025年開(kāi)始在部署中體現(xiàn)出來(lái),預(yù)計(jì)到2027年液冷收入將接近20億美元。
電力可用性可能顛覆人工智能的炒作將人工智能工作負(fù)載納入未來(lái)數(shù)據(jù)中心建設(shè)的計(jì)劃已經(jīng)實(shí)現(xiàn)。這是Dell’Oro上調(diào)數(shù)據(jù)中心物理基礎(chǔ)設(shè)施市場(chǎng)5年前景的主要原因,目前預(yù)計(jì)到2027年收入將以10%的復(fù)合年增長(zhǎng)率增長(zhǎng)。但是,盡管人工智能工作負(fù)載預(yù)計(jì)將為數(shù)據(jù)中心行業(yè)帶來(lái)巨大的市場(chǎng)增長(zhǎng),但仍有一些值得注意的因素可能會(huì)減緩這種增長(zhǎng)。新冠加速了數(shù)字化的步伐,掀起了新數(shù)據(jù)中心建設(shè)的浪潮。然而,隨著需求的實(shí)現(xiàn),供應(yīng)鏈難以跟上,導(dǎo)致數(shù)據(jù)中心物理基礎(chǔ)設(shè)施的交付時(shí)間在高峰時(shí)超過(guò)一年。現(xiàn)在,隨著供應(yīng)鏈限制的緩解,DCPI供應(yīng)商正在解決積壓?jiǎn)栴},并開(kāi)始縮短交貨時(shí)間。
然而,對(duì)人工智能工作負(fù)載的需求正在形成數(shù)據(jù)中心行業(yè)的另一波增長(zhǎng)浪潮。這種雙倍增長(zhǎng)導(dǎo)致數(shù)據(jù)中心行業(yè)不斷增長(zhǎng)的能源需求與公用事業(yè)公司向所需地點(diǎn)供電的速度之間存在差異。因此,這導(dǎo)致數(shù)據(jù)中心服務(wù)提供商探索“自帶電源”模式作為潛在的解決方案。雖然該模型的可行性仍在確定中,但數(shù)據(jù)中心提供商渴望一種創(chuàng)新方法來(lái)支持其長(zhǎng)期增長(zhǎng)戰(zhàn)略,而人工智能工作負(fù)載的激增是一個(gè)核心驅(qū)動(dòng)力。
隨著對(duì)更多DCPI的需求與可用功率的平衡,有一點(diǎn)是明確的:人工智能正在開(kāi)創(chuàng)DCPI的新時(shí)代。在這個(gè)時(shí)代,DCPI不僅將在促進(jìn)數(shù)據(jù)中心發(fā)展方面發(fā)揮關(guān)鍵作用,還將定義性能、成本并幫助實(shí)現(xiàn)可持續(xù)發(fā)展。這與DCPI所扮演的歷史角色截然不同,特別是與近十年前的行業(yè)相比,當(dāng)時(shí)DCPI幾乎是事后才想到的。
隨著AI增長(zhǎng)浪潮的迅速到來(lái),在AI策略中滿足DCPI要求至關(guān)重要。如果不這樣做,可能會(huì)導(dǎo)致AI IT硬件無(wú)處可插。
參考文獻(xiàn):
AI is Ushering in a New Era for Data Center Physical Infrastructure - Lucas Beran joined Dell’Oro Group
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。