微軟出“奇招”,用沸騰液體為數(shù)據(jù)中心降溫
編者按:人工智能的快速發(fā)展,對(duì)計(jì)算機(jī)的性能提出了更高要求,計(jì)算機(jī)行業(yè)也已經(jīng)轉(zhuǎn)向能夠應(yīng)對(duì)更高電功率的芯片架構(gòu)。處理器電功率越高,芯片本身的溫度就會(huì)越高,風(fēng)冷技術(shù)已經(jīng)無(wú)法滿足降溫需求,因此,微軟引入浸入式冷卻技術(shù),直接降低芯片表面的溫度,效率比在空氣中高出幾個(gè)數(shù)量級(jí)。
在美國(guó)華盛頓州昆西市,數(shù)量龐大的郵件和信息往返于微軟員工之間。而在位于哥倫比亞河(Columbia River)東岸的數(shù)據(jù)中心,裝有計(jì)算機(jī)服務(wù)器的鋼制貯槽中的液體正因這些數(shù)據(jù)而沸騰著。
與水不同的是,這個(gè)沙發(fā)型槽體中的液體對(duì)電子設(shè)備無(wú)害,經(jīng)過(guò)設(shè)計(jì),其沸點(diǎn)約為122華氏度(約50攝氏度),比水的沸點(diǎn)低了90華氏度(約50攝氏度)。
因服務(wù)器運(yùn)行溫度產(chǎn)生的沸騰作用,使熱量從正在運(yùn)行的計(jì)算機(jī)處理器中散發(fā)。低溫沸騰使服務(wù)器能夠在全功率下持續(xù)運(yùn)行,避免因過(guò)熱而出現(xiàn)故障。
在槽體內(nèi)部,沸騰液體所產(chǎn)生的蒸汽不斷上升,直到觸及到槽罐上的風(fēng)冷式冷凝器變成液體。緊接著,這些“雨水”流回浸入式服務(wù)器中,形成一個(gè)封閉的循環(huán)冷卻系統(tǒng)。
工作于美國(guó)華盛頓州雷德蒙德的 Husam Alissa,是一名微軟數(shù)據(jù)中心的高級(jí)開(kāi)發(fā)團(tuán)隊(duì)的首席硬件工程師,他表示:“微軟是第一家在生產(chǎn)環(huán)境中采用兩相浸入式冷卻的云服務(wù)提供商。”
圖為 Azure 首席軟件工程師 Ioannis Manousakis(左),與微軟數(shù)據(jù)中心高級(jí)開(kāi)發(fā)團(tuán)隊(duì)首席硬件工程師Husam Alissa(右)正在檢查位于微軟數(shù)據(jù)中心的兩相浸入式冷卻槽
數(shù)據(jù)中心的摩爾定律
在計(jì)算機(jī)芯片風(fēng)冷技術(shù)穩(wěn)定發(fā)展放緩之際,微軟長(zhǎng)期計(jì)劃的下一步就是在生產(chǎn)環(huán)境中部署兩相浸入式冷卻,以滿足對(duì)于更快、更強(qiáng)大的數(shù)據(jù)中心計(jì)算機(jī)的需求。
幾十年來(lái),得益于同一大小芯片上可容納的晶體管數(shù)量提升,芯片技術(shù)不斷進(jìn)步,在不增加耗電量情況下,計(jì)算機(jī)處理器的速度幾乎每?jī)赡昃蜁?huì)翻一倍。
這種現(xiàn)象被稱為“摩爾定律”,以英特爾聯(lián)合創(chuàng)始人戈登?摩爾(Gordon Moore)的名字命名。戈登?摩爾在1965年觀察到了這一趨勢(shì),并預(yù)測(cè)其將持續(xù)至少10年。摩爾定律在過(guò)去幾十年中得到了驗(yàn)證,但是現(xiàn)在,這個(gè)趨勢(shì)已經(jīng)開(kāi)始放緩。
這是因?yàn)榫w管的寬度已經(jīng)縮小到原子級(jí),即將達(dá)到物理極限?!芭c此同時(shí),面對(duì)諸如人工智能之類的高性能應(yīng)用,對(duì)更快速的計(jì)算機(jī)處理器的需求正在加速增長(zhǎng)”,Alissa 表示。
為了滿足性能需求,計(jì)算機(jī)行業(yè)已經(jīng)轉(zhuǎn)向能夠應(yīng)對(duì)更高電功率的芯片架構(gòu)。例如,中央處理器(CPU)中的功率已從每芯片150瓦增加到300瓦以上;圖形處理器(GPU)的功率已增加到每芯片700瓦以上。
這些處理器電功率越高,芯片本身的溫度就會(huì)越高,容易出現(xiàn)故障,這就對(duì)冷卻效果提出了更高的要求。
工作于雷德蒙德總部的 Christian Belady 目前擔(dān)任微軟數(shù)據(jù)中心高級(jí)開(kāi)發(fā)團(tuán)隊(duì)的杰出工程師兼副總裁,他表示:“風(fēng)冷已經(jīng)無(wú)法滿足需求了。因此我們引入了浸入式冷卻技術(shù),直接降低芯片表面的溫度?!?/p>
他強(qiáng)調(diào),熱傳遞在液體中的效率比在空氣中高出幾個(gè)數(shù)量級(jí)。
他還補(bǔ)充道,向液冷技術(shù)的轉(zhuǎn)變?yōu)檎麄€(gè)數(shù)據(jù)中心帶來(lái)了類似摩爾定律的思維方式。
他指出:“液冷使我們能夠提高冷卻效果,提升芯片集成度,實(shí)現(xiàn)了摩爾定律趨勢(shì)在數(shù)據(jù)中心層面的延續(xù)?!?/p>
圖為微軟杰出工程師兼數(shù)據(jù)中心高級(jí)開(kāi)發(fā)團(tuán)隊(duì)副總裁 Christian Belady 在位于微軟數(shù)據(jù)中心的兩相浸入式冷卻槽旁
來(lái)自加密貨幣礦工的一課
Belady 指出,液冷是一項(xiàng)成熟的技術(shù)。目前道路上行駛的大多數(shù)汽車都依靠它來(lái)防止發(fā)動(dòng)機(jī)過(guò)熱。包括微軟在內(nèi)的幾家科技公司也正在試驗(yàn)冷板技術(shù),讓液體通過(guò)金屬板后輸送到服務(wù)器,對(duì)服務(wù)器進(jìn)行冷卻。
加密貨幣行業(yè)的從業(yè)者率先在計(jì)算設(shè)備使用了液體浸入式冷卻技術(shù),對(duì)記錄數(shù)字貨幣交易的芯片進(jìn)行冷卻。
微軟研究了液體浸入式技術(shù)作為高性能應(yīng)用(如人工智能)冷卻解決方案時(shí)的表現(xiàn)。結(jié)果顯示,兩相浸入式冷卻可以將任何給定服務(wù)器的功耗減少5%到15%。
在這一結(jié)果的推動(dòng)下,微軟團(tuán)隊(duì)與數(shù)據(jù)中心 IT 系統(tǒng)制造商和設(shè)計(jì)商 Wiwynn 合作,開(kāi)發(fā)了兩相浸入式冷卻解決方案。首個(gè)解決方案現(xiàn)正運(yùn)行在微軟位于華盛頓州昆西市的數(shù)據(jù)中心中。
沙發(fā)型槽體中充滿了 3M 工程流體。3M 的液冷流體具有介電特性,使其成為有效的絕緣體。當(dāng)服務(wù)器完全浸沒(méi)在這類液體中時(shí),仍能正常運(yùn)行。
Azure 首席架構(gòu)師、微軟技術(shù)研究員兼副總裁 Marcus Fontoura 表示,這種向兩相液體浸入冷卻技術(shù)的轉(zhuǎn)變,為有效管理云資源提供了更大的靈活性。
舉例來(lái)說(shuō),管理云資源的軟件可將數(shù)據(jù)中心計(jì)算需求的突發(fā)峰值分配給液冷貯槽中的服務(wù)器。這是因?yàn)椋@些服務(wù)器可以在較高的功率下運(yùn)行且不會(huì)有過(guò)熱的風(fēng)險(xiǎn),這個(gè)過(guò)程也被稱為超頻。
Fontoura 指出:“打個(gè)比方,我們知道 Teams 的使用高峰是1點(diǎn)或2點(diǎn),通常情況下,人們會(huì)在這個(gè)時(shí)間段內(nèi)的同一時(shí)間加入會(huì)議,而浸入式冷卻為我們處理這些突發(fā)負(fù)載提供了更大的靈活性?!?/p>
沸騰的液體帶走了微軟數(shù)據(jù)中心計(jì)算機(jī)服務(wù)器所產(chǎn)生的熱量
微軟是第一個(gè)在生產(chǎn)環(huán)境中使用兩相浸入式冷卻技術(shù)的云服務(wù)提供商
可持續(xù)的數(shù)據(jù)中心
Fontoura 補(bǔ)充道,將兩相浸入式冷卻服務(wù)器加入到現(xiàn)有計(jì)算資源中,還能夠促使機(jī)器學(xué)習(xí)軟件在整個(gè)數(shù)據(jù)中心更高效地管理包括電力、冷卻以及技術(shù)維護(hù)人員在內(nèi)的資源。
他強(qiáng)調(diào):“我們不僅會(huì)大大提高效率,還會(huì)對(duì)可持續(xù)發(fā)展產(chǎn)生巨大影響。我們部署的每一件 IT 設(shè)備都將得到充分利用,不會(huì)產(chǎn)生任何浪費(fèi)?!?/p>
液體冷卻也是無(wú)水技術(shù),這將幫助微軟兌現(xiàn)承諾,即到2030年,微軟補(bǔ)充的水量將超過(guò)其全球運(yùn)營(yíng)的水消耗量。
Alissa 介紹道,穿過(guò)槽體的冷卻盤管可使蒸汽凝結(jié),并連接到一個(gè)單獨(dú)的封閉回路系統(tǒng),利用流體將熱量從槽內(nèi)傳遞到槽外的干冷卻器。由于這些盤管中的流體溫度總是高于周圍空氣溫度,因此無(wú)需通過(guò)噴水來(lái)調(diào)節(jié)空氣、進(jìn)行蒸發(fā)冷卻。
同時(shí),微軟也在與基礎(chǔ)設(shè)施行業(yè)的合作伙伴一同研究如何以一種既能減少流體流失、又對(duì)環(huán)境幾乎沒(méi)有影響的方式來(lái)運(yùn)行槽體。
Azure 首席軟件工程師 Ioannis Manousakis 說(shuō):“如果方法得當(dāng),兩相浸入式冷卻將同時(shí)滿足我們?cè)诔杀?、可靠性和性能方面的所有要求,且與空氣冷卻相比,能耗非常小?!?/p>
圖為微軟團(tuán)隊(duì)正在研究?jī)上嘟胧嚼鋮s技術(shù)。從左至右分別為:數(shù)據(jù)中心運(yùn)營(yíng)管理部門的 Dave Starkenburg,微軟數(shù)據(jù)中心高級(jí)開(kāi)發(fā)團(tuán)隊(duì)杰出工程師兼副總裁 Christian Belady,Azure 首席軟件工程師 Ioannis Manousakis 和微軟數(shù)據(jù)中心高級(jí)開(kāi)發(fā)團(tuán)隊(duì)首席硬件工程師 Husam Alissa
“我們讓服務(wù)器享受深海體驗(yàn)”
對(duì)兩相浸入式冷卻技術(shù)的研究,是微軟多管齊下戰(zhàn)略的一部分,旨在使數(shù)據(jù)中心的建設(shè)、運(yùn)營(yíng)和維護(hù)更加可持續(xù)化且高效。
例如,數(shù)據(jù)中心高級(jí)開(kāi)發(fā)團(tuán)隊(duì)也在探索使用氫燃料電池代替柴油發(fā)電機(jī),作為數(shù)據(jù)中心備用發(fā)電的可能性。
液冷項(xiàng)目與探索水下數(shù)據(jù)中心可能性的 Natick 項(xiàng)目類似,這種數(shù)據(jù)中心可以被快速部署,并且能夠被密封在類似水下管道內(nèi)的海床上運(yùn)行數(shù)年,無(wú)需進(jìn)行任何現(xiàn)場(chǎng)維護(hù)。
水下數(shù)據(jù)中心不再充滿工程流體,取而代之的是干燥的氮?dú)?。服?wù)器由風(fēng)扇和一個(gè)熱交換管道系統(tǒng)進(jìn)行冷卻,該系統(tǒng)通過(guò)密封管道將海水泵入。
Natick 項(xiàng)目中的一個(gè)重要發(fā)現(xiàn)表明,海底服務(wù)器的故障率是陸地?cái)?shù)據(jù)中心同樣服務(wù)器的八分之一。初步分析表明,低濕度和低氧氣腐蝕作用是水下服務(wù)器性能優(yōu)越的主要原因。
根據(jù) Alissa 的預(yù)計(jì),液體侵入式槽體內(nèi)的服務(wù)器將具備類似的優(yōu)越性能。他說(shuō):“我們讓服務(wù)器無(wú)需安置水下,即可擁有‘深海體驗(yàn)’?!?/p>
Ioannis Manousakis 是 Azure 首席軟件工程師,圖為他從微軟數(shù)據(jù)中心的兩相浸入式冷卻槽體中取出一個(gè)刀鋒服務(wù)器。(照片由 Gene Twedt 為微軟拍攝)
展望未來(lái)
如果浸入式槽體中服務(wù)器的故障率如預(yù)期降低,微軟將可以轉(zhuǎn)向一種無(wú)需在出現(xiàn)故障時(shí)立即更換組件的模式。這不僅能夠控制蒸汽損失,還能允許將槽體部署在偏遠(yuǎn)且難以維修的位置。
此外,Belady 指出,如果能夠把服務(wù)器密集地封裝在槽體內(nèi),就能重新構(gòu)想服務(wù)器的架構(gòu),并針對(duì)低延遲、高性能應(yīng)用和低維護(hù)操作進(jìn)行優(yōu)化。
例如,這種槽體可以部署在城市中心的 5G 蜂窩通信塔下,用于自動(dòng)汽車駕駛等應(yīng)用。
到目前為止,微軟在超大規(guī)模數(shù)據(jù)中心中只有一個(gè)運(yùn)行工作負(fù)載的槽體。在接下來(lái)的幾個(gè)月中,微軟團(tuán)隊(duì)將進(jìn)行一系列測(cè)試,以證明槽體和這項(xiàng)技術(shù)的可行性。
Belady 說(shuō):“第一步是讓人們接受這個(gè)概念,并證明我們可以運(yùn)行生產(chǎn)負(fù)載?!?/p>
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。