中國(guó)超算即將達(dá)到量子性能
在2021年全球超級(jí)計(jì)算大會(huì)(SC21)上,一支來(lái)自中國(guó)的團(tuán)隊(duì)摘得赫赫有名的戈登貝爾獎(jiǎng),該獎(jiǎng)相當(dāng)于超算領(lǐng)域的諾貝爾獎(jiǎng)。該團(tuán)隊(duì)的論文“Closing the Quantum Supremacy Gap: Achieving Real-Time Simulation of a Random Circuit Using a New Sunway Supercomputer”(縮小量子霸權(quán)差距:利用全新神威超級(jí)計(jì)算機(jī)實(shí)現(xiàn)隨機(jī)電路的實(shí)時(shí)仿真)描述了他們?nèi)绾问褂眯滦统?jí)計(jì)算機(jī)來(lái)仿真隨機(jī)量子電路。
事實(shí)上,谷歌對(duì)其2019年研發(fā)出的懸鈴木(Sycamore)量子計(jì)算機(jī)自稱(chēng)“量子霸權(quán)”,當(dāng)時(shí)頗受爭(zhēng)議,而此次中國(guó)團(tuán)隊(duì)采用的即為同一測(cè)試基準(zhǔn)。谷歌曾聲稱(chēng),懸鈴木量子計(jì)算機(jī)在200秒內(nèi)能完成的計(jì)算任務(wù),像頂點(diǎn)(Summit)這樣的經(jīng)典超級(jí)計(jì)算機(jī)需要一萬(wàn)年才能完成。這一說(shuō)法當(dāng)時(shí)就遭到IBM的批駁,認(rèn)為真實(shí)數(shù)字可能只是2.5天。而最新的中國(guó)超級(jí)計(jì)算機(jī)結(jié)合了中國(guó)團(tuán)隊(duì)的算法研究,在304秒內(nèi)就能完成相同的計(jì)算任務(wù)。看起來(lái)量子計(jì)算機(jī)似乎仍然比經(jīng)典超級(jí)計(jì)算機(jī)稍勝一籌,但差距無(wú)疑在縮小。
據(jù)該論文描述,基于神威的超級(jí)計(jì)算機(jī)具有1.2ExaFLOPS的單精度性能。雖然這并沒(méi)有從官方上證實(shí)中國(guó)所具備的Exascale性能的傳聞(1.2ExaFLOPS為單精度,而“Exascale”這個(gè)術(shù)語(yǔ)則需要1ExaFLOPS的雙精度性能),但這款新型超級(jí)計(jì)算機(jī)似乎確實(shí)是世界上最強(qiáng)大的超級(jí)計(jì)算機(jī)之一。盡管它尚未命名,但可以確定,這項(xiàng)研究采用了4190萬(wàn)個(gè)神威RISC處理器內(nèi)核進(jìn)行計(jì)算。
超算500強(qiáng)出爐人們都對(duì)世界上首個(gè)Exascale系統(tǒng)翹首以待,但全球超算排行榜500強(qiáng)HPC基準(zhǔn)測(cè)試結(jié)果顯示,前十名幾乎沒(méi)有變化。中國(guó)并沒(méi)有為其基于神威的新型超算系統(tǒng)報(bào)名參加評(píng)選,而2021年末上線的美國(guó)1.5ExaFLOPS系統(tǒng)Frontier(前沿)似乎也還沒(méi)有準(zhǔn)備好(圖1)。
在中國(guó)新型超算和美國(guó)Frontier缺席的情況下,500強(qiáng)榜首仍然是衛(wèi)冕冠軍富岳(Fugaku),這個(gè)記錄自2020年6月以來(lái)就一直保持著。這臺(tái)日本超級(jí)計(jì)算機(jī)的HPL(高性能Linpack)基準(zhǔn)分?jǐn)?shù)為442PFLOPS,是排名第二的超級(jí)計(jì)算機(jī)Summit性能的三倍。
圖1:1.5ExaFLOPS的Frontier將成為美國(guó)第一個(gè)Exascale超算系統(tǒng)。(圖片來(lái)源:美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室)
事實(shí)上,前十名幾乎沒(méi)有變化,唯一的新晉者是排在第十位的微軟Azure超級(jí)計(jì)算機(jī)Voyager-EUS2。該系統(tǒng)基于AMD Epyc Rome CPU和英偉達(dá)A100 GPU。
本輪值得注意的新晉者還包括四個(gè)俄羅斯的超算系統(tǒng),排名位于19至43名之間。
總體而言,本輪競(jìng)賽中,中國(guó)進(jìn)入500強(qiáng)的系統(tǒng)從186個(gè)下降到173個(gè),而美國(guó)從123個(gè)增加到150個(gè)。
MLPerf HPC得分大會(huì)還公布了AI基準(zhǔn)測(cè)試套件MLPerf HPC的測(cè)試結(jié)果。這種基準(zhǔn)測(cè)試專(zhuān)門(mén)用來(lái)衡量AI性能——AI在科學(xué)工作中的占比正變得越來(lái)越大。與上一輪提交相比,最佳基準(zhǔn)測(cè)試結(jié)果提高了4至7倍,這表明,新一代超算無(wú)論是硬件、軟件還是系統(tǒng)規(guī)模都有大幅的提升。
除了日本富岳由其基于Arm的CPU提供支持,沒(méi)有使用加速器之外,其他所有提交都由英偉達(dá)的GPU加速器提供支持,具體包括P100、V100和A100。
英偉達(dá)還是CosmoFlow和DeepCAM基準(zhǔn)測(cè)試中的贏家。CosmoFlow被用于根據(jù)宇宙學(xué)圖像數(shù)據(jù)進(jìn)行物理量的估計(jì)。最佳CosmoFlow測(cè)試結(jié)果為,采用1024個(gè)英偉達(dá)A100-SXM4-80GB GPU能夠在8.04分鐘內(nèi)完成訓(xùn)練,而富岳則是用512個(gè)CPU在114.35分鐘內(nèi)對(duì)其進(jìn)行管理。
DeepCAM被用于在氣候仿真數(shù)據(jù)中識(shí)別颶風(fēng)和大氣流。在此,英偉達(dá)仍居魁首,這次使用了相同的GPU但數(shù)量翻倍,時(shí)間為1.67分鐘。
美國(guó)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室則跑贏了新的OpenCatalyst基準(zhǔn)測(cè)試,他們采用了512個(gè)40GB版本相同的英偉達(dá)GPU,訓(xùn)練時(shí)間為111.86分鐘。OpenCatalyst主要用于根據(jù)圖的連通性預(yù)測(cè)分子構(gòu)型的能量。提交人表示,將圖形網(wǎng)絡(luò)包含進(jìn)來(lái)非常重要,因?yàn)樗从沉瞬牧峡茖W(xué)和化學(xué)工作負(fù)載的最新技術(shù)水平。其計(jì)算特性不同于其他類(lèi)型的神經(jīng)網(wǎng)絡(luò),因?yàn)樗鼈兺哂邢∈栊?,而且不同的?shù)據(jù)集會(huì)導(dǎo)致網(wǎng)絡(luò)具有不同的結(jié)構(gòu)和連接性,這會(huì)導(dǎo)致負(fù)載的不均衡,從而使負(fù)載難以有效地并行。
另外,測(cè)試中還引入了新的性能指標(biāo)——弱縮放模式意味著系統(tǒng)能夠同時(shí)訓(xùn)練同一模型的多個(gè)實(shí)例。其目標(biāo)是要捕獲對(duì)共享資源(如存儲(chǔ)系統(tǒng)和互連)的影響。
多裸片GPU就在本屆SC21大會(huì)之前,部分半導(dǎo)體公司發(fā)布了一些重要公告。
大會(huì)前不久,AMD推出了首款多裸片GPU。AMD Instinct MI200將包含兩個(gè)GPU裸片,它們之間通過(guò)一種新的2.5D硅橋技術(shù)(高架扇出橋,EFB)連接。該公司表示,與嵌入式硅橋架構(gòu)競(jìng)爭(zhēng)技術(shù)不同,這項(xiàng)技術(shù)支持標(biāo)準(zhǔn)的襯底和組裝技術(shù)。
MI200將是第一款基于AMD第二代CDNA2架構(gòu)的GPU,該架構(gòu)針對(duì)計(jì)算密集型HPC和AI工作負(fù)載進(jìn)行了優(yōu)化。與去年的第一代產(chǎn)品MI100相比,這款新器件尺寸大1.8 倍,擁有220個(gè)計(jì)算單元和880個(gè)矩陣內(nèi)核。MI200還將擁有多達(dá)8個(gè)HBM2e內(nèi)存堆棧,從而成為第一款具有128GB HBM2e內(nèi)存的GPU。其內(nèi)存容量是MI100的4.7倍,內(nèi)存帶寬是MI100的2.7倍。其FP64向量運(yùn)算峰值性能為 47.9 TFLOPS,F(xiàn)P64矩陣數(shù)學(xué)峰值性能為95.7 TFLOPS。
據(jù)透露,美國(guó)首個(gè)Exascale超級(jí)計(jì)算機(jī)Frontier就將采用AMD Instinct MI200 GPU。
“當(dāng)我們?nèi)ハ胛覀冞@一代人所面臨的最重要的挑戰(zhàn),例如能源轉(zhuǎn)型、氣候變化以及克服我們目前所面臨的新冠疫情等問(wèn)題時(shí),F(xiàn)rontier將使我們能夠利用由AMD處理器所驅(qū)動(dòng)并提供支持的機(jī)器的能力來(lái)應(yīng)對(duì)這些重要挑戰(zhàn)?!泵绹?guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室(Frontier的所在地)的實(shí)驗(yàn)室主任Thomas Zacharia表示,“這使得MI200成為目前科學(xué)家們可利用的最強(qiáng)大的處理器。其單個(gè)GPU的性能就比目前美國(guó)最快超級(jí)計(jì)算機(jī)頂點(diǎn)的整個(gè)節(jié)點(diǎn)還要強(qiáng)大?!?/span>
Zacharia表示,F(xiàn)rontier將很快上線,并于明年年初提供給科學(xué)家。
仿真地球英偉達(dá)首席執(zhí)行官黃仁勛在英偉達(dá)GTC大會(huì)開(kāi)幕主題演講中透露,該公司將建造一臺(tái)新的超級(jí)計(jì)算機(jī) Earth 2,它將成為地球的數(shù)字孿生,主要用來(lái)仿真和預(yù)測(cè)氣候的變化(圖3)。黃仁勛還透露,Earth 2 將全部由英偉達(dá)出資開(kāi)發(fā),其規(guī)模將與英偉達(dá)內(nèi)部的Selene超級(jí)計(jì)算機(jī)和用于醫(yī)學(xué)研究的Cambridge-1 UK設(shè)備大致相同。他補(bǔ)充說(shuō),Earth 2的架構(gòu)將使其成為“有史以來(lái)最節(jié)能的超級(jí)計(jì)算機(jī)”,不過(guò),這臺(tái)超算具體位于何處還待定。
來(lái)源:EDN電子技術(shù)設(shè)計(jì)
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。