1.5 Exaflops!中國新一代超算細節(jié)曝光!
9月16日消息,據(jù)外媒The next platform報道,美國計算機協(xié)會(Associationfor Computing Machinery; ACM)近期公布了戈登·貝爾獎(被譽為“超級計算應(yīng)用領(lǐng)域的諾貝爾獎”)的入圍名單,基于中國1.5 EXAFLOPS(百億億次)超級計算機的一篇研究論文再次入圍,該獎項將在今年11月在美國丹佛舉行的SC23超級計算大會上頒發(fā)。
中國超級計算機再度入圍
ACM表示,雖然最終的系統(tǒng)規(guī)模以及模擬和模型運行的結(jié)果尚未完成,但基于新一代的 1.5 exaflops中國神威超級計算機(oceanlite,太湖之光升級版)完成的一篇題為《渦輪機械流動的精確計算》論文(將在11月SC23會議之前正式發(fā)布)已經(jīng)入圍。
早在2021年11月,中國的超級計算機就曾以4190萬個核心的量子模擬而獲得了戈登貝爾獎。當時阿里巴巴集團、清華大學(xué)、DAMO學(xué)院,浙江實驗室和北京人工智能研究院在Oceanlite機器中運行了一個名為“八卦路”的預(yù)訓(xùn)練機器學(xué)習(xí)模型,該模型涉及3700多萬個核心和14.5萬億個參數(shù)。
此次《渦輪機械流動的精確計算》論文,則是由Weiqi Shen, Jiahuan Cui, Yao Zheng等(共 19 位作者),來自浙江大學(xué)、清華大學(xué)、國家超級計算無錫中心、劍橋大學(xué)、佛羅里達大學(xué)團隊共同完成。該團隊開發(fā)了一種新的大渦流模擬代碼,用于解決渦輪機械中的可壓縮流。他們將該代碼應(yīng)用于美國國家航空航天局(NASA)的重大挑戰(zhàn)問題,使用高階非結(jié)構(gòu)化求解器求解高壓渦輪級聯(lián)的 16.9 億個網(wǎng)格元素和 8650 億個自由度。
根據(jù)該論文的作者顯示,Oceanlite系統(tǒng)擁有超過100000個由中國國家并行計算機工程與技術(shù)研究中心(NRCPC)設(shè)計的定制SW26010 Pro處理器。
據(jù)2022年4月中國科學(xué)技術(shù)大學(xué)、國家海洋科學(xué)與技術(shù)試點實驗室(青島)、北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院、無錫國家超級計算中心和中國海洋大學(xué)組成的聯(lián)合團隊,公布了一篇超級計算機模擬復(fù)雜量子多體的文章介紹,SW26010 pro是sw26010改進型,擁有6個核心模塊,每個模塊有1個管理Linux線程的核心(MPE)和64個計算核心。而組成太湖之光的SW26010處理器,只有4個核心模塊,說明SW26010 pro單片應(yīng)該有50%的性能提升。
The next platform的報道稱,SW26010 Pro處理器的64個(8×8)計算核心網(wǎng)絡(luò)是一個具有256KB L2高速緩存的計算處理單元(CPE)。每個CPE有四個邏輯塊,可以在一對上支持FP64和FP32,在另一對上則可以支持FP16和BF16。
SW26010 Pro中的每個核心模塊上都有一個DDR4內(nèi)存控制器和16 GB內(nèi)存,內(nèi)存帶寬為51.4 GB/秒,因此整個處理器有96 GB主內(nèi)存和307.2 GB/s帶寬。六個CPE通過環(huán)形互連連接,并有兩個網(wǎng)絡(luò)接口,使用專有互連將它們連接到外部。SW26010 Pro芯片的FP64或FP32精度為14.03 PB,BF16或FP16精度為55.3 PB。
The next platform稱,Oceanlite最大的配置有107520個節(jié)點,共有4193萬個核心,分布在105個機柜中。剛剛曝光的論文也證實了該超級計算機的理論峰值性能為1.5 exaflops,MPE內(nèi)核運行在2.1 GHz,CPW內(nèi)核運行在2.25 GHz。
如果將該超級計算機規(guī)模擴大到120個機柜,在FP64 pervision下的峰值將達到1.72 Exaflops,這將超過美國橡樹嶺國家實驗室的1.68 Exaflops的“Frontier”超級計算機。在160個機柜的條件下,在FP64的峰值性能將接近2.3 Exaflops,將有望擊敗已經(jīng)安裝完成的美國能源部阿貢國家實驗室的基于英特爾CPU及GPU的新一代超級計算機“Aurora”,以及正在建設(shè)的美國勞倫斯·利弗莫爾國家實驗室基于AMD MI300芯片的“El Capitan”超級計算機,后兩者的FP64性能都將達到 2 Exaflops以上。
不過,最新的戈登·貝爾獎參賽論文《渦輪機械流動的精確計算》顯示,其對于噴氣發(fā)動機模擬在大約58333個節(jié)點上運行,這些節(jié)點代表了超過350000個MPE核心和超過2240萬個CPE核心。這是以上預(yù)測的Oceanlite最大配置的一半多一點。
其他入圍者介紹
1、量子精度的大規(guī)模材料建模:金屬合金中的準晶體和相互作用擴展缺陷的 Ab Initio 模擬
Sambit Das、Bikash Kanungo、Vishal Subramanian 等人(共八位作者),組成的團隊成員包括密歇根大學(xué)、印度科學(xué)研究所和美國橡樹嶺國家實驗室
密歇根大學(xué)和印度科學(xué)研究所的團隊與美國橡樹嶺國家實驗室合作,開發(fā)了一種混合機器學(xué)習(xí)和HPC模擬方法,將密度函數(shù)理論(DFT)和量子多體(QMB)問題結(jié)合起來,進行量子粒子模擬。這項工作實現(xiàn)了高精度計算,并通過將 QMB 方法與 DFT 相結(jié)合的逆-DFT 實現(xiàn)了大規(guī)模建模。他們實現(xiàn)了地面階段的能量計算,同時保持了與 QMB 相稱的精度,最終的軟件能夠利用到Frontier超級計算機系統(tǒng)的60%計算資源。但不要認為這意味著這個量子模擬可以持續(xù)以 1 EB的速度運行。當涉及到這個特定的應(yīng)用程序時,它可能會更像650 PB的浮點運算,而且可能會少得多,這取決于Frontier的計算和網(wǎng)絡(luò)效率。
2、用于先進設(shè)計的百億億次級多物理場核反應(yīng)堆模擬
Elia Merzaria、Steven Hamilton、Thomas Evans 等人(共 12 位作者)由來自美國賓夕法尼亞州立大學(xué)、橡樹嶺國家實驗室、阿貢國家實驗室和伊利諾伊大學(xué)厄巴納香檳分校的團隊組成
該研究團隊模擬了一個先進的核反應(yīng)堆系統(tǒng),將輻射傳輸與熱和流體模擬耦合在一起,包括高保真、高分辨率蒙特卡羅代碼 Shift 和計算流體動力學(xué)代碼 NekRS。Nek5000/RS在ORNL的Frontier系統(tǒng)上實現(xiàn),實現(xiàn)了10億個譜元和3500億個自由度,而Shift則在8192個系統(tǒng)節(jié)點上實現(xiàn)了非常高的弱縮放。結(jié)果,他們計算了 214,896 個燃料棒區(qū)域中的 6 個反應(yīng),統(tǒng)計誤差低于 1%,為蒙特卡羅運輸應(yīng)用提供了首個解決方案。
ACM報告稱,該研究是在Frontier系統(tǒng)的8192個節(jié)點上運行(該超算總的有9402個節(jié)點),每個節(jié)點有一個“Trento”自定義AMD Epyc CPU,每個節(jié)點擁有四個“Aldebaran”Instinct MI250X GPU加速器,總計37608個GPU。
3、通過前所未有的譜元模擬探索湍流瑞利-貝納德對流的最終狀態(tài)
Niclas Jansson、Martin Karp、Adalberto Perez 等人(總共 12 位作者),其中包括來自 KTH 皇家理工學(xué)院、弗里德里希·亞歷山大大學(xué)、馬克斯·普朗克計算和數(shù)據(jù)設(shè)施以及伊爾梅瑙工業(yè)大學(xué)的團隊
該團隊開發(fā)了高保真光譜元素代碼 Neko,這對于對完全發(fā)展的湍流進行前所未有的大規(guī)模直接數(shù)值模擬至關(guān)重要,同時保持 GPU 加速平臺上的高性能可移植性。他們應(yīng)用了 GPU 優(yōu)化的預(yù)處理器,其任務(wù)重疊用于壓力泊松方程和原位數(shù)據(jù)壓縮。他們還通過復(fù)雜的工作流程控制,在配備多達 16,384 個GPU的 芬蘭的“LUMI”超級計算機和意大利的“Leonardo”超級計算機上進行了大規(guī)模瑞利-貝納德對流的初始運行。
4、在 Cerebras CS-2 系統(tǒng)上使用代數(shù)壓縮擴展多維地震處理的“記憶墻”
Hatem Ltaief、Yuxi Hong、Leighton Wilson 等人(總共六位作者)是阿卜杜拉國王科技大學(xué)和 Cerebras Systems Inc. 團隊
研究人員利用針對人工智能 (AI) 定制的目前為止這是世界上最大的AI芯片Cerebras CS-2 系統(tǒng)的高內(nèi)存帶寬進行地震數(shù)據(jù)處理,通過利用低秩矩陣近似來擬合 SRAM(靜態(tài)隨機存取存儲器)晶圓級硬件上的問題,以及使用許多依賴于多維卷積算子的基于波動方程的算法。因此,該團隊將標準地震基準數(shù)據(jù)集實施到 Cerebras 處理元件的小型本地存儲器中,將最壞情況下的負載平衡整個應(yīng)用程序執(zhí)行推斷到 35,784,000 個處理元件上的 48 個 CS-2 系統(tǒng)。這是在人工智能定制架構(gòu)上運行的應(yīng)用程序的一個重要示例,可以支持新一代地震算法。
5、將深度等變模型的領(lǐng)先精度擴展到真實尺寸的生物分子模擬
哈佛大學(xué)約翰·A·保爾森工程與應(yīng)用科學(xué)學(xué)院團隊成員 Albert Musaelian、Anders Johansson、Simon Batzner 和 Boris Kozinsky
該研究團隊開發(fā)了 Allegro 架構(gòu),以彌合原子模擬的精度與速度之間的權(quán)衡,并能夠以量子保真度描述前所未有的復(fù)雜結(jié)構(gòu)中的動力學(xué)。這是通過創(chuàng)新模型架構(gòu)、大規(guī)模并行化和針對高效 GPU 使用而優(yōu)化的模型實現(xiàn)相結(jié)合來實現(xiàn)的。Allegro 的可擴展性通過在美國勞倫斯伯克利國家能源研究科學(xué)計算中心的 “Perlmutter” 系統(tǒng)上對蛋白質(zhì)動力學(xué)進行長達納秒的穩(wěn)定模擬,模擬了HIV病毒衣殼的原子結(jié)構(gòu),高達4400萬個原子結(jié)構(gòu),模擬時間為幾納秒。他們實現(xiàn)了高達 1 億個原子的強大擴展。
首個戈登·貝爾氣候建模獎
值得一提的是,ACM還將頒發(fā)其首個戈登·貝爾氣候建模獎。
由美國桑迪亞國家實驗室開發(fā)和擴展的能源Exascale地球系統(tǒng)模型的SCREAM變體入圍了該獎項。有趣的是,SCREAM的部分代碼是從頭開始的,使用C 和Kokkos庫將代碼打包到系統(tǒng)中的CPU和GPU,在這種情況下,它在美國橡樹嶺實驗室的“Frontier”超級計算機上運行,每天模擬1.26年進行實際的云解析模擬。
中國Oceanlite系統(tǒng)也入圍了該決賽,這一系統(tǒng)模擬了2021年末和2022年初湯加近海水下火山噴發(fā)的影響,包括沖擊波、地震、海嘯以及水和火山灰的擴散。模擬和模型的結(jié)合能夠模擬400億粒子,并以80%的計算效率在Oceanlite系統(tǒng)中運行3900萬個核心。
第三位入圍戈登·貝爾氣候建模決賽的是日本的一組研究人員,他們在理研實驗室的“Fugaku”超級計算機中獲得了11580個節(jié)點,約占該機器總節(jié)點的7%,并為2021年東京奧運會制作了一個1000集合、500米分辨率、30秒刷新的天氣模型。這是一個真實的用例,在30天內(nèi)發(fā)布了超過75248個天氣預(yù)報,每個30分鐘的預(yù)報都在不到三分鐘的時間內(nèi)完成。
編輯:芯智訊-浪客劍
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。