新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 市場(chǎng)分析 > 中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民:重視我國(guó)超算基礎(chǔ)軟件生態(tài)建設(shè)

中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民:重視我國(guó)超算基礎(chǔ)軟件生態(tài)建設(shè)

作者: 時(shí)間:2023-08-25 來(lái)源: 收藏

今日,在 2023CCF 全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(CCF HPC CHINA 2023)中,中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民做了題為《重視我國(guó)超算基礎(chǔ)軟件生態(tài)建設(shè)》的主題演講。

本文引用地址:http://butianyuan.cn/article/202308/449936.htm

會(huì)議伊始,鄭緯民教授提到了中國(guó)超算的情況:國(guó)產(chǎn)超算處于國(guó)際第一梯隊(duì)!國(guó)產(chǎn)超算是中國(guó)的一張名片!國(guó)產(chǎn)超算是信創(chuàng)的典范!

中國(guó)超算為何能躋身國(guó)際前列呢?首先,中國(guó)能做最快的計(jì)算機(jī)。過(guò)去十年,中國(guó)在頂尖超算系統(tǒng)研制處于國(guó)際領(lǐng)先行列,下圖為中國(guó)超級(jí)計(jì)算系統(tǒng)部署情況。

其次,TOP 500 的機(jī)器里,中國(guó)占有量基本是第一。比如 2022 年,500 臺(tái)里中國(guó)有 162 臺(tái),占比 32.4%,位居世界第一。

第三,中國(guó)超算的應(yīng)用也取得了很好的成果。以入圍 ACM Gordon Bell Prize 為例:2014 年中國(guó)超算就已經(jīng)應(yīng)用在地震模擬當(dāng)中,2016 年應(yīng)用在大氣動(dòng)力框架、相場(chǎng)模擬、海浪模擬,2017 年應(yīng)用在地震模擬和大氣模擬,2018 年應(yīng)用在圖計(jì)算框架,2021 年應(yīng)用在量子模擬、人造太陽(yáng)和第一性原理等領(lǐng)域。

此外,中國(guó)超算還多次獲得了國(guó)際超算最高獎(jiǎng) ACM Gorden Bell 獎(jiǎng)。2016 年 ACM 戈登貝爾獎(jiǎng)千萬(wàn)核可擴(kuò)展全球大氣動(dòng)力學(xué)全隱式模擬。2017 年 ACM 戈登貝爾獎(jiǎng)非線性大地震模擬。2021 年 ACM 戈登貝爾獎(jiǎng)基于最優(yōu)收縮路徑的通用量子模擬器。

可見(jiàn),中國(guó)超算已經(jīng)取得了不錯(cuò)的成績(jī),不過(guò)鄭緯民教授提出,中國(guó)超算在軟件生態(tài)建設(shè)上還存在幾點(diǎn)問(wèn)題。

問(wèn)題一:將領(lǐng)先算力高效轉(zhuǎn)化為解決科學(xué)與工程難題能力依然存在重大挑戰(zhàn)

將世界領(lǐng)先的計(jì)算能力高效轉(zhuǎn)化為解決尖端科學(xué)與工程難題的能力是世界范圍難題,且隨著異構(gòu)架構(gòu)路線的發(fā)展更加劇了該問(wèn)題的鴻溝。關(guān)于應(yīng)對(duì)方案,鄭緯民教授表示,超算基礎(chǔ)軟件是提升轉(zhuǎn)化能力的關(guān)鍵之一。

超算基礎(chǔ)軟件是實(shí)現(xiàn)并行應(yīng)用開(kāi)發(fā)、優(yōu)化、部署、運(yùn)行高效的基礎(chǔ)和關(guān)鍵。國(guó)產(chǎn)超算系統(tǒng)已經(jīng)部署部分基礎(chǔ)軟件,仍有亟待解決的問(wèn)題。

問(wèn)二:架構(gòu)多樣,應(yīng)用移植和調(diào)優(yōu)工作量大

目前的情況是:不同選擇各異架構(gòu)實(shí)現(xiàn)算力跨域發(fā)展,加劇了應(yīng)用在移植和優(yōu)化上面臨的困難;不同系統(tǒng)需要單獨(dú)編程與優(yōu)化;相同的應(yīng)用需要在不同平臺(tái)單獨(dú)編程和優(yōu)化;編程復(fù)雜度高;異構(gòu)架構(gòu)在負(fù)載均衡、同步上需特殊考慮;不同編程語(yǔ)言和接口;程序很難簡(jiǎn)單移植。此外,國(guó)產(chǎn)超算平臺(tái)的移植成本高昂。

對(duì)此,鄭緯民教授提出了針對(duì)這一問(wèn)題的建議:加強(qiáng)跨平臺(tái)編譯優(yōu)化平臺(tái)的研究和建設(shè)、統(tǒng)一并行編程模型和編譯優(yōu)化平臺(tái)。一次編程,跨平臺(tái)高效運(yùn)行。

問(wèn)題三:國(guó)產(chǎn)超算平臺(tái)支持復(fù)雜應(yīng)用全流程計(jì)算的能力亟須改善

鄭緯民教授提到大計(jì)算往往與大數(shù)據(jù)相伴,不過(guò)國(guó)產(chǎn)超算平臺(tái)軟件支持并不完備,無(wú)法實(shí)現(xiàn)全流程大數(shù)據(jù)處理與人工智能應(yīng)用的快速移植和部署。此外 I/O 能力也存在不足——比如在由國(guó)家并行計(jì)算機(jī)工程技術(shù)研究中心研制的超級(jí)計(jì)算機(jī)神威·太湖之光上,分鐘級(jí)計(jì)算完成,卻需要 40 分鐘預(yù)處理和載入數(shù)據(jù)。鄭緯民教授的建議是加強(qiáng)國(guó)產(chǎn)超算 HPDA 系統(tǒng)軟件的建設(shè)。

問(wèn)題四:跨超算中心協(xié)同研發(fā)和部署戰(zhàn)略應(yīng)用的能力亟需提升——算力網(wǎng)絡(luò)

針對(duì)這一問(wèn)題,鄭緯民教授提到要建立跨超算中心協(xié)同的戰(zhàn)略應(yīng)用快速研發(fā)支持。高性能專(zhuān)項(xiàng)已支持「國(guó)家高性能計(jì)算環(huán)境領(lǐng)域應(yīng)用平臺(tái)及服務(wù)體系研究與構(gòu)建」等項(xiàng)目設(shè)計(jì)和實(shí)施跨中心協(xié)同開(kāi)展領(lǐng)域應(yīng)用的方案。

建立起更廣泛安全的計(jì)算與數(shù)據(jù)互連,開(kāi)展相關(guān)基礎(chǔ)軟件創(chuàng)新,超級(jí)計(jì)算創(chuàng)新聯(lián)盟也許可以發(fā)揮更大作用。那如何實(shí)現(xiàn)這一艱巨任務(wù)呢?鄭緯民教授認(rèn)為在這之前要先解決兩件事情,第一點(diǎn)就是算力互聯(lián)。算力互聯(lián)要求帶寬高、延遲低。

第二個(gè)要解決的是網(wǎng)絡(luò)傳輸問(wèn)題。以氣象領(lǐng)域?yàn)槔?,氣象領(lǐng)域每分鐘可產(chǎn)生 90GB 數(shù)據(jù),一天 124TB 的數(shù)據(jù),如何將這些數(shù)據(jù)傳輸?shù)匠阒行???jī)煞N解決方案:高速網(wǎng)絡(luò)連接和隨身攜帶。

高性能網(wǎng)絡(luò)的優(yōu)點(diǎn)是體驗(yàn)好,足不出戶(hù)就可以完成數(shù)據(jù)傳輸業(yè)務(wù);缺點(diǎn)是包年租用價(jià)格太貴,100Gbps 專(zhuān)線列表價(jià) 266 萬(wàn)-322 萬(wàn)/年(含 IP)。隨身攜帶的優(yōu)勢(shì)是按需傳送,在可攜帶范圍內(nèi)吞吐量相對(duì)較高;缺點(diǎn)是體驗(yàn)差,需要人員攜帶存儲(chǔ)設(shè)備乘坐交通工具送達(dá),存在多次拷貝的問(wèn)題。

不過(guò)太湖之光數(shù)據(jù)快遞業(yè)務(wù)試點(diǎn)技術(shù)方案(端到端彈性網(wǎng)絡(luò))已經(jīng)可以帶來(lái)不錯(cuò)的體驗(yàn)。通過(guò)測(cè)算,采用 3 條 PON 彈性云專(zhuān)線聚合和云互連傳輸 4T 數(shù)據(jù)需 3.03 小時(shí),初步測(cè)算單次傳輸價(jià)格低于 1000 元,比現(xiàn)有云專(zhuān)網(wǎng)包月、云專(zhuān)網(wǎng)彈性均具備價(jià)格優(yōu)勢(shì),而且提供更好的體驗(yàn)。

最后,鄭緯民教授表示中國(guó)超算已經(jīng)做出了很大的成績(jī),未來(lái)再把生態(tài)做好,中國(guó)超算也一定會(huì)有更好的發(fā)展!



評(píng)論


技術(shù)專(zhuān)區(qū)

關(guān)閉