中國HPC,潛力無限
高性能計(jì)算(High performance computing),是一種利用超級(jí)計(jì)算機(jī)或計(jì)算機(jī)集群的能力實(shí)現(xiàn)并行計(jì)算,以處理標(biāo)準(zhǔn)工作站無法完成的數(shù)據(jù)密集型計(jì)算任務(wù)的技術(shù),常見的應(yīng)用領(lǐng)域有仿真模擬、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等。
本文引用地址:http://butianyuan.cn/article/202308/450000.htm或許有人沒有聽過 HPC,但是一定聽過超級(jí)計(jì)算機(jī),它就是 HPC 的主要實(shí)現(xiàn)方式之一。數(shù)據(jù)顯示,高性能計(jì)算系統(tǒng)的運(yùn)行速度比商用臺(tái)式機(jī)或服務(wù)器系統(tǒng)快一百萬倍以上。原因在于高性能計(jì)算能夠讓整個(gè)計(jì)算機(jī)集群為同一個(gè)任務(wù)工作,以更快的速度來解決一個(gè)復(fù)雜問題。
HPC 提供了超高浮點(diǎn)計(jì)算能力解決方案,可用于解決計(jì)算密集型、海量數(shù)據(jù)處理等業(yè)務(wù)的計(jì)算需求,如科學(xué)研究、氣象預(yù)報(bào)、計(jì)算模擬、軍事研究、CAD/CAE、生物制藥、基因測(cè)序、圖像處理等,大量縮短計(jì)算時(shí)間,提高計(jì)算精度。
此前,HPC 由于其專業(yè)度極高的特點(diǎn)被局限在科研實(shí)驗(yàn)室、大型企業(yè)和特定的學(xué)術(shù)組織研究中。不過隨著近兩年 AI 技術(shù)與 IoT 應(yīng)用之間的互相驅(qū)動(dòng),數(shù)據(jù)量和計(jì)算需求暴漲,5G 將數(shù)據(jù)傳輸管道大大拓寬之后,同樣給了數(shù)據(jù)囤積量進(jìn)一步拓展的空間,HPC 也逐漸變得日益重要。
目前,國產(chǎn)高性能計(jì)算機(jī)已經(jīng)取得了不錯(cuò)的成績。
中國高性能計(jì)算機(jī)成績斐然
2023 年 6 月,最新一期超級(jí)計(jì)算機(jī) TOP500 榜單公布,從 TOP500 榜單中就可以讀出中國在頂尖超級(jí)計(jì)算機(jī)研發(fā)上的努力已經(jīng)凸顯出來。
在 61 期全球超級(jí)計(jì)算機(jī) TOP500 榜單中排名第一的是美國的 Frontier、第二名為日本的 Fugaku、 第三名芬蘭的 LUMI、第四名意大利 Leonardo、第五名美國 Summit、第六名美國 Sierra、第七名中國神威·太湖之光、第八名美國 Perlmutter、第九名美國 Selene、第十名 TH—2 天河二號(hào)。
歷年來,中國高性能計(jì)算機(jī)屢屢登榜 TOP500。神威·太湖之光超級(jí)計(jì)算機(jī)甚至曾連續(xù)獲得 top500 四屆冠軍,該系統(tǒng)全部使用中國自主知識(shí)產(chǎn)權(quán)的處理器芯片。天河二號(hào)也曾 6 次蟬聯(lián)冠軍,天河二號(hào)采用麒麟操作系統(tǒng),目前使用英特爾處理器,將來計(jì)劃用國產(chǎn)處理器替換。
不只是排名領(lǐng)先,在上榜數(shù)量上,中國的高性能計(jì)算機(jī)也有實(shí)力「扛大梁」。
根據(jù) 2023 年 6 月公布的最新 TOP500 榜單,美國為超級(jí)計(jì)算機(jī)上榜數(shù)量最多的國家,共上榜 150 套,占比 30%; 中國以 134 套上榜數(shù)量緊隨其后,占比 26.8%; 除中美兩國之外,德國、日本、法國、英國、加拿大均有 10 套及以上進(jìn)入 TOP500 榜單的超級(jí)計(jì)算機(jī)系統(tǒng)。
中國初步形成的高性能計(jì)算產(chǎn)業(yè)鏈由上、中、下游構(gòu)成,以上所述企業(yè)均為中游企業(yè),他們的角色是負(fù)責(zé)對(duì)上游的資源進(jìn)行整合,提供強(qiáng)大的超算資源。
看到此處想必已有不少人開始疑惑,中國 CPU 的發(fā)展之路道阻且長,那么中國高性能計(jì)算機(jī)又是如何取得今日這番成績的呢?其上下游的發(fā)展現(xiàn)狀又如何了?
在這之前首先要了解的是,高性能計(jì)算機(jī)的發(fā)展歷程。
高性能計(jì)算機(jī)的發(fā)展歷程
1975 年,中國開始研制第一臺(tái)超級(jí)計(jì)算機(jī)。1983 年,「銀河 1 號(hào)」面世,之后又研制出曙光系列超算。2009 年,「天河 1 號(hào)」超算誕生,這是我國第 1 臺(tái)千萬億次級(jí)超算。2010 年,經(jīng)過升級(jí)之后的「天河 1 號(hào)」位居全球計(jì)算機(jī) 500 強(qiáng)第一位。2013 年,「天河 2 號(hào)」再次名列超級(jí)計(jì)算機(jī) 500 強(qiáng)排行榜世界第一,并蟬聯(lián)多年。
值得注意的是,當(dāng)時(shí)中國所有的超級(jí)計(jì)算機(jī)都采用了英特爾的芯片,中國多次在全球超級(jí)計(jì)算機(jī) TOP 500 強(qiáng)榜單中奪冠的天河二號(hào)使用的就是英特爾的 Xeon 眾核處理器+Xeon Phi 加速卡。
隨后 2015 年,美國政府禁止本國企業(yè)向中國出口與世界上最快的超級(jí)計(jì)算機(jī)相關(guān)的技術(shù),國家超級(jí)計(jì)算長沙中心、廣州中心、天津中心和國防科技大學(xué)四家國家超算中心被列入出口管制名單。
不過,管制并不能阻礙中國高性能計(jì)算機(jī)發(fā)展的步伐。2016 年 6 月 20 日,在法蘭克福世界超算大會(huì)上,「神威·太湖之光」超級(jí)計(jì)算機(jī)系統(tǒng)震撼亮相,登頂榜單之首,不僅速度比第二名「天河二號(hào)」快出近兩倍,其效率也提高 3 倍。「神威·太湖之光」共有 40960 塊處理器,全都采用了中國自研架構(gòu)的「申威 26010」眾核處理器。
并且除了「神威」系列,「天河」系列和「曙光」系列超級(jí)計(jì)算機(jī)也都自研了芯片,像「天河」系列超級(jí)計(jì)算機(jī)已經(jīng)全面掌握「五大」自主核心技術(shù),即具有自主知識(shí)產(chǎn)權(quán)的四大芯片和自主操作系統(tǒng)。
接下來再看,高性能計(jì)算機(jī)與 CPU 的「命數(shù)不同」。
高性能計(jì)算機(jī)與 CPU「命數(shù)不同」
眾所周知,一臺(tái)普通電腦一般只有一顆 CPU(GPU 同理),每顆 CPU 內(nèi)一般只有 2~8 個(gè)物理核心,而一般的超級(jí)計(jì)算機(jī)有成千上萬顆 CPU,每顆 CPU 內(nèi)一般有幾十個(gè)物理核心。
比如 2010 年,位居全球超級(jí)計(jì)算機(jī) 500 強(qiáng)排行榜榜首的「天河一號(hào)」,其思路采用「CPU+GPU」的設(shè)計(jì)思路,結(jié)合了大約 7000 個(gè)英偉達(dá) GPU 和 14000 個(gè)英特爾 CPU,將 GPU 用于超級(jí)計(jì)算機(jī),起到了「CPU 加速器」的作用。盡管「天河」的主要部件仍來自英特爾與英偉達(dá)兩個(gè)美國制造商,但互聯(lián)芯片則完全是中國自主研發(fā),「天河」安裝有由中國自主研發(fā)的「飛騰 1000」芯片,部分取代了進(jìn)口芯片。
「天河 2 號(hào)」有 16000 個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由 2 片英特爾的 E5 2692 和 3 片 Xeon PHI 組成,共使用了 32000 片英特爾的 E5 2692 和 48000 片 Xeon PHI,屬于 CPU+眾核芯片。正在升級(jí)的「天河 2 號(hào)」則將美國的 Xeon PHI 換成了自主研發(fā)的矩陣 2000,屬于 CPU+DSP。
神威·太湖之光超級(jí)計(jì)算機(jī)安裝了 40960 個(gè)中國自主研發(fā)的申威 26010 眾核處理器,該眾核處理器采用 64 位自主神威指令系統(tǒng),峰值性能為 12.5 億億次每秒,持續(xù)性能為 9.3 億億次每秒,核心工作頻率 1.5GHz。
對(duì)于普通家用的電腦來說或許需要一個(gè)性能更高的 CPU 來為整機(jī)提供更好的調(diào)度能力,然而對(duì)于超級(jí)計(jì)算機(jī)來說并非如此。超級(jí)計(jì)算機(jī)的算力大小并不依賴狹義上的 CPU,超級(jí)計(jì)算機(jī)需要的是浮點(diǎn)算力,此外超級(jí)計(jì)算機(jī)還要看能耗,所以靠堆砌堆上去的單核心性能,對(duì)于超算系統(tǒng)未必合算。另外還有散熱問題、單核心的能耗比也是需要考量的因素。也就是說,超級(jí)計(jì)算機(jī)比拼的是超算架構(gòu)、調(diào)度算法、并行度等等。
所以單個(gè) CPU 綜合算力并不是決定性因素,高性能計(jì)算機(jī)也并非簡單的堆料。CPU 要完成單核性能的沖刺需要面臨底層指令集以及生態(tài)等因素的束縛,而對(duì)于高性能計(jì)算機(jī)來說,更強(qiáng)的芯片協(xié)同工作能力或能帶來不菲的效果,這也正是中國的強(qiáng)項(xiàng)。
CPU+GPU 國產(chǎn)勢(shì)力大增
多年來,Intel、AMD 兩大巨頭領(lǐng)跑通用 CPU(桌面與服務(wù)器 CPU)市場;不過隨著國家的大力支持引導(dǎo),國產(chǎn) CPU 也開始奮力追趕,并且有所成績。
國產(chǎn) CPU 的優(yōu)秀企業(yè)有走 X86 技術(shù)授權(quán)路線的海光和兆芯,ARM 指令集授權(quán)路線的華為鯤鵬和飛騰,以及自研指令集路線的龍芯和申威。
目前,龍芯中科是目前中國 CPU 企業(yè)中自主程度最高的企業(yè)之一,近日龍芯發(fā)布的基于龍架構(gòu)的新一代 4 核心 8 線程處理器龍芯 3A6000 流片成功,龍芯稱綜合相關(guān)測(cè)試結(jié)果,龍芯 3A6000 處理器總體性能與 Intel 公司 2020 年上市的第 10 代酷睿四核處理器相當(dāng)。3A6000 流片成功也代表了中國自主桌面 CPU 設(shè)計(jì)領(lǐng)域的最新里程碑成果。
申威主要面向軍用等對(duì)安全性要求極高的特種領(lǐng)域,為其提供 CPU 處理器及其相關(guān)解決方案。在神威、太湖之光中使用的 SW26010 芯片,在服務(wù)器領(lǐng)域,浮點(diǎn)運(yùn)算算力相比于同期國外處理器毫不遜色。
海光也是 CPU 市場的優(yōu)秀標(biāo)的,其 CPU 主要面向數(shù)據(jù)中心的服務(wù)器,產(chǎn)品兼容 x86 指令集以及國際上主流操作系統(tǒng)和應(yīng)用軟件,軟硬件生態(tài)豐富,性能優(yōu)異,安全可靠。
此外,鯤鵬、飛騰和兆芯都是國產(chǎn) CPU 的佼佼者。
鯤鵬 920 已實(shí)現(xiàn)通用計(jì)算最強(qiáng)算力,性能優(yōu)于其他廠商的同類型芯片。有測(cè)試結(jié)果顯示,48 核心的鯤鵬 920 可以與 Intel 至強(qiáng) 8180 媲美,64 核心的鯤鵬 920 甚至超過 Intel 至強(qiáng) 8180。兆芯掌握自主通用處理器及其系統(tǒng)平臺(tái)芯片研發(fā)設(shè)計(jì)的核心技術(shù),全面覆蓋其微架構(gòu)等關(guān)鍵領(lǐng)域,構(gòu)建了較為完整的知識(shí)產(chǎn)權(quán)體系。飛騰面向各類應(yīng)用場景,已構(gòu)建了 1000 多個(gè)從端到云自主可信的行業(yè)聯(lián)合解決方案,芯片交付累計(jì)超過 600 萬片,在國產(chǎn) CPU 市場上占據(jù)了半壁江山。
再看 GPU。國內(nèi)優(yōu)秀的 GPU 芯片公司有寒武紀(jì)、華為昇騰、沐曦科技、海光信息、壁仞科技、阿里平頭哥、燧原科技、天數(shù)智芯、景嘉微等。據(jù)悉,思元即將推出的 590 整體算力綜合性能大約是 A100 的 70%。華為昇騰 910 算力強(qiáng)悍,在實(shí)際應(yīng)用過程中,昇騰 910 的處理速度比業(yè)界同類產(chǎn)品快 80% 以上。
沐曦科技即將推出的 MXC500 是對(duì)標(biāo) A100/A800 的算力芯片,F(xiàn)P32 浮點(diǎn)性能可達(dá) 15TFlops,作為對(duì)比的是 A100 顯卡 FP32 性能 19.5 TFLOPS。
壁仞科技的 BR100 發(fā)布時(shí),憑借其超高的參數(shù)與性能引起了強(qiáng)烈的轟動(dòng)。BR100 系列基于 7nm 制程工藝打造,擁有 770 億個(gè)晶體管。由壁仞科技自主原創(chuàng)的芯片架構(gòu)開發(fā),采用 Chiplet(芯粒)、2.5D CoWoS 等先進(jìn)的設(shè)計(jì)、制造與封裝技術(shù),可搭配 64GB HBM 2E 顯存,超 300MB 片上緩存,支持 PCIe 5.0、CXL 互聯(lián)協(xié)議等。
阿里在 2019 年就推出了「含光 800」,阿里曾表示,「含光 800」是當(dāng)時(shí)全球最強(qiáng)的 AI 芯片,性能和能效比均為第一,1 顆「含光 800」的算力相當(dāng)于 10 顆 GPU。此外,燧原科技、天數(shù)智芯、景嘉微也都推出了各家優(yōu)秀的 GPU 產(chǎn)品。
HPC 成國際芯片龍頭爭奪要地
HPC 誕生于內(nèi)部數(shù)據(jù)中心,擁有高速處理數(shù)據(jù)和執(zhí)行復(fù)雜計(jì)算。為了做 HPC 領(lǐng)域的領(lǐng)導(dǎo)者,英偉達(dá)、AMD、英特爾在 HPC 應(yīng)用領(lǐng)域也是進(jìn)展不斷。
英偉達(dá):全面擁抱 HPC
迄今為止,英偉達(dá)已推出了面向 HPC 和 AI 訓(xùn)練的 Volta、Ampere、Hopper 等架構(gòu),并以此為基礎(chǔ)推出了 V100、A100、H100 等高端 GPU。其中 Hopper H100 采用臺(tái)積電 4 nm 工藝,具有 800 億個(gè)晶體管,在性能、效率上遠(yuǎn)超 Ampere A100,是英偉達(dá)專為超級(jí)計(jì)算機(jī)設(shè)計(jì)的產(chǎn)品。
近日英偉達(dá)還發(fā)布新一代 GH200 Grace Hopper 超級(jí)芯片平臺(tái),是一款為大規(guī)模 AI 和高性能計(jì)算(HPC)應(yīng)用量身打造的加速芯片。這款超級(jí)芯片在處理海量數(shù)據(jù)時(shí),性能可提升高達(dá) 10 倍。由 72 核的 Grace CPU 和 GH100 Hopper 計(jì)算 GPU 組成??梢钥吹?,英偉達(dá)已經(jīng)做了充足的準(zhǔn)備,全面迎接加速計(jì)算和生成式 AI 時(shí)代的到來 。
AMD:到 2025 年,AMD EPYC、AMD Instinct 能源效率提高 30 倍
AMD 已經(jīng)在高性能計(jì)算領(lǐng)域推出一系列性能領(lǐng)先的產(chǎn)品,涵蓋了服務(wù)器 CPU、加速器,桌面 CPU、移動(dòng) CPU 等眾多領(lǐng)域,全方位覆蓋數(shù)字經(jīng)濟(jì)的高算力需求。此外,充分利用小芯片(Chiplet)技術(shù),用先進(jìn)的 2.5D 和 3D 封裝技術(shù),使 AMD 能夠靈活的進(jìn)行異構(gòu)計(jì)算解決方案系統(tǒng)級(jí)優(yōu)化。
目前 AMD EPYC 在 x86 服務(wù)器 CPU 市場的份額已超過 25%;其去年發(fā)布的 Instinct 生態(tài)系統(tǒng)以及此前的 ROCm 生態(tài)系統(tǒng)正在為擁有廣泛基礎(chǔ)的 HPC 和 AI 客戶提供 Exascale 級(jí)(百億億次級(jí))技術(shù),滿足計(jì)算加速的數(shù)據(jù)中心工作負(fù)載日益增長的需求。此外 AMD 預(yù)計(jì)在 2023 年至 2024 年推出 3nm Zen 5 架構(gòu)處理器。
此外,AMD 還宣布了一項(xiàng)雄心勃勃的計(jì)劃,目標(biāo)是到 2025 年,在加速計(jì)算節(jié)點(diǎn)上運(yùn)行的人工智能訓(xùn)練和高性能計(jì)算應(yīng)用中,AMD EPYC 系列處理器和 AMD Instinct 計(jì)算卡的能源效率將提高 30 倍。
AMD 最新發(fā)布的 Instinct MI200 系列加速器的卓越性能也可助力高性能計(jì)算和人工智能訓(xùn)練。
英特爾:HPC 潛力股
作為高性能計(jì)算領(lǐng)域的創(chuàng)新引領(lǐng)者和推動(dòng)者,英特爾近年來推出了英特爾至強(qiáng)處理器,英特爾至強(qiáng)融核處理器(Xeon Phi)、3D XPoint 全新非易失性存儲(chǔ)技術(shù)、英特爾可擴(kuò)展系統(tǒng)框架(英特爾 SSF)以及英特爾 Omni-Path 架構(gòu) (Intel OPA) 等眾多創(chuàng)新產(chǎn)品和技術(shù)。
英特爾基于 Xe HPC 微架構(gòu)的數(shù)據(jù)中心 GPU Ponte Vecchio 是迄今最復(fù)雜的 SoC,包含 1000 億個(gè)晶體管,提供領(lǐng)先的浮點(diǎn)運(yùn)算和計(jì)算密度,以加速 AI、HPC 和高級(jí)分析工作負(fù)載。而英特爾推出的 Ponte Vecchio 是為 Aurora 超級(jí)計(jì)算機(jī)提供動(dòng)力的處理器,Aurora 超級(jí)計(jì)算機(jī)將會(huì)成為美國首批突破 exaflop 障礙的高性能計(jì)算機(jī)之一。
今年 3 月,英特爾官方發(fā)文表示,它們更新了高性能計(jì)算(High Performance Computing,簡稱 HPC)的路線圖,并且宣布取消 Rialto Bridge 和 Lancaster Sound 的開發(fā)。英特爾表示 HPC Max 系列的重心將轉(zhuǎn)移到 Falcon Shores XPU,該 XPU 原定于 2024 年推出,不過英特爾宣布推遲到 2025 年上線。
未來計(jì)算架構(gòu)的發(fā)展趨勢(shì)是 CPU 和 GPU 融合集成,從而形成互聯(lián)、互補(bǔ)、互通的融合模式,以縮小計(jì)算和存儲(chǔ)單元的通信成本。作為在 CPU 領(lǐng)域引領(lǐng)多年的英特爾,在這一趨勢(shì)中也有著得天獨(dú)厚的優(yōu)勢(shì)。英特爾 GPU 的愿景也逐漸清晰:在計(jì)算多元化、算力需求爆發(fā)式增長的大趨勢(shì)下,英特爾 GPU 將成為驅(qū)動(dòng)新興行業(yè)發(fā)展的算力基石,同時(shí)也將成為英特爾自身業(yè)務(wù)增長的突破點(diǎn)。
未來,HPC 與 AI 將加速融合
如今,以 ChatGPT 為代表的生成式 AI 風(fēng)頭正熱,ChatGPT 的上線或可被視作一次新產(chǎn)業(yè)革命的引爆點(diǎn)。而這個(gè)引爆點(diǎn)之所以能出現(xiàn),離不開背后的 HPC(高性能計(jì)算)與大數(shù)據(jù)基礎(chǔ)設(shè)施。當(dāng)下 HPC 與 AI 正在加速融合之中。
HPC 不同于 AI。HPC 的運(yùn)算精度是雙精度浮點(diǎn)運(yùn)算,64 位甚至 128 位的,所以加減乘除做得很快,它的應(yīng)用領(lǐng)域主要有科學(xué)和工程計(jì)算、天氣預(yù)報(bào)、核聚變模擬、飛行器設(shè)計(jì)。而 AI 計(jì)算機(jī)是半精度的,甚至是定點(diǎn)的,8 位的、16 位的、32 位的。AI 更適合進(jìn)行分類、自然語言處理等工作,多應(yīng)用在安防、互聯(lián)網(wǎng)搜索推薦、智能制造等領(lǐng)域。
因此,HPC 與 AI 融合,也就意味著二者的研究模式相結(jié)合,這樣 AI 也可以通過 HPC 方法去做驗(yàn)證,在保證速度的同時(shí),提升精確度。借助 HPC 基礎(chǔ)設(shè)施,可見未來 AI 能得到更好的發(fā)揮,兩者融合將是未來幾年的主流趨勢(shì)。
評(píng)論