新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 中國HPC,潛力無限

中國HPC,潛力無限

作者: 時間:2023-08-29 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

高性能計算(High performance computing),是一種利用超級計算機或計算機集群的能力實現(xiàn)并行計算,以處理標準工作站無法完成的數(shù)據(jù)密集型計算任務(wù)的技術(shù),常見的應(yīng)用領(lǐng)域有仿真模擬、機器學(xué)習(xí)和深度學(xué)習(xí)等。

本文引用地址:http://www.butianyuan.cn/article/202308/450000.htm

或許有人沒有聽過 ,但是一定聽過超級計算機,它就是 的主要實現(xiàn)方式之一。數(shù)據(jù)顯示,高性能計算系統(tǒng)的運行速度比商用臺式機或服務(wù)器系統(tǒng)快一百萬倍以上。原因在于高性能計算能夠讓整個計算機集群為同一個任務(wù)工作,以更快的速度來解決一個復(fù)雜問題。

提供了超高浮點計算能力解決方案,可用于解決計算密集型、海量數(shù)據(jù)處理等業(yè)務(wù)的計算需求,如科學(xué)研究、氣象預(yù)報、計算模擬、軍事研究、CAD/CAE、生物制藥、基因測序、圖像處理等,大量縮短計算時間,提高計算精度。

此前,HPC 由于其專業(yè)度極高的特點被局限在科研實驗室、大型企業(yè)和特定的學(xué)術(shù)組織研究中。不過隨著近兩年 AI 技術(shù)與 IoT 應(yīng)用之間的互相驅(qū)動,數(shù)據(jù)量和計算需求暴漲,5G 將數(shù)據(jù)傳輸管道大大拓寬之后,同樣給了數(shù)據(jù)囤積量進一步拓展的空間,HPC 也逐漸變得日益重要。

目前,國產(chǎn)已經(jīng)取得了不錯的成績。

中國成績斐然

2023 年 6 月,最新一期超級計算機 TOP500 榜單公布,從 TOP500 榜單中就可以讀出中國在頂尖超級計算機研發(fā)上的努力已經(jīng)凸顯出來。

在 61 期全球超級計算機 TOP500 榜單中排名第一的是美國的 Frontier、第二名為日本的 Fugaku、 第三名芬蘭的 LUMI、第四名意大利 Leonardo、第五名美國 Summit、第六名美國 Sierra、第七名中國神威·太湖之光、第八名美國 Perlmutter、第九名美國 Selene、第十名 TH—2 天河二號。

歷年來,中國屢屢登榜 TOP500。神威·太湖之光超級計算機甚至曾連續(xù)獲得 top500 四屆冠軍,該系統(tǒng)全部使用中國自主知識產(chǎn)權(quán)的處理器芯片。天河二號也曾 6 次蟬聯(lián)冠軍,天河二號采用麒麟操作系統(tǒng),目前使用英特爾處理器,將來計劃用國產(chǎn)處理器替換。

不只是排名領(lǐng)先,在上榜數(shù)量上,中國的高性能計算機也有實力「扛大梁」。

根據(jù) 2023 年 6 月公布的最新 TOP500 榜單,美國為超級計算機上榜數(shù)量最多的國家,共上榜 150 套,占比 30%; 中國以 134 套上榜數(shù)量緊隨其后,占比 26.8%; 除中美兩國之外,德國、日本、法國、英國、加拿大均有 10 套及以上進入 TOP500 榜單的超級計算機系統(tǒng)。

中國初步形成的高性能計算產(chǎn)業(yè)鏈由上、中、下游構(gòu)成,以上所述企業(yè)均為中游企業(yè),他們的角色是負責(zé)對上游的資源進行整合,提供強大的超算資源。

看到此處想必已有不少人開始疑惑,中國 CPU 的發(fā)展之路道阻且長,那么中國高性能計算機又是如何取得今日這番成績的呢?其上下游的發(fā)展現(xiàn)狀又如何了?

在這之前首先要了解的是,高性能計算機的發(fā)展歷程。

高性能計算機的發(fā)展歷程

1975 年,中國開始研制第一臺超級計算機。1983 年,「銀河 1 號」面世,之后又研制出曙光系列超算。2009 年,「天河 1 號」超算誕生,這是我國第 1 臺千萬億次級超算。2010 年,經(jīng)過升級之后的「天河 1 號」位居全球計算機 500 強第一位。2013 年,「天河 2 號」再次名列超級計算機 500 強排行榜世界第一,并蟬聯(lián)多年。

值得注意的是,當時中國所有的超級計算機都采用了英特爾的芯片,中國多次在全球超級計算機 TOP 500 強榜單中奪冠的天河二號使用的就是英特爾的 Xeon 眾核處理器+Xeon Phi 加速卡。

隨后 2015 年,美國政府禁止本國企業(yè)向中國出口與世界上最快的超級計算機相關(guān)的技術(shù),國家超級計算長沙中心、廣州中心、天津中心和國防科技大學(xué)四家國家超算中心被列入出口管制名單。

不過,管制并不能阻礙中國高性能計算機發(fā)展的步伐。2016 年 6 月 20 日,在法蘭克福世界超算大會上,「神威·太湖之光」超級計算機系統(tǒng)震撼亮相,登頂榜單之首,不僅速度比第二名「天河二號」快出近兩倍,其效率也提高 3 倍?!干裢ぬ狻构灿?40960 塊處理器,全都采用了中國自研架構(gòu)的「申威 26010」眾核處理器。

并且除了「神威」系列,「天河」系列和「曙光」系列超級計算機也都自研了芯片,像「天河」系列超級計算機已經(jīng)全面掌握「五大」自主核心技術(shù),即具有自主知識產(chǎn)權(quán)的四大芯片和自主操作系統(tǒng)。

接下來再看,高性能計算機與 CPU 的「命數(shù)不同」。

高性能計算機與 CPU「命數(shù)不同」

眾所周知,一臺普通電腦一般只有一顆 CPU(GPU 同理),每顆 CPU 內(nèi)一般只有 2~8 個物理核心,而一般的超級計算機有成千上萬顆 CPU,每顆 CPU 內(nèi)一般有幾十個物理核心。

比如 2010 年,位居全球超級計算機 500 強排行榜榜首的「天河一號」,其思路采用「CPU+GPU」的設(shè)計思路,結(jié)合了大約 7000 個英偉達 GPU 和 14000 個英特爾 CPU,將 GPU 用于超級計算機,起到了「CPU 加速器」的作用。盡管「天河」的主要部件仍來自英特爾與英偉達兩個美國制造商,但互聯(lián)芯片則完全是中國自主研發(fā),「天河」安裝有由中國自主研發(fā)的「飛騰 1000」芯片,部分取代了進口芯片。

「天河 2 號」有 16000 個計算節(jié)點,每個節(jié)點由 2 片英特爾的 E5 2692 和 3 片 Xeon PHI 組成,共使用了 32000 片英特爾的 E5 2692 和 48000 片 Xeon PHI,屬于 CPU+眾核芯片。正在升級的「天河 2 號」則將美國的 Xeon PHI 換成了自主研發(fā)的矩陣 2000,屬于 CPU+DSP。

神威·太湖之光超級計算機安裝了 40960 個中國自主研發(fā)的申威 26010 眾核處理器,該眾核處理器采用 64 位自主神威指令系統(tǒng),峰值性能為 12.5 億億次每秒,持續(xù)性能為 9.3 億億次每秒,核心工作頻率 1.5GHz。

對于普通家用的電腦來說或許需要一個性能更高的 CPU 來為整機提供更好的調(diào)度能力,然而對于超級計算機來說并非如此。超級計算機的算力大小并不依賴狹義上的 CPU,超級計算機需要的是浮點算力,此外超級計算機還要看能耗,所以靠堆砌堆上去的單核心性能,對于超算系統(tǒng)未必合算。另外還有散熱問題、單核心的能耗比也是需要考量的因素。也就是說,超級計算機比拼的是超算架構(gòu)、調(diào)度算法、并行度等等。

所以單個 CPU 綜合算力并不是決定性因素,高性能計算機也并非簡單的堆料。CPU 要完成單核性能的沖刺需要面臨底層指令集以及生態(tài)等因素的束縛,而對于高性能計算機來說,更強的芯片協(xié)同工作能力或能帶來不菲的效果,這也正是中國的強項。

CPU+GPU 國產(chǎn)勢力大增

多年來,Intel、AMD 兩大巨頭領(lǐng)跑通用 CPU(桌面與服務(wù)器 CPU)市場;不過隨著國家的大力支持引導(dǎo),國產(chǎn) CPU 也開始奮力追趕,并且有所成績。

國產(chǎn) CPU 的優(yōu)秀企業(yè)有走 X86 技術(shù)授權(quán)路線的海光和兆芯,ARM 指令集授權(quán)路線的華為鯤鵬和飛騰,以及自研指令集路線的龍芯和申威。

目前,龍芯中科是目前中國 CPU 企業(yè)中自主程度最高的企業(yè)之一,近日龍芯發(fā)布的基于龍架構(gòu)的新一代 4 核心 8 線程處理器龍芯 3A6000 流片成功,龍芯稱綜合相關(guān)測試結(jié)果,龍芯 3A6000 處理器總體性能與 Intel 公司 2020 年上市的第 10 代酷睿四核處理器相當。3A6000 流片成功也代表了中國自主桌面 CPU 設(shè)計領(lǐng)域的最新里程碑成果。

申威主要面向軍用等對安全性要求極高的特種領(lǐng)域,為其提供 CPU 處理器及其相關(guān)解決方案。在神威、太湖之光中使用的 SW26010 芯片,在服務(wù)器領(lǐng)域,浮點運算算力相比于同期國外處理器毫不遜色。

海光也是 CPU 市場的優(yōu)秀標的,其 CPU 主要面向數(shù)據(jù)中心的服務(wù)器,產(chǎn)品兼容 x86 指令集以及國際上主流操作系統(tǒng)和應(yīng)用軟件,軟硬件生態(tài)豐富,性能優(yōu)異,安全可靠。

此外,鯤鵬、飛騰和兆芯都是國產(chǎn) CPU 的佼佼者。

鯤鵬 920 已實現(xiàn)通用計算最強算力,性能優(yōu)于其他廠商的同類型芯片。有測試結(jié)果顯示,48 核心的鯤鵬 920 可以與 Intel 至強 8180 媲美,64 核心的鯤鵬 920 甚至超過 Intel 至強 8180。兆芯掌握自主通用處理器及其系統(tǒng)平臺芯片研發(fā)設(shè)計的核心技術(shù),全面覆蓋其微架構(gòu)等關(guān)鍵領(lǐng)域,構(gòu)建了較為完整的知識產(chǎn)權(quán)體系。飛騰面向各類應(yīng)用場景,已構(gòu)建了 1000 多個從端到云自主可信的行業(yè)聯(lián)合解決方案,芯片交付累計超過 600 萬片,在國產(chǎn) CPU 市場上占據(jù)了半壁江山。

再看 GPU。國內(nèi)優(yōu)秀的 GPU 芯片公司有寒武紀、華為昇騰、沐曦科技、海光信息、壁仞科技、阿里平頭哥、燧原科技、天數(shù)智芯、景嘉微等。據(jù)悉,思元即將推出的 590 整體算力綜合性能大約是 A100 的 70%。華為昇騰 910 算力強悍,在實際應(yīng)用過程中,昇騰 910 的處理速度比業(yè)界同類產(chǎn)品快 80% 以上。

沐曦科技即將推出的 MXC500 是對標 A100/A800 的算力芯片,F(xiàn)P32 浮點性能可達 15TFlops,作為對比的是 A100 顯卡 FP32 性能 19.5 TFLOPS。

壁仞科技的 BR100 發(fā)布時,憑借其超高的參數(shù)與性能引起了強烈的轟動。BR100 系列基于 7nm 制程工藝打造,擁有 770 億個晶體管。由壁仞科技自主原創(chuàng)的芯片架構(gòu)開發(fā),采用 Chiplet(芯粒)、2.5D CoWoS 等先進的設(shè)計、制造與封裝技術(shù),可搭配 64GB HBM 2E 顯存,超 300MB 片上緩存,支持 PCIe 5.0、CXL 互聯(lián)協(xié)議等。

阿里在 2019 年就推出了「含光 800」,阿里曾表示,「含光 800」是當時全球最強的 AI 芯片,性能和能效比均為第一,1 顆「含光 800」的算力相當于 10 顆 GPU。此外,燧原科技、天數(shù)智芯、景嘉微也都推出了各家優(yōu)秀的 GPU 產(chǎn)品。

HPC 成國際芯片龍頭爭奪要地

HPC 誕生于內(nèi)部數(shù)據(jù)中心,擁有高速處理數(shù)據(jù)和執(zhí)行復(fù)雜計算。為了做 HPC 領(lǐng)域的領(lǐng)導(dǎo)者,英偉達、AMD、英特爾在 HPC 應(yīng)用領(lǐng)域也是進展不斷。

英偉達:全面擁抱 HPC

迄今為止,英偉達已推出了面向 HPC 和 AI 訓(xùn)練的 Volta、Ampere、Hopper 等架構(gòu),并以此為基礎(chǔ)推出了 V100、A100、H100 等高端 GPU。其中 Hopper H100 采用臺積電 4 nm 工藝,具有 800 億個晶體管,在性能、效率上遠超 Ampere A100,是英偉達專為超級計算機設(shè)計的產(chǎn)品。

近日英偉達還發(fā)布新一代 GH200 Grace Hopper 超級芯片平臺,是一款為大規(guī)模 AI 和高性能計算(HPC)應(yīng)用量身打造的加速芯片。這款超級芯片在處理海量數(shù)據(jù)時,性能可提升高達 10 倍。由 72 核的 Grace CPU 和 GH100 Hopper 計算 GPU 組成??梢钥吹?,英偉達已經(jīng)做了充足的準備,全面迎接加速計算和生成式 AI 時代的到來 。

AMD:到 2025 年,AMD EPYC、AMD Instinct 能源效率提高 30 倍

AMD 已經(jīng)在高性能計算領(lǐng)域推出一系列性能領(lǐng)先的產(chǎn)品,涵蓋了服務(wù)器 CPU、加速器,桌面 CPU、移動 CPU 等眾多領(lǐng)域,全方位覆蓋數(shù)字經(jīng)濟的高算力需求。此外,充分利用小芯片(Chiplet)技術(shù),用先進的 2.5D 和 3D 封裝技術(shù),使 AMD 能夠靈活的進行異構(gòu)計算解決方案系統(tǒng)級優(yōu)化。

目前 AMD EPYC 在 x86 服務(wù)器 CPU 市場的份額已超過 25%;其去年發(fā)布的 Instinct 生態(tài)系統(tǒng)以及此前的 ROCm 生態(tài)系統(tǒng)正在為擁有廣泛基礎(chǔ)的 HPC 和 AI 客戶提供 Exascale 級(百億億次級)技術(shù),滿足計算加速的數(shù)據(jù)中心工作負載日益增長的需求。此外 AMD 預(yù)計在 2023 年至 2024 年推出 3nm Zen 5 架構(gòu)處理器。

此外,AMD 還宣布了一項雄心勃勃的計劃,目標是到 2025 年,在加速計算節(jié)點上運行的人工智能訓(xùn)練和高性能計算應(yīng)用中,AMD EPYC 系列處理器和 AMD Instinct 計算卡的能源效率將提高 30 倍。

AMD 最新發(fā)布的 Instinct MI200 系列加速器的卓越性能也可助力高性能計算和人工智能訓(xùn)練。

英特爾:HPC 潛力股

作為高性能計算領(lǐng)域的創(chuàng)新引領(lǐng)者和推動者,英特爾近年來推出了英特爾至強處理器,英特爾至強融核處理器(Xeon Phi)、3D XPoint 全新非易失性存儲技術(shù)、英特爾可擴展系統(tǒng)框架(英特爾 SSF)以及英特爾 Omni-Path 架構(gòu) (Intel OPA) 等眾多創(chuàng)新產(chǎn)品和技術(shù)。

英特爾基于 Xe HPC 微架構(gòu)的數(shù)據(jù)中心 GPU Ponte Vecchio 是迄今最復(fù)雜的 SoC,包含 1000 億個晶體管,提供領(lǐng)先的浮點運算和計算密度,以加速 AI、HPC 和高級分析工作負載。而英特爾推出的 Ponte Vecchio 是為 Aurora 超級計算機提供動力的處理器,Aurora 超級計算機將會成為美國首批突破 exaflop 障礙的高性能計算機之一。

今年 3 月,英特爾官方發(fā)文表示,它們更新了高性能計算(High Performance Computing,簡稱 HPC)的路線圖,并且宣布取消 Rialto Bridge 和 Lancaster Sound 的開發(fā)。英特爾表示 HPC Max 系列的重心將轉(zhuǎn)移到 Falcon Shores XPU,該 XPU 原定于 2024 年推出,不過英特爾宣布推遲到 2025 年上線。

未來計算架構(gòu)的發(fā)展趨勢是 CPU 和 GPU 融合集成,從而形成互聯(lián)、互補、互通的融合模式,以縮小計算和存儲單元的通信成本。作為在 CPU 領(lǐng)域引領(lǐng)多年的英特爾,在這一趨勢中也有著得天獨厚的優(yōu)勢。英特爾 GPU 的愿景也逐漸清晰:在計算多元化、算力需求爆發(fā)式增長的大趨勢下,英特爾 GPU 將成為驅(qū)動新興行業(yè)發(fā)展的算力基石,同時也將成為英特爾自身業(yè)務(wù)增長的突破點。

未來,HPC 與 AI 將加速融合

如今,以 ChatGPT 為代表的生成式 AI 風(fēng)頭正熱,ChatGPT 的上線或可被視作一次新產(chǎn)業(yè)革命的引爆點。而這個引爆點之所以能出現(xiàn),離不開背后的 HPC(高性能計算)與大數(shù)據(jù)基礎(chǔ)設(shè)施。當下 HPC 與 AI 正在加速融合之中。

HPC 不同于 AI。HPC 的運算精度是雙精度浮點運算,64 位甚至 128 位的,所以加減乘除做得很快,它的應(yīng)用領(lǐng)域主要有科學(xué)和工程計算、天氣預(yù)報、核聚變模擬、飛行器設(shè)計。而 AI 計算機是半精度的,甚至是定點的,8 位的、16 位的、32 位的。AI 更適合進行分類、自然語言處理等工作,多應(yīng)用在安防、互聯(lián)網(wǎng)搜索推薦、智能制造等領(lǐng)域。

因此,HPC 與 AI 融合,也就意味著二者的研究模式相結(jié)合,這樣 AI 也可以通過 HPC 方法去做驗證,在保證速度的同時,提升精確度。借助 HPC 基礎(chǔ)設(shè)施,可見未來 AI 能得到更好的發(fā)揮,兩者融合將是未來幾年的主流趨勢。



關(guān)鍵詞: 高性能計算機 HPC

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉