中國(guó)HPC，潛力無限

作者：時(shí)間：2023-08-29 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

高性能計(jì)算（High performance computing），是一種利用超級(jí)計(jì)算機(jī)或計(jì)算機(jī)集群的能力實(shí)現(xiàn)并行計(jì)算，以處理標(biāo)準(zhǔn)工作站無法完成的數(shù)據(jù)密集型計(jì)算任務(wù)的技術(shù)，常見的應(yīng)用領(lǐng)域有仿真模擬、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等。

本文引用地址：http://www.butianyuan.cn/article/202308/450000.htm

或許有人沒有聽過 HPC，但是一定聽過超級(jí)計(jì)算機(jī)，它就是 HPC 的主要實(shí)現(xiàn)方式之一。數(shù)據(jù)顯示，高性能計(jì)算系統(tǒng)的運(yùn)行速度比商用臺(tái)式機(jī)或服務(wù)器系統(tǒng)快一百萬倍以上。原因在于高性能計(jì)算能夠讓整個(gè)計(jì)算機(jī)集群為同一個(gè)任務(wù)工作，以更快的速度來解決一個(gè)復(fù)雜問題。

HPC 提供了超高浮點(diǎn)計(jì)算能力解決方案，可用于解決計(jì)算密集型、海量數(shù)據(jù)處理等業(yè)務(wù)的計(jì)算需求，如科學(xué)研究、氣象預(yù)報(bào)、計(jì)算模擬、軍事研究、CAD/CAE、生物制藥、基因測(cè)序、圖像處理等，大量縮短計(jì)算時(shí)間，提高計(jì)算精度。

此前，HPC 由于其專業(yè)度極高的特點(diǎn)被局限在科研實(shí)驗(yàn)室、大型企業(yè)和特定的學(xué)術(shù)組織研究中。不過隨著近兩年 AI 技術(shù)與 IoT 應(yīng)用之間的互相驅(qū)動(dòng)，數(shù)據(jù)量和計(jì)算需求暴漲，5G 將數(shù)據(jù)傳輸管道大大拓寬之后，同樣給了數(shù)據(jù)囤積量進(jìn)一步拓展的空間，HPC 也逐漸變得日益重要。

目前，國(guó)產(chǎn)高性能計(jì)算機(jī)已經(jīng)取得了不錯(cuò)的成績(jī)。

中國(guó)高性能計(jì)算機(jī)成績(jī)斐然

2023 年 6 月，最新一期超級(jí)計(jì)算機(jī) TOP500 榜單公布，從 TOP500 榜單中就可以讀出中國(guó)在頂尖超級(jí)計(jì)算機(jī)研發(fā)上的努力已經(jīng)凸顯出來。

在 61 期全球超級(jí)計(jì)算機(jī) TOP500 榜單中排名第一的是美國(guó)的 Frontier、第二名為日本的 Fugaku、第三名芬蘭的 LUMI、第四名意大利 Leonardo、第五名美國(guó) Summit、第六名美國(guó) Sierra、第七名中國(guó)神威·太湖之光、第八名美國(guó) Perlmutter、第九名美國(guó) Selene、第十名 TH—2 天河二號(hào)。

歷年來，中國(guó)高性能計(jì)算機(jī)屢屢登榜 TOP500。神威·太湖之光超級(jí)計(jì)算機(jī)甚至曾連續(xù)獲得 top500 四屆冠軍，該系統(tǒng)全部使用中國(guó)自主知識(shí)產(chǎn)權(quán)的處理器芯片。天河二號(hào)也曾 6 次蟬聯(lián)冠軍，天河二號(hào)采用麒麟操作系統(tǒng)，目前使用英特爾處理器，將來計(jì)劃用國(guó)產(chǎn)處理器替換。

不只是排名領(lǐng)先，在上榜數(shù)量上，中國(guó)的高性能計(jì)算機(jī)也有實(shí)力「扛大梁」。

根據(jù) 2023 年 6 月公布的最新 TOP500 榜單，美國(guó)為超級(jí)計(jì)算機(jī)上榜數(shù)量最多的國(guó)家，共上榜 150 套，占比 30%; 中國(guó)以 134 套上榜數(shù)量緊隨其后，占比 26.8%; 除中美兩國(guó)之外，德國(guó)、日本、法國(guó)、英國(guó)、加拿大均有 10 套及以上進(jìn)入 TOP500 榜單的超級(jí)計(jì)算機(jī)系統(tǒng)。

中國(guó)初步形成的高性能計(jì)算產(chǎn)業(yè)鏈由上、中、下游構(gòu)成，以上所述企業(yè)均為中游企業(yè)，他們的角色是負(fù)責(zé)對(duì)上游的資源進(jìn)行整合，提供強(qiáng)大的超算資源。

看到此處想必已有不少人開始疑惑，中國(guó) CPU 的發(fā)展之路道阻且長(zhǎng)，那么中國(guó)高性能計(jì)算機(jī)又是如何取得今日這番成績(jī)的呢？其上下游的發(fā)展現(xiàn)狀又如何了？

在這之前首先要了解的是，高性能計(jì)算機(jī)的發(fā)展歷程。

高性能計(jì)算機(jī)的發(fā)展歷程

1975 年，中國(guó)開始研制第一臺(tái)超級(jí)計(jì)算機(jī)。1983 年，「銀河 1 號(hào)」面世，之后又研制出曙光系列超算。2009 年，「天河 1 號(hào)」超算誕生，這是我國(guó)第 1 臺(tái)千萬億次級(jí)超算。2010 年，經(jīng)過升級(jí)之后的「天河 1 號(hào)」位居全球計(jì)算機(jī) 500 強(qiáng)第一位。2013 年，「天河 2 號(hào)」再次名列超級(jí)計(jì)算機(jī) 500 強(qiáng)排行榜世界第一，并蟬聯(lián)多年。

值得注意的是，當(dāng)時(shí)中國(guó)所有的超級(jí)計(jì)算機(jī)都采用了英特爾的芯片，中國(guó)多次在全球超級(jí)計(jì)算機(jī) TOP 500 強(qiáng)榜單中奪冠的天河二號(hào)使用的就是英特爾的 Xeon 眾核處理器+Xeon Phi 加速卡。

隨后 2015 年，美國(guó)政府禁止本國(guó)企業(yè)向中國(guó)出口與世界上最快的超級(jí)計(jì)算機(jī)相關(guān)的技術(shù)，國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心、廣州中心、天津中心和國(guó)防科技大學(xué)四家國(guó)家超算中心被列入出口管制名單。

不過，管制并不能阻礙中國(guó)高性能計(jì)算機(jī)發(fā)展的步伐。2016 年 6 月 20 日，在法蘭克福世界超算大會(huì)上，「神威·太湖之光」超級(jí)計(jì)算機(jī)系統(tǒng)震撼亮相，登頂榜單之首，不僅速度比第二名「天河二號(hào)」快出近兩倍，其效率也提高 3 倍。「神威·太湖之光」共有 40960 塊處理器，全都采用了中國(guó)自研架構(gòu)的「申威 26010」眾核處理器。

并且除了「神威」系列，「天河」系列和「曙光」系列超級(jí)計(jì)算機(jī)也都自研了芯片，像「天河」系列超級(jí)計(jì)算機(jī)已經(jīng)全面掌握「五大」自主核心技術(shù)，即具有自主知識(shí)產(chǎn)權(quán)的四大芯片和自主操作系統(tǒng)。

接下來再看，高性能計(jì)算機(jī)與 CPU 的「命數(shù)不同」。

高性能計(jì)算機(jī)與 CPU「命數(shù)不同」

眾所周知，一臺(tái)普通電腦一般只有一顆 CPU（GPU 同理），每顆 CPU 內(nèi)一般只有 2~8 個(gè)物理核心，而一般的超級(jí)計(jì)算機(jī)有成千上萬顆 CPU，每顆 CPU 內(nèi)一般有幾十個(gè)物理核心。

比如 2010 年，位居全球超級(jí)計(jì)算機(jī) 500 強(qiáng)排行榜榜首的「天河一號(hào)」，其思路采用「CPU＋GPU」的設(shè)計(jì)思路，結(jié)合了大約 7000 個(gè)英偉達(dá) GPU 和 14000 個(gè)英特爾 CPU，將 GPU 用于超級(jí)計(jì)算機(jī)，起到了「CPU 加速器」的作用。盡管「天河」的主要部件仍來自英特爾與英偉達(dá)兩個(gè)美國(guó)制造商，但互聯(lián)芯片則完全是中國(guó)自主研發(fā)，「天河」安裝有由中國(guó)自主研發(fā)的「飛騰 1000」芯片，部分取代了進(jìn)口芯片。

「天河 2 號(hào)」有 16000 個(gè)計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)由 2 片英特爾的 E5 2692 和 3 片 Xeon PHI 組成，共使用了 32000 片英特爾的 E5 2692 和 48000 片 Xeon PHI，屬于 CPU＋眾核芯片。正在升級(jí)的「天河 2 號(hào)」則將美國(guó)的 Xeon PHI 換成了自主研發(fā)的矩陣 2000，屬于 CPU＋DSP。

神威·太湖之光超級(jí)計(jì)算機(jī)安裝了 40960 個(gè)中國(guó)自主研發(fā)的申威 26010 眾核處理器，該眾核處理器采用 64 位自主神威指令系統(tǒng)，峰值性能為 12.5 億億次每秒，持續(xù)性能為 9.3 億億次每秒，核心工作頻率 1.5GHz。

對(duì)于普通家用的電腦來說或許需要一個(gè)性能更高的 CPU 來為整機(jī)提供更好的調(diào)度能力，然而對(duì)于超級(jí)計(jì)算機(jī)來說并非如此。超級(jí)計(jì)算機(jī)的算力大小并不依賴狹義上的 CPU，超級(jí)計(jì)算機(jī)需要的是浮點(diǎn)算力，此外超級(jí)計(jì)算機(jī)還要看能耗，所以靠堆砌堆上去的單核心性能，對(duì)于超算系統(tǒng)未必合算。另外還有散熱問題、單核心的能耗比也是需要考量的因素。也就是說，超級(jí)計(jì)算機(jī)比拼的是超算架構(gòu)、調(diào)度算法、并行度等等。

所以單個(gè) CPU 綜合算力并不是決定性因素，高性能計(jì)算機(jī)也并非簡(jiǎn)單的堆料。CPU 要完成單核性能的沖刺需要面臨底層指令集以及生態(tài)等因素的束縛，而對(duì)于高性能計(jì)算機(jī)來說，更強(qiáng)的芯片協(xié)同工作能力或能帶來不菲的效果，這也正是中國(guó)的強(qiáng)項(xiàng)。

CPU+GPU 國(guó)產(chǎn)勢(shì)力大增

多年來，Intel、AMD 兩大巨頭領(lǐng)跑通用 CPU（桌面與服務(wù)器 CPU）市場(chǎng)；不過隨著國(guó)家的大力支持引導(dǎo)，國(guó)產(chǎn) CPU 也開始奮力追趕，并且有所成績(jī)。

國(guó)產(chǎn) CPU 的優(yōu)秀企業(yè)有走 X86 技術(shù)授權(quán)路線的海光和兆芯，ARM 指令集授權(quán)路線的華為鯤鵬和飛騰，以及自研指令集路線的龍芯和申威。

目前，龍芯中科是目前中國(guó) CPU 企業(yè)中自主程度最高的企業(yè)之一，近日龍芯發(fā)布的基于龍架構(gòu)的新一代 4 核心 8 線程處理器龍芯 3A6000 流片成功，龍芯稱綜合相關(guān)測(cè)試結(jié)果，龍芯 3A6000 處理器總體性能與 Intel 公司 2020 年上市的第 10 代酷睿四核處理器相當(dāng)。3A6000 流片成功也代表了中國(guó)自主桌面 CPU 設(shè)計(jì)領(lǐng)域的最新里程碑成果。

申威主要面向軍用等對(duì)安全性要求極高的特種領(lǐng)域，為其提供 CPU 處理器及其相關(guān)解決方案。在神威、太湖之光中使用的 SW26010 芯片，在服務(wù)器領(lǐng)域，浮點(diǎn)運(yùn)算算力相比于同期國(guó)外處理器毫不遜色。

海光也是 CPU 市場(chǎng)的優(yōu)秀標(biāo)的，其 CPU 主要面向數(shù)據(jù)中心的服務(wù)器，產(chǎn)品兼容 x86 指令集以及國(guó)際上主流操作系統(tǒng)和應(yīng)用軟件，軟硬件生態(tài)豐富，性能優(yōu)異，安全可靠。

此外，鯤鵬、飛騰和兆芯都是國(guó)產(chǎn) CPU 的佼佼者。

鯤鵬 920 已實(shí)現(xiàn)通用計(jì)算最強(qiáng)算力，性能優(yōu)于其他廠商的同類型芯片。有測(cè)試結(jié)果顯示，48 核心的鯤鵬 920 可以與 Intel 至強(qiáng) 8180 媲美，64 核心的鯤鵬 920 甚至超過 Intel 至強(qiáng) 8180。兆芯掌握自主通用處理器及其系統(tǒng)平臺(tái)芯片研發(fā)設(shè)計(jì)的核心技術(shù)，全面覆蓋其微架構(gòu)等關(guān)鍵領(lǐng)域，構(gòu)建了較為完整的知識(shí)產(chǎn)權(quán)體系。飛騰面向各類應(yīng)用場(chǎng)景，已構(gòu)建了 1000 多個(gè)從端到云自主可信的行業(yè)聯(lián)合解決方案，芯片交付累計(jì)超過 600 萬片，在國(guó)產(chǎn) CPU 市場(chǎng)上占據(jù)了半壁江山。

再看 GPU。國(guó)內(nèi)優(yōu)秀的 GPU 芯片公司有寒武紀(jì)、華為昇騰、沐曦科技、海光信息、壁仞科技、阿里平頭哥、燧原科技、天數(shù)智芯、景嘉微等。據(jù)悉，思元即將推出的 590 整體算力綜合性能大約是 A100 的 70%。華為昇騰 910 算力強(qiáng)悍，在實(shí)際應(yīng)用過程中，昇騰 910 的處理速度比業(yè)界同類產(chǎn)品快 80% 以上。

沐曦科技即將推出的 MXC500 是對(duì)標(biāo) A100/A800 的算力芯片，F(xiàn)P32 浮點(diǎn)性能可達(dá) 15TFlops，作為對(duì)比的是 A100 顯卡 FP32 性能 19.5 TFLOPS。

壁仞科技的 BR100 發(fā)布時(shí)，憑借其超高的參數(shù)與性能引起了強(qiáng)烈的轟動(dòng)。BR100 系列基于 7nm 制程工藝打造，擁有 770 億個(gè)晶體管。由壁仞科技自主原創(chuàng)的芯片架構(gòu)開發(fā)，采用 Chiplet（芯粒）、2.5D CoWoS 等先進(jìn)的設(shè)計(jì)、制造與封裝技術(shù)，可搭配 64GB HBM 2E 顯存，超 300MB 片上緩存，支持 PCIe 5.0、CXL 互聯(lián)協(xié)議等。

阿里在 2019 年就推出了「含光 800」，阿里曾表示，「含光 800」是當(dāng)時(shí)全球最強(qiáng)的 AI 芯片，性能和能效比均為第一，1 顆「含光 800」的算力相當(dāng)于 10 顆 GPU。此外，燧原科技、天數(shù)智芯、景嘉微也都推出了各家優(yōu)秀的 GPU 產(chǎn)品。

HPC 成國(guó)際芯片龍頭爭(zhēng)奪要地

HPC 誕生于內(nèi)部數(shù)據(jù)中心，擁有高速處理數(shù)據(jù)和執(zhí)行復(fù)雜計(jì)算。為了做 HPC 領(lǐng)域的領(lǐng)導(dǎo)者，英偉達(dá)、AMD、英特爾在 HPC 應(yīng)用領(lǐng)域也是進(jìn)展不斷。

英偉達(dá)：全面擁抱 HPC

迄今為止，英偉達(dá)已推出了面向 HPC 和 AI 訓(xùn)練的 Volta、Ampere、Hopper 等架構(gòu)，并以此為基礎(chǔ)推出了 V100、A100、H100 等高端 GPU。其中 Hopper H100 采用臺(tái)積電 4 nm 工藝，具有 800 億個(gè)晶體管，在性能、效率上遠(yuǎn)超 Ampere A100，是英偉達(dá)專為超級(jí)計(jì)算機(jī)設(shè)計(jì)的產(chǎn)品。

近日英偉達(dá)還發(fā)布新一代 GH200 Grace Hopper 超級(jí)芯片平臺(tái)，是一款為大規(guī)模 AI 和高性能計(jì)算（HPC）應(yīng)用量身打造的加速芯片。這款超級(jí)芯片在處理海量數(shù)據(jù)時(shí)，性能可提升高達(dá) 10 倍。由 72 核的 Grace CPU 和 GH100 Hopper 計(jì)算 GPU 組成?？梢钥吹?，英偉達(dá)已經(jīng)做了充足的準(zhǔn)備，全面迎接加速計(jì)算和生成式 AI 時(shí)代的到來。

AMD:到 2025 年，AMD EPYC、AMD Instinct 能源效率提高 30 倍

AMD 已經(jīng)在高性能計(jì)算領(lǐng)域推出一系列性能領(lǐng)先的產(chǎn)品，涵蓋了服務(wù)器 CPU、加速器，桌面 CPU、移動(dòng) CPU 等眾多領(lǐng)域，全方位覆蓋數(shù)字經(jīng)濟(jì)的高算力需求。此外，充分利用小芯片（Chiplet）技術(shù)，用先進(jìn)的 2.5D 和 3D 封裝技術(shù)，使 AMD 能夠靈活的進(jìn)行異構(gòu)計(jì)算解決方案系統(tǒng)級(jí)優(yōu)化。

目前 AMD EPYC 在 x86 服務(wù)器 CPU 市場(chǎng)的份額已超過 25%；其去年發(fā)布的 Instinct 生態(tài)系統(tǒng)以及此前的 ROCm 生態(tài)系統(tǒng)正在為擁有廣泛基礎(chǔ)的 HPC 和 AI 客戶提供 Exascale 級(jí)（百億億次級(jí)）技術(shù)，滿足計(jì)算加速的數(shù)據(jù)中心工作負(fù)載日益增長(zhǎng)的需求。此外 AMD 預(yù)計(jì)在 2023 年至 2024 年推出 3nm Zen 5 架構(gòu)處理器。

此外，AMD 還宣布了一項(xiàng)雄心勃勃的計(jì)劃，目標(biāo)是到 2025 年，在加速計(jì)算節(jié)點(diǎn)上運(yùn)行的人工智能訓(xùn)練和高性能計(jì)算應(yīng)用中，AMD EPYC 系列處理器和 AMD Instinct 計(jì)算卡的能源效率將提高 30 倍。

AMD 最新發(fā)布的 Instinct MI200 系列加速器的卓越性能也可助力高性能計(jì)算和人工智能訓(xùn)練。

英特爾：HPC 潛力股

作為高性能計(jì)算領(lǐng)域的創(chuàng)新引領(lǐng)者和推動(dòng)者，英特爾近年來推出了英特爾至強(qiáng)處理器，英特爾至強(qiáng)融核處理器（Xeon Phi）、3D XPoint 全新非易失性存儲(chǔ)技術(shù)、英特爾可擴(kuò)展系統(tǒng)框架（英特爾 SSF）以及英特爾 Omni-Path 架構(gòu) (Intel OPA) 等眾多創(chuàng)新產(chǎn)品和技術(shù)。

英特爾基于 Xe HPC 微架構(gòu)的數(shù)據(jù)中心 GPU Ponte Vecchio 是迄今最復(fù)雜的 SoC，包含 1000 億個(gè)晶體管，提供領(lǐng)先的浮點(diǎn)運(yùn)算和計(jì)算密度，以加速 AI、HPC 和高級(jí)分析工作負(fù)載。而英特爾推出的 Ponte Vecchio 是為 Aurora 超級(jí)計(jì)算機(jī)提供動(dòng)力的處理器，Aurora 超級(jí)計(jì)算機(jī)將會(huì)成為美國(guó)首批突破 exaflop 障礙的高性能計(jì)算機(jī)之一。

今年 3 月，英特爾官方發(fā)文表示，它們更新了高性能計(jì)算（High Performance Computing，簡(jiǎn)稱 HPC）的路線圖，并且宣布取消 Rialto Bridge 和 Lancaster Sound 的開發(fā)。英特爾表示 HPC Max 系列的重心將轉(zhuǎn)移到 Falcon Shores XPU，該 XPU 原定于 2024 年推出，不過英特爾宣布推遲到 2025 年上線。

未來計(jì)算架構(gòu)的發(fā)展趨勢(shì)是 CPU 和 GPU 融合集成，從而形成互聯(lián)、互補(bǔ)、互通的融合模式，以縮小計(jì)算和存儲(chǔ)單元的通信成本。作為在 CPU 領(lǐng)域引領(lǐng)多年的英特爾，在這一趨勢(shì)中也有著得天獨(dú)厚的優(yōu)勢(shì)。英特爾 GPU 的愿景也逐漸清晰：在計(jì)算多元化、算力需求爆發(fā)式增長(zhǎng)的大趨勢(shì)下，英特爾 GPU 將成為驅(qū)動(dòng)新興行業(yè)發(fā)展的算力基石，同時(shí)也將成為英特爾自身業(yè)務(wù)增長(zhǎng)的突破點(diǎn)。

未來，HPC 與 AI 將加速融合

如今，以 ChatGPT 為代表的生成式 AI 風(fēng)頭正熱，ChatGPT 的上線或可被視作一次新產(chǎn)業(yè)革命的引爆點(diǎn)。而這個(gè)引爆點(diǎn)之所以能出現(xiàn)，離不開背后的 HPC（高性能計(jì)算）與大數(shù)據(jù)基礎(chǔ)設(shè)施。當(dāng)下 HPC 與 AI 正在加速融合之中。

HPC 不同于 AI。HPC 的運(yùn)算精度是雙精度浮點(diǎn)運(yùn)算，64 位甚至 128 位的，所以加減乘除做得很快，它的應(yīng)用領(lǐng)域主要有科學(xué)和工程計(jì)算、天氣預(yù)報(bào)、核聚變模擬、飛行器設(shè)計(jì)。而 AI 計(jì)算機(jī)是半精度的，甚至是定點(diǎn)的，8 位的、16 位的、32 位的。AI 更適合進(jìn)行分類、自然語言處理等工作，多應(yīng)用在安防、互聯(lián)網(wǎng)搜索推薦、智能制造等領(lǐng)域。

因此，HPC 與 AI 融合，也就意味著二者的研究模式相結(jié)合，這樣 AI 也可以通過 HPC 方法去做驗(yàn)證，在保證速度的同時(shí)，提升精確度。借助 HPC 基礎(chǔ)設(shè)施，可見未來 AI 能得到更好的發(fā)揮，兩者融合將是未來幾年的主流趨勢(shì)。

新聞中心

中國(guó)HPC，潛力無限

中國(guó)高性能計(jì)算機(jī)成績(jī)斐然

高性能計(jì)算機(jī)的發(fā)展歷程

高性能計(jì)算機(jī)與 CPU「命數(shù)不同」

CPU+GPU 國(guó)產(chǎn)勢(shì)力大增

HPC 成國(guó)際芯片龍頭爭(zhēng)奪要地

未來，HPC 與 AI 將加速融合

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

中國(guó)HPC，潛力無限

中國(guó)高性能計(jì)算機(jī)成績(jī)斐然

高性能計(jì)算機(jī)的發(fā)展歷程

高性能計(jì)算機(jī)與 CPU「命數(shù)不同」

CPU+GPU 國(guó)產(chǎn)勢(shì)力大增

HPC 成國(guó)際芯片龍頭爭(zhēng)奪要地

未來，HPC 與 AI 將加速融合

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

中國(guó)HPC，潛力無限

未來，HPC 與 AI 將加速融合